CN113609873A - 翻译模型训练方法、装置及介质 - Google Patents

翻译模型训练方法、装置及介质 Download PDF

Info

Publication number
CN113609873A
CN113609873A CN202110090073.4A CN202110090073A CN113609873A CN 113609873 A CN113609873 A CN 113609873A CN 202110090073 A CN202110090073 A CN 202110090073A CN 113609873 A CN113609873 A CN 113609873A
Authority
CN
China
Prior art keywords
language
translation
bilingual
translation model
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110090073.4A
Other languages
English (en)
Inventor
曾显峰
孟凡东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110090073.4A priority Critical patent/CN113609873A/zh
Publication of CN113609873A publication Critical patent/CN113609873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种翻译模型训练方法、装置及介质,涉及人工智能技术领域,尤其涉及自然语言处理技术,该翻译模型训练方法可以提升训练出的翻译模型输出的准确性。该翻译模型训练方法中,以不同于待翻译语句的语种对应的近义词替换待翻译语句中的部分词,将不同语种一次性输入翻译模型中,从而使得翻译模型可以一次性学习多个语种之间的联系,提高翻译模型的训练效果,从而提升翻译模型的输出准确性。

Description

翻译模型训练方法、装置及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及自然语言处理技术,提供一种翻译模型训练方法、装置及介质。
背景技术
机器翻译能够让人与人的沟通不受语言的限制,可以促进各国家各地区的经济文化等各方面的交流。
目前,机器翻译通常有两种方式,第一种是通过一对一的翻译模型实现机器翻译,即一个语种至另一个语种的翻译过程均分别训练一个单独的翻译模型。第二种是通过将多个语种的双语平行语料合并训练一个单一的翻译模型,通过共享参数的翻译模型来实现多个语种的翻译。
在第二种可以简化用于翻译的模型数量,但因在训练过程中,翻译模型实际上也是分别学习任意两类语种之间的关联,与第一种训练模型的方式上无实质性差别,导致训练出的模型在各类语种的翻译表现上与双语平行语料的数据量密切相关。一旦某些语种对应的语料较少,训练出的翻译模型在翻译该语种时输出的翻译结果准确性差。
发明内容
本申请实施例提供一种翻译模型训练方法、装置及介质,用于提高翻译结果的准确性。
一方面,提供了一种翻译模型训练方法,包括:
获取多类双语平行语料,其中,每类双语平行语料包括至少一个双语语句对,每个双语语句对为相互对应且属于两个不同语种的两个语句;
针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,所述目标语种与一个双语语句对中的待翻译语句关联的语种不相同;
基于所述更新后的多类双语平行语料,对第一翻译模型进行训练,直到所述第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
一方面,本申请实施例提供一种翻译模型训练方法,包括:
从多类双语平行语料中,选取目标双语平行语料;
采用所述目标双语平行语料,对基于前文论述的翻译模型训练方法获得的已训练的第一翻译模型进行再次训练,直到所述已训练的第一翻译模型满足第二模型收敛条件,获得已训练的第二翻译模型。
一方面,本申请实施例提供一种翻译方法,包括:
响应于针对目标文本进行的翻译请求操作,通过已训练的第一翻译模型,获得翻译结果,其中,所述已训练的第一翻译模型是通过前文论述的翻译模型训练方法获得的。
一方面,本申请实施例提供一种翻译模型训练装置,包括:
语料获取模块,用于获取多类双语平行语料,其中,每类双语平行语料包括至少一个双语语句对,每个双语语句对为相互对应且属于两个不同语种的两个语句;
语料替换模块,用于针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,与一个双语语句对中的待翻译语句关联的语种不相同;
模型训练模块,用于基于所述更新后的多类双语平行语料,对第一翻译模型进行训练,直到所述第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
在一种可能的实施例中,所述语料替换模块具体用于:
从第一语种集合、第二语种集合和第三语种集合中,随机采样出目标语种,其中,所述第一语种集合包括与所述一个双语语句对中的待翻译语句关联的语种属于同个语系的语种,所述第二语种集合包括与所述一个双语语句对中的待翻译语句关联的语种属于同个语言家族的语种,所述第三语种集合包括所述多类双语平行语料关联的语种中除了所述一个双语语句对中的待翻译语句关联的语种之外的语种;
将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为所述目标语种对应的近义词。
在一种可能的实施例中,所述语料替换模块具体用于:
分别按照所述第一语种集合、所述第二语种集合和所述第三语种集合各自对应的采样概率,从所述第一语种集合、所述第二语种集合和所述第三语种集合中随机采样出所述目标语种,其中,所述第一语种集合对应的采样概率大于所述第二语种集合对应的采样概率,所述第二语种集合对应的采样概率大于所述第三语种集合对应的采样概率。
在一种可能的实施例中,所述模型训练模块具体用于:
基于所述更新后的多类双语平行语料,对第一翻译模型进行多次迭代训练,其中每次迭代训练过程包括如下操作:
针对所述更新后的多类双语平行语料中的每个更新后的双语语句对,分别执行以下操作:
将一更新后的双语语句对中的两个语句,分别转换为第一向量和第二向量;
将所述第一向量输入至第一翻译模型,获得第三向量;
基于所述第三向量与所述第二向量确定损失值;
基于获得的所述损失值对所述第一翻译模型进行参数调整。
在一种可能的实施例中,所述模型训练模块具体用于:
获得所述更新后的一双语语句对中的待翻译语句关联的第一语种标识,以及所述更新后的一双语语句对中的样本翻译语句关联的第二语种标识;
将所述第一语种标识、所述第二语种标识、以及所述第一向量,输入至第一翻译模型,获得第三向量,其中,所述第三向量用于获得所述第二语种标识对应的翻译结果。
一方面,本申请实施例提供一种翻译模型训练装置,包括:
语料选取模块,用于从多类双语平行语料中,选取目标双语平行语料;
模型训练模块,采用所述目标双语平行语料,对前文论述的翻译模型训练方法获得的已训练的第一翻译模型进行再次训练,直到所述已训练的第一翻译模型满足第二模型收敛条件,获得已训练的第二翻译模型。
一方面,本申请实施例提供一种翻译装置,包括:
翻译响应模块,用于响应于针对目标文本进行的翻译请求操作;
翻译获得模块,用于通过已训练的第一翻译模型,获得翻译结果,其中,所述已训练的第一翻译模型是通过任一的翻译模型训练方法获得的。
在一种可能的实施例中,所述翻译响应模块,还用于响应于针对所述目标文本进行的选定操作;
所述翻译获得模块,具体用于检测所述目标文本对应的语种标识,以及显示多种语种;
所述翻译响应模块,具体用于响应于针对所述多种语种中的语种选择操作,获得选择的指定语种对应的语种标识;
所述翻译获得模块,具体用于将所述目标文本对应的语种标识、所述指定语种对应的语种标识、以及所述目标文本输入至所述已训练的第一翻译模型,获得所述指定语种的翻译结果。
本申请实施例提供一种计算机设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如前文论述的翻译模型训练方法、翻译模型训练方法或翻译方法。
本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如前文论述的翻译模型训练方法、翻译模型训练方法或翻译方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
在本申请实施例中,用目标语种替换了待翻译语句中的部分词,以对多类双语平行语种进行了更新,相当于在待翻译语句中引入了其它语种的部分词,使得基于该待翻译语句对第一翻译模型进行训练时,第一翻译模型可以同时学习多种语种之间的关系,拉近不同语种之间的距离,提升第一翻译模型的整体训练效果,提高了训练第一翻译模型对各个语种的翻译能力,从而提升了该第一翻译模型的输出的准确性。且,由于可以采用目标语种中的部分词替换双语平行语种,这样一来,可以利用稀有语种进行替换,从而可以构建更多与稀有语种相关的平行语料,提升第一翻译模型对稀有语种的翻译能力。且,训练时,无需针对各个语种分别训练模型,降低了模型的训练开销。且,本申请实施例中的第一翻译模型可以用于翻译多个语种,因此在实际进行翻译时,只需部署一个模型即可,从而减少了在实际进行翻译时的资源开销。
附图说明
图1A为本申请实施例提供的一种翻译模型训练方法的应用场景图一;
图1B为本申请实施例提供的一种翻译模型训练方法的应用场景图二;
图1C为图1B中各个设备的结构示意图;
图2为本申请实施例提供的一种翻译模型方法的流程图;
图3为本申请实施例提供的第一翻译模型输出翻译结果的过程示例图;
图4为本申请实施例提供的transformer模型的结构示意图;
图5为本申请实施例提供的一种翻译模型训练方法的流程图;
图6为本申请实施例提供的一种翻译训练方法的流程图;
图7为本申请实施例提供的一种翻译目标文本的过程示例图;
图8为本申请实施例提供的图1A中终端与第二服务器之间的交互示意图;
图9为本申请实施例提供的一种翻译模型训练装置的结构示意图;
图10为本申请实施例提供的一种翻译模型训练装置的结构示意图;
图11为本申请实施例提供的一种翻译装置的结构示意图;
图12为本申请实施例提供的一种计算机设备的结构示意图一;
图13为本申请实施例提供的一种计算机设备的结构示意图二;
图14为本申请实施例提供的一种计算机设备的结构示意图三。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的名词进行介绍。
1、人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2、自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3、双语平行语料:源语言文本和其译文文本对照的语料,由双语平行语料组成的数据库又可以称为双语平行语料库(Bilingual Parallel Corpus)。双语平行语料可以按照源语言文本或译文文本的语种不同而划分为多种类,任意两类双语平行语料至少存在一种不同的语种,例如源语言文本对应的语种不同、源语言文本的译文文本对应的语种不同、或者源语言文本对应的语种不同以及源语言文本的译文文本对应的语种也同。一类双语平行语料中源语言文本对应的语种和译文文本对应的语种即为该类双语平行语种关联的两种语种。
4、双语语句对:双语语句对是指两个语种相互对照的两个语句,本申请实施例中的双语平行语料包括至少一个双语语句对。双语语句对例如,it's a nice day today:今天天气不错。
5、待翻译语句和翻译语句:在训练模型时,可以将双语语句对划分为待翻译语句和翻译语句,待翻译语句是指双语语句对用于输入模型的语句,模型根据该输入,输出模型所预测的翻译结果。翻译语句为该待翻译语句所对应的真实的翻译结果。如果双语平行语料中的源语言文本可以作为待翻译语句,那么源语言文本对应的译文文本可以作为翻译语句;如果双语平行语料中的源语言文本的译文文本可以作为待翻译语句,那么源语言文本可以作为翻译语句。
6、语系和语言家族:语言系属分类(Language family)是指根据语言的演化关系,对语言进行分类的方法,具有相同祖先的语言被归为一类,类似生物分类法。分类依据为各语言语音、词汇、语法之间的对应特征和演变规律。在全世界的语言(Languages of theWorld,Ethnologue)中将语种分为多个语系将语系的下一级分类单元称为语言家族,即语族,语族的下一级分类单元称为语支,语支下为具体的语言。例如语系包括欧语语系,欧语语系下包括凯尔特语族和日耳曼语族,日耳曼语族包括西日耳曼语支和北日耳曼语支。西日耳曼语支包括英语、德语和荷兰语等。
7、第一翻译模型和第二翻译模型:均属于翻译模型,第一翻译模型可以用于两种以及两种以上的语种之间的翻译,例如可以实现中英互译,以及实现中德互译。第二翻译模型可以实现一个语种到另一个语种的翻译,例如实现将中文翻译成英文,或者可以用于实现两种语种的互相翻译。
8、muse:MUSE是Facebook人工智能实验室开源的一个多语言双语词表及词向量(Word Embedding)库,主要通过各语言的单独数据训练词向量,再通过阿拉伯数字进行向量空间的对齐来抽取双语词表,是业界效果较好的无监督对齐方法之一。MUSE开源了100多种语种到英语的双语词典。
9、零次(Zero-shot):是指模型对于要处理的任务,之前一次也没有学习过的情况。例如,对于翻译模型当前需要进行翻译的语种的文本,在训练该模型时,训练所使用的语料中并不包括该语种,如果该翻译模型能够将该文本准确地翻译出来,那么表示该模型的零次(Zero-shot)性能佳。
10、语种标识:用于唯一表示对应的语种,语种标识的具体表示方式可以有多种,例如可以用数字表示或字符串表示等。例如英文用“0”表示,中文用“1”表示等。
11、transformer模型:翻译模型的一种,该模型包括编码器和解码器,编码器包括6个编码单元,解码器包括6个解码单元,编码器用于对输入进行深度编码,解码器对编码器的输出进行解码,以获得模型的最终输出。
下面对相关技术进行介绍:
下面分别对相关技术中涉及的训练一对一的翻译模型以及多语种的翻译模型的过程分别进行介绍:
一、训练一对一的翻译模型的过程:
一对一的神经机器翻译模型一般是通过优化模型的结构,调整参数以及收集更多的双语数据来优化翻译模型的翻译效果。在训练时,一般将双语数据的单词替换成可进行计算的数字向量,例如“我爱你”表示“(1,2,3)”,将替换后的数字向量送入翻译模型,通过翻译模型处理得到翻译结果,根据翻译结果与双语数据中对应的译文之间的误差,调整翻译模型的参数,直到翻译模型收敛,从而获得用于翻译该类语种的翻译模型。
该方式中需要为每种语言单独训练一个翻译模型来进行翻译,使得训练所需的算力和时间开销都非常大。在使用翻译模型时,也需要对每种语言单独部署多个翻译模型,涉及到的部署流程比较麻烦和复杂。训练单一的翻译模型时无法充分利用其它语种对应的双语数据。且,单一的翻译模型由于均是利用单一类型的双语数据进行训练,实际训练获得的翻译模型容易过拟合,导致使用翻译模型进行翻译时,输出的翻译结果准确性较差。
二、训练多语种的翻译模型的过程:
训练多语种的翻译模型时,可以利用多语种的双语数据,对翻译模型进行训练,但不同语种的双语数据的数据量不同,导致训练出的翻译模型在数据量较大的语种的翻译上效果更佳,而对于双语数据量少的语种的翻译上输出的翻译结果的准确性较差。
有鉴于此,本申请实施例提供一种翻译模型训练方法,该方法中采用不同语种的近义词替换双语平行语料中的部分词,从而将不同语种的词放在同一个上下文环境中,拉近了不同语种的语义空间,使得第一翻译模型可以同时学习两种及以上语种之间的语义,提升第一翻译模型的输出准确性。
基于上述设计思想,下面对本申请实施例的翻译模型训练方法的应用场景进行介绍。
本申请实施例中训练出的第一翻译模型可以适用于任意的翻译场景中,该第一翻译模型可以部署在各类应用程序或各类应用程序对应后台服务器上,以实现相应的翻译功能,例如采用第一翻译模型实时翻译用户发布在社交应用程序上的各种语种的社交信息,或采用第一翻译模型实时翻译用户发布在内容服务应用程序上的各种语种的内容。该第一翻译模型也可以部署在各类终端上,从而为用户提供不同语种的服务等。终端例如智能机器人、智能电视、智能音响或车载终端等,本申请不对此进行限制。
请参照图1A,为本申请实施例提供的一种翻译模型训练方法的应用场景图一,该应用场景包括终端110、运行在终端110中的应用程序111、第一服务器120和数据库130。
数据库130可以部署在第一服务器120中,或者部署在与第一服务器120独立设置的其它设备上,数据库130可以存储有多类双语平行语料,这些多类双语平行语料可以是第一服务器120从网络资源中获得并写入数据库130中,后续第一服务器120可以从数据库130中获得该多类双语平行语料,根据多类双语平行语料,训练第一翻译模型,以获得已训练的第一翻译模型。其中训练第一翻译模型的具体过程可以在下文中论述。
用户可以通过终端110中的应用程序111使用相应的功能,应用程序111例如可以是预装在终端110中,或嵌入在第三方应用中、或者运行在浏览器中网页等,本申请不对此进行限制。图1A中第一服务器120可以用于支持该应用程序111对应的功能。例如,当用户需要翻译某个句子时,第一服务器120可以调用已训练的第一翻译模型,从而获得该句子的翻译结果,并将翻译结果反馈给终端。
其中,第一服务器与终端可以通过通信网络进行连接,通信网络例如英特网或局域网等,本申请对此不进行限制。
请参照图1B,为本申请实施例提供的一种翻译模型训练方法的应用场景图二,该应用场景包括终端110、运行在终端110中的应用程序111、第一服务器120、数据库130和第二服务器140。
同理,第一服务器120可以获得已训练的第一翻译模型,第一服务器120将已训练的第一翻译模型发送给第二服务器140。
与图1A不同的是,在图1B所示的实施例中,第二服务器140用于支持应用程序111相应的功能,因此在实际应用第一翻译模型时,第二服务器140可以调用该已训练的第一翻译模型,从而获得对应的翻译结果。
在另一种可能的实施场景中,第一服务器120在训练第一翻译模型之后,可以直接将已训练的第一翻译模型发送给终端110,终端110直接根据该已训练的第一翻译模型,获得翻译结果。
其中,第二服务器与终端可以通过通信网络进行连接,通信网络例如英特网或局域网等,本申请对此不进行限制。第二服务器与第一服务器之间也可以通过通信网络进行连接,通信网络例如英特网或局域网等,本申请对此不进行限制。
前文论述的第一服务器或第二服务器均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、游戏设备、智能电视、智能音响、智能手环等,但并不局限于此。
为了进一步地说明图1B中各个设备的结构,下面结合图1C所示的各设备的结构示意图进行说明:
请参照图1C,第二服务器140包括翻译请求分发模块143、语言检测模块144和翻译模型调用模块145,翻译请求分发模块143、语言检测模块144和翻译模型调用模块145这三个模块可以部署在同一个进程上,或者三个模块均分别部署在不同的进程上,或者三个模块中的两个模块部署在相同的进程上,本申请不对此进行限制。在图1C中是以翻译请求分发模块143和语言检测模块144部署在第一进程141、翻译模型调用模块145部署在第二进程142为例。
用户需要进行翻译时,终端110根据用户针对目标文本进行的翻译请求操作,例如长按目标文本或在应用程序111中输入目标文本等,终端110确定当前需要进行翻译的目标文本,将目标文本发送给翻译请求分发模块143。
翻译请求分发模块143可以将目标文本先反馈给语言检测模块144,语言检测模块144检测该目标文本的语种,进而翻译请求分发模块143根据目标文本的语种和目标文本,以生成翻译请求,该翻译请求可以携带有该目标文本的语种和目标文本,还可以携带有用户指定翻译的指定语种,进而将翻译请求发送给翻译模型调用模块145。翻译模型调用模块145在收到该翻译请求之后,可以调用第一翻译模型,从而获得目标文本的翻译结果,进而将翻译结果反馈给终端110。
基于上述图1A或图1B所示的应用场景,下面以第一服务器执行翻译模型训练方法为例,对本申请实施例的翻译模型训练方法进行介绍。请参照图2,为本申请实施例提供的一种翻译模型方法的流程图,该方法的流程具体包括:
S21,获取多类双语平行语料。
双语平行语料的含义可以参照前文论述的内容,此处不再赘述,需要说明的是,本申请实施例中的双语平行语料包括至少一个双语语句对,双语语句对的具体含义可以参照前文论述的内容,此处不再赘述。第一服务器可以直接从数据库中获得多类双语平行语料,或者第一服务器可以从网络资源中获得,例如第一服务器可以从开源的双语词典中获得多类双语平行语料,具体例如第一服务器从muse提供的双语词典中获得多类双语平行语料。
作为一种实施例,双语语句对还可以关联有每个语句对应的语种标识,语种标识的含义可以参照前文论述的内容,此处不再赘述。
为了更清楚地说明多类双语平行语料,下面以表1所示的双语平行语料进行示例介绍。
表1
Figure BDA0002912368240000121
请参照上表1,“EN”、“FR”和“ZH”分别代表英文、法语和中文各自对应的语种标识,例如源语言文本为中文“食物味道不错”,该源语言文本对应英文的译文文本为“The foodtastes good”。
S22,针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词。
第一服务器在获得多类双语平行语料之后,可以对每类双语平行语料中的每个双语语句对中待翻译语句中的部分词进行替换,例如可以采用不同与该一个双语语句对中的待翻译语句关联的语种的目标语种对应的近义词进行替换,这样相当于在一个待翻译语句中引入了一种新语种,使得后续第一翻译模型可以学习更多语种之间的关系。以此类推,对每类双语平行语料中每个双语语句对中待翻译语句进行替换之后,便可以获得更新后的多类双语平行语料。
S23,基于更新后的多类双语平行语料,对第一翻译模型进行训练,直到第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
第一服务器在获得更新后的多类双语平行语料之后,可以将更新后的双语语句对中待翻译语句输入至第一翻译模型,获得第一翻译模型的翻译结果,进而根据翻译结果与该更新后的双语语句对中的真实的翻译语句,计算损失值,根据损失值,调整第一翻译模型的参数,直到满足第一模型收敛条件,,以获得已训练的第一翻译模型。第一模型收敛条件可以是第一服务器设置的,例如可以是损失值达到第一预设值,或者训练第一翻译模型的迭代训练次数满足第一预设次数等,本申请不对此进行限制。后续可以利用该已训练的第一翻译模型,进行多种语种文本之间的相互翻译。
在本申请实施例中,在训练第一翻译模型时,由于对每类双语平行语料中双语语句对中待翻译语句中部分词替换为了目标语种的近义词,也就相当于可以在待翻译语句中引入部分其他语种的词,这样可以使得第一翻译模型可以同时学习多个语种之间的关系,增强各个远距离语种之间的联系,以提高第一翻译模型的学习能力。且,这种方式有利于引入更多稀有语种的词,提升第一翻译模型对稀有语种的翻译能力。且,由于第一翻译模型能够学习更多语种之间联系,因此可以提升第一翻译模型的零次(Zero-Shot)性能。
在实际训练第一翻译模型时,是针对每类双语平行语料中每个双语语句中的待翻译语句分别进行替换,下面以替换一个待翻译语句中部分词为例,进行示例说明。在对待翻译语句进行替换时,需要确定用于替换该待翻译语句的目标语种,下面对确定替换双语语句对中待翻译语句的部分词的目标语种进行示例说明:
确定方式一:
第一服务器从各个语种集合中随机采样出目标语种。
各个语种集合包括第一语种集合、第二语种集合和第三语种集合,每个语种集合中包括的语种数量可以是没有、一个或一个以上,本申请不对此进行限制。第一语种集合包括与一个双语语句对中的待翻译语句关联的语种属于同个语系的语种,第二语种集合包括与一个双语语句对中的待翻译语句关联的语种属于同个语言家族的语种,第三语种集合包括所述多类双语平行语料关联的语种中除了一个双语语句对中的待翻译语句关联的语种之外的语种。其中同个语系和同个语言家族的含义可以参照前文论述的内容,此处不再赘述。
在本申请实施例中,第一语种集合和第二语种集合均是与当前被替换的待翻译语句的语种具有一定关联的语种,因此采用第一语种集合和第二语种集合中任意一种语种对待翻译语句进行替换,这样在引入第三种语种的特征同时,还能间接地保留被替换词的部分特征,以加强被替换的词与替换词之间的关系,提高第一翻译模型的准确性。且,在本申请实施例中,除了引入第一语种集合、第二语种集合外,还引入了第三语种集合,使得替换过程中具有一定的随机性,从而增加了第一翻译模型对随机情况的处理能力,提高第一翻译模型的泛化能力。
进一步地,在从各个语种集合中随机出目标语种时,可以设置各个语种集合的采样概率。
具体来说,第一语种集合的采样概率可以设置得比第二语种集合的采样概率大,第二语种集合的采样概率可以设置的第三语种集合的采样概率大,这样使得随机出的目标语种属于第一语种集合和第二语种集合的可能性更大,更利于确定出与待翻译语句的语种更为相关的语种。例如,第一语种集合、第二语种集合和第三语种集合各自对应的采样概率分别设置为0.6、0.3和0.1。
在本申请实施例中第一语种集合的采样概率可以设置得比第二语种集合的采样概率大,第二语种集合的采样概率可以设置的第三语种集合的采样概率大,更利于确定出与待翻译语句关联的语种更为相关的语种,可以相对提高第一翻译模型的训练效果。
确定方式二:
第一服务器可以从多类双语平行语料关联的语种中除了一类双语平行语料关联的两种语种之外的语种随机出目标语种。
在本申请实施例中,第一服务器可以直接从多个语种随机出目标语种即可,无需提前确定多个语种集合,提高了确定出的目标语种的随机性,且能够简化第一服务器的处理。
作为一种实施例,无论采用哪种方式随机采样目标语种,第一服务器均可以确定目标语种的数量,目标语种的数量可以是一个或多个,本申请不对此进行限制,进而第一服务器可以通过上述的任一方式随机采样出对应数量的目标语种。
进一步地,为了尽可能地扩充用于训练的更新后的双语平行数据,在本申请实施例中,第一服务器可以以不同数量的目标语种分别对待翻译语句中的部分词进行替换,从而一个待翻译语句可以对应获得多个更新后的待翻译语句,从而以达到扩充双语语料的目的。
例如,待翻译语句具体为“I like singing and dancing”,第一服务器确定一个目标语种具体为中文时,该待翻译语句对应的替换结果为“I like唱歌and跳舞”,第一服务器确定两个目标语种具体为中文和法语时,该待翻译语句对应的替换结果为“I likechanter and跳舞”。
本申请实施例中,以不同数量的目标语种分别对待翻译语句中的部分词进行替换,不仅可以快速扩充双语平行语料,还能同时将更多数量的语种放到同一个语句中,有利于增强各种语种之间的表达。
在对待翻译语句中的部分词进行替换时,除了需要确定目标语种之外,还需确定选择待翻译语句中哪部分词进行替换,下面对确定待翻译语句中的被替换词的方式进行示例介绍:
示例一:从待翻译语句中随机采样出固定占比的词作为被替换词。
第一服务器可以预存有固定占比,该固定占比是指选择出的被替换词的数量与待翻译语句的词的总数量之间的占比,第一服务器可以从待翻译语句中随机挑选满足固定占比的词作为被替换词。
在本申请实施例中,能够从不同的待翻译语句中筛选出不同数量的被替换词,以尽可能地替换更多的词,提升第一翻译模型的训练效果。
进一步地,由于语句中一般是名词和动词表达的语义更具有价值,因此在本申请实施例中,第一服务器可以将待翻译语句中的名词和动词对应的采样概率设置得比其他性质的词的采样概率更大,例如第一服务器将待翻译语句中的名词、动词、疑问词各自的采样概率分别设置为0.4、0.4和0.1,以最大可能地替换具有重要语义的词。
示例二:从待翻译语句中随机采样出固定数量的词作为被替换词。
第一服务器可以预存有固定数量,该固定数量的取值可以是根据实际需要设置的,该固定数量的取值小于待翻译语句包括的词的总数量。第一服务器在需要对待翻译语句中的词进行替换时,可以从该待翻译语句中随机采样出固定数量的词作为被替换词。
同理,在本申请实施例中,第一服务器可以将待翻译语句中的名词和动词对应的采样概率设置得比其他性质的词的采样概率更大。
在第一服务器确定目标语种以及待翻译语句中被替换的词之后,可以确定被替换词在目标语种对应的近义词,以确定出的近义词替换被替换词,从而获得更新后的语句,该更新后的语句以及双语语句对中翻译语句组成更新后的双语语句对,在获得每类双语平行语料下的更新后的双语语句对时,对应获得更新后的多类双语平行语料。
在获得更新后的多类双语平行语料之后,第一服务器可以执行S32,下面对执行S32的具体方式进行说明。
在对第一翻译模型进行训练时,可以基于更新后的多类双语平行语料,对第一翻译模型进行多次迭代训练,每次迭代训练的过程相同,下面对一次迭代训练的过程进行介绍:
一次迭代训练可以采用一个或多个更新后的双语语句对作为第一翻译模型的训练样本,下面以一个更新后的双语语句训练第一翻译模型为例进行介绍:
第一服务器将一更新后的双语语句对中待翻译语句转换为第一向量,将该更新后的双语语句对中翻译语句转换为第二向量,第一服务器例如可以采用独热编码(one-hot)对语句中各个词分别进行编码,以获得相应的向量。将第一向量输入第一翻译模型,该第一翻译模型的参数是上一次迭代训练后调整后的参数,或者如果本次为第一次迭代训练,那么第一翻译模型的参数为初始的参数,第一翻译模型对第一向量进行编码以及解码处理,从而输出第三向量,进而可以根据第三向量,获得对应语种预测的翻译结果。第一翻译模型输出的第三向量实际与翻译结果相对应,第一翻译模型可以经过配置,对第三向量进行转换,以获得翻译结果,也可以是第一服务器直接对第三向量进行转换,以获得翻译结果。第一服务器根据该第三向量与第二向量,计算本次训练的损失值,从而根据该损失值,调整第一翻译模型的参数。
为了保证第一翻译模型的准确性,除了利用更新后的多类双语平行语种训练第一翻译模型之外,还可以将未经更新的多类双语平行语种一并用于训练第一翻译模型,以达到更好的训练效果。
本申请实施例中涉及的第一翻译模型可以采用任意结构的网络模型,本申请不对此进行限制,第一翻译模型可以包括编码器和解码器,编码器用于对第一向量进行深度编码,解码器用于对编码器的输出进行解码,从而获得第三向量。
例如,请参照图3,为本申请实施例提供的第一翻译模型输出翻译结果的过程示例图,该第一翻译模型包括编码器和解码器,以双语平行语种中的待翻译语句为“I likesinging and dancing”为例,第一服务器将“singing”和“dancing”分别替换为日语,即获得“I like歌うandダンス”,第一服务器还可以将“singing”替换为日语,将“dancing”替换为中文,从而获得“I like歌うand跳舞”,从而第一服务器可以将更新后的待翻译语句转换为第一向量,输入第一翻译模型,从而获得第一翻译模型输出的法语的翻译结果,具体为“J’adore chanter et danser<EOS>”。图3中的“1lang”对应用一个目标语种替换后的语句,“2lang”对应用两个目标语种替换后的语句。
下面以第一翻译模型采用transformer模型为例,对训练过程进行示例介绍。
其中transformer模型包括编码器和解码器,编码器包括多个依次连接的编码单元,解码器包括依次连接的多个解码单元,编码器的最终输出输入至各个解码单元。
请参照图4,为transformer模型的结构示意图,图4中的Nx表示编码单元或解码单元的个数,Nx的取值例如为6。下面对一个编码单元和一个解码单元的结构进行介绍:
每个编码单元主要包括两个层,两个层分别是多头注意力层(multi-head self-attention mechanism)和前馈层,编码单元还包括添加和归一化(Add&Norm)层,该添加和归一化层具体包括残余连接层和层归一化层。残余连接层将自注意力层的输出与多头注意力层的输入进行组合以生成编码器多头注意力残余输出,层归一化层将层归一化应用于对自注意力残余输出。
作为一种实施例,在将第一向量输入编码单元之前,编码单元可以对第一向量进行位置嵌入,例如正弦位置嵌入,以正弦位置嵌入的使用可以允许该transformer模型可以处理更长的向量,这可以增加该transformer模型的应用的范围。
作为一种实施例,解码单元包括多头注意力层、前馈层、添加和归一化层、线性化层和归一化层和自注意力层等。解码单元根据获得上一个解码单元的输出以及编码器的最终输出,进行解码输出。
继续参照图4,解码单元用于接收上一个解码单元的第一输出,依次经过自注意力层、添加和归一化层,获得第二输出,第二输出与编码单元的第三输出一并输入依次输入多头子注意力层、添加和归一化层、前馈层、添加和归一化层、线性化层和归一化层,从而获得该解码单元的输出。
同理,解码单元在接收上一个解码单元的第一输出时,解码单元可以对第一向量进行位置嵌入,例如正弦位置嵌入,位置嵌入的方式可以参照前文论述的内容,此处不再赘述。
在第一翻译模型输出第三向量之后,第一服务器可以根据第三向量和第二向量,计算损失值,其中损失值的表征方式有多种,例如可以以交叉熵(Cross Entropy)表征,下面对交叉熵的计算公式进行示例:
Figure BDA0002912368240000191
其中,p(x)表示第二向量,即表示真实的翻译语句对应的向量,q(x)表示第三向量,即表示多语种模型输出的预测的翻译语句对应的向量。
在确定对损失值进行梯度求导,得到参数的更新方向,进而可以利用优化器,例如Adam优化器,对参数进行优化,以完成一次迭代训练,直到多语种模型收敛,获得已训练的多语种模型。
在训练第一翻译模型时,涉及到多个语种,为了便于第一翻译模型能够区分待翻译语句的语种,以及翻译语句的语种,因此在本申请实施例中,在将第一向量输入第一翻译模型时,可以将更新后的双语语句对中的待翻译语句关联的第一语种标识,以及将该更新后的双语语句中的翻译语句关联的第二语种标识一并输入至第一翻译模型。例如第一服务器可以将第一语种标识和第二语种标识分别嵌入在第一向量中的固定位置,具体例如将第一语种标识嵌入在第一向量中的开始位置,将第二语种标识嵌入在第一向量中的结束位置。语种标识的含义可以参照前文论述的内容,此处不再赘述。第一服务器在获得第一语种标识和第二语种标识后,便可以确定待翻译语句的语种,以及需要翻译成的与语种,使得第一翻译模型可以根据第二语种标识,以及第三向量,从而获得第二语种标识对应的第三向量。
在前文论述的翻译模型训练方法的基础上,本申请实施例提供一种翻译模型训练方法,下面结合图5所示的一种翻译模型训练方法的流程图,以第一服务器执行该翻译模型训练方法为例,对该方法的流程进行介绍:
S51,从多类双语平行语料中,选取目标双语平行语料。
如前文论述的内容,第一服务器获得了多类双语平行语料,可以从多类双语平行语料中,将其中的一类双语平行语料作为目标双语平行语料。第一服务器可以根据需要训练的第二翻译模型用于翻译的双语种类型,从多类双语平行语种中确定目标双语平行语料。
S52,采用目标双语平行语料,对基于前文获得的已训练的第一翻译模型进行再次训练,直到已训练的第一翻译模型满足第二模型收敛条件,获得已训练的第二翻译模型。
第一服务器通过前文论述的已训练的第一翻译模型,基于该目标双语平行语料,对该第一翻译模型进行再次训练,直到该第一翻译模型满足第二模型收敛条件,最终获得已训练的第二翻译模型。对第一翻译模型进行再次训练的过程可以参照前文训练第一翻译模型的过程,此处不再赘述。第二模型收敛条件例如可以是本次进行再次训练的迭代次数满足第二预设次数,或者可以是训练过程中的损失值达到第二预设值等。
在图5所示的实施例中,可以对之前已经训练过的第一翻译模型进行微调,从而获得用于翻译特定语种的第二翻译模型,由于第二翻译模型经过各类语种对应语料的训练后,使得第二翻译模型的泛化性更佳,且能够学习到了更通用的语法知识。在预训练结束之后,相比于直接用双语平行语料训练单一的模型,本申请实施例中获得的第二翻译模型在翻译过程中的表现更佳。
在前文论述的翻译模型训练方法的基础上,本申请实施例提供一种翻译模型训练方法,下面结合图6所示的一种翻译训练方法的流程图,以终端执行该翻译训练方法为例,对该方法的流程进行介绍:
S61,获得已训练的第一翻译模型。
终端可以从第一服务器获得已训练的第一翻译模型,第一服务器训练第一翻译模型的过程可以参照前文论述的内容,此处不再赘述。
作为一种实施例,该终端可以将第一翻译模型部署在一个单独的进程中,在需要进行翻译时,终端可以直接调用该进程,获得对应的翻译结果。
S62,响应于针对目标文本进行的翻译请求操作,通过已训练的第一翻译模型,获得翻译结果。
在具体实施时,终端可以根据用户对目标文本进行的翻译请求操作,翻译请求操作例如针对目标文本进行的翻译触发操作,具体例如用户针对目标文本进行长按操作,从而确定需要对目标文本进行翻译,从而调用已训练的第一翻译模型,从而获得翻译结果。
当用户没有选择需要翻译成的指定语种时,终端可以将该目标文本翻译成各类语种,以供用户参考。终端也可以将目标文本翻译成用户使用频率最高的语种所对应的翻译结果。其中用户使用频率最高的语种可以根据用户在终端的历史行为数据确定的,或者是根据用户画像分析得到的。
在一种可能实施例中,终端可以响应于针对目标文本进行的选定操作,例如用户对目标文本进行的长按操作,终端检测目标文本对应的语种标识,终端可以根据目标文本的特征确定目标文本对应的语种,例如终端将目标文本的特征与预存的各类语种的文本特征进行匹配,从而将相似度最高的语种确定为目标文本的语种,目标文本的特征例如目标文本的形状或轮廓等,。
与此同时,终端还可以显示多种语种,多种语种包括终端能够翻译的各类语种,这里显示的多种语种实际可以理解为显示的多个语种的语种标识,以供用户选择需要翻译成的语种。在终端显示多种语种之后,用户可以对多种语种进行语种选择操作,从而获得选择的指定语种对应的语种标识。终端根据目标文本对应的语种标识、指定语种对应的语种标识,以及目标文本输入已训练的第一翻译模型,从而获得指定语种的翻译结果。
例如,请参照图7,为一种翻译目标文本的过程示例图,请参照图7中(1),有联系人C向该用户发送了消息,终端显示该消息对应的消息内容“Bonjour,je suis responsablede la société A et je suis venu en France pour y travailler”,用户想对该消息内容701进行翻译,可以长按该消息,相当于选定了该消息内容701作为目标文本,进而用户可以点击如图7中(1)所示的翻译按键702,相当于进行翻译请求操作,终端可以直接响应于该译请求操作,获得该目标文本的中文翻译结果704,具体如图7中(3)所示的“你好,我是A公司的负责人,我来对接在法国的相关工作”。
在另外一种情况下,当用户触发图7中(1)所示的翻译按键702之后,终端可以显示多种语种703,具体如图7中(2)所示的中文、英文等,当用户选择多种语种703中的一种之后,相当于选择了指定语种,终端检测目标文本的语种,以及指定语种,调用已训练的第一翻译模型,从而获得如图7中(3)所示的中文翻译结果。
在图6所示的实施例中,可以直接使用已训练的第一翻译模型进行翻译,不仅能够获得更为准确的翻译效果,且无需针对每种语种部署模型,相对可以减少部署模型所需的资源开销。
为了更清楚地说明本申请实施例涉及的翻译方法,下面结合图8所示的1A中终端与第二服务器之间的交互示例图进行说明:
S801,终端响应于针对所述目标文本进行的选定操作,检测目标文本对应的语种标识,以及显示多种语种。
选定操作、多种语种以及检测目标文本对应的语种标识的内容可以参照前文论述的内容,此处不再赘述。
S802,终端响应于针对多种语种的语种选择操作,获得选择的指定语种对应的语种标识。
S803,终端生成翻译请求。
终端可以根据目标文本的语种标识、指定语种的语种标识以及目标文本,生成翻译请求,该翻译请求用于请求将目标文本翻译成指定语种对应的文本。
在一种可能的实施例中,终端可以不指定检测目标文本对应的语种标识,而是直接将目标文本和指定语种反馈给第二服务器,由第二服务器检测目标文本对应的语种。
S804,终端将翻译请求反馈给第二服务器。
S805,第二服务器调用已训练的第一翻译模型,获得翻译结果。
第二服务器中可以在自身的一个进程中部署一个第一翻译模型,在需要使用时,调用该进程即可。
作为一种实施例,该第一翻译模型的一个部署环境可以参照下表2所示:
表2
操作系统 内存 语言环境
Linux >16G Python/c++
请参照表2,该已训练的第一翻译模型可以部署在linux操作系统中、内存大于16G,部署在语言环境为Python或c++的环境中。
S806,第二服务器将翻译结果发送给终端。
S807,终端显示翻译结果。
在图8所示的实施例中,终端与第二服务器协同完成翻译过程,相对可以简化终端的处理量,且,第二服务器可以通过第一翻译模型,获得更为准确的翻译结果。且,第二服务器只需部署一个第一翻译模型,便可以实现对多个语种的翻译,减少了部署模型所需的开销。
基于同一发明构思,本申请实施例提供一种翻译模型训练装置,该翻译模型训练装置可以用于实现前文论述的第一服务器的功能,请参照图9,该装置包括:
语料获取模块901:用于获取多类双语平行语料,其中,每类双语平行语料包括至少一个双语语句对,每个双语语句对为相互对应且属于两个不同语种的两个语句;
语料替换模块902,用于针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,与一个双语语句对中的待翻译语句关联的语种不相同;
模型训练模块903,用于基于更新后的多类双语平行语料,对第一翻译模型进行训练,直到第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
在一种可能的实施例中,语料替换模块902具体用于:
从第一语种集合、第二语种集合和第三语种集合中,随机采样出目标语种,其中,第一语种集合包括与一个双语语句对中的待翻译语句关联的语种属于同个语系的语种,第二语种集合包括与一个双语语句对中的待翻译语句关联的语种属于同个语言家族的语种,第三语种集合包括多类双语平行语料关联的语种中除了一个双语语句对中的待翻译语句关联的语种之外的语种;
将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种对应的近义词。
在一种可能的实施例中,语料替换模块902具体用于:
分别按照第一语种集合、第二语种集合和第三语种集合各自对应的采样概率,从第一语种集合、第二语种集合和第三语种集合中随机采样出目标语种,其中,第一语种集合对应的采样概率大于第二语种集合对应的采样概率,第二语种集合对应的采样概率大于第三语种集合对应的采样概率。
在一种可能的实施例中,模型训练模块903具体用于:
基于更新后的多类双语平行语料,对第一翻译模型进行多次迭代训练,其中每次迭代训练过程包括如下操作:
针对更新后的多类双语平行语料中的每个更新后的双语语句对,分别执行以下操作:
将一更新后的双语语句对中的两个语句,分别转换为第一向量和第二向量;
将第一向量输入至第一翻译模型,获得第三向量;
基于第三向量与第二向量确定损失值;
基于获得的损失值对第一翻译模型进行参数调整。
在一种可能的实施例中,模型训练模块903具体用于:
获得更新后的一双语语句对中的待翻译语句关联的第一语种标识,以及更新后的一双语语句对中的样本翻译语句关联的第二语种标识;
将第一语种标识、第二语种标识、以及第一向量,输入至第一翻译模型,获得第三向量,其中,第三向量用于获得第二语种标识对应的翻译结果。
应当说明的是,图9所示的装置还可以用于实现前文论述任一的翻译模型训练方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种翻译模型训练装置,该翻译模型训练装置可以实现前文论述的第一服务器的功能,请参照图10,该装置包括:
语料选取模块1001,用于从多类双语平行语料中,选取目标双语平行语料;
模型训练模块1002,采用目标双语平行语料,对前文论述的翻译模型训练方法获得的已训练的第一翻译模型进行再次训练,直到已训练的第一翻译模型满足第二模型收敛条件,获得已训练的第二翻译模型。
应当说明的是,图10所示的装置还可以用于实现前文论述任一的翻译模型训练方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种翻译装置,该翻译装置可以通过前文的第二服务器实现,请参照图11,该装置包括:
翻译响应模块1101,用于响应于针对目标文本进行的翻译请求操作;
翻译获得模块1102,用于通过已训练的第一翻译模型,获得翻译结果,其中,已训练的第一翻译模型是通过前文任一的翻译模型训练方法获得的。
在一种可能的实施例中,翻译响应模块1101,还用于响应于针对目标文本进行的选定操作;
翻译获得模块1102,具体用于检测目标文本对应的语种标识,以及显示多种语种;
翻译响应模块1101,具体用于响应于针对多种语种中的语种选择操作,获得选择的指定语种对应的语种标识;
翻译获得模块1102,具体用于将目标文本对应的语种标识、指定语种对应的语种标识、以及目标文本输入至已训练的第一翻译模型,获得指定语种的翻译结果。
应当说明的是,图11所示的装置还可以用于实现前文论述任一的翻译方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种计算机设备,该计算机设备可以用于实现前文论述的第一服务器的功能,请参照图12,该计算机设备包括处理器1201和存储器1202。
处理器1201可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器1202和处理器1201之间的具体连接介质。本申请实施例在图12中以存储器1202和处理器1201之间通过总线1203连接,总线1203在图12中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1203可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1202可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1202也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1202可以是上述存储器的组合。
处理器1201,用于调用存储器1202中存储的计算机程序时执行如前文论述的任一的翻译模型训练方法,还可以用于实现图9所示的装置的功能。
基于同一发明构思,本申请实施例提供一种计算机设备,该计算机设备可以用于实现前文论述的第一服务器的功能,请参照图13,该计算机设备包括处理器1301和存储器1302。
处理器1301和存储器1302的具体实现形式可以参照前文论述的内容,此处不再赘述。其中处理器1301可以用于调用存储器1302中存储的计算机程序时执行如前文论述的任一的翻译模型训练方法,还可以用于实现图10所示的装置的功能。
基于同一发明构思,本申请实施例提供一种计算机设备,该计算机设备可以用于实现前文论述的第二服务器或终端的功能,请参照图14,该计算机设备包括处理器1401和存储器1402。
处理器1401和存储器1402的具体实现形式可以参照前文论述的内容,此处不再赘述。其中处理器1401可以用于调用存储器1402中存储的计算机程序时执行如前文论述的任一的翻译方法,还可以用于实现图11所示的装置的功能。
基于同一发明构思,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行前文论述的任一的翻译模型训练方法、翻译模型训练方法或翻译方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
基于同一发明构思,本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的任一的翻译模型训练方法、翻译模型训练方法或翻译方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种翻译模型训练方法,其特征在于,包括:
获取多类双语平行语料,其中,每类双语平行语料包括至少一个双语语句对,每个双语语句对为相互对应且属于两个不同语种的两个语句;
针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,其中,所述目标语种与一个双语语句对中的待翻译语句关联的语种不相同;
基于所述更新后的多类双语平行语料,对第一翻译模型进行训练,直到所述第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
2.如权利要求1所述的方法,其特征在于,所述将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,包括:
从第一语种集合、第二语种集合和第三语种集合中,随机采样出目标语种,其中,所述第一语种集合包括与所述一个双语语句对中的待翻译语句关联的语种属于同个语系的语种,所述第二语种集合包括与所述一个双语语句对中的待翻译语句关联的语种属于同个语言家族的语种,所述第三语种集合包括所述多类双语平行语料关联的语种中除了所述一个双语语句对中的待翻译语句关联的语种之外的语种;
将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为所述目标语种对应的近义词。
3.如权利要求2所述的方法,其特征在于,所述从第一语种集合、第二语种集合和第三语种集合中,随机采样出目标语种,包括:
分别按照所述第一语种集合、所述第二语种集合和所述第三语种集合各自对应的采样概率,从所述第一语种集合、所述第二语种集合和所述第三语种集合中随机采样出所述目标语种,其中,所述第一语种集合对应的采样概率大于所述第二语种集合对应的采样概率,所述第二语种集合对应的采样概率大于所述第三语种集合对应的采样概率。
4.如权利要求1所述的方法,其特征在于,所述基于所述更新后的多类双语平行语料,对第一翻译模型进行训练,包括:
基于所述更新后的多类双语平行语料,对第一翻译模型进行多次迭代训练,其中每次迭代训练过程包括如下操作:
针对所述更新后的多类双语平行语料中的每个更新后的双语语句对,分别执行以下操作:
将一更新后的双语语句对中的两个语句,分别转换为第一向量和第二向量;
将所述第一向量输入至第一翻译模型,获得第三向量;
基于所述第三向量与所述第二向量确定损失值;
基于获得的所述损失值对所述第一翻译模型进行参数调整。
5.如权利要求4所述的方法,其特征在于,所述将所述第一向量输入至第一翻译模型,获得所述第三向量,包括:
获得所述更新后的一双语语句对中的待翻译语句关联的第一语种标识,以及所述更新后的一双语语句对中的样本翻译语句关联的第二语种标识;
将所述第一语种标识、所述第二语种标识、以及所述第一向量,输入至第一翻译模型,获得第三向量,其中,所述第三向量用于获得所述第二语种标识对应的翻译结果。
6.一种翻译模型训练方法,其特征在于,包括:
从多类双语平行语料中,选取目标双语平行语料;
采用所述目标双语平行语料,对基于权利要求1~5任一所述的方法获得的已训练的第一翻译模型进行再次训练,直到所述已训练的第一翻译模型满足第二模型收敛条件,获得已训练的第二翻译模型。
7.一种翻译方法,其特征在于,包括:
响应于针对目标文本进行的翻译请求操作,通过已训练的第一翻译模型,获得翻译结果,其中,所述已训练的第一翻译模型是通过权利要求1~5中任一项所述的方法获得的。
8.如权利要求7所述的方法,其特征在于,所述响应于针对目标文本进行的翻译请求操作,通过已训练的第一翻译模型,获得翻译结果,包括:
响应于针对所述目标文本进行的选定操作,检测所述目标文本对应的语种标识,以及显示多种语种;
响应于针对所述多种语种中的语种选择操作,获得选择的指定语种对应的语种标识;
将所述目标文本对应的语种标识、所述指定语种对应的语种标识、以及所述目标文本输入至所述已训练的第一翻译模型,获得所述指定语种的翻译结果。
9.一种翻译模型训练装置,其特征在于,包括:
语料获取模块:用于获取多类双语平行语料,其中,每类双语平行语料包括至少一个双语语句对,每个双语语句对为相互对应且属于两个不同语种的两个语句;
语料替换模块,用于针对每类双语平行语料中的每个双语语句对,分别执行以下操作,以获得更新后的多类双语平行语料:将一类双语平行语料中的一个双语语句对中的待翻译语句的部分词替换为目标语种中的近义词,其中,所述目标语种与所述一类双语平行语料关联的两种语种均不相同;
模型训练模块,用于基于所述更新后的多类双语平行语料,对第一翻译模型进行训练,直到所述第一翻译模型满足第一模型收敛条件,获得已训练的第一翻译模型。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1~5或6或7~8中任一项所述的方法。
CN202110090073.4A 2021-01-22 2021-01-22 翻译模型训练方法、装置及介质 Pending CN113609873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110090073.4A CN113609873A (zh) 2021-01-22 2021-01-22 翻译模型训练方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110090073.4A CN113609873A (zh) 2021-01-22 2021-01-22 翻译模型训练方法、装置及介质

Publications (1)

Publication Number Publication Date
CN113609873A true CN113609873A (zh) 2021-11-05

Family

ID=78303260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110090073.4A Pending CN113609873A (zh) 2021-01-22 2021-01-22 翻译模型训练方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113609873A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316004A1 (en) * 2022-03-31 2023-10-05 Logistics and Supply Chain MultiTech R&D Centre Limited Natural language translation model training and deployment
TWI832562B (zh) * 2022-11-16 2024-02-11 英業達股份有限公司 同義詞搜尋系統及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316004A1 (en) * 2022-03-31 2023-10-05 Logistics and Supply Chain MultiTech R&D Centre Limited Natural language translation model training and deployment
TWI832562B (zh) * 2022-11-16 2024-02-11 英業達股份有限公司 同義詞搜尋系統及方法

Similar Documents

Publication Publication Date Title
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
US9805718B2 (en) Clarifying natural language input using targeted questions
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
CN110807332A (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
US11735184B2 (en) Translation and speech recognition method, apparatus, and device
KR20180019342A (ko) 기계 번역 방법 및 장치
CN110795945A (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
CN111814496B (zh) 文本处理方法、装置、设备及存储介质
CN113536795B (zh) 实体关系抽取的方法、系统、电子装置和存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN116069916A (zh) 旅游景点问答系统
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
Jong et al. Improving Performance of Automated Essay Scoring by Using Back‐Translation Essays and Adjusted Scores
Ostendorf Continuous-space language processing: Beyond word embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053659

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination