CN110309516B - 机器翻译模型的训练方法、装置与电子设备 - Google Patents

机器翻译模型的训练方法、装置与电子设备 Download PDF

Info

Publication number
CN110309516B
CN110309516B CN201910463549.7A CN201910463549A CN110309516B CN 110309516 B CN110309516 B CN 110309516B CN 201910463549 A CN201910463549 A CN 201910463549A CN 110309516 B CN110309516 B CN 110309516B
Authority
CN
China
Prior art keywords
corpus
translation model
training
target
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910463549.7A
Other languages
English (en)
Other versions
CN110309516A (zh
Inventor
刘洋
王硕
栾焕博
孙茂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910463549.7A priority Critical patent/CN110309516B/zh
Publication of CN110309516A publication Critical patent/CN110309516A/zh
Application granted granted Critical
Publication of CN110309516B publication Critical patent/CN110309516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种机器翻译模型的训练方法、装置与电子设备,其中所述方法包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。本发明实施例能够在存在噪声干扰的情况下,依然精准的训练翻译模型,保证翻译模型的精确性。

Description

机器翻译模型的训练方法、装置与电子设备
技术领域
本发明涉及机器翻译技术领域,更具体地,涉及一种机器翻译模型的训练方法、装置与电子设备。
背景技术
在语言翻译领域,为了实现自动的机器翻译,目前的技术通常采用基于神经网络的方法,此方法需要收集大规模高质量的平行语料以训练可靠的神经网络模型。然而,高质量的平行语料常常只存在于少量的几种语言之间,并且往往受限于某些特定的领域,比如政府文件、新闻等。
目前,随着数据库和互联网等关键技术的发展,各种语言各个领域的电子文献日益丰富,为机器翻译提供了丰富的单语语料,从而也为解决上述问题提供了很大的便利。因此,如何利用单语语料来提升翻译系统的性能受到越来越多的关注。
Back-Translation是一种目前被广泛使用的利用单语语料的方法,其核心思想是使用机器翻译系统将单语数据翻译为平行语料库,进而扩大平行语料库的规模,以期望在大的平行语料库上训练得到更好的翻译模型。
然而,大的平行语料库并不能消除机器翻译本身可能出现的错误,当机器翻译本身出现错误时,将导致得到的翻译结果是有噪声的,影响翻译结果的精准性,不能达到期望的效果。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种机器翻译模型的训练方法、装置与电子设备,用以在即使存在噪声干扰时,也能更精准的训练翻译模型,保证翻译模型的精确性。
第一方面,本发明实施例提供一种机器翻译模型的训练方法,包括:
利用第一平行语料库,初步训练目标端到源端的翻译模型;
利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;
利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;
基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。
第二方面,本发明实施例提供一种机器翻译模型的训练装置,包括:
第一训练模块,用于利用第一平行语料库,初步训练目标端到源端的翻译模型;
合成模块,用于利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;
评估模块,用于利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;
第二训练模块,用于基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的机器翻译模型的训练方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,所述计算机指令被计算机执行时,实现如上第一方面所述的机器翻译模型的训练方法的步骤。
本发明实施例提供的机器翻译模型的训练方法、装置与电子设备,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的机器翻译模型的训练方法的流程示意图;
图2为本发明实施例提供的机器翻译模型的训练装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本发明实施例针对现有技术中当存在噪声干扰时训练出的翻译模型翻译不精准的问题,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明实施例提供的机器翻译模型的训练方法的流程示意图,如图1所示,该方法包括:
S101,利用第一平行语料库,初步训练目标端到源端的翻译模型。
具体而言,本发明实施例首先利用有限的平行语料库,也即第一平行语料库,对目标端到源端的翻译模型进行初步训练,得到训练后的目标端到源端的翻译模型,以据此对初步翻译结果进行可信度评估。如,在有限平行语料库
Figure BDA0002078773350000041
上,可以初步训练目标端到源端的翻译模型
Figure BDA0002078773350000042
得到训练后的目标端到源端的翻译模型。其中,平行语料库(Parallel Corpus)是由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度可能有词级、句级和段级等几种。
S102,利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库。
可以理解为,为了打破有限平行语料库的作用限制,本发明实施例利用现有单语语料库来扩充有限的平行语料库。具体而言,对于待利用的单语语料库
Figure BDA0002078773350000043
也即给定单语语料库,将其中的每一句单语语料利用上述步骤得到的训练后的目标端到源端的翻译模型
Figure BDA0002078773350000051
进行翻译,得到这些单语语料对应的译文语料库
Figure BDA0002078773350000052
称作合成语料库。之后,将合成语料库与原始的给定单语语料库进行拼接,得到一个合成的平行语料库,称作第二平行语料库。
其中可选的,假设上述给定单语语料库为
Figure BDA0002078773350000053
翻译后获取合成语料库为
Figure BDA0002078773350000054
的基础上,将合成语料库与给定单语语料库拼接,获取第二平行语料库的步骤具体可以包括:按如下形式拼接合成语料库与给定单语语料库,获取第二平行语料库:
Figure BDA0002078773350000055
式中,
Figure BDA0002078773350000056
即表示第二平行语料库。
S103,利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度。
可以理解为,在利用上述训练后的目标端到源端的翻译模型对训练样本进行翻译得到翻译结果之后,可以通过对该翻译结果的可信度评估来进一步指导训练过程,从而训练出可信度更高的翻译模型。也即,本发明实施例提供了一种信心评估机制,自动评估机器翻译模型对翻译结果的信心或者称为可信度,从而在训练时可以考虑有噪声数据的信心,以期望达到更好的翻译效果。具体而言,为消除有限平行语料库的限制带来的过拟合问题,采用蒙特·卡罗随机失活算法,来对上述翻译结果进行可信度评估,得到评估结果,即可信度。
S104,基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。
可以理解为,在根据上述步骤得到评估结果即可信度之后,将上述第一平行语料库与第二平行语料库进行整合,成为一个完整的训练样本库,也即整体语料库,再在该整体语料库上来对源端到目标端的翻译模型进行训练,以使训练出的翻译模型更精准、更可靠。则进一步的,可利用该训练出的翻译模型对待翻译文档进行翻译,得到更精准、更可靠的翻译译文。
本发明实施例提供的机器翻译模型的训练方法,通过处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。
在实际应用中,语料库中的语料通常可能出现乱码、字符不统一等问题,导致数据处理过程较为复杂。为此,在利用第一平行语料库,初步训练目标端到源端的翻译模型的步骤之前,本发明实施例的机器翻译模型的训练方法还可以包括:对第一平行语料库中的数据依次进行乱码过滤处理、中文半角字符转全角处理、中文分词处理和英文语料小写化处理,建立对应的词表;相应的,基于该词表,初步训练目标端到源端的翻译模型。
可以理解为,本发明实施例可在应用数据前对所有数据进行预处理,包括乱码过滤、中文半角字符转全角、中文分词、英文语料小写化和建立词表等步骤。此处所有数据可以包括第一平行语料库中的所有数据和/或给定单语语料库中的数据等。
其中,根据上述各实施例可选的,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度的步骤具体包括:
利用蒙特·卡罗随机失活算法,随机选取训练后的目标端到源端的翻译模型的部分权重;利用部分权重,计算翻译结果中每一个词级别的后验概率;针对翻译结果,重复执行随机选取至计算的步骤,直至达到给定次数,获取对翻译结果中所有词的后验概率集合;基于后验概率集合,计算概率均值和概率方差,并基于概率均值和概率方差,求解翻译结果中词级别的可信度和句子级别的可信度。
具体而言,为了描述方便,本发明实施例根据上述各实施例,假设目标端到源端的翻译模型
Figure BDA0002078773350000061
对目标端句子y翻译得到的翻译结果为
Figure BDA0002078773350000071
则:
步骤1,使用dropout随机挑选模型
Figure BDA0002078773350000072
的部分权重得到
Figure BDA0002078773350000073
步骤2,使用
Figure BDA0002078773350000074
计算
Figure BDA0002078773350000075
中每一个词级别的概率
Figure BDA0002078773350000076
Figure BDA0002078773350000077
步骤3,循环执行步骤1至步骤2的操作K次,对
Figure BDA0002078773350000078
中每一个词
Figure BDA0002078773350000079
得到:
Figure BDA00020787733500000710
步骤4,根据概率集合
Figure BDA00020787733500000711
计算均值
Figure BDA00020787733500000712
和方差
Figure BDA00020787733500000713
其中i=1,...,I;
步骤5,定义
Figure BDA00020787733500000714
Figure BDA00020787733500000715
的信心计算公式为:
Figure BDA00020787733500000716
其中i=1,...,I。
则利用上式计算
Figure BDA00020787733500000717
Figure BDA00020787733500000718
的信心
Figure BDA00020787733500000719
类似的,可以定义
Figure BDA00020787733500000720
Figure BDA00020787733500000721
整句的信心
Figure BDA00020787733500000722
Figure BDA00020787733500000723
中每一个词,都执行上述步骤1至步骤5的操作,计算得到
Figure BDA00020787733500000724
对每句话的信心和每个词的信心。
在基于上述各实施例计算得到每个句子的可信度和每个词的可信度的基础上,可分别利用每个句子的可信度和每个词的可信度来训练源端到目标端的翻译模型,具体应用时,对词级信心的利用和句级信心的利用有所差异。
其中可选的,对于句子级别的可信度,基于可信度,训练源端到目标端的翻译模型的步骤具体包括:
基于句子级别的可信度,通过修改对源端到目标端的翻译模型的训练准则,训练源端到目标端的翻译模型,其中,修改训练过程的目标函数如下:
Figure BDA0002078773350000081
确定采用极大似然法的训练方式如下:
Figure BDA0002078773350000082
式中,Db表示第一平行语料库,
Figure BDA0002078773350000083
表示第二平行语料库,θx→y表示源端到目标端的翻译模型的参数,M、N分别表示第一平行语料库和第二平行语料库的规模,x(m)、y(m)表示第一平行语料库中的一个平行句对,
Figure BDA0002078773350000084
y(n)表示第二平行语料库中的一个平行句对,
Figure BDA0002078773350000085
表示训练后的目标端到源端的翻译模型的参数。
其中可选的,对于词级别的可信度,基于可信度,训练源端到目标端的翻译模型的步骤具体包括:
基于词级别的可信度,通过修改对源端到目标端的翻译模型的注意力机制,训练源端到目标端的翻译模型,其中,假设源端到目标端的翻译模型的原始注意力机制为:
Figure BDA0002078773350000086
将词级别的可信度的向量表示
Figure BDA0002078773350000087
整合到注意力机制中,获取新的注意力机制:
Figure BDA0002078773350000088
基于新的注意力机制,训练源端到目标端的翻译模型。
也就是说,其一,通过修改对翻译模型的训练准则,来利用句子级别的信心:
Figure BDA0002078773350000091
其中训练方式为极大似然法:
Figure BDA0002078773350000092
其二,通过修改注意力机制来利用词级别的信心,假设使用的翻译模型中的原始注意力机制为:
Figure BDA0002078773350000093
将词级别的信心向量
Figure BDA0002078773350000094
整合到注意力机制中,得:
Figure BDA0002078773350000095
通过利用词级别和句级别的信心,期望模型θx→y可以在有噪声的平行语料库
Figure BDA0002078773350000096
上获得更好的效果。
另外,在上述各实施例的基础上,在训练源端到目标端的翻译模型的步骤之后,本发明实施例的机器翻译模型的训练方法还可以包括:利用训练完成的源端到目标端的翻译模型,翻译待翻译文件。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下具体的处理流程,但不对本发明实施例的保护范围进行限制。
本发明实施例的目的在于能够在使用单语数据生成的有噪声平行语料库上更好地训练神经网络翻译模型,具体在有噪声数据上训练翻译模型的方法可包括以下步骤:
首先,在有限平行语料库
Figure BDA0002078773350000097
上训练目标端到源端的翻译模型
Figure BDA0002078773350000101
其次,使用
Figure BDA0002078773350000102
对单语语料库
Figure BDA0002078773350000103
中每句话进行翻译,得到合成语料库
Figure BDA0002078773350000104
将合成语料库与单语语料库拼接,得到合成平行语料库
Figure BDA0002078773350000105
再次,使用蒙特·卡罗随机失活(Monte Carlo dropout,MC dropout)算法,评估
Figure BDA0002078773350000106
对翻译结果的信心;
最后,使用上一步骤中得到的信心,指导翻译模型
Figure BDA0002078773350000107
Figure BDA0002078773350000108
上的训练过程,以期望达到更好的翻译效果。
本发明实施例基于MC dropout计算得到的不确定度,来对机器翻译结果进行信心评估,与现有质量评估技术相比是一种无监督的方法,因而有更加广泛的使用情境。本发明实施例基于Back-Translation的方法,是一种利用信心的训练方法,可以让模型在有噪声的数据上有针对性的减弱噪声带来的影响。实验证明,相比于朴素的Back-Translation的方法,本发明实施例的方法可以有效提升译文的质量。
基于相同的构思,本发明实施例根据上述各实施例还提供一种机器翻译模型的训练装置,该装置用于在上述各实施例中实现机器翻译模型的训练。因此,在上述各实施例的机器翻译模型的训练方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,机器翻译模型的训练装置的结构如图2所示,为本发明实施例提供的机器翻译模型的训练装置的结构示意图,该装置可以用于实现上述各方法实施例中机器翻译模型的训练,该装置包括:第一训练模块201、合成模块202、评估模块203和第二训练模块204。其中:
第一训练模块201用于利用第一平行语料库,初步训练目标端到源端的翻译模型;合成模块202用于利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;评估模块203用于利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;第二训练模块204用于基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型。
具体而言,第一训练模块201利用有限的平行语料库,也即第一平行语料库,对目标端到源端的翻译模型进行初步训练,得到训练后的目标端到源端的翻译模型,以据此对初步翻译结果进行可信度评估。其中,平行语料库(Parallel Corpus)是由原文文本及其平行对应的译语文本构成的双语语料库,其双语对应程度可能有词级、句级和段级等几种。
之后,为了打破有限平行语料库的作用限制,合成模块202利用现有单语语料库来扩充有限的平行语料库。具体而言,对于待利用的单语语料库
Figure BDA0002078773350000111
也即给定单语语料库,合成模块202将其中的每一句单语语料利用上述步骤得到的训练后的目标端到源端的翻译模型
Figure BDA0002078773350000112
进行翻译,得到这些单语语料对应的译文语料库
Figure BDA0002078773350000113
称作合成语料库。之后,合成模块202将合成语料库与原始的给定单语语料库进行拼接,得到一个合成的平行语料库,称作第二平行语料库。
再之后,在利用上述训练后的目标端到源端的翻译模型对训练样本进行翻译得到翻译结果之后,评估模块203可以通过对该翻译结果的可信度评估来进一步指导训练过程,从而训练出可信度更高的翻译模型。也即,评估模块203利用一种信心评估机制,自动评估机器翻译模型对翻译结果的信心或者称为可信度,从而在训练时可以考虑有噪声数据的信心,以期望达到更好的翻译效果。具体而言,为消除有限平行语料库的限制带来的过拟合问题,评估模块203采用蒙特·卡罗随机失活算法,来对上述翻译结果进行可信度评估,得到评估结果,即可信度。
最后,第二训练模块204在得到评估结果即可信度之后,将上述第一平行语料库与第二平行语料库进行整合,成为一个完整的训练样本库,也即整体语料库,再在该整体语料库上来对源端到目标端的翻译模型进行训练,以使训练出的翻译模型更精准、更可靠。则进一步的,可利用该训练出的翻译模型对待翻译文档进行翻译,得到更精准、更可靠的翻译译文。
本发明实施例提供的机器翻译模型的训练装置,通过设置相应的执行模块,处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的机器翻译模型的训练装置利用上述各程序模块,能够实现上述各方法实施例的机器翻译模型的训练流程,在用于实现上述各方法实施例中机器翻译模型的训练时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤。
进一步的,本发明实施例的电子设备还可以包括通信接口和总线。参考图3,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器301、至少一个处理器302、通信接口303和总线304。
其中,存储器301、处理器302和通信接口303通过总线304完成相互间的通信,通信接口303用于该电子设备与翻译模型设备之间的信息传输;存储器301中存储有可在处理器302上运行的计算机程序,处理器302执行该计算机程序时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤。
可以理解为,该电子设备中至少包含存储器301、处理器302、通信接口303和总线304,且存储器301、处理器302和通信接口303通过总线304形成相互间的通信连接,并可完成相互间的通信,如处理器302从存储器301中读取机器翻译模型的训练方法的程序指令等。另外,通信接口303还可以实现该电子设备与翻译模型设备之间的通信连接,并可完成相互间信息传输,如通过通信接口303实现机器翻译模型的训练等。
电子设备运行时,处理器302调用存储器301中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型等。
上述的存储器301中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令被计算机执行时,实现如上述各实施例所述的机器翻译模型的训练方法的步骤,例如包括:利用第一平行语料库,初步训练目标端到源端的翻译模型;利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将合成语料库与给定单语语料库拼接,获取第二平行语料库;利用蒙特·卡罗随机失活算法,评估利用训练后的目标端到源端的翻译模型所获取翻译结果的可信度;基于可信度,利用第一平行语料库与第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的机器翻译模型的训练方法,处理现有单语语料来扩充用来训练模型的平行语料库,并进一步利用蒙特·卡罗随机失活算法来对翻译结果进行评估,以根据评估结果进一步训练翻译模型,不仅能够有效消除噪声干扰的影响,而且能够避免训练样本过少导致的过饱和问题,从而在存在噪声干扰的情况下,依然能精准的训练翻译模型,保证翻译模型的精确性。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (9)

1.一种机器翻译模型的训练方法,其特征在于,包括:
利用第一平行语料库,初步训练目标端到源端的翻译模型;
利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;
利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;
基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型;
其中,所述评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度的步骤具体包括:
利用蒙特·卡罗随机失活算法,随机选取所述训练后的目标端到源端的翻译模型的部分权重;
利用所述部分权重,计算所述翻译结果中每一个词级别的后验概率;
针对所述翻译结果,重复执行所述随机选取至所述计算的步骤,直至达到给定次数,获取对所述翻译结果中所有词的后验概率集合;
基于所述后验概率集合,计算概率均值和概率方差,并基于所述概率均值和所述概率方差,求解所述翻译结果中词级别的可信度和句子级别的可信度。
2.根据权利要求1所述的机器翻译模型的训练方法,其特征在于,对于所述句子级别的可信度,基于所述可信度,训练源端到目标端的翻译模型的步骤具体包括:
基于所述句子级别的可信度,通过修改对所述源端到目标端的翻译模型的训练准则,训练所述源端到目标端的翻译模型,其中,修改训练过程的目标函数如下:
Figure FDA0002539338360000021
Figure FDA0002539338360000022
确定采用极大似然法的训练方式如下:
Figure FDA0002539338360000023
式中,Db表示所述第一平行语料库,
Figure FDA0002539338360000024
表示所述第二平行语料库,θx→y表示源端到目标端的翻译模型的参数,M、N分别表示第一平行语料库和第二平行语料库的规模,x(m)、y(m)表示第一平行语料库中的一个平行句对,
Figure FDA0002539338360000025
y(n)表示第二平行语料库中的一个平行句对,
Figure FDA0002539338360000026
表示所述训练后的目标端到源端的翻译模型的参数。
3.根据权利要求1所述的机器翻译模型的训练方法,其特征在于,对于所述词级别的可信度,基于所述可信度,训练所述源端到目标端的翻译模型的步骤具体包括:
基于所述词级别的可信度,通过修改对所述源端到目标端的翻译模型的注意力机制,训练所述源端到目标端的翻译模型,其中,假设所述源端到目标端的翻译模型的原始注意力机制为:
Figure FDA0002539338360000027
将所述词级别的可信度的向量表示
Figure FDA0002539338360000028
整合到注意力机制中,获取新的注意力机制:
Figure FDA0002539338360000029
基于所述新的注意力机制,训练所述源端到目标端的翻译模型。
4.根据权利要求1所述的机器翻译模型的训练方法,其特征在于,在所述利用第一平行语料库,初步训练目标端到源端的翻译模型的步骤之前,还包括:
对所述第一平行语料库中的数据依次进行乱码过滤处理、中文半角字符转全角处理、中文分词处理和英文语料小写化处理,建立对应的词表;
相应的,基于所述词表,初步训练所述目标端到源端的翻译模型。
5.根据权利要求1所述的机器翻译模型的训练方法,其特征在于,所述将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库的步骤具体包括:
假设所述给定单语语料库为
Figure FDA0002539338360000031
翻译后获取所述合成语料库为
Figure FDA0002539338360000032
则按如下形式拼接所述合成语料库与所述给定单语语料库,获取所述第二平行语料库:
Figure FDA0002539338360000033
式中,
Figure FDA0002539338360000034
表示所述第二平行语料库,N表示第二平行语料库的规模。
6.根据权利要求1-5中任一项所述的机器翻译模型的训练方法,其特征在于,在所述训练所述源端到目标端的翻译模型的步骤之后,还包括:
利用训练完成的源端到目标端的翻译模型,翻译待翻译文件。
7.一种机器翻译模型的训练装置,其特征在于,包括:
第一训练模块,用于利用第一平行语料库,初步训练目标端到源端的翻译模型;
合成模块,用于利用训练后的目标端到源端的翻译模型,分别翻译给定单语语料库中的每一句,获取合成语料库,并将所述合成语料库与所述给定单语语料库拼接,获取第二平行语料库;
评估模块,用于利用蒙特·卡罗随机失活算法,评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度;
第二训练模块,用于基于所述可信度,利用所述第一平行语料库与所述第二平行语料库构成的整体语料库,训练源端到目标端的翻译模型;
其中,所述评估利用所述训练后的目标端到源端的翻译模型所获取翻译结果的可信度的步骤具体包括:
利用蒙特·卡罗随机失活算法,随机选取所述训练后的目标端到源端的翻译模型的部分权重;
利用所述部分权重,计算所述翻译结果中每一个词级别的后验概率;
针对所述翻译结果,重复执行所述随机选取至所述计算的步骤,直至达到给定次数,获取对所述翻译结果中所有词的后验概率集合;
基于所述后验概率集合,计算概率均值和概率方差,并基于所述概率均值和所述概率方差,求解所述翻译结果中词级别的可信度和句子级别的可信度。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至6中任一项所述的机器翻译模型的训练方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被计算机执行时,实现如权利要求1至6中任一项所述的机器翻译模型的训练方法的步骤。
CN201910463549.7A 2019-05-30 2019-05-30 机器翻译模型的训练方法、装置与电子设备 Active CN110309516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910463549.7A CN110309516B (zh) 2019-05-30 2019-05-30 机器翻译模型的训练方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910463549.7A CN110309516B (zh) 2019-05-30 2019-05-30 机器翻译模型的训练方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN110309516A CN110309516A (zh) 2019-10-08
CN110309516B true CN110309516B (zh) 2020-11-24

Family

ID=68074948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910463549.7A Active CN110309516B (zh) 2019-05-30 2019-05-30 机器翻译模型的训练方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN110309516B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046677B (zh) * 2019-12-09 2021-07-20 北京字节跳动网络技术有限公司 一种翻译模型的获取方法、装置、设备和存储介质
CN111368566B (zh) * 2020-03-19 2023-06-30 中国工商银行股份有限公司 文本处理方法、装置、电子设备及可读存储介质
CN111507114B (zh) * 2020-04-10 2023-04-18 思必驰科技股份有限公司 基于反向翻译的口语文本增强方法及系统
CN111859995B (zh) * 2020-06-16 2024-01-23 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN111967276B (zh) * 2020-07-31 2024-02-23 北京捷通华声科技股份有限公司 翻译质量评估方法及装置、电子设备、存储介质
CN111738025B (zh) * 2020-08-20 2020-11-17 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN113268996A (zh) * 2021-06-02 2021-08-17 网易有道信息技术(北京)有限公司 用于扩充语料的方法和用于翻译模型的训练方法及产品
CN113515959B (zh) * 2021-06-23 2022-02-11 网易有道信息技术(北京)有限公司 机器翻译模型的训练方法、机器翻译方法及相关设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
CN102650988B (zh) * 2011-02-25 2017-12-26 北京百度网讯科技有限公司 一种基于目标语言复述资源的机器翻译方法及装置
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN103092831B (zh) * 2013-01-25 2015-08-19 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN104391885B (zh) * 2014-11-07 2017-07-28 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN107798386B (zh) * 2016-09-01 2022-02-15 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN107038159B (zh) * 2017-03-09 2019-07-12 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN109284511B (zh) * 2018-09-04 2023-05-16 苏州大学 主动学习平行语料构建方法

Also Published As

Publication number Publication date
CN110309516A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309516B (zh) 机器翻译模型的训练方法、装置与电子设备
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US20190171720A1 (en) Method and system for generation of candidate translations
CN110543644A (zh) 包含术语翻译的机器翻译方法、装置与电子设备
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN113408272A (zh) 摘要生成模型的训练方法、装置、设备和存储介质
CN111191469B (zh) 大规模语料清洗对齐方法及装置
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN110874535A (zh) 依存关系对齐组件、依存关系对齐训练方法、设备及介质
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN110147558B (zh) 一种翻译语料处理的方法和装置
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Mori et al. Language Resource Addition: Dictionary or Corpus?
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
JP2013109364A (ja) Cjk名前検出
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114254634A (zh) 一种多媒体数据的挖掘方法、装置、存储介质及设备
CN113609287A (zh) 一种文本摘要的生成方法、装置、计算机设备和存储介质
CN112766002A (zh) 基于动态规划的文本对齐方法及系统
CN113011149A (zh) 一种文本纠错方法及系统
US20180033425A1 (en) Evaluation device and evaluation method
CN116257643B (zh) 跨语言实体对齐方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant