CN110765791B - 机器翻译自动后编辑方法及装置 - Google Patents
机器翻译自动后编辑方法及装置 Download PDFInfo
- Publication number
- CN110765791B CN110765791B CN201911060848.2A CN201911060848A CN110765791B CN 110765791 B CN110765791 B CN 110765791B CN 201911060848 A CN201911060848 A CN 201911060848A CN 110765791 B CN110765791 B CN 110765791B
- Authority
- CN
- China
- Prior art keywords
- copy
- word
- machine translation
- sample
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种机器翻译自动后编辑方法及装置,方法包括:获取目标源语言句子和目标机器翻译草稿;将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果,准确性较高。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种机器翻译自动后编辑方法及装置。
背景技术
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多,各有特征,形式灵活,使得语言的自动处理,包括语言之间的机器翻译,成为至关重要的技术。
机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。然而翻译的质量不尽如人意,为了保证翻译的质量需要人工对已翻译文本(即机器翻译草稿)进行编辑修改,这样的翻译后编辑耗费的人力小于直接由语言专家对源语言文本进行翻译需要的人力。自动后编辑技术旨在将后编辑过程自动化,使计算机以源语言文本以及经过翻译的文本为输入,输出经过后编辑的文本。
目前,现有的机器翻译通常使用基于深度学习的序列到序列方法,可以将源语言句子映射到目标语言句子。目前,现有的自动后编辑也使用基于深度学习的序列到序列方法,区别在于自动后编辑比机器翻译多了一个机器翻译草稿的输入,即双序列到单序列的映射。
但是,现有的自动后编辑使用基于深度学习的序列到序列方法,虽然可以完成翻译后编辑工作,但是准确性较低,编辑效果较差。
发明内容
针对现有技术存在的问题,本发明实施例提供一种机器翻译自动后编辑方法及装置。
本发明实施例提供一种机器翻译自动后编辑方法,包括:
获取目标源语言句子和目标机器翻译草稿;
将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
可选地,在将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子之前,本实施例所述方法还包括:
构建包含拷贝标签的训练集;
基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
可选地,所述构建包含拷贝标签的训练集,包括:
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。
可选地,所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),
其中,α为超参数,θ为模型参数,Y表示PE的词嵌入序列,X表示SRC的词嵌入序列,表示MT的词嵌入序列,Lape(θ)为传统序列到序列学习的损失函数,Lpred(θ)为对预测器进行监督的损失函数,Lpred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到,K为MT中词的数量,lk为MT中第k个词的拷贝标签,Sk为MT中第k个词预测的拷贝分数。
可选地,在训练阶段基于所述包含拷贝标签的训练集,使用Adam优化器对深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
本发明实施例提供一种机器翻译自动后编辑装置,包括:
第一获取模块,用于获取目标源语言句子和目标机器翻译草稿;
后编辑模块,用于将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
可选地,所述装置还包括:
构建模块,用于构建包含拷贝标签的训练集;
训练模块,用于基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
可选地,所述构建模块,具体用于
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述方法的步骤。
本发明实施例提供的机器翻译自动后编辑方法及装置,通过将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的,由此,能够高效准确的自动完成机器翻译后编辑工作,准确性较高,有效提升机器翻译自动后编辑的编辑效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种机器翻译自动后编辑方法的流程示意图;
图2为本发明一实施例提供的自动后编辑深度学习模型的训练原理示意图;
图3为本发明一实施例提供的一种机器翻译自动后编辑装置的结构示意图;
图4为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种机器翻译自动后编辑方法的流程示意图,如图1所示,本实施例的机器翻译自动后编辑方法,包括:
S1、获取目标源语言句子和目标机器翻译草稿。
需要说明的是,本实施例所述机器翻译自动后编辑方法的执行主体为处理器。
可以理解的是,所述目标机器翻译草稿是对所述目标源语言句子进行机器翻译后得到的。本实施例是要先获取目标源语言句子和目标机器翻译草稿,后续将所述目标源语言句子和目标机器翻译草稿输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子。
S2、将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
可以理解的是,自动后编辑存在一个特点,机器翻译草稿与输出的编辑后句子在大部分情况下比较相近,机器翻译草稿中的词大部分是可以重复利用的,即可以从机器翻译草稿拷贝到输出的编辑后句子。现有的自动后编辑方案没有针对性地利用这一特点,仅单纯地使用基于深度学习的序列到序列映射。所以,本实施例提供的机器翻译自动后编辑方法正是利用这一特点,利用基于包含拷贝标签的训练集训练生成的自动后编辑深度学习模型,实现机器翻译自动后编辑。本实施例中的“显式”是指对拷贝现象显式地建模,与“隐式”相反。
本发明实施例提供的机器翻译自动后编辑方法,通过将目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的,由此,能够高效准确的自动完成机器翻译后编辑工作,准确性较高,有效提升机器翻译自动后编辑的编辑效果。
进一步地,在上述实施例的基础上,在所述步骤S2之前,本实施例所述方法还可以包括图中未示出的步骤:
P1、构建包含拷贝标签的训练集。
在具体应用中,所述步骤P1可以包括:
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;利用最长公共子序列算法(LCS),计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。
可以理解的是,可以根据实际情况对预设数量进行设置,本实施例并不对其进行限制。
可以理解的是,现有技术中训练集中的训练样本通常为包含有样本源语言句子、样本机器翻译草稿和样本编辑后句子的三元组,与现有技术相比,本实施例将该三元组扩增成了包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组。举例来说,现有技术中训练集中的训练样本为(“我喜欢音乐”,“I like football”,“I like music”),本实施例训练集中的训练样本为(“我喜欢音乐”,“I like football”,“I like music”,110),其中“I”和“like”需要被拷贝,它们的标签为1,而“football”不需要被拷贝,它的标签为0。这样,能够实现对包含拷贝标签的训练集的构建。
P2、基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
在具体应用中,所述步骤P2可以包括图中未示出的步骤:
P21、将SRC和MT转换为词嵌入序列。
Xi=Etoken[xi]+Epos[i]+Elang[0],
其中,xi和分别是SRC中的第i个词和MT中的第k个词,Etoken、Epos和Elang分别是词、位置和语言相关的词嵌入矩阵,[·]代表索引操作,Xi是SRC中的第i个词的浅层稠密向量表示,是MT中的第k个词的浅层稠密向量表示。
P22、将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter,可以参考图2。
具体地,将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数:
S为所述预测器输出的对MT中每个词预测的拷贝分数,Predictor(·)为预测器,是一Np(超参数)层的Transformer编码器,sigmoid(·)为深度学习中常用的S型激活函数,是高层稠密向量表示中的MT部分,θ为模型参数,Ws为参数矩阵。
将拷贝分数S融入到注意力层当中,所使用的注意力机制处理公式为:
m={1.0}I,
其中,energy是传统注意力方法中由关键值K和查询q得到的能量向量,d是稠密向量的维度,m是全为1.0的向量,与拷贝分数S连接后对能量向量进行点乘,最后经由深度学习中的常用归一化函数softmax进行归一化。
具体地,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter:
其中,Encoderinter(·)是一Ne(超参数)层的Transformer编码器。
P23、将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出,可以参考图2。
具体地,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率,包括:
首先,解码器利用下述公式,得到PE中每个词的原始的条件概率:
然后,基于PE中每个词的原始的条件概率,利用拷贝网络CopyNet,获得PE中每个词的最终的条件概率,将所述PE中每个词的最终的条件概率作为通过融合了拷贝网络CopyNet的解码器得到的PE中每个词的条件概率:
将PE中第j个词yj的最终的条件概率视为PE中第j个词yj的拷贝概率Pcopy(yj)和PE中第j个词yj的生成概率Pgen(yj)(PE中第j个词yj的生成概率Pgen(yj)即为上述PE中第j个词yj的原始的条件概率)的线性插值:
其中,γj为PE中第j个词的插值系数,各部分具体计算公式如下:
其中,g(·)和u(·)可以为任意非线性函数。
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),
其中,α为超参数,θ为模型参数,Y表示PE的词嵌入序列,X表示SRC的词嵌入序列,表示MT的词嵌入序列,Lape(θ)为传统序列到序列学习的损失函数,Lpred(θ)为对预测器进行监督的损失函数,Lpred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到,K为MT中词的数量,lk为MT中第k个词的拷贝标签,Sk为MT中第k个词预测的拷贝分数。总的损失函数是Lape(θ)和Lpred(θ)两者的线性插值。
本实施例在训练阶段可以基于所述包含拷贝标签的训练集,使用Adam优化器对深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。这样,本实施例能够使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
可以理解的是,本实施例将SRC和MT共同进行编码,使得SRC和MT的信息可以进行交互;并提出一个预测器(Predictor),以SRC和MT的词嵌入序列为输入,预测MT中的词是否应该被拷贝,在训练阶段以构建的拷贝标签进行有监督学习,预测的拷贝分数融入后续的注意力层中,使得是否应该拷贝的预测信息被充分利用。
本发明实施例提供的机器翻译自动后编辑方法,与现有技术相比,能够显式地对自动后编辑中的拷贝进行建模,并提出将目标源语言句子与目标机器翻译草稿联合编码,可以更好地显式标出目标机器翻译草稿中需要拷贝的词,并进一步拷贝到输出的编辑后句子中。本实施例相较现有技术中简单的序列到序列映射框架,对拷贝机制进行了显式建模,能够高效准确的自动完成机器翻译后编辑工作,准确性较高,能有效提高自动后编辑的效果,从而改善翻译的最终质量,具有良好的实用性。
图3示出了本发明一实施例提供的一种机器翻译自动后编辑装置的结构示意图,如图3所示,本实施例的机器翻译自动后编辑装置,包括:第一获取模块31和后编辑模块32;其中:
所述第一获取模块31,用于获取目标源语言句子和目标机器翻译草稿;
所述后编辑模块32,用于将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
具体地,所述第一获取模块31获取目标源语言句子和目标机器翻译草稿;所述后编辑模块32将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
需要说明的是,本实施例所述机器翻译自动后编辑装置应用于处理器。
可以理解的是,所述目标机器翻译草稿是对所述目标源语言句子进行机器翻译后得到的。
可以理解的是,自动后编辑存在一个特点,机器翻译草稿与输出的编辑后句子在大部分情况下比较相近,机器翻译草稿中的词大部分是可以重复利用的,即可以从机器翻译草稿拷贝到输出的编辑后句子。现有的自动后编辑方案没有针对性地利用这一特点,仅单纯地使用基于深度学习的序列到序列映射。所以,本实施例提供的机器翻译自动后编辑装置正是利用这一特点,利用基于包含拷贝标签的训练集训练生成的自动后编辑深度学习模型,实现机器翻译自动后编辑。本实施例中的“显式”是指对拷贝现象显式地建模,与“隐式”相反。
本发明实施例提供的机器翻译自动后编辑装置,通过第一获取模块获取目标源语言句子和目标机器翻译草稿,后编辑模块将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子,其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的,由此,能够高效准确的自动完成机器翻译后编辑工作,准确性较高,有效提升机器翻译自动后编辑的编辑效果。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
构建模块,用于构建包含拷贝标签的训练集;
训练模块,用于基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
具体地,所述构建模块,可具体用于
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;构建训练样本,所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,将预设数量的训练样本组成包含拷贝标签的训练集。
可以理解的是,可以根据实际情况对预设数量进行设置,本实施例并不对其进行限制。
可以理解的是,现有技术中训练集中的训练样本通常为包含有样本源语言句子、样本机器翻译草稿和样本编辑后句子的三元组,与现有技术相比,本实施例将该三元组扩增成了包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组。举例来说,现有技术中训练集中的训练样本为(“我喜欢音乐”,“I like football”,“I like music”),本实施例训练集中的训练样本为(“我喜欢音乐”,“I like football”,“I like music”,110),其中“I”和“like”需要被拷贝,它们的标签为1,而“football”不需要被拷贝,它的标签为0。这样,能够实现对包含拷贝标签的训练集的构建。
具体地,所述训练模块,可具体用于
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),
其中,α为超参数,θ为模型参数,Y表示PE的词嵌入序列,X表示SRC的词嵌入序列,表示MT的词嵌入序列,Lape(θ)为传统序列到序列学习的损失函数,Lpred(θ)为对预测器进行监督的损失函数,Lpred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到,K为MT中词的数量,lk为MT中第k个词的拷贝标签,Sk为MT中第k个词预测的拷贝分数。总的损失函数是Lape(θ)和Lpred(θ)两者的线性插值。
可以理解的是,所述训练模块可以将SRC转换为词嵌入序列X={X1,...,Xi,...,XI},i=1,...,I,I为SRC中词的数量,可以将MT转换为词嵌入序列k=1,...,K,K为MT中词的数量。
Xi=Etoken[xi]+Epos[i]+Elang[0],
其中,Xi和分别是SRC中的第i个词和MT中的第k个词,Etoken、Epos和Elang分别是词、位置和语言相关的词嵌入矩阵,[·]代表索引操作,Xi是SRC中的第i个词的浅层稠密向量表示,是MT中的第k个词的浅层稠密向量表示。
具体地,所述训练模块将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数:
S为所述预测器输出的对MT中每个词预测的拷贝分数,Predictor(·)为预测器,是一Np(超参数)层的Transformer编码器,sigmoid(·)为深度学习中常用的S型激活函数,是高层稠密向量表示中的MT部分,θ为模型参数,Ws为参数矩阵。
所述训练模块将拷贝分数S融入到注意力层当中,所使用的注意力机制处理公式为:
m={1.0}I,
其中,energy是传统注意力方法中由关键值K和查询q得到的能量向量,d是稠密向量的维度,m是全为1.0的向量,与拷贝分数S连接后对能量向量进行点乘,最后经由深度学习中的常用归一化函数softmax进行归一化。
具体地,所述训练模块将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter:
其中,Encoderinter(·)是一Ne(超参数)层的Transformer编码器。
具体地,所述训练模块通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率,包括:
首先,解码器利用下述公式,得到PE中每个词的原始的条件概率:
然后,基于PE中每个词的原始的条件概率,利用拷贝网络CopyNet,获得PE中每个词的最终的条件概率,将所述PE中每个词的最终的条件概率作为通过融合了拷贝网络CopyNet的解码器得到的PE中每个词的条件概率:
将PE中第j个词yj的最终的条件概率视为PE中第j个词yj的拷贝概率Pcopy(yj)和PE中第j个词yj的生成概率Pgen(yj)(PE中第j个词yj的生成概率Pgen(yj)即为上述PE中第j个词yj的原始的条件概率)的线性插值:
其中,γj为PE中第j个词的插值系数,各部分具体计算公式如下:
其中,g(·)和u(·)可以为任意非线性函数。
本实施例在训练阶段可以基于所述包含拷贝标签的训练集,使用Adam优化器对深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。这样,本实施例能够使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
可以理解的是,本实施例将SRC和MT共同进行编码,使得SRC和MT的信息可以进行交互,并提出一个预测器(Predictor),以SRC和MT的词嵌入序列为输入,预测MT中的词是否应该被拷贝,在训练阶段以构建的拷贝标签进行有监督学习,预测的拷贝分数融入后续的注意力层中,使得是否应该拷贝的预测信息被充分利用。
本发明实施例提供的机器翻译自动后编辑装置,与现有技术相比,能够显式地对自动后编辑中的拷贝进行建模,并提出将目标源语言句子与目标机器翻译草稿联合编码,可以更好地显式标出目标机器翻译草稿中需要拷贝的词,并进一步拷贝到输出的编辑后句子中。本实施例相较现有技术中简单的序列到序列映射框架,对拷贝机制进行了显式建模,能够高效准确的自动完成机器翻译后编辑工作,准确性较高,能有效提高自动后编辑的效果,从而改善翻译的最终质量,具有良好的实用性。
本发明实施例提供的机器翻译自动后编辑装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4示出了本发明一实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括存储器402、处理器401、总线403及存储在存储器402上并可在处理器401上运行的计算机程序,其中,处理器401,存储器402通过总线403完成相互间的通信。所述处理器401执行所述计算机程序时实现上述方法的步骤,例如包括:获取目标源语言句子和目标机器翻译草稿;将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤,例如包括:获取目标源语言句子和目标机器翻译草稿;将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种机器翻译自动后编辑方法,其特征在于,包括:
获取目标源语言句子和目标机器翻译草稿;
将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签按照所对应的样本机器翻译草稿中词的顺序排列组成的;
在将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子之前,本实施例所述方法还包括:
构建包含拷贝标签的训练集;
基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型;
所述构建包含拷贝标签的训练集,包括:
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为四元组,所述四元组包含样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列,将预设数量的训练样本组成包含拷贝标签的训练集;
所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),
2.根据权利要求1所述的机器翻译自动后编辑方法,其特征在于,在训练阶段基于所述包含拷贝标签的训练集,使用Adam优化器对深度神经网络进行训练,生成训练好的自动后编辑深度学习模型。
3.一种机器翻译自动后编辑装置,其特征在于,包括:
第一获取模块,用于获取目标源语言句子和目标机器翻译草稿;
后编辑模块,用于将所述目标源语言句子和目标机器翻译草稿,输入自动后编辑深度学习模型,输出所述目标机器翻译草稿对应的编辑后句子;
其中,所述自动后编辑深度学习模型是基于包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络训练后生成的;所述包含拷贝标签的训练集包含预设数量的训练样本,每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组,所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签按照所对应的样本机器翻译草稿中词的顺序排列组成的;
构建模块,用于构建包含拷贝标签的训练集;
训练模块,用于基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型;
所述构建模块,具体用于
获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE;
利用最长公共子序列算法,计算出MT和PE的最长公共子序列,若MT中的任一词出现在所述最长公共子序列中,则将当前词的拷贝标签标为1,否则将当前词的拷贝标签标为0,其中,拷贝标签为1代表MT中对应的词需要被拷贝,拷贝标签为0代表MT中对应的词不需要被拷贝;
将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列,组成与MT等长的拷贝标签序列;
构建训练样本,所述训练样本为四元组,所述四元组包含样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列,将预设数量的训练样本组成包含拷贝标签的训练集;
所述基于所述包含拷贝标签的训练集,使用对拷贝显式建模的深度神经网络进行训练,生成训练好的自动后编辑深度学习模型,包括:
将SRC和MT转换为词嵌入序列;
将SRC的词嵌入序列和MT的词嵌入序列输入预测器中,通过所述预测器输出对MT中每个词预测的拷贝分数,将所述拷贝分数融入整个深度神经网络的注意力层当中;以及,将SRC的词嵌入序列和MT的词嵌入序列输入编码器中,通过所述编码器对SRC和MT进行联合编码,输出联合编码后的隐矩阵Hinter;
将拷贝分数和隐矩阵Hinter输入解码器进行解码,所述解码器融合拷贝网络CopyNet,通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率,利用柱搜索生成的编辑后的句子,作为自动后编辑深度学习模型的输出;
其中,在训练阶段使用的损失函数Lall(θ)为:
Lall(θ)=(1-α)×Lape(θ)+α×Lpred(θ),
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1或2所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060848.2A CN110765791B (zh) | 2019-11-01 | 2019-11-01 | 机器翻译自动后编辑方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060848.2A CN110765791B (zh) | 2019-11-01 | 2019-11-01 | 机器翻译自动后编辑方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765791A CN110765791A (zh) | 2020-02-07 |
CN110765791B true CN110765791B (zh) | 2021-04-06 |
Family
ID=69335832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911060848.2A Active CN110765791B (zh) | 2019-11-01 | 2019-11-01 | 机器翻译自动后编辑方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765791B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597778B (zh) * | 2020-04-15 | 2023-05-30 | 哈尔滨工业大学 | 一种基于自监督的机器翻译译文自动优化的方法和系统 |
CN111581988B (zh) * | 2020-05-09 | 2022-04-29 | 浙江大学 | 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统 |
CN111652004B (zh) * | 2020-05-09 | 2022-07-05 | 清华大学 | 一种用于机器翻译系统的融合方法及装置 |
CN111723548B (zh) * | 2020-06-10 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 评论扩展方法及装置 |
CN111950302B (zh) * | 2020-08-20 | 2023-11-10 | 上海携旅信息技术有限公司 | 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质 |
CN112163434B (zh) * | 2020-10-20 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本翻译方法、装置、介质及电子设备 |
CN112380879A (zh) * | 2020-11-16 | 2021-02-19 | 深圳壹账通智能科技有限公司 | 一种智能翻译方法、装置、计算机设备和存储介质 |
CN117688948A (zh) * | 2022-08-29 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 翻译推荐方法、译后编辑模型的训练方法和相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1021242A (ja) * | 1996-07-05 | 1998-01-23 | Toshiba Corp | 機械翻訳装置及び機械翻訳後編集方法 |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
CN109635269A (zh) * | 2019-01-31 | 2019-04-16 | 苏州大学 | 一种机器翻译文本的译后编辑方法及装置 |
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301173B (zh) * | 2017-06-22 | 2019-10-25 | 北京理工大学 | 一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法 |
-
2019
- 2019-11-01 CN CN201911060848.2A patent/CN110765791B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1021242A (ja) * | 1996-07-05 | 1998-01-23 | Toshiba Corp | 機械翻訳装置及び機械翻訳後編集方法 |
CN109165727A (zh) * | 2018-09-04 | 2019-01-08 | 成都品果科技有限公司 | 一种基于循环神经网络的数据预测方法 |
CN109670191A (zh) * | 2019-01-24 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
CN109635269A (zh) * | 2019-01-31 | 2019-04-16 | 苏州大学 | 一种机器翻译文本的译后编辑方法及装置 |
Non-Patent Citations (3)
Title |
---|
Incorporating Copying Mechanism in Sequence-to-Sequence Learning;Jiatao Gu 等;《https://arxiv.org/1603.06393》;20160608;第1-10页 * |
Learning to Copy for Automatic Post-Editing;Xuancheng Huang 等;《https://arxiv.org/1911.03627》;20191109;第1-11页 * |
MS-UEdin Submission to the WMT2018 APE Shared Task:Dual-Source Transformer for Automatic Post-Editing;Marcin Junczys-Dowmunt 等;《Association for Computational Linguistics》;20181101;第822-826页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110765791A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765791B (zh) | 机器翻译自动后编辑方法及装置 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN113505244B (zh) | 基于深度学习的知识图谱构建方法、系统、设备及介质 | |
US20190122145A1 (en) | Method, apparatus and device for extracting information | |
CN110472688A (zh) | 图像描述的方法及装置、图像描述模型的训练方法及装置 | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
WO2020124674A1 (zh) | 向量化译员的翻译个性特征的方法及装置 | |
JP6720764B2 (ja) | テキスト解析装置及びプログラム | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
CN111949824B (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
Li et al. | Chinese grammatical error correction based on convolutional sequence to sequence model | |
CN113901208B (zh) | 融入主题特征的中越跨语言评论情感倾向性分析方法 | |
CN109800435A (zh) | 一种语言模型的训练方法及装置 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN113836866A (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
CN115730585A (zh) | 文本纠错及其模型训练方法、装置、存储介质及设备 | |
CN113657125A (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
CN115757325B (zh) | 一种xes日志智能转换方法及系统 | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
CN115169285A (zh) | 一种基于图解析的事件抽取方法及系统 | |
CN114169345A (zh) | 利用同源词的日中机器翻译方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |