CN110765791B

CN110765791B - 机器翻译自动后编辑方法及装置

Info

Publication number: CN110765791B
Application number: CN201911060848.2A
Authority: CN
Inventors: 刘洋; 黄轩成; 栾焕博; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2021-04-06
Anticipated expiration: 2039-11-01
Also published as: CN110765791A

Abstract

本发明实施例提供一种机器翻译自动后编辑方法及装置，方法包括：获取目标源语言句子和目标机器翻译草稿；将目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出目标机器翻译草稿对应的编辑后句子；其中，自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。可提升机器翻译自动后编辑的编辑效果，准确性较高。

Description

机器翻译自动后编辑方法及装置

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种机器翻译自动后编辑方法及装置。

背景技术

随着国际交流的日益深入，人们对语言翻译的需求与日俱增。然而，世界上存在的语言种类繁多，各有特征，形式灵活，使得语言的自动处理，包括语言之间的机器翻译，成为至关重要的技术。

机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。然而翻译的质量不尽如人意，为了保证翻译的质量需要人工对已翻译文本(即机器翻译草稿)进行编辑修改，这样的翻译后编辑耗费的人力小于直接由语言专家对源语言文本进行翻译需要的人力。自动后编辑技术旨在将后编辑过程自动化，使计算机以源语言文本以及经过翻译的文本为输入，输出经过后编辑的文本。

目前，现有的机器翻译通常使用基于深度学习的序列到序列方法，可以将源语言句子映射到目标语言句子。目前，现有的自动后编辑也使用基于深度学习的序列到序列方法，区别在于自动后编辑比机器翻译多了一个机器翻译草稿的输入，即双序列到单序列的映射。

但是，现有的自动后编辑使用基于深度学习的序列到序列方法，虽然可以完成翻译后编辑工作，但是准确性较低，编辑效果较差。

发明内容

针对现有技术存在的问题，本发明实施例提供一种机器翻译自动后编辑方法及装置。

本发明实施例提供一种机器翻译自动后编辑方法，包括：

获取目标源语言句子和目标机器翻译草稿；

将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；

其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。

可选地，在将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子之前，本实施例所述方法还包括：

构建包含拷贝标签的训练集；

基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。

可选地，所述构建包含拷贝标签的训练集，包括：

获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE；

利用最长公共子序列算法，计算出MT和PE的最长公共子序列，若MT中的任一词出现在所述最长公共子序列中，则将当前词的拷贝标签标为1，否则将当前词的拷贝标签标为0，其中，拷贝标签为1代表MT中对应的词需要被拷贝，拷贝标签为0代表MT中对应的词不需要被拷贝；

将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列，组成与MT等长的拷贝标签序列；

构建训练样本，所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，将预设数量的训练样本组成包含拷贝标签的训练集。

可选地，所述基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型，包括：

将SRC和MT转换为词嵌入序列；

将SRC的词嵌入序列和MT的词嵌入序列输入预测器中，通过所述预测器输出对MT中每个词预测的拷贝分数，将所述拷贝分数融入整个深度神经网络的注意力层当中；以及，将SRC的词嵌入序列和MT的词嵌入序列输入编码器中，通过所述编码器对SRC和MT进行联合编码，输出联合编码后的隐矩阵H^inter；

将拷贝分数和隐矩阵H^inter输入解码器进行解码，所述解码器融合拷贝网络CopyNet，通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率，利用柱搜索生成的编辑后的句子，作为自动后编辑深度学习模型的输出；

其中，在训练阶段使用的损失函数L_all(θ)为：

L_all(θ)＝(1-α)×L_ape(θ)+α×L_pred(θ)，

其中，α为超参数，θ为模型参数，Y表示PE的词嵌入序列，X表示SRC的词嵌入序列，

表示MT的词嵌入序列，L_ape(θ)为传统序列到序列学习的损失函数，L_pred(θ)为对预测器进行监督的损失函数，L_pred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到，K为MT中词的数量，l_k为MT中第k个词的拷贝标签，S_k为MT中第k个词预测的拷贝分数。

可选地，在训练阶段基于所述包含拷贝标签的训练集，使用Adam优化器对深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。

本发明实施例提供一种机器翻译自动后编辑装置，包括：

第一获取模块，用于获取目标源语言句子和目标机器翻译草稿；

后编辑模块，用于将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；

可选地，所述装置还包括：

构建模块，用于构建包含拷贝标签的训练集；

训练模块，用于基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。

可选地，所述构建模块，具体用于

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述方法的步骤。

本发明实施例提供的机器翻译自动后编辑方法及装置，通过将目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；其中，自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的，由此，能够高效准确的自动完成机器翻译后编辑工作，准确性较高，有效提升机器翻译自动后编辑的编辑效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种机器翻译自动后编辑方法的流程示意图；

图2为本发明一实施例提供的自动后编辑深度学习模型的训练原理示意图；

图3为本发明一实施例提供的一种机器翻译自动后编辑装置的结构示意图；

图4为本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明一实施例提供的一种机器翻译自动后编辑方法的流程示意图，如图1所示，本实施例的机器翻译自动后编辑方法，包括：

S1、获取目标源语言句子和目标机器翻译草稿。

需要说明的是，本实施例所述机器翻译自动后编辑方法的执行主体为处理器。

可以理解的是，所述目标机器翻译草稿是对所述目标源语言句子进行机器翻译后得到的。本实施例是要先获取目标源语言句子和目标机器翻译草稿，后续将所述目标源语言句子和目标机器翻译草稿输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子。

S2、将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；

可以理解的是，自动后编辑存在一个特点，机器翻译草稿与输出的编辑后句子在大部分情况下比较相近，机器翻译草稿中的词大部分是可以重复利用的，即可以从机器翻译草稿拷贝到输出的编辑后句子。现有的自动后编辑方案没有针对性地利用这一特点，仅单纯地使用基于深度学习的序列到序列映射。所以，本实施例提供的机器翻译自动后编辑方法正是利用这一特点，利用基于包含拷贝标签的训练集训练生成的自动后编辑深度学习模型，实现机器翻译自动后编辑。本实施例中的“显式”是指对拷贝现象显式地建模，与“隐式”相反。

本发明实施例提供的机器翻译自动后编辑方法，通过将目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；其中，自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的，由此，能够高效准确的自动完成机器翻译后编辑工作，准确性较高，有效提升机器翻译自动后编辑的编辑效果。

进一步地，在上述实施例的基础上，在所述步骤S2之前，本实施例所述方法还可以包括图中未示出的步骤：

P1、构建包含拷贝标签的训练集。

在具体应用中，所述步骤P1可以包括：

获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE；利用最长公共子序列算法(LCS)，计算出MT和PE的最长公共子序列，若MT中的任一词出现在所述最长公共子序列中，则将当前词的拷贝标签标为1，否则将当前词的拷贝标签标为0，其中，拷贝标签为1代表MT中对应的词需要被拷贝，拷贝标签为0代表MT中对应的词不需要被拷贝；将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列，组成与MT等长的拷贝标签序列；构建训练样本，所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，将预设数量的训练样本组成包含拷贝标签的训练集。

可以理解的是，可以根据实际情况对预设数量进行设置，本实施例并不对其进行限制。

可以理解的是，现有技术中训练集中的训练样本通常为包含有样本源语言句子、样本机器翻译草稿和样本编辑后句子的三元组，与现有技术相比，本实施例将该三元组扩增成了包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组。举例来说，现有技术中训练集中的训练样本为(“我喜欢音乐”，“I like football”，“I like music”)，本实施例训练集中的训练样本为(“我喜欢音乐”，“I like football”，“I like music”，110)，其中“I”和“like”需要被拷贝，它们的标签为1，而“football”不需要被拷贝，它的标签为0。这样，能够实现对包含拷贝标签的训练集的构建。

P2、基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。

在具体应用中，所述步骤P2可以包括图中未示出的步骤：

P21、将SRC和MT转换为词嵌入序列。

可以理解的是，可以将SRC转换为词嵌入序列X＝{X₁,...,X_i,...,X_I}，i＝1,...,I，I为SRC中词的数量；可以将MT转换为词嵌入序列

k＝1,...,K，K为MT中词的数量。

X_i＝E^token[x_i]+E^pos[i]+E^lang[0]，

其中，x_i和

分别是SRC中的第i个词和MT中的第k个词，E^token、E^pos和E^lang分别是词、位置和语言相关的词嵌入矩阵，[·]代表索引操作，X_i是SRC中的第i个词的浅层稠密向量表示，

是MT中的第k个词的浅层稠密向量表示。

P22、将SRC的词嵌入序列和MT的词嵌入序列输入预测器中，通过所述预测器输出对MT中每个词预测的拷贝分数，将所述拷贝分数融入整个深度神经网络的注意力层当中；以及，将SRC的词嵌入序列和MT的词嵌入序列输入编码器中，通过所述编码器对SRC和MT进行联合编码，输出联合编码后的隐矩阵H^inter，可以参考图2。

具体地，将SRC的词嵌入序列和MT的词嵌入序列输入预测器中，通过所述预测器输出对MT中每个词预测的拷贝分数：

S为所述预测器输出的对MT中每个词预测的拷贝分数，Predictor(·)为预测器，是一N_p(超参数)层的Transformer编码器，sigmoid(·)为深度学习中常用的S型激活函数，

是高层稠密向量表示中的MT部分，θ为模型参数，W_s为参数矩阵。

将拷贝分数S融入到注意力层当中，所使用的注意力机制处理公式为：

m＝{1.0}^I，

其中，energy是传统注意力方法中由关键值K和查询q得到的能量向量，d是稠密向量的维度，m是全为1.0的向量，与拷贝分数S连接后对能量向量进行点乘，最后经由深度学习中的常用归一化函数softmax进行归一化。

具体地，将SRC的词嵌入序列和MT的词嵌入序列输入编码器中，通过所述编码器对SRC和MT进行联合编码，输出联合编码后的隐矩阵H^inter：

其中，Encoder^inter(·)是一N_e(超参数)层的Transformer编码器。

P23、将拷贝分数和隐矩阵H^inter输入解码器进行解码，所述解码器融合拷贝网络CopyNet，通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率、并基于所述PE中每个词的条件概率，利用柱搜索生成的编辑后的句子，作为自动后编辑深度学习模型的输出，可以参考图2。

具体地，通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率，包括：

首先，解码器利用下述公式，得到PE中每个词的原始的条件概率：

其中，Decoder(·)为一N_d(超参数)层的Transformer解码器，W_g为参数矩阵，exp(·)为指数函数，∝为正比符号，

是PE中第j个词y_j的原始的条件概率；

然后，基于PE中每个词的原始的条件概率，利用拷贝网络CopyNet，获得PE中每个词的最终的条件概率，将所述PE中每个词的最终的条件概率作为通过融合了拷贝网络CopyNet的解码器得到的PE中每个词的条件概率：

将PE中第j个词y_j的最终的条件概率

视为PE中第j个词y_j的拷贝概率P^copy(y_j)和PE中第j个词y_j的生成概率P^gen(y_j)(PE中第j个词y_j的生成概率P^gen(y_j)即为上述PE中第j个词y_j的原始的条件概率)的线性插值：

其中，γ_j为PE中第j个词的插值系数，各部分具体计算公式如下：

其中，g(·)和u(·)可以为任意非线性函数。

其中，在训练阶段使用的损失函数L_all(θ)为：

L_all(θ)＝(1-α)×L_ape(θ)+α×L_pred(θ)，

表示MT的词嵌入序列，L_ape(θ)为传统序列到序列学习的损失函数，L_pred(θ)为对预测器进行监督的损失函数，L_pred(θ)由预测的拷贝分数与拷贝标签的sigmoid交叉熵得到，K为MT中词的数量，l_k为MT中第k个词的拷贝标签，S_k为MT中第k个词预测的拷贝分数。总的损失函数是L_ape(θ)和L_pred(θ)两者的线性插值。

本实施例在训练阶段可以基于所述包含拷贝标签的训练集，使用Adam优化器对深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。这样，本实施例能够使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型。

可以理解的是，本实施例将SRC和MT共同进行编码，使得SRC和MT的信息可以进行交互；并提出一个预测器(Predictor)，以SRC和MT的词嵌入序列为输入，预测MT中的词是否应该被拷贝，在训练阶段以构建的拷贝标签进行有监督学习，预测的拷贝分数融入后续的注意力层中，使得是否应该拷贝的预测信息被充分利用。

本发明实施例提供的机器翻译自动后编辑方法，与现有技术相比，能够显式地对自动后编辑中的拷贝进行建模，并提出将目标源语言句子与目标机器翻译草稿联合编码，可以更好地显式标出目标机器翻译草稿中需要拷贝的词，并进一步拷贝到输出的编辑后句子中。本实施例相较现有技术中简单的序列到序列映射框架，对拷贝机制进行了显式建模，能够高效准确的自动完成机器翻译后编辑工作，准确性较高，能有效提高自动后编辑的效果，从而改善翻译的最终质量，具有良好的实用性。

图3示出了本发明一实施例提供的一种机器翻译自动后编辑装置的结构示意图，如图3所示，本实施例的机器翻译自动后编辑装置，包括：第一获取模块31和后编辑模块32；其中：

所述第一获取模块31，用于获取目标源语言句子和目标机器翻译草稿；

所述后编辑模块32，用于将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；

具体地，所述第一获取模块31获取目标源语言句子和目标机器翻译草稿；所述后编辑模块32将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。

需要说明的是，本实施例所述机器翻译自动后编辑装置应用于处理器。

可以理解的是，所述目标机器翻译草稿是对所述目标源语言句子进行机器翻译后得到的。

可以理解的是，自动后编辑存在一个特点，机器翻译草稿与输出的编辑后句子在大部分情况下比较相近，机器翻译草稿中的词大部分是可以重复利用的，即可以从机器翻译草稿拷贝到输出的编辑后句子。现有的自动后编辑方案没有针对性地利用这一特点，仅单纯地使用基于深度学习的序列到序列映射。所以，本实施例提供的机器翻译自动后编辑装置正是利用这一特点，利用基于包含拷贝标签的训练集训练生成的自动后编辑深度学习模型，实现机器翻译自动后编辑。本实施例中的“显式”是指对拷贝现象显式地建模，与“隐式”相反。

本发明实施例提供的机器翻译自动后编辑装置，通过第一获取模块获取目标源语言句子和目标机器翻译草稿，后编辑模块将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子，其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的，由此，能够高效准确的自动完成机器翻译后编辑工作，准确性较高，有效提升机器翻译自动后编辑的编辑效果。

进一步地，在上述实施例的基础上，本实施例所述装置还可以包括图中未示出的：

构建模块，用于构建包含拷贝标签的训练集；

具体地，所述构建模块，可具体用于

获取样本源语言句子SRC、样本机器翻译草稿MT和样本编辑后句子PE；利用最长公共子序列算法，计算出MT和PE的最长公共子序列，若MT中的任一词出现在所述最长公共子序列中，则将当前词的拷贝标签标为1，否则将当前词的拷贝标签标为0，其中，拷贝标签为1代表MT中对应的词需要被拷贝，拷贝标签为0代表MT中对应的词不需要被拷贝；将MT中的所有词的拷贝标签、按照所对应的MT中词的顺序排列，组成与MT等长的拷贝标签序列；构建训练样本，所述训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，将预设数量的训练样本组成包含拷贝标签的训练集。

具体地，所述训练模块，可具体用于

将SRC和MT转换为词嵌入序列；

其中，在训练阶段使用的损失函数L_all(θ)为：

L_all(θ)＝(1-α)×L_ape(θ)+α×L_pred(θ)，

可以理解的是，所述训练模块可以将SRC转换为词嵌入序列X＝{X₁,...,X_i,...,X_I}，i＝1,...,I，I为SRC中词的数量，可以将MT转换为词嵌入序列

k＝1,...,K，K为MT中词的数量。

X_i＝E^token[x_i]+E^pos[i]+E^lang[0]，

其中，X_i和

是MT中的第k个词的浅层稠密向量表示。

具体地，所述训练模块将SRC的词嵌入序列和MT的词嵌入序列输入预测器中，通过所述预测器输出对MT中每个词预测的拷贝分数：

所述训练模块将拷贝分数S融入到注意力层当中，所使用的注意力机制处理公式为：

m＝{1.0}^I，

具体地，所述训练模块将SRC的词嵌入序列和MT的词嵌入序列输入编码器中，通过所述编码器对SRC和MT进行联合编码，输出联合编码后的隐矩阵H^inter：

其中，Encoder^inter(·)是一N_e(超参数)层的Transformer编码器。

具体地，所述训练模块通过融合了拷贝网络CopyNet的解码器得到PE中每个词的条件概率，包括：

是PE中第j个词y_j的原始的条件概率；

将PE中第j个词y_j的最终的条件概率

其中，g(·)和u(·)可以为任意非线性函数。

可以理解的是，本实施例将SRC和MT共同进行编码，使得SRC和MT的信息可以进行交互，并提出一个预测器(Predictor)，以SRC和MT的词嵌入序列为输入，预测MT中的词是否应该被拷贝，在训练阶段以构建的拷贝标签进行有监督学习，预测的拷贝分数融入后续的注意力层中，使得是否应该拷贝的预测信息被充分利用。

本发明实施例提供的机器翻译自动后编辑装置，与现有技术相比，能够显式地对自动后编辑中的拷贝进行建模，并提出将目标源语言句子与目标机器翻译草稿联合编码，可以更好地显式标出目标机器翻译草稿中需要拷贝的词，并进一步拷贝到输出的编辑后句子中。本实施例相较现有技术中简单的序列到序列映射框架，对拷贝机制进行了显式建模，能够高效准确的自动完成机器翻译后编辑工作，准确性较高，能有效提高自动后编辑的效果，从而改善翻译的最终质量，具有良好的实用性。

本发明实施例提供的机器翻译自动后编辑装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4示出了本发明一实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括存储器402、处理器401、总线403及存储在存储器402上并可在处理器401上运行的计算机程序，其中，处理器401，存储器402通过总线403完成相互间的通信。所述处理器401执行所述计算机程序时实现上述方法的步骤，例如包括：获取目标源语言句子和目标机器翻译草稿；将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤，例如包括：获取目标源语言句子和目标机器翻译草稿；将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子；其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签、按照所对应的样本机器翻译草稿中词的顺序排列组成的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器翻译自动后编辑方法，其特征在于，包括：

获取目标源语言句子和目标机器翻译草稿；

其中，所述自动后编辑深度学习模型是基于包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络训练后生成的；所述包含拷贝标签的训练集包含预设数量的训练样本，每一训练样本为包含有样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列的四元组，所述拷贝标签序列是由所述样本机器翻译草稿中的所有词的拷贝标签按照所对应的样本机器翻译草稿中词的顺序排列组成的；

在将所述目标源语言句子和目标机器翻译草稿，输入自动后编辑深度学习模型，输出所述目标机器翻译草稿对应的编辑后句子之前，本实施例所述方法还包括：

构建包含拷贝标签的训练集；

基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型；

所述构建包含拷贝标签的训练集，包括：

构建训练样本，所述训练样本为四元组，所述四元组包含样本源语言句子、样本机器翻译草稿、样本编辑后句子和拷贝标签序列，将预设数量的训练样本组成包含拷贝标签的训练集；

所述基于所述包含拷贝标签的训练集，使用对拷贝显式建模的深度神经网络进行训练，生成训练好的自动后编辑深度学习模型，包括：

将SRC和MT转换为词嵌入序列；

其中，在训练阶段使用的损失函数L_all(θ)为：

L_all(θ)＝(1-α)×L_ape(θ)+α×L_pred(θ)，