CN110046359A

CN110046359A - 基于样例指导的神经机器翻译方法

Info

Publication number: CN110046359A
Application number: CN201910305131.3A
Authority: CN
Inventors: 熊德意; 曹骞
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-23

Abstract

本发明公开了一种基于样例指导的神经机器翻译方法。本发明一种基于样例指导的神经机器翻译方法，包括：通过一个与源语句相似的句子的翻译来辅助源语句翻译，在样例数据库中找到与源语句相似的样例语句，把它们记为(x，x^m)，其中x表示源语句。我们提出将样例引入神经机器翻译模型，以此来指导其翻译的方法，具有以下优势：1.通过噪音掩盖的编码器模型，将样例语句中的无用的噪音信息掩掉，可以有效避免无用信息对源语句翻译的干扰。2.通过辅助解码器模型，可以显示地指导模型样例语句中哪些信息是可以使用的，以充分使用目标端样例语句中的信息。

Description

基于样例指导的神经机器翻译方法

技术领域

本发明涉及神经领域，具体涉及一种基于样例指导的神经机器翻译方法。

背景技术

随着计算机计算能力的提高以及大数据的应用，深度学习取得进一步的应用。基于深度学习的Neural Machine Translation(NMT)越来越受到人们的关注。在NMT领域中，最常用的一种翻译模型是带有注意力机制(attention-based)的编码器-解码器模型。其主要思想是将待翻译的语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示，然后利用解码器(decoder)对源语句的向量表示进行解码，翻译成为其对应的译文(在下文中统称为‘目标语句’)。

在某些特殊的应用场景下，在翻译源语句之前，可以通过检索获得一个与源语句相似的语句(在下文中统称为“源端样例语句”)以及其对应的翻译(在下文中统称为“目标端样例语句”)，此时目标端样例语句可以在一定程度上去指导的翻译过程，这个程度取决于源语句与源端样例语句的相似程度，而且也能在一定程度上保持翻译的一致性。这与之前基于例子的翻译模型还有结合翻译记忆与统计机器翻译的模型存在一定的相似，但是神经机器翻译模型与之前的机器翻译模型都有较大的不同，这表明通过目标端样例语句去指导神经机器翻译并不是一个容易完成的任务。

(1)Convergence of Translation Memory and Statistical MachineTranslation。文章从翻译记忆库(一个预先存储翻译句对的数据库)中找到相同的片段，通过词对齐找到对应的翻译并取出，在之后统计机器翻译的翻译过程中，强制系统仅翻译那些不匹配的部分，匹配的部分则用翻译记忆库中取出的翻译替代。

(2)Search Engine Guided Non-Parametric Neural Machine Translation。文章通过搜索引擎在翻译记忆库中检索相同的句对或片段对，将这些句对强制解码得到中间的隐层状态，并将这些隐层状态以键值对的形式保存，并在后面的翻译过程中使用。

(3)Encoding Gated Translation Memory into Neural Machine Translation。文章通过检索源端样例语句，获得相目标端样例语句，之后通过门控机制将目标端样例语句作为一个额外的信号输入到翻译的过程中去，门控机制在其中控制信息流动的多与少，让目标端样例语句能够帮助翻译但又不会占据翻译的主导地位。

传统技术存在以下技术问题：

统计机器翻译与翻译记忆结合的方法涉及翻译时的干预，而NMT是一个序列到序列的结构，目前干预在NMT中还是一个没有完全得到解决的问题，因此统计机器翻译中的方法并不适用NMT。

而之前的NMT与翻译记忆结合的工作在检索翻译记忆库时，只能匹配相似的句子，然后利用这个整体或者是部分匹配的内容去指导翻译，但如果使用整体信息的话，由于句子其他部分与源语句并不匹配，这不可避免会引入噪音，而如果仅仅使用部分匹配的内容，那么会导致无法充分的使用翻译记忆的信息。基于此，提出了基于样例指导的神经机器翻译模型，一方面它可以避免噪音对翻译的影响，另一方面他也可以充分的使用目标端样例语句的信息。

发明内容

本发明要解决的技术问题是提供一种基于样例指导的神经机器翻译方法，当检索到可以帮助翻译的目标端样例语句时，鉴于源语句与源端样例语句或多或少存在一定的差异，不可避免的，在目标端样例语句中会存在噪音，并对源语句的翻译造成干扰，提出了两种模型，一种是噪音掩盖的编码器模型，该模型可以有效的避免噪音对翻译造成的干扰，另一种是辅助解码器模型，该模型可以让充分的使用目标端样例语句中的信息，而这两种模型的结合可以让在充分使用信息的同时避免掉噪音对翻译过程的干扰。

为了解决上述技术问题，本发明提供了一种基于样例指导的神经机器翻译方法，包括：

通过一个与源语句相似的句子的翻译来辅助源语句翻译，在样例数据库中找到与源语句相似的样例语句，把它们记为(x，x^m)，其中x表示源语句，x^m表示源端样例语句，对应的翻译记做(y，y^m)，之后计算x与x^m的模糊匹配得分，相关公式如下所示：

其中Levenshtein(x，x^m)是计算x与x^m之间基于词的编辑距离大小；

在上面的步骤执行完之后，就获得了互相匹配的句对(x/y，x^m/y^m)，以及x与x^m的模糊匹配得分，在之后的过程中，将x与y^m作为模型的输入；

下面首先介绍基础的引入目标端样例语句的transformer模型；除了原始的编码器之外，使用一个样例编码器专门用来编码y^m，这样分别得到了x与y^m的表示，在解码器中，先经过一个masked multihead attention层得到之前翻译的词的信息，之后将y^m的表示作为key和value输入到multihead attention中，之后再将x的表示作为key和value输入到multihead attention中，再经过一个前馈网络；

基于上面的基础模型，一共提出了两种模型，第一种模型是噪音掩盖的编码器模型(简称为NME模型)；在源端检索得到与源语句最相似的源端样例语句，之后获得其对应的翻译目标端样例语句，在这个过程中，可以比对源语句与源端样例语句之间的匹配程度，在源端样例语句中保留那些与源语句匹配的部分，对那些不匹配的部分，引入了一个特殊符号“<X>”，将那些不匹配的部分用“<X>”替换，这样，就可以得到一个替换之后仅保留了匹配片段的源端样例语句，把它们叫做噪音掩盖后的源端样例语句,记为M(x^m)；得到这个之后，可以通过源端样例语句与目标端样例语句之间的词对齐，将这个匹配的信息传递到目标端样例语句中，将那些对齐到源端样例语句中的“<X>”符号的词也用“<X>”替换，保留其他的词，这样得到的叫做噪音掩盖后的目标端样例语句，称为M(y^m)；噪音掩盖的编码器模型与基础模型唯一的区别就在于输入的embedding是M(y^m)而不是y^m；

第二种模型是辅助解码器模型(简称为AD模型)，在训练时，除了可以看到源语句，还可以看到对应的目标语句，因此，可以通过比较目标语句与目标端样例语句，得出目标语句中哪些部分是目标端样例语句可以提供帮助的，也就是它们匹配的部分，保留这些匹配的部分，对于那些不匹配的部分，用“<X>”去替换，这样可以得到一个新的目标语句，把它们称作掩盖的目标语句；之后额外使用一个解码器，这个解码器是用来预测掩盖的目标语句的，经过masked multi-head attention之后，将样例编码器的输出作为key和value，经过一个multi-head attention子层，再经过前馈网络，完成掩盖的目标语句的预测；值得注意的是，在两个decoder中共享参数，而且鉴于仅能在训练的时候获得目标端的对应翻译，所以这个辅助解码器仅仅在训练时使用，在解码时，将这个辅助解码器移除；

将两张方法结合在一起，一方面在编码端掩盖了那些噪音，另一方面，也使用辅助解码器来使得充分利用目标端样例语句的信息；

除此之外，在上面结合模型的基础之上，继续引入了完整的目标端样例语句；在编码样例语句的信息时，将目标端样例语句作为输入，经过原始的样例编码层，得到一个表示，之后将噪音掩盖后的目标端样例语句作为输入，经过multi-head attention层得到表示，将噪音掩盖后的目标端样例语句的表示作为query，而将目标端样例语句的表示作为key和value，得到一个表示，再经过一个前馈网络，将这个得到的结果作为样例信息的表示，再加入到后面的步骤中。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

提出通过门控机制将翻译记忆融入神经机器翻译的方法，具有以下优势：

通过噪音掩盖的编码器模型，将样例语句中的无用的噪音信息掩掉，可以有效避免无用信息对源语句翻译的干扰。

通过辅助解码器模型，可以显示地指导模型样例语句中哪些信息是可以使用的，以充分使用目标端样例语句中的信息。

结合了上面的两种方法，可以在高FMS区间与低FMS区间上都取得很好的效果，而在此基础上进一步融合原始的目标端样例语句在高FMS区间还能获得更进一步的提升。

在中英，英德，英西语料上进行了实验，最终模型不管是在高的区间还是在低的区间，都比baseline有了很多的提升。

附图说明

图1是本发明基于样例指导的神经机器翻译方法中的transformer模型示意图。

图2是本发明基于样例指导的神经机器翻译方法的相关模型示意图之一。

图3是本发明基于样例指导的神经机器翻译方法中的提到的相关例子的示意图。

图4是本发明基于样例指导的神经机器翻译方法的相关模型示意图之二。

图5是本发明基于样例指导的神经机器翻译方法的相关模型示意图之三。

图6是本发明基于样例指导的神经机器翻译方法中的F1结果比较值。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

背景：基于注意力机制(attention)的NMT模型

在神经机器翻译系统中，一般采用encoder-decoder框架来实现翻译。对训练语料中的每一个词，都为其初始化一个词向量，所有词的词向量构成了词向量词典。词向量，一般是一个多维的向量，向量中每一维都是一个实数，维度的大小一般根据实验过程中的结果来最终确定。例如，对于单词“咱们”，它的词向量可能是<0.12，-0.23，...，0.99>。

transformer是谷歌于2017年提出的模型，结构如图1，与大部分的encoder-decoder框架相似，它也由这两部分组成，不同之处在于，它抛弃了传统自然语言处理中常用的RNN结构，而完全采用attention机制构建模型。

从上图中可以看出，在数据输入部分，除了将输入的序列转化成对应的embedding之外，还加入了一个位置embedding，用来编码源语句的位置表示。

图1的左半部分表示encoder模块，它由6个相同的层堆叠而成，每个层包含两个子层，第一个子层是multi-head self attention子层，用于将源语句里其他词的信息通过self attention网络考虑进来以生成当前词的上下文向量，关于multi-head attention的具体计算公式如下：

MultiHead(Q，K，V)＝ConCat(head₁，...，head_h)W^o

第二个子层是一个全连通的feed forward子层，作用是将self attention网络生成的源语句内的上下文向量同当前词的信息进行整合，进而生成融合了整个句子上下文的当前时刻的隐含状态，公式如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

经过上面的步骤，就可以得到源语句的表示。

图1的右半部分是decoder模块，与编码器相似，它也由6个相同的层堆叠而成，但也存在一定的不同。解码器每层包含三个不同的子层，第一个子层同编码器的第一个子层相似，是一个multi-head self attention子层，负责考虑上下文信息生成当前词的上下文向量，但不同于编码端，解码时只能看到之前已经生成的词的信息，而对于后面未生成的词的信息，通过掩码机制将其屏蔽，也就是图中所说的masked multi-head self attention。第二个子层是一个分组的self attention子层，负责将源语句的隐含状态同目标语言的隐含状态比较来生成源语言的上下文向量，其中的Q是masked multi-head self attention子层的输出，而K和V则是之前encoder得到的输出。第三个子层与编码器中的第二个子层相似，整合了之前的信息去生成当前位置目标语言的预测。

此外，所有层与层之间的连接还使用了layer norm与残差连接，得到decoder的输出表示之后，经过一个线性变换，再通过softmax得到当前位置在整个词典上的概率分布，并最终得到当前步的翻译结果。

模型的训练一般采用最小化负对数似然为损失函数，采用随机梯度下降为训练方法来进行迭代训练。在训练集上，其中xⁿ，yⁿ为平行语句对，模型训练目标函数如下：

一种基于样例指导的神经机器翻译模型介绍：

在基于样例指导的神经机器翻译模型中，类比人类译者在翻译源语句时，可以通过一个与源语句相似的句子的翻译来辅助源语句翻译，在样例数据库中找到与源语句相似的样例语句，把它们记为(x，x^m)，其中x表示源语句，x^m表示源端样例语句，对应的翻译记做(y，y^m)，之后计算x与x^m的模糊匹配得分，相关公式如下所示：

其中Levenshtein(x，x^m)是计算x与x^m之间基于词的编辑距离大小，这可以帮助更加直观的理解x与x^m两句之间的相似程度。

在上面的步骤执行完之后，就获得了互相匹配的句对(x/y，x^m/y^m)，以及x与x^m的模糊匹配得分，在之后的过程中，将x与y^m作为模型的输入。

下面首先介绍基础的引入目标端样例语句的transformer模型。除了原始的编码器之外，使用一个样例编码器专门用来编码y^m，这样分别得到了x与y^m的表示，在解码器中，先经过一个masked multihead attention层得到之前翻译的词的信息，之后将y^m的表示作为key和value输入到multihead attention中，之后再将x的表示作为key和value输入到multihead attention中，再经过一个前馈网络，具体的结构如图2。

基于上面的基础模型，一共提出了两种模型，第一种模型是噪音掩盖的编码器模型(简称为NME模型)。在源端检索得到与源语句最相似的源端样例语句，之后获得其对应的翻译目标端样例语句，在这个过程中，可以比对源语句与源端样例语句之间的匹配程度，在源端样例语句中保留那些与源语句匹配的部分，对那些不匹配的部分，引入了一个特殊符号“<X>”，将那些不匹配的部分用“<X>”替换，这样，就可以得到一个替换之后仅保留了匹配片段的源端样例语句，把它们叫做噪音掩盖后的源端样例语句,记为M(x^m)。得到这个之后，可以通过源端样例语句与目标端样例语句之间的词对齐，将这个匹配的信息传递到目标端样例语句中，将那些对齐到源端样例语句中的“<X>”符号的词也用“<X>”替换，保留其他的词，这样得到的叫做噪音掩盖后的目标端样例语句，称为M(y^m)。为了便于理解，提供了一个例子如图3。

噪音掩盖的编码器模型与基础模型唯一的区别就在于输入的embedding是M(y^m)而不是y^m。

第二种模型是辅助解码器模型(简称为AD模型)，在训练时，除了可以看到源语句，还可以看到对应的目标语句，因此，可以通过比较目标语句与目标端样例语句，得出目标语句中哪些部分是目标端样例语句可以提供帮助的，也就是它们匹配的部分，保留这些匹配的部分，对于那些不匹配的部分，用“<X>”去替换，这样可以得到一个新的目标语句，把它们称作掩盖的目标语句，如上图最后一行举例所示。之后额外使用一个解码器，这个解码器是用来预测掩盖的目标语句的，经过masked multi-head attention之后，将样例编码器的输出作为key和value，经过一个multi-head attention子层，再经过前馈网络，完成掩盖的目标语句的预测。值得注意的是，在两个decoder中共享参数，而且鉴于仅能在训练的时候获得目标端的对应翻译，所以这个辅助解码器仅仅在训练时使用，在解码时，将这个辅助解码器移除。

上面的两种方法毫无疑问是可以结合起来使用的，所以又进一步将两张方法结合在一起，一方面在编码端掩盖了那些噪音，另一方面，也使用辅助解码器来使得充分利用目标端样例语句的信息。

除此之外，在上面结合模型的基础之上，继续引入了完整的目标端样例语句。如图4所示，在编码样例语句的信息时，将目标端样例语句作为输入，经过原始的样例编码层，得到一个表示，之后将噪音掩盖后的目标端样例语句作为输入，经过multi-head attention层得到表示，将噪音掩盖后的目标端样例语句的表示作为query，而将目标端样例语句的表示作为key和value，得到一个表示，再经过一个前馈网络，将这个得到的结果作为样例信息的表示，再加入到后面的步骤中。

我们提出将样例引入神经机器翻译模型，以此来指导其翻译的方法，具有以下优势：

1.通过噪音掩盖的编码器模型，将样例语句中的无用的噪音信息掩掉，可以有效避免无用信息对源语句翻译的干扰。

2.通过辅助解码器模型，可以显示地指导模型样例语句中哪些信息是可以使用的，以充分使用目标端样例语句中的信息。

3.结合了上面的两种方法，可以在高FMS区间与低FMS区间上都取得很好的效果，而在此基础上进一步融合原始的目标端样例语句在高FMS区间还能获得更进一步的提升。

4.在中英，英德，英西语料上进行了实验，最终模型不管是在高的区间还是在低的区间，都比baseline有了很多的提升，实验结果如下：

表1

表2

表3

其中T表示transformer模型，T(all data)表示额外加入了样例语句作为训练集，当然，这仅仅在中英数据集上存在，TB表示基础的两个编码器的transformer模型，NME表示噪音掩盖的编码器模型，AD表示辅助解码器模型，而Final模型表示融合了NME，AD且加入了原始样例语句的模型。

同时，也分析了那些样例语句中可用词的生成情况，如下所示：

表4

表4表示了目标端样例语句中匹配的词与不匹配的噪音的个数，O代表原始的未经噪音掩盖的个数，M代表经过噪音掩盖后的个数，m代表匹配的词，n代表不匹配的词，也就是噪音词。可以发现，经过噪音掩盖后，噪音词的个数下降非常明显，从9353降到了1627，当然部分匹配词也被错误的掩盖了，其中占比约为8％。

进一步比较了F1值，将同时出现在样例语句与系统输出中的词的集合称为S，将同时出现在样例语句与目标语句中的词的集合称为R，定义F1值如下：

p＝|R∩S|/|S|

r＝|R∩S|/|R|

F₁＝2*p*r/(p+r)

得到的结果如图6所示：

可以发现NME模型在较低FMS区间有比较好的表现，而AD模型在较高FMS区间有比较好的表现，而结合了这两种方法之后，在整个区间上都有了显著的提升。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于样例指导的神经机器翻译方法，其特征在于，包括：

通过一个与源语句相似的句子的翻译来辅助源语句翻译，在样例数据库中找到与源语句相似的样例语句，把它们记为(x，x^m)，其中x表示源语句，

x^m表示源端样例语句，对应的翻译记做(y，y^m)，之后计算x与x^m的模糊匹配得分，相关公式如下所示。

在上面的步骤执行完之后，就获得了互相匹配的句对(x/y，x^m/y^m)，以及

x与x^m的模糊匹配得分，在之后的过程中，将x与y^m作为模型的输入；

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。

4.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1所述的方法。