CN108984539B

CN108984539B - 基于模拟未来时刻的翻译信息的神经机器翻译方法

Info

Publication number: CN108984539B
Application number: CN201810785649.7A
Authority: CN
Inventors: 段湘煜; 汪琪; 骆卫华; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2022-05-17
Anticipated expiration: 2038-07-17
Also published as: CN108984539A

Abstract

本发明涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法，为获得良好的神经机器翻译而设计。本发明模拟未来时刻的翻译信息，从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟，本发明显著提高了神经机器翻译模型NMT的翻译质量。

Description

基于模拟未来时刻的翻译信息的神经机器翻译方法

技术领域

本发明属于机器学习技术领域，具体涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法。

背景技术

传统的机器翻译方法为统计机器翻译方法(Statistical Machine Translation，简称SMT)，从大规模平行语料中统计诸如词对、平行短语对、平行句法结构等的信息，以建立针对翻译过程的统计模型。近年来，随着深度学习的发展，利用神经网络将源语言映射到目标语言的翻译模型，即神经机器翻译模型(Neural Machine Translation，简称NMT)，显著提升了机器翻译的质量，超越了传统统计机器翻译方法的性能，成为目前工业界和学术界的主流方法。

基准神经机器翻译系统为编码-解码框架，将源语言编码为隐藏向量信息，再把该隐藏向量信息解码为目标语言[Sutskever et al.,2014；Bahdanau et al.,2015]。编码和解码功能均通过循环神经网络(Recurrent Neural Networks,简称RNNs)实现。这两个循环神经网络是通过一个注意力层(Attention Layer)连接建模的，在翻译目标单词时检测其与源端语句相关的部分，这个过程称之为使用注意力机制(Attention)。神经机器翻译是一种端到端的翻译模型，它在给定源端语句X＝x₁,x₂,...,x_|X|的条件下直接对目标端语句Y＝y₁,y₂,...,y_|Y|的条件概率P(Y|X)进行建模：

其中，源端语句X通过编码器编码为隐藏层向量H＝h₁,h₂,...,h_|x|，解码器根据条件概率逐字地预测出目标语句Y。第j个目标端单词的计算概率为：

P(y_j|y_＜j,X)＝g(s_j,y_j-1,c_j)

其中，g是一个非线性概率函数，s_j是目标端的隐藏层向量，c_j是通过注意力机制c_j＝Att(s_j-1,h_i)得到的上下文向量，Att函数具体如下：

其中，υ^T _a、W_a、U_a是参数矩阵，这种注意力机制可以构建在生成目标端当前词时对源端所有词的注意力分布。

基准神经机器翻译系统为编码-解码框架中解码过程按照自左向右的顺序依次解码，而没有考虑到未来时刻的翻译内容对当前时刻的翻译的影响。基准神经机器翻译系统是以自左向右的方式进行翻译的，这使得在翻译过程中，自右向左产生的目标端上下文信息从未被利用到。因此，对传统的神经机器翻译加上一个反向的解码器，可以探索神经机器翻译的双向解码。

基于该思想，异步的双向解码方法被提出[Zhang Xet al.,2018]。首先，该方法添加了一个反向解码器按照自右向左的顺序进行翻译，生成目标端隐藏层向量；其次，正向解码器按照自左向右的顺序进行翻译，每一步同时使用源端隐藏层向量和反向解码器生成的目标端隐藏层向量。通过这种新型的架构得到的模型能够充分地利用源端信息和目标端未来信息，提高翻译效果。

异步双向解码[Zhang Xet al.,2018]：该方法使用两遍解码：首先从右向左进行第一遍解码，即对句子从后向前进行翻译，从而可获得句子后部的翻译信息；然后再从左向右进行第二遍解码，即对句子从前向后进行翻译，并在这一过程中使用第一遍解码所获得的句子后部的翻译信息，即未来翻译信息。这一方法虽然使用了未来时刻的翻译信息，但是两遍解码过程消耗时间长、效率低，并且第一遍从后向前进行翻译的过程不符合语言的表达习惯。

发明内容

为了解决上述问题，本发明提供一种减少过长或者过短句子的产生以及利用目标端未来时刻隐藏层向量，为计算当前时刻的目标端词的概率分布提供信息帮助的基于模拟未来时刻的翻译信息的神经机器翻译方法。

为达到上述发明目的，本发明基于模拟未来时刻的翻译信息的神经机器翻译方法，包括：

基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失loss_length进行训练，得到固定模型参数M1；

固定模型参数M1，最小化损失loss_gold，得到Z’和c’_i相关模型参数M2；

固定模型参数M1和M2，最小化损失loss_context使得目标词的预测概率分布p_predicate接近于理想概率分布p_gold。

进一步地，训练一个多层感知机MLP，模拟BP：

p_BP＝σ(MLP(concat(s_i,c_i)))

loss_length＝(p_BP-BP)²

其中，s_i是当前时刻i的解码器隐藏层向量，c_i是当前时刻的上下文向量，concat是将两个向量相连的操作，σ是Sigmoid函数；p_BP是模拟的长度惩罚，通过优化损失函数loss_length使模拟的长度惩罚p_BP接近真实的长度惩罚BP；当前机器翻译结果的长度小于参考答案的长度，其惩罚BP为：

其中，c为当前时刻目标端翻译的句长，r为参考答案的句长。

进一步地，训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献，用一个预测的概率分布p_predicate来模拟p_gold：

p_predicate＝MLP’(concat(s_i,c_i))

loss_context＝-(p_glod)*log(p_predicate)

其中，p_predicate是基于将基准系统的目标端隐藏层向量s_i和源端上下文向量c_i相连，通过MLP’层所预测的目标词的概率分布，通过优化交叉熵损失函数loss_context使得p_predicate和p_gold相接近，p_gold为当前时刻目标端词的概率分布；

进一步地，未来目标端上下文向量c’_i的获取方法包括：在目标端添加了一个双向编码器，对目标端Y＝y₁,y₂,...,y_|Y|进行编码得到目标端隐藏层向量序列Z＝z₁,z₂,...,z_|Y|；

针对当前时刻i，构建当前时刻i的解码器隐藏层向量s_i对z_i+1,…,z_i+k的注意力机制，从而获得未来目标端上下文向量c’_i：

c_i'＝Att(s_i,Z')

其中，s_i是当前时刻i的解码器隐藏层向量，Z’＝z_i+1,z_i+2,...,z_i+k是Z序列中当前时刻i的未来时刻的隐藏层向量，Att是注意力机制函数，k(1≤k≤|Y|-i)表示考虑未来k步；

在获得未来目标端上下文向量c’_i之后，通过以下方式将其作为未来信息贡献到当前词的概率分布计算中：

p_gold＝Softmax(concat(s_i,c_i'))

loss_gold＝-log(p_gold(y_i))

其中，c’_i同当前时刻i的解码器隐藏层向量s_i相连，经Softmax层输出当前时刻目标端词的概率分布p_gold。通过最小化损失函数loss_gold，使得正确答案y_i的概率在概率分布p_gold中最大化，从而优化未来目标端上下文向量c’_i对概率分布p_gold的贡献。

与现有技术相比，本发明基于模拟未来时刻的翻译信息的神经机器翻译方法的有益效果在于：

本发明模拟未来时刻的翻译信息，模拟未来翻译的长度，根据目标端句子长度控制翻译结果长度，减少过长或者过短句子的产生。模拟未来目标端上下文向量，利用目标端未来时刻隐藏层向量，为计算当前时刻的目标端词的概率分布提供信息帮助。分别从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟，显著提高了神经机器翻译模型NMT的翻译质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明的基于模拟未来时刻的翻译信息的神经机器翻译方法的对目标端上下文向量估计的损失示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用于限制本发明的范围。

实施例

本实施例基于模拟未来时刻的翻译信息的神经机器翻译方法，包括：

获取训练数据；

利用训练数据训练一个多层感知机(Multi-Layer Perceptron，简称MLP)以可以模拟BP：

p_BP＝σ(MLP(concat(s_i,c_i)))

loss_length＝(p_BP-BP)²

其中，s_i是当前时刻(即当前时刻i)的解码器隐藏层向量，c_i是当前时刻的上下文向量，concat是将两个向量相连的操作，σ是Sigmoid函数。p_BP是模拟的长度惩罚，通过优化(最小化)损失函数loss_length可使模拟的长度惩罚p_BP尽量接近真实的长度惩罚BP。

长度惩罚因子BP用于鼓励机器翻译结果和参考答案的长度尽量接近，如果当前机器翻译结果的长度小于参考答案的长度，其惩罚BP为：

其中，c为当前时刻目标端翻译的句长，r为参考答案的句长。可看出当前翻译长度越小于参考答案的长度，其惩罚力度越强。

为了模拟未来目标端上下文向量，首先我们在目标端添加了一个双向编码器，对目标端Y＝y₁,y₂,...,y_|Y|进行编码得到目标端隐藏层向量序列Z＝z₁,z₂,...,z_|Y|。如图1所示，针对当前时刻i，构建当前时刻i的解码器隐藏层向量s_i对z_i+1,…,z_i+k的注意力机制，从而获得未来目标端上下文向量c’_i：

c_i'＝Att(s_i,Z')

其中，s_i是当前时刻i的解码器隐藏层向量，Z’＝z_i+1,z_i+2,...,z_i+k是Z序列中当前时刻i的未来时刻的隐藏层向量，Att是注意力机制函数(如2.2.1节)，k(1<k<|Y|-i)表示考虑未来k步。

p_gold＝Softmax(concat(s_i,c_i'))

loss_gold＝-log(p_gold(y_i))

其中，c’_i同当前时刻i的解码器隐藏层向量s_i相连，经Softmax层输出当前时刻目标端词的概率分布p_gold。通过最小化损失函数loss_gold，使得正确答案y_i的概率在概率分布p_gold中最大化，从而优化未来目标端上下文向量c’_i对概率分布p_gold的贡献。这一步用来获得最优的未来目标端上下文向量c’_i。

但是在实际翻译中，并不能获得未来的全部翻译，也就是不能获得序列Z’，导致无法计算未来目标端上下文向量c’_i以及其对目标端词的概率分布的贡献。为解决这个问题，我们通过训练一个多层感知机MLP’以模拟c’_i对目标端词的概率分布的贡献，也就是用一个预测的概率分布p_predicate来模拟p_gold：

p_predicate＝MLP’(concat(s_i,c_i))

loss_context＝-(p_glod)*log(p_predicate)

其中，p_predicate是基于将基准系统的目标端隐藏层向量s_i和源端上下文向量c_i相连，通过MLP’层所预测的目标词的概率分布。通过优化交叉熵损失函数loss_context使得p_predicate和p_gold相接近。

本方案具体实施例都是以125万的LDC中英双语平行语料作为训练集，测试集分别采用美国国家标准与技术研究院2002年的数据Nist02、Nist03、Nist04、Nist05和Nist08，Nist06作为开发集，采用的评测标准是BLEU[Papineni et al.,2002]，评测脚本为multi-bleu.perl，英文单词全部为小写字母。

本实施例主要与典型的神经网络翻译框架做对比，采用基于Dynet的Lamtram系统是Neubig等人2017年提出的，系统中使用的是LSTM单元。在本实施例中，模拟未来翻译的长度的多层感知机设置为单层深度网络，模拟未来目标端上下文向量的多层感知机设置为三层深度网络，其中长度参数k设置为1。

实验结果对比如表1所示，异步双向解码[Zhang X et al.,2018]的翻译结果为34.768，Lamtram的基准结果为36.078，加入了模拟未来翻译长度的结果比基准结果提高了约0.74个BLEU，加入了模拟未来翻译长度和模拟未来目标端上下文向量的结果比基准结果提高了约1.06个BLEU。

表1实验结果

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法，其特征在于，包括：

固定模型参数M1和M2，最小化损失loss_context使得目标词的预测概率分布p_predicate近似于理想概率分布p_gold；

训练一个多层感知机MLP，模拟BP：

p_BP＝σ(MLP(concat(s_i,c_i)))

loss_length＝(p_BP-BP)²

其中，s_i是当前时刻i的解码器隐藏层向量，c_i是当前时刻的上下文向量，concat是将两个向量相连的操作，σ是Sigmoid函数；p_BP是模拟的长度惩罚，通过优化损失函数loss_length使模拟的长度惩罚p_BP近似真实的长度惩罚BP；当前机器翻译结果的长度小于参考答案的长度，其惩罚BP为：

其中，c为当前时刻目标端翻译的句长，r为参考答案的句长；

训练一个多层感知机MLP’以模拟未来目标端上下文向量c’_i对目标端词的概率分布的贡献，用一个预测的概率分布p_predicate来模拟p_gold：

p_predicate＝MLP’(concat(s_i,c_i))

loss_context＝-(p_glod)*log(p_predicate)

其中，p_predicate是基于将基准系统的目标端隐藏层向量s_i和源端上下文向量c_i相连，通过MLP’层所预测的目标词的概率分布，并优化交叉熵损失函数loss_context使得p_predicate和p_gold相近似，p_gold为当前时刻目标端词的概率分布；

未来目标端上下文向量c’_i的获取方法包括：在目标端添加了一个双向编码器，对目标端Y＝y₁,y₂,...,y_|Y|进行编码得到目标端隐藏层向量序列Z＝z₁,z₂,...,z_|Y|；

c_i'＝Att(s_i,Z')

其中，s_i是当前时刻i的解码器隐藏层向量，Z’＝z_i+1,z_i+2,...,z_i+k是Z序列中当前时刻i的未来时刻的隐藏层向量，Att是注意力机制函数，k，1<＝k<|Y|-i，表示考虑未来k步；

p_gold＝Softmax(concat(s_i,c_i'))

loss_gold＝-log(p_gold(y_i))

其中，c’_i同当前时刻i的解码器隐藏层向量s_i相连，经Softmax层输出当前时刻目标端词的概率分布p_gold；通过最小化损失函数loss_gold，使得正确答案y_i的概率在概率分布p_gold中最大化，从而优化未来目标端上下文向量c’_i对概率分布p_gold的贡献。