CN108984538B

CN108984538B - 基于语法规约指导的神经机器翻译方法

Info

Publication number: CN108984538B
Application number: CN201810784072.8A
Authority: CN
Inventors: 段湘煜; 王坤; 谭敏; 骆卫华; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2022-05-31
Anticipated expiration: 2038-07-17
Also published as: CN108984538A

Abstract

本发明涉及一种基于语法规约指导的神经机器翻译方法，为了得到更加精准的神经翻译模型而设计。本发明基于语法规约指导的神经机器翻译方法，本发明对源端和目标端都进行指导：在源端，添加了注意力损失来指导注意力集中在源端短语上；在目标端通过一层子网络来指导目标端词关注到合适的目标端短语上。网络的源端和目标端构成一个汇总损失，称为指导损失，用于指导NMT。本发明能够有效地改善神经机器翻译质量。

Description

基于语法规约指导的神经机器翻译方法

技术领域

本发明具体涉及一种基于语法规约指导的神经机器翻译方法。

背景技术

机器翻译是指借助计算机自动地将一种语言转化成另一种语言的技术。随着深度学习的发展和计算能力的增强，神经网络技术也被运用到机器翻译领域当中，神经机器翻译(NeuralMachineTranslation，简称NMT)受到了人们广泛的关注。随着注意力机制(AttentionMechanism)加入到神经机器翻译中，神经机器翻译逐渐兴起并且综合效果快速超过了统计机器翻译(StatisticMachineTranslation，简称SMT)，这也使得NMT在产学研中得到了普遍的应用。国内外科研人员以此为基础逐步完善机器翻译模型，谷歌，百度等公司也逐步从SMT过渡到NMT，提升翻译效果，增强用户粘性。

机器翻译的目标是打破语言屏障，增进不同国家不同文化之间的信息交流。随着国内外文化交流，经济贸易的增加，普适性的翻译系统需求也更加紧缺，如何让翻译系统达到信、达、雅的要求也是国内外科研人员追求的目标。

机器翻译的主要两种系统介绍如下：

基准系统：端对端的神经机器翻译(NMT)已经成为机器翻译领域的新范式[Sutskeveretal.,2014；Bahdanauetal.,2015]。通过给定的源端句子X＝x₁,x₂,…x_|X|,NMT直接对目标翻译Y的条件概率P(Y|X)建模。神经机器翻译通常由两部分组成：编码器和解码器，这两部分通常使用循环神经网络(RecurrentNeuralNetwork，简称RNN)来对序列建模，实际运用中通常使用的是门循环单元(GatedRecurrentUnit，简称GRU)[Choetal.,2014]或者长短时记忆单元(LongShort-TermMemory，简称LSTM)[HochreiterandSchmidhuber,1997]。在源端，编码器将源端序列通过正向和反向的RNN编码成隐藏层向量序列H＝h₁,h₂,…,h_|X|,解码端按概率分布预测每个单词：

第j个目标端单词概率计算如下:

P(y_j|y<j,X)＝g(s_j,y_j-1,c_j)(2)

g是用来计算输出概率y_j非线性函数，s_j是目标端隐藏层，上下文向量c_j由目标端隐藏层s_j-1和源端隐藏层H得到：

其中

W_a,U_a是权重矩阵。这种算法，通常也称为带有注意力机制的神经机器翻译，能够有效的对源端和目标端相关性进行建模。

使用词对齐指导NMT训练：注意力机制能够通过生成源端单词和目标端词之间的对齐信息对源端句子动态编码，实验分析表明这种方式相比于传统的对齐模型，对齐效果更差。Liuetal.[2016],Chenetal.[2016]从重排序的角度分析和解释这个问题，并提出使用传统的对齐模型指导注意力机制，通过词对齐指导，提升对齐效果与翻译效果。

使用外部平行短语表进行短语推荐：该方法需要借助于外部SMT的短语表，并且需要在词和短语推荐之间进行复杂的权衡。

统计机器翻译(SMT)发展经历了单词模型，短语模型，句法模型三个阶段。其中，短语模型的提出是一次重要的变革，短语的引入使得翻译基本单元从词语级别转变为短语级别，丰富了基本单元内部的上下文信息，提升了基本单元的翻译忠实度。带有注意力机制的神经机器翻译模型以词为翻译的最小单元，未融合先验的短语信息。Wangetal.[2017],Tangetal.[2016],Stahlbergetal.[2016]提出使用SMT构建外部平行短语表来执行短语推荐或者短语限制解码，通过词和短语推荐的复杂权衡，提升了带有注意力机制的神经机器翻译效果。

现有技术中，基准系统：注意力机制未添加指导，注意力易分散到源端所有单词。使用词对齐指导NMT训练：该方法虽然可以避免注意力分散，但却使注意力集中到过于狭窄的词的级别上。使用外部平行短语表进行短语推荐：该方法需要借助于外部SMT的短语表，并且需要在词和短语推荐之间进行复杂的权衡。

发明内容

为解决上述技术问题，本发明的目的是提供一种通过构造合适的神经网络层、损失函数，获得更好的词对齐和短语对齐，从而显著提升最终的翻译质量的基于语法规约指导的神经机器翻译方法。

为达到上述发明目的，本发明基于语法规约指导的神经机器翻译方法，包括：

获取训练数据，基于语法规约计算源端训练数据的注意力层指导损失Δ_att，目标端训练数据的生成层指导损失Δ_att；

对计算得到的源端训练数据的注意力层指导损失Δ_att与目标端训练数据的生成层指导损失Δ_att的和与句对(X,Y)的交叉熵损失分配不同的权重比例，定义网络整体损失具体计算公式为：

loss＝-(1-λ)*logP(Y|X)+λ*(Δ_att+Δ_tgt)

其中，-logP(Y|X)是交叉熵损失，λ是权重，用来分配交叉熵损失与两个指导损失之和的分配比例。

进一步地，源端训练数据的注意力层指导损失Δ_att的具体计算公式为：

其中，α_ji计算了目标端j时刻单词对应源端i时刻单词注意力权重对应的注意力权重，

l_j为目标端词y_j对应的源端短语最左边索引，r_j为目标端词y_j对应的源端短语最右边索引。γ_j为短语对的置信度：

其中，n＝r_j-l_j+1，

为通过语法规约得到的词对齐的极大似然估计。

进一步地，目标端训练数据的生成层指导损失Δ_att的方法包括：

对目标端短语的开始标0，短语其他部分标1，目标端短语的开始、短语其他部分的标签通过MLP子层预测得到:

其中σ为sigmoid函数，s_j-1为目标端隐藏层，W_b,

o_b为权重矩阵，输出p_j∈[0,1]表示y_i为1的概率，子层的指导损失Δ_tgt计算如下：

Δ_tgt是为了用来衡量目标端短语真实标签与MLP子层预测标签之间的不一致程度。

进一步地，训练时候是最小化损失函数，解码时候是最大化得分，J(θ)也就是对应的句子打分结果，解码时最大化

借由上述方案，本发明基于语法规约指导的神经机器翻译方法至少具有以下优点：

1、本发明提出的基于语法规约指导的NMT框架可以在短语级别上进行指导，从而可以将注意力聚焦到携带更丰富信息的上下文。

2、本发明不需使用外部SMT资源，不需要在词和短语推荐间进行复杂的权衡策略，将短语级别的指导作为一种软指导，以指导NMT的源端和目标端的短语级别对齐。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明基于语法规约指导的神经机器翻译方法的实施例的一个ITGs同步语法树；

图2是本发明基于语法规约指导的神经机器翻译方法的神经网络与语法规约指导的融合(GuidedNetwork)；语法指导如图中虚线方框所示，源端短语(x_i-2,x_i-1,x_i)对齐到目标端短语(y_j-1,y_j)，序列x和序列y分别表示为源端和目标端序列，序列h和序列s分别表示x和y的隐藏层。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

短语规约生成的双语同步树，可以提供短语级别对齐信息用于指导神经机器翻译NMT，本发明对源端和目标端都进行指导：在源端，添加了注意力损失来指导注意力集中在源端短语上；在目标端通过一层子网络来指导目标端词关注到合适的目标端短语上。网络的源端和目标端构成一个汇总损失，称为指导损失，用于指导神经机器翻译NMT。

本实施例基于语法规约指导的神经机器翻译方法，包括：

从同步语法树上抽取结构对齐信息

同步语法规约主要使用ITGs对潜在的同步句法建模。图1为一个ITGs同步语法树，其中节点由两种模式自顶而下生成：一种正向生成X→[XX]，其中源端和目标端子节点是相同顺序；另一种是反向生成X→<X,X>，源端和目标端的孩子节点是相反顺序。

ITGs同步语法树中的节点表示了结构化对齐信息。如图1所示：在图1中树的三个圆圈节点中，中间的圆圈表示“德国经济”对应“Germany′s economy”。

ITGs同步语法树提供了有助于指导NMT的结构对齐信息。我们根据同步树节点的大小来灵活抽取短语对齐信息。图1中的虚线框和圆圈为短语对齐抽取结果。如果一个节点覆盖了长度小于阈值的句块，这个节点会被抽取出来，节点对应源端，则是源端短语块，对应目标端，则为目标端短语块，这边所说的这个节点，其实就是短语块。

抽取的过程采用自顶向下的方式，在自顶向下遍历中访问节点时，将根据阈值检查其覆盖的跨度长度，如果长度小于阈值，则会停止向下遍历。在图1中，停止向下遍历的节点由虚线圈出。抽取过程的结果是图1中的所有圆圈节点，圆圈节点构成了平行句子的短语分解(如虚线框所示)。根据在验证集上的初步实验，本实施例将英文端的阈值设置为六个单词。

使用获取的结构对齐信息指导NMT训练和翻译解码

指导网络由两部分组成：注意力层和目标端生成层。注意力层用来指导源端短语级别注意力，目标端生成层用来指导目标端词所属的目标端短语。

对于一个句对(X,Y)，提出的网络整体损失定义如下：

loss＝-(1-λ)*logP(Y|X)+λ*(Δ_att+Δ_tgt) (6)

其中-logP(Y|X)是交叉熵损失，Δ_att是注意力层指导损失，Δ_tgt是目标端生成层指导损失，λ是权重，用来分配交叉熵损失与两个指导损失和值的分配比例。通过这两个指导损失，NMT能够指导注意力层和目标生成层的短语对齐信息。

图2简述了网络的整体结构，短语级别对齐指导如图2中源端和目标端虚线框和实线加粗部分所示。

注意力层指导

正如普遍使用的NMT网络所示，公式4中的α计算了目标端单词对应源端单词的注意力权重，本实施例旨在通过指导α的分布来指导注意力层，使得该分布更着重于当前目标端词所对应的源端短语。如图2所示，语法规约的结果中，目标端短语(y_j-1,y_j)对应于源端短语(x_i-2,x_i-1,x_i)，当生成y_j时，选择x_i-2,x_i-1,x_i作为注意力集中的三个词，图2中加粗部分实线为所对应的权重。

通过以下方式实现短语级别的注意力损失Δ_att：

其中l_j为目标端词y_j对应的源端短语最左边索引，r_j为目标端词y_j对应的源端短语最右边索引。γ_j为短语对的置信度(由词对齐概率的几何平均得到)：

其中n＝r_j-l_j+1，

为通过语法规约得到的词对齐的极大似然估计。

每个目标端单词都会对应一个源端的短语，上述特定源端词已经修改为“目标端j时刻单词对应源端i时刻单词注意力权重”，对应于每个句子，如果目标端单词有十个，则对应有十个损失，每个损失为

其中

为对应j时刻目标端单词对应的源端短语损失。

目标端生成层指导

如图2所示，对目标端短语的开始标0，短语其他部分标1，例如“清华大学”短语，清华是短语的开始，大学是短语的结束，这边指的是目标端短语，也就是译文对应的短语。标签通过MLP子层预测得到:

其中σ为sigmoid函数，s_j-1为目标端隐藏层，W_b,

o_b为权重矩阵，输出p_j∈[0,1]表示y_i为1的概率。子层的指导损失Δ_tgt计算如下：

解码

注意力指导损失驱使网络参数最小化短语对齐误差，训练好的网络能够在解码的时候自动指导短语级别的对齐信息。对于提出的目标端生成层指导，如图2中GuidedNetwork所示，解码时最大化

其中q_j由公式11所得。

图1:中英ITGs树.中文句子之上的树结构为ITGs树，树中短水平线表示反向生成规则，其他则表示正向生成规则。词对齐由平行句子中间的直线表示。树上的虚线圆圈和平行句子中相应的虚线框表示将用于指导NMT的对齐短语对。

图2:神经网络与语法规约指导的融合(GuidedNetwork)。语法指导如图中虚线方框所示，源端短语(x_i-2,x_i-1,x_i)对齐到目标端短语(y_j-1,y_j)，序列x和序列y分别表示为源端和目标端序列，序列h和序列s分别表示x和y的隐藏层。

使用125万的LDC中英双语平行语料作为训练语料,使用NIST06作为开发集，NIST02,03,04,05,08作为测试集，使用4元的NIST BLEU作为评测标准，评测脚本为multi-bleu.perl。英文单词全部使用小写。

实验与典型的SMT和NMT系统做对比：

1Moses[Koehn et al.,2007]:典型的基于短语的SMT系统，参数使用系统默认配置，训练语料为Giga语料的新华语料部分，包含668万英文句子。

RNNSearch:基于dl4mt重现的基于注意力机制的NMT系统[Bahdanau et al.,2015]，系统中使用的是GRU单元

Lamtram[Neubig,2015]:基于Dynet[Neubig et al.,2017]的NMT源代码，系统中使用的是LSTM单元

两套NMT系统使用系统默认参数设置进行实验，表1中的第一部分为基准系统的对比。Lamtram性能优于RNNSearch，本发明的实验以Lamtram为实验环境并基于此构架实现提出的方法。

语法规约系统：本发明使用的是短语ITGs对齐工具：pialign，使用默认配置获得语法规约数据。

实验结果：基于Lamtram，本发明构建了提出的基于语法规约的NMT结构，实验结果如表1所示。

基准系统：如表1的第一部分显示，两个NMT系统性能优于SMT系统Moses，Lamtram的性能优于RNNSearch。

增加规约指导的结果：

表1的第二部分为所提出的方法，“Lamtram+Δ_att”为在基准系统的基础上，增加注意力层的指导，“GuidedNetwork”为在“Lamtram+Δ_att”注意力层指导的基础上增加了目标端短语连续性指导。

实验结果对比表明本发明提出的两种指导算法显著提升了最终翻译质量：单独增加了注意力引导层(“Lamtram+Δ_att”)的翻译效果显著高于基准系统Lamtram；目标端添加了短语连续性指导的实验在(“Lamtram+Δ_att”)的基础上进一步提升了翻译效果。

与相关工作的对比：

表1第三部分为相关工作对比实验，相关工作包括：基于词级别的对齐指导算法[Liu et al.,2016]，短语推荐算法(短语表由SMT构建)[Wang et al.,2017；Tang et al.,2016]，局部注意力算法(不通过短语对齐指导短语级别注意力)[Luong et al.,2015]。为了公平起见，本发明使用了相同的数据并且重新实现了[Liu et al.2016]和[Luong etal.2015]的工作。

实验结果对比表明短语级别对齐指导方法优于单词级别对齐指导算法以及来自外部的平行短语表推荐方法。相比于无指导局部注意力方法[Luong et al.,2015]，可以看出：短语级别注意力指导方法的翻译效果明显优于未加短语对齐指导的方法。

语法规约指导融合效果：表1的第四部分为系统融合结果，关于指导组合，本发明从第31次迭代开始每3次采样迭代中选择4组同步树。基于这四个集合，提取短语对，分别指导四个GuidedNetwork模型的训练。可以看出：四个GuidedNetwork系统融合的性能优于四个基准系统融合性能。

表1实验结果

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于语法规约指导的神经机器翻译方法，其特征在于，包括：

对计算得到的源端训练数据的注意力层指导损失Δ_att与目标端训练数据的生成层指导损失Δ_att的和与句对(X，Y)的交叉熵损失分配不同的权重比例，定义网络整体损失具体计算公式为：

loss＝-(1-λ)*logP(Y|X)+λ*(Δ_att+Δ_tgt)

其中，-logP(Y|X)是交叉熵损失，λ是权重，用来分配交叉熵损失与两个指导损失之和的分配比例，源端训练数据的注意力层指导损失Δ_att的具体计算公式为：

l_j为目标端词y_j对应的源端短语最左边索引，r_j为目标端词y_j对应的源端短语最右边索引， γ_j为短语对的置信度：

其中，n＝r_j-l_j+1，

为通过语法规约得到的词对齐的极大似然估计。

2.根据权利要求1所述的基于语法规约指导的神经机器翻译方法，其特征在于，目标端训练数据的生成层指导损失Δ_att的方法包括：

对目标端短语的开始标0，短语其他部分标1，目标端短语的开始、短语其他部分的标签通过MLP子层预测得到：

其中σ为sigmoid函数，s_j-1为目标端隐藏层，W_b，

o_b为权重矩阵，输出p_j∈[0，1]表示y_i为1的概率，子层的指导损失Δ_tgt计算如下：

3.根据权利要求1所述的基于语法规约指导的神经机器翻译方法，其特征在于，训练时候是最小化损失函数，解码时候是最大化得分，J(θ)也就是对应的句子打分结果，解码时最大化