CN109062907A

CN109062907A - 融入依存关系的神经机器翻译方法

Info

Publication number: CN109062907A
Application number: CN201810785646.3A
Authority: CN
Inventors: 段湘煜; 王坤; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-21
Anticipated expiration: 2038-07-17
Also published as: CN109062907B

Abstract

本发明涉及一种融入依存关系的神经机器翻译方法，为了得到更加精准的神经翻译模型而设计。本发明融入依存关系的神经机器翻译方法，解析出源端句子的依存树，确定源端句子词与词之间的关联性信息；基于所述依存关系信息，确定依存关联性损失Δ_dep，进而指导得到句对网络整体损失。本发明在源端添加自注意力机制，并将自注意力机制融入依存指导。

Description

融入依存关系的神经机器翻译方法

技术领域

本发明属于机器学习技术领域，具体涉及一种融入依存关系的神经机器翻译方法。

背景技术

机器翻译是指借助计算机自动地将一种语言(Source Language)转化成另一种语言(Target Language)的技术。[Bahdanau et al.,2015]提出将注意力机制引入神经机器翻译中，使得神经机器翻译(Neural Machine Translation，简称NMT)效果逐渐完善并且逐渐取代了统计机器翻译(Statistic Machine Translation，简称 SMT)。2017年[Vaswaniet al.,2017]提出了Transformer模型，模型完全使用了注意力机制，多层与残差网络的融入使得神经机器翻译性能大幅提升，研究人员以两个模型为基础完善翻译系统性能，大型互联网公司也逐渐将神经机器翻译技术应用到实际产品中。

神经机器翻译通常使用带有循环神经网络(Recurrent Neural Network，简称RNN)的编码器解码器结构对翻译过程建模。双向RNN编码器包括正向RNN和反向RNN，通过两个RNN，将源端句子序列编码成源端单词表示解码器将源端单词表示逐字逐句的翻译为在训练的过程中，对于给定的平行句子(x,y),NMT如下模拟条件概率：

其中y_i是解码端第i个时刻单词。条件概率P(y_i|y<i,x)计算如下：

P(y_i|y_<i,x)＝softmax(f(s_i,y_i-1,c_i)) (2)

其中f(.)是非线性函数，s_i是解码器第i时刻的隐藏层:

s_i＝g(s_i-1,y_i-1,c_i) (3)

其中g(.)是非线性函数，实际使用中通常使用门循环单元 (Gated RecurrentUnit,简称GRU)或者长短时记忆单元 (Long Short Term Memory,简称LSTM)作为编码器解码器的循环单元.c_i是由源端表示h加权和计算的上下文向量：

c_i＝Att(s_i-1,H) (4)

其中，H为源端隐藏层，Att()为注意力函数。

通过最大化对数似然(log-likelihood)来训练基于注意力的神经机器翻译模型。

其中N为双语句子数目。

在测试阶段，对于给定的源端句子x，使用波束搜索策略来搜索一个近似最大化概率P(y|x)的目标语句

Transformer完全使用注意力机制：在源端使用自注意力机制，在目标端使用自注意力机制和解码器编码器注意力机制，较少的训练时间以及更好的翻译效果使得Transformer成为了目前许多研究者的研究目标。

Transformer网络主要包含由多头注意力子层和前馈子层组成的注意力层。为了实现神经元的深度网络和归一化，Transformer还在每个子层之后添加了层泛化式(LayerNormalization)[Ba et al.,2016]，并且在每个子层使用残差连接 (ResidualConnection)[He el at.,2016]。为了将时间顺序信息结合到模型中，Transformer将位置嵌入(position embedding)p＝(p₁,p₂...p_n)拼接到学习的词嵌入(word embedding)e＝(e₁,…e_n)中。位置嵌入的初始化如下:

其中pos是单词的位置，i是维度，d_model是嵌入(embedding)层的维度。多头注意力机制使用缩放点乘方法。多头注意力机制获得h个不同表单表示 (query,key,value)，然后拼接这些表征。计算如下：

SA(q,k,v)＝MH(q,k,v)W^o (9)

MH(q,k,v)＝[H₁(q,k,v),…,H_h(q,k,v)] (10)

其中MH(.)表示多头注意力模型函数，Hi(·)表示单头的输出，其中h是头的个数。Att(.)为注意力机制函数，注意力机制函数中，d_s是query的维度。 W^o,是参数矩阵，这种结构帮助模型学习不同头的不同关系。此外，在解码端的自注意力机制中添加了掩码以防止参与后续位置计算。

多头注意力机制之后的下一个组成部分是前馈网络，这个网络由两个线性变换组成，变换中间使用Relu激活函数:

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (12)

其中W₁和W₂是权重，参数b1和b2是偏置参数。

基准系统：对源端隐藏层建模时，使用了循环神经网络结构，从左到右或者从右到左对源端序列建模，未考虑源端隐藏层之间的关联性信息，未考虑语言学信息。

Transformer模型：源端使用了自注意力机制，未考虑源端隐藏层之间的相关关联性，未考虑语言学信息。

鉴于上述的缺陷，本设计人积极加以研究创新，以期创设一种融入依存关系的神经机器翻译方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种提升最终的翻译质量的融入依存关系的神经机器翻译方法。

为达到上述发明目的，本发明融入依存关系的神经机器翻译方法，包括：

获取训练数据，基于训练数据解析出源端句子的依存树，确定源端句子词与词之间的关联性信息；

基于所述依存关系信息，确定依存关联性损失Δ_dep，得到句对网络整体损失，表达公式如下：

loss＝-logP(Y|X)+Δ_dep

其中，-logP(Y|X)是交叉熵损失，Δ_dep是依存关联性损失。

进一步地，计算目标端j时刻单词对应源端i时刻单词注意力权重，在计算得到源端隐藏层基础上，添加自注意力机制，

其中W_a′,U′_a是可训练参数；

通过指导α′_ji的分布来指导源端注意力层，使得该分布更着重于当前源端单词所对应的源端单词，通过以下公式实现依存树关联性指导Δ_dep:

其中，X为源端句子长度，{i,…i′}为源端第j个单词对应的存在依存关系的索引。

进一步地，依存树使用的是斯坦福大学的开源代码：stanford parser，使用默认配置获得源端依存树数据。

借由上述方案，本发明融入依存关系的神经机器翻译方法至少具有以下优点：

本发明在源端添加自注意力机制，并对自注意力机制融入依存指导。通过添加源端依存树指导，构造合适的损失函数，可以获得更好的源端隐藏层之间的关系表示，从而显著提升最终的翻译质量。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明使用的Stanford parser解析的依存关系；

图2为本发明的源端依存指导，依存指导如图中虚线方框所示，源端隐藏层(h₂,h₄)与源端(h₃)更相关,序列h和序列s分别表示源端和目标端对应的隐藏层。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明融入依存关系的神经机器翻译方法，包括两部分，第一部分通过依存树解析结果得到词与词之间的关联性信息，第二部分为将此依存信息加入到神经机器翻译网络中，以指导神经机器翻译的训练。对源端进行指导：在源端，添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失，用于指导神经机器翻译NMT。其中，依存树，可以提供词与词之间关联性用于指导神经机器翻译NMT，源于目标端未来单词不确定。

实施例

本实施例融入依存关系的神经机器翻译方法，如图1所示，为一个stanfordparser解析出的依存树，其中箭头指向为子节点，箭头开始为父节点。在图1的“吃”，与“喜欢”和“苹果”更相关。本发明对源端进行指导：在源端，添加了依存关联损失用来指导隐藏层之间的相关性。网络的源端构成一个指导损失，用于指导神经机器翻译NMT。

对于一个句对(X,Y)，提出的网络整体损失定义如下：

loss＝-logP(Y|X)+Δ_dep

其中-logP(Y|X)是交叉熵损失，Δ_dep是依存关联性损失。通过这个指导损失，神经机器翻译NMT能够指导源端隐藏层之间的关系。

正如普遍使用的神经机器翻译NMT网络所示，α′_ji计算了特定源端词对应的注意力权重，本发明在计算得到源端隐藏层基础上，添加自注意力机制，自注意力计算公式为：c_i＝Att(s_i-1,H)其中，c_i是由源端表示h加权和计算的上下文向量；H为源端隐藏层，Att()为注意力函数。

其中W_a′,U′_a是可训练参数。

本实施例通过指导目标端j时刻单词对应源端i时刻单词注意力权重α′_ji的分布来指导源端注意力层，使得该分布更着重于当前源端单词所对应的源端单词。

如图2所示，依存树解析结果中，源端单词隐藏层(h₃)与源端单词(h₂,h₄)更相关，在训练时，使得h₂,h₄作为注意力集中的两个词，图2中红色加粗部分实线为所对应的权重。

通过以下方式实现依存树关联性指导Δ_dep:

使用125万的LDC中英双语平行语料作为训练语料,使用NIST06作为开发集，NIST02,03,04,05,08作为测试集，使用4元的NIST BLEU作为评测标准，评测脚本为multi-bleu.perl。英文单词全部使用小写。

实验与典型的SMT和NMT系统做对比：

1、Lamtram[Neubig,2015]:基于Dynet[Neubig et al.,2017]的NMT开源代码，系统中使用的是LSTM单元

2、Transformer[Vaswani et al.,2017]:基于Tensorflow的NMT系统

两套NMT系统使用系统默认参数设置进行实验，表1中的第一部分为基准系统的对比。为了验证方法的普适性，的实验以Lamtram和Transformer为实验环境并基于此构架实现提出的方法。

实验结果

基于Lamtram和Transformer，构建了提出的融于依存树信息的NMT结构，实验结果如表1所示。

基准系统

如表1的第一部分显示，Transformer性能优于Lamtram。

增加依存关联指导的结果

表1的第二部分为所提出的方法，“Lamtram+dep₁”为在Lamtram基准系统的基础上，增加依存指导(指导包含自己)，“Lamtram+Δ_{dep 2}”为在Lamtram基准系统基础的基础上，增加依存指导(指导不包含自己)。“Transformer+Δ_{dep 1}”为在Transformer系统的基础上，增加依存指导(指导包含自己)，“Transformer+ dep₂”为在Transformer基准系统基础的基础上，增加依存指导(指导不包含自己)。

实验结果对比表明本发明提出的两种指导算法提升了最终翻译质量：增加了源端依存关系指导的方法(“Lamtram+dep₁”，“Lamtram+dep₂”)的翻译效果高于基准系统Lamtram；增加了源端依存关系指导的方法(“Transformer+ dep₂”)的翻译效果高于Transformer系统。

依存树指导融合效果：

表1的第三部分为系统融合结果：关于系统融合部分，Transformer选取后 5个保存的模型，平均模型参数，Transformer+Δ_dep同理。可以看出，五个 Transformer+Δ_{dep 2}模型的融合性能优于五个Transformer系统融合的性能。

表1实验结果

中英机器翻译上的实验表明：通过添加源端依存树指导，构造合适的损失函数，可以获得更好的源端隐藏层之间的关系表示，从而显著提升最终的翻译质量。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种融入依存关系的神经机器翻译方法，其特征在于，包括：

基于所述依存关系信息，确定依存关联性损失Δ_dep，采用如下公式计算句对(X,Y)的网络整体损失：

loss＝-log P(Y|X)+Δ_dep

其中，-logP(Y|X)是交叉熵损失，Δ_dep是依存关联性损失。

2.根据权利要求1所述的融入依存关系的神经机器翻译方法，其特征在于，

计算目标端j时刻单词对应源端i时刻单词注意力权重，在计算得到源端隐藏层基础上，添加自注意力机制，

其中，W′_a,U′_a是可训练参数；

通过指导α′_ji的分布来指导源端注意力层，通过以下公式实现依存树关联性指导Δ_dep:

3.根据权利要求1所述的融入依存关系的神经机器翻译方法，其特征在于，依存树使用的是斯坦福大学的开源代码：stanford parser，使用默认配置获得源端依存树数据。