CN110472727A

CN110472727A - 基于重读和反馈机制的神经机器翻译方法

Info

Publication number: CN110472727A
Application number: CN201910676598.9A
Authority: CN
Inventors: 余正涛; 于志强; 郭军军; 文永华; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-19
Anticipated expiration: 2039-07-25
Also published as: CN110472727B

Abstract

本发明涉及基于重读和反馈机制的神经机器翻译方法，属于自然语言处理技术领域。首先，第一层编码器的最终状态在传递给第一层解码器进行解码的同时，生成其副本并传递给第二层编码器，第二层编码器重新读取该状态用于参数初始化，该过程称为“重读”。其次，将第一层解码器的解码结果和源语言共同作为重要性计算方法的输入，产生的重要性权重反馈到第二层编码器用于指导编码，该过程称为“反馈”。本发明能够实现端到端神经网络结构的改变，改变后的网络结构能够更好的挖掘全局信息，适用于平行语料稀缺型翻译环境。

Description

基于重读和反馈机制的神经机器翻译方法

技术领域

本发明涉及基于重读和反馈机制的神经机器翻译方法，属于自然语言处理技术领域。

背景技术

神经机器翻译在本质上是基于数据驱动语言转换任务，对其性能有重要影响的数据为平行语料。在平行语料资源丰富的场景下(如英语-法语、汉语-英语等)，神经机器翻译在性能上已经超过了传统的统计机器翻译。但是，在平行语料资源稀缺的场景下(如汉语-东南亚语)，神经机器翻译的性能并不十分理想。因此，探索如何从有限的平行语料中挖掘更多的信息，具有非常重要的研究和应用价值。

目前在通过改变神经网络结构挖掘语料中的潜在信息上，主流做法为增加神经网络层数。在此基础上，有方法为循环利用编码端信息进行再次编码；另有方法为利用解码端信息指导下一次解码。以上的方法都有效地挖掘了平行语料中的潜在信息，提高了机器翻译的性能，但是他们大多是对编码端或解码端信息的分别利用，忽视了对编码端与解码端的信息交互(全局信息)的利用。因此，所以本发明提出了基于重读和反馈机制的神经机器翻译方法，解决了如何从有限的平行语料中，通过改变神经网络结构挖掘更多的全局信息。编码器的输出结果是对源语言中的语义和句法结构等信息的有效表征，而解码器的输出结果则包含目标语言中的语义和句法结构等信息，所以本发明提出了基于重读和反馈机制的神经机器翻译方法。

发明内容

本发明提供了基于重读和反馈机制的神经机器翻译方法，以用于解决在平行语料稀缺型环境下全局信息利用不足的问题。

本发明的技术方案是：基于重读和反馈机制的神经机器翻译方法，所述基于重读和反馈机制的神经机器翻译方法的具体步骤如下：

Step1、语料预处理：预处理不同规模的平行训练语料、验证语料和测试语料，用于模型训练、参数调优和效果测试，源语言训练语料标记为x；

Step2、第一层编码器-解码器模型构建：以门控循环单元为基础单元构建循环神经网络；

Step3、第二层编码器-解码器模型的编码器端构建：在Step2的基础上，以改进的门控循环单元为基础单元构建循环神经网络；

Step4、第二层编码器-解码器模型的解码器端构建：在步骤Step3的基础上，接收第二层编码器的编码输出作为解码输入，产生最终译文。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、使用门控循环单元为基础单元构建双向循环神经网络编码器，以步骤Step1的语料x为编码器输入，产生的编码结果传送给第一层解码器用于解码，同时对编码结果进行拷贝，生成副本h用于第二层编码器的模型参数初始化；

Step2.2、使用门控循环单元为基础单元构建单向循环神经网络解码器，利用注意力机制进行上下文相关权重计算，产生解码结果同时对其进行拷贝，生成的副本s用于指导第二层编码器的编码过程。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用门控循环单元为基础单元构建双向循环神经网络编码器，以步骤Step1的语料x为编码器输入。

Step3.2、为了实现重读机制，对步骤Step2.1中第一层编码结果副本h进行维度变换和非线性变换处理，得到向量用于第二层编码器的模型参数初始化；

Step3.3、为了实现反馈机制，利用重要性计算方法，以步骤Step2.2中第一层解码结果副本s和源语言语料x为输入，计算并输出重要性权重α；

Step3.4、为了实现反馈机制，在步骤3.3的基础上，对传统门控循环单元进行改进，改进后的门控循环单元除能接收i时刻的输入x_i和之外，还能额外接收步骤Step3.3产生的重要性权重α用于指导第二次编码过程，其中，x_i为i时刻词向量表示，为前一阶段隐状态向量；

Step3.5、在步骤Step3.4的基础上，利用循环神经网络进行编码，产生第二层编码输出

作为本发明的优选方案，所述Step3.3的具体步骤如下：

为了实现反馈机制，构建重要性计算模型，以第一层解码结果副本s和源语言语料x为输入，计算重要性权重α：

α_i,j＝sigmod(W_fx_i+U_fs_j)

其中，y为第一层解码结果译文，T_y为y的长度，α_i,j为x_i与s_j的相关性权重，W_f与U_f为可训练的模型参数矩阵。

作为本发明的优选方案，所述Step3.4的具体步骤如下：

改进第二层循环神经网络中的门控循环单元，在原有输入i时刻词向量表示x_i和前一阶段隐状态向量基础上，增加步骤3.2的重要性权重α作为新输入：

其中，为前一阶段隐状态向量，z_i表示GRU的更新门，是中间变量。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、使用门控循环单元为基础单元构建单向循环神经网络解码器，以第二层编码输出为第二层解码器输入，同时利用注意力机制进行上下文相关权重计算，产生最终译文。

本发明的有益效果是：

1、本发明从有限的平行语料中，通过改变神经网络结构能挖掘更多的全局信息，适用于平行语料稀缺型翻译环境；

2、本发明提出的方法，通过挖掘并融入更多的全局信息，使翻译的质量有较大提升，能够在一定程度上解决漏译和错译问题；

3、因为编码器的输出结果是对源语言中的语义和句法结构等信息的有效表征，而解码器的输出结果则包含目标语言中的语义和句法结构等信息，所以本发明提出了基于重读和反馈机制的神经机器翻译方法，通过构建双层编码器-解码器结构同时利用编码和解码输出中的语义和句法结构信息；

4、本发明首先使用重读机制，有效利用第一层编码器的输出来进行第二层编码器的初始化；随后利用反馈机制加工第一层解码器的输出，形成权重，进而指导第二层编码器的编码过程。

附图说明

图1是本发明中的数据流程图；

图2是本发明的原理框图；

图3是本发明提出的模型结构图；

图4是本发明提出的改进门控循环单元结构图；

图5是本发明翻译过程的注意力可视化展示图。

具体实施方式

实施例1：如图1-5所示，基于重读和反馈机制的神经机器翻译方法，其具体步骤如下：

处理后的平行语料按规模分为三类：小规模、中等规模、大规模。在不同规模的平行语料上应用本发明的方法，可以观察语料规模的提升对信息利用率的影响，验证所提出的方法适用于平行语料资源稀缺场景的设想。表1为实验数据信息。

表1实验数据

作为本发明的优选方案，所述步骤Step2的具体步骤为：

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.2、为了实现重读机制，对步骤Step2.1中第一层编码结果副本h进行维度变换和非线性变换处理，得到向量用于第二层编码器的模型参数初始化：

其中，h为第一层编码结果副本，l为维度变换操作，σ为非线性变换操作；

作为本发明的优选方案，所述Step3.3的具体步骤如下：

α_i,j＝sigmod(W_fx_i+U_fs_j)

作为本发明的优选方案，所述Step3.4的具体步骤如下：

改进第二层循环神经网络中的门控循环单元，在原有输入i时刻词向量表示x_i和前一阶段隐状态向量基础上，增加步骤3.3的重要性权重α作为新输入：

Step4、第二层编码器-解码器模型的解码器端构建：使用门控循环单元为基础单元构建单向循环神经网络解码器，以第二层编码输出为第二层解码器输入，同时利用注意力机制进行上下文相关权重计算，产生最终译文。

为了说明本发明的翻译效果，采用基线系统和本发明产生的译文进行对比，表2展示了模型带来的翻译质量提升；表3为在不同语料规模上的提升结果。

表2翻译效果

表3为不同语料规模上的BLEU值提升

从以上结果可以看出，本发明提出的方法，通过挖掘并融入更多的全局信息，使翻译的质量有较大提升，能够在一定程度上解决漏译和错译问题。在不同规模语料上的实验结果表明，在平行语料资源稀缺的场景下，本发明所提方法对翻译性能(以BLEU值为度量标准)的提升更大，因此是一种适用于资源稀缺的场景的有效翻译方法。

图5为翻译过程的注意力可视化展示：横坐标为英语源文，纵坐标为产生的德语译文。相交部分的颜色越深表示翻译过程中该源文单词受关注程度越高。可以观察到，基线系统的翻译中，结果如图5左侧，“at once”没有得到关注；而在本发明所提方法中，结果如图5右侧，“atonce”得到关注。同时，虽然源文中的“will”在两种方法中都没有被译出，但是在本发明的方法中，对其的关注得到了提升。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于重读和反馈机制的神经机器翻译方法，其特征在于：所述基于重读和反馈机制的神经机器翻译方法的具体步骤如下：

2.根据权利要求1所述的基于重读和反馈机制的神经机器翻译方法，其特征在于：所述步骤Step2的具体步骤为：

3.根据权利要求2所述的基于重读和反馈机制的神经机器翻译方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.1、使用门控循环单元为基础单元构建双向循环神经网络编码器，以步骤Step1的语料x为编码器输入；

4.根据权利要求3所述的基于重读和反馈机制的神经机器翻译方法，其特征在于：所述Step3.3的具体步骤如下：

α_i,j＝sigmod(W_fx_i+U_fs_j)

5.根据权利要求3所述的基于重读和反馈机制的神经机器翻译方法，其特征在于：所述Step3.4的具体步骤如下：

6.根据权利要求1所述的基于重读和反馈机制的神经机器翻译方法，其特征在于：所述步骤Step4的具体步骤为：