CN109598002A

CN109598002A - 基于双向循环神经网络的神经机器翻译方法和系统

Info

Publication number: CN109598002A
Application number: CN201811358954.4A
Authority: CN
Inventors: 梁文新; 王伟璇; 刘馨月; 张宪超
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-04-09

Abstract

本发明属于自然语言处理领域，涉及基于双向循环神经网络的神经机器翻译方法和系统，利用双向循环神经网络获得语句的上下文信息，然后通过双曲正切函数处理上下文信息，在生成目标语句的时候该上下文信息能够提供充分的源语句含义，从而生成质量更高的目标语句；本发明利用双曲正切函数的快速收敛性能来弥补神经机器翻译模型收敛慢造成的影响，提高了翻译模型的训练速度，减少了模型所需的训练时间，并且，在双向循环神经网络中添加双曲正切函数，可以更加充分理解翻译语句的上下文信息，能够进一步提高神经机器翻译模型的翻译质量。

Description

基于双向循环神经网络的神经机器翻译方法和系统

技术领域

本发明属于自然语言处理领域，涉及基于双向循环神经网络的神经机器翻译方法和系统。

背景技术

跨语言翻译已经成为促进全球交流的重要组成部分，越来越多的人使用在线翻译系统和移动应用来进行跨越语言障碍的交流，在海量的数据背景下，人工翻译已经无法承载所有的翻译任务。因此机器翻译被提出来研究如何利用计算机实现自然语言的自动转换，是人工智能和自然语言处理领域的重要研究方向之一。机器翻译为自然语言翻译过程建立概率模型，并利用大量平行语料库和翻译规则来训练模型参数，当模型训练好后可以直接用来翻译文本。机器翻译主要分为统计机器翻译和神经机器翻译，统计机器翻译具有数据稀疏和难以充分利用上下文信息等缺点，神经机器翻译能够较好地解决这些缺点。基于深度学习的神经机器翻译自2013年之后得到迅速发展，成为当前机器翻译领域的研究热点。

神经机器翻译主要使用的是端到端神经机器翻译方法，其主要思想是使用神经网络将源语言文本直接映射成目标语言文本，不再涉及人工手动设计翻译规则，仅需要一个非线性的神经网络便能实现自然语言文本的转换。端到端神经机器翻译主要利用编码器-解码器框架，针对给定的源语言语句，首先使用一个编码器将其映射为一个连续的向量，然后再使用一个解码器将该向量转换为目标语言语句。

尽管神经机器翻译在翻译领域取得很好的表现，但是它却是以训练时间作为代价的，训练一个具有良好翻译效果的模型需要很长的时间，这就造成了计算资源和训练成本的增加。

发明内容

本发明为解决上述问题，提出了一种基于双向循环神经网络神经机器翻译方法和系统，利用快速收敛性函数来处理上下文信息，弥补神经机器翻译模型收敛慢造成的影响，且可以更加充分理解翻译语句的上下文信息，提高了翻译模型的训练速度的同时，能够更进一步提高神经机器翻译模型的翻译质量。

根据本发明的一个方面，提供一种基于双向循环神经网络的神经机器翻译方法，包括：

步骤1，编码器把源语句的词向量表示作为输入，通过双向循环神经网络获得源语句的语义表示，所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态

步骤2，编码器使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算，得到当前时刻编码器的隐藏层状态h_i，并将当前时刻编码器的隐藏层状态h_i发送给解码器；

步骤3，解码器根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j；

步骤4，编码器根据所述上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j，以及之前时刻的翻译输出y_j-1，计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句。

其中，步骤2中所述的快速收敛特性函数可以为双曲正切函数。

根据本发明的一个方面，提供一种基于双向循环神经网络以及双曲正切函数的神经机器翻译系统，包括：

编码器，用于把源语句的词向量表示作为输入，通过双向循环神经网络获得源语句的语义表示，所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算，得到当前时刻编码器的隐藏层状态h_i，并将当前时刻编码器的隐藏层状态h_i发送给解码器；

解码器，用于根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j；根据所述上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j，以及之前时刻的翻译输出y_j-1，计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句。

其中，编码器使用的所述快速收敛特性函数可以为双曲正切函数。

本发明的有益效果在于，提出的一种基于双向循环神经网络的神经机器翻译方法系统，有效地利用双向循环神经网络获得上下文信息，然后使用快速收敛性函数处理上下文信息。在模型训练的过程中，快速收敛性函数可以进一步充分理解上下文信息，在一定程度上提高了模型的翻译质量，同时快速收敛性函数函数的快速收敛特性可以加速翻译模型的收敛速度，减少模型的训练时间。并且与现有的神经机器翻译模型相比，本发明的方法和系统在效率以及效果上都有所提升，在不同的数据上展现了鲁棒性。

附图说明

图1是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译方法流程图；

图2是本发明实施例的编码器使用双曲正切函数计算编码器隐藏层状态的流程图；

图3是是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译系统的结构图；

图4是本发明实施例提供的方法与现有技术在newstest2015和newstest2014数据集上生成的翻译语句的BLEU值，其中BLEU是一种文本评估算法，用来评估机器翻译和人工翻译之间的对应关系；

图5是本发明实施例提供的方法与现有技术在newstest2015数据集上的生成的翻译语句的BLEU值随时间增长的折线图；

图6是本发明实施例提供的方法与现有技术在newstest2015数据集上的训练过程中，不同时间对应的BLEU值。

具体实施方式

下面本发明具体的实施方式进行阐述，来进一步说明本发明的出发点以及相应的技术方案。

图1是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译方法流程图。所述方法包括四个步骤：

步骤1，编码器获取隐藏层状态

本发明实施例使用编码器-解码器架构模型来处理翻译任务。编码器把训练语句或源语句中的词向量表示作为编码器的输入，通过双向循环神经网络获得上下文信息。对于当前时刻的输入x_i以及前一时刻正向循环神经网络隐藏层的状态前一时刻反向循环神经网络隐藏层的状态当前时刻正向循环神经网络的隐藏层状态计算为：其中RNN()为循环神经网络的计算，当前时刻反向循环神经网络的隐藏层状态计算为：

步骤2，编码器使用具有快速收敛特性的函数处理隐藏层状态

现有技术中的双向循环神经网络模型对正向隐藏层状态和反向隐藏层状态一般是采取简单的连接方式：这样会导致模型对上下文信息理解不够充分，而且在反向传播更新参数的时候收敛速度很慢。为了提高模型的收敛速度，减少模型训练时间并且充分理解上下文信息，本发明实施例编码器对正向循环神经网络的隐藏层状态和反向循环神经网络的隐藏层状态施加具有快速收敛特性的函数，得到当前时刻编码器的隐藏层状态h_i，并将当前时刻编码器的隐藏层状态h_i发送给解码器。与传统的双向循环神经网络相比较，本发明不是简单的将两个隐藏层状态连接起来，而是使用具有快速收敛特性的函数对这两个隐藏层状态进行强收敛性的连接处理。这样不仅可以很大程度的提高训练速度，同时也更可以充分的理解上下文信息。

优选的，本发明实施例中所述的具有快速收敛特性的函数是双曲正切函数，双曲正切函数的计算过程为：从函数曲线可以看出双曲正切函数将所有值映射在-1到1区域内，并且导数的最大值为1，由于双曲正切函数的快速收敛特性会很大程度的提高训练速度，仅需要很短的时间可以达到良好的训练效果。如图2所示为本发明实施例中编码器使用双曲正切函数计算编码器隐藏层状态的流程图，编码器使用双曲正切函数对当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算得到：

将双曲正切函数和双向循环神经网络结合起来可以获得更好的效果。之前的简单双向循环神经网络只是把上一层的正向循环神经网络结果和反向循环神经网络结果简单连接起来传递给下一层，作为下一层的当前时刻的计算结果：而本发明是在把前一层的正向循环神经网络结果和反向循环神经网络结果经过双曲正切函数处理，即而后再传递给下一层。

本发明所述的具有快速收敛特性的函数不限于双曲正切函数，也可以是其他具有快速收敛特性的函数，是能连接所述正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态，并快速收敛的函数。

步骤3，解码器计算上下文信息向量和解码器的隐藏层状态

解码器接收编码器发送的编码器隐藏层状态，解码器根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j。

优选的，计算上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j时，使用注意力机制计算上下文信息向量：其中m是源语句的长度，h_i表示源语句的词向量对应的编码器隐藏层状态，是与编码器隐藏层状态h_i相对应的权重值，a_ij的计算是将双曲正切函数的结果应用在对齐机制中，其中s_j-1为之前时刻解码器的隐藏层状态，a()为注意力机制对齐函数。计算解码器的隐藏层状态s_j＝RNN(s_j-1,y_j-1,c_j)，其中s_j-1为之前时刻解码器的隐藏层状态，c_j为上下文信息向量，y_j-1为之前时刻的翻译输出，其中RNN()表示循环神经网络的计算。

步骤4，解码器计算翻译输出，并构成机器翻译的目标语句

解码器根据所述上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j，以及之前时刻的翻译输出y_j-1，计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句。

优选的，解码器根据上下文信息向量c_j，当前时刻的隐藏层状态s_j和之前时刻的翻译输出y_j-1，使用公式p(y_j|x,y_＜j)＝softmax(RNN(y_j-1,s_j,c_j；θ))计算得到当前时刻的翻译输出y_j，其中θ表示解码器中所有的参数，softmax()为归一化指数函数，RNN()为循环神经网络的计算，y_＜j为之前时刻的所有输出；当源语句所有的词向量得到相应的翻译输出后，翻译器把所有时刻的翻译输出连接起来构成其翻译的目标语句，机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。

进一步的，本发明的一个实施例在步骤4计算当前时刻的翻译输出和机器翻译的目标语句之后还包括：步骤5，根据平行语料库中的目标语句和机器翻译的目标语句对比，计算翻译的损失，然后使用随机梯度下降算法反向传播模型的损失值，并更新机器翻译的参数。

图3是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译系统结构图。所述系统至少包括两个模块：编码器1和解码器2。

编码器1，用于把源语句的词向量表示作为输入，通过双向循环神经网络获得源语句的语义表示，所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算，得到当前时刻编码器的隐藏层状态h_i，并将当前时刻编码器的隐藏层状态h_i发送给解码器；

解码器2，用于根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j；根据所述上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j，以及之前时刻的翻译输出y_j-1，计算当前时刻的翻译输出y_j,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。

优选的，编码器使用的所述快速收敛特性函数为双曲正切函数。所述编码器使用双曲正切函数对当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算：本发明实施例的基于双向循环神经网络的神经机器翻译系统，由于使用双曲正切函数的快速收敛特性，很大程度的提高训练速度，仅需要很短的时间可以达到良好的训练效果。

优选的，解码器根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j的方法为：

计算上下文信息向量其中m是源语句的长度，h_i表示编码器的隐藏层状态，是与隐藏层状态h_i相对应的权重值，其中s_j-1为之前时刻解码器的隐藏层状态，a()为注意力机制对齐函数；

计算解码器的隐藏层状态s_j＝RNN(s_j-1,y_j-1,c_j)，其中s_j-1为之前时刻解码器的隐藏层状态，c_j为上下文信息向量，y_j-1为之前时刻解码器的输出，其中RNN()表示循环神经网络的计算。

优选的，解码器计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为：

解码器根据上下文信息向量c_j，当前时刻的隐藏层状态s_j和之前时刻的翻译输出y_j-1，使用公式p(y_j|x,y_＜j)＝softmax(RNN(y_j-1,s_j,c_j；θ))计算得到当前时刻的翻译输出y_j，其中θ表示解码器中所有的参数，softmax()为归一化指数函数，RNN()为循环神经网络的计算，y_＜j为之前时刻的所有输出；当源语句所有的词向量得到相应的翻译输出后，翻译器把所有时刻的翻译输出连接起来构成及其翻译的目标语句，机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。

进一步的，本发明的一个实施例中基于双向循环神经网络的神经机器翻译系统还包括：更新模块，在翻译器计算当前时刻的翻译输出y_j和机器翻译的目标语句之后，根据平行语料库中的目标语句和机器翻译的目标语句对比，计算翻译的损失，然后使用随机梯度下降算法反向传播模型的损失值，并更新机器翻译的参数。

神经机器翻译模型的评价方法有中多种，我们将学习得到的翻译语句和平行语料库中的目标语句对比计算其BLEU值，以BLEU值的高低来判断神经机器翻译模型的优劣。BLEU是一种文本评估算法，用来评估机器翻译和人工翻译之间的对应关系。当BLEU值越大的时候说明翻译的质量越好。

本发明的实验中，设定模型参数学习率为1.0，权重参数初始化为0.1，遗忘偏差为1.0。为了进一步说明本发明的有效性，将本发明的模型(图4-6中标记为our model)与其他两个常用的现有神经机器翻译开源模型(图4-6中标记为RNNSearch和OpenNMT)进行对比，结果如图4，图5，图6所示。

图4中256units和512units分别表示隐藏层单元格的数量为256和512。Luongattention、Bahdanau attention、gnmt attention是三种不同的注意力机制。newstest2015和newstest2014是两个用于测试的数据集。从图4可以观察到本发明的模型无论是在哪种注意力机制下都比其他两种模型的翻译质量高。

图5中横坐标train steps表示训练的时间步，纵坐标为BLEU大小。这个图表示随着训练时间步的增加，BLEU分数的增长情况。从图5可以看出本发明模型的BLEU值上升速度很快，曲线较陡，能够很快的达到收敛程度，从而减少模型的训练时间。

图6表示具有同样隐藏单元格数量512和同样注意力机制的三种模型(ourmodel，RNNSearch和OpenNMT)在不同时刻的BLEU分数。从图6可以看出，本发明模型与其他两个模型相比达到相同程度的翻译质量所需的时间更短。

从以上实验效果上可以看出，本发明的模型能够在绝大多数情况下取得更好的结果，说明了本发明提出的基于双向循环神经网络的神经机器翻译方法和系统，通过利用快速收敛性函数来处理上下文信息，解决了传统神经机器翻译模型收敛慢造成的影响，且可以更加充分理解了翻译语句的上下文信息，达到了提高翻译模型的训练速度，提高神经机器翻译的翻译质量的目的。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于双向循环神经网络的神经机器翻译方法，其特征在于，包括：

步骤4，解码器根据所述上下文信息向量c_j和当前时刻解码器的隐藏层状态s_j，以及之前时刻的翻译输出y_j-1，计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句。

2.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法，其特征在于，步骤2中所述的快速收敛特性函数为双曲正切函数。

3.根据权利要求2所述的一种基于双向循环神经网络的神经机器翻译方法，其特征在于，步骤3所述解码器根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j的方法包括：

计算上下文信息向量其中m是源语句的长度，h_i表示当前时刻编码器的隐藏层状态，是与隐藏层状态h_i相对应的权重值，其中s_j-1为之前时刻解码器的隐藏层状态，a()为注意力机制对齐函数；

计算解码器的隐藏层状态s_j＝RNN(s_j-1,y_j-1,c_j)，其中s_j-1为之前时刻解码器的隐藏层状态，c_j为上下文信息向量，y_j-1为之前时刻的翻译输出，其中RNN()表示循环神经网络的计算。

4.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法，其特征在于，步骤4计算所述当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为：

解码器根据上下文信息向量c_j，当前时刻的隐藏层状态s_j和之前时刻的翻译输出y_j-1，使用公式p(y_j|x,y_＜j)＝softmax(RNN(y_j-1,s_j,c_j；θ))计算得到当前时刻的翻译输出y_j，其中θ表示解码器中所有的参数，softmax()为归一化指数函数，RNN()为循环神经网络的计算，y_＜j为之前时刻的所有输出；机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。

5.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法，其特征在于，在步骤4计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句之后还包括：

步骤5，根据平行语料库中的目标语句和机器翻译的目标语句对比，计算翻译的损失，然后使用随机梯度下降算法反向传播模型的损失值，并更新机器翻译的参数。

6.一种基于双向循环神经网络的神经机器翻译系统，其特征在于，包括：

7.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统，其特征在于，编码器使用的所述快速收敛特性函数为双曲正切函数。

8.根据权利要求7所述的一种基于双向循环神经网络的神经机器翻译系统，其特征在于，所述解码器根据所述编码器的隐藏层状态h_i和之前时刻解码器的隐藏层状态s_j-1计算上下文信息向量c_j，并结合之前时刻的翻译输出y_j-1计算当前时刻解码器的隐藏层状态s_j的方法为：

9.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统，其特征在于，解码器计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为：

10.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统，其特征在于，还包括：

更新模块，在翻译器计算当前时刻的翻译输出y_j，把所有时刻的翻译输出连接起来构成机器翻译的目标语句之后，根据平行语料库中的目标语句和机器翻译的目标语句对比，计算翻译的损失，然后使用随机梯度下降算法反向传播模型的损失值，并更新机器翻译的参数。