CN107423290A

CN107423290A - 一种基于层次结构的神经网络机器翻译模型

Info

Publication number: CN107423290A
Application number: CN201710257328.5A
Authority: CN
Inventors: 苏劲松; 曾嘉莉; 尹永竞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-12-01

Abstract

一种基于层次结构的神经网络机器翻译模型，涉及基于深度学习的自然语言处理。使用词语对齐工具GIZA++对训练平行句对进行词对齐，然后根据标点符号和词语对齐信息将源语言句子分为单调翻译的子句；使用上述得到的子句数据来训练子句分类器；对平行句对的源语言句子进行层次结构建模；对平行句对的目标语言句子进行层次结构解码。将句子分成单调翻译的子句，然后进行词‑子句‑句子的层次建模，注意机制和解码：底层循环神经网络编码子句的语义表示，上层循环神经网络编码句子的信息，底层注意致力于子句内部的词级别对齐，上层注意机制则致力于子句级别的对齐。

Description

一种基于层次结构的神经网络机器翻译模型

技术领域

本发明涉及基于深度学习的自然语言处理，尤其是涉及一种基于层次结构的神经网络机器翻译模型。

背景技术

自然语言处理是计算机学科人工智能的一个重要研究方向。它研究如何使得人与计算机之间能够使用自然语言进行有效通信。它是一门融语言学、计算机科学、数学于一体的学科。其中，神经机器翻译是一个很重要的任务。现有的神经网络机器翻译主要包含两个循环神经网络和一个基于注意机制的上下文语义生成模型：使用一个循环神经网络(称为编码器Encoder)来学习输入句子的语义表示，使用另外一个循环神经网络(称为解码器Decoder)结合基于注意机制生成的上下文语义表示来生成译文。具体的结构框架如图1。

本项发明主要涉及到建立一种基于层次结构的神经网络机器翻译模型。近年来，神经机器翻译引起了学术界和工业界广泛的关注，在规模受限词语表[1][2]、注意机制[3][4]、神经机器翻译和传统统计机器翻译的结合[5][6]、语言学知识引入[7]、单语语料使用[9]、多语言神经机器翻译[10]、变分神经机器翻译[11]神经机器翻译模型和训练[12]和模型压缩[13]等方面都有相应的研究发展。

由于以循环神经网络为基础，因此神经网络机器翻译模型面临着两个问题：1)梯度爆炸和梯度消失问题。虽然现有的变种模型能一定程度上解决该类问题，但在长序列进行建模时，长距离上下文信息的建模仍较为困难；2)注意机制计算量较大，并存在对齐发散的问题。在长序列建模时无法准确计算相关的上下文语义表示。因此，现有的基于注意机制的循环神经机器翻译模型仍然存在着不足，如何对长句子序列进行更好的翻译仍是一个值得研究的问题。

参考文献

[1]Jean S,Cho K,Memisevic R,et al.On Using Very Large TargetVocabulary for Neural Machine Translation[C].ACL,2015.

[2]Luong M T,Sutskever I,Le Q V,et al.Addressing the Rare WordProblem in Neural Machine Translation[C].ACL,2015.

[3]Tu Z,Lu Z,Liu Y,et al.Modeling Coverage for Neural MachineTranslation[C].ACL,2016.

[4]Cohn T,Cong D V H,Vymolova E,et al.Incorporating StructuralAlignment Biases into an Attentional Neural Translation Model[C].NAACL,2016.

[5]He W,He Z,Wu H,et al.Improved Neural Machine Translation with SMTFeatures[C].AAAI,2016.

[6]Eriguchi A,Hashimoto K,Tsuruoka Y.Tree-to-Sequence AttentionalNeural Machine Translation[C].ACL,2016.

[7]Sennrich R,Haddow B,Birch A.Improving Neural Machine TranslationModels with Monolingual Data[C].ACL,2016.

[8]Dong D,Wu H,He W,et al.Multi-task learning for multiple languagetranslation[C].ACL,2015.

[9]Zhang B,Xiong D,Su J,et al.Variational Neural Machine Translation[C].EMNLP,2016.

[10]Wang M,Lu Z,Li H,et al.Memory-enhanced Decoder for Neural MachineTranslation[C].EMNLP,2016.

[11]Shen S,Cheng Y,He Z,et al.Minimum Risk Training for NeuralMachine Translation[C].ACL,2016.

[12]See A,Luong M T,Manning C D.Compression of Neural MachineTranslation Models via Pruning[J].arxiv,2016.

[13]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning PhraseRepresentations using RNN Encoder-Decoder for Statistical Machine Translation[J].EprintArxiv,2014.

发明内容

本发明的目的在于提供一种基于层次结构的神经网络机器翻译模型。

本发明包括以下步骤：

1)使用词语对齐工具GIZA++对训练平行句对进行词对齐，然后根据标点符号和词语对齐信息将源语言句子分为单调翻译的子句；

2)使用上述得到的子句数据来训练子句分类器；

3)对平行句对的源语言句子进行层次结构建模；

在步骤3)中，所述对平行句对的源语言句子进行层次结构建模的具体方法可为：以词为单位，使用底层循环神经网络编码得到子句的语义表示；以子句为单位，使用上层循环神经网络得到整个句子的语义表示。

4)对平行句对的目标语言句子进行层次结构解码。

在步骤4)中，所述对平行句对的目标语言句子进行层次结构解码的具体方法可为：根据子句的顺序确定当前翻译双层注意机制的作用范围，生成当前上下文信息的语义表示；结合前一解码状态的语义表示，计算当前解码状态的语义表示；计算当前译文的生成概率；与传统神经网络相同，以负对数似然为目标来训练基于层次结构的神经网络机器翻译模型。

本发明将句子分成单调翻译的子句，然后进行词-子句-句子的层次建模，注意机制和解码：底层循环神经网络编码子句的语义表示，上层循环神经网络编码句子的信息，底层注意致力于子句内部的词级别对齐，上层注意机制则致力于子句级别的对齐。

本发明的具体思想如下：

词对齐信息上体现了双语平行句对中词级别的对应关系，本发明将词对齐信息用于约束短语子句的切分的界限，将句子分成几部分语义信息上互不相关的短子句，底层编码器编码子句中词级别的信息，上层编码器编码短子句之间的信息，并利用层次的注意机制分别关注子句中的词对齐信息以及多个子句之间的对齐信息。

本发明以更好地处理长句子的翻译为目标，针对现有的基于注意机制的神经网络翻译模型的缺陷，提出了一种层次结构的神经网络翻译模型。本发明模型结构明确、思路清晰，该方法可以提高长句子序列的建模，更好地作用于机器翻译任务。

附图说明

图1为传统的神经网络机器翻译模型。

图2为句子切分过程的示例。在图2中，双箭头虚线表示词语的对齐信息，虚线框表示切分后得到的子句。

图3为分类器对句子进行切分的过程。

图4为本发明的模型框架。

具体实施方式

本发明具体实施方式如下：

第一步，根据词级别的对齐信息作为句子短子句的切分约束，利用分好子句的训练数据训练分类器；

第二步，利用底层的循环神经网络编码每个子句中词级别的信息从而得到子句的语义表示；

第三步，利用高层的循环神经网络编码每个子句之间的信息从而得到句子的整体语义表示；

第四步，在解码器过程中，底层注意机制关注子句中词的对齐信息，高层注意机制关注每个子句的对齐信息，根据当前的状态以及底层注意贡献和高层注意贡献以及对应的译文计算得到的翻译概率作为目标函数训练整个神经网络机器翻译模型。

下面介绍关键步骤的实现细节：

1.根据对齐信息训练子句分类器

通常，双语词对齐关系可以通过开源工具GIZA++训练得到。基于双语词对齐信息，我们可以将长句子分成几部分互不相关的短子句。定义如下：

给定源端句子f＝f₁ ^I＝f₁,...,f_i,...,f_I和目标端句子其中f_i和e_j为句子中以标点符号分割的子句，我们称源端顺序排列的子句子集k≤l为一个满足对齐一致性的子句当且仅当：存在目标端顺序排列的子句子集m≤n(e_m之前的子句已与f_k之前的子句对齐)，有中至少有一个词对应目标端子句子集中的词且中不存在某个词对齐于目标端子句子集之外的词，反之亦然。

基于上述切分子句的定义，如图2，我们将长句子中的每个标点符号作为分类的节点(如，句子“一旦有抢险任务，能招之即来、来之能战。”中有3个标点符号)，在训练数据中给标点符号打上标签(yes或no)，给每个子句的结束处加上结束符号‘<e>’，从而训练得到切分子句标签分类器，在测试过程中，利用分类器在长句子的每个标点符号处进行分类，判断当前子句是否在该标点处结束，从而进入下一子句。

切分子句标签分类器我们提出一种类似于分词的序列标注模型。不同的地方在于，我们只对标点符号进行标注。如图3，为抽取子句信息的基于层次结构的双向循环神经网络(本发明所使用的循环神经网络均为Gated Recurrent Unit Recurrent NeuralNetworks[13]，后文简称为GRU)分类器。

2、利用层次结构的编码器编码子句的语义表示和句子的整体语义表示

使用双向GRU循环神经网络对句子信息进行编码。

输入定义：

其中，x为源端句子，y为目标端句子，x_i、y_j分别为源端的第i个词和目标端的第j个词，d_x,d_y分别为源端、目标端的词典大小,T_x,T_y分别为源端、目标端句子长度。

首先，由于词级别的双向GRU编码器是建立在子句上的，所以我们有如下子句输入的定义：

其中,T_b表示当前子句的长度。编码过程为GRU的隐层单元计算过程，具体如下：

其中，为GRU隐层单元中的更新门(update gate),为GRU隐层单元中的重置门(reset gate),为源端句子第i个词对应的隐层状态，为词的嵌入表示矩阵，获得每个词的嵌入表示，为权重矩阵，m为源端词向量的维度，n为隐层的数量，即隐层维度，σ为sigmoid函数。反向的计算公式与正向的计算公式类似，从而得到每个子句编码后的隐层状态由子句的正向语义表示和反向语义表示串接得到，即

接下来，在子句级别的高层双向GRU中，输入为

其中，表示第u个子句在底层双向GRU得到的语义表示。K_b为当前句子的子句的数量。其余编码过程的公式与词级别的双向GRU类似，不加赘述，从而得到句子的整体语义表示

3.注意机制

解码步骤中，模型通过注意机制选择性地关注源语言句子的不同部分，动态地构建上下文向量。该模型框架中有两个注意机制,与层次结构的编码器是相对应的。

一个是底层词级别的注意机制，另一个是高层子句级别的注意机制.词级别的注意机制保存每个子句中源端词和目标端词的对齐信息；子句级别的注意机制保存源端的子句信息到目标端子句信息的对齐信息。

词级别的上下文信息向量计算如下：

其中，j为目标端的第j个词，α_ji为子句中第i个词的语义信息对当前翻译目标端第j个词的贡献程度。v_a∈R^n′,W_a∈R^n′×n,U_a∈R^n′×2n为权重矩阵,n′为解码器的隐层维度。

同理可得，子句的上下文信息向量为：

4.解码器和模型目标函数

与编码器中的层次模型不同，在解码端，我们仅为词级别的序列解码，同时用上词级别的上下文信息和子句级别的上下文信息。

解码过程同样为GRU的隐层计算过程，具体如下：

其中，E是目标端的词向量矩阵，W,W_z,W_r∈R^n×m,U,U_z,U_r∈R^n×m,为权重矩阵。且有即利用句子的反向语义表示作为解码器的初始化状态。根据当前的解码状态得到当前词的翻译概率

最终得到句子的翻译概率的负对输似然logp(yⁿ|xⁿ,θ)作为目标函数，具体如下：

其中，D表示训练数据集，θ为模型的参数。

通过最大化训练数据中平行句对的翻译概率从而训练得到较好的神经网络机器翻译模型。

本发明的模型框架参见图4。

Claims

1.一种基于层次结构的神经网络机器翻译模型，其特征在于包括以下步骤：

2)使用上述得到的子句数据来训练子句分类器；

3)对平行句对的源语言句子进行层次结构建模；

4)对平行句对的目标语言句子进行层次结构解码。

2.如权利要求1所述一种基于层次结构的神经网络机器翻译模型，其特征在于在步骤3)中，所述对平行句对的源语言句子进行层次结构建模的具体方法为：以词为单位，使用底层循环神经网络编码得到子句的语义表示；以子句为单位，使用上层循环神经网络得到整个句子的语义表示。

3.如权利要求1所述一种基于层次结构的神经网络机器翻译模型，其特征在于在步骤4)中，所述对平行句对的目标语言句子进行层次结构解码的具体方法为：根据子句的顺序确定当前翻译双层注意机制的作用范围，生成当前上下文信息的语义表示；结合前一解码状态的语义表示，计算当前解码状态的语义表示；计算当前译文的生成概率；与传统神经网络相同，以负对数似然为目标来训练基于层次结构的神经网络机器翻译模型。