CN107729326A

CN107729326A - 基于Multi‑BiRNN编码的神经机器翻译方法

Info

Publication number: CN107729326A
Application number: CN201710875429.9A
Authority: CN
Inventors: 叶娜; 张学强
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-02-23
Anticipated expiration: 2037-09-25
Also published as: CN107729326B

Abstract

本发明涉及一种基于Multi‑BiRNN编码的神经机器翻译方法，在编码器端采用Multi‑BiRNN编码，即在源语言句子作为输入序列的基础上，再增加一组或多组BiRNN对与之相关的其他输入序列进行编码；基于Multi‑BiRNN编码的神经机器翻译，在源端编码过程中同时考虑源语言句子序列及其依存句法树，通过两种不同的遍历方式分别得到句法树的序列化结果，与源语言句子序列一起作为Multi‑BiRNN编码的输入；在各组BiRNN的输出端，采用向量拼接的方式形成每个词。本发明编码得到的向量包含更加丰富的语义信息，同时考虑源语言句子序列和其他与之相关序列，在源语言句子的语义的表示过程中起到消歧作用。

Description

基于Multi-BiRNN编码的神经机器翻译方法

技术领域

本发明涉及一种自然语言翻译技术，具体为基于Multi-BiRNN编码的神经机器翻译方法。

背景技术

端到端神经机器翻译作为一种全新的机器翻译方法，近年来得到了迅速发展。然而，端到端神经机器翻译仅仅使用一个非线性的神经网络实现自然语言之间的转换，导致难以显式地利用语言学知识。如何对当前的神经机器翻译的框架作出改进，从而将句法信息等语言学知识编码并应用到端到端的神经网络中，是一个值得探究的方向。

通常，端到端神经机器翻译基于一个“编码-解码”框架来学习源语言到目标语言的转换规律，用连接编码器和解码器的向量描述语义等价性。在编码器端，通常采用双向编码将源语言句子映射为一个连续、稠密的向量。在解码器端，使用该向量初始化隐状态，并递归地使用隐状态和已生成的目标词共同作用于当前生成词的概率分布。然而，不管句子长短都将其映射为一个固定维度的向量，这对实现准确编码提出了挑战。注意力机制的引入，在一定程度上缓解了编码器生成定长向量的问题。Bengio研究组主张为每个目标语言词动态生成源语言端的上下文向量，不再采用表示源语言句子的固定维度的向量。为此，编码器依据基于内容的注意力计算方法将源语言句子编码为向量序列。

由神经机器翻译基本原理可以看出，句子中的信息与特征完全由向量表示，并在编码器和解码器之间传递源语言句子的语义信息。无论是传统的基于“编码-解码”框架的神经机器翻译，还是引入注意力机制的神经机器翻译，都依赖于编码过程，即将句子映射为可表示、传递和计算语义的向量。能否实现对源语言句子的准确编码，并将更多的语言学知识编码到向量中，对提高神经机器翻译性能起到举足轻重的作用。

发明内容

针对现有技术中端到端神经机器翻译主要基于一种序列到序列的模型，没有直接显式地利用句法信息来指导和约束译文的生成等不足，本发明要解决的问题是提供一种基于Multi-BiRNN编码的神经机器翻译方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于Multi-BiRNN编码的神经机器翻译方法，包括以下步骤：

1)在编码器端采用Multi-BiRNN编码的方法，即在源语言句子作为输入序列的基础上，再增加一组或多组BiRNN对与之相关的其他输入序列进行编码；

2)基于Multi-BiRNN编码的神经机器翻译，在源端编码过程中同时考虑源语言句子序列及其依存句法树，通过两种不同的遍历方式分别得到句法树的序列化结果，与源语言句子序列一起作为Multi-BiRNN编码的输入；

3)在各组BiRNN的输出端，采用向量拼接的方式形成每个词，使每个词更加完整和全面。

步骤1)中，增加一组或多组BiRNN对与之相关的其他输入序列进行编码，具体为：

BiRNN₁用以编码源语言句子，分别生成前向隐状态序列和后向隐状态序列

BiRNN₂用以编码词性序列，分别生成前向隐状态序列和后向隐状态序列

得到上述4个隐状态序列后，分别对每一位置的隐状态依次进行拼接，最终实现将源语言句子映射为向量序列

如果增加多组BiRNN对与之相关的其他输入序列进行编码，则每个BiRNN_j可分别生成正向隐状态和反向隐状态最终可得到2*m个隐状态，进行拼接可得到向量序列

h_mn表示Multi-BiRNN中第m个BiRNN生成的第n个隐状态，m表示Multi-BiRNN中BiRNN网络层数，n表示每层BiRNN生成隐状态的个数。

步骤2)中，两种不同的遍历方式为：

对于一个源语言句子，分析为一棵依存句法树，依存句法树的遍历采用广度优先遍历或深度优先遍历；

在依存句法树中，有依存关系的短语或子句自动生长在同一棵子树中，结点之间的父子关系反应词之间的依存关系；

对于依存句法树的遍历，广度优先遍历是从根节点出发，逐层对句法树的每一个结点进行遍历；深度优先遍历则从根结点开始，每次沿着一条路径遍历，直到遍历到句法树的叶子结点再回溯到父节点，从而遍历所有结点。

本发明具有以下有益效果及优点：

1.本发明首先保留了BiRNN编码既编码顺序的序列信息，也编码逆序的序列信息的方法；其次，编码过程中显式地考虑源语言句子且与之相关的其他序列信息，从而编码得到的向量包含更加丰富的语义信息；编码过程中同时考虑源语言句子序列和其他与之相关序列，在源语言句子的语义的表示过程中起到消歧作用。

2.本发明针对目前端到端神经机器翻译主要基于一种序列到序列的模型，没有直接显式地利用句法信息来指导和约束译文的生成问题，通过对源语言句子进行依存句法分析并序列化依存句法树的方法，将序列化的依存句法信息作为Multi-BiRNN的输入编码到神经机器翻译中。

3.本发明方法着重考虑子树内部词之间的相互影响，通过将句法信息等语言学知识显式地编码为描述语义等价性的向量，参与模型的训练和解码过程中，以提升神经机器翻译的性能。

附图说明

图1为本发明中Multi-BiRNN的神经机器翻译过程图示；

图2为本发明中依存句法树的序列化示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明中，编码器采用BiRNN，是在传统RNN编码基础上考虑了逆向序列中词的联系与规律，在一定程度上将更多的源语言句子信息编码到向量中。然而，传统的基于“编码器-解码器”框架的神经机器翻译，只将源语言句子作为神经网络的输入序列，没有显式地将句子中包含的语言学知识编码到向量中，以更好地描述编码器和解码器之间的语义等价性，从而指导并约束目标语言句子的生成。

本发明提出一种在编码器端采用Multi-BiRNN编码的方法，即在源语言句子作为输入序列的基础上，再增加一组或多组BiRNN对与之相关的其他输入序列进行编码。在各组BiRNN的输出端，采用向量拼接的方式形成每个词更加完整和全面地解释。

步骤1)中，增加一组或多组BiRNN对与之相关的其他输入序列进行编码，图1给出了使用两组BiRNN的Multi-BiRNN编码示例，在单个BiRNN的基础上，增加了一组或者多组的BiRNN。以实现在对源语言句子序列编码的基础上，对与源语言句子相关的其他序列进行编码，从而达到更为准确的表示源语言句子特征和信息的向量。具体为：

BiRNN1用以编码源语言句子，分别生成前向隐状态序列和后向隐状态序列

BiRNN2用以编码词性序列，分别生成前向隐状态序列和后向隐状态序列

如果增加多组BiRNN对与之相关的其他输入序列进行编码，则每个BiRNNj可分别生成正向隐状态和反向隐状态最终可得到2*m个隐状态，进行拼接可得到向量序列

h_mn表示Multi-BiRNN中第m个BiRNN生成的第n个隐状态，m表示Multi-BiRNN中BiRNN网络层数(即Multi-BiRNN的第m层)，n表示每层BiRNN生成隐状态的个数(即每层BiRNN的节点数目)。

步骤2)中，两种不同的遍历方式为：

本发明提出一种基于Multi-BiRNN的神经机器翻译模型，在源端编码过程中同时考虑源语言句子序列及其依存句法树。通过两种不同的遍历方式分别得到句法树的序列化结果，与源语言句子序列一起作为Multi-BiRNN编码的输入。该方法的优势是在编码源语言句子序列的基础上，融入依存句法信息。

对于一个源语言句子，可分析为一棵依存句法树。句法树的遍历可采用广度优先遍历(Breadth First Traversal，BFT)或深度优先遍历(Depth FirstTraversal，DFT)。在依存句法树中，有依存关系的短语或子句会自动生长在同一棵子树中，结点之间的父子关系反应词之间的依存关系。对于句法树的遍历而言，广度优先遍历是指从根节点出发，逐层对句法树的每一个结点进行遍历。深度优先遍历则从根结点开始，每次沿着一条路径遍历，直到遍历到句法树的叶子结点再回溯到父节点，从而遍历所有结点。图2给出了依存句法树序列化的过程。对于源语言句子“资本项目不开放有利于人民币汇率的稳定。”，使用分析器对其进行依存句法分析，得到相应的依存句法树。本发明分别采用广度优先遍历和深度优先遍历两种算法对句法树进行遍历，分别得到两种序列“有利开放于。不项目稳定资本的汇率人民币”和“有利开放不项目资本于稳定的汇率人民币。”空格是序列元素之间的分隔符。通过观察两种序列可知：广度优先遍历得到的序列中，“不”和“项目”同时依存于“开放”，因此在序列中“不”和“项目”的距离会减小，因此在BiRNN编码过程中会相互产生更大的影响。同样在深度优先遍历得到的序列中，“开放”和“项目”、“项目”和“资本”之间有直接的依存关系，因此在序列中距离会相对减小。

本实施例中，实验主要分为两部分。首先，在编码器端的BiRNN的基础上实现Multi-BiRNN系统。通过对比Multi-BiRNN编码的基线系统与BiRNN系统，以验证Multi-BiRNN编码方法的有效性。其次，在Multi-BiRNN编码方法的基础上，进行神经机器翻译实验。

实验主要针对汉英翻译任务，实验语料来源于联合国语料库中的中英双语平行语料。其中，训练数据集共15,886,041双语平行句对，实验过程只随机抽取5,000,000句作为训练语料。官方开发集和测试集各4,000双语平行句对。

表1译文质量对比

在表1中，seq指网络的输入是源语言句子序列，作为基线系统。doubleseq指的是使用同样的源语言句子向Multi-BiRNN中两个BiRNN各输入一次；seq+pos指的是向Multi-BiRNN中输入源语言句子序列seq和词性序列pos；seq+hypernym指的是向Multi-BiRNN中输入源语言句子序列seq和上位词序列hypernym；seq+pos+hypernym指的是向Multi-BiRNN中输入源语言句子序列seq和词性序列pos以及上位词序列hypernym。

由表1结果可以看出，两次输入句子、输入句子+词性、输入句子+上位词、输入句子+词性+上位词在基线系统的基础上，都有一定的提升。其中，double seq在基线系统的基础上BLEU分值提升了0.25，seq+pos的BLEU分值提升了0.74，seq+hypernym的BLEU分值提升了0.98，seq+pos+hypernym的BLEU分值提升了1.14,seq+bre+dep的BLEU分值提升了0.94。

Multi-BiRNN编码主要有三点优势：首先，保留了BiRNN编码既编码顺序的序列信息，也编码逆序的序列信息的方法。其次，编码过程中显式地考虑源语言句子且与之相关的其他序列信息，从而编码得到的向量包含更加丰富的语义信息。最后，编码过程中同时考虑源语言句子序列和其他与之相关序列，在源语言句子的语义的表示过程中起到消歧作用。

Claims

1.一种基于Multi-BiRNN编码的神经机器翻译方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于Multi-BiRNN编码的神经机器翻译方法，其特征在于：步骤1)中，增加一组或多组BiRNN对与之相关的其他输入序列进行编码，具体为：

3.根据权利要求2所述的基于Multi-BiRNN编码的神经机器翻译方法，其特征在于：

4.根据权利要求1所述的基于Multi-BiRNN编码的神经机器翻译方法，其特征在于：步骤2)中，两种不同的遍历方式为：