CN112287699B

CN112287699B - 一种基于句法树遍历的信息融合翻译方法

Info

Publication number: CN112287699B
Application number: CN202011593143.XA
Authority: CN
Inventors: 张学强; 董晓飞; 张丹; 曹峰; 石霖; 孙明俊
Original assignee: Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Current assignee: Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-26
Anticipated expiration: 2040-12-29
Also published as: CN112287699A

Abstract

本发明提出了一种基于句法树遍历的信息融合翻译方法，涉及自然语言处理中的机器翻译和句法分析领域，在机器翻译编码过程中，利用神经网络对句法树进行遍历的方式，提取句法结构以融合更多有效源语言句子结构信息，从而提升机器翻译的效果；主要包括步骤1：句法分析：利用哈工大语言技术分析平台LTP，对源语言句子进行成分句法分析或依存句法分析，得到句法树；步骤2：编码融合：采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历，得到两个独立的编码向量，然后对编码向量进行拼接；步骤3：译文解码：对上述拼接后的编码向量进行解码。

Description

一种基于句法树遍历的信息融合翻译方法

技术领域

本发明涉及自然语言处理中的机器翻译和句法分析领域，在机器翻译编码过程中，利用神经网络对句法树进行遍历的方式，提取句法结构以融合更多有效源语言句子信息，从而提升机器翻译的效果。

背景技术

随着全球化趋势的进一步发展，机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。句法信息融合的成败，直接影响到机器翻译技术和应用能否顺利走向实用化、产业化。

近年来，端到端神经机器翻译因其简洁的设计理念、新颖的系统架构和良好的翻译性能而备受关注。尽管较之传统方法，端到端神经机器翻译能获得相媲美甚至更高质量的译文，但这种将句子直接简化为时序序列的方式，并不完全符合传统思想对语句构成的主流认知。

在自然语言处理中，句法分析主要存在两种形式：短语结构分析和依存分析。无论哪种分析方法，都将句子视为可递归的树型结构，因此分析结果都会对应生成一棵包含所有句法信息的句法树。因此，为了克服端到端神经机器翻译方法过于简化双语转换过程、缺乏知识支撑的问题，现阶段诸多研究人员致力于向神经网络翻译模型中融入先验知识。

发明内容

本发明为了解决以上问题，提出了一种基于句法树遍历的信息融合翻译方法，在机器翻译编码过程中，利用神经网络对句法树进行遍历的方式，提取句法结构以融合更多有效源语言句子信息，从而提升机器翻译的效果。

为了实现上述目的，本发明所采用的技术方案是：一种基于句法树遍历的信息融合翻译方法，包括以下步骤：

步骤1：句法分析：利用哈工大语言技术分析平台LTP，对源语言句子进行成分句法分析或依存句法分析，得到句法树；

步骤2：编码融合：采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历，分别得到两个独立的特征向量，然后对特征向量进行拼接；

步骤3：译文解码：对上述拼接后的特征向量进行解码。

所述的成分句法分析和依存句法分析只是从两种不同的角度分析句法，因此都能形成句法树；

进一步的，所述步骤2的编码融合具体为：

步骤2.1：采用BiLSTM神经网络从正向和反向同时对源语言句子序列进行编码，保证捕获每个词的上下文语境信息，计算公式如下：

其中，

t时刻下源语言句子文本中词

的词向量，

是正向编码上一时刻的隐状态，

是反向编码下一时刻的隐状态，

表示t时刻正向编码的向量，

表示t时刻反向编码的向量,

表示t时刻正向句子文本的编码向量，

表示t时刻反向句子文本的编码向量,

则是双向编码的t时刻的词向量；

步骤2.2：采用BiLSTM神经网络从正向和反向同时对源语言句子句法分析树进行编码，保证捕获每个词的上下文语境信息，计算公式如下；

其中，

t时刻下源语言句子文本中词

的词向量，

和

分别表示词

的左孩子节点词向量和右孩子节点词向量，

是正向编码t时刻的隐状态，

是反向编码t时刻的隐状态，

则是双向编码的t时刻的词向量。

步骤2.3：对上述两个编码向量进行拼接：

]

其中，

和

已在上文描述，

表示t时刻的隐状态，所述隐状态是指编码过程中形成的临时词向量。

进一步的，所述步骤3的解码过程具体如下：

步骤1，依据上一时刻解码器的隐状态

和解码器隐状态

计算出源语言句子中所有词的注意力权重

；

步骤2，依据注意力权重

和解码器隐状态

计算注意力向量

；

步骤3，计算解码器当前时刻隐状态

；

步骤4：计算当前时刻生成目标词表中的每个词的概率P(yi)。

计算公式如下：

其中，

表示第上一时刻解码器的隐状态，

是上一时刻解码得到的词，

是注意力向量，

是注意力权重，

是源语言句子中第j个词，

是源语言句子中第k个词，

表示第i时刻解码器的隐状态，

是i时刻解码得到的词。si表示第i时刻解码器的隐状态，yi是i时刻解码得到的词，Vk表示词表V中的第k个词，bk表示隐状态si的置信度。exp是以自然常数e为底的指数函数，P(yi)表示当前生成目标词yi的概率。

与现有技术相比，本发明具有以下优点：

（1）本发明通过遍历句法树的形式将句法信息和句法结构同时编码到特征向量中，保证句法信息的提取；

（2）本发明句法特征向量与文本特征向量进行融合，以保证对源语言句子的多种语义和结构信息进行充分利用；

（3）本发明将句法分析置于前位，及句法分析模型和算法完全独立于本发明，因此具备更好的灵活性和迁移性；

（4）本发明是基于当前流行的Encoder-Decoder神经机器翻译框架，除此之外，本发明的方法亦可迁移到其他主流机器方法框架中。

附图说明

图1是本实施例中从成分句法角度对源语言句子进行分析后形成的句法树。

图2是本实施例中从依存句法角度对源语言句子进行分析后形成的句法树。

图3是本实施例中实现对源语言句子序列和句法树向量进行融合的神经网络。

图4是本实施例中句法树的由下而上的编码方法。

图5是本实施例中机器翻译“编码器-注意力-解码器”结构的神经网络框架。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步解释说明。

本发明提出了一种基于句法树遍历的信息融合翻译方法，在机器翻译编码过程中，利用神经网络对句法树进行遍历的方式，提取句法结构以融合更多有效源语言句子信息，从而提升机器翻译的效果。本发明处理过程主要分为句法分析、编码融合、译文解码三个部分，其中本发明优势在于，句法分析过程与翻译过程相互独立，可事先选择效果较好的句法分析算法对输入文本进行处理，避免拖慢机器翻译的效率，并保证向机器翻译中引入准确率较高的句法信息。

步骤1：句法分析：

（1）利用哈工大语言技术分析平台LTP，对源语言句子进行成分句法分析或依存句法分析，得到句法树；

（2）成分句法分析和依存句法分析只是从两种不同的角度分析句法，因此都能形成句法树：

（3）如图1和图2所示，对于“我们即将以昂扬的斗志迎来新的一年。”和“学习计算机编程是一个很有意义的事情。”都可以形成句法树。

步骤2：编码融合：

（1）该步骤是本发明的优化策略，如图3所示，采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历，以得到特征向量；

（2）采用BiLSTM对源语言句子序列进行编码，采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码，保证捕获每个词的上下文语境信息，计算形式如下：

其中，

t时刻下源语言句子文本中词

的词向量，

是正向编码上一时刻的隐状态，

是反向编码下一时刻的隐状态，

表示t时刻正向编码的向量，

表示t时刻反向编码的向量,

表示t时刻正向句子文本的编码向量

表示t时刻反向句子文本的编码向量,

则是双向编码的t时刻的词向量。

（3）如图4所示，采用BiLSTM对源语言句子句法分析树进行编码，采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子的句法树进行编码，保证捕获每个词的上下文语境信息；

其中，

t时刻下源语言句子文本中词

的词向量，

和

分别表示词

的左孩子节点词向量和右孩子节点词向量，

是正向编码t时刻的隐状态，

是反向编码t时刻的隐状态，

则是双向编码的t时刻的词向量。

（4）对两个编码向量进行频接，以达到特征融合的目的：

]

其中，

和

已在上文描述，表示t时刻的隐状态。隐状态是指编码过程中形成的临时词向量。

步骤3：译文解码：

（1）如图5所示，利用步骤2得到的特征向量，进行解码：

其中，

表示第上一时刻解码器的隐状态，

是上一时刻解码得到的词，

是注意力向量，

是注意力权重，

是源语言句子中第j个词，

是源语言句子中第k个词，

表示第i时刻解码器的隐状态，

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于句法树遍历的信息融合翻译方法，其特征在于：包括以下步骤：

步骤3：译文解码：对上述拼接后的特征向量进行解码；

所述步骤2的编码融合具体为：

其中，v_t表示t时刻下源语言句子文本中词x_t的词向量，

是正向编码上一时刻的隐状态，

是反向编码下一时刻的隐状态，

表示t时刻正向编码的向量，

表示t时刻反向编码的向量,

表示t时刻正向句子文本的编码向量，

表示t时刻反向句子文本的编码向量,h_tsentence是双向编码的t时刻的编码向量；

步骤2.2：采用BiLSTM神经网络从正向和反向同时对源语言句子句法分析树进行编码，保证捕获每个词的上下文语境信息，计算公式如下：

其中，v_t表示t时刻下源语言句子文本中词x_t的词向量，

和

分别表示词x_t的左孩子节点词向量和右孩子节点词向量，

是正向编码t时刻的隐状态，

是反向编码t时刻的隐状态，h_ttree则是双向编码的t时刻的词向量；

步骤2.3：对上述两个编码向量进行拼接：

h_t＝[h_tsentence：h_ttree]

其中，h_tsentence和h_ttree已在上文描述，h_t表示t时刻的隐状态，所述隐状态是指编码过程中形成的临时词向量。

2.根据权利要求1所述的基于句法树遍历的信息融合翻译方法，其特征在于：所述步骤3解码过程具体如下：

步骤3.1，依据上一时刻解码器的隐状态S_i-1和解码器隐状态h_j计算出源语言句子中所有词的注意力权重a_ij；

步骤3.2，依据注意力权重a_ij和解码器隐状态h_j计算注意力向量c_i；

步骤3.3，计算解码器第i时刻隐状态s_i；

步骤3.4：计算当前时刻生成目标词表中的每个词的概率P(y_i)；

计算公式如下：

s_i＝f(s_i-1，y_i-1，c_i)

其中，s_i-1表示第上一时刻解码器的隐状态，y_i-1是上一时刻解码得到的词，c_i是注意力向量，a_ij是注意力权重，h_k是源语言句子中第k个词，s_i表示第i时刻解码器的隐状态，y_i是i时刻解码得到的词，y_i是i时刻解码得到的词，V_k表示词表V中的第k个词，b_k表示隐状态s_i的置信度，exp是以自然常数e为底的指数函数，P(y_i)表示当前生成目标词y_i的概率。