CN112580370B

CN112580370B - 一种融合语义知识的蒙汉神经机器翻译方法

Info

Publication number: CN112580370B
Application number: CN202011554602.3A
Authority: CN
Inventors: 苏依拉; 薛媛; 赵旭; 卞乐乐; 范婷婷; 仁庆道尔吉
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-09-26
Anticipated expiration: 2040-12-24
Also published as: CN112580370A

Abstract

一种融合语义知识的蒙汉神经机器翻译方法，基于编码器‑解码器架构，其特征在于，采用双编码器进行编码，采用GRU单元编码源句子序列，采用图卷积神经网络编码由源句子经过预处理得到的AMR语义图，解码器采用具有双注意力机制的循环神经网络。将AMR引入，不仅可以很好地借助语义信息来辅助神经机器翻译，还可以有效地缓解数据稀疏问题，从而提高蒙汉神经机器翻译的性能。

Description

一种融合语义知识的蒙汉神经机器翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种融合语义知识的蒙汉神经机器翻译方法。

背景技术

蒙古语属于小语种，蒙汉机器翻译系统在解决蒙汉人民之间由于语言差异引起的交流障碍问题方面作出了很大的贡献。现阶段的机器翻译大多为序列到序列建模，随着深度学习的日益发展，数据驱动成为其成功的必要条件，但蒙古语属于低资源语言，蒙汉平行语料库的资源匮乏，想要得到大规模语料十分困难，少量的训练数据会使神经网络产生过拟合学习现象，因此现阶段的蒙汉机器翻译很容易出现数据稀疏问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合语义知识的蒙汉神经机器翻译方法，翻译过程涉及借助AMR语义图来获取上下文语境，并采用双编码器来分别编码源语言句子和由源语言句子生成的AMR语义图。一方面可以执行句子的语义保存，另一方面图结构信息的引入可以有效缓解数据稀疏问题。但是图结构的引入势必会使得推理过程变得十分缓慢，为了进一步克服这一缺点，本发明采用非自回归地解码方式，将AMR语义图解码生成的信息作为序列解码的隐变量。

为了实现上述目的，本发明采用的技术方案是：

一种融合语义知识的蒙汉神经机器翻译方法，基于编码器-解码器架构，所述编码器为由编码器E1和编码器E2组成的双编码器架构，利用编码器E1编码源语言句子向量，利用编码器E2编码源语言句子向量所对应的AMR语义图，所述AMR语义图的基本结构是单根有向无环图，将实词抽象为概念作为图上的节点，将没有实际意义的虚词抽象为边，编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码。

在编码之前对蒙汉平行语料库进行预处理：对于汉语首先采用jieba分词工具去掉标点符号，并在词之间加上空格，并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图；对于蒙古语采用BPE进行细粒度的切分。

优选地，所述编码器E1采用双向GRU单元编码源句子向量，所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图，每一个完整的AMR语义图为一个单一的状态，图中的节点称为子状态。

优选地，给定一个AMR语义图G＝(V，E)，V表示节点的集合，E表示边的集合，表示每个节点v_j∈V的状态向量，则AMR语义图的状态g_i表示为：

i∈[0，T]

为捕获全局信息，节点之间通过一系列的状态转换进行信息交换，即：g₀，g₁，...，g_T，其中T是状态转换数，伴随着状态转换，图中的子状态通过边交换信息，在每个循环步骤中，每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态。

优选地，在所述图卷积神经网络中加入GRU循环单元，用更新门z_t表示前一时刻节点的状态信息带入当前时刻的程度，用重置门r_t来控制前一时刻节点信息写入当前时刻的多少，节点的隐藏状态的信息包含该节点的入边和出边信息，边的输入信息用/>表示，i表示入边的索引，j表示出边的索引，lb表示边上的标签，即两点之间的关系标签，节点v_j在t时刻的入边/>和出边/>信息表示为：

IN(j)和OUT(j)分别表示节点v_j所有入边和出边的集合。

优选地，一个AMR语义图由g_t-1到g_t的状态转换用如下公式表示：

其中γ_t表示节点的输出信息，W_r、W_z、W_o分别表示权重矩阵。/>表示使用重置门之后得到的隐藏状态，再通过更新门得到新的隐藏状态向量/>σ表示sigmod函数。

优选地，所述非自回归解码器D采用具有双注意力机制的循环神经网络，一部分用于接收源语言序列信息，另一部分用于接收AMR语义图信息，其中AMR语义图中仅接收图的最后一个状态的信息，即

与现有技术相比，本发明的优先在于：

在机器翻译中融合AMR语义图，进一步增强了语义，并且有效地缓解了数据稀疏问题。采用图卷积神经网络编码AMR语义图，不容易使AMR语义图中的语义信息丢失，整体能够提高蒙汉神经机器翻译的性能。

附图说明

图1为句子“她想买衣服”转化的AMR语义图。

图2为本发明总体架构示意图。

图3为用于编码AMR语义图递归网络的总体结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明为一种融合语义知识的蒙汉神经机器翻译方法，基于编码器-解码器架构，其中，编码器为由编码器E1和编码器E2组成的双编码器架构，利用编码器E1编码源语言句子向量，利用编码器E2编码源语言句子向量所对应的AMR语义图，AMR语义图的基本结构是单根有向无环图，将实词抽象为概念作为图上的节点，将没有实际意义的虚词抽象为边，编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码。

一般地，在编码之前需要对蒙汉平行语料库进行预处理：

第一步：将蒙汉平行语料库中的汉语采用jieba分词工具去掉标点符号并且将词与词之间加上空格。

第二步：将分词之后的汉语采用美国南加州大学的AMR语义分析器解析为AMR语义图。

第三步：对于蒙汉平行语料库中的蒙汉双语分别采用BPE进行切分，以减少未登陆词。

语料预处理之后采用word2vec生成词向量。

具体地，编码器E1可采用双向GRU单元编码源句子向量，例如，编码器E1可为BiGRU编码器，介绍如下：

给定一个句子，其输入序列为：x₁，x₂，...，x_i，...，x_N，从左到右和从右到左分别生成一个输入序列的表示：对于每一个词x_i：

其中表示每一个词x_i的词嵌入。

编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图，每一个完整的AMR语义图都被看作是一个单一的状态，图中的节点称为其子状态。AMR语义图是将一个自然句子以图的形式来表示其语义信息。例如对于句子“她想买衣服”转化为AMR语义图如图1所示：对于一个句子，原本一行，将其变换为AMR语义图后为了5行，图中的例子是一个短句，而随着句子长度的增加，语义关系更为复杂，AMR语义图的数据量更为庞大，数据能达到11.23倍的增长，对于蒙汉低资源语言来说大大扩充了数据量，在蒙汉机器翻译中能有效捕捉语义信息。

图2显示了本发明总体架构，它分别采用BiGRU和图卷积网络对源句和AMR进行编码。基于注意的GRU解码器用于在目标语言中生成输出序列，并在编码器E1和编码器E2上建立注意模型。

编码器E2的注意内存来自图状态转换过程的最后一步，如图3所示。

图3显示了用于编码AMR语义图递归网络的总体结构，给定一个AMR语义图G＝(V，E)，V表示节点的集合，E表示边的集合，用状态向量来表示表示每个节点v_j∈V，为捕获全局信息，节点之间通过一系列的状态转换进行信息交换，即：g₀，g₁，...，g_T，其中T是状态转换数，则AMR语义图的状态g_i表示为：

i∈[0，T]

初始状态g₀由一组零向量组成(即图中的每一个子状态均为零)，伴随着状态转换，图中的子状态通过边交换信息，在每个循环步骤中，每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态。因此，随着循环步骤的增加，每个单词所获取上下文信息也越来越多，循环转换中各节点同时工作。

利用图卷积神经网络对状态转换过程进行建模。特别是，从g_t-1→g_t的转换包括每个节点的隐藏状态转换，即的状态也在变换。如图3所示。在每个状态转换步骤t，本发明在某个节点和所有直接连接到该节点的节点之间进行直接通信。为了避免梯度消失或梯度爆炸，本发明在图卷积神经网络中加入GRU循环单元，用更新门z_t表示前一时刻节点的状态信息带入当前时刻的程度，用重置门r_t来控制前一时刻节点信息写入当前时刻的多少。节点的隐藏状态/>的信息包含该节点的入边和出边信息。边的输入信息用来表示，i表示入边的索引，j表示出边的索引，lb表示边上的标签，即两点之间的关系标签，具体指图1中的ARG0、ARG1等信息。节点v_j在t时刻的入边/>和出边/>信息可以表示为：

IN(j)和OUT(j)分别表示节点v_j所有入边和出边的集合。

除了边输入外，本发明还在状态转换期间接受每个节点邻接节点的隐藏状态。以v_j为例，在传递到单元和门节点之前，对其传入和传出邻居的状态进行总结：

基于上述定义，一个图的状态转换(由g_t-1到g_t)可以用如下公式表示：

在解码阶段，E1编码器和E2编码器分别采用两种单独的注意机制，AMR语义图中的节点与源语言句子序列中的词没有一一对应的关系，因此解码器D需采用具有双注意力机制的循环神经网络，又由于图神经网络的引入会极大地降低解码速度，为了提高解码的速度，解码器D使用非自回归解码的方式进行解码。即，非自回归解码器D一部分用于接收源语言序列信息，另一部分用于接收AMR语义图信息。将AMR语义图解码生成的序列信息作为序列解码器的隐变量信息来辅助解码，其中AMR语义图中仅接收图的最后一个状态的信息，即

基于图的上下文向量计算为：

W_s和b_g均为模型参数。新的上下文向量被计算为：

因此目标词汇的输出概率分布P为：

V和b均为模型参数，δ_m为对序列进行解码的上下文向量，为对AMR语义图进行解码的上下文向量。

其中，对序列进行解码时，通过循环计算隐藏状态序列s₁，s₂，...，s_M来产生目标语言序列y₁，y₂，...，y_M。本发明使用一个基于注意力的GRU模型，其中注意存储器(H)是所有源词之间注意向量的级联。每个注意向量h_i是输入标记在两个方向(和/>)的编码器状态的级联：

H＝[h₁；h₂；...；h_N]

N是源词的个数。

在生成第m个单词时，解码考虑四个因素：(1)注意记忆H；(2)GRU模型的先前隐藏状态s_m-1；(3)当前的输入嵌入(先前生成的词)(4)先前来自于注意记忆H的上下文向量δ_m。当m＝1时，将δ₁初始为零向量。将/>设置为句子的起始标记<s>，并通过密集层从编码器状态的最后一步计算s₀：

其中W₁和b₁均为模型参数。

对于每一个序列解码步骤M，需要将当前输入和先前上下文向量δ_m-1嵌入到GRU模型中的级联，以更新其隐藏状态：

然后计算出当前解码步骤上的注意向量h_i∈H的注意概率β_m，i：

其中W_h、W^s、b_s均为模型参数，新的上下文向量δ_m计算为：

如图2所示，对一个源语言句子“男孩想去学校”进行解码时，解码器的目标词汇的输出概率分布P为：

其中同时包含了来自序列的上下文向量δ_m和来自图的上下文向量

Claims

1.一种融合语义知识的蒙汉神经机器翻译方法，基于编码器-解码器架构，其特征在于，所述编码器为由编码器E1和编码器E2组成的双编码器架构，利用编码器E1编码源语言句子向量，利用编码器E2编码源语言句子向量所对应的AMR语义图，所述AMR语义图的基本结构是单根有向无环图，将实词抽象为概念作为图上的节点，将没有实际意义的虚词抽象为边，编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码；

所述编码器E1采用双向GRU单元编码源句子向量，所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图，每一个完整的AMR语义图为一个单一的状态，图中的节点称为子状态；

给定一个AMR语义图G＝(V,E)，V表示节点的集合，E表示边的集合，表示每个节点v_j∈V的状态向量，则AMR语义图的状态g_i表示为：

i∈[0,T]

为捕获全局信息，节点之间通过一系列的状态转换进行信息交换，即：g₀,g₁,…,g_T，其中T是状态转换数，伴随着状态转换，图中的子状态通过边交换信息，在每个循环步骤中，每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态；

在所述图卷积神经网络中加入GRU循环单元，用更新门z_t表示前一时刻节点的状态信息带入当前时刻的程度，用重置门r_t来控制前一时刻节点信息写入当前时刻的多少，节点的隐藏状态的信息包含该节点的入边和出边信息，边的输入信息用/>表示，i表示入边的索引，j表示出边的索引，lb表示边上的标签，即两点之间的关系标签，节点v_j在t时刻的入边/>和出边/>信息表示为：

IN(j)和OUT(j)分别表示节点v_j所有入边和出边的集合；

一个AMR语义图由g_t-1到g_t的状态转换用如下公式表示：

其中γ_t表示节点的输出信息，W_r、W_z、W_o分别表示权重矩阵，/>表示使用重置门之后得到的隐藏状态，再通过更新门得到新的隐藏状态向量/>σ表示sigmod函数；

所述非自回归解码器D采用具有双注意力机制的循环神经网络，一部分用于接收源语言序列信息，另一部分用于接收AMR语义图信息，其中AMR语义图中仅接收图的最后一个状态的信息，即

2.根据权利要求1所述融合语义知识的蒙汉神经机器翻译方法，其特征在于，在编码之前对蒙汉平行语料库进行预处理：对于汉语首先采用jieba分词工具去掉标点符号，并在词之间加上空格，并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图；对于蒙古语采用BPE进行细粒度的切分。