CN110728155A

CN110728155A - 一种基于树到序列的蒙汉机器翻译方法

Info

Publication number: CN110728155A
Application number: CN201910922673.5A
Authority: CN
Inventors: 苏依拉; 薛媛; 赵旭; 卞乐乐; 范婷婷; 张振
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-24

Abstract

本发明一种基于树到序列的蒙汉机器翻译方法，采用树到序列NMT模型，扩展了具有源侧短语结构的序列到序列模型，在模型中加入了自注意力机制，这种自注意力机制不仅可以使得解码器在每一步主动查询最相关的信息，并且还大大缩短了信息流动的距离，另外它可以使得解码器在生成翻译的单词的同时能和源语句的短语以及单词进行对齐。120万蒙汉双语平行语料数据集的实验结果表明，本发明的模型明显优于序列到序列的注意力NMT模型，并且与最先进的树到串SMT系统相比更胜一筹。

Description

一种基于树到序列的蒙汉机器翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种基于树到序列的蒙汉机器翻译方法。

背景技术

机器翻译(MT)一直是最复杂的语言处理问题之一，神经机器翻译(NMT)的最新进展使得使用简单的端到端架构进行翻译成为可能。

在编码器-解码器模型中，编码器读取整个源字序列以产生固定长度的向量，然后解码器从向量生成目标字。编码器-解码器模型已经扩展了注意力机制，它允许模型共同学习源语言和目标语言之间的软对齐。NMT模型在英语-法语和英语-德语翻译任务中取得了最新成果。然而，对于结构较远的语言对(如汉语–蒙语)，NMT是否与传统的统计机器翻译(SMT)方法在翻译任务中具有竞争力还有待观察。

表1显示了一对汉语和蒙语的平行句子。在许多方面，汉语和蒙语在语言上相距遥远，它们具有不同的句法结构，单词和短语在不同的词汇单元中定义。在SMT中，已知将源语言的句法成分结合到模型中可改善单词对齐和翻译准确度。但是，现有的NMT模型不允许执行这种对齐。

表1蒙汉及其翻译语序问题

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于树到序列的蒙汉机器翻译方法，采用注意NMT模型来利用句法信息，在源句的短语结构之后，以自下而上的方式递归地编码句子以产生句子的向量表示并在将输入短语和单词与输出对齐的同时对其进行解码。

为了实现上述目的，本发明采用的技术方案是：

一种基于树到序列的蒙汉机器翻译方法，采用编码器-解码器结构的NMT模型作为翻译流程的整体框架，所述编码器由序列编码器和基于树的编码器组成，序列编码器和基于树的编码器分别生成一个句子向量，其中，所述基于树的编码器中，基于头部驱动的短语结构语法，源语句由多个短语单元组成，并表示为二叉树，基于树的编码器为使用transformer构造的Tree-transformer结构，二叉树中的每个结点用transformer单元表示，从而在源语句的短语结构之后，以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示，序列编码器得到正常句子的向量表示，基于树的编码器得到该句子的短语结构的向量表示，初始解码器s₁具有两个子单元，分别是最终的序列编码器单元h_n和最终的基于树的编码器单元初始化叶结点时用最终的序列编码器单元h_n，初始化父结点时用基于树的编码器单元

所述基于树的编码器是在标准的序列编码器中构建，二者的架构关系如图3。

所述基于树的编码器使用左右子隐藏单元

和

计算第k个短语的第k个父隐藏单元如下所示：

其中f_tree是非线性函数；在初始化基于树的编码器单元时，使用序列transformer单元，并使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元。

在初始化基于树的编码器单元时，采用序列transformer单元表示，即h₀＝0；使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元的公式为

tree表示非线性函数。

初始解码器

其中g_tree与f_tree具有相同的功能，该初始化允许解码器从序列数据和短语结构中捕获信息，使用Tree-transformer初始化解码器，将多种源语言翻译成一种目标语言，当语法分析器无法输出句子的解析树时，通过设置

来使用序列编码器对句子进行编码。

所述transformer中加入自注意力机制，为输入的语句向量的每一个字学习一个权重，在自注意力机制中每个单词有3个不同的向量，分别为Q,K,V向量，长度均为64，通过3个不同的权值矩阵由嵌入向量X乘以三个不同的权值矩阵W^Q,W^K,W^V得到，其中嵌入向量X由输入单词转换得到，三个权值矩阵的尺寸均是512×64。

所述解码器中的transformer还加入编码器-解码器注意力机制，在此机制中，Q来自于解码器的上一个输出，K和V来自于编码器的输出，在机器翻译时，解码过程是一个顺序操作的过程，即当解码第k个特征向量时，只能看到第k-1及其之前的结果。

本发明采用BlackOut训练NMT模型。

在解码过程中，使用波束搜索来解码源语句x的目标句子，并计算目标句子的对数似然的总和y＝(y₁,y₂,...y_m)作为波束得分：

利用波束搜索中的句子长度统计，目标句子的长度与源语句的长度相关，将每个候选人的分数重新定义如下：

L_x,y＝logP(len(y)|len(x))

其中L_x,y是给定源句长度len(x)的目标句子长度的条件概率的惩罚，它允许模型通过考虑目标句子的长度来解码句子；

最终，在借助GIZA++工具将输入短语和单词与输出对齐的同时，实现对源语句的解码。

与现有技术相比，本发明基于树到序列的方法，采用注意NMT模型来利用句法信息，在源句的短语结构之后，以自下而上的方式递归地编码句子以产生句子的向量表示，可改善单词对齐和翻译准确度。

附图说明

图1是一对汉语和蒙语的平行句子对照示意图。

图2是基于注意力的编码器-解码器模型示意图。

图3是基于注意力的Tree-to-sequence NMT模型示意图。

图4是一个句子翻译例子和本发明模型的注意关系示意图。

图5是transformer编码器结构示意图。

图6是transformer解码器结构示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

图1显示了一对汉语和蒙语的平行句子。在许多方面，汉语和蒙语在语言上相距遥远，它们具有不同的句法结构，单词和短语在不同的词汇单元中定义。本发明目的在于利用轻对齐算法将已知源语言的句法成分结合到模型中，以改善单词对齐和翻译准确度。

为实现上述目的，本发明采用一种注意NMT模型来利用句法信息，依然采用编码器-解码器模型作为翻译流程的整体框架，在源句的短语结构之后，以自下而上的方式递归地编码句子以产生句子的向量表示并在将输入短语和单词与输出对齐的同时对其进行解码。

为了描述本发明基于树到序列的注意NMT模型，首先从编码器-解码器模型介绍：

1、树到序列建模

1.1编码器-解码器模型

NMT是数据驱动机器翻译的端到端方法，NMT模型直接估计给定大量源语句和目标语句对(x,y)的条件概率P(y|x)。NMT模型由编码器和解码器组成，被称为编码器-解码器模型。在编码器-解码器模型中，语句被视为由一系列字构成。在编码器处理中，编码器将每个源字x＝(x₁,x₂,...,x_n)嵌入到d维向量空间中。然后，解码器在给定关于编码器提供的源语句的信息的情况下，输出目标语言中的字序列y＝(y₁,y₂,...,y_m)。这里，n和m分别是源语句和目标语句的长度，x_n、y_m分别表示源语句和目标语句中第m和第n个字。

transformer网络结构允许有效地将顺序数据嵌入向量空间，在编码器中，给定第i个输入x_i和先前隐藏单元h_i-1∈R^d×1，计算第i个隐藏单元h_i∈R^d×1：

h_i＝f_en(x_i,h_i-1), (1)

其中，R^d×1表示d×1维向量空间，f_en是编码函数，为非线性函数，初始隐藏单元h₀＝0。递归地应用编码函数f_en，直到获得第n个隐藏单元h_n。transformer编码器-解码器模型假设h_n表示直到第n个字的输入序列的含义的向量。

在将整个输入语句编码到向量空间中之后，以类似的方式对其进行解码。初始解码器单元s₁用源语句向量(s₁＝h_n)初始化。给定前一目标字和解码器的第j个隐藏单元，产生第j个目标字的条件概率计算如下：

P(y_j|y_＜j,x)＝g(s_j)， (2)

其中s_j是解码器的第j个隐藏单元，g是非线性函数，通过使用另一个非线性函数f_de来计算s_j，如下所示：

s_j＝f_de(y_i-1,s_j-1), (3)

使用transformer单元在翻译时可使模型具有更好的并行性。

1.2注意力编码器-解码器模型

具有注意力机制的NMT模型可以将每个解码器状态与编码器状态巧妙地对准。注意力机制允许NMT模型明确量化每个编码器状态在每个时间步长对单词预测贡献的程度。

在Luong等人的注意力NMT模型中，在解码器处理的第j步骤，第i个源隐藏单元即编码器隐藏单元h_i和第j个目标隐藏单元即解码器隐藏单元之间的注意力得分

的计算方法如下：

第j个上下文向量d_j为由α_j(i)加权的求和向量：

该模型使用softmax函数预测第j个字：

P(y_j|y_＜j,x)＝softmax(W_s+b_s+Attention(Q,K,V)) (7)

其中W_S∈R^|V|×d和b^s∈R^|V|×1分别是权重矩阵和偏置向量，|V|代表目标词汇量的大小。由于在编码器中，数据首先会经过一个叫做“自注意力”的模块得到一个加权特征向量Attention，得到之后，Attention会被送到编码器的下一个模块中，即反馈神经网络模块。此处全连接有两层，第一层是ReLU，第二层是一个线性激活函数，可以表示为：

FFN(Attention)＝max(0,d_jW₁+b₁)W₂+b₂ (8)

编码器的的结构如图5所示，而解码器的结构如图6所示，二者均包含了自注意力机制，解码器还多了一个编码器-解码器注意力机制，其中自注意力机制用来表示当前翻译和已经翻译的前文之间的关系；而编码器-解码器注意力机制用来表示当前翻译和编码的特征向量之间的关系。

2.NMT模型的目标函数

训练NMT模型的目标函数是训练数据中翻译对的对数似然的总和：

其中D表示一组平行句子对，|D|表示训练集的大小，通过随机梯度下降(SGD)法学习模型参数。

3注意树到序列模型

3.1基于树的编码器+序列编码器

现存的NMT模型将一个语句视为一系列单词，而忽略了语言中固有句法的结构。本发明提出了一种新的基于树的编码器，以便在NMT模型中明确地考虑句法结构。本发明专注于语句的短语结构，并以自下而上的方式从短语向量构造语句向量。因此，基于树的编码器中的语句向量由结构信息而不是顺序数据组成。图3显示了本发明提出的模型，将其称为树到序列的注意NMT模型。

在头部驱动的短语结构语法中，语句由多个短语单元组成，并表示为二叉树，如图3所示。遵循句子的结构，在标准的序列编码器中构建一个基于树的编码器，使用左右子隐藏单元

和

计算第k个短语的第k个父隐藏单元

如下所示：

其中f_tree是非线性函数。

本发明使用transformer构造基于树的编码器，其中二叉树中的每个结点用transformer单元表示，在初始化基于树的编码器的叶单元时，使用序列transformer单元。

二叉树中的每个非叶结点也用transformer单元表示，并且使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元。

本发明提出的基于树的编码器是传统序列编码器的自然扩展，因为Tree-transformer是链式transformer的推广。本发明编码器在计算叶结点的transformer单元时是以上下文相关的方式构造短语结点，例如，允许模型计算句子中同一个单词的多次出现的不同表示，因为序列transformer是在先前单位的上下文中计算的。这种能力与原始的Tree-transformer形成对比，其中叶子仅由单词嵌入组成而没有任何上下文信息。

3.2初始解码器设置

本发明有两个不同的句子向量：一个来自序列编码器，另一个来自基于树的编码器。如图3所示，提供另一个Tree-transformer单元，它具有最终的序列编码器单元(h_n)和基于树的编码器单元作为两个子单元，将其设置为初始解码器s₁如下：

初始化叶结点时用序列编码器单元，初始化父结点时用树编码器单元，其中g_tree与具有另一组Tree-transformer参数的f_tree具有相同的功能。

该初始化允许解码器从顺序数据和短语结构中捕获信息。使用Tree-transformer初始化解码器，利用它将多种源语言翻译成一种目标语言。当语法分析器无法输出句子的解析树时，通过设置

来使用序列编码器对句子进行编码。因此，本发明提出的基于树的编码器适用于任何句子。

3.3模型中的自注意力机制

自注意力机制是transformer最核心的内容，这种自注意力机制可以为输入的语句向量的每一个字学习一个权重，在自注意力机制中每个单词有3个不同的向量，它们分别为Q(查询)、K(键)、V(值)向量，长度均为64。通过3个不同的权值矩阵由嵌入向量X乘以三个不同的权值矩阵W^Q,W^K,W^V得到，其中三个矩阵的尺寸均是512×64。以下举例说明具体实现过程：

具体Attention计算如下：

(1)将输入单词转换为嵌入向量

(2)根据嵌入向量得到Q,K,V三个向量

(3)为每个向量计算一个score：score＝q·k，q、k分别为Q、K的分量。

(4)score点乘V的每一个分量

(5)

上述步骤可以推广到n。

3.4模型中的编码器-解码器注意力机制

在解码器中transformer模块比编码器中多了个编码器-解码器注意力机制，在此机制中，Q来自于解码器的上一个输出，K和V来自于编码器的输出。在机器翻译时，解码过程是一个顺序操作的过程，也就是当解码第k个特征向量时，只能看到第k-1及其之前的结果，因此称之为隐注意力机制。

3.5基于采样的NMT模型逼近

训练NMT模型的最大计算瓶颈在于计算等式(7)中描述的softmax层，因为其计算成本随着词汇量的大小线性增加。GPU的加速技术已被证明对基于序列的NMT模型有用，但在处理树形结构数据时并不容易应用。为了降低softmax层NMT模型的训练成本，采用BlackOut，一种基于采样的近似方法。BlackOut已经被证明在这样的语言模型中是有效的，并且即使有一百万字的词汇表，也可以使模型运行得相当快。

在训练中的每个单词预测步骤中，BlackOut使用加权softmax函数估计对于目标单词和K个负样本的等式(2)中的条件概率。负样本是从unigram分布中提取到幂β∈[0,1]。使用训练数据估计单字母分布，β是超参数。BlackOut与噪声对比度估计(NCE)密切相关，并且比RNNLM中的原始softmax和NCE更难以解决。训练结束后，BlackOut可用作原始softmax。

4实验

4.1训练数据

将所提出的模型应用于120万蒙汉平行语句数据集。获得短语结构，对于源语句，即蒙语，使用概率HPSG解析器Enju。仅使用Enju为每个句子获取二进制短语结构，并且不使用任何HPSG特定信息。对于目标语言，即汉语，使用汉语分割工具jieba，并执行word2vec中推荐的预处理步骤。然后，过滤掉句子长度超过50且其源句未被成功解析的翻译对。在一个小型训练数据集上进行了两次实验，以研究本发明模型的有效性，并在大型训练数据集上与其他系统比较。

词汇表包括在训练数据中观察到的词数大于或等于N次。本发明为小型训练数据集设置N＝2，为大型训练数据集设置N＝5。词汇外单词被映射到特殊标记“unk”。本发明为两种语言添加了另一个特殊符号“eos”，并将其插入所有句子的末尾。

4.3解码过程

本发明使用波束搜索来解码源语句x的目标句子，并计算目标句子的对数似然的总和y＝(y₁,y₂,…y_m)作为波束得分：

NMT模型中的解码是一个生成过程，并且取决于给定源语句的目标语言模型。随着目标句子变得更长，得分变得更小，因此当解码长句子时简单的波束搜索不能很好地工作。在初步实验中，使用Cho等人的长度归一化进行光束搜索，在蒙语到汉语翻译中无效。Pouget-Abadie等人的方法需要使用另一个NMT模型估计条件概率P(yx)，因此不适合本发明。

本发明使用波束搜索中的句子长度统计。假设目标句子的长度与源语句的长度相关，将每个候选人的分数重新定义如下：

L_x,y＝logP(len(y)len(x)), (14)

其中L_x,y是给定源句长度len(x)的目标句子长度的条件概率的惩罚。它允许模型通过考虑目标句子的长度来解码句子。在实验中，根据在前100万对训练数据集中收集的统计数据预先计算条件概率P(len(y)len(x))，本发明允许解码器生成多达100个字。

5.定性分析

用d＝512的模型和解码句子时的几个注意关系来说明测试数据的翻译。在图4中，表示为二元树的蒙语句子被翻译成汉语，并且以最高关注度分数α示出了蒙文词或短语与汉语单词之间的若干关注关系。还说明了额外的注意关系以进行比较，可以看到目标词与源词和短语轻柔对齐。

6.结论

综上可知，本发明扩展了注意力的NMT模型，关注源语句的短语结构，并在解析树之后构建基于树的编码器。本发明基于树的编码器是序列编码器模型的自然扩展，其中编码器中的树-transformer的叶单元可以与原始顺序transformer编码器一起工作。此外，注意力机制允许基于树的编码器不仅使输入词对齐，而且还使输入词与输出词对齐。

在120万蒙汉平行语句数据集上的实验结果表明，本发明提出的模型获得了最佳的BLEU评分，并且优于顺序注意NMT模型。

在120万蒙语–汉语翻译任务上的实验结果表明，本发明提出的模型实现了最先进的翻译准确性。

Claims

1.一种基于树到序列的蒙汉机器翻译方法，采用编码器-解码器结构的NMT模型作为翻译流程的整体框架，其特征在于，所述编码器由序列编码器和基于树的编码器组成，序列编码器和基于树的编码器分别生成一个句子向量，其中，所述基于树的编码器中，基于头部驱动的短语结构语法，源语句由多个短语单元组成，并表示为二叉树，基于树的编码器为使用transformer构造的Tree-transformer结构，二叉树中的每个结点用transformer单元表示，从而在源语句的短语结构之后，以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示，初始解码器s₁具有两个子单元，分别是最终的序列编码器单元h_n和最终的基于树的编码器单元

初始化叶结点时用最终的序列编码器单元h_n，初始化父结点时用基于树的编码器单元

2.根据权利要求1所述基于树到序列的蒙汉机器翻译方法，其特征在于，所述基于树的编码器是在标准的序列编码器中构建。

3.根据权利要求2所述基于树到序列的蒙汉机器翻译方法，其特征在于，所述基于树的编码器使用左右子隐藏单元

和

计算第k个短语的第k个父隐藏单元

如下所示：

4.根据权利要求3所述基于树到序列的蒙汉机器翻译方法，其特征在于，在初始化基于树的编码器单元时，采用序列transformer单元表示，即h₀＝0；使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元的公式为

tree表示非线性函数。

5.根据权利要求3所述基于树到序列的蒙汉机器翻译方法，其特征在于，初始解码器

其中g_tree与f_tree具有相同的功能，该初始化允许解码器从序列数据和短语结构中捕获信息，使用Tree-transformer初始化解码器，将多种源语言翻译成一种目标语言，当语法分析器无法输出句子的解析树时，通过设置来使用序列编码器对句子进行编码。

6.根据权利要求1所述基于树到序列的蒙汉机器翻译方法，其特征在于，所述transformer中加入自注意力机制，为输入的语句向量的每一个字学习一个权重，在自注意力机制中每个单词有3个不同的向量，分别为Q,K,V向量，长度均为64，通过3个不同的权值矩阵由嵌入向量X乘以三个不同的权值矩阵W^Q,W^K,W^V得到，其中嵌入向量X由输入单词转换得到，三个权值矩阵的尺寸均是512×64。

7.根据权利要求6所述基于树到序列的蒙汉机器翻译方法，其特征在于，所述解码器中的transformer还加入编码器-解码器注意力机制，在此机制中，Q来自于解码器的上一个输出，K和V来自于编码器的输出，在机器翻译时，解码过程是一个顺序操作的过程，即当解码第k个特征向量时，只能看到第k-1及其之前的结果。

8.根据权利要求7所述基于树到序列的蒙汉机器翻译方法，其特征在于，采用BlackOut训练NMT模型。

9.根据权利要求7所述基于树到序列的蒙汉机器翻译方法，其特征在于，在解码过程中，使用波束搜索来解码源语句x的目标句子，并计算目标句子的对数似然的总和y＝(y₁,y₂,...y_m)作为波束得分：

L_x,y＝log P(len(y)|len(x))