CN112380882B

CN112380882B - 一种具有误差修正功能的蒙汉神经机器翻译方法

Info

Publication number: CN112380882B
Application number: CN202011382870.1A
Authority: CN
Inventors: 苏依拉; 梁衍锋; 吕苏艳; 仁庆道尔吉; 李雷孝; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-01-18
Anticipated expiration: 2040-12-01
Also published as: CN112380882A

Abstract

本发明一种具有误差修正功能的蒙汉神经机器翻译方法，基于编码器‑解码器的NMT模型，并在解码器中引入内容流‑查询流的双流自注意力机制，其中：所述内容流用于构建先前标记的表示，以及，用于校正先前预测输出；所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入，以及，用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出。本发明将XLNET中的双流自注意力机制引入到NMT解码器中，并且在内容流中加入误差纠正，从而纠正翻译过程中的错误，提高翻译质量。

Description

一种具有误差修正功能的蒙汉神经机器翻译方法

技术领域

本发明属于机器学习技术领域，特别涉及一种具有误差修正功能的蒙汉神经机器翻译方法。

背景技术

神经机器翻译(NMT)自首次被提及以来，已在机器翻译领域取得了巨大成就，它全面优于统计机器翻译(SMT)，快速成为在线翻译系统的主流标配。

市面上的神经机器翻译系统越来越多，国外的谷歌和国内的腾讯、阿里巴巴、百度、搜狗、科大讯飞等针对机器翻译都进行了大量的研究，取得了显著的研究成果，稀少资源语言和少数民族语言的机器翻译任务也越来越受到重视。

蒙古语属黏着语，主要使用者在蒙古国、中国蒙古族聚居区和俄罗斯联邦西伯利亚联邦管区。蒙古语有传统蒙古文和西里尔蒙古文，我们所研究的蒙汉翻译，特指的是传统蒙古文到汉语的翻译。蒙汉机器翻译研究不仅可以促进民族文化传播和多民族人民交流，而且有利于稀少资源和少数民族语言机器翻译的研究。然而，由于人才匮乏，资源短缺等原因，蒙汉机器翻译的性能质量还是比较落后。因此，如何提高汉蒙机器翻译的性能是我们研究的难点与创新点。

随着深度学习的发展，神经机器翻译(NMT)取得了长足进步。目前流行的NMT模型采用了一种编码-注意-解码框架，解码器根据先前的输出以自回归的方式生成目标输出。

使用流程:首先，编码器将源语言文本构建的词向量转变为有相关语义特征信息的低维稠密的中间向量表示，然后解码器将中间向量进行解码预测，转换为目标语言。

如图1所示编码器-解码器框架，是给定一个句子对{x，y}∈(X，Y)，NMT模型的目标是使对数似然估计P(y|x；θ)最大化。

所述翻译解码模型建模的公式为：

其中，x表示当前输入端的源语言；

y为要翻译的目标语言；

n是目标序列y的标记数。

y_t：表示第t位置的词，y_<t：表示t位置之前的词。

Θ：表示需要优化的参数；

P代表源语言x通过模型生成目标语言y的概率。

尽管NMT模型很受欢迎，但它存在训练和推理之间的差异以及由此产生的误差传播。在推理过程中，解码器将先前生成的输出作为输入来预测下一个输出，这与训练中使用前一个语料库中的真实词对作为下一个预测的输入不同。因此，前文预测的句词，可能有错误，这将导致错误传播并影响对下一个输出的预测，进而将错误传播到整个预测序列。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种具有误差修正功能的蒙汉神经机器翻译方法，首先将XLNET中的双流自注意力机制引入到NMT解码器中，并且在内容流中加入误差纠正，以此来纠正翻译过程中的错误，提高翻译质量。

为了实现上述目的，本发明采用的技术方案是：

一种具有误差修正功能的蒙汉神经机器翻译方法，基于编码器-解码器的NMT模型，并在解码器中引入内容流-查询流的双流自注意力机制，其中：

所述内容流用于构建先前标记的表示，以及，用于校正先前预测输出；

所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入，以及，用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出。

所述内容流校正先前预测输出的方法是：采用预定抽样对预测输出进行抽样，将抽样得到不准确的输出替换为语料库中正确的样本。

所述NMT模型采用一个编码器和两个双流自注意力机制的解码器。

在利用编码器和解码器翻译之前，先选取蒙汉双语语料的语料库，对蒙汉双语语料库进行预处理，所述预处理是先对汉语语料库进行分字处理，进行字节层面的翻译，对蒙古语词汇进行词干、词缀和格的附加成分切分，然后采用单词片段的切词方式(BPE)处理蒙汉双语语料库，细化翻译粒度来减少未登录词，最后使用Word2vec构建蒙汉双语词向量，对于蒙汉双语语料库中的未登录词，细化翻译粒度和构建蒙汉双语专有词汇词典。

所述编码器的工作流程是：

在m时刻，将序列{x₁，…，x_i，…，x_n}输入到编码器中，a_i＝e(x_i)+p(x_i)；

其中，x_i为序列中第i个词，n为m时刻序列的字或词的总个数，a_i为编码器的输入，为字嵌入和位置嵌入的和，e(·)为x_i的字嵌入，p(·)为x_i的位置嵌入；

其中b_i为编码器自注意力层输出，Q，K，V为自我注意中的查询、键和值，T表示矩阵转置，Attention为编码器自注意力层，d_k为K矩阵的维度；

为经过残差层后得到的数据；

为每个x_i的编码器输出，FFN(·)为前馈神经网络运算；

所述解码器中，将位置{p₁，…，p_i，…，p_n}输入到查询流，为下一个输出预测提供位置信息，序列{y₁，…，y_i，…，y_n}加上其位置{p₁，…，p_i，…，p_n}到内容流以构建上下文信息，c_i＝e(y_i)+p_i，其中，y_i为上一个解码器的输出，p_i为该输出的位置嵌入编码信息，c_i为下一个编码器的输入。

将查询流隐藏状态

初始化为一个变量W，将内容流隐藏状态

初始化为词的Embedding，对于双流自注意力解码器第m-1层到第m层的计算，将查询流和内容流的隐藏状态定义为

和

查询流和内容流的更新如下：

其中，

表示内容流的隐藏状态，也即解码器输出的隐藏状态，查询流和内容流共享相同的模型参数，键和值的状态在查询流和内容流中重用，θ表示需要优化的参数，t为词在句子的绝对位置。

将解码器B1翻译出的粗略译文以及softmax运算前隐藏状态作为解码器B2的输入，并从解码器B2输入查询流的输出，以计算下一个目标输出预测的概率。

在训练过程中，首先用查询流预测下一个输出，然后用生成的输出更新内容流，翻译的最终目标为：

其中，y′_t代表模型预测第t个输出，t为词在句子的绝对位置，x_＜t代表序列位置t之前的值；

为了模拟内容流输入中的预测误差，采用预定抽样从平行语料库中的真实值y＝{y₁，…y_i，…，y_n}和之前预测的输出y′＝{y′₁，…y′_i，…，y′_n}进行随机抽样，以概率P(·)作为新输入

其中y′_t服从概率分布P(y_t|y_＜t，x；θ)，对于输入

等于y_t的概率P(·)，否则为y′_t，对于步骤s，查询到的标记为y′_t，y′_t≠y_t，强制内容流预测其对应的真实值y_t。

本发明为采样概率P(·)设计一个衰减函数，衰减函数设置为：

其中s代表训练步骤，τ，σ，θ是超参数，超参数τ表示模型执行多少步时开始抽样，超参数σ是最大的抽样概率。

本发明使用Adam为默认的优化器优化模型参数，设置β₁＝0.9，β₂＝0.98，∈≈10^-8，默认学习率为α＝0.001；

V_dW＝β₁V_dW+(1-β₁)dW

S_dW＝β₂S_dW+(1-β₂)(dW)²

其中，W为编码器自注意力层Q，K，V运算时的参数，分别为W_q，W_k，W_v，编码层与解码器的参数共享。

与现有技术相比，本发明的有益效果是：

1、本发明改造了Transformer的编码器，加入了双流自注意力层，再引入了一种纠错机制，通过修正前一个生成的输出中的错误信息来更好地预测下一个输出。具体地，本发明将XLNET的两个流自我注意引入到NMT解码器中，通过查询流预测下一个输出，同时使用内容流来纠正来自先前预测输出的错误信息，并利用定时抽样来纠正训练过程中的预测误差。

2、本发明采用双层解码器，可在序列解码过程中同时检查句子的上下文，从而可以利用全局信息，得到更加准确的翻译输出。

3、对于蒙汉翻译来说，翻译过程中获得全局信息尤为重要，因为汉语的语法顺序为。主-谓-宾(S-V-0)结构，而蒙语采用的语法顺序为主-宾-谓(S-0-V)结构。本发明同时利用双流自注意力编码器内容流的特点，利用随机取样函数，纠正一部分翻译错误，避免把错误带入下一个预测序列，由此来改善翻译模型，有效地提高蒙汉翻译的质量。

附图说明

图1是本发明编码器-解码器模型示意图。

图2是本发明双流自注意力层示意图。

图3是本发明纠错机制模型示意图。

图4是本发明翻译流程示意图。

图5是本发明编码器处理过程。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，一种具有误差修正功能的蒙汉神经机器翻译方法，基于编码器-解码器的NMT模型，采用一个编码器A和两个解码器B1和B2(双层解码器模型)。其原理可描述为：

(1)通过编码器将上下文编码成具有上下文联系的隐藏向量。

首先，编码器输入的句子首先会经过一个自注意力(self-attention)层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全一样。

(2)基于编码器-解码器的框架结构在生成序列的时候只生成一次，而没有反复“推敲”的过程。然而，对于蒙汉翻译来说，反复“推敲”的过程显得尤为重要，因为汉语的语法顺序为主-谓-宾(S-V-0)结构，而蒙语采用的语法顺序为主-宾-谓(S-0-V)结构；因此本发明采用了双层解码器，通过一个推敲过程可在序列解码过程中同时检查句子前后的内容，从而可以利用全局信息。具体而言，本发明采用了这样的编码器-解码器框架--它由一个编码器A以及第一阶段解码器(first-pass decoder)B1和第二阶段解码器(second-pass)B2构成，如图1所示。与现有技术不同之处在于，本发明将双流自注意力机制分别引入到解码器B1和B2中，如图2所示。具体地，编码器A以及第一阶段解码器B1和第二阶段解码器B2构成均为多层神经网络，第一阶段解码器B1和第二阶段解码器B2均包含了一个双流自注意力模型，编码器A和第一阶段解码器B1以注意力机制连接。

其中，内容流与Transformer解码器中的正常自我注意力机制完全相同，用于构建先前标记的表示，而查询流则使用位置嵌入作为决定要预测的下一个输出的位置的输入。本发明重新设计了两个流self-attention来支持蒙汉神经机器翻译，在上述功能外，内容流还用于校正先前的预测输出(correction)，原理是：采用预定抽样对预测输出进行抽样，将抽样得到不准确的输出替换为语料库中正确的样本。而查询流用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出(translation)。

在利用编码器和解码器翻译之前，本发明可先选取蒙汉双语语料的语料库，并对蒙汉双语语料库进行预处理，具体是先对汉语语料库进行分字处理，进行字节层面的翻译，对蒙古语词汇进行词干、词缀和格的附加成分切分，然后采用单词片段的切词方式(BPE)处理蒙汉双语语料库，细化翻译粒度来减少未登录词，最后使用Word2vec构建蒙汉双语词向量，对于蒙汉双语语料库中的未登录词，细化翻译粒度和构建蒙汉双语专有词汇词典。

具体地，NMT除了对模型层次的研究外，也包含对翻译粒度的研究，基于词级和字词级的粒度会缓解未登录词的问题，因此：

A、在对蒙汉平行语料库的预处理之前，首先对汉语语料库进行预处理工作，采用jieba分词对汉语语料进行处理。

B、根据蒙古语本身的特点：蒙古语属于阿尔泰语系且是典型的黏着语，并且属于一种拼音文字，同样包括词缀和词根成分，因此将蒙古文词切分为子词粒度，会切分出一部分有意义的词缀等构词成分，使得神经翻译模型通过对子词的学习从而具备识别子词的能力，并且对于某些未登陆词的翻译而言，可以通过对子词的翻译得到该未登录词的译文。

C、蒙古文词中包含的各种词缀和词根等构词结构是蒙古文字符序列的高频组合。使用BPE算法对蒙古文语料进行子词切分处理。在平行语料库中与蒙古语对应的汉语方面，本发明对汉语做分字处理。

在编码器的隐藏状态，句子编码依次经过了自注意力层(self-attention)，该层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈(feed-forward)神经网络中。最后得到用于解码器双流自注意力机制的输入

解码器B1把隐藏状态

作为双流自注意力层的输入，执行第一阶段的解码，得到草稿句子

即翻译出的粗略译文，将

以及softmax运算前隐藏状态输入到解码器B2，这样就有了反复“推敲”的过程，解码器B2与B1相同，但是在解码器B2的输出的句子y′进行随机取样，将一部分预测有偏差的词都换成语料库中准确的词。即从解码器B2输入查询流的输出，以计算下一个目标输出预测的概率。这样可以缓解把错误信息一直带入到整个预测序列中去。

如图3所示纠错机制的工作流程。本发明纠错机制与计划抽样的不同之处在于，一旦在计划抽样中预测到一个错误输出，模型仍然会学习预测下一个正确的输出，这可能会混淆模型并误导学习错误的预测模式。然而，基于本发明的纠错机制，下一个令牌预测是建立在由内容流更正的表示之上的，并且更精确地学习预测模式。

V_dW＝β₁V_dW+(1-β₁)dW

S_dW＝β₂S_dW+(1-β₂)(dW)²

根据以上内容，本发明包括语料预处理和机器翻译两大步骤，

参考图4，本发明翻译过程如下：

1、蒙汉双语平行语料库预处理

2、编码器解码器处理过程

3、生成译文并且纠正错误译文

其中，蒙汉双语语料库预处理完以后，采用Word2vec构建词向量，再结合词的位置编码，得到要进入编码器的向量a_i。经过编码器的处理过程后得到，并且输入到解码器中的双流自注意力层。第一层解码器B1得到softmax前的隐含状态及初步翻译的草稿句子，然后以编码器A和第一层解码器B1的隐含状态作为第二层解码器B2的输入，第二层编码器B2输出蒙古语译文后，本发明采用概率取样，对并且不合理的翻译进行纠正，随后在进入下一阶段的处理。

具体地，如图5所示，编码器处理过程，假设m时刻输入到编码器的序列为{x₁，…，x_i，…，x_n}。进行词嵌入与位置编码操作，定义如下：

a_i＝e(x_i)+p(x_i)

其中，x_i为序列中第i个词，n为m时刻序列的字或词的总个数，a_i为编码器的输入，为字嵌入和位置嵌入的和，e(·)为x_i的字嵌入，p(·)为x_i的位置嵌入。

其中b_i为编码器自注意力层输出，Q，K，V为自我注意中的查询、键和值，T表示矩阵转置，Attention为编码器自注意力层，d_k为K矩阵的维度。

注：

为经过残差层后得到的数据。

为每个x_i的编码器输出，FFN(·)为前馈神经网络运算。

在解码器中，将位置{p₁，…，p_i，…，p_n}输入到查询流，为下一个输出预测提供位置信息，序列{y₁，…，y_i，…，y_n}加上其位置{p₁，…，p_i，…，p_n}到内容流以构建上下文信息，c_i＝e(y_i)+p_i，其中，y_i为上一个解码器的输出，p_i为该输出的位置嵌入编码信息，c_i为下一个编码器的输入。

首先将查询流隐藏状态

初始化为一个变量W，将内容流隐藏状态

初始化为词的Embedding。如图2所示，对于双流自注意力解码器第m-1层到第m层的计算，将查询流和内容流的隐藏状态定义为

和

查询流和内容流的更新如下：

其中，

表示内容流的隐藏状态，也即解码器输出的隐藏状态，表示层的参数，查询流和内容流共享相同的模型参数，键和值的状态在查询流和内容流中重用，θ表示需要优化的参数，t为词在句子的绝对位置。Attention(.，.)为一种注意力机制的运算。

在训练过程中，首先用查询流预测下一个输出，然后用生成的输出更新内容流，查询和内容流的顺序不会影响预测，因为查询流中的输出只依赖于先前生成的内容流输出。翻译的最终目标为：

其中y′_t服从概率分布P(y_t|y_＜t，x；θ)，对于输入

在本发明的纠错机制中，如何控制定时采样概率P(·)以及何时对输出进行采样是训练的重要因素。先前的研究指出，在训练期间，不适合从头开始抽取，因为模型仍在拟合中。因此本发明为采样概率P(·)设计了一个类似的指数衰减函数，但有更多限制。衰减函数设置为

其中s代表训练步骤，τ，σ，θ是超参数，超参数τ表示模型执行多少步时开始抽样，超参数σ是最大的抽样概率，本发明设置参数为τ＝30000，σ＝0.85，θ＝5000。

在本发明中，内容流可以将学习到的不准确的结果逐渐向正确的结果逐步修正。查询流仍然用于预测下一个输出，给定先前预测输出和修正输出的是随机混合的，这样不会误导模型，避免过拟合的情况发生。

Claims

1.一种具有误差修正功能的蒙汉神经机器翻译方法，基于编码器-解码器的NMT模型，并在解码器中引入内容流-查询流的双流自注意力机制；

所述内容流用于构建先前标记的标识，以及，用于校正先前预测输出；

所述查询流使用位置嵌入作为决定要预测的下一个输出的位置的输入，以及，用于根据修正后的上下文以正常的从左向右顺序同时预测下一个输出；

在利用编码器和解码器翻译之前，先选取蒙汉双语语料的语料库，对蒙汉双语语料库进行预处理，所述预处理是先对汉语语料库进行分字处理，进行字节层面的翻译，对蒙古语词汇进行词干、词缀和格的附加成分切分，然后采用单词片段的切词方式处理蒙汉双语语料库，细化翻译粒度来减少未登录词，最后使用Word2vec构建蒙汉双语词向量，对于蒙汉双语语料库中的未登录词，细化翻译粒度和构建蒙汉双语专有词汇词典；

所述编码器的工作流程是：