CN111160050A

CN111160050A - 一种基于上下文记忆网络的篇章级神经机器翻译方法

Info

Publication number: CN111160050A
Application number: CN201911323603.4A
Authority: CN
Inventors: 杜权; 朱靖波; 肖桐; 张春良
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-15

Abstract

本发明公开一种基于上下文记忆网络的篇章级神经机器翻译方法，其步骤为：构建上下文记忆网络的Transformer模型；构建平行语料库，得到模型的词嵌入输入；在编码器端，结合上下文记忆模块对源语输入进行编码表示，将当前的编码表示更新到上下文记忆模块中；在解码器端，结合源语编码表示对目标语进行处理，得到长度一致的向量表示；将解码器的输出结果经过softmax归一化操作后得到预测的分布，完成模型的训练过程；利用训练好的模型进行篇章级机器翻译，逐句送入模型进行翻译，通过自回归的方式得到翻译结果。本发明通过增加上下文记忆模块用来动态维持上下文记忆信息，引入相关上下文信息，解决翻译结果上下文不一致的问题。

Description

一种基于上下文记忆网络的篇章级神经机器翻译方法

技术领域

本发明涉及一种神经机器翻译技术，具体为一种基于上下文记忆网络的篇章级神经机器翻译方法。

背景技术

机器翻译(Machine Translation，简称MT)是采用计算机进行自然语言之间相互翻译的一门实验学科。利用机器翻译技术，可以将一门源语言自动地转化为目标语言。机器翻译作为消除人们跨语言交流障碍的关键技术，一直是自然语言处理研究的重要组成部分。相比于人工翻译，机器翻译效率更高并且成本更低，对于促进民族团结和文化交流有着重要意义。机器翻译技术可以概括为基于理性主义的方法和基于经验主义的方法两种，自20世纪40年代提出至今，机器翻译已经经历了近70年的发展，发展历史大致可以分为三个阶段：基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。

基于规则的机器翻译技术采用人工构造规则的方法，对源语输入进行相应转换，得到目标翻译结果。这种方法的缺点在于需要大量的人工代价来构造规则，规则覆盖范围有限并且会出现冲突，使得系统可扩展性和鲁棒性差。之后，研究人员采用基于统计的机器翻译技术，利用统计方法进行建模，完全舍弃了对手工规则的依赖。统计机器翻译需要对大量的双语平行语料进行统计分析，从而构造统计翻译模型来完成翻译。近年来，随着深度学习的崛起，研究人员提出了基于深度学习的神经机器翻译(Neural Machine Translation，NMT)方法。神经机器翻译采用端到端的编码器-解码器框架，编码器将源语输入编码成一个稠密的语义向量，解码器负责参考语义向量进行自回归解码，生成最终的翻译结果。这种方法不需要额外的人工特征工程，直接使用神经网络进行建模，同样也需要大量的双语语料进行训练。

目前，基于自注意力机制的Transformer模型已经在多个语种上取得了可观的成绩，显著地提高了翻译结果的流畅行和准确性。Transformer模型同样基于编码器-解码器框架。其中，编码器由多层组成，每一层包括两个子层，第一个子层是一个注意力网络，二个子层是一个全连接的前馈神经网络。解码器结构与编码器相似，区别在于相比于解码器的两个子层，之间增加了一个编码-解码注意力网络来，用来参考源语编码表示。除此之外，Transformer模型中的每一个子层都包括一个残差连接和层正则化操作。

虽然神经机器翻译在某些领域已经取得不错的成绩，但是现如今的大多数机器翻译系统仍是基于句子级的，模型采用逐句翻译的方式进行工作。这种方式使得在翻译包含篇章级别上下文信息的文档中，翻译模型无法捕捉到句子间的上下文信息，造成最终翻译结果中出现翻译不准确或者上下文不一致的情况。因此，如何在翻译模型中有效引入篇章级的上下文信息来进行消歧，进一步提升整体翻译质量，是机器翻译领域的热门研究课题。

早在1992年，篇章级机器翻译的概念已经被提出，但是发展至今，绝大部分机器翻译系统仍然是基于句子级别的，关于篇章级机器翻译的研究没有取得显著的进展。篇章级机器翻译的问题在于如何引入句子间的上下文信息，在理想情况下，可以将整个篇章作为一个长的词序列送入翻译模型进行翻译，这样就可以获取全局的上下文信息进行翻译。然而现实中篇章序列往往过长，模型无法有效建模，在输入序列过长的情况下，现有神经机器翻译模型性能往往会显著下降。同时，现在主流的神经机器翻译技术训练和推理都花费大量的计算代价，全文翻译的做法在设备和计算速度要求上也是不允许的。此外，相比于句子级的普通双语数据，篇章级双语数据往往很难获取，训练数据的稀缺也成为限制篇章级机器翻译性能的主要问题。

目前，篇章级神经机器翻译模型大多采用多编码器的方法，在传统的编码器-解码器框架基础上，通过一个额外的编码器对上下文信息进行编码表示，然后和源语句子的编码表示进行融合，由解码器端产生最终的翻译结果。考虑到计算代价，现有的方法通常将源语句子在一个文档中的前一句或者前几句送入上下文编码器。由于当前句子的上下文信息来自于前几句，这种方法在翻译整个文档的过程中会出现重复计算，计算效率低，且仅仅考虑有限的上下文句子不够充分。

发明内容

针对篇章级神经机器翻译中多编码器方法存在计算效率低和上下文信息不够充分等不足，本发明提出一种基于上下文记忆网络的篇章级机器翻译方法，可以按照人类写作和说话的习惯，对源语待翻译句子之前的上下文信息进行高效地表示，引入到翻译过程中。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于上下文记忆网络的篇章级神经机器翻译方法，包括以下步骤：

1)采用基于自注意力机制的Transformer模型，在编码器端加入上下文记忆模块，用来动态维持上下文记忆，构成基于上下文记忆网络的Transformer模型；

2)构建平行语料库，对源语和目标语句子进行分词，将得到的相应词序列转换成对应的词向量表示；

3)在编码器端，对源语输入的词嵌入进行逐层特征抽取，通过上下文记忆模块引入相应的上下文信息，融合到当前的编码表示里；同时，将当前的编码表示更新到上下文记忆模块中，为之后句子的翻译提供上下文信息；

4)在解码器端，对目标语的词嵌入进行处理，在每一个子层中结合源语的语义向量，逐层进行特征抽取，得到一个和解码器输入长度一致的输出结果，用于模型预测；

5)将解码器的输出结果通过一个变换矩阵映射成目标语的词表大小，经过softmax归一化操作后得到预测的分布；用预测的分布和真实的标签计算出交叉熵作为模型的损失，用来计算梯度反向更新模型的参数，完成模型的训练过程；

6)利用训练好的模型进行篇章级机器翻译，按照文档句子的先后顺序，逐句送入模型进行翻译，模型通过一个动态维持的上下文记忆模块来引入上下文信息，然后通过自回归的方式得到翻译结果。

在步骤1)中，在编码器端引入上下文记忆模块用来动态维持上下文记忆信息，通过融合操作来将上下文信息整合到当前编码表示中，同时，使用更新操作对上下文信息进行更新，用于之后的翻译过程。

在步骤2)中，首先构造篇章级平行语料库，在确定训练数据后，分别对源语和目标语进行分词，将原始句子转换成词序列；然后分别将其转换成词嵌入表示，与对应位置的位置编码表示相加后作为编码器和解码器的输入。

步骤3)对源语输入的词嵌入进行逐层特征抽取，其中每一层的具体步骤为：

301)将子层输入首先通过自注意力网络进行变换，用来进行句子中的信息抽象，捕捉句子中不同位置之间的联系，得到更全局的编码表示；

302)将子层输入和上下文信息表示通过注意力网络得到源语在当前的对应的上下信息表示；

303)将步骤301)和步骤302)的结果通过一个门控单元进行融合，使得上下文信息融合到编码器表示中，融合方式如下：

其中W_g和b_g为模型的参数，σ为sigmod函数，用来获得门控g，H_cur是当前句的编码表示，

是对应的上下文信息，H为融合后的编码表示；

304)将步骤303)的结果作为输入，按位送入全连接的前馈神经网络，对其进行特征提取；

305)将提取得到的特征作为当前层的输出用于更新上下文记忆表示。

步骤4)中在每一个子层中结合源语的语义向量，逐层进行特征抽取，其中每一层的步骤为：

401)将子层输入送入自注意力网络，用来捕捉目标语编码序列与之前位置表示之间的关系，获得一个更全局的子层编码表示；

402)将子层输入和源语编码的语义向量送入编码-解码注意力网络，通过注意力机制来获得目标语中每个词在相应层对应的表示；

403)将获得的目标语表示送入全连接前馈神经网络，用来增加词表示的非线性变换，获得更抽象的表示，用于预测下一个词。

步骤5)中训练过程需要将整个文档按句送入模型进行计算损失，然后再计算相应梯度进行模型参数更新。

本发明具有以下有益效果及优点：

1.本发明通过上下文记忆模块来动态维持前文中源语的上下文信息，在编码过程中融入到源语编码表示中，然后送入解码器进行解码，考虑前文的整体信息，使得解码结果具有上下文一致性，更符合篇章级翻译的要求。

2.本发明对传统的Transformer模型编码器端进行改进，不需要引入额外的上下文编码器，同时也不需要对解码器进行改进，结构更加高效，能够更有效得到表示和引入上下文信息。

附图说明

图1为本发明的上下文记忆网络概略图；

图2为现有神经机器翻译技术中的注意力机制示意图；

图3为本发明中上下文记忆网络的编码器示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明是一种基于上下文记忆网络的篇章级神经机器翻译方法，具体包括如下步骤：

步骤1)中，在编码器端引入上下文记忆模块用来动态维持上下文记忆信息，通过融合操作来将上下文信息整合到当前编码表示中，同时，使用更新操作对上下文信息进行更新，用于之后的翻译过程，如图1所示。

相比于传统的Transformer模型，本发明使用的方法主要区别在于增加的上下文记忆模块。上下文记忆模块包括三部分：上下文记忆表示M、融合操作和更新操作。其中上下文记忆表示M包含了当前翻译句子的源语前文信息，在翻译过程提供上下文信息，同时一直进行动态更新。融合操作在编码器逐层处理时将上下文表示M与源语编码表示进行融合，将上下文信息融合到最终的语义向量中。更新操作在融合操作之后，将当前的编码表示用于更新上下文信息表示M，为之后的源语句子翻译提供上下文。

在构造模型的训练数据送入编码器或解码器前，首先需要以下步骤：

201)对输入的源语和目标语词序列使用one-hot进行编码，得到一个维度大小与词典大小相等的向量，用作当前词的索引，其中对应词的位置为1，其余位置皆为0；

202)通过词嵌入将one-hot向量转换成唯一的词嵌入表示，得到一个表示更加丰富的词嵌入向量；

203)将步骤202)获得的词嵌入向量与用于编码位置信息的位置向量相加，得到最终的表示向量，用于编码器和解码器的输入。

步骤3)对源语输入的词嵌入进行逐层特征抽取，编码器结构如图3所示，其中每一层的具体步骤为：

301)将步骤203)中源语的词向量表示或者上一子层的输出首先通过自注意力网络进行变换，用来进行句子中的信息抽象，发现句子中不同位置之间的联系，得到更高级的抽象表示；

302)将步骤203)的结果或者上一子层的输出和上下文信息表示M通过注意力网络得到当前源语的上下信息表示；

303)将步骤301)和步骤302)的结果通过一个门控单元进行融合，使得上下文信息融合到编码器表示中；

304)将步骤303)的结果作为输入，按位送入一个全连接的前馈神经神经网络，对其进行特征提取；

305)将当前子层的输出用于更新上下文记忆表示。

然后，依次重复步骤301)到步骤305)进行多层操作，对源语输入进行更高级的抽象表示，获得更充分的表示信息。

在步骤301)和步骤302)中，分别使用多头注意力机制，其中每个头的计算方式(如图2所示)如下：

其中，softmax为归一化操作，d_k是每个头的维度大小。在步骤301)中，矩阵Q、K和V来自于输入矩阵的线性变换，在第一层时，输入为步骤2)的词向量表示，除了第一层之外，其余层的输入来自于上一子层的输出。在步骤302)中，Q来自于输入矩阵的线性变换，而K和V来自于上下文信息表示M。通过这种方式，分别获得了源语输入句子在当前层的编码表示和上下文表示。

步骤303)对这两种表示进行了融合，使得编码表示中包含相应的上下文信息。为了控制上下文信息对当前编码表示的影响大小，本发明采用了一个门控单元分别对上下文信息表示和编码表示进行缩放，然后通过加和的方式进行融合，其计算方式如下：

是对应的上下文信息，H为融合后的编码表示。

401)将步骤202)获得的目标端词向量表示或者上一子层的输出作为输入，通过自注意力机制捕捉当前位置和之前位置的关系，进行抽象表示；

402)将步骤401)的结果与步骤3)获得的语义向量送入编码-解码注意力网络；

403)将步骤402)的结果按位送入全连接前馈神经网络，在词的维度进行变换；

然后依次重复步骤401)到步骤403)进行多层操作，获得最终用于预测的向量表示。

步骤401)中，除了第一层的输入来自于目标端词向量表示，其余皆为上一子层的输出。与编码器中自注意力机制的区别在于，为了与自回归解码过程一致，解码器端的自注意力机制只能关注之前的向量表示，其掩码矩阵是一个半三角矩阵。步骤402)中的Q来自于步骤401)的表示线性变换，K和V来自于语义向量的线性变换。

步骤5)用于模型的反向更新过程，相比于独立翻译各个句子的传统模型结构，本发明的上下文信息模块依赖于之前句子的编码表示。因此，本发明的训练方法与传统训练方法具有区别，需要以篇章为单位进行训练。首先将整个文档按句送入模型进行计算损失，然后再计算相应梯度进行模型参数更新。

步骤6)为模型的推理过程，其中编码计算与训练过程中一致，区别在于模型的解码过程。由于模型在推理过程中无法获得目标语，解码过程采用自回归的方式，在解码过程中重复将前一时刻的预测输出作为当前输入，来预测当前词。

本发明分别在IWSLT中英和英中任务上验证了模型的有效性，采用BLEU值作为翻译性能评测指标。训练集采用来自于IWSLT提供的TED演讲数据集，其中包括1708个篇章数据，共有21万个双语句对。为了证明本发明在篇章级翻译中的有效性，采用具有相同参数配置的Transformer-base模型作为基线系统进行对比。结果表明，对比传统基于句子级的Transformer模型，本发明在中英和英中任务上分别有0.8BLEU和0.5BLEU的提升。相比于基于句子级的翻译模型，本发明可以结合上下文信息进行翻译，消除句子级翻译中可能会存在的歧义。比如在英中翻译中，对英文“He drive to the bank.”进行翻译。在这里，“bank”有两种可能含义，分别是银行和岸，如不提供上下文信息，模型无法进行区分从而准确翻译，句子级翻译模型往往会翻译成“他开车去银行。”而本发明在提供上下文“There is ariver.”后，模型会从中提取上下文信息，通过“river”对“bank”的翻译进行消歧，得到更合理的翻译结果“他开车去河边。”在中英翻译中，对“我十分热衷于这项运动。”进行翻译，句子级的翻译模型会翻译成“I’m still very enthusiastic about this movement.”。在没有上下文的情况下，这种翻译结果是可以接受的，然而在提供上下文“赛车游戏有十分久远的历史。”的情况下，将“运动”翻译成“movement”就不恰当了。本发明可以结合上下文中出现的“赛车游戏”，确定“这项运动”的具体指代，从而得到更合理的翻译结果“I’m stillvery keen on this sport.”

本发明通过上下文记忆模块来动态维持前文中源语的上下文信息，在编码过程中融入到源语编码表示中，然后送入解码器进行解码，考虑前文的整体信息，使得解码结果具有上下文一致性，更符合篇章级翻译的要求，对传统的Transformer模型编码器端进行改进，不需要引入额外的上下文编码器，同时也不需要对解码器进行改进，结构更加高效，能够更有效得到表示和引入上下文信息。

Claims

1.一种基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于包括以下步骤：

2.按权利要求1所述的基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于：在步骤1)中，在编码器端引入上下文记忆模块用来动态维持上下文记忆信息，通过融合操作来将上下文信息整合到当前编码表示中，同时，使用更新操作对上下文信息进行更新，用于之后的翻译过程。

3.按权利要求1所述的基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于：在步骤2)中，首先构造篇章级平行语料库，在确定训练数据后，分别对源语和目标语进行分词，将原始句子转换成词序列；然后分别将其转换成词嵌入表示，与对应位置的位置编码表示相加后作为编码器和解码器的输入。

4.按权利要求1所述的基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于：步骤3)对源语输入的词嵌入进行逐层特征抽取，其中每一层的具体步骤为：

是对应的上下文信息，H为融合后的编码表示；

5.按权利要求1所述的基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于：步骤4)中在每一个子层中结合源语的语义向量，逐层进行特征抽取，其中每一层的步骤为：

6.按权利要求1所述的基于上下文记忆网络的篇章级神经机器翻译方法，其特征在于：步骤5)中训练过程需要将整个文档按句送入模型进行计算损失，然后再计算相应梯度进行模型参数更新。