CN113468895B

CN113468895B - 一种基于解码器输入增强的非自回归神经机器翻译方法

Info

Publication number: CN113468895B
Application number: CN202110592520.6A
Authority: CN
Inventors: 杜权; 徐萍; 杨迪
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-08-15
Anticipated expiration: 2041-05-28
Also published as: CN113468895A

Abstract

本发明公开一种基于解码器输入增强的非自回归神经机器翻译方法，步骤为：构造非自回归神经机器翻译模型；构建双语混合预训练模型；将双语混合句子作为编码器的输入，通过解码器来预测编码器中被替换的片段；用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入；构建训练平行语料，生成机器翻译词表；通过解码器预测对应的目标语句子；计算预测出的分布与真实数据分布的差异，完成非自回归神经机器翻译模型的训练过程；将源语句子送入非自回归神经机器翻译模型中。本发明通过词典替换的方式将源语与目标语的表示映射到了同一的词义空间下，丰富了词向量的表达能力，可被非自回归神经机器翻译模型更好利用。

Description

一种基于解码器输入增强的非自回归神经机器翻译方法

技术领域

本发明涉及一种神经机器翻译推断加速方法，具体为基于解码器输入增强的非自回归神经机器翻译方法。

背景技术

机器翻译是将一种自然语言翻译为另一种自然语言的技术。机器翻译是自然语言处理的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。同时，随着互联网技术的飞速发展，机器翻译技术在人们日常的生活工作中起到了越来越重要的作用。

机器翻译技术从上世纪70年代基于规则的方法，到80年代基于实例的方法，90年代基于统计的方法，到如今基于神经网络的方法，历经多年的发展，终于达到了良好的效果，在人们的日常生活中得到了更广泛的使用。

目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架，其中性能最强大的则是基于自注意力机制的Transformer模型结构，在多个语种的上取得了最佳的翻译性能。Transformer由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器由六层堆叠的编码层组成，解码器同样包括六层解码层。整个模型中抛弃了传统的RNN和CNN，完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制，提高了系统的并行能力。同时由于并行计算的处理方式，也缓解了顺序计算中的长期依赖难以处理的现象。Transformer的编码层包括自注意力层和前馈神经网络组成。自注意力编码器输出的用稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层，来对源语和目标语之间的映射关系进行建模。

基于神经网络的机器翻译系统在性能上相较之前备受瞩目的基于统计的翻译系统而言，在性能上已经得到了十足的进步。但由于神经网络涉及大量的矩阵运算，因此在训练以及解码上相对之前的方法会更加耗时。对于这两方面的耗时，在实际中往往对于解码的时间消耗更为看重。为使得神经机器翻译系统能够在实际中被应用起来，必须要求系统在解码的过程中具有较高的响应速度，否则面对难以接受的延迟，即使翻译系统具有更为优秀的性能，在很多场景下用户也很难接受。

目前大多数机器翻译模型都使用了编码器-解码器框架来实现，编码器将源语句的表示送入到解码器来生成目标句子；解码器通常以自回归的方式来工作，从句首到句尾逐字地生成目标句子，第t个目标词的生成依赖于先前生成的t-1个目标词。这种自回归的解码方式符合阅读和生成句子时的习惯，能有效地捕捉到真实翻译的分布情况。但是解码器的每个步骤必须顺序地而不是并行地运行，因此自回归解码会阻止像Transformer这样的体系结构在推理过程中充分体现其训练时的性能优势。

为了减轻推理延迟，非自回归神经机器翻译模型被提出，该模型以从句首到句尾的方式使用复制的源输入初始化解码器输入，并独立地同时生成所有目标词。但是，非自回归神经机器翻译模型在实现加速的同时，其解码器必须在薄弱的目标端信息条件下来处理翻译任务，从而降低了翻译的准确性。

发明内容

针对非自回归神经机器翻译模型中由于薄弱的目标端信息造成翻译质量下降的问题，本发明提供了一种基于解码器输入增强的非自回归神经机器翻译方法，能够使得非自回归神经机器翻译取得与自回归神经机器翻译相当的性能且具有较高的响应速度以及更好实际应用。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于基于解码器输入增强的非自回归神经机器翻译方法，包括以下步骤：

1)采用基于自注意力机制的Transformer模型，移除解码器对未来信息屏蔽的矩阵并加入多头位置注意力，构造非自回归神经机器翻译模型；

2)构建双语混合预训练模型，首先在源语言和目标语言之间使用词汇归纳来获得双语词典，然后将输入句子中的某些单词根据词典替换为其目标语的对应单词，用编码器解码器框架，将双语混合的句子作为编码器的输入，解码器来预测编码器中被替换的片段；

3)用预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，将源语的词嵌入经过长度转换后作为目标端的输入；

4)构建训练平行语料，对源语和目标语构成的双语平行句对进行分词，得到源语序列和目标语序列，生成机器翻译词表；

5)训练一个非自回归神经机器翻译模型，编码器对源语句子进行编码，提取源语句子信息，解码器根据该信息来预测对应的目标语句子，然后计算预测出的分布与真实数据分布的损失，通过反向传播不断减少该损失，完成模型的训练过程；

6)将用户输入的源语句子送入机器翻译模型中，解码出不同长度的翻译结果，并通过自回归神经机器翻译模型的评价来得到最优的翻译结果。

步骤1)中，构造非自回归神经机器翻译模型，具体为

101)Transformer仅由注意力机制和前馈神经网络组成，在自注意力机制中，查询(Query，Q)，键(Key，K)和值(Value，V)来自相同的内容，首先对三个矩阵分别进行线性变换，然后进行缩放点积操作，即计算Query与Key进行点积计算，为了防止计算结果过大，会除以Key的维度来达到调节作用，如下述公式所示：

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数，d_k为键矩阵的维度；

102)移除解码器对未来信息屏蔽的矩阵后对翻译问题进行建模：

其中，X为源语序列，Y为目标语序列，T为目标语序列长度，T′为源语序列长度，x_t为第t个位置的源语词，y_t为第t个位置的目标语词；

103)在每个解码器层中添加额外的多头位置注意力模块，该模块与Transformer模型的其它部分中使用的多头注意力机制相同，在这里，位置编码作为query和key，解码器隐层状态作为value；

104)与自回归神经机器翻译模型不同，非自回归神经机器翻译模型需要估计目标长度来并行生成所有词。这里训练一个模型来预测目标句子和源句子之间的长度偏移，长度预测模型P_L接收编码器的隐藏状态，经过线性变换并送入到softmax分类器中来生成最终结果。

步骤2)中构建双语混合预训练模型，具体为：

201)在源语言和目标语言之间使用词汇归纳来获得双语词典，具体通过在源端和目标端的单语语料库X和Y上训练词嵌入X_e和Y_e，词汇归纳使用自学习或者对抗学习来学习如下映射函数将源语和目标语映射到同一表示空间下；随后，使用词嵌入的余弦距离来衡量源词和目标词之间的相似性，通过提取共享词嵌入空间下的前k个最相似的词来形成双语词典；

202)使用单语数据训练双语混合预训练模型，该模型采用编码器解码器框架，根据双语词典将输入句子中的某个片段的连续k个词以一定的概率p随机替换为其目标语中的对应单词，之后通过编码器-注意力-解码器模型自回归的预测生成该被替换的片段，让解码器从编码器端提取信息来帮助连续片段的预测，从而促进编码器-注意力-解码器结构的联合训练。

步骤3)中用预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，具体为：

301)混合双语预训练模型训练完成后，将该模型编码器和解码器词嵌入的参数来初始化非自回归神经机器翻译模型的编码器和解码器，该参数在后续的训练过程中继续更新；

302)将源语的词嵌入表示经过一个线性变换后作为目标端的词嵌入表示，随后将此表示作为输入送入到解码器，具体为：

E_z＝f(E_x；W)＝E_xW

其中，E_x是源语的词嵌入表示，E_z是解码器的输入，f(.)是线性变换函数，W是可学习的映射矩阵。

步骤4)对训练数据进行预处理，使用开源工具Moses来对句子进行分词，之后使用BPE子词切分算法对训练集、校验集和测试集基础分词结果进行更细粒度的切分，将词切分为更小单位的子词来缓解未登录词的问题以此来提高机器翻译性能；同时共享源语端端和目标语端的词表生成机器翻译词表。

步骤5)非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失，然后再计算相应的梯度进行参数更新来完成训练过程。

步骤6)中，将用户输入的源语句子送入到模型中，通过指定不同的目标语长度来获得多个翻译结果；然后，使用自回归神经机器翻译模型作为这些解码翻译结果的打分函数，进而选择最佳的整体翻译；由于所有翻译样本都可以完全独立地计算和打分，因此与计算单个翻译相比，如果有足够的并行性，则该过程只会增加一倍的时间。

本发明具有以下有益效果及优点：

1.本发明提出了基于解码器输入增强的非自回归神经机器翻译方法，通过使用大量的单语数据训练混合双语预训练模型，通过词典替换的方式将源语与目标语的表示映射到了同一的词义空间下，极大丰富了词向量的表达的能力，能够被非自回归神经机器翻译模型更好的利用。

2.本发明方法使用双语混合预训练混合模型初始化非自回归神经机器翻译模型词嵌入参数，能够将双语的表示映射到同一的词义空间下，极大的缓解了非自回归神经机器翻译模型薄弱的目标端信息的问题，有效的提升了非自回归神经机器翻译模型的性能。

附图说明

图1为本发明中基于解码器输入增强的非自回归神经机器翻译模型图示；

图2为本发明中混合双语预训练模型的结构示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明将从输入增强角度对非自回归神经机器翻译系统的翻译性能进行优化，旨在实现准确且快速的翻译。

本发明提出了一种基于解码器输入增强的非自回归神经机器翻译方法，包括以下步骤：

2)构建双语混合预训练模型，首先在源语言和目标语言之间使用词汇归纳来获得双语词典，然后将输入句子中的某些单词根据词典替换为其目标语的对应单词；采用编码器解码器框架，将双语混合句子作为编码器的输入，通过解码器来预测编码器中被替换的片段，具体过程如图2所示；

3)用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，将源语的词嵌入经过长度转换后作为目标端的输入，具体过程如图1所示；

5)对构造的非自回归神经机器翻译模型进行训练，得到该模型；对构造的非自回归神经机器翻译模型进行训练，通过该模型中的编码器对源语句子进行编码，提取源语句子信息，再通过解码器根据该信息来预测对应的目标语句子；然后计算预测出的分布与真实数据分布的差异，通过反向传播不断减少该损失，完成非自回归神经机器翻译模型的训练过程；

6)将用户输入的源语句子送入非自回归神经机器翻译模型中，解码出不同长度的翻译结果，并通过自回归神经机器翻译模型的评价选取最优的翻译结果。

步骤1)中构造非自回归神经机器翻译模型，具体为：

102)移除解码器对未来信息屏蔽的矩阵后，非自回归神经机器翻译模型将问题建模为：

103)在每个解码器层中添加额外的多头位置注意力模块，该模块与Transformer模型的其它部分中使用的多头注意力机制相同，位置编码作为query和key，解码器隐层状态作为value；

104)与自回归神经机器翻译模型不同，非自回归神经机器翻译模型需要估计目标长度来并行生成所有词，这里训练一个模型来预测目标句子和源句子之间的长度偏移，长度预测模型P_L接收编码器的隐藏状态，经过线性变换并送入到softmax分类器中来生成最终结果。

步骤2)中构建双语混合预训练模型，具体为：

202)使用单语数据训练双语混合预训练模型，该模型采用编码器解码器框架，根据双语词典将输入句子中的某个片段的连续k个词以一定的概率p随机替换为其目标语中的对应单词；之后通过编码器-注意力-解码器模型自回归的预测生成该被替换的片段，让解码器从编码器端提取信息来帮助连续片段的预测，从而促进编码器-注意力-解码器结构的联合训练。

E_z＝f(E_x；W)＝E_xW

步骤5)对构造的非自回归神经机器翻译模型进行训练，得到该模型；非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失，然后再计算相应的梯度进行参数更新来完成训练过程。

本发明使用目前比较常用的数据集IWSLT14德英口语数据集和WMT14德英数据集来验证所提出方法的有效性，其训练集分别包含16万和450万平行句对。通过byte pairencoder字词切分方式，得到处理后的双语语料训练数据。但由于非自回归神经机器翻译模型很难拟合真实数据中的多峰分布，因此这里采用句子级知识精炼的方式解决该问题，也即，把同样参数配置的自回归神经机器翻译生成的句子作为训练样本，提供给非自回归神经机器翻译进行学习。

如图1所示，首先使用预先训练好的双语混合模型的源语端词嵌入和目标语端词嵌入初始化非自回归机器翻译模型的编码器和解码器，使其获得一个良好的初始状态；然后，将源语言句子“We totally accept it.”送入到非自回归神经机器翻译模型的编码器中，编码器的多头注意力通过获取各个词之间的相关性系数之后送入前馈神经网络来提取源语言句子信息；接着，将源语句子的词嵌入表示经过一个线性变换后作为目标端的词嵌入表示，随后将此表示作为输入送入到解码器。解码器使用提取到的源语言句子信息和该解码器输入依次经过多头自注意力层、多头位置注意力、多头编码解码注意力层、前馈神经网络层再经过一次线性变化后翻译出整个目标语句子“我们完全接受”。

本发明使用机器翻译任务中常用的双语评价指标BLEU作为评价标准。实验结果表明，使用解码器输入增强方法作为非自回归神经机器翻译模型的输入并同时解码9个不同长度的候选翻译，之后再使用自回归神经机器翻译模型评价的方法在IWSLT14德英数据集上损失了百分之13的性能的情况下，获得了15倍的速度提升；在WMT14德英数据集上，获得了12倍的速度提升却只损失了百分之8.2的性能。

本发明将从解码器输入增强角度对非自回归神经机器翻译系统的翻译性能进行优化，旨在实现准确且快速的翻译。通过预训练双语混合模型，将源语和目标语映射到同一表示空间下，使用大量的单语极大的增强了词向量的表达能力。使用预训练模型的词嵌入参数来初始化非自回归神经机器翻译模型，使双语的词嵌入表示在同一语义空间下，极大的缓解了非自回归神经机器翻译模型薄弱的目标端信息的问题，有效的增强了模型的性能。

Claims

1.一种基于解码器输入增强的非自回归神经机器翻译方法，其特征在于包括以下步骤：

2)构建双语混合预训练模型，首先在源语言和目标语言之间使用词汇归纳来获得双语词典，然后将输入句子中的某些单词根据词典替换为其目标语的对应单词；采用编码器解码器框架，将双语混合句子作为编码器的输入，通过解码器来预测编码器中被替换的片段；

3)用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，将源语的词嵌入经过长度转换后作为目标端的输入；

5)对构造的非自回归神经机器翻译模型进行训练，通过该模型中的编码器对源语句子进行编码，提取源语句子信息，再通过解码器根据该信息来预测对应的目标语句子；然后计算预测出的分布与真实数据分布的差异，通过反向传播不断减少该损失，完成非自回归神经机器翻译模型的训练过程；

2.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤1)中构造自回归神经机器翻译模型，具体为：

101)Transformer仅由注意力机制和前馈神经网络组成，在自注意力机制中，查询(Query，Q)，键(Key，K)和值(Value，V)三个矩阵来自相同的表示，首先对三个矩阵分别进行线性变换，然后进行缩放点积操作，即Query与Key进行点积计算，如下述公式所示：

其中，X为源语序列，Y为目标语序列，T为目标语序列长度，T′为源语序列长度，t为目标语的位置，x_1…T′为源语句子，y_t为第t个位置的目标语词；

104)在解码开始之前，使用源语长度对目标语长度进行预估并将预估的目标语长度数据送至非自回归神经机器翻译模型，以便并行生成所有单词。

3.按权利要求2所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤104)中，使用源语长度对目标语长度进行预估并将预估的目标语长度数据为：

训练长度预测模型来预测目标句子和源句子之间的长度偏移；长度预测模型P_L接收编码器的隐藏状态，经过线性变换并送入到softmax分类器中来生成最终结果。

4.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤2)中构建双语混合预训练模型，具体为：

5.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤3)中用预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，具体为：

E_z＝f(E_x；W)＝E_xW

6.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤5)非自回归神经机器翻译的训练过程中，通过该模型中的编码器对源语句子进行编码，提取源语句子信息，再通过解码器根据该信息来预测对应的目标语句子；然后计算预测出的分布与真实数据分布的差异，通过反向传播不断减少该损失，完成非自回归神经机器翻译模型的训练过程。

7.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤6)中，将用户输入的源语句子送入到模型中，通过指定不同的目标语长度来获得多个翻译结果；然后，使用自回归神经机器翻译模型作为这些解码翻译结果的打分函数，进而选择最佳的整体翻译。