CN111382582B

CN111382582B - 一种基于非自回归的神经机器翻译解码加速方法

Info

Publication number: CN111382582B
Application number: CN202010068170.9A
Authority: CN
Inventors: 杨木润
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-04-07
Anticipated expiration: 2040-01-21
Also published as: CN111382582A

Abstract

本发明公开一种基于非自回归的神经机器翻译解码加速方法，步骤为：采用基于自注意力机制的Transformer模型，构造自回归神经机器翻译模型；构建训练平行语料，生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛；构造非自回归机器翻译模型；获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态；计算其与自回归模型对应输出的差异性，作为额外的损失，用于模型训练；提取源语句子信息，解码器预测对应的目标语句子；计算预测出的分布与真实数据分布的损失，解码出不同长度的翻译结果，进一步得到最优翻译结果。本发明充分利用回归模型中的知识，在损失了较小性能的情况下，能够获得8.6倍的速度提升。

Description

一种基于非自回归的神经机器翻译解码加速方法

技术领域

本发明涉及一种神经机器翻译推断加速方法，具体为基于非自回归的神经机器翻译解码加速方法。

背景技术

机器翻译是将一种自然语言翻译为另一种自然语言的技术。机器翻译是自然语言处理的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。同时，随着互联网技术的飞速发展，机器翻译技术在人们日常的生活工作中起到了越来越重要的作用。

机器翻译技术从上世纪70年代基于规则的方法，到80年代基于实例的方法，90年代基于统计的方法，到如今基于神经网络的方法，历经多年的发展，终于达到了良好的效果，在人们的日常生活中得到了更广泛的使用。

传统的基于规则的机器翻译虽然在短时间内满足了机器翻译的需要，但随着研究的深入，一系列问题也逐渐的暴露出来。例如，人工规则的覆盖度非常有限，规则与语种强相关，必须为每种语言自定义词典及规则，并且随着规则数量增多由人工规则导致的冲突也会增多。随后，统计机器翻译开始兴起，其完全抛弃了对人工规则的依赖，把翻译问题建模为搜索最大概率译文问题，显著加强了系统的鲁棒性和可扩展性。但统计机器翻译也有较明显的缺点，统计机器翻译过度依赖翻译语料，如果待翻译的句子在训练语料中没有相似的资料文本，得出的译文质量很差，而且由于在统计机器翻译过程中得不到上下文信息，译文质量无法得到保证。

为了进一步提升模型的表示能力，从2013年开始，研究人员开始尝试一种全新的机器翻译方法，即基于神经网络的机器翻译，这种基于神经网络的机器翻译方法采取了神经元网络直接对翻译问题进行建模，完全抛弃了人工书写规则以及设计翻译特征的翻译模式，整个翻译过程都在一种端到端的模型框架下完成，神经机器翻译训练的是一个序列到序列映射的神经网络，这个网络的输出可以是一个变长序列。神经机器翻译相较于传统的统计机器翻译是一种简单的新架构，用于将文本从一种语言翻译为另一种语言，神经机器翻译现如今已取得了显著的性能，显著的提高了机器翻译的流畅行和充分性。相比传统的基于统计的机器翻译，神经机器翻译通过神经网络对机器翻译进行建模，通过端到端的方式进行学习，不需要进行人工设计特征，不仅提高了翻译品质，而且提高了模型的效率。

基于神经网络的机器翻译系统在性能上相较之前备受瞩目的基于统计的翻译系统而言，在性能上已经得到了十足的进步。但由于神经网络涉及大量的矩阵运算，因此在训练以及解码上相对之前的方法会更加耗时。对于这两方面的耗时，在实际中往往对于解码的时间消耗更为看重。为使得神经机器翻译系统能够在实际中被应用起来，必须要求系统在解码的过程中具有较高的响应速度，否则面对难以接受的延迟，即使翻译系统具有更为优秀的性能，在很多场景下用户也很难接受。

目前大多数机器翻译模型都使用了编码器-解码器框架来实现，编码器将源语句的表示送入到解码器来生成目标句子；解码器通常以自回归的方式来工作，从左到右逐字地生成目标句子，第t个目标词的生成依赖于先前生成的t-1个目标词。这种自回归的解码方式符合阅读和生成句子时的习惯，能有效地捕捉到真实翻译的分布情况。它在机器翻译等任务上取得了较好的性能，并且波束搜索也能够为寻找近似最优译文提供了一种有效的局部搜索方法。但是也有其自身的缺点，主要表现在以下两个方面：

首先，自回归模型存在错误传播的问题。自回归模型一旦在在前面产生错误，将会传递到后面的位置，从而使后面生成的词不准确，这也是大多数模型在长句子的翻译中表现差的原因之一。另外，解码器的每个步骤必须顺序地而不是并行地运行，因此自回归解码会阻止像Transformer这样的体系结构在推理过程中充分体现其训练时的性能优势。

针对上面的问题，可以通过打破生成时的串行顺序，使模型一次能够解码出整个目标句子，从而解决自回归模型所带来的问题，这便是非自回归模型。现阶段，越来越多的研究人员已经逐渐意识到解码速度过慢所带来的一系列应用难题，但大多数方法还是基于自回归模型，无法解决自回归模型的错误传播的问题。

发明内容

针对神经机器翻译模型在推断时错误传播和实际使用中解码速度很难满足实时响应需求等问题，本发明要解决的技术问题是提供一种基于非自回归的神经机器翻译解码加速方法，能够使得规模庞大的神经机器翻译模型能够具有较高的响应速度以及更好实际应用，与此同时模型的翻译品质仍能得到保证。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于非自回归的神经机器翻译解码加速方法，包括以下步骤：

1)采用基于自注意力机制的Transformer模型，构造一个包含编码器解码器的自回归神经机器翻译模型；

2)构建训练平行语料，进行分词和字词切分预处理流程，得到源语序列和目标语序列，生成机器翻译词表后训练从左到右和从右到左两个模型直到收敛；

3)移除Transformer中解码端对未来信息屏蔽的矩阵，同时在自注意力和编码解码注意力之间加入多头位置注意力，构造非自回归机器翻译模型；

4)使用层级知识精炼的方法，通过强制解码的方式逐层获得从左到右和从右到左两个自回归翻译模型的编码解码器注意力和隐层状态，并融合这些输出；逐层计算其与自回归模型对应输出的差异性，将其作为额外的损失，用于模型训练；

5)使用平行语料训练加入正则化项后的非自回归机器翻译模型，编码器对源语句子进行编码，提取源语句子信息，解码器根据该信息来预测对应的目标语句子；然后计算预测出的分布与真实数据分布的损失，通过反向传播不断减少该损失，完成模型的训练过程；

6)将用户输入的源语句子送入机器翻译模型中，解码出不同长度的翻译结果，并通过自回归模型的评价来得到最优的翻译结果。

步骤3)中构造非自回归机器翻译模型，具体为：

301)移除解码端对未来信息屏蔽的矩阵后，非自回归机器翻译模型将问题建模为：

其中，X为源语序列，Y为目标语序列，T为目标语序列长度，T′为源语序列长度，x_t为第t个位置的源语词，y_t为第t个位置的目标语词；

302)在每个解码器层中添加额外的多头位置注意力模块，该模块与Transformer模型的其它部分中使用的多头注意力机制相同，即：

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数；

303)在解码开始之前，将源语的词嵌入作为目标端的输入。

步骤4)中使用层级知识精炼的方法为非自回归模型添加额外的训练损失，具体为：

401)利用从左到右和从右到左的翻译模型分别对预处理后的平行预料进行强制解码，获取编码解码注意力以及隐层状态；通过一个门控单元融合两者的信息，具体为：

其中，H_l2r是自左到右模型的输出，H_r2l为自右到左模型的输出，g是一个门控单元，g的计算方式为：

g＝σ(W₁H+W₂E+b)

其中，W₁、W₂和b为三个不同的可学习参数，σ是sigmoid函数，将计算结果缩放到(0，1)之间，通过对两个自回归模型提取的特征进行加权求和，来增强模型的表示，提供更丰富的信息；

402)选取评价差异性指标，采用KL散度来衡量，其计算方式为：

其中，P(x)，Q(x)是随机变量X上的两个分布，KL(.)用来计算两个分布的KL散度。

403)计算自回归模型和非自回归模型输出的KL散度KL(H_AT||H_NAT)，将其作为损失添加到训练过程。

步骤5)非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失和KL散度损失，然后再计算相应的梯度进行参数更新来完成训练过程。

步骤6)中，将用户输入的源语句子送入到模型中，通过指定不同的目标语长度来获得多个翻译结果；然后，使用自回归模型作为这些解码翻译结果的打分函数，进而选择最佳的整体翻译。

本发明具有以下有益效果及优点：

1.本发明提出了基于非自回归的神经机器翻译解码加速方法，通过将自回归模型的输出作为非自回归模型的监督信号，可以使其逐块的学习前者的分布。将监督信号作为训练期间的损失，并不会减慢非模型的推理速度。同时，由于模型输出的分布比较确定，因此可以在一定程度上缓解非自回归模型的多峰问题，即一词多义问题。

2.本发明方法引入了一个从右到左模型，使得非自回归模型不仅仅只利用从左到右的单向信息，同时能够考虑到目标端上下文的未来信息，可以增强模型的性能。

附图说明

图1为本发明中非自回归神经机器翻译模型图示；

图2为本发明中融合从左到右和从右到左的自回归模型的表示提供给非自回归模型作为监督信号图示；

图3为本发明中传统Transformer中编码层和解码层的结构示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明将从非自回归解码角度对基于注意力机制的神经机器翻译系统推理速度进行优化，旨在大幅度提升机器翻译系统的解码速度的同时，只损失较小的模型性能。

本发明提出了一种基于非自回归的神经机器翻译解码加速方法，包括以下步骤：

步骤1)中，Transformer仅由注意力机制和前馈神经网络组成，如图3所示。Transformer仍是基于编码器-解码器框架，通过堆叠多个相同的栈，分别组成了编码器和解码器，编码器和解码器的子层结构略有不同。Transformer在机器翻译任务的多个数据集上均实现了显著的性能提高，并达到了当时的最好性能，而且具备更快的训练速度。注意力机制是神经机器翻译模型中重要的组成部分。在最初的编码器-解码器框架中，由于上述原因导致神经网络难以学习到源端和目标端的对应信息，翻译系统对输入较长的句子的翻译效果较差。在自注意力机制中，查询(Query，Q)，键(Key，K)和值(Value，V)来自相同的内容，首先对三个矩阵分别进行线性变换，然后进行缩放点积操作，即计算Query与Key进行点积计算，为了防止计算结果过大，会除以Key的维度

来达到调节作用，如下述公式所示：

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数。

步骤2)中，从左到右和从右到左模型的区别在于，前者的单向解码只是基于先前的历史信息来生成当前位置的字符，并未利用目标端上下文的未来信息。而由于后者的目标语料的顺序与前者是相反的，则能够考虑到额外的上下文信息。

步骤3)中构造非自回归机器翻译模型，如图1所示，其由三个模组成：编码器，解码器和用于解码过程的的翻译预测器，通过以下步骤来构建：

301)与自回归神经机器翻译类似，编码器和解码器都完全由前馈神经网络和多头注意力模块组成。没有输出分布的自回归因式的约束，不再需要阻止较早的解码时间步访问来自较晚时间步的信息，从而避免了传统Transformer解码器的自注意模块中使用的屏蔽未来信息矩阵。取而代之的是，屏蔽掉了每个Query位置为了不去关注它本身，这里将翻译问题建模为：

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数；在这里，位置编码作为query和key，解码器隐层状态作为value；

303)在解码开始之前，非自回归模型需要知道目标句子的长度，以便并行生成所有单词。但是我们不能使用目标输出(在训练期间)或先前预测的输出(在推理期间)作为第一个解码器层的输入，因此需要将源语的词嵌入作为目标端的输入。

步骤4)中使用层级知识精炼的方法为非自回归模型添加额外的训练损失，如图2所示，具体为：

g＝σ(W₁H+W₂E+b)

402)选取评价差异性指标，采用KL散度(Kullback-Leibler divergence)来衡量，其计算方式为：

步骤5)中非自回归神经机器翻译的训练过程需要将平行语料送入模型计算交叉熵损失和KL散度损失，然后再计算相应的梯度进行参数更新来完成训练过程。

步骤6)中，将用户输入的源语句子送入到模型中，通过指定不同的目标语长度来获得多个翻译结果；然后，使用自回归模型作为这些解码翻译结果的打分函数，进而选择最佳的整体翻译；由于所有翻译样本都可以完全独立地计算和打分，因此与计算单个翻译相比，如果有足够的并行性，则该过程只会增加一倍的时间。

本发明使用目前比较常用的数据集IWSLT14德英口语数据集和WMT14英德数据集来验证所提出方法的有效性，其训练集分别包含16万和450万平行句对。通过byte pairencoder字词切分方式，得到处理后的双语语料训练数据。但由于非自回归模型很难拟合真实数据中的多峰分布，因此这里采用句子级知识精炼的方式解决该问题。也即，把同样参数配置的自回归神经机器翻译生成的句子作为训练样本，提供给非自回归机器翻译进行学习。

本发明使用机器翻译任务中常用的双语评价指标BLEU作为评价标准。实验结果表明，仅添加从左到右模型的层级知识精炼方式并同时解码9个不同长度的候选翻译，之后再使用自回归模型评价的方法在IWSLT14德英数据集上损失了百分之13的性能的情况下，获得了8.6倍的速度提升；在WMT14英德数据集上，获得了8.6倍的速度提升却只损失了百分之5.5的性能；融合了从右到左的自回归模型后，在IWSLT14德英数据集上损失了百分之6.4的性能，在WMT14英德数据集上损失了百分之4.3的性能，速度却几乎没有下降。

本发明从非自回归解码角度对基于注意力机制的神经机器翻译系统推理速度进行优化，旨在大幅度提升机器翻译系统的解码速度的同时，只损失较小的模型性能。通过将自回归模型的输出作为非自回归模型的监督信号并将其作为训练期间的损失，并不会减慢非模型的推理速度。引入的从右到左模型使得非自回归模型不仅仅只利用单向的历史信息，同时能够考虑到目标端上下文的未来信息，有效的增强了模型的性能。

Claims

1.一种基于非自回归的神经机器翻译解码加速方法，其特征在于包括以下步骤：

6)将用户输入的源语句子送入机器翻译模型中，解码出不同长度的翻译结果，并通过自回归模型的评价来得到最优的翻译结果；

步骤3)中构造非自回归机器翻译模型，具体为：

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数，为键矩阵K的维度；

303)在解码开始之前，将源语的词嵌入作为目标端的输入；

g＝σ(W₁H+W₂E+b)

其中，P(x)，Q(x)是随机变量X上的两个分布，KL(.)用来计算两个分布的KL散度；

2.按权利要求1所述的基于非自回归的神经机器翻译解码加速方法，其特征在于：步骤5)非自回归神经机器翻译的训练过程中将平行语料送入模型计算交叉熵损失和KL散度损失，然后再计算相应的梯度进行参数更新来完成训练过程。

3.按权利要求1所述的基于非自回归的神经机器翻译解码加速方法，其特征在于：步骤6)中，将用户输入的源语句子送入到模型中，通过指定不同的目标语长度来获得多个翻译结果；然后，使用自回归模型作为这些解码翻译结果的打分函数，进而选择最佳的整体翻译。