CN111178093B

CN111178093B - 一种基于堆叠算法的神经机器翻译系统训练加速方法

Info

Publication number: CN111178093B
Application number: CN201911323604.9A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-08-04
Anticipated expiration: 2039-12-20
Also published as: CN111178093A

Abstract

本发明公开一种基于堆叠算法的深层神经机器翻译系统的训练加速方法，步骤为：构造包含1个编码块的编码端和解码端和前作Transformer模型；将用稠密向量表示的句子输入编码端和解码端，并将编码端的输入写入记忆网络；每完成一个编码块的运算后将输出的向量写入记忆网络，访问记忆网络进行线性聚合后得到当前编码块的输出；训练当前的模型；拷贝顶层的编码块参数构造新的编码块并堆叠在当前的编码端之上，构造一个包含2个编码块的模型；重复此过程构造具有更深编码端的神经机器翻译系统训练至目标层数直到收敛；利用训练完的模型进行翻译。本发明方法可以训练具有48层编码层的网络，并取得1.4倍的加速比的同时提升了模型的性能。

Description

一种基于堆叠算法的神经机器翻译系统训练加速方法

技术领域

本发明涉及一种神经机器翻译技术，具体为基于堆叠算法的神经机器翻译系统训练加速方法。

背景技术

机器翻译(英语：Machine Translation，经常简写为MT)属于计算语言学的范畴，是计算语言学的一个重要分支，具有十分重要的科学研究价值。它是利用计算机将一种语言转换成另一种语言的过程。同时，机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越关键的作用。

机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，一直到现在的神经机器翻译。随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务。

目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架，其中性能最强大的则是基于自注意力机制的Transformer模型结构，在多个语种的上取得了最佳的翻译性能。

Transformer由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器如图3所示由六层堆叠的编码层组成，解码器同样包括六层解码层。整个模型中抛弃了传统的RNN和CNN，完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制，提高了系统的并行能力。同时由于并行计算的处理方式，也缓解了顺序计算中的长期依赖难以处理的现象。

Transformer的编码层包括自注意力层和前馈神经网络组成。自注意力对编码端输出的用稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层，来对源语和目标语之间的映射关系进行建模。

同时Transformer在不同子层之间还引入了层正则化和残差连接，将每个子层的输出和输入相加后经过层正则化操作进行放缩后传入下一子层。

科学研究人员发现，增强模型的容量能有效提升模型的性能。目前针对Transformer模型，增强模型容量的方法包括是模型变得更宽，即增加隐层的大小，Transformer-Big就是使用这种方式来提高模型的性能，或者通过不断堆叠编码器层增加模型的深度来增加模型容量。然而在传统的Transformer模型当中，如图3所示，简单的堆叠编码层会增加梯度消失或爆炸的风险。前人也针对这一现象提出了一些解决方案，最有效的就是将层正则化的位置提前，即在将输入送入子层前进行正则化处理，残差连接将正则化前的输入和子层的输出累加，被称为前作Transformer模型。

但是随着模型深度的增加带来了参数量的增长和优化难度的增加。同时对设备的要求也越来越高。训练一个深层网络往往需要大量的时间。所以如何提高训练一个深层神经机器翻译模型效率，压缩训练的时间成为要解决的问题。

发明内容

针对现有深层神经机器翻译系统训练对设备要求高，训练时间长以及收敛速度慢等不足，本发明要解决的技术问题是提供一种基于堆叠算法的神经机器翻译系统训练加速方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于堆叠算法的深层神经机器翻译系统的训练加速方法，其特征在于包括以下步骤：

1)基于自注意力机制的Transformer模型，构造包含一个编码块的编码端和解码端，并引入记忆网络以存储编码器端不同块的输出，构造基于动态线性聚合的前作Transformer模型；

2)对源语和目标语构成的双语平行句对进行分词，得到源语序列和目标语序列，并转换成计算机能识别的稠密向量；

3)将用稠密向量表示的句子输入编码端和解码端，并将编码端的稠密向量写入基于动态线性聚合的前作Transformer模型的记忆网络中；

4)编码端每完成一个编码块的计算后将当前编码块的输出写入记忆网络；

5)在写入记忆网络后访问记忆网络，基于常微分方程的线性多步方法对记忆网络中存储的稠密向量和所有编码块输出的语义向量进行聚合，得到一个融合当前所有编码块输出特征的隐层表示，该隐层表示经过层正则化操作获得一个服从标准正态分布的语义向量作为下一编码块的输入，完成所有编码块网络的计算后，获得编码端的输出结果；

6)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层，直到得到顶层的输出，对解码端的输出结果进行线性变换映射到目标端词表空间，使用softmax归一化操作得到目标语的词汇分布，通过计算词汇分布与真实标签数据间的差异来更新模型参数，训练当前的基于动态块输出融合的前作Transformer模型；

7)对当前的包含n个编码块的模型中编码端参数进行复用，取最顶层的一个编码块，将当前块的参数复制后构造一个新的编码块，将新的解码块堆叠至当前的编码端上，构造一个包含n+1和编码块的编码器的模型；

8)重复上述步骤3)-7)进行堆叠，逐步构造具有更深编码端的神经机器翻译系统训练至目标层数直到收敛，完成模型的训练；

9)利用训练完的模型进行翻译。

所述步骤4)中编码块的计算具体为：

401)在每个编码块中每个编码层对输入进行层正则化操作得到服从标准正态分布的输出后，再输入至自注意力网络，对不同词间的语义联系进行抽取；

402)将自注意力网络正则化前的输入和输出进行残差连接后，将输出向量传递至前馈神经网络；

403)将输出向量送入下一个前馈神经网络子层，并经过与之前同样的正则化操作和残差连接得到前馈神经网络子层的输出，作为当前编码层的输出。

所述步骤5)中对记忆网络中存储的稠密向量和前面所有堆叠块的语义向量进行聚合，得到一个融合各个编码块特征的隐层表示，具体为：

501)将每个编码块的输出向量存入记忆网络，在下一个编码块输入时对记忆网络中存储的所有向量进行加权和，定义一个大小为N*N的权重矩阵W，矩阵中每一行的数值代表每个编码块在计算下一块输入的贡献度；

权重矩阵初始状态为一个下三角矩阵，矩阵的的每一行根据当前需要加权和的向量个数进行平均，表示如下：

其中N为记忆网络的容量；

502)伴随神经网络的训练，神经网络通过反向传播算法更新网络中的参数动态调整权值矩阵W中每一行不同位置权重的大小。

所述步骤7)中参数复用具体为：

对当前堆叠n次的Transformer模型进行训练后，得到具有m×n层编码层(m为编码块中所包含的编码层个数)和6层解码层的Transformer模型，将当前模型中编码器端最顶层的一个编码块的参数复制后构造一个新的包含m层编码层的编码块，同时将当前的块堆叠在已经适当训练的Transformer的编码端之上，即堆叠n+1次，编码端的编码层个数为m×(n+1)，将进行动态块输出融合的矩阵进行维度增加一维，采用平均的方式进行初始化。

本发明具有以下有益效果及优点：

1.本发明方法基于Transformer模型通过堆叠的方法可以在更短的时间内训练得到一个深层神经机器翻译系统，同时由于堆叠的方法在前期训练一个浅层的模型能够使用更大的批次优化更少的参数，在整个训练过程中进行加速。

2.本发明为了增强堆叠算法的鲁棒性，缓解堆叠过程中解码端接收信息不一致的问题引入了动态块融合的方法，提升了堆叠模型的性能，使训练过程变得更稳定。

附图说明

图1为深层神经机器翻译系统的堆叠算法示意图；

图2为动态编码块融合的示意图；

图3为传统Transformer中编码层和解码层的结构示意图。

具体实施方式

本发明一种基于堆叠算法的深层神经机器翻译系统的训练加速方法，包括以下步骤：

5)在当前编码块输出结果后访问记忆网络，基于常微分方程的线性多步方法对记忆网络中存储的稠密向量和前面所有编码块输出的语义向量进行聚合，得到一个融合各层特征的隐层表示，该隐层表示经过层正则化操作获得一个服从标准正态的语义向量作为下一编码块的输入，完成所有编码块网络的计算后，获得编码端的输出结果；

6)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层，直到得到顶层的输出，对解码端的输出结果进行线性变换映射到目标端词表空间，使用softmax归一化操作得到目标语的词汇分布，通过计算词汇分布与真实标签数据间的差异来更新模型参数，适当训练当前的基于动态块输出融合的前作Transformer模型；

9)利用训练完的模型进行翻译。

训练一个深层神经网络没有必要再开始就构建一个深层模型，而是可以从浅层逐步开始训练，当得到一个较为合理的参数状态时进行参数复用，堆叠编码层从而逐渐构造一个深层的神经机器翻译模型。同时为了解决在不断堆叠的过程中解码端接收的信息变化，增强解码端的适应性。本发明中，同时引入了记忆网络对每个堆叠块的输出进行线性聚合。

如图1所示，步骤1)中基于如图3所示的传统的Transformer模型，将层正则化的位置置于子层输入之前构造前作Transformer模型，并将编码端按每m层(本实施例中m＝6，即一个编码块包括6个编码层)划分为一个个编码块，同时引入记忆网络用于动态块输出融合。

图2所示是本发明采用的记忆网络用于动态的编码块输出融合，是一种常微分方程中的线性多步的思想，对记忆网络中存储的每个堆叠块的信息进行线性聚合后得到一个新的稠密向量，将它作为下一个堆叠块的输入，每个块内的编码层的输入则采用上一个层的输出。通过这种方法解决了堆叠过程中解码端接受信息不一致的问题，同时增加了堆叠训练时的鲁棒性。

步骤2)中，对源语和目标语端的句对进行分次后得到源语和目标语的单词序列，将每个单词转换为计算机可以识别的向量，便可以将句对转换为稠密向量送入编码端和解码端。同时将源语的稠密向量存入记忆网络中。

训练所使用的双语句对必须是平行语料，源语和目标语一一对应。

具体稠密向量的构造方式为：

对源语和目标语分次后分别统计得到源语和目标语的词典，并对其在各自语言中出现的次数进行统计后过滤低频词汇，对剩下的词汇根据出现频率高低进行排序，并分配各自的索引。并将所有的词转换为one-hot向量，如“我”的索引为2，则将篮球转换为one-hot向量[0.0.1.0…0],维度为词典大小。之后，通过词嵌入的方式将one-hot向量转换为唯一识别的词向量，网络最初构建时通常采用随机初始化的方式，并在训练的过程中不断更新。

由于Transformer的并行机制，不包括语句的顺序信息，所以需要额外引入位置向量标注序列之间的顺序关系。将位置向量与生成的句子表示相加得到最终的源语和目标语的稠密向量

步骤3)将源语序列和目标语序列的稠密向量送入编码端和解码端，同时将源语句的稠密向量存入记忆网络，进行特征提取。

步骤4)编码端每完成一个编码块的计算后将当前编码块的输出写入记忆网络，编码块的计算具体为：

步骤5)中对记忆网络中存储的稠密向量和前面所有叠层的语义向量进行聚合，得到一个融合各层特征的隐层表示，具体为：

501)将每个编码块的输出向量存入记忆网络，在下一个编码块输入时对记忆网络中存储的所有当前块之前所有块的输出进行加权和，定义一个大小为N*N的权重矩阵W，矩阵中每一行的数值代表每个编码块在计算下一块输入的贡献度；

权重矩阵初始状态为一个下三角矩阵，矩阵的的每一行根据当前需要加权和向量的个数进行平均，表示如下：

其中N为记忆网络的容量；

502)在进行第n个堆叠块的输入时，我们使用权重矩阵的第n行对前n个堆叠块输出进行加权和后输入下一个堆叠块，伴随神经网络的训练，神经网络通过反向传播算法更新网络中的参数动态调整权值矩阵W中每一行不同位置权重的大小。

具体操作如图2所示。

步骤6)解码端基于目标语输出的稠密向量和编码端的输出进行特征提取后得到编码端的输出，在经过线性变换为映射到目标端词典大小，在使用softmax进行归一化的操作后得到目标语次点的词汇分布，通过计算预测出的词汇分布与真实分布的差异得到模型的损失来进行模型参数更新，完成当前堆叠的模型的训练。

解码层的具体计算过程如下：

在解码层的输入经过层正则化后得到服从标准正太分布的向量后输入自注意力层进行语义信息的抽取，然后经过残差连接将正则化前的输入和自注意力网络层的输出相加后得到当前子层的输出，与编码层不同的是解码层多了编码-解码注意力机制，编码-解码注意力层接受上一子层的输入和编码端的输出，进行源语和目标语的信息抽取，经过同样的层正则化和残差连接后送入前馈神经网络进行与编码层同样的操作。

步骤7)中本实施例设定每个编码端堆叠块包含6层编码层，在完成n次堆叠后可以得到一个具有6×n层编码层的神经机器翻译系统，在对当前模型进行适当训练后可以得到6×n层的编码层参数，对最顶层的编码块参数进行复用，复制第n个编码块参数构造第n+1个编码块，并将新构造的编码块堆叠在当前的编码器之上，构造一个具有6×(n+1)编码层的神经机器翻译系统，具体的实现过程为：

读取当前已经适当训练的模型的检查点，取出当前检查点中保存的编码端最顶层一个编码块即顶层六层相关的参数取出复制后构造出新的一个编码块的参数，并写入检查点中，然后根据堆叠后的模型结构构造出新的模型后读入检查点中的参数，同时由于新的编码块的加入，需要重新构造权重矩阵W，将矩阵扩充一维，对扩充的一维初始化为1/(n+1)。

步骤8：不断重复上述步骤3-7不断地进行堆叠逐步构造就有更深编码端的神经机器翻译系统训练至目标层数并收敛后完成模型的训练

步骤9：利用训练完的模型进行翻译。

训练一个深层神经网络没有必要再开始就构建一个深层模型，而是可以从浅层逐步开始训练，当得到一个较为合理的参数状态时进行参数复用，堆叠编码层从而逐渐构造一个深层的神经机器翻译模型。同时为了解决在不断堆叠的过程中解码端接收的信息变化，增强解码端的适应性。本发明方法采用了基于堆叠算法的深层神经机器翻译系统训练加速方法，同时引入了记忆网络对每个堆叠块的输出进行线性聚合；

以训练一个具有6×8层编码层的深层神经机器翻译系统为例，首先构建一个6层编码层，6层解码层的前作Transformer模型，设定编码块的大小为6，同时引入记忆网络，存储句子的稠密向量表示和编码块的输出。编码端对记忆网络中的向量线性聚合后输出下一个编码块或解码端，对当前的6层神经网络进行两轮训练后，读取最后一个检查点，拷贝顶层六层编码层的参数，即最上面一个编码块，构造一个新的编码块，将其堆叠在编码端之上，并对记忆网络中的权重矩阵进行维度扩充后，得到一个具有12层编码层，6层解码层的前做Transformer模型并训练两轮，不断地重复训拷贝参数和适当训练的过程，逐渐的增加编码端的层数，而解码端始终维持为6层。最终经过8次堆叠，21轮训练之后，便可以得到一个具有48层编码层，6层解码层的深层神经机器翻译模型。在具有450万数据的wmt-英德数据集上，正常使用前做的方式训练一个48层的深层神经机器翻译系统需要的时间为19.58小时，而使用堆叠式的训练方式则只需要11.75小时便可以完成训练，实现了1.4倍的加速比。同时在性能方面，以Bleu值作为评价指标，在相同的wmt-英德测试集上，直接训练的方式的Bleu分数为30.03，而堆叠训练的方式则在没有损失性能的情况下得到了性能的提升，Bleu分数达到了30.21。

基于Transformer模型通过堆叠的方法可以在更短的时间内训练得到一个深层神经机器翻译系统，同时由于堆叠的方法在前期训练一个浅层的模型能够使用更大的批次优化更少的参数，实现了整个训练过程的加速。同时，本发明为了增强堆叠算法的鲁棒性，缓解堆叠过程中解码端接收信息不一致的问题引入了动态块融合的方法，提升了堆叠模型的性能，使训练过程变得更稳定。

Claims

1.一种基于堆叠算法的深层神经机器翻译系统的训练加速方法，其特征在于包括以下步骤：

9)利用训练完的模型进行翻译；

所述步骤7)中参数复用具体为：

对当前堆叠n次的Transformer模型进行训练后，得到具有m×n层编码层和6层解码层的Transformer模型，将当前模型中编码器端最顶层的一个编码块的参数复制后构造一个新的包含m层编码层的编码块，同时将当前的块堆叠在已经适当训练的Transformer的编码端之上，即堆叠n+1次，编码端的编码层个数为m×(n+1)，将进行动态块输出融合的矩阵进行维度增加一维，采用平均的方式进行初始化，其中m为编码块中所包含的编码层个数；

读取当前已经适当训练的模型的检查点，取出当前检查点中保存的编码端最顶层一个编码块即顶层m层相关的参数取出复制后构造出新的一个编码块的参数，并写入检查点中；然后根据堆叠后的模型结构构造出新的模型后读入检查点中的参数；重新构造权重矩阵W，将矩阵扩充一维，对扩充的一维初始化为1/(n+1)。

2.根据权利要求1所述的基于堆叠算法的深层神经机器翻译系统的训练加速方法，其特征在于，所述步骤4)中编码块的计算具体为：

3.如权利要求1所述的基于堆叠算法的深层神经机器翻译系统的训练加速方法，其特征在于，所述步骤5)中对记忆网络中存储的稠密向量和前面所有堆叠块的语义向量进行聚合，得到一个融合各个编码块特征的隐层表示，具体为：

其中N为记忆网络的容量；