CN111353315B

CN111353315B - 一种基于随机残差算法的深层神经机器翻译系统

Info

Publication number: CN111353315B
Application number: CN202010068168.1A
Authority: CN
Inventors: 刘兴宇
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-04-25
Anticipated expiration: 2040-01-21
Also published as: CN111353315A

Abstract

本发明公开一种基于随机残差算法的深层神经机器翻译系统，步骤为：采用基于自注意力机制的Transformer模型，构建深层神经机器翻译系统；对源语和目标语构成的双语平行句对进行分词，构建词表；在编码端，对源语言输入的信息逐层特征提取，每一子层按随机概率进行子层计算或者直接进入下一子层的计算；解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取；对解码端输出结果进行线性变换映射到目标端词表空间，计算损失实现模型训练；用训练好的模型进行翻译，对每个子层中的计算单元结果进行缩放。本发明方法随机跳过编码层中的子层操作，降低了模型产生过拟合现象的风险，增强了模型的性能。

Description

一种基于随机残差算法的深层神经机器翻译系统

技术领域

本发明涉及一种神经机器翻译技术，具体为一种基于随机残差算法的深层神经机器翻译系统。

背景技术

机器翻译(英语：Machine Translation，经常简写为MT)属于计算语言学的范畴，是计算语言学的一个重要分支，具有十分重要的科学研究价值。它是利用计算机将一种语言转换成另一种语言的过程。同时，机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越关键的作用。

机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，一直到现在的神经机器翻译。随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务。

目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器-解码器框架，其中性能最强大的则是基于自注意力机制的Transformer模型结构，在多个语种的上取得了最佳的翻译性能。

Transformer由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器由六层堆叠的编码层组成，解码器同样包括六层解码层。整个模型中抛弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)，完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制，提高了系统的并行能力。同时由于并行计算的处理方式，也缓解了顺序计算中的长期依赖难以处理的现象。

Transformer的编码层包括自注意力层和前馈神经网络组成。自注意力对编码端输出的用稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解码器来说在自注意力层和前馈神经网络层之间增加了一个编码-解码注意力层，来对源语和目标语之间的映射关系进行建模。

同时Transformer在不同子层之间还引入了层正则化和残差连接，将每个子层的输出和输入相加后经过层正则化操作进行放缩后传入下一子层。

科学研究人员发现，增强模型的容量能有效提升模型的性能。目前针对Transformer模型，增强模型容量的方法包括是模型变得更宽，即增加隐藏层维度的大小，Transformer-Big就是使用这种方式来提高模型的性能，或者通过不断堆叠编码器层增加模型的深度来增加模型容量。然而在传统的Transformer模型当中，简单的堆叠编码层会增加梯度消失或爆炸的风险。前人也针对这一现象提出了一些解决方案，最有效的就是将层正则化的位置提前，即在将输入送入子层前进行正则化处理，残差连接将正则化前的输入和子层的输出累加，被称为前作Transformer模型。

但是随着模型深度的增加也带来了一系列的挑战包括梯度消失，前向信息流入减少，以及训练时长增加等同时模型表现力的增强也带来了过拟合的风险。

发明内容

针对现有的深层神经机器翻译系统，容易出现梯度消失，模型过拟合问题严重，训练时间成本高的问题，本发明提出一种基于随机残差算法的深层神经机器翻译系统。

为解决上述技术问题，本发明采用的技术方案包括以下步骤：

本发明一种基于随机残差算法的深层神经机器翻译系统，包括以下步骤：

1)采用基于自注意力机制的Transformer模型，将层正则化的位置提前，在编码端的子层中引入随机残差连接，构建基于前作Transformer的深层神经机器翻译系统；

2)对源语和目标语构成的双语平行句对进行分词，构建词表，同时将其转换为词向量，用词向量与位置编码向量相加得到的向量表示分别作为编码器和解码器的输入；

3)在编码端，对源语言输入的信息进行逐层的特征提取，针对编码层中的每个子层，当信息传递至自身时，按照随机概率跳过该子层的计算，直接进行下一子层的计算；

4)解码器端的每个解码层在接收到层输入后联合编码端的输出进行运算后传递给下一层进行信息的抽取，直到得到顶层的输出；

5)对解码端的输出结果进行线性变换映射到目标端词表空间，使用softmax归一化操作得到目标语的词汇分布，通过计算词汇分布与真实标签数据间的差异来更新模型参数，实现模型的训练过程；

6)用训练好的模型进行翻译，在推理阶段，抛弃编码端子层随机残差机制，使用所有的编码层子层进行信息的抽取，同时对每个子层中的计算单元结果进行缩放。

步骤3)为模型的编码器计算过程，编码器包含多层结构，其中每一层由自注意力网络和前馈神经网络两个子层构成；跳过子层的概率具体为：

根据当前层在编码端中的顺序，第一层的概率为0，即不对编码端的第一层执行随机残差操作，第l层的随机残差概率p＝l*α/L，其中L为编码端的编码层总数，α是模型自定义的超参数，α越大，对于当前模型执行随机残差操作跳过子层的概率越大，同时，编码端的顶层比底层具有更大的执行随机残差操作的概率。

步骤3)中，关于编码层是否跳过子层计算的具体判断步骤为：

301)在训练阶段，当向量传入编码层后，随机生成一个介于0,1之间的随机数；

302)若生成的随机数小于当前层的随机残差概率p，则跳过该子层的运算，继续向下传递；

303)若生成的随机数大于当前层的随机残差概率p，则正常进行子层计算。

所述步骤6)中推理阶段的操作具体方式如下：

y＝x+(1-p)*F(LN(x))

其中，x和y分别为子层的输入和输出，LN为层正则化操作，F为子层计算单元；在进行推理解码时，不使用随机残差机制跳过子层，输入向量逐层向顶层传递，进行信息抽取，对训练时通过随机残差训练得到的各种子网络结构进行聚合，增强模型的性能；同时，对子层中的F函数结果进行缩放，缩放因子为(1-p)，其中p为残差概率。

本发明具有以下有益效果及优点：

1.本发明方法基于前作Transformer模型引入随机残差机制，随机跳过编码层中的子层操作，通过减少冗余计算的方式降低了模型产生过拟合现象的风险，增强了模型的性能。

2.本发明采用随机残差连接跳过子层后，减少了训练时的计算代价，实现了模型训练的加速，能够在更短的时间内训练得到更强大的神经机器翻译模型。

附图说明

图1为训练过程中正常子层计算示意图；

图2为训练过程中跳过子层计算示意图；

图3为推理过程中子层计算示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明为一种基于随机残差算法的深层神经机器翻译系统，具体包括以下步骤：

6)用训练好的模型进行翻译，在推理阶段，抛弃编码端子层随机残差机制，使用所有的编码层子层进行信息的抽取，对每个子层中的计算单元结果进行缩放。

步骤1)用于构建模型结构。本发明采用了基于前作的深层Transformer模型。前作将每个子层中的层正则化放在运算之前，同时使用残差连接将子层输入和运算结果相加后作为子层输出，计算方式如下(如图1所示)：

y＝x+F(LN(x))

其中x和y分别为输入和输出，LN表示层正则化，F表示子层运算单元，对应于Transformer模型中的注意力机制或者前馈神经网络。通过前作的方式，可以使得模型的反向梯度传导更加高效，有效地缓解了深层Transformer的梯度消失和梯度爆炸问题，更易于模型训练和收敛。

在步骤2)中，构造用于模型训练的训练数据，具体步骤如下：

201)获取双语数据，进行数据清洗，得到高质量的双语数据用于翻译模型的训练；

202)分别对双语数据进行分词得到词序列，统计其中的词频，构建对应的词表；

203)按照词表索引将词序列转换成对应的词嵌入表示，同时加上用来引入位置信息的位置编码，得到最终的输入表示。

步骤3)为模型的编码器计算过程，编码器包含多层结构，其中每一层由自注意力网络和前馈神经网络两个子层构成。自注意力网络采用自注意力机制，对子层输入不同位置的表示进行交互，得到包括更多上下文信息的向量表示，其中子层输入在编码器第一层时为步骤203)得到的词向量表示，其余层时为上一子层的输出；前馈神经网络子层引入更多的非线性变换，对步骤301)的输出按位置计算，进行更充分的特征提取。

所述步骤3)中跳过子层的概率具体计算为：

所述步骤3)中，关于编码层是否跳过子层计算的具体判断步骤为：

302)若生成的随机数小于当前层的随机残差概率p，则跳过该子层的运算，继续向下传递(如图2所示)；

303)若生成的随机数大于当前层的随机残差概率p，则正常进行子层计算(如图1所示)。

步骤4)中结合源语的编码表示，对目标语进行特征提取，用来预测下一个词，其中解码器的每一层具体计算步骤如下：

401)首先使用自注意力机制，对子层的输入进行位置之间的特征提取，由于为了和自回归解码方式保持一致，解码器中的自注意力仅参考前向的位置表示，对未来表示进行掩码操作；

402)使用编码-解码注意力网络，引入步骤3)得到的源语编码表示，捕获源语和目标语之间的关系，得到相应的向量表示；

403)将步骤402)的结果按位置送入前馈神经网络，进行词维度的特征提取。

按照解码器的层数依次重复步骤401)到步骤403)的操作，获得最终用于预测的向量表示，其中编码器器第一层的输入为步骤203)得到的目标语词向量表示，其它层输入为之前子层的输出。

步骤5)用来计算模型的损失，计算梯度用于模型参数的更新，完成模型的训练过程，一次计算过程的具体步骤如下：

501)对步骤4)得到的向量表示，将其记性线性变换，得到一个和词表相同维度大小的向量，然后使用softmax函数进行归一化操作，得到词典大小的预测分布；

502)使用交叉熵作为模型的损失函数，计算真实的词分布和预测分布的交叉熵，同时使用标签平滑策略用来抑制过拟合现象；

503)通过步骤502)得到的损失，计算模型参数的梯度，进行反向更新。

使用adam优化器策略对模型进行训练，在校验集损失收敛后得到最终的模型。

所述步骤6)中推理阶段的操作具体如图3所示：

y＝x+(1-p)*F(LN(x))

其中，x和y分别为子层的输入和输出，LN为层正则化操作，F为子层计算单元。

在进行推理解码时，不使用随机残差机制跳过子层，输入向量逐层向顶层传递，进行信息抽取，对训练时通过随机残差训练得到的各种子网络结构进行聚合，增强模型的性能。同时，需要对子层中的F函数结果进行缩放，缩放因子为(1-p)，其中p为残差概率。

以训练一个具有48层编码层的深层神经机器翻译系统为例，采用前作的Transformer模型结构，在编码端的每个编码层子层中引入随机残差机制，设置随机残差概率控制系数α为0.3，在使用8块TITAN V GPU，使用半精度训练方式，本发明所采用的随机残差算法，实现了1.4倍的加速，以BLEU值作为评价指标，在相同的WMT-英德测试集上，48层模型基线的BLEU分数为30.03，本发明采用随机残差的算法，有效解决了深层网络的过拟合问题，实现了性能的提升，BLEU分数达到了30.20。

基于随机残差的深层神经机器翻译模型，在训练时随机对编码层中的子层增加残差连接，对子层进行跳过处理，减少了深层网络当中的冗余计算，有效缓解了深层神经机器翻译系统的过拟合问题，在推理阶段剔除随机残差操作，将训练阶段的得到的子网络结构进行融合，有效提升了模型的性能，同时减少了冗余的操作后也加快了模型的训练速度。

Claims

1.一种基于随机残差算法的深层神经机器翻译系统，其特征在于包括以下步骤：

6)用训练好的模型进行翻译，在推理阶段，抛弃编码端子层随机残差机制，使用所有的编码层子层进行信息的抽取，同时对每个子层中的计算单元结果进行缩放；

前作Transformer是将每个子层中的层正则化放在运算之前，同时使用残差连接将子层输入和运算结果相加后作为子层输出，计算方式如下：

y＝x+F(ＬN(x))

其中x和y分别为输入和输出，LN表示层正则化，F表示子层运算单元，对应于Transformer模型中的注意力机制或者前馈神经网络；

2.按权利要求1所述的基于随机残差算法的深层神经机器翻译系统，其特征在于：步骤3)中，关于编码层是否跳过子层计算的具体判断步骤为：

301)在训练阶段，当向量传入编码层后，随机生成一个介于0，1之间的随机数；

3.按权利要求1所述的基于随机残差算法的深层神经机器翻译系统，其特征在于：所述步骤6)中推理阶段的操作具体方式如下：

y＝x+(1-p)*F(LN(x))