CN113051938A

CN113051938A - 一种基于Transformer模型的机器翻译模型优化方法

Info

Publication number: CN113051938A
Application number: CN202110361317.8A
Authority: CN
Inventors: 孙亚楠; 冯犇; 吴杰; 李思毅
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-29
Anticipated expiration: 2041-04-02
Also published as: CN113051938B

Abstract

本发明公开了一种基于Transformer模型的机器翻译模型优化方法，通过设计变长编码和候选块让Transformer个体具有不同的结构和参数，为词向量的学习提供多种候选模型；而后设计了交叉变异策略让Transformer个体能够进行信息交流，让处理词向量的优秀结构或参数可以遗传给下一代；之后设计了环境选择策略产生下一代Transformer个体，淘汰学习词向量效果相对较差的模型，保留学习词向量效果较为优秀的模型；之后不断迭代演化搜索找到学习词向量效果最优的Transformer模型，用于最终解决机器翻译任务，使得Transformer模型能够更好的学习机器翻译任务中的词向量表达，提高机器翻译任务的精度。

Description

一种基于Transformer模型的机器翻译模型优化方法

技术领域

本发明涉及演化计算领域，具体涉及一种基于Transformer模型的机器翻译模型优化方法。

背景技术

Transformer是由谷歌再2017年提出的用于解决机器翻译任务的一种序列到序列，在Transformer提出之前，机器翻译模型可以分为两类：基于回馈式神经网络的模型或者基于卷积的序列回归模型。基于回馈式神经网络的模型大多由RNN或LSTM结构组成,模型中每一层中的输入都依赖于前一层的输出状态，这种顺序计算约束导致基于回馈式神经网络的模型在训练和预测过程中都需要耗费大量的时间和计算资源；基于卷积的网络模型由多层卷积神经网络构成，这种模型在计算长距离信息的关系时卷积操作数会迅速增长，例如在ByteNet中是指数级增长。

Transformer利用多头注意力机制(MHA)和前馈式神经网络(FFN)解决了上述两个模型的缺点，可以通过更少的计算资源学习机器翻译中的词向量，获取更高的翻译精度。虽然Transformer模型已经在机器翻译中取得了很好地效果，但是其仍存在几点问题：1.具有不同网络层数的Transformer模型中MHA层和FFN层的排列模式是固定的，已有研究表明Transformer不同的层排列模式在其他自然语言处理任务上拥有比基础Transformer模型更好的性能。2.Transformer模型每个层都拥有相同的参数。当使用Transformer执行机器翻译任务时，编码器的较低层倾向于从词向量中学习更多的语法知识，而较高的层则倾向于从词向量中学习更多的语义。每个层设置成同样的参数去学习不同角度的信息不符合神经网络设计的一般准则。3.Transformer模型的层数和超参数都是通过专家结合领域知识进行设置，如果非专业人员想要使用Transformer模型解决机器翻译任务时很难独立设计一个符合预期的模型。

针对上述问题，本方案设计了使用演化策略自动搜索Transformer模型参数和结构的方案，让Transformer模型能够更好的学习机器翻译任务中的词向量表达，提高机器翻译任务的精度。在机器翻译任务中，本方案构造的Transformer模型超过了现有的标准Transformer的性能。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于Transformer模型的机器翻译模型优化方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于Transformer模型的机器翻译模型优化方法，包括如下步骤：

S1、初始化具有多个不同结构和参数的Transformer模型的种群作为父代模型种群；

S2、利用BLEU算法计算所述父代模型种群中的每个Transformer模型词向量学习能力评估指标；

S3、根据步骤S2的词向量学习能力评估指标大小从父代模型种群中选择父代个体，并使用交叉变异算子生成子代个体种群，同时利用BLEU算法计算子代个体种群中每个模型的词向量学习能力评估指标；

S4、对所述父代个体和子代个体进行环境选择生成新的模型种群，并根据所述步骤S2和步骤S3进行多轮迭代进化，直至满足迭代终止条件；

S5、选择最后一代中的最优个体进行机器翻译任务。

上述方案的有益效果是，本方案构造的Transformer模型具有不同的层排列模式，使得Transformer的处理词向量的结构发生了变化，经过实验表明该种排列方式提高了Transformer模型处理机器翻译任务的精度，Transformer模型每一层都具有适宜的超参数，而非像其他Transformer模型一样每层具有相同的超参数，这使Transformer的每层结构能够从词向量中更好地学习到语法和语义信息,提高机器翻译任务中的精度，Transformer模型中结构和参数都是又演化算法自动确定的，普通用户使用本方案可以不依赖专家的经验,为其特定的翻译任务构造适宜的Transformer模型。

进一步的，所述步骤S1具体包括：

S11、在随机范围内分别随机选择多个所述Transformer模型中编码器和解码器中的候选块；

S12、依次随机选择所述步骤S11中编码器的一个候选块，并按照所选择的候选块的顺序连接形成新的编码器，其中每个候选块中的参数均为随机生成；

S13、依次随机选择所述步骤S11中解码器的一个候选块，并按照所选择的候选快的顺序连接形成新的解码器，其中每个候选块中的参数均为随机生成；

S14、将步骤S12中所形成的新的编码器及步骤S13中所形成的新的解码器按照Transformer模型构架的方式重新连接形成新的Transformer模型；

S15、重复步骤S11-14形成具有多个不同结构和参数的Transformer模型的种群。

上述进一步方案的有益效果是，最终形成的Transformer模型的候选块排列以及候选块参数均为随机生成，为后续搜索过程提供了多样化的搜索空间。

进一步的，所述步骤S2具体为：

S21、获取通过步骤S15所形成的多个Transformer模型的预测译文以及与之对应的参考译文；

S22、将每个Transformer模型所生成的预测译文中多个单词进行组合形成多个预测元组，并将参考译文中多个单词进行组合形成多个参考元组，所述预测元组中所选择的单词数量与所述参考元组中所选择的单词数量保持一致且重复选择多次不同数量的单词；

S23、判断同数量单词数条件下参考译文中的元组在每个Transformer模型的预测译文中出现的次数，根据次数的多少计算每个Transformer模型词向量学习能力评估指标。

上述进一步方案的有益效果是，采用了可量化的指标评估模型的性能，评估结果有助于后续搜索过程中选择性能优良的个体。

进一步的，所述步骤S23中每个Transformer模型词向量学习能力评估指标计算方式表示为：

其中，N表示元组中的词组个数，W_n为n个词组阶别的加权系数，P_n为n个词组阶别下参考译文中的元组出现在预测译文中的个数；

BP为短句惩罚系数，c为预测译文长度，r为参考译文长度。

上述进一步方案的有益效果是，在句子较长或较短的情况下，均能有效的评价预测译文与参考译文之间的相似程度。

进一步的，所述步骤S3具体为：

S31、从父代模型种群中随机选择两个个体，并选择其中词向量学习能力评估指标更高的个体作为第一父代个体，并采用同样的方法选择出第二父代个体；

S32、随机生成0-1之间的一个数，判定该数是否落在交叉概率之内；

S33、若步骤S32所生成的数在交叉概率之内，则直接将步骤S31所选择的两个父代个体作为下一代种群中个体；若不在交叉概率之内，则对步骤S31所选择的两个父代个体使用交叉操作生成下一代种群个体；

S34、重复步骤S31-S33生成下一代种群的所有个体，使用变异算子对其中的每一个个体进行变异操作得到子代个体。

上述进一步方案的有益效果是，保证用于交叉操作的第一父代个体和第二父代个体均有着较强的词向量学习能力，提高交叉后产生优异个体的概率。

进一步的，所述步骤S33中交叉操作具体为：

S331、分别在第一父代个体和第二父代个体的编码器和解码器中选择断裂点，将第一父代个体和第二父代个体的编码器和解码器从断裂点处截断为两部分；

S332、将第一父代个体编码器的第一部分和第二父代个体编码器的第二部分重组成为其下一代种群个体的编码器，并将第二父代个体编码器的第一部分和第一父代个体编码器的第二部分重组成为其下一代种群个体的编码器；

S333、将第一父代个体解码器的第一部分和第二父代个体解码器的第二部分重组成为其下一代种群个体的解码器，并将第二父代个体解码器的第一部分和第一父代个体解码器的第二部分重组成为其下一代种群个体的解码器。

上述进一步方案的有益效果是，让不同父代个体之间的优异结构能够彼此交流，形成性能优异的子代个体。

进一步的，所述步骤S34中变异操作具体为：

S341、对每一个下一代种群个体生成一个0-1之间的随机数；

S342、判断步骤S341所生成的随机数是否在变异概率内，若是，则对当前下一代种群个体的编码器和解码器不进行变异操作，直接作为子代个体；若不是，则从变异操作类型中随机选择一种对当前下一代种群个体的编码器和解码器进行变异操作，生成子代个体。

上述进一步方案的有益效果是，变换的位置是随机的，保证搜索过程可以在全局范围内找到最优解。

进一步的，所述变异操作类型包括：

随机从下一代种群个体的编码器或解码器中删除一个块；

从下一代种群个体的编码器或解码器中随机选择一个位置插入一个块；

使用一个随机选择的块替换下一代种群个体的编码器或解码器中的一个块。

上述进一步方案的有益效果是，提供了多种变异的策略，可以让个体从不同角度出发去寻找全局最优解。

进一步的，所述步骤S4具体为：

S41、根据父代模型种群和子代模型种群中的每个Transformer模型词向量学习能力评估指标高低选择排名高于设定阈值的Transformer模型直接放入下一代模型种群中；

S42、对剩余的Transformer模型使用轮盘赌算法选取多个个体放入下一代模型种群中；

S43、重复步骤S3直至满足迭代终止条件。

上述进一步方案的有益效果是，确保优秀的个体能够保留到下一代进行交叉变异，提高形成优秀个体的概率。

进一步的，所述迭代终止条件为：当演化过程其中一代出现比Transformer模型性能优异的个体后，继续演化5代而后终止；若未出现比Transformer模型性能优异的个体，演化达20代后自动停止。

上述进一步方案的有益效果是，演化的搜索空间是巨大的，在实践中难以遍历所有的解，因此通过预先设定阈值，让演化次数达到一定条件就终止，达到节约计算资源的目的。

附图说明

图1为本发明基于Transformer模型的机器翻译模型优化方法流程示意图。

图2为本发明实施例Transformer模型编码器和解码器分别有四种结构示意图，其中，a为四个编码器的候选块结构示意图，b为四个解码器的候选块结构示意图。

图3为本发明实施例交叉操作的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

一种基于Transformer模型的机器翻译模型优化方法，如图1所示，包括如下步骤：

S1、初始化具有多个不同结构和参数的Transformer模型的种群；

具体而言，基因编码是为了将模型表达为可搜索的个体，为后续演化搜索奠定基础。为了能够让Transformer模型具有不同的结构和参数以学习词向量，本方案使用了变长编码和候选块策略对种群进行了初始化。

Transformer模型包含编码器和解码器两个部分，本实施例设计了两类候选块用于对这两个部分进行编码。多头注意力机制(MHA)层和前馈式神经网络(FFN)层是构成编码器和解码器的基本结构，也是组成候选块的基本结构。编码器包含了一个MHA层和一个FFN层。解码器中的包含了两个MHA层和一个FFN层，为了进行区分，带有蒙版机制的MHA层被记为M-MHA，利用编码器输出信息进行计算的层被记为C-MHA。为了让模型在学习词向量时能具有不同的层排列模式，本方案中编码器和解码器分别有四种结构，如图2所示。图2.(a)中是四个编码器的候选块E0,E1,E2,E3。每个候选块都包含了两个层；图2.(b)中是四个解码器的候选块D0,D1,D2,D3。每个候选块都包含了三个层，箭头所指方块的下端是候选块的参数信息，具体的解释如表1所示。

表1

通过将上述候选块进行堆叠，即可构建出编码器和解码器，而后生成一个Transformer个体，具体步骤如下：

S12、依次随机选择所述步骤S11中编码器的一个候选块，并按照所选择的候选块的顺序连接形成新的编码器，其中每个候选块中的参数均为随机生成；在本实施例里，对于编码器，对于编码器中的每一个位置，在E0-E3中随机选择一个块，每个随机选择的块中的参数都是按照预先设定的范围随机生成的，最后将选择的块顺序连接在一起形成编码器。

S13、依次随机选择所述步骤S11中解码器的一个候选块，并按照所选择的候选快的顺序连接形成新的解码器，其中每个候选块中的参数均为随机生成；在本实施例里，对于解码器中的每一个位置，在D0-D3中随机选择一个块，每个随机选择的块中的参数都是按照预先设定的范围随机生成的，最后将选择的块顺序连接在一起形成解码器。

S15、重复步骤S11-14形成具有多个不同结构和参数的Transformer模型的种群。不断重复个体初始化的步骤就可以生成初始种群中的若干个个体，这些个体结构和参数各不相同，学习词向量的能力也各不相同。

S2、利用BLEU算法计算所述种群中的每个Transformer模型词向量学习能力评估指标；

每个Transformer模型词向量学习能力评估指标计算方式表示为：

BP为短句惩罚系数，c为预测译文长度，r为参考译文长度

Transformer个体学习词向量的能力越好，完成机器翻译的精度也就越高。因此本方案中使用了机器翻译任务中应用最广泛的双语替代评估BLEU(Bilingual evaluationunderstudy)对个体学习词向量的能力进行了评估。BLEU的输入为两个句子，分别是模型预测译文和参考译文。式子中BP指的是短句惩罚，若预测译文比参考译文的长度短，则需要对计算结果打一个折扣。式子后面部分，N表示评估阶数，N大多会选择为4,；W_n为每个阶别的加权系数，大多会被设置为1/4；P_n为每个阶别的正确率。以二阶为例，预测译文和参考译文中每两个单词会被两两组合，形成若干个元组，P₂就表示参考译文中的元组有多少出现在了预测译文中的元组中，出现的越多表示翻译的越准确。BLEU的范围为0-1，约接近1翻译效果越好，在实践中为了方便展示，BLEU值通常被乘以100进行表示。

通过BLEU指标的高低，就可以确定Transformer个体学习词向量能力的优劣，BLEU指标越高表示Transformer个体学习词向量的能力更强，反之则更弱。

S3、S3、根据步骤S2的词向量学习能力评估指标大小从父代模型种群中选择父代个体，并使用交叉变异算子生成子代个体种群，同时利用BLEU算法计算子代个体种群中每个模型的词向量学习能力评估指标；

在演化搜索中，父代需要不断的产生子代以传递优良基因，即将学习词向量的优良结构和参数传递给下一代，之后通过环境选择的方法不断优化，最终找到最优的Transformer模型个体。

本方案使用交叉变异两个步骤产生了子代个体。在交叉阶段，从当前父代模型种群中选择两个个体作为父代个体，具体的选择方法是从种群中随机选择两个个体，留下其中评估指标高的作为一个父代个体，之后使用同样的方法选择出另一个父代个体。之后，生成一个0到1之间的随机数，如果生成的随机数不在在预先设置的交叉概率之内，则直接将选择的两个父代个体放入下一代的种群中；否则进行交叉操作。具体的交叉操作为：

图3展示了一个交叉操作的示例，(a)和(b)为两个父代个体，倒三角位置为编码器和编码器的断裂位置。断裂完成之后，父代个体1编码器的第一部分和父代个体2编码器的第二部分进行重组构成子代个体1的编码器，父代个体2编码器的第一部分和父代个体1编码器的第二部分重组构成子代个体2的编码器；子代个体1和子代个体2的解码器也是由类似的方式所组成。

生成下一代种群中的所有个体后，使用变异算子对每个个体进行操作，变异操作包含三种类型：1.随机从个体的编码器或解码器中删除一个块；2.从个体的编码器或解码器中随机选择一个位置插入一个块；3.使用一个随机选择的块替换个体的编码器或解码器中的一个块，具体的变异过程为：

S341、对每一个下一代种群个体生成一个0-1之间的随机数；

S342、判断步骤S341所生成的随机数是否在变异概率内，若是，则对当前下一代种群个体的编码器和解码器不进行变异操作，直接作为子代个体；若不是，则从变异操作类型中随机选择一种对档期那下一代种群个体的编码器和解码器进行变异操作，生成子代个体。

由父代模型种群生成子代种群之后，使用步骤S2中的方法对子代种群中个体学习词向量的能力进行评估

环境选择的作用是从当前父代模型种群和子代中选择个体作为下一轮进化搜索的父代个体，目的是为了让学习词向量能力更强的个体生存到下一代并在下一轮迭代搜索中产生学习词向量能力更强的Transformer个体。

种群的多样性和基因的优异性是环境选择的两个目标，多样性意味着所选择的个体应具有不同的特征，即Transformer模型的结构和参数各不相同，基因的优异性所选择的个体对词向量有着很强的学习能力。为了实现这两个目标，本方案使用了精英策略和轮盘赌算法来保证多样性和优异性。具体的流程是从父代子代种群的总体中选取适应程度排名靠前的个体直接放入子代，之后从剩余的个体中使用轮盘赌算法选取若干个体放入子代。

具体方法为：

S41、根据父代模型种群和子代模型种群中的每个Transformer模型词向量学习能力评估指标高低选择排名高于设定阈值的Transformer模型直接放入下一代模型种群中，本实施例里，其设定阈值设置为前20％。

S43、重复步骤S3直至满足迭代终止条件，对于本方案而言，迭代终止条件为：

当演化过程一代出现比Transformer模型性能优异的个体后，继续演化5代而后终止；若未出现比Transformer模型性能优异的个体，演化达20代后自动停止。

S5、选择最后一代中的最优个体进行机器翻译任务。

通过迭代搜索，最后一代种群中的最优个体具有最佳的词向量学习能力。为了验证基于演化Transformer解决机器翻译任务的有效性，本方案中在机器翻译领域应用广泛的数据集IWSLT14 De-En上进行了实验，在三组词向量大小下验证了本方案的有效性。依据惯例，词向量嵌入的大小分别设置为128、256和512。

由于在三个实验中模型的复杂度不同，因此演化代数设置也不同。其他的参数三个实验都相同，编码器和解码器的块数范围设置为5-8；交叉和变异概率分别设置为0.6和0.2。MHA头数为2或4，FFN层维度为512或1024；每代种群中个体数为10；在环境选择中精英率设置为0.5。

表2

表2中是最终的对比结果，其中Baseline代表普通的Transformer模型，Trans-GA使用本方案自动设计出的模型。当词向量大小为512时，Trans-GA模型具有六个编码器块和八个解码器块。Trans-GA模型的参数数量比Transformer模型的参数数量略多，但是BLEU得分比Transformer模型的参数高0.3。当词向量大小为256时，Trans-GA模型具有七个编码器块和七个解码器块，Trans-GA模型的BLEU得分比基准模型高0.2。当嵌入大小为128时，Trans-GA模型具有七个编码器块和七个解码器块，BLEU得分比基准模型的得分高0.2。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于Transformer模型的机器翻译模型优化方法，其特征在于，包括如下步骤：

S5、选择最后一代中的最优个体进行机器翻译任务。

2.根据权利要求1所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S2具体为：

4.根据权利要求3所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S23中每个Transformer模型词向量学习能力评估指标计算方式表示为：

BP为短句惩罚系数，c为预测译文长度，r为参考译文长度。

5.根据权利要求4所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S3具体为：

6.根据权利要求4所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S33中交叉操作具体为：

7.根据权利要求6所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S34中变异操作具体为：

S341、对每一个下一代种群个体生成一个0-1之间的随机数；

8.根据权利要求7所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述变异操作类型包括：

随机从下一代种群个体的编码器或解码器中删除一个块；

9.根据权利要求8所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述步骤S4具体为：

S43、重复步骤S3直至满足迭代终止条件。

10.根据权利要求9所述的基于Transformer模型的机器翻译模型优化方法，其特征在于，所述迭代终止条件为：

当演化过程中的一代出现比Transformer模型性能优异的个体后，继续演化5代而后终止；若未出现比Transformer模型性能优异的个体时，演化达20代后自动停止。