CN115081464A

CN115081464A - 一种由未来语境引导的神经机器翻译模型优化方法

Info

Publication number: CN115081464A
Application number: CN202210774343.8A
Authority: CN
Inventors: 黄艳; 张添元; 朱会东; 陈明; 范乃梅
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-09-20

Abstract

本发明涉及机器学习技术领域，特别涉及一种由未来语境引导的神经机器翻译模型优化方法，包括以下步骤：部署深度学习环境，将预处理后的平行语料数据集输入到Transformer模型中进行训练；获取编码器最后输出的隐藏状态h_enc，将h_enc复制成两份，一份用于计算损失函数L_enc，另一份输入解码器；在解码器之后构建未来语境引导模块，得到未来语境引导模块输出的隐藏状态h_future；结合h_future和解码器输出的隐藏状态h_dec进行第二次预测，并计算损失函数L_future；h_future经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测，并计算损失函数L_fn；对L_enc、L_future和L_fn进行加权操作，之后进行反向传播，并使用Adam优化器更新模型参数。本发明通过未来语义信息引导编码器的字词预测，性能更高。

Description

一种由未来语境引导的神经机器翻译模型优化方法

技术领域

本发明涉及机器学习技术领域，特别涉及一种由未来语境引导的神经机器翻译模型优化方法。

背景技术

机器翻译是深度学习中的一个分支应用领域，拥有长足的发展历史。目前机器翻译的模型可以分为两类：基于循环神经网络(Recurrent Neural Network，RNN)的模型，以及基于Transformer的模型，二者都是序列到序列(编码器—解码器)的模型结构，编码器负责总结源语句的语义信息，解码器使用编码器的输出逐字生成目标语句。基于RNN的模型大多由GRU或者LSTM等神经网络单元结构组成，这类模型的特征是具有时序性，即每一层的输出是上一层的输入，这种特征保留了源语句的时序信息。但缺点是时序计算的约束，导致模型的训练和预测要消耗大量时间；另外待翻译的句子如果过长或者过于复杂，会导致语义信息丢失的问题。

谷歌提出了Transformer模型，该模型使用多头注意力机制(Multi-headAttention，MHA)，使得在训练过程中模型能注意到每个词向量之间的相关性并有所侧重，避免语义丢失；使模型可以并行计算，提高训练的效率的同时减少了计算资源的消耗，使模型更加高效的得到效果更好的翻译质量。

自回归序列到序列的模型结构中，解码器获得源语句的语义信息，并逐字生成目标语句，但这一训练过程中无论是RNN模型还是Transformer模型，编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测。

发明内容

基于此，有必要针对上述技术问题，提供一种由未来语境引导的神经机器翻译模型优化方法，以解决现有技术中训练过程中无论是RNN模型还是Transformer模型，编码器不能通过未来的语义信息(未翻译的语句信息)来指导下一个时间步中字词的预测的问题。

本发明提供了一种由未来语境引导的神经机器翻译模型优化方法方法，包括以下步骤：

步骤1：部署深度学习环境，对平行语料数据集进行预处理，将预处理后的平行语料数据集输入到Transformer模型中进行训练；

步骤2：获取Transformer模型的编码器最后输出的隐藏状态h_enc，将所述隐藏状态h_enc复制成两份，其中一份用于进行第一次预测，并计算损失函数L_enc，另一份输入至Transformer模型的解码器中；

步骤3：在Transformer的解码器之后构建未来语境引导模块，得到所述未来语境引导模块输出的隐藏状态h_future；所述未来语境引导模块依次由MHA、残差连接、层归一化组成，MHA的输入为Q、K、V，其中Q为解码器输出的隐藏状态h_dec，K和V均为编码器最后输出的隐藏状态h_enc；将MHA的输入Q记为

将MHA的输入K记为

将MHA的输入Q记为

步骤4：结合所述未来语境引导模块输出的隐藏状态h_future以及Transformer的解码器输出的隐藏状态h_dec进行第二次预测，并计算损失函数L_future；

步骤5：所述未来语境引导模块输出的隐藏状态h_future经过一层前馈神经层、残差连接和层归一化之后进行最后一次的预测，并计算损失函数L_fn；

步骤6：对损失函数L_enc、损失函数L_future和损失函数L_fn进行加权操作，之后进行反向传播，并使用Adam优化器更新模型参数。

进一步的，所述步骤2中，将所述隐藏状态h_enc复制成两份，其中一份用于进行第一次预测，并计算损失函数L_enc包括：

所述隐藏状态h_enc经过全连接层linear和softmax之后进行预测得到：

其中，

为预测得到的结果；

通过损失函数计算L_enc：

其中，y是目标语句，l为模型使用的损失函数，模型统一采用交叉熵损失函数。

进一步的，所述步骤3中，得到所述未来语境引导模块输出的隐藏状态h_future的过程包括：

计算MHA的输出H^K；

将H^K和原输入h_dec进行残差连接，得到的输出进行层归一化，得到隐藏状态h_future。

进一步的，所述步骤3中，计算MHA的输出H^K的公式如下：

其中，k是transformer相应模块的数量，α_ij是MHA的权重系数，表示生成第i个单词时，源语句中第j个单词的贡献值；n为源语句的长度；W^Q、W^k和W^V分别是MHA中Q、K和V对应的矩阵参数，d是词向量的维度，

是MHA在生成第i个单词时得到的结果。

进一步的，所述步骤4中，通过一层门控单元结合所述未来语境引导模块输出的隐藏状态h_future以及Transformer的解码器输出的隐藏状态h_dec。

进一步的，所述步骤6中，对损失函数L_enc、损失函数L_future和损失函数L_fn进行加权操作包括：

利用如下公式进行加权操作：

L＝L_fn+αL_enc+βL_future

其中，L为总损失函数，α为损失函数L_enc对应的权重，β为损失函数L_future对应的权重。

进一步的，所述步骤1中，预处理的过程包括：

使用WMT提供的平行语料数据集作为训练、验证以及测试语料；

使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作；

建立语料库字典，并按照词频大小进行排序，忽略词频较低的生僻词，并储存为二进制文件。

本发明的有益效果：本发明的由未来语境引导的神经机器翻译模型优化方法，设计了未来语境引导机制，并将其引入Transformer模型，通过未来语义信息引导编码器的字词预测，使翻译模型能够学习出精度更高的语句，提高了Transformer基础模型的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的由未来语境引导的神经机器翻译模型结构示意图；

图2是本发明的由未来语境引导的神经机器翻译模型优化方法流程图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本实施例针对上述现有机器模型中存在的不足，基于Transformer模型，引入未来语境引导机制以优化模型性能。本实施例采用的技术方案主要有两点：

(1)在Transformer的解码器之后增加引导解码器进行预测的未来语境引导模块，并将解码器和编码器的输出当作该模块中MHA的输入。采用该方法的原因是：使用编码器输出中隐形存在的未来语义信息(未翻译的语句信息)能够有效地引导当前时间步解码器的预测；

(2)分别使用编码器输出的隐藏状态、未来语境引导模块的输出进行预测并计算损失函数，并和最后模型的损失函数进行加权相加。采用该方法的原因是：本方案中模型的学习需要参考不同阶段的预测结果共同引导，并且各损失函数的重要度并不相同，因此需要进行加权操作。

具体的，本实施例在Transformer模型的基础上，增加了未来语境引导模块，其模型结构如图1所示。

如图2所示，本实施例的由未来语境引导的神经机器翻译模型优化方法包括以下步骤：

步骤1：部署深度学习环境，对平行语料数据集进行预处理并输入到Transformer模型中进行训练；具体预处理的过程包括：

步骤1.1：使用WMT提供的平行语料数据集作为训练、验证以及测试语料；

步骤1.2：使用mosesdecoder开源工具对数据集进行分词、标点符号规范化操作；

步骤1.3：建立语料库字典，并按照词频大小进行排序，忽略词频较低的生僻词，并储存为二进制文件。

步骤2：将Transformer的编码器最后输出的隐藏状态h_enc复制成两份，其一用来进行第一次预测，并计算损失函数L_enc，其二传入Transformer的解码器中，具体包括：

步骤2.1：h_enc经过全连接层linear和foftmax之后进行预测得到：

其中，

为预测得到的结果；

步骤2.2：通过损失函数计算L_enc：

步骤3：在Transformer的解码器之后构建未来语境引导模块，该模块和Transformer的编码器相似，依次由MHA、残差连接(Residual Connection,RC)、层归一化(Layer Normalization，LN)组成，RC能够解决多层神经网络训练困难的问题，LN可以加速模型的训练过程，加速收敛。MHA的输入分别为Q、K、V，Q为解码器输出的隐藏状态h_dec，K、V＝h_enc，将MHA的输入Q记为

将MHA的输入K记为

将MHA的输入Q记为

步骤3具体包括：

步骤3.1：MHA的输入Q、K、V分别为h_dec、h_enc、h_enc，h_enc代表源语句的整体语义信息，其中包含了能够引导h_dec对未来信息进行语义匹配，这一过程可以表示为：

其中，H^K为MHA的输出，

即h_dec，

和

即h_enc，MHA的具体计算如下：

其中，α_ij是MHA的权重系数，表示生成第i个单词时，源语句中第j个单词的贡献值；

是MHA在生成第i个单词时得到的结果，n为源语句的长度；k表示transformer相应模块的数量，α_ij由softmax函数计算得出：

其中W^Q、W^k和W^V分别是MHA中Q、K和V对应的矩阵参数，d是词向量的维度；

步骤3.2：将H^K和原输入h_dec进行残差连接，得到的输出进行层归一化，得到隐藏状态h_future。

步骤4：结合未来语境引导模块输出的隐藏状态h_future以及h_dec进行第二次预测，并计算损失函数L_future，具体包括：

步骤4.1：h_future和h_dec通过一层门控单元(Gate Recurrent Unit，GRU)结合，使用GRU可以有效解决计算过程中梯度增减所产生的问题，减少模型的复杂度；

步骤4.2：计算损失函数L_future：

步骤5：h_future经过一层前馈神经层(Fully-Connected Network，FFN)、RC、LN之后得到h′_uture，进行最后一次的预测，并计算损失函数L_fn：

步骤6：对所有的损失函数进行加权操作，其中权重α和β根据模型训练状态进行调整，之后进行反向传播，并使用Adam优化器更新模型参数。

L＝L_fn+αL_enc+βL_future

本实施例提供了一种基于Transformer模型，由未来语境引导的模型优化方法，由源语句中包含的未来语义信息指导编码器对下一时间步的预测，有效提高了模型的翻译质量。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。