CN116720530A

CN116720530A - 一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法

Info

Publication number: CN116720530A
Application number: CN202310727266.5A
Authority: CN
Inventors: 仁庆道尔吉; 李瑛�; 吉亚图; 李雷孝; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-08

Abstract

一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法，利用BERT预训练模型从蒙汉平行语料库获得知识表示；利用渐近蒸馏和动态切换，将含有知识表示的BERT预训练模型与NMT模型相结合；将蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量，并进行词嵌入，得到蒙语词嵌入矩阵和汉语词嵌入矩阵；利用相对位置编码，在蒙语词嵌入矩阵和汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量，得到蒙语向量矩阵和汉语向量矩阵；将蒙语向量矩阵和汉语向量矩阵输入并训练NMT模型。本发明通过渐进蒸馏以及动态开关门，避免预训练知识的灾难性遗忘，并且在多头注意编码机制中加入对抗训练，加强词向量的训练，减少误译现象。

Description

一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法

技术领域

本发明属于电数据处理中的自然语言翻译技术领域，特别涉及一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法。

背景技术

机器翻译在主流自然语言中已经得到了普遍、成熟的应用，但是在小语种上的应用因数据量不足等原因，翻译质量还不能令人满意。

一些小语种可以藉由与主流自然语言的平行语料克服上述问题，即通过与其它主流自然语言的间接交互，提高其机器翻译质量。

然而，对于另一些更加少见的语言，例如蒙古语，由于其组成结构复杂，t同时缺乏精通蒙古语和汉语的专业人才，蒙汉翻译发展缓慢，使得其难以获得有效的平行语料，导致生成译文的质量并不高。

常见蒙汉翻译方法，如Zhang等提出两种方法来利用源端单语数据提升模型质量，一种是利用自学习算法训练NMT模型生成大量的双语数据，另一种是利用两个NMT的多任务学习框架生成译文并对源端句子进行重排序；Ji等通过形态变化丰富的蒙古语序列的例子分析了采用不同粒度在解码过程中的优势，提出了一种自由粒度的预处理策略来构造多粒度混合输入；Yang等提出一种新颖的条件序列生成对抗训练，将句子级BLEU作为强化目标来加强生成器的能力等，采用数据增强、强化学习、对抗学习手段，但由于蒙汉双语语料稀缺，仍存在曝光偏差、模型的预测能力不足的问题。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法，以解决因神经机器翻译任务不能完全识别文本的顺序或单词之间的长期依赖引起的误译问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法，包括如下步骤：

步骤1，利用BERT预训练模型从蒙汉平行语料库获得知识表示；

步骤2，利用渐近蒸馏和动态切换，将含有知识表示的BERT预训练模型与NMT模型相结合；所述NMT模型采用n层Transformer模型；

步骤3，将所述蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量，并进行词嵌入，得到蒙语词嵌入矩阵和汉语词嵌入矩阵；

步骤4，利用相对位置编码，在所述蒙语词嵌入矩阵和所述汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量，得到蒙语向量矩阵和汉语向量矩阵；

步骤5，将所述蒙语向量矩阵输入所述n层Transformer模型的编码器，将所述汉语向量矩阵输入n层Transformer模型的解码器，训练所述NMT模型；

步骤6，以蒙语为源语言，利用完成训练的NMT模型，翻译得到汉语目标语言。

与现有技术相比，本发明的有益效果是：

1、本发明通过引入渐近蒸馏，最小化BERT和NMT模型编码器之间的损失，以确保NMT模型能够保留之前预先训练的知识。并且引入动态切换，将BERT的编码嵌入与NMT的编码器相结合，以避免预训练知识的灾难性遗忘。

2、本发明通过相对位置嵌入将位置编码嵌入词向量中，帮助词向量更好地保存词的语言信息。并且将快速梯度法对抗性训练加入到多头注意力编码器机制中，强化词向量的训练，减少误译现象。

附图说明

图1是本发明结构示意图。

图2是上下文门的原理图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法，包括如下步骤：

步骤1，利用BERT预训练模型从蒙汉平行语料库获得知识表示。

步骤2，利用渐近蒸馏和动态切换，将含有知识表示的BERT预训练模型与NMT模型相结合，所述NMT模型采用n层Transformer模型。

本发明渐近蒸馏，蒸馏的目标是惩罚NMT模型和BERT预训练模型的隐藏状态之间的均方误差(MSE)损失：

其中，指BERT预训练模型的隐藏状态，/>是固定的，并将其视为教师，h_l是NMT模型的隐藏状态的第l层，/>表示二范式的平方。

在训练NMT模型时，将蒸馏目标与交叉熵损失结合使用，损失函数表示为：

其中，α是一个超参数，用于平衡预训练蒸馏和NMT目标之间偏好，α设置为0.9，表示交叉熵损失。预训练蒸馏，指通过BERT预训练模型结合渐进蒸馏，NMT目标，指神经机器翻译(NMT)的目标函数。

本发明动态切换，直观地说，利用上下文门从BERT预训练模型和NMT模型中查看输入信号，并为输入向量中的每个元素输出0到1之间的数字，其中1表示“完全传递该元素”，而0表示“完全忽略该元素”，在馈送到下一层(例如全连接层)之前，使用逐元素乘法处理相应的输入信号。其中，所述输入信号是0到1之间的数字，所述输入向量是文本的序列，输入向量中的每个元素指词向量。

形式上，上下文门由一个sigmoid神经网络层和一个按元素计算的乘法操作组成，其原理参考图2，计算如下：

g＝σ(Wh^lm+Uh^nmt+b)

其中σ(·)是sigmoid函数，h^lm是BERT预训练模型的隐藏状态，h^nmt是初始NMT模型的隐藏状态。

最终，将NMT模型和BERT预训练模型集成结合为：

h＝g⊙h^lm+(1-g)⊙h^nmt

其中⊙是逐元素乘法，如果g设置为0，网络将退化为传统的NMT模型。如果g设置为1，网络将简单地充当微调方法。

本发明上下文门，使用门控思想动态控制来自预训练模型和NMT模型的信息量，从而平衡NMT模型的知识转移。上下文门决定了如何将过去的信息与当前的输入信息进行结合，用来控制旧信息的保留程度。

之前的渐近蒸馏为将训练前的信息整合到神经网络训练任务中提供了一种有效的方法。然而，从一个极大的预先训练的LM(如BERT)中提取的特征对于学生Transformer网络来说并不容易拟合，因为这些特征可能是高阶的。同时，直接向NMT模型提供特征忽略了来自原始文本的信息，这会损害性能。因此，本发明引入动态切换，将预训练模型与原始Transformer NMT模型合并。上下文门能够帮助模型决定到底要将多少过去的信息传递到未来，或到底前一时间步和当前时间步的信息有多少是需要继续传递的。

通过本步骤引入渐近蒸馏和动态开关门，能够将含有知识表示的BERT预训练模型与NMT模型相结合。

步骤3，将所述蒙汉平行语料库中的蒙语语料和汉语语料分别转换为词向量，并进行词嵌入，得到蒙语词嵌入矩阵和汉语词嵌入矩阵。

步骤4，利用相对位置编码，在所述蒙语词嵌入矩阵和所述汉语词嵌入矩阵中的每个词位置分别添加一个位置确定的编码向量，得到蒙语向量矩阵和汉语向量矩阵。

通过将绝对位置编码转换为相对位置编码可以让模型学习相对位置来帮助模型推广到训练中看不到的序列长度，有效地捕获文本之间的局部和全局相关性。相对位置编码公式如下所示：

clip(x，k)＝max(-k，min(k，x))

其中，输入元素即词向量x的边用两个向量表示，k是截获的相对位置的最大值，/>和/>是学习到的相对位置，其中w^K，w^V∈R^da。

注意力机制中第i个单词与第j个单词相关联的键，即key，/>注意力机制中第i个单词与第j个单词相关联的z值，即value，/>中，/>是学习相对位置参数，用于计算key矩阵，clip(j-i，k)表示相对位置差异，(j-i)裁剪到区间[-k，k]；中，/>是学习相对位置参数，用于计算value矩阵，clip(j-i，k)表示相对位置差异，(j-i)裁剪到区间[-k，k]；clip(x，k)中，x表示限制取值范围的数值，k表示x所能取到的最大或最小值，如果x>k则返回k，如果x＜-k，则返回-k，否则返回x。这也是为了保证相对位置编码的取值范围正确，max(-k，min(k，x)表示将x限制在区间[-k，k]内取值如果超过了上下界，则强制设置为上下界，否则不进行任何操作。总体来说函数用于限制相对距离在合理范围内，避免过大或过小的距离对注意力计算产生不良影响。

相对位置编码之后，在多头注意力机制中利用快速梯度法对编码器的训练数据进行调整。所述快速梯度法指扰动r_adv，根据梯度进行缩放以获得更好的对抗样本，具体公式如下：

其中t是输入元素x处函数的梯度，对抗样本的梯度被添加到原始样本中，这样模型可以更加关注未翻译的源词并减少翻译不足，L是损失函数。∈是超参数，将扰动大小限制在一定范围内，默认值为1.0，||||₂为欧几里得范数，表示对x做偏导数。

步骤5，将所述蒙语向量矩阵输入所述n层Transformer模型的编码器，将所述汉语向量矩阵输入n层Transformer模型的解码器，训练所述NMT模型。

根据本发明基于预训练模型和对抗训练的内蒙汉神经机器翻译方法的一个具体应用例如下：

待翻译的蒙古语原文为：

中文翻译：环境保护、气候变化和生态平衡受到了高度关注。

使用了本发明方法进行蒙汉神经机器翻译任务，并且在此之前先用大规模数据集进行了预训练。将上述输入作为测试样本，并得到如下输出结果：

环境保护、气候变化以及生态平衡备受重视。

通过对比可以发现，在该方法的帮助下，源语言(即内蒙语)与目标语言(即中文)之间更加贴近，并且能够准确表达原始信息所包含的意义。这得益于预训练模型中包含的大量先验知识和对抗训练技术可以进一步提高模型在语言生成任务上的表现，使其更加符合人类自然语言习惯。

因此，基于预训练模型和对抗训练的内蒙汉神经机器翻译方法具有非常好的效果，并且在实际应用中也得到了广泛使用。

可见，本发明通过渐进蒸馏以及动态开关门的方式，避免预训练知识的灾难性遗忘，并且在多头注意编码机制中加入对抗训练，加强词向量的训练，减少误译现象。

Claims

1.一种基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述渐近蒸馏，蒸馏的目标是惩罚NMT模型和BERT预训练模型的隐藏状态之间的均方误差(MSE)损失：

其中，指BERT预训练模型的隐藏状态，/>是固定的，并将其视为教师，h_l是NMT模型的隐藏状态的第l层，/>表示二范式的平方；

在训练NMT模型时，将所述蒸馏目标与交叉熵损失结合使用，损失函数表示为：

其中，α是一个超参数，用于平衡预训练蒸馏和NMT目标之间偏好，表示交叉熵损失。

3.根据权利要求2所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述动态切换，利用上下文门从BERT预训练模型和NMT模型中查看输入信号，并为输入向量中的每个元素输出0到1之间的数字，其中1表示“完全传递该元素”，而0表示“完全忽略该元素”，在馈送到下一层之前，使用逐元素乘法处理相应的输入信号；其中，所述输入信号是0到1之间的数字，所述输入向量是文本的序列，输入向量中的每个元素指词向量。

4.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述上下文门由一个sigmoid神经网络层和一个按元素计算的乘法操作组成，计算如下：

g＝σ(Wh^lm+Uh^nmt+b)

其中σ(·)是sigmoid函数，h^lm是BERT预训练模型的隐藏状态，h^nmt是初始NMT模型的隐藏状态；

最终，将NMT模型和BERT预训练模型集成结合为：

h＝g⊙h^lm+(1-g)⊙h^nmt

其中⊙是逐元素乘法，如果g设置为0，网络将退化为传统的NMT模型；如果g设置为1，网络将简单地充当微调方法。

5.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述步骤4，相对位置编码公式如下所示：

clip(x,k)＝max(-k,min(k,x))

其中，输入元素即词向量x的边用两个向量表示，k是截获的相对位置的最大值，/>和/>是学习到的相对位置，其中w^K，w^V∈R^da，

注意力机制中第i个单词与第j个单词相关联的键，即key，/>注意力机制中第i个单词与第j个单词相关联的z值，即value，/>中，/>是学习相对位置参数，用于计算key矩阵，clip(j-i,k)表示相对位置差异，(j-i)裁剪到区间[-k,k]；中，/>是学习相对位置参数，用于计算value矩阵，clip(j-i,k)表示相对位置差异，(j-i)裁剪到区间[-k,k]；clip(x,k)中，x表示限制取值范围的数值，k表示x所能取到的最大或最小值，如果x>k则返回k，如果x<-k，则返回-k，否则返回x，max(-k,min(k,x)表示将x限制在区间[-k,k]内取值如果超过了上下界，则强制设置为上下界，否则不进行任何操作。

6.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述相对位置编码之后，在多头注意力机制中利用快速梯度法，对编码器的训练数据进行调整。

7.根据权利要求3所述基于预训练模型和对抗训练的蒙汉神经机器翻译方法，其特征在于，所述快速梯度法指扰动r_adv，根据梯度进行缩放以获得更好的对抗样本，具体公式如下:

其中t是输入元素x处函数的梯度，对抗样本的梯度被添加到原始样本中，这样模型可以更加关注未翻译的源词并减少翻译不足，L是损失函数；∈是超参数，将扰动大小限制在一定范围内，默认值为1.0，‖‖₂为欧几里得范数，表示对x做偏导数。