CN114970565A

CN114970565A - 基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法

Info

Publication number: CN114970565A
Application number: CN202210083671.3A
Authority: CN
Inventors: 郭军军; 朱志国
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-08-30
Anticipated expiration: 2042-01-20
Also published as: CN114970565B

Abstract

本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法，属于自然语言处理领域。本发明无需增加额外的参数，简单有效；首先获取源语言包含丰富语义知识的源语言BERT表征，在Transformer编码端利用Mixup将源语言的BERT表征融入Seq2Seq模型；在此基础上每一句源语言输入编码器两次，在编码端的两次输出上进行一致性约束，以促进模型能更好的学习预训练模型中的知识；最后将编码器的第六层输出特征作为解码器的输入，解码器采用传统的Transformer解码器结构。本发明采用公共数据集IWSLT的数据集来训练模型。实验结果表明本发明提出的模型能超过了大多数以前的工作。

Description

基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法

技术领域

本发明涉及基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法，属于自然语言处理技术领域。

背景技术

神经机器翻译(NMT)是自然语言处理(NLP)领域中的一种特殊的跨语言任务，它试图将源句翻译成目标句。NMT的关键是将句子语义信息从源端对齐到目标端，为此，通常需要大规模的平行句对。然而，高质量的平行句对的收集通常是昂贵的，许多翻译任务都存在资源不足的问题，例如：英语-西班牙语机器翻译、英语- 越南机器翻译等。由于句子对在数量和质量上都有限，低资源NMT在seq2seq神经网络中往往存在对语言知识学习不足、特征表示较差的问题。而相比较于难以获取的高质量平行句对，单语数据实际上是非常丰富的，并且预训练模型经过大规模的单语数据训练，含有丰富的语言知识，如何利用丰富的单语数据和预训练模型的语言知识来提升低资源场景下机器翻译是性能成为关键的问题。

发明内容

本发明提供了基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法，以用于有效的利用预训练模型中丰富的单语知识提升了低资源场景下机器翻译的性能。

本发明的技术方案是：基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法，所述方法的具体步骤如下：

Step1、对公共数据集IWSLT数据进行预处理；

Step2、将处理好的源语言数据输入模型，获得句子Embedding和BERT句子级表征，用Mixup将源语言的BERT句子级表征和句子Embedding进行融合作为模型编码器第一层的输入；在模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合，在此基础上每一句源语言输入编码器两次，对得到的两次编码端的输出计算KL散度损失，进行一致性约束；在原有对数似然损失函数的基础上加入KL散度损失，作为总的损失函数来优化模型；

Step3、解码器的最后一层输出到传统的编码器进行解码，解出目标语言，解码器和编码器都分别堆叠了6层模型。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14

IWSLT’15英语→越南语(En→Vi)和英语→法语(En→Fr) 数据集，数据集的大小分别为160k,183k,113k,236k；

Step1.2对下载的数据进行过滤筛选，去除文本内容中的多余符号、超链接和特殊字符，然后对筛选好的数据进行字节对编码处理，包括BPE分词处理，BPE的子词表大小为10000。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、通过预训练模型BERT和Transformer编码端词嵌入层，获得源语言的句子级BERT表征和词嵌入；

设

为数据集，其中X_j和Y_j表示第j对源语言和目标语言，N表示数据集的总量，第j对源语言X_j输入到预训练模型BERT，将模型的最后一层输出作为源语言的BERT句子级表征，过程如下：

B_j＝BERT(X_j) (1)

其中B_j表示源语言的BERT句子级表征，BERT表示预训练模型BERT， B_j∈R^len×768,len表示源语言句子长度；

把源语言输入Transformer编码端，利用其词嵌入层对源语言进行词嵌入编码和位置编码，最后获得源语言的句子级词嵌入；

E_j＝emb(X_j) (2)

其中emb表示Transformer的词嵌入层，E_j表示生成的句子级词嵌入，E_j∈R^len×512；

Step2.2、利用Mixup将源语言的句子级BERT表征B_j和句子级词嵌入E_j进行融合；

其中w是可训练参数，b是偏置，λ服从贝塔分布，

是合成的新的句子级词嵌入，被馈送到Transformer编码器层进行训练；

Step2.3、模型编码器端利用Mixup将源语言的BERT句子级表征与数据经过多头注意力机制的表征进行融合；

其中

是混合的新的句子表征，MultiHead(.)是传统的多头注意力机制， k∈{0,1,…,5}表示Transformer的不同层；

Step2.4、一致性约束

把同一句源语言输入编码器两次，得到两个不同的编码器输出分布，对这两个不同的输出分布计算KL散度损失

进行一致性约束，使模型能更好的学习BERT 中丰富的语言知识；

设H₁(X_j)和H₂(X_j)分别为模型编码端对同一句源语言不同的输出分布，KL散度损失计算如下：

在原有对数似然损失函数的基础上加入KL模型，总的损失函数如下：

其中，δ是控制

的权重，

表示负对数似然损失函数，P(·)表示似然函数， D_KL(·)表示传统的KL散度计算。

作为本发明的进一步方案，所述Step3包括：

解码器采用传统的Transformer解码器堆叠6层，每个解码器层由三个子层组成：1)目标语言自注意力层；2)跨语言注意力层；3)前馈网络层；最后将解码器最后一层的输出经过线性变换和softmax层解出目标语言。

本发明的有益效果是：

1、本发明针对许多翻译任务资源不足，而预训练模型含有丰富的单语知识，提出了一种基于一致性Mixup融合预训练模型BERT的知识到Seq2Seq模型的低资源神经机器翻译方法，这是首次利用Mixup融合预训练模型知识来提升低资源机器翻译的性能；

2、本发明通过利用Mixup在Transformer编码器的句子级词嵌入和编码器层融合预训练模型的知识并进行一致性约束，很好的利用了预训练模型中包含的丰富语言知识，提升了低资源机器翻译的性能；

3、本发明在IWSLT数据集上进行了实验，结果表明本发明的模型显着提高了低资源机器翻译性能。

附图说明

图1为本发明中的流程框图。

具体实施方式

实施例1：如图1所示，基于一致性Mixup融合BERT知识到Seq2Seq模型的低资源神经机器翻译方法，所述方法的具体步骤如下：

Step1、对公共数据集IWSLT数据进行预处理；

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、通过国际口语翻译会议IWSLT下载IWSLT’14

作为本发明的进一步方案，所述Step2的具体步骤为：

设

B_j＝BERT(X_j) (1)

E_j＝emb(X_j) (2)

其中w是可训练参数，b是偏置，λ服从贝塔分布，

其中

Step2.4、一致性约束

其中，δ是控制

的权重，

表示负对数似然损失函数，P(·)表示似然函数，D_KL(·)表示传统的KL散度计算。

作为本发明的进一步方案，所述Step3包括：

为了说明本发明的效果，设置了三组对比实验，第一组是主试验结果，在这个领域和以前的一些工作进行比较。第二组实验是消融实验，验证提出的方法的有效性。第三组实验验证方法模型在极低资源情况下的性能。

(1)主实验结果

为验证发明的有效性，本发明在六个低资源机器翻译任务书进行实验，与大数先前的研究一样划分训练集、验证集、测试集。在这里和之前一些性能比较好的工作进行比较，ReMixup-NMT是本次发明的模型，实验结果如表1所示.

如表1所示，本发明提出的模型在英语→法语、英语→越南语的翻译任务上的最佳实验结果。可以清楚地看到，与之前的工作相比，本发明的模型性能有了很大的提升。证明了本发明的模型方法很好的在seq2seq模型中融合了预训练模型的有用信息，有效提升了低资源机器翻译散度性能。

表1六个机器翻译任务的BLEU值

(2)消融实验

Mixup混合策略和一致性约束消融研究：为了探索多Mixup混合策略和一致性约束对模型性能的影响，进行了去除一致性约束只保留Mixup的实验。实验结果如表2所示：

表2消融实验BLEU值

从表2可以看到，与不加Mixup混合策略和一致性约束的Transformer相比,只利用Mixup进行混合BERT知识的模型性能更好，证明利用Mixup进行混合BERT 知识提升模型的性能是有效的，在此基础上增加一致性约束进一步提升了模型性能，证明一致性约束策略能促进模型更好的学习BERT中丰富的语言知识。

编码器不同层混合BERT知识消融研究：为了进一步探索在不同层利用Mixup 混合BERT知识对模型性的影响，对不同层的知识融合进行了实验，结果如表3所示：

从表3可以看出，在较低层利用Mixup策略混合BERT知识模型的性能比较好，随着层数的增加模型性能逐渐降低，这与前人研究得出的Transformer底层更注重单词本身的表示，忽略单词之间的语义联系的结论一致。

表3不同层融合知识的BLEU值

(3)极低资源下模型性能

对于大多数语言的数据量实际上是极小的，为了验证发明模型的在这方面的性能，在极低资源情况下对模型进行了实验。随机选择了100k英语-法语和50k英语- 越南语数据做为训练集训练模型，实验结果如表4所示。

表4：极低资源下实验结果

可以看到，本发明模型，即使在数据量极少的情况下，模板性能仍高于基线模型Transformer的性能，证明了发明模型有很好的鲁棒性与泛化能力。

通过以上实验证明，本发明利用Mixup策略将预训练模型BERT包含的丰富语义知识融合到Seq2Seq模型编码器并进行一致性约束，增强了编码器对源语言的学习与理解，并且没有增加额外的训练参数，有效提升了低资源场景下神经机器翻译的性能，是一种简单有效的方法。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。