CN113901844A

CN113901844A - 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

Info

Publication number: CN113901844A
Application number: CN202111068294.8A
Authority: CN
Inventors: 毛存礼; 王琳钦; 余正涛; 高盛祥; 黄于欣; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2022-01-07

Abstract

本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置，属于自然语言处理领域。针对汉语‑缅甸语双语资源稀缺、结构差异较大的特点，故提出了本发明的方法及装置，本发明方法主要包括汉语‑缅甸语文本数据预处理、模型不确定性注意力机制、模型不确定性约束的半监督汉缅神经机器翻译训练算法、汉语‑缅甸语互译模型等四个部分构成。本发明所提方法在Transformer网络中利用基于变分推断的蒙特卡洛Dropout构建模型不确定性注意力机制，能够有效获取到能够区分噪声数据的句子向量表征，提升汉语‑缅甸语神经机器翻译性能，对汉语‑东南亚语神经机器翻译具有理论和实际应用价值。

Description

基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置

技术领域

本发明涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置，属于自然语言处理技术领域。

背景技术

由于缅甸语属于低资源语言，汉语-缅甸语双语数据较难获得，但是互联网中存在大量缅甸语和汉语单语数据，基于回译的半监督神经机器翻译方法在低资源神经机器翻译取得了明显的效果，因此，如何利用大量缅甸语、汉语单语语料提升汉语-缅甸语翻译模型性能成为了关键问题。

基于回译的方法在结构差异性较小的低资源语言对，如英法，英德，取得了较为显著的效果。然而，对于汉缅机器翻译，由于语料资源稀缺而且结构差异较大，回译生成的伪语料存在漏译，多译，错译的问题，传统基于Transformer编码端的Self-attention机制不能有效区别回译中产生的伪平行数据的噪声对句子编码的影响，致使回译方法应用于结构差异较大的低资源的语对上效果欠佳。

发明内容

本发明提供了基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置，解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题，提升了汉语-缅甸语翻译性能。

本发明的技术方案是：第一方面，基于模型不确定性约束的半监督汉缅神经机器翻译方法，所述方法的具体步骤如下：

Step1、对汉语-缅甸语文本数据进行预处理：将汉语-缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词等处理；

Step2、模型不确定性注意力机制的获取：句子编码表征捕捉到上下文的模型不确定性值，编码时对模型不确定值较大词给予更多的关注；

Step3、模型不确定性为约束的汉缅神经机器翻译训练算法：将回译过程的模型不确定性融进Transformer编码端每一层表征，提升汉语-缅甸语回译任务翻译性能；

Step4、通过使用训练好的汉语-缅甸语互译模型，实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。

作为本发明的进一步方案，在数据预处理层面，对汉语-缅甸语数据进行数据清洗，长度比过滤，分词等工作，主要是为了提升翻译质量，规范翻译流程，提高模型性能。

所述Step1的具体步骤为：

Step1.1、汉语-缅甸语文本数据清洗：去除汉语、缅甸语文本中的乱码字符，规范标点符号表示方法；

Step1.2、缅甸语编码转换：缅甸语存在zawgyione字体、Myanmar3字体统一编码转换，变成Unicode字体；

Step1.3、长度比过滤：保留汉语比缅甸语句子长度比在1～1.5的句子，移除少于5个词，大于30个词的语句，用于提升模型训练效率；

Step1.4、分词：汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理，所得汉语词典大小为10k，缅甸语词典大小为5k。

作为本发明的进一步方案，所述Step2的具体步骤为：

Step2.1、在回译过程中，给定一个真实的目标语言句子y，y∈{D_m}，通过标准的transformer模型解码预测其对应的

为了量化模型在预测时的模型不确定性，首先将词级别的翻译概率视作随机变量，通过随机停用NMT模型的部分神经元(dropout)并重新计算翻译概率(同时保持y和

固定)来进行翻译概率的采样，最终获得回译过程中的模型不确定性；

Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模，计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量，能区分伪语料中噪声。

作为本发明的进一步方案，所述Step2.2的具体步骤为：

Step2.2.1、Transformer的核心是运用多头的Self-attention自注意力机制，每一个注意力机制头都是对n个元素的输入序列x＝(x₁,...,x_n)，其中

接着计算得出同样长度的序列c＝(c₁,...,c_n)，其中

在此发明中，我们用

标记文本句子向量特征，用

标记与文本句子词对齐的model-uncertainty。如图3所示，Uncertainty Enc-Attention可表示为：

其中

是softmax函数计算的权重系数：

Step2.2.2、Uncertainty Enc-Attention最后计算得出结合句子文本向量表征和model-uncertainty表征的隐藏层向量c，其中

在Transformer编码端最后一层，c被送入解码端去产生目标语言序列，能区分伪语料中噪声的句子编码向量是用文本句子向量

与该句子词对齐的模型不确定性值向量

作注意力机制得到，这样句子编码表征能捕捉到上下文的模型不确定性值，在编码时能对模型不确定性值较大的词给予更多的关注，用于实现模型在编码过程中能更好的区分来自伪语料中的噪声数据，即漏译，错译，多译的词。

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、为使编码端既能学习回译质量较高的词的编码表征，又能有效降低质量较低的词(漏译，错译，多译的词)对句子有效向量表征的影响，提出，汉缅神经机器翻译训练时，编码端编码方式为：

其中attn_S和attn_un是不同参数的注意力机制模型；

Step3.2、随后进一步送入非线性变换层FFN(·)，在此得到了能够有效处理回译语料中噪声的编码向量：

最后编码端会输出最后一层的隐藏层状态

解码端是常规的transformer解码端，解码过程持续进行直到遇到结束的特殊字符为止。

另一方面，基于模型不确定性约束的半监督汉缅神经机器翻译装置，包括用于执行如第一方面所述方法的模块。

本发明的有益效果是：

本发明提出以实验为支撑的融合机制策略，实现了将模型不确定性融进Transformer编码端每一层表征，解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题；提出模型不确定性注意力机制，用自注意力机制将模型不确定性与Embedding进行深度融合，使编码端能更好的得到伪语料的句子向量表征。汉语-缅甸语神经机器翻译方法具有一定的理论意义和实际应用价值。

附图说明

图1为本发明中模型不确定性注意力机制算法原理图；

图2为本发明中模型不确定性为约束的汉缅机器翻译算法；

图3为本发明中的方法流程框图。

具体实施方式

实施例1：如图1-3所示，第一方面，基于模型不确定性约束的半监督汉缅神经机器翻译方法，所述方法的具体步骤如下：

所述Step1的具体步骤为：

作为本发明的进一步方案，所述Step2的具体步骤为：

作为本发明的进一步方案，所述Step2.2的具体步骤为：

接着计算得出同样长度的序列c＝(c₁,...,c_n)，其中

在此发明中，我们用

标记文本句子向量特征，用

其中

是softmax函数计算的权重系数：

与该句子词对齐的模型不确定性值向量

作为本发明的进一步方案，所述Step3的具体步骤为：

其中attn_S和attn_un是不同参数的注意力机制模型；

最后编码端会输出最后一层的隐藏层状态

下面为本发明装置实施例，本发明实施例还提供了基于模型不确定性约束的半监督汉缅神经机器翻译装置，该装置包括用于执行上述第一方面的方法的模块。具体可以包括：

汉语-缅甸语文本数据预处理模块：用于将汉语-缅甸语文本数据进行数据清洗，编码转换，长度比过滤，分词；

模型不确定性注意力机制的获取模块：用于句子编码表征捕捉到上下文的模型不确定性值，编码时对模型不确定值较大词给予更多的关注；

模型不确定性为约束的汉缅神经机器翻译训练算法模块：将回译过程的模型不确定性融进Transformer编码端每一层表征，提升汉语-缅甸语回译任务翻译性能；

汉语-缅甸语互译模块：通过使用训练好的汉语-缅甸语互译模型，实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。

在一种可行的实施方式中，所述汉语-缅甸语文本数据预处理模块，具体用于：

对汉语-缅甸语文本数据进行清洗：去除汉语、缅甸语文本中的乱码字符，规范标点符号表示方法；

对缅甸语编码转换：缅甸语存在zawgyione字体、Myanmar3字体统一编码转换，变成Unicode字体；

长度比进行过滤：保留汉语比缅甸语句子长度比在1～1.5的句子，移除少于5个词，大于30个词的语句，用于提升模型训练效率；

进行分词：汉语-缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理，所得汉语词典大小为10k，缅甸语词典大小为5k。

在一种可行的实施方式中，所述模型不确定性注意力机制的获取模块，具体用于：

在回译过程中，给定一个真实的目标语言句子y，y∈{D_m}，通过标准的transformer模型解码预测其对应的

将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模，计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量，能区分伪语料中噪声。

在一种可行的实施方式中，所述模型不确定性为约束的汉缅神经机器翻译训练算法模块，具体用于：

当汉缅神经机器翻译训练时，编码端编码方式为：

其中attn_S和attn_un是不同参数的注意力机制模型；

随后进一步送入非线性变换层FFN(·)，在此得到了能够有效处理回译语料中噪声的编码向量：

最后编码端会输出最后一层的隐藏层状态

进一步地，下面为本发明另一种装置实施例，本发明实施例还提供了基于模型不确定性约束的半监督汉缅神经机器翻译装置，该装置包括用于执行上述第一方面的方法的模块。具体可以包括：

模型不确定性为约束的汉缅神经机器翻译模块：量化模型在回译过程中的模型不确定性，将词级别的翻译概率视作随机变量，通过随机停用NMT模型的部分神经元并重新计算翻译概率来进行翻译概率的采样，获取回译过程中的模型不确定性，将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模，计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量，能区分伪语料中噪声。

汉语-缅甸语互译模块：通过使用结合回译过程中模型不确定性训练好的汉语-缅甸语互译模型，实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。

为了说明本发明的效果，本发明进行了如下实验：评价的方法是multi-bleu.perl脚本提供的BLEU计算方法。训练集是160k的汉缅双语平行语料，其中20k的汉缅双语平行语料来自于Asian Language Treebank(ALT),其余的来自于多语言圣经语料库以及人工收集，语料覆盖旅游，文学等领域。缅甸语的单语语料是维基百科上爬取的单语缅甸语文本段落，在分句，移除少于5个词，大于30个词的语句以后，缅甸语单语语料库规模为200k的缅甸语单语句子。测试集是训练集中截取查重后的5k双语平行语句。汉语和缅甸语的句子用分词粒度参数为16k的byte pair encoding进行预处理，汉语词典大小为10k，缅甸语词典大小为5k。本发明将计算不确定性约束的汉缅机器翻译算法应用在Transformer的基础上。使用参数设置β₁＝0.9,β₂＝0.98和∈＝10^-9的Adam优化器优化模型。我们使用参数设置warm_steps＝4000的warm-up策略来调整学习率。在模型训练期间，lable smoothing的超参数∈_ls＝0.1。在训练和Monte Carlo Dropout的过程中，dropout的超参数设置为0.1，K设置成20在实验中，我们的超参数β设置为2，α，γ取值将在实验二详细讨论。所有试验在1NVIDIAGTX 2080Ti GPU上进行。

为了验证本发明提出的发明方法的效果，设计以下对比实验进行分析。在该数据集上进行了3组实验。

实验一、表明了

中α∶γ不同取值对实验结果的影响，实验结果如表1所示。

表1 α∶γ不同取值下模型不确定性注意力机制与Self-Attention融合比例实验结果，Encoder融合层数全为6层

由表可以得出α∶γ＝0.6∶0.4的取值是一个粗糙的分界点，在α∶γ＝0.6∶0.4取值的基础上减小Uncertainty Enc-Attention的融合比例会促进模型性能提升，初步探讨最大提升是当α∶γ＝0.8∶0.2时最大提升值是24.72，较baseline提升了4.01个bleu点。由此可以看出α∶γ的不同取值对模型性能有不同的影响实验二、α∶γ＝0.8∶0.2取值下模型不确定性注意力机制与Self-Attention在编码端融合层数探讨，实验结果如表2所示。

表2 α∶γ＝0.8∶0.2取值下模型不确定性注意力机制与Self-Attention在编码端融合层数探讨

实验证明在模型编码端融入句子中词对齐的uncertainty_bt对模型学习伪语料的句子表征是有实际意义的，在适当的Uncertainty Enc-Attention与Self-Attention融合比例下uncertainty_bt可协助编码端更好的处理伪语料中的噪声，但是当α∶γ＝0.6∶0.4时模型性能有较大幅度的下降，表明编码端融入过多的uncertainty_bt表征会妨碍模型收敛，影响模型性能。进一步证明了编码端的Uncertainty Enc-Attention与Self-Attention融合比例和融合方式具有深远的可探讨意义。

表2表明了在α∶γ＝0.8∶0.2取值下模型不确定性注意力机制融合在编码端不同层数对实验结果影响，由表可以得出，模型不确定性注意力机制融合在Transformer的编码端每一层时模型的效果是最好的。将模型不确定性注意力机制融合在编码端前三层和后三层效果差别不大，当模型不确定性注意力机制只融合在第一层时此方法带给模型提升较小。

实验三、为充分验证方法有效性，本发明设置对比实验如下：

(1)回译方法：利用有限的真实平行语料训练的神经机器翻译模型去生成的伪平行人造语料，再用得到的伪平行人造语料和真实平行语料一起训练模型的回译方法。

(2)迁移学习方法：利用学习好的父模型参数迁移到低资源子模型方法改善低资源语言翻译性能。

(3)CEV：利用基于模型不确定的词级别置信度和句子级别置信度改善回译性能。

(4)Transformer：我们将比较仅在Transformer模型上，不使用回译方法和模型不确定性方法的实验结果。

(5)结合实验二实验结果，此节实验本发明设置α∶γ＝0.8∶0.2，模型不确定性注意力机制与Self-Attention融合编码端层数为6层。

表3主要实验结果

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。