CN112580373A

CN112580373A - 一种高质量蒙汉无监督神经机器翻译方法

Info

Publication number: CN112580373A
Application number: CN202011570925.1A
Authority: CN
Inventors: 苏依拉; 王昊; 贺玉玺; 仁庆道尔吉; 李雷孝; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2021-03-30
Anticipated expiration: 2040-12-26
Also published as: CN112580373B

Abstract

一种高质量蒙汉无监督神经机器翻译方法，对大规模蒙汉单语语料预切分处理，使用Bert对切分语料进行单语语言模型预训练得到蒙语、汉语语言模型，并结合融合子词‑片段的相关矩阵生成方法训练无监督蒙汉分词器，对待分词蒙汉句子中任意两个子词的相关性打分以完成分词，经分词的蒙汉双语嵌入到一个共享的潜在空间，使用无监督对抗自主学习方法最优对齐蒙汉双语词向量空间，对空间中已切分的蒙汉单语语料训练蒙汉语言模型，使用CSLS方法进行最近邻查找得到基于GAS框架的蒙汉双语词典，结合预训练模型生成的蒙汉语言模型训练初始蒙汉翻译模型，并使用无监督回译方法结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。

Description

一种高质量蒙汉无监督神经机器翻译方法

技术领域

本发明属于神经机器翻译技术领域，特别涉及一种高质量蒙汉无监督神经机器翻译方法。

背景技术

机器翻译近年来蓬勃发展，稀少资源语言和少数民族语言的机器翻译任务也获得了更多的关注。蒙古语是一个广泛使用的跨多国、多地区的语言，蒙古语言文字是内蒙古自治区的官方语言文字。蒙汉机器翻译研究一方面对于促进民族文化传播和多民族人民交流有着重要意义，另一方面对于稀少资源和少数民族语言机器翻译研究发展有着积极地推动作用。但是由于有关蒙古语自然语言处理研究起步较晚以及蒙古语词法形态变化相比较英、汉等语言语法复杂使得蒙汉翻译的研究进展相对缓慢。不论是基于统计的机器翻译模型还是神经网络机器翻译模型都需要大量的语料数据做驱动，翻译的性能高度依赖平行语料的规模大小、质量和领域覆盖面。然而蒙汉平行语料目前处于严重匮乏阶段，如何利用现有的语料数据缓解由于资源不足导致的翻译质量不高问题已经成为神经机器翻译的一个重要的研究课题。此外，神经机器翻译还有一些亟待解决的难点。未登录词翻译是神经机器翻译的主要难点之一。因为神经机器翻译系统为了能够控制计算的复杂度，有着一个固定大小的词汇表，这就导致了其在翻译未登录词时有着严重的不足。由于限定词汇表有大小限制，对于未出现在该词汇表中的词，神经机器翻译系统用UNK标记来替代。然而神经机器翻译系统不仅无法将它们翻译准确，而且破坏了句子的结构特征。而蒙语属于黏着语，句子的结构一旦变化，表达的意思也会随之进行变化，甚至出现严重语病，在使用原有系统进行翻译时，经常由于一个长句中出现未登录词而导致翻译偏差。又由于蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性，使得蒙汉翻译过程中出现了大量的未登录词，进而给蒙汉翻译工作带来更多的麻烦。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种高质量蒙汉无监督神经机器翻译方法，将高质量无监督学习策略应用到蒙汉神经机器翻译中，以充分利用现有大量无标签单语数据来缓解蒙汉并行语料资源缺乏问题。

为了实现上述目的，本发明采用的技术方案是：

一种高质量蒙汉无监督神经机器翻译方法，包括如下步骤：

步骤1，使用字节对编码技术(BPE)对大规模蒙汉单语语料进行预切分处理，将蒙语、汉语句子全部分成单个字符。

步骤2，使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练，分别得到蒙语、汉语语言模型。

步骤3，将蒙语、汉语语言模型其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙汉分词器基于Bert训练得到的无监督蒙汉分词器对待分词蒙汉句子中任意两个子词的相关性打分以完成分词。

步骤4，将经过分词的蒙汉双语嵌入到一个共享的潜在空间，使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间。.

步骤5，使用一种基于transformer-XL+mask框架的序列到序列预训练模型(MPM)共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型。

步骤6，对基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典。

步骤7，使用基于GAS框架生成的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型基于一种带记忆单元的transformer-LR框架训练初始蒙汉翻译模型。

步骤8，对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法，结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。

步骤9，对本发明一种高质量蒙汉无监督神经机器翻译模型进行BLUE值评测。

与现有技术相比，本发明提出的一种高质量蒙汉无监督神经机器翻译方法简单可行，其中基于Bert训练出的无监督分词器有效降低了蒙汉翻译中蒙语未登录词个数，解决了蒙语中存在大量未登录词导致翻译结果存在严重偏差问题；使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间，结合一种基于transformer-XL+mask框架的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型，通过对蒙汉双语编码器-解码器共同训练结合transformer-XL框架自有的长距离依赖特性，解决了由于蒙汉语言差异较大导致的在仅有单语训练的条件下模型无法充分捕获蒙汉单语及双语语言知识的问题，进一步提高蒙汉翻译译文生成质量；使用一种新型蒙汉无监督学习训练框架基于transformer-LR作为编码器-注意力-解码器架构，通过对偶学习结合上述预训练得到的蒙汉单语语言模型经无监督回译方法迭代训练蒙汉、汉蒙双向对偶无监督翻译模型，解决了传统无监督蒙汉机器翻译由于缺少记忆单元无法将语义信息融合到翻译模型训练过程而导致的翻译结果错译、漏译的问题，进一步提升了无监督蒙汉机器翻译的译文流畅度与翻译准确率。

附图说明

图1是实现一种高质量蒙汉无监督神经机器翻译方法的流程图。

图2是实现一种基于Bert训练无监督蒙汉分词器方法的流程图。

图3是实现一种基于MPM框架对已切分的蒙汉单语语料训练语言模型方法的示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种高质量蒙汉无监督神经机器翻译方法，其过程为：

步骤1，使用Bert训练一种无监督分词器：以蒙语为例，使用BPE对大规模蒙语单语语料进行预切分处理，之后使用Bert对大规模蒙语单语切分语料进行单语语言模型预训练，训练出蒙语单语语言模型之后，将其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器，之后通过对待分词蒙语句子中任意两个子词的相关性打分以完成分词，汉语同理。

其中，Bert对大规模蒙语单语切分语料进行单语语言模型预训练时，输入的蒙语句子序列设定15％的mask概率，即随机选中蒙语句子序列中15％的单词进行mask，其中设定80％的概率mask掉选中的蒙语单词，即使用[mask]标记替换掉原单词，10％情况下使用任意蒙语单词替换选中单词，剩余10％情况下保持原词汇不变。

参考图2，将Bert训练得到的语言模型作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器的步骤为：

首先，对于经过预切分步骤的待分词蒙语句子序列x＝(x₁,x₂,…,x_t)，使用一种基于子词级的相关矩阵生成方法测试任意两个token的相关度，使用B(x)表示序列x经过Bert编码器后的输出序列，而B(x)_i则表示第i个token所对应的编码向量，另外，x\{x_i}表示将第i个token替换为[mask]后的序列，x\{x_i,x_j}表示将第i,j个token都替换为[mask]后的序列。设f(x_i,x_j)表示第i个token对第j个token的依赖程度，或者说第j个token对第i个token的“影响力”，即x_i,x_j之间的相关度。这里将其定义为：

f(x_i,x_j)＝d(B(x\{x_i})_i,B(x\{x_i,x_j})_i)

其中d(·,·)为欧氏距离，即d(u,v)＝‖u-v‖₂。此时可以得到一个T×T的相关矩阵用于衡量x_i,x_j之间的相关度。实验结果证明使用该方法进行蒙语单词切分可以有效地切分出蒙语单词的前缀及后缀及其对应关系。

之后，使用一种基于子词片段的相关矩阵生成方法测试任意两个token片段的相关度，这里Bert的输入还是token，但需要将token分组成若干个token片段，定义句子序列D＝[e₁,e₂,…,e_N]，其中

这时定义一个N×N的相关矩阵用于衡量token片段e_i与e_j，定义原理跟上文类似：

f(e_i,e_j)＝d(B(D\{e_i})_i,B(D\{e_i,e_j})_i)

这里B(D\{e_i})_i是指Bert输出的e_i对应的M_i个向量的平均。

最后，结合上述定义的子词及子词片段的相关矩阵生成方法共同对经过BPE预处理的蒙语单语语料再次进行分词，分词设定一个阈值，先对token进行切分，相关度小于这个阈值的两个token切开，大于等于这个阈值的两个token拼接，之后再对生成的token片段再次进行切分，本发明中使用

作为相邻两个token的相关程度度量，使用

作为相邻两个token片段的相关程度度量。

本发明使用上述Bert学习语言模型结合一种融合子词-片段的相关矩阵生成方法训练出的无监督蒙语分词器，能够将蒙语语料更加精确的切分出具有实际意义的蒙语单词，本发明一定程度上缓解了由于蒙语独特的构词法导致现有的词切分方法不够准确而产生大量未登录词的问题

步骤2，对分词后的蒙汉单语语料共同训练语言模型：将经过分词的蒙汉双语嵌入到一个共享的潜在空间，使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间，结合一种基于transformer-XL+mask框架的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。参考图3，具体步骤为：

步骤2.1，对分词后的蒙汉单语语料共同训练语言模型。

步骤2.1.1，为了保留上述蒙语句子序列切分后单词内部的形态特征，将经过分词的蒙汉双语使用fastText作为编码器，使用其的字符级n-grams将切分后的蒙汉双语嵌入到一个共享的潜在空间。

步骤2.1.2，对嵌入到共享的潜在空间的蒙语、汉语词向量分布，使用一种无监督对抗自主学习方法(GAS方法)实现蒙汉双语词向量空间最优对齐。

步骤2.1.3，使用基本对齐的蒙汉双语词向量分布结合一种带mask的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。

无监督对抗自主学习方法(GAS方法)的目的为通过一种对抗与自主学习方法相结合的词向量对齐方法对齐蒙汉双语词向量空间，先使用一种双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间，再结合一种基于自主学习的对齐方法实现蒙汉双语词向量空间最优对齐，为之后训练语言模型及翻译模型提供蒙汉双语初始对应关系。其步骤为：

步骤2.2，双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间，其步骤为：

步骤2.2.1，设分词后的蒙语句子词向量集合为x＝(x₁,x₂,…,x_n)，分词后的汉语词向量集合为y＝(y₁,y₂,…,y_m)，定义两个transformer解码器Dec_mo与Dec_zh，其中Dec_mo用于重构已嵌入在共享空间的蒙语词向量，同理Dec_zh用于重构已嵌入在共享空间的汉语词向量，以蒙语为例，将共享潜在空间中的蒙语词向量x_i通过解码器Dec_mo产生重置后的词嵌入X_i，这里将原始和重新构造的词嵌入之间的差异设定为损失函数:

L(mo)＝d(x_i,X_i)＝d(x_i,Dec_mo(Enc₁(x_i)))

同理对汉语，将原始和重新构造的词嵌入之间的差异设定为损失函数，其中Y_i为汉语词向量，

L(zh)＝d(y_i,Y_i)＝d(y_i,Dec_zh(Enc₂(y_i)))

步骤2.2.2，对fastText编码器与上步设定的解码器共同进行训练以最大程度地减少损耗函数，其中d(·,·)为欧氏距离.

步骤2.2.3，通过对抗训练引导通过fastText编码器的单词嵌入结果x_i与y_i尽可能相似。其步骤为：

步骤2.2.3.1，通过解码器Dec_mo重构已嵌入在共享空间的汉语词向量，同理对蒙语词向量使用解码器Dec_zh进行重构，即：

步骤2.2.3.2，训练基于transformer的鉴别器D_x和D_y对原始单词嵌入和重构单词嵌入进行分类：

步骤2.2.3.3，训练两个自动编码器用于混淆鉴别器：

l_auto(y_i)＝log(1-D_x(Dec_mo(Enc₂(y_i))))

l_auto(x_i)＝log(1-D_y(Dec_zh(Enc₁(x_i))))

步骤2.2.4，通过迭代优化总目标函数中的自动编码器损耗和上述鉴别器损耗，引导通过fastText编码器的单词嵌入结果x_i与y_i尽可能相似，初步对齐蒙汉双语词向量空间。其中λ_aλ_b为加权超参数，本发明中均设定为0.5。

l_total＝λ_a(l(mo)+l(zh))+λ_b(l_auto(x_i)+l_auto(y_i))

步骤2.3，结合一种基于自主学习的对齐方法最终对齐蒙汉双语词向量空间，即将上述一种双编码器-解码器对抗重构框架作为初始化方法与一种健壮的自主学习方法相结合，从初始对齐的词向量空间逐步迭代改进蒙汉双语词空间的映射，最终实现蒙汉双语词向量空间最优对齐。其步骤为：

步骤2.2.3.1，对上一步初步对齐的蒙汉词向量空间x_i与y_i生成两个词嵌入矩阵MO与ZH，其中行代表蒙语或汉语的词向量，列代表词向量的维度，经过上一步的初始对齐，MO_i与ZH_i之间已经有了初步的对应关系。

步骤2.2.3.2，定义两个转换矩阵W_mo，W_zh用于引导蒙汉词向量空间进一步对齐，即引导MOW_mo和ZHW_zh对齐在同一个向量空间。定义一个测试词典D_mo-zh，如果汉语中的第j个词是第i个蒙语单词的翻译，此时

首先计算最大化当前字典D_mo-zh相似度的最佳正交映射以训练转换矩阵：

步骤2.2.3.3，是在映射嵌入的相似矩阵

上进行最佳词典的计算。本发明使用最近邻搜索，当j＝argmax_k((MO_i*W_mo)*(ZH_k*W_zh))，则有

此时MO_i与ZH_j构成一组词对。

步骤2.2.3.4，对上述两个步骤进行迭代训练直到模型收敛，即实现蒙汉双语词向量空间最优对齐。

步骤3，结合蒙汉单语语言模型训练蒙汉对比无监督翻译系统：使用一种蒙汉无监督学习训练框架结合transformer-LR作为编码器-注意力-解码器架构，通过对偶学习结合上述预训练得到的蒙汉单语语言模型迭代训练得到一个蒙汉、汉蒙双向对偶无监督翻译模型。具体步骤为：

步骤3.1，最优对齐蒙汉双语词向量空间结合一种带mask的蒙汉序列到序列预训练模型(MPM)共同对已切分的蒙汉单语语料训练语言模型，其中预训练模型使用结合注意力单元的transformer-XL作为编码器-注意力-解码器框架，并引入一种与Bert-base类似的mask机制，不同的是Bert-base引入了两个用于自然语言理解的预训练任务(屏蔽语言建模和下一个句子预测)，且Bert-base只使用一个编码器提取单个句子或一对句子的表示形式，故其不适合通常利用编码器解码器框架进行条件序列生成的语言生成任务(如机器翻译)。而本发明使用的带mask的蒙汉序列到序列预训练模型是对基于transformer-XL的编码器和解码器共同进行训练。

步骤3.2，对不成对的大规模蒙汉单语句子，假定经上述Bert训练的无监督分词模型切分后的蒙语句子集合为X＝(x₁,x₂,…,x_n)，给定其中的x_i∈X，设

表示句子x_i的相对编码序列位置a到位置b，设

表示句子x_i的序列中从相对位置a到相对位置b被遮蔽，即被mask掉。其中0<a<b<m，m表示句子x_i序列中所有的token数。句子x_i的序列中从相对位置a到相对位置b被遮蔽，即定义特殊遮蔽符号[M]，使用遮蔽符以一定比例替换句子x_i中从相对位置a到相对位置b的所有token，以实现句子长度不发生变化，设序列到序列模型学习参数为μ，本发明预训练模型的目标函数为：

步骤3.3，对基于transformer-XL的编码器和解码器共同进行训练，步骤如下：

首先，通过预测在编码器端被掩盖的句子片段，MPM框架可以强制基于transformer-XL的编码器了解未屏蔽token的含义以及token之间的长距离依赖，以便在解码器端预测已屏蔽token。之后，通过屏蔽在编码器端未屏蔽的token对基于transformer-XL的解码器进行输入，强制解码器更多地依赖编码器端学习到的蒙汉语言知识，而不是依赖编码器端输入的中前序token以进行下一个token预测，从而更好地促进编码器和解码器之间的联合训练，最大限度地仅基于蒙汉单语捕获蒙汉语言知识与语义信息。

步骤3.4，使用一种带回译单元的蒙汉无监督训练框架通过对偶学习迭代训练得到一个蒙汉、汉蒙双向对偶无监督翻译模型，其步骤为：

步骤3.4.1，对上述基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典，对蒙汉词向量MO_i与ZH_j，将CSLS方法定义为：

CSLS(MO_i,ZH_j)＝2cos(MO_i,ZH_j)-r^ZH(MO_i)-r^MO(ZH_j)

其中r^ZH是汉语单词与其邻居的平均相似度，定义为：

其中N_j(MO_i)是蒙语词向量投影的邻居，K为总邻居数。CSLS方法结合基于GAS框架的蒙汉词向量最优对齐一定程度上增加了孤立点的相似度，降低了聚集点的相似度，进而明显提升蒙汉双语词典的准确度。

步骤3.4.2，使用基于GAS框架生成的蒙汉双语词典结合上述带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型训练初始蒙汉翻译模型，其步骤为：

步骤3.4.2.1，将经过Bert训练的无监督蒙语分词器切分的蒙语单语语基于蒙汉双语词典进行序列到序列逐词翻译，结合基于MPM框架训练的生成蒙→汉伪平行语料，同理对分词后的汉语语料经逐词翻译后结合语言模型生成汉→蒙伪平行语料。

步骤3.4.2.2，使用蒙→汉伪平行语料基于一种transformer-LR框架训练初始蒙汉翻译模型，在原有transformer架构的基础上加入一个记忆模块以最大限度地提升模型捕捉输入伪平行语料中长程语义的能力，其中每种语言的一个句子序列经过编码器计算后其隐状态会被压缩放入记忆模块中用于在解码器中重建，其损失函数为：

其中，mem表示记忆模块，cm表示压缩记忆模块,g为模型权重。

步骤3.4.2.3，对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法，结合对偶学习策略共同训练一个蒙汉、汉蒙双向对偶无监督翻译模型。其步骤为：

首先使用初始蒙汉翻译模型从一句蒙语单语句子开始，通过蒙语翻译到汉语，产生一个可能错误的翻译，然后再用初始汉蒙翻译模型重建蒙语句子,通过重建蒙语句子与初始蒙语句子之间的差异为训练汉蒙翻译模型提供了误差信号。同理使用初始汉蒙翻译模型通过汉语翻译到蒙语，再用初始蒙汉翻译模型重建汉语句子，通过重建汉语句子与初始汉语句子之间的差异为训练蒙汉翻译模型提供了误差信号。

步骤3.4.3，上述汉蒙、蒙汉翻译模型可组成对偶模型不断迭代训练，使用对偶学习方法结合回译迭代训练翻译模型的损失函数为：

L_DL+BT＝aE[-logP_MO→ZH(ZH|u^*(ZH))]+bE[-logP_ZH→MO(MO|v^*(MO))]

v^*(MO)＝argmaxP_MO→ZH(v|MO)

u^*(ZH)＝argmaxP_ZH→MO(u|ZH)

其中，v^*(MO)表示来源于蒙语单语句子通过蒙汉→汉蒙翻译模型重建蒙语句子中的一句，u^*(ZH)表示来源于汉语单语句子通过汉蒙→蒙汉翻译模型重建汉语句子中的一句，上述生成的(MO,v^*(MO))、(ZH,u^*(ZH))作为翻译的误差信号自动修改模型超参数a，b以实现最小化模型训练损失函数。

最终，无监督翻译模型的总目标函数为：

步骤4，对所述无监督蒙汉翻译模型的翻译译文进行BLEU值评测以验证结果。

BLEU值是用来评估机器翻译译文质量的工具，分数越高说明机器翻译模型性能越好，BLEU值的公式为：

其中，w_n＝1/M，M是译文和参考译文的组词数，M的上限取值为4，p_n代表n元语法准确率，BP代表译文较短惩罚因子：

BP＝e^min(1-r/h,0)

其中，h为候选译文中单词的个数，r是与h长度最接近的参考译文长度。

综上，本发明首先使用Bert训练一种无监督蒙语分词器：使用BPE对大规模蒙语单语语料进行预切分处理，之后使用Bert对大规模蒙语单语切分语料进行单语语言模型预训练，训练出蒙语单语语言模型之后，将其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器，之后通过对待分词蒙语句子中任意两个子词的相关性打分以完成分词，最后对汉语单语语料使用同样的方法训练分词。

其次，对分词后的蒙汉单语语料共同训练语言模型：将经过分词的蒙汉双语嵌入到一个共享的潜在空间，使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间，结合一种基于transformer-XL框架带mask的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。

之后，结合蒙汉单语语言模型训练蒙汉无监督翻译系统：使用一种新型蒙汉无监督学习训练框架基于transformer-LR作为编码器-注意力-解码器架构，通过对偶学习结合上述预训练得到的蒙汉单语语言模型经无监督回译方法迭代训练得到一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。

最后，对所述无监督蒙汉翻译模型的翻译译文进行BLEU值评测以验证结果。

本发明从降低无监督蒙汉翻译中未登录词个数和提高无监督蒙汉机器翻译译文质量的角度出发，针对蒙语-汉语翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题提出了一种高质量蒙汉无监督神经机器翻译方法，其实现过程如下：

01：使用字节对编码技术(BPE)对大规模蒙汉单语语料进行预切分处理，将蒙语、汉语句子全部分成单个字符。

02：使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练，分别得到蒙语、汉语语言模型。

03：将蒙语、汉语语言模型其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙汉分词器。

04：基于Bert训练得到的无监督蒙汉分词器对待分词蒙汉句子中任意两个子词的相关性打分以完成分词。

05：将经过分词的蒙汉双语嵌入到一个共享的潜在空间，使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间。

06：使用一种基于transformer-XL+mask框架的序列到序列预训练模型(MPM)共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型。

07：对基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典。

08：使用基于GAS框架生成的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型基于一种带记忆单元的transformer-LR框架训练初始蒙汉翻译模型。

09：对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法，结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。

10：最后，对本发明一种高质量蒙汉无监督神经机器翻译模型进行BLUE值评测。

Claims

1.一种高质量蒙汉无监督神经机器翻译方法，其特征在于，包括如下步骤：

步骤1，使用字节对编码技术对大规模蒙汉单语语料进行预切分处理，将蒙语、汉语句子全部分成单个字符；

步骤2，使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练，分别得到蒙语、汉语语言模型；

步骤3，将蒙语、汉语语言模型作为先验知识，结合融合子词-片段的矩阵生成方法训练无监督蒙汉分词器，对待分词蒙汉句子中任意两个子词的相关性打分以完成分词；

步骤4，将经过分词的蒙汉双语嵌入到一个共享的潜在空间，使用无监督对抗自主学习方法最优对齐蒙汉双语词向量空间；

步骤5，使用基于transformer-XL+mask框架的序列到序列预训练模型共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型；

步骤6，对最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典；

步骤7，使用基于GAS框架的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型生成蒙汉语言模型，并基于带记忆单元的transformer-LR框架训练初始蒙汉翻译模型；

步骤8，对已生成的蒙汉、汉蒙翻译模型使用无监督回译方法，结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型；

步骤9，对高质量蒙汉无监督神经机器翻译模型进行BLUE值评测，得到最终的翻译模型，并利用该翻译模型进行蒙汉翻译。

2.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤2中，Bert对大规模蒙语单语切分语料进行单语语言模型预训练时，输入的蒙语句子序列设定15％的mask概率，即随机选中蒙语句子序列中15％的单词进行mask，其中设定80％的概率mask掉选中的蒙语单词，即使用[mask]标记替换掉原单词，10％情况下使用任意蒙语单词替换选中单词，剩余10％情况下保持原词汇不变。

3.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤3中，训练无监督蒙汉分词器并完成分词的步骤为：

首先，对于经过预切分步骤的待分词蒙语句子序列x＝(x₁,x₂,…,x_t)，使用基于子词级的相关矩阵生成方法测试任意两个token的相关度，使用B(x)表示序列x经过Bert编码器后的输出序列，B(x)_i表示第i个token所对应的编码向量，x\{x_i}表示将第i个token替换为[mask]后的序列，x\{x_i,x_j}表示将第i,j个token都替换为[mask]后的序列，设f(x_i,x_j)表示第i个token对第j个token的依赖程度，即x_i,x_j之间的相关度，定义为：

f(x_i,x_j)＝d(B(x\{x_i})_i,B(x\{x_i,x_j})_i)

其中d(·,·)为欧氏距离，即d(u,v)＝‖u-v‖₂，得到一个T×T的相关矩阵用于衡量x_i,x_j之间的相关度；

之后，使用基于子词片段的相关矩阵生成方法测试任意两个token片段的相关度，Bert的输入仍为token，并将token分组成若干个token片段，定义句子序列D＝[e₁,e₂,…,e_N]，其中

定义一个N×N的相关矩阵用于衡量token片段e_i与e_j，定义为：

f(e_i,e_j)＝d(B(D\{e_i})_i,B(D\{e_i,e_j})_i)

其中B(D\{e_i})_i是指Bert输出的e_i对应的M_i个向量的平均；

最后，结合子词及子词片段的相关矩阵生成方法共同对经过BPE预处理的蒙语单语语料再次进行分词，分词设定一个阈值，先对token进行切分，相关度小于该阈值的两个token切开，大于等于这个阈值的两个token拼接，之后再对生成的token片段再次进行切分。

4.根据权利要求3所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤4中，将经过分词的蒙汉双语使用fastText作为编码器，使用其字符级n-grams将切分后的蒙汉双语嵌入到一个共享的潜在空间。

5.根据权利要求3或4所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述无监督对抗自主学习方法的步骤为：

步骤4.1，利用双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间，其步骤为：

步骤4.1.1，设分词后的蒙语句子词向量集合为x＝(x₁,x₂,…,x_n)，分词后的汉语词向量集合为y＝(y₁,y₂,…,y_m)，定义两个transformer解码器Dec_mo与Dec_zh，其中Dec_mo用于重构已嵌入在共享空间的蒙语词向量，Dec_zh用于重构已嵌入在共享空间的汉语词向量，对蒙语，将共享潜在空间中的蒙语词向量x_i通过解码器Dec_mo产生重置后的词嵌入X_i，将原始和重新构造的词嵌入之间的差异设定为损失函数：

L(mo)＝d(x_i,X_i)＝d(x_i,Dec_mo(Enc₁(x_i)))

对汉语，将原始和重新构造的词嵌入之间的差异设定为损失函数，其中Y_i为汉语词向量，

L(zh)＝d(y_i,Y_i)＝d(y_i,Dec_zh(Enc₂(y_i)))

步骤4.1.2，对fastText编码器与设定的解码器共同进行训练以最大程度地减少损耗函数，其中d(·,·)为欧氏距离；

步骤4.1.3，通过对抗训练引导通过fastText编码器的单词嵌入结果x_i与y_i尽可能相似，其步骤为：

首先，通过解码器Dec_mo重构已嵌入在共享空间的汉语词向量，对蒙语词向量使用解码器Dec_zh进行重构，即：

其次，训练基于transformer的鉴别器D_x和D_y对原始单词嵌入和重构单词嵌入进行分类：

之后，训练两个自动编码器用于混淆鉴别器：

l_auto(y_i)＝log(1-D_x(Dec_mo(Enc₂(y_i))))

l_auto(x_i)＝log(1-D_y(Dec_zh(Enc₁(x_i))))

步骤4.1.4，通过迭代优化总目标函数中的自动编码器损耗和鉴别器损耗，引导通过fastText编码器的单词嵌入结果x_i与y_i尽可能相似，初步对齐蒙汉双语词向量空间：

l_total＝λ_a(l(mo)+l(zh))+λ_b(l_auto(x_i)+l_auto(y_i))

其中λ_aλ_b为加权超参数；

步骤4.2，从初始对齐的词向量空间逐步迭代改进蒙汉双语词空间的映射，最终实现蒙汉双语词向量空间最优对齐，其步骤为：

步骤4.2.1，对初步对齐的蒙汉词向量空间x_i与y_i生成两个词嵌入矩阵MO与ZH，其中行代表蒙语或汉语的词向量，列代表词向量的维度，经过步骤4.1的初步对齐，MO_i与ZH_i之间已经有了初步的对应关系

步骤4.2.2，定义两个转换矩阵W_mo，W_zh用于引导蒙汉词向量空间进一步对齐，即引导MOW_mo和ZHW_zh对齐在同一个向量空间，定义一个测试词典D_mo-zh，如果汉语中的第j个词是第i个蒙语单词的翻译，此时

计算最大化当前字典D_mo-zh相似度的最佳正交映射以训练转换矩阵

步骤4.2.3，在映射嵌入的相似矩阵

上进行最佳词典的计算；

步骤4.2.4，对步骤4.2.2和步骤4.2.3进行迭代训练直到模型收敛，即实现蒙汉双语词向量空间最优对齐。

6.根据权利要求5所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤5中，预训练模型使用结合注意力单元的transformer-XL作为编码器-注意力-解码器框架，并引入mask机制，对基于transformer-XL的编码器和解码器共同进行训练；

其中，所述列预训练模型对不成对的大规模蒙汉单语句子，假定经Bert训练的无监督分词模型切分后的蒙语句子集合为X＝(x₁,x₂,…,x_n)，给定其中的x_i∈X，设

表示句子x_i的相对编码序列位置a到位置b，设

表示句子x_i的序列中从相对位置a到相对位置b被遮蔽，即被mask掉，其中0<a<b<m，m表示句子x_i序列中所有的token数，句子x_i的序列中从相对位置a到相对位置b被遮蔽，即定义特殊遮蔽符号[M]，使用遮蔽符以一定比例替换句子x_i中从相对位置a到相对位置b的所有token，以实现句子长度不发生变化，设序列到序列模型学习参数为μ，预训练模型的目标函数为：

所述对基于transformer-XL的编码器和解码器共同进行训练，过程为：首先，通过预测在编码器端被掩盖的句子片段，MPM框架强制基于transformer-XL的编码器了解未屏蔽token的含义以及token之间的长距离依赖，以便在解码器端预测已屏蔽token；之后，通过屏蔽在编码器端未屏蔽的token对基于transformer-XL的解码器进行输入，强制解码器更多地依赖编码器端学习到的蒙汉语言知识，最大限度地仅基于蒙汉单语捕获蒙汉语言知识与语义信息。

7.根据权利要求6所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤6中，对蒙汉词向量MO_i与ZH_j，将CSLS方法定义为：

CSLS(MO_i,ZH_j)＝2cos(MO_i,ZH_j)-r^ZH(MO_i)-r^MO(ZH_j)

其中r^ZH是汉语单词与其邻居的平均相似度，定义为：

其中N_j(MO_i)是蒙语词向量投影的邻居，K为总邻居数。

8.根据权利要求7所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤7中，首先将经过Bert训练的无监督蒙语分词器切分的蒙语单语语基于蒙汉双语词典进行序列到序列逐词翻译，结合基于MPM框架训练的模型生成蒙→汉伪平行语料，对分词后的汉语语料经逐词翻译后结合模型生成汉→蒙伪平行语料；之后使用蒙→汉伪平行语料基于transformer-LR框架训练初始蒙汉翻译模型，在原有transformer架构的基础上加入一个记忆模块以最大限度地提升模型捕捉输入伪平行语料中长程语义的能力，其中每种语言的一个句子序列经过编码器计算后其隐状态会被压缩放入记忆模块中用于在解码器中重建，其损失函数为：

其中，mem表示记忆模块，cm表示压缩记忆模块,g为模型权重。

9.根据权利要求8所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述步骤8中，无监督回译方法的步骤为：首先使用初始蒙汉翻译模型从一句蒙语单语句子开始，通过蒙语翻译到汉语，产生一个可能错误的翻译，然后再用初始汉蒙翻译模型重建蒙语句子，通过重建蒙语句子与初始蒙语句子之间的差异为训练汉蒙翻译模型提供了误差信号；并使用初始汉蒙翻译模型通过汉语翻译到蒙语，再用初始蒙汉翻译模型重建汉语句子，通过重建汉语句子与初始汉语句子之间的差异为训练蒙汉翻译模型提供误差信号。

10.根据权利要求9所述高质量蒙汉无监督神经机器翻译方法，其特征在于，所述汉蒙、蒙汉翻译模型组成对偶模型不断迭代训练，使用对偶学习方法结合回译迭代训练翻译模型的损失函数为：

L_DL+BT＝aE[-logP_MO→ZH(ZH|u^*(ZH))]+bE[-logP_ZH→MO(MO|v^*(MO))]

v^*(MO)＝argmaxP_MO→ZH(v|MO)

u^*(ZH)＝argmaxP_ZH→MO(u|ZH)

其中，v^*(MO)表示来源于蒙语单语句子通过蒙汉→汉蒙翻译模型重建蒙语句子中的一句，u^*(ZH)表示来源于汉语单语句子通过汉蒙→蒙汉翻译模型重建汉语句子中的一句，上述生成的(MO,v^*(MO))、(ZH,u^*(ZH))作为翻译的误差信号自动修改模型超参数a，b以实现最小化模型训练损失函数‘’

所述无监督翻译模型的总目标函数为：