CN112215017B

CN112215017B - 一种基于伪平行语料库构造的蒙汉机器翻译方法

Info

Publication number: CN112215017B
Application number: CN202011141114.XA
Authority: CN
Inventors: 仁庆道尔吉; 刘永超; 苏依拉; 石宝; 李雷孝; 庞蕊; 文丽霞
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-04-29
Anticipated expiration: 2040-10-22
Also published as: CN112215017A

Abstract

一种基于伪平行语料库构造的蒙汉机器翻译方法，通过利用简单数据增强、回译两种方式以精确蒙汉平行语料库为依据分别构造出蒙汉伪平行语料库

和

其中回译技术中所使用的汉蒙翻译模型ΘB采用条件生成对抗网络的架构来构建。将精确蒙汉平行语料库、

三个语料库混合得到大规模蒙汉伪平行语料库，使用此语料库同样以条件生成对抗网络的架构来训练蒙汉翻译模型ΘA,并在训练过程中使用软上下文数据增强技术将输入到蒙汉翻译模型ΘA的编码器中的蒙语词的one‑hot向量进行平滑处理，利用这个平滑向量随机的替换原本要输入到翻译模型ΘA中编码器的one‑hot向量进行训练；目的在于优化翻译模型ΘA的参数，提升模型ΘA的翻译能力。

Description

一种基于伪平行语料库构造的蒙汉机器翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种基于伪平行语料库构造的蒙汉机器翻译方法。

背景技术

近几年神经机器翻译发展迅速，在多种翻译任务中神经机器翻译方法的表现都完全碾压基于概率的传统的翻译方法；但是作为一种以大量数据作为驱动的方法，神经机器翻译在翻译任务上的表现情况很大程度上和数据量的大小有关。由于历史文化的诸多因素的影响，可直接使用的蒙汉平行语料库规模小质量低成为了蒙汉神经机器翻译发展的拦路虎；通过人工翻译的方法来制造平行语料库费时费力，那么使用合适的方法来扩大蒙汉平行语料库规模从而提高翻译任务的完成度已经迫在眉睫。

发明内容

为了克服上述现有技术的缺点，解决可直接使用的蒙汉平行语料库规模小的问题，本发明的目的在于提供一种基于伪平行语料库构造的蒙汉机器翻译方法，使用简单数据增强，回译两种技术来直接根据精确蒙汉平行语料库来分别构造两个不同的伪平行语料库，并于一起与精确蒙汉平行语料库混合得到大规模的蒙汉为平行语料库；并在训练蒙汉翻译模型ΘA时，使用软数据增强技术进一步优化词向量表示来提高模型的质量；在选取蒙汉翻译模型ΘA和汉蒙回译模型ΘB的架构时采用条件生成对抗网络的架构来搭建，提高模型的翻译质量。

为了实现上述目的，本发明采用的技术方案是：

一种基于伪平行语料库构造的蒙汉机器翻译方法，包括如下骤：

第一步：利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到蒙汉伪平行语料库

第二步：利用条件生成对抗网络构建一个汉蒙回译模型ΘB，并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子，得到蒙汉伪平行语料库

第三步：将精确蒙汉平行语料库、蒙汉伪平行语料库

和蒙汉伪平行语料库

混合得到大规模蒙汉伪平行语料库，利用软上下文数据增强方法对大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强；

第四步：利用条件生成对抗网络构建蒙汉翻译模型ΘA，随后利用增强的词义表示进行词嵌入，训练蒙汉翻译模型ΘA，提升其翻译能力。

所述简单数据增强方法是通过四种操作方式对精确蒙汉平行语料库中的蒙语句子进行增强，所述四种操作方式分别是：

同义词替换：在句子中随机选择n₁个词，利用每个词的同义词或近义词与其替换；遍

随机插入：在句子中随机选择一个词，并将该词的同义词或近义词插入到该句子中随机选择的位置上，针对一个句子重复n₂次；

随机交换：在句子中随机选择两个词，并交换其位置，针对一个句子重复n₃次；

随机删除：以一定的概率对句子中每一个词执行删除操作，被删除蒙语词的个数为n₄；

对一个蒙语句子随机采用上述四种操作方式中的一种进行增强，每增强一次即产生一个增强的蒙语句子；对该增强的蒙语句子使用原蒙语句子对应的汉语句子作为其数据标签。

在具体的操作时，精确蒙汉平行语料库中的蒙语句子有长有短；长蒙语句子在增强的过程中可以承受较多的数据噪声并且保留使用原数据的标签，而短句子对数据噪声的承受能力就相对较弱；那么如何动态为一个特定的蒙语句子确定一个合适的被操作词个数、操作次数以及删除操作概率成为一个必须要解决的问题。

通过如下公式为一个蒙语句子确定n₁、n₂、n₃以及n₄：

n₁＝p₁l

n₂＝p₂l

n₃＝p₃l

n₄＝p₄l

式中p₁是同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例，p₂是随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例，p₃是随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例，p₄是随机删除操作中的删除概率；l是句子的长度。

将所述四种操作方式分别单独测试，分别得到p₁～p₄对应于同义词替换、随机插入、随机交换、随机删除操作四种操作方式的四个操作比率：同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例p₁、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p₂、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p₃、随机删除操作中的删除概率p₄的取值区间；取四个取值区间的交集得到p₁～p₄的最终取值记作p。

不难看出为了方便操作将p作为公式中的p₁～p₄四个值的最终取值，p其实是一个超参数，即最终在简单数据增强技术运行之前需要人为给出确切的p的值；在整个技术运行过程中p的值只需确定一次，并对四种操作都适用。通过使用这四种简单数据增强的方式可以得到第一个蒙汉伪平行语料库

所述汉蒙回译模型ΘB的构建方式如下：

首先条件生成对抗网络的生成器G在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子；生成器G每生成一个蒙语词，鉴别器D都会给生成器G一个奖励值，生成器G生成蒙语句子的质量越高则奖励值越大；生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建，本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BL_G和BL_D；此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题。

生成器G的损失函数J(θ)表达式如下：

其中，θ是实现生成器G的网络模型BL_G内部的参数；Y_1:T＝y₁,…,y_T，表示生成器G生成的蒙语句子；X是指汉语句子；Y^*表示真实蒙语句子；G_θ(Y_1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y_1:T的初始损失模型。

表示在鉴别器D中以生成器G对蒙语词语的翻译所规定的推测规则为策略记作G_θ，在给定汉语句子X和已经生成的前T-1个蒙语词Y_1:T-1记作(Y_1:T-1,X)的状态下，对下一个蒙语词y_T的翻译行为即采取行动y_T后所得到的奖励值；

奖励值

由鉴别器D给出，其表达式如下：

其中D(X,Y_1:T)是鉴别器D在在给定汉语句子X的条件下翻译成蒙语句子Y_1:T时给出的初始奖励值；b(X,Y_1:T)是偏置项，其目的是为了减少鉴别器D给出的奖励值的方差。

使用蒙特卡罗搜索在由模型BL_G实现的且参数为θ的生成器G规定的策略G_θ的驱使下抽取未知的蒙语词；当待确定的蒙语句子的最后一个词被选中或者蒙语句子已经达到最大长度则结束一次搜索，执行多次蒙特卡罗搜索以提高模型的稳定性，公式如下：

其中N是蒙特卡罗搜索执行的次数；T_i表示第i次蒙特卡罗搜索出的生成器G翻译出的蒙语句子的长度；t是指当前以确定翻译完毕的蒙语词的序号，(Y_1:t,X)＝(y₁,…,y_t,X)指在给定了汉语句子X条件下已经确定翻译完毕的蒙语词的序列即当前状态，通过N次蒙特卡罗搜索，鉴别器为翻译出来的蒙语句子分别提供奖励值，翻译过程中的中间状态的奖励值通过鉴别器D返回的N个中间状态的奖励值求平均得到；

生成器G翻译完毕的完整蒙语句子的长度为T，则每次新选取的蒙语词y_t奖励值通过下面的公式计算得到：

通过上式表述的奖励值的计算方式来训练生成器G，不断优化实现生成器G的模型BL_G中的参数θ，旨在使生成器G的损失函数J(θ)的值达到最小，可以得到翻译能力更强的生成器；一旦得到了更好的生成器，则用如下公式重新训练鉴别器D：

其中P_data指精确蒙汉平行语料库，G指生成器，D指的是鉴别器；

在鉴别器更新之后，再次使用鉴别器返回的奖励值数据更新生成器，更新使用的梯度公式如下：

由此训练得到汉蒙回译模型ΘB。通过上述生成器鉴别器相互对抗的方式来训练汉蒙回译模型ΘB而拒绝传统翻译模型使用最大似然方式来进行训练的原因是若采用最大似然方式来翻译蒙语句子，显然可以保证在当前状态构建出的语义环境下翻译出来的蒙语词最为合适；但是在整个蒙语句子翻译完毕后，在这时的语义环境下，之前翻译的词就会显得不太合适了。而采用条件生成对抗网络构建回译模型ΘB，利用鉴别器来判断生成器翻译出的蒙语句子是否合适，在原理上来解决了上述的问题。

在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后，便可以使用回译技术构造出蒙汉伪平行语料库

即在汉语单语语料库中选取一定数量的汉语单语句子，利用汉蒙回译模型ΘB将选取出的汉语单语语料翻译为蒙语句子，这样就得到了蒙汉平行语料。

所述汉语单语句子的选取过程如下：

第一步：通过汉语词的预测损失函数得到低频词集合，并对应低频汉语词出现的具体蒙汉平行语料库中的汉语句子；

第二步：确定选取汉语单语语料库中的汉语句子的数量；

第三步：随机选取汉语单语语料库的某个汉语句子；

第四步：对所选取汉语句子每一个词进行判断若包含低频汉语词，分别获取其在精确蒙汉平行语料库及汉语单语语料库的上下文向量表示C_p和C_m；若不包含低频词则执行第三步；

第五步：计算两个上下文向量的余弦cos(C_p,C_m)，若余弦大于设定的阈值则将选取的汉语句子添加到双语语料库中，并进行回译得到与之对应的蒙语语料构造伪平行语料库，若余弦小于设定的阈值则执行第三步。

所述低频词集合需要通过在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型来辅助得到；本发明采用基本的循环神经网络(RNN)来作为其架构，并加入注意力机制来缓解长期依赖的问题。而在训练过程中我们把在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型所使用的交叉熵损失函数稍加改动便可作为汉语词x的预测损失函数来使用。

所述汉语词x的预测损失函数为：

其中m_x是指在精确蒙汉平行语料库上训练简易的以循环神经网络(RNN)的基本结构为架构的蒙汉翻译模型过程中，汉语词x出现的次数；M是指精确蒙汉平行语料库中汉语句子数目；|X^m|是精确蒙汉平行语料库中第m个汉语句子的长度；Y_m指与精确蒙汉平行语料库中第m个汉语句子对应的精确蒙语句子；

指在给定精确蒙汉平行语料库中的蒙语句子Y_m的条件下第k个翻译出的汉语词，

是指已经翻译完毕的前k-1个汉语词；

为简易的蒙汉翻译模型在给定精确蒙语句子Y_m的条件下翻译出第k个汉语词

的交叉熵损失；

是克罗内克函数，负责比较

和x之间的差别程度，若

和x完全相同函数值为1，否则为0。以此损失函数可得到一个在预测过程中损失大于设定值的低频词的集合，形式化表达如下：

其中，V_x是指从精确蒙汉平行语料库中提取的汉语的词汇表；μ是词的预测损失的一个阈值。

所述的低频词的上下文向量使用最基本的循环神经网络(RNN)来训练一个汉语的语言模型LM_H来辅助得到；在使用精确蒙汉平行语料库中的汉语语料训练好一个汉语语言模型LM_H后，我们将一个新的汉语句子逐词输入到汉语语言模型LM_H中，每个词都会得到自己特定的隐藏状态的向量；假定我们新输入的汉语句子中有一个低频词x，那么只需将低频词x周围的词输入汉语语言模型得到的对应的隐藏状态的向量串联起来就得到了低频词x的上下文向量，公式如下：

context(S,i)＝[h^i-w,…,h^i-1,hⁱ⁺¹,…,h^i+w]

其中S是指输入到汉语语言模型LM_H中的含有低频词x的汉语句子；i是低频词x在汉语句子S中的位置索引；w是代表以低频词x为中心向左右两侧的延申长度；h^i-w表示句子S中第i-w个词通过汉语语言模型LM_H得到的对应的隐藏状态的向量。

通过上述在汉语单语语料库中选取汉语句子的方法并使用汉蒙回译模型ΘB可以得到新的蒙汉伪平行语料库

所述软上下文数据增强方法是：将在精确蒙汉平行语料库与通过回译和简单数据增强产出的两个蒙汉伪平行语料库

及

混合后的大规模蒙汉伪平行语料库，使用one-hot向量表示大规模蒙汉伪平行语料库中蒙语句子的蒙语词语，并将one-hot向量进行平滑处理，从而多维地更加充分地表达出词的词义，平滑处理后的one-hot向量通过一个语言模型来获得，形式表达如下：

P(w)＝(p₁(w),p₂(w),…,p_j(w),…,p_|Z|(w))

其中Z是指在精确蒙汉平行语料库与通过回译和简单数据增强产出的两个蒙汉伪平行语料库

及

混合后的大规模蒙汉伪平行语料库上提取出的蒙语词汇表；w是蒙语词汇表Z中的任意一词，|Z|是指词汇表V中的词个数，p_j(w)是指蒙语词w出现在词汇表Z规定的词的序列的第j个位置上的概率；p_j(w)≥0且

平滑向量P(w)是在蒙语词汇表Z上的概率分布，词汇表Z中的任意一个词都会有自己平滑向量，在进行翻译任务的词嵌入工作之前随机选择一些词并使用其对应的平滑向量P(w)将替换原来的one-hot向量，再进行词嵌入；使用新的词嵌入向量进行神经网络的翻译任务；词嵌入向量的形式化表达如下：

其中E是为平滑向量P(w)降维的词嵌入矩阵；

本发明在计算平滑向量P(w)所使用的方法是仅利用精确蒙汉平行语料库中的蒙语来并以基本循环神经网络(RNN)为架构训练一个蒙语语言模型LM_M,使用这个语言模型LM_M在预测一个蒙语句子的下一个蒙语词时的输出来计算平滑向量P(w)；首先给出平滑向量P(w)中第j个分量的形式化表达为：

p_j(y_t)＝LM(w_j|y_<t)

其中y_t指蒙语语言模型预测出的第t个蒙语词，当然y_t在翻译完毕之前是不确定的，可以是词汇表Z中的任意一词；y_<t是指蒙语语言模型已经预测出的前t-1个蒙语词，M(w_j|y_<t)描述了词汇表Z中第j个词w_j出现在蒙语句子的第t个位置的概率，最终语言模型LM_M会对词汇表中的每一个词分别对其出现在蒙语句子的第t个位置的概率进行预测；最终会得到平滑向量P(w)。

最终，通过使用软上下文增强技术提高蒙汉翻译模型ΘA的翻译能力；蒙汉翻译模型ΘA的构建和训练方式与汉蒙回译模型ΘB相同，但源语言为蒙语目标语言为汉语，这与汉蒙回译模型ΘB完全相反。

与现有技术相比，本发明的有益效果是：

(1)本发明可根据已有的蒙汉平行语料库构造出规模更大的伪平行语料库，给予模型更多的学习资源以提高模型的翻译能力。

(2)翻译模型放弃最大似然的方式进行词的选取而采用条件生成对抗网络搭建，考虑了词语在句子环境不同的情况下具有的多义性，是翻译的句子更加准确。

(3)训练最终的蒙汉翻译模型时，在进行词嵌入之前使用软上下文数据增强对词向量进行平滑处理，使词语在模型内部的表示更准确，更多样；从而使模型以较少的数据量获得更好的翻译能力。

附图说明

图1是本发明基于伪平行语料库构造的蒙汉机器翻译方法的结构图。

图2是条件生成对抗网络示意图。

图3是回译模型结构图。

图4是软上下文数据增强实现的结构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明一种基于伪平行语料库构造的蒙汉机器翻译方法，可以通过较少的精确蒙汉平行语料库构造出多于原语料库几倍的伪平行语料库为提高模型的翻译能力提供了数据基础；在搭建蒙汉翻译模型ΘA和汉蒙回译模型ΘB时采用条件生成对抗网络，考虑词在句子随着翻译过程的进行而导致的上下文环境的转变后引起的词义变化的问题，使用生成器和鉴别器的结构翻译出整体翻译效果更好的句子；且在蒙汉翻译模型ΘA进行词嵌入之前，使用软上下文数据增强对词向量进行平滑处理，使词嵌入向量可以包含更多的意义表达更准确；以此种方法来优化模型的参数。如图1所示，本发明的具体步骤如下：

第一步：利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到第一个蒙汉伪平行语料库

第二步：利用条件生成对抗网络构建一个汉蒙回译模型ΘB，并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子，得到一个新的蒙汉伪平行语料库

第三步：利用软上下文数据增强方法对构造出的两种蒙汉伪平行语料库

和精确蒙汉平行语料库混合后的大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强；

所述的简单数据增强作为常用的数据增强的方法，通过四种操作方式对精确平行语料库中的蒙语句子进行增强；这四种操作分别是：同义词替换,随机插入,随机交换,随机删除；下面结合实例来解释简单数据增强的实现方式，汉语句子：“在生活的偏僻道路上上演了一场悲伤的、高尚的人类喜剧”经过四种增强操作之后可得如下四个句子：

同义词替换：在落后的人生道路上上演了一出可悲的、高尚的人类喜剧。

随机插入：在滑稽的生活的偏僻道路上上演了一个悲伤的、高尚的人类喜剧。

随机交换：在偏僻的生活道路上上演了一场高尚的、悲伤的人类喜剧

随即删除：在生活的道路上上演了一场悲伤的、高尚的人类喜剧

当然在实际操作时除了同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例、随机删除操作中的删除概率四个值的选取之外，根据一个精确蒙汉平行语料库中的蒙语句子增强出来的新蒙语句子的数量也是影响翻译模型质量的重要因素；具体操作时将精确的蒙汉平行语料库的规模进行切分为几份：500、2000、5000、剩余；分别在不同规模的语料库上进行实验；每一次实验中增强句子的数目可以在{1，2，4，8，16，32}中进行选择，这样可以得到语料库规模和增强句子数目两个因素之间的制约关系，从而的得出利于最终蒙汉翻译模型ΘA训练的参数值。

本发明采用条件生成对抗网络来构建回译模型ΘB，条件生成对抗网络的基本结构如图2所示，条件生成对抗网络由生成器和鉴别器两部分构成。生成器的职能是接收限制条件Y以及数据噪声Z并在条件Y的限制下将数据噪声U修改为假数据X_fake；而鉴别器在接受假数据X_fake、条件Y以及真数据X_true后，即可区分假数据X_fake和真数据X_true之间的差别，并将这个差别信息返回给生成器。

若将这种结构用于蒙汉翻译任务，那么条件生成对抗网络的生成器G将作为一个翻译模型在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子；生成器G每生成一个蒙语词，鉴别器D都会给生成器G一个奖励值，生成器G生成蒙语句子的质量越高则奖励值越大；基于这样的变化最终汉蒙回译模型ΘB的架构如图3所示，x和y_d是人工翻译完毕的精确蒙汉平行语料库中的汉语句子和与其对应的蒙语句子，y_g是生成器在接受到的汉语句子x的条件下翻译出来的并不准确的蒙语句子；当将汉语句子x输入生成器G后并得到翻译出来的蒙语句子y_g后，鉴别器D会接受汉语句子x、y_d及y_g，并在x的限定条件下区分y_d及y_g两个蒙语句子的区别；同时对y_g进行评分给出奖励值；当然这个评分是针对整个已经翻译完毕的蒙语句子的，如图3所示在生成器对一个汉语句子进行逐词翻译的过程中，使用蒙特卡洛搜索(MC Search)来对翻译的过程中的中间状态进行评分，并在每个汉语词的翻译过程中进行多次搜索；最终此中间状态的奖励值取多次搜索后得到的奖励值的平均值。

生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建，本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BL_G和BL_D；此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题。

生成器G的损失函数J(θ)表达式如下：

奖励值

由鉴别器D给出，其表达式如下：

根据上文中所述我们规定生成器G翻译完毕的完整蒙语句子的长度为T，则每次新选取的蒙语词y_t奖励值通过下面的公式计算得到：

通过上式表述的奖励值的计算方式来训练生成器G，不断优化实现生成器G的模型BL_G中的参数θ，旨在使生成器G的损失函数J(θ)的值达到最小，我们可以得到翻译能力更强的生成器；一旦得到了更好的生成器，则用如下公式重新训练鉴别器D：

由此训练得到汉蒙回译模型ΘB。

在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后，便可以使用回译技术构造出蒙汉伪平行语料库；即在汉语单语语料库中选取一定数量的汉语单语句子，利用汉蒙回译模型ΘB将选取出的汉语单语语料翻译为蒙语句子，这样就的得到了蒙汉平行语料。

所述汉语单语句子的选取过程如下：

第二步：确定选取汉语单语语料库中的汉语句子的数量；

第三步：随机选取汉语单语语料库的某个汉语句子；

所述汉语词x的预测损失函数为：

是指已经翻译完毕的前k-1个汉语词；

的交叉熵损失；

是克罗内克函数，负责比较

和x之间的差别程度，若

context(S,i)＝[h^i-w,...,h^i-1,hⁱ⁺¹,...,h^i+w]

下面通过实例来展示通过此种方法选取出来的汉语句子的效果，精确蒙汉平行语料库中的一个汉语句子：“大江是2020年这个组织第一个收纳的成员”，不难看出这个句子的意义多变的词就是‘大江’，它既可以指人名、机构名或自然世界的江，可以表达上述意义的汉语句子很少即“大江”一词为低频词；那么经过以上方法以下汉语句子会被选取：“吕大江先生于2019年出版了他的自传”、“涛涛大江水是古代文明的摇篮”、“由于在救灾行动中的出色表现，大江慈善基金会得到了地方政府的褒奖”。可见低频词“大江”表达的意义通过上述选取方法得到了充实。

本发明采用的软上下文数据增强方法的具体架构如图4所示，仅利用精确蒙汉平行语料库中的蒙语来并以基本循环神经网络(RNN)为架构训练一个蒙语语言模型LM_M,当蒙语词y₀，的one-hot向量一次输入蒙语语言模型LM_M后，LM_M会给出一个形状与蒙语词的one-hot向量完全相同的但在数值上更为平滑的向量p(y₁)，使用这个平滑的向量p(y₁)来代替蒙语词y₁的one-hot向量输入到最终的蒙汉神经机器翻译模型ΘA的词嵌入(Embedding)层后，再输入到翻译模型ΘA的解码器(NMT Encoder)中进行翻译任务的执行。

上文中平经过蒙语语言模型LM_M平滑处理后的one-hot向量形式表达如下：

p(w)＝(P₁(w)，p₂(w)，...，p_j(w)，...，P_|Z|(w))

及

平滑向量P(w)是在蒙语词汇表Z上的概率分布，词汇表Z中的任意一个词都会有自己平滑向量，蒙汉神经机器翻译模型ΘA的词嵌入层的词嵌入向量的形式化表达如下：

其中E是为平滑向量P(w)降维的词嵌入矩阵；

本发明在计算平滑向量P(w)所使用的蒙语语言模型LM_M在预测一个蒙语句子的下一个蒙语词时的输出来计算平滑向量P(w)；首先给出平滑向量P(w)中第j个分量的形式化表达为：

p_j(y_t)＝LM(w_i|y_＜t)

其中y_t指蒙语语言模型预测出的第t个蒙语词，当然y_t在翻译完毕之前是不确定的，可以是词汇表Z中的任意一词；y_<t是指蒙语语言模型已经预测出的前t-1个蒙语词；LM(w_j|y_<t)描述了词汇表Z中第j个词w_j出现在蒙语句子的第t个位置的概率,当然最终语言模型LM_M会对词汇表中的每一个词分别对其出现在蒙语句子的第t个位置的概率进行预测；最终会得到平滑向量P(w)。最终通过使用软上下文增强技术提高蒙汉翻译模型ΘA的翻译能力；蒙汉翻译模型ΘA的构建和训练方式与汉蒙回译模型ΘB相同，但源语言为蒙语目标语言为汉语，这与汉蒙回译模型ΘB完全相反。

Claims

1.一种基于伪平行语料库构造的蒙汉机器翻译方法，其特征在于，包括如下骤：

第三步：将精确蒙汉平行语料库、蒙汉伪平行语料库

和蒙汉伪平行语料库

第四步：利用条件生成对抗网络构建蒙汉翻译模型ΘA，随后利用增强的词义表示进行词嵌入，训练蒙汉翻译模型ΘA，提升其翻译能力；

其中，所述汉蒙回译模型ΘB的构建方式如下：

首先条件生成对抗网络的生成器G在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子；生成器G每生成一个蒙语词，鉴别器D都会给生成器G一个奖励值，生成器G生成蒙语句子的质量越高则奖励值越大；生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建，本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BL_G和BL_D；此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题；

所述生成器G的损失函数J(θ)表达式如下：

其中，θ是实现生成器G的网络模型BL_G内部的参数；Y_1:T＝y₁,…,y_T，表示生成器G生成的蒙语句子；X是指汉语句子；Y^*表示真实蒙语句子；G_θ(Y_1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y_1:T的初始损失模型；

奖励值

由鉴别器D给出，其表达式如下：

其中D(X,Y_1:T)是鉴别器D在给定汉语句子X的条件下翻译成蒙语句子Y_1:T时给出的初始奖励值；b(X,Y_1:T)是偏置项，其作用是为了减少鉴别器D给出的奖励值的方差；

通过上式表述的奖励值的计算方式来训练生成器G，不断优化实现生成器G的模型BL_G中的参数θ，旨在使生成器G的损失函数J(θ)的值达到最小，得到翻译能力更强的生成器，并用如下公式重新训练鉴别器D：

其中P_data指精确蒙汉平行语料库，G指生成器，D指鉴别器；

由此训练得到汉蒙回译模型ΘB。

2.根据权利要求1所述基于伪平行语料库构造的蒙汉机器翻译方法，其特征在于，所述简单数据增强方法是通过四种操作方式对精确蒙汉平行语料库中的蒙语句子进行增强，所述四种操作方式分别是：

3.根据权利要求2所述基于伪平行语料库构造的蒙汉机器翻译方法，其特征在于，通过如下公式为一个蒙语句子确定n₁、n₂、n₃以及n₄：

n₁＝p₁l

n₂＝p₂l

n₃＝p₃l

n₄＝p₄l

4.根据权利要求3所述基于伪平行语料库构造的蒙汉机器翻译方法，其特征在于，将所述四种操作方式分别单独测试，分别得到p₁～p₄对应于同义词替换、随机插入、随机交换、随机删除操作四种操作方式的四个操作比率：同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例p₁、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p₂、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p₃、随机删除操作中的删除概率p₄的取值区间，取四个取值区间的交集得到p₁～p₄的最终取值记作p。

5.根据权利要求1所述基于伪平行语料库构造的蒙汉机器翻译方法，其特征在于，在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后，使用回译技术构造出蒙汉伪平行语料库