CN111414770B

CN111414770B - 一种基于协同训练的半监督蒙汉神经机器翻译方法

Info

Publication number: CN111414770B
Application number: CN202010110878.6A
Authority: CN
Inventors: 仁庆道尔吉; 文丽霞; 苏依拉; 刘永超; 庞蕊
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2022-03-18
Anticipated expiration: 2040-02-24
Also published as: CN111414770A

Abstract

目前，解码器‑编码器结构常用于神经机器翻译中，在平行语料充足的条件下获得了不错的效果。但对于蒙语这种小语种语言，蒙汉平行语料资源有限且极难获得，因此本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法，利用半监督的分类生成对抗网络构建了三个翻译模型：蒙汉翻译模型M‑mo‑ch、英汉翻译模型M‑en‑ch、韩汉翻译模型M‑ko‑ch，并使用这三个翻译模型对多源端相互平行语料蒙英韩进行到目标端即汉语的标记，通过用汉语单语训练的语言模型LM‑ch选出质量最好的标记语料用来扩充原有语料库，并重新训练出更好的翻译模型。本发明将协同训练和半监督的分类生成对抗网络结合并运用在蒙汉神经机器翻译中，提高了蒙汉神经机器翻译模型的质量。

Description

一种基于协同训练的半监督蒙汉神经机器翻译方法

技术领域

本发明属于人工智能技术领域，涉及机器翻译，特别涉及一种基于协同训练的半监督蒙汉神经机器翻译方法。

背景技术

机器翻译(Machine Translation，MT)是指利用计算机来自动地将文字从一种自然语言(源语言)转化成具有完全相同含义的另一种自然语言(目标语言)的过程。

近年来，虽然神经机器翻译已经逐渐取代传统的统计机器翻译，但翻译系统性能的好坏高度依赖于平行语料库的质量、规模和领域覆盖度等。但是，像蒙语这种小语种语言，由于其缺乏高质量、大规模、广覆盖率的蒙汉双语平行语料，使得神经机器翻译在蒙汉翻译模型中表现不佳，无法获得质量较好的翻译结果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于协同训练的半监督蒙汉神经机器翻译方法，利用已有多种平行语料训练出来的模型，对多源端相互平行语料进行到目标端的标记，再利用高质量的标记语料进行语料库扩充并利用半监督的分类生成对抗网络重新训练出更好的翻译模型。

为了实现上述目的，本发明采用的技术方案是：

一种基于协同训练的半监督蒙汉神经机器翻译方法，采用协同训练方法和半监督的分类生成对抗网络相结合的方法来训练翻译模型，基本过程如下：

首先，采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型：蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch；

其次，基于协同训练的思想从蒙英韩多源端相互平行语料中抽取蒙英韩三语对齐句子，将其分别作为蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch的输入，从而分别输出三个汉语句子；

最后，利用汉语单语语料训练一个语言模型LM-ch，通过语言模型LM-ch评估三个翻译模型输出译文的好坏，选择质量最好的汉语译文分别与各翻译模型的输入语句组成新的平行语料，并添加至原来的平行语料库中，继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch，直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。

所述协同训练方法就是在原有平行语料稀缺的情况下，通过合理利用已有单语语料逐步对原有语料库进行扩充的一种方法，在本发明中利用蒙汉(mo-ch)、英汉(en-ch)和韩汉(ko-ch)平行语料分别训练出初始的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch、韩汉翻译模型M-ko-ch，并使用这三个翻译模型对多源端相互平行语料蒙英韩(mo-en-ko)进行到目标端即汉语(ch)的标记，选出质量最好的标记语料用来扩充原有语料库，并重新训练出更好的翻译模型。所述半监督生成对抗网络由生成器G和判别器D组成，其中判别器D具有细致分类功能，通过为每个样本x分配标签y来将数据分成K类，从而学习一个判别器D，但不是和传统GAN一样仅仅学习一个二元判别函数，而是在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率：

其中D_k(x)表示判别器D将样本x判定为第k类的概率；

定义G(z)为将随机噪声z映射为生成器输出x′的函数：

x′＝G(z),z～P(z)

其中，P(z)表示随机噪声的分布，z～P(z)表示z服从噪声分布P(z)；

样本集X的条件熵的经验估计表示为：

其中，样本集X表示包含了N个无标签样本的样本集，X＝{x¹,x²,…,xⁱ,…,x^N}，xⁱ表示第i个样本x；x～X表示样本x来自于样本集X；p(y|x,D)表示真实样本x的条件分布，H()表示熵，E()表示期望；

来自生成器G的样本的条件熵的经验估计表示为：

其采用蒙特卡洛方法在生成器G生成的样本中抽取M个样本进行计算，zⁱ表示第i个随机噪声z，其中，p(y|G(z),D)表示生成器生成数据的条件分布；

为了使判别器的输入样本属于各个类的概率相同，以及使生成器生成的样本属于各个类的概率相同，构造一个均匀的边缘分布，即分别计算样本集X和生成器生成样本的边缘分布，并计算这些边缘分布的熵，即：

其中，H_X[p(y|D)]表示样本集X边缘分布的条件熵，H_G[p(y|D)]表示来自生成器G生成样本边缘分布的条件熵，p(y|D)表示预测的条件分布；

为了使判别器的分类更加准确，以更好地提高模型性能，将使用已有的少量有标签样本训练判别器D，计算p(y|x,D)与X^L中真实样本标签分布的交叉熵CE[y,p(y|x,D)]，即：

其中，y表示样本集X^L中样本x的真实标签，y表示判别器为样本x预测的标签；X^L表示一组有L个标签的样本集，X^L＝{(x¹,y¹),(x²,y²),…,(xⁱ,yⁱ),…,(x^L,y^L)}，yⁱ表示第i个标签y，yⁱ∈R^k，R^k表示实数集，每个实数代表一个分类类别，实数采用one-hot编码形式；

根据以上分析以及式(1)-(5)，判别器D的目标函数L_D和生成器G的目标函数L_G分别如下：

其中，λ表示损失权重；

其中，样本x在各个翻译模型中表示的内容各不相同：在蒙汉翻译模型M-mo-ch中x表示蒙语、英汉翻译模型M-en-ch中x表示英语，韩汉翻译模型M-ko-ch中x表示韩语；涉及到的标签y则均表示对应的汉语。

所述语言模型LM-ch通过采用RNN在汉语单语语料上训练得到，其作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性，利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity，PPL)，困惑度被定义为：

其中，Y是被评估的句子，y_i表示Y中的第i个单词，|Y|表示句子Y的长度，P(y_i|y_i-1,…,y₁)表示在给定一句话的前i-1个词的前提下，第i个词可能出现的概率分布；

在RNN中，第t个时间片x(t)读取的是t-1时刻的状态s(t-1)和t时刻的数据w(t)，w(t)是t时刻汉语语料中单词的one-hot编码，s(t-1)是t-1时刻的隐藏层状态，用公式表示为：

x(t)＝w(t)+s(t-1)

t时刻的隐藏状态s_j(t)是x(t)经过sigmoid激活函数f得到的值，其中u_ij是权值矩阵：

每个时间片的输出y_k(t)是在隐藏层节点s_j(t)处添加一个softmax激活函数g而得到的值：

其中，v_kj是权值矩阵。

与现有技术相比，本发明的有益效果是：

协同训练不同于自训练。自训练是利用原有的平行语料训练出一个基础模型，利用该基础模型对单语语料进行翻译，再将得到的新平行语料与原有语料库结合进行训练，从而起到了扩充语料的效果。这相当于是用较差的翻译模型对单语语料进行翻译，然后再用得到的质量不佳的翻译结果扩充原有平行语料库。而协同训练是利用多端相互平行的语料来训练翻译模型，选择质量最好的翻译结果来扩充原有语料库，因此可以提高翻译模型的翻译质量。

半监督的分类生成对抗网络不同于传统的生成对抗网络。传统的生成对抗网络的判别器D本质上就是一个二元分类器，只有“true”和“false”两种结果，而半监督的分类生成对抗网络的判别器D具有更加细致的分类功能，它不仅可以判别出输入的真假，还能对判别为真的语句进行分类，生成器可根据判别器反馈的分类结果微调参数，提高生成器的性能；同时，判别器D的分类是由平行语料训练得到的，可通过加入预测条件分布与真实样本标签分布的交叉熵计算来更新判别器，提高判别器的性能。

本发明提供的将半监督的生成对抗网络运用在协同训练中的方法，不仅可以充分利用已有的平行语料和蒙语单语语料，缓解蒙汉平行语料稀缺的问题，还可以通过判别器D的分类功能使翻译结果更加贴近人工翻译，从而提高翻译模型的准确率。

附图说明

图1是协同训练基本过程流程图。

图2是半监督的分类生成对抗网络基本模型示意图。

具体实施方式

本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法，协同训练方法就是在原有平行语料稀缺的情况下，通过合理利用已有单语语料逐步对原有语料库进行扩充的一种方法。本发明首先利用蒙汉(mo-ch)、英汉(en-ch)和韩汉(ko-ch)平行语料，基于半监督的分类生成对抗网络构建三个初始的翻译模型：蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch，并使用这三个翻译模型对多源端相互平行语料蒙英韩(mo-en-ko)进行到目标端即汉语(ch)的标记，通过用汉语单语训练的语言模型LM-ch选出质量最好的标记语料用来扩充原有语料库，并重新训练出更好的翻译模型，逐步提高翻译模型的质量，可参考图1，具体过程如下：

首先，采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型：蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch、韩汉翻译模型M-ko-ch；

最后，利用汉语单语语料训练一个语言模型LM-ch，通过语言模型LM-ch评估三个翻译模型输出译文的好坏，选择质量较好的汉语译文分别与各翻译模型的输入语句组成新的平行语料，并添加至原来的平行语料库中，继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch，直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。

本发明采用半监督分类生成对抗网络训练蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch，参考图2，此方法与传统生成对抗网络(GenerativeAdversarial Network，GAN)相比，相同的是两者均由生成器G和判别器D组成，不同的是半监督生成对抗网络中的判别器D具有细致分类功能，通过为每个样本x分配标签y来将数据分成K类，从而学习一个判别器D，但不是和传统GAN一样仅仅学习一个二元判别函数，而是在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率：

其中D_k(x)表示判别器D将样本x判定为第k类的概率；

定义G(z)为将随机噪声z映射为生成器输出x′的函数：

x′＝G(z),z～P(z)

样本集X的条件熵的经验估计表示为：

来自生成器G的样本的条件熵的经验估计表示为：

根据以上分析以及式(1)-(5)，判别器D的目标函数L_D和生成器G的目标函数L_G的函数表示分别如下：

其中，λ表示损失权重；

在本发明中是通过观察语言模型测量的困惑度的大小来选出质量较好的译文的。首先采用RNN在汉语单语语料上训练一个语言模型LM-ch，它的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性，利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity，PPL)，困惑度被定义为：

x(t)＝w(t)+s(t-1)

其中，v_kj是权值矩阵。

以下是一个翻译示例：

利用已有平行语料训练得到三个初始翻译模型分别为：蒙汉翻译模型M-mo-ch，英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch，利用其分别对多源端相互平行语料进行翻译(三个翻译模型输入句子的意思均相同)：

M-mo-ch的输入α：

M-mo-ch的输出a：今天气候挺好的

M-en-ch的输入β：The weather is nice today

M-en-ch的输出b：今天天气很好

M-ko-ch的输入γ：

M-ko-ch的输出c：今天很酷

分别计算三个汉语译文的困惑度：

ppl(a)＝18.71

ppl(b)＝4.21

ppl(c)＝9.53

根据困比较惑度的大小，选择句子b用来形成三个新平行语料：α-b,β-b,γ-b；

将α-b,β-b,γ-b三个新平行语料分别添加到原有的三个平行语料库mo-ch，en-ch和ko-ch中；

继续训练翻译模型，依次重复上述过程，直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。

本发明利用半监督的分类生成对抗网络方法来训练蒙汉翻译模型，旨在通过判别器分类产生的反馈信息更好地提高翻译模型的性能；同时，系统整体使用了协同训练的方法，在蒙汉平行语料资源不足的情况下利用了英汉、韩汉平行语料，旨在缓解蒙汉平行语料资源匮乏问题对蒙汉翻译模型性能的影响。实验过程中，由于英汉和韩汉的平行语料比较多，它们可以训练出不错的翻译模型，通过困惑度的计算和扩充原有平行语料库的操作，可以逐步提高蒙汉翻译模型的性能，通过英汉和韩汉平行语料的辅助，使蒙汉翻译模型的翻译结果较为流畅，模型对于字词的调序也处理的很好，且对原文语义的理解能力较强，译文整体质量较好。

Claims

1.一种基于协同训练的半监督蒙汉神经机器翻译方法，其特征在于，采用协同训练方法和半监督的分类生成对抗网络相结合的方法来训练翻译模型，基本过程如下：

2.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法，其特征在于，所述半监督生成对抗网络由生成器G和判别器D组成，其中判别器D具有细致分类功能，通过为每个样本x分配标签y来将数据分成K类，从而学习一个判别器D，并在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率：

其中D_k(x)表示判别器D将样本x判定为第k类的概率；

定义G(z)为将随机噪声z映射为生成器输出x′的函数：

x′＝G(z),z～P(z)

样本集X的条件熵的经验估计表示为：

来自生成器G的样本的条件熵的经验估计表示为：

使用已有的少量有标签样本训练判别器D，计算p(y|x,D)与X^L中真实样本标签分布的交叉熵CE[y,p(y|x,D)]，即：

从而得到判别器D的目标函数L_D和生成器G的目标函数L_G分别如下：

其中，λ表示损失权重；

3.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法，其特征在于，所述语言模型LM-ch通过采用RNN在汉语单语语料上训练得到，其作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性，利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity，PPL)，困惑度被定义为：

x(t)＝w(t)+s(t-1)

其中，v_kj是权值矩阵。