CN111414770B - 一种基于协同训练的半监督蒙汉神经机器翻译方法 - Google Patents

一种基于协同训练的半监督蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN111414770B
CN111414770B CN202010110878.6A CN202010110878A CN111414770B CN 111414770 B CN111414770 B CN 111414770B CN 202010110878 A CN202010110878 A CN 202010110878A CN 111414770 B CN111414770 B CN 111414770B
Authority
CN
China
Prior art keywords
chinese
mongolian
translation model
translation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010110878.6A
Other languages
English (en)
Other versions
CN111414770A (zh
Inventor
仁庆道尔吉
文丽霞
苏依拉
刘永超
庞蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202010110878.6A priority Critical patent/CN111414770B/zh
Publication of CN111414770A publication Critical patent/CN111414770A/zh
Application granted granted Critical
Publication of CN111414770B publication Critical patent/CN111414770B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

目前,解码器‑编码器结构常用于神经机器翻译中,在平行语料充足的条件下获得了不错的效果。但对于蒙语这种小语种语言,蒙汉平行语料资源有限且极难获得,因此本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法,利用半监督的分类生成对抗网络构建了三个翻译模型:蒙汉翻译模型M‑mo‑ch、英汉翻译模型M‑en‑ch、韩汉翻译模型M‑ko‑ch,并使用这三个翻译模型对多源端相互平行语料蒙英韩进行到目标端即汉语的标记,通过用汉语单语训练的语言模型LM‑ch选出质量最好的标记语料用来扩充原有语料库,并重新训练出更好的翻译模型。本发明将协同训练和半监督的分类生成对抗网络结合并运用在蒙汉神经机器翻译中,提高了蒙汉神经机器翻译模型的质量。

Description

一种基于协同训练的半监督蒙汉神经机器翻译方法
技术领域
本发明属于人工智能技术领域,涉及机器翻译,特别涉及一种基于协同训练的半监督蒙汉神经机器翻译方法。
背景技术
机器翻译(Machine Translation,MT)是指利用计算机来自动地将文字从一种自然语言(源语言)转化成具有完全相同含义的另一种自然语言(目标语言)的过程。
近年来,虽然神经机器翻译已经逐渐取代传统的统计机器翻译,但翻译系统性能的好坏高度依赖于平行语料库的质量、规模和领域覆盖度等。但是,像蒙语这种小语种语言,由于其缺乏高质量、大规模、广覆盖率的蒙汉双语平行语料,使得神经机器翻译在蒙汉翻译模型中表现不佳,无法获得质量较好的翻译结果。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于协同训练的半监督蒙汉神经机器翻译方法,利用已有多种平行语料训练出来的模型,对多源端相互平行语料进行到目标端的标记,再利用高质量的标记语料进行语料库扩充并利用半监督的分类生成对抗网络重新训练出更好的翻译模型。
为了实现上述目的,本发明采用的技术方案是:
一种基于协同训练的半监督蒙汉神经机器翻译方法,采用协同训练方法和半监督的分类生成对抗网络相结合的方法来训练翻译模型,基本过程如下:
首先,采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch;
其次,基于协同训练的思想从蒙英韩多源端相互平行语料中抽取蒙英韩三语对齐句子,将其分别作为蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch的输入,从而分别输出三个汉语句子;
最后,利用汉语单语语料训练一个语言模型LM-ch,通过语言模型LM-ch评估三个翻译模型输出译文的好坏,选择质量最好的汉语译文分别与各翻译模型的输入语句组成新的平行语料,并添加至原来的平行语料库中,继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。
所述协同训练方法就是在原有平行语料稀缺的情况下,通过合理利用已有单语语料逐步对原有语料库进行扩充的一种方法,在本发明中利用蒙汉(mo-ch)、英汉(en-ch)和韩汉(ko-ch)平行语料分别训练出初始的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch、韩汉翻译模型M-ko-ch,并使用这三个翻译模型对多源端相互平行语料蒙英韩(mo-en-ko)进行到目标端即汉语(ch)的标记,选出质量最好的标记语料用来扩充原有语料库,并重新训练出更好的翻译模型。所述半监督生成对抗网络由生成器G和判别器D组成,其中判别器D具有细致分类功能,通过为每个样本x分配标签y来将数据分成K类,从而学习一个判别器D,但不是和传统GAN一样仅仅学习一个二元判别函数,而是在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率:
Figure BDA0002389952710000021
其中Dk(x)表示判别器D将样本x判定为第k类的概率;
定义G(z)为将随机噪声z映射为生成器输出x′的函数:
x′=G(z),z~P(z)
其中,P(z)表示随机噪声的分布,z~P(z)表示z服从噪声分布P(z);
样本集X的条件熵的经验估计表示为:
Figure BDA0002389952710000031
其中,样本集X表示包含了N个无标签样本的样本集,X={x1,x2,…,xi,…,xN},xi表示第i个样本x;x~X表示样本x来自于样本集X;p(y|x,D)表示真实样本x的条件分布,H()表示熵,E()表示期望;
来自生成器G的样本的条件熵的经验估计表示为:
Figure BDA0002389952710000032
其采用蒙特卡洛方法在生成器G生成的样本中抽取M个样本进行计算,zi表示第i个随机噪声z,其中,p(y|G(z),D)表示生成器生成数据的条件分布;
为了使判别器的输入样本属于各个类的概率相同,以及使生成器生成的样本属于各个类的概率相同,构造一个均匀的边缘分布,即分别计算样本集X和生成器生成样本的边缘分布,并计算这些边缘分布的熵,即:
Figure BDA0002389952710000033
Figure BDA0002389952710000034
其中,HX[p(y|D)]表示样本集X边缘分布的条件熵,HG[p(y|D)]表示来自生成器G生成样本边缘分布的条件熵,p(y|D)表示预测的条件分布;
为了使判别器的分类更加准确,以更好地提高模型性能,将使用已有的少量有标签样本训练判别器D,计算p(y|x,D)与XL中真实样本标签分布的交叉熵CE[y,p(y|x,D)],即:
Figure BDA0002389952710000035
其中,y表示样本集XL中样本x的真实标签,y表示判别器为样本x预测的标签;XL表示一组有L个标签的样本集,XL={(x1,y1),(x2,y2),…,(xi,yi),…,(xL,yL)},yi表示第i个标签y,yi∈Rk,Rk表示实数集,每个实数代表一个分类类别,实数采用one-hot编码形式;
根据以上分析以及式(1)-(5),判别器D的目标函数LD和生成器G的目标函数LG分别如下:
Figure BDA0002389952710000041
Figure BDA0002389952710000042
其中,λ表示损失权重;
其中,样本x在各个翻译模型中表示的内容各不相同:在蒙汉翻译模型M-mo-ch中x表示蒙语、英汉翻译模型M-en-ch中x表示英语,韩汉翻译模型M-ko-ch中x表示韩语;涉及到的标签y则均表示对应的汉语。
所述语言模型LM-ch通过采用RNN在汉语单语语料上训练得到,其作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性,利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity,PPL),困惑度被定义为:
Figure BDA0002389952710000043
其中,Y是被评估的句子,yi表示Y中的第i个单词,|Y|表示句子Y的长度,P(yi|yi-1,…,y1)表示在给定一句话的前i-1个词的前提下,第i个词可能出现的概率分布;
在RNN中,第t个时间片x(t)读取的是t-1时刻的状态s(t-1)和t时刻的数据w(t),w(t)是t时刻汉语语料中单词的one-hot编码,s(t-1)是t-1时刻的隐藏层状态,用公式表示为:
x(t)=w(t)+s(t-1)
t时刻的隐藏状态sj(t)是x(t)经过sigmoid激活函数f得到的值,其中uij是权值矩阵:
Figure BDA0002389952710000051
每个时间片的输出yk(t)是在隐藏层节点sj(t)处添加一个softmax激活函数g而得到的值:
Figure BDA0002389952710000052
其中,vkj是权值矩阵。
与现有技术相比,本发明的有益效果是:
协同训练不同于自训练。自训练是利用原有的平行语料训练出一个基础模型,利用该基础模型对单语语料进行翻译,再将得到的新平行语料与原有语料库结合进行训练,从而起到了扩充语料的效果。这相当于是用较差的翻译模型对单语语料进行翻译,然后再用得到的质量不佳的翻译结果扩充原有平行语料库。而协同训练是利用多端相互平行的语料来训练翻译模型,选择质量最好的翻译结果来扩充原有语料库,因此可以提高翻译模型的翻译质量。
半监督的分类生成对抗网络不同于传统的生成对抗网络。传统的生成对抗网络的判别器D本质上就是一个二元分类器,只有“true”和“false”两种结果,而半监督的分类生成对抗网络的判别器D具有更加细致的分类功能,它不仅可以判别出输入的真假,还能对判别为真的语句进行分类,生成器可根据判别器反馈的分类结果微调参数,提高生成器的性能;同时,判别器D的分类是由平行语料训练得到的,可通过加入预测条件分布与真实样本标签分布的交叉熵计算来更新判别器,提高判别器的性能。
本发明提供的将半监督的生成对抗网络运用在协同训练中的方法,不仅可以充分利用已有的平行语料和蒙语单语语料,缓解蒙汉平行语料稀缺的问题,还可以通过判别器D的分类功能使翻译结果更加贴近人工翻译,从而提高翻译模型的准确率。
附图说明
图1是协同训练基本过程流程图。
图2是半监督的分类生成对抗网络基本模型示意图。
具体实施方式
本发明提供了一种基于协同训练的半监督蒙汉神经机器翻译方法,协同训练方法就是在原有平行语料稀缺的情况下,通过合理利用已有单语语料逐步对原有语料库进行扩充的一种方法。本发明首先利用蒙汉(mo-ch)、英汉(en-ch)和韩汉(ko-ch)平行语料,基于半监督的分类生成对抗网络构建三个初始的翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,并使用这三个翻译模型对多源端相互平行语料蒙英韩(mo-en-ko)进行到目标端即汉语(ch)的标记,通过用汉语单语训练的语言模型LM-ch选出质量最好的标记语料用来扩充原有语料库,并重新训练出更好的翻译模型,逐步提高翻译模型的质量,可参考图1,具体过程如下:
首先,采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch、韩汉翻译模型M-ko-ch;
其次,基于协同训练的思想从蒙英韩多源端相互平行语料中抽取蒙英韩三语对齐句子,将其分别作为蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch的输入,从而分别输出三个汉语句子;
最后,利用汉语单语语料训练一个语言模型LM-ch,通过语言模型LM-ch评估三个翻译模型输出译文的好坏,选择质量较好的汉语译文分别与各翻译模型的输入语句组成新的平行语料,并添加至原来的平行语料库中,继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。
本发明采用半监督分类生成对抗网络训练蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,参考图2,此方法与传统生成对抗网络(GenerativeAdversarial Network,GAN)相比,相同的是两者均由生成器G和判别器D组成,不同的是半监督生成对抗网络中的判别器D具有细致分类功能,通过为每个样本x分配标签y来将数据分成K类,从而学习一个判别器D,但不是和传统GAN一样仅仅学习一个二元判别函数,而是在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率:
Figure BDA0002389952710000071
其中Dk(x)表示判别器D将样本x判定为第k类的概率;
定义G(z)为将随机噪声z映射为生成器输出x′的函数:
x′=G(z),z~P(z)
其中,P(z)表示随机噪声的分布,z~P(z)表示z服从噪声分布P(z);
样本集X的条件熵的经验估计表示为:
Figure BDA0002389952710000072
其中,样本集X表示包含了N个无标签样本的样本集,X={x1,x2,…,xi,…,xN},xi表示第i个样本x;x~X表示样本x来自于样本集X;p(y|x,D)表示真实样本x的条件分布,H()表示熵,E()表示期望;
来自生成器G的样本的条件熵的经验估计表示为:
Figure BDA0002389952710000073
其采用蒙特卡洛方法在生成器G生成的样本中抽取M个样本进行计算,zi表示第i个随机噪声z,其中,p(y|G(z),D)表示生成器生成数据的条件分布;
为了使判别器的输入样本属于各个类的概率相同,以及使生成器生成的样本属于各个类的概率相同,构造一个均匀的边缘分布,即分别计算样本集X和生成器生成样本的边缘分布,并计算这些边缘分布的熵,即:
Figure BDA0002389952710000081
Figure BDA0002389952710000082
其中,HX[p(y|D)]表示样本集X边缘分布的条件熵,HG[p(y|D)]表示来自生成器G生成样本边缘分布的条件熵,p(y|D)表示预测的条件分布;
为了使判别器的分类更加准确,以更好地提高模型性能,将使用已有的少量有标签样本训练判别器D,计算p(y|x,D)与XL中真实样本标签分布的交叉熵CE[y,p(y|x,D)],即:
Figure BDA0002389952710000083
其中,y表示样本集XL中样本x的真实标签,y表示判别器为样本x预测的标签;XL表示一组有L个标签的样本集,XL={(x1,y1),(x2,y2),…,(xi,yi),…,(xL,yL)},yi表示第i个标签y,yi∈Rk,Rk表示实数集,每个实数代表一个分类类别,实数采用one-hot编码形式;
根据以上分析以及式(1)-(5),判别器D的目标函数LD和生成器G的目标函数LG的函数表示分别如下:
Figure BDA0002389952710000084
Figure BDA0002389952710000085
其中,λ表示损失权重;
其中,样本x在各个翻译模型中表示的内容各不相同:在蒙汉翻译模型M-mo-ch中x表示蒙语、英汉翻译模型M-en-ch中x表示英语,韩汉翻译模型M-ko-ch中x表示韩语;涉及到的标签y则均表示对应的汉语。
在本发明中是通过观察语言模型测量的困惑度的大小来选出质量较好的译文的。首先采用RNN在汉语单语语料上训练一个语言模型LM-ch,它的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性,利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity,PPL),困惑度被定义为:
Figure BDA0002389952710000091
其中,Y是被评估的句子,yi表示Y中的第i个单词,|Y|表示句子Y的长度,P(yi|yi-1,…,y1)表示在给定一句话的前i-1个词的前提下,第i个词可能出现的概率分布;
在RNN中,第t个时间片x(t)读取的是t-1时刻的状态s(t-1)和t时刻的数据w(t),w(t)是t时刻汉语语料中单词的one-hot编码,s(t-1)是t-1时刻的隐藏层状态,用公式表示为:
x(t)=w(t)+s(t-1)
t时刻的隐藏状态sj(t)是x(t)经过sigmoid激活函数f得到的值,其中uij是权值矩阵:
Figure BDA0002389952710000092
每个时间片的输出yk(t)是在隐藏层节点sj(t)处添加一个softmax激活函数g而得到的值:
Figure BDA0002389952710000093
其中,vkj是权值矩阵。
以下是一个翻译示例:
利用已有平行语料训练得到三个初始翻译模型分别为:蒙汉翻译模型M-mo-ch,英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,利用其分别对多源端相互平行语料进行翻译(三个翻译模型输入句子的意思均相同):
M-mo-ch的输入α:
Figure BDA0002389952710000101
M-mo-ch的输出a:今天气候挺好的
M-en-ch的输入β:The weather is nice today
M-en-ch的输出b:今天天气很好
M-ko-ch的输入γ:
Figure BDA0002389952710000102
M-ko-ch的输出c:今天很酷
分别计算三个汉语译文的困惑度:
ppl(a)=18.71
ppl(b)=4.21
ppl(c)=9.53
根据困比较惑度的大小,选择句子b用来形成三个新平行语料:α-b,β-b,γ-b;
将α-b,β-b,γ-b三个新平行语料分别添加到原有的三个平行语料库mo-ch,en-ch和ko-ch中;
继续训练翻译模型,依次重复上述过程,直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。
本发明利用半监督的分类生成对抗网络方法来训练蒙汉翻译模型,旨在通过判别器分类产生的反馈信息更好地提高翻译模型的性能;同时,系统整体使用了协同训练的方法,在蒙汉平行语料资源不足的情况下利用了英汉、韩汉平行语料,旨在缓解蒙汉平行语料资源匮乏问题对蒙汉翻译模型性能的影响。实验过程中,由于英汉和韩汉的平行语料比较多,它们可以训练出不错的翻译模型,通过困惑度的计算和扩充原有平行语料库的操作,可以逐步提高蒙汉翻译模型的性能,通过英汉和韩汉平行语料的辅助,使蒙汉翻译模型的翻译结果较为流畅,模型对于字词的调序也处理的很好,且对原文语义的理解能力较强,译文整体质量较好。

Claims (3)

1.一种基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,采用协同训练方法和半监督的分类生成对抗网络相结合的方法来训练翻译模型,基本过程如下:
首先,采用半监督的分类生成对抗网络的方法对已有的蒙汉、英汉和韩汉平行语料分别训练出三个翻译模型:蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch;
其次,基于协同训练的思想从蒙英韩多源端相互平行语料中抽取蒙英韩三语对齐句子,将其分别作为蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch的输入,从而分别输出三个汉语句子;
最后,利用汉语单语语料训练一个语言模型LM-ch,通过语言模型LM-ch评估三个翻译模型输出译文的好坏,选择质量最好的汉语译文分别与各翻译模型的输入语句组成新的平行语料,并添加至原来的平行语料库中,继续训练得到新的蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch,直到蒙汉翻译模型M-mo-ch的BLEU值达到峰值为止。
2.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,所述半监督生成对抗网络由生成器G和判别器D组成,其中判别器D具有细致分类功能,通过为每个样本x分配标签y来将数据分成K类,从而学习一个判别器D,并在基于二元判断的基础上通过softmax函数给出x属于K类之一即第k类的概率:
Figure FDA0002389952700000011
其中Dk(x)表示判别器D将样本x判定为第k类的概率;
定义G(z)为将随机噪声z映射为生成器输出x′的函数:
x′=G(z),z~P(z)
其中,P(z)表示随机噪声的分布,z~P(z)表示z服从噪声分布P(z);
样本集X的条件熵的经验估计表示为:
Figure FDA0002389952700000021
其中,样本集X表示包含了N个无标签样本的样本集,X={x1,x2,…,xi,…,xN},xi表示第i个样本x;x~X表示样本x来自于样本集X;p(y|x,D)表示真实样本x的条件分布,H()表示熵,E()表示期望;
来自生成器G的样本的条件熵的经验估计表示为:
Figure FDA0002389952700000022
其采用蒙特卡洛方法在生成器G生成的样本中抽取M个样本进行计算,zi表示第i个随机噪声z,其中,p(y|G(z),D)表示生成器生成数据的条件分布;
为了使判别器的输入样本属于各个类的概率相同,以及使生成器生成的样本属于各个类的概率相同,构造一个均匀的边缘分布,即分别计算样本集X和生成器生成样本的边缘分布,并计算这些边缘分布的熵,即:
Figure FDA0002389952700000023
Figure FDA0002389952700000024
其中,HX[p(y|D)]表示样本集X边缘分布的条件熵,HG[p(y|D)]表示来自生成器G生成样本边缘分布的条件熵,p(y|D)表示预测的条件分布;
使用已有的少量有标签样本训练判别器D,计算p(y|x,D)与XL中真实样本标签分布的交叉熵CE[y,p(y|x,D)],即:
Figure FDA0002389952700000025
其中,y表示样本集XL中样本x的真实标签,y表示判别器为样本x预测的标签;XL表示一组有L个标签的样本集,XL={(x1,y1),(x2,y2),…,(xi,yi),…,(xL,yL)},yi表示第i个标签y,yi∈Rk,Rk表示实数集,每个实数代表一个分类类别,实数采用one-hot编码形式;
从而得到判别器D的目标函数LD和生成器G的目标函数LG分别如下:
Figure FDA0002389952700000031
Figure FDA0002389952700000032
其中,λ表示损失权重;
其中,样本x在各个翻译模型中表示的内容各不相同:在蒙汉翻译模型M-mo-ch中x表示蒙语、英汉翻译模型M-en-ch中x表示英语,韩汉翻译模型M-ko-ch中x表示韩语;涉及到的标签y则均表示对应的汉语。
3.根据权利要求1所述基于协同训练的半监督蒙汉神经机器翻译方法,其特征在于,所述语言模型LM-ch通过采用RNN在汉语单语语料上训练得到,其作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性,利用语言模型LM-ch分别测量从蒙汉翻译模型M-mo-ch、英汉翻译模型M-en-ch和韩汉翻译模型M-ko-ch中得到的汉语译文的困惑度(perplexity,PPL),困惑度被定义为:
Figure FDA0002389952700000033
其中,Y是被评估的句子,yi表示Y中的第i个单词,|Y|表示句子Y的长度,P(yi|yi-1,…,y1)表示在给定一句话的前i-1个词的前提下,第i个词可能出现的概率分布;
在RNN中,第t个时间片x(t)读取的是t-1时刻的状态s(t-1)和t时刻的数据w(t),w(t)是t时刻汉语语料中单词的one-hot编码,s(t-1)是t-1时刻的隐藏层状态,用公式表示为:
x(t)=w(t)+s(t-1)
t时刻的隐藏状态sj(t)是x(t)经过sigmoid激活函数f得到的值,其中uij是权值矩阵:
Figure FDA0002389952700000041
每个时间片的输出yk(t)是在隐藏层节点sj(t)处添加一个softmax激活函数g而得到的值:
Figure FDA0002389952700000042
其中,vkj是权值矩阵。
CN202010110878.6A 2020-02-24 2020-02-24 一种基于协同训练的半监督蒙汉神经机器翻译方法 Expired - Fee Related CN111414770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010110878.6A CN111414770B (zh) 2020-02-24 2020-02-24 一种基于协同训练的半监督蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010110878.6A CN111414770B (zh) 2020-02-24 2020-02-24 一种基于协同训练的半监督蒙汉神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN111414770A CN111414770A (zh) 2020-07-14
CN111414770B true CN111414770B (zh) 2022-03-18

Family

ID=71490920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010110878.6A Expired - Fee Related CN111414770B (zh) 2020-02-24 2020-02-24 一种基于协同训练的半监督蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN111414770B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580373B (zh) * 2020-12-26 2023-06-27 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN112633018B (zh) * 2020-12-28 2022-04-15 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112966530B (zh) * 2021-04-08 2022-07-22 中译语通科技股份有限公司 一种机器翻译领域自适应方法、系统、介质、计算机设备
CN113657125B (zh) * 2021-07-14 2023-05-26 内蒙古工业大学 一种基于知识图谱的蒙汉非自回归机器翻译方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202068B (zh) * 2016-07-25 2019-01-22 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
US10504004B2 (en) * 2016-09-16 2019-12-10 General Dynamics Mission Systems, Inc. Systems and methods for deep model translation generation
CN108897740A (zh) * 2018-05-07 2018-11-27 内蒙古工业大学 一种基于对抗神经网络的蒙汉机器翻译方法
KR102034248B1 (ko) * 2019-04-19 2019-10-18 주식회사 루닛 GAN(Generative Adversarial Networks)을 이용하는 이상 검출 방법, 장치 및 그 시스템
CN110598221B (zh) * 2019-08-29 2020-07-07 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法

Also Published As

Publication number Publication date
CN111414770A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111414770B (zh) 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN109308318A (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN110502749A (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN109376242A (zh) 基于循环神经网络变体和卷积神经网络的文本分类算法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
Lu et al. Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts.
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110008335A (zh) 自然语言处理的方法及装置
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN117370574A (zh) 提高电力主设备知识图谱嵌入模型性能的缺陷分析方法
CN112818124A (zh) 一种基于注意力神经网络的实体关系抽取方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
CN113626537B (zh) 一种面向知识图谱构建的实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220318