CN112633018A - 一种基于数据增强的蒙汉神经机器翻译方法 - Google Patents

一种基于数据增强的蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN112633018A
CN112633018A CN202011580153.XA CN202011580153A CN112633018A CN 112633018 A CN112633018 A CN 112633018A CN 202011580153 A CN202011580153 A CN 202011580153A CN 112633018 A CN112633018 A CN 112633018A
Authority
CN
China
Prior art keywords
mongolian
chinese
pseudo
model
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011580153.XA
Other languages
English (en)
Other versions
CN112633018B (zh
Inventor
苏依拉
贺玉玺
王昊
仁庆道尔吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011580153.XA priority Critical patent/CN112633018B/zh
Publication of CN112633018A publication Critical patent/CN112633018A/zh
Application granted granted Critical
Publication of CN112633018B publication Critical patent/CN112633018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于数据增强的蒙汉神经机器翻译方法,使用数据增强的方法对现有的蒙汉平行语料库和现有的单语语料库进行数据增强,得到蒙汉伪平行语料库C1和伪汉语单语语料库H1;将C1和H1分别进行筛选得到更高质量的蒙汉伪平行语料库C2和伪汉语单语语料库H2,用于优化模型;构建三个蒙汉翻译模型T1、T2、T3;利用T1、T2、T3分别对蒙语单语语句翻译,每个翻译模型学习另外两个翻译模型学习到的特征,实现模型优化过程,得到模型T;利用C2和H2得到新的loss值,将模型T进行优化;即可利用优化得到的模型进行蒙汉翻译,本发明通过对数据集增强,得到了一个翻译效果较好的模型。

Description

一种基于数据增强的蒙汉神经机器翻译方法
技术领域
本发明属于人工智能技术领域,涉及语言的机器翻译,特别涉及一种基于数据增强的蒙汉神经机器翻译方法。
背景技术
在应用于蒙汉平行语料库较少的情况,但是数据对于机器翻译领域又是相当重要的前提下,提出一种通过增强原始数据集的方法或者是通过语义树的建立来得到一组新的平行的语句。
发明内容
为了克服上述语料集匮乏对于蒙汉神经机器翻译下的影响,本发明的目的在于提供一种基于数据增强的蒙汉神经机器翻译方法,通过对数据集增强得到一个翻译效果较好的模型。
为了实现上述目的,本发明采用的技术方案是:
一种基于数据增强的蒙汉神经机器翻译方法,包括:
第一步:使用数据增强的方法对现有的蒙汉平行语料库和现有的单语语料库进行数据增强,得到蒙汉伪平行语料库C1和伪汉语单语语料库H1;
第二步:将得到的蒙汉伪平行语料库C1和伪汉语单语语料库H1分别进行筛选得到更高质量的蒙汉伪平行语料库C2和伪汉语单语语料库H2,用于优化模型;
第三步:构建三个蒙汉翻译模型T1、T2、T3;
第四步:利用T1、T2、T3分别对蒙语单语语句翻译,每个翻译模型学习另外两个翻译模型学习到的特征,实现模型优化过程,得到模型T;
第五步:利用蒙汉伪平行语料库C2和伪汉语单语语料库H2得到新的loss值,将模型T进行优化;
第六步:利用优化得到的模型进行蒙汉翻译。
所述第一步中,进行数据增强方法为:
(1)通过改变句子达到扩充蒙汉平行语料库的目的,将原有的语句设为变量S={x1,x2,x3…xn},对句子原有的词语进行替换、删减以及改变位置的操作,对原有的语句进行扩充,得到蒙汉伪平行语料库a1,其中xn代表的是语句的每一个词语,n是语句中词的位置;
(2)通过对上下文词语的预测对当前的蒙汉平行语料库中的汉语进行词语的替换得到蒙汉伪平行语料库a2;
(3)利用对抗神经网络训练一个生成器和鉴别器,鉴别器利用翻译效果不好的蒙汉语句对,进行进一步的训练得到一个可以针对训练效果较差的语句进行翻译的生成器,对训练效果较差的语句进行进一步充分的学习,从而得到蒙汉伪平行语料库a3,其中所述训练效果较差的语句指当前的语句对在模型中的loss值依然高于设定值;
(4)利用数据训练一个蒙语的图片描述模型和一个汉语图片描述模型,得到模型后对同一个图片的描述将得到蒙汉伪平行语料库a4;
(5)通过预训练的BERT模型进行微调对蒙汉翻译中的遮蔽词语进行预测,得到新的蒙汉伪平行语料库a5;
(6)利用字典得到蒙汉对应的词语,使用语义树将词语进行组合,得到蒙汉伪平行语料库a6;
将上述(1)~(6)得到的蒙汉伪平行语料库a1~a6放入到同一个文件中,整合为伪平行语料库C1;
(7)利用现在有的英汉和汉英翻译的模型将汉语单语由汉语翻译到英语再翻译到汉语得到伪汉语单语语料库H1。
所述第二步中,利用LSTM建立语言模型和利用对抗神经网络生成的鉴别器来对语料进行挑选,其中,利用语言模型对蒙汉伪平行语料库C1和伪汉语单语语料库H1中的语句进行ppl值的测评,设定阈值,将ppl值低于阈值的语句留在文件中得到蒙汉伪平行语料库C2和伪汉语单语语料库H2。
所述第三步中,将现有的蒙汉平行语料库分为三份,得到蒙汉平行语料库C2、C3和C4,分别利用C2、C3和C4通过如下方法得到蒙汉翻译模型T1、T2、T3:
采用基于RNN神经网络的编码器和解码器,由上一时刻隐状态和当前时刻输入进行隐状态更新,得到每一个字的隐含层输出,公式为:h(t)=f(h<t-1>,xt);汇总所有的隐含层输出得到源语言中间隐含层变量ht的汇总C,C=q(h1,h2,h3,...,hTx),其中q()表示汇总函数,即将中间变量进行排列,hTx表示最后一个输入量;解码器输出为p(yi∣y1,...,yi-1,X)=g(yi-1,si,ci),yi表示输出结点的结果,g()是softmax函数;X表示输入的句子,si是i时刻解码器的隐藏状态,si=f(si-1,yi-1,ci);f()表示经由上一个状态来得到当前状态的函数;ci是编码器-译码器中的上下文向量,h(t)代表t时刻的隐含层的输入,ht代表每一层隐藏层,h<t-1>代表上一个时刻隐含层的数值,xt是t时刻的输入层的数值,yi是i序列得到的输出的值,Tx是输入为x时的隐含层数值;
ci是一个变化信息,代表输入句子的表征,不同时刻注意力集中在不同的词上面,由输入序列的h1,...,hTx产生,每个输入序列hi包含整个序列的信息的同时更多地关注第i个字的上下文信息,
Figure BDA0002864699840000031
其中aij是每个输入序列hj的权重得分,范围为(0,1),
Figure BDA0002864699840000032
eij为解码器i-1位置的隐藏状态和编码器j位置的隐藏状态经过计算方式a得到的分值,eij=a(si-I,hj),a=si-1Whj,W为参数矩阵,作为可训练参数加入整个网络,hj是j时刻的隐含层的数值,si-I是i以前的输入的序列。
所述第四步中,利用T1、T2、T3分别对蒙语单语语料库M1翻译得到蒙汉伪平行语料库FC1、FC2、FC3,将蒙汉伪平行语料库FC1、FC2、FC3整合得到新的蒙汉伪平行语料库FC4,利用T1、T2、T3继续从蒙汉伪平行语料库FC4中学习得到新的特征,重复K次,直到T1、T2、T3对同一个蒙语单语语料库翻译的效果相同,则认为模型学习到了所有的特征,得到最终的翻译模型T。
所述第五步中,将模型T对蒙汉伪平行语料库C2进行翻译得到的语句与蒙汉伪平行语料库C2对应的语句进行熵的对比得出loss1,对模型T进行修正,利用模型T对蒙语单语语料库M1和伪汉语单语语料库H1翻译的结果的熵最小的特性,得出loss2,结合loss1和loss2对模型T进行修正,公式如下:
loss1=Pmodel(y|x;θ)+H(Augment(y),Pmodel(x;θ))
Figure BDA0002864699840000041
计算总的loss值:
loss=minloss1+loss2
其中,X代表输入的源语言,y是通过翻译模型得到的预测的效果,θ是翻译模型的参数,Pmodel代表翻译模型T,H()代表交叉熵,Augument()代表进行了数据增强。
与现有技术相比,本发明的有益效果是:
1.可以在较少的平行语料库的情况下可以达到较好的翻译的效果。
2.在对数据进行位置的标注之后可以达到的效果是对数据的二义性可以得到很好的处理。
3.利用语言树模型对单语言数据库进行处理,进行数据的扩充使得可以增加平行语料库的大小。
4.使用多层的CNN模型可以使对多层数据的信息进行更多的查找而且CNN具有并行的效果可以达到提高运行速度的效果。
5.利用多层的loss进行对模型的修正达到了对单语语料库的应用。
附图说明
图1是生成蒙汉伪平行语料库C1和伪汉语单语语料库H1的过程。
图2是训练得到三个蒙汉翻译模型T1、T2、T3的过程。
图3是蒙汉翻译模型T1、T2、T3之间互相学习的过程。
图4是利用蒙汉伪平行语料库C2和伪汉语单语语料库H2对模型T进行优化的过程。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明为一种基于数据增强的蒙汉神经机器翻译方法,利用数据增强的方式对原始的平行语料库进行数据增强形成伪平行语料库,对单语语料库进行数据增强形成伪单语语料库用来对模型进行优化,使得模型可以更好地提升翻译的效果。然后利用卷积神经网络与自注意力机制的结合搭建一个翻译模型,和利用区块学习搭建一个翻译模型通过两个翻译模型学习到的特征学习不同进行互补学习得到一个新的翻译模型,利用对双语伪平行语料的学习和单语伪语料的利用来达到对模型优化的目的。
本发明主要包括如下步骤:
第一步:使用数据增强的方法对现有的蒙汉平行语料库和现有的单语语料库进行数据增强,得到蒙汉伪平行语料库C1和伪汉语单语语料库H1,此步骤的目的是对数据进行一步的扩充。
如图1所示,本发明进行数据增强方法为:
(1)通过改变句子达到扩充蒙汉平行语料库的目的,将原有的语句设为变量S={x1,x2,x3…xn},对句子原有的词语进行替换、删减以及改变位置的操作,对原有的语句进行扩充,得到蒙汉伪平行语料库a1,其中xn代表的是语句的每一个词语,n是语句中词的位置;
(2)通过对上下文词语的预测对当前的蒙汉平行语料库中的汉语进行词语的替换得到蒙汉伪平行语料库a2;
(3)利用对抗神经网络训练一个生成器和鉴别器,鉴别器利用翻译效果不好的蒙汉语句对,进行进一步的训练得到一个可以针对训练效果较差的语句进行翻译的生成器,对训练效果较差的语句进行进一步充分的学习,从而得到蒙汉伪平行语料库a3,其中所述训练效果较差的语句指当前的语句对在模型中的loss值依然高于设定值;
此处,训练鉴别器是为了更加符合模型需求,所生成的语句是为了更好地弥补训练所缺少的语句。因此,训练时将鉴别器的分为多个类,鉴别器的判定不再是对与错,而是鉴别到某一类上。
本发明鉴别器使用的是基于多头注意力机制和编码器的组合,在使用多头注意力的情况下,将会训练两个鉴别器,对数据进行进一步的细化,其中一个鉴别器用来判断数据类型的分类,另一个鉴别器用来进行翻译语句的比对,以实现快速比对。
本发明在训练鉴别器时,不同于现有的数据标签,而是对鉴别器的句子进行新的预训练,提取句子关键的语句信息,从而达到简化训练的效果。
本发明利用鉴别器将数据鉴别在某几个分类上,然后对分类的内容再进行下一步的鉴别,将类进行细化,可以对训练不好的类进行数据增强,提高模型的翻译的能力。公式为:
min(G)max(D)V(G,D)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
本发明可利用汉语单语语料训练一个语言模型,对得到的汉语单语进行判断,将较好的语料添加到语料库,利用生成器对语句进行判断。
(4)利用数据训练一个蒙语的图片描述模型和一个汉语图片描述模型,得到模型后对同一个图片的描述将得到蒙汉伪平行语料库a4;
(5)通过预训练的BERT模型进行微调对蒙汉翻译中的遮蔽词语进行预测,得到新的蒙汉伪平行语料库a5;
(6)利用字典得到蒙汉对应的词语,使用语义树将词语进行组合,得到蒙汉伪平行语料库a6;
将上述(1)~(6)得到的蒙汉伪平行语料库a1~a6放入到同一个文件中,即可整合得到蒙汉伪平行语料库C1。
(7)利用现在有的英汉和汉英翻译的模型将汉语单语由汉语翻译到英语再翻译到汉语得到伪汉语单语语料库H1。
第二步:将得到的蒙汉伪平行语料库C1和伪汉语单语语料库H1分别进行筛选得到更高质量的蒙汉伪平行语料库C2和伪汉语单语语料库H2,用于优化模型。
本发明中,利用LSTM建立语言模型和利用对抗神经网络生成的鉴别器来对语料进行挑选,其中,利用语言模型对蒙汉伪平行语料库C1和伪汉语单语语料库H1中的语句进行ppl值的测评,设定阈值,将ppl值低于阈值的语句留在文件中得到蒙汉伪平行语料库C2和伪汉语单语语料库H2。
优选地,训练翻译模型之前,将数据转换为one-hot编码时,可以将数据进行向量的扩充,将数据向量的大小增加词性,语义等的向量,在训练之前经过处理之后可以达到的是相同的词语但是拥有不同的含义和其他的不同的内容的可以转换为不同的向量,人工进行的标注或者通过学习得到新的矩阵来达到这个目的。然后利用Transformer的编码器对模型进行学习,分别进行双向的学习,对句子的词语,上下文和位置进行学习。
第三步:构建三个蒙汉翻译模型T1、T2、T3,参考图2,具体方法如下:
将现有的蒙汉平行语料库分为三份,得到蒙汉平行语料库C2、C3和C4,分别利用C2、C3和C4通过如下方法得到蒙汉翻译模型T1、T2、T3:
采用基于RNN神经网络的编码器和解码器,由上一时刻隐状态和当前时刻输入进行隐状态更新,得到每一个字的隐含层输出,公式为:h(t)=f(h<t-1>,xt);汇总所有的隐含层输出得到源语言中间隐含层变量ht的汇总C,C=q(h1,h2,h3,...,hTx),其中q()表示汇总函数,即将中间变量进行排列,hTx表示最后一个输入量;解码器输出为p(yi∣y1,...,yi-1,X)=g(yi-1,si,ci),yi表示输出结点的结果,g()是softmax函数;X表示输入的句子,si是i时刻解码器的隐藏状态,si=f(si-1,yi-1,ci);f()表示经由上一个状态来得到当前状态的函数;ci是编码器-译码器中的上下文向量,h(t)代表t时刻的隐含层的输入,ht代表每一层隐藏层,h<t-1>代表上一个时刻隐含层的数值,xt是t时刻的输入层的数值,yi是i序列得到的输出的值,Tx是输入为x时的隐含层数值;
ci是一个变化信息,代表输入句子的表征,不同时刻注意力集中在不同的词上面,由输入序列的h1,...,hTx产生,每个输入序列hi包含整个序列的信息的同时更多地关注第i个字的上下文信息,
Figure BDA0002864699840000081
其中aij是每个输入序列hj的权重得分,范围为(0,1),
Figure BDA0002864699840000082
eij为解码器i-1位置的隐藏状态和编码器j位置的隐藏状态经过计算方式a得到的分值,eij=a(si-I,hj),a=si-1Whj,W为参数矩阵,作为可训练参数加入整个网络,hj是j时刻的隐含层的数值,si-I是i以前的输入的序列。
第四步:利用T1、T2、T3分别对蒙语单语语句翻译,每个翻译模型学习另外两个翻译模型学习到的特征,实现模型优化过程,得到模型T。
参考图3,本步骤中,利用T1、T2、T3分别对蒙语单语语料库M1翻译得到蒙汉伪平行语料库FC1、FC2、FC3,将蒙汉伪平行语料库FC1、FC2、FC3整合得到新的蒙汉伪平行语料库FC4,利用T1、T2、T3继续从蒙汉伪平行语料库FC4中学习得到新的特征,重复K次,直到T1、T2、T3对同一个蒙语单语语料库翻译的效果相同,则认为模型学习到了所有的特征,得到最终的翻译模型T。
此步骤中,通过构建一个相互学习的翻译模型,利用翻译模型相互学习其他模型学习到特征,来优化自己的翻译模型。
第五步:利用蒙汉伪平行语料库C2和伪汉语单语语料库H2得到新的loss值,将模型T进行优化。
参考图4,本步骤中,将模型T对蒙汉伪平行语料库C2进行翻译得到的语句与蒙汉伪平行语料库C2对应的语句进行熵的对比得出loss1,对模型T进行修正,利用模型T对蒙语单语语料库M1和伪汉语单语语料库H1翻译的结果的熵最小的特性,得出loss2,结合loss1和loss2对模型T进行修正,公式如下:
loss1=Pmodel(y|x;θ)+H(Augment(y),Pmodel(x;θ))
Figure BDA0002864699840000091
即,Loss1的获取是通过翻译模型T对输入语句的翻译结果与蒙汉伪平行语料库C2的目标语言进行交叉熵的求解加上翻译结果的最小熵得到loss1,loss2是保证对同一个单语语句增强后,翻译结果的交叉熵应该最小得到loss2。
计算总的loss值:
loss=minloss1+loss2
其中,X代表输入的源语言,y是通过翻译模型得到的预测的效果,θ是翻译模型的参数,Pmodel代表翻译模型T,H()代表交叉熵,Augument()代表进行了数据增强。
Loss1和loss2是同时获取的关系,利用现在的已有的翻译模型T对蒙汉伪平行语料库C2求loss1,利用翻译模型T对伪汉语单语语料库H2求loss2,经过让二者之和loss最小化的过程,优化翻译模型T,经过迭代得到最终模型。
即,此步骤中,通过对伪平行语料库翻译得到的损失函数值和对伪单语语料库翻译得到的损失函函数值进行相加,对模型T进行优化。
第六步:利用优化得到的模型进行蒙汉翻译。
综上,深度学习的机器翻译容易饱和而对偶学习的挖掘可以进行更加深沉的挖掘,初始模型比较弱。本发明使用数据增强的方法,通过对双语和单语数据的使用充分的挖掘了数据集的信息,可以得到对数据较好的使用。同时实验发现,数据增强之后的模型学习更不容易饱和,因为无标签的单语数据非常丰富、非常多样化,因此通过不断调节单语数据源和调整反馈信息,可以持续提高模型的有效性。相反,使用双语语料比较容易饱和,过几遍数据以后,当信息被挖掘得足够充分,想要再提升模型精度就变得非常困难。
因此,本发明可降低对大数据的依赖性,使得数据的标记数据减少,使得数据的利用率更大。

Claims (6)

1.一种基于数据增强的蒙汉神经机器翻译方法,其特征在于,包括:
第一步:使用数据增强的方法对现有的蒙汉平行语料库和现有的单语语料库进行数据增强,得到蒙汉伪平行语料库C1和伪汉语单语语料库H1;
第二步:将得到的蒙汉伪平行语料库C1和伪汉语单语语料库H1分别进行筛选得到更高质量的蒙汉伪平行语料库C2和伪汉语单语语料库H2,用于优化模型;
第三步:构建三个蒙汉翻译模型T1、T2、T3;
第四步:利用T1、T2、T3分别对蒙语单语语句翻译,每个翻译模型学习另外两个翻译模型学习到的特征,实现模型优化过程,得到模型T;
第五步:利用蒙汉伪平行语料库C2和伪汉语单语语料库H2得到新的loss值,将模型T进行优化;
第六步:利用优化得到的模型进行蒙汉翻译。
2.根据权利要求1所述基于数据增强的蒙汉神经机器翻译方法,其特征在于,所述第一步中,进行数据增强方法为:
(1)通过改变句子达到扩充蒙汉平行语料库的目的,将原有的语句设为变量S={x1,x2,x3…xn},对句子原有的词语进行替换、删减以及改变位置的操作,对原有的语句进行扩充,得到蒙汉伪平行语料库a1,其中xn代表的是语句的每一个词语,n是语句中词的位置;
(2)通过对上下文词语的预测对当前的蒙汉平行语料库中的汉语进行词语的替换得到蒙汉伪平行语料库a2;
(3)利用对抗神经网络训练一个生成器和鉴别器,鉴别器利用翻译效果不好的蒙汉语句对,进行进一步的训练得到一个可以针对训练效果较差的语句进行翻译的生成器,对训练效果较差的语句进行进一步充分的学习,从而得到蒙汉伪平行语料库a3,其中所述训练效果较差的语句指当前的语句对在模型中的loss值依然高于设定值;
(4)利用数据训练一个蒙语的图片描述模型和一个汉语图片描述模型,得到模型后对同一个图片的描述将得到蒙汉伪平行语料库a4;
(5)通过预训练的BERT模型进行微调对蒙汉翻译中的遮蔽词语进行预测,得到新的蒙汉伪平行语料库a5;
(6)利用字典得到蒙汉对应的词语,使用语义树将词语进行组合,得到蒙汉伪平行语料库a6;
将上述(1)~(6)得到的蒙汉伪平行语料库a1~a6放入到同一个文件中,整合为伪平行语料库C1;
(7)利用现在有的英汉和汉英翻译的模型将汉语单语由汉语翻译到英语再翻译到汉语得到伪汉语单语语料库H1。
3.根据权利要求1所述基于数据增强的蒙汉神经机器翻译方法,其特征在于,所述第二步中,利用LSTM建立语言模型和利用对抗神经网络生成的鉴别器来对语料进行挑选,其中,利用语言模型对蒙汉伪平行语料库C1和伪汉语单语语料库H1中的语句进行ppl值的测评,设定阈值,将ppl值低于阈值的语句留在文件中得到蒙汉伪平行语料库C2和伪汉语单语语料库H2。
4.根据权利要求1所述基于数据增强的蒙汉神经机器翻译方法,其特征在于,所述第三步中,将现有的蒙汉平行语料库分为三份,得到蒙汉平行语料库C2、C3和C4,分别利用C2、C3和C4通过如下方法得到蒙汉翻译模型T1、T2、T3:
采用基于RNN神经网络的编码器和解码器,由上一时刻隐状态和当前时刻输入进行隐状态更新,得到每一个字的隐含层输出,公式为:h(t)=f(h<t-1>,xt);汇总所有的隐含层输出得到源语言中间隐含层变量ht的汇总C,C=q(h1,h2,h3,...,hTx),其中q()表示汇总函数,即将中间变量进行排列,hTx表示最后一个输入量;解码器输出为p(yi|y1,...,yi-1,X)=g(yi-1,si,ci),yi表示输出结点的结果,g()是softmax函数;X表示输入的句子,si是i时刻解码器的隐藏状态,si=f(si-1,yi-1,ci);f()表示经由上一个状态来得到当前状态的函数;ci是编码器-译码器中的上下文向量,h(t)代表t时刻的隐含层的输入,ht代表每一层隐藏层,h<t-1>代表上一个时刻隐含层的数值,xt是t时刻的输入层的数值,yi是i序列得到的输出的值,Tx是输入为x时的隐含层数值;
ci是一个变化信息,代表输入句子的表征,不同时刻注意力集中在不同的词上面,由输入序列的h1,...,hTx产生,每个输入序列hi包含整个序列的信息的同时更多地关注第i个字的上下文信息,
Figure FDA0002864699830000031
其中aij是每个输入序列hj的权重得分,范围为(0,1),
Figure FDA0002864699830000032
eij为解码器i-1位置的隐藏状态和编码器j位置的隐藏状态经过计算方式a得到的分值,eij=a(si-I,hj),a=si-1Whj,W为参数矩阵,作为可训练参数加入整个网络,hj是j时刻的隐含层的数值,si-I是i以前的输入的序列。
5.根据权利要求1所述基于数据增强的蒙汉神经机器翻译方法,其特征在于,所述第四步中,利用T1、T2、T3分别对蒙语单语语料库M1翻译得到蒙汉伪平行语料库FC1、FC2、FC3,将蒙汉伪平行语料库FC1、FC2、FC3整合得到新的蒙汉伪平行语料库FC4,利用T1、T2、T3继续从蒙汉伪平行语料库FC4中学习得到新的特征,重复K次,直到T1、T2、T3对同一个蒙语单语语料库翻译的效果相同,则认为模型学习到了所有的特征,得到最终的翻译模型T。
6.根据权利要求1所述基于数据增强的蒙汉神经机器翻译方法,其特征在于,所述第五步中,将模型T对蒙汉伪平行语料库C2进行翻译得到的语句与蒙汉伪平行语料库C2对应的语句进行熵的对比得出loss1,对模型T进行修正,利用模型T对蒙语单语语料库M1和伪汉语单语语料库H1翻译的结果的熵最小的特性,得出loss2,结合loss1和loss2对模型T进行修正,公式如下:
loss1=Pmodel(y|x;θ)+H(Augment(y),Pmodel(x;θ))
Figure FDA0002864699830000033
计算总的loss值:
loss=minloss1+loss2
其中,X代表输入的源语言,y是通过翻译模型得到的预测的效果,θ是翻译模型的参数,Pmod el代表翻译模型T,H()代表交叉熵,Augument()代表进行了数据增强。
CN202011580153.XA 2020-12-28 2020-12-28 一种基于数据增强的蒙汉神经机器翻译方法 Active CN112633018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580153.XA CN112633018B (zh) 2020-12-28 2020-12-28 一种基于数据增强的蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580153.XA CN112633018B (zh) 2020-12-28 2020-12-28 一种基于数据增强的蒙汉神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112633018A true CN112633018A (zh) 2021-04-09
CN112633018B CN112633018B (zh) 2022-04-15

Family

ID=75325822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580153.XA Active CN112633018B (zh) 2020-12-28 2020-12-28 一种基于数据增强的蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112633018B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268996A (zh) * 2021-06-02 2021-08-17 网易有道信息技术(北京)有限公司 用于扩充语料的方法和用于翻译模型的训练方法及产品
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质
CN115455964A (zh) * 2022-11-10 2022-12-09 南京万得资讯科技有限公司 一种针对垂直领域机器翻译的低资源优化方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110022381A1 (en) * 2009-07-21 2011-01-27 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110674646A (zh) * 2019-09-06 2020-01-10 内蒙古工业大学 一种基于字节对编码技术的蒙汉机器翻译系统
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111444730A (zh) * 2020-03-27 2020-07-24 新疆大学 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN111709254A (zh) * 2020-04-30 2020-09-25 昆明理工大学 融合单语语言模型的汉越伪平行语料生成方法
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110022381A1 (en) * 2009-07-21 2011-01-27 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110674646A (zh) * 2019-09-06 2020-01-10 内蒙古工业大学 一种基于字节对编码技术的蒙汉机器翻译系统
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111444730A (zh) * 2020-03-27 2020-07-24 新疆大学 基于Transformer模型的数据增强维汉机器翻译系统训练方法和装置
CN111709254A (zh) * 2020-04-30 2020-09-25 昆明理工大学 融合单语语言模型的汉越伪平行语料生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张志锐: "面向神经机器翻译的数据增强方法及应用", 《中国优秀博硕士论文全文数据库(博士)信息科技辑》 *
牛向华 等: "单语数据训练在蒙汉神经机器翻译中的应用", 《计算机应用与软件》 *
牛向华: "基于单语语料库训练的蒙汉机器翻译的研究", 《中国优秀博硕士论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268996A (zh) * 2021-06-02 2021-08-17 网易有道信息技术(北京)有限公司 用于扩充语料的方法和用于翻译模型的训练方法及产品
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质
CN115455964A (zh) * 2022-11-10 2022-12-09 南京万得资讯科技有限公司 一种针对垂直领域机器翻译的低资源优化方法
CN115455964B (zh) * 2022-11-10 2023-03-14 万得信息技术股份有限公司 一种针对垂直领域机器翻译的低资源优化方法

Also Published As

Publication number Publication date
CN112633018B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN112633018B (zh) 一种基于数据增强的蒙汉神经机器翻译方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN109086267B (zh) 一种基于深度学习的中文分词方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110442705B (zh) 一种基于概念指针网络的摘要自动生成方法
CN114201581B (zh) 一种基于对比学习的长文本检索模型
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN112417901A (zh) 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN113343683A (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
KR20190143415A (ko) 자질 선별을 통한 고성능 기계독해 방법
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN115146057B (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN105955953A (zh) 一种分词系统
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN114972848A (zh) 基于细粒度视觉信息控制网络的图像语义理解及文本生成
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
CN112948588B (zh) 一种用于情报快速整编的中文文本分类方法
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN111026848B (zh) 一种基于相似上下文和强化学习的中文词向量生成方法
CN117236338A (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN115309886A (zh) 基于多模态信息输入的人工智能文本创作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant