CN112215017B - 一种基于伪平行语料库构造的蒙汉机器翻译方法 - Google Patents

一种基于伪平行语料库构造的蒙汉机器翻译方法 Download PDF

Info

Publication number
CN112215017B
CN112215017B CN202011141114.XA CN202011141114A CN112215017B CN 112215017 B CN112215017 B CN 112215017B CN 202011141114 A CN202011141114 A CN 202011141114A CN 112215017 B CN112215017 B CN 112215017B
Authority
CN
China
Prior art keywords
mongolian
chinese
sentence
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011141114.XA
Other languages
English (en)
Other versions
CN112215017A (zh
Inventor
仁庆道尔吉
刘永超
苏依拉
石宝
李雷孝
庞蕊
文丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011141114.XA priority Critical patent/CN112215017B/zh
Publication of CN112215017A publication Critical patent/CN112215017A/zh
Application granted granted Critical
Publication of CN112215017B publication Critical patent/CN112215017B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于伪平行语料库构造的蒙汉机器翻译方法,通过利用简单数据增强、回译两种方式以精确蒙汉平行语料库为依据分别构造出蒙汉伪平行语料库
Figure DDA0002738284570000011
Figure DDA0002738284570000012
其中回译技术中所使用的汉蒙翻译模型ΘB采用条件生成对抗网络的架构来构建。将精确蒙汉平行语料库、
Figure DDA0002738284570000013
三个语料库混合得到大规模蒙汉伪平行语料库,使用此语料库同样以条件生成对抗网络的架构来训练蒙汉翻译模型ΘA,并在训练过程中使用软上下文数据增强技术将输入到蒙汉翻译模型ΘA的编码器中的蒙语词的one‑hot向量进行平滑处理,利用这个平滑向量随机的替换原本要输入到翻译模型ΘA中编码器的one‑hot向量进行训练;目的在于优化翻译模型ΘA的参数,提升模型ΘA的翻译能力。

Description

一种基于伪平行语料库构造的蒙汉机器翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于伪平行语料库构造的蒙汉机器翻译方法。
背景技术
近几年神经机器翻译发展迅速,在多种翻译任务中神经机器翻译方法的表现都完全碾压基于概率的传统的翻译方法;但是作为一种以大量数据作为驱动的方法,神经机器翻译在翻译任务上的表现情况很大程度上和数据量的大小有关。由于历史文化的诸多因素的影响,可直接使用的蒙汉平行语料库规模小质量低成为了蒙汉神经机器翻译发展的拦路虎;通过人工翻译的方法来制造平行语料库费时费力,那么使用合适的方法来扩大蒙汉平行语料库规模从而提高翻译任务的完成度已经迫在眉睫。
发明内容
为了克服上述现有技术的缺点,解决可直接使用的蒙汉平行语料库规模小的问题,本发明的目的在于提供一种基于伪平行语料库构造的蒙汉机器翻译方法,使用简单数据增强,回译两种技术来直接根据精确蒙汉平行语料库来分别构造两个不同的伪平行语料库,并于一起与精确蒙汉平行语料库混合得到大规模的蒙汉为平行语料库;并在训练蒙汉翻译模型ΘA时,使用软数据增强技术进一步优化词向量表示来提高模型的质量;在选取蒙汉翻译模型ΘA和汉蒙回译模型ΘB的架构时采用条件生成对抗网络的架构来搭建,提高模型的翻译质量。
为了实现上述目的,本发明采用的技术方案是:
一种基于伪平行语料库构造的蒙汉机器翻译方法,包括如下骤:
第一步:利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到蒙汉伪平行语料库
Figure BDA0002738284550000021
第二步:利用条件生成对抗网络构建一个汉蒙回译模型ΘB,并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子,得到蒙汉伪平行语料库
Figure BDA0002738284550000022
第三步:将精确蒙汉平行语料库、蒙汉伪平行语料库
Figure BDA0002738284550000023
和蒙汉伪平行语料库
Figure BDA0002738284550000024
混合得到大规模蒙汉伪平行语料库,利用软上下文数据增强方法对大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强;
第四步:利用条件生成对抗网络构建蒙汉翻译模型ΘA,随后利用增强的词义表示进行词嵌入,训练蒙汉翻译模型ΘA,提升其翻译能力。
所述简单数据增强方法是通过四种操作方式对精确蒙汉平行语料库中的蒙语句子进行增强,所述四种操作方式分别是:
同义词替换:在句子中随机选择n1个词,利用每个词的同义词或近义词与其替换;遍
随机插入:在句子中随机选择一个词,并将该词的同义词或近义词插入到该句子中随机选择的位置上,针对一个句子重复n2次;
随机交换:在句子中随机选择两个词,并交换其位置,针对一个句子重复n3次;
随机删除:以一定的概率对句子中每一个词执行删除操作,被删除蒙语词的个数为n4
对一个蒙语句子随机采用上述四种操作方式中的一种进行增强,每增强一次即产生一个增强的蒙语句子;对该增强的蒙语句子使用原蒙语句子对应的汉语句子作为其数据标签。
在具体的操作时,精确蒙汉平行语料库中的蒙语句子有长有短;长蒙语句子在增强的过程中可以承受较多的数据噪声并且保留使用原数据的标签,而短句子对数据噪声的承受能力就相对较弱;那么如何动态为一个特定的蒙语句子确定一个合适的被操作词个数、操作次数以及删除操作概率成为一个必须要解决的问题。
通过如下公式为一个蒙语句子确定n1、n2、n3以及n4
n1=p1l
n2=p2l
n3=p3l
n4=p4l
式中p1是同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例,p2是随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例,p3是随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例,p4是随机删除操作中的删除概率;l是句子的长度。
将所述四种操作方式分别单独测试,分别得到p1~p4对应于同义词替换、随机插入、随机交换、随机删除操作四种操作方式的四个操作比率:同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例p1、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p2、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p3、随机删除操作中的删除概率p4的取值区间;取四个取值区间的交集得到p1~p4的最终取值记作p。
不难看出为了方便操作将p作为公式中的p1~p4四个值的最终取值,p其实是一个超参数,即最终在简单数据增强技术运行之前需要人为给出确切的p的值;在整个技术运行过程中p的值只需确定一次,并对四种操作都适用。通过使用这四种简单数据增强的方式可以得到第一个蒙汉伪平行语料库
Figure BDA0002738284550000031
所述汉蒙回译模型ΘB的构建方式如下:
首先条件生成对抗网络的生成器G在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子;生成器G每生成一个蒙语词,鉴别器D都会给生成器G一个奖励值,生成器G生成蒙语句子的质量越高则奖励值越大;生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建,本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BLG和BLD;此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题。
生成器G的损失函数J(θ)表达式如下:
Figure BDA0002738284550000041
其中,θ是实现生成器G的网络模型BLG内部的参数;Y1:T=y1,…,yT,表示生成器G生成的蒙语句子;X是指汉语句子;Y*表示真实蒙语句子;Gθ(Y1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y1:T的初始损失模型。
Figure BDA0002738284550000042
表示在鉴别器D中以生成器G对蒙语词语的翻译所规定的推测规则为策略记作Gθ,在给定汉语句子X和已经生成的前T-1个蒙语词Y1:T-1记作(Y1:T-1,X)的状态下,对下一个蒙语词yT的翻译行为即采取行动yT后所得到的奖励值;
奖励值
Figure BDA0002738284550000043
由鉴别器D给出,其表达式如下:
Figure BDA0002738284550000044
其中D(X,Y1:T)是鉴别器D在在给定汉语句子X的条件下翻译成蒙语句子Y1:T时给出的初始奖励值;b(X,Y1:T)是偏置项,其目的是为了减少鉴别器D给出的奖励值的方差。
使用蒙特卡罗搜索在由模型BLG实现的且参数为θ的生成器G规定的策略Gθ的驱使下抽取未知的蒙语词;当待确定的蒙语句子的最后一个词被选中或者蒙语句子已经达到最大长度则结束一次搜索,执行多次蒙特卡罗搜索以提高模型的稳定性,公式如下:
Figure BDA0002738284550000045
其中N是蒙特卡罗搜索执行的次数;Ti表示第i次蒙特卡罗搜索出的生成器G翻译出的蒙语句子的长度;t是指当前以确定翻译完毕的蒙语词的序号,(Y1:t,X)=(y1,…,yt,X)指在给定了汉语句子X条件下已经确定翻译完毕的蒙语词的序列即当前状态,通过N次蒙特卡罗搜索,鉴别器为翻译出来的蒙语句子分别提供奖励值,翻译过程中的中间状态的奖励值通过鉴别器D返回的N个中间状态的奖励值求平均得到;
生成器G翻译完毕的完整蒙语句子的长度为T,则每次新选取的蒙语词yt奖励值通过下面的公式计算得到:
Figure BDA0002738284550000051
通过上式表述的奖励值的计算方式来训练生成器G,不断优化实现生成器G的模型BLG中的参数θ,旨在使生成器G的损失函数J(θ)的值达到最小,可以得到翻译能力更强的生成器;一旦得到了更好的生成器,则用如下公式重新训练鉴别器D:
Figure BDA0002738284550000052
其中Pdata指精确蒙汉平行语料库,G指生成器,D指的是鉴别器;
在鉴别器更新之后,再次使用鉴别器返回的奖励值数据更新生成器,更新使用的梯度公式如下:
Figure BDA0002738284550000053
由此训练得到汉蒙回译模型ΘB。通过上述生成器鉴别器相互对抗的方式来训练汉蒙回译模型ΘB而拒绝传统翻译模型使用最大似然方式来进行训练的原因是若采用最大似然方式来翻译蒙语句子,显然可以保证在当前状态构建出的语义环境下翻译出来的蒙语词最为合适;但是在整个蒙语句子翻译完毕后,在这时的语义环境下,之前翻译的词就会显得不太合适了。而采用条件生成对抗网络构建回译模型ΘB,利用鉴别器来判断生成器翻译出的蒙语句子是否合适,在原理上来解决了上述的问题。
在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后,便可以使用回译技术构造出蒙汉伪平行语料库
Figure BDA0002738284550000061
即在汉语单语语料库中选取一定数量的汉语单语句子,利用汉蒙回译模型ΘB将选取出的汉语单语语料翻译为蒙语句子,这样就得到了蒙汉平行语料。
所述汉语单语句子的选取过程如下:
第一步:通过汉语词的预测损失函数得到低频词集合,并对应低频汉语词出现的具体蒙汉平行语料库中的汉语句子;
第二步:确定选取汉语单语语料库中的汉语句子的数量;
第三步:随机选取汉语单语语料库的某个汉语句子;
第四步:对所选取汉语句子每一个词进行判断若包含低频汉语词,分别获取其在精确蒙汉平行语料库及汉语单语语料库的上下文向量表示Cp和Cm;若不包含低频词则执行第三步;
第五步:计算两个上下文向量的余弦cos(Cp,Cm),若余弦大于设定的阈值则将选取的汉语句子添加到双语语料库中,并进行回译得到与之对应的蒙语语料构造伪平行语料库,若余弦小于设定的阈值则执行第三步。
所述低频词集合需要通过在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型来辅助得到;本发明采用基本的循环神经网络(RNN)来作为其架构,并加入注意力机制来缓解长期依赖的问题。而在训练过程中我们把在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型所使用的交叉熵损失函数稍加改动便可作为汉语词x的预测损失函数来使用。
所述汉语词x的预测损失函数为:
Figure BDA0002738284550000062
其中mx是指在精确蒙汉平行语料库上训练简易的以循环神经网络(RNN)的基本结构为架构的蒙汉翻译模型过程中,汉语词x出现的次数;M是指精确蒙汉平行语料库中汉语句子数目;|Xm|是精确蒙汉平行语料库中第m个汉语句子的长度;Ym指与精确蒙汉平行语料库中第m个汉语句子对应的精确蒙语句子;
Figure BDA0002738284550000071
指在给定精确蒙汉平行语料库中的蒙语句子Ym的条件下第k个翻译出的汉语词,
Figure BDA0002738284550000072
是指已经翻译完毕的前k-1个汉语词;
Figure BDA0002738284550000073
为简易的蒙汉翻译模型在给定精确蒙语句子Ym的条件下翻译出第k个汉语词
Figure BDA0002738284550000074
的交叉熵损失;
Figure BDA0002738284550000075
是克罗内克函数,负责比较
Figure BDA0002738284550000076
和x之间的差别程度,若
Figure BDA0002738284550000077
和x完全相同函数值为1,否则为0。以此损失函数可得到一个在预测过程中损失大于设定值的低频词的集合,形式化表达如下:
Figure BDA0002738284550000078
其中,Vx是指从精确蒙汉平行语料库中提取的汉语的词汇表;μ是词的预测损失的一个阈值。
所述的低频词的上下文向量使用最基本的循环神经网络(RNN)来训练一个汉语的语言模型LMH来辅助得到;在使用精确蒙汉平行语料库中的汉语语料训练好一个汉语语言模型LMH后,我们将一个新的汉语句子逐词输入到汉语语言模型LMH中,每个词都会得到自己特定的隐藏状态的向量;假定我们新输入的汉语句子中有一个低频词x,那么只需将低频词x周围的词输入汉语语言模型得到的对应的隐藏状态的向量串联起来就得到了低频词x的上下文向量,公式如下:
context(S,i)=[hi-w,…,hi-1,hi+1,…,hi+w]
其中S是指输入到汉语语言模型LMH中的含有低频词x的汉语句子;i是低频词x在汉语句子S中的位置索引;w是代表以低频词x为中心向左右两侧的延申长度;hi-w表示句子S中第i-w个词通过汉语语言模型LMH得到的对应的隐藏状态的向量。
通过上述在汉语单语语料库中选取汉语句子的方法并使用汉蒙回译模型ΘB可以得到新的蒙汉伪平行语料库
Figure BDA0002738284550000081
所述软上下文数据增强方法是:将在精确蒙汉平行语料库与通过回译和简单数据增强产出的两个蒙汉伪平行语料库
Figure BDA0002738284550000082
Figure BDA0002738284550000083
混合后的大规模蒙汉伪平行语料库,使用one-hot向量表示大规模蒙汉伪平行语料库中蒙语句子的蒙语词语,并将one-hot向量进行平滑处理,从而多维地更加充分地表达出词的词义,平滑处理后的one-hot向量通过一个语言模型来获得,形式表达如下:
P(w)=(p1(w),p2(w),…,pj(w),…,p|Z|(w))
其中Z是指在精确蒙汉平行语料库与通过回译和简单数据增强产出的两个蒙汉伪平行语料库
Figure BDA0002738284550000084
Figure BDA0002738284550000085
混合后的大规模蒙汉伪平行语料库上提取出的蒙语词汇表;w是蒙语词汇表Z中的任意一词,|Z|是指词汇表V中的词个数,pj(w)是指蒙语词w出现在词汇表Z规定的词的序列的第j个位置上的概率;pj(w)≥0且
Figure BDA0002738284550000086
平滑向量P(w)是在蒙语词汇表Z上的概率分布,词汇表Z中的任意一个词都会有自己平滑向量,在进行翻译任务的词嵌入工作之前随机选择一些词并使用其对应的平滑向量P(w)将替换原来的one-hot向量,再进行词嵌入;使用新的词嵌入向量进行神经网络的翻译任务;词嵌入向量的形式化表达如下:
Figure BDA0002738284550000087
其中E是为平滑向量P(w)降维的词嵌入矩阵;
本发明在计算平滑向量P(w)所使用的方法是仅利用精确蒙汉平行语料库中的蒙语来并以基本循环神经网络(RNN)为架构训练一个蒙语语言模型LMM,使用这个语言模型LMM在预测一个蒙语句子的下一个蒙语词时的输出来计算平滑向量P(w);首先给出平滑向量P(w)中第j个分量的形式化表达为:
pj(yt)=LM(wj|y<t)
其中yt指蒙语语言模型预测出的第t个蒙语词,当然yt在翻译完毕之前是不确定的,可以是词汇表Z中的任意一词;y<t是指蒙语语言模型已经预测出的前t-1个蒙语词,M(wj|y<t)描述了词汇表Z中第j个词wj出现在蒙语句子的第t个位置的概率,最终语言模型LMM会对词汇表中的每一个词分别对其出现在蒙语句子的第t个位置的概率进行预测;最终会得到平滑向量P(w)。
最终,通过使用软上下文增强技术提高蒙汉翻译模型ΘA的翻译能力;蒙汉翻译模型ΘA的构建和训练方式与汉蒙回译模型ΘB相同,但源语言为蒙语目标语言为汉语,这与汉蒙回译模型ΘB完全相反。
与现有技术相比,本发明的有益效果是:
(1)本发明可根据已有的蒙汉平行语料库构造出规模更大的伪平行语料库,给予模型更多的学习资源以提高模型的翻译能力。
(2)翻译模型放弃最大似然的方式进行词的选取而采用条件生成对抗网络搭建,考虑了词语在句子环境不同的情况下具有的多义性,是翻译的句子更加准确。
(3)训练最终的蒙汉翻译模型时,在进行词嵌入之前使用软上下文数据增强对词向量进行平滑处理,使词语在模型内部的表示更准确,更多样;从而使模型以较少的数据量获得更好的翻译能力。
附图说明
图1是本发明基于伪平行语料库构造的蒙汉机器翻译方法的结构图。
图2是条件生成对抗网络示意图。
图3是回译模型结构图。
图4是软上下文数据增强实现的结构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于伪平行语料库构造的蒙汉机器翻译方法,可以通过较少的精确蒙汉平行语料库构造出多于原语料库几倍的伪平行语料库为提高模型的翻译能力提供了数据基础;在搭建蒙汉翻译模型ΘA和汉蒙回译模型ΘB时采用条件生成对抗网络,考虑词在句子随着翻译过程的进行而导致的上下文环境的转变后引起的词义变化的问题,使用生成器和鉴别器的结构翻译出整体翻译效果更好的句子;且在蒙汉翻译模型ΘA进行词嵌入之前,使用软上下文数据增强对词向量进行平滑处理,使词嵌入向量可以包含更多的意义表达更准确;以此种方法来优化模型的参数。如图1所示,本发明的具体步骤如下:
第一步:利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到第一个蒙汉伪平行语料库
Figure BDA0002738284550000101
第二步:利用条件生成对抗网络构建一个汉蒙回译模型ΘB,并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子,得到一个新的蒙汉伪平行语料库
Figure BDA0002738284550000102
第三步:利用软上下文数据增强方法对构造出的两种蒙汉伪平行语料库
Figure BDA0002738284550000103
和精确蒙汉平行语料库混合后的大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强;
第四步:利用条件生成对抗网络构建蒙汉翻译模型ΘA,随后利用增强的词义表示进行词嵌入,训练蒙汉翻译模型ΘA,提升其翻译能力。
所述的简单数据增强作为常用的数据增强的方法,通过四种操作方式对精确平行语料库中的蒙语句子进行增强;这四种操作分别是:同义词替换,随机插入,随机交换,随机删除;下面结合实例来解释简单数据增强的实现方式,汉语句子:“在生活的偏僻道路上上演了一场悲伤的、高尚的人类喜剧”经过四种增强操作之后可得如下四个句子:
同义词替换:在落后的人生道路上上演了一出可悲的、高尚的人类喜剧。
随机插入:在滑稽的生活的偏僻道路上上演了一个悲伤的、高尚的人类喜剧。
随机交换:在偏僻的生活道路上上演了一场高尚的、悲伤的人类喜剧
随即删除:在生活的道路上上演了一场悲伤的、高尚的人类喜剧
当然在实际操作时除了同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例、随机删除操作中的删除概率四个值的选取之外,根据一个精确蒙汉平行语料库中的蒙语句子增强出来的新蒙语句子的数量也是影响翻译模型质量的重要因素;具体操作时将精确的蒙汉平行语料库的规模进行切分为几份:500、2000、5000、剩余;分别在不同规模的语料库上进行实验;每一次实验中增强句子的数目可以在{1,2,4,8,16,32}中进行选择,这样可以得到语料库规模和增强句子数目两个因素之间的制约关系,从而的得出利于最终蒙汉翻译模型ΘA训练的参数值。
本发明采用条件生成对抗网络来构建回译模型ΘB,条件生成对抗网络的基本结构如图2所示,条件生成对抗网络由生成器和鉴别器两部分构成。生成器的职能是接收限制条件Y以及数据噪声Z并在条件Y的限制下将数据噪声U修改为假数据Xfake;而鉴别器在接受假数据Xfake、条件Y以及真数据Xtrue后,即可区分假数据Xfake和真数据Xtrue之间的差别,并将这个差别信息返回给生成器。
若将这种结构用于蒙汉翻译任务,那么条件生成对抗网络的生成器G将作为一个翻译模型在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子;生成器G每生成一个蒙语词,鉴别器D都会给生成器G一个奖励值,生成器G生成蒙语句子的质量越高则奖励值越大;基于这样的变化最终汉蒙回译模型ΘB的架构如图3所示,x和yd是人工翻译完毕的精确蒙汉平行语料库中的汉语句子和与其对应的蒙语句子,yg是生成器在接受到的汉语句子x的条件下翻译出来的并不准确的蒙语句子;当将汉语句子x输入生成器G后并得到翻译出来的蒙语句子yg后,鉴别器D会接受汉语句子x、yd及yg,并在x的限定条件下区分yd及yg两个蒙语句子的区别;同时对yg进行评分给出奖励值;当然这个评分是针对整个已经翻译完毕的蒙语句子的,如图3所示在生成器对一个汉语句子进行逐词翻译的过程中,使用蒙特卡洛搜索(MC Search)来对翻译的过程中的中间状态进行评分,并在每个汉语词的翻译过程中进行多次搜索;最终此中间状态的奖励值取多次搜索后得到的奖励值的平均值。
生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建,本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BLG和BLD;此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题。
生成器G的损失函数J(θ)表达式如下:
Figure BDA0002738284550000121
其中,θ是实现生成器G的网络模型BLG内部的参数;Y1:T=y1,…,yT,表示生成器G生成的蒙语句子;X是指汉语句子;Y*表示真实蒙语句子;Gθ(Y1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y1:T的初始损失模型。
Figure BDA0002738284550000122
表示在鉴别器D中以生成器G对蒙语词语的翻译所规定的推测规则为策略记作Gθ,在给定汉语句子X和已经生成的前T-1个蒙语词Y1:T-1记作(Y1:T-1,X)的状态下,对下一个蒙语词yT的翻译行为即采取行动yT后所得到的奖励值;
奖励值
Figure BDA0002738284550000123
由鉴别器D给出,其表达式如下:
Figure BDA0002738284550000124
其中D(X,Y1:T)是鉴别器D在在给定汉语句子X的条件下翻译成蒙语句子Y1:T时给出的初始奖励值;b(X,Y1:T)是偏置项,其目的是为了减少鉴别器D给出的奖励值的方差。
使用蒙特卡罗搜索在由模型BLG实现的且参数为θ的生成器G规定的策略Gθ的驱使下抽取未知的蒙语词;当待确定的蒙语句子的最后一个词被选中或者蒙语句子已经达到最大长度则结束一次搜索,执行多次蒙特卡罗搜索以提高模型的稳定性,公式如下:
Figure BDA0002738284550000131
其中N是蒙特卡罗搜索执行的次数;Ti表示第i次蒙特卡罗搜索出的生成器G翻译出的蒙语句子的长度;t是指当前以确定翻译完毕的蒙语词的序号,(Y1:t,X)=(y1,…,yt,X)指在给定了汉语句子X条件下已经确定翻译完毕的蒙语词的序列即当前状态,通过N次蒙特卡罗搜索,鉴别器为翻译出来的蒙语句子分别提供奖励值,翻译过程中的中间状态的奖励值通过鉴别器D返回的N个中间状态的奖励值求平均得到;
根据上文中所述我们规定生成器G翻译完毕的完整蒙语句子的长度为T,则每次新选取的蒙语词yt奖励值通过下面的公式计算得到:
Figure BDA0002738284550000132
通过上式表述的奖励值的计算方式来训练生成器G,不断优化实现生成器G的模型BLG中的参数θ,旨在使生成器G的损失函数J(θ)的值达到最小,我们可以得到翻译能力更强的生成器;一旦得到了更好的生成器,则用如下公式重新训练鉴别器D:
Figure BDA0002738284550000133
其中Pdata指精确蒙汉平行语料库,G指生成器,D指的是鉴别器;
在鉴别器更新之后,再次使用鉴别器返回的奖励值数据更新生成器,更新使用的梯度公式如下:
Figure BDA0002738284550000134
由此训练得到汉蒙回译模型ΘB。
在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后,便可以使用回译技术构造出蒙汉伪平行语料库;即在汉语单语语料库中选取一定数量的汉语单语句子,利用汉蒙回译模型ΘB将选取出的汉语单语语料翻译为蒙语句子,这样就的得到了蒙汉平行语料。
所述汉语单语句子的选取过程如下:
第一步:通过汉语词的预测损失函数得到低频词集合,并对应低频汉语词出现的具体蒙汉平行语料库中的汉语句子;
第二步:确定选取汉语单语语料库中的汉语句子的数量;
第三步:随机选取汉语单语语料库的某个汉语句子;
第四步:对所选取汉语句子每一个词进行判断若包含低频汉语词,分别获取其在精确蒙汉平行语料库及汉语单语语料库的上下文向量表示Cp和Cm;若不包含低频词则执行第三步;
第五步:计算两个上下文向量的余弦cos(Cp,Cm),若余弦大于设定的阈值则将选取的汉语句子添加到双语语料库中,并进行回译得到与之对应的蒙语语料构造伪平行语料库,若余弦小于设定的阈值则执行第三步。
所述低频词集合需要通过在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型来辅助得到;本发明采用基本的循环神经网络(RNN)来作为其架构,并加入注意力机制来缓解长期依赖的问题。而在训练过程中我们把在精确蒙汉平行语料库上训练一个传统的蒙汉神经机器翻译模型所使用的交叉熵损失函数稍加改动便可作为汉语词x的预测损失函数来使用。
所述汉语词x的预测损失函数为:
Figure BDA0002738284550000141
其中mx是指在精确蒙汉平行语料库上训练简易的以循环神经网络(RNN)的基本结构为架构的蒙汉翻译模型过程中,汉语词x出现的次数;M是指精确蒙汉平行语料库中汉语句子数目;|Xm|是精确蒙汉平行语料库中第m个汉语句子的长度;Ym指与精确蒙汉平行语料库中第m个汉语句子对应的精确蒙语句子;
Figure BDA0002738284550000151
指在给定精确蒙汉平行语料库中的蒙语句子Ym的条件下第k个翻译出的汉语词,
Figure BDA0002738284550000152
是指已经翻译完毕的前k-1个汉语词;
Figure BDA0002738284550000153
为简易的蒙汉翻译模型在给定精确蒙语句子Ym的条件下翻译出第k个汉语词
Figure BDA0002738284550000154
的交叉熵损失;
Figure BDA0002738284550000155
是克罗内克函数,负责比较
Figure BDA0002738284550000156
和x之间的差别程度,若
Figure BDA0002738284550000157
和x完全相同函数值为1,否则为0。以此损失函数可得到一个在预测过程中损失大于设定值的低频词的集合,形式化表达如下:
Figure BDA0002738284550000158
其中,Vx是指从精确蒙汉平行语料库中提取的汉语的词汇表;μ是词的预测损失的一个阈值。
所述的低频词的上下文向量使用最基本的循环神经网络(RNN)来训练一个汉语的语言模型LMH来辅助得到;在使用精确蒙汉平行语料库中的汉语语料训练好一个汉语语言模型LMH后,我们将一个新的汉语句子逐词输入到汉语语言模型LMH中,每个词都会得到自己特定的隐藏状态的向量;假定我们新输入的汉语句子中有一个低频词x,那么只需将低频词x周围的词输入汉语语言模型得到的对应的隐藏状态的向量串联起来就得到了低频词x的上下文向量,公式如下:
context(S,i)=[hi-w,...,hi-1,hi+1,...,hi+w]
其中S是指输入到汉语语言模型LMH中的含有低频词x的汉语句子;i是低频词x在汉语句子S中的位置索引;w是代表以低频词x为中心向左右两侧的延申长度;hi-w表示句子S中第i-w个词通过汉语语言模型LMH得到的对应的隐藏状态的向量。
下面通过实例来展示通过此种方法选取出来的汉语句子的效果,精确蒙汉平行语料库中的一个汉语句子:“大江是2020年这个组织第一个收纳的成员”,不难看出这个句子的意义多变的词就是‘大江’,它既可以指人名、机构名或自然世界的江,可以表达上述意义的汉语句子很少即“大江”一词为低频词;那么经过以上方法以下汉语句子会被选取:“吕大江先生于2019年出版了他的自传”、“涛涛大江水是古代文明的摇篮”、“由于在救灾行动中的出色表现,大江慈善基金会得到了地方政府的褒奖”。可见低频词“大江”表达的意义通过上述选取方法得到了充实。
本发明采用的软上下文数据增强方法的具体架构如图4所示,仅利用精确蒙汉平行语料库中的蒙语来并以基本循环神经网络(RNN)为架构训练一个蒙语语言模型LMM,当蒙语词y0,的one-hot向量一次输入蒙语语言模型LMM后,LMM会给出一个形状与蒙语词的one-hot向量完全相同的但在数值上更为平滑的向量p(y1),使用这个平滑的向量p(y1)来代替蒙语词y1的one-hot向量输入到最终的蒙汉神经机器翻译模型ΘA的词嵌入(Embedding)层后,再输入到翻译模型ΘA的解码器(NMT Encoder)中进行翻译任务的执行。
上文中平经过蒙语语言模型LMM平滑处理后的one-hot向量形式表达如下:
p(w)=(P1(w),p2(w),...,pj(w),...,P|Z|(w))
其中Z是指在精确蒙汉平行语料库与通过回译和简单数据增强产出的两个蒙汉伪平行语料库
Figure BDA0002738284550000161
Figure BDA0002738284550000162
混合后的大规模蒙汉伪平行语料库上提取出的蒙语词汇表;w是蒙语词汇表Z中的任意一词,|Z|是指词汇表V中的词个数,pj(w)是指蒙语词w出现在词汇表Z规定的词的序列的第j个位置上的概率;pj(w)≥0且
Figure BDA0002738284550000163
平滑向量P(w)是在蒙语词汇表Z上的概率分布,词汇表Z中的任意一个词都会有自己平滑向量,蒙汉神经机器翻译模型ΘA的词嵌入层的词嵌入向量的形式化表达如下:
Figure BDA0002738284550000164
其中E是为平滑向量P(w)降维的词嵌入矩阵;
本发明在计算平滑向量P(w)所使用的蒙语语言模型LMM在预测一个蒙语句子的下一个蒙语词时的输出来计算平滑向量P(w);首先给出平滑向量P(w)中第j个分量的形式化表达为:
pj(yt)=LM(wi|y<t)
其中yt指蒙语语言模型预测出的第t个蒙语词,当然yt在翻译完毕之前是不确定的,可以是词汇表Z中的任意一词;y<t是指蒙语语言模型已经预测出的前t-1个蒙语词;LM(wj|y<t)描述了词汇表Z中第j个词wj出现在蒙语句子的第t个位置的概率,当然最终语言模型LMM会对词汇表中的每一个词分别对其出现在蒙语句子的第t个位置的概率进行预测;最终会得到平滑向量P(w)。最终通过使用软上下文增强技术提高蒙汉翻译模型ΘA的翻译能力;蒙汉翻译模型ΘA的构建和训练方式与汉蒙回译模型ΘB相同,但源语言为蒙语目标语言为汉语,这与汉蒙回译模型ΘB完全相反。

Claims (8)

1.一种基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,包括如下骤:
第一步:利用简单数据增强方法对精确蒙汉平行语料库进行初步扩充得到蒙汉伪平行语料库
Figure FDA0003534793820000011
第二步:利用条件生成对抗网络构建一个汉蒙回译模型ΘB,并利用此模型将从汉语单语语料库中选择的汉语句子翻译为蒙语句子,得到蒙汉伪平行语料库
Figure FDA0003534793820000012
第三步:将精确蒙汉平行语料库、蒙汉伪平行语料库
Figure FDA0003534793820000013
和蒙汉伪平行语料库
Figure FDA0003534793820000014
混合得到大规模蒙汉伪平行语料库,利用软上下文数据增强方法对大规模蒙汉伪平行语料库中的蒙语句子中某个词或多个词的词义表示进行最后增强;
第四步:利用条件生成对抗网络构建蒙汉翻译模型ΘA,随后利用增强的词义表示进行词嵌入,训练蒙汉翻译模型ΘA,提升其翻译能力;
其中,所述汉蒙回译模型ΘB的构建方式如下:
首先条件生成对抗网络的生成器G在给定汉语句子X的条件下生成一个鉴别器D无法分辨的趋于真实的蒙语句子;生成器G每生成一个蒙语词,鉴别器D都会给生成器G一个奖励值,生成器G生成蒙语句子的质量越高则奖励值越大;生成器G和鉴别器D两部分可以用目前常用的神经网络模型来构建,本发明在具体实现生成器G和鉴别器D时采用双向的长短时记忆网络(Bi-LSTM)模型分别记作BLG和BLD;此模型可以很好的缓解传统循环神经网络(RNN)的长期依赖问题;
所述生成器G的损失函数J(θ)表达式如下:
Figure FDA0003534793820000015
其中,θ是实现生成器G的网络模型BLG内部的参数;Y1:T=y1,…,yT,表示生成器G生成的蒙语句子;X是指汉语句子;Y*表示真实蒙语句子;Gθ(Y1:T|X)表示模型参数为θ的生成器G在的到汉语句子X的情况下翻译为蒙语句子Y1:T的初始损失模型;
Figure FDA0003534793820000021
表示在鉴别器D中以生成器G对蒙语词语的翻译所规定的推测规则为策略记作Gθ,在给定汉语句子X和已经生成的前T-1个蒙语词Y1:T-1记作(Y1:T-1,X)的状态下,对下一个蒙语词yT的翻译行为即采取行动yT后所得到的奖励值;
奖励值
Figure FDA0003534793820000022
由鉴别器D给出,其表达式如下:
Figure FDA0003534793820000023
其中D(X,Y1:T)是鉴别器D在给定汉语句子X的条件下翻译成蒙语句子Y1:T时给出的初始奖励值;b(X,Y1:T)是偏置项,其作用是为了减少鉴别器D给出的奖励值的方差;
使用蒙特卡罗搜索在由模型BLG实现的且参数为θ的生成器G规定的策略Gθ的驱使下抽取未知的蒙语词;当待确定的蒙语句子的最后一个词被选中或者蒙语句子已经达到最大长度则结束一次搜索,执行多次蒙特卡罗搜索以提高模型的稳定性,公式如下:
Figure FDA0003534793820000024
其中N是蒙特卡罗搜索执行的次数;Ti表示第i次蒙特卡罗搜索出的生成器G翻译出的蒙语句子的长度;t是指当前以确定翻译完毕的蒙语词的序号,(Y1:t,X)=(y1,…,yt,X)指在给定了汉语句子X条件下已经确定翻译完毕的蒙语词的序列即当前状态,通过N次蒙特卡罗搜索,鉴别器为翻译出来的蒙语句子分别提供奖励值,翻译过程中的中间状态的奖励值通过鉴别器D返回的N个中间状态的奖励值求平均得到;
生成器G翻译完毕的完整蒙语句子的长度为T,则每次新选取的蒙语词yt奖励值通过下面的公式计算得到:
Figure FDA0003534793820000031
通过上式表述的奖励值的计算方式来训练生成器G,不断优化实现生成器G的模型BLG中的参数θ,旨在使生成器G的损失函数J(θ)的值达到最小,得到翻译能力更强的生成器,并用如下公式重新训练鉴别器D:
Figure FDA0003534793820000032
其中Pdata指精确蒙汉平行语料库,G指生成器,D指鉴别器;
在鉴别器更新之后,再次使用鉴别器返回的奖励值数据更新生成器,更新使用的梯度公式如下:
Figure FDA0003534793820000033
由此训练得到汉蒙回译模型ΘB。
2.根据权利要求1所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,所述简单数据增强方法是通过四种操作方式对精确蒙汉平行语料库中的蒙语句子进行增强,所述四种操作方式分别是:
同义词替换:在句子中随机选择n1个词,利用每个词的同义词或近义词与其替换;遍
随机插入:在句子中随机选择一个词,并将该词的同义词或近义词插入到该句子中随机选择的位置上,针对一个句子重复n2次;
随机交换:在句子中随机选择两个词,并交换其位置,针对一个句子重复n3次;
随机删除:以一定的概率对句子中每一个词执行删除操作,被删除蒙语词的个数为n4
对一个蒙语句子随机采用上述四种操作方式中的一种进行增强,每增强一次即产生一个增强的蒙语句子;对该增强的蒙语句子使用原蒙语句子对应的汉语句子作为其数据标签。
3.根据权利要求2所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,通过如下公式为一个蒙语句子确定n1、n2、n3以及n4
n1=p1l
n2=p2l
n3=p3l
n4=p4l
式中p1是同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例,p2是随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例,p3是随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例,p4是随机删除操作中的删除概率;l是句子的长度。
4.根据权利要求3所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,将所述四种操作方式分别单独测试,分别得到p1~p4对应于同义词替换、随机插入、随机交换、随机删除操作四种操作方式的四个操作比率:同义词替换操作中的被操作蒙语词占整个蒙语句中所有词的比例p1、随机插入操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p2、随机交换操作中在操作完毕后受影响蒙语词占整个蒙语句中所有词的比例p3、随机删除操作中的删除概率p4的取值区间,取四个取值区间的交集得到p1~p4的最终取值记作p。
5.根据权利要求1所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,在通过精确蒙汉平行语料库训练出汉蒙回译模型ΘB后,使用回译技术构造出蒙汉伪平行语料库
Figure FDA0003534793820000041
即在汉语单语语料库中选取一定数量的汉语单语句子,利用汉蒙回译模型ΘB将选取出的汉语单语语料翻译为蒙语句子,得到蒙汉平行语料。
6.根据权利要求5所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,所述汉语单语句子的选取过程如下:
第一步:通过汉语词的预测损失函数得到低频词集合,并对应低频汉语词出现的具体蒙汉平行语料库中的汉语句子;
第二步:确定选取汉语单语语料库中的汉语句子的数量;
第三步:随机选取汉语单语语料库的某个汉语句子;
第四步:对所选取汉语句子每一个词进行判断若包含低频汉语词,分别获取其在精确蒙汉平行语料库及汉语单语语料库的上下文向量表示Cp和Cm;若不包含低频词则执行第三步;
第五步:计算两个上下文向量的余弦cos(Cp,Cm),若余弦大于设定的阈值则将选取的汉语句子添加到双语语料库中,并进行回译得到与之对应的蒙语语料构造伪平行语料库,若余弦小于设定的阈值则执行第三步。
7.根据权利要求6所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,所述汉语词x的预测损失函数为:
Figure FDA0003534793820000051
其中mx是在精确蒙汉平行语料库上训练以循环神经网络(RNN)的基本结构为架构的蒙汉翻译模型过程中,汉语词x出现的次数;M是指精确蒙汉平行语料库中汉语句子数目;|Xm|是精确蒙汉平行语料库中第m个汉语句子的长度;Ym指与精确蒙汉平行语料库中第m个汉语句子对应的精确蒙语句子;
Figure FDA0003534793820000052
指在给定精确蒙汉平行语料库中的蒙语句子Ym的条件下第k个翻译出的汉语词,
Figure FDA0003534793820000053
是指已经翻译完毕的前k-1个汉语词;
Figure FDA0003534793820000054
为简易的蒙汉翻译模型在给定精确蒙语句子Ym的条件下翻译出第k个汉语词
Figure FDA0003534793820000055
的交叉熵损失;
Figure FDA0003534793820000056
是克罗内克函数,负责比较
Figure FDA0003534793820000057
和x之间的差别程度,若
Figure FDA0003534793820000058
和x完全相同函数值为1,否则为0;
以此预测损失函数可得到一个在预测过程中损失大于设定值的低频词的集合,形式化表达如下:
Figure FDA0003534793820000061
其中,Vx是指从精确蒙汉平行语料库中提取的汉语的词汇表;μ是词的预测损失的一个阈值。
8.根据权利要求1所述基于伪平行语料库构造的蒙汉机器翻译方法,其特征在于,所述软上下文数据增强方法是:使用one-hot向量表示蒙语词语,并将one-hot向量进行平滑处理,从而多维地更加充分地表达出词的词义,平滑处理后的one-hot向量通过一个语言模型来获得,形式表达如下:
P(w)=(p1(w),p2(w),…,pj(w),…,p|Z|(w))
其中Z是在所述大规模蒙汉伪平行语料库上提取出的蒙语词汇表;w是蒙语词汇表Z中的任意一词,|Z|是指词汇表V中的词个数,pj(w)是蒙语词w出现在词汇表Z规定的词的序列的第j个位置上的概率;pj(w)≥0且
Figure FDA0003534793820000062
平滑向量P(w)是在蒙语词汇表Z上的概率分布,词汇表Z中的任意一个词都会有自己平滑向量,在进行词嵌入之前随机选择一些词并使用其对应的平滑向量P(w)将替换原来的one-hot向量,进行词嵌入;使用新的词嵌入向量进行神经网络的翻译任务;词嵌入向量的形式化表达如下:
Figure FDA0003534793820000063
其中E是为平滑向量P(w)降维的词嵌入矩阵;
在计算平滑向量P(w)所使用的语言模型的形式化表达为:
pj(yt)=LM(wj|y<t)
其中yt指蒙语语言模型预测出的第t个蒙语词,y<t是指蒙语语言模型已经预测出的前t-1个蒙语词;LM(wj|y<t)描述了词汇表中第j个词wj出现在蒙语句子的第t个位置的概率,最终语言模型会对词汇表中的每一个词分别进行其出现在蒙语句子的第t个位置概率的预测,得到平滑向量P(w)。
CN202011141114.XA 2020-10-22 2020-10-22 一种基于伪平行语料库构造的蒙汉机器翻译方法 Expired - Fee Related CN112215017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011141114.XA CN112215017B (zh) 2020-10-22 2020-10-22 一种基于伪平行语料库构造的蒙汉机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011141114.XA CN112215017B (zh) 2020-10-22 2020-10-22 一种基于伪平行语料库构造的蒙汉机器翻译方法

Publications (2)

Publication Number Publication Date
CN112215017A CN112215017A (zh) 2021-01-12
CN112215017B true CN112215017B (zh) 2022-04-29

Family

ID=74054860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011141114.XA Expired - Fee Related CN112215017B (zh) 2020-10-22 2020-10-22 一种基于伪平行语料库构造的蒙汉机器翻译方法

Country Status (1)

Country Link
CN (1) CN112215017B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051936A (zh) * 2021-03-16 2021-06-29 昆明理工大学 一种基于低频词表示增强的汉越神经机器翻译的方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN113657122B (zh) * 2021-09-07 2023-12-15 内蒙古工业大学 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN114757212A (zh) * 2022-03-30 2022-07-15 北京金山数字娱乐科技有限公司 翻译模型训练方法、装置、电子设备和介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN107315741A (zh) * 2017-05-24 2017-11-03 清华大学 双语词典构建方法和设备
CN108829685A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于单语语料库训练的蒙汉互译方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN110069656A (zh) * 2019-03-28 2019-07-30 天津大学 一种基于生成对抗网络的二维图片检索三维模型的方法
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110502758A (zh) * 2019-07-12 2019-11-26 昆明理工大学 一种基于短语的汉-越伪平行句对生成方法
CN110597963A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法
CN111159417A (zh) * 2020-04-07 2020-05-15 北京泰迪熊移动科技有限公司 文本内容关键信息的提取方法、装置、设备及存储介质
EP3703007A2 (en) * 2019-03-01 2020-09-02 Siemens Healthcare GmbH Tumor tissue characterization using multi-parametric magnetic resonance imaging
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法
CN111753493A (zh) * 2019-09-29 2020-10-09 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783622B2 (en) * 2018-04-25 2020-09-22 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN107315741A (zh) * 2017-05-24 2017-11-03 清华大学 双语词典构建方法和设备
CN108829685A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于单语语料库训练的蒙汉互译方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
EP3703007A2 (en) * 2019-03-01 2020-09-02 Siemens Healthcare GmbH Tumor tissue characterization using multi-parametric magnetic resonance imaging
CN110069656A (zh) * 2019-03-28 2019-07-30 天津大学 一种基于生成对抗网络的二维图片检索三维模型的方法
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
CN110502758A (zh) * 2019-07-12 2019-11-26 昆明理工大学 一种基于短语的汉-越伪平行句对生成方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN110597963A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN111753493A (zh) * 2019-09-29 2020-10-09 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法
CN111159417A (zh) * 2020-04-07 2020-05-15 北京泰迪熊移动科技有限公司 文本内容关键信息的提取方法、装置、设备及存储介质
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Consistent Embedded GAN for Image-to-Image Translation;FENG XIONG等;《IEEE Access》;20190905;第7卷;第126651页-126661页 *
关于命名实体识别的生成式对抗网络的研究;冯建周等;《小型微型计算机系统》;20190614;第40卷(第06期);第1191页-1196页 *
基于CGAN网络的二阶段式艺术字体渲染方法;叶武剑等;《广东工业大学学报》;20190404;第36卷(第03期);第47页-55页 *
基于生成对抗网络的跨语言文本情感分析;余传明;《信息系统》;20190723;第42卷(第11期);第135页-141页 *
基于神经网络迁移学习的蒙汉机器翻译方法;赵亚平等;《计算机应用与软件》;20200112;第37卷(第01期);第179页-185页 *
基于编码器-解码器重构框架的蒙汉神经机器翻译;仁庆道尔吉等;《计算机应用与软件》;20200412;第37卷(第4期);第150页-163页 *
基于非平行语料的双语词典构建;张檬等;《中国科学》;20180520;第48卷(第5期);第564页-573页 *

Also Published As

Publication number Publication date
CN112215017A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112215017B (zh) 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN110619127B (zh) 一种基于神经网络图灵机的蒙汉机器翻译方法
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN107665356A (zh) 一种图像标注方法
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
Guan et al. Repeated review based image captioning for image evidence review
CN117271742A (zh) 一种问答方法、装置、设备及介质
Akyürek et al. Compositionality as lexical symmetry
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN116680381A (zh) 文档检索方法、装置、电子设备和存储介质
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
Alissa et al. Text simplification using transformer and BERT
Kun et al. Kgwe: A knowledge-guided word embedding fine-tuning model
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法
CN114706983B (zh) 一种基于图注意力机制的深度学习问答推理方法及装置
Wu et al. Mitigating idiom inconsistency: A multi-Semantic Contrastive Learning Method for Chinese idiom reading comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220429