CN113657125B - 一种基于知识图谱的蒙汉非自回归机器翻译方法 - Google Patents

一种基于知识图谱的蒙汉非自回归机器翻译方法 Download PDF

Info

Publication number
CN113657125B
CN113657125B CN202110793011.XA CN202110793011A CN113657125B CN 113657125 B CN113657125 B CN 113657125B CN 202110793011 A CN202110793011 A CN 202110793011A CN 113657125 B CN113657125 B CN 113657125B
Authority
CN
China
Prior art keywords
mongolian
knowledge graph
knowledge
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110793011.XA
Other languages
English (en)
Other versions
CN113657125A (zh
Inventor
苏依拉
程永坤
王涵
张妍彤
仁庆道尔吉
吉亚图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202110793011.XA priority Critical patent/CN113657125B/zh
Publication of CN113657125A publication Critical patent/CN113657125A/zh
Application granted granted Critical
Publication of CN113657125B publication Critical patent/CN113657125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

一种基于知识图谱的蒙汉非自回归机器翻译方法,通过知识图谱三元组构建蒙汉双语命名实体语义网,并基于多特征对齐构建命名实体词典;然后借助知识图谱三元组表示蒙古语稀有词组成分布并进行稀有词切分,过程中进行交互式增强生成对抗训练,并添加交互信息指导生成对抗,得到全面的稀有词知识图谱三元组集;对经过处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;在进行非自回归机器翻译时,利用知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵,并进行解码信息润色。本发明可在保证翻译速率提高的前提下,提高机器翻译的译文质量。

Description

一种基于知识图谱的蒙汉非自回归机器翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于知识图谱的蒙汉非自回归机器翻译方法。
背景技术
机器翻译(MT)是利用计算机将一种语言自动翻译到另外一种语言,且转换过程中保持含义不变。现有的机器翻译模型研究多是以自回归机器翻译模型(AT)进行研究,比如现如今研究热点模型Transformer,该模型的出现以其高效的编码效率,多层的注意力效果叠加使的翻译质量得到大幅度提升。但是Transformer模型本身存在着:Exposure Bias(错误传递性)和解码器不能并行解码情况,这大大浪费了GPU的计算资源,使的翻译效果达不到研究者的理想状态。
考虑到现有的自回归机器翻译模型不能充分的利用GPU的计算能力,基于此提出利用非自回归机器翻译模型(NAT),它能充分的利用GPU的计算能力,使翻译的速度效率提高7.2倍左右。但是非自回归机器翻译模型本身也因为过快的翻译,引发了连续性重复翻译和漏译现象,这是因为在解码时并行解码,使得目标序列之间纯独立性并行解码,而缺失了目标序列间的依赖性。
目前,针对非自回归机器翻译提出一系列的方法进行改进,引入隐变量、迭代翻译、知识蒸馏等技术。但由于种种原因并未取得理想的效果,因此本文提出了将知识图谱(KG)引入非自回归机器翻译中,借助知识图谱构建形成蒙汉平行语料库的语义网人性化的润色翻译的译文,最终达到翻译高速率,质量高质化的目标。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于知识图谱的蒙汉非自回归机器翻译方法,旨在保证翻译速率提高的前提下,提高机器翻译的译文质量。
为了实现上述目的,本发明采用的技术方案是:
一种基于知识图谱的蒙汉非自回归机器翻译方法,包括如下步骤:
步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,以充分利用命名实体的上下文信息,其中所述命名实体为未登录词一部分且被知识图谱三元组表示,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典;
步骤2,利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),利用Transformer-CRF算法进行稀有词切分,在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值-1或者1来反向指导稀有词知识图谱三元组的构建,得到全面的稀有词知识图谱三元组集;
步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;
步骤4,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵
Figure SMS_1
先由源语言嵌入线性映射,然后经投影矩阵/>
Figure SMS_2
到目标嵌入层,转换成解码器输入信息作为解码器润色层模块的润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色。
与现有技术相比,本发明的有益效果是:
(1)、本发明针对未登录词中命名实体对齐问题,提出利用知识图谱构建命名实体语义网可以很好的利用命名实体的上下文信息,在此基础上结合双语命名实体的互信息特征,音译特征和共现特征来进行多特征对齐,取得了目前命名实体对齐方法中最优异的成果。
(2)、本发明针对稀有词问题,提出利用知识图谱三元组进行构建蒙古语稀有词形态组成结构,词干,词缀,词用三元组subject,relate,object表示。考虑到蒙古语词缀有限,词干复杂而多变,因此本发明提出在训练时首先利用Transformer-CRF进行稀有词切分,再结合构建出来的稀有词知识图谱三元组进行生成对抗网络的训练,并提出添加一个交互性信息Flag进行反向指导切分和生成过程,此时的生成对抗网络不仅仅是一个对抗的博弈过程,在生成对抗输出结果后根据Softmax的取值结合交互信息Flag会构建更多的稀有词知识图谱三元组集,从而更好的反向指导切分的过程。最终的理想目标是将所有的稀有词用知识图谱三元组进行构建。
(3)、在进行教师模型通过知识图谱提取序列知识为学生模型训练时,本发明也引入了知识图谱对蒙古语和汉语进行双语知识图谱三元组构建对齐,借助知识图谱的推理能力和人性化的分析能力在后面的研究中来优化解码目标。
(4)、本发明针对目前的非自回归解码器的输入信息不全面,提出利用双向映射的方法共同训练一个投影矩阵
Figure SMS_3
即在源语言嵌入后将嵌入矩阵Ex映射到目标嵌入层空间,转变成目标嵌入矩阵Ey,反过来同理,最终是通过上述的双方向映射过程来共同学习一个投影矩阵/>
Figure SMS_4
将Ex转变成Ey,将转换后的信息Ey作为解码器的输入也是润色层的直接融合信息之一。
(5)、本发明在对非自回归模型解码器的结构也进行了修改,从下往上主要分为,嵌入层模块,传递层模块,润色层模块,顶层模块。其中最重要优化点在于润色层模块,考虑到非自回归解码器在解码时目标语言信息纯独立进行解码会出现多峰问题,故本发明在解码信息即将进入到最后一层顶层模块时在润色层模块对传递信息进行修改,首先是将通过投影矩阵
Figure SMS_5
映射嵌入的解码信息在润色层与传递层模块输出的信息进行融合,在接下来的隐藏状态层通过一个迭代回泽模型进行生成对抗,即在对抗训练过程中使隐藏状态信息得到补全和重叠部分消除。
(6)、本发明借助知识图谱技术构建出双语命名实体对齐词典,更是通过生成对抗训练出一个好的稀有词知识图谱三元组集合来指导以后的稀有词的切分,解决了未登录词的问题。
附图说明
图1是本发明整体框架结构图。
图2多特征命名实体对齐结构图。
图3Transformer-CRF词切分结构图。
图4交互式生成对抗结构图。
图5基于Transformer的非自回归翻译模型结构。
图6自回归翻译模型Transformer结构图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
首先本发明从所用的语料库中拿出一对平行句子
Figure SMS_6
Figure SMS_7
“两个村隔一条河”作为下面流程的实例。
如图1所示,本发明一种基于知识图谱的蒙汉非自回归机器翻译方法,包括如下步骤:
步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,其中命名实体为未登录词的一部分被知识图谱三元组表示。本发明针对命名实体对齐问题,引入了知识图谱三元组对命名实体进行构建形成以命名实体为中心的上下文语义网,可以很好的利用命名实体上下文信息进行对齐。
在此基础上,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典。
参考图2,结合命名实体的互信息特征即联系程度,命名实体互信息计算公式如下所示,借助频率也可计算其对应概率,计算相似度公式如下所示:
Figure SMS_8
Figure SMS_9
其中,α表示汉语命名实体,β表示蒙古语命名实体,Scorem(α,β)表示α与β的互信息特征相似度,I(Asou,Atar)表示Asou,Atar的互信息,Asou,Atar分别表示蒙古语和汉语片段,p(Asou,Atar)表示Asou,Atar在上下文中共现概率,p(Asou),p(Atar)分别表示Asou,Atar的独立概率;N表示平行语料中总句对数,r(Asou,Atar)表示Asou,Atar在语料库同时出现的句对数,r(Asou),r(Atar)分别表示Asou,Atar出现的句对数。
考虑到蒙古语中有些命名实体词可以用发音近似的汉字将其翻译过来,此时译音的汉字不再有其汉字的意思,只保存它发音和书写样式,故提出利用音译特征进行对齐,将α转为字序列α=(α1,α2,...,αn),β转为音节序列β=(β1,β2,...,βm),则音译特征相似度Scoretranslite(α,β)的计算公式如下:
Figure SMS_10
其中,αi∈(α1,α2,...,αn),(α1,α2,...,αn)是α转换得到的字序列,βj∈(β1,β2,...,βm),(β1,β2,...,βm)是β转换得到的音节序列,i,j分别表示转换后序列中的位置序号,n,m分别表示字序列和音节序列的长度,p(αij)表示在条件βj下αi的概率,p(βji)表示在条件αi下βj的概率。
考虑到蒙古语和汉语命名实体在平行句子对中,如是出现的次数相同,那么也会对命名实体对齐产生一点的影响意义,故本发明也将实体共现特征作为命名实体对齐的标准之一,共现特征相似度Scoreco-occu(α,β)的计算公式如下:
Figure SMS_11
其中,Num(α,β)表示α和β在平行语料中出现的次数,Num(α)表示α在汉语语料中出现的次数,Num(β)表示β在蒙古语语料中出现次数。
本发明在命名实体对齐中,以命名实体知识图谱三元组构建的基础上进行多个特征融合,并对不同特征进行权重分配,这充分考虑到命名实体对齐过程中不同特征重要性的比例,故将上述3个特征进行融合得到蒙汉命名实体对齐的相似程度,即多特征对齐,融合后特征相似度Scoreall(α,β)的计算公式如下:
Figure SMS_12
其中,λj代表第j个特征对应的权重,Scorej(α,β)表示α与β第j个特征的相似度。
步骤2,蒙古语词组成是由词干和词缀,形成复杂多变的词汇,本发明利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),例如:词
Figure SMS_13
是由词干/>
Figure SMS_14
和词缀/>
Figure SMS_15
组成,则由三元组中的“subject”表示词干,“relate”表示词缀,“object”表示组成词,故出现/>
Figure SMS_16
Figure SMS_17
参考图3,利用Transformer-CRF算法进行稀有词切分,利用知识图谱三元组构建稀有词组成分布集。因此本发明在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值-1或者1来反向指导稀有词知识图谱三元组的构建,理想的生成对抗训练可以得到全面的稀有词知识图谱三元组集。
具体地,本步骤中,将利用Transformer-CRF算法进行稀有词切分看作生成器G,将稀有词知识图谱三元组的构建看作判别器D,将生成器G的输出做为判别器D的输入,并引入交互信息Flag做为指导生成对抗训练,Flag=1代表输入数据为知识图谱构建的真实数据,Flag=-1表示输入是由生成器G生成的伪数据,根据生成对抗输出的Softmax的取值来指导知识图谱生成新的稀有词三元组集,如图4所示。
下面为生成对抗训练生成器D和判别器G的过程:
1)、用知识图谱构建的稀有词真实数据集训练判别器D的参数θd,模型损失函数为:
Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)
2)、锁定生成器G,用生成器G切分出来的数据样本继续训练判别器D的参数θd,损失函数为:
Loss=∑(seg,tri,-1)∈sCross_Entropy(pre,ω)
3)、锁定判别器D,用知识图谱构建的稀有词数据训练生成器G,其损失函数为:
Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)+Loss(G)
Figure SMS_18
其中,seg表示Transformer-CRF词切分后的数据集,tri表示三元组构建的稀有词数据集,s表示训练的样本集,pre表示输入的概率,ω表示词切分后的词干和词缀是否在三元组中存在,Loss(G)表示生成器自身的损失函数,-1和1表示Flag的取值,
Figure SMS_19
表示总时间,Softmax(t)表示第t步Softmax层的输出,word(t)表示第t步的输入单词,Cross_Entropy(pre,ω)表示交叉熵的输出结果。
在进行生成对抗训练的过程中根据判别器最终的判别结果值,借助交互信息Flag的取值可以指导词切分和词构建过程,这会提高知识图谱三元组构建稀有词的泛化能力,反过来又会提高Transformer-CRF词切分的准度,最终的理想状态是取得所有稀有词的知识图谱三元组。
步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏(KD),在教师模型通过知识蒸馏为学生模型提取语料时,进行蒙汉平行语料库的知识图谱构建,比如对平行句子
Figure SMS_20
和“两个村隔一条河”在进行蒙汉知识蒸馏的过程中也构建出来了蒙汉对齐的两个知识图谱三元组。
本发明考虑到现有的非自回归机器翻译取得良好成绩的方法中多使用了知识蒸馏技术,即借助教师模型(AT)通过知识蒸馏(KD)过程为学生模型(NAT)提供对应的训练数据。本发明在进行知识蒸馏的过程同时也进行知识图谱三元组的构建,借助知识图谱的三元组构建双语料的语义网,进行知识图谱双语料的对齐,在图谱的对齐过程中不仅仅是主题语义句子的对齐还有三元组中词的对齐。
步骤4,采用图5所示的基于Transformer的非自回归翻译模型,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵
Figure SMS_21
先由源语言嵌入线性映射,然后经投影矩阵/>
Figure SMS_22
到目标嵌入层,投影得到的信息作为解码器的输入信息,并直接输送到润色层模块作为润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色,而若没有上面的步骤蒙古语
Figure SMS_23
翻译出来的汉语可能就会出现多峰问题“两个村隔隔隔一条河河”。
具体地,本步骤是在进行源语言嵌入和目标语言反向嵌入时,训练一个投影矩阵
Figure SMS_24
最终通过/>
Figure SMS_25
将源语言的嵌入矩阵Esou映射到目标嵌入层,得到的目标嵌入作为解码器的输入,计算如下:
Figure SMS_26
Figure SMS_27
其中,Etar表示目标语言的嵌入矩阵,fM表示映射函数,反向亦是如此。
其中,投影矩阵
Figure SMS_28
的训练过程如下:
步骤1)、在嵌入映射的过程中利用训练集中的蒙汉平行句子,通过最小化嵌入平行句子双方的距离Lalign来规范投影矩阵
Figure SMS_29
的学习;具体过程如下:
Lalign(x,y)=||fE(E′(x))-E′(y)||
Figure SMS_30
Figure SMS_31
其中,Lalign(x,y)表示源语言和目标语言嵌入后的双方距离,fE是嵌入函数,||*||来保证取值结果为正,E′(x)和E′(y)分别表示源语言x和目标语言y的嵌入,E′(xi)表示源语言x的第i个嵌入,E′(yj)表示目标语言y的第j个嵌入,
Figure SMS_32
Tx表示x的长度,
Figure SMS_33
Ty表示y的长度,i,j分别表示位序。
步骤2)、通过训练知识蒸馏过程中构建出的蒙汉平行语料库的知识图谱,利用知识图谱三元组中的实体词对齐来规范投影矩阵
Figure SMS_34
的学习;具体过程如下:
a)、经过TransE进行知识图谱三元组的结构嵌入,在TransE中附加权值增加注意力的学习,通过注意力的学习可以更好地对齐知识图谱三元组中的实体,则其中的最小化目标函数fse的计算公式如下:
Figure SMS_35
Figure SMS_36
其中,|K|为知识蒸馏过程中构建的蒙古语和汉语知识图谱中三元组的总数,count(r)为联系属性r出现的次数,θ表示权值,kr表示K中符合属性的三元组集,k’r表示K中不符合属性的三元组集,g(*)表示组合函数,σ表示属性出现概率。
b)、利用结构嵌入使蒙汉知识图谱三元组中的实体具有相似的嵌入,然后再进行实体嵌入,则蒙汉嵌入实体相似度Submap为:
Figure SMS_37
/>
其中,Sub1,Sub2分别表示蒙古语知识图谱和汉语知识图谱三元组中的实体,G2表示汉语知识图谱。
解决非自回归机器翻译解码器的输入信息后,本发明将解码器结构进行分层模块优化处理,解码器整体包括嵌入层模块、传递层模块、润色层模块和顶层模块。其中嵌入层模块为解码器的最下层,将目标语言词嵌入转化成词向量;传递层模块为解码器中最下面的N-1层,将来自嵌入层模块的向量在传递层模块中利用隐藏层计算来增强信息强度,且传递层模块N-1层中的每层主要包含自我注意、位置注意、词性注意、源侧注意、前馈层;润色层模块在解码信息进入到顶层前对传递的信息润色修改,主要是利用激活函数ReLu,将源语言嵌入经过投影矩阵
Figure SMS_38
得来的目标嵌入信息与来自传递层模块输出的信息进行融合,融合后的输出信息经过一个迭代回泽模型进行反向翻译来作为润色的最后一步,以达到解码的目标信息的最高标准化;顶层模块使用自回归Transformer解码器一层结构进行最终的解码输出。
嵌入层是最为基础的一层,其输入来源有两个,一个是源语言信息的复制,作为解码器的主线输入;另外一个是源语言嵌入矩阵线性映射,经投影矩阵后到目标嵌入层作为解码器的输入,利用得到的解码器输入来直接传送到润色层加以利用,其中源语言复制如下,
x′=copy(x)
其中,x表示源语言,x′表示复制过来的源语。
传递层模块就是借助非自回归解码器的最下N-1层对输入的信息进行隐藏状态的操作,但是由于解码过程中目标语言的相互独立性,整个过程是并不令人满意的,需要对其传递层模块输出来的信息进行一个润色修饰。润色层模块的存在主要是考虑到仅仅利用源语言来进行解码,这种缺失目标语言依赖信息的方法并不会取得优异的成绩,另直接在底层使用得来的映射信息因在解码时的独立性也会出现重译和漏译现象,故本发明将取得的映射信息直接在润色层模块来修饰传递层模块输出的信息,在最后即将进入到顶层模块前,利用迭代回泽模型对融合后的信息进行最后的一个润色修改,保证隐藏状态中输出的融合信息能够最高标准化,迭代回泽使用的是自回归模型Transformer,该过程类似于生成对抗网络,利用隐藏层的输出作为回泽模型的输入,隐藏层类似于生成器(G),回泽模型类似于判别器(D),回泽模型根据生出来数据来查看隐藏状态中的信息是否遗漏或者重复,反过来隐藏层类似于生成器一直想要生出最好的隐藏状态信息来使判别器满意。过程如下
润色融合:
Figure SMS_39
迭代回泽:
Figure SMS_40
生成对抗训练过程:
Figure SMS_41
其中,H表示传递层输出的隐藏状态,H′表示融合后的隐藏状态,
Figure SMS_42
U表示权重矩阵,Relu代表激活函数,xt表示t时刻解码出的信息,/>
Figure SMS_43
表示回泽源语言x所用的总时间,x<t表示在t时刻前的回泽源语言;E(·)表示分布函数期望,p(z)为噪声分布,p(x)为真实分布,D(x)表示判别器函数,G(z)表示生成器函数。
最后经过顶层模块输出被送到Softmax层通过计算解码出目标语言,其中顶层模块与原始的自回归模型Transformer的解码器中的子层一样,主要包括自我注意、词性注意、源侧注意、前馈层。故通过上述步骤的过程,尤其是润色层模块的润色,最终的输出结果即为“两个村隔一条河”,这个正确的译文答案。
本发明具体实现步骤可描述如下:
1.对于命名实体对齐一直是影响低资源语言翻译质量的一大问题,本发明对于蒙古语和汉语的命名实体对齐,先引入了知识图谱对蒙汉命名实体句子进行三元组构建,在此基础上配合命名实体的互信息特征,音译特征和共现特征进行多特征命名实体对齐并通过分配权重值来构建命名实体词典,整个多特征对齐过程如附图2所示。
2.稀有词的解决研究方法一直不停的研究,本发明借助知识图谱三元组(subject,relate,object)来表示稀有词的形态分布即词干(subject)+词缀(relate)=组成词(object)。具体的知识图谱三元组稀有词集构建过程如附图4,首先是借助附图3的Transformer-CRF进行词切分过程,利用知识图谱三元组构建稀有词集,词切分和词生成过程类似于生成对抗网络,为的都是要训练出来一个最好的切分器和生成器,故本发明将词切分比如成生成器(G),词生成比如成判别器(D),进行交互式增强生成对抗训练,并在训练过程中添加交互信息Flag来双向指导词切分和词生成过程,此次生成对抗训练的目的一方面是优化词切分和词生成,更是根据生成对抗训练的输出结果结合Flag来指导知识图谱稀有词三元组集的增加,来反向指导Transformer-CRF的词切分精度,最终的理想目标是生成目前所有的蒙古语稀有词三元组集。
3.对于非自回归机器翻译一直都存在着多模态问题即连续性重复翻译和漏译结构如附图5所示,故本发明提出在语料训练时利用双向嵌入映射的方法将源语言嵌入映射到目标嵌入层,反过来将目标嵌入映射到源嵌入层,双向嵌入映射来共同学习一个投影矩阵
Figure SMS_44
最终得到的目标嵌入信息作为润色层模块的直接来源之一。
4.在进行教师模型为学生模型进行知识蒸馏的过程中本发明引入了知识图谱三元组来构建一个平行的双语知识图谱G1,G2
5.在上述基础完成以后,即针对非自回归模型解码器结构进行了优化,将解码器结构整体划分层模块:嵌入层模块、传递层模块、润色层模块、顶层模块。重点优化在于润色层模块的出现,在将源语言复制过来的信息直接作为解码器的输入经嵌入层模块、传递层模块进入润色层模块后与双向嵌入后学习到的信息进行融合润色后,在经润色层模块输出前利用一个迭代回泽翻译模型对输出的信息进行一个最后的润色以达到最理想的输出解码信息,最后经过附图6顶层模块的自回归Transformer解码器层进行输出,整个过程即为附图1的非自回归翻译模型的整体框架结构图,这个过程很大程度的缓解了出现连续性翻译和漏译的现象,保证了翻译速度提高的前题下,大幅度的增加BLEU值。

Claims (8)

1.一种基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤:
步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,其中所述命名实体为未登录词一部分且被知识图谱三元组表示,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典;
其中,多特征对齐是融合命名实体互信息特征、音译特征和同现特征并对不同特征进行权重分配,得到蒙汉命名实体对齐的相似程度,融合后特征相似度Scoreall(α,β)的计算公式如下:
Figure FDA0004184858200000011
其中,α表示汉语命名实体,β表示蒙古语命名实体,λj表示第j个特征对应的权重,Scorej(α,β)表示α与β第j个特征的相似度,包括互信息特征相似度Scorem(α,β)、音译特征相似度Scoretranslite(α,β)和共现特征相似度Scoreco-occu(α,β);
所述互信息特征相似度Scorem(α,β)的计算公式如下:
Figure FDA0004184858200000012
Figure FDA0004184858200000013
其中,I(Asou,Atar)表示Asou,Atar的互信息,Asou,Atar分别表示蒙古语和汉语片段,p(Asou,Atar)表示Asou,Atar在上下文中共现概率,p(Asou),p(Atar)分别表示Asou,Atar的独立概率;N表示平行语料中总句对数,r(Asou,Atar)表示Asou,Atar在语料库同时出现的句对数,r(Asou),r(Atar)分别表示Asou,Atar出现的句对数;
所述音译特征相似度Scoretranslite(α,β)的计算公式如下:
Figure FDA0004184858200000021
其中,αi∈(α1,α2,...,αn),(α1,α2,...,αn)是α转换得到的字序列,βj∈(β1,β2,...,βm),(β1,β2,...,βm)是β转换得到的音节序列,i,j分别表示转换后序列中的位置序号,n,m分别表示字序列和音节序列的长度,p(αij)表示在条件βj下αi的概率,p(βji)表示在条件αi下βj的概率;
所述共现特征相似度Scoreco-occu(α,β)的计算公式如下:
Figure FDA0004184858200000022
其中,Num(α,β)表示α和β在平行语料中出现的次数,Num(α)表示α在汉语语料中出现的次数,Num(β)表示β在蒙古语语料中出现次数;
步骤2,利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),利用Transformer-CRF算法进行稀有词切分,在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值-1或者1来反向指导稀有词知识图谱三元组的构建,得到全面的稀有词知识图谱三元组集;
步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;
步骤4,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵
Figure FDA0004184858200000023
先由源语言嵌入线性映射,然后经投影矩阵
Figure FDA0004184858200000024
到目标嵌入层,转换成解码器输入信息作为解码器润色层模块的润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色。
2.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1中,蒙汉双语命名实体语义网是利用知识图谱对蒙汉双语命名实体构建形成的以命名实体为中心的上下文语义网。
3.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤2中,将利用Transformer-CRF算法进行稀有词切分看作生成器G,将稀有词知识图谱三元组的构建看作判别器D,将生成器G的输出做为判别器D的输入,并引入交互信息Flag做为指导生成对抗训练,Flag=1代表输入数据为知识图谱构建的真实数据,Flag=-1表示输入是由生成器G生成的伪数据,根据生成对抗输出的Softmax的取值来指导知识图谱生成新的稀有词三元组集。
4.根据权利要求3所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述生成器G和判别器D的生成对抗训练过程如下:
1)、用知识图谱构建的稀有词真实数据集训练判别器D的参数θd,模型损失函数为:
Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)
2)、锁定生成器G,用生成器G切分出来的数据样本继续训练判别器D的参数θd,损失函数为:
Loss=∑(seg,tri,-1)∈sCross_Entropy(pre,ω)
3)、锁定判别器D,用知识图谱构建的稀有词数据训练生成器G,其损失函数为:
Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)+Loss(G)
Figure FDA0004184858200000031
其中,seg表示Transformer-CRF词切分后的数据集,tri表示三元组构建的稀有词数据集,s表示训练的样本集,pre表示输入的概率,ω表示词切分后的词干和词缀是否在三元组中存在,Loss(G)表示生成器自身的损失函数,-1和1表示Flag的取值,
Figure FDA0004184858200000041
表示总时间,Softmax(t)表示第t步Softmax层的输出,word(t)表示第t步的输入单词,Cross_Entropy(pre,ω)表示交叉熵的输出结果。
5.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤4中,是在进行源语言嵌入和目标语言反向嵌入时,训练一个投影矩阵
Figure FDA0004184858200000042
最终通过/>
Figure FDA0004184858200000043
将源语言的嵌入矩阵Esou映射到目标嵌入层,得到的目标嵌入作为解码器的输入,计算如下:/>
Figure FDA0004184858200000044
Figure FDA0004184858200000045
其中,Etar表示目标语言的嵌入矩阵,fM表示映射函数。
6.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述投影矩阵
Figure FDA0004184858200000046
的训练过程如下:
步骤1)、在嵌入映射的过程中利用训练集中的蒙汉平行句子,通过最小化嵌入平行句子双方的距离Lalign来规范投影矩阵
Figure FDA0004184858200000047
的学习;
步骤2)、通过训练知识蒸馏过程中构建出的蒙汉平行语料库的知识图谱,利用知识图谱三元组中的实体词对齐来规范投影矩阵
Figure FDA0004184858200000048
的学习。
7.根据权利要求6所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1)的具体过程如下:
Lalign(x,y)=||fE(E′(x))-E′(y)||
Figure FDA0004184858200000049
Figure FDA0004184858200000051
其中,Lalign(x,y)表示源语言和目标语言嵌入后的双方距离,fE是嵌入函数,||*||来保证取值结果为正,E′(x)和E′(y)分别表示源语言x和目标语言y的嵌入,E′(xi)表示源语言x的第i个嵌入,E′(yj)表示目标语言y的第j个嵌入,
Figure FDA0004184858200000052
Tx表示x的长度,
Figure FDA0004184858200000053
Ty表示y的长度,i,j分别表示位序;
所述步骤2)的具体过程如下:
a)、经过TransE进行知识图谱三元组的结构嵌入,在TransE中附加权值增加注意力的学习,通过注意力的学习可以更好的对齐知识图谱三元组中的实体,则其中的最小化目标函数fse的计算公式如下:
Figure FDA0004184858200000054
Figure FDA0004184858200000055
其中,|K|为知识蒸馏过程中构建的蒙古语和汉语知识图谱中三元组的总数,count(r)为联系属性r出现的次数,θ表示权值,kr表示K中符合属性的三元组集,k’r表示K中不符合属性的三元组集,g(*)表示组合函数,σ表示属性出现概率;
b)、利用结构嵌入使蒙汉知识图谱三元组中的实体具有相似的嵌入,然后再进行实体嵌入,则蒙汉嵌入实体相似度Submap为:
Figure FDA0004184858200000056
其中,Sub1,Sub2分别表示蒙古语知识图谱和汉语知识图谱三元组中的实体,G2表示汉语知识图谱。
8.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述解码器包括嵌入层模块、传递层模块、润色层模块和顶层模块,所述嵌入层模块为解码器的最下层,将目标语言词嵌入转化成词向量;传递层模块为解码器中最下面的N-1层,将来自嵌入层模块的向量在传递层模块中利用隐藏层计算来增强信息强度,且传递层模块N-1层中的每层主要包含自我注意、位置注意、词性注意、源侧注意、前馈层;
润色层模块在解码信息进入到顶层前对传递的信息润色修改,利用激活函数ReLu,将源语言嵌入经过投影矩阵
Figure FDA0004184858200000061
得来的目标嵌入信息与来自传递层模块输出的信息进行融合,融合后的输出信息经过一个迭代回泽模型进行反向翻译来作为润色的最后一步,以达到解码的目标信息的最高标准化;顶层模块使用自回归Transformer解码器一层结构进行最终的解码输出。/>
CN202110793011.XA 2021-07-14 2021-07-14 一种基于知识图谱的蒙汉非自回归机器翻译方法 Active CN113657125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110793011.XA CN113657125B (zh) 2021-07-14 2021-07-14 一种基于知识图谱的蒙汉非自回归机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110793011.XA CN113657125B (zh) 2021-07-14 2021-07-14 一种基于知识图谱的蒙汉非自回归机器翻译方法

Publications (2)

Publication Number Publication Date
CN113657125A CN113657125A (zh) 2021-11-16
CN113657125B true CN113657125B (zh) 2023-05-26

Family

ID=78477360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110793011.XA Active CN113657125B (zh) 2021-07-14 2021-07-14 一种基于知识图谱的蒙汉非自回归机器翻译方法

Country Status (1)

Country Link
CN (1) CN113657125B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186690B (zh) * 2022-02-16 2022-04-19 中国空气动力研究与发展中心计算空气动力研究所 飞行器知识图谱构建方法、装置、设备及存储介质
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
WO2020101246A1 (en) * 2018-11-13 2020-05-22 Samsung Electronics Co., Ltd. Joint unsupervised object segmentation and inpainting
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933647A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 确定描述信息的方法、装置、电子设备和计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
WO2020101246A1 (en) * 2018-11-13 2020-05-22 Samsung Electronics Co., Ltd. Joint unsupervised object segmentation and inpainting
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Contextual graph attention for answering logical queries over incomplete knowledge graphs;Mai Gengchen 等;《Proceedings of the 10th international conference on knowledge capture》;171-178 *
Graph-Based Natural Language Processing for the Pharmaceutical Industry;Dumitriu Alexandra 等;《Provenance in Data Science: From Data Models to Context-Aware Knowledge Graphs》;75-110 *
汉蒙统计机器翻译中的形态学方法研究;杨攀;《中国优秀硕士学位论文全文数据库信息科技辑》(第07期);I138-1150 *
融合多特征的老挝语词性标注研究;王兴金;《中国优秀硕士学位论文全文数据库信息科技辑》(第04期);I138-1009 *
非自回归翻译模型在蒙汉翻译上的应用;赵旭 等;《计算机工程与应用》;第58卷(第12期);310-316 *

Also Published As

Publication number Publication date
CN113657125A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
Zhang et al. Neural machine translation with deep attention
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN109829161B (zh) 一种多语种自动摘要的方法
CN111160050A (zh) 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN113158665A (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN108932232A (zh) 一种基于lstm神经网络的蒙汉互译方法
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
Zhang et al. Battrae: Bidimensional attention-based recursive autoencoders for learning bilingual phrase embeddings
Sun et al. QuGAN: quasi generative adversarial network for Tibetan question answering corpus generation
Ye et al. Dual-level interactive multimodal-mixup encoder for multi-modal neural machine translation
Sun Analysis of Chinese machine translation training based on deep learning technology
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
Cheng Joint Training for Neural Machine Translation
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
Hirasawa et al. Pre-trained word embedding and language model improve multimodal machine translation: A case study in Multi30K
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant