CN112580373A - 一种高质量蒙汉无监督神经机器翻译方法 - Google Patents

一种高质量蒙汉无监督神经机器翻译方法 Download PDF

Info

Publication number
CN112580373A
CN112580373A CN202011570925.1A CN202011570925A CN112580373A CN 112580373 A CN112580373 A CN 112580373A CN 202011570925 A CN202011570925 A CN 202011570925A CN 112580373 A CN112580373 A CN 112580373A
Authority
CN
China
Prior art keywords
mongolian
chinese
word
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011570925.1A
Other languages
English (en)
Other versions
CN112580373B (zh
Inventor
苏依拉
王昊
贺玉玺
仁庆道尔吉
李雷孝
石宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011570925.1A priority Critical patent/CN112580373B/zh
Publication of CN112580373A publication Critical patent/CN112580373A/zh
Application granted granted Critical
Publication of CN112580373B publication Critical patent/CN112580373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种高质量蒙汉无监督神经机器翻译方法,对大规模蒙汉单语语料预切分处理,使用Bert对切分语料进行单语语言模型预训练得到蒙语、汉语语言模型,并结合融合子词‑片段的相关矩阵生成方法训练无监督蒙汉分词器,对待分词蒙汉句子中任意两个子词的相关性打分以完成分词,经分词的蒙汉双语嵌入到一个共享的潜在空间,使用无监督对抗自主学习方法最优对齐蒙汉双语词向量空间,对空间中已切分的蒙汉单语语料训练蒙汉语言模型,使用CSLS方法进行最近邻查找得到基于GAS框架的蒙汉双语词典,结合预训练模型生成的蒙汉语言模型训练初始蒙汉翻译模型,并使用无监督回译方法结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。

Description

一种高质量蒙汉无监督神经机器翻译方法
技术领域
本发明属于神经机器翻译技术领域,特别涉及一种高质量蒙汉无监督神经机器翻译方法。
背景技术
机器翻译近年来蓬勃发展,稀少资源语言和少数民族语言的机器翻译任务也获得了更多的关注。蒙古语是一个广泛使用的跨多国、多地区的语言,蒙古语言文字是内蒙古自治区的官方语言文字。蒙汉机器翻译研究一方面对于促进民族文化传播和多民族人民交流有着重要意义,另一方面对于稀少资源和少数民族语言机器翻译研究发展有着积极地推动作用。但是由于有关蒙古语自然语言处理研究起步较晚以及蒙古语词法形态变化相比较英、汉等语言语法复杂使得蒙汉翻译的研究进展相对缓慢。不论是基于统计的机器翻译模型还是神经网络机器翻译模型都需要大量的语料数据做驱动,翻译的性能高度依赖平行语料的规模大小、质量和领域覆盖面。然而蒙汉平行语料目前处于严重匮乏阶段,如何利用现有的语料数据缓解由于资源不足导致的翻译质量不高问题已经成为神经机器翻译的一个重要的研究课题。此外,神经机器翻译还有一些亟待解决的难点。未登录词翻译是神经机器翻译的主要难点之一。因为神经机器翻译系统为了能够控制计算的复杂度,有着一个固定大小的词汇表,这就导致了其在翻译未登录词时有着严重的不足。由于限定词汇表有大小限制,对于未出现在该词汇表中的词,神经机器翻译系统用UNK标记来替代。然而神经机器翻译系统不仅无法将它们翻译准确,而且破坏了句子的结构特征。而蒙语属于黏着语,句子的结构一旦变化,表达的意思也会随之进行变化,甚至出现严重语病,在使用原有系统进行翻译时,经常由于一个长句中出现未登录词而导致翻译偏差。又由于蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性,使得蒙汉翻译过程中出现了大量的未登录词,进而给蒙汉翻译工作带来更多的麻烦。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种高质量蒙汉无监督神经机器翻译方法,将高质量无监督学习策略应用到蒙汉神经机器翻译中,以充分利用现有大量无标签单语数据来缓解蒙汉并行语料资源缺乏问题。
为了实现上述目的,本发明采用的技术方案是:
一种高质量蒙汉无监督神经机器翻译方法,包括如下步骤:
步骤1,使用字节对编码技术(BPE)对大规模蒙汉单语语料进行预切分处理,将蒙语、汉语句子全部分成单个字符。
步骤2,使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练,分别得到蒙语、汉语语言模型。
步骤3,将蒙语、汉语语言模型其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙汉分词器基于Bert训练得到的无监督蒙汉分词器对待分词蒙汉句子中任意两个子词的相关性打分以完成分词。
步骤4,将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间。.
步骤5,使用一种基于transformer-XL+mask框架的序列到序列预训练模型(MPM)共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型。
步骤6,对基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典。
步骤7,使用基于GAS框架生成的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型基于一种带记忆单元的transformer-LR框架训练初始蒙汉翻译模型。
步骤8,对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法,结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。
步骤9,对本发明一种高质量蒙汉无监督神经机器翻译模型进行BLUE值评测。
与现有技术相比,本发明提出的一种高质量蒙汉无监督神经机器翻译方法简单可行,其中基于Bert训练出的无监督分词器有效降低了蒙汉翻译中蒙语未登录词个数,解决了蒙语中存在大量未登录词导致翻译结果存在严重偏差问题;使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间,结合一种基于transformer-XL+mask框架的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型,通过对蒙汉双语编码器-解码器共同训练结合transformer-XL框架自有的长距离依赖特性,解决了由于蒙汉语言差异较大导致的在仅有单语训练的条件下模型无法充分捕获蒙汉单语及双语语言知识的问题,进一步提高蒙汉翻译译文生成质量;使用一种新型蒙汉无监督学习训练框架基于transformer-LR作为编码器-注意力-解码器架构,通过对偶学习结合上述预训练得到的蒙汉单语语言模型经无监督回译方法迭代训练蒙汉、汉蒙双向对偶无监督翻译模型,解决了传统无监督蒙汉机器翻译由于缺少记忆单元无法将语义信息融合到翻译模型训练过程而导致的翻译结果错译、漏译的问题,进一步提升了无监督蒙汉机器翻译的译文流畅度与翻译准确率。
附图说明
图1是实现一种高质量蒙汉无监督神经机器翻译方法的流程图。
图2是实现一种基于Bert训练无监督蒙汉分词器方法的流程图。
图3是实现一种基于MPM框架对已切分的蒙汉单语语料训练语言模型方法的示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种高质量蒙汉无监督神经机器翻译方法,其过程为:
步骤1,使用Bert训练一种无监督分词器:以蒙语为例,使用BPE对大规模蒙语单语语料进行预切分处理,之后使用Bert对大规模蒙语单语切分语料进行单语语言模型预训练,训练出蒙语单语语言模型之后,将其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器,之后通过对待分词蒙语句子中任意两个子词的相关性打分以完成分词,汉语同理。
其中,Bert对大规模蒙语单语切分语料进行单语语言模型预训练时,输入的蒙语句子序列设定15%的mask概率,即随机选中蒙语句子序列中15%的单词进行mask,其中设定80%的概率mask掉选中的蒙语单词,即使用[mask]标记替换掉原单词,10%情况下使用任意蒙语单词替换选中单词,剩余10%情况下保持原词汇不变。
参考图2,将Bert训练得到的语言模型作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器的步骤为:
首先,对于经过预切分步骤的待分词蒙语句子序列x=(x1,x2,…,xt),使用一种基于子词级的相关矩阵生成方法测试任意两个token的相关度,使用B(x)表示序列x经过Bert编码器后的输出序列,而B(x)i则表示第i个token所对应的编码向量,另外,x\{xi}表示将第i个token替换为[mask]后的序列,x\{xi,xj}表示将第i,j个token都替换为[mask]后的序列。设f(xi,xj)表示第i个token对第j个token的依赖程度,或者说第j个token对第i个token的“影响力”,即xi,xj之间的相关度。这里将其定义为:
f(xi,xj)=d(B(x\{xi})i,B(x\{xi,xj})i)
其中d(·,·)为欧氏距离,即d(u,v)=‖u-v‖2。此时可以得到一个T×T的相关矩阵用于衡量xi,xj之间的相关度。实验结果证明使用该方法进行蒙语单词切分可以有效地切分出蒙语单词的前缀及后缀及其对应关系。
之后,使用一种基于子词片段的相关矩阵生成方法测试任意两个token片段的相关度,这里Bert的输入还是token,但需要将token分组成若干个token片段,定义句子序列D=[e1,e2,…,eN],其中
Figure BDA0002862707320000041
这时定义一个N×N的相关矩阵用于衡量token片段ei与ej,定义原理跟上文类似:
f(ei,ej)=d(B(D\{ei})i,B(D\{ei,ej})i)
这里B(D\{ei})i是指Bert输出的ei对应的Mi个向量的平均。
最后,结合上述定义的子词及子词片段的相关矩阵生成方法共同对经过BPE预处理的蒙语单语语料再次进行分词,分词设定一个阈值,先对token进行切分,相关度小于这个阈值的两个token切开,大于等于这个阈值的两个token拼接,之后再对生成的token片段再次进行切分,本发明中使用
Figure BDA0002862707320000051
作为相邻两个token的相关程度度量,使用
Figure BDA0002862707320000052
作为相邻两个token片段的相关程度度量。
本发明使用上述Bert学习语言模型结合一种融合子词-片段的相关矩阵生成方法训练出的无监督蒙语分词器,能够将蒙语语料更加精确的切分出具有实际意义的蒙语单词,本发明一定程度上缓解了由于蒙语独特的构词法导致现有的词切分方法不够准确而产生大量未登录词的问题
步骤2,对分词后的蒙汉单语语料共同训练语言模型:将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间,结合一种基于transformer-XL+mask框架的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。参考图3,具体步骤为:
步骤2.1,对分词后的蒙汉单语语料共同训练语言模型。
步骤2.1.1,为了保留上述蒙语句子序列切分后单词内部的形态特征,将经过分词的蒙汉双语使用fastText作为编码器,使用其的字符级n-grams将切分后的蒙汉双语嵌入到一个共享的潜在空间。
步骤2.1.2,对嵌入到共享的潜在空间的蒙语、汉语词向量分布,使用一种无监督对抗自主学习方法(GAS方法)实现蒙汉双语词向量空间最优对齐。
步骤2.1.3,使用基本对齐的蒙汉双语词向量分布结合一种带mask的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。
无监督对抗自主学习方法(GAS方法)的目的为通过一种对抗与自主学习方法相结合的词向量对齐方法对齐蒙汉双语词向量空间,先使用一种双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间,再结合一种基于自主学习的对齐方法实现蒙汉双语词向量空间最优对齐,为之后训练语言模型及翻译模型提供蒙汉双语初始对应关系。其步骤为:
步骤2.2,双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间,其步骤为:
步骤2.2.1,设分词后的蒙语句子词向量集合为x=(x1,x2,…,xn),分词后的汉语词向量集合为y=(y1,y2,…,ym),定义两个transformer解码器Dec_mo与Dec_zh,其中Dec_mo用于重构已嵌入在共享空间的蒙语词向量,同理Dec_zh用于重构已嵌入在共享空间的汉语词向量,以蒙语为例,将共享潜在空间中的蒙语词向量xi通过解码器Dec_mo产生重置后的词嵌入Xi,这里将原始和重新构造的词嵌入之间的差异设定为损失函数:
L(mo)=d(xi,Xi)=d(xi,Dec_mo(Enc1(xi)))
同理对汉语,将原始和重新构造的词嵌入之间的差异设定为损失函数,其中Yi为汉语词向量,
L(zh)=d(yi,Yi)=d(yi,Dec_zh(Enc2(yi)))
步骤2.2.2,对fastText编码器与上步设定的解码器共同进行训练以最大程度地减少损耗函数,其中d(·,·)为欧氏距离.
步骤2.2.3,通过对抗训练引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似。其步骤为:
步骤2.2.3.1,通过解码器Dec_mo重构已嵌入在共享空间的汉语词向量,同理对蒙语词向量使用解码器Dec_zh进行重构,即:
Figure BDA0002862707320000061
Figure BDA0002862707320000071
步骤2.2.3.2,训练基于transformer的鉴别器Dx和Dy对原始单词嵌入和重构单词嵌入进行分类:
Figure BDA0002862707320000072
Figure BDA0002862707320000073
步骤2.2.3.3,训练两个自动编码器用于混淆鉴别器:
lauto(yi)=log(1-Dx(Dec_mo(Enc2(yi))))
lauto(xi)=log(1-Dy(Dec_zh(Enc1(xi))))
步骤2.2.4,通过迭代优化总目标函数中的自动编码器损耗和上述鉴别器损耗,引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似,初步对齐蒙汉双语词向量空间。其中λaλb为加权超参数,本发明中均设定为0.5。
ltotal=λa(l(mo)+l(zh))+λb(lauto(xi)+lauto(yi))
步骤2.3,结合一种基于自主学习的对齐方法最终对齐蒙汉双语词向量空间,即将上述一种双编码器-解码器对抗重构框架作为初始化方法与一种健壮的自主学习方法相结合,从初始对齐的词向量空间逐步迭代改进蒙汉双语词空间的映射,最终实现蒙汉双语词向量空间最优对齐。其步骤为:
步骤2.2.3.1,对上一步初步对齐的蒙汉词向量空间xi与yi生成两个词嵌入矩阵MO与ZH,其中行代表蒙语或汉语的词向量,列代表词向量的维度,经过上一步的初始对齐,MOi与ZHi之间已经有了初步的对应关系。
步骤2.2.3.2,定义两个转换矩阵Wmo,Wzh用于引导蒙汉词向量空间进一步对齐,即引导MOWmo和ZHWzh对齐在同一个向量空间。定义一个测试词典Dmo-zh,如果汉语中的第j个词是第i个蒙语单词的翻译,此时
Figure BDA0002862707320000074
首先计算最大化当前字典Dmo-zh相似度的最佳正交映射以训练转换矩阵:
Figure BDA0002862707320000075
步骤2.2.3.3,是在映射嵌入的相似矩阵
Figure BDA0002862707320000076
上进行最佳词典的计算。本发明使用最近邻搜索,当j=argmaxk((MOi*Wmo)*(ZHk*Wzh)),则有
Figure BDA0002862707320000081
此时MOi与ZHj构成一组词对。
步骤2.2.3.4,对上述两个步骤进行迭代训练直到模型收敛,即实现蒙汉双语词向量空间最优对齐。
步骤3,结合蒙汉单语语言模型训练蒙汉对比无监督翻译系统:使用一种蒙汉无监督学习训练框架结合transformer-LR作为编码器-注意力-解码器架构,通过对偶学习结合上述预训练得到的蒙汉单语语言模型迭代训练得到一个蒙汉、汉蒙双向对偶无监督翻译模型。具体步骤为:
步骤3.1,最优对齐蒙汉双语词向量空间结合一种带mask的蒙汉序列到序列预训练模型(MPM)共同对已切分的蒙汉单语语料训练语言模型,其中预训练模型使用结合注意力单元的transformer-XL作为编码器-注意力-解码器框架,并引入一种与Bert-base类似的mask机制,不同的是Bert-base引入了两个用于自然语言理解的预训练任务(屏蔽语言建模和下一个句子预测),且Bert-base只使用一个编码器提取单个句子或一对句子的表示形式,故其不适合通常利用编码器解码器框架进行条件序列生成的语言生成任务(如机器翻译)。而本发明使用的带mask的蒙汉序列到序列预训练模型是对基于transformer-XL的编码器和解码器共同进行训练。
步骤3.2,对不成对的大规模蒙汉单语句子,假定经上述Bert训练的无监督分词模型切分后的蒙语句子集合为X=(x1,x2,…,xn),给定其中的xi∈X,设
Figure BDA0002862707320000082
表示句子xi的相对编码序列位置a到位置b,设
Figure BDA0002862707320000083
表示句子xi的序列中从相对位置a到相对位置b被遮蔽,即被mask掉。其中0<a<b<m,m表示句子xi序列中所有的token数。句子xi的序列中从相对位置a到相对位置b被遮蔽,即定义特殊遮蔽符号[M],使用遮蔽符以一定比例替换句子xi中从相对位置a到相对位置b的所有token,以实现句子长度不发生变化,设序列到序列模型学习参数为μ,本发明预训练模型的目标函数为:
Figure BDA0002862707320000091
步骤3.3,对基于transformer-XL的编码器和解码器共同进行训练,步骤如下:
首先,通过预测在编码器端被掩盖的句子片段,MPM框架可以强制基于transformer-XL的编码器了解未屏蔽token的含义以及token之间的长距离依赖,以便在解码器端预测已屏蔽token。之后,通过屏蔽在编码器端未屏蔽的token对基于transformer-XL的解码器进行输入,强制解码器更多地依赖编码器端学习到的蒙汉语言知识,而不是依赖编码器端输入的中前序token以进行下一个token预测,从而更好地促进编码器和解码器之间的联合训练,最大限度地仅基于蒙汉单语捕获蒙汉语言知识与语义信息。
步骤3.4,使用一种带回译单元的蒙汉无监督训练框架通过对偶学习迭代训练得到一个蒙汉、汉蒙双向对偶无监督翻译模型,其步骤为:
步骤3.4.1,对上述基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典,对蒙汉词向量MOi与ZHj,将CSLS方法定义为:
CSLS(MOi,ZHj)=2cos(MOi,ZHj)-rZH(MOi)-rMO(ZHj)
其中rZH是汉语单词与其邻居的平均相似度,定义为:
Figure BDA0002862707320000092
其中Nj(MOi)是蒙语词向量投影的邻居,K为总邻居数。CSLS方法结合基于GAS框架的蒙汉词向量最优对齐一定程度上增加了孤立点的相似度,降低了聚集点的相似度,进而明显提升蒙汉双语词典的准确度。
步骤3.4.2,使用基于GAS框架生成的蒙汉双语词典结合上述带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型训练初始蒙汉翻译模型,其步骤为:
步骤3.4.2.1,将经过Bert训练的无监督蒙语分词器切分的蒙语单语语基于蒙汉双语词典进行序列到序列逐词翻译,结合基于MPM框架训练的生成蒙→汉伪平行语料,同理对分词后的汉语语料经逐词翻译后结合语言模型生成汉→蒙伪平行语料。
步骤3.4.2.2,使用蒙→汉伪平行语料基于一种transformer-LR框架训练初始蒙汉翻译模型,在原有transformer架构的基础上加入一个记忆模块以最大限度地提升模型捕捉输入伪平行语料中长程语义的能力,其中每种语言的一个句子序列经过编码器计算后其隐状态会被压缩放入记忆模块中用于在解码器中重建,其损失函数为:
Figure BDA0002862707320000101
其中,mem表示记忆模块,cm表示压缩记忆模块,g为模型权重。
步骤3.4.2.3,对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法,结合对偶学习策略共同训练一个蒙汉、汉蒙双向对偶无监督翻译模型。其步骤为:
首先使用初始蒙汉翻译模型从一句蒙语单语句子开始,通过蒙语翻译到汉语,产生一个可能错误的翻译,然后再用初始汉蒙翻译模型重建蒙语句子,通过重建蒙语句子与初始蒙语句子之间的差异为训练汉蒙翻译模型提供了误差信号。同理使用初始汉蒙翻译模型通过汉语翻译到蒙语,再用初始蒙汉翻译模型重建汉语句子,通过重建汉语句子与初始汉语句子之间的差异为训练蒙汉翻译模型提供了误差信号。
步骤3.4.3,上述汉蒙、蒙汉翻译模型可组成对偶模型不断迭代训练,使用对偶学习方法结合回译迭代训练翻译模型的损失函数为:
LDL+BT=aE[-logPMO→ZH(ZH|u*(ZH))]+bE[-logPZH→MO(MO|v*(MO))]
v*(MO)=argmaxPMO→ZH(v|MO)
u*(ZH)=argmaxPZH→MO(u|ZH)
其中,v*(MO)表示来源于蒙语单语句子通过蒙汉→汉蒙翻译模型重建蒙语句子中的一句,u*(ZH)表示来源于汉语单语句子通过汉蒙→蒙汉翻译模型重建汉语句子中的一句,上述生成的(MO,v*(MO))、(ZH,u*(ZH))作为翻译的误差信号自动修改模型超参数a,b以实现最小化模型训练损失函数。
最终,无监督翻译模型的总目标函数为:
Figure BDA0002862707320000111
步骤4,对所述无监督蒙汉翻译模型的翻译译文进行BLEU值评测以验证结果。
BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好,BLEU值的公式为:
Figure BDA0002862707320000112
其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:
BP=emin(1-r/h,0)
其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。
综上,本发明首先使用Bert训练一种无监督蒙语分词器:使用BPE对大规模蒙语单语语料进行预切分处理,之后使用Bert对大规模蒙语单语切分语料进行单语语言模型预训练,训练出蒙语单语语言模型之后,将其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙语分词器,之后通过对待分词蒙语句子中任意两个子词的相关性打分以完成分词,最后对汉语单语语料使用同样的方法训练分词。
其次,对分词后的蒙汉单语语料共同训练语言模型:将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间,结合一种基于transformer-XL框架带mask的序列到序列预训练模型共同对已切分的蒙汉单语语料训练语言模型。
之后,结合蒙汉单语语言模型训练蒙汉无监督翻译系统:使用一种新型蒙汉无监督学习训练框架基于transformer-LR作为编码器-注意力-解码器架构,通过对偶学习结合上述预训练得到的蒙汉单语语言模型经无监督回译方法迭代训练得到一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。
最后,对所述无监督蒙汉翻译模型的翻译译文进行BLEU值评测以验证结果。
本发明从降低无监督蒙汉翻译中未登录词个数和提高无监督蒙汉机器翻译译文质量的角度出发,针对蒙语-汉语翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题提出了一种高质量蒙汉无监督神经机器翻译方法,其实现过程如下:
01:使用字节对编码技术(BPE)对大规模蒙汉单语语料进行预切分处理,将蒙语、汉语句子全部分成单个字符。
02:使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练,分别得到蒙语、汉语语言模型。
03:将蒙语、汉语语言模型其作为先验知识结合一种融合子词-片段的相关矩阵生成方法训练无监督蒙汉分词器。
04:基于Bert训练得到的无监督蒙汉分词器对待分词蒙汉句子中任意两个子词的相关性打分以完成分词。
05:将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用一种无监督对抗自主学习方法(GAS方法)最优对齐蒙汉双语词向量空间。
06:使用一种基于transformer-XL+mask框架的序列到序列预训练模型(MPM)共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型。
07:对基于GAS框架最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典。
08:使用基于GAS框架生成的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型(MPM)生成的蒙汉语言模型基于一种带记忆单元的transformer-LR框架训练初始蒙汉翻译模型。
09:对已生成的蒙汉、汉蒙翻译模型使用一种无监督回译方法,结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型。
10:最后,对本发明一种高质量蒙汉无监督神经机器翻译模型进行BLUE值评测。

Claims (10)

1.一种高质量蒙汉无监督神经机器翻译方法,其特征在于,包括如下步骤:
步骤1,使用字节对编码技术对大规模蒙汉单语语料进行预切分处理,将蒙语、汉语句子全部分成单个字符;
步骤2,使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练,分别得到蒙语、汉语语言模型;
步骤3,将蒙语、汉语语言模型作为先验知识,结合融合子词-片段的矩阵生成方法训练无监督蒙汉分词器,对待分词蒙汉句子中任意两个子词的相关性打分以完成分词;
步骤4,将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用无监督对抗自主学习方法最优对齐蒙汉双语词向量空间;
步骤5,使用基于transformer-XL+mask框架的序列到序列预训练模型共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型;
步骤6,对最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典;
步骤7,使用基于GAS框架的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型生成蒙汉语言模型,并基于带记忆单元的transformer-LR框架训练初始蒙汉翻译模型;
步骤8,对已生成的蒙汉、汉蒙翻译模型使用无监督回译方法,结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型;
步骤9,对高质量蒙汉无监督神经机器翻译模型进行BLUE值评测,得到最终的翻译模型,并利用该翻译模型进行蒙汉翻译。
2.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤2中,Bert对大规模蒙语单语切分语料进行单语语言模型预训练时,输入的蒙语句子序列设定15%的mask概率,即随机选中蒙语句子序列中15%的单词进行mask,其中设定80%的概率mask掉选中的蒙语单词,即使用[mask]标记替换掉原单词,10%情况下使用任意蒙语单词替换选中单词,剩余10%情况下保持原词汇不变。
3.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤3中,训练无监督蒙汉分词器并完成分词的步骤为:
首先,对于经过预切分步骤的待分词蒙语句子序列x=(x1,x2,…,xt),使用基于子词级的相关矩阵生成方法测试任意两个token的相关度,使用B(x)表示序列x经过Bert编码器后的输出序列,B(x)i表示第i个token所对应的编码向量,x\{xi}表示将第i个token替换为[mask]后的序列,x\{xi,xj}表示将第i,j个token都替换为[mask]后的序列,设f(xi,xj)表示第i个token对第j个token的依赖程度,即xi,xj之间的相关度,定义为:
f(xi,xj)=d(B(x\{xi})i,B(x\{xi,xj})i)
其中d(·,·)为欧氏距离,即d(u,v)=‖u-v‖2,得到一个T×T的相关矩阵用于衡量xi,xj之间的相关度;
之后,使用基于子词片段的相关矩阵生成方法测试任意两个token片段的相关度,Bert的输入仍为token,并将token分组成若干个token片段,定义句子序列D=[e1,e2,…,eN],其中
Figure FDA0002862707310000021
定义一个N×N的相关矩阵用于衡量token片段ei与ej,定义为:
f(ei,ej)=d(B(D\{ei})i,B(D\{ei,ej})i)
其中B(D\{ei})i是指Bert输出的ei对应的Mi个向量的平均;
最后,结合子词及子词片段的相关矩阵生成方法共同对经过BPE预处理的蒙语单语语料再次进行分词,分词设定一个阈值,先对token进行切分,相关度小于该阈值的两个token切开,大于等于这个阈值的两个token拼接,之后再对生成的token片段再次进行切分。
4.根据权利要求3所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤4中,将经过分词的蒙汉双语使用fastText作为编码器,使用其字符级n-grams将切分后的蒙汉双语嵌入到一个共享的潜在空间。
5.根据权利要求3或4所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述无监督对抗自主学习方法的步骤为:
步骤4.1,利用双编码器-解码器对抗重构框架初步对齐蒙汉双语词向量空间,其步骤为:
步骤4.1.1,设分词后的蒙语句子词向量集合为x=(x1,x2,…,xn),分词后的汉语词向量集合为y=(y1,y2,…,ym),定义两个transformer解码器Dec_mo与Dec_zh,其中Dec_mo用于重构已嵌入在共享空间的蒙语词向量,Dec_zh用于重构已嵌入在共享空间的汉语词向量,对蒙语,将共享潜在空间中的蒙语词向量xi通过解码器Dec_mo产生重置后的词嵌入Xi,将原始和重新构造的词嵌入之间的差异设定为损失函数:
L(mo)=d(xi,Xi)=d(xi,Dec_mo(Enc1(xi)))
对汉语,将原始和重新构造的词嵌入之间的差异设定为损失函数,其中Yi为汉语词向量,
L(zh)=d(yi,Yi)=d(yi,Dec_zh(Enc2(yi)))
步骤4.1.2,对fastText编码器与设定的解码器共同进行训练以最大程度地减少损耗函数,其中d(·,·)为欧氏距离;
步骤4.1.3,通过对抗训练引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似,其步骤为:
首先,通过解码器Dec_mo重构已嵌入在共享空间的汉语词向量,对蒙语词向量使用解码器Dec_zh进行重构,即:
Figure FDA0002862707310000031
Figure FDA0002862707310000032
其次,训练基于transformer的鉴别器Dx和Dy对原始单词嵌入和重构单词嵌入进行分类:
Figure FDA0002862707310000041
Figure FDA0002862707310000042
之后,训练两个自动编码器用于混淆鉴别器:
lauto(yi)=log(1-Dx(Dec_mo(Enc2(yi))))
lauto(xi)=log(1-Dy(Dec_zh(Enc1(xi))))
步骤4.1.4,通过迭代优化总目标函数中的自动编码器损耗和鉴别器损耗,引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似,初步对齐蒙汉双语词向量空间:
ltotal=λa(l(mo)+l(zh))+λb(lauto(xi)+lauto(yi))
其中λaλb为加权超参数;
步骤4.2,从初始对齐的词向量空间逐步迭代改进蒙汉双语词空间的映射,最终实现蒙汉双语词向量空间最优对齐,其步骤为:
步骤4.2.1,对初步对齐的蒙汉词向量空间xi与yi生成两个词嵌入矩阵MO与ZH,其中行代表蒙语或汉语的词向量,列代表词向量的维度,经过步骤4.1的初步对齐,MOi与ZHi之间已经有了初步的对应关系
步骤4.2.2,定义两个转换矩阵Wmo,Wzh用于引导蒙汉词向量空间进一步对齐,即引导MOWmo和ZHWzh对齐在同一个向量空间,定义一个测试词典Dmo-zh,如果汉语中的第j个词是第i个蒙语单词的翻译,此时
Figure FDA0002862707310000043
计算最大化当前字典Dmo-zh相似度的最佳正交映射以训练转换矩阵
Figure FDA0002862707310000044
步骤4.2.3,在映射嵌入的相似矩阵
Figure FDA0002862707310000045
上进行最佳词典的计算;
步骤4.2.4,对步骤4.2.2和步骤4.2.3进行迭代训练直到模型收敛,即实现蒙汉双语词向量空间最优对齐。
6.根据权利要求5所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤5中,预训练模型使用结合注意力单元的transformer-XL作为编码器-注意力-解码器框架,并引入mask机制,对基于transformer-XL的编码器和解码器共同进行训练;
其中,所述列预训练模型对不成对的大规模蒙汉单语句子,假定经Bert训练的无监督分词模型切分后的蒙语句子集合为X=(x1,x2,…,xn),给定其中的xi∈X,设
Figure FDA0002862707310000051
表示句子xi的相对编码序列位置a到位置b,设
Figure FDA0002862707310000052
表示句子xi的序列中从相对位置a到相对位置b被遮蔽,即被mask掉,其中0<a<b<m,m表示句子xi序列中所有的token数,句子xi的序列中从相对位置a到相对位置b被遮蔽,即定义特殊遮蔽符号[M],使用遮蔽符以一定比例替换句子xi中从相对位置a到相对位置b的所有token,以实现句子长度不发生变化,设序列到序列模型学习参数为μ,预训练模型的目标函数为:
Figure FDA0002862707310000053
所述对基于transformer-XL的编码器和解码器共同进行训练,过程为:首先,通过预测在编码器端被掩盖的句子片段,MPM框架强制基于transformer-XL的编码器了解未屏蔽token的含义以及token之间的长距离依赖,以便在解码器端预测已屏蔽token;之后,通过屏蔽在编码器端未屏蔽的token对基于transformer-XL的解码器进行输入,强制解码器更多地依赖编码器端学习到的蒙汉语言知识,最大限度地仅基于蒙汉单语捕获蒙汉语言知识与语义信息。
7.根据权利要求6所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤6中,对蒙汉词向量MOi与ZHj,将CSLS方法定义为:
CSLS(MOi,ZHj)=2cos(MOi,ZHj)-rZH(MOi)-rMO(ZHj)
其中rZH是汉语单词与其邻居的平均相似度,定义为:
Figure FDA0002862707310000061
其中Nj(MOi)是蒙语词向量投影的邻居,K为总邻居数。
8.根据权利要求7所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤7中,首先将经过Bert训练的无监督蒙语分词器切分的蒙语单语语基于蒙汉双语词典进行序列到序列逐词翻译,结合基于MPM框架训练的模型生成蒙→汉伪平行语料,对分词后的汉语语料经逐词翻译后结合模型生成汉→蒙伪平行语料;之后使用蒙→汉伪平行语料基于transformer-LR框架训练初始蒙汉翻译模型,在原有transformer架构的基础上加入一个记忆模块以最大限度地提升模型捕捉输入伪平行语料中长程语义的能力,其中每种语言的一个句子序列经过编码器计算后其隐状态会被压缩放入记忆模块中用于在解码器中重建,其损失函数为:
Figure FDA0002862707310000062
其中,mem表示记忆模块,cm表示压缩记忆模块,g为模型权重。
9.根据权利要求8所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤8中,无监督回译方法的步骤为:首先使用初始蒙汉翻译模型从一句蒙语单语句子开始,通过蒙语翻译到汉语,产生一个可能错误的翻译,然后再用初始汉蒙翻译模型重建蒙语句子,通过重建蒙语句子与初始蒙语句子之间的差异为训练汉蒙翻译模型提供了误差信号;并使用初始汉蒙翻译模型通过汉语翻译到蒙语,再用初始蒙汉翻译模型重建汉语句子,通过重建汉语句子与初始汉语句子之间的差异为训练蒙汉翻译模型提供误差信号。
10.根据权利要求9所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述汉蒙、蒙汉翻译模型组成对偶模型不断迭代训练,使用对偶学习方法结合回译迭代训练翻译模型的损失函数为:
LDL+BT=aE[-logPMO→ZH(ZH|u*(ZH))]+bE[-logPZH→MO(MO|v*(MO))]
v*(MO)=argmaxPMO→ZH(v|MO)
u*(ZH)=argmaxPZH→MO(u|ZH)
其中,v*(MO)表示来源于蒙语单语句子通过蒙汉→汉蒙翻译模型重建蒙语句子中的一句,u*(ZH)表示来源于汉语单语句子通过汉蒙→蒙汉翻译模型重建汉语句子中的一句,上述生成的(MO,v*(MO))、(ZH,u*(ZH))作为翻译的误差信号自动修改模型超参数a,b以实现最小化模型训练损失函数‘’
所述无监督翻译模型的总目标函数为:
Figure FDA0002862707310000071
CN202011570925.1A 2020-12-26 2020-12-26 一种高质量蒙汉无监督神经机器翻译方法 Active CN112580373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011570925.1A CN112580373B (zh) 2020-12-26 2020-12-26 一种高质量蒙汉无监督神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011570925.1A CN112580373B (zh) 2020-12-26 2020-12-26 一种高质量蒙汉无监督神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112580373A true CN112580373A (zh) 2021-03-30
CN112580373B CN112580373B (zh) 2023-06-27

Family

ID=75139852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011570925.1A Active CN112580373B (zh) 2020-12-26 2020-12-26 一种高质量蒙汉无监督神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112580373B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN113434635A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于无监督学习的分词方法、装置、设备及存储介质
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113723117A (zh) * 2021-07-29 2021-11-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN114492476A (zh) * 2022-01-30 2022-05-13 天津大学 一种无监督神经机器翻译的语码转换词汇交叠增强方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2068780A1 (en) * 1991-07-25 1993-01-26 Peter F. Brown Method and system for natural language translation
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
US20190129947A1 (en) * 2017-10-26 2019-05-02 Electronics And Telecommunications Research Institute Neural machine translation method and apparatus
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
KR102110480B1 (ko) * 2020-02-03 2020-05-13 주식회사 이글루시큐리티 비지도 학습 기반의 이상 탐지 방법 및 그 시스템
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111460147A (zh) * 2020-03-24 2020-07-28 哈尔滨工程大学 一种基于语义增强的标题短文本分类方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2068780A1 (en) * 1991-07-25 1993-01-26 Peter F. Brown Method and system for natural language translation
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
US20190129947A1 (en) * 2017-10-26 2019-05-02 Electronics And Telecommunications Research Institute Neural machine translation method and apparatus
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN110059323A (zh) * 2019-04-22 2019-07-26 苏州大学 基于自注意力机制的多领域神经机器翻译方法
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
KR102110480B1 (ko) * 2020-02-03 2020-05-13 주식회사 이글루시큐리티 비지도 학습 기반의 이상 탐지 방법 및 그 시스템
CN111414770A (zh) * 2020-02-24 2020-07-14 内蒙古工业大学 一种基于协同训练的半监督蒙汉神经机器翻译方法
CN111460147A (zh) * 2020-03-24 2020-07-28 哈尔滨工程大学 一种基于语义增强的标题短文本分类方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GIANNAKOPOULOS ATHANASIOS 等: "Unsupervised aspect term extraction with B-LSTM & CRF using automatically labelled datasets", 《网页在线公开: HTTPS://ARXIV.53YU.COM/ABS/1709.05094》, pages 1 - 9 *
SLAVOV STANISLAV 等: "Company Industry Classification with Neural and Attention-Based Learning Models", 《2019 BIG DATA, KNOWLEDGE AND CONTROL SYSTEMS ENGINEERING (BDKCSE)》, pages 1 - 7 *
何佩林: "基于生成对抗文本的人脸图像翻译研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 1317 *
张振 等: "跨语言多任务学习深层神经网络在蒙汉机器翻译的应用", 《计算机应用与软件》, vol. 38, no. 01, pages 157 - 160 *
翁荣祥: "神经机器翻译中引入语言信息的研究", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》, no. 07, pages 084 - 24 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN113378513B (zh) * 2021-06-11 2022-12-23 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN113434635A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于无监督学习的分词方法、装置、设备及存储介质
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113723117A (zh) * 2021-07-29 2021-11-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN113723117B (zh) * 2021-07-29 2024-04-30 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置和用于翻译模型训练的装置
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN113836271B (zh) * 2021-09-28 2023-08-15 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN114492476A (zh) * 2022-01-30 2022-05-13 天津大学 一种无监督神经机器翻译的语码转换词汇交叠增强方法

Also Published As

Publication number Publication date
CN112580373B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN112580373A (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN110674646A (zh) 一种基于字节对编码技术的蒙汉机器翻译系统
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN105068998A (zh) 基于神经网络模型的翻译方法及装置
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110427619A (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN111428518B (zh) 一种低频词翻译方法及装置
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN114398900A (zh) 一种基于RoBERTa模型的长文本语义相似度计算方法
CN111274826B (zh) 一种基于语义信息融合的低频词翻译方法
CN111274827B (zh) 一种基于词袋多目标学习的后缀翻译方法
CN113204978A (zh) 一种机器翻译增强训练方法及系统
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN115223549A (zh) 一种越南语语音识别语料构建方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
Acharya et al. A Comparative Study of SMT and NMT: Case Study of English-Nepali Language Pair.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant