CN107967262A - 一种神经网络蒙汉机器翻译方法 - Google Patents

一种神经网络蒙汉机器翻译方法 Download PDF

Info

Publication number
CN107967262A
CN107967262A CN201711066025.1A CN201711066025A CN107967262A CN 107967262 A CN107967262 A CN 107967262A CN 201711066025 A CN201711066025 A CN 201711066025A CN 107967262 A CN107967262 A CN 107967262A
Authority
CN
China
Prior art keywords
mongolian
translation
word
encoder
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711066025.1A
Other languages
English (en)
Other versions
CN107967262B (zh
Inventor
苏依拉
乌尼尔
刘婉婉
牛向华
赵亚平
王宇飞
张振
孙晓骞
高芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201711066025.1A priority Critical patent/CN107967262B/zh
Publication of CN107967262A publication Critical patent/CN107967262A/zh
Application granted granted Critical
Publication of CN107967262B publication Critical patent/CN107967262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种神经网络蒙汉机器翻译方法,首先对大规模蒙汉双语语料做规范化处理,在此基础上构建出双语字典;然后进行建模,最终基于所搭建模型,实现机器翻译;其特征在于,所述建模包括编码器建模、解码器建模以及蒙汉双语词对齐所需的注意力层的建模,从而针对蒙古语特定词性的词语进行相应处理,以达到最好的翻译效果和最小的语义困惑度。本发明首先在翻译模型中包含了蒙古语词法信息,用编码器网络对蒙古语的编码进行了较为准确的刻画;其次,算法保证了蒙汉翻译质量;最后,通过运用神经网络,把蒙汉双语翻译问题分解为对蒙古语的编码和对汉语的解码两部分,提出了可扩展性强的神经网络算法,有效提高蒙汉机器翻译译文流利度和翻译质量。

Description

一种神经网络蒙汉机器翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种神经网络蒙汉机器翻译方法。
背景技术
随着目前包含信息技术在内的一系列网络服务的蓬勃发展,自然语言处理 尤其是机器翻译在互联网发展过程中起到至关重要的作用。许多的大型搜索企 业和服务中心例如谷歌、百度等针对机器翻译都进行了大规模的研究,为获取 机器翻译的高质量译文而不懈努力。
然而,随着科学家和语言学家几十年的不断努力,机器翻译在发展的过程 中也暴露出无法忽略的问题——歧义词处理、未登录词处理以及双语结构差异 而存在的编码混乱导致的译文质量低等问题。目前,国外很多知名大学和企业 例如斯坦福大学自然语言处理小组、谷歌NLP小组和Facebook神经机器翻译部 门都在相关领域的翻译任务中对上述问题提出了一定的假设解决方案并实施, 无论是在英法翻译任务还是在英中翻译任务中,都没有一种兼容性很强的处理 方法来解决上述出现的问题。实验结果表明,针对每一种翻译任务,有且仅存 在一种符合源语言和目标语言两种语言特性的处理方案来缓解编码过程造成的 一系列问题。有文献指出,从统计机器翻译的盛行的20世纪90年代到利用神 经网络进行翻译建模的21世纪前10年,虽然在大体上机器翻译质量得到的不 小的提高,但是在歧义词处理,非字典词语的替换等问题上仍没有得到有效的 解决。因此针对翻译质量的有效提高迫在眉睫。
目前,利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经 网络节点中,通过神经网络层与层之间和节点与节点之间的参数变换和传递来 不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统 计翻译方法中出现的很多问题,例如译码不明、错译、未登陆词处理等问题, 但是在精准度上面相比人工翻译仍然存在不小的劣势。
最新的研究显示,谷歌、百度和全国知名院校的机器翻译工作进展中存在 或多或少的翻译问题,有文献指出,由于世界语言的复杂性,没有一个完全解 决翻译问题的系统出现,因此在粗译的前提下,如何做好细译的工作是各大企 业院校的工作重点。
本系统翻译利用CPU和GPU并行工作的方式对语料进行处理使得速度提 高近一倍,且通过设定的学习率对语料进行学习可以有效的缓解学习语料语义 表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题,通 过设定特殊的结构和算法来改进整体系统的质量。
发明内容
为了克服上述中主要存在的翻译过程中的漏译、错译、未登录词处理等缺 点,本发明的目的在于提供一种神经网络蒙汉机器翻译方法,针对小语料中的 数据稀少和字典小的问题,在降低系统复杂度,对用户可视化系统结构的条件 下保证用户翻译服务质量,从而完善蒙汉机器翻译系统,达到较好译文翻译的 目标。
为了实现上述目的,本发明采用的技术方案是:
一种神经网络蒙汉机器翻译方法,首先对大规模蒙汉双语语料做规范化处 理,在此基础上构建出双语字典;然后进行建模,最终基于所搭建模型,实 现机器翻译;所述建模包括编码器建模、解码器建模以及蒙汉双语词对齐所 需的注意力层的建模,从而针对蒙古语特定词性的词语进行相应处理,以达 到最好的翻译效果和最小的语义困惑度。
所述对大规模蒙汉双语语料做规范化处理是根据分词要求和蒙古语特定 词性短语或单词进行切分,其中汉语分词和蒙古语动词词根形态切分建模公 式为:
其中,p(y|x)表示当观测数据为x时与观测数据对应的标记数据为y的概 率,T(x)表示捕获标记转移的特征函数对应的正因子,c表示常量,k表示节 点号,ak表示模型参数,为特征函数的权重,λk表示待学习的模型参数; fk(yt-1,yt,x)是蒙古语单词或汉语单词序列x中t和t-1位置上的输出特征, gk(yt,x)是t位置上的捕获当前标记的输出特征函数且表示训练数据上的单一 状态,gk(yt,x)对应的输出特征函数的状态观测值对y和x定义特征,使建立 的模型能够针对双语词汇进行分词和分词根。
所述编码器共有三种,分别为单词编码器、字素编码器和短语编码器;
单词编码器用于源端语言的向量化,将每个单词表示成向量形式,最终 构建以单词向量为基础的句向量,其模型公式为:
ht=φ(ht-1,Cwt)
其中,ht为t时刻编码器神经网络隐藏层状态,φ为神经网络激活函数, C为映射矩阵,wt为蒙古语词的向量,通过编码终止符EOS来确定编码的完 成,当t为0时刻,h0就是一个全零的向量,当编码结束时,神经网络中即 包含所有蒙古语语言信息;
字素编码器用于缓解源语料和带翻译语料中出现的错误词语,以构词字 素为基本单元来遍历检索和编码源语言句子,当出现错误单词时将单词中错 误的字素替换为正确字素从而达到改错目的,其模型公式为:
htc=ψ(h(t-1)c,Ccwtc)
其中,htc为t时刻字素编码器的网络隐藏层状态,ψ为激活函数,Cc为字素 的映射矩阵,wtc为蒙古语构词字素的向量表示;
短语编码器用于将源语言句子中成组出现的短语作为编码器的基本单元进 行编码,通过对源语言句子的短语划分来构建基于字典的短语库,进而构建短 语编码器,其模型公式为:
htp=γ(h(t-1)p,Cpwtp)
其中,htp为t时刻短语编码器的网络隐藏层状态,γ为神经网络隐藏层节点 激活函数,Cp为短语映射矩阵,wtp为蒙古语句子包含短语的向量表示;
通过一个融合函数将三种编码器中编码信息进行融合,融合函数中的融合 因子为三种编码器在编码条件下对应的激活函数,通过加权得到,如下式所示:
Γ(ht,htc,htp)=α1ht2htc3htp
混合编码器的模型公式为:
hh=Γ(ht,htc,htp)
其中,Γ为融合函数,包含三种激活函数集合,α123表示三种编码器通 过随机初始化的对应权重,通过加入三种编码状态整合成为包含字素、单词、 短语三类向量信息的编码器。
所述解码器建模的模型公式为:
p(yt)=softmax(Wsφθ'(c,yt-1,zt-1)+bz)
其中,p(yt)表示t时刻解码汉语词汇的概率,c表示蒙古语句子的向量 化压缩表示,zt-1表示前一时刻解码器神经网络隐藏层状态,bz表示t时刻隐 藏层偏置,下标z表示t时刻解码器神经网络隐藏层状态yt表示t时刻的目标 词,Ws表示神经网络节点之间的连接权重,φθ'表示隐藏层神经元激活函数。
所述蒙汉双语词对齐所需的注意力层的建模如下:a表示编码器中的蒙 古语句子和解码器汉语句子中的对齐比重,以加权模式和加权激活模式两种 方法对注意力层进行设计,其建模公式为:
其中,W为神经网络权重矩阵,mt和ms表示蒙汉双语中对应的词向量, mt表示目标端汉语词向量,ms表示源端蒙古语词向量,S′表示源端句子中蒙 古语词语个数。
所述基于所搭建模型,实现机器翻译的步骤包括编码环节和解码环节, 所述编码环节,将蒙古语进行向量化处理并确定维度;所述解码环节分为注 意力层部分和解码部分,其中注意力层部分为对齐概率计算模型和对齐位置 预测模型;通过对齐概率计算模型计算出蒙汉双语在句子对齐的基础上,词 语之间对齐的概率,而对齐位置预测模型能够将每个词出现的位置信息进行 相应的预测;所述解码部分又分为遍历隐藏层节点和输出两部分,通过遍历 隐藏层节点来对当前时刻的向量信息进行检索,判定是否符合语义要求,若 符合语义要求则将符合要求的向量信息传送给输出函数,通过归一化操作将 输出向量解码为译文进行输出,且输出函数符合最优值。
所述编码环节,基于单词编码器、字素编码器和短语编码器,将蒙古语 进行向量化处理并确定维度;
所述对齐概率计算模型如下式所示:
alignt(S)表示双语句子之间的词对齐概率,同时作为输出函数,at(ht,hs)表 示源端和目标端词语对齐权重,表示高斯分布;通过词对齐概率 计算公式来计算t时刻源语言词语对应的目标词;
所述对齐位置预测模型如下式所示:
sigmoid为激活函数,取值为-1到1,和Wp都是学习预测位置的模型参 数,p表示位置信息,T表示总时序数,S表示源语言长度;
所述通过遍历隐藏层节点来对当前时刻的信息进行检索,判定是否符合 语义要求的具体实现过程如下:
当前时刻隐藏层节点记忆单元获取来自上一时刻隐藏层节点信息和当前 时刻输入信息,通过门控单元激活函数来确定是否准许信息进入当前时刻记 忆单元,若准许进入则判定为符合语义要求,否则不能进入,门控单元激活 函数公式如下所示:
inputt=θ(Wi·[Ct-1,ht-1xt]+bi)
Wi表示与门控单元连接的t-1刻隐藏层信息和当前输入信息的连接权重, Ct-1为t-1时刻上下文信息,ht-1为t-1时刻隐藏层信息,xt为t时刻输入信息, bi为门控单元偏置,θ为双曲正切函数。
所述针对蒙古语特定词性的词语进行相应处理指将蒙古语动词以词干词 缀形式切分,并将切分向量导入编码器中。
翻译整体过程执行算法如下:
1):将蒙古语汉语语料向量化;
2):根据编码器编码信息来对解码器进行处理;
3):采用输出函数进行输出特征的操作; p(yt)=softmax(Wsφθ'(c,yt-1,zt-1)+bz)
4):根据时间序列t和t-1时刻目标词yt-1预测目标词yt的概率。
在翻译之后,还可进行评测,评测算法如下:
1):导入评测译文E进蒙汉机器翻译模型;
2):利用下式进行翻译
3):评测译文质量算法如下:
其中,E表示待评测译文,Ec表示评测译文的质量,St表示t时刻对应的源 语言句子,Tt表示t时刻源语言句子对应的目标语句子。It表示t时刻源语言句子 对应的参考译文。ls表示参考译文的有效长度,lc表示候选译文的有效长度, cP(c,s)表示精确度度量,ωn表示候选译文对应语言模型的权重。
与现有的蒙汉机器翻译算法相比,本发明首先在翻译模型中包含了蒙古语 词法信息,对编码器网络对蒙古语的编码进行了较为准确的刻画;其次,算法 保证了蒙汉翻译质量;最后,通过运用神经网络,把蒙汉双语翻译问题分解为 对蒙古语的编码器和对汉语的解码两部分,提出了可扩展性强的神经网络算法, 解决机器翻译系统中存在漏译、错译问题并有效提高蒙汉机器翻译译文流利度 和翻译质量。
附图说明
图1是混合编码器架构图。
图2是神经网络蒙汉机器翻译整体结构图。
图3是本发明所搭建模型的流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
问题描述:基于神经网络的蒙汉翻译系统模型包括混合编码器和解码器的 构建+错译漏译处理模型。
如图1所示为混合编码器的构成,由三类编码器构成,包括字素级编码器、 词级编码器以及短语编码器,分别以字素、词和短语为构成句子的基本单位来 编码,在编码器结尾通过融合函数将三类编码器对应的向量信息进行融合,进 而构成混合编码器。
图2为机器翻译系统的整体结构图,由混合编码器、注意力机制和解码器 构成,训练时混合编码器编码三种形态的句子编码信息并送入解码器,解码器 通过注意力机制计算目标端词语对应的源端词语概率,通过参数存入神经网络 中,翻译时通过解码器端softmax输出函数进行翻译预测。
图3为模型流程图,蒙古语语料进入编码器前需要进行词性处理,包括蒙 古语词干词缀切分,同时保证蒙古语和汉语双语语料为句对齐语料。由神经网 络构建混合编码器和解码器的过程中加入注意力机制来获取双语词对齐概率并 以参数形式存于神经网络记忆单元中,以此来完成模型的搭建。测试时利用蒙 古语作为源语言导入蒙汉机器翻译模型中,生成译文来进行系统的评测。
蒙汉翻译系统结构约束:神经网络词编码器节点数<=Dn、层数<=Ln
决策变量:在编码器端输入蒙古语句子,在解码器输出端输出对应的汉语 句子。
其中,Dn是编码器神经网络中的单层节点数上界,Ln是编码器神经网络层 次数目上界。
本发明包括以下部分:
1.蒙汉机器翻译系统模型,包括一下几个部分:
A.神经网络系统编码器描述:假设编码器数量为n,编码器隐藏层数量l, 层次数量为a,隐藏层节点激活函数为o。则一个编码器的编码源语言s的建模 函数的表示形式如公式:
Encoder=n·l·a·o(s)
其中,Encoder表示编码器编码状态,包括编码器类型、编码器层数、节点 数和激活函数等。总编码状态也可表示为
B.神经网络系统解码器描述:假设解码器源语言端上下文向量为k。对齐词 计算注意力机制函数为attention,输出接口函数为softmax,则输出解码函数为:
p(yt|y<t,x)=softmax(yt-1,ht,kt)
其中,p代表t时刻生成目标词的概率。x表示当前输入端词语。将公式中 上下文向量k进一步细化为:
其中,V代表权重矩阵,U表示权重逆矩阵,在激活函数tanh下的激活值。 不失一般性,可假设激活函数的激活范围在[-1,1]之间,因此解码器端输出目 标词概率可整理为:
2.错译漏译处理模型,包括以下部分:
A.集外词及罕见词处理:集外词对于翻译性能和实用性的影响非常巨大, 如何处理集外词并达到开放词典一直是NMT的主要研究方向。传统方法基于单 词级别来处理该问题,比如使用UNK替换、扩大词典规模等方法,往往治标不 治本。因此本系统针对蒙古语语言和语法特点提出基于蒙古语字素的NMT集外 词处理模型。这种字符级方法的主要优势包括不受语言的形态变化、能预测出 词典中未出现的单词并降低词典大小等。其中蒙古语字素的拆分策略借鉴BPE 压缩算法。不同于霍夫曼编码,该压缩算法不是针对于词做变长编码,而是对 于子词来操作。这样,即使是训练语料里未见过的新词,也可以通过子词的拼接来生成翻译。集外词处理算法如下:
B.翻译结果的惩罚函数
根据翻译结果设定惩罚函数,利用惩罚函数的归一功能将翻译结果长度归 一化,从而实现翻译的功能。
模型具体算法如下:
1:将蒙古语汉语语料向量化;
2:根据编码器编码信息来对解码器进行处理;
3:采用输出函数进行输出特征的操作;
p(yt)=softmax(Wsφθ'(c,yt-1,zt-1)+bz)
4:根据时间序列t和t-1时刻目标词yt-1预测目标词yt的概率;
所述用户端评测执行算法如下:
1:loop
2:导入评测译文E进蒙汉机器翻译模型;
3:利用下式进行翻译
4:评测译文质量算法如下:
5:end loop。

Claims (10)

1.一种神经网络蒙汉机器翻译方法,首先对大规模蒙汉双语语料做规范化处理,在此基础上构建出双语字典;然后进行建模,最终基于所搭建模型,实现机器翻译;其特征在于,所述建模包括编码器建模、解码器建模以及蒙汉双语词对齐所需的注意力层的建模,从而针对蒙古语特定词性的词语进行相应处理,以达到最好的翻译效果和最小的语义困惑度。
2.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,所述对大规模蒙汉双语语料做规范化处理是根据分词要求和蒙古语特定词性短语或单词进行切分,其中汉语分词和蒙古语动词词根形态切分建模公式为:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mi>exp</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </munder> <msub> <mi>&amp;lambda;</mi> <mi>k</mi> </msub> <msub> <mi>f</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </munder> <msub> <mi>a</mi> <mi>k</mi> </msub> <msub> <mi>g</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow>
<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <munder> <mo>&amp;Sigma;</mo> <mi>t</mi> </munder> <munder> <mo>&amp;Sigma;</mo> <mi>k</mi> </munder> <msub> <mi>&amp;lambda;</mi> <mi>k</mi> </msub> <msub> <mi>f</mi> <mi>k</mi> </msub> <mo>(</mo> <mrow> <mi>c</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>,</mo> <mi>x</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,p(y|x)表示当观测数据为x时与观测数据对应的标记数据为y的概率,T(x)表示捕获标记转移的特征函数对应的正因子,c表示常量,k表示节点号,ak表示模型参数,为特征函数的权重,λk表示待学习的模型参数;fk(yt-1,yt,x)是蒙古语单词或汉语单词序列x中t和t-1位置上的输出特征,gk(yt,x)是t位置上的捕获当前标记的输出特征函数且表示训练数据上的单一状态,gk(yt,x)对应的输出特征函数的状态观测值对y和x定义特征,使建立的模型能够针对双语词汇进行分词和分词根。
3.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,所述编码器共有三种,分别为单词编码器、字素编码器和短语编码器;
单词编码器用于源端语言的向量化,将每个单词表示成向量形式,最终构建以单词向量为基础的句向量,其模型公式为:
ht=φ(ht-1,Cwt)
其中,ht为t时刻编码器神经网络隐藏层状态,φ为神经网络激活函数,C为映射矩阵,wt为蒙古语词的向量,通过编码终止符EOS来确定编码的完成,当t为0时刻,h0就是一个全零的向量,当编码结束时,神经网络中即包含所有蒙古语语言信息;
字素编码器用于缓解源语料和带翻译语料中出现的错误词语,以构词字素为基本单元来遍历检索和编码源语言句子,当出现错误单词时将单词中错误的字素替换为正确字素从而达到改错目的,其模型公式为:
htc=ψ(h(t-1)c,Ccwtc)
其中,htc为t时刻字素编码器的网络隐藏层状态,ψ为激活函数,Cc为字素的映射矩阵,wtc为蒙古语构词字素的向量表示;
短语编码器用于将源语言句子中成组出现的短语作为编码器的基本单元进行编码,通过对源语言句子的短语划分来构建基于字典的短语库,进而构建短语编码器,其模型公式为:
htp=γ(h(t-1)p,Cpwtp)
其中,htp为t时刻短语编码器的网络隐藏层状态,γ为神经网络隐藏层节点激活函数,Cp为短语映射矩阵,wtp为蒙古语句子包含短语的向量表示;
通过一个融合函数将三种编码器中编码信息进行融合,融合函数中的融合因子为三种编码器在编码条件下对应的激活函数,通过加权得到,如下式所示:
Γ(ht,htc,htp)=α1ht2htc3htp
混合编码器的模型公式为:
hh=Γ(ht,htc,htp)
其中,Γ为融合函数,包含三种激活函数集合,α123表示三种编码器通过随机初始化的对应权重,通过加入三种编码状态整合成为包含字素、单词、短语三类向量信息的编码器。
4.根据权利要求3所述神经网络蒙汉机器翻译方法,其特征在于,所述解码器建模的模型公式为:
p(yt)=soft max(Wsφθ'(c,yt-1,zt-1)+bz)
其中,p(yt)表示t时刻解码汉语词汇的概率,c表示蒙古语句子的向量化压缩表示,zt-1表示前一时刻解码器神经网络隐藏层状态,bz表示t时刻隐藏层偏置,下标z表示t时刻解码器神经网络隐藏层状态yt表示t时刻的目标词,Ws表示神经网络节点之间的连接权重,φθ'表示隐藏层神经元激活函数。
5.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,所述蒙汉双语词对齐所需的注意力层的建模如下:a表示编码器中的蒙古语句子和解码器汉语句子中的对齐比重,以加权模式和加权激活模式两种方法对注意力层进行设计,其建模公式为:
<mrow> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>a</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>m</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>m</mi> <mi>s</mi> </msub> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <msup> <mi>s</mi> <mo>&amp;prime;</mo> </msup> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>a</mi> </msub> <mo>&amp;lsqb;</mo> <msub> <mi>m</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>m</mi> <mi>s</mi> </msub> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,W为神经网络权重矩阵,mt和ms表示蒙汉双语中对应的词向量,mt表示目标端汉语词向量,ms表示源端蒙古语词向量,S′表示源端句子中蒙古语词语个数。
6.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,所述基于所搭建模型,实现机器翻译的步骤包括编码环节和解码环节,所述编码环节,将蒙古语进行向量化处理并确定维度;所述解码环节分为注意力层部分和解码部分,其中注意力层部分为对齐概率计算模型和对齐位置预测模型;通过对齐概率计算模型计算出蒙汉双语在句子对齐的基础上,词语之间对齐的概率,而对齐位置预测模型能够将每个词出现的位置信息进行相应的预测;所述解码部分又分为遍历隐藏层节点和输出两部分,通过遍历隐藏层节点来对当前时刻的向量信息进行检索,判定是否符合语义要求,若符合语义要求则将符合要求的向量信息传送给输出函数,通过归一化操作将输出向量解码为译文进行输出,且输出函数符合最优值。
7.根据权利要求6所述神经网络蒙汉机器翻译方法,其特征在于,所述编码环节,基于单词编码器、字素编码器和短语编码器,将蒙古语进行向量化处理并确定维度;
所述对齐概率计算模型如下式所示:
<mrow> <msub> <mi>align</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>-</mo> <msub> <mi>p</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msup> <mi>&amp;sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
alignt(S)表示双语句子之间的词对齐概率,同时作为输出函数,at(ht,hs)表示源端和目标端词语对齐权重,表示高斯分布;通过词对齐概率计算公式来计算t时刻源语言词语对应的目标词;
所述对齐位置预测模型如下式所示:
<mrow> <msub> <mi>position</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>S</mi> <mo>&amp;CenterDot;</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>m</mi> <mi>o</mi> <mi>i</mi> <mi>d</mi> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>p</mi> <mi>T</mi> </msubsup> <mi>tanh</mi> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>p</mi> </msub> <msub> <mi>h</mi> <mi>t</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
sigmoid为激活函数,取值为-1到1,和Wp都是学习预测位置的模型参数,p表示位置信息,T表示总时序数,S表示源语言长度;
所述通过遍历隐藏层节点来对当前时刻的信息进行检索,判定是否符合语义要求的具体实现过程如下:
当前时刻隐藏层节点记忆单元获取来自上一时刻隐藏层节点信息和当前时刻输入信息,通过门控单元激活函数来确定是否准许信息进入当前时刻记忆单元,若准许进入则判定为符合语义要求,否则不能进入,门控单元激活函数公式如下所示:
inputt=θ(Wi·[Ct-1,ht-1xt]+bi)
Wi表示与门控单元连接的t-1刻隐藏层信息和当前输入信息的连接权重,Ct-1为t-1时刻上下文信息,ht-1为t-1时刻隐藏层信息,xt为t时刻输入信息,bi为门控单元偏置,θ为双曲正切函数。
8.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,所述针对蒙古语特定词性的词语进行相应处理指将蒙古语动词以词干词缀形式切分,并将切分向量导入编码器中。
9.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,翻译整体过程执行算法如下:
1):将蒙古语汉语语料向量化;
2):根据编码器编码信息来对解码器进行处理;
3):采用输出函数进行输出特征的操作;p(yt)=softmax(Wsφθ'(c,yt-1,zt-1)+bz)
4):根据时间序列t和t-1时刻目标词yt-1预测目标词yt的概率。
10.根据权利要求1所述神经网络蒙汉机器翻译方法,其特征在于,在翻译之后,还进行评测,评测算法如下:
1):导入评测译文E进蒙汉机器翻译模型;
2):利用下式进行翻译
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>I</mi> <mi>t</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow>
3):评测译文质量算法如下:
<mrow> <mi>E</mi> <mi>c</mi> <mo>,</mo> <mi>s</mi> <mo>=</mo> <mo>{</mo> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <mi>l</mi> <mi>c</mi> <mo>&gt;</mo> <mi>l</mi> <mi>s</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>e</mi> <mrow> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>l</mi> <mi>s</mi> </mrow> <mrow> <mi>l</mi> <mi>c</mi> </mrow> </mfrac> </mrow> </msup> <mo>,</mo> <mi>l</mi> <mi>c</mi> <mo>&amp;le;</mo> <mi>l</mi> <mi>s</mi> </mrow> </mtd> </mtr> </mtable> <mo>,</mo> <mi>exp</mi> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&amp;omega;</mi> <mi>n</mi> </msub> <mi>log</mi> <mi>c</mi> <mi> </mi> <mi>P</mi> <mo>(</mo> <mrow> <mi>c</mi> <mo>,</mo> <mi>s</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,E表示待评测译文,Ec表示评测译文的质量,St表示t时刻对应的源语言句子,Tt表示t时刻源语言句子对应的目标语句子。It表示t时刻源语言句子对应的参考译文。ls表示参考译文的有效长度,lc表示候选译文的有效长度,cP(c,s)表示精确度度量,ωn表示候选译文对应语言模型的权重。
CN201711066025.1A 2017-11-02 2017-11-02 一种神经网络蒙汉机器翻译方法 Active CN107967262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711066025.1A CN107967262B (zh) 2017-11-02 2017-11-02 一种神经网络蒙汉机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711066025.1A CN107967262B (zh) 2017-11-02 2017-11-02 一种神经网络蒙汉机器翻译方法

Publications (2)

Publication Number Publication Date
CN107967262A true CN107967262A (zh) 2018-04-27
CN107967262B CN107967262B (zh) 2018-10-30

Family

ID=62000964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711066025.1A Active CN107967262B (zh) 2017-11-02 2017-11-02 一种神经网络蒙汉机器翻译方法

Country Status (1)

Country Link
CN (1) CN107967262B (zh)

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN108932232A (zh) * 2018-05-07 2018-12-04 内蒙古工业大学 一种基于lstm神经网络的蒙汉互译方法
CN109033042A (zh) * 2018-06-28 2018-12-18 中译语通科技股份有限公司 基于中文子字单元的bpe编码方法及系统、机器翻译系统
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109446535A (zh) * 2018-10-22 2019-03-08 内蒙古工业大学 一种基于三角架构的蒙汉神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109558605A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109635269A (zh) * 2019-01-31 2019-04-16 苏州大学 一种机器翻译文本的译后编辑方法及装置
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN110083710A (zh) * 2019-04-30 2019-08-02 北京工业大学 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110147435A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN110188348A (zh) * 2019-05-07 2019-08-30 南京邮电大学 一种基于深度神经网络的中文语言处理模型及方法
CN110321568A (zh) * 2019-07-09 2019-10-11 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN110334363A (zh) * 2019-07-12 2019-10-15 厦门大学 一种基于混合编码器的描述子翻译及相似度度量方法
CN110442880A (zh) * 2019-08-06 2019-11-12 上海海事大学 一种机器翻译译文的翻译方法、装置及存储介质
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110489766A (zh) * 2019-07-25 2019-11-22 昆明理工大学 基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法
CN110502759A (zh) * 2019-07-15 2019-11-26 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110619127A (zh) * 2019-08-29 2019-12-27 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110688861A (zh) * 2019-09-26 2020-01-14 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110781690A (zh) * 2019-10-31 2020-02-11 北京理工大学 一种多源神经机器翻译模型的融合和压缩方法
CN110795912A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于神经网络对文本编码的方法、装置、设备及存储介质
CN110874537A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 多语言翻译模型的生成方法、翻译方法及设备
CN110879940A (zh) * 2019-11-21 2020-03-13 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及系统
CN111160036A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种对基于神经网络的机器翻译模型的更新方法及装置
CN111368558A (zh) * 2018-12-25 2020-07-03 Tcl集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN111401078A (zh) * 2020-03-17 2020-07-10 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质
CN111563360A (zh) * 2019-02-13 2020-08-21 Sap欧洲公司 语境化文本描述
CN111709245A (zh) * 2020-04-30 2020-09-25 昆明理工大学 基于语义自适应编码的汉-越伪平行句对抽取方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112686027A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 基于周期函数的机器翻译输出修正方法及系统
CN112800339A (zh) * 2021-04-06 2021-05-14 腾讯科技(深圳)有限公司 信息流搜索方法、装置及设备
CN113496121A (zh) * 2020-04-03 2021-10-12 北京金山数字娱乐科技有限公司 一种病症实体的抽取方法及装置
CN113688640A (zh) * 2021-08-30 2021-11-23 深译信息科技(横琴)有限公司 一种用于医学文档翻译的神经网络机器翻译方法
CN115017924A (zh) * 2022-07-11 2022-09-06 西南财经大学 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN109190131B (zh) * 2018-09-18 2023-04-14 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN116361445A (zh) * 2023-05-12 2023-06-30 北京网智天元大数据科技有限公司 藏汉双语用户兴趣标签的预测方法及装置
CN117391045A (zh) * 2023-12-04 2024-01-12 永中软件股份有限公司 可复制蒙文的可携带文件格式文件输出方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844352A (zh) * 2016-12-23 2017-06-13 中国科学院自动化研究所 基于神经机器翻译系统的单词预测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JING WU等: "《Adapting Attention-Based Neural Network to Low-Resource Mongolian-Chinese Machine Translation》", 《SPRINGER INTERNATIONAL PUBLISHING AG 2016》 *
杨振新: "《面向受限领域的汉蒙统计机器翻译方法研究》", 《中国博士学位论文全文数据库 信息科技辑》 *
杨萍等: "《基于双语对齐的汉语-新蒙古文命名实体翻译》", 《北京大学学报(自然科学版)》 *
苏依拉等: "《基于统计分析的蒙汉自然语言的机器翻译》", 《北京工业大学学报》 *

Cited By (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN108932232A (zh) * 2018-05-07 2018-12-04 内蒙古工业大学 一种基于lstm神经网络的蒙汉互译方法
CN108920468B (zh) * 2018-05-07 2019-05-14 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109033042A (zh) * 2018-06-28 2018-12-18 中译语通科技股份有限公司 基于中文子字单元的bpe编码方法及系统、机器翻译系统
CN108920473A (zh) * 2018-07-04 2018-11-30 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN108920473B (zh) * 2018-07-04 2022-08-09 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109241540B (zh) * 2018-08-07 2020-09-15 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN110874537B (zh) * 2018-08-31 2023-06-27 阿里巴巴集团控股有限公司 多语言翻译模型的生成方法、翻译方法及设备
CN110874537A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 多语言翻译模型的生成方法、翻译方法及设备
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN109190131B (zh) * 2018-09-18 2023-04-14 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109359294B (zh) * 2018-09-18 2023-04-18 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109446535A (zh) * 2018-10-22 2019-03-08 内蒙古工业大学 一种基于三角架构的蒙汉神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109508462B (zh) * 2018-10-25 2020-07-17 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109508462A (zh) * 2018-10-25 2019-03-22 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN111160036A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种对基于神经网络的机器翻译模型的更新方法及装置
CN111160036B (zh) * 2018-11-07 2023-07-21 中移(苏州)软件技术有限公司 一种对基于神经网络的机器翻译模型的更新方法及装置
CN109558605B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109558605A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109783809B (zh) * 2018-12-22 2022-04-12 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN111368558B (zh) * 2018-12-25 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN111368558A (zh) * 2018-12-25 2020-07-03 Tcl集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN109740168A (zh) * 2019-01-09 2019-05-10 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109740168B (zh) * 2019-01-09 2020-10-13 北京邮电大学 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法
CN109684648B (zh) * 2019-01-14 2020-09-01 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN110147435A (zh) * 2019-01-24 2019-08-20 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN109635269A (zh) * 2019-01-31 2019-04-16 苏州大学 一种机器翻译文本的译后编辑方法及装置
CN109635269B (zh) * 2019-01-31 2023-06-16 苏州大学 一种机器翻译文本的译后编辑方法及装置
CN111563360A (zh) * 2019-02-13 2020-08-21 Sap欧洲公司 语境化文本描述
CN110083710B (zh) * 2019-04-30 2021-04-02 北京工业大学 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110083710A (zh) * 2019-04-30 2019-08-02 北京工业大学 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110188348A (zh) * 2019-05-07 2019-08-30 南京邮电大学 一种基于深度神经网络的中文语言处理模型及方法
CN110188348B (zh) * 2019-05-07 2023-05-19 南京邮电大学 一种基于深度神经网络的中文语言处理模型及方法
CN110321568A (zh) * 2019-07-09 2019-10-11 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN110321568B (zh) * 2019-07-09 2020-08-28 昆明理工大学 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN110334363A (zh) * 2019-07-12 2019-10-15 厦门大学 一种基于混合编码器的描述子翻译及相似度度量方法
CN110502759B (zh) * 2019-07-15 2022-07-19 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110502759A (zh) * 2019-07-15 2019-11-26 昆明理工大学 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN110457715B (zh) * 2019-07-15 2022-12-13 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN110489766A (zh) * 2019-07-25 2019-11-22 昆明理工大学 基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法
CN110442880A (zh) * 2019-08-06 2019-11-12 上海海事大学 一种机器翻译译文的翻译方法、装置及存储介质
CN110442880B (zh) * 2019-08-06 2022-09-30 上海海事大学 一种机器翻译译文的翻译方法、装置及存储介质
CN110543640A (zh) * 2019-08-09 2019-12-06 沈阳雅译网络技术有限公司 一种基于注意力机制神经机器翻译推断加速方法
CN110598221A (zh) * 2019-08-29 2019-12-20 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110619127A (zh) * 2019-08-29 2019-12-27 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110795912B (zh) * 2019-09-19 2023-06-20 平安科技(深圳)有限公司 基于神经网络对文本编码的方法、装置、设备及存储介质
CN110795912A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于神经网络对文本编码的方法、装置、设备及存储介质
CN110688861A (zh) * 2019-09-26 2020-01-14 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN110688861B (zh) * 2019-09-26 2022-12-27 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN110717345A (zh) * 2019-10-15 2020-01-21 内蒙古工业大学 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN110781690A (zh) * 2019-10-31 2020-02-11 北京理工大学 一种多源神经机器翻译模型的融合和压缩方法
CN110781690B (zh) * 2019-10-31 2021-07-13 北京理工大学 一种多源神经机器翻译模型的融合和压缩方法
CN110879940A (zh) * 2019-11-21 2020-03-13 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及系统
CN110879940B (zh) * 2019-11-21 2022-07-12 哈尔滨理工大学 一种基于深度神经网络的机器翻译方法及系统
CN111401078A (zh) * 2020-03-17 2020-07-10 江苏省舜禹信息技术有限公司 神经网络文本翻译模型的运行方法、装置、设备、及介质
CN113496121A (zh) * 2020-04-03 2021-10-12 北京金山数字娱乐科技有限公司 一种病症实体的抽取方法及装置
CN111709245A (zh) * 2020-04-30 2020-09-25 昆明理工大学 基于语义自适应编码的汉-越伪平行句对抽取方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112686027B (zh) * 2020-12-24 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于周期函数的机器翻译输出修正方法及系统
CN112686027A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 基于周期函数的机器翻译输出修正方法及系统
CN112800339A (zh) * 2021-04-06 2021-05-14 腾讯科技(深圳)有限公司 信息流搜索方法、装置及设备
CN113688640A (zh) * 2021-08-30 2021-11-23 深译信息科技(横琴)有限公司 一种用于医学文档翻译的神经网络机器翻译方法
CN113688640B (zh) * 2021-08-30 2023-01-20 深译信息科技(珠海)有限公司 一种用于医学文档翻译的神经网络机器翻译方法
CN115017924B (zh) * 2022-07-11 2023-11-07 西南财经大学 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN115017924A (zh) * 2022-07-11 2022-09-06 西南财经大学 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN116361445A (zh) * 2023-05-12 2023-06-30 北京网智天元大数据科技有限公司 藏汉双语用户兴趣标签的预测方法及装置
CN116361445B (zh) * 2023-05-12 2023-08-08 北京网智天元大数据科技有限公司 藏汉双语用户兴趣标签的预测方法及装置
CN117391045A (zh) * 2023-12-04 2024-01-12 永中软件股份有限公司 可复制蒙文的可携带文件格式文件输出方法
CN117391045B (zh) * 2023-12-04 2024-03-19 永中软件股份有限公司 可复制蒙文的可携带文件格式文件输出方法

Also Published As

Publication number Publication date
CN107967262B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN111160050A (zh) 一种基于上下文记忆网络的篇章级神经机器翻译方法
TW201918913A (zh) 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體
CN108845994B (zh) 利用外部信息的神经机器翻译系统及翻译系统的训练方法
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110688861B (zh) 一种多特征融合的句子级译文质量估计方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110717345B (zh) 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN108763230B (zh) 利用外部信息的神经机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN111428518B (zh) 一种低频词翻译方法及装置
CN113204978B (zh) 一种机器翻译增强训练方法及系统
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
CN111274826B (zh) 一种基于语义信息融合的低频词翻译方法
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN116414988A (zh) 基于依赖关系增强的图卷积方面级情感分类方法及系统
CN113392629B (zh) 基于预训练模型的人称代词消解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant