CN110674646A - 一种基于字节对编码技术的蒙汉机器翻译系统 - Google Patents

一种基于字节对编码技术的蒙汉机器翻译系统 Download PDF

Info

Publication number
CN110674646A
CN110674646A CN201910844120.2A CN201910844120A CN110674646A CN 110674646 A CN110674646 A CN 110674646A CN 201910844120 A CN201910844120 A CN 201910844120A CN 110674646 A CN110674646 A CN 110674646A
Authority
CN
China
Prior art keywords
mongolian
chinese
machine translation
translation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910844120.2A
Other languages
English (en)
Inventor
苏依拉
王昊
贺玉玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201910844120.2A priority Critical patent/CN110674646A/zh
Publication of CN110674646A publication Critical patent/CN110674646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于字节对编码技术的蒙汉机器翻译系统,首先,使用BPE技术对英汉平行语料以及蒙汉平行语料进行预处理,将英语,蒙古语及汉语单词全部分成单个字符,然后在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来,直到循环次数结束。其次,利用经过预处理的英汉平行语料基于神经机器翻译框架进行训练。然后,将经过预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过预处理的蒙汉平行语料训练神经机器翻译模型,得到基于字节对编码技术的蒙汉神经机器翻译原型系统。最后,将该系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价,达到最终提高蒙汉机器翻译性能的目的。

Description

一种基于字节对编码技术的蒙汉机器翻译系统
技术领域
本发明属于神经机器翻译技术领域,特别涉及一种基于字节对编码技术的蒙汉机器翻译系统。
背景技术
机器翻译指使用计算机自动地将一种自然语言转化为具有完全相同含义的另一种自然语言的过程。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。神经机器翻译采用一种新颖的解决机器翻译问题的系统,并且最近几年发展迅速,取得了许多重要成果。尤其是在翻译的流利度与准确性方面,神经机器翻译与传统的统计机器翻译相比,翻译结果更加顺畅。
但是,神经机器翻译也有一些亟待解决的难点。未登录词翻译是神经机器翻译的主要难点之一。因为神经机器翻译系统为了能够控制计算的复杂度,有着一个固定大小的词汇表,这就导致了其在翻译未登录词时有着严重的不足。由于限定词汇表有大小限制,对于未出现在该词汇表中的词,神经机器翻译系统用UNK标记来替代。然而神经机器翻译系统不仅无法将它们翻译准确,而且破坏了句子的结构特征。而蒙语属于黏着语,句子的结构一旦变化,表达的意思也会随之进行变化,甚至出现严重语病,在使用原有系统进行翻译时,经常由于一个长句中出现未登录词而导致翻译偏差。又由于蒙古语机器翻译研究起步较晚以及蒙古语语法本身复杂性,使得蒙汉翻译过程中出现了大量的未登录词,进而给蒙汉翻译工作带来更多的麻烦。
目前,已经有一些神经机器翻译技术针对低资源语言存在未登录词,无法准确翻译问题被提出。由于蒙-汉翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译译文质量并不理想,翻译结果仍存在严重偏差。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于字节对编码技术的蒙汉机器翻译系统,针对蒙-汉翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题,使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,将英语,蒙古语及汉语单词全部分成单个字符,在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来。从而极大地保存了句子的结构特征和流畅性,降低了蒙汉翻译中蒙语未登录词个数,解决了蒙语中存在大量未登录词问题。然后利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练。再将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型,进而较大提升蒙汉机器翻译性能。
为了实现上述目的,本发明采用的技术方案是:
一种基于字节对编码技术的蒙汉机器翻译系统,其过程为:
首先,使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,将英语、蒙古语及汉语单词全部分成单个字符,然后在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来,直到循环次数结束;
其次,利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练;
然后,将训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过BPE技术预处理的蒙汉平行语料基于神经机器翻译框架进行训练,得到基于字节对编码技术的蒙汉神经机器翻译原型系统;
最后,将基于字节对编码技术的蒙汉神经机器翻译系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价,达到最终提高蒙汉机器翻译性能的目的。
所述字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,其步骤为:
首先,将语料库中英语、蒙语、汉语所有单词的组成字符加入字典,作为初始化字典,将所有单词变成字符分割的形式,并在的末尾加入标记,方便在输出句子后回复分词信息;
其次,对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;
然后对上一步操作迭代n次,直到已经学习了一定数量的合并操作;
最后,字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并操作次数n。
所述基于神经机器翻译框架进行训练,该神经网络翻译框架的的网络类型是RNN循环神经网络,RNN循环神经网络前向传播算法中,对于任意一个序列索引号t,隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到:
h(t)=σ(Ux(t)+Wh(t-1)+b)
其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。
所述神经机器翻译框架公式为:
Figure BDA0002194620420000031
其中,是模型的参数,
Figure BDA0002194620420000033
是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。
所述两次模型训练中,编码器和解码器进行联合训练,公式为:
其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。
所述编码器的编码步骤为:首先,该双向循环神经网络正向和反向读入输入的序列X=(x1,x2,...,xm),其中X为经过BPE技术预处理后的双语语料句子序列,x1,x2,...,xm为经过BPE技术预处理后的双语语料子词序列。其次,分别输出正向隐藏状态序列和反向隐藏状态序列,其中m为源端单词的个数,最终将上述正向隐藏状态序列与反向隐藏状态序列拼接成为一个新的序列。
所述解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y=(y1,y2,...,yn),y1,y2,...,yn为目标端的单词序列,n为目标端单词的个数,每个单词yi由隐藏状态si预测的前一单词yi-1和一个源端向量ci所决定,p(yi|y1,...,yi-1,x)=g(yi-1,si,ci),si为循环神经网络第i时刻的隐藏状态,si=f(si-1,yi-1,ci),ci为注意力向量,ci=∑jaijhj
Figure BDA0002194620420000042
Figure BDA0002194620420000043
通过对齐模型aij计算每个注释hj的权重,该对齐模型aij模拟yi与xj对齐的概率,
Figure BDA0002194620420000044
是一个通过源端隐层状态hj和目标端前一隐层状态si-1计算出的匹配程度。
所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,利用训练好的翻译模型参数权重,对蒙汉神经网络进行参数初始化代替随机初始化,实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。
所述利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型时,英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置一致。
所述BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好,BLEU值的公式为:
Figure BDA0002194620420000051
其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:
BP=emin(1-r/h,0)
其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。
与现有的蒙汉机器翻译系统相比,本发明首先使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,将英语,蒙古语及汉语单词全部分成单个字符,在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来。从而极大地保存了句子的结构特征和流畅性,降低了蒙汉翻译中蒙语未登录词个数,解决了蒙语中存在大量未登录词问题。然后利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练。再将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型,
本发明提出的基于字节对编码技术的蒙汉机器翻译系统简单可行,有效降低了蒙汉翻译中蒙语未登录词个数,解决了蒙语中存在大量未登录词导致翻译结果存在严重偏差问题,进而较大提升蒙汉机器翻译性能。
附图说明
图1是实现一种基于字节对编码技术的蒙汉机器翻译系统的流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明从降低蒙汉翻译中蒙语未登录词个数和提高蒙汉机器翻译译文质量的角度出发,针对蒙语-汉语翻译过程中过多的未登录词以及蒙古语句子结构本身复杂性使得翻译结果仍存在严重偏差等问题提出了一种基于字节对编码技术的蒙汉机器翻译系统,其实现过程如下:
1、对语料进行基于BPE技术的数据预处理问题
首先,将语料库中英语、蒙语、汉语所有单词的组成字符加入字典,作为初始化字典。将所有单词变成字符分割的形式,并在的末尾加入特殊标记,方便在输出句子后回复分词信息;其次,对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,如此就会在字典中增加键值“AB”。此步骤称为合并操作;然后对上一步操作迭代n次,直到已经学习了一定数量的合并操作;最后,字典由字符、词素和词语等组成。
字典大小=初始字典大小+合并操作次数n。
2、统计机器翻译和神经机器翻译建模问题
A.统计机器翻译模型描述:统计机器翻译的核心问题就是用统计系统从双语语料中自动学习翻译模型,然后基于此翻译模型,对源语言句子从翻译候选集中寻找一个评分最高的目标句子作为最佳翻译译文。根据噪声通道模型目标语言T作为噪声信道模型的输入,经过噪声信道编码以后,将输出相应的序列,这个序列即为源语言S。而统计机器翻译的目标就是将根据源语言S反编码得到相应的目标语言T,这个过程又被称为解码或翻译。统计机器翻译模型公式:
argmaxPr(T|S)=argmaxPr(S|T)Pr(T)
其中,Pr(T)表示目标语言的语言模型,而Pr(S|T)表示双语间的翻译模型,该公式被称为统计机器翻译的基本方程式。
B.神经机器翻译模型描述:神经机器翻译是一种使用神经网络直接获取自然语言之间的映射关系的机器翻译系统。神经机器翻译(NMT)的非线性映射不同于线性的统计机器翻译(SMT)模型,神经机器翻译利用连接编码器和解码器的状态向量来描述双语语义的等价关系。基于深度学习的神经机器翻译系统目前超过了传统的统计机器翻译系统,成为新的主流技术。利用神经网络实现自然语言的映射(即机器翻译)的核心问题是条件概率建模,神经机器翻译建模公式:
Figure BDA0002194620420000071
其中,
Figure BDA0002194620420000072
是模型的参数,
Figure BDA0002194620420000073
是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。
C.机器翻译译文质量评价指标即BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好。BLEU值的公式为:
其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:
BP=emin(1-r/h,0)
其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。
3、基于循环神经网络(RNN)编码器解码器构架问题
循环神经网络相对于传统的神经网络来说对于把握上下文之间的关系更为擅长,因此常用在自然语言处理的相关任务中。想要预测句子的下一个单词,一般情况下需要用到句子中前面出现的单词,因为一个句子中前后单词并不是独立的。循环神经网络中当前的输出取决于当前输入和前面的输出,RNN是具有一定记忆功能的神经网络。编码器解码器模型(Encoder-Decoder)是神经网络机器翻译模型之一,编码器读取源语言句子,编码器的主要任务是将源语言句子编码成维数固定的实数向量,该向量代表了源语言语义信息;解码器部分读取代表源语言语义信息的实数向量,然后依次生成对应的目标语言词语序列,直到遇到句尾结束符标志着翻译过程的结束。
A.编码器的编码步骤为:首先,该双向循环神经网络正向和反向读入输入的序列X=(x1,x2,...,xm),其中X为经过BPE技术预处理后的双语语料句子序列,x1,x2,...,xm为经过BPE技术预处理后的双语语料子词序列。其次,分别输出正向和反向隐藏状态序列
Figure BDA0002194620420000081
其中m为源端单词的个数。最终将上述正向隐藏状态序列与反向隐藏状态序列拼接为一个新的序列
Figure BDA0002194620420000082
B.解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y=(y1,y2,...,yn),y1,y2,...,yn为目标端的单词序列,n为目标端单词的个数,每个单词yi由隐藏状态si预测的前一单词yi-1和一个源端向量ci所决定,
p(yi|y1,...,yi-1,x)=g(yi-1,si,ci)si为循环神经网络第i时刻的隐藏状态,计算通过:
si=f(si-1,yi-1,ci)ci也即注意力向量,具体计算公式如下:
Figure BDA0002194620420000083
Figure BDA0002194620420000084
Figure BDA0002194620420000085
通过对齐模型aij计算每个注释hj的权重,该对齐模型aij模拟yi与xj对齐的概率,
Figure BDA0002194620420000086
是一个通过源端隐层状态hj和目标端前一隐层状态si-1计算出的匹配程度。
4、神经网络前向传播算法以及翻译模型训练问题
A.循环神经网络训练过程中前向传播算法中,对于任意一个序列索引号t,隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到:
h(t)=σ(Ux(t)+Wh(t-1)+b)
其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为
Figure BDA0002194620420000091
d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。
B.给定平行语料库,神经机器翻译的较常用的训练系统是极大似然估计,本发明中神经网络训练采用编码器和解码器进行联合训练,模型训练公式为:
其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。
5、注意力机制问题
在神经机器翻译最初翻译效果并不是很理想,没有超过基于统计系统的机器翻译质量。随着用于机器翻译的端到端编码器-解码器框架提出以及将注意力机制引入到神经机器翻译框架中,使得神经机器翻译的表现得到显著提升并且逐渐确定了神经机器翻译框架主要的构成架构。普通神经网络翻译模型将源语言句子表示成一个固定维度的实数向量,该系统存在不足之处,比如大小固定的向量并不能充分表达出源语言句子语义信息。将注意力机制加入到神经机器翻译模型中,在生成目标语言词语时,通过注意力机制动态寻找与生成该词相关的源语言词语信息,从而增强了神经网络机器翻译模型的表达能力,并且在相关实验中显著提高了翻译效果。采用注意力机制时,公式8重新定义为:
p(yt|{y1,...,yt-1},x)=g(yt-1,st,ci)
st是t时刻循环神经网络的隐藏状态,由如下公式得出:
st=f(st-1,yt-1,ct)
g、f是非线性函数,上下文向量(Context Vector)ct依赖于源语言编码序列(h1,h2,...,hl),hi包含第i个输入词上下文信息。ct计算系统如下公式:
Figure BDA0002194620420000093
atj是hj的权重,计算系统如下公式:
Figure BDA0002194620420000101
其中,etj=a(st-1,hj)是对齐模型,计算出t时刻生成词与第j个源语言词的匹配程度。相比普通的神经网络机器翻译,该系统在解码时融合了更多的源语言端信息,可以显著提升机器翻译效果。
参考图1,本发明一种基于字节对编码技术的蒙汉机器翻译系统具体实现步骤可描述如下:
01:使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,将英语,蒙古语及汉语单词全部分成单个字符,然后在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来,直到循环次数结束。
02:构建RNN循环神经机器翻译模型构架,包括编码器和解码器;
03:利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练;
04:将经过BPE技术预处理的英汉平行语料训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型;
05:利用BLEU值对测试集进行译文评测。
为使本发明的蒙汉翻译流程更加清楚,下面将就一句蒙语到汉语句子翻译过程作进一步的详细描述。
对蒙古语句子进行翻译过程如下:
01:编码器将蒙古语句子压缩为固定维度的实数向量,该向量代表着源语言句子语义信息;
02:解码器将该向量反向解码成对应的目标语言句子,注意力机制在解码器生成每个目标语言词时动态寻找和当前词相关的源语言上下文,例如当生成汉语词“工作”时,蒙文词
Figure BDA0002194620420000111
与之最相关;
03:对翻译译文就BLEU值评测;
04:得到完整的汉语翻译译文“这项工作需要我们很长时间完成。”。

Claims (10)

1.一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,其过程为:
首先,使用字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,将英语、蒙古语及汉语单词全部分成单个字符,然后在词的范围内统计字符对出现的次数,每次将出现次数最多的字符对保存起来,直到循环次数结束;
其次,利用经过BPE技术预处理的英汉平行语料基于神经机器翻译框架进行训练;
然后,将训练好的翻译模型参数权重迁移到蒙汉神经机器翻译框架中,利用经过BPE技术预处理的蒙汉平行语料基于神经机器翻译框架进行训练,得到基于字节对编码技术的蒙汉神经机器翻译原型系统;
最后,将基于字节对编码技术的蒙汉神经机器翻译系统的翻译译文与统计机器翻译译文就BLEU值进行对比和评价,达到最终提高蒙汉机器翻译性能的目的。
2.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述字节对编码技术(BPE)对英汉平行语料以及蒙汉平行语料进行预处理,其步骤为:
首先,将语料库中英语、蒙语、汉语所有单词的组成字符加入字典,作为初始化字典,将所有单词变成字符分割的形式,并在的末尾加入标记,方便在输出句子后回复分词信息;
其次,对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;
然后对上一步操作迭代n次,直到已经学习了一定数量的合并操作;
最后,字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并操作次数n。
3.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述基于神经机器翻译框架进行训练,该神经网络翻译框架的的网络类型是RNN循环神经网络,RNN循环神经网络前向传播算法中,对于任意一个序列索引号t,隐藏层状态h(t)由输入序列x(t)和前一时刻隐藏层状态h(t-1)得到:
h(t)=σ(Ux(t)+Wh(t-1)+b)
其中,σ为循环神经网络的激活函数,一般为tanh,b为线性关系的偏置,序列索引号t模型的输出o(t)的表示为o(t)=Vh(t)+d,最终在序列索引号t时预测输出为
Figure FDA0002194620410000021
d为输出结点的偏置,U,V,W是循环神经网络中共享的参数矩阵。
4.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述神经机器翻译框架公式为:
Figure FDA0002194620410000022
其中,
Figure FDA0002194620410000023
是模型的参数,
Figure FDA0002194620410000024
是非线性函数,yn是当前目标语言词,x是源语言句子,y<n是已经生成的目标语言句子,Vy是目标语言词向量,D是目标语言词汇表,Cs是源语言上下文向量,Ct目标语言上下文向量。
5.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述两次模型训练中,编码器和解码器进行联合训练,公式为:
Figure FDA0002194620410000025
其中,θ是模型的参数,p是条件概率函数,(xn,yn)表示双语训练语料,N是训练样本数量,采用极大似然估计算法训练样本。
6.根据权利要求5所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述编码器的编码步骤为:首先,该双向循环神经网络正向和反向读入输入的序列X=(x1,x2,…,xm),其中X为经过BPE技术预处理后的双语语料句子序列,x1,x2,…,xm为经过BPE技术预处理后的双语语料子词序列。其次,分别输出正向隐藏状态序列和反向隐藏状态序列,其中m为源端单词的个数,最终将上述正向隐藏状态序列与反向隐藏状态序列拼接成为一个新的序列。
7.根据权利要求5所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述解码器是利用基于注意力机制的单向循环神经网络去预测目标端序列Y=(y1,y2,…,yn),y1,y2,…,yn为目标端的单词序列,n为目标端单词的个数,每个单词yi由隐藏状态si预测的前一单词yi-1和一个源端向量ci所决定,p(yi|y1,...,yi-1,x)=g(yi-1,si,ci),si为循环神经网络第i时刻的隐藏状态,si=f(si-1,yi-1,ci),ci为注意力向量,ci=∑jaijhj
Figure FDA0002194620410000031
Figure FDA0002194620410000032
通过对齐模型aij计算每个注释hj的权重,该对齐模型aij模拟yi与xj对齐的概率,
Figure FDA0002194620410000033
是一个通过源端隐层状态hj和目标端前一隐层状态si-1计算出的匹配程度。
8.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述利用双语平行语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,利用训练好的翻译模型参数权重,对蒙汉神经网络进行参数初始化代替随机初始化,实现将训练学到的网络参数权重迁移到蒙汉神经机器翻译模型。
9.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述利用经过BPE技术预处理的蒙汉平行语料训练神经机器翻译模型时,英汉和蒙汉翻译模型的包括词典大小、词向量大小、隐藏层大小在内的参数设置一致。
10.根据权利要求1所述一种基于字节对编码技术的蒙汉机器翻译系统,其特征在于,所述BLEU值是用来评估机器翻译译文质量的工具,分数越高说明机器翻译模型性能越好,BLEU值的公式为:
Figure FDA0002194620410000041
其中,wn=1/M,M是译文和参考译文的组词数,M的上限取值为4,pn代表n元语法准确率,BP代表译文较短惩罚因子:
BP=emin(1-r/h,0)
其中,h为候选译文中单词的个数,r是与h长度最接近的参考译文长度。
CN201910844120.2A 2019-09-06 2019-09-06 一种基于字节对编码技术的蒙汉机器翻译系统 Pending CN110674646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910844120.2A CN110674646A (zh) 2019-09-06 2019-09-06 一种基于字节对编码技术的蒙汉机器翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910844120.2A CN110674646A (zh) 2019-09-06 2019-09-06 一种基于字节对编码技术的蒙汉机器翻译系统

Publications (1)

Publication Number Publication Date
CN110674646A true CN110674646A (zh) 2020-01-10

Family

ID=69076174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910844120.2A Pending CN110674646A (zh) 2019-09-06 2019-09-06 一种基于字节对编码技术的蒙汉机器翻译系统

Country Status (1)

Country Link
CN (1) CN110674646A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368563A (zh) * 2020-03-03 2020-07-03 新疆大学 一种融合聚类算法的维汉机器翻译系统
CN111382583A (zh) * 2020-03-03 2020-07-07 新疆大学 一种混合多种策略的汉语-维吾尔人名翻译系统
CN111581988A (zh) * 2020-05-09 2020-08-25 浙江大学 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统
CN111797639A (zh) * 2020-06-28 2020-10-20 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111814496A (zh) * 2020-08-04 2020-10-23 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112084794A (zh) * 2020-09-18 2020-12-15 西藏大学 一种藏汉翻译方法和装置
CN112257461A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于注意力机制的xml文档翻译及评价方法
CN112380881A (zh) * 2020-12-01 2021-02-19 内蒙古工业大学 一种基于课程学习的蒙汉神经机器翻译域适应方法
CN112417901A (zh) * 2020-12-03 2021-02-26 内蒙古工业大学 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN112580370A (zh) * 2020-12-24 2021-03-30 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112597780A (zh) * 2020-12-28 2021-04-02 焦点科技股份有限公司 一种多语种混合的异构神经网络机器学习翻译方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112836526A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 一种基于门控机制的多语言神经机器翻译方法及装置
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质
CN113850090A (zh) * 2021-09-23 2021-12-28 内蒙古工业大学 一种融合双语词典的蒙汉神经机器翻译方法
CN113850089A (zh) * 2021-09-23 2021-12-28 内蒙古工业大学 一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法
CN116701961A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统
US11868737B2 (en) 2020-04-24 2024-01-09 Direct Cursus Technology L.L.C Method and server for processing text sequence for machine processing task

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN108829684A (zh) * 2018-05-07 2018-11-16 内蒙古工业大学 一种基于迁移学习策略的蒙汉神经机器翻译方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RICO SENNRICH ET AL.: "Neural Machine Translation of Rare Words with Subword Units", 《ARXIV:1508.07909V5》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368563A (zh) * 2020-03-03 2020-07-03 新疆大学 一种融合聚类算法的维汉机器翻译系统
CN111382583A (zh) * 2020-03-03 2020-07-07 新疆大学 一种混合多种策略的汉语-维吾尔人名翻译系统
US11868737B2 (en) 2020-04-24 2024-01-09 Direct Cursus Technology L.L.C Method and server for processing text sequence for machine processing task
CN111581988A (zh) * 2020-05-09 2020-08-25 浙江大学 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统
CN111797639A (zh) * 2020-06-28 2020-10-20 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111797639B (zh) * 2020-06-28 2024-03-26 语联网(武汉)信息技术有限公司 一种机器翻译质量评估方法和系统
CN111814496A (zh) * 2020-08-04 2020-10-23 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111814496B (zh) * 2020-08-04 2023-11-28 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112084794A (zh) * 2020-09-18 2020-12-15 西藏大学 一种藏汉翻译方法和装置
CN112257461A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于注意力机制的xml文档翻译及评价方法
CN112380881A (zh) * 2020-12-01 2021-02-19 内蒙古工业大学 一种基于课程学习的蒙汉神经机器翻译域适应方法
CN112417901A (zh) * 2020-12-03 2021-02-26 内蒙古工业大学 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN112580370A (zh) * 2020-12-24 2021-03-30 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112597780A (zh) * 2020-12-28 2021-04-02 焦点科技股份有限公司 一种多语种混合的异构神经网络机器学习翻译方法
CN112633018A (zh) * 2020-12-28 2021-04-09 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112633018B (zh) * 2020-12-28 2022-04-15 内蒙古工业大学 一种基于数据增强的蒙汉神经机器翻译方法
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN112836526A (zh) * 2021-01-31 2021-05-25 云知声智能科技股份有限公司 一种基于门控机制的多语言神经机器翻译方法及装置
CN112836526B (zh) * 2021-01-31 2024-01-30 云知声智能科技股份有限公司 一种基于门控机制的多语言神经机器翻译方法及装置
CN113239710A (zh) * 2021-06-23 2021-08-10 合肥讯飞数码科技有限公司 多语言机器翻译方法、装置、电子设备和存储介质
CN113850089A (zh) * 2021-09-23 2021-12-28 内蒙古工业大学 一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法
CN113850090A (zh) * 2021-09-23 2021-12-28 内蒙古工业大学 一种融合双语词典的蒙汉神经机器翻译方法
CN116701961A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统
CN116701961B (zh) * 2023-08-04 2023-10-20 北京语言大学 一种对文言文机器翻译结果自动评估的方法和系统

Similar Documents

Publication Publication Date Title
CN110674646A (zh) 一种基于字节对编码技术的蒙汉机器翻译系统
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
Li et al. Language modeling with functional head constraint for code switching speech recognition
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN110210043A (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN110705253A (zh) 基于迁移学习的缅甸语依存句法分析方法及装置
US11562123B2 (en) Method and apparatus for fusing position information, and non-transitory computer-readable recording medium
CN110222338B (zh) 一种机构名实体识别方法
CN110569505A (zh) 一种文本输入方法及装置
CN113468895A (zh) 一种基于解码器输入增强的非自回归神经机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN115081437A (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN110866395B (zh) 基于译员编辑行为的词向量生成方法及装置
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110