CN112580372A - 一种基于Actor-Critic的蒙汉神经机器翻译方法 - Google Patents

一种基于Actor-Critic的蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN112580372A
CN112580372A CN202011570924.7A CN202011570924A CN112580372A CN 112580372 A CN112580372 A CN 112580372A CN 202011570924 A CN202011570924 A CN 202011570924A CN 112580372 A CN112580372 A CN 112580372A
Authority
CN
China
Prior art keywords
output
critic
actor
state
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011570924.7A
Other languages
English (en)
Inventor
苏依拉
卞乐乐
赵旭
薛媛
范婷婷
仁庆道尔吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011570924.7A priority Critical patent/CN112580372A/zh
Publication of CN112580372A publication Critical patent/CN112580372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于Actor‑Critic的蒙汉神经机器翻译方法,对翻译语言即蒙汉双语进行预处理;采用回声状态网络搭建蒙汉双语的端到端模型,并基于Actor‑Critic对语言序列生成奖励值进行模型训练;基于训练后的端到端模型进行蒙汉翻译,得到翻译结果。本发明利用回声状态网络来搭建翻译模型并利用强化学习中的Actor‑Critic算法来训练神经网络并生成序列,使训练过程和预测尽可能的相近,并且可以直接优化与任务相关的指标。

Description

一种基于Actor-Critic的蒙汉神经机器翻译方法
技术领域
本发明属于机器翻译技术领域,涉及蒙汉机器翻译,特别涉及一种基于Actor-Critic的蒙汉神经机器翻译方法。
背景技术
现阶段随着互联网行业的飞速发展,包括信息技术等一系列IT行业的不断崛起,而针对自然语言处理的机器翻译在对整个互联网行业的发展起到一定的促进作用。像谷歌,百度等大型的搜索服务行业面对行业的发展都针对机器翻译领域进行了较大规模的科研。为不断获得较高质量的译文不断研究。
尽管科研机构为了获得更好的翻译效果仍然在不断地努力着,但是机器翻译随着技术领域的发展仍然暴露出来越来越多的问题。例如,机器翻译比较生硬,其中的程序都是设计好,翻译中出现错误的概率非常的高,有时甚至出现各种语法错误。遇到比较长的段落翻译出来就很难理解,不符合正常的逻辑。翻译出的东西可读性比较差。同时也无法体现句子的语法特征,翻译出的稿件比较粗糙,生涩难懂。简单说就是语病百出,生硬难懂,只能进行简单的词语短句的翻译。而歧义词的处理和语法结构的差异而导致的译文质量低是机器翻译尤为突出的问题。现在全球很多著名的大学实验室都针对机器翻译领域存在的上述问题进行了研究,然而在各种翻译任务中,都没有一种兼容性很强的处理方法来解决上述存在的问题。但是目前来看,针对特定的两种语言来进行翻译存在着一种解决编码问题而导致翻译质量低的解决方案。但是针对多语言,歧义处理,非字典的替换等问题上并没有很好的解决方案。所以对翻译质量的有效提高迫在眉睫。
目前,利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经网络节点中,通过神经网络层与层之间和节点与节点之间的参数变换和传递来不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统计翻译方法中出现的很多问题,例如译码不明、错译、未登陆词处理等问题,但是在精准度上面相比人工翻译仍然存在不小的劣势。
由于蒙古语属于小语种,蒙汉平行语料库收集困难,利用现有神经网络方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。在翻译系统中,编码器和解码器的计算复杂度比较高,由于计算量和计算内存的限制,神经机器翻译模型需要事先确定一个规模受到限制的常用词词表,神经机器翻译系统往往将词汇表限制为高频词,并将其他所有低频词视为未登录词。蒙古语属于黏着语,黏着语的一个特点是通过在词根的前、中、后缀接其他构词成分作为派生新词的手段,因此蒙古文构词及其形态变换非常丰富,导致的集外词和未登录现象频发。
发明内容
为了克服上述现有技术的缺点,解决上述现有技术中主要存在的翻译过程中漏译、错译、未登录词处理等问题,本发明的目的在于提供一种基于Actor-Critic的蒙汉神经机器翻译方法,利用回声状态网络来搭建翻译模型并利用强化学习中的Actor-Critic算法来训练神经网络并生成序列,使训练过程和预测尽可能的相近,并且可以直接优化与任务相关的指标。同时,本发明用强化学习的方法直接提升测试指标,使用Critic网络输出每个词的value,网络输出token后,持续地根据概率分布采样输出与具体任务相关的期望分数,也就是状态动作值函数,这些预测的value可以指导序列预测网络的训练。并且通过设定的学习率对语料进行学习可以有效缓解学习语料语义表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题。针对小语料中的数据稀少和字典小的现状,在降低系统复杂度,对用户可视化系统结构的条件下保证用户翻译服务质量,从而完善蒙汉机器翻译系统,达到较好译文翻译的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于Actor-Critic的蒙汉神经机器翻译方法,包括如下步骤:
步骤1,对翻译语言即蒙汉双语进行预处理;
步骤2,采用回声状态网络搭建蒙汉双语的端到端模型,并基于Actor-Critic对语言序列生成奖励值进行模型训练;
步骤3,基于训练后的端到端模型进行蒙汉翻译,得到翻译结果。
所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。
所述回声状态网络由输入层、隐藏层和输出层组成,其中隐藏层即储备池,为由多个神经元组成的稀疏网络,通过调整网络内部权值的特性实现记忆数据的功能,隐藏层内部的动态储备池包含多个稀疏连接的神经元,蕴含储备池每一时间下的运行状态,并具有长期训练记忆功能。
所述回声状态网络t时刻的输入层具有K个节点,输入为u(t),隐藏层具有N个节点,其状态为x(t),输出层状态为y(t),具有N个节点,各状态表示为:
u(t)=[u1(t),u2(t),…,uK(t)]T
x(t)=[x1(t),x2(t),…,xN(t)]T
y(t)=[y1(t),y2(t),…,yL(t)]T
u1(t),u2(t),…,uK(t)分别表示输入层中第1到第K个节点的状态;x1(t),x2(t),…,xN(t)分别表示隐藏层中第1到第N个节点的状态;y1(t),y2(t),…,yL(t)表示输出层中第1到第L个节点的状态;
输入层到储备池的连接为Win,Win为N*K阶,储备池到下一个时刻储备池状态的连接为W,W为N*N阶,储备池到输出层的连接为Wout,Wout为L*(K+N+L)阶,前一时刻的输出层到下一时刻的储备池的连接为Wback,Wback为N*L阶,每一时刻输入u(t),储备池均要更新状态,其状态更新方程为:
x(t+1)=f(Win*u(t+1)+Wbackx(t))
式中,Win和Wback均为在最初建立网络时随机初始化的,并且固定不变,u(t+1)是t+1时刻的输入,x(t+1)是t+1时刻的储备池状态,x(t)是t时刻的储备池状态,在t=0时刻用0初始化,f是内部神经元激活函数,u(t+1)是一个长度为1+K的向量,Win是一个[1+K,N]的矩阵,x(t+1)是一个长度为N的向量,回声状态网络的输出状态方程为:
y(t+1)=fout*(Wout*(u(t+1),x(t+1))
式中,fout是输出层神经元激活函数,根据目标输出y(target)确定Wout,以使得y(t+1)和y(target)的差距尽可能小。
利用回声状态网络搭建的端到端模型中,编码计算公式为:
yt=f(xt,xt-1)
xt为当前时刻的输入,xt-1为上一时刻的隐藏层输出,yt为当前时刻的隐藏层输出,即,依据当前时刻的输入和上一时刻的隐藏层输出计算当前时刻的隐藏层输出,经过编码得到各个时刻的输出,进而计算得到源语句上下文的特征表示;
解码计算公式为:
Figure BDA0002862707390000041
其中x1,…,xL是输入序列,y1,…,yT′是输出序列,V是解码器的初始值,即x1,…,xT,T是输入句子的长度,T′是输出句子的长度。
所述Actor和Critic均采用encoder和decoder的结构,且均由回声状态网络搭建而成,Actor中encoder输入的是X,即输入序列为x1,…,xL,decoder输出生成的序列Y,即输出序列为y1,…,yT,生成的每一词均输入到Critic对输出序列进行评价;Critic中encoder输入的是Y,decoder输入的是自注意力机制生成的语义信息加上Actor端当下生成的词,输出的是对当下生成词的一个评价。即如下公式:
Figure BDA0002862707390000042
Critic针对模型训练目标函数为:
Figure BDA0002862707390000043
其中rt表示t时刻的奖励值,
Figure BDA0002862707390000051
表示输入序列的子序列,奖励值rt会使Critic学习更加容易,
Figure BDA0002862707390000052
指t时刻生成的单词,
Figure BDA0002862707390000053
表示状态1到状态t所生成序列的奖励值。
Figure BDA0002862707390000054
表示状态1到状态t-1所生成序列的奖励值,a表示生成的词,A表示词典,
Figure BDA0002862707390000055
表示当前状态的未来期望回报,
Figure BDA0002862707390000056
表示在生成单词1到t下,期望生成下一个单词a的期望回报。
保持Actor和Critic中的encoder不变,在decoder加入自注意力机制,解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到,不同时刻对应上下文信息不同,其中,对于每个时刻生成的单词,当前输出为正确结果的概率计算如下
p(yi|{y1,…,yi-1},C)=g(yi-1,si,ci)
其中C表示中间语义编码,此时源语句上下文c对于Decoder不同时刻有所区分,表示为ci,ci的计算公式如下所示:
Figure BDA0002862707390000057
Figure BDA0002862707390000058
eij=a(si-1,h)
ci计算公式的含义为对于Encoder编码部分所有时刻隐藏层输出的加权求和,T表示输入句子的长度,aij表示目标在输出第i个单词时输入句子第j个单词的注意力分配系数,s表示生成单词i的中间编码向量,h表示输入句子中第j个单词的语义编码,a(si-1,h)表示综合编码函数,eij表示总向量,decoder解码在不同时刻对应权重不同,ci是源语句上下文,应用于decoder解码隐藏层输出的计算,以辅助隐藏层更好地表达,g(yi-1,si,ci)表示整个句子中间语义表示的变换函数,si表示已经得到的特征向量。
与现有技术相比,本发明在回声状态网络与加入自注意力机制而搭建成的编码器解码器模型,同时采用Actor-Critic生成序列的方法组成的系统架构结合蒙古语和汉语的特点,进一步使蒙汉机器翻译系统的表达能力更加流畅,更加接近人类的表达,减少了翻译过程中语义丢失和翻译混乱的程度。其中回声状态网络利用其简单的线性回归就可完成数据学习,并且其记忆功能使翻译过程中能较长距离的保持语义,其中又加入了自注意力机制,这更是使翻译的准确性得到了提升。另一方面利用Actor-Critic从强化学习角度进行序列生成的训练,进一步提高了翻译模型的质量,回声状态网络和Actor-Critic相结合从而使这个神经网络蒙汉机器翻译系统的性能进一步得到提升
附图说明
图1是本发明回声状态网络结构图。
图2是本发明Actor-Critic训练原理图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,
本发明一种基于Actor-Critic的蒙汉神经机器翻译方法,包括如下步骤:
步骤1,利用NLPIR分词技术,对翻译语言即蒙汉双语进行分词预处理。
NLPIR分词技术效果优、应用广,其实现原理为基于词频统计的分词方法,通过层叠形马尔可夫模型分层实现中文分词,包括断句、原子切分、初步切分、N最短路径切分和最优切分结果生成五个步骤:
(1)断句
断句,是指依据标点符号、分隔符号等标准语句分隔标志,将源语句分隔成为多个短句。经过断句后得到的短句便于进行分词处理,最后将各短句分词结果连接,构成整句的分词结果。
(2)原子切分
原子,是指短句中的最小语素单位,其不可再被分割。包括汉字、标点、连在一起的数字字母等。原子切分将短句分成一个个独立的最小语素单位,为其后的初步切分做准备。
(3)初步切分
初步切分,是指寻找连续的原子之间所有可能的组合方式。初步切分包含两层循环,第一层循环遍历短句的所有原子,第二层循环不断将当前原子与其后相邻原子组合后访问词典库,查看当前组合是否是一个有意义的词组,若命中词典库则记录当前词组,否则跳出内层循环,继续外层循环。经过初步切分,得到全部可能存在的原子组合。
(4)M最短路径切分
M最短路径切分,其基本思想是保留切分概率最大的M个结果,作为分词结果的候选集合,用于最优切分结果的生成。M最短路径切分依据初步切分结果,构建针对当前语句的有向无环图,图的节点表示字或词,图的边表示相邻的字或词之间的连接,边权重表示对应字或词在当前字或词的情况下出现的概率,M最短路径切分即保留概率乘积最大的M个切分,作为候选集合。经过M最短路径切分,得到M个候选切分结果。
(5)最优切分结果
经过M最短路径切分后,得到M条最短切分路径。其后经过人名、地名等未登陆词(未登陆词,是指尚未被收录在分词词表中,但是当前语境下需要被单独切分出来的词,一般包括人名、地名、专有名词等)的识别之后,评分得到最优路径,即最终切分结果。
步骤2,采用回声状态网络搭建蒙汉双语的端到端模型,并基于Actor-Critic对语言序列生成奖励值进行模型训练。
该步骤是本发明的核心步骤,包括如下三个部分:
(1)、端到端模型构建。
端到端模型是由回声状态网络构建而成的神经机器翻译模型,回声状态网络作为一种新型的递归神经网络,其结构如图1所示,由输入层、隐藏层(即储备池)和输出层组成,其中隐藏层为由多个神经元组成的稀疏网络,通过调整网络内部权值的特性实现记忆数据的功能,隐藏层内部的动态储备池包含了大量稀疏连接的神经元,蕴含储备池每一时间下的运行状态,并具有长期训练记忆功能,回声状态网络利用简单的线性回归就可以完成网络的训练,降低了训练的复杂度。
回声状态网络t时刻的输入层具有K个节点,输入为u(t),隐藏层具有N个节点,其状态为x(t),输出层状态为y(t),具有N个节点,各状态表示为:
u(t)=[u1(t),u2(t),…,uK(t)]T
x(t)=[x1(t),x2(t),…,xN(t)]T
y(t)=[y1(t),y2(t),…,yL(t)]T
u1(t),u2(t),…,uK(t)分别表示输入层中第1到第K个节点的状态;x1(t),x2(t),…,xN(t)分别表示隐藏层中第1到第N个节点的状态;y1(t),y2(t),…,yL(t)表示输出层中第1到第L个节点的状态。
图1中的储备池就是常规神经网络的隐藏层,输入层到储备池的连接为Win,Win为N*K阶,储备池到下一个时刻储备池状态的连接为W,W为N*N阶,储备池到输出层的连接为Wout,Wout为L*(K+N+L)阶,前一时刻的输出层到下一时刻的储备池的连接为Wback,Wback为N*L阶,每一时刻输入u(t),储备池均要更新状态,其状态更新方程为:
x(t+1)=f(Win*u(t+1)+Wbackx(t))
式中,Win和Wback均为在最初建立网络时随机初始化的,并且固定不变,u(t+1)是t+1时刻的输入,x(t+1)是t+1时刻的储备池状态,x(t)是t时刻的储备池状态,在t=0时刻用0初始化,f是内部神经元激活函数,通常使用双曲正切函数(tanh),在建模的时候会在连接矩阵上加上一个偏置量,所以u(t+1)是一个长度为1+K的向量,Win是一个[1+K,N]的矩阵,x(t+1)是一个长度为N的向量,回声状态网络的输出状态方程为:
y(t+1)=fout*(Wout*(u(t+1),x(t+1))
式中,fout是输出层神经元激活函数,到这里有了储备池状态,有了回声状态网络的输出方式,就可以根据目标输出y(target)确定Wout,以使得y(t+1)和y(target)的差距尽可能小。回声状态网络以以上过程进行网络模型的学习。
本发明利用回声状态网络搭建的端到端模型中,编码计算公式为:
yt=f(xt,xt-1)
xt为当前时刻的输入,xt-1为上一时刻的隐藏层输出,yt为当前时刻的隐藏层输出,即,依据当前时刻的输入和上一时刻的隐藏层输出计算当前时刻的隐藏层输出,经过编码得到各个时刻的输出,进而计算得到源语句上下文的特征表示;
解码计算公式为:
Figure BDA0002862707390000091
其中x1,…,xL是输入序列,y1,…,yT′是输出序列,V是解码器的初始值,即x1,…,xT,T是输入句子的长度,T′是输出句子的长度。
(2)、模型训练。
本发明采用Actor和Critic进行模型训练,参考图2,从神经网络结构角度看,Actor和Critic均采用encoder和decoder的结构,且均由回声状态网络搭建而成,Actor中encoder输入的是X,即输入序列为x1,…,xL,表示的是源端语言序列,decoder输出生成的序列Y,即输出序列为y1,…,yT,表示的是生成序列。生成的每一词均输入到Critic对输出序列进行评价;Critic中encoder输入的是Y(Actor端翻译后的序列),decoder输入的是attention自注意力机制生成的语义信息加上Actor端当下生成的词,输出的是对当下生成词的一个评价。即如下公式:
Figure BDA0002862707390000092
Critic针对模型训练目标函数为:
Figure BDA0002862707390000093
其中rt表示t时刻的奖励值,
Figure BDA0002862707390000101
表示输入序列的子序列,奖励值rt会使Critic学习更加容易,
Figure BDA0002862707390000102
指t时刻生成的单词,
Figure BDA0002862707390000103
表示状态1到状态t所生成序列的奖励值。
Figure BDA0002862707390000104
表示状态1到状态t-1所生成序列的奖励值,a表示生成的词,A表示词典,
Figure BDA0002862707390000105
表示当前状态的未来期望回报,
Figure BDA0002862707390000106
表示在生成单词1到t下,期望生成下一个单词a的期望回报。
在Actor-Critic训练过程中,保持Actor和Critic中的encoder不变,在decoder加入自注意力机制,解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到,不同时刻对应上下文信息不同,其中,对于每个时刻生成的单词,当前输出为正确结果的概率计算如下:
p(yi|{y1,…,yi-1},C)=g(yi-1,si,ci)
其中C表示中间语义编码,此时源语句上下文c对于Decoder不同时刻有所区分,表示为ci,ci的计算公式如下所示:
Figure BDA0002862707390000107
Figure BDA0002862707390000108
eij=a(si-1,h)
ci计算公式的含义为对于Encoder编码部分所有时刻隐藏层输出的加权求和,T表示输入句子的长度,aij表示目标在输出第i个单词时输入句子第j个单词的注意力分配系数,s表示生成单词i的中间编码向量,h表示输入句子中第j个单词的语义编码,a(si-1,h)表示综合编码函数,eij表示总向量,decoder解码在不同时刻对应权重不同,ci是源语句上下文,应用于decoder解码隐藏层输出的计算,以辅助隐藏层更好地表达,g(yi-1,si,ci)表示整个句子中间语义表示的变换函数,si表示已经得到的特征向量。
(3)、翻译效果评判。
本发明用BLEU算法评分进行翻译效果评判。
机器翻译自动评价标准是进行机器翻译模型判别训练的必要条件之一,也是快速衡量机器翻译系统好坏程度的重要指标。近几年机器翻译技术飞速发展,多种翻译技术自动评价标准被提出,而目前得到广泛应用和认可的评价标准是采用BLEU算法进行评分判别。BLEU算法是现阶段对机器翻译技术进行评估的一个基准,算法的基本思想是,对比待评测译文和提供的参考译文,如若待评测译文和提供的参考译文中共现的N-gram(统计语言模型的一种,包括一元模型、二元模型、三元模型和四元模型等)越多,则说明待评测译文与提供的参考译文越相似,进而表明机器翻译的翻译结果质量越高。BLEU算法的计算如下所示,其中BP为分段函数
Figure BDA0002862707390000111
Figure BDA0002862707390000112
其中c表示待评测译文的长度,r表示参考译文的长度,分段函数BP
即为一个长度惩罚因子,与c和r的大小关系相关。N表示N-gram模型个数(一个模型对应一种N-gram),n,w表示对应的N-gram模型的权重,通常取1/N,多数情况指定N为4,公式中的np表示其所对应模型的匹配准确率(即共现的N-gram占比)。由于若存在任一n元模型没有匹配,这种情况下BLEU值为0,无意义。因此BLEU算法不适用于衡量单个语句的翻译,而是适用于对较多语句进行翻译评价。
步骤3,基于训练后的端到端模型进行蒙汉翻译,得到翻译结果。
综上,本发明采用回声状态网络搭建Encoder-Decoder模型,并采用actor-critic进行模型的训练,训练过程中加入了强化学习机制,端到端模型中,Encoder-Decoder模型翻译框架作为感知体,BLUE算法评分作为Environment,当源语句X(x1,x2……,xL)输入到编码器中映射为编码向量Z(z1,z2……zn-1,zn),翻译框架经过双向解码将源语句翻译成Y(y1,y2……yn-1,yn),该过程中使用即时评价原则强化学习,每翻译一个句子,即与BLUE算法进行交互,得到翻译后的句子yt的翻译质量,据此根据奖励机制算法得出翻译句子的奖励值R(yt,st),R(yt,st)即翻译句子的质量评价也就是当前BLUE分值,由Agent和Environment进行不断的互动来得到数据R(yt,st),R(yt,st)值最大表示当前翻译效果最接近真实语句。
本发明具体算法如下:
1:loop
2:选取蒙汉双语语料,利用NLPIR分词技术对蒙文分词;
3:将蒙古语汉语语料向量化;
4:根据Encoder-Decoder模型对蒙古进行模型化操作;
5:采用输出函数进行输出特征的操作;
6:end loop。

Claims (7)

1.一种基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,包括如下步骤:
步骤1,对翻译语言即蒙汉双语进行预处理;
步骤2,采用回声状态网络搭建蒙汉双语的端到端模型,并基于Actor-Critic对语言序列生成奖励值进行模型训练;
步骤3,基于训练后的端到端模型进行蒙汉翻译,得到翻译结果。
2.根据权利要求1所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。
3.根据权利要求1所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,所述回声状态网络由输入层、隐藏层和输出层组成,其中隐藏层即储备池,为由多个神经元组成的稀疏网络,通过调整网络内部权值的特性实现记忆数据的功能,隐藏层内部的动态储备池包含多个稀疏连接的神经元,蕴含储备池每一时间下的运行状态,并具有长期训练记忆功能。
4.根据权利要求3所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,所述回声状态网络t时刻的输入层具有K个节点,输入为u(t),隐藏层具有N个节点,其状态为x(t),输出层状态为y(t),具有N个节点,各状态表示为:
u(t)=[u1(t),u2(t),…,uK(t)]T
x(t)=[x1(t),x2(t),…,xN(t)]T
y(t)=[y1(t),y2(t),…,yL(t)]T
u1(t),u2(t),…,uK(t)分别表示输入层中第1到第K个节点的状态;x1(t),x2(t),…,xN(t)分别表示隐藏层中第1到第N个节点的状态;y1(t),y2(t),…,yL(t)表示输出层中第1到第L个节点的状态;
输入层到储备池的连接为Win,Win为N*K阶,储备池到下一个时刻储备池状态的连接为W,W为N*N阶,储备池到输出层的连接为Wout,Wout为L*(K+N+L)阶,前一时刻的输出层到下一时刻的储备池的连接为Wback,Wback为N*L阶,每一时刻输入u(t),储备池均要更新状态,其状态更新方程为:
x(t+1)=f(Win*u(t+1)+Wbackx(t))
式中,Win和Wback均为在最初建立网络时随机初始化的,并且固定不变,u(t+1)是t+1时刻的输入,x(t+1)是t+1时刻的储备池状态,x(t)是t时刻的储备池状态,在t=0时刻用0初始化,f是内部神经元激活函数,u(t+1)是一个长度为1+K的向量,Win是一个[1+K,N]的矩阵,x(t+1)是一个长度为N的向量,回声状态网络的输出状态方程为:
y(t+1)=fout*(Wout*(u(t+1),x(t+1))
式中,fout是输出层神经元激活函数,根据目标输出y(target)确定Wout,以使得y(t+1)和y(target)的差距尽可能小。
5.根据权利要求4所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,利用回声状态网络搭建的端到端模型中,编码计算公式为:
yt=f(xt,xt-1)
xt为当前时刻的输入,xt-1为上一时刻的隐藏层输出,yt为当前时刻的隐藏层输出,即,依据当前时刻的输入和上一时刻的隐藏层输出计算当前时刻的隐藏层输出,经过编码得到各个时刻的输出,进而计算得到源语句上下文的特征表示;
解码计算公式为:
Figure FDA0002862707380000021
其中x1,…,xL是输入序列,y1,…,yT′是输出序列,V是解码器的初始值,即x1,…,xT,T是输入句子的长度,T′是输出句子的长度。
6.根据权利要求5所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,所述Actor和Critic均采用encoder和decoder的结构,且均由回声状态网络搭建而成,Actor中encoder输入的是X,即输入序列为x1,…,xL,decoder输出生成的序列Y,即输出序列为y1,…,yT,生成的每一词均输入到Critic对输出序列进行评价;Critic中encoder输入的是Y,decoder输入的是自注意力机制生成的语义信息加上Actor端当下生成的词,输出的是对当下生成词的一个评价。即如下公式:
Figure FDA0002862707380000031
Critic针对模型训练目标函数为:
Figure FDA0002862707380000032
其中rt表示t时刻的奖励值,
Figure FDA0002862707380000033
表示输入序列的子序列,奖励值rt会使Critic学习更加容易,
Figure FDA0002862707380000034
指t时刻生成的单词,
Figure FDA0002862707380000035
表示状态1到状态t所生成序列的奖励值。
Figure FDA0002862707380000036
表示状态1到状态t-1所生成序列的奖励值,a表示生成的词,A表示词典,
Figure FDA0002862707380000037
表示当前状态的未来期望回报,
Figure FDA0002862707380000038
表示在生成单词1到t下,期望生成下一个单词a的期望回报。
7.根据权利要求6所述基于Actor-Critic的蒙汉神经机器翻译方法,其特征在于,保持Actor和Critic中的encoder不变,在decoder加入自注意力机制,解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到,不同时刻对应上下文信息不同,其中,对于每个时刻生成的单词,当前输出为正确结果的概率计算如下
p(yi|{y1,…,yi-1},C)=g(yi-1,si,ci)
其中C表示中间语义编码,此时源语句上下文c对于Decoder不同时刻有所区分,表示为ci,ci的计算公式如下所示:
Figure FDA0002862707380000039
Figure FDA0002862707380000041
eij=a(si-1,h)
ci计算公式的含义为对于Encoder编码部分所有时刻隐藏层输出的加权求和,T表示输入句子的长度,aij表示目标在输出第i个单词时输入句子第j个单词的注意力分配系数,s表示生成单词i的中间编码向量,h表示输入句子中第j个单词的语义编码,a(si-1,h)表示综合编码函数,eij表示总向量,decoder解码在不同时刻对应权重不同,ci是源语句上下文,应用于decoder解码隐藏层输出的计算,以辅助隐藏层更好地表达,g(yi-1,si,ci)表示整个句子中间语义表示的变换函数,si表示已经得到的特征向量。
CN202011570924.7A 2020-12-26 2020-12-26 一种基于Actor-Critic的蒙汉神经机器翻译方法 Pending CN112580372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011570924.7A CN112580372A (zh) 2020-12-26 2020-12-26 一种基于Actor-Critic的蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011570924.7A CN112580372A (zh) 2020-12-26 2020-12-26 一种基于Actor-Critic的蒙汉神经机器翻译方法

Publications (1)

Publication Number Publication Date
CN112580372A true CN112580372A (zh) 2021-03-30

Family

ID=75140692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011570924.7A Pending CN112580372A (zh) 2020-12-26 2020-12-26 一种基于Actor-Critic的蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112580372A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109840322A (zh) * 2018-11-08 2019-06-04 中山大学 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110018820A (zh) * 2019-04-08 2019-07-16 浙江大学滨海产业技术研究院 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法
CN110168578A (zh) * 2017-01-30 2019-08-23 谷歌有限责任公司 具有任务特定路径的多任务神经网络
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168578A (zh) * 2017-01-30 2019-08-23 谷歌有限责任公司 具有任务特定路径的多任务神经网络
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109840322A (zh) * 2018-11-08 2019-06-04 中山大学 一种基于强化学习的完形填空型阅读理解分析模型及方法
CN110018820A (zh) * 2019-04-08 2019-07-16 浙江大学滨海产业技术研究院 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法
CN110738062A (zh) * 2019-09-30 2020-01-31 内蒙古工业大学 一种gru神经网络蒙汉机器翻译方法
CN112052692A (zh) * 2020-08-12 2020-12-08 内蒙古工业大学 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANKUSH GARG等: "Echo State Neural Machine Translation", 《HTTPS://ARXIV/ABS/2002.11847》 *
DZMITRY BAHDANAU等: "AN ACTOR-CRITIC ALGORITHM FOR SEQUENCE PREDICTION", 《ICLR 2017》 *
ZWQSIR: "回声状态网络(ESN)原理详解(附源码实现)", 《HTTPS://BLOG.CSDN.NET/ZWQHEHE/ARTICLE/DETAILS/77025035》 *

Similar Documents

Publication Publication Date Title
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN112052692B (zh) 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN110738062A (zh) 一种gru神经网络蒙汉机器翻译方法
CN110688861B (zh) 一种多特征融合的句子级译文质量估计方法
CN110070855B (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN112613326B (zh) 一种融合句法结构的藏汉语言神经机器翻译方法
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN109086269A (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN113468895A (zh) 一种基于解码器输入增强的非自回归神经机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN110717345A (zh) 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN111274826B (zh) 一种基于语义信息融合的低频词翻译方法
Göker et al. Neural text normalization for turkish social media
CN111274827B (zh) 一种基于词袋多目标学习的后缀翻译方法
CN112580372A (zh) 一种基于Actor-Critic的蒙汉神经机器翻译方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Schwenk et al. Continuous space language models for the IWSLT 2006 task

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210330

RJ01 Rejection of invention patent application after publication