CN112580372A

CN112580372A - 一种基于Actor-Critic的蒙汉神经机器翻译方法

Info

Publication number: CN112580372A
Application number: CN202011570924.7A
Authority: CN
Inventors: 苏依拉; 卞乐乐; 赵旭; 薛媛; 范婷婷; 仁庆道尔吉
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2021-03-30

Abstract

一种基于Actor‑Critic的蒙汉神经机器翻译方法，对翻译语言即蒙汉双语进行预处理；采用回声状态网络搭建蒙汉双语的端到端模型，并基于Actor‑Critic对语言序列生成奖励值进行模型训练；基于训练后的端到端模型进行蒙汉翻译，得到翻译结果。本发明利用回声状态网络来搭建翻译模型并利用强化学习中的Actor‑Critic算法来训练神经网络并生成序列，使训练过程和预测尽可能的相近，并且可以直接优化与任务相关的指标。

Description

一种基于Actor-Critic的蒙汉神经机器翻译方法

技术领域

本发明属于机器翻译技术领域，涉及蒙汉机器翻译，特别涉及一种基于Actor-Critic的蒙汉神经机器翻译方法。

背景技术

现阶段随着互联网行业的飞速发展，包括信息技术等一系列IT行业的不断崛起，而针对自然语言处理的机器翻译在对整个互联网行业的发展起到一定的促进作用。像谷歌，百度等大型的搜索服务行业面对行业的发展都针对机器翻译领域进行了较大规模的科研。为不断获得较高质量的译文不断研究。

尽管科研机构为了获得更好的翻译效果仍然在不断地努力着，但是机器翻译随着技术领域的发展仍然暴露出来越来越多的问题。例如，机器翻译比较生硬，其中的程序都是设计好，翻译中出现错误的概率非常的高，有时甚至出现各种语法错误。遇到比较长的段落翻译出来就很难理解，不符合正常的逻辑。翻译出的东西可读性比较差。同时也无法体现句子的语法特征，翻译出的稿件比较粗糙，生涩难懂。简单说就是语病百出，生硬难懂，只能进行简单的词语短句的翻译。而歧义词的处理和语法结构的差异而导致的译文质量低是机器翻译尤为突出的问题。现在全球很多著名的大学实验室都针对机器翻译领域存在的上述问题进行了研究，然而在各种翻译任务中，都没有一种兼容性很强的处理方法来解决上述存在的问题。但是目前来看，针对特定的两种语言来进行翻译存在着一种解决编码问题而导致翻译质量低的解决方案。但是针对多语言，歧义处理，非字典的替换等问题上并没有很好的解决方案。所以对翻译质量的有效提高迫在眉睫。

目前，利用神经网络技术将处理过后的双语语料进行压缩编码并导入神经网络节点中，通过神经网络层与层之间和节点与节点之间的参数变换和传递来不断对语义进行学习。虽然能够通过了解句子意思的方式在一定程度上缓解统计翻译方法中出现的很多问题，例如译码不明、错译、未登陆词处理等问题，但是在精准度上面相比人工翻译仍然存在不小的劣势。

由于蒙古语属于小语种，蒙汉平行语料库收集困难，利用现有神经网络方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。在翻译系统中，编码器和解码器的计算复杂度比较高，由于计算量和计算内存的限制，神经机器翻译模型需要事先确定一个规模受到限制的常用词词表，神经机器翻译系统往往将词汇表限制为高频词，并将其他所有低频词视为未登录词。蒙古语属于黏着语，黏着语的一个特点是通过在词根的前、中、后缀接其他构词成分作为派生新词的手段，因此蒙古文构词及其形态变换非常丰富，导致的集外词和未登录现象频发。

发明内容

为了克服上述现有技术的缺点，解决上述现有技术中主要存在的翻译过程中漏译、错译、未登录词处理等问题，本发明的目的在于提供一种基于Actor-Critic的蒙汉神经机器翻译方法，利用回声状态网络来搭建翻译模型并利用强化学习中的Actor-Critic算法来训练神经网络并生成序列，使训练过程和预测尽可能的相近，并且可以直接优化与任务相关的指标。同时，本发明用强化学习的方法直接提升测试指标，使用Critic网络输出每个词的value，网络输出token后，持续地根据概率分布采样输出与具体任务相关的期望分数，也就是状态动作值函数，这些预测的value可以指导序列预测网络的训练。并且通过设定的学习率对语料进行学习可以有效缓解学习语料语义表达过程中存在的局部最优问题和由于快速收敛导致的编码质量低的问题。针对小语料中的数据稀少和字典小的现状，在降低系统复杂度，对用户可视化系统结构的条件下保证用户翻译服务质量，从而完善蒙汉机器翻译系统，达到较好译文翻译的目标。

为了实现上述目的，本发明采用的技术方案是：

一种基于Actor-Critic的蒙汉神经机器翻译方法，包括如下步骤：

步骤1，对翻译语言即蒙汉双语进行预处理；

步骤2，采用回声状态网络搭建蒙汉双语的端到端模型，并基于Actor-Critic对语言序列生成奖励值进行模型训练；

步骤3，基于训练后的端到端模型进行蒙汉翻译，得到翻译结果。

所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。

所述回声状态网络由输入层、隐藏层和输出层组成，其中隐藏层即储备池，为由多个神经元组成的稀疏网络，通过调整网络内部权值的特性实现记忆数据的功能，隐藏层内部的动态储备池包含多个稀疏连接的神经元，蕴含储备池每一时间下的运行状态，并具有长期训练记忆功能。

所述回声状态网络t时刻的输入层具有K个节点，输入为u(t)，隐藏层具有N个节点，其状态为x(t)，输出层状态为y(t)，具有N个节点，各状态表示为：

u(t)＝[u₁(t),u₂(t),…,u_K(t)]^T

x(t)＝[x₁(t),x₂(t),…,x_N(t)]^T

y(t)＝[y₁(t),y₂(t),…,y_L(t)]^T

u₁(t),u₂(t),…,u_K(t)分别表示输入层中第1到第K个节点的状态；x₁(t),x₂(t),…,x_N(t)分别表示隐藏层中第1到第N个节点的状态；y₁(t),y₂(t),…,y_L(t)表示输出层中第1到第L个节点的状态；

输入层到储备池的连接为W_in，W_in为N*K阶，储备池到下一个时刻储备池状态的连接为W，W为N*N阶，储备池到输出层的连接为W_out，W_out为L*(K+N+L)阶，前一时刻的输出层到下一时刻的储备池的连接为W_back，W_back为N*L阶，每一时刻输入u(t)，储备池均要更新状态，其状态更新方程为：

x(t+1)＝f(W_in*u(t+1)+W_backx(t))

式中，W_in和W_back均为在最初建立网络时随机初始化的，并且固定不变，u(t+1)是t+1时刻的输入，x(t+1)是t+1时刻的储备池状态，x(t)是t时刻的储备池状态，在t＝0时刻用0初始化，f是内部神经元激活函数，u(t+1)是一个长度为1+K的向量，W_in是一个[1+K,N]的矩阵，x(t+1)是一个长度为N的向量，回声状态网络的输出状态方程为：

y(t+1)＝f_out*(W_out*(u(t+1),x(t+1))

式中，f_out是输出层神经元激活函数，根据目标输出y(target)确定W_out，以使得y(t+1)和y(target)的差距尽可能小。

利用回声状态网络搭建的端到端模型中，编码计算公式为：

y_t＝f(x_t,x_t-1)

x_t为当前时刻的输入，x_t-1为上一时刻的隐藏层输出，y_t为当前时刻的隐藏层输出，即，依据当前时刻的输入和上一时刻的隐藏层输出计算当前时刻的隐藏层输出，经过编码得到各个时刻的输出，进而计算得到源语句上下文的特征表示；

解码计算公式为：

其中x₁，…，x_L是输入序列，y₁，…，y_T′是输出序列，V是解码器的初始值，即x₁，…，x_T，T是输入句子的长度，T′是输出句子的长度。

所述Actor和Critic均采用encoder和decoder的结构，且均由回声状态网络搭建而成，Actor中encoder输入的是X，即输入序列为x₁,…,x_L，decoder输出生成的序列Y，即输出序列为y₁,…,y_T，生成的每一词均输入到Critic对输出序列进行评价；Critic中encoder输入的是Y，decoder输入的是自注意力机制生成的语义信息加上Actor端当下生成的词，输出的是对当下生成词的一个评价。即如下公式：

Critic针对模型训练目标函数为：

其中r_t表示t时刻的奖励值，

表示输入序列的子序列，奖励值r_t会使Critic学习更加容易，

指t时刻生成的单词，

表示状态1到状态t所生成序列的奖励值。

表示状态1到状态t-1所生成序列的奖励值，a表示生成的词，A表示词典，

表示当前状态的未来期望回报，

表示在生成单词1到t下，期望生成下一个单词a的期望回报。

保持Actor和Critic中的encoder不变，在decoder加入自注意力机制，解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到，不同时刻对应上下文信息不同，其中，对于每个时刻生成的单词，当前输出为正确结果的概率计算如下

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

其中C表示中间语义编码，此时源语句上下文c对于Decoder不同时刻有所区分，表示为c_i，c_i的计算公式如下所示：

e_ij＝a(s_i-1,h)

c_i计算公式的含义为对于Encoder编码部分所有时刻隐藏层输出的加权求和，T表示输入句子的长度，a_ij表示目标在输出第i个单词时输入句子第j个单词的注意力分配系数，s表示生成单词i的中间编码向量，h表示输入句子中第j个单词的语义编码，a(s_i-1,h)表示综合编码函数，e_ij表示总向量，decoder解码在不同时刻对应权重不同，c_i是源语句上下文，应用于decoder解码隐藏层输出的计算，以辅助隐藏层更好地表达，g(y_i-1,s_i,c_i)表示整个句子中间语义表示的变换函数，s_i表示已经得到的特征向量。

与现有技术相比，本发明在回声状态网络与加入自注意力机制而搭建成的编码器解码器模型，同时采用Actor-Critic生成序列的方法组成的系统架构结合蒙古语和汉语的特点，进一步使蒙汉机器翻译系统的表达能力更加流畅，更加接近人类的表达，减少了翻译过程中语义丢失和翻译混乱的程度。其中回声状态网络利用其简单的线性回归就可完成数据学习，并且其记忆功能使翻译过程中能较长距离的保持语义，其中又加入了自注意力机制，这更是使翻译的准确性得到了提升。另一方面利用Actor-Critic从强化学习角度进行序列生成的训练，进一步提高了翻译模型的质量，回声状态网络和Actor-Critic相结合从而使这个神经网络蒙汉机器翻译系统的性能进一步得到提升

附图说明

图1是本发明回声状态网络结构图。

图2是本发明Actor-Critic训练原理图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，

本发明一种基于Actor-Critic的蒙汉神经机器翻译方法，包括如下步骤：

步骤1，利用NLPIR分词技术，对翻译语言即蒙汉双语进行分词预处理。

NLPIR分词技术效果优、应用广，其实现原理为基于词频统计的分词方法，通过层叠形马尔可夫模型分层实现中文分词，包括断句、原子切分、初步切分、N最短路径切分和最优切分结果生成五个步骤：

(1)断句

断句，是指依据标点符号、分隔符号等标准语句分隔标志，将源语句分隔成为多个短句。经过断句后得到的短句便于进行分词处理，最后将各短句分词结果连接，构成整句的分词结果。

(2)原子切分

原子，是指短句中的最小语素单位，其不可再被分割。包括汉字、标点、连在一起的数字字母等。原子切分将短句分成一个个独立的最小语素单位，为其后的初步切分做准备。

(3)初步切分

初步切分，是指寻找连续的原子之间所有可能的组合方式。初步切分包含两层循环，第一层循环遍历短句的所有原子，第二层循环不断将当前原子与其后相邻原子组合后访问词典库，查看当前组合是否是一个有意义的词组，若命中词典库则记录当前词组，否则跳出内层循环，继续外层循环。经过初步切分，得到全部可能存在的原子组合。

(4)M最短路径切分

M最短路径切分，其基本思想是保留切分概率最大的M个结果，作为分词结果的候选集合，用于最优切分结果的生成。M最短路径切分依据初步切分结果，构建针对当前语句的有向无环图，图的节点表示字或词，图的边表示相邻的字或词之间的连接，边权重表示对应字或词在当前字或词的情况下出现的概率，M最短路径切分即保留概率乘积最大的M个切分，作为候选集合。经过M最短路径切分，得到M个候选切分结果。

(5)最优切分结果

经过M最短路径切分后，得到M条最短切分路径。其后经过人名、地名等未登陆词(未登陆词，是指尚未被收录在分词词表中，但是当前语境下需要被单独切分出来的词，一般包括人名、地名、专有名词等)的识别之后，评分得到最优路径，即最终切分结果。

步骤2，采用回声状态网络搭建蒙汉双语的端到端模型，并基于Actor-Critic对语言序列生成奖励值进行模型训练。

该步骤是本发明的核心步骤，包括如下三个部分：

(1)、端到端模型构建。

端到端模型是由回声状态网络构建而成的神经机器翻译模型，回声状态网络作为一种新型的递归神经网络，其结构如图1所示，由输入层、隐藏层(即储备池)和输出层组成，其中隐藏层为由多个神经元组成的稀疏网络，通过调整网络内部权值的特性实现记忆数据的功能，隐藏层内部的动态储备池包含了大量稀疏连接的神经元，蕴含储备池每一时间下的运行状态，并具有长期训练记忆功能，回声状态网络利用简单的线性回归就可以完成网络的训练，降低了训练的复杂度。

回声状态网络t时刻的输入层具有K个节点，输入为u(t)，隐藏层具有N个节点，其状态为x(t)，输出层状态为y(t)，具有N个节点，各状态表示为：

u(t)＝[u₁(t),u₂(t),…,u_K(t)]^T

x(t)＝[x₁(t),x₂(t),…,x_N(t)]^T

y(t)＝[y₁(t),y₂(t),…,y_L(t)]^T

u₁(t),u₂(t),…,u_K(t)分别表示输入层中第1到第K个节点的状态；x₁(t),x₂(t),…,x_N(t)分别表示隐藏层中第1到第N个节点的状态；y₁(t),y₂(t),…,y_L(t)表示输出层中第1到第L个节点的状态。

图1中的储备池就是常规神经网络的隐藏层，输入层到储备池的连接为W_in，W_in为N*K阶，储备池到下一个时刻储备池状态的连接为W，W为N*N阶，储备池到输出层的连接为W_out，W_out为L*(K+N+L)阶，前一时刻的输出层到下一时刻的储备池的连接为W_back，W_back为N*L阶，每一时刻输入u(t)，储备池均要更新状态，其状态更新方程为：

x(t+1)＝f(W_in*u(t+1)+W_backx(t))

式中，W_in和W_back均为在最初建立网络时随机初始化的，并且固定不变，u(t+1)是t+1时刻的输入，x(t+1)是t+1时刻的储备池状态，x(t)是t时刻的储备池状态，在t＝0时刻用0初始化，f是内部神经元激活函数，通常使用双曲正切函数(tanh)，在建模的时候会在连接矩阵上加上一个偏置量，所以u(t+1)是一个长度为1+K的向量，W_in是一个[1+K,N]的矩阵，x(t+1)是一个长度为N的向量，回声状态网络的输出状态方程为：

y(t+1)＝f_out*(W_out*(u(t+1),x(t+1))

式中，f_out是输出层神经元激活函数，到这里有了储备池状态，有了回声状态网络的输出方式，就可以根据目标输出y(target)确定W_out，以使得y(t+1)和y(target)的差距尽可能小。回声状态网络以以上过程进行网络模型的学习。

本发明利用回声状态网络搭建的端到端模型中，编码计算公式为：

y_t＝f(x_t,x_t-1)

解码计算公式为：

(2)、模型训练。

本发明采用Actor和Critic进行模型训练，参考图2，从神经网络结构角度看，Actor和Critic均采用encoder和decoder的结构，且均由回声状态网络搭建而成，Actor中encoder输入的是X，即输入序列为x₁,…,x_L，表示的是源端语言序列，decoder输出生成的序列Y，即输出序列为y₁,…,y_T，表示的是生成序列。生成的每一词均输入到Critic对输出序列进行评价；Critic中encoder输入的是Y(Actor端翻译后的序列)，decoder输入的是attention自注意力机制生成的语义信息加上Actor端当下生成的词，输出的是对当下生成词的一个评价。即如下公式：

Critic针对模型训练目标函数为：

其中r_t表示t时刻的奖励值，

表示输入序列的子序列，奖励值r_t会使Critic学习更加容易，

指t时刻生成的单词，

表示状态1到状态t所生成序列的奖励值。

表示当前状态的未来期望回报，

表示在生成单词1到t下，期望生成下一个单词a的期望回报。

在Actor-Critic训练过程中，保持Actor和Critic中的encoder不变，在decoder加入自注意力机制，解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到，不同时刻对应上下文信息不同，其中，对于每个时刻生成的单词，当前输出为正确结果的概率计算如下：

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

e_ij＝a(s_i-1,h)

(3)、翻译效果评判。

本发明用BLEU算法评分进行翻译效果评判。

机器翻译自动评价标准是进行机器翻译模型判别训练的必要条件之一，也是快速衡量机器翻译系统好坏程度的重要指标。近几年机器翻译技术飞速发展，多种翻译技术自动评价标准被提出，而目前得到广泛应用和认可的评价标准是采用BLEU算法进行评分判别。BLEU算法是现阶段对机器翻译技术进行评估的一个基准，算法的基本思想是，对比待评测译文和提供的参考译文，如若待评测译文和提供的参考译文中共现的N-gram(统计语言模型的一种，包括一元模型、二元模型、三元模型和四元模型等)越多，则说明待评测译文与提供的参考译文越相似，进而表明机器翻译的翻译结果质量越高。BLEU算法的计算如下所示，其中BP为分段函数

其中c表示待评测译文的长度，r表示参考译文的长度，分段函数BP

即为一个长度惩罚因子，与c和r的大小关系相关。N表示N-gram模型个数(一个模型对应一种N-gram)，n，w表示对应的N-gram模型的权重，通常取1/N，多数情况指定N为4，公式中的np表示其所对应模型的匹配准确率(即共现的N-gram占比)。由于若存在任一n元模型没有匹配，这种情况下BLEU值为0，无意义。因此BLEU算法不适用于衡量单个语句的翻译，而是适用于对较多语句进行翻译评价。

综上，本发明采用回声状态网络搭建Encoder-Decoder模型，并采用actor-critic进行模型的训练，训练过程中加入了强化学习机制，端到端模型中，Encoder-Decoder模型翻译框架作为感知体，BLUE算法评分作为Environment，当源语句X(x₁,x₂……,x_L)输入到编码器中映射为编码向量Z(z₁,z₂……z_n-1,z_n)，翻译框架经过双向解码将源语句翻译成Y(y₁,y₂……y_n-1,y_n)，该过程中使用即时评价原则强化学习，每翻译一个句子，即与BLUE算法进行交互，得到翻译后的句子y_t的翻译质量，据此根据奖励机制算法得出翻译句子的奖励值R(y_t,s_t)，R(y_t,s_t)即翻译句子的质量评价也就是当前BLUE分值，由Agent和Environment进行不断的互动来得到数据R(y_t,s_t)，R(y_t,s_t)值最大表示当前翻译效果最接近真实语句。

本发明具体算法如下：

1：loop

2：选取蒙汉双语语料，利用NLPIR分词技术对蒙文分词；

3：将蒙古语汉语语料向量化；

4：根据Encoder-Decoder模型对蒙古进行模型化操作；

5：采用输出函数进行输出特征的操作；

6：end loop。

Claims

1.一种基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，包括如下步骤：

步骤1，对翻译语言即蒙汉双语进行预处理；

2.根据权利要求1所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，所述对翻译语言进行预处理是利用NLPIR分词技术对翻译语言进行分词。

3.根据权利要求1所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，所述回声状态网络由输入层、隐藏层和输出层组成，其中隐藏层即储备池，为由多个神经元组成的稀疏网络，通过调整网络内部权值的特性实现记忆数据的功能，隐藏层内部的动态储备池包含多个稀疏连接的神经元，蕴含储备池每一时间下的运行状态，并具有长期训练记忆功能。

4.根据权利要求3所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，所述回声状态网络t时刻的输入层具有K个节点，输入为u(t)，隐藏层具有N个节点，其状态为x(t)，输出层状态为y(t)，具有N个节点，各状态表示为：

u(t)＝[u₁(t),u₂(t),…,u_K(t)]^T

x(t)＝[x₁(t),x₂(t),…,x_N(t)]^T

y(t)＝[y₁(t),y₂(t),…,y_L(t)]^T

x(t+1)＝f(W_in*u(t+1)+W_backx(t))

y(t+1)＝f_out*(W_out*(u(t+1),x(t+1))

5.根据权利要求4所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，利用回声状态网络搭建的端到端模型中，编码计算公式为：

y_t＝f(x_t,x_t-1)

解码计算公式为：

6.根据权利要求5所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，所述Actor和Critic均采用encoder和decoder的结构，且均由回声状态网络搭建而成，Actor中encoder输入的是X，即输入序列为x₁,…,x_L，decoder输出生成的序列Y，即输出序列为y₁,…,y_T，生成的每一词均输入到Critic对输出序列进行评价；Critic中encoder输入的是Y，decoder输入的是自注意力机制生成的语义信息加上Actor端当下生成的词，输出的是对当下生成词的一个评价。即如下公式：

Critic针对模型训练目标函数为：

其中r_t表示t时刻的奖励值，

表示输入序列的子序列，奖励值r_t会使Critic学习更加容易，

指t时刻生成的单词，

表示状态1到状态t所生成序列的奖励值。

表示当前状态的未来期望回报，

表示在生成单词1到t下，期望生成下一个单词a的期望回报。

7.根据权利要求6所述基于Actor-Critic的蒙汉神经机器翻译方法，其特征在于，保持Actor和Critic中的encoder不变，在decoder加入自注意力机制，解码计算时依赖的上下文信息依据decoder上一时刻和全部时刻的encoder隐层计算得到，不同时刻对应上下文信息不同，其中，对于每个时刻生成的单词，当前输出为正确结果的概率计算如下

p(y_i|{y₁，…，y_i-1},C)＝g(y_i-1,s_i,c_i)

e_ij＝a(s_i-1,h)