CN112052692B - 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 - Google Patents

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 Download PDF

Info

Publication number
CN112052692B
CN112052692B CN202010807248.4A CN202010807248A CN112052692B CN 112052692 B CN112052692 B CN 112052692B CN 202010807248 A CN202010807248 A CN 202010807248A CN 112052692 B CN112052692 B CN 112052692B
Authority
CN
China
Prior art keywords
sentence
model
grammar
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010807248.4A
Other languages
English (en)
Other versions
CN112052692A (zh
Inventor
仁庆道尔吉
郭彦宏
苏依拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202010807248.4A priority Critical patent/CN112052692B/zh
Publication of CN112052692A publication Critical patent/CN112052692A/zh
Application granted granted Critical
Publication of CN112052692B publication Critical patent/CN112052692B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,本发明首先对蒙汉平行语料进行预训练处理,并利用Stanford CoreNLP对汉语语料进行句法结构分析,得到的语法解析块序列也作为神经网络的训练数据;其次,以非自回归Transformer模型作为基本翻译模型,加入卷积神经网络句子主题提取模块和语法解析块序列的预测模块;然后,使用训练数据对模型进行训练;最后,运用深度强化学习对模型的参数进行优化微调。本发明提供的算法,显式的将汉语语法知识融入神经机器翻译的过程中,使翻译的句子有更好的语法结构,使模型具有一定的可解释性,而DRL的优化微调则缓解了NMT普遍存在的词级训练目标函数和句子级评价函数不一致的问题,进一步提高了模型的翻译性能。

Description

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
技术领域
本发明属于人工智能以及自然语言处理技术领域,涉及自然语言蒙语到汉语的端到端的翻译,特别涉及一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法。
背景技术
语言文字是人类最为重要的交际工具,也是保存和传递文明文化和知识的主要方式。国家,地区,民族之间的经济发展和文化知识交流都要依赖语言,而语言不同就会导致交流的障碍,极大地阻碍经济的发展和文化知识的传播,语言翻译能够打破这种壁垒。人工翻译虽然准确度高可靠性强,但是在互联网时代依靠传统人工的翻译已经远远不能满足各语言互相翻译的大量需求,机器翻译能够借助计算机将一种语言自动翻译成另外一种语言,相对于人工翻译来说具有效率高成本低的优势,并且近年来基于神经网络的机器翻译相对于传统机器翻译能够获得很大的翻译效果的提升,神经机器翻译的研究已经越来越具有重要地位。
现如今,蒙汉机器翻译的研究实际上已有较多的成果,但是远不够充分,首先是对于蒙古文形态丰富的特点虽有相对较多的研究成果,但蒙古语语言资源的建设还不够完善,导致蒙汉机器翻译研究的进展十分缓慢;其次是蒙汉双语平行语料稀缺,现有语言学的知识也未能充分利用,也部分影响了蒙汉机器翻译的发展,此外,近年来神经网络发展迅猛,效果更好的新的模型架构和学习范式层出不穷,模型性能不断提高,但蒙汉机器翻译在新的神经网络技术方面的研究却非常有限,值得进一步探索和研究。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,针对语言学知识未能充分利用问题,显式的将汉语句法结构引入模型的训练和推理过程中,从而使翻译结果具有更好的语法结构,使模型具有更好的可解释性,并且能够在加快翻译推理速度的同时保证翻译的质量,此外,将新的学习范式应用于蒙汉神经机器翻译,缓解神经机器翻译中普遍存在的训练函数与评价函数不一致的问题,进一步提高模型的翻译效果,生成更高质量的翻译语句。
为了实现上述目的,本发明采用的技术方案是:
一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。
所述运用BPE和开源预训练模型对语料进行预处理的流程如下:
步骤1:将语料数据集划分为训练集,验证集和测试集三部分;
步骤2:运用BPE算法对蒙汉语料进行BPE切分;
步骤3:运用开源预训练模型得到语料的词向量嵌入,维度为512。
所述步骤1中,训练集,验证集,测试集的语料数据分布应尽量保持一致,采用随机抽取方式确定数据集划分。使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
所述改进Transformer模型加入卷积神经网络CNNs主题提取模块和语法解析块序列的预测模块的流程为:
步骤1:设置卷积神经网络CNNs主题提取模块的网络拓扑结构和超参数;
步骤2:设置语法解析解码器的网络拓扑结构和超参数。
所述步骤1中,CNNs主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层。
输入层:令
Figure BDA0002629586860000031
为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵。其中D为整数数值,
Figure BDA0002629586860000032
为向量空间,
Figure BDA0002629586860000033
是D维向量空间。
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器
Figure BDA0002629586860000034
是应用于矩阵Matr上的扫描窗口,t是滤波器的宽度,扫描矩阵Matr得到特征
Figure BDA0002629586860000035
每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,m为介于1到2M之间的整数数值,表示滤波器的个数,滤波器共有2M个,各不相同,Relu是线性整流函数,其中x是输入数据:
Figure BDA0002629586860000036
Figure BDA0002629586860000037
是第m个偏置项,Matrd:d+t-1为所有词的第d维的值到所有词的第{d+t-1}维的联合矩阵;
每个滤波器被应用到输入矩阵Matr的每一个可能的窗口,以产生一个特征向量
Figure BDA0002629586860000038
用2M个滤波器遍历Matr,生成一个2M×D的特征映射矩阵
Figure BDA0002629586860000039
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,期望最终的隐式主题表示依赖于句子级上下文;
最大池化层:选择
Figure BDA00026295868600000310
中连续两行进行最大池化
Figure BDA00026295868600000311
Figure BDA0002629586860000041
是特征映射矩阵
Figure BDA0002629586860000042
中第2l-1行和第2l行的池化后的输出特征向量,这里l的范围为1到M;
输出特征映射的结果:
Figure BDA0002629586860000043
Figure BDA0002629586860000044
是M个池化后特征组成的M×D的矩阵。
输入句子中的每一个主题特征向量
Figure BDA0002629586860000045
使用D维向量来表示,而不是使用一个数值;
输出层:使用tanh函数来获得
Figure BDA0002629586860000046
的隐式主题表示LTRs,tanh激活函数的公式为:
Figure BDA0002629586860000047
Figure BDA0002629586860000048
Figure BDA0002629586860000049
其中x是输入数据,e是自然常数,
Figure BDA00026295868600000410
是池化特征向量
Figure BDA00026295868600000411
的隐式主题表示LTRs。
Figure BDA00026295868600000412
是M个隐式主题表示LTRs的M×D维组合矩阵。
最终得到的
Figure BDA00026295868600000413
是输入句子的M个隐式主题表示LTRs,之后用于学习NMT的主题上下文向量,NMT即神经机器翻译。
所述步骤2中,语法解析解码器额外加入基于主题的多头注意力,利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说,与Transformer的多头注意力原理相同,基于主题的多头注意力通过使用LTRs映射的key和value矩阵
Figure BDA00026295868600000414
Figure BDA00026295868600000415
以及目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式可以抽象为:
Figure BDA0002629586860000051
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
使用深度强化学习以句子级指标为目标对模型的参数进行优化微调:
非自回归翻译的概率模型可以表示为:其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的词汇个数,θ为神经网络参数,i是句子中的位置i,yi是句子中i位置的预测词,P( )表示概率函数。
Figure BDA0002629586860000052
强化学习范式期望损失的梯度可以表示为:
Figure BDA0002629586860000053
公式中r( )表示奖赏计算函数,其输入为整个句子Y,输出为这个句子的GLEU或BLEU值;
Figure BDA0002629586860000054
表示神经网络参数θ的梯度,Y表示强化学习采样得到的句子。
Figure BDA0002629586860000055
公式中,在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下,对每个位置i词汇的预测概率进行梯度更新,这与自回归模型的方法相似,但是在训练过程中通常是不稳定的。而对于非自回归模型,上述公式可以简化为:
Figure BDA0002629586860000056
其中r(yi)为当词汇yi固定时的期望奖赏:
Figure BDA0002629586860000057
已有研究表明,强化学习的奖赏越稀疏,则优化训练难度越大,相反,则能够更快更好地收敛,因此位于i位置的预测词yi出现的奖赏由其对应的期望奖赏r(yi)表示,比句子奖赏r(Y)更准确。r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布p(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),...,r(YN)的平均值;
得到梯度
Figure BDA0002629586860000061
后,依据以下公式更新神经网络参数θ进行微调得到新的神经网络参数θnew,α为学习率:
Figure BDA0002629586860000062
所述利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务的流程为:
使用测试数据对蒙汉神经机器翻译模型进行性能测试,之后模型可直接用于蒙语到汉语端到端的翻译任务。
与现有技术相比,本发明的有益效果是:
(1)源语言信息提取是否充分对于翻译任务来说至关重要,基本的Transformer架构中编码器的个数为六,采用完全串联的方式链接,使得源语言信息会有一部分的丢失,而且传统的神经机器翻译(NMT)方法在忽略句子级上下文的情况下,利用词级上下文来预测目标端序列的生成。本发明利用卷积神经网络CNNs将句子级上下文表示为隐式主题表示(Latent Topic Representation,LTRs),采用主题注意机制的方式将句子级的主题上下文信息集成到Transformer翻译模型中,使语法解析块序列的预测更准确,进而提升翻译质量。
(2)传统的神经机器翻译对语言学知识的运用不足,而语言学知识蕴含了大量有助于翻译质量提升的语法结构等,本发明采用语法块解析解码器自回归的生成语法解析块序列,将语法解析块序列作为翻译解码器的监督输入,令翻译解码器在生成翻译句子时能以目标语句的全局信息作为条件,并且将语法知识融入NMT模型,提升翻译质量。
(3)缓解NMT模型训练和测试评价函数不一致的问题。当前主流的神经机器翻译模型普遍采用极大似然估计准则(Maximum Likelihood Estimation,MLE)进行模型的训练,损失函数是定义在词级层面。然而主流的评价标准则是采用的句子级或文档级的BLEU(Bilingual evaluation understudy)值,这使得训练和评价产生了不一致性,词级层面的损失函数与最终翻译质量的相关性较弱,影响模型性能。本发明首先使用极大似然估计来训练模型,使得模型学习到大部分经验,之后采用深度强化学习范式以序列级信息为目标,对模型进行优化调整,缓解NMT模型训练和测试评价函数不一致的问题,提升翻译模型的翻译性能。
附图说明
图1是基于语法监督和深度强化学习的蒙汉神经机器翻译流程图。
图2是基本Transformer示意图。
图3是卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs示意图。
图4是融合CNNs主题上下文模块的Transformer示意图。
图5是同一句子中constituency parse解析树的两个不同的k值的处理过程示意图。
图6是改进Transformer后的最终模型结构示意图。
图7是深度强化学习优化微调流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,显式的将汉语语法知识融入了神经机器翻译的过程中,使得翻译的句子具有更好的语法结构,使翻译模型具有一定的可解释性,而深度强化学习的优化微调则缓解了神经机器翻译模型普遍存在的词级训练目标函数和句子级评价函数不一致的问题,进一步提高了模型的翻译性能。
本发明的方法可参考图1,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。
具体地:
1、运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入:
步骤1:将语料数据集划分为训练集,验证集和测试集三部分;
步骤2:运用BPE算法对蒙汉语料进行BPE切分;
步骤3:运用开源预训练模型得到语料的词向量嵌入,维度为512。
语料数据集划分为训练集,验证集,测试集三部分,每部分的语料数据分布应尽量保持一致,采用随机抽取方式确定数据集划分。使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
BPE算法的全称是字节对编码算法(byte pair encoder),原理是,算法首先将语料中的词分成一个一个的字符,然后在词的范围内统计字符对出现的频数,每次将频数最多的字符对保存起来,直到达到循环结束次数。这样执行过后,算法会在编码表中保存出语料词语中出现频数较高的所有介于word和character之间的subword和词根词缀,在解码时,如果出现未登录词,可以尝试从编码表中寻找子词并拆分未登录词为subword组合。因此,BPE算法在西欧语系中要更为有效,因为西欧语系一般都存在大量的词根词缀,而蒙语中也存在词根词缀,所以BPE算法应用于蒙语语料能够大大压缩词汇表的词汇数,同时很大程度缓解了未登录词的问题。
未登录词即未在词汇表中出现的词。
算法首先将语料中蒙语词语切分为单个蒙语字母,将汉语分词后的数据集切分为单个汉字,然后不断循环统计字符对出现的频数,得到BPE编码表,之后生成词汇表。
将语料进行BPE编码后使用开源预训练模型进行无监督训练,学习到富含大量语义信息的512维度的词向量,可用于下游Transformer的翻译任务,不使用随机初始化词向量,使用预训练词向量以获得更优质的翻译效果。
2、改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块:
步骤1:设置卷积神经网络CNNs主题提取模块的网络拓扑结构和超参数;
步骤2:设置语法解析解码器的网络拓扑结构和超参数。
基本的Transformer模型已经在许多任务中取得了非常好的成绩,它使用了编码器-解码器的结构,以注意力机制为主要的特征提取模块,将编码器端信息提取为特征映射,输入解码器进行特征转换,得到任务输出。编码器解码器数目都为6,即N×6。基本Transformer结构如图2所示。
步骤1中,卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs的过程如图3所示,CNNs主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层。
输入层:令
Figure BDA0002629586860000091
为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵。其中D为整数数值,
Figure BDA0002629586860000092
为向量空间,
Figure BDA0002629586860000093
是D维向量空间。
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器
Figure BDA0002629586860000094
是应用于矩阵Matr上的扫描窗口,t是滤波器的宽度,扫描矩阵Matr得到特征
Figure BDA0002629586860000095
每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,Relu是线性整流函数,其中x是输入数据:
Figure BDA0002629586860000101
Figure BDA0002629586860000102
是第m个偏置项,Matrd:d+t-1为所有词的第d维的值到所有词的第{d+t-1}维的联合矩阵;
每个滤波器被应用到输入矩阵Matr的每一个可能的窗口,以产生一个特征向量
Figure BDA0002629586860000103
用2M个滤波器遍历Matr,生成一个2M×D的特征映射矩阵
Figure BDA0002629586860000104
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,期望最终的隐式主题表示依赖于句子级上下文;卷积层的作用是使用多个不同的滤波器(卷积核)对句子表示成的向量矩阵进行特征提取,抽象出句子主题特征。
最大池化层:选择
Figure BDA0002629586860000105
中连续两行进行最大池化
Figure BDA0002629586860000106
Figure BDA0002629586860000107
是特征映射矩阵
Figure BDA0002629586860000108
中第2l-1行和第2l行的池化后的输出特征向量,这里l的范围为1到M。
输出特征映射的结果:
Figure BDA0002629586860000109
Figure BDA00026295868600001010
是M个池化后特征组成的M×D的矩阵。
输入句子中的每一个主题特征向量
Figure BDA00026295868600001011
使用D维向量来表示,而不是使用一个数值,这使得主题特征更加丰富。
输出层:使用tanh函数来获得
Figure BDA00026295868600001012
的隐式主题表示LTRs,tanh激活函数的公式为:
Figure BDA0002629586860000111
Figure BDA0002629586860000112
Figure BDA0002629586860000113
其中x是输入数据,e是自然常数,
Figure BDA0002629586860000114
是池化特征向量
Figure BDA0002629586860000115
的隐式主题表示LTRs。
Figure BDA0002629586860000116
是M个隐式主题表示LTRs的M×D维组合矩阵。
最终得到的
Figure BDA0002629586860000117
是输入句子的M个隐式主题表示LTRs,之后用于学习NMT的主题上下文向量,NMT即神经机器翻译。
步骤2中,如图4所示,语法解析解码器额外加入基于主题的多头注意力,利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说,与Transformer的多头注意力原理相同,基于主题的多头注意力通过使用LTRs映射的key和value矩阵
Figure BDA0002629586860000118
Figure BDA0002629586860000119
还有目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。将
Figure BDA00026295868600001121
映射到一组键值对
Figure BDA00026295868600001110
Figure BDA00026295868600001111
在解码器中,多头自注意将Qi
Figure BDA00026295868600001112
的目标查询转化为h次,h为多头注意的head数,默认为8:
Figure BDA00026295868600001113
Figure BDA00026295868600001114
都为待学习的参数矩阵。
根据下式计算每个head子空间的主题上下文注意:
Figure BDA00026295868600001115
其中dimk
Figure BDA00026295868600001116
Figure BDA00026295868600001117
矩阵的向量维度,除以根号维度值是为了防止点积过大。T上标表示矩阵转置。计算出所有8个
Figure BDA00026295868600001118
后,将head子空间的主题上下文注意连接为一个向量矩阵
Figure BDA00026295868600001119
最终,主题上下文向量
Figure BDA00026295868600001120
和原词上下文向量Oi通过一个线性的、多层函数来预测下一个语法块出现的概率:
Figure BDA0002629586860000121
其中,Lo,Lw
Figure BDA0002629586860000123
是投影矩阵,ci是语法解析解码器i位置的输出,c<i表示i位置之前的所有语法块序列,s是编码器的输出,exp是以e为底的指数函数,∝是正比例符号。
语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式可以抽象为:
Figure BDA0002629586860000122
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
汉语语法解析块序列是通过分块算法选择出符合条件的Stanford CoreNLP解析的constituency parse解析树标识块得到。首先选择一个最大块大小k,然后对训练数据中的每个目标句依次遍历其constituency parse解析树。在每个被访问的节点上,如果该节点张成的叶子数小于或等于k,那么将在解析序列上添加一个描述性块标识符,然后再移动到它的同级节点上;否则,就继续处理左边的子元素并再次执行上述过程。同一句子中constituency parse解析树的两个不同的k值的处理过程示意图如图5所示,图中示意了最大跨度k=2,3的解析块算法的例子。在解析的顺序遍历过程中,如果子树大小小于或等于k,那么就在每个访问的节点上向序列追加一个对应的块标识符。
语法解析解码器的词汇组成是一个个的块标识符(由语法类型和子树大小(例如NP3)组成)。该词汇表的最大大小为|P|×k,其中P是所有语法类型的集合(NN常用名词,PN代词,VV动词,NP名词短语,VP动词短语,PP介词短语,等)。词汇表词汇数非常少,所以解码翻译速度非常快。
改进Transformer后最终的模型结构如图6所示。使用训练数据集对神经机器翻译模型进行训练,将预训练好的词向量输入模型,同时训练语法解析解码器和翻译解码器,语法解析解码器以语法块序列作为监督训练的标签,翻译解码器以对应汉语句子作为监督训练标签,完成对模型的初步训练。
模型翻译解码:
第一阶段解码:集成CNNs句子主题模块的语法解析解码器自回归的预测语法解析块序列,蒙语源句子注意即编码器的输出用s表示,块标识符由c1,...,cn表示,n是语法块序列长度:
Figure BDA0002629586860000131
第二阶段解码:应用单个非自回归步骤,通过将目标序列概率分解为以下形式来生成汉语目标句子,其中T为目标句子长度,n是当前语法块序列长度:
Figure BDA0002629586860000132
3、使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,可以缓解部分过翻漏翻问题,策略梯度算法能够在迭代优化过程中提高神经机器翻译模型输出更优质句子的概率,提高翻译质量,深度强化学习微调的整体流程如图7所示,具体来说:
本发明不同于强化学习应用于自回归NMT,以整个句子输出完成的BLEU值作为奖赏,奖赏值较为稀疏,强化学习收敛较慢且方差较大,本发明将深度强化学习方法应用于非自回归蒙汉神经机器翻译,一个显著的优势是非自回归翻译中每个token之间都是相互独立的,不需要以之前的翻译token作为下一个翻译token的依据,token是指序列中的词,利用这种独立性,可以把期望损失函数表示为:使用抽样得到的reward奖赏作权重,每个token独立生成的概率分布作为策略函数,所有位置损失函数相加取负数。而每个token的reward奖赏是由固定当前token之后的整个句子抽样N次的BLEU或GLEU值计算平均得到。策略梯度算法使用梯度下降来进行,首先计算参数关于期望损失函数的梯度,之后利用梯度更新神经网络参数。
所述非自回归翻译的概率模型可以表示为:其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的长度,θ为神经网络参数,i是句子中的位置i,yi是句子中i位置的预测词,P( )表示概率函数。
Figure BDA0002629586860000141
所述强化学习范式期望损失的梯度可以表示为:
Figure BDA0002629586860000142
公式中r( )表示奖赏计算函数,其输入为整个句子Y,输出为这个句子的GLEU或BLEU值;
Figure BDA0002629586860000143
表示神经网络参数θ的梯度,Y表示强化学习采样得到的句子。
Figure BDA0002629586860000144
公式中,在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下,对每个位置i词汇的预测概率进行梯度更新,这与自回归模型的方法相似,但是在训练过程中通常是不稳定的。而对于非自回归模型,上述公式可以简化为:
Figure BDA0002629586860000145
其中r(yi)为当词汇yi固定时的期望奖赏:
Figure BDA0002629586860000146
已有研究表明,强化学习的奖赏越稀疏,则优化训练难度越大,相反,则能够更快更好地收敛,因此位于i位置的预测词yi出现的奖赏由其对应的期望奖赏r(yi)表示,比句子奖赏r(Y)更准确。r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布p(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),...,r(YN)的平均值;
得到梯度
Figure BDA0002629586860000151
后,依据以下公式更新神经网络参数θ进行微调得到新的神经网络参数θnew,α为学习率:
Figure BDA0002629586860000152
下面结合实施例,对本发明进行进一步说明。
首先对蒙汉平行语料进行数据预处理,使用BPE算法对蒙汉语料进行子词切分,缓解未登录词对翻译模型效果的影响。之后使用开源预训练模型对语料进行预训练,得到学习了大量语义的词向量。另外使用Stanford CoreNLP自然语言处理包结合分块算法得到汉语语料语法解析块序列,语法解析分块算法过程如图5所示。
将词向量输入神经机器翻译模型,神经机器翻译模型以图2所示的Transformer为基本模型,翻译模型的整体架构如图6所示。如图4所示的附加主题注意模块的语法解析解码器以语法解析块序列为目标进行监督学习训练,翻译解码器以对应的翻译句子为目标进行监督学习训练,同时训练更新模型参数。之后在模型监督学习收敛之前停止训练,使用深度强化学习对模型参数进行微调优化,进一步提升模型的翻译效果,使神经机器翻译模型训练得到更优质的翻译句子,深度强化学习微调过程如图7所示。
得到的神经机器翻译模型可以端到端的将蒙语翻译为汉语。

Claims (5)

1.一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型,加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务;
其中,所述改进Transformer模型,加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块的流程为:
步骤1:设置卷积神经网络CNNs句子主题提取模块的网络拓扑结构和超参数:
CNNs句子主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层,其中:
输入层:令
Figure FDA0003173144960000011
为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵,其中D为整数数值,
Figure FDA0003173144960000012
为向量空间,
Figure FDA0003173144960000013
是D维向量空间;
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器
Figure FDA0003173144960000014
是应用于向量矩阵Matr上的扫描窗口,m为整数数值,表示第m个滤波器,1≤m≤2M,滤波器共有2M个,t是滤波器的宽度,扫描向量矩阵Matr得到特征值
Figure FDA0003173144960000015
每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,Relu是线性整流函数,其中x是输入数据:
Figure FDA0003173144960000021
Figure FDA0003173144960000022
是第m个偏置项,Matrd:d+t-1为所有词的第d维的值到所有词的第{d+t-1}维的联合矩阵;
每个滤波器被应用到输入的向量矩阵Matr的每一个窗口,以产生一个特征向量
Figure FDA0003173144960000023
用2M个滤波器遍历向量矩阵Matr,生成一个2M×D的特征映射矩阵
Figure FDA0003173144960000024
Figure FDA0003173144960000025
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,最终的隐式主题表示依赖于句子级上下文;
最大池化层:选择
Figure FDA0003173144960000026
中连续两行进行最大池化
Figure FDA0003173144960000027
Figure FDA0003173144960000028
是特征映射矩阵
Figure FDA0003173144960000029
中第2l-1行和第2l行的池化后输出的主题特征向量,l的范围为1到M;
输出特征映射的结果:
Figure FDA00031731449600000210
Figure FDA00031731449600000211
是M个池化后特征组成的M×D的矩阵;
输入句子中的每一个主题特征向量
Figure FDA00031731449600000212
使用D维向量来表示,而不是使用一个数值;
输出层:使用tanh激活函数来获得
Figure FDA00031731449600000213
的隐式主题表示LTRs,tanh激活函数的公式为:
Figure FDA00031731449600000214
Figure FDA0003173144960000031
Figure FDA0003173144960000032
其中x是输入数据,e是自然常数,
Figure FDA0003173144960000033
是主题特征向量
Figure FDA0003173144960000034
的隐式主题表示LTRs,
Figure FDA0003173144960000035
是M个隐式主题表示LTRs的M×D维组合矩阵;
最终得到的
Figure FDA0003173144960000036
是输入句子的M个隐式主题表示LTRs,之后用于学习NMT的主题上下文向量,NMT即神经机器翻译;
步骤2:设置语法解析块序列的预测模块的网络拓扑结构和超参数:
语法解析块序列的预测模块额外加入基于主题的多头注意力,利用CNNs句子主题提取模块学习输出的LTRs和语法解析块序列的预测模块的输入来学习额外的主题上下文,最终,主题上下文向量和原词上下文向量通过一个线性的、多层函数来预测下一个语法块出现的概率;
所述基于主题的多头注意力通过使用LTRs映射的key和value矩阵
Figure FDA0003173144960000037
Figure FDA0003173144960000038
以及目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出;所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式抽象为:
Figure FDA0003173144960000039
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
2.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述运用BPE和开源预训练模型对语料进行预处理的流程如下:
步骤11:将语料数据集划分为训练集,验证集和测试集三部分;
步骤12:运用BPE算法对训练集,验证集和测试集中的蒙汉语料进行BPE切分;
步骤13:运用开源预训练模型得到BPE切分后语料的词向量嵌入,维度为512。
3.根据权利要求2所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述步骤11中,训练集,验证集,测试集的语料数据分布保持一致,采用随机抽取方式确定数据集划分,使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
4.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,使用深度强化学习以句子级指标为目标对模型的参数进行优化微调的方法如下:
非自回归翻译的概率模型表示为:
Figure FDA0003173144960000041
其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的词汇个数,θ为神经网络参数,yi是句子中i位置的预测词,P( )表示概率函数;
对于非自回归翻译的概率模型,强化学习范式期望损失的梯度表示为:
Figure FDA0003173144960000042
公式中r( )表示奖赏计算函数,输入为整个预测输出的目标语句Y,输出为其GLEU或BLEU值;
Figure FDA0003173144960000043
表示神经网络参数θ的梯度;
Figure FDA0003173144960000044
公式中,在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下,对每个位置i词汇的预测概率进行梯度更新;
其中r(yi)为当词汇yi固定时的期望奖赏:
Figure FDA0003173144960000045
r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布P(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),…,r(YN)的平均值;
得到梯度
Figure FDA0003173144960000051
后,依据以下公式更新神经网络参数θ进行微调得到新的神经网络参数θnew,α为学习率:
Figure FDA0003173144960000052
5.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务的流程为:
使用测试数据对蒙汉神经机器翻译模型进行性能测试,之后模型可直接用于蒙语到汉语端到端的翻译任务。
CN202010807248.4A 2020-08-12 2020-08-12 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 Expired - Fee Related CN112052692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010807248.4A CN112052692B (zh) 2020-08-12 2020-08-12 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010807248.4A CN112052692B (zh) 2020-08-12 2020-08-12 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Publications (2)

Publication Number Publication Date
CN112052692A CN112052692A (zh) 2020-12-08
CN112052692B true CN112052692B (zh) 2021-08-31

Family

ID=73601483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010807248.4A Expired - Fee Related CN112052692B (zh) 2020-08-12 2020-08-12 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN112052692B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
WO2022134021A1 (en) * 2020-12-25 2022-06-30 Microsoft Technology Licensing, Llc. Generation of data models for predicting data
CN112580372A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种基于Actor-Critic的蒙汉神经机器翻译方法
CN112580373B (zh) * 2020-12-26 2023-06-27 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN112765996B (zh) * 2021-01-19 2021-08-31 延边大学 基于强化学习和机器翻译质量评估的中朝机器翻译方法
CN113095092B (zh) * 2021-04-19 2024-05-31 南京大学 通过建模协同关系提高非自回归神经机器翻译质量的方法
CN113112018B (zh) * 2021-04-27 2023-10-31 清华大学深圳国际研究生院 一种批量限制强化学习方法
CN113378584B (zh) * 2021-05-28 2023-09-05 沈阳雅译网络技术有限公司 一种基于辅助表示融合的非自回归神经机器翻译方法
CN113468895B (zh) * 2021-05-28 2023-08-15 沈阳雅译网络技术有限公司 一种基于解码器输入增强的非自回归神经机器翻译方法
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN113657125B (zh) * 2021-07-14 2023-05-26 内蒙古工业大学 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN114091482A (zh) * 2021-10-20 2022-02-25 昆明理工大学 融合成分注意力的非自回归机器翻译方法
CN114386437B (zh) * 2022-01-13 2022-09-27 延边大学 基于跨语言预训练模型的中朝翻译质量估计方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159B (zh) * 2017-03-09 2019-07-12 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN110442878B (zh) * 2019-06-19 2023-07-21 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110377918B (zh) * 2019-07-15 2020-08-28 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法

Also Published As

Publication number Publication date
CN112052692A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052692B (zh) 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法
CN109086267B (zh) 一种基于深度学习的中文分词方法
US20180329884A1 (en) Neural contextual conversation learning
US12045592B2 (en) Semi-supervised translation of source code programs using neural transformers
Zhu et al. Triple-to-text: Converting RDF triples into high-quality natural languages via optimizing an inverse KL divergence
CN112417901A (zh) 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
Mathur et al. A scaled‐down neural conversational model for chatbots
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
CN118069785A (zh) 一种多特征融合冒犯性文本检测方法及装置
CN113255918A (zh) 强化聚合知识指导的生成常识推理方法
Zhang et al. Mind the gap: Machine translation by minimizing the semantic gap in embedding space
Hujon et al. Neural machine translation systems for English to Khasi: A case study of an Austroasiatic language
Nambiar et al. Abstractive summarization of Malayalam document using sequence to sequence model
Chang et al. Improving language translation using the hidden Markov model
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
Lei Intelligent Recognition English Translation Model Based on Embedded Machine Learning and Improved GLR Algorithm
Bezliudnyi et al. Pro-russian propaganda recognition and analytics system based on text classification model and statistical data processing methods
Wen et al. SAKP: A Korean Sentiment Analysis Model via Knowledge Base and Prompt Tuning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210831

CF01 Termination of patent right due to non-payment of annual fee