CN112052692B - 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 - Google Patents
一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 Download PDFInfo
- Publication number
- CN112052692B CN112052692B CN202010807248.4A CN202010807248A CN112052692B CN 112052692 B CN112052692 B CN 112052692B CN 202010807248 A CN202010807248 A CN 202010807248A CN 112052692 B CN112052692 B CN 112052692B
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- grammar
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013519 translation Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001537 neural effect Effects 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 66
- 239000011159 matrix material Substances 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000000903 blocking effect Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000012614 Monte-Carlo sampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000011056 performance test Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 8
- 238000011156 evaluation Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,本发明首先对蒙汉平行语料进行预训练处理,并利用Stanford CoreNLP对汉语语料进行句法结构分析,得到的语法解析块序列也作为神经网络的训练数据;其次,以非自回归Transformer模型作为基本翻译模型,加入卷积神经网络句子主题提取模块和语法解析块序列的预测模块;然后,使用训练数据对模型进行训练;最后,运用深度强化学习对模型的参数进行优化微调。本发明提供的算法,显式的将汉语语法知识融入神经机器翻译的过程中,使翻译的句子有更好的语法结构,使模型具有一定的可解释性,而DRL的优化微调则缓解了NMT普遍存在的词级训练目标函数和句子级评价函数不一致的问题,进一步提高了模型的翻译性能。
Description
技术领域
本发明属于人工智能以及自然语言处理技术领域,涉及自然语言蒙语到汉语的端到端的翻译,特别涉及一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法。
背景技术
语言文字是人类最为重要的交际工具,也是保存和传递文明文化和知识的主要方式。国家,地区,民族之间的经济发展和文化知识交流都要依赖语言,而语言不同就会导致交流的障碍,极大地阻碍经济的发展和文化知识的传播,语言翻译能够打破这种壁垒。人工翻译虽然准确度高可靠性强,但是在互联网时代依靠传统人工的翻译已经远远不能满足各语言互相翻译的大量需求,机器翻译能够借助计算机将一种语言自动翻译成另外一种语言,相对于人工翻译来说具有效率高成本低的优势,并且近年来基于神经网络的机器翻译相对于传统机器翻译能够获得很大的翻译效果的提升,神经机器翻译的研究已经越来越具有重要地位。
现如今,蒙汉机器翻译的研究实际上已有较多的成果,但是远不够充分,首先是对于蒙古文形态丰富的特点虽有相对较多的研究成果,但蒙古语语言资源的建设还不够完善,导致蒙汉机器翻译研究的进展十分缓慢;其次是蒙汉双语平行语料稀缺,现有语言学的知识也未能充分利用,也部分影响了蒙汉机器翻译的发展,此外,近年来神经网络发展迅猛,效果更好的新的模型架构和学习范式层出不穷,模型性能不断提高,但蒙汉机器翻译在新的神经网络技术方面的研究却非常有限,值得进一步探索和研究。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,针对语言学知识未能充分利用问题,显式的将汉语句法结构引入模型的训练和推理过程中,从而使翻译结果具有更好的语法结构,使模型具有更好的可解释性,并且能够在加快翻译推理速度的同时保证翻译的质量,此外,将新的学习范式应用于蒙汉神经机器翻译,缓解神经机器翻译中普遍存在的训练函数与评价函数不一致的问题,进一步提高模型的翻译效果,生成更高质量的翻译语句。
为了实现上述目的,本发明采用的技术方案是:
一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。
所述运用BPE和开源预训练模型对语料进行预处理的流程如下:
步骤1:将语料数据集划分为训练集,验证集和测试集三部分;
步骤2:运用BPE算法对蒙汉语料进行BPE切分;
步骤3:运用开源预训练模型得到语料的词向量嵌入,维度为512。
所述步骤1中,训练集,验证集,测试集的语料数据分布应尽量保持一致,采用随机抽取方式确定数据集划分。使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
所述改进Transformer模型加入卷积神经网络CNNs主题提取模块和语法解析块序列的预测模块的流程为:
步骤1:设置卷积神经网络CNNs主题提取模块的网络拓扑结构和超参数;
步骤2:设置语法解析解码器的网络拓扑结构和超参数。
所述步骤1中,CNNs主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层。
输入层:令为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵。其中D为整数数值,为向量空间,是D维向量空间。
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器是应用于矩阵Matr上的扫描窗口,t是滤波器的宽度,扫描矩阵Matr得到特征每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,m为介于1到2M之间的整数数值,表示滤波器的个数,滤波器共有2M个,各不相同,Relu是线性整流函数,其中x是输入数据:
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,期望最终的隐式主题表示依赖于句子级上下文;
输出特征映射的结果:
所述步骤2中,语法解析解码器额外加入基于主题的多头注意力,利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说,与Transformer的多头注意力原理相同,基于主题的多头注意力通过使用LTRs映射的key和value矩阵和以及目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式可以抽象为:
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
使用深度强化学习以句子级指标为目标对模型的参数进行优化微调:
非自回归翻译的概率模型可以表示为:其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的词汇个数,θ为神经网络参数,i是句子中的位置i,yi是句子中i位置的预测词,P( )表示概率函数。
强化学习范式期望损失的梯度可以表示为:
公式中,在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下,对每个位置i词汇的预测概率进行梯度更新,这与自回归模型的方法相似,但是在训练过程中通常是不稳定的。而对于非自回归模型,上述公式可以简化为:
其中r(yi)为当词汇yi固定时的期望奖赏:
已有研究表明,强化学习的奖赏越稀疏,则优化训练难度越大,相反,则能够更快更好地收敛,因此位于i位置的预测词yi出现的奖赏由其对应的期望奖赏r(yi)表示,比句子奖赏r(Y)更准确。r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布p(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),...,r(YN)的平均值;
所述利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务的流程为:
使用测试数据对蒙汉神经机器翻译模型进行性能测试,之后模型可直接用于蒙语到汉语端到端的翻译任务。
与现有技术相比,本发明的有益效果是:
(1)源语言信息提取是否充分对于翻译任务来说至关重要,基本的Transformer架构中编码器的个数为六,采用完全串联的方式链接,使得源语言信息会有一部分的丢失,而且传统的神经机器翻译(NMT)方法在忽略句子级上下文的情况下,利用词级上下文来预测目标端序列的生成。本发明利用卷积神经网络CNNs将句子级上下文表示为隐式主题表示(Latent Topic Representation,LTRs),采用主题注意机制的方式将句子级的主题上下文信息集成到Transformer翻译模型中,使语法解析块序列的预测更准确,进而提升翻译质量。
(2)传统的神经机器翻译对语言学知识的运用不足,而语言学知识蕴含了大量有助于翻译质量提升的语法结构等,本发明采用语法块解析解码器自回归的生成语法解析块序列,将语法解析块序列作为翻译解码器的监督输入,令翻译解码器在生成翻译句子时能以目标语句的全局信息作为条件,并且将语法知识融入NMT模型,提升翻译质量。
(3)缓解NMT模型训练和测试评价函数不一致的问题。当前主流的神经机器翻译模型普遍采用极大似然估计准则(Maximum Likelihood Estimation,MLE)进行模型的训练,损失函数是定义在词级层面。然而主流的评价标准则是采用的句子级或文档级的BLEU(Bilingual evaluation understudy)值,这使得训练和评价产生了不一致性,词级层面的损失函数与最终翻译质量的相关性较弱,影响模型性能。本发明首先使用极大似然估计来训练模型,使得模型学习到大部分经验,之后采用深度强化学习范式以序列级信息为目标,对模型进行优化调整,缓解NMT模型训练和测试评价函数不一致的问题,提升翻译模型的翻译性能。
附图说明
图1是基于语法监督和深度强化学习的蒙汉神经机器翻译流程图。
图2是基本Transformer示意图。
图3是卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs示意图。
图4是融合CNNs主题上下文模块的Transformer示意图。
图5是同一句子中constituency parse解析树的两个不同的k值的处理过程示意图。
图6是改进Transformer后的最终模型结构示意图。
图7是深度强化学习优化微调流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,显式的将汉语语法知识融入了神经机器翻译的过程中,使得翻译的句子具有更好的语法结构,使翻译模型具有一定的可解释性,而深度强化学习的优化微调则缓解了神经机器翻译模型普遍存在的词级训练目标函数和句子级评价函数不一致的问题,进一步提高了模型的翻译性能。
本发明的方法可参考图1,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。
具体地:
1、运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入:
步骤1:将语料数据集划分为训练集,验证集和测试集三部分;
步骤2:运用BPE算法对蒙汉语料进行BPE切分;
步骤3:运用开源预训练模型得到语料的词向量嵌入,维度为512。
语料数据集划分为训练集,验证集,测试集三部分,每部分的语料数据分布应尽量保持一致,采用随机抽取方式确定数据集划分。使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
BPE算法的全称是字节对编码算法(byte pair encoder),原理是,算法首先将语料中的词分成一个一个的字符,然后在词的范围内统计字符对出现的频数,每次将频数最多的字符对保存起来,直到达到循环结束次数。这样执行过后,算法会在编码表中保存出语料词语中出现频数较高的所有介于word和character之间的subword和词根词缀,在解码时,如果出现未登录词,可以尝试从编码表中寻找子词并拆分未登录词为subword组合。因此,BPE算法在西欧语系中要更为有效,因为西欧语系一般都存在大量的词根词缀,而蒙语中也存在词根词缀,所以BPE算法应用于蒙语语料能够大大压缩词汇表的词汇数,同时很大程度缓解了未登录词的问题。
未登录词即未在词汇表中出现的词。
算法首先将语料中蒙语词语切分为单个蒙语字母,将汉语分词后的数据集切分为单个汉字,然后不断循环统计字符对出现的频数,得到BPE编码表,之后生成词汇表。
将语料进行BPE编码后使用开源预训练模型进行无监督训练,学习到富含大量语义信息的512维度的词向量,可用于下游Transformer的翻译任务,不使用随机初始化词向量,使用预训练词向量以获得更优质的翻译效果。
2、改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块:
步骤1:设置卷积神经网络CNNs主题提取模块的网络拓扑结构和超参数;
步骤2:设置语法解析解码器的网络拓扑结构和超参数。
基本的Transformer模型已经在许多任务中取得了非常好的成绩,它使用了编码器-解码器的结构,以注意力机制为主要的特征提取模块,将编码器端信息提取为特征映射,输入解码器进行特征转换,得到任务输出。编码器解码器数目都为6,即N×6。基本Transformer结构如图2所示。
步骤1中,卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs的过程如图3所示,CNNs主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层。
输入层:令为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵。其中D为整数数值,为向量空间,是D维向量空间。
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器是应用于矩阵Matr上的扫描窗口,t是滤波器的宽度,扫描矩阵Matr得到特征每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,Relu是线性整流函数,其中x是输入数据:
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,期望最终的隐式主题表示依赖于句子级上下文;卷积层的作用是使用多个不同的滤波器(卷积核)对句子表示成的向量矩阵进行特征提取,抽象出句子主题特征。
输出特征映射的结果:
步骤2中,如图4所示,语法解析解码器额外加入基于主题的多头注意力,利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说,与Transformer的多头注意力原理相同,基于主题的多头注意力通过使用LTRs映射的key和value矩阵和还有目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。将映射到一组键值对 在解码器中,多头自注意将Qi、的目标查询转化为h次,h为多头注意的head数,默认为8:
根据下式计算每个head子空间的主题上下文注意:
语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式可以抽象为:
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
汉语语法解析块序列是通过分块算法选择出符合条件的Stanford CoreNLP解析的constituency parse解析树标识块得到。首先选择一个最大块大小k,然后对训练数据中的每个目标句依次遍历其constituency parse解析树。在每个被访问的节点上,如果该节点张成的叶子数小于或等于k,那么将在解析序列上添加一个描述性块标识符,然后再移动到它的同级节点上;否则,就继续处理左边的子元素并再次执行上述过程。同一句子中constituency parse解析树的两个不同的k值的处理过程示意图如图5所示,图中示意了最大跨度k=2,3的解析块算法的例子。在解析的顺序遍历过程中,如果子树大小小于或等于k,那么就在每个访问的节点上向序列追加一个对应的块标识符。
语法解析解码器的词汇组成是一个个的块标识符(由语法类型和子树大小(例如NP3)组成)。该词汇表的最大大小为|P|×k,其中P是所有语法类型的集合(NN常用名词,PN代词,VV动词,NP名词短语,VP动词短语,PP介词短语,等)。词汇表词汇数非常少,所以解码翻译速度非常快。
改进Transformer后最终的模型结构如图6所示。使用训练数据集对神经机器翻译模型进行训练,将预训练好的词向量输入模型,同时训练语法解析解码器和翻译解码器,语法解析解码器以语法块序列作为监督训练的标签,翻译解码器以对应汉语句子作为监督训练标签,完成对模型的初步训练。
模型翻译解码:
第一阶段解码:集成CNNs句子主题模块的语法解析解码器自回归的预测语法解析块序列,蒙语源句子注意即编码器的输出用s表示,块标识符由c1,...,cn表示,n是语法块序列长度:
第二阶段解码:应用单个非自回归步骤,通过将目标序列概率分解为以下形式来生成汉语目标句子,其中T为目标句子长度,n是当前语法块序列长度:
3、使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,可以缓解部分过翻漏翻问题,策略梯度算法能够在迭代优化过程中提高神经机器翻译模型输出更优质句子的概率,提高翻译质量,深度强化学习微调的整体流程如图7所示,具体来说:
本发明不同于强化学习应用于自回归NMT,以整个句子输出完成的BLEU值作为奖赏,奖赏值较为稀疏,强化学习收敛较慢且方差较大,本发明将深度强化学习方法应用于非自回归蒙汉神经机器翻译,一个显著的优势是非自回归翻译中每个token之间都是相互独立的,不需要以之前的翻译token作为下一个翻译token的依据,token是指序列中的词,利用这种独立性,可以把期望损失函数表示为:使用抽样得到的reward奖赏作权重,每个token独立生成的概率分布作为策略函数,所有位置损失函数相加取负数。而每个token的reward奖赏是由固定当前token之后的整个句子抽样N次的BLEU或GLEU值计算平均得到。策略梯度算法使用梯度下降来进行,首先计算参数关于期望损失函数的梯度,之后利用梯度更新神经网络参数。
所述非自回归翻译的概率模型可以表示为:其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的长度,θ为神经网络参数,i是句子中的位置i,yi是句子中i位置的预测词,P( )表示概率函数。
所述强化学习范式期望损失的梯度可以表示为:
公式中,在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下,对每个位置i词汇的预测概率进行梯度更新,这与自回归模型的方法相似,但是在训练过程中通常是不稳定的。而对于非自回归模型,上述公式可以简化为:
其中r(yi)为当词汇yi固定时的期望奖赏:
已有研究表明,强化学习的奖赏越稀疏,则优化训练难度越大,相反,则能够更快更好地收敛,因此位于i位置的预测词yi出现的奖赏由其对应的期望奖赏r(yi)表示,比句子奖赏r(Y)更准确。r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布p(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),...,r(YN)的平均值;
下面结合实施例,对本发明进行进一步说明。
首先对蒙汉平行语料进行数据预处理,使用BPE算法对蒙汉语料进行子词切分,缓解未登录词对翻译模型效果的影响。之后使用开源预训练模型对语料进行预训练,得到学习了大量语义的词向量。另外使用Stanford CoreNLP自然语言处理包结合分块算法得到汉语语料语法解析块序列,语法解析分块算法过程如图5所示。
将词向量输入神经机器翻译模型,神经机器翻译模型以图2所示的Transformer为基本模型,翻译模型的整体架构如图6所示。如图4所示的附加主题注意模块的语法解析解码器以语法解析块序列为目标进行监督学习训练,翻译解码器以对应的翻译句子为目标进行监督学习训练,同时训练更新模型参数。之后在模型监督学习收敛之前停止训练,使用深度强化学习对模型参数进行微调优化,进一步提升模型的翻译效果,使神经机器翻译模型训练得到更优质的翻译句子,深度强化学习微调过程如图7所示。
得到的神经机器翻译模型可以端到端的将蒙语翻译为汉语。
Claims (5)
1.一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,首先,运用BPE和开源预训练模型对语料进行预处理,得到词向量嵌入,其次,改进Transformer模型,加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块,使得推理阶段的翻译解码过程具有语法结构作为监督参考,然后,使用训练数据集对神经机器翻译模型进行训练,之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调,进一步提高模型翻译性能,最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务;
其中,所述改进Transformer模型,加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块的流程为:
步骤1:设置卷积神经网络CNNs句子主题提取模块的网络拓扑结构和超参数:
CNNs句子主题提取模块有输入层,卷积层,最大池化层,输出层四个神经网络层,其中:
输入层:令为句子中第j个词对应的D维词向量,一个长度为J的句子被表示为一个D×J向量矩阵Matr,设置一个最大句子长度,短于该长度的句子在结尾以零填充,使每一个句子都能表示为一个矩阵,其中D为整数数值,为向量空间,是D维向量空间;
卷积层:由2M个滤波器组成,M是每个句子提取的主题数,其中每个滤波器是应用于向量矩阵Matr上的扫描窗口,m为整数数值,表示第m个滤波器,1≤m≤2M,滤波器共有2M个,t是滤波器的宽度,扫描向量矩阵Matr得到特征值每个特征值不由局部词向量中获得,而是从所有词的特定向量空间获得,卷积滤波器在D维词向量维度上进行滑动扫描,其中M是整数数值,d为介于1到D之间的整数数值,d的变动表示扫描窗口的滑动,Relu是线性整流函数,其中x是输入数据:
每个滤波器都是在一个句子中所有词向量的部分行上执行,学习每个特征值时考虑所有单词的部分信息,最终的隐式主题表示依赖于句子级上下文;
输出特征映射的结果:
步骤2:设置语法解析块序列的预测模块的网络拓扑结构和超参数:
语法解析块序列的预测模块额外加入基于主题的多头注意力,利用CNNs句子主题提取模块学习输出的LTRs和语法解析块序列的预测模块的输入来学习额外的主题上下文,最终,主题上下文向量和原词上下文向量通过一个线性的、多层函数来预测下一个语法块出现的概率;
所述基于主题的多头注意力通过使用LTRs映射的key和value矩阵和以及目标端的Qi来学习额外的主题上下文,Qi是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出;所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练,在推理阶段,采用自回归的推理方式来预测生成语法解析块序列,其概率公式抽象为:
其中,ci是i位置的语法块,n是语法块序列长度,s是编码器的输出,表示了源语言的编码信息。
2.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述运用BPE和开源预训练模型对语料进行预处理的流程如下:
步骤11:将语料数据集划分为训练集,验证集和测试集三部分;
步骤12:运用BPE算法对训练集,验证集和测试集中的蒙汉语料进行BPE切分;
步骤13:运用开源预训练模型得到BPE切分后语料的词向量嵌入,维度为512。
3.根据权利要求2所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述步骤11中,训练集,验证集,测试集的语料数据分布保持一致,采用随机抽取方式确定数据集划分,使用python语言编程,随机抽取1%语料作为验证集,随机抽取1%语料作为测试集,余下98%语料全部作为训练集。
4.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,使用深度强化学习以句子级指标为目标对模型的参数进行优化微调的方法如下:
其中X为翻译模型的输入,Y为预测输出的目标语句,T为目标句子的词汇个数,θ为神经网络参数,yi是句子中i位置的预测词,P( )表示概率函数;
对于非自回归翻译的概率模型,强化学习范式期望损失的梯度表示为:
其中r(yi)为当词汇yi固定时的期望奖赏:
r(yi)通过蒙特卡罗抽样来估计,即,固定位置i的词yi,其他的词从概率分布P(·|X,θ)中抽样N次得到,r(yi)的估计值为N个抽样句子的奖赏r(Y1),r(Y2),…,r(YN)的平均值;
5.根据权利要求1所述基于语法监督和深度强化学习的蒙汉神经机器翻译方法,其特征在于,所述利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务的流程为:
使用测试数据对蒙汉神经机器翻译模型进行性能测试,之后模型可直接用于蒙语到汉语端到端的翻译任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807248.4A CN112052692B (zh) | 2020-08-12 | 2020-08-12 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010807248.4A CN112052692B (zh) | 2020-08-12 | 2020-08-12 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052692A CN112052692A (zh) | 2020-12-08 |
CN112052692B true CN112052692B (zh) | 2021-08-31 |
Family
ID=73601483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010807248.4A Expired - Fee Related CN112052692B (zh) | 2020-08-12 | 2020-08-12 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052692B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580370B (zh) * | 2020-12-24 | 2023-09-26 | 内蒙古工业大学 | 一种融合语义知识的蒙汉神经机器翻译方法 |
WO2022134021A1 (en) * | 2020-12-25 | 2022-06-30 | Microsoft Technology Licensing, Llc. | Generation of data models for predicting data |
CN112580372A (zh) * | 2020-12-26 | 2021-03-30 | 内蒙古工业大学 | 一种基于Actor-Critic的蒙汉神经机器翻译方法 |
CN112580373B (zh) * | 2020-12-26 | 2023-06-27 | 内蒙古工业大学 | 一种高质量蒙汉无监督神经机器翻译方法 |
CN112765996B (zh) * | 2021-01-19 | 2021-08-31 | 延边大学 | 基于强化学习和机器翻译质量评估的中朝机器翻译方法 |
CN113095092B (zh) * | 2021-04-19 | 2024-05-31 | 南京大学 | 通过建模协同关系提高非自回归神经机器翻译质量的方法 |
CN113112018B (zh) * | 2021-04-27 | 2023-10-31 | 清华大学深圳国际研究生院 | 一种批量限制强化学习方法 |
CN113378584B (zh) * | 2021-05-28 | 2023-09-05 | 沈阳雅译网络技术有限公司 | 一种基于辅助表示融合的非自回归神经机器翻译方法 |
CN113468895B (zh) * | 2021-05-28 | 2023-08-15 | 沈阳雅译网络技术有限公司 | 一种基于解码器输入增强的非自回归神经机器翻译方法 |
CN113554021B (zh) * | 2021-06-07 | 2023-12-15 | 重庆傲雄在线信息技术有限公司 | 一种智能化印章识别方法 |
CN113657125B (zh) * | 2021-07-14 | 2023-05-26 | 内蒙古工业大学 | 一种基于知识图谱的蒙汉非自回归机器翻译方法 |
CN114091482A (zh) * | 2021-10-20 | 2022-02-25 | 昆明理工大学 | 融合成分注意力的非自回归机器翻译方法 |
CN114386437B (zh) * | 2022-01-13 | 2022-09-27 | 延边大学 | 基于跨语言预训练模型的中朝翻译质量估计方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038159B (zh) * | 2017-03-09 | 2019-07-12 | 清华大学 | 一种基于无监督领域自适应的神经网络机器翻译方法 |
CN110442878B (zh) * | 2019-06-19 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 翻译方法、机器翻译模型的训练方法、装置及存储介质 |
CN110377918B (zh) * | 2019-07-15 | 2020-08-28 | 昆明理工大学 | 融合句法解析树的汉-越神经机器翻译方法 |
-
2020
- 2020-08-12 CN CN202010807248.4A patent/CN112052692B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN112052692A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052692B (zh) | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 | |
CN109086267B (zh) | 一种基于深度学习的中文分词方法 | |
US20180329884A1 (en) | Neural contextual conversation learning | |
US12045592B2 (en) | Semi-supervised translation of source code programs using neural transformers | |
Zhu et al. | Triple-to-text: Converting RDF triples into high-quality natural languages via optimizing an inverse KL divergence | |
CN112417901A (zh) | 基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
CN116720531A (zh) | 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法 | |
Seifossadat et al. | Stochastic Data-to-Text Generation Using Syntactic Dependency Information | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN118069785A (zh) | 一种多特征融合冒犯性文本检测方法及装置 | |
CN113255918A (zh) | 强化聚合知识指导的生成常识推理方法 | |
Zhang et al. | Mind the gap: Machine translation by minimizing the semantic gap in embedding space | |
Hujon et al. | Neural machine translation systems for English to Khasi: A case study of an Austroasiatic language | |
Nambiar et al. | Abstractive summarization of Malayalam document using sequence to sequence model | |
Chang et al. | Improving language translation using the hidden Markov model | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
Lei | Intelligent Recognition English Translation Model Based on Embedded Machine Learning and Improved GLR Algorithm | |
Bezliudnyi et al. | Pro-russian propaganda recognition and analytics system based on text classification model and statistical data processing methods | |
Wen et al. | SAKP: A Korean Sentiment Analysis Model via Knowledge Base and Prompt Tuning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210831 |
|
CF01 | Termination of patent right due to non-payment of annual fee |