CN112052692B

CN112052692B - 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

Info

Publication number: CN112052692B
Application number: CN202010807248.4A
Authority: CN
Inventors: 仁庆道尔吉; 郭彦宏; 苏依拉
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-08-31
Anticipated expiration: 2040-08-12
Also published as: CN112052692A

Abstract

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法，本发明首先对蒙汉平行语料进行预训练处理，并利用Stanford CoreNLP对汉语语料进行句法结构分析，得到的语法解析块序列也作为神经网络的训练数据；其次，以非自回归Transformer模型作为基本翻译模型，加入卷积神经网络句子主题提取模块和语法解析块序列的预测模块；然后，使用训练数据对模型进行训练；最后，运用深度强化学习对模型的参数进行优化微调。本发明提供的算法，显式的将汉语语法知识融入神经机器翻译的过程中，使翻译的句子有更好的语法结构，使模型具有一定的可解释性，而DRL的优化微调则缓解了NMT普遍存在的词级训练目标函数和句子级评价函数不一致的问题，进一步提高了模型的翻译性能。

Description

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法

技术领域

本发明属于人工智能以及自然语言处理技术领域，涉及自然语言蒙语到汉语的端到端的翻译，特别涉及一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法。

背景技术

语言文字是人类最为重要的交际工具，也是保存和传递文明文化和知识的主要方式。国家，地区，民族之间的经济发展和文化知识交流都要依赖语言，而语言不同就会导致交流的障碍，极大地阻碍经济的发展和文化知识的传播，语言翻译能够打破这种壁垒。人工翻译虽然准确度高可靠性强，但是在互联网时代依靠传统人工的翻译已经远远不能满足各语言互相翻译的大量需求，机器翻译能够借助计算机将一种语言自动翻译成另外一种语言，相对于人工翻译来说具有效率高成本低的优势，并且近年来基于神经网络的机器翻译相对于传统机器翻译能够获得很大的翻译效果的提升，神经机器翻译的研究已经越来越具有重要地位。

现如今，蒙汉机器翻译的研究实际上已有较多的成果，但是远不够充分，首先是对于蒙古文形态丰富的特点虽有相对较多的研究成果，但蒙古语语言资源的建设还不够完善，导致蒙汉机器翻译研究的进展十分缓慢；其次是蒙汉双语平行语料稀缺，现有语言学的知识也未能充分利用，也部分影响了蒙汉机器翻译的发展，此外，近年来神经网络发展迅猛，效果更好的新的模型架构和学习范式层出不穷，模型性能不断提高，但蒙汉机器翻译在新的神经网络技术方面的研究却非常有限，值得进一步探索和研究。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法，针对语言学知识未能充分利用问题，显式的将汉语句法结构引入模型的训练和推理过程中，从而使翻译结果具有更好的语法结构，使模型具有更好的可解释性，并且能够在加快翻译推理速度的同时保证翻译的质量，此外，将新的学习范式应用于蒙汉神经机器翻译，缓解神经机器翻译中普遍存在的训练函数与评价函数不一致的问题，进一步提高模型的翻译效果，生成更高质量的翻译语句。

为了实现上述目的，本发明采用的技术方案是：

一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法，首先，运用BPE和开源预训练模型对语料进行预处理，得到词向量嵌入，其次，改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块，使得推理阶段的翻译解码过程具有语法结构作为监督参考，然后，使用训练数据集对神经机器翻译模型进行训练，之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调，进一步提高模型翻译性能，最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。

所述运用BPE和开源预训练模型对语料进行预处理的流程如下：

步骤1：将语料数据集划分为训练集，验证集和测试集三部分；

步骤2：运用BPE算法对蒙汉语料进行BPE切分；

步骤3：运用开源预训练模型得到语料的词向量嵌入，维度为512。

所述步骤1中，训练集，验证集，测试集的语料数据分布应尽量保持一致，采用随机抽取方式确定数据集划分。使用python语言编程，随机抽取1％语料作为验证集，随机抽取1％语料作为测试集，余下98％语料全部作为训练集。

所述改进Transformer模型加入卷积神经网络CNNs主题提取模块和语法解析块序列的预测模块的流程为：

步骤1：设置卷积神经网络CNNs主题提取模块的网络拓扑结构和超参数；

步骤2：设置语法解析解码器的网络拓扑结构和超参数。

所述步骤1中，CNNs主题提取模块有输入层，卷积层，最大池化层，输出层四个神经网络层。

输入层：令

为句子中第j个词对应的D维词向量，一个长度为J的句子被表示为一个D×J向量矩阵Matr，设置一个最大句子长度，短于该长度的句子在结尾以零填充，使每一个句子都能表示为一个矩阵。其中D为整数数值，

为向量空间，

是D维向量空间。

卷积层：由2M个滤波器组成，M是每个句子提取的主题数，其中每个滤波器

是应用于矩阵Matr上的扫描窗口，t是滤波器的宽度，扫描矩阵Matr得到特征

每个特征值不由局部词向量中获得，而是从所有词的特定向量空间获得，卷积滤波器在D维词向量维度上进行滑动扫描，其中M是整数数值，d为介于1到D之间的整数数值，d的变动表示扫描窗口的滑动，m为介于1到2M之间的整数数值，表示滤波器的个数，滤波器共有2M个，各不相同，Relu是线性整流函数，其中x是输入数据：

是第m个偏置项，Matr_d：d+t-1为所有词的第d维的值到所有词的第{d+t-1}维的联合矩阵；

每个滤波器被应用到输入矩阵Matr的每一个可能的窗口，以产生一个特征向量

用2M个滤波器遍历Matr，生成一个2M×D的特征映射矩阵

每个滤波器都是在一个句子中所有词向量的部分行上执行，学习每个特征值时考虑所有单词的部分信息，期望最终的隐式主题表示依赖于句子级上下文；

最大池化层：选择

中连续两行进行最大池化

是特征映射矩阵

中第2l-1行和第2l行的池化后的输出特征向量，这里l的范围为1到M；

输出特征映射的结果：

是M个池化后特征组成的M×D的矩阵。

输入句子中的每一个主题特征向量

使用D维向量来表示，而不是使用一个数值；

输出层：使用tanh函数来获得

的隐式主题表示LTRs，tanh激活函数的公式为：

其中x是输入数据，e是自然常数，

是池化特征向量

的隐式主题表示LTRs。

是M个隐式主题表示LTRs的M×D维组合矩阵。

最终得到的

是输入句子的M个隐式主题表示LTRs，之后用于学习NMT的主题上下文向量，NMT即神经机器翻译。

所述步骤2中，语法解析解码器额外加入基于主题的多头注意力，利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说，与Transformer的多头注意力原理相同，基于主题的多头注意力通过使用LTRs映射的key和value矩阵

和

以及目标端的Q_i来学习额外的主题上下文，Q_i是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练，在推理阶段，采用自回归的推理方式来预测生成语法解析块序列，其概率公式可以抽象为：

其中，c_i是i位置的语法块，n是语法块序列长度，s是编码器的输出，表示了源语言的编码信息。

使用深度强化学习以句子级指标为目标对模型的参数进行优化微调：

非自回归翻译的概率模型可以表示为：其中X为翻译模型的输入，Y为预测输出的目标语句，T为目标句子的词汇个数，θ为神经网络参数，i是句子中的位置i，y_i是句子中i位置的预测词，P( )表示概率函数。

强化学习范式期望损失的梯度可以表示为：

公式中r( )表示奖赏计算函数，其输入为整个句子Y，输出为这个句子的GLEU或BLEU值；

表示神经网络参数θ的梯度，Y表示强化学习采样得到的句子。

公式中，在相同的句子奖励r(Y)即句子BLEU或GLEU值的引导下，对每个位置i词汇的预测概率进行梯度更新，这与自回归模型的方法相似，但是在训练过程中通常是不稳定的。而对于非自回归模型，上述公式可以简化为:

其中r(y_i)为当词汇y_i固定时的期望奖赏:

已有研究表明，强化学习的奖赏越稀疏，则优化训练难度越大，相反，则能够更快更好地收敛，因此位于i位置的预测词y_i出现的奖赏由其对应的期望奖赏r(y_i)表示，比句子奖赏r(Y)更准确。r(y_i)通过蒙特卡罗抽样来估计，即，固定位置i的词y_i，其他的词从概率分布p(·|X，θ)中抽样N次得到，r(y_i)的估计值为N个抽样句子的奖赏r(Y₁)，r(Y₂)，...，r(Y_N)的平均值；

得到梯度

后，依据以下公式更新神经网络参数θ进行微调得到新的神经网络参数θ_new，α为学习率：

所述利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务的流程为：

使用测试数据对蒙汉神经机器翻译模型进行性能测试，之后模型可直接用于蒙语到汉语端到端的翻译任务。

与现有技术相比，本发明的有益效果是：

(1)源语言信息提取是否充分对于翻译任务来说至关重要，基本的Transformer架构中编码器的个数为六，采用完全串联的方式链接，使得源语言信息会有一部分的丢失，而且传统的神经机器翻译(NMT)方法在忽略句子级上下文的情况下，利用词级上下文来预测目标端序列的生成。本发明利用卷积神经网络CNNs将句子级上下文表示为隐式主题表示(Latent Topic Representation,LTRs)，采用主题注意机制的方式将句子级的主题上下文信息集成到Transformer翻译模型中，使语法解析块序列的预测更准确，进而提升翻译质量。

(2)传统的神经机器翻译对语言学知识的运用不足，而语言学知识蕴含了大量有助于翻译质量提升的语法结构等，本发明采用语法块解析解码器自回归的生成语法解析块序列，将语法解析块序列作为翻译解码器的监督输入，令翻译解码器在生成翻译句子时能以目标语句的全局信息作为条件，并且将语法知识融入NMT模型，提升翻译质量。

(3)缓解NMT模型训练和测试评价函数不一致的问题。当前主流的神经机器翻译模型普遍采用极大似然估计准则(Maximum Likelihood Estimation,MLE)进行模型的训练，损失函数是定义在词级层面。然而主流的评价标准则是采用的句子级或文档级的BLEU(Bilingual evaluation understudy)值，这使得训练和评价产生了不一致性，词级层面的损失函数与最终翻译质量的相关性较弱，影响模型性能。本发明首先使用极大似然估计来训练模型，使得模型学习到大部分经验，之后采用深度强化学习范式以序列级信息为目标，对模型进行优化调整，缓解NMT模型训练和测试评价函数不一致的问题，提升翻译模型的翻译性能。

附图说明

图1是基于语法监督和深度强化学习的蒙汉神经机器翻译流程图。

图2是基本Transformer示意图。

图3是卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs示意图。

图4是融合CNNs主题上下文模块的Transformer示意图。

图5是同一句子中constituency parse解析树的两个不同的k值的处理过程示意图。

图6是改进Transformer后的最终模型结构示意图。

图7是深度强化学习优化微调流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法，显式的将汉语语法知识融入了神经机器翻译的过程中，使得翻译的句子具有更好的语法结构，使翻译模型具有一定的可解释性，而深度强化学习的优化微调则缓解了神经机器翻译模型普遍存在的词级训练目标函数和句子级评价函数不一致的问题，进一步提高了模型的翻译性能。

本发明的方法可参考图1，首先，运用BPE和开源预训练模型对语料进行预处理，得到词向量嵌入，其次，改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块，使得推理阶段的翻译解码过程具有语法结构作为监督参考，然后，使用训练数据集对神经机器翻译模型进行训练，之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调，进一步提高模型翻译性能，最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务。

具体地：

1、运用BPE和开源预训练模型对语料进行预处理，得到词向量嵌入：

步骤2：运用BPE算法对蒙汉语料进行BPE切分；

语料数据集划分为训练集，验证集，测试集三部分，每部分的语料数据分布应尽量保持一致，采用随机抽取方式确定数据集划分。使用python语言编程，随机抽取1％语料作为验证集，随机抽取1％语料作为测试集，余下98％语料全部作为训练集。

BPE算法的全称是字节对编码算法(byte pair encoder)，原理是，算法首先将语料中的词分成一个一个的字符，然后在词的范围内统计字符对出现的频数，每次将频数最多的字符对保存起来，直到达到循环结束次数。这样执行过后，算法会在编码表中保存出语料词语中出现频数较高的所有介于word和character之间的subword和词根词缀，在解码时，如果出现未登录词，可以尝试从编码表中寻找子词并拆分未登录词为subword组合。因此，BPE算法在西欧语系中要更为有效，因为西欧语系一般都存在大量的词根词缀，而蒙语中也存在词根词缀，所以BPE算法应用于蒙语语料能够大大压缩词汇表的词汇数，同时很大程度缓解了未登录词的问题。

未登录词即未在词汇表中出现的词。

算法首先将语料中蒙语词语切分为单个蒙语字母，将汉语分词后的数据集切分为单个汉字，然后不断循环统计字符对出现的频数，得到BPE编码表，之后生成词汇表。

将语料进行BPE编码后使用开源预训练模型进行无监督训练，学习到富含大量语义信息的512维度的词向量，可用于下游Transformer的翻译任务，不使用随机初始化词向量，使用预训练词向量以获得更优质的翻译效果。

2、改进Transformer模型加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块：

步骤2：设置语法解析解码器的网络拓扑结构和超参数。

基本的Transformer模型已经在许多任务中取得了非常好的成绩，它使用了编码器-解码器的结构，以注意力机制为主要的特征提取模块，将编码器端信息提取为特征映射，输入解码器进行特征转换，得到任务输出。编码器解码器数目都为6，即N×6。基本Transformer结构如图2所示。

步骤1中，卷积神经网络CNNs主题上下文模块学习隐式主题表示LTRs的过程如图3所示，CNNs主题提取模块有输入层，卷积层，最大池化层，输出层四个神经网络层。

输入层：令

为向量空间，

是D维向量空间。

每个特征值不由局部词向量中获得，而是从所有词的特定向量空间获得，卷积滤波器在D维词向量维度上进行滑动扫描，其中M是整数数值，d为介于1到D之间的整数数值，d的变动表示扫描窗口的滑动，Relu是线性整流函数，其中x是输入数据：

用2M个滤波器遍历Matr，生成一个2M×D的特征映射矩阵

每个滤波器都是在一个句子中所有词向量的部分行上执行，学习每个特征值时考虑所有单词的部分信息，期望最终的隐式主题表示依赖于句子级上下文；卷积层的作用是使用多个不同的滤波器(卷积核)对句子表示成的向量矩阵进行特征提取，抽象出句子主题特征。

最大池化层：选择

中连续两行进行最大池化

是特征映射矩阵

中第2l-1行和第2l行的池化后的输出特征向量，这里l的范围为1到M。

输出特征映射的结果：

是M个池化后特征组成的M×D的矩阵。

输入句子中的每一个主题特征向量

使用D维向量来表示，而不是使用一个数值，这使得主题特征更加丰富。

输出层：使用tanh函数来获得

的隐式主题表示LTRs，tanh激活函数的公式为：

其中x是输入数据，e是自然常数，

是池化特征向量

的隐式主题表示LTRs。

是M个隐式主题表示LTRs的M×D维组合矩阵。

最终得到的

步骤2中，如图4所示，语法解析解码器额外加入基于主题的多头注意力，利用CNNs主题模块学习输出的LTRs和解析解码器端的输入来学习额外的主题上下文。具体来说，与Transformer的多头注意力原理相同，基于主题的多头注意力通过使用LTRs映射的key和value矩阵

和

还有目标端的Q_i来学习额外的主题上下文，Q_i是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出。将

映射到一组键值对

在解码器中，多头自注意将Q_i、

的目标查询转化为h次，h为多头注意的head数，默认为8:

都为待学习的参数矩阵。

根据下式计算每个head子空间的主题上下文注意:

其中dim_k是

矩阵的向量维度，除以根号维度值是为了防止点积过大。T上标表示矩阵转置。计算出所有8个

后，将head子空间的主题上下文注意连接为一个向量矩阵

最终，主题上下文向量

和原词上下文向量O_i通过一个线性的、多层函数来预测下一个语法块出现的概率：

其中，L_o，L_w，

是投影矩阵，c_i是语法解析解码器i位置的输出，c_＜i表示i位置之前的所有语法块序列，s是编码器的输出，exp是以e为底的指数函数，∝是正比例符号。

语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练，在推理阶段，采用自回归的推理方式来预测生成语法解析块序列，其概率公式可以抽象为：

汉语语法解析块序列是通过分块算法选择出符合条件的Stanford CoreNLP解析的constituency parse解析树标识块得到。首先选择一个最大块大小k，然后对训练数据中的每个目标句依次遍历其constituency parse解析树。在每个被访问的节点上，如果该节点张成的叶子数小于或等于k，那么将在解析序列上添加一个描述性块标识符，然后再移动到它的同级节点上；否则，就继续处理左边的子元素并再次执行上述过程。同一句子中constituency parse解析树的两个不同的k值的处理过程示意图如图5所示，图中示意了最大跨度k＝2,3的解析块算法的例子。在解析的顺序遍历过程中，如果子树大小小于或等于k，那么就在每个访问的节点上向序列追加一个对应的块标识符。

语法解析解码器的词汇组成是一个个的块标识符(由语法类型和子树大小(例如NP3)组成)。该词汇表的最大大小为|P|×k，其中P是所有语法类型的集合(NN常用名词，PN代词，VV动词，NP名词短语，VP动词短语，PP介词短语，等)。词汇表词汇数非常少，所以解码翻译速度非常快。

改进Transformer后最终的模型结构如图6所示。使用训练数据集对神经机器翻译模型进行训练，将预训练好的词向量输入模型，同时训练语法解析解码器和翻译解码器，语法解析解码器以语法块序列作为监督训练的标签，翻译解码器以对应汉语句子作为监督训练标签，完成对模型的初步训练。

模型翻译解码：

第一阶段解码：集成CNNs句子主题模块的语法解析解码器自回归的预测语法解析块序列，蒙语源句子注意即编码器的输出用s表示，块标识符由c₁，...，c_n表示，n是语法块序列长度：

第二阶段解码：应用单个非自回归步骤，通过将目标序列概率分解为以下形式来生成汉语目标句子，其中T为目标句子长度，n是当前语法块序列长度：

3、使用深度强化学习以句子级指标为目标对模型的参数进行优化微调，可以缓解部分过翻漏翻问题，策略梯度算法能够在迭代优化过程中提高神经机器翻译模型输出更优质句子的概率，提高翻译质量，深度强化学习微调的整体流程如图7所示，具体来说：

本发明不同于强化学习应用于自回归NMT，以整个句子输出完成的BLEU值作为奖赏，奖赏值较为稀疏，强化学习收敛较慢且方差较大，本发明将深度强化学习方法应用于非自回归蒙汉神经机器翻译，一个显著的优势是非自回归翻译中每个token之间都是相互独立的，不需要以之前的翻译token作为下一个翻译token的依据，token是指序列中的词，利用这种独立性，可以把期望损失函数表示为：使用抽样得到的reward奖赏作权重，每个token独立生成的概率分布作为策略函数，所有位置损失函数相加取负数。而每个token的reward奖赏是由固定当前token之后的整个句子抽样N次的BLEU或GLEU值计算平均得到。策略梯度算法使用梯度下降来进行，首先计算参数关于期望损失函数的梯度，之后利用梯度更新神经网络参数。

所述非自回归翻译的概率模型可以表示为：其中X为翻译模型的输入，Y为预测输出的目标语句，T为目标句子的长度，θ为神经网络参数，i是句子中的位置i，y_i是句子中i位置的预测词，P( )表示概率函数。

所述强化学习范式期望损失的梯度可以表示为：

其中r(y_i)为当词汇y_i固定时的期望奖赏:

得到梯度

下面结合实施例，对本发明进行进一步说明。

首先对蒙汉平行语料进行数据预处理，使用BPE算法对蒙汉语料进行子词切分，缓解未登录词对翻译模型效果的影响。之后使用开源预训练模型对语料进行预训练，得到学习了大量语义的词向量。另外使用Stanford CoreNLP自然语言处理包结合分块算法得到汉语语料语法解析块序列，语法解析分块算法过程如图5所示。

将词向量输入神经机器翻译模型，神经机器翻译模型以图2所示的Transformer为基本模型，翻译模型的整体架构如图6所示。如图4所示的附加主题注意模块的语法解析解码器以语法解析块序列为目标进行监督学习训练，翻译解码器以对应的翻译句子为目标进行监督学习训练，同时训练更新模型参数。之后在模型监督学习收敛之前停止训练，使用深度强化学习对模型参数进行微调优化，进一步提升模型的翻译效果，使神经机器翻译模型训练得到更优质的翻译句子，深度强化学习微调过程如图7所示。

得到的神经机器翻译模型可以端到端的将蒙语翻译为汉语。

Claims

1.一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法，其特征在于，首先，运用BPE和开源预训练模型对语料进行预处理，得到词向量嵌入，其次，改进Transformer模型，加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块，使得推理阶段的翻译解码过程具有语法结构作为监督参考，然后，使用训练数据集对神经机器翻译模型进行训练，之后使用深度强化学习以句子级指标为目标对模型的参数进行优化微调，进一步提高模型翻译性能，最后利用训练和微调好的神经机器翻译模型进行蒙语到汉语端到端的翻译任务；

其中，所述改进Transformer模型，加入卷积神经网络CNNs句子主题提取模块和语法解析块序列的预测模块的流程为：

步骤1：设置卷积神经网络CNNs句子主题提取模块的网络拓扑结构和超参数：

CNNs句子主题提取模块有输入层，卷积层，最大池化层，输出层四个神经网络层，其中：

输入层：令

为句子中第j个词对应的D维词向量，一个长度为J的句子被表示为一个D×J向量矩阵Matr，设置一个最大句子长度，短于该长度的句子在结尾以零填充，使每一个句子都能表示为一个矩阵，其中D为整数数值，

为向量空间，

是D维向量空间；

是应用于向量矩阵Matr上的扫描窗口，m为整数数值，表示第m个滤波器，1≤m≤2M，滤波器共有2M个，t是滤波器的宽度，扫描向量矩阵Matr得到特征值

每个滤波器被应用到输入的向量矩阵Matr的每一个窗口，以产生一个特征向量

用2M个滤波器遍历向量矩阵Matr，生成一个2M×D的特征映射矩阵

每个滤波器都是在一个句子中所有词向量的部分行上执行，学习每个特征值时考虑所有单词的部分信息，最终的隐式主题表示依赖于句子级上下文；

最大池化层：选择

中连续两行进行最大池化

是特征映射矩阵

中第2l-1行和第2l行的池化后输出的主题特征向量，l的范围为1到M；

输出特征映射的结果：

是M个池化后特征组成的M×D的矩阵；

输入句子中的每一个主题特征向量

使用D维向量来表示，而不是使用一个数值；

输出层：使用tanh激活函数来获得

的隐式主题表示LTRs，tanh激活函数的公式为：

其中x是输入数据，e是自然常数，

是主题特征向量

的隐式主题表示LTRs，

是M个隐式主题表示LTRs的M×D维组合矩阵；

最终得到的

是输入句子的M个隐式主题表示LTRs，之后用于学习NMT的主题上下文向量，NMT即神经机器翻译；

步骤2：设置语法解析块序列的预测模块的网络拓扑结构和超参数：

语法解析块序列的预测模块额外加入基于主题的多头注意力，利用CNNs句子主题提取模块学习输出的LTRs和语法解析块序列的预测模块的输入来学习额外的主题上下文，最终，主题上下文向量和原词上下文向量通过一个线性的、多层函数来预测下一个语法块出现的概率；

所述基于主题的多头注意力通过使用LTRs映射的key和value矩阵

和

以及目标端的Q_i来学习额外的主题上下文，Q_i是语法解析解码器输入的当前句子i位置经过自注意力机制和add&normal层的输出；所述语法解析解码器使用Stanford CoreNLP和分块算法处理生成的汉语语法解析块序列数据集来训练，在推理阶段，采用自回归的推理方式来预测生成语法解析块序列，其概率公式抽象为：