CN112395892B

CN112395892B - 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法

Info

Publication number: CN112395892B
Application number: CN202011393623.1A
Authority: CN
Inventors: 苏依拉; 程永坤; 崔少东; 张妍彤; 仁庆道尔吉; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-03-18
Anticipated expiration: 2040-12-03
Also published as: CN112395892A

Abstract

一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法，基于编码器‑解码器架构，其特征在于，还包括辅助网络和骨干网络，所述辅助网络为每个输入源词汇位置生成一个二进制门，动态地选择要关注的词汇，所述骨干网络为带有门控机制的注意力的指针生成网络；编码阶段，经编码器的词嵌入层，将源文编码成一个隐藏层状态，再由所述门控机制决定来自当前状态的信息是流入还是被占位符替换；解码阶段，利用指针生成网络复制源文能力和生成新词汇能力，搭配占位符上下文语境进行消歧，给出符合上下文语义的精准词义，在最后数据输出前，利用附加模块进行语言学检查，检测到可能翻译异常的情况做出标注，通过调整相关参数以达到最好的翻译效果。

Description

基于指针生成网络实现占位符消歧的蒙汉机器翻译方法

技术领域

本发明属于机器翻译技术领域，特别涉及一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法。

背景技术

随着全球各个地区经济的快速发展，不同语种之间的交流越来越受到重视，机器翻译顺应而生。近代互联网的发展，更是带动着机器翻译研究的热潮，但目前的机器翻译还未能达到人工翻译的效果。

历经基于规则的翻译，统计机器翻译，神经网络机器翻译三大阶段，翻译效果越来越显著，但一直存在的问题未能得到真正的解决，一词多义，语法问题等，因此针对提高机器翻译仍有很长的路要走。

蒙古文的单词由词根+词缀的方式组合，这就出现了现今利用字符或者子词级模型，期望利用更小粒度来进行翻译，这在一定程度上缓解了未登录词现象，Transformer模型中使用了Masked Multi-Head Attention进行解码，通过对未解码信息Mask掉，一定程度上解决了一词多义的问题。

目前，机器翻译中利用word2vec产生的词表示是静态的，不考虑上下文的，因此需要的不仅仅是一个词到向量的单射，而应该学习一个考虑上下文的函数(模型)。

随着Transformer模型的出现，也随之出现了BERT，相比以前的word2vec为代表的词嵌入方法，BERT模型进一步增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，一定程度上能建模一词多义现象，但它需要大量的数据集，针对蒙汉翻译这种语料集少的语言，具有很大的影响。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法，在翻译过程涉及到辅助网络和带注意力机制的网络，配合指针生成网络，实现了占位符消歧，对翻译结果用语言学检测来得到接近人工翻译的蒙汉效果。

为了实现上述目的，本发明采用的技术方案是：

一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法，基于编码器-解码器架构，其特征在于，还包括辅助网络和骨干网络，所述辅助网络为每个输入源词汇位置生成一个二进制门，动态地选择要关注的词汇，所述骨干网络为带有门控机制K的注意力的指针生成网络；编码阶段，经编码器的词嵌入层，将源文编码成一个隐藏层状态，再由所述门控机制K决定来自当前状态的信息是流入还是被占位符替换，其中K＝{k⁽¹⁾，k⁽²⁾，…，k⁽ⁱ⁾，…k^(T)}，T为二进制门的数量，k⁽ⁱ⁾表示第i个二进制门，k⁽ⁱ⁾取值为1或0，k⁽ⁱ⁾＝1时当前信息流入，k⁽ⁱ⁾＝0则被占位符替换；解码阶段，利用指针生成网络复制源文能力和生成新词汇能力，搭配占位符上下文语境进行消歧，给出符合上下文语义的精准词义。

与现有技术相比，本发明的有益效果是：首先借助辅助网络动态地选择需要注意的词汇，通过附加门的取值决定占位符的替换；其次，借助指针生成网络生成式能力解码出新词汇；最后，对输出进行语言学检测，来捕获和备注异常，比起传统翻译，利用占位符更加精准多义词的词义或新词替代，并由“语言学检测”来检测完善，译出高标准结果。

附图说明

图1为带有门控机制整体架构，且是整个模型的框架。

图2为现有的注意力机制模型，也是现用模型构成的基础。

图3为辅助网络。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1，本发明为一种基于指针生成网络实现占位符消歧的蒙汉神经机器翻译方法，基于编码器-解码器架构，并增设辅助网络和骨干网络。辅助网络为每个输入源词汇位置生成一个二进制门，动态地选择要关注的词汇，骨干网络为带有门控机制K的注意力的指针生成网络。骨干网络联合动态选择子元素关注的辅助网络。翻译时，利用辅助网络生成的二进制门进行动态选择关注的子元素，避免不必要的权重分配计算。

编码阶段，经编码器的词嵌入层，将源文编码成一个隐藏层状态，再由门控机制K决定来自当前状态的信息是流入还是被占位符替换，其中K＝{k⁽¹⁾，k⁽²⁾，…，k⁽ⁱ⁾，…k^(T)}，T为二进制门的数量，k⁽ⁱ⁾表示第i个二进制门，k⁽ⁱ⁾取值为1或0，k⁽ⁱ⁾＝1时当前信息流入，k⁽ⁱ⁾＝0则被占位符替换。传统的注意力机制关注输入句子的整个隐藏状态，如图2所示，本发明却是对重点词汇给予更多的权重进行计算，利用了指针生成网络复制和生成新词的能力和占位符上下文语境来进行占位符消歧，在减少占位符不必要的注意力权重计算下对辅助网络的动态选择子元素进行注意力强计算，得出上下文向量序列，给出完整的目标语言，再经附加模块下的语言学检测来验证译文的准确性。

解码阶段，利用指针生成网络复制源文能力和生成新词汇能力，根据选择性元素生成向量，配合指针生成网络复制源文向量，搭配上下文语境对占位符进行精准信息预测，给出符合上下文语义的精准词义，再经语言学检测异常提高译文得忠诚度。

具体地，参考图3，本发明辅助网络的作用是生成二进制门，对输入的源语言句子进行观察，确定每个词是否需要关注，动态地选择需关注的词汇，辅助网络的输入源词汇关注程度输出用概率p⁽ⁱ⁾决定：

p⁽ⁱ⁾＝sigmoid(Uh⁽ⁱ⁾)

h⁽ⁱ⁾＝LSTM(h^(i-1),x⁽ⁱ⁾)

其中，h⁽ⁱ⁾为编码器输入的第i个位置的隐藏状态，U为输入权重，h^(i-1)是前一位置的隐藏状态，x⁽ⁱ⁾是输入的第i个向量；输出概率p⁽ⁱ⁾确定二进制门的开放概率，并用于参数化伯努利分布。二进制门k⁽ⁱ⁾服从伯努利分布生成的样本：

k⁽ⁱ⁾～Bernoulli(p⁽ⁱ⁾)

k⁽ⁱ⁾是门控的离散数值，取0或1，但引起不能通过梯度下降来反向传播误差问题，为了使辅助网络在训练过程中可区分，本发明使用Gumbel-Softmax分布代替Bernoulli分布：

其中，ii是二进制门的离散值0或1，jj取值是[0,1]，

是Gumbel-Softmax分布后门控机制的离散值，为0或1，

是Gumbel-Softmax分布后ii取值1或0时对应的概率，

是来自Gumbel(0，1)的随机样本，τ'是softmax中的temperature参数，p^(i,jj)表示伯努利分布后jj取值1或0时对应的概率，p^(i,ii)表示伯努利分布后ii取值1或0时对应的概率。

本发明编码器-解码器架构均采用循环神经网络，编码器首先需做词向量嵌入(embedding)，将词汇转换成向量形式，随后经过隐藏层将输入数据特征抽象成更高的特征层次，它表示一个从文本序列到多维向量的映射关系，这个过程中的embedding能够表示单词的意义、语义相关性以及它们用于的不同类型的上下文环境。

隐藏层将输入的源语言序列x＝{x⁽¹⁾,x⁽²⁾,…,x^(T)}编码为隐藏状态，在时间步t，隐藏状态h_t与上一时刻的隐藏状态h_t-1和当前输入向量x_t有关，用函数g表达RNN隐藏层的变换：h_t＝g(x_t,h_t-1)。

在各个隐藏层输出后利用门控机制取值为1或0决定来自当前状态的信息是否应流入，不能输入的用占位符进行替换，其余输入，进行注意力分布的计算。

编码器中出现的隐藏状态h_t，解码器的t时刻隐藏状态s_t会参与注意力系数的计算。解码器的隐藏状态s_t与编码器隐藏状态h_t经过变换计算得出源文第i个词汇的注意力权重：

注意力分布：α_t＝softmax(x_t)

其中，

是t时刻第i个词的注意力权重，h_t是t时候编码器隐藏状态，s_t是t时刻解码器隐藏状态，w^(a)是循环权重，v是权重矩阵，b_attn是偏置，注意力分布是输入源词汇的概率分布；

接着，利用注意力分布来进行编码器里隐藏层的加权求和构建上下文向量由此，来计算在解码器的每个位置j的上下文向量:

其中，注意力权重值α_(ij)是计算编码器隐藏状态和解码器隐藏状态的函数。

上下文向量可以被认为是当前步骤从源语言读取固定大小内容的表示，并且与解码每刻隐藏状态s_t连接，通过两个线性层进行馈送，生成词汇分布p_voc：

p_voc＝softmax(V'(V[s_t,c]+b)+b')

其中，c是上下文向量，s_t解码器隐藏状态，[s_t,c]表示拼接，V,V'和b，b'均为可学习参数，p_voc是词汇表中源语言单词的概率表示，也可理解为是经过softmax多分类对相应单词产生的概率分布。

编码器是一个双向的LSTM，双向的LSTM具有捕捉源文的长距离依赖关系及位置信息能力，编码时词嵌入经过双向LSTM后得到编码状态，在隐藏层输出后经门控取值来决定当前信息的流入和占位符的替换。

指针生成网络是混合了Baseline seq2seq和指针网络的优点，既有生成能力，还有复制能力，通过指针复制源文中任意位置的单词配合词汇表生成更加符合语义的新词汇，在解码阶段进行的占位符预测，搭配着占位符上下文语境，能得到更符合语义的词义。

因此需要引入一个新概念p_gen，它指解码器t时刻的权重，解码器也是双向LSTM，每一时刻生成p_gen∈[0,1]，表示的是从词汇表中生成的概率。

利用上述已经算出的系数s_t和c，以及解码器t-1时刻输出来算出权重p_gen：

其中，b_ptr是标量，s_t是解码器t时刻隐藏状态，y_t-1是解码器在t-1时刻的输出，c是上下文向量，

都是权重矩阵，σ是sigmoid函数。

这时会扩充词表单的容量，即把源语言端的单词也加入，在进行占位符替换时，结合上下文语境具有重要意义。

指针生成网络在对OOV问题上也具有重大的帮助，即可复制原文本中的非正式单词，以便处理哪些没有出现过的单词。

可知指针网络多用于文本摘要生成，即可分析生成更具感情色彩的单词，这在对一词多义方面具有重要作用，再搭配上下文语境和语义，能一定程度提高译文的忠程度。

接着，利用p_gen对词汇分布和注意力分布进行加权平均，得到词汇表(扩展后)里单词的各概率的分布：

其中，p_gen决定从词汇表中生成的单词概率，1-p_gen决定从源文中生成单词的概率，

是第i个位置的注意力分布值，z⁽ⁱ⁾是词汇表中的词汇，z是占位符处的单词，p_voc(z)是词汇表，如果z是词汇表外词汇，则p_voc(z)为零。

指针网络具有复制功能，扩充单词表成为一个更大的单词表主要是利用指针复制能力添加上了源文的词汇，为了防止重复生成文本，在此借用了覆盖机制。此刻对占位符进行消歧，可用扩大后的词汇再搭配上下文语境来生成更具情感色彩的词汇表中不存在的新单词，即不再局限于词汇表p_voc，能够更大程度上找出精确词义。借助指针生成网络生成式的能力，能够产生源文中不存在的新词，则可对多义词进行精确或新词替换。其余信息解码，采用输入-忆前方式，每一时刻信息解码借助已译和动态选择信息的上下文向量。

为了杜绝在扩充的词汇表中出现重复文本的现象，在此使用了CoverageMechanism。

将解码器先前时间步的注意力权重相加到一起得到覆盖向量L_t，用先前时间步的注意力权重决策来影响当前注意力权重决策，最终利用覆盖向量L_t来避免生成重复文本的问题，其中，

α_t为源语言词汇的注意力分布；

在最后阶段，注意力向量输入到softmax层，输出预测分布：

y_t＝softmax(w^(s)h_t)；

其中y_t是目标语言单词，w^(s)是权重。

在最后预测数据输出前，利用附加模块里的语言学检测对预测的目标句子进行检测，对异常部分进行捕获和备注，检测到可能出现的异常问题(如词义)做备注，通过每次的改进来完善系统的翻译的精准度。

以蒙汉翻译为例，源语为蒙文，目标语为汉文，假设源语输入为x＝(x⁽¹⁾，x⁽²⁾，......x⁽ⁿ⁾)n为长度，目标文本y＝(y⁽¹⁾，y⁽²⁾，......y^(m))m为长度。

1.辅助网络先对源文本x＝(x⁽¹⁾，x⁽²⁾，......x⁽ⁿ⁾)的每个位置生成二进制门，动态选择关注的子元素。

2.骨干网络编码器生成隐藏状态，借助门控机制K＝{k⁽¹⁾，k⁽²⁾，…，k^(T)}，k⁽ⁱ⁾的取值0或1对当前信息进行筛选，k⁽ⁱ⁾＝1时当前信息流入，k⁽ⁱ⁾＝0则被占位符替换。

接下来计算注意力的分布，并用来作为编码器隐藏状态的加权和，即为语境向量，此过程避免了传统注意力对整个源文关注的权重均分问题。

解码阶段，对于t时刻的隐藏状态的输入，为t-1隐藏状态的输出和上下文向量。

引入权重p_gen，代表从词汇表中生成一个单词的概率。

借助指针复制源文本扩充单词表，利用Coverage mechanism，解决重复生成文本问题。

针对占位符，借助上下文语境和扩充的词汇表来生成词汇表中不存在的情感色彩的词，进行多义词的词义精确或新词替换。

设占位符的词为z,则有预测词的概率为：

重复以上步骤，每次借助词汇表和指针指向源文任意位置进行多义词的精准预测。

最后的结果输出前，增加一个语言学检测，捕获到可能出现的异常情况，以达到更精确的翻译效果。

Claims

1.一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法，基于编码器-解码器架构，其特征在于，还包括辅助网络和骨干网络，所述辅助网络为每个输入源词汇位置生成一个二进制门，动态地选择要关注的词汇，所述骨干网络为带有门控机制K的注意力的指针生成网络；编码阶段，经编码器的词嵌入层，将源文编码成一个隐藏层状态，再由所述门控机制K决定来自当前状态的信息是流入还是被占位符替换，其中K＝{k⁽¹⁾，k⁽²⁾，…，k⁽ⁱ⁾，…k^(T)}，T为二进制门的数量，k⁽ⁱ⁾表示第i个二进制门，k⁽ⁱ⁾取值为1或0，k⁽ⁱ⁾＝1时当前信息流入，k⁽ⁱ⁾＝0则被占位符替换；解码阶段，利用指针生成网络复制源文能力和生成新词汇能力，搭配占位符上下文语境进行消歧，给出符合上下文语义的精准词义；针对占位符，借助上下文语境和扩充的词汇表来生成词汇表中不存在的情感色彩的词，进行多义词的词义精确或新词替换；

其中，所述辅助网络的输入源词汇关注程度输出用概率p⁽ⁱ⁾决定：

p⁽ⁱ⁾＝sigmoid(Uh⁽ⁱ⁾)

h⁽ⁱ⁾＝LSTM(h^(i-1),x⁽ⁱ⁾)

其中，h⁽ⁱ⁾为编码器输入的第i个位置的隐藏状态，U为输入权重，h^(i-1)是前一位置的隐藏状态，x⁽ⁱ⁾是输入的第i个向量；

概率p⁽ⁱ⁾控制门开放概率，并用于参数化伯努利分布，二进制门k⁽ⁱ⁾服从于伯努利分布生成样本：

k⁽ⁱ⁾～Bernoulli(p⁽ⁱ⁾)；

所述编码器和解码器均采用循环神经网络，编码器首先对输入源词汇做词向量嵌入，将词汇转换成向量形式，随后经过隐藏层将输入数据特征抽象成更高的特征层次；隐藏层将输入的源语言序列x＝{x⁽¹⁾,x⁽²⁾,...,x^(T)}编码为隐藏状态，在时间步t，隐藏状态h_t与上一时刻的隐藏状态h_t-1和当前输入向量x_t有关，用函数g表达RNN隐藏层的变换：h_t＝g(x_t,h_t-1)；

在各个隐藏层输出后，利用门控机制K取值为1或0决定来自当前状态的信息是否应流入，不能输入的用占位符进行替换，其余进行输入，进行注意力分布的计算；

编码器中出现的隐藏状态h_t，解码器的t时刻隐藏状态s_t会参与注意力系数的计算，解码器隐藏状态s_t与编码器隐藏状态h_t经过变换计算得出源文第i个词的注意力权重：