CN107590138B

CN107590138B - 一种基于词性注意力机制的神经机器翻译方法

Info

Publication number: CN107590138B
Application number: CN201710711118.9A
Authority: CN
Inventors: 付晗; 孙建伶
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2020-01-31
Anticipated expiration: 2037-08-18
Also published as: CN107590138A

Abstract

本发明公开了一种基于词性注意力机制的神经机器翻译方法，首先对源语言进行词性标注，然后对于编码器和解码器的输入，采用词性和词两部分向量级联构成；对于注意力机制，根据词性，在生成每个目标句子中的词时，只根据源句子中与该目标句子中的词具有相同词性的词，以及这些词周围一定数量的词。本发明引入了语义作为先验知识，将词性与词共同作为编码器与解码器的输入，从而增加了额外信息，词典外的词也仍然保留了词性信息。同时创新地提出了基于词性的注意力机制，提出了具有相同词性的词具有更大的对齐的概率的理论，与典型的神经机器翻译模型相比，拥有更好的针对性，对于机器翻译具有重要意义。

Description

一种基于词性注意力机制的神经机器翻译方法

技术领域

本发明提供一种基于词性注意力机制的神经机器翻译方法，涉及词性标注、神经机器翻译、定向搜索等核心技术。

背景技术

在信息时代，计算机技术高速发展，越来越多从事重复劳动人力可以被计算机替代，解放的人力可以从事更加具有创新新和挑战性的工作。几年来深度学习背景下人工智能的崛起更加加速了这一进程的实现。

机器翻译是人工智能研究的热点之一，基于深度学习的机器翻译系统称为神经机器翻译系统。相比于传统的统计机器翻译系统，神经机器翻译系统在翻译质量上有极为明显的优势。目前比较主流的神经机器翻译系统由编码器、解码器、注意力机制三部分组成，已经能将源语言较为流利地翻译为目标语言。如将中文翻译为英文，那么中文即是源语言，而英文是目标语言。

语言中包含了除了词语本身以外的额外信息，这些信息称为先验的语言学知识，目前主流的神经机器翻译系统没有用到这些重要信息，因此具有一定的局限性。

发明内容

本发明的目的在于针对现有技术的局限和不足，提供一种基于词性注意力机制的神经机器翻译方法，提高翻译精度和质量。

本发明的目的是通过以下技术方案来实现的：一种基于词性注意力机制的神经机器翻译方法，首先对源语言进行词性标注，然后对于编码器和解码器的输入，采用词性和词两部分向量级联构成；对于注意力机制，根据词性，在生成每个目标句子中的词时，只根据源句子中与该目标句子中的词具有相同词性的词，以及这些词周围一定数量的词。具体包括以下步骤：

(1)对原始语料进行预处理，剔除有明显错误的句子；统计每个词的出现频率，按照每个词的出现次数按由高到低的顺序对词进行排序；截取一定数量的词作为词典，并对词典中的词进行编号；

(2)利用人工或语言学工具对语料进行词性标注；

(3)统计每种词性出现的数量，按出现次数由高到低对词性进行排序，并对其编号；每个源语言中的句子表示为向量x＝(x₁,…,x_m)，m为源句子长度，其中x_i为句子中第i个词的编号；每个目标语言中的句子表示为向量y＝(y₁,…,y_n)，n为目标句子长度；

(4)根据词和词性的编号，构建其对应的向量，每个词、每个词性均对应一个独立的向量；对于词x_i，其对应的词向量表示为

其对应的词性向量表示为

(5)构建基于词性注意力机制的神经机器翻译模型，该模型包括三部分，编码器、解码器与注意力机制；编码器是一个双向循环神经网络(bi‐RNN)；编码器的输入是每个词的词向量和词性向量的级联向量，对于词x_i，其对应的级联向量为

编码器的输出是循环神经网络的隐藏状态，表示为h＝(h₁,…,h_q)，q为神经网络隐藏状态的数量；解码器是一个循环神经网络，在第j步生成的隐藏状态的计算公式为：

其中

分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量；表示解码器在上一步生成的隐藏状态，f是一个计算函数，选自RNN单元、lstm单元或者GRU；表示上下文信息的向量，由注意力机制生成；注意力机制由两部分组成，第一部分是一个词性解码器，为循环神经网络，用来预测每个词的词性；该词性解码器第j步的隐藏状态

的计算公式为：

其中

分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量；是词性解码器上一步的隐藏状态，f^pos是一个计算函数，选自RNN单元、lstm单元或者GRU；c_j是由一个典型的注意力机制生成的上下文向量，其计算公式为：

其中h_i为编码器输出的第i个分量，m是源句子长度；α_ji的计算公式为：

其中exp是指数函数，e_ji的计算公式为：

其中

是词性解码器上一步的隐藏状态，v_a是一个映射向量，用来将输出的向量转化为数；W_α、U_α是网络中的参数；tanh是一种激活函数；

注意力机制的第二部分是用来生成作为解码器输入的上下文向量

的计算是一个在隐藏状态上的加权平均；参与计算的只有一部分词，找到这些词的规则为：找到与目标句子中第j个词具有相同词性的源句子中的词，规定窗口长度D；对于每个找到的源句子中的词，假设其序号为k，则选择序号在[k-D,k+D]中的词作为参与计算的词，在计算了a_ji后，还需乘以高斯分布：

从而得到

的计算公式：

(6)计算每个目标句子中的词的生成概率，其计算公式为：

其中g^w是一个映射向量，用来将输入的向量转化为词向量的维度；

是目标句子中的第j个词，

是目标句子中的第j个词之前的所有词，是目标句子中的第j个词之前的所有词对应的词性；

(7)对步骤(5)构建的神经机器翻译模型进行训练，训练的目标函数为：

其中x^w，x^pos为源句子的词序列与词性序列，y^w，y^pos为目标句子的词序列与词性序列；λ是平衡参数，θ是待训练参数；N为训练集中的源句子和目标句子对；目标函数包括两部分，前半部分为词的似然，记为P_w，后半部分为词性的似然，记为P_pos；

(8)在实际使用中，输入待翻译的源句子，使用定向搜索(Beam Search)寻找最优序列，将最优序列作为目标句子，其过程为，指定定向搜索的束大小B，在第j步时，每个推测候选的分数为上一步的推测分数与这一步词似然P_w与词性似然P_pos的和；每一步推测的候选的数量都约束为B。

本发明的有益效果是：本发明引入了语义作为先验知识，将词性与词共同作为编码器与解码器的输入，从而增加了额外信息，由于词性种类很少，因此超出词典的词仍然保留了词性信息。此外创新地提出了基于词性的注意力机制，提出了具有相同词性的词具有更大的对齐的概率的理论，与典型的神经机器翻译模型相比，拥有更好的针对性，对于机器翻译具有重要意义。

附图说明

图1是原始文章预处理的示意图；

图2是对词进行编号的示意图；

图3是对词性进行编号的示意图；

图4是训练模型过程的示意图。

具体实施方式

下面结合附图详细描述本发明，本发明的目的和效果将变得更加明显。

本发明提供的一种基于词性注意力机制的神经机器翻译方法，包括以下步骤：

(1)对原始语料进行预处理。如图1所示，剔除有明显错误的句子。统计每个词的出现频率，如图2所示，按照每个词的出现次数按由高到低的顺序对词进行排序。词典规模设定为50000，并对词典中的词进行编号。其中编号0为句子结束符号</s>，编号1为超出词典的词<unk>。因此，每个源语言中的句子可以表示为一个向量，x＝(x₁,…,x_m)，m为源句子长度，其中x_i为句子中第i个词的编号。同样每个目标语言中的句子也可以表示为y＝(y₁,…,y_n)，n为目标句子长度。只保留长度小于等于80的句子。

(2)利用人工或语言学工具对语料进行词性标注。

(3)统计每种词性出现的数量，按出现次数由高到低对词性进行排序，并对其编号。本实施例中词性规定为8种：名词，动词，副词，符号，连词，形容词，数量词，感叹词。编号0为句子结束符号</s>，编号1为超出词典的词<unk>。如图3所示，对每个词的词性进行编号。

(4)根据词和词性的编号，构建其对应的向量，每个词、每个词性都对应一个独立的向量。词向量采用的是预先训练的Glove词向量。对于词x_i，其对应的词向量表示为

其对应的词性向量表示为

词向量和词性向量维度均为300。

(5)构建基于词性注意力机制的神经机器翻译模型，该模型包括三部分，编码器、解码器与注意力机制。编码器是一个双向循环神经网络(bi‐RNN)。编码器的输入是每个词的词向量和词性向量的级联向量，对于词x_i，其对应的级联向量为

编码器的输出是循环神经网络的隐藏状态，表示为h＝(h₁,…,h_q)，q为神经网络隐藏状态的数量，设定为50。隐藏状态的维度为512。解码器是一个循环神经网络，在第j步生成的隐藏状态的计算公式为：

其中

分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量。

表示解码器在上一步生成的隐藏状态，f是一个计算函数，可以是RNN单元，lstm单元或者GRU。

表示上下文信息的向量，由注意力机制生成。注意力机制由两部分组成，第一部分是一个词性解码器，为循环神经网络，用来预测每个词的词性。这个词性解码器第j步的隐藏状态的计算公式为：

其中

是词性解码器上一步的隐藏状态，f^pos是一个计算函数，可以是RNN单元，lstm单元或者GRU。c_j是由一个典型的注意力机制生成的上下文向量，其计算公式为：

其中h_i为编码器输出的第i个分量，m是源句子长度。α_ji的计算公式为：

其中exp是指数函数，e_ji的计算公式为：

其中

是词性解码器上一步的隐藏状态，v_a是一个映射向量，用来将输出的向量转化为数。W_α、U_α是网络中的参数。tanh是一种激活函数。

的计算是一个在隐藏状态上的加权平均。参与计算的只有一部分词，找到这些词的规则为：找到与目标句子中第j个词具有相同词性的源句子中的词，规定窗口长度D。对于每个找到的源句子中的词，假设其序号为k，则选择序号在[k-D,k+D]中的词作为参与计算的词，在计算了a_ji后，还需乘以高斯分布：

从而得到

的计算公式：

对于源句子中没有相同词性的词的情况，或目标句子中词的磁性为<unk>的情况，则源句子中所有词均参与计算。

(6)计算每个目标句子中的词的生成概率，其计算公式为：

其中g^w是一个映射向量，用来将输入的向量转化为词向量的维度。

是目标句子中的第j个词，

是目标句子中的第j个词之前的所有词，

是目标句子中的第j个词之前的所有词对应的词性；

(7)训练部分的目标函数为

其中x^w，x^pos为源句子的词序列与词性序列，y^w，y^pos为目标句子的词序列与词性序列。λ是平衡参数，本实施例中选取为1，θ是待训练参数。N为训练集中的源句子和目标句子对；

网络中所有参数初始化为[‐0.01,0.01]的随机数。训练过程中编码器采用层归一化(Layer Normalization)进行优化。

在编码器的输入层和计算似然前使用dropout技术，dropout参数为0.2。

训练函数包括两部分，前半部分为词的似然，记为P_w，后半部分为词性的似然，记为P_pos。

如图4所示，使用Adam对网络进行训练。通过交叉验证寻找最优的参数组合。训练过程中批规模为64，每一个批中的源句子长度均相同。使用梯度裁剪技术，保证梯度的范围为[‐5,5]。

(8)在实际使用中，输入待翻译的源句子，使用定向搜索(Beam Search)寻找最优的序列，将最优序列作为目标句子，其过程为，指定定向搜索的束大小B＝12，在第j步时，每个推测候选的分数为上一步的推测分数与这一步词似然P_w与词性似然P_pos的和。每一步推测的候选的数量都约束为12。

Claims

1.一种基于词性注意力机制的神经机器翻译方法，其特征在于，该方法包括以下步骤：

(2)利用人工或语言学工具对语料进行词性标注；

(3)统计每种词性出现的数量，按出现次数由高到低对词性进行排序，并对其编号；每个源语言中的句子表示为向量x＝(x₁,…,x_i,…,x_m)，m为源句子长度，其中x_i为句子中第i个词的编号；每个目标语言中的句子表示为向量y＝(y₁,…,y_n)，n为目标句子长度；

其对应的词性向量表示为

(5)构建基于词性注意力机制的神经机器翻译模型，该模型包括三部分，编码器、解码器与注意力机制；编码器是一个双向循环神经网络bi-RNN；编码器的输入是每个词的词向量和词性向量的级联向量，对于词x_i，其对应的级联向量为

编码器的输出是循环神经网络的隐藏状态，表示为h＝(h₁,…,h_q)，q为神经网络隐藏状态的数量；解码器是一个循环神经网络，在第j步生成的隐藏状态

的计算公式为：

其中分别表示目标句子中第j-1个词的词向量和第j个词的词性向量；

表示解码器在上一步生成的隐藏状态，f是一个计算函数，选自RNN单元、lstm单元或者GRU；

表示上下文信息的向量，由注意力机制生成；注意力机制由两部分组成，第一部分是一个词性解码器，为循环神经网络，用来预测每个词的词性；该词性解码器第j步的隐藏状态

的计算公式为：

是词性解码器上一步的隐藏状态，f^pos是一个计算函数，选自RNN单元、lstm单元或者GRU；c_j是由一个典型的注意力机制生成的上下文向量，其计算公式为：

其中exp是指数函数，e_ji的计算公式为：

其中

从而得到

的计算公式：

(6)计算每个目标句子中的词的生成概率，其计算公式为：

其中g^w是一个映射向量，用来将输入的向量转化为词向量的维度；是目标句子中的第j个词，

(8)在实际使用中，输入待翻译的源句子，使用定向搜索Beam Search寻找最优序列，将最优序列作为目标句子，其过程为，指定定向搜索的束大小B，在第j步时，每个推测候选的分数为上一步的推测分数与这一步词似然P_w与词性似然P_pos的和；每一步推测的候选的数量都约束为B。