CN110781690B

CN110781690B - 一种多源神经机器翻译模型的融合和压缩方法

Info

Publication number: CN110781690B
Application number: CN201911049943.2A
Authority: CN
Inventors: 鉴萍; 郭梦雪; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-07-13
Anticipated expiration: 2039-10-31
Also published as: CN110781690A

Abstract

本发明涉及一种多源神经机器翻译模型的融合和压缩方法，属于自然语言处理应用技术领域。首先，构建基于Transformer的多源机器翻译模型；其次，使用CNN融合多个源的编码信息；再次，使用门控机制使模型可以自主选择是否使用辅助源语言；最后，根据矩阵间的距离不同，对矩阵进行不同方式的量化压缩；其中，多源机器翻译模型又包括编码器和解码器，所述模型的压缩包括计算矩阵距离和量化压缩。本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题，又探究了对模型进行量化压缩的方法，获得了更大的压缩率和更高的精准度。

Description

一种多源神经机器翻译模型的融合和压缩方法

技术领域

本发明涉及一种神经机器翻译方法，尤其涉及一种多源神经机器翻译模型的融合和压缩方法，属于自然语言处理应用技术领域。

背景技术

近些年来，随着自然语言处理各项任务的日趋成熟，基于深度学习的神经机器翻译方法获得迅速发展，已在很多领域上取代传统的统计机器翻译，成为学术界和工业界新的主流方法。神经机器翻译模型的训练基于大规模的平行语料，在英汉和日汉等语料资源丰富的语种的翻译中已经取得了很好的效果。但是，在平行语料不足的情况下，神经机器翻译的表现较差，比如汉语和少数民族语言之间的翻译，因此，需要一种基于多源模型的方法，能够将资源丰富的语言信息应用到资源稀缺语言翻译任务中，即如何更有效地将不同语种的信息进行融合。进一步地，多源机器翻译模型存在着体积大、参数多的问题，给模型存储带来了很大的压力，需要一种基于量化压缩的方法，对模型中矩阵的权重分类存储，减小模型的存储空间。由此可见，本发明是一项既有学术意义又有实用价值的研究课题。

多源神经机器翻译，顾名思义，是多种源语言共同转换为一种目标语言的机器翻译过程。相比于单源的神经机器翻译，多源系统可以获得更多的编码信息，进而提升翻译效果。但是，如果辅助源语言的质量差，则会降低翻译效果，目前，关于如何提升多源模型的鲁棒性的研究并不充分，仍处于探索阶段。另一方面，关于多源模型体积大、参数多带来的模型存储问题，现阶段也鲜有针对多源模型压缩问题的研究。

发明内容

本发明的目的是为解决以往在神经机器翻译中存在的下述问题：1)针对神经机器翻译依赖大规模语料库，语料不足时存在的翻译质量低的问题；2)针对多源机器翻译系统没有考虑辅助语料质量差带来的翻译质量下降问题；3)针对多源模型体积大、参数多带来的模型存储问题，提出一种多源神经机器翻译模型的融合和压缩方法，使用CNN融合的多源神经机器翻译解决语料不足的问题，使用门控机制解决辅助语料质量差的问题，根据不同的矩阵距离选择不同的量化压缩方法解决模型存储问题。

为实现上述目的，本发明所采用的技术方案如下：

本发明技术方案的思想是：首先，构建基于Transformer的多源机器翻译模型；其次，使用CNN融合多个源的编码信息；再次，使用门控机制使模型可以自主选择是否使用辅助源语言；最后，根据矩阵间的距离不同，对矩阵进行不同方式的量化压缩；

其中，多源机器翻译模型又包括编码器和解码器，所述模型的压缩包括计算矩阵距离和量化压缩两个过程。

本发明的具体技术方案如下：

一种多源神经机器翻译模型的融合和压缩方法，具体包括以下步骤：

步骤一、语料预处理，输出模型的输入序列，具体包括过滤乱码句对、汉语分词、Tokenization和划分亚词；

其中，划分亚词是为了避免稀疏问题和缩小词表，得到的亚词为模型的最小输入单元，划分亚词的结果作为步骤二编码器的输入；

步骤二、构建模型的编码器，并基于构建的编码器对步骤一得到的输入单元进行编码，将K个编码器的编码结果进行融合，融合后的结果作为步骤三解码器的输入；

其中，编码器的数量为K个，K的取值范围为K≥1；当K＝1时，模型退化为普通的单源神经机器翻译；每个编码器包括6个相同的层，每一层又由两个子层构成；

步骤二，具体包括如下子步骤：

步骤2.1位置编码，具体为：对步骤一输出的每一个输入序列进行绝对位置编码，即每个词的绝对位置编码为1，其他位置编码为0；

步骤2.2多头自注意力层编码，具体为：对每个输入序列，经过多头自注意力计算得到序列的编码结果，将多个头的输出拼接作为多头自注意力层的输出；

步骤2.3残差归一化，具体为：经过残差归一化层，即把前一层的信息无差的传递到下一层；

步骤2.4经过全连接层，即常规前馈神经网络；

其中，该常规前馈神经网络中激活函数为ReLU；

步骤2.5经过第二次残差归一化层，该层的输出为不同源编码器的最终输出，为多个三维矩阵；

步骤2.6融合过程：通过CNN对多个源的输出进行融合，具体为：将步骤2.5得到的多个三维矩阵在第四维度上拼接成为四维矩阵，使用(3*3*3*1)大小的滤波器进行卷积，卷积步长为(1，1，1，1)，并使用padding进行填充，使得矩阵的前三个维度不会缩小，使用ReLU函数进行激活，如公式(1)所示：

enc＝ReLU(Conv(enc₁,enc₂,enc₃)) (1)

其中，enc₁,enc₂,enc₃分别表示三种源语言，enc₁为主任务源语言的编码信息，enc₂和enc₃为辅助源语言的编码信息，Conv表示卷积操作，ReLU表示激活操作；

步骤2.7选择过程：使用全连接网络实现门控，全连接网络的最后一层使用sigmoid激活函数，输出的值直接作为概率，使得模型可以自主选择是否接收来自辅助源语言的编码信息，该层的输出result即为解码器的输入，如公式(2)所示：

result＝σ*enc+(1-σ)*enc₁ (2)

其中，σ表示门控机制得到的权重；

步骤三、构建模型解码器，并进行解码，得到解码输出，输出的结果即为最终翻译的结果：模型的解码器与原Transformer解码器结构相同，即包括位置编码、多头自注意力机制、多头注意力层、全连接层，最后通过softmax做最后阶段的预测，使用该解码器对步骤二融合后的结果进行解码，将softmax计算后得到的分数最高的词作为当前时刻的输出；

步骤四、计算矩阵距离：对步骤二中构建的K个编码器中的矩阵进行纵向比较，由于多个编码器结构一致，因此矩阵形状相同，仅数值不同；

计算纵向比较的矩阵之间的L1范数作为矩阵间的距离；

步骤五、量化压缩：根据步骤四中求得矩阵距离的不同，选择不同的量化压缩方式对步骤二中构建的K个编码器中的矩阵进行压缩。

有益效果

本发明提出的一种多源神经机器翻译模型的融合和压缩方法，与现有融合和压缩方法相比，具有如下有益效果：

1.与现有的多源机器翻译模型对比，得出了使用融合隐藏状态的方法实现多源翻译模型会对多个源语言进行更深层次的融合这一结论，从这个结论出发，提出了本发明使用卷积神经网络对多源翻译模型中不同源语言进行融合的方法，使得模型的BLEU值有了一定程度的提升；

2.本发明所述方法对于实验中辅助源语言质量不佳的情况，提出了基于选择的多源机器翻译模型，使得BLEU值有了显著的提升；

3.本发明所述方法针对多源模型结构复杂、参数多带来的存储空间过大问题，又探究了对模型进行量化压缩的方法，获得了更大的压缩率和更高的精准度。

附图说明

图1为本发明多源神经机器翻译模型的融合和压缩方法的系统架构图；

图2为本发明多源神经机器翻译模型的融合和压缩方法共享压缩的举例示意；

图3为本发明多源神经机器翻译模型的融合和压缩方法矩阵差的量化的举例示意。

具体实施方式

下面结合附图和实施例，对本发明多源神经机器翻译模型的融合和压缩的具体实施方式作进一步详细说明。

实施例1

本发明适用于源语言资源丰富而目标语言资源稀缺情形下的神经机器翻译任务。例如，汉语、英语、德语等语言资源丰富，已有许多成熟的翻译系统，而在汉语到蒙语的翻译任务中，两者之间平行语料稀缺，难以直接训练有效的翻译系统。基于此，本发明利用汉语语料以及汉英、汉德翻译系统得到平行的英语和德语语料，利用三个编码器编码三种源语言(汉语、英语和德语)，并将得到的结果进行融合以便于解码器解码。使用这种方法让翻译模型学习到更多语言信息，优化翻译效果。

这里先给出本发明具体实施的背景，比如现实生活中，需要对xx进行翻译，基于这个需求，应用本发明所述的方法。具体要对啥进行翻译，为啥要融合，要详细阐述。

每个图都需要解释，目前仅仅解释了图1。

说明书附图为本发明多源神经机器翻译模型的融合和压缩方法的系统架构图，其中，图1为多源神经机器翻译模型的融合过程，图2为共享压缩的举例示意，图3为矩阵差的量化举例示意。本实施例首先介绍基于Transformer的多源机器翻译模型的构建，接着具体介绍对多个源的融合方法，然后介绍矩阵间距离的计算方法，最后介绍如何根据不同矩阵距离选择不同的量化压缩方法。

根据步骤一进行语料预处理，实现步骤如下：

(1)获取训练语料：实验中K的取值为3，即包括3种源语言，分别为汉语、英语和德语。原始语料仅包括主任务源语言(汉语)和目标语言(蒙语)之间的双语平行语料，其中目标语言(蒙语)为稀缺语言，首先需要通过汉语爬虫获取辅助语种源语言(实验中选择英语、德语作为辅助语言)，合成四语伪平行语料；

(2)过滤乱码句子：对多语平行语料中存在明显乱码的句子予以剔除；

(3)词级切分：对没有词边界标记语种的句子(汉语)进行词级切分；

(4)Tokenization：采用Moses tokenizer对所有语种进行Tokenization；

(5)划分亚词：对所有语种的句子进行亚词的划分，以避免稀疏问题和缩小词表。

根据步骤二进行模型编码器的构建，实现步骤如下：

(1)对每一个输入序列进行绝对位置编码(对应图1中的positional encoding)，即每个词的绝对位置编码为1，其他位置编码为0；

(2)对每个输入序列，经过多头自注意力(对应图1中的multi-head attention)计算得到序列的编码结果，将多个头的输出拼接作为多头自注意力层的输出；

(3)经过残差归一化层，即把前一层的信息无差的传递到下一层；

(4)经过全连接层(对应图1中的feed forward)，即常规的前馈神经网络，通过ReLU函数激活；

(5)经过第二次残差归一化层，该层的输出为不同源编码器的最终输出，为多个三维矩阵；

(6)通过CNN对多个源的输出进行融合，具体做法是将步骤(5)得到的三个三维矩阵在第四维度上拼接成为四维矩阵，使用(3*3*3*1)大小的滤波器进行卷积，卷积步长为(1，1，1，1)，并使用padding进行填充，使得矩阵的前三个维度不会缩小，使用ReLU函数进行激活，其中enc₁代码汉语编码器的输出，enc₂代表英语编码器的输出，enc₃代表德语编码器的输出：

enc＝ReLU(Conv(enc₁,enc₂,enc₃)) (3)

(7)使用全连接网络实现门控，全连接网络的最后一层使用sigmoid激活函数，输出的值可以直接作为概率，使得模型可以自主选择是否接收来自辅助源语言的编码信息，该层的输出即为解码器的输入：

result＝σ*enc+(1-σ)*enc₁ (4)

根据步骤三，构建模型解码器，实现步骤如下：

(1)位置编码(positional encoding)：对每一个输入序列进行绝对位置编码，即每个词的绝对位置编码为1，其他位置编码为0；

(2)多头自注意力层(maskedmulti-head attention)编码和残差归一化：对目标语言进行多头自注意力层编码，接着，对来自多头自注意力层的结果进行残差连接和归一化操作；

(3)多头注意力层(multi-head attention)和残差归一化：使用多头注意力层对来自编码器的信息和来自解码器的信息进行整合，对多头注意力层输出的结果同样要进行残差归一化操作；

(4)全连接层(feed forward)和残差归一化：解码器的下一层是全连接层，和编码器的全连接层结构一致，即常规的前馈神经网络，通过ReLU函数激活；

(5)线性层(linear)和softmax：对解码器上一层的输入，经过一个简单的线性层，作用是把解码器输出的向量映射到一个大很多的logits向量上，接着进行softmax，即最后的预测阶段，将softmax计算后得到的分数最高的词作为当前时刻的输出。

根据步骤四计算矩阵距离，实现步骤如下：

(1)对三个编码器中的矩阵进行纵向比较，由于三个编码器结构一致，因此矩阵形状相同，仅数值不同；

(2)将三个编码器的纵向比较矩阵记为W₁、W₂和W₃，计算W₂和W₁之间以及W₃和W₁之间的L1范数，作为矩阵间的距离；

(3)将距离划分为三个等级：距离很小、距离较小和距离较大。

步骤五、量化压缩：根据步骤四中求得矩阵距离的不同，选择不同的量化压缩方式。具体实施时，以K＝3为例，将纵向比较的三个矩阵记为W₁、W₂和W₃，以W₁为基准，计算W₂和W₃与W₁之间的L1范数作为其矩阵间的距离；

(1)若矩阵距离很小，则直接将W₁矩阵参与量化，量化后得到W₁索引矩阵，W₂和W₃不再进行量化操作，直接将其矩阵的地址指向W₁的索引矩阵，获得更大的压缩率；

(2)若矩阵距离较小，则将W₁、W₂与W₁的差矩阵和W₃与W₁的差矩阵分别量化，获得更精准的压缩效果：

在压缩阶段，将W₂和W₃分别与W₁做差，得到的矩阵记为W_2-1和W_3-1：

W_2-1＝W₂-W₁

W_3-1＝W₃-W₁ (5)

然后将W₁、W_2-1和W_3-1入量化区间，进行量化压缩。

在还原阶段，W₁、W_2-1、W_3-1每个对应一个量化矩阵，分别记为W_1q、W_2-1q和W_3-1q，将量化还原对应的操作记为re，则W₁的还原矩阵记为W_1re，W₂的还原矩阵记为W_2re，W₃对应的还原矩阵为W_3re。W_1re、W_2re、W_3re的计算方式如下：

W_2re＝W_1re+W_2-1re

W_3re＝W_1re+W_3-1re (6)

(3)若矩阵距离较大，则将W₁、W₂和W₃分别量化，即退化为常规的量化压缩方法。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种多源神经机器翻译模型的融合和压缩方法，其特征在于：首先，构建基于Transformer的多源机器翻译模型；其次，使用CNN融合多个源的编码信息；再次，使用门控机制使模型可以自主选择是否使用辅助源语言；最后，根据矩阵间的距离不同，对矩阵进行不同方式的量化压缩；

其中，多源机器翻译模型又包括编码器和解码器，所述模型的压缩包括计算矩阵距离和量化压缩两个过程；

所述融合和压缩方法，具体包括以下步骤：

其中，划分亚词的结果作为步骤二编码器的输入；

步骤二、构建模型的编码器，并基于构建的编码器对步骤一得到的输入单元进行编码，将编码结果进行融合，融合后的结果作为步骤三解码器的输入；

步骤二，具体包括如下子步骤：

步骤2.4经过全连接层，即常规前馈神经网络；

enc＝ReLU(Conv(enc₁,enc₂,enc₃)) (1)

result＝σ*enc+(1-σ)*enc₁ (2)

其中，σ表示门控机制得到的权重；

进行纵向比较的矩阵之间的L1范数作为矩阵间的距离；

2.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法，其特征在于：步骤一中，划分亚词是为了避免稀疏问题和缩小词表，得到的亚词为模型的最小输入单元。

3.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法，其特征在于：步骤二中，编码器的数量为K个，K的取值范围为K≥1；当K＝1时，模型退化为普通的单源神经机器翻译；每个编码器包括6个相同的层，每一层又由两个子层构成。

4.根据权利要求1所述的一种多源神经机器翻译模型的融合和压缩方法，其特征在于：步骤2.4中，该常规前馈神经网络中激活函数为ReLU。