CN112257464B

CN112257464B - 一种基于小型智能移动设备的机器翻译解码加速方法

Info

Publication number: CN112257464B
Application number: CN202011212054.6A
Authority: CN
Inventors: 杜权; 徐萍
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-08-22
Anticipated expiration: 2040-11-03
Also published as: CN112257464A

Abstract

本发明公开一种基于小型智能移动设备的机器翻译解码加速方法，步骤为：1)构建训练平行语料及基于注意力机制的神经机器翻译模型，利用平行语料生成机器翻译词表，进一步训练得到训练收敛后的模型作为对比的基线模型；2)将神经机器翻译模型中解码端的三个子层合为一个，增强模型的并行能力，到达解码加速的目的；3)解码改进后的神经机器翻译模型，计算解码加速倍数；4)将改进后的神经机器翻译模型运行于小型智能移动设备中。本发明应用于小型智能移动设备中，通过改进基于自注意力机制的机器翻译模型结构，将机器翻译解码端的多个子层进行融合，从而提高模型的并行能力，能够加速机器翻译的解码过程。

Description

一种基于小型智能移动设备的机器翻译解码加速方法

技术领域

本发明涉及一种神经机器翻译模型解码加速技术，具体为基于小型智能移动设备的机器翻译解码加速方法。

背景技术

小型智能移动设备成为人们不可缺少的知识获取来源，由于人们对各种类型应用的需求，各类APP软件频繁被小型智能移动设备用户下载并存储，导致小型智能移动设备出现卡顿的问题。单纯增大小型智能移动设备容量会导致硬件成本过高，增加用户经济负担，因此从另一个角度考虑，应尽量减少小型智能移动设备上APP软件的空间占用量。

机器翻译在现阶段有着广泛的应用需求，智能翻译软件也被广泛应用于移动设备中。端到端的神经机器翻译通过神经网络模型直接实现从源语言到目标语言的翻译，所采用的主要框架是编码器-解码器(Encoder-Decoder)框架。编码器-解码器框架将翻译任务看作序列到序列的转换，即将翻译过程看作从源语言序列转换成目标语言序列的过程。该过程主要包括两个步骤：(1)源语言端，编码器将源语言序列编码成源语言上下文向量；(2)目标语言端，解码器根据编码器提供的源语言上下文向量生成目标语言序列。

谷歌在2017年提出了完全基于注意力机制的模型结构，这种网络结构完全由注意力机制组成，更准确地讲，它仅由注意力机制和前馈神经网络组成。基于注意力机制的模型仍是基于编码器-解码器框架，通过堆叠多个相同的栈，分别组成了编码器和解码器，编码器和解码器的子层结构略有不同，在机器翻译任务的多个数据集上翻译性能得到显著提高，并达到了当时的最好性能，而且具备更快的训练速度。在生成一个目标语单词时，基于注意力机制的神经网络会基于得到的不同的注意力对不同源语位置向量进行加权求和，得到不同的上下文向量。注意力机制的引入使得不同源语言位置对目标语单词生成的贡献度不同，神经网络中信息流的传递变得更为高效，有助于神经网络模型的学习。

虽然当前这种模型已经取得了不错的性能，但仍存在着一个问题：当前的神经网络模型规模过于庞大，虽然模型性能不断增强，但在存储和计算资源受限的小型智能移动设备(如：手机、平板电脑等移动设备)部署此类模型却面临着巨大的挑战。由于此类设备的资源受限又要求实时的响应速度，因此需要提升翻译模型在小设备上的解码速度，满足用户的翻译需求。

发明内容

针对现有技术中机器翻译的计算过于复杂而不能部署在存储资源和计算资源受限的小设备上的问题，本发明要解决的技术问题是提供一种基于小型智能移动设备的机器翻译解码加速方法，将机器翻译模型中解码端的三个子层合为一个，增强模型的并行能力，到达解码加速的目的。本发明能够在多个机器翻译任务数据集上显著加速模型解码速度，并保证模型的性能没有明显下降。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于小型智能移动设备的机器翻译解码加速方法，包括以下步骤：

1)构建训练平行语料及基于注意力机制的神经机器翻译模型，利用平行语料生成机器翻译词表，进一步训练得到训练收敛后的模型作为对比的基线模型；

2)将神经机器翻译模型中解码端的三个子层合为一个，增强模型的并行能力，到达解码加速的目的；

3)解码改进后的神经机器翻译模型，计算解码加速倍数；

4)将改进后的神经机器翻译模型运行于小型智能移动设备中。

步骤1)中，训练基于注意力机制的神经机器翻译模型，得到符合要求的基线模型；基于注意力机制的神经机器翻译模型包括编码端和解码端，使用注意力机制的计算方式为：

MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)w

MultiHead(Q,K,V)为多头注意力机制，Concat(·)为级联操作，head₁,head₂,…,head_h代表模型中的h个头，W为线性变换矩阵，其中每个头的注意力计算公式为：

其中SoftMax(·)为归一化函数，Q、K和V分别为参与计算的不同的线性变换矩阵，d_k为K矩阵每个头的维度大小。

步骤2)中三个子层分别为自注意力子层、编码解码注意力子层、前馈神经网络子层，子层间还用残差网络连接；

将机器翻译模型中解码端的三个子层合为一个，增强模型的并行能力，到达解码加速的目的，具体为：

201)融合自注意力子层和编码解码注意力子层，将残差网络中一层的输出分解为前一层的所有输出之和；对于相邻的自注意力子层和编码解码注意力子层，将它们的最终输出写为Y＝X+Self(X)+Cross(X₀,H)，其中X是自注意力子层的输入，X₀＝X+self(X)和H是编码解码注意力子层的输入，其中X₀来自自注意力子层输出，H来自编码器输出，Cross(X₀，H)为编码解码注意力子层计算；如果X和X₀相同，通过并行处理这两个注意事项来加速Y的计算；

202)将注意力层和前馈神经网络子层相融合，将注意力和FFN用相同的方法合并以进一步提高速度，注意力只是加权和，而FFN首先是线性投影，利用线性度将二者合并；

步骤3)中，进行改进后神经机器翻译模型的解码，得到融合子层后机器翻译模型解码结果，具体为：根据步骤1)中所训练的基线神经机器翻译模型和步骤2)中改进后神经机器翻译模型进行解码，得到改进后神经机器翻译模型的解码速度，与基线模型进行比较，得到解码加速倍数。

本发明具有以下有益效果及优点：

1.本发明应用于小型智能移动设备中，通过改进基于自注意力机制的机器翻译模型结构，将机器翻译解码端的多个子层进行融合，从而提高模型的并行能力，能够加速机器翻译的解码过程。

2.本发明能够在多个机器翻译任务数据集上显著加速模型解码速度，并保证模型的性能维持在原有水平。

附图说明

图1为神经机器翻译编码解码注意力机制示意图；

图2为多头注意力机制示意图；

图3为本发明中提出的融合子层模型与基线模型对比示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明追求更高效的架构，模型结构改进是当前机器翻译模型加速常用的一种手段，通过改进模型结构，消除冗余的计算，可以在不明显损失模型性能的前提下加速模型的计算过程。

2)将神经机器翻译模型中解码端的三个子层合为一个，增强模型的并行能力，达到解码加速的目的；

3)解码改进后的神经机器翻译模型，计算解码加速倍数；

在步骤1)中，训练基于注意力机制的神经机器翻译模型，得到符合要求的基线模型；基于注意力机制的神经机器翻译模型包括编码端和解码端，使用注意力机制的计算方式为：

MultiHead(Q，K，V)＝Concathead₁，head₂，...，head_h)w

本步骤中编码端和解码端结构如图1所示。

注意力机制是神经机器翻译模型中重要的组成部分，如图2所示，矩阵Q包括了l个词向量，组成了一个查询(Query)矩阵，矩阵K^T包括了l个词向量的转置，组成了一个关键值(Key)矩阵，其中词向量为模型中间层的数值表示。在最初的编码器-解码器框架中，由于上述原因导致神经网络难以学习到源端和目标端的对应信息，翻译系统对输入较长的句子的翻译效果较差。

步骤2)中三个子层分别为自注意力子层、编码解码注意力子层、前馈神经网络子层，子层间还用残差网络连接；模型结构如图1所示。

201)融合自注意力子层和编码解码注意力子层，将残差网络中一层的输出分解为前一层的所有输出之和；对于相邻的自注意力子层和编码解码注意力子层，将它们的最终输出写为Y＝X+Self(X)+Cross(X₀,H)，其中X是自注意力子层的输入，X₀＝X+self(X)和H是编码解码注意力子层的输入，其中X₀来自自注意力子层输出，H来自编码器输出，Cross(X₀，H)为编码解码注意力子层计算；如果X和X₀相同，通过并行处理这两个注意事项来加速Y的计算，因为X₀不需要等待self(X)完成；

202)将注意力层和前馈神经网络子层相融合，考虑将注意力和FFN用相同的方法合并以进一步提高速度是很自然的，考虑注意力只是加权和，而FFN首先是线性投影，可以利用线性度将它们合并。这种方式不仅使注意力和FFN的计算并行化，而且消除了多余的矩阵乘法；

经过以上两步，模型中的自注意力子层、编码解码注意力子层、前馈神经网络子层已经由三个子层融合至一个，极大增强了解码时模型的并行度。

步骤202)主要解决如何将机器翻译模型解码端中自注意力子层、编码解码注意力子层、前馈神经网络子层这三个子层合并到一个的问题。

步骤201)中原有的自注意力子层、编码解码注意力子层为串行计算，自注意力子层的输出为编码解码注意力子层的输入。

公式Y＝X+Self(X)+Cross(X₀，H)，由于X和X₀通常是近似的，上面公式可以化简为式Y＝X+Self(X)+Cross(X,H)。

步骤202)中将注意力层和前馈神经网络子层相融合，由于注意力层计算和相邻交叉注意输入和FFN的输入之间的相似度很低。这意味着和201)中进行相同的输入假设以使注意力层和前馈神经网络子层并行化是不理想的。但是鉴于注意力只是加权和，而前馈神经网络首先是线性投影，我们可以利用线性变换将它们合并。这种方式不仅使注意力和FFN的计算并行化，而且消除了多余的矩阵乘法。

步骤3)中，进行改进后神经机器翻译模型的解码，得到融合子层后机器翻译模型解码结果，具体为：根据步骤1)中所训练的基线神经机器翻译模型和步骤2)中改进后神经机器翻译模型进行解码，得到改进后神经机器翻译模型的解码速度，与基线模型进行比较，得到解码加速倍数；融合子层模型与基线模型对比示意图如图3所示。

本发明能够在多个机器翻译任务数据集上显著加速模型解码速度，并保证模型的性能没有明显下降。

在基于自注意力机制的神经机器翻译系统中，从某种程度上而言，模型结构的可解释性更强了。以编码端为例，在每一层内主要包含自注意力的子层和前馈网络的子层。其中前馈网络的结构主要目的在于增加模型的表达能力，将自注意力子层的信息进行整合后送入下一层。而自注意力机制的操作则可以看作是对源语词向量的富集抽象。但当前的神经网络模型模型规模过于庞大，虽然有着性能上的优势，但将此规模的模型部署在存储和计算资源受限的小设备上却面临着巨大的挑战。模型结构改进是当前机器翻译模型加速常用的一种手段，通过改进模型结构，消除冗余的计算，可以在不明显损失模型性能的前提下加速模型的计算过程。

本发明延续模型结构改进方法，提出了一种基于子层融合的机器翻译解码加速方法，

本发明实验在WMT14英德、WMT14英法和WMT17五个翻译任务上进行实验，双向翻译总共14个语言方向，性能与强大的基线相当。本发明要求手机内存至少为4GB，存储需求为500M，实验在华为mate30和nova7进行，在两种硬件上的加速分别为1.37倍和1.29倍。

在这项工作中，建议并行化自注意力子层、编码解码注意力子层、前馈神经网络子层以获得浅层自回归解码器。这种方式不会遭受直接减小深度的不良结果，并且避免了非自回归方法的局限性。如果假设解码器层中的两个注意子层的输入彼此接近，则它们可以并行化。这个假设成立，因此将这两个注意点压缩为一个。此外，由于其线性，其余的前馈网络也可以合并到注意力中。

将改进后的神经机器翻译模型运行于小型智能移动设备中表现良好，成功加速了神经机器翻译模型的解码过程。

本发明将从模型结构改进角度将基于自注意力机制的神经机器翻译系统中解码端的子层进行融合，将串行计算模块改为并行计算，旨在以较小性能损失为代价，实现模型的解码速度提升。

Claims

1.一种基于小型智能移动设备的机器翻译解码加速方法，其特征在于包括以下步骤：

3)解码改进后的神经机器翻译模型，计算解码加速倍数；

4)将改进后的神经机器翻译模型运行于小型智能移动设备中；

MultiHead(Q，K，V)＝Concat(head₁，head₂，...，head_h)W

其中SoftMax(·)为归一化函数，Q、K和V分别为参与计算的不同的线性变换矩阵，d_k为K矩阵每个头的维度大小；