CN112287697A

CN112287697A - 一种加快小型智能移动设备中翻译软件运行速度的方法

Info

Publication number: CN112287697A
Application number: CN202011212798.8A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-29

Abstract

本发明公开一种加快小型智能移动设备中翻译软件运行速度的方法，包括以下步骤：1)训练两个基于自注意力机制的神经机器翻译模型，包括一个大模型和一个小模型；2)构建参数生成器，其输入为大模型的参数，输出为小模型的参数，通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程；3)进行小模型的解码，得到机器翻译模型解码结果，证明小模型的实用价值；4)将小模型应用到小型智能移动设备中，实现快速解码的应用。本发明充分利用知识迁移将大模型知识转移到小模型的优势，能够在当前性能最好模型的基础上实现，且在模型性能几乎没有下降的前提下，实现模型的压缩并提升实时相应速度。

Description

一种加快小型智能移动设备中翻译软件运行速度的方法

技术领域

本发明涉及一种神经机器翻译模型压缩和加速技术，具体为加快小型智能移动设备中翻译软件运行速度的方法。

背景技术

小型智能移动设备成为人们不可缺少的知识获取来源，由于人们对各种类型应用的需求，各类APP软件频繁被小型智能移动设备用户下载并存储，导致小型智能移动设备出现卡顿的问题。单纯增大小型智能移动设备容量会导致硬件成本过高，增加用户经济负担，因此从另一个角度考虑，应尽量减少小型智能移动设备上APP软件的空间占用量。

机器翻译在现阶段有着广泛的应用需求，智能翻译软件也被广泛应用于移动设备中。在上世纪九十年代初IBM和AT&T等机构提出了统计机器翻译(statistical machinetranslation)的思想。与传统方法不同，统计机器翻译把翻译问题看作是搜索翻译概率最大的译文的问题。在翻译建模方面，研究者从最开始的产生式模型逐渐进化到判别式模型，从开始的基于词的模型逐渐演变为基于短语的模型，甚至基于句法的模型。特别是在2005年，谷歌公司正式把机器翻译作为互联网在线服务推出，普通用户可以免费享受技术发展所带来的红利，这些都大大促进了机器翻译技术研发及产品化的步伐。由于统计机器翻译具有系统健壮性高、对人工依赖少等特点，时至今日它仍然是许多实用系统所使用的主要框架之一。

注意力机制可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置，投入更多的注意力在更重要的位置，而对不太重要的位置只需投入较少的注意力，使神经网络更容易的捕获到和当前目标端单词更相关的源语信息，从而使得神经网络对目标语言的预测更为准确。在生成一个目标语单词时，基于注意力机制的神经机器翻译模型会基于得到的不同的注意力对不同源语位置向量进行加权求和，得到不同的上下文向量。注意力机制的引入使得不同源语言位置对目标语单词生成的贡献度不同，使得神经网络中信息流的传递变得更为高效，有助于神经网络模型的学习。

虽然当前这种模型已经取得了不错的性能，但仍存在着一个问题：当前的神经网络模型规模过于庞大，虽然这种大模型(参数量为千万级、上亿级别)性能不断增强，但在存储和计算资源受限的小型智能移动设备(如：手机、平板电脑等移动设备)部署此类模型却面临着巨大的挑战。由于此类设备的资源受限又要求实时的响应速度，因此需要将大模型转变为小模型(即参数量为百万级别)，从而提升翻译模型在小设备上的解码速度，满足用户的翻译需求。

发明内容

针对现有技术中机器翻译的模型规模庞大而不能部署在存储资源和计算资源受限的小设备上的问题，本发明要解决的技术问题是提供一种加快小型智能移动设备中翻译软件运行速度的方法，充分利用知识迁移能够将大模型知识转移到小模型的优势，能够在当前最强模型的实现基础上，且在模型性能几乎没有下降的前提下，实现模型的压缩并提升实时相应速度。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种加快小型智能移动设备中翻译软件运行速度的方法，包括以下步骤：

1)训练两个基于自注意力机制的神经机器翻译模型，包括一个大模型和一个小模型；

2)构建参数生成器，其输入为大模型的参数，输出为小模型的参数，通过训练参数生成器将大模型参数中的知识传递到小模型中完成知识的迁移过程；

3)进行小模型的解码，得到机器翻译模型解码结果，证明小模型的实用价值；

4)将小模型应用到小型智能移动设备中，实现快速解码的应用。

在步骤1)中，大模型和小模型均为基于注意力机制的神经机器翻译模型，包括编码端和解码端，使用注意力机制；当使用的注意力机制为多头时，注意力机制计算方式为：

MultiHead(Q，K，V)＝Concat(head₁，head₂，……，head_h)W_o

其中，MultiHead(Q，K，V)为多头注意力机制，head₁，head₂，……，head_h代表模型中的h个头，W_o为线性变换矩阵和Concat级联操作；

每个头的注意力计算公式为：

其中SoftMax(·)为归一化函数，Q、K和V分别为参与计算的不同的线性变换矩阵，d_k为K矩阵每个头的维度大小。

骤2)中构建参数生成器，具体为：

201)由三种线性变换矩阵组成参数生成器，该参数生成器进行输入、输出、层数这三个维度矩阵(W_in，W_out，W_layer)的由大到小的变换，实现将大模型参数知识转移到小模型中的目的；

202)固定大模型参数W_teacher，训练W_in，W_out，W_layer这三个参数矩阵；

203)将W_teacher和W_in，W_out，W_layer进行组合得到小模型的参数矩阵W_student；

204)对W_student在训练数据上进行微调，使小模型适应数据集。

步骤3)中，进行小模型的解码，得到机器翻译模型解码结果，是根据步骤2)中参数生成器训练和生成的小模型进行解码，得到小模型解码结果并进行性能和速度的评价。

本发明具有以下有益效果及优点：

1.本发明加快小型智能移动设备中翻译软件运行速度的方法充分利用知识迁移将大模型知识转移到小模型的优势，能够在当前性能最好模型的基础上实现，且在模型性能几乎没有下降的前提下，实现模型的压缩并提升实时相应速度。

2.本发明能够在保证模型性能不变的前提下，减小模型解码和存储的硬件成本代价，提高了翻译软件在小型智能移动设备中的运行速度，解决了小型智能移动设备容易卡顿的问题。

附图说明

图1为本发明加快小型智能移动设备中翻译软件运行速度的方法中神经机器翻译编码解码注意力机制示意图；

图2为多头注意力机制示意图；

图3为本发明中参数生成器结构示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明将从模型压缩角度对基于自注意力机制的神经机器翻译系统中知识进行大模型到小模型中的迁移，旨在以较小性能损失为代价，实现模型的压缩并提升实时相应速度。

本发明一种基于机器翻译任务的小模型生成方法，包括以下步骤：

4)将小存储翻译模型应用到小型智能移动设备中，实现快速解码的应用。

MultiHead(Q，K，V)＝Concat(head₁，head₂，……，head_h)W_o

其中，MultiHead(Q，K，V)为多头注意力机制，head₁，head₂，……，head_h代表模型中的h个头，W_o为线性变换矩阵和Concat级联操作。

每个头的注意力计算公式为：

本步骤训练两个规模不同的模型，参数量多的为大模型，参数量少的为小模型，两个不同规模的模型都是基于注意力机制的神经机器翻译模型。

基于注意力机制的神经机器翻译模型包括编码端和解码端，结构如图1所示。注意力机制是神经机器翻译模型中重要的组成部分，如图2所示，矩阵Q包括了l个词向量，组成了一个查询(Query)矩阵，矩阵K^T包括了l个词向量的转置，组成了一个关键值(Key)矩阵，其中词向量为模型中间层的数值表示。在最初的编码器-解码器框架中，由于上述原因导致神经网络难以学习到源端和目标端的对应信息，翻译系统对输入较长的句子的翻译效果较差。针对这一问题，研究人员提出了基于注意力机制的神经机器翻译，此模型可以动态的计算源语言的上下文，有利于神经网络学到更多的全局信息，还可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置，投入更多的注意力在更重要的位置，而对不太重要的位置只需投入较少的注意力，使神经网络更容易的捕获到和当前目标端单词更相关的源语信息，从而使得神经网络对目标语言的预测更为准确。

在生成一个目标语单词时，基于注意力机制的神经网络会基于得到的不同的注意力对不同源语位置向量进行加权求和，得到不同的上下文向量。注意力机制的引入使得不同源语言位置对目标语单词生成的贡献度不同，使得神经网络中信息流的传递变得更为高效，有助于神经网络模型的学习。

步骤2)中构建参数生成器，参数生成器结构如图3所示，具体为：

203)将W_teacher和W_in，W_out，W_layer进行组合得到小模型的参数矩阵W_student。

204)对W_student在训练数据上进行微调，使小模型适应数据集。

本步骤主要解决机器翻译模型中大模型中参数如何迁移到小模型的问题。

步骤3)中，进行小模型的解码，得到机器翻译模型解码结果，具体为：根据步骤2)中参数生成器训练和生成的小模型进行解码，得到小模型解码结果并进行评价。

本发明以HUAWEI MatePad 10.8为例，处理器为八核心，系统内存为6GB，存储容量为64GB。使用本发明模型占存储为107M，仅占总配置的0.16％，原有模型为1.34GB，极大节省了手机存储空间，这种容量级别的软件可以安装612个，可以满足用户多方面需求，且缓解智能设备上的卡顿现象。

通过使用本发明方法，能够在当前最强模型的实现基础上，且在模型性能几乎没有下降的前提下，实现模型的压缩并提升实时相应速度。

在基于自注意力机制的神经机器翻译系统中，从某种程度上而言，模型结构的可解释性更强了。以编码端为例，在每一层内主要包含自注意力的子层和前馈网络的子层。其中前馈网络的结构主要目的在于增加模型的表达能力，将自注意力子层的信息进行整合后送入下一层。而自注意力机制的操作则可以看作是对源语词向量的富集抽象。但当前的神经网络模型模型规模过于庞大，虽然有着性能上的优势，但将此规模的模型部署在存储和计算资源受限的小设备上却面临着巨大的挑战。知识迁移是当前模型压缩常用的一种手段，它就是将已经训练好的模型包含的知识，通过迁移提取到另一个模型里面去，一般认为大模型的学习能力更强，本发明中的知识迁移就是将大模型中的知识提取到小模型中从而实现模型压缩的目的。

本发明延续知识精炼方法，提出了一种基于机器翻译任务的小模型生成方法，本实施例在WMT16英罗、WMT14英德和NIST12中英三个翻译任务上进行实验。利用本发明方法可以训练一个比大模型快1.75～2.98倍的学生网络，同时模型性能不受损失。在相同规模的小型网络中，本发明方法可以达到大模型的性能和小模型的解码速度。

当前基于注意力机制的神经网络模型已经被广泛应用于神经机器翻译任务中，深层模型更是进一步提升了神经机器翻译的性能，并且我们发现，不断的增加解码器的层数可以不断的增加模型的性能，但是考虑到训练的时间成本和硬件的限制，往往不能无限制的增加编码器的层数，而且层数越深，模型也难以收敛。同时，网络的发展使我们能够获得更多双语训练数据。然而更多模型参数和更多的训练数据在带来更强大的翻译性能的同时也增大了模型训练的代价，我们需要更多的训练时间，更强大的硬件。在此情景下本发明方法可以极大的减少模型推断的时间代价和模型存储的硬件成本代价，同时模型性能不会受到影响。

知识迁移是当前模型压缩常用的一种手段，它就是将已经训练好的模型包含的知识，通过迁移提取到另一个模型里面去，一般认为大模型的学习能力更强，知识迁移就是将大模型中的知识提取到小模型中从而实现模型压缩的目的。而目前能够实现这种目的的方法存在着一些不足，由于模型中维度不同的限制，不能够直接将知识在不同规模大小的模型中进行迁移。

Claims

1.一种加快小型智能移动设备中翻译软件运行速度的方法，其特征在于包括以下步骤：

2.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法，其特征在于：在步骤1)中，大模型和小模型均为基于注意力机制的神经机器翻译模型，包括编码端和解码端，使用注意力机制；当使用的注意力机制为多头时，注意力机制计算方式为：

MultiHead(Q,K,V)＝Concat(head₁,head₂,Λ,head_h)W^O

其中，MultiHead(Q，K，V)为多头注意力机制，head₁,head₂Λhead_n代表模型中的h个头，W_o为线性变换矩阵和Concat级联操作。

每个头的注意力计算公式为：

3.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法，其特征在于：步骤2)中构建参数生成器，具体为：

204)对W_student在训练数据上进行微调，使小模型适应数据集。

4.按权利要求1所述的加快小型智能移动设备中翻译软件运行速度的方法，其特征在于：步骤3)中，进行小模型的解码，得到机器翻译模型解码结果，是根据步骤2)中参数生成器训练和生成的小模型进行解码，得到小模型解码结果并进行性能和速度的评价。