CN111382576B

CN111382576B - 一种基于离散型变量的神经机器翻译解码加速方法

Info

Publication number: CN111382576B
Application number: CN202010068156.9A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-05-12
Anticipated expiration: 2040-01-21
Also published as: CN111382576A

Abstract

本发明公开一种基于离散型变量的神经机器翻译解码加速方法，步骤为：构建训练平行语料及基于注意力机制的神经机器翻译模型，以训练收敛后的模型参数，作为基线系统；在基线系统中通过量化方法得到每个张量的缩放因子(scale)，并为整个模型初始化一个统一的缩放因子(base_scale)；对神经机器翻译模型；在进行加法运算之前，对来自不同操作的各自缩放因子，求得一个公共缩放因子，保证参数的量级一致；对神经机器翻译模型的输出进行反量化，将模型输出结果送到归一化函数中，并得到最终的翻译结果。本发明利用定点数的运算复杂度低这种天然的优势，在快速推理的最新实现基础上，模型性能没有下降的前提下，提升实时相应速度。

Description

一种基于离散型变量的神经机器翻译解码加速方法

技术领域

本发明涉及一种神经机器翻译解码加速技术，具体为基于离散型变量的神经机器翻译解码加速方法。

背景技术

机器翻译(Machine Translation)是利用计算机程序将一种自然语言翻译成另一种自然语言，属于计算语言学的范畴。1949年，沃伦·韦弗(Warren Weaver)发表了一份以《翻译》为题的备忘录标志着基于现代计算机的机器翻译正式登上历史舞台。机器翻译既涉及到人类对自身语言和思维方式的认知，又涉及到人工智能、信息论、知识工程和软件工程等很多领域，是一个多种技术深度交叉的学科。近十几年来，机器翻译研究及产业化在各国政府和产业界的大力推动下，取得了快速进展。我国政府把包括机器翻译技术在内的自然语言理解研究列入国家中长期科技发展规划纲要中，以此推进语言信息处理及机器翻译领域快速发展。谷歌、百度和微软等互联网巨头也将机器翻译作为在线服务的重要入口。据报道，谷歌翻译每天为全球两亿多个用户提供服务，每天翻译次数达10亿次，每天翻译处理的文字数量相当于100万册图书，超过了全世界的专业翻译人员一年能够翻译的文字规模。机器翻译对推动各国政治、经济、文化、商务、旅游等领域交流起到了重要的作用。

随着机器翻译研究的深入及机器学习等相关学科的进步，人们逐渐发现统计机器翻译存在着许多难以回避的问题，比如，翻译过程依赖隐藏结构的假设、翻译特征的定义需要人工设计、特征工程耗时耗力而且往往不具有普适意义。对于这些问题，人们又尝试了一种全新的思路——神经机器翻译。所谓神经机器翻译是使用神经元网络直接对翻译问题建模，这个过程并不假设翻译具有隐藏结构，同时也不依赖人工定义的特征，整个翻译模型都可以在一种端到端的模式下训练完成，而翻译解码也就变成对神经网络进行前向计算或推断的过程。

端到端的神经机器翻译通过神经网络模型直接实现从源语言到目标语言的翻译，所采用的主要框架是编码器-解码器(Encoder-Decoder)框架。编码器-解码器框架将翻译任务看作序列到序列的转换，即将翻译过程看作从源语言序列转换成目标语言序列的过程。该过程主要包括两个步骤：(1)源语言端，编码器将源语言序列编码成源语言上下文向量；(2)目标语言端，解码器根据编码器提供的源语言上下文向量生成目标语言序列。

注意力机制是神经机器翻译模型中重要的组成部分。在最初的编码器-解码器框架中，由于上述原因导致神经网络难以学习到源端和目标端的对应信息，翻译系统对输入较长的句子的翻译效果较差。针对这一问题，研究人员提出了基于注意力机制的神经机器翻译，此模型可以动态的计算源语言的上下文，有利于神经网络学到更多的全局信息，该方法的核心思想在于通过引入源语和目标语句中词汇之间的关联程度来补充网络中的全局信息，增加网络可获得的关于文本的语义信息。

注意力机制可以帮助神经网络在生成目标端单词时有选择性的关注不同的源语言位置，投入更多的注意力在更重要的位置，而对不太重要的位置只需投入较少的注意力，使神经网络更容易的捕获到和当前目标端单词更相关的源语信息，从而使得神经网络对目标语言的预测更为准确。在生成一个目标语单词时，基于注意力机制的神经网络会基于得到的不同的注意力对不同源语位置向量进行加权求和，得到不同的上下文向量。注意力机制的引入使不同源语言位置对目标语单词生成的贡献度不同，使得神经网络中信息流的传递变得更为高效，有助于神经网络模型的学习。

Google于2017年提出了完全基于注意力机制的模型结构，称为Transformer，该模型摒弃了传统的基于循环神经网络和基于卷积网络的方法，达到了更好的性能，并且有效提高了模型的并行程度，加快了训练速度。

虽然当前基于注意力机制的神经网络已经取得了不错的性能，但同时也引入了一个新的问题，即过度依赖于大量的单精度和双精度浮点运算，虽然浮点运算已经被证明了有诸多好处，比如运算稳定、表示空间比较大，但相对于整数运算等定点运算，浮点运算复杂度高、芯片制作复杂。

发明内容

针对现有技术中机器翻译的方法过度依赖于单精度和双精度浮点而无法发挥低精度数值运算优势，本发明要解决的技术问题是提供一种基于离散型变量的神经机器翻译解码加速方法，充分利用定点数的运算复杂度低这种天然的优势，能够在快速推理的最新实现基础上，且在模型性能几乎没有下降的前提下，提升实时相应速度。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于离散型变量的神经机器翻译解码加速方法，包括以下步骤：

1)构建训练平行语料及基于注意力机制的神经机器翻译模型，利用平行语料生成机器翻译词表，解码器根据提取的信息解码生成目标语句子，不断更新模型参数，使得生成目标语句子和真实的翻译结果更加接近，完成神经机器翻译模型训练过程；以训练收敛后的模型参数，作为基线系统；

2)在基线系统中通过对模型中的单精度浮点参数进行缩放，将整个网络的参数通过缩放因子转换为整型数值，将连续浮点数值映射到整型数值的区间范围内，对整个模型中的张量参数矩阵，通过量化方法得到每个张量的缩放因子(scale)，并为整个模型初始化一个统一的缩放因子(base_scale)；

3)对神经机器翻译模型的操作使用整型化的参数进行运算，并将数值运算输入变量的缩放因子累计到统一缩放因子上。

4)在进行加法运算之前，对来自不同操作的各自缩放因子，求得一个公共缩放因子，根据该公共缩放因子进行缩放匹配，保证参数的量级一致；

5)对神经机器翻译模型的输出进行反量化，将模型输出结果送到归一化函数中，并得到最终的翻译结果。

步骤2)中，在基线系统上通过对模型中的单精度浮点参数进行缩放，将整个网络的参数通过缩放因子转换为整型数值，将连续浮点数值映射到整型数值的区间范围内，对整个模型中的张量参数矩阵，通过量化方法得到每个张量的缩放因子(scale)，并为整个模型初始化一个统一的缩放因子(base_scale)，包括以下步骤：

201)对模型中的每个参数张量进行量化，并根据选择的量化范围与量化策略进行参数缩放，计算每个张量参数的缩放因子scale：

其中x为待运算的模型参数，Max(abs(·))为对参数的量化策略，abs(·)为对输入的浮点参数取绝对值，Max(·)对输入参数取最大值；k为整数运算的位数；

202)根据计算出的缩放因子scale，对网络中的浮点参数进行量化，得到量化后的离散型参数x_scale：

x_scale＝round(x_float32·scale)

其中x_scale为量化缩放后的值，x_float32为进行操作的原始浮点数值，scale为缩放因子，round(·)为四舍五入操作。

步骤3)中，对神经机器翻译模型的操作使用整型化的参数进行运算，并将数值运算输入变量的缩放因子累计到统一缩放因子上，步骤为：

将原始的参数操作

替换为：

其中，o表示参数的运算法则，base_scale为多维向量，数值初始大小为1。

步骤4)中，在进行加法运算之前，对来自不同操作的各自缩放因子，求得一个公共缩放因子，根据该公共缩放因子进行缩放匹配，保证参数的量级一致，具体为：对于两个不同操作的输出output₁、output₂，分别对应缩放因子scale₁、scale₂，进行加法运算之前，匹配缩放因子，对于目标操作：

output＝output₁+output₂

匹配缩放因子，

scale_match＝Match(scale₁,scale₂)

其中scale_match为匹配后的缩放因子，Match(·，·)为缩放因子匹配公式，根据新的缩放因子计算output₁、output₂结果为output'₁、output'₂，此时目标操作为：

output＝output₁*(scale₁/scale_match)+output₂*(scale₂/scale_match)

步骤5)中，对模型的输出进行反量化为：

将离散化数值与统一缩放因子运算，得到单精度浮点数。

本发明具有以下有益效果及优点：

1.本发明能够在快速推理的最新实现基础上，充分利用定点数的运算复杂度低这种天然的优势，能够在快速推理的最新实现基础上，且在模型性能几乎没有下降的前提下，提升实时相应速度。

2.本发明能够在具备更多模型参数和使用更多的训练数据的前提下，减小模型的存储的硬件成本代价。

3.本发明不需要过多的浮点数运算，可以更方便的不是在廉价、可移动设备上，比如手机、翻译机等。

4.本发明较少的计算量可以降低可移动设备电量等能源的使用。

附图说明

图1为神经机器翻译编码解码Transformer示意图；

图2为离散化解码权重离散化示意图；

图3为基本权重运算示意图；

图4为离散化权重运算示意图；

图5模型全连接模块示意图；

图6为本发明中改进后全连接层模块示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

在步骤1)中，基于离散型变量的神经机器翻译模型包括编码端和解码端，使用基于注意力机制的Transformer模型，模型结构如图1所示。Transformer模型主要包括注意力模块和前馈神经网络模块。

注意力模块表示为：

其中SoftMax(·)为归一化函数，Q，K，V分别为上层输出经过不同的线性变换矩阵Wq、Wk、Wv得到，Q为查询矩阵，K为键矩阵，V为值矩阵，d_k为矩阵K的隐层维度大小。Q，K，V计算公式分别为：

Q＝X₁·W_q

K＝X₂·W_k

V＝X₂·W_v

其中X_i为模型输入的词嵌入表示或者是其它层的输出，当为自注意力机制时，X₁与X₂为同一个值，注意力机制为Encoder-Decoder注意力，X₁为目标语输入，X₂为Encoder端的输出。

全连接层前馈神经网络(Feed Forward Layer)可以表示为：

Y＝W·₂(ReLU(W₁·X+b₁))+b₂

其中W_i，b_i分别表示权重矩阵与偏置，i＝1、2，ReLU表示激活函数。W₁·X+b₁通过将隐层状态X通过一个线性变换矩阵W₁与偏置b₁作用，将X有一个低维张量变为一个高维张量以此获得更加丰富的语义知识，在高维张量的基础上使用ReLU激活函数，对非零向量进行特征提取，之后通过线性变化矩阵W₂与b₂的作用还原到之前的维度。

在步骤2)中通过对模型中的单精度浮点参数进行缩放，将整个网络的参数通过缩放因子转换为整型数值，网络离散化过程如图2所示，将连续浮点数值映射到整型数值的区间范围内，对整个模型中的张量参数矩阵，通过量化方法得到每个张量的缩放因子(scale)，并为整个模型初始化一个统一缩放因子(base_scale)，具体为：

201)对模型中的每个参数张量进行量化(原始操作如图3所示)，并根据选择的量化范围与量化策略进行参数缩放，计算每个张量参数的缩放因子

其中x为待运算的模型参数，Max(abs(·))为对参数的量化策略，abs(·)为对输入的浮点参数取绝对值，Max(·)对输入参数取最大值，k为整数运算的位数，如图4所示；

202)根据计算出的缩放因子scale，来对网络中的浮点参数进行量化，得到量化后的离散型参数x_scale：

x_scale＝round(x_float32·scale)

其中x_scale为量化缩放后的值，x_float32为进行操作的原始浮点数值，scale为201)中计算出的缩放因子，round(·)为四舍五入操作。

在步骤3)中，对神经机器翻译模型的操作使用整型化的参数进行运算，并将数值运算输入变量的缩放因子累计到统一缩放因子上，步骤为：

将原始的参数操作

替换为：

其中，o表示参数的运算法则，base_scale为

初始大小为1。

在步骤4)中，相对于普遍存在的量化方法，如图5所示，在进行数值运算之前，先对参数进行量化，然后运算，再进行反量化。而本发明在量化进行加法运算之前，对来自不同地方的不同缩放的因子，根据因子大小求得一个统一的缩放因子，根据该统一缩放因子进行缩放匹配，不需要反量化操作，如图6所示，保证参数的量级一致，具体为：对于两个不同操作的输出output₁、output₂，分别对应缩放因子scale₁、scale₂，进行加法运算之前，匹配缩放因子，对于目标操作：

output＝output₁+output₂

匹配缩放因子，

scale_match＝Match(scale₁,scale₂)

其中scale_match为匹配后的缩放因子，Match(·，·)为缩放因子匹配公式，根据新的缩放因子scale_match计算output₁、output₂结果为output'₁、output'₂，此时目标操作为：

output＝output₁*(scale₁/scale_match)+output₂*(scale₂/scale_match)

举例说明，对于操作：

redisual＝x

x*＝t

x＝residual+x

进行离散化操作时，如下：

residual_scale＝x_scale

x_scale*＝t_scale

x_scale＝residual_scale+x_scale

base_scale*＝scale_t

此时residual_scale与x_scale两个scale不匹配，需要匹配scale再进行运算，如下：

residual'_scale＝residual_scale*(base_scale/scale_residual)

将参数residual_scale与参数x_scale的scale进行匹配，保证scale的一致性，匹配完后，进行加法运算。

在步骤5)中，整个模型的数值运算都是基于离散化数值的，模型计算完之后，对模型的输出进行反量化，即将离散化数值与统一缩放因子运算得到单精度浮点数，将反量化的单精度结果送到归一化函数中，并得到最终的翻译结果。

基于注意力机制的神经机器翻译系统使得翻译的性能得到了很大的提升，但是模型的运算时间也变得越来越长。模型运算速度受限主要是由过多的模型参和复杂的单位运算时间构成，本发明通过降低模型的单位操作时间来提高模型的解码速度。本发明通过将单精度32位浮点数转换为8位整数，极大的减少了一次操作的运算时间。本发明通过将在保证模型性能不变的前提下显著的提升模型的解码时间。

本发明提出的一种基于离散型的神经机器翻译解码加速方法，通过将Transormer模型中三个模块：注意力模块、前馈神经网络模块、残差与层正则化模块的矩阵运算由32位的单精度浮点数变为8位整数，由于参数的位数由32位变为8位，理论上可以使模型的解码速度提高4倍。而在实际的实现中需要额外的操作，在不同数据集上达到不同的加速效果，在IWSLT14德英口语数据集上进行实验，可以获得3.78倍的加速比，在WMT14英德数据集上进行测试，可以获得3.69倍的加速比，平均可在整体推断速度上获得3.74倍的加速比，同时模型性能几乎没有下降。本发明方法在以上两种通用数据集上的性能都表现良好，同时带来了可观的性能提升，证明了此方法的实用性和通用性。

Claims

1.一种基于离散型变量的神经机器翻译解码加速方法，其特征在于包括以下步骤：

3)对神经机器翻译模型的操作使用整型化的参数进行运算，并将数值运算输入变量的缩放因子累计到统一缩放因子上；

5)对神经机器翻译模型的输出进行反量化，将模型输出结果送到归一化函数中，并得到最终的翻译结果；

对模型的输出进行反量化为：将离散化数值与统一缩放因子运算，得到单精度浮点数。

2.按权利要求1所述的基于离散型变量的神经机器翻译解码加速方法，其特征在于：步骤2)中，在基线系统上通过对模型中的单精度浮点参数进行缩放，将整个网络的参数通过缩放因子转换为整型数值，将连续浮点数值映射到整型数值的区间范围内，对整个模型中的张量参数矩阵，通过量化方法得到每个张量的缩放因子(scale)，并为整个模型初始化一个统一的缩放因子(base_scale)，包括以下步骤：

其中x为待运算的模型参数，Max(abs(·))为对参数的量化策略，abs(·)为对输入的浮点参数取绝对值，Max(·)对输入参数取最大值，k为整数运算的位数；

x_scale＝round(x_float32·scale)

3.按权利要求1所述的基于离散型变量的神经机器翻译解码加速方法，其特征在于：步骤3)中，对神经机器翻译模型的操作使用整型化的参数进行运算，并将数值运算输入变量的缩放因子累计到统一缩放因子上，步骤为：

将原始的参数操作

替换为：

其中，o表示参数的运算法则，base_scale为多维向量，数值初始大小为1，x_float32为进行操作的原始浮点数值，x_scale为量化后的离散型参数，scale₁、scale₂为两个不同操作的输出output₁、output₂分别对应的缩放因子。

4.按权利要求1所述的基于离散型变量的神经机器翻译解码加速方法，其特征在于：步骤4)中，在进行加法运算之前，对来自不同操作的各自缩放因子，求得一个公共缩放因子，根据该公共缩放因子进行缩放匹配，保证参数的量级一致，具体为：对于两个不同操作的输出output₁、output₂，分别对应缩放因子scale₁、scale₂，进行加法运算之前，匹配缩放因子，对于目标操作：

output＝output₁+output₂

匹配缩放因子，

scale_match＝Match(scale₁,scale₂)

其中scale_match为公共缩放因子，Match(·，·)为缩放因子匹配公式，根据新的缩放因子计算output₁、output₂结果为output'₁、output'₂，此时目标操作为：

output＝output₁*(scale₁/scale_match)+output₂*(scale₂/scale_match)。