CN113011571A

CN113011571A - 基于Transformer模型的INT8离线量化及整数推断方法

Info

Publication number: CN113011571A
Application number: CN202110232726.8A
Authority: CN
Inventors: 姜小波; 邓晗珂; 何昆; 方忠洪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-22
Anticipated expiration: 2041-03-03
Also published as: CN113011571B

Abstract

本发明提供了一种基于Transformer模型的INT8离线量化及整数推断方法，包括如下步骤：将原始Transformer浮点模型中归一化层的L2范数转换成L1范数；进行模型训练；通过少量数据进行前向推断，获取各层矩阵运算的输入数据的量化系数，提取为一般浮点数据；获取浮点模型中各线性层的权重量化系数，提取为一般浮点数据，根据计算均方误差的方法确定各层中的最优权重量化系数；将推断过程中涉及量化操作的量化系数化为2^‑n的浮点数形式，通过联合系数调整的方法来调整量化系数；基于调整后的量化系数结合L1范数的归一化层得到INT8的整数推断模型。本发明可减少模型计算所需硬件资源和模型量化带来的误差，降低硬件资源消耗和提高模型的推断速度。

Description

基于Transformer模型的INT8离线量化及整数推断方法

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种基于Transformer模型的自然语言处理神经网络模型的INT8(8位整型)离线量化方法及整数推断方法。

背景技术

随着深度学习算法的出现，人工智能迎来了第三次爆发，而深度学习算法的参数量和计算复杂性的增长对硬件提出了更高的性能要求，设计深度学习领域的专用硬件加速器是解决这一需要的有效办法。如何减少深度神经网络计算的延迟和存储是神经网络算法落地和神经网络加速器设计的重要研究方向。

模型量化是解决上述问题的理想技术方法。一般情况下，自然语言处理模型的训练和推断阶段使用的都是单精度浮点数类型完成，但是浮点数计算会占用大量的计算资源和存储资源，执行速度也很慢。使用低比特的数据格式，计算逻辑相对简单，可以提高计算效率的同时降低功耗和资源消耗。与单精度浮点数计算相比，采用INT8运算最多可以节省30倍的计算能耗和116倍的芯片面积。因此，模型量化广泛应用于深度神经网络的压缩和加速。离线量化不需要进行反向传播，直接将训练好的模型进行量化，可以减少深度学习模型的部署时间。

Transformer模型作为自然语言处理领域新的通用模型，在各方面表现全面超越LSTM等传统神经网络所付出的代价是模型复杂度和网络参数量的倍增，导致对计算能力和功耗的需求的急剧提高，使得它们难以在边缘设备中运行。将现有的卷积神经网络的INT8离线量化方法直接使用到Transformer模型会带来精度损失。为了减少INT8量化带来的精度损失和提高边缘加速器的推断效率，急需一种针对Transformer浮点模型进行优化INT8离线量化及整数推断方法。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于Transformer模型的INT8离线量化及整数推断方法；该方法可减少模型计算所需硬件资源和模型量化带来的误差，为硬件加速器的设计提供数据量化和量化模型推断的技术方案。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于Transformer模型的INT8离线量化及整数推断方法，包括如下步骤：

S1，将原始Transformer浮点模型中归一化层的L2范数转换成L1范数；之后对Transformer浮点模型进行模型训练，获取训练后的浮点模型及其参数；

S2，通过少量数据进行前向推断，获取浮点模型中各层矩阵运算的输入数据的量化系数，提取为一般浮点数据；

S3，根据训练完的浮点模型，获取浮点模型中各线性层的权重量化系数，提取为一般浮点数据，根据计算均方误差的方法确定各线性层中的最优权重量化系数；

S4，将推断过程中涉及量化操作的量化系数化为2^-n的浮点数形式，通过联合系数调整的方法来调整量化系数；

S5，基于调整后的量化系数结合L1范数的归一化层得到INT8的整数推断模型。

进一步地，所述步骤S1中，根据以下公式进行归一化层的计算：

其中，x是输入数据，μ表示输入数据所在行的平均值，α和β是浮点模型中的可训练参数，n代表的是行的大小，

进一步地，所述步骤S2包括以下步骤：

S21，选取一批浮点模型输入数据；

S22，采用选取的浮点模型输入数据，使用训练后的浮点模型进行前向推断，获取浮点模型中各层矩阵运算的输入数据的分布；

S23，根据获取的浮点模型中各层矩阵运算的输入数据的分布，采用步骤S2中的计算方法确定输入数据的量化系数，对所求得的量化系数进行平均，得到每一层矩阵运算输入数据的量化系数，提取为一般浮点数据，记为S_input，使每个矩阵运算都有一个量化系数S_input：

其中，n代表浮点模型输入数据的大小，x_i代表第i个浮点模型输入数据计算的所求矩阵的输入数据，max表示取矩阵的最大值，abs表示取矩阵的绝对值。

进一步地，所述步骤S3包括以下分步骤：

S31，根据以下公式计算所述各线性层的权重数据和偏置数据的量化系数，提取为一般浮点数据，分别记为S_w和S_b，使每组权重数据和偏置数据都有一个量化系数：

S_w＝max(abs(w))/127

S_b＝S_input*S_w

其中，S_input为步骤S2获取的该线性层矩阵运算的输入数据的量化系数，max表示取权重权重最大值，abs表示取权重矩阵绝对值；

S32，根据权重数据的量化系数S_w计算量化后的INT8类型的权重数据q_w：

其中，w是权重数据，round表示通过四舍五入进行浮点数的取整操作，clip表示对数据在所限定范围内进行截断；

S33，根据获取的INT8类型的权重数据q_w和权重数据的量化系数S_w计算量化前后权重数据的均方误差，找到该层权重数据的最佳量化系数S_w，使得均方误差最小：

进一步地，在所述步骤S33之后，还包括：

S34，通过步骤S31获取的权重数据的量化系数S_w，重新通过步骤S32的计算公式计算新的INT8类型的权重数据q_w，根据步骤S32和S33迭代求解q_w和S_w，寻找最佳的量化系数S_w。

进一步地，所述步骤S4包括以下分步骤：

S41，提取步骤S2和S3得到的量化系数S_input和S_w；

S42，将推断过程中的涉及量化操作的量化系数化为2^-n的浮点数形式，通过移位完成数据传递过程中的量化系数传递，确保每一层矩阵运算在整数域进行；

S43，对量化系数进行联合调整，通过对自注意力层和前馈神经网络计算层内部的权重数据进行缩放来完成量化系数的联合调整，以减少将量化系数化为2^-n的浮点数形式带来的计算误差。

进一步地，所述自注意力层包括两部分；自注意力层的第一部分包含查询向量的线性层计算、键向量的线性层计算和两个线性层结果的点积计算；为了保持Softmax函数的输入数据的原始度，减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过对查询向量的线性层计算和键向量的线性层计算进行同等比例但是反向的缩放：

γk`＝γW_kk+γb_k

k`＝γk`

其中，q表示查询向量，k表示键向量，q`表示查询向量线性层的输出，k`表示键向量线性层的输出，W_q表示查询向量线性层的权重，W_k表示键向量线性层的权重，b_q表示查询向量线性层的偏置，b_k表示键向量线性层的偏置，γ表示缩放系数；缩放系数γ通过公式中的权重和偏置进行调整，缩放系数γ的值决定于量化带来的计算误差最小。

优选地，自注意力层的第二部分包括值向量的线性层计算、Softmax计算的结果和值向量的加权求和计算和输出线性层计算；为了保持自注意力层输出的原始度，减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过对值向量的线性层计算和输出线性层计算进行同等比例但是反向的缩放：

其中，v表示值向量，v`表示值向量线性层的输出，W_v表示值向量线性层的权重，b_v表示值向量线性层的偏置，W_o表示输出线性层的权重，b_o表示输出线性层的偏置，y表示输出线性层的输出，λ表示缩放系数；缩放系数λ通过公式中的权重和偏置进行调整，缩放系数λ的值决定于量化带来的计算误差最小。

优选地，所述前馈神经网络计算层包括两层线性层，线性层中间的ReLU函数为线性函数，满足性质：

f(αx)＝αf(x),α>0

为了保持输出结果的原始度，减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过第一层线性层的权重和偏置和第二层线性层的权重进行同等比例但是反向的缩放：

其中，l₁表示第一层线性层的输入，l表示第一层线性层的输出，W_l1表示第一层线性层的权重，b_l1表示值第一层线性层的偏置，W_l2表示第二层线性层的权重，b_l2表示第二层线性层的偏置，y代表第二层线性层的输出，μ表示缩放系数；缩放系数μ通过公式中的权重和偏置进行调整，缩放系数μ的值决定于量化带来的计算误差最小。

进一步地，所述步骤S5是指：将原始Transformer浮点模型中归一化层的L2范数转换成L1范数，以直接代入量化后的整数型输入，计算得到归一化层的浮点数计算结果；将步骤S2和S4得到的量化系数代入到归一化层转换成L1范数后的模型中，将模型中的矩阵运算转化到整数域，得到Transformer整数推断模型。

除了Softmax激活函数的计算外，可完成整个模型的整数推断过程，包含所有矩阵的乘法、加法和归一化操作。

与现有技术相比，本发明具有如下优点与有益效果：

(1)本发明提供了一种可以用于Transformer模型的整数推断方法，得到的整数推断模型中所有矩阵运算和归一化操作都在整数域进行，且量化后的模型精度损失小，可降低硬件资源消耗和提高模型的推断速度，有效降低对于计算平台的算力和存储要求，为加速器设计提供了模型部署方案；

(2)本发明将量化系数化为2^-n的浮点数形式，通过移位操作完成数据传递过程中的量化计算，完成量化推理中的量化和去量化过程，降低硬件计算成本，提高运算速度；

(3)本发明通过计算均方误差和基于Transformer模型的量化系数联合调整等操作，对量化系数进行微调，使量化后的模型保持极小的精度损失，满足实际应用需求。

附图说明

图1是本发明的基于Transformer模型的INT8离线量化及整数推断方法的流程图；

图2是本发明中自注意力层整数推断方法；

图3是本发明中前馈神经网络计算层整数推断方法。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一：

如图1所示，本实施例的一种基于Transformer模型的INT8离线量化及整数推断方法，包括如下步骤：

S1，将原始Transformer浮点模型中归一化层的L2范数转换成L1范数；之后对Transformer浮点模型进行模型训练，获取训练后的浮点模型及其参数。

根据以下公式进行归一化层的计算：

S2，通过少量数据进行前向推断，获取浮点模型中各层矩阵运算的输入数据的量化系数，提取为一般浮点数据。

所述步骤S2包括以下步骤：

S21，选取一批浮点模型输入数据；

S23，根据获取的浮点模型中各层矩阵运算的输入数据的分布，对所求得的量化系数进行平均，得到每一层矩阵运算输入数据的量化系数，提取为一般浮点数据，记为S_input，使每个矩阵运算都有一个量化系数S_input：

所述步骤S3包括以下步骤：

S_w＝max(abs(w))/127

S_b＝S_input*S_w

S32，根据步骤S31中确定的权重数据的量化系数S_w计算量化后的INT8类型的权重数据，记为q_w：

其中，w是权重数据，S_w为该权重数据的量化系数，round表示通过四舍五入进行浮点数的取整操作，clip表示对数据在所限定范围内进行截断；

S33，根据步骤S32中获取的INT8类型的权重数据q_w和权重数据的量化系数S_w计算量化前后权重数据的均方误差，找到该层权重数据的最佳量化系数S_w，使得均方误差最小：

优选方案是：在所述步骤S33之后，还包括：

S34，通过步骤S31获取的权重数据的量化系数S_w，重新通过步骤S32的计算公式计算新的INT8类型的权重数据qw；根据步骤S32和S33迭代求解qw和S_w，寻找最佳的量化系数S_w。

S4，将推断过程中涉及量化操作的量化系数化为2^-n的浮点数形式，通过联合系数调整的方法来调整量化系数。

所述步骤S4包括以下步骤：

S41，提取步骤S2和S3得到的量化系数S_input和S_w，选择最优的量化系数用于模型计算中的浮点数据量化；

S42，将推断过程中的涉及量化和去量化操作的量化系数化为2^-n的浮点数形式，通过移位完成数据传递过程中的量化系数传递，确保每一层矩阵运算在整数域进行；

S43，对量化系数进行联合调整，为了减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过对自注意力层和前馈神经网络计算层内部的权重数据进行缩放来完成量化系数的联合调整。

自注意力层包括两部分，自注意力层的第一部分包含查询向量的线性层计算、键向量的线性层计算和两个线性层结果的点积计算。为了保持Softmax函数的输入数据的原始度，减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过对查询向量的线性层计算和键向量的线性层计算进行同等比例但是反向的缩放：

γk`＝γW_kk+γb_k

k`＝γk`

其中，q表示查询向量，k表示键向量，q`表示查询向量线性层的输出，k`表示键向量线性层的输出，W_q表示查询向量线性层的权重，W_k表示键向量线性层的权重，b_q表示查询向量线性层的偏置，b_k表示键向量线性层的偏置，γ表示缩放系数。缩放系数γ通过公式中的权重和偏置进行调整，缩放系数γ的值决定于量化带来的计算误差最小。

自注意力层的第二部分包括值向量的线性层计算、Softmax计算的结果和值向量的加权求和计算和输出线性层计算。为了保持自注意力层输出的原始度，减少将量化系数化为2^-n的浮点数形式带来的计算误差，通过对值向量的线性层计算和输出线性层计算进行同等比例但是反向的缩放：

其中，v表示值向量，v`表示值向量线性层的输出，W_v表示值向量线性层的权重，b_v表示值向量线性层的偏置，W_o表示输出线性层的权重，b_o表示输出线性层的偏置，y表示输出线性层的输出，λ表示缩放系数。缩放系数λ通过公式中的权重和偏置进行调整，缩放系数λ的值决定于量化带来的计算误差最小。

前馈神经网络计算层包括两层线性层，线性层中间的ReLU函数为线性函数，满足性质：

f(αx)＝αf(x),α>0

其中，l₁表示第一层线性层的输入，l表示第一层线性层的输出，W_l1表示第一层线性层的权重，b_l1表示值第一层线性层的偏置，W_l2表示第二层线性层的权重，b_l2表示第二层线性层的偏置，y代表第二层线性层的输出，μ表示缩放系数。缩放系数μ通过公式中的权重和偏置进行调整，缩放系数μ的值决定于量化带来的计算误差最小。

S5，将原始Transformer浮点模型中归一化层的L2范数转换成L1范数；将步骤S2和S4得到的量化系数代入到归一化层转换成L1范数后的模型中，将模型中的矩阵运算转化到整数域，得到Transformer整数推断模型。

实施例二

本实施例的一种基于Transformer模型的INT8离线量化及整数推断方法，在步骤S43中，自注意力层整数推断方法是：如图2所示，输入量化得到的INT8类型的查询向量q、键向量k和值向量v，与量化后的权重数据进行线性层计算和注意力计算，通过移位操作完成矩阵运算间的量化操作，将计算的整数结果与查询向量进行残差连接输入到L1范数的归一化层进行输出。

前馈神经网络计算层整数推断方法是：如图3所示，直接将量化后的输入数据和第一层线性层的量化后的权重数据进行线性层计算，通过移位得到INT8类型计算结果，经过ReLU函数计算，输入到第二层线性层与量化后的权重数据进行线性层计算，与输入数据进行残差连接输入到L1范数的归一化层进行输出。

本实施例的其余步骤与实施例一相同。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于Transformer模型的INT8离线量化及整数推断方法，包括如下步骤：

2.根据权利要求1所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述步骤S1中，根据以下公式进行归一化层的计算：

3.根据权利要求1所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述步骤S2包括以下分步骤：

S21，选取一批浮点模型输入数据；

4.根据权利要求1所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述步骤S3包括以下分步骤：

S_w＝max(abs(w))/127

S_b＝S_input*S_w

5.根据权利要求4所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：在所述步骤S33之后，还包括：

S34，通过步骤S31获取的权重数据的量化系数S_w，重新通过步骤S32的计算公式计算新的INT8类型的权重数据q_w；根据步骤S32和S33迭代求解q_w和S_w，寻找最佳的量化系数S_w。

6.根据权利要求1所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述步骤S4包括以下分步骤：

S41，提取步骤S2和S3得到的量化系数S_input和S_w；

7.根据权利要求6所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述自注意力层包括两部分；自注意力层的第一部分包含查询向量的线性层计算、键向量的线性层计算和两个线性层结果的点积计算；通过对查询向量的线性层计算和键向量的线性层计算进行同等比例但是反向的缩放：

γ_k`＝γW_kk+γb_k

k`＝γk`

8.根据权利要求7所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：自注意力层的第二部分包括值向量的线性层计算、Softmax计算的结果和值向量的加权求和计算和输出线性层计算；通过对值向量的线性层计算和输出线性层计算进行同等比例但是反向的缩放：

9.根据权利要求6所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述前馈神经网络计算层包括两层线性层，线性层中间的ReLU函数为线性函数，满足性质：

f(αx)＝αf(x),α>0

通过第一层线性层的权重和偏置和第二层线性层的权重进行同等比例但是反向的缩放：

10.根据权利要求1所述的基于Transformer模型的INT8离线量化及整数推断方法，其特征在于：所述步骤S5是指：

将原始Transformer浮点模型中归一化层的L2范数转换成L1范数；将步骤S2和S4得到的量化系数代入到归一化层转换成L1范数后的模型中，将模型中的矩阵运算转化到整数域，得到Transformer整数推断模型。