CN111160523A

CN111160523A - 基于特征值区域的动态量化方法、系统及介质

Info

Publication number: CN111160523A
Application number: CN201911293683.3A
Authority: CN
Inventors: 宋卓然; 梁晓峣; 景乃锋; 江昭明; 官惠泽; 吴飞洋; 王雅洁
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-15
Anticipated expiration: 2039-12-16
Also published as: CN111160523B

Abstract

本发明提供了一种基于特征值区域的动态量化方法，包括：步骤1：定位输入特征图中的敏感区域和非敏感区域；步骤2：对敏感区域和非敏感区域执行混合精度卷积；步骤3：将卷积结果提供给激活层和池化层；步骤4：在不同敏感度区域之间进行切换。本发明对输入特征图和权重进行量化，进而可以更好地保留NN的准确率；DRQ可以支持层内、甚至逐像素的量化，这种细粒度的量化策略为量化提供了更大的自由，可以在尽可能降低计算精度的情况下保证NN准确率。

Description

基于特征值区域的动态量化方法、系统及介质

技术领域

本发明涉及信息处理技术领域，具体地，涉及一种基于特征值区域的动态量化方法、系统及介质。

背景技术

神经网络(NN)已成为解决各种问题的关键技术，例如图像识别，自然语言处理和生物医学问题。NN一般包括感知机、卷积神经网络、循环神经网络等，由于卷积神经网络非常适合提取图像特征，因此在图像领域应用广泛，卷积神经网络的结构如图2所示；循环神经网络具有记忆性，在自然语言处理领域应用广泛，循环神经网络的结构如图1所示。

面对NN对计算能力的日益增长的需求，量化技术被认为是减少NN计算量的有效技术。传统的量化技术是通过将浮点数据(FP32)转换为整型数据(INT)或将数据聚类为组，可以大大减少工作量和所需的内存带宽，从而在性能上具有整体优势。传统的量化技术会先对模型的权重值的分布进行分析，然后根据其分布对模型的权重进行量化。这些技术成功地将模型的权重的精度从浮点数降低到整型数。

量化在先前的研究中被广泛探索。通过将权重聚类成组来量化权重，以便少量值足以代表所有权重。实验表明，他们的工作将位数从32减少到5。通过8位整型数(INT8)单元执行推理，因此，他们的量化方案以较低的设备延迟实现了NN准确率。但是，上述量化技术在减小位宽方面仍有改进的余地。为了获得更高的压缩率，提出了一些方法，仅需2位(INT2)或3位(INT3)的权重来量化NN。具体来说，将权重二值化为-1或1；将权重二值化为-w或w；将权重映射为-wN，0或wP。然而，这些工作以NN准确率损失为代价实现了高压缩率。分别对NN的各层选择一种最合适的量化精度，这种方式可以在现有的硬件加速器上得以支持，与8位量化方法相比，减少了1.4-1.95倍的延迟，而NN准确率损失可忽略不计。将NN的第一层的激活值量化为16位，将其他层的激活值量化为4位；同时分析了权值的分布，根据分布静态地将权值的数值大小进行量化，量化成4位(INT4)和8位(INT8)。

如图3下方所示，传统的量化方法都是通过对权重的数值大小进行分析，而后将权重量化为低精度整型数据，且量化完成后权重就不会再发生变化了。

而我们的方法则如图3上方所示，我们首先对NN的每层的输入数据(inputfeature map)进行敏感性分析，并将输入数据根据敏感性分成敏感区域(sensitiveregion)和非敏感区域(insensitive region)；对sensitive region我们用高精度的权值与之进行卷积运算，对insensitive region用低精度的权值与之进行卷积运算。

总的来说，我们的方案：一种基于特征值区域的动态的量化方法(DRQ)与现有技术的区别在于：1)我们是根据input feature map的敏感区域对input feature map和权重进行量化，进而可以更好地保留NN的准确率。这个想法是使高精度计算发生在input featuremap中正确的位置。由于输入图像根据实时应用而变化，因此只有动态方案才能捕获基于每个图像的特征；2)常规量化方案仅支持逐网络或逐层量化，但是DRQ可以支持层内、甚至逐像素的量化，这种细粒度的量化策略为量化提供了更大的自由，可以在尽可能降低计算精度的情况下保证NN准确率。

量化是一种用于深度神经网络推理加速的有效技术。但是，常规的量化技术要么在网络或层级进行应用，这种方法无法利用细粒度的量化来进一步提高速度，要么仅应用于权重，而没有关注可能导致较低的NN精度的输入特征图。

在发明中，我们提出了一种基于特征值区域的动态的量化方法，即DRQ，它可以基于特征图中的敏感区域动态地更改NN模型的精度，以实现更大的加速度，同时保留更好的NN精度；此外，我们提出了一种用于识别敏感区域的算法。

经实验验证，input feature map的确存在敏感区域。基于这一发现，仍有两个问题需要解决：

1、在运行时如何识别每层的input feature map中的敏感区域。这一过程需要是高效并且硬件友好的。不同于可以离线得到的权重，输入特征图直到运行时才可以得到，它们的敏感性必须通过算法和硬件有效获取。

2、如何执行高效的混合精度卷积。不同的敏感度区域可以在具有不同量化方案的同一input feature map中引入不同精度的值。这种层内混合精度量化需要对底层硬件进行细粒度的控制，以减少卷积工作量并有利于整体的推理性能。

专利文献CN102737380B(申请号：201210187815.6)公开了一种基于梯度结构张量的立体图像质量客观评价方法，其首先通过计算立体图像的左视点图像中的每个像素点的水平梯度、垂直梯度和视点梯度，计算每个像素点的梯度结构张量，并通过矩阵分解得到每个像素点的梯度结构张量的特征值和特征向量，然后通过区域检测法将左视点图像划分成敏感区域和非敏感区域，最后根据每个像素的区域类型，得到最终的图像质量客观评价预测值。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于特征值区域的动态量化方法、系统及介质。

根据本发明提供的基于特征值区域的动态量化方法，包括：

步骤1：定位输入特征图中的敏感区域和非敏感区域；

步骤2：对敏感区域和非敏感区域执行混合精度卷积；

步骤3：将卷积结果提供给激活层和池化层；

步骤4：在不同敏感度区域之间进行切换。

优选地，所述步骤1包括：

步骤1.1：使用一个全为1的卷积核对输入特征图进行均值滤波；

步骤1.2：与预设阈值进行比较，产生二进制掩码；

步骤1.3：根据二进制掩码，区分输入特征图中的敏感区域和非敏感区域。

优选地，所述步骤1.2包括：

步骤1.2.1：获取每个输入特征图的值分布；

步骤1.2.2：根据值分布选择阈值；

步骤1.2.3：根据阈值确定敏感区域后，对神经网络模型进行重新训练，获得神经网络准确率；

步骤1.2.4：评估准确率是否满足预期要求；

如果满足，则确定阈值；

如果不满足，则返回步骤1.2.1，继续执行，直到找到满足预期要求的阈值。

优选地，所述步骤1.3包括：给定具有c个通道的h×w维度的输入特征图，将输入特征图从FP32量化为INTn；其中，n表示：n位整型数据；m表示：m位整型数据；

对每个输入通道，分成几个m×m区域；

对每个区域，使用全1的m×m卷积核经均值滤波后执行点积，产生一个输出值，最终得到

个输出值；

若该区域的输出值大于预定的阈值，则该区域是敏感的；

将所有输出值与阈值进行比较，识别特征图中的所有敏感区域；

最终生成c张二进制掩码图，每张图的尺寸为

其中“1”表示该区域是敏感的，“0”表示该区域是不敏感的。

优选地，所述步骤2包括：

根据混合精度卷积，在运行时根据输入特征图的敏感度调整卷积核的精度；

当卷积核滑过敏感区域时，卷积进入预设高精度模式；

卷积在非敏感区域时采用预设低精度模式；

定义INTn卷积为高精度，INTm卷积为低精度；其中，n表示：n位整型数据；m表示：m位整型数据；

在内存中以INTn形式存储权重；

输入特征图的值根据敏感性以INTn或者INTm形式存储；

当卷积核滑过敏感区域时，采用全INTn形式的权重和输入特征图执行n-bit卷积。

优选地，当输入特征图的值以INTm形式存储在内存中，卷积核滑过不敏感区域时，将权重值转换为INTm形式并执行INTm卷积。

优选地，所述步骤4包括：在区域边界的连接处采用零填充，给定一个大小为nn的区域，内核大小为mm，采用零填充之后区域大小变为(n+m-1)(n+m-1)；

根据两个区域的敏感度，分别采用n-bit或m-bit的卷积核做卷积。

优选地，所述步骤4包括：在连接处采用混合精度内核，在敏感区域使用n-bit的权重做卷积运算，同时在非敏感区域使用m-bit的权重做卷积运算。

根据本发明提供的基于特征值区域的动态量化系统，包括：

模块M1：定位输入特征图中的敏感区域和非敏感区域；

模块M2：对敏感区域和非敏感区域执行混合精度卷积；

模块M3：将卷积结果提供给激活层和池化层；

模块M4：在不同敏感度区域之间进行切换。

与现有技术相比，本发明具有如下的有益效果：

1、根据input feature map的敏感区域对input feature map和权重进行量化，进而可以更好地保留NN的准确率；

2、DRQ可以支持层内、甚至逐像素的量化，这种细粒度的量化策略为量化提供了更大的自由，可以在尽可能降低计算精度的情况下保证NN准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为循环神经网络的结构图；

图2为卷积神经网络的结构图；

图3为本发明方法示意图；

图4为DRQ算法图；

图5为敏感区域预测图；

图6为混合精度卷积图；

图7为解决切换问题示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的基于特征值区域的动态量化方法，包括：

DRQ算法概述：

DRQ算法如图4所示。算法包括如下两步：

首先，我们设计一个预测算法来定位输入特征图input feature map中的敏感区域。它使用一个全为1的卷积核对input feature map执行均值滤波(mean filtering)，然后与一个阈值进行比较，从而产生一组二进制掩码，利用该掩码，能够区分每一张inputfeature map中的敏感和非敏感区域。

之后，我们提出了一种用于推理计算的混合精度卷积，在运行时它可以根据inputfeature map的敏感度调整卷积核的精度。比如，当卷积核滑过敏感区域(图中表示为黄色块)时，卷积进入高精度模式，对权重和input feature map进行更为精细的量化。否则，卷积在非敏感区域(图中表示为粉色块)时采用低精度模式。然后，我们可以将当前层的卷积结果提供给激活和池化层。

敏感区域预测：

给定具有c个通道的h×w维度的input feature map，如图5所示，我们首先将input feature map从FP32量化为INTn(表示n位整型数据)。在发明中，INTn的卷积被定义为高精度计算。然后，对于图5中的每个输入通道(input feature map channel)，我们将其分成几个m×m区域。对于每个区域，我们使用全1的m×m卷积核(均值滤波)执行点积，从而产生一个输出值。因此，我们获得

个输出值。若输出值大于预定的阈值，则这个区域是敏感的。我们将所有输出值与阈值进行比较，以识别特征图中的所有敏感区域。比较过程可以视作使用了阶跃函数，如图4所示。我们最终生成c张二进制掩码图，每张图的尺寸为

其中“1”表示该区域是敏感的，而“0”则表示该区域是不敏感的。

为了找到合适的阈值，我们首先获取每个input feature map的值分布。根据值分布，我们选择一个阈值。一旦我们基于阈值确定了敏感区域，通常就需要对NN模型进行重新训练以保证NN准确率。重新训练可以帮助微调权重，以便他们可以了解input feature map中捕获的敏感度信息。在对NN模型进行重新训练之后，我们可以进行推理过程以获得NN准确率。我们将评估准确率是否可以满足预期要求。如果是，则确定阈值。否则，我们将反复重复上述步骤以找到正确的阈值。

混合精度卷积：

一旦找出敏感区域，我们就能执行混合精度卷积。在本发明中，我们定义INTn(n位整型数据)卷积为高精度，INTm(m位整形数据)卷积为低精度。利用2.2中生成的掩码记录的敏感度信息，混合精度卷积可以有两种常见情况，如图6所示。要注意在内存中总是以INTn形式存储权重的，但是input feature map的值则根据其敏感性以INTn或者INTm形式存储。在第一种情况中，区域是敏感的，当卷积核滑过该区域时，我们用全INTn形式的权重和input feature map执行n-bit卷积。在第二种情况中，区域是不敏感的，input featuremap中的值以INTm形式存储在内存中。当卷积核滑过该区域时，我们将权重值转换为INTm形式并相应执行INTm卷积。

但是，不同敏感度区域之间的切换可能会使卷积过程复杂化，对此我们有两种解决方案，如图7所示。第一种方法是在区域边界的连接处采用零填充。比如，我们给定一个nn的区域并且内核大小为mm，采用零填充之后区域大小变为(n+m-1)(n+m-1)。然后根据两个区域的敏感度，我们分别采用n-bit或m-bit的卷积核做卷积。第二种方法是在连接处采用混合精度内核。比如，我们在敏感区域使用n-bit的权重(图中表示为紫色块)做卷积，同时在非敏感区域使用m-bit的权重(图中表示为黄色块)做卷积运算。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于特征值区域的动态量化方法，其特征在于，包括：

步骤1：定位输入特征图中的敏感区域和非敏感区域；

步骤2：对敏感区域和非敏感区域执行混合精度卷积；

步骤3：将卷积结果提供给激活层和池化层；

步骤4：在不同敏感度区域之间进行切换。

2.根据权利要求1所述的基于特征值区域的动态量化方法，其特征在于，所述步骤1包括：

步骤1.2：与预设阈值进行比较，产生二进制掩码；

3.根据权利要求2所述的基于特征值区域的动态量化方法，其特征在于，所述步骤1.2包括：

步骤1.2.1：获取每个输入特征图的值分布；

步骤1.2.2：根据值分布选择阈值；

步骤1.2.4：评估准确率是否满足预期要求；

如果满足，则确定阈值；

4.根据权利要求2所述的基于特征值区域的动态量化方法，其特征在于，所述步骤1.3包括：给定具有c个通道的h×w维度的输入特征图，将输入特征图从FP32量化为INTn；其中，n表示：n位整型数据；m表示：m位整型数据；

对每个输入通道，分成几个m×m区域；

个输出值；

若该区域的输出值大于预定的阈值，则该区域是敏感的；

最终生成c张二进制掩码图，每张图的尺寸为

5.根据权利要求1所述的基于特征值区域的动态量化方法，其特征在于，所述步骤2包括：

当卷积核滑过敏感区域时，卷积进入预设高精度模式；

卷积在非敏感区域时采用预设低精度模式；

在内存中以INTn形式存储权重；

输入特征图的值根据敏感性以INTn或者INTm形式存储；

6.根据权利要求5所述的基于特征值区域的动态量化方法，其特征在于，当输入特征图的值以INTm形式存储在内存中，卷积核滑过不敏感区域时，将权重值转换为INTm形式并执行INTm卷积。

7.根据权利要求1所述的基于特征值区域的动态量化方法，其特征在于，所述步骤4包括：在区域边界的连接处采用零填充，给定一个大小为nn的区域，内核大小为mm，采用零填充之后区域大小变为(n+m-1)(n+m-1)；

8.根据权利要求1所述的基于特征值区域的动态量化方法，其特征在于，所述步骤4包括：在连接处采用混合精度内核，在敏感区域使用n-bit的权重做卷积运算，同时在非敏感区域使用m-bit的权重做卷积运算。

9.一种基于特征值区域的动态量化系统，其特征在于，包括：

模块M1：定位输入特征图中的敏感区域和非敏感区域；

模块M2：对敏感区域和非敏感区域执行混合精度卷积；

模块M3：将卷积结果提供给激活层和池化层；

模块M4：在不同敏感度区域之间进行切换。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。