CN111582229A

CN111582229A - 一种网络自适应半精度量化的图像处理方法和系统

Info

Publication number: CN111582229A
Application number: CN202010433705.8A
Authority: CN
Inventors: 孙显; 刁文辉; 陈凯强; 闫志远; 冯瑛超; 曹志颖; 马益杭; 赵良瑾
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-08-25

Abstract

本发明提供了一种网络自适应半精度量化的图像处理方法和系统，包括：采集边缘计算设备的图像数据；将图像数据输入到预先建立的用于图像处理的深度残差卷积量化网络进行处理，得到图像数据对应的目标的类别、定位和图像中像素的类别；其中，深度残差卷积量化网络是基于深度网络自适应半精度量化方法训练得到的，半精度量化为采用一半位数的浮点数进行量化。本发明对深度残差卷积量化网络进行半精度自适应量化，能够在保证精度的前提下，减少深度残差卷积量化网络的大小，降低计算资源要求。

Description

一种网络自适应半精度量化的图像处理方法和系统

技术领域

本发明属于数字图像处理和计算机视觉技术领域，具体涉及一种网络自适应半精度量化的图像处理方法和系统。

背景技术

随着深度学习的发展，卷积神经网络在目标检测领域得到了广泛的应用。为了保证目标检测的准确性，基于卷积神经网络的目标检测模型越来越复杂，使得模型的参数量呈指数级增长，不仅增大了模型存储空间，计算成本也相应的提高。这使得目前的高精度目标检测模型无法在资源受限的边缘设备上部署。而量化方法可以将深度学习模型使用的32位单精度浮点数运算转换为低比特深度的数值类型，可以大大降低模型计算资源。

目前常见的量化方法有二值量化、三值量化等。论文“Binarized NeuralNetworks”提出的二值化网络，把网络的权重、激活值量化为-1或者+1，使用一个位宽表示，相对于32位浮点数网络，二值化可以节约32倍存储，并且可以使得整个网络的浮点数乘加运算可以转换成浮点数加减法运算。但是该方法使得网络的表达能力变弱，即便只是对复杂的分类任务，性能也会下降很多，无法适用于更加复杂的检测模型。论文“TrainedTernary Quantization”则是一个典型的三值量化方法，该方法并不是简单的将参数量化0，+1，-1，而是通过学习的方式将每一层量化为不同的参数，尽管一定程度上避免的性能损失，但是该方法仅量化权值，不对激活值进行量化，并且依然用32位浮点数表示量化参数，同样不适合在边缘设备上进行部署使用。另外，还有一些后训练量化算法，将模型参数直接进行量化进行推理，尽管这种方法实现简单，但是没有重新训练网络去学习修正量化带来的误差，使得性能损失更大。

发明内容

为克服上述现有技术的不足，本发明提出一种网络自适应半精度量化的图像处理方法，其改进之处在于，包括：

采集边缘计算设备的图像数据；

将所述图像数据输入到预先建立的用于图像处理的深度残差卷积量化网络进行处理，得到所述图像数据对应的目标的类别、定位和图像中像素的类别；

其中，所述的深度残差卷积量化网络是基于深度网络自适应半精度量化方法训练得到的，所述半精度量化为采用一半位数的浮点数进行量化。

优选的，所述深度残差卷积量化网络的建立，包括：

第一步：基于完成识别的图像数据以及对应图像数据的目标的类别、定位和图像中像素的类别得到训练数据集，基于训练数据集，采用深度残差卷积网络进行初步迭代训练，得到所述深度残差卷积量化网络中各卷积层权值的初始值；

第二步：基于所述训练数据集中的图像数据，并对所述深度残差卷网络的每一个卷积层的权值进行分组半精度量化以及对每一个卷积层输出的激活值进行分组半精度量化，进行前向传播得到当前深度残差卷积网络的输出的目标的类别、定位和图像中像素的类别；

第三步：对比所述输出的目标的类别、定位和图像中像素的类别和对应所述图像数据的目标的类别、定位和图像中像素的类别，得到输出误差，并基于所述输出误差对所述深度残差卷积网络进行反向传播计算梯度值，根据所述梯度值更新半精度量化前的卷积层权值；

第四步：判断所述深度残差卷积网络是否收敛；若是，则结束，得到完成训练的深度残差卷积量化网络，否则，转入第二步，直至所述深度残差卷积网络收敛。

优选的，所述基于所述训练数据集中的图像数据，并对所述深度残差卷网络的每一个卷积层的权值进行分组半精度量化以及对每一个卷积层输出的激活值进行分组半精度量化，进行前向传播得到当前深度残差卷积网络的输出的目标的类别、定位和图像中像素的类别，包括：

依次针对所述深度残差卷网络的从第一层开始的各卷积层，对所述卷积层的权值进行分组半精度量化，根据所述卷积层的输入值和半精度量化后的权值进行卷积运算得到所述卷积层的激活值；

对所述卷积层的激活值进行分组半精度量化，得到所述卷积层的输出值；

其中，第一层卷积层的输入值为所述训练数据集中的图像数据，其他各层卷积层的输入值为上一层卷积层的输出值；最后一层卷积层的输出值为目标的类别、定位和图像中像素的类别。

优选的，所述卷积层各组权值的量化公式如下：

式中，

表示第i组权值的量化输出，wⁱ表示第i组权值，

表示第i组权值的下阈值，

表示i组权值的上阈值，N_w表示权值分组数量，

表示将第i组权值限制到该组上阈值和该组下阈值之间；

表示第i组权值的缩放因子；

的取值如下式所示：

的计算式如下：

式中，α_l表示权值下阈值尺度因子，

表示第i组权值的最小值；

的计算式如下：

式中，α_t表示权值上阈值尺度因子，

表示第i组权值的最大值。

优选的，所述第i组权值的缩放因子

的计算式如下：

优选的，所述权值量化级别n_w设置为2¹⁶。

优选的，所述卷积层输出的激活值的量化公式如下：

式中，

表示第i组激活值的量化输出，aⁱ表示第i组激活值，

表示第i组激活值的下阈值，

表示i组激活值的上阈值，该阈值范围通过指数移动平均值在训练中统计得到,Na表示激活值分组数量，

表示将第i组激活值限制到该组上阈值和该组下阈值之间；

表示第i组激活值的缩放因子；

的取值如下式所示：

优选的，所述第i组激活值的缩放因子

的计算式如下：

式中，n_a为表示量化级别的常数。

优选的，所述权值量化级别n_a设置为2¹⁶。

基于同一发明构思，本申请还提供了一种网络自适应半精度量化的图像处理系统，其特征在于，包括：数据获取模块和图像处理模块；

所述数据处理模块，用于采集边缘计算设备的图像数据；

所述图像处理模块，用于将所述图像数据输入到预先建立的用于图像处理的深度残差卷积量化网络进行处理，得到所述图像数据对应的目标的类别、定位和图像中像素的类别；

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明针对深度残差卷积量化网络的权值和激活值进行半精度量化，减小了量化误差，另外，根据分组的情况进行误差量化，可以使得量化更加的细粒度，最后，本发明在深度残差卷积量化网络的训练过程中模拟了量化的过程，让深度残差卷积量化网络参数学习去修正量化带来的误差，比训练后量化更准确。

附图说明

图1为本发明提供的一种网络自适应半精度量化的图像处理方法流程示意图；

图2为本发明提供的一个网络自适应半精度量化的图像处理方法实施例的流程示意图；

图3为本发明的权值分组量化的一种结构示意图；

图4为本发明的权值分组量化的另一种结构示意图；

图5为本发明的权值分组量化的再一种结构示意图；

图6为本发明的激活值分组量化的一种结构示意图；

图7为本发明的激活值分组量化的另一种结构示意图；

图8为本发明提供的一种网络自适应半精度量化的图像处理系统基本结构示意图；

图9为本发明提供的一种网络自适应半精度量化的图像处理系统详细结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的一种网络自适应半精度量化的图像处理方法流程示意图如图1所示，包括：

步骤1：采集边缘计算设备的图像数据；

步骤2：将图像数据输入到预先建立的用于图像处理的深度残差卷积量化网络进行处理，得到图像数据对应的目标的类别、定位和图像中像素的类别；

其中，深度残差卷积量化网络是基于深度网络自适应半精度量化方法训练得到的，半精度量化为采用一半位数的浮点数进行量化。

这里的图像处理可以有多种，比如图像分类任务，经过量化网络处理得到图像的分类结果；比如是图像检测任务，经过量化网络处理得到定位结果和类别结果；比如是图像语义分割任务，经过量化网络处理得到每个像素的类别结果。

具体的，本发明的步骤如图2所示，包括：

第一步。对深度残差卷积量化网络进行预训练，首先，使用预训练模型训练一个用于图像处理的深度残差卷积网络，该网络可以为多种形式，对目标检测，可以是双阶段网络，如Faster-RCNN、RetinaNet等，也可以是单阶段检测网络SSD、YOLO网络等。预训练模型可以imagenet等数据集上进行预训练。迭代次数一般按照总迭代次数设置为10％，防止直接进行量化训练导致损失发散，无法收敛。

第二步。进行前向传播。在前向传播过程中，对网络的每一个卷积层的权值进行分组半精度量化。各组权值的量化公式如下：

式中，

表示第i组权值的量化输出，wⁱ表示第i组权值，

表示第i组权值的下阈值，

表示i组权值的上阈值，N_w表示分组数量，

表示将第i组权值限制到该组上阈值和该组下阈值之间；

表示第i组权值的缩放因子；

的计算式如下：

式中，n_w表示权值量化级别，设置为2¹⁶；

的取值如下式所示：

的计算式如下：

式中，α_l表示权值下阈值尺度因子，一般设置为1，

表示第i组权值的最小值；

的计算式如下：

式中，α_t表示权值上阈值尺度因子，一般设置为1，

表示第i组权值的最大值。

假设某一个卷积层的输入通道为C_in,输出通道为C_out,卷积核的尺寸为K×K，则该卷积层的权值尺寸为C_in×K×K×C_out，那么，对于权值分组的设计，可以有多种分组方式。常见的几种分组方式如下：如图3所示，可以直接按照顺序分组，当每一组的大小为1时，表示每一个卷积核为一组，每一组的大小为C_in×C_out时，表示整个层的权值为一组；如图4所示，可以基于卷积层的输出通道分组，每一组对应同一个输入通道的权重大小；如图5所示，可以基于卷积层的输入通道分组，每一组对应同一个输出通道的权值大小。

使用量化后的权值进行卷积运算得到激活值，在对每一个卷积层输出的激活值进行分组半精度量化。量化后的激活值作为本层的卷积层的输出值，并作为下一卷积层的输入值。特别的，第一层的输入值为输入的训练数据集中的图像数据，最后一层卷积层的输出值为目标的类别、定位和图像中像素的类别。其中，训练数据集是基于完成识别的图像数据以及对应图像数据的目标的类别、定位和图像中像素的类别得到的。

各组激活值的量化公式如下：

式中，

表示第i组激活值的量化输出，aⁱ表示第i组激活值，

表示第i组激活值的下阈值，

表示将第i组激活值限制到该组上阈值和该组下阈值之间；

表示第i组激活值的缩放因子；

的计算式如下：

式中，n_a为表示量化级别的常数，设置为2¹⁶；

的取值如下式所示：

假设某一个激活值的输出尺寸为C_out×H×W,那么，对于激活值分组的设计，可以有多种分组方式。常见的几种分组方式如下：如图6所示，可以直接按照顺序分组，当每一组的大小为1时，表示每一个通道的激活值为一组，每一组的大小为C_in时，表示整个激活值输出为一组；如图7所示，可以基于激活值的空间维度的输出分组，每一组对应同一个空间位置的激活值大小。

第三步。对比输出的目标的类别、定位和图像中像素的类别和对应图像数据的目标的类别、定位和图像中像素的类别，得到输出误差，并基于输出误差对所述深度残差卷积网络进行反向传播计算梯度值，然后对量化前的卷积层权值进行更新；

第四步。判断网络是否收敛；若是，则结束，得到深度残差卷积量化网络，否则，转入第二步，直至深度残差卷积量化网络收敛。

最后，将收敛的深度残差卷积量化网络部署至边缘计算设备。

边缘计算设备可获取图像数据，并输入深度残差卷积量化网络，得到图像数据对应的目标的类别、定位和图像中像素的类别。

实施例2：

基于同一发明构思，本发明还提供了一种网络自适应半精度量化的图像处理系统，由于这些设备解决技术问题的原理与网络自适应半精度量化的图像处理方法相似，重复之处不再赘述。

该系统基本结构如图8所示，包括：数据获取模块和图像处理模块；

数据处理模块，用于采集边缘计算设备的图像数据；

图像处理模块，用于将图像数据输入到预先建立的用于图像处理的深度残差卷积量化网络进行处理，得到图像数据对应的目标的类别、定位和图像中像素的类别；

网络自适应半精度量化的图像处理系统详细结构如图9所示。该系统还包括用于建立深度残差卷积量化网络的网络建立模块；

网络建立模块包括：初始化单元、前向传播单元、反向传播单元和收敛判断单元；

初始化单元，用于基于完成识别的图像数据以及对应图像数据的目标的类别、定位和图像中像素的类别得到训练数据集，基于训练数据集，采用深度残差卷积网络进行初步迭代训练，得到深度残差卷积量化网络中各卷积层权值的初始值；

前向传播单元，用于基于训练数据集中的图像数据，并对深度残差卷网络的每一个卷积层的权值进行分组半精度量化以及对每一个卷积层输出的激活值进行分组半精度量化，进行前向传播得到当前深度残差卷积网络的输出的目标的类别、定位和图像中像素的类别；

反向传播单元，用于对比输出的目标的类别、定位和图像中像素的类别和对应图像数据的目标的类别、定位和图像中像素的类别，得到输出误差，并基于输出误差对深度残差卷积网络进行反向传播计算梯度值，根据梯度值更新半精度量化前的卷积层权值；

收敛判断单元，用于判断深度残差卷积网络是否收敛；若是，则结束，得到完成训练的深度残差卷积量化网络，否则，调用前向传播单元，直至深度残差卷积网络收敛。

其中，前向传播单元包括：权重量化子单元和激活值量化子单元；

权重量化子单元，用于依次针对深度残差卷网络的从第一层开始的各卷积层，对卷积层的权值进行分组半精度量化，根据卷积层的输入值和半精度量化后的权值进行卷积运算得到卷积层的激活值；

激活值量化子单元，用于对卷积层的激活值进行分组半精度量化，得到卷积层的输出值；

其中，第一层卷积层的输入值为训练数据集中的图像数据，其他各层卷积层的输入值为上一层卷积层的输出值；最后一层卷积层的输出值为目标的类别、定位和图像中像素的类别。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。