CN109635935B

CN109635935B - 基于模长聚类的深度卷积神经网络模型自适应量化方法

Info

Publication number: CN109635935B
Application number: CN201811635838.2A
Authority: CN
Inventors: 姜宏旭; 李晓宾; 李�浩; 韩琪; 黄双喜
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-10-14
Anticipated expiration: 2038-12-29
Also published as: CN109635935A

Abstract

本发明公开的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，设计了适用于FPGA计算的深度卷积深度网络低bit量化算法，主要包括网络模型参数的预处理和参数集的分组自适应量化方法。通过动态阈值获取，对模型原参数进行粗粒度化裁剪，再构建适合FPGA移位计算的初始聚类中心点集，对预处理后的模型参数进行基于模长最小法进行分组聚类，最终叠加参数类不为空的聚类中心点集，优化实现不同网络的自适应低bit量化，本量化算法复杂度适中并非常符合FPGA的计算特点，节省FPGA上的硬件资源消耗，保证模型推理精度的同时提高了模型推理速度。

Description

基于模长聚类的深度卷积神经网络模型自适应量化方法

技术领域

本发明涉及深度网络模型压缩技术领域，特别涉及一种基于模长聚类的深度卷积神经网络模型自适应量化方法。

背景技术

伴随着深度学习技术迅猛发展，深度神经网络在计算机视觉、语音识别、自然处理等领域实现了跨越式的突破。然而深度学习算法在工业、制造业和航天航海等领域还没得到非常广泛的应用，其中一个原因就是深度学习网络的模型庞大、计算量巨大，一个CNN网络的权重文件动辄数百兆，例如AlexNet有着61M的参数、249MB的内存，复杂的VGG16及VGG19的内存容量已经超过500MB，意味着需要更大的存储容量和更多的浮点运算。由于移动平台和嵌入式设备局限于其有限的内存和处理单元，导致CNN模型在这些平台上的部署面临巨大挑战，并且移动平台及嵌入式设备的电池容量受限，运行巨大的网络模型需要大量的内存带宽来读取权重值和进行大量的矩阵乘积运算，耗电问题成为CNN模型在嵌入式平台上的部署的又一瓶颈。

深度卷积网络模型量化技术是深度压缩的一个关键步骤，采用量化参数的手段，降低网络模型参数的规模，使之在保有一定模型预测精度的前提下，降低模型的存储需求，解决FPGA等嵌入式移动平台计算资源受限的问题。目前在深度压缩领域，更多的学者关注模型的裁剪，通过修剪参数或者通道等方式来降低网络模型的规模，近两年的算法可从实施过程角度出发分为两类：(1)在训练过程中对网络模型进行裁剪，对权重的更新加以正则项进行诱导，使其更加稀疏，使大部分的权值都为0。近两年效果较好的模型裁剪方法有结构化稀疏表示、动态模型裁剪、修剪再恢复等；(2)对已经训练好的模型进行修剪，通常是寻找一种有效的评判手段，来判断参数的重要性，将不重要的连接或者卷积核进行裁剪来减少模型的冗余。

卷积核中的权重通常用float数据类型来表示，Low-bit表示即通过用低精度的数据来代替高精度的float数据，目前主流有HashNets、权值量化、二值网络、XNOR-Net、三值网络等方面的研究。其中，权值量化是基于权值聚类，将连续分布的权值离散化，对权重值使用K-Means算法进行聚类，将原来的float型权重数据用int型数据(索引)来表示，并建立一个码书(存储各类权重的质心)，通过索引码书得到实际的权重，用码书来对权值进行量化可以共享权值，并利用哈夫曼编码对权值进行编码，此类方法极大的减少存储的权重数量及模型大小；二值网络是low-bit表示法的极端情况，通过构建二值化的等价矩阵，将各个卷积核中的权重值变为-1或者+1，从而减少模型存储空间；XNOR-Net则更加极端，同时对卷积核中的权重及输入进行二值化操作，这样既可以减少模型存储空间，又能加速模型的运算时间。虽然其中部分算法也可以采用移位操作来代替乘法，但其优化目标(最大概率准则)和优化方法(L1和L2正则化)通常会导致神经网络参数呈现中心对称的非均匀分布，会导致网络性能下降较多。FPGA在并行计算的能力上虽然不比GPU差，但受限于其存储资源和计算资源。所以设计适用于FPGA的网络模型量化方法显得尤为重要，也是当下重要的研究课题之一。

因此，提供一种基于模长聚类的深度卷积神经网络模型低bit自适应量化方法是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于设计一种适用于FPGA的深度卷积神经网络模型自适应量化算法，为将规模庞大的深度网络模型移植到FPGA平台上提供可能的技术支持。主要包括网络模型参数的预处理和参数集的分组自适应量化方法。通过设定阈值对小权重的模型参数进行暴力裁剪，再对预处理后的模型参数按照大小进行排序，采用可变比例的参数分组机制将参数分为两组，计算权重较大的一组参数到初始聚类中心点的模长，以模长最小为约束条件实现定点聚类，根据FPGA移位运算的便利特性构造初始聚类中心点集，统计参数数量不为零的聚类中心点并生成子字典，对权重较小的一组参数进行重训练并来弥补精度损失，将更新完权重的参数再次分组聚类并生成子字典，最终叠加子字典构造最终量化后的聚类中心点字典，从而完成对不同网络的自适应低bit量化。为实现上述目的其具体方案如下：

本发明公开了一种基于模长聚类的深度卷积神经网络模型自适应量化方法，包括如下步骤：

步骤一，模型参数的预处理，采用动态阈值获取的方式对模型参数进行初步裁剪，完成模型参数矩阵的稀疏化处理；

步骤二，模型参数的分组量化处理，采用分组量化再训练的机制，将预处理后的模型参数按照权重大小分为两组，即大权值组和小权值组，大权值组进行聚类操作并生成子字典，小权值组通过重新训练网络模型来更新权重，并进一步进行分组量化的迭代处理；

步骤三，构建完备聚类中心点字典集并完成模型量化，采用子字典叠加的方式构造完备聚类中心点字典集，当分组量化的迭代结束，此时所有的参数已经全部量化，输出量化后的模型。

优选的，所述步骤一具体为：预设初始权重阈值，对权重小于初始权重阈值的模型参数进行粗粒度裁剪，降低网络模型的参数体积，再对网络模型进行训练，保证模型精度无损的情况下，不断扩大权重阈值的大小，对模型参数进一步裁剪，完成模型参数矩阵的稀疏化处理。

优选的，设置所述初始权重阈值为1/256，对权重小于1/256的模型参数进行初步裁剪；扩大权重阈值的调整步长为1/256。其中，1/256为步骤二中两个相邻初始聚类中心点距离的一半，表示着聚类操作的粗粒度。

优选的，所述步骤二具体为：

(1)将预处理后的模型参数按照权重绝对值的大小进行排序并分组，得到大权值组和小权值组；并根据初始聚类中心点对大权值组直接进行聚类操作实现量化，并记录生成的子字典，此处的子字典为初始聚类中心点集中一部分点集；

(2)对网络模型进行重新训练，其中经过聚类量化的大权值组的模型参数保持不变，仅更新小权值组中模型参数的权重；

(3)将更新完的小权值组再次按照权重绝对值的大小进行排序，并再次进行分组，即得到新的大权值组和新的小权值组，对新的大权值组中的权重进行量化，通过重新训练网络模型对新的小权值组中的权重进行更新；

(4)在步骤(1)、(2)、(3)的迭代循环中，判断已量化模型参数的数量是否达到总体模型参数数量的95％，若否，继续对未量化的权重进行分组并量化的迭代处理，进一步生成子字典；若是，则直接对剩余的未量化模型参数全部进行聚类操作，生成子字典。

优选的，所述步骤(1)中，构造初始聚类中心点集为(0,±1/128,±2/128,...,±127/128,±1)，即聚类中心点都用k*2^-7来表示，其中k＝0～129，满足量化后的参数符合FPGA的移位运算特征。对大权值组进行聚类操作，统计在聚类过程中用到的初始聚类中心点，将单次量化操作中用到的初始聚类中心点称为子字典。

优选的，所述步骤(1)中采用可微调的分组比例策略；在模型参数的分组量化过程中，计算大权值组中所有模型参数与初始聚类中心点之间的模长，基于最小距离的原则，将网络模型的权重值用对应的初始聚类中心点代替，从而实现量化。考虑到预测模型的具体特性，实现不同的分组策略。

优选的，所述步骤(1)中的分组比例为：将权重排序在前50％的模型参数分为大权值组，剩余部分则为小权值组，对小权值组的权重进行分组并量化的迭代处理的过程中，仍采用将权重排序在前50％的模型参数分为新的大权值组，剩余部分为新的小权值组。

优选的，所述步骤(4)中采用多次迭代分组量化，补偿参数量化后模型的预测精度。

优选的，构建完备聚类中心点字典集，包含所有子字典的元素，统计完备聚类中心点字典集中元素的个数n，确定最终实现的量化bit，计算公式如下：

2^d-1＜n≤2^d，其中d代表最终模型实现了d个bit位的量化，其中，d≤8。

经由上述的技术方案可知，本发明提供一种适用于FPGA的深度卷积神经网络模型自适应量化算法，与现有技术相比的优点在于：

1、基于模长的聚类算法比目前常用于模型压缩中的K-means算法复杂度低，引入先验知识对参数进行定点聚类更有针对性，而且聚类速度更快。

2、采用分组量化再训练的方式有效的保障了网络模型在量化后的预测精度，预测精度损失在1％以内。

3、采用k*2^-7的形式来表示原有的深度卷积网络模型参数，利用了FPGA的移位运算的优势，大幅度降低了模型在FPGA上运算的复杂度。

4、目前工业界已公开的在FPGA上实现深度网络模型低bit量化加速的方法(同时精度损失在1％以内)，最低为8bit量化。但利用过程子字典重构完备字典集，然后计算出最终的量化bit，针对不同深度卷积网络模型可以优化量化效率，实现≤8bit的量化，减少不必要聚类点的选取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明基于模长聚类的深度卷积神经网络模型自适应量化方法的流程图；

图2附图为本发明提供的Alexnet模型卷积层参数聚类效果图；

图3附图为本发明提供的Lenet模型卷积层参数聚类效果图；

图4附图为本发明Lenet模型量化完后所有参数的聚类结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，为基于模长聚类的深度卷积神经网络模型自适应量化方法的流程图，本发明深度卷积神经网络模型自适应量化方法的设计和实现主要分为3部分：网络模型参数的预处理、网络模型参数分组量化和针对FPGA运算特征的量化值分解。

1、CNN模型参数的预处理

此部分通过设立阈值对参数矩阵中参数的权重值<1/256的参数进行粗粒度修剪，进行化0处理，为了进一步减少模型预测精度影响微弱的参数数量，实现对模型参数矩阵的稀疏化处理，通过动态调整阈值的大小来实现进一步稀疏化处理，其中调整步长为1/256。实验数据针对Alexnet和lenet等经典网络，经过此方法稀疏化处理，参数量减少10％以上。

2、CNN模型参数的分组量化处理

首先构造初始聚类中心点集(0,±1/128,±2/128,...,±127/128,±1)，即聚类中心点都可以用k*2^-7来表示。将聚类中心点集作为模型参数的量化值。其后，将预处理后的网络模型参数进行分组，依照权重的绝对值大小，由高到低进行排序，将该层的参数权重每次分为两组：大权值组和小权值组。由于参数权重的绝对值较大，对网络模型预测精度的影响也较大，因此先对绝对值较大的大权值组直接进行量化操作，采用初始聚类中心点集里的元素对原模型参数的权重值进行表示，并剔除其中未使用的聚类中心点生成一个简约化的子字典集；剩余部分的权重值被认为由于绝对值较小，对网络模型预测精度的影响也较小，大权值组量化结束后，对小权值组进行重训练，更新参数来弥补量化过程中带来的精度损失，保障网络模型预测的准确性。对小权值组依照相同操作进行迭代。

迭代循环根据对当前需要量化的层中已量化的参数数量进行统计判断，将判别标准设定为该层参数总体数量的95％，认为当已经完成量化的参数数量不足总体权重参数的5％时，进行分组重训练对网络预测的精度补偿影响较小，分组操作意义较小。当小权值组内的参数数量未达到总体参数数量的95％，进行迭代执行；当到达95％以上，不再进行分组，对剩余部分参数全部进行量化处理。

通过迭代重复分组量化的操作，每量化一次，就生成一个新的子字典，每对一层的参数完成量化之后，整合得到该层的子字典集。根据这个子字典集对聚类中心点的聚类数量进行统计，按照由高到低的顺序对相邻的聚类中心点进行分析，若这些聚类中心点的模型参数聚类数量都不足参数总体数量的0.1％，称为离散聚类中心点。依照顺序对相邻的离散聚类中心点的聚类数量进行累积，当累计数量超过参数总体数量的0.1％时，将这些离散聚类中心点化为一组，以聚类中心点的平均值对该组进行重聚类，并对量化的权重值进行更新；若在累积过程中再无相邻的离散聚类中心点时，仅将现阶段已累积的离散聚类中心点化为一组，以相同操作进行重聚类。得到该层的聚类中心点集合字典。

对网络模型的各层参数进行量化操作，对各层的聚类中心点集合字典进行整合，最终构建一个简约的完备聚类中心点字典集，来表示所有量化后的值。

3、针对FPGA运算特征的量化值分解

基于廉价运算的思想，将量化值k*2^-7进行因式分解为(2^x+2^y+...+2^z)*2^-7的形式，便于FPGA的移位运算和部分简单乘法运算，从而优化算法在FPGA上的计算效率。

具体步骤：

将k转化整二进制的形式表示(0<k<129，k为正整数)

求x，y等幂的值，其中幂的值即为对应二进制序列中值为1的位次m减1。例如k＝7，二进制表示为0111，有1的位次分别为1，2，3，故幂的集合为(0,1,2)，及7＝2⁰+2¹+2²。

参见图2和图3为本发明对Alexnet模型卷积层参数和Lenet模型卷积层参数量化的聚类效果图，将原本129个初始聚类点缩减，去除冗余，将没有用到的点删去，最终的完备字典集只是初始聚类中心点集的一部分，从而完成了模型的权重参数利用更少的聚类点来表示。最后，还对本发明量化后的Lenet模型卷积层参数实施了进一步量化，原理是将完备字典集中的各个聚类点对应的权重参数数量进行排序，将权重参数数量较少的聚类点进行合并，进一步缩减完备字典集，得到如图4所示的量化完后所有参数的聚类结果，量化后的模型体积大幅减少，实现了网络的自适应低bit量化，能够满足将规模庞大的深度网络模型移植到FPGA平台上的要求。

以上对本发明所提供的一种基于模长聚类的深度卷积神经网络模型自适应量化方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，包括如下步骤：

步骤二，模型参数的分组量化处理，采用分组量化再训练的机制，将预处理后的模型参数按照权重大小分为两组，即大权值组和小权值组，根据FPGA的移位运算构造初始聚类中心点集，大权值组进行聚类操作并生成子字典，小权值组通过重新训练网络模型来更新权重，并进一步进行分组量化的迭代处理；

步骤三，构建完备聚类中心点字典集并完成模型量化，采用子字典叠加的方式构造完备聚类中心点字典集，当分组量化的迭代结束，此时所有的参数已经全部量化，输出量化后的模型，将所述深度卷积神经网络模型移植到FPGA平台上，针对FPGA进行量化值分解；

所述步骤二具体为：

(4)在步骤(1)、(2)、(3)的迭代循环中，判断已量化模型参数的数量是否达到总体模型参数数量的95％，若否，继续对未量化的权重进行分组并量化的迭代处理，进一步生成子字典；若是，则直接对剩余的未量化模型参数全部进行聚类操作，生成子字典；

所述步骤(1)中，构造初始聚类中心点集为

(0,±1/128,±2/128,...,±127/128,±1)，即聚类中心点都用k*2^-7来表示，其中k＝0～129，对大权值组进行聚类操作，统计在聚类过程中用到的初始聚类中心点，将单次量化操作中用到的初始聚类中心点称为子字典。

2.根据权利要求1所述的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，所述步骤一具体为：预设初始权重阈值，对权重小于初始权重阈值的模型参数进行粗粒度裁剪，再对网络模型进行训练，保证模型精度无损的情况下，不断扩大权重阈值的大小，对模型参数进一步裁剪，完成模型参数矩阵的稀疏化处理。

3.根据权利要求2所述的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，设置所述初始权重阈值为1/256，对权重小于1/256的模型参数进行初步裁剪；扩大权重阈值的调整步长为1/256。

4.根据权利要求1所述的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，所述步骤(1)中采用可微调的分组比例策略；在模型参数的分组量化过程中，计算大权值组中所有权重与初始聚类中心点之间的模长，基于最小距离的原则，将网络模型的权重值用对应的初始聚类中心点代替，从而实现量化。

5.根据权利要求1所述的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，所述步骤(4)中采用多次迭代分组量化，补偿参数量化后模型的预测精度。

6.根据权利要求1所述的一种基于模长聚类的深度卷积神经网络模型自适应量化方法，其特征在于，构建完备聚类中心点字典集，包含所有子字典的元素，统计完备聚类中心点字典集中元素的个数n，确定最终实现的量化bit，计算公式如下：

2^d-1＜n≤2^d，其中d代表最终模型实现了d个bit位的量化。