CN109002889B

CN109002889B - 自适应迭代式卷积神经网络模型压缩方法

Info

Publication number: CN109002889B
Application number: CN201810715248.4A
Authority: CN
Inventors: 余志文; 马帅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2021-12-17
Anticipated expiration: 2038-07-03
Also published as: CN109002889A

Abstract

本发明公开了一种自适应迭代式卷积神经网络模型压缩方法，包括：对训练数据进行预处理，用训练数据对卷积神经网络进行训练，选出最优模型作为需要压缩的模型，用自适应迭代式卷积神经网络模型压缩方法对模型进行压缩，对压缩后的模型进行评估，选出最优模型作为压缩完成的模型。本发明具有以下优点：自适应调整量化比例，参数少；自适应迭代式压缩，可以提高模型压缩后的准确率；支持常见的卷积神经网络模型压缩，且可以根据需要压缩到特定位数，因此本发明的方法可以高效地压缩卷积神经网络模型并将模型应用到移动设备上。

Description

自适应迭代式卷积神经网络模型压缩方法

技术领域

本发明属于卷积神经网络模型压缩领域的研究，特别涉及一种自适应迭代式卷积神经网络模型压缩方法。

背景技术

自从2012年AlexNet网络在ImageNet比赛上取得第一名之后，卷积神经网络开始被应用到计算机视觉的各种领域。很多研究人员都在研究如何用卷积神经网络解决图像分类、对象检测、图像语义分割和图像转文字等计算机视觉问题。目前研究人员已经在很多领域都取得重要成果。然而上面的大部分卷积神经网络模型都是运行于台式机或者服务器之上，通常需要GPU进行加速，而且计算量和模型大小都很大。所以无法适用于FPGA、智能手机和嵌入式设备等性能较弱的设备上。然而这些移动设备对卷积神经网络模型也有很大的需求。因此，如果对现有的卷积神经网络模型进行简化和压缩，使这些模型能够在智能手机等移动设备上进行运行，就成了一个很重要的研究方向。对于轻量级卷积神经网络模型的研究，可以使卷积神经网络模型在移动设备上处理图像和视频，这种方法有着更广阔的应用前景。

目前卷积神经网络模型计算量和模型本身大小都很大，比如AlexNet的大小为240MB，而VGG16的模型大小更是超过了500MB，因此很难部署到硬件资源有限的嵌入式系统上。现在有很多图像相关的软件都会用到卷积神经网络模型，而目前主流卷积神经网络模型的大小都很大，这就是卷积神经网络模型在智能手机等移动设备上普及应用造成了很大的障碍。此外对于大型卷积神经网络来说，运行大型卷积神经网络需要大的内存带宽去读取和计算，并且需要进行很多次浮点运算。这就需要耗费很多电能，而智能手机等移动设备电池容量很有限，这给卷积神经网络模型在移动设备部署造成了一定的障碍。因此，我们需要对模型进行压缩，减少模型的大小。

Song han等人在2016年提出了“deep compression”方法。该方法共包括三个阶段，分别是模型参数剪枝、权值量化和霍夫曼编码。通过模型剪枝和模型权值量化，将AlexNet压缩了几十倍，可以极大地减少模型的存储空间。Song han的网络剪枝主要流程如下：首选基于训练数据训练好一个卷积神经网络模型，然后对模型的参数值进行排序，对于所有权值小于一定阈值的参数，将其设为0，也就说，权值较小的连接在整个网络中将不起作用，相当于从网络中剪去一样。然后再用数据对剪枝后的模型进行微调，以此来使模型稀疏化。实验表明对权值进行剪枝然后用稀疏存储的方法可以将AlexNet压缩9倍，将VGG16模型大小压缩大约13倍。接下来对模型进行了量化，主要量化方式是通过权值共享的方式来减少模型的参数数目。作者采用了对权值聚类的方式来处理。对于每层网络，对该层网络的所有权值进行聚类，然后将聚为同一类的权值全部设为相同的值。具体的聚类方式采用kmeans聚类方式。在完成对模型的量化后，会对模型进行霍夫曼编码，最终得到一个压缩后的模型。这种压缩方法可以对常见卷积神经网络模型进行压缩，但是这种压缩方法有一定的缺点，这种方法在压缩的时候是直接压缩全部参数，因此模型压缩后的准确率较差。

除了上文Song han等人提出的模型压缩算法外，目前还有一类模型压缩的研究是关于如何把模型量化到固定位数。目前的卷积神经网络模型计算量很大，因此为了减少模型的大小同时加快模型的计算速度，研究人员提出了将模型参数量化到两个数值或者三个数值，这样可以不用做浮点数乘法运算，只用做加法运算，在计算机系统里面，浮点数的乘法运算时间远远超过了加法的运算时间，因此这种方法可以加快模型的运算速度。目前有研究人员设计了二值网络和三值网络。这些模型压缩算法只能将模型压缩到固定位数，不能作为通用的模型压缩算法。

发明内容

为了克服目前的模型压缩算法所存在的缺点，提高卷积神经网络模型压缩后的准确率，本发明至少提供如下技术方案：

一种自适应迭代式卷积神经网络模型压缩方法，其包括以下步骤：

对训练数据进行数据预处理；

采用所述预处理后的所述训练数据对需要压缩的卷积神经网络进行训练，选择准确率最高的卷积神经网络模型作为需要压缩的模型；

采用自适应迭代式卷积神经网络模型压缩方法对需要压缩的卷积神经网络模型进行压缩；

对压缩结束的卷积神经网络模型进行评估，选择准确率最高的模型作为压缩完的模型。

进一步的，所述数据预处理包括以下步骤：

对训练图片进行数据集扩增，获得训练数据；

对训练数据RGB三个通道的像素值分别进行Z-score归一化：

式(1)中x_i表示像素值，

表示归一化后的像素值，μ表示像素值的均值，σ表示像素值的标准差，先以像素值x_i减去均值μ再除以标准差σ，最终像素值归一化到均值为0和方差为1。

进一步的，所述对训练图片进行数据集扩增中，对于要使用的数据集，将数据集中的图片随机划分为训练数据、验证数据及测试数据，这三者的数量比为8:1:1，对所述训练数据进行数据集扩增，具体为对所述训练数据的图像分别进行左右对称和180度旋转，1张图像扩增为4张。

进一步的，所述自适应迭代式卷积神经网络模型压缩方法采用多次迭代实现模型压缩，从而将32位浮点数参数量化成低位数字。

进一步的，在每次迭代时，所述自适应迭代式卷积神经网络模型压缩方法首先计算量化后的权值集合Q_l，对于卷积神经网络模型的第l层参数，计算该层网络权值的最大值s，如下式所示：

n₁＝floor(log₂s) 式(2)

其式(2)-(3)中n₁为对数值的下界，Q_l为第l层量化后的权值，正整数n₁≥n₂。

进一步的，所述每次迭代包括以下步骤，

步骤a.对输入的卷积神经网络模型，自适应调整压缩比例；

步骤b.按照所述调整压缩比例对所述模型进行参数量化；

步骤c.在权值量化完成之后，对所述模型参数进行重新训练；

步骤d.检测模型压缩比例，若压缩比例达到100％，则压缩完成，若压缩比例小于100％，则继续从步骤a开始执行，对模型进行压缩，直至压缩比例达到100％。

进一步的，所述步骤a中，设模型初始压缩比例为m，强制停止压缩比例为n，模型loss变化值的临界值为

自适应模型压缩比例调整后得到的实际调整比例x介于n与m之间，所述自适应模型压缩比例调整策略为，首先将压缩比例设为初始压缩比例m，然后按照模型压缩策略对模型进行压缩，求得模型loss的变化值Δloss，当

或满足Δloss≤n时，所述自适应压缩比例调整完成，否则，将模型阈值x减半，继续重复上述步骤，最终所述调整比例的x值为：若x大于n，则所述调整比例设为x，否则设所述调整比例为n。

进一步的，所述步骤b中，对于第l层的参数，未量化参数被分为两个集合，

集合

表示将要被量化的参数，集合

表示本次迭代不需要量化的参数，其参数在本次量化完后会进行重新训练，在划分完集合之后，对需要量化的权值参数进行量化，量化方式按照差值绝对值最小原则，其中，用一个0-1矩阵T来表示权值所属集合，T_l(i,j)＝0表示

T_l(i,j)＝1表示

进一步的，所述步骤c中，所述模型的目标函数如式(5)所示，

s.t.W_l(i,j)∈Q_l 式(6)

式(5)-(6)中，E(W_l)分为两个部分，L(W_l)表示卷积神经网络的loss，R(W_l)表示正则化项，λ为模型正则化项的比重，模型目标函数的训练方法是随机梯度下降法，最终的权值W_l(i,j)由集合Q_l组成，Q_l是模型量化后的权值集合。

进一步的，步骤c中，所述重新训练方法是随机梯度下降法，所述梯度更新公式如(7)所示，

式(7)中，W_l(i,j)为模型的权值，γ为模型训练的学习率，

是所述目标函数对应权值的导数值，T_l(i,j)是一个二值矩阵，若权值W_l(i,j)属于集合

则T_l(i,j)为0，否则T_l(i,j)为1。

与现有技术相比，本发明至少具有如下优点：

本发明提出的自适应迭代式卷积神经网络模型压缩方法准确率高、并且能够高效地将卷积神经网络模型压缩到低位，从而将卷积神经网络模型移植到智能手机等移动设备上，该方法还能够作为通用的模型压缩算法；该方法通过迭代式的方法来压缩卷积神经网络模型，每次迭代分为两个阶段：自适应调整量化比例和模型重新训练。自适应调整量化比例阶段会自动调整模型参数的量化比例，直到模型的loss满足条件。自适应调整量化比例，参数少，模型重新训练阶段会对模型未量化参数进行重新训练，降低模型量化所带来的精度损失。该量化方法支持常见的卷积神经网络模型压缩，且可以有效地对目前常见的卷积神经网络模型进行量化，可以根据需要压缩到特定位数。

附图说明

图1是本发明自适应迭代式卷积神经网络模型压缩方法的流程图。

图2是本发明方法将ResNet18模型在ImageNet数据集上压缩到2位的测试准确率变化图。

图3是本发明方法将ResNet18模型在ImageNet数据集上压缩到2位的测试loss变化图。

具体实施方式

本发明主要是关于自适应迭代式卷积神经网络模型压缩方法，因此本发明实施对硬件有一定要求，下面阐述的实施实例是在Ubuntu14.04平台上，显卡为NVIDIA TiTan X，12GB显存，为了能够正常训练卷积神经网络，因此建议显卡的显存至少为6GB。为了使本发明所提出的方法的特征和优点更加明显易懂，以下结合附图和具体实施实例作具体说明。

本发明的自适应迭代式卷积神经网络模型压缩方法如图1所示，主要包括以下步骤：

步骤1：对训练数据进行数据预处理；

步骤2：用所述预处理后的训练数据对需要压缩的卷积神经网络进行训练，选出准确率最高的卷积神经网络模型作为需要压缩的模型。

步骤3：用自适应迭代式卷积神经网络模型压缩方法对需要压缩的卷积神经网络模型进行压缩。

步骤4：对压缩完的卷积神经网络模型进行评估，选择准确率最高的模型作为压缩完的模型。

以下详细说明本发明中各个步骤实施的细节问题。

步骤1：对数据进行预处理。具体的，对于要使用的数据集，将数据集中的图片随机划分成训练数据、验证数据和测试数据，这三者的数量比例为8:1:1。对所述训练数据进行数据集扩增，具体为对所述训练数据的图像分别进行左右对称和180度旋转，1张图像扩增为4张；然后对训练数据RGB三个通道的像素值分别进行Z-score归一化：

式(1)中，x_i表示像素值，

步骤2：用所述预处理后的训练数据对需要压缩的卷积神经网络模型进行训练，从所述训练后的结果中选出准确率最高的卷积神经网络模型作为需要压缩的模型。

步骤3中，所述自适应迭代式卷积神经网络模型压缩方法采用多次迭代实现模型压缩。普通的卷积神经网络模型参数使用32位浮点数进行表示，自适应迭代式卷积神经网络模型压缩方法将32位浮点数参数量化成低位数字。自适应迭代式卷积神经网络模型压缩方法在每次迭代的时候，首先计算量化后的权值集合Q_l，对于卷积神经网络模型的第l层参数，求出该层网络权值的最大值s，如以下公式所示：

n₁＝floor(log₂s) 式(2)

其中，首先对最大值s求对数，并取对数值的下界作为n₁，第l层量化后的权值属于集合Q_l，量化后的权值从集合Q_l中选出，其中n₁和n₂是两个正整数并满足n₁≥n₂，在量化的时候，所要量化的位数是给定的，求出n₁之后，由式3计算获得n₂，n₁和n₂的作用是将量化后值限制在

和

之间。对于第l层，首先算出其权值集合Q_l，然后每次量化时对于需要量化的权值w，量化方式按照差值绝对值最小原则，具体做法是计算权值w与Q_l集合中数值差值的绝对值，然后选择绝对值最小的数值作为权值w量化后的数值。上述内容为模型权值的编码方式，以下步骤为模型压缩的具体步骤：

步骤3-1：对于输入的卷积神经网络模型，自适应调整压缩比例。设模型初始压缩比例为m，强制停止的压缩比例为n，模型loss变化值的临界值为

自适应模型压缩比例调整最后得到的实际调整比例x会介于n和m之间。自适应模型压缩比例调整策略是首先将压缩比例设为初始压缩比例m，然后按照模型压缩策略对模型进行压缩，测量模型压缩前的loss和模型压缩后的loss，并求得模型loss变化值Δloss，当满足条件

或者满足Δloss≤n时，模型自适应压缩比例调整阶段完成，否则会将模型实际调整比例x设为之前的一半，继续重复以上步骤，最终所述调整比例的x值为：若x大于n，则比例设为x，否则设比例为n。

步骤3-2：按照上一步确定的压缩比例对模型进行权值量化，对于第l层权值，第l层权值分为两个集合，如下式所示，未量化的参数被分成两个集合，

其中

式(4)中，集合

表示将要被量化的权值，集合

表示本次迭代不需要量化的权值，这些权值在本次量化完后会进行重新训练，在划分完集合之后，对需要量化的权值进行量化，具体量化方式按照前文提到的差值绝对值最小原则。这里，我们用一个0-1矩阵T来表示权值属于哪个集合，T_l(i,j)＝0表示

T_l(i,j)＝1表示

步骤3-3：在权值量化完成之后，对模型参数进行重新训练。模型的目标函数如下式：

s.t.W_l(i,j)∈Q_l 式(6)

式(5)-(6)中，E(W_l)分成两个部分，L(W_l)表示卷积神经网络的loss，R(W_l)表示正则化项，λ为模型正则化项的比重。模型的训练方法是随机梯度下降法。最终的权值W_l(i,j)由集合Q_l组成，Q_l是模型量化后的权值集合。直接从零开始优化这个问题是非常困难的，但是通过权值划分和分组量化操作，这个优化过程可以转化为一个更简单的方式，也就是将一个训练好的模型分成多次量化，本实施例所设计的梯度更新公式如下：

W_l(i,j)为模型的权值，γ为模型训练的学习率，

则T_l(i,j)为0，否则T_l(i,j)为1。在用梯度下降法训练权值的时候，对于已经量化的权值来说，我们不会更新这些权值，只更新那些没有量化的权值，我们将更新项乘以权值对应的值T_l(i,j)，由于已经量化的权值对应的值T_l(i,j)为0，这样可以只更新未量化的值。

步骤3-4：检测模型压缩比例，如果模型压缩比例达到100％，则模型压缩完成，模型压缩结束。如果压缩比例小于100％，则继续从步骤3-1开始执行，对模型进行压缩。直到模型压缩比例达到100％。

步骤4是对已经压缩完成的卷积神经网络模型进行评估，选择准确率最高的模型作为压缩完的模型。

实用性验证

为了验证本发明的压缩方法，我们选择使用网上公开的数据集进行方法测试，测试平台为Ubuntu14.04，CPU为i7-6700K，GPU为Titan X，显存为12GB。实验选择ImageNet数据集作为训练集，用ResNet18模型作为测试模型。用本发明的方法将ResNet18模型在ImageNet数据集上压缩到2位，如图2所示，是ResNet18模型压缩到2位的测试准确率变化曲线，可以看到每次模型量化一部分参数的时候，模型的准确率都会下降，然后通过模型重新训练，模型的准确率也会上升，最终压缩完成后所得到的模型准确率与未压缩的模型准确率几乎相近。图3是本发明方法将ResNet18模型在ImageNet数据集上压缩到2位的测试loss变化图，可以看到模型迭代式压缩可以有效地降低模型的loss。

表1 模型量化算法结果对比

量化算法	位数	Top-1准确率	Top-5准确率
				TWN	2	61.80％	83％
INQ	2	66.02％	87.13％
				本发明方法	2	66.90％	87.62％

如表1所示，是本发明所提方法与其它常见量化算法的结果对比，三种量化算法同时将ResNet18压缩到2位，本发明方法的准确率要明显高于常见的量化算法，这也验证了本发明所提方法的有效性。并且本发明的自适应迭代式卷积神经网络模型压缩方法可以高效地将卷积神经网络模型压缩到低位，从而将卷积神经网路模型移植到移动设备上。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。