CN111144551A

CN111144551A - 一种基于特征方差比的卷积神经网络通道剪枝方法

Info

Publication number: CN111144551A
Application number: CN201911380006.5A
Authority: CN
Inventors: 李东晓; 何俊杰; 陈博华; 王梁昊; 张明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12

Abstract

本发明涉及一种基于特征方差比的卷积神经网络通道剪枝方法。本发明首先通过训练数据集，估计每一层每一输入通道经每一滤波器中输入通道对应的卷积核滤波后的初级特征图的方差和每一滤波器对应输出特征图的方差，然后根据每一层每一输入通道经不同滤波器滤波后的各个初级特征图的方差与初级特征图所对应的滤波器的输出特征图的方差的比值的和，得到每一输入通道的重要性参数，最后根据每一层每一输入通道的重要性参数，对卷积神经网络进行全局通道修剪。本发明与传统的通道剪枝方法相比，具有可解释性、不引入额外的超参数、不需要人为定义剪枝后的网络结构等优点。

Description

一种基于特征方差比的卷积神经网络通道剪枝方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于特征方差比的卷积神经网络通道剪枝方法。

背景技术

深度卷积神经网络已经在计算机视觉的多个领域取得了成功，例如图像分类、目标检测、语义分割等。然而，性能的提升是以庞大的存储和计算资源为代价的。当前的深度卷积神经网络往往都伴随着巨大的参数量和计算量，这使得它们在诸如移动端、嵌入式板等资源受限的设备上的部署变得极为困难。为了解决这个问题，研究人员已经提出了诸多深度神经网络压缩与加速方法，例如通道剪枝、知识蒸馏、张量分解等。其中，通道剪枝由于可以在不影响模型性能的情况下减少模型的大量存储和计算开销，并且可以方便地在各种深度学习库中实现，现在已经成为一种主流的解决方案。

通道剪枝旨在删除卷积神经网络中冗余的通道。传统的通道剪枝方法利用网络中参数幅度的大小来指导修剪，例如删除那些卷积层中滤波器范数或者批归一化层中尺度因子绝对值较小的通道。这些方法虽然实现简单，但是只考虑了局部连接信息，而未考虑层间的连接关系，这使得它们无法充分地对网络进行压缩。例如在带有批归一化层和线性整流单元的卷积神经网络中，滤波器的范数将会被批归一化层抵消，不能真实地反映相应输出通道的作用，在线性整流单元的正齐次性质下，过小的批归一化层的尺度因子可以完全在后续的卷积层中得到补偿，局部连接权重太小并不意味着通道就不重要。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于特征方差比的深度卷积神经网络剪枝方法，本发明方法利用滤波后的输入特征图和输出特征图的方差的比值来评估相应输入通道的重要性，并利用此来指导修剪。该方法本质上是保留了模型中信息量最大的那些通道，而把信息量较小的通道删除，这使得模型的表征更加紧致，提高了网络的参数和计算效率。

本发明采用的技术方案如下：

包括以下步骤：

步骤S1：训练数据集输入卷积神经网络，卷积神经网络的每一卷积层中，每个输入通道分别经各个滤波器滤波后得到的各个特征图作为初级特征图并计算初级特征图的方差，所有输入通道经同一滤波器滤波后得到的特征图作为当前滤波器的输出特征图并计算输出特征图的方差；

步骤S2：同一通道经各个滤波器滤波后得到的各个初级特征图的方差分别和初级特征图所对应的滤波器的输出特征图的方差求比值并将该比值作为初始比值，将同一通道的所有初始比值相加作为该通道的重要性参数，从而得到每一卷积层每一输入通道的重要性参数；

步骤S3：根据每一卷积层每一输入通道的重要性参数，对卷积神经网络进行全局通道修剪。

所述步骤S1具体为：

步骤1-1：将卷积神经网络第l层卷积层第i个输入通道的特征图记为X_i，X_i经第j个滤波器中与输入通道对应的第i个卷积核滤波后得到的特征图记为初级特征图M_j,i：

M_j,i＝K_j,i*X_i

其中K_j,i表示第j个滤波器的第i个卷积核；

步骤1-2：采用精确计算方法或近似计算方法计算初级特征图M_j,i的方差：

精确计算方法：初级特征图M_j,i的方差

的计算方式为：

其中，H_out、W_out分别表示M_j,i的高和宽，m_j,i,p,q表示M_j,i的第p行、第q列元素的像素值，

是M_j,i中所有元素的算术平均值；

近似计算方法：为了计算简便，根据柯西-施瓦茨不等式，初级特征图M_j,i方差可以采用另一种计算方式得到：

其中，‖·‖_F表示Frobenius范数，R_i,p,q表示初级特征图M_j,i的第p行、第q列元素在特征图X_i中的感受野，

步骤1-3：将卷积神经网络第l层卷积层中所有输入通道经第j个滤波器滤波后得到的特征图记为第j个滤波器的输出特征图Y_j，Y_j的方差

的计算方式为：

其中，y_j,p,q表示Y_j的第p行、第q列元素的像素值，

是Y_j中所有元素像素值的算术平均值；

步骤1-4：利用训练数据集分别得到M_j,i和Y_j方差的移动平均方差，并作为M_j,和Y_j方差的实际估计，具体表达式如下：

其中，λ为衰减因子，

表示M_j,i的移动平均方差，

表示Y_j的移动平均方差，

表示在训练数据集中的第t个训练批样本上按步骤1-2计算得到的M_j,方差，

表示在训练数据集中的第t个训练批样本上按步骤1-3计算得到的Y_j方差。

如果卷积神经网络中的第l层卷积层的后一层为批归一化层，利用批归一化层中的二阶移动平均统计量作为步骤1-4中Y_j方差的实际估计，不必进行额外计算。

所述步骤S2具体为：

步骤2-1：根据初级特征图M_j,i和初级特征图M_j,i对应的滤波器的输出特征图Y_j的移动平均方差，计算第l层卷积层第i个输入通道的重要性参数为

其中，N表示第l层卷积层的滤波器个数。

步骤2-2：采用步骤2-1计算卷积神经网络中每一卷积层每一输入通道的重要性参数。

所述步骤S3具体为：

步骤3-1：根据在训练数据集上预设的剪枝轮数T以及最终轮期望计算量减少比率R，得到在训练数据集上的第t轮剪枝要达到的第t轮期望计算量减少比率r(t)：

r(t)＝R-R(1-t/T)²，0≤t≤T；

步骤3-2：在每一轮修剪前，先对卷积神经网络进行一轮训练，然后在一轮训练结束时对卷积神经网络进行修剪；

所述对卷积神经网络进行修剪具体为：在第t轮修剪时，根据步骤S2中计算得到的每个通道的重要性参数，不断删除参数值最低的通道，每一次删除后计算实际计算量减少比率r_c(t)，直至实际计算量减少比率r_c(t)达到步骤3-1计算的第t轮期望计算量减少比率r(t)；

步骤3-3：重复步骤3-2，直至剪枝轮数达到T，此时r(T)＝R，即达到预设的期望计算量减少比率R，剪枝完的模型理论上获得1/(1-R)倍的加速。

步骤3-4：采用训练数据集对剪枝完的卷积神经网络进行训练，直至其收敛为止。

所述步骤3-2中的实际计算量减少比率r_c(t)采用下述公式计算得到：r_c(t)＝1-当前修剪后的网络的浮点操作数/未修剪过的网络的浮点操作数

网络的浮点操作数计算方法为：

记卷积神经网络中第l层卷积层的输入特征图尺寸为

第l层卷积层的输出特征图尺寸为

卷积核尺寸为k^l×k^l，则网络的浮点操作数为：

L表示卷积神经网络卷积层的数目。

所述步骤3-2中的一轮训练为将训练数据集中所有训练数据遍历一遍。

本发明的有益效果：

(a)本发明针对目前主流的卷积神经网络，采用特征方差比来指导网络修剪，这比传统的基于网络参数幅度的方法更能剔除网络中的冗余通道，具有更高的剪枝效率。同时，本方法不受批归一化层和线性整流单元等正齐次激活函数的对参数幅度的归一化和补偿的影响。更重要的是，本方法可以使剪枝前后卷积输出特征图在皮尔逊相关系数意义下高度相关，具有可解释性，有严谨的理论基础。

(b)大多数通道剪枝方法在修剪网络之前都需要人为定义剪枝后的模型结构，这需要充分的先验知识，而本发明方法可以在没有人工干预的情况下实现对网络的全局修剪，更加自动化。

(c)本发明方法不需要对卷积神经网络的结构作任何修改，不引入任何超参数，使用起来更加便捷。经过本发明通道剪枝后，保留了卷积神经网络中信息量最大的那些通道，而把信息量较小的通道删除，这使得网络的表征更加紧致，提高了网络的参数和计算效率，可以在减少大量计算量的情况下维持较高的精度。

附图说明

图1是本发明方法的流程图；

图2是每个通道的重要性参数计算图；

图3是ResNet-18在本发明剪枝前后的卷积输出特征对比图；

图4是ResNet-18在本发明剪枝前后的通道重要性参数分布变化图；

图5是ResNet-18在本发明剪枝前后的网络结构图；

图6是本发明方法在不同卷积神经网络上的修剪结果。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

图1为本发明基于特征方差比的卷积神经网络通道剪枝方法的流程图，该方法通过在训练数据集上计算给定卷积神经网络每一卷积层每一输入通道滤波后的特征图与所有输出通道的特征图的方差的比之和，得出每一通道的重要性参数，然后根据此参数对网络进行全局通道修剪。

以下对上述各个步骤进行详细地描述，以便理解本发明方案。

为了描述方便，本发明部分实施例忽略ResNet-18投影捷径中的卷积层。

步骤1.利用训练数据集，估计ResNet18每一卷积层每一输入通道滤波后的特征图的方差和所有输入通道经滤波器滤波后得到的输出特征图的方差；

S1-1.将ResNet-18第l层第i个输入通道的特征图记为X_i，X_i经第j个滤波器中与输入通道对应的第i个卷积核滤波后得到的特征图记为M_j,i，M_j,i＝K_j,i*X_i，其中K_j,i表示第j个滤波器的第i个卷积核。滤波后的输入特征图M_j,i的方差

的表达式为：

其中H_out，W_out分别表示M_j,i的高和宽，m_j,i,p,q表示M_j,i的第p行、第q列元素，

是M_j,i中所有元素的算术平均值。

S1-2.根据柯西-施瓦茨不等式，M_j,i方差可采用另一种近似计算方式：

其中‖·‖_F表示Frobenius范数，R_i,p,q表示初级特征图M_j,i的第p行、第q列元素在X_i中的感受野，

涉及卷积核的参数值，

涉及输入特征图的数据，该两者都可以直接获得，而不需要对模型的计算结构做任何改变。

S1-3.卷积神经网络第l层第j个滤波器的输出特征图Y_j的方差的计算方式为

其中y_j,p,q表示Y_j的第p行、第q列元素的像素值，

是Y_j中所有元素像素值的算术平均值。

S1-4.根据步骤S1-2和步骤S1-3的计算表达式，得到M_j,i和Y_j方差在训练数据集上的移动平均结果，该结果作为M_j,i和Y_j方差的稳定而可靠的估计。具体表达式如下：

其中，λ为衰减因子，

表示M_j,i的移动平均方差，

表示Y_j的移动平均方差，

表示在训练数据集中的第t个训练批样本计算得到的M_j,i方差，

表示在训练数据集中的第t个训练批样本上计算得到的Y_j方差。

S1-5.由于Resnet-18使用批归一化层，直接利用批归一化层中的二阶移动平均统计量作为Y_j的方差估计，不需要按照步骤S1-3和S1-4所述方式估计Y_j的方差。

步骤2.根据ResNet-18每一层每一输入通道的滤波后的特征图的方差与所有输出通道的方差的比值的和，得到每一输入通道的重要性参数；

S2-1.根据M_j,i和Y_j的移动平均方差，得到第l层第i个输入通道的重要性参数为

其中，N表示该层的滤波器的个数。图2给出了通道重要性参数的一个简单示例，虚线所标记的通道重要性参数最低。

S2-2.对ResNet-18每一卷积层每一输入通道按步骤S2-1计算其重要性参数。

步骤3.根据每一卷积层每一输入通道的重要性参数，对ResNet-18进行全局通道修剪，得到修剪后的模型；

S3-1根据预设的在训练集上的剪枝轮数T＝20以及期望的最终轮计算量减少比率R＝0.5，得到在训练数据集上的第t轮剪枝要达到的期望的第t轮计算量减少比率r(t)，r(t)＝R-R(1-t/T)²＝0.5-0.5×(1-t/20)²，0≤t≤20。

S3-2.在每一轮修剪时，先对模型进行一轮训练，然后在该轮结束时对模型进行修剪。

S3-3.每次修剪时，根据步骤S2计算出的每个通道的重要性参数，依次删除参数最低的通道，每一次删除后计算实际计算量减少比率r_c(t)，直至实际计算量减少比率r_c(t)达到S3-1计算的第t轮期望计算量减少比率r(t)；

实际计算量减少比率r_c(t)采用下述公式计算得到：

r_c(t)＝1-当前修剪后的网络的浮点操作数/未修剪过的网络的浮点操作数

其中，使用所有卷积运算中的浮点操作数近似计算网络总浮点操作数，记ResNet-18第l卷积层输入通道的特征图尺寸为

输出特征图尺寸为

卷积核尺寸为k^l×k^l，则ResNet-18网络总浮点操作数近似为：

S3-4.重复步骤S3-2，直至剪枝轮数达到T＝20，此时有r(20)＝0.5，即达到最终轮期望计算量减少比率，剪枝完的模型理论上获得1/(1-R)＝2倍的加速。图3给出了随机选取的ResNet-18第二个卷积层的5张输出特征图在剪枝前后的可视化，它们是高度相关的。

S3-5.对剪枝完的模型进行训练，直至其收敛为止。图4给出了训练后网络中的通道重要性参数分布与原网络中通道重要性参数分布的对比。

通过本发明方法，得到一个更加紧致、计算量更小的卷积神经网络，其网络结构如图5所示。

如图6所示，不同的卷积神经网络经过本发明通道剪枝后，在减少大量计算量的情况下仍能维持较高的精度。

以上对本发明方法的具体实施例进行了详细地描述。需要注意的是，本发明不局限于上述实施例，在权利要求范围内，本领域技术人员可对本发明方法做出各种修改。提供本实施例只是为了能让相关人员更好地理解本发明方法。

Claims

1.一种基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，所述步骤S1具体为：

M_j,i＝K_j,i*X_i

其中K_j,i表示第j个滤波器的第i个卷积核；

精确计算方法：初级特征图M_j,i的方差

的计算方式为：

是M_j,i中所有元素的算术平均值；

近似计算方法：根据柯西-施瓦茨不等式，初级特征图M_j,i方差采用另一种计算方式得到：

的计算方式为：

其中，y_j,p,q表示Y_j的第p行、第q列元素的像素值，

是Y_j中所有元素像素值的算术平均值；

步骤1-4：利用训练数据集分别得到M_j,i和Y_j方差的移动平均方差，并作为M_j,i和Y_j方差的实际估计，具体表达式如下：

其中，λ为衰减因子，

表示M_j,i的移动平均方差，

表示Y_j的移动平均方差，

表示在训练数据集中的第t个训练批样本上按步骤1-2计算得到的M_j,i方差，

3.根据权利要求2所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，如果卷积神经网络中的第l层卷积层的后一层为批归一化层，利用批归一化层中的二阶移动平均统计量作为步骤1-4中Y_j方差的实际估计。

4.根据权利要求1所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，所述步骤S2具体为：

其中，N表示第l层卷积层的滤波器个数。

5.根据权利要求1所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，所述步骤S3具体为：

r(t)＝R-R(1-t/T)²，0≤t≤T；

步骤3-3：重复步骤3-2，直至剪枝轮数达到T，此时r(T)＝R，即达到最终轮期望计算量减少比率R。

6.根据权利要求1所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，所述步骤3-2中的实际计算量减少比率r_c(t)采用下述公式计算得到：

r_c(t)＝1-当前修剪后的网络的浮点操作数/未修剪过的网络的浮点操作数网络的浮点操作数计算方法为：

记卷积神经网络中第l层卷积层的输入特征图尺寸为

第l层卷积层的输出特征图尺寸为

卷积核尺寸为k^l×k^l，则网络的浮点操作数为：

L表示卷积神经网络卷积层的数目。

7.根据权利要求1所述的基于特征方差比的卷积神经网络通道剪枝方法，其特征在于，所述步骤3-2中的一轮训练为将训练数据集中所有训练数据遍历一遍。