CN114037858A

CN114037858A - 一种基于泰勒展开的图像分类网络层剪枝方法

Info

Publication number: CN114037858A
Application number: CN202111237007.1A
Authority: CN
Inventors: 张科; 刘广哲; 苏雨; 谭明虎
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-10-24
Filing date: 2021-10-24
Publication date: 2022-02-11

Abstract

本发明涉及一种基于泰勒展开的图像分类网络层剪枝方法，属于图像处理与识别技术领域。对BN层的缩放因子和偏置因子同时进行分析，基于泰勒展开方法鉴别对网络损失函数影响较小的网络层并进行剔除，从而达到网络层剪枝的目的。将其应用于图像分类任务，能够在保证分类准确率的前提下达到较高的压缩率，同时提高模型的运算速度，便于其在手机等终端移动设备中的应用。

Description

一种基于泰勒展开的图像分类网络层剪枝方法

技术领域

本发明属于图像处理与识别技术领域，尤其涉及一种基于泰勒展开的图像分类网络层剪枝方法。

背景技术

深度卷积神经网络在机器视觉领域取得了巨大成功，达到了超越人类水平的识别能力。得益于庞大的训练数据集和网络规模，神经网络模型通过复杂的运算能够提取到表征目标图像的鲁棒特征，进而用于分类识别。然而，伴随着识别准确率的提升，网络模型的运算量和计算量也在向不断增加的方向发展，需要占用巨大的存储空间和计算资源，对于计算设备的要求也越来越高，运算的实时性难以得到保证，由此限制了其在手机、汽车、卫星等终端设备中的应用，。

参数剪枝是一种有效的模型压缩方法，通过剔除网络中冗余或不重要的参数达到网络瘦身的效果。张建明，王伟，陆朝铨，等(《基于压缩卷积神经网络的交通标志分类算法》，华中科技大学学报(自然科学版)，2019，47(01)：108-113)提出了一种基于泰勒展开的通道剪枝方法，依据泰勒展开式求得将特征图通道去除时所引起的损失函数变化量，来确定对网络性能影响较小的滤波器通道，进而执行通道剪枝操作。该方法在滤波器参数为0处进行泰勒展开，由于滤波器中参数众多，所得结果容易受到个别参数的影响。考虑到网络中的卷积层一般都会跟随一个批规范化(BN)层，而BN层中仅有两个参数用于控制输出特征图的大小，更适合进行泰勒展开。另一方面，通道剪枝方法对于网络的加速效果不如层剪枝，对于层数较多的网络进行层剪枝能够取得更大的速度收益。

发明内容

要解决的技术问题

已有的基于泰勒展开的网络通道剪枝方法只对卷积层滤波器参数或BN层中的缩放因子进行分析，且通道剪枝所得的速度收益不如层剪枝。为了避免现有技术的不足之处，本发明提出一种基于泰勒展开的图像分类网络层剪枝方法。

技术方案

一种基于泰勒展开的图像分类网络层剪枝方法，其特征在于步骤如下：

步骤1：将预训练模型在训练集上进行一次迭代训练，通过误差反向传播获取网络中各参数的梯度信息；

步骤2：根据下式计算网络中每个BasicBlock的重要性p^l：

式中，

代表了第l个BasicBlock中第j个BN层的重要性，

和

分别是将γ_i和β_i置为0时引起的

变化量，

和

分别是γ_i和β_i关于

的梯度，l∈(1,2,…,L)，L为网络中BasicBlock的总个数；

和

分别是BN层中可训练的缩放因子和偏置；

将同一分辨率阶段内的p^l归一化至[0,1]，即：

式中，P^l为归一化后BasicBlock的重要性，p_max和p_min分别是该阶段中p^l的最大值和最小值；

对于具有下采样层的BasicBlock，由于其特殊性不能被剪除，故将这些BasicBlock的重要性设置为1；

步骤3：根据需要达到的压缩率r，确定要保留下来的BasicBlock数量为l₀＝rL，需要去除的BasicBlock数量为l₁＝L-l₀；将所有BasicBlock的重要性P^l进行全局排序，去除l₁个重要性最低的BasicBlock，进而得到层剪枝后的网络模型；

步骤4：对层剪枝后的网络模型进行训练，以恢复模型的分类准确率，得到最终的网络模型。

一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

一种计算机程序，其特征在于包括计算机可执行指令，所述指令在被执行时用于实现上述的方法。

有益效果

本发明提出的一种基于泰勒展开的图像分类网络层剪枝方法，对BN层的缩放因子和偏置因子同时进行分析，基于泰勒展开方法鉴别对网络损失函数影响较小的网络层并进行剔除，从而达到网络层剪枝的目的。将其应用于图像分类任务，能够在保证分类准确率的前提下达到较高的压缩率，同时提高模型的运算速度，便于其在手机等终端移动设备中的应用。

本发明所设计的基于泰勒展开的图像分类网络层剪枝方法能够有效地对网络各层进行重要性排序，进而去除掉重要性小的网络层，达到模型压缩和加速的效果。如压缩后的ResNet-56网络层数由56层减少为34层，参数量由0.85M减少为0.41M，计算量由127M减少为74.6M，运算耗时由6.614ms减少为4.362ms，而准确率由93.21％提升到93.35％。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是基于泰勒展开的图像分类网络层剪枝流程图。

图2是ResNet-56网络中各BasicBlock的归一化重要性结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

现代神经网络中多存在残差结构，以ResNet为例，由多个BasicBlock组成，每个BasicBlock包括一个主分支和一个旁路分支，其输出等于两个分支之和。主分支包括多个卷积层和BN层，旁路分支为恒等映射，即把输入直接输出。若要执行层剪枝，将每个BasicBlock视为一个整体，如果主分支的输出非常小，那么就可以去掉主分支而直接将输入作为输出，即去除掉了该BasicBlock中所有的网络层。由此，层剪枝问题可以转换为衡量BasicBlock中主分支输出重要性的问题。

在主分支中，每个卷积层后面往往会跟随一个BN层，其计算过程为：

式中，

是BN层的输入，即上一个卷积层的输出，

是BN层的输出，n是通道个数，h′和w′分别是特征图的高度和宽度，

是每个训练批次中x的均值，

是每个训练批次中x的标准差，

和

分别是BN层中可训练的缩放因子和偏置，ε是一个防止分母为0的正数。

为了获取单个BN层的重要性，采用基于泰勒展开的方法，求取将其中每个参数γ＝[γ₁,γ₂,…,γ_n]^T和β＝[β₁,β₂,…,β_n]^T分别置为0时对网络损失函数

的影响之和，得：

式中，

代表了第l个BasicBlock中第j个BN层的重要性，

和

分别是将γ_i和β_i置为0时引起的

变化量，

和

分别是γ_i和β_i关于

的梯度，可以由网络训练过程中反向传播时得到。

对于具有m个BN层的BasicBlock，由于各个层之间是串联关系，可以通过连乘获取该BasicBlock整体的重要性为：

式中，l∈(1,2,…,L)，L为网络中BasicBlock的总个数。

据此，本发明提出一种基于泰勒展开的图像分类网络层剪枝方法，其流程如图1所示。其具体步骤如下：

(1)将预训练模型在训练集上进行一次迭代训练，通过误差反向传播获取网络中各参数的梯度信息。

(2)根据式(2)和式(3)计算网络中每个BasicBlock的重要性p^l。

随着网络的加深，图像分辨率在分阶段地减小，导致不同阶段的p^l大小不具有可比性，因此需要采用归一化方法，将同一分辨率阶段内的p^l归一化至[0,1]，即：

式中，P^l为归一化后BasicBlock的重要性，p_max和p_min分别是该阶段中p^l的最大值和最小值。

对于具有下采样层的BasicBlock，由于其特殊性不能被剪除，故将这些BasicBlock的重要性设置为1。

(3)根据需要达到的压缩率r，确定要保留下来的BasicBlock数量为l₀＝rL，需要去除的BasicBlock数量为l₁＝L-l₀。将所有BasicBlock的重要性P^l进行全局排序，去除l₁个重要性最低的BasicBlock，进而得到层剪枝后的网络模型。

(4)对层剪枝后的网络模型进行训练，以恢复模型的分类准确率，得到最终的网络模型。该模型层数比原始模型少，因此能够达到网络压缩的目的，并且层数的减少能够带来大幅度的速度提升。

下面结合图像分类实例说明本发明的具体实施方式，但本发明的技术内容不限于所述的范围，具体实施方式包括以下步骤：

(1)搭建用于图像分类的卷积神经网络，构建具有大量训练样本及标签的图像数据集。

(2)将预训练模型在训练集上进行一次迭代训练，通过误差反向传播获取网络中各参数的梯度信息。

(3)采用本发明基于泰勒展开的方法，利用BN层的缩放因子和偏置因子计算网络中各BasicBlock的重要性p^l，进行归一化后得到P^l。

(4)将所有BasicBlock的重要性P^l进行全局排序，根据要达到的压缩率去除l₁个重要性最低的BasicBlock，得到层剪枝后的网络模型。

(5)在数据集上对层剪枝后的网络模型进行训练，以恢复模型的分类准确率，得到最终的网络模型。利用该模型进行图像分类，能够在保证分类准确率的同时达到网络压缩和加速的效果。

采用本发明方法对ResNet-56网络进行层剪枝。图2为网络中各BasicBlock的归一化重要性P^l结果图。设定压缩率为0.6，即保留60％的网络层，剩余40％的网络层则被剪除。表1为采用本发明对ResNet-56网络进行层剪枝的压缩结果。压缩前的原始ResNet-56模型包含56层、0.85M参数和127M计算量，单幅图片推理耗时为6.614ms，在CIFAR-10上的准确率为93.21％，采用本发明的压缩方法得到的模型为34层，参数量为0.41M，所需计算量为74.6M，单幅图片推理耗时为4.362ms，准确率提高为93.35％。由此说明本发明所提出的基于泰勒展开的图像分类网络层剪枝方法能够有效地去除网络中不重要的层，在保证网络准确率的同时达到网络压缩和加速的效果。

表1本发明网络压缩结果表

评价指标	层数	参数量(M)	计算量(M)	单幅图片耗时(ms)	准确率
						压缩前	56	0.85	127	6.614	93.21％
压缩后	34	0.41	74.6	4.362	93.35％

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。