CN110210620A

CN110210620A - 一种用于深度神经网络的通道剪枝方法

Info

Publication number: CN110210620A
Application number: CN201910482122.1A
Authority: CN
Inventors: 戚琦; 王晶; 王敬宇; 李家仕; 廖建新
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-09-06

Abstract

一种用于深度神经网络的通道剪枝方法，包括下列操作步骤：(1)基于深度神经网络中连续两个网络层的关联关系，根据输出输入通道离散正则化，定义输出输入通道离散正则化项；(2)定义深度神经网络的优化目标函数；(3)用训练数据集合，对所述的深度神经网络进行训练；在训练结束后，所述的深度神经网络的大量冗余通道中的特征被更彻底的挤压到了少量重要通道中，从而获得结构化稀疏的深度神经网络；(4)对步骤(3)所获得的结构化稀疏的深度神经网络，进行循环迭代通道剪枝，获得结构紧密的深度神经网络。

Description

一种用于深度神经网络的通道剪枝方法

技术领域

本发明涉及一种用于深度神经网络的通道剪枝方法，属于信息技术领域，特别是属于人工智能技术领域。

背景技术

近几年中，深度神经网络被广泛应用于图像分类，物体检测，语音识别等领域之中，取得了比传统机器学习方法更高的准确率。不仅如此，这些深度神经网络在复杂的系统中也得到广泛的应用，例如自动驾驶，癌症诊断，复杂游戏的策略搜索等。深度神经网络在很多识别任务中已经大大超越了人类识别的准确率以及传统的技术方法，带来巨大的性能提升。这些性能的提升是由于深度神经网络拥有提取大数据高级特征的能力，从而获得对数据空间的有效表示。

随着神经网络的加深，网络参数量和计算量也愈加庞大。1998年设计的LeNet使用少于1M的参数量来解决手写体数字的识别问题；152层的Resnet-152有超过60M的参数量且需要超过20G的浮点算力。庞大的参数量和计算量使得深度神经网络在训练和使用时需要消耗大量的计算资源和内存，导致其难以部署在计算资源和内存均受限的移动设备和嵌入式系统上。如何在不损失神经网络精度的情况下压缩模型体积，减少模型推理的计算量，已经成为当前深度神经网络技术领域一个研究热点。

基于网络通道剪枝的神经网络轻量化技术能极大地减少神经网络在部署时所需的存储空间，运行内存和计算量，在这几年中受到学术界和工业界的广泛关注，成为当前最流行的轻量化技术之一，其通过移除冗余通道的全部参数使得剪枝后的网络是结构化稀疏(Structured Sparsity)的。通道剪枝技术不仅能很大程度上压缩模型的体积，还能很好地减少网络推理时所需的运行内存和计算量，但是目前的网络通道剪枝技术往往伴有很大的精度损失。如何在保证精度损失忽略不计的前体下，研究一种高效的通道剪枝技术成为深度神经网络技术领域的一个亟待解决的技术难题。

发明内容

有鉴于此，本发明的目的是发明一种深度神经网络的通道剪枝方法，既能实现大的网络压缩与加速收益，又能保证网络精度。

为了达到上述目的，本发明提出了一种用于深度神经网络的通道剪枝方法，所述方法包括下列操作步骤：

(1)基于深度神经网络中连续两个网络层的关联关系，根据输出输入通道离散正则化，定义输出输入通道离散正则化项R_oic(W^l,W^l+1)如下：

上式中，W^l和W^l+1分别是所述深度神经网络第l层和l+1层的权重集合，表示W^l中的第i个输出通道的权重矢量，表示W^l+1中第i个输入通道的权重矢量，符号表示把和连接concatenation起来,OC_l表示所述深度神经网络第l层的输出通道数，|| ||_oic表示L-oic范数,下标oic取值为1或2；

(2)基于前述的输出输入通道离散正则化项，定义深度神经网络的优化目标函数J(W)如下：

上式中，W表示所述深度神经网络的权重集合，D表示训练数据集合，Loss(W,D)表示所述深度神经网络在训练数据集合D上的损失函数，R(W)表示非结构正则化项(Non-Structured Regularization)，λ是非结构正则化项的超参数，λ_s是所述的输出输入通道离散正则化项的超参数；

(3)利用步骤(2)所定义的深度神经网络的优化目标函数J(W)，用训练数据集合D，对所述的深度神经网络进行训练；在训练结束后，所述的深度神经网络的大量冗余通道中的特征被更彻底的挤压到了少量重要通道中，从而获得结构化稀疏的深度神经网络；

(4)对步骤(3)所获得的结构化稀疏的深度神经网络，进行循环迭代通道剪枝，获得结构紧密的深度神经网络；具体过程是：在每次通道剪枝迭代中，采用全局贪婪搜索，在所有网络层中全局地搜索冗余通道，并且根据通道重要性的大小，贪婪地去除重要性最低的通道；并且在每次通道剪枝迭代中，对每层网络的最大剪枝比例做了限制，不能有超过设定比例(50％)的通道被移除。

基于前面所述的输出输入通道离散正则化，使用通道能量来计算步骤(4)中所述的通道重要性，具体计算方法如下式所示：

上式中，表示所述的深度神经网络第l层和第l+1层之间的第i个通道的通道重要性，深度神经网络中第l层的第i个输出通道与第l+1层的第i个输入通道相连接，表示W^l中的第i个输出通道的权重矢量，表示W^l+1中第i个输入通道的权重矢量，W^l和W^l+1分别是所述深度神经网络第l层和l+1层的权重集合，符号表示把和连接concatenation起来，表示中的第j个分量，表示中的第j个分量。

步骤(4)中所述的迭代通道剪枝的具体内容是包括如下操作子步骤：

(401)设定迭代通道剪枝的最大迭代次数T，设定浮点运算剪枝比例集合P，P∈R^T；W⁽⁰⁾表示步骤(3)所获得的结构化稀疏的深度神经网络的权重集合；设t是迭代通道剪枝迭代次数，W^(t-1)是第t次迭代通道剪枝开始之前深度神经网络的权重集合，W^(t)是第t次迭代通道剪枝完成之后深度神经网络的权重集合；

(402)如果迭代通道剪枝迭代次数t不大于T，转步骤(403)，否则转步骤(407)；

(403)遍历当前深度神经网络的每一个网络层，计算所述当前深度神经网络中所有通道的重要性，按照通道重要性从小到大的顺序，对通道进行排序，获得集合

(404)把当前中通道重要性最低的通道即通道，从当前深度神经网络中剪除；把从集合中删除，更新从W^(t-1)中删除被剪除的通道的权重，更新W^(t-1)；

(405)如果flops(W^(t-1))＜(1-P_t)·flops(W⁽⁰⁾)，则转步骤(404)，否则转步骤(406)，上式中，flops()表示浮点运算量；P_t∈P表示迭代通道剪枝迭代次数为t时的浮点运算剪枝比例；

(406)把W^(t-1)赋值给W^(t)，按照步骤(3)的操作，对当前深度神经网络进行训练，获得新的W^(t)，本次迭代通道剪枝完成，迭代次数t增加1，转步骤(402)；

(407)迭代通道剪枝结束，获得结构紧密的深度神经网络，对应的权重集合为W^(T)。

本发明的有益效果在于：本发明提出的深度神经网络通道剪枝方法，通过同时对当前层的输出通道和下一层对应的输入通道进行结构正则化约束，能获得更加结构化稀疏的网络，解决了分离式正则化项用于通道剪枝时存在的缺陷，能在更小的精度损失下获得更紧密的网络结构。

附图说明

图1是本发明提出的一种实现多个性能指标要求同时满足的服务组合方法的流程图。

图2是本发明的实施例中的两个连续的网络层为全连接层时输出输入通道示意图。

图3是本发明的实施例中的两个连续的网络层为卷积层时输出输入通道示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明提出的一种用于深度神经网络的通道剪枝方法，所述方法包括下列操作步骤：

上式中，W^l和W^l+1分别是所述深度神经网络第l层和l+1层的权重集合，分别可以用二维矩阵来表示。表示W^l中的第i个输出通道的权重矢量，表示W^l+1中第i个输入通道的权重矢量，符号表示把和连接concatenation起来,OC_l表示所述深度神经网络第l层的输出通道数，|| ||_oic表示L-oic范数,下标oic取值为1或2，即|| ||_oic表示L1范数或L2范数；

例如，当下标oic取值为2时，

上式中，表示W^l中的第i个输出通道的权重矢量中的第j个权重系数，表示W^l+1中第i个输入通道的权重矢量中的第j个权重系数。

参见图2和图3，不同于分离式的结构正则化，本发明提出了输出输入通道离散正则化OICSR(Out-In-Channel Sparsity Regularization)，这种正则化方法，考虑了连续两层网络的关联关系，通过把连续两层网络中对应的输出通道和输入通道的权重放入同一个正则化组(图2和图3中用out-in-channel表示)，能实现共同对连续两层网络的输出输入通道做结构正则化。在网络训练阶段，OICSR能学习到更加稀疏的网络。在剪枝阶段，OICSR能在更小的精度损失下去除更多的冗余通道，获得更加紧密的网络结构。

参见图2，当连续两个网络层为全连接层时，表示W^l中的第i个输出通道的权重矢量可直接从W^l中截取，表示W^l+1中的第i个输入通道的权重矢量，可直接从W^l+1中截取。

参见图3，当连续两个网络层为卷积层时，开始其中，OC_l表示所述深度神经网络第l层的输出通道数，IC_l表示所述深度神经网络第l层的输入通道数，H_l表示所述深度神经网络第l层的卷积模板的高度，W_l表示所述深度神经网络第l层的卷积模板的宽度。为了便于获得和计算输出输入通道离散正则化的值，需要把W^l转化为一个二维矩阵，即其中IC_lH_lW_l表示IC_l×H_l×W_l连乘积，转化完之后，再从W^l中截取。

参见图3，当连续两个网络层为卷积层时，开始其中，OC_l+1表示所述深度神经网络第l+1层的输出通道数，IC_l+1表示所述深度神经网络第l+1层的输入通道数，H_l+1表示所述深度神经网络第l+1层的卷积模板的高度，W_l+1表示所述深度神经网络第l+1层的卷积模板的宽度。为了便于获得和计算输出输入通道离散正则化的值，需要把W^l+1转化为一个二维矩阵，即其中OC_l+1H_l+1W_l+1表示OC_l+1×H_l+1×W_l+1连乘积，转化完之后，再从W^l+1中截取。

上式中，W表示所述深度神经网络的权重集合，D表示训练数据集合，Loss(W,D)表示所述深度神经网络在训练数据集合D上的损失函数，R(W)表示非结构正则化项(Non-StructuredRegularization)，例如L1范数正则化和L2范数正则化，λ是非结构正则化项的超参数，λ_s是所述的输出输入通道离散正则化项的超参数；

关于前述的损失函数Loss(W,D)和非结构正则化项R(W)，有多种定义方法，可以参考相关文献(如：Jianhao Luo,JianxinWu,andWeiyao Lin.Thinet:Afifilter levelpruning methodfor deep neural network compression.International Conference onComputer Vision,2017；Wei Wen,Chunpeng Wu,Yandan Wang,Yiran Chen,and HaiLi.Learning structured sparsity in deep neural networks.InAdvances inNeuralInformationProcessing Systems,2016.)

在实施例中,采用的损失函数Loss(W,D)为交叉熵损失函数，采用的非结构正则化项为L2范数正则化。实验所采用的的非结构正则化超参数λ的取值均为0.0001.

对于输出输入通道离散正则化项超参数λ_s，在实施例中，对于相对简单的任务(比如CIFAR-10/100数据集，Alex Krizhevsky and Geoffrey Hinton.Learning multiplelayers offeatures fromtiny images.Technical report,2009.)取较大的值(如0.0001)，对于相对复杂的任务(比如ImageNet-1K数据集，Jia Deng,Wei Dong,RichardSocher,Li-Jia Li,Kai Li,and Li Fei-Fei.Imagenet:A large-scale hierarchicalimage database.In Computer Vision and Pattern Recognition,2009.)取较小的值(如0.00001)。

在实施例中，发明人使用的训练数据集合D包括CIFAR-10/100数据库和ImageNet-1K数据库。所使用的深度神经网络包括如下流行的网络架构：CifarNet(Alex Krizhevskyand Geoffrey Hinton.Learning multiple layers offeatures from tinyimages.Technical report,2009.)，AlexNet(Alex Krizhevsky,Ilya Sutskever,andGeoffrey E Hinton.Imagenet classifification with deep convolutional neuralnetworks.In Advances in Neural Information Processing Systems,2012.)，ResNet(Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.Deep residual learningfor image recognition.Computer Vision and Pattern Recognition,2016.)、DenseNet(Gao Huang,Zhuang Liu,Laurens Van Der Maaten,and Kilian Q Weinberger.Denselyconnected convolutional networks.In Computer Vision and Pattern Recognition,2017.)，SeNet(Jie Hu,Li Shen,and Gang Sun.Squeeze-and-excitationnetworks.arXiv:1709.01507,2017.)等。

(4)对步骤(3)所获得的结构化稀疏的深度神经网络，进行循环迭代通道剪枝，获得结构紧密的深度神经网络；具体过程是：在每次通道剪枝迭代中，采用全局贪婪搜索，在所有网络层中全局地搜索冗余通道，并且根据通道重要性的大小，贪婪地去除重要性最低的通道；并且在每次通道剪枝迭代中，对每层网络的最大剪枝比例做了限制，不能有超过设定比例(比如：50％)的通道被移除。

表1

参见表1，步骤(4)中所述的迭代通道剪枝的具体内容是包括如下操作子步骤：

前面实施例中详细提出了基于连续两层网络的关联关系，进行输出输入通道离散正则化的方法，基于这个思想，技术人员也可以基于连续的三层网络或连续的更多层网络的关联关系，进行输出输入通道离散正则化操作，以便获得更加紧密的网络结构。

发明人利用多个训练数据集合包括CIFAR-10/100数据库和ImageNet-1K数据库，使用多个流行的深度神经网络包括CifarNet、AlexNet、ResNet、DenseNet、SeNet等，对本发明提出的方法进行了大量实验，实验环境为PyTorch(Adam Paszke,Sam Gross,SoumithChintala,Gregory Chanan,Edward Yang,Zachary DeVito,Zeming Lin,AlbanDesmaison,Luca Antiga,and Adam Lerer.Automatic differentiation inpytorch.2017.)，运行在四台NVIDIAP100GPU上，实验结果证明本发明所提出的方法是有效可行的，而且能获得比非结构化正则化方法(non-structured regularization)和离散结构化正则化方法(separated structured regularization

)更好的实验结果。

Claims

1.一种用于深度神经网络的通道剪枝方法，其特征在于：所述方法包括下列操作步骤：

上式中，W表示所述深度神经网络的权重集合，D表示训练数据集合，Loss(W,D)表示所述深度神经网络在训练数据集合D上的损失函数，R(W)表示非结构正则化项Non-Structured Regularization，λ是非结构正则化项的超参数，λ_s是所述的输出输入通道离散正则化项的超参数；

(4)对步骤(3)所获得的结构化稀疏的深度神经网络，进行循环迭代通道剪枝，获得结构紧密的深度神经网络；具体过程是：在每次通道剪枝迭代中，采用全局贪婪搜索，在所有网络层中全局地搜索冗余通道，并且根据通道重要性的大小，贪婪地去除重要性最低的通道；并且在每次通道剪枝迭代中，对每层网络的最大剪枝比例做了限制，不能有超过设定比例的通道被移除。

2.根据权利要求1所述的一种用于深度神经网络的通道剪枝方法，其特征在于：基于前面所述的输出输入通道离散正则化，使用通道能量来计算步骤(4)中所述的通道重要性，具体计算方法如下式所示：

3.根据权利要求1所述的一种用于深度神经网络的通道剪枝方法，其特征在于：步骤(4)中所述的迭代通道剪枝的具体内容是包括如下操作子步骤：