CN111260034A - 基于神经网络相邻结构依存关系的网络剪枝方法 - Google Patents
基于神经网络相邻结构依存关系的网络剪枝方法 Download PDFInfo
- Publication number
- CN111260034A CN111260034A CN202010046252.3A CN202010046252A CN111260034A CN 111260034 A CN111260034 A CN 111260034A CN 202010046252 A CN202010046252 A CN 202010046252A CN 111260034 A CN111260034 A CN 111260034A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- channel
- importance
- pruning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013138 pruning Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 12
- 230000006835 compression Effects 0.000 abstract description 3
- 238000007906 compression Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 35
- 238000012549 training Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
基于神经网络相邻结构依存关系的网络剪枝方法,属于神经网络模型压缩领域,该方法包含如下步骤:a)网络的通道重要性由卷积层和相邻的批量归一化(BN)层的参数共同决定;b)在某一层内部比较通道重要性,以确定待剪枝的通道;c)动态调整稀疏性正则系数,以达到预先指定的稀疏程度。使用该方法进行网络剪枝,可以得到更高的剪枝后性能,更优的剪枝后网络结构和更好的稳定性。
Description
技术领域
本发明属于神经网络模型压缩领域,特别涉及一种神经网络的通道裁剪方法。
背景技术
近年来,随着深度学习的发展,卷积神经网络(CNN)在许多计算机视觉任务上取得了优良的性能。然而,卷积神经网络在评测时往往需要高性能的计算资源的支持,这一点便限制了其在移动设备上的应用。网络剪枝便是一种降低神经网络的计算复杂度,同时尽可能小地损失精度的网络压缩方法。在网络剪枝中,通道剪枝能够得到结构化的网络结构,可以更方便地集成到现代深度学习的框架(如PyTorch,TensorFlow等)中,因此,通道剪枝有着更广阔的实际应用前景。
一般的网络剪枝方法分为三步:1)以稀疏化正则训练一个过度参数化的大网络;2)评估网络每个通道的重要性,并裁减掉重要性较低的通道;3)微调裁剪后的模型以恢复性能。国际上对网络剪枝,尤其是通道剪枝的研究大体上可分为两类:a)基于数据的通道剪枝和b)不基于数据的通道剪枝。基于数据的通道剪枝利用训练样本决定各通道的重要性,代表工作有Povlo Molchanov等人提出的Importance estimation for neural networkpruning等。另一方面,不基于数据的通道剪枝仅根据模型的参数本身确定通道重要性,代表工作有Hao Li等人提出的Pruning filters for efficient ConvNet,Zhuang Liu等人提出的Learning efficient convolutional networks through network slimming和Yang He等人提出的Filter pruning via geometric median for deep convolutionalneural networks acceleration等。以上技术均根据网络的单层参数计算该层各通道的重要性,而忽略了相邻网络结构之间的依存关系。
发明内容
本发明的目的是解决在不影响精度的前提下,压缩神经网络的参数量和计算复杂度的核心问题。以往方法在裁剪某一层的通道时均仅考虑了单一结构的参数信息,而本发明涉及的方法核心便在于网络相邻结构之间的依存关系,因此能够更加精确地估计每个通道的重要性,从而尽可能小地损失性能,并达到更优的裁剪后网络结构。
为实现本发明的目的所采用的技术方案为,基于神经网络相邻结构依存关系的网络剪枝方法,该方法包括下述步骤:
a)卷积层和相邻的批量归一化(BN)层的参数共同决定网络的通道重要性;
定义神经网络的通道重要性为相邻卷积层和相邻的批量归一化(BN)层的参数模长的乘积;
b)在某一层内部比较通道重要性,以确定待剪枝的通道;
针对以往方法忽视网络各层间参数量级的内在差异的改进,本发明方法仅比较某一层内部各通道的重要性,并将通道重要性从大到小排序,然后裁减掉重要性小于通道重要性最大值的某一事先指定的系数(如1%)的所有通道;
c)动态调整稀疏性正则系数,以达到预先指定的稀疏程度;
本发明提出了一种动态调节稀疏化正则系数的机制,以达到预期的稀疏化程度,具体地,根据当前网络的稀疏程度确定是否增加或减小稀疏性正则系数。
本发明的优点和有益效果为,
1)更精确的通道重要性估计,消融实验表明,仅考虑相邻结构的相关性便可以提升以往剪枝方法的精度;2)更优的剪枝后网络结构,由于通道重要性的局部比较和动态调节稀疏化系数的机制,本发明方法可以得到更加平衡的剪枝后网络结构。如图4,本发明可避免某一层中通道数的裁减比例过高;3)稳定的剪枝结果,重复实验表明,本发明方法有较好的稳定性和可复现性。
附图说明
图1是现有技术中一般的网络剪枝流程图;
图2是网络相邻结构相关关系的示意图;
图3是本发明方法中动态调节稀疏性正则系数的算法流程图;
图4是本发明方法得到的裁剪后的网络各层通道数统计直方图。
具体实施方式
基于神经网络相邻结构依存关系的网络剪枝方法,该方法的具体步骤如下:
a)卷积层和相邻的批量归一化(BN)层的参数共同决定网络的通道重要性:
一般地,我们假设一个卷积神经网络由多个卷积层、批量归一化(BN)层和非线性层序贯叠加构成(如图2)。在批量归一化(BN)层和非线性层中,每个通道都是独立变换的,而通道间的信息由卷积层融合。为了裁剪通道而对网络输出影响最小,现分析每一通道在卷积层中所起的作用如下:
Zl=σ(Yl).
随即,激活值Zl中的各通道被下一个卷积层融合为其中,Cl+1、Hl +1和Wl+1分别表示Fl+1的通道数、高度和宽度;在这之中,Zl的各通道对融合特征Fl+1的贡献不同。严格地说,记为第(l+1)个卷积层的卷积核,其中k为卷积核大小,则有
由于尺度参数与随后的卷积层的第c个通道的参数Wc l+1共同参与第c个通道隐藏激活值Xc l的变换,本发明方法用来度量网络第l层中第c个通道的重要性,并将其作为剪枝的标准,而以往主流的方法均基于单一结构的参数确定通道重要性。
b)在各层内部比较通道重要性,以确定待剪枝的通道:
本发明方法采用网络的某一层重要性数值确定该层被剪枝的通道。在第l层中,重要性小于该层中最大值的p倍的通道将被裁剪掉;沿用以上符号系统,第l层中被裁剪的通道构成的集合为其中,p∈(0,1)为阈值。例如,某一卷积层有四个通道,经步骤a)计算得各通道重要性为{1.1,2.5,0.001,0.02},p=0.01,则第三、四通道被裁减掉。
c)动态调整稀疏性正则系数,以达到预先指定的稀疏程度
本发明方法提出一种自动调整稀疏性正则系数的算法,算法流程图见图3。直观来说,在每一轮次训练之后计算网络整体的稀疏性。如果稀疏性小于某一预先指定的值(如50%)且稀疏性的增量为达到预期,则增大稀疏性正则的系数;如果稀疏性大于预先指定的值,则减小稀疏性正则的系数。具体地,设第t轮次训练的正则系数为λt,指定正则系数变化量为Δλ,第t轮次训练后模型的稀疏程度为St,目标稀疏程度为r,总训练轮次为N。若在本轮次的训练中模型稀疏程度的增加未达到预期,即则增加正则系数λt+1=λt+Δλ;如模型稀疏程度超过目标稀疏程度,即St>r,则增加正则系数λt+1=λt-Δλ。如总共训练20个轮次,第10轮训练完模型稀疏程度为30%,第11轮训练完模型稀疏程度为31.5%,目标稀疏程度为50%,第11轮的正则系数为λ11=4×10-5,正则系数变化量为Δλ=1×10-5,则在第11轮训练结束后增大正则系数λ12=λ11+Δλ=5×10-5;若第18轮训练完模型稀疏程度为55%,第11轮的正则系数为λ18=9×10-5,则在第18轮训练结束后减小正则系数λ19=λ18-Δλ=8×10-5。
Claims (4)
1.一种基于神经网络相邻结构依存关系的网络剪枝方法,其特征在于,该方法包括下述步骤:a)网络的通道重要性由卷积层和相邻的批量归一化(BN)层的参数共同决定;b)在某一层内部比较通道重要性,以确定待剪枝的通道;c)动态调整稀疏性正则系数,以达到预先指定的稀疏程度。
2.根据权利要求1所述的基于神经网络相邻结构依存关系的网络剪枝方法,其特征在于,步骤a)所述网络通道重要性的确定方法是,定义通道重要性为相邻卷积层和批量归一化(BN)层的参数模长的乘积。
3.根据权利要求1所述的基于神经网络相邻结构依存关系的网络剪枝方法,其特征在于,步骤b)所述在某一层内部比较通道重要性的方法是,在每一层内部将通道重要性从大到小排序,裁减掉重要性小于通道重要性最大值的某一事先指定的系数的所有通道。
4.根据权利要求1所述的基于神经网络相邻结构依存关系的网络剪枝方法,其特征在于,步骤c)所述的动态调整稀疏性正则系数的方法是,根据当前网络的稀疏程度确定是否增加或减小稀疏性正则系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046252.3A CN111260034A (zh) | 2020-01-16 | 2020-01-16 | 基于神经网络相邻结构依存关系的网络剪枝方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046252.3A CN111260034A (zh) | 2020-01-16 | 2020-01-16 | 基于神经网络相邻结构依存关系的网络剪枝方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111260034A true CN111260034A (zh) | 2020-06-09 |
Family
ID=70945199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010046252.3A Pending CN111260034A (zh) | 2020-01-16 | 2020-01-16 | 基于神经网络相邻结构依存关系的网络剪枝方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260034A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930249A (zh) * | 2020-07-21 | 2020-11-13 | 深圳市鹰硕教育服务股份有限公司 | 智能笔图像处理方法、装置及电子设备 |
-
2020
- 2020-01-16 CN CN202010046252.3A patent/CN111260034A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930249A (zh) * | 2020-07-21 | 2020-11-13 | 深圳市鹰硕教育服务股份有限公司 | 智能笔图像处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Unified visual transformer compression | |
CN108288270B (zh) | 一种基于通道修剪与全卷积深度学习的目标检测方法 | |
CN108667684B (zh) | 一种基于局部向量点积密度的数据流异常检测方法 | |
CN107240136B (zh) | 一种基于深度学习模型的静态图像压缩方法 | |
CN112016839B (zh) | 一种基于qr-bc-elm的洪涝灾害预测预警方法 | |
CN111144551A (zh) | 一种基于特征方差比的卷积神经网络通道剪枝方法 | |
CN111738477A (zh) | 基于深层特征组合的电网新能源消纳能力预测方法 | |
CN110569883A (zh) | 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法 | |
CN111260034A (zh) | 基于神经网络相邻结构依存关系的网络剪枝方法 | |
CN117113126A (zh) | 一种基于改进聚类算法的行业用电特性分析方法 | |
CN113052264A (zh) | 一种压缩目标检测神经网络的方法 | |
CN114154626B (zh) | 一种用于图像分类任务的滤波器剪枝方法 | |
CN118364316A (zh) | 一种考虑自适应快速搜索密度峰值的电力用户负荷曲线聚类方法及系统 | |
CN111401140A (zh) | 一种边缘计算环境下智能视频监控系统的离线学习方法 | |
CN113128560B (zh) | 一种基于注意力模块增强的cnn楷体书法风格分类方法 | |
CN116910506A (zh) | 一种基于时空网络变分自编码器算法的负荷降维聚类的方法 | |
CN115936099A (zh) | 一种神经网络的权重压缩和集成标准的剪枝方法 | |
CN116128091A (zh) | 基于vmd-cnn-lstm的短期电力负荷预测方法 | |
CN112200275B (zh) | 人工神经网络的量化方法及装置 | |
CN115329116A (zh) | 一种基于多层特征融合的图像检索方法 | |
CN114492798A (zh) | 基于核相似度和非极大抑制算法的卷积神经网络剪枝方法 | |
CN114118855B (zh) | 一种基于cnn的台区线损率标杆值计算方法 | |
CN111429045B (zh) | 一种基于区域对称性的能源互联网聚类方法 | |
CN114896898B (zh) | 一种空压机集群系统能耗优化方法及系统 | |
CN114154589B (zh) | 一种基于相似性的模块减枝方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200609 |