CN111612143B

CN111612143B - 深度卷积神经网络的压缩方法及系统

Info

Publication number: CN111612143B
Application number: CN202010440475.8A
Authority: CN
Inventors: 胡卫明; 刘雨帆; 阮晓峰; 李兵; 李扬曦
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-12-19
Anticipated expiration: 2040-05-22
Also published as: CN111612143A

Abstract

本发明涉及一种深度卷积神经网络的压缩方法及系统，所述压缩方法包括：根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中，得到优化损失函数；根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数；基于所述优化损失函数及更新参数，获得具有滤波器稀疏形式的卷积神经网络模型；利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到网络精度较高的压缩后的卷积神经网络模型。

Description

深度卷积神经网络的压缩方法及系统

技术领域

本发明涉及卷积神经网络及人工智能技术领域，特别涉及一种深度卷积神经网络的压缩方法及系统。

背景技术

随着深度神经网络在人工智能领域地不断发展，比如计算机视觉、语音识别和自然语言处理等，社会各行各业研究人员通过将人工智能相关算法部署到实际产品中，并取得了更加智能化的效果，进而促进了人工智能新一轮研究高潮的到来。

然而，深度神经网络在实际应用部署时，需要巨大的存储空间和高额的计算资源消耗，很难应用在一些移动端和嵌入式设备中。因此，深度神经网络模型压缩和加速方法已经被学术和工业界重视起来，相关成果也为人工智能技术落地提供了重要保障。

其中，在深度卷积神经网络模型压缩和加速方法中，结构化剪枝是一种被广泛研究的方法，其压缩获得的模型可以直接快速部署到现有框架下，不需要特殊的软硬件库支持。

但是通常的结构化剪枝方法具有以下缺点：1)在移除冗余时，直接将不重要的连接去掉，导致网络精度有较大的下降；2)基于稀疏约束的剪枝方法，在整个模型训练过程中，对所有的连接一直加入固定的惩罚力度，使重要的连接在学习稀疏过程中受到影响，进而导致模型精度下降。

发明内容

为了解决现有技术中的上述问题，即为了在结构化剪枝过程中，保证网络模型的精度，本发明的目的在于提供一种深度卷积神经网络的压缩方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种深度卷积神经网络的压缩方法，所述压缩方法包括：

根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；

对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中，得到优化损失函数；

根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数；

基于所述优化损失函数及更新参数，获得具有滤波器稀疏形式的卷积神经网络模型；

利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型。

可选地，所述根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器，具体包括：

根据卷积层滤波器权值的L₂范数值，确定待压缩深度卷积神经网络中不重要的滤波器。

可选地，所述根据卷积层滤波器权值的L₂范数值，确定待压缩深度卷积神经网络中不重要的滤波器，具体包括：

根据以下公式，计算滤波器权值的L₂范数值：

其中，表示卷积层l第j个滤波器L₂范数值，/>表示卷积层l第j个滤波器权值，||·||₂表示L₂范数算子；

将卷积层l中所有滤波器L₂范数值组成一重要性得分向量IS^(l)：

其中，IS^(l)为卷积层l滤波器重要性得分向量，c^(l)为卷积层滤波器数目；

通过对重要性得分向量进行排序，确定重要性得分最小的sr*c^(l)个滤波器为不重要的滤波器，构成不重要性滤波器参数集Θ^s，其中，sr为卷积层稀疏率。

可选地，根据以下公式，得到优化损失函数：

s^(l)＝sr*c^(l)；

其中，Loss表示优化损失函数，表示全部训练数据集，x,y为成对训练数据，且表示标准损失函数，/>表示网络前向函数，Θ表示待压缩深度卷积神经网络的参数集；Θ^s表示不重要性滤波器的参数集，/>表示正则项函数，L表示卷积神经网络模型卷积层数目，W^(l)表示卷积层l中滤波器权值，/>表示卷积层l第j个滤波器权值，||·||₂表示L₂范数算子，||·||_2,1表示矩阵的L₂₁范数算子，S^(l)表示卷积层l被选择稀疏的滤波器数目，sr为卷积层稀疏率；λ表示渐进式的稀疏惩罚因子，能够通过阶梯式函数、线性式函数、指数式函数和正弦式函数中任意一者增长方式确定。

可选地，通过正弦式函数增长方式确定渐进式的稀疏惩罚因子λ，具体包括：

其中，λ(t)为迭代次数t时的惩罚因子，λ_max为惩罚因子的幅值，T为总迭代次数。

可选地，所述根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数，具体包括：

根据以下公式，得到滤波器的更新权值：

其中，[S_λ(·)]表示取近似函数，W_j表示第j个滤波器权值，且Θ^s表示不重要性滤波器参数集，λ表示渐进式的稀疏惩罚因子，||·||₂表示L₂范数算子；

根据滤波器的更新权值，采用反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数。

可选地，所述利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型，具体包括：

针对所述具有滤波器稀疏形式的卷积神经网络模型的每一卷积层，去掉所述卷积层中L₂范数为零的滤波器；

将当前层和下一层冗余的参数被移除；

将单一层剪枝操作用于整个所述具有滤波器稀疏形式的卷积神经网络模型中，得到压缩后的卷积神经网络模型。

为解决上述技术问题，本发明还提供了如下方案：

一种深度卷积神经网络的压缩系统，所述压缩系统包括：

确定单元，用于根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；

优化单元，用于对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中，得到优化损失函数；

更新单元，用于根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数；

建模单元，用于基于所述优化损失函数及更新参数，获得具有滤波器稀疏形式的卷积神经网络模型；

剪枝单元，用于利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型。

为解决上述技术问题，本发明还提供了如下方案：

一种深度卷积神经网络的压缩系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

根据本发明的实施例，本发明公开了以下技术效果：

本发明考虑到卷积核的重要性，通过对不重要的滤波器施加渐进式稀疏约束，将正则项加入到网络训练的损失函数中，得到优化损失函数；采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数，进而建立具有滤波器稀疏形式的卷积神经网络模型，利用结构化剪枝算法进行剪枝，可得到网络精度较高的压缩后的卷积神经网络模型。

附图说明

图1是本发明深度卷积神经网络的压缩方法的流程图；

图2是选择式稀疏与一般性稀疏对比图；

图3是稀疏惩罚系数采用正弦式增长方式示例图；

图4是本发明深度卷积神经网络的压缩系统的模块结果示意图。

符号说明：

确定单元—1，优化单元—2，更新单元—3，建模单元—4，剪枝单元—5。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种深度卷积神经网络的压缩方法，考虑到卷积核的重要性，通过对不重要的滤波器施加渐进式稀疏约束，将正则项加入到网络训练的损失函数中，得到优化损失函数；采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数，进而建立具有滤波器稀疏形式的卷积神经网络模型，利用结构化剪枝算法进行剪枝，可得到网络精度较高的压缩后的卷积神经网络模型。

本发明采用服务器配置为i7-6850K CPU和NVIDIA GTX TITAN GPU，整个网络的训练使用Pytorch深度学习框架。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明深度卷积神经网络的压缩方法包括：

步骤100：根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；

步骤200：对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中，得到优化损失函数；

步骤300：根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数；

步骤400：基于所述优化损失函数及更新参数，获得具有滤波器稀疏形式的卷积神经网络模型；

步骤500：利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型。

其中，在步骤100中，滤波器重要性选择方式是一种考虑卷积层滤波器重要性的稀疏正则方法，例如通过滤波器权值或范数大小来进行选择。

具体地，所述根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器，包括：

进一步地，所述根据卷积层滤波器权值的L₂范数值，确定待压缩深度卷积神经网络中不重要的滤波器，具体包括：

步骤101：根据以下公式，计算滤波器权值的L₂范数值：

步骤102：将卷积层l中所有滤波器L₂范数值组成一重要性得分向量IS^(l)：

步骤103：通过对重要性得分向量进行排序，确定重要性得分最小的sr*c^(l)个滤波器为不重要的滤波器，构成不重要性滤波器参数集Θ^s，其中，sr为卷积层稀疏率。

在步骤200中，渐进式稀疏约束是一种逐渐增大稀疏惩罚系数λ的稀疏正则方法，渐进式的稀疏惩罚因子λ的增长方式可以是阶梯式函数、线性式函数、指数式函数和正弦式(四分之一)函数中的任何一种。

具体地，根据以下公式，得到优化损失函数：

s^(l)＝sr*c^(l)；

其中，Loss表示优化损失函数，表示全部训练数据集，x,y为成对训练数据，且表示标准损失函数，/>表示网络前向函数，Θ表示待压缩深度卷积神经网络的参数集；Θ^s表示不重要性滤波器的参数集，/>表示正则项函数，L表示卷积神经网络模型卷积层数目，W^(l)表示卷积层l中滤波器权值，/>表示卷积层l第j个滤波器权值，||·||₂表示L₂范数算子，||·||_2,1表示矩阵的L₂₁范数算子，S^(l)表示卷积层l被选择稀疏的滤波器数目，sr为卷积层稀疏率(如图2所示为选择式稀疏与一般稀疏的区别)；λ表示渐进式的稀疏惩罚因子，能够通过阶梯式函数、线性式函数、指数式函数和正弦式函数中任意一者增长方式确定。

如图3所示，通过正弦式函数增长方式确定渐进式的稀疏惩罚因子λ，具体包括：

由于正则项函数的不可微分性，采用联合求解方法，通过利用二次近似算法获得参数的迭代更新公式，包括参数反向传播和阈值迭代更新两部分，两者交替更新参数。

具体地，在步骤300中，所述根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数，具体包括：

步骤301：根据以下公式，得到滤波器的更新权值：

步骤301：根据滤波器的更新权值，采用反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数。具体地：采用以下算法联合求解。更新参数：

输入：模型，全部训练数据集D、惩罚因子的幅值λ_max、卷积层稀疏率sr；

其中，α是学习率，为参数反向传播的梯度。

优选地，在步骤500中，所述利用结构化剪枝算法，对所述具有滤波器(结构化)稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型，具体包括：

步骤501：针对所述具有滤波器稀疏形式的卷积神经网络模型的每一卷积层，去掉所述卷积层中L₂范数为零的滤波器；

步骤502：将当前层和下一层冗余的参数被移除；

步骤503：将单一层剪枝操作用于整个所述具有滤波器稀疏形式的卷积神经网络模型中，得到压缩后的卷积神经网络模型。

本发明通过采用选择式和渐进式稀疏正则对深度卷积神经网络进行压缩，解决了通常的结构化剪枝方法存在的缺点。具体地，本发明根据滤波器重要性选择方式和模型压缩率，确定出不重要的滤波器，并对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中；采用阈值迭代算法处理选择式和渐进式稀疏正则项的不可微分性，同时与反向传播算法联合求解，获得模型参数更新的迭代公式，训练结束后，获得具有结构化(滤波器)稀疏形式的卷积神经网络模型；利用结构化剪枝方法，对获得的稀疏模型进行剪枝处理，获得压缩后的卷积神经网络模型。与通常的结构化稀疏方法比较，本发明获得了更好的压缩效果。

此外，本发明还提供一种深度卷积神经网络的压缩系统，可在结构化剪枝过程中，保证网络模型的精度。

如图4所示，本发明深度卷积神经网络的压缩系统包括确定单元1、优化单元2、更新单元3、建模单元4及剪枝单元5。

具体地，所述确定单元1用于根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；

所述优化单元2用于对不重要的滤波器施加渐进式稀疏约束，作为正则项加入到网络训练的损失函数中，得到优化损失函数；

所述更新单元3用于根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数；

所述建模单元4用于基于所述优化损失函数及更新参数，获得具有滤波器稀疏形式的卷积神经网络模型；

所述剪枝单元5用于利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型。

此外，本发明还提供一种深度卷积神经网络的压缩系统，包括：

处理器；以及

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

相对于现有技术，本发明深度卷积神经网络的压缩系统、计算机可读存储介质与上述深度卷积神经网络的压缩方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种深度卷积神经网络的压缩系统，其特征在于，应用于将深度神经网络部署在移动端和嵌入式设备，进行视觉、语音识别和自然语言处理，所述压缩系统包括：

确定单元，用于根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；包括：根据卷积层滤波器权值的L₂范数值，确定待压缩深度卷积神经网络中不重要的滤波器；具体包括：根据以下公式，计算滤波器权值的L₂范数值：

其中，表示卷积层l第j个滤波器L₂范数值，W_j ^(l)表示卷积层l第j个滤波器权值，||·||₂表示L₂范数算子；

通过对重要性得分向量进行排序，确定重要性得分最小的sr*c^(l)个滤波器为不重要的滤波器，构成不重要性滤波器参数集Θ^s，其中，sr为卷积层稀疏率；

2.根据权利要求1所述的深度卷积神经网络的压缩系统，其特征在于，根据以下公式，得到优化损失函数：

s^(l)＝sr*c^(l)；

其中，Loss表示优化损失函数，D表示全部训练数据集，x,y为成对训练数据，且(x,y)∈D，l(·)表示标准损失函数，F(·,·)表示网络前向函数，Θ表示待压缩深度卷积神经网络的参数集；Θ^s表示不重要性滤波器的参数集，R_SPSS(·)表示正则项函数，L表示卷积神经网络模型卷积层数目，W^(l)表示卷积层l中滤波器权值，W_j ^(l)表示卷积层l第j个滤波器权值，||·||₂表示L₂范数算子，||·||_2,1表示矩阵的L₂₁范数算子，S^(l)表示卷积层l被选择稀疏的滤波器数目，sr为卷积层稀疏率；λ表示渐进式的稀疏惩罚因子，能够通过阶梯式函数、线性式函数、指数式函数和正弦式函数中任意一者增长方式确定。

3.根据权利要求2所述的深度卷积神经网络的压缩系统，其特征在于，通过正弦式函数增长方式确定渐进式的稀疏惩罚因子λ，具体包括：

4.根据权利要求1所述的深度卷积神经网络的压缩系统，其特征在于，所述根据正则项，采用阈值迭代算法及反向传播算法联合求解，得到待压缩深度卷积神经网络的更新参数，具体包括：

根据以下公式，得到滤波器的更新权值：

其中，[S_λ(·)]表示取近似函数，W_j表示第j个滤波器权值，且W_j∈Θ^s，Θ^s表示不重要性滤波器参数集，λ表示渐进式的稀疏惩罚因子，||·||₂表示L₂范数算子；

5.根据权利要求1所述的深度卷积神经网络的压缩系统，其特征在于，所述利用结构化剪枝算法，对所述具有滤波器稀疏形式的卷积神经网络模型进行剪枝，得到压缩后的卷积神经网络模型，具体包括：

将当前层和下一层冗余的参数被移除；

6.一种深度卷积神经网络的压缩系统，包括：

处理器；以及

根据滤波器重要性选择方式和/或模型压缩率，确定待压缩深度卷积神经网络中不重要的滤波器；包括：根据卷积层滤波器权值的L₂范数值，确定待压缩深度卷积神经网络中不重要的滤波器；具体包括：根据以下公式，计算滤波器权值的L₂范数值：

7.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：