CN113255907A

CN113255907A - 一种小网络模型裁剪方法及系统

Info

Publication number: CN113255907A
Application number: CN202110554320.1A
Authority: CN
Inventors: 刘义南; 魏东; 金晓峰; 黄宇恒; 徐天适
Original assignee: GRG Banking Equipment Co Ltd
Current assignee: GRG Banking Equipment Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-13
Anticipated expiration: 2041-05-20
Also published as: WO2022241804A1; CN113255907B

Abstract

本发明提供一种小网络模型裁剪方法及系统，方法包括：按照预设规则搜索通道，确定待裁剪的通道；确定保留的通道的索引；进行权重重构。本发明的小网络模型裁剪方法，实现滤波器级网络模型压缩与加速。

Description

一种小网络模型裁剪方法及系统

技术领域

本发明涉及图像识别技术领域，特别涉及一种小网络模型裁剪方法及系统。

背景技术

目前，深度卷积神经网络(CNN)广泛应用于计算机视觉任务中，如：分割、分类、检测、跟踪等等，并取得了较好的应用效果。CNN中卷积层权重的计算需要耗费大量的计算资源与存储资源，这限制了高性能CNN模型在移动设备或嵌入式设备上的应用。另一方面，CNN网络模型中，卷积层参数存在大量的冗余，稀疏化现象随着网络层数的增加而愈发严重，不必要的参数严重影响了推理速度的提升。网络模型紧致化成为解决以上问题的重要研究方向。目前，深度网络模型紧致化的主要手段包括：滤波器裁剪；权重量化；知识蒸馏；参数共享；矩阵分解；网络结构搜索等，其中滤波器裁剪和权重量化由于其有效性和高效性受到工业界的青睐。

小网络模型由于其参数规模较小、计算资源需求不大等优点，广泛应用于移动端或嵌入式设备上。尽管如此，小网络模型依然存在参数冗余，推理速度慢等缺点。

发明内容

本发明目的之一在于提供了一种小网络模型裁剪方法及系统，实现滤波器级网络模型压缩与加速。

本发明实施例提供的一种小网络模型裁剪方法，包括：

按照预设规则搜索通道，确定待裁剪的通道；

确定保留的通道的索引；

进行权重重构。

优选的，按照预设规则搜索通道，确定待裁剪的通道，包括：

计算所述网络模型中卷积层i的滤波器的范数；

计算所述范数为零的所述滤波器占总的所述滤波器的占比，计算公式如下：

其中，P为所述范数为零的所述滤波器占总的所述滤波器的占比；N_F为所述滤波器的总数；N_ε为所述范数为零的所述滤波器的个数；

获取搜索参数ε；

当所述占比大于等于所述搜索参数ε时，随机删除范数为零的所述滤波器；直至所述占比小于所述搜索参数ε。

优选的，确定保留的通道的索引，包括：

遍历卷积层i+1输出层的所有通道数，找到对特征图影响最大的一个通道；

之后通过最小二乘法迭代计算，依次找到对特征图影响最大的2,3，…,m个通道。

优选的，进行权重重构，包括:

获取保留下来的m个通道的索引selectedChannel之后，对滤波器i+1的保留下来的通道的值

进行更新设置，通过以下公式得到：

表示滤波器i+1的保留下来的通道所对应的权重；w表示权重变量；selectedChannel表示保留下来的m个通道的索引。

优选的，遍历卷积层i+1输出层的所有通道数，找到对特征图影响最大的一个通道；包括：

计算各个通道的Value值，计算公式如下：

其中，N表示输入网络的样本个数；Y_n表示第n个样本的裁剪前卷积层i+1层输出的特征图；X_n，j表示第n个样本裁剪后的卷积层i+1层的第j个通道的特征图。

一种网络模型裁剪系统，包括：

通道模块，用于按照预设规则搜索通道，确定待裁剪的通道；

索引模块，用于确定保留的通道的索引；

重构模块，用于进行权重重构。

优选的，所述通道模块包括：

范数模块，用于计算所述网络模型中卷积层i的滤波器的范数；

占比计算模块，用于计算所述范数为零的所述滤波器占总的所述滤波器的占比，计算公式如下：

参数控制模块，用于获取搜索参数ε，当所述占比大于等于所述搜索参数ε时，随机删除范数为零的所述滤波器；直至所述占比小于所述搜索参数ε。

优选的，所述索引模块包括：

通道模块，用于遍历卷积层i+1输出层的所有通道数，找到对特征图影响最大的一个通道；

计算模块，用于通过最小二乘法迭代计算，依次找到对特征图影响最大的2,3，…,m个通道。

优选的，所述重构模块用于获取保留下来的m个通道的索引selectedChannel之后，对滤波器i+1的保留下来的通道的值

进行更新设置。

优选的，值

通过以下公式得到：

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为Mobilenetv2网络中典型的几种结构模块的示意图；

图2为卷积计算示意图；

图3为一种多分枝多层裁剪示意图；

图4为又一种多分枝多层裁剪示意图；

图5为整体网络裁剪示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本申请提出了一种小网络模型裁剪方法；以Mobilenetv2网络结构为例说明本专利技术特点及创新性，Mobilenetv2网络中典型的几种结构模块，如图1所示。这几种结构模块及其变种广泛应用于其他小网络模型中，如Mobilenetv1,Shufflenet，Squeezenet等等。实现以下几种结构模块的裁剪，可以完成对整个小网络模型的压缩与加速。

如图2所示，假设要将滤波器i中的虚框滤波器删除，那么只需删除卷积层i+1层输入特征图的虚框的特征图。要删除卷积层i+1层输入特征图的中相应的虚框的特征图，可以通过删除卷积层i+1层输出特征图的虚框通道来进行。因此如何选择删除滤波器i的虚框滤波器的问题，转化成删除卷积层i+1层输出特征图的虚框通道的特征图的问题。因此，网络裁剪转化为如下优化问题：

其中，|S|表示集合S的元素个数，S是保留下来的通道的索引,c是卷积层i+1层输出特征图的总通道数，N表示输入网络的样本个数。Y表示裁剪前卷积层i+1层输出的特征图，Y_n表示第n个样本的裁剪前卷积层i+1层输出的特征图，X表示通道裁剪后，卷积层i+1层输出的特征图；X_n，j表示第n个样本裁剪后的卷积层i+1层的第j个通道的特征图；s.t.表示需要满足的条件；|S|表示裁剪后保留的通道数，r表示压缩率r(反映的是保留的通道个数。上式的求解是一个NP-hard问题。本专利将提出一种通道搜索算法，对(1)进行优化，获得待保留的通道索引selectedChannel。选择好通道后，为获得更好的裁剪效果，可对i+1层滤波器的权重矩阵进行重构：

其中，

是裁剪后滤波器i+1中第j个通道的权重矩阵。对于(2)式的优化是标准的最小二乘优化问题。

算法1的具体算法如下：

(1).参数输入：X,Y,参数group(1<group<|S|,默认值3),压缩率r(反映的是保留的通道个数),totalChn＝[0,1,2…,c-1]；

(2).初始化List[Chn,value]：

遍历卷积层i+1输出层的所有通道数，找到对特征图影响最大的一个通道(通过计算最小的Value得到)，保留Value值最小的前group个通道以及所对应的Value值。

(3).通道搜索与重构：

之后通过最小二乘法迭代计算，依次找到对特征图影响最大的2,3，…,m个通道(通过计算最小的newValue得到，每次增加一个通道的索引，计算newValue，然后保留前group个结果)，这样就得到保留下来的通道的索引。

找到保留下来的m个通道的索引selectedChannel之后，对滤波器i+1的保留下来的通道的值

进行更新设置，通过以下公式得到：

(这个公式更新滤波器i+1的保留下来的通道所对应的权重)

(更新滤波器i+1的保留下来的通道的值

)

表示滤波器i+1的保留下来的通道所对应的权重；w表示权重变量(最小二乘法的公式变量)；selectedChannel表示保留下来的m个通道的索引。

在另一个实施例中，以图3为例说明多分支裁剪策略，对于多层关联裁剪，可作类似推广。由于Depthwise Convolution深度卷积层已经过优化，推理速度很快，并考虑到蓝色卷积层裁剪后，会对Depthwise Convolution深度卷积层通道进行相应裁剪，因此仅对卷积层进行裁剪。

本专利提出如下两种裁剪策略(以Mobilenetv2为例)：

第一种裁剪策略：如图3所示，优化目标变为：裁剪后的模块输出X₁+X₂对下一层卷积层的输出的影响尽可能的小，只需将算法1中的式(1)和(2)中的X由X₁+X₂替代。此方法特点是：卷积层1滤波器和卷积层3滤波器同时进行裁剪，保证被裁剪掉的通道相同。

第二种裁剪策略：如图4所示，对虚线框中卷积层1裁剪，相应地删掉卷积层2和卷积层3的对应的滤波器。

再一个实施例中，不论是大网络模型，还是小网络模型，随着深度的增加，权重稀疏化现象越来越严重，从而容易导致最小二乘法求解算法1中的式(2)时产生奇异，本专利提出整体网络裁剪策略如图5所示，其中，N_ε是L1范数为0的滤波器个数，N_F是滤波器总个数，可选参数ε(默认值0.6)反应L1范数为0的滤波器占比。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。