CN117557857B

CN117557857B - 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Info

Publication number: CN117557857B
Application number: CN202311574622.0A
Authority: CN
Inventors: 巩晋南; 王暄; 施天俊; 李朴真; 智喜洋; 胡建明; 江世凯; 张伟
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-06-04
Anticipated expiration: 2043-11-23
Also published as: CN117557857A

Abstract

本发明公开了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，所述方法把MobileNet v3Block中的SE注意力机制替换为CBAM注意力机制，从空间和通道两个方面提升特征显著性，然后将目标检测网络中的卷积模块替换为改进后的MobileNet v3Block模块；再通过基于批归一化的剪枝方剔除重要性低的冗余通道，以进一步提升模型的轻量程度。本发明将渐进式引导蒸馏从图像分类任务扩展到目标检测任务，改进基于主干特征映射的知识蒸馏方法，通过教师网络提供先验知识，使用教师网络的中间表示特征作为提示辅助训练，以助教网络作为媒介平衡学生网络的检测精度和速度。

Description

结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

技术领域

本发明属于目标探测与识别技术领域，涉及一种检测网络轻量化方法，具体涉及一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法。

背景技术

目标检测是计算机视觉中的一项核心任务，其目的是在图像或视频中自动识别并定位特定目标。随着深度学习技术的出现，目标检测算法的效率已经显著提高，并得到了广泛且深入的应用。然而，最先进的深度神经网络总是消耗大量的计算量和内存，这限制了它们在自动驾驶汽车、无人机等边缘设备上的部署。

现有的轻量化方法主要基于网络结构优化、模型剪枝量化、知识蒸馏等单一层面展开。2015年，Ioffe和Szegedy提出了批归一化方法，对神经网络中间层的输出进行标准化处理，使得中间层的输出更加稳定，学到的特征泛化性更强，并由此衍生了一部分高效的剪枝策略；2017年，Howard等人提出了基于深度可分离卷积的MobileNetV1，其通过拆分空间维度和通道维度的相关性，减少了卷积计算所需要的参数量；2015年，Hinton等人提出了知识蒸馏，将知识从一个复杂的深度神经网络中提取到轻量的网络中。由于学生网络在训练时模仿教师网络的逻辑或特征提取方式，因此可以在保证较少参数量的同时实现较高的准确性。2020年，S.I.Mirzadeh等人提出通过加入助教网络的方法，改进教师和学生之间参数相差较大的问题，并扩展到多部蒸馏，在目标分类任务上得到了较好的效果。知识蒸馏由于其简单、有效，已成为算法轻量化和提高模型精度的常用技术。

现有的网络结构重构、模型剪枝量化虽然可以剔除网络本身的冗余结构，但是会造成精度的损失。而知识蒸馏通过引入教师网络可以显著提升学生网络的精度，却缺乏对于学生网络选择的先验。故而现有的轻量化方法局限于应用结构重构、剪枝、蒸馏等单一方法，未能充分轻量化网络。

发明内容

针对基于深度神经网络的目标检测模型复杂度高、计算量大、难以部署在算力限制的移动端等问题，本发明提供了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法。该方法整合网络结构重构、模型剪枝、知识蒸馏等技术，以目标检测算法为基础展开通用的轻量化方法研究。

本发明的目的是通过以下技术方案实现的：

一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，包括如下步骤：

步骤1：将MobileNet v3 Block中的SE注意力机制替换为CBAM注意力机制，并采用改进后的MobileNet v3 Block结构重构原始检测网络中的卷积模块得到学生网络；

步骤2：基于批归一化的剪枝方法精简学生网络，引入批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性，根据缩放系数γ的大小来确定要剪枝的通道；

步骤3：选用原始检测网络作为教师网络，对参数相对较多、结构相对复杂的教师网络进行训练；

步骤4：调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络，引入教师网络提供先验知识，使用教师网络主干特征的映射作为提示帮助训练助教网络，再递归地使用参数量大的助教网络蒸馏参数量小的助教网络，直至蒸馏出最后一层助教网络的规模满足轻量化的需求；

步骤5：使用步骤4中最后一层助教网络的主干特征映射作为提示，对步骤1、步骤2精简后的学生网络进行蒸馏。

相比于现有技术，本发明具有如下优点：

(1)本发明提出一种通用的目标检测网络的轻量化方法，通过引入CBAM注意力机制的MobileNet V3 Block结构、基于批归一化的剪枝重构原始检测网络得到学生网络，最终通过基于主干特征映射的渐进式知识蒸馏对目标检测网络进行轻量化，具体实施过程可移植性较好，适用于大部分目标检测网络。

(2)本发明提出一种目标检测网络重构的方法，该方法包括基于改进后MobileNetv3 Block的网络重构、基于批归一化剪枝两部分。把MobileNet v3Block中的SE注意力机制替换为CBAM注意力机制，从空间和通道两个方面提升特征显著性，然后将目标检测网络中的卷积模块替换为改进后的MobileNet v3Block模块；再通过基于批归一化的剪枝方剔除重要性低的冗余通道，以进一步提升模型的轻量程度。

(3)本发明提出一种基于主干特征映射的渐进式知识蒸馏方法。基于主干特征映射的知识蒸馏改进技术由注意引导机制和非局部蒸馏法两部分构成，在目标检测任务中发挥了较好的效果，却无法调和教师网络与学生网络参数量相差较大时知识转移效果差的问题。本发明将渐进式引导蒸馏从图像分类任务扩展到目标检测任务，改进基于主干特征映射的知识蒸馏方法，通过教师网络提供先验知识，使用教师网络的中间表示特征作为提示辅助训练，以助教网络作为媒介平衡学生网络的检测精度和速度。

附图说明

图1为结合渐进式引导蒸馏和结构重构的轻量化方法整体流程图；

图2为引入CBAM注意力机制的MobileNet v3 Block结构；

图3为基于批归一化的通道剪枝示意图；

图4为基于主干特征映射的渐进式知识蒸馏结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，通过网络结构重构、模型剪枝精简教师网络得到轻量化的学生网络，再通过知识蒸馏减少学生网络的精度损失，实现检测网络的轻量化。如图1所示，所述方法包括如下步骤：

步骤1：将MobileNet v3 Block中的SE注意力机制替换为CBAM注意力机制，并采用改进后的MobileNet v3 Block结构重构原始检测网络中的卷积模块得到学生网络。具体步骤如下：

步骤1-1：通过CBAM注意力机制改进MobileNet v3 Block，替换其中的SE注意力机制，改进后的具体结构如图2所示。具体步骤如下：

步骤1-1-1：引入CBAM注意力机制替换MobilNet v3 Block中的SE注意力机制，该结构首先通过一个1×1卷积层来进行升维处理，扩张输入特征层的通道数；再通过一个3×3深度可分离卷积进行特征提取；然后进入CBAM模块，利用通道注意力机制和空间注意力机制对输入特征图进行特征重构，得到最后的特征图；最后通过1×1卷积层来进行降维并输出。当步长等于1且输入和输出特征图的尺寸相同时，使用残差连接输入和输出；当步长等于2时(下采样阶段)直接输出降维后的特征图。原MobileNet v3 Block模块中的SE注意力机制只考虑了通道维度上的注意力，无法捕捉空间维度上的注意力，适用于通道数较多的场景，但对于通道数较少的情况表现较差。故而引入CBAM注意力机制替换SE注意力机制，CBAM注意力机制在空间和通道两个方面上对特征图进行关注，提高模型的泛化能力和性能，在只增加较少参数的情况下，获得较为明显的性能增益。

步骤1-1-2：在通道维度上应用注意力机制。设输入的特征图为C,H,W分别代表特征图的通道数目、高度和宽度。在通道维度上，首先同时经过一次平均池化和最大池化聚合特征图的空间信息，分别得到一维特征向量/>和/>然后两个一维特征向量进入共享网络，以生成通道注意特征图/>共享网络由多层感知器组成，为了减少参数开销，将隐藏的激活大小设置为/>其中Γ为还原比。在共享网络应用于每个一维特征向量之后，使两者求和并输出特征向量，具体公式如下：

式中，Sigmoid(·)为Sigmoid激活函数；AvePool(F)),Maxpool(F)分别代表平均池化和最大池化；

步骤1-1-3：在空间维度上应用注意机制。沿通道维度应用平均池化和最大池化操作分别得到特征图和/>分别表示平均池化特征和最大池化特征，并将它们拼接起来再使用7×7卷积操作得到空间注意特征图/>具体公式如下：

式中，Conv_7×7代表7×7卷积操作。

步骤1-2：将原始检测网络中的卷积块替换为步骤1-1中引入CBAM注意力机制改进后的MobileNet v3 Block模块。

步骤2：基于批归一化的剪枝方法精简学生网络：引入批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性，根据缩放系数γ的大小来确定要剪枝的通道。具体步骤如下：

步骤2-1：利用批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性，绝对值越大，则通道的重要性越大。

步骤2-2：在损失函数中添加归一化层缩放因子的L1范数筛选出重要性低的通道，如公式所示：

式中，L为原损失函数，L_S为修改后的损失函数，λ为用于调整L1范数的系数，本发明中默认设置为0.0001，这样可以鼓励模型学习稀疏的缩放系数，使得不重要的通道的缩放因子趋近于零，从而实现更稳定、高效的通道剪枝。

步骤2-3：根据缩放系数γ的大小来确定要剪枝的通道。按照缩放系数γ的绝对值大小对通道进行排序，按设定的比例选择重要性较低的一部分通道进行剪枝，本发明中默认比例为τ＝30％，即删除30％的通道及其相关联的连接。其具体实现方法为删除卷积层中和该通道对应的卷积核，如图3所示。

步骤3：选用原始检测网络作为教师网络，对参数相对较多、结构相对复杂的教师网络进行训练。具体步骤如下：

步骤3-1：设定模块堆叠因子d_m和卷积通道因子ω_m分别调整检测网络的模块堆叠数目和每个网络单元的输出通道数，并设定原始检测网络d_m＝1,ω_m＝1。以d_m＝0.5,ω_m＝0.25为例，即表示模块堆叠数目缩小两倍，卷积通道数缩小四倍。模块堆叠数目和输出通道数的具体计算公式如下：

n'＝max(1,round(n·d_m))

式中，n表示原始检测网络的模块堆叠数目，n'表示修改后检测网络的模块堆叠数目，round()函数表示四舍五入取整。

式中，c_i表示第i个原始检测网络单元的通道数，c′_i表示修改后第i个检测网络单元的通道数，ceil()函数表示向上取整。

步骤3-2：设S＝(i,j)表示d_m＝i,ω_m＝j的学生网络，T＝(i,j)表示d_m＝i,ω_m＝j的教师网络，Z＝(i,j)表示d_m＝i,ω_m＝j的助教网络。本发明默认采用“教师-三层助教-学生”的渐进式蒸馏模型，具体的渐进式蒸馏的具体路径及参数设置为：

T＝(1,1)→Z＝(0.875,0.875)→Z＝(0.75,0.75)→Z＝(0.625,0.625)→S＝(0.5,0.5)。

步骤3-3：选用原始检测网络作为教师网络，利用数据样本及目标标注框对教师网络进行训练，得到一个参数量大但精度高的教师目标检测模型。

步骤4：调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络，引入教师网络提供先验知识，使用教师网络主干特征的映射作为提示帮助训练助教网络，再递归地使用参数量大的助教网络蒸馏参数量小的助教网络，直至蒸馏出最后一层助教网络的规模满足轻量化的需求。具体步骤如下：

步骤4-1：引入教师网络中基于主干特征的映射作为提示帮助训练助教网络，该部分由注意引导机制和非局部蒸馏两部分构成，具体步骤如下：

步骤4-1-1：量化主干网络提取的特征，并找到其映射。具体步骤如下：

步骤4-1-1-1：使用A∈R^C,W,H来表示目标检测模型中的主干网络提取特征，其中C,H,W分别表示特征图的通道数、高度和宽度。

步骤4-1-1-2：空间注意图和通道注意图的生成等价于分别找到映射函数和/>这里的上标s和c被用来区分“空间”和“通道”。因为每个元素的绝对值功能意味着它的重要性，所以通过将整个通道维度的绝对值相加来构造/>通过将宽度和高度维度的绝对值相加来构造/>即：

式中，i,j,k分别表示A在高度、宽度和通道维度上的第i,j,k个切片。

步骤4-1-1-3：通过将教师和学生探测器的注意图相加，可以得到空间注意掩膜M^s和通道注意掩膜M^c，即：

式中，分别用来表示教师和其对应的学生；T是softmax中的一个超参数，用于调整注意掩膜中元素的分布。

步骤4-1-2：通过步骤4-1-1中的基于主干特征的映射设置注意引导蒸馏损失L_AGD，注意引导蒸馏损失L_AGD的具体计算方法如下：

注意引导蒸馏损失L_AGD由注意转移损失L_AT和注意掩膜损失L_AM两个组成部分组成。利用L_AT来鼓励学生模型模拟教师模型的空间和通道注意力，其表示为：

L_AM被用来鼓励学生通过被M^s和M^c掩膜的L₂范数损失来模拟教师模型的特征，其表示为：

步骤4-1-3：应用非局部蒸馏捕获图像中像素之间的关系，设置非蒸馏损失L_NLD。

捕获图像中像素之间的关系表示为：

式中，r表示所得到的关系信息；i′,j′是需要计算其响应的输出位置的空间索引；i″,j″是枚举所有可能位置的空间索引；f是逐点计算两个像素关系的函数；g是用于计算单个像素表示的一元函数。

设定非局部蒸馏损失L_NLD为学生和教师关系信息之间的L₂损失，其表示为：

式中，表示学生网络所得到的的关系信息；/>表示教师网络所得到的的关系信息。

步骤4-1-4：引入三个超参数α′,β′,γ′来平衡不同的蒸馏损失，结合步骤4-1-2、步骤4-1-3的损失函数组成总的蒸馏损失函数，应用其构成总的损失函数并训练目标检测模型。

总的蒸馏损失函数为：

式中，表示学生网络主干提取特征；/>表示教师网络主干提取特征。

总的损失函数为：

L_total＝L_S+L_Distill

式中，L_S表示步骤2-2中添加批归一化因子后的损失函数。

步骤4-2：按照步骤3-1中参数设置调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络。引入教师模型提供先验知识，使用步骤3及步骤4-1中教师网络主干特征的映射作为提示帮助训练助教网络，再递归地按照蒸馏路径使用助教网络蒸馏出其对应的学生网络，直至蒸馏出最后一层助教网络的规模满足轻量化的需求。蒸馏的整体框架如图4所示。

Claims

1.一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述方法包括如下步骤：

步骤3：选用原始检测网络作为教师网络，对参数较多、结构复杂的教师网络进行训练，具体步骤如下：

步骤3-1：设定模块堆叠因子d_m和卷积通道因子ω_m分别调整检测网络的模块堆叠数目和每个网络单元的输出通道数，并设定原始检测网络d_m＝1,ω_m＝1，模块堆叠数目和输出通道数的具体计算公式如下：

n'＝max(1,round(n·d_m))

式中，n表示原始检测网络的模块堆叠数目，n'表示修改后检测网络的模块堆叠数目，round()函数表示四舍五入取整；

式中，c_i表示第i个原始检测网络单元的通道数，c′_i表示修改后第i个检测网络单元的通道数，ceil()函数表示向上取整；

步骤3-2：设S＝(i,j)表示d_m＝i,ω_m＝j的学生网络，T＝(i,j)表示d_m＝i,ω_m＝j的教师网络，Z＝(i,j)表示d_m＝i,ω_m＝j的助教网络，采用“教师-三层助教-学生”的渐进式蒸馏模型，渐进式蒸馏的具体路径及参数设置为：

T＝(1,1)→Z＝(0.875,0.875)→Z＝(0.75,0.75)→Z＝(0.625,0.625)→S＝(0.5,0.5)；

步骤3-3：选用原始检测网络作为教师网络，利用数据样本及目标标注框对教师网络进行训练，得到一个参数量大但精度高的教师目标检测模型；

2.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤1的具体步骤如下：

步骤1-1：通过CBAM注意力机制改进MobileNet v3 Block，替换其中的SE注意力机制，具体步骤如下：

步骤1-1-1：引入CBAM注意力机制替换MobilNet v3 Block中的SE注意力机制，该结构首先通过一个1×1卷积层来进行升维处理，扩张输入特征层的通道数；再通过一个3×3深度可分离卷积进行特征提取；然后进入CBAM模块，利用通道注意力机制和空间注意力机制对输入特征图进行特征重构，得到最后的特征图；最后通过1×1卷积层来进行降维并输出；

步骤1-1-2：在通道维度上应用注意力机制，设输入的特征图为C,H,W分别代表特征图的通道数目、高度和宽度，在通道维度上，首先同时经过一次平均池化和最大池化聚合特征图的空间信息，分别得到一维特征向量/>和/>然后两个一维特征向量进入共享网络，以生成通道注意特征图/>共享网络由多层感知器组成，为了减少参数开销，将隐藏的激活大小设置为/>其中Γ为还原比，在共享网络应用于每个一维特征向量之后，使两者求和并输出特征向量，具体公式如下：

步骤1-1-3：在空间维度上应用注意机制，沿通道维度应用平均池化和最大池化操作分别得到特征图和/>分别表示平均池化特征和最大池化特征，并将它们拼接起来再使用7×7卷积操作得到空间注意特征图/>具体公式如下：

式中，Conv_7×7代表7×7卷积操作；

3.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤2的具体步骤如下：

步骤2-1：利用批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性，绝对值越大，则通道的重要性越大；

式中，L为原损失函数，L_S为修改后的损失函数，λ为用于调整L1范数的系数；

步骤2-3：按照缩放系数γ的绝对值大小对通道进行排序，按设定的比例选择重要性较低的一部分通道进行剪枝。

4.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤4的具体步骤如下：

步骤4-1-1：量化主干网络提取的特征，并找到其映射；

步骤4-1-2：通过步骤4-1-1中的基于主干特征的映射设置注意引导蒸馏损失L_AGD；

步骤4-1-3：应用非局部蒸馏捕获图像中像素之间的关系，设置非蒸馏损失L_NLD；

步骤4-1-4：引入三个超参数α′,β′,γ′来平衡不同的蒸馏损失，结合步骤4-1-2、步骤4-1-3的损失函数组成总的蒸馏损失函数，应用其构成总的损失函数并训练目标检测模型；

步骤4-2：按照步骤3-1中参数设置调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络；引入教师模型提供先验知识，使用步骤3及步骤4-1中教师网络主干特征的映射作为提示帮助训练助教网络，再递归地按照蒸馏路径使用助教网络蒸馏出其对应的学生网络，直至蒸馏出最后一层助教网络的规模满足轻量化的需求。

5.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤4-1-1的具体步骤如下：

步骤4-1-1-1：使用A∈R^C,W,H来表示目标检测模型中的主干网络提取特征，其中C,H,W分别表示特征图的通道数、高度和宽度；

步骤4-1-1-2：空间注意图和通道注意图的生成等价于分别找到映射函数和/>上标s和c被用来区分“空间”和“通道”，通过将整个通道维度的绝对值相加来构造/>通过将宽度和高度维度的绝对值相加来构造/>即：

式中，i,j,k分别表示A在高度、宽度和通道维度上的第i,j,k个切片；

步骤4-1-1-3：通过将教师和学生探测器的注意图相加，得到空间注意掩膜M^s和通道注意掩膜M^c，即：

6.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤4-1-2中，注意引导蒸馏损失L_AGD的具体计算方法如下：

注意引导蒸馏损失L_AGD由注意转移损失L_AT和注意掩膜损失L_AM两个组成部分组成，利用L_AT来鼓励学生模型模拟教师模型的空间和通道注意力，其表示为：

7.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤4-1-3中，捕获图像中像素之间的关系表示为：

式中，r表示所得到的关系信息；i′,j′是需要计算其响应的输出位置的空间索引；i″,j″是枚举所有可能位置的空间索引；f是逐点计算两个像素关系的函数；g是用于计算单个像素表示的一元函数；

式中，r^S表示学生网络所得到的的关系信息；r^T表示教师网络所得到的的关系信息。

8.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法，其特征在于所述步骤4-1-4中，总的蒸馏损失函数为：

L_Distill(A^T,A^S)＝α′·L_AT+β′·L_AM+γ′·L_NLD

式中，A^S表示学生网络主干提取特征；A^T表示教师网络主干提取特征；

总的损失函数为：

L_total＝L_S+L_Distill

式中，L_S表示添加批归一化因子后的损失函数。