CN117557857B - 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 - Google Patents

结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 Download PDF

Info

Publication number
CN117557857B
CN117557857B CN202311574622.0A CN202311574622A CN117557857B CN 117557857 B CN117557857 B CN 117557857B CN 202311574622 A CN202311574622 A CN 202311574622A CN 117557857 B CN117557857 B CN 117557857B
Authority
CN
China
Prior art keywords
network
distillation
channel
teacher
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311574622.0A
Other languages
English (en)
Other versions
CN117557857A (zh
Inventor
巩晋南
王暄
施天俊
李朴真
智喜洋
胡建明
江世凯
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202311574622.0A priority Critical patent/CN117557857B/zh
Publication of CN117557857A publication Critical patent/CN117557857A/zh
Application granted granted Critical
Publication of CN117557857B publication Critical patent/CN117557857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,所述方法把MobileNet v3Block中的SE注意力机制替换为CBAM注意力机制,从空间和通道两个方面提升特征显著性,然后将目标检测网络中的卷积模块替换为改进后的MobileNet v3Block模块;再通过基于批归一化的剪枝方剔除重要性低的冗余通道,以进一步提升模型的轻量程度。本发明将渐进式引导蒸馏从图像分类任务扩展到目标检测任务,改进基于主干特征映射的知识蒸馏方法,通过教师网络提供先验知识,使用教师网络的中间表示特征作为提示辅助训练,以助教网络作为媒介平衡学生网络的检测精度和速度。

Description

结合渐进式引导蒸馏和结构重构的检测网络轻量化方法
技术领域
本发明属于目标探测与识别技术领域,涉及一种检测网络轻量化方法,具体涉及一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法。
背景技术
目标检测是计算机视觉中的一项核心任务,其目的是在图像或视频中自动识别并定位特定目标。随着深度学习技术的出现,目标检测算法的效率已经显著提高,并得到了广泛且深入的应用。然而,最先进的深度神经网络总是消耗大量的计算量和内存,这限制了它们在自动驾驶汽车、无人机等边缘设备上的部署。
现有的轻量化方法主要基于网络结构优化、模型剪枝量化、知识蒸馏等单一层面展开。2015年,Ioffe和Szegedy提出了批归一化方法,对神经网络中间层的输出进行标准化处理,使得中间层的输出更加稳定,学到的特征泛化性更强,并由此衍生了一部分高效的剪枝策略;2017年,Howard等人提出了基于深度可分离卷积的MobileNetV1,其通过拆分空间维度和通道维度的相关性,减少了卷积计算所需要的参数量;2015年,Hinton等人提出了知识蒸馏,将知识从一个复杂的深度神经网络中提取到轻量的网络中。由于学生网络在训练时模仿教师网络的逻辑或特征提取方式,因此可以在保证较少参数量的同时实现较高的准确性。2020年,S.I.Mirzadeh等人提出通过加入助教网络的方法,改进教师和学生之间参数相差较大的问题,并扩展到多部蒸馏,在目标分类任务上得到了较好的效果。知识蒸馏由于其简单、有效,已成为算法轻量化和提高模型精度的常用技术。
现有的网络结构重构、模型剪枝量化虽然可以剔除网络本身的冗余结构,但是会造成精度的损失。而知识蒸馏通过引入教师网络可以显著提升学生网络的精度,却缺乏对于学生网络选择的先验。故而现有的轻量化方法局限于应用结构重构、剪枝、蒸馏等单一方法,未能充分轻量化网络。
发明内容
针对基于深度神经网络的目标检测模型复杂度高、计算量大、难以部署在算力限制的移动端等问题,本发明提供了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法。该方法整合网络结构重构、模型剪枝、知识蒸馏等技术,以目标检测算法为基础展开通用的轻量化方法研究。
本发明的目的是通过以下技术方案实现的:
一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,包括如下步骤:
步骤1:将MobileNet v3 Block中的SE注意力机制替换为CBAM注意力机制,并采用改进后的MobileNet v3 Block结构重构原始检测网络中的卷积模块得到学生网络;
步骤2:基于批归一化的剪枝方法精简学生网络,引入批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性,根据缩放系数γ的大小来确定要剪枝的通道;
步骤3:选用原始检测网络作为教师网络,对参数相对较多、结构相对复杂的教师网络进行训练;
步骤4:调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络,引入教师网络提供先验知识,使用教师网络主干特征的映射作为提示帮助训练助教网络,再递归地使用参数量大的助教网络蒸馏参数量小的助教网络,直至蒸馏出最后一层助教网络的规模满足轻量化的需求;
步骤5:使用步骤4中最后一层助教网络的主干特征映射作为提示,对步骤1、步骤2精简后的学生网络进行蒸馏。
相比于现有技术,本发明具有如下优点:
(1)本发明提出一种通用的目标检测网络的轻量化方法,通过引入CBAM注意力机制的MobileNet V3 Block结构、基于批归一化的剪枝重构原始检测网络得到学生网络,最终通过基于主干特征映射的渐进式知识蒸馏对目标检测网络进行轻量化,具体实施过程可移植性较好,适用于大部分目标检测网络。
(2)本发明提出一种目标检测网络重构的方法,该方法包括基于改进后MobileNetv3 Block的网络重构、基于批归一化剪枝两部分。把MobileNet v3Block中的SE注意力机制替换为CBAM注意力机制,从空间和通道两个方面提升特征显著性,然后将目标检测网络中的卷积模块替换为改进后的MobileNet v3Block模块;再通过基于批归一化的剪枝方剔除重要性低的冗余通道,以进一步提升模型的轻量程度。
(3)本发明提出一种基于主干特征映射的渐进式知识蒸馏方法。基于主干特征映射的知识蒸馏改进技术由注意引导机制和非局部蒸馏法两部分构成,在目标检测任务中发挥了较好的效果,却无法调和教师网络与学生网络参数量相差较大时知识转移效果差的问题。本发明将渐进式引导蒸馏从图像分类任务扩展到目标检测任务,改进基于主干特征映射的知识蒸馏方法,通过教师网络提供先验知识,使用教师网络的中间表示特征作为提示辅助训练,以助教网络作为媒介平衡学生网络的检测精度和速度。
附图说明
图1为结合渐进式引导蒸馏和结构重构的轻量化方法整体流程图;
图2为引入CBAM注意力机制的MobileNet v3 Block结构;
图3为基于批归一化的通道剪枝示意图;
图4为基于主干特征映射的渐进式知识蒸馏结构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,通过网络结构重构、模型剪枝精简教师网络得到轻量化的学生网络,再通过知识蒸馏减少学生网络的精度损失,实现检测网络的轻量化。如图1所示,所述方法包括如下步骤:
步骤1:将MobileNet v3 Block中的SE注意力机制替换为CBAM注意力机制,并采用改进后的MobileNet v3 Block结构重构原始检测网络中的卷积模块得到学生网络。具体步骤如下:
步骤1-1:通过CBAM注意力机制改进MobileNet v3 Block,替换其中的SE注意力机制,改进后的具体结构如图2所示。具体步骤如下:
步骤1-1-1:引入CBAM注意力机制替换MobilNet v3 Block中的SE注意力机制,该结构首先通过一个1×1卷积层来进行升维处理,扩张输入特征层的通道数;再通过一个3×3深度可分离卷积进行特征提取;然后进入CBAM模块,利用通道注意力机制和空间注意力机制对输入特征图进行特征重构,得到最后的特征图;最后通过1×1卷积层来进行降维并输出。当步长等于1且输入和输出特征图的尺寸相同时,使用残差连接输入和输出;当步长等于2时(下采样阶段)直接输出降维后的特征图。原MobileNet v3 Block模块中的SE注意力机制只考虑了通道维度上的注意力,无法捕捉空间维度上的注意力,适用于通道数较多的场景,但对于通道数较少的情况表现较差。故而引入CBAM注意力机制替换SE注意力机制,CBAM注意力机制在空间和通道两个方面上对特征图进行关注,提高模型的泛化能力和性能,在只增加较少参数的情况下,获得较为明显的性能增益。
步骤1-1-2:在通道维度上应用注意力机制。设输入的特征图为C,H,W分别代表特征图的通道数目、高度和宽度。在通道维度上,首先同时经过一次平均池化和最大池化聚合特征图的空间信息,分别得到一维特征向量/>和/>然后两个一维特征向量进入共享网络,以生成通道注意特征图/>共享网络由多层感知器组成,为了减少参数开销,将隐藏的激活大小设置为/>其中Γ为还原比。在共享网络应用于每个一维特征向量之后,使两者求和并输出特征向量,具体公式如下:
式中,Sigmoid(·)为Sigmoid激活函数;AvePool(F)),Maxpool(F)分别代表平均池化和最大池化;
步骤1-1-3:在空间维度上应用注意机制。沿通道维度应用平均池化和最大池化操作分别得到特征图和/>分别表示平均池化特征和最大池化特征,并将它们拼接起来再使用7×7卷积操作得到空间注意特征图/>具体公式如下:
式中,Conv7×7代表7×7卷积操作。
步骤1-2:将原始检测网络中的卷积块替换为步骤1-1中引入CBAM注意力机制改进后的MobileNet v3 Block模块。
步骤2:基于批归一化的剪枝方法精简学生网络:引入批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性,根据缩放系数γ的大小来确定要剪枝的通道。具体步骤如下:
步骤2-1:利用批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性,绝对值越大,则通道的重要性越大。
步骤2-2:在损失函数中添加归一化层缩放因子的L1范数筛选出重要性低的通道,如公式所示:
式中,L为原损失函数,LS为修改后的损失函数,λ为用于调整L1范数的系数,本发明中默认设置为0.0001,这样可以鼓励模型学习稀疏的缩放系数,使得不重要的通道的缩放因子趋近于零,从而实现更稳定、高效的通道剪枝。
步骤2-3:根据缩放系数γ的大小来确定要剪枝的通道。按照缩放系数γ的绝对值大小对通道进行排序,按设定的比例选择重要性较低的一部分通道进行剪枝,本发明中默认比例为τ=30%,即删除30%的通道及其相关联的连接。其具体实现方法为删除卷积层中和该通道对应的卷积核,如图3所示。
步骤3:选用原始检测网络作为教师网络,对参数相对较多、结构相对复杂的教师网络进行训练。具体步骤如下:
步骤3-1:设定模块堆叠因子dm和卷积通道因子ωm分别调整检测网络的模块堆叠数目和每个网络单元的输出通道数,并设定原始检测网络dm=1,ωm=1。以dm=0.5,ωm=0.25为例,即表示模块堆叠数目缩小两倍,卷积通道数缩小四倍。模块堆叠数目和输出通道数的具体计算公式如下:
n'=max(1,round(n·dm))
式中,n表示原始检测网络的模块堆叠数目,n'表示修改后检测网络的模块堆叠数目,round()函数表示四舍五入取整。
式中,ci表示第i个原始检测网络单元的通道数,c′i表示修改后第i个检测网络单元的通道数,ceil()函数表示向上取整。
步骤3-2:设S=(i,j)表示dm=i,ωm=j的学生网络,T=(i,j)表示dm=i,ωm=j的教师网络,Z=(i,j)表示dm=i,ωm=j的助教网络。本发明默认采用“教师-三层助教-学生”的渐进式蒸馏模型,具体的渐进式蒸馏的具体路径及参数设置为:
T=(1,1)→Z=(0.875,0.875)→Z=(0.75,0.75)→Z=(0.625,0.625)→S=(0.5,0.5)。
步骤3-3:选用原始检测网络作为教师网络,利用数据样本及目标标注框对教师网络进行训练,得到一个参数量大但精度高的教师目标检测模型。
步骤4:调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络,引入教师网络提供先验知识,使用教师网络主干特征的映射作为提示帮助训练助教网络,再递归地使用参数量大的助教网络蒸馏参数量小的助教网络,直至蒸馏出最后一层助教网络的规模满足轻量化的需求。具体步骤如下:
步骤4-1:引入教师网络中基于主干特征的映射作为提示帮助训练助教网络,该部分由注意引导机制和非局部蒸馏两部分构成,具体步骤如下:
步骤4-1-1:量化主干网络提取的特征,并找到其映射。具体步骤如下:
步骤4-1-1-1:使用A∈RC,W,H来表示目标检测模型中的主干网络提取特征,其中C,H,W分别表示特征图的通道数、高度和宽度。
步骤4-1-1-2:空间注意图和通道注意图的生成等价于分别找到映射函数和/>这里的上标s和c被用来区分“空间”和“通道”。因为每个元素的绝对值功能意味着它的重要性,所以通过将整个通道维度的绝对值相加来构造/>通过将宽度和高度维度的绝对值相加来构造/>即:
式中,i,j,k分别表示A在高度、宽度和通道维度上的第i,j,k个切片。
步骤4-1-1-3:通过将教师和学生探测器的注意图相加,可以得到空间注意掩膜Ms和通道注意掩膜Mc,即:
式中,分别用来表示教师和其对应的学生;T是softmax中的一个超参数,用于调整注意掩膜中元素的分布。
步骤4-1-2:通过步骤4-1-1中的基于主干特征的映射设置注意引导蒸馏损失LAGD,注意引导蒸馏损失LAGD的具体计算方法如下:
注意引导蒸馏损失LAGD由注意转移损失LAT和注意掩膜损失LAM两个组成部分组成。利用LAT来鼓励学生模型模拟教师模型的空间和通道注意力,其表示为:
LAM被用来鼓励学生通过被Ms和Mc掩膜的L2范数损失来模拟教师模型的特征,其表示为:
步骤4-1-3:应用非局部蒸馏捕获图像中像素之间的关系,设置非蒸馏损失LNLD
捕获图像中像素之间的关系表示为:
式中,r表示所得到的关系信息;i′,j′是需要计算其响应的输出位置的空间索引;i″,j″是枚举所有可能位置的空间索引;f是逐点计算两个像素关系的函数;g是用于计算单个像素表示的一元函数。
设定非局部蒸馏损失LNLD为学生和教师关系信息之间的L2损失,其表示为:
式中,表示学生网络所得到的的关系信息;/>表示教师网络所得到的的关系信息。
步骤4-1-4:引入三个超参数α′,β′,γ′来平衡不同的蒸馏损失,结合步骤4-1-2、步骤4-1-3的损失函数组成总的蒸馏损失函数,应用其构成总的损失函数并训练目标检测模型。
总的蒸馏损失函数为:
式中,表示学生网络主干提取特征;/>表示教师网络主干提取特征。
总的损失函数为:
Ltotal=LS+LDistill
式中,LS表示步骤2-2中添加批归一化因子后的损失函数。
步骤4-2:按照步骤3-1中参数设置调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络。引入教师模型提供先验知识,使用步骤3及步骤4-1中教师网络主干特征的映射作为提示帮助训练助教网络,再递归地按照蒸馏路径使用助教网络蒸馏出其对应的学生网络,直至蒸馏出最后一层助教网络的规模满足轻量化的需求。蒸馏的整体框架如图4所示。
步骤5:使用步骤4中最后一层助教网络的主干特征映射作为提示,对步骤1、步骤2精简后的学生网络进行蒸馏。

Claims (8)

1.一种结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述方法包括如下步骤:
步骤1:将MobileNet v3 Block中的SE注意力机制替换为CBAM注意力机制,并采用改进后的MobileNet v3 Block结构重构原始检测网络中的卷积模块得到学生网络;
步骤2:基于批归一化的剪枝方法精简学生网络,引入批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性,根据缩放系数γ的大小来确定要剪枝的通道;
步骤3:选用原始检测网络作为教师网络,对参数较多、结构复杂的教师网络进行训练,具体步骤如下:
步骤3-1:设定模块堆叠因子dm和卷积通道因子ωm分别调整检测网络的模块堆叠数目和每个网络单元的输出通道数,并设定原始检测网络dm=1,ωm=1,模块堆叠数目和输出通道数的具体计算公式如下:
n'=max(1,round(n·dm))
式中,n表示原始检测网络的模块堆叠数目,n'表示修改后检测网络的模块堆叠数目,round()函数表示四舍五入取整;
式中,ci表示第i个原始检测网络单元的通道数,c′i表示修改后第i个检测网络单元的通道数,ceil()函数表示向上取整;
步骤3-2:设S=(i,j)表示dm=i,ωm=j的学生网络,T=(i,j)表示dm=i,ωm=j的教师网络,Z=(i,j)表示dm=i,ωm=j的助教网络,采用“教师-三层助教-学生”的渐进式蒸馏模型,渐进式蒸馏的具体路径及参数设置为:
T=(1,1)→Z=(0.875,0.875)→Z=(0.75,0.75)→Z=(0.625,0.625)→S=(0.5,0.5);
步骤3-3:选用原始检测网络作为教师网络,利用数据样本及目标标注框对教师网络进行训练,得到一个参数量大但精度高的教师目标检测模型;
步骤4:调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络,引入教师网络提供先验知识,使用教师网络主干特征的映射作为提示帮助训练助教网络,再递归地使用参数量大的助教网络蒸馏参数量小的助教网络,直至蒸馏出最后一层助教网络的规模满足轻量化的需求;
步骤5:使用步骤4中最后一层助教网络的主干特征映射作为提示,对步骤1、步骤2精简后的学生网络进行蒸馏。
2.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤1的具体步骤如下:
步骤1-1:通过CBAM注意力机制改进MobileNet v3 Block,替换其中的SE注意力机制,具体步骤如下:
步骤1-1-1:引入CBAM注意力机制替换MobilNet v3 Block中的SE注意力机制,该结构首先通过一个1×1卷积层来进行升维处理,扩张输入特征层的通道数;再通过一个3×3深度可分离卷积进行特征提取;然后进入CBAM模块,利用通道注意力机制和空间注意力机制对输入特征图进行特征重构,得到最后的特征图;最后通过1×1卷积层来进行降维并输出;
步骤1-1-2:在通道维度上应用注意力机制,设输入的特征图为C,H,W分别代表特征图的通道数目、高度和宽度,在通道维度上,首先同时经过一次平均池化和最大池化聚合特征图的空间信息,分别得到一维特征向量/>和/>然后两个一维特征向量进入共享网络,以生成通道注意特征图/>共享网络由多层感知器组成,为了减少参数开销,将隐藏的激活大小设置为/>其中Γ为还原比,在共享网络应用于每个一维特征向量之后,使两者求和并输出特征向量,具体公式如下:
式中,Sigmoid(·)为Sigmoid激活函数;AvePool(F)),Maxpool(F)分别代表平均池化和最大池化;
步骤1-1-3:在空间维度上应用注意机制,沿通道维度应用平均池化和最大池化操作分别得到特征图和/>分别表示平均池化特征和最大池化特征,并将它们拼接起来再使用7×7卷积操作得到空间注意特征图/>具体公式如下:
式中,Conv7×7代表7×7卷积操作;
步骤1-2:将原始检测网络中的卷积块替换为步骤1-1中引入CBAM注意力机制改进后的MobileNet v3 Block模块。
3.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤2的具体步骤如下:
步骤2-1:利用批归一化层的缩放系数γ代表卷积层输出的每个通道的重要性,绝对值越大,则通道的重要性越大;
步骤2-2:在损失函数中添加归一化层缩放因子的L1范数筛选出重要性低的通道,如公式所示:
式中,L为原损失函数,LS为修改后的损失函数,λ为用于调整L1范数的系数;
步骤2-3:按照缩放系数γ的绝对值大小对通道进行排序,按设定的比例选择重要性较低的一部分通道进行剪枝。
4.根据权利要求1所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤4的具体步骤如下:
步骤4-1:引入教师网络中基于主干特征的映射作为提示帮助训练助教网络,该部分由注意引导机制和非局部蒸馏两部分构成,具体步骤如下:
步骤4-1-1:量化主干网络提取的特征,并找到其映射;
步骤4-1-2:通过步骤4-1-1中的基于主干特征的映射设置注意引导蒸馏损失LAGD
步骤4-1-3:应用非局部蒸馏捕获图像中像素之间的关系,设置非蒸馏损失LNLD
步骤4-1-4:引入三个超参数α′,β′,γ′来平衡不同的蒸馏损失,结合步骤4-1-2、步骤4-1-3的损失函数组成总的蒸馏损失函数,应用其构成总的损失函数并训练目标检测模型;
步骤4-2:按照步骤3-1中参数设置调整原始检测网络中的模块堆叠数目和每个网络单元的输出通道数得到不同参数量的助教网络;引入教师模型提供先验知识,使用步骤3及步骤4-1中教师网络主干特征的映射作为提示帮助训练助教网络,再递归地按照蒸馏路径使用助教网络蒸馏出其对应的学生网络,直至蒸馏出最后一层助教网络的规模满足轻量化的需求。
5.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤4-1-1的具体步骤如下:
步骤4-1-1-1:使用A∈RC,W,H来表示目标检测模型中的主干网络提取特征,其中C,H,W分别表示特征图的通道数、高度和宽度;
步骤4-1-1-2:空间注意图和通道注意图的生成等价于分别找到映射函数和/>上标s和c被用来区分“空间”和“通道”,通过将整个通道维度的绝对值相加来构造/>通过将宽度和高度维度的绝对值相加来构造/>即:
式中,i,j,k分别表示A在高度、宽度和通道维度上的第i,j,k个切片;
步骤4-1-1-3:通过将教师和学生探测器的注意图相加,得到空间注意掩膜Ms和通道注意掩膜Mc,即:
式中,分别用来表示教师和其对应的学生;T是softmax中的一个超参数,用于调整注意掩膜中元素的分布。
6.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤4-1-2中,注意引导蒸馏损失LAGD的具体计算方法如下:
注意引导蒸馏损失LAGD由注意转移损失LAT和注意掩膜损失LAM两个组成部分组成,利用LAT来鼓励学生模型模拟教师模型的空间和通道注意力,其表示为:
LAM被用来鼓励学生通过被Ms和Mc掩膜的L2范数损失来模拟教师模型的特征,其表示为:
7.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤4-1-3中,捕获图像中像素之间的关系表示为:
式中,r表示所得到的关系信息;i′,j′是需要计算其响应的输出位置的空间索引;i″,j″是枚举所有可能位置的空间索引;f是逐点计算两个像素关系的函数;g是用于计算单个像素表示的一元函数;
设定非局部蒸馏损失LNLD为学生和教师关系信息之间的L2损失,其表示为:
式中,rS表示学生网络所得到的的关系信息;rT表示教师网络所得到的的关系信息。
8.根据权利要求4所述的结合渐进式引导蒸馏和结构重构的检测网络轻量化方法,其特征在于所述步骤4-1-4中,总的蒸馏损失函数为:
LDistill(AT,AS)=α′·LAT+β′·LAM+γ′·LNLD
式中,AS表示学生网络主干提取特征;AT表示教师网络主干提取特征;
总的损失函数为:
Ltotal=LS+LDistill
式中,LS表示添加批归一化因子后的损失函数。
CN202311574622.0A 2023-11-23 2023-11-23 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法 Active CN117557857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311574622.0A CN117557857B (zh) 2023-11-23 2023-11-23 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311574622.0A CN117557857B (zh) 2023-11-23 2023-11-23 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Publications (2)

Publication Number Publication Date
CN117557857A CN117557857A (zh) 2024-02-13
CN117557857B true CN117557857B (zh) 2024-06-04

Family

ID=89812364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311574622.0A Active CN117557857B (zh) 2023-11-23 2023-11-23 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Country Status (1)

Country Link
CN (1) CN117557857B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN112164054A (zh) * 2020-09-30 2021-01-01 交叉信息核心技术研究院(西安)有限公司 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
WO2021023202A1 (zh) * 2019-08-07 2021-02-11 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法
EP3876145A1 (en) * 2020-03-04 2021-09-08 Samsung Electronics Co., Ltd. Method and apparatus for action recognition
CN113516240A (zh) * 2021-06-23 2021-10-19 之江实验室 一种神经网络结构化渐进剪枝方法及系统
CN114037046A (zh) * 2021-09-27 2022-02-11 北京旷视科技有限公司 神经网络模型的蒸馏方法、装置及电子系统
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN115222950A (zh) * 2022-07-26 2022-10-21 西安工业大学 一种面向嵌入式平台的轻量化目标检测方法
CN116563645A (zh) * 2023-06-16 2023-08-08 浙江大学 联合迭代剪枝和知识蒸馏的面向目标检测的模型压缩方法
CN116844056A (zh) * 2023-07-21 2023-10-03 河北工业大学 结合自监督学习和知识蒸馏的sar目标检测方法
WO2023212997A1 (zh) * 2022-05-05 2023-11-09 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011570B (zh) * 2021-04-30 2023-04-07 电子科技大学 一种采用神经网络压缩系统的人脸表情识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021023202A1 (zh) * 2019-08-07 2021-02-11 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法、设备和可伸缩动态预测方法
EP3876145A1 (en) * 2020-03-04 2021-09-08 Samsung Electronics Co., Ltd. Method and apparatus for action recognition
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN112164054A (zh) * 2020-09-30 2021-01-01 交叉信息核心技术研究院(西安)有限公司 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
CN113516240A (zh) * 2021-06-23 2021-10-19 之江实验室 一种神经网络结构化渐进剪枝方法及系统
CN114037046A (zh) * 2021-09-27 2022-02-11 北京旷视科技有限公司 神经网络模型的蒸馏方法、装置及电子系统
CN114241282A (zh) * 2021-11-04 2022-03-25 河南工业大学 一种基于知识蒸馏的边缘设备场景识别方法及装置
WO2023212997A1 (zh) * 2022-05-05 2023-11-09 五邑大学 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN115222950A (zh) * 2022-07-26 2022-10-21 西安工业大学 一种面向嵌入式平台的轻量化目标检测方法
CN116563645A (zh) * 2023-06-16 2023-08-08 浙江大学 联合迭代剪枝和知识蒸馏的面向目标检测的模型压缩方法
CN116844056A (zh) * 2023-07-21 2023-10-03 河北工业大学 结合自监督学习和知识蒸馏的sar目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
.Bootstrapped TLS Authentication draft-friel-tls-eap-dpp-01.IETF .2020,全文. *
Adaptive Feature Fusion With Attention-Guided Small Target Detection in Remote Sensing Images;Tianjun Shi; Jinnan Gong; Jianming Hu; Xiyang Zhi; Guiyi Zhu; Binhuan Yuan; Yu Sun; Wei Zhang;IEEE Transactions on Geoscience and Remote Sensing;20231013(第61期);全文 *
O. Friel ; Cisco ; D. Harkins ; Hewlett-Packard Enterprise *
基于MobileNet与YOLOv3的轻量化卷积神经网络设计;邵伟平;王兴;曹昭睿;白帆;;计算机应用;20200710(S1);全文 *
基于深度特征蒸馏的人脸识别;葛仕明;赵胜伟;刘文瑜;李晨钰;;北京交通大学学报;20171215(06);全文 *
施天俊 ; 鲍广震 ; 王福海 ; 兰超飞 ; 巩晋南.一种适用于多场景的红外弱小目标检测跟踪算法.航空兵器.2019,全文. *

Also Published As

Publication number Publication date
CN117557857A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
CN113095251B (zh) 一种人体姿态估计方法及系统
CN112036447A (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN112163508A (zh) 一种基于真实场景的文字识别方法、系统及ocr终端
CN112488209A (zh) 一种基于半监督学习的增量式图片分类方法
WO2024108857A1 (zh) 一种基于深度学习的无人机场景下小目标检测的方法
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115410087A (zh) 一种基于改进YOLOv4的输电线路异物检测方法
CN115965819A (zh) 一种基于Transformer结构的轻量化害虫识别方法
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
CN117557857B (zh) 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法
CN114972851B (zh) 一种基于遥感影像的船只目标智能检测方法
CN113887536B (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法
CN110378880A (zh) 基于视觉的火化机燃烧时间计算方法
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN112183332A (zh) 一种基于迁移学习的牦牛脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant