CN115063663A - 一种基于知识蒸馏的目标检测压缩方法 - Google Patents

一种基于知识蒸馏的目标检测压缩方法 Download PDF

Info

Publication number
CN115063663A
CN115063663A CN202210633660.8A CN202210633660A CN115063663A CN 115063663 A CN115063663 A CN 115063663A CN 202210633660 A CN202210633660 A CN 202210633660A CN 115063663 A CN115063663 A CN 115063663A
Authority
CN
China
Prior art keywords
loss
distillation
target detection
images
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210633660.8A
Other languages
English (en)
Other versions
CN115063663B (zh
Inventor
秦臻
林俊杰
于菲
曹明生
丁熠
邓伏虎
赵洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210633660.8A priority Critical patent/CN115063663B/zh
Publication of CN115063663A publication Critical patent/CN115063663A/zh
Application granted granted Critical
Publication of CN115063663B publication Critical patent/CN115063663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于知识蒸馏的目标检测压缩方法,包括:S1、对所有图像进行放缩操作;S2、对图像进行预处理,然后将其进行拼接;S3、对教师网络进行训练,训练过程中,针对教师网络中的骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失进行加权;S4、训练后,冻结教师网络参数,然后再次将图像送入教师网络中获得输出;S5、将输出结果连同标签一起送入学生网络中,得到蒸馏损失和目标检测损失后进行反向传播,最小化损失函数得到最终蒸馏后的学生网络,即得到压缩后的目标检测模型。本发明可以有效提升检测的精度,并降低模型的参数量,从而更好地应用于算力更小的边缘设备,为社会带去更多科技的福利。

Description

一种基于知识蒸馏的目标检测压缩方法
技术领域
本发明涉及工业物联网技术领域,特别涉及一种基于知识蒸馏的目标检测压缩方法。
背景技术
近年来,随着ImageNet(用于视觉对象识别软件研究的大型可视化数据库)的出现以及GPU设备算力的增强,计算机视觉领域得到了极大的发展,尤其是以深度学习为代表的一系列卷积神经网络的出现更是极大的推动了该领域的进步。随着深度学习技术的不断发展,网络结构也朝着更深更宽的方向发展,这也间接导致了极大的计算和显存开销。
基于此,有人提出了模型压缩方法知识蒸馏。它是一种特殊的知识迁移方法,其主要思想是通过将较大模型的输出交由较小模型进行学习,通过模仿输出结果达到类似于知识传递的效果,因此这种方法也被称为教师学生网络。目前,知识蒸馏已经是一种极为有效的网络训练手段,它能够有效地提高模型精度,同时增强网络的泛化性能,避免计算和显存开销的增加。
然而,尽管目标检测有着广泛的应用场景,但在一些资源受限或边缘设备场景依然没法大规模的应用,例如个人手机、小型嵌入式设备等。因此,有必要针对现有的模型压缩方法进行改进,以便能够更好地适用于算力更小的边缘设备。
发明内容
本发明的目的在于提供一种基于知识蒸馏的目标检测压缩方法,可以有效提升检测的精度,并降低模型的参数量,从而更好地应用于算力更小的边缘设备,为社会带去更多科技的福利。
为实现上述目的,本发明采用的技术方案如下:
一种基于知识蒸馏的目标检测压缩方法,包括以下步骤:
步骤S1、对所有图像进行放缩操作,并确保图像缩小后比例与原始比例一致;
步骤S2、对图像进行预处理,然后将其进行拼接;
步骤S3、利用数据集中的图像及标签,结合随机梯度下降方法对教师网络进行训练,训练过程中,针对教师网络中的骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失进行加权,其中,骨干网络蒸馏损失中包含有全局特征权重、局部特征权重以及带权特征权重三个部分;
步骤S4、训练后,冻结教师网络参数,然后再次将图像送入教师网络中获得输出;
步骤S5、将输出结果连同标签一起送入学生网络中,得到蒸馏损失和目标检测损失后进行反向传播,最小化损失函数得到最终蒸馏后的学生网络,即得到压缩后的目标检测模型。
所述步骤S1具体为:将所有图像进行放缩操作,使其最长边不超过1333像素,最短边不低于800像素,在放缩的同时避免图片长宽比失真,确保图像缩小后比例与原始比例一致。
具体地,所述步骤S2包括以下步骤:
步骤S201、将图像随机翻转,翻转的概率控制在0.5;
步骤S202、对图像像素值进行正则化处理;
步骤S203、将放缩后的图像进行填充,使其横纵坐标的像素总数能被32整除;
步骤S204、将同批次的图像整体处理后,扩充第一维通道,在第一维通道上进行拼接。
进一步地,所述步骤S202中采用的正则化的计算公式为:
像素输出=(像素值-均值)/方差
其中,三通道的均值和方差分别是[123.675,116.28,103.53]及[58.395,57.12,57.375],该数值是由COCO训练集整体计算所得。
再进一步地,所述步骤S3中,训练的参数设置如下:
学习率为0.01,动量设为0.9,权重衰减设为0.0001,训练过程中采用线性暖启动策略,迭代数量设为500,在周期为8和11时对学习率进行减小,总共训练12个epoch;
检测头的分类损失采用focal loss,其中β参数为2,α参数为0.25;回归损失为一范数损失。
再进一步地,所述步骤S3中,随机梯度下降方法的损失函数为:
Figure BDA0003679723120000021
式中,loss(·)表示损失函数,xi表示标签的真实分布,yi表示模型的预测分布,n表示标签的数量,在分类任务中采用交叉熵表示,即:
Figure BDA0003679723120000022
回归任务中采用均方误差表示,即:
Figure BDA0003679723120000023
再进一步地,所述步骤S3中,蒸馏过程的激活函数为:
Figure BDA0003679723120000024
式中,zi为第i个节点的输出值,zj为第j个节点的输出值,T为蒸馏温度。
再进一步地,骨干网络蒸馏损失公式为:
Figure BDA0003679723120000031
式中,α=0.1,β=0.05,γ=1000,p(xi)表示真实概率分布,q(xi)表示模型预测的概率分布;
蒸馏的总体损失公式为:
lossdis=λ1lossbackbone_dis2lossneck_dis3losshead_dis
式中,lossbackbone_dis、lossneck_dis、losshead_dis分别代表骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失,λ1、λ2、λ3用于平衡各个蒸馏损失之间的权重,λ1=1,λ2=0.05,λ3=0.3。
再进一步地,所述步骤S3中,网络总体损失的计算公式为:
loss=lossdet+η·lossdis
Figure BDA0003679723120000032
式中,
Figure BDA0003679723120000033
是交叉熵损失函数,
Figure BDA0003679723120000034
是smooth L1函数,η表示蒸馏损失权重,λ是归一化权重,ti是一个向量,表示在RPN训练阶段,anchor相对于gt预测的偏移量,
Figure BDA0003679723120000035
是与ti维度相同的向量,表示在RPN训练阶段,anchor相对于gt实际的偏移量,pi为anchor预测为目标的概率,
Figure BDA0003679723120000036
有物体时为1,没有物体时为0,Ncls是总的anchor数量,Nreg是featuremap的size。
再进一步地,蒸馏损失权重调整策略的计算公式为:
Figure BDA0003679723120000037
式中,cur_iter表示当前训练的迭代次数;max_iter为超参数,表示蒸馏损失调整的最大迭代次数。
本发明的主要设计原理在于:使用Pytorch深度学习框架,引入注意力机制并采取新颖的蒸馏方式对不同种类的目标检测算法分别进行蒸馏,这种蒸馏方式采用了多尺度特征融合表征,可以解决蒸馏过程中特征不突出、无效蒸馏的问题,“多尺度特征融合蒸馏”整体框架如图1所示,“卷积块注意模块”注意力模块如图2所示。
具体地,本发明采用的蒸馏方式主要是通过教师网络的中间层特征生成通道及空间特征响应并得到对应特征掩码,学习教师网络中在输出具有较大响应的显著特征。同时,将知识回顾的方式应用于该算法中,通过不同层次特征之间的融合交互,提高网络的蒸馏效率。
并且,为了提高网络整体的蒸馏效率,在neck及检测头部分,该蒸馏方式采用了掩码引导的蒸馏方法,通过教师网络检测头的分类输出得到特征的重要性权重,利用该权重作为掩码的重要性依据分别对neck及检测头的输出进行蒸馏。
与现有技术相比,本发明具有以下有益效果:
(1)针对两阶段目标检测,本发明以ResNet50作为骨干网络的FasterRCNN网络,在经过ResNet101网络的蒸馏后,网络mAP整体相较于未蒸馏模块可以获得有效的提高(经验证,可提高1.3个百分点),尤其是在小目标的指标mAPs上,超过了教师网络0.3个百分点。同时,经过蒸馏后的学生网络精确度与教师网络相当,仅相差0.7个百分点,但FLOPs及Parameters指标却只有ResNet50作为骨干网络时的指标,大幅减少了模型的参数量。
(2)针对单阶段目标检测,本发明经过蒸馏后以ResNet50为骨干网络的RetinaNet算法相较于未蒸馏前的算法同样有显著的提升(经验证,各项指标平均上升了1.5个百分点),同教师网络相比也仅仅相差了0.3个百分点,并在精度少量降低的情况下,原本只能跑7.07帧的算法跑到了8.78帧,同时模型大小从56.74M降低至37.74M,不仅有效节约了模型计算需要占用的空间,而且计算效率也得到了较好的提高。
(3)针对无锚框算法FCOS,本发明经过蒸馏后的学生网络,经验证,其精确度超过了教师网络0.2个百分点,且mAP指标达到了39.3。在其他小指标中,mAPs和mAP75指标也都超过了教师网络,同时在相同骨干网络下,拥有最少的浮点计算次数和参数量,并且在FPS指标上首次超过了10。
综上,本发明通过使用Pytorch深度学习框架,引入注意力机制并采取新颖的蒸馏方式对不同种类的目标检测算法分别进行蒸馏,大幅提高了检测模型最终的准确性,并且降低了模型的参数量及提高了模型的计算效率,因此也更加适用于诸如个人手机、小型嵌入式设备等算力更小的边缘设备。
附图说明
图1为本发明采用的多尺度特征融合蒸馏整体框架示意图。
图2为本发明采用的卷积块注意模块注意力模块示意图。
图3为本发明-实施例的流程示意图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的实施包含但不限于以下实施例。
实施例
本实施例提供了一种基于知识蒸馏的目标检测压缩方法,旨在能够更好地适用于算力更小的边缘设备(如个人手机、小型嵌入式设备)。下面对本实施例的实施流程进行详细介绍。
如图3所示,首先,将所有图像进行放缩操作,使其最长边不超过1333像素,最短边不低于800像素,在放缩的同时避免图片长宽比失真,确保图像缩小后比例与原始比例一致。
放缩图像后,对图像进行预处理,在本实施例中,预处理的流程如下:
(1)将图像随机翻转,翻转的概率控制在0.5;
(2)对图像像素值进行正则化处理,正则化的计算公式为:
像素输出=(像素值-均值)/方差
其中,三通道的均值和方差分别是[123.675,116.28,103.53]及[58.395,57.12,57.375],该数值是由COCO训练集整体计算所得;
(3)将放缩后的图像进行填充,使其横纵坐标的像素总数能被32整除,此处理的目的在于方便后续网络进行下采样。
将同批次的图像整体处理后,扩充第一维通道,在第一维通道上进行拼接。本实施例中,设置的batch size为2,则两张图片的输出为(2,3,W,H)。接着,将批次大小设置为2,利用数据集中的图像及标签,结合随机梯度下降方法对教师网络进行训练,训练的基础参数设置如下:学习率为0.01,动量设为0.9,权重衰减设为0.0001,训练过程中采用线性暖启动策略,迭代数量设为500,在周期为8和11时对学习率进行减小,总共训练12个epoch。检测头的分类损失采用focal loss,其中β参数为2,α参数为0.25;回归损失为一范数损失。
除基础的训练参数外,还需要对不同的蒸馏损失进行加权,不同的蒸馏损失其重要程度有所不同,本实施例中总共包含有三大部分的蒸馏损失,分别是骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失,其中,骨干网络蒸馏损失中包含有全局特征权重、局部特征权重以及带权特征权重三个部分。
本实施例中,随机梯度下降方法的损失函数为:
Figure BDA0003679723120000051
式中,loss(·)表示损失函数,xi表示标签的真实分布,yi表示模型的预测分布,n表示标签的数量,在分类任务中采用交叉熵表示,即:
Figure BDA0003679723120000052
回归任务中采用均方误差表示,即:
Figure BDA0003679723120000061
蒸馏过程的激活函数为:
Figure BDA0003679723120000062
式中,zi为第i个节点的输出值,zj为第j个节点的输出值,T为蒸馏温度,如果T为1,则该广义softmax函数退化为一般的softmax函数,本实施例中的T=5。
骨干网络蒸馏损失公式为:
Figure BDA0003679723120000063
式中,α=0.1,β=0.05,γ=1000,p(xi)表示真实概率分布,q(xi)表示模型预测的概率分布;
蒸馏的总体损失公式为:
lossdis=λ1lossbackbone_dis2lossneck_dis3losshead_dis
式中,lossbackbone_dis、lossneck_dis、losshead_dis分别代表骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失,λ1、λ2、λ3用于平衡各个蒸馏损失之间的权重,λ1=1,λ2=0.05,λ3=0.3。
网络总体损失的计算公式为:
loss=lossdet+η·lossdis
Figure BDA0003679723120000064
式中,
Figure BDA0003679723120000065
是交叉熵损失函数,
Figure BDA0003679723120000066
是smooth L1函数,η表示蒸馏损失权重,λ是归一化权重,ti是一个向量,表示在RPN训练阶段,anchor相对于gt预测的偏移量,
Figure BDA0003679723120000067
是与ti维度相同的向量,表示在RPN训练阶段,anchor相对于gt实际的偏移量,pi为anchor预测为目标的概率,
Figure BDA0003679723120000068
有物体时为1,没有物体时为0,Ncls是总的anchor数量,Nreg是feature map的size。
在训练过程中,如果一开始就直接进行蒸馏容易导致网络不稳定产生梯度爆炸,因此训练过程中,蒸馏损失权重也会进行调整,本实施例采用的蒸馏损失权重调整策略的计算公式为:
Figure BDA0003679723120000069
式中,cur_iter表示当前训练的迭代次数;max_iter为超参数,表示蒸馏损失调整的最大迭代次数。本实施例中,当epoch为2时,开始蒸馏权重保持为1。
训练后,冻结教师网络参数,然后再次将图像送入教师网络中获得输出,并将输出结果连同标签一起送入学生网络中,得到蒸馏损失和目标检测损失后进行反向传播,最小化损失函数得到最终蒸馏后的学生网络,即得到压缩后的目标检测模型。
试验表明,采用本发明所设计的方案,不仅大幅提高了检测模型最终的准确性,而且降低了模型的参数量及提高了模型的计算效率,更加适用于诸如个人手机、小型嵌入式设备等算力更小的边缘设备。因此,与现有技术相比,本发明具有突出的实质性特点和显著的进步。
上述实施例仅为本发明的优选实施方式,不应当用于限制本发明的保护范围,凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识蒸馏的目标检测压缩方法,其特征在于,包括以下步骤:
步骤S1、对所有图像进行放缩操作,并确保图像缩小后比例与原始比例一致;
步骤S2、对图像进行预处理,然后将其进行拼接;
步骤S3、利用数据集中的图像及标签,结合随机梯度下降方法对教师网络进行训练,训练过程中,针对教师网络中的骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失进行加权,其中,骨干网络蒸馏损失中包含有全局特征权重、局部特征权重以及带权特征权重三个部分;
步骤S4、训练后,冻结教师网络参数,然后再次将图像送入教师网络中获得输出;
步骤S5、将输出结果连同标签一起送入学生网络中,得到蒸馏损失和目标检测损失后进行反向传播,最小化损失函数得到最终蒸馏后的学生网络,即得到压缩后的目标检测模型。
2.根据权利要求1所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S1具体为:将所有图像进行放缩操作,使其最长边不超过1333像素,最短边不低于800像素,在放缩的同时避免图片长宽比失真,确保图像缩小后比例与原始比例一致。
3.根据权利要求1所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S2包括以下步骤:
步骤S201、将图像随机翻转,翻转的概率控制在0.5;
步骤S202、对图像像素值进行正则化处理;
步骤S203、将放缩后的图像进行填充,使其横纵坐标的像素总数能被32整除;
步骤S204、将同批次的图像整体处理后,扩充第一维通道,在第一维通道上进行拼接。
4.根据权利要求3所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S202中采用的正则化的计算公式为:
像素输出=(像素值-均值)/方差
其中,三通道的均值和方差分别是[123.675,116.28,103.53]及[58.395,57.12,57.375],该数值是由COCO训练集整体计算所得。
5.根据权利要求1~4任一项所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S3中,训练的参数设置如下:
学习率为0.01,动量设为0.9,权重衰减设为0.0001,训练过程中采用线性暖启动策略,迭代数量设为500,在周期为8和11时对学习率进行减小,总共训练12个epoch;
检测头的分类损失采用focal loss,其中β参数为2,α参数为0.25;回归损失为一范数损失。
6.根据权利要求5所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S3中,随机梯度下降方法的损失函数为:
Figure FDA0003679723110000021
式中,loss(·)表示损失函数,xi表示标签的真实分布,yi表示模型的预测分布,n表示标签的数量,在分类任务中采用交叉熵表示,即:
Figure FDA0003679723110000022
回归任务中采用均方误差表示,即:
Figure FDA0003679723110000023
7.根据权利要求6所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S3中,蒸馏过程的激活函数为:
Figure FDA0003679723110000024
式中,zi为第i个节点的输出值,zj为第j个节点的输出值,T为蒸馏温度。
8.根据权利要求7所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S3中,骨干网络蒸馏损失公式为:
Figure FDA0003679723110000025
式中,α=0.1,β=0.05,γ=1000,p(xi)表示真实概率分布,q(xi)表示模型预测的概率分布;
蒸馏的总体损失公式为:
lossdis=λ1lossbackbone_dis2lossneck_dis3losshead_dis
式中,lossbackbone_dis、lossneck_dis、losshead_dis分别代表骨干网络蒸馏损失、neck部分蒸馏损失以及检测头蒸馏损失,λ1、λ2、λ3用于平衡各个蒸馏损失之间的权重,λ1=1,λ2=0.05,λ3=0.3。
9.根据权利要求8所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,所述步骤S3中,网络总体损失的计算公式为:
loss=lossdet+η·lossdis
Figure FDA0003679723110000026
式中,
Figure FDA0003679723110000031
是交叉熵损失函数,
Figure FDA0003679723110000032
是smooth L1函数,η表示蒸馏损失权重,λ是归一化权重,ti是一个向量,表示在RPN训练阶段,anchor相对于gt预测的偏移量,
Figure FDA0003679723110000033
是与ti维度相同的向量,表示在RPN训练阶段,anchor相对于gt实际的偏移量,pi为anchor预测为目标的概率,
Figure FDA0003679723110000034
有物体时为1,没有物体时为0,Ncls是总的anchor数量,Nreg是featuremap的size。
10.根据权利要求9所述的一种基于知识蒸馏的目标检测压缩方法,其特征在于,蒸馏损失权重调整策略的计算公式为:
Figure FDA0003679723110000035
式中,cur_iter表示当前训练的迭代次数;max_iter为超参数,表示蒸馏损失调整的最大迭代次数。
CN202210633660.8A 2022-06-06 2022-06-06 一种基于知识蒸馏的目标检测压缩方法 Active CN115063663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210633660.8A CN115063663B (zh) 2022-06-06 2022-06-06 一种基于知识蒸馏的目标检测压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210633660.8A CN115063663B (zh) 2022-06-06 2022-06-06 一种基于知识蒸馏的目标检测压缩方法

Publications (2)

Publication Number Publication Date
CN115063663A true CN115063663A (zh) 2022-09-16
CN115063663B CN115063663B (zh) 2024-04-26

Family

ID=83200511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210633660.8A Active CN115063663B (zh) 2022-06-06 2022-06-06 一种基于知识蒸馏的目标检测压缩方法

Country Status (1)

Country Link
CN (1) CN115063663B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223049A (zh) * 2022-09-20 2022-10-21 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术
CN115661597A (zh) * 2022-10-28 2023-01-31 电子科技大学 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法
CN116612379A (zh) * 2023-05-30 2023-08-18 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293903A1 (en) * 2019-03-13 2020-09-17 Cortica Ltd. Method for object detection using knowledge distillation
CN113658173A (zh) * 2021-08-31 2021-11-16 北京华文众合科技有限公司 基于知识蒸馏的检测模型的压缩方法、系统和计算设备
CN113743514A (zh) * 2021-09-08 2021-12-03 庆阳瑞华能源有限公司 一种基于知识蒸馏的目标检测方法及目标检测终端
CN114219984A (zh) * 2021-12-14 2022-03-22 华南农业大学 一种基于改进YOLOv3的微小病虫害检测系统及其方法
CN114283325A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种基于知识蒸馏的水下目标识别方法
CN114332482A (zh) * 2022-01-04 2022-04-12 电子科技大学 一种基于特征融合的轻量化目标检测方法
CN114529819A (zh) * 2022-02-23 2022-05-24 合肥学院 一种基于知识蒸馏学习的生活垃圾图像识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293903A1 (en) * 2019-03-13 2020-09-17 Cortica Ltd. Method for object detection using knowledge distillation
CN113658173A (zh) * 2021-08-31 2021-11-16 北京华文众合科技有限公司 基于知识蒸馏的检测模型的压缩方法、系统和计算设备
CN113743514A (zh) * 2021-09-08 2021-12-03 庆阳瑞华能源有限公司 一种基于知识蒸馏的目标检测方法及目标检测终端
CN114219984A (zh) * 2021-12-14 2022-03-22 华南农业大学 一种基于改进YOLOv3的微小病虫害检测系统及其方法
CN114283325A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种基于知识蒸馏的水下目标识别方法
CN114332482A (zh) * 2022-01-04 2022-04-12 电子科技大学 一种基于特征融合的轻量化目标检测方法
CN114529819A (zh) * 2022-02-23 2022-05-24 合肥学院 一种基于知识蒸馏学习的生活垃圾图像识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JANGHO KIM等: "Feature Fusion for Online Mutual Knowledge Distillation", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》, 5 May 2021 (2021-05-05) *
张彤彤;董军宇;赵浩然;李琼;孙鑫;: "基于知识蒸馏的轻量型浮游植物检测网络", 应用科学学报, no. 03, 30 May 2020 (2020-05-30) *
李玉成: "基于知识蒸馏的目标检测算法压缩技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2023 (2023-01-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223049A (zh) * 2022-09-20 2022-10-21 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化技术
CN115223049B (zh) * 2022-09-20 2022-12-13 山东大学 面向电力场景边缘计算大模型压缩的知识蒸馏与量化方法
CN115661597A (zh) * 2022-10-28 2023-01-31 电子科技大学 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法
CN115661597B (zh) * 2022-10-28 2023-08-15 电子科技大学 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法
CN116612379A (zh) * 2023-05-30 2023-08-18 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统
CN116612379B (zh) * 2023-05-30 2024-02-02 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统

Also Published As

Publication number Publication date
CN115063663B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN115063663A (zh) 一种基于知识蒸馏的目标检测压缩方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN111428606A (zh) 一种面向边缘计算的轻量级人脸对比验证方法
JP7150840B2 (ja) ビデオ要約生成方法及び装置、電子機器並びにコンピュータ記憶媒体
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN112307982A (zh) 基于交错增强注意力网络的人体行为识别方法
CN111832393A (zh) 一种基于深度学习的视频目标检测方法与装置
WO2023035904A1 (zh) 视频时序动作提名生成方法及系统
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN116168197A (zh) 一种基于Transformer分割网络和正则化训练的图像分割方法
CN115797835A (zh) 一种基于异构Transformer的无监督视频目标分割算法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及系统
CN110717068B (zh) 一种基于深度学习的视频检索方法
US20230409899A1 (en) Computer vision neural networks with learned tokenization
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
CN114299193B (zh) 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质
CN114743138A (zh) 基于3D SE-Densenet网络的视频暴力行为识别模型
CN110110589A (zh) 基于fpga并行计算的人脸分类方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Herruzo et al. Recurrent autoencoder with skip connections and exogenous variables for traffic forecasting
CN112434615A (zh) 一种基于Tensorflow深度学习框架的时序动作检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant