CN117974988B - 一种轻量化目标检测方法、装置、计算机程序产品 - Google Patents
一种轻量化目标检测方法、装置、计算机程序产品 Download PDFInfo
- Publication number
- CN117974988B CN117974988B CN202410362634.5A CN202410362634A CN117974988B CN 117974988 B CN117974988 B CN 117974988B CN 202410362634 A CN202410362634 A CN 202410362634A CN 117974988 B CN117974988 B CN 117974988B
- Authority
- CN
- China
- Prior art keywords
- feature map
- representing
- distillation
- teacher
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000004590 computer program Methods 0.000 title claims abstract description 19
- 238000004821 distillation Methods 0.000 claims abstract description 166
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 58
- 238000013140 knowledge distillation Methods 0.000 claims description 43
- 238000010586 diagram Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000006978 adaptation Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 101150064138 MAP1 gene Proteins 0.000 claims description 3
- 101150077939 mapA gene Proteins 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 4
- 230000001502 supplementing effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种轻量化目标检测方法、装置、计算机程序产品,包括:对图像数据进行增强处理,得到增强后的图像数据;利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图;利用区域候选网络分别处理教师特征图和学生特征图,通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框;根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息。本发明能够实现高精度、高效的轻量化目标检测需求,提高嵌入式设备下目标检测的精确性和泛用性。
Description
技术领域
本发明涉及一种轻量化目标检测方法、装置、计算机程序产品,属于目标检测技术领域。
背景技术
目标检测是计算机视觉中的一个基础任务,图像分割、物体追踪等都要依赖目标检测。随着基于深度学习的目标检测技术的出现,卷积神经网络的应用使得目标检测的效果大大提升。为了获得更好的性能,通常使用更大的主干,这需要更多的计算资源并且推理速度更慢。当目标检测技术运用到无人机航拍技术、医学影像病灶检测等领域时,往往需要将目标检测模型部署在算力小、电池容量小的嵌入式设备中,这时候传统的目标检测方法因其高耗电量、高算力要求、较慢推理速度等而不再适用,为了克服这些缺点,在有限的推理时间内实现强大的目标检测性能,需要对目标检测模型进行轻量化,以便适用目标检测模型部署到嵌入式设备的应用场景。
知识蒸馏是一种将大型教师网络中的信息集成到一个紧凑的学生网络中,并在推理过程中不增加额外成本而获得强大性能的方法。主要分为逻辑蒸馏和特征蒸馏,前者是直接匹配网络输出的概率分布,后者是直接匹配中间的特征或者学习特征之间的转换关系。知识蒸馏技术能够完成目标检测的轻量化工作,但是大多数蒸馏方法都是为了分类问题设计的,这导致了知识蒸馏对目标检测的效果不佳。
逻辑蒸馏方面,为了适应目标检测的需求,除了对基本的分类结果蒸馏之外,同时对包围框知识进行蒸馏,基于逻辑蒸馏的方法虽然降低了蒸馏本身的时间损耗,但是蒸馏效果相较特征蒸馏还是较差,导致目标检测的准确性较低。特征蒸馏对知识提取的区域进行了探究,对前景点蕴含的知识和背景点蕴含的知识区分蒸馏,两者都达成了较好的结果,但是基于特征蒸馏的方法在引入额外的运算代价的同时,没有使用最高语义水平的知识,蒸馏的效率较低。
如何更好的混合逻辑蒸馏和特征蒸馏的优点,实现高准确度、高效的轻量化目标检测需求,是接下来的研究重点。
发明内容
本发明的目的是提供一种轻量化目标检测方法、装置、计算机程序产品,通过损失函数设计提高目标检测过程中知识蒸馏的蒸馏效果和效率,以提高嵌入式设备下的目标检测的精确性和泛用性。
为达到上述目的,本发明是采用下述技术方案实现的。
第一方面,本发明提供一种轻量化目标检测方法,包括如下步骤:
对图像数据进行增强处理,得到增强后的图像数据;
利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图;
通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框;
根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息。
结合第一方面,进一步的,所述增强处理包括:
将图像数据按照随机值绕z轴旋转,随机值的取值范围为[-π/4,π/4];
将图像数据按照随机因子进行缩放,随机因子的取值范围为[0.95,1.05]。
结合第一方面,进一步的,所述教师网络的骨干网络采用101层残差网络,所述学生网络的骨干网络采用50层残差网络。
结合第一方面,进一步的,对所述教师特征图和学生特征图进行焦点蒸馏,包括:
利用区域候选网络对教师特征图进行处理,得到教师候选框;
基于教师候选框对教师特征图进行掩码处理,得到教师特征图的二分类掩码和比例掩码;
通过注意力机制对教师特征图和学生特征图进行焦点蒸馏,得到每一幅特征图对应的注意力特征图及其注意力掩码;
根据教师特征图对应的二分类掩码、比例掩码、通道注意力掩码和空间注意力掩码计算特征蒸馏损失,计算公式如下:
;
其中,表示特征蒸馏损失,/>、/>分别为平衡前景和背景作用的超参数,C表示通道总数,H为特征图的高度,W为特征图的宽度,/>表示教师特征图中像素点/>的二分类掩码,/>表示教师特征图中像素点/>的比例掩码,/>表示教师特征图中像素点的空间注意力掩码,/>表示教师特征图中k通道的通道注意力掩码,/>表示教师特征图中像素点/>的值,/>表示学生特征图中像素点/>的值,f( )表示自适应层;
根据教师特征图和学生特征图的通道注意力掩码和空间注意力掩码计算注意力损失,计算公式如下:
;
其中,表示注意力损失,/>为平衡注意力损失的超参数,/>表示L1损失函数,/>表示教师特征图对应的空间注意力掩码,/>表示学生特征图对应的空间注意力掩码,/>表示教师特征图对应的通道注意力掩码,/>表示学生特征图对应的通道注意力掩码;
根据特征蒸馏损失和注意力损失计算焦点蒸馏损失,计算公式如下:
;
其中,表示焦点蒸馏损失。
结合第一方面,进一步的,针对特征图F,其对应的注意力特征图的计算公式如下:
;
;
;
;
其中,表示空间注意力特征图,/>表示k通道的特征图,/>表示通道特征的平均池化结果,/>为特征图中像素点(i,j)的值,/>表示通道特征的标准差,表示通道注意力特征图,w( )表示一个全连接层;
注意力掩码的计算公式如下:
;
;
其中,表示空间注意力特征图对应的空间注意力掩码,/>表示通道注意力特征图对应的通道注意力掩码。
结合第一方面,进一步的,通过GcBlock网络对教师特征图和学生特征图进行全局蒸馏,并计算全局蒸馏损失,计算公式如下:
;
其中,表示全局蒸馏损失,/>为平衡全局损失的超参数,/>表示教师特征图经GcBlock网络后的输出结果,/>表示学生特征图经GcBlock网络后的输出结果;
其中,特征图F经GcBlock网络的输出结果的计算公式为:
;
其中,表示GcBlock网络的第一卷积层,/>表示GcBlock网络的第二卷积层,表示归一化,/>表示GcBlock网络的上下文模型卷积层,C表示通道总数,H为特征图的高度,W为特征图的宽度,/>为特征图中像素点(i,j)的值,/>为激活函数。
结合第一方面,进一步的,所述根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,包括:
将学生特征图对应的候选框按照比例映射到学生特征图,将映射后的学生特征图通过感兴趣区域池化到统一尺寸,将池化后的学生特征图分别送到分类卷积网络和定位卷积网络中,生成目标分类概率和目标预测框定位信息。
结合第一方面,进一步的,所述检测方法还包括根据目标检测结果进行逻辑蒸馏,具体为:
根据待检测的图像数据的目标分类概率分离目标类和非目标类的蒸馏,得到:
;
;
;
其中,表示目标属于第t类的概率,/>表示第t类的逻辑输出,/>表示第d类的逻辑输出,d=1,2,…,D,D为目标类别总数,/>表示目标不属于第t类的概率,/>表示第b类的逻辑输出,/>表示不考虑第t类的目标属于第l类的概率,/>表示第l类的逻辑输出,l≠t;
基于KL散度的计算公式、和/>构建逻辑蒸馏的损失函数,得到目标类知识蒸馏和非目标类知识蒸馏,公式如下:
;
;
其中,为逻辑蒸馏的损失函数,/>表示教师网络下目标属于第t类的概率,/>表示学生网络下目标属于第t类的概率,/>表示教师网络下目标不属于第t类的概率,/>表示学生网络下目标不属于第t类的概率,/>表示教师网络下不考虑第t类的目标属于第l类的概率,/>表示学生网络下不考虑第t类的目标属于第l类的概率,/>表示目标类的教师网络与学生网络的二元概率之间的相似性,/>表示教师网络的目标分类二元概率,/>表示学生网络的目标分类二元概率,/>表示非目标类中教师网络和学生网络概率之间的相似性;
将作为目标类知识蒸馏,将/>作为非目标类知识蒸馏;
基于目标类知识蒸馏、非目标类知识蒸馏、焦点蒸馏损失和全局蒸馏损失,得到最终的逻辑蒸馏损失:
;
其中,表示逻辑蒸馏损失,/>表示未进行知识蒸馏的学生网络的原始损失,/>为非目标类知识蒸馏,/>为目标类知识蒸馏,/>、/>分别为控制目标类知识蒸馏和非目标类知识蒸馏权重的超参数。
第二方面,本发明提供一种轻量化目标检测装置,包括:
数据增强模块,用于对图像数据进行增强处理,得到增强后的图像数据;
特征提取模块,用于利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图;
特征蒸馏模块,用于利用区域候选网络分别处理教师特征图和学生特征图,通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框;
目标检测模块,用于根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息。
结合第二方面,进一步的,所述检测装置还包括逻辑蒸馏模块,用于根据目标检测结果进行逻辑蒸馏。
第三方面,本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面的轻量化目标检测方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提出了一种轻量化目标检测方法、装置、计算机程序产品,通过知识蒸馏方法实现轻量化目标检测,能够在保证高检测精度的同时保证网络体量小,满足了将目标检测移植到嵌入式设备的实际需求。在知识蒸馏过程中,本发明提出了一种焦点蒸馏和全局蒸馏相互补充的特征蒸馏方法,改进了通道注意力计算的方式,一定程度上引导了空间注意力图的生成,对学生网络需要学习的焦点区域的定位更为准确,通过全局蒸馏补充全局关系信息,提高学生网络的学习效果。本发明对蒸馏损失进行改进,能够迫使学生网络更快速、准确的学习教师网络的知识,实现高精度、高效的轻量化目标检测需求,提高嵌入式设备下目标检测的精确性和泛用性。
附图说明
图1所示为本发明一种轻量化目标检测方法的步骤示意图;
图2所示为本发明一种轻量化目标检测方法的流程示意图;
图3所示为本发明实施例中焦点蒸馏和全局蒸馏的流程示意图;
图4所示为本发明实施例中逻辑蒸馏的流程示意图;
图5所示为本发明实施例中在KITTI数据集上利用不同算法进行目标检测的仿真结果示意图;
图6所示为本发明一种轻量化目标检测装置的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细地说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例1
本实施例介绍一种轻量化目标检测方法,如图1、图2所示,包括如下步骤:
步骤A、获取待检测的图像数据,并对图像数据进行增强处理,使其适配知识蒸馏的网络模型,保证轻量化目标检测的鲁棒性。
在本发明实施例中,数据增强策略包括场景级增强策略和对象级增强策略,具体的:将图像数据按照随机值绕点云三维坐标系的z轴旋转,随机值的取值范围为[-π/4,π/4];将图像数据按照随机因子进行缩放,随机因子的取值范围为[0.95,1.05];对图像数据添加高斯噪声,使得训练之后模型对图像中微小变化更鲁棒。
步骤B、利用教师网络和学生网络分别对增强后的图像数据进行特征提取,得到教师网络和学生网络输出的特征图,为了便于区分,分别称为教师特征图和学生特征图。
在本发明实施例中,使用50层残差网络作为学生网络的骨干网络,使用101层残差网络作为教师网络的骨干网络,将增强后的图像数据分别输入学生网络和教师网络,通过骨干网络提取出特征图,作为后面步骤的输入。
步骤C、通过特征蒸馏针对教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,令学生网络学习教师网络的特征图表示,进而得到学生特征图对应的候选框。
在这里会进行教师网络和学生网络的特征蒸馏工作,以达到轻量化目的的同时使得蒸馏方案有高泛用性。
步骤C01、本发明使用区域候选网络对教师特征图进行处理,得到教师网络特征图对应的候选框,为了便于区分,称为教师候选框。通过判断教师候选框中是前景部分还是背景部分,得到教师特征图的二分类掩码和比例掩码。
蒸馏的目标是为了能够获得背景和前景的关系,并且让学生网络学习教师网络对前景特征的特征图,为此本发明将前景和背景赋予不同的掩码,具体的,将特征图中在真实标注框里的像素点的掩码设为1,之外的设为0,得到二分类掩码,公式如下:
(1)
其中,表示特征图中像素点/>所属的二分类掩码,/>为该像素点在特征图中的水平坐标,/>为该像素点在特征图中的垂直坐标,r为真实标注框的区域。
为了应对相同种类图像像素大小不同的问题,本发明对前景进行归一化处理,得到比例掩码,公式如下:
(2)
其中,表示特征图中像素点/>所属的比例掩码,/>为真实标注框的高度,为真实标注框的宽度,H为特征图的高度,W为特征图的宽度。
如果一个像素属于不同的目标,则按照最小目标的计算其比例掩码。
步骤C02、通过注意力机制对教师特征图和学生特征图进行焦点蒸馏,得到每一幅特征图对应的注意力特征图及其注意力掩码。
关注关键像素和通道有助于基于卷积神经网络的模型获得更好的结果,因此本发明在特征蒸馏上聚焦教师网络的焦点像素和通道,如图3所示,通过注意力机制的方式确定焦点像素和通道,在全局平均池化的同时进行标准差的计算,将两者合并起来作为通道的信息矩阵,接入全连接层,捕获了通道之间的依赖关系。
在本发明实施例中,针对教师特征图或学生特征图,其对应的注意力特征图的计算公式如下:
(3)
(4)
(5)
(6)
其中,表示空间注意力特征图,F表示特征图,F既可以是教师特征图也可以是学生特征图,C表示通道总数,/>表示k通道的特征图,k=1,2,…,C,/>表示通道特征的平均池化结果,/>为特征图中像素点(i,j)的值,/>表示通道特征的标准差,表示通道注意力特征图,w( )表示一个全连接层。
根据注意力特征图计算注意力掩码,计算公式如下:
(7)
(8)
其中,表示空间注意力特征图对应的空间注意力掩码,/>表示通道注意力特征图对应的通道注意力掩码。
步骤C03、由于学生网络和教师网络之间的掩码差异很大,所以在训练的过程中需要使用教师的掩码来引导学生训练。本发明根据教师特征图对应的前景背景的二分类掩码、像素归一化的比例掩码、通道注意力掩码和空间注意力掩码计算特征蒸馏损失,通过特征蒸馏损失帮助学生网络学习教师网络的前景表示,其中,特征蒸馏损失的计算公式如下:
(9)
其中,表示特征蒸馏损失,/>、/>分别为平衡前景和背景作用的超参数,/>表示教师特征图中像素点/>的二分类掩码,/>表示教师特征图中像素点/>的比例掩码,表示教师特征图中像素点/>的空间注意力掩码,/>表示教师特征图中k通道的通道注意力掩码,/>表示教师特征图中像素点/>的值,/>表示学生特征图中像素点/>的值,f( )表示自适应层,用于将学生特征图转化成与教师特征图相同的维度。
步骤C04、为了进一步提高学生网络的学习能力,本发明使用注意力损失来迫使学生网络模仿教师网络的通道和时间注意力掩码,注意力损失的计算公式如下:
(10)
其中,表示注意力损失,/>为平衡注意力损失的超参数,/>表示L1损失函数,/>表示教师特征图对应的空间注意力掩码,/>表示学生特征图对应的空间注意力掩码,/>和/>可通过公式(7)计算得到,/>表示教师特征图对应的通道注意力掩码,/>表示学生特征图对应的通道注意力掩码,/>和可通过公式(8)计算得到。
步骤C05、根据特征蒸馏损失和注意力损失计算焦点蒸馏损失,计算公式如下:
(11)
其中,表示焦点蒸馏损失。
焦点蒸馏损失能够体现出不同像素之间的关系,具有宝贵的知识,可以用于提高检测的任务的性能。
步骤C06、通过GcBlock网络对教师特征图和学生特征图进行全局蒸馏,捕获图像中的全局关系信息,并计算全局蒸馏损失。
焦点蒸馏使用前景背景掩码等手段分离图像,使学生网络在学习的过程中将注意力放在焦点区域。但是,焦点蒸馏方式切断了图像前景与背景之间的关系,因此本发明需要在焦点蒸馏之后补充进行全局蒸馏,以学习图像前景和背景之间的关系。如图3所示,使用GcBlock在特征图中捕获全局关系信息,并且使用瓶颈变换来减少全局上下文特征中的冗余,最后迫使学生检测器从教师网络中学习关系。
全局蒸馏损失的计算公式如下:
(12)
其中,表示全局蒸馏损失,/>为平衡全局损失的超参数,/>表示教师特征图经GcBlock网络后的输出结果,/>表示学生特征图经GcBlock网络后的输出结果。
在本发明实施例中,特征图F经GcBlock网络的输出结果的计算公式为:
(13)
其中,表示GcBlock网络的第一卷积层,/>表示GcBlock网络的第二卷积层,表示归一化,/>表示GcBlock网络的上下文模型卷积层,为全局注意力池的权重,/>为激活函数。
步骤C06、通过融合焦点蒸馏损失和全局蒸馏损失,令学生网络充分学习教师网络的知识,优化学生特征图,进而通过区域候选网络输出学生网络特征图对应的候选框。
步骤D、将学生特征图对应的候选框按照比例(候选框大小)映射到学生特征图,将映射后的学生特征图通过感兴趣区域池化到统一尺寸,将池化后的学生特征图分别送到分类卷积网络和定位卷积网络中,生成目标检测结果,其中,目标检测结果包括目标分类概率和目标预测框定位信息。
本发明采用现有的分类卷积网络和定位卷积网络,在此不予赘述。
步骤E、由于特征蒸馏在各种任务上都具有优越性,因此逻辑蒸馏的研究很少,然而完全基于特征的蒸馏方式的训练成本并不好,因为在训练阶段引入了额外的网络模块和其他复杂操作来提取学生网络需要学习的深层特征,为了进一步加速学生网络的前期收敛,并且补充学生网络对困难样本的识别能力,本发明在每一次目标检测后,根据目标检测结果进行逻辑蒸馏。
如图4所示,本发明将基本的逻辑蒸馏分为目标类知识蒸馏、非目标类知识蒸馏,具体操作如下:
步骤E01、分类卷积网络通过一个全连接层获取到一些软标签,称为逻辑输出,然后在逻辑输出的基础上通过softmax(归一化指数函数)层获取最后的目标分类概率,因此,本发明根据待检测的图像数据的目标分类概率分离目标类和非目标类的蒸馏,得到:
(14)
(15)
(16)
其中,表示目标属于第t类的概率,/>表示第t类的逻辑输出,/>表示第d类的逻辑输出,d=1,2,…,D,D为目标类别总数,/>表示目标不属于第t类的概率,/>表示第b类的逻辑输出,/>表示不考虑第t类的目标属于第l类的概率,/>表示第l类的逻辑输出,l≠t。
步骤E02、经典知识蒸馏使用KL散度计算损失,其计算公式如下:
(17)
本发明基于KL散度和步骤E01推导出的和/>去表示蒸馏损失,将/>和/>代入公式(17)可得:
(18)
令=/>,已知/>,因此结合公式(17)和公式(18),可以简化得到:
(19)
其中,为逻辑蒸馏的损失函数,/>表示目标类中教师网络与学生网络的概率的相似性,/>表示教师网络的目标分类概率,/>表示学生网络的目标分类概率,表示教师网络下目标属于第t类的概率,/>表示学生网络下目标属于第t类的概率,/>表示教师网络下目标不属于第t类的概率,/>表示学生网络下目标不属于第t类的概率,表示教师网络下不考虑第t类的目标属于第l类的概率,/>表示学生网络下不考虑第t类的目标属于第l类的概率,/>表示教师网络的目标分类二元概率,/>表示学生网络的目标分类二元概率,/>表示目标类的教师网络与学生网络的二元概率之间的相似性,在本发明实施例中将/>称为目标类知识蒸馏,/>表示非目标类中教师网络和学生网络概率之间的相似性,在本发明实施例中将/>称为非目标类知识蒸馏。
目标类知识蒸馏传递的是关于样本的难度的暗知识,而非目标类知识蒸馏传递的暗知识是更想获得的软目标蕴含的暗知识。
步骤E03、基于目标类知识蒸馏、非目标类知识蒸馏、以及步骤C得到的焦点蒸馏损失和全局蒸馏损失,得到最终的逻辑蒸馏损失:
(20)
其中,表示逻辑蒸馏损失,/>表示未进行知识蒸馏的学生网络的原始损失,/>为非目标类知识蒸馏,/>为目标类知识蒸馏,/>、/>分别为控制目标类知识蒸馏和非目标类知识蒸馏权重的超参数。
本发明会随着的减小来减小超参数/>、/>,目的在于使逻辑蒸馏部分引导学生网络尽早完成前期收敛,收敛之后让特征蒸馏更好的引导学生网络学习教师网络的定位知识等。
为了进一步验证本发明方法的效果,本发明实施例进行了如下仿真实验:
本发明实施例的仿真实验首先对不同蒸馏方法的蒸馏效果进行比较。在KITTI数据集上对以ResNet为骨干网络的FastRCNN使用不同方法进行蒸馏,具体采用的蒸馏方法分别为解耦知识蒸馏DKD方法、非目标类知识蒸馏NCKD方法,以及本发明提出的包含焦点蒸馏、全局蒸馏和逻辑蒸馏的方法,其中,DKD方法包含目标类知识蒸馏TCKD和非目标类知识蒸馏NCKD。
其中,KITTI数据集将数据划分为简单、中等、困难三种难度,这三种难度是根据标注框是否被遮挡、遮挡程度和框的高度进行定义的,具体如下:
简单:最小边界框高度:40像素,最大遮挡级别:完全可见,最大截断:15%;
中等:最小边界框高度:25像素,最大遮挡水平:部分遮挡,最大截断:30%;
困难:最小边界框高度:25像素,最大遮挡级别:难以看到,最大截断:50%。
在KITTI数据集上不同算法下仿真实验准确率的对比如图5所示,根据图5可以看出,在面对简单的数据集时,NCKD方法的准确率高于DKD方法,但随着数据集难度的提高,NCKD方法的准确率下降,DKD方法的准确率更高,而本发明方法在简单、中等、困难三种难度的数据集上都表现出了更高的检测精度,与DKD方法和NCKD方法中精度表现较好的方法相比,本发明方法在简单难度数据集上将准确率提高了2%,在中等难度数据集上将准确率提高了1.7%,在困难难度数据集上将准确率提高了2.1%,这是因为本发明在蒸馏过程中充分考虑了各阶段的需求,对于焦点区域、前景与背景的关系、蒸馏收敛等都进行了设计,提高了算法对不同样本的识别能力。
本发明实施例的仿真实验还在KITTI数据集上对不同蒸馏算法的蒸馏效率进行比较,结果如表1所示:
表1:不同蒸馏算法的蒸馏效率比较
表1中,KD为基础的知识蒸馏方法,FGD为全局知识蒸馏方法。
根据表1中的内容可以看出,仅仅使用逻辑蒸馏的蒸馏方法KD以及DKD的训练轮数和蒸馏时间较短,这是因为这两个方法本身操作较为简单。本发明方法和FGD方法同样进行了特征蒸馏,理论上需要的训练轮数和蒸馏时间更长,而与FGD方法相比,而本发明方法训练轮数更少,网络收敛速度更快。因此,在实现更高检测精度的同时,本发明方法的蒸馏效率更高。
实施例2
与实施例1基于相同的发明构思,本实施例介绍一种轻量化目标检测装置,如图6所示,包括数据增强模块、特征提取模块、特征蒸馏模块、目标检测模块和逻辑蒸馏模块。
数据增强模块用于对图像数据进行增强处理,得到增强后的图像数据。
特征提取模块用于利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图。
特征蒸馏模块用于利用区域候选网络分别处理教师特征图和学生特征图,通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框。
目标检测模块用于根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息。
逻辑蒸馏模块用于根据目标检测结果进行逻辑蒸馏。
上述各模块的具体功能实现参考实施例1方法中的相关内容,不予赘述。
实施例3
与其它实施例基于相同的发明构思,本实施例介绍一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现实施例1介绍的轻量化目标检测方法的步骤。
综上实施例,本发明通过知识蒸馏方法实现轻量化目标检测,能够在保证高检测精度的同时保证网络体量小,满足了将目标检测移植到嵌入式设备的实际需求。在知识蒸馏过程中,本发明提出了一种焦点蒸馏和全局蒸馏相互补充的特征蒸馏方法,改进了通道注意力计算的方式,一定程度上引导了空间注意力图的生成,对学生网络需要学习的焦点区域的定位更为准确,通过全局蒸馏补充全局关系信息,提高学生网络的学习效果。最后,本发明对逻辑蒸馏解耦,分为目标类知识蒸馏和非目标类知识蒸馏,加速了早期网络的收敛以及困难目标的检测。本发明综合了焦点蒸馏、全局蒸馏和逻辑蒸馏的优点,对蒸馏损失进行改进,能够迫使学生网络更快速、准确的学习教师网络的知识,实现高精度、高效的轻量化目标检测需求,提高嵌入式设备下目标检测的精确性和泛用性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (9)
1.一种轻量化目标检测方法,其特征在于,包括如下步骤:
对图像数据进行增强处理,得到增强后的图像数据;
利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图;
通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框;
根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息;
对所述教师特征图和学生特征图进行焦点蒸馏,包括:
利用区域候选网络对教师特征图进行处理,得到教师候选框;
基于教师候选框对教师特征图进行掩码处理,得到教师特征图的二分类掩码和比例掩码;
通过注意力机制对教师特征图和学生特征图进行焦点蒸馏,得到每一幅特征图对应的注意力特征图及其注意力掩码;
根据教师特征图对应的二分类掩码、比例掩码、通道注意力掩码和空间注意力掩码计算特征蒸馏损失,计算公式如下:
;
其中,表示特征蒸馏损失,/>、/>分别为平衡前景和背景作用的超参数,C表示通道总数,H为特征图的高度,W为特征图的宽度,/>表示教师特征图中像素点/>的二分类掩码,/>表示教师特征图中像素点/>的比例掩码,/>表示教师特征图中像素点/>的空间注意力掩码,/>表示教师特征图中k通道的通道注意力掩码,/>表示教师特征图中像素点/>的值,/>表示学生特征图中像素点/>的值,f( )表示自适应层;
根据教师特征图和学生特征图的通道注意力掩码和空间注意力掩码计算注意力损失,计算公式如下:
;
其中,表示注意力损失,/>为平衡注意力损失的超参数,/>表示L1损失函数,/>表示教师特征图对应的空间注意力掩码,/>表示学生特征图对应的空间注意力掩码,/>表示教师特征图对应的通道注意力掩码,/>表示学生特征图对应的通道注意力掩码;
根据特征蒸馏损失和注意力损失计算焦点蒸馏损失,计算公式如下:
;
其中,表示焦点蒸馏损失。
2.根据权利要求1所述的轻量化目标检测方法,其特征在于,所述增强处理包括:
将图像数据按照随机值绕z轴旋转,随机值的取值范围为[-π/4,π/4];
将图像数据按照随机因子进行缩放,随机因子的取值范围为[0.95,1.05]。
3.根据权利要求1所述的轻量化目标检测方法,其特征在于,所述教师网络的骨干网络采用101层残差网络,所述学生网络的骨干网络采用50层残差网络。
4.根据权利要求1所述的轻量化目标检测方法,其特征在于,针对特征图F,其对应的注意力特征图的计算公式如下:
;
;
;
;
其中,表示空间注意力特征图,/>表示k通道的特征图,/>表示通道特征的平均池化结果,/>为特征图中像素点(i,j)的值,/>表示通道特征的标准差,/>表示通道注意力特征图,w( )表示一个全连接层;
注意力掩码的计算公式如下:
;
;
其中,表示空间注意力特征图对应的空间注意力掩码,/>表示通道注意力特征图对应的通道注意力掩码。
5.根据权利要求1所述的轻量化目标检测方法,其特征在于,通过GcBlock网络对教师特征图和学生特征图进行全局蒸馏,并计算全局蒸馏损失,计算公式如下:
;
其中,表示全局蒸馏损失,/>为平衡全局损失的超参数,/>表示教师特征图经GcBlock网络后的输出结果,/>表示学生特征图经GcBlock网络后的输出结果;
其中,特征图F经GcBlock网络的输出结果的计算公式为:
;
其中,表示GcBlock网络的第一卷积层,/>表示GcBlock网络的第二卷积层,/>表示归一化,/>表示GcBlock网络的上下文模型卷积层,C表示通道总数,H为特征图的高度,W为特征图的宽度,/>为特征图中像素点(i,j)的值,/>为激活函数。
6.根据权利要求1所述的轻量化目标检测方法,其特征在于,所述根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,包括:
将学生特征图对应的候选框按照比例映射到学生特征图,将映射后的学生特征图通过感兴趣区域池化到统一尺寸,将池化后的学生特征图分别送到分类卷积网络和定位卷积网络中,生成目标分类概率和目标预测框定位信息。
7.根据权利要求1所述的轻量化目标检测方法,其特征在于,所述检测方法还包括根据目标检测结果进行逻辑蒸馏,具体为:
根据待检测的图像数据的目标分类概率分离目标类和非目标类的蒸馏,得到:
;
;
;
其中,表示目标属于第t类的概率,/>表示第t类的逻辑输出,/>表示第d类的逻辑输出,d=1,2,…,D,D为目标类别总数,/>表示目标不属于第t类的概率,/>表示第b类的逻辑输出,/>表示不考虑第t类的目标属于第l类的概率,/>表示第l类的逻辑输出,l≠t;
基于KL散度的计算公式、和/>构建逻辑蒸馏的损失函数,得到目标类知识蒸馏和非目标类知识蒸馏,公式如下:
;
;
其中,为逻辑蒸馏的损失函数,/>表示教师网络下目标属于第t类的概率,/>表示学生网络下目标属于第t类的概率,/>表示教师网络下目标不属于第t类的概率,/>表示学生网络下目标不属于第t类的概率,/>表示教师网络下不考虑第t类的目标属于第l类的概率,/>表示学生网络下不考虑第t类的目标属于第l类的概率,/>表示目标类的教师网络与学生网络的二元概率之间的相似性,/>表示教师网络的目标分类二元概率,表示学生网络的目标分类二元概率,/>表示非目标类中教师网络和学生网络概率之间的相似性;
将作为目标类知识蒸馏,将/>作为非目标类知识蒸馏;
基于目标类知识蒸馏、非目标类知识蒸馏、焦点蒸馏损失和全局蒸馏损失,得到最终的逻辑蒸馏损失:
;
其中,表示逻辑蒸馏损失,/>表示未进行知识蒸馏的学生网络的原始损失,为非目标类知识蒸馏,/>为目标类知识蒸馏,/>、/>分别为控制目标类知识蒸馏和非目标类知识蒸馏权重的超参数。
8.一种轻量化目标检测装置,其特征在于,包括:
数据增强模块,用于对图像数据进行增强处理,得到增强后的图像数据;
特征提取模块,用于利用教师网络和学生网络分别对所述增强后的图像数据进行特征提取,得到教师特征图和学生特征图;
特征蒸馏模块,用于利用区域候选网络分别处理教师特征图和学生特征图,通过特征蒸馏针对所述教师特征图和学生特征图进行焦点蒸馏和全局蒸馏,得到学生特征图对应的候选框;
目标检测模块,用于根据所述学生特征图对应的候选框,利用分类卷积网络和定位卷积网络生成目标检测结果,其中,所述目标检测结果包括目标分类概率和目标预测框定位信息;
对所述教师特征图和学生特征图进行焦点蒸馏,包括:
利用区域候选网络对教师特征图进行处理,得到教师候选框;
基于教师候选框对教师特征图进行掩码处理,得到教师特征图的二分类掩码和比例掩码;
通过注意力机制对教师特征图和学生特征图进行焦点蒸馏,得到每一幅特征图对应的注意力特征图及其注意力掩码;
根据教师特征图对应的二分类掩码、比例掩码、通道注意力掩码和空间注意力掩码计算特征蒸馏损失,计算公式如下:
;
其中,表示特征蒸馏损失,/>、/>分别为平衡前景和背景作用的超参数,C表示通道总数,H为特征图的高度,W为特征图的宽度,/>表示教师特征图中像素点/>的二分类掩码,/>表示教师特征图中像素点/>的比例掩码,/>表示教师特征图中像素点/>的空间注意力掩码,/>表示教师特征图中k通道的通道注意力掩码,/>表示教师特征图中像素点/>的值,/>表示学生特征图中像素点/>的值,f( )表示自适应层;
根据教师特征图和学生特征图的通道注意力掩码和空间注意力掩码计算注意力损失,计算公式如下:
;
其中,表示注意力损失,/>为平衡注意力损失的超参数,/>表示L1损失函数,/>表示教师特征图对应的空间注意力掩码,/>表示学生特征图对应的空间注意力掩码,/>表示教师特征图对应的通道注意力掩码,/>表示学生特征图对应的通道注意力掩码;
根据特征蒸馏损失和注意力损失计算焦点蒸馏损失,计算公式如下:
;
其中,表示焦点蒸馏损失。
9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1~7中任一项所述的轻量化目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410362634.5A CN117974988B (zh) | 2024-03-28 | 2024-03-28 | 一种轻量化目标检测方法、装置、计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410362634.5A CN117974988B (zh) | 2024-03-28 | 2024-03-28 | 一种轻量化目标检测方法、装置、计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117974988A CN117974988A (zh) | 2024-05-03 |
CN117974988B true CN117974988B (zh) | 2024-05-31 |
Family
ID=90859771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410362634.5A Active CN117974988B (zh) | 2024-03-28 | 2024-03-28 | 一种轻量化目标检测方法、装置、计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117974988B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164054A (zh) * | 2020-09-30 | 2021-01-01 | 交叉信息核心技术研究院(西安)有限公司 | 基于知识蒸馏的图像目标检测方法和检测器及其训练方法 |
CN114565045A (zh) * | 2022-03-01 | 2022-05-31 | 北京航空航天大学 | 一种基于特征分离注意力的遥感目标检测知识蒸馏方法 |
CN116994068A (zh) * | 2023-09-19 | 2023-11-03 | 湖北省长投智慧停车有限公司 | 一种基于知识蒸馏的目标检测方法及装置 |
-
2024
- 2024-03-28 CN CN202410362634.5A patent/CN117974988B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164054A (zh) * | 2020-09-30 | 2021-01-01 | 交叉信息核心技术研究院(西安)有限公司 | 基于知识蒸馏的图像目标检测方法和检测器及其训练方法 |
CN114565045A (zh) * | 2022-03-01 | 2022-05-31 | 北京航空航天大学 | 一种基于特征分离注意力的遥感目标检测知识蒸馏方法 |
CN116994068A (zh) * | 2023-09-19 | 2023-11-03 | 湖北省长投智慧停车有限公司 | 一种基于知识蒸馏的目标检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117974988A (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yun et al. | Focal loss in 3d object detection | |
Li et al. | Traffic scene segmentation based on RGB-D image and deep learning | |
Chandio et al. | Precise single-stage detector | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN111738055B (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
Wang et al. | CenterNet3D: An anchor free object detector for point cloud | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
Lomio et al. | Classification of building information model (BIM) structures with deep learning | |
CN113297959B (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
Ren et al. | Infrared small target detection via region super resolution generative adversarial network | |
Asyraf et al. | CNN-based YOLOv3 comparison for underwater object detection | |
Xia et al. | Multi-stream neural network fused with local information and global information for HOI detection | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN114037666A (zh) | 一种数据集扩充和阴影图像分类辅助的阴影检测方法 | |
CN117235605A (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
Ehsan et al. | End-to-end semi-supervised approach with modulated object queries for table detection in documents | |
CN117974988B (zh) | 一种轻量化目标检测方法、装置、计算机程序产品 | |
CN116824333A (zh) | 一种基于深度学习模型的鼻咽癌检测系统 | |
Xie et al. | AMMF: attention-based multi-phase multi-task fusion for small contour object 3D detection | |
Zhao et al. | Small object detection of imbalanced traffic sign samples based on hierarchical feature fusion | |
Xiao et al. | Fast unstructured road detection and tracking from monocular video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |