CN117315516B - 基于多尺度注意力相似化蒸馏的无人机检测方法及装置 - Google Patents

基于多尺度注意力相似化蒸馏的无人机检测方法及装置 Download PDF

Info

Publication number
CN117315516B
CN117315516B CN202311616489.0A CN202311616489A CN117315516B CN 117315516 B CN117315516 B CN 117315516B CN 202311616489 A CN202311616489 A CN 202311616489A CN 117315516 B CN117315516 B CN 117315516B
Authority
CN
China
Prior art keywords
network
scale
student
teacher
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311616489.0A
Other languages
English (en)
Other versions
CN117315516A (zh
Inventor
詹思敏
黄诚惕
朱建清
苏嘉骏
赵倩倩
曾焕强
陈婧
蔡灿辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202311616489.0A priority Critical patent/CN117315516B/zh
Publication of CN117315516A publication Critical patent/CN117315516A/zh
Application granted granted Critical
Publication of CN117315516B publication Critical patent/CN117315516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度注意力相似化蒸馏的无人机检测方法及装置,涉及目标检测领域,包括:构建多尺度注意力图生成模块、教师网络及待训练的学生网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,并建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络;将图像输入经训练的学生网络,得到无人机检测结果,解决现有技术无人机检测准确率低、实时性差的问题。

Description

基于多尺度注意力相似化蒸馏的无人机检测方法及装置
技术领域
本发明涉及目标检测领域,具体涉及一种基于多尺度注意力相似化蒸馏的无人机检测方法及装置。
背景技术
随着现代科技的迅速发展,无人机以轻巧灵活、智能高效等优点,被广泛应用在摄影电影、现代农业乃至军事等领域。但是,对无人机的不当使用也会带来严重的安全隐患。传统对无人机的检测方法主要分为雷达和无线电频谱检测两种。雷达由于受到环境条件、杂波等因素的影响,精度较低,易将鸟类等小型物体误判为无人机。无线电频谱检测易受到外界或人为的频率干扰,难以准确地进行无人机检测。
有鉴于此,设计一种实时性高、准确度高的无人机检测方法是至关重要的。
发明内容
针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于多尺度注意力相似化蒸馏的无人机检测方法及装置,来解决以上背景技术部分提到的技术问题。
第一方面,本发明提供了一种基于多尺度注意力相似化蒸馏的无人机检测方法,包括以下步骤:
获取待检测的图像;
构建多尺度注意力图生成模块、教师网络及待训练的学生网络,教师网络和学生网络均采用YOLO网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与教师网络和学生网络之间全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络;
将待检测的图像输入经训练的学生网络,得到无人机检测结果。
作为优选,多尺度注意力图生成模块包括六个单尺度注意力图生成模块,通过单尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为对应的教师空间注意力信息和学生空间注意力信息,公式如下:
其中,分别表示教师网络和学生网络的第/>个尺度的中间层特征映射,/>表示样本数量,/>和/>分别表示教师网络和学生网络的相应中间层特征映射的通道数,/>和/>分别表示相应中间层特征映射的高度和宽度;/>表示尺度序号;SSAG表示单尺度注意力图生成模块;/>和/>分别表示教师网络和学生网络的第/>个尺度的中间层特征映射/>和/>通过SSAG所生成的第/>个尺度的教师空间注意力信息和第/>个尺度的学生空间注意力信息;/>和/>分别表示对教师网络和学生网络的第/>个尺度的中间层特征映射/>和/>沿通道方向进行积累;Reshape表示特征张量重排操作,将/>变为维度是/>的空间注意力信息;/>表示对Reshape所得的空间注意力信息在/>对应维度上进行L2归一化。
作为优选,教师网络中间层特征映射包括第一尺度教师特征映射、第二尺度教师特征映射/>和第三尺度教师特征映射/>,学生网络的中间层特征映射包括第一尺度学生特征映射/>、第二尺度学生特征映射/>和第三尺度学生特征映射/>;第三尺度教师特征映射/>和第三尺度学生特征映射/>分别为教师网络的特征金字塔所输出的第三尺度特征图/>和学生网络的特征金字塔所输出的第三尺度特征图/>;第二尺度教师特征映射是由第三尺度教师特征映射/>先经上采样到与教师网络的特征金字塔所输出的第二尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第二尺度学生特征映射/>是由第三尺度学生特征映射/>先经上采样到与学生网络的特征金字塔所输出的第二尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第一尺度教师特征映射/>是由第二尺度教师特征映射/>先经上采样到与教师网络的特征金字塔所输出的第一尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第一尺度学生特征映射/>是由第二尺度学生特征映射/>先经上采样到与学生网络的特征金字塔所输出的第一尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到。
作为优选,的计算过程如下:
其中,分别表示教师网络和学生网络的第/>个尺度的中间层特征映射的第/>个通道的特征映射。
作为优选,注意力信息相似度优化损失函数如下:
其中,表示注意力信息相似度优化损失函数;Lg表示以10为底的对数运算;/>表示以自然常数e为底的指数函数运算;/>表示尺度序号;/>和/>分别表示教师网络和学生网络的第/>个尺度的中间层特征映射/>和/>通过SSAG所生成的第/>个尺度的教师空间注意力信息和第/>个尺度的学生空间注意力信息,T为转置运算。
作为优选,总损失函数的公式如下:
其中,表示注意力信息相似度优化损失函数;/>表示教师网络和学生网络之间全局性的后验概率蒸馏函数;/>表示学生网络的无人机目标分类损失函数,无人机目标分类损失函数采用二元交叉熵函数;/>表示学生网络的目标框回归损失函数,目标框回归损失函数采用交并比函数。
作为优选,后验概率蒸馏函数采用KL散度,公式如下:
其中,分别表示教师网络和学生网络的预测Logit值;/>分别表示教师网络和学生网络预测输入样本属于第/>个类别的后验概率;/>表示类别数量;是温度超参数,用于软化后验概率分布;/>的计算公式如下:
其中,表示以自然常数e为底的指数函数运算,o表示第o个类别。
第二方面,本发明提供了一种基于多尺度注意力相似化蒸馏的无人机检测装置,包括:
图像获取模块,被配置为获取待检测的图像;
蒸馏模块,被配置为构建多尺度注意力图生成模块、教师网络及待训练的学生网络,教师网络和学生网络均采用YOLO网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与教师网络和学生网络之间全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络;
执行模块,被配置为将待检测的图像输入经训练的学生网络,得到无人机检测结果。
第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
相比于现有技术,本发明具有以下有益效果:
(1)本发明提出的基于多尺度注意力相似化蒸馏的无人机检测方法将YOLO网络引入无人机检测任务,进一步考虑无人机飞行速度快的特性对检测的实时性要求高,采用大型YOLO网络构建的教师网络以及小型YOLO网络构建的学生网络,设计多尺度注意力图生成模块,将教师网络关于无人机检测的知识传递给学生网络,提升其无人机检测准确性。最终使用小型YOLO网络构建的学生网络进行无人机检测,实现一种高效的无人机检测方法。
(2)本发明提出的基于多尺度注意力相似化蒸馏的无人机检测方法通过多尺度注意力图生成模块分别对教师网络和学生网络不同尺度的中间层特征映射生成多尺度的教师空间注意力信息和学生空间注意力信息,并建立注意力信息相似度优化损失函数扩大教师网络的教师空间注意力信息和学生网络的学生空间注意力信息之间的余弦相似度,帮助学生网络对无人机目标的关注能力向教师网络看齐,从而提升学生网络无人机检测准确性。
(3)本发明提出的基于多尺度注意力相似化蒸馏的无人机检测方法可应用于无人机侦察系统中,以完成高精度、高实时性的无人机检测任务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本申请的实施例的基于多尺度注意力相似化蒸馏的无人机检测方法的流程示意图;
图3为本申请的实施例的基于多尺度注意力相似化蒸馏的无人机检测方法的教师网络、学生网络及多尺度注意力图生成模块的结构示意图;
图4为本申请的实施例的基于多尺度注意力相似化蒸馏的无人机检测装置的示意图;
图5是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的基于多尺度注意力相似化蒸馏的无人机检测方法或基于多尺度注意力相似化蒸馏的无人机检测装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备一101、终端设备二102、终端设备三103,网络104和服务器105。网络104用以在终端设备一101、终端设备二102、终端设备三103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备一101、终端设备二102、终端设备三103通过网络104与服务器105交互,以接收或发送消息等。终端设备一101、终端设备二102、终端设备三103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备一101、终端设备二102、终端设备三103可以是硬件,也可以是软件。当终端设备一101、终端设备二102、终端设备三103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备一101、终端设备二102、终端设备三103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备一101、终端设备二102、终端设备三103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的基于多尺度注意力相似化蒸馏的无人机检测方法可以由服务器105执行,也可以由终端设备一101、终端设备二102、终端设备三103执行,相应地,基于多尺度注意力相似化蒸馏的无人机检测装置可以设置于服务器105中,也可以设置于终端设备一101、终端设备二102、终端设备三103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
图2示出了本申请的实施例提供的一种基于多尺度注意力相似化蒸馏的无人机检测方法,包括以下步骤:
S1,获取待检测的图像。
具体的,获取采集到的待检测的图像,该待检测的图像为拍摄到的可能存在无人机的图像。
S2,构建多尺度注意力图生成模块、教师网络及待训练的学生网络,教师网络和学生网络均采用YOLO网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与教师网络和学生网络之间全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络。
具体的,本申请的实施例所采用的教师网络和学生网络均为YOLO网络,YOLO网络的拓扑结构主要由骨干网络、路径聚合网络和头部结构三个部分串联组成。其中,骨干网络可以采用不同的经典深度网络结构实现,例如Darknetwork、MobileNet、ShuffleNet等,用于提取不同尺度的特征映射,组成特征金字塔;路径聚合网络用于将不同尺度的特征图进行融合,以提高特征的表达能力和语义信息的丰富程度;头部结构通常用于承载各类损失函数,包括目标框回归损失函数和无人机目标分类损失函数等。本申请的实施例还提出了一个多尺度注意力图生成模块(MSAG),作用于师生网络中间层多尺度特征映射上用于帮助学生网络的无人机目标的关注能力向教师网络看齐,从而提升学生网络的无人机检测准确性。
具体的,首先构建基于YOLO网络的教师网络和学生网络,如下式所示:
其中,表示输入的图像;/>表示基于YOLO网络的教师网络,/>表示教师网络参数,/>表示教师网络不同中间层对/>提取的3种不同尺度特征映射的集合,/>表示教师网络对/>预测的Logit值;/>表示基于YOLO网络的学生网络,/>表示学生网络参数,/>表示学生网络的不同中间层对/>提取的3种不同尺度特征映射的集合,/>表示学生网络对/>预测的Logit值。如图3所示,教师网络/>应采用更大规模的骨干网络,如更大、更多的卷积层,比学生网络/>具有更大型的网络规模。
在其中一个实施例中,YOLO网络采用YOLOv8网络,即分别使用YOLOv8x和YOLOv8n构建教师网络和学生网络,公式如下:
其中,表示输入样本;YOLOv8x表示基于YOLOv8x网络的教师网络,/>表示教师网络参数,/>表示教师网络不同中间层对/>提取的3种尺度的特征映射的集合,/>表示教师网络对/>预测的Logit值;YOLOv8n表示基于YOLOv8n网络的学生网络,/>表示学生网络参数,/>表示学生网络不同中间层对/>提取的3种尺度的特征映射的集合,/>表示学生网络对/>预测的Logit值。YOLOv8x和YOLOv8n具有相似的骨干结构,主要网络组件是茎层(Stem)、四个阶段层 (StageLayer1,StageLayer2,StageLayer3,StageLayer4)。其中,Stem层由卷积模块(ConvModule)构成,具体由二维卷积模块(Conv2d)、二维批归一化模块(BatchNorm2d)、SiLu激活函数三个组件构成;各阶段层主要由卷积模块(ConvModule)、C2F模块、空间金字塔池化层融合层(Spatial PyramidalPooling Fusion, SPPF)三个组件构成,其中,SPPF由卷积模块(ConvModule)、最大值池化层(MaxPool2d)、张量拼接模块(Concat)三个组件构成。YOLOv8x和YOLOv8n之间的主要不同在于骨干网络中采用的卷积层的通道和数量不同,YOLOv8x较YOLOv8n使用更多、更大的卷积层,所以YOLOv8x组成的教师网络比YOLOv8n组成的学生网络具有更大的复杂度。
在具体的实施例中,多尺度注意力图生成模块包括六个单尺度注意力图生成模块,通过单尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为对应的教师空间注意力信息和学生空间注意力信息,公式如下:
其中,分别表示教师网络和学生网络的第/>个尺度的中间层特征映射,/>表示样本数量,/>分别表示教师网络和学生网络的相应中间层特征映射的通道数,/>和/>分别表示相应中间层特征映射的高度和宽度;/>表示尺度序号;SSAG表示单尺度注意力图生成模块;/>分别表示教师网络和学生网络的第/>个尺度的中间层特征映射/>和/>通过SSAG所生成的第/>个尺度的教师空间注意力信息和第/>个尺度的学生空间注意力信息;/>和/>分别表示对教师网络和学生网络的第/>个尺度的中间层特征映射/>和/>沿通道方向进行积累;Reshape表示特征张量重排操作,将/>和/>变为维度是/>的空间注意力信息;/>表示对Reshape所得的空间注意力信息在/>对应维度上进行L2归一化。
在具体的实施例中,教师网络的中间层特征映射包括第一尺度教师特征映射、第二尺度教师特征映射/>和第三尺度教师特征映射/>,学生网络的中间层特征映射包括第一尺度学生特征映射/>、第二尺度学生特征映射/>和第三尺度学生特征映射/>;第三尺度教师特征映射/>和第三尺度学生特征映射/>分别为教师网络的特征金字塔所输出的第三尺度特征图/>和学生网络的特征金字塔所输出的第三尺度特征图/>;第二尺度教师特征映射/>是由第三尺度教师特征映射/>先经上采样到与教师网络的特征金字塔所输出的第二尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第二尺度学生特征映射/>是由第三尺度学生特征映射/>先经上采样到与学生网络的特征金字塔所输出的第二尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第一尺度教师特征映射/>是由第二尺度教师特征映射先经上采样到与教师网络的特征金字塔所输出的第一尺度特征图/>相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到;第一尺度学生特征映射/>是由第二尺度学生特征映射/>先经上采样到与学生网络的特征金字塔所输出的第一尺度特征图相同尺寸后,再将相应的上采样特征映射和/>串联后输入融合模块得到。
在具体的实施例中,的计算过程如下:
其中,分别表示教师网络和学生网络的第/>个尺度的中间层特征映射的第/>个通道的特征映射。
具体的,多尺度注意力图生成模块用于实现教师网络的教师空间注意力信息以及学生网络的学生空间注意力信息的生成。作为多尺度注意力图生成模块的输入,分别进行教师空间注意力信息和学生空间注意力信息的提取之外,本申请的实施例与现有YOLO目标检测的处理一致,还将二者作为教师网络和学生网络聚合运算的输入实现不同尺度的特征图融合,以提高特征的表达能力和语义信息的丰富程度。
在其中一个实施例中,若YOLO网络采用YOLOv8网络,则融合模块采用C2F模块,C2F模块为现有结构,在此不再赘述。
在具体的实施例中,注意力信息相似度优化损失函数为:
其中,表示注意力信息相似度优化损失函数;Lg表示以10为底的对数运算;表示以自然常数e为底的指数函数运算;/>表示尺度序号;,/>和/>分别表示教师网络和学生网络中间层特征映射/>和/>通过SSAG所生成的第/>个尺度的教师空间注意力信息和第/>个尺度的学生空间注意力信息,T为转置运算。
具体的,利用余弦相似度计算教师网络和学生网络在各个尺度上的空间注意力信息之间的相似度,并利用Softplus函数设计注意力信息相似度优化损失函数进行师生网络的多尺度注意力相似化蒸馏。
在具体的实施例中,总损失函数的公式如下:
其中,表示注意力信息相似度优化损失函数;/>表示教师网络和学生网络之间全局性的后验概率蒸馏函数;/>表示学生网络的无人机目标分类损失函数,无人机目标分类损失函数采用二元交叉熵函数;/>表示学生网络的目标框回归损失函数,目标框回归损失函数采用交并比函数。
在具体的实施例中,后验概率蒸馏函数采用KL散度,公式如下:
其中,分别表示教师网络和学生网络的预测Logit值;/>对教师网络和学生网络预测输入样本属于第/>个类别的后验概率;/>表示类别数量;/>是温度超参数,用于软化后验概率分布;/>的计算公式如下:
其中,表示以自然常数e为底的指数函数运算,o表示第o个类别。
具体的,进一步利用Kullback-Leibler (KL)散度,实现教师网络和学生网络之间全局性的后验概率蒸馏,即建立得到后验概率蒸馏函数。由于无人机检测任务包括无人机和非无人机两个类别,因此,类别数量c为2。除了注意力信息相似度优化损失函数和后验概率蒸馏函数之外,学生网络训练的损失函数还需要预测目标框回归损失函数和无人机目标分类损失函数。目标框回归损失函数通常采用交并比函数实现,无人机目标分类损失函数可以采用二元交叉熵函数实现,二者为常用函数,不再赘述。关于损失函数的放置。注意力信息相似度优化损失函数置于多尺度注意力图生成模块上,全局性的后验概率蒸馏函数共同作用于教师YOLOv8x和学生YOLOv8n的头部结构上;目标框回归损失函数和无人机目标分类损失函数放置在学生YOLOv8n的头部结构上,这是因为知识蒸馏中教师网络已经预先完成训练。采用梯度下降法最小化总损失函数,完成学生网络的训练。
S3,将待检测的图像输入经训练的学生网络,得到无人机检测结果。
具体的,在部署阶段使用经训练的学生网络作为无人机检测模型。因为在学生网络的训练过程中使用了多尺度注意力知识蒸馏和全局性的后验概率蒸馏,使得经训练的学生网络吸收了教师网络的知识,有利于保障其检测精度,且相比于教师网络,学生网络规模要小得多,所以经训练的学生网络能实现高实时无人机检测。
以上步骤S1-S3并不仅仅代表步骤之间的顺序,而是步骤符号表示。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种基于多尺度注意力相似化蒸馏的无人机检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
本申请实施例提供了一种基于多尺度注意力相似化蒸馏的无人机检测装置,包括:
图像获取模块1,被配置为获取待检测的图像;
蒸馏模块2,被配置为构建多尺度注意力图生成模块、教师网络及待训练的学生网络,教师网络和学生网络均采用YOLO网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与教师网络和学生网络之间全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络;
执行模块3,被配置为将待检测的图像输入经训练的学生网络,得到无人机检测结果。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机装置500包括中央处理单元(CPU)501和图形处理器(GPU)502,其可以根据存储在只读存储器(ROM)503中的程序或者从存储部分509加载到随机访问存储器(RAM)504中的程序而执行各种适当的动作和处理。在RAM 504中,还存储有计算机装置500操作所需的各种程序和数据。CPU 501、GPU502、ROM 503以及RAM 504通过总线505彼此相连。输入/输出(I/O)接口506也连接至总线505。
以下部件连接至I/O接口506:包括键盘、鼠标等的输入部分507;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分508;包括硬盘等的存储部分509;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分510。通信部分510经由诸如因特网的网络执行通信处理。驱动器511也可以根据需要连接至I/O接口506。可拆卸介质512,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器511上,以便于从其上读出的计算机程序根据需要被安装入存储部分509。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分510从网络上被下载和安装,和/或从可拆卸介质512被安装。在该计算机程序被中央处理单元(CPU)501和图形处理器(GPU)502执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,也可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待检测的图像;构建多尺度注意力图生成模块、教师网络及待训练的学生网络,教师网络和学生网络均采用YOLO网络,通过多尺度注意力图生成模块分别将教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将注意力信息相似度优化损失函数与教师网络和学生网络之间全局性的后验概率蒸馏函数以及学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于总损失函数对待训练的学生网络进行训练,得到经训练的学生网络;将待检测的图像输入经训练的学生网络,得到无人机检测结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (7)

1.一种基于多尺度注意力相似化蒸馏的无人机检测方法,其特征在于,包括以下步骤:
获取待检测的图像;
构建多尺度注意力图生成模块、教师网络及待训练的学生网络,所述教师网络和学生网络均采用YOLO网络,通过所述多尺度注意力图生成模块分别将所述教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息;所述多尺度注意力图生成模块包括六个单尺度注意力图生成模块,通过所述单尺度注意力图生成模块分别将所述教师网络和学生网络的中间层特征映射转换为对应的教师空间注意力信息和学生空间注意力信息,公式如下:
Fi=SSAG(Ai)=Normalize(Reshape(ChannelAgg(Ai))),i=1,2,3;
Gi=SSAG(Bi)=Normalize(Reshape(ChannelAgg(Bi))),i=1,2,3;
其中,和/>分别表示所述教师网络和学生网络的第i个尺度的中间层特征映射,N表示样本数量,Ct和Cs分别表示所述教师网络和学生网络的相应中间层特征映射的通道数,H和W分别表示相应中间层特征映射的高度和宽度;i表示尺度序号;SSAG表示单尺度注意力图生成模块;Fi和Gi分别表示所述教师网络和学生网络的第i个尺度的中间层特征映射Ai和Bi通过SSAG所生成的第i个尺度的教师空间注意力信息和第i个尺度的学生空间注意力信息;/>和/>分别表示对所述教师网络和学生网络的第i个尺度的中间层特征映射Ai和Bi沿通道方向进行积累;Reshape表示特征张量重排操作,将/>和/>变为维度是/>的空间注意力信息;Normalize表示对Reshape所得的空间注意力信息在HW对应维度上进行L2归一化;所述ChannelAgg(Ai)和ChannelAgg(Bi)的计算过程如下:
其中,Ai,j和Bi,j分别表示所述教师网络和学生网络的第i个尺度的中间层特征映射Ai和Bi的第j个通道的特征映射;根据所述教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数;所述注意力信息相似度优化损失函数如下:
其中,LMSAG表示注意力信息相似度优化损失函数;Lg表示以10为底的对数运算;Exp表示以自然常数e为底的指数函数运算;i表示尺度序号;Fi和Gi分别表示所述教师网络和学生网络的第i个尺度的中间层特征映射Ai和Bi通过SSAG所生成的第i个尺度的教师空间注意力信息和第i个尺度的学生空间注意力信息,T为转置运算;将所述注意力信息相似度优化损失函数与所述教师网络和学生网络之间全局性的后验概率蒸馏函数以及所述学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于所述总损失函数对所述待训练的学生网络进行训练,得到经训练的学生网络;
将所述待检测的图像输入所述经训练的学生网络,得到无人机检测结果。
2.根据权利要求1所述的基于多尺度注意力相似化蒸馏的无人机检测方法,其特征在于,所述教师网络的中间层特征映射包括第一尺度教师特征映射A1、第二尺度教师特征映射A2和第三尺度教师特征映射A3;所述学生网络的中间层特征映射包括第一尺度学生特征映射B1、第二尺度学生特征映射B2和第三尺度学生特征映射B3;所述第三尺度教师特征映射A3和所述第三尺度学生特征映射B3分别为所述教师网络的特征金字塔所输出的第三尺度特征图α3和所述学生网络的特征金字塔所输出的第三尺度特征图β3;所述第二尺度教师特征映射A2是由所述第三尺度教师特征映射A3先经上采样到与所述教师网络的特征金字塔所输出的第二尺度特征图α2相同尺寸后,再将相应的上采样特征映射和α2串联后输入融合模块得到;所述第二尺度学生特征映射B2是由所述第三尺度学生特征映射B3先经上采样到与所述学生网络的特征金字塔所输出的第二尺度特征图β2相同尺寸后,再将相应的上采样特征映射和β2串联后输入融合模块得到;所述第一尺度教师特征映射A1是由所述第二尺度教师特征映射A2先经上采样到与所述教师网络的特征金字塔所输出的第一尺度特征图α1相同尺寸后,再将相应的上采样特征映射和α1串联后输入融合模块得到;所述第一尺度学生特征映射B1是由所述第二尺度学生特征映射B2先经上采样到与所述学生网络的特征金字塔所输出的第一尺度特征图β1相同尺寸后,再将相应的上采样特征映射和β1串联后输入融合模块得到。
3.根据权利要求1所述的基于多尺度注意力相似化蒸馏的无人机检测方法,其特征在于,所述总损失函数的公式如下:
Ltotal=LMASG+LKLD(u,v,τ)+LBCE+LIOU
其中,LMASG表示注意力信息相似度优化损失函数;LKLD(u,v,τ)表示所述教师网络和学生网络之间全局性的后验概率蒸馏函数;LBCE表示所述学生网络的无人机目标分类损失函数,所述无人机目标分类损失函数采用二元交叉熵函数;LIOU表示所述学生网络的目标框回归损失函数,所述目标框回归损失函数采用交并比函数。
4.根据权利要求3所述的基于多尺度注意力相似化蒸馏的无人机检测方法,其特征在于,所述后验概率蒸馏函数采用KL散度,公式如下:
其中,u,v分别表示所述教师网络和学生网络的预测Logit值;p(uj,τ)和p(vj,τ)分别表示所述教师网络和学生网络预测输入样本属于第j个类别的后验概率;c表示类别数量;τ≥1是温度超参数,用于软化后验概率分布;p(uj,τ)和p(vj,τ)的计算公式如下:
其中,Exp表示以自然常数e为底的指数函数运算,o表示第o个类别。
5.一种基于多尺度注意力相似化蒸馏的无人机检测装置,采用权利要求1-4中任一项所述的基于多尺度注意力相似化蒸馏的无人机检测方法,其特征在于,包括:
图像获取模块,被配置为获取待检测的图像;
蒸馏模块,被配置为构建多尺度注意力图生成模块、教师网络及待训练的学生网络,所述教师网络和学生网络均采用YOLO网络,通过所述多尺度注意力图生成模块分别将所述教师网络和学生网络的中间层特征映射转换为教师空间注意力信息和学生空间注意力信息,根据所述教师空间注意力信息和学生空间注意力信息建立注意力信息相似度优化损失函数,将所述注意力信息相似度优化损失函数与所述教师网络和学生网络之间全局性的后验概率蒸馏函数以及所述学生网络的无人机目标分类损失函数和目标框回归损失函数结合以建立总损失函数,基于所述总损失函数对所述待训练的学生网络进行训练,得到经训练的学生网络;
执行模块,被配置为将所述待检测的图像输入所述经训练的学生网络,得到无人机检测结果。
6.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN202311616489.0A 2023-11-30 2023-11-30 基于多尺度注意力相似化蒸馏的无人机检测方法及装置 Active CN117315516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311616489.0A CN117315516B (zh) 2023-11-30 2023-11-30 基于多尺度注意力相似化蒸馏的无人机检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311616489.0A CN117315516B (zh) 2023-11-30 2023-11-30 基于多尺度注意力相似化蒸馏的无人机检测方法及装置

Publications (2)

Publication Number Publication Date
CN117315516A CN117315516A (zh) 2023-12-29
CN117315516B true CN117315516B (zh) 2024-02-27

Family

ID=89274165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311616489.0A Active CN117315516B (zh) 2023-11-30 2023-11-30 基于多尺度注意力相似化蒸馏的无人机检测方法及装置

Country Status (1)

Country Link
CN (1) CN117315516B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464981A (zh) * 2020-10-27 2021-03-09 中科视语(句容)科技有限公司 基于空间注意力机制的自适应知识蒸馏方法
CN114005096A (zh) * 2021-11-09 2022-02-01 河北工业大学 基于特征增强的车辆重识别方法
CN116363034A (zh) * 2023-03-31 2023-06-30 徐州鑫达房地产土地评估有限公司 轻量级红外与可见光图像融合方法、系统、设备和介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220076136A1 (en) * 2020-09-09 2022-03-10 Peyman PASSBAN Method and system for training a neural network model using knowledge distillation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464981A (zh) * 2020-10-27 2021-03-09 中科视语(句容)科技有限公司 基于空间注意力机制的自适应知识蒸馏方法
CN114005096A (zh) * 2021-11-09 2022-02-01 河北工业大学 基于特征增强的车辆重识别方法
CN116363034A (zh) * 2023-03-31 2023-06-30 徐州鑫达房地产土地评估有限公司 轻量级红外与可见光图像融合方法、系统、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于掩膜的目标检测模型蒸馏方法;陈宇轩等;《计算机工程与设计》;第44卷(第9期);第2822-2828页 *

Also Published As

Publication number Publication date
CN117315516A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
US20220129731A1 (en) Method and apparatus for training image recognition model, and method and apparatus for recognizing image
Zhong et al. SatCNN: Satellite image dataset classification using agile convolutional neural networks
US20190279074A1 (en) Semantic Class Localization Digital Environment
CN110929780B (zh) 视频分类模型构建、视频分类的方法、装置、设备及介质
CN110866471A (zh) 人脸图像质量评价方法及装置、计算机可读介质、通信终端
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN111860588A (zh) 一种用于图神经网络的训练方法以及相关设备
CN110781413B (zh) 兴趣点确定方法及装置、存储介质、电子设备
WO2022001724A1 (zh) 一种数据处理方法及装置
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN115512005A (zh) 一种数据处理方法及其装置
CN113705733A (zh) 医疗票据图像处理方法及装置、电子设备、存储介质
CN117290477A (zh) 一种基于二次检索增强的生成式建筑知识问答方法
Guo et al. Fully convolutional DenseNet with adversarial training for semantic segmentation of high-resolution remote sensing images
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
CN117315516B (zh) 基于多尺度注意力相似化蒸馏的无人机检测方法及装置
CN112532251A (zh) 一种数据处理的方法及设备
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN111723188A (zh) 用于问答系统的基于人工智能的语句显示方法、电子设备
Li et al. Bisupervised network with pyramid pooling module for land cover classification of satellite remote sensing imagery
US20230343073A1 (en) Novel category discovery using machine learning
WO2024040546A1 (en) Point grid network with learnable semantic grid transformation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant