CN118072146B - 一种基于多层级特征融合的无人机航拍小目标检测方法 - Google Patents

一种基于多层级特征融合的无人机航拍小目标检测方法 Download PDF

Info

Publication number
CN118072146B
CN118072146B CN202410461077.2A CN202410461077A CN118072146B CN 118072146 B CN118072146 B CN 118072146B CN 202410461077 A CN202410461077 A CN 202410461077A CN 118072146 B CN118072146 B CN 118072146B
Authority
CN
China
Prior art keywords
module
input end
output end
local network
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410461077.2A
Other languages
English (en)
Other versions
CN118072146A (zh
Inventor
路锦正
胡锟
郑超权
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202410461077.2A priority Critical patent/CN118072146B/zh
Publication of CN118072146A publication Critical patent/CN118072146A/zh
Application granted granted Critical
Publication of CN118072146B publication Critical patent/CN118072146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层级特征融合的无人机航拍小目标检测方法,包括:S1、使用Bi‑FPN对YOLOv8模型进行改进,得到HBi‑YOLOv8模型;S2、使用HBi‑YOLOv8模型对无人机航拍图像进行小目标检测,得到三组预测结果;S3、对三组预测结果进行解码和非极大值抑制,得到小目标检测结果,本方法从特征融合部分、添加注意力机制、定位回归损失函数的方向修改YOLOv8s网络,得到了HBi‑YOLOv8s网络,大幅提高了网络在检测小目标时的性能。

Description

一种基于多层级特征融合的无人机航拍小目标检测方法
技术领域
本发明涉及目标检测技术领域,特别涉及一种基于多层级特征融合的无人机航拍小目标检测方法。
背景技术
无人机系统因其便于携带多种类型的传感器进行日常巡检而备受青睐。它具有数据采集强度高、运营成本低、便于运输等优点,因此在农作物监测、交通监管、城市规划、市政管理、输电线路巡检、搜索与救援、国防军事等多个领域中的应用越来越广泛。传统目标检测方法存在着时间复杂度高、窗口冗余高、缺乏针对性和特征设计困难等难以解决的问题,因此无法满足无人机图像目标检测的需求。
由于无人机航拍图像中目标通常呈现稀疏不均的分布,搜索目标会消耗更多的成本。此外,无人机航拍图像的待检目标具有小尺度、背景复杂、尺度差异大、排列密集等特征,通用场景的目标检测方法很难达到理想的检测效果。为了增强对无人机航拍图像中小目标的特征捕获,缓解特征图在多次降采样后信息丢失的问题,避免损失函数对于不同尺度目标的敏感度不同,导致的对小目标产生错检和漏检。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于多层级特征融合的无人机航拍小目标检测方法解决了现有网络在检测小目标时容易出现漏检和误检的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于多层级特征融合的无人机航拍小目标检测方法,包括:
S1、使用Bi-FPN对YOLOv8模型进行改进,得到HBi-YOLOv8模型;
S2、使用HBi-YOLOv8模型对无人机航拍图像进行小目标检测,得到三组预测结果;
S3、对三组预测结果进行解码和非极大值抑制,得到小目标检测结果。
进一步地:所述S1中,HBi-YOLOv8模型包括第一卷积模块,所述第一卷积模块的输入端作为所述HBi-YOLOv8模型的输入端,所述第一卷积模块的输出端与第二卷积模块的输入端连接,所述第二卷积模块的输出端与第一跨级局部网络的输入端连接,所述第一跨级局部网络的第一输出端与第一EMA模块的输入端连接,所述第一跨级局部网络的第二输出端与第三带权特征融合模块的第二输入端连接,所述第一跨级局部网络的第三输出端与第四跨级局部网络的第二输入端连接;所述第一EMA模块的输出端与第三卷积模块的输入端连接,所述第三卷积模块的输出端与第二跨级局部网络的输入端连接,所述第二跨级局部网络的第一输出端与第二EMA模块的输入端连接,所述第二跨级局部网络的第二输出端与第二带权特征融合模块的第二输入端连接,所述第二跨级局部网络的第三输出端与第五跨级局部网络的第二输入端连接;所述第二EMA模块的输出端与第四卷积模块的输入端连接,所述第四卷积模块的输出端与第三跨级局部网络的输入端连接,所述第三跨级局部网络的第一输出端与第三EMA模块的输入端连接,所述第三跨级局部网络的第二输出端与第一带权特征融合模块的第二输入端连接,所述第三跨级局部网络的第三输出端与第六跨级局部网络的第二输入端连接;所述第三EMA模块的输出端与第五卷积模块的输入端连接,所述第五卷积模块的输出端与第四跨级局部网络的输入端连接,所述第四跨级局部网络的输出端与第四EMA模块的输入端连接,所述第四EMA模块的输出端与SPPF模块的输入端连接,所述SPPF模块的输出端与第一上采样模块的输入端连接,所述第一上采样模块的输出端与所述第一带权特征融合模块的第一输入端连接;
所述第一带权特征融合模块的输出端与第五跨级局部网络的输入端连接,所述第五跨级局部网络的第一输出端与第二上采样模块的输入端连接,所述第五跨级局部网络的第二输出端与所述第六带权特征融合模块的第三输入端连接;所述第二上采样模块的输出端与所述第二带权特征融合模块的第一输入端连接,所述第二带权特征融合模块的输出端连接与第六跨级局部网络的输入端连接,所述第六跨级局部网络的第一输出端与第三上采样模块的输入端连接,所述第六跨级局部网络的第二输出端与所述第五带权特征融合模块的第三输入端连接;所述第三上采样模块的输出端与所述第三带权特征融合模块的第一输入端连接,所述第三带权特征融合模块的输出端与第七跨级局部网络的输入端连接;
所述第七跨级局部网络的输出端与所述第四带权特征融合模块的第一输入端连接,所述第四带权特征融合模块的输出端与第七跨级局部网络的输入端连接,所述第七跨级局部网络的第一输出端与第六卷积模块的输入端连接,所述第七跨级局部网络的第二输出端与第一检测头的输入端连接;所述第六卷积模块的输出端与所述第五带权特征融合模块的第一输入端连接,所述第五带权特征融合模块的输出端与第八跨级局部网络的输入端连接,所述第八跨级局部网络的第一输出端与第七卷积模块的输入端连接;所述第八跨级局部网络的第二输出端与第二检测头的输入端连接,所述第七卷积模块的输出端与所述第六带权特征融合模块的第一输入端连接,所述第六带权特征融合模块的输出端与第九跨级局部网络的输入端连接,所述第九跨级局部网络的输出端与第三检测头的输入端连接。
进一步地:所述第一检测头、第二检测头和第三检测头均输出一组预测结果;
每组预测结果对应特定的锚框,包括坐标、类别置信度和类别概率。
进一步地:所述第一EMA模块、第二EMA模块、第三EMA模块和第四EMA模块对输入特征的处理方法相同,均包括:
A1、将输入特征按照通道数划分为G个子特征;
A2、对每个子特征分别进行两个ID全局平均池化操作,沿两个不同空间方向对信道进行编码,并将两个特征编码进行拼接,得到拼接后的编码;
A3、使拼接后的编码通过1x1卷积层后,分解为两个向量;
A4、对分解后的向量分别使用sigmoid非线性函数,拟合线性卷积上的2D二进制分布,得到两个拟合后的向量;
A5、将两个拟合后的向量与对应的子特征逐元素相乘,得到跨通道交互信息;
A6、对跨通道交互信息进行群体规范操作,并对群体规范后的跨通道交互信息分别进行softmax激活和平均池化操作,得到激活后的交互信息和平局池化后的交互信息;
A7、使每个子特征分别通过3x3卷积层,获得每个子特征的多尺度特征表示;
A8、对每个子特征的多尺度特征表示使用softmax激活函数,拟合线性变换,获得拟合线性变换后的多尺度特征表示;
A9、对每个子特征的多尺度特征表示进行平均池化操作,得到平均池化后的多尺度特征表示;
A10、将激活后的交互信息和平均池化后的多尺度特征表示进行矩阵相乘,将平局池化后的交互信息和拟合线性变换后的多尺度特征表示进行矩阵相乘,并将两个矩阵相乘的结果进行逐元素相加,得到子特征注意力图;
A11、使用矩阵点积运算将子特征注意力图和对应的子特征进行逐元素相乘,得到空间注意力图,作为EMA模块的输出。
进一步地:所述S1中,HBi-YOLOv8模型的损失函数L total为:
其中,为控制曲线弧度的超参数,iou为一种用于评估两个边界框重叠程度的指标,通过计算两个区域的交集面积与它们的并集面积之比来衡量它们的重叠程度,L EIou为高效Iou损失;L IouIou损失,L dis为距离损失,L asp为高度损失,b gt为真实框,b为预测框,为欧式距离,h gt为真实框宽度,h为预测框宽度,c为真实框和预测框交集的面积,C w为真实框和预测框交集的宽度,C h为真实框和预测框交集的高度。
进一步地:所述S3包括:
S31、将三组预测结果分别通过卷积和激活函数,将三组预测结果的通道数映射到预测框数量并乘以每个框的预测参数数量的输出通道数,得到预处理后的特征图;
S32、将预处理后的特征图进行解码操作,将预处理后的特征图的边界框坐标映射到原始图像的尺度,得到坐标映射后的特征图;
S33、将坐标映射后的特征图,通过损失函数调整映射到原始图像上边界框的位置,得到调整后的特征图;
S34、通过置信度损失和分类损失来确定调整后的特征图的边界框中的物体的种类和置信度,得到第一检测结果;
S35、对第一检测结果进行非极大值抑制去除冗余的边界框,得到小目标检测结果。
本发明的有益效果为:
1.设计了HBi-YOLOv8模型,通过直接结合来自高分辨率特征图的细粒度特征信息,结合Bi-FPN的思想在不增加太多成本的情况下融合更多特性,并且在特征融合的过程中引入对不同的特征图进行加权特征融合的方式,提高了检测微小物体的精度;
2.在特征提取模块引入了EMA注意力机制,最大限度地提取并保留了小目标相关的特征和信息,从而增强了模型有效提取小目标特征的能力;
3.使用Focal-EIoU损失函数来优化原网络损失函数,解决CIoU Loss计算回归结果不准确的问题,从而提高模型对小型目标的检测精度。
附图说明
图1为基于多层级特征融合的无人机航拍小目标检测方法流程图。
图2为HBi-YOLOv8模型结构示意图。
图3为FPN、PAN、YOLOv8、Bi-FPN和HBi-YOLOv8结构对比图。
图4为EMA模块结构示意图。
图5为实施例中VisDrone2019数据集类别数量分布图。
图6为HBi-YOLOv8s模型与YOLOv8s模型的准确率指标对比图。
图7为HBi-YOLOv8s模型与YOLOv8s模型的召回率指标对比图。
图8为HBi-YOLOv8s模型与YOLOv8s模型的mAP50指标对比图。
图9为HBi-YOLOv8s模型与YOLOv8s模型的mAP50-95指标对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,提供一种基于多层级特征融合的无人机航拍小目标检测方法,包括:
S1、使用Bi-FPN对YOLOv8模型进行改进,得到HBi-YOLOv8模型;
S2、使用HBi-YOLOv8模型对无人机航拍图像进行小目标检测,得到三组预测结果;
S3、对三组预测结果进行解码和非极大值抑制,得到小目标检测结果。
如图2所示,在本发明的一个实施例中,所述S1中,HBi-YOLOv8模型包括第一卷积模块,所述第一卷积模块的输入端作为所述HBi-YOLOv8模型的输入端,所述第一卷积模块的输出端与第二卷积模块的输入端连接,所述第二卷积模块的输出端与第一跨级局部网络的输入端连接,所述第一跨级局部网络的第一输出端与第一EMA模块的输入端连接,所述第一跨级局部网络的第二输出端与第三带权特征融合模块的第二输入端连接,所述第一跨级局部网络的第三输出端与第四跨级局部网络的第二输入端连接;所述第一EMA模块的输出端与第三卷积模块的输入端连接,所述第三卷积模块的输出端与第二跨级局部网络的输入端连接,所述第二跨级局部网络的第一输出端与第二EMA模块的输入端连接,所述第二跨级局部网络的第二输出端与第二带权特征融合模块的第二输入端连接,所述第二跨级局部网络的第三输出端与第五跨级局部网络的第二输入端连接;所述第二EMA模块的输出端与第四卷积模块的输入端连接,所述第四卷积模块的输出端与第三跨级局部网络的输入端连接,所述第三跨级局部网络的第一输出端与第三EMA模块的输入端连接,所述第三跨级局部网络的第二输出端与第一带权特征融合模块的第二输入端连接,所述第三跨级局部网络的第三输出端与第六跨级局部网络的第二输入端连接;所述第三EMA模块的输出端与第五卷积模块的输入端连接,所述第五卷积模块的输出端与第四跨级局部网络的输入端连接,所述第四跨级局部网络的输出端与第四EMA模块的输入端连接,所述第四EMA模块的输出端与SPPF模块的输入端连接,所述SPPF模块的输出端与第一上采样模块的输入端连接,所述第一上采样模块的输出端与所述第一带权特征融合模块的第一输入端连接;
所述第一带权特征融合模块的输出端与第五跨级局部网络的输入端连接,所述第五跨级局部网络的第一输出端与第二上采样模块的输入端连接,所述第五跨级局部网络的第二输出端与所述第六带权特征融合模块的第三输入端连接;所述第二上采样模块的输出端与所述第二带权特征融合模块的第一输入端连接,所述第二带权特征融合模块的输出端连接与第六跨级局部网络的输入端连接,所述第六跨级局部网络的第一输出端与第三上采样模块的输入端连接,所述第六跨级局部网络的第二输出端与所述第五带权特征融合模块的第三输入端连接;所述第三上采样模块的输出端与所述第三带权特征融合模块的第一输入端连接,所述第三带权特征融合模块的输出端与第七跨级局部网络的输入端连接;
所述第七跨级局部网络的输出端与所述第四带权特征融合模块的第一输入端连接,所述第四带权特征融合模块的输出端与第七跨级局部网络的输入端连接,所述第七跨级局部网络的第一输出端与第六卷积模块的输入端连接,所述第七跨级局部网络的第二输出端与第一检测头的输入端连接;所述第六卷积模块的输出端与所述第五带权特征融合模块的第一输入端连接,所述第五带权特征融合模块的输出端与第八跨级局部网络的输入端连接,所述第八跨级局部网络的第一输出端与第七卷积模块的输入端连接;所述第八跨级局部网络的第二输出端与第二检测头的输入端连接,所述第七卷积模块的输出端与所述第六带权特征融合模块的第一输入端连接,所述第六带权特征融合模块的输出端与第九跨级局部网络的输入端连接,所述第九跨级局部网络的输出端与第三检测头的输入端连接。
在本实施例中,所述第一检测头、第二检测头和第三检测头均输出一组预测结果;
每组预测结果对应特定的锚框,包括坐标、类别置信度和类别概率。
FPN、PAN、YOLOv8、Bi-FPN和HBi-YOLOv8结构对比图如图3所示,图中,圆圈的蓝色由浅变深,分别对应着微小目标检测层,小型目标检测层,中型目标检测层,大型目标检测层。
FPN是一种自上而下的特征金字塔结构,旨在传递高层的语义特征向底层传递信息。然而,FPN在传递定位信息方面效果较差。在FPN的基础上,PAN增加了一个自下而上的特征金字塔,用于将底层的定位特征传递到顶层,形成一个同时包含语义信息和定位信息的特征金字塔。YOLOv8在PAN的思想基础上进行了进一步优化,简化了网络结构,去除了没有特征融合的节点。然而,这些特征融合方法对于小目标的定位和识别能力仍然较弱;Bi-FPN在基于PAN的思想上进行改进,删除了没有特征融合的节点,同时在同一层的原始输入节点和输出节点之间添加了额外的边,采用了加权特征融合的机制,以更好地保留渐进特征。
本申请提出的HBi-YOLOv8结构,在继承Bi-FPN的结构的基础上,做出一下的改进:
(1)添加了在Bi-FPN中删除了带有大量小目标信息的浅层的特征融合节点;
(2)在特征融合中的每一层中的原始输入节点和输出节点之间引入了一条额外的特征融合边;
(3)把第二层中的高分辨率的特征图引入到特征融合中,这样可以提取出更多的小目标信息;
(4)最后删除第5层,即大目标检测层,实现了微小目标的捕获,在大幅度降低参数量的同时,精度依然较高。
在注意力机制中,特征信息会根据学到的注意力权重进行加权处理,以弱化不相关或不重要的信息,从而提取并突出重要的特征。这种机制可以通过不同的注意力域来实现,通常包括通道域注意力、空间域注意力和混合域注意力。
YOLOv8网络结构中包含大量模块,其主要功能是学习残差特征。 因此,YOLOv8网络性能的优劣与模块特征学习的情况密切相关。由于无人机航拍条件下的目标具有检测物体多,部分目标过小,目标遮挡严重和环境条件多样的特点。原有的跨级局部网络对小目标的特征提取能力有所不足。
因此本申请为了进一步的增强网络的特征提取的能力,提升网络的特征表示的能力,本申请设计特征提取部分中的跨级局部网络后添加EMA注意力模块,EMA是一种高效的多尺度注意力机制,通过将部分通道进行重塑来避免通道降维,从而保留每一个通道的信息;同时EMA对全局信息进行编码,充分利用全局信息,使得网络具有更好的全局感知能力,从而实现对并行子网络通道的权重的调整;最后EMA模块通过跨纬度交互的方式融合两个并行子网络的输出特征。
本实施例中使用的EMA模块结构示意图如图4所示,所述第一EMA模块、第二EMA模块、第三EMA模块和第四EMA模块均使用该结构,且所述第一EMA模块、第二EMA模块、第三EMA模块和第四EMA模块对输入特征的处理方法相同,均包括:
A1、将输入特征按照通道数划分为G个子特征;
A2、对每个子特征分别进行两个ID全局平均池化操作,沿两个不同空间方向对信道进行编码,并将两个特征编码进行拼接,得到拼接后的编码;
A3、使拼接后的编码通过1x1卷积层后,分解为两个向量;
A4、对分解后的向量分别使用sigmoid非线性函数,拟合线性卷积上的2D二进制分布,得到两个拟合后的向量;
A5、将两个拟合后的向量与对应的子特征逐元素相乘,得到跨通道交互信息;
A6、对跨通道交互信息进行群体规范操作,并对群体规范后的跨通道交互信息分别进行softmax激活和平均池化操作,得到激活后的交互信息和平局池化后的交互信息;
A7、使每个子特征分别通过3x3卷积层,获得每个子特征的多尺度特征表示;
A8、对每个子特征的多尺度特征表示使用softmax激活函数,拟合线性变换,获得拟合线性变换后的多尺度特征表示;
A9、对每个子特征的多尺度特征表示进行平均池化操作,得到平均池化后的多尺度特征表示;
A10、将激活后的交互信息和平均池化后的多尺度特征表示进行矩阵相乘,将平局池化后的交互信息和拟合线性变换后的多尺度特征表示进行矩阵相乘,并将两个矩阵相乘的结果进行逐元素相加,得到子特征注意力图;
A11、使用矩阵点积运算将子特征注意力图和对应的子特征进行逐元素相乘,得到空间注意力图,作为EMA模块的输出。
由于EMA模块的输出与输入大小相同,可以直接添加到YOLOv8模型中。
所述S1中,HBi-YOLOv8模型的损失函数L total为:
其中,为控制曲线弧度的超参数,iou为一种用于评估两个边界框重叠程度的指标,通过计算两个区域的交集面积与它们的并集面积之比来衡量它们的重叠程度。L EIou为高效Iou损失;L IouIou损失,L dis为距离损失,L asp为高度损失。b gt为真实框,b为预测框,为欧式距离,h gt为真实框宽度,h为预测框宽度,c为真实框和预测框交集的面积,C w为真实框和预测框交集的宽度,C h为真实框和预测框交集的高度。
所述S2中,通过HBi-YOLOv8的主干网络CSPDarkNet对图像特征进行有效的提取,再主干网络中引入EAM注意力机制,使得网络在对图像特征进行提取时更加注重对于小目标的特征进行提取。而后经过颈部网络,在该部分网络中融合更加多的包含着大量小目标特征的高分辨率的特征图,丢弃了对小目标检测影响较小的低分辨率的特征图,从而使得网络更加注重对小目标特征信息的利用。通过对每个特征图进行上采样或3×3卷积操作大小分别为160×160、80×80和40×40的特征图,每组大小相同的特征图通过加权来使网络更加关注小目标所在的特征通道和空间位置,最后将大小相同的特征图按通道连接起来,得到大小分别为160×160、80×80和40×40的三组特征图;
所述S3中,对160×160、80×80和40×40三组特征图通过卷积和激活函数,将三组特征图的通道数映射到预测框数量乘以每个框的预测参数数量的输出通道数,之后将特征图通过解码操作将相对于特征图的边界框坐标映射到原始图像尺度上,之后通过Focal-EIOU损失函数调整映射到原始图像上边界框的位置,通过置信度损失和分类损失来确定边界框中的物体的种类和置信度,最后将结果进行非极大值抑制去除冗余的边界框,得到小目标检测结果。
在本发明的一个实施例中,为验证本方法的有效性,使用公开数据集VisDrone2019,进行实验验证;该数据集一共包含8599张由无人机位于高空拍摄的静态图像,其中6471张用于训练,548张用于验证,1580张用于测试。图像类别包括行人、人、自行车、汽车、面包车、卡车、三轮车、遮阳篷-三轮车、公共汽车和摩托车,一共260万个标注信息。其中训练集实例数量分布如图5所示。
本实施例的实验环境基于 PyTorch 深度学习框架,并在Ubuntu 操作系统下运行,使用 NVIDIA GeForce RTX 3090 GPU进行计算加速。实验环境参数如表1所示。
表1 实验环境参数
训练参数设置:训练轮次设置为200,批处理尺寸大小设置8,初始学习率为0.01,采用SGD优化器。输入图片尺寸为640×640。
在本实施例中,为了更准确地评估算法的性能,本申请采用了准确率Precision,召回率RecallmAP50、mAP50-95、参数量parameters和总浮点运算量FLOPs作为评价指标;
mAP50是IoU阈值等于0.5时所有类别的平均检测精度,mAP50-95 表示步长为0.05,计算IoU阈值从0.5-0.95的所有IoU阈值下的检测精度的平均值;
其中,AP由精确率Precision和召回率Recall计算得到,其表达式为:
其中,其中TP表示被预测为正例的正样本,FP表示被预测为正例的负样本,FN表示被预测为负例的正样本。
所述AP衡量模型在每个类别上的性能,mAP取所有类别AP的平均值,衡量模型在所有类别上的性能。mAP的表达式为:
其中,i为计数标识,n为AP类别数,P(R)为在特定的召回率值下模型的预测准确率。
在本实施例中,为了提升无人机航拍小目标的检测精度,提出了一系列的改进措施,并且以YOLOv8网络作为基线网络,进行了一系列的消融实验,实验结果如表2所示:
表2 消融实验结果
从表2中的消融实现结果分析可知,无论在单独添加HBi-fpnEMA还是Focal-EIoU还是将改进点进行两两组合都取得了mAP50值的提高,并且同时使用以上三个改进点可以得到最佳的mAP50值。最终,我们的模型参数量相较于原模型下降了18.5%,mAP50值和mAP50-95分别提升了9.3%和7.6%,表明本申请构建的算法在保持模型检测速率在一定值之上的同时,也可以显著提升小目标检测的平均精度。
为能更好表现本申请算法HBi-YOLOv8s改进的有效性,本申请选取出YOLOv8s基准算法与本申请算法HBi-YOLOv8s在训练过程中的准确率、召回率、mAP50和mAP50-954项指标来进行了对比,对比结果分别如图6、图7、图8和图9所示。从图6-图9中可以看出,本申请算法HBi-YOLOv8s的4项指标均高于基准算法YOLOv8s,这充分的表明了本申请的改进算法能有效提高检测精度。
在本实施例中,为了验证本文改进算法在面对VisDrone2019中的10个不同的类别时的性能都能有所提升,本申请采用YOLOv8s和本文中的HBi-YOLOv8s进行对比实验,比较时采用mAP50作为指标,结果见表3:
表3 各类别比较结果
从表3可以看出来改进后的HBi-YOLOv8s在每一个类别中的识别结果相比YOLOv8s都有显著提升,证明HBi-YOLOv8s更适合于无人机捕获场景下的目标检测。
在本发明的一个实施例中,为了进一步的说明本申请中提出的改进算法HBi-YOLOv8s在检测无人机航拍小目标时的有效性,证明算法的优势。
本申请将做两组对比实验,第一组是将本文算法HBi-YOLOv8s与YOLO系列算法进行对比。第二组则是与近年来在处理航拍小目标时涌现出来的检测效果优秀的其他算法进行对比,其结果分别如表4和表5所示:
表4 对YOLO系列算法的对比实验
从表4可以看出与YOLO系列的网络相比时,本文中提出的改进算法HBi-YOLOv8s相比无论是YOLOv4、YOLOv5、YOLOv6还是YOLOv8网络,对于无人航拍的小目标进行检测时,检测的精度都有着显著的领先;
表5 与各种新模型的对比
从表5的对比实验可以看出,本文提出的改进算法HBi-YOLOv8s与其他模型相比在进行对无人机航拍的小目标进行检测时具有更好的检测性能。结果表明,本文提出的方法在应对无人机航拍小目标检测问题上有着显著优势。
针对现有网络在检测无人机航拍场景中大量的小目标时容易出现漏检和误检的情况,本文从特征融合部分、添加注意力机制和定位回归损失函数方向修改YOLOv8s网络,得到了HBi-YOLOv8s网络,提高了网络在检测小目标时候的性能。
首先,我们设计了一个具有高分辨率特征映射的特征金字塔网络(HBi-FPN)。该方法通过直接结合来自高分辨率特征图的细粒度特征信息,其次结合Bi-FPN的思想在不增加太多成本的情况下融合更多特性,并且在特征融合的过程中引入对不同的特征图进行加权特征融合的方式,从而高效利用提取出的小目标特征信息。其次,在特征提取模块引入了EMA注意力机制。EMA注意力机制最大限度地提取并保留了小目标相关的特征和信息,从而增强了模型有效提取小目标特征的能力。最后,使用Focal-EIoU损失函数来优化原网络损失函数,解决CIoU Loss计算回归结果不准确的问题,从而提高模型对小目标的定位精度。在对VisDrone2019数据集进行检测的实验结果可以看出,本文提出的HBi-YOLOv8s算法在对航拍小目标进行检测时取得了显著的进步,在于近年来的一些相关优秀算法相比,也具有一定的优势性,在未来的任务中,将探讨如何 在降低计算复杂度的同时不降低小目标的检测精度,保持模型准确性的同时加快推理速度,以适应在计算资源有限的无人机航拍场景下的应用。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (5)

1.一种基于多层级特征融合的无人机航拍小目标检测方法,其特征在于,包括:
S1、使用Bi-FPN对YOLOv8模型进行改进,得到HBi-YOLOv8模型;
所述HBi-YOLOv8模型包括第一卷积模块,所述第一卷积模块的输入端作为所述HBi-YOLOv8模型的输入端,所述第一卷积模块的输出端与第二卷积模块的输入端连接,所述第二卷积模块的输出端与第一跨级局部网络的输入端连接,所述第一跨级局部网络的第一输出端与第一EMA模块的输入端连接,所述第一跨级局部网络的第二输出端与第三带权特征融合模块的第二输入端连接,所述第一跨级局部网络的第三输出端与第四带权特征融合模块的第二输入端连接;所述第一EMA模块的输出端与第三卷积模块的输入端连接,所述第三卷积模块的输出端与第二跨级局部网络的输入端连接,所述第二跨级局部网络的第一输出端与第二EMA模块的输入端连接,所述第二跨级局部网络的第二输出端与第二带权特征融合模块的第二输入端连接,所述第二跨级局部网络的第三输出端与第五带权特征融合模块的第二输入端连接;所述第二EMA模块的输出端与第四卷积模块的输入端连接,所述第四卷积模块的输出端与第三跨级局部网络的输入端连接,所述第三跨级局部网络的第一输出端与第三EMA模块的输入端连接,所述第三跨级局部网络的第二输出端与第一带权特征融合模块的第二输入端连接,所述第三跨级局部网络的第三输出端与第六带权特征融合模块的第二输入端连接;所述第三EMA模块的输出端与第五卷积模块的输入端连接,所述第五卷积模块的输出端与第四跨级局部网络的输入端连接,所述第四跨级局部网络的输出端与第四EMA模块的输入端连接,所述第四EMA模块的输出端与SPPF模块的输入端连接,所述SPPF模块的输出端与第一上采样模块的输入端连接,所述第一上采样模块的输出端与所述第一带权特征融合模块的第一输入端连接;
所述第一带权特征融合模块的输出端与第五跨级局部网络的输入端连接,所述第五跨级局部网络的第一输出端与第二上采样模块的输入端连接,所述第五跨级局部网络的第二输出端与所述第六带权特征融合模块的第三输入端连接;所述第二上采样模块的输出端与所述第二带权特征融合模块的第一输入端连接,所述第二带权特征融合模块的输出端连接与第六跨级局部网络的输入端连接,所述第六跨级局部网络的第一输出端与第三上采样模块的输入端连接,所述第六跨级局部网络的第二输出端与所述第五带权特征融合模块的第三输入端连接;所述第三上采样模块的输出端与所述第三带权特征融合模块的第一输入端连接,所述第三带权特征融合模块的输出端与第七跨级局部网络的输入端连接;
所述第七跨级局部网络的输出端与所述第四带权特征融合模块的第一输入端连接,所述第四带权特征融合模块的输出端与第七跨级局部网络的输入端连接,所述第七跨级局部网络的第一输出端与第六卷积模块的输入端连接,所述第七跨级局部网络的第二输出端与第一检测头的输入端连接;所述第六卷积模块的输出端与所述第五带权特征融合模块的第一输入端连接,所述第五带权特征融合模块的输出端与第八跨级局部网络的输入端连接,所述第八跨级局部网络的第一输出端与第七卷积模块的输入端连接;所述第八跨级局部网络的第二输出端与第二检测头的输入端连接,所述第七卷积模块的输出端与所述第六带权特征融合模块的第一输入端连接,所述第六带权特征融合模块的输出端与第九跨级局部网络的输入端连接,所述第九跨级局部网络的输出端与第三检测头的输入端连接;
S2、使用HBi-YOLOv8模型对无人机航拍图像进行小目标检测,得到三组预测结果;
S3、对三组预测结果进行解码和非极大值抑制,得到小目标检测结果。
2.根据权利要求1所述的基于多层级特征融合的无人机航拍小目标检测方法,其特征在于,所述第一检测头、第二检测头和第三检测头均输出一组预测结果;
每组预测结果对应特定的锚框,包括坐标、类别置信度和类别概率。
3.根据权利要求1所述的基于多层级特征融合的无人机航拍小目标检测方法,其特征在于,所述第一EMA模块、第二EMA模块、第三EMA模块和第四EMA模块对输入特征的处理方法相同,均包括:
A1、将输入特征按照通道数划分为G个子特征;
A2、对每个子特征分别进行两个ID全局平均池化操作,沿两个不同空间方向对信道进行编码,并将两个特征编码进行拼接,得到拼接后的编码;
A3、使拼接后的编码通过1x1卷积层后,分解为两个向量;
A4、对分解后的向量分别使用sigmoid非线性函数,拟合线性卷积上的2D二进制分布,得到两个拟合后的向量;
A5、将两个拟合后的向量与对应的子特征逐元素相乘,得到跨通道交互信息;
A6、对跨通道交互信息进行群体规范操作,并对群体规范后的跨通道交互信息分别进行softmax激活和平均池化操作,得到激活后的交互信息和平局池化后的交互信息;
A7、使每个子特征分别通过3x3卷积层,获得每个子特征的多尺度特征表示;
A8、对每个子特征的多尺度特征表示使用softmax激活函数,拟合线性变换,获得拟合线性变换后的多尺度特征表示;
A9、对每个子特征的多尺度特征表示进行平均池化操作,得到平均池化后的多尺度特征表示;
A10、将激活后的交互信息和平均池化后的多尺度特征表示进行矩阵相乘,将平局池化后的交互信息和拟合线性变换后的多尺度特征表示进行矩阵相乘,并将两个矩阵相乘的结果进行逐元素相加,得到子特征注意力图;
A11、使用矩阵点积运算将子特征注意力图和对应的子特征进行逐元素相乘,得到空间注意力图,作为EMA模块的输出。
4.根据权利要求1所述的基于多层级特征融合的无人机航拍小目标检测方法,其特征在于,所述S1中,HBi-YOLOv8模型的损失函数L total为:
其中,为控制曲线弧度的超参数,iou为一种用于评估两个边界框重叠程度的指标,通过计算两个区域的交集面积与它们的并集面积之比来衡量它们的重叠程度,L EIou为高效Iou损失;L IouIou损失,L dis为距离损失,L asp为高度损失,b gt为真实框,b为预测框,为欧式距离,h gt为真实框高度,h为预测框高度,c为真实框和预测框交集的面积,C w为真实框和预测框交集的宽度,C h为真实框和预测框交集的高度。
5.根据权利要求1所述的基于多层级特征融合的无人机航拍小目标检测方法,其特征在于,所述S3包括:
S31、将三组预测结果分别通过卷积和激活函数,将三组预测结果的通道数映射到预测框数量并乘以每个框的预测参数数量的输出通道数,得到预处理后的特征图;
S32、将预处理后的特征图进行解码操作,将预处理后的特征图的边界框坐标映射到原始图像的尺度,得到坐标映射后的特征图;
S33、将坐标映射后的特征图,通过损失函数调整映射到原始图像上边界框的位置,得到调整后的特征图;
S34、通过置信度损失和分类损失来确定调整后的特征图的边界框中的物体的种类和置信度,得到第一检测结果;
S35、对第一检测结果进行非极大值抑制去除冗余的边界框,得到小目标检测结果。
CN202410461077.2A 2024-04-17 2024-04-17 一种基于多层级特征融合的无人机航拍小目标检测方法 Active CN118072146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410461077.2A CN118072146B (zh) 2024-04-17 2024-04-17 一种基于多层级特征融合的无人机航拍小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410461077.2A CN118072146B (zh) 2024-04-17 2024-04-17 一种基于多层级特征融合的无人机航拍小目标检测方法

Publications (2)

Publication Number Publication Date
CN118072146A CN118072146A (zh) 2024-05-24
CN118072146B true CN118072146B (zh) 2024-07-05

Family

ID=91100722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410461077.2A Active CN118072146B (zh) 2024-04-17 2024-04-17 一种基于多层级特征融合的无人机航拍小目标检测方法

Country Status (1)

Country Link
CN (1) CN118072146B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853955A (zh) * 2023-12-28 2024-04-09 中国计量大学 一种基于改进YOLOv5的无人机小目标检测方法
CN117876737A (zh) * 2023-11-30 2024-04-12 中国南方电网有限责任公司超高压输电公司贵阳局 基于改进YOLOv8的变电站呼吸器变色检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881020B1 (en) * 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876737A (zh) * 2023-11-30 2024-04-12 中国南方电网有限责任公司超高压输电公司贵阳局 基于改进YOLOv8的变电站呼吸器变色检测方法
CN117853955A (zh) * 2023-12-28 2024-04-09 中国计量大学 一种基于改进YOLOv5的无人机小目标检测方法

Also Published As

Publication number Publication date
CN118072146A (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN112949633B (zh) 一种基于改进YOLOv3的红外目标检测方法
CN112801027B (zh) 基于事件相机的车辆目标检测方法
CN112581409B (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN113723377B (zh) 一种基于ld-ssd网络的交通标志检测方法
CN117095368A (zh) 一种基于yolov5融合多目标特征增强网络和注意力机制的交通小目标检测方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN111008979A (zh) 一种鲁棒的夜晚图像语义分割方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN117011728A (zh) 基于改进YOLOv7的无人机航拍目标检测方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
Wu et al. Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
CN117115616A (zh) 一种基于卷积神经网络的实时低照度图像目标检测方法
CN116311154A (zh) 一种基于YOLOv5模型优化的车辆检测与识别方法
CN116863227A (zh) 一种基于改进YOLOv5的危化品车辆检测方法
CN118072146B (zh) 一种基于多层级特征融合的无人机航拍小目标检测方法
CN116363072A (zh) 一种轻型航拍图像检测方法及系统
CN114882490B (zh) 一种基于点引导定位的无受限场景车牌检测分类方法
CN114639084A (zh) 一种基于ssd改进算法的路侧端车辆感知方法
Xia et al. Research on Traffic Accident Detection Based on Vehicle Perspective
CN118397602B (zh) 一种智能路牌识别车载摄像头系统
CN114882454B (zh) 一种基于深度学习的城市高空视角下车辆的检测方法
Yang et al. Traffic Conflicts Analysis in Penang Based on Improved Object Detection With Transformer Model
CN117710755B (zh) 一种基于深度学习的车辆属性识别系统及方法
CN118314333B (zh) 一种基于Transformer架构的红外图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant