CN116721368A - 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 - Google Patents
一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 Download PDFInfo
- Publication number
- CN116721368A CN116721368A CN202310775421.0A CN202310775421A CN116721368A CN 116721368 A CN116721368 A CN 116721368A CN 202310775421 A CN202310775421 A CN 202310775421A CN 116721368 A CN116721368 A CN 116721368A
- Authority
- CN
- China
- Prior art keywords
- feature
- target detection
- global
- network
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 230000002776 aggregation Effects 0.000 title claims abstract description 31
- 238000004220 aggregation Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000005259 measurement Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 10
- 238000002679 ablation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,包括:构建目标检测网络;目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;主干网络由坐标和全局信息聚合模块组成;坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支;对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal‑EIOU loss作为模型的边界框损失;基于目标检测模型对无人机航拍图像进行多尺度目标检测。本发明通过结合坐标信息和全局信息来缓解特征提取过程中背景因素的干扰,增强了网络提取鲁棒性特征的能力;本发明设计的多重特征融合网络,可以使更好地融合多尺度特征,改善多尺度目标的检测性能。
Description
技术领域
本发明涉及无人机图像目标检测技术领域,尤其涉及一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法。
背景技术
无人机应用技术在近年来也取得了很大的进展。由于无人机具有成本较低、机动性好、方便使用的优势,无论是对于军事还是民用领域都有很大的应用价值。无人机图像目标检测也因此成为了近年来的研究热点。然而,大多目标检测方法在无人机图像上的特征提取能力有限,检测性能受限,无法达到较高检测精度的要求。因此一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法是一项有意义的课题。
许多基于卷积神经网络的检测模型都取得了良好的效果,然而,由于无人机图像的特殊性,普通目标检测框架无法很好地适用于无人机图像,相比于在自然图像上进行目标检测工作,无人机图像上的目标检测工作通常面临以下几点挑战:
(1)无人机图像中,通常会有很多目标被遮挡的情况,同时由于光线的原因导致目标的边界和特征变得不明显,模型很难提取出具有判别性特征。
(2)因为无人机拍摄视角的问题,无论是同一类别的目标还是不同类别的目标,其尺度存在很大差距,且小目标居多,非常考验模型对多尺度目标和小目标的特征提取能力。
(3)现有模型的边界框回归损失函数存在缺陷,不能很好的对边界框进行回归,从而降低检测器的性能。
发明内容
本发明针对上述问题,提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,可以对拍摄角度复杂多变的无人机图像进行精确的检测工作。本发明通过结合坐标信息和全局信息来缓解特征提取过程中背景因素的干扰,增强网络提取鲁棒性特征的能力。为了提高模型对多尺度目标的检测能力,本发明通过对特征融合网络进行改进,设计出了一种名为多重特征融合网络(Multi-Feature Fusion Pyramid Network,MF-FPN)的结构,可以更好地融合多尺度特征,改善多尺度目标的检测性能。为了提高模型边界框回归的能力,本发明使用Focal-EIOU损失函数来替换模型原本的边界框回归损失,改善模型的检测性能。本发明使用具有挑战性的VisDrone数据集进行实验,以验证所提出模型的有效性。
为了实现上述目的,本发明采用以下技术方案:
一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,包括:
步骤1:构建目标检测网络;所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;所述主干网络用于提取输入无人机图像的特征信息,并输出不同大小的特征图;所述多重特征融合网络用于对不同大小的特征图进行特征融合;所述预测头用于基于融合后特征进行检测,来获得最终的检测结果;所述主干网络由坐标和全局信息聚合模块组成;所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支,坐标信息提取分支通过引入注意力机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息,全局信息提取分支通过池化操作来获得特征图全局信息,最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征;
步骤2:对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal-EIOUloss作为模型的边界框损失;
步骤3:基于目标检测模型对无人机航拍图像进行多尺度目标检测。
进一步地,所述坐标信息提取分支的处理流程包括:
首先使用1×1卷积将输入特征图的通道数减半,获得第一个中间特征图M1;
然后使用3×3卷积和注意力机制来提取目标特征,获得第二个和第三个中间输出特征图M2,M3:
M2=CA(Conv3×3(CA(Conv3×3(M1))))
M3=CA(Conv3×3(CA(Conv3×3(M2))))
式中,CA表示注意力机制。
进一步地,所述注意力机制的处理流程包括:
首先对输入特征图F∈RC×H×W进行水平方向和垂直方向上的池化操作,获得两个具有方向感知的特征图fh∈RC×H×1和fw∈RC×1×W:
其中fc和Fc分别表示输出和输入特征图的第c个通道,H和W分别表示输入特征图的高和宽;
然后,将fh和fw在空间维度上进行Concat操作,之后使用1×1卷积减少通道数,再通过批归一化和激活函数来获得特征其中r是用来降低通道数的缩放因子;
M=δ(BN(Conv1×1([fh,fw])))
其中[·]表示通道Concat操作,BN表示批归一化,δ表示非线性激活函数;然后,将M从空间维度进行分割,获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作,来将通道数提升到与输入特征图的通道数相同,再通过Sigmoid函数得到注意力权重gh和gw:
gh=σ(Conv1×1(yh))
gw=σ(Conv1×1(yw))
其中σ表示sigmoid函数;
最后将gh和gw与输入特征图F进行相乘,得到最后的输出特征图Y∈RC×H×W:
进一步地,所述全局信息提取分支的处理流程包括:
先使用全局池化操作来增加骨干网的全局上下文信息,对于输入特征X∈RC×H×W,首先进行全局平均池化操作和全局最大池化操作,然后将二者结果相加,再通过一个全连接层和Sigmoid函数来为每个通道分配权重,令模型关注高响应的通道信息:
其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。
σ表示sigmoid函数;
然后,将结果与输入特征X相乘,再经过一个1×1卷积将通道数减半,得到全局信息提取分支的输出特征
进一步地,按照以下方式将两个分支提取的特征进行融合:
将两个分支的所有中间输出特征M1、M2、M3、M4首先进行通道Concat操作,然后使用1×1卷积整理通道信息,得到最后的输出特征图Z∈R2C×H×W。
进一步地,所述多重特征融合网络中的特征融合方式包括:
对于只需要融合两个特征图的情况,为两个待融合特征图分配两个可学习的权重,来决定每个特征图的重要性:
其中P为F1、F2融合后特征,F1、F2为待融合的两个特征图,w1、w2为可学习的权重,Δ是一个很小的数,用来避免数值的不稳定;
对于融合三个特征图的情况,首先将待融合的三个特征图进行两两融合,其中每个特征都会参与两次融合,达到重复利用的效果,然后获得三个不同的中间特征图,最后为获得的三个中间特征图分配三个可学习的权重进行融合,获得具有丰富上下文信息的输出特征,用于最后的预测。
与现有技术相比,本发明具有的有益效果:
1)设计了一个坐标和全局信息聚合模块,通过将局部信息、坐标信息和全局信息进行融合,来获得更具鲁棒性的特征,从而提高模型的特征提取能力。
2)设计出一种多重特征融合金字塔网络,可以更好地解决无人机航拍图像物体尺度变化大的问题。
3)使用Focal-EIOU loss作为模型的边界框回归损失,来提高检测框的质量,同时提高模型的收敛速度。
4)本发明方法在VisDrone数据集的实验表明,与其他算法相比,本发明方法在无人机图像目标检测中具有较好的性能。从消融实验中可以看出,本发明提出的每个改进模块都能够有效的提高检测精度。因此,本发明所提出的方法相对现有的目标检测算法更适用于无人机图像的目标检测,对无人机图像的目标检测工作的研究具有重要的现实意义。
附图说明
图1为本发明实施例一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法的总体网络结构示意图;
图2为本发明实施例坐标和全局信息聚合模块结构示意图;
图3为本发明实施例注意力机制结构示意图;
图4为本发明实施例MF-FPN的特征融合模块结构示意图;
图5为本发明实施例VisDrone数据集不同场景下的检测结果;其中(a1-a4)为YOLOv7的检测结果;(b1-b4)为本发明所提出方法的检测结果。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,包括:
步骤1:构建目标检测网络;所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;所述主干网络用于提取输入无人机图像的特征信息,并输出不同大小的特征图;所述多重特征融合网络用于对不同大小的特征图进行特征融合;所述预测头用于基于融合后特征进行检测,来获得最终的检测结果;所述主干网络由坐标和全局信息聚合模块组成;所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支,坐标信息提取分支通过引入注意力机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息,全局信息提取分支通过池化操作来获得特征图全局信息,最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征;
步骤2:对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal-EIOUloss作为模型的边界框损失;
步骤3:基于目标检测模型对无人机航拍图像进行多尺度目标检测。
进一步地,对本发明进行如下展开阐述:
(1)总体网络结构
本发明提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其总体网络结构如图1所示。网络由主干网络(Backbone)、多重特征融合网络(Multi-Feature Fusion Pyramid Network,MF-FPN)和预测头(Head)三部分组成。首先,通过主干网络,来提取输入无人机图像的特征信息,为了检测不同尺寸的目标,主干网络输出了几种不同大小的特征图(分别是160×160、80×80、40×40和20×20),其中,我们将主干网络的四个输出特征图作为特征融合网络的输入。然后,将提取出的不同尺寸的特征信息,送到多重特征融合网络进行特征融合,以获得具有丰富上下文信息的三个不同尺度的特征图。最后,这些特征图将送到预测头进行检测,来获得最终的检测结果。
(2)主干网络(Backbone Network)
主干网络主要由我们设计的坐标和全局信息聚合模块(Coordinate and GlobalInformation Aggregation Module,CGAM)组成,该模块能够捕获局部信息、坐标信息和全局信息,并将其融合,从而缓解背景因素的干扰,获得更具鲁棒性的特征。CGAM模块主要包括两个分支。第一个分支通过引入Coordinate Attention(注意力)机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息。第二个分支通过池化操作来获得特征图全局信息。通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征。坐标和全局信息聚合模块如图2所示。
1)坐标信息提取分支:CGAM的第一个分支首先使用1×1卷积将输入特征图X∈RC ×H×W的通道数减半,获得第一个中间特征图如公式(1)所示:
M1=Conv1×1(X)#(1)
然后,使用3×3卷积和Coordinate Attention机制来提取目标特征,获得第二个和第三个中间输出特征图M2,如公式(2)(3)所示:
M2=CA(Conv3×3(CA(Conv3×3(M1))))#(2)
M3=CA(Conv3×3(CA(Conv3×3(M2))))#(3)
其中,CA表示Coordinate Attention机制。Coordinate Attention机制的结构如图3所示。
Coordinate Attention机制首先对输入特征图F∈RC×H×W进行水平方向和垂直方向上的池化操作,获得两个具有方向感知的特征图fh∈RC×H×1和fw∈RC×1×W。如公式(4)(5)所示:
其中fc和Fc分别表示输出和输入特征图的第c个通道。H和W分别表示输入特征图的高和宽。然后,将fh和fw在空间维度上进行Concat,之后使用1×1卷积减少通道数。再通过Batch Normalization和激活函数来获得特征 其中r是用来降低通道数的缩放因子;Batch Normalization(批归一化)用来避免梯度爆炸或梯度消失,使模型训练更加稳定;激活函数用来引入非线性因素,提高模型的表达能力。如公式(6)所示:
M=δ(BN(Conv1×1([fh,fw])))#(6)
其中[·]表示通道Concat操作,BN表示Batch Normalization,δ表示非线性激活函数。然后,将M从空间维度进行分割,获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作,来将通道数提升到与输入特征图的通道数相同,再通过Sigmoid函数得到注意力权重gh和gw。如公式(7)(8)所示:
gh=σ(Conv1×1(yh))#(7)
gw=σ(Conv1×1(yw))#(8)
其中σ表示sigmoid函数。最后将gh和gw与输入特征图F进行相乘,得到最后的输出特征图Y∈Rc×H×W。如公式(9)所示:
2)全局信息提取分支:CGAM模块的第二个分支先使用全局池化操作来增加骨干网的全局上下文信息。对于输入特征X∈RC×H×W,首先进行全局平均池化操作和全局最大池化操作,然后将二者结果相加,再通过一个全连接层和Sigmoid函数来为每个通道分配权重,令模型关注高响应的通道信息。具体如公式(10)所示:
其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。σ表示sigmoid函数。然后,将结果与输入特征X相乘,再经过一个1×1卷积将通道数减半,得到第二个分支的输出特征如公式(11)所示:
3)特征融合:CGAM模块将两个分支的所有中间输出特征M1、M2、M3、M4首先进行通道Concat操作,然后使用1×1卷积整理通道信息,得到最后的输出特征图Z∈R2C×H×W。如公式(12)所示:
Z=Conv1×1([M1,M2,M3,M4])#(12)
(3)多重特征融合网络(Multi-Feature Fusion Pyramid Network,MF-FPN)
无人机图像中的目标尺度变化极大,且小目标居多。为了改善多尺度目标的检测性能,提出了MF-FPN特征融合结构,该结构通过重复利用特征图进行融合,来获得更多的上下文信息。为了缓解小目标检测困难的问题,将大小为160×160的特征图加入到MF-FPN结构中进行融合。如图4所示,本发明在Neck模块中新增了一条跳跃连接的融合路径。MF-FPN的特征融合方式如图4所示。
特征融合方式主要有两种。如果只需要融合两个特征图,例如:Neck中的自上而下的路径,则使用如图4(a)所示的方式,该方式为两个待融合特征图分配两个可学习的权重,来决定每个特征图的重要性。如公式(13)所示:
其中P(F1,F2)为F1、F2融合后特征,F1、F2为待融合的两个特征图,w1,w2为可学习的权重。Δ是一个很小的数,用来避免数值的不稳定。
对于融合三个特征图的情况,本发明采用图4(b)的方式进行对三个特征进行融合,具体过程如公式(14)。本发明首先对这三个特征图使用公式(13)进行两两融合,每个特征都会参与两次融合,达到重复利用的效果。然后获得三个不同的中间特征图,最后为这三个特征图分配三个可学习的权重进行融合,获得具有丰富上下文信息的输出特征,用于最后的预测。
其中N(F1,F2,F3)为F1、F2、F3融合后特征。
由于融合特征包含不同尺度和不同通道数的特征图,因此在融合之前需要将特征图的大小和通道数调整到一致。
为了保留更多的特征信息,模型中卷积的通道数通常很大,而较大的通道数会给模型带来更多的参数量。卷积所需参数量的计算公式如下所示:
Params=Kh×Kw×Cin×Cout#(15)
其中,Kh和Kw分别是卷积核的高和宽。Cin和Cout表示卷积的输入和输出通道数。因此为了降低模型需要的参数量,本发明把模型Neck结构中的卷积通道数进行了修改,首先是自上而下路径中三个ELAN-H模块中的3×3卷积的输入和输出通道数都调整到32,然后将自下而上路径中ELAN-H模块的前两个1×1卷积的输出通道数调整为输入通道数的1/4。
(4)损失函数(Loss Function)
为了帮助模型更准确地回归边界框,并提高模型的收敛速度,本发明使用Focal-EIOU loss作为模型的边界框损失。其定义如下:
LFocal-EIOU=IOUγLEIOU#(16)
其中,IOU是预测框和真值框之间交集和并集的比值。γ是一个可调整的参数,设置为0.5。LEIOU表示EIOU loss。IOU和LEIOU的定义如公式(17)和(18)所示:
其中,ρ表示欧几里得公式。b和bgt分别表示预测框和真值框的中心点。wgt和hgt分别是真值框的宽高,w和h是预测框的宽高。c表示预测框和真值框的最小外接矩形的对角线长度。hc,wc是预测框和真值框之间的最小外接矩形的高和宽。B和Bgt分别表示预测框和真值框。
Focal-EIOU loss通过对预测框的中心点、宽度和高度进行回归,能够获得更准确的检测结果。同时Focal-EIOU loss可以让高质量的锚框为模型贡献更多的梯度,从而提高模型的收敛速度。
为验证本发明效果,进行如下实验:
将本发明提出的目标检测方法在Ubuntu 18.04.6LTS系统上进行验证,以NVIDIAGeForce RTX 3090(24G)为图形处理单元进行训练和测试,CPU为Intel(R)Xeon(R)Silver4114CPU@2.20GHz,Python版本为3.6,CUDA版本为11.7,Pytorch版本为1.10.2。
在模型训练时,输入图像大小为640×640,使用带动量的Stochastic GradientDescent(SGD)优化器进行训练。动量参数设置为0.937,初始学习率设置为0.01,权重衰减系数设置为0.0005,batch size设置为8,训练迭代总数为300次。
我们在VisDrone数据集上进行了实验,并与其他检测方法进行了对比。如表1所示,本发明的检测方法优于其他方法,获得了最好的结果。与YOLOv7相比,所提出的模型提高了1.9%的mAP0.5,mAP0.75和mAP分别提高了1.6%和1.2%。本发明的模型对于中小目标的检测性能有很大提升,用于评价小目标检测性能的APS相对于YOLOv7提高了1.3%,评价中等目标检测性能的APM提高了1.2%,用于评价大目标检测性能的APL虽然有所降低,但仅降低了0.4%,我们认为所提出的模型对于多尺度目标的检测利大于弊。与QueryDet相比,虽然本发明的模型仅提高了0.6%的mAP0.75,但mAP0.5和mAP分别提高了2.8%和1%。与RetinaNet、Cascade-RCNN、Faster-RCNN、YOLOv3、YOLOX、YOLOv51和HawkNet相比,无论是mAP0.5、mAP0.75和mAP还是多尺度目标检测性能的评价指标APS、APM、APL,所提出的方法都获得了最好的结果。
表1本发明的方法与其他方法在VisDrone数据集上的实验结果对比。
Method | mAP0.5 | mAP0.75 | mAP | APs | APM | APL |
RetinaNet | 35.9 | 18.5 | 19.4 | 14.1 | 29.5 | 33.7 |
Cascade R-CNN | 39.9 | 23.4 | 23.2 | 16.5 | 36.8 | 39.4 |
Faster R-CNN | 40.0 | 20.6 | 21.5 | 15.4 | 34.6 | 37.1 |
YOLOv3 | 31.4 | 15.3 | 16.4 | 8.3 | 26.7 | 36.9 |
YOLOX | 45.0 | 26.6 | 26.7 | 17.4 | 37.9 | 45.3 |
YOLOv51 | 36.2 | 20.1 | 20.5 | 12.4 | 29.9 | 36.4 |
HawkNet | 44.3 | 25.8 | 25.6 | 19.9 | 36.0 | 39.1 |
QueryDet | 48.1 | 28.8 | 28.3 | \ | \ | \ |
YOLOv7 | 49.0 | 27.8 | 28.1 | 18.9 | 39.4 | 47.8 |
Ours | 50.9 | 29.4 | 29.3 | 20.2 | 40.6 | 47.4 |
为了更直观的表示本发明提出的检测方法的优势,我们给出了几张不同场景图像的检测结果。如图5所示,其中(a1)-(a4)为YOLOv7的检测结果,(b1)-(b4)为所提出方法的检测结果。由图5(a1)和(b1)中的红色虚线框部分可以看出,YOLOv7将地上的字识别成了car,而本发明的方法可以很好的识别其为背景。由图5(a2)和(b2)可以看出,对于两个紧挨着的特征很相似的目标,本发明的方法也能将其区分开来。由于小目标的特征不明显,网络学习比较困难,很容易将周围相似的背景识别为目标,而本发明改进后的检测方法提高了检测小目标的准确性,可以很好的将背景区分开来,如图5(a3)和(b3)所示。此外,我们还测试了夜间场景下的检测效果,如图5(a4)和(b4)中的红色虚线框部分所示,YOLOv7没有将其检测出来,而本发明的方法很准确的将其标记了出来。
我们还列出了每一个类别的mAP0.5,来更详细的描述本发明的方法对于哪些类别有更好的提升。如表2所示,本发明的方法在每一个类别上的mAP0.5都高于其他方法。此外,除了tricycle这一类别的结果和YOLOv7相同,其他类别都有了很大提升,尤其是bicycle和bus这两个类别分别提升了3.8%和3.3%。由此可见本发明所提出方法的有效性。
表2 VisDrone数据集上每一个类别的结果对比。
Method | pedestrian | people | bicycle | car | van | truck | tricycle | awing-tricycle | bus | motor | mAP0.5 |
YOLOv3 | 12.8 | 7.8 | 4.0 | 43.0 | 23.5 | 16.5 | 9.5 | 5.1 | 29.0 | 12.5 | 31.4 |
YOLOv5l | 44.4 | 36.8 | 15.6 | 73.9 | 39.2 | 36.2 | 22.6 | 11.9 | 50.5 | 42.8 | 37.4 |
YOLOv7 | 57.6 | 48.7 | 21.6 | 85.4 | 51.9 | 45.8 | 37.9 | 18.3 | 63.0 | 60.0 | 49.0 |
Ours | 59.7 | 50.7 | 25.4 | 86.2 | 53.4 | 47.4 | 37.9 | 20.2 | 66.3 | 61.6 | 50.9 |
为了验证三种改进方法的有效性,我们在VisDrone数据集上进行了消融实验。如表3所示,我们使用YOLOv7作为基线,并在VisDrone数据集上获得了49%的mAP。而本发明提出的每一种改进方法都能使检测性能取得一定程度的提升。并且所提出的集成了三个改进点后的完整检测方法与YOLOv7相比,Precision提高了0.5%,Recall提高了2.1%,mAP0.5提高了1.9%,并且参数量比YOLOv7低了0.7M。
表3 VisDrone数据集上的消融实验。
综上,本发明的关键改进点在于:
(1)本发明提出一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,可以对无人机拍摄的图像进行更精确检测工作。
(2)为了减轻背景因素对网络提取特征过程的干扰,设计了一个坐标和全局信息聚合模块,它能同时提取坐标信息、全局信息和局部信息,并将它们融合来得到更具鲁棒性的特征,从而更准确的定位目标。
(3)为了更好地检测多尺度目标,设计了一个多重特征融合网络,通过重复利用特征图,并使用可学习权重来更好地融合不同尺度的特征,可以更好地解决无人机航拍图像物体尺度变化大的问题。
(4)为了获得更准确的检测结果,并提高模型的收敛速度,使用Focal-EIOU loss代替模型原有的边界框回归损失。
(5)我们使用具有挑战性的VisDrone数据集进行实验,以验证我们改进的网络结构,同时我们还通过一系列的对比实验和消融实验,来评估和分析我们所提出的每种改进的效果。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,包括:
步骤1:构建目标检测网络;所述目标检测网络由主干网络、多重特征融合网络和预测头三部分组成;所述主干网络用于提取输入无人机图像的特征信息,并输出不同大小的特征图;所述多重特征融合网络用于对不同大小的特征图进行特征融合;所述预测头用于基于融合后特征进行检测,来获得最终的检测结果;所述主干网络由坐标和全局信息聚合模块组成;所述坐标和全局信息聚合模块包括坐标信息提取分支和全局信息提取分支,坐标信息提取分支通过引入注意力机制,令其在使用卷积进行特征提取的同时时刻关注坐标信息,全局信息提取分支通过池化操作来获得特征图全局信息,最终通过将两个分支提取的特征进行融合来获得具有更丰富上下文信息的特征;
步骤2:对构建的目标检测网络进行训练,得到目标检测模型,并采用Focal-EIOU loss作为模型的边界框损失;
步骤3:基于目标检测模型对无人机航拍图像进行多尺度目标检测。
2.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述坐标信息提取分支的处理流程包括:
首先使用1×1卷积将输入特征图的通道数减半,获得第一个中间特征图M1;
然后使用3×3卷积和注意力机制来提取目标特征,获得第二个和第三个中间输出特征图M2,M3:
M2=CA(Conv3×3(CA(Conv3×3(M1))))
M3=CA(Conv3×3(CA(Conv3×3(M2))))
式中,CA表示注意力机制。
3.根据权利要求2所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述注意力机制的处理流程包括:
首先对输入特征图F∈RC×H×W进行水平方向和垂直方向上的池化操作,获得两个具有方向感知的特征图fh∈RC×H×1和fw∈RC×1×W:
其中fc和Fc分别表示输出和输入特征图的第c个通道,H和W分别表示输入特征图的高和宽;
然后,将fh和fw在空间维度上进行Concat操作,之后使用1×1卷积减少通道数,再通过批归一化和激活函数来获得特征其中r是用来降低通道数的缩放因子;
其中[·]表示通道Concat操作,BN表示批归一化,δ表示非线性激活函数;
然后,将M从空间维度进行分割,获得两个特征张量和/>将这两个特征张量分别进行1×1卷积操作,来将通道数提升到与输入特征图的通道数相同,再通过Sigmoid函数得到注意力权重gh和gw:
gh=σ(Conv1×1(yh))
gw=σ(Conv1×1(yw))
其中σ表示sigmoid函数;
最后将gh和gw与输入特征图F进行相乘,得到最后的输出特征图Y∈RC×H×W:
4.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述全局信息提取分支的处理流程包括:
先使用全局池化操作来增加骨干网的全局上下文信息,对于输入特征X∈RC×H×W,首先进行全局平均池化操作和全局最大池化操作,然后将二者结果相加,再通过一个全连接层和Sigmoid函数来为每个通道分配权重,令模型关注高响应的通道信息:
其中GAP和GMP分别表示全局平均池化和全局最大池化。FC表示全连接层。σ表示sigmoid函数;
然后,将结果与输入特征X相乘,再经过一个1×1卷积将通道数减半,得到全局信息提取分支的输出特征
5.根据权利要求4所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,按照以下方式将两个分支提取的特征进行融合:
将两个分支的所有中间输出特征M1、M2、M3、M4首先进行通道Concat操作,然后使用1×1卷积整理通道信息,得到最后的输出特征图Z∈R2C×H×W。
6.根据权利要求1所述的一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法,其特征在于,所述多重特征融合网络中的特征融合方式包括:
对于只需要融合两个特征图的情况,为两个待融合特征图分配两个可学习的权重,来决定每个特征图的重要性:
其中P为F1、F2融合后特征,F1、F2为待融合的两个特征图,w1、w2为可学习的权重,Δ是一个很小的数,用来避免数值的不稳定;
对于融合三个特征图的情况,首先将待融合的三个特征图进行两两融合,其中每个特征都会参与两次融合,达到重复利用的效果,然后获得三个不同的中间特征图,最后为获得的三个中间特征图分配三个可学习的权重进行融合,获得具有丰富上下文信息的输出特征,用于最后的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310775421.0A CN116721368A (zh) | 2023-06-28 | 2023-06-28 | 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310775421.0A CN116721368A (zh) | 2023-06-28 | 2023-06-28 | 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721368A true CN116721368A (zh) | 2023-09-08 |
Family
ID=87865952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310775421.0A Pending CN116721368A (zh) | 2023-06-28 | 2023-06-28 | 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721368A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237830A (zh) * | 2023-11-10 | 2023-12-15 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
CN117237614A (zh) * | 2023-11-10 | 2023-12-15 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
-
2023
- 2023-06-28 CN CN202310775421.0A patent/CN116721368A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237830A (zh) * | 2023-11-10 | 2023-12-15 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
CN117237614A (zh) * | 2023-11-10 | 2023-12-15 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
CN117237614B (zh) * | 2023-11-10 | 2024-02-06 | 江西啄木蜂科技有限公司 | 基于深度学习的湖面漂浮物小目标检测方法 |
CN117237830B (zh) * | 2023-11-10 | 2024-02-20 | 湖南工程学院 | 基于动态自适应通道注意力的无人机小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
Li et al. | Scale-aware fast R-CNN for pedestrian detection | |
Tian et al. | A dual neural network for object detection in UAV images | |
Lu et al. | Gated and axis-concentrated localization network for remote sensing object detection | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN116721368A (zh) | 一种基于坐标和全局信息聚合的无人机航拍图像多尺度目标检测方法 | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN107169421A (zh) | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 | |
CN109029363A (zh) | 一种基于深度学习的目标测距方法 | |
CN110619352A (zh) | 基于深度卷积神经网络的典型红外目标分类方法 | |
KR101908481B1 (ko) | 보행자 검출 장치 및 방법 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN112016605A (zh) | 一种基于边界框角点对齐和边界匹配的目标检测方法 | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
Zhu et al. | A-pixelhop: A green, robust and explainable fake-image detector | |
Shen et al. | An improved UAV target detection algorithm based on ASFF-YOLOv5s | |
CN108776777A (zh) | 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法 | |
Liu et al. | CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN116824543A (zh) | 一种基于od-yolo的自动驾驶目标检测方法 | |
CN117152625A (zh) | 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质 | |
Wu et al. | Detection algorithm for dense small objects in high altitude image | |
Tu et al. | An improved YOLOv5 for object detection in visible and thermal infrared images based on contrastive learning | |
CN106886754A (zh) | 一种基于三角面片的三维场景下的物体识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |