CN116580324A - 一种基于YOLOv5的无人机对地目标检测方法 - Google Patents

一种基于YOLOv5的无人机对地目标检测方法 Download PDF

Info

Publication number
CN116580324A
CN116580324A CN202310505640.7A CN202310505640A CN116580324A CN 116580324 A CN116580324 A CN 116580324A CN 202310505640 A CN202310505640 A CN 202310505640A CN 116580324 A CN116580324 A CN 116580324A
Authority
CN
China
Prior art keywords
yolov5
target detection
aerial vehicle
unmanned aerial
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310505640.7A
Other languages
English (en)
Inventor
黄丹丹
高晗
刘智
于林韬
王惠绩
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202310505640.7A priority Critical patent/CN116580324A/zh
Publication of CN116580324A publication Critical patent/CN116580324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,尤其为一种基于YOLOv5的无人机对地目标检测方法,具体包括以下步骤,步骤一:使用数据集;步骤二:改进YOLOv5目标检测基础网络;步骤三:使用VisDrone2019数据集对改进后的YOLOv5目标检测网络进行训练;步骤四:利用训练好的YOLOv5目标检测网络对数据集进行检测识别。本发明旨在通过改进YOLOv5算法来增强目标检测的性能,使用无卷积步长和池化层的新CNN结构增强对小尺寸或低分辨率目标检测结果;在YOLOv5网络模型颈部的末端嵌入并行相加卷积注意力机制模块,增强在特征图中被遮挡目标的特征表达,提高正确特征的提取准确率,抑制无关特征表达。

Description

一种基于YOLOv5的无人机对地目标检测方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于YOLOv5的无人机对地目标检测方法。
背景技术
在人工智能时代,基于卷积神经网络目标检测算法不断的刷新着目标检测的性能。但是,目前绝大多数的目标检测算法都是基于平视自然视角下进行的改进。无人机凭借尺寸小、操作灵敏等优点,替代人类完成一些危险或难度高的任务。当无人机与目标检测技术相结合实现对地的俯视视角下的目标检测,在军事侦察、森林防火、高压输电线路巡检、环境监测、智慧交通等发挥重要作用。由此可见,设计一种专门针对无人机对地目标检测模型就将是一项十分具有意义和挑战性的工作。
在实际的应用场景中,与平视的自然场景的视角不同。在无人机的飞行高度较高时,高空俯视视角下的图像会包含大量的小目标,可以提取的特征特别少;并且当无人机快速的上升或者快速的下降时,物体的比例将会发生剧烈变化,造成检测精度降低;当实际进行目标检测的过程中,还存在着背景复杂,各个目标间会有大量遮挡,对于目标检测来说造成严重的干扰。基于传统的目标检测算法借助机器学习,但传统算法存在着时间复杂度高、窗口大量冗余等缺点,导致传统算法在目标检测上表现较差。与传统目标检测算法相比,基于深度学习的目标检测算法可以自动的提取目标特征。根据有无候选框生成,可以将基于深度学习的目标检测算法分为两类,一类是以R-CNN、Fast R-CNN和Faster R-CNN为代表的基于候选区域目标检测算即两阶段目标检测算法;另一类是以YOLO和SSD为代表的基于回归目标检测算法即单阶段目标检测算法。相比于两阶段目标检测算法,YOLO系列算法直接对目标的坐标和类进行回归,不仅检测速度快而且精度高,可以满足无人机对地目标检测的基本要求。当无人机高低急剧变化时,图像中待检测目标尺度变化剧烈,YOLO系列算法此情况下对小目标及低照度目标检测过程中处理精度较低。
针对无人机对地目标检测尺度变化大、背景复杂及小尺寸等难点,本发明为了提高无人机对地目标检测的精度,面向无人机对地目标检测算法,对网络结构进行优化、升级设计,得到一种高效且准确的无人机对地目标检测算法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于YOLOv5的无人机对地目标检测方法,解决了上述背景技术中所提出的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:一种基于YOLOv5的无人机对地目标检测方法,具体包括以下步骤,
步骤一:使用数据集;
步骤二:改进YOLOv5目标检测基础网络;
步骤三:使用VisDrone2019数据集对改进后的YOLOv5目标检测网络进行训练;
步骤四:利用训练好的YOLOv5目标检测网络对数据集进行检测识别。
进一步地,所述步骤二中,对于图像中细粒度信息或低分辨率信息的丢失的问题,引用一种CNN模块SPD-Conv。
进一步地,所述YOLOv5主干提取网络中的Conv替换为SPD-Conv。
进一步地,所述步骤二中,对于无人机视角下背景复杂、难以提取到图像中的细粒度信息,采用并行相加卷积注意力机制模块(CBAM_P)。
进一步地,所述YOLOv5网络模型颈部的末端加入CBAM_P模块。
进一步地,所述步骤二中,采用多级特征融合模块解决无人机航拍尺度变化大的问题。
(三)有益效果
与现有技术相比,本发明提供了一种基于YOLOv5的无人机对地目标检测方法,具备以下有益效果:
本发明,旨在通过改进YOLOv5算法来增强目标检测的性能,使用无卷积步长和池化层的新CNN结构增强对小尺寸或低分辨率目标检测结果;在YOLOv5网络模型颈部的末端嵌入并行相加卷积注意力机制模块,增强在特征图中被遮挡目标的特征表达,提高正确特征的提取准确率,抑制无关特征表达;最后,使用多级特征融合模块将不同尺度的特征进行融合,经过优化的网络结构能够自适应调节不同输出检测层的权重,加强了特征融合的能力,解决因无人机高度变化引起大变化尺度带来的检测精度下降问题。
附图说明
图1为本发明基于YOLOv5改进后的网络模型图;
图2为本发明SPD-Conv结构图;
图3为本发明CBAM_P注意力机制图;
图4为本发明多级特征融合模块;
图5为本发明基于改进的YOLOv5目标检测流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1-5所示,本发明一个实施例提出的一种基于YOLOv5的无人机对地目标检测方法,具体包括以下步骤,
步骤一:使用数据集;
数据集为VisDrone2019数据集,该数据集含10209张静态图像(6471张用于训练,548张用于验证,3190张用于测试),由不同的无人机平台在不同地点、不同高度、不同的天气和光照条件下捕获,覆盖类型范围广泛,包括不同位置(来自中国相隔数千公里的14个不同城市)、不同环境(城市和农村)、不同目标物体(行人、车辆、自行车等)和不同密度(稀疏和拥挤的场景)。
步骤二:改进YOLOv5目标检测基础网络;
针对无人机目标检测目标尺度变化大、背景复杂及小尺寸的问题,本发明充分利用YOLOv5的算法优势,提出基于改进YOLOv5的无人机对地目标检测算法模型,有效提高了无人机场景下的对地目标检测精度,网络结构如图1所示,主要方法如下,
S1、通过引入一种CNN模块SPD-Conv,来代替每个卷积步长和每个池化层,使网络更加关注特征中的细节,对小目标的特征信息进行进一步增强,如图2所示;
本发明采用SPD-Conv方法代替传统卷积步长和池化层,来消除卷积步长和池化层对图像中细粒度信息或低分辨率信息的丢失的问题,SPD-Conv由一个空间到深度(SPD)层和一个非跨步卷积层组成,如图2所示,考虑任意大小为S×S×C1的中间特征映射X,将子特征映射序列切片为:
一般来说,给定任何(原始)特征映射X,子映射fx,y由所有特征映射组成特征图X(i,j),i+x和j+y可以被比例整除,因此,每个子图按一个比例因子向下采样X,图2(a-c)所示,当scale=2时,我们得到四个子映射f0,0,f1,0,f0,1,f1,1,它们的形状为(S/2,S/2,C1)并对X进行2倍的下采样,接下来,我们沿着通道维度将这些子特征映射连接起来,从而得到一个特征映射X′,它的空间维度减少了一个比例因子,通道维度增加了一个比例因子2,在SPD特征转换层之后,我们添加一个带有C2过滤器的(即stride=1)无卷积步长层,其中C2<scale2C1,并进一步进行转换:
我们使用无步长卷积的原因是为了尽可能地保留所有的判别特征信息。否则,例如,使用stride=3的3×3过滤器,特征图将“缩小”,但每个像素只采样一次;如果stride=2,将发生非对称采样,其中偶数行/列和奇数行/列将被采样不同的次数。一般来说,大于1的步长会导致信息的非歧视性损失,尽管在表面上,它转换特征映射:
本发明将上面描述的方法应用到YOLOv5上,如图1所示,只需更换YOLOv5 stride-2卷积层即可得到YOLOv5-SPD,用SPD-Conv构建块代替原有的卷积,有7个这样的替换实例,因为YOLOv5在主干中使用5个stride-2卷积层对特征图进行25倍的下采样,在neck使用2个stride-2卷积层,在YOLOv5 neck中,每一次步长卷积后都有一个连接层,在此基础上,我们将其保持在SPD和Conv之间进行优化。
S2、在YOLOV5网络模型颈部的末端添加并行相加卷积注意力机制模块(CBAM_P),在细粒度分类问题中,并行相加卷积注意力机制模块包含通道注意力CAM(ChannelAttentionModule)和空间注意力SAM(Spartial Attention Module)两个子模块,分别进行通道和空间上的Attention,节约参数和计算力的同时,保证了其能够做为即插即用的模块集成到现有的网络架构中。
由图3所示,将输入的特征图F输入到通道注意力模块和空间注意力模块两个并行的模块中,得到对应的输出结果,然后将特征图F分别与两个输出结果加权得到F1和F2,最后相加得到输出特征图Fout,过程公式为:
Fout=F1+F2
我们将上述方法应用到YOLOv5上,如图1所示,在所述基准网络模型颈部末端嵌入并行相加卷积注意力机制模块(CBAM_P)。
S3、在YOLOv5中使用的PANet结构分别输出20×20、40×40和80×80三种固定大小的特征图对大、中、小目标进行检测,分别得到大、中、小目标的检测结果,多级特征融合模块解决了在空间上过滤冲突信息以抑制梯度反传的时候不一致的问题,改善了特征的比例不变性,并且将推理开销降低,如图4所示,其具体步骤如下:
首先对于第l级特征图输出c×h×w,对其余特征图进行上下采样操作,得到同样大小和channel的特征图,方便后续融合;
对处理后的3个层级特征图输出,输入到1×1×n的卷积中(n是预先设定的),得到3个空间权重向量,每个大小是c×h×w;
然后通道方向拼接得到3n×h×w的权重融合图;
为了得到通道为3的权重图,对上述特征图采用1×1×3的卷积,得到3×h×w的权重向量;
在通道方向softmax操作,进行归一化,将3个向量乘加到3个特征图上面,得到融合后的c×h×w特征图;
采用3×3卷积得到输出通道为256的预测输出层;
我们将上面描述的方法应用到YOLOv5上,如图1所示,在所述基准网络模型颈部的末端与YOLO检测头之间加入多级特征融合模块。
步骤三:使用VisDrone2019数据集对改进后的YOLOv5目标检测网络进行训练,首先通过--cfg指定训练模型,即在models目录下选定改进后的YOLOv5目标检测网络模型;其次通过--data指定数据集,即在data目录下选定VisDrone.yaml文件;最后设置训练轮次为80轮,运行train.py开始训练;在命名为weights的文件夹中可以看到训练生成的权重文件
步骤四:利用训练好的YOLOv5目标检测网络对数据集进行检测识别,首先将整理好的测试图片放入命名为imanges文件夹中;然后对detect.py程序进行修改,将训练完成后在weights文件夹下的best.bt文件设置为detect.py程序的权重文件;最后运行detect.py程序,运行结束后生成的检测图像就保存在了detect文件夹里
如图2所示,在一些实施例中,所述步骤二中,对于图像中细粒度信息或低分辨率信息的丢失的问题,引入一种CNN模块SPD-Conv;CNN模块SPD-Conv参考自论文《No MoreStrided Convolutions or Pooling:A New CNN Bu ilding Block for Low-ResolutionImages and Small Objects》。
如图1所示,在一些实施例中,所述YOLOv5主干提取网络中的Conv替换为SPD-Conv。
如图3所示,在一些实施例中,所述步骤二中,对于无人机视角下背景复杂、难以提取到图像中的细粒度信息,采用并行相加卷积注意力机制模块(CBAM_P);CBAM_P模块是在CBAM模块基础上进行改进,首先将输入特征分别通过CAM与SAM两个子模块,然后分别与输入特征进行融合,最后将两部分特征相加并输出。
如图1所示,在一些实施例中,所述YOLOv5网络模型颈部的末端加入CBAM_P模块。
如图4所示,在一些实施例中,所述步骤二中,采用多级特征融合模块解决无人机航拍尺度变化大的问题;多级特征融合模块将浅层特征与深层特征重新融合,充分利用不同尺度的信息。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于YOLOv5的无人机对地目标检测方法,其特征在于:具体包括以下步骤,
步骤一:使用数据集;
步骤二:改进YOLOv5目标检测基础网络;
步骤三:使用VisDrone2019数据集对改进后的YOLOv5目标检测网络进行训练;
步骤四:利用训练好的YOLOv5目标检测网络对数据集进行检测识别。
2.根据权利要求1所述的一种基于YOLOv5的无人机对地目标检测方法,其特征在于:所述步骤二中,对于图像中细粒度信息或低分辨率信息的丢失的问题,引入一种CNN模块SPD-Conv。
3.根据权利要求1所述的一种基于YOLOv5的无人机对地目标检测方法,其特征在于:所述YOLOv5主干提取网络中的Conv替换为SPD-Conv。
4.根据权利要求1所述的一种基于YOLOv5的无人机对地目标检测方法,其特征在于:所述步骤二中,对于无人机视角下背景复杂、难以提取到图像中的细粒度信息,采用并行相加卷积注意力机制模块(CBAM_P)。
5.根据权利要求1所述的一种基于YOLOv5的无人机对地目标检测方法,其特征在于:所述YOLOv5网络模型颈部的末端加入CBAM_P模块。
6.根据权利要求1所述的一种基于YOLOv5的无人机对地目标检测方法,其特征在于:所述步骤二中,采用多级特征融合模块解决无人机航拍尺度变化大的问题。
CN202310505640.7A 2023-05-08 2023-05-08 一种基于YOLOv5的无人机对地目标检测方法 Pending CN116580324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310505640.7A CN116580324A (zh) 2023-05-08 2023-05-08 一种基于YOLOv5的无人机对地目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310505640.7A CN116580324A (zh) 2023-05-08 2023-05-08 一种基于YOLOv5的无人机对地目标检测方法

Publications (1)

Publication Number Publication Date
CN116580324A true CN116580324A (zh) 2023-08-11

Family

ID=87538996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310505640.7A Pending CN116580324A (zh) 2023-05-08 2023-05-08 一种基于YOLOv5的无人机对地目标检测方法

Country Status (1)

Country Link
CN (1) CN116580324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668669A (zh) * 2024-02-01 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进YOLOv7的管道安全监测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668669A (zh) * 2024-02-01 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进YOLOv7的管道安全监测方法及系统
CN117668669B (zh) * 2024-02-01 2024-04-19 齐鲁工业大学(山东省科学院) 基于改进YOLOv7的管道安全监测方法及系统

Similar Documents

Publication Publication Date Title
CN110188705B (zh) 一种适用于车载系统的远距离交通标志检测识别方法
CN108647655B (zh) 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法
CN110991311B (zh) 一种基于密集连接深度网络的目标检测方法
CN114240878A (zh) 面向巡检场景的绝缘子缺陷检测神经网络构建与优化方法
CN113420607A (zh) 无人机多尺度目标检测识别方法
CN109919223B (zh) 基于深度神经网络的目标检测方法及装置
Zhu et al. Rapid ship detection in SAR images based on YOLOv3
CN114049572A (zh) 识别小目标的检测方法
CN114037907A (zh) 输电线路的检测方法、装置、计算机设备、存储介质
CN116580324A (zh) 一种基于YOLOv5的无人机对地目标检测方法
CN114283137A (zh) 基于多尺度特征图推理网络的光伏组件热斑缺陷检测方法
CN113495575A (zh) 一种基于注意力机制的无人机自主着陆视觉引导方法
CN111192240B (zh) 一种基于随机接入记忆的遥感图像目标检测方法
CN116597326A (zh) 一种基于改进YOLOv7算法的无人机航拍小目标检测方法
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN111160100A (zh) 一种基于样本生成的轻量级深度模型航拍车辆检测方法
CN113177956A (zh) 一种面向无人机遥感影像的语义分割方法
Jiang et al. IARet: A lightweight multiscale infrared aerocraft recognition algorithm
CN116681962A (zh) 基于改进YOLOv5的电力设备热图像检测方法及系统
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN117132531A (zh) 一种基于轻量化的YOLOv5的绝缘子缺陷检测方法
CN115171079A (zh) 一种基于夜间场景的车辆检测方法
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN114937239A (zh) 行人多目标跟踪识别方法及跟踪识别装置
CN110826432B (zh) 一种基于航空图片的输电线识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination