CN117593674B - 一种轻量级无人机航拍目标实时检测方法 - Google Patents
一种轻量级无人机航拍目标实时检测方法 Download PDFInfo
- Publication number
- CN117593674B CN117593674B CN202410073376.9A CN202410073376A CN117593674B CN 117593674 B CN117593674 B CN 117593674B CN 202410073376 A CN202410073376 A CN 202410073376A CN 117593674 B CN117593674 B CN 117593674B
- Authority
- CN
- China
- Prior art keywords
- module
- yolov
- dwc2f
- real
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011897 real-time detection Methods 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013434 data augmentation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种轻量级无人机航拍目标实时检测方法,属于目标检测技术领域,该方法具体包括:将YOLOv8n所有原始的C2f模块替换为轻量块DWC2f模块,减少网络模型参数;将YOLOv8n的颈部结构修改为TFPN结构,增加160*160特征图的输入,可以有效解决应对无人机航拍图像小目标占比高的特点;删除20*20特征图的输入,大幅度减少网络参数量,提高实时检测速度;更换SIoU为MPDIoU,进一步提高网络检测性能;使用轻量块DWUnit代替YOLOv8n的头部结构的卷积核大小为3×3的卷积层,在减少参数量的基础上提高模型目标检测头的表达能力。相对于原来的YOLOv8n网络,本发明改进后的模型参数量显著下降了88.3%,从3.2M下降到375K,模型精度mAP值从0.361提升到0.429。
Description
技术领域
本发明涉及目标检测技术领域,具体为一种轻量级无人机航拍目标实时检测方法。
背景技术
随着技术的进步,无人机变得越来越普及,在很多日常活动中由于客观条件的限制,大量采用了无人机,如无人机预警、无人机抓拍违法行为、无人机劝导游客等。它具有小巧灵活、飞行成本低的特点,无人机逐渐成为很多复杂场景下所不可代替的重要设备。因此针对无人机获取到的航拍图像进行准确有效的识别,有利于实现更多的智能化操作,例如作物分析、交通监控、城市巡检、灾害救援等。因此研究无人机航拍检测算法具有重要的现实意义。
由于拍摄高度较高,与自然场景相比,无人机航拍图像包含复杂的物体特征,容易受到环境的干扰,也容易出现物体相互遮挡的问题。无人机航拍图中各类目标如行人、自行车等尺度较小,导致小目标占比居高,容易造成漏检或者误检。无人机在飞行过程中,由于飞行的高度不一样,拍摄的图像尺度不一样,很容易造成目标尺度剧烈变化的问题。
目前基于视觉的无人机目标检测算法快速发展,主要得益于深度学习技术的发展和计算能力的提高。在深度学习的驱动下,目标检测技术获得了长足的发展,取得了诸多令人瞩目的成就。目前深度学习目标检测领域的框架研究基本可以分为两个方向,一种是基于候选框的两阶段检测器,如Faster-RCNN,一种是基于回归计算的单目标检测器,如SSD、YOLO等。通常两阶段网络的检测器在精度方面更具优势,但速度更慢,而单阶段检测器速度更快,精度方面略逊二阶段网络一筹。而针对无人机航拍图像目标检测的特点,需要实时性,而实时检测应该采用更高检测效率的单目标检测器,如前所述,单目标检测器需要进行优化,以提高识别精度;因此,我们提出一种轻量级无人机航拍实时检测方法。
发明内容
本发明的目的是针对背景技术中存在的缺点和问题加以改进和创新,提供一种轻量级无人机航拍目标实时检测方法。
根据本发明的第一方面,提供一种轻量级无人机航拍目标实时检测方法,具体包括以下步骤:
获取无人机摄像头拍摄的初始数据集;
对初始数据集进行数据增强处理;
对YOLOv8n模型进行改进;
训练改进后的YOLOv8n模型;
将训练好的模型部署到移动端设备中,以进行目标实时检测;
其中,对YOLOv8n模型进行改进具体包括:
将YOLOv8n模型的骨干网络中的C2f模块替换为轻量块DWC2f模块;
将YOLOv8n的PANET颈部结构修改为TFPN颈部结构;
使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块;
使用MPDIoU替换掉YOLOv8n的SIoU损失函数。
进一步的方案是,所述轻量块DWC2f模块包括两个CBS模块,一个分割模块和n个DWUnit模块;CBS模块包括卷积核大小为1*1的卷积层、批归一化层和SiLU激活函数;
轻量块DWC2f模块先将输入的特征图输入到其中一个CBS模块中,CBS模块将输入的特征图的通道数调整为轻量块DWC2f模块输出的特征图的通道数,接着分割模块将CBS模块的输出分割为特征图一和特征图二,所述特征图一连续输入到n个DWUnit模块中,并将n个DWUnit模块输出的特征图与特征图一和特征图二进行拼接操作,拼接操作得到特征图再输入到另外一个CBS模块中。
进一步的方案是,所述DWUnit模块包括卷积核大小为1*1的逐点卷积层、卷积核大小为3*3的逐通道卷积和批归一化层和SiLU激活函数,输入的特征图经过卷积核大小为1×1的逐点卷积调整为DWUnit模块的输出通道数,然后经过卷积核大小为3×3的逐通道卷积,再经过批归一化层和SiLU激活函数,得到的特征图与逐通道卷积的输入特征图相加,然后再重复进行一次卷积核大小为1×1的逐点卷积和卷积核大小为3×3的逐通道卷积、批归一化层和SiLU激活函数,最后与DWUnit模块的输入特征图相加,以得到输出特征图。
进一步的方案是,所述将YOLOv8n的PANET颈部结构修改为TFPN颈部结构包括:
将骨干网络中SPPF模块输出的特征图输入到DWC2f模块中,DWC2f模块右侧输出再经过一个DWC2f模块后输入到小目标检测头部分,同时下侧输出进行上采样操作后与骨干网络中第二DWC2f模块的输出进行相加操作,相加操作得到的特征图再输入到DWC2f模块中,该DWC2f模块右侧输出再经过一个DWC2f模块后输入到中目标检测头部分,同时该DWC2f模块下侧输出进行上采样操作后与骨干网络中第一个DWC2f模块的输出进行相加操作,然后再依次输入到两个DWC2f模块中,对应的输出的特征图输入到大目标检测头部分。
进一步的方案是,所述使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块的步骤包括:
使用两个轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块,CBS模块包括卷积核大小为3×3的卷积层、批归一化层和SiLU激活函数,经过两个DWUnit模块输出的特征图分别经过逐点卷积预测回归和逐点卷积预测分类,并将逐点卷积预测回归和逐点卷积预测分类的输出进行拼接,以得到最终预测输出。
进一步的方案是,所述使用MPDIoU替换掉YOLOv8n的SIoU损失函数包括:
MPDIoU损失计算方式如下:
=/>+/>
其中bprd表示预测框坐标,bgt表示真实框坐标,其中/>代表预测框的左上角坐标,/>代表真实框的左上角坐标,/>代表预测框的右下角坐标,/>代表真实框的右下角坐标,w代表真实框的宽度,h代表真实框的高度,d1和d2分别代表预测边界框与真实边界框之间的左上角点和右下角点的欧式距离。
进一步的方案是,所述对初始数据集进行数据增强处理包括:
从数据集中随机抽取若干张图像,并分别对该若干张图像进行数据增广操作,再以不同比例拼接成一张图像;
随机抽取两张拼接图像,将两张拼接图像按照预设比例进行线性组合,生成新的样本,新样本的标签也通过线性组合得到。
进一步的方案是,所述轻量块DWC2f模块中有三个DWUnit模块。
根据本发明的第二方面,提供一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如上任一项所述的一种轻量级无人机航拍目标实时检测方法。
根据本发明的第三方面,提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,以实现如上任一项所述的一种轻量级无人机航拍目标实时检测方法。
与现有技术相比,本发明的有益效果是:本发明提供一种轻量级无人机航拍目标实时检测方法,该方法对YOLOv8n模型进行了改进;将YOLOv8n所有原始的C2f模块替换为轻量块DWC2f模块,采用逐点卷积和逐通道卷积的组合形式代替原始的卷积核大小为3×3的卷积,可以减少网络模型参数;将YOLOv8n的颈部结构改为TFPN的形式,减少网络模块,降低参数,同时增加了第一个DWC2f模块生成的160×160的特征图的输入,该特征图对于小目标检测而言存在特征多、语义特征更明显,可以有效解决应对无人机航拍图像小目标占比高的特点;删除了主干网络中20×20的特征图输入,大幅度减少网络参数量,提高实时检测速度;更换SIoU为MPDIoU,简化了两个边界框之间的相似性比较,改善边界框回归的训练效果,提高收敛速度和回归精度;使用轻量块DWUnit代替YOLOv8n的头部结构的卷积核大小为3×3的卷积单元,在减少参数量的基础上提高模型目标检测头的表达能力;相对于原来的YOLOv8n网络,改进后的模型参数量显著下降了88.3%,从3.2M下降到375K,模型精度mAP值从0.361提升到0.429。
附图说明
图1为本发明一种轻量级无人机航拍目标实时检测方法的流程图;
图2为本发明一种轻量级无人机航拍目标实时检测方法的网络总体结构设计图;
图3为本发明提出的DWC2f模块结构图;
图4为本发明提出的DWUnit模块结构图;
图5为PANet结构与TFPN结构对比图;
图6为本发明改进的模型与原模型mAP对比图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
请参阅附图1所示,本发明提供一种轻量级无人机航拍目标实时检测方法,具体包括以下步骤:
步骤S1、获取无人机摄像头拍摄的初始数据集;
采用天津大学胡清华团队提出的无人机感知方向最大规模的VisDrone数据集,该数据集能够对无人机平台的视觉分析算法进行广泛的训练和评估;在天津大学机器视觉和数据挖掘实验室网站下载VisDrone2021数据集,包括288个视频片段,由261908帧和10209幅图像组成,由各种无人机摄像头捕获,覆盖范围广泛,包括来自中国相隔数千公里的14个不同城市、不同环境(城市和农村)、不同物体(行人、车辆、自行车等)和不同场景(稀疏和拥挤的场景);10209张静态图像其中6471张用于训练,548张用于验证,3190张用于测试,包含pedestrian(行人), person(人物), car(汽车), van(面包车), bus(公共汽车), truck(卡车), motor(摩托), bicycle(自行车), awning-tricycle(遮阳篷三轮车), tricycle(三轮车)十个类别;本实例采用了公开标签的6471张训练集和548张验证集图像,并编写python脚本程序split.py分割数据集,并将原始数据集标注修改为yolo格式,将对应的标签放入对应的文件夹;
步骤S2、对初始数据集进行数据增强处理;
采用YOLOv8n自带数据增强算法对训练样本集进行增强,如mosaic(马赛克)、mixup(图像混合)等数据增强方式,从而得到增强后的训练集;
其中mosaic策略是从数据集中随机抽取若干张图像,并分别对该若干张图像进行数据增广操作,再以不同比例拼接成一张图像;
mixup策略是随机抽取两张拼接图像,将两张拼接图像按照预设比例进行线性组合,生成新的样本,新样本的标签也通过线性组合得到,从而扩充数据集。比如,对于两个样本x1和x2,它们的标签分别为y1和y2,那么mixup生成的新样本x`和标签y`如下:
x` = λx1+ (1-λ)x2
y` = λy1+ (1-λ)y2
其中,λ为0到1之间的一个随机数,它表示x1和x2在新样本中的权重。
步骤S3、对YOLOv8n模型进行改进;
其中步骤S3对YOLOv8n模型进行改进包括以下步骤:
步骤S31、将YOLOv8n模型的骨干网络中的C2f模块替换为轻量块DWC2f模块;
步骤S32、将YOLOv8n的PANET颈部结构修改为TFPN颈部结构;
步骤S33、使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块;
步骤S34、使用MPDIoU替换掉YOLOv8n的SIoU损失函数。
其中,步骤S31将YOLOv8n模型的骨干网络中的C2f模块替换为轻量块DWC2f模块具体包括:
将YOLOv8n所有原始的C2f模块替换为轻量块DWC2f模块;如附图2所示,改进后的YOLOv8n模型骨干网络部分依次包括两个CBS模块,CBS模块包括卷积层、批归一化层和SiLU激活函数,两个轻量块DWC2f模块对输入进行两次连续卷积操作,生成大小为160×160的特征图,随后经过第一个DWC2f 模块产生主干网络中160×160大小的特征图输出,即P2特征图,并调整通道数为64,再经过最大池化进行下采样,产生大小为80×80的特征图的输出,即P3特征图;再经过最大池化进行下采样,以及经过两个DWC2f模块、一个最大池化层和SPPF模块,产生主干网络中40×40的特征图输出,即P4特征图;
所述DWC2f模块的结构如附图3所示,首先将输入特征图进行卷积核大小为1*1的卷积处理,卷积处理得到的特征图的通道数与DWC2f模块输出的特征图的通道数相等,然后分割为两个0.5倍输出通道数的特征图一和特征图二,特征图一连续输入到n个DWUnit模块中,在本实施例中,n设置为3,将每个DWUnit模块输出的特征图与特征图一和特征图二进行拼接操作,得到通道数为0.5*Cout*(n+2)的特征图,其中Cout为DWC2f模块输出的特征图的通道数,然后送入卷积核大小为1×1的卷积层进行卷积处理,将该卷积层的输入通道数调整为DWC2f模块的输出通道数,得到最终输出特征图。
所述DWUnit模块如附图4所示,首先将输入特征图进行卷积核大小为1*1的卷积处理,卷积处理得到的特征图的通道数与DWUnit模块输出的特征图的通道数相等,然后经过卷积核大小为3×3的逐通道卷积,再经过批归一化层和SiLU激活函数,得到的特征图与逐通道卷积输入的特征图相加,然后再重复进行一次卷积核大小为1×1的逐点卷积、卷积核大小为3×3的逐通道卷积、批归一化层和SiLU激活函数,最后与DWUnit模块的输入特征图相加,得到DWUnit模块的输出特征图。
其中,步骤S32将YOLOv8n的PANET颈部结构修改为TFPN颈部结构具体包括:
如附图5所示,TFPN颈部结构只有一条自顶向下的通路,且去掉了骨干网络到颈部结构的卷积核大小为1×1的卷积,大幅度加快网络处理速度;同时去掉主干网络中20×20的特征图输入,增加160×160的特征图输入,最终产生尺寸大小为160*160,80*80,40*40三个预测头,其中160*160的预测头的分辨率较高,对小目标识别有利,所以将称之为小目标检测头。
具体的,改进后的颈部结构首先将骨干网络产生的P4特征图输入到DWC2f模块中,右侧输出再经过一个DWC2f模块,然后产生40×40的特征图输入到小目标检测头部分,同时下侧输出进行上采样,得到80×80特征图,与骨干网络P3特征图进行相加操作,然后再输入到DWC2f模块中,该DWC2f模块右侧输出再经过一个DWC2f模块,然后产生80×80的特征图输入到中目标检测头部分,同时下侧输出进行上采样,得到160×160特征图,与骨干网络P2特征图进行相加操作,然后再依次输入到两个DWC2f模块中,然后将得到的160×160的特征图输入到大目标检测头部分。
其中,步骤S33使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块具体包括:
使用两个轻量块DWUnit代替YOLOv8n的头部结构的两个卷积核大小为3×3的卷积层,所述DWUnit模块如附图4所示;40×40、80×80和160×160三种不同分辨率的输入特征图都分别经过两组连续的DWUnit模块,然后分别经过输出通道数为64的逐点卷积预测回归和输出通道数为10的逐点卷积预测分类,最终将预测回归和预测分类的结果进行拼接,以得到40×40、80×80和160×160特征图的最终输出预测输出。
其中,步骤S34使用MPDIoU替换掉YOLOv8n的SIoU损失函数具体包括:
使用MPDIoU替换YOLOv8n的SIoU,具体的,YOLOv8n模型的损失函数分为两部分:分类损失函数使用的是BCELoss,回归函数使用的是Distribution Focal Loss与MPDIoU相结合;三个不同Loss的权重分别为:7 .5:0.5:1 .5;其中BCE Loss公式如下为:
上式中,y为真实标签,为预测结果,N是样本数量;
DF Loss能使得网络能够快速聚焦到标签所在的位置,使用交叉熵函数来优化标签左右的分布概率,DF Loss的公式如下:
其中Si为网络的Sigmoid激活函数输出,y为真实标签;
MPDIoU是一种基于最小点距离的新型边界框相似度比较度量标准,直接最小化预测边界框与真实边界框之间的左上角和右下角点距离;MPDIoU包含了现有损失函数中考虑的所有相关因素,即重叠或非重叠区域、中心点距离、宽高偏差,同时简化计算过程采用的MPDIoU损失计算方式如公式(1)、(2)、(3)、(4)、(5)所示;
(1)
=/>+/>(2)
(3)
(4)
(5)
其中bprd表示预测框坐标,bgt表示真实框坐标,其中/>代表预测框的左上角坐标,/>代表真实框的左上角坐标,/>代表预测框的右下角坐标,/>代表真实框的右下角坐标,w代表真实框的宽度,h代表真实框的高度,d1和d2分别代表预测边界框与真实边界框之间的左上角点和右下角点的欧式距离。
步骤S4、训练改进后的YOLOv8n模型;
具体的,将无人机航拍数据训练集输入到改进后的YOLOv8n模型中,使用SGD优化器对模型进行优化:采用A800进行训练,初始学习率为1e-2,最终学习率为1e-3,权值衰减设置为5e-4,在前3个epoch为warming-up阶段,使用的动量为0.8。之后正式训练的动量是0.937;进行NMS的IoU阈值被设置为0.5;在一块A800显卡上训练模型,批处理大小设置为512张图像,设置训练周期为500个,随着训练次数的增加,YOLOv8n模型的损失函数曲线逐渐收敛,YOLOv8n模型逐渐训练到最优,并生成全阶段的权重文件;
进一步的,使用正负样本匹配和验证集验证;首先采用Task-Aligned Assigner正负样本动态分配策略,针对所有像素点预测的分类分数和回归分数(预测框与每个真实框的交并比) ,通过加权的方式得到最终的加权分数,通过对加权分数进行排序后选择前k大的正样本;其公式如下:
其中s对应所有类别的分类分数,u是预测框与所有真实框的回归分数,α和β为权重超参数,默认设置为0.5和6,两者相乘就可以衡量预测框与真实框的对齐程度,t作为加权分数,基于加权分数直接选取前k大的值为正样本,k默认设置为10;
检测中采用查准率(Precison)、召回率(Recall)、交并比(IOU)、平均精度(AP)、平均精度均值(mAP)和检测速度(speed)六种评价指标作为网络模型的评估标准;
交并比IoU的定义为:;
查准率的定义为:;
召回率的定义为:
平均精度的定义为:;
平均精度均值的定义为:;
上式中TP表示正样本分类正确,FP表示将负样本预测为正样本,FN表示将正样本预测为负样本、TN中表示将负样本分类正确,A代表预测结果,B代表真实目标,n代表种类数量,P(k)和△R(k)分别为查准率和召回率;
训练完成后,模型改进前与改进后Map曲线值变化如图6所示,左侧为YOLOv8n模型,右侧为本申请的模型,改进后模型mAP值最终达到了0.429,如表1所示,改进后的模型参数量显著下降了88.3%,相对于原始YOLOv8n模型的0.361有了显著提升;
表1本申请模型和YOLOv8n模型的参数对比表
步骤S5、将训练好的模型部署到移动端设备中,以进行目标实时检测;
训练好的模型部署到移动端设备上后,搭载到无人机上,利用所述最终的检测模型,以无人机航拍图像为输入,进行目标实时检测,输出预测框的位置和分类标签。
综上,本发明提供一种轻量级无人机航拍目标实时检测方法,该方法对YOLOv8n模型进行了改进;将YOLOv8n所有原始的C2f模块替换为轻量块DWC2f模块,采用逐点卷积和逐通道卷积的组合形式代替原始的卷积核大小为3×3的卷积,可以减少网络模型参数;将YOLOv8n的颈部结构改为TFPN的形式,减少网络模块,降低参数,同时增加了第一个DWC2f模块生成的160×160的特征图的输入,该特征图对于小目标检测优势在于特征多、语义特征更明显,可以有效解决应对无人机航拍图像小目标占比高的特点 ;删除了主干网络中20×20的特征图输入,大幅度减少网络参数量,提高实时检测速度;更换SIoU为MPDIoU,简化了两个边界框之间的相似性比较,改善边界框回归的训练效果,提高收敛速度和回归精度;使用轻量块DWUnit代替YOLOv8n的头部结构的卷积核大小为3×3的卷积单元,在减少参数量的基础上提高模型目标检测头的表达能力;相对于原来的YOLOv8n网络,改进后的模型参数量显著下降了88.3%,从3.2M下降到375K,模型精度mAP值从0.361提升到0.429。
实施例2
本发明提供一种电子设备,包括:存储器和处理器;
所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行如实施例1所述的一种轻量级无人机航拍目标实时检测方法。
实施例3
本发明提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,以实现如实施例1所述的一种轻量级无人机航拍目标实时检测方法。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对发明的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (6)
1.一种轻量级无人机航拍目标实时检测方法,其特征在于,具体包括以下步骤:
获取无人机摄像头拍摄的初始数据集;
对初始数据集进行数据增强处理;
对YOLOv8n模型进行改进;
训练改进后的YOLOv8n模型;
将训练好的模型部署到移动端设备中,以进行目标实时检测;
其中,对YOLOv8n模型进行改进具体包括:
将YOLOv8n模型的骨干网络中的C2f模块替换为轻量块DWC2f模块;
将YOLOv8n的PANET颈部结构修改为TFPN颈部结构;
使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块;
使用MPDIoU替换掉YOLOv8n的SIoU损失函数;
其中,所述将YOLOv8n的PANET颈部结构修改为TFPN颈部结构包括:
将骨干网络中SPPF模块输出的特征图输入到DWC2f模块中,DWC2f模块右侧输出再经过一个DWC2f模块后输入到小目标检测头部分,同时下侧输出进行上采样操作后与骨干网络中第二DWC2f模块的输出进行相加操作,相加操作得到的特征图再输入到DWC2f模块中,该DWC2f模块右侧输出再经过一个DWC2f模块后输入到中目标检测头部分,同时该DWC2f模块下侧输出进行上采样操作后与骨干网络中第一个DWC2f模块的输出进行相加操作,然后再依次输入到两个DWC2f模块中,对应的输出的特征图输入到大目标检测头部分;
所述轻量块DWC2f模块包括两个CBS模块,一个分割模块和n个DWUnit模块;CBS模块包括卷积核大小为1*1的卷积层、批归一化层和SiLU激活函数;轻量块DWC2f模块先将输入的特征图输入到其中一个CBS模块中,CBS模块将输入的特征图的通道数调整为轻量块DWC2f模块输出的特征图的通道数,接着分割模块将CBS模块的输出分割为特征图一和特征图二,所述特征图一连续输入到n个DWUnit模块中,并将n个DWUnit模块输出的特征图与特征图一和特征图二进行拼接操作,拼接操作得到特征图再输入到另外一个CBS模块中;
所述DWUnit模块包括卷积核大小为1*1的逐点卷积层、卷积核大小为3*3的逐通道卷积和批归一化层和SiLU激活函数,输入的特征图经过卷积核大小为1*1的逐点卷积调整为DWUnit模块的输出通道数,然后经过卷积核大小为3*3的逐通道卷积,再经过批归一化层和SiLU激活函数,得到的特征图与逐通道卷积的输入特征图相加,然后再重复进行一次卷积核大小为1*1的逐点卷积和卷积核大小为3*3的逐通道卷积、批归一化层和SiLU激活函数,最后与DWUnit模块的输入特征图相加,以得到输出特征图;
所述使用轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块的步骤包括:
使用两个轻量块DWUnit代替YOLOv8n模型的头部结构中的CBS模块,CBS模块包括卷积核大小为3*3的卷积层、批归一化层和SiLU激活函数,经过两个DWUnit模块输出的特征图分别经过逐点卷积预测回归和逐点卷积预测分类,并将逐点卷积预测回归和逐点卷积预测分类的输出进行拼接,以得到最终预测输出。
2.根据权利要求1所述的一种轻量级无人机航拍目标实时检测方法,其特征在于,所述使用MPDIoU替换掉YOLOv8n的SIoU损失函数包括:
MPDIoU损失计算方式如下:
=/>+/>
其中bprd表示预测框坐标,bgt表示真实框坐标/>,其中/>代表预测框的左上角坐标,/>代表真实框的左上角坐标,代表预测框的右下角坐标,/>代表真实框的右下角坐标,w代表真实框的宽度,h代表真实框的高度,d1和d2分别代表预测边界框与真实边界框之间的左上角点和右下角点的欧式距离。
3.根据权利要求1所述的一种轻量级无人机航拍目标实时检测方法,其特征在于,所述对初始数据集进行数据增强处理包括:
从数据集中随机抽取若干张图像,并分别对该若干张图像进行数据增广操作,再以不同比例拼接成一张图像;
随机抽取两张拼接图像,将两张拼接图像按照预设比例进行线性组合,生成新的样本,新样本的标签也通过线性组合得到。
4.根据权利要求1所述的一种轻量级无人机航拍目标实时检测方法,其特征在于,所述轻量块DWC2f模块中有三个DWUnit模块。
5.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-4任一项所述的一种轻量级无人机航拍目标实时检测方法。
6.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,以实现如权利要求1-4任一项所述的一种轻量级无人机航拍目标实时检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410073376.9A CN117593674B (zh) | 2024-01-18 | 2024-01-18 | 一种轻量级无人机航拍目标实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410073376.9A CN117593674B (zh) | 2024-01-18 | 2024-01-18 | 一种轻量级无人机航拍目标实时检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593674A CN117593674A (zh) | 2024-02-23 |
CN117593674B true CN117593674B (zh) | 2024-05-03 |
Family
ID=89916951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410073376.9A Active CN117593674B (zh) | 2024-01-18 | 2024-01-18 | 一种轻量级无人机航拍目标实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593674B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457415A (zh) * | 2022-09-19 | 2022-12-09 | 云南电网有限责任公司电力科学研究院 | 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质 |
CN115471667A (zh) * | 2022-09-08 | 2022-12-13 | 重庆邮电大学 | 一种改进yolox网络结构的轻量化目标检测方法 |
DE202023103167U1 (de) * | 2023-06-08 | 2023-06-19 | Nasib Singh Gill | Ein System zur Echtzeit-Erkennung von Müll unter Wasser mit Hilfe des fein abgestimmten YOLOv8 |
CN116524379A (zh) * | 2023-04-21 | 2023-08-01 | 东南大学 | 基于注意力机制和自适应特征融合的航拍目标检测方法 |
CN116824405A (zh) * | 2023-06-15 | 2023-09-29 | 云南师范大学 | 一种无人机航拍视角下基于改进YOLOv8的青皮核桃目标检测方法 |
CN116895007A (zh) * | 2023-07-18 | 2023-10-17 | 西南石油大学 | 一种基于改进YOLOv8n的小目标检测方法 |
CN116958961A (zh) * | 2023-06-12 | 2023-10-27 | 西安工程大学 | 一种基于改进YOLOv8s的轻量级石榴识别方法 |
CN116977844A (zh) * | 2023-08-11 | 2023-10-31 | 武汉轻工大学 | 一种轻量级水下目标实时检测方法 |
CN117079163A (zh) * | 2023-08-25 | 2023-11-17 | 杭州智元研究院有限公司 | 一种基于改进yolox-s的航拍图像小目标检测方法 |
CN117095391A (zh) * | 2023-09-05 | 2023-11-21 | 新疆农业大学 | 一种轻量化的苹果目标检测方法 |
CN117372898A (zh) * | 2023-07-17 | 2024-01-09 | 大连民族大学 | 一种基于改进yolov8的无人机航拍图像目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022205685A1 (zh) * | 2021-03-29 | 2022-10-06 | 泉州装备制造研究所 | 一种基于轻量化网络的交通标志识别方法 |
-
2024
- 2024-01-18 CN CN202410073376.9A patent/CN117593674B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471667A (zh) * | 2022-09-08 | 2022-12-13 | 重庆邮电大学 | 一种改进yolox网络结构的轻量化目标检测方法 |
CN115457415A (zh) * | 2022-09-19 | 2022-12-09 | 云南电网有限责任公司电力科学研究院 | 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质 |
CN116524379A (zh) * | 2023-04-21 | 2023-08-01 | 东南大学 | 基于注意力机制和自适应特征融合的航拍目标检测方法 |
DE202023103167U1 (de) * | 2023-06-08 | 2023-06-19 | Nasib Singh Gill | Ein System zur Echtzeit-Erkennung von Müll unter Wasser mit Hilfe des fein abgestimmten YOLOv8 |
CN116958961A (zh) * | 2023-06-12 | 2023-10-27 | 西安工程大学 | 一种基于改进YOLOv8s的轻量级石榴识别方法 |
CN116824405A (zh) * | 2023-06-15 | 2023-09-29 | 云南师范大学 | 一种无人机航拍视角下基于改进YOLOv8的青皮核桃目标检测方法 |
CN117372898A (zh) * | 2023-07-17 | 2024-01-09 | 大连民族大学 | 一种基于改进yolov8的无人机航拍图像目标检测方法 |
CN116895007A (zh) * | 2023-07-18 | 2023-10-17 | 西南石油大学 | 一种基于改进YOLOv8n的小目标检测方法 |
CN116977844A (zh) * | 2023-08-11 | 2023-10-31 | 武汉轻工大学 | 一种轻量级水下目标实时检测方法 |
CN117079163A (zh) * | 2023-08-25 | 2023-11-17 | 杭州智元研究院有限公司 | 一种基于改进yolox-s的航拍图像小目标检测方法 |
CN117095391A (zh) * | 2023-09-05 | 2023-11-21 | 新疆农业大学 | 一种轻量化的苹果目标检测方法 |
Non-Patent Citations (4)
Title |
---|
Toward More Robust and Real-Time Unmanned Aerial Vehicle Detection and Tracking via Cross-Scale Feature Aggregation Based on the Center Keypoint;Min Bao.etc;IEEE;20211231;全文 * |
一种轻量化的多目标实时检测模型;邱博;刘翔;石蕴玉;尚岩峰;;北京航空航天大学学报;20201231(第09期);全文 * |
基于COF-YOLOv 8n 的油茶果静、动态检测计数;王金鹏等;《农业机械学报》;20240117;全文 * |
基于深度学习和无人机遥感技术的玉米雄穗检测研究;梁胤豪;陈全;董彩霞;杨长才;;福建农业学报;20201231(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117593674A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108399362B (zh) | 一种快速行人检测方法及装置 | |
CN111709416B (zh) | 车牌定位方法、装置、系统及存储介质 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
CN113591872A (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN117315509A (zh) | 基于YOLOv7的无人机航拍图像小目标检测方法 | |
CN117197687A (zh) | 一种面向无人机航拍密集小目标的检测方法 | |
CN115937736A (zh) | 基于注意力和上下文感知的小目标检测方法 | |
Li et al. | Detection of road objects based on camera sensors for autonomous driving in various traffic situations | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN115115917A (zh) | 基于注意力机制和图像特征融合的3d点云目标检测方法 | |
CN116385401B (zh) | 一种高精度纺织品缺陷可视化检测方法 | |
CN117911827A (zh) | 多模态目标检测方法、装置、设备及存储介质 | |
CN117710839A (zh) | 一种注意力驱动自适应特征融合轻量级目标检测方法 | |
CN117132910A (zh) | 一种用于无人机的车辆检测方法、装置及存储介质 | |
Wu et al. | Research on asphalt pavement disease detection based on improved YOLOv5s | |
CN117593674B (zh) | 一种轻量级无人机航拍目标实时检测方法 | |
CN116935356A (zh) | 基于弱监督的自动驾驶多模态图片和点云实例分割方法 | |
CN116311154A (zh) | 一种基于YOLOv5模型优化的车辆检测与识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |