CN117173595A - 基于改进YOLOv7的无人机航拍图像目标检测方法 - Google Patents

基于改进YOLOv7的无人机航拍图像目标检测方法 Download PDF

Info

Publication number
CN117173595A
CN117173595A CN202310763417.2A CN202310763417A CN117173595A CN 117173595 A CN117173595 A CN 117173595A CN 202310763417 A CN202310763417 A CN 202310763417A CN 117173595 A CN117173595 A CN 117173595A
Authority
CN
China
Prior art keywords
target detection
unmanned aerial
aerial vehicle
yolov7
aerial image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310763417.2A
Other languages
English (en)
Inventor
陈炳才
刘情
聂冰洋
宁芊
刘婵娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202310763417.2A priority Critical patent/CN117173595A/zh
Publication of CN117173595A publication Critical patent/CN117173595A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于图像处理领域,具体涉及一种基于改进YOLOv7的无人机航拍图像目标检测方法,解决无人机航拍图像目标检测问题。首先,获取训练数据集并进行数据增强处理。然后,搭建基于改进YOLOv7的无人机航拍图像目标检测网络;基于最大迭代次数,用训练样本对搭建的目标检测网络进行训练。最后,使用训练好的目标检测网络对无人机航拍图像进行目标检测。相较于现有方法,该方法更有效地关注到图像中的小目标,提高了检测的准确率。

Description

基于改进YOLOv7的无人机航拍图像目标检测方法
技术领域
本发明属于图像处理领域,具体涉及一种基于改进YOLOv7的无人机航拍图像目标检测方法。
背景技术
随着计算机视觉技术的发展,无人机在原具有的高机动性优势之上被赋予了自主感知、分析和决策的能力,进而在交通监控、电力巡检、作物分析和灾害救援等领域发挥了巨大作用。目标检测技术是增强无人机感知能力的一项关键技术。无人机结合目标检测技术可以在高空视野中定位感兴趣的区域并进行相关数据的搜集。
目标检测是计算机视觉领域的基础研究之一,随着深度学习的兴起,主流的目标检测算法可分为两阶段的目标检测算法,如Faster RCNN、R-FCN等,以及单阶段的目标检测算法,如RetinaNet、YOLO系列等。YOLO算法经过多次迭代,在YOLOv7算法中,使用新设计的ELAN网络架构作为特征提取网络,neck部分仍然使用PAFPN结构进行多尺度特征融合,在head中引入了模型重参数化思想用以提高推理速度。相比于原有算法,YOLOv7算法在降低模型参数量的同时提高了检测速度和检测精度。
与常规图像不同的是,无人机图像因拍摄视角的原因,通常存在场景复杂、尺度变化大、样本分布不均衡且小目标占比高的问题,导致无人机航拍图像的目标检测相较于常规图像的目标检测更加困难,现有技术无法达到较高的检测准确率。
发明内容
根据以上提出的技术问题,本发明提出了一种基于改进YOLOv7的无人机航拍图像目标检测方法。首先,获取训练数据集并进行数据增强处理。然后,搭建基于改进YOLOv7的无人机航拍图像目标检测网络;基于最大迭代次数,用训练样本对搭建的目标检测网络进行训练。最后,使用训练好的目标检测网络对无人机航拍图像进行目标检测。本方法在现有的YOLOv7骨干网络基础之上,在ELAN结构中融入注意力机制,设计了一种MHSA-ELAN模块,能够建模良好的长距离依赖关系,从而获得更好的特征提取能力,在一定程度上缓解了尺度变化、复杂背景等挑战带来的检测精度下降问题,同时将YOLOv7中检测头更换为融入注意力机制的动态检测头,有效提升检测的准确率。
为了实现上述目的,本发明的技术方案为:
一种基于改进YOLOv7的无人机航拍图像目标检测方法,包括以下步骤:
步骤1:获取无人机航拍图像训练数据集并进行数据增强处理;具体方法如下:
(1.1)获取无人机航拍图像数据集并将其标签文件转换为yolo格式。
(1.2)对训练数据集以Mosaic、MixUp方式进行数据增强。
步骤2:搭建基于改进YOLOv7的无人机航拍图像目标检测网络。
(2.1):构建基于MHSA-ELAN模块的多尺度特征提取网络;具体方法如下:
(2.1.1)ELAN模块是构成YOLOv7骨干网络的主要模块,本发明中设计的MHSA-ELAN模块是将ELAN中的部分3×3卷积层更换为多头自注意力,具体结构为:输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层。
(2.1.2)将YOLOv7的骨干网络中最后一个ELAN模块更换为MHSA-ELAN模块,得到基于MHSA-ELAN模块的多尺度特征提取网络。
(2.2):构建加入注意力机制的动态检测头;具体方法如下:
动态检测头(Dynamic Head)由三个注意力模块组成,分别为尺度感知注意力、空间感知注意力和任务感知注意力。尺度感知注意力用于提高对不同尺度的特征图的感知能力,具体结构为:平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接。空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力,具体结构为:可变形卷积层→3×3卷积层,之后分为两条分支,一个经过3×3卷积层,另一个经过sigmoid激活函数,最后进行拼接。任务感知注意力用于提高对不同任务信息表征(如根据bbox或中心点进行检测)的感知能力,具体结构为:平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接
(2.3):使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络搭建无人机航拍图像目标检测网络,具体结构为:输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。
步骤3:基于最大迭代次数,用训练样本对搭建的目标检测网络进行训练,得到训练好的无人机航拍图像目标检测网络,具体方法如下:
(3.1)采用迁移学习的方法,利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值,并冻结前三层,不进行后续的权重调整。
(3.2)确定训练批次大小和最大迭代次数,每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型,经过前向传播计算误差和反向传播调整权值,完成一次训练迭代。训练迭代次数达到最大迭代次数时,训练终止,得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。
步骤4:对无人机航拍图像进行目标检测,具体方法如下:
(4.1)将无人机航拍图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中,得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别;
(4.2)设定得分最低值,保留所有得分高于设定的得分最低值的预测框,丢弃其余候选框;
(4.3)将所有保留的预测框位置映射到完整的无人机航拍图像上,然后按照得分从高到低进行排序,保留预测框之间重叠度低和得分高的预测框,丢弃重叠度高和得分低的预测框,得到最终的无人机航拍图像目标检测结果。
本发明与现有技术相比具有以下优点:
第一,设计新的模块MHSA-ELAN并将其融入到特征提取网络中。虽然卷积操作可以有效捕获局部信息,但对于目标检测任务,建模长距离依赖关系十分重要,本发明中构建的多尺度特征提取网络利用自注意力机制的特性实现了这一点,有效地抑制无人机航拍图像中的复杂噪声背景,同时有利于关注到图像中的小目标,提高检测的准确率。
第二,将检测头更换为融入注意力机制的动态检测头,分别使用尺度、空间和任务三个维度上的注意力提高模型的感知能力,有效提高了目标检测的准确率。
第三,相较于现有方法,该方法更有效地关注到图像中的小目标,提高了检测的准确率。
附图说明
图1是本发明的流程图;
图2是本发明中基于改进YOLOv7的无人机航拍图像目标检测网络的具体架构;
图3是本发明中MHSA-ELAN模块的具体架构;
图4是本发明中动态检测头的具体架构;
图5是本发明实施中提供的一种无人机航拍图像检测结果示例图。
具体实施方式
以下结合附图通过具体实施例对本发明进一步详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明的一种基于改进YOLOv7的无人机航拍图像目标检测方法的基本流程如图1所示,网络构架如图2所示,主要包括融入注意力机制的特征提取网络、特征金字塔网络和检测头网络,各网络主要由基础卷积块(CBS)、扩展高效聚合网络(ELAN)以及最大池化卷积模块(MPConv)组成。
本实施例中的图像来自VisDrone-Det数据集,该数据集由10,209张图像组成,其中训练集6471张,验证集548张,测试集3190张。该数据集中共包含10种类别,涵盖了不同天气和照明条件下的多个场景。
步骤1:获取训练数据集并进行数据增强处理。具体方法如下:
(1)获取VisDrone-Det数据集并将其标签文件转换为yolo格式。
(2)对训练数据集以Mosaic、RandomAffine、MixUp方式进行数据增强。
步骤2:搭建基于改进YOLOv7的无人机航拍图像目标检测网络。
2.1:构建基于MHSA-ELAN模块的多尺度特征提取网络,如图3所示。
具体方法如下:
(1)ELAN模块是构成YOLOv7骨干网络的主要模块,本发明中设计的MHSA-ELAN模块将ELAN中的部分3×3卷积层更换为多头自注意力,具体结构为:输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层。
(2)将YOLOv7的骨干网络中最后一个ELAN模块更换为MHSA-ELAN模块,得到新的多尺度特征提取网络。
2.2:构建加入注意力机制的动态检测头,如图4所示。
动态检测头(Dynamic Head)由三个注意力模块组成,分别为尺度感知注意力、空间感知注意力和任务感知注意力。尺度感知注意力用于提高对不同尺度的特征图的感知能力,具体结构为:平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接。空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力,具体结构为:可变形卷积层→3×3卷积层,之后分为两条分支,一个经过3×3卷积层,另一个经过sigmoid激活函数,最后进行拼接。任务感知注意力用于提高对不同任务信息表征(如根据bbox或中心点进行检测)的感知能力,具体结构为:平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接。
2.3:使用上述构建的基于MHSA-ELAN的多尺度特征提取网络、YOLOv7中的多尺度特征融合网络以及动态的检测头架构搭建目标检测网络,具体结构为:输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。
步骤3:基于最大迭代次数,用训练样本对搭建的目标检测网络进行训练,得到训练好的无人机航拍图像目标检测网络,具体方法如下:
(1)采用迁移学习的方法,利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值,并冻结前三层,不进行后续的权重调整。
(2)确定训练批次大小为8和最大迭代次数为100个epoch,每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型,经过前向传播计算误差和反向传播调整权值,完成一次训练迭代。训练迭代次数达到最大迭代次数时,训练终止,得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。
步骤4:对无人机航拍图像进行目标检测,具体方法如下:
(1)将图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中,得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别;
(2)保留所有得分高于0.25的预测框,丢弃其余候选框;
(3)将所有保留的预测框位置映射到完整的航拍图像上,然后按照得分从高到低进行排序,保留预测框之间重叠度低和得分高的预测框,丢弃重叠度高和得分低的预测框,得到最终的无人机航拍图像目标检测结果,如图5所示,从图中可以看出在使用的无人机航拍图像中,行人、车辆等小目标占比较高,通过本发明中的方法可以有效地将其检测出来。

Claims (8)

1.一种基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,包括以下步骤:
步骤1:获取无人机航拍图像训练数据集并进行数据增强处理;
步骤2:搭建基于改进YOLOv7的无人机航拍图像目标检测网络:
(2.1):构建基于MHSA-ELAN模块的多尺度特征提取网络;
(2.2):构建加入注意力机制的动态检测头;
(2.3):使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络构搭建无人机航拍图像目标检测网络;
步骤3:基于最大迭代次数,用训练数据集对搭建的目标检测网络进行训练,得到训练好的无人机航拍图像目标检测网络;
步骤4:对无人机航拍图像进行目标检测。
2.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤1中所述的获取无人机航拍图像训练数据集的具体方法如下:
获取无人机航拍图像数据集并将其标签文件转换为yolo格式。
3.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤1中所述的进行数据增强处理的具体方法如下:
对训练数据集以Mosaic、MixUp方式进行数据增强。
4.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤(2.1)中所述的构建基于MHSA-ELAN模块的多尺度特征提取网络,具体方法如下:
(2.1.1)ELAN模块是构成YOLOv7骨干网络的主要模块,MHSA-ELAN模块是将ELAN中的部分3×3卷积层更换为多头自注意力,具体结构为:输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层;
(2.1.2)将YOLOv7的骨干网络中最后一个ELAN模块更换为MHSA-ELAN模块,得到基于MHSA-ELAN模块的多尺度特征提取网络。
5.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤(2.2)中所述的构建加入注意力机制的动态检测头,具体方法如下:
动态检测头由三个注意力模块组成,分别为尺度感知注意力、空间感知注意力和任务感知注意力;尺度感知注意力用于提高对不同尺度的特征图的感知能力,具体结构为:平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接;空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力,具体结构为:可变形卷积层→3×3卷积层,之后分为两条分支,一个经过3×3卷积层,另一个经过sigmoid激活函数,最后进行拼接;任务感知注意力用于提高对不同任务信息表征的感知能力,具体结构为:平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接。
6.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤(2.3)中所述的使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络搭建无人机航拍图像目标检测网络,具体结构依次为:输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。
7.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法,其特征在于,步骤3中所述的基于最大迭代次数,用训练数据集对搭建的深度卷积神经网络模型进行训练,得到训练好的无人机航拍图像目标检测网络,具体方法如下:
(1)采用迁移学习的方法,利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值,并冻结前三层,不进行后续的权重调整;
(2)确定训练批次大小和最大迭代次数,每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型,经过前向传播计算误差和反向传播调整权值,完成一次训练迭代;训练迭代次数达到最大迭代次数时,训练终止,得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。
8.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测网络,其特征在于,步骤4中所述的对无人机航拍图像进行目标检测,具体方法如下:
(1)将无人机航拍图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中,得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别;
(2)设定得分最低值,保留所有得分高于设定的得分最低值的预测框,丢弃其余候选框;
(3)将所有保留的预测框位置映射到完整的无人机航拍图像上,然后按照得分从高到低进行排序,保留预测框之间重叠度低和得分高的预测框,丢弃重叠度高和得分低的预测框,得到最终的无人机航拍图像目标检测结果。
CN202310763417.2A 2023-06-27 2023-06-27 基于改进YOLOv7的无人机航拍图像目标检测方法 Pending CN117173595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310763417.2A CN117173595A (zh) 2023-06-27 2023-06-27 基于改进YOLOv7的无人机航拍图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310763417.2A CN117173595A (zh) 2023-06-27 2023-06-27 基于改进YOLOv7的无人机航拍图像目标检测方法

Publications (1)

Publication Number Publication Date
CN117173595A true CN117173595A (zh) 2023-12-05

Family

ID=88941934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310763417.2A Pending CN117173595A (zh) 2023-06-27 2023-06-27 基于改进YOLOv7的无人机航拍图像目标检测方法

Country Status (1)

Country Link
CN (1) CN117173595A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671243A (zh) * 2023-12-07 2024-03-08 百鸟数据科技(北京)有限责任公司 一种小目标检测方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671243A (zh) * 2023-12-07 2024-03-08 百鸟数据科技(北京)有限责任公司 一种小目标检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN110263705B (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测系统
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN114821341A (zh) 基于fpn与pan网络的双重注意力的遥感小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination