CN117173595A

CN117173595A - 基于改进YOLOv7的无人机航拍图像目标检测方法

Info

Publication number: CN117173595A
Application number: CN202310763417.2A
Authority: CN
Inventors: 陈炳才; 刘情; 聂冰洋; 宁芊; 刘婵娟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-12-05

Abstract

本发明属于图像处理领域，具体涉及一种基于改进YOLOv7的无人机航拍图像目标检测方法，解决无人机航拍图像目标检测问题。首先，获取训练数据集并进行数据增强处理。然后，搭建基于改进YOLOv7的无人机航拍图像目标检测网络；基于最大迭代次数，用训练样本对搭建的目标检测网络进行训练。最后，使用训练好的目标检测网络对无人机航拍图像进行目标检测。相较于现有方法，该方法更有效地关注到图像中的小目标，提高了检测的准确率。

Description

基于改进YOLOv7的无人机航拍图像目标检测方法

技术领域

本发明属于图像处理领域，具体涉及一种基于改进YOLOv7的无人机航拍图像目标检测方法。

背景技术

随着计算机视觉技术的发展，无人机在原具有的高机动性优势之上被赋予了自主感知、分析和决策的能力，进而在交通监控、电力巡检、作物分析和灾害救援等领域发挥了巨大作用。目标检测技术是增强无人机感知能力的一项关键技术。无人机结合目标检测技术可以在高空视野中定位感兴趣的区域并进行相关数据的搜集。

目标检测是计算机视觉领域的基础研究之一，随着深度学习的兴起，主流的目标检测算法可分为两阶段的目标检测算法，如Faster RCNN、R-FCN等，以及单阶段的目标检测算法，如RetinaNet、YOLO系列等。YOLO算法经过多次迭代，在YOLOv7算法中，使用新设计的ELAN网络架构作为特征提取网络，neck部分仍然使用PAFPN结构进行多尺度特征融合，在head中引入了模型重参数化思想用以提高推理速度。相比于原有算法，YOLOv7算法在降低模型参数量的同时提高了检测速度和检测精度。

与常规图像不同的是，无人机图像因拍摄视角的原因，通常存在场景复杂、尺度变化大、样本分布不均衡且小目标占比高的问题，导致无人机航拍图像的目标检测相较于常规图像的目标检测更加困难，现有技术无法达到较高的检测准确率。

发明内容

根据以上提出的技术问题，本发明提出了一种基于改进YOLOv7的无人机航拍图像目标检测方法。首先，获取训练数据集并进行数据增强处理。然后，搭建基于改进YOLOv7的无人机航拍图像目标检测网络；基于最大迭代次数，用训练样本对搭建的目标检测网络进行训练。最后，使用训练好的目标检测网络对无人机航拍图像进行目标检测。本方法在现有的YOLOv7骨干网络基础之上，在ELAN结构中融入注意力机制，设计了一种MHSA-ELAN模块，能够建模良好的长距离依赖关系，从而获得更好的特征提取能力，在一定程度上缓解了尺度变化、复杂背景等挑战带来的检测精度下降问题，同时将YOLOv7中检测头更换为融入注意力机制的动态检测头，有效提升检测的准确率。

为了实现上述目的，本发明的技术方案为：

一种基于改进YOLOv7的无人机航拍图像目标检测方法，包括以下步骤：

步骤1：获取无人机航拍图像训练数据集并进行数据增强处理；具体方法如下：

(1.1)获取无人机航拍图像数据集并将其标签文件转换为yolo格式。

(1.2)对训练数据集以Mosaic、MixUp方式进行数据增强。

步骤2：搭建基于改进YOLOv7的无人机航拍图像目标检测网络。

(2.1)：构建基于MHSA-ELAN模块的多尺度特征提取网络；具体方法如下：

(2.1.1)ELAN模块是构成YOLOv7骨干网络的主要模块，本发明中设计的MHSA-ELAN模块是将ELAN中的部分3×3卷积层更换为多头自注意力，具体结构为：输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层。

(2.1.2)将YOLOv7的骨干网络中最后一个ELAN模块更换为MHSA-ELAN模块，得到基于MHSA-ELAN模块的多尺度特征提取网络。

(2.2)：构建加入注意力机制的动态检测头；具体方法如下：

动态检测头(Dynamic Head)由三个注意力模块组成，分别为尺度感知注意力、空间感知注意力和任务感知注意力。尺度感知注意力用于提高对不同尺度的特征图的感知能力，具体结构为：平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接。空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力，具体结构为：可变形卷积层→3×3卷积层，之后分为两条分支，一个经过3×3卷积层，另一个经过sigmoid激活函数，最后进行拼接。任务感知注意力用于提高对不同任务信息表征(如根据bbox或中心点进行检测)的感知能力，具体结构为：平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接

(2.3)：使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络搭建无人机航拍图像目标检测网络，具体结构为：输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。

步骤3：基于最大迭代次数，用训练样本对搭建的目标检测网络进行训练，得到训练好的无人机航拍图像目标检测网络，具体方法如下：

(3.1)采用迁移学习的方法，利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值，并冻结前三层，不进行后续的权重调整。

(3.2)确定训练批次大小和最大迭代次数，每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型，经过前向传播计算误差和反向传播调整权值，完成一次训练迭代。训练迭代次数达到最大迭代次数时，训练终止，得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。

步骤4：对无人机航拍图像进行目标检测，具体方法如下：

(4.1)将无人机航拍图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中，得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别；

(4.2)设定得分最低值，保留所有得分高于设定的得分最低值的预测框，丢弃其余候选框；

(4.3)将所有保留的预测框位置映射到完整的无人机航拍图像上，然后按照得分从高到低进行排序，保留预测框之间重叠度低和得分高的预测框，丢弃重叠度高和得分低的预测框，得到最终的无人机航拍图像目标检测结果。

本发明与现有技术相比具有以下优点：

第一，设计新的模块MHSA-ELAN并将其融入到特征提取网络中。虽然卷积操作可以有效捕获局部信息，但对于目标检测任务，建模长距离依赖关系十分重要，本发明中构建的多尺度特征提取网络利用自注意力机制的特性实现了这一点，有效地抑制无人机航拍图像中的复杂噪声背景，同时有利于关注到图像中的小目标，提高检测的准确率。

第二，将检测头更换为融入注意力机制的动态检测头，分别使用尺度、空间和任务三个维度上的注意力提高模型的感知能力，有效提高了目标检测的准确率。

第三，相较于现有方法，该方法更有效地关注到图像中的小目标，提高了检测的准确率。

附图说明

图1是本发明的流程图；

图2是本发明中基于改进YOLOv7的无人机航拍图像目标检测网络的具体架构；

图3是本发明中MHSA-ELAN模块的具体架构；

图4是本发明中动态检测头的具体架构；

图5是本发明实施中提供的一种无人机航拍图像检测结果示例图。

具体实施方式

以下结合附图通过具体实施例对本发明进一步详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明的一种基于改进YOLOv7的无人机航拍图像目标检测方法的基本流程如图1所示，网络构架如图2所示，主要包括融入注意力机制的特征提取网络、特征金字塔网络和检测头网络，各网络主要由基础卷积块(CBS)、扩展高效聚合网络(ELAN)以及最大池化卷积模块(MPConv)组成。

本实施例中的图像来自VisDrone-Det数据集，该数据集由10,209张图像组成，其中训练集6471张，验证集548张，测试集3190张。该数据集中共包含10种类别，涵盖了不同天气和照明条件下的多个场景。

步骤1：获取训练数据集并进行数据增强处理。具体方法如下：

(1)获取VisDrone-Det数据集并将其标签文件转换为yolo格式。

(2)对训练数据集以Mosaic、RandomAffine、MixUp方式进行数据增强。

步骤2：搭建基于改进YOLOv7的无人机航拍图像目标检测网络。

2.1：构建基于MHSA-ELAN模块的多尺度特征提取网络，如图3所示。

具体方法如下：

(1)ELAN模块是构成YOLOv7骨干网络的主要模块，本发明中设计的MHSA-ELAN模块将ELAN中的部分3×3卷积层更换为多头自注意力，具体结构为：输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层。

(2)将YOLOv7的骨干网络中最后一个ELAN模块更换为MHSA-ELAN模块，得到新的多尺度特征提取网络。

2.2：构建加入注意力机制的动态检测头，如图4所示。

动态检测头(Dynamic Head)由三个注意力模块组成，分别为尺度感知注意力、空间感知注意力和任务感知注意力。尺度感知注意力用于提高对不同尺度的特征图的感知能力，具体结构为：平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接。空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力，具体结构为：可变形卷积层→3×3卷积层，之后分为两条分支，一个经过3×3卷积层，另一个经过sigmoid激活函数，最后进行拼接。任务感知注意力用于提高对不同任务信息表征(如根据bbox或中心点进行检测)的感知能力，具体结构为：平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接。

2.3：使用上述构建的基于MHSA-ELAN的多尺度特征提取网络、YOLOv7中的多尺度特征融合网络以及动态的检测头架构搭建目标检测网络，具体结构为：输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。

(1)采用迁移学习的方法，利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值，并冻结前三层，不进行后续的权重调整。

(2)确定训练批次大小为8和最大迭代次数为100个epoch，每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型，经过前向传播计算误差和反向传播调整权值，完成一次训练迭代。训练迭代次数达到最大迭代次数时，训练终止，得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。

步骤4：对无人机航拍图像进行目标检测，具体方法如下：

(1)将图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中，得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别；

(2)保留所有得分高于0.25的预测框，丢弃其余候选框；

(3)将所有保留的预测框位置映射到完整的航拍图像上，然后按照得分从高到低进行排序，保留预测框之间重叠度低和得分高的预测框，丢弃重叠度高和得分低的预测框，得到最终的无人机航拍图像目标检测结果，如图5所示，从图中可以看出在使用的无人机航拍图像中，行人、车辆等小目标占比较高，通过本发明中的方法可以有效地将其检测出来。

Claims

1.一种基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，包括以下步骤：

步骤1：获取无人机航拍图像训练数据集并进行数据增强处理；

步骤2：搭建基于改进YOLOv7的无人机航拍图像目标检测网络：

(2.1)：构建基于MHSA-ELAN模块的多尺度特征提取网络；

(2.2)：构建加入注意力机制的动态检测头；

(2.3)：使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络构搭建无人机航拍图像目标检测网络；

步骤3：基于最大迭代次数，用训练数据集对搭建的目标检测网络进行训练，得到训练好的无人机航拍图像目标检测网络；

步骤4：对无人机航拍图像进行目标检测。

2.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤1中所述的获取无人机航拍图像训练数据集的具体方法如下：

获取无人机航拍图像数据集并将其标签文件转换为yolo格式。

3.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤1中所述的进行数据增强处理的具体方法如下：

对训练数据集以Mosaic、MixUp方式进行数据增强。

4.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤(2.1)中所述的构建基于MHSA-ELAN模块的多尺度特征提取网络，具体方法如下：

(2.1.1)ELAN模块是构成YOLOv7骨干网络的主要模块，MHSA-ELAN模块是将ELAN中的部分3×3卷积层更换为多头自注意力，具体结构为：输入层→1×1卷积层→3×3卷积层→MHSA→3×3卷积层→MHSA→残差连接→输出层；

5.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤(2.2)中所述的构建加入注意力机制的动态检测头，具体方法如下：

动态检测头由三个注意力模块组成，分别为尺度感知注意力、空间感知注意力和任务感知注意力；尺度感知注意力用于提高对不同尺度的特征图的感知能力，具体结构为：平均池化层→1×1卷积层→relu激活函数→hard sigmid激活函数→残差连接；空间感知注意力用于提高对出现在图像中的目标的不同位置的感知能力，具体结构为：可变形卷积层→3×3卷积层，之后分为两条分支，一个经过3×3卷积层，另一个经过sigmoid激活函数，最后进行拼接；任务感知注意力用于提高对不同任务信息表征的感知能力，具体结构为：平均池化层→全连接层→relu激活函数→全连接层→hard sigmoid激活函数→残差连接。

6.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤(2.3)中所述的使用构建的基于MHSA-ELAN的多尺度特征提取网络、加入注意力机制的动态检测以及YOLOv7网络中的多尺度特征融合网络搭建无人机航拍图像目标检测网络，具体结构依次为：输入层→基于MHSA-ELAN的多尺度特征提取网络→PFAN→RepConv→动态检测头。

7.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测方法，其特征在于，步骤3中所述的基于最大迭代次数，用训练数据集对搭建的深度卷积神经网络模型进行训练，得到训练好的无人机航拍图像目标检测网络，具体方法如下：

(1)采用迁移学习的方法，利用公开训练好的YOLOv7网络模型参数作为步骤2的目标检测网络中特征提取网络的初始权值，并冻结前三层，不进行后续的权重调整；

(2)确定训练批次大小和最大迭代次数，每一次训练迭代从训练数据集中选取数量为批次大小的图像输入待训练模型，经过前向传播计算误差和反向传播调整权值，完成一次训练迭代；训练迭代次数达到最大迭代次数时，训练终止，得到训练好的基于改进YOLOv7的无人机航拍图像目标检测网络。

8.根据权利要求1中所述的基于改进YOLOv7的无人机航拍图像目标检测网络，其特征在于，步骤4中所述的对无人机航拍图像进行目标检测，具体方法如下：

(1)将无人机航拍图像输入训练好的基于改进YOLOv7的无人机航拍图像目标检测网络中，得到每个图像块的预测框、预测框对应的得分以及预测框对应的目标类别；

(2)设定得分最低值，保留所有得分高于设定的得分最低值的预测框，丢弃其余候选框；

(3)将所有保留的预测框位置映射到完整的无人机航拍图像上，然后按照得分从高到低进行排序，保留预测框之间重叠度低和得分高的预测框，丢弃重叠度高和得分低的预测框，得到最终的无人机航拍图像目标检测结果。