CN118015496A

CN118015496A - 基于YOLOv7神经网络的无人机航拍小目标检测方法

Info

Publication number: CN118015496A
Application number: CN202410211298.4A
Authority: CN
Inventors: 吕国华; 张曾彬; 元贸; 丁振辉
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-05-10

Abstract

本申请公开了一种基于YOLOv7神经网络的无人机航拍小目标检测方法，涉及目标检测技术领域。本申请包括以下步骤：S1：获取目标子数据集；S2：构建YOLOv7神经网络；S3：利用目标子数据集训练YOLOv7神经网络，得到YOLOv7神经网络模型；S4：利用YOLOv7神经网络模型加载无人机航拍图片，前向传播一次，即可得目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果。本申请构建的YOLOv7神经网络特征提取能力强，在无人机航拍小目标检测任务中分类和定位准确率更高。

Description

基于YOLOv7神经网络的无人机航拍小目标检测方法

技术领域

本申请属于目标检测领域，特别涉及一种基于YOLOv7神经网络的无人机航拍小目标检测方法。

背景技术

无人机航拍小目标检测任务涉及许多应用场景，如农业监测、城市规划、交通监控、勘探以及搜救救援等。目前，无人机航拍小目标检测任务大都存在小目标分类和定位准确率低的问题，而限制无人机航拍图片中小目标分类和定位准确率的主要因素有：

（1）无人机航拍图片中通常包含较多的小目标，这些小目标在图片中所占像素区域较小，甚至仅有几十或者几百个像素大小；

（2）无人机航拍图片中的目标通常是多尺度的，这主要是由于无人机航拍时拍摄视角和拍摄距离等因素造成的。

为此，本申请提出了一种分类和定位准确率更高的基于YOLOv7神经网络的无人机航拍小目标检测方法。

发明内容

为了弥补现有技术的不足，本申请提供了一种基于YOLOv7神经网络的无人机航拍小目标检测方法。

本申请的技术方案为：

一种基于YOLOv7神经网络的无人机航拍小目标检测方法，包括如下步骤：

一种基于YOLOv7神经网络的无人机航拍小目标检测方法，包括以下步骤：

S1：对原始数据集中的数据进行增强，获取目标数据集，并将目标数据集按照batch大小进行分割，获取目标子数据集；

S2：构建YOLOv7神经网络；所述YOLOv7神经网络包括Input层、主干网络、颈部网络和检测头；

Input层用于将图片和标签输入至YOLOv7神经网络中；主干网络用于对Input层输入的图片进行特征提取，得到具有多尺度特征以及丰富位置信息和语义信息的特征图；颈部网络用于将主干网络输出的不同深度的具有多尺度特征以及丰富位置信息和语义信息的特征图进行特征提取和特征融合，保留更多的位置信息和语义信息，且使得包含的位置信息和语义信息更加均衡；检测头用于计算YOLOv7神经网络的损失以及获取无人机航拍图片中目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果；

S3：利用目标子数据集训练YOLOv7神经网络，得到YOLOv7神经网络模型；

S4：利用步骤S3得到的YOLOv7神经网络模型加载无人机航拍图片，并前向传播一次，即可得目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果。

优选地，步骤S1的具体步骤为：

S1-1、加载原始数据集；

S1-2、对加载的原始数据集中的数据进行增强，获取目标数据集；

S1-3、将目标数据集按照batch大小进行分割，得到多个目标子数据集。

优选地，步骤S1-2的具体步骤为：对create_dataloader函数加载的原始数据集中的图片进行数据增强处理，得到数据增强后的图片；其中，数据增强处理包括依次进行的色调增强hsv_h、饱和度增强hsv_s、亮度增强hsv_v、平移、缩放、翻转、马赛克增强（mosaic）、mixup增强、复制粘贴，上述数据增强操作的预设参数分别为0.015、0.7、0.4、0.1、0.5、0.5、1.0、0.05、0.05；经过数据增强处理后，即可得到数据增强后的图片和标签，这些数据增强后的图片和标签构成了目标数据集。

优选地，步骤S1-3的具体步骤为：在create_dataloader函数中利用torch.utils.data.DataLoader函数将目标数据集按batch大小进行分割得到多个目标子数据集。

优选地，步骤S2中，主干网络包括依次连接的第一个卷积模块、第二个卷积模块、第一个SF-ELAN模块、第一个MP模块、第二个SF-ELAN模块、第二个MP模块、第三个SF-ELAN模块、第三个MP模块和第四个SF-ELAN模块；其中，第一个卷积模块和第二个卷积模块结构相同，第一个SF-ELAN模块至第四个SF-ELAN模块的结构相同，第一个MP模块至第三个MP模块的结构相同。

优选地，步骤S2中，第一个SF-ELAN模块的结构包括第一个卷积块Ⅱ和第七个卷积块Ⅱ，第一个卷积块Ⅱ连接Split模块，Split模块分别连接第二个卷积块Ⅱ和第五个卷积块Ⅱ，第二个卷积块Ⅱ依次连接第一个Add层、第三个卷积块Ⅱ、第二个Add层和第四个卷积块Ⅱ，第五个卷积块Ⅱ还分别连接第一个Add层、第二个Add层和第六个卷积块Ⅱ，第四个卷积块Ⅱ和第六个卷积块Ⅱ均与第一个Concat层Ⅱ连接；第一个Concat层Ⅱ依次连接SimAM模块和第八个卷积块Ⅱ，第一个Concat层Ⅱ、第八个卷积块Ⅱ、第七个卷积块Ⅱ以及第一个卷积块Ⅱ均与第二个Concat层Ⅱ连接；其中，第一个卷积块Ⅱ至第八个卷积块Ⅱ的结构相同，第一个Add层和第二个Add层结构相同，第一个Concat层Ⅱ和第二个Concat层Ⅱ结构相同。

优选地，步骤S2中，颈部网络包括与第三个SF-ELAN模块相连接的第一个卷积块Ⅰ、与第二个SF-ELAN模块相连接的第二个卷积块Ⅰ以及与第一个SF-ELAN模块相连接的第三个卷积块Ⅰ；还包括依次设置的SPPCSPC模块、第三个卷积模块、第一个Upsample层、第一个Concat层Ⅰ、第一个MS-CSP模块、第四个卷积模块、第二个Upsample层、第二个Concat层Ⅰ、第二个MS-CSP模块、第五个卷积模块、第三个Upsample层、第三个Concat层Ⅰ、第三个MS-CSP模块、第六个卷积模块、第四个Concat层Ⅰ、第四个MS-CSP模块、第七个卷积模块、第五个Concat层Ⅰ、第五个MS-CSP模块、第八个卷积模块、第六个Concat层Ⅰ、第六个MS-CSP模块；SPPCSPC模块与主干网络的第四个SF-ELAN模块连接，第一个卷积块Ⅰ、第二个卷积块Ⅰ、第三个卷积块Ⅰ分别与第一个Concat层Ⅰ、第二个Concat层Ⅰ和第三个Concat层Ⅰ连接；SPPCSPC模块、第一个MS-CSP模块和第二个MS-CSP模块还分别与第六个Concat层Ⅰ、第五个Concat层Ⅰ和第四个Concat层Ⅰ连接；其中，第一个卷积块Ⅰ至第三个卷积块Ⅰ的结构相同，第三个卷积模块至第八个卷积模块的结构相同，第一个Upsample层至第三个Upsample层的结构相同，第一个MS-CSP模块至第六个MS-CSP模块的结构相同，第一个Concat层Ⅰ至第六个Concat层Ⅰ的结构相同。

优选地，步骤S2中，第一个MS-CSP模块的结构包括第一个卷积块Ⅲ、与第一个卷积块Ⅲ连接的第一个分支网络和第二个分支网络、与第一个分支网络和第二个分支网络相连接的Concat层Ⅲ以及与Concat层Ⅲ相连接的第九个卷积块Ⅲ；其中，第一个分支网络仅由第二个卷积块Ⅲ构成；第二个分支网络包括Split模块，Split模块分别连接第三个卷积块Ⅲ和Add层，第三个卷积块Ⅲ依次连接第四个卷积块Ⅲ和第五个卷积块Ⅲ，Add层依次连接第六个卷积块Ⅲ、第七个卷积块Ⅲ和第八个卷积块Ⅲ，第五个卷积块Ⅲ还连接Add层，Split模块、第二个卷积块Ⅲ、第五个卷积块Ⅲ以及第八个卷积块Ⅲ均与Concat层Ⅲ连接；其中，第一个卷积块Ⅲ至第九个卷积块Ⅲ的结构都是相同。

优选地，步骤S2中，检测头包括第一个LD-Head模块、第二个LD-Head模块、第三个LD-Head模块、第四个LD-Head模块以及一个NMS模块；第三个MS-CSP模块至第六个MS-CSP模块分别连接第一个LD-Head模块至第四个LD-Head模块，第一个LD-Head模块至第四个LD-Head模块还均与NMS模块连接；其中，第一个LD-Head模块至第四个LD-Head模块的结构相同。

优选地，步骤S2中，第一个LD-Head模块的结构包括第一个卷积块Ⅳ，第一个卷积块Ⅳ分别连接第一个LightGSConv模块和第二个LightGSConv模块，第一个LightGSConv模块连接第二个卷积块Ⅳ，第二个LightGSConv模块分别连接第三个卷积块Ⅳ和第四个卷积块Ⅳ；其中，第一个LightGSConv模块和第二个LightGSConv模块的结构相同，第一个卷积块Ⅳ至第四个卷积块Ⅳ的结构相同。

优选地，步骤S2中，第一个LightGSConv模块包括第一个卷积块Ⅴ，第一个卷积块Ⅴ分别连接第二个卷积块Ⅴ和DWConv模块，第二个卷积块Ⅴ和DWConv模块均与Concat层Ⅳ连接，Concat层Ⅳ连接Shuffle层；其中，第一个卷积块Ⅴ和第二个卷积块Ⅴ的结构相同。

优选地，步骤S3具体包括如下步骤：

S3-1、构建损失函数，所述损失函数与原始YOLOv7方法中的损失函数相同；

S3-2、将所有的目标子数据集分批次加载到YOLOv7神经网络中，进行前向传播，而后利用损失函数计算YOLOv7神经网络的总损失，在总损失的引导下进行反向传播，更新YOLOv7神经网络的权重参数矩阵和超参数，迭代200个 epoch后，即完成YOLOv7神经网络的训练过程，得到YOLOv7神经网络模型，同时可以得到模型大小指标；其中，超参数包括学习率和迭代次数。

与现有技术相比，本申请的有益效果如下：

本申请基于YOLOv7神经网络的无人机航拍小目标检测方法有效提升了YOLOv7神经网络对无人机航拍图片中小目标的特征提取能力，同时也提升了YOLOv7神经网络对无人机航拍图片中小目标的多尺度感知能力，有效解决了YOLOv7神经网络对无人机航拍图片中小目标感知能力差的问题，从而提高了YOLOv7神经网络对无人机航拍图片中小目标检测的分类能力和定位能力。

本申请中在YOLOv7神经网络的主干网络中利用SF-ELAN模块进行特征提取，而SF-ELAN模块在进行特征提取的过程中，SF-ELAN模块使用跳层连接进行特征融合，如此可有效避免卷积运算过程中的信息丢失，充分保留无人机航拍图片中小目标的多尺度特征信息；此外，本申请YOLOv7神经网络的颈部网络中利用MS-CSP模块进行多尺度特征融合，而MS-CSP模块在进行多尺度特征融合的过程中，MS-CSP模块在通道方向分割特征图，并对不同深度的特征图进行融合，有效提升YOLOv7神经网络对无人机航拍图片中小目标的感知能力，保留更多小目标特征信息；此外，本申请YOLOv7神经网络的检测头中设置了四个LD-Head模块，而输入至第一个LD-Head模块至第四个LD-Head模块的特征图的尺寸大小不同，且呈逐渐变小的趋势，因此，颈部网络输出的上述四个尺寸大小不同的特征图利用第一个LD-Head模块至第四个LD-Head模块解耦后能够获得无人机航拍图片中更多不同大小尺度目标的位置信息和语义信息，从而有效提升定位的准确率和分类的准确率。

本申请通过将多尺度特征融合策略以及特征图解耦策略进行有效结合，显著提高了本申请对无人机航拍图片中小目标检测的F1、mAP@.5以及mAP@.5：.95这三个评价指标，这些指标的提升也说明本申请基于YOLOv7神经网络的无人机航拍小目标检测方法对无人机航拍图片中小目标的分类和定位的准确率得到了有效提升。

附图说明

图1为本申请的基于YOLOv7神经网络的无人机航拍小目标检测方法的流程图；

图2为本申请中基于YOLOv7神经网络的无人机航拍小目标检测方法的网络结构示意图；

图3为本申请中第一个SF-ELAN模块结构示意图；

图4为本申请中第一个MS-CSP模块结构示意图；

图5为本申请中第一个LD-Head模块模块结构示意图；

图6为本申请中第一个LightGSConv模块结构示意图。

具体实施方式

为使本申请技术方法更加清晰，下面结合附图详细说明本申请实施例。

一种基于YOLOv7神经网络的无人机航拍小目标检测方法，如图1所示，包括以下步骤：

S1：对原始数据集中的数据进行增强，获取目标数据集，并将目标数据集按照batch大小进行分割，获取目标子数据集。

本申请中，S1具体步骤为：

S1-1、加载原始数据集：

利用create_dataloader函数加载原始数据集，其中，create_dataloader函数获取网址为https://github.com/WongKinYiu/yolov7/blob/main/utils/datasets.py；本申请中使用的原始数据集为VisDrone数据集，VisDrone数据集为现有数据集，获取网址为：http://aiskyeye.com/home/；VisDrone数据集是一个无人机视角的小目标检测数据集，该数据集包括8629张图片，这些图片中包含大量的目标，且这些目标多为小目标，甚至部分目标过小，仅有几十至几百像素。

S1-2、对加载的原始数据集中的数据进行增强，获取目标数据集：

对create_dataloader函数加载的原始数据集中的图片进行数据增强处理，得到数据增强后的图片，其中，数据增强处理包括依次进行的色调增强hsv_h、饱和度增强hsv_s、亮度增强hsv_v、平移、缩放、翻转、马赛克增强（mosaic）、mixup增强、复制粘贴，上述数据增强操作的预设参数分别为0.015、0.7、0.4、0.1、0.5、0.5、1.0、0.05、0.05；其中，色调增强hsv_h、饱和度增强hsv_s、亮度增强hsv_v、平移以及缩放的预设参数分别表示进行该数据增强操作的处理幅度，而翻转、马赛克增强（mosaic）、mixup增强以及复制粘贴的预设参数分别表示进行该数据增强操作的概率；经过数据增强处理后，即可得到数据增强后的图片和标签，这些数据增强后的图片和标签构成了目标数据集；

S1-3、将目标数据集按照batch大小进行分割，得到多个目标子数据集：具体如下：

在create_dataloader函数中利用torch.utils.data.DataLoader函数将目标数据集按batch大小进行分割得到多个目标子数据集。

S2：构建YOLOv7神经网络；

所述YOLOv7神经网络的结构，如图2所示，包括Input层、主干网络、颈部网络和检测头；

Input层用于将目标子数据集中的图片和标签输入至YOLOv7神经网络中；其中，目标子数据集中图片的图像大小为640×640×3；

主干网络用于对Input层输入的图片进行特征提取，得到具有多尺度特征以及丰富位置信息和语义信息的特征图；

颈部网络用于将主干网络输出的不同深度的具有多尺度特征以及丰富位置信息和语义信息的特征图进行特征提取和特征融合，保留更多的位置信息和语义信息，且使得包含的位置信息和语义信息更加均衡；

检测头用于计算YOLOv7神经网络的损失以及获取无人机航拍图片中目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果。

本申请中主干网络的结构及功能：

本申请中，主干网络包括依次连接的第一个卷积模块、第二个卷积模块、第一个SF-ELAN模块、第一个MP模块、第二个SF-ELAN模块、第二个MP模块、第三个SF-ELAN模块、第三个MP模块和第四个SF-ELAN模块；

第一个卷积模块和第二个卷积模块的结构相同、功能也相同，以第一个卷积模块为例，第一个卷积模块和第二个卷积模块均由依次连接的Conv层、BN层和Silu激活函数层构成，其中，第一个卷积模块和第二个卷积模块中的Conv层的卷积核大小均为3×3；本申请中第一个卷积模块和第二个卷积模块均用于对特征图进行下采样和升维。

第一个SF-ELAN模块至第四个SF-ELAN模块的结构相同、功能也相同，第一个SF-ELAN模块至第四个SF-ELAN模块均用于提取特征图中目标的多尺度特征以及特征图中目标的丰富位置信息和语义信息获取具有多尺度特征以及丰富位置信息和语义信息的特征图；

第一个MP模块至第三个MP模块的结构相同、功能也相同，第一个MP模块至第三个MP模块均用于对特征图下采样。

另外，本申请中第一个SF-ELAN模块从结构设计上来说为跳层连接设计，本申请中第一个SF-ELAN模块的结构，如图3所示，包括第一个卷积块Ⅱ和第七个卷积块Ⅱ，第一个卷积块Ⅱ连接Split模块，Split模块分别连接第二个卷积块Ⅱ和第五个卷积块Ⅱ，第二个卷积块Ⅱ依次连接第一个Add层、第三个卷积块Ⅱ、第二个Add层和第四个卷积块Ⅱ，第五个卷积块Ⅱ还分别连接第一个Add层、第二个Add层和第六个卷积块Ⅱ，第四个卷积块Ⅱ和第六个卷积块Ⅱ均与第一个Concat层Ⅱ连接；第一个Concat层Ⅱ依次连接SimAM模块和第八个卷积块Ⅱ，第一个Concat层Ⅱ、第八个卷积块Ⅱ、第七个卷积块Ⅱ以及第一个卷积块Ⅱ均与第二个Concat层Ⅱ连接。

本申请第一个卷积块Ⅱ至第八个卷积块Ⅱ的结构都是相同的，都是由依次连接的Conv层、BN层和Silu激活函数层构成，不过，第一个卷积块Ⅱ至第八个卷积块Ⅱ中的Conv层的卷积核大小不同，具体来说，第一个SF-ELAN模块中第二个卷积块Ⅱ至第五个卷积块Ⅱ以及第八个卷积块Ⅱ中的Conv层的卷积核大小均为3×3，第一个卷积块Ⅱ、第六个卷积块Ⅱ和第七个卷积块Ⅱ中的Conv层的卷积核大小均为1×1；而SimAM模块为现有技术，其计算特征图的方式也为现有技术，本申请采用的SimAM模块为《SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks》这篇论文中公开的SimAM模块。

第一个Add层和第二个Add层结构相同、功能也相同、功能也相同；第一个Concat层Ⅱ和第二个Concat层Ⅱ结构相同、功能也相同。

本申请第一个SF-ELAN模块中，第七个卷积块Ⅱ仅对输入的特征图进行卷积操作，其目的是用于保留输入进第一个SF-ELAN模块的特征图信息；而第一个卷积块Ⅱ用于对输入至第一个SF-ELAN模块的特征图进行卷积操作，Split模块对第一个卷积块Ⅱ输出的特征图在通道方向上划分成相同维度大小的两部分特征图，而后，两部分特征图分别经过第二个卷积块Ⅱ和第五个卷积块Ⅱ，第二个卷积块Ⅱ和第五个卷积块Ⅱ均对输入的特征图进行特征提取和升维操作，而后，第二个卷积块Ⅱ和第五个卷积块Ⅱ输出的特征图利用第一个Add层进行相加，第一个Add层相加后的特征图会经过第三个卷积块Ⅱ进行特征提取，第三个卷积块Ⅱ提取到的特征图又会与第五个卷积块Ⅱ提取得到的特征图利用第二个Add层进行相加，第二个Add层相加得到的特征图则会传输给第四个卷积块Ⅱ进行特征提取和降维，而第五个卷积块Ⅱ也会将其提取到的特征图传输给第六个卷积块Ⅱ进行降维，第六个卷积块Ⅱ输出的特征图和第四个卷积块Ⅱ输出的特征图则会经过第一个Concat层Ⅱ进行拼接，得到具有丰富位置信息和语义信息的特征图；而后第一个Concat层Ⅱ输出的特征图进入SimAM模块，利用SimAM模块调整特征图关于目标区域的权重参数分布，提升YOLOv7神经网络对无人机航拍图片中小目标区域的兴趣程度，而后第八个卷积块Ⅱ对SimAM模块输出的特征图进行特征提取，最后，第二个Concat层Ⅱ对第八个卷积块Ⅱ输出的特征图、第一个Concat层Ⅱ输出的特征图、第一个卷积块Ⅱ输出的特征图以及第七个卷积块Ⅱ输出的特征图进行拼接，得到具有多尺度特征以及丰富位置信息和语义信息的特征图。

本申请中颈部网络的结构及功能：

本申请中，颈部网络包括与第三个SF-ELAN模块相连接的第一个卷积块Ⅰ、与第二个SF-ELAN模块相连接的第二个卷积块Ⅰ以及与第一个SF-ELAN模块相连接的第三个卷积块Ⅰ；还包括依次设置的SPPCSPC模块、第三个卷积模块、第一个Upsample层、第一个Concat层Ⅰ、第一个MS-CSP模块、第四个卷积模块、第二个Upsample层、第二个Concat层Ⅰ、第二个MS-CSP模块、第五个卷积模块、第三个Upsample层、第三个Concat层Ⅰ、第三个MS-CSP模块、第六个卷积模块、第四个Concat层Ⅰ、第四个MS-CSP模块、第七个卷积模块、第五个Concat层Ⅰ、第五个MS-CSP模块、第八个卷积模块、第六个Concat层Ⅰ、第六个MS-CSP模块；SPPCSPC模块与主干网络的第四个SF-ELAN模块连接，第一个卷积块Ⅰ、第二个卷积块Ⅰ、第三个卷积块Ⅰ分别与第一个Concat层Ⅰ、第二个Concat层Ⅰ和第三个Concat层Ⅰ连接；SPPCSPC模块、第一个MS-CSP模块和第二个MS-CSP模块还分别与第六个Concat层Ⅰ、第五个Concat层Ⅰ和第四个Concat层Ⅰ连接；

第一个卷积块Ⅰ至第三个卷积块Ⅰ的结构相同、功能也相同，第一个卷积块Ⅰ至第三个卷积块Ⅰ的结构均由依次连接的Conv层、BN层和Silu激活函数层构成，且第一个卷积块Ⅰ至第三个卷积块Ⅰ中的Conv层的卷积核大小均为1×1；

其中，第一个卷积块Ⅰ用于对第三个SF-ELAN模块输出的特征图进行降维，从而匹配第一个Concat层的拼接操作，第二个卷积块Ⅰ用于对第二个SF-ELAN模块输出的特征图进行降维，用于匹配第二个Concat层的的拼接操作，第三个卷积块Ⅰ用于对第一个SF-ELAN模块输出的特征图进行降维，用于匹配第三个Concat层的拼接操作；

SPPCSPC模块用于对主干网络中第四个SF-ELAN模块输出的特征图进行下采样；

本申请中，第三个卷积模块至第八个卷积模块的结构相同，第三个卷积模块至第八个卷积模块的结构均由依次连接的Conv层、BN层和Silu激活函数层构成，其中，第三个卷积模块至第五个卷积模块中的Conv层的卷积核大小均为1×1，第六个卷积模块至第八个卷积模块中的Conv层的卷积核大小均为3×3；第三个卷积模块、第四个卷积模块、第五个卷积模块均用于对输入的特征图进行降维，第六个卷积模块和第七个卷积模块均用于对输入的特征图进行下采样，第八个卷积模块用于对输入的特征图进行下采样和升维；

第一个Upsample层至第三个Upsample层结构相同，且功能均为对输入的特征图进行上采样；

第一个MS-CSP模块至第六个MS-CSP模块的结构相同、功能也相同，第一个MS-CSP模块至第六个MS-CSP模块均用于特征提取和特征融合；

第一个Concat层Ⅰ至第六个Concat层Ⅰ的结构相同、功能也相同，第一个Concat层Ⅰ至第六个Concat层Ⅰ均用于特征拼接实现特征融合。

本申请中第一个MS-CSP模块的结构，如图4所示，包括第一个卷积块Ⅲ、与第一个卷积块Ⅲ连接的第一个分支网络和第二个分支网络、与第一个分支网络和第二个分支网络相连接的Concat层Ⅲ以及与Concat层Ⅲ相连接的第九个卷积块Ⅲ；其中，第一个分支网络仅由第二个卷积块Ⅲ构成；第二个分支网络包括Split模块，Split模块分别连接第三个卷积块Ⅲ和Add层，第三个卷积块Ⅲ依次连接第四个卷积块Ⅲ和第五个卷积块Ⅲ，Add层依次连接第六个卷积块Ⅲ、第七个卷积块Ⅲ和第八个卷积块Ⅲ，第五个卷积块Ⅲ还连接Add层，Split模块、第二个卷积块Ⅲ、第五个卷积块Ⅲ以及第八个卷积块Ⅲ均与Concat层Ⅲ连接；

本申请中，第一个卷积块Ⅲ至第九个卷积块Ⅲ的结构都是相同的，都是由依次连接的Conv层、BN层和Silu激活函数层构成，不过，第一个卷积块Ⅲ至第九个卷积块Ⅲ中的Conv层的卷积核大小不同，具体来说，第一个卷积块Ⅲ、第二个卷积块Ⅲ、第三个卷积块Ⅲ、第五个卷积块Ⅲ、第六个卷积块Ⅲ、第八个卷积块Ⅲ和第九个卷积块Ⅲ中的Conv层的卷积核大小均为1×1；第四个卷积块Ⅲ和第七个卷积块Ⅲ中的Conv层的卷积核大小均为3×3；

其中，第一个卷积块Ⅲ、第三个卷积块Ⅲ和第六个卷积块Ⅲ均用于对输入的特征图进行卷积操作，第二个卷积块Ⅲ用于对特征图进行降维，第四个卷积块Ⅲ和第七个卷积块Ⅲ均用于提取目标的多尺度特征，第五个卷积块Ⅲ和第八个卷积块Ⅲ均用于降维，第九个卷积块Ⅲ用于调整输入特征图的通道数大小；

第一个MS-CSP模块的工作原理为：第一个卷积块Ⅲ对输入的特征图进行卷积操作，而后第一个卷积块Ⅲ提取的特征图分别输送至第二个卷积块Ⅲ和Split模块，第二个卷积块Ⅲ对输入的特征图进行降维，用于保留输入至第一个MS-CSP模块的特征图信息，而Split模块则对第一个卷积块Ⅲ输出的特征图在通道方向划分为两部分特征图，其中一部分特征图先利用第三个卷积块Ⅲ进行卷积操作，而后利用第四个卷积块Ⅲ提取多尺度特征，而后再利用第五个卷积块Ⅲ进行降维，而Split模块划分的另一部分特征图以及第五个卷积块Ⅲ输出的特征图则先利用Add层进行特征图相加，然后再利用第六个卷积块Ⅲ进行卷积操作，而后利用第七个卷积块Ⅲ提取多尺度特征，而后再利用第八个卷积块Ⅲ进行降维，而后，第二个卷积块Ⅲ输出的特征图、Split模块输出至第三个卷积块Ⅲ的特征图、第五个卷积块Ⅲ输出的特征图以及第八个卷积块Ⅲ输出的特征图利用Concat层Ⅲ进行拼接，Concat层Ⅲ拼接后得到的特征图再利用第九个卷积块Ⅲ来调整通道数，即可得到多尺度特征信息、位置信息和语义信息更加丰富且均衡的特征图。

本申请中MS-CSP模块可将颈部网络中提取的多尺度特征信息、位置信息和语义信息进一步融合，获取多尺度特征信息、位置信息和语义信息更加丰富且均衡的特征图。

本申请中检测头的结构及功能：

本申请中，检测头包括第一个LD-Head模块、第二个LD-Head模块、第三个LD-Head模块、第四个LD-Head模块以及一个NMS模块；第三个MS-CSP模块至第六个MS-CSP模块分别连接第一个LD-Head模块至第四个LD-Head模块，第一个LD-Head模块至第四个LD-Head模块还均与NMS模块连接；其中，第一个LD-Head模块至第四个LD-Head模块的结构相同、功能也相同。

由于输入至第一个LD-Head模块至第四个LD-Head模块的特征图尺寸大小不同，具体来说，输入至第一个LD-Head模块的特征图尺寸为160×160×64、输入至第二个LD-Head模块的特征图尺寸为80×80×64、输入至第三个LD-Head模块的特征图尺寸为40×40×128、输入至第四个LD-Head模块的特征图尺寸为20×20×256，而尺寸大的特征图输入到LD-Head模块进行解耦能够更好地检测到小目标，尺寸小的特征图输入到LD-Head模块进行解耦能够更好地检测到大目标，而输入至第一个LD-Head模块、第二个LD-Head模块、第三个LD-Head模块以及第四个LD-Head模块的特征图的尺寸大小不同，且呈逐渐变小的趋势，因此，颈部网络输出的上述四个尺寸大小不同的特征图利用第一个LD-Head模块至第四个LD-Head模块解耦后能够获得无人机航拍图片中更多不同大小尺度目标的位置信息和语义信息，从而有效提升定位和分类的准确率。

第一个LD-Head模块至第四个LD-Head模块分别用于处理颈部网络中第三个MS-CSP模块、第四个MS-CSP模块、第五个MS-CSP模块和第六个MS-CSP模块输出的特征图，而且，第一个LD-Head模块至第四个LD-Head模块均利用LightGSConv模块对输入的特征图进行解耦，并利用解耦的位置信息和语义信息检测输入至YOLOv7神经网络中的无人机航拍图片中的目标，最终获得图片中的目标的位置信息、语义信息以及边框信息；而NMS模块则用于对第一个LD-Head模块至第四个LD-Head模块输出的特征图进行去除冗余的预测框及去除位于冗余的预测框内的位置信息和语义信息，最终得到无人机航拍图片中所有待识别目标的位置信息、语义信息和边框信息。

本申请中第一个LD-Head模块的结构，如图5所示，包括第一个卷积块Ⅳ，第一个卷积块Ⅳ分别连接第一个LightGSConv模块和第二个LightGSConv模块，第一个LightGSConv模块连接第二个卷积块Ⅳ，第二个LightGSConv模块分别连接第三个卷积块Ⅳ和第四个卷积块Ⅳ；第一个LightGSConv模块和第二个LightGSConv模块的结构相同、功能也相同；本申请中，第一个卷积块Ⅳ至第四个卷积块Ⅳ的结构都是相同的，都是由依次连接的Conv层、BN层和Silu激活函数层构成，且第一个卷积块Ⅳ至第四个卷积块Ⅳ中的Conv层的卷积核大小均为1×1；

第一个LD-Head模块的工作原理为：第一个卷积块Ⅳ对输入的特征图进行卷积操作，而后，第一个卷积块Ⅳ输出的特征图分别经过第一个LightGSConv模块和第二个LightGSConv模块，第一个LightGSConv模块用于对第一个卷积块Ⅳ输出的特征图进行解耦操作，得到语义信息丰富的特征图，从而有效提高无人机航拍图片中小目标分类的准确率，第二个LightGSConv模块用于对第一个卷积块Ⅳ输出的特征图进行解耦操作，得到位置信息丰富的特征图，从而有效提高无人机航拍图片中小目标定位的准确率；

而后，第二个卷积块Ⅳ利用第一个LightGSConv模块输出的解耦得到的语义信息检测得到输入至YOLOv7神经网络中的无人机航拍图片中的目标，获得图片中的目标的语义信息，第三个卷积块Ⅳ和第四个卷积块Ⅳ分别利用第二个LightGSConv模块输出的解耦得到的位置信息检测得到输入至YOLOv7神经网络中的无人机航拍图片中的目标，最终获得图片中的目标的位置信息和边框信息。

本申请中第一个LightGSConv模块的结构，如图6所示，第一个LightGSConv模块包括第一个卷积块Ⅴ，第一个卷积块Ⅴ分别连接第二个卷积块Ⅴ和DWConv模块，第二个卷积块Ⅴ和DWConv模块均与Concat层Ⅳ连接，Concat层Ⅳ连接shuffle层；本申请中，第一个卷积块Ⅴ和第二个卷积块Ⅴ的结构都是相同的，都是由依次连接的Conv层、BN层和Silu激活函数层构成，且第一个卷积块Ⅴ和第二个卷积块Ⅴ中的Conv层的卷积核大小均为1×1；

第一个LightGSConv模块的工作原理为：第一个卷积块Ⅴ对输入的特征图进行调整通道数，而后第二个卷积块Ⅴ对第一个卷积块Ⅴ输出的特征图进行降维，且特征图的维度降为第一个卷积块Ⅴ输出的特征图的一半，而DWConv模块则对第一个卷积块Ⅴ输出的特征图进行特征提取和降维，而第二个卷积块Ⅴ输出的特征图以及DWConv模块输出的特征图则利用Concat层Ⅳ进行拼接，而后再利用Shuffle层调整Concat层Ⅳ输出的特征图中的位置信息和语义信息参数分布，充分融合第二个卷积块Ⅴ和DWConv模块输出的特征图中的特征信息。

S3-1、构建损失函数，本申请中构建的损失函数与原始YOLOv7方法中的损失函数相同；其中，原始YOLOv7方法是指论文《YOLOv7: Trainable bag-of-freebies sets newstate-of-the-art for real-time object detectors》所述的基于YOLOv7网络的目标检测方法。

S3-2、将所有的目标子数据集分批次加载到YOLOv7神经网络中，进行前向传播，而后利用损失函数计算YOLOv7神经网络的总损失，在总损失的引导下进行反向传播，更新YOLOv7神经网络的权重参数矩阵和超参数（超参数包括学习率和迭代次数），迭代200个epoch后，即完成YOLOv7神经网络的训练过程，得到YOLOv7神经网络模型，同时可以得到模型大小指标。

S4：利用YOLOv7神经网络模型加载无人机航拍图片，并前向传播一次，即可得目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果。

测试：

为了对比本申请所述基于YOLOv7神经网络的无人机航拍小目标检测方法的检测效果，本申请对比了现有的七种目标检测方法，现有的七种目标检测方法包括YOLOv4-tiny方法（出自于《YOLOv4: Optimal Speed and Accuracy of Object Detection》），YOLOv5s方法（出自于https://github.com/ultralytics/yolov5），YOLOv6s-v3.0方法（出自于《YOLOv6 v3.0: A Full-Scale Reloading》），原始YOLOv7方法（出自于《YOLOv7:Trainable bag-of-freebies sets new state-of-the-art forreal-time objectdetectors》），SPD方法（出自于《No More Strided Convolutions or Pooling: A New CNNBuilding Block for Low-Resolution Images and Small Objects》），TPH-YOLOv5s方法（出自于《TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction HeadforObject Detection on Drone-captured Scenarios》），Gold-YOLO方法（出自于《Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism》），上述现有的七种目标检测方法与本申请所述的基于YOLOv7神经网络的无人机航拍小目标检测方法进行对比时，均采用相同的测试策略，具体来说，上述七种现有的目标检测方法以及本申请所述的目标检测方法都先用VisDrone数据集中的训练集（VisDrone数据集为现有数据集，该数据集中存在划分好的训练集、测试集和验证集）训练200个epoch，然后再用VisDrone数据集中的测试集进行测试，测试结果如表1所示，本申请所述的基于YOLOv7神经网络的无人机航拍小目标检测方法在表1中以Ours方法进行表示。

表1

从表1中能够看出，本申请采用的评价指标包括F1、mAP@.5、mAP@.5:.95、帧率以及模型大小；本申请中评价指标F1表示准确率和召回率的调和平均数；mAP@.5表示IOU=0.5时的平均准确率；mAP@.5:.95表示IOU从0.5至0.95每隔0.05计算一个平均准确率，而后对所有平均准确率取平均得到的准确率；帧率表示推理速度，表示在单位时间内能够处理多少张图片，单位为帧每秒(FPS)；模型大小表示上述七种方法及本申请所述方法训练得到的神经网络模型的文件大小，单位为兆(M)，能够衡量模型参数量。本申请中评价指标F1、mAP@.5、mAP@.5:.95以及帧率值越大越好，模型大小越小越好。

本申请所述方法中的YOLOv7神经网络是基于原始YOLOv7方法中的YOLOv7神经网络改进的，而且，从表1可知，原始YOLOv7方法的F1、mAP@.5以及mAP@.5：.95这三个评价指标表现均较佳，因此，本申请重点与原始YOLOv7方法的测试结果进行对比。

从表1中能够看出，本申请所述方法在帧率和模型大小方面的评价指标不如原始YOLOv7方法，不过，本申请所述方法的目的是提高对无人机航拍图片中小目标的分类的准确率和定位的准确率，而且，从表1中可以看出，本申请所述目标检测方法在F1、mAP@.5和mAP@.5:.95这三个评价指标上明显优于原始YOLOv7方法，这表明所述方法相较于原始YOLOv7方法确实显著提高了对无人机航拍图片中小目标的分类的准确率和定位的准确率，本申请所述目标检测方法在F1、mAP@.5和mAP@.5:.95这三个评价指标上所取得的效果，具体如下：

相对于原始YOLOv7方法，本申请所述的基于YOLOv7神经网络的无人机航拍小目标检测方法在F1评价指标上提升了(0.406-0.379)/0.379×100%=7.12%；

本申请所述的基于YOLOv7神经网络的无人机航拍小目标检测方法在mAP@.5评价指标上提升了(0.341-0.304)/0.304×100%=12.17%；

本申请所述的基于YOLOv7神经网络的无人机航拍小目标检测方法在mAP@.5:.95评价指标上提升了(0.187-0.156)/0.156×100%=19.87%。

Claims

1.一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：包括以下步骤：

其中，Input层用于将图片和标签输入至YOLOv7神经网络中；主干网络用于对输入的图片进行特征提取，得到具有多尺度特征以及丰富位置信息和语义信息的特征图；颈部网络用于将主干网络输出的不同深度的具有多尺度特征以及丰富位置信息和语义信息的特征图进行特征提取和特征融合，保留更多的位置信息和语义信息，且使得包含的位置信息和语义信息更加均衡；检测头用于计算YOLOv7神经网络的损失以及获取无人机航拍图片中目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果；

S4：利用YOLOv7神经网络模型加载无人机航拍图片，前向传播一次，即可得目标的位置信息、语义信息和边框信息，并输出评价指标F1、mAP@.5、mAP@.5:.95以及帧率的结果。

2.根据权利要求1所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，主干网络包括依次连接的第一个卷积模块、第二个卷积模块、第一个SF-ELAN模块、第一个MP模块、第二个SF-ELAN模块、第二个MP模块、第三个SF-ELAN模块、第三个MP模块和第四个SF-ELAN模块；其中，第一个卷积模块和第二个卷积模块结构相同，第一个SF-ELAN模块至第四个SF-ELAN模块的结构相同，第一个MP模块至第三个MP模块的结构相同。

3.根据权利要求2所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，第一个SF-ELAN模块的结构包括第一个卷积块Ⅱ和第七个卷积块Ⅱ，第一个卷积块Ⅱ连接Split模块，Split模块分别连接第二个卷积块Ⅱ和第五个卷积块Ⅱ，第二个卷积块Ⅱ依次连接第一个Add层、第三个卷积块Ⅱ、第二个Add层和第四个卷积块Ⅱ，第五个卷积块Ⅱ还分别连接第一个Add层、第二个Add层和第六个卷积块Ⅱ，第四个卷积块Ⅱ和第六个卷积块Ⅱ均与第一个Concat层Ⅱ连接；第一个Concat层Ⅱ依次连接SimAM模块和第八个卷积块Ⅱ，第一个Concat层Ⅱ、第八个卷积块Ⅱ、第七个卷积块Ⅱ以及第一个卷积块Ⅱ均与第二个Concat层Ⅱ连接；其中，第一个卷积块Ⅱ至第八个卷积块Ⅱ的结构相同，第一个Add层和第二个Add层结构相同，第一个Concat层Ⅱ和第二个Concat层Ⅱ结构相同。

4.根据权利要求1所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，颈部网络包括与第三个SF-ELAN模块相连接的第一个卷积块Ⅰ、与第二个SF-ELAN模块相连接的第二个卷积块Ⅰ以及与第一个SF-ELAN模块相连接的第三个卷积块Ⅰ；还包括依次设置的SPPCSPC模块、第三个卷积模块、第一个Upsample层、第一个Concat层Ⅰ、第一个MS-CSP模块、第四个卷积模块、第二个Upsample层、第二个Concat层Ⅰ、第二个MS-CSP模块、第五个卷积模块、第三个Upsample层、第三个Concat层Ⅰ、第三个MS-CSP模块、第六个卷积模块、第四个Concat层Ⅰ、第四个MS-CSP模块、第七个卷积模块、第五个Concat层Ⅰ、第五个MS-CSP模块、第八个卷积模块、第六个Concat层Ⅰ、第六个MS-CSP模块；SPPCSPC模块与主干网络的第四个SF-ELAN模块连接，第一个卷积块Ⅰ、第二个卷积块Ⅰ、第三个卷积块Ⅰ分别与第一个Concat层Ⅰ、第二个Concat层Ⅰ和第三个Concat层Ⅰ连接；SPPCSPC模块、第一个MS-CSP模块和第二个MS-CSP模块还分别与第六个Concat层Ⅰ、第五个Concat层Ⅰ和第四个Concat层Ⅰ连接；其中，第一个卷积块Ⅰ至第三个卷积块Ⅰ的结构相同，第三个卷积模块至第八个卷积模块的结构相同，第一个Upsample层至第三个Upsample层的结构相同，第一个MS-CSP模块至第六个MS-CSP模块的结构相同，第一个Concat层Ⅰ至第六个Concat层Ⅰ的结构相同。

5.根据权利要求4所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，第一个MS-CSP模块的结构包括第一个卷积块Ⅲ、与第一个卷积块Ⅲ连接的第一个分支网络和第二个分支网络、与第一个分支网络和第二个分支网络相连接的Concat层Ⅲ以及与Concat层Ⅲ相连接的第九个卷积块Ⅲ；其中，第一个分支网络仅由第二个卷积块Ⅲ构成；第二个分支网络包括Split模块，Split模块分别连接第三个卷积块Ⅲ和Add层，第三个卷积块Ⅲ依次连接第四个卷积块Ⅲ和第五个卷积块Ⅲ，Add层依次连接第六个卷积块Ⅲ、第七个卷积块Ⅲ和第八个卷积块Ⅲ，第五个卷积块Ⅲ还连接Add层，Split模块、第二个卷积块Ⅲ、第五个卷积块Ⅲ以及第八个卷积块Ⅲ均与Concat层Ⅲ连接；其中，第一个卷积块Ⅲ至第九个卷积块Ⅲ的结构都是相同。

6.根据权利要求1所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，检测头包括第一个LD-Head模块、第二个LD-Head模块、第三个LD-Head模块、第四个LD-Head模块以及一个NMS模块；第三个MS-CSP模块至第六个MS-CSP模块分别连接第一个LD-Head模块至第四个LD-Head模块，第一个LD-Head模块至第四个LD-Head模块还均与NMS模块连接；其中，第一个LD-Head模块至第四个LD-Head模块的结构相同。

7.根据权利要求6所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，第一个LD-Head模块的结构包括第一个卷积块Ⅳ，第一个卷积块Ⅳ分别连接第一个LightGSConv模块和第二个LightGSConv模块，第一个LightGSConv模块连接第二个卷积块Ⅳ，第二个LightGSConv模块分别连接第三个卷积块Ⅳ和第四个卷积块Ⅳ；其中，第一个LightGSConv模块和第二个LightGSConv模块的结构相同，第一个卷积块Ⅳ至第四个卷积块Ⅳ的结构相同。

8.根据权利要求7所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S2中，第一个LightGSConv模块包括第一个卷积块Ⅴ，第一个卷积块Ⅴ分别连接第二个卷积块Ⅴ和DWConv模块，第二个卷积块Ⅴ和DWConv模块均与Concat层Ⅳ连接，Concat层Ⅳ连接Shuffle层；其中，第一个卷积块Ⅴ和第二个卷积块Ⅴ的结构相同。

9.根据权利要求1所述的一种基于YOLOv7神经网络的无人机航拍小目标检测方法，其特征在于：步骤S3具体包括如下步骤：

S3-2、将所有的目标子数据集分批次加载到YOLOv7神经网络中，进行前向传播，而后利用损失函数计算YOLOv7神经网络的总损失，在总损失的引导下进行反向传播，更新YOLOv7神经网络的权重参数矩阵和超参数，迭代200个 epoch后，即完成YOLOv7神经网络的训练过程，得到YOLOv7神经网络模型，同时可以得到模型大小指标。