CN115620180A

CN115620180A - 一种基于改进YOLOv5的航拍图像目标检测方法

Info

Publication number: CN115620180A
Application number: CN202211298646.3A
Authority: CN
Inventors: 邓月明; 陈正浩; 何鑫
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-17

Abstract

本发明公开了一种基于改进YOLOv5的航拍图像目标检测方法，包括获取航拍图像建立数据集，并对数据集进行处理；构建改进YOLOv5航拍图像检测模型YOLOv5‑TOD；将数据集划分为训练集和测试集，并传入YOLOv5‑TOD网络进行训练；使用训练完成的模型对测试集进行检测识别。本发明通过在Backbone中，分别将第三层卷积层与第四层C3层，第七层卷积层与第八层C3层进行拼接(Concat)操作，并分别在两次拼接操作之后引入CBAM(Convolutional Block Attention Module)注意力模块，并将大尺度特征图进行特征融合，剔除了小尺度特征图，在提升网络对小目标检测性能的同时，也减少了网络计算量，实现了对航拍图像的精准检测，同时也拥有较好的实时性。

Description

一种基于改进YOLOv5的航拍图像目标检测方法

技术领域

本发明涉及计算机视觉目标检测领域，特别涉及一种基于改进YOLOv5的航拍图像目标检测方法。

背景技术

随着人工智能技术的广泛应用以及目标检测技术的发展，近年来基于深度学习的目标检测技术发展迅猛，在许多不同的场景下取得了不错的效果。

目前常见的目标检测算法分为两大类：两阶段目标检测(Two-Stage)以及单阶段目标检测(One-Stage)。

两阶段目标检测算法是指先在图像中提取出候选区域，再通过卷积网络进行特征提取等一系列操作，完成目标检测任务；经典的两阶段目标检测算法主要有：RCNN系列，SPP-Net等。

单阶段目标检测算法不用产生候选区域，可以直接从图片中获得目标检测结果，直接实现在神经网络中端到端的训练；经典的单阶段目标检测算法主要有：YOLO系列，SSD等。

相比之下，单阶段目标检测算法拥有更快的检测速度，但检测精度往往不如两阶段目标检测算法。

以YOLO系列为代表的目标检测算法凭借其检测速度快以及良好的检测性能在工业界得到了广泛的应用，但YOLO算法更专注于对中等大小目标的检测，而航拍图像中的目标尺寸小，在图像中的占比低，因此，在小目标检测方面，YOLO算法要实现对航拍图像的实时精准检测仍然具有挑战性。

发明内容

本发明提供了一种基于改进YOLOv5的航拍图像目标检测方法，具有良好的可靠性和实用性，目的是为了改善原YOLOv5网络对航拍图像小目标的检测精度。

本发明提供的技术方案，包括：采用公开数据集AI-TOD，数据集总量20000张航拍图片，包含6个类别，分别为飞机，桥，船，储油罐，游泳池和车辆；构建基于改进YOLOv5的航拍图像检测模型YOLOv5-TOD；选取数据集中的5000张图片，按8：2的比例划定训练集和测试集；原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes)；

其中(X1,Y1)为目标左上角坐标，(X2,Y2)为目标右下角坐标，Classes为目标类别；编写Python脚本文件将其格式转换为 (Classes,X,Y,W,H)，并进行坐标归一化；其中(X,Y)为目标的中心点坐标，W为目标的宽度，H为目标的高度；对数据集标签进行K-means++聚类，得到新的预设锚框；对YOLOv5-TOD航拍图像模型进行训练，得到航拍图像检测模型；利用训练完成的航拍图像检测模型对测试集进行航拍图像检测。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，图像处理部分包括：采用Mosaic数据增强策略对原始图像进行随机翻转，大小缩放，色域增强减弱，图片拼接等操作，扩充数据集。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，其标签处理包括：原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes)；其中(X1,Y1)为目标左上角坐标，(X2,Y2)为目标右下角坐标，Classes为目标类别。

通过编写Python脚本文件将其格式转换为 (Classes,X,Y,W,H)，并进行坐标归一化；其中(X,Y)为目标的中心点坐标，W为目标的宽度，H为目标的高度。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，采用K-means++聚类算法为网络检测层Detect模块初始化不同宽高比例的Anchors，锚框的使用层数为3层，共9组Anchors尺寸。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，所构建的航拍图像检测模型YOLOv5-TOD包括：在该目标检测网络中的Backbone部分，使用两次拼接操作，首先，将第三层卷积层输出的特征图与第四层C3层输出的特征图进行拼接，其次，将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接。

最后，分别在两次拼接操作之后添加CBAM注意力模块。

在该目标检测网络中的Neck部分，将原YOLOv5骨干网络的P5层剔除，利用P2,P3,P4层的特征图进行特征融合操作，最终得到160×160，80×80，40×40三种不同尺寸的检测层，其中160×160用于检测微小目标，80×80用于检测小目标，40×40用于检测中等目标。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，注意力模块CBAM包括：CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块；通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(AveragePooling)与最大池化(Max Pooling)，将得到的两个特征图，大小为(1×1×C)，分别送入拥有两层全连接层的多层感知机，将输出特征图相加并采用Sigmoid激活，得到通道特征图M_c(1×1×C)，将输入的特征图F(H×W×C)和通道特征图进行加权相乘，得到拥有不同比重的特征图F1(H×W×C)。

将通道改进后的特征图F1(H×W×C)分别进行逐像素的通道平均池化和逐像素的通道最大池化，得到两个单通道特征图，大小为(H×W×1)，然后利用标准7×7卷积层进行连接和卷积操作，经过Sigmoid激活，得到空间特征图M_s (H×W×1)，最后将通道改进后的特征图F1与空间特征图进行加权相乘，得到最终的输出特征图F2(H×W×C)。

本发明所述的一种基于改进YOLOv5的航拍图像目标检测方法的一种优选方案，优化器设置为随机梯度下降(SGD)，学习率(Learning rate)设置为0.01，训练次数Epoch设置为300，批量大小Batch_Size设置为8，并使用SIoU_Loss作为边界框损失函数，其中SIoU_Loss的计算方法如下。

。

其中，IoU是真实框和预测框的交并比，Ω代表形状损失，Δ代表距离损失。

本发明提供了一种基于改进YOLOv5的航拍图像目标检测方法，通过对原YOLOv5目标检测网络进行改进优化，能够实现对航拍图像检测的实时性与精确性，并且拥有更高的可靠性。

附图说明

图1为本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法的流程图。

图2为本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法的检测网络结构示意图。

图3为CBAM注意力模块结构原理图。

图4为YOLOv5-TOD航拍图像检测网络的训练效果图。

图5为部分选取的AITOD数据集目标宽高比率分布图。

图6为YOLOv5-TOD航拍图像检测网络的检测效果图。

具体实施方式

图1为本发明方法的流程示意图，本发明提供的一种基于改进YOLOv5的航拍图像目标检测方法，具体包括如下步骤。

S1：获取航拍图像，建立数据集并对图像以及原标签文件进行处理。

采用Mosaic数据增强策略对原始图像进行随机翻转，大小缩放，色域增强减弱，图片拼接等操作，扩充数据集；原数据集标签文件的数据表现形式为 (X1,Y1,X2,Y2,Classes)；其中(X1,Y1)为目标左上角坐标，(X2,Y2)为目标右下角坐标，Classes为目标类别。

S2：构建改进YOLOv5航拍图像检测模型YOLOv5-TOD，网络结构如图2所示。

原YOLOv5中，Backbone网络主要由Conv，C3和SPPF(Spatial Pyramid Pooling -Fast)构成，卷积层Conv之后连接BN(Batch Normalization)层用以加速训练并防止梯度消失与梯度爆炸，激活函数选择SiLu。

C3模块由Bottleneck模块构成，能够在不增加通道数的同时进行残差特征传递；SPPF模块将输入进行三次级联的最大池化，并将每次池化的结果与输入进行拼接(Concat)操作。在Neck网络中，C3模块采用与Backbone网络不同的CSP2_1结构，同时将Backbone网络提取的P3，P4，P5层进行一系列特征融合，上采样等操作，最终得到80×80，40×40，20×20的检测层。

本发明基于原YOLOv5网络做出如下改进。

在YOLOv5-TOD目标检测网络中的Backbone部分，使用两次拼接操作，首先，将第三层卷积层输出的特征图与第四层C3层输出的特征图进行拼接，其次，将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接。

最后，分别在两次拼接操作之后添加CBAM注意力模块，将通道信息和空间信息结合，以增强网络特征提取的能力。

考虑到所用数据集为小目标数据集，故优选大尺寸目标检测层进行检测，同时考虑到网络的计算成本，因此，在YOLOv5-TOD目标检测网络中的Neck部分，选择将原YOLOv5骨干网络的P5层剔除，利用P2,P3,P4层的特征图进行特征融合操作，最终得到160×160，80×80，40×40三种不同尺寸的检测层。

其中160×160用于检测微小目标，80×80用于检测小目标，40×40用于检测中等目标。

CBAM注意力模块结构原理如图3所示。

CBAM注意力模块使特征图依次通过通道注意力模块(Channel AttentionModule)和空间注意力模块(Spatial Attention Module)；CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块；通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(Average Pooling)与最大池化(Max Pooling)，将得到的两个特征图，大小为(1×1×C)，分别送入拥有两层全连接层的多层感知机，将输出特征图相加并采用Sigmoid激活，得到通道特征图M_c (1×1×C)，将输入的特征图F(H×W×C)和通道特征图进行加权相乘，得到拥有不同比重的特征图F1(H×W×C)。

S3：将数据集按照8:2的比例划分为训练集和测试集，并对数据集标签进行K-means++聚类，得到新的预设锚框，将数据集传入航拍图像检测模型YOLOv5-TOD进行训练，得到航拍图像检测模型。

由K-means++聚类得到的锚框结果为：第一组的锚框尺寸[1,5,3,8,4,3]用于检测微小目标，第二组的锚框尺寸[6,7,7,15,8,4]用于检测小目标，第三组的锚框尺寸[9,8,12,15,16,8]用于检测中等大小的目标。

优化器设置为随机梯度下降(SGD)，学习率(Learning rate)设置为0.01，训练次数Epoch设置为300，批量大小Batch_Size设置为8，并使用SIoU_Loss作为边界框损失函数，其中SIoU_Loss的计算方法如下。

。

。

。

。

。

。

。

。

其中，IoU是真实框和预测框的交并比，Ω代表形状损失，θ为常数，用于控制Ω在损失中所占的权重，Λ代表角度损失，Δ代表距离损失，w^gt、h^gt分别表示真实框的宽度与高度，w、h分别表示预测框的宽度与高度，用(B1,B2)表示真实框的中心点坐标，(b1,b2)表示预测框的中心点坐标，c1、c2分别表示真实框中心点与预测框中心点在水平方向和竖直方向上的距离。

本发明的模型训练环境为：CPU使用Intel(R) Xeon(R) W-2102@ 2.90GHz，GPU使用GeForce RTX 2080Ti，运行内存64GB，操作系统为Ubuntu 18.04.3 LTS，深度学习框架为PyTorch。

S4：采用精确率(Precision)、召回率(Recall)、FPS和平均准确率mAP对所得模型进行评估，计算公式如下所示。

。

。

。

其中，TP表示将正样本预测为正样本的个数，FP表示将负样本预测为正样本的个数，FN表示将正样本预测为负样本的个数，P代表精确率，R代表召回率。

利用本发明方法得到的检测模型，其效果对比如下表1所示。

网络结构	mAP@0.5	FPS	精确率(Precision)	召回率(Recall)
					YOLOv5	54.9%	83	71.4%	51.9%
YOLOv5-TOD	64.3%	50	74.7%	59.1%

根据表1可知，改进的航拍图像检测网络YOLOv5-TOD在精确率、召回率和平均准确率mAP上，相比于原YOLOv5网络，都有一定程度的提升；mAP提升了9.4%，精确率提升了3.3%，召回率提升了7.2%，同时也能够满足检测的实时性。

Claims

1.一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，包括：

1.1.采用公开数据集AI-TOD，数据集总量20000张航拍图片，包含6个类别，分别为飞机，桥，船，储油罐，游泳池和车辆；

1.2.构建基于改进YOLOv5的航拍图像检测模型YOLOv5-TOD；

1.3.对数据集图像进行预处理；

1.4.选取数据集中的5000张图片，按8：2的比例划定训练集和测试集；

1.5.原数据集标签文件的数据表现形式为：(X1,Y1,X2,Y2,Classes)；其中(X1,Y1)为目标左上角坐标，(X2,Y2)为目标右下角坐标，Classes为目标类别；编写Python脚本文件将其格式转换为：(Classes,X,Y,W,H)，并进行坐标归一化；其中(X,Y)为目标的中心点坐标，W为目标的宽度，H为目标的高度；

1.6.对数据集标签进行K-means++聚类，得到新的预设锚框；

1.7.对YOLOv5-TOD航拍图像模型进行训练，得到航拍图像检测模型；

1.8.利用训练完成的航拍图像检测模型对测试集进行航拍图像检测。

2.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，图像处理部分包括：

采用Mosaic数据增强策略对原始图像进行随机翻转，大小缩放，色域增强减弱，图片拼接等操作，扩充数据集。

3.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，所述K-means++聚类算法为网络检测层Detect模块初始化不同宽高比例的Anchors，锚框的使用层数为3层，共9组Anchors尺寸。

4.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，所构建的航拍图像检测模型YOLOv5-TOD包括：

在该目标检测网络中的Backbone部分，使用两次拼接(Concat)操作；首先，将第三层卷积层输出的特征图与第四层C3(CSP Bottleneck with 3 convolutions)层输出的特征图进行拼接，其次，将第七层卷积层输出的特征图与第八层C3层输出的特征图进行拼接，最后，分别在两次拼接操作之后添加CBAM(Convolutional Block Attention Module)注意力模块；

将原YOLOv5骨干网络的P5层剔除，利用P2,P3,P4层的特征图进行特征融合操作，最终得到160×160，80×80，40×40三种不同尺寸的检测层，其中160×160用于检测微小目标，80×80用于检测小目标，40×40用于检测中等目标。

5.如权利要求4所述的一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，注意力模块CBAM包括：

CBAM注意力模块使特征图依次通过通道注意力模块和空间注意力模块；通道注意力模块将输入的特征图F(H×W×C)分别逐通道进行平均池化(Average Pooling)与最大池化(Max Pooling)，将得到的两个特征图(1×1×C)，分别送入拥有两层全连接层的多层感知机，将输出特征图相加并采用Sigmoid激活，得到通道特征图M_c (1×1×C)，将输入的特征图(H×W×C)和通道特征图进行加权相乘，得到拥有不同比重的特征图F’(H×W×C)；

将特征图F’(H×W×C)分别进行逐像素的通道平均池化和逐像素的通道最大池化，得到两个单通道特征图(H×W×1)，然后利用标准7×7卷积层进行连接和卷积操作，经过Sigmoid激活，得到空间特征图M_s (H×W×1)，最后将通道特征图F’与空间特征图进行加权相乘，得到最终的输出特征图F’’ (H×W×C)。

6.如权利要求1所述的一种基于改进YOLOv5的航拍图像目标检测方法，其特征在于，优化器设置为随机梯度下降(SGD)，学习率(Learning rate)设置为0.01，训练次数Epoch设置为300，批量大小Batch_Size设置为8，并使用SIoU_Loss作为边界框损失函数，其中SIoU_Loss的计算方法为：