CN117557922A

CN117557922A - 改进YOLOv8的无人机航拍目标检测方法

Info

Publication number: CN117557922A
Application number: CN202311361640.0A
Authority: CN
Inventors: 赵志宏; 郝子晔; 赵世哲; 俞阿丹; 李万根
Original assignee: Hebei Zingto Aviation Technology Co ltd; Shijiazhuang Tiedao University
Current assignee: Hebei Zingto Aviation Technology Co ltd; Shijiazhuang Tiedao University
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-13
Anticipated expiration: 2043-10-19
Also published as: CN117557922B

Abstract

本发明公开了一种改进YOLOv8的无人机航拍目标检测方法，涉及计算机视觉技术领域。所述方法包括如下步骤：对数据集进行数据增强和划分，并将增强后的图像分辨率调整为预设大小；构建无人机航拍目标检测用于改进的YOLOv8网络，在主干网络中通过引入部分空洞卷积构建多分支部分空洞卷积模块用以改进C2F中的Bottleneck块，增强特征提取网络感受野，提高模型检测性能，并减少参数量和计算量；最后综合检测精度和参数量指标来选取最佳模型，对测试集数据进行测试。所述方法能够提高无人机对小目标的检测性能，取得了较好的检测效果。

Description

改进YOLOv8的无人机航拍目标检测方法

技术领域

本发明涉及机器视觉技术领域，尤其涉及一种基于改进的YOLOv8网络的改进YOLOv8的无人机航拍目标检测方法。

背景技术

随着无人机技术的发展使得无人机可以适应复杂和恶劣的环境，无人机目标检测已经广泛应用于交通安全、抢险救援和测绘航测等领域。

目前，基于深度学习的目标检测方法主要分为两种。第一种是两阶段式算法，其通过生成一系列的候选边界框再利用CNN提取特征，如FastR-CNN、R-CNN、R-FCN等。虽然双阶段算法能够提高检测精度，但由于生成大量候选区域所需时间开销大，实时性不足。而单阶段算法直接将目标边界定位问题转化为回归问题，仅需要一次便可以得到边界框的坐标和类概率值，因此单阶段算法在损失一部分检测精度的同时提升了检测速度。随着YOLO系列算法的不断改进，更适合无人机航拍目标检测。但由于无人机航拍图像中的目标呈现尺度各异、小物体多、密度大导致小目标像素信息少，特征纹理模糊，直接将YOLO系列的前沿版本应用于无人机航拍目标检测仍存在检测精度不高以及实时性不足的问题。

检测精度与参数量是衡量无人机航拍目标检测算法优劣的重要指标。刘婷婷等使用MobileNetV3替换YOLOv3的主干网络降低了模型参数量，但检测精度不足。Yang等通过在YOLOv5模型上优化锚框尺寸、增加注意力机制、添加小目标检测层的方法提高检测精度，但网络的参数量增加。苏凯第等通过在YOLOv5模型上增加卷积层数加深算法深度，采用多次循环神经网络提高训练速度，但也导致由于参数量增加无法适配无人机等边缘设备的问题。张徐等使用余弦注意力机制和后正则化方法改进Swin Transformer重构YOLOv7主干网络，虽然小目标检测精度有所提升，但模型推理速度慢、参数量大。

由上述分析知，当前改进YOLOv8的无人机航拍目标检测方法仍存在实时性不足，小目标检测精度低的问题。

发明内容

本发明所要解决的技术问题是如何提供一种能够提高对小目标的检测性能的改进YOLOv8的无人机航拍目标检测方法。

为解决上述技术问题，本发明所采取的技术方案是：一种改进YOLOv8的无人机航拍目标检测方法，包括如下步骤：

S1：对数据集进行数据增强和划分，并将增强后的图像分辨率调整为预设大小；

S2：构建无人机航拍目标检测用于改进的YOLOv8网络，所述改进的YOLOv8网络通过在主干网络中引入部分空洞卷积构建多分支部分空洞卷积块DPC，来构建C2F中的Bottleneck块形成新的DPC2F块，并在该块中加入EMA注意力机制对通道进行调节且通过加入跳连路径实现特征聚合，数据集通过所述改进的YOLOv8网络的主干网络提取特征，得到三个尺度的特征图；

S3：将主干网络提取的网络特征进行处理，输出给颈部网络进行多尺度特征融合，并通过最小化总体损失函数，对目标检测网络进行训练，不断更新模型参数进行微调，得到训练模型；

S4：加载最佳轻量级多尺度模型参数，将待检测图像输入模型中得到检测结果，生成目标检测图像。

采用上述技术方案所产生的有益效果在于：本发明所述方法中改进的YOLOv8网络采用一种部分空洞卷积，由于同时兼顾部分卷积和空洞卷积的优势，能够降低网络参数量和加大模型感受野。在部分空洞卷积的基础上提出一种多分支部分空洞卷积模块，模块内部包含四个分支，每个分支分别对特征图进行特征提取，通过加入EMA注意力机制对四个分支的特征图按照通道数进行优化，增大小目标特征，抑制无关特征，提高模型对小目标的检测性能。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例所述方法的流程框图；

图2为本发明实施例所述方法中改进的YOLOv8网络结构示意图；

图3为本发明实施例中的部分空洞卷积的结构示意图；

图4为本发明实施例中多分支部分空洞卷积块的结构示意图；

图5为本发明实施例中EMA注意力机制模块的结构示意图；

图6为本发明实施例中DPC2F块的结构示意图；

图7为本发明实施例所述方法的检测效果图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明实施例公开了一种改进YOLOv8的无人机航拍目标检测方法，所述方法包括如下步骤：

具体的，本实施例中，使用公开数据集VisDrone2019，对数据集进行数据增强和划分；具体的，下载公开无人机航拍数据集VisDrone2019，共8629张无人机视角下的航拍图像，数据集共分为10个类别，分别为行人、人、自行车、汽车、面包车、卡车、三轮车、遮阳篷三轮车、公共汽车、摩托车。对数据集进行处理，以8:1:1的比率划分为训练集、验证集和测试集，其中训练集包括6471张图像，验证集包括548张图像、测试集包括1610张图像。通过Mosaic对数据集进行数据增强，并将增强后的图像分辨率调整为预设大小；

S3：将主干网络提取的三个尺度的特征进行处理，输出给颈部网络进行多尺度特征融合，得到三个尺度的融合特征图，头部网络则将三个尺度的融合特征图进行分类和回归预测，得到每个像素点对应每个类别和每个维度的概率，对所以像素点进行非极大值抑制去除重叠较大且置信度较低的预测框，保留下最终的预测框及其类别和置信度，并通过最小化总体损失函数，对目标检测网络进行训练，不断更新模型参数进行微调，得到训练模型；

下面结合具体内容对上述步骤进行详细说明：

所述步骤S2中构建无人机航拍目标检测用于改进的YOLOv8网络的方法包括如下步骤：

S21：构建部分空洞卷积；

S22：构建部分空洞卷积块，所述部分空洞卷积块包括部分空洞卷积、批量归一化层和SiLU激活函数；

S23：构建多分支部分空洞卷积块DPC，所述多分支部分空洞卷积块包括部分空洞卷积、标准卷积和EMA注意力机制；

S24：构建主干网络特征提取模块DPC2F；

S25：构建改进YOLOv8的改进YOLOv8的无人机航拍目标检测方法，其具体结构如图2所示。

进一步的，所述步骤S21中使用部分空洞卷积提取图像特征，部分空洞卷积在提取图像特征时采用两阶段过程，第一阶段使用一个3×3空洞卷积提取特征，部分空洞卷积的具体结构如图3所示，这一阶段的计算过程如下：

其中，为卷积输入的特征图，f′∈R^{C×k×k×m×d}为空洞卷积运算，Y′∈R^H ^‘×W’×m为得到的本征特征图；

第二阶段使用一个1×1卷积对第一阶段提取的特征进行线性变换，该阶段的计算过程如下：

其中，y′_i表示Y′中的第i个本征特征图，Φ_i,j表示生成第i个部分卷积特征图y_ij的第j个线性运算；

最后将两阶段的结果进行拼接最后输出，其过程如下：

其中，Y∈R^{H‘×W‘×2m}为部分空洞卷积最后生成的特征图；

部分空洞卷积与标准卷积的卷积核大小的对应关系如下：

k'＝(k-1)×r+1

部分空洞卷积感受野的计算公式如下：

R_f＝(k-1)×2(r-1)+k

其中：k表示输入的卷积核尺寸；r:表示膨胀系数；k’表示膨胀后等效的卷积核尺寸。

部分空洞卷积块由部分空洞卷积、批量归一化层、SiLU激活函数组成。SiLU激活函数公式如下：

进一步的，所述步骤S23中构建多分支部分空洞卷积块DPC(其具体结构如图4所示)具体包括如下步骤：

通过多分支来增大模块特征提取的感受野；DPC多分支部分空洞卷积模块由不同膨胀率的部分空洞卷积和1×1的卷积组成；第一个分支为普通的1×1卷积，第二个分支的部分空洞卷积的膨胀率为1，第三个分支的部分空洞卷积的膨胀率为3，第四个分支的部分空洞卷积的膨胀率为5。部分空洞卷积块提取不同尺度的特征，将不同尺度的特征拼接之后送入EMA注意力机制，通过一条跳连路径实现多尺度特征融合；上述过程可描述为：

上述公式中I表示输入特征图像；F₁表示1×1的标准卷积，F₂、F₃、F₄分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征；(·)表示膨胀率为r的，卷积核大小为k的部分空洞卷积操作；σ(·)表示SiLU激活函数；Cat(·)表示按照通道维度对特征进行拼接操作；θ(·)表示EMA注意力机制；BN(·)表示归一化操作；f_1×1(·)表示一个卷积核大小为1的卷积操作；F₅表示EMA模块输出的特征，F₆表示输出特征。

使用期望最大化注意力机制EMA(其具体结构如图5所示)对DPC模块并行拼接的特征按照通道进行调节，加强本模块特征的提取性能；期望最大化注意力机制EMA由Α_E、Α_M、Α_R三部分构成，其中Α_E、Α_M对应期望最大化(EM)算法的E步和M步；对输入的特征图X∈R^N ^×C，初始值为μ∈R^N×C，Α_E为估计隐变量Z∈R^N×K，即每个基对像素的权责；第k个基对第n个像素的权责计算方法为：

Α_M步负责更新μ，第k个基μ更新算法如下：

交替执行Α_E、Α_M步后μ和Z已近似收敛，重估计输入特征图后，获得估计后的特征图X′∈R^N×C，计算方法如下：

X′＝Zμ

进一步的，所述步骤S24中构建主干网络特征提取模块DPC2F(其具体结构如图6所示)具体包括如下步骤：

DPC2F块用1个或者多个多分支部分空洞卷积块DPC构建原始C2F中的Bottleneck块，降低主干网络的参数量和提高感受野。

DPC2F块中首先将特征图用一个1×1的标准卷积改变特征图通道数；然后按照通道数进行平分；其中通道数为一半的特征图经过1个或多个DPC块后与另一半划分未处理的特征图拼接；再经过一个1×1的标准卷积改变通道数输出给下一主干网络中的3×3卷积；

输入进DPC块中的特征图，首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接，再通过一个EMA注意力模块后，与DPC原始输入特征图通过跳连路径进行相加操作后输出，之后将特征图送入后面的3×3卷积结构，经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络。

颈部网络是用于融合不同尺度特征的网络结构，由于使用了PANet结构，它可以将不同尺度的特征图进行自顶向下和自底向上相结合，首先将主干网络输出的三个尺度的特征图进行上采样和下采样，然后通过卷积层和跳层连接进行特征融合，最后输出三个尺度的特征图，分别为80x80、40x40和20x20。

头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构，其通过将分类和回归分支分离来分别进行检测，分类分支使用一个卷积层和一个Sigmoid激活函数，输出每个像素点对应每个类别的概率，回归分支则使用一个卷积层和一个Softmax激活函数，输出每个像素点对应每个维度(左上角、右下角、中心点、宽高)的概率分布，得到检测结果。

上述具体公开了改进YOLOv8网络的具体结构。

进一步的，所述步骤S3中网络训练包括如下步骤：

S31：采用网络优化器为SGD优化器，设置BatchSize大小为8，学习率设置为0.01，训练轮数为300轮；

S32：本发明使用的总体损失函数为：

Loss＝ALoss_cls+BLoss_Rect+CLosso_bj

其中Loss_cls，Loss_Rect，Loss_obj分别表示分类损失、定位损失和置信度损失。A，B，C分别表示不同损失所占比重。

S33：分类损失采用BCE损失函数，具体公式如下：

其中，y表示预测值，t表示目标真实类别，n为样本数量，log表示自然对数。

S34：定位损失Loss_Rect采用Loss_DFL+Loss_CIOU，具体公式如下：

Loss_Rect＝Loss_DFL+Loss_CIOU

其中，p表示预测值，y表示目标真实类别，n为样本数量，σ为预测框与真实框的中心点距离，c为二者最小包围矩形的对角线长度，λ为影响因子。

S35：置信度损失Losso_bjt同样采用BCELoss，具体公式如下：

其中，y表示预测值，t表示预测框内目标是否为当前类别，n为样本数量，log表示自然对数。

S36：评价指标采用查准率(P)、查全率(R)、参数量、平均精度

均值(mAP)，其中查准率公式为：

召回率公式为：

平均精度均值公式为：

其中TP表示真正例，FP表示假正例，FN表示假反例，n表示类别数量。

进一步的，所述步骤S4中：

使用训练好的改进YOLOv8网络对测试集进行目标检测，生成检测框，将生成的检测图像与原图像对比，得出每张检测图像的检测效果。

将实验结果与基准模型对比，本发明的网络参数量减少了13.52％，同时检测精度上涨6.5％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种改进YOLOv8的无人机航拍目标检测方法，其特征在于包括如下步骤：

2.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于：所述步骤S1具体包括如下步骤：

S11：将数据集划分为训练集、验证集和测试集；

S12：对训练集数据集通过Mosaic进行样本增强；并将增强后的图像分辨率调整为640×640。

3.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S2中改进的YOLOv8网络通过如下方法进行构建：

S21：构建部分空洞卷积；

S23：构建多分支部分空洞卷积块DPC，所述多分支部分空洞卷积块DPC包括部分空洞卷积、标准卷积和EMA注意力机制；

S24：构建主干网络特征提取模块DPC2F；

S25：构建改进的YOLOv8网络。

4.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S21中构建的部分空洞卷积处理图像的方法包括如下步骤：

使用部分空洞卷积提取图像特征，部分空洞卷积在提取图像特征时采用两阶段过程，第一阶段使用一个3×3空洞卷积提取特征，这一阶段的计算过程如下：

其中，为卷积输入的特征图，f′∈R^{C×k×k×m×d}为空洞卷积运算，Y′∈R^H ^′×W′×m为得到的本征特征图；

其中，y′_i表示Y′中的第i个本征特征图，Φ_i，j表示生成第i个部分卷积特征图y_ij的第j个线性运算；

最后将两阶段的结果进行拼接最后输出，其过程如下：

其中，Y∈R^{H′×W′×2m}为部分空洞卷积最后生成的特征图；

部分空洞卷积与标准卷积的卷积核大小的对应关系如下：

k′＝(k-1)×r+1

部分空洞卷积感受野的计算公式如下：

R_f＝(k-1)×2(r-1)+k

其中：k表示输入的卷积核尺寸；r：表示膨胀系数；k’表示膨胀后等效的卷积核尺寸。

5.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S23中构建多分支部分空洞卷积模块DPC的方法包括如下步骤：

所述DPC包括不同膨胀率的部分空洞卷积和1×1的卷积，第一个分支为普通的1×1卷积，第二个分支的部分空洞卷积的膨胀率为1，第三个分支的部分空洞卷积的膨胀率为3，第四个分支的部分空洞卷积的膨胀率为5；部分空洞卷积块提取不同尺度的特征，将不同尺度的特征拼接之后送入EMA注意力机制，通过一条跳连路径实现多尺度特征融合；上述过程可描述为：

上述公式中I表示输入特征图像；F₁表示1×1的标准卷积，F₂、F₃、F₄分别表示经过膨胀率为1、3和5的部分空洞卷积提取到的特征；(·)表示膨胀率为r的，卷积核大小为k的部分空洞卷积操作；σ(·)表示SiLU激活函数；Cat(·)表示按照通道维度对特征进行拼接操作；θ(·)表示EMA注意力机制；BN(·)表示归一化操作；f_1×1(·)表示一个卷积核大小为1的卷积操作；F₅表示EMA模块输出的特征，F₆表示输出特征；

使用期望最大化注意力机制EMA对所述DPC并行拼接的特征按照通道进行调节，加强本模块特征的提取性能；期望最大化注意力机制EMA由A_E、A_M、A_R三部分构成，其中A_E、A_M对应期望最大化(EM)算法的E步和M步；对输入的特征图X∈R^N×C，初始值为μ∈R^N×C，A_E为估计隐变量Z∈R^N×K，即每个基对像素的权责；第k个基对第n个像素的权责计算方法为：

A_M步负责更新μ，第k个基μ更新算法如下：

交替执行A_E、A_M步后μ和Z已近似收敛，重估计输入特征图后，获得估计后的特征图X′∈R^N×C，计算方法如下：

X′＝Zμ。

6.如权利要求3所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S24中所述DPC2F的构建方法包括如下步骤：

使用1个或者多个多分支部分空洞卷积块DPC构建C2F块中的Bottleneck形成新的DPC2F块；

输入进DPC块中的特征图，首先通过一个标准卷积和三个并行的部分空洞卷积后按照通道数进行特征拼接，再通过一个EMA注意力模块后，与DPC原始输入特征图通过跳连路径进行相加操作后输出，之后将特征图送入后面的3×3卷积结构，经过主干网络特征提取得到三个尺度的特征图将其传递给颈部网络；

颈部网络首先将主干网络输出的三个尺度的特征图进行上采样和下采样，然后通过卷积层和跳层连接进行特征融合，最后输出三个尺度的特征图，分别为80x80、40x40和20x20；

头部网络是用于预测目标类别、位置和置信度的无锚框方法的网络结构，其通过将分类和回归分支分离来分别进行检测，分类分支使用一个卷积层和一个Sigmoid激活函数，输出每个像素点对应每个类别的概率，回归分支则使用一个卷积层和一个Softmax激活函数，输出每个像素点对应每个维度的概率分布，得到检测结果。

7.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S3中网络训练包括如下步骤：

S32：使用的总体损失函数为：

Loss＝ALoss_cls+BLoss_Rect+CLoss_obj

其中Loss_cls，Loss_Rect，Loss_obj分别表示分类损失、定位损失和置信度损失；A，B，C分别表示不同损失所占比重；

S33：分类损失采用BCE损失函数，具体公式如下：

其中，y表示预测值，t表示目标真实类别，n为样本数量，log表示自然对数；

S34：定位损失Loss_Rect采用Loss_DFL+Loss_CIoU，具体公式如下：

Loss_Rect＝Loss_DFL+Loss_CIoU

其中，p表示预测值，y表示目标真实类别，n为样本数量，σ为预测框与真实框的中心点距离，c为二者最小包围矩形的对角线长度，λ为影响因子；

S35：置信度损失Loss_obit同样采用BCELoss，具体公式如下：

其中，y表示预测值，t表示预测框内目标是否为当前类别，n为样本数量，log表示自然对数；

S36：评价指标采用查准率(P)、查全率(R)、参数量、平均精度均值(mAP)，其中查准率公式为：

召回率公式为：

平均精度均值公式为：

8.如权利要求1所述的改进YOLOv8的无人机航拍目标检测方法，其特征在于，所述步骤S4中：