CN115439766A

CN115439766A - 一种基于改进yolov5的无人机目标检测方法

Info

Publication number: CN115439766A
Application number: CN202211163094.5A
Authority: CN
Inventors: 张恒; 程成; 杭芹; 赵洪坪; 吕雪; 何云玲; 郭家新
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-06

Abstract

本发明属于计算机视觉领域，具体涉及一种基于改进yolov5的无人机目标检测方法；包括采集无人机巡检图像集并标注得到对应的标签文件，标签文件包括目标的类别和目标框坐标；将标签文件转换为文本文件，目标框坐标归一化得到归一化框坐标，预处理无人机巡检图像集得到预处理图像集；划分预处理图像集及归一化坐标集得到训练集、验证集和测试集；通过聚类算法得到训练集的锚框样本；构建基于ECA的目标检测模型并训练；采用改进nms算法对训练好的目标检测模型进行后处理；采用得到的目标检测模型进行无人机目标检测；本发明改进yolov5检测精度低、对中小目标检测效果差的缺点，实现无人机检测过程高速且精准的需求。

Description

一种基于改进yolov5的无人机目标检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于改进yolov5的无人机目标检测方法。

背景技术

目标检测(Object Detection)是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史，经过长期的发展和技术迭代，目标检测已广泛应用于人脸识别、缺陷检测、工业控制、航空航天等领域。当前无人机检测技术主要是基于机器学习中的目标检测模型。目标检测模型有两类算法：一阶段算法、二阶段算法，二者各有优劣；一阶段算法优势在于模型处理速度快，实时性较强，但精度不高，代表算法有yolo系列、SSD等；二阶段算法优势在于精度高，但训练速度慢，代表算法有Faster-RCNN。

近年来，随着我国经济的飞速发展，无人机产业的应用需求不断扩大，这对无人机产业中检测技术的要求也进一步提高。当前无人机检测技术的主要问题在于不同高空飞行，目标尺度变化非常大，密集目标运动轨迹模糊，中、小型目标检测效果差，且由于无人机在检测过程中需要较快的检测和处理速度，所以本发明将提供一种基于改进yolov5目标检测算法，在实现高速检测和处理速度的同时，改进yolov5检测精度低、对中小目标检测效果差的缺点，实现无人机检测过程高速且精准的需求。

发明内容

为解决无人机在飞行过程中存在目标尺度变化大、密集目标运动轨迹模糊，中、小型目标检测效果差等问题，本发明提供了一种基于改进yolov5的无人机目标检测方法，包括以下步骤：

一种基于改进yolov5的无人机目标检测方法，其特征在于，包括以下步骤：

S1.采集无人机巡检图像集，对无人机巡检图像集中的每一张无人机巡检图像进行标注得到对应的标签文件，所有标签文件组成标签文件集；标签文件包括无人机巡检图像中目标的类别和目标框坐标；

S2.对标签文件集进行处理，将每一个标签文件转换为文本文件，并将其中的目标框坐标归一化得到归一化框坐标，所有的归一化框坐标组成归一化坐标集合；同时对无人机巡检图像集进行预处理得到预处理图像集；

S3.按比例划分预处理图像集及归一化坐标集合，得到训练集、验证集和测试集；将训练集馈入K-means聚类算法，得到锚框样本；

S4.根据yolov5网络构建基于ECA的目标检测模型，通过训练集和锚框样本训练目标检测模型，采用总损失函数计算损失，反向传播更新网络参数；损失函数公式如下：

Loss＝a*loss_cls+b*loss_box+c*loss_confidence

其中，loss_cls表示分类损失，loss_box表示定位损失，loss_confidence表示置信度损失，a、b、c分别对应三种损失的权重；

S5.基于soft-nms算法设计一种shape-nms算法，采用shape-nms算法对训练完成的目标检测模型进行后处理，滤除冗余框；

S6.采用S5得到的目标检测模型进行无人机目标检测。

进一步的，基于ECA的目标检测模型包括backbone模块、neck模块和head模块，与原始yolov5网络结构相比，

backbone模块包括逐层连接的第一CBL层、第二CBL层、第一C3层、第三CBL层、第二C3层、第四CBL层、第三C3层、第五CBL层、第四C3层和SPP层，其中在SPP层引入ECA注意力模块；

neck模块除特征金字塔网络和路径聚合网络外，添加了一个生成新特征图的分支网络，该新特征图的尺寸为160×160；

head模块包括Xsmall、Small、Medium和Big四个输出。

进一步的，特征金字塔网络包括逐层连接的第六CBL层、第一上采样层、第一融合层、第五C3层、第七CBL层、第二上采样层、第二融合层和第六C3层；

分支网络包括逐层连接的第八CBL层、第三采样层、第三融合层、第七C3层；

路径聚合网络包括逐层连接的第九CBL层、第四融合层、第八C3层、第十CBL层、第五融合层、第九C3层、第十一CBL层、第六融合层、第十C3层；

其中第五C3层、第六C3层、第七C3层、第八C3层、第九C3层和第十C3层中均引入了ECA注意力模块。

进一步的，ECA注意力模块采用ECA注意力机制，其计算过程为：

S11.将输入的特征图进行全局平均池化；

S12.对S11的结果进行卷积核为1的卷积操作，并将卷积结果经过Sigmoid激活函数得到各通道的权重ω，计算公式为：

ω＝σ(C₁D_k(y))

其中，σ表示Sigmoid激活函数，C₁D_k(y)表示一维卷积，D_k(y)表示输入k维尺寸数，ψ(C)表示卷积尺寸变量，C表示通道数，b、γ表示实验系数；

S13.将权重与S11中输入特征图的对应元素相乘得到输出特征图。

进一步的，每一个上采样层的上采样方式为最邻近插值法。

进一步的，采用shape-nms算法对任一个类别的候选框集合过滤冗余框的过程包括：

S21.设置置信度阈值、IOU阈值和shape阈值，目标检测模型输出的候选框集合用A1表示，候选框集合对应的置信度集合用S1表示，

S22.在置信度集合S1中选取最大置信度F，将该最大置信度F添加到预测框置信度集合S2中，在置信度集合S1中删除F；

S23.在候选框集合A1中找到与F对应的候选框B，将该候选框B添加到预测框集合A2中，在候选框集合A1中移除该候选框B；

S24.将候选框集合A1中剩余的候选框分别与候选框B计算Shape值，并判断Shape值是否大于Shape阈值，若是，则将候选框的置信度降低，否则置信度不变；

S25.判断候选框集合A1中的候选框数量是否为1，若是，则进入步骤S26，否则返回步骤S22；

S26.将预测框集合A2中的候选框的置信度分别与置信度阈值作比较，若小于置信度阈值，则删除对应的候选框及其置信度，得到第二预测框集合A3；

S27.计算第二预测框集合中每两个候选框间的重合度，若重合度高于IOU阈值，则将两个候选框融合，最终得到一个融合框，该融合框的置信度为第二预测框集合A3对应的置信度集合中的最大值。

进一步的，候选框的置信度的计算公式为：

其中，s_i表示置信度分数，M表示置信度最大的候选框，b_i表示除置信度最大的候选框以外的候选框，w表示分数权重，D表示候选框集合，width_i表示候选框b_i的宽，width_M表示置信度最大的候选框M的宽，height_i表示候选框b_i的高，height_M表示置信度最大的候选框M的高。

本发明的有益效果：

采用无人机巡检判断信号接收站是否存在缺陷的过程中，存在无人机拍摄图像中目标小、轮廓模糊的问题，同时检测结果中冗余框太多，所以针对上述技术难题本发明提出了基于yolov5的无人机巡检技术，该技术在原yolov5模型上做了改进，提出了4个检测器的网络模型，并在该网络模型中加入了ECA注意力机制，加强了对小目标的检测效果；为解决检测结果冗余框太多的问题提出了基于Shape的NMS算法，同时在NMS算法之后加入了预测框融合机制，进一步加强了检测结果中冗余框过滤能力。

附图说明

图1为本发明的方法流程图；

图2为本发明的目标检测模型的网络结构图；

图3为本发明的ECA注意力机制结构图；

图4为本发明的聚类效果图；

图5为本发明的4类检测器特征图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于改进yolov5的无人机目标检测方法，如图1所示，包括以下步骤：

S1.采集无人机在巡检过程中拍摄的图像数据，并对图像数据进行筛选，得到无人机巡检图像集，对无人机巡检图像集中的每一张无人机巡检图像进行标注得到对应的标签文件，所有标签文件组成标签文件集；标签文件包括无人机巡检图像中目标的类别和目标框坐标；

S4.根据yolov5网络构建基于ECA的目标检测模型，采用训练集和锚框样本训练目标检测模型，采用总损失函数计算损失，反向传播更新网络参数；损失函数公式如下：

Loss＝a*loss_cls+b*loss_box+c*loss_confidence

S6.采用S5得到的目标检测模型进行无人机目标检测。

在一实施例中，对无人机巡检图像集进行预处理，包括图像尺寸调整和数据增强。采用自适应图像缩放机制进行图像尺寸调整，在图像的长、宽按比例缩放的时候，将剩余部分以灰色进行填充，从而避免图像尺寸调整中的图像失真问题。数据增强采用了离线数据增强和在线数据增强两种方式；离线数据增强的目的是为了增加数据的数量和特征，这只针对某些数量稀疏的类别数据，而不是全部数据，离线数据增强包括翻转、平移、转置、融合和拼接等方式；在线数据增强的目的是为了避免由于数据量较低而造成训练过拟合，是针对所有训练数据进行增强，在线数据增强包括mix_up、mosaic、颜色变换、放缩、移位和翻转的方式。

具体地，采用K-means聚类算法处理图像数据获取锚框样本，将K-means聚类算法中计算聚类聚类所采用的的欧氏距离替换为1-IOU距离，计算公式为：

d(box,centroid)＝1-IOU(box,centroid)

其中，d(box,centroid)表示真实框和中心框的距离，IOU(box,centroid)表示真实框和中心框做IOU计算，聚类效果如图4所示，图中较大的圆点是训练集聚类的锚框样本，其余小点是训练集中的样本。

具体地，对标签文件集进行处理，将每一个标签文件转换为文本文件，并将其中的目标框坐标归一化得到归一化框坐标，这是因为进行归一化处理之后更有利于提升模型训练速度。

采用训练集和锚框样本训练目标检测模型，在训练过程中还提供了矩形训练模式，其目的是在不改变图像信息的情况下，减少冗余信息，同时将图像的尺寸调整至模型能够得到更好训练效果的尺寸大小。

在一实施例中，基于yolov5网络进行优化改进，构建基于ECA的目标检测模型，如图2所示，和yolov5网络类似，基于ECA的目标检测模型也包括输入端、骨干网络(backbone模块)、特征融合网络(neck模块)和检测器网络(head模块)，骨干网络负责对输入数据进行特征提取，这里的输入数据就是训练集数据；特征融合网络负责进行特征融合；检测器网络进行预测，将预测结果与实际标签进行对比，并进行梯度更新。

具体地，如图2所示，与原始yolov5网络结构相比，

backbone模块包括逐层连接的第一CBL层、第二CBL层、第一C3层、第三CBL层、第二C3层、第四CBL层、第三C3层、第五CBL层、第四C3层和空间池化金字塔(Spatial PyramidPooling，SPP)层，其中为了提升对无人机巡检图像中较多中、小型目标检测效果，在SPP层引入ECA注意力模块；

neck模块除特征金字塔网络和路径聚合网络外，新增加了一层对中、小目标训练效果更好的分支网络，得到新特征图，如图5所示，该新特征图的尺寸为160×160；新特征图更加清晰、感受野更小，这样的新特征图对中、小目标更加敏感，从而加强了对中、小目标的训练，并且在路径聚合网络(Path Aggregation Network，PANet)构建了对应的检测器，通过这样的方式提升了模型对中、小型目标的训练效果。

具体地，特征金字塔网络包括逐层连接的第六CBL层、第一上采样层、第一融合层、第五C3层、第七CBL层、第二上采样层、第二融合层和第六C3层；

分支网络包括逐层连接的第八CBL层、第三采样层、第三融合层、第七C3层。

路径聚合网络包括逐层连接的第九CBL层、第四融合层、第八C3层、第十CBL层、第五融合层、第九C3层、第十一CBL层、第六融合层、第十C3层。

其中，第五C3层、第六C3层、第七C3层、第八C3层、第九C3层和第十C3层中均引入了ECA注意力模块。

其中，第一融合层用于拼接第一上采样层的输出和第三C3层的输出；第二融合层用于拼接第二上采样层的输出和第二C3层的输出；第三融合层用于拼接第三上采样层的输出和第一C3层的输出；第四融合层用于拼接第八CBL层的输出和第九CBL层的输出，第五融合层用于拼接第十CBL层的输出和第七CBL层的输出；第六融合层用于拼接第十一CBL层的输出和第六CBL层的输出。

head模块包括Xsmall、Small、Medium和Big四个输出。

其中，Xsmall的输入为第七C3层未经过ECA注意力模块的输出；Small的输入为第八C3层未经过ECA注意力模块的输出；Medium的输入为第九C3层未经过ECA注意力模块的输出；Big的输入为第十C3层未经过ECA注意力模块的输出。

在一实施例中，ECA注意力模块采用ECA(Effificient Channel Attention)注意力机制，其目的是为了加强对有效特征通道的学习，提升模型的检测效果，图3是ECA注意力机制，这是一种通道注意力机制，其原理是特征图数据通过1D卷积进行学习，此时将通道数中的数据转化为0-1.0小数值，可以看做权重值，再与最开始的特征图进行通道数相乘，这样就可以降低无效通道数的比重，从而实现有效利用通道中数据，使模型注意它应该注意的地方。具体的计算过程为：

S11.将输入的特征图进行全局平均池化；

ω＝σ(C₁D_k(y))

其中，σ表示Sigmoid激活函数，C₁D_k(y)表示一维卷积，D_k(y)表示输入k维尺寸数，ψ(C)表示卷积尺寸变量，C表示通道数，b、γ表示实验系数。

通过这样的方式即可过滤掉特征图中无效的通道数据，利用卷积具有良好的跨通道信息获取能力的特性，将1D卷积结构与平局池化结构结合起来，再在Sigmoid函数处理之后，提升模型对于有效通道的注意力，从而实现了对于不同尺度变化图像检测效果的提升，ECA通道注意力机制相对于传统的通道注意力机制的改进在于避免了捕获所有通道。

在一实施例中，neck模块的各上采样层用于扩张特征图的尺寸大小，在本实施例中采用的上采样方式为最邻近插值法，计算公式为：

其中，D_in、D_out为输入特征图和输出特征图的维度，scale_factor为扩张倍数，H_in、W_in为输入特征图的长和宽，H_out、W_out为输出特征图的长和宽。在分支网络中，将第三上采样层的输出特征图与backbone模块中第三C3层的输出进行融合，从而构建出了对中、小目标更具有亲和力的特征图，该特征图缩小了感受野，加强了对中、小目标的训练，从而实现提升检测效果的目的。

在一实施例中，训练模型结束之后，即可使用得到的训练权重进行推理，但直接使用该训练权重进行推理，效果较差，会存在同一个目标出现多个冗余框的情况，所以需要对推理结果进行处理，即衍生出了后处理阶段。在后处理阶段的核心算法是非极大值抑制(non maximum suppression)，简称“NMS算法”。NMS的作用是在冗余的边框中挑选出最好的预测框，NMS算法过滤冗余框的核心思想是：首先选取置信度最大的候选框，然后将其他候选框与置信度最大的候选框做IOU运算，如果运算结果大于提前设置的IOU阈值，那就将对应的候选框的置信度置为0，最后进行过滤。

但NMS过滤冗余框的方式略显粗暴，因为NMS是直接将运算结果大于IOU阈值的候选框进行过滤，这导致在检测过程中出现了很多漏检情况，故衍生出了soft-nms算法。soft-nms相对于原NMS算法的改进之处就是用稍微低一点的置信度来代替原有置信度，并不是直接置为0，置信度计算公式如下：

其中，s_i表示第i个候选框的置信度，iou(M,b_i)表示iou运算，M表示置信度最大的候选框，b_i表示除最大置信度的候选框以外的候选框。将与置信度最大的候选框M高度重叠的候选框的置信度降低，重叠度越高，置信度就降得越多，每循环一次就保留当前置信度最大的候选框，直到只有一个候选框为止，最后再通过置信度阈值筛选掉保留下的候选框中置信度较低的候选框。经过上述处理后在一定程度上缓解了漏检的问题。

在soft-nms中过滤冗余框采用的方法是基于IOU算法，该方法存在一定弊端，如果两个冗余框出现距离较远，或者尺寸差距较大的情况下，就会出现过滤不掉冗余框的情况，基于此本发明开发了基于比较冗余框长、宽比的方式过滤冗余框的方法，计算公式如下：

其中，s_i表示置信度分数，M表示置信度最大的候选框，b_i表示除置信度最大的候选框以外的候选框，w表示分数权重，D表示候选框集合，width_i表示候选框b_i的宽，width_M表示置信度最大的候选框M的宽，height_i表示候选框b_i的高，height_M表示置信度最大的候选框M的高。该算法的改进之处在于将soft-nms算法中的iou(M,bi)替换成基于长宽比的Shape策略的过滤方式，通过这样修改，可以提升冗余框的过滤方式。

为了进一步起到过滤冗余框的目的，本发明在基于shape-nms的算法基础上提出了融合冗余框机制，即将shape-nms算法没有过滤掉的冗余框进行融合，具体包括：获取经过shape-nms算法后的框集合，采用IOU算法计算框集合中每两个框间的重合度，若重合度大于IOU阈值，则将这两个框融合。具体地，融合公式为：

S＝max(s_i)

其中，x₁表示预测框左上角横坐标，y₁表示预测框左上角纵坐标，x₂表示预测框右下角横坐标，y₂表示预测框右下角纵坐标，A表示一个候选预测框，则Ax₁表示候选预测框A的左上角横坐标，A_area表示A的面积，B表示另一个候选预测框，B_area表示B的面积，C表示融合后的预测框；S表示所有预测框置信度分数最大值，最终为融合框的置信度分数。

具体地，通过shape-nms算法对多个类别的候选框进行过滤操作，其中采用shape-nms算法对一个类别的候选框集合过滤冗余框的具体过程包括：

S27.计算第二预测框集合A3中每两个候选框间的重合度，若重合度高于IOU阈值，则将两个候选框融合，融合后的候选框再次与其余候选框进行重合度的计算并判断，直到不存在重合度大于IOU阈值的情况，即已经过滤掉了多余的冗余框，此时可能得到一个融合框，也可能得到多个融合框；若得到多个融合框，则进行选择得到一个最终融合框，该最终融合框的置信度为第二预测框集合A3对应的置信度集合中的最大值。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于改进yolov5的无人机目标检测方法，其特征在于，包括以下步骤：

Loss＝a*loss_cls+b*loss_box+c*loss_confidence

S6.采用S5得到的目标检测模型进行无人机目标检测。

2.根据权利要求1所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，基于ECA的目标检测模型包括backbone模块、neck模块和head模块，与原始yolov5网络结构相比，

head模块包括Xsmall、Small、Medium和Big四个输出。

3.根据权利要求2所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，特征金字塔网络包括逐层连接的第六CBL层、第一上采样层、第一融合层、第五C3层、第七CBL层、第二上采样层、第二融合层和第六C3层；

4.根据权利要求2或3所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，ECA注意力模块采用ECA注意力机制，其计算过程为：

S11.将输入的特征图进行全局平均池化；

ω＝σ(C₁D_k(y))

其中，σ表示Sigmoid激活函数，C₁D_k(y)表示一维卷积，ψ(C)表示卷积尺寸变量，C表示通道数，b、γ表示实验系数；

5.根据权利要求3所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，每一个上采样层的上采样方式为最邻近插值法。

6.根据权利要求1所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，采用shape-nms算法对任一个类别的候选框集合过滤冗余框的过程包括：

S27.计算第二预测框集合A3中每两个候选框间的重合度，若重合度高于IOU阈值，则将两个候选框融合，最终得到一个融合框，该融合框的置信度为第二预测框集合A3对应的置信度集合中的最大值。

7.根据权利要求6所述的一种基于改进yolov5的无人机目标检测方法，其特征在于，候选框的置信度的计算公式为：