CN116342596B

CN116342596B - 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法

Info

Publication number: CN116342596B
Application number: CN202310609310.2A
Authority: CN
Inventors: 陈勇; 李松; 王云辉; 谢珉; 李萌; 王涛; 李欣明
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-11-28
Anticipated expiration: 2043-05-29
Also published as: CN116342596A

Abstract

本发明公开了一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，包括通过无人机拍摄的图像建立图像数据集，并对图像数据集进行预处理得到增强数据集；将增强数据集划分为训练集和测试集；基于训练集和测试集构建改进YOLOv5网络模型；通过测试集测试改进YOLOv5网络模型，并输出结果。本发明通过对图像经过Mosaic数据增强，实现丰富数据集，加强了网络模型对小目标样本的区分，提升了模型的泛化效果，本发明使用改进YOLOv5算法，在背景复杂、目标较小的情况下对变电站设备螺母进行准确识别并进行性能评估，具有良好的检测识别效果。

Description

一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法

技术领域

本发明涉及变电站设备的龙门架、避雷针的螺母缺陷识别技术领域，特别是一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法。

背景技术

随着社会的不断发展，社会对电力的需求量越来越大，为了满足企业及个人持续增加的用电需求，越来越多的新建的变电站投入到生产活动中，变电站在整个电力系统中有着关键的作用，它支持着电力系统的电力输送，变电站的建设质量决定了整个输电线路能否安全稳定地运行，这就需要对新建的变电站在投入使用前进行基建验收检查，传统的基建验收需要工作人员到新建的变电站去进行按照验收规范进行检查，然而，变电站往往都处于远离人群的偏僻地方，这就造成了验收工作的费时、费力。

近年来，随着电网智能化概念的提出以及无人机等设备的不断升级，利用无人机进行基建验收的方法被不断提出。使用无人机进行基建验收相对于传统的人工检查速度快、灵活性高、成本低，因此慢慢形成了以无人机为辅助的智能化方案。然而在无人机基建验收中，对一些变电站设备上的小部件(比如螺母)存在着一些难题，由于受到无线传输带宽的限制，传输的巡检图像质量、分辨率均受到影响，不能全面地、清晰地实时研判设备上的螺母缺陷，需要将高分辨率的检查图像记录下来，事后分析其存在的缺陷，但人工识别无人机拍摄的图像中的螺母缺陷较为费事费力。随着图像处理技术的发展，深度学习在目标检测领域取得了不错的进展，已有利用无人机拍摄的图像结合目标检测算法对拍摄变电站设备上的螺母图像进行检测与缺陷识别，目前经典的目标检测算法主要分为单阶段和双阶段两类，单阶段的包括YOLO、SDD、Retina-Net等，双阶段的包括R-CNN、Fast R-CNN、Mask R-CNN等。但YOLO为代表的单阶段算法对于螺母的缺陷识别效果并不理想，仍需进一步研究。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有的变电站设备螺母缺陷识别检测方法中存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何提供一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其包括，通过无人机拍摄的图像建立图像数据集，并对图像数据集进行预处理得到增强数据集；将增强数据集划分为训练集和测试集；基于训练集和测试集构建改进YOLOv5网络模型；通过测试集测试改进YOLOv5网络模型，并输出结果。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述图像数据集是通过无人机摄像头拍摄变电站设备上的螺母图片得到，使用Mosaic-8进行增强预处理；所述增强数据集采用一定的比例进行划分，划分完数据集后采用Labelimg软件对图片进行手动标注，用矩形框标注出螺母的位置，生成XML格式文件。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述构建改进YOLOv5网络模型包括：对backbone骨干网络结构进行改进；在head部分加入额外的检测头Swin-transformer；在neck部分引用卷积块注意力模型CBAM；修改主干网络特征金字塔网络。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述对backbone骨干网络结构进行改进是在原有的CSPDarknet53骨干网络上加入D-CSP模块形成改进的CPS-Darknet模块。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述Swin-transformer检测头是通过构建与图像大小呈线性关系计算复杂度的层次特征映射，来进行密集图像块的预测，具体包括多层感知机模块MLP、层归一化LayerNorm、基于窗口的多头注意力模块W-MSA以及滑动窗口多头注意力模块SW-MSA；Swin-transformer计算公式如下：

；

其中，和/>表示MLP和W-MSA模块的输出特征，/>和/>代表连续的MLP和SW-MSA模块的输出特征，W-MSA表示基于窗口的多头自注意力模型，SW-MSA表示滑动窗口多头注意力模块，MLP代表多层感知机模型，LN代表LayerNorm模型，/>是开始时的输入特征。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述复杂度是用非线性的GELUs函数作为两层MLP的激活函数，对于局部窗口大小为m×m的特征映射Fs∈RHxWxC，其复杂度公式具体如下：Υ(MSA)=4H×W×C²+2(H×W)²×C；

其中，Y(MSA)为多头注意力模块的复杂度，H为图像的宽度，W为图像的高度，C为图像的通道数。

Υ(W-MSA)=4H×W×C²+2(H×W)×M²×C；

其中，Υ(W-MSA)为基于窗口的多头注意力模块的复杂度，H为图像的宽度，W为图像的高度，C为图像的通道数，M为窗口的尺寸大小。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述引用卷积块注意力模型CBAM是利用平均池化操作和最大池化操作聚合特征图中的空间注意力图和上下文表示，引用卷积块注意力模型CBAM的计算公式如下：

；

其中，σ表示sigmoid激活函数，和/>分别表示平均池化特征和最大池化特征，AvgPool和maxPool分别表示平均池化和最大池化，W₀和W₁分别表示多层感知机MLP的权重，权重之间是由ReLU作为激活函数连接。

空间注意力图由通道注意力图中不同通道不同特征的空间关系推断而来，具体公式如下：

；

其中，σ表示sigmoid激活函数，f7*7表示卷积核为7*7的卷积运算,和分别表示平均池化和最大池化的二维特征。

卷积注意力模型CBAM的过程公式具体如下：

；

其中，和/>分别是CBAM一维通道注意力图和二维空间注意力图，/>表示通道注意力模型的输出，/>表示最终卷积块注意力模型CBAM的输出，F表示主干特征图。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述修改主干网络特征金字塔网络FPN具体包括：

从主干网络提取特征金字塔网络FPN进行预测。

将特征金字塔网络FPN和路径聚合网络PANet进行级联。

加权双向特征金字塔网络BiFPN与原始YOLOv5s的路径聚合网络PANet节点连接方式进行对比，所述对比采用跨尺度连接优化方法包括以下步骤：

移除路径聚合网络PANet中输入的节点，形成小规模的双向网络。增加同一尺度中输入节点到输出节点的跳跃连接，在相同特征层中的跳跃连接在有限的计算成本增加下融合更多不同层级的特征。加权双向特征金字塔网络BiFPN将每个双向路径视为一个特征网络层，多次重复该特征网络层，可以实现更高维度的特征融合。BiFPN集成了双向交叉连接和快速归一化的方式进行特征融合，具体快速归一化融合的公式如下：

；

其中，w_i是每个输入特征的可学习的权重，下标i和j都表示第几层的意思，通过ReLU激活函数保证w_i≥0，ε=0.0001是一个较小的附加值，以保持O数值的稳定，I_i是输入的特征，标准化后权重保持在0~1的范围中。

BiFPN单层的计算公式，具体如下：

；

其中，代表自上而下路径中第i层的中间特征，/>代表自下而上第i层的输出特征，/>代表输入图像的２的ｉ次幂的倒数的倍，/>是输入特征的第1个可学习的权重，/>是输入特征的第2个可学习的权重，ε=0.0001是附加值，Conv（）代表卷积操作，Resize是用于分辨率匹配的上采样或下采样操作，/>是经过上一层计算后更新的学习权重，/>是经过上一层计算后更新的学习权重，/>是经过上一层计算后更新的学习权重。

作为本发明所述基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的一种优选方案，其中：所述测试集进行测试包括：

用准确度、召回率和平均精度指标对网络性能进行评价，具体公式如下：

IoU= TP/ (TP+FN+FP)；

其中，IoU是检测框与预测框重叠区域除以它们的合并区域，IoU是交并比，TP是为算法检测框预测正确的区域，FP为算法检测框预测错误的区域，FN为实际标注框正确但算法检测框未预测到的区域。

准确度的计算公式如下：

；

其中，TP是为算法检测框预测正确的区域，FP为算法检测框预测错误的区域，为算法检测框的预测区域。

召回率计算公式如下：

；

其中，TP是为算法检测框预测正确的区域，FN为实际标注框正确但算法检测框未预测到的区域，为实际标注框的实际区域。

平均精度AP均值计算公式为：

；

其中，r表示召回率，为召回率r的精度值，/>为召回率大于等于r时，对应精度值/>中的最大精度值。

本发明有益效果为本发明通过对图像经过Mosaic数据增强，实现丰富数据集，加强了网络模型对小目标样本的区分，提升了模型的泛化效果，使用改进YOLOv5算法，在背景复杂、目标较小的情况下对变电站设备螺母进行准确识别并进行性能评估，具有良好的检测识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于YOLOv5改进的变电站设备螺母缺陷识别检测方法的流程图。

图2为本发明基于YOLOv5改进的Swin-Transformer的整体架构图。

图3为本发明基于YOLOv5改进的Swin-Transformer的block编结构图。

图4为本发明中FPN的结构图。

图5为本发明中PANet的结构图。

图6为本发明图中BiFPN的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1~图6，为本发明第一个实施例，该实施例提供了一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，基于YOLOv5改进的变电站设备螺母缺陷识别检测方法包括，

S1：通过无人机拍摄的图像建立图像数据集，并对图像数据集进行Mosaic-8增强预处理得到增强数据集。

S1.1：通过无人机摄像头拍摄变电站设备上的螺母图片得到图像数据集。

S1.2：使用Mosaic-8对图像数据集进行增强预处理。其中，增强数据集采用一定的比例进行划分，划分完数据集后采用Labelimg软件对图片进行手动标注，用矩形框标注出螺母的位置，生成XML格式文件。

S1.1：具体的，通过无人机携带的摄像头采集变电站设备图像，得到变电站设备图像数据集；对变电站设备图像数据集进行Mosaic-8数据增强得到增强数据集。

S1.2：更进一步的，通过无人机摄像头近距离拍摄变电站设备上的螺母图片，由于变电站设备上的螺母的位置和方向不同，为了提高样本的丰富性，使用了Mosaic-8的数据增强方法，流程是将采集的螺母8张图片进行随机翻转、缩放后，随机排列拼接形成一张图片，这样可以实现丰富数据集、增加小样本目标的效果，提升网络的训练速度，同时合理地添加随机噪声数据，这样能够加强网络模型对小目标样本的区分，进一步提升模型的泛化效果。

S2：根据得到的增强数据集，将增强数据集划分为训练集和测试集。

具体的，将数据增强后的数据集划分为训练集和测试集，数据集范围是对变电站的需要质量检查的不同设备上的螺母进行采集，共采集了2368张图像作为样本，尽可能地扩大丰富度。训练集、测试集的比例为8：2，划分完数据集后使用Labelimg软件对图片进行手动标注，用矩形框标注出螺母的位置，生成一一对应的XML格式文件。

S3：基于训练集和测试集构建改进YOLOv5网络模型。

S3.1：具体的，构造改进YOLOv5网络模型，包括：首先对backbone骨干网络结构进行改进，在原有的CSPDarknet53骨干网络上加入了D-CSP（带有CSP模块的DenseNet块）。在head部分引入了一个额外的检测头，在neck部分引入了卷积块注意力模型（CBAM），在Neck网络中使用AF-FPN结构代替FPN结构；修改主干网络特征金字塔网络，使用加权双向特征金字塔网络(BiFPN)替代特征金字塔网络(FPN)。然后在训练集上迭代训练改进YOLOv5网络模型直至收敛，保存最佳网络权重。将最佳网络权重载入改进YOLOv5网络模型中。

S3.2：进一步的，考虑到检测速度和检测精度，针对螺母识别存在的识别精度低的问题提出了一种YOLOv5网络模型，改进的地方包括：

S3.2.1：在DSHP-YOLOv5中，在原有的CSPDarknet53骨干网络上加入了D-CSP（带有CSP模块的DenseNet块），以保留关键特征图并有效地复用有价值的特征信息。

S3.2.2：在head部分，引入了一个额外的检测头，把YOLOv5中的常规CNN预测头（CPH）修改为Swin transformer预测头（SPH），该检测头利用先进的自注意机制有效检测多尺度对象大小，同时降低计算复杂度，专门用于DSPH-YOLOv5网络头部中的小目标信息。

S3.2.3：引入了卷积块注意力模型（CBAM）来提升小目标检测模型注意力机制。

S3.2.4：修改主干网络特征金字塔网络，使用加权双向特征金字塔网络(BiFPN)替代特征金字塔网络(FPN)。

S3.3：更进一步的，构造改进的YOLOv5网络模型，具体包括：

S3.3.1：改进的CPS-Darknet块具体为：在原始的YOLOv5在卷积和降采样的过程中减少了输入图像中的特征映射，从而在传输过程中导致显著的语义特征丢失。所以在YOLOv5的原始CSPDarknet53中引入了DenseNet，以保存关键特征图，并有效地重用鉴别特征信息。更具体的，在原始CSPDarknet53中共引入了四个DenseNet块，其中第一个块（DenseB-1）在CSP3之前加入，第二个块（DenseB-2）在CSP6之前加入，第三块（DenseB-3）和第四块（DenseB-4）块在CSP6和CSP3的中间。

S3.3.2：如图2为新增的Swin-Transformer的整体架构图，图3为Swin-Transformer的block编结构图，Swin-Transformer（STR）用移位窗口而非传统的移动窗口来计算的分层Transformer，在非重叠的局部特征层上进行自我注意力计算，同时通过跨层连接实现了邻域的特征聚集,一般来说在目标检测任务中，对高分辨率图像直接使用Transformer会带来极大的计算量和较高的资源占用，Transformer自身注意力的计算复杂度是图像尺寸的平方。所以需要通过构建与图像大小呈线性关系计算复杂度的层次特征映射，来进行密集图像块的预测，Swin-Transformer（STR）随着深度加深通过合并相邻的小尺寸图像块，依次构建分层特征映射，由于每个特征层中的图像块数是固定的，因此计算复杂度和图像大小呈现线性关系，这样就降低了计算量和资源占用；STR主要包括多层感知机模块（MLP）、层归一化（LayerNorm）、基于窗口的多头注意力模块（W-MSA）和滑动窗口多头注意力模块(SW-MSA)组成，其中的LayerNorm有助于加快网络收敛，有效防止网络过拟合。多头注意力模块不仅可以帮助当前节点关注当前的像素信息，还可以获得相邻区域的上下文语义信息，Swin Transformer可以将注意力的计算限制在每个窗口内进而减少计算量。

S3.3.3：具体的，将Swin transformer（STR）融合到DSPH-YOLOv5架构的所有四个检测头上，实现利用自注意机制改进了全局语义特征提取和上下文信息融合，STR可以显著提高MSA的计算效率，其与图像大小具有线性计算复杂度，提高了模型在检测速度和精度方面的性能，每个STR编码器包含两个子层，其中包括基于窗口的多头自注意（MSA）模块，然后是一个具有GeLU非线性的全连接MLP。在每个MSA模块后使用剩余连接。随后，在MSA和MLP之前添加了LN。在STR中，所获得的特征图将跳入到W-MSA模块中不重叠的独立窗口中。

S3.3.4：进一步的，Swin transformer（STR）的设计原理是将一个宽为H，高为W，通道数为C的H×W×C图像，通过重组的方式形成拉平的二维图像，将N个分块重组后的向量拼接在一起得到一个2N×(P²×C)的二维矩阵，其中P×P是图像块的分辨率，2N=HW /P²，N是图像块的数量，决定输入序列的长度。当分块的大小改变时，图像块分辨率P也发生变化，每个图像块重组后得到的(P2·C)维向量的长度也发生变化，为了避免模型结构受到图像块大小的影响，定义不同长度的patch向量转化为固定长度的向量，固定长度的向量维度记为D，得到的输出定义为patch的嵌入层，在图像分为N个图像块后，通过线性投影得到2N×(P²×C)的二维矩阵，将二维矩阵中代表图像位置的位置分量与切片分量相加，得到带位置信息的图片切片分量。

进一步的，连续窗口Swin transformer（STR）的公式具体如下：

；

其中，和/>表示MLP和W-MSA模块的输出特征，/>和/>代表连续的MLP和SW-MSA模块的输出特征，W-MSA表示基于窗口的多头自注意力模型，SW-MA表示滑动窗口多头注意力模块，MLP代表多层感知机模型，LN代表LayerNorm模型，z ^i-1是开始时的输入特征。

S3.3.5：进一步的，模块之间使用残差相加链接，并用非线性的GELUs函数作为两层MLP的激活函数。对于局部窗口大小为m×m的特征映射Fs∈RHxWxC，具体复杂度表示如下：

Υ(MSA)=4H×W×C²+2(H×W)²×C；

Υ(W-MSA)=4H×W×C²+2(H×W)×M²×C；

其中，Υ(MSA)为多头注意力模块的复杂度，Υ(W-MSA)为基于窗口的多头注意力模块的复杂度，H为图像的宽度，W为图像的高度，C为图像的通道数，M为窗口的尺寸大小。

S3.4：引入卷积块注意力模型。

S3.4.1：具体的，在无人机拍摄的变电站设备图像上，在不同的设备背景信息，如何将螺母等小目标信息更好的提取出来是一个问题，而这种情况通常可以使用卷积块注意力模型CBAM来解决，使用CBAM可以提取注意力区域，帮助YOLOv5区分复杂的不同设备背景信息，并使网络更专注于需要检测的小目标，从而提高对螺母的发现率和识别率，卷积块注意力模型CBAM由级联的通道注意力模型与空间注意力模型构成。

S3.4.2：进一步的，通道注意力图由输入特征的颜色通道关系产生，由于输入特征维度较大计算复杂，需要通过池化操作压缩输入特征的空间维度。通过平均池化操作，了解目标分布范围；通过最大池化操作，收集目标特征，利用平均池化操作和最大池化操作聚合特征图中的空间注意力图和上下文表示，具体公式表示为：

；

S3.4.3：空间注意力图由通道注意力图中不同通道不同特征的空间关系推断而来。与通道注意力图不同的是，空间注意力图更加注重图像的位置信息，两者形成互补。在计算时，沿着通道轴进行平均池化和最大池化操作，生成两个二维映射和/>，通过标准的卷积层将他们连接并卷积，得到二维空间注意力图，具体公式如下：

；

其中，σ表示sigmoid激活函数，f7*7表示卷积核为7*7的卷积运算,和/>分别表示平均池化和最大池化的二维特征。

S3.4.4：卷积注意力模型CBAM的过程公式具体如下：

；

S3.4.5：修改主干网络特征金字塔网络FPN。

具体的，对于变电站设备上的螺母小目标检测存在的困难在于如何有效的表示和处理多尺度特征融合，通常来说可以从主干网络提取特征金字塔网络FPN进行预测，FPN组合了多尺度的特征，但也因特征融合时浅层特征的权重较小而忽略了浅层特征的丰富的位置信息，而原始YOLOv5s使用的主干网络是特征金字塔网络（FPN）和路径聚合网络PANet的级联。但是由于不同的输入特征有不同的分辨率，在进行上下采样和张量拼接的过程中会导致对输出的融合特征的权重不一致，因此可以使用加权双向特征金字塔网络（BiFPN）是代替原始YOLOv5的特征金字塔网络（FPN），引入可学习的权重来区别不同输入特征的重要性，加强螺母小目标的学习特征对特征融合网络的影响，如图4、图5和图6所示。

S3.4.6：具体的，加权双向特征金字塔网络（BiFPN）与原始YOLOv5s的路径聚合网络（PANet）的节点连接方式相比，所采用的跨尺度连接优化方法主要有以下几点：

移除路径聚合网络（PANet）中输入唯一的节点。由于缺少特征融合的节点对特征网络传递计算的贡献十分有限，因此可以移除P3和P6的中间节点，形成小规模的简化双向网络。

增加了同一尺度中输入节点到输出节点的跳跃连接，在相同特征层中的跳跃连接在有限的计算成本增加下融合更多不同层级的特征。

与路径聚合网络PANet只有一条自上而下的特征路径和一条自下而上的特征路径不同，加权双向特征金字塔网络BiFPN将每个双向路径视为一个特征网络层，多次重复该特征网络层，可以实现更高维度的特征融合。当融合不同分辨率特征是通常是将所有特征先调整为相同分辨率再进行特征相加，但是由于不同输入特征在不同的分辨率下，输出特征的影响是不同的，所以应加强小目标的输入特征权重，使得输出特征对小目标检测更敏感，因此每个输入都需要增加权重，让每个输入对检测网络的重要性不同，BiFPN集成了双向交叉连接和快速归一化的方式进行特征融合。

S3.4.7：进一步的，快速归一化的特征融合公式，具体如下：

；

其中，w_i是每个输入特征的可学习的权重，下标i和j都表示第几层的意思，通过ReLU激活函数保证w_i≥ 0，ε=0.0001是一个较小的附加值，以保持O数值的稳定，I_i是输入的特征，标准化后权重保持在0~1的范围中。

S3.4.8：进一步的，BiFPN单层的计算公式，具体如下：

；

其中，代表自上而下路径中第i层的中间特征，/>代表自下而上第i层的输出特征，/>代表输入图像的２的ｉ次幂的倒数的倍，w ₁是输入特征的可学习的权重，ε=0.0001是附加值，Conv（）代表卷积操作，Resize是用于分辨率匹配的上采样或下采样操作，是经过上一层计算后更新的学习权重，/>是经过上一层计算后更新的学习权重，是经过上一层计算后更新的学习权重，w ₁和w ₂分别是第1个和第2个可学习的权重。

S4：基于改进YOLOv5网络模型，将测试集进行测试。

S4.1：具体的，构造训练好的模型后，输入测试集的图片进行测试，用准确度、召回率和平均精度指标对网络性能进行评价。具体公式如下：

IoU= TP/ (TP+FN+FP)

S4.2：准确度的计算公式如下：

；

S4.3：召回率计算公式如下：

；

S4.4：平均精度AP均值计算公式为：

；/>

本发明通过对图像经过Mosaic数据增强，实现丰富数据集，加强了网络模型对小目标样本的区分，提升了模型的泛化效果，使用改进YOLOv5算法，在背景复杂、目标较小的情况下对变电站设备螺母进行准确识别并进行性能评估，具有良好的检测识别效果。

实施例2

参照表1，为本发明第二个实施例，该实施例提高了一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，为了验证本发明的有益效果，通过列举一个验证例进行科学论证。

本发明使用相同的是数据集，经过与不同模型进行对比，得出下表

表1不同模型的对比

综上所述，由表可知，YOLOv5s的模型较小，参数量少，可以得出YOLOv5的检测速度最快，本发明提出的DenseSPH-YOLOv5的精确率较高，是因为引入了更多的模块，使得模型的体量变大，影响了检测速度，虽然检测时间变大了，但是提高了检测的精确度。

与TPH-YOLOv5、Dense-YOLOv4的对比体现出改进模型的各个模块是有效的，检测精度和速度有所提高。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：包括，

通过无人机拍摄的图像建立图像数据集，并对图像数据集进行预处理得到增强数据集；

将增强数据集划分为训练集和测试集；

基于训练集和测试集构建改进YOLOv5网络模型；

通过测试集测试改进YOLOv5网络模型，并输出结果；

所述图像数据集是通过无人机摄像头拍摄变电站设备上的螺母图片得到，

使用Mosaic-8进行增强预处理；所述增强数据集采用一定的比例进行划分，划分完数据集后采用Labelimg软件对图片进行手动标注，用矩形框标注出螺母的位置，生成XML格式文件；

所述构建改进YOLOv5网络模型包括：

对backbone骨干网络结构进行改进；

在head部分加入额外的检测头Swin-transformer；

在neck部分引用卷积块注意力模型CBAM；

修改主干网络特征金字塔网络；

所述对backbone骨干网络结构进行改进是在原有的CSPDarknet53骨干网络上加入D-CSP模块形成改进的CPS-Darknet模块；

改进的CPS-Darknet模块为：在原始的YOLOv5在卷积和降采样的过程中减少输入图像中的特征映射，在YOLOv5的原始CSPDarknet53中引入

DenseNet，以保存关键特征图，并有效地重用鉴别特征信息，在原始

CSPDarknet53中共引入四个DenseNet块，其中，第一个块DenseB-1在CSP3之前加入，第二个块DenseB-2在CSP6之前加入，第三块DenseB-3和第四块DenseB-4块在CSP6和CSP3的中间；

所述修改主干网络特征金字塔网络FPN包括：

从主干网络提取特征金字塔网络FPN进行预测；

将特征金字塔网络FPN和路径聚合网络PANet进行级联；

移除路径聚合网络PANet中输入的节点，形成小规模的双向网络；

增加同一尺度中输入节点到输出节点的跳跃连接，在相同特征层中的跳跃连接在有限的计算成本增加下融合更多不同层级的特征；

加权双向特征金字塔网络BiFPN将每个双向路径视为一个特征网络层，多次重复该特征网络层，实现更高维度的特征融合；

BiFPN集成了双向交叉连接和快速归一化的方式进行特征融合，具体快速归一化融合的公式如下：

其中，w_i是每个输入特征的可学习的权重，下标i和j都表示第几层的意思，通过ReLU激活函数保证w_i≥0，ε＝0.0001是一个较小的附加值，以保持O数值的稳定，I_i是输入的特征，标准化后权重保持在0～1的范围中。

2.如权利要求1所述的基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：所述Swin-transformer检测头是通过构建与图像大小呈线性关系计算复杂度的层次特征映射，来进行密集图像块的预测，具体包括多层感知机模块MLP、层归一化LayerNorm、基于窗口的多头注意力模块W-MSA以及滑动窗口多头注意力模块SW-MSA；Swin-transformer计算公式如下：

其中，zⁱ和表示MLP和W-MSA模块的输出特征，Zⁱ⁺¹和/>代表连续的MLP和SW-MSA模块的输出特征，W-MSA表示基于窗口的多头自注意力模型，SW-MSA表示滑动窗口多头注意力模块，MLP代表多层感知机模型，LN代表LayerNorm模型，z^i-1是开始时的输入特征。

3.如权利要求2所述的基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：所述复杂度是用非线性的GELUs函数作为两层MLP的激活函数，对于局部窗口大小为m×m的特征映射Fs∈RHxWxC，其复杂度公式具体如下：

Υ(MSA)＝4H×W×C²+2(H×W)²×C

其中，Y(MSA)为多头注意力模块的复杂度，H为图像的宽度，W为图像的高度，C为图像的通道数；

Υ(W-MSA)＝4H×W×C²+2(H×W)×M²×C

4.如权利要求3所述的基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：所述引用卷积块注意力模型CBAM是利用平均池化操作和最大池化操作聚合特征图中的空间注意力图和上下文来表示，引用卷积块注意力模型CBAM的计算公式如下：

其中，σ表示sigmoid激活函数，和/>分别表示平均池化特征和最大池化特征，AvgPool和maxPool分别表示平均池化和最大池化，W₀和W₁分别表示多层感知机MLP的权重，权重之间是由ReLU作为激活函数连接；

其中，σ表示sigmoid激活函数，f7*7表示卷积核为7*7的卷积运算，和/>分别表示平均池化和最大池化的二维特征；

卷积注意力模型CBAM过程公式具体如下：

其中，M_c和M_s分别是CBAM一维通道注意力图和二维空间注意力图，F′表示通道注意力模型的输出，F″表示最终卷积块注意力模型CBAM的输出，F表示主干特征图。

5.如权利要求3所述的基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：所述修改主干网络特征金字塔网络FPN还包括：

BiFPN单层的计算公式，具体如下：

其中，代表自上而下路径中第i层的中间特征，/>代表自下而上第i层的输出特征，/>代表输入图像的2的i次幂的倒数的倍，w₁是输入特征的可学习的权重，ε＝0.0001是附加值，Conv()代表卷积操作，Resize是用于分辨率匹配的上采样或下采样操作，w′₁是经过上一层计算后更新的学习权重，w′₂是经过上一层计算后更新的学习权重，w′₃是经过上一层计算后更新的学习权重，w₁和w₂分别是第1个和第2个可学习的权重。

6.如权利要求1所述的基于YOLOv5改进的变电站设备螺母缺陷识别检测方法，其特征在于：所述测试集测试改进YOLOv5网络模型包括：

IoU＝TP/(TP+FN+FP)

其中，IoU是检测框与预测框重叠区域除以它们的合并区域，IoU是交并比，TP是为算法检测框预测正确的区域，FP为算法检测框预测错误的区域，FN为实际标注框正确但算法检测框未预测到的区域；

准确度Precision的计算公式如下：

Precision＝TP/(TP+FP)＝TP/all detections

其中，TP是为算法检测框预测正确的区域，FP为算法检测框预测错误的区域，alldetections为算法检测框的预测区域；

召回率Recall计算公式如下：

Recall＝TP/(TP+FN)＝TP/all ground trusts

其中，TP是为算法检测框预测正确的区域，FN为实际标注框正确但算法检测框未预测到的区域，all ground trusts为实际标注框的实际区域；

平均精度AP均值计算公式为：

其中，r表示召回率，ρ(r)为召回率r的精度值，ρ_interp(r_n+1)为召回率大于等于r时，对应精度值ρ(r)中的最大精度值。