CN115731164A

CN115731164A - 基于改进YOLOv7的绝缘子缺陷检测方法

Info

Publication number: CN115731164A
Application number: CN202211116278.6A
Authority: CN
Inventors: 巫航; 郑剑锋; 蒋承奇; 李梓畅; 梁可; 金永双
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-03-03

Abstract

本发明公开基于改进YOLOv7的绝缘子缺陷检测方法，将待识别图片输入预先训练获得的网络模型，输出初步预测框；利用SIoU‑NMS改进非极大值抑制算法对待识别图片输出的初步预测框进行过滤，获得最终预测框，从而获得待识别图片的缺陷类型。预先训练获得网络模型：预处理图片样本的目标真实框，获得多个固定尺寸的锚框；网络模型将图片样本划分成多个网格；基于固定尺寸的锚框，以每个网格为中心生成多个不同尺寸的预测框；利用总损失函数分别计算图片样本的目标真实框和不同尺寸的预测框之间的差距，迭代更新网络模型的网络参数；若总损失函数收敛于定值，则停止迭代，输出最终的网络模型。

Description

基于改进YOLOv7的绝缘子缺陷检测方法

技术领域

本发明涉及基于改进YOLOv7的绝缘子缺陷检测方法，属于绝缘子缺陷检测技术领域。

背景技术

随着我国大容量高压输电系统的发展，使得变电站在整个电力系统中发挥着越来越重要的作用。而绝缘子作为变电站故障户外的主要识别对象，在变电站复杂恶劣的环境里易出现破损和污闪等故障现象，很容易中断输电线路的供电，对居民用户安全用电带来极大的影响并且会对电力系统的稳定运行造成巨大的威胁，因此，检测绝缘子是否存在缺陷是电网检修的首要任务。

传统的绝缘子缺陷检测方法主要利用直升机载人巡检、实地考察或者利用传统的检测算法分析机器人或者无人机拍摄的图片。但是，我国输电线路结构复杂，使用传统的检测方法会导致巨大财力物力的浪费，效率不高。近年来随着神经网络理论的发展和计算机性能的提升，基于深度学习的绝缘子缺陷检测方法成为主流，并且在实际工程中得到广泛的应用。

目前，基于深度学习进行目标检测可以克服检测精度低、易受环境干扰以及泛化能力不强等缺点。基于深度学习的目标检测算法可以分为两种：一种是多阶段方法，代表性算法包括R-CNN和FastR-CNN，另一类是单阶段检测算法，典型算法包括SSD和YOLO系列。基于SSD(single shot multibox detector)与两阶段微调策略的绝缘子识别方法，相比传统方法无法实现端到端的检测。Faster RCNN算法实现端到端的绝缘子缺陷检测，但其模型计算量大和检测速度慢。现在提出的一些算法，还无法较好完成在复杂背景下实现绝缘子缺陷这类小目标的精确检测任务。2022年，YOLOv7算法诞生，该算法的检测速度和准确度都超过了所有已知的目标检测器。

发明内容

本发明所要解决的技术问题是克服现有技术变电站巡检机器人拍摄的图像中存在复杂背景且绝缘子故障目标小难以被准确检测的缺陷，提供基于改进YOLOv7的绝缘子缺陷检测方法。

为达到上述目的，本发明提供基于改进YOLOv7的绝缘子缺陷检测方法，包括：

将待识别图片输入预先训练获得的网络模型；

基于预先获取的预测框，网络模型输出多个与预测框尺寸相同的待识别图片的初步预测框；

利用SIoU-NMS改进非极大值抑制算法对待识别图片输出的初步预测框进行过滤，得到最终预测框；

基于最终预测框，获得待识别图片的缺陷类型。

优先地，预先训练获得网络模型，通过以下步骤实现：

获取训练集，训练集包括图片样本和图片样本的目标真实框；

预处理图片样本的目标真实框，获得多个固定尺寸的锚框；

构建网络模型，将图片样本和固定尺寸的锚框输入网络模型，网络模型将图片样本划分成多个网格；

基于固定尺寸的锚框，以每个网格为中心生成多个固定尺寸的预测框；

利用总损失函数分别计算图片样本的目标真实框和固定尺寸的预测框之间的差距，迭代更新网络模型的网络参数、预测框的位置和预测框的尺寸；

若总损失函数收敛于定值，其中定值代表损失函数值在某个稳定值附近波动，不再大幅震荡，此时模型则停止迭代，输出最终的网络模型。

优先地，预先获取预测框，通过以下步骤实现：

筛选网络模型在训练期间获得精度最高的预测框，作为预先获取的预测框。

优先地，构建的网络模型的网络架构包括Input模块、Backbone模块、Neck模块和Head模块，Input模块、Backbone模块、Neck模块和Head模块依次连接；

Backbone模块包括第一CBS模块、第二CBS模块、第三CBS模块、第四CBS模块、gnConv模块、第一ELAN模块、第二ELAN模块、第三ELAN模块、第四ELAN模块、第一MP1模块、第二MP1模块、第三MP1模块和CoordAtt模块，

第一CBS模块、第二CBS模块、第三CBS模块、gnConv模块、第四CBS模块、第一ELAN模块、第一MP1模块、第二ELAN模块、第二MP1模块、第三ELAN模块、第三MP1模块、第四ELAN模块和CoordAtt模块依次连接；

第一CBS模块、第二CBS模块、第三CBS模块和第四CBS模块均为CBS模块，第一ELAN模块、第二ELAN模块、第三ELAN模块和第四ELAN模块均为ELAN模块，第一MP1模块、第二MP1模块和第三MP1模块均为MP1模块；

gnConv模块采用递归门控卷积，CoordAtt模块采用CoordAtt注意力机制。

优先地，总损失函数的表达式为：

L＝W₁×L_box+W₂×L_cls+W₃×L_obj

L_cls＝-ζ_t(1-p_t)^δlog(p_t)，

式中，L为总损失，L_box为边界回归损失，L_obj为目标置信度损失，W₁为边界回归损失占总损失的权重，W₂为focal loss分类损失占总损失的权重，W₃是目标置信度损失占总损失的权重，IoU为交并比损失，Ω为形状损失，△为距离损失；

L_cls为focal loss分类损失，ζ_t为正负样本权重参数，p_t为属于正负样本的概率，δ为可调节聚参数，p是网络模型预测图片样本属于前景的概率，Y＝1代表图片样本的前景，Y＝-1代表图片样本的背景，ζ为权重参数。

优先地，交并比损失的表达式为：

式中，A为真实框，B为预测框，IoU为交并比损失；

形状损失的表达式为：

式中，Ω为形状损失，w是预测框的宽度，w^gt是真实框的宽度，max(w,w^gt)为w和w^gt中最大值，h是预测框的高度，h^gt是真实框的高度，max(h，h^gt)为h和h^gt中最大值，θ是可调变量；

距离损失的表达式为：

式中，α为真实框中心点到预测框中心点连线和X轴之间的夹角，σ是真实框中心点到预测框中心点的距离，x为α的正弦值，C_w1是真实框和预测框最小外接矩形的宽，C_h1是真实框和预测框最小外接矩形的高，C_w是以真实框中心点到预测框中心点连线为对角线构造的矩形的宽，C_h是以真实框中心点到预测框中心点连线为对角线构造的矩形的高，

为真实框中心点横坐标值，b_cx为预测框中心点横坐标值，

为真实框中心点纵坐标值，b_cy为预测框中心点纵坐标值，∧为角度损失，△为距离损失；

若α的角度大于45°，则里α换成β，β＝90°-α。

优先地，预处理图片样本的目标真实框，获得多个固定尺寸的锚框，通过以下步骤实现：

用K均值聚类算法对图片样本的目标真实框进行聚类，获得多个固定尺寸的锚框。优先地，利用SIoU-NMS改进非极大值抑制算法对待识别图片输出的初步预测框进行过滤，得到最终预测框，通过以下步骤实现：

步骤1：设定置信度阀值和SIoU阀值；

步骤2：计算网络模型输出的所有初步预测框的置信度，把置信度高于置信度阀值的初步预测框放到候选列表中，在候选列表把初步预测框按置信度从高到低降序排序；

步骤3：从候选列表中取出置信度最高的初步预测框，并保存到输出列表中，从候选列表中删除该初步预测框；

步骤4：计算上一步取得的置信度最高的初步预测框与候选列表中其余所有初步预测框的交并比损失，把交并比损失高于设定SIoU阀值的初步预测框从候选列表中删除；

步骤5：重复步骤3和步骤4，直至候选列表为空；

步骤6：将输出列表中的初步预测框作为最终预测框。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明所达到的有益效果：

本发明收集图片建立数据集，使用数据清洗和数据增强对数据集做样本扩充。用均值聚类算法对数据集中的标记框进行聚类，生成适合绝缘子缺陷目标检测的锚框。

其次网络模型在锚框基础上不断迭代修正，输出接近真实框的预测框，在网络模型的网络Backbone部分引入CoordAtt注意力机制，使得在特征提取的过程中网络能够在通道和空间域增强有效特征，削弱无用特征。在网络模型的骨干部分加入递归门控卷积gnConv，以此提高网络的长程注意力，降低梯度弥散现象。

然后针对漏检遮挡绝缘子问题对损失函数进行优化，采用SIoU损失函数和focalloss损失函数分别计算标记框回归损失和分类损失，进一步提出SIoU-NMS改进非极大值抑制以减少缺陷目标的多检现象，优化模型整体性能。最后把改进的模型进行训练和验证获得最优检测网络。实验结果表明改进的算法平均精确率可以达到95.1％，实现了绝缘子缺陷这类小目标的精确检测，减少了漏检和误检的问题。

附图说明

图1是本发明训练网络模型的流程图；

图2是本发明中CoordAtt注意力机制框架图；

图3是本发明中SIoU损失函数计算的示意图；

图4是本发明中交并比损失的示意图；

图5是本发明中SIoU-NMS改进非极大值抑制算法的流程图；

图6是本发明网络模型的结构图；

图7是图片样本的真实框的示意图；

图8是图片样本的预测框的示意图；

图9为网络模型的各层特征图；

图10为网络模型输出的可视化热力图；

图11为网络模型改进前后精确率对比图；

图12为网络模型改进前后召回率对比图；

图13为网络模型改进前后mAP_0.5对比图；

图14为网络模型改进前的PR曲线图；

图15为网络模型改进后的PR曲线图；

图16为网络模型改进前检测示意图；

图17为网络模型改进后检测示意图；

图18为网络模型改进前检测示意图；

图19为网络模型改进后检测示意图；

图20为网络模型改进前检测示意图；

图21为网络模型改进后检测示意图；

图22为网络模型改进前检测示意图；

图23为网络模型改进后检测示意图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

本发明提供基于改进YOLOv7的绝缘子缺陷检测方法，包括：

将待识别图片输入预先训练获得的网络模型；

基于最终预测框，获得待识别图片的缺陷类型。

进一步地，本实施例中预先训练获得网络模型，通过以下步骤实现：

预处理图片样本的目标真实框，获得9个固定尺寸的锚框；

进一步地，本实施例中预先获取预测框，通过以下步骤实现：

进一步地，本实施例中构建的网络模型的网络架构包括Input模块、Backbone模块、Neck模块和Head模块，Input模块、Backbone模块、Neck模块和Head模块依次连接；

进一步地，本实施例中总损失函数的表达式为：

L＝W₁×L_box+W₂×L_cls+W₃×L_obj

L_cls＝-ζ_t(1-p_t)^δlog(p_t)，

进一步地，本实施例中交并比损失的表达式为：

式中，A为真实框，B为预测框，IoU为交并比损失；

形状损失的表达式为：

式中，Ω为形状损失，w是预测框的宽度，w^gt是真实框的宽度，max(w,w^gt)为w和w^gt中最大值，h是预测框的长度，h^gt是真实框的长度，max(h，h^gt)为h和h^gt中最大值，ω_w为真实框与预测框宽度之差的绝对值和真实框与预测框宽度中最大值的比，ω_h为真实框与预测框高度之差的绝对值和真实框与预测框高度中最大值的比，θ是可调变量；

距离损失的表达式为：

为真实框中心点横坐标值，b_cx为预测框中心点横坐标值，

若α的角度大于45°，则里α换成β，β＝90°-α。

进一步地，本实施例中预处理图片样本的目标真实框，获得多个固定尺寸的锚框，通过以下步骤实现：

用K均值聚类算法对图片样本的目标真实框进行聚类，获得9个固定尺寸的锚框。进一步地，本实施例中利用SIoU-NMS改进非极大值抑制算法对待识别图片输出的初步预测框进行过滤，得到最终预测框，通过以下步骤实现：

步骤1：设定置信度阀值和SIoU阀值；

步骤5：重复步骤3和步骤4，直至候选列表为空；

步骤6：将输出列表中的初步预测框作为最终预测框。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述任一项所述方法的步骤。

预测框是以每一个网格生成的所有框的和，图片样本被分成小网格后，如果某个网格里有目标检测对象，会以该网格为中心生成9种不同尺寸的预测框，训练的时候就是对这9个预测框进行调整，当网络模型训练结束，最后会保存精度最高的那一组共计9个预测框，这就是训练阶段获取的预测框。

图像样本输入网络模型处理后得到三种尺寸(80*80，40*40和20*20)大小的特征图，再在对应的特征图中生成预测框，网络模型根据损失函数调整预测框的位置和预测框的尺寸，当网络模型训练结束，保存模型精度最高时的锚框参数作为预先获取的预测框。

实施例二

步骤1：基于公开的和网上的绝缘子图片样本，构建绝缘子数据集：

首先对收集的绝缘子图片样本进行数据清洗。数据清洗就是将用到的图片样本数据中重复、多余部分的数据进行筛选并清除，把缺失部分补充完整，并将不正确的数据纠正或者删除。

然后使用Labelme工具对数据集中的绝缘子图片样本进行标注，标注类型分为三类：污闪(pollution-flashover)、破损(broken)和绝缘子(insulator)。每张绝缘子图片样本标注均用矩形框框出，对每一张图片完成标注后会生成对应的json文件，因为网络模型的数据集格式是VOC格式，故还需要把标签json文件转换成xml文件，按照VOC格式制作绝缘子数据集。

完成以上操作构成绝缘子图像数据集；

步骤2：将绝缘子数据集划分成训练集、验证集和测试集：

在本实例中绝缘子数据集共有1600张绝缘子图片样本，按7：2：1的比例划分绝缘子数据集，1120张作为训练集，320张作为验证集，160张作为测试集。

步骤3：构造改进的YOLOv7卷积神经网络：

步骤3-1：网络骨干部分的改进：

网络模型采用改进YOLOv7的backbone骨干网络，backbone骨干网络中引入了CoordAtt模块，CoordAtt模块加在原本模型Backbone部分结构的最后。CoordAtt模块基于CoordAtt注意力机制实现。

注意力机制一般可以分为通道注意力机制、空间注意力机制和二者结合三大类。传统的注意力机制模块如SE(Squeeze-and-Excitationattention)和CBAM

(Convolutionalblockattentionmodule)，在对通道间关系进行建模时容易丧失空间上位置信息。而其他没有这个问题的注意力模块虽然效果也不错，但是参数量又太大了，不适合应用部署。

CoordAtt注意力机制不仅能捕获跨通道的信息，还能捕获方向感知和位置感知的信息，这能帮助模型更加精准地定位和识别感兴趣的目标；其次，coordinateattention模块灵活轻量，可在现有模型的多个位置添加。

基于CoordAtt注意力机制，构建CoordAtt模块，一个CoordAtt模块可以看作一个用来增强特征表示能力的计算单元。可以将任何中间张量X＝[x₁，x₂,…,x_n]∈R^C×H×W作为输入，并输出一个有着增强表示能力的同样尺寸的输出Y＝[y₁，y₂,…,y_n]，其中，n代表张量数量，C代表通道，H代表高度，W代表宽度，R代表数域。

CoordAtt注意力机制框架图如图2所示，首先沿着水平X方向和垂直Y方向进行全局平均池化，沿着这两个方向进行平均池化，可以为通道注意力保留这两个方向的长距离依赖关系，然后Concat拼接起来进行卷积，这则是对两方向上的信息进行交互。BN+非线性激活函数之后，再将特征图切分成两部分，分别进行卷积和输入Sigmoid激活函数，也就是在水平和垂直方向同时对它关注。两个Sigmoid激活函数输出的两部分特征图就能精确定位到关注目标对象所在的行列。

在网络模型中引入递归门控卷积模块，递归门控卷积模块基于递归门控卷积(gnConv)实现；

gnConv采用标准卷积、线性映射和元素乘法构建，但具有与自注意力类似的输入自适应空间混合功能。

在YOLOv7骨干网络中主要使用标准卷积操作完成图像的特征提取，本文改进的网络在骨干部分加入递归门控卷积，以此提高网络的长程注意力，降低梯度弥散现象。

其主要结构跟标准CNN没有很大差异，只不过在卷积层引入了门控机制，输入经过一个卷积把输入的通道数增加一倍，再把特征图分割成两部分，一部分进行深度可分离卷积DWConv然后分割成三部分，另一部分和深度可分离卷积分割出来的每一部分依次进行乘法操作，即把一个没有非线性函数的卷积层输出乘上经过非线性激活函数的卷积层输出。步骤3-2：优化损失函数和预测框筛选方法：

优化损失函数包括回归和分类损失函数，将SIoU回归损失函数代替传统的CIoU损失函数，将focal loss分类损失函数代替传统的标准交叉熵损失函数：

1、SIoU回归损失函数代替传统的CIoU损失函数

传统的目标检测损失函数(例如GIoU、CIoU和DIoU等)考虑预测框和真实框的距离、重叠区域和宽高比，没有考虑到所需真实框与预测框之间不匹配的方向，导致收敛速度较慢。然而，SIoU回归损失函数考虑到了所需回归之间的向量角度，重新定义了惩罚指标。

SIoU回归损失函数除了考虑用于计算图片样本中真实框和模型的预测框不匹配的传统惩罚指标距离、形状和交并比IoU外，还要考虑匹配的方向角度。这种考虑可以极大加速训练收敛过程，让预测框首先移动到最近的轴(即X轴或者Y轴)，预测框沿着该轴做回归。

SIoU回归损失函数由角度损失(Angle cost)、距离损失(Distance cost)、形状损失(Shape cost)和交并比损失(IoU cost)四部分组成。

角度损失是从两框真实框和预测框的角度考虑，一般在训练前期模型的预测框和真实框不相交，加入角度损失，可以加快两框之间的距离计算，让两框之间的距离快速收敛。

角度损失定义如下：

式中，^为角度损失值，C_h为中间量，α为图3所示夹角，σ为中间量，

为真实框中心点横坐标值，b_cx为预测框中心点横坐标值，

为真实框中心点纵坐标值，b_cy为预测框中心点纵坐标值，

为

和b_cy中最大值，

为

和b_cy中最小值；

其中α为如图3所示夹角，当α的角度大于45°时，角度损失公式里α换成β的度数来计算，即角度考虑从x轴转换成考虑y轴。C_h为预测框中心点和真实框中心点的高度差。σ是真实框中心点到预测框中心点的距离。

是真实框中心点的坐标值，(b_cx,b_cy)是预测框中心点的坐标值。

距离损失定义如下：

式中，△为距离损失，^为角度损失，C_w1是真实框和预测框最小外接矩形的宽，C_h1是真实框和预测框最小外接矩形的高，C_w是以真实框中心点到预测框中心点连线为对角线构造的矩形的宽，C_h是以真实框中心点到预测框中心点连线为对角线构造的矩形的高。

从式子可以看出，模型将预测框中心点与真实框中心点平行,平行后就沿着相关轴继续接近。以X轴为例，即两框近乎平行时，α角非常接近0，角度损失算出来约等于0，那么两框之间的距离损失对于整体loss损失的贡献降低。但是当α角趋近于45°时，计算出来两框之间的角度为1，此时两框之间的距离损失占总的损失比重增加。如果α小于等于

在损失收敛过程中将优先最小化α，否则最小化β。

形状损失定义如下：

形状损失考虑两框长宽，形状损失公式如下：

其中，Ω为形状损失值，ω_w为真实框和预测框两框宽度之差的绝对值与两框宽值中最大值的比，ω_h为真实框和预测框两框高度之差的绝对值与两框高度值中最大值的比，max(w,w^gt)为w和w^gt中最大值，max(h，h^gt)为h和h^gt中最大值，w和w^gt分别是预测框和真实框的宽度，h和h^gt分别是预测框和真实框的长度，θ是个可调变量，来表示形状损失函数对于总损失的一个重要度，本发明中设置θ为4。

传统的CIoU损失函数以两框整体形状来收敛函数，而SIoU回归损失函数是以长、宽两个边收敛来达到整体形状收敛的效果。

如图4所示，交并比损失的公式如下：

式中，A为真实框，B为预测框，IoU为真实框与预测框之间的交集和并集的比；

交并比损失通过计算真实框与预测框之间的交集和并集的比来表示。

最后，综合以上四部分，回归损失函数为：

2、将focal loss分类损失函数代替传统的标准交叉熵损失函数：

focal loss损失函数可解决目标检测中正负样本不均衡的问题。可以根据图片样本分辨的难易程度给图片样本对应的损失添加权重，给容易区分的图片样本添加较小的权重，给难分辨的图片样本添加较大的权重。

focal loss分类损失函数的公式如下：

L_cls＝-ζ_t(1-p_t)^δlog(p_t)

其中

式中，L_cls为分类损失值，y的取值为1和-1，t为表示当前的一个输入，无特殊含义，p_t为属于正负样本的概率，ζ_t为正负样本权重参数，y＝1代表图片样本的前景，y＝-1代表图片样本的背景，p是网络模型预测图片样本属于前景(目标)的概率，p的取值范围是0-1。ζ是为了解决样本类别不平衡引入的权重参数。为了让模型能区分简单和困难的样本，让损失函数关注在困难样本的训练。因此，在交叉熵损失函数增加调节因子(1-p_t)^δ和可调节聚参数δ，本例中ζ＝0.25，δ＝1.5。

总损失函数的表达式为：

L＝W₁×L_box+W₂×L_cls+W₃×L_obj

L_cls＝-ζ_t(1-p_t)^δlog(p_t)，

步骤3-3：获取Anchor Box先验框尺寸：

用k-means聚类算法聚类出适合绝缘子大小的9个先验框。

YOLOv7网络中有9个anchor先验框。YOLOv7为了降低网络模型微调先验框到实际框位置的难度，消除anchor人为设置的主观性，对训练集中标注的边框进行K-means聚类分析，来找到尽可能匹配训练集的先验框边框尺寸。

使用K-means聚类的方法自动生成anchor(锚框)尺寸，在使用5个anchor(锚框)的情况下就能达到FasterRCNN中使用9个anchor(锚框)的精度，由此看效果有很大提升。

距离度量函数和聚类中心是K-means聚类算法的核心。如用传统的欧式距离作为距离度函数来聚类会让大尺寸的框比小尺寸的产生更大误差，因为聚类的目的是提高IoU分数，这会依赖框的大小，所以anchor(锚框)聚类样本距离度量函数定义为：

d(box,centroid)＝1-IoU(box,centroid)

IoU为anchor(预测框)和groundtruth(真实框)的交并比，centroid是聚类时被选作中心的边框，box就是其它边框，d就是两者间的“距离”。IoU越大，“距离”越近表明两个box尺寸越相近。

因为改进前的yolov7的9个先验框是在大型公开数据集上聚类出的先验框尺寸，所以训练前，基于本发明训练集中图片样本的真实框，通过k-means聚类算法，先验获得9个尺寸从小到大排列的锚框。所得到的结果为{(13,12),(21,21),(39，31)，

(135,131),(65,326),(101,304)，(430,112),(188,324),(393,266)}。

前3个锚框对应最后Head部分输出的80×80尺寸的特征图，负责检测小尺寸目标；中间3个锚框对应40×40尺寸的特征图，负责检测中尺寸目标；最后3个锚框对应20×20尺寸的特征图，负责检测图像中的大目标。

步骤3-4：改进NMS非极大值抑制：

NMS算法流程图如图5所示，传统计算IoU的做法存在一定缺陷，如用传统的NMS做预测框的筛选，会对一些遮挡目标的误删除，发生漏检情况。

本发明改进思路是将目标尺度、距离等引进IoU的考虑中，用SIoU计算最高置信度候选框与其他所有框的IoU数值，基于设定置信度阈值，来判断是否删除大于设定置信度阈值的候选框。可以解决绝缘子遮挡与绝缘子相距太近的问题。

步骤3-5：完整网络的搭建：

如图6所示，YOLOv7网络模型包括：

CBS模块由一个卷积层，一个BN归一化层和SiLu激活函数组成。

ELAN模块由6个CBS模块构成，模块中包含一个拼接操作；其中ELANC包含的模块跟ELAN一样，只是拼接的前向通道不一样。

MP层主要是分为最大池化层和三个CBS模块,其中MP1模块和MP2模块主要是通道数的比变化。

Upsampling模块由一个CBS模块和上采样模块组成。

RepC为重参数化结构，由三个CBS模块和两个BN归一化组成。

Cat模块为张量拼接操作，扩充张量的维度。

add为张量相加，张量直接相加，不扩充维度。

SPPCSP模块基于SPPCSP实现，SPPCSP全称为

SpatialPyramidPoolingCrossStagePartialNetwork跨阶段部分网络的空间金字塔池化。

整个网络模型的结构分为Input模块、Backbone模块、Neck模块和Head模块四部分。

Input模块输入端会对图片进行Mosaic(马赛克)，随机裁剪缩放等一系列数据增强操避免过拟合。原始输入的图片尺寸大小不一，必须全部resize设置成640x640大小，输入到backbone网络中。

Backbone模块主要由CBS模块、MP模块和ELAN模块组成。CBS模块就是由一个卷积一个批量标准化BN和一个激活函数组成，与传统CNN网络的区别就是激活函数由LeakyReLU改成了SiLU函数。ELAN模块是YOLOv7提出的网络模块，ELAN模块通过控制最短最长的梯度路径，更深的网络可以有效地学习和收敛；ELAN模块其实也是由若干个CBS模块构成，经过这个模块不改变特征图尺寸大小，只在最后一个CBS模块改变输出通道数。MP模块由最大池化Maxpooling和CBS模块构成。

改进后的网络模型在Backbone部分第三个和第四个CBS模块间加入了gnConv递归卷积，网络经过第三个CBS模块后特征图尺寸将近一步缩小一半，特征信息将大大较少，因此加入递归卷积后可以保留非线性能力，建立长程注意力，降低梯度弥散现象，提高目标检测效果，有利于绝缘子缺损这种小目标检测。

在原本改进后的网络在原本Backbone和Neck部分之间加入CoordAtt注意力机制。加入后不仅仅能捕获跨通道的信息，还能捕获方向感知和位置感知的信息，可以帮助模型精准定位和识别感兴趣目标。

Neck模块由路径聚合网络PAN(Path Aggregation network)和特征金字塔网络FPN(Featurepyramidnetwork)组成。Backbone最后输出的32倍降采样特征图经过SPPCSP，通道数从1024变为512，先按照自顶向下的策略做特征融合，再按自底向上的策略做特征融合。PA-FPN的结构将不同层次的特征图进行高效融合。与YOLOv5比较，YOLOv7把CSP模块换成了ELANC模块，同时下采样变为了MP2层。

经过PAFPN网络之后网络输出的是三层不同尺寸大小的特征图featuremap，Head部分经过RepC和Conv输出预测结果。20×20×(3+5)×3含义如下：20×20代表把最后的特征图划分成400个小方格；3+5中的3代表绝缘子数据集输出为3个类别，5代表此预测框中心点坐标的位置，预测框的长宽和属于某个类别的置信度这5个数值，所以3+5；再加上一个小方格有三个预测框，所以乘3。40×40×(3+5)×3，80×80×(3+5)×3含义类似，只是特征图尺寸大小不同。

步骤4：训练改进YOLOv7卷积神经网络；

本发明的软硬件配置参数：

表1软硬件参数配置表

在正式训练网络模型之前必须对一些超参数进行初始化设置：

学习率是一个非常重要的超参数，直接影响着网络模型训练的速度核收敛情况。通常情况下，网络模型开始训练之前，会随机初始化权重，设置学习率过大会导致网络模型振荡严重，学习率过小，网络模型收敛太慢。可以通过设置训练预热Warmup的值让前几轮学习率设置小一点，后面正常后，设置大一点。此示例中学习率设为0.01，warmup设为3。

batchsize太大，对于网络模型的优化和泛化都会出问题，太小可能因为数据量较少而造成训练中的梯度值较大的波动，本实例中设为8。

训练轮数epochs是设置网络模型的训练轮数，此示例中设为50。

为了增加目标多样性，以提升网络模型的检测与分类精度。通过粘贴、裁剪、mosaic(马赛克)、仿射变换、颜色空间转换等对图片样本进行增强，设置代码中的hsv_h＝0.015，hsv_s＝0.7，hsv_v＝0.4来控制每张图片的色调(fraction)，饱和度(fraction)和亮度(fraction)。参数设置完成以后，为了缩短训练时间，可以加载一些预训练权重来进行训练，YOLOv7提供了几个预训练权重，可以根据不同的需求选择不同的版本去进行训练。本模型选择预训练权重yolov7.pt。

最后根据训练结果进行参数调优，直到获得最优的训练模型结果，将最优的模型权重结果保存下来。

网络模型开始训练前期，可以查看使用验证集测试模型的效果。

第一轮epoch完成之后，可以看到测试batch0 ground truth真实值的标签和模型预测值的标签，如下图7所示，可以看出网络模型前期就可以很好的对图片中的目标进行较好的识别；

在网络模型训练完成以后，对已训练好的网络模型型进行特征图的可视化，展示网络模型处理后的各中间层输出的特征图。这可以让我们看到网络模型关注输入图片哪一方面的信息，也进一步理解卷积做了什么，网络模型加入注意力机制以后是否起了作用，改进后的网络模型是否特征提取过程更关注目标对象的特征。

图9中是用训练好的网络模型进行detect推理过程中，经过可视化后的第一个卷积模块的特征图，Backbone模块后的特征图，和三个Dectect检测器输出的特征图，此图是例举出了前12通道的特征图，没有把所有的特征图进行可视化。

可以看到经过第一个卷积以后可视化的前12张特征图所提取到的特征几乎都不相同，有的侧重边缘，有的则是侧重整体，当然这只是第一个卷积后的特征图，相对于更深层的特征来说，浅层的特征大多是完整的，而更深层网络的特征则会更小。

经过Backbone后输出的特征图可以看出加入注意力机制后会对已经提取好的特征图起到很好的特征加强作用，抑制一些非必要特征。由于数据集中图片里的绝缘子都是尺寸偏大，相对容易检测一些，加入注意力机制后更加有利于神经网络注意到更多的高级语义信息，因而查准率和查全率都明显提高了。

三个Detect检测器输出的特征对应检测大中小三类目标，Detect1检测器明显提取到低语义信息更有利于小目标的检测，而Detect3检测器的特征图更关注一些高语义信息，适合检测大的目标。

如图11所示，当检测到目标后，网络模型还需要进行分类，为了了解一张原始图像的哪一个局部位置让模型做出了最终的分类决策，这里对输入图像生成热力图。它很直观地告诉了我们网络模型是“看到了”绝缘子的特征所以才认为图中有绝缘子，“看到了”污闪的特征才认为图片样本中有污闪。热力图中也可以看出网络模型不是关注所有的特征，会更加聚焦于图像的中我们需要检测目标的特征。可以看出改进后的算法可以较好的提取绝缘子图像中的目标特征信息。

下面给出了YOLOv7与改进后YOLOv7算法评估指标的对比：

首先介绍常见的评估指标。

常见的评估指标有准确率、混淆矩阵、召回率、平均精确率(AP)、mAP、精确率-召回率(PR)曲线等。通过混淆矩阵(ConfusionMatrix)进行理解和计算以上指标，混淆矩阵见表2。

表2混淆矩阵表

TP代表正确检测，模型的预测为正，实际也为正；FN代表错误检测，模型预测为负、实际为正；FP代表错误检测，模型预测为正，实际为负；TN代表正确检测，模型预测为负、实际也为负。

1、精确率(Precision)：

精确率用来衡量一个分类器分出来的正样本确实是正类的概率，即评估网络模型预测的准不准。

2、召回率(Recall)：

召回率用来衡量一个分类器分能否找出所有正样本，即评估网络模型预测的全不全。

3、mAP_0.5

AveragePrecision(AP)平均准确率等于Precision和Recall绘制成的曲线与坐标轴所围成的面积。一般情况下，面积越大分类器性能越好。mAP是多个类别AP值的平均值，越大越好。_后面的数表示IoU的阈值，mAP_0.5表示将IoU设为0.5时，计算每一类的所有图片的AP，然后所有类别求平均，即mAP。

根据指标进行算法对比，图11为改进前后精确率对比可以看到改进后的YOLOv7网络模型明显优于原来的；如图12所示改进前后召回率对比，可以看到改进后的YOLOv7网络模型明显优于原来的；如图13所示改进前后mAP_0.5对比，可以看到改进后的YOLOv7网络模型明显优于原来的；如图14和图15所示改进前后PR曲线对比，可以看到改进后的YOLOv7网络模型明显优于原来的；

分类器性能越好，PR曲线曲线越往右上方凸出，并且与坐标轴围成的面积越大。YOLOv7与改进的精确率-召回率曲线如图所示。无论是对所有类别还是对任何一个类别的PR曲线来说，改进后的检测曲线与坐标轴所包围面积均要大于改进前的面积。因此，可以说本文提出的算法分类性能更好。

表3

表3给出改进前后算法的指标结果对比，从表3中可以看出，改进后的精确率提升了3.4％，召回率提升了3.8％，mAP_0.5提升了5.9％。召回率的大幅度提升说明了改进后的模型能把正样本分类正确的能力明显增强了，在不同IoU阈值下的mAP的提升说明了改进后的模型对待检测物体定位更准确。

步骤5：采用训练结束后保存的最优模型对绝缘子图像测试集进行检测：

将测试集里面的绝缘子图像输入最终保存的YOLOv7模型里面，测试模型的目标识别能力和分析结果：

模型训练以后会把最好的权重保存到best.pt里面，通过detect检测脚本加载最佳权重运行，输出检测结果。

如图16-23所示，为了验证本发明网络模型的泛化能力与鲁棒性，特意选取了几张待测物体与背景极为相似的图片，加大检测难度，通过比较分析改进后的算法能较好的识别绝缘子的小目标缺陷，并对一些重叠的绝缘子目标也能精确识别。

部署测试，将YOLOv7部署在开发平台上：

把YOLOv7的best.pt转换为onnx文件，把onnx文件作为中间模型去转换到相应的网络模型中。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。