CN117253188A - 基于改进的YOLOv5的变电站接地线状态目标检测方法 - Google Patents

基于改进的YOLOv5的变电站接地线状态目标检测方法 Download PDF

Info

Publication number
CN117253188A
CN117253188A CN202311267588.2A CN202311267588A CN117253188A CN 117253188 A CN117253188 A CN 117253188A CN 202311267588 A CN202311267588 A CN 202311267588A CN 117253188 A CN117253188 A CN 117253188A
Authority
CN
China
Prior art keywords
module
feature
features
convolution
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311267588.2A
Other languages
English (en)
Inventor
李成祥
杨帆
周言
米彦
陈丹
王鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202311267588.2A priority Critical patent/CN117253188A/zh
Publication of CN117253188A publication Critical patent/CN117253188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于改进的YOLOv5的变电站接地线状态目标检测方法,包括以下步骤:S1,采集包含接地线区域的变电站内实地图像;S2,将图像输入改进的YOLOv5模型进行接地线状态目标检测,得到检测结果;所述改进的YOLOv5模型包括:主干阶段Backbone:提取输入数据的特征;颈部阶段Neck:对来自Backbone不同特征层的特征融合到一起,以增强模型的表达能力;输出阶段Head:用于预测对象的坐标、类别和置信度分数,并通过非最大值抑制(NMS)删除无效的预测结果,并在图像上标记最终结果;本发明方法通过采用改进的YOLOv5模型能更快识别接地线状态,且识别精度更高。

Description

基于改进的YOLOv5的变电站接地线状态目标检测方法
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于改进的YOLOv5的变电站接地线状态目标检测方法。
背景技术
随着在线监测技术的发展,智能变电站实现了接地线状态的实时监测。但是一旦监测系统的数据有误,如数据更新不及时、数据漏传等情况,操作人员进行操作时就可能发生电力事故。为此,许多学者通过深度学习算法实现接地线状态的目标检测,为操作人员提供了安全保障。在众多深度学习算法中,YOLO算法发展十分迅速,也十分适合应用在目标检测中。
为了避免发生带地线送电事故,变电站需要实时检测地线的接通状态,保障变电站操作人员检修电力设备时的人身安全。而现有Faster-R-CNN、YOLOv3等目标检测算法在识别接地线状态上存在识别准确率不够高、识别速度不够快等问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于改进的YOLOv5的变电站接地线状态目标检测方法。
为了实现本发明的上述目的,本发明提供了一种基于改进的YOLOv5的变电站接地线状态目标检测方法,包括以下步骤:
S1,采集包含接地线区域的变电站内实地图像;
S2,将图像输入改进的YOLOv5模型进行接地线状态目标检测,得到检测结果;
所述改进的YOLOv5模型包括:
主干阶段Backbone:提取输入数据的特征;
颈部阶段Neck:对来自Backbone不同特征层的特征融合到一起,以增强模型的表达能力;
输出阶段Head:用于预测对象的坐标、类别和置信度分数,并通过非最大值抑制(NMS)删除无效的预测结果,并在图像上标记最终结果;
其中Backbone包括焦点模块、CSPResnet模块、C3模块和和SPP模块,首先将预处理后的图像输入焦点模块,焦点模块是一种特殊的下采样运算,使用切片操作将高解析度特征图拆分为若干个低解析度特征图;
然后将若干个低解析度特征图依次输入第一CSPResnet模块和第一C3模块,其中第一CSPResnet模块用于增强CNN的学习能力,有助于第一C3模块学习低解析度特征图的特征;通过第一C3模块进行初步的特征提取,从而得到初步特征;
将得到的初步特征输入第二CSPResnet模块和第二C3模块,其中第二CSPResnet模块用于增强CNN的学习能力,有助于第二C3模块学习低解析度特征图的特征;通过第二C3模块进行特征提取,从而得到底层特征;
将得到的底层特征输入第三CSPResnet模块和第三C3模块,其中第三CSPResnet模块用于增强CNN的学习能力,有助于第三C3模块学习低解析度特征图的特征;通过第三C3模块进行特征提取,从而得到中层特征;
将得到的中层特征输入第四CSPResnet模块、第四C3模块和SPP模块,其中第四CSPResnet模块用于增强CNN的学习能力,有助于第四C3模块学习低解析度特征图的特征;通过第四C3模块进行特征提取,最后经过SPP模块使用不同的最大池化层将任意大小的特征图转换为固定大小,从而得到高层特征;
其中Neck包括DWConv模块、Concat模块、Upsample模块和Maxpool模块,
将Backbone网络输出的底层特征、中层特征、高层特征发送给neck网络,高层特征经过第一Upsample模块进行上采样后通过第一Concat模块与中层特征融合,将融合后的特征输入第一DWConv模块进行深度可分离卷积,将卷积后得到的特征图输入第二Upsample模块进行上采样后通过第二Concat模块与底层特征融合,得到自顶向下传输特征,由此,通过Neck网络完成了自顶向下传输特征信息的学习;
将自顶向下传输特征经过第二DWConv模块进行深度可分离卷积,将卷积后得到的特征图与底层特征通过第三Concat模块进行融合,得到第一横向融合特征;
将第一横向融合特征经过第三DWConv模块进行深度可分离卷积,再通过第一Maxpool模块的池化操作后的特征图、经过第一DWConv模块进行深度可分离卷积得到的特征图与中层特征图通过第四Concat模块进行融合,得到第二横向融合特征;
将第二横向融合特征经过第四DWConv模块进行深度可分离卷积,再通过第二Maxpool模块的池化操作后的特征图与高层特征通过第四Concat模块进行融合,得到第三横向融合特征。
由此,通过Neck网络将低、中、高三层特征进行每层的横向连接,将每层与其他层融合后的特征再与原层特征融合之后再输出,完成了不同层特征的横向学习,解决了传统特征金字塔在提取不同尺度的特征时存在信息丢失和冗余的问题。
进一步地,所述DWConv模块的卷积过程是将a×b×c大小的特征图首先通过q*q*c大小的卷积核进行卷积再通过p个1*1*c大小的卷积核得到a*b*p大小的特征图,卷积过程中的参数量DWCp和计算量DWCcps如下所示:
DWCp=q×q×c+c×p
DWCcps=q×q×a×b×c+a×b×c×p
其中a×b×c分别表示输入特征图的宽度、高度、深度;
q×q×c分别表示卷积核的宽度、高度、深度。
进一步地,在改进的YOLOv5模型训练过程中,需要对采集的变电站内实地图像进行以下处理:
S01,使用LabelImg标注工具标记出图像中的接地线区域;
S02,对标记了接地线区域的图像进行增强操作;
S03,对图像进行裁剪,得到接地线区域图像;
S04,将图像调整为符合改进的YOLOv5模型要求的固定尺寸;
S05,使用过采样方法SMOTE进行数据平衡处理;
S06,将接地线区域的位置信息转换为边界框的坐标和类别标签;如果图像分辨率小于设定的输入尺寸,则在图像中补充灰块来达到设定的尺寸。
进一步地,在改进的YOLOv5模型训练过程中,通过损失函数计算预测值与真实值之间的不一致,模型的损失函数包括Head的损失函数,Head的损失函数为分类损失、定位损失和置信度损失的加权相加,其中分类损失采用的是CIoU损失函数,定位损失采用的是Varifocal Loss,
其中CIoU损失函数的计算公式如式(7)所示:
式中CIOU(A,B)表示预测框A和真实框B的交并比;
IoU(A,B)表示边界框A和B之间的IoU值;
D(A,B)表示边界框A和B之间的中心点距离;
X代表图像对角线长度;
y(A,B)表示边界框A和B之间的角点距离;
a是一个可调参数,用于平衡中心点距离、尺度比率和角点距离对目标检测性能的影响。
进一步地,采用F1-score和mAP两个评价指标来评估模型的性能,其中F1-score的公式为:
F1 Score=2×(Precision×Recall)/(Precision+Recall)
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
其中,F1 Score是一种综合考虑查准率Precision和召回率Recall的评估指标,用于衡量二分类或多分类模型的性能;
TP表示被正确地预测为正样本的数量;
FP表示被错误地预测为正样本的数量。
综上所述,由于采用了上述技术方案,本发明方法通过采用改进的YOLOv5模型能更快识别接地线状态,且识别精度更高。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的模型结构图。
图2是本发明CSPResnet与CBS对比图。
图3是标准卷积过程示意图。
图4是本发明深度可分离卷积过程。
图5是本发明CSPResNet网络架构图。
图6是precision和recall的计算方法示意图。
图7是模型评价指标对比示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
S1,数据集获取:利用某变电站内实地图像作为训练和评估的数据集。由于接地线区域在实际图像中占比较小,通过简单的数据集扩充,大量拍摄含有接地线区域的照片。从而保证正样本(接地线区域)和负样本(背景)之间的平衡。在数据预处理时,使用LabelImg标注工具进行标记,以准确地标记出图像中的接地线区域。实验数据集按照7:1:2的比例分为训练、测试和验证三部分。
S2,数据集预处理:在训练前需要对标记了接地线区域的图像进行增强操作。通过适当的增强操作,可以利用同一图像变化出更多背景下的数据,能够扩充数据集数量并能提高检测接地线状态时的准确度。
S3,进行图像裁剪。由于输电线路挂接临时接地线的区域在整个图像中占比较小,为了让模型更关注接地线的部分,需要将图像裁剪为仅包含感兴趣区域的较小区域。这样可以减少无关背景信息的干扰,并集中模型的注意力在接地线区域上。
S4,对图像进行了尺寸调整。由于YOLOv5模型对输入图像的尺寸有要求,需要将图像调整为固定的尺寸,这样可以保持模型输入的一致性,并提高模型的运行效率。
S5,通过对数据集进行重采样,使用过采样方法SMOTE(Synthetic MinorityOver-sampling Technique)即合成少数类过采样技术,该方法基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本(根样本),并随机选择一定数量的相邻样本(辅助样本)与根样本进行线性插值,从而生成了新样本,而且新样本的属性与用来合成的样本属性不同,属于新数据,这样就构造了许多新数据。
S6,在数据集预处理的最后阶段,我们进行了标签的转换和编码。根据YOLOv5模型的要求,我们将接地线区域的位置信息转换为边界框的坐标和类别标签。这样可以使模型能够理解和学习接地线的目标检测任务。如果图像分辨率小于设定的输入尺寸,会在图像中补充灰块来达到设定的尺寸,并且灰块不会影响模型的特征提取。
S7,将训练数据输入本发明改进的YOLOv5进行模型训练,然后分别将测试和验证数据输入改进的YOLOv5进行测试和验证。
本发明改进的YOLOv5结构如图1所示:具体包括以下几个阶段:
1)输入阶段。在此阶段对原始图像进行预处理,包括自适应缩放、数据增强和初始锚点的生成。
2)主干阶段(Backbone)。主要由焦点模块(Focus)、CSPResnet模块、C3模块和和空间金字塔池(SPP)模块组成。
首先将预处理后的图像输入焦点模块,焦点模块是一种特殊的下采样运算,使用切片操作将高解析度特征图拆分为若干个低解析度特征图。
然后将若干个低解析度特征图依次输入第一CSPResnet模块和第一C3模块,其中第一CSPResnet模块用于增强CNN的学习能力,有助于第一C3模块学习低解析度特征图的特征;通过第一C3模块进行初步的特征提取,从而得到初步特征;
将得到的初步特征输入第二CSPResnet模块和第二C3模块,其中第二CSPResnet模块用于增强CNN的学习能力,有助于第二C3模块学习低解析度特征图的特征;通过第二C3模块进行特征提取,从而得到底层特征;
将得到的底层特征输入第三CSPResnet模块和第三C3模块,其中第三CSPResnet模块用于增强CNN的学习能力,有助于第三C3模块学习低解析度特征图的特征;通过第三C3模块进行特征提取,从而得到中层特征;
将得到的中层特征输入第四CSPResnet模块、第四C3模块和SPP模块,其中第四CSPResnet模块用于增强CNN的学习能力,有助于第四C3模块学习低解析度特征图的特征;通过第四C3模块进行特征提取,最后经过SPP模块使用不同的最大池化层将任意大小的特征图转换为固定大小,从而得到高层特征。
其中,CSPResNet网络是一种结合CSP(Cross Stage Partial)和ResNet的网络结构,具有较强的特征表示能力和计算效率。CSP模块是CSPResNet的核心组件,它通过将特征图分成两个路径,即主干路径和分支路径,并在两个路径之间引入部分残差连接,促进了特征信息的传递和融合,CSPResNet网络架构图如图5所示。CSPResnet网络在CBS的基础上增加了BasicBlock和EffectiveSElayer,同时也改变了计算结构。BasicBlock是一个含有残差网络的由ConvBNlayer和REPVggBlock叠加而成的网络。ConvBNlayer和Conv、BN的组合同理,而REPVggBlock是3×3Conv层加BN层、1×1加BN层两个分支的输出相加后再通过激活函数组成。使用CSPResnet的好处是增强CNN的学习能力,能够在轻量化的同时保持准确性,同时降低了计算瓶颈,并且降低了内存成本。CBS模块包含卷积层、批量归一化层和SiLU激活函数。C3模块是一种高效的特征提取模块,可以增强网络的学习能力。它包括了三个1×1卷积层和一个瓶颈层,瓶颈层使用1×1卷积层来减少维度,使用3×3卷积层提取图像中的特征,这增加了网络的深度并减少了计算量。这种设计使CSPResNet可以充分利用主路线和分支路线上的特性信号,从而增强特征的表达能力。ResNet是一个深度残差训练网络系统,通过使用残差连接技术(skip connection)来克服了深层网络训练中的梯度弥散消失问题,让网络能够更加方便地完成训练。CSPNet通常应用于ResNet、ResNeXt和DenseNet三种网络中。CSPNet的使用,能够将上述网络的计算量减少10%~20%。但在精度方面,在ImageNet上进行图像分类任务时,其表现优于上述网络。计算瓶颈越高,推理所需的时间就越长,而计算效率越低,部分运算单元往往处于空闲状态。本模型可以实现对各层次计算量的均衡分布,既可以提高计算效率,又可以降低能源消耗并且CSPNet会使PeleeNet的计算瓶颈减半。为减少内存使用,在提取特征金字塔时,该模型通过跨通道对特征图进行压缩,当使用CSPNet时,PeleeNet的存储占用率可降低75%。
3)颈部阶段(Neck)。采用深度可分离卷积(DWConv)模块、Concat模块、上采样(Upsample)模块和最大池(Maxpool)模块。
将Backbone网络输出的底层特征、中层特征、高层特征发送给neck网络,高层特征经过第一Upsample模块进行上采样后通过第一Concat模块与中层特征融合,将融合后的特征输入第一DWConv模块进行深度可分离卷积,将卷积后得到的特征图输入第二Upsample模块进行上采样后通过第二Concat模块与底层特征融合,得到自顶向下传输特征,由此,通过Neck网络完成了自顶向下传输特征信息的学习。
将自顶向下传输特征经过第二DWConv模块进行深度可分离卷积,将卷积后得到的特征图与底层特征通过第三Concat模块进行融合,得到第一横向融合特征;
将第一横向融合特征经过第三DWConv模块进行深度可分离卷积,再通过第一Maxpool模块的池化操作后的特征图、经过第一DWConv模块进行深度可分离卷积得到的特征图与中层特征图通过第四Concat模块进行融合,得到第二横向融合特征;
将第二横向融合特征经过第四DWConv模块进行深度可分离卷积,再通过第二Maxpool模块的池化操作后的特征图与高层特征通过第四Concat模块进行融合,得到第三横向融合特征。
由此,通过Neck网络将低、中、高三层特征进行每层的横向连接,将每层与其他层融合后的特征再与原层特征融合之后再输出,完成了不同层特征的横向学习,解决了传统特征金字塔在提取不同尺度的特征时存在信息丢失和冗余的问题。
除了改变了Neck网络的结构之外,还使用了深度可分离卷积(DWConv)。深度可分离卷积将标准化卷积分解为逐深度卷积(depthwise convolution)和逐点1x1卷积(pointwise convolution)。逐深度卷积DWconv是按深度(channel数)逐层卷积获得一个个新的feature map,但是这些新的feature map并没有空间信息,因为逐深度卷积使用二维卷积对输入每个通道的特征进行卷积,通道与通道是阻断的。为了将空间信息重新注入feature map,DWconv利用1×1卷积将这些新的feature map重新组合,由反向BP重新获取空间信息。经过这样的分离方式,能够有效的减少模型计算时的参数量。标准卷积为X个A×A×L的卷积时(其中A为卷积的长和宽,L为卷积的深度),DWConv卷积将标准卷积分为L个A×A×1的卷积核,DWConv的参数量与标准卷积参数量之比如式(1)所示。
通过以上对Neck的结构改进,在前向传播和反向传播都能够实现特征的双向传递,通过双向路径的结合,能够同时利用多层次的特征信息,增强模型的特征提取能力和空间分辨率。在双向路径的每一层,使用特征融合操作来整合不同尺度的特征。它通过考虑特征的权重和相对重要性,自适应地将特征进行融合。并在双向路径中的每一层都引入了横向连接,使得不同层级的特征能够相互交流和融合。有效地解决了传统特征金字塔网络中信息传递不畅的问题,提高目标识别时平均准确度(mAP)提高了0.3%。mAP值越高,表明该目标检测模型在给定的数据集上的检测效果越好。
其中,采用深度可分离卷积模块(DWConv)是为了进一步减小模块的计算量和降低网络模型复杂度,本发明将Neck模块和Head网络中Conv结构替换为DWConv模块。Conv模块中的卷积层属于标准卷积,其卷积过程如图3所示。在计算过程中卷积核对全部通道的特征进行提取并融合。如图3所示,步长设置为1,标准卷积过程就是将一个a×b×c大小的特征图,输出了一个a×b×p大小的特征图,由此得出标准卷积过程所需的参数量Par和计算量Cqs,如式(2)和式(3)所示。
Convp=q×q×c×p (2)
Convcps=q×q×a×b×c×p (3)
而深度可分离卷积由两个步骤组成,分别为深度卷积和逐点卷积:
1)通过深度卷积在特征图上提取各区域特征。
2)进入逐点卷积信息融合通道。这一步骤同时兼顾空间和通道两个维度特征,过程如图4所示。
深度卷积算法中,每个卷积核只承担一个特征图的通路,因此,该算法可以避免通路之间的信息交互。逐点卷积对深度卷积操作过程提取的特征信息进行融合,其过程包含尺度大小为1×1的三维卷积核,带有特征图的通道数量取决于卷积核的数量。深度卷积和逐点卷积的联合使用构成了深度可分离卷积,既减少了模型参数,又保证了信息提取。
DWConv的卷积过程是将a×b×c大小的特征图首先通过q*q*c大小的卷积核进行卷积再通过p个1*1*c大小的卷积核得到a*b*p大小的特征图,卷积过程所需的参数量Par和计算量Cqs的表达式如下式(4)、式(5)。
DWCp=q×q×c+c×p (4)
DWCcps=q×q×a×b×c+a×b×c×p (5)
由式(2)、式(4)或式(3)、式(5)计算出可分深度卷积与标准卷积之比。结果显示,前者的计算参数较少,计算量也较小,二者的比值如式(6)所示。
深度可分离卷积模块能够学习到更加稳定的特征表示,从而提高接地线状态检测的准确性和鲁棒性。该方法不仅降低了模型参数个数,降低了模型的计算量,还提高了模型的推理速度。
4)输出阶段(Head)。此阶段负责预测对象的坐标、类别和置信度分数。通过非最大值抑制(NMS)删除无效的预测结果,并在图像上标记最终结果。模型结构图如图2所示。
此外,Head网络中的损失为Varifocal Loss、CIoU以及置信度损失这三个损失函数的加权相加。其中Varifocal Loss作为分类损失,CIoU作为定位损失,以及置信度损失用于判断先验框中是否含有待标注物体的损失函数。置信度用来判断边界框内的物体是正样本还是负样本,大于置信度阈值的判定为正样本,小于置信度阈值的判定为负样本即背景。
在YOLOv5中通常使用的分类损失函数是交叉熵损失,但该损失函数不适合应用在接地线的目标检测中,所以将Varifocal Loss函数替代交叉熵损失函数,这样能够更好地平衡正负样本,提高模型的泛化能力。这是由于交叉熵损失对于检测物体小,背景占据大部分区域的场景时,会使模型偏向背景,导致检测不到物体,识别效果不好。而VarifocalLoss(变焦损失)是一种动态缩放的二元交叉熵损失,它采用了非对称训练实例加权方法,仅降低负样本的权重来解决训练期间的类别不平衡问题,而提高高质量正样本的权重来生成主要检测。VariFocal Loss是从Focal Loss而来。Focal Loss提出来要解决的问题是训练数据中,正负样本不均衡的问题。
并且,在IoU损失处理中,将GIoU替换为CIoU,CIoU在计算过程中考虑了目标框的宽高比,能够更精确地反映预测框与目标框的一致性,有助于提升模型的定位精度。使用GIoU损失函数,当先验框和预测框为包含关系时会退回IoU损失函数,IoU的值不会发生变化,无法继续优化,并且GIoU收敛速度很慢。CIoU考虑了对中心点距离和纵横比的约束来优化achor加快了收敛速度,并不会在两个框为包含关系时退回为IoU损失函数。
其中CIoU损失函数的计算公式如式(7)所示。
式中A、B分别代表预测框和真实框,IoU(A,B)表示边界框A和B之间的IoU值,D(A,B)表示边界框A和B之间的中心点距离,X代表图像对角线长度,y(A,B)表示边界框A和B之间的角点距离,a是一个可调参数,用于平衡中心点距离、尺度比率和角点距离对目标检测性能的影响。在分类损失函数部分使用了Varifocal loss损失函数。针对检测接地线这样的小目标,变电站中背景十分复杂,容易干扰算法的检测效果,而Varifocal loss采用了非对称训练实例加权方法,仅降低负样本的权重来解决训练期间的类别不平衡问题,而提高高质量正样本的权重来生成主要检测。
改进的YOLOv5模型可以解决图像中复杂背景和小物体的检测问题。对主干网络Backbone进行了改进,通过增加的CSPResnet网络提升了目标检测性能;对Neck的网络结构进行了改进,且使用深度可分离卷积技术,能够快速实现并行计算并保证计算速度和性能稳定。
在实际应用中,YOLOv5具有五种目标检测模型,分别是YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。这些模型的区别在于模型的深度和宽度。YOLOv5n是最小的模型,YOLOv5m和YOLOv5l具有更多的CSP块来增加深度,而YOLOv5x是深度和宽度最大的模型。这些模型在准确性、速度和模型大小之间取得了平衡,适合各种目标检测应用。考虑到应用场景,本发明采用YOLOv5s类型。
综合考虑精准度和召回率的矛盾影响,采用精度平均值mAP(mean AveragePrecision)作为对算法检测性能的综合度量,以及模型处理图片的速率评估模型实时检测能力。用于评价精确率(Precision)的混淆矩阵(ConfusionMatri)如表1所示,该矩阵中真正例定义为被模型预测为正的正样本;假负例定义为被模型预测为负的正样本;假正例定义为被模型预测为正的负样本;真负例定义为被模型预测为负的负样本。
表1混淆矩阵
真实情况 预测结果正例 预测结果负例
正例 真正例 假负例
(Positive) (True Positive,TP) (False Negative,FN)
负例 假正例 真负例
(Negative) (False Positive,FP) (True Negative,TN)
为验证本文提出改进算法的优势,在变电站中接地线状态检测任务中,通过选择不同的模型进行对比,并使用f1-score这三个指标来评估模型的性能。
精准度用于衡量模型在预测为正的样本中真正正样本的数量。计算公式如式(10)所示。其中,TP(True Positive)表示被正确地预测为正样本的数量,FP(False Positive)表示被错误地预测为正样本的数量。
Precision=TP/(TP+FP) (8)
Recall(召回率):召回率用于衡量模型在所有真实正样本中能够正确检测出的样品数量。计算公式如式(11)所示。其中,TP(True Positive)表示被正确地预测为正样本的数量,FN(False Negative)表示被错误地预测为负样本的数量。
Recall=TP/(TP+FN) (9)
F1 Score是一种综合考虑查准率(Precision)和召回率(Recall)的评估指标,用于衡量二分类或多分类模型的性能。F1 Score的取值范围是0到1,其中1表示最佳性能,0表示最差性能。F1 Score综合了Precision和Recall,适用于不同类别样本不平衡的情况。F1Score的计算公式如式(12)。
mAP(mean Average Precision)平均精度均值,即AP(Average Precision)的平均值,它是目标检测算法的主要评估指标。目标检测模型通常会用速度和精度(mAP)指标描述优劣,mAP值越高,表明该目标检测模型在给定的数据集上的检测效果越好。其中Accuracy指准度,意味着系统误差(System Error),即偏差(Bias),描述了目标检测模型输出的实际值与真实结果的偏离程度。Precision指精度,意味着随机误差(Random Error),即方差(Variance),描述了实际值的扰动情况。Precision可以视作是模型找出来的数据的正确能力。
AP(Average Precision),用于衡量模型在目标识别检测能力的好坏。AP通过计算每一个recall值对应的Precision值的平均值,可以获得一个数值形式(numericalmetric)的评估指标。在对目标检测模型进行评估时,precision和recall的计算方法如图6所示。
使用map指标和模型的时间成本进行对比,验证了改进后的效果,不同模型评价指标对比图如图7所示,对比结果如表2所示。
表2实验对比结果
YOLOv5作为基线模型,具有较高的平均精度均值(mAP)。在目标检测任务中,YOLOv5能够准确地检测到大部分目标,但在检测所用时间方面时间成本比较大。
YOLOv5 with BiFPN and CSPResNet是引入了BiFPN和CSPResNet的改进模型。由结果可知,map指标相较于基线模型有了较大提升,而且时间成本明显降低。结果表明,改进模型在提高目标检测准确性方面取得了一定的进展,并减少了计算复杂度。
YOLOv5 with three new models是使用了深度可分离卷积模块的模型,该模型在map指标和时间性能上都超过了基线模型。结果表明,结合三个网络模块后,对目标检测准确率和模型轻量化方面都有很大的提升。
Final model是改进了neck网络和Backbone网络之后引入深度可分离卷积模块的最终模型。由上表2结果可知,最终的改进模型,在检测准确率和时间性能上都取得了最优的结果。因此将其用于输电线路的接地线状态的目标检测时,能够取得最佳的效果,具有很高的应用价值。
综上所述,本文在YOLOv5模型的基础上进行了改进,增加了深度可分离卷积模块。结果表明,改进模型mAP能够达到98.7%,时间只需61ms,相比于原模型准确率和运算速度都有较大提升。因此,本文设计的改进YOLOv5目标检测方法能够应用于变电站内接地线状态的检测,相较其他目标检测算法,更适合变电站接地线状态的目标检测,有效防止了带地线送电的事故发生。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (5)

1.一种基于改进的YOLOv5的变电站接地线状态目标检测方法,其特征在于,包括以下步骤:
S1,采集包含接地线区域的变电站内实地图像;
S2,将图像输入改进的YOLOv5模型进行接地线状态目标检测,得到检测结果;
所述改进的YOLOv5模型包括:
主干阶段Backbone:提取输入数据的特征;
颈部阶段Neck:对来自Backbone不同特征层的特征融合到一起,以增强模型的表达能力;
输出阶段Head:用于预测对象的坐标、类别和置信度分数,并通过非最大值抑制删除无效的预测结果,并在图像上标记最终结果;
其中Backbone包括焦点模块、CSPResnet模块、C3模块和和SPP模块,首先将预处理后的图像输入焦点模块,焦点模块是一种特殊的下采样运算,使用切片操作将高解析度特征图拆分为若干个低解析度特征图;
然后将若干个低解析度特征图依次输入第一CSPResnet模块和第一C3模块,其中第一CSPResnet模块用于增强CNN的学习能力,有助于第一C3模块学习低解析度特征图的特征;通过第一C3模块进行初步的特征提取,从而得到初步特征;
将得到的初步特征输入第二CSPResnet模块和第二C3模块,其中第二CSPResnet模块用于增强CNN的学习能力,有助于第二C3模块学习低解析度特征图的特征;通过第二C3模块进行特征提取,从而得到底层特征;
将得到的底层特征输入第三CSPResnet模块和第三C3模块,其中第三CSPResnet模块用于增强CNN的学习能力,有助于第三C3模块学习低解析度特征图的特征;通过第三C3模块进行特征提取,从而得到中层特征;
将得到的中层特征输入第四CSPResnet模块、第四C3模块和SPP模块,其中第四CSPResnet模块用于增强CNN的学习能力,有助于第四C3模块学习低解析度特征图的特征;通过第四C3模块进行特征提取,最后经过SPP模块使用不同的最大池化层将任意大小的特征图转换为固定大小,从而得到高层特征;
其中Neck包括DWConv模块、Concat模块、Upsample模块和Maxpool模块,
将Backbone网络输出的底层特征、中层特征、高层特征发送给neck网络,高层特征经过第一Upsample模块进行上采样后通过第一Concat模块与中层特征融合,将融合后的特征输入第一DWConv模块进行深度可分离卷积,将卷积后得到的特征图输入第二Upsample模块进行上采样后通过第二Concat模块与底层特征融合,得到自顶向下传输特征,由此,通过Neck网络完成了自顶向下传输特征信息的学习;
将自顶向下传输特征经过第二DWConv模块进行深度可分离卷积,将卷积后得到的特征图与底层特征通过第三Concat模块进行融合,得到第一横向融合特征;
将第一横向融合特征经过第三DWConv模块进行深度可分离卷积,再通过第一Maxpool模块的池化操作后的特征图、经过第一DWConv模块进行深度可分离卷积得到的特征图与中层特征图通过第四Concat模块进行融合,得到第二横向融合特征;
将第二横向融合特征经过第四DWConv模块进行深度可分离卷积,再通过第二Maxpool模块的池化操作后的特征图与高层特征通过第四Concat模块进行融合,得到第三横向融合特征。
2.根据权利要求1所述的一种基于改进的YOLOv5的变电站接地线状态目标检测方法,其特征在于,所述DWConv模块的卷积过程是将a×b×c大小的特征图首先通过q*q*c大小的卷积核进行卷积再通过p个1*1*c大小的卷积核得到a*b*p大小的特征图,卷积过程中的参数量DWCp和计算量DWCcps如下所示:
DWCp=q×q×c+c×p
DWCcps=q×q×a×b×c+a×b×c×p
其中a×b×c分别表示输入特征图的宽度、高度、深度;
q×q×c分别表示卷积核的宽度、高度、深度。
3.根据权利要求1所述的一种基于改进的YOLOv5的变电站接地线状态目标检测方法,其特征在于,在改进的YOLOv5模型训练过程中,需要对采集的变电站内实地图像进行以下处理:
S01,使用LabelImg标注工具标记出图像中的接地线区域;
S02,对标记了接地线区域的图像进行增强操作;
S03,对图像进行裁剪,得到接地线区域图像;
S04,将图像调整为符合改进的YOLOv5模型要求的固定尺寸;
S05,使用过采样方法SMOTE进行数据平衡处理;
S06,将接地线区域的位置信息转换为边界框的坐标和类别标签;如果图像分辨率小于设定的输入尺寸,则在图像中补充灰块来达到设定的尺寸。
4.根据权利要求3所述的一种基于改进的YOLOv5的变电站接地线状态目标检测方法,其特征在于,在改进的YOLOv5模型训练过程中,通过损失函数计算预测值与真实值之间的不一致,模型的损失函数包括Head的损失函数,Head的损失函数为分类损失、定位损失和置信度损失的加权相加,其中分类损失采用的是CIoU损失函数,定位损失采用的是VarifocalLoss,
其中CIoU损失函数的计算公式如式(7)所示:
式中CIOU(A,B)表示预测框A和真实框B的交并比;
IoU(A,B)表示边界框A和B之间的IoU值;
D(A,B)表示边界框A和B之间的中心点距离;
X代表图像对角线长度;
y(A,B)表示边界框A和B之间的角点距离;
a是一个可调参数,用于平衡中心点距离、尺度比率和角点距离对目标检测性能的影响。
5.根据权利要求3所述的一种基于改进的YOLOv5的变电站接地线状态目标检测方法,其特征在于,采用F1-score和mAP两个评价指标来评估模型的性能,其中F1-score的公式为:
F1 Score=2×(Precision×Recall)/(Precision+Recall)
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)
其中,F1 Score是一种综合考虑查准率Precision和召回率Recall的评估指标,用于衡量二分类或多分类模型的性能;
TP表示被正确地预测为正样本的数量;
FP表示被错误地预测为正样本的数量。
CN202311267588.2A 2023-09-28 2023-09-28 基于改进的YOLOv5的变电站接地线状态目标检测方法 Pending CN117253188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311267588.2A CN117253188A (zh) 2023-09-28 2023-09-28 基于改进的YOLOv5的变电站接地线状态目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311267588.2A CN117253188A (zh) 2023-09-28 2023-09-28 基于改进的YOLOv5的变电站接地线状态目标检测方法

Publications (1)

Publication Number Publication Date
CN117253188A true CN117253188A (zh) 2023-12-19

Family

ID=89130990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311267588.2A Pending CN117253188A (zh) 2023-09-28 2023-09-28 基于改进的YOLOv5的变电站接地线状态目标检测方法

Country Status (1)

Country Link
CN (1) CN117253188A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975040A (zh) * 2024-03-28 2024-05-03 南昌工程学院 基于改进YOLOv5的GIS红外图像识别系统与方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975040A (zh) * 2024-03-28 2024-05-03 南昌工程学院 基于改进YOLOv5的GIS红外图像识别系统与方法

Similar Documents

Publication Publication Date Title
CN110503112B (zh) 一种增强特征学习的小目标检测及识别方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN107832835A (zh) 一种卷积神经网络的轻量化方法及装置
CN111797829A (zh) 一种车牌检测方法、装置、电子设备和存储介质
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN110287806A (zh) 一种基于改进ssd网络的交通标志识别方法
CN117253188A (zh) 基于改进的YOLOv5的变电站接地线状态目标检测方法
CN112200225A (zh) 基于深度卷积神经网络的钢轨伤损b显图像识别方法
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN111754507A (zh) 一种轻量化的基于强注意力机制的工业缺陷图像分类方法
CN110188802A (zh) 基于多层特征图融合的ssd目标检测算法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN110909615A (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN113487600A (zh) 一种特征增强尺度自适应感知船舶检测方法
CN112308850A (zh) 一种多尺度特征融合的输电线路检测方法与系统
CN114049561A (zh) 一种船舶目标检测模型及方法
CN116863271A (zh) 一种基于改进yolo v5的轻量级红外火焰检测方法
CN115631412A (zh) 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法
CN110689071B (zh) 一种基于结构化高阶特征的目标检测系统及方法
CN114972882A (zh) 基于多注意力机制的磨损表面损伤深度估计方法及系统
CN115115947A (zh) 遥感图像检测方法、装置、电子设备以及存储介质
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination