CN116681885A - 输变电设备红外图像目标识别方法及系统 - Google Patents

输变电设备红外图像目标识别方法及系统 Download PDF

Info

Publication number
CN116681885A
CN116681885A CN202310966777.2A CN202310966777A CN116681885A CN 116681885 A CN116681885 A CN 116681885A CN 202310966777 A CN202310966777 A CN 202310966777A CN 116681885 A CN116681885 A CN 116681885A
Authority
CN
China
Prior art keywords
module
layer
output
network
power transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310966777.2A
Other languages
English (en)
Other versions
CN116681885B (zh
Inventor
李腾
董翔宇
樊培培
罗沙
卢一相
黄道均
刘之奎
朱涛
张俊杰
赵梦露
沈国堂
方波
蒋晶晶
祝浩焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Anhui University
Original Assignee
Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd, Anhui University filed Critical Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Priority to CN202310966777.2A priority Critical patent/CN116681885B/zh
Publication of CN116681885A publication Critical patent/CN116681885A/zh
Application granted granted Critical
Publication of CN116681885B publication Critical patent/CN116681885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种输变电设备红外图像目标识别方法及系统,方法包括采集输变电设备红外图像并输入至目标检测模型,目标检测模型包括骨干网络和检测头网络,骨干网络的头部和尾部分别添加有S2‑MLPv2模块,骨干网络的输出连接检测头网络;利用骨干网络提取红外图像的特征图,其中,所述S2‑MLPv2模块利用空间转移操作进行各图像块之间的通信;利用检测头网络预测所述特征图中包含目标的位置和类别;通过在网络中加入S2‑MLPv2模块,加快模型训练的收敛速度,从而提高变电站设备监测的工作效率。

Description

输变电设备红外图像目标识别方法及系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种输变电设备红外图像目标识别方法及系统。
背景技术
随着国家的快速发展,用电需求不断增加,电力设备遍布全国各地,这也导致了电力系统故障发生概率的增加。由于不断发生电力系统造成的事故,我国对电力设备的安全性和自动化程度的关注日益加强。输变电设备是电力设备的重要组成部分,其出现故障的主要表现为机械损坏、温度升高和电场变化。传统方式要想发现这些故障,需要大量人工的参与,并且对人工的专业程度有一定的要求,同时也增加了很多不确定性,加大了设备监测的难度。
传统的设备监测需要有经验的人工参与,成本高昂,容易出现较大的偏差,加大了电力巡检的困难,而非接触式设备监测可以有效解决这个问题。非接触式设备监测主要通过设备的红外图像识别出各类设备并完成各类故障的监测,测温范围广泛且准确率和稳定性都表现的更好,被广泛应用于输变电设备的监测。同时,随着各类目标检测算法的提出,将输变电设备红外图像和这些算法结合可以更快地完成对指定对象的识别与监测。其中基于深度学习的目标检测方法目前已经应用于各个图像识别领域,将该方法用于检测输变电设备可以很大程度地提高识别的精度和速度,进而实现对各类故障的快速反应,有效地提高了变电站的工作效率及安全性,并提高其智能化程度。
目前的输变电设备检测算法主要分为三种,分别是传统算法,基于机器学习的算法和基于深度学习的算法:
(1)传统算法主要通过不同的算法提取输变电设备红外图像的特征,这些算法包括灰度共生矩阵、小波变换等,提取完特征之后再通过分类器进行分类。而在实际运用环境当中,输变电设备的红外图像拍摄会存在一些问题,例如不同拍摄设备拍摄角度的不同,光照强度的影响以及不同场景下会存在的一些干扰,这些都会导致传统算法设计出的模型通用性不足,无法适应实际场景下的输变电设备红外图像监测。
(2)基于机器学习的算法通过支持向量机、决策树、随机森林等方法完成对红外图像中输变电设备的识别,它和深度学习的算法都属于数据驱动。
(3)基于深度学习的算法主要包括YOLO(You Only Look Once)系列的算法和R-CNN(Region based Convolutional Neural Network)系列的算法。其中,R-CNN使用选择性搜索算法或其他区域生成算法生成图像中的候选目标区域,然后从图像的每个候选区域中提取特征,对每个候选区域的特征进行分类,以预测目标的类别和位置。YOLO系列的算法一般通过各个模块从图像中提取特征,获取对象的特征信息,然后使用检测网络预测图像中对象的位置、类别、以及框的边界,最后使用非极大值抑制(Non-Maximum Suppression,NMS)算法删除重叠的检测框,以确保最终只剩下一个识别结果。无论是哪一种基于深度学习的方法,它们一般都是通过训练标记好的输变电设备红外图像得到一个模型,然后通过这个模型去预测未标记红外图像中的各类输变电设备。
对于基于深度学习的方法,R-CNN属于Two-stage网络,也就是将网络分为两个阶段,步骤相较于YOLO更为繁琐,除此以外,使用区域生成算法生成的候选目标区域会存在一些冗余,这会导致在复杂的变电站环境中模型的适应能力下降,同时也降低了算法的实时性。而对于YOLO系列的算法,每个版本都存在一些改进,最新的版本相较于上一个版本会在精度方面或是速度方面做出一些改善。比如YOLOv2相对于YOLOv1加入了回归先验框机制,并且使用新的网络结构Darknet-19,YOLOv3相对于YOLOv2加入了残差网络,还利用了多尺度特征融合进行目标检测。而最新的YOLOv8相较于之前的版本,加入了C2f模块,其分类损失为VFL Loss,其回归损失为CIoU Loss+DFL的形式,和之前的网络相比,其分类能力得到了有效地提高。但是其自带的CIoU并不是最优的选择,虽然CIoU通过中心点回归缓解了两框距离较远时难优化的问题,但是其算法中的长宽比的差异不是宽高分别与其置信度的真实差异,这会阻碍模型有效的优化。
当然,会有一些工作将Squeeze-and-Excitation block(SE),BottleneckAttention Module(BAM)和Convolutional Block Attention Module(CBAM)等注意力机制和这些网络结构结合来提高分类精度或者收敛速度,从而提高模型的效率,比如公布号为CN112101434A中提出的基于改进YOLOv3的红外图像弱小目标检测方法,但该方案中SE模块通过动态调整特征图中不同通道的重要性来增强网络的表征能力,只考虑了通道间信息的编码,而忽略了输入特征图的位置信息。而BAM模块使用Bottleneck结构来降低计算成本并帮助专注于目标对象。CBAM机制通过通道注意力模块计算通道注意力和通过空间注意力模块计算空间注意力,但通常会遭受收敛的困难或沉重的计算负担,同时这些注意力机制并没有充分利用空间注意和通道注意之间的相关性且卷积只能捕获局部位置信息。
发明内容
本发明所要解决的技术问题在于如何提高变电站对输变电设备识别的效率及其智能化水平。
本发明通过以下技术手段解决上述技术问题的:
一方面,本发明提出了一种输变电设备红外图像目标识别方法,所述方法包括:
采集输变电设备红外图像并输入至目标检测模型,所述目标检测模型包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
利用所述骨干网络提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
利用所述检测头网络预测所述特征图中包含目标的位置和类别。
进一步地,所述S2-MLPv2模块包括多层感知器MLP_1、空间位移操作层SpatialShift_1、空间位移操作层Spatial Shift_2、分散注意力模块Split Attention和多层感知器MLP_2;
多层感知器MLP_1将输入的特征图进行扩展后分解为三个子图/>,/>,/>
空间位移操作层Spatial Shift_1和空间位移操作层Spatial Shift_2分别对子图和/>进行空间位移操作后再与子图/>重塑为矩阵;
分散注意力模块Split Attention对所述矩阵进行处理后输出至多层感知器MLP_2。
进一步地,所述S2-MLPv2模块的分类损失为VFL损失,公式表示为:
式中,是VFL损失函数,/>是IoU感知分类评分,/>是目标分数,/>是加权因子,/>是焦点损失指数。
进一步地,所述骨干网络包括依次连接的卷积层conv_1、第一C2f模块、卷积层conv_2、第二C2f模块、卷积层conv_3、第三C2f模块、卷积层conv_4、第四C2f模块和SPPF模块,卷积层conv_1与第一C2f模块之间设置有第一S2-MLPv2模块,SPPF模块的输出连接有第二S2-MLPv2模块。
进一步地,所述检测头网络包括上采样层Upsample_1和上采样层Upsample_2,上采样层Upsample_1的输出经拼接层Concat_1与第一C2f-H模块连接,上采样层Upsample_2的输出经拼接层Concat_2与第二C2f-H模块连接;
第二C2f-H模块的输出连接检测器Detect_1和卷积层conv_5,卷积层conv_5的输出和第一C2f-H模块的输出连接拼接层Concat_3,拼接层Concat_3的输出连接第三C2f-H模块,第三C2f-H模块的输出连接卷积层conv_6和检测器Detect_2,卷积层conv_6的输出连接拼接层Concat_4,拼接层Concat_4的输出连接第四C2f-H模块,第四C2f-H模块的输出连接检测器Detect_3;
所述第二S2-MLPv2模块的输出连接上采样层Upsample_1和拼接层Concat_4,所述第三C2f模块的输出连接拼接层Concat_2,所述第四C2f模块的输出连接拼接层Concat_1。
进一步地,所述第一C2f模块、所述第二C2f模块、所述第三C2f模块及所述第四C2f模块中的Bottleneck块中使用残差连接。
进一步地,所述检测头网络采用Decoupled-Head头。
进一步地,所述目标检测模型采用YOLOv8目标检测网络架构,所述目标检测模型在训练过程中采用的损失函数为:
式中,是基于中心点的距离和对角线距离的比值,/>是影响因子,/>是交并比,/>是加权因子。
此外,本发明还提出了一种输变电设备红外图像目标识别系统,所述系统中部署采集模块和预先训练好的目标检测模型,包括:
采集模块,用于采集输变电设备红外图像并输入至所述目标检测模型,所述目标检测模型包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
所述骨干网络用于提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
所述检测头网络用于预测所述特征图中包含目标的位置和类别。
此外,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的输变电设备红外图像目标识别方法。
本发明的优点在于:
(1)本发明通过在目标检测模型中的骨干网络Backbone中添加改进的S2-MLPv2模块,S2-MLPv2模块利用空间转移操作来进行各个图像块之间的通信,提高了Backbone部分的特征提取能力从而加快训练进度并促进模型收敛,提高变电站设备监测的工作效率。
(2)将目标检测模型训练过程时采用的回归损失函数中的CIoU替换为Alpha-IoU,实现对现有的基于IoU的损失进行统一的功率泛化,可以进行更加精确的Bounding box回归,保证模型的分类精度,实现对绝缘子类、导电线类、金具类、变压器套管等输变电设备的高精度目标识别,最终达到提高变电站安全系数以及自动化程度的目的。
(3)在骨干网络中,将YOLOv5的C3模块更换成C2f模块,C2f模块拥有更加丰富的梯度流,实现了进一步的轻量化。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明一实施例提出的一种输变电设备红外图像目标识别方法的流程示意图;
图2是本发明一实施例中S2-MLPv2模块的结构示意图;
图3是本发明一实施例中目标检测模型的结构示意图;
图4是本发明一实施例中目标检测模型的训练过程中各项损失变化曲线;
图5是本发明一实施例中目标检测模型的训练过程中mAP变化曲线;
图6是本发明一实施例中目标检测模型预测的测试图一;
图7是本发明一实施例中目标检测模型预测的测试图二;
图8是本发明一实施例提出的输变电设备红外图像目标识别系统的结构示意。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明第一实施例公开了一种输变电设备红外图像目标识别方法,所述方法包括以下步骤:
S10、采集输变电设备红外图像并输入至目标检测模型,所述目标检测模型包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
需要说明的是,本实施例可通过无人机搭载红外摄像设备拍摄输变电设备红外图像,并输入至预先训练好的目标检测模型中,进行目标识别,所识别的目标对象包括但不限于绝缘子类、导电线类、金具类、变压器套管等。
S20、利用所述骨干网络提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
需要说明的是,在网络的训练过程中会将特征图构建的矩阵分成若干块小的矩阵,称为图像块。
S30、利用所述检测头网络预测所述特征图中包含目标的位置和类别。
需要说明的是,本实施例通过在骨干网络中添加两个S2-MLPv2模块,可提高目标检测模型的特征提取效率,且使提取的特征更注重于各类输变电设备的特征,从而加快训练进度并促进模型收敛,提高变电站设备监测的工作效率,并且通过检测头网络预测目标对象的位置和类别,实现对输变电设备红外图像中包含的目标对象的识别。
在一实施例中,如图2所示,所述S2-MLPv2模块包括多层感知器MLP_1、空间位移操作层Spatial Shift_1、空间位移操作层Spatial Shift_2、分散注意力模块SplitAttention和多层感知器MLP_2;
多层感知器MLP_1将输入的特征图进行扩展后分解为三个子图/>,/>,/>
空间位移操作层Spatial Shift_1和空间位移操作层Spatial Shift_2分别对子图和/>进行空间位移操作后再与子图/>重塑为矩阵;
分散注意力模块Split Attention对所述矩阵进行处理后输出至多层感知器MLP_2。
具体地,本实施例设计的SPATIAL-SHIFT MLPv2模块简称为S2-MLPv2模块,通过在卷积层之间插入空间敏感可学习滤波器,此滤波器学习以空间变化的方式平移特征图,有助于模型学习更健壮和移位不变的表示。与传统的S2-MLP相比,本实施例提出的S2-MLPv2模块的改进要点在于:使用膨胀卷积来增加空间过滤器的感受野,从而使过滤器能够捕获更大的上下文信息。它还包括归一化层和空间滤波器之后的激活层,进一步增强了滤波器的表示能力,其中的激活层被更换为Mish来提升速度。
进一步地,S2-MLPv2模块对输入的特征图进行处理的具体过程为:
对于给定的输入特征图,首先通过多层感知器MLP_1将通道从/>扩展到,得到扩展后的特征图/>
式中,表示多层感知器,/>表示输入的特征图,/>表示向量空间,/>表示特征图的宽,/>表示特征图的高,/>表示通道数。
然后将扩展的特征图平均分为三个部分:
其中,,/>,/>是分解得到的三个子图。
然后通过空间位移操作层Spatial Shift_1和空间位移操作层Spatial Shift_2分别对,/>进行空间位移操作。Spatial Shift_1沿通道维度将/>平均分成四个部分,然后沿四个方向移动它们。Spatial Shift_2相对于Spatial Shift_1对/>进行了非对称的空间位移操作。而对于/>不进行任何操作。
将Spatial Shift_1和Spatial Shift_2的输出结果与累加之后然后取平均,重塑得到矩阵/>,矩阵会通过分散注意力模块(Split Attention,SA),来增强来自不同操作的多个特征图,表示为:
其中,为SA模块的输出,/>是将输入的特征图进行平均操作得到的向量,/>和/>是权重矩阵,/>是Mish激活函数。最后将分散注意力模块输出的特征图/>输入到多层感知器MLP_2,多层感知器MLP_2的输出为:
其中,为S2-MLPv2模块的输出,/>为多层感知器MLP_2的输出为。
在一实施例中,所述S2-MLPv2模块的分类损失为VFL损失,公式表示为:
式中,是VFL损失函数,/>是IoU感知分类评分,/>是加权因子,/>是焦点损失指数;/>是目标分数,正样本时,/>为Bounding box和ground truth的IoU,负样本时/>=0。
需要说明的是,S2-MLPv2模块的分类损失采用VFL损失函数,VFL损失为分类错误且具有高度不确定性的稀有类示例分配更高的权重,有助于网络更好地专注于改进稀有类的检测。
在一实施例中,如图3所示,所述骨干网络包括依次连接的卷积层conv_1、第一C2f模块、卷积层conv_2、第二C2f模块、卷积层conv_3、第三C2f模块、卷积层conv_4、第四C2f模块和SPPF模块,卷积层conv_1与第一C2f模块之间设置有第一S2-MLPv2模块,SPPF模块的输出连接有第二S2-MLPv2模块。
在一实施例中,如图3所示,所述检测头网络包括上采样层Upsample_1和上采样层Upsample_2,上采样层Upsample_1的输出经拼接层Concat_1与第一C2f-H模块连接,上采样层Upsample_2的输出经拼接层Concat_2与第二C2f-H模块连接;
第二C2f-H模块的输出连接检测器Detect_1和卷积层conv_5,卷积层conv_5的输出和第一C2f-H模块的输出连接拼接层Concat_3,拼接层Concat_3的输出连接第三C2f-H模块,第三C2f-H模块的输出连接卷积层conv_6和检测器Detect_2,卷积层conv_6的输出连接拼接层Concat_4,拼接层Concat_4的输出连接第四C2f-H模块,第四C2f-H模块的输出连接检测器Detect_3;
所述第二S2-MLPv2模块的输出连接上采样层Upsample_1和拼接层Concat_4,所述第三C2f模块的输出连接拼接层Concat_2,所述第四C2f模块的输出连接拼接层Concat_1。
在一实施例中,所述第一C2f模块、所述第二C2f模块、所述第三C2f模块及所述第四C2f模块中的Bottleneck块中使用残差连接。
需要说明的是,目标检测模型主要分为Backbone部分和Head部分。其中Backbone部分用于提取输入对象的特征,Head部分也被称为检测头,作用是预测对象的位置和类别。一共有三个Detect检测器,它利用基于网格的anchor在不同尺度的特征图上进行目标检测。
两个改进的S2-MLPv2模块分别位于Backbone的开头和末尾部分,开头的S2-MLPv2模块利用注意力机制促使特征提取往需要的方向发展,而末尾的S2-MLPv2模块主要作用是提高Backbone的表征能力,有利于Head部分的预测。
需要说明的是,目标检测模型采用YOLOv8目标检测网络架构,YOLOv8中的卷积层Conv由一个二维卷积层、BatchNorm层和一个SiLu激活层组成,它的主要作用是特征的提取。YOLOv8中的C2f模块参考了YOLOv5的C3模块以及YOLOv7中的ELAN模块的思想进行设计,让YOLOv8可以在保证轻量化的同时获得更加丰富的梯度流信息。
在一实施例中,检测头网络Head中的C2f-H模块和BackBone部分的C2f模块有一些不同,C2f模块中的Bottleneck块使用了残差连接,C2f-H模块没有使用残差连接。
进一步地,对于SPPF模块,原始的SPP模块结构又被称为空间金字塔池化,能将任意大小的特征图转换成固定大小的特征向量,而从形状上来说,SPP模块和SPPF模块的目的是相同的,只是在结构上略有差异,从SPP改进为SPPF后,模型的计算量变小了很多,模型速度得到了提升。
在一实施例中,检测头网络中的检测器Detect主要由卷积层组成,相对于YOLOv5的Coupled-Head,YOLOv8的检测器Detect使用了Decoupled-Head头,也就是解耦头,它主要优势在于:允许每个头专注于特定范围的对象大小,从而使网络能够更好地处理不同尺度的对象,这样可以实现更准确的检测,并提高对象检测任务的整体性能。
在一实施例中,所述目标检测模型在训练过程中采用的损失函数为:
式中,是基于中心点的距离和对角线距离的比值,/>是影响因子,代表预测框与真实框之间长宽比的一致性的考量,/>是交并比,/>是指在/>的基础上加入了/>,/>是可调制的加权因子。
需要说明的是,本实施例将模型训练过程中采用的回归损失中的CIoU替换为Alpha-IoU,对现有的基于IoU的损失进行了统一的功率泛化,可以进行更加精确的Bounding box回归。
进一步地,Alpha-IoU是交并比(Intersection over Union,IoU)的改进,在标准IoU指标中,预测边界框或掩膜之间的重叠是通过计算其交集与其并集的比率来测量的。但是,Alpha-IoU将现有的IoU损失推广到一个新的功率IoU系列损失,这些损失具有一个幂次IoU项和一个附加的幂次正则项。
具体来说,首先将IoU损失推广到α-IoU损失:
其中,是可以调制的加权因子,在模型训练过程中通过调整加权因子/>,确定最优模型,/>是指Alpha-IoU在CIoU上的具体实施。
由于最先进的基于IoU的损失都是,因此将上述/>的α-IoU损失扩展到更一般的形式:
其中,,/>,/>和/>表示预测框和实际框,/>表示基于/>和/>计算的任何惩罚项。这个简单的扩展允许将现有的基于IoU的损失直接推广到其α-IoU版本中。同时,为了保持了IoU项和惩罚项之间功率的一致性,在训练模型时将/>作为一个合适的选择,得到CIoU的推广表示形式作为损失函数/>
进一步地,总的来说,Alpha-IoU应用幂变换来推广原版IoU损失和基于IoU的正则化损失,包括它们的IoU和正则化项。新的广义损失系列通过自适应地重新加权高和低IoU对象的损失和梯度来提高Bounding box回归精度。在实际测试中,通过调整训练模型,最终根据结果选择/>为3。
在一实施例中,所述目标检测模型的预先训练过程为:
1)制作数据集,通过无人机搭载红外摄像设备在不同场景拍摄各个角度的输变电设备红外图像,然后将图像中绝缘子类、导电线类、金具类、变压器套管等输变电设备标记出来并按4:1比例划分成数据集和验证集。2)训练数据集,通过上述构建的目标检测模型训练标记好的数据集,并通过调整网络各项超参数达到最优的效果。3)测试数据集,将测试的输变电红外图像输入进综合指标最好的模型,识别出各类设备并用于后续处理。
通过对输变电红图像的训练过程中各项指标的跟踪,其各项损失变化曲线如图4所示,其中,train/box_loss为训练集下的定位损失即Alpha-IoU,train/cls_loss为训练集下的分类损失,train/dfl_loss为训练集下yolo自带的一个损失,用来减少类不平衡造成的影响;val/box_loss为验证集下的定位损失即Alpha-IoU,val/cls_loss为验证集下的分类损失,val/dfl_loss为验证集下yolo自带的一个损失。可以看出,通过加入改进的S2-MLPv2模块,模型的收敛非常平滑且迅速,无论是在训练集的损失还是验证集的损失,都表现出优良的效果。此外,Alpha-IoU的加入让mAP维持在稳定的区域,其训练过程中mAP变化曲线如图5所示,其中mAP50表示IoU阈值大于0.5的各种类平均mAP,其中IoU表示预测框与真正框交集与表示预测框与真正框并集的比值。mAP50-95为当IoU为range(0.5:0.95:0.05)时的mAP的平均数,可以看出mAP50和mAP50-95的变化曲线波动不大,其中,mAP50能维持在0.75以上,代表模型的所有类别的平均精度能维持在较高水平。最后是两张用模型预测的测试图,分别是图6和图7,可以看出,预测框与实际设备位置重合度较高,且所有设备预测的置信度都在0.8以上。
本实施例采用基于S2-MLP- YOLOv8的输变电设备红外图像目标识别模型可以实现对各类输变电设备的准确识别,相对于传统方法和基于深度学习的网络模型,它向YOLOv8的网络结构中加入了改进的S2-MLPv2模块,促进模型的收敛。除此以外,将YOLOv8原有的回归损失替换为了Alpha-IoU,保证了网络对各类输变电设备的分类精度。最后通过该网络训练的模型可以很好地完成输变电设备红外图像目标识别任务,从而为后续的设备监测以及故障诊断提供有效支撑,有利于提高输变电设备的运行可靠性和变电站的智能化和安全性。
此外,如图8所示,本发明第二实施例公开了一种输变电设备红外图像目标识别系统,所述系统中部署采集模块10和预先训练好的目标检测模型20,包括:
采集模块10,用于采集输变电设备红外图像并输入至所述目标检测模型20,所述目标检测模型20包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
所述骨干网络用于提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
所述检测头网络用于预测所述特征图中包含目标的位置和类别。
本实施例通过在骨干网络中添加两个S2-MLPv2模块,可提高目标检测模型的特征提取效率,且使提取的特征更注重于各类输变电设备的特征,从而加快训练进度并促进模型收敛,提高变电站设备监测的工作效率,并且通过检测头网络预测目标对象的位置和类别,实现对输变电设备红外图像中包含的目标对象的识别。
在一实施例中,所述S2-MLPv2模块包括多层感知器MLP_1、空间位移操作层Spatial Shift_1、空间位移操作层Spatial Shift_2、分散注意力模块Split Attention和多层感知器MLP_2;
多层感知器MLP_1将输入的特征图进行扩展后分解为三个子图/>,/>,/>
空间位移操作层Spatial Shift_1和空间位移操作层Spatial Shift_2分别对子图和/>进行空间位移操作后再与子图/>重塑为矩阵;
分散注意力模块Split Attention对所述矩阵进行处理后输出至多层感知器MLP_2。
在一实施例中,所述S2-MLPv2模块的分类损失为VFL损失,公式表示为:
式中,是VFL损失函数,/>是IoU感知分类评分,/>是目标分数,/>是加权因子,/>是焦点损失指数。
在一实施例中,所述骨干网络包括依次连接的卷积层conv_1、第一C2f模块、卷积层conv_2、第二C2f模块、卷积层conv_3、第三C2f模块、卷积层conv_4、第四C2f模块和SPPF模块,卷积层conv_1与第一C2f模块之间设置有第一S2-MLPv2模块,SPPF模块的输出连接有第二S2-MLPv2模块。
在一实施例中,所述检测头网络包括上采样层Upsample_1和上采样层Upsample_2,上采样层Upsample_1的输出经拼接层Concat_1与第一C2f-H模块连接,上采样层Upsample_2的输出经拼接层Concat_2与第二C2f-H模块连接;
第二C2f-H模块的输出连接检测器Detect_1和卷积层conv_5,卷积层conv_5的输出和第一C2f-H模块的输出连接拼接层Concat_3,拼接层Concat_3的输出连接第三C2f-H模块,第三C2f-H模块的输出连接卷积层conv_6和检测器Detect_2,卷积层conv_6的输出连接拼接层Concat_4,拼接层Concat_4的输出连接第四C2f-H模块,第四C2f-H模块的输出连接检测器Detect_3;
所述第二S2-MLPv2模块的输出连接上采样层Upsample_1和拼接层Concat_4,所述第三C2f模块的输出连接拼接层Concat_2,所述第四C2f模块的输出连接拼接层Concat_1;所述第一C2f模块、所述第二C2f模块、所述第三C2f模块及所述第四C2f模块中的Bottleneck块中使用残差连接。
在一实施例中,所述检测头网络采用Decoupled-Head头。
在一实施例中,所述目标检测模型采用YOLOv8目标检测网络架构,所述目标检测模型在训练过程中采用的损失函数为:
式中,是基于中心点的距离和对角线距离的比值,/>是影响因子,/>是交并比,/>是可调制的加权因子。
需要说明的是,本发明所述输变电设备红外图像目标识别系统的其他实施例或具有实现方法可参照上述各方法实施例,此处不再赘余。
此外,本发明第三实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上第一实施例所述的方法。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种输变电设备红外图像目标识别方法,其特征在于,所述方法包括:
采集输变电设备红外图像并输入至目标检测模型,所述目标检测模型包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
利用所述骨干网络提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
利用所述检测头网络预测所述特征图中包含目标的位置和类别。
2.如权利要求1所述的输变电设备红外图像目标识别方法,其特征在于,所述S2-MLPv2模块包括多层感知器MLP_1、空间位移操作层Spatial Shift_1、空间位移操作层SpatialShift_2、分散注意力模块Split Attention和多层感知器MLP_2;
多层感知器MLP_1将输入的特征图进行扩展后分解为三个子图/>,/>,/>
空间位移操作层Spatial Shift_1和空间位移操作层Spatial Shift_2分别对子图和/>进行空间位移操作后再与子图/>重塑为矩阵;
分散注意力模块Split Attention对所述矩阵进行处理后输出至多层感知器MLP_2。
3.如权利要求1所述的输变电设备红外图像目标识别方法,其特征在于,所述S2-MLPv2模块的分类损失为VFL损失,公式表示为:
式中,是VFL损失函数,/>是IoU感知分类评分,/>是目标分数,/>是加权因子,/>是焦点损失指数。
4.如权利要求1所述的输变电设备红外图像目标识别方法,其特征在于,所述骨干网络包括依次连接的卷积层conv_1、第一C2f模块、卷积层conv_2、第二C2f模块、卷积层conv_3、第三C2f模块、卷积层conv_4、第四C2f模块和SPPF模块,卷积层conv_1与第一C2f模块之间设置有第一S2-MLPv2模块,SPPF模块的输出连接有第二S2-MLPv2模块。
5.如权利要求4所述的输变电设备红外图像目标识别方法,其特征在于,所述检测头网络包括上采样层Upsample_1和上采样层Upsample_2,上采样层Upsample_1的输出经拼接层Concat_1与第一C2f-H模块连接,上采样层Upsample_2的输出经拼接层Concat_2与第二C2f-H模块连接;
第二C2f-H模块的输出连接检测器Detect_1和卷积层conv_5,卷积层conv_5的输出和第一C2f-H模块的输出连接拼接层Concat_3,拼接层Concat_3的输出连接第三C2f-H模块,第三C2f-H模块的输出连接卷积层conv_6和检测器Detect_2,卷积层conv_6的输出连接拼接层Concat_4,拼接层Concat_4的输出连接第四C2f-H模块,第四C2f-H模块的输出连接检测器Detect_3;
所述第二S2-MLPv2模块的输出连接上采样层Upsample_1和拼接层Concat_4,所述第三C2f模块的输出连接拼接层Concat_2,所述第四C2f模块的输出连接拼接层Concat_1。
6.如权利要求4所述的输变电设备红外图像目标识别方法,其特征在于,所述第一C2f模块、所述第二C2f模块、所述第三C2f模块及所述第四C2f模块中的Bottleneck块中使用残差连接。
7.如权利要求5所述的输变电设备红外图像目标识别方法,其特征在于,所述检测头网络采用Decoupled-Head头。
8.如权利要求1所述的输变电设备红外图像目标识别方法,其特征在于,所述目标检测模型采用YOLOv8目标检测网络架构,所述目标检测模型在训练过程中采用的损失函数为:
式中,是基于中心点的距离和对角线距离的比值,/>是影响因子,/>是交并比,是可调制的加权因子。
9.一种输变电设备红外图像目标识别系统,其特征在于,所述系统中部署采集模块和预先训练好的目标检测模型,包括:
采集模块,用于采集输变电设备红外图像并输入至所述目标检测模型,所述目标检测模型包括骨干网络和检测头网络,所述骨干网络的头部和尾部分别添加有S2-MLPv2模块,所述骨干网络的输出连接所述检测头网络;
所述骨干网络用于提取所述红外图像的特征图,其中,所述S2-MLPv2模块利用空间转移操作进行各图像块之间的通信;
所述检测头网络用于预测所述特征图中包含目标的位置和类别。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的方法。
CN202310966777.2A 2023-08-03 2023-08-03 输变电设备红外图像目标识别方法及系统 Active CN116681885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310966777.2A CN116681885B (zh) 2023-08-03 2023-08-03 输变电设备红外图像目标识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310966777.2A CN116681885B (zh) 2023-08-03 2023-08-03 输变电设备红外图像目标识别方法及系统

Publications (2)

Publication Number Publication Date
CN116681885A true CN116681885A (zh) 2023-09-01
CN116681885B CN116681885B (zh) 2024-01-02

Family

ID=87784075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310966777.2A Active CN116681885B (zh) 2023-08-03 2023-08-03 输变电设备红外图像目标识别方法及系统

Country Status (1)

Country Link
CN (1) CN116681885B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315473A (zh) * 2023-09-28 2023-12-29 安徽农业大学 一种基于改进YOLOv8的草莓成熟度检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036464A (zh) * 2020-08-26 2020-12-04 国家电网有限公司 一种基于YOLOv3-tiny算法的绝缘子红外图像故障检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN115082672A (zh) * 2022-06-06 2022-09-20 西安电子科技大学 一种基于边界框回归的红外图像目标检测方法
CN115546500A (zh) * 2022-10-31 2022-12-30 西安交通大学 一种红外图像小目标检测方法
CN115578632A (zh) * 2021-11-30 2023-01-06 齐齐哈尔大学 基于膨胀卷积的高光谱图像分类方法
CN115719337A (zh) * 2022-11-11 2023-02-28 无锡学院 一种风力涡轮机表面缺陷检测方法
CN116152342A (zh) * 2023-03-10 2023-05-23 山东大学 一种基于梯度的路牌配准定位方法
CN116152202A (zh) * 2023-02-23 2023-05-23 国网安徽省电力有限公司超高压分公司 基于图像识别技术和红外热成像技术的设备外观检测系统
CN116385773A (zh) * 2023-03-09 2023-07-04 西交利物浦大学 小目标的检测方法、存储介质及电子设备
CN116503399A (zh) * 2023-06-26 2023-07-28 广东电网有限责任公司湛江供电局 基于yolo-afps的绝缘子污闪检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN112036464A (zh) * 2020-08-26 2020-12-04 国家电网有限公司 一种基于YOLOv3-tiny算法的绝缘子红外图像故障检测方法
CN115578632A (zh) * 2021-11-30 2023-01-06 齐齐哈尔大学 基于膨胀卷积的高光谱图像分类方法
CN115082672A (zh) * 2022-06-06 2022-09-20 西安电子科技大学 一种基于边界框回归的红外图像目标检测方法
CN115546500A (zh) * 2022-10-31 2022-12-30 西安交通大学 一种红外图像小目标检测方法
CN115719337A (zh) * 2022-11-11 2023-02-28 无锡学院 一种风力涡轮机表面缺陷检测方法
CN116152202A (zh) * 2023-02-23 2023-05-23 国网安徽省电力有限公司超高压分公司 基于图像识别技术和红外热成像技术的设备外观检测系统
CN116385773A (zh) * 2023-03-09 2023-07-04 西交利物浦大学 小目标的检测方法、存储介质及电子设备
CN116152342A (zh) * 2023-03-10 2023-05-23 山东大学 一种基于梯度的路牌配准定位方法
CN116503399A (zh) * 2023-06-26 2023-07-28 广东电网有限责任公司湛江供电局 基于yolo-afps的绝缘子污闪检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WELLCODER: "加强YOLOv8:S2-MLPv2注意力机制在计算机视觉中的应用", pages 1, Retrieved from the Internet <URL:https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247555272&idx=1&sn=fbf309fd7a1c021e84ec8a4025a93f17&chksm=ebb7201cdcc0a90afff0ffa92d308443db6ccb9f20bf1d99e79b5abb28b5dc4ca4fb19fec3c5&scene=27> *
张绳昱;董士风;焦林;王琦进;王红强;: "基于有效感受野的区域推荐网络", 模式识别与人工智能, no. 05 *
机器学习算法与自然语言处理: "YOLOv8来啦|详细解读YOLOv8的改进模块!YOLOv5官方出品YOLOv8,必卷!", pages 10 - 11, Retrieved from the Internet <URL:https://blog.csdn.net/wellcoder/article/details/131028010> *
韩慧慧;李帷韬;王建平;焦点;孙百顺;: "编码―解码结构的语义分割", 中国图象图形学报, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315473A (zh) * 2023-09-28 2023-12-29 安徽农业大学 一种基于改进YOLOv8的草莓成熟度检测方法及系统

Also Published As

Publication number Publication date
CN116681885B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN111783590A (zh) 一种基于度量学习的多类别小目标检测方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN109285139A (zh) 一种基于深度学习的x射线成像焊缝检测方法
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN116681885B (zh) 输变电设备红外图像目标识别方法及系统
CN116665095B (zh) 一种运动舰船检测方法、系统、存储介质和电子设备
CN112036249A (zh) 端对端行人检测及属性识别的方法、系统、介质及终端
CN111476307A (zh) 一种基于深度领域适应的锂电池表面缺陷检测方法
CN116342894A (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN116680623A (zh) 特高压换流变压器状态监测方法及系统
CN115223009A (zh) 基于改进型YOLOv5的小目标检测方法及装置
Gopal et al. Tiny object detection: Comparative study using single stage CNN object detectors
CN117541534A (zh) 一种基于无人机和CNN-BiLSTM模型的输电线路巡检方法
Wang et al. Summary of object detection based on convolutional neural network
CN116523858A (zh) 基于注意力机制的电力设备漏油检测方法及存储介质
CN115761667A (zh) 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN115100428A (zh) 一种利用上下文感知的目标检测方法
CN114445371A (zh) 基于椭圆交并比的遥感图像目标检测方法及装置
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Min et al. Vehicle detection method based on deep learning and multi-layer feature fusion
Zhou et al. SAR ship detection network based on global context and multi-scale feature enhancement
CN117710755B (zh) 一种基于深度学习的车辆属性识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant