CN116630802A - 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法 - Google Patents

一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法 Download PDF

Info

Publication number
CN116630802A
CN116630802A CN202310589624.0A CN202310589624A CN116630802A CN 116630802 A CN116630802 A CN 116630802A CN 202310589624 A CN202310589624 A CN 202310589624A CN 116630802 A CN116630802 A CN 116630802A
Authority
CN
China
Prior art keywords
power equipment
network
size
feature
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310589624.0A
Other languages
English (en)
Inventor
张洁
李慧
李�瑞
杜健铭
陈红波
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Institutes of Physical Science of CAS filed Critical Hefei Institutes of Physical Science of CAS
Priority to CN202310589624.0A priority Critical patent/CN116630802A/zh
Publication of CN116630802A publication Critical patent/CN116630802A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,与现有技术相比解决了变电站设备缺陷模型特征提取难、识别困难、检测精度低、鲁棒性差的缺陷。本发明包括以下步骤:电力设备缺陷图像样本的获取;构建电力设备缺陷目标检测模型;电力设备缺陷目标检测模型的训练;获取待检测电力设备缺陷图像并进行预处理;电力设备图像缺陷检测。本发明特征提取能力更强,模型训练简单,同时识别精度更优的目标检测方法,实现了电力设备缺陷图像目标的精准检测。

Description

一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像 检测方法
技术领域
本发明涉及电力设备图像识别技术领域,具体来说是一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法。
背景技术
变电站作为电能运输及分配的场所,维护其设备平稳运行对于人类的生产生活而言及其重要。针对变电站长期处于恶劣、复杂的自然环境中,线路上的金具受气候、地形、外力作用等影响出现不同类型缺陷,目前电力设备的防锈图层可能会由于老化而失去保护作用,造成安全隐患,因此对锈蚀设备进行检测维修是至关重要的。使用基于深度学习的目标检测技术识别变电站设备锈蚀缺陷检测,相对于人工巡检方式,具有准确度高、快速安全、应用范围广等优点。
目前,虽然基于深度学习的目标检测技术被广泛应用于电力设备缺陷检测,但是当图像背景复杂且背景大前景小时,面对形状不规则且变化多样的锈蚀目标时会出现误检漏检以及检测准确率低等问题。通用目标检测算法对相似目标、形状不规则目标的分辨能力较弱,难以区分不同类别的目标。
因此,如何使得网络对锈蚀缺陷目标具有更强区分能力进一步提高模型的检测准确性成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中变电站设备缺陷模型特征提取难、识别困难、检测精度低、鲁棒性差的缺陷,提供一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,包括以下步骤:
电力设备缺陷图像样本的获取:获取不同场景不同类别的电力设备缺陷图像并进行预处理,形成电力设备缺陷图像数据集;
构建电力设备缺陷目标检测模型:基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型;
电力设备缺陷目标检测模型的训练:利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练;
获取待检测电力设备缺陷图像并进行预处理;
电力设备图像缺陷检测:将待检测的电力设备缺陷图像输入训练后的电力设备缺陷目标检测模型,得到电力设备缺陷图像中的目标分类和定位结果,检测出锈蚀区域。
所述构建电力设备缺陷目标检测模型包括以下步骤:
设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络;
设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建,
其中,Swin-Transformer由Patch Partition层、Linear Embedding层、SwinTransformer Block层和Patch Merging层构成,尺寸自适应卷积由卷积神经网络构成,在SwinT的3、4阶段插入尺寸自适应卷积模块进一步完成对不同尺度和形状物体的特征提取;其输入为增强的电力设备缺陷图像、输出为该电力设备缺陷图像的整体特征图;
Patch Partition层的输入为一个给定大小为H×W的图像,Patch Partition层进行分块降维操作、Linear Embedding层进行线性变换、Patch Merging层用于下采样;
尺寸自适应卷积模块首先使用普通卷积层学习offset偏移和调节权重参数,增强卷积对于缺陷形态特征的适应性,再将特征图和偏移值调节权重后输出,最后将四个阶段生成的不同尺度特征图输入到特征融合网络中;
设定特征融合网络:
设定特征融合网络基于FPN网络构建,其输入为特征提取网络输出的整体特征图,通过对输入的缺陷图像进行整体特征的融合,将高层特征进行上采样后与低层的高分辨率特征进行横向连接融合得到预测特征图,以便将高层语义中消失但在低层特征图中仍存在的小物体检测出来,输出为经过特征融合后的融合特征图;
设定检测头部网络:
设定检测头部网络基于TOOD网络构建,其输入为特征融合网络输出的融合特征图,通过对任务的分类与定位,确定是否为检测目标,并通过边界框回归算法确定被测目标边界坐标。
所述电力设备缺陷目标检测模型的训练包括以下步骤:
特征提取网络的训练:将电力设备缺陷图像数据集输入特征提取网络,利用特征提取网络训练电力设备缺陷图像的整体特征图;
特征融合网络的训练:将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中,得到F1、F2、F3、F4特征图,其宽高分别为原图的1/4、1/8、1/16、1/32,维度为d;
在自上而下的过程中,通过尺度变化使得新的特征图和下层特征图保持一致的尺度;
在长、宽方向上采用上采样的方法将下层特征图的宽、高拉成一样大小;在深度方向上通过一个1×1的卷积把上层特征图的深度压缩到和下层特征图的深度相同,以此构建的新的特征图和原始的下层特征图具有了同样的尺度;再把新的特征图和原始的下层特征图中每个对应元素相加,实现上层特征和下层特征的融合;
检测头部网络的训练:
检测头部网络首先将融合后的特征图作为输入,使用N个连续的具有激活函数的conv层来计算任务交互特征Fk inter
其中,Ffpn为融合网络输出的特征图,convk和δ分别表示第k个卷积层和relu激活函数;
得到任务交互特征后输入到TAP模块中,再将特征拉平通过全连接层和sigmoid激活函数后得到每个任务交互特征的权重,进行相乘操作得到分类或者定位任务的特征
其中,ωk为层注意力的第k个元素,它是从任务交互特征中计算出来的,能够捕获层之间的依赖关系:
其中,和/>为全连接层,σ为sigmoid激活函数,对Finter采用平均池化操作得到finter
最后得到分类或者定位的结果Ztask
Ztask=conv2(δ(conv1(Ftask))) (4)
其中,Ftask的连接特征,conv1为一个1×1卷积进行降维操作,接着使用sigmoid激活函数将Ztask转化为密集分类分数/>或者对象边界框
所述特征提取网络的训练包括以下步骤:
通过Patch Partition层进行分块降维操作,将输入的变电站设备图像分成一个个patch,输入的图像大小为H×W×C,其中,H、W分别表示为图像得高、宽,C为图像的通道数,每个patch的大小(P,P)=HW/N,将划分好的patch由Linear Embedding层进行线性投影,输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F1
将上述大小为特征图F1输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/> 特征图F2
上述大小为特征图F2输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F3
尺寸自适应卷积模块的训练:
将特征图F3输入尺寸自适应卷积模块,首先经过普通卷积,卷积填充为same,即输入输出尺寸不变,对应的特征输出大小为偏移量记作offset,表示原始特征图中每个像素索引的偏移量;
其中,采样位置集合G通过ΔLn,ΔLn=1,2,...,N,实现采样位置偏移以此来增大感受野的范围,N为网格中的像素个数,2C3表示具有x和y两个方向上的偏移,1C3通道表示调节权重值Δm,经过Sigmoid函数后范围在0到1之间;
将输入特征图F3中的像素的索引值与offset相加,得到偏移后的position,即各像素在F3中的坐标值,将position的值限定在图片尺寸范围内;
l0为输出特征图上的任意位置:
Δln=1,2,...,N
其中,ln分别表示为第n个位置预先指定的偏移量;ω(ln)是采样位置的权重信息;G={(-1,-1),(-1,0),...,(1,0),(1,1)}为采样位置集合;Δln为第n个位置可学习的偏移量;Δmn为调节权重参数;x(l0+ln+Δln)和y(l0)分别表示从输入特征映射x和输出特征映射y中得到的任意位置l0处的特征;
由于采样点是在不规则的偏移后ln+Δln上进行的,而偏移量Δln是浮点数,无法获得准确像素值,为了得到准确像素值并且进行反向传播,采取双线性插值的方式来获取坐标对应的像素;
取一个坐标(a,b),将其转换为floor(a)、ceil(a)、floor(b)和ceil(b)四个整数,其中floor()和ceil()操作是将a、b进行向下或向上取整,得到(floor(a),(floor(b))、(floor(a),ceil(b))、(ceil(a),floor(b))和(ceil(a),ceil(b))四个坐标;
这四个坐标每个都对应F3中的一个像素值,通过双线性插值的方式来计算得到任意位置的像素值x(l):
其中,l=l0+ln+Δln表示偏移后的任意位置;m为特征图中整体空间位置坐标的枚举;x(m)是特征图F3周围邻近的四个整数坐标的像素值;H()为四个整数坐标对应的权重,且它是二维的,由两个一维内核组成:
H(m,l)=g(mx,lx)·g(my,ly) (7)
其中,(mx,lx)、(my,ly)分别为x、y偏移方向上的坐标值;
g(a,b)=max(0,1-|a-b|)限制了插值点与邻近四个整数坐标不会超过1个像素的距离,a、b为坐标值;
得到position的所有像素后,通过Δm调节权重值参数,最后得到大小为新的特征图F'3输入到下一阶段;
将上述大小为的特征图F'3输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F4,由尺寸自适应卷积模块学习图像的高级语义信息,使得采样位置更符合物体本身的形状和尺寸,而非固定的几何结构采样,更有利于缺陷特征的提取;
其中,核心模块Swin Transformer Block中包含了用于移位窗口的多头注意力,多头注意力中每个头的注意力计算如下:
其中,Q、K、V分别为查询、键、值矩阵,KT为K的转置矩阵;d为向量维度,B为偏置矩阵,SoftMax为多分类激活函数;
45)采用Swin-Transformer骨干网络的stage1、stage2、stage3、stage4层表示整体特征图中每个尺度的特征,对电力设备缺陷检测图像进行数据增强处理,通过添加高斯、椒盐噪声以及调节图像明亮度方法,将增强后的数据作为特征提取网络的输入,提取整体特征图输入到下一阶段特征融合网络中。
所述电力设备缺陷目标检测模型的训练还包括显式对齐操作,显式对齐操作用于得到更优的分类性能和定位精度;所述的显式对齐操作包括以下步骤:
采用空间概率图N得到对齐分类任务Qalign
其中,密集分类分数是从交互特征中计算出来的,用来学习空间位置的一致性程度;采用空间偏差得到定位任务预测Balign,通过双线性插值进行实现:
Balign(i,j,c)=B(i+P(i,j,2×c),j+P(i,j,2×c+1),c) (10)
其中,对象边界框为空间偏差图,从交互特征中计算出来用于调整每个位置的预测边界框;(i,j,c)表示张量中第c个通道上的第(i,j)个空间位置,由于每个通道的偏移都是独立学习得到的,这意味着每个对象的边界拥有自己的偏移量;
对齐映射N和P从交互特征堆栈中进行自动学习:
N=σ(conv2(δ(conv1(Finter)))) (11)
P=conv4(δ(conv3(Finter))) (12)
conv1、conv3为1×1的卷积进行降维操作;Finter为任务交互特征;δ表示relu激活函数;σ为sigmoid激活函数;
采用分类损失函数QualityFocalLoss,调整网络中的参数,最后输出变电站设备图像中准确的缺陷目标,其损失QFL(σ)公式如下:
QFL(σ)=-ai*|x-σ|β*[(1-x)log(1-σ)+xlog(σ)] (13)
其中,ai为平衡正负样本,σ为预测值,x为连续标签,β为比例因子用来控制权重衰减速度;
采用CIOU loss作为回归损失函数,其损失LossCIOU如下:
其中,d表示包围预测框与真实框的最小外接矩形,c,cgt分别表示预测框与真实框的中心点,ρ表示是两个中心点之间的欧式距离,β和w为长宽比。
有益效果
本发明的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,与现有技术相比特征提取能力更强,模型训练简单,同时识别精度更优的目标检测方法,实现了电力设备缺陷图像目标的精准检测。
本发明通过图像增强技术并构建基于Swin-Transformer与尺寸自适应卷积的特征提取网络,使得网络对特征的提取更加符合物体本身的形状和尺寸,而非固定的几何结构采样更有利于对缺陷特征的提取;通过融合不同层次特征构建特征融合网络,增加了对小目标的检测准确率;通过TOOD检测头获取分类性能和定位精度都更好的目标。
附图说明
图1为本发明的方法顺序图;
图2为本发明所述电力设备缺陷目标检测模型结构图;
图3利用本发明所述方法的锈蚀检测效果图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,包括以下步骤:
第一步,电力设备缺陷图像样本的获取:获取不同场景不同类别的电力设备缺陷图像并进行预处理,形成电力设备缺陷图像数据集。
第二步,构建电力设备缺陷目标检测模型:基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型。
针对电力设备表面锈蚀缺陷较小、形状多变且背景复杂不易识别的问题,原始SwinT对于形状多变的锈蚀目标建模效果不佳,无法达到很好的自适应缺陷的形状特征,由于固定的矩形结构只对特征图上固定位置进行采样,但是电力设备所处环境复杂,锈蚀缺陷形状各异,针对不同位置不同尺度和形状的缺陷目标,增加尺寸自适应卷积对不同尺度或者感受野的自适应学习是准确检测锈蚀缺陷目标所需要的。由于在SwinT的三四阶段输出的特征图尺寸小,拥有的感受野大,语义信息多,在此阶段添加尺寸自适应卷积更有利于学习物体整体的形状类别,同时小尺寸的特征输入在计算偏移量时相对较快。
其具体步骤如下:
(1)如图2所示,设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络。
(2)设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建,
其中,Swin-Transformer由Patch Partition层、Linear Embedding层、SwinTransformer Block层和Patch Merging层构成,尺寸自适应卷积由卷积神经网络构成,在SwinT的3、4阶段插入尺寸自适应卷积模块进一步完成对不同尺度和形状物体的特征提取;其输入为增强的电力设备缺陷图像、输出为该电力设备缺陷图像的整体特征图;
Patch Partition层的输入为一个给定大小为H×W的图像,Patch Partition层进行分块降维操作、Linear Embedding层进行线性变换、Patch Merging层用于下采样;
尺寸自适应卷积模块首先使用普通卷积层学习offset偏移和调节权重参数,增强卷积对于缺陷形态特征的适应性,再将特征图和偏移值调节权重后输出,最后将四个阶段生成的不同尺度特征图输入到特征融合网络中。
(3)设定特征融合网络:
设定特征融合网络基于FPN网络构建,其输入为特征提取网络输出的整体特征图,通过对输入的缺陷图像进行整体特征的融合,将高层特征进行上采样后与低层的高分辨率特征进行横向连接融合得到预测特征图,以便将高层语义中消失但在低层特征图中仍存在的小物体检测出来,输出为经过特征融合后的融合特征图。
(4)设定检测头部网络:
设定检测头部网络基于TOOD网络构建,其输入为特征融合网络输出的融合特征图,通过对任务的分类与定位,确定是否为检测目标,并通过边界框回归算法确定被测目标边界坐标。
第三步,电力设备缺陷目标检测模型的训练:利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练。在mmdetection框架下,采用多尺度(Multi ScaleTraining,MST)训练的方式,使用线性增加的Warmup策略。
(1)特征提取网络的训练:将电力设备缺陷图像数据集输入特征提取网络,利用特征提取网络训练电力设备缺陷图像的整体特征图。
所述特征提取网络的训练包括以下步骤:
A1)通过Patch Partition层进行分块降维操作,将输入的变电站设备图像分成一个个patch,输入的图像大小为H×W×C,其中,H、W分别表示为图像得高、宽,C为图像的通道数,每个patch的大小(P,P)=HW/N,将划分好的patch由Linear Embedding层进行线性投影,输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F1
A2)将上述大小为特征图F1输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F2
A3)上述大小为特征图F2输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F3
A4)尺寸自适应卷积模块的训练:
A41)将特征图F3输入尺寸自适应卷积模块,首先经过普通卷积,卷积填充为same,即输入输出尺寸不变,对应的特征输出大小为偏移量记作offset,表示原始特征图中每个像素索引的偏移量;
其中,采样位置集合G通过ΔLn(ΔLn=1,2,...,N)实现采样位置偏移以此来增大感受野的范围,N为网格中的像素个数,2C3表示具有x和y两个方向上的偏移,1C3通道表示调节权重值Δm,经过Sigmoid函数后范围在0到1之间;
A42)将输入特征图F3中的像素的索引值与offset相加,得到偏移后的position,即各像素在F3中的坐标值,将position的值限定在图片尺寸范围内;
l0为输出特征图上的任意位置:
Δln=1,2,...,N
其中,ln分别表示为第n个位置预先指定的偏移量;ω(ln)是采样位置的权重信息;G={(-1,-1),(-1,0),...,(1,0),(1,1)}为采样位置集合;Δln为第n个位置可学习的偏移量;Δmn为调节权重参数;x(l0+ln+Δln)和y(l0)分别表示从输入特征映射x和输出特征映射y中得到的任意位置l0处的特征;
A43)由于采样点是在不规则的偏移后ln+Δln上进行的,而偏移量Δln是浮点数,无法获得准确像素值,为了得到准确像素值并且进行反向传播,采取双线性插值的方式来获取坐标对应的像素;
取一个坐标(a,b),将其转换为floor(a)、ceil(a)、floor(b)和ceil(b)四个整数,其中floor()和ceil()操作是将a、b进行向下或向上取整,得到(floor(a),(floor(b))、(floor(a),ceil(b))、(ceil(a),floor(b))和(ceil(a),ceil(b))四个坐标;
这四个坐标每个都对应F3中的一个像素值,通过双线性插值的方式来计算得到任意位置的像素值x(l):
其中,l=l0+ln+Δln表示偏移后的任意位置;m为特征图中整体空间位置坐标的枚举;x(m)是特征图F3周围邻近的四个整数坐标的像素值;H()为四个整数坐标对应的权重,且它是二维的,由两个一维内核组成:
H(m,l)=g(mx,lx)·g(my,ly) (7)
其中,(mx,lx)、(my,ly)分别为x、y偏移方向上的坐标值;
g(a,b)=max(0,1-|a-b|)限制了插值点与邻近四个整数坐标不会超过1个像素的距离,a、b为坐标值;
得到position的所有像素后,通过Δm调节权重值参数,最后得到大小为新的特征图F'3输入到下一阶段;
A44)将上述大小为的特征图F'3输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F4,由尺寸自适应卷积模块学习图像的高级语义信息,使得采样位置更符合物体本身的形状和尺寸,而非固定的几何结构采样,更有利于缺陷特征的提取;
其中,核心模块Swin Transformer Block中包含了用于移位窗口的多头注意力,多头注意力中每个头的注意力计算如下:
其中,Q、K、V分别为查询、键、值矩阵,KT为K的转置矩阵;d为向量维度,B为偏置矩阵,SoftMax为多分类激活函数;
A5)采用Swin-Transformer骨干网络的stage1、stage2、stage3、stage4层表示整体特征图中每个尺度的特征,对电力设备缺陷检测图像进行数据增强处理,通过添加高斯、椒盐噪声以及调节图像明亮度方法,将增强后的数据作为特征提取网络的输入,提取整体特征图输入到下一阶段特征融合网络中。
(2)特征融合网络的训练:将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中,得到F1、F2、F3、F4特征图,其宽高分别为原图的1/4、1/8、1/16、1/32,维度为d;
在自上而下的过程中,通过尺度变化使得新的特征图和下层特征图保持一致的尺度;
在长、宽方向上采用上采样的方法将下层特征图的宽、高拉成一样大小;在深度方向上通过一个1×1的卷积把上层特征图的深度压缩到和下层特征图的深度相同,以此构建的新的特征图和原始的下层特征图具有了同样的尺度;再把新的特征图和原始的下层特征图中每个对应元素相加,实现上层特征和下层特征的融合。
(3)检测头部网络的训练:
检测头部网络首先将融合后的特征图作为输入,使用N个连续的具有激活函数的conv层来计算任务交互特征Fk inter
其中,Ffpn为融合网络输出的特征图,convk和δ分别表示第k个卷积层和relu激活函数;
得到任务交互特征后输入到TAP模块中,再将特征拉平通过全连接层和sigmoid激活函数后得到每个任务交互特征的权重,进行相乘操作得到分类或者定位任务的特征
其中,ωk为层注意力的第k个元素,它是从任务交互特征中计算出来的,能够捕获层之间的依赖关系:
其中,和/>为全连接层,σ为sigmoid激活函数,对Finter采用平均池化操作得到finter
最后得到分类或者定位的结果Ztask
Ztask=conv2(δ(conv1(Ftask))) (4)
其中,Ftask的连接特征,conv1为一个1×1卷积进行降维操作,接着使用sigmoid激活函数将Ztask转化为密集分类分数/>或者对象边界框
为了获得更精确的结果,
所述电力设备缺陷目标检测模型的训练还包括显式对齐操作,显式对齐操作用于得到更优的分类性能和定位精度;所述的显式对齐操作包括以下步骤:
(1)采用空间概率图N得到对齐分类任务Qalign
其中,密集分类分数是从交互特征中计算出来的,用来学习空间位置的一致性程度;采用空间偏差得到定位任务预测Balign,通过双线性插值进行实现:
Balign(i,j,c)=B(i+P(i,j,2×c),j+P(i,j,2×c+1),c) (10)
其中,对象边界框为空间偏差图,从交互特征中计算出来用于调整每个位置的预测边界框;(i,j,c)表示张量中第c个通道上的第(i,j)个空间位置,由于每个通道的偏移都是独立学习得到的,这意味着每个对象的边界拥有自己的偏移量。
(2)对齐映射N和P从交互特征堆栈中进行自动学习:
N=σ(conv2(δ(conv1(Finter)))) (11)
P=conv4(δ(conv3(Finter))) (12)
conv1、conv3为1×1的卷积进行降维操作;Finter为任务交互特征;δ表示relu激活函数;σ为sigmoid激活函数;
采用分类损失函数QualityFocalLoss,调整网络中的参数,最后输出变电站设备图像中准确的缺陷目标,其损失QFL(σ)公式如下:
QFL(σ)=-ai*|x-σ|β*[(1-x)log(1-σ)+xlog(σ)] (13)
其中,ai为平衡正负样本,σ为预测值,x为连续标签,β为比例因子用来控制权重衰减速度;
采用CIOUloss作为回归损失函数,其损失LossCIOU如下:
其中,d表示包围预测框与真实框的最小外接矩形,c,cgt分别表示预测框与真实框的中心点,ρ表示是两个中心点之间的欧式距离,β和w为长宽比。
从图3中可以看出,利用本发明所述方法,能准确的检测出锈蚀区域。从表1中可以看出,本发明所述方法相对于原始SwinT以及其他检测方法有明显AP值增益。
表1检测算法的AP值对比表
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,其特征在于,包括以下步骤:
11)电力设备缺陷图像样本的获取:获取不同场景不同类别的电力设备缺陷图像并进行预处理,形成电力设备缺陷图像数据集;
12)构建电力设备缺陷目标检测模型:基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型;
13)电力设备缺陷目标检测模型的训练:利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练;
14)获取待检测电力设备缺陷图像并进行预处理;
15)电力设备图像缺陷检测:将待检测的电力设备缺陷图像输入训练后的电力设备缺陷目标检测模型,得到电力设备缺陷图像中的目标分类和定位结果,检测出锈蚀区域。
2.根据权利要求1所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,其特征在于,所述构建电力设备缺陷目标检测模型包括以下步骤:
21)设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络;
22)设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建,
其中,Swin-Transformer由Patch Partition层、Linear Embedding层、SwinTransformer Block层和PatchMerging层构成,尺寸自适应卷积由卷积神经网络构成,在SwinT的3、4阶段插入尺寸自适应卷积模块进一步完成对不同尺度和形状物体的特征提取;其输入为增强的电力设备缺陷图像、输出为该电力设备缺陷图像的整体特征图;
Patch Partition层的输入为一个给定大小为H×W的图像,Patch Partition层进行分块降维操作、Linear Embedding层进行线性变换、Patch Merging层用于下采样;
尺寸自适应卷积模块首先使用普通卷积层学习offset偏移和调节权重参数,增强卷积对于缺陷形态特征的适应性,再将特征图和偏移值调节权重后输出,最后将四个阶段生成的不同尺度特征图输入到特征融合网络中;
23)设定特征融合网络:
设定特征融合网络基于FPN网络构建,其输入为特征提取网络输出的整体特征图,通过对输入的缺陷图像进行整体特征的融合,将高层特征进行上采样后与低层的高分辨率特征进行横向连接融合得到预测特征图,以便将高层语义中消失但在低层特征图中仍存在的小物体检测出来,输出为经过特征融合后的融合特征图;
24)设定检测头部网络:
设定检测头部网络基于TOOD网络构建,其输入为特征融合网络输出的融合特征图,通过对任务的分类与定位,确定是否为检测目标,并通过边界框回归算法确定被测目标边界坐标。
3.根据权利要求1所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,其特征在于,所述电力设备缺陷目标检测模型的训练包括以下步骤:
31)特征提取网络的训练:将电力设备缺陷图像数据集输入特征提取网络,利用特征提取网络训练电力设备缺陷图像的整体特征图;
32)特征融合网络的训练:将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中,得到F1、F2、F3、F4特征图,其宽高分别为原图的1/4、1/8、1/16、1/32,维度为d;
在自上而下的过程中,通过尺度变化使得新的特征图和下层特征图保持一致的尺度;
在长、宽方向上采用上采样的方法将下层特征图的宽、高拉成一样大小;在深度方向上通过一个1×1的卷积把上层特征图的深度压缩到和下层特征图的深度相同,以此构建的新的特征图和原始的下层特征图具有了同样的尺度;再把新的特征图和原始的下层特征图中每个对应元素相加,实现上层特征和下层特征的融合;
33)检测头部网络的训练:
检测头部网络首先将融合后的特征图作为输入,使用N个连续的具有激活函数的conv层来计算任务交互特征Fk inter
其中,Ffpn为融合网络输出的特征图,convk和δ分别表示第k个卷积层和relu激活函数;
得到任务交互特征后输入到TAP模块中,再将特征拉平通过全连接层和sigmoid激活函数后得到每个任务交互特征的权重,进行相乘操作得到分类或者定位任务的特征
其中,ωk为层注意力的第k个元素,它是从任务交互特征中计算出来的,能够捕获层之间的依赖关系:
其中,和/>为全连接层,σ为sigmoid激活函数,对Finter采用平均池化操作得到finter
最后得到分类或者定位的结果Ztask
其中,Ftask的连接特征,conv1为一个1×1卷积进行降维操作,接着使用sigmoid激活函数将Ztask转化为密集分类分数/>或者对象边界框/>
4.根据权利要求3所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,其特征在于,所述特征提取网络的训练包括以下步骤:
41)通过Patch Partition层进行分块降维操作,将输入的变电站设备图像分成一个个patch,输入的图像大小为H×W×C,其中,H、W分别表示为图像得高、宽,C为图像的通道数,每个patch的大小(P,P)=HW/N,将划分好的patch由Linear Embedding层进行线性投影,输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F1
42)将上述大小为特征图F1输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F2
43)上述大小为特征图F2输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F3
44)尺寸自适应卷积模块的训练:
441)将特征图F3输入尺寸自适应卷积模块,首先经过普通卷积,卷积填充为same,即输入输出尺寸不变,对应的特征输出大小为偏移量记作offset,表示原始特征图中每个像素索引的偏移量;
其中,采样位置集合G通过ΔLn,ΔLn=1,2,...,N,实现采样位置偏移以此来增大感受野的范围,N为网格中的像素个数,2C3表示具有x和y两个方向上的偏移,1C3通道表示调节权重值Δm,经过Sigmoid函数后范围在0到1之间;
442)将输入特征图F3中的像素的索引值与offset相加,得到偏移后的position,即各像素在F3中的坐标值,将position的值限定在图片尺寸范围内;
l0为输出特征图上的任意位置:
Δln=1,2,...,N
其中,ln分别表示为第n个位置预先指定的偏移量;ω(ln)是采样位置的权重信息;G={(-1,-1),(-1,0),...,(1,0),(1,1)}为采样位置集合;Δln为第n个位置可学习的偏移量;Δmn为调节权重参数;x(l0+ln+Δln)和y(l0)分别表示从输入特征映射x和输出特征映射y中得到的任意位置l0处的特征;
443)由于采样点是在不规则的偏移后ln+Δln上进行的,而偏移量Δln是浮点数,无法获得准确像素值,为了得到准确像素值并且进行反向传播,采取双线性插值的方式来获取坐标对应的像素;
取一个坐标(a,b),将其转换为floor(a)、ceil(a)、floor(b)和ceil(b)四个整数,其中floor()和ceil()操作是将a、b进行向下或向上取整,得到(floor(a),(floor(b))、(floor(a),ceil(b))、(ceil(a),floor(b))和(ceil(a),ceil(b))四个坐标;
这四个坐标每个都对应F3中的一个像素值,通过双线性插值的方式来计算得到任意位置的像素值x(l):
其中,l=l0+ln+Δln表示偏移后的任意位置;m为特征图中整体空间位置坐标的枚举;x(m)是特征图F3周围邻近的四个整数坐标的像素值;H()为四个整数坐标对应的权重,且它是二维的,由两个一维内核组成:
H(m,l)=g(mx,lx)·g(my,ly) (7)
其中,(mx,lx)、(my,ly)分别为x、y偏移方向上的坐标值;g(a,b)=max(0,1-|a-b|)限制了插值点与邻近四个整数坐标不会超过1个像素的距离,a、b为坐标值;
得到position的所有像素后,通过Δm调节权重值参数,最后得到大小为 新的特征图F'3输入到下一阶段;
444)将上述大小为的特征图F'3输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F4,由尺寸自适应卷积模块学习图像的高级语义信息,使得采样位置更符合物体本身的形状和尺寸,而非固定的几何结构采样,更有利于缺陷特征的提取;
其中,核心模块Swin Transformer Block中包含了用于移位窗口的多头注意力,多头注意力中每个头的注意力计算如下:
其中,Q、K、V分别为查询、键、值矩阵,KT为K的转置矩阵;d为向量维度,B为偏置矩阵,SoftMax为多分类激活函数;
45)采用Swin-Transformer骨干网络的stage1、stage2、stage3、stage4层表示整体特征图中每个尺度的特征,对电力设备缺陷检测图像进行数据增强处理,通过添加高斯、椒盐噪声以及调节图像明亮度方法,将增强后的数据作为特征提取网络的输入,提取整体特征图输入到下一阶段特征融合网络中。
5.根据权利要求3所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法,其特征在于,所述电力设备缺陷目标检测模型的训练还包括显式对齐操作,显式对齐操作用于得到更优的分类性能和定位精度;所述的显式对齐操作包括以下步骤:
51)采用空间概率图N得到对齐分类任务Qalign
其中,密集分类分数是从交互特征中计算出来的,用来学习空间位置的一致性程度;采用空间偏差得到定位任务预测Balign,通过双线性插值进行实现:
Balign(i,j,c)=B(i+P(i,j,2×c),j+P(i,j,2×c+1),c) (10)
其中,对象边界框为空间偏差图,从交互特征中计算出来用于调整每个位置的预测边界框;(i,j,c)表示张量中第c个通道上的第(i,j)个空间位置,由于每个通道的偏移都是独立学习得到的,这意味着每个对象的边界拥有自己的偏移量;
52)对齐映射N和P从交互特征堆栈中进行自动学习:
N=σ(conv2(δ(conv1(Finter)))) (11)
P=conv4(δ(conv3(Finter))) (12)
conv1、conv3为1×1的卷积进行降维操作;Finter为任务交互特征;δ表示relu激活函数;σ为sigmoid激活函数;
采用分类损失函数QualityFocalLoss,调整网络中的参数,最后输出变电站设备图像中准确的缺陷目标,其损失QFL(σ)公式如下:
QFL(σ)=-ai*|x-σ|β*[(1-x)log(1-σ)+xlog(σ)] (13)
其中,ai为平衡正负样本,σ为预测值,x为连续标签,β为比例因子用来控制权重衰减速度;
采用CIOU loss作为回归损失函数,其损失LossCIOU如下:
其中,d表示包围预测框与真实框的最小外接矩形,c,cgt分别表示预测框与真实框的中心点,ρ表示是两个中心点之间的欧式距离,β和w为长宽比。
CN202310589624.0A 2023-05-24 2023-05-24 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法 Pending CN116630802A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310589624.0A CN116630802A (zh) 2023-05-24 2023-05-24 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310589624.0A CN116630802A (zh) 2023-05-24 2023-05-24 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法

Publications (1)

Publication Number Publication Date
CN116630802A true CN116630802A (zh) 2023-08-22

Family

ID=87637652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310589624.0A Pending CN116630802A (zh) 2023-05-24 2023-05-24 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法

Country Status (1)

Country Link
CN (1) CN116630802A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法
CN117542023A (zh) * 2024-01-04 2024-02-09 广汽埃安新能源汽车股份有限公司 交通标志检测方法、装置、电子设备和存储介质
CN117541554A (zh) * 2023-11-15 2024-02-09 江西理工大学 一种基于深度学习的表面缺陷检测方法
CN117541922A (zh) * 2023-11-09 2024-02-09 国网宁夏电力有限公司建设分公司 基于SF-YOLOv5的电站屋面工程缺陷检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法
CN117094999B (zh) * 2023-10-19 2023-12-22 南京航空航天大学 一种跨尺度缺陷检测方法
CN117541922A (zh) * 2023-11-09 2024-02-09 国网宁夏电力有限公司建设分公司 基于SF-YOLOv5的电站屋面工程缺陷检测方法
CN117541554A (zh) * 2023-11-15 2024-02-09 江西理工大学 一种基于深度学习的表面缺陷检测方法
CN117542023A (zh) * 2024-01-04 2024-02-09 广汽埃安新能源汽车股份有限公司 交通标志检测方法、装置、电子设备和存储介质
CN117542023B (zh) * 2024-01-04 2024-04-19 广汽埃安新能源汽车股份有限公司 交通标志检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN116630802A (zh) 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
CN108596055B (zh) 一种复杂背景下高分辨遥感图像的机场目标检测方法
Deschaud et al. A fast and accurate plane detection algorithm for large noisy point clouds using filtered normals and voxel growing
CN106557740B (zh) 一种遥感图像中油库目标的识别方法
CN108829711B (zh) 一种基于多特征融合的图像检索方法
CN110675421B (zh) 基于少量标注框的深度图像协同分割方法
CN112784757B (zh) 海上sar舰船目标显著性检测与识别方法
CN113487600B (zh) 一种特征增强尺度自适应感知船舶检测方法
CN113610778A (zh) 一种基于语义分割的桥梁表面裂纹检测方法与系统
CN110223310A (zh) 一种基于深度学习的线结构光中心线和箱体边缘检测方法
CN115984850A (zh) 基于改进Deeplabv3+的轻量级遥感影像语义分割方法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN107529647B (zh) 一种基于多层无监督稀疏学习网络的云图云量计算方法
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
CN114926826A (zh) 场景文本检测系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113344148A (zh) 一种基于深度学习的海上舰船目标识别方法
CN113628180A (zh) 一种基于语义分割网络的遥感建筑物检测方法及系统
CN103065296B (zh) 一种基于边缘特征的高分辨率遥感影像居民区提取方法
CN116310837A (zh) 一种sar舰船目标旋转检测方法及系统
CN115620287A (zh) 一种基于面片上下文特征的室内点云场景语义分割方法
CN115223033A (zh) 一种合成孔径声呐图像目标分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination