CN116630802A

CN116630802A - 一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法

Info

Publication number: CN116630802A
Application number: CN202310589624.0A
Authority: CN
Inventors: 张洁; 李慧; 李�瑞; 杜健铭; 陈红波; 张辉
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-22

Abstract

本发明涉及一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，与现有技术相比解决了变电站设备缺陷模型特征提取难、识别困难、检测精度低、鲁棒性差的缺陷。本发明包括以下步骤：电力设备缺陷图像样本的获取；构建电力设备缺陷目标检测模型；电力设备缺陷目标检测模型的训练；获取待检测电力设备缺陷图像并进行预处理；电力设备图像缺陷检测。本发明特征提取能力更强，模型训练简单，同时识别精度更优的目标检测方法，实现了电力设备缺陷图像目标的精准检测。

Description

一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法

技术领域

本发明涉及电力设备图像识别技术领域，具体来说是一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法。

背景技术

变电站作为电能运输及分配的场所，维护其设备平稳运行对于人类的生产生活而言及其重要。针对变电站长期处于恶劣、复杂的自然环境中，线路上的金具受气候、地形、外力作用等影响出现不同类型缺陷，目前电力设备的防锈图层可能会由于老化而失去保护作用，造成安全隐患，因此对锈蚀设备进行检测维修是至关重要的。使用基于深度学习的目标检测技术识别变电站设备锈蚀缺陷检测，相对于人工巡检方式，具有准确度高、快速安全、应用范围广等优点。

目前，虽然基于深度学习的目标检测技术被广泛应用于电力设备缺陷检测，但是当图像背景复杂且背景大前景小时，面对形状不规则且变化多样的锈蚀目标时会出现误检漏检以及检测准确率低等问题。通用目标检测算法对相似目标、形状不规则目标的分辨能力较弱，难以区分不同类别的目标。

因此，如何使得网络对锈蚀缺陷目标具有更强区分能力进一步提高模型的检测准确性成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中变电站设备缺陷模型特征提取难、识别困难、检测精度低、鲁棒性差的缺陷，提供一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，包括以下步骤：

电力设备缺陷图像样本的获取：获取不同场景不同类别的电力设备缺陷图像并进行预处理，形成电力设备缺陷图像数据集；

构建电力设备缺陷目标检测模型：基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型；

电力设备缺陷目标检测模型的训练：利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练；

获取待检测电力设备缺陷图像并进行预处理；

电力设备图像缺陷检测：将待检测的电力设备缺陷图像输入训练后的电力设备缺陷目标检测模型，得到电力设备缺陷图像中的目标分类和定位结果，检测出锈蚀区域。

所述构建电力设备缺陷目标检测模型包括以下步骤：

设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络；

设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建，

其中，Swin-Transformer由Patch Partition层、Linear Embedding层、SwinTransformer Block层和Patch Merging层构成，尺寸自适应卷积由卷积神经网络构成，在SwinT的3、4阶段插入尺寸自适应卷积模块进一步完成对不同尺度和形状物体的特征提取；其输入为增强的电力设备缺陷图像、输出为该电力设备缺陷图像的整体特征图；

Patch Partition层的输入为一个给定大小为H×W的图像，Patch Partition层进行分块降维操作、Linear Embedding层进行线性变换、Patch Merging层用于下采样；

尺寸自适应卷积模块首先使用普通卷积层学习offset偏移和调节权重参数，增强卷积对于缺陷形态特征的适应性，再将特征图和偏移值调节权重后输出，最后将四个阶段生成的不同尺度特征图输入到特征融合网络中；

设定特征融合网络：

设定特征融合网络基于FPN网络构建，其输入为特征提取网络输出的整体特征图，通过对输入的缺陷图像进行整体特征的融合，将高层特征进行上采样后与低层的高分辨率特征进行横向连接融合得到预测特征图，以便将高层语义中消失但在低层特征图中仍存在的小物体检测出来，输出为经过特征融合后的融合特征图；

设定检测头部网络：

设定检测头部网络基于TOOD网络构建，其输入为特征融合网络输出的融合特征图，通过对任务的分类与定位，确定是否为检测目标，并通过边界框回归算法确定被测目标边界坐标。

所述电力设备缺陷目标检测模型的训练包括以下步骤：

特征提取网络的训练：将电力设备缺陷图像数据集输入特征提取网络，利用特征提取网络训练电力设备缺陷图像的整体特征图；

特征融合网络的训练：将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中，得到F1、F2、F3、F4特征图，其宽高分别为原图的1/4、1/8、1/16、1/32，维度为d；

在自上而下的过程中，通过尺度变化使得新的特征图和下层特征图保持一致的尺度；

在长、宽方向上采用上采样的方法将下层特征图的宽、高拉成一样大小；在深度方向上通过一个1×1的卷积把上层特征图的深度压缩到和下层特征图的深度相同，以此构建的新的特征图和原始的下层特征图具有了同样的尺度；再把新的特征图和原始的下层特征图中每个对应元素相加，实现上层特征和下层特征的融合；

检测头部网络的训练：

检测头部网络首先将融合后的特征图作为输入，使用N个连续的具有激活函数的conv层来计算任务交互特征F_k ^inter：

其中，F^fpn为融合网络输出的特征图，conv_k和δ分别表示第k个卷积层和relu激活函数；

得到任务交互特征后输入到TAP模块中，再将特征拉平通过全连接层和sigmoid激活函数后得到每个任务交互特征的权重，进行相乘操作得到分类或者定位任务的特征

其中，ω_k为层注意力的第k个元素，它是从任务交互特征中计算出来的，能够捕获层之间的依赖关系：

其中，和/>为全连接层，σ为sigmoid激活函数，对F^inter采用平均池化操作得到f^inter；

最后得到分类或者定位的结果Z^task：

Z^task＝conv₂(δ(conv₁(F^task))) (4)

其中，F^task为的连接特征，conv₁为一个1×1卷积进行降维操作，接着使用sigmoid激活函数将Z^task转化为密集分类分数/>或者对象边界框

所述特征提取网络的训练包括以下步骤：

通过Patch Partition层进行分块降维操作，将输入的变电站设备图像分成一个个patch，输入的图像大小为H×W×C，其中，H、W分别表示为图像得高、宽，C为图像的通道数，每个patch的大小(P,P)＝HW/N,将划分好的patch由Linear Embedding层进行线性投影，输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F₁；

将上述大小为特征图F₁输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/> 特征图F₂；

上述大小为特征图F₂输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F₃；

尺寸自适应卷积模块的训练：

将特征图F₃输入尺寸自适应卷积模块，首先经过普通卷积，卷积填充为same，即输入输出尺寸不变，对应的特征输出大小为偏移量记作offset，表示原始特征图中每个像素索引的偏移量；

其中，采样位置集合G通过ΔL_n，ΔL_n＝1，2，...，N，实现采样位置偏移以此来增大感受野的范围，N为网格中的像素个数，2C₃表示具有x和y两个方向上的偏移，1C₃通道表示调节权重值Δm，经过Sigmoid函数后范围在0到1之间；

将输入特征图F₃中的像素的索引值与offset相加，得到偏移后的position，即各像素在F₃中的坐标值，将position的值限定在图片尺寸范围内；

l₀为输出特征图上的任意位置：

Δl_n＝1，2，...，N

其中，l_n分别表示为第n个位置预先指定的偏移量；ω(l_n)是采样位置的权重信息；G＝{(-1，-1)，(-1，0)，...，(1，0)，(1，1)}为采样位置集合；Δl_n为第n个位置可学习的偏移量；Δm_n为调节权重参数；x(l₀+l_n+Δl_n)和y(l₀)分别表示从输入特征映射x和输出特征映射y中得到的任意位置l₀处的特征；

由于采样点是在不规则的偏移后l_n+Δl_n上进行的，而偏移量Δl_n是浮点数，无法获得准确像素值，为了得到准确像素值并且进行反向传播，采取双线性插值的方式来获取坐标对应的像素；

取一个坐标(a,b)，将其转换为floor(a)、ceil(a)、floor(b)和ceil(b)四个整数，其中floor()和ceil()操作是将a、b进行向下或向上取整，得到(floor(a),(floor(b))、(floor(a),ceil(b))、(ceil(a),floor(b))和(ceil(a),ceil(b))四个坐标；

这四个坐标每个都对应F₃中的一个像素值，通过双线性插值的方式来计算得到任意位置的像素值x(l)：

其中，l＝l₀+l_n+Δl_n表示偏移后的任意位置；m为特征图中整体空间位置坐标的枚举；x(m)是特征图F₃周围邻近的四个整数坐标的像素值；H()为四个整数坐标对应的权重，且它是二维的，由两个一维内核组成：

H(m,l)＝g(m_x,l_x)·g(m_y,l_y) (7)

其中，(m_x,l_x)、(m_y,l_y)分别为x、y偏移方向上的坐标值；

g(a,b)＝max(0,1-|a-b|)限制了插值点与邻近四个整数坐标不会超过1个像素的距离，a、b为坐标值；

得到position的所有像素后，通过Δm调节权重值参数，最后得到大小为新的特征图F'₃输入到下一阶段；

将上述大小为的特征图F'₃输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F₄，由尺寸自适应卷积模块学习图像的高级语义信息，使得采样位置更符合物体本身的形状和尺寸，而非固定的几何结构采样，更有利于缺陷特征的提取；

其中，核心模块Swin Transformer Block中包含了用于移位窗口的多头注意力，多头注意力中每个头的注意力计算如下：

其中，Q、K、V分别为查询、键、值矩阵，K^T为K的转置矩阵；d为向量维度，B为偏置矩阵，SoftMax为多分类激活函数；

45)采用Swin-Transformer骨干网络的stage1、stage2、stage3、stage4层表示整体特征图中每个尺度的特征，对电力设备缺陷检测图像进行数据增强处理，通过添加高斯、椒盐噪声以及调节图像明亮度方法，将增强后的数据作为特征提取网络的输入，提取整体特征图输入到下一阶段特征融合网络中。

所述电力设备缺陷目标检测模型的训练还包括显式对齐操作，显式对齐操作用于得到更优的分类性能和定位精度；所述的显式对齐操作包括以下步骤：

采用空间概率图N得到对齐分类任务Q^align：

其中，密集分类分数是从交互特征中计算出来的，用来学习空间位置的一致性程度；采用空间偏差得到定位任务预测B^align，通过双线性插值进行实现：

B^align(i,j,c)＝B(i+P(i,j,2×c),j+P(i,j,2×c+1),c) (10)

其中，对象边界框为空间偏差图，从交互特征中计算出来用于调整每个位置的预测边界框；(i,j,c)表示张量中第c个通道上的第(i,j)个空间位置，由于每个通道的偏移都是独立学习得到的，这意味着每个对象的边界拥有自己的偏移量；

对齐映射N和P从交互特征堆栈中进行自动学习：

N＝σ(conv₂(δ(conv₁(F^inter)))) (11)

P＝conv₄(δ(conv₃(F^inter))) (12)

conv₁、conv₃为1×1的卷积进行降维操作；F^inter为任务交互特征；δ表示relu激活函数；σ为sigmoid激活函数；

采用分类损失函数QualityFocalLoss，调整网络中的参数，最后输出变电站设备图像中准确的缺陷目标，其损失QFL(σ)公式如下：

QFL(σ)＝-a_i*|x-σ|^β*[(1-x)log(1-σ)+xlog(σ)] (13)

其中，a_i为平衡正负样本，σ为预测值，x为连续标签，β为比例因子用来控制权重衰减速度；

采用CIOU loss作为回归损失函数，其损失Loss_CIOU如下：

其中，d表示包围预测框与真实框的最小外接矩形，c，c^gt分别表示预测框与真实框的中心点，ρ表示是两个中心点之间的欧式距离，β和w为长宽比。

有益效果

本发明的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，与现有技术相比特征提取能力更强，模型训练简单，同时识别精度更优的目标检测方法，实现了电力设备缺陷图像目标的精准检测。

本发明通过图像增强技术并构建基于Swin-Transformer与尺寸自适应卷积的特征提取网络，使得网络对特征的提取更加符合物体本身的形状和尺寸，而非固定的几何结构采样更有利于对缺陷特征的提取；通过融合不同层次特征构建特征融合网络，增加了对小目标的检测准确率；通过TOOD检测头获取分类性能和定位精度都更好的目标。

附图说明

图1为本发明的方法顺序图；

图2为本发明所述电力设备缺陷目标检测模型结构图；

图3利用本发明所述方法的锈蚀检测效果图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，包括以下步骤：

第一步，电力设备缺陷图像样本的获取：获取不同场景不同类别的电力设备缺陷图像并进行预处理，形成电力设备缺陷图像数据集。

第二步，构建电力设备缺陷目标检测模型：基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型。

针对电力设备表面锈蚀缺陷较小、形状多变且背景复杂不易识别的问题，原始SwinT对于形状多变的锈蚀目标建模效果不佳，无法达到很好的自适应缺陷的形状特征，由于固定的矩形结构只对特征图上固定位置进行采样，但是电力设备所处环境复杂，锈蚀缺陷形状各异，针对不同位置不同尺度和形状的缺陷目标，增加尺寸自适应卷积对不同尺度或者感受野的自适应学习是准确检测锈蚀缺陷目标所需要的。由于在SwinT的三四阶段输出的特征图尺寸小，拥有的感受野大，语义信息多，在此阶段添加尺寸自适应卷积更有利于学习物体整体的形状类别，同时小尺寸的特征输入在计算偏移量时相对较快。

其具体步骤如下：

(1)如图2所示，设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络。

(2)设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建，

尺寸自适应卷积模块首先使用普通卷积层学习offset偏移和调节权重参数，增强卷积对于缺陷形态特征的适应性，再将特征图和偏移值调节权重后输出，最后将四个阶段生成的不同尺度特征图输入到特征融合网络中。

(3)设定特征融合网络：

设定特征融合网络基于FPN网络构建，其输入为特征提取网络输出的整体特征图，通过对输入的缺陷图像进行整体特征的融合，将高层特征进行上采样后与低层的高分辨率特征进行横向连接融合得到预测特征图，以便将高层语义中消失但在低层特征图中仍存在的小物体检测出来，输出为经过特征融合后的融合特征图。

(4)设定检测头部网络：

第三步，电力设备缺陷目标检测模型的训练：利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练。在mmdetection框架下，采用多尺度(Multi ScaleTraining,MST)训练的方式，使用线性增加的Warmup策略。

(1)特征提取网络的训练：将电力设备缺陷图像数据集输入特征提取网络，利用特征提取网络训练电力设备缺陷图像的整体特征图。

所述特征提取网络的训练包括以下步骤：

A1)通过Patch Partition层进行分块降维操作，将输入的变电站设备图像分成一个个patch，输入的图像大小为H×W×C，其中，H、W分别表示为图像得高、宽，C为图像的通道数，每个patch的大小(P,P)＝HW/N,将划分好的patch由Linear Embedding层进行线性投影，输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F₁；

A2)将上述大小为特征图F₁输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F₂；

A3)上述大小为特征图F₂输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F₃；

A4)尺寸自适应卷积模块的训练：

A41)将特征图F₃输入尺寸自适应卷积模块，首先经过普通卷积，卷积填充为same，即输入输出尺寸不变，对应的特征输出大小为偏移量记作offset，表示原始特征图中每个像素索引的偏移量；

其中，采样位置集合G通过ΔL_n(ΔL_n＝1，2，...，N)实现采样位置偏移以此来增大感受野的范围，N为网格中的像素个数，2C₃表示具有x和y两个方向上的偏移，1C₃通道表示调节权重值Δm，经过Sigmoid函数后范围在0到1之间；

A42)将输入特征图F₃中的像素的索引值与offset相加，得到偏移后的position，即各像素在F₃中的坐标值，将position的值限定在图片尺寸范围内；

l₀为输出特征图上的任意位置：

Δl_n＝1，2，...，N

A43)由于采样点是在不规则的偏移后l_n+Δl_n上进行的，而偏移量Δl_n是浮点数，无法获得准确像素值，为了得到准确像素值并且进行反向传播，采取双线性插值的方式来获取坐标对应的像素；

H(m,l)＝g(m_x,l_x)·g(m_y,l_y) (7)

其中，(m_x,l_x)、(m_y,l_y)分别为x、y偏移方向上的坐标值；

A44)将上述大小为的特征图F'₃输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F₄，由尺寸自适应卷积模块学习图像的高级语义信息，使得采样位置更符合物体本身的形状和尺寸，而非固定的几何结构采样，更有利于缺陷特征的提取；

A5)采用Swin-Transformer骨干网络的stage1、stage2、stage3、stage4层表示整体特征图中每个尺度的特征，对电力设备缺陷检测图像进行数据增强处理，通过添加高斯、椒盐噪声以及调节图像明亮度方法，将增强后的数据作为特征提取网络的输入，提取整体特征图输入到下一阶段特征融合网络中。

(2)特征融合网络的训练：将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中，得到F1、F2、F3、F4特征图，其宽高分别为原图的1/4、1/8、1/16、1/32，维度为d；

在长、宽方向上采用上采样的方法将下层特征图的宽、高拉成一样大小；在深度方向上通过一个1×1的卷积把上层特征图的深度压缩到和下层特征图的深度相同，以此构建的新的特征图和原始的下层特征图具有了同样的尺度；再把新的特征图和原始的下层特征图中每个对应元素相加，实现上层特征和下层特征的融合。

(3)检测头部网络的训练：

最后得到分类或者定位的结果Z^task：

Z^task＝conv₂(δ(conv₁(F^task))) (4)

为了获得更精确的结果，

(1)采用空间概率图N得到对齐分类任务Q^align：

B^align(i,j,c)＝B(i+P(i,j,2×c),j+P(i,j,2×c+1),c) (10)

其中，对象边界框为空间偏差图，从交互特征中计算出来用于调整每个位置的预测边界框；(i,j,c)表示张量中第c个通道上的第(i,j)个空间位置，由于每个通道的偏移都是独立学习得到的，这意味着每个对象的边界拥有自己的偏移量。

(2)对齐映射N和P从交互特征堆栈中进行自动学习：

N＝σ(conv₂(δ(conv₁(F^inter)))) (11)

P＝conv₄(δ(conv₃(F^inter))) (12)

QFL(σ)＝-a_i*|x-σ|^β*[(1-x)log(1-σ)+xlog(σ)] (13)

采用CIOUloss作为回归损失函数，其损失Loss_CIOU如下：

从图3中可以看出，利用本发明所述方法，能准确的检测出锈蚀区域。从表1中可以看出，本发明所述方法相对于原始SwinT以及其他检测方法有明显AP值增益。

表1检测算法的AP值对比表

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，其特征在于，包括以下步骤：

11)电力设备缺陷图像样本的获取：获取不同场景不同类别的电力设备缺陷图像并进行预处理，形成电力设备缺陷图像数据集；

12)构建电力设备缺陷目标检测模型：基于SwinT与尺寸自适应卷积构建电力设备缺陷目标检测模型；

13)电力设备缺陷目标检测模型的训练：利用电力设备缺陷图像数据集对电力设备缺陷目标检测模型进行训练；

14)获取待检测电力设备缺陷图像并进行预处理；

15)电力设备图像缺陷检测：将待检测的电力设备缺陷图像输入训练后的电力设备缺陷目标检测模型，得到电力设备缺陷图像中的目标分类和定位结果，检测出锈蚀区域。

2.根据权利要求1所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，其特征在于，所述构建电力设备缺陷目标检测模型包括以下步骤：

21)设定电力设备缺陷目标检测模型包括特征提取网络、特征融合网络和检测头部网络；

22)设定特征提取网络基于Swin-Transformer与尺寸自适应卷积模块构建，

其中，Swin-Transformer由Patch Partition层、Linear Embedding层、SwinTransformer Block层和PatchMerging层构成，尺寸自适应卷积由卷积神经网络构成，在SwinT的3、4阶段插入尺寸自适应卷积模块进一步完成对不同尺度和形状物体的特征提取；其输入为增强的电力设备缺陷图像、输出为该电力设备缺陷图像的整体特征图；

23)设定特征融合网络：

24)设定检测头部网络：

3.根据权利要求1所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，其特征在于，所述电力设备缺陷目标检测模型的训练包括以下步骤：

31)特征提取网络的训练：将电力设备缺陷图像数据集输入特征提取网络，利用特征提取网络训练电力设备缺陷图像的整体特征图；

32)特征融合网络的训练：将特征提取网络提取的整体特征图输入到特征融合网络自下而上的层级结构中，得到F1、F2、F3、F4特征图，其宽高分别为原图的1/4、1/8、1/16、1/32，维度为d；

33)检测头部网络的训练：

最后得到分类或者定位的结果Z^task：

其中，F^task为的连接特征，conv₁为一个1×1卷积进行降维操作，接着使用sigmoid激活函数将Z^task转化为密集分类分数/>或者对象边界框/>

4.根据权利要求3所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，其特征在于，所述特征提取网络的训练包括以下步骤：

41)通过Patch Partition层进行分块降维操作，将输入的变电站设备图像分成一个个patch，输入的图像大小为H×W×C，其中，H、W分别表示为图像得高、宽，C为图像的通道数，每个patch的大小(P,P)＝HW/N,将划分好的patch由Linear Embedding层进行线性投影，输入到Swin Transformer Block模块中进行多头自注意力计算生成大小为特征图F₁；

42)将上述大小为特征图F₁输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F₂；

43)上述大小为特征图F₂输入到Patch Merging层进行下采样操作以及多头自注意力计算后生成大小为/>特征图F₃；

44)尺寸自适应卷积模块的训练：

441)将特征图F₃输入尺寸自适应卷积模块，首先经过普通卷积，卷积填充为same，即输入输出尺寸不变，对应的特征输出大小为偏移量记作offset，表示原始特征图中每个像素索引的偏移量；

442)将输入特征图F₃中的像素的索引值与offset相加，得到偏移后的position，即各像素在F₃中的坐标值，将position的值限定在图片尺寸范围内；

l₀为输出特征图上的任意位置：

Δl_n＝1，2，...，N

443)由于采样点是在不规则的偏移后l_n+Δl_n上进行的，而偏移量Δl_n是浮点数，无法获得准确像素值，为了得到准确像素值并且进行反向传播，采取双线性插值的方式来获取坐标对应的像素；

H(m,l)＝g(m_x,l_x)·g(m_y,l_y) (7)

其中，(m_x,l_x)、(m_y,l_y)分别为x、y偏移方向上的坐标值；g(a,b)＝max(0,1-|a-b|)限制了插值点与邻近四个整数坐标不会超过1个像素的距离，a、b为坐标值；

444)将上述大小为的特征图F'₃输入到Patch Merging层进行下采样操作后再由Swin Transformer Block模块中进行多头自注意力计算生成大小为/>特征图F₄，由尺寸自适应卷积模块学习图像的高级语义信息，使得采样位置更符合物体本身的形状和尺寸，而非固定的几何结构采样，更有利于缺陷特征的提取；

5.根据权利要求3所述的一种基于SwinT与尺寸自适应卷积的电力设备锈蚀缺陷图像检测方法，其特征在于，所述电力设备缺陷目标检测模型的训练还包括显式对齐操作，显式对齐操作用于得到更优的分类性能和定位精度；所述的显式对齐操作包括以下步骤：

51)采用空间概率图N得到对齐分类任务Q^align：

B^align(i，j，c)＝B(i+P(i，j，2×c)，j+P(i，j，2×c+1)，c) (10)

其中，对象边界框为空间偏差图，从交互特征中计算出来用于调整每个位置的预测边界框；(i，j，c)表示张量中第c个通道上的第(i，j)个空间位置，由于每个通道的偏移都是独立学习得到的，这意味着每个对象的边界拥有自己的偏移量；

52)对齐映射N和P从交互特征堆栈中进行自动学习：

N＝σ(conv₂(δ(conv₁(F^inter)))) (11)

P＝conv₄(δ(conv₃(F^inter))) (12)

QFL(σ)＝-a_i*|x-σ|^β*[(1-x)log(1-σ)+xlog(σ)] (13)

采用CIOU loss作为回归损失函数，其损失Loss_CIOU如下：