CN115937091A

CN115937091A - 基于可变换patch的变电站设备缺陷图像检测方法

Info

Publication number: CN115937091A
Application number: CN202211299675.1A
Authority: CN
Inventors: 张洁; 张辉; 刘术娟; 李�瑞; 王顺
Original assignee: Hefei Zhongke Rongdao Intelligent Technology Co ltd; Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Zhongke Rongdao Intelligent Technology Co ltd; Hefei Institutes of Physical Science of CAS
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-04-07

Abstract

本发明涉及基于可变换patch的变电站设备缺陷图像检测方法，与现有技术相比解决了难以识别变电站设备极小缺陷图像的缺陷。本发明包括以下步骤：变电站设备缺陷图像样本的获取；可变换patch模块的构建；变电站设备图像缺陷检测模型的构建；变电站设备图像缺陷检测模型的训练；待检测变电站设备图像的获取；待检测变电站设备图像缺陷结果的检测。本发明将带有缺陷的图片准确切分成多个patch作为Tranformer结构的输入序列，利用了可变的patch分割和Transformer对特征的提取，提高了变电站设备缺陷检测的准确率，实现了变电站设备极小缺陷图像的检测。

Description

基于可变换patch的变电站设备缺陷图像检测方法

技术领域

本发明涉及图像处理技术领域，具体来说是基于可变换patch的变电站设备缺陷图像检测方法。

背景技术

变电站作为电网的重要组成部分，其中各类设备是否正常运行是决定变电站稳定运行的关键因素。考虑到变电站运行规模和环境，变电站内的设备容易出现各类缺陷，主要包括绝缘子破裂，金属锈蚀，油污等。因此，定期对变电站设备进行定期巡检是极其重要的。

然而,传统的变电站设备缺陷检测方法是基于人工目测法对运行设备可见部位的外观变化进行观察来发现设备异常现象，识别准确率受到巡检人员专业素养影响，一些缺陷类型受到巡检人员主观判断影响，因此检测结果存在较大误差。

近年来基于自动化技术和图像处理技术的发展，极大减小了人工巡检成本，提高了变电站巡检效率。在目前流行的变电站缺陷识别技术中，只能对一些体积较大，特征明显的缺陷检测表现很好，但是针对一些变电站设备缺陷类型尺度极小、缺陷特征极小的则难以辨别。如图2、图3所示，其包括绝缘子破裂、小金具锈蚀等，容易出现大量漏检误检等问题。

这是由于目前卷积神经网络很难获得这类缺陷特征，如果一味地增加卷积网络层数等操作会极大增加算法复杂度，而且效果提升极小。因此如何在保证检测速度的同时提高对变电站设备缺陷的检测成为变电站巡检任务急需解决的技术难题。

发明内容

本发明的目的是为了解决现有技术中难以识别变电站设备极小缺陷图像的缺陷，提供一种基于可变换patch的变电站设备缺陷图像检测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于可变换patch的变电站设备缺陷图像检测方法，包括以下步骤：

变电站设备缺陷图像样本的获取：获取变电站设备缺陷图像样本，并进行预处理；

可变换patch模块的构建：构建能够变换path位置及尺度的可变换patch模块；

变电站设备图像缺陷检测模型的构建：基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型；

变电站设备图像缺陷检测模型的训练：将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练；

待检测变电站设备图像的获取：获取待检测变电站设备图像并进行预处理；

待检测变电站设备图像缺陷结果的检测：将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型，得到检测后的变电站设备图像缺陷检测结果。

所述可变换patch模块的构建包括以下步骤：

将一张完整图像分成N个大小相等的小份图像，每小份图像称为一个patch，当输入图像特征图F大小H×W×C时，则每个patch的大小(P,P)为P＝HW/N；

其中H表示图片高，W表示图片宽，C是图片通道数；

每个patch矩形区域的坐标表示为：中心点坐标

左上角和右下角坐标

和

其中i表示N个patch中第i个patch；

设定可变换patch的位置参数：

在上述生成的patch上添加一个偏移量(δx,δy)，并允许它围绕原始中心

移动；

使用以下方法预测偏移量参数(δx,δy)：

δx,δy＝tanh(W_offset·f_l(F))，

其中，W_offset是偏移量的权重，并初始化为0，f_l(F)是特征图F一个线性层的输出；

设定可变换patch的尺度参数：

将带有偏移量的patch大小(P,P)替换成(P_h,P_w)，并使用如下方法预测尺度参数(P_h,P_w)：

P_w,P_h＝ReLU(tanh(W_scale·f_l(F)+b_scale))，

其中，W_scale是尺度参数的权重，初始化为0，b_scale是线性函数偏移量，初始为P，f_l(F)是特征图F一个线性层的输出；

根据设定的位置和尺度参数，获得新的patch矩形区域，其坐标表示为：

左上角(x_ct+δx-P_w/2,y_ct+δy-P_h/2)和

右下角(x_ct+δx+P_w/2,y_ct+δy+P_h/2)；

设定在patch区域内采样k×k个点，每个采样点位置表示为

其中1≤j≤k×k；

所有采样点的特征表示为

这些特征被展平并送入线性层去生成patch序列，其表达式如下：

其中，concat是拼接函数，将所有采样点特征拼接成一个矩阵，然后送入线性层，该线性层的权重是W,b；

索引为

的采样点特征通过双线性插值获得，表达式如下：

其中，

G(p_x,p_y；q_x,q_y)＝max(0,1-|p_x-q_x|)·max(0,1-|p_y-q_y|)，

G(·)是整个积分空间位置的双线性插值核，使得预测坐标均为整数，q_x,q_y是靠近采样点p_x,p_y的四个像素点。

所述变电站设备图像缺陷检测模型的构建包括以下步骤：

构建Transformer编码器模块，其包括以下步骤：

将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的多头自注意力层，在多头自注意力层做如下具体操作：

将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为(H_iW_i)×C_i，并对K、V进行空间降维操作如下：

DR(x)＝Norm(Reshape(x,R_i)W^s)，

其中，

R_i是降维比例，Reshape(x,R_i)是将输入矩阵x降维成大小相同的矩阵

其中

是一个线性投影将x降维到C_i，Norm(·)表示标准化层；

将Q、K、V三个矩阵输入多头自注意力机制计算特征图，具体操作如下：

其中，Concat(·)是合并矩阵操作，

和

是线性投影；N_i为第i阶段中注意力层的头数，因此，每个头的维度大小是

DR(·)是上述矩阵维度降维操作，Attention(·)自注意力操作如下：

将第i阶段自注意力机制操作后的结果输入Transformer编码器层中的前馈网络，1≤i≤4，除了注意力子层以外，在每个阶段在注意力层后连接一个前馈网络层，它包括两个线性变换和一个ReLU激活函数，具体操作如下：

FFN(x)＝[ReLU(xW₁+b₁)]W₂+b₂；

其中W₁,W₂,b₁,b₂是四个线性变化的参数；

设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络；

设定Transformer网络的第一阶段，

将输入的变电站设备图像分成N个大小相等的小图块，每个小图块称为一个patch，当输入图像大小为H×W×C时，则每个patch的大小(P,P)为P＝HW/N；每个patch矩形区域的坐标表示为：中心点坐标

左上角和右下角坐标

和

将划分好的patch输入上述Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₁；

设定Transformer网络的第二阶段，

将上述大小为

特征图F₁输入到可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x,p_y)，将这些特征图序列输入到Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₂；

设定Transformer网络的第三阶段，

将上述大小为

特征图F₂输入到可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x,p_y)；将这些特征图序列输入到上述Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₃；

设定Transformer网络的第四阶段，

将上述大小为

特征图F₃输入到上述可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x,p_y)；将这些特征图序列输入到上述Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₄；

设定Retinanet分类回归网络，

将Retinanet中骨干网络resnet替换成上述可变换patch的Transformer网络提取目标特征信息，然后使用Retinanet中分类网络对上述大小为

特征图P₄生成候选框，并使用Focal Loss作为损失函数，计算过程如下；最后使用Retinanet中回归网络将候选框回归到正确目标位置上；

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中

表示正负样本的标签，p表示模型预测y＝1的概率，其中α_t是平衡因子，γ是超参数。

所述变电站设备图像缺陷检测模型的训练包括以下步骤：

设置模型参数：将输入变电站设备图像设置成大小为1333×800，每批次输入2张图片，训练24个周期，初始学习率1×10^-4；

可变换patch的Transformer网络的训练：

基于可变换patch的Transformer网络作为RetainNet的骨干网络提取特征，

设置Transformer网络第一阶段中patch的大小P₁＝4,C₁＝64，Transformer编码器中多头注意力机制头的个数N₁＝1,K,V进行空间降维的比例R₁＝8；

设置Transformer网络第二阶段中patch的大小P₂＝2,C₂＝128，Transformer编码器中多头注意力机制头的个数N₂＝2,K,V进行空间降维的比例R₂＝4；

设置Transformer网络第三阶段中patch的大小P₃＝2,C₃＝320，Transformer编码器中多头注意力机制头的个数N₃＝5,K,V进行空间降维的比例R₃＝2；

设置Transformer网络第四阶段中patch的大小P₄＝2,C₄＝512，Transformer编码器中多头注意力机制头的个数N₄＝8,K,V进行空间降维的比例R₄＝1；

最后生成大小为

特征图；

在大小为

特征图上使用RetainNet网络中平移不变性方法生成预测框，设定预测框长宽比为{1:2,1:1,2:1}；

对生成的预测框，在分类子网中应用4个3×3卷积对这些预测框进行分类；与分类子网并行的回归子网，用一个全连接层网络将每个预测框回归到最近的真实框周围；

使用Focal Loss计算损失函数，对分类网络进行反馈，调整网络中参数，最后输出变电站设备图像中准确的缺陷目标。

有益效果

本发明的基于可变换patch的变电站设备缺陷图像检测方法，与现有技术相比不再利用传统的卷积神经网络去提取缺陷特征信息，而是将自然语言处理领域的Transformer结构引入到目标检测中，将带有缺陷的图片准确切分成多个patch作为Tranformer结构的输入序列，利用了可变的patch分割和Transformer对特征的提取，提高了变电站设备缺陷检测的准确率，实现了变电站设备极小缺陷图像的检测。

附图说明

图1为本发明的方法顺序图；

图2、图3为现有技术中变电站设备缺陷图；

图4为本发明所涉及的Transformer网络构架图；

图5、图6为利用本发明所述方法的变电站设备缺陷图像检测结果图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种基于可变换patch的变电站设备缺陷图像检测方法，包括以下步骤：

第一步，变电站设备缺陷图像样本的获取：获取变电站设备缺陷图像样本，并进行传统的预处理工作。

第二步，可变换patch模块的构建：构建能够变换path位置及尺度的可变换patch模块。

可变换patch模块用于将整张图片分割成Transformer可提取特征的patch序列。使用可变换patch模块不再像传统分割成固定大小patch，而是增加了位置和尺度参数，让patch位置和大小变得可学习，每张图片根据图片中不同目标分割成不同大小patch。这种方法可以将图像中语义信息保存在一个patch中，减少固定分割对语义信息的破坏，最终提高了后续Transformer结构对图像中目标特征的提取，从而更好的识别和定位变电站中的缺陷目标。其难度在于采用这种方法时生成的patch区域的预测坐标会出现分数情况，不利于模型的训练，只能采用图像处理中采样和双线性插值方法对分割后的patch做进一步处理。当训练不充分时，容易出现检查框回归位置不准等问题。

可变换patch模块的构建包括以下步骤：

(1)将一张完整图像分成N个大小相等的小份图像，每小份图像称为一个patch，当输入图像特征图F大小H×W×C时，则每个patch的大小(P,P)为P＝HW/N；

其中H表示图片高，W表示图片宽，C是图片通道数；

每个patch矩形区域的坐标表示为：中心点坐标

左上角和右下角坐标

和

其中i表示N个patch中第i个patch。

(2)设定可变换patch的位置参数：

移动；

使用以下方法预测偏移量参数(δx,δy)：

δx,δy＝tanh(W_offset·f_l(F))，

其中，W_offset是偏移量的权重，并初始化为0，f_l(F)是特征图F一个线性层的输出。

(3)设定可变换patch的尺度参数：

P_w,P_h＝ReLU(tanh(W_scale·f_l(F)+b_scale))，

其中，W_scale是尺度参数的权重，初始化为0，b_scale是线性函数偏移量，初始为P，f_l(F)是特征图F一个线性层的输出。

(4)根据设定的位置和尺度参数，获得新的patch矩形区域，其坐标表示为：

左上角(x_ct+δx-P_w/2,y_ct+δy-P_h/2)和

右下角(x_ct+δx+P_w/2,y_ct+δy+P_h/2)。

(5)设定在patch区域内采样k×k个点，每个采样点位置表示为

其中1≤j≤k×k；

所有采样点的特征表示为

索引为

的采样点特征通过双线性插值获得，表达式如下：

其中，

G(p_x,p_y；q_x,q_y)＝max(0,1-|p_x-q_x|)·max(0,1-|p_y-q_y|)，

第三步，变电站设备图像缺陷检测模型的构建：基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型。目前视觉领域的Transformer结构输出特征图和输入大小基本保持一致，在此过程中没有尺度的调整。在嵌入可变patch模块构建Transformer结构过程中，我们尝试将多个Transformer阶段叠加在一起，同时在每个阶段内部多头自注意力机制进行特征提取的尺度和维度的变化。

如图4所示，变电站设备图像缺陷检测模型的构建包括以下步骤：

(1)构建Transformer编码器模块，其包括以下步骤：

A1)将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的注意力层，在注意力层做如下具体操作：

A11)将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为H_i×W_i×C_i，并对K、V进行空间降维操作如下：

DR(x)＝Norm(Reshape(x,R_i)W^s)，

其中，

其中

是一个线性投影将x降维到C_i，Norm(·)表示标准化层；

A12)将Q、K、V三个矩阵输入多头注意力机制计算特征图，具体操作如下：

其中，Concat(·)是合并矩阵操作，

和

是线性投影。N_i为第i阶段中注意力层的头数，因此，每个头的维度大小是

A2)将第i(1≤i≤4)阶段注意力机制操作后的结果输入Transformer编码器层中的前馈网络，除了注意力子层以外，在每个阶段在注意力层后连接一个前馈网络层，它包括两个线性变换和一个ReLU激活函数，具体操作如下：

FFN(x)＝[ReLU(xW₁+b₁)]W₂+b₂。

(2)设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络。

(3)设定Transformer网络的第一阶段，

左上角和右下角坐标

和

特征图F₁。

(4)设定Transformer网络的第二阶段，

将上述大小为

特征图F₂。

(5)设定Transformer网络的第三阶段，

将上述大小为

特征图F₃。

(6)设定Transformer网络的第四阶段，

将上述大小为

特征图F₄。

(7)设定Retinanet分类回归网络，

特征图P₄生成候选框，并使用Focal Loss对分类结果计算损失函数，计算过程如下；最后使用Retinanet中回归网络将候选框回归到正确目标位置上；

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中

第四步，变电站设备图像缺陷检测模型的训练：将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练。

(1)设置模型参数：将输入变电站设备图像设置成大小为1333×800，每批次输入2张图片，训练24个周期，初始学习率1×10^-4。

(2)可变换patch的Transformer网络的训练：

基于可变换patch的Transformer网络作为RetainNet的骨干网络提取特征，设置Transformer网络第一阶段中patch的大小P₁＝4,C₁＝64，Transformer编码器中多头注意力机制头的个数N₁＝1,K,V进行空间降维的比例R₁＝8；

最后生成大小为

特征图。

(3)在大小为

对生成的预测框，在分类子网中应用4个3×3卷积对这些预测框进行分类；与分类子网并行的回归子网，用一个全连接层网络将每个预测框回归到最近的真实框周围。

(4)使用Focal Loss计算损失函数，对分类网络进行反馈，调整网络中参数，最后输出变电站设备图像中准确的缺陷目标。

第五步，待检测变电站设备图像的获取：获取待检测变电站设备图像并进行预处理。

第六步，待检测变电站设备图像缺陷结果的检测：将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型，如图5和图6所示，直接得到检测后的变电站设备图像缺陷检测结果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于可变换patch的变电站设备缺陷图像检测方法，其特征在于，包括以下步骤：

11)变电站设备缺陷图像样本的获取：获取变电站设备缺陷图像样本，并进行预处理；

12)可变换patch模块的构建：构建能够变换path位置及尺度的可变换patch模块；

13)变电站设备图像缺陷检测模型的构建：基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型；

14)变电站设备图像缺陷检测模型的训练：将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练；

15)待检测变电站设备图像的获取：获取待检测变电站设备图像并进行预处理；

16)待检测变电站设备图像缺陷结果的检测：将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型，得到检测后的变电站设备图像缺陷检测结果。

2.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法，其特征在于，所述可变换patch模块的构建包括以下步骤：

21)将一张完整图像分成N个大小相等的小份图像，每小份图像称为一个patch，当输入图像特征图F大小H×W×C时，则每个patch的大小(P，P)为P＝HW/N；

其中H表示图片高，W表示图片宽，C是图片通道数；

每个patch矩形区域的坐标表示为：中心点坐标

左上角和右下角坐标

和

其中i表示N个patch中第i个patch；

22)设定可变换patch的位置参数：

在上述生成的patch上添加一个偏移量(δx，δy)，并允许它围绕原始中心

移动；

使用以下方法预测偏移量参数(δx，δy)：

δx，δy＝tanh(W_offset·f_l(F))，

23)设定可变换patch的尺度参数：

将带有偏移量的patch大小(P，P)替换成(P_h，P_w)，并使用如下方法预测尺度参数(P_h，P_w)：

P_w，P_h＝ReLU(tanh(W_scale·f_l(F)+b_scale))，

24)根据设定的位置和尺度参数，获得新的patch矩形区域，其坐标表示为：

左上角(x_ct+δx-P_w/2，y_ct+δy-P_h/2)和

右下角(x_ct+δx+P_w/2，y_ct+δy+P_h/2)；

25)设定在patch区域内采样k×k个点，每个采样点位置表示为

其中1≤j≤k×k；

所有采样点的特征表示为

其中，concat是拼接函数，将所有采样点特征拼接成一个矩阵，然后送入线性层，该线性层的权重是W，b；

索引为

的采样点特征通过双线性插值获得，表达式如下：

其中，

G(p_x，p_y；q_x，q_y)＝max(0，1-|p_x-q_x|)·max(0，1-|p_y-q_y|)，

G(·)是整个积分空间位置的双线性插值核，使得预测坐标均为整数，q_x，q_y是靠近采样点p_x，p_y的四个像素点。

3.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法，其特征在于，所述变电站设备图像缺陷检测模型的构建包括以下步骤：

31)构建Transformer编码器模块，其包括以下步骤：

311)将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的多头自注意力层，在多头自注意力层做如下具体操作：

3111)将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为(H_iW_i)×C_i，并对K、V进行空间降维操作如下：

DR(x)＝Norm(Reshape(x，R_i)W^s)，

其中，

R_i是降维比例，Reshape(x，R_i)是将输入矩阵x降维成大小相同的矩阵

其中

是一个线性投影将x降维到C_i，Norm(·)表示标准化层；

3112)将Q、K、V三个矩阵输入多头自注意力机制计算特征图，具体操作如下：

其中，Concat(·)是合并矩阵操作，

和

312)将第i阶段自注意力机制操作后的结果输入Transformer编码器层中的前馈网络，1≤i≤4，除了注意力子层以外，在每个阶段在注意力层后连接一个前馈网络层，它包括两个线性变换和一个ReLU激活函数，具体操作如下：

FFN(x)＝[ReLU(xW₁+b₁)]W₂+b₂；

其中W₁，W₂，b₁，b₂是四个线性变化的参数；

32)设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络；

33)设定Transformer网络的第一阶段，

将输入的变电站设备图像分成N个大小相等的小图块，每个小图块称为一个patch，当输入图像大小为H×W×C时，则每个patch的大小(P，P)为P＝HW/N；每个patch矩形区域的坐标表示为：中心点坐标

左上角和右下角坐标

和

特征图F₁；

34)设定Transformer网络的第二阶段，

将上述大小为

特征图F₁输入到可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x，p_y)，将这些特征图序列输入到Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₂；

35)设定Transformer网络的第三阶段，

将上述大小为

特征图F₂输入到可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x，p_y)；将这些特征图序列输入到上述Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₃；

36)设定Transformer网络的第四阶段，

将上述大小为

特征图F₃输入到上述可变换patch模块分割成N个不同大小的patch，并通过采样和双线性插值获得N个特征图A(p_x，p_y)；将这些特征图序列输入到上述Transformer编码器模块中进行展平，线性投影后生成大小为

特征图F₄；

37)设定Retinanet分类回归网络，

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中

y∈{-1，1}表示正负样本的标签，p表示模型预测y＝1的概率，其中α_t是平衡因子，γ是超参数。

4.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法，其特征在于，所述变电站设备图像缺陷检测模型的训练包括以下步骤：

41)设置模型参数：将输入变电站设备图像设置成大小为1333×800，每批次输入2张图片，训练24个周期，初始学习率1×10^-4；

42)可变换patch的Transformer网络的训练：

设置Transformer网络第一阶段中patch的大小P₁＝4，C₁＝64，Transformer编码器中多头注意力机制头的个数N1＝1，K，V进行空间降维的比例R₁＝8；

设置Transformer网络第二阶段中patch的大小P₂＝2，C₂＝128，Transformer编码器中多头注意力机制头的个数N₂＝2，K，V进行空间降维的比例R₂＝4；

设置Transformer网络第三阶段中patch的大小P₃＝2，C₃＝320，Transformer编码器中多头注意力机制头的个数N₃＝5，K，V进行空间降维的比例R₃＝2；

设置Transformer网络第四阶段中patch的大小P₄＝2，C₄＝512，Transformer编码器中多头注意力机制头的个数N₄＝8，K，V进行空间降维的比例R₄＝1；

最后生成大小为

特征图；

43)在大小为

特征图上使用RetainNet网络中平移不变性方法生成预测框，设定预测框长宽比为{1∶2，1∶1，2∶1}；

44)使用Focal Loss计算损失函数，对分类网络进行反馈，调整网络中参数，最后输出变电站设备图像中准确的缺陷目标。