CN115937091A - 基于可变换patch的变电站设备缺陷图像检测方法 - Google Patents

基于可变换patch的变电站设备缺陷图像检测方法 Download PDF

Info

Publication number
CN115937091A
CN115937091A CN202211299675.1A CN202211299675A CN115937091A CN 115937091 A CN115937091 A CN 115937091A CN 202211299675 A CN202211299675 A CN 202211299675A CN 115937091 A CN115937091 A CN 115937091A
Authority
CN
China
Prior art keywords
patch
substation equipment
transformer
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211299675.1A
Other languages
English (en)
Inventor
张洁
张辉
刘术娟
李�瑞
王顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhongke Rongdao Intelligent Technology Co ltd
Hefei Institutes of Physical Science of CAS
Original Assignee
Hefei Zhongke Rongdao Intelligent Technology Co ltd
Hefei Institutes of Physical Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhongke Rongdao Intelligent Technology Co ltd, Hefei Institutes of Physical Science of CAS filed Critical Hefei Zhongke Rongdao Intelligent Technology Co ltd
Priority to CN202211299675.1A priority Critical patent/CN115937091A/zh
Publication of CN115937091A publication Critical patent/CN115937091A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Image Processing (AREA)

Abstract

本发明涉及基于可变换patch的变电站设备缺陷图像检测方法,与现有技术相比解决了难以识别变电站设备极小缺陷图像的缺陷。本发明包括以下步骤:变电站设备缺陷图像样本的获取;可变换patch模块的构建;变电站设备图像缺陷检测模型的构建;变电站设备图像缺陷检测模型的训练;待检测变电站设备图像的获取;待检测变电站设备图像缺陷结果的检测。本发明将带有缺陷的图片准确切分成多个patch作为Tranformer结构的输入序列,利用了可变的patch分割和Transformer对特征的提取,提高了变电站设备缺陷检测的准确率,实现了变电站设备极小缺陷图像的检测。

Description

基于可变换patch的变电站设备缺陷图像检测方法
技术领域
本发明涉及图像处理技术领域,具体来说是基于可变换patch的变电站设备缺陷图像检测方法。
背景技术
变电站作为电网的重要组成部分,其中各类设备是否正常运行是决定变电站稳定运行的关键因素。考虑到变电站运行规模和环境,变电站内的设备容易出现各类缺陷,主要包括绝缘子破裂,金属锈蚀,油污等。因此,定期对变电站设备进行定期巡检是极其重要的。
然而,传统的变电站设备缺陷检测方法是基于人工目测法对运行设备可见部位的外观变化进行观察来发现设备异常现象,识别准确率受到巡检人员专业素养影响,一些缺陷类型受到巡检人员主观判断影响,因此检测结果存在较大误差。
近年来基于自动化技术和图像处理技术的发展,极大减小了人工巡检成本,提高了变电站巡检效率。在目前流行的变电站缺陷识别技术中,只能对一些体积较大,特征明显的缺陷检测表现很好,但是针对一些变电站设备缺陷类型尺度极小、缺陷特征极小的则难以辨别。如图2、图3所示,其包括绝缘子破裂、小金具锈蚀等,容易出现大量漏检误检等问题。
这是由于目前卷积神经网络很难获得这类缺陷特征,如果一味地增加卷积网络层数等操作会极大增加算法复杂度,而且效果提升极小。因此如何在保证检测速度的同时提高对变电站设备缺陷的检测成为变电站巡检任务急需解决的技术难题。
发明内容
本发明的目的是为了解决现有技术中难以识别变电站设备极小缺陷图像的缺陷,提供一种基于可变换patch的变电站设备缺陷图像检测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于可变换patch的变电站设备缺陷图像检测方法,包括以下步骤:
变电站设备缺陷图像样本的获取:获取变电站设备缺陷图像样本,并进行预处理;
可变换patch模块的构建:构建能够变换path位置及尺度的可变换patch模块;
变电站设备图像缺陷检测模型的构建:基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型;
变电站设备图像缺陷检测模型的训练:将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练;
待检测变电站设备图像的获取:获取待检测变电站设备图像并进行预处理;
待检测变电站设备图像缺陷结果的检测:将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型,得到检测后的变电站设备图像缺陷检测结果。
所述可变换patch模块的构建包括以下步骤:
将一张完整图像分成N个大小相等的小份图像,每小份图像称为一个patch,当输入图像特征图F大小H×W×C时,则每个patch的大小(P,P)为P=HW/N;
其中H表示图片高,W表示图片宽,C是图片通道数;
每个patch矩形区域的坐标表示为:中心点坐标
Figure BDA0003904016950000021
左上角和右下角坐标
Figure BDA0003904016950000022
Figure BDA0003904016950000023
其中i表示N个patch中第i个patch;
设定可变换patch的位置参数:
在上述生成的patch上添加一个偏移量(δx,δy),并允许它围绕原始中心
Figure BDA0003904016950000024
移动;
使用以下方法预测偏移量参数(δx,δy):
δx,δy=tanh(Woffset·fl(F)),
其中,Woffset是偏移量的权重,并初始化为0,fl(F)是特征图F一个线性层的输出;
设定可变换patch的尺度参数:
将带有偏移量的patch大小(P,P)替换成(Ph,Pw),并使用如下方法预测尺度参数(Ph,Pw):
Pw,Ph=ReLU(tanh(Wscale·fl(F)+bscale)),
其中,Wscale是尺度参数的权重,初始化为0,bscale是线性函数偏移量,初始为P,fl(F)是特征图F一个线性层的输出;
根据设定的位置和尺度参数,获得新的patch矩形区域,其坐标表示为:
左上角(xct+δx-Pw/2,yct+δy-Ph/2)和
右下角(xct+δx+Pw/2,yct+δy+Ph/2);
设定在patch区域内采样k×k个点,每个采样点位置表示为
Figure BDA0003904016950000031
Figure BDA0003904016950000032
其中1≤j≤k×k;
所有采样点的特征表示为
Figure BDA0003904016950000033
这些特征被展平并送入线性层去生成patch序列,其表达式如下:
Figure BDA0003904016950000034
其中,concat是拼接函数,将所有采样点特征拼接成一个矩阵,然后送入线性层,该线性层的权重是W,b;
索引为
Figure BDA0003904016950000035
的采样点特征通过双线性插值获得,表达式如下:
Figure BDA0003904016950000036
其中,
G(px,py;qx,qy)=max(0,1-|px-qx|)·max(0,1-|py-qy|),
G(·)是整个积分空间位置的双线性插值核,使得预测坐标均为整数,qx,qy是靠近采样点px,py的四个像素点。
所述变电站设备图像缺陷检测模型的构建包括以下步骤:
构建Transformer编码器模块,其包括以下步骤:
将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的多头自注意力层,在多头自注意力层做如下具体操作:
将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为(HiWi)×Ci,并对K、V进行空间降维操作如下:
DR(x)=Norm(Reshape(x,Ri)Ws),
其中,
Figure BDA0003904016950000041
Ri是降维比例,Reshape(x,Ri)是将输入矩阵x降维成大小相同的矩阵
Figure BDA0003904016950000042
其中
Figure BDA0003904016950000043
是一个线性投影将x降维到Ci,Norm(·)表示标准化层;
将Q、K、V三个矩阵输入多头自注意力机制计算特征图,具体操作如下:
Figure BDA00039040169500000410
Figure BDA0003904016950000044
其中,Concat(·)是合并矩阵操作,
Figure BDA0003904016950000045
Figure BDA0003904016950000046
Figure BDA0003904016950000047
是线性投影;Ni为第i阶段中注意力层的头数,因此,每个头的维度大小是
Figure BDA0003904016950000048
DR(·)是上述矩阵维度降维操作,Attention(·)自注意力操作如下:
Figure BDA0003904016950000049
将第i阶段自注意力机制操作后的结果输入Transformer编码器层中的前馈网络,1≤i≤4,除了注意力子层以外,在每个阶段在注意力层后连接一个前馈网络层,它包括两个线性变换和一个ReLU激活函数,具体操作如下:
FFN(x)=[ReLU(xW1+b1)]W2+b2
其中W1,W2,b1,b2是四个线性变化的参数;
设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络;
设定Transformer网络的第一阶段,
将输入的变电站设备图像分成N个大小相等的小图块,每个小图块称为一个patch,当输入图像大小为H×W×C时,则每个patch的大小(P,P)为P=HW/N;每个patch矩形区域的坐标表示为:中心点坐标
Figure BDA0003904016950000051
左上角和右下角坐标
Figure BDA0003904016950000052
Figure BDA0003904016950000053
将划分好的patch输入上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000054
特征图F1
设定Transformer网络的第二阶段,
将上述大小为
Figure BDA0003904016950000055
特征图F1输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py),将这些特征图序列输入到Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000056
特征图F2
设定Transformer网络的第三阶段,
将上述大小为
Figure BDA0003904016950000057
特征图F2输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000058
特征图F3
设定Transformer网络的第四阶段,
将上述大小为
Figure BDA0003904016950000059
特征图F3输入到上述可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA00039040169500000510
特征图F4
设定Retinanet分类回归网络,
将Retinanet中骨干网络resnet替换成上述可变换patch的Transformer网络提取目标特征信息,然后使用Retinanet中分类网络对上述大小为
Figure BDA0003904016950000061
特征图P4生成候选框,并使用Focal Loss作为损失函数,计算过程如下;最后使用Retinanet中回归网络将候选框回归到正确目标位置上;
FL(pt)=-αt(1-pt)γlog(pt)
其中
Figure BDA0003904016950000062
表示正负样本的标签,p表示模型预测y=1的概率,其中αt是平衡因子,γ是超参数。
所述变电站设备图像缺陷检测模型的训练包括以下步骤:
设置模型参数:将输入变电站设备图像设置成大小为1333×800,每批次输入2张图片,训练24个周期,初始学习率1×10-4
可变换patch的Transformer网络的训练:
基于可变换patch的Transformer网络作为RetainNet的骨干网络提取特征,
设置Transformer网络第一阶段中patch的大小P1=4,C1=64,Transformer编码器中多头注意力机制头的个数N1=1,K,V进行空间降维的比例R1=8;
设置Transformer网络第二阶段中patch的大小P2=2,C2=128,Transformer编码器中多头注意力机制头的个数N2=2,K,V进行空间降维的比例R2=4;
设置Transformer网络第三阶段中patch的大小P3=2,C3=320,Transformer编码器中多头注意力机制头的个数N3=5,K,V进行空间降维的比例R3=2;
设置Transformer网络第四阶段中patch的大小P4=2,C4=512,Transformer编码器中多头注意力机制头的个数N4=8,K,V进行空间降维的比例R4=1;
最后生成大小为
Figure BDA0003904016950000071
特征图;
在大小为
Figure BDA0003904016950000072
特征图上使用RetainNet网络中平移不变性方法生成预测框,设定预测框长宽比为{1:2,1:1,2:1};
对生成的预测框,在分类子网中应用4个3×3卷积对这些预测框进行分类;与分类子网并行的回归子网,用一个全连接层网络将每个预测框回归到最近的真实框周围;
使用Focal Loss计算损失函数,对分类网络进行反馈,调整网络中参数,最后输出变电站设备图像中准确的缺陷目标。
有益效果
本发明的基于可变换patch的变电站设备缺陷图像检测方法,与现有技术相比不再利用传统的卷积神经网络去提取缺陷特征信息,而是将自然语言处理领域的Transformer结构引入到目标检测中,将带有缺陷的图片准确切分成多个patch作为Tranformer结构的输入序列,利用了可变的patch分割和Transformer对特征的提取,提高了变电站设备缺陷检测的准确率,实现了变电站设备极小缺陷图像的检测。
附图说明
图1为本发明的方法顺序图;
图2、图3为现有技术中变电站设备缺陷图;
图4为本发明所涉及的Transformer网络构架图;
图5、图6为利用本发明所述方法的变电站设备缺陷图像检测结果图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于可变换patch的变电站设备缺陷图像检测方法,包括以下步骤:
第一步,变电站设备缺陷图像样本的获取:获取变电站设备缺陷图像样本,并进行传统的预处理工作。
第二步,可变换patch模块的构建:构建能够变换path位置及尺度的可变换patch模块。
可变换patch模块用于将整张图片分割成Transformer可提取特征的patch序列。使用可变换patch模块不再像传统分割成固定大小patch,而是增加了位置和尺度参数,让patch位置和大小变得可学习,每张图片根据图片中不同目标分割成不同大小patch。这种方法可以将图像中语义信息保存在一个patch中,减少固定分割对语义信息的破坏,最终提高了后续Transformer结构对图像中目标特征的提取,从而更好的识别和定位变电站中的缺陷目标。其难度在于采用这种方法时生成的patch区域的预测坐标会出现分数情况,不利于模型的训练,只能采用图像处理中采样和双线性插值方法对分割后的patch做进一步处理。当训练不充分时,容易出现检查框回归位置不准等问题。
可变换patch模块的构建包括以下步骤:
(1)将一张完整图像分成N个大小相等的小份图像,每小份图像称为一个patch,当输入图像特征图F大小H×W×C时,则每个patch的大小(P,P)为P=HW/N;
其中H表示图片高,W表示图片宽,C是图片通道数;
每个patch矩形区域的坐标表示为:中心点坐标
Figure BDA0003904016950000081
左上角和右下角坐标
Figure BDA0003904016950000082
Figure BDA0003904016950000083
其中i表示N个patch中第i个patch。
(2)设定可变换patch的位置参数:
在上述生成的patch上添加一个偏移量(δx,δy),并允许它围绕原始中心
Figure BDA0003904016950000091
移动;
使用以下方法预测偏移量参数(δx,δy):
δx,δy=tanh(Woffset·fl(F)),
其中,Woffset是偏移量的权重,并初始化为0,fl(F)是特征图F一个线性层的输出。
(3)设定可变换patch的尺度参数:
将带有偏移量的patch大小(P,P)替换成(Ph,Pw),并使用如下方法预测尺度参数(Ph,Pw):
Pw,Ph=ReLU(tanh(Wscale·fl(F)+bscale)),
其中,Wscale是尺度参数的权重,初始化为0,bscale是线性函数偏移量,初始为P,fl(F)是特征图F一个线性层的输出。
(4)根据设定的位置和尺度参数,获得新的patch矩形区域,其坐标表示为:
左上角(xct+δx-Pw/2,yct+δy-Ph/2)和
右下角(xct+δx+Pw/2,yct+δy+Ph/2)。
(5)设定在patch区域内采样k×k个点,每个采样点位置表示为
Figure BDA0003904016950000092
其中1≤j≤k×k;
所有采样点的特征表示为
Figure BDA0003904016950000093
这些特征被展平并送入线性层去生成patch序列,其表达式如下:
Figure BDA0003904016950000094
其中,concat是拼接函数,将所有采样点特征拼接成一个矩阵,然后送入线性层,该线性层的权重是W,b;
索引为
Figure BDA0003904016950000095
的采样点特征通过双线性插值获得,表达式如下:
Figure BDA0003904016950000096
其中,
G(px,py;qx,qy)=max(0,1-|px-qx|)·max(0,1-|py-qy|),
G(·)是整个积分空间位置的双线性插值核,使得预测坐标均为整数,qx,qy是靠近采样点px,py的四个像素点。
第三步,变电站设备图像缺陷检测模型的构建:基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型。目前视觉领域的Transformer结构输出特征图和输入大小基本保持一致,在此过程中没有尺度的调整。在嵌入可变patch模块构建Transformer结构过程中,我们尝试将多个Transformer阶段叠加在一起,同时在每个阶段内部多头自注意力机制进行特征提取的尺度和维度的变化。
如图4所示,变电站设备图像缺陷检测模型的构建包括以下步骤:
(1)构建Transformer编码器模块,其包括以下步骤:
A1)将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的注意力层,在注意力层做如下具体操作:
A11)将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为Hi×Wi×Ci,并对K、V进行空间降维操作如下:
DR(x)=Norm(Reshape(x,Ri)Ws),
其中,
Figure BDA0003904016950000101
Ri是降维比例,Reshape(x,Ri)是将输入矩阵x降维成大小相同的矩阵
Figure BDA0003904016950000102
其中
Figure BDA0003904016950000103
是一个线性投影将x降维到Ci,Norm(·)表示标准化层;
A12)将Q、K、V三个矩阵输入多头注意力机制计算特征图,具体操作如下:
Figure BDA0003904016950000104
Figure BDA0003904016950000105
其中,Concat(·)是合并矩阵操作,
Figure BDA0003904016950000106
Figure BDA0003904016950000107
Figure BDA0003904016950000108
是线性投影。Ni为第i阶段中注意力层的头数,因此,每个头的维度大小是
Figure BDA0003904016950000109
DR(·)是上述矩阵维度降维操作,Attention(·)自注意力操作如下:
Figure BDA0003904016950000111
A2)将第i(1≤i≤4)阶段注意力机制操作后的结果输入Transformer编码器层中的前馈网络,除了注意力子层以外,在每个阶段在注意力层后连接一个前馈网络层,它包括两个线性变换和一个ReLU激活函数,具体操作如下:
FFN(x)=[ReLU(xW1+b1)]W2+b2
(2)设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络。
(3)设定Transformer网络的第一阶段,
将输入的变电站设备图像分成N个大小相等的小图块,每个小图块称为一个patch,当输入图像大小为H×W×C时,则每个patch的大小(P,P)为P=HW/N;每个patch矩形区域的坐标表示为:中心点坐标
Figure BDA0003904016950000112
左上角和右下角坐标
Figure BDA0003904016950000113
Figure BDA0003904016950000114
将划分好的patch输入上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000115
特征图F1
(4)设定Transformer网络的第二阶段,
将上述大小为
Figure BDA0003904016950000116
特征图F1输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py),将这些特征图序列输入到Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000117
特征图F2
(5)设定Transformer网络的第三阶段,
将上述大小为
Figure BDA0003904016950000118
特征图F2输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000121
特征图F3
(6)设定Transformer网络的第四阶段,
将上述大小为
Figure BDA0003904016950000122
特征图F3输入到上述可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure BDA0003904016950000123
特征图F4
(7)设定Retinanet分类回归网络,
将Retinanet中骨干网络resnet替换成上述可变换patch的Transformer网络提取目标特征信息,然后使用Retinanet中分类网络对上述大小为
Figure BDA0003904016950000124
特征图P4生成候选框,并使用Focal Loss对分类结果计算损失函数,计算过程如下;最后使用Retinanet中回归网络将候选框回归到正确目标位置上;
FL(pt)=-αt(1-pt)γlog(pt)
其中
Figure BDA0003904016950000125
表示正负样本的标签,p表示模型预测y=1的概率,其中αt是平衡因子,γ是超参数。
第四步,变电站设备图像缺陷检测模型的训练:将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练。
(1)设置模型参数:将输入变电站设备图像设置成大小为1333×800,每批次输入2张图片,训练24个周期,初始学习率1×10-4
(2)可变换patch的Transformer网络的训练:
基于可变换patch的Transformer网络作为RetainNet的骨干网络提取特征,设置Transformer网络第一阶段中patch的大小P1=4,C1=64,Transformer编码器中多头注意力机制头的个数N1=1,K,V进行空间降维的比例R1=8;
设置Transformer网络第二阶段中patch的大小P2=2,C2=128,Transformer编码器中多头注意力机制头的个数N2=2,K,V进行空间降维的比例R2=4;
设置Transformer网络第三阶段中patch的大小P3=2,C3=320,Transformer编码器中多头注意力机制头的个数N3=5,K,V进行空间降维的比例R3=2;
设置Transformer网络第四阶段中patch的大小P4=2,C4=512,Transformer编码器中多头注意力机制头的个数N4=8,K,V进行空间降维的比例R4=1;
最后生成大小为
Figure BDA0003904016950000131
特征图。
(3)在大小为
Figure BDA0003904016950000132
特征图上使用RetainNet网络中平移不变性方法生成预测框,设定预测框长宽比为{1:2,1:1,2:1};
对生成的预测框,在分类子网中应用4个3×3卷积对这些预测框进行分类;与分类子网并行的回归子网,用一个全连接层网络将每个预测框回归到最近的真实框周围。
(4)使用Focal Loss计算损失函数,对分类网络进行反馈,调整网络中参数,最后输出变电站设备图像中准确的缺陷目标。
第五步,待检测变电站设备图像的获取:获取待检测变电站设备图像并进行预处理。
第六步,待检测变电站设备图像缺陷结果的检测:将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型,如图5和图6所示,直接得到检测后的变电站设备图像缺陷检测结果。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种基于可变换patch的变电站设备缺陷图像检测方法,其特征在于,包括以下步骤:
11)变电站设备缺陷图像样本的获取:获取变电站设备缺陷图像样本,并进行预处理;
12)可变换patch模块的构建:构建能够变换path位置及尺度的可变换patch模块;
13)变电站设备图像缺陷检测模型的构建:基于Transformer结构并嵌入可变patch模块构建变电站设备图像缺陷检测模型;
14)变电站设备图像缺陷检测模型的训练:将预处理后的变电站设备缺陷图像样本输入变电站设备图像缺陷检测模型进行训练;
15)待检测变电站设备图像的获取:获取待检测变电站设备图像并进行预处理;
16)待检测变电站设备图像缺陷结果的检测:将预处理后的待检测变电站设备图像输入训练后的变电站设备图像缺陷检测模型,得到检测后的变电站设备图像缺陷检测结果。
2.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法,其特征在于,所述可变换patch模块的构建包括以下步骤:
21)将一张完整图像分成N个大小相等的小份图像,每小份图像称为一个patch,当输入图像特征图F大小H×W×C时,则每个patch的大小(P,P)为P=HW/N;
其中H表示图片高,W表示图片宽,C是图片通道数;
每个patch矩形区域的坐标表示为:中心点坐标
Figure FDA0003904016940000011
左上角和右下角坐标
Figure FDA0003904016940000012
Figure FDA0003904016940000013
其中i表示N个patch中第i个patch;
22)设定可变换patch的位置参数:
在上述生成的patch上添加一个偏移量(δx,δy),并允许它围绕原始中心
Figure FDA0003904016940000014
移动;
使用以下方法预测偏移量参数(δx,δy):
δx,δy=tanh(Woffset·fl(F)),
其中,Woffset是偏移量的权重,并初始化为0,fl(F)是特征图F一个线性层的输出;
23)设定可变换patch的尺度参数:
将带有偏移量的patch大小(P,P)替换成(Ph,Pw),并使用如下方法预测尺度参数(Ph,Pw):
Pw,Ph=ReLU(tanh(Wscale·fl(F)+bscale)),
其中,Wscale是尺度参数的权重,初始化为0,bscale是线性函数偏移量,初始为P,fl(F)是特征图F一个线性层的输出;
24)根据设定的位置和尺度参数,获得新的patch矩形区域,其坐标表示为:
左上角(xct+δx-Pw/2,yct+δy-Ph/2)和
右下角(xct+δx+Pw/2,yct+δy+Ph/2);
25)设定在patch区域内采样k×k个点,每个采样点位置表示为
Figure FDA0003904016940000021
其中1≤j≤k×k;
所有采样点的特征表示为
Figure FDA0003904016940000022
这些特征被展平并送入线性层去生成patch序列,其表达式如下:
Figure FDA0003904016940000023
其中,concat是拼接函数,将所有采样点特征拼接成一个矩阵,然后送入线性层,该线性层的权重是W,b;
索引为
Figure FDA0003904016940000024
的采样点特征通过双线性插值获得,表达式如下:
Figure FDA0003904016940000025
其中,
G(px,py;qx,qy)=max(0,1-|px-qx|)·max(0,1-|py-qy|),
G(·)是整个积分空间位置的双线性插值核,使得预测坐标均为整数,qx,qy是靠近采样点px,py的四个像素点。
3.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法,其特征在于,所述变电站设备图像缺陷检测模型的构建包括以下步骤:
31)构建Transformer编码器模块,其包括以下步骤:
311)将第i(1≤i≤4)阶段patch编码层分割出的图像输入到Transformer编码器层中的多头自注意力层,在多头自注意力层做如下具体操作:
3111)将patch编码后的矩阵复制成三个相同的矩阵Q、K、V大小为(HiWi)×Ci,并对K、V进行空间降维操作如下:
DR(x)=Norm(Reshape(x,Ri)Ws),
其中,
Figure FDA0003904016940000031
Ri是降维比例,Reshape(x,Ri)是将输入矩阵x降维成大小相同的矩阵
Figure FDA0003904016940000032
其中
Figure FDA0003904016940000033
是一个线性投影将x降维到Ci,Norm(·)表示标准化层;
3112)将Q、K、V三个矩阵输入多头自注意力机制计算特征图,具体操作如下:
Figure FDA0003904016940000034
Figure FDA0003904016940000035
其中,Concat(·)是合并矩阵操作,
Figure FDA0003904016940000036
Figure FDA0003904016940000037
Figure FDA0003904016940000038
是线性投影;Ni为第i阶段中注意力层的头数,因此,每个头的维度大小是
Figure FDA0003904016940000039
DR(·)是上述矩阵维度降维操作,Attention(·)自注意力操作如下:
Figure FDA00039040169400000310
312)将第i阶段自注意力机制操作后的结果输入Transformer编码器层中的前馈网络,1≤i≤4,除了注意力子层以外,在每个阶段在注意力层后连接一个前馈网络层,它包括两个线性变换和一个ReLU激活函数,具体操作如下:
FFN(x)=[ReLU(xW1+b1)]W2+b2
其中W1,W2,b1,b2是四个线性变化的参数;
32)设定变电站设备图像缺陷检测模型包括可变换patch的Transformer网络的四个阶段和Retinanet分类回归网络;
33)设定Transformer网络的第一阶段,
将输入的变电站设备图像分成N个大小相等的小图块,每个小图块称为一个patch,当输入图像大小为H×W×C时,则每个patch的大小(P,P)为P=HW/N;每个patch矩形区域的坐标表示为:中心点坐标
Figure FDA0003904016940000041
左上角和右下角坐标
Figure FDA0003904016940000042
Figure FDA0003904016940000043
将划分好的patch输入上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure FDA0003904016940000044
特征图F1
34)设定Transformer网络的第二阶段,
将上述大小为
Figure FDA0003904016940000045
特征图F1输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py),将这些特征图序列输入到Transformer编码器模块中进行展平,线性投影后生成大小为
Figure FDA0003904016940000046
特征图F2
35)设定Transformer网络的第三阶段,
将上述大小为
Figure FDA0003904016940000047
特征图F2输入到可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure FDA0003904016940000048
特征图F3
36)设定Transformer网络的第四阶段,
将上述大小为
Figure FDA0003904016940000049
特征图F3输入到上述可变换patch模块分割成N个不同大小的patch,并通过采样和双线性插值获得N个特征图A(px,py);将这些特征图序列输入到上述Transformer编码器模块中进行展平,线性投影后生成大小为
Figure FDA0003904016940000051
特征图F4
37)设定Retinanet分类回归网络,
将Retinanet中骨干网络resnet替换成上述可变换patch的Transformer网络提取目标特征信息,然后使用Retinanet中分类网络对上述大小为
Figure FDA0003904016940000052
特征图P4生成候选框,并使用Focal Loss作为损失函数,计算过程如下;最后使用Retinanet中回归网络将候选框回归到正确目标位置上;
FL(pt)=-αt(1-pt)γlog(pt)
其中
Figure FDA0003904016940000053
y∈{-1,1}表示正负样本的标签,p表示模型预测y=1的概率,其中αt是平衡因子,γ是超参数。
4.根据权利要求1所述的一种基于可变换patch的变电站设备缺陷图像检测方法,其特征在于,所述变电站设备图像缺陷检测模型的训练包括以下步骤:
41)设置模型参数:将输入变电站设备图像设置成大小为1333×800,每批次输入2张图片,训练24个周期,初始学习率1×10-4
42)可变换patch的Transformer网络的训练:
基于可变换patch的Transformer网络作为RetainNet的骨干网络提取特征,
设置Transformer网络第一阶段中patch的大小P1=4,C1=64,Transformer编码器中多头注意力机制头的个数N1=1,K,V进行空间降维的比例R1=8;
设置Transformer网络第二阶段中patch的大小P2=2,C2=128,Transformer编码器中多头注意力机制头的个数N2=2,K,V进行空间降维的比例R2=4;
设置Transformer网络第三阶段中patch的大小P3=2,C3=320,Transformer编码器中多头注意力机制头的个数N3=5,K,V进行空间降维的比例R3=2;
设置Transformer网络第四阶段中patch的大小P4=2,C4=512,Transformer编码器中多头注意力机制头的个数N4=8,K,V进行空间降维的比例R4=1;
最后生成大小为
Figure FDA0003904016940000061
特征图;
43)在大小为
Figure FDA0003904016940000062
特征图上使用RetainNet网络中平移不变性方法生成预测框,设定预测框长宽比为{1∶2,1∶1,2∶1};
对生成的预测框,在分类子网中应用4个3×3卷积对这些预测框进行分类;与分类子网并行的回归子网,用一个全连接层网络将每个预测框回归到最近的真实框周围;
44)使用Focal Loss计算损失函数,对分类网络进行反馈,调整网络中参数,最后输出变电站设备图像中准确的缺陷目标。
CN202211299675.1A 2022-10-24 2022-10-24 基于可变换patch的变电站设备缺陷图像检测方法 Pending CN115937091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211299675.1A CN115937091A (zh) 2022-10-24 2022-10-24 基于可变换patch的变电站设备缺陷图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211299675.1A CN115937091A (zh) 2022-10-24 2022-10-24 基于可变换patch的变电站设备缺陷图像检测方法

Publications (1)

Publication Number Publication Date
CN115937091A true CN115937091A (zh) 2023-04-07

Family

ID=86654916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211299675.1A Pending CN115937091A (zh) 2022-10-24 2022-10-24 基于可变换patch的变电站设备缺陷图像检测方法

Country Status (1)

Country Link
CN (1) CN115937091A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152142A (zh) * 2023-10-30 2023-12-01 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117951585A (zh) * 2024-03-27 2024-04-30 国网山东省电力公司曲阜市供电公司 一种电力设备运行状态实时检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152142A (zh) * 2023-10-30 2023-12-01 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117152142B (zh) * 2023-10-30 2024-02-02 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117951585A (zh) * 2024-03-27 2024-04-30 国网山东省电力公司曲阜市供电公司 一种电力设备运行状态实时检测方法及系统

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110648310B (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN115937091A (zh) 基于可变换patch的变电站设备缺陷图像检测方法
CN109377445B (zh) 模型训练方法、替换图像背景的方法、装置和电子系统
CN110770752A (zh) 多尺度特征融合网络结合定位模型的害虫自动计数方法
CN111768388A (zh) 一种基于正样本参考的产品表面缺陷检测方法及系统
CN109360192A (zh) 一种基于全卷积网络的物联网大田作物叶部病害检测方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN114241469A (zh) 一种面向电表轮换过程的信息识别方法和装置
CN114758329A (zh) 基于深度学习预测热成像图中目标区域温度的系统及方法
CN116189191A (zh) 一种基于yolov5的可变长车牌识别方法
CN112446376B (zh) 一种工业图像智能分割压缩方法
CN114972246A (zh) 一种基于深度学习的模切产品表面缺陷检测方法
CN112884741B (zh) 一种基于图像相似性对比的印刷表观缺陷检测方法
CN109815957A (zh) 一种基于彩色图像在复杂背景下的文字识别方法
CN113536896A (zh) 基于改进Faser RCNN的小目标检测方法、装置及存储介质
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN116563230A (zh) 焊缝缺陷识别方法及系统
CN114283431B (zh) 一种基于可微分二值化的文本检测方法
CN116109849A (zh) 基于surf特征匹配的高压隔离开关定位与状态识别方法
CN113192018B (zh) 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法
CN113947563A (zh) 一种基于深度学习的电缆工艺质量动态缺陷检测方法
Jia et al. A Novel Fault Inspection Method of Steel Plate Surface
CN117078608B (zh) 一种基于双掩码引导的高反光皮革表面缺陷检测方法
CN117314895B (zh) 缺陷检测方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination