CN116523835A - 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 - Google Patents
一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 Download PDFInfo
- Publication number
- CN116523835A CN116523835A CN202310269974.9A CN202310269974A CN116523835A CN 116523835 A CN116523835 A CN 116523835A CN 202310269974 A CN202310269974 A CN 202310269974A CN 116523835 A CN116523835 A CN 116523835A
- Authority
- CN
- China
- Prior art keywords
- improved
- net
- multiscale
- detection method
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000005856 abnormality Effects 0.000 title abstract description 8
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 230000006798 recombination Effects 0.000 claims abstract description 4
- 238000005215 recombination Methods 0.000 claims abstract description 4
- 230000008521 reorganization Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 abstract description 3
- 238000003709 image segmentation Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000000034 method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000032683 aging Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 208000025274 Lightning injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明涉及图像分割技术领域,尤其涉及一种融合多尺度和注意力机制的改进U‑Net高温异常检测方法,包括,采集电力设备红外图像,建立数据集样本;建立融合多尺度和注意力机制的改进U‑Net网络模型,将原U‑Net网络中的卷积单元替换为残差单元,以确保网络快速收敛,在原U‑Net网络的中间层加入Transformer模型,用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U‑Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;使用数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。本发明的算法能够有效的实现电力高温异常检测,提高巡查人员的工作效率,为高温异常检测提供保障。
Description
技术领域
本发明涉及图像分割技术领域,尤其涉及一种融合多尺度和注意力机制的改进U-Net高温异常检测方法。
背景技术
我国地域辽阔,电力设备分布点多,这些电力设备长期暴露在野外,易受高温、大风、雷击、雨雪、山火等影响,可能导致设备老化、损坏等问题。任何一个电力设备的故障都会造成大面积的停电,影响居民生活以及工业生产。因此,定期的巡查,及时准确的发现老化、故障设备对于生活生产具有重大意义。随着无人机电力巡检设备的发展,通过无人机传输的各角度图像,可以提高工作人员的故障检查效率。然而,随着我国电网规模逐渐扩大,极大的增加巡查人员的工作量,仅通过人工对比红外图像的效率已经不难满足工作人员的需求,需要智能化的识别技术,辅助人工识别,提高对电力高温异常区域的检测效率。深度学习在图像识别领域发挥出极强的优势,利用语义分割方法诊断被观察设备的红外图像,为高温异常检测提供了新方法。因此,采用深度学习对高温异常检测区域的识别已经称为一种趋势,不仅提高了巡查人员的工作效率,也为高温异常检测提供保障。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提供了一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,包括:
采集电力设备红外图像,建立数据集样本,所述数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在原U-Net网络的中间层加入Transformer模型,所述Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于所述融合多尺度和注意力机制的改进U-Net网络模型,使用所述数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
进一步地,所述融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成,所述编码器用于提取目标图像的特征,所述解码器用于融合目标图像的特征;其中,所述编码器由残差模块、最大池化层组成,所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
进一步地,所述残差模块包括残差单元、卷积单元和ReLu函数,所述卷积单元用于提取所述残差单元中的特征,所述ReLu函数通过函数把提取出的特征保留并映射出来,其中,所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个所述ReLu函数。
进一步地,所述ReLu函数后接有一个2×2的最大池化层,所述最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。
进一步地,第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中,所述Transformer模型用于重塑编码器的特征,将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率,以实现全局信息表达的增强,所述Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层所述Transformer Layer后得出的Hidden Feature,其中,所述1×1卷积层用于改变特征图的分辨率,所述Transformer Encoder用于将输入特征进行编码。
在所述Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈RH×W×C后将图像转化为序列化数据,将X铺平成一个2D序列(H,W)是输入特征图X的分辨率,C是X的通道数,(P,P)是每个特征patch补丁的分辨率,N=HW/P2是图像补丁的数量,P2×C是每个序列的长度。
Transformer层中的数据计算公式为:
对于Transformer Encoder第一层的输入数据z0是通过下面的公式得到的:
其中即未Linear Projection后的patch embedding,E是切片嵌入投影,Epos是position embedding,transformer层还包含L层Multihead Self-Attention(MSA)和Multi-Layer Perceptron(MLP)模块。
对于Transformer Encoder的第l层,记其输入为zl-1,输出为zl,则计算过程为
z′l=MSA(LN(zl-1))+zl-1 (2)
zl=MSA(LN(z′l))+z′l (3)
其中,LN为Layer Norm,zl为编码后的图像表示,在每个MLP和MSA之前应用LayerNorm,并在MLP和MSA之后进行残差连接。
MSA函数首先将输入序列根据头的数量进行拆分,然后扩展维度,将特征映射到Q,K,V,其中,Q,K,V是三个矩阵,他们是上一层Encoder的输出,得到矩阵Q,K,V之后就可以计算出Self-Attention自注意的输出。
自注意力的计算公式如公式4所示,
多头自注意力的表达式如式5所示,每一个head都输出一个结果矩阵,将这些矩阵拼接成一个矩阵,再乘以一个权重矩阵WO,使得最终的矩阵大小与一个head的结果矩阵大小一致,最后将heads组QKV的输出拼接,获得MSA的输出。
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (5)
其中
WO为权重矩阵,Wi表示第i个头的变换矩阵,h表示头的个数。
MLP将dmodel放大到mlp-ratio×dmodel,再缩小到dmodel。将数据映射到高维空间再映射到低维空间的过程,可以学习到更加抽象的特征,提高特征的表达能力。
在本发明中,L=6,heads=12,dk=dmodel/heads=64,dmodel=768,patch=1,H=W=8,C=1024。首先用1×1的卷积将输入特征(8,8,1024)映射到(8,8,768),然后将特征拉平成2D序列,经过6层Transformer Layer得到Hidden Feature(65,768)。Hidden Feature(64+classification token,768)丢弃classification token,大小为(64,768)。最后重塑Hidden Feature为(8,8,768),使用1×1的卷积将重塑的Hidden Feature(8,8,768)映射到(8,8,1024)。
进一步地,所述ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
进一步地,所述ASPP多尺度特征融合模块的具体结构为:一个所述1×1的卷积层和3个膨胀率为2,3,4的所述3×3卷积层形成并行的四个分支,所述四个分支获得特征信息后进行拼接,拼接后进入所述1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从所述ASPP多尺度特征融合模块中输出。
进一步地,所述上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组,所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作;
其中所述PixelShuffle像素重组代替了原始U-Net所采用的转置卷积,在发明中,输入特征分辨率为(H,W,C),ASPP模块的输出特征分辨率为(H,W,r*C),通过PixelShuffle像素重组获得高分辨率图像(r*H,r*W,C/r),r=2。
进一步地,所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
进一步地,所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整,所述测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。
与现有技术相比,本发明的有益效果是:
本发明在U-Net网络模型中的上采样之前加入多尺度特征融合模块,减少细节信息损失,扩大了感受野;使用PixelShuffle像素重组代替原始U-Net所采用的转置卷积,恢复更多的细节信息;在U-Net网络的中间层加入Transformer模型,增强了网络全局建模能力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法的实现流程图;
图2为Transformer模型的结构示意图;
图3为ASPP多尺度特征融合模块的结构示意图;
图4为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法对红外图像的电力高温异常区域检测图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
实施例1
本发明提供一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,基本包含以下步骤:
采集电力设备红外图像,建立数据集样本,数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在原U-Net网络的中间层加入Transformer模型,Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于融合多尺度和注意力机制的改进U-Net网络模型,使用数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
进一步地,如图1所示,融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成,编码器用于提取目标图像的特征,解码器用于融合目标图像的特征;其中,编码器由残差模块、最大池化层组成,解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
进一步地,残差模块包括残差单元、卷积单元和ReLu函数,卷积单元用于提取所述残差单元中的特征,ReLu函数通过函数把提取出的特征保留并映射出来,其中,残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个ReLu函数。
进一步地,ReLu函数后接有一个2×2的最大池化层,最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。
进一步地,第四个最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中,如图2所示,Transformer模型用于重塑编码器的特征,将高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入Transformer模型时的分辨率,以实现全局信息表达的增强,Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层Transformer Layer后得出的Hidden Feature,其中,1×1卷积层用于改变特征图的分辨率,Transformer Encoder用于将输入特征进行编码。
在Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈RH×W×C后将图像转化为序列化数据,将X铺平成一个2D序列 (H,W)是输入特征图X的分辨率,C是X的通道数,(P,P)是每个特征patch补丁的分辨率,N=HW/P2是图像补丁的数量,P2×C是每个序列的长度。
Transformer层中的数据计算公式为:
对于Transformer Encoder第一层的输入数据z0是通过下面的公式得到的:
其中即未Linear Projection后的patch embedding,E是切片嵌入投影,Epos是position embedding,transformer层还包含L层Multihead Self-Attention(MSA)和Multi-Layer Perceptron(MLP)模块。
对于Transformer Encoder的第l层,记其输入为zl-1,输出为zl,则计算过程为
z′l=MSA(LN(zl-1))+zl-1 (2)
zl=MSA(LN(z′l))+z′l (3)
其中,LN为Layer Norm,zl为编码后的图像表示,在每个MLP和MSA之前应用LayerNorm,并在MLP和MSA之后进行残差连接。
MSA函数首先将输入序列根据头的数量进行拆分,然后扩展维度,将特征映射到Q,K,V,其中,Q,K,V是三个矩阵,他们是上一层Encoder的输出,得到矩阵Q,K,V之后就可以计算出Self-Attention自注意的输出。
自注意力的计算公式如公式4所示,
多头自注意力的表达式如式5所示,每一个head都输出一个结果矩阵,将这些矩阵拼接成一个矩阵,再乘以一个权重矩阵WO,使得最终的矩阵大小与一个head的结果矩阵大小一致。最后将heads组QKV的输出拼接,获得MSA的输出。
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (5)
其中
WO为权重矩阵,Wi表示第i个头的变换矩阵,h表示头的个数。
MLP将dmodel放大到mlp-ratio×dmodel,再缩小到dmodel。将数据映射到高维空间再映射到低维空间的过程,可以学习到更加抽象的特征,提高特征的表达能力。
在本发明中,L=6,heads=12,dk=dmodel/heads=64,dmodel=768,patch=1,H=W=8,C=1024。首先用1×1的卷积将输入特征(8,8,1024)映射到(8,8,768),然后将特征拉平成2D序列,经过6层Transformer Layer得到Hidden Feature(65,768)。Hidden Feature(64+classification token,768)丢弃classification token,大小为(64,768)。最后重塑Hidden Feature为(8,8,768),使用1×1的卷积将重塑的Hidden Feature(8,8,768)映射到(8,8,1024)。
进一步地,如图3所示,ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
进一步地,ASPP多尺度特征融合模块的具体结构为:一个1×1的卷积层和3个膨胀率为2,3,4的3×3卷积层形成并行的四个分支,四个分支获得特征信息后进行拼接,拼接后进入1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从ASPP多尺度特征融合模块中输出。
进一步地,上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组,PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作;
其中PixelShuffle像素重组代替了原始U-Net所采用的转置卷积,在发明中,输入特征分辨率为(H,W,C),ASPP模块的输出特征分辨率为(H,W,r*C),通过PixelShuffle像素重组获得高分辨率图像(r*H,r*W,C/r),r=2。
进一步地,融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
进一步地,数据集样本划分为训练集、验证集和测试集,训练集用于训练融合多尺度和注意力机制的改进U-Net网络模型,验证集用于对融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整,测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。
为了能够体现本发明的模型效果,如图4所示,本发明对红外图像进行分割,准确检测到了存在高温异常的区域。
本发明未详细阐述部分属于本领域技术人员的公知技术。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例变化、变型都将落在本发明权利要求书的范围内。
Claims (10)
1.一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于,包括:
采集电力设备红外图像,建立数据集样本,所述数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的所述改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在所述原U-Net网络的中间层加入Transformer模型,所述Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于所述融合多尺度和注意力机制的所述改进U-Net网络模型,使用所述数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
2.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:
所述融合多尺度和注意力机制的所述改进U-Net网络模型主要由五个编码器和四个解码器组成,所述编码器用于提取目标图像的特征,所述解码器用于融合目标图像的特征;
其中,所述编码器由残差模块、最大池化层组成,所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
3.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述残差模块包括残差单元、卷积单元和ReLu函数,所述卷积单元用于提取所述残差单元中的特征,所述ReLu函数通过函数把提取出的特征保留并映射出来,其中,所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个所述ReLu函数。
4.根据权利要求3所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ReLu函数后接有一个2×2的最大池化层,所述最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化,其中,所述最大池化层有四个。
5.根据权利要求4所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入所述Transformer模型中,所述Transformer模型用于重塑编码器的特征,将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率,以实现全局信息表达的增强,所述Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层所述TransformerLayer后得出的HiddenFeature,其中,所述1×1卷积层用于改变特征图的分辨率,所述Transformer Encoder用于将输入特征进行编码。
6.根据权利要求5所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
7.根据权利要求6所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ASPP多尺度特征融合模块的具体结构为:一个所述1×1的卷积层和3个膨胀率为2,3,4的所述3×3卷积层形成并行的四个分支,所述四个分支获得特征信息后进行拼接,拼接后进入所述1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从所述ASPP多尺度特征融合模块中输出。
8.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述上采样操作的方式为ESPCN中的PixelShuffe像素重组,所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作。
9.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
10.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的所述改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的所述改进U-Net网络模型的参数进行调整,所述测试集用于测试所述融合多尺度和注意力机制的所述改进U-Net网络模型是否准确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310269974.9A CN116523835A (zh) | 2023-03-20 | 2023-03-20 | 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310269974.9A CN116523835A (zh) | 2023-03-20 | 2023-03-20 | 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116523835A true CN116523835A (zh) | 2023-08-01 |
Family
ID=87394694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310269974.9A Pending CN116523835A (zh) | 2023-03-20 | 2023-03-20 | 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523835A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196972A (zh) * | 2023-08-25 | 2023-12-08 | 山东浪潮科学研究院有限公司 | 一种基于改进的Transformer的文档伪影去除方法 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
-
2023
- 2023-03-20 CN CN202310269974.9A patent/CN116523835A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117196972A (zh) * | 2023-08-25 | 2023-12-08 | 山东浪潮科学研究院有限公司 | 一种基于改进的Transformer的文档伪影去除方法 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
CN117333777B (zh) * | 2023-12-01 | 2024-02-13 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116523835A (zh) | 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 | |
CN114943832B (zh) | 一种基于多路卷积特征融合网络与差温知识蒸馏的路面裂缝图像轻量化分割方法 | |
CN113205039B (zh) | 基于多dcnn网络的电力设备故障图像识别勘灾系统及方法 | |
CN112116573B (zh) | 一种高精度的红外图像异常检测方法及系统 | |
CN114973032B (zh) | 一种基于深度卷积神经网络的光伏板热斑检测方法及装置 | |
CN116883801A (zh) | 基于注意力机制与多尺度特征融合的YOLOv8目标检测方法 | |
CN118314436A (zh) | 一种基于改进YOLOv8的轻量级绝缘子缺陷检测方法 | |
CN117809164A (zh) | 基于多模态融合的变电站设备故障检测方法及系统 | |
CN114021741A (zh) | 一种基于深度学习的光伏电池板巡检方法 | |
CN112464846A (zh) | 一种车站货运列车车厢异常故障的自动识别方法 | |
CN113436184A (zh) | 基于改进孪生网络的电力设备图像缺陷判别方法及系统 | |
CN114998294A (zh) | 一种基于知识蒸馏的高铁绝缘子缺陷检测方法 | |
CN118298149A (zh) | 输电线路上零部件的目标检测方法 | |
CN116416237A (zh) | 基于改进YOLOv5与模糊图像增强的输电线路缺陷检测方法 | |
CN114627044A (zh) | 一种基于深度学习的太阳能光伏组件热斑检测方法 | |
CN116523875A (zh) | 基于FPGA预处理与改进YOLOv5的绝缘子缺陷检测方法 | |
CN117237696A (zh) | 基于YOLOv5与注意力机制的变电站杂草检测方法及系统 | |
CN113496210B (zh) | 基于注意力机制的光伏组串跟踪及故障跟踪方法 | |
CN117113066B (zh) | 一种基于计算机视觉的输电线路绝缘子缺陷检测方法 | |
CN117593666A (zh) | 一种极光图像的地磁台站数据预测方法及系统 | |
CN116503398B (zh) | 绝缘子污闪检测方法、装置、电子设备及存储介质 | |
CN116703819A (zh) | 一种基于知识蒸馏的铁路货车钢地板破损检测方法 | |
CN116452848A (zh) | 一种基于改进注意力机制的金具分类检测方法 | |
CN114980723A (zh) | 一种用于跨工况贴片机吸嘴的故障预测方法、系统 | |
CN113205487B (zh) | 一种基于残差网络融合异构数据的电缆状态检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |