CN116523835A - 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 - Google Patents

一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 Download PDF

Info

Publication number
CN116523835A
CN116523835A CN202310269974.9A CN202310269974A CN116523835A CN 116523835 A CN116523835 A CN 116523835A CN 202310269974 A CN202310269974 A CN 202310269974A CN 116523835 A CN116523835 A CN 116523835A
Authority
CN
China
Prior art keywords
improved
net
multiscale
detection method
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310269974.9A
Other languages
English (en)
Inventor
艾春
王旭东
李国通
施渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bingo Electric Technology Shanghai Co ltd
Original Assignee
Bingo Electric Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bingo Electric Technology Shanghai Co ltd filed Critical Bingo Electric Technology Shanghai Co ltd
Priority to CN202310269974.9A priority Critical patent/CN116523835A/zh
Publication of CN116523835A publication Critical patent/CN116523835A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像分割技术领域,尤其涉及一种融合多尺度和注意力机制的改进U‑Net高温异常检测方法,包括,采集电力设备红外图像,建立数据集样本;建立融合多尺度和注意力机制的改进U‑Net网络模型,将原U‑Net网络中的卷积单元替换为残差单元,以确保网络快速收敛,在原U‑Net网络的中间层加入Transformer模型,用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U‑Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;使用数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。本发明的算法能够有效的实现电力高温异常检测,提高巡查人员的工作效率,为高温异常检测提供保障。

Description

一种融合多尺度和注意力机制的改进U-Net高温异常检测 方法
技术领域
本发明涉及图像分割技术领域,尤其涉及一种融合多尺度和注意力机制的改进U-Net高温异常检测方法。
背景技术
我国地域辽阔,电力设备分布点多,这些电力设备长期暴露在野外,易受高温、大风、雷击、雨雪、山火等影响,可能导致设备老化、损坏等问题。任何一个电力设备的故障都会造成大面积的停电,影响居民生活以及工业生产。因此,定期的巡查,及时准确的发现老化、故障设备对于生活生产具有重大意义。随着无人机电力巡检设备的发展,通过无人机传输的各角度图像,可以提高工作人员的故障检查效率。然而,随着我国电网规模逐渐扩大,极大的增加巡查人员的工作量,仅通过人工对比红外图像的效率已经不难满足工作人员的需求,需要智能化的识别技术,辅助人工识别,提高对电力高温异常区域的检测效率。深度学习在图像识别领域发挥出极强的优势,利用语义分割方法诊断被观察设备的红外图像,为高温异常检测提供了新方法。因此,采用深度学习对高温异常检测区域的识别已经称为一种趋势,不仅提高了巡查人员的工作效率,也为高温异常检测提供保障。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提供了一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,包括:
采集电力设备红外图像,建立数据集样本,所述数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在原U-Net网络的中间层加入Transformer模型,所述Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于所述融合多尺度和注意力机制的改进U-Net网络模型,使用所述数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
进一步地,所述融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成,所述编码器用于提取目标图像的特征,所述解码器用于融合目标图像的特征;其中,所述编码器由残差模块、最大池化层组成,所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
进一步地,所述残差模块包括残差单元、卷积单元和ReLu函数,所述卷积单元用于提取所述残差单元中的特征,所述ReLu函数通过函数把提取出的特征保留并映射出来,其中,所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个所述ReLu函数。
进一步地,所述ReLu函数后接有一个2×2的最大池化层,所述最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。
进一步地,第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中,所述Transformer模型用于重塑编码器的特征,将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率,以实现全局信息表达的增强,所述Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层所述Transformer Layer后得出的Hidden Feature,其中,所述1×1卷积层用于改变特征图的分辨率,所述Transformer Encoder用于将输入特征进行编码。
在所述Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈RH×W×C后将图像转化为序列化数据,将X铺平成一个2D序列(H,W)是输入特征图X的分辨率,C是X的通道数,(P,P)是每个特征patch补丁的分辨率,N=HW/P2是图像补丁的数量,P2×C是每个序列的长度。
Transformer层中的数据计算公式为:
对于Transformer Encoder第一层的输入数据z0是通过下面的公式得到的:
其中即未Linear Projection后的patch embedding,E是切片嵌入投影,Epos是position embedding,transformer层还包含L层Multihead Self-Attention(MSA)和Multi-Layer Perceptron(MLP)模块。
对于Transformer Encoder的第l层,记其输入为zl-1,输出为zl,则计算过程为
z′l=MSA(LN(zl-1))+zl-1 (2)
zl=MSA(LN(z′l))+z′l (3)
其中,LN为Layer Norm,zl为编码后的图像表示,在每个MLP和MSA之前应用LayerNorm,并在MLP和MSA之后进行残差连接。
MSA函数首先将输入序列根据头的数量进行拆分,然后扩展维度,将特征映射到Q,K,V,其中,Q,K,V是三个矩阵,他们是上一层Encoder的输出,得到矩阵Q,K,V之后就可以计算出Self-Attention自注意的输出。
自注意力的计算公式如公式4所示,
多头自注意力的表达式如式5所示,每一个head都输出一个结果矩阵,将这些矩阵拼接成一个矩阵,再乘以一个权重矩阵WO,使得最终的矩阵大小与一个head的结果矩阵大小一致,最后将heads组QKV的输出拼接,获得MSA的输出。
MultiHead(Q,K,V)=Concat(head1,…,headh)WO (5)
其中
WO为权重矩阵,Wi表示第i个头的变换矩阵,h表示头的个数。
MLP将dmodel放大到mlp-ratio×dmodel,再缩小到dmodel。将数据映射到高维空间再映射到低维空间的过程,可以学习到更加抽象的特征,提高特征的表达能力。
在本发明中,L=6,heads=12,dk=dmodel/heads=64,dmodel=768,patch=1,H=W=8,C=1024。首先用1×1的卷积将输入特征(8,8,1024)映射到(8,8,768),然后将特征拉平成2D序列,经过6层Transformer Layer得到Hidden Feature(65,768)。Hidden Feature(64+classification token,768)丢弃classification token,大小为(64,768)。最后重塑Hidden Feature为(8,8,768),使用1×1的卷积将重塑的Hidden Feature(8,8,768)映射到(8,8,1024)。
进一步地,所述ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
进一步地,所述ASPP多尺度特征融合模块的具体结构为:一个所述1×1的卷积层和3个膨胀率为2,3,4的所述3×3卷积层形成并行的四个分支,所述四个分支获得特征信息后进行拼接,拼接后进入所述1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从所述ASPP多尺度特征融合模块中输出。
进一步地,所述上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组,所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作;
其中所述PixelShuffle像素重组代替了原始U-Net所采用的转置卷积,在发明中,输入特征分辨率为(H,W,C),ASPP模块的输出特征分辨率为(H,W,r*C),通过PixelShuffle像素重组获得高分辨率图像(r*H,r*W,C/r),r=2。
进一步地,所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
进一步地,所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整,所述测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。
与现有技术相比,本发明的有益效果是:
本发明在U-Net网络模型中的上采样之前加入多尺度特征融合模块,减少细节信息损失,扩大了感受野;使用PixelShuffle像素重组代替原始U-Net所采用的转置卷积,恢复更多的细节信息;在U-Net网络的中间层加入Transformer模型,增强了网络全局建模能力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法的实现流程图;
图2为Transformer模型的结构示意图;
图3为ASPP多尺度特征融合模块的结构示意图;
图4为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法对红外图像的电力高温异常区域检测图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
实施例1
本发明提供一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,基本包含以下步骤:
采集电力设备红外图像,建立数据集样本,数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在原U-Net网络的中间层加入Transformer模型,Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于融合多尺度和注意力机制的改进U-Net网络模型,使用数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
进一步地,如图1所示,融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成,编码器用于提取目标图像的特征,解码器用于融合目标图像的特征;其中,编码器由残差模块、最大池化层组成,解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
进一步地,残差模块包括残差单元、卷积单元和ReLu函数,卷积单元用于提取所述残差单元中的特征,ReLu函数通过函数把提取出的特征保留并映射出来,其中,残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个ReLu函数。
进一步地,ReLu函数后接有一个2×2的最大池化层,最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。
进一步地,第四个最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中,如图2所示,Transformer模型用于重塑编码器的特征,将高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入Transformer模型时的分辨率,以实现全局信息表达的增强,Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层Transformer Layer后得出的Hidden Feature,其中,1×1卷积层用于改变特征图的分辨率,Transformer Encoder用于将输入特征进行编码。
在Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈RH×W×C后将图像转化为序列化数据,将X铺平成一个2D序列 (H,W)是输入特征图X的分辨率,C是X的通道数,(P,P)是每个特征patch补丁的分辨率,N=HW/P2是图像补丁的数量,P2×C是每个序列的长度。
Transformer层中的数据计算公式为:
对于Transformer Encoder第一层的输入数据z0是通过下面的公式得到的:
其中即未Linear Projection后的patch embedding,E是切片嵌入投影,Epos是position embedding,transformer层还包含L层Multihead Self-Attention(MSA)和Multi-Layer Perceptron(MLP)模块。
对于Transformer Encoder的第l层,记其输入为zl-1,输出为zl,则计算过程为
z′l=MSA(LN(zl-1))+zl-1 (2)
zl=MSA(LN(z′l))+z′l (3)
其中,LN为Layer Norm,zl为编码后的图像表示,在每个MLP和MSA之前应用LayerNorm,并在MLP和MSA之后进行残差连接。
MSA函数首先将输入序列根据头的数量进行拆分,然后扩展维度,将特征映射到Q,K,V,其中,Q,K,V是三个矩阵,他们是上一层Encoder的输出,得到矩阵Q,K,V之后就可以计算出Self-Attention自注意的输出。
自注意力的计算公式如公式4所示,
多头自注意力的表达式如式5所示,每一个head都输出一个结果矩阵,将这些矩阵拼接成一个矩阵,再乘以一个权重矩阵WO,使得最终的矩阵大小与一个head的结果矩阵大小一致。最后将heads组QKV的输出拼接,获得MSA的输出。
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (5)
其中
WO为权重矩阵,Wi表示第i个头的变换矩阵,h表示头的个数。
MLP将dmodel放大到mlp-ratio×dmodel,再缩小到dmodel。将数据映射到高维空间再映射到低维空间的过程,可以学习到更加抽象的特征,提高特征的表达能力。
在本发明中,L=6,heads=12,dk=dmodel/heads=64,dmodel=768,patch=1,H=W=8,C=1024。首先用1×1的卷积将输入特征(8,8,1024)映射到(8,8,768),然后将特征拉平成2D序列,经过6层Transformer Layer得到Hidden Feature(65,768)。Hidden Feature(64+classification token,768)丢弃classification token,大小为(64,768)。最后重塑Hidden Feature为(8,8,768),使用1×1的卷积将重塑的Hidden Feature(8,8,768)映射到(8,8,1024)。
进一步地,如图3所示,ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
进一步地,ASPP多尺度特征融合模块的具体结构为:一个1×1的卷积层和3个膨胀率为2,3,4的3×3卷积层形成并行的四个分支,四个分支获得特征信息后进行拼接,拼接后进入1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从ASPP多尺度特征融合模块中输出。
进一步地,上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组,PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作;
其中PixelShuffle像素重组代替了原始U-Net所采用的转置卷积,在发明中,输入特征分辨率为(H,W,C),ASPP模块的输出特征分辨率为(H,W,r*C),通过PixelShuffle像素重组获得高分辨率图像(r*H,r*W,C/r),r=2。
进一步地,融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
进一步地,数据集样本划分为训练集、验证集和测试集,训练集用于训练融合多尺度和注意力机制的改进U-Net网络模型,验证集用于对融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整,测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。
为了能够体现本发明的模型效果,如图4所示,本发明对红外图像进行分割,准确检测到了存在高温异常的区域。
本发明未详细阐述部分属于本领域技术人员的公知技术。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例变化、变型都将落在本发明权利要求书的范围内。

Claims (10)

1.一种融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于,包括:
采集电力设备红外图像,建立数据集样本,所述数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型;
建立融合多尺度和注意力机制的所述改进U-Net网络模型,将原U-Net网络中的卷积单元替换为残差单元,以确保网络快速收敛;在所述原U-Net网络的中间层加入Transformer模型,所述Transformer模型用于实现网络全局建模能力的增强;用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积,以实现更多细节信息的恢复,并在上采样之前加入ASPP多尺度特征融合模块,以实现感受野的扩大;
基于所述融合多尺度和注意力机制的所述改进U-Net网络模型,使用所述数据集样本进行模型训练,以实现对目标高温异常区域的自动分割。
2.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:
所述融合多尺度和注意力机制的所述改进U-Net网络模型主要由五个编码器和四个解码器组成,所述编码器用于提取目标图像的特征,所述解码器用于融合目标图像的特征;
其中,所述编码器由残差模块、最大池化层组成,所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。
3.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述残差模块包括残差单元、卷积单元和ReLu函数,所述卷积单元用于提取所述残差单元中的特征,所述ReLu函数通过函数把提取出的特征保留并映射出来,其中,所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接,残差链接后方接有一个所述ReLu函数。
4.根据权利要求3所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ReLu函数后接有一个2×2的最大池化层,所述最大池化层用于进行下采样,去除冗余信息、对特征进行压缩、以实现网络复杂度的简化,其中,所述最大池化层有四个。
5.根据权利要求4所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入所述Transformer模型中,所述Transformer模型用于重塑编码器的特征,将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率,以实现全局信息表达的增强,所述Transformer模型主要包括一个2个1×1的卷积层,6层Transformer Layer和经过6层所述TransformerLayer后得出的HiddenFeature,其中,所述1×1卷积层用于改变特征图的分辨率,所述Transformer Encoder用于将输入特征进行编码。
6.根据权利要求5所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ASPP多尺度特征融合模块用于扩大感受野,以实现细节信息损失的减少,所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2,3,4的3×3卷积层。
7.根据权利要求6所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述ASPP多尺度特征融合模块的具体结构为:一个所述1×1的卷积层和3个膨胀率为2,3,4的所述3×3卷积层形成并行的四个分支,所述四个分支获得特征信息后进行拼接,拼接后进入所述1×1的卷积层改变通道数,将通道数降为输入通道数的2倍,用于提高提取信息的频率,以实现反应的细节信息的增多,最后从所述ASPP多尺度特征融合模块中输出。
8.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述上采样操作的方式为ESPCN中的PixelShuffe像素重组,所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大,将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图,实现上采样操作。
9.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征,以实现更多空间信息的恢复。
10.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法,其特征在于:所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的所述改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的所述改进U-Net网络模型的参数进行调整,所述测试集用于测试所述融合多尺度和注意力机制的所述改进U-Net网络模型是否准确。
CN202310269974.9A 2023-03-20 2023-03-20 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法 Pending CN116523835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310269974.9A CN116523835A (zh) 2023-03-20 2023-03-20 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310269974.9A CN116523835A (zh) 2023-03-20 2023-03-20 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法

Publications (1)

Publication Number Publication Date
CN116523835A true CN116523835A (zh) 2023-08-01

Family

ID=87394694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310269974.9A Pending CN116523835A (zh) 2023-03-20 2023-03-20 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法

Country Status (1)

Country Link
CN (1) CN116523835A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117196972A (zh) * 2023-08-25 2023-12-08 山东浪潮科学研究院有限公司 一种基于改进的Transformer的文档伪影去除方法
CN117333777A (zh) * 2023-12-01 2024-01-02 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117196972A (zh) * 2023-08-25 2023-12-08 山东浪潮科学研究院有限公司 一种基于改进的Transformer的文档伪影去除方法
CN117333777A (zh) * 2023-12-01 2024-01-02 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质
CN117333777B (zh) * 2023-12-01 2024-02-13 山东元明晴技术有限公司 一种坝体异常识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN116523835A (zh) 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法
CN114943832B (zh) 一种基于多路卷积特征融合网络与差温知识蒸馏的路面裂缝图像轻量化分割方法
CN113205039B (zh) 基于多dcnn网络的电力设备故障图像识别勘灾系统及方法
CN112116573B (zh) 一种高精度的红外图像异常检测方法及系统
CN114973032B (zh) 一种基于深度卷积神经网络的光伏板热斑检测方法及装置
CN116883801A (zh) 基于注意力机制与多尺度特征融合的YOLOv8目标检测方法
CN118314436A (zh) 一种基于改进YOLOv8的轻量级绝缘子缺陷检测方法
CN117809164A (zh) 基于多模态融合的变电站设备故障检测方法及系统
CN114021741A (zh) 一种基于深度学习的光伏电池板巡检方法
CN112464846A (zh) 一种车站货运列车车厢异常故障的自动识别方法
CN113436184A (zh) 基于改进孪生网络的电力设备图像缺陷判别方法及系统
CN114998294A (zh) 一种基于知识蒸馏的高铁绝缘子缺陷检测方法
CN118298149A (zh) 输电线路上零部件的目标检测方法
CN116416237A (zh) 基于改进YOLOv5与模糊图像增强的输电线路缺陷检测方法
CN114627044A (zh) 一种基于深度学习的太阳能光伏组件热斑检测方法
CN116523875A (zh) 基于FPGA预处理与改进YOLOv5的绝缘子缺陷检测方法
CN117237696A (zh) 基于YOLOv5与注意力机制的变电站杂草检测方法及系统
CN113496210B (zh) 基于注意力机制的光伏组串跟踪及故障跟踪方法
CN117113066B (zh) 一种基于计算机视觉的输电线路绝缘子缺陷检测方法
CN117593666A (zh) 一种极光图像的地磁台站数据预测方法及系统
CN116503398B (zh) 绝缘子污闪检测方法、装置、电子设备及存储介质
CN116703819A (zh) 一种基于知识蒸馏的铁路货车钢地板破损检测方法
CN116452848A (zh) 一种基于改进注意力机制的金具分类检测方法
CN114980723A (zh) 一种用于跨工况贴片机吸嘴的故障预测方法、系统
CN113205487B (zh) 一种基于残差网络融合异构数据的电缆状态检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination