CN116523835A

CN116523835A - 一种融合多尺度和注意力机制的改进U-Net高温异常检测方法

Info

Publication number: CN116523835A
Application number: CN202310269974.9A
Authority: CN
Inventors: 艾春; 王旭东; 李国通; 施渊
Original assignee: Bingo Electric Technology Shanghai Co ltd
Current assignee: Bingo Electric Technology Shanghai Co ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-01

Abstract

本发明涉及图像分割技术领域，尤其涉及一种融合多尺度和注意力机制的改进U‑Net高温异常检测方法，包括，采集电力设备红外图像，建立数据集样本；建立融合多尺度和注意力机制的改进U‑Net网络模型，将原U‑Net网络中的卷积单元替换为残差单元，以确保网络快速收敛，在原U‑Net网络的中间层加入Transformer模型，用于实现网络全局建模能力的增强；用PixelShuffle像素重组代替原U‑Net网络中采用的转置卷积，以实现更多细节信息的恢复，并在上采样之前加入ASPP多尺度特征融合模块，以实现感受野的扩大；使用数据集样本进行模型训练，以实现对目标高温异常区域的自动分割。本发明的算法能够有效的实现电力高温异常检测，提高巡查人员的工作效率，为高温异常检测提供保障。

Description

一种融合多尺度和注意力机制的改进U-Net高温异常检测方法

技术领域

本发明涉及图像分割技术领域，尤其涉及一种融合多尺度和注意力机制的改进U-Net高温异常检测方法。

背景技术

我国地域辽阔，电力设备分布点多，这些电力设备长期暴露在野外，易受高温、大风、雷击、雨雪、山火等影响，可能导致设备老化、损坏等问题。任何一个电力设备的故障都会造成大面积的停电，影响居民生活以及工业生产。因此，定期的巡查，及时准确的发现老化、故障设备对于生活生产具有重大意义。随着无人机电力巡检设备的发展，通过无人机传输的各角度图像，可以提高工作人员的故障检查效率。然而，随着我国电网规模逐渐扩大，极大的增加巡查人员的工作量，仅通过人工对比红外图像的效率已经不难满足工作人员的需求，需要智能化的识别技术，辅助人工识别，提高对电力高温异常区域的检测效率。深度学习在图像识别领域发挥出极强的优势，利用语义分割方法诊断被观察设备的红外图像，为高温异常检测提供了新方法。因此，采用深度学习对高温异常检测区域的识别已经称为一种趋势，不仅提高了巡查人员的工作效率，也为高温异常检测提供保障。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提供了一种融合多尺度和注意力机制的改进U-Net高温异常检测方法，包括：

采集电力设备红外图像，建立数据集样本，所述数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型；

建立融合多尺度和注意力机制的改进U-Net网络模型，将原U-Net网络中的卷积单元替换为残差单元，以确保网络快速收敛；在原U-Net网络的中间层加入Transformer模型，所述Transformer模型用于实现网络全局建模能力的增强；用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积，以实现更多细节信息的恢复，并在上采样之前加入ASPP多尺度特征融合模块，以实现感受野的扩大；

基于所述融合多尺度和注意力机制的改进U-Net网络模型,使用所述数据集样本进行模型训练，以实现对目标高温异常区域的自动分割。

进一步地，所述融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成，所述编码器用于提取目标图像的特征，所述解码器用于融合目标图像的特征；其中，所述编码器由残差模块、最大池化层组成，所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。

进一步地，所述残差模块包括残差单元、卷积单元和ReLu函数，所述卷积单元用于提取所述残差单元中的特征，所述ReLu函数通过函数把提取出的特征保留并映射出来，其中，所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接，残差链接后方接有一个所述ReLu函数。

进一步地，所述ReLu函数后接有一个2×2的最大池化层，所述最大池化层用于进行下采样，去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。

进一步地，第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中，所述Transformer模型用于重塑编码器的特征，将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率，以实现全局信息表达的增强，所述Transformer模型主要包括一个2个1×1的卷积层，6层Transformer Layer和经过6层所述Transformer Layer后得出的Hidden Feature，其中，所述1×1卷积层用于改变特征图的分辨率，所述Transformer Encoder用于将输入特征进行编码。

在所述Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈R^H×W×C后将图像转化为序列化数据，将X铺平成一个2D序列(H,W)是输入特征图X的分辨率，C是X的通道数，(P,P)是每个特征patch补丁的分辨率，N＝HW/P²是图像补丁的数量，P²×C是每个序列的长度。

Transformer层中的数据计算公式为：

对于Transformer Encoder第一层的输入数据z₀是通过下面的公式得到的:

其中即未Linear Projection后的patch embedding，E是切片嵌入投影，Epos是position embedding，transformer层还包含L层Multihead Self-Attention(MSA)和Multi-Layer Perceptron(MLP)模块。

对于Transformer Encoder的第l层，记其输入为z_l-1，输出为z_l，则计算过程为

z′_l＝MSA(LN(z_l-1))+z_l-1 (2)

z_l＝MSA(LN(z′_l))+z′_l (3)

其中，LN为Layer Norm，z_l为编码后的图像表示，在每个MLP和MSA之前应用LayerNorm，并在MLP和MSA之后进行残差连接。

MSA函数首先将输入序列根据头的数量进行拆分，然后扩展维度，将特征映射到Q,K,V，其中，Q，K，V是三个矩阵，他们是上一层Encoder的输出，得到矩阵Q,K,V之后就可以计算出Self-Attention自注意的输出。

自注意力的计算公式如公式4所示，

多头自注意力的表达式如式5所示，每一个head都输出一个结果矩阵，将这些矩阵拼接成一个矩阵，再乘以一个权重矩阵W^O，使得最终的矩阵大小与一个head的结果矩阵大小一致，最后将heads组QKV的输出拼接，获得MSA的输出。

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O (5)

其中

W^O为权重矩阵，Wi表示第i个头的变换矩阵，h表示头的个数。

MLP将d_model放大到mlp-ratio×d_model，再缩小到d_model。将数据映射到高维空间再映射到低维空间的过程，可以学习到更加抽象的特征，提高特征的表达能力。

在本发明中，L＝6，heads＝12,d_k＝d_model/heads＝64,d_model＝768,patch＝1,H＝W＝8,C＝1024。首先用1×1的卷积将输入特征(8，8，1024)映射到(8，8，768)，然后将特征拉平成2D序列，经过6层Transformer Layer得到Hidden Feature(65，768)。Hidden Feature(64+classification token，768)丢弃classification token，大小为(64，768)。最后重塑Hidden Feature为(8,8,768)，使用1×1的卷积将重塑的Hidden Feature(8，8，768)映射到(8，8，1024)。

进一步地，所述ASPP多尺度特征融合模块用于扩大感受野，以实现细节信息损失的减少，所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2，3，4的3×3卷积层。

进一步地，所述ASPP多尺度特征融合模块的具体结构为：一个所述1×1的卷积层和3个膨胀率为2，3，4的所述3×3卷积层形成并行的四个分支，所述四个分支获得特征信息后进行拼接，拼接后进入所述1×1的卷积层改变通道数，将通道数降为输入通道数的2倍，用于提高提取信息的频率，以实现反应的细节信息的增多，最后从所述ASPP多尺度特征融合模块中输出。

进一步地，所述上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组，所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大，将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图，实现上采样操作；

其中所述PixelShuffle像素重组代替了原始U-Net所采用的转置卷积，在发明中，输入特征分辨率为(H,W,C)，ASPP模块的输出特征分辨率为(H,W,r*C)，通过PixelShuffle像素重组获得高分辨率图像(r*H，r*W，C/r)，r＝2。

进一步地，所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征，以实现更多空间信息的恢复。

进一步地，所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整，所述测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。

与现有技术相比，本发明的有益效果是：

本发明在U-Net网络模型中的上采样之前加入多尺度特征融合模块，减少细节信息损失，扩大了感受野；使用PixelShuffle像素重组代替原始U-Net所采用的转置卷积，恢复更多的细节信息；在U-Net网络的中间层加入Transformer模型，增强了网络全局建模能力。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法的实现流程图；

图2为Transformer模型的结构示意图；

图3为ASPP多尺度特征融合模块的结构示意图；

图4为本发明一种融合多尺度和注意力机制的改进U-Net高温异常检测方法对红外图像的电力高温异常区域检测图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。

实施例1

本发明提供一种融合多尺度和注意力机制的改进U-Net高温异常检测方法，基本包含以下步骤：

采集电力设备红外图像，建立数据集样本，数据集样本用于训练融合多尺度和注意力机制的改进U-Net网络模型；

建立融合多尺度和注意力机制的改进U-Net网络模型，将原U-Net网络中的卷积单元替换为残差单元，以确保网络快速收敛；在原U-Net网络的中间层加入Transformer模型，Transformer模型用于实现网络全局建模能力的增强；用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积，以实现更多细节信息的恢复，并在上采样之前加入ASPP多尺度特征融合模块，以实现感受野的扩大；

基于融合多尺度和注意力机制的改进U-Net网络模型,使用数据集样本进行模型训练，以实现对目标高温异常区域的自动分割。

进一步地，如图1所示，融合多尺度和注意力机制的改进U-Net网络模型主要由五个编码器和四个解码器组成，编码器用于提取目标图像的特征，解码器用于融合目标图像的特征；其中，编码器由残差模块、最大池化层组成，解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。

进一步地，残差模块包括残差单元、卷积单元和ReLu函数，卷积单元用于提取所述残差单元中的特征，ReLu函数通过函数把提取出的特征保留并映射出来，其中，残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接，残差链接后方接有一个ReLu函数。

进一步地，ReLu函数后接有一个2×2的最大池化层，最大池化层用于进行下采样，去除冗余信息、对特征进行压缩、以实现网络复杂度的简化。

进一步地，第四个最大池化层下采样后获得的高级语义特征经过三次卷积后送入Transformer模型中，如图2所示，Transformer模型用于重塑编码器的特征，将高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入Transformer模型时的分辨率，以实现全局信息表达的增强，Transformer模型主要包括一个2个1×1的卷积层，6层Transformer Layer和经过6层Transformer Layer后得出的Hidden Feature，其中，1×1卷积层用于改变特征图的分辨率，Transformer Encoder用于将输入特征进行编码。

在Transformer模型中,首先通过1x1卷积层重塑输入特征图X∈R^H×W×C后将图像转化为序列化数据，将X铺平成一个2D序列 (H,W)是输入特征图X的分辨率，C是X的通道数，(P,P)是每个特征patch补丁的分辨率，N＝HW/P²是图像补丁的数量，P²×C是每个序列的长度。

Transformer层中的数据计算公式为：

z′_l＝MSA(LN(z_l-1))+z_l-1 (2)

z_l＝MSA(LN(z′_l))+z′_l (3)

自注意力的计算公式如公式4所示，

多头自注意力的表达式如式5所示，每一个head都输出一个结果矩阵，将这些矩阵拼接成一个矩阵，再乘以一个权重矩阵W^O，使得最终的矩阵大小与一个head的结果矩阵大小一致。最后将heads组QKV的输出拼接，获得MSA的输出。

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (5)

其中

W^O为权重矩阵，Wi表示第i个头的变换矩阵，h表示头的个数。

进一步地，如图3所示，ASPP多尺度特征融合模块用于扩大感受野，以实现细节信息损失的减少，ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2，3，4的3×3卷积层。

进一步地，ASPP多尺度特征融合模块的具体结构为：一个1×1的卷积层和3个膨胀率为2，3，4的3×3卷积层形成并行的四个分支，四个分支获得特征信息后进行拼接，拼接后进入1×1的卷积层改变通道数，将通道数降为输入通道数的2倍，用于提高提取信息的频率，以实现反应的细节信息的增多，最后从ASPP多尺度特征融合模块中输出。

进一步地，上采样操作的方式为ESPCN(section3.5)中的PixelShuffe像素重组，PixelShuffe像素重组用于对缩小后的特征图进行有效的放大，将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图，实现上采样操作；

其中PixelShuffle像素重组代替了原始U-Net所采用的转置卷积，在发明中，输入特征分辨率为(H,W,C)，ASPP模块的输出特征分辨率为(H,W,r*C)，通过PixelShuffle像素重组获得高分辨率图像(r*H，r*W，C/r)，r＝2。

进一步地，融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征，以实现更多空间信息的恢复。

进一步地，数据集样本划分为训练集、验证集和测试集,训练集用于训练融合多尺度和注意力机制的改进U-Net网络模型,验证集用于对融合多尺度和注意力机制的改进U-Net网络模型的参数进行调整，测试集用于测试所述融合多尺度和注意力机制的改进U-Net网络模型是否准确。

为了能够体现本发明的模型效果，如图4所示，本发明对红外图像进行分割，准确检测到了存在高温异常的区域。

本发明未详细阐述部分属于本领域技术人员的公知技术。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例变化、变型都将落在本发明权利要求书的范围内。

Claims

1.一种融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于，包括：

建立融合多尺度和注意力机制的所述改进U-Net网络模型，将原U-Net网络中的卷积单元替换为残差单元，以确保网络快速收敛；在所述原U-Net网络的中间层加入Transformer模型，所述Transformer模型用于实现网络全局建模能力的增强；用PixelShuffle像素重组代替原U-Net网络中采用的转置卷积，以实现更多细节信息的恢复，并在上采样之前加入ASPP多尺度特征融合模块，以实现感受野的扩大；

基于所述融合多尺度和注意力机制的所述改进U-Net网络模型,使用所述数据集样本进行模型训练，以实现对目标高温异常区域的自动分割。

2.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：

所述融合多尺度和注意力机制的所述改进U-Net网络模型主要由五个编码器和四个解码器组成，所述编码器用于提取目标图像的特征，所述解码器用于融合目标图像的特征；

其中，所述编码器由残差模块、最大池化层组成，所述解码器由所述残差模块、ASPP多尺度特征融合模块和上采样操作组成。

3.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述残差模块包括残差单元、卷积单元和ReLu函数，所述卷积单元用于提取所述残差单元中的特征，所述ReLu函数通过函数把提取出的特征保留并映射出来，其中，所述残差单元由两个3×3的卷积单元和一个1×1的卷积单元进行残差连接，残差链接后方接有一个所述ReLu函数。

4.根据权利要求3所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述ReLu函数后接有一个2×2的最大池化层，所述最大池化层用于进行下采样，去除冗余信息、对特征进行压缩、以实现网络复杂度的简化，其中，所述最大池化层有四个。

5.根据权利要求4所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：第四个所述最大池化层下采样后获得的高级语义特征经过三次卷积后送入所述Transformer模型中，所述Transformer模型用于重塑编码器的特征，将所述高级语义特征从所述Transformer模型中输出时的分辨率重塑为其进入所述Transformer模型时的分辨率，以实现全局信息表达的增强，所述Transformer模型主要包括一个2个1×1的卷积层，6层Transformer Layer和经过6层所述TransformerLayer后得出的HiddenFeature，其中，所述1×1卷积层用于改变特征图的分辨率，所述Transformer Encoder用于将输入特征进行编码。

6.根据权利要求5所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述ASPP多尺度特征融合模块用于扩大感受野，以实现细节信息损失的减少，所述ASPP多尺度特征融合模块包括2个1×1卷积层和3个膨胀率为2，3，4的3×3卷积层。

7.根据权利要求6所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述ASPP多尺度特征融合模块的具体结构为：一个所述1×1的卷积层和3个膨胀率为2，3，4的所述3×3卷积层形成并行的四个分支，所述四个分支获得特征信息后进行拼接，拼接后进入所述1×1的卷积层改变通道数，将通道数降为输入通道数的2倍，用于提高提取信息的频率，以实现反应的细节信息的增多，最后从所述ASPP多尺度特征融合模块中输出。

8.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述上采样操作的方式为ESPCN中的PixelShuffe像素重组，所述PixelShuffe像素重组用于对缩小后的特征图进行有效的放大，将低分辨的特征图通过卷积和多通道间的重组变成高分辨率的特征图，实现上采样操作。

9.根据权利要求2所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述的融合多尺度和注意力机制的改进U-Net网络模型采用跳跃链接的方式融合编码器和解码器相同分辨率的特征，以实现更多空间信息的恢复。

10.根据权利要求1所述的融合多尺度和注意力机制的改进U-Net高温异常检测方法，其特征在于：所述数据集样本划分为训练集、验证集和测试集,所述训练集用于训练所述融合多尺度和注意力机制的所述改进U-Net网络模型,所述验证集用于对所述融合多尺度和注意力机制的所述改进U-Net网络模型的参数进行调整，所述测试集用于测试所述融合多尺度和注意力机制的所述改进U-Net网络模型是否准确。