CN117350964A

CN117350964A - 一种基于跨模态多层次特征融合的电力设备检测方法

Info

Publication number: CN117350964A
Application number: CN202311282583.7A
Authority: CN
Inventors: 邹文杰; 从阔晨; 范波; 李亲
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-05

Abstract

本发明公开一种基于跨模态多层次特征融合的电力设备检测方法，包括以下步骤：构建双流特征提取网络，提取可见光图像和红外图像的多层级目标表征，引入自适应融合模块捕捉可见光和红外分支模态下的互补特征，利用自注意力机制增强互补特征的表达能力并构建目标的深层表示，利用不同尺度下的融合特征捕获目标区域并实现目标的精确定位；本发明可以很好的捕捉可见光图像和红外图像的深层次特征，实现不同模态的互补融合，进行变电站实际场景的目标检测，利用目标检测的结果进行优化，可以实现可见光图像特征和红外图像特征的自适应融合和特征增强，能够有效地实现跨模态信息的融合，精确定位和识别变电站电力设备目标，并展现出较高的鲁棒性。

Description

一种基于跨模态多层次特征融合的电力设备检测方法

技术领域

本发明涉及电力设备检测技术领域，尤其涉及一种基于跨模态多层次特征融合的电力设备检测方法。

背景技术

智能电网就是电网的智能化，也被称为“电网2.0”，是建立在集成的、高速双向通信网络的基础上，通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用，实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标，其主要特征包括自愈、激励和保护用户、抵御攻击、提供满足用户需求的电能质量、容许各种不同发电形式的接入、启动电力市场以及资产的优化高效运行，智能电网的发展在全世界还处于起步阶段，没有一个共同的精确定义，其技术大致可分为四个领域：高级量测体系、高级配电运行、高级输电运行和高级资产管理。

随着智能电网的提出，变电站的智能化发展成为了电力系统的重要发展方向和趋势，一个重要的应用是通过巡检机器人，将拍摄到的电力设备图像通过视频传输到监控系统，并由专业人员进行分析与诊断，这已经成为国家电网智能运维的重要手段，然而这种完全依赖于专业人员检查与判断的方式仍然与电网的智能化存在差距，因此，通过引入新的技术对变电站电力设备进行精准定位与识别，能够大大提高巡检质量，对提高变电站安全性和稳定性具有重要意义。

目前，变电站电力设备的检测与识别主要基于单一可见光图像或单一红外图像，可见光图像具有丰富的色彩信息和细节信息，但实际的变电站场景中目标背景十分复杂，存在遮挡和目标尺寸变化过大的问题，限制了电力设备的准确检测技术的应用，而针对变电站电力设备的目标识别与定位研究，传统的目标检测方法通常基于手工设计的特征和模型，但在复杂的变电站场景中，传统方法存在一定的局限性，在复杂环境下电力设备检测算法鲁棒性较低，小目标检测不准确，且手工设计的特征和模型无法充分表达电力设备的复杂形态和纹理特征，从而导致检测准确度降低，另外传统方法均是建立在单一可见光模态或单一红外模态，并没有寻找到有效的方法来实现跨模态的电力设备目标检测，因此，本发明提出一种基于跨模态多层次特征融合的电力设备检测方法以解决现有技术中存在的问题。

发明内容

针对上述问题，本发明的目的在于提出一种基于跨模态多层次特征融合的电力设备检测方法，解决现有的针对变电站电力设备的检测方法通常基于手工设计的特征和模型，在复杂的变电站场景中存在一定的局限性，无法充分表达电力设备的复杂形态和纹理特征，从而导致检测准确度降低的问题。

为了实现本发明的目的，本发明通过以下技术方案实现：一种基于跨模态多层次特征融合的电力设备检测方法，包括以下步骤：

步骤一：先将多层次特征与残差结构相结合，并利用两个参数配置完全相同的深度卷积神经网络构建双流特征提取主干网络；

步骤二：再利用步骤一中构建的双流特征提取主干网络提取可见光图像模态和红外图像模态的多层级下目标特征，以减少可见光图像模态和红外图像模态之间的干扰；

步骤三：随后将步骤二中提取的可见光图像模态和红外图像模态的多层级下目标特征分别输入到自适应融合模块中，通过调整不同通道的权重来捕捉并输出可见光图像模态和红外图像模态下的互补特征；

步骤四：然后将步骤三中捕捉到的可见光图像模态和红外图像模态下的互补特征输入到自注意力增强模块中，以此增强互补特征的表达能力并构建目标的深层表示，获得可见光图像模态和红外图像模态下的增强特征；

步骤五：最后将特征金字塔和路径聚合网络结合并构建检测模块，并将步骤四中获得的可见光图像模态和红外图像模态下的增强特征输入检测模块以捕获目标区域，实现目标精确定位。

进一步改进在于：所述步骤三中，所述自适应融合模块通过自动学习各个特征之间的权重以及相互关系，将不同特征的优势进行有效整合，得到具备表达能力和区分度的特征表示，实现可见光图像和红外图像信息的特征互补。

进一步改进在于：所述步骤三中，为保留目标特征的信息丰富度，先将可见光图像模态和红外图像模态的多层级下目标特征进行元素级相加融合，再对融合的图像做全局平均池化，得到全局通道权重ωⁱ∈R^1×1×C：

式中，和/>表示双流特征提取主干网络分别从可见光图像和红外图像提取到的第i层特征，H和W分别表示特征图的高度与宽度。

进一步改进在于：引入一个1×1的卷积操作对全局通道权重ωⁱ进行压缩，以减少全局表示全局通道权重的信息量，并得到中间向量T∈R^1×1×d：

T＝ρ(θ(F_conv(ωⁱ)))

式中，ρ和θ分别表示ReLU激活函数和批归一化，F_conv表示一个1×1的卷积操作。

进一步改进在于：所述步骤四中，输入自注意力增强模块的互补特征的特征图的尺寸均为C×H×W，其中C表示特征通道数量，H和W分别表示特征图的高度与宽度。

进一步改进在于：所述步骤四中，所述自注意力增强模块以自适应融合模块输出的互补特征作为输入，并将输入的互补特征进行展平和维度变换调整，得到的特征经过位置编码和标准的多头自注意力机制输出融合特征图。

进一步改进在于：其中多头自注意力计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

式中，Q，K，V分别表示查询向量、键向量和值向量，是对输入特征的空间映射，h表示头的数量，W^O是输出变换矩阵，每个头的输出head_i表示为：

Q＝F_cW^Q

K＝F_cW^K

V＝F_cW^V

式中，F_c为输入特征，分别是第i个头的查询、键、值变换矩阵，Attention是注意力计算的函数。

进一步改进在于：所述步骤五中，所述检测模块采用基于PANet的网络结构，其中包括自顶向下的特征金字塔和自底向上的路径聚合网络，所述特征金字塔通过自顶向下的连接将具有更多语义信息的深层特征向浅层传递，所述路径聚合网络则将具有更多细节信息的浅层特征通过自底向上的连接传递给深层特征。

本发明的有益效果为：本发明结合多层次特征与残差结构构建双流特征提取网络，分别提取可见光图像和红外图像的多层级目标表征，同时引入自适应融合模块捕捉可见光和红外分支两种模态下的互补特征，进一步利用自注意力机制增强互补特征的表达能力并构建目标的深层表示，最后利用不同尺度下的融合特征捕获目标区域并实现目标的精确定位，可以很好的捕捉可见光图像和红外图像的深层次特征，实现不同模态的互补融合，进行变电站实际场景的目标检测，利用目标检测的结果进行优化，可以实现可见光图像特征和红外图像特征的自适应融合和特征增强，通过在实际变电站设备检测场景中的实验结果表明，本发明的检测方法有效地减少了小目标的漏检率，可以较好地应用于变电站设备的检测任务，针对复杂环境下电力设备检测算法鲁棒性较低和小目标检测不准确的问题，能够有效地实现跨模态信息的融合，精确定位和识别变电站电力设备目标，并展现出较高的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的电力设备检测方法流程示意图；

图2是本发明的跨模态多层级特征融合目标检测整体框架示意图；

图3是本发明的自适应融合模块结构示意图；

图4是本发明的自注意力增强模块结构示意图；

图5是本发明的检测模块结构示意图；

图6是本发明实施例中实验中的训练数据集部分样本示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的跨模态多层级特征融合目标检测框架如图2所示，图2中CMF(Cross-Modallity Fusion)表示跨模态融合，SAE(Self-Attention Enhancement)表示自注意力增强，Fea0、Fea1和Fea2均表示增强特征，Conv_v1、Conv_v2、Conv_v3和Conv_v4以及Conv_i1、Conv_i2、Conv_i3和Conv_i4分别表示双流特征提取主干网络提取可见光图像模态以及红外图像模态的多层级下目标特征，CSPDarkNet53表示深度卷积神经网络，PANet表示全卷积神经网络结构。

参见图1、图2，本实施例提供了一种基于跨模态多层次特征融合的电力设备检测方法，包括以下步骤：

步骤一：结合多层次特征与残差结构构建双流特征提取网络

将多层次特征与残差结构相结合，并利用两个参数配置完全相同的深度卷积神经网络(CSPDarkNet53)构建双流特征提取主干网络，该网络引入CSP(Cross Stage Partial)连接，可以更好地利用不同层级的特征信息，并且能够有效地减少参数和计算量，此外，该网络还使用了残差连接来增强特征表示能力和模型的稳定性；

步骤二：分别提取可见光图像和红外图像的多层级目标表征

利用步骤一中构建的双流特征提取主干网络提取可见光图像模态和红外图像模态的多层级下目标特征Conv_vi和Conv_ir，以减少可见光图像模态和红外图像模态之间的干扰；

步骤三：引入自适应融合模块捕捉可见光和红外分支两种模态下的互补特征

将步骤二中提取的可见光图像模态和红外图像模态的多层级下目标特征分别输入到自适应融合模块中，通过调整不同通道的权重，可以使得模型更关注具有判别力的通道，同时抑制不必要的噪声和冗余的通道，以此捕捉并输出可见光图像模态和红外图像模态下的互补特征，本实施例的自适应融合模块通过自动学习各个特征之间的权重以及相互关系，将不同特征的优势进行有效整合，得到具备表达能力和区分度的特征表示，实现可见光图像和红外图像信息的特征互补，自适应融合模块的结构示意图如图3所示；

为保留目标特征的信息丰富度，本实施例先将可见光图像模态和红外图像模态的多层级下目标特征进行元素级相加融合，再对融合的图像做全局平均池化，得到全局通道权重ωⁱ∈R^1×1×C：

式中，和/>表示双流特征提取主干网络分别从可见光图像和红外图像提取到的第i层特征，H和W分别表示特征图的高度与宽度，再引入一个1×1的卷积操作对全局通道权重ωⁱ进行压缩，以减少全局表示全局通道权重的信息量，并得到中间向量T∈R^1×1×d：

T＝ρ(θ(F_conv(ωⁱ)))

式中，ρ和θ分别表示ReLU激活函数和批归一化，F_conv表示一个1×1的卷积操作，本实施例将中间向量维度设置为32，为了得到最终不同分支特征图的权重，将中间向量T分别通过1×1的卷积，同时将维度提高，再经由softmax激活函数得到归一化的权重比例和将该权重分别与原可见光图像和红外图像特征相乘得到自适应特征/>和/>最后两个自适应特征进行元素级相加，获得最终的融合特征F_i：

其中，F_{conv_v}和F_{conv_i}分别代表1×1的卷积，*代表元素级相乘操作；

步骤四：利用自注意力机制增强互补特征的表达能力并构建目标的深层表示

将步骤三中捕捉到的可见光图像模态和红外图像模态下的互补特征输入到自注意力增强模块中，以此增强互补特征的表达能力并构建目标的深层表示，获得可见光图像模态和红外图像模态下的增强特征Fea0、Fea1和Fea2，其中输入自注意力增强模块的互补特征的特征图的尺寸均为C×H×W，C表示特征通道数量，H和W分别表示特征图的高度与宽度，具体的，本实施例的自注意力特征增强模块如图4所示，自注意力增强模块以自适应融合模块输出的互补特征作为输入，并将输入的互补特征进行展平和维度变换调整，得到特征F_c(尺寸为HW×C)，经过位置编码和标准的多头自注意力机制输出融合特征图，其中多头自注意力计算公式(MHA)为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

式中，Q，K，V分别表示查询向量、键向量和值向量，是对输入特征的空间映射，h表示头的数量，本实施例中h＝8，W^O是输出变换矩阵，每个头的输出head_i表示为：

Q＝F_cW^Q

K＝F_cW^K

V＝F_cW^V

式中，F_c为输入特征，分别是第i个头的查询、键、值变换矩阵，Attention是注意力计算的函数，在MHA中，一般使用自注意力机制来进行计算，如式(11)所示：

其中，d_k是键向量的维度，softmax对相似度进行归一化，将每个键向量的权重计算出来，然后将权重乘以值向量，最后进行加权求和得到注意力的输出；

步骤五：利用不同尺度下的融合特征捕获目标区域并实现目标的精确定位

将特征金字塔(FPN)和路径聚合网络(PAN)结合并构建检测模块，并将步骤四中获得的可见光图像模态和红外图像模态下的增强特征输入检测模块以捕获目标区域，实现目标精确定位，本实施例的检测模块如图5所示，采用基于PANet的网络结构，其中包括自顶向下的特征金字塔和自底向上的路径聚合网络，特征金字塔通过自顶向下的连接将具有更多语义信息的深层特征向浅层传递，所述路径聚合网络则将具有更多细节信息的浅层特征通过自底向上的连接传递给深层特征，特征金字塔和路径聚合网络的协同操作能够将不同层级的特征图进行有效的信息交互和融合。多层级特征的融合和信息的交互能够捕捉到丰富的语义信息，并在不同尺度上适应不同大小的目标。这种综合的特征表示能力有助于减少目标的漏检和误检，并提高检测的准确性和稳定性，对于处理复杂场景下的目标检测任务具有重要的作用。

实验及结果分析

1.1、数据集与预处理

本实施例通过巡检机器人搭载的可见光和红外相机对变电站电力设备进行图像采集，由于两个相机处于不同的空间位置，且拍摄到的图片范围也不一样，所以需对采集到的可见光和红外图片进行裁剪、校准等一系列的预处理操作，使其图片内的目标对齐，实验主要采集了500kv变电站下的避雷器、隔离开关、悬式绝缘子、断路器、电流互感器、电压互感器、油枕等7种常见的变电站设备图像，由于有效的数据较少，从中挑选出了431对质量较好的图片，通过随机旋转、平移、缩放、翻转等预处理，将数据扩充至原来的三倍，建立起了一个500kv下变电站设备目标检测数据集TSE500，利用公开的标注工具labelimg对图片中的待检测目标进行精确的手动标注，并统一调整图片尺寸为640×512大小，对处理以后的图片按照7：2：1的比例划分训练集和验证集，其中训练集905张，验证集258张，测试集130张，数据集种类具体图片如图6所示；

1.2、实验配置及参数

本实施例的实验在Ubuntu 18.04LTS操作系统上完成，在基于Pytorch的深度学习框架上完成实验的训练、验证及测试，详细实验硬件及软件配置为：CPU为Intel i7-10700KF、GPU为Nvidia RTX 3060、显存12GB、CUDA11.3、python3.7；

实验采用了随机梯度下降(SGD)，初始学习率为1e-2，动量为0.937，权重衰减为0.0005。epoch设置为200，batch-size设置为4；

1.3、评价指标

使用目标检测中常用的精确率(Precision)、召回率(Recall)、平均精确率均值(mAP)以及P-R曲线等作为评价指标，精确率反映了实际正样本所占的比例，该指标衡量了模型预测结果的正确率，召回率则反映了模型成功预测为正样本所占的比例，该指标衡量了模型对目标的识别能力，平均精确率均值是通过计算不同类别的精确率-召回率(P-R)曲线，然后取平均精确率作为最终的评估结果，本实施例的精确率、召回率和平均精确率均值的定义如下式所示：

式中，TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性，N表示检测目标类别数；

相较于准确率和召回率，平均精确率均值指标综合考虑了不同类别的预测结果在不同IoU阈值下的精确率表现，可以更加全面的衡量目标检测算法的准确性和鲁棒性；

本实施例的实验记IoU阈值在0.5的平均精确率均值为mAP50，IoU阈值在0.75的平均精确率均值为mAP75，IoU从0.5到0.95，步长为0.05的平均精确率均值为mAP.95；

1.4、实验结果

为了验证所提模块的有效性，本实施例在所构建的变电站设备数据集TSE500上面进行训练，并取训练过程中效果最好的训练参数进行测试，使用精确率(P)、召回率(R)和平均精确率均值(mAP)作为对比实验的评价指标；

首先对单可见光分支、单红外分支与本实验的双流分支的实验结果做一个对比，验证跨模态融合相对于单模态带来的效果提升，如下表1所示：

表1与单支路测试结果对比

由表1可见，引入跨模态融合后，其精确率(P)能够与单红外模态的最优结果相差无几，召回率(R)的指标相较于单支路的检测结果有较大的提升，最能反映检测性能的mAP50的值可以达到0.93，高于单独使用红外图像(0.878)或可见光图像(0.882)的目标检检测结果，在针对油箱、避雷器以及压变的检测中，取得了非常好的检测效果，这是因为含有油箱、避雷器或压变目标的图片中，目标较为单一，如图5所示，尤其是油箱这一目标，拍摄的图片中很难同时出现两个或更多的油箱目标，所以经过两个模态融合后，其精确率和召回率可以达到1，mAP50指标也非常高，而在对断路器、隔离开关和绝缘子这类物体进行检测时，存在严重的遮挡和目标较小难以检测的问题，经过两个模态的信息互补后，所提出的网络相对于单红外模态和单可见光模态在指标上有较大的提升，说明融合算法可以有效的借鉴两个模态的信息，从而实现性能的有效提升。

为了进一步分析关键模块对算法性能的影响，对自适应融合模块(AFM)、自注意力增强模块(SAE)进行了消融实验，如表2所示，为了有效验证模块的作用，需要保证所有的实验都是在双流主干网络上进行，所以将用简单的元素相加替换所有的自适应融合模块和自注意力增强模块，将其作为基本的融合方式，送入检测模块。该网络结构作为双流网络的基准模型，记作baseline+add，每组实验均使用相同的超参数以及训练技巧；

表2消融实验结果

实验结果显示使用简单的元素相加作为融合方法时，最终的mAP50、mAP75和mAP.95分别达到了0.883，0.623和0.545，将简单相加的融合方式替换成自适应融合(AFM)后分别提升了3.9％，8.5％和6.4％；可以看出，引入自适应融合模块可以充分的融合两个模态的互补信息，进一步将自适应融合模块移除，用简单相加的融合方式和自注意力增强模块对特征进行融合增强，相较于只用简单相加的融合方式，其mAP50、mAP75和mAP.95也分别提升了2％，6.6％和3.4％，从中可以得出，自注意力增强模块可以增强其融合特征，得到更好得判别特征，最后，将简单相加融合模块移除，替换成自适应融合模块，并引入自注意力增强模块，其精准率、召回率、mAP50、mAP75和mAP.95分别达到了85.6％、88.5％、93％、74.9％和61.5％，大幅度地提升了网络得整体性能。

同时，为了进一步验证本方法的优越性，与目前其他4种先进的目标检测算法进行比较，包括YOLOv3、SSD、Faster R-CNN、YOLOv4。采用平均精确率均值mAP50作为评价指标，如表3所示：

表3不同检测算法对比实验表

网络模型	主干网络	mAP50
			YOLOv3	DarkNet53	0.803
SSD	VGG16	0.821
			Faster R-CNN	ResNet50	0.838
Yolov4	CSP DarkNet53	0.855
			Our	CSP DarkNet53	0.93

可以看出，本实施例提出的双流网络模型获得了最好的检测效果，其mAP50可以达到0.93，相较之下，YOLOv3的检测结果最差，仅有0.803，对于主干网络同为CSP DarkNet53的YOLOv4来说，其mAP50也比本实施例模型低了0.075，从对比实验来看，本实施例的算法模型在实际变电站场景下的检测效果具有先进性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：所述步骤三中，所述自适应融合模块通过自动学习各个特征之间的权重以及相互关系，将不同特征的优势进行有效整合，得到具备表达能力和区分度的特征表示，实现可见光图像和红外图像信息的特征互补。

3.根据权利要求1所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：所述步骤三中，为保留目标特征的信息丰富度，先将可见光图像模态和红外图像模态的多层级下目标特征进行元素级相加融合，再对融合的图像做全局平均池化，得到全局通道权重ωⁱ∈R^1×1×C：

式中，和/>表示双流特征提取主干网络分别从可见光图像和红外图像提取到的第i层特征,H和W分别表示特征图的高度与宽度。

4.根据权利要求3所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：引入一个1×1的卷积操作对全局通道权重ωⁱ进行压缩，以减少全局表示全局通道权重的信息量，并得到中间向量T∈R^1×1×d：

T＝ρ(θ(F_conv(ωⁱ))！

5.根据权利要求1所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：所述步骤四中，输入自注意力增强模块的互补特征的特征图的尺寸均为C×H×W，其中C表示特征通道数量，H和W分别表示特征图的高度与宽度。

6.根据权利要求1所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：所述步骤四中，所述自注意力增强模块以自适应融合模块输出的互补特征作为输入，并将输入的互补特征进行展平和维度变换调整，得到的特征经过位置编码和标准的多头自注意力机制输出融合特征图。

7.根据权利要求6所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：其中多头自注意力计算公式为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

Q＝F_cW^Q

K＝F_cW^K

V＝F_cW^V

head_i＝Attention(QW_i ^Q,KW_i ^K,KW_i ^V)

式中，F_c为输入特征，W_i ^Q，W_i ^K，W_i ^V分别是第i个头的查询、键、值变换矩阵，Attention是注意力计算的函数。

8.根据权利要求1所述的一种基于跨模态多层次特征融合的电力设备检测方法，其特征在于：所述步骤五中，所述检测模块采用基于PANet的网络结构，其中包括自顶向下的特征金字塔和自底向上的路径聚合网络，所述特征金字塔通过自顶向下的连接将具有更多语义信息的深层特征向浅层传递，所述路径聚合网络则将具有更多细节信息的浅层特征通过自底向上的连接传递给深层特征。