CN117635953B

CN117635953B - 一种基于多模态无人机航拍的电力系统实时语义分割方法

Info

Publication number: CN117635953B
Application number: CN202410107385.5A
Authority: CN
Inventors: 巢建树; 安德钰; 赖佳华; 朱程; 李霆; 吴晓亮
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-04-26
Anticipated expiration: 2044-01-26
Also published as: CN117635953A

Abstract

本发明公开一种基于多模态无人机航拍的电力系统实时语义分割方法，涉及图像数据处理领技术领域；本发明方法通过利用多传感器采集多模态信息，采用多级小波变换分析、特征级别多模态信息交互、全局多模态信息交叉引导，充分发挥多模态信息的互补能力，有效提升无人机航拍电力系统的分割检测性能；利用非对称加速理论，设计轻量级多模态特征编码器，使之更加契合无人端侧部署需求；建立了一个定量度量mIoU和FPS之间平衡关系的计算法。

Description

一种基于多模态无人机航拍的电力系统实时语义分割方法

技术领域

本发明公开一种基于多模态无人机航拍的电力系统实时语义分割方法，涉及图像数据处理领技术领域。

背景技术

现有技术中，对于航拍电力系统的检测，尤其是无人机高空俯拍的电线、电线杆等，有复杂的背景、变化的光线的干扰，电线常常被背景所淹没，使得现有的通用单模态语义分割算法对其检测分割效果并不优秀。此外，现在各种传感器已经层出不穷，通用的单模态语义分割算法没有将其他模态的信息进行充分利用；

目前多模态RGBD语义分割算法通常有着两个庞大的多模态的特征提取器，对于边缘设备，计算资源有限的设备并不友好；同时，对于mIoU和FPS之间的平衡关系，一直以来是定性比较，没有一种方法能够定量的计算出一个数值来评估精度和速度之间的平衡关系。

发明内容

本发明针对现有技术的问题，提供一种基于多模态无人机航拍的电力系统实时语义分割方法及系统，所采用的技术方案为：

第一方面，一种基于多模态无人机航拍的电力系统实时语义分割方法，包括：

S1，在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互，并利用特征级多模态特征交互，通过卷积建立多种模态信息的局部相关性；

S2，根据RGBD多模态非对称编码器在每个阶段的使用结果，通过多模态全局上下文模块进行全局信息融洽，得到融合特征图；

S3，根据所述融合特征图的分辨率，通过对应的分割头利用深度监督进行多模态语义分割，并通过所述RGBD多模态非对称编码器进行加速处理；

S4，根据F-score算法，建立mIoU和FPS之间定量比较的评价指标。

在一些实现方式中，所述S1，具体包括：

S11，在浅层网络将所述多模态特征映射到高维空间，通过所述多级小波变换产生不同分辨率的低频特征和高频特征；

S12，根据所述低频特征和高频特征，根据不同分辨率分发至对应阶段。

在一些实现方式中，所述S2，具体包括：

S21，通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内，所述低维空间包括全局信息；

S22，根据所述低维空间，通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数；

S23，根据所述Depth的注意力系数，通过引导RGB分支全局注意力，进行引导所述RGB分支的原始特征图；

S24，根据多模态交叉引导的特征进行关联，通过常规卷积完成特征融合。

在一些实现方式中，S3中，所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器：

通过所述深度非对称编码器对所述RGB分支进行特征提取；

通过所述结构非对称编码器对所述Depth分支进行特征提取。

在一些实现方式中，S4中，所述F-score算法如公式（1）所示，所述评价指标如公式（2）所示：

（1）

（2）

公式（1）中，Precision表示精确率，Recall表示召回率，表示调节因子。

公式（2）中，的取值0.5。

第二方面，本发明实施例提供一种基于多模态无人机航拍的电力系统实时语义分割系统，包括：

特征交互单元，用于在RGBD多模态非对称编码阶段通过多级小波变换进行多尺度特征交互，并利用特征级多模态特征交互，通过卷积建立多种模态信息的局部相关性；

特征融合单元，用于根据RGBD多模态非对称编码器在每个阶段的使用结果，通过多模态全局上下文模块进行全局信息融洽，得到融合特征图；

编码加速单元，用于根据所述融合特征图的分辨率，通过对应的分割头利用深度监督进行多模态语义分割，并通过所述RGBD多模态非对称编码器进行加速处理；

评价指标单元，用于根据F-score算法，建立mIoU和FPS之间定量比较的评价指标。

在一些实现方式中，所述特征交互单元，具体包括：

特征映射子单元，用于在浅层网络将所述多模态特征映射到高维空间，通过所述多级小波变换产生不同分辨率的低频特征和高频特征；

频率发送子单元，用于根据所述低频特征和高频特征，根据不同分辨率分发至对应阶段。

在一些实现方式中，所述特征融合单元，具体包括：

信息压缩子单元，用于通过RGB信息和Depth信息分别将通道维度信息压缩到对应的低维空间内，所述低维空间包括全局信息；

向量系数子单元，用于根据所述低维空间，通过softmax函数得到全局空间嵌入向量RGB和Depth的注意力系数；

分支引导子单元，用于根据所述Depth的注意力系数，通过引导RGB分支全局注意力，进行引导所述RGB分支的原始特征图；

特征关联子单元，用于根据多模态交叉引导的特征进行关联，通过常规卷积完成特征融合。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时，实现如上述第一方面所述的方法。

第四方面，本发明实施例提供一种计算机存储介质，所述计算机可读取存储介质中存储有计算机程序，所述计算机程序被处理器执行时，用实现如第一方面所述的方法。

本发明的一个或多个实施例至少能够带来如下有益效果：

传统的无人机航拍电力系统的分割检测，通常是只使用RGB单模态信息，检测精度出现瓶颈。本发明利用多传感器采集多模态信息，采用多级小波变换分析、特征级别多模态信息交互、全局多模态信息交叉引导，充分发挥多模态信息的互补能力，有效提升无人机航拍电力系统的分割检测性能；

在编码阶段使用多级小波变换进行多尺度特征交互，每个阶段都进行特征级别多模态信息交互，旨在使用卷积建立多种模态信息的局部相关性；其次，多模态非对称编码器在每个阶段的结果使用MMGCB进行全局多模态信息的交叉引导；

利用非对称加速理论，设计轻量级多模态特征编码器，使之更加契合无人端侧部署需求；建立了一个定量度量mIoU和FPS之间平衡关系的计算法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于多模态无人机航拍的电力系统实时语义分割方法的流程图；

图2是本发明实施例提供的一种基于多模态无人机航拍的电力系统实时语义分割系统的框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

图1示出了一种基于多模态无人机航拍的电力系统实时语义分割方法流程图，如图1所示，本实施例提供的基于多模态无人机航拍的电力系统实时语义分割方法，包括：

S4，根据F-score算法，建立mIoU和FPS之间定量比较的评价指标。

首先按照S1，在多模态RGBD语义分割任务中，RGB信息和Depth信息的交互是至关重要的。所提多模态全局上下文模块（MMGCB）是在每个阶段进行的全局多模态特征交互。其既保证了有效的全局特征交互，也具有轻量级计算的优势。在不显著增加计算量的前提下完成全局多模态特征交互。

具体的，所述S1，具体包括：

其中，首先按照S11在网络浅层将特征映射到高维空间后，利用多级小波变换产生不同分辨率的低频特征和高频特征，然后按照S12，将不同分辨率的特征分发至每个阶段，能够保证高层语义和低层细节能够有效映射。

下一步，按照S2，多级小波变换有着优秀的多分辨率解析能力，我们借助这个优势为每个阶段提供对应的细节特征。具体的，所述S2，具体包括：

其中，首先按照S21，分别两种模态先将通道维度信息压缩到一个低维空间内，这个低维空间包含了全局信息；然后按照S22，将其展成，其中。其中，表示通道信息，R表示低维空间向量，N、H和W分别表示所述低维向量的坐标。经过softmax函数得到全局空间嵌入向量的注意力系数；下一步按照S23，之后Depth的注意力系数用于引导RGB分支生成RGB分支全局注意力。同时RGB的注意力系数也用于引导 Depth分支生成Depth全局注意力。两个分支的全局注意力系数经过一个线性编码层，进一步增强注意力。增强后的注意力用于引导该分支的原始特征图；最后按照S24，经过多模态交叉引导的特征进行级联，经过一个常规卷积完成特征融合。整个特征融合过程可用以下公式表述：

；

其中，表示RGB分支的全局空间嵌入量的注意力系数；表示RGB分支的卷积操作；表示输入RGB图像特征；表示深度分支的全局空间嵌入量的注意力系数；表示深度分支的卷积操作；表示输入深度分支图像特征；表示RGB 分支的多模态交叉引导的注意力特征；表示第二RGB分支的线性编码；表示 RGB分支的归一化操作；表示第一RGB分支的线性编码；表示深度分支的多模态交叉引导的注意力特征；表示第二深度分支的线性编码；表示深度分支的归一化操作；表示第一深度分支的线性编码；表示多模态交叉融合后的输出结果；Softmax函数中dim=1表示在通道维度进行softmax操作；Concat操作中的dim=1表示在通道维度进行拼接级联；表示常规卷积进特征融合。

在所设计的骨干网络中不仅有多模态信息的交互，通过卷积建立多模态信息的局部相关性，还存在多分辨率融合，不同模态不同分辨率特征图的表征能力不同，通过多模态多分辨率特征融合可以更好的发挥多模态信息的互补作用。在网络深层，多级小波变换提供的更原始的细节信息，与深层的语义信息进行融合，也一定程度上缓解了梯度消失的问题。

下面展示多级小波多模态特征融合骨干前向推理伪代码：

输入（RGB, Depth）：RGB图像和Depth信息图像；

输出（RGB_results, Depth_results）：经过多级小波多模态特征融合骨干网络分别得到RGB的特征金字塔结果和Depth信息图像的特征金字塔结果；

1：def(RGB, Depth):

2： RGB = RGB_Stem(RGB) #RGB_Stem用于将输入图像映射到高维空间

3： RGB_waveout = MultiLevelWave(RGB, stage_num=4) #将图像进行多级小波分解，此处分解4次

4： Depth = Depth_Stem(Depth)

5： Depth_waveout = MultiLevelWave(Depth, stage_num=4)

6： RGB_results = []

7： Depth_results = []

8： for i in range(0, stage_num):

9： temp = RGB

10： Depth = ResizeLike(Depth,RGB_waveout[i])

11： RGB = RGBStage[i](torch.concat([RGB_waveout[i],Depth],dim=1)) #RGB小波分解特征引导Depth分支

12： RGB_results.append(RGB)

13： Depth = DepthStage[i](torch.concat([Depth_waveout[i], temp],dim=1)) #Depth小波分解特征引导RGB分支

14： Depth_results.append(Depth)

15： return RGB_results, Depth_results

下一步，S3中，深度监督理论是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧，用来解决深度神经网络训练梯度消失和收敛速度过慢等问题，同时也会提升一些准确度。并且这些辅助分类器只在训练时启用，在推理时不需要进行前向推理。所以，深度监督不会影响推理速度。在本发明中，深度监督应用于轻量级分割头，其中一共有三个额外的辅助分割头，分别处理不同分辨率的融合特征图。对于小型训练数据和相对轻量级的网络，对于分类准确性和学习特征问题，深度监督可以提供强大的“正规化”。

所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器：

通过所述深度非对称编码器对所述RGB分支进行特征提取；

通过所述结构非对称编码器对所述Depth分支进行特征提取。

按照S4，RGB分支具有更多的冗余信息，而Depth分支只有空间距离信息。根据此特点，我们从两个层面去设计非对称结构，分别是深度非对称编码器和结构非对称编码。具体来说，信息相对冗余的RGB分支，我们使用较深的常规卷积进行充分的特征提取；而信息比较单一的Depth分支，使用较浅的廉价卷积（Ghost卷积）来进行特征提取。如下表为多模态各分支每个阶段卷积具体情况：

表1 非对称编码器加速

S4中，通常情况下，由于算力资源和算法复杂度的限制，mIoU和FPS通常是此消彼长的关系。但现在对于两种在计算过程上毫无关系的指标，没有一个更加客观的度量方式。于是我们尝试借鉴F-score的思想来衡量两个此消彼长指标的综合重要性，以下是F-score的计算公式：所述F-score算法如公式（1）所示：

（1）

其中Precision是指精确率，Recall是指召回率。是调节因子，当有些情况下，认为精确率更重要些，那就调整的值小于1，如果认为召回率更重要些，那就调整的值大于 1。

在衡量mIoU和FPS时，与Precision和Recall的关系有相似的地方。略有不同的地方时，我们通常是在保证mIoU的前提下尽量提高FPS。在评估中我们认为mIoU更重要一些。所以得到以下计算公式来权衡mIoU和FPS，所述评价指标如公式（2）所示：

（2）

将设置为0.5来调整mIoU对于算法的重要性。

实施例二：

图2示出了一种基于多模态无人机航拍的电力系统实时语义分割系统的框图，如图2所示，本实施例提供的基于多模态无人机航拍的电力系统实时语义分割系统，包括：

在一些实现方式中，所述特征交互单元，具体包括：

在一些实现方式中，所述特征融合单元，具体包括：

实施例三：

本实施例还提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现实施例一的方法；

在实际应用中，处理器可以是专用集成电路（Application Specific IntegratedCircuit，简称ASIC）、数字信号处理器（Digital Signal Processor，简称DSP）、数字信号处理设备（Digital SignalProcessing Device，简称DSPD）、可编程逻辑器件（ProgrammableLogic Device，简称PLD）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现，用于执行上述实施例中的方法。

本实施例所实现的方法，如实施例一所示。

实施例四：

本实施例还提供一种计算机存储介质，所述计算机可读取存储介质中存储有计算机程序，计算机程序被一个或多个处理器执行时，实现实施例一的方法；

其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（ErasableProgrammable Read-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本实施例所实现的方法，如实施例一所示。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的。

需要说明的是，在本文中，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于多模态无人机航拍的电力系统实时语义分割方法，其特征在于，包括：

S3，根据所述融合特征图的分辨率，通过对应的分割头利用深度监督进行多模态语义分割，并通过所述RGBD多模态非对称编码器进行加速处理；其中，所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器；

S4，根据F-score算法，建立mIoU和FPS之间定量比较的评价指标；其中，所述F-score算法如公式（1）所示，所述评价指标如公式（2）所示：

；

公式（1）中，Precision表示精确率，Recall表示召回率，表示调节因子，

公式（2）中，的取值0.5；

其中，所述S1，具体包括：

S12，根据所述低频特征和高频特征，根据不同分辨率分发至对应阶段；

其中，所述S2，具体包括：

2.根据权利要求1所述的方法，其特征在于，S3中，具体包括：

通过所述深度非对称编码器对所述RGB分支进行特征提取；

通过所述结构非对称编码器对所述Depth分支进行特征提取。

3.一种基于多模态无人机航拍的电力系统实时语义分割系统，其特征在于，包括：

编码加速单元，用于根据所述融合特征图的分辨率，通过对应的分割头利用深度监督进行多模态语义分割，并通过所述RGBD多模态非对称编码器进行加速处理；其中，所述RGBD多模态非对称编码器包括深度非对称编码器和结构非对称编码器；

评价指标单元，用于根据F-score算法，建立mIoU和FPS之间定量比较的评价指标；其中，所述F-score算法如公式（1）所示，所述评价指标如公式（2）所示：

；

公式（2）中，的取值0.5；

其中，所述特征交互单元，具体包括：

频率发送子单元，用于根据所述低频特征和高频特征，根据不同分辨率分发至对应阶段；

其中，所述特征融合单元，具体包括：

4.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如上述权利要求1-2中任意一项所述方法。

5.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上述权利要求1-2中任意一项所述方法。