CN117036891B

CN117036891B - 一种基于跨模态特征融合的图像识别方法及系统

Info

Publication number: CN117036891B
Application number: CN202311063209.8A
Authority: CN
Inventors: 吴波; 战秋成; 郑随兵
Original assignee: Realman Intelligent Technology Beijing Co ltd
Current assignee: Realman Intelligent Technology Beijing Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2024-03-29
Anticipated expiration: 2043-08-22
Also published as: CN117036891A

Abstract

本发明公开了一种基于跨模态特征融合的图像识别方法及系统，其中方法包括如下步骤：获取拍摄对象的RGB图像和深度图像；基于跨模态特征融合模型识别RGB图像和深度图像，识别拍摄对象中的若干个待识别目标的图像单元，依据待识别目标的图像单元获取待识别目标的种类和状态信息；其中，跨模态特征融合模型对RGB图像和深度图像进行特征提取，获取RGB图像和深度图像多个层级的特征，利用自注意力机制、交错注意力机制和多头注意力机制融合RGB图像和深度图像特征之间的互补语义信息，逐级对多个尺度的特征进行融合。通过引入深度相机拍摄的深度图像作为另一模态，配合改进模式进行识别，满足了动态环境下对配电柜元器件的目标分割需求。

Description

一种基于跨模态特征融合的图像识别方法及系统

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于跨模态特征融合的图像识别方法及系统。

背景技术

配电柜是电力系统中至关重要的设备，承担着电能分配、控制和保护的功能，确保电力系统的安全运行，提供稳定可靠的电力供应，并保护电路和设备免受电力故障的影响。机器人技术在配电柜的运维和操作中发挥着重要的角色，通过精确的运动和控制，被用于实现故障检测、元器件操作等任务，大大提高了工作的效率和安全性。计算机视觉技术为机器人在配电柜操作中提供了强化的感知和识别能力，通过使用计算机视觉技术，机器人可以准确地识别配电柜中的设备、连接器等，并获取相关的数据和图像信息，为机器人操作提供了重要的指导和支持。然而，配电柜的工作环境通常是封闭和动态的，靠机器人去代替工作人员进行日常操作，就需要模型去应对动态环境下带来的挑战，比如阴影遮挡，光线不足，低分辨率等。在这些条件下，对于只用可见光这一种算法很难达到高精度，因此采用深度相机来提供可见光图像和深度图像，通过融合不同模态的互补性，可以提高目标定位和分割算法的可感知性、可靠性和鲁棒性。

随着卷积神经网络的发展，出现了基于CNN(卷积神经网络)的双流网络用于目标检测及分割。在以往的工作中无论如何设计模态融合机制，都是在卷积神经网络上进行的，例如基于跨模态学习与领域自适应RGBD图像语义分割方法(CN 114419323 A)，CNN在单模态内推理中具有很强表征和学习能力，能够通过卷积操作能够有效地捕捉输入数据中的局部特征，对图像等具有空间结构的数据具有较好的处理能力，具有局部感知性和多层次的特征表示的优点。与CNN相比，Transformer模型是建立在全局关注的基础上的，具有键-查询间的相关性，能够建模长程依赖关系并捕捉全局信息，将卷积神经网络和Transformer结合起来，可以同时考虑局部和全局信息，提取强大的特征表示，并解决长程依赖性问题，例如一种腹部CT图像多器官分割方法、装置及终端设备(CN 116030259 A)，这篇专利将CNN与Transformer结合起来并运用在了目标检测领域。

但是，上述解决方式中，基于跨模态学习与领域自适应RGBD图像语义分割方法(CN114419323 A)是使用卷积神经网络的模型并有着良好的分割性能，但卷积运算的局部性限制了模型很难学到感受野以外图像中长距离依赖关系，使基于卷积神经网络的模型处理图像中的纹理、形状和尺寸变化等细节的能力受到一定的限制；因此，在处理具有长距离依赖关系的图像任务时，卷积神经网络可能会面临挑战，并可能无法捕捉到图像全局的特征和上下文信息。

而一种腹部CT图像多器官分割方法、装置及终端设备(CN 116030259 A)，则是基于视觉Transformer的模型采用自注意力机制能够对图像全局信息进行建模，并且整个模型通过多尺度的全局语义特征提取能力来提高目标的分割精度。但是这种单模态的Transformer模型应用的场景是非常的单一固定的，用在实际场景中进行目标分割会非常具有局限性，在真实世界中的环境通常是开放的、动态的，比如阴影遮挡、光线曝光及不足、低分辨率的情况等等，在这种条件下，单一模态的分割算法是很难达到较高的分割精度。

为了满足动态环境下对配电柜元器件进行目标的分割，通过引入深度相机拍摄的深度图像作为另一个模态，并基于CNN提取各个模态在不同尺度下的特征，然后通过Transformer模块来进行不同模态间的互补性融合，来提高目标定位和分割算法的可感知性、可靠性和鲁棒性，且上述模型具有结构体积小、资源消耗低等特点，易于部署到边缘设备上。

发明内容

本发明实施例的目的是提供一种基于跨模态特征融合的图像识别方法及系统，为了满足动态环境下对配电柜元器件进行目标的分割，通过引入深度相机拍摄的深度图像作为另一个模态，并基于CNN提取各个模态在不同尺度下的特征，然后通过Transformer模块来进行不同模态间的互补性融合，来提高目标定位和分割算法的可感知性、可靠性和鲁棒性，且上述模型具有结构体积小、资源消耗低等特点，易于部署到边缘设备上。

为解决上述技术问题，本发明实施例的第一方面提供了一种基于跨模态特征融合的图像识别方法，包括如下步骤：

获取拍摄对象的RGB图像和深度图像；

基于所述跨模态特征融合模型识别所述RGB图像和所述深度图像，识别所述拍摄对象中的若干个待识别目标的图像单元，依据所述待识别目标的图像单元获取所述待识别目标的种类和状态信息；

其中，所述跨模态特征融合模型对所述RGB图像和所述深度图像进行特征提取，获取所述RGB图像和所述深度图像多个层级的特征，利用自注意力机制、交错注意力机制和多头注意力机制融合所述RGB图像和所述深度图像特征之间的互补语义信息，逐级对多个尺度的特征进行融合。

进一步地，所述基于所述跨模态特征融合模型识别所述RGB图像和所述深度图像之前，还包括：

获取所述拍摄对象在各种拍摄条件下的历史图像数据，所述历史图像数据包括：所述拍摄对象的若干个历史RGB图像及对应的历史深度图像；

基于预设比例的所述历史图像数据，对所述跨模态特征融合模型进行所述待识别目标的识别训练。

进一步地，所述跨模态特征融合模型包括：Backbone部分、Neck部分和Head部分；

所述Backbone部分分别接收所述RGB图像和所述深度图像，通过卷积模块提取所述RGB图像和所述深度图像的多个尺度的特征，再通过若干个相应的特征融合模块进行特征融合后得到多个尺度的特征图，分别经通道注意力模块发送至所述Neck部分；

所述Neck部分对所述通道注意力模块输出的特征进行提取及并进行尺度上的融合处理，将融合处理后的所述特征发送至所述Head部分；

所述Head部分根据特征确定所述待识别目标的分割区域。

进一步地，所述Backbone部分包括接收所述RGB图像的第一支路和接收所述深度图像的第二支路；

所述第一支路和所述第二支路上分别设有相应的多个图片特征提取单元，所述图片特征提取单元包括：Conv模块、C3模块和/或SPPF模块；

所述第一支路和所述第二支路设有与所述图片特征提取单元相应的TransSACA模块，所述TransSACA模块分别接收所述第一支路和所述第二支路中相应的所述图片特征提取单元中提取的所述特征，进行特征融合后，再分别发送至相应支路中。

进一步地，所述TransSACA模块采用多模态特征融合机制，第一输入端为RGB图像卷积特征图，第二输入端为D图像卷积特征图，分别将所述RGB图像卷积特征图和所述D图像卷积特征图展平并重新培训矩阵序列，添加位置嵌入后得到所述Transformer模块的输入序列；

基于所述Transformer模块的输入序列，通过自注意力机制使用Q_RGB和K_RGB的点积来计算注意力权重，然后乘上V_RGB去得到输出Z_saRGB和Z_saD，在通过交叉注意力机制使用Q_D和K_RGB的点积来计算注意力权重然后乘上V_RGB去得到输出Z_caRGB和Z_caD；

基于多层感知器模型进行处理，包括两层全连接前馈网络，中间用一个GELU激活函数去计算输出X^OUT _RGB与X^OUT _D，X^OUT _RGB与X^OUT _D输出维度与输入序列相同，将输出重塑为C×H×W的特征映射F^OUT _RGB和F^OUT _D，并使用与现有特征映射的元素求和反馈到每个单独的模态分支中。

进一步地，所述Head部分的损失函数为边界框回归损失函数；

其中，所述边界框回归损失函数包括：有界盒回归损失、置信度损失、分类损失及掩码回归损失的和。

进一步地，所述识别所述拍摄对象中的若干个待识别目标的图像单元之后，还包括：

依据识别结果对所述图像单元进行分割，得到若干个所述待识别目标的图像数据；

将若干个所述待识别目标的图像数据的尺寸调整为预设尺寸；

基于预设尺寸的所述待识别目标的图像数据获取所述待识别目标的种类和状态信息。

相应地，本发明实施例的第二方面提供了一种基于跨模态特征融合的图像识别系统，包括：

图像获取模块，其用于获取拍摄对象的RGB图像和深度图像；

图像识别模块，其用于基于所述跨模态特征融合模型识别所述RGB图像和所述深度图像，识别所述拍摄对象中的若干个待识别目标的图像单元，依据所述待识别目标的图像单元获取所述待识别目标的种类和状态信息；

进一步地，所述基于跨模态特征融合的图像识别系统还包括：模型训练模块，所述模型训练模块包括：

历史数据获取单元，其用于获取所述拍摄对象在各种拍摄条件下的历史图像数据，所述历史图像数据包括：所述拍摄对象的若干个历史RGB图像及对应的历史深度图像；

模型识别训练单元，其用于基于预设比例的所述历史图像数据，对所述跨模态特征融合模型进行所述待识别目标的识别训练。

所述Head部分根据特征确定所述待识别目标的分割区域。

进一步地，所述Head部分的损失函数为边界框回归损失函数；

进一步地，所述图像识别模块包括：

图像分割单元，其用于依据识别结果对所述图像单元进行分割，得到若干个所述待识别目标的图像数据；

图像调整单元，其用于将若干个所述待识别目标的图像数据的尺寸调整为预设尺寸；

信息获取单元，其用于基于预设尺寸的所述待识别目标的图像数据获取所述待识别目标的种类和状态信息。

相应地，本发明实施例的第三方面提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述一个处理器执行，以使所述至少一个处理器执行上述基于跨模态特征融合的图像识别方法。

相应地，本发明实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述基于跨模态特征融合的图像识别方法。

本发明实施例的上述技术方案具有如下有益的技术效果：

附图说明

图1是本发明实施例提供的基于跨模态特征融合的图像识别方法流程图；

图2是本发明实施例提供的配电柜元器件识别流程图；

图3是本发明实施例提供的跨模态特征融合模型示意图；

图4是本发明实施例提供的TransSACA模块流程图；

图5a是现有技术基于RGB模式拍摄的角度1的拍摄及分割图；

图5b是现有技术基于RGB模式拍摄的角度2的拍摄及分割图；

图5c是现有技术基于RGB模式拍摄的角度3的拍摄及分割图；

图5d是现有技术基于CBAM模式拍摄的角度1的拍摄及分割图；

图5e是现有技术基于CBAM模式拍摄的角度2的拍摄及分割图；

图5f是现有技术基于CBAM模式拍摄的角度3的拍摄及分割图；

图5g是现有技术基于CFT模式拍摄的角度1的拍摄及分割图；

图5h是现有技术基于CFT模式拍摄的角度2的拍摄及分割图；

图5i是现有技术基于CFT模式拍摄的角度3的拍摄及分割图；

图5j是本发明基于跨模态特征融合模式拍摄的角度1的拍摄及分割图；

图5k是本发明基于跨模态特征融合模式拍摄的角度2的拍摄及分割图；

图5l是本发明基于跨模态特征融合模式拍摄的角度3的拍摄及分割图；

图6是本发明实施例提供的基于跨模态特征融合的图像识别系统模块框图；

图7是本发明实施例提供的图像识别模块框图；

图8是本发明实施例提供的模型训练模块框图。

附图标记：

1、图像获取模块，2、图像识别模块，21、图像分割单元，22、图像调整单元，23、信息获取单元，3、模型训练模块，31、历史数据获取单元，32、模型识别训练单元。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

请参照图1和图2，本发明实施例的第一方面提供了一种基于跨模态特征融合的图像识别方法，包括如下步骤：

步骤S100，获取拍摄对象(即配电柜)的RGB图像和深度图像。

在本发明实施例的一个可选方式中，可标注的配电柜元器件包括：触摸屏、温控表、急停开关、红色自锁开关、黄色自锁开关、船型开关、高压连接板、空气开关把手、空气开关底座、转换开关把手、转换开关底座、负载开关1把手、负载开关1底座、负载开关2把手、负载开关2底座、门锁把手、门锁锁芯、电压表、指示灯、旋转开关把手、旋转开关底座、绿色自复位开关、白色自复位开关。

步骤S300，基于跨模态特征融合模型识别RGB图像和深度图像，识别拍摄对象中的若干个待识别目标(即配电柜元器件)的图像单元，依据待识别目标的图像单元获取待识别目标的种类和状态信息。

其中，跨模态特征融合模型对RGB图像和深度图像进行特征提取，获取RGB图像和深度图像多个层级的特征，利用自注意力机制、交错注意力机制和多头注意力机制融合RGB图像和深度图像特征之间的互补语义信息，逐级对多个尺度的特征进行融合。

进一步地，步骤S300中的基于跨模态特征融合模型识别RGB图像和深度图像之前，还包括：

步骤S210，获取拍摄对象在各种拍摄条件下的历史图像数据，历史图像数据包括：拍摄对象的若干个历史RGB图像及对应的历史深度图像。

步骤S220，基于预设比例的历史图像数据，对跨模态特征融合模型进行待识别目标的识别训练。

通过提前获取配电柜元器件的大量历史照片，通过预处理得到统一大小的输入图片，并构建数据集，按照8：1：1的比例随机打散分配给训练集、验证集、测试集，对模型进行训练。双模态支路特征提取RGB和D不同尺度下的图像特征。搭建多尺度Transformer的分割模型进行不同尺度的图像融合，输出的特征图回馈给原支路以达到增强支路特征的目的。在模型训练及参数调整的过程中，对损失函数进行了优化，将SIoU损失函数替换了原来的CIoU损失函数，以提高训练的收敛速度和分割的准确度。上述模型按照预设的方案进行训练，得到收敛后的模型的权值文件。

具体的，请参照图3，上述跨模态特征融合模型包括：Backbone部分、Neck部分和Head部分。其中，Backbone部分分别接收RGB图像和深度图像，通过卷积模块提取RGB图像和深度图像的多个尺度的特征，再通过若干个相应的特征融合模块进行特征融合后得到多个尺度的特征图，分别经通道注意力模块发送至Neck部分；Neck部分对通道注意力模块输出的特征进行提取及并进行尺度上的融合处理，将融合处理后的特征发送至Head部分；Head部分根据特征确定待识别目标的分割区域。

进一步地，Backbone部分包括接收RGB图像的第一支路和接收深度图像的第二支路；第一支路和第二支路上分别设有相应的多个图片特征提取单元，图片特征提取单元包括：Conv模块、C3模块和/或SPPF模块；第一支路和第二支路设有与图片特征提取单元相应的TransSACA模块，TransSACA模块分别接收第一支路和第二支路中相应的图片特征提取单元中提取的特征，进行特征融合后，再分别发送至相应支路中。

Conv模块是由卷积层、归一化层、激活函数组成，通过卷积操作提取局部空间信息，并通过BN层规范化特征值分布，最后通过激活函数引入非线性变换能力，从而实现对输入特征的转换和提取。C3模块通过增加卷积深度和感受野，提高了特征提取的能力。SPPF模块对输入特征图进行不同大小的池化操作，得到一组不同大小的特征图，然后将这些特征图连接在一起，并通过全连接层来降低维度，获得固定大小的特征向量。

Neck部分采用的是FPN特征金字塔，通过上采样和下采样操作将不同尺度的特征图融合在一起，生成多尺度特征金字塔，先自顶向下通过上采样与更粗颗粒度的特征图融合来实现不同层次特征的融合，再自下而上通过一个卷积层来融合不同层次的特征图。

更进一步，请参照图4，TransSACA模块采用多模态特征融合机制，第一输入端为RGB图像卷积特征图，第二输入端为D图像卷积特征图，分别将RGB图像卷积特征图和D图像卷积特征图展平并重新培训矩阵序列，添加位置嵌入后得到Transformer模块的输入序列；基于Transformer模块的输入序列，通过自注意力机制使用Q_RGB和K_RGB的点积来计算注意力权重，然后乘上V_RGB去得到输出Z_saRGB和Z_saD，在通过交叉注意力机制使用Q_D和K_RGB的点积来计算注意力权重然后乘上V_RGB去得到输出Z_caRGB和Z_caD；基于多层感知器模型进行处理，包括两层全连接前馈网络，中间用一个GELU激活函数去计算输出X^OUT _RGB与X^OUT _D，X^OUT _RGB与X^OUT _D输出维度与输入序列相同，将输出重塑为C×H×W的特征映射F^OUT _RGB和F^OUT _D，并使用与现有特征映射的元素求和反馈到每个单独的模态分支中。

具体的，所述TransSACA模块为多模态特征融合机制，利用Transformer的自注意力和交叉注意力将RGB模态和D模态的全局背景结合起来，因为他们具有互补性，所述模块的每一路分支都接受一个由离散token组成的序列作为输入，每个token由一个特征向量表示，该特征向量由位置编码补充，以结合位置归纳偏差。如图中所示，F^IN _RGB∈R^C×H×W是RGB图像卷积特征图，F^IN _D∈R^C×H×W是D图像卷积特征图，其中C代表通道数、H代表图片高度值、W代表图片宽度值,他们分别是由RGB图和D图通过卷积提取特征得来的：

F^IN _RGB＝Φ_RGB(I_RGB)，F^IN _D＝Φ_D(I_D)；

其中，I_RGB和I_D分别是输入的RGB图和D图，Φ_RGB和Φ_D卷积模块应用于生成不同模态输入图像的特征映射，之后分别将每个特征图展平并重新排序矩阵顺序，添加位置嵌入后就得到了Transformer的输入序列X^IN _RGB∈R^HW×C和X^IN _D∈R^HW×C，使用线性投影来计算RGB和D的一组查询、键和值(Q、K和V)，例如：

其中，W_RGB ^Q、W_D ^Q∈R^C×Dq，W_RGB ^K、W_D ^K∈R^C×Dw，W_RGB ^V、W_D ^Vv∈R^C×Dv是权重矩阵，在所属模块中D_Q＝D_W＝D_V＝C，每个注意力头使用Q_(·)和K_(·)的点积来计算注意力权重，然后乘上V_(·)去得到输出Z_(·)。例如自注意力使用Q_RGB和K_RGB的点积来计算注意力权重，然后乘上V_RGB去得到输出Z_saRGB，同理可得Z_saD。交叉注意力使用Q_D和K_RGB的点积来计算注意力权重然后乘上V_RGB去得到输出Z_caRGB，同理可得Z_caD。

这里，是比例因子为了防止点积产生的结果过大使softmax函数产生较小的梯度，用于控制注意力权重的大小和稳定性，自注意力和交叉注意力的多头注意力通过对不同位置的特征进行不同的关注，可以进一步提高模型的性能。多头注意力的表述如下：

其中，

这里，h代表头数，Zi代表第i头的注意力权重，W^O，W^Q _i，W^K _i，W^V _i都∈R^C×C是投影矩阵。

更具体的说，自注意力模块用于在序列内部建立关联，计算每个元素与序列中其他元素的相关性，其中，Q，K，V来自相同的输入模态，它分析远程依赖关系并探索上下文信息，以进一步改进特定于模式的特性，以输入全局特征X^IN _RGB为例，输出的自注意力全局特征Z^SA _RGB可以表示如下：

接着交叉注意力模块用于处理不同模态或不同输入之间的关联来减少歧义，Q来自不同的输入模态，而K和V是相同的输入模态，使不同模态之间建立有效的信息交流和融合，促进不同模态之间的信息传递和互补，在所述模块中，从另一个输入特征中获取查询(例如Q_D)，和自身输入特征中的键(例如K_RGB))来计算相关性，表示如下：

这里，Z_saRGB和Z_saD是自注意力模块的输出，Q_RGB、K_RGB和V_RGB是RGB图像特征的相关中间表示，Q_D、K_D和V_D是D图像特征的相关中间表示。

最后，用MLP进行处理，包括两层全连接前馈网络，中间用一个GELU激活函数去计算输出X^OUT _RGB与X^OUT _D，其维度与输入特征图相同，因此直接作为补充信息与原始模态分支相加。

这里X^OUT _RGB与X^OUT _D输出维度与输入序列相同，然后将输出重塑为C×H×W的特征映射F^OUT _RGB和F^OUT _D，并使用与现有特征映射的元素求和反馈到每个单独的模态分支中。

因为处理一个高分辨率的特征图的计算开销是非常昂贵的，为了减少Transformer在处理高分辨率的特征图所带来的计算量，采用平均池化对高分辨率的特征图进行下采样，将其采样到H＝W＝8的固定分辨率，然后将它们作为输入传递给所述模块，输出与现有特征映射进行元素求和之前使用双线性插值将输出上采样到原始分辨率。

进一步地，Head部分的损失函数为边界框回归损失函数。其中，边界框回归损失函数包括：有界盒回归损失、置信度损失、分类损失及掩码回归损失的和。

具体的，Head部分引入新的边界框回归损失函数SIoU，替换了原来的CIoU损失函数，来提高模型训练的收敛速度和推理的准确性,SIoU相比于CIoU考虑到了角度的问题，它是由角度损失、距离损失、形状损失、重叠损失构成的。总体损失函数包括为有界盒回归损失、置信度损失、分类损失、掩码回归损失之和,

在距离损失函数△中，(b_cx ^gt，b_cy ^gt)为真值框中心坐标，(b_cx，b_cy)为预测框中心坐标。C_w和C_h分别是真值框和预测框的最小外接矩形的宽度和高度，p_x和p_y表示两个框中心坐标的欧氏距离。在角度损失函数^中，C_w和C_h分别为真值框和预测框中心点的宽度和高度值，σ表示真值框和预测框中心点的距离。在形状损失函数Ω中，(w，h)和(w ^gt，h^gt)分别为预测框和真值框的宽和高，θ控制对形状损失的关注程度。K表示输出特征图，S²和N分别表示预测过程中图像网格的个数和每个网格中预测框的个数，系数M^obj _kij表示第i个网格的第j个预测框的第K个输出特征图是否为正样本，BCE^sig _obj表示二进制交叉熵损失函数，w_obj和w_cls表示正样本的权值。x_p和x_gt分别表示预测向量和真实值向量；其中ɑ_box、ɑ_obj、ɑ_cls、ɑ_seg分别表示位置误差、置信度误差、分类误差和分割误差的权重。分割损失函数L_seg使用二进制交叉熵，其中P是原型掩码的h×w×k矩阵，C是通过NMS和阈值限定后的n个实例的掩码系数的n×k矩阵。σ表示sigmoid函数，将预测掩码M_p与真实值掩码M_gt组合后送入二进制交叉熵进行计算。

进一步地，识别拍摄对象中的若干个待识别目标的图像单元之后，还包括：

步骤S310，依据识别结果对图像单元进行分割，得到若干个待识别目标的图像数据。

步骤S320，将若干个待识别目标的图像数据的尺寸调整为预设尺寸。

步骤S330，基于预设尺寸的待识别目标的图像数据获取待识别目标的种类和状态信息。

在本发明的一个具体实施方式中，使用mAP0.5和mAP0.5:0.05:0.95来评估模型的分割表现能力。mAP计算时需要用到Precision和Recall。

其中，True Position(TP)代表预测的掩码和真值之间的IOU是大于规定的阈值，False Positive(FP)代表预测的掩码和真值之间的IOU不满足规定的阈值，FalseNegative(FN)代表预测的掩码和真值之间没有交集。mAP的计算公式如下：

其中，AP代表每个类别Precision和Recall曲线的积分，mAP0.5代表IOU的阈值设为0.5时所有类别的所有AP的平均值。mAP0.5:0.05:0.95计算IOU的阈值为0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95上的平均值，显然，它比mAP0.5要严格得多，他们的取值范围在0～1之间。

表1

从表1可知，对配电柜元器件分割，指标较其他算法mAP0.5及mAP0.5:0.05:0.95都高。

由图5a至图5l可知，通过3个不同配电柜元器件拍摄角度的可见光图像和对应的深度图像进行测试，可以看出在可见光场景下，所有的网络分割结果都不错。但是低光照场景下，RGB模式出现了旋转开关的旋钮(EE_rot_swch_hdl)、负载开关把手(EE_load_swchl_hdl)、门把手(EE_gt_lk_hdl)欠分割的情况。CBAM模式能够对把手分割，但对旋转开关的旋钮、负载开关把手欠分割，CFT模式也出现了旋转开关的旋钮、负载开关把手、门把手欠分割的情况。而本发明中的基于跨模态特征融合的图像识别方法进行分割则避免了上述问题。

由上可知，本发明提出的跨模态特征融合方法，来解决配电柜机器人在低光照或者夜晚场景下面临识别困难和操作困难的问题，上述方法将新设计的Transformer模块密集的插入双流网络框架中，利用自注意力机制配合交错注意力机制捕捉序列中不同位置之间的关系，并利用这些关系对全局上下文信息进行依赖和集成，能够准确地理解元器件的空间关系；通过考虑元器件周围的全局信息，机器人能够准确地定位和分割目标；最后采用SIoU损失函数替换了原有的CIoU损失函数，SIoU在CIoU的基础上考虑到了角度问题，包括角度损失、距离损失、形状损失、重叠损失，提高了模型的训练收敛速度和分割精度，模型资源消耗低并易于部署到边缘设备上。

相应地，请参照图6，本发明实施例的第二方面提供了一种基于跨模态特征融合的图像识别系统，包括：

图像获取模块1，其用于获取拍摄对象的RGB图像和深度图像；

图像识别模块2，其用于基于跨模态特征融合模型识别RGB图像和深度图像，识别拍摄对象中的若干个待识别目标的图像单元，依据待识别目标的图像单元获取待识别目标的种类和状态信息；

进一步地，请参照图7，图像识别模块2包括：

图像分割单元21，其用于依据识别结果对图像单元进行分割，得到若干个待识别目标的图像数据；

图像调整单元22，其用于将若干个待识别目标的图像数据的尺寸调整为预设尺寸；

信息获取单元23，其用于基于预设尺寸的待识别目标的图像数据获取待识别目标的种类和状态信息。

进一步地，请参照图8，基于跨模态特征融合的图像识别系统还包括：模型训练模块3，模型训练模块3包括：

历史数据获取单元31，其用于获取拍摄对象在各种拍摄条件下的历史图像数据，历史图像数据包括：拍摄对象的若干个历史RGB图像及对应的历史深度图像；

模型识别训练单元32，其用于基于预设比例的历史图像数据，对跨模态特征融合模型进行待识别目标的识别训练。

进一步地，跨模态特征融合模型包括：Backbone部分、Neck部分和Head部分；

Backbone部分分别接收RGB图像和深度图像，通过卷积模块提取RGB图像和深度图像的多个尺度的特征，再通过若干个相应的特征融合模块进行特征融合后得到多个尺度的特征图，分别经通道注意力模块发送至Neck部分；

Neck部分对通道注意力模块输出的特征进行提取及并进行尺度上的融合处理，将融合处理后的特征发送至Head部分；

Head部分根据特征确定待识别目标的分割区域。

进一步地，Backbone部分包括接收RGB图像的第一支路和接收深度图像的第二支路；

第一支路和第二支路上分别设有相应的多个图片特征提取单元，图片特征提取单元包括：Conv模块、C3模块和/或SPPF模块；

第一支路和第二支路设有与图片特征提取单元相应的TransSACA模块，TransSACA模块分别接收第一支路和第二支路中相应的图片特征提取单元中提取的特征，进行特征融合后，再分别发送至相应支路中。

进一步地，TransSACA模块采用多模态特征融合机制，第一输入端为RGB图像卷积特征图，第二输入端为D图像卷积特征图，分别将RGB图像卷积特征图和D图像卷积特征图展平并重新培训矩阵序列，添加位置嵌入后得到Transformer模块的输入序列；

基于Transformer模块的输入序列，通过自注意力机制使用Q_RGB和K_RGB的点积来计算注意力权重，然后乘上V_RGB去得到输出Z_saRGB和Z_saD，在通过交叉注意力机制使用Q_D和K_RGB的点积来计算注意力权重然后乘上V_RGB去得到输出Z_caRGB和Z_caD；

进一步地，Head部分的损失函数为边界框回归损失函数；

其中，边界框回归损失函数包括：有界盒回归损失、置信度损失、分类损失及掩码回归损失的和。

相应地，本发明实施例的第三方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器连接的存储器；其中，存储器存储有可被一个处理器执行的指令，指令被一个处理器执行，以使至少一个处理器执行上述基于跨模态特征融合的图像识别方法。

本发明实施例旨在保护一种基于跨模态特征融合的图像识别方法及系统，其中方法包括如下步骤：获取拍摄对象的RGB图像和深度图像；基于跨模态特征融合模型识别RGB图像和深度图像，识别拍摄对象中的若干个待识别目标的图像单元，依据待识别目标的图像单元获取待识别目标的种类和状态信息；其中，跨模态特征融合模型对RGB图像和深度图像进行特征提取，获取RGB图像和深度图像多个层级的特征，利用自注意力机制、交错注意力机制和多头注意力机制融合RGB图像和深度图像特征之间的互补语义信息，逐级对多个尺度的特征进行融合。上述技术方案具备如下效果：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于跨模态特征融合的图像识别方法，其特征在于，包括如下步骤：

获取拍摄对象的RGB图像和深度图像；

其中，所述跨模态特征融合模型对所述RGB图像和所述深度图像进行特征提取，获取所述RGB图像和所述深度图像多个层级的特征，利用自注意力机制、交错注意力机制和多头注意力机制融合所述RGB图像和所述深度图像特征之间的互补语义信息，逐级对多个尺度的特征进行融合；

所述跨模态特征融合模型包括：Backbone部分、Neck部分和Head部分；

所述Head部分根据特征确定所述待识别目标的分割区域；

所述Backbone部分包括接收所述RGB图像的第一支路和接收所述深度图像的第二支路；

所述第一支路和所述第二支路设有与所述图片特征提取单元相应的TransSACA模块，所述TransSACA模块分别接收所述第一支路和所述第二支路中相应的所述图片特征提取单元中提取的所述特征，进行特征融合后，再分别发送至相应支路中；

所述TransSACA模块采用多模态特征融合机制，第一输入端为RGB图像卷积特征图，第二输入端为D图像卷积特征图，分别将所述RGB图像卷积特征图和所述D图像卷积特征图展平并重新培训矩阵序列，添加位置嵌入后得到Transformer模块的输入序列；

基于所述Transformer模块的输入序列，通过自注意力机制使用Q_RGB和K_RGB的点积来计算注意力权重，然后乘上V_RGB得到输出Z_saRGB和Z_saD，再通过交叉注意力机制使用Q_D和K_RGB的点积来计算注意力权重然后乘上V_RGB得到输出Z_caRGB和Z_caD；

2.根据权利要求1所述的基于跨模态特征融合的图像识别方法，其特征在于，所述基于所述跨模态特征融合模型识别所述RGB图像和所述深度图像之前，还包括：

3.根据权利要求1所述的基于跨模态特征融合的图像识别方法，其特征在于，

所述Head部分的损失函数为边界框回归损失函数；

4.根据权利要求1-3任一所述的基于跨模态特征融合的图像识别方法，其特征在于，所述识别所述拍摄对象中的若干个待识别目标的图像单元之后，还包括：

5.一种基于跨模态特征融合的图像识别系统，其特征在于，应用权利要求1-4任一所述的基于跨模态特征融合的图像识别方法进行图像识别，包括：

图像获取模块，其用于获取拍摄对象的RGB图像和深度图像；

6.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述一个处理器执行，以使所述至少一个处理器执行如权利要求1-4任一基于跨模态特征融合的图像识别方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-4任一基于跨模态特征融合的图像识别方法。