CN116597135A

CN116597135A - Rgb-d多模态语义分割方法

Info

Publication number: CN116597135A
Application number: CN202310283961.7A
Authority: CN
Inventors: 陈光柱; 茹青君; 左汀玉
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-08-15

Abstract

本发明针对RGB‑D语义分割中存在的多尺度问题和实时问题，提出了RGB‑D多模态语义分割方法。通过交换彩色图特征和深度图特征的查询向量，设计了自注意力多模态信息交互模块，实现了跨模态信息交互；并在此基础上设计了多模态通道注意力校正模块和多模态全局特征聚合模块。在主干网络对彩色图和深度图进行下采样后，多模态通道注意力校正模块在通道维度实现特征矫正，然后多模态全局特征聚合模块将矫正后的特征在空间维度实现特征聚合，最后输入特征金字塔解码器模块以进行最终的语义预测。本发明的有益效果是：有效解决不同场景中目标尺度差异大的问题、有效提升RGB‑D语义分割精度、可以同时保证RGB‑D语义分割的准确度和实时性的要求。

Description

RGB-D多模态语义分割方法

技术领域

本发明属于计算机视觉、深度学习领域，具体涉及RGB-D多模态语义分割方法。

背景技术

图像语义分割是计算机视觉领域的重要任务之一，是一种有效的场景理解技术，其目的是为图像中的每个像素分配一个类别标签，并预测物体的位置和轮廓。语义分割已广泛应用于自动驾驶、机器人感知和自动导航等行业。近年来，基于彩色图像的语义分割方法得到了越来越多的关注，并在分割精度等方面取得了显著进展。目前的语义分割方法在某些情况下无法提取出高质量的特征，例如，当两个物体具有相似的颜色或纹理时，仅凭彩色图像无法准确区分。随着深度传感器的发展，深度信息作为彩色图像语义分割的一种重要辅助信息，相较于彩色图像，深度图像可以提供更为丰富的几何信息。因此研究RGB-D语义分割问题，探索有效的多模态信息融合方法，对计算机视觉应用领域具有重大意义。目前RGB-D语义分割方法主要面临以下问题：

(1)图像中不同物体之间的尺度差异很大，如何充分利用图像中的多尺度特征是一个关键问题。

(2)在实际应用中，不同的设备需要实时感知周围环境，RGB-D语义分割方法如何在高精度的前提下满足实时性能是另一个关键问题。

综上所述，针对以上问题，提出了RGB-D多模态语义分割方法，将Transformer引入RGB-D语义分割，利用Transformer在多模态领域的优势，实现了高精度的RGB-D语义分割，在解决多尺度问题的同时保持了较高的实时性。

发明内容

鉴于上述问题，本发明的目的在于提供RGB-D多模态语义分割方法。该方法通过改进Transformer中的多头注意力机制，在此基础上进行不同模态特征的矫正和融合，获得高精度分割结果的同时保留了较高实时性。

RGB-D多模态语义分割方法，包括以下步骤：

S1.设计自注意力多模态信息交互模块：所述自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的跨模态信息交互；

S2.建立基于RGB-D多模态语义分割模型：所述基于RGB-D多模态语义分割模型包括双流特征提取主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块；所述多模态特征提取主干网络用于将彩色图和深度图两种模态分别进行特征提取，生成不同尺寸的特征图；多模态通道注意力校正模块用于对所述多模态特征提取主干网络生成的不同尺寸的特征图在通道维度进行特征矫正，生成通道矫正后的多模态特征；所述多模态全局特征聚合模块用于对所述多模态通道注意力校正模块生成的矫正后的多模态特征在空间维度上进行特征聚合；所述特征金字塔解码器模块用于对所述多模态全局特征聚合模块生成的聚合后的特征进行解码，实现二维语义分割区域的预测；

S3.进行基于RGB-D多模态语义分割模型训练：将彩色图和深度图和语义分割真实标签输入所述基于RGB-D多模态语义分割模型进行训练，得到训练后的基于RGB-D多模态语义分割模型。

进一步地，所述自注意力多模态信息交互模块，首先对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量，其中三种向量的获取由全连接层完成，之后通过交换两种模态的查询向量，用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法，计算出每一种模态的自注意力矩阵，再将得到的自注意力矩阵与值向量进行矩阵乘法，得到信息交互后的彩色特征和深度特征，最后通过一个全连接层获得最终的输出结果，实现跨模态的信息交互，以上操作用以下公式表示为：

RGB_ii，Depth_ii＝FC(Attention_RGBV_RGB，Attention_DepthV_Depth)

式中，Q_Depth，K_Depth，V_Depth分别表示彩色特征的查询向量、键向量和值向量，Q_Depth，K_Depth，V_Depth分别表示深度特征的查询向量、键向量和值向量，d_head表示向量的维度，Softmax表示Softmax激活函数，Attention_RGB和Attention_Depth分别表示彩色特征和深度特征的自注意力矩阵，FC表示全连接层，RGB_ii和Depth_ii分别表示信息交互后的彩色特征和深度特征。

进一步地，所述基于RGB-D多模态语义分割模型由双流pvt_v2主干网络、四个多模态通道注意力校正模块和四个多模态全局特征聚合模块构成。所述双流pvt_v2主干网络分别提取彩色图和深度图的特征，并在每次下采样后将特征传入四个多模态通道注意力校正模块；所述四个多模态通道注意力校正模块对所述双流pvt_v2主干网络提取到的彩色特征和深度特征在通道维度进行特征矫正，并将矫正后的特征传入多模态全局特征聚合模块；所述四个多模态全局特征聚合模块对所述四个多模态通道注意力校正模块输出的矫正后的彩色特征和深度特征空间维度上进行特征聚合

进一步地，所述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样，将池化结果展平后沿着第二个维度进行拼接，得到多尺度彩色特征和多尺度深度特征，然后通过全连接层将维度映射到更高的维度中，得到向量化的彩色特征和深度特征，将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模，每个Transformer的计算过程可以用以下公式表示为：

z^l＝CMMHSA(LN(z^t-1))+z^l-1

z^l＝MLP(LN(z^l))+z^l

式中，z^l表示第l个模块的输入，LN表示层归一化，CMMHSA表示所述自注意力多模态信息交互模块，MLP表示多层感知机；

最后，将建模后的结果通过多层感知机计算得到两种模态的通道注意力向量，将两种模态的通道注意力向量和两种模态的特征进行通道相乘后通过对应元素相加操作和对方模态特征进行融合实现多尺度通道注意力矫正，以上操作用以下公式表示为：

RGB_msf＝Concat(Flatten(msap(RGB_in))，Flatten(msmp(RGB_in)))

Depth_msf＝Concat(Flatten(msap(Depth_in))，Flatten(msmp(Depth_in)))

RGB_tokenized，Depth_tokenized＝FC(RGB_msf，Depth_msf)

W_rgb，W_depth＝MLP(RGB_cii，Depth_cii)

式中，RGB_in和Depth_in分别表示彩色特征和深度特征，msmp和msap分别表示多尺度最大池化和多尺度平均池化，Concat表示合并操作，Flatten表示展平操作，RGB_msf和Depth_msf分别表示多尺度彩色特征和多尺度深度特征，RGB_tokenized和Depth_tokenized分别表示向量化的彩色特征和深度特征，RGB_cii和Depth_cii分别表示通道信息交互后的彩色特征和深度特征，MTE_rgb和MTE_depth分别表示彩色特征和深度特征的模态编码，W_rgb和W_depth分别表示两种模态的通道注意力向量，MLP表示多层感知机，和/>分别表示对应元素相加和对应通道相乘，RGB_rec和Depth_rec分别表示多尺度注意力矫正后的彩色特征和深度特征。

进一步地，所述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息，通过一个卷积核大小为3×3，步长为l×1，填充大小为1×1的深度可分离卷积来引入位置信息，再通过残差连接与输入的特征进行对应相加，除了位置编码之外，还添加了可学习的模态编码，得到带有位置信息和模态信息的彩色特征和深度特征，然后通过所述自注意力多模态信息交互模块进行空间维度的信息交互，并与输入进行残差连接，同时引入空间缩减模块，通过键向量和值向量的共享机制来减小计算量，之后通过层归一化获得空间信息交互后的彩色特征和深度特征，最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图，此外，为了提升模型鲁棒性，将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征，并通过残差连接与全局特征进行融合，再通过批归一化层获得最终的输出，上述计算过程可以用公式表示为：

F_global＝Conv_1×1(Concat(RGB_sii，Depth_sii))

式中，pme表示位置编码和模态编码，DWC_3×3表示卷积核大小为3×3的深度可分离卷积，RGB_pme和Depth_pme表示经过位置编码和模态编码后的彩色特征和深度特征，SR表示空间缩减模块，RGB_sii和Depth_sii分别表示空间信息交互后的彩色特征和深度特征，F_global表示全局特征，Relu表示Relu激活函数，F_local表示局部特征，BN表示批归一化层，F_out表示最终的输出。

与现有技术相比，本发明具有以下有益效果：

1、有效解决场景中目标尺度差异大的问题；

2、有效提升场景目标RGB-D语义分割精度；

3、基于Transformer的跨模态语义分割方法可以同时保证RGB-D语义分割的准确度和实时性的要求。

附图说明

图1是自注意力多模态信息交互模块结构。

图2是RGB-D多模态语义分割模型整体结构。

图3是多模态通道注意力校正模块结构。

图4是多模态全局特征聚合模块结构。

图5是原始彩色图片。

图6是原始深度图片。

图7是语义分割后的效果图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

RGB-D多模态语义分割方法，具体包括以下步骤：

S1.设计自注意力多模态信息交互模块：如附图1所示，自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的跨模态信息交互。

首先，对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量，其中三种向量的获取由全连接层完成，之后通过交换两种模态的查询向量，用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法，计算出每一种模态的自注意力矩阵，再将得到的自注意力矩阵与值向量进行矩阵乘法，得到信息交互后的彩色特征和深度特征，最后通过一个全连接层获得最终的输出结果，实现跨模态的信息交互，以上操作用以下公式表示为：

RGB_ii，Depth_ii＝FC(Attention_RGBV_RGB，Attention_DepthV_Depth)

S2.建立基于RGB-D多模态语义分割模型：如附图2所示，基于RGB-D多模态语义分割模型包括双流pvt_v2主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块；双流pvt_v2主干网络分别提取彩色图和深度图的特征，并在每次下采样后将特征传入多模态通道注意力校正模块；多模态通道注意力校正模块对彩色特征和深度特征在通道维度进行特征矫正，并将矫正后的特征传入多模态全局特征聚合模块；多模态全局特征聚合模块对矫正后的彩色特征和深度特征空间维度上进行特征聚合；最后特征金字塔解码器模块用于对聚合后的特征进行解码，实现二维语义分割区域的预测。

如附图3所示，上述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样，将池化结果展平后沿着第二个维度进行拼接，得到多尺度彩色特征和多尺度深度特征，然后通过全连接层将维度映射到更高的维度中，得到向量化的彩色特征和深度特征，将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模，每个Transformer的计算过程可以用以下公式表示为：

z^f＝CMMHSA(LN(z^l-1))+z^l-1

z^l＝MLP(LN(z^l))+z^l

式中，其中z^l表示第l个模块的输入，LN表示层归一化，CMMHSA表示自注意力多模态信息交互模块，MLP表示多层感知机；

RGB_msf＝Concat(Flatten(msap(RGB_in))，Flatten(msmp(RGB_in)))

Depth_msf＝Concat(Flatten(msap(Depth_in))，Flatten(msmp(Depth_in)))

RGB_tokenized，Depth_tokenized＝FC(RGB_msf，Depth_msf)

W_rgb，W_depth＝MLP(RGB_cii，Depth_cii)

式中，RGB_in和Depth_in分别表示彩色特征和深度特征，msmp和msap分别表示多尺度最大池化和多尺度平均池化，Concat表示合并操作，Flatten表示展平操作，RGB_msf和Depth_msf分别表示多尺度彩色特征和多尺度深度特征，RGB_tokenized和Depth_tokenized分别表示向量化的彩色特征和深度特征，RGB_cii和Depth_cii分别表示通道信息交互后的彩色特征和深度特征，MTE_rgb和MTE_depth分别表示彩色特征和深度特征的模态编码，W_rgb和W_depth分别表示两种模态的通道注意力向量，MLP表示多层感知机，和/>分别表示对应元素相加和对应通道相乘，RGB_rec和Depth_rec分别表示多尺度注意力矫正后的彩色特征和深度特征；

如附图4所示，上述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息，通过一个卷积核大小为3×3，步长为1×1，填充大小为1×1的深度可分离卷积来引入位置信息，再通过残差连接与输入的特征进行对应相加，除了位置编码之外，还添加了可学习的模态编码，得到带有位置信息和模态信息的彩色特征和深度特征，然后通过权利要求1所述自注意力多模态信息交互模块进行空间维度的信息交互，并与输入进行残差连接，同时引入空间缩减模块，通过键向量和值向量的共享机制来减小计算量，之后通过层归一化获得空间信息交互后的彩色特征和深度特征，最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图，此外，为了提升模型鲁棒性，将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征，并通过残差连接与全局特征进行融合，再通过批归一化层获得最终的输出，上述计算过程可以用公式表示为：

F_global＝Conv_1×1(Concat(RGB_sii，Depth_sii))

S3.进行基于RGB-D多模态语义分割模型训练：将彩色图和深度图输入所述基于RGB-D多模态语义分割模型中，和语义分割标签进行端到端的训练，选出最优的模型。最后将用于测试的数据输入最优模型，得到最终的分割效果。效果如附图5-7所示。

整个跨模态语义分割完整描述如下：

步骤1：将彩色图和深度图分辨率固定为640×480，并且进行翻转、剪裁、缩放等数据增强方法；

步骤2：将增强后的图片输入双流pvt_v2主干网络，分别提取彩色特征和深度特征，获得每次下采样后的不同尺寸大小的特征图；

步骤3：将每次下采样后得到的彩色特征和深度特征传入多模态通道注意力校正模块，多模态通道注意力校正模块对彩色特征和深度特征在通道维度进行特征矫正；再将矫正后的特征传入多模态全局特征聚合模块，多模态全局特征聚合模块对矫正后的彩色特征和深度特征空间维度上进行特征聚合；将聚合后的特征输入特征金字塔解码器模块，实现二维语义分割区域的预测。

Claims

1.RGB-D多模态语义分割方法，其特征在于，包括如下步骤：

S1.设计自注意力多模态信息交互模块：所述自注意力多模态信息交互模块主要用于在通道维度和空间维度两个维度上实现彩色图和深度图之间的多模态信息交互；

S2.建立RGB-D多模态语义分割模型：所述RGB-D多模态语义分割模型包括双流特征提取主干网络、多模态通道注意力校正模块、多模态全局特征聚合模块和特征金字塔解码器模块；所述双流特征提取主干网络用于将彩色图和深度图两种模态分别进行特征提取，生成不同尺寸的特征图；多模态通道注意力校正模块用于对所述多模态特征提取主干网络生成的不同尺寸的特征图在通道维度进行特征校正，生成通道校正后的多模态特征；所述多模态全局特征聚合模块用于对所述多模态通道注意力校正模块生成的校正后的多模态特征在空间维度上进行特征聚合；所述特征金字塔解码器模块用于对所述多模态全局特征聚合模块生成的聚合后的特征进行解码，实现二维语义分割区域的预测；

S3.进行RGB-D多模态语义分割模型训练：将彩色图、深度图和语义分割真实标签输入所述RGB-D多模态语义分割模型进行训练，得到训练后的RGB-D多模态语义分割模型。

2.根据权利要求1所述的RGB-D多模态语义分割方法，其特征在于，所述自注意力多模态信息交互模块，在原始多头注意力模块基础上针对多模态数据进行了改进；

所述自注意力多模态信息交互模块，首先对输入的彩色特征和深度特征分别计算查询向量、键向量和值向量，其中三种向量的获取由全连接层完成，之后通过交换两种模态的查询向量，用一种模态的查询向量和另一种模态的键向量的转置进行矩阵乘法，计算出每一种模态的自注意力矩阵，再将得到的自注意力矩阵与值向量进行矩阵乘法，得到信息交互后的彩色特征和深度特征，最后通过一个全连接层获得最终的输出结果，实现跨模态的信息交互，以上操作用以下公式表示为：

RGB_ii,Depth_ii＝FC(Attention_RGBV_RGB,Attention_DepthV_Depth)

3.根据权利要求1所述RGB-D多模态语义分割模型，其特征在于，所述RGB-D多模态语义分割模型由双流pvt_v2主干网络、四个多模态通道注意力校正模块和四个多模态全局特征聚合模块构成；

所述双流pvt_v2主干网络分别提取彩色图和深度图的特征，并在每次下采样后将特征传入四个多模态通道注意力校正模块；所述四个多模态通道注意力校正模块对所述双流pvt_v2主干网络提取到的彩色特征和深度特征在通道维度进行特征校正，并将校正后的特征传入多模态全局特征聚合模块；所述四个多模态全局特征聚合模块对所述四个多模态通道注意力校正模块输出的校正后的彩色特征和深度特征空间维度上进行特征聚合；

所述多模态通道注意力校正模块首先将彩色特征和深度特征通过不同大小的池化操作进行下采样，将池化结果展平后沿着第二个维度进行拼接，得到多尺度彩色特征和多尺度深度特征，然后通过全连接层将维度映射到更高的维度中，得到向量化的彩色特征和深度特征，将向量化的彩色特征和深度特征分别添加可学习的模态编码后传入Transformer模块中进行全局注意力建模，每个Transformer的计算过程可以用以下公式表示为：

z^l＝CMMHSA(LN(z^l-1))+z^l-1

z^l＝MLP(LN(z^l))+z^l

式中，z^l表示第l个模块的输入，LN表示层归一化，CMMHSA表示权利要求1所述自注意力多模态信息交互模块，MLP表示多层感知机；

最后，将建模后的结果通过多层感知机计算得到两种模态的通道注意力向量，将两种模态的通道注意力向量和两种模态的特征进行通道相乘后通过对应元素相加操作和对方模态特征进行融合实现多模态通道注意力校正模块，以上操作用以下公式表示为：

RGB_msf＝Concat(Flatten(msap(RGB_in)),Flatten(msap(RGB_in)))

Depth_msf＝Concat(Flatten(msap(Depth_in)),Flatten(msmp(Depth_in)))

RGB_tokenized,Depth_tokenized＝FC(RGB_msf,Depth_msf)

W_rgb,W_depth＝MLP(RGB_cii,Depth_cii)

式中，RGB_in和Depth_in分别表示彩色特征和深度特征，msmp和msap分别表示多尺度最大池化和多尺度平均池化，Concat表示合并操作，Flatten表示展平操作，RGB_msf和Depth_msf分别表示多尺度彩色特征和多尺度深度特征，RGB_tokenized和Depth_tokenized分别表示向量化的彩色特征和深度特征，RGB_cii和Depth_cii分别表示通道信息交互后的彩色特征和深度特征，MTE_rgb和MTE_depth分别表示彩色特征和深度特征的模态编码，W_rgb和W_depth分别表示两种模态的通道注意力向量，MLP表示多层感知机，和/>分别表示对应元素相加和对应通道相乘，RGB_rec和Depth_rec分别表示多尺度注意力校正后的彩色特征和深度特征；

所述多模态全局特征聚合模块首先在特征图中嵌入位置信息和模态信息，通过一个卷积核大小为3×3，步长为1×1，填充大小为1×1的深度可分离卷积来引入位置信息，再通过残差连接与输入的特征进行对应相加，除了位置编码之外，还添加了可学习的模态编码，得到带有位置信息和模态信息的彩色特征和深度特征，然后通过权利要求1所述自注意力多模态信息交互模块进行空间维度的信息交互，并与输入进行残差连接，同时引入空间缩减模块，通过键向量和值向量的共享机制来减小计算量，之后通过层归一化获得空间信息交互后的彩色特征和深度特征，最后通过一个1×1的卷积来将两种模态的特征图融合为一个单一特征图，此外，为了提升模型鲁棒性，将原始的特征图通过一个大小为3×3的深度可分离卷积获取局部特征，并通过残差连接与全局特征进行融合，再通过批归一化层获得最终的输出，上述计算过程可以用公式表示为：

F_global＝Conv_1×1(Concat(RGB_sii,Depth_sii))

F_local＝Conv_1×1(Relu(DWC_3×3(Conv_1×1(Concat(RGB_rec,Depth_rec)))))

式中，pme表示位置编码和模态编码，BWC_3×3表示卷积核大小为3×3的深度可分离卷积，RGB_pme和Depth_pme表示经过位置编码和模态编码后的彩色特征和深度特征，SR表示空间缩减模块，RGB_sii和Depth_sii分别表示空间信息交互后的彩色特征和深度特征，F_global表示全局特征，Relu表示Relu激活函数，F_local表示局部特征，BN表示批归一化层，F_out表示最终的输出。