CN114612666A

CN114612666A - 一种基于多模态对比学习的rgb-d语义分割方法

Info

Publication number: CN114612666A
Application number: CN202210272481.6A
Authority: CN
Inventors: 柯丹宁; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-10

Abstract

本发明公开了一种基于多模态对比学习的语义分割方法。构建训练集，建立由语义分割基础网络和对比学习模块构成的对比学习语义分割网络；语义分割基础网络包括RGB分支、深度分支、集成模块和对比学习模块，RGB分支和深度分支的分割结果通过集成模块结合得到最终分割结果并在训练阶段监督训练，RGB分支和深度分支的中间特征在训练阶段输入对比学习模块用跨模态对比损失和同模态对比损失进行优化。将待分割的RGB图像及对应的深度图像输入训练好的对比学习语义分割网络中的语义分割基础网络进行语义分割，获得语义分割结果。本发明能够更好地挖掘RGB图像和深度图像的共性，同时保留两类图像的特性，从而提升语义分割的精度。

Description

一种基于多模态对比学习的RGB-D语义分割方法

技术领域

本发明属于计算机视觉技术领域的一种RGB-D语义分割方法，尤其是涉及了一种基于多模态对比学习的RGB-D语义分割方法。

背景技术

随着传感器的发展，RGB-D语义分割近年来吸引了越来越多的研究兴趣。RGB-D语义分割利用RGB图像及其对应深度图像，为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息，RGB-D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能，故在自动驾驶和机器人视觉等领域具有潜在应用价值。

如Chen等人发表《Computer Vision--ECCV 2020:16th European Conference,Glasgow,UK,August 23--28,2020,Proceedings,Part XI 16》在的《Bi-directionalCross-Modality Feature Propagation with Separation-and-Aggregation Gate forRGB-D Semantic Segmentation》以及Zhou等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Pattern-structurediffusion for multi-task learning》都是行之有效的利用了深度信息的RGB-D语义分割方法。

发明内容

为了解决背景技术中存在的问题和需求，针对RGB-D场景，本发明提供一种基于多模态对比学习的RGB-D语义分割方法，将对比学习应用于语义分割任务中。本发明在不同的特征嵌入空间采用跨模态和同模态的对比学习损失进行优化，前者用于挖掘两种模态的共同特征，后者用于学习特定于模态的特征。以充分利用RGB和深度两种模态的信息，从而改善RGB图像中由于色彩纹理相近而难于分割的情况，提升语义分割的精度。

本发明的技术方案如下：

本发明包括如下步骤：

1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像，由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集；

2)将所需的训练集进行分批次处理后，按批次地将RGB图像及其对应的深度图像输入RGB-D对比学习语义分割网络中，RGB-D对比学习语义分割网络由RGB-D语义分割基础网络和对比学习模块构成；RGB-D语义分割基础网络包括RGB分支、深度分支和集成模块，其中RGB分支包括RGB特征编码器和RGB语义分割解码器，深度分支包括深度特征编码器和深度语义分割解码器，RGB图像输入到RGB特征编码器中，RGB特征编码器的输出分别输入RGB语义分割解码器和对比学习模块，深度图像输入到深度特征编码器中，深度特征编码器的输出分别输入深度语义分割解码器和对比学习模块，RGB语义分割解码器和深度语义分割解码器的输出均输入到集成模块中，集成模块的输出作为RGB-D语义分割基础网络；计算RGB-D语义分割基础网络的语义分割损失和对比学习模块的多模态对比损失得到多模态总损失，基于多模态总损失训练RGB-D对比学习语义分割网络，获得训练好的RGB-D对比学习语义分割网络；

3)将待分割的RGB图像及对应的深度图像输入训练好的RGB-D对比学习语义分割网络中的RGB-D语义分割基础网络进行语义分割，获得语义分割结果。

所述步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中，第一卷积层输出权重矩阵，接着对权重矩阵进行归一化处理，获得归一化权重矩阵并作为RGB分支预测概率的置信度E^r，将1与RGB分支预测概率的置信度E^r的差值作为深度分支预测概率的置信度1-E^r，然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度E^r相乘后获得RGB类别分数图，同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-E^r相乘后获得深度类别分数图，最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图，集成类别分数图作为集成模块的输出。

所述对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块；所述步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块，深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。

所述RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同，但是处理对象不同，RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合，深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合；

所述RGB同模态对比学习子模块中通过第一投影模块对当前批次RGB图像的RGB模态特征进行投影，获得多个RGB同模态像素特征，接着通过以下步骤对多个RGB同模态像素特征进行样本采样后，获得当前批次RGB图像的RGB同模态锚点样本集合和RGB同模态正负难样本集合，并计算当前批次RGB图像的RGB同模态对比损失：

S1：当前批次的各张RGB图像中，对每张RGB图像的多个RGB同模态像素特征中属于同一类别的像素特征进行池化，获得当前RGB图像的各个类别下的RGB同模态中心像素特征，遍历当前批次的剩余RGB图像，进行类别像素特征池化，最终获得当前批次各个类别下的RGB同模态中心像素特征；

S2：利用语义感知的锚点样本采样方法对当前批次的多个RGB同模态像素特征进行锚点样本选择，获得当前批次的RGB同模态锚点样本集合

；

所述S2具体为：

S2.1：对当前批次的多个RGB同模态像素特征进行像素位置随机采样，采样获得的像素位置作为其中一半锚点；对在RGB语义分割解码器中被错误分类的像素位置采样，采样获得的像素位置作为另一半锚点；

S2.2：提取多个RGB同模态像素特征中S2.1中所有锚点对应的像素特征并作为各个RGB同模态锚点样本，由各个RGB同模态锚点样本构成当前批次的RGB同模态锚点样本集合；

S3：根据当前批次的RGB同模态锚点样本集合，对于每一个RGB同模态锚点样本，利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB同模态中心像素特征进行正负样本选择，获得当前RGB同模态锚点样本对应的RGB同模态正负难样本集合，并计算当前RGB同模态锚点样本的RGB同模态对比损失；

所述S3具体为：

S3.1：对于每一个RGB同模态锚点样本，在当前批次各个类别下的RGB同模态中心像素特征中，将与当前RGB同模态锚点样本属于同一类别的像素特征作为当前RGB同模态锚点样本的正样本集合，将与当前RGB同模态锚点样本不属于同一类别的像素特征作为当前RGB同模态锚点样本的负样本集合；

S3.2：计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列，取相似度位于前10％的正样本作为当前正样本的难样本集合，再从当前正样本集合的难样本集合中随机采样K₁个样本作为当前RGB同模态锚点样本的RGB同模态正难样本集合；

S3.3：计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列，取相似度位于前10％的负样本作为当前负样本的难样本集合，再从当前负样本集合的难样本集合中随机采样K₂个样本作为当前RGB同模态锚点样本的RGB同模态负难样本集合；

S3.4：基于S3.2和S3.3所得到的RGB同模态正难样本集合和RGB同模态负难样本集合，通过以下公式计算当前RGB同模态锚点样本的RGB同模态对比损失：

其中，

表示当前RGB同模态锚点样本的RGB同模态对比损失，r_i表示当前RGB同模态锚点样本，

和

分别当前表示RGB同模态锚点样本r_i的RGB同模态正难样本和RGB同模态负难样本，

和

分别表示像素i所在的RGB同模态正难样本集合和RGB同模态负难样本集合，τ表示温度系数，

表示计算像素i所在的RGB同模态正难样本集合的大小；

S4：重复S3，遍历当前RGB同模态锚点样本集合中剩余的RGB同模态锚点样本，获得各个RGB同模态锚点样本的RGB同模态正负难样本集合，并计算各个RGB同模态锚点样本的RGB同模态对比损失，将各个RGB同模态锚点样本的RGB同模态对比损失之和作为当前批次RGB图像的RGB同模态对比损失。

所述深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下：

其中，

表示当前深度同模态锚点样本的深度同模态对比损失，d_i表示当前深度同模态锚点样本

和

分别表示当前深度同模态锚点样本d_i的深度正难样本和深度负难样本，

和

分别表示像素i所在的深度同模态正难样本集合和深度同模态负难样本集合，τ表示温度系数，

表示计算像素i所在的深度同模态正难样本集合的大小。

所述双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块，RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同，但是处理对象不同，RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合，深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合；

所述RGB跨模态对比学习子模块中通过第二投影模块对当前批次RGB图像的RGB模态特征进行投影，获得多个RGB跨模态像素特征，接着通过以下步骤对多个RGB跨模态像素特征进行样本采样后，获得当前批次RGB图像的RGB跨模态锚点样本集合和RGB跨模态正负难样本集合，并计算当前批次RGB图像的RGB跨模态对比损失：

A1：当前批次的各张RGB图像中，对每张RGB图像的多个RGB跨模态像素特征中属于同一类别的像素特征进行池化，获得当前RGB图像的各个类别下的RGB跨模态中心像素特征，遍历当前批次的剩余RGB图像，进行类别像素特征池化，最终获得当前批次各个类别下的RGB跨模态中心像素特征；

A2：对当前批次的多个RGB跨模态像素特征进行随机采样，获得当前批次的RGB跨模态锚点样本集合；

A3：根据当前批次的RGB跨模态锚点样本集合，对于每一个RGB跨模态锚点样本，利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB跨模态中心像素特征进行正负样本选择，获得当前RGB跨模态锚点样本对应的RGB跨模态正负难样本集合，并计算当前RGB跨模态锚点样本的RGB跨模态对比损失；

所述A3具体为：

A3.1：对于每一个RGB跨模态锚点样本，在当前批次各个类别下的RGB跨模态中心像素特征中，将与当前RGB跨模态锚点样本属于同一类别的像素特征作为当前RGB跨模态锚点样本的正样本集合，将与当前RGB跨模态锚点样本不属于同一类别的像素特征作为当前RGB跨模态锚点样本的负样本集合；

A3.2：计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列，取相似度位于前10％的正样本作为当前正样本的难样本集合，再从当前正样本集合的难样本集合中随机采样K₁个样本作为当前RGB跨模态锚点样本的RGB跨模态正难样本集合；

A3.3：计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列，取相似度位于前10％的负样本作为当前负样本的难样本集合，再从当前负样本集合的难样本集合中随机采样K₂个样本作为当前RGB跨模态锚点样本的RGB跨模态负难样本集合；

A3.4：基于A3.2和A3.3所得到的RGB跨模态正难样本集合和RGB跨模态负难样本集合，通过以下公式计算当前RGB跨模态锚点样本的r←d流向跨模态对比损失：

其中，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前RGB跨模态锚点样本，

和

分别表示当前RGB跨模态锚点样本

的RGB跨模态正难样本和RGB跨模态负难样本，

和

分别表示像素i所在的RGB跨模正难样本集合和RGB跨模负难样本集合，τ表示温度系数，

表示计算像素i所在的RGB跨模正难样本集合的大小；

A4：重复A3，遍历当前RGB跨模态锚点样本集合中剩余的RGB跨模态锚点样本，获得各个RGB跨模态锚点样本的RGB跨模态正负难样本集合，并计算各个RGB跨模态锚点样本的r←d流向跨模态对比损失，将各个RGB跨模态锚点样本的r←d流向跨模态对比损失之和作为当前批次RGB图像的r←d流向跨模态对比损失；

所述深度跨模态对比学习子模块中每个深度跨模态锚点样本的d←r流向跨模态对比损失的计算公式如下：

其中，

表示当前深度跨模态锚点样本的d←r流向跨模态对比损失，d _i表示当前深度跨模态锚点样本，

和

分别表示深度跨模态锚点样本d _i的深度跨模态正难样本和深度跨模态负难样本，

和

分别表示像素i所在的深度跨模态正难样本集合和深度跨模态负难样本集合，τ表示温度系数，

表示计算像素i所在的深度跨模态正难样本集合的大小。

所述的多模态总损失通过以下公式进行计算：

其中，

表示多模态总损失，

表示语义分割损失，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前深度跨模态锚点样本的d←r流向跨模态对比损失，

表示当前RGB同模态锚点样本的RGB同模态对比损失，

表示当前深度同模态锚点样本的深度同模态对比损失，λ₁表示跨模态对比损失平衡权重，λ₂表示同模态对比损失平衡权重，

表示RGB跨模态锚点样本集合，

表示深度跨模态锚点样本集合，

表示RGB同模态锚点样本集合，

表示深度同模态锚点样本集合。

第一投影模块、双流向跨模态对比学习子模块的第二投影模块的结构均相同，第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成，第一投影模块的输入输入到第二卷积层，第三卷积层的输出作为第一投影模块的输出。

所述的语义分割损失采用逐像素交叉熵损失。

将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。

本发明具有以下有益效果：

1、相较于只利用RGB图像的语义分割方法，RGB-D语义分割方法因为引入了深度图像的几何信息，在因色彩纹理相近而导致难以分割的情况下具有更好的表现，故能够更好地分割不同光照条件下的场景。

2、针对RGB-D语义分割任务提出了一种新的框架。与大多数RGB-D语义分割方法相比，在编码器的各个层级无需融合模块，并且可以应用到现有的单模态语义分割网络中，而无需改变其基本网络。

3、本发明针对RGB-D的设置在提出双流向的跨模态对比学习和RGB/深度同模态对比学习，从而更好地挖掘模态间的共同特征、保留特定于模态的特征。

附图说明

图1是本发明的网络模型示意图。

图2是本发明的RGB同模态对比学习子模块结构示意图。

图3是本发明的双流向跨模态对比学习子模块结构示意图。

图4是本发明的深度同模态对比学习子模块结构示意图。

图5是本发明的集成模块结构示意图。

具体实施方式

下面结合附图对本发明进行进一步的说明，本发明的实施例及其实施过程是：

本发明包括如下步骤：

1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像，由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集；具体实施中，将步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。

2)将所需的训练集进行分批次处理后，按批次地将RGB图像及其对应的深度图像输入RGB-D对比学习语义分割网络中，如图1所示，RGB-D对比学习语义分割网络由RGB-D语义分割基础网络和对比学习模块构成；RGB-D语义分割基础网络包括RGB分支、深度分支和集成模块，其中RGB分支包括RGB特征编码器和RGB语义分割解码器，深度分支包括深度特征编码器和深度语义分割解码器，RGB图像输入到RGB特征编码器中，RGB特征编码器的输出分别输入RGB语义分割解码器和对比学习模块的RGB同模态对比学习模块和双流向跨模态对比学习模块，深度图像输入到深度特征编码器中，深度特征编码器的输出分别输入深度语义分割解码器和对比学习模块的深度同模态对比学习模块和双流向跨模态对比学习模块，RGB语义分割解码器和深度语义分割解码器的输出均输入到集成模块中，集成模块的输出作为RGB-D语义分割基础网络，即RGB-D对比学习语义分割网络的输出；计算RGB-D语义分割基础网络的语义分割损失和对比学习模块的多模态对比损失得到多模态总损失，语义分割损失采用逐像素交叉熵损失。基于多模态总损失训练RGB-D对比学习语义分割网络，获得训练好的RGB-D对比学习语义分割网络；

具体实施中，RGB-D语义分割基础网络的RGB分支和深度分支理论上可以采用任何基于编码器-解码器结构的深度学习语义分割方法，这里以DeepLabV3+为例。另外还可以选择ResNet-101并将ImageNet数据集训练后的ResNet-101作为语义分割基础网络的特征编码器，语义分割解码器的网络结构还是DeepLabV3+中的解码器的网络结构。

如图5所示，步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中，第一卷积层输出权重矩阵，接着对权重矩阵进行归一化处理，获得归一化权重矩阵并作为RGB分支预测概率的置信度E^r，将1与RGB分支预测概率的置信度E^r的差值作为深度分支预测概率的置信度1-E^r，然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度E^r相乘后获得RGB类别分数图，同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-E^r相乘后获得深度类别分数图，最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图，集成类别分数图作为集成模块的输出，用于语义分割损失的计算。

对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块；步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块，深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。

如图2和图4所示，RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同，但是处理对象不同，RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合，深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合；

RGB同模态对比学习子模块中通过第一投影模块对当前批次RGB图像的RGB模态特征进行投影，获得多个RGB同模态像素特征，接着通过以下步骤对多个RGB同模态像素特征进行样本采样后，获得当前批次RGB图像的RGB同模态锚点样本集合和RGB同模态正负难样本集合，并计算当前批次RGB图像的RGB同模态对比损失：

S2具体为：

S2.2：提取多个RGB同模态像素特征中S2.1中所有锚点对应的像素特征并作为各个RGB同模态锚点样本，由各个RGB同模态锚点样本构成当前批次的RGB同模态锚点样本集合

S3具体为：

其中，

表示当前RGB同模态锚点样本的RGB同模态对比损失，r_i表示当前RGB同模态锚点样本，即像素位置i对应的RGB同模态像素特征，

和

和

表示计算像素i所在的RGB同模态正难样本集合的大小。具体实施中，τ＝0.1。

深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下：

其中，

表示当前深度同模态锚点样本的深度同模态对比损失，d_i表示当前深度同模态锚点样本，即像素位置i对应的深度同模态像素特征，

和

和

表示计算像素i所在的深度同模态正难样本集合的大小。

如图3所示，双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块，RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同，但是处理对象不同，RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合，深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合；

RGB跨模态对比学习子模块中通过第二投影模块对当前批次RGB图像的RGB模态特征进行投影，获得多个RGB跨模态像素特征，接着通过以下步骤对多个RGB跨模态像素特征进行样本采样后，获得当前批次RGB图像的RGB跨模态锚点样本集合和RGB跨模态正负难样本集合，并计算当前批次RGB图像的RGB跨模态对比损失：

A3具体为：

其中，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前RGB跨模态锚点样本，即像素位置i对应的RGB跨模态像素特征，

和

分别表示当前RGB跨模态锚点样本

的RGB跨模态正难样本和RGB跨模态负难样本，

和

表示计算像素i所在的RGB跨模正难样本集合的大小；

A4：重复A3，遍历当前RGB跨模态锚点样本集合中剩余的RGB跨模态锚点样本，获得各个RGB跨模态锚点样本的RGB跨模态正负难样本集合，并计算各个RGB跨模态锚点样本的r←d流向跨模态对比损失，将各个RGB跨模态锚点样本的r←d流向跨模态对比损失之和作为当前批次RGB图像的r←d流向跨模态对比损失。

深度跨模态对比学习子模块中每个深度跨模态锚点样本的d←r流向跨模态对比损失的计算公式如下：

其中，

表示当前深度跨模态锚点样本的d←r流向跨模态对比损失，d _i表示当前深度跨模态锚点样本，即像素位置i对应的RGB同模态像素特征，

和

和

表示计算像素i所在的深度跨模态正难样本集合的大小。

深度同模态对比学习子模块的第四投影模块、第一投影模块、双流向跨模态对比学习子模块中RGB跨模态对比学习子模块的第二投影模块和深度跨模态对比学习子模块的第三投影模块的结构均相同，第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成，第一投影模块的输入输入到第二卷积层，第三卷积层的输出作为第一投影模块的输出。

多模态总损失通过以下公式进行计算：

其中，

表示多模态总损失，

表示语义分割损失，

为多模态对比损失，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前深度跨模态锚点样本的d←r流向跨模态对比损失，

表示当前RGB同模态锚点样本的RGB同模态对比损失，

表示RGB跨模态锚点样本集合，

表示深度跨模态锚点样本集合，

表示RGB同模态锚点样本集合，

表示深度同模态锚点样本集合。具体实施中λ₁＝λ₂＝1。

在具体实施中，采用带动量的SGD算法进行优化训练，优化器的具体设置为：初始学习率设置为0.0025，动量设置为0.9，权重衰减系数设置为0.0005。此外，采用poly学习率策略，随迭代次数的增加自动地调整学习率大小。

为了说明本发明所提出的网络框架以及对比学习模块的有效性，在公开数据集NYU Depth V2上进行验证。NYU Depth V2数据集由Microsoft Kinect采集的各种室内场景的视频序列组成，涵盖了3个城市的464个场景，并提供了1449张成对的RGB-D图像，是室内场景RGB-D语义分割任务中最常用的数据集。为评估语义分割的性能，采用常用的像素准确率(Pixel Accuracy,pAcc)、平均像素准确率(Mean Pixel Accuracy,mAcc)和平均交并比(Mean Intersection over Union,mIoU)作为评价指标。不同模型变体的语义分割评测结果如表1所示：

表1中的五个模型变体分别为：M₁表示仅采用交叉熵损失

进行监督训练的RGB-D语义分割基础网络；M₂表示采用交叉熵损失和r←d流向的跨模态对比学习损失进行监督训练的RGB-D对比学习语义分割网络；M₃表示采用交叉熵损失

和双流向跨模态对比学习损失

进行监督训练的RGB-D对比学习语义分割网络；M₄表示采用交叉熵损失

和双流向跨模态对比学习损失

以及同模态对比学习损失

进行监督训练的RGB-D对比学习语义分割网络；M₅表示本发明的完整方法。

表1

通过比较不同模型变体，证明添加本发明提出的完整的对比学习模块(M₅)可以有效地提升性能，提高所有指标。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，但并不是用来限制本发明，任何在本发明原则范围内所进行的变动和修改，都应当包含在本发明的保护范围内。

Claims

1.一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中，第一卷积层输出权重矩阵，接着对权重矩阵进行归一化处理，获得归一化权重矩阵并作为RGB分支预测概率的置信度E^r，将1与RGB分支预测概率的置信度E^r的差值作为深度分支预测概率的置信度1-E^r，然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度E^r相乘后获得RGB类别分数图，同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-E^r相乘后获得深度类别分数图，最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图，集成类别分数图作为集成模块的输出。

3.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块；所述步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块，深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。

4.根据权利要求3所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同，但是处理对象不同，RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合，深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合；

所述S2具体为：

所述S3具体为：

其中，

和

和

表示计算像素i所在的RGB同模态正难样本集合的大小；

5.根据权利要求4所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下：

其中，

和

和

表示计算像素i所在的深度同模态正难样本集合的大小。

6.根据权利要求3所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块，RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同，但是处理对象不同，RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征，深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征，RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合，深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合；

所述A3具体为：

其中，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前RGB跨模态锚点样本，

和

分别表示当前RGB跨模态锚点样本

的RGB跨模态正难样本和RGB跨模态负难样本，

和

表示计算像素i所在的RGB跨模正难样本集合的大小；

其中，

和

和

表示计算像素i所在的深度跨模态正难样本集合的大小。

7.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述的多模态总损失通过以下公式进行计算：

其中，

表示多模态总损失，

表示语义分割损失，

表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失，

表示当前深度跨模态锚点样本的d←r流向跨模态对比损失，

表示当前RGB同模态锚点样本的RGB同模态对比损失，

表示RGB跨模态锚点样本集合，

表示深度跨模态锚点样本集合，

表示RGB同模态锚点样本集合，

表示深度同模态锚点样本集合。

8.根据权利要求4或6所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，第一投影模块、双流向跨模态对比学习子模块的第二投影模块的结构均相同，第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成，第一投影模块的输入输入到第二卷积层，第三卷积层的输出作为第一投影模块的输出。

9.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，所述的语义分割损失采用逐像素交叉熵损失。

10.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法，其特征在于，将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。