CN114332099A

CN114332099A - 一种基于多模态对比学习的深度特权语义分割方法

Info

Publication number: CN114332099A
Application number: CN202111626188.7A
Authority: CN
Inventors: 柯丹宁; 龚小谨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-12

Abstract

本发明公开了一种基于多模态对比学习的深度特权语义分割方法。采集RGB图像和深度图像并与类别共同构成训练集，建立均包含语义分割基础网络和投影模块的RGB分支和深度分支；用逐像素交叉熵损失监督训练两个语义分割基础网络；用跨模态对比损失优化由投影模块得到的嵌入特征，通过反向传播算法使得语义分割基础网络中的特征编码器能够挖掘RGB特征和深度特征的共性，一定程度上改善RGB图像中由于色彩纹理相近而难于分割的情况，从而提升语义分割的精度。本发明在推理阶段只需要场景的RGB图像而无需深度信息，由于在训练阶段引入了深度信息，有较好的分割能力和泛化性能。

Description

一种基于多模态对比学习的深度特权语义分割方法

技术领域

本发明属于计算机视觉技术领域的一种深度特权语义分割方法，尤其是涉及了一种基于多模态对比学习的深度特权语义分割方法。

背景技术

随着传感器的发展，RGB-D语义分割近年来吸引了越来越多的研究兴趣。RGB-D语义分割利用RGB图像及其对应深度图像，为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息，RGB-D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能，故在自动驾驶和机器人视觉等领域具有潜在应用价值。

如Chen等人发表《Computer Vision--ECCV 2020:16th European Conference,Glasgow,UK,August 23--28,2020,Proceedings,Part XI 16》在的《Bi-directionalCross-Modality Feature Propagation with Separation-and-Aggregation Gate forRGB-D Semantic Segmentation》以及Zhou等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Pattern-structurediffusion for multi-task learning》都是行之有效的利用了深度信息的RGB-D语义分割方法。

现有的RGB-D语义分割方法有的在训练和推理阶段都需要RGB和深度数据。有的虽然在推断时不需要深度数据但是往往通过多个交互的解码器实现故影响了推断速度。

发明内容

针对训练时可以提供RGB图像和深度图像，但是测试时无法提供深度图像的情况，本发明提供一种基于多模态对比学习的深度特权语义分割方法，以基于编码器-解码器解构的DeepLabV3+作为语义分割基础网络模型，利用跨模态对比学习让特征编码器自动学习挖掘RGB特征和深度特征的共性，以改善RGB图像中由于色彩纹理相近而难于分割的情况，从而提升语义分割的精度。本发明只在训练时利用对比学习引入深度信息，在推断时在只需要RGB图像和不影响推断速度的前提下能够获得更好的分割结果。

本发明的技术方案如下：

本发明包括如下步骤：

1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像，由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集；

2)将所需的训练集进行分批次处理后，按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中，多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成，RGB图像分支通过对比学习模块与深度图像分支相连，接着分别计算RGB图像分支和深度图像分支的语义分割损失，还计算对比学习模块的跨模态对比损失，然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失，基于多模态总损失训练多模态对比学习语义分割网络，获得训练好的多模态对比学习语义分割网络；其中，RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块，RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中，RGB投影模块与对比学习模块相连，RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络，RGB语义解码器的输出作为RGB语义分割基础网络的输出；

3)将待分割的RGB图像输入训练好的多模态对比学习语义分割网络的RGB语义分割基础网络中进行语义分割，获得语义分割后的RGB图像。

所述深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块，深度特征编码器的输出分别输入深度语义解码器和深度投影模块中，深度投影模块与对比学习模块相连。

所述RGB投影模块和深度投影模块的结构相同，具体为：由第一卷积层、一个批归一化层、一个激活函数层和第二卷积层依次连接组成。

所述步骤2)中RGB投影模块输出多个RGB像素嵌入特征，深度投影模块输出多个深度像素嵌入特征，每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中，对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样，获得当前批次的正负难样本集合并输出，具体为：

S1：随机采样每一批次中所有RGB图像的P个像素位置，提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征；

S2：当前批次的各张深度图像中，对每张深度图像的多个深度像素嵌入特征中属于同一类别的像素特征进行池化，获得当前深度图像的各个类别下的深度中心像素特征，遍历当前批次的剩余深度图像，进行类别像素特征池化，最终获得当前批次的深度中心像素特征；

S3：利用RGB-D感知的锚点样本采样方法对当前批次的多个RGB像素嵌入特征进行锚点样本选择，获得当前批次的锚点样本集合；

S4：根据当前批次的锚点样本集合，利用挖掘部分难样本的正负样本采样方法对当前批次的深度随机像素特征和深度中心像素特征进行正负样本选择，获得当前批次的正负样本集合，通过衡量锚点样本集合与正负样本集合的相似度进行对比学习，获得当前批次的正负难样本集合。

所述S3具体为：

S3.1：对当前批次的多个RGB像素嵌入特征进行像素位置随机采样，采样获得的像素位置作为其中一半锚点；对在RGB语义解码器中被错误分类但在深度语义解码器中分类正确的像素位置采样，采样获得的像素位置作为另一半锚点；

S3.2：提取多个RGB像素嵌入特征中对应S3.1中所有锚点的像素特征作为各个锚点样本，由各个锚点样本构成用于计算跨模态对比损失的锚点样本集合。

所述S4具体为：

S4.1：将深度随机像素特征和深度中心像素特征中与当前锚点样本集合中每一锚点样本属于同一类别的像素特征作为当前锚点样本的正样本集合；将深度随机像素特征和深度中心像素特征中与当前锚点样本不属于同一类别的像素特征作为当前锚点样本的负样本集合；

S4.2：计算当前锚点样本与当前锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列，取相似度位于前10％的正样本作为当前正样本的难样本集合，再从当前正样本集合的难样本集合中随机采样K₁个样本作为当前锚点样本的正难样本集合；由当前锚点样本的正难样本集合和负难样本集合构成当前锚点样本的正负难样本集合；

S4.3：计算当前锚点样本与当前锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列，取相似度位于前10％的负样本作为当前负样本的难样本集合，再从当前负样本集合的难样本集合中随机采样K₂个样本作为当前锚点样本的负难样本集合；

S4.4：重复S4.1-S4.3，遍历当前锚点样本集合中剩余的锚点样本，获得各个锚点样本的正负难样本集合，由各个锚点样本的正负难样本集合构成当前批次的正负难样本集合。

基于所述的步骤2)中对比学习模块的输出，对比学习模块的跨模态对比损失通过以下公式进行计算：

其中，

表示像素i的跨模态对比损失，r_i表示像素i的RGB像素嵌入特征，用

和

分别表示像素i的正难样本和负难样本，

和

分别表示像素i所在的正难样本集合和负难样本集合，τ表示温度系数，

表示计算像素i所在的正难样本集合的大小。

所述的多模态总损失通过以下公式进行计算：

其中，

表示多模态总损失，

表示语义分割联合损失，λ₁、λ₂分别表示第一、第二损失权重，M表示锚点样本集合中锚点样本的数量；

分别表示RGB图像分支和深度图像分支中的语义分割损失。

所述的RGB图像分支和深度图像分支的语义分割损失均采用逐像素交叉熵损失。

将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。

本发明具有以下有益效果：

1、相较于只利用RGB图像的语义分割方法，本方法因为引入了深度图像的几何信息，在因色彩纹理相近而导致难以分割的情况下具有更好的表现，故能够更好地分割不同光照条件下的场景。

2、本方法因为基于深度特权的设置，在分割未知场景图像时，不需要深度图像的参与，只需保留RGB语义分割基础网络进行分割，故在采用相同语义分割基础网络的前提下，模型大小和推断速度要优于多数RGB-D语义分割方法。

3、本方法适用于大多数现有的基于编码器-解码器结构的语义分割基础网络，故有较好的通用性和普适性。

附图说明

图1是本发明的网络模型示意图。

图2是本发明的语义分割结果示例。

图3是本发明的对比学习模块的流程图。

具体实施方式

下面结合附图对本发明进行进一步的说明，本发明的实施例及其实施过程是：

本发明包括如下步骤：

具体实施中，将步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。

2)将所需的训练集进行分批次处理后，按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中，多模态对比学习语义分割网络的结构示意图如图1所示，多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成，RGB图像分支通过对比学习模块与深度图像分支相连，接着分别计算RGB图像分支和深度图像分支的语义分割损失，还计算对比学习模块的跨模态对比损失，然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失，基于多模态总损失训练多模态对比学习语义分割网络，获得训练好的多模态对比学习语义分割网络；其中，RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块，RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中，RGB投影模块与对比学习模块相连，RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络，RGB语义解码器的输出作为RGB语义分割基础网络的输出，获得训练好的RGB语义分割基础网络；

深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块，深度特征编码器的输出分别输入深度语义解码器和深度投影模块中，深度投影模块与对比学习模块相连，深度特征编码器和深度语义解码器构成深度语义分割基础网络，深度语义解码器的输出作为深度语义分割基础网络的输出。

具体实施中，语义分割基础网络理论上可以采用任何基于编码器-解码器结构的深度学习语义分割方法，这里以DeepLabV3+为例。另外还可以选择ResNet-101并将ImageNet数据集训练后的ResNet-101作为语义分割基础网络的特征编码器，语义解码器的网络结构还是DeepLabV3+中的解码器的网络结构。

RGB图像分支和深度图像分支的语义分割损失均采用逐像素交叉熵损失。

RGB投影模块和深度投影模块的结构相同，具体为：由卷积核大小为1×1的第一卷积层、一个批归一化层、一个RELU激活函数层和卷积核大小为1×1的第二卷积层依次连接组成，投影模块将输入的RGB图像经过RGB特征编码器后得到的RGB特征

降维至RGB嵌入特征R′∈R^H×W×C′，将输入的深度图像经过深度特征编码器后得到的深度特征

降维至深度嵌入特征D′∈R^H×W×C′，具体实施中，降维后的特征为256维特征向量。

步骤2)中RGB投影模块输出多个RGB像素嵌入特征，深度投影模块输出多个深度像素嵌入特征，每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中，对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样，获得当前批次的正负难样本集合并输出，具体为，如图3所示：

S1：随机采样每一批次中所有RGB图像的P个像素位置，提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征；具体实施中，P＝500。

S3具体为：

S4具体为：

S4.3：计算当前锚点样本与当前锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列，取相似度位于前10％的负样本作为当前负样本的难样本集合，再从当前负样本集合的难样本集合中随机采样K₂个样本作为当前锚点样本的负难样本集合；具体实施中，相似度具体是两个样本的点积。具体实施中，K₁＝K₂＝1024。

基于步骤2)中对比学习模块的输出，对比学习模块的跨模态对比损失通过以下公式进行计算：

其中，

和

分别表示像素i的正难样本和负难样本，

和

分别表示像素i所在的正难样本集合和负难样本集合，τ表示温度系数，温度系数τ是一个人为设定的超参数，此处为τ＝0.1，

表示计算像素i所在的正难样本集合的大小。

多模态总损失通过以下公式进行计算：

其中，

表示多模态总损失，

表示语义分割联合损失，λ₁、λ₂分别表示第一、第二损失权重，λ₁是手动调节的参数，用于平衡两个分支的语义分割损失函数的数值，λ₂是人为设定的超参数，此处λ₂＝1；M表示锚点样本集合中锚点样本的数量，具体实施中，M＝500；

分别表示RGB图像分支和深度图像分支中的语义分割损失。

在具体实施中，采用带动量的SGD算法进行优化训练，优化器的具体设置为：初始学习率设置为0.0025，动量设置为0.9，权重衰减系数设置为0.0005。此外，采用poly学习率策略，随迭代次数的增加自动地调整学习率大小。

图2展示了实施例在公开数据集NYU Depth V2上的一些分割结果，一定程度上改进了分割效果。

为了说明本发明所提出的网络框架以及跨模态对比性能的有效性，在公开数据集NYU Depth V2上进行验证。NYU Depth V2数据集由Microsoft Kinect采集的各种室内场景的视频序列组成，涵盖了3个城市的464个场景，并提供了1449张成对的RGB-D图像，是室内场景RGBD语义分割任务中最常用的数据集。为评估语义分割的性能，采用常用的像素准确率(Pixel Accuracy，pAcc)、平均像素。

准确率(Mean Pixel Accuracy，mAce)和平均交并比(Mean Intersection overUnion，mIoU)作为评价指标。不同模型变体的语义分割评测结果如表1所示：

表1中的五个模型变体分别为：M1表示仅采用交叉熵损失

监督训练RGB分支的语义分割基础网络；；M₂表示采用联合交叉熵损失

进行优化的RGB分支和深度分支的语义分割基础网络模型；M₃表示采用联合交叉熵语义分割损失

和本发明提出的跨模态对比损失

进行优化的完整网络模型。

表1

通过比较M₂和M₁可观察到RGB分支和深度分支的简单联合几乎没有什么帮助，但通过添加本发明提出的跨模态对比学习(M₃)可以有效地提升性能，提高所有指标。结合附图2，对于由于色彩纹理相近而难于分割的情况有更好地表现。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，但并不是用来限制本发明，任何在本发明原则范围内所进行的变动和修改，都应当包含在本发明的保护范围内。

Claims

1.一种基于多模态对比学习的深度特权语义分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，所述深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块，深度特征编码器的输出分别输入深度语义解码器和深度投影模块中，深度投影模块与对比学习模块相连。

3.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，所述RGB投影模块和深度投影模块的结构相同，具体为：由第一卷积层、一个批归一化层、一个激活函数层和第二卷积层依次连接组成。

4.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，所述步骤2)中RGB投影模块输出多个RGB像素嵌入特征，深度投影模块输出多个深度像素嵌入特征，每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中，对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样，获得当前批次的正负难样本集合并输出，具体为：

5.根据权利要求4所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，所述S3具体为：

6.根据权利要求4所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，所述S4具体为：

7.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法，其特征在于，基于所述的步骤2)中对比学习模块的输出，对比学习模块的跨模态对比损失通过以下公式进行计算：