CN114332099A - 一种基于多模态对比学习的深度特权语义分割方法 - Google Patents

一种基于多模态对比学习的深度特权语义分割方法 Download PDF

Info

Publication number
CN114332099A
CN114332099A CN202111626188.7A CN202111626188A CN114332099A CN 114332099 A CN114332099 A CN 114332099A CN 202111626188 A CN202111626188 A CN 202111626188A CN 114332099 A CN114332099 A CN 114332099A
Authority
CN
China
Prior art keywords
rgb
depth
pixel
anchor point
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111626188.7A
Other languages
English (en)
Inventor
柯丹宁
龚小谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111626188.7A priority Critical patent/CN114332099A/zh
Publication of CN114332099A publication Critical patent/CN114332099A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多模态对比学习的深度特权语义分割方法。采集RGB图像和深度图像并与类别共同构成训练集,建立均包含语义分割基础网络和投影模块的RGB分支和深度分支;用逐像素交叉熵损失监督训练两个语义分割基础网络;用跨模态对比损失优化由投影模块得到的嵌入特征,通过反向传播算法使得语义分割基础网络中的特征编码器能够挖掘RGB特征和深度特征的共性,一定程度上改善RGB图像中由于色彩纹理相近而难于分割的情况,从而提升语义分割的精度。本发明在推理阶段只需要场景的RGB图像而无需深度信息,由于在训练阶段引入了深度信息,有较好的分割能力和泛化性能。

Description

一种基于多模态对比学习的深度特权语义分割方法
技术领域
本发明属于计算机视觉技术领域的一种深度特权语义分割方法,尤其是涉及了一种基于多模态对比学习的深度特权语义分割方法。
背景技术
随着传感器的发展,RGB-D语义分割近年来吸引了越来越多的研究兴趣。RGB-D语义分割利用RGB图像及其对应深度图像,为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息,RGB-D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能,故在自动驾驶和机器人视觉等领域具有潜在应用价值。
如Chen等人发表《Computer Vision--ECCV 2020:16th European Conference,Glasgow,UK,August 23--28,2020,Proceedings,Part XI 16》在的《Bi-directionalCross-Modality Feature Propagation with Separation-and-Aggregation Gate forRGB-D Semantic Segmentation》以及Zhou等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Pattern-structurediffusion for multi-task learning》都是行之有效的利用了深度信息的RGB-D语义分割方法。
现有的RGB-D语义分割方法有的在训练和推理阶段都需要RGB和深度数据。有的虽然在推断时不需要深度数据但是往往通过多个交互的解码器实现故影响了推断速度。
发明内容
针对训练时可以提供RGB图像和深度图像,但是测试时无法提供深度图像的情况,本发明提供一种基于多模态对比学习的深度特权语义分割方法,以基于编码器-解码器解构的DeepLabV3+作为语义分割基础网络模型,利用跨模态对比学习让特征编码器自动学习挖掘RGB特征和深度特征的共性,以改善RGB图像中由于色彩纹理相近而难于分割的情况,从而提升语义分割的精度。本发明只在训练时利用对比学习引入深度信息,在推断时在只需要RGB图像和不影响推断速度的前提下能够获得更好的分割结果。
本发明的技术方案如下:
本发明包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中,多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成,RGB图像分支通过对比学习模块与深度图像分支相连,接着分别计算RGB图像分支和深度图像分支的语义分割损失,还计算对比学习模块的跨模态对比损失,然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失,基于多模态总损失训练多模态对比学习语义分割网络,获得训练好的多模态对比学习语义分割网络;其中,RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块,RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中,RGB投影模块与对比学习模块相连,RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络,RGB语义解码器的输出作为RGB语义分割基础网络的输出;
3)将待分割的RGB图像输入训练好的多模态对比学习语义分割网络的RGB语义分割基础网络中进行语义分割,获得语义分割后的RGB图像。
所述深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块,深度特征编码器的输出分别输入深度语义解码器和深度投影模块中,深度投影模块与对比学习模块相连。
所述RGB投影模块和深度投影模块的结构相同,具体为:由第一卷积层、一个批归一化层、一个激活函数层和第二卷积层依次连接组成。
所述步骤2)中RGB投影模块输出多个RGB像素嵌入特征,深度投影模块输出多个深度像素嵌入特征,每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中,对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样,获得当前批次的正负难样本集合并输出,具体为:
S1:随机采样每一批次中所有RGB图像的P个像素位置,提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征;
S2:当前批次的各张深度图像中,对每张深度图像的多个深度像素嵌入特征中属于同一类别的像素特征进行池化,获得当前深度图像的各个类别下的深度中心像素特征,遍历当前批次的剩余深度图像,进行类别像素特征池化,最终获得当前批次的深度中心像素特征;
S3:利用RGB-D感知的锚点样本采样方法对当前批次的多个RGB像素嵌入特征进行锚点样本选择,获得当前批次的锚点样本集合;
S4:根据当前批次的锚点样本集合,利用挖掘部分难样本的正负样本采样方法对当前批次的深度随机像素特征和深度中心像素特征进行正负样本选择,获得当前批次的正负样本集合,通过衡量锚点样本集合与正负样本集合的相似度进行对比学习,获得当前批次的正负难样本集合。
所述S3具体为:
S3.1:对当前批次的多个RGB像素嵌入特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义解码器中被错误分类但在深度语义解码器中分类正确的像素位置采样,采样获得的像素位置作为另一半锚点;
S3.2:提取多个RGB像素嵌入特征中对应S3.1中所有锚点的像素特征作为各个锚点样本,由各个锚点样本构成用于计算跨模态对比损失的锚点样本集合。
所述S4具体为:
S4.1:将深度随机像素特征和深度中心像素特征中与当前锚点样本集合中每一锚点样本属于同一类别的像素特征作为当前锚点样本的正样本集合;将深度随机像素特征和深度中心像素特征中与当前锚点样本不属于同一类别的像素特征作为当前锚点样本的负样本集合;
S4.2:计算当前锚点样本与当前锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前锚点样本的正难样本集合;由当前锚点样本的正难样本集合和负难样本集合构成当前锚点样本的正负难样本集合;
S4.3:计算当前锚点样本与当前锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前锚点样本的负难样本集合;
S4.4:重复S4.1-S4.3,遍历当前锚点样本集合中剩余的锚点样本,获得各个锚点样本的正负难样本集合,由各个锚点样本的正负难样本集合构成当前批次的正负难样本集合。
基于所述的步骤2)中对比学习模块的输出,对比学习模块的跨模态对比损失通过以下公式进行计算:
Figure BDA0003440095200000041
其中,
Figure BDA0003440095200000042
表示像素i的跨模态对比损失,ri表示像素i的RGB像素嵌入特征,用
Figure BDA0003440095200000043
Figure BDA0003440095200000044
分别表示像素i的正难样本和负难样本,
Figure BDA0003440095200000045
Figure BDA0003440095200000046
分别表示像素i所在的正难样本集合和负难样本集合,τ表示温度系数,
Figure BDA0003440095200000047
表示计算像素i所在的正难样本集合的大小。
所述的多模态总损失通过以下公式进行计算:
Figure BDA0003440095200000048
Figure BDA0003440095200000049
其中,
Figure BDA00034400952000000411
表示多模态总损失,
Figure BDA00034400952000000412
表示语义分割联合损失,λ1、λ2分别表示第一、第二损失权重,M表示锚点样本集合中锚点样本的数量;
Figure BDA00034400952000000410
分别表示RGB图像分支和深度图像分支中的语义分割损失。
所述的RGB图像分支和深度图像分支的语义分割损失均采用逐像素交叉熵损失。
将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
本发明具有以下有益效果:
1、相较于只利用RGB图像的语义分割方法,本方法因为引入了深度图像的几何信息,在因色彩纹理相近而导致难以分割的情况下具有更好的表现,故能够更好地分割不同光照条件下的场景。
2、本方法因为基于深度特权的设置,在分割未知场景图像时,不需要深度图像的参与,只需保留RGB语义分割基础网络进行分割,故在采用相同语义分割基础网络的前提下,模型大小和推断速度要优于多数RGB-D语义分割方法。
3、本方法适用于大多数现有的基于编码器-解码器结构的语义分割基础网络,故有较好的通用性和普适性。
附图说明
图1是本发明的网络模型示意图。
图2是本发明的语义分割结果示例。
图3是本发明的对比学习模块的流程图。
具体实施方式
下面结合附图对本发明进行进一步的说明,本发明的实施例及其实施过程是:
本发明包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
具体实施中,将步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中,多模态对比学习语义分割网络的结构示意图如图1所示,多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成,RGB图像分支通过对比学习模块与深度图像分支相连,接着分别计算RGB图像分支和深度图像分支的语义分割损失,还计算对比学习模块的跨模态对比损失,然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失,基于多模态总损失训练多模态对比学习语义分割网络,获得训练好的多模态对比学习语义分割网络;其中,RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块,RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中,RGB投影模块与对比学习模块相连,RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络,RGB语义解码器的输出作为RGB语义分割基础网络的输出,获得训练好的RGB语义分割基础网络;
深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块,深度特征编码器的输出分别输入深度语义解码器和深度投影模块中,深度投影模块与对比学习模块相连,深度特征编码器和深度语义解码器构成深度语义分割基础网络,深度语义解码器的输出作为深度语义分割基础网络的输出。
具体实施中,语义分割基础网络理论上可以采用任何基于编码器-解码器结构的深度学习语义分割方法,这里以DeepLabV3+为例。另外还可以选择ResNet-101并将ImageNet数据集训练后的ResNet-101作为语义分割基础网络的特征编码器,语义解码器的网络结构还是DeepLabV3+中的解码器的网络结构。
RGB图像分支和深度图像分支的语义分割损失均采用逐像素交叉熵损失。
RGB投影模块和深度投影模块的结构相同,具体为:由卷积核大小为1×1的第一卷积层、一个批归一化层、一个RELU激活函数层和卷积核大小为1×1的第二卷积层依次连接组成,投影模块将输入的RGB图像经过RGB特征编码器后得到的RGB特征
Figure BDA0003440095200000061
降维至RGB嵌入特征R′∈RH×W×C′,将输入的深度图像经过深度特征编码器后得到的深度特征
Figure BDA0003440095200000062
降维至深度嵌入特征D′∈RH×W×C′,具体实施中,降维后的特征为256维特征向量。
步骤2)中RGB投影模块输出多个RGB像素嵌入特征,深度投影模块输出多个深度像素嵌入特征,每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中,对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样,获得当前批次的正负难样本集合并输出,具体为,如图3所示:
S1:随机采样每一批次中所有RGB图像的P个像素位置,提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征;具体实施中,P=500。
S2:当前批次的各张深度图像中,对每张深度图像的多个深度像素嵌入特征中属于同一类别的像素特征进行池化,获得当前深度图像的各个类别下的深度中心像素特征,遍历当前批次的剩余深度图像,进行类别像素特征池化,最终获得当前批次的深度中心像素特征;
S3:利用RGB-D感知的锚点样本采样方法对当前批次的多个RGB像素嵌入特征进行锚点样本选择,获得当前批次的锚点样本集合;
S3具体为:
S3.1:对当前批次的多个RGB像素嵌入特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义解码器中被错误分类但在深度语义解码器中分类正确的像素位置采样,采样获得的像素位置作为另一半锚点;
S3.2:提取多个RGB像素嵌入特征中对应S3.1中所有锚点的像素特征作为各个锚点样本,由各个锚点样本构成用于计算跨模态对比损失的锚点样本集合。
S4:根据当前批次的锚点样本集合,利用挖掘部分难样本的正负样本采样方法对当前批次的深度随机像素特征和深度中心像素特征进行正负样本选择,获得当前批次的正负样本集合,通过衡量锚点样本集合与正负样本集合的相似度进行对比学习,获得当前批次的正负难样本集合。
S4具体为:
S4.1:将深度随机像素特征和深度中心像素特征中与当前锚点样本集合中每一锚点样本属于同一类别的像素特征作为当前锚点样本的正样本集合;将深度随机像素特征和深度中心像素特征中与当前锚点样本不属于同一类别的像素特征作为当前锚点样本的负样本集合;
S4.2:计算当前锚点样本与当前锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前锚点样本的正难样本集合;由当前锚点样本的正难样本集合和负难样本集合构成当前锚点样本的正负难样本集合;
S4.3:计算当前锚点样本与当前锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前锚点样本的负难样本集合;具体实施中,相似度具体是两个样本的点积。具体实施中,K1=K2=1024。
S4.4:重复S4.1-S4.3,遍历当前锚点样本集合中剩余的锚点样本,获得各个锚点样本的正负难样本集合,由各个锚点样本的正负难样本集合构成当前批次的正负难样本集合。
基于步骤2)中对比学习模块的输出,对比学习模块的跨模态对比损失通过以下公式进行计算:
Figure BDA0003440095200000071
其中,
Figure BDA0003440095200000072
表示像素i的跨模态对比损失,ri表示像素i的RGB像素嵌入特征,用
Figure BDA0003440095200000073
Figure BDA0003440095200000074
分别表示像素i的正难样本和负难样本,
Figure BDA0003440095200000075
Figure BDA0003440095200000076
分别表示像素i所在的正难样本集合和负难样本集合,τ表示温度系数,温度系数τ是一个人为设定的超参数,此处为τ=0.1,
Figure BDA0003440095200000077
表示计算像素i所在的正难样本集合的大小。
多模态总损失通过以下公式进行计算:
Figure BDA0003440095200000078
Figure BDA0003440095200000081
其中,
Figure BDA0003440095200000084
表示多模态总损失,
Figure BDA0003440095200000085
表示语义分割联合损失,λ1、λ2分别表示第一、第二损失权重,λ1是手动调节的参数,用于平衡两个分支的语义分割损失函数的数值,λ2是人为设定的超参数,此处λ2=1;M表示锚点样本集合中锚点样本的数量,具体实施中,M=500;
Figure BDA0003440095200000082
分别表示RGB图像分支和深度图像分支中的语义分割损失。
3)将待分割的RGB图像输入训练好的多模态对比学习语义分割网络的RGB语义分割基础网络中进行语义分割,获得语义分割后的RGB图像。
在具体实施中,采用带动量的SGD算法进行优化训练,优化器的具体设置为:初始学习率设置为0.0025,动量设置为0.9,权重衰减系数设置为0.0005。此外,采用poly学习率策略,随迭代次数的增加自动地调整学习率大小。
图2展示了实施例在公开数据集NYU Depth V2上的一些分割结果,一定程度上改进了分割效果。
为了说明本发明所提出的网络框架以及跨模态对比性能的有效性,在公开数据集NYU Depth V2上进行验证。NYU Depth V2数据集由Microsoft Kinect采集的各种室内场景的视频序列组成,涵盖了3个城市的464个场景,并提供了1449张成对的RGB-D图像,是室内场景RGBD语义分割任务中最常用的数据集。为评估语义分割的性能,采用常用的像素准确率(Pixel Accuracy,pAcc)、平均像素。
准确率(Mean Pixel Accuracy,mAce)和平均交并比(Mean Intersection overUnion,mIoU)作为评价指标。不同模型变体的语义分割评测结果如表1所示:
表1中的五个模型变体分别为:M1表示仅采用交叉熵损失
Figure BDA0003440095200000083
监督训练RGB分支的语义分割基础网络;;M2表示采用联合交叉熵损失
Figure BDA0003440095200000086
进行优化的RGB分支和深度分支的语义分割基础网络模型;M3表示采用联合交叉熵语义分割损失
Figure BDA0003440095200000087
和本发明提出的跨模态对比损失
Figure BDA0003440095200000088
进行优化的完整网络模型。
表1
Figure BDA0003440095200000091
通过比较M2和M1可观察到RGB分支和深度分支的简单联合几乎没有什么帮助,但通过添加本发明提出的跨模态对比学习(M3)可以有效地提升性能,提高所有指标。结合附图2,对于由于色彩纹理相近而难于分割的情况有更好地表现。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,但并不是用来限制本发明,任何在本发明原则范围内所进行的变动和修改,都应当包含在本发明的保护范围内。

Claims (10)

1.一种基于多模态对比学习的深度特权语义分割方法,其特征在于,包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及对应的深度图像输入多模态对比学习语义分割网络中,多模态对比学习语义分割网络由RGB图像分支、深度图像分支和对比学习模块构成,RGB图像分支通过对比学习模块与深度图像分支相连,接着分别计算RGB图像分支和深度图像分支的语义分割损失,还计算对比学习模块的跨模态对比损失,然后根据RGB图像分支和深度图像分支的语义分割损失和跨模态对比损失计算多模态总损失,基于多模态总损失训练多模态对比学习语义分割网络,获得训练好的多模态对比学习语义分割网络;其中,RGB图像分支包括RGB特征编码器、RGB语义解码器和RGB投影模块,RGB特征编码器的输出分别输入RGB语义解码器和RGB投影模块中,RGB投影模块与对比学习模块相连,RGB特征编码器和RGB语义解码器构成RGB语义分割基础网络,RGB语义解码器的输出作为RGB语义分割基础网络的输出;
3)将待分割的RGB图像输入训练好的多模态对比学习语义分割网络的RGB语义分割基础网络中进行语义分割,获得语义分割后的RGB图像。
2.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述深度图像分支包括深度特征编码器、深度语义解码器和深度投影模块,深度特征编码器的输出分别输入深度语义解码器和深度投影模块中,深度投影模块与对比学习模块相连。
3.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述RGB投影模块和深度投影模块的结构相同,具体为:由第一卷积层、一个批归一化层、一个激活函数层和第二卷积层依次连接组成。
4.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述步骤2)中RGB投影模块输出多个RGB像素嵌入特征,深度投影模块输出多个深度像素嵌入特征,每一批次的多个RGB像素嵌入特征和深度像素嵌入特征输入对比学习模块中,对比学习模块中对当前批次的多个RGB像素嵌入特征和深度像素嵌入特征进行样本采样,获得当前批次的正负难样本集合并输出,具体为:
S1:随机采样每一批次中所有RGB图像的P个像素位置,提取多个深度像素嵌入特征中对应P个像素位置的像素特征并作为当前批次的深度随机像素特征;
S2:当前批次的各张深度图像中,对每张深度图像的多个深度像素嵌入特征中属于同一类别的像素特征进行池化,获得当前深度图像的各个类别下的深度中心像素特征,遍历当前批次的剩余深度图像,进行类别像素特征池化,最终获得当前批次的深度中心像素特征;
S3:利用RGB-D感知的锚点样本采样方法对当前批次的多个RGB像素嵌入特征进行锚点样本选择,获得当前批次的锚点样本集合;
S4:根据当前批次的锚点样本集合,利用挖掘部分难样本的正负样本采样方法对当前批次的深度随机像素特征和深度中心像素特征进行正负样本选择,获得当前批次的正负样本集合,通过衡量锚点样本集合与正负样本集合的相似度进行对比学习,获得当前批次的正负难样本集合。
5.根据权利要求4所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述S3具体为:
S3.1:对当前批次的多个RGB像素嵌入特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义解码器中被错误分类但在深度语义解码器中分类正确的像素位置采样,采样获得的像素位置作为另一半锚点;
S3.2:提取多个RGB像素嵌入特征中对应S3.1中所有锚点的像素特征作为各个锚点样本,由各个锚点样本构成用于计算跨模态对比损失的锚点样本集合。
6.根据权利要求4所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述S4具体为:
S4.1:将深度随机像素特征和深度中心像素特征中与当前锚点样本集合中每一锚点样本属于同一类别的像素特征作为当前锚点样本的正样本集合;将深度随机像素特征和深度中心像素特征中与当前锚点样本不属于同一类别的像素特征作为当前锚点样本的负样本集合;
S4.2:计算当前锚点样本与当前锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前锚点样本的正难样本集合;由当前锚点样本的正难样本集合和负难样本集合构成当前锚点样本的正负难样本集合;
S4.3:计算当前锚点样本与当前锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前锚点样本的负难样本集合;
S4.4:重复S4.1-S4.3,遍历当前锚点样本集合中剩余的锚点样本,获得各个锚点样本的正负难样本集合,由各个锚点样本的正负难样本集合构成当前批次的正负难样本集合。
7.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,基于所述的步骤2)中对比学习模块的输出,对比学习模块的跨模态对比损失通过以下公式进行计算:
Figure FDA0003440095190000031
其中,
Figure FDA0003440095190000032
表示像素i的跨模态对比损失,ri表示像素i的RGB像素嵌入特征,用
Figure FDA0003440095190000033
Figure FDA0003440095190000034
分别表示像素i的正难样本和负难样本,
Figure FDA0003440095190000035
Figure FDA0003440095190000036
分别表示像素i所在的正难样本集合和负难样本集合,τ表示温度系数,
Figure FDA0003440095190000037
表示计算像素i所在的正难样本集合的大小。
8.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述的多模态总损失通过以下公式进行计算:
Figure FDA0003440095190000038
Figure FDA0003440095190000039
其中,
Figure FDA00034400951900000310
表示多模态总损失,
Figure FDA00034400951900000311
表示语义分割联合损失,λ1、λ2分别表示第一、第二损失权重,M表示锚点样本集合中锚点样本的数量;
Figure FDA00034400951900000312
分别表示RGB图像分支和深度图像分支中的语义分割损失。
9.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,所述的RGB图像分支和深度图像分支的语义分割损失均采用逐像素交叉熵损失。
10.根据权利要求1所述的一种基于多模态对比学习的深度特权语义分割方法,其特征在于,将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
CN202111626188.7A 2021-12-28 2021-12-28 一种基于多模态对比学习的深度特权语义分割方法 Pending CN114332099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111626188.7A CN114332099A (zh) 2021-12-28 2021-12-28 一种基于多模态对比学习的深度特权语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111626188.7A CN114332099A (zh) 2021-12-28 2021-12-28 一种基于多模态对比学习的深度特权语义分割方法

Publications (1)

Publication Number Publication Date
CN114332099A true CN114332099A (zh) 2022-04-12

Family

ID=81014317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111626188.7A Pending CN114332099A (zh) 2021-12-28 2021-12-28 一种基于多模态对比学习的深度特权语义分割方法

Country Status (1)

Country Link
CN (1) CN114332099A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693934A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693934A (zh) * 2022-04-13 2022-07-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN109657584B (zh) 辅助驾驶的改进LeNet-5融合网络交通标志识别方法
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN111832516B (zh) 基于无监督视频表示学习的视频行为识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114612666A (zh) 一种基于多模态对比学习的rgb-d语义分割方法
CN112668522B (zh) 一种人体关键点与人体掩码联合检测网络及方法
CN116052218B (zh) 一种行人重识别方法
WO2023035896A1 (zh) 视频的识别方法、装置、可读介质和电子设备
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113408472A (zh) 目标重识别模型的训练方法、目标重识别方法及装置
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN114743027B (zh) 弱监督学习引导的协同显著性检测方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114332099A (zh) 一种基于多模态对比学习的深度特权语义分割方法
CN114612659A (zh) 一种基于融合模态对比学习的电力设备分割方法及系统
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN115527159B (zh) 一种基于跨模态间尺度注意聚合特征的计数系统及方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN117115641A (zh) 建筑物信息提取方法、装置、电子设备及存储介质
CN115457385A (zh) 一种基于轻量级网络的建筑物变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination