CN114612666A - 一种基于多模态对比学习的rgb-d语义分割方法 - Google Patents

一种基于多模态对比学习的rgb-d语义分割方法 Download PDF

Info

Publication number
CN114612666A
CN114612666A CN202210272481.6A CN202210272481A CN114612666A CN 114612666 A CN114612666 A CN 114612666A CN 202210272481 A CN202210272481 A CN 202210272481A CN 114612666 A CN114612666 A CN 114612666A
Authority
CN
China
Prior art keywords
rgb
cross
sample
modal
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210272481.6A
Other languages
English (en)
Inventor
柯丹宁
龚小谨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210272481.6A priority Critical patent/CN114612666A/zh
Publication of CN114612666A publication Critical patent/CN114612666A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态对比学习的语义分割方法。构建训练集,建立由语义分割基础网络和对比学习模块构成的对比学习语义分割网络;语义分割基础网络包括RGB分支、深度分支、集成模块和对比学习模块,RGB分支和深度分支的分割结果通过集成模块结合得到最终分割结果并在训练阶段监督训练,RGB分支和深度分支的中间特征在训练阶段输入对比学习模块用跨模态对比损失和同模态对比损失进行优化。将待分割的RGB图像及对应的深度图像输入训练好的对比学习语义分割网络中的语义分割基础网络进行语义分割,获得语义分割结果。本发明能够更好地挖掘RGB图像和深度图像的共性,同时保留两类图像的特性,从而提升语义分割的精度。

Description

一种基于多模态对比学习的RGB-D语义分割方法
技术领域
本发明属于计算机视觉技术领域的一种RGB-D语义分割方法,尤其是涉及了一种基于多模态对比学习的RGB-D语义分割方法。
背景技术
随着传感器的发展,RGB-D语义分割近年来吸引了越来越多的研究兴趣。RGB-D语义分割利用RGB图像及其对应深度图像,为图像中的每一个像素标注语义类别从而起到分割场景的效果。由于深度图像提供了RGB图像所没有的几何信息,RGB-D语义分割方法在光照条件变化大和色彩纹理差异小的情况下有更加鲁棒的性能,故在自动驾驶和机器人视觉等领域具有潜在应用价值。
如Chen等人发表《Computer Vision--ECCV 2020:16th European Conference,Glasgow,UK,August 23--28,2020,Proceedings,Part XI 16》在的《Bi-directionalCross-Modality Feature Propagation with Separation-and-Aggregation Gate forRGB-D Semantic Segmentation》以及Zhou等人发表在《Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition》的《Pattern-structurediffusion for multi-task learning》都是行之有效的利用了深度信息的RGB-D语义分割方法。
发明内容
为了解决背景技术中存在的问题和需求,针对RGB-D场景,本发明提供一种基于多模态对比学习的RGB-D语义分割方法,将对比学习应用于语义分割任务中。本发明在不同的特征嵌入空间采用跨模态和同模态的对比学习损失进行优化,前者用于挖掘两种模态的共同特征,后者用于学习特定于模态的特征。以充分利用RGB和深度两种模态的信息,从而改善RGB图像中由于色彩纹理相近而难于分割的情况,提升语义分割的精度。
本发明的技术方案如下:
本发明包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及其对应的深度图像输入RGB-D对比学习语义分割网络中,RGB-D对比学习语义分割网络由RGB-D语义分割基础网络和对比学习模块构成;RGB-D语义分割基础网络包括RGB分支、深度分支和集成模块,其中RGB分支包括RGB特征编码器和RGB语义分割解码器,深度分支包括深度特征编码器和深度语义分割解码器,RGB图像输入到RGB特征编码器中,RGB特征编码器的输出分别输入RGB语义分割解码器和对比学习模块,深度图像输入到深度特征编码器中,深度特征编码器的输出分别输入深度语义分割解码器和对比学习模块,RGB语义分割解码器和深度语义分割解码器的输出均输入到集成模块中,集成模块的输出作为RGB-D语义分割基础网络;计算RGB-D语义分割基础网络的语义分割损失和对比学习模块的多模态对比损失得到多模态总损失,基于多模态总损失训练RGB-D对比学习语义分割网络,获得训练好的RGB-D对比学习语义分割网络;
3)将待分割的RGB图像及对应的深度图像输入训练好的RGB-D对比学习语义分割网络中的RGB-D语义分割基础网络进行语义分割,获得语义分割结果。
所述步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中,第一卷积层输出权重矩阵,接着对权重矩阵进行归一化处理,获得归一化权重矩阵并作为RGB分支预测概率的置信度Er,将1与RGB分支预测概率的置信度Er的差值作为深度分支预测概率的置信度1-Er,然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度Er相乘后获得RGB类别分数图,同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-Er相乘后获得深度类别分数图,最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图,集成类别分数图作为集成模块的输出。
所述对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块;所述步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块,深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。
所述RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同,但是处理对象不同,RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合,深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合;
所述RGB同模态对比学习子模块中通过第一投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB同模态像素特征,接着通过以下步骤对多个RGB同模态像素特征进行样本采样后,获得当前批次RGB图像的RGB同模态锚点样本集合和RGB同模态正负难样本集合,并计算当前批次RGB图像的RGB同模态对比损失:
S1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB同模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB同模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB同模态中心像素特征;
S2:利用语义感知的锚点样本采样方法对当前批次的多个RGB同模态像素特征进行锚点样本选择,获得当前批次的RGB同模态锚点样本集合
Figure BDA0003554197880000031
所述S2具体为:
S2.1:对当前批次的多个RGB同模态像素特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义分割解码器中被错误分类的像素位置采样,采样获得的像素位置作为另一半锚点;
S2.2:提取多个RGB同模态像素特征中S2.1中所有锚点对应的像素特征并作为各个RGB同模态锚点样本,由各个RGB同模态锚点样本构成当前批次的RGB同模态锚点样本集合;
S3:根据当前批次的RGB同模态锚点样本集合,对于每一个RGB同模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB同模态中心像素特征进行正负样本选择,获得当前RGB同模态锚点样本对应的RGB同模态正负难样本集合,并计算当前RGB同模态锚点样本的RGB同模态对比损失;
所述S3具体为:
S3.1:对于每一个RGB同模态锚点样本,在当前批次各个类别下的RGB同模态中心像素特征中,将与当前RGB同模态锚点样本属于同一类别的像素特征作为当前RGB同模态锚点样本的正样本集合,将与当前RGB同模态锚点样本不属于同一类别的像素特征作为当前RGB同模态锚点样本的负样本集合;
S3.2:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB同模态锚点样本的RGB同模态正难样本集合;
S3.3:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB同模态锚点样本的RGB同模态负难样本集合;
S3.4:基于S3.2和S3.3所得到的RGB同模态正难样本集合和RGB同模态负难样本集合,通过以下公式计算当前RGB同模态锚点样本的RGB同模态对比损失:
Figure BDA0003554197880000041
其中,
Figure BDA0003554197880000042
表示当前RGB同模态锚点样本的RGB同模态对比损失,ri表示当前RGB同模态锚点样本,
Figure BDA0003554197880000043
Figure BDA0003554197880000044
分别当前表示RGB同模态锚点样本ri的RGB同模态正难样本和RGB同模态负难样本,
Figure BDA0003554197880000045
Figure BDA0003554197880000046
分别表示像素i所在的RGB同模态正难样本集合和RGB同模态负难样本集合,τ表示温度系数,
Figure BDA0003554197880000047
表示计算像素i所在的RGB同模态正难样本集合的大小;
S4:重复S3,遍历当前RGB同模态锚点样本集合中剩余的RGB同模态锚点样本,获得各个RGB同模态锚点样本的RGB同模态正负难样本集合,并计算各个RGB同模态锚点样本的RGB同模态对比损失,将各个RGB同模态锚点样本的RGB同模态对比损失之和作为当前批次RGB图像的RGB同模态对比损失。
所述深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下:
Figure BDA0003554197880000048
其中,
Figure BDA0003554197880000049
表示当前深度同模态锚点样本的深度同模态对比损失,di表示当前深度同模态锚点样本
Figure BDA00035541978800000410
Figure BDA00035541978800000411
分别表示当前深度同模态锚点样本di的深度正难样本和深度负难样本,
Figure BDA00035541978800000412
Figure BDA00035541978800000413
分别表示像素i所在的深度同模态正难样本集合和深度同模态负难样本集合,τ表示温度系数,
Figure BDA00035541978800000414
表示计算像素i所在的深度同模态正难样本集合的大小。
所述双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块,RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同,但是处理对象不同,RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合;
所述RGB跨模态对比学习子模块中通过第二投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB跨模态像素特征,接着通过以下步骤对多个RGB跨模态像素特征进行样本采样后,获得当前批次RGB图像的RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,并计算当前批次RGB图像的RGB跨模态对比损失:
A1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB跨模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB跨模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB跨模态中心像素特征;
A2:对当前批次的多个RGB跨模态像素特征进行随机采样,获得当前批次的RGB跨模态锚点样本集合;
A3:根据当前批次的RGB跨模态锚点样本集合,对于每一个RGB跨模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB跨模态中心像素特征进行正负样本选择,获得当前RGB跨模态锚点样本对应的RGB跨模态正负难样本集合,并计算当前RGB跨模态锚点样本的RGB跨模态对比损失;
所述A3具体为:
A3.1:对于每一个RGB跨模态锚点样本,在当前批次各个类别下的RGB跨模态中心像素特征中,将与当前RGB跨模态锚点样本属于同一类别的像素特征作为当前RGB跨模态锚点样本的正样本集合,将与当前RGB跨模态锚点样本不属于同一类别的像素特征作为当前RGB跨模态锚点样本的负样本集合;
A3.2:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB跨模态锚点样本的RGB跨模态正难样本集合;
A3.3:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB跨模态锚点样本的RGB跨模态负难样本集合;
A3.4:基于A3.2和A3.3所得到的RGB跨模态正难样本集合和RGB跨模态负难样本集合,通过以下公式计算当前RGB跨模态锚点样本的r←d流向跨模态对比损失:
Figure BDA0003554197880000061
其中,
Figure BDA0003554197880000062
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure BDA0003554197880000063
表示当前RGB跨模态锚点样本,
Figure BDA0003554197880000064
Figure BDA0003554197880000065
分别表示当前RGB跨模态锚点样本
Figure BDA0003554197880000066
的RGB跨模态正难样本和RGB跨模态负难样本,
Figure BDA0003554197880000067
Figure BDA0003554197880000068
分别表示像素i所在的RGB跨模正难样本集合和RGB跨模负难样本集合,τ表示温度系数,
Figure BDA0003554197880000069
表示计算像素i所在的RGB跨模正难样本集合的大小;
A4:重复A3,遍历当前RGB跨模态锚点样本集合中剩余的RGB跨模态锚点样本,获得各个RGB跨模态锚点样本的RGB跨模态正负难样本集合,并计算各个RGB跨模态锚点样本的r←d流向跨模态对比损失,将各个RGB跨模态锚点样本的r←d流向跨模态对比损失之和作为当前批次RGB图像的r←d流向跨模态对比损失;
所述深度跨模态对比学习子模块中每个深度跨模态锚点样本的d←r流向跨模态对比损失的计算公式如下:
Figure BDA00035541978800000610
其中,
Figure BDA00035541978800000611
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,d i表示当前深度跨模态锚点样本,
Figure BDA00035541978800000612
Figure BDA00035541978800000613
分别表示深度跨模态锚点样本d i的深度跨模态正难样本和深度跨模态负难样本,
Figure BDA00035541978800000614
Figure BDA00035541978800000615
分别表示像素i所在的深度跨模态正难样本集合和深度跨模态负难样本集合,τ表示温度系数,
Figure BDA0003554197880000071
表示计算像素i所在的深度跨模态正难样本集合的大小。
所述的多模态总损失通过以下公式进行计算:
Figure BDA0003554197880000072
其中,
Figure BDA0003554197880000073
表示多模态总损失,
Figure BDA0003554197880000074
表示语义分割损失,
Figure BDA0003554197880000075
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure BDA0003554197880000076
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,
Figure BDA0003554197880000077
表示当前RGB同模态锚点样本的RGB同模态对比损失,
Figure BDA0003554197880000078
表示当前深度同模态锚点样本的深度同模态对比损失,λ1表示跨模态对比损失平衡权重,λ2表示同模态对比损失平衡权重,
Figure BDA0003554197880000079
表示RGB跨模态锚点样本集合,
Figure BDA00035541978800000710
表示深度跨模态锚点样本集合,
Figure BDA00035541978800000711
表示RGB同模态锚点样本集合,
Figure BDA00035541978800000712
表示深度同模态锚点样本集合。
第一投影模块、双流向跨模态对比学习子模块的第二投影模块的结构均相同,第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成,第一投影模块的输入输入到第二卷积层,第三卷积层的输出作为第一投影模块的输出。
所述的语义分割损失采用逐像素交叉熵损失。
将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
本发明具有以下有益效果:
1、相较于只利用RGB图像的语义分割方法,RGB-D语义分割方法因为引入了深度图像的几何信息,在因色彩纹理相近而导致难以分割的情况下具有更好的表现,故能够更好地分割不同光照条件下的场景。
2、针对RGB-D语义分割任务提出了一种新的框架。与大多数RGB-D语义分割方法相比,在编码器的各个层级无需融合模块,并且可以应用到现有的单模态语义分割网络中,而无需改变其基本网络。
3、本发明针对RGB-D的设置在提出双流向的跨模态对比学习和RGB/深度同模态对比学习,从而更好地挖掘模态间的共同特征、保留特定于模态的特征。
附图说明
图1是本发明的网络模型示意图。
图2是本发明的RGB同模态对比学习子模块结构示意图。
图3是本发明的双流向跨模态对比学习子模块结构示意图。
图4是本发明的深度同模态对比学习子模块结构示意图。
图5是本发明的集成模块结构示意图。
具体实施方式
下面结合附图对本发明进行进一步的说明,本发明的实施例及其实施过程是:
本发明包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;具体实施中,将步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及其对应的深度图像输入RGB-D对比学习语义分割网络中,如图1所示,RGB-D对比学习语义分割网络由RGB-D语义分割基础网络和对比学习模块构成;RGB-D语义分割基础网络包括RGB分支、深度分支和集成模块,其中RGB分支包括RGB特征编码器和RGB语义分割解码器,深度分支包括深度特征编码器和深度语义分割解码器,RGB图像输入到RGB特征编码器中,RGB特征编码器的输出分别输入RGB语义分割解码器和对比学习模块的RGB同模态对比学习模块和双流向跨模态对比学习模块,深度图像输入到深度特征编码器中,深度特征编码器的输出分别输入深度语义分割解码器和对比学习模块的深度同模态对比学习模块和双流向跨模态对比学习模块,RGB语义分割解码器和深度语义分割解码器的输出均输入到集成模块中,集成模块的输出作为RGB-D语义分割基础网络,即RGB-D对比学习语义分割网络的输出;计算RGB-D语义分割基础网络的语义分割损失和对比学习模块的多模态对比损失得到多模态总损失,语义分割损失采用逐像素交叉熵损失。基于多模态总损失训练RGB-D对比学习语义分割网络,获得训练好的RGB-D对比学习语义分割网络;
具体实施中,RGB-D语义分割基础网络的RGB分支和深度分支理论上可以采用任何基于编码器-解码器结构的深度学习语义分割方法,这里以DeepLabV3+为例。另外还可以选择ResNet-101并将ImageNet数据集训练后的ResNet-101作为语义分割基础网络的特征编码器,语义分割解码器的网络结构还是DeepLabV3+中的解码器的网络结构。
如图5所示,步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中,第一卷积层输出权重矩阵,接着对权重矩阵进行归一化处理,获得归一化权重矩阵并作为RGB分支预测概率的置信度Er,将1与RGB分支预测概率的置信度Er的差值作为深度分支预测概率的置信度1-Er,然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度Er相乘后获得RGB类别分数图,同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-Er相乘后获得深度类别分数图,最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图,集成类别分数图作为集成模块的输出,用于语义分割损失的计算。
对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块;步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块,深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。
如图2和图4所示,RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同,但是处理对象不同,RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合,深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合;
RGB同模态对比学习子模块中通过第一投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB同模态像素特征,接着通过以下步骤对多个RGB同模态像素特征进行样本采样后,获得当前批次RGB图像的RGB同模态锚点样本集合和RGB同模态正负难样本集合,并计算当前批次RGB图像的RGB同模态对比损失:
S1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB同模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB同模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB同模态中心像素特征;
S2:利用语义感知的锚点样本采样方法对当前批次的多个RGB同模态像素特征进行锚点样本选择,获得当前批次的RGB同模态锚点样本集合
Figure BDA0003554197880000091
S2具体为:
S2.1:对当前批次的多个RGB同模态像素特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义分割解码器中被错误分类的像素位置采样,采样获得的像素位置作为另一半锚点;
S2.2:提取多个RGB同模态像素特征中S2.1中所有锚点对应的像素特征并作为各个RGB同模态锚点样本,由各个RGB同模态锚点样本构成当前批次的RGB同模态锚点样本集合
Figure BDA0003554197880000101
S3:根据当前批次的RGB同模态锚点样本集合,对于每一个RGB同模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB同模态中心像素特征进行正负样本选择,获得当前RGB同模态锚点样本对应的RGB同模态正负难样本集合,并计算当前RGB同模态锚点样本的RGB同模态对比损失;
S3具体为:
S3.1:对于每一个RGB同模态锚点样本,在当前批次各个类别下的RGB同模态中心像素特征中,将与当前RGB同模态锚点样本属于同一类别的像素特征作为当前RGB同模态锚点样本的正样本集合,将与当前RGB同模态锚点样本不属于同一类别的像素特征作为当前RGB同模态锚点样本的负样本集合;
S3.2:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB同模态锚点样本的RGB同模态正难样本集合;
S3.3:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB同模态锚点样本的RGB同模态负难样本集合;
S3.4:基于S3.2和S3.3所得到的RGB同模态正难样本集合和RGB同模态负难样本集合,通过以下公式计算当前RGB同模态锚点样本的RGB同模态对比损失:
Figure BDA0003554197880000102
其中,
Figure BDA0003554197880000111
表示当前RGB同模态锚点样本的RGB同模态对比损失,ri表示当前RGB同模态锚点样本,即像素位置i对应的RGB同模态像素特征,
Figure BDA0003554197880000112
Figure BDA0003554197880000113
分别当前表示RGB同模态锚点样本ri的RGB同模态正难样本和RGB同模态负难样本,
Figure BDA0003554197880000114
Figure BDA0003554197880000115
分别表示像素i所在的RGB同模态正难样本集合和RGB同模态负难样本集合,τ表示温度系数,
Figure BDA0003554197880000116
表示计算像素i所在的RGB同模态正难样本集合的大小。具体实施中,τ=0.1。
S4:重复S3,遍历当前RGB同模态锚点样本集合中剩余的RGB同模态锚点样本,获得各个RGB同模态锚点样本的RGB同模态正负难样本集合,并计算各个RGB同模态锚点样本的RGB同模态对比损失,将各个RGB同模态锚点样本的RGB同模态对比损失之和作为当前批次RGB图像的RGB同模态对比损失。
深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下:
Figure BDA0003554197880000117
其中,
Figure BDA0003554197880000118
表示当前深度同模态锚点样本的深度同模态对比损失,di表示当前深度同模态锚点样本,即像素位置i对应的深度同模态像素特征,
Figure BDA0003554197880000119
Figure BDA00035541978800001110
分别表示当前深度同模态锚点样本di的深度正难样本和深度负难样本,
Figure BDA00035541978800001111
Figure BDA00035541978800001112
分别表示像素i所在的深度同模态正难样本集合和深度同模态负难样本集合,τ表示温度系数,
Figure BDA00035541978800001113
表示计算像素i所在的深度同模态正难样本集合的大小。
如图3所示,双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块,RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同,但是处理对象不同,RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合;
RGB跨模态对比学习子模块中通过第二投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB跨模态像素特征,接着通过以下步骤对多个RGB跨模态像素特征进行样本采样后,获得当前批次RGB图像的RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,并计算当前批次RGB图像的RGB跨模态对比损失:
A1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB跨模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB跨模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB跨模态中心像素特征;
A2:对当前批次的多个RGB跨模态像素特征进行随机采样,获得当前批次的RGB跨模态锚点样本集合;
A3:根据当前批次的RGB跨模态锚点样本集合,对于每一个RGB跨模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB跨模态中心像素特征进行正负样本选择,获得当前RGB跨模态锚点样本对应的RGB跨模态正负难样本集合,并计算当前RGB跨模态锚点样本的RGB跨模态对比损失;
A3具体为:
A3.1:对于每一个RGB跨模态锚点样本,在当前批次各个类别下的RGB跨模态中心像素特征中,将与当前RGB跨模态锚点样本属于同一类别的像素特征作为当前RGB跨模态锚点样本的正样本集合,将与当前RGB跨模态锚点样本不属于同一类别的像素特征作为当前RGB跨模态锚点样本的负样本集合;
A3.2:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB跨模态锚点样本的RGB跨模态正难样本集合;
A3.3:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB跨模态锚点样本的RGB跨模态负难样本集合;
A3.4:基于A3.2和A3.3所得到的RGB跨模态正难样本集合和RGB跨模态负难样本集合,通过以下公式计算当前RGB跨模态锚点样本的r←d流向跨模态对比损失:
Figure BDA0003554197880000131
其中,
Figure BDA0003554197880000132
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure BDA0003554197880000133
表示当前RGB跨模态锚点样本,即像素位置i对应的RGB跨模态像素特征,
Figure BDA0003554197880000134
Figure BDA0003554197880000135
分别表示当前RGB跨模态锚点样本
Figure BDA0003554197880000136
的RGB跨模态正难样本和RGB跨模态负难样本,
Figure BDA0003554197880000137
Figure BDA0003554197880000138
分别表示像素i所在的RGB跨模正难样本集合和RGB跨模负难样本集合,τ表示温度系数,
Figure BDA0003554197880000139
表示计算像素i所在的RGB跨模正难样本集合的大小;
A4:重复A3,遍历当前RGB跨模态锚点样本集合中剩余的RGB跨模态锚点样本,获得各个RGB跨模态锚点样本的RGB跨模态正负难样本集合,并计算各个RGB跨模态锚点样本的r←d流向跨模态对比损失,将各个RGB跨模态锚点样本的r←d流向跨模态对比损失之和作为当前批次RGB图像的r←d流向跨模态对比损失。
深度跨模态对比学习子模块中每个深度跨模态锚点样本的d←r流向跨模态对比损失的计算公式如下:
Figure BDA00035541978800001310
其中,
Figure BDA00035541978800001311
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,d i表示当前深度跨模态锚点样本,即像素位置i对应的RGB同模态像素特征,
Figure BDA00035541978800001312
Figure BDA00035541978800001313
分别表示深度跨模态锚点样本d i的深度跨模态正难样本和深度跨模态负难样本,
Figure BDA00035541978800001314
Figure BDA00035541978800001315
分别表示像素i所在的深度跨模态正难样本集合和深度跨模态负难样本集合,τ表示温度系数,
Figure BDA00035541978800001316
表示计算像素i所在的深度跨模态正难样本集合的大小。
深度同模态对比学习子模块的第四投影模块、第一投影模块、双流向跨模态对比学习子模块中RGB跨模态对比学习子模块的第二投影模块和深度跨模态对比学习子模块的第三投影模块的结构均相同,第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成,第一投影模块的输入输入到第二卷积层,第三卷积层的输出作为第一投影模块的输出。
多模态总损失通过以下公式进行计算:
Figure BDA0003554197880000141
其中,
Figure BDA0003554197880000142
表示多模态总损失,
Figure BDA0003554197880000143
表示语义分割损失,
Figure BDA0003554197880000144
Figure BDA0003554197880000145
为多模态对比损失,
Figure BDA0003554197880000146
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure BDA0003554197880000147
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,
Figure BDA0003554197880000148
表示当前RGB同模态锚点样本的RGB同模态对比损失,
Figure BDA0003554197880000149
表示当前深度同模态锚点样本的深度同模态对比损失,λ1表示跨模态对比损失平衡权重,λ2表示同模态对比损失平衡权重,
Figure BDA00035541978800001410
表示RGB跨模态锚点样本集合,
Figure BDA00035541978800001411
表示深度跨模态锚点样本集合,
Figure BDA00035541978800001412
表示RGB同模态锚点样本集合,
Figure BDA00035541978800001413
表示深度同模态锚点样本集合。具体实施中λ1=λ2=1。
3)将待分割的RGB图像及对应的深度图像输入训练好的RGB-D对比学习语义分割网络中的RGB-D语义分割基础网络进行语义分割,获得语义分割结果。
在具体实施中,采用带动量的SGD算法进行优化训练,优化器的具体设置为:初始学习率设置为0.0025,动量设置为0.9,权重衰减系数设置为0.0005。此外,采用poly学习率策略,随迭代次数的增加自动地调整学习率大小。
为了说明本发明所提出的网络框架以及对比学习模块的有效性,在公开数据集NYU Depth V2上进行验证。NYU Depth V2数据集由Microsoft Kinect采集的各种室内场景的视频序列组成,涵盖了3个城市的464个场景,并提供了1449张成对的RGB-D图像,是室内场景RGB-D语义分割任务中最常用的数据集。为评估语义分割的性能,采用常用的像素准确率(Pixel Accuracy,pAcc)、平均像素准确率(Mean Pixel Accuracy,mAcc)和平均交并比(Mean Intersection over Union,mIoU)作为评价指标。不同模型变体的语义分割评测结果如表1所示:
表1中的五个模型变体分别为:M1表示仅采用交叉熵损失
Figure BDA00035541978800001414
进行监督训练的RGB-D语义分割基础网络;M2表示采用交叉熵损失和r←d流向的跨模态对比学习损失进行监督训练的RGB-D对比学习语义分割网络;M3表示采用交叉熵损失
Figure BDA00035541978800001415
和双流向跨模态对比学习损失
Figure BDA00035541978800001416
进行监督训练的RGB-D对比学习语义分割网络;M4表示采用交叉熵损失
Figure BDA0003554197880000151
和双流向跨模态对比学习损失
Figure BDA0003554197880000152
以及同模态对比学习损失
Figure BDA0003554197880000153
进行监督训练的RGB-D对比学习语义分割网络;M5表示本发明的完整方法。
表1
Figure BDA0003554197880000154
通过比较不同模型变体,证明添加本发明提出的完整的对比学习模块(M5)可以有效地提升性能,提高所有指标。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,但并不是用来限制本发明,任何在本发明原则范围内所进行的变动和修改,都应当包含在本发明的保护范围内。

Claims (10)

1.一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,包括如下步骤:
1)采集多个需要进行语义分割的场景的RGB图像及对应的深度图像,由多张RGB图像和对应的深度图像以及各张RGB图像中各个像素的类别构成所需的训练集;
2)将所需的训练集进行分批次处理后,按批次地将RGB图像及其对应的深度图像输入RGB-D对比学习语义分割网络中,RGB-D对比学习语义分割网络由RGB-D语义分割基础网络和对比学习模块构成;RGB-D语义分割基础网络包括RGB分支、深度分支和集成模块,其中RGB分支包括RGB特征编码器和RGB语义分割解码器,深度分支包括深度特征编码器和深度语义分割解码器,RGB图像输入到RGB特征编码器中,RGB特征编码器的输出分别输入RGB语义分割解码器和对比学习模块,深度图像输入到深度特征编码器中,深度特征编码器的输出分别输入深度语义分割解码器和对比学习模块,RGB语义分割解码器和深度语义分割解码器的输出均输入到集成模块中,集成模块的输出作为RGB-D语义分割基础网络;计算RGB-D语义分割基础网络的语义分割损失和对比学习模块的多模态对比损失得到多模态总损失,基于多模态总损失训练RGB-D对比学习语义分割网络,获得训练好的RGB-D对比学习语义分割网络;
3)将待分割的RGB图像及对应的深度图像输入训练好的RGB-D对比学习语义分割网络中的RGB-D语义分割基础网络进行语义分割,获得语义分割结果。
2.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述步骤2)的集成模块对RGB语义分割解码器的输出和深度语义分割解码器的输出进行拼接后输入到第一卷积层中,第一卷积层输出权重矩阵,接着对权重矩阵进行归一化处理,获得归一化权重矩阵并作为RGB分支预测概率的置信度Er,将1与RGB分支预测概率的置信度Er的差值作为深度分支预测概率的置信度1-Er,然后将RGB语义分割解码器的输出与RGB分支预测概率的置信度Er相乘后获得RGB类别分数图,同时将深度语义分割解码器的输出与深度分支预测概率的置信度1-Er相乘后获得深度类别分数图,最后将RGB类别分数图和深度类别分数图相加后获得集成类别分数图,集成类别分数图作为集成模块的输出。
3.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述对比学习模块包括RGB同模态对比学习子模块、深度同模态对比学习子模块和双流向跨模态对比学习子模块;所述步骤2)中RGB特征编码器的输出分别输入RGB同模态对比学习子模块和双流向跨模态对比学习子模块,深度特征编码器的输出分别输入深度同模态对比学习子模块和双流向跨模态对比学习子模块。
4.根据权利要求3所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述RGB同模态对比学习子模块和深度同模态对比学习子模块的结构相同,但是处理对象不同,RGB同模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度同模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB同模态对比学习子模块的输出为RGB同模态锚点样本集合和RGB同模态正负难样本集合,深度同模态对比学习子模块的输出为深度同模态锚点样本集合和深度同模态正负难样本集合;
所述RGB同模态对比学习子模块中通过第一投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB同模态像素特征,接着通过以下步骤对多个RGB同模态像素特征进行样本采样后,获得当前批次RGB图像的RGB同模态锚点样本集合和RGB同模态正负难样本集合,并计算当前批次RGB图像的RGB同模态对比损失:
S1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB同模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB同模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB同模态中心像素特征;
S2:利用语义感知的锚点样本采样方法对当前批次的多个RGB同模态像素特征进行锚点样本选择,获得当前批次的RGB同模态锚点样本集合
Figure FDA0003554197870000021
所述S2具体为:
S2.1:对当前批次的多个RGB同模态像素特征进行像素位置随机采样,采样获得的像素位置作为其中一半锚点;对在RGB语义分割解码器中被错误分类的像素位置采样,采样获得的像素位置作为另一半锚点;
S2.2:提取多个RGB同模态像素特征中S2.1中所有锚点对应的像素特征并作为各个RGB同模态锚点样本,由各个RGB同模态锚点样本构成当前批次的RGB同模态锚点样本集合;
S3:根据当前批次的RGB同模态锚点样本集合,对于每一个RGB同模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB同模态中心像素特征进行正负样本选择,获得当前RGB同模态锚点样本对应的RGB同模态正负难样本集合,并计算当前RGB同模态锚点样本的RGB同模态对比损失;
所述S3具体为:
S3.1:对于每一个RGB同模态锚点样本,在当前批次各个类别下的RGB同模态中心像素特征中,将与当前RGB同模态锚点样本属于同一类别的像素特征作为当前RGB同模态锚点样本的正样本集合,将与当前RGB同模态锚点样本不属于同一类别的像素特征作为当前RGB同模态锚点样本的负样本集合;
S3.2:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB同模态锚点样本的RGB同模态正难样本集合;
S3.3:计算当前RGB同模态锚点样本与当前RGB同模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB同模态锚点样本的RGB同模态负难样本集合;
S3.4:基于S3.2和S3.3所得到的RGB同模态正难样本集合和RGB同模态负难样本集合,通过以下公式计算当前RGB同模态锚点样本的RGB同模态对比损失:
Figure FDA0003554197870000031
其中,
Figure FDA0003554197870000032
表示当前RGB同模态锚点样本的RGB同模态对比损失,ri表示当前RGB同模态锚点样本,
Figure FDA0003554197870000033
Figure FDA0003554197870000034
分别当前表示RGB同模态锚点样本ri的RGB同模态正难样本和RGB同模态负难样本,
Figure FDA0003554197870000035
Figure FDA0003554197870000036
分别表示像素i所在的RGB同模态正难样本集合和RGB同模态负难样本集合,τ表示温度系数,
Figure FDA0003554197870000037
表示计算像素i所在的RGB同模态正难样本集合的大小;
S4:重复S3,遍历当前RGB同模态锚点样本集合中剩余的RGB同模态锚点样本,获得各个RGB同模态锚点样本的RGB同模态正负难样本集合,并计算各个RGB同模态锚点样本的RGB同模态对比损失,将各个RGB同模态锚点样本的RGB同模态对比损失之和作为当前批次RGB图像的RGB同模态对比损失。
5.根据权利要求4所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述深度同模态对比学习子模块中每个深度同模态锚点样本的深度同模态对比损失的计算公式如下:
Figure FDA0003554197870000041
其中,
Figure FDA0003554197870000042
表示当前深度同模态锚点样本的深度同模态对比损失,di表示当前深度同模态锚点样本
Figure FDA0003554197870000043
Figure FDA0003554197870000044
分别表示当前深度同模态锚点样本di的深度正难样本和深度负难样本,
Figure FDA0003554197870000045
Figure FDA0003554197870000046
分别表示像素i所在的深度同模态正难样本集合和深度同模态负难样本集合,τ表示温度系数,
Figure FDA0003554197870000047
表示计算像素i所在的深度同模态正难样本集合的大小。
6.根据权利要求3所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述双流向跨模态对比学习子模块包括RGB跨模态对比学习子模块和深度跨模态对比学习子模块,RGB跨模态对比学习子模块和深度跨模态对比学习子模块的结构相同,但是处理对象不同,RGB跨模态对比学习子模块的输入为RGB特征编码器输出的RGB模态特征,深度跨模态对比学习子模块的输入为深度特征编码器输出的深度模态特征,RGB跨模态对比学习子模块的输出为RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,深度跨模态对比学习子模块的输出为深度跨模态锚点样本集合和深度跨模态正负难样本集合;
所述RGB跨模态对比学习子模块中通过第二投影模块对当前批次RGB图像的RGB模态特征进行投影,获得多个RGB跨模态像素特征,接着通过以下步骤对多个RGB跨模态像素特征进行样本采样后,获得当前批次RGB图像的RGB跨模态锚点样本集合和RGB跨模态正负难样本集合,并计算当前批次RGB图像的RGB跨模态对比损失:
A1:当前批次的各张RGB图像中,对每张RGB图像的多个RGB跨模态像素特征中属于同一类别的像素特征进行池化,获得当前RGB图像的各个类别下的RGB跨模态中心像素特征,遍历当前批次的剩余RGB图像,进行类别像素特征池化,最终获得当前批次各个类别下的RGB跨模态中心像素特征;
A2:对当前批次的多个RGB跨模态像素特征进行随机采样,获得当前批次的RGB跨模态锚点样本集合;
A3:根据当前批次的RGB跨模态锚点样本集合,对于每一个RGB跨模态锚点样本,利用难样本挖掘的正负样本采样方法对当前批次各个类别下的RGB跨模态中心像素特征进行正负样本选择,获得当前RGB跨模态锚点样本对应的RGB跨模态正负难样本集合,并计算当前RGB跨模态锚点样本的RGB跨模态对比损失;
所述A3具体为:
A3.1:对于每一个RGB跨模态锚点样本,在当前批次各个类别下的RGB跨模态中心像素特征中,将与当前RGB跨模态锚点样本属于同一类别的像素特征作为当前RGB跨模态锚点样本的正样本集合,将与当前RGB跨模态锚点样本不属于同一类别的像素特征作为当前RGB跨模态锚点样本的负样本集合;
A3.2:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的正样本集合的各个正样本之间的相似度并对相似度进行升序排列,取相似度位于前10%的正样本作为当前正样本的难样本集合,再从当前正样本集合的难样本集合中随机采样K1个样本作为当前RGB跨模态锚点样本的RGB跨模态正难样本集合;
A3.3:计算当前RGB跨模态锚点样本与当前RGB跨模态锚点样本的负样本集合的各个负样本之间的相似度并对相似度进行降序排列,取相似度位于前10%的负样本作为当前负样本的难样本集合,再从当前负样本集合的难样本集合中随机采样K2个样本作为当前RGB跨模态锚点样本的RGB跨模态负难样本集合;
A3.4:基于A3.2和A3.3所得到的RGB跨模态正难样本集合和RGB跨模态负难样本集合,通过以下公式计算当前RGB跨模态锚点样本的r←d流向跨模态对比损失:
Figure FDA0003554197870000051
其中,
Figure FDA0003554197870000052
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure FDA0003554197870000053
表示当前RGB跨模态锚点样本,
Figure FDA0003554197870000054
Figure FDA0003554197870000055
分别表示当前RGB跨模态锚点样本
Figure FDA0003554197870000056
的RGB跨模态正难样本和RGB跨模态负难样本,
Figure FDA0003554197870000057
Figure FDA0003554197870000058
分别表示像素i所在的RGB跨模正难样本集合和RGB跨模负难样本集合,τ表示温度系数,
Figure FDA00035541978700000619
表示计算像素i所在的RGB跨模正难样本集合的大小;
A4:重复A3,遍历当前RGB跨模态锚点样本集合中剩余的RGB跨模态锚点样本,获得各个RGB跨模态锚点样本的RGB跨模态正负难样本集合,并计算各个RGB跨模态锚点样本的r←d流向跨模态对比损失,将各个RGB跨模态锚点样本的r←d流向跨模态对比损失之和作为当前批次RGB图像的r←d流向跨模态对比损失;
所述深度跨模态对比学习子模块中每个深度跨模态锚点样本的d←r流向跨模态对比损失的计算公式如下:
Figure FDA0003554197870000061
其中,
Figure FDA0003554197870000062
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,d i表示当前深度跨模态锚点样本,
Figure FDA0003554197870000063
Figure FDA0003554197870000064
分别表示深度跨模态锚点样本d i的深度跨模态正难样本和深度跨模态负难样本,
Figure FDA0003554197870000065
Figure FDA0003554197870000066
分别表示像素i所在的深度跨模态正难样本集合和深度跨模态负难样本集合,τ表示温度系数,
Figure FDA0003554197870000067
表示计算像素i所在的深度跨模态正难样本集合的大小。
7.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述的多模态总损失通过以下公式进行计算:
Figure FDA0003554197870000068
其中,
Figure FDA0003554197870000069
表示多模态总损失,
Figure FDA00035541978700000610
表示语义分割损失,
Figure FDA00035541978700000611
表示当前RGB跨模态锚点样本的r←d流向跨模态对比损失,
Figure FDA00035541978700000612
表示当前深度跨模态锚点样本的d←r流向跨模态对比损失,
Figure FDA00035541978700000613
表示当前RGB同模态锚点样本的RGB同模态对比损失,
Figure FDA00035541978700000614
表示当前深度同模态锚点样本的深度同模态对比损失,λ1表示跨模态对比损失平衡权重,λ2表示同模态对比损失平衡权重,
Figure FDA00035541978700000615
表示RGB跨模态锚点样本集合,
Figure FDA00035541978700000616
表示深度跨模态锚点样本集合,
Figure FDA00035541978700000617
表示RGB同模态锚点样本集合,
Figure FDA00035541978700000618
表示深度同模态锚点样本集合。
8.根据权利要求4或6所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,第一投影模块、双流向跨模态对比学习子模块的第二投影模块的结构均相同,第一投影模块主要由第二卷积层、一个批归一化层、一个激活函数层和第三卷积层依次连接组成,第一投影模块的输入输入到第二卷积层,第三卷积层的输出作为第一投影模块的输出。
9.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,所述的语义分割损失采用逐像素交叉熵损失。
10.根据权利要求1所述的一种基于多模态对比学习的RGB-D语义分割方法,其特征在于,将所述步骤1)中采集得到的多张深度图像计算分解成视差-高度-法向量的HHA三通道形式。
CN202210272481.6A 2022-03-18 2022-03-18 一种基于多模态对比学习的rgb-d语义分割方法 Pending CN114612666A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210272481.6A CN114612666A (zh) 2022-03-18 2022-03-18 一种基于多模态对比学习的rgb-d语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210272481.6A CN114612666A (zh) 2022-03-18 2022-03-18 一种基于多模态对比学习的rgb-d语义分割方法

Publications (1)

Publication Number Publication Date
CN114612666A true CN114612666A (zh) 2022-06-10

Family

ID=81865254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210272481.6A Pending CN114612666A (zh) 2022-03-18 2022-03-18 一种基于多模态对比学习的rgb-d语义分割方法

Country Status (1)

Country Link
CN (1) CN114612666A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051830A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 一种面向跨模态数据融合的对比语义分割方法
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051830A (zh) * 2022-12-20 2023-05-02 中国科学院空天信息创新研究院 一种面向跨模态数据融合的对比语义分割方法
CN116051830B (zh) * 2022-12-20 2023-06-20 中国科学院空天信息创新研究院 一种面向跨模态数据融合的对比语义分割方法
CN117456191A (zh) * 2023-12-15 2024-01-26 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法
CN117456191B (zh) * 2023-12-15 2024-03-08 武汉纺织大学 一种基于三分支网络结构的复杂环境下语义分割方法

Similar Documents

Publication Publication Date Title
CN114612666A (zh) 一种基于多模态对比学习的rgb-d语义分割方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN114549439A (zh) 一种基于多模态特征融合的rgb-d图像语义分割方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和系统
CN112069884A (zh) 一种暴力视频分类方法、系统和存储介质
CN112819837B (zh) 一种基于多源异构遥感影像的语义分割方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
WO2023035896A1 (zh) 视频的识别方法、装置、可读介质和电子设备
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
CN113408472A (zh) 目标重识别模型的训练方法、目标重识别方法及装置
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN115049534A (zh) 基于知识蒸馏的鱼眼图像实时语义分割方法
CN116052218B (zh) 一种行人重识别方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN116109920A (zh) 一种基于Transformer的遥感图像建筑物提取方法
CN114612659A (zh) 一种基于融合模态对比学习的电力设备分割方法及系统
CN114463340A (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
CN114332099A (zh) 一种基于多模态对比学习的深度特权语义分割方法
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination