CN116434033A

CN116434033A - 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统

Info

Publication number: CN116434033A
Application number: CN202310268449.5A
Authority: CN
Inventors: 陈浩; 陈梓超
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-14

Abstract

本发明公开了一种面向RGB‑D图像稠密预测任务的跨模态对比学习方法及系统，构建RGB‑D跨模态自监督框架对编码器进行预训练，并将预训练的编码器参数输入下游RGB‑D稠密预测任务的网络模型中，对网络模型进行有监督训练，得到训练后的下游RGB‑D稠密预测任务的网络模型，完成推理输出预测结果；本发明方法克服了数据不足的问题，也填补了RGB‑D跨模态数据的鸿沟，通过本发明的预训练方法能提取多尺度模态特定线索和异质跨模态相关性，从而促进下游任务多模态融合。

Description

面向RGB-D图像稠密预测任务的跨模态对比学习方法及系统

技术领域

本发明属于计算机视觉和自监督对比学习技术领域，尤其涉及RGB-D跨模态语义分割与显著物体检测技术，主要涉及了一种面向RGB-D图像稠密预测任务的跨模态对比学习方法及系统。

背景技术

稠密预测任务是一种给图片的每一个像素都做分类预测的任务，它是一个基础的计算机视觉领域，包括许多视觉任务，例如显著物体检测和语义分割，前者是是捕捉显著性的视觉区域，后者是对图像场景的每个像素进行分类。

近年来，深度传感器的发展为传统的基于RGB的计算机视觉系统带来了额外的稳定几何结构和上下文线索，由此产生的多模态视觉系统具有两种模态的互补性，并且联合推理大大提高了它们的准确性和鲁棒性。鉴于强大的特征学习能力和深度学习工具的巨大成功，人们提出了多种基于卷积神经网络(CNN)的RGB-D稠密预测任务方法，为了充分融合RGB-D对中的多尺度跨模态，许多现有模型通常配备有多种交叉模态交叉级融合路径与模块，这种设计给模型带来了巨大的复杂性，大量的参数往往需要大规模的数据进行训练来保证有效性，这带来了很大的困难，因为收集多模态数据和标注稠密的像素级别标签既费钱又费力。以前的工作通过借用ImageNet预先训练的权重作为所有模态的适当初始化，避免了标记的多模态数据的稀缺性。然而，ImageNet和稠密预测数据集之间的域差距以及RGB和深度之间的模态差距通常会导致有偏差的初始化和随后的子优化。

如今，自监督学习(SSL)的蓬勃发展为直接克服多模态稠密预测中的数据不足问题提供了新的可能。作为SSL中最有希望的方向之一，对比学习(旨在学习图像变换中的不变高级特征)已在多个领域得到广泛应用，并在分类任务方面取得了巨大进展。现有的对比学习方法大多遵循实例识别范式，即将输入转换版本分类为同一源图像。这一理念被广泛继承并适用于多模态数据的跨模态识别，例如语音、视频、文本和RGB-D图像。现有的多模态对比学习解决方案，侧重于学习高级的全局表征，但是提取局部线索以推断细节的能力很小。

发明内容

本发明正是针对现有技术中RGB-D领域标注数据稀缺和RGB-D跨模态鸿沟针对性设计不足的问题，提供一种面向RGB-D图像稠密预测任务的跨模态对比学习方法及系统，构建RGB-D跨模态自监督框架对编码器进行预训练，并将预训练的编码器参数输入下游RGB-D稠密预测任务的网络模型中，对网络模型进行有监督训练，得到训练后的下游RGB-D稠密预测任务的网络模型，完成推理输出预测结果；本发明方法克服了数据不足的问题，也填补了RGB-D跨模态数据的鸿沟，通过本发明的预训练方法能提取多尺度模态特定线索和异质跨模态相关性，从而促进下游任务多模态融合。

为了实现上述目的，本发明采取的技术方案是：面向RGB-D图像稠密预测任务的跨模态对比学习方法，构建RGB-D跨模态自监督框架对编码器进行预训练，并将预训练的编码器参数输入下游RGB-D稠密预测任务的网络模型中，对网络模型进行有监督训练，得到训练后的下游RGB-D稠密预测任务的网络模型，完成推理输出预测结果；

所述RGB-D跨模态自监督框架至少包括局部-全局耦合模块和跨模态训练范式，所述局部-全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失，在预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征；所述跨模态训练范式只使用跨模态一致性作为多模态对比损失。

作为本发明的一种改进，本方法具体包括如下步骤：

S1，数据集获取：获取RGB-D跨模态图像数据集，分别用于RGB-D跨模态自监督框架对编码器进行预训练和下游RGB-D稠密预测任务的网络模型的训练；

S2，编码器选取：采用ResNet50网络结构作为编码器；

S3，构建自监督框架：构建RGB-D跨模态自监督框架对步骤S2选取的编码器进行预训练，所述预训练为下游RGB-D稠密预测任务提供RGB-D领域特定的模型初始化参数；

S4，预测任务的网络模型训练：将步骤S3获得的自监督预训练的编码器参数输入下游RGB-D稠密预测任务的网络模型中，并对该网络模型进行有监督训练；

S5，预测结果输出：根据不同的RGB-D任务，利用步骤S4训练好的下游RGB-D稠密预测任务网络模型完成推理输出预测结果。

作为本发明的一种改进，所述步骤S1的数据集中，采集不同的RGB-D无标注图像数据集作为RGB-D跨模态自监督框架对编码器进行预训练的训练集；利用对应任务的公开有标注数据集作为下游RGB-D稠密预测任务的有监督学习的训练集。

作为本发明的另一种改进，所述步骤S3具体包括：

S31：每一个训练样本图片x会通过两种不同的数据增强操作t′，t″∈Γ进行变换得到x′，x″，从而产生同个样本的不同视角，其中Γ表示数字增强操作随机裁剪拼接，旋转缩放和翻转；

S32：每一对RGB和Depth配对图片都分别同样经过步骤S31的数据增强后输入对应的编码器e_θ与动量编码器e_ξ进行编码：f′＝e_θ(t′(x′))，f″＝e_ξ(t″(x″))，其中f′和f″为编码后生成的特征图；

S33：利用空间感知的局部-全局耦合模块对步骤S32生成的特征图进行特征提取：f通过全局池化层得到全局特征图y，通过两种局部池化层得到局部特征图F₁、F₂，将y，F₁、F₂三个特征图展开成向量，合并向量，使它们成为包含多尺度特征的一维表示y^*＝concat(y，F1，F2)；

S34：利用不同模态生成的一维向量进行跨模态对比学习预训练，总损失函数为跨模态损失函数：

式中，q^r作为RGB模态的锚点样本更新RGB模态编码器参数，q^d作为Depth模态的锚点样本更新Depth模态编码器参数，

与/>

分别为两种模态的负样本池。

作为本发明的另一种改进，所述步骤S32中，e_ξ采用移动平均法进行参数更新，公式定义如下：

其中，ξ为e_ξ的参数集，

为e_θ的参数集。

作为本发明的又一种改进，所述步骤S34中的损失函数为对比损失函数，具体定义如下：

式中，q与k₊互为正样本对，q与k_-互为负样本对，

表示负样本池的负样本向量，τ表示温度系数。

为了实现上述目的，本发明还采取的技术方案是：面向RGB-D图像稠密预测任务的跨模态对比学习系统，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。

与现有技术相比，本发明具有的有益效果：

(1)本发明采用自监督学习的预训练范式，相比有监督学习，自监督学习采用无标注的RGB-D数据集进行预训练，克服了RGB-D稠密预测任务标注难度大，有标注数据稀少的问题。

(2)本发明利用定制的局部-全局耦合对比度损失，充分利用RGB和Depth数据之间的空间对齐和语义一致性来学习多尺度特有表示和跨模态的相关性，高效符合稠密预测任务的特性，有效提高下游任务的精度。

(3)本发明为多模态稠密预测任务量身定制的对比学习框架，在RGB-D显著对象检测和语义分割方面，它大大优于传统的对比学习基准，对局部细节的捕捉能力更佳。

附图说明

图1是本发明方法的步骤流程图；

图2是本发明RGB-D跨模态自监督框架的结构示意图；

图3是本发明实施例1中的下游任务效果图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

面向RGB-D图像稠密预测任务的跨模态对比学习方法，如图1所示，包括以下步骤：

步骤S1：获取RGB-D跨模态图像数据集，分别用于RGB-D跨模态自监督框架对编码器进行预训练和下游RGB-D稠密预测任务的网络模型的训练，针对不同的RGB-D稠密预测视觉任务，采集不同的RGB-D无标注图像数据集作为预训练框架的训练集；针对不同的RGB-D稠密预测视觉任务，利用对应任务的公开有标注数据集作为下游任务的有监督学习的训练集。

本实施例显著物体检测实验包含了10个公开的数据，包括NJU2K，NLPR，STERE，SIP，DES，LFSD，DUT，SSD，REDWEB-S和COME-15K，共25233组RGB-D配对样本作为自监督预训练的数据集；在下游任务阶段，我们使用从NJU2K和NLPR在分别提取1485和700组图像作为本实例的训练集，测试集则是用剩下所有数据集中的测试集。

步骤S2：采用ResNet50网络结构作为编码器。本发明采用MoCo这一对比学习自监督框架作为基线框架，考虑到MoCo框架中的非对称结构，需要设置如图2所示的两个具有相应动量编码器的编码器，分别以RGB和Depth作为锚样本，并且所有编码器设置为ResNet-50。

对比学习旨在学习同类样本变换中的不变高级特征。现有的对比学习方法遵循实例识别范式，并被广泛继承并适用于多模态数据的跨模态识别，但跨模态识别解决方案侧重于学习高级的全局表征，难以达到像素级稠密特征的细节学习要求。本案提出了针对RGB-D稠密预测视觉任务的跨模态对比学习框架，整体结构如图2所示，主要包括两大设计：空间感知的局部-全局耦合模块和跨模态训练范式。

1)空间感知的局部-全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失，促使模型在对比度学习过程中充分利用RGB-D对中的天然的像素配对信息。自监督的预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征。

2)跨模态训练范式是本发明框架的基础，该范式只使用跨模态一致性作为多模态对比损失。与混合对比范式不同，混合对比范式在处理单模态内优化目标和跨模态优化目标之间会存在冲突，本对比学习流程很好地同时兼顾了单模态特征和跨模态相关性。

步骤S3：构建自监督框架：构建RGB-D跨模态自监督框架对步骤S2选取的编码器进行预训练，预训练的过程具体包括：

步骤S31，每一个训练样本图片x会通过两种不同的数据增强操作t′，t″∈Γ进行变换得到x′，x″，从而产生同个样本的不同视角，Γ表示数字增强操作随机裁剪拼接，旋转缩放和翻转；

步骤S32，每一对RGB和Depth配对图片都分别同样经过步骤3.1的数据增强后输入对应的编码器e_θ与动量编码器e_ξ进行编码：f′＝e_θ(t′(x′))，f″＝e_ξ(t″(x″))，其中f′和f″为编码后生成的特征图；

动量编码器e_ξ的参数更新规则与编码器e_θ不同，e_θ由上述的损失函数进行更新，而e_ξ为保持负样本池样本分布的稳定性，采用移动平均法进行参数更新，公式定义如下：

其中，ξ为e_ξ的参数集，

为e_θ的参数集。

步骤S33，利用空间感知的局部-全局耦合模块对步骤S32生成的特征图进行特征提取：f通过全局池化层得到全局特征图y，通过两种局部池化层得到局部特征图F₁、F₂，随后，将y，F₁、F₂三个特征图展开成向量，最后合并这些向量，使它们成为包含多尺度特征的一维表示y^*＝concat(y，F1，F2)；

步骤S34，RGB与Depth模态的编码器需要以自身模态的图片作为锚点样本q来计算损失函数，以更新对应的模态编码器，利用不同模态生成的一维向量进行跨模态对比学习预训练，总损失函数为跨模态损失函数：

与/>

分别为两种模态的负样本池。

损失函数的基本形式为对比损失函数，具体定义如下：

式中，q与k₊互为正样本对，q与k_-互为负样本对，

表示负样本池的负样本向量，τ表示温度系数，用于调整损失函数的影响程度。

本实施例中，预训练框架的参数设置：负样本池样本数

为65536，动量编码器的动量系数m为0.999。本发明的预训练数据集比ImageNet小得多，训练轮数为200轮且单GPU上8个小批次的样本输入，温度超参数τ设置为0.05。

步骤S4：RGB-D显著物体检测任务有监督预训练：提取步骤S3中RGB和Depth的两个编码器的参数分别输入到下游的测试网络的编码器中，作为下游任务的初始化参数。选择现有的RGB-D显著物体检测作为下游网络模型进行有监督训练，训练参数与原下游网络保持一致。

步骤S5：预测结果输出：根据不同的RGB-D任务，利用步骤S4训练好的下游RGB-D稠密预测任务网络模型完成推理输出预测结果。

图3展示了本发明在两种常见稠密检测任务的效果。第一二列为输入的RGB-depth图像对，第三列为显著物体检测和语义分割的真值结果，第四列和第五列分别为基线方法和本发明的结果。如图3所示，基于传统对比学习的“基线模型”由于更加侧重学习全局表征，对局部细节的捕捉能力不够，本发明则在全局定位和捕捉物体细节方面都取得优异效果，并达到了与ImageNet有监督预训练方案相当的性能。

测试例

进行自监督预训练模型性能测试：为验证本发明预训练参数的泛化性，本测试例采用三个已有的优秀的RGB-D显著物体检测下游网络(SPNet、CMINet和CFIDNet)进行性能测试。

用于对比的预训练方式如下：

Random：用随机参数初始化下游的编码器；

MoCo：用本实例的RGB-D数据单独训练每个模态的编码器，并用该参数初始化下游的编码器；

Supervised：使用ImageNet数据有监督预训练的参数初始化下游的主干网络。

RGB-D显著物体检测任务评价指标如下：

MAE指标用于度量预测图与标签图之间的绝对误差，该值越低表明模型越优秀。

S_α＝α*S_o+(1-α)*S_r

S_α是一个比较著名的衡量模型提取图片前景和背景的指标，这对于显著物体检测任务同样适用，作为调节参数通常被设置为0.5。

F_β是常见的综合模型精度与召回率的衡量指标，在显著物体检测任务中，由于更关注预测图的精度，β值会设置成0.3。

E_φ常用来捕捉像素级数据与局部像素的匹配信息，同时Φ_FM是一个增强对齐矩阵。与MAE不同,后面三个指标数值越高表示模型越好。

本发明自监督预训练方法与其他三种初始化策略的定量比较方法的对比结果如下表所示：

上表中可看出，本发明的预训练框架远超过MoCo这个强基线模型，在所有三个下游网络中表现出ImageNet预训练模型水平相当的性能。与此同时，在DES、DUT和COME-E数据集上，使用本发明的框架预训练的CFIDNet在多个指标上优于ImageNet预训练变体。

因而，本发明充分利用RGB-D对中的空间对齐设计我们的RGB-D跨模态自监督框架，这是一个为下游稠密预测任务定制的空间感知多模式对比学习框架。通过精心设计的局部-全局耦合投影模块，模型可以很好地预训练多尺度特征和多种跨模态相关性。大量实验表明，该模型优于其他预训练方法，所提出的跨模态对比学习策略和局部-全局耦合投影的有效性，以及对各种下游多模态稠密预测任务的强大泛化能力。

本发明提供的面向RGB-D稠密预测视觉任务的跨模态对比学习方法可以广泛地为像素级别分割、检测等下游模型提供高性能的预训练参数。具体到工业界中，拥有大量无标注RGB-D图片的企业将可以最大化该对比学习框架的优势，得到符合企业领域需求、超过有监督预训练的模型。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于:构建RGB-D跨模态自监督框架对编码器进行预训练，并将预训练的编码器参数输入下游RGB-D稠密预测任务的网络模型中，对网络模型进行有监督训练，得到训练后的下游RGB-D稠密预测任务的网络模型，完成推理输出预测结果；

2.如权利要求1所述的面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于，具体包括如下步骤：

S2，编码器选取：采用ResNet50网络结构作为编码器；

3.如权利要求2所述的面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于：所述步骤S1的数据集中，采集不同的RGB-D无标注图像数据集作为RGB-D跨模态自监督框架对编码器进行预训练的训练集；利用对应任务的公开有标注数据集作为下游RGB-D稠密预测任务的有监督学习的训练集。

4.如权利要求2或3所述的面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于：所述步骤S3具体包括：

S31：每一个训练样本图片x会通过两种不同的数据增强操作t′,t″∈Γ进行变换得到x′,x″，从而产生同个样本的不同视角，其中Γ表示数字增强操作随机裁剪拼接，旋转缩放和翻转；

S32:每一对RGB和Depth配对图片都分别同样经过步骤S31的数据增强后输入对应的编码器e_θ与动量编码器e_ξ进行编码：f′＝e_θ(t′(x′)),f″＝e_ξ(t″(x″))，其中f′和f″为编码后生成的特征图；

S33:利用空间感知的局部-全局耦合模块对步骤S32生成的特征图进行特征提取：f通过全局池化层得到全局特征图y，通过两种局部池化层得到局部特征图F₁、F₂，将y，F₁、F₂三个特征图展开成向量，合并向量，使它们成为包含多尺度特征的一维表示y^*＝concat(y,F1,F2)；

S34:利用不同模态生成的一维向量进行跨模态对比学习预训练，总损失函数为跨模态损失函数：

与/>

分别为两种模态的负样本池。

5.如权利要求4所述的面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于：所述步骤S32中，e_ξ采用移动平均法进行参数更新，公式定义如下：

ξ＝mξ+(1-m)θ其中，ξ为e_ξ的参数集，θ为e_θ的参数集。

6.如权利要求4所述的面向RGB-D图像稠密预测任务的跨模态对比学习方法，其特征在于，所述步骤S34中的损失函数为对比损失函数，具体定义如下：

式中，q与k₊互为正样本对，q与k_-互为负样本对，

表示负样本池的负样本向量，τ表示温度系数。

7.面向RGB-D图像稠密预测任务的跨模态对比学习系统，包括计算机程序，其特征在于：所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。