CN114693952A

CN114693952A - 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法

Info

Publication number: CN114693952A
Application number: CN202210308520.3A
Authority: CN
Inventors: 夏晨星; 段松松; 黄荣梅; 孙延光; 段秀真; 王晶晶
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-01

Abstract

本发明提供一种基于多模态差异性融合网络的RGB‑D显著性目标检测方法，属于图像显著性检测技术，所述方法利用Swin Transformer提取包含全局上下文信息的RGB和Depth特征，用于给出场景的显著性目标推理。本发明主要通过探索RGB和Depth模态之间的差异性分析显著性在这两个模态的联系和区别，并设计一个差异性融合网络融合跨模态特征用于捕获完整的显著目标。本发明包括以下几个步骤：(1)采用Swin Transformer提取跨模态特征；(2)使用双向融合方式融合RGB和Depth特征生成Fusion流；(3)使用三流差异性监督机制获取模态之间差异性；(4)利用该差异性融合跨模态特征；(5)使用目级联聚合解码器对融合的跨模态特征进行显著性的推理和解码，生成预测的显著性图。

Description

一种基于多模态差异性融合网络的RGB-D显著性目标检测方法

技术领域：

本发明涉及计算机视觉和图像处理领域，特别地涉及一种基于多模态差异性融合网络的RGB-D显著性目标检测方法。

背景技术：

随着信息技术的发展和进步，以及日常生活中的多媒体数据量(图片、文本、音频、视频等)的爆炸式增长，促进了图像处理技术的蓬勃发展。显著性目标检测技术作为图像处理领域的一个非常重要的技术，主要分析图像中的最引人注意的目标或者区域，并自动将显著目标从背景中分离。作为最基础的密度预测任务之一，其被广泛应用在许多其他的下有任务，例如图像检索、语义分割、视觉跟踪、基于内容的图像编辑和机器人导航等。此外，显著性目标检测也被广泛应用在许多社交媒体的分析和采集过程中，例如手机拍照技术中的强调人像，背景虚化等技术应用。

早期的显著性目标检测方法大多是针对RGB图像，并且能够取得令人满意的结果。通常，现实的RGB场景更多是包含一些具有挑战性的场景，比如低对比度，多目标，透明物体，复杂背景等，面对这些挑战性场景，基于RGB显著性目标检测很难准确有效地检测出显著目标并完整地分割出来。面对这一问题，深度图像(Depth map)被使用到显著性检测领域。通过利用Depth map中的空间信息和3D布局等信息去提供补充线索，从而帮助显著性目标检测方法有效地处理这些挑战性场景，这种技术被称为RGB-D显著性目标检测。

随着深度采集设备(比如Microsoft Kinect，Huawei Mate 30，iPhone XR等)的普及，深度信息能够使用较低的代价获取。这种现象也加速了RGB-D显著性检测的蓬勃发展。目前，大多数的RGB-D显著性目标检测方法通过整合RGB特征和Depth特征获取增益信息去提升显著性检测的性能。但是，这些方法大多是利用无差别地融合方式去整合RGB特征和Depth特征，这种做法将RGB信息和Depth信息视为同等地位。但是，人类视觉机制是作用于RGB场景中，那么很显然是RGB所起到的作用和Depth map是有差别的。

针对上述所提出的问题，本发明设计一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，利用RGB模态和Depth模态之间的差异性分析给出场景的显著性目标。利用这种模态之间的差异性分别优化RGB流和Depth流的显著性推理过程，最后，通过融合RGB和Depth模态之间的差异性，得出最终的显著性结果。具体地，本发明设计一个三流的差异性监督机制，通过RGB流，Depth流和融合流分别进行显著性和边缘的推理，并通过整合这些推理结果实施跨模态的差异性融合。

发明内容:

针对以上提出的问题，本发明提供一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，具体采用的技术方案如下：

1.获取并整理用于训练和测试的RGB-D数据集。

1.1)对获取到的RGB-D数据集(DUT-RGB数据集，NJU2K数据集，NLPR数据集，LFSD数据集，RGBD135数据集)进行归纳整理，并将单个样本分为RGB图像P_RGB，深度图像P_depth，人工标注的显著目标分割图像S_GT和人工标注的显著目标边缘分割图像E_GT。

1.2)将收集到的RGB-D数据集划分为训练集和测试集。其中训练集是由DUT数据集中的800样本，NJU2K数据集中的1400样本和NLPR数据集中的650样本构成的2985个样本集。上述五个数据集的剩余样本作为测试集。

2.本发明利用深度学习中的SwinTransformer网络作为本发明的主干网络用于提取RGB和Depth特征。

2.1分别构建两个基于SwinTransformer的编码器提取RGB特征和Depth特征，其中，Swin Transformer编码器由四个基本的Swin Transformerblock组成，其定义如下所示：

S＝MLP(LN(W_m(LN(F_f))+F_f))+W_m(LN(F_f))+F_f 公式(1)

ST＝MLP(LN(W_s(LN(S))+S))+W_s(LN(S))+S 公式(2)

其中，MLP表示多层感知机，LN表示层次化归一，W_m代表多头自注意力机制，W_s表示基于转换窗口自注意力机制。

2.2基于步骤2.1，可以得到RGB和Depth编码器的输出，分别记作，RGB特征

和Depth特征

3.基于步骤2所生成的RGB和Depth特征，本发明设计一个跨模态双向融合模块(Bi-directional FusionModule，BFM)用于初步融合跨模态的特征，为下一阶段的三流差异性监督机制做好准备。

3.1首先，使用一个3×3卷积操作用于增强感受野信息，然后利用交叉相乘方式得到两个跨模态的特征，分别用于增强RGB和Depth特征，定义如下：

其中，α∈{r，d}，i∈{1，2，3，4}表示特征在编码器中所处的层次，Sigmoid表示sigmoid激活函数。由此，经过增强后的RGB特征

和Depth特征

能够被生成。

3.2将步骤3.1所生成的增强RGB特征

和Depth特征

通过连接操作进行融合，该操作如下所述：

其中，cat表示连接操作，BCov表示卷积操作和批量归一化(Batch Normal。

4.本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为，三个分支，分别表示为RGB分支，Depth分支，以及Fusion分支。

4.1基于步骤2中的SwinTransformer所生成的RGB特征

构建三流差异性监督机制中的RGB分支，并采用本发明提出的级联聚合解码器预测显著性图。在RGB特征输入到CAD之前，本发明利用ASPP技术强化RGB特征的感受野，增强RGB特征的全局信息。并使用显著目标分割图S_GT进行监督学习。RGB分支的操作描述如下所示：

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.2基于步骤2中的Swin Transformer所生成的Depth特征

构建三流差异性监督机制中的Depth分支，并采用本发明提出的级联聚合解码器预测显著性图。在Depth特征输入到级联聚合解码器之前，本发明利用ASPP技术强化Depth特征的感受野，增强Depth特征的全局信息。并使用显著目标分割图S_GT进行监督学习。Depth分支的操作描述如下所示：

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.3基于步骤3所生成的跨模态融合特征

使用获取到的四个融合特征，构建Fusion分支，并使用显著目标边缘分割图像进行监督学习。利用级联聚合解码器整合四个尺度特征，预测显著目标边缘图。Fusion分支定义如下：

5.基于步骤4所述的三流差异性监督机制所成的RGB显著性预测图

和Depth显著性预测图

和预测的显著目标分割图

本发明设计一个差异性监督模块，利用

和

融合RGB特征和Depth特征。

5.1利用交互式方法分别约束RGB特征和Depth特征，具体而言，使用

约束Depth特征，使用

约束RGB特征，然后利用

约束融合特征。

其过程如下：

5.2基于步骤5.1所获得三流增强特征(RGB增强特征，Depth增强特征，以及Fusion增强特征)，利用通道注意力机制提升通道维度的关联程度，最后，利用连接操作得到最后的差异性融合特征，定义如下：

其中，CA表示通道注意力机制，F_i表示差异性融合特征。

6.基于步骤4和步骤5，本发明设计一个级联聚合解码器结构用于显著性推理。并将该级联聚合解码器结构嵌入三流差异性监督机制和最后的显著性结果预测。

6.1级联聚合解码器采用自顶向下方式逐级聚合多尺度特征，并通过空间注意机制生成注意力掩码图用于增强下一级特征，其定义如下：

F₃＝UP(F₄)+F₃×SA(F₄) 公式(11)

其中，UP表示上采样操作，SA表示空间注意力机制。

6.2重复上述步骤6.1操作，可以得到最到级联聚合解码器的第二层特征，第一层特征，最后，利用sigmoid激活函数用于级联聚合解码器的对底层特征，得到最终的预测S^pre。

7)通过本发明预测出来的显著图S^pre与人工标注的显著目标分割图S_GT进行损失函数的计算，并通过Adam优化器和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性目标检测算法的结构和参数权重。

8)在步骤2-6确定模型的结构和参数权重的基础上，对步骤1所涉及到的测试集上的RGB-D图像对进行测试，生成显著图，并使用MAE、S-measure、F-measure、E-measure评价指标进行评估。

本发明基于Swin Transformer网络实施的RGB和Depth多模态显著性目标检测。主要从多模态数据之间的差异性角度出发，提出一种新颖的基于多模态差异性融合网络的RGB-D显著性目标检测方法。该方法通过分别从RGB分支，Depth分支和Fusion分支预测不同模态对于显著性的理解和推理，并通过提出的多模态差异性融合模块整合多模态的差异性。相比较之前的RGB-D显著性目标检测方法，本发明具有以下收益：

(1)本发明采用SwinTransformer作为编码器提取RGB和Depth特征，基于SwinTransformer的多模态特征能够提取到全局上下文依赖关系。(2)本发明设计一个三流差异性监督机制，分别用于感知RGB模态和Depth模态对于显著性表达方面的存在的差异。(3)本发明设计一个多模态差异性融合模块，用于融合RGB和Depth模态之间的差异性，达到相互增强的效果。

附图说明

图1表示本发明的总体结构示意图

图2表示本发明提出的双向融合模块示意图

图3表示本发明提出的多模态差异性融合模块

图4表示本发明提出的级联聚合解码器

图5表示本发明与其他RGB-D显著性目标检测方法的结果对比图

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，此外，所叙述的实例仅仅是本发明一部分实例，而不是所有的实例。基于本发明中的实例，本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例，都属于本发明保护范围。

参考附图1，一种基于多模态差异性融合网络的RGB-D显著性目标检测方法主要包含以下步骤：

1.获取并整理用于训练和测试的RGB-D数据集。

S＝MLP(LN(W_m(LN(F_f))+F_f))+W_m(LN(F_f))+F_f 公式(1)

ST＝MLP(LN(W_s(LN(S))+S))+W_s(LN(S))+S 公式(2)

和Depth特征

3.基于步骤2所生成的RGB和Depth特征，本发明设计一个跨模态双向融合模块(Bi-directional Fusion Module，BFM)用于初步融合跨模态的特征，为下一阶段的三流差异性监督机制做好准备。

和Depth特征

能够被生成。

3.2将步骤3.1所生成的增强RGB特征

和Depth特征

通过连接操作进行融合，该操作如下所述：

4.1基于步骤2中的Swin Transformer所生成的RGB特征

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.2基于步骤2中的Swin Transformer所生成的Depth特征

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.3基于步骤3所生成的跨模态融合特征

和Depth显著性预测图

和预测的显著目标分割图

本发明设计一个差异性监督模块，利用

和

融合RGB特征和Depth特征。

约束Depth特征，使用

约束RGB特征，然后利用

约束融合特征。

其过程如下：

其中，CA表示通道注意力机制，F_i表示差异性融合特征。

F₃＝UP(F₄)+F₃×SA(F₄) 公式(11)

其中，UP表示上采样操作，SA表示空间注意力机制。

以上所述为本申请优选实施而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围内。

Claims

1.一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于，包括基于Swin Transformer双流解码器的构建，跨模态的三流差异性监督机制，跨模态特征差异性融合模块以及级联聚合解码器。

2.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于本发明利用深度学习中的Swin Transformer网络作为本发明的主干网络用于提取RGB和Depth特征。

2.1分别构建两个基于Swin Transformer的编码器提取RGB特征和Depth特征，其中，Swin Transformer编码器由四个基本的Swin Transformer block组成，其定义如下所示：

S＝MLP(LN(W_m(LN(F_f))+F_f))+W_m(LN(F_f))+F_f 公式(1)

ST＝MLP(LN(W_s(LN(S))+S))+W_s(LN(S))+S 公式(2)

和Depth特征

3.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于，本发明设计一个跨模态双向融合模块(Bi-directional Fusion Module，BFM)用于初步融合跨模态的特征，为下一阶段的三流差异性监督机制做好准备。

和Depth特征

能够被生成。

3.2将步骤3.1所生成的增强RGB特征

和Depth特征

通过连接操作进行融合，该操作如下所述：

4.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于本发明所提出的三流差异性监督机制用于实现多模态之间的差异性融合。具体可以表示为，三个分支，分别表示为RGB分支，Depth分支，以及Fusion分支。

4.1基于步骤2中的Swin Transformer所生成的RGB特征

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.2基于步骤2中的Swin Transformer所生成的Depth特征

其中，CAD表示级联聚合解码器，A表示ASPP技术，

表示RGB分支预测出的显著性图。

4.3基于步骤3所生成的跨模态融合特征

5.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于，基于步骤4所述的三流差异性监督机制所成的RGB显著性预测图

和Depth显著性预测图

和预测的显著目标分割图

本发明设计一个差异性监督模块，利用

和

融合RGB特征和Depth特征。

约束Depth特征，使用

约束RGB特征，然后利用

约束融合特征。

其过程如下：

其中，CA表示通道注意力机制，F_i表示差异性融合特征。

6.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于，基于步骤4和步骤5，本发明设计一个级联聚合解码器结构用于显著性推理。并将该级联聚合解码器结构嵌入三流差异性监督机制和最后的显著性结果预测。

F₃＝UP(F₄)+F₃×SA(F₄) 公式(11)

其中，UP表示上采样操作，SA表示空间注意力机制。

7.根据权利要求1所述一种基于多模态差异性融合网络的RGB-D显著性目标检测方法，其特征在于，通过本发明预测出来的显著图S^pre与人工标注的显著目标分割图S_GT进行损失函数的计算，并通过Adam优化器和反向传播算法逐步更新本发明提出的模型的参数权重，最终确定RGB-D显著性目标检测算法的结构和参数权重。