CN116206132A

CN116206132A - 一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统

Info

Publication number: CN116206132A
Application number: CN202310273383.9A
Authority: CN
Inventors: 刘冰; 高丽娜; 付平; 王树炎; 孙杉; 周惊涛; 付杰; 闫铮; 吴雨桐; 熊伟; 薛健
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-02

Abstract

本发明提出一种基于动态稀疏标记的Transformer架构的RGB‑D视觉显著性物体检测方法及系统。所述方法可解决简单标记RGB‑D图像引起的特征丰富度受限问题及计算效率低下的问题，并显式地提取全局上下文多模态依赖关系。此外，本发明深入研究了跨模态的差异性和一致性以集成不同阶段的多模态特征，最终生成高分辨率的显著性检测区域，进一步提升RGB‑D显著性物体检测性能。

Description

一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统

技术领域

本发明属于物体检测技术领域，具体涉及非对称Transformer架构设计，动态稀疏标记模块，交互式多样性融合模块和多级集成解码器的设计，特别是涉及一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统。

背景技术

随着深度传感器(如Lytro Illum和Microsoft Kinect)和一些现代智能手机(如华为Mate10和iPhoneX)的普及和应用，获取深度图变得更加容易。受益于深度图的不敏感性，随着环境或颜色的变化，RGB-D SOD方法取得了显著的性能提升，并被广泛应用于不同领域，包括目标跟踪和伪装物体检测。RGB-D显著物体检测(SOD)侧重于使用深度信息来增强稳定的几何结构和额外的补充细节，以应对具有挑战性的场景，例如低对比度场景和显著物体的形状复杂性等。目前，RGB-D SOD方法通常分为传统的RGB-DSOD模型和基于卷积神经网络(Convolutional neural network,CNN)的RGBD SOD方法。传统方法侧重于探索手工外观特征和深度细节，而代表性较差的手工特征限制了显著性预测性能。与手工制作的特征限制性能提升不同，基于CNN的RGB-D SOD方法已经实现了很好的显著性检测性能。随着深度学习在计算机视觉领域的快速发展，2017年，基于CNN的RGB-D显著性对象检测研究也引起了学者们的深入研究。基于CNN的RGB-D显著性检测模型比传统模型具有更强大的判别特征表示能力。2017年,首个基于深度学习的RGB-D显著性检测模型被提出，简称为DF，大幅度提升了RGB-D显著性检测性能。在后续的工作中，研究人员提出了许多基于深度学习的RGB-D SOD模型。例如，赵等使用深度图来指导同一分支中的RGB和深度之间的跨模态融合，这使得特征解码器能够以最佳方式执行。Liu等人提出了一个单流循环卷积神经网络，将RGB-D四个通道输入到VGG-16网络中。范等人输入RGB和深度图由三个并行子网络处理，这些子网络基于相同的修改结构。张等人设计了一个非对称双流架构来提取全局和局部信息，它有四个细节转移分支，每个分支探索来自其他垂直平行分支的细节线索。冀等人设计了一个多尺度循环注意力网络来充分提取和融合多模态特征。范等人提出了一种教师学生学习架构，以利用跨模态特征并使用高级特征改进低级特征。尽管上述RGB-D SOD方法获得了显著的性能提升并考虑了跨层多模态特征，但由于CNN通过局部滑动窗口操作提取特征的固有限制，这些方法仍然存在全局上下文依赖关系丢失的问题。这是由于基于CNN的显著性检测模型存在的固有缺陷生成的显著性检测结果边界模糊，完整性差，尤其在一些具有挑战性的场景中，如显著性物体形状复杂，背景杂乱及多显著性物体场景。为了探索全局线索，已有的基于CNN的RGB-D SOD模型侧重于通过更深的网络层探索全局细节和全局对比度，增加全局池化层，或设计跨级细化模块。例如，任等人提出了归一化深度先验和全局上下文先验，并设计了一种双阶段RGB-D显著性预测方法来预测显著性结果。周等人设计了一个渐进式多模态融合框架来探索全局细节并融合跨级多模态特征。这些工作证明了全局上下文关系和深度先验信息是显著性物体检测任务的重要特征细节。但由于CNN的感受野结构没有改变，仍会丢失一些必要的全局特征。

最近，自然语言处理(Natural Language Processing，NLP)领域Transformer架构可以通过自注意力机制对整个标记序列构建全局依赖关系并取得巨大的性能提升。受Transformer在NLP领域的成功经验启发，研究人员试图在视觉显著性物体检测领域通过将图像转换为标记序列从而利用Transformer架构实现对全局依赖关系的提取。2021年，首个基于Transformer的视觉显著性物体检测网络被提出，简称VST，该模型引入了显著性token和边界token，然后使用反向的(token to token，T2T)T2T模块对token块进行上采样获得显著性检测结果。姚等人提出了一个统一的显著性检测网络，通过合并transformer和CNN框架来提取全局语义特征。尽管许多基于transformer的RGB-DSOD模型已经证明transformer框架可以在显著目标检测方面取得有前途的性能，但已有的RGB-D SOD方法仍然存在挑战，即无法从更少的标记中捕获丰富的多模态特征。可以观察到显著区域和背景具有相似的外观或背景噪声是令人不安的，错误的外观线索和背景干扰可能会极大地污染SwinNet和VST模型最终的显著性预测的结果。

最近，已有研究也证明了Vision transformer中的最终预测结果是基于信息量最大的子集，如果删除大部分标记，这不会损害性能。受此启发，假设一种新颖的用于RGB-DSOD任务的动态稀疏标记的Transformer架构是可行的。该架构可以动态稀疏标记并以显式的方式根据RGB-D数据信息量最大的标记提取全局-局部多模态特征。考虑到显著性检测任务需要相对较高的信息密度，如果使用随机掩码稀疏标记化会对显著性预测产生负面影响。因此，与随机掩码稀疏标记方式不同，设计了一个非对称编码器-解码器视觉Transformer框架(命名为：TSVT)。TSVT可以自适应地从每对RGB-D数据中捕获空间权重，并选择信息量最大的标记子集，准确的定位将有助于准确地预测显著性物体。与现有的基于transformer的RGB-D SOD模型不同，TSVT可以在不牺牲显著目标预测性能的情况下，用更少的标记准确定位显著目标位置并降低计算成本。

VST模型可适配RGB和RGB-D的视觉显著性物体检测任务，但针对RGB-D多模态间的交互融合研究不足。尽管刘等人设计三个Transformer编码器的网络去探索全局上下文信息，与此相对应的包含三个解码器来实现多模态特征融合。朱等人提出了一种基于Transformer的协同融合网络来实现RGB-D视觉显著性检测任务，简称为ACDNet。此外，目前基于Transformer的网络模型均忽略了RGB-D显著性物体检测任务中RGB图像和深度图像间的差异性，且采用固定尺寸处理多模态图像将导致网络不能自适应感知图像中的重要区域，冗余特征增多在复杂场景下难以保证检测精度。因此，如何高效地利用Transformer架构实现动态标记化多模态图像，并充分利用多模态图像的空间结构信息和对全局线索的提取的研究具有重要研究意义。

此外，融合跨模态特征也是RGB-D SOD的一个重要课题，而现有方法通常在加法或连接操作中通过多尺度融合来融合外观特征和深度特征。例如，李等人设计了一个跨模态加权模型来集成多模态交互，包括三个具有多尺度的跨级加权模块，以逐步细化显著对象。然而，由于冗余融合策略难以完全自适应地建模交互，因此这些融合方式往往无法在具有挑战性的场景中达到预期的性能，如何同时考虑两种模态的差异和一致性，设计一种交互式多样性融合模块(IDFM)来自适应地对交互进行建模仍是一个重要研究课题。

发明内容

本发明目的是为了解决现有技术中的问题，提出了一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统。

本发明是通过以下技术方案实现的，本发明提出一种基于动态稀疏标记的Trans-former架构的RGB-D视觉显著性物体检测方法，所述方法包括：

步骤一、采用软分离展开操作以初始化标记序列，然后将初始化标记序列输入到N₁层transformer以获取初始多模态全局依赖关系；

步骤二、利用动态稀疏标记编码器对不同场景自适应调整标记；

步骤三、对不同阶段获取的多模态特征标记序列进行交互式多样性融合，从而获得不同尺度的多模态特征标记序列；

步骤四、将不同阶段获取的多模态特征标记序列输入到多级集成解码器中，以逐步聚合粗尺度和细尺度的多模态特征生成显著性结果。

进一步地，所述动态稀疏标记编码器的特征提取过程包括如下五个步骤：

步骤1：以RGB分支为基础，制定一个标记函数生成空间权重，并将空间权重作为掩码以稀疏标记，具体定义如下：

其中，DST代表稀疏标记函数，i表示第i^th个标记，用于学习i^th外观标记中像素的信息对以生成空间权重图；

代表通过三层卷积计算后使用GELU激活函数生成的逐像素空间权重，/>

是空间H×W×1的空间权重图，P(·)和λ(·)分别代表空间全局池化和广播函数，/>

代表逐像素乘法操作；

步骤2：对于深度分支，动态稀疏令牌操作过程与RGB分支相同，编码器通过添加位置嵌入的线性投影嵌入显著性标记，然后通过一系列Transformer层处理多模态标记；

步骤3：RGB分支和深度分支生成与相应模态信息最丰富的多模态标记，考虑到外观标记和深度标记的重要性不同，在编码器中设计了一个交互式多样性融合模块以获得所需的多模态标记，具体包括一个一致性融合流和一个差异融合流，其中通过融合外观标记和深度标记来获得高致信度的融合特征C_fea，定义如下：

其中，n＝1,2代表第n^th阶段；

步骤4：为了增强外观信息

和深度细节/>

以获得增强的一致性多模态融合特征C′_fea，具体公式可定义为：

其中，

代表逐元素求和计算；

步骤5：为了进一步融合两种模态的互补特征，提出的交互式多样性融合模块的差异融合流记为D_fea，具体定义如下：

/>

其中，

代表逐元素减法；最后，通过融合后的图像块序列/>

融合一致性融合流标记和差异融合流标记从而获得多模态交互融合后的标记。

进一步地，所述多级集成解码器是由三个子解码器组成，以逐步聚合粗尺度和细尺度的多模态特征；多级集成解码器过程包括如下七个步骤：

步骤1：首先，

和T_f'需要恢复到默认的完整标记序列，然后将两个阶段的完整标记序列通过线性投影连接起来，并将它们作为第一个子解码器以获得/>

定义如下：

其中，

步骤2：引入floding操作以逐步扩展和隐藏标记恢复显著结果，1^st子解码器通过自注意力对带有显著性标记的

进行解码，其表示为：

其中，

步骤3：通过1^st个初始显著性结果S₁，定义如下：

S_i＝MLP(Dec_i)+Dec_i

式中，

步骤4：进一步解码多模态标记以获得第二个解码结果

定义如下：

其中，

Dec₂由步骤2中公式计算；

步骤5：第二个中间显著性预测结果S₂由步骤3中公式计算，其中

步骤6：聚合不同阶段的多模态特征，最终的显著性预测结果S_res可表示为：

S_res＝SA(MLP(Dec₂))

其中，Dec₂采用核大小k＝7，填充大小p＝2，和步长s＝4的folding操作计算，其中S_res＝H×W×1；

步骤7：最后，为了获得优异的显著性物体检测性能，采用多监督的方式去快速收敛和训练提出的模型，模型的整体损失计算如下：

其中，N＝2，L_n表示两个初始显著性检测结果，L_res代表最终的显著性结果损失。

本发明还提出一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测系统，所述系统包括动态稀疏标记编码器、交互式多样性融合模块和多级集成解码器；

所述动态稀疏标记编码器，用于分别对RGB分支和深度分支进行动态标记稀疏权重计算，以生成一个稀疏标记掩码，从而降低标记冗余，获得一个包含最具信息量的标记子集；

所述交互式多样性融合模块，同时考虑多模态特征的一致性和差异性，用于对不同阶段获取的多模态特征标记序列进行交互式多样性融合，从而获得不同尺度的多模态特征标记序列；

所述多级集成解码器，用于逐步聚合粗尺度和细尺度的多模态特征生成显著性结果。

进一步地，所述动态稀疏标记编码器具体操作流程为：

首先，对获取到的初始多模态标记序列逐像素的信息对生成空间权重；

然后，通过将空间权重作为掩码以稀疏标记序列，并经过线性投影嵌入显著性标记；

最后，在经过N₂层Transformer进一步构建全局依赖关系。

进一步地，所述交互式多样性融合模块具体操作流程为：

首先，采用双流融合设计，同时获取一致性融合标记，和差异性融合标记，以进一步增强两种模态间的相关性和互补性；

最后，通过拼接操作获得最终的多模态融合特征，在编码器阶段，通过对不同阶段的多模态标记进行融合，从而保留了不同尺度的全局细节。

进一步地，所述多级集成解码器的具体操作流程为：

首先，输入最后两阶段的多模态标记序列并嵌入显著性位置到子解码器1以生成第一个中间显著性预测结果；

然后，为了保留更多的浅层多模态特征，逐步聚合了初始的多模态融合后的标记序列，以生成中间显著性预测结果2；

通过子解码器3进一步恢复高分辨率的显著性预测结果，以生成最终的显著性图；

最后，每个子解码器的输出都采用不同尺度的显著性真值进行监督模型，从而快速收敛和训练模型。

本发明的有益效果为：

本发明提出的一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法可解决简单标记RGB-D图像引起的特征丰富度受限问题及计算效率低下的问题，并显式地提取全局上下文多模态依赖关系。此外，本发明深入研究了跨模态的差异性和一致性以集成不同阶段的多模态特征，最终生成高分辨率的显著性检测区域，进一步提升RGB-D显著性物体检测性能。

附图说明

图1为9个测试数据集上四个评价指标定量评估表(E_ξ、S_α、F_β和MAE)示意图。

图2为三个数据集上不同的RGB-D显著性检测模型PR曲线对比图。

图3为15个SOTA方法的可视化对比示例图(COME15K数据集)。

图4为本发明所述物体检测方法总体设计图。

图5为动态稀疏标记编码器结构示意图。

图6为交互式多样性融合模块结构示意图。

图7为多级集成解码器结构示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所述的一种基于动态稀疏标记的Transformer架构是一种非对称编-解码器双流Transformer架构以显式的方式提取全局上下文信息，该网络可以构建有利于RGB-D图像显著性物体检测的远程依赖关系，以弥补CNN网络架构在探索全局上下文信息时的不足。不同于采用固定尺寸划分Token作为输入的ViT架构，采用k×k尺寸的过滤窗，重叠步长为s，填充率为p的展开操作进行渐进地将输入图像转换成若干个图像块，并组成一个标记序列。受T2T模块成功的启发，采用软分离展开操作是可以避免固定尺寸分割图像块对图像造成的信息损失，并可以一定程度上增强图像块间的信息交互。其中，初始的多模态图像标记序列可表示为

和/>

然后，采用N₁＝4个Tansformer层来获得多模态全局关系/>

和/>

定义如下：

其中，MLP和MSA分别表示层归一化的多层感知器和标准视觉Transformer中的多头自注意力机制。

在具有挑战性的场景中，显著物体和背景的相似外观或背景干扰可能会极大地误导最终预测结果。而已有的transformer模型一般对完整RGB数据和深度图进行全局信息提取导致包含冗余的多模态细节。因此，为了解决上述问题，提出动态稀疏标记的Transformer架构(token sparsification vision transformer,TSVT)的一个重要特征就是专门设计了一个动态稀疏令牌模块(dynamic sparse tokens module,DSTM)来准确合理地选择子集token，

和/>

计算方式如下：

其中，DST是从完整标记序列中自适应地选择富含信息的子集函数。获得了RGB图像和深度图像的全局上下文特征和局部细节后，本发明提出一种差异一致性融合模块，从而保留模态间的相关性和差异性，融合后的图像块序列

定义为:

其中，n代表图像块数目，Cat是拼接操作，C'_fea和D'_fea分别代表多模态特征间的差异特征和一致特征。然后，将融合后的

进一步送入N₂层Transformer层中进行全局信息探索，融合后的T_f'定义如下：

式中，s_t代表显著性标记位置嵌入。

结合图1-图7，本发明提出一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法，所述方法包括：

步骤二、为了减少过多标记的冗余，增强模型的泛化能力，利用动态稀疏标记编码器对不同场景自适应调整标记；

步骤三、为了保留模态间的相关性和差异性，对不同阶段获取的多模态特征标记序列进行交互式多样性融合，从而获得不同尺度的多模态特征标记序列；

步骤四、为了降低计算成本并在复杂场景中产生更稳健的显著性检测结果，设计了比本发明提出的编码器更窄和更浅的多级集成解码器，通过这种非对称的设计，本发明提出的模型显著地降低了预训练成本。将不同阶段获取的多模态特征标记序列输入到多级集成解码器中，以逐步聚合粗尺度和细尺度的多模态特征生成显著性结果。

所述动态稀疏标记编码器的特征提取过程包括如下五个步骤：

步骤1：受视频识别领域Tokenlearner的成功启发，Tokenlearner可针对不同场景自适应调整标记，以减少过多标记的冗余，增强模型的泛化能力。以RGB分支为基础，制定一个标记函数生成空间权重，并将空间权重作为掩码以稀疏标记，具体定义如下：

代表逐像素乘法操作；

其中，n＝1,2代表第n^th阶段；

步骤4：为了增强外观信息

和深度细节/>

以获得增强的一致性多模态融合特征C'_fea，具体公式可定义为：/>

其中，

代表逐元素求和计算；

其中，

代表逐元素减法；最后，通过融合后的图像块序列/>

为了降低计算成本并在复杂场景中产生更稳健的显著性检测结果，设计了比编码器更窄和更浅的多级集成解码器，通过这种非对称的设计，本发明提出的模型显著地降低了预训练成本。所述多级集成解码器是由三个子解码器组成，以逐步聚合粗尺度和细尺度的多模态特征；多级集成解码器过程包括如下七个步骤：

步骤1：首先，

定义如下：

其中，

步骤2：考虑到显著性检测任务是一个密集和高分辨率的预测任务，多模态标记不直接预测显著性结果。因此，引入floding操作以逐步扩展和隐藏标记恢复显著结果，1^st子解码器通过自注意力对带有显著性标记的

进行解码，其表示为：

其中，

步骤3：通过1^st个初始显著性结果S₁，定义如下：

S_i＝MLP(Dec_i)+Dec_i

式中，

步骤4：进一步解码多模态标记以获得第二个解码结果

定义如下：

其中，

Dec₂由步骤2中公式计算；

步骤6：为了进一步细化显著性检测结果，聚合不同阶段的多模态特征，最终的显著性预测结果S_res可表示为：

S_res＝SA(MLP(Dec₂))

所述动态稀疏标记编码器，为了实现不同场景标记的自适应调整，以减少过多标记的冗余，增强模型的泛化能力。受视频识别领域tokenlearner的成功启发，分别对RGB分支和深度分支进行动态标记稀疏权重计算，以生成一个稀疏标记掩码，从而降低标记冗余，获得一个包含最具信息量的标记子集；

所述交互式多样性融合模块，考虑到RGB标记和深度标记包含的多模态信息不同，而已有的RGB-D视觉显著性物体检测模型大多仅考虑了两种模态间的一致性融合，忽略了模态间的差异性，本发明同时考虑多模态特征的一致性和差异性，用于对不同阶段获取的多模态特征标记序列进行交互式多样性融合，从而获得不同尺度的多模态特征标记序列；

所述多级集成解码器，为了降低计算成本，提高模型在复杂场景中的稳健显著性预测结果，本发明设计了一个比编码器更窄，更浅的多级集成解码器。通过这种非对称的设计，可以显著地降低预训练的成本。解码器用于逐步聚合粗尺度和细尺度的多模态特征生成显著性结果。

如图5所示，所述动态稀疏标记编码器具体操作流程为：

最后，在经过N₂层Transformer进一步构建全局依赖关系。

如图6所示，所述交互式多样性融合模块具体操作流程为：

如图7所示，所述多级集成解码器的具体操作流程为：

本发明提出的一种基于动态稀疏标记的Transformer架构的RGB-D显著性物体检测方法可以弥补基于卷积神经网络的RGB-D显著性物体检测方法仅采用局部滑动窗口操作提取多模态特征的局限性，充分利用多模态全局信息，提升RGB-D显著性物体检测性能。

为了综合评价提出的动态稀疏标记Transformer架构的RGB-D视觉显著性检测的性能，本发明与当前主流的15个RGB-D显著性物体检测模型进行对比，其中包括DF、PCF、PGAR、DMRA、D3Net、ASTA、UCNet、JLDCF、DCF、SPNet、DCMF、CFIDNet等12个基于卷积神经网络的RGB-D视觉显著性物体检测方法，和VST、SwinNet、TriTrans等3个基于Transformer的RGB-D视觉显著性物体检测模型。此外，为了保证对比公平性，采用STERE,DES,NJU2K,NLPR,SSD,SIP,ReDWeb-S和COME15K(COME-E,和COME-H)等9个测试数据集进行定量指标计算。

如图1所示，在表中报告了定量评估结果，具体汇报了4个评价指标，即E_ξ、S_α、F_β和MAE。基于卷积神经网络的RGB-D SOD模型在一些简单的RGB-D数据集上表现出色，甚至优于基于transformer的RGB-D SOD方法。例如，在NJU2K数据集上，与本发明提出的模型相比，SPNet模型实现了优越的显著性检测性能，F_β指标上获得了1.1％的增长，MAE评估指标上获得了0.9％的性能提升。然而，面对复杂的场景时，在具有挑战场景的数据集SIP、ReDWeb-S、COME-E和COME-H，SPNet模型的这种优势将不复存在，其显著性检测性能远低于本发明提出的TSVT模型。对于基于卷积神经网络的RGB-D SOD模型，由于仅使用局部滑动窗口操作提取多模态特征的局限性，其综合显著性检测性能远不及基于transformer的RGB-D SOD方法。以当前主流的基于卷积神经网络的RGB-D SOD模型CFIDNet为例，尽管在SIP数据集上CFIDNet的S_α指标获得了与本发明提出的模型相当的性能，但CFIDNet模型性能比本发明提出模型在F_β和MAE指标上分别低2.5％和2.3％。上述实验结果进一步表明全局上下文信息在SOD任务中起着重要作用，同时证明本发明提出的基于动态稀疏标记的transformer的RGB-D SOD模型在具有挑战性的场景中具有一定的优势。

由图1可以看出，提出的模型在九个测试数据集上综合显著性检测性能排名第一，实现了优异的性能。例如，在ReDWeb-S测试集上提出的模型优于所有对比的当前主流模型，与排名第二的SwinNet模型进行相比，提出的模型在E_ξ、S_α、F_β和MAE评价指标上，分别实现了2.2％、3.8％、5.5％和2.6％的性能增长。这些定量结果进一步表明，提出的token稀疏化transformer架构可以准确定位和处理信息量最大的token子集，这比之前基于transformer的模型更有利于显著性物体检测。

此外，在四个具有挑战性的测试数据集上，本发明也报告了所有模型的PR曲线对比结果。由图2可知，当召回值固定时，本发明提出的模型与其他方法相比，在大多数情况下保持着最高的准确率。例如，在COME-E数据集上，当召回率为0.8时，本发明提出的模型获得了最高的准确率。相比之下，所有基于卷积神经网络架构的模型都获得了较低的精度值，这可能是因为这些模型无法有效地提取全局语义信息。然而与SwinNet模型相比，当召回率在COME-H数据集上低于0.7时，本发明提出的模型精度略低。这可能是由于本发明的模型采用的非对称结构设计，编码器仅操作信息量最大的标记的子集，从而导致了一些显著信息丢失，但总的来说，本发明的模型在精度方面还是有一定优势的。

除了上述的定量分析实验，本发明还从COME15K测试数据集中选取了一些有代表性的例子，直观地展示了本发明提出模型与15种当前主流模型的显著性视觉对比结果，如图3所示。其中，第1行是输入的RGB图像，第2行，第3行是对应地深度图和显著性真值图，第4行是本发明提出模型的显著性检测结果，第5到15行，展示了11个基于卷积神经网络架构的RGB-D SOD模型的显著性检测结果(由于缺少PCF模型的结果)，第16到18行展示了3个基于transformer架构的RGB-D SOD模型的显著性结果。图3展示了不同具有挑战性的场景样例，具体包括小显著对象(第1-2列)，显著区域和背景之间的低对比度(第3列)，显著对象形状或背景复杂(第4-9列)，以及多个显著对象(第10-12列)。

如图3所示，本发明提出模型可以完整分割出显著区域，在最具挑战性的场景中检测到清晰的显著性物体边界，精确定位显著物体位置。由于大多数基于卷积神经网络的RGB-D SOD方法在全局上下文信息提取方面的局限性和不足，导致无法分割出理想的显著性区域，例如，图3的第11-12列中的SPNet显著性检测结果，SPNet模型无法准确定位并完整分割出第11列中的三只小狗，相比之下，本发明提出的模型完整的分割了三只小狗并成功抑制了背景干扰，取得了理想的显著性检测结果。与基于transformer架构的RGB-D SOD模型相比，本发明提出的模型在具有挑战性的场景中仍然取得了显著的显著性预测结果。例如，SwinNet模型无法成功抑制图3第12列中的背景干扰，物体边界模糊。同时，在图3第6列中，在更加复杂的场景下SwinNet模型引入了错误的背景作为显著物体，因为图中的女生蹲在整个场景底部，而她的腿与背景壁炉很相似。相比之下，本发明提出的模型可以完整地分割显著物体并成功抑制背景干扰，这可能归因于本发明提出的模型考虑了信息量最大的标记进一步增强了全局细节。

以上对本发明所提出的一种基于动态稀疏标记的Transformer架构的RGB-D视觉显著性物体检测方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。