CN113379707A

CN113379707A - 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法

Info

Publication number: CN113379707A
Application number: CN202110653578.7A
Authority: CN
Inventors: 张淼; 朴永日; 姚舜禹
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10

Abstract

本发明公开了一种基于动态滤波解耦卷积网络的RGB‑D显著性检测的方法，包括：获取RGB图像张量和深度图像张量；分别将RGB图像张量和深度图像张量输入编码器网络提取单模态特征组，根据编码器网络特性以及层级划分，生成RGB特征组与深度特征组；将RGB特征组的特征与深度特征组的特征分别放到各自的模态特定的整体引导动态增强模块(MGDEM)，进行单模态特定的特征增强；将增强后的RGB特征和深度特征输入场景感知跨模态动态融合模块(SCDFM)，进行模态间的特征融合；MGDEM和SCDFM均基于解耦的动态滤波卷积结构；将融合后的特征输入解码器，得到预测的显著性结果。本发明实现了准确的显著性预测。

Description

一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法

技术领域

本发明涉及到计算机视觉技术领域，尤其涉及一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法。

背景技术

显著性检测的目标是在一幅图像里，寻找出最吸引人类视觉注意的物体或区域。这个任务在不同视觉任务中扮演预处理角色，让计算机先检测出人类所感兴趣的区域，然后对检测出的区域进行后续方法的处理。比如，在进行目标识别时，不需要对整张图像进行滑动窗遍历，而是先进行显著性检测，然后只对显著性区域的目标进行识别。准确可靠的显著性检测可以节省计算量的同时，提高精确度，使许多视觉图形学中的图像跟踪和识别处理任务受益。

目前许多方法基于RGB彩色图像进行显著性检测，并取得了出色的性能。但是由于RGB彩色图像缺乏较为精确的空间信息，这些方法可能在某些复杂的场景中效果不佳，例如，一张图像有非常相似的前景和背景，此时对比度很低，只依靠RGB信息很难检测出显著性区域或者物体，还有在多物体以及复杂背景的场景中也会效果变差。

为此，引入了包含空间分布信息的深度(Depth)图像。已经有一些方法尝试利用RGB彩色图像和相对应的深度图像进行显著性检测。但是由于RGB和深度是独立产生的，并且信息是互补的，因此鼓励每个模态内部的交互以及两个模态之间的交互非常重要。

尽管RGB-D显著性检测方法取得了成功，但仍有两个主要问题有待解决：

(1)由于RGB数据包含更多的外观信息，例如颜色、纹理、轮廓以及有限的位置，而深度数据在3D布局中提供了优势的辨别能力，RGB和深度之间的固有差异对不同模式下的特定模式特征增强提出了挑战。

(2)由于RGB和深度数据在视觉系统中是纠缠在一起的，因此两种模式的充分融合是RGB-D的基石。然而，RGB和深度数据都会对RGB-D显著性检测造成干扰，因为图像和深度图的质量很容易受到各种因素的影响，例如相机的温度、照明、距离和物体的反射率。此外，大多数RGB-D显著性目标检测方法都采用层次融合策略。然而，重复使用融合模块不可避免地会产生额外的计算和存储消耗。这进一步扩展了跨模态特征融合的挑战。

发明内容

有鉴于此，本发明提出了一种基于动态滤波解耦卷积网络的RGB-D显著性目标检测方法，该方法依据深度学习方法，基于差分特征处理融合，采用自顶向下与自适应方式进行RGB-D图像的显著性检测，实现了复杂场景下高质量的显著性检测结果。

为此，本发明提供了如下技术方案：

本发明提供了一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法，包括：

步骤1、基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像，获取RGB图像张量I_R和深度图像张量I_D；

步骤2、分别将RGB图像张量I_R和深度图像张量I_D输入编码器网络提取单模态特征组，根据编码器网络特性以及层级划分，生成RGB特征组

与深度特征组

步骤3、将RGB特征组

与深度特征组

分别放到各自的模态特定的整体引导动态增强模块，进行模态特定的特征增强；所述模态特定的整体引导动态增强模块基于解耦的动态滤波卷积网络；

步骤4、将增强后的RGB特征和深度特征输入场景注意的跨模态动态融合模块，进行模态间的特征融合；所述场景注意的跨模态动态融合模块基于解耦的动态滤波卷积网络；

所述解耦的动态滤波卷积网络，包括：将原始的局部动态过滤器内核解耦为空间动态内核K_sp和通道动态内核K_ch，表示为：K_g＝[K_sp,K_ch]；

K_g指的是动态滤波核组；整个动态卷积F_DC表示为：

F_DC(K_g,f)＝Cat[F_SDC,F_CDC]

其中，f是被动态滤波处理的特征，Cat是级联操作，

是解耦的动态空间卷积，

是解耦的动态通道卷积；

步骤5、将融合后的特征输入解码器，然后再加上第二层的RGB特征

得到并输出预测的显著性结果图像。

进一步地，模态特定的整体引导的动态增强模块包括：整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络；

整体引导的空间动态滤波器生成器包括：3，4，5层的特征图F₃,F₄,F₅按照通道维度级联在一起得到特征图F_ms,

通过1×1卷积层进行处理，以获得缩减通道的特征图

通过softmax操作对卷积核

进行正规化，得到空间动态滤波器；

整体引导的通道动态滤波器生成器包括：将第3，4，5层的特征图F₃,F₄,F₅先经过1×1卷积的过渡层缩减通道到c，按照通道维度级联在一起得到特征图F_ms,

通过1×1卷积层进行处理，以获得缩减通道的特征图

应用自适应全局池化操作和1×1卷积操作，得到通道动态滤波器；

其中，(a²*k²)是缩减后的通道的数量，a是扩展比率，a＝width(F_i)/width(F₅)，width是特征的宽度，h是特征图的高，w是特征图的宽，k²是滤波核的大小，c是特征图的通道，i是特征图的层级；

空间动态滤波器和通道动态滤波器生成之后，再分别和第3，4，5层的特征图F₃,F₄,F₅一起传入解耦的动态滤波卷积网络，进行空间维度和通道维度的处理；同时，通过相加操作将全局平均池化后的F_ms作为补充加到单层特征上，处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c，得到增强后的特征F_GG。

进一步地，场景感知的跨模态动态融合模块包括：通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络；

通道拆分模块包括：获得增强后的RGB特征

和增强后的深度特征

对这两个特征加合，然后通过一层1x1卷积核、一个密集连接区块和一个1x1卷积，再通过一个通道拆分得到两部分的特征，分别用于空间和通道的动态卷积操作；

场景感知的滤波器生成器包括：场景感知的空间滤波器和场景感知的通道滤波器；所述场景感知的空间滤波器，通过对通道拆分模块得到的用于空间动态卷积操作的特征进行1x1卷积操作、softmax操作以及空间核注意力模块处理得到；所述场景感知的通道滤波器，通过对通道拆分模块得到的用于通道动态卷积操作的特征进行自适应全局池化操作、1x1卷积操作以及通道核注意力模块处理得到；

核注意力模块包括通道核注意力模块和空间核注意力模块，所述通道核注意力模块中，利用RGB信息作为通道维度注意权重；对RGB特征执行自适应全局池化操作；使用分组的线性层将全局上下文信息编码为潜在表征，然后经过归一化层和激活函数；通过一个线性层生成一个大小为k×k×c的通道注意力图；所述空间核注意力模块中，将RGB特征转换为空间维度权重；使用具有1×1卷积的过渡层将通道减少到1，同时应用全局平均池和最大池操作；将级联特征输入1×1卷积层，以生成大小为h×w×k²的过滤器级空间注意力图；其中，h和w是当前特征图的大小；

生成场景感知的通道滤波器和场景感知的空间滤波器之后，再和增强的RGB特征

一起传入解耦的动态滤波卷积网络，进行空间维度和通道维度的处理；处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c，得到增强后的特征F_SA。

进一步地，其特征在于，所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。

进一步地，其特征在于，所述编码器采用两个并列的编码器网络进行RGB与深度基础特征提取，根据编码器中的特征分层表示特性，按照层级生成RGB特征组

和深度特征组

进一步地，用于训练所述编码器、解码器网络的训练集由元组<T_R,T_D,T_G>组成，其中T_R表示场景RGB图像，T_D表示对应的深度图像，T_G表示对应场景的显著性真值图像。

进一步地，训练所述编码器、解码器网络包括：优化网络参数；

对于所述训练集，通过以下方式优化网络参数：

其中，E()表示特征提取流程，生成单模态特征组，D()表示跨模态与跨层级融合流程，生成显著性预测图，L()是合成图像和目标图像之间的损失函数；使用交叉熵损失函数衡量预测结果与真值结果之间差异。

进一步地，交叉熵损失表示如下：

其中，

是所述方法对与当前场景的显著性检测结果图，y是当前场景的人工标注真值图像。

进一步地，所述D数值为1，H与W取值均为256。

进一步地，步骤1包括：

基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像，获取输入维度为H×W×3D的RGB图像张量I_R与维度为H×W×D的初始深度图像张量I_D；其中，H与W表示输入图片的高度与宽度，D表示深度；

将所述初始深度图像张量I_D沿第三维度进行数据复制，得到输入维度为H×W×3D的深度图像张量

本发明提供的上述技术方案具有以下有益效果：

本发明针对目前主流RGB-D显著性检测方法中存在的问题，利用解耦的动态卷积从空间的通道角度解耦普通的动态卷积实现效果的提升和模型的更轻量化。在解耦的动态卷积的基础上实现了一个模态特定的整体引导动态增强模块(MGDEM)和场景感知的跨模态动态融合模块(SCDFM)进行模态内的特征增强和模态间的动态融合。实验结果表明，本发明提出的新的显著性检测方法在对7个公共显著性基准进行了显著改进，对于很多有挑战性的场景都能取得准确的预测结果。

基于上述理由本发明可在计算机视觉及多模态信息融合等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中训练网络使用的训练集集合示意图；

图2是本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程示意图；

图3是本发明实施例中网络模型的结构图和解耦的动态卷积的结构图；

图4是本发明实施例中模型的模态特定的整体引导动态增强模块(MGDEM)结构示意图；

图5是本发明实施例中模型的场景感知的跨模态动态融合模块(SCDFM)结构示意图；

图6是本发明实施例中模型的解码器部分。

具体实施方式

本发明的目标是提供一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法，以利用RGB与深度两种模态信息进行有效融合，实现复杂场景下高质量的显著性检测结果。本发明的目标面临的第一个挑战是设计一个能够动态地适应每种模式中的特定存在的模块，第二个挑战是动态地建立互补交互以进行模态间融合。

本发明的核心构思是设计一个解耦的动态滤波显著性检测网络，通过将动态卷积解耦到空间维度和通道维度，动态地促进特征交互，以同时处理模态内和模态间的问题。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图2所示，其示出了本发明实施例中一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法的流程图。该方法具体为一种依据深度学习方法，基于差分特征处理融合，采用自顶向下与自适应方式进行RGB-D图像对显著性检测的方法，首先读取RGB色彩图像以及对应的深度(Depth)图像，生成输入张量，之后将其输入编码器网络中提取单模态特征，生成单模态特征组；之后将单模态特征组输入解码器网络进行跨模态以及跨层级特征融合，最终输出该图像对的显著性检测结果图。鉴于深度网络的强大表征能力，该方法模型全部采用深度网络结构实现，总体网络结构如图3所示。总体网络结构中包括：用于对输入的RGB图像提取特征的编码器、用于对输入的深度图像提取特征的编码器、基于解耦的动态滤波卷积网络的模态特定的整体引导动态增强模块(MGDEM)、基于解耦的动态滤波卷积网络的场景感知的跨模态动态融合模块(SCDFM)以及解码器。其中，解耦的动态滤波卷积网络，包括：将原始的局部动态过滤器内核解耦为空间动态内核K_sp和通道动态内核K_ch，表示为：K_g＝[K_sp,K_ch]；K_g指的是动态滤波核组；整个动态卷积F_DC表示为：

其中，f是被动态滤波处理的特征，Cat是级联操作，

是解耦的动态空间卷积，

是解耦的动态通道卷积。

该方法具体包括以下步骤：

具体地，首先，基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像，获取输入维度为H×W×3D的RGB图像张量I_R与维度为H×W×D的初始深度图像张量I_D；其中，H与W表示输入图片的高度与宽度，D表示深度；然后将初始深度图像张量I_D沿第三维度进行数据复制，得到输入维度为H×W×3D的深度图像张量

根据图像特点，H与W取值为256，D取值为1。

与深度特征组

具体地，将

输入编码器网络，提取单模态特征，编码器网络采用两个并列的现有的主流主干网络(VGG-16，ResNet-50，MobileNetV3)网络，生成RGB特征组

与Depth特征组

其生成过程可以表示为：

其中，其中{φ_R,φ_D}均为编码器网络中的层级输出。

步骤3、将RGB特征组

与深度特征组

分别放到各自的模态特定的尺度自由动态增强模块，进行模态特定的特征增强；

考虑到两种模态之间的差异，增强模态特征有助于理解它们各自的内容，提高后期的跨模态融合效果。为了解决这个问题，如图4所示，本发明提供了一个模态特定的整体引导动态增强模块(MGDEM)，通过使用单个模态整体内容去生成动态滤波器，实现模态内特征增强。

MGDEM包括：整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及上述解耦的动态滤波卷积网络。

对于整体引导的空间动态滤波器的生成，3，4，5层的特征图F₃,F₄,F₅按照通道维度级联在一起得到特征图F_ms,

通过1×1卷积层进行处理，以获得缩减通道的特征图

(a²*k²)是缩减后的通道的数量，a是扩展比率a＝width(F_i)/width(F₅)，width是特征的宽度；最后卷积核

被通过softmax操作

进行正规化。

这一步可以被写成：

对于3，4，5层的

是空间卷积核，PS是像素混洗操作，Conv是1×1卷积操作。

对于整体引导的通道动态滤波器的生成，首先将第3，4，5层的特征图F₃,F₄,F₅先经过1×1卷积的过渡层缩减通道到c，按照通道维度级联在一起得到特征图F_ms,

通过1×1卷积层进行处理，以获得缩减通道的特征图

c是通道的数量，(a²*k²)是缩减后的通道的数量，a是扩展比率a＝width(F_i)/width(F₅)，width是特征的宽度；然后应用自适应全局池化(AAP)操作和1×1卷积去获取k×k的卷积核。

这个过程可以被写成：

是3，4，5层的通道卷积核，AAP是自适应全局池化操作。通过这种方式，可以通过有效的模态内部特征交互来获得更有效的模态特定特征。

生成这两种滤波器之后，再分别传入和第3，4，5层的特征图F₃,F₄,F₅一起传入解耦的空间和通道动态卷积，进行空间维度和通道维度的处理。同时，因为因为处理的单层特征缺乏一个整体的信息，我们通过相加的操作将全局平均池化后的F_ms作为补充加到单层特征上，之后处理完的特征经过通道维度的级联然后通过一个1×1卷积层(Conv1)缩减通道到c，得到增强后的特征F_GG。整个过程被写作为：

步骤4、将增强后的RGB特征和深度特征输入场景感知的跨模态动态融合模块，进行模态间的特征融合；

在常规的RGB-D显着性检测方法中，训练后模型的参数是固定的，但是在不同的场景下，具有各种质量的RGB-D样本对使固定参数的模型难以实现两种模态之间的根据场景的不同自适应融合。为解决这个问题，如图5所示，本发明提供了场景感知的跨模态动态融合模块(SCDFM)来自适应地生成细节面向动态过滤器，并以更少的参数实现有效融合。

SCDFM模块包括：通道拆分模块、场景感知的滤波器生成器以及上述解耦的动态滤波卷积网络。

通道拆分模块包括：获得从RGB的增强后的特征

和深度的增强后的特征

然后这两个特征通过加合，然后通过一层1x1卷积核一个密集连接区块(DenseBlock)和一个1x1卷积，然后通过一个通道拆分(ChannelSplit)得到两部分的特征，分别用于空间和通道的动态卷积操作。

核注意力模块包括通道核注意力模块和空间核注意力模块，所述通道核注意力模块中，利用RGB信息作为通道维度注意权重；对RGB特征执行自适应全局池化操作，以调整滤镜的大小；然后，使用分组的线性层将全局上下文信息编码为潜在表征，然后经过归一化层和激活函数，最后通过一个线性层生成一个大小为k×k×c的通道注意力图；所述空间核注意力模块中，将RGB特征转换为空间维度权重；使用具有1×1卷积的过渡层将通道减少到1，同时应用全局平均池和最大池操作，以聚合空间信息；之后，将级联特征输入1×1卷积层，以生成大小为h×w×k²的过滤器级空间注意力图。

场景感知的空间滤波器的生成过程可以被写作为：

其中，F_m是混合特征，S_att是卷积核等级的空间注意力，

是softmax操作，结果，从混合特征生成的滤波器内的核具有RGB特征的空间场景视角。

通道核注意力模块的处理过程可以写成：

其中，C_att是卷积核等级的通道注意力，结果，从混合特征生成的滤波器内核具有RGB特征的通道场景视角。

生成这两种滤波器之后，再和增强的RGB特征

一起传入解耦的空间和通道动态卷积，进行空间维度和通道维度的处理。之后处理完的两个维度的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c，得到增强后的特征F_SA：

通过两种场景自适应动态滤波器，本发明的模型实现了模态间的交互。此外，在解码器输出的3，4，5层特征图F₃,F₄,F₅同时使用SCDFM，和单独使用一次SCDFM的情况相比，可以取得近似的性能。在具体实施时，可以通过只使用一SCDFM，从而可以降低计算成本。

步骤5、将融合后的混合特征输入解码器，同时传入提取的第2层的RGB特征

以补充部分细节，进行最终的预测。

解码器的结构如图6所示，混合特征先经过一个卷积，然后经过通道拆分，分别针对两部分的通道进行不同空洞率的卷积操作，再将两个卷积操作之后的结果串联，之后进行上采样，此时结合提取的第2层的RGB特征，然后再通过两个卷积操作和上采样操作，得到最终的显著性预测结果。

步骤6、模型训练方式：

本发明实施例在PyTorch框架下实现，训练集由元组<T_R,T_D,T_G>组成，如图1所示，其中T_R表示场景RGB图像，T_D表示对应的深度图像，T_G表示对应场景的显著性真值图像。在NvidiaRTX2080Ti的显卡设备上，用Adam优化器，学习率为1e-4，Batch大小为32，epochs为50时收敛。训练与测试时图像大小均需要调整为256×256。

对于训练集，通过以下方式优化网络参数：

交叉熵损失表示如下：

其中，

在本发明中，致力于面对的挑战，准确的RGB-D显著性检测。考虑到RGB图和深度图在不同位置的质量不同，将动态卷积在空间和信道两个层次上进行解耦，并将其应用于所提出的模态特定整体引导的动态增强模块(MGDEM)和场景感知跨模态动态融合模块(SCDFM)。MGDEM的目标是在不同尺度下动态增强模态内特征，而SCDFM的目标是从RGB-D混合特征中生成面向细节的滤波器，然后引导模型根据输入自适应地确定目标区域。大量实验表明，本发明中的方法在7个公共数据集上比16种最新的RGB-D方法具有竞争优势。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，包括：

与深度特征组

步骤3、将RGB特征组

与深度特征组

所述解耦的动态滤波卷积网络，包括：将原始的局部动态过滤器内核解耦为空间动态内核K_sp和通道动态内核K_ch，表示为：K_g＝[K_sp，K_ch]；

K_g指的是动态滤波核组；整个动态卷积F_DC表示为：

F_DC(K_g，f)＝Cat[F_SDC，F_CDC]

其中，f是被动态滤波处理的特征，Cat是级联操作，

是解耦的动态空间卷积，

是解耦的动态通道卷积；

得到并输出预测的显著性结果图像。

2.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，模态特定的整体引导的动态增强模块包括：整体引导的空间动态滤波器生成器、整体引导的通道动态滤波器生成器以及所述解耦的动态滤波卷积网络；

整体引导的空间动态滤波器生成器包括：3，4，5层的特征图F₃，F₄，F₅按照通道维度级联在一起得到特征图F_ms，

通过1×1卷积层进行处理，以获得缩减通道的特征图

通过softmax操作对卷积核

进行正规化，得到空间动态滤波器；

整体引导的通道动态滤波器生成器包括：将第3，4，5层的特征图F₃，F₄，F₅先经过1×1卷积的过渡层缩减通道到c，按照通道维度级联在一起得到特征图F_ms，

通过1×1卷积层进行处理，以获得缩减通道的特征图

空间动态滤波器和通道动态滤波器生成之后，再分别和第3，4，5层的特征图F₃，F₄，F₅一起传入解耦的动态滤波卷积网络，进行空间维度和通道维度的处理；同时，通过相加操作将全局平均池化后的F_ms作为补充加到单层特征上，处理完的特征经过通道维度的级联然后通过一个1×1卷积层缩减通道到c，得到增强后的特征F_GG。

3.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，场景感知的跨模态动态融合模块包括：通道拆分模块、场景感知的滤波器生成器以及所述解耦的动态滤波卷积网络；

通道拆分模块包括：获得增强后的RGB特征

和增强后的深度特征

4.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，所述编码器使用主干卷积神经网络VGG-16、ResNet-50或MobileNetV3实现。

5.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，所述编码器采用两个并列的编码器网络进行RGB与深度基础特征提取，根据编码器中的特征分层表示特性，按照层级生成RGB特征组

和深度特征组

6.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，用于训练所述编码器、解码器网络的训练集由元组<T_R，T_D，T_G>组成，其中T_R表示场景RGB图像，T_D表示对应的深度图像，T_G表示对应场景的显著性真值图像。

7.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，训练所述编码器、解码器网络包括：优化网络参数；

对于所述训练集，通过以下方式优化网络参数：

8.根据权利要求7所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，交叉熵损失表示如下：

其中，

9.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，所述D数值为1，H与W取值均为256。

10.根据权利要求1所述的基于动态滤波解耦卷积网络的RGB-D显著性检测方法，其特征在于，步骤1包括：

基于同一传感器获取的同一场景的RGB图像与相应的场景配准的深度图像，获取输入维度为H×W×3D的RGB图像张量IR与维度为H×W×D的初始深度图像张量I_D；其中，H与W表示输入图片的高度与宽度，D表示深度；