CN113112464B

CN113112464B - 基于跨模态交流编码器的rgbd显著性物体检测方法及系统

Info

Publication number: CN113112464B
Application number: CN202110352349.1A
Authority: CN
Inventors: 傅可人; 张文博; 蒋遥; 赵启军
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-06-21
Anticipated expiration: 2041-03-31
Also published as: CN113112464A

Abstract

本发明公开了一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统，包括：步骤1，获取待检测图片的RGB图片与深度图；步骤2，将所述RGB图片与深度图输入至预先训练好的显著性物体检测模型中，得到RGBD显著性物体检测结果；其中，所述显著性物体检测模型包括：跨模态双向交流编码器以及分组融合解码器；所述跨模态双向交流编码器包括：平行的RGB子网络与深度图子网络，以及按层级插入在所述RGB子网络与所述深度图子网络之中的多个跨模态双向交流模块；本发明通过在编码器中设置跨模态双向交流模块，在特征提取阶段即可实现RGB特征、深度图特征的跨模态双向交流，使得两种模态能够互相优化和纠错，充分利用模态互补性，有效提高RGBD检测结果的准确性。

Description

基于跨模态交流编码器的RGBD显著性物体检测方法及系统

技术领域

本发明涉及图像处理与计算机视觉技术领域，特别涉及一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统。

背景技术

显著性物体检测旨在模拟人类视觉系统，在图像中定位最吸引人注意力的物体。显著性检测可应用于多种视觉任务，如视频、图像的检索、压缩、编辑，目标分割，跟踪等。虽然RGB显著性物体检测方法因深度学习的兴起已取得较大进展，但单一模态输入的显著性物体检测仍然面临诸多挑战，例如相似的前景背景、复杂杂乱的背景、低对比度的图像等。RGBD——即输入为单张RGB彩色图像和对应的深度图的显著物体检测技术一定程度上能克服上述问题，因此最近受到研究者和业界的关注和研究。

目前，基于深度学习的RGBD显著性物体检测方法都采用双流结构，即分别采用两个编码器对RGB图和深度输入信号进行特征提取，在提取到特征后再进行融合交流或者在解码阶段对RGB信息与深度信息进行融合解码。然而，现实中输入的深度图往往质量不好且包含噪声，因此现有基于深度学习的RGBD显著性物体检测方法的编码器所提取的深度特征容易受到深度图的质量的影响，从而进一步影响最终检测结果的准确性。

例如，申请号为2019114162822的中国专利，公开了一种基于孪生网络的RGBD显著物体检测方法，其通过构建参数共享的孪生神经网络来提取RGB图和深度图的层次化特征，并采用具有融合功能的解码器，将层次化特征进行特征融合后再进行解码，在利用孪生网络提取到相应的特征后，在解码阶段进行融合解码，使得RGB信息和深度信息互相补充，但其存在未在编码阶段进行特征融合、使得编码器提取的深度特征容易受到低质量深度图的影响的缺陷。

发明内容

本发明的目的在于克服现有技术中所存在的编码阶段或不存在跨模态的交流，或只存在从深度模态到RGB模态的单方向特征融合的缺陷，提供一种基于跨模态交流编码器的RGBD显著性物体检测方法及系统，通过在编码阶段进行跨模态交流，在编码阶段所提取的深度特征不易受到深度图的质量的影响，能够有效提高检测准确度。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于跨模态交流编码器的RGBD显著性物体检测方法，包括：

步骤1，获取待检测图片的RGB图片与深度图；

步骤2，将所述RGB图片与深度图输入至预先训练好的显著性物体检测模型中，得到RGBD显著性物体检测结果；

其中，所述显著性物体检测模型包括：跨模态双向交流编码器以及分组融合解码器；所述跨模态双向交流编码器包括：平行的RGB子网络与深度图子网络，以及按层级插入在所述RGB子网络与所述深度图子网络之中的多个跨模态双向交流模块；

所述跨模态双向交流模块用于接收所述RGB子网络与所述深度图子网络第i层输出的特征向量，并对接收到的特征向量进行跨模态交流得到层次化特征；以及，输出所述层次化特征至所述RGB子网络与所述深度图子网络的第i+1层；并输出所述层次化特征至所述分组融合解码器，以使所述分组融合解码器根据接收到的层次化特征进行解码得到RGBD显著性物体检测结果；

其中，i＝0、1...n；n为所述RGB子网络与深度图子网络的网络层级数。

通过在编码器的双流网络中按层级插入多个跨模态双向交流模块；利用跨模态双向交流模块对RGB子网络与深度图子网络每一层输出的特征向量进行融合处理，再以融合处理得到的层次化特征作为下一层网络的输入，以在编码阶段通过上层融合结果作为下层输入的方式实现RGB特征信息与深度特征信息的互相优化与纠错，再配合相应的分组融合解码对层次化特征进行解码；本发明充分利用模态间的互补性，能够提取出包含更少噪声的鲁棒特征，有效克服深度图质量不高对编码特征的质量的影响，能够得到准确度更高的检测结果。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述跨模态双向交流模块通过以下步骤对接收到的特征向量进行跨模态交流，包括：

步骤201，接收所述RGB子网络与所述深度图子网络第i层输出的特征向量，根据接收到的特征向量使用空间注意力机制产生一组注意力图；

步骤202，利用跨模态交流公式根据所述特征向量以及注意力图生成跨模态交流特征；

步骤203，通过通道注意力机制对所述跨模态交流特征进行通道维度的加权，得到所述层次化特征。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述步骤202中的跨模态交流公式为：

cf_r ⁱ＝bf_r ⁱ×(SA_d ⁱ+SA_r ⁱ×SA_d ⁱ)

cf_d ⁱ＝bf_d ⁱ×(SA_r ⁱ+SA_r ⁱ×SA_d ⁱ)

其中，bf_r ⁱ为所述RGB子网络第i层输出的特征向量；bf_d ⁱ为所述深度图子网络第i层输出的特征向量；SA_r ⁱ为跨模态双向交流模块根据bf_r ⁱ生成的注意力图；SA_d ⁱ为跨模态双向交流模块根据bf_d ⁱ生成的注意力图；cf_r ⁱ、cf_d ⁱ为跨模态交流特征。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述分组融合解码器通过以下步骤对多个所述跨模态双向交流模块输出的层次化特征进行解码、得到RGBD显著性物体检测结果，包括：

步骤301，对多个所述跨模态双向交流模块输出的多个层次化特征进行特征转换，统一多个所述层次化特征的通道维度；

步骤302，对多个所述层次化特征进行分组融合，得到第一融合特征以及第二融合特征；

步骤303，对所述第一融合特征以及第二融合特征进行跨模态融合，得到跨模态融合特征，根据所述跨模态融合特征生成显著性检测图。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述步骤302中，采用以下公式对多个所述层次化特征进行分组融合：

其中，Up表示上采样操作，用于将不同层次的特征空间分辨率进行对齐；f_m ^l为第一融合特征，f_m ^h为第二融合特征，其中f_mt ⁱ，为统一维度后的多个层次化特征，m∈{r，d}，r对应RGB子网络，d对应深度图子网络；i＝0、1...n；n为所述RGB子网络与深度图子网络的网络层级数。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述步骤303中，采用以下公式对所述第一融合特征以及第二融合特征进行跨模态融合：

其中，BConv表示由卷积层，批量归一化层，线性整流函数依次组成的处理模块；[·,·]表示通道串联操作；f_c ^h，f_c ^l为跨模态融合特征。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述步骤303中，采用以下公式根据所述跨模态融合特征生成显著性检测图：

其中，S_c为显著性检测图，P表示预测头，Up表示上采样操作，用于将不同层次的特征空间分辨率进行对齐，[·,·]表示通道串联操作。

进一步的，我们对显著性物体检测模型中的解码器进行设计，设计一个轻量化(模型复杂程度较低)的具有跨模态融合机制的分组融合解码器，在解码阶段进一步实现深度信息与RGB信息的跨模态融合，进一步实现RGB特征信息与深度特征信息的互相优化与纠错，提高检测结果的准确性。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，采用二项交叉损失函数对所述显著性物体检测模型进行训练，以得到所述预先训练好的显著性物体检测模型。

优选的，上述基于跨模态交流编码器的RGBD显著性物体检测方法中，所述二项交叉损失函数为：

其中λ_m为各项损失函数系数，

为二项交叉熵损失，G表示GT(真值图)，两个子网络各自预测的结果S_r、S_d的计算为：

其中P表示预测头，Up表示上采样操作，[·,·]表示通道串联操作。

在本发明进一步的实施例中，还提供一种基于跨模态交流编码器的RGBD显著性物体检测系统，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于跨模态交流编码器的RGBD显著性物体检测方法。

与现有技术相比，本发明的有益效果：

1、本发明通过对基于“编码器-解码器”结构的显著性物体检测模型中的编码器进行设计，在编码器平行的RGB子网络与深度图子网络中按层级插入多个跨模态双向交流模块；利用跨模态双向交流模块对RGB子网络与深度图子网络每一层输出的特征向量进行融合处理，再以融合处理得到的层次化特征作为下一层网络的输入，以在编码阶段通过上层融合结果作为下层输入的方式实现RGB特征信息与深度特征信息的互相优化与纠错，再配合相应的分组融合解码对层次化特征进行解码；本发明充分利用模态间的互补性，能够提取出包含更少噪声的鲁棒特征，有效克服深度图质量不高对编码特征的质量的影响，能够得到准确度更高的检测结果。

2、通过对显著性物体检测模型中的解码器进行设计，设计一个轻量化的具有跨模态融合机制的分组融合解码器，在解码阶段进一步实现深度信息与RGB信息的跨模态融合，进一步实现RGB特征信息与深度特征信息的互相优化与纠错，提高检测结果的准确性。

附图说明：

图1为本发明一种基于跨模态双向交流编码器的RGBD显著性检测方法的流程图；

图2为本发明一种基于跨模态双向交流编码器的RGBD显著性检测方法的网络结构示意图；

图3为本发明的跨模态双向交流模块网络结构详图；

图4为本发明实施例中本发明提出方法和14中现有方法的结果对比图；

图5为本发明一种基于跨模态双向交流编码器的RGBD显著性检测系统的结构框图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

图1示出了根据本发明示例性实施例的一种基于跨模态双向交流特征提取神经网络的RGBD显著性物体检测方法步骤。在本实施例中，在预先训练好的RGBD显著性物体检测模型中输入RGB图像和深度图，通过网络的前向传播，从解码器获取最终的RGBD显著性检测结果。其中，RGBD显著性物体检测模型基于“编码器-解码器”结构，编码器的RGB图和深度图子网络基于常见的ResNet-50网络结构。该实施例的方法主要包括以下步骤：

S1，获取待检测图片的RGB图和深度图，并将深度图以通道复制的方式转换为三通道，同时将RGB图和深度图都缩放至352×352大小。

S2，将RGB图和深度图输入到设计的跨模态双向交流编码器中，得到层次化的特征，如图2所示。

所述的跨模态双向交流编码器包括三个部分：RGB子网络，深度图子网络，跨模态双向交流模块BTS。RGB子网络、深度图子网络由两个平行的ResNet-50构成(最后一个卷积层的stride设置为1并将dilation设置为2，全连接层替换为ASPP模块)。本实施例中ResNet-50除ASPP模块共有0～n(n＝4)个层级，为：Conv-head，Residual-i(i＝1，...，4)，ASPP依次可标记为第i(i＝0，...，5)层级。5个双向交流模块BTSⁱ(i＝0，...，4)按层级插入到两个子网络对应的0-4层实现跨模态的双向交流。

具体来说，RGB、深度图子网络第0-4层的输出为bf_m ⁱ(m∈{r，d}，i＝0，...，4)，bf_m ⁱ被输入到对应的双向交流模块BTSⁱ中，第i层的BTSⁱ根据bf_m ⁱ进行跨模态的双向交流后将输出第i层级的层次化特征至解码器，同时以第i层级的层次化特征作为RGB、深度图子网络第i+1层的输入。通过5个跨模态双向交流模块BTS，可以得到一组多模态层次化特征f_m ⁱ(m∈{r，d}，i＝0，...，4)。然后将f_r ⁴和f_d ⁴分别输入到2个ASPP中得到f_r ⁵和f_d ⁵。如图2所示，最终可得到层次化特征f_m ⁱ(m∈{r，d}，i＝0，...，5)。

双向交流模块主要由交叉的空间注意力和通道注意力实现。如图3所示，双向交流模块的具体操作为：将RGB、深度图子网络第i层的输出bf_r ⁱ和bf_d ⁱ作为输入，分别使用空间注意力机制产生注意力图SA_r ⁱ和SA_d ⁱ，然后按(1)式计算跨模态交流的特征cf_r ⁱ和cf_d ⁱ。

cf_r ⁱ＝bf_r ⁱ×(SA_d ⁱ+SA_r ⁱ×SA_d ⁱ)

cf_d ⁱ＝bf_d ⁱ×(SA_r ⁱ+SA_r ⁱ×SA_d ⁱ) (1)

本实施例中，空间注意力机制实施方式为SA_r ⁱ＝Sigmoid(Conv(bf_r ⁱ))，SA_d ⁱ＝Sigmoid(Conv(bf_d ⁱ))，其中Sigmoid表示Sigmoid激活函数，Conv表示卷积核大小为3、输出通道数为1的卷积层。最后采用文献《Squeeze-and-ExcitationNetworks》提出的通道注意力机制对特征cf_r ⁱ和cf_d ⁱ进行通道维度的加权输出f_r ⁱ和f_d ⁱ。将S1所述的RGB图和深度图输入到编码器中得到RGB和深度图的一组层次化特征f_m ⁱ(m∈{r，d}，i＝0，...5)，其特征分辨率分别为：176×176×64，88×88×256，44×44×512，22×22×1024，11×11×2048，11×11×256，如图2所示。

S3，将S2得到的跨模态的多个层次化特征f_m ⁱ输入到设计的分组融合解码器中，得到预测结果，如图2所示。具体步骤如下：

S31，首先进行特征转换，利用卷积算子将各层次化特征f_m ⁱ的通道维数转换到一个统一值k，本实施例中取为256，得到特征f_mt ⁱ，用于统一层次化特征的维度和节省后续计算存储开销。

S32，再进行分组融合，将S31所述压缩后的特征f_mt ⁱ分模态和层级按(2)式进行分组融合：

其中Up表示上采样操作，用于将不同层次的特征空间分辨率进行对齐。f_m ^l，f_m ^h分别为得到的低层特征和高层特征，其中m∈{r，d}。

S33，将S32所述的分组融合特征f_m ^l，f_m ^h按(3)式进行跨模态融合：

其中，P表示预测头，Up表示上采样操作，用于将不同层次的特征空间分辨率进行对齐，[·,·]表示通道串联操作。

S34，将S33所述的跨模态融合后的特征f_c ^h，f_c ^l按(4)式输入到预测头中生成最后的显著性检测图S_c：

S4，使用网络前，先对RGBD显著性物体检测模型进行训练，计算得到的结果与真值结果的二项交叉损失函数并进行误差反向传播，进行梯度下降优化。即按(5)式对神经网络进行训练。其中，主要的监督为S34所述的显著性图S_c和GT(真值图)的二项交叉熵损失。辅助监督为子网络各自预测的结果S_r、S_d分别和GT(真值图)的二项交叉熵损失。总的训练损失函数

表示为：

其中，λ_m为各项损失函数系数，

本实施例设置λ_c＝1,λ_r＝λ_d＝0.5，采用梯度下降法进行参数优化，产生最终的模型。其中P表示预测头，Up表示上采样操作，[·,·]表示通道串联操作。

在本发明进一步的实施例中，我们与现有的14种现有RGBD显著性物体检测方法进行对比试验，如图4所示，本发明所提供的RGBD显著性检测模型比14种现有方法得到的检测结果更加准确。

实施例2

图5示出了根据本发明示例性实施例的基于跨模态交流编码器的RGBD显著性物体检测系统，即电子设备310(例如具备程序执行功能的计算机服务器)，其包括至少一个处理器311，电源314，以及与所述至少一个处理器311通信连接的存储器312和输入输出接口313；所述存储器312存储有可被所述至少一个处理器311执行的指令，所述指令被所述至少一个处理器311执行，以使所述至少一个处理器311能够执行前述任一实施例所公开的方法；所述输入输出接口313可以包括显示器、键盘、鼠标、以及USB接口，用于输入输出数据；电源314用于为电子设备310提供电能。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种基于跨模态交流编码器的RGBD显著性物体检测方法，其特征在于，包括：

步骤1，获取待检测图片的RGB图片与深度图；

2.如权利要求1所述的方法，其特征在于，所述跨模态双向交流模块通过以下步骤对接收到的特征向量进行跨模态交流，包括：

3.如权利要求2所述的方法，其特征在于，所述步骤202中的跨模态交流公式为：

cf_r ⁱ＝bf_r ⁱ×(SA_d ⁱ+SA_r ⁱ×SA_d ⁱ)

cf_d ⁱ＝bf_d ⁱ×(SA_r ⁱ+SA_r ⁱ×SA_d ⁱ)

4.如权利要求1-3任一所述的方法，其特征在于，所述分组融合解码器通过以下步骤对多个所述跨模态双向交流模块输出的层次化特征进行解码、得到RGBD显著性物体检测结果，包括：

5.如权利要求4所述的方法，其特征在于，所述步骤302中，采用以下公式对多个所述层次化特征进行分组融合：

其中，Up表示上采样操作，用于将不同层次的特征空间分辨率进行对齐；f_m ^l为第一融合特征，f_m ^h为第二融合特征，其中f_mt ⁱ，为统一维度后的多个层次化特征，m∈{r，d}，r对应RGB子网络，d对应深度图子网络；i＝0、1...n；n为所述RGB子网络与深度图子网络的网络层级数，n＝5。

6.如权利要求5所述的方法，其特征在于，所述步骤303中，采用以下公式对所述第一融合特征以及第二融合特征进行跨模态融合：

7.如权利要求6所述的方法，其特征在于，所述步骤303中，采用以下公式根据所述跨模态融合特征生成显著性检测图：

8.如权利要求7所述的方法，其特征在于，采用二项交叉损失函数对所述显著性物体检测模型进行训练，以得到所述预先训练好的显著性物体检测模型。

9.如权利要求8所述的方法，其特征在于，所述二项交叉损失函数为：

其中λ_m为各项损失函数系数，

10.一种基于跨模态交流编码器的RGBD显著性物体检测系统，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。