CN113159068B

CN113159068B - 一种基于深度学习的rgb-d显著性目标检测方法

Info

Publication number: CN113159068B
Application number: CN202110396328.XA
Authority: CN
Inventors: 雷建军; 张明亮; 彭勃; 祝新鑫; 潘兆庆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2022-08-30
Anticipated expiration: 2041-04-13
Also published as: CN113159068A

Abstract

本发明公开了一种基于深度学习的RGB‑D显著性目标检测方法，包括：引入单目深度估计网络生成增强深度图作为原始深度图的补充，将两种深度图送入深度图特征提取流进行特征提取，对深度图特征进行自适应地择优选择，获取优化后的各级深度图特征；将RGB特征和深度图特征在两个置信度图的指导下进行融合，将RGB特征、深度图特征和融合特征进行级联和进一步融合，获得更新的RGBD融合特征；设计置信度图的迭代更新策略，考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征，生成更新的置信度图；使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督，训练交叉熵损失函数，基于训练后的网络实现。

Description

一种基于深度学习的RGB-D显著性目标检测方法

技术领域

本发明涉及深度学习、图像显著性目标检测领域，尤其涉及一种基于深度学习的RGB-D(彩色图像和深度图像)显著性目标检测方法。

背景技术

显著性目标检测旨在自动识别不同场景中的显著性区域，已广泛地应用于图像分割、重定向等任务。近年来，使用彩色图进行显著性目标检测成为较普遍的方式。实际上，人类视觉系统具有感知场景中深度信息的能力，深度信息可以应用于显著性目标检测任务中。随着采集设备的快速发展，深度图的获取变得越来越便捷，促进了RGB-D显著性目标检测的研究。

深度图中包含目标的形状和几何空间结构等隐含属性，这些线索能够提高显著性目标的辨别力，提升显著性检测的性能，但采集的深度图常存在分辨率低、质量差异大的问题；另一方面当前RGB-D显著性检测方法大多没有建模跨模态特征之间的互补性。因此，研究RGB-D显著性检测方法，探索如何从深度图中提取有效特征以及如何有效融合RGB图像和深度信息具有重要意义。

得益于深度学习在监督学习任务中的成功，近年来基于深度学习的RGB-D显著性目标检测方法开始受到关注。Liu等人提出了基于融合细化的显著性检测方法，通过级联RGB图像和深度图像来提取融合特征，并用于显著性检测；Ding等人提出了一个端到端深度感知的显著性检测模型，对于RGB特征和深度特征采用“相乘相加”的融合方式。Chen等人提出了多级特征融合检测的方法，通过一种跨模态交互的多尺度多路径融合网络来检测显著性物体。现有方法大多直接使用原始的低质深度图提取特征，并通过级联或相加的方式和RGB特征进行融合来预测显著性目标，这会引入深度图的噪声，而且不能充分挖掘跨模态特征之间的互补性。

发明内容

本发明提供了一种基于深度学习的RGB-D显著性目标检测方法，本发明利用单目深度估计网络得到具有较好空间特性的深度图，然后通过设计置信度图来指导每一级跨模态特征的融合，详见下文描述：

一种基于深度学习的RGB-D显著性目标检测方法，所述方法包括：

引入单目深度估计网络生成增强深度图作为原始深度图的补充，将两种深度图送入深度图特征提取流进行特征提取，对深度图特征进行自适应地择优选择，获取优化后的各级深度图特征；

将RGB特征和深度图特征在两个置信度图的指导下进行融合，得到互补区域的融合特征；并将RGB特征、深度图特征和融合特征进行级联和进一步融合，获得更新的RGBD融合特征；

设计置信度图的迭代更新策略，考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征，生成更新的置信度图；

使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督，训练交叉熵损失函数，基于训练后的网络实现。

其中，所述优化后的各级深度图特征为：

其中，i＝1,2,…,5，

表示从D+中提取到的特征，

表示从D中提取到的特征，两个空间系数矩阵

和

表示各自深度图特征中每个位置上值的权重大小。

进一步地，所述互补区域的融合特征为：

其中，

和

分别表示RGB特征和深度图特征对应的置信度图，不同模态的特征

和

为不同模态的特征。

其中，所述置信度图的迭代更新策略为：

其中，i＝1,2,…,5，

和

分别表示第i-1级RGB特征和深度图特征对应的置信度图。

本发明提供的技术方案的有益效果是：

1、本发明在单目深度估计网络生成的深度图和通过传感器拍摄的低质深度图之间，可以自适应的选择深度特征进行融合，从而获得到更有效的深度特征。

2、本发明利用卷积神经网络的特征学习能力，以提取有效的深度图特征为基础，将深度图特征和RGB特征进行多级互补融合，可以自适应的生成信息更完备的显著性特征，从而实现图像显著性目标的准确检测。

附图说明

图1为一种基于深度学习的RGB-D显著性目标检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于深度学习的RGB-D显著性目标检测方法，参见图1，该方法包括以下步骤：

一、构建自适应深度图特征选择模块

利用单目深度估计网络，可以获得较为准确的深度图。受此启发，本发明实施例引入单目深度估计网络生成增强深度图(D+)作为原始深度图(D)的补充。相比于D，D+具有较好的空间特性，更适用于显著性目标检测任务。但在一些情况下，D中同样具有明显的显著性空间特征，可以为显著性检测提供有效信息。D+和D可以相互补充，提供更多的信息，将两种深度图送入深度图特征提取流进行特征提取，并在此过程中对深度图特征进行自适应地择优选择，优化后的各级深度图特征

计算公式如下：

其中，i＝1,2,…,5，

表示从D+中提取到的特征，

表示从D中提取到的特征，两个空间系数矩阵

和

表示各自深度图特征中每个位置上值的权重大小。

二、构建互补区域特征融合模块

(1)构建基于置信度图的跨模态特征融合机制

在特征融合模块中，RGB特征

和增强后的深度图特征

首先经过特征提取单元，以捕获显著性目标的边界信息和上下文信息。经过特征提取单元的RGB特征和深度图特征分别记为

和

特别地，i＝1,2时，特征提取单元为边界提取单元；i＝3,4,5时，特征提取单元为感受野单元。然后，不同模态的特征

和

在两个置信度图的指导下进行融合，得到互补区域的融合特征

其表示为：

其中，

和

分别表示RGB特征和深度图特征对应的置信度图，该置信度图是可学习的，由公式(6)和(7)更新生成。特别地，

和

分别由RGB和深度图特征提取流中第五级卷积块输出的特征，经过1×1卷积和Sigmoid激活函数获得。

(2)构建融合特征的补充机制

为了避免显著性特征的丢失，充分地发挥各模态特征之间的互补优势，RGB特征

深度图特征

和互补区域的融合特征

进行级联，并通过两层卷积进一步融合，获得更新的RGBD融合特征

其表示为：

其中，Conv^×2(·)表示依次进行的3×3和1×1的卷积操作，其输出通道数为64。

在逐级显著性特征推理过程中，上一级的RGBD显著性特征向下一级进行传递，与当前级的特征再次融合，并通过通道注意力模块对不同通道的显著性特征进行重新加权，得到加权后的RGBD特征

其表示为：

其中，CA(·)表示通道注意力。最后，加权后的RGBD特征

经过上采样操作，获取当前级最终的RGBD显著性特征

定义为：

其中，Up(·)为双线性插值的上采样操作。具体实现时，当i＝1,2,3,4时，对应的

参与到下一级的特征融合过程，当i＝5时，表示得到的是最后一级融合特征，它被用来预测最终的显著性结果图。

(3)构建迭代更新的置信度图

由于初始的

和

只是初步地反映两个模态特征不同区域的贡献度，对不同级别的融合缺乏针对性，无法适用于每一级跨模态特征融合。

因此，在CRF i中，设计了一种置信度图的迭代更新策略，同时考虑上一级的置信度图、当前级的单模态特征以及当前级的跨模态特征，生成更新的置信度图，指导下一级的跨模态特征融合。上述迭代过程表示为：

其中，i＝1,2,…,5，

和

分别表示第i-1级RGB特征和深度图特征对应的置信度图。该公式(6)和(7)的结果被应用在上述公式(2)中进行置信度图的更新。

三、构建损失函数机制

为了增强显著性目标检测的准确性，本发明使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督。

网络的整体损失L_all表示为：

其中，

和

分别表示第i级RGB特征对应置信度图的交叉熵损失和深度图特征对应置信度图的交叉熵损失，L_rd表示网络输出显著性结果图的交叉熵损失，

和

表示其对应的各级置信度图真值，s和l表示显著性预测图和真值，α为重要性平衡系数，本发明设置为10。

四、训练基于跨模态特征融合的RGB-D显著性目标检测网络

基于跨模态特征融合的RGB-D显著性目标检测网络包括：自适应深度图特征选择模块、互补区域特征融合模块和损失函数机制。

在该训练阶段，D+可以使用任意一个优秀的单目深度估计网络获得。整个RGB-D显著性目标检测网络采用端到端的训练方式，各卷积层参数采用随机初始化的方式，使用交叉熵损失函数L_all训练神经网络。批量大小设置为4，初始学习率设置为1e-4，每经过5个时期，学习率衰减1/2，总计训练40个时期。

五、发明的实际应用

本发明提供的显著性目标检测方法可以广泛地应用于图像分割、检测、重定向以及编码等任务中，并能有效的提高任务的效率。具体到工业界中，可以被用于智能手机“大光圈拍照功能”、视频会议背景替换等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的RGB-D显著性目标检测方法，其特征在于，所述方法包括：

使用交叉熵损失函数来对网络输出的每一级置信度图和最终的显著性结果进行监督，训练交叉熵损失函数，基于训练后的网络实现；

其中，将RGB特征

和深度图特征

在两个置信度图的指导下进行融合，得到互补区域的融合特征为：

其中，

和

分别表示RGB特征和深度图特征对应的置信度图，置信度图是可学习的，由置信度图的迭代更新策略更新生成；所述置信度图的迭代更新策略为：

其中，i＝1,2,…,5，

和

分别表示第i-1级RGB特征和深度图特征对应的置信度图；

表示加权后的RGBD特征；Up(·)为双线性插值的上采样操作；Conv^×2(·)表示依次进行的3×3和1×1的卷积操作。

2.根据权利要求1所述的一种基于深度学习的RGB-D显著性目标检测方法，其特征在于，所述优化后的各级深度图特征为：

其中，i＝1,2,…,5，

表示从增强深度图D+中提取到的特征，

表示从原始深度图D中提取到的特征，两个空间系数矩阵

和

表示各自深度图特征中每个位置上值的权重大小。