CN113362307B

CN113362307B - 一种rgb-d图像显著性检测方法

Info

Publication number: CN113362307B
Application number: CN202110633595.4A
Authority: CN
Inventors: 王卫兵; 张晓琢; 何金喜; 刘锋
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2023-03-28
Anticipated expiration: 2041-06-07
Also published as: CN113362307A

Abstract

本发明涉及一种RGB‑D图像显著性检测方法，包括如下步骤：1.RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中，提取每层的RGB特征和深度特征；2.各层深度特征输入到相应的深度改进模块中，得到的深度改进特征与RGB特征经过卷积、激活等融合操作后形成各层的混合特征；3.混合特征从高层到底层两两组合，分别通过特征分组监督融合模块，得到各层显著图，其中，在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督，最终经过迭代优化以第4层级输出的显著图作为最终结果显著图。本发明有效抑制了低质量深度特征的噪声干扰，对特征进行了高质量的充分融合，能够生成完整准确的显著图，具有较好的检测性能。

Description

一种RGB-D图像显著性检测方法

技术领域：

本发明涉及计算机视觉领域，尤其涉及一种RGB-D图像显著性检测方法。

背景技术：

显著性目标检测技术的关键是提取目标场景中最吸引人的重要区域，近年来，许多人在计算机视觉领域探索了显著性目标检测技术，将该项技术应用于语义分割，目标识别,图像压缩和图像分割等领域。在过去几年里，已经提出了各种基于RGB-D图像的显著性目标检测模型，这些模型都取得了良好的性能。

RGB-D图像中RGB图像与深度图像是成对出现的，RGB图像提供详细的颜色纹理信息，深度图像则提供目标区域的形状，位置等众多空间信息。过去的方法中，深度图像常作为第四通道输入，与处理RGB图像的一样的方式对深度图像进行特征提取操作，忽视了深度图在复杂场景中有效区分目标与背景的作用。在最近的几个先进算法中，已经开始逐渐重视深度图所携带的空间信息。Fan等人将深度图像视为彩色图像的特殊情况，并使用共享的CNN进行RGB和深度特征提取；Chen等人使用面向显著性的深度感知模块来评估深度图的潜力并减少污染的影响。

当从RGB图像和深度图像中捕获到高质量的多尺度特征时，如何将其有效融合以获得高水平的显著图也是当前探索显著性检测技术的热点问题。Zhao等人提出了一种流体金字塔积分模块来以分层的方式有效地融合跨模态信息；Chen等人引入了通道式注意机制实现选择性的跨模态跨层次特征融合。

发明人在实现本发明的过程中，发现现有技术至少存在以下缺点和不足：(1)由于采集设备的限制，数据集中会出现边缘模糊或遭受噪声干扰的低质量深度图像，低质量深度图像的引入降低了检测性能；(2) 将含有噪声的特征向下传递，无法充分获取并融合有用特征，有用特征被丢失浪费，从而影响了结果质量。

发明内容：

针对以上问题，本发明提供了一种RGB-D图像显著性检测方法，旨在减少低质量深度图的影响，有效获取深度图像的特征，并尽可能全面充分融合各级有用特征，获得更好的检测性能。

本发明具体采用的技术方案如下：

一种RGB-D图像显著性检测方法，包括如下步骤：

步骤1、将RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中，提取每层的RGB特征和深度特征；

步骤2、将各层的深度特征输入到每个层级相应的深度改进模块中，得到的深度改进特征与相应的RGB 特征进行融合，经过卷积、激活等操作后得到各层的混合特征；

步骤3、将混合特征从高层到底层两两组合，分别通过特征分组监督融合模块，得到各层显著图，其中，在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督，最终经过迭代优化以第4层级输出的显著图作为最终结果显著图。

在上述方案的步骤2中深度特征送入到每个层级相应的深度改进模块中得到深度改进特征的具体步骤如下：

1)深度改进模块包括通道注意力模块和空间注意力模块，首先将深度特征输入通道注意力模块中进行改进操作，过程定义如下：

其中，Ch(·)表示通道注意力操作；f_i表示输入的多尺度的深度特征；

表示元素依次相乘操作；Per(·) 为两层感知机；pool_ave(·)表示对深度特征进行平均池化操作；

2)将上述操作输出的特征送入空间注意力模块再次进行改进操作，过程定义如下：

其中，Sp(·)表示空间注意力的操作，Conv(·)表示卷积操作；pool′_max(·)表示为对卷积特征通道的每一点的最大池化操作。

在上述方案的步骤2中深度改进特征与对应的RGB特征进行融合得到混合特征的具体步骤如下：

深度改进特征和RGB特征先串联，然后进行卷积操作将特征通道数缩小，从而形成混合特征，过程定义公式形式为：

F_m＝Re(Conv(f′_Dm⊙f_Rm)) (3)

其中，f′_Dm表示深度改进特征；f_Rm表示RGB特征；F_m表示混合特征；Re(·)表示激活函数Relu，对数值作归一化处理；Conv(·)表示卷积操作；⊙表示串联操作。

在上述方案的步骤3中混合特征通过特征分组监督融合模块得到显著图的具体步骤如下：

1)在特征分组监督融合模块中，从高层级到低层级相邻的每两个混合特征组合在一起，共分成了四组，每组特征中高层的特征进行上采样操作后与同组低层特征串联起来，随后进行卷积操作，得到多尺度特征F_Qi，过程定义如下：

F_Qi＝Re(Conv(Up(F_m)⊙F_m-1)) (4)

其中，Up(·)表示上采样操作；Re(·)表示激活函数Relu；Conv(·)表示卷积操作；

2)用高层输出的显著图和真值图迭代优化上层结果，得到多模态融合特征F′_Qi(特别地，最高层级组的特征融合过程中没有上一层显著图的监督)，过程定义如下：

F′_Qi＝F_Qi+Re(Conv(S))+Re(Conv(S_i-1)) (5)

其中，S_i-1表示高层输出的显著图；S表示真值图,Re(·)表示激活函数Relu；Conv(·)表示卷积操作；⊙表示串联操作；

3)在特征分组监督融合模块中引入特征增强模块对多模态融合特征F′_Qi进行提纯，特征增强模块包含四个平行分支和一个残差连接分支。特征提纯过程为：首先，将特征的四个分支进行卷积核1×1的卷积操作，将通道数缩小，然后对后三个分支分别进行卷积核为3×3，5×5和7×7，膨胀率为1的卷积处理，接着进行卷积核为3，膨胀率为3、5、7的处理，接下来，四个分支串联起来进行1×1的卷积操作，在输入特征与卷积后的输出操作之间进行一个残差连接，最终形成特征F″_Qi；

4)用卷积和激活函数对多模态多尺度特征F″_Qi进行处理，输出对应的显著图S_i，并以第4层级的显著图作为最终预测结果图，过程定义如下：

S_i＝Re(Conv(F″_Qi)) (6)

其中，Re(·)表示激活函数Relu；Conv(·)表示卷积操作。

在上述方案的步骤3中的特征融合过程中，使用二元交叉熵损失函数优化网络参数，公式表示为：

Loss＝-[Slog(S_i)+(1-S)log(1-S_i)] (7)

其中，S_i为每组输出的显著图；S为真值图；Loss为损失函数。

本发明的有益效果：本发明设计了一种RGB-D图像显著性检测方法，其中，基于注意力机制引入深度改进模块对深度图像特征进行优化，有效抑制了噪声的干扰；基于卷积神经网络引入特征分组监督融合模块对RGB特征和深度特征进行了高质量的充分融合，生成了完整、边缘清晰、准确的显著图。本发明设计的方法检测性能好，具有良好的鲁棒性；并且不依赖主干网络，具有良好的扩展性。

附图说明：

图1为本发明的网络结构示意图；

图2为本发明的深度改进模块的结构图；

图3为本发明的特征分组监督融合模块的结构图；

图4为本发明实施例中的检测效果图。

具体实施方式：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

参考附图1，一种RGB-D图像显著性检测方法的具体实现步骤如下：

1.技术路线

本发明采用Resnet50作为主干网络，在舍去全连接层和池化层的基础上，对结果进行多分支监督融合操作。首先将RGB图像和深度图像分别输入网络中，在特征提取阶段，获得各层来自深度图像的多尺度特，随后这些特征经过深度改进模块，减少了冗余的特征和噪声，与来自RGB图像的多尺度特征分别进行融合，融合后的混合特征，两两进行组合从高层到低层逐步通过特征分层监督融合模块，生成显著图S_i，并第4层级输出的显著图S₄作为最终结果显著图。

融合过程中，本发明使用二元交叉熵损失函数优化网络参数，具体公式为：

Loss＝-[Slog(S_i)+(1-S)log(1-S_i)] (1)

2.深度改进模块

携带丰富空间信息的深度图像能够对检测复杂场景下的目标对象提供有力的线索，如何从深度图中提取到有用的信息间接的影响显著性检测的性能。如附图2所示，本发明提出深度改进模块旨在克服低质量深度图存在的噪声与冗余问题，从中捕获有效信息。

视觉注意力机制应用于计算机视觉的任务中，核心思想是基于原有的数据找到其之间的关联性，然后突出其某些重要特征。本发明在深度改进模块引入了视觉注意力机制中的通道注意力以及空间注意力以从深度特征中获取高质量的信息。

深度改进模块位于每层卷积操作的后面，来自深度图的多尺度特征经过深度改进模块处理变为深度改进特征，此操作定义公式形式为：

f′_Dm＝T_DCM(f_Dm) (2)

其中：f_Dm,f′_Dm分别为深度图改进前和改进后的各层的特征；T_DCM(·)为改进操作。具体深度改进操作过程定义公式形式为：

T_DCM(f_Dm)＝Sp(Ch(f_Dm)) (3)

其中，式(4)的Ch(·)和式(5)的Sp(·)分别为通道注意力和空间注意力的操作；f_i表示输入的多尺度特征；

为元素依次相乘操作；式(4)中Per(·)为两层感知机，pool_ave(·)表示为对每层多尺度特征进行平均池化操作；式(5)中Conv(·)为卷积操作，pool′_max(·)表示为对卷积特征通道的每一点的最大池化操作。

本发明与其他方法不同，其他方法在特征处理上更多使用最大池化操作，而本发明引入的深度改进模块在通道注意力和空间注意力机制中分别用了平均池化和最大池化操作，平均池化操作更好地保留了背景信息，最大池化操作提取了特征纹理，减少了无用信息，本发明将两者相结合，使最终预测显著图的效果达到了最优。

3.特征分组监督融合模块

具有判别力的高层特征，如果简单用一个卷积操作生成本层结果，可能会将含有噪声的特征向下传递，影响结果质量，本发明引入了多模态多尺度特征分组监督融合模块解决了此问题。多模态多尺度特征分组监督融合模块如附图3所示。

在特征进入特征分组监督融合模块之前本发明先对来自RGB图像的不同等级的特征f_Rm和经过深度改进模块更新处理的深度图像的特征f′_Dm，进行串联和卷积操作将特征通道数缩小，形成混合特征F_m，此过程定义公式形式为：

F_m＝Re(Conv(f′_Dm⊙f_Rm)) (6)

其中，Re(·)为激活函数Relu，对数值作归一化处理，使提取出来特征更具有代表性；Conv(·)为卷积操作；⊙为串联操作。

接着将混合特征F_m，输入特征分组监督融合模块中融合，其中，不同层次的多模态多尺度特征两两进行组合被分为了四组：Q₁＝{F₄，F₅}，Q₂＝{F₃，F₄}，Q₃＝{F₂，F₃}，Q₄＝{F₂，F₁}。为使得特征充分被捕获，防止杂乱信息持续传递，本发明选择将每组混合特征两两组合先串联后卷积，从而依次得到了不同等级的多尺度特征F_Q1～F_Q4，此过程定义公式形式为：

F_Qi＝Re(Conv(Up(F_m)⊙F_m-1)) (7)

其中，Up(·)为上采样操作，即对每组高层特征进行上采样操作使之变得和下层特征大小相同。

为了使得结果最优化，本发明用高层输出的显著图S_i-1和真值图S去迭代优化上层结果，更新目标位置，清晰目标边缘，得到多模态融合特征F′_Qi，公式定义为：

F′_Qi＝Re(Conv(Up(F_m)⊙F_m-1))+Re(Conv(S))+Re(Conv(S_i-1)) (8)

其中，S_i-1表示高层输出的显著图；S表示真值图,Re(·)表示激活函数Relu；Conv(·)表示卷积操作；⊙表示串联操作；Up(·)表示上采样操作。

为进一步增强多模态特征的表示能力，在特征分组监督融合模块里引入特征增强模块对多模态融合特征F′_Qi进行提纯。它包含四个平行分支和一个残差连接分支，具体而言，首先，本发明将特征F′_Qi的所有分支进行卷积核1×1的卷积操作，将通道数缩小，然后对后三个分支分别进行卷积核为3×3，5×5和7×7，膨胀率为1的卷积处理；接着又进行了卷积核为3，膨胀率为3、5、7的操作，目的是高效提取有用的信息。为使得每层特征尽可能分布稳定，本发明在卷积后引入BN-Relu层(Batch normalization+ReLU)，通过BN层的归一化操作，让Relu更好地产生特征选择作用，加快网络收敛速度。接下来，四个分支串联起来进行1×1的卷积操作，在输入特征与卷积后的输出操作之间进行一个残差连接(Residual)目的是避免经多层训练效果不如前面的层，提升网络的表征能力，最终形成特征F″_Qi。

最后，对应多模态多尺度特征F″_Qi的显著图输出S_i的过程表示为：

S_i＝Re(Conv(F″_Qi)) (9)

特别地，最高层Q₁组的融合没有上一层显著图的监督。经过上述监督迭代优化等操作，最终，得到结果预测显著图S₄。

下面将上述方法应用到具体实施例中，以便本领域技术人员更好地理解本发明的效果。

本实施例的实现方法如前所述，不再详细阐述具体步骤，下面仅针对案例数据展示其效果。本发明选用NJU2000数据集前1400张，NLPR数据集前600张，SSD数据集前60张，LFSD数据集前60张图像进行训练，各数据集剩下的数据图像用于测试。

本实施例检测结果参考下表所示，其中，平均绝对误差(MAE)越小，F-measure，E-measure，S-measure 值越大表明检测性能越好，从表中结果可以看出本发明方法的检测整体结果优于其他方法，具有一定竞争力。

上述与本发明方法对比的其他方法，具体实现过程参见以下现有技术文献：

CPFP:Zhao J,Cao Y,Fan D,et al.Contrast Prior and Fluid PyramidIntegration for RGBD Salient Object Detection.2019IEEE/CVF Conference onComputer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA,2019.

CTMF:HAN J,CHEN H,LIU N,et al.CNNs-Based RGB-D Saliency Detection viaCross-View Transfer and Multiview Fusion.IEEE Transactions on Cybernetics,2018.

TAN:Chen H,Li Y.Three-Stream Attention-Aware Network for RGB-DSalient Object Detection. IEEE Transactions on Image Processing,2019.

BBSNet:Fan D P,Zhai Y J,Borji A,et al.Shao,L.BBS-Net:RGB-D salientobject detection with a bifurcated backbone strategy network.Computer Vision–ECCV,2020.

附图4给出了实施例的可视化结果。第一列为RGB图像，第二列为深度图像，第三列为真值图，第四列到第七列为与本方明方法对比的其他方法的检测图，第八列为本发明方法生成的显著性图。附图4(a) 是普通背景下单目标的显著性检测图，从图片看出，本发明方法识别出的物体，边缘更清晰；附图4(b) 是对受光线干扰的图像的检测，光线反射易造成图像原本颜色或形状的改变，由结果可以看出，本发明方法能够有效克服光线带来的影响，更好地识别出目标物体；附图4(c)是在复杂场景下对多物体的检测，本发明方法能够清晰地检测出所有物体；附图4(d)是在低对比度的场景中识别出目标物体，本发明方法充分利用深度图像的有用特征，有效抑制了背景与目标对比不明显的干扰，取得了良好的可靠结果。

以上所述仅为本发明的较佳实施例而已，并非用以限制本发明，有关技术领域的人员在不脱离本发明的实质和范围的情况下，可以做出修改、等同替换和改进等，均包含在本发明的保护范围之内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种RGB-D图像显著性检测方法，其特征在于，包括如下步骤：

步骤1、建立一种多分支主干监督的网络结构对RGB-D图像进行显著性目标检测，将RGB图像和深度图像分别输入到舍去全连接层和池化层的Resnet50主干网络中，提取每层的RGB特征和深度特征；

步骤2、将各层的深度特征输入到每个层级相应的深度改进模块中，得到的深度改进特征与相应的RGB特征进行融合，经过串联、卷积、激活操作后得到各层的混合特征；

基于注意力机制引入的深度改进模块，增强深度特征的显著性表现能力，深度改进模块中引入视觉注意力机制中的通道注意力以及空间注意力，以从深度特征中获取高质量的信息：改进前的深度特征首先通过通道注意力模块，随后进入空间注意力模块，前者使用了平均池化操作更好地保留背景信息，后者使用了最大池化操作提取特征纹理，减少无用信息，两者相结合得到质量更高的深度特征；

步骤3、将混合特征从高层到底层两两组合，分别通过特征分组监督融合模块，得到各层显著图，其中，在每个特征分组监督融合模块中都加入上一层输出的显著图和真值图进行监督，最终经过迭代优化以第4层级输出的显著图作为最终结果显著图；

基于卷积神经网络引入的特征分层监督融合模块中引入特征增强模块对每组融合后并且受到上层结果和真值图监督的多模态融合特征进行提纯，特征增强模块包含四个平行分支和一个残差连接分支，经过提纯后的特征质量更高。

2.根据权利要求1所述的RGB-D图像显著性检测方法，其特征在于，所述步骤2中深度特征送入到每个层级相应的深度改进模块中得到深度改进特征f′_Dm的具体步骤如下：

表示元素依次相乘操作；Per(·)为两层感知机；pool_ave(·)表示对深度特征进行平均池化操作；f_i′表示经过通道注意力操作后的输出特征；

2)将特征f_i′送入空间注意力模块再次进行改进操作，过程定义如下：

其中，Sp(·)表示空间注意力的操作，Conv(·)表示卷积操作；pool′_max(·)表示为对卷积特征通道的每一点的最大池化操作；f′_Dm表示经过空间注意力操作后的最终的深度改进特征。

3.根据权利要求1所述的RGB-D图像显著性检测方法，其特征在于，所述步骤2中深度改进特征f_D′_m与对应的RGB特征进行融合得到混合特征的具体步骤如下：

F_m＝Re(Conv(f′_Dm⊙f_Rm)) (3)

4.根据权利要求1所述的RGB-D图像显著性检测方法，其特征在于，所述步骤3中混合特征通过特征分组监督融合模块得到显著图的具体步骤如下：

F_Qi＝Re(Conv(Up(F_m)⊙F_m-1)) (4)

2)用高层输出的显著图和真值图迭代优化上层结果，得到多模态融合特征F^′ _Qi(特别地，最高层级组的特征融合过程中没有上一层显著图的监督)，过程定义如下：

F′_Qi＝F_Qi+Re(Conv(S))+Re(Conv(S_i-1)) (5)

其中，S_i-1表示高层输出的显著图；S表示真值图,Re(·)表示激活函数Relu；Conv(·)表示卷积操作；⊙表示串联操作；Up(·)表示上采样操作；

3)在特征分组监督融合模块中引入特征增强模块对多模态融合特征F′_Qi进行提纯，特征增强模块包含四个平行分支和一个残差连接分支，特征提纯过程为：首先，将特征的四个分支进行卷积核1×1的卷积操作，将通道数缩小，然后对后三个分支分别进行卷积核为3×3，5×5和7×7，膨胀率为1的卷积处理，接着进行卷积核为3，膨胀率为3、5、7的处理，接下来，四个分支串联起来进行1×1的卷积操作，在输入特征与卷积后的输出操作之间进行一个残差连接，最终形成特征F″_Qi；

S_i＝Re(Conv(F″_Qi)) (6)

其中，Re(·)表示激活函数Relu；Conv(·)表示卷积操作。

5.根据权利要求1所述的RGB-D图像显著性检测方法，其特征在于，所述步骤3中的特征融合过程中，使用二元交叉熵损失函数优化网络参数，公式表示为：

Loss＝-[Slog(S_i)+(1-S)log(1-S_i)] (7)