CN113393434A

CN113393434A - 一种基于非对称双流网络架构的rgb-d显著性检测方法

Info

Publication number: CN113393434A
Application number: CN202110652710.2A
Authority: CN
Inventors: 张淼; 朴永日; 孙小飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明公开了一种基于非对称双流网络架构的RGB‑D显著性检测方法，包括：基于RGB‑D数据集中RGB图像和对应的Depth深度图分别得到输入张量I_RGB和I_D；将输入张量I_RGB和I_D输入非对称双流网络架构，得到基于RGB和Depth的多尺度编码特征；非对称双流网络架构中，RGB流网络在VGG的基础上还包括流阶梯模块，采用四个细节信息传递分支；Depth流网络采用一个细节信息传递分支；通过深度注意力模块将提取到的深度特征融合进RGB流中，得到具有丰富位置信息的互补特征；通过解码器对得到的互补特征进行特征解码，得到最终显著性预测结果。本发明构建了基于非对称的双流网络架构的RGB‑D显著性检测模型，充分考虑了RGB和Depth数据之间的固有差异，对于很多有挑战性的场景都能取得准确的预测结果。

Description

一种基于非对称双流网络架构的RGB-D显著性检测方法

技术领域

本发明涉及到计算机视觉领域，尤其是涉及一种基于非对称的双流网络架构的RGB-D显著性检测实现方法。

背景技术

显著性检测是指在一幅图像里，旨在识别最能吸引用户的视觉注意力和最引人注目的区域和物体，由于在场景中选择最具视觉特征的信息，在计算机视觉中的广泛应用引起了人们的广泛关注。伴随着显著性目标检测算法的日渐成熟，在越来越多的工业界或学术界领域都涉及到了对其的应用。在工业界，比如在生活场景中通过手机或其他照相设备对商品场景进行拍摄，再对其进行处理得到所关注的商品的详细信息等。在学术界，例如在物体的跟踪识别中进行显著性检测，剔除掉其余场景信息从而直接获得运动物体的运行轨迹；还有图像检索，主要是利用显著性目标区域的信息以及其所位于的空间分布情况，来进行多个图片之间的匹配和搜索，因此显著性算法在图像检索中，具有非常重要的作用和意义。此外还有场景分类，姿势估计等领域，显著性检测都占据着十分重要的地位。

根据输入形式的不同，显著性检测可以分为两大种类：静态图像显著性检测和视频显著性检测。其中静态图像显著性检测包括2D显著性检测、3D显著性检测和光场(4D)显著性检测。2D显著性检测的输入是RGB彩色图像；3D显著性检测(也即RGB-D显著性检测)的输入包括RGB彩色图像和与其相对应的深度图像；4D光场显著性检测的输入是光场图像，包括全聚焦RGB图像、焦点堆栈图像(一系列聚焦在不同深度层面物体上的聚焦切片图像)和深度图。而视频显著性检测则是以连续的视频帧作为输入，相较于2D显著性检测多了时间维度的信息需要考虑。

2D显著性检测方法是最为常见的基于静态图像的显著性检测方法，它采用图像对比度，颜色，纹理等信息来进行检测，虽然在现有的2D显著性检测数据库上取得了很好的检测结果，但RGB数据中的外观特征对于某些具有挑战性的场景(如多个或透明的物体，相似的前景和背景，复杂的背景，低强度的环境等)的预测效果较低。与单一RGB图像相比，深度信息在位置和空间结构上具有更好的判别力，这已被证明有利于精确的显着性预测。此外，随着深度传感器(例如Kinect)的出现，用于RGB自然图像的配对Depth深度数据可较易获得。近年来许多关于RGB-D的显著性目标检测的工作证明通过Depth信息对RGB特征的指导，显著性的检测效果得到了有效提升。大多数基于RGB-D的方法利用对称的双流体系结构来提取RGB和深度特征。

但是，虽然RGB数据包含更多信息，例如颜色，纹理，轮廓以及有限的位置信息，但是灰度深度数据提供了更多信息，例如空间结构和3D布局信息。因此，对称的RGB-D双流网络可能会忽略RGB和深度数据的固有差异，从而造成误检或错检等情况。此外，现有的RGB-D方法在采用RGB和深度流网络中的采用的跨步和合并操作时不可避免地会造成细节信息的丢失。

发明内容

有鉴于此，本发明提供了一种基于非对称的双流网络架构的RGB-D显著性检测方法，利用RGB信息和Depth深度信息进行显著性检测，并通过非对称的双流网络优化更新，实现了复杂场景下高质量的RGB-D显著性检测结果。

为此，本发明提供的技术方案如下：

本发明提供了一种基于非对称双流网络架构的RGB-D显著性检测方法，包括如下步骤：

步骤1、基于RGB-D数据集中对应的RGB图片和Depth深度图分别得到输入张量I_RGB和I_D；

步骤2、将输入张量I_RGB和I_D输入非对称双流网络架构，得到基于RGB和Depth的多尺度编码特征

和

以及B_iL_j，i＝1，2，3，4，j＝1，2，3；

所述非对称双流网络架构包括：RGB流网络和Depth流网络；所述RGB流网络采用的特征编码器为VGG架构，并丢弃最后三层全连接层，以保留空间结构，提取多尺度上下文信息；所述RGB流网络中还包括流阶梯模块，所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息，最终得到基于RGB的多尺度编码特征；所述Depth流网络所采用的特征编码器为一个细节信息传递分支，能够在提取Depth特征时保留其空间分辨率；所述特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图；

步骤3、将提取出的基于Depth的多尺度编码特征

融合进RGB流中，得到具有丰富位置信息的互补特征；

步骤4、通过解码器对得到的互补特征进行特征解码，得到最终显著性预测结果；表示如下：

其中

表示m个卷积和长宽为w和h，步长为d的卷积操作；其中，w＝h＝d＝1；m＝3；δ表示Sigmoid操作；Up_s表示scale factor为s的双线性插值上采样操作；F_final表示最终的显著性预测输出。

进一步地，步骤3包括：

通过深度注意力模块将提取到的深度特征

融合进

特征中，得到具有丰富位置信息的互补特征

所述深度注意力模块包括上下文注意力模块和通道注意力模块；所述上下文注意模块以深度特征

为输入，通过Softmax操作输出

各个通道的权重α_i，i＝1，2，...，C；表示如下：

其中α_i表示第i个通道的权重，

分别表示特征

中的第j个和第m个像素位置，N_p是特征图

中某一通道的像素数量，也即H×W；C_w×h，d表示卷积和长宽为w和h，步长为d的卷积操作，其中w＝h＝d＝1；

表示矩阵乘操作；

所述通道注意力模块将所述上下文注意模块得到的各个通道的权重α_i，i＝1，2，...，C融入于深度特征

中，得到关注于全局上下文的增强的深度特征；

将增强的深度特征融入对应的RGB特征

中，得到融合后的互补特征

表示如下：

其中C_w×h，d表示卷积和长宽为w和h，步长为d的卷积操作，其中，w＝h＝d＝1；δ表示Sigmoid操作；

表示DepthNet中第t层提取的深度特征

表示由FLM模块得到的不同阶段的特征，其中t＝3，4，5；

表示像素乘操作；α_i表示第i个通道特征的权重值；β_i表示

的第i个通道的注意力权重图；

代表第s个阶段融合后的互补特征，其中s＝3，4，5。

进一步地，所述VGG架构为VGG-19骨干网络；

所述流阶梯模块采用VGG-19输出的基于RGB的多尺度编码特征作为输入，并以局部-全局进化融合的方式集成四个细节信息传递分支中提取的多尺度局部和全局特征；

所述局部-全局进化融合包括：每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息；较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中，而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。

进一步地，步骤1包括：

根据RGB-D数据集的训练集和测试集，获取RGB图片，对应的Depth深度图以及对应的显著性真值GT；

对所述RGB图片和对应的Depth深度图进行数据增强，包括：

对RGB-D数据集的训练集中的RGB图片、Depth深度图以及真值GT进行上下左右边界的裁剪；使用水平和垂直的翻转并调整大小到H×W；将增强后的RGB原图和Depth深度图转变为网络可处理的张量；再进行均值为mean，方差为std的归一化操作，得到张量I_RGB和I_D；

对RGB-D数据集的测试集中的RGB图片和对应的Depth深度图调整大小到H×W；对调整后的RGB原图和对应的Depth深度图转变为网络可处理的张量；再进行均值为mean，方差为std的归一化操作，得到张量I_RGB和I_D；

其中所述归一化操作定义如下：

其中，I_input为归一化前的RGB图像和Depth深度图，I_out为归一化后的张量I_RGB和I_D；mean和std为超参数，表示进行归一化操作的均值和方差。

进一步地，所述H×W为256×256。

进一步地，所述mean取[0.447，0.407，0.386]，所述std取[0.244，0.250，0.253]。

进一步地，所述T取5。

进一步地，通道C在第3阶段取32，在第4阶段取32，在第5阶段取128。

本发明上述技术方案具有以下有益效果：

考虑到大多数利用对称双流体系结构的基于RGB-D的方法都忽略了RGB和深度数据之间的固有差异，本发明提出了一种非对称双流体系结构，此双流体系结构包括轻量级的Depth深度流和带有流阶梯模块(FLM)的RGB流，分别是DepthNet和RGBNet。对于深度流，本发明设计了一种轻量级的体系结构；然后，通过深度注意机制(DAM)将提取的深度特征馈入RGB流中，以生成具有丰富位置信息和空间信息的互补特征。对于RGB流，本发明采用体系结构VGG-19作为基准，基于此基准，本发明提出了一种新颖的流阶梯模块(FLM)，以保留显著性细节信息并以进化的方式从其他并行分支的特征表示中接收全局位置信息，这有助于定位显著区域并获得可观的性能提升。实验结果表明，本发明提出的基于非对称的双流网络架构的RGB-D显著性检测方法对于很多复杂场景和挑战性场景都能取得准确的预测结果。

基于上述理由本发明可在计算机视觉领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是RGB图像、Depth深度图像以及真值示意图；

图2是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程图；

图3是本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的又一流程图；

图4是本发明实施例中非对称双流网络架构的总体架构以及流阶梯模块(FLM)的结构示意图；

图5是本发明实施例中深度注意力模块(DAM)的结构示意图。

具体实施方式

本发明使用非对称双流网络来达成精确显着性检测的目标。实现此目标的主要挑战是如何在保留本地显著性细节信息的同时有效地提取丰富的全局上下文信息。第二个挑战是如何有效利用深度特征的判别力来引导RGB特征以准确定位突出的对象。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图2和图3，其示出了本发明实施例中一种基于非对称双流网络架构的RGB-D显著性检测方法的流程示意图，该方法包括如下步骤：

A、基于RGB-D数据集中的RGB图片和对应的Depth深度图分别得到输入张量I_RGB和I_D，其步骤如下：

A1、获取对应的RGB图片和Depth深度图：

根据RGB-D数据集的训练集和测试集，获取如图1所示的RGB图片、对应的Depth深度图以及对应的显著性真值GT；

A2、分别得到输入张量I_RGB和I_D：

对RGB-D训练集中的RGB图片和对应的Depth深度图进行数据增强，首先对此RGB图，Depth深度图以及真值GT进行上下左右边界的裁剪，接着使用水平和垂直的翻转并调整大小到H×W(本发明实施例中取256×256)；将增强后的RGB图像和Depth深度图首先转变为网络可处理的张量，再进行均值为mean，方差为std的归一化操作，得到张量I_RGB和I_D；

对RGB-D测试集中的RGB图片和对应的Depth深度图调整大小到256×256，接着将调整后的RGB图片和对应的Depth深度图首先转变为网络可处理的张量，再进行均值为mean，方差为std的归一化操作，得到张量I_RGB和I_D；

其中归一化操作定义如下：

其中，I_input为归一化前的RGB图片和Depth深度图，I_out为归一化后的张量I_RGB和I_D；mean和std为超参数，mean和std均为1*3的数组；表示进行归一化操作的均值和方差，此处取mean＝[0.447，0.407，0.386]，std＝[0.244，0.250，0.253]。

B、将输入张量I_RGB和I_D输入非对称双流网络架构，得到基于RGB和Depth的多尺度编码特征

和

以及B_iL_j，i＝1，2，3，4，j＝1，2，3。

参见图4，其示出了本发明实施例中非对称双流网络的总体架构；非对称双流网络架构包括：RGB流网络和Depth流网络；其中，RGB流网络采用的特征编码器为VGG架构，并丢弃最后三层全连接层，以保留空间结构，提取多尺度上下文信息；RGB流网络中还包括流阶梯模块(FLM模块)，所述流阶梯模块构造了四个细节信息传递分支来保留局部细节信息并且进化式地融合了全局位置信息，最终得到基于RGB的多尺度编码特征。FLM模块可以保留多个尺度和级别的表示分辨率，从而确保局部细节信息和全局位置信息有助于显着性检测的精度，FLM模块应用于VGG-19骨干网络中，其采用VGG-19的每个阶段的输出特征也即多尺度特征作为输入，并以局部-全局进化融合流程的方式集成了四个细节信息传递分支。此外本发明提出了一种新颖的局部-全局进化融合策略，用于集成从细节信息传递分支中提取的多尺度局部和全局特征。每个分支都通过局部-全局进化融合流从其他垂直并行特征中获取丰富的信息。这样，在保留更多本地显著性细节信息的同时，生成了丰富的全局上下文信息。具体来说，较深的分支的表示通过上采样和像素级加和操作融合到较浅的分支中，而较浅的分支的表示通过下采样和像素级加和操作融合到较深的分支中。通过不同分支之间的演进，可以将局部细节信息和全局上下文信息有效地结合在一起，从而提高显著性检测的准确性。

Depth流网络所采用的特征编码器为一个细节信息传递分支，能够在提取Depth特征时保留其空间分辨率；特征编码器针对每一帧Depth深度图像生成对应于RGB流的T个阶段的特征图；

由于相较于RGB流网络，Depth流网络只采用了一个细节信息传递分支，因此体量远小于RGB流网络，形成一个非对称双流架构。

在该非对称双流网络架构下，步骤B具体包括如下步骤：

B1、将所得输入张量I_RGB输入RGB流网络，得到基于RGB的多尺度编码特征

以及B_iL_j，i＝1，2，3，4，j＝1，2，3：

具体表示如下：

其中B_i和L_j分别代表第i个分支和第j层；

表示基于VGG-19编码的多尺度特征；f(·)表示当n＞i时，进行n-i倍双线性上采样插值操作；当n＜i时，进行i-n倍下采样操作；当n＝i时，表示无操作；trans表示卷积核为1×1，步长为1的卷积，以实现通道变换；cat表示级联操作；

表示由FLM模块得到的不同阶段的特征，用于输入后续DAM模块，其中t＝3，4，5；并且在加入深度注意力模块DAM之后，

B2、将所得输入张量I_D输入Depth流网络，得到基于Depth的多尺度编码特征

具体细节如表1所示，其中k表示卷积核大小，s代表步长，chn代表每一层的输入/输处通道数，p表示padding，in和out表示输入和输出特征的大小。

表1

C、通过深度注意力模块(DAM)将提取到的深度特征

融合进FLM模块的输出特征中，得到具有丰富位置信息的互补特征

参见图5，其示出了本发明提出的深度注意力模块(DAM模块)的结构示意图。考虑到深度线索对于显著性预测的贡献程度不同，为了充分利用具有位置和空间结构判别力的深度线索，本发明设计了深度注意力模块，以自适应地融合RGB和Depth深度特征。首先，利用一个上下文注意力模块来更精确地提取显著位置信息，而不是使用简单的融合(例如像素级加和或串联)。然后，采用矩阵乘法运算将所有位置的特征聚合在一起，以生成关注于每个通道的注意力权重，以捕获像素级空间相关性。而且，不同通道的特征对显著区域的响应程度不同。因此，采用了一个通道注意力模块，以捕获通道之间的相互依赖性，并进一步得到了加权的深度特征。然后，采用像素级乘运算将其融合到RGB流中，这有助于在像素级别上引导RGB信息以彻底区分显著与非显著区域。

基于上述深度注意力模块，步骤C包括如下步骤：

C1、将深度特征

送入上下文注意力模块：

所提出的上下文注意力模块以深度特征

为输入，并通过Softmax操作输出关于

各个通道的权重α_i,i＝1,2,…,C，用于后续获得关注于全局上下文的特征；具体可表示为：

其中α_i表示第i个通道的权重，

分别表示特征

中的第j个和第m个像素位置，N_p是特征图

表示矩阵乘操作；

C2、利用通道注意力模块，对得到的通道权重α_i，i＝1，2，...，C，将其编码进深度特征与FLM模块的输出特征，得到DAM输出的互补特征；

得到代表不同通道响应程度的通道权重α_i，i＝1，2，...，C后，利用另一个通道注意力模块，将其融入于深度特征

中，得到关注于全局上下文的增强的深度特征；其次，将增强的深度特征融入对应的FLM特征

中，得到融合后的互补特征

具体可表示如下：

其中C_w×h，d表示卷积和长宽为w和h，步长为d的卷积操作，其中w＝h＝d＝1；δ表示Sigmoid操作；

表示DepthNet中第t层提取的深度特征t＝3，4，5；

表示由FLM模块得到的不同阶段的特征，其中t＝3，4，5；

表示像素乘操作；α_i表示第i个通道特征的权重值；β_i表示

的第i个通道的注意力权重图；

代表第s个阶段融合后的互补特征，其中s＝3，4，5。

D、通过解码器对得到的互补特征进行特征解码，得到最终显著性预测结果；

从第5个阶段的DAM输出的特征包含了不同尺度的高级和低级信息，并且整合了Depth特征的指导信息，对此采用一个简易的解码器进行特征解码，得到最终的显著性预测输出；其可具体表示为：

其中

表示m个卷积和长宽为w和h，步长为d的卷积操作；δ表示Sigmoid操作；Up_s表示scale factor为s的双线性插值上采样操作；F_final表示最终的显著性预测输出；

E、非对称双流网络的训练及优化：

本发明整体可分为训练和推理两个阶段，在训练时以训练集的张量作为输入，得到训练好的网络参数；在推理阶段使用训练阶段保存的参数进行测试，得到最终的显著性预测结果。

本发明实施例在Pytorch框架下实现，其中训练阶段时使用SGD优化器，learningrate＝1e-10，momentum＝0.9，weight decay＝0.0005，并且批处理大小2。在训练期间，图像的空间分辨率为256×256，但是模型可以是在测试时以全卷积方式应用于任意分辨率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。