CN111931787A

CN111931787A - 一种基于特征聚合的rgbd显著性检测方法

Info

Publication number: CN111931787A
Application number: CN202010710225.1A
Authority: CN
Inventors: 颜成钢; 温洪发; 周晓飞; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-13

Abstract

本发明提供一种基于特征聚合的RGBD显著性检测方法，首先对输入图像进行预处理；然后构建显著性检测网络；显著性检测网络包括特征提取网络和特征聚合网络。特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支。特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non‑local模块。最后训练显著性检测网络，通过训练好的显著性检测网络进行显著性检测；本发明高效地联合推理了2D外观和3D几何信息，充分融合了来自于RGB图像和深度图像这两种不同模态的信息，通过分级融合模块进一步提升了模型的多尺度表达能力，使得粗糙级别的特征和精细级别的特征很好地融合在一起。

Description

一种基于特征聚合的RGBD显著性检测方法

技术领域

该基于特征聚合的RGBD显著性检测方法属于计算机视觉领域，特别是利用卷积神经网络来聚合RGB图像和深度图像中所包含的不同模态的特征信息。

背景技术

随着计算机视觉的快速发展和人工智能浪潮的来袭，深度学习技术得到了广泛的应用。利用计算机技术来模拟人眼的注意力机制成为了一个新兴且极具挑战性的研究热点。视觉显著性是指人类在观察某一区域时视野中存在能够引起人类视觉关注的局部区域，该局部区域被称为显著区域。显著性检测主要用于凸显图像或者视频中的显著区域。总体来说，显著性检测广泛应用于图像分割、对象识别、视频编码等领域，开展相关研究工作具有十分重要的实际意义。

目前，已经陆续提出了许多针对RGB图像的显著性检测模型，但是在某些复杂场景中，例如前景和背景相似、光照强度低等，其整体表现仍差强人意。随着传感器技术的不断发展，深度传感器(Microsoft Kinect和Intel RealSense等)采集到的深度信息在一定程度上解决了这一问题。因此，在RGB显著性检测的基础上引入蕴含丰富空间结构信息的深度特征，即RGBD显著性检测，进一步推动了显著性检测任务的发展，提升了显著区域的检测精度。

尽管已有RGBD显著性检测方法取得了令人鼓舞的性能，但在几个关键方面仍有很大的改进空间：1)目前已有的基于深度学习的RGBD显著性检测模型基本上是利用卷积神经网络(CNNs)来进行特征提取，不管是对于RGB图像还是深度图像来说都是如此。毫无疑问，CNNs特别是全卷积神经网络(FCNs)在图像处理领域取得了瞩目的成就，大幅提升了在相关任务上的性能表现，因而得到了极其广泛地应用。但是，众所周知，CNNs更擅长于提取二维外观信息，而缺乏对三维几何信息进行有效表征的能力。不可否认的是，深度图像作为RGB图像的补充，其能够可靠地反映场景中的空间结构，从而更有利于准确地区分显著区域和背景区域。2)RGB图像和深度图像这两种不同的模态存在固有差异，因此很难通过简单的串联将这两种模态进行有效地融合。具体来说，RGB图像反映的主要是颜色、纹理和亮度等外观信息，而深度图像则更多的表达了场景中的空间几何信息，二者截然不同，如果只是采取简单的融合策略可能会导致不兼容问题。3)在风格迥异的众多场景中，往往会存在尺度差异明显的对象，这将极大的考验模型的多尺度表达能力。探索如何在复杂场景下兼顾不同尺度的特征，进而精确定位显著区域具有重要的理论意义。

发明内容

针对现有技术中存在的不足，本发明提供一种基于特征聚合的RGBD显著性检测方法。通过用于RGBD显著性检测的端到端的特征聚合网络模型进行显著性检测。

一种基于特征聚合的RGBD显著性检测方法，步骤如下：

步骤1、对输入图像进行预处理；

通过HHA算法将深度图像由单通道编码为三通道的表示形式。同时，模拟类似于点云的数据结构，将深度信息从2D像素转换成3D点云。

步骤2、构建显著性检测网络；

显著性检测网络包括特征提取网络和特征聚合网络。

所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支，分别用于提取RGB图像和深度图像的多级外观和几何特征。通过特征提取网络提取得到多级外观特征和多级几何特征。

所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块。

构建的K近邻GNNs，分别将点云中的点与对应的双流CNNs输出的特征相关联，并以此作为图模型节点的初始状态。在迭代更新的过程中，每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定。

设计基于注意力机制的区域增强模块，在进行跨模态特征初步融合的同时实现粗略地定位显著区域。区域增强模块可以分别强化显著区域与非显著区域，进而为前景和背景的预测提供可靠的模版。

通过分级融合模块，利用基于池化的结构提升模型的多尺度表达能力。

分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征，进而与相应级别的初步融合特征进行深度融合。多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合，使得模型在复杂场景下更具鲁棒性。

特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征，并以注意力和多尺度的方式逐步地强化了显著性特征。最后，在真值图的约束下生成高质量的显著性图。

步骤3、训练显著性检测网络，通过训练好的显著性检测网络进行显著性检测；

进一步的，所述的步骤1具体方法如下：

输入图像包括深度图像和RGB图像，采用HHA算法将深度图像由单通道编码为三通道的表示形式，分别表征了水平视差、离地面的高度以及像素局部表面法线与推断的重力方向所成的角度，形成以RGB图像I和深度图像D作为模型输入的图像对。

进一步的，所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支，分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式，丢弃特征提取网络最后的全连接层，其中RGB图像特征提取分支保留了5级卷积块，分别实现了2、4、8、16、16倍的下采样，而深度图像特征提取分支保留了3级卷积块，分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征

和多级几何特征

覆盖了低级空间细节和高级语义信息。

进一步的，所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像，为了降低计算复杂度和减少内存消耗，进行8倍下采样。利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构，并以此构造有向图，其中将每一个像素视为一个图节点。在有向图构造完后，使用CNNs作为特征提取器计算每一个像素的特征，所述的像素的特征为外观特征，并将获得的外观特征作为相应节点的初始隐层状态

K近邻GNNs只随时间变化更新图中节点的隐层状态，故将更新过程简化为：

其中，向量

表示表示在t时刻节点v从它相邻节点集合

中收集到的信息,

为邻域信息聚合函数，

为隐层状态更新函数，定义某一时刻t的

其中

表示用于聚合每一个节点的邻域信息的多层感知机(MLP)。采用K近邻算法计算节点的特定邻域范围。定义某一时刻t的

其中

表示用于更新每一个节点的隐层状态的多层感知机(MLP)，[·]表示级联操作。在循环T次后，K近邻GNNs输出特征

进一步的，所述的特征聚合网络采用基于注意力机制的区域增强模块，在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征

和

采用按元素相加的方式进行初步融合，然后通过Sigmoid函数将特征值映射到0至1之间。为了突出显著区域，利用最大池化操作进行特征选择；相似地，为了突出非显著区域，在取反的基础上利用最大池化操作进行特征选择，公式如下：

其中，

代表最大池化操作，

代表Sigmoid函数，+表示按元素相加，-表示按元素取反。通过将前景特征F_FG和背景特征F_BG进行叠加，获得既突出显著区域又抑制非显著区域的特征注意力模版，并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示。然而，在特征选择的过程中会造成一定的特征丢失，为此尽可能地保留原始特征，计算公式如下：

其中，×表示按元素相乘，则特征图

表示相应的区域增强模块的输出，能够有效地定位并突出显著区域。

进一步的，所述的特征聚合网络共包括5个分级融合模块，依次串联，其中每一个分级融合模块中都包含4个子分支，除了直连分支外，其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样，在经过卷积核大小为3×3的卷积层后，执行双线性插值操作，将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合，缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸，再通过一个卷积核大小为3×3、步长为1的卷积层。

所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算，则第i个分级融合模块的最终输出可以计算为，

其中，i∈{1，2，3，4，5}，C_3×3(·)代表卷积核大小为3×3的卷积层，+表示按元素相加，

表示经过多尺度融合后的

表示相应区域增强模块的输出，

表示经过j倍上采样的分块Non-local模块的输出。需要注意的是，当i＝4时，融入了来自于K近邻GNNs的包含丰富空间几何信息的特征F^G，此时相应分级融合模块的输出如下：

其中，F^IDG表示充分融合了外观信息和空间信息的混合特征，其可以定义为：

当i＝5时，

当i＝1时，

最终，

之后是一个1×1卷积层，以获得最终的显著性图。

进一步的，所述的步骤3具体方法如下；

特征提取网络的参数使用在ImageNet数据集上预训练的相应模型进行初始化，其余参数进行随机初始化。通过Adam优化器进行优化，并且将动量、权重衰减率和初始学习率分别设为0.9、5e-4和5e-5。将批量大小设为1，总训练周期设为50，采用交叉熵损失以实现收敛，并在44个周期后将学习率除以10。

本发明有益效果如下：

本发明创新性地引入了K近邻图神经网络用于充分挖掘深度图像中所蕴含的空间几何信息。K近邻图神经网络协同卷积神经网络高效地联合推理了2D外观和3D几何信息。基于注意力机制的区域增强模块充分融合了来自于RGB图像和深度图像这两种不同模态的信息，在进行跨模态特征融合的同时实现了粗略地定位显著区域。基于池化的结构的分级融合模块进一步提升了模型的多尺度表达能力，使得粗糙级别的特征和精细级别的特征很好地融合在一起。

附图说明

图1为基于特征聚合的RGBD显著性检测方法的框架图；

图2为区域增强模块示意图；

图3为分级融合模块示意图。

具体实施方式

本发明提出了一种基于特征聚合的RGBD显著性检测方法，下面将结合相关步骤进行详细说明。

我们提出的方法是使用PyTorch工具箱实现的，并在具有NVIDIA GeForce RTX2080Ti GPU和126GB内存的高性能服务器上进行了训练。

一种基于特征聚合的RGBD显著性检测方法，步骤如下：

步骤1、对输入图像进行预处理；

步骤2、构建显著性检测网络；

如图1所示，显著性检测网络包括特征提取网络和特征聚合网络。

所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支，分别用于提取RGB图像和深度图像的多级外观和几何特征。为了实现端到端的训练方式，丢弃特征提取网络最后的全连接层，其中RGB图像特征提取分支保留了5级卷积块，分别实现了2、4、8、16、16倍的下采样，而深度图像特征提取分支保留了3级卷积块，分别实现了2、4、8倍的下采样。通过特征提取网络提取得到多级外观特征

和多级几何特征

覆盖了低级空间细节和高级语义信息。

考虑到CNNs对三维几何信息并不敏感，采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题。对于给定的深度图像，利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构，并以此构造有向图，其中将每一个像素视为一个图节点。在有向图构造完后，使用CNNs作为特征提取器计算每一个像素的特征，所述的像素的特征为外观特征，并将获得的外观特征作为相应节点的初始隐层状态

进一步的，为了降低计算复杂度和减少内存消耗，将有向图建立在8倍下采样后的特征图之上。

其中，向量

表示表示在t时刻节点v从它相邻节点集合

中收集到的信息,

为邻域信息聚合函数，

为隐层状态更新函数，定义某一时刻t的

其中

其中

其巧妙地结合了二维外观信息和三维几何信息。

采用基于注意力机制的区域增强模块，在融合跨模态特征的同时粗略地定位了显著区域。通过相应的区域增强模块对于不同模态的特征

和

其中，

代表最大池化操作，

其中，×表示按元素相乘，则特征图

表示相应的区域增强模块的输出，能够有效地定位并突出显著区域。区域增强模块使我们的模型能够产生更加准确的显著性预测结果，这是因为其在强化显著区域的同时对非显著区域进行了有效抑制。

图2为区域增强模块示意图；

当处理多尺度信息时，特征兼容是关键，本方法引入了分级融合模块。基于池化结构的一系列分级融合模块实现了多尺度特征间的兼容，有效提升了模型的多尺度表达能力。特征聚合网络共包括5个分级融合模块，依次串联，其中每一个分级融合模块中都包含4个子分支，除了直连分支外，其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样，在经过卷积核大小为3×3的卷积层后，执行双线性插值操作，将不同尺度的特征图上采样到输入特征图的大小。然后将4个子分支的特征图以按元素相加的方式进行融合，缓解了上采样的混叠效应。通过双线性插值操作将融合后的特征图上采样到相应的尺寸，再通过一个卷积核大小为3×3、步长为1的卷积层。

为了充分融合粗糙级别和精细级别的特征，提升模型的鲁棒性，本方法进一步融合了相应级别的浅层局部细节信息和深层高级语义信息。特别地，我们引入了分块Non-local模块，所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野。通过分块Non-local模块和区域增强模块的输出进行进一步计算，则第i个分级融合模块的最终输出可以计算为，

表示经过多尺度融合后的

表示相应区域增强模块的输出，

当i＝5时，

当i＝1时，

最终，

之后是一个1×1卷积层，以获得最终的显著性图。

图3为分级融合模块示意图。

Claims

1.一种基于特征聚合的RGBD显著性检测方法，其特征在于，步骤如下：

步骤1、对输入图像进行预处理；

通过HHA算法将深度图像由单通道编码为三通道的表示形式；同时，模拟类似于点云的数据结构，将深度信息从2D像素转换成3D点云；

步骤2、构建显著性检测网络；

显著性检测网络包括特征提取网络和特征聚合网络；

所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支，分别用于提取RGB图像和深度图像的多级外观和几何特征；通过特征提取网络提取得到多级外观特征和多级几何特征；

所述的特征聚合网络包括K近邻GNNs、区域增强模块、分级融合模块、分块Non-local模块；

构建的K近邻GNNs，分别将点云中的点与对应的双流CNNs输出的特征相关联，并以此作为图模型节点的初始状态；在迭代更新的过程中，每一个节点的状态由其自身的历史状态和相邻节点的状态共同决定；

设计基于注意力机制的区域增强模块，在进行跨模态特征初步融合的同时实现粗略地定位显著区域；区域增强模块可以分别强化显著区域与非显著区域，进而为前景和背景的预测提供可靠的模版；

通过分级融合模块，利用基于池化的结构提升模型的多尺度表达能力；

分级融合模块内部通过并行的不同尺度的池化操作来提取不同尺度的特征，进而与相应级别的初步融合特征进行深度融合；多个分级融合模块实现了较深层高级语义信息和较浅层局部细节信息的逐步融合，使得模型在复杂场景下更具鲁棒性；

特征聚合网络在融合外观特征和几何特征的基础上进一步聚合了来自K近邻GNNs的空间几何特征，并以注意力和多尺度的方式逐步地强化了显著性特征；最后，在真值图的约束下生成高质量的显著性图；

步骤3、训练显著性检测网络，通过训练好的显著性检测网络进行显著性检测。

2.根据权利要求1所述的进一步的，所述的一种基于特征聚合的RGBD显著性检测方法，其特征在于，步骤1具体方法如下：

3.根据权利要求2所述的进一步的，所述的一种基于特征聚合的RGBD显著性检测方法，其特征在于，进一步的，所述的特征提取网络为一对基于ResNet50构建的非对称双流主干网络，分为RGB图像特征提取分支和深度图像特征提取分支，分别用于提取RGB图像和深度图像的多级外观和几何特征；为了实现端到端的训练方式，丢弃特征提取网络最后的全连接层，其中RGB图像特征提取分支保留了5级卷积块，分别实现了2、4、8、16、16倍的下采样，而深度图像特征提取分支保留了3级卷积块，分别实现了2、4、8倍的下采样；通过特征提取网络提取得到多级外观特征

和多级几何特征

覆盖了低级空间细节和高级语义信息。

4.根据权利要求3所述的进一步的，所述的一种基于特征聚合的RGBD显著性检测方法，其特征在于，进一步的，所述的特征聚合网络采用K近邻图神经网络即K近邻GNNs解决RGBD显著性检测问题；对于给定的深度图像，为了降低计算复杂度和减少内存消耗，进行8倍下采样；利用经HHA算法计算得到的水平视差通道来模拟场景的空间结构，并以此构造有向图，其中将每一个像素视为一个图节点；在有向图构造完后，使用CNNs作为特征提取器计算每一个像素的特征，所述的像素的特征为外观特征，并将获得的外观特征作为相应节点的初始隐层状态

其中，向量

表示表示在t时刻节点v从它相邻节点集合

中收集到的信息,

为邻域信息聚合函数，

为隐层状态更新函数，定义某一时刻t的

其中

表示用于聚合每一个节点的邻域信息的多层感知机(MLP)；采用K近邻算法计算节点的特定邻域范围；定义某一时刻t的

其中

表示用于更新每一个节点的隐层状态的多层感知机(MLP)，[·]表示级联操作；在循环T次后，K近邻GNNs输出特征

5.根据权利要求4所述的进一步的，所述的一种基于特征聚合的RGBD显著性检测方法，其特征在于，进一步的，所述的特征聚合网络采用基于注意力机制的区域增强模块，在融合跨模态特征的同时粗略地定位了显著区域；通过相应的区域增强模块对于不同模态的特征

和

采用按元素相加的方式进行初步融合，然后通过Sigmoid函数将特征值映射到0至1之间；为了突出显著区域，利用最大池化操作进行特征选择；相似地，为了突出非显著区域，在取反的基础上利用最大池化操作进行特征选择，公式如下：

其中，

代表最大池化操作，

代表Sigmoid函数，+表示按元素相加，-表示按元素取反；通过将前景特征F_FG和背景特征F_BG进行叠加，获得既突出显著区域又抑制非显著区域的特征注意力模版，并将其与初步融合的特征按元素相乘以生成选择过的注意力特征表示；然而，在特征选择的过程中会造成一定的特征丢失，为此尽可能地保留原始特征，计算公式如下：

其中，×表示按元素相乘，则特征图

6.根据权利要求5所述的进一步的，所述的一种基于特征聚合的RGBD显著性检测方法，其特征在于，进一步的，所述的特征聚合网络共包括5个分级融合模块，依次串联，其中每一个分级融合模块中都包含4个子分支，除了直连分支外，其余3个子分支分别通过均值池化进行2倍、4倍和8倍的下采样，在经过卷积核大小为3×3的卷积层后，执行双线性插值操作，将不同尺度的特征图上采样到输入特征图的大小；然后将4个子分支的特征图以按元素相加的方式进行融合，缓解了上采样的混叠效应；通过双线性插值操作将融合后的特征图上采样到相应的尺寸，再通过一个卷积核大小为3×3、步长为1的卷积层；

所述的分块Non-local模块在尽可能节省内存的情况下最大限度地扩大了感受野；通过分块Non-local模块和区域增强模块的输出进行进一步计算，则第i个分级融合模块的最终输出可以计算为，