CN111242181A

CN111242181A - 基于图像语义和细节的rgb-d显著性物体检测器

Info

Publication number: CN111242181A
Application number: CN202010004815.2A
Authority: CN
Inventors: 王鹏杰; 赵世敏
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-06-05
Anticipated expiration: 2040-01-03
Also published as: CN111242181B

Abstract

基于图像语义和细节的RGB‑D显著性物体检测器，属于图像显著性物体检测领域，为了解决现有图像处理显著性特征的效果表达不佳的问题，本发明提出如下技术方案：一种基于图像语义和细节的RGB‑D显著性物体检测器，包括特征融合互补网络，特征融合互补网络的架构主要由RGB特征流提取器、深度特征流提取器、高级语义融合模块、轮廓细节融合模块组成，效果是使用SFM通过非线性加权求和来捕获RGB特征和深度特征的高级相互依存的语义关系，还使用DFM集成了多维轮廓细节特征，以补充SFM提取的特征并增强了细节表达能力。

Description

基于图像语义和细节的RGB-D显著性物体检测器

技术领域：

本发明属于图像显著性物体检测领域，涉及一种RGB-D图像中的显著性物体检测方法，具体为基于图像语义和细节的RGB-D显著性物体检测方法。

背景技术：

以前基于的显著性目标检测方法RGB-D可以分为三类，早期融合(或输入融合)，后期融合(或结果融合)和中间融合(或特征融合)。

在早期融合方案中，通常将RGB特征和深度特征直接结合在一起，然后经过一系列处理最终获得显著性图的过程。论文“RGB-D salient object detection:a benchmarkand algorithms”将RGB-D图像用作输入并融合从低级对比，中级区域分组和高级先验。为了解决由高对比度产生的误报结果问题，论文“Local background enclosure for RGB-Dsalient object detection”使用本地背景外壳检测明显的物体。论文“Depth-awaresalient object detection and segmentation via multiscale discriminativesaliency fusion andbootstrap learning”采用不同的方法级别功能并训练随机森林回归器进行融合判别显著性图。论文“RGBD salient object detection via deep fusion”尝试使用RGB-D图像中的传统手工特征作为输入，然后将这些特征利用CNN网络和拉普拉斯传播算法生成显著性图。

在后期融合中，RGB特征和深度特征首先经过不同的流程，然后将处理后的特征融合在一起联合最终显著性预测。论文“Depth Enhanced Saliency Detection Method”提出深度增强显著性检测方法通过考虑颜色和深度以使其更扩展到复杂的背景。论文“Stereoconfidence metrics using the costs ofsurroundingpixels”提出了一种结合区域显著性检测方法深度对比，深度加权颜色对比区域并提取四个特征，包括颜色，亮度，离散余弦变换系数的纹理和深度用于特征对比计算和最终融合。

第三类通常基于CNN方法。通常，对RGB特征和深度特征进行预处理单独获得中间特征，然后融合，并为最终显著性图进行进一步的处理。论文“Progressivelycomplementarity-aware fusion network for RGB-D salient object detection”提出互补性意识，通过逐步合并和融合实现融合网络补充跨模型和跨级别功能深层次的监督。论文“CNNs-Based RGB-D Saliency Detection via Cross-View Transfer andMultiview Fusion”首先使用RGB CNN显著性网络参数通过附加的隐藏结构监视来训练深度输入数据进行跨视图传输。然后，他们提出了具有新的全连接的多视图融合方法图层融合RGB和深度功能。不同于传统的两流方法，论文“Three-stream attention-awarenetwork for RGB-D salient objectdetection”通过介绍一个三流架构自下而上的流来连接和融合RGB功能和深度功能。他们还介绍了交叉模型基于注意机制的级别块以减少融合不确定的最佳性能。论文“Contrast Prior andFluid Pyramid Integration for RGBDSalient Object Detection”首先通过对比设计基于CNN的网络在增强深度图像之前。为了更好的兼容性RGB特征和深度特征，流体金字塔集成引入了体系结构以融合这些层次结构特征。

关于RGB特征和深度特征融合，包括早期特征拼接的融合，中期特征补充的监督以及后期特征相匹配的融合研究都取得了相应的进展，然而由于早期RGB的丰富特征在早期融合的过程中会掩盖疏的深度特征，使得在早期特征融合的过程深度信息的权重占比相当特征小甚至在特征网络加深的情况下，其对结构的影响越来越小，而在后期的特征融合过程中，由于直接在末端进行特征融合，缺乏了特征网络中间时刻的特征监督，而在中间特征融合方案中缺乏有效的注意力机制进行引导，使得在网络的末端造成的特征混乱严重影响着显著性特征的效果表达。

发明内容：

为了解决现有图像处理显著性特征的效果表达不佳的问题，本发明提出如下技术方案：一种基于图像语义和细节的RGB-D显著性物体检测器，包括特征融合互补网络，特征融合互补网络的架构主要由RGB特征流提取器、深度特征流提取器、高级语义融合模块、轮廓细节融合模块组成。

进一步的，RGB特征流提取器：由训练集RGB图像得到不同尺度的具有丰富语义特征的矩阵F₁ ^I,F₂ ^I,F₃ ^I,F₄ ^I。

进一步的，深度特征流提取器：由深度图像训练集得到不同尺度的具有物体轮廓细节的矩阵F₁ ^D,F₂ ^D,F₃ ^D,F₄ ^D。

进一步的，高级语义融合模块：将RGB特征提取器获取的语义特征F₄ ^I和深度特征流提取器获得的轮廓特征F₄ ^D分别进行1×1卷积、RELU激活，然后进行矩阵相加，然后进行RELU激活，得到特征融合矩阵V；将特征融合矩阵V进行两个1×1卷积得到融合矩阵N；对融合矩阵N进行3×3卷积得到混合增强矩阵M；对混合增强矩阵M进行3×3卷积得到混合增强矩阵H，将特征矩阵N,M,H进行Concat特征堆叠操作，将堆叠后的多维特征矩阵进行1×1卷积，得到高级语义融合模块的最终输出特征O₁。

进一步的，轮廓细节融合模块：将高级语义融合模块的最终输出特征O₁进行上采样；将F₄ ^I,F₄ ^D分别进行上采样、1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₄；将F₃ ^I,F₃ ^D分别进行1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₃；将F₄进行1×1卷积运算后和上采样后的特征O₁，进行矩阵对应相加，1×1卷积运算得到混合矩阵O；将F₃进行1×1卷积并和混合矩阵O进行矩阵对应相加，得到轮廓细节融合模块的最终输出特征O₂。

进一步的，循环卷积增强模块：将轮廓细节融合模块的最终输出特征O₂进行上采样、3×3卷积得到特征O₃,特征O₃再经过上采样，3×3卷积得到特征O₄，然后将特征O₁,O₂,O₃,O₄分别进行3×3卷积，特征O₁的卷积结果和F₄ ^I、特征O₂的卷积结果和F₃ ^I、特征O₃的卷积结果和F₂ ^I、特征O₄的卷积结果和F₁ ^I共同作为循环卷积块的输入，循环卷积块的输出进行Concat特征堆叠操作，将堆叠后的多维矩阵进行1×1卷积，最终得到特征融合互补网络的输出S。

进一步的，RGB特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，训练集RGB图像经过主干网络后，得到不同尺度的具有丰富语义特征的矩阵F₁ ^I,F₂ ^I,F₃ ^I,F₄ ^I。

进一步的，深度特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，主干网络的第一个卷积层通道数为1，深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵F₁ ^D,F₂ ^D,F₃ ^D,F₄ ^D。

有益效果：本发明提出了一种简单有效的RGB-D显著性目标检测方法。为了有效利用RGB-D图像中包含的高级语义和轮廓细节，本发明主要采用语义和细节互补融合机制来促进RGB特征和深度特征的有效融合。与以前的方法相比，本发明使用SFM通过非线性加权求和来捕获RGB特征和深度特征的高级相互依存的语义关系。同时，为了最小化特征融合时的噪声，本发明还使用DFM集成了多维轮廓细节特征，以补充SFM提取的特征并增强了细节表达能力。

附图说明

图1是基于RGB-D图像的显著性检测网络结构。

图2是语义融合模型。

图3是细节融合模型。

图4是语义和细节效果对比图。

图5是不同方法对于图像处理的效果图。

具体实施方式

本发明通过充分利用跨模型和多级功能，目标是从RGB和深度图像中学习有效的模型，以生成像素级显著性图。图1显示了本发明的主要架构，该架构具有编码器/解码器结构。给定RGB图像I和深度图像D，本发明使用两个编码器流RGB流和深度流来提取多尺度卷积特征。本发明将VGG-16用作编码器的主干，因为它的效率高，并且在图像分类任务中有很好的结果。原始的VGG-16具有五个卷积块和三个完全连接的层。为了提高计算效率，本发明仅使用第一至第四卷积块。提取的特征然后将显著性图分别馈入SFM和DFM。由于深度数据擅长捕获空间结构和3D布局，因此3D布局经常出现在神经网络的后面。因此，本发明仅在后面阶段使用最后两个卷积块中的特征。具体地，从多尺度特征中计算出四个融合特征图

设F_i ^I和F_i ^D分别为RGB流和深度流中的第i个块的特征图。SFM计算融合特征图O₁为：O₁＝SFM(F₄ ^I,F₄ ^D),然后通过细节融合模型DFM获得特征图O₂为：O₂＝DFM(F₃ ^I,F₄ ^I,F₃ ^D,F₄ ^D,O₁),然后对O₂进行上采样并通过一个3×3卷积运算得到O₃,继续对O₃进行上采样和3×3卷积运算得到O₄。将得到的特征系列O₁,O₂,O₃,O₄,分别通过一个3×3卷积，其结果将和来自RGB特征流的特征系列F_i ^I,i＝1,2,3,4,成对的作为循环卷积网络的输入，通过联系上下文信息，得到循环卷积网络的特征输出G_i,i＝1,2,3,4，然后将G_i通过Concat特征堆叠，后经过一个1×1卷积降维处理，得到最终的显著性特征图S。在网络训练的时候本发明使用二值化交叉损失熵将预测特征矩阵S和真实标签Y做损失

语义融合模块：依靠图像本身的先验知识无法清晰地提取显著性特征，复杂场景中的高层语义关系可以帮助我们获得更多的丰富的显著性特征。图像的深度特征描述了显著性物体和相机镜头之间的距离关系，这也是高层的关系。RGB图像的高级关系涉及前景和背景，全局和局部，低层和高层之间的关系。为了提取更丰富的RGB和更深层的语义特征，我们设计一个语义融合模块(SFM)。

图2所示为了获取更多丰富的RGB和深度语义特征，本发明设计的SFM模块，如图2所示，首先本发明用小型感受野从

和

中通过公式

N＝(CONV_1×1@512(CONV_1×1@512(V)))

获得了非线性表示V和N,这里CONV_1×1@512表示一个卷积其拥有512个1×1大小的卷积核，

表示特征逐像素相加。然后通过大型感受野获得更加复杂的互补特征，并用H表示，促进了融合模块的实现，以最大化图像高级语义的集成，使得能融合极大化整合图像中的高级语义。为此本发明使用两个3×3卷积代替一个5×5卷积，通过公式M＝CONV_3×3@512(N)和H＝CONV_3×3@512(M)，本发明得到了丰富的融合特征H，这里σ表示RELU激活函数。最后本发明使用1×1卷积来整合所有的语义特征图，通过公式O₁＝CONV_1×1@512(Concat(H,M,N))进而得到语义融合模块的最终输出特征，所有输入都映射到相同的空间，为了很好的提升融合效果，降低计算复杂度，这里的增强矩阵H,M,N被缩放到了相同的尺度。

细节融合模型：主干网络的不同阶段，RGB图像和深度图像能够提供不同的描述显著性物体的细节，来自语义融合模型的高级别关系特征并不能很好的刻画显著性物体的详细轮廓，为此，如图3所示，本发明设计了细节融合模型，进而突出显著性物体细节，又进一步的对高级语义信息进行补充，首先，本发明使用多个1×1卷积增强不同阶段产生的特征矩阵，通过公式

可以得到融合增强特征矩阵O，这里UP表示上采样运算，然后本发明使用1×1卷积对多维度特征进行降维，最后，本发明将F₃和O，通过公式

进行逐像素的相加。

在一种方案中，本发明具体为基于图像语义和细节的RGB-D显著性物体检测器。构建特征融合互补网络，融合模型中包含语义融合和细节融合两个机制，通过高级语义和轮廓细节两模型的可持续动态互补交叉指导得到所述高效的显著性物体检测器。其实现了利用RGB-D图像的高级语义和显著性物体的轮廓细节进行显著性物体检测，显著提高了RGB-D图像中显著性物体的检测精度。具体的说，本发明构建了一种基于图像语义和细节的RGB-D显著性物体检测器，其是一特征融合互补网络，特征融合互补网络结构分为RGB特征流提取器、深度特征流提取器、高级语义融合、轮廓细节融合和循环卷积增强五个模块。

其中RGB特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，训练集RGB图像经过主干网络后，得到不同尺度的具有丰富语义特征的矩阵F₁ ^I,F₂ ^I,F₃ ^I,F₄ ^I。深度特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，并对VGG-16网络的第一个卷积层通道数进行修改，由原来的3修改为1，深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵F₁ ^D,F₂ ^D,F₃ ^D,F₄ ^D。

高级语义融合模块首先将RGB特征提取器获取的语义特征F₄ ^I和深度特征流提取器获得的轮廓特征F₄ ^D分别通过分别通过一个1×1卷积和RELU激活函数，然后进行矩阵相加和RELU激活运算得到特征融合矩阵V，然后将特征融合矩阵V分别经过两个1×1卷积得到融合矩阵N，然后对融合矩阵N进行一个3×3卷积运算得到混合增强矩阵M，然后对混合增强矩阵M，再次经过一个3×3卷积运算得到混合增强矩阵H，最后将你不同阶段获得的特征矩阵N,M,H进行Concat特征堆叠操作，将堆叠后的多维特征矩阵经过一个1×1卷积，从而得到高级语义融合模块的最终输出O₁。

轮廓细节融合模块将高级语义融合模块的最终输出O₁先进行上采样，使得特征矩阵的通道数由512变为256，然后F₄ ^I,F₄ ^D分别进行上采样、1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₄,F₃ ^I,F₃ ^D分别进行1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₃,然后将F₄进行1×1卷积运算后和上采样后的O₁，进行矩阵对应相加，1×1卷积运算得到混合矩阵O、最后将F₃进行1×1卷积并和混合矩阵O进行矩阵对应相加，得到轮廓细节融合模块的最终输出O₂.

循环卷积增强模块首先将轮廓细节融合模块的最终输出O₂进行上采样，3×3卷积得到特征O₃,再次经过上采样，3×3卷积得到特征O₄，然后将O₁,O₂,O₃,O₄分别经过一个3×3卷积，其结果将分别和F₄ ^I,F₃ ^I,F₂ ^I,F₁ ^I一起作为循环卷积块的输入，循环卷积(RCL)块的输出进行Concat特征堆叠操作，将堆叠后的多维矩阵最后经过一个1×1卷积进行降维，最终得到特征融合互补网络的输出S.

在一种方案中，特征融合互补网络采用已训练好的VGG-16网络前1-4卷积块，在提取深度流时修改其通道数为1。

在一种方案中，特征融合互补网络batch大小取值为2；学习率设置为0.00001-0.0000001。

为了验证我们提出的方法是高效的，我们将在当前七个比较流行的数据集上进行测试，分别包NLPR,STERE,NJU2000,LFSD,DES,SSD和SIP。如表格所示，SFM和DFM的性能优于当前先进的方法的实验结果，在接下来的小部分中，我们介绍我们实验的评价指标和一些实现细节，然后我们进行了一系列的消融测试，最后我们的实验效果图将在七种不同的数据集上进行测试。

表1是不同方法在多个数据集：STERE，NJU2000，LFSD，DES，SSD，SIP，NLPR上的性能比较。↑和↓分别表示越大越小越好。黑色加粗表示佳效果

图5示出了不同方法对于图像处理的效果图，图4示出了语义和细节效果对比图，可以发现，本发明的检测器通过设计基于高级语义的融合模型(SFM)和基于轮廓细节的融合模型(DFM)，两个融合模型的相互互补进一步的促进了网络提取显著性特征的能力，相比当前现有的方法，不仅仅有效促进了深度特征对显著性特征的影响，而且，高级语义信息被轮廓细节特征进行补充，同时显著性物体的特征也在自上而下的特征融中凸显越来越明显。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，包括特征融合互补网络，特征融合互补网络的架构主要由RGB特征流提取器、深度特征流提取器、高级语义融合模块、轮廓细节融合模块组成。

2.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，RGB特征流提取器：由训练集RGB图像得到不同尺度的具有丰富语义特征的矩阵F₁ ^I,

F₃ ^I,

3.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，深度特征流提取器：由深度图像训练集得到不同尺度的具有物体轮廓细节的矩阵F₁ ^D,

F₃ ^D,

4.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，高级语义融合模块：将RGB特征提取器获取的语义特征

和深度特征流提取器获得的轮廓特征

分别进行1×1卷积、RELU激活，然后进行矩阵相加，然后进行RELU激活，得到特征融合矩阵V；将特征融合矩阵V进行两个1×1卷积得到融合矩阵N；对融合矩阵N进行3×3卷积得到混合增强矩阵M；对混合增强矩阵M进行3×3卷积得到混合增强矩阵H，将特征矩阵N,M,H进行Concat特征堆叠操作，将堆叠后的多维特征矩阵进行1×1卷积，得到高级语义融合模块的最终输出特征O₁。

5.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，轮廓细节融合模块：将高级语义融合模块的最终输出特征O₁进行上采样；将

分别进行上采样、1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₄；将F₃ ^I,F₃ ^D分别进行1×1卷积、RELU激活，矩阵对应相加，RELU激活运算得到混合矩阵F₃；将F₄进行1×1卷积运算后和上采样后的特征O₁，进行矩阵对应相加，1×1卷积运算得到混合矩阵O；将F₃进行1×1卷积并和混合矩阵O进行矩阵对应相加，得到轮廓细节融合模块的最终输出特征O₂。

6.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，循环卷积增强模块：将轮廓细节融合模块的最终输出特征O₂进行上采样、3×3卷积得到特征O₃,特征O₃再经过上采样，3×3卷积得到特征O₄，然后将特征O₁,O₂,O₃,O₄分别进行3×3卷积，特征O₁的卷积结果和

特征O₂的卷积结果和F₃ ^I、特征O₃的卷积结果和

特征O₄的卷积结果和F₁ ^I共同作为循环卷积块的输入，循环卷积块的输出进行Concat特征堆叠操作，将堆叠后的多维矩阵进行1×1卷积，最终得到特征融合互补网络的输出S。

7.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，RGB特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，训练集RGB图像经过主干网络后，得到不同尺度的具有丰富语义特征的矩阵F₁ ^I,

F₃ ^I,

8.如权利要求1所述的基于图像语义和细节的RGB-D显著性物体检测器，其特征在于，深度特征流提取器以VGG-16网络的前1-4卷积块为为主干网络，主干网络的第一个卷积层通道数为1，深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵F₁ ^D,

F₃ ^D,