CN109598268A

CN109598268A - 一种基于单流深度网络的rgb-d显著目标检测方法

Info

Publication number: CN109598268A
Application number: CN201811403402.0A
Authority: CN
Inventors: 刘政怡; 段群涛; 石松
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-09
Anticipated expiration: 2038-11-23
Also published as: CN109598268B

Abstract

本发明公开了一种基于单流深度网络的RGB‑D显著目标检测方法，包括以下步骤：S1、将RGB图像和Depth图像作为单流深度网络的四通道输入；S2、将VGG16作为基础网络，利用Conv5_3提取图像的高维特征，对高维特征进行操作，经过卷积、反卷积和卷积得到初始显著图；S3、将初始显著图，以及Depth数据作为DRCNN循环卷积结构的输入；DRCNN通过级联的方式，一步一步优化显著结果，详细描绘显著目标的边缘信息；最后连接一个权值融合层，通过自动学习权值，将显著结果融合得到最终显著图。本发明利用循环卷积神经网络，从低层向高层产生多级别特征，同时，从高层向低层逐步细化目标轮廓，借助RGB‑D图像所特有的Depth深度信息，可解决单靠颜色无法还原的目标轮廓的问题。

Description

一种基于单流深度网络的RGB-D显著目标检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于单流深度网络的RGB-D显著目标检测方法。

背景技术

近年来计算机视觉中的显著目标检测越来越吸引人们的关注。显著目标检测多用在图像分割、目标识别、视频跟踪、图像分类、图像压缩等工作中，属于计算机视觉中的基础研究工作。深度学习是近10年来人工智能领域取得的最重要的突破之一，在语音识别、自然语言处理、计算机视觉、多媒体等诸多领域都取得了巨大成功，其中卷积神经网络因其结构特殊性尤其适用于图像处理领域。研究人员也提出了很多有关显著目标检测的深度学习算法。

2016年Qu等人在论文RGBD Salient Object Detection via Deep Fusion中提出CNN网络。将RGB图与Depth图作为输入，用SLIC超像素分割生成超像素块，计算每个超像素的基于颜色和深度显著特征向量。然后作为CNN网络模型的输入，进行LaplacianPropagation得到最终的显著图。

由于图像的RGB数据提供了外观和纹理信息，对光线变化的敏感性。而Depth数据，即从图像采集器到场景中各点的距离(深度)的像素值图像，具备更多的形状信息，清晰的边缘，且对变化的光照条件具有鲁棒性。图像的RGB数据和Depth数据具备互补性和独立性，在大量具有挑战性的场景中，若显著物体和背景区域外观过于相似以至于无法区分，Depth数据信息能够帮助RGB数据进行处理。如果不能同时考虑到RGB数据和Depth数据的互补性和独立性，Depth信息可能会对显著性检测结果产生干扰。

2017年Chen等人在论文RGB-D Saliency Detection by Multi-stream LateFusion Network中提出双流网络，认为RGB数据和Depth数据具备独立性，应作为两个独立的输入，考虑到其互补性，再将两个网络输出的显著图进行融合得到最终的显著图。但基于低维特征具备较多空间信息，而高维特征具备全局特征，直接将两个网络高层输出结果融合将会产生误差。

据此，目前急需一种显著目标检测准确率高的基于单流深度网络的RGB-D显著目标检测方法。

发明内容

本发明所要解决的技术问题在于提供一种显著目标检测准确率高的基于单流深度网络的RGB-D显著目标检测方法。

本发明采用以下技术方案解决上述技术问题：

一种基于单流深度网络的RGB-D显著目标检测方法，该方法包括以下步骤：

S1、将RGB图像和Depth图像作为单流深度网络的四通道输入；

S2、将VGG16作为基础网络，利用Conv5_3提取图像的高维特征，对高维特征进行操作，经过卷积、反卷积和卷积得到初始显著图；

S3、将初始显著图，以及Depth数据作为DRCNN循环卷积结构的输入；DRCNN通过级联的方式，一步一步优化显著结果，详细描绘显著目标的边缘信息；最后连接一个权值融合层，通过自动学习权值，将显著结果融合得到最终显著图。

作为本发明的优选方式之一，在所述步骤S3中:所述DRCNN的输入有4个，分别为上一个DRCNN的输出结果、本层的特征、初始显著图以及Depth深度信息，其核心是循环卷积层RCL，在RCL的第k个特征图的第(i,j)个单元上，它在步骤t的网络输入z_ijk(t)表示为：

其中和分别为前一层的前馈输入以及当前层在时间步长为t-1的循环输入，和分别表示为前馈权值和循环权值，为偏置，为第m+1个侧边输出的显著结果，为初始显著图，d表示初始Depth深度图，C表示卷积操作，⊕表示联结操作，函数表示去除重复的输入，用在Conv5_3的侧边输出的DRCNN中，因为这一层的与是相同的，通过该函数去除重复输入；

网络输入的激励函数表示为：

x_ijk ^m(t)＝g(f(z_ijk ^m(t))) (3)；

其中f为修正线性单元ReLU，具体定义为：

f(z_ijk ^m(t))＝max(z_ijk ^m(t),0) (4)；

其中g为局部响应归一化操作，目的是为了防止状态爆炸，定义为：

其中f(z_ijk ^m(t))简写为f_ijk ^m(t)，K为特征图总数，N为关联归一化的局部邻居特征图的数目，α和β控制归一化的振幅；最终显著图的定义为：

p^m＝σ(c(g)) (6)；

其中σ为激励函数，g为g(f_ijk ^m(t))的简写。

作为本发明的优选方式之一，在所述步骤S2中：由损失函数计算损失，调整网络参数，通过多次迭代形成稳定的网络结构。

作为本发明的优选方式之一，所述损失函数为SigmoidCrossEntropyLoss。

作为本发明的优选方式之一，所述网络结构包含五个侧边输出子网络和一个直接输出子网络。

作为本发明的优选方式之一，所述网络结构的具体训练过程为：在训练中，T＝{(X_n,Y_n),n＝1,2,...,N}为训练数据集，作为输入，X_n对应的真值图为在实验中，W为基础网络VGG16层的参数，M＝6为侧边输出的数量；每一个侧边输出子网络对应一个显著输出结果，对应的权值定义为：

w＝(w¹,w²,...,w^M) (7)；

对每一个训练集输入和真值图的所有像素使用交叉熵损失来计算损失函数，对第m阶段的预测，损失函数的定义为：

其中，Pr(y_i＝1|X；W,w^m)为在第m个侧边输出的第i个位置的像素属于前景的概率；对最后的权值融合层的损失函数定义为：

L_fuse(W,w,w^f)＝-∑_i∈Yy_ilogPr(y_i＝1|X；W,w,w^f)+(1-y_i)logPr(y_i＝0|X；W,w,w^f)(9)；其中，w^f为权值融合层过滤器参数；所有预测的联合损失函数定义为：

其中，δ_f和δ_m表示为平衡每个损失项的损失权值，计算所有损失函数后，最小化目标损失函数定义为：

(W,w,w^f)^*＝argmin(L(W,w,w^f)) (11)。

本发明相比现有技术的优点在于：1、本发明一种基于单流深度网络的RGB-D显著目标检测方法，利用循环卷积神经网络，从低层向高层产生多级别特征，同时，从高层向低层逐步细化目标轮廓，借助RGB-D图像所特有的Depth深度信息，可解决单靠颜色无法还原的目标轮廓的问题；2、本发明一种基于单流深度网络的RGB-D显著目标检测方法，机器人在实现目标定位过程中，利用RGB-D图像先获取显著目标，借助Depth深度信息，去除光照影响，再完成视觉任务，可解决视觉任务受光照、复杂背景干扰的问题，提高目标定位的准确率；3、本发明一种基于单流深度网络的RGB-D显著目标检测方法，通过图像库测试对比证明了其有效性以及在效果上明显的优势。

附图说明

图1是实施例1中基于单流深度网络的RGB-D显著目标检测方法流程图；

图2是实施例1中基于单流深度网络的RGB-D显著目标检测算法流程图；

图3是实施例1中基于单流深度网络的RGB-D显著目标检测方法中优化显著图的DRCNN网络示意图；

图4是实施例1中基于单流深度网络的RGB-D显著目标检测方法与现有方法在数据集NLPR1000上的显著性检测结果PR曲线对比图；

图5是实施例1中基于单流深度网络的RGB-D显著目标检测方法与现有方法在数据集NJU2000上的显著性检测结果PR曲线对比图；

图6是实施例1中基于单流深度网络的RGB-D显著目标检测方法与现有方法在数据集NLPR1000上的显著性检测结果评估指标直方图的对比图；

图7是实施例1中基于单流深度网络的RGB-D显著目标检测方法与现有方法在数据集NJU2000上的显著性检测结果评估指标直方图的对比图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明为克服处理RGB数据及Depth数据未恰当考虑两者的独立性和互补性而对显著性目标检测带来的误差问题，提供一种基于单流深度网络的RGB-D显著目标检测方法；所述单流是指一个同时处理RGB数据和Depth数据的网络结构；将VGG16作为基础网络，利用Conv5_3提取图像的高维特征，对高维特征进行操作，经过卷积、反卷积和卷积得到初始显著图，由于初始显著图只能大致定位显著目标的位置，而忽略目标的边缘结构信息，提出一个DRCNN循环卷积结构，通过级联的方式，一步一步优化显著结果，详细描绘显著目标的边缘信息。最后设计了一个权值融合层，通过自动学习权值，将显著结果融合得到最终的显著图。

实施例1

基于以上设计思路与理论，参见图1-2：本实施例的一种基于单流深度网络的RGB-D显著目标检测方法，该方法包括以下步骤：

S1、将RGB图像和Depth图像作为单流深度网络的四通道输入；

S3、将初始显著图，以及Depth数据作为DRCNN循环卷积结构的输入；DRCNN通过级联的方式，一步一步优化显著结果，详细描绘显著目标的边缘信息；最后连接一个权值融合层，通过自动学习权值，将显著结果融合得到最终显著图；其中DRCNN如图3所示；所述DRCNN的输入有4个，分别为上一个DRCNN的输出结果、本层的特征、初始显著图以及Depth深度信息，其核心是循环卷积层RCL，在RCL的第k个特征图的第(i,j)个单元上，它在步骤t的网络输入z_ijk(t)表示为：

网络输入的激励函数表示为：

x_ijk ^m(t)＝g(f(z_ijk ^m(t))) (3)；

其中f为修正线性单元ReLU，具体定义为：

f(z_ijk ^m(t))＝max(z_ijk ^m(t),0) (4)；

p^m＝σ(c(g)) (6)；

其中σ为激励函数，g为g(f_ijk ^m(t))的简写；

本实施例一种基于单流深度网络的RGB-D显著目标检测方法，利用循环卷积神经网络，从低层向高层产生多级别特征，同时，从高层向低层逐步细化目标轮廓，借助RGB-D图像所特有的Depth深度信息，可解决单靠颜色无法还原的目标轮廓的问题。

作为本发明的优选方式之一，在所述步骤S2中：由损失函数计算损失，调整网络参数，通过多次迭代形成稳定的网络结构，所述损失函数为SigmoidCrossEntropyLoss。

如图2所示，所述网络结构包含五个侧边输出子网络和一个直接输出子网络，所述网络结构的具体训练过程为：在训练中，T＝{(X_n,Y_n),n＝1,2,...,N}为训练数据集，作为输入，X_n对应的真值图为在实验中，W为基础网络VGG16层的参数，M＝6为侧边输出的数量；每一个侧边输出子网络对应一个显著输出结果，对应的权值定义为：

w＝(w¹,w²,...,w^M) (7)；

(W,w,w^f)^*＝argmin(L(W,w,w^f)) (11)；

本实施例的一种基于单流深度网络的RGB-D显著目标检测方法，机器人在实现目标定位过程中，利用RGB-D图像先获取显著目标，借助Depth深度信息，去除光照影响，再完成视觉任务，可解决视觉任务受光照、复杂背景干扰的问题，提高目标定位的准确率。

本实施例一种基于基于单流深度网络的RGB-D显著目标检测方法，利用循环卷积神经网络，从低层向高层产生多级别特征，同时，从高层向低层逐步细化目标轮廓，借助RGB-D图像所特有的Depth深度信息，提高显著目标检测的准确率。通过在数据集NLPR1000，NJU2000上进行显著性检测，检测结果PR曲线比较如图4，图5所示，评估指标直方图比较如图6，图7所示，取得很好的检测效果，由此可见，本发明一种基于单流深度网络的RGB-D显著目标检测方法，通过图像库测试对比证明了其有效性以及在效果上明显的优势。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单流深度网络的RGB-D显著目标检测方法，其特征在于，该方法包括以下步骤：

S1、将RGB图像和Depth图像作为单流深度网络的四通道输入；

2.根据权利要求1所述的基于单流深度网络的RGB-D显著目标检测方法，其特征在于，在所述步骤S3中:所述DRCNN的输入有4个，分别为上一个DRCNN的输出结果、本层的特征、初始显著图以及Depth深度信息，其核心是循环卷积层RCL，在RCL的第k个特征图的第(i,j)个单元上，它在步骤t的网络输入z_ijk(t)表示为：

其中和分别为前一层的前馈输入以及当前层在时间步长为t-1的循环输入，和分别表示为前馈权值和循环权值，为偏置，为第m+1个侧边输出的显著结果，为初始显著图，d表示初始Depth深度图，C表示卷积操作，表示联结操作，函数表示去除重复的输入，用在Conv5_3的侧边输出的DRCNN中，因为这一层的与是相同的，通过该函数去除重复输入；

网络输入的激励函数表示为：

x_ijk ^m(t)＝g(f(z_ijk ^m(t))) (3)；

其中f为修正线性单元ReLU，具体定义为：

f(z_ijk ^m(t))＝max(z_ijk ^m(t),0) (4)；

p^m＝σ(c(g)) (6)；

其中σ为激励函数，g为g(f_ijk ^m(t))的简写。

3.根据权利要求1所述的基于单流深度网络的RGB-D显著目标检测方法，其特征在于，在所述步骤S2中：由损失函数计算损失，调整网络参数，通过多次迭代形成稳定的网络结构。

4.根据权利要求3所述的基于单流深度网络的RGB-D显著目标检测方法，其特征在于，所述损失函数为SigmoidCrossEntropyLoss。

5.根据权利要求3所述的基于单流深度网络的RGB-D显著目标检测方法，其特征在于，所述网络结构包含五个侧边输出子网络和一个直接输出子网络。

6.根据权利要求3所述的基于单流深度网络的RGB-D显著目标检测方法，其特征在于，所述网络结构的具体训练过程为：在训练中，T＝{(X_n,Y_n),n＝1,2,...,N}为训练数据集，作为输入，X_n对应的真值图为在实验中，W为基础网络VGG16层的参数，M＝6为侧边输出的数量；每一个侧边输出子网络对应一个显著输出结果，对应的权值定义为：

w＝(w¹,w²,...,w^M) (7)；

(W,w,w^f)^*＝argmin(L(W,w,w^f)) (11)。