CN103955936A

CN103955936A - 一种基于堆栈式去噪自编码机的显著性物体检测方法

Info

Publication number: CN103955936A
Application number: CN201410200352.1A
Authority: CN
Inventors: 韩军伟; 张鼎文; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2014-05-13
Filing date: 2014-05-13
Publication date: 2014-07-30
Anticipated expiration: 2034-05-13
Also published as: CN103955936B

Abstract

本发明涉及一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。

Description

一种基于堆栈式去噪自编码机的显著性物体检测方法

技术领域

本发明属于计算机视觉算法研究领域，涉及一种基于堆栈式去噪自编码机的显著性物体检测方法，可以在自然图像数据库中准确、鲁棒地计算出给定图像的显著物体。

背景技术

视觉显著性是视觉注意的一项重要功能，它表现为观察者从一个复杂的视觉场景中选择一个重要的内容进行集中处理，而忽略其他不太重要的内容。视觉场景中某些内容比其他内容更能获得观察者的注意，我们称它们具有更高的视觉显著性。视觉显著性的思想被大量地应用于视觉注意的计算模型中，ITTI在其经典的视觉注意计算模型中采用的显著性度量方法是基于像素与其周围邻域的局部视觉特征差异；Ma等人在2003年提出一种基于特征对比的显著性度量方法，该方法只考虑颜色特征，将输入图像从RGB颜色空间转换为LUV空间，进行颜色量化。为了处理简单，将输入图像调整到一个固定的尺寸。计算像素与其周围邻域的颜色特征对比度，得到该像素的显著性值；Hou等人在2008年提出了一种基于谱残差的显著性度量方法，该方法在频域上分析显著区域的特征，在空间域上构建显著图。FengLiu等人后来提出基于区域的显著性度量，他们首先利用一定的方法得到图像中不同的区域，然后根据每个区域的位置因素和特征对比等度量其显著性。

上述方法都是根据假设“图像中局部/全局对比度高的地方应该拥有更高的显著性”进行模型的建立，然而尽管他们能够在某些情况下得出令人满意的结果，但是这些模型所基于的假设在一些复杂的图像中并不适用。事实上，在进行显著物体检测时，能够反映显著物体的对比性，不是基于像素或图块的局部/全局对比性，而是图像前景区域与背景区域的对比性。基于此，本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法。

技术方案

一种基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于步骤如下：

步骤1在图像中提取边界图块：首先将图像下采样为P×P个像素，然后利用大小为size∈[5,20]，步长为step∈[1,size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块，并将每个图块内的像素值构成的向量作为该图块的特征，生成四个训练集合X_top,X_left,X_down,X_right；

步骤2训练基于图像边界的堆栈式去噪自编码机；采用节点数分别为H₁∈[20,500]，H₂∈[20,500]的两层结构的堆栈式去噪自编码机(SDAE)，对四个集合X_top,X_left,X_down,X_right进行训练，得到四个基于图像边界的堆栈式去噪自编码机SDAE_top,SDAE_left,SDAE_down和SDAE_right；

步骤3计算深度残余：采用大小为size∈[5,20]，步长为step∈[1,size]的方形滑动窗口在下采样后的图像中提取图块，并将图块内的像素值构成的向量将作为该图块的特征，生成堆栈式去噪自编码机的输入集合X＝{x_j}，其中j∈[1,N]，N为整幅图像中提取的图块数；

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_top中，计算输入样本x_j的上边界深度残余其中为x_j在SDAE_top中第一隐层的激活向量，为x_j在SDAE_top中第二重构层的激活向量；

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_left中，计算输入样本x_j的左边界深度残余其中为x_j在SDAE_left中第一隐层的激活向量，为x_j在SDAE_left中第二重构层的激活向量；

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_down中，计算输入样本x_j的下边界深度残余其中为x_j在SDAE_down中第一隐层的激活向量，为x_j在SDAE_down中第二重构层的激活向量；

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_right中，计算输入样本x_j的右边界深度残余其中为x_j在SDAE_right中第一隐层的激活向量，为x_j在SDAE_right中第二重构层的激活向量；

步骤4合并生成深度残余图：对步骤3中的每一个输入样本x_j，合并其基于四个边界的深度残余：将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图，将这个灰度图上采样到原始图片的大小即生成图像的深度残余图；

步骤5基于超像素的区域平滑：根据超像素分割理论，可将原始图像分割成互不重叠的超像素区域R_q,q∈[1,Q]，其中Q为超像素区域总数；则每一个超像素区域R_q的显著值为该超像素区域内所有像素点上深度残余的均值。将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果；

所述步骤2和3中的堆栈式去噪自编码机采用P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,and P.-A.Manzagol,“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion,”Journal of Machine Learning Research,vol.9999,pp.3371-3408,2010；

所述步骤5中的超像素分割方法采用P.F.Felzenszwalb,and D.P.Huttenlocher,“Efficient graph-based image segmentation,”International Journal of Computer Vision,vol.59,no.2,pp.167-181,2004。

有益效果

本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法，首先利用去噪自编码机对位于图像周边的图块进行建模，然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建，并将深度重建残余作为显著性的计算手段。最终取得更具准确性，鲁棒性的显著物体检测结果。

附图说明

图1：本发明方法的基本流程图

图2：实验结果图

图3：ROC结果图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：Intel Pentium2.93GHz CPU计算机、2.0GB内存，运行的软件环境是：Matlab R2011b和Windows XP。实验选取了SOD库中的所有图像作为测试数据，该数据库中包含1000幅自然图像，是国际公开的用于测试显著物体计算模型的数据库。

本发明具体实施如下：

1.在图像中提取边界图块：首先将图像下采样为P×P个像素，然后利用大小为size∈[5,20]，步长为step∈[1,size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块，并将每个图块内的像素值构成的向量作为该图块的特征，生成四个训练集合X_top,X_left,X_down,X_right。

2.训练基于图像边界的堆栈式去噪自编码机；采用“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion”中节点数分别为H₁∈[20,500]，H₂∈[20,500]的两层结构的堆栈式去噪自编码机(SDAE)，对四个集合X_top,X_left,X_down,X_right进行训练，得到四个基于图像边界的堆栈式去噪自编码机SDAE_top,SDAE_left,SDAE_down和SDAE_right。

3.计算深度残余：采用大小为size∈[5,20]，步长为step∈[1,size]的方形滑动窗口在下采样后的图像中提取图块，并将图块内的像素值构成的向量将作为该图块的特征，生成堆栈式去噪自编码机的输入集合X＝{x_j}，其中j∈[1,N]，N为整幅图像中提取的图块数。

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_top中，计算输入样本x_j的上边界深度残余其中为x_j在SDAE_top中第一隐层的激活向量，为x_j在SDAE_top中第二重构层的激活向量。

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_left中，计算输入样本x_j的左边界深度残余其中为x_j在SDAE_left中第一隐层的激活向量，为x_j在SDAE_left中第二重构层的激活向量。

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_down中，计算输入样本x_j的下边界深度残余其中为x_j在SDAE_down中第一隐层的激活向量，为x_j在SDAE_down中第二重构层的激活向量。

将集合X＝{x_j}中的每一个输入样本x_j输入SDAE_right中，计算输入样本x_j的右边界深度残余其中为x_j在SDAE_right中第一隐层的激活向量，为x_j在SDAE_right中第二重构层的激活向量。

4.合并生成深度残余图：对步骤3中的每一个输入样本x_j，合并其基于四个边界的深度残余：将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图，将这个灰度图上采样到原始图片的大小即生成图像的深度残余图。

5.基于超像素的区域平滑：根据“Efficient graph-based image segmentation”中的超像素分割方法，可将原始图像分割成互不重叠的超像素区域R_q,q∈[1,Q]，其中Q为超像素区域总数；则每一个超像素区域R_q的显著值为该超像素区域内所有像素点上深度残余的均值。将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果。

本发明选用ROC曲线对识别结果进行评估。该曲线定义为在分割阈值变化下，虚警率(FPR)和召回率(TPR)的变化关系。计算公式如下：

FPR = \frac{FP}{N}

TPR = \frac{TP}{P}

其中FP为检测到的虚警区域，N为ground truth中非目标的区域；TP为检测到的实警区域，P为ground truth中目标的区域。附图2为一些本发明的实验结果，附图3为本发明方法的ROC曲线,表1为本发明方法与基于区域对比度的显著物体检测算法(RC)之间的定量对比结果，其中包括了平均虚警率、平均召回率以及AUC(一种对ROC曲线的评判标准)。从实验结果可以看出本发明提出的方法可以更加准确和鲁棒地对自然图像进行显著物体的检测。

表1 检测结果评价

Claims

1.一种基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于步骤如下：

步骤4合并生成深度残余图：将步骤3中的每一个输入样本x_j合并得到四个边界的深度残余：将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图，将这个灰度图上采样到原始图片的大小生成图像的深度残余图；

步骤5基于超像素的区域平滑：根据超像素分割理论，将原始图像分割成互不重叠的超像素区域R_q,q∈[1,Q]，其中Q为超像素区域总数；则每一个超像素区域R_q的显著值为该超像素区域内所有像素点上深度残余的均值；将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果。

2.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于：所述步骤2和3中的堆栈式去噪自编码机采用文献：P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,and P.-A.Manzagol,“Stacked denoising autoencoders:Learninguseful representations in a deep network with a local denoising criterion,”Journal ofMachine Learning Research,vol.9999,pp.3371-3408,2010中的方法。

3.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法，其特征在于：所述步骤5中的超像素分割方法采用文献：P.F.Felzenszwalb,and D.P.Huttenlocher,“Efficient graph-based image segmentation,”International Journal ofComputer Vision,vol.59,no.2,pp.167-181,2004中的方法。