CN103955936A - 一种基于堆栈式去噪自编码机的显著性物体检测方法 - Google Patents
一种基于堆栈式去噪自编码机的显著性物体检测方法 Download PDFInfo
- Publication number
- CN103955936A CN103955936A CN201410200352.1A CN201410200352A CN103955936A CN 103955936 A CN103955936 A CN 103955936A CN 201410200352 A CN201410200352 A CN 201410200352A CN 103955936 A CN103955936 A CN 103955936A
- Authority
- CN
- China
- Prior art keywords
- sdae
- image
- depth
- segment
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于堆栈式去噪自编码机的显著性物体检测方法,首先利用去噪自编码机对位于图像周边的图块进行建模,然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建,并将深度重建残余作为显著性的计算手段。最终取得更具准确性,鲁棒性的显著物体检测结果。
Description
技术领域
本发明属于计算机视觉算法研究领域,涉及一种基于堆栈式去噪自编码机的显著性物体检测方法,可以在自然图像数据库中准确、鲁棒地计算出给定图像的显著物体。
背景技术
视觉显著性是视觉注意的一项重要功能,它表现为观察者从一个复杂的视觉场景中选择一个重要的内容进行集中处理,而忽略其他不太重要的内容。视觉场景中某些内容比其他内容更能获得观察者的注意,我们称它们具有更高的视觉显著性。视觉显著性的思想被大量地应用于视觉注意的计算模型中,ITTI在其经典的视觉注意计算模型中采用的显著性度量方法是基于像素与其周围邻域的局部视觉特征差异;Ma等人在2003年提出一种基于特征对比的显著性度量方法,该方法只考虑颜色特征,将输入图像从RGB颜色空间转换为LUV空间,进行颜色量化。为了处理简单,将输入图像调整到一个固定的尺寸。计算像素与其周围邻域的颜色特征对比度,得到该像素的显著性值;Hou等人在2008年提出了一种基于谱残差的显著性度量方法,该方法在频域上分析显著区域的特征,在空间域上构建显著图。FengLiu等人后来提出基于区域的显著性度量,他们首先利用一定的方法得到图像中不同的区域,然后根据每个区域的位置因素和特征对比等度量其显著性。
上述方法都是根据假设“图像中局部/全局对比度高的地方应该拥有更高的显著性”进行模型的建立,然而尽管他们能够在某些情况下得出令人满意的结果,但是这些模型所基于的假设在一些复杂的图像中并不适用。事实上,在进行显著物体检测时,能够反映显著物体的对比性,不是基于像素或图块的局部/全局对比性,而是图像前景区域与背景区域的对比性。基于此,本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法,首先利用去噪自编码机对位于图像周边的图块进行建模,然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建,并将深度重建残余作为显著性的计算手段。最终取得更具准确性,鲁棒性的显著物体检测结果。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法。
技术方案
一种基于堆栈式去噪自编码机的显著性物体检测方法,其特征在于步骤如下:
步骤1在图像中提取边界图块:首先将图像下采样为P×P个像素,然后利用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块,并将每个图块内的像素值构成的向量作为该图块的特征,生成四个训练集合Xtop,Xleft,Xdown,Xright;
步骤2训练基于图像边界的堆栈式去噪自编码机;采用节点数分别为H1∈[20,500],H2∈[20,500]的两层结构的堆栈式去噪自编码机(SDAE),对四个集合Xtop,Xleft,Xdown,Xright进行训练,得到四个基于图像边界的堆栈式去噪自编码机SDAEtop,SDAEleft,SDAEdown和SDAEright;
步骤3计算深度残余:采用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像中提取图块,并将图块内的像素值构成的向量将作为该图块的特征,生成堆栈式去噪自编码机的输入集合X={xj},其中j∈[1,N],N为整幅图像中提取的图块数;
将集合X={xj}中的每一个输入样本xj输入SDAEtop中,计算输入样本xj的上边界深度残余其中为xj在SDAEtop中第一隐层的激活向量,为xj在SDAEtop中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEleft中,计算输入样本xj的左边界深度残余其中为xj在SDAEleft中第一隐层的激活向量,为xj在SDAEleft中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEdown中,计算输入样本xj的下边界深度残余其中为xj在SDAEdown中第一隐层的激活向 量,为xj在SDAEdown中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEright中,计算输入样本xj的右边界深度残余其中为xj在SDAEright中第一隐层的激活向量, 为xj在SDAEright中第二重构层的激活向量;
步骤4合并生成深度残余图:对步骤3中的每一个输入样本xj,合并其基于四个边界的深度残余:将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图,将这个灰度图上采样到原始图片的大小即生成图像的深度残余图;
步骤5基于超像素的区域平滑:根据超像素分割理论,可将原始图像分割成互不重叠的超像素区域Rq,q∈[1,Q],其中Q为超像素区域总数;则每一个超像素区域Rq的显著值为该超像素区域内所有像素点上深度残余的均值。将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果;
所述步骤2和3中的堆栈式去噪自编码机采用P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,and P.-A.Manzagol,“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion,”Journal of Machine Learning Research,vol.9999,pp.3371-3408,2010;
所述步骤5中的超像素分割方法采用P.F.Felzenszwalb,and D.P.Huttenlocher,“Efficient graph-based image segmentation,”International Journal of Computer Vision,vol.59,no.2,pp.167-181,2004。
有益效果
本发明提出一种基于堆栈式去噪自编码机的显著性物体检测方法,首先利用去噪自编码机对位于图像周边的图块进行建模,然后将训练好的模型对整幅图像中的图块进行深度特征的提取及重建,并将深度重建残余作为显著性的计算手段。最终取得更具准确性,鲁棒性的显著物体检测结果。
附图说明
图1:本发明方法的基本流程图
图2:实验结果图
图3:ROC结果图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
用于实施的硬件环境是:Intel Pentium2.93GHz CPU计算机、2.0GB内存,运行的软件环境是:Matlab R2011b和Windows XP。实验选取了SOD库中的所有图像作为测试数据,该数据库中包含1000幅自然图像,是国际公开的用于测试显著物体计算模型的数据库。
本发明具体实施如下:
1.在图像中提取边界图块:首先将图像下采样为P×P个像素,然后利用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块,并将每个图块内的像素值构成的向量作为该图块的特征,生成四个训练集合Xtop,Xleft,Xdown,Xright。
2.训练基于图像边界的堆栈式去噪自编码机;采用“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion”中节点数分别为H1∈[20,500],H2∈[20,500]的两层结构的堆栈式去噪自编码机(SDAE),对四个集合Xtop,Xleft,Xdown,Xright进行训练,得到四个基于图像边界的堆栈式去噪自编码机SDAEtop,SDAEleft,SDAEdown和SDAEright。
3.计算深度残余:采用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像中提取图块,并将图块内的像素值构成的向量将作为该图块的特征,生成堆栈式去噪自编码机的输入集合X={xj},其中j∈[1,N],N为整幅图像中提取的图块数。
将集合X={xj}中的每一个输入样本xj输入SDAEtop中,计算输入样本xj的上边界 深度残余其中为xj在SDAEtop中第一隐层的激活向量,为xj在SDAEtop中第二重构层的激活向量。
将集合X={xj}中的每一个输入样本xj输入SDAEleft中,计算输入样本xj的左边界深度残余其中为xj在SDAEleft中第一隐层的激活向量,为xj在SDAEleft中第二重构层的激活向量。
将集合X={xj}中的每一个输入样本xj输入SDAEdown中,计算输入样本xj的下边界深度残余其中为xj在SDAEdown中第一隐层的激活向量,为xj在SDAEdown中第二重构层的激活向量。
将集合X={xj}中的每一个输入样本xj输入SDAEright中,计算输入样本xj的右边界深度残余其中为xj在SDAEright中第一隐层的激活向量, 为xj在SDAEright中第二重构层的激活向量。
4.合并生成深度残余图:对步骤3中的每一个输入样本xj,合并其基于四个边界的深度残余:将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图,将这个灰度图上采样到原始图片的大小即生成图像的深度残余图。
5.基于超像素的区域平滑:根据“Efficient graph-based image segmentation”中的超像素分割方法,可将原始图像分割成互不重叠的超像素区域Rq,q∈[1,Q],其中Q为超像素区域总数;则每一个超像素区域Rq的显著值为该超像素区域内所有像素点上深度残余的均值。将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果。
本发明选用ROC曲线对识别结果进行评估。该曲线定义为在分割阈值变化下,虚警率(FPR)和召回率(TPR)的变化关系。计算公式如下:
其中FP为检测到的虚警区域,N为ground truth中非目标的区域;TP为检测到的实警区域,P为ground truth中目标的区域。附图2为一些本发明的实验结果,附图3为本发明方法的ROC曲线,表1为本发明方法与基于区域对比度的显著物体检测算法(RC)之间的定量对比结果,其中包括了平均虚警率、平均召回率以及AUC(一种对ROC曲线的评判标准)。从实验结果可以看出本发明提出的方法可以更加准确和鲁棒地对自然图像进行显著物体的检测。
表1 检测结果评价
Claims (3)
1.一种基于堆栈式去噪自编码机的显著性物体检测方法,其特征在于步骤如下:
步骤1在图像中提取边界图块:首先将图像下采样为P×P个像素,然后利用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像的上、左、下、右四个边界中提取图块,并将每个图块内的像素值构成的向量作为该图块的特征,生成四个训练集合Xtop,Xleft,Xdown,Xright;
步骤2训练基于图像边界的堆栈式去噪自编码机;采用节点数分别为H1∈[20,500],H2∈[20,500]的两层结构的堆栈式去噪自编码机(SDAE),对四个集合Xtop,Xleft,Xdown,Xright进行训练,得到四个基于图像边界的堆栈式去噪自编码机SDAEtop,SDAEleft,SDAEdown和SDAEright;
步骤3计算深度残余:采用大小为size∈[5,20],步长为step∈[1,size]的方形滑动窗口在下采样后的图像中提取图块,并将图块内的像素值构成的向量将作为该图块的特征,生成堆栈式去噪自编码机的输入集合X={xj},其中j∈[1,N],N为整幅图像中提取的图块数;
将集合X={xj}中的每一个输入样本xj输入SDAEtop中,计算输入样本xj的上边界深度残余其中为xj在SDAEtop中第一隐层的激活向量,为xj在SDAEtop中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEleft中,计算输入样本xj的左边界深度残余其中为xj在SDAEleft中第一隐层的激活向量,为xj在SDAEleft中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEdown中,计算输入样本xj的下边界深度残余其中为xj在SDAEdown中第一隐层的激活向量,为xj在SDAEdown中第二重构层的激活向量;
将集合X={xj}中的每一个输入样本xj输入SDAEright中,计算输入样本xj的右边界深度残余其中为xj在SDAEright中第一隐层的激活向量,为xj在SDAEright中第二重构层的激活向量;
步骤4合并生成深度残余图:将步骤3中的每一个输入样本xj合并得到四个边界的深度残余:将合并后的深度残余作为与其相对应的输入样本的灰度值生成与下采样后图像对应的灰度图,将这个灰度图上采样到原始图片的大小生成图像的深度残余图;
步骤5基于超像素的区域平滑:根据超像素分割理论,将原始图像分割成互不重叠的超像素区域Rq,q∈[1,Q],其中Q为超像素区域总数;则每一个超像素区域Rq的显著值为该超像素区域内所有像素点上深度残余的均值;将所有超像素区域的显著值线性映射到[0,1]范围内就得到了最终的显著物体检测结果。
2.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法,其特征在于:所述步骤2和3中的堆栈式去噪自编码机采用文献:P.Vincent,H.Larochelle,I.Lajoie,Y.Bengio,and P.-A.Manzagol,“Stacked denoising autoencoders:Learninguseful representations in a deep network with a local denoising criterion,”Journal ofMachine Learning Research,vol.9999,pp.3371-3408,2010中的方法。
3.根据权利要求1所述的基于堆栈式去噪自编码机的显著性物体检测方法,其特征在于:所述步骤5中的超像素分割方法采用文献:P.F.Felzenszwalb,and D.P.Huttenlocher,“Efficient graph-based image segmentation,”International Journal ofComputer Vision,vol.59,no.2,pp.167-181,2004中的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410200352.1A CN103955936B (zh) | 2014-05-13 | 2014-05-13 | 一种基于堆栈式去噪自编码机的显著性物体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410200352.1A CN103955936B (zh) | 2014-05-13 | 2014-05-13 | 一种基于堆栈式去噪自编码机的显著性物体检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103955936A true CN103955936A (zh) | 2014-07-30 |
CN103955936B CN103955936B (zh) | 2017-01-25 |
Family
ID=51333205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410200352.1A Active CN103955936B (zh) | 2014-05-13 | 2014-05-13 | 一种基于堆栈式去噪自编码机的显著性物体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103955936B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392456A (zh) * | 2014-12-09 | 2015-03-04 | 西安电子科技大学 | 基于深度自编码器和区域图的sar图像分割方法 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN110120009A (zh) * | 2019-05-09 | 2019-08-13 | 西北工业大学 | 基于显著物体检测和深度估计算法的背景虚化实现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110206273A1 (en) * | 2010-02-25 | 2011-08-25 | Christian Plagemann | Intelligent Part Identification for Use with Scene Characterization or Motion Capture |
CN103679173A (zh) * | 2013-12-04 | 2014-03-26 | 清华大学深圳研究生院 | 图像显著区域检测方法 |
-
2014
- 2014-05-13 CN CN201410200352.1A patent/CN103955936B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110206273A1 (en) * | 2010-02-25 | 2011-08-25 | Christian Plagemann | Intelligent Part Identification for Use with Scene Characterization or Motion Capture |
CN103679173A (zh) * | 2013-12-04 | 2014-03-26 | 清华大学深圳研究生院 | 图像显著区域检测方法 |
Non-Patent Citations (4)
Title |
---|
ALI BORJI: "Boosting Bottom-up and Top-down Visual Features for Saliency Estimation", 《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
PASCAL VINCENT ET AL.: "Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion", 《THE JOURNAL OF MACHINE LEARNING RESEARCH》 * |
PEDRO F. FELZENSZWALB ET AL.: "Efficient Graph-Based Image Segmentation", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 * |
郭迎春 等: "基于Local特征和Regional特征的图像显著性检测", 《自动化学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392456A (zh) * | 2014-12-09 | 2015-03-04 | 西安电子科技大学 | 基于深度自编码器和区域图的sar图像分割方法 |
CN106295245A (zh) * | 2016-07-27 | 2017-01-04 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN106295245B (zh) * | 2016-07-27 | 2019-08-30 | 广州麦仑信息科技有限公司 | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 |
CN110120009A (zh) * | 2019-05-09 | 2019-08-13 | 西北工业大学 | 基于显著物体检测和深度估计算法的背景虚化实现方法 |
CN110120009B (zh) * | 2019-05-09 | 2022-06-07 | 西北工业大学 | 基于显著物体检测和深度估计算法的背景虚化实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103955936B (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Miao et al. | Road centerline extraction from high-resolution imagery based on shape features and multivariate adaptive regression splines | |
Yin et al. | Hot region selection based on selective search and modified fuzzy C-means in remote sensing images | |
CN106909902B (zh) | 一种基于改进的层次化显著模型的遥感目标检测方法 | |
CN103400151B (zh) | 一体化的光学遥感影像与gis自动配准与水体提取方法 | |
CN105574534A (zh) | 基于稀疏子空间聚类和低秩表示的显著性目标检测方法 | |
CN102945378B (zh) | 一种基于监督方法的遥感图像潜在目标区域检测方法 | |
CN102663754B (zh) | 一种基于区域高斯加权的图像匹配计算方法 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN106875395A (zh) | 基于深度神经网络的超像素级sar图像变化检测方法 | |
CN103903275B (zh) | 利用小波融合算法改进图像分割效果的方法 | |
CN104751153B (zh) | 一种识别场景文字的方法及装置 | |
CN103996040A (zh) | 融合局部-全局对比度的自底向上的视觉显著性生成方法 | |
CN105528619A (zh) | 基于小波变换和svm的sar遥感影像变化检测方法 | |
CN102542295A (zh) | 一种采用图像分类技术从遥感图像中进行滑坡检测的方法 | |
CN103544502A (zh) | 基于svm的高分辨率遥感影像船只提取方法 | |
CN104463248A (zh) | 基于深度玻尔兹曼机提取高层特征的高分辨率遥感图像飞机检测方法 | |
CN106023245A (zh) | 基于中智集相似度量测的静态背景下运动目标检测方法 | |
Wang et al. | The poor generalization of deep convolutional networks to aerial imagery from new geographic locations: an empirical study with solar array detection | |
CN107369158A (zh) | 基于rgb‑d图像的室内场景布局估计及目标区域提取方法 | |
CN103106658A (zh) | 一种海岛、礁岸线快速提取方法 | |
CN103745453B (zh) | 基于Google Earth遥感影像的城镇信息提取方法 | |
Song et al. | Extraction and reconstruction of curved surface buildings by contour clustering using airborne LiDAR data | |
CN103824302A (zh) | 基于方向波域图像融合的sar图像变化检测方法 | |
CN107451595A (zh) | 基于混合算法的红外图像显著性区域检测方法 | |
Wang et al. | Extraction of earthquake-induced collapsed buildings using very high-resolution imagery and airborne lidar data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |