CN103810503B

CN103810503B - 一种基于深度学习的自然图像中显著区域的检测方法

Info

Publication number: CN103810503B
Application number: CN201310739026.3A
Authority: CN
Inventors: 韩军伟; 闻时锋; 张鼎文; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Hefei Weizhi Zhongxiang Technology Co.,Ltd.
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-02-01
Anticipated expiration: 2033-12-26
Also published as: CN103810503A

Abstract

本发明涉及一种利用深度学习进行自然图像中显著区域的检测方法，在训练阶段，首先在自然图像数据库上选取一定数量的图片提取基本特征，构成训练样本，然后利用深度学习模型对已提取特征进行再学习，从而得到更抽象更有区分能力的增强型高级特征，最后用学习到的特征训练分类器。在测试阶段，对于任意一幅测试图像，首先提取基本特征，然后利用训练好的深度模型，提取增强型高级特征，最后利用分类器进行显著性与否的预测，并把每个像素点的预测值作为这点的显著值。这样我们就得到整幅图像的显著图，显著值越大，就越显著。

Description

一种基于深度学习的自然图像中显著区域的检测方法

技术领域

本发明涉及一种基于深度学习的自然图像中显著区域的检测方法，可以应用于复杂背景下自然图像中多区域的显著性检测。

背景技术

自然图像的显著区域检测一直是图像处理和计算机视觉领域的一个研究热点，到目前为止，已经有大量的研究结构和课题组从事这方面的研究，而且已经取得了非常不错的成果。

按照对视觉信息的处理方式划分，可以将视觉注意过程分为两部分，分别为自底向上（bottom-up）和自顶向下（top-down）的视觉注意。自底向上视觉注意模型通过直接计算低层特征的视觉显著度来构建注意过程，具有速度快，不受意识控制，前向传播等特点。自顶向下的注意模型又称任务驱动的注意模型，需要先验知识的支持，根据特定对象的特点在场景中进行视觉搜索，与人的主观意识有关，是涉及记忆、控制等模块的分工协作，具有速度慢，受意识控制，任务驱动和闭环结构等特点。

目前的绝大部分模型和算法都采用的是第一种注意机制，然而关于显著性的估计方法却呈现出百花齐放，百家争鸣的趋势。一般可以将现有的视觉注意模型分为以下几类：认知模型（cognitive model）,贝叶斯模型（Byes Model）,决策论模型（decisiontheoretic model）,信息论模型（information theoretic model）,图模型（graphicalmodel）,频谱分析模型（spectral analysis model）和模型分类模型（patternclassification model）。尽管大量的算法被提出，而且性能不断的提升，但是就目前的结果和实际上人眼的关注位置还是有很大的差异性。一方面的原因在于提取的特征区分能力不够，另一方面的原因在于没有发现的更好的模型来对显著值进行估算。

发明内容

要解决的技术问题

为了解决现有方法在自然图像中，显著区域检测效果差的问题，本发明提出了一种自底向上的基于深度学习的自然图像显著区域检测方法，可以自动的从复杂背景的自然图像中检测出相应的显著区域，并且取得比较高的准确率。

本发明的思想在于：

技术方案

一种基于深度学习的自然图像中显著区域的检测方法，其特征提取步骤如下：

步骤1、提取任意一幅待检测图像数据的视觉特征：

对任意一幅待检测图像数据进行下采样，然后进行N维特征的提取：

1.对下采样后的图像数据提取图像RGB通道的每个通道的特征值；

2.将下采样后的图像数据从RGB颜色空间转换到LAB颜色空间，并提取LAB颜色空间三个通道中每个通道的特征值；

分别计算L通道在灰度级参数bin1=8的直方图HL，A通道在灰度级参数bin2=16时的直方图HA，B通道在灰度级参数bin3=16时的灰度分布直方图HB，利用下述公式计算HL，HA，和HB三个直方图融合后的LAB颜色直方图Q：

Q=(HL-1)*bin2*bin3+(HA-1)*bin3+HB+1

3.将下采样后的图像数据从RGB颜色空间转换到HSV颜色空间，分别计算H通道在灰度级参数bin=8和S通道在灰度级参数bin=8下的直方图；

4.采用ITTI算法提取图像数据的方向，亮度，颜色对比度三类特征；

5.计算下采样后图像数据在4个方向3个尺度下的可控金字塔子频带特征；

6.采用SR,MZ,GBVS算法计算下采样后图像数据的显著图，并以显著图为显著特征；

7.对下采样后图像数据提取紧密度特征；

8.将下采样后图像数据用窗口为[w，w]，偏差为x的高斯低通滤波器平滑，然后采用的Leung-Malik滤波器算法，计算平滑后图像的Leung-Malik滤波器最大响应特征；所述整数w为5～10；所述x为0.25～2.5；

9.计算下采样后图像数据中各个像素点到图像中心像素点的欧氏距离，然后归一化到[0，1]之间得到中心偏置特征；

10.采样水平线检测算法计算下采样后图像数据的水平线特征；

11.采样人脸检测算法提取下采样后图像数据的人脸特征；

12.采样目标银行特征提取算法提取下采样后图像数据的在行人,汽车,花朵,交通标志四种滤波模板下的特征；

将以上提取的特征构成特征矩阵[P，P，N]，并将特征矩阵中每一维特征对应的二维矩阵[P,P]转化为长度为P*P的列向量，由此得到新的二维特征矩阵的维数为[P*P,N]；其中：P为下采样后图像的长或者宽；

步骤2：利用深度学习中的深度玻尔兹曼机模型，以步骤1得到的二维特征矩阵为输入样本，并提取深度玻尔兹曼机学习的高层特征，并送入softmax分类器进行分类，以分类器对每一个像素点预测为正样本的概率值作为此像素点的显著值，由此得到长度为P*P的显著值列向量，缩放回采样后测试图像的大小，此采样后测试图像的显著图大小为[P,P]；最后对得到的显著图像进行归一化操作，并缩放到采样前测试图像的尺度，得到此测试图像的最终显著图；

所述深度玻尔兹曼机和softmax分类器训练：随机选取Z幅图像样本，参照步骤1的特征提取过程，对每幅下采样后的样本图像进行特征提取，得到每幅样本图像的特征矩阵维数为[P_y,P_y,N_y]；按照采样后每幅样本图片的Ground Truth中像素点的显著值大小进行由大到小的排序，在排序结果的前q%中随机选择数量在10～40之间的正样本点，在排序结果的后k%随机选取数量在10～40之间的负样本点；其中q取值为5～20，k取值为30～70；对于每一个随机选取的样本点来说，它对应N维的特征向量，每个样本的长度为N，得到矩阵维度为[R,N]的样本矩阵，R为样本的数量；并对样本矩阵采用ZCA白化对样本矩阵进行去冗余处理，然后用处理后的样本训练具有多个隐层的深度玻尔兹曼机以进行高层特征学习，并将带有标签信息的高层特征送入softmax分类器进行训练，并利用反向传播算法反向调整深度玻尔兹曼机和softmax分类器的学习参数，以此来实现模型较高的预测和分类能力。

所述ITTI算法采用A Model of Saliency-Based Visual Attention for RapidScene Analysis提出的ITTI算法。

所述在4个方向3个尺度下的可控金字塔子频带特征的计算采用Filter DesignTechniqueforSteerable Pyramid Image Transforms中给出的算法。

所述SR,MZ,GBVS算法采用Saliency Detection:A Spectral ResidualApproach，Contrast-based image attention analysis by using fuzzy growing，和Graph-based visual saliency中提出的SR,MZ,GBVS算法。

所述紧密度特征的采用Multi-scale Saliency Detection Using Random Walkwith Restart中提出的紧密度特征的计算方法。

所述Leung-Malik滤波器算法采用Salient Object Detection:ADiscriminative Regional Feature Integration Approach中的Leung-Malik滤波器算法。

所述水平线检测算法采用Modeling the shape of the scene:A holisticrepresentation of the spatial envelope中水平线检测算法。

所述人脸检测算法采用Robust real-time object detection中的人脸检测算法。

所述目标银行特征提取算采用Object Bank:A High-Level ImageRepresentation for Scene Classification and Semantic Feature Sparsification中提出的目标银行特征提取算法。

有益效果

本发明方法，通过提取一系列的底层，中层和高层特征构成训练特征样本集，然后利用深度学习算法提取增强型高级特征，实验结果表明我们学习到的特征具有更高的区分性和鲁棒性。本发明可以应用于复杂背景下自然图像中多区域的显著性检测。该方法具有较高的检测精度，相对于绝大部分的方法来说，具有明显的优势。

附图说明

图1：本发明方法的基本流程图。

图2：不同方法在两种数据库上的ROC曲线，a：MIT数据库上的ROC曲线，b：Toronto数据库上的ROC曲线。

图3：多种方法在多幅图片上的显著图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

用于实施的硬件环境是：IntelPentium2.93GHz CPU计算机、4.0GB内存，运行的软件环境是：Matlab R2011b和Windows7。利用网上公布的MIT和Toronto数据库进行我们的实验，其中MIT数据库包含1003幅自然图像，Toronto数据库包含120幅图片。我们用Matlab软件实现了本发明提出的方法。

本发明具体实施如下：

步骤1提取图像数据的视觉特征：

本发明利用交叉验证每次选取903幅图像（最后一次为900幅）进行训练，利用剩余的图片进行测试。首先对训练集中每一幅图片进行37维特征的提取，下面分别介绍各个特征的提取方法及参数设置，其中所有的特征是基于对原始图像下采样到200*200的基础上提取到的：

●RGB通道：提取图像三个通道的特征值。

●LAB通道：从RGB颜色通道转换到LAB空间，提取三个通道的特征值。

●颜色直方图：设置LAB空间灰度级个数参数bin=[8,16,16]，利用LAB三个通道的特征值，分别计算在相应参数下的灰度分布直方图，然后融合三个直方图得到LAB直方图。图像转换到HSV空间，计算在bin=[8,8]下，分别计算H和S通道在相应bin参数下的直方图。

●方向，亮度，颜色对比度特征：利用文章A Model of Saliency-Based VisualAttention for Rapid Scene Analysis提出的ITTI算法，提取三类特征。

●可控金字塔子频带特征：利用文章Filter Design TechniqueforSteerablePyramid Image Transforms中给出的算法，计算在4个方向3个尺度下的特征。

●SR,MZ,GBVS特征：分别利用文章Saliency Detection:A Spectral ResidualApproach，Contrast-based image attention analysis by using fuzzy growing，和Graph-based visual saliency中提出的SR,MZ,GBVS算法，计算图像的显著图，并以此作为特征。

●紧密度特征：利用文章Multi-scale Saliency Detection Using Random Walkwith Restart中提出的紧密度（Compactness）的计算方法，提取此特征。

●LM滤波器最大响应特征：下采样后的图像用窗口为[5，5]，偏差为0.5的的高斯低通滤波器平滑，然后利用文章Salient Object Detection:A Discriminative RegionalFeature Integration Approach中采用的LM滤波器算法，得到此特征。

●中心偏置特征：计算采样后图像中各个像素点到图像中心像素点的欧氏距离，然后归一化到[0，1]之间。

●水平线检测特征：利用文章Modeling the shape of the scene:A holisticrepresentation of the spatial envelope中提出的水平线检测（Horizontallinedetector）算法，提取特征。

●人脸特征：利用文章Robust real-time object detection中给出的人脸检测算法，提取人脸特征.

●目标银行特征：利用文章Object Bank:A High-Level Image Representationfor Scene Classification and Semantic Feature Sparsification中提出的目标银行（object bank）特征提取算法，提取行人,车,花朵,交通标志四种模板下的特征。

对一副图像而言，经过以上的特征提取阶段之后，得到的特征矩阵是[200，200，37]，换而言之，每一个像素点对应一个37维的特征。

步骤2模型训练：

本发明采用深度学习中的深度玻尔兹曼机（Deep Boltzmann Machine，简称DBM）模型，利用文章Efficient Learning of Deep Boltzmann Machine中给出的DBM学习算法，构建包含两个隐层的深度网络。其中输入层的节点数为37，第一隐层节点数为90，第二隐层节点数为60,输出层节点个数为2.各层的训练迭代次数可在100到300之间选择，此外mean-field的执行次数设置为5。对于样本的选择，根据每幅图片Ground Truth，按照显著值的大小排序，并在前5%中随机选择20个点作为正样本，在后70%随机选择20个点作为负样本，一共选择903幅图片用于训练。此外，在训练之前，本发明对样本进行了一些预处理，即使特征具有零均值，并采用ZCA白化对训练样本进行去冗余。

步骤3预测测试图像的显著性区域：

对于一副测试图像，首先要按照步骤1的说明，提取37维基本特征，其次，利用骤2中训练好的模型，把提取出来的特征送入此模型。因为有两个输出节点，故应选择在模型训练时与正样本标签相对应的节点的值，作为该点的显著值。最后对整幅图像进行归一化操作，并缩放到原始图像的大小，即可得到此图像的显著图。

步骤4ROC曲线的绘制和AUC的计算：

本发明采用接收者操作特征曲线（Receiver Operating Characteristic，简称ROC）和曲线下的面积（Area Under Curve简称AUC)进行评估。ROC曲线的横轴表示负例错分为正例的概率，纵轴表示正例分对的概率，曲线下方和坐标轴之间的面积就是AUC（整个坐标轴间的面积为1），AUC越大，检测效果越好，模型预测能力越强。本发明与多类算法在MIT和Toronto数据库上测试的AUC结果如下表格所示：

表1不同算法在两种数据上测试得到的AUC值

算法	AIM	AWS	CLI	GB	MZ	SR	SUN	Judd	Ours
										MIT	0.744	0.754	0.747	0.823	0.648	0.713	0.684	0.838	0.848
Toronto	0.762	0.765	0.762	0.827	0.657	0.730	0.687	0.834	0.843

Claims

1.一种基于深度学习的数据图像中显著区域的检测方法，其特征在于步骤如下：

步骤1、提取任意一幅待检测图像数据的视觉特征：

步骤1.1．对下采样后的图像数据提取图像RGB通道的每个通道的特征值；

步骤1.2．将下采样后的图像数据从RGB颜色空间转换到LAB颜色空间，并提取LAB颜色空间三个通道中每个通道的特征值；

步骤1.3．将下采样后的图像数据从RGB颜色空间转换到HSV颜色空间，分别计算H通道在灰度级参数bin=8和S通道在灰度级参数bin=8下的直方图；

步骤1.4．采用ITTI算法提取图像数据的方向，亮度，颜色对比度三类特征；

步骤1.5．计算下采样后图像数据在4个方向3个尺度下的可控金字塔子频带特征；

步骤1.6．采用SR, MZ, GBVS 算法计算下采样后图像数据的显著图，并以显著图为显著特征；

步骤1.7．对下采样后图像数据提取紧密度特征；

步骤1.8．将下采样后图像数据用窗口为[w，w]，偏差为x的高斯低通滤波器平滑，然后采用的Leung-Malik 滤波器算法，计算平滑后图像的Leung-Malik滤波器最大响应特征；所述w为[5，10]，w为整数；所述x为[0.25，2.5]；

步骤1.9．计算下采样后图像数据中各个像素点到图像中心像素点的欧氏距离，然后归一化到[0，1]之间得到中心偏置特征；

步骤1.10．采样水平线检测算法计算下采样后图像数据的水平线特征；

步骤1.11．采样人脸检测算法提取下采样后图像数据的人脸特征；

步骤1.12．采样目标银行特征提取算法提取下采样后图像数据的在行人, 汽车, 花朵,交通标志四种滤波模板下的特征；

将以上提取的特征构成特征矩阵[P，P，N]，并将特征矩阵中每一维特征对应的二维矩阵[P, P]转化为长度为P*P的列向量，由此得到新的二维特征矩阵的维数为[P*P, N]；其中：P为下采样后图像的长或者宽；

步骤2：利用深度学习中的深度玻尔兹曼机模型，以步骤1得到的二维特征矩阵为输入样本，并提取深度玻尔兹曼机学习的高层特征，并送入softmax分类器进行分类，以分类器对每一个像素点预测为正样本的概率值作为此像素点的显著值，由此得到长度为P*P的显著值列向量，缩放回采样后测试图像的大小，此采样后测试图像的显著图大小为[P, P]；最后对得到的显著图像进行归一化操作，并缩放到采样前测试图像的尺度，得到此测试图像的最终显著图；

所述深度玻尔兹曼机和softmax分类器训练：随机选取Z幅图像样本，参照步骤1的特征提取过程，对每幅下采样后的样本图像进行特征提取，得到每幅样本图像的特征矩阵维数为[P_y, P_y, N_y]；按照采样后每幅样本图片的Ground Truth中像素点的显著值大小进行由大到小的排序，在排序结果的前q%中随机选择数量在[10,40]之间的正样本点，在排序结果的后k%随机选取数量在[10,40]之间的负样本点；其中q取值为[5,20]，k取值为[30,70]；对于每一个随机选取的样本点来说，它对应N维的特征向量，每个样本的长度为N，得到矩阵维度为[R, N]的样本矩阵，R为样本的数量；并对样本矩阵采用ZCA 白化对样本矩阵进行去冗余处理，然后用处理后的样本训练具有多个隐层的深度玻尔兹曼机以进行高层特征学习，并将带有标签信息的高层特征送入softmax 分类器进行训练，并利用反向传播算法反向调整深度玻尔兹曼机和softmax分类器的学习参数。