CN105069481A

CN105069481A - 基于空间金字塔稀疏编码的自然场景多标记分类方法

Info

Publication number: CN105069481A
Application number: CN201510512625.0A
Authority: CN
Inventors: 焦李成; 张丹; 马文萍; 屈嵘; 曾杰; 刘红英; 王爽; 侯彪; 杨淑媛; 尚荣华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-08-19
Filing date: 2015-08-19
Publication date: 2015-11-18
Anticipated expiration: 2035-08-19
Also published as: CN105069481B

Abstract

本发明方法公开了一种基于空间金字塔稀疏编码的自然场景多标记分类方法，主要解决现有分类方法对自然场景描述不够完全和分类正确率较低的问题。其实现步骤是：建立自然场景图像多标记类别库；提取它的尺度不变特征SIFT生成稀疏字典D；用稀疏字典对图像进行字典映射，并用空间金字塔和稀疏编码生成多尺度稀疏向量；用多分类支持矢量机分类结果校正排序支持矢量机分类结果，得到自然场景图像的最终分类结果。本发明采用了多尺度特征、稀疏编码和多标记分类方法，提取了图像的局部信息，丰富了图像的特征信息，对自然场景描述的更为完全，提高了自然场景的分类精度和鲁棒性，可用于自然场景匹配、分类和识别。

Description

基于空间金字塔稀疏编码的自然场景多标记分类方法

技术领域

本发明属于图像处理技术领域，特别涉及图像平移、旋转、亮度和尺度变化的自然场景分类方法，具体是一种基于空间金字塔稀疏编码的自然场景多标记分类方法，可用于图像的自然场景匹配、分类和识别。

背景技术

在过去的十年里，自然场景图像分类已经成为图像处理领域里一个很重要的技术问题。自然场景图像分类有很广泛的应用，如目标识别与检测、智能车辆或机器人导航等领域。由于自然场景图像类内差异性、照明条件差异性和图像本身尺度差异性较大，使得自然场景图像分类问题仍然较难处理。早期的一些自然场景图像分类方法大多数是应用低层信息建立模型的，这些方法采用全局统计信息，如运用全局的颜色或者纹理特征直方图表示图像。尽管这些方法的时间复杂性较低，但是它们通常应用于人为场景图像和室内场景图像分类，对自然场景的描述不够完全，并且分类结果较差。

多标记学习是针对现实世界中普遍存在的多义性对象而提出的一种学习框架。在该学习框架下，每个对象由一个示例描述，该示例具有多个类别标记，学习的目的是将所有合适的类别标记赋予未标记示例。在自然场景分类问题中，图像可能同时隶属于多个类别，例如同一幅图像中，既有“山”也有“树”，或者既有“沙漠”也有“海洋”，而单标记学习只能对图像标记成一种类别，多标记学习可对图像标记成多个类别。该问题可以很自然地利用多标记学习框架进行建模，且描述较完全。

目前已经出现了大量的多标记分类方法，并在自然场景分类领域得到了广泛应用。Boutell等人将自然场景多标记分类问题转化为多个独立的二分类问题，并给出了多种预测准则用于从各个二分类的支持矢量机SVM分类器中确定测试样本的类别。该方法使用颜色信息(colorinformation)作为特征向量来描述图像，在图像平移、旋转、亮度和尺度变化时适应性较差，并且存在对自然场景描述不完全的情况。

Zhang和Zhou提出了一种基于懒惰学习(lazylearning)技术的多标记学习算法——多标记K近邻(ML-KNN)，该算法直接使用测试样本与训练样本的相似度来对概念标记进行预测。该方法也同样使用颜色信息作为特征向量来描述图像，存在适应性较差的问题。

图像的有效信息除了有颜色信息，还有纹理、轮廓、尺度信息等深层涵义信息。上述方法在多标记分类问题中均仅使用颜色信息作为特征向量，因此在图像平移、旋转、亮度和尺度变化时很难获得图像的完整正确分类。

发明内容

本发明的目的在于针对上述现有技术方法的不足，提出了一种基于空间金字塔稀疏编码的自然场景多标记分类方法，以减少由于图像平移、旋转、亮度和尺度变化带来的误分，且该方法对于光线、噪声、微视角改变、部分物体遮蔽的容忍度也相当高，提高了自然场景多标记分类的正确率和鲁棒性。

为实现上述目的，本发明的技术方案包括如下步骤：

(1)建立自然场景图像多标记类别库；

(2)对自然场景图像多标记类别库中的每幅图像，提取图像的尺度不变SIFT特征矩阵F：

以k像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，得到图像的SIFT特征矩阵F＝{y₁,y₂,…,y_i,…,y_n}∈R^d×n，其中R表示实数集合，y_i表示图像的第i个图像块的SIFT特征向量，i＝1,2,…,n，n表示图像中图像块的个数，d表示SIFT特征维数；

(3)对所有图像的SIFT特征矩阵，从中随机选取M个特征向量，构成新特征矩阵Y，将其通过K-奇异值分解方法K-SVD训练字典D，M取值为100000-1000000之间的整数；

(4)对每幅图像的特征矩阵F，通过已经训练好的字典D进行稀疏编码，得到图像的稀疏矩阵W；

(5)对每幅图像的稀疏矩阵W，利用空间金字塔最大池化方法，得到图像的稀疏编码向量X；

(6)将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类，通过多分类支持矢量机SVM的分类结果为S，通过排序支持矢量机Rank-SVM的分类结果为R：

(6a)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中，通过一对多的正项准则策略，经过训练、测试，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，其中S_i表示在该分类策略中第i幅图像的分类结果，m表示测试图像的总数；

(6b)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中，经过训练、测试，得到图像的分类结果R＝{R₁,R₂,…,R_i,…,R_m}，其中R_i表示在该分类策略中第i幅图像的分类结果；

(7)通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM的分类结果R，得到自然场景图像多标记类别库中图像的最终分类结果C：

多分类SVM的分类结果S＝{S₁,S₂,…,S_i,…,S_m}中找到非零向量的位置为j，j＝1,2,..m，用位置为j的非零向量S_j替换Rank-SVM的分类结果R＝{R₁,R₂,…,R_i,…,R_m}中对应位置j的向量R_j，得到自然场景图像多标记类别库中图像的最终分类结果C＝{R₁,R₂,…,S_j,…,R_m}，其中S_j为替换向量R_j的非零向量。

本发明与现有的技术相比具有以下优点：

本发明首先输入自然场景图像多标记类别库中的图像，提取它的尺度不变特征SIFT。其次，用K-奇异值分解方法K-SVD对初始字典进行学习得到稀疏字典D，利用空间金字塔最大池化方法和稀疏字典对图像进行稀疏编码。最后，通过多标记分类方法和判定准则对自然场景图像进行分类。本发明在不限制分类类别数目的同时，有效地提高了自然场景图像的分类精度和鲁棒性，并且有效的利用了图像的局部信息。与现有的技术相比，本发明具有以下优点：

1、本发明提取了自然场景图像的SIFT特征，其作为图像特征有效地获取了图像的局部信息，能适应图像平移、旋转、亮度和尺度变化带来的影响；

2、本发明利用K-SVD算法得到较好的稀疏字典，使分类结果有更好的鲁棒性；

3、本发明利用多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类，并利用多分类支持矢量机SVM的分类结果辅助校正排序支持矢量机Rank-SVM的分类结果，使得最终的分类结果准确率更高，分类鲁棒性更好。

附图说明

图1是本发明的实现流程图；

图2是本发明仿真采用的自然场景图像多标记类别库中的样例图像。

具体实施方式

以下结合附图对本发明的实施例和效果作进一步详细描述：

图像分类问题是图像处理技术领域中重要的分支，图像分类问题中普遍存在着一幅图像对应多个类别的情况，图像分类要解决的问题不仅是按照以图为单位进行分类，也要以图的种类进行标注。图像分类可应用于目标识别与检测、智能车辆或机器人导航等领域。目前对于自然场景图像多标记分类方法还存在图像特征提取不充分的问题。本发明是在这一技术领域进行的研究。

实施例1

本发明是一种基于空间金字塔稀疏编码的自然场景多标记分类方法。参照图1，本发明的具体实施步骤如下：

步骤1，建立自然场景图像多标记类别库，将图像作为输入数据。

将自然场景图像多标记类别库original作为本发明实验使用图像库，该图像库包含2000幅自然场景图像，所有可能的概念标记为沙漠、山、海洋、落日和树，每幅图像被人工标注了一组概念标记集合。具有两个或两个以上概念标记(例如“海洋+落日”)的图像约占图像库的22％，每幅图像平均对应于1.24±0.44个概念标记。

步骤2，对自然场景图像多标记类别库中的每幅图像，提取图像的尺度不变SIFT特征矩阵F。

以k像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，本例中以8像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，得到图像的SIFT特征矩阵F＝{y₁,y₂,…,y_i,…,y_n}∈R^d×n，其中R表示实数集合，y_i表示图像的第i个图像块的SIFT特征向量，i＝1,2,…,n，n表示图像中图像块的个数，d表示SIFT特征维数，本实施例中d＝128，均匀采样步长k可为6像素，8像素等。

步骤3，对所有图像的SIFT特征矩阵，从中随机选取M个特征向量，构成新特征矩阵Y，将新特征矩阵Y通过K-奇异值分解方法K-SVD训练，得到字典D。

步骤4，对每幅图像进行稀疏编码得到图像的稀疏矩阵W。

对每幅图像的特征矩阵F，通过已经训练好的字典D进行稀疏编码，据求解公式W＝D^TF，得到图像的稀疏矩阵W，其中D^T表示字典D的转置。

步骤5，对每幅图像中所有图像块的稀疏向量利用空间金字塔最大池化方法，得到整幅图像的稀疏向量X。

步骤6，将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类，分类结果分别为S和R。

(6.1)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中，通过一对多的正项准则策略，经过训练、测试，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，其中S_i表示在该分类策略中第i幅图像的分类结果，m表示测试图像的总数。

将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组，其中拆分的多标记图像只作为该类的正类样本，随机从每个单标记图像组中选取100幅图像作为训练样本，所有图像作为测试样本，通过一对多的正项准则策略，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，其中m＝2000。

(6.2)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中，经过训练、测试，得到图像的分类结果R＝{R₁,R₂,…,R_i,…,R_m}，其中R_i表示在该分类策略中第i幅图像的分类结果；

步骤7，通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM的分类结果R，得到自然场景图像多标记类别库中图像的最终分类结果C。

(7.1)从多分类SVM的分类结果S＝{S₁,S₂,…,S_i,…,S_m}中找到非零向量的位置为j，j＝1,2,..m，位置为j的非零向量为S_j；

(7.2)用非零向量S_j替换Rank-SVM的分类结果R＝{R₁,R₂,…,R_i,…,R_m}中对应位置j的向量R_j，得到最终分类结果C＝{R₁,R₂,…,S_j,…,R_m}，从而获得自然场景图像多标记类别库中图像的分类结果为C。

实施例2

以k像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，本例中以6像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，

基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1，其中步骤2所述的提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，按如下步骤进行：

(2.1)对16×16像素大小的图像块进行高斯滤波，其中高斯滤波的参数分别为：均值为0，方差为1，大小为5×5像素；

(2.2)计算高斯滤波后的图像块内每一个像素点的梯度模值和梯度方向；

(2.3)统计高斯滤波后的图像块中每个4×4像素的图像区域每个像素点分别在8个方向上的投影大小之和，得到一个8维的特征向量，其中8个方向分别为0度，45度，90度，135度，180度，225度，270度，315度，16×16像素大小的图像块内共有16个8维特征向量，得到每个图像块的SIFT特征为128维，d＝128。最终得到图像的SIFT特征矩阵F＝{y₁,y₂,…,y_i,…,y_n}∈R^d×n，其中R表示实数集合，y_i表示图像的第i个图像块的SIFT特征向量，i＝1,2,…,n，n表示图像中图像块的个数。本发明使用SIFT算法，它是一种局部特征描述子，SIFT特征具有尺度不变性，对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。SIFT特征适合图像的特征描述。

实施例3

基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-2，其中步骤3所述的对所有图像的SIFT特征矩阵，从中随机选取M个特征向量，构成新特征矩阵Y，将其通过K-奇异值分解方法K-SVD训练字典D，按如下步骤进行：

(3.1)从所有图像的SIFT特征矩阵中随机选取M个特征向量，构成新特征矩阵Y，矩阵大小为128×M，其中M一般取值为100000、200000、1000000，本实施例中M＝200000，发明从特征矩阵中选取了M个特征向量进行字典训练，减小了训练计算量。

(3.2)随机选取矩阵Y中的B列特征向量初始化字典D，本实施例中字典的原子数B＝1024，字典D的大小为128×1024，本发明利用矩阵Y中的B列特征向量初始化字典D，比随机初始的字典效果更好；

(3.3)利用K-奇异值分解方法K-SVD求解优化方程

\begin{matrix} m i n {| | Y - D α | |_{2}^{2}} & s . t . & &ForAll; i, | | α_{i} | |_{0} \leq T_{0} \end{matrix},

得到字典D的近似解，其中Y表示特征矩阵，α为稀疏系数矩阵，表示矩阵的2范数的平方，min{||·||}表示使·的值达到最小，s.t.表示约束条件，表示任意的i值，i＝1,2,…,M，||·||₀表示向量·的0范数，α_i表示稀疏系数矩阵α的第i列，T₀为稀疏度，设为1。

实施例4

基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-3，其中步骤5所述的对每幅图像的稀疏矩阵W，利用空间金字塔最大池化方法，得到整幅图像的稀疏编码向量X，按如下步骤进行：

(5.1)对金字塔第一层的整幅图像进行稀疏编码，计算其各个维度的最大值，得到1个1024维的特征向量；

(5.2)把金字塔第二层的整幅图像分为2×2的4个图像块，计算每个图像块中所有稀疏编码在各个维度的最大值，得到4个1024维的特征向量；

(5.3)把金字塔第三层的整幅图像分为4×4的16个图像块，计算每个图像块中所有稀疏编码在各个维度的最大值，得到16个1024维的特征向量；

(5.4)整合步骤(5.1)至(5.3)得到的21个1024维的特征向量，得到21504维的整幅图像的稀疏编码矩阵X。

实施例5

基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-4，其中步骤(6.1)所述的把图像的稀疏编码向量X输入到多分类支持矢量机SVM中，通过一对多的正项准则策略，经过训练、测试，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，是将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组，其中拆分的多标记图像只作为该类的正类样本，随机从每个单标记图像组中选取100幅图像作为训练样本，所有图像作为测试样本，通过一对多的正项准则策略，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，构建多分类支持矢量机SVM的准则策略有两种，一对多和一对一，本实施例中采用一对多的准则策略。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

仿真实验采用自然场景图像多标记类别库，包含2000幅自然场景图像。该图像库包含沙漠、山、海洋、落日和树5个概念类，具有两个或两个以上概念标记，例如“海洋+落日”的图像约占图像库的22％，其中某些类型的概念标记集合(例如“山+落日+树)出现频率极低，每幅图像平均对应于1.24±0.44个概念标记。其样例图像如图2所示，其中图2(a)是沙漠场景,图2(b)是山场景，图2(c)是海洋场景，图2(d)是落日场景，图2(e)是树场景，图2(f)是沙漠+山场景，图2(g)是山+海洋场景，图2(h)是海洋+落日场景，图2(i)是落日+树场景，图2(j)是沙漠+山+落日场景，图2(k)是山+海洋+树场景，图2(l)是海洋+落日+树场景，其每个类别的类别名称以及包含的图像数目如表1所示。

表1自然场景图像多标记类别库

类别名称	图像数目	类别名称	图像数目	类别名称	图像数目
						沙漠	340	沙漠+落日	21	落日+树	28
山	268	沙漠+树	20	沙漠+山+落日	1
						海洋	341	山+海洋	38	沙漠+落日+树	3
落日	216	山+落日	19	山+海洋+树	6
						树	378	山+树	106	山+落日+树	1
沙漠+山	19	海洋+落日	172	海洋+落日+树	4
						沙漠+海洋	5	海洋+树	14	合计	2000

仿真实验在CPU为IntelCore(TM)2Duo、主频2.33GHz，内存为2G的WINDOWSXP系统上用MATLAB7.0.1软件进行。

2.仿真内容及分析：

使用本发明与Boutell等、Zhang和Zhou的方法进行对比，均对自然场景图像多标记类别库中的每个概念类自然场景图像中随机选取100幅共500幅图像组成自然场景图像多标记分类的训练集，用自然场景图像多标记类别库中所有2000幅图像组成自然场景图像多标记分类的测试集，ML-KNN方法中参数取值为k＝10。

仿真1，用本发明方法及现有Boutell等的方法和Zhang和Zhou的ML-KNN方法进行对比实验，对自然场景图像多标记类别库中的5个概念类自然场景图像进行10次交叉验证实验，计算10次交叉验证实验的平均分类正确率，作为自然场景图像多标记类别库的最终分类正确率，对比结果如表2所示。

表2实验结果对比

Boutell等	73.19％
		Zhang和Zhou	74.87％
本发明方法	83.55％

从表2可见，本发明方法对自然场景图像多标记类别库的最终分类正确率高于其他方法。

综上，本发明公开的基于空间金字塔稀疏编码的自然场景多标记分类方法，主要解决现有分类方法对自然场景描述不够完全和分类正确率较低的问题。其实现步骤是：建立自然场景图像多标记类别库；提取它的尺度不变特征SIFT生成稀疏字典D；用稀疏字典对图像进行字典映射，并用空间金字塔和稀疏编码生成多尺度稀疏向量；用多分类支持矢量机分类结果校正排序支持矢量机分类结果，得到自然场景图像的最终分类结果。本发明采用了多尺度特征、稀疏编码和多标记分类方法，通过对自然场景图像进行空间金字塔稀疏编码，提取了更多的图像局部信息，丰富了图像的特征，对自然场景描述的更为完全，与Boutell等及Zhang和Zhou的方法相比，提高了自然场景的分类精度和鲁棒性，可用于自然场景匹配、分类和识别。

Claims

1.一种基于空间金字塔稀疏编码的自然场景多标记分类方法，包括如下步骤：

(1)建立自然场景图像多标记类别库；

以k像素为步长均匀采样，并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，得到图像的SIFT特征矩阵F＝{y₁,y₂,...,y_i,...,y_n}∈R^d×n，其中R表示实数集合，y_i表示图像的第i个图像块的SIFT特征向量，i＝1,2,…,n，n表示图像中图像块的个数，d表示SIFT特征维数；

2.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法，其中步骤2所述的提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT，按如下步骤进行：

(2a)对16×16像素大小的图像块进行高斯滤波，其中高斯滤波的参数分别为：均值为0，方差为1，大小为5×5像素；

(2b)计算高斯滤波后的图像块内每一个像素点的梯度模值和梯度方向；

(2c)统计高斯滤波后的图像块中每个4×4像素的图像区域内每个像素点分别在8个方向上的投影大小之和，得到一个8维的特征向量，其中8个方向分别为0度，45度，90度，135度，180度，225度，270度，315度，16×16像素大小的图像块内共有16个8维特征向量，得到每个图像块的SIFT特征为128维。

3.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法，其中步骤(3)所述的对所有图像的SIFT特征矩阵，从中随机选取M个特征向量，构成新特征矩阵Y，将其通过K-奇异值分解方法K-SVD训练字典D，按如下步骤进行：

(3a)从所有图像的SIFT特征矩阵中随机选取M个特征向量，构成新特征矩阵Y，矩阵大小为128×M；

(3b)随机选取特征矩阵Y中的1024列特征向量初始化字典D，字典D的大小为128×1024；

(3c)利用K-奇异值分解方法K-SVD求解优化方程

\begin{matrix} m i n {| | Y - D α | |_{2}^{2}} & s . t . & &ForAll; i, | | α_{i} | |_{0} \leq T_{0} \end{matrix},

4.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法，其中步骤(4)所述的对每幅图像的特征矩阵F，通过已经训练好的字典D进行稀疏编码，根据求解公式W＝D^TF，得到图像的稀疏矩阵W，其中D^T表示字典D的转置。

5.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法，其中步骤(5)所述的对每幅图像的稀疏矩阵W，利用空间金字塔最大池化方法，得到整幅图像的稀疏编码向量X，按如下步骤进行：

(5a)对金字塔第一层的整幅图像进行稀疏编码，计算其各个维度的最大值，得到1个1024维的特征向量；

(5b)把金字塔第二层的整幅图像分为2×2的4个图像块，计算每个图像块中所有稀疏编码在各个维度的最大值，得到4个1024维的特征向量；

(5c)把金字塔第三层的整幅图像分为4×4的16个图像块，计算每个图像块中所有稀疏编码在各个维度的最大值，得到16个1024维的特征向量；

(5d)整合步骤(5a)至(5c)得到的21个1024维的特征向量，得到21504维的整幅图像的稀疏编码向量X。

6.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法，其中步骤(6a)所述的把图像的稀疏编码向量X输入到多分类支持矢量机SVM中，通过一对多的正项准则策略，经过训练、测试，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}，是将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组，其中拆分的多标记图像只作为该类的正类样本，随机从每个单标记图像组中选取100幅图像作为训练样本，所有图像作为测试样本，通过一对多的正项准则策略，得到图像的分类结果S＝{S₁,S₂,…,S_i,…,S_m}。