CN105069481A - 基于空间金字塔稀疏编码的自然场景多标记分类方法 - Google Patents
基于空间金字塔稀疏编码的自然场景多标记分类方法 Download PDFInfo
- Publication number
- CN105069481A CN105069481A CN201510512625.0A CN201510512625A CN105069481A CN 105069481 A CN105069481 A CN 105069481A CN 201510512625 A CN201510512625 A CN 201510512625A CN 105069481 A CN105069481 A CN 105069481A
- Authority
- CN
- China
- Prior art keywords
- image
- natural scene
- sparse
- classification
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明方法公开了一种基于空间金字塔稀疏编码的自然场景多标记分类方法,主要解决现有分类方法对自然场景描述不够完全和分类正确率较低的问题。其实现步骤是:建立自然场景图像多标记类别库;提取它的尺度不变特征SIFT生成稀疏字典D;用稀疏字典对图像进行字典映射,并用空间金字塔和稀疏编码生成多尺度稀疏向量;用多分类支持矢量机分类结果校正排序支持矢量机分类结果,得到自然场景图像的最终分类结果。本发明采用了多尺度特征、稀疏编码和多标记分类方法,提取了图像的局部信息,丰富了图像的特征信息,对自然场景描述的更为完全,提高了自然场景的分类精度和鲁棒性,可用于自然场景匹配、分类和识别。
Description
技术领域
本发明属于图像处理技术领域,特别涉及图像平移、旋转、亮度和尺度变化的自然场景分类方法,具体是一种基于空间金字塔稀疏编码的自然场景多标记分类方法,可用于图像的自然场景匹配、分类和识别。
背景技术
在过去的十年里,自然场景图像分类已经成为图像处理领域里一个很重要的技术问题。自然场景图像分类有很广泛的应用,如目标识别与检测、智能车辆或机器人导航等领域。由于自然场景图像类内差异性、照明条件差异性和图像本身尺度差异性较大,使得自然场景图像分类问题仍然较难处理。早期的一些自然场景图像分类方法大多数是应用低层信息建立模型的,这些方法采用全局统计信息,如运用全局的颜色或者纹理特征直方图表示图像。尽管这些方法的时间复杂性较低,但是它们通常应用于人为场景图像和室内场景图像分类,对自然场景的描述不够完全,并且分类结果较差。
多标记学习是针对现实世界中普遍存在的多义性对象而提出的一种学习框架。在该学习框架下,每个对象由一个示例描述,该示例具有多个类别标记,学习的目的是将所有合适的类别标记赋予未标记示例。在自然场景分类问题中,图像可能同时隶属于多个类别,例如同一幅图像中,既有“山”也有“树”,或者既有“沙漠”也有“海洋”,而单标记学习只能对图像标记成一种类别,多标记学习可对图像标记成多个类别。该问题可以很自然地利用多标记学习框架进行建模,且描述较完全。
目前已经出现了大量的多标记分类方法,并在自然场景分类领域得到了广泛应用。Boutell等人将自然场景多标记分类问题转化为多个独立的二分类问题,并给出了多种预测准则用于从各个二分类的支持矢量机SVM分类器中确定测试样本的类别。该方法使用颜色信息(colorinformation)作为特征向量来描述图像,在图像平移、旋转、亮度和尺度变化时适应性较差,并且存在对自然场景描述不完全的情况。
Zhang和Zhou提出了一种基于懒惰学习(lazylearning)技术的多标记学习算法——多标记K近邻(ML-KNN),该算法直接使用测试样本与训练样本的相似度来对概念标记进行预测。该方法也同样使用颜色信息作为特征向量来描述图像,存在适应性较差的问题。
图像的有效信息除了有颜色信息,还有纹理、轮廓、尺度信息等深层涵义信息。上述方法在多标记分类问题中均仅使用颜色信息作为特征向量,因此在图像平移、旋转、亮度和尺度变化时很难获得图像的完整正确分类。
发明内容
本发明的目的在于针对上述现有技术方法的不足,提出了一种基于空间金字塔稀疏编码的自然场景多标记分类方法,以减少由于图像平移、旋转、亮度和尺度变化带来的误分,且该方法对于光线、噪声、微视角改变、部分物体遮蔽的容忍度也相当高,提高了自然场景多标记分类的正确率和鲁棒性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)建立自然场景图像多标记类别库;
(2)对自然场景图像多标记类别库中的每幅图像,提取图像的尺度不变SIFT特征矩阵F:
以k像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,得到图像的SIFT特征矩阵F={y1,y2,…,yi,…,yn}∈Rd×n,其中R表示实数集合,yi表示图像的第i个图像块的SIFT特征向量,i=1,2,…,n,n表示图像中图像块的个数,d表示SIFT特征维数;
(3)对所有图像的SIFT特征矩阵,从中随机选取M个特征向量,构成新特征矩阵Y,将其通过K-奇异值分解方法K-SVD训练字典D,M取值为100000-1000000之间的整数;
(4)对每幅图像的特征矩阵F,通过已经训练好的字典D进行稀疏编码,得到图像的稀疏矩阵W;
(5)对每幅图像的稀疏矩阵W,利用空间金字塔最大池化方法,得到图像的稀疏编码向量X;
(6)将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类,通过多分类支持矢量机SVM的分类结果为S,通过排序支持矢量机Rank-SVM的分类结果为R:
(6a)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中,通过一对多的正项准则策略,经过训练、测试,得到图像的分类结果S={S1,S2,…,Si,…,Sm},其中Si表示在该分类策略中第i幅图像的分类结果,m表示测试图像的总数;
(6b)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中,经过训练、测试,得到图像的分类结果R={R1,R2,…,Ri,…,Rm},其中Ri表示在该分类策略中第i幅图像的分类结果;
(7)通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM的分类结果R,得到自然场景图像多标记类别库中图像的最终分类结果C:
多分类SVM的分类结果S={S1,S2,…,Si,…,Sm}中找到非零向量的位置为j,j=1,2,..m,用位置为j的非零向量Sj替换Rank-SVM的分类结果R={R1,R2,…,Ri,…,Rm}中对应位置j的向量Rj,得到自然场景图像多标记类别库中图像的最终分类结果C={R1,R2,…,Sj,…,Rm},其中Sj为替换向量Rj的非零向量。
本发明与现有的技术相比具有以下优点:
本发明首先输入自然场景图像多标记类别库中的图像,提取它的尺度不变特征SIFT。其次,用K-奇异值分解方法K-SVD对初始字典进行学习得到稀疏字典D,利用空间金字塔最大池化方法和稀疏字典对图像进行稀疏编码。最后,通过多标记分类方法和判定准则对自然场景图像进行分类。本发明在不限制分类类别数目的同时,有效地提高了自然场景图像的分类精度和鲁棒性,并且有效的利用了图像的局部信息。与现有的技术相比,本发明具有以下优点:
1、本发明提取了自然场景图像的SIFT特征,其作为图像特征有效地获取了图像的局部信息,能适应图像平移、旋转、亮度和尺度变化带来的影响;
2、本发明利用K-SVD算法得到较好的稀疏字典,使分类结果有更好的鲁棒性;
3、本发明利用多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类,并利用多分类支持矢量机SVM的分类结果辅助校正排序支持矢量机Rank-SVM的分类结果,使得最终的分类结果准确率更高,分类鲁棒性更好。
附图说明
图1是本发明的实现流程图;
图2是本发明仿真采用的自然场景图像多标记类别库中的样例图像。
具体实施方式
以下结合附图对本发明的实施例和效果作进一步详细描述:
图像分类问题是图像处理技术领域中重要的分支,图像分类问题中普遍存在着一幅图像对应多个类别的情况,图像分类要解决的问题不仅是按照以图为单位进行分类,也要以图的种类进行标注。图像分类可应用于目标识别与检测、智能车辆或机器人导航等领域。目前对于自然场景图像多标记分类方法还存在图像特征提取不充分的问题。本发明是在这一技术领域进行的研究。
实施例1
本发明是一种基于空间金字塔稀疏编码的自然场景多标记分类方法。参照图1,本发明的具体实施步骤如下:
步骤1,建立自然场景图像多标记类别库,将图像作为输入数据。
将自然场景图像多标记类别库original作为本发明实验使用图像库,该图像库包含2000幅自然场景图像,所有可能的概念标记为沙漠、山、海洋、落日和树,每幅图像被人工标注了一组概念标记集合。具有两个或两个以上概念标记(例如“海洋+落日”)的图像约占图像库的22%,每幅图像平均对应于1.24±0.44个概念标记。
步骤2,对自然场景图像多标记类别库中的每幅图像,提取图像的尺度不变SIFT特征矩阵F。
以k像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,本例中以8像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,得到图像的SIFT特征矩阵F={y1,y2,…,yi,…,yn}∈Rd×n,其中R表示实数集合,yi表示图像的第i个图像块的SIFT特征向量,i=1,2,…,n,n表示图像中图像块的个数,d表示SIFT特征维数,本实施例中d=128,均匀采样步长k可为6像素,8像素等。
步骤3,对所有图像的SIFT特征矩阵,从中随机选取M个特征向量,构成新特征矩阵Y,将新特征矩阵Y通过K-奇异值分解方法K-SVD训练,得到字典D。
步骤4,对每幅图像进行稀疏编码得到图像的稀疏矩阵W。
对每幅图像的特征矩阵F,通过已经训练好的字典D进行稀疏编码,据求解公式W=DTF,得到图像的稀疏矩阵W,其中DT表示字典D的转置。
步骤5,对每幅图像中所有图像块的稀疏向量利用空间金字塔最大池化方法,得到整幅图像的稀疏向量X。
步骤6,将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类,分类结果分别为S和R。
(6.1)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中,通过一对多的正项准则策略,经过训练、测试,得到图像的分类结果S={S1,S2,…,Si,…,Sm},其中Si表示在该分类策略中第i幅图像的分类结果,m表示测试图像的总数。
将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组,其中拆分的多标记图像只作为该类的正类样本,随机从每个单标记图像组中选取100幅图像作为训练样本,所有图像作为测试样本,通过一对多的正项准则策略,得到图像的分类结果S={S1,S2,…,Si,…,Sm},其中m=2000。
(6.2)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中,经过训练、测试,得到图像的分类结果R={R1,R2,…,Ri,…,Rm},其中Ri表示在该分类策略中第i幅图像的分类结果;
步骤7,通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM的分类结果R,得到自然场景图像多标记类别库中图像的最终分类结果C。
(7.1)从多分类SVM的分类结果S={S1,S2,…,Si,…,Sm}中找到非零向量的位置为j,j=1,2,..m,位置为j的非零向量为Sj;
(7.2)用非零向量Sj替换Rank-SVM的分类结果R={R1,R2,…,Ri,…,Rm}中对应位置j的向量Rj,得到最终分类结果C={R1,R2,…,Sj,…,Rm},从而获得自然场景图像多标记类别库中图像的分类结果为C。
实施例2
以k像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,本例中以6像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,
基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1,其中步骤2所述的提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,按如下步骤进行:
(2.1)对16×16像素大小的图像块进行高斯滤波,其中高斯滤波的参数分别为:均值为0,方差为1,大小为5×5像素;
(2.2)计算高斯滤波后的图像块内每一个像素点的梯度模值和梯度方向;
(2.3)统计高斯滤波后的图像块中每个4×4像素的图像区域每个像素点分别在8个方向上的投影大小之和,得到一个8维的特征向量,其中8个方向分别为0度,45度,90度,135度,180度,225度,270度,315度,16×16像素大小的图像块内共有16个8维特征向量,得到每个图像块的SIFT特征为128维,d=128。最终得到图像的SIFT特征矩阵F={y1,y2,…,yi,…,yn}∈Rd×n,其中R表示实数集合,yi表示图像的第i个图像块的SIFT特征向量,i=1,2,…,n,n表示图像中图像块的个数。本发明使用SIFT算法,它是一种局部特征描述子,SIFT特征具有尺度不变性,对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。SIFT特征适合图像的特征描述。
实施例3
基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-2,其中步骤3所述的对所有图像的SIFT特征矩阵,从中随机选取M个特征向量,构成新特征矩阵Y,将其通过K-奇异值分解方法K-SVD训练字典D,按如下步骤进行:
(3.1)从所有图像的SIFT特征矩阵中随机选取M个特征向量,构成新特征矩阵Y,矩阵大小为128×M,其中M一般取值为100000、200000、1000000,本实施例中M=200000,发明从特征矩阵中选取了M个特征向量进行字典训练,减小了训练计算量。
(3.2)随机选取矩阵Y中的B列特征向量初始化字典D,本实施例中字典的原子数B=1024,字典D的大小为128×1024,本发明利用矩阵Y中的B列特征向量初始化字典D,比随机初始的字典效果更好;
(3.3)利用K-奇异值分解方法K-SVD求解优化方程
得到字典D的近似解,其中Y表示特征矩阵,α为稀疏系数矩阵,表示矩阵的2范数的平方,min{||·||}表示使·的值达到最小,s.t.表示约束条件,表示任意的i值,i=1,2,…,M,||·||0表示向量·的0范数,αi表示稀疏系数矩阵α的第i列,T0为稀疏度,设为1。
实施例4
基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-3,其中步骤5所述的对每幅图像的稀疏矩阵W,利用空间金字塔最大池化方法,得到整幅图像的稀疏编码向量X,按如下步骤进行:
(5.1)对金字塔第一层的整幅图像进行稀疏编码,计算其各个维度的最大值,得到1个1024维的特征向量;
(5.2)把金字塔第二层的整幅图像分为2×2的4个图像块,计算每个图像块中所有稀疏编码在各个维度的最大值,得到4个1024维的特征向量;
(5.3)把金字塔第三层的整幅图像分为4×4的16个图像块,计算每个图像块中所有稀疏编码在各个维度的最大值,得到16个1024维的特征向量;
(5.4)整合步骤(5.1)至(5.3)得到的21个1024维的特征向量,得到21504维的整幅图像的稀疏编码矩阵X。
实施例5
基于空间金字塔稀疏编码的自然场景多标记分类方法同实施例1-4,其中步骤(6.1)所述的把图像的稀疏编码向量X输入到多分类支持矢量机SVM中,通过一对多的正项准则策略,经过训练、测试,得到图像的分类结果S={S1,S2,…,Si,…,Sm},是将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组,其中拆分的多标记图像只作为该类的正类样本,随机从每个单标记图像组中选取100幅图像作为训练样本,所有图像作为测试样本,通过一对多的正项准则策略,得到图像的分类结果S={S1,S2,…,Si,…,Sm},构建多分类支持矢量机SVM的准则策略有两种,一对多和一对一,本实施例中采用一对多的准则策略。
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真条件:
仿真实验采用自然场景图像多标记类别库,包含2000幅自然场景图像。该图像库包含沙漠、山、海洋、落日和树5个概念类,具有两个或两个以上概念标记,例如“海洋+落日”的图像约占图像库的22%,其中某些类型的概念标记集合(例如“山+落日+树)出现频率极低,每幅图像平均对应于1.24±0.44个概念标记。其样例图像如图2所示,其中图2(a)是沙漠场景,图2(b)是山场景,图2(c)是海洋场景,图2(d)是落日场景,图2(e)是树场景,图2(f)是沙漠+山场景,图2(g)是山+海洋场景,图2(h)是海洋+落日场景,图2(i)是落日+树场景,图2(j)是沙漠+山+落日场景,图2(k)是山+海洋+树场景,图2(l)是海洋+落日+树场景,其每个类别的类别名称以及包含的图像数目如表1所示。
表1自然场景图像多标记类别库
类别名称 | 图像数目 | 类别名称 | 图像数目 | 类别名称 | 图像数目 |
沙漠 | 340 | 沙漠+落日 | 21 | 落日+树 | 28 |
山 | 268 | 沙漠+树 | 20 | 沙漠+山+落日 | 1 |
海洋 | 341 | 山+海洋 | 38 | 沙漠+落日+树 | 3 |
落日 | 216 | 山+落日 | 19 | 山+海洋+树 | 6 |
树 | 378 | 山+树 | 106 | 山+落日+树 | 1 |
沙漠+山 | 19 | 海洋+落日 | 172 | 海洋+落日+树 | 4 |
沙漠+海洋 | 5 | 海洋+树 | 14 | 合计 | 2000 |
仿真实验在CPU为IntelCore(TM)2Duo、主频2.33GHz,内存为2G的WINDOWSXP系统上用MATLAB7.0.1软件进行。
2.仿真内容及分析:
使用本发明与Boutell等、Zhang和Zhou的方法进行对比,均对自然场景图像多标记类别库中的每个概念类自然场景图像中随机选取100幅共500幅图像组成自然场景图像多标记分类的训练集,用自然场景图像多标记类别库中所有2000幅图像组成自然场景图像多标记分类的测试集,ML-KNN方法中参数取值为k=10。
仿真1,用本发明方法及现有Boutell等的方法和Zhang和Zhou的ML-KNN方法进行对比实验,对自然场景图像多标记类别库中的5个概念类自然场景图像进行10次交叉验证实验,计算10次交叉验证实验的平均分类正确率,作为自然场景图像多标记类别库的最终分类正确率,对比结果如表2所示。
表2实验结果对比
Boutell等 | 73.19% |
Zhang和Zhou | 74.87% |
本发明方法 | 83.55% |
从表2可见,本发明方法对自然场景图像多标记类别库的最终分类正确率高于其他方法。
综上,本发明公开的基于空间金字塔稀疏编码的自然场景多标记分类方法,主要解决现有分类方法对自然场景描述不够完全和分类正确率较低的问题。其实现步骤是:建立自然场景图像多标记类别库;提取它的尺度不变特征SIFT生成稀疏字典D;用稀疏字典对图像进行字典映射,并用空间金字塔和稀疏编码生成多尺度稀疏向量;用多分类支持矢量机分类结果校正排序支持矢量机分类结果,得到自然场景图像的最终分类结果。本发明采用了多尺度特征、稀疏编码和多标记分类方法,通过对自然场景图像进行空间金字塔稀疏编码,提取了更多的图像局部信息,丰富了图像的特征,对自然场景描述的更为完全,与Boutell等及Zhang和Zhou的方法相比,提高了自然场景的分类精度和鲁棒性,可用于自然场景匹配、分类和识别。
Claims (6)
1.一种基于空间金字塔稀疏编码的自然场景多标记分类方法,包括如下步骤:
(1)建立自然场景图像多标记类别库;
(2)对自然场景图像多标记类别库中的每幅图像,提取图像的尺度不变SIFT特征矩阵F:
以k像素为步长均匀采样,并提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,得到图像的SIFT特征矩阵F={y1,y2,...,yi,...,yn}∈Rd×n,其中R表示实数集合,yi表示图像的第i个图像块的SIFT特征向量,i=1,2,…,n,n表示图像中图像块的个数,d表示SIFT特征维数;
(3)对所有图像的SIFT特征矩阵,从中随机选取M个特征向量,构成新特征矩阵Y,将其通过K-奇异值分解方法K-SVD训练字典D,M取值为100000-1000000之间的整数;
(4)对每幅图像的特征矩阵F,通过已经训练好的字典D进行稀疏编码,得到图像的稀疏矩阵W;
(5)对每幅图像的稀疏矩阵W,利用空间金字塔最大池化方法,得到图像的稀疏编码向量X;
(6)将每幅图像的稀疏编码向量X分别通过多分类支持矢量机SVM和排序支持矢量机Rank-SVM进行分类,通过多分类支持矢量机SVM的分类结果为S,通过排序支持矢量机Rank-SVM的分类结果为R:
(6a)把图像的稀疏编码向量X输入到多分类支持矢量机SVM中,通过一对多的正项准则策略,经过训练、测试,得到图像的分类结果S={S1,S2,…,Si,…,Sm},其中Si表示在该分类策略中第i幅图像的分类结果,m表示测试图像的总数;
(6b)把图像的稀疏编码向量X输入到排序支持矢量机Rank-SVM中,经过训练、测试,得到图像的分类结果R={R1,R2,…,Ri,…,Rm},其中Ri表示在该分类策略中第i幅图像的分类结果;
(7)通过多分类支持矢量机SVM的分类结果S辅助校正排序支持矢量机Rank-SVM的分类结果R,得到自然场景图像多标记类别库中图像的最终分类结果C:
多分类SVM的分类结果S={S1,S2,…,Si,…,Sm}中找到非零向量的位置为j,j=1,2,..m,用位置为j的非零向量Sj替换Rank-SVM的分类结果R={R1,R2,…,Ri,…,Rm}中对应位置j的向量Rj,得到自然场景图像多标记类别库中图像的最终分类结果C={R1,R2,…,Sj,…,Rm},其中Sj为替换向量Rj的非零向量。
2.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法,其中步骤2所述的提取每个采样点周围16×16像素大小图像块的d维尺度不变特征SIFT,按如下步骤进行:
(2a)对16×16像素大小的图像块进行高斯滤波,其中高斯滤波的参数分别为:均值为0,方差为1,大小为5×5像素;
(2b)计算高斯滤波后的图像块内每一个像素点的梯度模值和梯度方向;
(2c)统计高斯滤波后的图像块中每个4×4像素的图像区域内每个像素点分别在8个方向上的投影大小之和,得到一个8维的特征向量,其中8个方向分别为0度,45度,90度,135度,180度,225度,270度,315度,16×16像素大小的图像块内共有16个8维特征向量,得到每个图像块的SIFT特征为128维。
3.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法,其中步骤(3)所述的对所有图像的SIFT特征矩阵,从中随机选取M个特征向量,构成新特征矩阵Y,将其通过K-奇异值分解方法K-SVD训练字典D,按如下步骤进行:
(3a)从所有图像的SIFT特征矩阵中随机选取M个特征向量,构成新特征矩阵Y,矩阵大小为128×M;
(3b)随机选取特征矩阵Y中的1024列特征向量初始化字典D,字典D的大小为128×1024;
(3c)利用K-奇异值分解方法K-SVD求解优化方程
得到字典D的近似解,其中Y表示特征矩阵,α为稀疏系数矩阵,表示矩阵的2范数的平方,min{||·||}表示使·的值达到最小,s.t.表示约束条件,表示任意的i值,i=1,2,…,M,||·||0表示向量·的0范数,αi表示稀疏系数矩阵α的第i列,T0为稀疏度,设为1。
4.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法,其中步骤(4)所述的对每幅图像的特征矩阵F,通过已经训练好的字典D进行稀疏编码,根据求解公式W=DTF,得到图像的稀疏矩阵W,其中DT表示字典D的转置。
5.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法,其中步骤(5)所述的对每幅图像的稀疏矩阵W,利用空间金字塔最大池化方法,得到整幅图像的稀疏编码向量X,按如下步骤进行:
(5a)对金字塔第一层的整幅图像进行稀疏编码,计算其各个维度的最大值,得到1个1024维的特征向量;
(5b)把金字塔第二层的整幅图像分为2×2的4个图像块,计算每个图像块中所有稀疏编码在各个维度的最大值,得到4个1024维的特征向量;
(5c)把金字塔第三层的整幅图像分为4×4的16个图像块,计算每个图像块中所有稀疏编码在各个维度的最大值,得到16个1024维的特征向量;
(5d)整合步骤(5a)至(5c)得到的21个1024维的特征向量,得到21504维的整幅图像的稀疏编码向量X。
6.根据权利要求1所述的基于空间金字塔稀疏编码的自然场景多标记分类方法,其中步骤(6a)所述的把图像的稀疏编码向量X输入到多分类支持矢量机SVM中,通过一对多的正项准则策略,经过训练、测试,得到图像的分类结果S={S1,S2,…,Si,…,Sm},是将自然场景图像多标记类别库中图像按照标记沙漠、山、海洋、落日和树拆分为5个单标记图像组,其中拆分的多标记图像只作为该类的正类样本,随机从每个单标记图像组中选取100幅图像作为训练样本,所有图像作为测试样本,通过一对多的正项准则策略,得到图像的分类结果S={S1,S2,…,Si,…,Sm}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510512625.0A CN105069481B (zh) | 2015-08-19 | 2015-08-19 | 基于空间金字塔稀疏编码的自然场景多标记分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510512625.0A CN105069481B (zh) | 2015-08-19 | 2015-08-19 | 基于空间金字塔稀疏编码的自然场景多标记分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105069481A true CN105069481A (zh) | 2015-11-18 |
CN105069481B CN105069481B (zh) | 2018-05-25 |
Family
ID=54498842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510512625.0A Active CN105069481B (zh) | 2015-08-19 | 2015-08-19 | 基于空间金字塔稀疏编码的自然场景多标记分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105069481B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404899A (zh) * | 2015-12-02 | 2016-03-16 | 华东师范大学 | 基于多方向上下文信息和稀疏编码模型的图像分类方法 |
CN105447517A (zh) * | 2015-11-20 | 2016-03-30 | 中国矿业大学(北京) | 基于稀疏编码的空域金字塔匹配识别煤岩的方法 |
CN106022389A (zh) * | 2016-05-30 | 2016-10-12 | 南京航空航天大学 | 一种主动选择多示例多标记数字图像的相关反馈方法 |
CN106372574A (zh) * | 2016-08-22 | 2017-02-01 | 湖南晖龙股份有限公司 | 基于ros操作系统的机器人物体识别方法 |
CN106446965A (zh) * | 2016-10-21 | 2017-02-22 | 西北工业大学 | 一种航天器可见光图像分类方法 |
CN106991382A (zh) * | 2017-03-13 | 2017-07-28 | 南京信息工程大学 | 一种遥感场景分类方法 |
CN108596195A (zh) * | 2018-05-09 | 2018-09-28 | 福建亿榕信息技术有限公司 | 一种基于稀疏编码特征提取的场景识别方法 |
CN109102006A (zh) * | 2018-07-24 | 2018-12-28 | 东南大学 | 一种基于音频特征诱导信息增强的音乐自动标记方法 |
CN109165733A (zh) * | 2018-07-11 | 2019-01-08 | 中国人民解放军国防科技大学 | 多输入多输出矩阵最大值池化向量化实现方法 |
CN109685103A (zh) * | 2018-11-13 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 一种基于广义k均值算法的文本多标记学习方法 |
CN110335285A (zh) * | 2019-07-08 | 2019-10-15 | 中国科学院自动化研究所 | 基于稀疏表示的sar图像目标标记方法、系统、装置 |
CN110866143A (zh) * | 2019-11-08 | 2020-03-06 | 山东师范大学 | 一种音频场景分类方法及系统 |
CN111144454A (zh) * | 2019-12-11 | 2020-05-12 | 北京工业大学 | 一种基于图像标记特定特征的延迟多标记学习方法 |
CN112507805A (zh) * | 2020-11-18 | 2021-03-16 | 深圳市银星智能科技股份有限公司 | 一种场景识别方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020647A (zh) * | 2013-01-08 | 2013-04-03 | 西安电子科技大学 | 基于级联的sift特征和稀疏编码的图像分类方法 |
CN104517120A (zh) * | 2014-12-04 | 2015-04-15 | 西安电子科技大学 | 基于多路分层正交匹配的遥感图像场景分类方法 |
-
2015
- 2015-08-19 CN CN201510512625.0A patent/CN105069481B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020647A (zh) * | 2013-01-08 | 2013-04-03 | 西安电子科技大学 | 基于级联的sift特征和稀疏编码的图像分类方法 |
CN104517120A (zh) * | 2014-12-04 | 2015-04-15 | 西安电子科技大学 | 基于多路分层正交匹配的遥感图像场景分类方法 |
Non-Patent Citations (2)
Title |
---|
WAN S P等: "A multi-label classification algorithm based on triple class support vector machine", 《IEEE》 * |
亓晓振: "一种基于稀疏编码的多核学习图像分类方法", 《电子学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447517A (zh) * | 2015-11-20 | 2016-03-30 | 中国矿业大学(北京) | 基于稀疏编码的空域金字塔匹配识别煤岩的方法 |
CN105404899A (zh) * | 2015-12-02 | 2016-03-16 | 华东师范大学 | 基于多方向上下文信息和稀疏编码模型的图像分类方法 |
CN106022389A (zh) * | 2016-05-30 | 2016-10-12 | 南京航空航天大学 | 一种主动选择多示例多标记数字图像的相关反馈方法 |
CN106022389B (zh) * | 2016-05-30 | 2019-05-14 | 南京航空航天大学 | 一种主动选择多示例多标记数字图像的相关反馈方法 |
CN106372574A (zh) * | 2016-08-22 | 2017-02-01 | 湖南晖龙股份有限公司 | 基于ros操作系统的机器人物体识别方法 |
CN106446965A (zh) * | 2016-10-21 | 2017-02-22 | 西北工业大学 | 一种航天器可见光图像分类方法 |
CN106991382A (zh) * | 2017-03-13 | 2017-07-28 | 南京信息工程大学 | 一种遥感场景分类方法 |
CN108596195A (zh) * | 2018-05-09 | 2018-09-28 | 福建亿榕信息技术有限公司 | 一种基于稀疏编码特征提取的场景识别方法 |
CN109165733A (zh) * | 2018-07-11 | 2019-01-08 | 中国人民解放军国防科技大学 | 多输入多输出矩阵最大值池化向量化实现方法 |
CN109102006A (zh) * | 2018-07-24 | 2018-12-28 | 东南大学 | 一种基于音频特征诱导信息增强的音乐自动标记方法 |
CN109102006B (zh) * | 2018-07-24 | 2021-09-07 | 东南大学 | 一种基于音频特征诱导信息增强的音乐自动标记方法 |
CN109685103A (zh) * | 2018-11-13 | 2019-04-26 | 成都四方伟业软件股份有限公司 | 一种基于广义k均值算法的文本多标记学习方法 |
CN110335285A (zh) * | 2019-07-08 | 2019-10-15 | 中国科学院自动化研究所 | 基于稀疏表示的sar图像目标标记方法、系统、装置 |
CN110335285B (zh) * | 2019-07-08 | 2022-04-26 | 中国科学院自动化研究所 | 基于稀疏表示的sar图像目标标记方法、系统、装置 |
CN110866143A (zh) * | 2019-11-08 | 2020-03-06 | 山东师范大学 | 一种音频场景分类方法及系统 |
CN110866143B (zh) * | 2019-11-08 | 2022-11-22 | 山东师范大学 | 一种音频场景分类方法及系统 |
CN111144454A (zh) * | 2019-12-11 | 2020-05-12 | 北京工业大学 | 一种基于图像标记特定特征的延迟多标记学习方法 |
CN112507805A (zh) * | 2020-11-18 | 2021-03-16 | 深圳市银星智能科技股份有限公司 | 一种场景识别方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105069481B (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105069481A (zh) | 基于空间金字塔稀疏编码的自然场景多标记分类方法 | |
Lopez-Antequera et al. | Appearance-invariant place recognition by discriminatively training a convolutional neural network | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
Lee et al. | Adaboost for text detection in natural scene | |
Gomez-Ojeda et al. | Training a convolutional neural network for appearance-invariant place recognition | |
CN105488536A (zh) | 一种基于多特征深度学习技术的农田害虫图像识别方法 | |
CN102521616B (zh) | 基于稀疏表示的行人检测方法 | |
CN104200228B (zh) | 一种安全带识别方法与系统 | |
CN104598885A (zh) | 街景图像中的文字标牌检测与定位方法 | |
CN103020647A (zh) | 基于级联的sift特征和稀疏编码的图像分类方法 | |
Sun et al. | Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks | |
CN105389550A (zh) | 一种基于稀疏指引与显著驱动的遥感目标检测方法 | |
CN103390046A (zh) | 潜在狄利克雷模型的多尺度字典自然场景图像分类方法 | |
CN103186776B (zh) | 基于多特征和深度信息的人体检测方法 | |
CN105279519A (zh) | 基于协同训练半监督学习的遥感影像水体提取方法及系统 | |
CN107944428A (zh) | 一种基于超像素集的室内场景语义标注方法 | |
CN110096961A (zh) | 一种超像素级别的室内场景语义标注方法 | |
CN102147867A (zh) | 一种基于主体的国画图像和书法图像的识别方法 | |
CN104850822A (zh) | 基于多特征融合的简单背景下的叶片识别方法 | |
CN104517120A (zh) | 基于多路分层正交匹配的遥感图像场景分类方法 | |
Boia et al. | Local description using multi-scale complete rank transform for improved logo recognition | |
CN105426924A (zh) | 一种基于图像中层特征的场景分类方法 | |
CN104036296A (zh) | 一种图像的表示和处理方法及装置 | |
CN109753962A (zh) | 基于混合网络的自然场景图像中文本区域的处理方法 | |
Wang et al. | Semantic annotation for complex video street views based on 2D–3D multi-feature fusion and aggregated boosting decision forests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |