CN103514456B - 基于压缩感知多核学习的图像分类方法及其装置 - Google Patents

基于压缩感知多核学习的图像分类方法及其装置 Download PDF

Info

Publication number
CN103514456B
CN103514456B CN201310285254.8A CN201310285254A CN103514456B CN 103514456 B CN103514456 B CN 103514456B CN 201310285254 A CN201310285254 A CN 201310285254A CN 103514456 B CN103514456 B CN 103514456B
Authority
CN
China
Prior art keywords
feature
color
characteristic
image
subimage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310285254.8A
Other languages
English (en)
Other versions
CN103514456A (zh
Inventor
吴金勇
陈先开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anke Robot Co ltd
SHANGHAI QINGTIAN ELECTRONIC TECHNOLOGY CO LTD
Original Assignee
China Security and Surveillance Technology PRC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Security and Surveillance Technology PRC Inc filed Critical China Security and Surveillance Technology PRC Inc
Priority to CN201310285254.8A priority Critical patent/CN103514456B/zh
Publication of CN103514456A publication Critical patent/CN103514456A/zh
Application granted granted Critical
Publication of CN103514456B publication Critical patent/CN103514456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于压缩感知多核学习的图像分类方法,包括:(1)字典学习:分别构造关于颜色、纹理和轮廓的字典;(2)特征提取:计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并生成对应的三个特征集合;(3)特征降维:对图片的颜色、纹理和轮廓特征进行特征降维处理;(4)分类器学习:使用基于最小二乘多核的分类器在训练集上学习模型;以及(5)图像类别预测:对于一张待分类的图片,提取图像的特征,计算低维度的特征,拼接特征向量而形成新的特征,将该特征代入分类器模型,从而得到图像类别的输出结果。所述基于压缩感知多核学习的图像分类方法能够对行人、车辆等图像具有很好的分类精度,从而提高了分类模型的泛化能力。

Description

基于压缩感知多核学习的图像分类方法及其装置
技术领域
本发明涉及监控视频中的图像分类,尤其涉及一种基于压缩感知多核学习的图像分类方法及其装置。
背景技术
随着社会和经济的发展,城市的智慧化已经得到了长足的发展,监控摄像头已经几乎遍布了城市的所有角落。随之导致的问题是监控视频数据的指数增长。而从中挖掘有效信息越发困难。对监控视频数据进行分析并分类是智能分析中最重要研究内容之一,监控数据的分类有着重要的应用价值,如监控视频中的行人、车辆类别、车辆颜色和行人衣着分类等,它可以有效地提高海量数据的检索效率,从而降低人力成本。目前,大部分的图像数据分类方法主要包括数据收集、图像预处理、特征提取、模型学习和模型预测模块。分类精度主要取决于特征提取和模型学习两个模块。当前特征提取的方法主要是基于颜色、纹理特征或轮廓特征进行:颜色特征方面主要有颜色直方图和像素值等;纹理特征主要有基于局部二值模式;轮廓特征主要有梯度直方图和梯度差分等。模型学习方法主要有如adaboost、svm、决策树、神经网络、贝叶斯和高斯过程等。传统的分类方法主要是提取某种特征作为表观,如颜色、纹理和轮廓,然后利用分类器学习得到一个分类模型,实际中,待分类的目标往往都是同时拥有颜色、纹理和轮廓的特征。由此会导致特征表达不准确,进而致使分类器的鲁棒性差和分类精度低。因此现有的基于单一特征的分类器方法往往无法满足实际中的分类要求,需要一种基于多特征的分类器。
发明内容
针对现有技术的缺点,本发明的目的是提供一种能有效提高鲁棒性和分类精确度的压缩感知多核学习的图像分类方法及其装置。
为实现上述目的,本发明的实施例提供一种基于压缩感知多核学习的图像分类方法,包括以下步骤:(1)字典学习:对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;(2)特征提取:提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合;(3)特征降维:生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征;(4)分类器学习:将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;以及(5)图像类别预测:对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
其中,在所述步骤(1)中,字典学习的具体方法为:
对训练样本集D中的每张图片Ii,i=1,…,l分别随机采样T张子图像,记为Pi={pi1,…,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,…,rxT}和{ry1,…,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,…,w-16}和{0,1,…,h-16};
将子图像pit,t=1,…,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,…,piT};
合并所有子图像块,即P=P1∪P2∪…∪Pl={p1,…,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
用以上方式来学习关于纹理特征的字典,记为以及
用以上方式来学习关于轮廓特征的字典,记为
其中,在所述步骤(2)中,特征提取的具体方法为:
根据字典构造KD树,记为k=kdtee(zhue),k∈1,...,K.;
将图像Ii等比例分成16个图像小块,记为B31,B32,…,B316,对B3m,m=1,…,16提取特征
对所述图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,…,p100};
对P中的每张子图像pi,i=1,…,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
对每个特征以投票的方式进行直方图统计,由此生成了B3m的特征
根据以上特征计算结果来对子图像B21,B22,B23,B24分别计算特征
根据以上特征计算结果来对子图像B11计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算Ii的纹理特征直方图和轮廓特征直方图由此生成三个特征集合
其中,在所述步骤(3)中,特征降维的具体方法为:
生成稀疏随机矩阵R=[rij]200×(K×21),其中已知有一个等概率函数rand,它等概率地生成{1,2,3,…,Kx21}中的一个值,若rand∈{1,2,3,…,128},则若rand∈{129,130,131,…,256},则否则rij=0;
对特征降维至由此从所述训练样本集提取得到的特征集合为*表示颜色(Hue)、纹理(LBP)或轮廓(HOG)。
其中,在所述步骤(4)中,分类器学习的具体方法为:
中的每个样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接,形成一个新的特征集合,即记训练集的特征为T={(x1,y1),...,(xl,yl)},其中学习是基于最小二乘多核的分类器其中km(x1,x2)=exp(-((x1-x2)/σm)2),σm取值为2m-M/2b*代表需要学习的参数;
参数初始化拉格朗日乘子α1=(0,...,0)',权重系数d1=n(1,1,...,1)'M+1,其中收敛阈值ε=10-3,t=1;
最优化拉格朗日乘子αt,bt其中 当m=0时,K0=Il×l为单位矩阵;
计算法向量的长度wm,m=0,...,M:
更新核权重值dt+1以及
如果则t=t+1,重复以上步骤;否则输出最优解d*=dt+1,α*=αt和b*=bt决策函数为:
本发明的实施例还提供一种基于压缩感知多核学习的图像分类装置,包括:图像获取装置,用于提供图像收集功能,从数据库中获取图片集合或图片;字典学习模块,耦合于所述图像获取模块,配置为对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;特征提取模块,耦合于所述字典学习模块,所述特征提取模块配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并且由此生成对应的三个特征集合,所述特征提取模块还配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到低维度的特征;模型训练模块,耦合于所述特征提取模块,配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;以及模型预测模块:耦合于所述模型训练模块,配置为对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
其中,所述字典学习模块具体配置为:
对训练样本集D中的每张图片Ii,i=1,…,l分别随机采样T张子图像,记为Pi={pi1,…,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,…,rxT}和{ry1,…,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,…,w-16}和{0,1,…,h-16};
将子图像pit,t=1,…,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,…,piT};
合并所有子图像块,即P=P1∪P2∪…∪Pl={p1,…,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
用以上方式来学习关于纹理特征的字典,记为以及
用以上方式来学习关于轮廓特征的字典,记为
其中,所述特征提取模块具体配置为:
根据字典构造KD树,记为k=kdtee(zhue),k∈1,...,K.;
将图像Ii等比例分成16个图像小块,记为B31,B32,…,B316,对B3m,m=1,…,16提取特征
对所述图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,…,p100};
对P中的每张子图像pi,i=1,…,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
对每个特征以投票的方式进行直方图统计,由此生成了B3m的特征
根据以上特征计算结果来对子图像B21,B22,B23,B24分别计算特征
根据以上特征计算结果来对子图像B11计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算Ii的纹理特征直方图和轮廓特征直方图由此生成三个特征集合
其中,所述模型训练模块具体配置为:
中的每个样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接,形成一个新的特征集合,即记训练集的特征为T={(x1,y1),...,(xl,yl)},其中学习是基于最小二乘多核的分类器其中km(x1,x2)=exp(-((x1-x2)/σm)2),σm取值为2m-M/2b*代表需要学习的参数;
参数初始化拉格朗日乘子α1=(0,...,0)',权重系数d1 =n(1,1,...,1)'M+1,其中收敛阈值ε=10-3,t=1;
最优化拉格朗日乘子αt,bt其中 当m=0时,K0=Il×l为单位矩阵;
计算法向量的长度wm,m=0,...,M:
更新核权重值dt+1以及
如果则t=t+1,重复以上步骤;否则输出最优解d*=dt+1,α*=αt和b*=bt决策函数为:
本发明所提供的压缩感知多核学习的图像分类方法及其装置,能够通过模式识别方法来训练一个分类精度高的分类器,使得训练得到的分类器能够对行人、车辆等图像具有很好的分类精度,从而提高了分类模型的泛化能力。
附图说明
图1是根据本发明的一种金字塔特征计算的示意图。
图2是根据本发明的一种基于感知压缩多核学习的图像分类方法的流程图。
图3是根据本发明的一种基于感知压缩多核学习的图像分类装置的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明的一种金字塔特征计算的示意图。图2是根据本发明的一种基于感知压缩多核学习的图像分类方法的流程图。如图1和图2所示,本发明提供一种基于感知压缩多核学习的图像分类方法。在实施例中,假定需要处理一个包含两类的图片集D={(I1,y1),…,(Il,yl)},其中Ii,i=1,…,l表示归一化(宽高分别为w和h)的RGB通道的24位彩色图像,yi∈{1,-1},i=1,…,l表示图像类别标签,-1表示负类样本,并且1表示正类样本。请注意,本领域的技术人员应可理解,以上假定仅为描述性的并且在任何方面上不应视为限制性的。相反地,本领域的技术人员在结合附图阅读以下描述之后可容易地用任何合适的假定来实践本发明的其它实施例。
如图2所示,基于感知压缩多核学习的图像分类方法通过数据集D来训练一个分类器f,然后使用分类器f对待分类图像的类别进行分类。该方法的主要流程如下:
●字典学习:对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典。本实施例中,聚类算法优选K-Means方法,其中用层次划分聚类、均值漂移聚类、密度聚类均可实现。
●特征提取:提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。
●特征降维:生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征。
●分类器学习:将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型。
●图像类别预测:对于一张待分类的图片,首先根据特征提取步骤而提取图像的特征,接着根据特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
下面将对本发明的几个步骤依次进行详细描述:
1.字典学习
对训练样本集D中的每张图片Ii,i=1,…,l分别随机采样T张子图像(例如,子图像的宽、高可分别为16、16),记为Pi={pi1,…,piT}。
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,…,rxT}和{ry1,…,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,…,w-16}和{0,1,…,h-16};将子图像pit,t=1,…,T的所有像素值设为0。对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt);由此生成了T组子图像Pi={pi1,…,piT}。
接着,合并所有子图像块,即P=P1∪P2∪…∪Pl={p1,…,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征。步骤分别如下:
1)颜色特征。提取HSV通道中的HUE通道彩色直方图特征,记为(参考:MaxK.Agoston(2005).Computer Graphics and Geometric Modeling:Implementation andAlgorithms.London:Springer.ISBN 1-85233-818-0.pp.300–306.)
2)纹理特征。提取Gray通道下的LBP纹理特征,记为(参考:Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invarianttexture classification with local binary patterns[J].Pattern Analysis andMachine Intelligence,IEEE Transactions on,2002,24(7):971-987.)
3)轮廓特征。提取Gray通道下的HOG轮廓特征,记为(参考:Dalal N,TriggsB.Histograms of oriented gradients for human detection[C]//Computer Visionand Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conferenceon.IEEE,2005,1:886-893.)
由以上步骤1)至3)生成的关于颜色、纹理和轮廓的特征集合分别记为利用聚类算法(例如,K-Means方法,参考:http://www.vlfeat.org/)对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典,记为
类似地,学习关于纹理特征的字典,记为
类似地,学习关于轮廓特征的字典,记为
因此,由以上步骤构造了关于颜色、纹理和轮廓的字典Dhue,Dlbp,Dhog
2.特征提取
对于给定D中的一张图片Ii,i=1,…,l,分别提取图片Ii的颜色、纹理和轮廓特征下面以提取Ii的颜色金字塔特征过程为例来说明,具体步骤如下:
1)根据字典构造KD树(参考:http://www.vlfeat.org/),记为k=kdtee(zhue),k∈1,...,K.,kdtee(zhue)能够快速判断zhue距离Dhue的K个中心最近的中心的索引。
2)金字塔第3层特征的计算。如图1的(1)所示,将图像Ii等比例分成16个图像小块,记为B31,B32,…,B316。对B3m,m=1,…,16提取特征步骤如下:
2.1对图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,本实施例中采样100(此值为优选,取大于0的整数均可)张子图像,宽高为16x16,记为P={p1,…,p100},方法如下:
根据随机函数randx和randy,生成100个随机整数,分别记为{rx1,…,rx100}和{ry1,…,ry100},randx和randy均为服从等概率分布的随机数生成函数,随机数生成的范围分别是{0,1,,w3m-16}和{0,1,…,h3m-16};将子图像pt,t=1,…,100的像素值的RGB值均设为0。对于pit的每个像素进行赋值,即pt(c,r)=Ii(c+rxt,r+ryt);由此生成了100张子图像P={p1,…,p100}。
2.2对P中的每张子图像pi,i=1,…,100分别提取关于颜色、纹理和轮廓的特征。步骤如下:
颜色特征:提取HSV通道中的Hue通道颜色直方图特征,记为
纹理特征:提取Gray通道下的LBP纹理特征,记为
轮廓特征:提取Gray通道下的HOG轮廓特征,记为
2.3将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
2.4对每个特征以投票的方式进行直方图统计,即对所有执行操作由此生成了B3m的特征
3)金字塔第2层特征的计算。如图1的(2)所示,将图像Ii等比例分成4个图像小块,B21,B22,B23,B24,事实上第二层的特征可以根据以上第三层特征进行计算,对子图像B21,B22,B23,B24分别计算特征计算步骤如下:
4)金字塔第1层特征的计算。如图1的(3)所示,将图像Ii等比例分成1个图像小块,B11,事实上第一层的特征可以根据以上第二层特征进行计算,对子图像B11计算特征计算步骤如下:
5)将3层的颜色金字塔特征拼接起来得到关于图像Ii的颜色特征:
同理地,可计算Ii的纹理特征直方图和轮廓特征直方图,即由此训练集D生成了三个特征集合,即
3.特征降维
对特征进行降维,对于任意的特征(*表示颜色(Hue)、纹理(LBP)或轮廓(HOG),进行如下的特征降维操作:
1)生成稀疏随机矩阵R=[rij]200×(K×21),行列分别为200(此值为优选,取大于0的整数即可),Kx21。已知有一个等概率函数rand,其等概率地生成{1,2,3,…,Kx21}中的一个值。若rand∈{1,2,3,…,128},则若rand∈{129,130,131,…,256},则否则rij=0。注意,此处的随机矩阵在整个本发明的实施例方法中,只计算一次,即一次计算后固定不变。但应注意,此仅为示例并非限制,本领域技术人员也可以根据实际需要而计算多次。
2)对特征降维至
经过以上步骤1)和2),从训练样本集D提取得到的特征集合为*表示Hue、LBP或HOG。至此特征提取完成。
4.分类器学习
中的每个样本的颜色、纹理和轮廓的三个特征向量进行拼接,形成一个新的特征集合,即记训练集的特征为T={(x1,y1),...,(xl,yl)}。例如,本实施中的学习是基于最小二乘多核的分类器,即:
其中km(x1,x2)=exp(-((x1-x2)/σm)2),σm取值为2m-M/2
b*代表需要学习的参数。参数学习的步骤如下:
1)参数初始化拉格朗日乘子α1=(0,...,0)',权重系数d1=n(1,1,...,1)'M+1,其中
收敛阈值ε=10-3,t=1;
2)最优化拉格朗日乘子αt,bt
αt=K-1(y-b1M)
bt=1'MK-1y(1'MK1M)-1
其中当m=0时,K0=Il×l为单位矩阵。
3)计算法向量的长度wm,m=0,...,M,即
4)更新核权重值dt+1,即
5)如果则t=t+1,重复2)-4)步骤;否则执行6)
6)输出最优解d*=dt+1,α*=αt和b*=bt决策函数为:
5.图像类别预测
对于给定的一张待分类的图片Iu,执行如下步骤进行分类:
1)根据以上第2步特征提取的步骤1)-5),提取图像Iu的特征,
2)根据以上第2步特征降维的步骤1)-2),计算得到低维度的特征
3)拼接样本的三个特征向量而形成新的特征集合,即
4)分类:将xu代入训练好的分类器模型,如下公式:
其中
5)输出图像Iu的类别标签labelu(例如,“行人”)。
本发明通过压缩感知和多核学习方法,利用压缩感知特征提取方法来提高特征的抗噪音能力,使用多核学习将多特征进行融合学习来提高分类器的精度,从而大大地提高了图像分类的精度。
图3是根据本发明的一种基于感知压缩多核学习的图像分类装置300的结构示意图。图3可以结合图1和图2来理解。如图3所示,图像分类装置300包括图像获取装置302、字典学习模块304、特征提取模块306、模型训练模块308和模型预测模块310。各个模块的具体功能如下描述:
图像获取模块302,用于提供图像收集功能,从数据库中获取图片集合或图片,为后续字典学习、模型训练和图片预测所使用。
字典学习模块304,耦合于图像获取模块302,用于提供字典学习功能,根据给定的图像集合学习出一个字典,此字典的作用是为了直方图投票装置中的提取特征所用。具体地,结合图2中的字典学习步骤来看,字典学习模块304可配置为对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法(例如,K-Means方法)来分别构造关于颜色、纹理和轮廓的字典。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
特征提取模块306,耦合于字典学习模块304,包括了直方图投票装置和压缩感知装置(未示出),它提供了基于金字塔直方图投票的特征提取和基于压缩感知的特征降维功能,所提取得到的特征主要为模型训练装置和预测装置所用。具体地,结合图2中的特征提取和特征降维步骤来看,特征提取模块306可配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。特征提取模块306还可配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
模型训练模块308,耦合于特征提取模块306,用于根据训练图像提取得到的特征集合,利用多核学习的方法,将多种特征进行融合学习,得到最优的分类器。具体地,结合图2中的分类器学习步骤来看,模型训练模块308可配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
模型预测模块310,耦合于模型训练模块308,用于根据待分类图像的特征,对图像的类别进行分类,并输出其所属的类别。具体地,结合图2中的图像类别预测步骤来看,模型预测模块310可配置为对于一张待分类的图片,首先根据特征提取步骤而提取图像的特征,接着根据特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
有利地,本发明通过压缩感知和多核学习方法,提取图像的多种特征,包括颜色、纹理和轮廓特征,并利用压缩感知原理对特征进行降维,提高了图像(如行人和车辆)特征的抗噪音能力,使用多核学习将多特征进行融合学习训练分类器,解决了监控视频中目标模糊或者轮廓不明显或者纹理不清晰等问题,提高了分类器的精度,从而大大地提高了图像(如行人和车辆)分类的精度。在实际应用中具有非常高应用价值
以上所披露的仅为本发明实施例中的较佳实施例而已,当然不能以此来限定本发明的权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (8)

1.一种基于压缩感知多核学习的图像分类方法,其特征在于包括以下步骤:
(1)字典学习:对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;
(2)特征提取:提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合;
(3)特征降维:生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维处理,从而得到对应的低维度的特征;
(4)分类器学习:将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;
(5)图像类别预测:对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
2.如权利要求1所述的基于压缩感知多核学习的图像分类方法,其特征在于,在所述步骤(1)中,字典学习的具体方法为:
对训练样本集D中的每张图片Ii,i=1,…,l分别随机采样T张子图像,记为Pi={pi1,…,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,…,rxT}和{ry1,…,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,…,w-16}和{0,1,…,h-16},其中w和h分别为子图像的宽和高;
将子图像pit,t=1,…,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,…,piT},其中c和r为代表像素坐标的整数值;
合并所有子图像块,即P=P1∪P2∪…∪Pl={p1,…,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
用以上方式来学习关于纹理特征的字典,记为以及
用以上方式来学习关于轮廓特征的字典,记为
3.如权利要求2所述的基于压缩感知多核学习的图像分类方法,其特征在于,在所述步骤(2)中,特征提取的具体方法为:
根据关于颜色特征的字典构造KD树,记为k=kdtee(zhue),k∈1,...,K.,其中为所述关于颜色的特征集合样本的K个类簇中心点,并且其中kdtee(zhue)为判断zhue距离Dhue的K个中心最近的中心的索引的函数;
将图像Ii等比例分成16个图像小块,记为B31,B32,…,B316,对B3m,m=1,…,16提取特征
对所述图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,…,p100};
对P中的每张子图像pi,i=1,…,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
对每个特征以投票的方式进行直方图统计,由此生成了B3m的特征m=1,…,16;
根据以上特征计算结果来对子图像B21,B22,B23,B24分别计算特征
根据以上特征计算结果来对子图像B11计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算Ii的纹理特征直方图和轮廓特征直方图由此生成三个特征集合
4.如权利要求3所述的基于压缩感知多核学习的图像分类方法,其特征在于,在所述步骤(3)中,特征降维的具体方法为:
生成稀疏随机矩阵R=[rij]200×(K×21),其中已知有一个等概率函数rand,它等概率地生成{1,2,3,…,Kx21}中的一个值,若rand∈{1,2,3,…,128},则若rand∈{129,130,131,…,256},则否则rij=0;
对特征降维至由此从所述训练样本集提取得到的特征集合为*表示颜色特征Hue、纹理特征LBP或轮廓特征HOG。
5.一种基于压缩感知多核学习的图像分类装置,包括:
图像获取装置,用于提供图像收集功能,从数据库中获取图片集合或图片;
字典学习模块,耦合于所述图像获取模块,配置为对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;
特征提取模块,耦合于所述字典学习模块,所述特征提取模块配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并且由此生成对应的三个特征集合,所述特征提取模块还配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维处理,从而得到对应的低维度的特征;
模型训练模块,耦合于所述特征提取模块,配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;以及
模型预测模块:耦合于所述模型训练模块,配置为对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
6.如权利要求5所述的基于压缩感知多核学习的图像分类装置,其特征在于,所述字典学习模块具体配置为:
对训练样本集D中的每张图片Ii,i=1,…,l分别随机采样T张子图像,记为Pi={pi1,…,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,…,rxT}和{ry1,…,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,…,w-16}和{0,1,…,h-16},其中w和h分别为子图像的宽和高;
将子图像pit,t=1,…,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,…,piT},其中c和r为代表像素坐标的整数值;
合并所有子图像块,即P=P1∪P2∪…∪Pl={p1,…,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
用以上方式来学习关于纹理特征的字典,记为以及
用以上方式来学习关于轮廓特征的字典,记为
7.如权利要求5所述的基于压缩感知多核学习的图像分类装置,其特征在于,所述特征提取模块具体配置为:
根据关于颜色特征的字典构造KD树,记为k=kdtee(zhue),k∈1,...,K.,其中为所述关于颜色的特征集合样本的K个类簇中心点,并且其中kdtee(zhue)为判断zhue距离Dhue的K个中心最近的中心的索引的函数;
将图像Ii等比例分成16个图像小块,记为B31,B32,…,B316,对B3m,m=1,…,16提取特征
对所述图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,…,p100};
对P中的每张子图像pi,i=1,…,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
对每个特征以投票的方式进行直方图统计,由此生成了B3m的特征m=1,…,16;
根据以上特征计算结果来对子图像B21,B22,B23,B24分别计算特征
根据以上特征计算结果来对子图像B11计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算Ii的纹理特征直方图和轮廓特征直方图由此生成三个特征集合
8.如权利要求7所述的基于压缩感知多核学习的图像分类装置,其特征在于,所述特征提取模块具体还配置为:
生成稀疏随机矩阵R=[rij]200×(K×21),其中已知有一个等概率函数rand,它等概率地生成{1,2,3,…,Kx21}中的一个值,若rand∈{1,2,3,…,128},则若rand∈{129,130,131,…,256},则否则rij=0;
对特征降维至由此从所述训练样本集提取得到的特征集合为*表示颜色特征Hue、纹理特征LBP或轮廓特征HOG。
CN201310285254.8A 2013-06-30 2013-06-30 基于压缩感知多核学习的图像分类方法及其装置 Active CN103514456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310285254.8A CN103514456B (zh) 2013-06-30 2013-06-30 基于压缩感知多核学习的图像分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310285254.8A CN103514456B (zh) 2013-06-30 2013-06-30 基于压缩感知多核学习的图像分类方法及其装置

Publications (2)

Publication Number Publication Date
CN103514456A CN103514456A (zh) 2014-01-15
CN103514456B true CN103514456B (zh) 2017-04-12

Family

ID=49897148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310285254.8A Active CN103514456B (zh) 2013-06-30 2013-06-30 基于压缩感知多核学习的图像分类方法及其装置

Country Status (1)

Country Link
CN (1) CN103514456B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761532B (zh) * 2014-01-20 2017-04-19 清华大学 基于特征相关隐式编码的标签空间降维方法及系统
CN104143047B (zh) * 2014-07-21 2017-08-11 华北电力大学(保定) 血管内超声灰阶图像的自动组织标定方法
CN104573652B (zh) 2015-01-04 2017-12-22 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
CN104680143B (zh) * 2015-02-28 2018-02-27 武汉烽火众智数字技术有限责任公司 一种用于视频侦查的快速图像检索方法
CN104834912B (zh) * 2015-05-14 2017-12-22 北京邮电大学 一种基于图像信息检测的天气识别方法及装置
CN105095964B (zh) * 2015-08-17 2017-10-20 杭州朗和科技有限公司 一种数据处理方法和装置
CN105740891B (zh) * 2016-01-27 2019-10-08 北京工业大学 基于多层次特征提取和上下文模型的目标检测
CN105760885A (zh) * 2016-02-22 2016-07-13 中国科学院自动化研究所 血腥图像检测分类器实现方法、血腥图像检测方法和系统
CN106570514A (zh) * 2016-05-08 2017-04-19 扬州西岐自动化科技有限公司 一种基于词袋模型和支持向量机的汽车轮毂分类方法
CN106056135B (zh) * 2016-05-20 2019-04-12 北京九艺同兴科技有限公司 一种基于压缩感知的人体动作分类方法
CN106203453B (zh) * 2016-07-18 2019-05-28 清华大学深圳研究生院 一种基于压缩感知的生物与非生物目标识别方法及其系统
CN106529484A (zh) * 2016-11-16 2017-03-22 哈尔滨工业大学 基于类指定多核学习的光谱和激光雷达数据联合分类方法
CN106815601B (zh) * 2017-01-10 2019-10-11 西安电子科技大学 基于递归神经网络的高光谱图像分类方法
CN106873566B (zh) * 2017-03-14 2019-01-22 东北大学 一种基于深度学习的无人驾驶物流车
CN107133569B (zh) * 2017-04-06 2020-06-16 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN108009491A (zh) * 2017-11-29 2018-05-08 深圳火眼智能有限公司 一种解决快速背景运动中的目标物识别方法及系统
CN108388907B (zh) * 2017-12-29 2021-03-02 中国科学院自动化研究所 基于多视角学习的极化sar数据分类器实时更新方法
CN108564569B (zh) * 2018-03-23 2019-11-26 石家庄铁道大学 一种基于多核分类学习的混凝土裂缝检测方法及装置
CN108647602B (zh) * 2018-04-28 2019-11-12 北京航空航天大学 一种基于图像复杂度判定的航空遥感图像场景分类方法
CN109063738B (zh) * 2018-07-03 2021-12-21 浙江理工大学 一种压缩感知的陶瓷水阀片自动在线检测方法
CN110942462B (zh) * 2018-09-21 2022-12-13 北京连心医疗科技有限公司 一种融合离散特征的医学影像中器官深度学习分割方法
CN109408648B (zh) * 2018-10-26 2021-01-22 京东方科技集团股份有限公司 关联确定方法、作品推荐方法
CN109447037B (zh) * 2018-11-26 2021-04-16 武汉大学 一种面向监控视频压缩的车辆对象多级知识字典构建方法
CN109726725B (zh) * 2018-12-28 2021-05-04 中南大学 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN109800820B (zh) * 2019-01-30 2020-03-03 四川大学华西医院 一种基于超声造影图像均匀程度的分类方法
CN109993221B (zh) * 2019-03-25 2021-02-09 新华三大数据技术有限公司 一种图像分类方法及装置
WO2022095570A1 (zh) * 2020-11-09 2022-05-12 上海圣之尧智能科技有限公司 一种城市植被种类识别方法、系统、设备以及介质
CN112819017B (zh) * 2021-03-09 2022-08-16 遵义师范学院 基于直方图的高精度色偏图像识别方法
US11922702B2 (en) * 2021-08-19 2024-03-05 Ford Global Technologies, Llc Enhanced object detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657089B2 (en) * 2006-02-21 2010-02-02 Microsoft Corporation Automatic classification of photographs and graphics
CN102902978A (zh) * 2012-08-31 2013-01-30 电子科技大学 一种面向对象的高分辨率遥感图像分类方法
CN103020647A (zh) * 2013-01-08 2013-04-03 西安电子科技大学 基于级联的sift特征和稀疏编码的图像分类方法
CN103164713A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 图像分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657089B2 (en) * 2006-02-21 2010-02-02 Microsoft Corporation Automatic classification of photographs and graphics
CN103164713A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 图像分类方法和装置
CN102902978A (zh) * 2012-08-31 2013-01-30 电子科技大学 一种面向对象的高分辨率遥感图像分类方法
CN103020647A (zh) * 2013-01-08 2013-04-03 西安电子科技大学 基于级联的sift特征和稀疏编码的图像分类方法

Also Published As

Publication number Publication date
CN103514456A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
CN103514456B (zh) 基于压缩感知多核学习的图像分类方法及其装置
CN106504233B (zh) 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统
Lim et al. Sketch tokens: A learned mid-level representation for contour and object detection
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN104268583B (zh) 基于颜色区域特征的行人重识别方法及系统
CN108549926A (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN106650806A (zh) 一种用于行人检测的协同式深度网络模型方法
CN104992142A (zh) 一种基于深度学习和属性学习相结合的行人识别方法
CN104200228B (zh) 一种安全带识别方法与系统
CN107133569A (zh) 基于泛化多标记学习的监控视频多粒度标注方法
CN104504362A (zh) 基于卷积神经网络的人脸检测方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN105205449A (zh) 基于深度学习的手语识别方法
CN103544504B (zh) 一种基于多尺度图匹配核的场景字符识别方法
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN103077399B (zh) 基于集成级联架构的生物显微图像分类方法
CN103136516A (zh) 可见光与近红外信息融合的人脸识别方法及系统
CN105069478A (zh) 基于超像素张量稀疏编码的高光谱遥感地物分类方法
CN108229503A (zh) 一种针对服装照片的特征提取方法
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
CN109325507A (zh) 一种结合超像素显著性特征与hog特征的图像分类算法和系统
CN106971145A (zh) 一种基于极限学习机的多视角动作识别方法及装置
CN108681696A (zh) 融合多特征降维和迁移学习的红外目标稳健性识别方法
CN104281572A (zh) 一种基于互信息的目标匹配方法及其系统
CN107220598A (zh) 基于深度学习特征和Fisher Vector编码模型的虹膜图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518034 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee after: ANKE ROBOT CO.,LTD.

Address before: 518034 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee before: ANKE SMART CITY TECHNOLOGY (PRC) Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20171206

Address after: 200072 new road, Jingan District, Jingan District, Shanghai, room 504

Patentee after: SHANGHAI QINGTIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 518034 Guangdong province Shenzhen city Futian District District Shennan Road Press Plaza room 1306

Patentee before: ANKE ROBOT CO.,LTD.