发明内容
针对现有技术的缺点,本发明的目的是提供一种能有效提高鲁棒性和分类精确度的压缩感知多核学习的图像分类方法及其装置。
为实现上述目的,本发明的实施例提供一种基于压缩感知多核学习的图像分类方法,包括以下步骤:(1)字典学习:对训练样本集中的每张图片分别随 机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;(2)特征提取:提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合;(3)特征降维:生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征;(4)分类器学习:将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;以及(5)图像类别预测:对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
其中,在所述步骤(1)中,字典学习的具体方法为:
对训练样本集D中的每张图片Ii,i=1,L,l分别随机采样T张子图像,记为Pi={pi1,L,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,L,rxT}和{ry1,L,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,L,w-16}和{0,1,L,h-16};
将子图像pit,t=1,L,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,L,piT};
合并所有子图像块,即P=P1∪P2∪L∪P1={p1,L,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
其中,在所述步骤(2)中,特征提取的具体方法为:
根据字典
构造KD树,记为k=kdtee(z
hue),k∈1,...,K.;
将图像Ii等比例分成16个图像小块,记为B31,B32,L,B316,对B3m,m=1,L,16提取特征
对所述图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,L,p100};
对P中的每张子图像pi,i=1,L,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
和
对每个特征
以投票的方式进行直方图统计,由此生成了B
3m的特征
m=1,L,16;
根据以上特征计算结果来对子图像B
21,B
22,B
23,B
24分别计算特征
根据以上特征计算结果来对子图像B11计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算I
i的纹理特征直方图和轮廓特征直方图
由此生成三个特征集合
和
其中,在所述步骤(3)中,特征降维的具体方法为:
生成稀疏随机矩陈R=[r
ij]
200×(K×21),其中已知有一个等概率函数rand,它等概率地生成{1,2,3,L,Kx21}中的一个值,若rand∈{1,2,3,L,128},则
若rand∈{129,130,131,L,256},则
否则r
ij=0;
对特征
降维至
即
由此从所述训练样本集提取得到的特征集合为
*表示颜色(Hue)、纹理(LBP)或轮廓(HOG)。
其中,在所述步骤(4)中,分类器学习的具体方法为:
将
中的每个样本
的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接,形成一个新的特征集合,即
记训练集的特征为T={(x
1,y
1),...,(x
l,y
l)},其中学习是基于最小二乘多核的分类器
其中k
m(x
1,x
2)=exp(-((x
1-x
2)/σ
m)
2),σ
m取值为2
m-M/2,
b
*代表需要学习的参数;
参数初始化拉格朗日乘子α
1=(0,...,0),权重系数d
1=n(1,1,...,1)′
M+1,其中
收敛阈值ε=10
-3,t=1;
最优化拉格朗日乘子α
t,b
t:
其中
m=1,...,M,当m=0时,K
0=I
l×l为单位矩阵;
更新核权重值dt+1: 以及
如果
则t=t+1,重复以上步骤;否则输出最优解d
*=d
t+1,α
*=α
t和b
*=b
t决策函数为:
本发明的实施例还提供一种基于压缩感知多核学习的图像分类装置,包括:图像获取装置,用于提供图像收集功能,从数据库中获取图片集合或图片;字典学习模块,耦合于所述图像获取模块,配置为对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典;特征提取模块,耦合于所述字典学习模块,所述特征提取模块配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并且由此生成对应的三个特征集合,所述特征提取模块还配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到低维度的特征;模型训练模块,耦合于所述特征提取模块,配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型;以及模型预测模块:耦合于所述模型训练模块,配置为对于一张待分类的图片,首先根据所述特征提取步骤而提取图像的特征,接着根据所述特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出 结果。
其中,所述字典学习模块具体配置为:
对训练样本集D中的每张图片Ii,i=1,L,l分别随机采样T张子图像,记为Pi={pi1,L,piT};
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,L,rxT}和{ry1,L,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,L,w-16}和{0,1,L,h-16};
将子图像pit,t=1,L,T的所有像素值设为0,对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt),由此生成了T组子图像Pi={pi1,L,piT};
合并所有子图像块,即P=P1∪P2∪L∪Pl={p1,L,pl×T];对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征,并将生成的关于颜色、纹理和轮廓的特征集合分别记为
利用聚类算法对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典;
其中,所述特征提取模块具体配置为:
根据字典
构造KD树,记为k=kdtee(z
hue),k∈1,...,K.;
将图像Ii等比例分成16个图像小块,记为B31,B32,L,B316,对B3m,m=1,L,16提取特征
对所述图片B3m,宽高记为w2m×h3m进行随机地采样多张子图像,宽高为16x16,记为P={p1,L,p100};
对P中的每张子图像pi,i=1,L,100分别提取关于颜色、纹理和轮廓的特征;
将以上生成的关于颜色、纹理和轮廓的特征集合分别记为
和
对每个特征
以投票的方式进行直方图统计,由此生成了B
3m的特征
m=1,L,16;
根据以上特征计算结果来对子图像B
21,B
22,B
23,B
24分别计算特征
将三层的颜色特征拼接起来得到关于图像Ii的颜色特征;以及
用以上方式来计算I
i的纹理特征直方图和轮廓特征直方图
由此生成三个特征集合
和
其中,所述模型训练模块具体配置为:
将
中的每个样本
的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接,形成一个新的特征集合,即
记训练集的特征为T={(x
1,y
1),...,(x
l,y
1)},其中学习是基于最小二乘多核的分类器
其中k
m(x
1,x
2)=exp(-((x
1-x
2)/σ
m)
2),σ
m取值为2
m-M/2,
b
*代表需要学习的参数;
参数初始化拉格朗日乘子α
1=(0,...,0),权重系数d
1=n(1,1,...,1)′
M+1,其中
收敛阈值ε=10
-3,t=1;
最优化拉格朗日乘子α
t,b
t:
其中
m=1,...,M,当m=0时,K
0=I
l×l为单位矩阵;
更新核权重值dt+1: 以及
如果
则t=t+1,重复以上步骤;否则输出最优解d
*=d
t+1,α
*=α
t和b
*=b
t决策函数为:
本发明所提供的压缩感知多核学习的图像分类方法及其装置,能够通过模式识别方法来训练一个分类精度高的分类器,使得训练得到的分类器能够对行人、车辆等图像具有很好的分类精度,从而提高了分类模型的泛化能力。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明的一种金字塔特征计算的示意图。图2是根据本发明的一种基于感知压缩多核学习的图像分类方法的流程图。如图1和图2所示,本发明提供一种基于感知压缩多核学习的图像分类方法。在实施例中,假定需要处理一个包含两类的图片集D={(I1,y1),L,(Il,yl)},其中Ii,i=1,L,l表示归一化(宽高分别为w和h)的RGB通道的24位彩色图像,yi∈{1,-1},i=1,L,l表示图像类别标签,-1表示负类样本,并且1表示正类样本。请注意,本领域的技术人员应可理解,以上假定仅为描述性的并且在任何方面上不应视为限制性的。相反地,本领域的技术人员在结合附图阅读以下描述之后可容易地用任何合适的假定来实践本发明的其它实施例。
如图2所示,基于感知压缩多核学习的图像分类方法通过数据集D来训练一个分类器f,然后使用分类器f对待分类图像的类别进行分类。该方法的主要流程如下:
●字典学习:对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典。本实施例中,聚类算法优选K-Means方法,其中用层次划分聚类、均值漂移聚类、密度聚类均可实现。
●特征提取:提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。
●特征降维:生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征。
●分类器学习:将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型。
●图像类别预测:对于一张待分类的图片,首先根据特征提取步骤而提取图像的特征,接着根据特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。
下面将对本发明的几个步骤依次进行详细描述:
1.字典学习
对训练样本集D中的每张图片Ii,i=1,L,l分别随机采样T张子图像(例如,子图像的宽、高可分别为16、16),记为Pi={pi1,L,piT}。
根据随机函数randx和randy,生成T个随机整数,分别记为{rx1,L,rxT}和{ry1,L,ryT},randx和randy均为服从等概率分布的随机数生成器,随机数生成的范围分别是{0,1,L,w-16}和{0,1,L,h-16};将子图像pit,t=1,L,T的所有像素值设为0。对于pit的每个像素进行赋值,即pit(c,r)=Ii(c+rxt,r+ryt);由此生成了T组子图像Pi={pi1,L,piT}。
接着,合并所有子图像块,即P=P1∪P2∪L∪Pl={p1,L,pl×T};对P中的每张子图像pi分别提取关于颜色、纹理和轮廓的特征。步骤分别如下:
1)颜色特征。提取HSV通道中的HUE通道彩色直方图特征,记为
(参考:Max K.Agoston(2005).Computer Graphics and Geometric Modeling:Implementation and Algorithms.London:Springer.ISBN1-85233-818-0.pp.300-306.)
2)纹理特征。提取Gray通道下的LBP纹理特征,记为
(参考:OjalaT
,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002,24(7):971-987.)
3)轮廓特征。提取Gray通道下的HOG轮廓特征,记为
(参考:Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.)
由以上步骤1)至3)生成的关于颜色、纹理和轮廓的特征集合分别记为 利用聚类算法(例如,K-Means方法,参考:http://www.vlfeat.org/)对Zhue样本集聚K类,并生成K个类簇中心点,由此构成的中心点集成为关于颜色特征Hue的字典,记为
因此,由以上步骤构造了关于颜色、纹理和轮廓的字典Dhue,Dlbp,Dhog。
2.特征提取
对于给定D中的一张图片I
i,i=1,L,l,分别提取图片I
i的颜色、纹理和轮廓特征
下面以提取I
i的颜色金字塔特征
过程为例来说明,具体步骤如下:
1)根据字典
构造KD树(参考:http://www.vlfeat.org/),记为k=kdtee(z
hue),k∈1,...,k.,kdtee(z
hue)能够快速判断z
hue距离D
hue的K个中心最近的中心的索引。
2)金字塔第3层特征的计算。如图1的(1)所示,将图像Ii等比例分成16个图像小块,记为B31,B32,L,B316。对B3m,m=1,L,16提取特征 步骤如下:
2.1对图片B3m,宽高记为w3m×h3m进行随机地采样多张子图像,本实施例中采样100(此值为优选,取大于0的整数均可)张子图像,宽高为16x16,记为P={p1,L,p100},方法如下:
根据随机函数randx和randy,生成100个随机整数,分别记为{rx1,L,rx100}和{ry1,L,ry100},randx和randy均为服从等概率分布的随机数生成函数,随机数生成的范围分别是{0,1,,w3m-16}和{0,1,L,h3m-16};将子图像pt,t=1,L,100的像素值的RGB值均设为0。对于pit的每个像素进行赋值,即pt(c,r)=Ii(c+rxt,r+ryt);由此生成了100张子图像P={p1,L,p100}。
2.2对P中的每张子图像pi,i=1,L,100分别提取关于颜色、纹理和轮廓的特征。步骤如下:
颜色特征:提取HSV通道中的Hue通道颜色直方图特征,记为
纹理特征:提取Gray通道下的LBP纹理特征,记为
轮廓特征:提取Gray通道下的HOG轮廓特征,记为
2.3将以上生成的关于颜色、纹理和轮廓的特征集合分别记为 和
2.4对每个特征
以投票的方式进行直方图统计,即对所有
执行操作
由此生成了B
3m的特征
m=1,L,16。
3)金字塔第2层特征的计算。如图1的(2)所示,将图像I
i等比例分成4个图像小块,B
21,B
22,B
23,B
24,事实上第二层的特征可以根据以上第三层特征进行计算,对子图像B
21,B
22,B
23,B
24分别计算特征
计算步骤如下:
4)金字塔第1层特征的计算。如图1的(3)所示,将图像I
i等比例分成1个图像小块,B
11,事实上第一层的特征可以根据以上第二层特征进行计算,对子图像B
11计算特征
计算步骤如下:
5)将3层的颜色金字塔特征拼接起来得到关于图像Ii的颜色特征:
同理地,可计算I
i的纹理特征直方图和轮廓特征直方图,即
由此训练集D生成了三个特征集合,即
和
3.特征降维
对特征进行降维,对于任意的特征
(*表示颜色(Hue)、纹理(LBP)
0的整数即可),Kx21。已知有一个等概率函数rand,其等概率地生成{1,2,3,L,Kx21}中的一个值。若rand∈{1,2,3,L,128},则
若 rand∈{129,130,131,L,256},则
否则r
ij=0。注意,此处的随机矩阵在整个本发明的实施例方法中,只计算一次,即一次计算后固定不变。但应注意,此仅为示例并非限制,本领域技术人员也可以根据实际需要而计算多次。
经过以上步骤1)和2),从训练样本集D提取得到的特征集合为
*表示Hue、LBP或HOG。至此特征提取完成。
4.分类器学习
将
中的每个样本
的颜色、纹理和轮廓的三个特征向量进行拼接,形成一个新的特征集合,即
记训练集的特征为T={(x
1,y
1),...,(x
l,y
l)}。例如,本实施中的学习是基于最小二乘多核的分类器,即:
其中km(x1,x2)=exp(-((x1-x2)/σm)2),σm取值为2m-M/2。
1)参数初始化拉格朗日乘子α
1=(0,...,0),权重系数d
1=n(1,1,...,1)′
M+1,其中
收敛阈值ε=10
-3,t=1;
2)最优化拉格朗日乘子αt,bt:
其中 m=1,...,M。当m=0时,K0=Il×l为单位矩阵。
3)计算法向量的长度wm,m=0,...,M,即
4)更新核权重值dt+1,即
5)如果
则t=t+1,重复2)-4)步骤;否则执行6)
6)输出最优解d*=dt+1,α*=αt和b*=bt决策函数为:
5.图像类别预测
对于给定的一张待分类的图片Iu,执行如下步骤进行分类:
1)根据以上第2步特征提取的步骤1)-5),提取图像I
u的特征,
和
2)根据以上第2步特征降维的步骤1)-2),计算得到低维度的特征
和
3)拼接样本
和
的三个特征向量而形成新的特征集合,即
4)分类:将xu代入训练好的分类器模型,如下公式:
其中
5)输出图像Iu的类别标签labelu(例如,“行人”)。
本发明通过压缩感知和多核学习方法,利用压缩感知特征提取方法来提高特征的抗噪音能力,使用多核学习将多特征进行融合学习来提高分类器的精度,从而大大地提高了图像分类的精度。
图3是根据本发明的一种基于感知压缩多核学习的图像分类装置300的结构示意图。图3可以结合图1和图2来理解。如图3所示,图像分类装置300包括图像获取装置302、字典学习模块304、特征提取模块306、模型训练模块308和模型预测模块310。各个模块的具体功能如下描述:
图像获取模块302,用于提供图像收集功能,从数据库中获取图片集合或图片,为后续字典学习、模型训练和图片预测所使用。
字典学习模块304,耦合于图像获取模块302,用于提供字典学习功能,根据给定的图像集合学习出一个字典,此字典的作用是为了直方图投票装置中的提取特征所用。具体地,结合图2中的字典学习步骤来看,字典学习模块304可配置为对训练样本集中的每张图片分别随机采样多张子图像,根据随机函数 生成多个随机整数,随后生成多组子图像,对每张子图像分别提取关于颜色、纹理和轮廓的特征,并且利用聚类算法(例如,K-Means方法)来分别构造关于颜色、纹理和轮廓的字典。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
特征提取模块306,耦合于字典学习模块304,包括了直方图投票装置和压缩感知装置(未示出),它提供了基于金字塔直方图投票的特征提取和基于压缩感知的特征降维功能,所提取得到的特征主要为模型训练装置和预测装置所用。具体地,结合图2中的特征提取和特征降维步骤来看,特征提取模块306可配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征,根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。特征提取模块306还可配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作,从而得到对应的低维度的特征。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
模型训练模块308,耦合于特征提取模块306,用于根据训练图像提取得到的特征集合,利用多核学习的方法,将多种特征进行融合学习,得到最优的分类器。具体地,结合图2中的分类器学习步骤来看,模型训练模块308可配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接,形成一个新的特征集合,并使用基于最小二乘多核的分类器在训练集上学习模型。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
模型预测模块310,耦合于模型训练模块308,用于根据待分类图像的特征,对图像的类别进行分类,并输出其所属的类别。具体地,结合图2中的图像类别预测步骤来看,模型预测模块310可配置为对于一张待分类的图片,首先根据特征提取步骤而提取图像的特征,接着根据特征降维步骤而计算得到低维度的特征,再拼接降维后的特征向量而形成新的特征,将该新的特征代入训练好的分类器模型,从而得到图像类别的输出结果。更多的细节可参考以上方法描述,为简洁起见,此处不另赘述。
有利地,本发明通过压缩感知和多核学习方法,提取图像的多种特征,包括颜色、纹理和轮廓特征,并利用压缩感知原理对特征进行降维,提高了图像(如行人和车辆)特征的抗噪音能力,使用多核学习将多特征进行融合学习训练分类器,解决了监控视频中目标模糊或者轮廓不明显或者纹理不清晰等问题, 提高了分类器的精度,从而大大地提高了图像(如行人和车辆)分类的精度。在实际应用中具有非常高应用价值
以上所披露的仅为本发明实施例中的较佳实施例而已,当然不能以此来限定本发明的权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。