CN103514456A

CN103514456A - 基于压缩感知多核学习的图像分类方法及其装置

Info

Publication number: CN103514456A
Application number: CN201310285254.8A
Authority: CN
Inventors: 吴金勇; 陈先开
Original assignee: China Security and Surveillance Technology PRC Inc
Current assignee: Anke Robot Co ltd; SHANGHAI QINGTIAN ELECTRONIC TECHNOLOGY CO LTD
Priority date: 2013-06-30
Filing date: 2013-06-30
Publication date: 2014-01-15
Anticipated expiration: 2033-06-30
Also published as: CN103514456B

Abstract

一种基于压缩感知多核学习的图像分类方法，包括：(1)字典学习：分别构造关于颜色、纹理和轮廓的字典；(2)特征提取：计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并生成对应的三个特征集合；(3)特征降维：对图片的颜色、纹理和轮廓特征进行特征降维处理；(4)分类器学习：使用基于最小二乘多核的分类器在训练集上学习模型；以及(5)图像类别预测：对于一张待分类的图片，提取图像的特征，计算低维度的特征，拼接特征向量而形成新的特征，将该特征代入分类器模型，从而得到图像类别的输出结果。所述基于压缩感知多核学习的图像分类方法能够对行人、车辆等图像具有很好的分类精度，从而提高了分类模型的泛化能力。

Description

基于压缩感知多核学习的图像分类方法及其装置

技术领域

本发明涉及监控视频中的图像分类，尤其涉及一种基于压缩感知多核学习的图像分类方法及其装置。

背景技术

随着社会和经济的发展，城市的智慧化已经得到了长足的发展，监控摄像头已经几乎遍布了城市的所有角落。随之导致的问题是监控视频数据的指数增长。而从中挖掘有效信息越发困难。对监控视频数据进行分析并分类是智能分析中最重要研究内容之一，监控数据的分类有着重要的应用价值，如监控视频中的行人、车辆类别、车辆颜色和行人衣着分类等，它可以有效地提高海量数据的检索效率，从而降低人力成本。目前，大部分的图像数据分类方法主要包括数据收集、图像预处理、特征提取、模型学习和模型预测模块。分类精度主要取决于特征提取和模型学习两个模块。当前特征提取的方法主要是基于颜色、纹理特征或轮廓特征进行：颜色特征方面主要有颜色直方图和像素值等；纹理特征主要有基于局部二值模式；轮廓特征主要有梯度直方图和梯度差分等。模型学习方法主要有如adaboost、svm、决策树、神经网络、贝叶斯和高斯过程等。传统的分类方法主要是提取某种特征作为表观，如颜色、纹理和轮廓，然后利用分类器学习得到一个分类模型，实际中，待分类的目标往往都是同时拥有颜色、纹理和轮廓的特征。由此会导致特征表达不准确，进而致使分类器的鲁棒性差和分类精度低。因此现有的基于单一特征的分类器方法往往无法满足实际中的分类要求，需要一种基于多特征的分类器。

发明内容

针对现有技术的缺点，本发明的目的是提供一种能有效提高鲁棒性和分类精确度的压缩感知多核学习的图像分类方法及其装置。

为实现上述目的，本发明的实施例提供一种基于压缩感知多核学习的图像分类方法，包括以下步骤：(1)字典学习：对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典；(2)特征提取：提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合；(3)特征降维：生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作，从而得到对应的低维度的特征；(4)分类器学习：将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型；以及(5)图像类别预测：对于一张待分类的图片，首先根据所述特征提取步骤而提取图像的特征，接着根据所述特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。

其中，在所述步骤(1)中，字典学习的具体方法为：

对训练样本集D中的每张图片I_i，i＝1，L，l分别随机采样T张子图像，记为P_i＝｛p_i1，L，p_iT}；

根据随机函数randx和randy，生成T个随机整数，分别记为{rx₁，L，rx_T}和{ry₁，L，ry_T}，randx和randy均为服从等概率分布的随机数生成器，随机数生成的范围分别是{0，1，L，w-16}和{0，1，L，h-16}；

将子图像p_it，t＝1，L，T的所有像素值设为0，对于p_it的每个像素进行赋值，即p_it(c，r)＝I_i(c+rx_t，r+ry_t)，由此生成了T组子图像P_i＝{p_i1，L，p_iT}；

合并所有子图像块，即P＝Ｐ_１∪Ｐ_２∪L∪Ｐ_１＝{p_１，L，p_l×T}；对P中的每张子图像p_i分别提取关于颜色、纹理和轮廓的特征，并将生成的关于颜色、纹理和轮廓的特征集合分别记为

Z^{hue} = {z_{1}^{hue}, L, Z_{T \times l}^{hue}},

Z^{lbp} = {z_{1}^{lbp}, L, z_{T \times l}^{lbp}},

Z^{hog} = {z_{1}^{hog}, L, z_{T \times l}^{hog}};

利用聚类算法对Z^hue样本集聚K类，并生成K个类簇中心点，由此构成的中心点集成为关于颜色特征Hue的字典；

用以上方式来学习关于纹理特征的字典，记为

以及

用以上方式来学习关于轮廓特征的字典，记为

其中，在所述步骤(2)中，特征提取的具体方法为：

根据字典

构造KD树，记为k＝kdtee(z^hue)，k∈1，...，K.；

将图像I_i等比例分成16个图像小块，记为Ｂ₃₁，Ｂ_３2，L，Ｂ_３16，对Ｂ_３m，m＝1，L，16提取特征

H_{3 m}^{hue} = [h_{3 m, 1}^{hue}, L, h_{3 m, K}^{hue}] = 0;

对所述图片B_3m，宽高记为w_3m×h_3m进行随机地采样多张子图像，宽高为16x16，记为P＝{p₁，L，p₁₀₀}；

对P中的每张子图像p_i，i＝1，L，100分别提取关于颜色、纹理和轮廓的特征；

将以上生成的关于颜色、纹理和轮廓的特征集合分别记为

Z_{3 m}^{lbp} = {Z_{1}^{lbp}, L, z_{100}^{lbp}}

和

Z_{3 m}^{hog} = {z_{1}^{hog}, L, z_{100}^{hog}};

对每个特征

以投票的方式进行直方图统计，由此生成了B_3m的特征

m＝1，L，16；

根据以上特征计算结果来对子图像B₂₁，B₂₂，B₂₃，B₂₄分别计算特征

根据以上特征计算结果来对子图像B₁₁计算特征

将三层的颜色特征拼接起来得到关于图像I_i的颜色特征；以及

用以上方式来计算I_i的纹理特征直方图和轮廓特征直方图

由此生成三个特征集合

H^{hue} = {H_{i}^{hue}}_{i = 1}^{l},

H^{lbp} = {H_{i}^{lbp}}_{i = 1}^{l}

和

H^{hog} = {H_{i}^{hog}}_{i = 1}^{l}

其中，在所述步骤(3)中，特征降维的具体方法为：

生成稀疏随机矩陈R＝[r_ij]_200×(K×21)，其中已知有一个等概率函数rand，它等概率地生成{1，2，3，L，Kx21}中的一个值，若rand∈{1，2，3，L，128}，则

若rand∈{129，130，131，L，256}，则

否则r_ij＝０；

对特征降维至

即由此从所述训练样本集提取得到的特征集合为

*表示颜色(Hue)、纹理(LBP)或轮廓(HOG)。

其中，在所述步骤(4)中，分类器学习的具体方法为：

将

中的每个样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接，形成一个新的特征集合，即

记训练集的特征为T＝{(x₁，y₁)，...，(x_l，y_l)}，其中学习是基于最小二乘多核的分类器

其中k_m(x₁，x₂)＝exp(-((x₁-x₂)/σ_m)²)，σ_m取值为2^m-M/2，

b^*代表需要学习的参数；

参数初始化拉格朗日乘子α¹＝(0，...，0)，权重系数d¹＝n(1，1，...，1)′_M+1，其中

收敛阈值ε＝10^-3，t＝1；

最优化拉格朗日乘子α^t，b^t：

\begin{matrix} α^{t} = K^{- 1} (y - {b 1}_{M}) \\ b^{t =} 1_{M}^{'} M^{- 1} y {(1_{M}^{'} K 1_{M})}^{- 1} \end{matrix},

其中

m＝1，...，M，当m＝0时，K₀＝I_l×l为单位矩阵；

计算法向量的长度w_m，m＝0，...，M：

更新核权重值d_t+1：

d_{m}^{t + 1} = \frac{{| | w_{m} | |}^{1 / 2}}{{(Σ_{m = 1}^{M} {| | w_{m} | |}^{3 / 2})}^{1 / 3}};

以及

如果

则t=t+1，重复以上步骤；否则输出最优解d^*=d^t+1，α^*=α^t和b^*=b^t决策函数为：

f (x) = Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} K_{m} (x_{i}, x) + b^{*} .

本发明的实施例还提供一种基于压缩感知多核学习的图像分类装置，包括：图像获取装置，用于提供图像收集功能，从数据库中获取图片集合或图片；字典学习模块，耦合于所述图像获取模块，配置为对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典；特征提取模块，耦合于所述字典学习模块，所述特征提取模块配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并且由此生成对应的三个特征集合，所述特征提取模块还配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作，从而得到低维度的特征；模型训练模块，耦合于所述特征提取模块，配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型；以及模型预测模块：耦合于所述模型训练模块，配置为对于一张待分类的图片，首先根据所述特征提取步骤而提取图像的特征，接着根据所述特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。

其中，所述字典学习模块具体配置为：

对训练样本集D中的每张图片I_i，i=1，L，l分别随机采样T张子图像，记为P_i＝{p_i1，L，p_iT}；

合并所有子图像块，即P＝P₁∪P₂∪L∪P_l＝{p₁，L，p_l×T]；对P中的每张子图像p_i分别提取关于颜色、纹理和轮廓的特征，并将生成的关于颜色、纹理和轮廓的特征集合分别记为

Z^{hue} = {z_{1}^{hue}, L, z_{T \times l}^{hue}},

Z^{lbp} = {z_{1}^{lbp}, L, z_{T \times l}^{lbp}},

Z^{hog} = {z_{1}^{hog}, L, z_{T \times l}^{hog}};

用以上方式来学习关于纹理特征的字典，记为

以及

用以上方式来学习关于轮廓特征的字典，记为

其中，所述特征提取模块具体配置为：

根据字典

构造KD树，记为k＝kdtee(z^hue)，k∈1，...，K.；

将图像I_i等比例分成16个图像小块，记为B₃₁，B₃₂，L，B₃₁₆，对B_3m，m＝1，L，16提取特征

H_{3 m}^{hue} = [h_{3 m}^{hue}, L, h_{3 m, K}^{hue}] = 0;

对所述图片B_3m，宽高记为w_2m×h_3m进行随机地采样多张子图像，宽高为16x16，记为P＝{p₁，L，p₁₀₀}；

将以上生成的关于颜色、纹理和轮廓的特征集合分别记为

Z_{3 m}^{lbp} = {z_{1}^{lbp}, L, z_{100}^{lbp}}

和

Z_{3 m}^{hog} = {z_{1}^{hog}, L, z_{100}^{hog}};

对每个特征

以投票的方式进行直方图统计，由此生成了B_3m的特征

m＝1，L，16；

根据以上特征计算结果来对子图像B₁₁计算特征

用以上方式来计算I_i的纹理特征直方图和轮廓特征直方图

由此生成三个特征集合

H^{hue} = {H_{i}^{hue}}_{i = 1}^{l},

H^{lbp} = {H_{i}^{lbp}}_{i = 1}^{l}

和

H^{hog} = {H_{i}^{hog}}_{i = 1}^{l} .

其中，所述模型训练模块具体配置为：

将

中的每个样本

的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接，形成一个新的特征集合，即

记训练集的特征为T＝{(x₁，y₁)，...，(x_l，y₁)}，其中学习是基于最小二乘多核的分类器其中k_m(x₁，x₂)＝exp(-((x₁-x₂)/σ_m)²)，σ_m取值为2^m-M/2，

b^*代表需要学习的参数；

收敛阈值ε＝10^-3，t＝1；

最优化拉格朗日乘子α^t，b^t：

\begin{matrix} α^{t} = K^{- 1} (y - {b 1}_{M}) \\ b^{t} = 1_{M}^{'} K^{- 1} y {(1_{M}^{'} {K 1}_{M})}^{- 1} \end{matrix},

其中

m＝1，...，M，当m＝0时，K₀＝I_l×l为单位矩阵；

计算法向量的长度w_m，m＝0，...，M：

更新核权重值d^t+1：

d_{m}^{t + 1} = \frac{{| | w_{m} | |}^{1 / 2}}{{(Σ_{m = 1}^{M} {| | w_{m} | |}^{3 / 2})}^{1 / 3}};

以及

如果

Figure DEST_PATH_GSB00001171493000000216

f (x) = Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} K_{m} (x_{i}, x) + b^{*} .

本发明所提供的压缩感知多核学习的图像分类方法及其装置，能够通过模式识别方法来训练一个分类精度高的分类器，使得训练得到的分类器能够对行人、车辆等图像具有很好的分类精度，从而提高了分类模型的泛化能力。

附图说明

图1是根据本发明的一种金字塔特征计算的示意图。

图2是根据本发明的一种基于感知压缩多核学习的图像分类方法的流程图。

图3是根据本发明的一种基于感知压缩多核学习的图像分类装置的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是根据本发明的一种金字塔特征计算的示意图。图2是根据本发明的一种基于感知压缩多核学习的图像分类方法的流程图。如图1和图2所示，本发明提供一种基于感知压缩多核学习的图像分类方法。在实施例中，假定需要处理一个包含两类的图片集D＝{(I₁，y₁)，L，(I_l，y_l)}，其中I_i，i＝1，Ｌ，l表示归一化(宽高分别为w和h)的RGB通道的24位彩色图像，y_i∈{1，-1}，i＝1，L，l表示图像类别标签，-1表示负类样本，并且1表示正类样本。请注意，本领域的技术人员应可理解，以上假定仅为描述性的并且在任何方面上不应视为限制性的。相反地，本领域的技术人员在结合附图阅读以下描述之后可容易地用任何合适的假定来实践本发明的其它实施例。

如图2所示，基于感知压缩多核学习的图像分类方法通过数据集D来训练一个分类器f，然后使用分类器f对待分类图像的类别进行分类。该方法的主要流程如下：

●字典学习：对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典。本实施例中，聚类算法优选K-Means方法，其中用层次划分聚类、均值漂移聚类、密度聚类均可实现。

●特征提取：提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。

●特征降维：生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作，从而得到对应的低维度的特征。

●分类器学习：将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型。

●图像类别预测：对于一张待分类的图片，首先根据特征提取步骤而提取图像的特征，接着根据特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。

下面将对本发明的几个步骤依次进行详细描述：

1.字典学习

对训练样本集D中的每张图片I_i，i＝1，Ｌ，l分别随机采样T张子图像(例如，子图像的宽、高可分别为16、16)，记为Ｐ_i＝{p_i1，L，p_iT}。

根据随机函数randx和randy，生成T个随机整数，分别记为{rx₁，L，rx_T}和{ry₁，L，ry_T}，randx和randy均为服从等概率分布的随机数生成器，随机数生成的范围分别是{0，1，L，w-16}和{0，1，L，h-16}；将子图像p_it，t＝1，L，T的所有像素值设为0。对于p_it的每个像素进行赋值，即p_it(c，r)＝I_i(c+rx_t，r+ry_t)；由此生成了T组子图像P_i＝{p_i1，L，p_iT}。

接着，合并所有子图像块，即P＝P₁∪P₂∪L∪P_l＝{p₁，L，p_l×T}；对P中的每张子图像p_i分别提取关于颜色、纹理和轮廓的特征。步骤分别如下：

1)颜色特征。提取HSV通道中的HUE通道彩色直方图特征，记为

(参考：Max K.Agoston(2005).Computer Graphics and Geometric Modeling：Implementation and Algorithms.London：Springer.ISBN1-85233-818-0.pp.300-306.)

2)纹理特征。提取Gray通道下的LBP纹理特征，记为

(参考：OjalaT_，Pietikainen M，Maenpaa T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].Pattern Analysis and Machine Intelligence，IEEE Transactions on，2002，24(7)：971-987.)

3)轮廓特征。提取Gray通道下的HOG轮廓特征，记为

(参考：Dalal N，Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition，2005.CVPR 2005.IEEE Computer Society Conference on.IEEE，2005，1：886-893.)

由以上步骤1)至3)生成的关于颜色、纹理和轮廓的特征集合分别记为

Z^{hue} = {z_{1}^{hue}, L, z_{T \times l}^{hue}},

Z^{lbp} = {z_{1}^{lbp}, L, z_{T \times l}^{lbp}},

Z^{hog} = {z_{1}^{hog}, L, z_{T \times l}^{hog}} .

利用聚类算法(例如，K-Means方法，参考：http://www.vlfeat.org/)对Z^hue样本集聚K类，并生成K个类簇中心点，由此构成的中心点集成为关于颜色特征Hue的字典，记为

D^{hue} = {c_{1}^{hue}, c_{2}^{hue,} L, c_{k}^{hue}},

类似地，学习关于纹理特征的字典，记为

类似地，学习关于轮廓特征的字典，记为

因此，由以上步骤构造了关于颜色、纹理和轮廓的字典D^hue，D^lbp，D^hog。

2.特征提取

对于给定D中的一张图片I_i，i＝1，L，l，分别提取图片Ｉ_i的颜色、纹理和轮廓特征

下面以提取I_i的颜色金字塔特征

过程为例来说明，具体步骤如下：

1)根据字典

构造KD树(参考：http://www.vlfeat.org/)，记为k＝kdtee(z^hue)，k∈1，...，k.，kdtee(z^hue)能够快速判断z^hue距离D^hue的K个中心最近的中心的索引。

2)金字塔第3层特征的计算。如图1的(1)所示，将图像I_i等比例分成16个图像小块，记为B₃₁，B₃₂，L，B₃₁₆。对B_3m，m＝1，L，16提取特征

H_{3 m}^{hue} = [h_{3 m, 1}^{hue}, L, h_{3 m, K}^{hue}] = 0,

步骤如下：

2.1对图片B_3m，宽高记为w_3m×h_3m进行随机地采样多张子图像，本实施例中采样100(此值为优选，取大于0的整数均可)张子图像，宽高为16x16，记为P＝{p₁，L，p₁₀₀}，方法如下：

根据随机函数randx和randy，生成100个随机整数，分别记为{rx₁，L，rx₁₀₀}和{ry₁，L，ry₁₀₀}，randx和randy均为服从等概率分布的随机数生成函数，随机数生成的范围分别是{0，1，，w_3m-16}和{0，1，L，h_3m-16}；将子图像p_t，t＝1，L，100的像素值的RGB值均设为0。对于p_it的每个像素进行赋值，即p_t(c，r)＝Ｉ_i(c+rx_t，r+ry_t)；由此生成了100张子图像P＝{p₁，L，p₁₀₀}。

2.2对P中的每张子图像p_i，i＝1，L，100分别提取关于颜色、纹理和轮廓的特征。步骤如下：

颜色特征：提取HSV通道中的Hue通道颜色直方图特征，记为

纹理特征：提取Gray通道下的LBP纹理特征，记为

轮廓特征：提取Gray通道下的HOG轮廓特征，记为

2.3将以上生成的关于颜色、纹理和轮廓的特征集合分别记为

Z_{3 m}^{hue} = {z_{1}^{hue}, L, z_{100}^{hue}},

Z_{3 m}^{lbp} = {z_{1}^{lbp}, L, z_{100}^{lbp}}

和

Z_{3 m}^{hog} = {z_{1}^{hog}, L, z_{100}^{hog}};

2.4对每个特征

以投票的方式进行直方图统计，即对所有

z^{hue} &Element; Z_{3 m}^{hue},

执行操作

h_{3 m, kdtree (z^{hue})}^{hue} = h_{3 m, kdtree (z^{hue})}^{hue} + 1;

由此生成了B_3m的特征

m＝1，L，16。

3)金字塔第2层特征的计算。如图1的(2)所示，将图像I_i等比例分成4个图像小块，B₂₁，B₂₂，B₂₃，B₂₄，事实上第二层的特征可以根据以上第三层特征进行计算，对子图像B₂₁，B₂₂，B₂₃，B₂₄分别计算特征

计算步骤如下：

H_{21}^{hue} = (H_{31}^{hue} + H_{32}^{hue} + H_{35}^{hue} + H_{36}^{hue}) / 2^{2}

H_{22}^{hue} = (H_{33}^{hue} + H_{34}^{hue} + H_{37}^{hue} + H_{38}^{hue}) / 2^{2}

H_{23}^{hue} = (H_{39}^{hue} + H_{310}^{hue} + H_{313}^{hue} + H_{314}^{hue}) / 2^{2}

H_{21}^{hue} = (H_{311}^{hue} + H_{312}^{hue} + H_{315}^{hue} + H_{316}^{hue}) / 2^{2}

4)金字塔第1层特征的计算。如图1的(3)所示，将图像I_i等比例分成1个图像小块，B₁₁，事实上第一层的特征可以根据以上第二层特征进行计算，对子图像B₁₁计算特征

计算步骤如下：

H_{11}^{hue} = (H_{21}^{hue} + H_{22}^{hue} + H_{23}^{hue} + H_{24}^{hue}) / 2^{2} .

5)将3层的颜色金字塔特征拼接起来得到关于图像I_i的颜色特征：

H_{i}^{hue} = [H_{31}^{hue}, L, H_{316}^{hue}, H_{21}^{hue}, H_{22}^{hue}, H_{23}^{heu}, H_{24}^{heu}, H_{11}^{hue}] .

同理地，可计算I_i的纹理特征直方图和轮廓特征直方图，即

由此训练集D生成了三个特征集合，即

H^{hue} = {H_{i}^{hue}}_{i = 1}^{l},

H^{lbp} = {H_{i}^{lbp}}_{i = l}^{l}

和

H^{hog} = {H_{i}^{hog}}_{i = 1}^{l} .

3.特征降维

对特征进行降维，对于任意的特征

(*表示颜色(Hue)、纹理(LBP)

0的整数即可)，Kx21。已知有一个等概率函数rand，其等概率地生成{1，2，3，L，Kx21}中的一个值。若rand∈{1，2，3，L，128}，则

若 rand∈{129，130，131，L，256}，则

否则r_ij＝0。注意，此处的随机矩阵在整个本发明的实施例方法中，只计算一次，即一次计算后固定不变。但应注意，此仅为示例并非限制，本领域技术人员也可以根据实际需要而计算多次。

2)对特征

降维至即

经过以上步骤1)和2)，从训练样本集D提取得到的特征集合为

*表示Hue、LBP或HOG。至此特征提取完成。

4.分类器学习

将中的每个样本

的颜色、纹理和轮廓的三个特征向量进行拼接，形成一个新的特征集合，即

记训练集的特征为T＝{(x₁，y₁)，...，(x_l，y_l)}。例如，本实施中的学习是基于最小二乘多核的分类器，即：

f (x) = Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} k_{m} (x_{i}, x) + b^{*}

其中k_m(x₁，x₂)＝exp(-((x₁-x₂)/σ_m)²)，σ_m取值为2^m-M/2。

b^*代表需要学习的参数。参数学习的步骤如下：

1)参数初始化拉格朗日乘子α¹＝(0，...，0)，权重系数d¹＝n(1，1，...，1)′_M+1，其中

收敛阈值ε＝10^-3，t＝1；

2)最优化拉格朗日乘子α^t，b^t：

\begin{matrix} α^{t} = K^{- 1} (y - {b 1}_{M}) \\ b^{t} = 1_{M}^{'} K^{- 1} y {(1_{M}^{'} {K 1}_{M})}^{- 1} \end{matrix}

其中

K = Σ_{m = 0}^{M} d_{m} K_{m},

K_{m} = {k_{ij}^{m}}_{i, j = 1}^{l}, k_{ij}^{m} = k_{m} (x_{i}, x_{j}),

m＝1，...，M。当m＝0时，K₀＝I_l×l为单位矩阵。

3)计算法向量的长度w_m，m＝0，...，M，即

| | w_{m} | | d_{m}^{2} α' K_{m} α, m = 0, \cdot \cdot \cdot, M .

4)更新核权重值d^t+1，即

d_{m}^{t + 1} = \frac{{| | w_{m} | |}^{1 / 2}}{{(Σ_{m = 1}^{M} {| | w_{m} | |}^{3 / 2})}^{1 / 3}}

5)如果

则t＝t+1，重复2)-4)步骤；否则执行6)

6)输出最优解d^*＝d^t+1，α^*＝α^t和b^*＝b^t决策函数为：

f (x) = Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} K_{m} (x_{i}, x) + b^{*}

5.图像类别预测

对于给定的一张待分类的图片I_u，执行如下步骤进行分类：

1)根据以上第2步特征提取的步骤1)-5)，提取图像I_u的特征，

和

2)根据以上第2步特征降维的步骤1)-2)，计算得到低维度的特征

和

3)拼接样本

和

的三个特征向量而形成新的特征集合，即

x_{u} = [x_{u}^{hue}, x_{u}^{lbp}, x_{u}^{hog}];

4)分类：将x_u代入训练好的分类器模型，如下公式：

labe l_{u} = g (x_{u}) = sign (Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} k_{m} (x_{i}, x_{u}) + b^{*})

其中

sign (a) = \{\begin{matrix} 1, a &GreaterEqual; 0 \\ - 1, a < 0 \end{matrix}

5)输出图像I_u的类别标签label_u(例如，“行人”)。

本发明通过压缩感知和多核学习方法，利用压缩感知特征提取方法来提高特征的抗噪音能力，使用多核学习将多特征进行融合学习来提高分类器的精度，从而大大地提高了图像分类的精度。

图3是根据本发明的一种基于感知压缩多核学习的图像分类装置300的结构示意图。图3可以结合图1和图2来理解。如图3所示，图像分类装置300包括图像获取装置302、字典学习模块304、特征提取模块306、模型训练模块308和模型预测模块310。各个模块的具体功能如下描述：

图像获取模块302，用于提供图像收集功能，从数据库中获取图片集合或图片，为后续字典学习、模型训练和图片预测所使用。

字典学习模块304，耦合于图像获取模块302，用于提供字典学习功能，根据给定的图像集合学习出一个字典，此字典的作用是为了直方图投票装置中的提取特征所用。具体地，结合图2中的字典学习步骤来看，字典学习模块304可配置为对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法(例如，K-Means方法)来分别构造关于颜色、纹理和轮廓的字典。更多的细节可参考以上方法描述，为简洁起见，此处不另赘述。

特征提取模块306，耦合于字典学习模块304，包括了直方图投票装置和压缩感知装置(未示出)，它提供了基于金字塔直方图投票的特征提取和基于压缩感知的特征降维功能，所提取得到的特征主要为模型训练装置和预测装置所用。具体地，结合图2中的特征提取和特征降维步骤来看，特征提取模块306可配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合。特征提取模块306还可配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维操作，从而得到对应的低维度的特征。更多的细节可参考以上方法描述，为简洁起见，此处不另赘述。

模型训练模块308，耦合于特征提取模块306，用于根据训练图像提取得到的特征集合，利用多核学习的方法，将多种特征进行融合学习，得到最优的分类器。具体地，结合图2中的分类器学习步骤来看，模型训练模块308可配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型。更多的细节可参考以上方法描述，为简洁起见，此处不另赘述。

模型预测模块310，耦合于模型训练模块308，用于根据待分类图像的特征，对图像的类别进行分类，并输出其所属的类别。具体地，结合图2中的图像类别预测步骤来看，模型预测模块310可配置为对于一张待分类的图片，首先根据特征提取步骤而提取图像的特征，接着根据特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。更多的细节可参考以上方法描述，为简洁起见，此处不另赘述。

有利地，本发明通过压缩感知和多核学习方法，提取图像的多种特征，包括颜色、纹理和轮廓特征，并利用压缩感知原理对特征进行降维，提高了图像(如行人和车辆)特征的抗噪音能力，使用多核学习将多特征进行融合学习训练分类器，解决了监控视频中目标模糊或者轮廓不明显或者纹理不清晰等问题，提高了分类器的精度，从而大大地提高了图像(如行人和车辆)分类的精度。在实际应用中具有非常高应用价值

以上所披露的仅为本发明实施例中的较佳实施例而已，当然不能以此来限定本发明的权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于压缩感知多核学习的图像分类方法，其特征在于包括以下步骤：

(1)字典学习：对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典；

(2)特征提取：提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并由此生成对应的三个特征集合；

(3)特征降维：生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维处理，从而得到对应的低维度的特征；

(4)分类器学习：将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型；

(5)图像类别预测：对于一张待分类的图片，首先根据所述特征提取步骤而提取图像的特征，接着根据所述特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。

2.如权利要求1所述的基于压缩感知多核学习的图像分类方法，其特征在于，在所述步骤(1)中，字典学习的具体方法为：

对训练样本集D中的每张图片I_i，i＝1，L，l分别随机采样T张子图像，记为P_i＝{p_i1，L，p_iT};

合并所有子图像块，即P＝P₁∪P₂∪L∪P_l＝{p₁，L，p_l×T}；对P中的每张子图像p_i分别提取关于颜色、纹理和轮廓的特征，并将生成的关于颜色、纹理和轮廓的特征集合分别记为

Z^{hue} = {z_{1}^{hue}, L, z_{T \times l}^{hue}},

Z^{lbp} = {z_{1}^{lbp}, L, z_{T \times l}^{lbp}},

Z^{hog} = {z_{1}^{hog}, L, z_{T \times l}^{hog}};

用以上方式来学习关于纹理特征的字典，记为

以及

用以上方式来学习关于轮廓特征的字典，记为

3.如权利要求1所述的基于压缩感知多核学习的图像分类方法，其特征在于，在所述步骤(2)中，特征提取的具体方法为：

根据字典

构造KD树，记为k＝kdtee(z^hue)，k∈1，...，K.；

H_{3 m}^{hue} = [\begin{matrix} h_{3 m, 1}^{hue}, L & , h_{3 m, K}^{hue} \end{matrix}] = 0;

将以上生成的关于颜色、纹理和轮廓的特征集合分别记为

Z_{3 m}^{lbp} = \{\begin{matrix} z_{1}^{lbp}, L & , z_{100}^{lbp} \end{matrix}\}

和

Z_{3 m}^{hog} = \{\begin{matrix} z_{1}^{hog}, L & , z_{100}^{hog} \end{matrix}\};

对每个特征

以投票的方式进行直方图统计，由此生成了B_3m的特征

m＝1，L，16；

根据以上特征计算结果来对子图像B₁₁计算特征

用以上方式来计算I_i的纹理特征直方图和轮廓特征直方图

由此生成三个特征集合

H^{hue} = {H_{i}^{hue}}_{i = 1}^{l},

H^{lbp} = {H_{i}^{lbp}}_{i = 1}^{l}

和

H^{hog} = {H_{i}^{hog}}_{i = 1}^{l} .

4.如权利要求1所述的基于压缩感知多核学习的图像分类方法，其特征在于，在所述步骤(3)中，特征降维的具体方法为：

生成稀疏随机矩阵R＝[r_ij]_200×(K×21)，其中已知有一个等概率函数rand，它等概率地生成{1，2，3，L，Kx21}中的一个值，若rand∈{1，2，3，L，128}，则

若rand∈{129，130，131，L，256}，则

否则r_ij＝0；

对特征

降维至

即

由此从所述训练样本集提取得到的特征集合为

*表示颜色(Hue)、纹理(LBP)或轮廓(HOG)。

5.如权利要求1所述的基于压缩感知多核学习的图像分类方法，其特征在于，在所述步骤(4)中，分类器学习的具体方法为：

将

中的每个样本

的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行拼接，形成一个新的特征集合，即记训练集的特征为T＝{(x₁，y₁)，...，(x_ly_l)}，其中学习是基于最小二乘多核的分类器

其中k_m(x₁，x₂)＝exp(-((x₁-x₂)/σ_m)²)，σ_m取值为2^m-M/2，

b^*代表需要学习的参数；

收敛阈值ε＝10^-3，t＝1；

最优化拉格朗日乘子α^t，b^t：

\begin{matrix} α^{t} = K^{- 1} (y - {b 1}_{M}) \\ b^{t} = 1_{M}^{'} K^{- 1} y {(1_{M}^{'} {K 1}_{M})}^{- 1} \end{matrix},

其中

m＝1，...，M，当m＝0时，K₀＝I_l×l为单位矩阵；

计算法向量的长度w_m，m＝0，...，M：

更新核权重值d^t+1：

d_{m}^{t + 1} = \frac{{| | w_{m} | |}^{1 / 2}}{{(Σ_{m = 1}^{M} {| | w_{m} | |}^{3 / 2})}^{1 / 3}};

以及

如果

则t＝t+1，重复以上步骤；否则输出最优解d^*＝d^t+1，α^*＝α^t和b^*＝b^t决策函数为：

f (x) = Σ_{i = 1}^{l} α_{i}^{*} Σ_{m = 1}^{M} d_{m}^{*} K_{m} (x_{i}, x) + b^{*} .

6.一种基于压缩感知多核学习的图像分类装置，包括：

图像获取装置，用于提供图像收集功能，从数据库中获取图片集合或图片；

字典学习模块，耦合于所述图像获取模块，配置为对训练样本集中的每张图片分别随机采样多张子图像，根据随机函数生成多个随机整数，随后生成多组子图像，对每张子图像分别提取关于颜色、纹理和轮廓的特征，并且利用聚类算法来分别构造关于颜色、纹理和轮廓的字典；

特征提取模块，耦合于所述字典学习模块，所述特征提取模块配置为提取训练样本集中的每张图片的颜色、纹理和轮廓特征，根据字典构造KD树从而分别计算图片的颜色特征直方图、纹理特征直方图和轮廓特征直方图并且由此生成对应的三个特征集合，所述特征提取模块还配置为生成稀疏随机矩阵并且对图片的颜色、纹理和轮廓特征进行特征降维处理，从而得到对应的低维度的特征；

模型训练模块，耦合于所述特征提取模块，配置为将样本的降维处理后的颜色、纹理和轮廓的三个低纬度特征向量进行顺序拼接，形成一个新的特征集合，并使用基于最小二乘多核的分类器在训练集上学习模型；以及

模型预测模块：耦合于所述模型训练模块，配置为对于一张待分类的图片，首先根据所述特征提取步骤而提取图像的特征，接着根据所述特征降维步骤而计算得到低维度的特征，再拼接降维后的特征向量而形成新的特征，将该新的特征代入训练好的分类器模型，从而得到图像类别的输出结果。

7.如权利要求6所述的基于压缩感知多核学习的图像分类装置，其特征在于，所述字典学习模块具体配置为：

对训练样本集D中的每张图片I_i，i＝1，L，l分别随机采样T张子图像，记为P_i＝{p_i1，L，p_iT}；