CN103116762A

CN103116762A - 一种基于自调制字典学习的图像分类方法

Info

Publication number: CN103116762A
Application number: CN201310091623XA
Authority: CN
Inventors: 杨育彬; 唐晔; 潘玲燕
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-03-20
Filing date: 2013-03-20
Publication date: 2013-05-22
Anticipated expiration: 2033-03-20
Also published as: CN103116762B

Abstract

本发明公开了基于自调制字典学习的图像分类方法，包含如下步骤：训练阶段：步骤1，局部特征抽取；对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合；步骤2，自调制字典学习；步骤3，训练图像表示：包含特征稀疏编码和图像空间聚合两个子步骤。步骤4，分类模型学习；步骤5，局部特征抽取；步骤6，待分类图像表示；步骤7，模型预测。本发明为字典学习引入了合理的顺序机制，设计了一套自调制机制的字典学习方法，并结合图像分类进行分析验证，最终提高图像分类的准确度。

Description

一种基于自调制字典学习的图像分类方法

技术领域

本发明属于图像分类领域，特别是一种面向多类别、高精度图像分类方法。

背景技术

在当前的信息化社会中，以图像为代表的数字媒体资源已达到海量规模，成为当前信息处理和信息资源建设的主体。传统的技术手段已经无法适应这种需求，这对图像的组织、分析、检索和管理等技术都提出了全新的挑战。图像分类作为对图像的机器理解的基础技术，近些年来一直是模式识别、计算机视觉、信息检索、人工智能、机器学习和数据挖掘等多个重要研究领域中持续的前沿性研究热点。图像分类是指根据图像的内容将其归为特定的语义类别的方法，其能自动提取图像的语义信息并有效管理。图像语义分类技术可直接应用到海量图像检索、图像语义标注、图像信息过滤等图像语义理解相关的其他技术领域，并带动上述领域相关技术的发展。尽管国内外许多研究者投身于图像分类技术的研究，目前的图像分类还面临多种挑战。比如：怎样自动获得丰富的高层语义信息；如何鲁棒地处理光照、位置、遮挡以及噪声数据的情形；如何高效处理大规模图像数据等等。近些年，基于字典学习的图像分类框架获得众多研究者的关注，大量实验分析表明了其优越性。此框架的关键在于设计高效算法学习更有效的字典，并充分利用字典中的信息用于分类。因此，此发明旨在改进已有字典学习模型，引入学习顺序机制控制字典学习，使学习过程从简单到复杂逐渐演化，最终形成更适用于分类任务的字典，以提升基于字典学习的图像分类方法的分类精度。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种基于自调制字典学习的图像分类方法，从而提升了已有基于字典学习的图像分类方法的分类精度。

发明内容：本发明公开了基于自调制字典学习的图像分类方法，包含如下步骤：

训练阶段：步骤1，局部特征抽取：对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合；训练图像是带有类标的图像，类标用于标记图像所属类别；采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子，最后将抽取的局部特征集合的一个子集作为字典学习的训练集；

步骤2，自调制字典学习：在局部特征集合中随机抽取部分局部特征作为训练集，训练集分为简单样例集E和复杂样例集H；反复迭代：当前简单样例集确定、稀疏编码、字典更新、以及阈值更新四个步骤完成字典学习，生成字典D。

整个学习过程维护两个训练样例集合：简单样例集E和复杂样例集H；通过迭代以下步骤完成字典学习：确定当前简单样例集，即从复杂样例集H中挑选此次迭代被判定为简单的样例，加入到上一次迭代的简单样例集，形成当前简单样例集；稀疏编码，固定上一次迭代的字典，并利用其对训练集中的所有局部特征完成稀疏编码；字典更新，仅利用此次迭代的简单样例集中的局部特征编码系数对字典进行更新阈值更新，采用逐渐放松简单样例筛选标准的自适应阈值函数，利用当前训练集上的打分函数值分布，合理更新阈值。不断进行以上四步的迭代优化，直接字典最终收敛，或是达到预先规定的迭代次数，最终获得训练好的字典。

步骤3，训练图像表示：包含特征稀疏编码和图像空间聚合两个子步骤。

特征稀疏编码，对训练图像中抽取的局部特征进行编码，采用下式根据字典D，对局部特征x_i求解稀疏编码系数α_i：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，采用快速特征符搜索法求解；图像空间聚合，对于训练图像的所有局部特征的编码结果进行空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作。总共将图像空间分为三层：level0、level1、level2。level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块，level2把level1的每块再按图像平面空间横轴与纵轴方向均分为4小块，构成16小块，共有21块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含K个视觉单词，K取正整数，则图像的特征向量维度为21×K。若用α∈R^K表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到20的整数，则最大值聚合的操作定义为：

for j=1,...K.，其中h_m,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。

步骤4，分类模型学习：将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM（Support Vector Machine，支持向量机）分类器的输入，采用线性核SVM分类模型，完成分类模型的参数学习，得到SVM分类模型；

分类阶段包括：

步骤5，局部特征抽取：对于待分类图像进行局部特征描述子抽取，采用稠密抽样的策略，通过网格划分采样，进行SIFT描述子抽取；

步骤6，待分类图像表示：包含特征稀疏编码和图像空间聚合两个子步骤，首先对待分类图像的局部特征进行稀疏编码：采用下式根据字典D，对局部特征x_i求解稀疏编码系数α_i：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，采用快速特征符搜索法求解；然后进行待分类图像的所有局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作。总共将图像空间分为三层：level0、level1、level2。level0不分块，表示整张图像的信息，level1按图像平面空间横轴与纵轴方向均分为4块，level2把level1的每块再按图像平面空间横轴与纵轴方向均分为4小块，构成16小块，共有21块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含K个视觉单词，K取正整数，则图像的特征向量维度为21×K。若用α∈R^K表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到20的整数，则最大值聚合的操作定义为：

步骤7，模型预测，将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型，以此预测待分类图像的类别。

步骤2自调制字典学习具体包括如下步骤：

从局部特征集合中随机取n个训练图像作为训练集X，X=[x₁,...,x_n]∈R^m×n，其中x_i∈R^m表示一个局部特征，m表示局部特征的维数，则字典学习采用以下公式：

\begin{matrix} \min_{D, A} \frac{1}{n} Σ_{i = 1}^{n} | | x_{i} - D α_{i} {| |}_{2}^{2} + λ | | α_{i} {| |}_{1}, \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1, j = 1, . . ., k, \end{matrix}

其中D=[d₁,...,d_k]∈R^m×k表示字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，k表示字典的字典项个数；α_i表示局部特征x_i对应于字典D的编码系数，A表示训练集X中所有局部特征对应的编码系数，λ是正则化参数，其取值为(0,+∞)；在以上优化问题中，正则化项保证了编码系数α_i的稀疏性。

本发明设计的自调制学习强调学习顺序对字典学习问题的重要性，本发明的方法能自动控制从简单到复杂的学习顺序；贯穿整个字典学习过程。

本发明维护两个互不交叉的训练数据集合：简单样例集E和复杂样例集H，E和H的并集为整个训练集X。初始化简单样例集E为空集，复杂样例集H为整个训练集X；随着学习过程的进行，从当前复杂样例集H中选取简单样例加入简单样例集E，所以E逐渐扩展为整个训练集，H则逐渐减少至空集。需要一个初始字典用于首轮简单样例的选取，本发明采用K-means算法构建初始字典D_initial。

反复迭代步骤21～步骤24，直至字典收敛或达到指定的迭代次数：ζ：

步骤21，确定当前简单样例集：从上一步复杂样例集H中选取本次迭代的简单样例加入简单样例集E。为了判断样例的难易程度，需要一种打分函数以及合适的阈值σ，由于字典学习问题的优化形式，利用上一步字典D，对于样例x，本发明采用如下打分函数用于判断样例的难易程度：

l (x, D) \overset{Δ}{=} \min_{α &Element; R^{k}} {| | x - Dα | |}_{2}^{2} + λ {| | α | |}_{1},

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，阈值σ取值范围为(0,+∞)，利用阈值σ分辨简单和复杂样例，即对于x_i∈H，如果l(x_i,D)<σ，判定x_i是简单样例，将x_i加入E，否则判定x_i是复杂样例，保留x_i在H中；在完成此步的字典更新后会利用本轮训练集的打分函数值更新阈值σ，用于下一轮简单样例的选取。为了保证第一步学习到的字典不会有太大偏差，导致后续字典更新算法的收敛速度过慢，σ的初始值应保证略多于半数的训练样例被选取为简单样例。利用k-means得到的初始字典D_initial，然后计算训练样例的打分函数值，便可得到合适的初始值。

步骤22，稀疏编码：采用下式根据字典D对局部特征x_i求解稀疏编码系数α_i：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)；已有多种有效方法解决此优化问题，我们采用快速特征符搜索法求解，此方法能有效解决如上l₁范式优化问题。已有多种有效方法解决此优化问题，我们采用快速特征符搜索法求解。值得注意的是需要对整个训练集的所有局部特征求解稀疏编码系数。

步骤23，字典更新：我们固定此次迭代中简单样例集E中所有样例的稀疏编码系数A_E，然后利用牛顿法解决下面带二次约束的最小均方问题：

\begin{matrix} \min_{D_{new}} {| | X}_{E} - D_{new} A_{E} {| |}_{F}^{2}, \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1 j = 1, . . ., k, \end{matrix}

其中，D_new表示待更新的字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，X_E表示所有简单样例，A_E表示所有简单样例对应的编码系数，是矩阵的F-范数，即

{| | A | |}_{F}^{2} = trace (A * A) .

步骤24，阈值更新：为了保证随着迭代的次数增加，越来越多的样例被认为是简单样例，最终将简单样例集扩展为整个数据集，需要逐步放松简单样例的选取标准。本发明采用如下自适应的阈值函数：

σ=π+log(π²+c)t (c≥1)，

其中，π表示所有样例的打分函数中值，t表示当前迭代次数，c为常数，取值范围为[1,+∞)。显然σ是迭代次数t的单调递增函数，并且与本轮所有训练样例的打分函数值中值相关，具有自适应性。

如果字典收敛或者达到预先定义的迭代次数ζ，则停止学习；否则进入下一轮迭代。字典收敛的判断标准为：所有训练样例都被认为是简单样例且优化问题的目标函数值变化小于规定的正实数ε。

本发明是为提升已有基于字典学习的图像分类方法的分类精度。本发明具有以下特征：1)首次为字典学习优化算法引入顺序机制，并设计了一套从简单到复杂的自调制字典学习算法；2)将自调制字典学习无缝地整合到图像分类框架，有利于图像分类精度的提升。

有益效果：本发明能够一定程度上提升图像分类精度，因此具有较高的使用价值。

附图说明

图1为本发明流程图。

图2为本发明中自调制字典学习步骤子流程图。

图3为本发明中训练图像表示及待分类图像表示中空间聚合子步骤的空间划分图。

具体实施方式：

如图1所示，本发明公开了基于自调制字典学习的图像分类方法，包含如下步骤：

步骤1，局部特征抽取：对于训练图像抽取局部特征描述子，采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子，最后将抽取的局部特征集合的一个子集作为字典学习的训练集。

步骤2，自调制字典学习：整个学习过程维护两个训练样例集合：简单样例集E和复杂样例集H；通过迭代以下步骤完成字典学习：确定当前简单样例集，即从复杂样例集H中挑选此次迭代被判定为简单的样例，加入到上一次迭代的简单样例集，形成当前简单样例集；稀疏编码，固定上一次迭代的字典，并利用其对训练集中的所有局部特征完成稀疏编码；字典更新，仅利用此次迭代的简单样例集中的局部特征编码系数对字典进行更新；阈值更新，采用逐渐放松简单样例筛选标准的自适应阈值函数，利用当前训练集上的打分函数值分布，合理更新阈值。不断进行以上四步的迭代优化，直接字典最终收敛，或是达到预先规定的迭代次数，最终获得训练好的字典。

步骤3，训练图像表示：包括特征稀疏编码和图像汇合操作两个子步骤：首先对训练图像中抽取的局部特征进行编码；然后对训练图像的所有局部特征的编码结果进行空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量。

步骤4，分类模型学习，将步骤3中形成的训练图像特征向量及其对应分类类标作为SVM分类器的输入，采用线性核SVM分类模型，完成分类模型的参数学习。

测试阶段：步骤5，局部特征抽取：对于待分类图像进行局部特征描述子抽取，采用稠密抽样的策略，通过16像素×16像素网格划分采样，在每个采样点抽取128维灰度SIFT描述子；

步骤6，待分类图像表示：包含特征稀疏编码和图像空间聚合两个子步骤，首先对待分类图像的局部特征进行稀疏编码；然后进行待分类图像的局部特征的编码结果空间聚合操作，以形成整张图像的特征向量，采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量；

步骤1和步骤5中利用16像素×16像素网格划分采样，在每个采样点计算8个方向上的像素梯度信息，最终形成128维的SIFT描述子。SIFT描述子是指D.Lowe提出的尺度不变特征变换局部特征描述算子，具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。

步骤2自调制字典学习流程如图2所示，步骤8是抽取本轮简单样例集合E，从当前复杂样例集H中选取本次迭代的简单样例加入简单样例集E，对于样例x，采取如下形式的打分函数：

l (x, D) \overset{Δ}{=} \min_{α &Element; R^{k}} {| | x - Dα | |}_{2}^{2} + λ {| | α | |}_{1}

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，阈值σ取值范围为(0,+∞)，。如果打分函数值小于某个阈值σ，则认为样例x是简单样例，否则为复杂样例。步骤9是利用固定的字典D对所有训练样例进行稀疏编码，当固定字典D，求带有稀疏性约束的编码系数，可以抽象为如下l₁范式正则化项优化问题：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)；此问题属于凸优化问题，可采用快速特征符搜索法求解，参考文献HonglakLee,Alexis Battle,RajatRaina,and Andrew Y.Ng.Efficient sparse coding algorithms[C]//In Advances inNeural Information Processing Systems19,2007,801-808.步骤10是利用本轮获得的简单样例的稀疏编码系数，更新字典。具体地，对字典的更新，可转化为求解如下二次约束最小均方问题：

\begin{matrix} \min_{D_{new}} {| | X}_{E} - D_{new} A_{E} {| |}_{F}^{2} \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1 j = 1, . . ., k \end{matrix}

其中，D_new表示待更新的字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，X_E表示所有简单样例，A_E表示所有简单样例对应的编码系数，

是矩阵的F-范数，即

步骤11是更新阈值，用以选取下一轮简单样例，为了保证随着迭代的次数增加，越来越多的样例被认为是简单样例，最终将简单样例集扩展为整个数据集，需要逐步放松简单样例的选取标准。采用如下自适应的阈值函数：

σ=π+log(π²+c)t (c≥1)

其中，π表示所有样例的打分函数中值，t表示当前迭代次数，c为常数，取值范围为[1,+∞)。

步骤3与步骤6训练及待分类图像表示包含相同的两个子步骤：特征稀疏编码和图像空间聚合，特征稀疏编码指利用学到的最终字典D_final，对训练及测试的所有图像中抽取的局部特征进行编码，要求编码系数具有稀疏性。具体地，采用下式根据最终字典D_final，对局部特征x_i求解稀疏编码系数α_i：

其中D_final表示最终字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，采用快速特征符搜索法求解；图像空间聚合旨在捕捉图像空间信息，用以获取更具辨识性的图像整体特征描述，以提高最后分类准确度，采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作。总共将图像空间分为三层：level0、level1、level2，每层的划分见附图3，共有21块；最后将所有分块的特征向量串接成整个图像的特征向量，假设获得的码书含K个视觉单词，K取正整数，则图像的特征向量维度为21×K。若用α∈R^K表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到20的整数，则最大值聚合的操作定义为：

步骤4中假设SVM模型的训练图像集I，通过前面的步骤每张训练图像会形成高维且稀疏的特征向量，由于稀疏性的特点，利用线性核SVM分类器就能有效地处理这种特征向量，线性核是指SVM模型中使用线性的核函数，非线性核是指SVM模型中使用非线性核函数，相比于非线性核SVM分类器，线性核SVM分类器计算复杂度更低，这在高维特征情况下优势明显。具体应用时，参数优化可以采用交叉验证的方式，选取合适的参数值。

步骤7中利用线性核SVM分类模型，可以快速预测待分类图像类别。

实施例：

本实施例分为训练阶段和分类阶段，下面分别介绍各实施例部分的主要流程：

训练阶段流程：

1.局部特征抽取：对一组训练图像集I进行局部特征抽取，局部特征描述子能有效的表示图像的局部信息，为形成后续的整体图像描述提供了基础。对于目标识别等任务，SIFT特征具有较好的效果，所以本实施例采用SIFT特征作为图像的局部特征。另外，抽取图像局部特征时，还需要确定取样策略，即稠密取样还是稀疏取样（感兴趣点取样）。这两种取样方式是通过一种图像内取样点的数目来划分的，如果只从一副图像的一些感兴趣点取样，取样点数目比较少，则称之为稀疏取样；如果通过某种策略从图像中广泛抽取取样点，则称之为稠密抽样。从前人的工作来看，稠密取样能获取足够的统计信息，这对图像分类任务来说至关重要，所以采用稠密取样的策略。参见文献E.Nowak,F.Jurie,and B.Triggs.Sampling strategies for bag-of-features image classification[C]//In9thEuropean Conference on Computer Vision,2006,490-503.具体地，我们通过16像素×16像素网格划分采样，进行128维灰度SIFT特征抽取。SIFT特征是指D.Lowe提出的尺度不变特征变换局部特征描述算子，具有对旋转、尺度缩放、亮度变化保持不变性及快速、准确匹配等特点。实际计算过程中,为了增强匹配的稳定性,Lowe建议对每个关键点使用2×2邻域内共16个种子点来描述,即最终形成128维SIFT特征向量。然后将这一组训练图像集I中抽取的所有局部特征存储好，为字典学习提供训练样本。

2.自调制字典学习：

本实施例在局部特征集合中随机取20000个局部特征作为字典学习的训练集。本实施例认为已有字典学习算法都忽视了学习顺序对字典学习算法的影响，合理利用学习顺序将有助于获得更具表示能力的字典。本实施例提出了从简单到复杂的自调制字典学习算法，能自适应地选择简单样例用于字典学习，并迭代更新，最终获得所需的字典。此学习方法是一种非监督学习算法，因此不需要图像的类标信息。此步骤的目的在于尽可能学习尽可能完整表示局部特征空间信息的字典，为后续高层语义的抽取提供基础。

假如给定训练集记为：X=[x₁,...,x_n]∈R^m×n，其中x_i∈R^m表示一个训练样本，m表示局部特征的维度，对于本实施例来说，m=128,n=20000。则字典学习抽象为求解以下联合优化问题：

\begin{matrix} \min_{D, A} \frac{1}{n} Σ_{i = 1}^{n} | | x_{i} - D a_{i} {| |}_{2}^{2} + λ | | a_{i} {| |}_{1} \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1, j = 1, . . ., k \end{matrix}

其中D=[d₁,...,d_k]∈R^m×k表示字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，α_i表示局部特征x_i对应于字典D的编码系数，A表示训练集中所有局部特征对应的编码系数，λ是正则化参数，其取值为(0,+∞)，本实施例中设为0.15；在以上优化问题中，正则化项保证了编码系数α_i的稀疏性，当λ取值过大时，编码系数α_i过于稀疏，当λ取值过小时，编码系数α_i不具备稀疏性。

当同时考虑D和A做优化时，此问题不是凸优化问题。所谓凸优化问题是指目标函数及可行解集合满足数学上的一些约束，此类优化问题存在高效算法求解。已有字典学习算法采取交替优化D和A的策略，将原来的优化问题转化为两个凸优化问题：稀疏编码和字典更新。本实施例引入了从简单到复杂的学习顺序，为了获得第一轮简单样例，需要预先获得一个初始字典D_initial，初始字典D_initial不需要太精确，后续的字典更新操作会逐步学习更好的字典。考虑到计算复杂性和不用太精确的初始字典，我们采用K-means算法在训练集X上迭代5次构建初始字典。K-means算法的具体做法如下：

首先需要确定类别数目K，本实施例取K=1024。随着K的取值增大，分类效果逐步提升，当K超过1024时，分类效果没有明显变化；算法从训练集X中随机选K个样本作为初始聚类中心点。然后迭代以下两步直至收敛或到达指定迭代次数：1）计算每个训练样本到聚类中心的距离，并将训练样本划分到最近聚类中心的类别；2）重新计算每个类别的聚类中心。

获得初始字典后，算法需要确定三个输入参数：正则化参数λ用于控制稀疏编码问题中的正则化项比重；阈值函数参数c用于控制阈值函数的更新幅度；预定义的迭代次数ζ控制算法最大迭代次数。本实施例中采用如下参数设置：正则化参数λ=0.15，阈值函数参数c=1，预定义的迭代次数ζ=20000。然后通过迭代如下步骤学习字典：

步骤21，确定当前简单样例集：从上一步复杂样例集H中选取本次迭代的简单样例加入简单样例集E。为了判断样例的难易程度，需要一种打分函数以及合适的阈值σ，考虑到字典学习问题的优化形式，利用上一步字典D，对于样例x，我们采用如下打分函数：

l (x, D) \overset{Δ}{=} \min_{α &Element; R^{k}} {| | x - Dα | |}_{2}^{2} + λ {| | α | |}_{1}

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，阈值σ取值范围为(0,+∞)，利用阈值σ从复杂样例集H中选取简单样例加入简单样例集E，即对于x_i∈H，如果l(x_i,D)<σ，判定x_i是简单样例，将x_i加入E，否则判定x_i是复杂样例，保留x_i在H中；在完成此步的字典更新后利用本轮训练集的打分函数值更新阈值σ，用于下一轮简单样例的选取。为了保证第一步学习到的字典不会有太大偏差，导致后续字典更新算法的收敛速度过慢，σ的初始值应该使略多于半数的训练样例被选取为简单样例。所以可以借助k-means得到的初始字典D_initial，计算σ的初始值：

σ_initial=π(l(X,D))+δ

其中，l(X,D)=[l(x₁,D),...,l(x_n,D)]，l(x,D)是步骤2中定义的打分函数，δ为大于零的常数。

步骤22，稀疏编码：

采用下式根据字典D对局部特征x_i求解稀疏编码系数α_i：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)；采用快速特征符搜索法求解，假设

要最小化具体计算步骤如下：

步骤221：初始化

对应符号向量激活集合

步骤222：计算偏导其中

表示α_i第j个分量的值，从当前α_i的非零分量中选择偏导项最大的分量项，记为q。如果

则令符号向量ν第q个分量ν^(q)=-1，并把q加入到当前的激活集合S；如果则令符号向量ν第q个分量ν^(q)=1，并把q加入到当前的激活集合S。

步骤223：令

表示D的子矩阵，其只包含当前激活集合S对应的列，

和

分别表示α_i和ν中当前激活集合对应的项构成的子向量。计算下式：

{\hat{α}}_{i}^{new} = {({\hat{D}}^{T} \hat{D})}^{- 1} ({\hat{D}}^{T} x_{i} - λ \hat{v} / 2)

其中

表示

的转置，然后通过离散线搜索方式检查从

到

线段上所有对应符号向量有变化的点上的目标函数(x_i)的值以及

更新为这些点中具有最低目标函数值的点。从激活集合S中移除

的零分量项，更新符号向量

其中sign(·)为取符号函数。

步骤224：检查非零分量最优化条件：如果有α_i的非零分量

不满足

则继续执行步骤223，否则检查零分量最优条件：如果有α_i的非零分量

不满足则继续执行步骤222，否则返回α_i作为最优解。

此方法能有效解决如上l₁范式优化问题。值得注意的是需要对整个训练集的所有局部特征求解稀疏编码系数。

\begin{matrix} \min_{D_{new}} {| | X}_{E} - D_{new} A_{E} {| |}_{F}^{2} \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1 j = 1, . . ., k \end{matrix}

其中，D_new表示待更新的字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，m是局部特征的维度，k是字典的大小，X_E表示所有简单样例，A_E表示所有简单样例对应的编码系数，是矩阵的F-范数，即

具体求解如下：

首先计算拉格朗日项：

L (D, \overset{&RightArrow;}{θ}) = trace ({(X_{E} - {DA}_{E})}^{T} (X_{E} - {DA}_{E})) + Σ_{j = 1}^{k} θ_{j} (Σ_{i = 1}^{m} d_{i, j}^{2} - 1)

其中

是拉格朗日项，θ_j是一个对偶变量，通过最小化字典D，可获得如下对偶函数：

P (\overset{&RightArrow;}{θ}) = \min_{D} L (D, \overset{&RightArrow;}{θ}) = trace (X^{T} X - X {A_{E}}^{T} {(A_{E} A_{E}^{T} + Λ)}^{- 1} (X A_{E}^{T}) - Λ)

其中

是对偶函数，

是对偶变量向量，

即由

的元素构成的对角矩阵。通过求对

的偏导，可以最大化

然后通过计算下式获取新的字典：

D_{new}^{T} = {(A_{E} A_{E}^{T} + Λ)}^{- 1} {(X A_{E}^{T})}^{T},

其中分别表示A_E和D_new的转置。

步骤24，阈值更新：为了保证随着迭代的次数增加，越来越多的样例被认为是简单样例，最终将简单样例集扩展为整个数据集，需要逐步放松简单样例的选取标准。我们采用如下自适应的阈值函数：

σ=π+log(π²+c)t (c≥1)

其中，π表示所有样例的打分函数中值，t表示当前迭代次数，c为常数，取c=1。显然σ是迭代次数t的单调递增函数，并且与本轮所有训练样例的打分函数值中值相关，具有自适应性。另外，参数c可以方便地调节阈值更新的幅度，从而控制简单样例的选取，当c取值过大时，将一次选取过多简单样例，导致自调制学习和普通字典学习差异不大，当c取值过小时，每次迭代更新不明显，迭代次数增加。

如果字典收敛或者达到预先定义的迭代次数ζ，则停止学习；否则进入下一轮迭代。ζ取20000，当ζ取值过大时，则算法计算效率降低且分类精度不会提高，当ζ取值过小时，则算法还没收敛就停止，学习过程不充分。字典收敛的判断标准是所有训练样例都被认为是简单样例且优化问题的目标函数值变化小于规定的正实数ε，若令Δ_f表示网络整体变化，则

当Δ_f小于一定阈值ε时，便认为字典收敛。其中n表示训练集中训练样本的个数，l(x_i,D_t)表示第t次迭代时特征x_i的打分函数值，l(x_i,D_t+1)表示第t+1次迭代时特征x_i的打分函数值。

3.训练图像表示：

首先利用学到的最终字典D_final，对训练图像集I中每副图像I_r抽取的局部特征进行编码，要求编码系数具有稀疏性。采用下式根据最终字典D_final对局部特征x_i求解稀疏编码系数α_i：

其中D_final表示最终字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，采用快速特征符搜索法求解。然后进行图像空间聚合操作，有效的利用图像空间信息，能增强图像整体描述的辨识力，进而提高分类效果。图像空间聚合旨在捕捉图像空间信息，用以获取更具辨识性的图像整体特征描述：本实施例采用分层分块的重叠金字塔空间划分，如图3所示，总共将图像空间分为三层：level0、level1、level2；level0不分块，表示整张图像的信息，level1共分为4块，level2分为更精细的16个块，三层共21块。对于其中的每一块，需要进行特征信息统计。由于采用稀疏编码，选用最大值聚合操作更能捕捉稀疏信息，形成合适的图像区域描述。最后将所有分块的特征向量串接成整个图像的特征描述，假设确定字典大小为K，则图像的特征向量维度为21×K。本实施例中默认设置K=1024。若用α∈R^K表示特征编码结果，y_m表示空间上属于第m块的特征，m取值为0到20的整数，则最大值聚合的操作定义为：for j=1,...K.，其中h_m,j表示第m块空间聚合操作的结果向量在第j个维度的分量值。所以训练图像I_r形成了一个特定的直方图特征向量

，这是高维稀疏的特征向量

4.分类模型学习：由于

稀疏性的特点，利用线性核SVM分类器就能有效地处理这种特征向量，另外，相比于非线性核SVM分类器，线性核SVM分类器计算复杂度更低，这在高维特征情况下优势明显。具体应用时，参数优化可以采用交叉验证的方式，选取合适的参数值。这里的参数就是指SVM库中标准模型的参数。

5.局部特征抽取：对待分类图像I_o抽取局部特征，和训练图像局部特征抽取方式相同，通过16像素×16像素网格划分采样，每个关键点使用2×2邻域内共16个种子点来描述,最终形成128维灰度SIFT特征向量，从I_o可以得到多个局部特征向量。

6.待分类图像表示：和训练图像表示方法相同，包含特征稀疏编码和图像空间聚合两个子步骤。首先利用学到的最终字典D_final，对待分类图像中抽取的局部特征进行编码，采用下式根据最终字典D_final对局部特征x_i求解稀疏编码系数α_i：

其中D_final表示最终字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，采用快速特征符搜索法求解。然后进行图像空间聚合操作，采用分层分块的重叠金字塔空间划分，总共将图像空间分为三层：level0、level1、level2；level0不分块，表示整张图像的信息，level1共分为4块，level2分为更精细的16个块，三层共21块。对于其中的每一块，选用最大值聚合操作，形成合适的图像区域描述。最后将所有分块的特征向量串接成整个图像的特征描述，假设确定字典大小为K，则图像的特征向量维度为21×K。本实施例中取K=1024。所以训练图像I_r形成了一个特定的直方图特征向量

7.模型预测：将作为训练阶段中的线性核SVM分类模型的输入，通过计算预测待分类图像类别。

本发明提供了一种自调制字典学习的图像分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于自调制字典学习的图像分类方法，其特征在于，包括训练阶段和分类阶段：

训练阶段包括：

步骤1，局部特征抽取：对于训练图像集中的每一幅训练图像进行局部特征描述子抽取生成训练图像集的局部特征集合；训练图像是带有类标的图像，类标用于标记图像所属类别；

步骤2，自调制字典学习：在局部特征集合中随机抽取部分局部特征作为训练集，训练集分为简单样例集E和复杂样例集H；反复迭代：当前简单样例集确定、稀疏编码、字典更新、以及阈值更新四个步骤完成字典学习，生成字典D；

步骤3，训练图像表示：包含特征稀疏编码和图像空间聚合步骤；

步骤4，分类模型学习：将步骤3中得到的训练图像特征向量及其对应分类类标作为线性核SVM分类器的输入完成分类模型的参数学习，得到SVM分类模型；

分类阶段包括：

步骤5，局部特征抽取：对于待分类图像进行局部特征描述子抽取生成待分类图像的局部特征集合；

步骤6，待分类图像表示：首先对待分类图像的局部特征进行稀疏编码：采用下式根据字典D，对局部特征x_i求解稀疏编码系数α_i：

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)；

然后进行待分类图像的局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量；

步骤7，模型预测，将步骤6中形成的待分类图像特征向量输入步骤4中学习得到的SVM分类模型，从而完成图像的分类。

2.根据权利要求1所述的一种基于自调制字典学习的图像分类方法，其特征在于，步骤2自调制字典学习具体包括如下步骤：

\begin{matrix} \min_{D, A} \frac{1}{n} Σ_{i = 1}^{n} | | x_{i} - D a_{i} {| |}_{2}^{2} + λ | | a_{i} {| |}_{1}, \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1, j = 1, . . ., k, \end{matrix}

其中D=[d₁,...,d_k]∈R^m×k表示字典，s.t.表示优化函数的约束，d_j∈R^m是字典的第j个基项，k表示字典的字典项个数；α_i表示局部特征x_i对应于字典D的编码系数，A表示训练集X中所有局部特征对应的编码系数，λ是正则化参数，其取值为(0,+∞)；

初始化简单样例集E为空集，复杂样例集H为整个训练集X；

反复迭代步骤21～步骤24，直至字典收敛或达到指定的迭代次数：

步骤21，当前简单样例集确定：设置打分函数l(x,D)以及阈值σ；

l (x, D) \overset{Δ}{=} \min_{α &Element; R^{k}} {| | x - Dα | |}_{2}^{2} + λ {| | α | |}_{1},

其中D表示字典，α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)，阈值σ取值范围为(0,+∞)，根据阈值σ从复杂样例集H中选取简单样例加入简单样例集E，即对于x_i∈H，如果l(x_i,D)<σ，判定x_i是简单样例，将x_i加入E，否则判定x_i是复杂样例，保留x_i在H中；

步骤23，字典更新：固定此次迭代中简单样例集E中所有样例的稀疏编码系数A_E，然后求解带二次约束的最小均方问题：

\begin{matrix} \min_{D_{new}} {| | X}_{E} - D_{new} A_{E} {| |}_{F}^{2}, \\ s . t . | | d_{j} {| |}_{2}^{2} \leq 1 j = 1, . . ., k, \end{matrix}

其中，D_new表示待更新的字典，s.t.表示优化函数的约束，d_j是字典的第j个基项，X_E表示所有简单样例，A_E表示所有简单样例对应的编码系数，

是矩阵的F-范数，即

{| | A | |}_{F}^{2} = trace (A * A);

步骤24，阈值更新：采用如下自适应的阈值函数进行阈值更新：

σ=π+log(π²+c)t,c≥1

3.根据权利要求2所述的一种基于自调制字典学习的图像分类方法，其特征在于，步骤3训练图像表示包括：首先对训练图像的局部特征进行稀疏编码：采用下式根据字典D，对局部特征x_i求解稀疏编码系数α_i：

其中α_i表示局部特征x_i对应于字典D的编码系数，λ是正则化参数，其取值为(0,+∞)；

然后进行训练图像的局部特征的编码结果空间聚合：采用分层分块的金字塔空间划分，对于每一块进行最大值聚合操作，最后将所有分块的特征向量串接成整个图像的特征向量。

4.根据权利要求1所述的一种基于自调制字典学习的图像分类方法，其特征在于，步骤1和步骤5中，进行局部特征描述子抽取采用稠密抽样的策略，通过网格划分采样，进行SIFT描述子抽取。

5.根据权利要求1所述的一种基于自调制字典学习的图像分类方法，其特征在于，步骤3中和步骤6中，采用快速特征符搜索法对局部特征x_i求解稀疏编码系数α_i。

6.根据权利要求2所述的一种基于自调制字典学习的图像分类方法，其特征在于，步骤23中，利用牛顿法解决带二次约束的最小均方问题。