CN102208038B

CN102208038B - 基于视觉词典的图像分类方法

Info

Publication number: CN102208038B
Application number: CN 201110175101
Authority: CN
Inventors: 覃征; 纪磊; 李环
Original assignee: Tsinghua University; Dongguan University of Technology
Current assignee: Tsinghua University; Dongguan University of Technology
Priority date: 2011-06-27
Filing date: 2011-06-27
Publication date: 2012-12-26
Anticipated expiration: 2031-06-27
Also published as: CN102208038A

Abstract

本发明公开了一种基于视觉词典的图像分类方法，涉及数字图像处理技术领域，包括以下步骤：S1：抽取训练图像数据集的联合局部特征；S2：通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典；S3：根据所述视觉词典生成图像的特征表示，以建立图像分类器；S4：根据所述图像分类器分类所述训练图像数据集中的图像。本发明能够获得最具区分度的视觉词典，从而使分类方法对图像数据集的样本空间分布具有自适应性，可以抵抗各种仿射变换和光照变化，对于局部异常、噪声干扰、以及复杂背景具有更好的鲁棒性，而且具有很强的通用性，可以用于各种类型的图像分类，因而具有较高的实用价值。

Description

基于视觉词典的图像分类方法

技术领域

本发明涉及数字图像处理技术领域，特别涉及一种基于视觉词典的图像分类方法。

背景技术

图像分类是对图像中的目标判定类别，从而将图像进行归类。目前，图像分类技术已经成为了人工智能和模式识别中的重要研究方向，在军事目标识别、遥感和医学图像识别、OCR、生物特征识别、票据识别、智能交通等领域中得到了应用。

从技术上来说，基于内容的图像分类主要是利用图像的低层局部特征和高层语义特征，建立基于特征的向量表示，从而将其转化为人工智能领域的监督学习问题。在实际使用中，图像分类的难点在于目标由于不同程度的遮挡、观察视角不同、光照条件变化、仿射变换以及同类目标之间的差异性，造成分类失败。

目前，基于局部区域特征提取算子（如：Harris-Affine、MSER、SIFT等）的图像分类识别方法在仿射变换、光照变化、遮挡等条件下都被证明可以取得较好的分类效果。该方法从图像中抽取局部关键区域，并用仿射不变性描述算子建立这些区域的特征向量，然后通过向量矢量化方法建立视觉词典（Visual Code Book），并将图像用基于该视觉词典的频率直方图表示，最终建立分类模型实现对目标识别。常用的向量矢量化方法是k-means（一种硬聚类算法），但该算法一般假设数据集是一个混合正态分布，在迭代过程中容易在样本点分布密集的地方陷入局部极值，而且还必须事先确定聚类个数，初始点不同可能结果也不一样，一个远离中心点的样本点可能会使中心点产生较大偏离，而且计算复杂度较高，在实际使用中无法得到最具区分度的视觉词典。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是：如何得到最具区分度的视觉词典，并根据该视觉词典进行图像分类。

（二）技术方案

为解决上述技术问题，本发明提供了一种基于视觉词典的图像分类方法，包括以下步骤：

S1：抽取训练图像数据集的联合局部特征；

S2：通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典；

S3：根据所述视觉词典生成图像的特征表示，以建立图像分类器；

S4：根据所述图像分类器分类所述训练图像数据集中的图像。

其中，所述步骤S1具体包括：

S1.1：利用Harris-Affine算子或提取训练图像数据集的局部区域集合H＝{h}；

S1.2：利用MSER算子提取训练图像数据集的局部区域集合E＝{e}；

S1.3：利用SIFT算子提取训练图像数据集的特征点集合为Q={q}；

S1.4：根据S1.1～S1.3得到所述联合局部特征为：

U = {u | u &Element; Qand (u &Subset; H or u &Subset; E)} .

其中，所述步骤S1.1具体包括：

Harris-Affine利用公式（1）所示的图像二阶自相关矩阵的特征值度量判断角点：

M = μ (s, σ_{I}, σ_{D}) = σ_{D}^{2} g (σ_{I}) &CircleTimes; [\begin{matrix} L_{x}^{2} (s, σ_{D}) & L_{x} L_{y} (s, σ_{D}) \\ L_{x} L_{y} (s, σ_{D}) & L_{y}^{2} (s, σ_{D}) \end{matrix}] - - - (1)

其中，s是图像矩阵，g()是高斯核函数，σ_I是协同尺度，σ_D是差分尺度，

P_x(s)表示图像矩阵s在x方向的偏导数，即L_x(s，σ_D)是图像矩阵s在x方向上的偏导数与差分尺度σ_D的高斯卷积，同理L_y(s，σ_D)是图像s在y方向上的偏导数与差分尺度σ_D的高斯卷积，

是图像s分别在x方向上和y方向上的二阶导数与差分尺度σ_D的高斯卷积，L_xL_y是图像s在x方向和y方向上分别求导所得的二阶导数与差分尺度σ_D的高斯卷；

其特征值度量如公式（2）所示：

cornerness＝det(μ(s，σ_I，σ_D))-κtrace²(μ(s，σ_I，σ_D)) （2）

其中，κ为常数；det表示矩阵的行列式值和trace表示矩阵的迹；

利用高斯-拉普拉斯LoG度量以自动选择特征尺度，LoG如公式（3）所示：

det(LoG(s，σ))＝σ²det(L_xx(s，σ)+L_yy(s，σ)) （3）

其中L_xx和L_yy是图像s分别在x方向上和y方向上的二阶导数与特征尺度σ的高斯卷积，其中特征尺度σ为协同尺度σ_I或差分尺度σ_D；

用所述特征尺度的协方差矩阵对仿射变换进行规范化，转化公式（1）的M到LoG能够处理的范围，如式（4）所示：

M＝μ(s，∑_I，∑_D)＝det(∑_D)g(∑_I)×(▽L(s，∑_D)▽L(s，∑_D)^T) （4）

其中∑_I，∑_D分别是协同尺度σ_I和差分尺度σ_D的协方差矩阵，▽L()表示求解图像矩阵s的二阶差分矩阵；

通过以上步骤，确定角点位置，并计算规范化仿射变换之后的特征尺度，Harris-Affine算子得到局部区域集合H＝{h}。

其中，所述步骤S1.2具体包括：

对所述训练图像数据集中的图像按灰度值大小对像素排序；

按所述排序将像素逐渐添加到空白图像，并记录相应连通成分及其面积函数，所述面积函数为灰度值的函数；

根据所述面积函数变化率的局部极小值确定MSER，最终得到局部区域集合E＝{e}。

其中，所述步骤S1.3具体包括：

使用高斯差分算子DoG来确定特征尺度，DoG定义如（5）所示：

DoG(s，σ)＝L(s，kσ)+L(s，k) （5）

其中σ是特征尺度，k为常数，L是尺度空间函数，用于在各个尺度上对图像进行平滑，从而建立DoG金字塔尺度空间，得到各个尺度上的平滑图像后，SIFT算子将每个点与相邻的8个点以及上下层各9个点相比较，通过计算该点是否是极大值或极小值点来判断是否为特征点，同时利用梯度方向来判断该点的主方向，SIFT算子得到的特征点集合记为Q={q}。

其中，所述步骤S2具体包括：

对于步骤S1得到的d维图像局部特征向量空间，均值移动算法利用核函数处理不同的样本空间分布，并自动查找样本空间中的概率密度极值点，迭代过程如式（6）所示：

b_{j + 1} = \frac{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i}) a_{i}}{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i})} - - - (6)

其中，a_i和b_j是d维图像局部特征向量空间的样本点，G()是单位高斯核函数，w(a_i)表示样本点a_i的权重系数，n表示样本空间的样本点总数；

迭代步骤包括：

S2.1：查找与b_j的距离小于r的相邻点集合，具体查找方式为：

对d维欧式空间X进行T次切分，每次切分需要随机选定Z维，建立不等式，并用布尔向量记录切分得到的子空间，如在随机选定的某一维d_z上，取一个随机值v_z，这个值在整个样本空间第d_z维的值域范围之内，根据式（7）来对样本点a_i进行切分：

a_{i, d_{z}} \leq v_{z}, i = 1,2, . . ., n - - - (7)

表示第i个样本点a_i的第d_z维向量的值，

利用哈希函数，使得切分中同一子空间中的样本点属于同一个哈希槽，每个样本点将属于T个哈希槽，寻找样本点b_j的最近邻，只需根据T组公式（7）计算T次b_j对应的布尔向量及对应的T个哈希槽C_t，则它们的并集

即为所求；

S2.2：根据式（6）计算其移动均值b_j+1，并作为新的起始点；

S2.3：若‖b_j+1-b_j‖＜ε，则循环结束，否则继续执行步骤S2.1，ε为容许误差；

S2.4：令聚类中心点为视觉单词，并根据每个聚类中心点包含的样本数量以及它们之间的距离进行一些合并，最终形成视觉词典。

其中，步骤S3具体包括：

通过对每个图像统计所包含视觉单词的分布直方图，将图像转化为模式识别方法可以处理的数据集，即具有相同维度的特征向量集合；

利用SVM、贝叶斯等分类算法对其进行训练和分类，并在训练过程中进行特征权重计算，选择最有效的特征。

（三）有益效果

本发明通过抽取训练图像数据集的联合局部特征，及基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化得到了最具区分度的视觉词典，从而使本发明的分类方法对图像数据集的样本空间分布具有自适应性，可以抵抗各种仿射变换和光照变化，对于局部异常、噪声干扰、以及复杂背景具有更好的鲁棒性，而且具有很强的通用性，可以用于各种类型的图像分类，因而具有较高的实用价值。

附图说明

图1是本发明实施例的一种基于视觉词典的图像分类方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明的基于视觉词典的图像分类方法包括：

步骤S101，抽取训练图像数据集的联合局部特征。图像的局部区域是具有足够表达能力，又不失鲁棒性的一种特征描述方法。局部特征的提取主要包括特征点的检测、局部区域的选择和归一化，局部特征描述和匹配。

Harris-Affine算子利用如式（1）所示的图像二阶自相关矩阵的特征值度量判断角点：

M = μ (s, σ_{I}, σ_{D}) = σ_{D}^{2} g (σ_{I}) &CircleTimes; [\begin{matrix} L_{x}^{2} (s, σ_{D}) & L_{x} L_{y} (s, σ_{D}) \\ L_{x} L_{y} (s, σ_{D}) & L_{y}^{2} (s, σ_{D}) \end{matrix}] - - - (1)

和L_xL_y是对应方向上的二阶导数的高斯卷积。

其特征值度量如式（2）所示：

cornerness＝det(μ(s，σ_I，σ_D))-κtrace²(μ(s，σ_I，σ_D)) （2）

其中，κ是一个常数，det表示矩阵的行列式值和trace表示矩阵的迹。

为了实现缩放尺度不变性，需要利用高斯-拉普拉斯（Laplacian-of-Gaussian，LoG）度量来自动选择特征尺度，如式（3）所示：

det(LoG(s，σ))＝σ²det(L_xx(s，σ)+L_yy(s，σ)) （3）

其中L_xx和L_yy是对应方向上的二阶导数的高斯卷积，其中特征尺度σ为协同尺度σ_I或差分尺度σ_D。

最后，为了适应各项异性情况，需要修改式(1)，用尺度的协方差矩阵对仿射变换进行规范化，转化M到LoG能够处理的范围，如式（4）所示：

其中∑_I，∑_D分别是协同尺度和差分尺度的协方差矩阵，▽L()表示求解图像矩阵s的二阶差分矩阵。

MSER算子也称最大稳定性极值区域检测算子，其中极值区域指的是灰度值大于或小于其边界上的点，且内部点的灰度值均大于或小于阈值k的一个连通区域；而最大稳定性极值区域是指一系列嵌套的极值区域中面积变化率极小的区域。

MSER算子的主要步骤是：

（1）按灰度值大小对像素排序；

（2）按序将像素逐渐添加到空白图像，并记录相应连通成分及其面积（灰度值的函数）；

（3）根据面积函数变化率的局部极小值确定MSER，最终得到局部区域集合E＝{e}。

使用高斯差分算子DoG来确定特征尺度，DoG可以近似表示LoG，但计算量比LoG小。DoG定义如（5）所示：

DoG(s，σ)＝L(s，kσ)+L(s，k) （5）

其中σ是特征尺度，k是常数，L是尺度空间函数，用于在各个尺度上对图像进行平滑，从而建立DoG金字塔尺度空间，得到各个尺度上的平滑图像后，SIFT算子将每个点与相邻的8个点以及上下层各9个点相比较，通过计算该点是否是极大值或极小值点来判断是否为特征点，同时利用梯度方向来判断该点的主方向，SIFT算子得到的特征点集合记为Q={q}。

Harris-Affine算子和MSER算子提取出来的都是一个局部区域，面积一般较大且数量一般较少；SIFT通过（Difference of Gaussian，DoG）提取出来的特征点一般数量较多但代表的区域面积较小。一般局部区域面积越大，其区分度就越高，识别的准确度也越高，但该特征的可重复性就降低了，因此本发明中使用了联合局部特征，充分利用各种算子的优点，避免其不足，从而提高识别的效率。

Harris-Affine算子提取出来的局部区域集合为H＝{h}，MSER算子提取出来的局部区域集合为E＝{e}，SIFT提取出来的特征点集合为Q={q}，则联合特征可以由式来定义：

U = {u | u &Element; Qand (u &Subset; H or u &Subset; E)}

联合局部特征是用局部区域筛选SIFT特征点得到的,它综合考虑了区分度和可重复性。

步骤S102，通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典。

视觉词典是由具有代表性的局部区域构成的，一般是利用k-means算法，以k个聚类中心点作为视觉单词。但k-means算法具有容易陷入局部极值、不稳定、不鲁棒、必须预先确定k、复杂度高等缺陷，因此，本发明提出了基于均值移动的视觉词典形成算法。

均值移动算法利用核函数处理不同的样本空间分布，并自动寻找样本空间中的概率密度极值点。迭代过程如式（6）所示：

b_{j + 1} = \frac{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i}) a_{i}}{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i})} - - - (6)

a_i和b_j是d维图像局部特征向量空间的样本点，给定初始样本点b_j，容许误差ε，单位高斯核函数G()，w(a_i)表示样本点a_i的权重系数，n表示样本空间的样本点总数，则均值移动算法将循环执行以下三步：

（1）寻找与b_j的距离小于r的相邻点集合；

（2）根据式（6）计算其移动均值b_j+1，作为新的起始点；

（3）若‖b_j+1-b_j‖＜ε，则循环结束，否则继续执行第（1）步。

均值移动算法在大规模高维数据集上应用的主要瓶颈就在于迭代过程的第一步，原始的Mean-Shift算法将扫描整个样本空间中的n个样本点，来判断它的核函数是否覆盖b_j。为了改进最近邻查询，本发明的改进策略是基于区域哈希方法。

对d维欧式空间X进行T次切分，每次切分需要随机选定Z维，建立不等式，并用布尔向量记录切分得到的子空间。如在随机选定的某一维d_z上，取一个随机值v_z，这个值在整个样本空间第d_z维的值域范围之内。然后就可以根据公式（7）来对样本点a_i进行切分：

a_{i, d_{z}} \leq v_{z}, i = 1,2, . . ., n - - - (7)

表示第i个样本点a_i的第d_z维向量的值。利用哈希函数，使得某次切分中同一子空间中的样本点属于同一个哈希槽，因此每个样本点将属于T个哈希槽。寻找样本点b_j的最近邻，只需根据T组式(7)计算T次b_j对应的布尔向量及对应的T个哈希槽C_t，则它们的并集即为所求。

步骤S103，根据所述视觉词典生成图像的特征表示，以建立图像分类器。在得到视觉词典后，将通过对每个图像统计所包含视觉单词的分布直方图将其转化为模式识别方法可以处理的数据集，即具有相同维度的特征向量集合。然后利用SVM、贝叶斯等分类算法对其进行训练和分类，并在训练过程中进行特征权重计算，选择最有效的特征，也就是视觉单词进行处理。

步骤S104，根据所述，在训练图像数据集上训练好图像分类器后，利用该分类器对测试图像数据集中的图像进行分类。

下面以一个例子来具体说明本发明。对于从ukbench(http://vis.uky.edu/～stewe/ukbench)图像数据集中选取的25类一共100张图像，抽取了68749个联合局部特征，并用128维的SIFT描述算子对其进行描述。然后用基于均值移动的聚类算法的形成视觉词典，得到100张图像的特征表示，并将其按照3:1的比例切分为训练集和测试集，用SVM算法进行分类。最终聚类时间是794s，分类准确度为84%。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于视觉词典的图像分类方法，其特征在于，包括以下步骤：

S1：抽取训练图像数据集的联合局部特征；具体包括：

S1.1：利用Harris-Affine算子提取训练图像数据集的局部区域集合H＝{h}；

S1.3：利用SIFT算子提取训练图像数据集的特征点集合为Q={q}；

S1.4：根据S1.1～S1.3得到所述联合局部特征为：

U = {u | u &Element; Qand (u &Subset; H or u &Subset; E)};

S2：通过基于移动均值和区域哈希法的聚类算法对所述联合局部特征进行向量矢量化，从而选择聚类中心个数，以形成视觉词典；具体包括：

b_{j + 1} = \frac{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i}) a_{i}}{Σ_{i = 1}^{n} G (\frac{a_{i} - b_{j}}{r}) w (a_{i})} - - - (6)

迭代步骤包括：

对d维欧式空间X进行T次切分，每次切分需要随机选定Z维，建立不等式，并用布尔向量记录切分得到的子空间，在随机选定的某一维d_z上，取一个随机值v_z，这个值在整个样本空间第d_z维的值域范围之内，根据式（7）来对样本点a_i进行切分：

a_{i, d_{z}} \leq v_{z}, i = 1,2, . . ., n - - - (7)

表示第i个样本点a_i的第d_z维向量的值，

利用哈希函数，使得切分中同一子空间中的样本点属于同一个哈希槽，每个样本点将属于T个哈希槽，寻找样本点b_j的最近邻，只需根据T组公式（7）计算T次b_j对应的布尔向量及对应的T个哈希槽C_t，则它们的并集即为所求；

S2.2：根据式（6）计算其移动均值b_j+1，并作为新的起始点；

S2.4：令聚类中心点为视觉单词，并根据每个聚类中心点包含的样本数量以及它们之间的距离进行一些合并，最终形成视觉词典；

2.如权利要求1所述的基于视觉词典的图像分类方法，其特征在于，所述步骤S1.1具体包括：

M = μ (s, σ_{I}, σ_{D}) = σ_{D}^{2} g (σ_{I}) &CircleTimes; [\begin{matrix} L_{x}^{2} (s, σ_{D}) & L_{x} L_{y} (s, σ_{D}) \\ L_{x} L_{y} (s, σ_{D}) & L_{y}^{2} (s, σ_{D}) \end{matrix}] - - - (1)

是图像s分别在x方向上和y方向上的二阶导数与差分尺度σ_D的高斯卷积，L_xL_y是图像s在x方向和y方向上分别求导所得的二阶导数与差分尺度σ_D的高斯卷积；

其特征值度量如公式（2）所示：

cornerness＝det(μ(s，σ_I，σ_D))-κtrace²(μ(s，σ_I，σ_D)) （2）

det(LoG(s，σ))＝σ²det(L_xx(s，σ)+L_yy(s，σ)) （3）

3.如权利要求1所述的基于视觉词典的图像分类方法，其特征在于，所述步骤S1.2具体包括：

对所述训练图像数据集中的图像按灰度值大小对像素排序；

4.如权利要求2所述的基于视觉词典的图像分类方法，其特征在于，所述步骤S1.3具体包括：

使用高斯差分算子DoG来确定特征尺度，DoG定义如（5）所示：

DoG(s，σ)＝L(s，kσ)+L(s，k) （5）

5.如权利要求1所述的基于视觉词典的图像分类方法，其特征在于，步骤S3具体包括：

利用SVM或贝叶斯分类算法对其进行训练和分类，并在训练过程中进行特征权重计算，选择最有效的特征。