CN102609718B

CN102609718B - 一种结合不同聚类算法生成视觉字典集体的方法

Info

Publication number: CN102609718B
Application number: CN201210010635.0A
Authority: CN
Inventors: 罗会兰; 刘发升; 胡春安
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2012-01-15
Filing date: 2012-01-15
Publication date: 2015-04-08
Anticipated expiration: 2032-01-15
Also published as: CN102609718A

Abstract

本发明公开了一种视觉字典集体生成方法，涉及模式识别、计算机视觉、图像理解技术领域。为了达到捕获自然物体类的不同数据结构及探测不同形状和大小簇的目的，需要一个构架来综合多个聚类算法的输出，通过在同一训练图像集的局部视觉描述子集合上运行不同的聚类算法，得到一个视觉字典集体。基于视觉字典集体上，得到同一图像的不同量化矢量。在同一训练图像集的不同表达矢量集上学习得到一个分类器集体。视觉字典集体的构建是非监督式的，成员视觉字典可以使用不同的聚类算法独立并行地构建。实验结果表明本发明能显著提高单一视觉字典的性能，对于背景噪声具有鲁棒性，识别效果好。

Description

一种结合不同聚类算法生成视觉字典集体的方法

技术领域

本发明属于模式识别、计算机视觉、图像理解技术领域，具体涉及基于视觉字典的图像分类方法。

背景技术

当前图像分类的流行方法是“bag-of-words”模型。尽管“bag-of-words”模型没有显式形状模型化，学习到的模型对于形状不规则的物体或者高度结构化的物体类都是有效的。在检测到独立显著性区域块且为这些独立块计算描述子(也就是特征表示)后，通过对特定训练图像集的描述子进行聚类得到一个视觉字典，然后图像基于视觉字典量化后输入传统分类器得到分类结果。当前图像分类方法的学习监督程度普遍比较强，有的要求将图像预先分割，有的要求对目标物体的矩形定位，有的要求对图像给予类标签。监督样本的获取代价非常大，这就意味着不可能获取很多的样本，也不可能所有类的样本都能获取到，这就限制了学习的性能和学习的广度。最近，许多基于“bag-of-words”模型的方法致力于融合多种特征来得到性能提升，结合多个特征的流行趋势是使用多核学习方法，但从时间复杂性角度来说，多核学习方法不能并行学习多个特征。

本发明通过生成能表达物体多方面信息的视觉字典集体来识别物体，相对于基于单个视觉字典的图像识别方法，本方法具有鲁棒性较强、实践简单和平均效果好等优势。本发明将图像中包含的多种信息分散在基于各个视觉字典的表达中，从而并行生成一个分类器集体，降低了求解的复杂度，能够有效提高计算效率、减少计算资源的消耗，快速准确的识别物体。

发明内容

为了解决传统物体识别中存在的模型过于复杂，监督程度过强和鲁棒性差的问题，本发明提供了一种结合不同聚类算法生成视觉字典集体的方法，利用视觉字典来并行利用图像中存在的多种信息识别物体。

在聚类集成方法中，利用不同的聚类算法来生成一个聚类集体是一种能捕获不同形状簇的集成技术。为了捕获自然物体类的不同数据结构，不同的聚类算法用来构造视觉字典集体。不管一种聚类算法用的是哪种聚类准则（目标函数），都不能探测到不同形状和大小的簇，这是聚类算法的固有局限性。为了达到探测到不同形状和大小簇的目的，需要一个构架来综合多个聚类算法的输出，这相当于应用了多个不同聚类准则到同一数据上。本发明是一种能有效融合来自于不同聚类算法的多个不同信息特征的方法，它应用不同的聚类算法到显著性区域集上生成不同的成员视觉字典，过程描述如下：

（1）用显著性区域检测子提取训练图像的显著性区域，然后用描述子描述提取出来的显著性区域；

（2）随机选择一部分描述好的显著性区域；

（3）在其上运行不同聚类算法得到一个成员视觉字典，通过用不同的聚类算法构造视觉字典，捕获自然物体类的不同数据结构；

（4）重复步骤2到步骤3，生成预设大小的视觉字典集体。

通过在同一训练图像集的局部视觉描述子集合上运行不同的聚类算法，可以得到一个视觉字典集体。视觉字典集体的构建是非监督式的，视觉字典集体的差异性来自于不同的聚类算法。本方法很容易并行化，成员视觉字典可以使用不同的聚类算法独立并行地构建。

在生成视觉字典集体后，基于每个成员视觉字典可以得到不同的量化训练数据集。在融合了不同信息的量化训练数据集上训练不同的分类器，可以得到一个分类器集体，每个成员分类器根据不同方面的特征为物体建立模型。通过构建差异视觉字典集体，得到具有高差异性的分类器集体，具有高差异性的集体能有效减少建立一个准确模型所需要的监督程度。基于生成的视觉字典集体学习分类器集体的具体步骤如下：

步骤1. 生成视觉字典集体，每个成员视觉字典融合了自然物体类的不同数据结构；

步骤2. 基于一个成员视觉字典，对训练图像集进行量化；

步骤3. 在量化后的训练图像集上学习一个分类器；

步骤4. 重复步骤2到步骤3，生成预设大小的分类器集体。

成员视觉字典和对应的成员分类器是独立的，可以并行训练。基于视觉字典集体的分类器集体形成后，分类一个新的测试图像时，同样也包括显著性区域的提取和描述、图像的量化以及应用学到的模型到量化矢量的过程，最后集成分类器集体的分类结果，输出集成结果用于分类图像，具体的步骤如下：

步骤1. 对新图像检测出显著性区域，并利用描述子描述这些显著性区域；

步骤2. 基于一个对应成员视觉字典，对新图像进行量化；

步骤3. 使用对应成员分类器分类新图像，得到分类结果；

步骤4. 重复步骤2到步骤3，直到每个成员分类器得到了自己的分类结果；

步骤5. 利用集成技术集成成员分类器的分类结果得到最终物体类标签。

本发明能抓住图像的不同特征信息，得到的集体差异性高，从而识别效果好。实验结果表明本发明能产生显著的性能提升，具有比较强的鲁棒性，分类效果好。本发明具有在不同领域数据集上的平均性能更好，鲁棒性强的优点，且模型简单，非常适用于一般操作者，不需要复杂参数的调整，监督程度低，且对训练数据的要求低。利用集成学习固有的并行性，可以在多个处理器上利用少量训练数据并行学习，所以本发明的效率也相对较高。

具体实施方式

本发明优选的具体实施例：

使用Harris-Laplace 显著性区域检测子检测图像的显著性区域，用C-SFIT描述子来描述显著性区域，成员视觉字典的大小设置成2000。为了提高成员的性能，使用了空间金字塔结构1x1+2x2+1x3。一个描述子对应到与它在欧拉空间中最近的单词。在形成一个成员视觉字典后，为了量化图像，所有检测出来的显著性区域都用来建立基于此成员视觉字典上的直方图。为了使直方图独立于描述子个数，直方图矢量规范化成总和为1。视觉字典是应用聚类算法到200,000个随机从训练图像集中选择来的描述子集合上得到的。加权 LibSVM用来训练分类器，在训练阶段，正例样本的权值设为，反例样本的权值设为，这里#pos表示训练集中正例样本个数，#neg是训练集中反例样本个数。为了应用SVM分类器到多类问题，应用一对多的方法。

为了检测不同的分布结构，以下12种聚类算法被用来形成成员视觉字典，得到一个大小为12的视觉字典集体：

（1）Cluto-rb方法，采用“cosine” 函数作为相似性度量，通过执行一系列的k-1次对分来得到有k个组的聚类，相似矩阵首先聚成二组，然后其中的一组选择来做进一步的划分，这个过程一直进行到达到了所要的分组个数；

（2）Cluto-rb方法，采用相关系数函数作为相似性度量；

（3）使用欧氏距离度量的k-means聚类算法；

（4）使用街区距离度量的k-means聚类算法；

（5）使用余弦距离度量的k-means聚类算法；

（6）谱聚类算法clusteringby2ndEV，首先计算训练图像的相似矩阵，然后这个矩阵的第二广义特征矢量用来聚类；

（7）标准谱聚类算法；

（8）局部尺度适应的谱聚类算法；

（9）VL_ikmeans，VLFeat的整型 k-means聚类算法；

（10） VL-hiKmeans，VLFeat的整型 k-means聚类算法的分级版本，通过递归调用整型k-means聚类算法来获得越来越好的划分；

（11）基于簇特征矢量的分级凝聚k-means算法，数据点簇表示成一个CF结构，它有三个元素：N, SS, ，N表示数据点的个数，SS是数据点的平方和，是数据点的线性和，两个簇间的距离度量为，首先训练数据集随机划分成大量的小簇，每个簇作为一个数据点，应用k-means来不断凝聚簇，直到得到所需要的簇个数；

（12）基于簇特征矢量的分级凝聚k-means算法，簇间的距离度量采用。

对于一副测试图像，它的特征矢量假定为，则SVM的决策函数是：，是训练图像和测试图像间的核函数，是的类标签（+1 或 ?1），是训练图像的权值，b是决策阈值。设定为基于距离的核函数：，A是规范化距离的尺度参数，设置成所有训练图像间的平均距离。

为了获得平均准确度，直接使用SVM决策函数值的输出。当测试一副新的图像时，分类器集体的输出通过将所有成员分类器的决策函数值平均得到：

，这里S是集体大小，是第i个成员分类器的输出值。通过设置不同的阈值，从而获得平均准确值和precision-recall曲线。

实验结果表明，本发明优选的具体实施例利用不同聚类算法形成的成员视觉字典可以发现物体类的不同信息，当结合这些不同信息时，可以得到显著的性能提升。本发明优选的具体实施例能有效提高传统的基于单个视觉字典的图像识别方法的性能，对于背景噪声具有鲁棒性，得到了好的分类效果。

Claims

1.一种结合不同聚类算法生成视觉字典集体的方法，其特征在于为了捕获自然物体类的不同数据结构，不同的聚类算法用来构造视觉字典集体，通过在同一训练图像集的局部视觉描述子集合上运行不同的聚类算法，可以得到视觉字典集体，基于此基础上进行图像识别，包括如下步骤：

输入训练图像集，在所述训练图像集上用显著性区域检测子提取训练图像的显著性区域，然后用描述子描述所述显著性区域得到所述训练图像集的描述特征集；

在所述训练图像描述特征集上随机选择12个训练图像描述特征子集；

在所述12个训练图像描述特征子集上分别运行以下12种不同聚类算法得到12个视觉字典，构成视觉字典集体：Cluto-rb-cosine方法，Cluto-rb-Correlation方法，k-means-Euclidean方法，k-means-cityblock方法，k-means-consine方法， clusteringby2ndEV方法，标准谱聚类算法，局部尺度适应的谱聚类算法，VL_ikmeans方法，VL-hiKmeans方法，基于簇特征矢量的分级凝聚k-means算法1，基于簇特征矢量的分级凝聚k-means算法2；

在所述12个视觉字典基础上，对所述训练图像集分别进行量化，得到所述训练图像集的12个不同的训练图像量化特征集；

在所述12个训练图像量化特征集上，分别训练学习得到12个分类器；

输入待识别图像，对所述待识别图像提取显著性区域并描述后，分别在所述12个视觉字典上量化，得到所述待识别图像的12个表达矢量；

将所述待识别图像的12个表达矢量分别输入所述训练学习得到的12个分类器进行分类得到12个分类结果；

将所述12个分类结果进行投票集成得到所述待识别图像的最终识别结果。

2.如权利要求1所述的生成视觉字典集体的方法，其特征在于，所述Cluto-rb-cosine方法是指采用“cosine” 函数作为相似性度量，通过执行一系列的k-1次对分来得到有k个组的聚类，相似矩阵首先聚成二组，然后其中的一组选择来做进一步的划分，这个过程一直进行到达到了所要的分组个数；所述Cluto-rb-Correlation方法采用相关系数函数作为相似性度量，通过执行一系列的k-1次对分来得到有k个组的聚类，相似矩阵首先聚成二组，然后其中的一组选择来做进一步的划分，这个过程一直进行到达到了所要的分组个数；所述k-means-Euclidean方法是使用欧氏距离度量的k-means聚类算法；所述k-means-cityblock方法是使用街区距离度量的k-means聚类算法；所述k-means-consine方法是使用余弦距离度量的k-means聚类算法；所述clusteringby2ndEV方法是首先计算训练数据的相似矩阵，然后这个矩阵的第二广义特征矢量用来聚类；所述标准谱聚类算法是将训练数据映射到谱空间后进行聚类的方法；所述的局部尺度适应的谱聚类算法是加上局部尺度自适应后的谱聚类算法；所述VL_ikmeans方法是VLFeat的整型 k-means聚类算法；所述VL-hiKmeans方法是VLFeat的整型 k-means聚类算法的分级版本，通过递归调用整型k-means聚类算法来获得越来越好的划分；所述基于簇特征矢量的分级凝聚k-means算法1，是将数据点簇表示成一个CF结构，它有三个元素：N, SS, ，N 表示数据点的个数，SS 是数据点的平方和，是数据点的线性和，两个簇间的距离度量为，首先训练数据集随机划分成大量的小簇，每个簇作为一个数据点，应用k-means来不断凝聚簇，直到得到所需要的簇个数；所述基于簇特征矢量的分级凝聚k-means算法2，簇间的距离度量采用。

3.如权利要求1所述的生成视觉字典集体的方法，其特征在于，所述的将所述待识别图像的12个表达矢量分别输入所述训练学习得到的12个分类器进行分类得到12个分类结果，包括如下步骤：

所述待识别图像的描述特征集，分别基于相应的视觉字典进行直方图统计量化后再输入相应的分类器。