CN102129451A

CN102129451A - 图像检索系统中数据聚类方法

Info

Publication number: CN102129451A
Application number: CN 201110039139
Authority: CN
Inventors: 顾王一; 杨杰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2011-02-17
Filing date: 2011-02-17
Publication date: 2011-07-20
Anticipated expiration: 2031-02-17
Also published as: CN102129451B

Abstract

一种信息处理技术领域的图像检索系统中数据聚类方法，由离线过程和在线过程组成，离线过程中对标准图像提取SIFT特征，然后将SIFT特征进行离线聚类处理，在离线聚类结果的基础上通过矢量化处理建立标准图像矢量；在线过程中对待检索图像提取SIFT特征，然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量，将待检索图像矢量在标准图像矢量中进行相似性搜索，本发明能够快速获得大规模数据中具有较强代表性和可区分能力的特征，解决了大规模数据的聚类问题，并在有效重用原始图像数据聚类结果的基础上，实现新增图像数据的快速增量聚类，最终实现高效的图像检索任务。

Description

图像检索系统中数据聚类方法

技术领域

本发明涉及的是一种信息处理技术领域的方法，具体是一种图像检索系统中数据聚类方法。

背景技术

早期的图像检索系统一般采用颜色、纹理、形状等信息来描述图像特征，随着研究的深入，学者开始引入具有某种不变性的特征，如用经典SIFT(Scale Invariant Feature Transform)特征来表征图像信息，可以获得比传统方法更好的检索效果。

这里所面临的主要挑战是图像特征数据量非常庞大，直接利用原始的特征进行检索是非常低效的。传统的文本检索技术在实际应用中获得了巨大的成功，因此，学者们开始将文本检索的技术引入到图像检索中来。目前比较典型的方法是将来自所有图像库的特征聚类成一定数目的码字(即聚类中心)，这些码字的数目要小于图像库所提取的特征数目，再利用这些码字对每幅图像的特征进行编码，这样每幅图像就可以用一个描述码字的特征向量来表示，从而可以有效的进行图像检索。

在上述基于码字的图像检索系统中，在设计聚类方法时，值得关注的一个问题是：对于大型图像库能够提取的总特征数目往往很庞大，而且每个特征的维数也很高，本发明采用的是128维SIFT特征(测试表明十万图库的特征数量将达到千万量级)，对这样的大规模数据进行聚类，传统的聚类方法(如经典的K-means方法)，由于没有良好的可扩展性，不能有效的处理大规模数据的聚类问题。另一个具有现实意义的问题是，实际应用的图像数据库是需要不断更新，最常见的情况就是在图库中增加图像，这样就有可能使得从新图像中提取的特征与原聚类分析得到的结果不匹配。这时有必要获得新的聚类结果来适应新增加的特征数据，而获得新的聚类的方法通常有两种；一是重新聚类，二是增量聚类。由于聚类分析所面对的一般都是大数据集，所以重新聚类一方面是代价太大；另一方面，因未利用前一次聚类的有关信息，而导致计算资源的浪费。因此，如何设计处理大规模数据和处理新增图像数据的聚类方法，是当前图像检索领域的一个重要挑战。

经对现有技术文献的检索发现，David Nister等在文献“Scalable Recognition with a Vocabulary Tree”(公开时期：2006年6月17日；2006 IEEE Conference on Computer Vision and Pattern Recognition-Volume 2pp2161-2168，电气和电子工程学会2006年计算机视觉和模式识别会议第2卷第2161-2168页；中文名：用字典树实现可扩展识别；其核心技术在美国申请专利，美国专利号为：US7,725,484，公开日期为2010年5月25日)中提到的分层K均值(Hierarchical k-means，HKM)方法。它在传统k-means方法中引入了分层的概念，在传统k-means方法中k的含义是最终的类别数，而在HKM方法中的k代表的是分支因子(即每个结点的子结点数目，因此HKM方法可以看作是k叉的树结构)。HKM方法先设定k个类，在待聚类数据上运行k-means方法，那么待聚类数据就被分成k组；对每一个组上递归地运行k-means方法，每次k值保持不变，每组的待聚类数据就被递归地分成k组，该树结构逐层增加，直到预先设定的L层(根结点为第0层)，所以最终的类别数最多为k^L个(这是因为，当某组的待聚类数据个数少于k，那么在该组上就不再进行k-means运算，即有的分支的层数小于L)。

但是该技术具有以下缺陷：

1.该技术在聚类过程中，递归地对待聚类数据进行分组，组与组之间的待聚类数据在各自的迭代过程中是相互独立的，当先前分组错误，在后续的迭代过程中无法得到弥补，且容易出现分组不均匀的情况，即部分组数据量极多，部分组数据量极少。

2.该技术不能处理实际图像检索系统中增量聚类问题，即当预先建立的图像库有新的图像需要加入时，对原来图像的聚类结果不能复用，只能重新进行聚类。

进一步检索发现，James Philbin等在文献“Object Retrieval with Large Vocabularies and Fast Spatial matching”(公开时期：2007年3月12日；出处：2007IEEE Conference on Computer Vision and Pattern Recognition-Volume 3612pp1545-1552，电气和电子工程学会2007年计算机视觉和模式识别会议第3612卷第1545-1552页；文献中文名：用大型码书和快速空间匹配实现目标识别)一文中提出的近似K均值(Approximate k-means，AKM)方法。AKM方法是在改进传统k-means方法的基础上获得的。传统k-means方法的主要运算代价在于数据寻找最近邻聚类中心的过程，而AKM方法利用一种近似搜索最近邻的方法取代了经典方法中精确搜索最近邻的过程，即在每一次迭代开始时，方法首先根据聚类中心创建一个由多棵随机kd树(kdimensional tree)构成的森林，以此加速搜索最近邻聚类中心的过程。AKM方法将每次迭代的复杂度从k-means时的O(NK)降低为O(Nlog(K))，其中N为进行聚类的总数据量，K表示初始类别数。较好的解决了图像检索系统中处理大规模数据时，聚类方法的可扩展性问题。

该技术具有以下缺陷：该技术在图像检索系统中应用中，各个聚类中心所分配到的数据量会出现不均匀的情况，即有的聚类中心分到的数据极少甚至不能分配到数据，而有的聚类中心分配的数据又极多，且技术本身没有任何处理措施；该技术也不能处理实际图像检索系统中新增图像所带来的增量聚类问题。

发明内容

本发明针对现有技术存在的上述不足，提供一种图像检索系统中数据聚类方法，能够快速获得大规模数据中具有较强代表性和可区分能力的特征，解决了大规模数据的聚类问题，并在有效重用原始图像数据聚类结果的基础上，实现新增图像数据的快速增量聚类，最终实现高效的图像检索任务。

本发明是通过以下技术方案实现的，本发明由离线过程和在线过程组成，其中：

离线过程：对标准图像提取SIFT特征，然后将SIFT特征进行离线聚类处理，在离线聚类结果的基础上通过矢量化处理建立标准图像矢量；

在线过程：对待检索图像提取SIFT特征，然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量，将待检索图像矢量在标准图像矢量中进行相似性搜索。

所述的将SIFT特征进行离线聚类处理包含两种情况：第一种是针对大规模数据的聚类，即聚类开始前所有标准图像的SIFT特征都已经获得，且SIFT特征数量很庞大的情况；第二种是针对新增图像数据时的增量聚类，即在完成对已有标准图像的SIFT特征聚类后，又需要在该标准图像库中新增部分图像的情况。

所述的针对大规模数据的聚类包括以下步骤：

第一步、预处理：设置大规模数据聚类参数，具体有总的迭代次数maxIter，单个聚类中心所包含数据个数的下限阈值numMin，单个聚类中心在所有图像中出现的比例(这里“出现”的含义是指当第u幅图像中某个特征数据的最近聚类中心是第v个聚类中心，那么称第v个聚类中心在第u幅图像出现，设M表示所有标准图像数目，则单个聚类中心在所有标准图像出现的幅数阈值SFimage＝M×SF)，建立随机kd树的数目t。

第二步、从总的待聚类数据中随机选择K个数据作为初始聚类中心，2≤K＜N，然后初始化当前迭代次数iter为1，其中：N表示初始时总的待聚类数据量，重复执行第三步直至指定的总迭代次数maxIter，得到并保存最终的聚类结果。

所述的待聚类数据是指：从标准图像中提取的SIFT特征。

所述的SIFT特征是指：先对图像采用高斯差分算子(Different of Gaussian，DOG)进行特征点检测，然后将每个高斯差分算子通过尺度不变描述子(Scale Invariant Feature Transformation，SIFT)进行描述，该描述子称为SIFT特征，每一个SIFT特征是一个128维的向量。

第三步、聚类迭代过程，该过程包含如下具体步骤：

a、初始化阶段：对聚类中心建立由t(t≥1)棵随机kd树组成的一个森林，利用该森林，所有的待聚类数据可以从这些聚类中心中找到与各自欧式距离近似最近的聚类中心，即近似最近邻，这个过程称为划分。

所述的聚类中心在不同时期含义不同，在当前迭代次数iter＝1时，聚类中心是指初始聚类中心；在当前迭代次数iter＞1时，聚类中心是指完成上一次迭代后的有效聚类中心(有效聚类中心的定义见步骤b)。

所述的近似是指：对大量数据而言，在利用上述森林搜索每个数据的最近聚类中心过程中，可能存在几个数据找到的并不是最近聚类中心，但提出AKM方法(其中也利用了该森林结构实现快速近似搜索)的作者用实验证明这种近似对图像检索精度影响不大，因此本发明中提到的“最近聚类中心”就是指在这种意义下的近似最近聚类中心。

所述的随机kd树是指：一种对已知数据(k维数据)在k维空间建立树形结构的方法，利用该树形结构，对某一个新数据可以在已知数据中快速地进行搜索，找到距离近似最近的那个数据，随机性的引入加速了建树的过程，步骤a中用多棵随机kd树组成一个森林，这样做的目的是使得每个数据搜索的最近邻尽量正确，减少近似最近邻出现的次数。

所述的森林是指：t棵随机kd树组成的树形结构的整体，形似森林，为后文需要提到该整体时而自拟的一个名词。

b、对所有待聚类数据完成划分后，逐一对每个聚类中心进行分析，设当前处理的聚类中心为第i个(1≤i≤K^*，第一次迭代时K^*＝K，从第二次迭代开始K^*表示当前迭代时聚类中心集合中的聚类中心数目)，分别统计第i个聚类中心实际所划分到的数据个数num(i)，第i个聚类中心在多少幅图像中出现，记为app(i)，比较num(i)和单个聚类中心所包含数据个数的下限阈值numMin的关系，当：

num(i)＜numMin........................................................(1)

则称第i个聚类中心为伪聚类中心，说明该聚类中心代表性不强，不适合作为聚类中心，应该从聚类中心集中剔除，对于划分到该伪聚类中心的num(i)个数据将被移出待聚类数据集，不参与下一次迭代。对于不满足式(1)的聚类中心，进一步比较app(i)和单个聚类中心在所有标准图像中出现的幅数阈值SFimage的关系，当：

app(i)≥SFimage.......................................................(2)

则称第i个聚类中心为无意义聚类中心，对于满足式(1)但不满足式(2)的聚类中心称为有效聚类中心，不做特殊处理，直接进入下一步更新过程；迭代次数增加一次：iter＝iter+1。

c、更新后的新聚类中心为：

{newc}_{i} = \frac{Σ_{j = 1}^{n} d_{j}}{n}

= {\frac{Σ_{j = 1}^{n} x_{j, 1}}{n}, \frac{Σ_{j = 1}^{n} x_{j, 2}}{n}, . . ., \frac{Σ_{j = 1}^{n} x_{j, l}}{n}} - - - (3)

其中：第i个有效聚类中心为oldc_i，1≤i≤K^*且有n个特征，每个特征的维数为l，当使用SIFT特征时，则l＝128，d₁＝{x_1，1，x_1，2，...，x_1，l}，d₂＝{x_2，1，x_2，2，...，x_2，l}，...，d_n＝{x_n，1，x_n，2，....，x_n，l}的最近聚类中心是oldc_i。

所述的聚类结果包含有效聚类中心、最终剔除了部分待聚类数据后剩下的每个数据的类别属性，以及每个类中的数据与所在类的聚类中心的最远距离。

所述的针对新增图像数据时的增量聚类包括以下步骤：

步骤一、预处理：设置增量聚类参数，具体有建立随机kd树的数目t^*，步骤五中当需要用到聚类时，初始类别数设为待聚类数据量的1/s。

步骤二、当有新增图像数据到来时，将原始聚类结果读入计算机内存，对读入的Ke个聚类中心建立由t^*(t^*≥1)棵随机kd树组成的森林，实现新增图像数据从这些聚类中心中寻找各自近似最近聚类中心的过程。

所述的新增图像数据是指：从新增图像中提取的SIFT特征。

所述的原始聚类结果是指：在新增图像数据之前，从旧图像数据中获得的聚类结果。

步骤三、确定新增图像数据的类别属性：第i^*个新增图像数据与其最近聚类中心j^*之间的距离为

第j^*个聚类中心与其所在类中旧图像数据的最远距离为比较

和的关系，当：

{dist}_{i^{*}} \leq {dist}_{j^{*}} - - - (4)

则将第i^*个新增图像数据应该属于第j^*个聚类中心所在的类，否则将该新增图像数据移动到公共存储区，其中：1≤i^*≤Ne，Ne表示新增图像数据总数，1≤j^*≤Ke。

所述的公共存储区是指：在计算机内存中为存储数据而开辟的物理空间，在具体实现时，考虑到空间的开销，可以考虑只把需要放入该存储区的数据索引放进去，如索引ii(1≤ii≤Ne因为这里主要处理的是新增数据，所以Ne表示新增数据总数)被放入该公共存储区，表示第ii个数据需要放入该公共存储区。

步骤四、更新所有的聚类中心以及新聚类中心与类内最远数据间的距离：原来按照近似最近邻关系属于第i个聚类中心oldc_i，1≤i≤Ke，所在类的数据有q个，oldc_i＝{c_i，1，c_i，2，...，c_i，l}，现在有新增数据，其中每个数据的维数为l，p个加入到该聚类中心所在的类，这p个新增数据为w₁＝{y_1，1，y_1，2，...，y_1，l}，w₂＝{y_2，1，y_2，2，...，y_2，l}，...，w_p＝{y_p，1，y_p，2，...，y_p，l}，则更新后的聚类中心为：

{newc}_{i}^{*} = \frac{q \times {oldc}_{i} + Σ_{j = 1}^{p} w_{j}}{q + p}

= {\frac{q \times c_{i, 1} + Σ_{j = 1}^{p} y_{j, 1}}{q + p}, \frac{q \times c_{i, 2} + Σ_{j = 1}^{p} y_{j, 2}}{q + p}, . . ., \frac{q \times c_{i, l} + Σ_{j = 1}^{p} y_{j, l}}{q + p}} - - - (5)

当每个新增图像数据都找到了各自的最近聚类中心，则所述更新后的聚类中心即为最终聚类结果，否则执行步骤五。

步骤五、设置初始聚类中心数目为待聚类数据量(即公共存储区内的数据总数)的1/s，其中s是一个大于1的整数，其他参数numMin、SF、maxIter以及建立随机kd树的数目t保持与旧图像数据聚类时一致，然后进行初始聚类中心选择，完成迭代过程，根据迭代得到的聚类结果调整公共存储区内的新增图像数据的类别属性，实现聚类合并。

所述的调整是指：对于在公共存储区内的每个新增图像数据的类别属性加上Ke，Ke为步骤二中读入公共存储区内的来自于对旧图像数据的聚类结果的聚类中心的数目，即由这部分新增图像数据形成的聚类中心是拼接在旧图像数据形成的聚类中心后面；然后保存包括每个数据的类别属性、聚类中心以及每个类中数据与聚类中心的最远距离的增量聚类结果。

所述的标准图像矢量通过以下方式得到：这时上述的两种聚类情况，即针对大规模数据的聚类和针对新增图像数据时的增量聚类可以只归结为一种情况，处理方式相同。即从聚类结果(不管是由大规模数据聚类得到的聚类结果还是由增量聚类得到的聚类结果，都包含聚类中心和每个数据的类别属性，所以在此不做明确区分)中提取聚类中心和每个数据的类别属性(即该数据的最近聚类中心是哪一个)。然后采用聚类中心频率-倒图像频率(term frequency-inverse document frequency，tf-idf)方法进行统计处理，具体方法是：假设此时的聚类中心数目为K_l，每个标准图像对应的图像矢量

D＝1，2，...，M，

x＝1，2，...，K_l，其中n_xy表示第x个聚类中心在第y(y＝1，2，...，M)幅标准图像中出现的次数，即在第y幅图像中有多少个SIFT特征的最近距离中心是第x个聚类中心，n_y表示在第y幅标准图像中SIFT特征的数量，M表示总的标准图像数目，N_x表示出现第x个聚类中心的图像数目。

所述的待检索图像矢量通过以下方式得到：利用离线过程中获得的聚类中心和在线过程中从待检索图像Q提取的SIFT特征，首先将这些SIFT特征从聚类中心找到各自的最近聚类中心，然后在tf-idf方法下统计得到待检索图像矢量

x＝1，2，...，K_l，其中n_xQ表示第x个聚类中心在待检索图像Q中出现的次数，n_Q表示在待检索图像Q中SIFT特征的数量，M表示总的标准图像数目，N_x表示出现第x个聚类中心的图像数目。

所述的相似性搜索是指：把两个矢量间的余弦值进行相似性计算，

其中

在计算出余弦值cos(V_Q，V_D)后，将余弦值cos(V_Q，V_D)从大到小排序，最大余弦值cos(V_Q，V_D)对应的标准图像，即为待检索图像的最终查询结果。

本发明具有的优点是在迭代过程中充分利用了图像本身的信息，对聚类中心进行分类处理，伪聚类中心的提出使得在同样采用随机选择初始聚类中心的情况下(HKM和AKM都是采用随机选择聚类中心的方式)，能够有效的在聚类过程中去除代表性不强的伪聚类中心，获得具有较强代表性的有效聚类中心，无意义聚类中心的提出使得对区分图像作用不大的聚类中心被提前移除，同时因为这两类聚类中心(伪聚类中心和无意义聚类中心)的存在，被划分到这两类聚类中心的数据也被移出待聚类数据集，使得在每次迭代过程中，聚类中心数K和待聚类数据量N都有变小的趋势，所以说本发明虽然与相关技术二中提到的AKM有同样的时间复杂度，但本发明在迭代过程中会体现其在聚类速度上的优越性。增量聚类方法的引进使得本发明对解决新增图像数据时的增量聚类问题成为可能，弥补了现有技术的不足。

附图说明

图1本发明方法流程图。

图2大规模数据聚类技术框图。

图3新增图像数据时的增量聚类技术框图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例采用的标准图像库共有10000幅，由于本发明在聚类过程中需要处理两种情况，故将10000幅图像分成9000幅(作为旧图像库，用于第一种情况大规模数据集的聚类实验，即表示用于大规模数据聚类时总的标准图像库有9000幅)和1000幅(作为新增图像库，用于第二种新增数据集时的增量聚类实验，即在旧图像库9000幅已经完成聚类的情况下，又新增了1000幅图像)两组，用于待检索的手机拍摄图像有500幅(后面表中显示的检索精度是正确检索的张数除以500所得)。

如图1所示，本实施例的两种情况是：当没有新增图像数据需要加入时，采用图像检索中大规模数据聚类方法(见技术框图2)和当有新增图像数据需要加入时，采用新增图像数据时的增量聚方法(见技术框图3)。在两种情况下对手机拍摄的图像实现检索(实验结果分别对表2和表3)，具体实施步骤如下：

1、对标准图像库提取SIFT特征。

对9000幅和1000幅图像提取SIFT特征规模见表1。

表1图像库SIFT特征规模

图像数目	SIFT特征数目
		9000	2769364
1000	317841

2、用聚类方法对标准图像特征进行聚类

第一种情况，假设此时获得了9000幅标准图像N个SIFT特征，用大规模数据聚类方法进行聚类，这里N＝2769364，可以具体参照技术框图2。

聚类开始前的准备：设置大规模数据聚类方法的聚类参数，具体有总的迭代次数maxIter，单个聚类中心所包含数据个数的下限阈值numMin，单个聚类中心在所有图像中出现的比例SF，建立随机kd树的数目t。

i、从N个特征中随机选择K(K＝390625)个作为初始聚类中心，设当前迭代次数iter＝1。重复步骤ii直到指定的迭代次数maxIter(maxIter＝10)，得到并保存最终的聚类结果。

ii、对K个聚类中心建立用t棵随机kd树构成的森林，实现所有N个特征快速寻找最近聚类中心的过程，然后逐一对每个聚类中心所在的类进行分析，统计第i个聚类中心实际所划分到的特征个数num(i)以及第i个聚类中心在多少幅图像中出现，即app(i)。根据式(1)比较num(i)和单个聚类中心所包含数据个数的下限阈值numMin的关系，对于那些代表性不强的伪聚类中心，将其从聚类中心集中剔除，将划分到该伪聚类中心的num(i)个特征从N个特征中移出，不参与下一次迭代。对于不满足式(1)的聚类中心，根据式(2)进一步比较app(i)和单个聚类中心在所有标准图像中出现的幅数阈值SFimage(这里SFimage＝9000×SF)的关系，对于在图像库中出现频率较高的无意义聚类中心，按照与伪聚类中心一样的方式处理。对于有效聚类中心，不做特殊处理，更新聚类中心后进入下一次迭代。迭代次数增加一次：iter＝iter+1。按照式(3)的方法更新聚类中心。

第二种情况，假设此时已经用大规模数据聚类方法完成对9000幅标准图像的SIFT特征的聚类过程，又有1000幅新标准图像(从中提取到Ne个SIFT特征)需要加入旧标准图像，这时用增量聚类方法来处理这些新增图像数据，可以具体参照技术框图3。

聚类开始前的准备：设置增量聚类参数，具体有建立随机kd树的数目t^*，步骤四中当需要用到聚类时，初始类别数设为待聚类数据量的1/s。

一、当有新增1000幅图像的Ne(Ne＝317841)个SIFT特征数据到来时，将9000幅标准图像获得的聚类结果读入计算机内存，对读入的Ke^*(Ke^*＝384376)个聚类中心建立由t^*(t^*＝20)棵随机kd树构成的森林，实现新增图像数据寻找最近聚类中心的过程。

二、依次确定新增图像数据的类别属性。设第i^*(1≤i^*≤Ne)个新增图像数据与其最近聚类中心j^*(1≤j^*≤Ke^*)之间的距离为

而第j^*个聚类中心与其所在类内原图像数据的最远距离为

(该值在步骤一时已读入内存)，根据式(4)比较和

的关系，当满足式(4)则将第i^*个新增图像数据划分到第j^*个聚类中心。若不满足式(4)，则该新增图像数据被移动到一个公共存储区，所有不满足式(4)的新增图像数据都被移动到同一个公共存储区。

三、在对所有的新增图像数据完成处理后，按照式(5)更新所有的聚类中心以及新聚类中心与类内最远数据间的距离。

四、若公共存储区为空，则步骤三得到的就是最终的增量聚类结果，保存后就可以完成增量聚类过程。若不为空时，则对存放在公共存储区内的新增图像数据采用大规模数据聚类方法进行聚类，得到其聚类结果。这部分数据聚类时，初始类别数设为待聚类数据数的1/s(这里取s＝6)，将这部分聚类结果与步骤三的聚类结果进行合并，保存最终的增量聚类结果。

3、离线过程中在聚类结果的基础上通过矢量化处理建立标准图像矢量。这时上述的两种情况可以只归结为一种情况，处理方式相同，即从聚类结果中提取聚类中心和每个数据的类别属性。采用聚类中心频率-倒图像频率(tf-idf)方法分别对标准图像建立标准图像矢量V_D(D＝1，2，...，M)，M表示总的标准图像数目。

4、在线过程中在聚类结果的基础上通过矢量化处理得到待检索图像矢量。利用离线过程中获得的聚类中心和在线过程中从待检索图像提取的SIFT特征，在tf-idf方法下得到待检索图像矢量V_Q。

5、在线过程中将待检索图像矢量在标准图像矢量中进行相似性搜索来实现图像检索。把两个矢量间的余弦值进行相似性计算，

其中

对本方法仿真实验包含两个部分，分别对应大规模数据聚类和新增图像数据时的增量聚类。第一种情况：大规模数据聚类的实验以9000幅标准图像所提取的N个SIFT特征作为待聚类数据，这里N＝2769364。大规模聚类方法的参数设置为初始聚类中心数K＝390625，总的迭代次数maxIter＝10，单个聚类中心所包含数据个数的下限阈值numMin＝2，单个聚类中心在所有图像中出现的比例SF＝0.5，建立随机kd树的数目t＝20，为了比较本发明的大规模数据聚类方法和HKM、AKM在聚类时间和在图像检索精度上的性能，设置HKM算法的初始类别数为390625(k^L＝390625，其中分支因子k＝5，层数L＝8)，AKM算法的初始类别数为390625，建立随机kd树的数目为20。两种方法总迭代次数都为10次。三种方法的对比实验结果见表2。

表2三种方法实验结果比较

方法

聚类时间

检索精度

HKM	1.8h	82％
			AKM	2.5h	85％
本发明的大规模数据聚类方法	1.2h	90％

由表2可见，本发明在同等的参数条件下处理图像检索中的大规模数据聚类问题，本发明在聚类时间和检索精度上体现出优势，在聚类时间上的优势主要得益于本发明的大规模数据聚类方法在迭代过程中对聚类中心进行分类处理，剔除了伪聚类中心和无意义聚类中心及划分到这些聚类中心的待聚类数据(对应大规模数据聚类方法第三步的步骤b)，因此加速了整个聚类过程，在检索精度上有优势主要得益于本发明的大规模数据聚类方法最终获得了具有代表性强和可区分能力强的有效聚类中心(对应大规模数据聚类方法第三步的步骤b)，因此改善了检索精度。

第二种情况：新增图像数据时的增量聚类的实验中，已经用大规模数据聚类方法完成了对9000幅标准图像的N个SIFT特征的聚类过程，此时又有1000幅标准图像需要加入这9000幅的旧标准图像，从1000幅新增图像中共提取到Ne个SIFT特征，这里Ne＝317841。这时需要用本发明的新增图像数据时的增量聚类方法来处理，当上述步骤四所提到的公共存储区存在数据时则需要再次用到本发明的大规模数据聚类方法，这时的初始聚类中心数是公共存储区数据量的1/s(这里取s＝6)，其余参数设置同第一种情况时的设置，即总的迭代次数maxIter＝10，单个聚类中心所包含数据个数的下限阈值numMin＝2，单个聚类中心在所有图像中出现的比例SF＝0.5，建立随机kd树的数目t＝20。为了比较本发明新增图像数据时的增量聚类方法和HKM、AKM在聚类时间和在图像检索精度上的性能，设置HKM算法的初始类别数为531441(k^L＝531441，其中分支因子k＝9，层数L＝6)，AKM算法的初始类别数也为531441，建立随机kd树的数目为20。两种方法迭代次数都为10次。三种方法的对比实验结果见表3。

表3三种方法实验结果比较

方法	聚类时间	检索精度
			HKM	2.6h	81％
AKM	3.5h	86％
			本发明的新增图像数据时的增量聚类方法	0.8h	91％

由表3可见，由于HKM和AKM不具备增量聚类的能力，所以当有新图像数据加入时，需要对所有的数据进行重新聚类，计算代价比较大，这时本发明的新增图像数据时的增量聚类方法就能体现出优越性，因为它只要对新增图像数据进行增量聚类就可以了(对应新增图像数据的增量聚类方法步骤一至步骤五)，所以聚类时间代价大大减少，且此时的检索精度也要高于其他两种方法，检索精度上优势主要是因为9000幅的图像数据是通过本发明的大规模数据聚类方法得到的(对应大规模数据聚类方法第三步的步骤b)，所以会有更好的检索精度。

Claims

1.一种图像检索系统中数据聚类方法，其特征在于，由离线过程和在线过程组成，其中：

2.根据权利要求1所述的图像检索系统中数据聚类方法，其特征是，所述的将SIFT特征进行离线聚类处理包含两种情况：第一种是针对大规模数据的聚类，即聚类开始前所有标准图像的SIFT特征都已经获得，且SIFT特征数量很庞大的情况；第二种是针对新增图像数据时的增量聚类，即在完成对已有标准图像的SIFT特征聚类后，又需要在该标准图像库中新增部分图像的情况。

3.根据权利要求2所述的图像检索系统中数据聚类方法，其特征是，所述的针对大规模数据的聚类包括以下步骤：

第一步、预处理：设置大规模数据聚类参数，具体有总的迭代次数maxIter，单个聚类中心所包含数据个数的下限阈值numMin，单个聚类中心在所有图像中出现的比例，建立随机kd树的数目t；

第二步、从总的待聚类数据中随机选择K个数据作为初始聚类中心，2≤K＜N，然后初始化当前迭代次数iter为1，其中：N表示初始时总的待聚类数据量，重复执行第三步直至指定的总迭代次数maxIter，得到并保存最终的聚类结果；

第三步、聚类迭代过程，该过程包含如下具体步骤：

a、初始化阶段：对聚类中心建立由t(t≥1)棵随机kd树组成的一个森林，利用该森林，所有的待聚类数据可以从这些聚类中心中找到与各自欧式距离近似最近的聚类中心，即近似最近邻，这个过程称为划分；

num(i)＜numMin........................................................(1)

则称第i个聚类中心为伪聚类中心，说明该聚类中心代表性不强，不适合作为聚类中心，应该从聚类中心集中剔除，对于划分到该伪聚类中心的num(i)个数据将被移出待聚类数据集，不参与下一次迭代，对于不满足式(1)的聚类中心，进一步比较app(i)和单个聚类中心在所有标准图像中出现的幅数阈值SFimage的关系，当：

app(i)≥SFimage.......................................................(2)

则称第i个聚类中心为无意义聚类中心，对于满足式(1)但不满足式(2)的聚类中心称为有效聚类中心，不做特殊处理，直接进入下一步更新过程；迭代次数增加一次：iter＝iter+1，

c、更新后的新聚类中心为：

{newc}_{i} = \frac{Σ_{j = 1}^{n} d_{j}}{n}

= {\frac{Σ_{j = 1}^{n} x_{j, 1}}{n}, \frac{Σ_{j = 1}^{n} x_{j, 2}}{n}, . . ., \frac{Σ_{j = 1}^{n} x_{j, l}}{n}} - - - (3)

其中：第i个有效聚类中心为oldc_i，1≤i≤K^*且有n个特征，每个特征的维数为l，当使用SIFT特征时，则l＝128，d₁＝{x_1，1，x_1，2，...，x_1，l}，d₂＝{x_2，1，x_2，2，...，x_2，l}，...，d_n＝{x_n，1，x_n，2，...，x_n，l}的最近聚类中心是oldc_i。

4.根据权利要求3所述的图像检索系统中数据聚类方法，其特征是，所述的聚类迭代过程中：聚类中心在不同时期含义不同，在当前迭代次数iter＝1时，聚类中心是指初始聚类中心；在当前迭代次数iter＞1时，聚类中心是指完成上一次迭代后的有效聚类中心；所述的随机kd树是指：一种对已知k维数据在k维空间建立树形结构的方法，利用该树形结构，对某一个新数据可以在已知数据中快速地进行搜索，找到距离近似最近的那个数据，随机性的引入加速了建树的过程，步骤a中用多棵随机kd树组成一个森林；所述的聚类结果包含有效聚类中心、最终剔除了部分待聚类数据后剩下的每个数据的类别属性，以及每个类中的数据与所在类的聚类中心的最远距离。

5.根据权利要求2所述的图像检索系统中数据聚类方法，其特征是，所述的针对新增图像数据时的增量聚类包括以下步骤：

步骤一、预处理：设置增量聚类参数，具体有建立随机kd树的数目t^*，步骤五中当需要用到聚类时，初始类别数设为待聚类数据量的1/s；

步骤二、当有新增图像数据到来时，将原始聚类结果读入计算机内存，对读入的Ke个聚类中心建立由t^*(t^*≥1)棵随机kd树组成的森林，实现新增图像数据从这些聚类中心中寻找各自近似最近聚类中心的过程；

第j^*个聚类中心与其所在类中旧图像数据的最远距离为

比较

和

的关系，当：

{dist}_{i^{*}} \leq {dist}_{j^{*}} - - - (4)

则将第i^*个新增图像数据应该属于第j^*个聚类中心所在的类，否则将该新增图像数据移动到公共存储区，其中：1≤i^*≤Ne，Ne表示新增图像数据总数，1≤j^*≤Ke；

步骤四、更新所有的聚类中心以及新聚类中心与类内最远数据间的距离：原来按照近似最近邻关系属于第i个聚类中心oldc_i，1≤i≤Ke，所在类的数据有q个，oldc_i＝{c_i，1，c_i，2，...，c_i，j}，现在有新增数据，其中每个数据的维数为l，p个加入到该聚类中心所在的类，这p个新增数据为w₁＝{y_1，1，y_1，2，...，y_1，l}，w₂＝{y_2，1，y_2，2，...，y_2，l}，...，w_p＝{y_p，1，y_p，2，...，y_p，l}，则更新后的聚类中心为：

{newc}_{i}^{*} = \frac{q \times {oldc}_{i} + Σ_{j = 1}^{p} w_{j}}{q + p}

= {\frac{q \times c_{i, 1} + Σ_{j = 1}^{p} y_{j, 1}}{q + p}, \frac{q \times c_{i, 2} + Σ_{j = 1}^{p} y_{j, 2}}{q + p}, . . ., \frac{q \times c_{i, l} + Σ_{j = 1}^{p} y_{j, l}}{q + p}} - - - (5)

当每个新增图像数据都找到了各自的最近聚类中心，则所述更新后的聚类中心即为最终聚类结果，否则执行步骤五；

6.根据权利要求5所述的图像检索系统中数据聚类方法，其特征是，所述的公共存储区是指：在计算机内存中为存储数据而开辟的物理空间，在具体实现时只把需要放入该存储区的数据索引放进去。

7.根据权利要求5所述的图像检索系统中数据聚类方法，其特征是，所述的调整是指：对于在公共存储区内的每个新增图像数据的类别属性加上Ke，Ke为步骤二中读入公共存储区内的来自于对旧图像数据的聚类结果的聚类中心的数目，即由这部分新增图像数据形成的聚类中心是拼接在旧图像数据形成的聚类中心后面；然后保存包括每个数据的类别属性、聚类中心以及每个类中数据与聚类中心的最远距离的增量聚类结果。

8.根据权利要求5所述的图像检索系统中数据聚类方法，其特征是，所述的标准图像矢量通过以下方式得到：这时上述的两种聚类情况，即针对大规模数据的聚类和针对新增图像数据时的增量聚类可以只归结为一种情况，处理方式相同，即从聚类结果中提取聚类中心和每个数据的类别属性，即该数据的最近聚类中心是哪一个；然后采用聚类中心频率-倒图像频率方法进行统计处理。

9.根据权利要求5所述的图像检索系统中数据聚类方法，其特征是，所述的待检索图像矢量通过以下方式得到：利用离线过程中获得的聚类中心和在线过程中从待检索图像Q提取的SIFT特征，首先将这些SIFT特征从聚类中心找到各自的最近聚类中心，然后在tf-idf方法下统计得到待检索图像矢量

10.根据权利要求5所述的图像检索系统中数据聚类方法，其特征是，所述的相似性搜索是指：把两个矢量间的余弦值进行相似性计算，

其中