CN102253996B

CN102253996B - 一种多视角阶段式的图像聚类方法

Info

Publication number: CN102253996B
Application number: CN 201110191264
Authority: CN
Inventors: 骆俊武; 郎波; 程波; 李未
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-07-08
Filing date: 2011-07-08
Publication date: 2013-08-21
Anticipated expiration: 2031-07-08
Also published as: CN102253996A

Abstract

一种多视角阶段式的图像聚类方法：(1)通过爬虫程序从Web页面上获取海量图像，并对图像的描述信息进行预处理得到相应的文档集。(2)离线提取出图像集的视觉特征和文档集的语义特征，将结果持久化到文件或者数据库。(3)针对图像检索引擎中用户的某次具体查询，基于已提取的特征，采用阶段式的图像聚类算法，对检索结果进行动态聚类，并为每个聚类提取出主题关键字，作为类标签，重新组织结果后返回给用户。

Description

一种多视角阶段式的图像聚类方法

技术领域

本发明是在数据挖掘的范畴下，借助图像处理，自然语言处理，数据聚类等方法提出的一种图像聚类方法。

背景技术

随着Intemet的发展以及网络带宽和终端计算能力的不断增强，图像被越来越多地运用于内容的表达和信息的承载上，传统的图像搜索引擎是基于关键字检索的，由于自然语言的多义性，检索的结果往往不能令用户满意，另外，大量不同主题的搜索结果被统一地以缩略图或摘要的形式展现出来，用户需要花费大量的时间定位自己所需要的图像。

多视角阶段式的图像聚类方法就是为了解决这一问题而提出，它充分地利用图像的视觉及语义等多模态特征，采用改进的划分和层次两阶段聚类算法，来挖掘图像之间的深层关系并重新组织检索结果，帮助用户更方便地浏览相关图像，从而加快用户搜索目标图像的速度。

发明内容

本发明要解决的技术问题：如何对图像检索引擎的查询结果进行动态聚类，生成有主题意义的类别，为用户搜索目标图像提供方便。

本发明采用的技术方案：一种多视角阶段式的图像聚类方法。其特征在于步骤如下：

(1)通过爬虫程序从Web页面上获取海量图像集，并进一步根据图像的描述信息及图像所在页面的上下文信息，得到相应的文档集；

(2)离线提取出图像集的视觉特征和文档集的语义特征，将结果持久化到文件或者数据库；

(3)针对图像检索引擎中用户的某次具体查询，基于已提取的特征，采用阶段式的图像聚类算法，对检索结果进行动态聚类，并为每个聚类提取出主题关键字，作为类标签，重新组织结果后返回给用户。

根据本发明的又一个方面，其中步骤(2)又进一步包括：

(2a)训练阶段：将所有文档集当作背景语料进行训练，通过分词、特征选择后筛选出有代表性的词作为特征词库；

(2b)提取阶段：对前景语料进行分词后，筛选出特征词库中存在的词，然后计算它们的TFIDF值作为权重，并采用VSM模型表示，再经过降维处理后形成最终的语义特征向量。

根据本发明的又一个方面，其中步骤(3)又进一步包括：

(3a)假设需要将N个数据划分k类，当k已知时，则：

(i)第1阶段离群点的剔除：计算N个数据两两之间的距离d_ij，以及数据i与其他数据的距离总和P_i，假设P_i服从高斯分布N(μ，δ²)，分别以样本均值和标准偏差作为总体均值和总体标准差的估计值，将P_i＞μ+2σ的数据点作为离群点剔除；

(ii)假设剔除离群点后剩余的数据总数为M，首先采用随机抽样方法生成初始聚类中心，再采用K-Means算法将M个数据划分成m个子类，其中

m = \max (2 * k, \sqrt{n});

(iii)在m个子类上，执行CURE(Clustering Using Representatives)算法，基于最小距离原则不断地合并相距最近的两类，直到聚类数目为1.5*k时终止；

(iv)第2阶段离群点的剔除：统计每类数目C_i，假设C_i服从高斯分布N(μ，δ²)，以样本均值和标准偏差作为总体均值和总体标准差的估计值，将C_i＜μ-2σ的类中的所有数据点作为离群点剔除；

(v)再次执行步骤(iii)，直到聚类数目为k时终止，再基于最小距离原则，将离群点划分到相距最近的类中；

(vi)基于TFIDF和信息熵的线性组合模型，为每类提取出主题关键字作为类标签；

(3b)假设需要将N个数据划分k类，当k未知时，定义如下有效性准则函数：

V_{K} = \frac{Σ_{j = 1}^{n} Σ_{i = 1}^{c} [{| | x_{j} - v_{i} | |}^{2}] + \frac{1}{c} Σ_{i = 1}^{c} {| | v_{i} - \overset{&OverBar;}{v} | |}^{2}}{\min_{i &NotEqual; k} {| | v_{i} - v_{k} | |}^{2}}

其中x_j表示第j个数据点，v_i表示第i类的中心点，v为k个中心点的平均值，||||表示模长；

(i)确定聚类数k的范围，

其中N为数据集大小；

(ii)采用穷举方法，对

分别执行(3a)中的所有步骤，并计算出上述有效性准则函数值V_k.

(iii)作出有效性准则函数值V_k的曲线图，取V_k出现拐点时的k作为最终的类别数。

附图说明

图1为阶段式多视角的图像聚类方法结构图；

图2为两阶段聚类算法的基本流程图。

具体实施方式

下面参考附图1，对本发明的实施例进行详细的说明。

研究表明，传统的图像搜索引擎是基于关键字检索的，由于自然语言的多义性，检索的结果往往不能令用户满意，另外，大量不同主题的搜索结果被统一地以缩略图或摘要的形式展现出来，用户需要花费大量的时间定位自己所需要的图像。这就有必要提出一种聚类方法来挖掘图像之间的深层关系并重新组织检索结果，帮助用户更方便地浏览相关图像，从而加快用户搜索目标图像的速度。

具体而言，本发明所提出的聚类方法如图1所示。

本发明主要包括的核心思想：充分利用图像的视觉及语义等多模态特征，借助图像处理，自然语言处理，数据聚类等方法，对用户的查询结果进行动态聚类并重新组织结果。

首先对web图像进行预处理，得到图像集和相应的文档集；然后，分别借助图像处理技术和自然语言处理技术提取出图像的视觉特征和语义特征；最后，对于用户的具体查询结果，基于已提取的特征和本发明的阶段式聚类算法进行动态聚类，并为每类提取出主题关键字作为类标签，重新组织结果后返回给用户。

本发明所提出的阶段式聚类算法基本流程如图2所示，在描述该算法前先定义如下变量：

1.设N是图像数据集的大小；

2.设k是最终的聚类数；

3.设d_ij是数据i和数据j之间的距离；

4.设Pi是数据i到其他数据的距离总和；

5.设C_i是第i个聚类的数据总数；

6.设M是第一阶段剔除离群点后剩余的数据总数；

6.设m是执行K-Means聚类后得到的子类数；

7.设f_ij是词t_j在类s_i中的加权频率；

8.设F(t_j)和E(t_j)分别为词t_j的TFIDF值和信息熵。

本发明的算法描述如下：

1.第1阶段离群点的剔除：计算N个数据两两之间的距离d_ij，以及数据i与其他数据的距离总和P_i，假设P_i服从高斯分布N(μ，δ²)，分别以样本均值和标准偏差作为总体均值和总体标准差的估计值，将P_i＞μ+2σ的数据点作为离群点剔除；

2.采用随机抽样方法生成m个初始聚类中心，采用K-Means算法将剔除离群点后剩余的数据划分成m个子类，其中

3.在m个子类上，执行CURE算法，基于最小距离原则不断地合并相距最近的两类，直到聚类数目为1.5*k时终止；

4.第2阶段离群点的剔除：统计每类数目C_i，假设C_i服从高斯分布N(μ，δ²)，以样本均值和标准偏差作为总体均值和总体标准差的估计值，将C_i＜μ-2σ的类中的所有数据点作为离群点剔除；

5.再次执行步骤(3)，直到聚类数目为k时终止，再基于最小距离原则，将离群点划分到相距最近的类中；

6.基于TFIDF和信息熵的线性组合模型，为每类提取出主题关键字作为类标签，其中TFIDF和信息熵的计算公式如下：

E(t_j)＝-f_ji×log(f_ji)

计算词t_j两种属性值后，将它们进行线性加权得到最终的词语权值。按照该权值从大到小排序，取最高值的几个关键词作为该类的主题关键词。

P(t_j)＝a×F(t_j)+b×E(t_j)

其中，a，b的取值可根据具体的应用系统调整，满足a+b＝1.

对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其作出各种修改。

Claims

1.一种多视角阶段式的图像聚类方法，其特征在于步骤如下：

(3)针对图像检索引擎中用户的某次具体查询，基于已提取的特征，采用阶段式的图像聚类算法，对检索结果进行动态聚类，并为每个聚类提取出主题关键字，作为类标签，重新组织结果后返回给用户;

所述的步骤(3)进一步包括：

(3a)假设需要将N个数据划分k类，当k已知时，则：

(i)第1阶段离群点的剔除：计算N个数据两两之间的距离d_ij，以及数据i与其他数据的距离总和P_i，假设P_i服从高斯分布N(μ，δ²)，分别以样本均值和标准偏差作为总体均值和总体标准差的估计值，将P_i＞μ+2δ的数据点作为离群点剔除；

(iii)在m个子类上，执行CURE算法，基于最小距离原则不断地合并相距最近的两类，直到聚类数目为1.5*k时终止；

(iv)第2阶段离群点的剔除：统计每类数目C_i,假设C_i服从高斯分布N(μ，δ²)，以样本均值和标准偏差作为总体均值和总体标准差的估计值，将C_i＜μ-2δ的类中的所有数据点作为离群点剔除；

(v)再次执行CURE算法，基于最小距离原则不断地合并相距最近的两类,直到聚类数目为k时终止，再基于最小距离原则，将步骤(iv)所述的离群点划分到相距最近的类中；

(vi)基于TFIDF和信息熵的线性组合模型，为每类提取出主题关键字作为类标签；具体的：

基于TFIDF和信息熵的线性组合模型，为每类提取出主题关键字作为类标签，其中TFIDF和信息熵的计算公式如下：

E(t_j)＝-f_ji×log(f_ji)

计算词t_j两种属性值后，将它们进行线性加权得到最终的词语权值，按照该权值从大到小排序，取最高值的关键词作为该类的主题关键词；其中f_ji是词t_j在类s_i中的加权频率，F(t_j)和E(t_j)分别为词t_j的TFIDF值和信息熵；

其中x_j表示第j个数据点，v_i表示第i类的中心点，

为k个中心点的平均值，||||表示模长；

(i)确定聚类数k的范围，其中N为数据集大小；

(ii)采用穷举方法，对

分别执行(3a)中的所有步骤，并计算出上述有效性准则函数值V_k；

作出有效性准则函数值V_k的曲线图，取V_k出现拐点时的k作为最终的类别数。

2.根据权利要求1所述的一种多视角阶段式的图像聚类方法，其特征在于：所述的步骤(2)进一步包括：

(2a)训练阶段：将所有文档集当作背景语料进行训练，通过分词、特征选择后筛选出有代表性的词作为特征词库；(2b)提取阶段：对前景语料进行分词后，筛选出特征词库中存在的词，然后计算它们的TFIDF，即Term Frequency/Inverted Document Frequency值作为权重，并采用Vector Space Model即VSM模型表示，再经过降维处理后形成最终的语义特征向量。