CN101694657B

CN101694657B - 面向Web2.0标签图片共享空间的图片检索聚类方法

Info

Publication number: CN101694657B
Application number: CN2009101528837A
Authority: CN
Inventors: 李晓燕; 陈刚; 寿黎但; 胡天磊; 陈珂
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2011-11-09
Anticipated expiration: 2029-09-18
Also published as: CN101694657A

Abstract

本发明公开了一种面向Web2.0标签图片共享空间的检索结果聚类方法。挖掘标签间的词汇关系及关联关系，查询标签根据标签间词汇关系得到扩展的查询标签集；用扩展的查询标签集得到与查询相关的候选图像集；根据查询标签与候选图像集内标签的相关度度量，选出前K个最相关的标签；根据这K个标签两两之间的关联度，采用一种自顶向下基于图划分的聚类算法，自动将K个标签分成最优的聚类结果；候选图像集也相应地根据聚类标签被聚类。针对标签表达不一致问题实现有效的查询扩充，基于最相关标签集聚类的图像聚类方法解决了标签语义多样性的问题。相比于传统方法，本发明提供用户在Web2.0标签图片共享空间内快速有效的进行图片检索和浏览。

Description

面向Web2.0标签图片共享空间的图片检索聚类方法

技术领域

本发明涉及对海量图片进行检索聚类处理相关的技术，特别是涉及一种面向Web2.0标签图片共享空间的图片结果聚类方法。

背景技术

近年来，互联网上出现了越来越多的针对文本和多媒体内容的标签应用系统，比如，Del.icio.us提供网页书签的联合标签，同样的，有像针对学术论文发表领域的CiteUlike，针对图像标签共享的Flickr，以及针对视频标签共享的Youtube，等等，这些商业应用的成功也印证了打标签是一项很好的联合共享途径，标签检索已成为信息检索领域一种普遍而受欢迎的方法，然而，基于标签的检索普遍存在着语义偏差和一定的局限性，比如，不同用户使用不同标签(比如同义词、单复数等)描述同一个事物，因此打标签本身存在不一致性，标签本身的多义性也导致查询语义模糊，如何在检索时捕获这种不一致性，并快速对检索结果进行聚类，有效区分多义性成为学术界和产业界关注的问题之一；

目前已有许多图像检索系统研究采用图像聚类的图像检索算法，聚类算法基本上是基于设定的距离度量，距离度量方法的选择决定了什么样的图片被聚集在一起，比如常见的欧拉距离，曼哈顿距离等等，但是，这些方法都不能很好的适应于高动态性、海量的Web2.0标签系统，Flickr挖掘标签信息来对图片检索结果进行聚类，然而，Flickr的这种聚类应用不但没有考虑所打标签本身的不一致性问题，而且仅适应于对单个标签检索结果的聚类；

发明内容

本发明的目的在于提供一种面向Web2.0标签图片共享空间的图片结果聚类方法。

本发明解决其技术问题采用的技术方案是，该方法的步骤如下：

1)对图片数据库建立倒排索引，对图片数据库内的标签集合进行预处理分析，包括：

第一步，构建标签的词汇关系结构用于查询扩展，首先借助已有词汇关联知识和词形变化知识构建包含同义词、词形变化和语义相近词汇关系的标签词典，根据标签词典构建词汇关系的最小结构标签原子

它是一个标签的集合，满足下列条件：

a)如果一个标签原子包含一个标签t，它必须也包含标签辞典中所有与标签t词汇相关的标签；

b)对

中任意两个标签t₁和t₂，它们必须词汇相关；

一个标签可能出现在多个标签原子中，因为它在标签辞典中可能具有多种词义。对所有标签原子构建标签与标签原子之间的建立倒排索引表＜t_i，

的id，

的id，...＞，其中包含标签t_i的标签原子，称此倒排表为标签原子倒排表；

第二步，计算标签间的关联矩阵以用于聚类计算，标签间的关联度值采用Jaccard系数计算，对于标签ti和tj，I(ti)表示含有标签ti的图片集，I(tj)是含有标签tj的图片集，标签ti与tj间的关联度值aff(ti，tj)为|I(ti)∩I(tj|/|I(ti))∪I(tj)|；

2)对图片基于标签检索，并进行结果聚类的操作过程：

第一步，对于查询标签通过构建的标签间的词汇关系结构进行查询扩展，用扩展后的标签查询获得跟查询可能相关的所有候选图片集Can_I，步骤如下：

a)对于含有n个查询标签的查询q(t₁，t₂，...，t_n)，通过标签原子倒排索引表TAIL得到所有被查询q支持的查询q’(t’₁，t’₂，...，t’_n)，其中t’_i和t_i同属于一个标签原子；

b)对于查询q或每个被查询q支持的查询q’，通过图片倒排索引获得包含一个查询中所有标签词的图片，查询q与其支持的所有查询q’获得的结果图片集合并作为候选图片集Can_I；

第二步，根据标签t与查询q之间的一种相关度计算度量rel(t，q)，从候选图片集包含的标签集Can_T中选出前K个与查询最相关的标签，相关度计算如下：

a)计算标签和扩展后查询之间共同出现的频率，等同于计算该标签在候选图片集内的使用频率f(t)；

b)将标签在候选集的使用频率f(t)和该标签在整个图片数据库被使用的倒文档频率idf(t)的乘积作为该标签与查询间的相关度值rel(t，q)；

第三步，取出前K个最相关的标签的关联子矩阵，如果将K个标签看作K个顶点，两标签ti与tj间的关联度值看作两标签相连边的权重w(i，j)，对K个标签的聚类问题看作是对含K个顶点的带权重无向图的划分问题，采用一种自定向下的图划分算法来聚类K个标签，首先介绍划分过程中的一个重要概念：

假设图G被划分为k个顶点集合，给这个划分P定义一个度量值：

Q (P_k) = Σ_{c = 1}^{k} [\frac{A (Vc, Vc)}{A (V, V)} - {(\frac{A (Vc, V)}{A (V, V)})}^{2}],

其中A(V’，V”)是两个顶点集合V’，V”之间所有边的权重之和；Q值越大表示图划分的结果越好，所以采用自顶向下的启发式划分算法，能快速的找到聚类数不超过阀值θ的最优的k划分结果，步骤如下：

a)采用依次二分划分的方法，最初k值2，初始划分P就是整个图G作为一个聚类，然后重复以下过程：

(1)对于任意一个属于划分P的集合Vc，采用经典的k平均聚类方法将集合Vc二分，分裂得到两个更小的集合Vc1和Vc2；

(2)将集合Vc1和Vc2取代划分P中的集合Vc得到新的划分P’；

(3)如果Q(P’)＞Q(P)，则接受此次划分，更新划分P，否则保持划分P不变；

b)如果k＞θ或者划分P不能在继续被划分则算法停止；

c)将划分P内的集合根据集合的聚合度排序，聚合度按照计算公式

Cohesion (Vc) = (\frac{A (Vc, Vc)}{A (V, V)} - {(\frac{A (Vc, V)}{A (V, V)})}^{2}) \times \log \frac{| V |}{| Vc |}

得到；

第四步，根据以上K个标签被划分的k个聚类结果，候选图片集Can_I的聚类过程可以描述如下：

a)对于K个标签一个聚类Cluster_i，候选图片集中的任意图片如果含有m个或者m个以上属于聚类Cluster_i的标签，则该图片归为聚类Cluster_i；

b)最后候选图片集合中不被归为任何一个聚类Cluster_i的图片被统一归为聚类Cluster_other；

c)最终候选图片结果被划分为k+1个聚类。

本发明与背景技术相比，具有的有益的效果是：

(1)本发明支持多个标签的查询，聚类过程考虑最相关元素的策略和启发式的算法不但大幅度提高计算速度也能有效去掉非相关元素产生的噪音影响，从而达到更加满意的图片聚类结果。

(2)本发明实现了有效的查询扩充一定程度上解决了Web2.0标签空间的表述不一致问题，结果聚类通过对相关联标签的计算分析，也能一定程度解决查询语义模糊的问题。

附图说明

附图是图片检索聚类的数据流程图。

具体实施方式

在面向Web2.0标签图片共享空间的检索系统中，采用本发明所提供的检索聚类方法，可以实现对高动态，海量标签图片进行快速、有效的检索，一定程度解决标签空间中标签本身语义的一致性问题和查询语义模糊的问题，以Flickr图片共享网站的图片数据集为例，具体的实施步骤如下：

1)系统首先对获得的Flickr图片数据集建立标签关键词的倒排索引，对图片数据库内的标签集合进行预处理分析：

第一步，通过已有词汇关联知识、词形变换知识等构建标签倒排索引表TAIL用于查询扩展，Flickr图片基本是英文标签，可以通过英文标准词汇数据库WordNet里定义的词汇关系结构得到标签集里的同义词形式标签原子，比如“flower，bloom，blossom”、“baby，babe，infant”，利用一些后缀处理等词形处理算法找到单复数、动名词等词形变换形式的标签原子，还可根据一般常识得到语义高相关性的标签原子，比如“movie，film”，由所得标签原子集即可得到标签倒排索引TAIL；

第二步，计算标签与标签间的关联度值，得到整个标签集合的关联矩阵，用Jaccard系数计算标签间的关联度值，其中含有标签ti的图片集通过以标签为关键词的图片倒排索引得到，标签ti和tj的关联度值aff(ti，tj)是同时包含两个标签的图片集的数目与至少包含其中一个标签的图片集的数目的比值；

2)系统对已获得的Flickr图片数据集进行查询聚类，附图给出了查询聚类的总体数据流程图，具体过程如下：

第一步，对于查询标签通过构建的标签间的词汇关系结构进行查询扩展，用扩展后查询标签通过图片倒排索引获得跟查询可能相关的所有候选图片集Can_I，步骤如下：

a)对于含有n个查询标签的查询q(t₁，t₂，...，t_n)，通过标签原子倒排索引表TAIL得到所有被查询q支持的查询q’(t’₁，t’₂，...，t’_n)，其中t’_i和t_i同属于一个标签原子，比如查询q(flower，summer)所支持的查询q’有(flowers，summer)、(bloom，summer)、(blossom，summer)、(flower，summertime)、(flowers，summertime)、(bloom，summertime)等等；

b)对于查询q或每个被查询q支持的查询q’，通过图片倒排索引获得包含一个查询中所有标签词的图片，查询q与其支持的所有查询q’获得的结果图片集合并作为候选图片集Can_I，候选图片集的图片可能不包含查询标签t本身而只包含和查询标签t同属于一个标签原子的其他标签；

第二步，计算标签t与查询q之间的相关度rel(t，q)，从候选图片集包含的候选标签集Can_T中选出前K个与查询最相关的标签，过程如下：

a)计算标签t在候选图片集Can_I内的使用频率f(t)；

b)结合标签t在整个图片数据库被使用的倒文档频率idf(t)计算得到相关度值rel(t，q)为f(t)idf()；

c)根据ref(t，q)值选出前K个与查询最相关的标签；

第三步，取出所选的前K个最相关标签的关联子矩阵，表1给出了关联矩阵示意表，t1、t2、......tK是所选的前K个最相关的标签，w(ti，tj)既是标签ti与tj间的关联度aff(ti，tj)，如下给出了K值取100时的标签选择实例和聚类实例：

表1 标签间的关联矩阵示意表

	t1	t2	t3	……	tK
						t1		w12	w13	……	w1K
t2	w12		w23	……	w2K
						t3	w13	w23		……	w3K
……	……	……	……	……	……
						tK	w1K	w2K	w3K	……

a)对于任意给出的若干简单查询，表2列出了相对应的部分标签选择结果，比如对于查询“apple mac”选出的标签包含了苹果公司各种产品；

表2 若干查询的部分标签选择结果实例

查询标签	相关标签列表
		apple	mac iphone ipod macbook york imac fruit…
apple mac	macintosh imac speakers iphone ipod…
		baby	family jack Christmas cute boy bewborn portrait child girl kids…
baby cat	Chicago birthday Europe England kitten…
		window	store fashion light old display glass windows shopping mannequin…
dog	corgi puppy basenji pet dogs Dalmatian animal welshcoigi cutepoodle…
		dog poodle	pet animal toypoodle standardpoodle poedel pudel black tommy…

b)表3给出了当聚类上限值设为10时的部分查询的聚类结果；

表3 若干查询的部分标签聚类结果实例

查询标签	聚类结果
		apple	{mac iphone ipod macbook…}{pie food applepie baking…}{fruit apples…}{picking…} ……
apple mac	{macintosh ibook microsoft applemacintosh…}{imac iphone ipod…}{speakers dj djsando…}{room wii xbox dvds…} …
		window	{store fashion display windows shopping…}{view airplane condo…}{white green red Nikon canon blue…}{Poland stainedglass Krakow…} …

第四步，根据以上K个标签被划分的聚类结果，得到候选图片集的聚类结果，具体过程如下：

c)最终候选图片结果集被划分为k+1个聚类，值得注意的是一幅图片可能属于多个类别。

Claims

1.一种面向Web2.0标签图片共享空间的图片结果聚类方法，其特征在于该方法的步骤如下：

第一步，通过已有词汇关联知识、词形变换知识构建标签倒排索引表TAIL用于查询扩展，首先借助已有词汇关联知识和词形变化知识构建包含同义词、词形变化和语义相近词汇关系的标签词典，根据标签词典构建词汇关系的最小结构标签原子

它是一个标签的集合，满足下列条件：

a)如果一个标签原子

包含一个标签t，它必须也包含标签辞典中所有与标签t词汇相关的标签；

b)对

中任意两个标签t₁和t₂，它们必须词汇相关；

一个标签可能出现在多个标签原子中，因为它在标签辞典中可能具有多种词义，对所有标签原子构建标签与标签原子之间的倒排索引表

的id，

的id，...，的id，...＞，其中

包含标签t_i的标签原子，称此倒排索引表TAIL为标签原子倒排表；

第二步，计算标签间的关联矩阵以用于聚类计算，标签间的关联度值采用Jaccard系数计算，对于标签ti和tj，I(ti)表示含有标签ti的图片集，I(tj)是含有标签tj的图片集，标签ti与tj间的关联度值aff(ti，tj)为|I(ti)∩I(tj)|/|I(ti)∪I(tj)|；

2)对图片基于标签检索，并进行结果聚类的操作过程：

a)对于含有n个查询标签的查询q(t₁，t₂，...，ti，...，t_n)，通过标签原子倒排索引表TAIL得到所有被查询q支持的查询q’(t’₁，t’₂，...，t’i，...，t’_n)，其中t’_i和t_i同属于一个标签原子；

第二步，根据标签t与查询q之间的一种相关度计算度量rel(t，q)，从候选图片集Can_I包含的标签集Can_T中选出前K个与查询最相关的标签，相关度计算如下：

a)计算标签和扩展后查询共同出现的频率，等同于计算该标签在候选图片集Can_I内的使用频率f(t)；

b)将标签在候选图片集Can_I的使用频率f(t)和该标签在整个图片数据库被使用的倒文档频率idf(t)的乘积作为该标签与查询间的相关度计算度量rel(t，q)；

第三步，取出前K个最相关的标签的关联子矩阵，如果将K个标签看作K个顶点，两标签ti与tj间的关联度值看作两标签相连边的权重w(i，j)，对K个标签的聚类问题看作是对含K个顶点的带权重无向图的划分问题，采用一种自顶向下的图划分算法来聚类K个标签，首先介绍划分过程中的一个重要概念：

其中A(V，V)是顶点集V中所有任意两点间边的权重之和，A(Vc，Vc)是顶点集Vc中所有任意两点间边的权重之和，A(Vc，V)是顶点集Vc，V之间所有边的权重之和；Q值越大表示图划分的结果越好，所以采用自顶向下的启发式划分算法，能快速的找到聚类数不超过阀值θ的最优的k划分结果，步骤如下：

a)采用依次二分划分的方法，k的初始值是2，初始划分P就是整个图G作为一个聚类，然后重复以下过程：

(2)将集合Vc1和Vc2取代划分P中的集合Vc，得到新的划分P’；

b)如果k＞θ或者划分P不能再继续被划分则算法停止；

得到；

a)对于K个标签被划分后的一个聚类Cluster_i，候选图片集Can_I中的任意图片如果含有m个或者m个以上属于聚类Cluster_i的标签，则该图片归为聚类Cluster_i；

b)最后候选图片集Can_I中不被归为任何一个聚类Cluster_i的图片被统一归为聚类Cluster_other；

c)最终候选图片结果被划分为k+1个聚类。