CN103577537A

CN103577537A - 面向图像分享网站图片的多重配对相似度确定方法

Info

Publication number: CN103577537A
Application number: CN201310442438.0A
Authority: CN
Inventors: 徐哲; 张娅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Media Intelligence Technology Co., Ltd.
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2014-02-12
Anticipated expiration: 2033-09-24
Also published as: CN103577537B

Abstract

本发明公开一种面向图像分享网站图片的多重配对相似度确定方法，包括如下步骤：第一步，提取图片的上下文属性特征和图像视觉特征；第二步，随后计算属性取值之间的相似度，由属性内和属性间两部分组成；所述的属性内相似度，是指仅考虑此属性自身，相似度由自身物理意义或属性值共生矩阵来计算；所述的属性间相似度，是指考虑除此属性x外，其他属性对该属性取值相似度的影响；第三步，然后将属性值相似度转换成图片相似度；第四步，再利用图片相似度进行图像分享网站图片集的分析，包括图片聚类、图片标注、网络分析和图片发掘。

Description

面向图像分享网站图片的多重配对相似度确定方法

技术领域

本发明涉及图像处理技术领域，具体的说，涉及的是一种面向图像分享网站图片的多重配对相似度确定方法。

背景技术

在如今的信息时代，互联网上众多的图片分享社区（如Flickr，Tumblr，Instagram等）每天都产生了海量的用户上传图片，如何有效地管理与检索这些图片开始得到了人们的重视。传统的图片搜索引擎主要使用图片周边的宏信息(metadata)，尤其是其中的文字(textual)信息来进行检索，并取得了一定的效果。当遇到文字标注不完备或不存在的情况时，就需要使用图片的视觉(visual)信息来辅助检索功能。在机器视觉领域，语义鸿沟(semantic gap)是一个很著名的概念，它指出低层的视觉特征与高层的语义特征之间存在着很大的区别。

针对海量的互联网图片，目前研究的主要方向是使用图模型或概率模型来进行分析。图模型的方法主要分两类。第一类是传播模型(graph propagation)，即从初始查询开始，通过对时间、地点、文字和视觉特征量化并计算相似度，进而找到最相近的图片、关键词或用户。重复这一过程，得到与查询最相近的图片集，通过它们的标注信息即可为查询图片进行标注。第二类是分割模型(graph partition)，主要想法是使用图分割算法，把图片分类成几种。根据图模型的不同建立方法(如二部图或三部图)和不同的分割算法(最小切Mincut、隐狄利克雷分布LDA等)，算法有很多种演变。

另一个引人注目的发展是社交网络信息在图片搜索中的应用。许多图片搜索网站都存在社交网络的特征，用户可以通过分享或喜欢朋友上传的图片来进行互动，社交网络的出现大大影响了用户对图片的获取和分析结果。目前也有一些方法对这方面进行了研究。

针对图像聚类、图像标注、标签网络分析等内容，学术界进行了广泛的尝试。但是很少的工作能够做到把这些问题统一到一个框架中。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向图像分享网站图片的多重配对相似度确定方法，可以用于图像聚类、图像标注、标签网络分析等。

本发明针对图像聚类、图像标注、标签网络分析等内容，指出“相似度”这一概念是所有问题中共通的核心内容。为此，引用Wang et al.2011年的一篇文章”Couplednominal similarity in unsupervised learning”中提出的配对相似度(coupledsimilarity)的概念。配对相似度的构成包括两方面，其一是取决于属性内取值的相似度(如标签是一个属性，barack和obama常常共同出现，他们的相似度会很高)，另一个是取决于不同属性间协同关系的相似度(如”香蕉”和”梨”两个标签，他们对应的图片在颜色上会很相似)。配对相似度通过衡量这两种相似度共同作用的结果，最后获得两个目标（这里是图片）之间的相似度。

在原始的配对相似度确定方法中，每个物体与属性之间的关系是一一对应关系（如每张图片对应一个上传时间）。但在社交网络图片分析这一应用中，图片与标签之间的关系是一个一对多关系，一张图片可能包含着几个甚至几十个标签。为此，本发明设计了一个针对物体与属性取值间一对多关系的改进方法。

除图片-图片相似度外，本发明也可以得到每个属性不同取值之间的相似度，如两个标签的相似度或两个用户的相似度等。这些相似度一起构成了整体系统的基础，进而应用于图像聚类、图像标注等问题上。

本发明通过以下技术方案实现的，本发明在计算图片相似度时，考虑其每项属性的相似度，综合考虑属性内相似度(Inter-coupled similarity)和属性间相似度(Intra-coupledsimilarity)。

具体的，一种面向图像分享网站图片的多重配对相似度确定方法，包括如下步骤：

第一步，提取图片的上下文属性特征和图像视觉特征；

第二步，随后计算属性取值之间的相似度，由属性内和属性间两部分组成；

第三步，然后将属性值相似度转换成图片相似度；

第四步，再利用图片相似度进行图像分享网站图片集的分析，包括图片聚类、图片标注、网络分析和图片发掘。

所述的属性内相似度

代表属性f的两个取值a_i，a_j间的相似度，是指仅考虑此属性自身，相似度由自身物理意义（图像视觉特征）或属性值共生矩阵（标签）来计算。

所述的属性间相似度

代表属性f的两个取值a_i，a_j的相似度，考虑除此属性(记为属性f)外，其他属性对该属性取值相似度的影响。计算属性f上的两个取值a_i和a_j的相似度，其过程为：

(1)根据整体数据集，分别获得a_i和a_j对应的所有图片；

(2)对这些图片，获得其在其他属性中的一个(记为属性g)上的取值分布；

(3)计算a_i和a_j对应于属性g上取值分布的相似度

(4)重复以上(1)-(3)步骤，直到遍历所有的属性，最后求平均，即得到a_i和a_j的相似度

本发明中，图片与属性的对应关系不只存在一对一对应（图片对应上传用户和图片对应上传时间等），还存在有一对多对应（图片对应标签）。存在一对多对应的关系时，每个图片对应的该属性特征被看作一个向量。首先计算单个属性取值之间的相似度，再使用候选淘汰机制计算向量间的相似度。

所述的单个属性取值之间的相似度，其方法参照权利要求2，即

δ_{f}^{Ie - sgl} (a_{i}, a_{j}) = δ_{f}^{Ie} (a_{i}, a_{j}),

表示属性间相似度，

表示单个属性取值之间的相似度。

所述的候选淘汰机制，对两个图片对应的属性向量A(a₁，...，a_m)和B(b₁，...，b_n)，计算其相似度

其步骤为:

(1)遍历A和B中的每个属性值，获得相似度最高的一对属性值a_i和b_j；

(2)总相似度

中增加a_i和b_j的相似度

(3)分别从A和B中剔除a_i和b_j；

(4)重复(1)-(3)直到A或B为空。

本发明提供的方法，可以用于图片聚类、图片标注、图片发掘、网络分析等，核心均在于多重配对相似度的确定，可以分别使用了k-modes，KNN等算法加以辅助。

与现有技术相比，本发明具有如下的有益效果：

本发明可提供一个统计的算法框架用于以上所述的应用场景中，可提供给社交网络更人性化的图片呈现方案、图片发掘机制等。考虑到相似度为一个局部的概念，图片呈现方案可以有自顶向下和自底向上两种选择。通过把相似的图片聚类在一起，并用一幅或多幅代表图片表示，用户可更直观地了解到整体图片集的内容和构成。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图；

图2是本发明的原始数据实例；

图3是本发明的系统界面示意图；

图4是本发明的聚类结果与现有代表算法的结果的比较；

图5是本发明得到的标签网络结果；CP为本发明结果，I为按相似图像推荐，T为热门标签推荐，M为现有方法结果比较。

图6是本发明的图像标注性能与现有方法的比较。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本实施例提供一种对图片分享网站中用户上传的图片进行自动分析，进而实现聚类、标注、发掘等功能的方法。图像分享网站（以Flickr为例）是由用户分享图片，并与其他用户交流的社区网站。这种网站中的图片除本身的视觉信息外，还包含丰富的上下文信息，包括用户、标签、上传时间、评论、转发等。利用这些信息，可以更好地理解社交网络中与图像相关的语义层面的行为。为此，本实施例中使用一种基于多重配对相似度(Multi-Entrance Coupled Object Similarity，MeCOS)的方法，确定图片之间、标签之间、用户之间的相似度，进而实现了一种更好的图像内容呈现与发掘方式。

本实施例中，多重配对相似度的方法具体步骤为：

1.以Flickr群组为例，得到一个群组里的图片，并获得所有图片的属性（即上下文信息，如用户、标签、时间等），提取图像特征（颜色、纹理、SIFT等）。

2.对每个属性的所有取值，计算其两两之间的属性内相似度(Intra-coupled AttributeValue Similarity)和属性外相似度(Inter-coupled Attribute Value Similarity)。二者相乘得到属性值相似度(Coupled Attribute Value Similarity)。

3.针对一对多映射的情况，计算两两属性向量之间的相似度(Coupled AttributeVector Similarity)。

4.遍历所有属性，得到两两图片间的相似度(Coupled Object Similarity)。

5.利用2-4中得到了不同层面上的相似度，进行图像聚类、图像标注、标签网络分析、图像发掘等应用。

应用实例

如图2所示，本实施例针对图片分享网站中的图片分析，使用Flickr群组进行训练与测试。Flickr群组是由有相同兴趣的用户自发组织形成的社交团体，主要行为包括分享图片、建立讨论与评论等。本实施例共选用了7个Flickr群组，内容包含自然、旅游、艺术、新闻等不同的主题。

本实施例包括如下步骤：

第一步骤，爬取Flickr群组的图片内容与图片属性，每个群组选用最新上传的3000张图片。为了分析图片分享网站中的图片，对每张图片提取了以下几种属性：

(1)视觉特征：包括颜色直方图、颜色矩、LBP、SIFT等特征描述子，用于对颜色、形状、纹理等不同方向进行图像视觉特征的描述；

(2)用户：上传此图片的用户；

(3)标签：描述图片的文字标签；

(4)上传时间：用于分析与时序相关的事件等。

第二步骤，实施上述的多重配对相似度确定方法(MeCOS)计算图片间相似度与属性间相似度。

具体实施过程中，标签属性与图片为多对一关系，故采用属性向量的形式计算相似度，其他属性均采用属性值的形式计算相似度。

整个系统的原始数据可由信息表<U，A，V，f>表示。其中U={u₁，...，u_m}代表目标物体集合；A={a₁，...，a_n}代表所有属性的集合；V_j是属性a_j的所有可能取值的集合；f_j:U→V_j指目标物体在某属性上取值这一映射。

针对与物体间存在多对一映射关系的属性，设其为A_k，增加定义T=V_k；其中Q_j(1≤j≤m)为第j个物体对应的属性取值向量，其取值为T的子集，P(T)为T的幂集。

对于物体和属性关系为一对一映射的情况，定义的信息函数、转移概率与相似度计算等，请参照Wang et al.的文章中的计算方法。

针对一对多映射的情况，定义三个集合信息函数（SIFs）：

f_{k}^{*} ({u_{r 1}, . . ., u_{rt}}) = {f_{k} (u_{r 1}), . . ., {f_{k} (u_{rt})}

g_k(x)={u_i|x∈f_k(u_i)，1≤i≤m}

g_{k}^{*} (W) = {\cup_{u_{i}} | f_{k} (u_{i}) \cap W &NotEqual; Φ, 1 \leq i \leq m}

其中，

u_{i}, u_{r 1}, . . ., u_{rt} &Element; U, W &SubsetEqual; T .

转移信息函数（IIF）：

φ_{j &RightArrow; k} (x) = f_{k}^{*} (g_{i} (x))

为从属性j传递到属性k的函数，该式表示在属性j上取值为x的所有物体在属性k上的取值集合。

信息传递概率函数(ICP)：

P_{k | j} (W | x) = \frac{F_{W} (g_{k}^{*} (W) \cap g_{i} (x))}{F_{T} (g_{j} (x))}

表示属性j取值为x的物体集合中，在属性k上与某一属性值集合W的交集非空的概率。

其中F_W(O)为取值频数函数(VCF)，表示在属性取值子集

中的所有属性值在物体子集

中总共出现的个数。计算时遍历所有w∈W，o∈O，统计总共出现的次数。

F_{W} (O) = Σ_{w &Element; W, o &Element; O} L_{w} (o)

L_{w} (o) = \{\begin{matrix} 1, & w &Element; Q_{o} \\ 0, & w &NotElement; Q_{o} \end{matrix}

其中Q_o为物体o的属性取值向量。例：物体x在属性k上的取值为[1，2，4，6]，则L₂(x)=1，L₃(x)=0，F_{[1，2，3，4]}([x])=1+1+0+1=3。

信息传递概率函数的形式与Wang et al.的文章有很大的修改，主要是为了在物体属性对应关系为一对多的情况下保证概率归一化仍然成立：

\underset{i}{Σ} P_{k | j} (t_{I} | x) = 1

其中x∈V_j，t_i∈T，∪_it_i=T.

所述的属性内相似度

是指仅考虑此属性自身，相似度由自身物理意义（图像视觉特征）或属性值共生矩阵（标签）来计算出的属性f的两个取值a_i，a_j间的相似度。使用共生矩阵计算时，

δ_{f}^{Ia} (a_{i}, a_{j}) = \max (P ((a_{i}, a_{j}) | a_{i}) + P ((a_{i}, a_{j}) | a_{j}) - 1,0) .

其中，P((a_i，a_j)|a_i)表示在属性值a_i发生条件下，a_i和a_j同时出现的概率。算法要求最后得到的相似度结果非负，即属性值之间只存在不相关，而不存在逆相关（一方出现造成另一方不出现的概率升高）的情况。

所述的属性间相似度

是指考虑除此属性(记为属性f)外，其他属性对该属性取值相似度的影响而计算出的相似度。计算属性f上的两个取值a_i和a_j的相似度，其过程为：

(1)根据整体数据集，分别获得a_i和a_j对应的所有图片；

(3)计算a_i和a_j对应于属性g上取值分布的相似度

用公式表述为：

δ_{j | k}^{I} (x, y) = \underset{w &Element; \cap}{Σ} \min {P_{k | j} (w | k), P_{k | j} (w | y)}

其中x，y∈V_j，w∈∩代表w∈(∪φ_j→k(x))∩(∪φ_j→k(y))

为属性k对属性j作用产生的属性j的取值x和y的相似度。计算过程通过上述提到的转移信息函数φ_j→k(x)和信息传递概率函数P_k|j(w|x)，构建了属性j上的两个取值x，y，其对应物体在属性k上的取值分布的相似度。对不同的属性间相似度计算方法的详细介绍与比较请参见Wang et al.的文章对应章节。

属性取值相似度由属性内相似度和属性间相似度相乘得到。

所述的候选淘汰机制，对两个图片对应的属性向量A(a₁，...，a_p)和B(b₁，...，b_q)，其步骤为:

(1)遍历A和B中的每个属性值，获得相似度最高的一对，如a_i和b_j；

(2)总相似度中增加a_i和b_j的相似度；

(3)分别从A和B中剔除a_i和b_j；

(4)重复(1)-(3)直到A或B为空。

表1为案例构成信息表，其中u_i为物体，f_j为属性（其中f₂为对应多对一关系的属性），A，B，C分别为每个属性对应的属性取值。举例如u₁在f₁属性上的值为A₁，在f₂属性上取值为B₁，B₂。

U/A	f₁	f₂	f₃
				u₁	A₁	B₁，B₂	C₁
u₂	A₂	B₁，B₃，	C₁
				u₃	A₂	B₂，B₄	C₂
u₄	A₃	B₁，B₂，B₃	C₂
				u₅	A₄	B₂，B₃，	C₂
u₆	A₄	B₁，B₂，B₄	C₃

考虑多重配对相似度，以属性f₂为研究对象。本例中，属性内相似度

δ_{f}^{Ie} (B_{1}, B_{2}) =

\frac{3}{4} + \frac{3}{5} - 1 = 0.35 .

属性间相似度

δ_{3 | 2}^{Ia} (B_{1}, B_{2}) = 0.65,

δ_{2 | 3}^{Ia} (C_{1}, C_{2}) = 0.64 .

第三步骤，具体应用。

在Flickr群组上，本实施例共设计了三种应用情景。

(1)图片聚类

基于图片相似度，采用K-modes算法进行聚类，类别内的图片具有较高的相似度。聚类的结果可使图片的呈现更具有对用户友好的特性。

(2)图片标注

基于图片相似度，使用最近邻算法，用相似度最高的图片的标签来为测试图片进行标注。图片标注丰富了图片的可用信息，为其他的操作提供了便利。

(3)标签网络

针对某个群组，研究群组中出现的所有标签之间的关系，得到一个语义层面上的标签网络。用户网络也可相似地得出，用于为用户推荐好友等。

(4)图片发掘

根据图片在不同属性维度上的相似度，以二维相似矩阵的形式推荐数据库中与输入图片相似的图片，并于多次迭代中逐步趋近用户希望找到的图片特征。

实施效果

依据上述步骤，对爬取的Flickr群组样本进行实验。实验以多重配对相似度确定方法(MeCOS)为基础，并用本发明的方法与现有的具有代表性的技术进行了比较。

图3是对群组“Fascinating Nature:Level1”进行图片聚类得到的结果，图例显示系统的示意界面。本发明方法按照图像特征、用户、标签等属性把群组内的图片分为6类，代表图片如(a)显示。下方为群组的标签云(tag cloud)，文字的大小与出现频率正相关。点击某个类别的图片则进入(b)显示的组内代表图片界面。该界面显示了某类中的10个最具代表性的图片，并附上拥有者、上传时间、标签等上下文信息供用户参考。整体的系统与现有的按上传时间排列的显示方式相比，更好地概括了群组的特性与主要内容。

图4是本发明与现有代表技术的比较。其中(a)为本发明的结果。对Flickr群组“News-Photojournalism”的聚类结果说明，虽然两种方法均提取出了事件驱动这一新闻群组的特性，但本发明方法(MeCOS)选出的代表图片更有代表性。

图5为本发明在7个不同群组上的图像标注性能。评价标准为P10（前10个推荐标签的正确率）。相比于按图像特征推荐和按热门标签推荐，本发明的推荐性能有大幅的提升。

图6是在Flickr群组“The Southwest United States”中提取的标签网络示意图。可以看出网络结构具有很强的语义特征。这其中既包括了字面意义上的相似对（如nm和new mexico），也涵盖了群组特有的相似关系（coloradowildlife和deer）。与传统的共生矩阵方法相比，本发明的方法得到的标签网络去除了因高频率出现标签造成的伪相似现象，使得标签网络更加干净易懂。用户网络也可用相似方法构建。

所有实验均在PC计算机Linux环境下用Matlab和C++实现。

从以上实验可以看出，利用本发明的选样方法，可以在图像聚类、图像标注、标签网络等应用上获得理想的性能。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。