CN103020120A

CN103020120A - 一种基于超图的图像混合摘要生成方法

Info

Publication number: CN103020120A
Application number: CN2012104645020A
Authority: CN
Inventors: 唐金辉; 李旻先
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2013-04-03
Anticipated expiration: 2032-11-16
Also published as: CN103020120B

Abstract

本发明提供了一种基于超图的图像混合摘要生成方法，具体包括：步骤1：输入原始图像；步骤2：输入标签列表；步骤3：抽取视觉特征；步骤4：建立超图；步骤5：超图分割；步骤6：选取混合摘要。本发明使用的超图模型，不仅可以利用图像与图像、标签与标签之间的同质关系，同时还可以利用图像与标签之间的异质关系；本发明提出的选取图像摘要和标签摘要的方法，同时考虑了语义和视觉的代表性，选取的图像摘要和标签摘要能够较好地代表所属分组。

Description

一种基于超图的图像混合摘要生成方法

一、技术领域

本发明属于图像处理技术领域，特别是一种基于超图的图像混合摘要生成方法。

二、背景技术

随着各种数字化成像设备(如数码相机，手机等)的普及、大容量存储设备成本的降低以及互联网技术的革新，现代生活中多媒体信息(包括图像、视频等)的数量在迅猛增长，特别是数字图像充斥在人们日常生活的方方面面，并且随之诞生了一批图像分享网站(如Flickr，Picasa等)。但是在这些网站上，存在着明显的缺陷：海量的图像无法得到有效的组织，给用户寻找想要的图片以及浏览图片集合造成了不便。

为了更好地组织图像和将图像有效可视化，研究人员提出了图像混合摘要技术。所谓的图像混合摘要，是指从海量的图像集合中选取少量具有代表性的图像和语义标签作为整个集合的代表，方便用户快速浏览和查询。这里的语义标签指的是对图像内容进行描述的文本单词，语义标签简称为标签。

近年来，研究人员提出了许多针对互联网图像的图像混合摘要技术：

文献1(Jaffe A，Naaman M，Tassa T，and Davis M.Generating Summaries for LargeCollections of Geo-Referenced Photographs.In Proceedings of International Conference onWorld Wide Web，pages 853-854，2006.)Jaff等使用标签和地理信息来产生一个图像摘要集；

文献2(Simon I，Snavely N，and Seitz S M.Scene Summarization for Online ImageCollections.In Proceedings of IEEE 11th International Conference on Computer Vision，2007，1-8.)Simon等使用了一个贪婪k-means算法选择了一系列的典型性视图来形成场景摘要；

文献3(Fan J，Gao Y，Luo H，Keim D A，and Li Z.A Novel Approach to EnableSemantic and Visual Image Summarization for Exploratory Image Search.In Proceedings ofMultimedia Information Retrieval，2008，358-365.)Fan等首先根据图像的主题关键词形成一个主题词网络，然后再使用混合核和基于代表性的图像采用方法产生图像摘要。

尽管以上文献1～文献3的图像混合摘要生成方法取得了一些成果，但是这些方法由于所用模型的缺陷，生成图像混合摘要的过程中，只能考虑图像与图像之间的关系、标签与标签之间的关系，无法考虑完全以下三种关系：图像与图像之间的关系、标签与标签之间的关系、图像与标签之间的关系，因此生成的图像混合摘要并不理想。

三、发明内容

本发明的目的在于提供一种不仅可以利用图像与图像、标签与标签之间的同质关系，同时还可以利用图像与标签之间的异质关系对图像进行有效分类的基于超图的图像混合摘要生成方法。

实现本发明目的的技术解决方案：一种基于超图的图像混合摘要生成方法，具体包括以下步骤：

步骤1、输入N张原始图像，每一张原始图像应满足以下条件：附带的标签个数不少于1个；

步骤2、输入标签列表：

2.1)输入原始图像的标签列表：每一张原始图像附带的标签的集合，称为该张原始图像的标签列表；

2.2)从所有原始图像的标签列表中统计出独立标签集合L＝{l₁，l₂，...，l_i，...，l_M}，其中独立标签集合L中任意两个标签l都不重复，M为独立标签的个数；

步骤3、抽取原始图像的视觉特征集合：抽取原始图像的视觉特征集合

F_{i} = {{f_{i}}^{1}, {f_{i}}^{2}, . . ., {f_{i}}^{j}, . . ., {f_{i}}^{k}},

其中k表示k种视觉特征，

表示第i张图像的第j种视觉特征；

步骤4、建立超图，建立超图的过程包括以下两个步骤：

4.1)建立超图的顶点集合V，顶点集合V包括V¹，V²：V¹表示第1种类型的顶点即原始图像的视觉特征集合

V²表示第2种类型的顶点即原始图像的独立标签集合L；

4.2)建立超图的超边集合E，超边集合E包括E¹，E²，E³：E¹表示第1种超边，连接的是V¹类型的顶点；E²表示第2种超边，连接的是V²类型的顶点；E³表示第3种超边，连接的是V¹和V²类型的顶点；

步骤5、使用超图谱分解技术对超图的顶点集合V进行分割，将超图的顶点集合V分割成若干组；

步骤6、选取摘要，选取摘要的过程包括以下两个步骤：

6.1)在每一组中选取m个V²类型的顶点对应的独立标签，作为该组的标签摘要集合T；

6.2)在每一组中选取n个V¹类型的顶点对应的原始图像，作为该组的图像摘要集合I。

本发明与现有技术相比，其显著优点是：(1)本发明使用的超图模型，不仅可以利用图像与图像之间的关系、标签与标签之间的关系，同时还可以利用图像与标签之间的关系；(2)本发明提出的选取图像摘要和标签摘要的方法，同时考虑了语义和视觉的代表性，选取的图像摘要和标签摘要能够较好地代表所属分组。

四附图说明

图1是本发明基于超图的图像混合摘要生成方法的流程图。

图2是本发明基于超图的图像混合摘要生成方法的超图示意图。

图3是本发明基于超图的图像混合摘要生成方法的效果实例图。

五具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1、图2，本发明提出的基于超图的图像混合摘要生成方法，具体包括以下步骤：

步骤2、输入标签列表：

F_{i} = {{f_{i}}^{1}, {f_{i}}^{2}, . . ., {f_{i}}^{j}, . . ., {f_{i}}^{k}},

其中k表示k种视觉特征，表示第i张图像的第j种视觉特征；所述的视觉特征包括颜色直方图、颜色相关图、边缘方向直方图、小波纹理和颜色矩。

步骤4、建立超图，如图2所示，超图是一种简单图的扩展，超图中的边可以连接任意个数的顶点。建立超图的过程包括以下两个步骤：

V²表示第2种类型的顶点即原始图像的独立标签集合L；

4.2)建立超图的超边集合E，超边集合E包括E¹，E²，E³：E¹表示第1种超边，连接的是V¹类型的顶点；E²表示第2种超边，连接的是V²类型的顶点；E³表示第3种超边，连接的是V¹和V²类型的顶点；所述的E¹，E²，E³分别定义如下：

(1)

E^{1} = {e_{1}^{1}, e_{2}^{1}, . . ., e_{i}^{1}, . . ., e_{N}^{1}},

超边

定义为：

e_{ij}^{1} |_{j = 1}^{N} = \{\begin{matrix} 1, & {| | F_{i} - F_{j} | |}_{2} &GreaterEqual; {TH}^{1} \\ 0, & {| | F_{i} - F_{j} | |}_{2} < {TH}^{1} \end{matrix} - - - (1)

TH¹表示阈值，||·||₂表示2-范数；

的权重

定义为：

w_{i}^{1} = \frac{1}{N} Σ_{j = 1}^{N} (e_{ij}^{1} \times {| | F_{i} - F_{j} | |}_{2}) - - - (2)

(2)

E^{2} = {e_{1}^{2}, e_{2}^{2}, . . ., e_{i}^{2}, . . ., e_{M}^{2}},

超边

定义为：

e_{ij}^{2} |_{j = 1}^{M} = \{\begin{matrix} 1, & d_{ij} &GreaterEqual; {TH}^{2} \\ 0, & d_{ij} < {TH}^{2} \end{matrix} - - - (3)

TH²表示阈值，d_ij表示标签l_i和标签l_j之间的关联程度，定义为：

d_{ij} = \frac{\max (\log f (l_{i}), \log f (l_{j})) - \log f (l_{i}, l_{j})}{\log N - \min (\log f (l_{i}), \log f (l_{j}))} - - - (4)

f(l_i)和f(l_j)表示N张原始图像中分别包含标签l_i和标签l_j的图像数量，f(l_i，l_j)表示N张原始图像中同时包括标签l_i和标签l_j的图像数量；

的权重

定义为：

w_{i}^{2} = \frac{1}{M} Σ_{j = 1}^{M} e_{ij}^{2} \times d_{ij} - - - (5)

(3)

E^{3} = {e_{1}^{3}, e_{2}^{3}, . . ., e_{i}^{3}, . . ., e_{N}^{3}},

超边

定义为：

的权重定义为：

w_{i}^{3} = 1 . - - - (7)

步骤5、使用超图谱分解技术对超图的顶点集合V进行分割，将超图的顶点集合V分割成若干组。超图分割问题通过解以下的优化问题：

subject to \underset{v &Element; V}{Σ} f^{2} (v) = 1, \underset{v &Element; V}{Σ} f (v) \sqrt{d (v)} = 0

其中，函数f(u)表示将顶点u分到某类的概率。e是任意一条超边，u、v是e上任意两个超图顶点。d(v)表示顶点v的度，δ(e)表示超边e的度，w(e)表示超边e的权重。

定义两个矩阵，令Δ＝I-Θ，其中I是单位矩阵，则

\underset{e &Element; E}{Σ} \underset{{u, v} &SubsetEqual; e}{Σ} \frac{w (e)}{δ (e)} {(\frac{f (u)}{\sqrt{d (u)}} - \frac{f (v)}{\sqrt{d (v)}})}^{2} = 2 f^{T} Δf - - - (9)

其中，D_v是顶点的度矩阵，D_e是超边的度矩阵，W是权重矩阵，H是顶点与超边的关联矩阵。Δ是半正定矩阵，Δ的最小特征值是0，对应的特征向量的是根据线性代数的知识，式(8)的优化问题的解就是矩阵Δ的最小非零特征值对应的特征向量Φ。因此，顶点集合可以分割为两个部分S＝{v∈V|Φ(v)≥0}和S^c＝{v∈V|Φ(v)＜0}。

另外，拉普拉斯算子Δ为：

Δ = I - \frac{1}{2} D_{v}^{- 1 / 2} {HWH}^{T} D_{v}^{- 1 / 2} = I - \frac{1}{2} D_{v}^{- 1 / 2} (D_{v} + A) D_{v}^{- 1 / 2} = \frac{1}{2} (I - D_{v}^{- 1 / 2} A D_{v}^{- 1 / 2}) - - - (10)

使用(3)式，按简单图的谱分割方法分割超图。

步骤6、选取摘要，选取摘要的过程包括以下两个步骤：

6.1)在每一组中选取m个V²类型的顶点对应的独立标签，作为该组的标签摘要集合T，具体如下：

令s(l，c)表示标签l描述第c类的代表性分数，则s(l，c)可定义为：

其中，

K(l)表示与标签l共同出现的标签中，频次最高的k个标签的集合；

表示K(l)的所有标签中出现频次最高的标签；表示标签l和标签

之间的共同出现的频次；Threshold表示共同出现频次的阈值；最后将每个标签的代表性分数s(l，c)由高到低来排序，则可以选择m个代表性分数最高的标签作为该组的标签摘要集合T。

6.2)在每一组中选取n个V¹类型的顶点对应的原始图像，作为该组的图像摘要集合I，具体如下：

令ρ(F，t，c)表示视觉特征F对应的原始图像描述第c类的代表性分数，t为视觉特征F对应的原始图像附带的标签集合，则ρ(F，t，c)可定义如下：

ρ (F, t, c) = a e^{- {| | (F - \overset{&OverBar;}{F}) | |}_{2}} + (1 - a) e^{d (t, T)} - - - (13)

其中，

表示第c类中的平均视觉特征，d(t，T)表示标签集合t与标签摘要集合T的关联程度，a表示视觉代表性和语义代表性的平衡因子；最后在该类中，将每张图像的代表性分数按由高到低的顺序进行排序，选择n个代表性分数最高的图像作为该类的图像范例I。

实施例

如图3所示，使用本发明基于超图的图像混合摘要生成方法，对一批原始图像生成图像混合摘要，左边为原始图像，标签摘要包括“花朵、紫色”，“银莲花、白色”和“花丛、野地”，右边为混合摘要结果，可以看出选取的图像摘要和标签摘要能够较好地代表所属分组。

Claims

1.一种基于超图的图像混合摘要生成方法，其特征在于，包括以下步骤：

步骤2、输入标签列表：

F_{i} = {f_{i}^{1}, f_{i}^{2}, . . ., f_{i}^{j}, . . ., f_{i}^{k}},

其中k表示k种视觉特征，表示第i张图像的第j种视觉特征；

步骤4、建立超图，建立超图的过程包括以下两个步骤：

V²表示第2种类型的顶点即原始图像的独立标签集合L：

步骤6、选取摘要，选取摘要的过程包括以下两个步骤：

2.根据权利要求1所述的基于超图的图像混合摘要生成方法，其特征在于：步骤3中所述的视觉特征包括颜色直方图、颜色相关图、边缘方向直方图、小波纹理和颜色矩。

3.根据权利要求1所述的基于超图的图像混合摘要生成方法，其特征在于：步骤4.2中所述的E¹，E²，E³分别定义如下：

1)

E^{1} = {e_{1}^{1}, e_{2}^{1}, . . ., e_{i}^{1}, . . ., e_{N}^{1}},

超边

定义为：

e_{ij}^{1} |_{j = 1}^{N} = \{\begin{matrix} 1, & {| | F_{i} - F_{j} | |}_{2} &GreaterEqual; {TH}^{1} \\ 0, & {| | F_{i} - F_{j} | |}_{2} < {TH}^{1} \end{matrix}

TH¹表示阈值，||·||₂表示2-范数；

的权重

定义为：

w_{i}^{1} = \frac{1}{N} Σ_{j = 1}^{N} (e_{ij}^{1} \times {| | F_{i} - F_{j} | |}_{2})

2)

E^{2} = {e_{1}^{2}, e_{2}^{2}, . . ., e_{i}^{2}, . . ., e_{M}^{2}},

超边

定义为：

e_{ij}^{2} |_{j = 1}^{M} = \{\begin{matrix} 1, & d_{ij} &GreaterEqual; {TH}^{2} \\ 0, & d_{ij} < {TH}^{2} \end{matrix}

d_{ij} = \frac{\max (\log f (l_{i}), \log f (l_{j})) - \log f (l_{i}, l_{j})}{\log N - \min (\log f (l_{i}), \log f (l_{j}))}

的权重

定义为：

w_{i}^{2} = \frac{1}{M} Σ_{j = 1}^{M} e_{ij}^{2} \times d_{ij}

3)

E^{3} = {e_{1}^{3}, e_{2}^{3}, . . ., e_{i}^{3}, . . ., e_{N}^{3}},

超边定义为：

的权重

定义为：

w_{i}^{3} = 1 .

4.根据权利要求1所述的基于超图的图像混合摘要生成方法，其特征在于：步骤6.1中所述的在每一组中选取m个V²类型的顶点对应的独立标签，作为该组的标签摘要集合T，具体如下：

s (l, c) = \{\begin{matrix} \frac{1}{N_{c}} Σ_{i = 1}^{N_{c}} Σ_{j = 1}^{N_{i}^{T}} φ (l) & ifC (l, l) < Threshold \\ 0 & else \end{matrix}

其中，

l＝arg max{s(l，c)，l∈K(l)}

K(l)表示与标签l共同出现的标签中，频次最高的k个标签的集合；l表示K(l)的所有标签中出现频次最高的标签；C(l，l)表示标签l和标签l之间的共同出现的频次；Threshold表示共同出现频次的阈值；最后将每个标签的代表性分数s(l，c)由高到低来排序，则可以选择m个代表性分数最高的标签作为该组的标签摘要集合T。

5.根据权利要求1所述的基于超图的图像混合摘要生成方法，其特征在于：步骤6.2中所述的在每一组中选取n个V¹类型的顶点对应的原始图像，作为该组的图像摘要集合I，具体如下：

ρ (F, t, c) = {ae}^{- {| | (F - \overset{&OverBar;}{F}) | |}_{2}} + (1 - a) e^{d (t, T)}

其中，