CN105849720A

CN105849720A - 视觉语义复合网络以及用于形成该网络的方法

Info

Publication number: CN105849720A
Application number: CN201380081290.0A
Authority: CN
Inventors: 汤晓鸥; 邱石; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2013-11-30
Filing date: 2013-11-30
Publication date: 2016-08-10
Anticipated expiration: 2033-11-30
Also published as: EP3074884A4; CN105849720B; WO2015078022A1; HK1223436A1; JP2016540332A; KR20160084440A; HK1223710A1; US20170046427A1; US10296531B2; EP3074884A1; KR101827764B1; JP6216467B2

Abstract

本申请公开了一种视觉语义复合网络系统以及一种用于生成该系统的方法。所述系统可包括：收集装置，其被配置成根据给定的查询关键字来检索多个图像和与所述图像相关联的多个文本；语义概念确定装置，其被配置成分别确定检索图像和用于所述检索图像的检索文本的语义概念；描述符生成装置，其被配置成根据检索的图像和文本针对确定的语义概念来生成文本描述符和视觉描述符；以及语义相关性装置，其被配置成分别根据生成的文本和视觉描述符来确定语义相关性和视觉相关性，以及将确定的语义相关性和确定的视觉相关性结合起来，以便生成所述视觉语义复合网络系统。

Description

视觉语义复合网络以及用于形成该网络的方法

技术领域

本申请涉及一种视觉语义复合网络系统以及用于生成该系统的方法。

背景技术

网络上的图像数量巨大并且不断增加，促成了与网络图像搜索、浏览和聚类相关的很多重要应用。此类应用的目的是让用户更容易访问网络图像。所有这些任务面对的一个关键问题是如何对网络上的图像相关性进行建模。由于网络图像的多样性巨大并且结构复杂，因此这个问题尤其具有挑战性。多数的搜索引擎依靠文本信息来检索网络图像以及测量它们的相关性，此类方法存在一些公知的缺点。由于文本描述具有含混性，同一关键字检索的图像可源于不相关的概念，并且在视觉内容上呈现出较大的多样性。更重要的是，在诸如“palm pixi”和“apple iphone”的不同关键字下索引的一些相关图像却无法通过此类方法联系起来。另一类方法是通过比较从图像内容中提取的视觉特征来估计图像相关性，并使用各种近似最近邻(ANN)搜索算法(例如，散列法)来提高搜索效率。然而，此类视觉特征和ANN算法只对视觉内容非常类似(即，近似复制)的图像有效。其无法找到语义含义相同但视觉内容具有一定差别的相关图像。

上述方法都只允许用户在微观层面与大量的网络图像交互，即，在文本或视觉特征空间中的极小局部区域内搜索图像，从而限制了网络图像的有效访问。尽管已有工作试图手动地组织部分网络图像，但此类工作基于人为定义的语言学本体，其与变化频繁的网络图像具有本质差异。并且其扩展起来也非常昂贵。

发明内容

本申请的目的在于自动发现和模拟网络图像集的视觉和语义结构，在微观层面上研究它们的性质，并且通过具体的应用来展示此类结构和性质的使用。为此，本申请提出了使用视觉语义复合网络(VSCN)来为网络图像集生成模型，所述视觉语义复合网络是自动生成的图形结构。在此图形结构上，语义和视觉内容都相关的图像都被恰当地联系与组织起来。

应注意，网络上的图像并非随机分布，而是趋于形成视觉上和语义上紧凑的聚类。这些图像聚类可用作用于对网络图像集的结构生成模型的基本单元。本申请自动发现具有语义和视觉一致性的图像聚类，并且将它们视作图上的节点。

在本申请公开的内容中，发现的图像聚类被称作语义概念，并且将它们与视觉和文本描述符关联起来。基于视觉和语义相关性，语义概念被联系起来。语义概念及其相关性赋予网络图像以结构，使得更准确地建模图像相关性成为可能。

通过从复合网络的角度研究VSCN的结构性质，将在微观层面上更好地理解网络图像集。本申请探索了其中的一些，包括小世界行为、概念社区、中心结构以及单独的概念，并且发现了一些有趣的性质。此类性质提供了有价值的信息，为许多重要应用打开了大门，例如，基于文本或内容的网络图像检索、网络图像浏览、发现热门网络图像话题以及基于结构信息来定义图像类似点。

提出本申请用于解决两个应用：基于内容的图像检索(CBIR)和图像浏览。对于网络规模的CBIR，现有方法通常将图像与视觉特征和ANN搜索算法(例如，散列法)相匹配。这些算法通常只能找到高度类似于查询(近似复制)的一小部分图像。在此申请中，这些检测到的图像与在VSCN上形成社区结构的其他相关图像有关。因此，通过利用VSCN提供的结构信息，我们可以找到更多的相关图像。第二个应用针对网络图像浏览提出新的可视化方案。用户可以通过操纵VSCN来探索网络图像，而无需受限于查询关键字。

在一方面，本申请案提供一种用于网络图像的视觉语义复合网络系统，其包括：

收集装置，其被配置成根据给定的查询关键字来检索多个图像和与所述图像相关联的多个文本；

语义概念确定装置，其被配置成分别确定检索文本和检索图像的语义概念和代表图像；

描述符生成装置，其被配置成根据确定的语义概念和代表图像来生成文本描述符和视觉描述符；以及

相关性装置，其被配置成分别根据生成的文本和视觉描述符来确定语义相关性和视觉相关性，以及将确定的语义相关性和确定的视觉相关性结合起来生成所述视觉语义复合网络系统。

在另一方面，本申请案提供一种用于针对网络图像形成视觉语义复合网络系统的方法，其包括：

根据给定的查询关键字来检索多个图像和与所述图像相关联的多个文本；

分别确定检索文本和检索图像的语义概念和代表图像；

根据所述语义概念和代表图像来生成文本描述符和视觉描述符；以及

分别根据生成的文本描述符和生成的视觉描述符来确定语义相关性和视觉相关性；

将所述语义相关性和视觉相关性结合起来，以便生成所述视觉语义复合网络系统。

上述方法可由计算机中的一个或多个处理器实施。

在另一方面，本申请案提供一种计算机可读存储介质，其包括：

用于根据给定的查询关键字来检索多个图像和与所述图像相关联的多个文本的指令；

用于分别确定检索文本和检索图像的语义概念和代表图像的指令；

用于根据所述语义概念和代表图像来生成文本描述符和视觉描述符的指令；以及

用于分别根据生成的文本描述符和生成的视觉描述符来确定语义相关性和视觉相关性的指令；

用于将所述语义相关性和视觉相关性结合起来以便生成所述视觉语义复合网络系统的指令。

在另一方面，本申请案提供一种用于通过视觉语义复合网络系统来搜索图像的方法，其包括：

根据给定的查询图像来获取图像列表；

根据获取的列表来确定一组相关的概念社区；

根据所述社区来确定一组相关的语义概念；

根据确定的相关语义概念来搜集前几个概念的图像；以及

形成搜集图像的重排序池，所述搜集图像与所述查询图像相匹配。

因此，提供一种计算机可读存储介质，其包括：

用于根据给定的查询图像来获取图像列表的指令；

用于根据获取的列表来确定一组相关的概念社区的指令；

用于根据所述社区来确定一组相关的语义概念的指令；

用于根据确定的相关语义概念来搜集前几个概念的图像的指令；以及

用于形成搜集图像的重排序池的指令，所述搜集图像与所述查询图像相匹配。

在另一方面，本申请案进一步提供一种用于通过语义概念来浏览图像的方法。所述语义概念可在用于网络图像的视觉语义复合网络系统中生成，如上文所述。所述方法可包括：

将查询关键字输入到显示系统中；

基于相同的查询生成多个语义概念，作为输入的关键字；

在所述显示系统的查询空间中将生成的语义概念可视化；

响应于选择了从所述查询空间选择的概念，将所述查询空间切换到显示单元的本地概念空间，其中在所述本地概念空间上展示选择的概念及其邻近概念。

此外，用于浏览图像的所述方法可进一步包括：

选择所述本地概念空间中的中心概念；以及

切换回到所述选择的概念所属的查询空间；

选择所述本地概念空间中的另一概念；以及

切换到用于展示所述另一概念及其邻近概念的另一本地概念空间。

上述方法可由计算机中的一个或多个处理器实施。

附图说明

图1示出了根据本申请案的一个实施方式的、用于网络图像的示例性视觉语义复合网络系统的框图。

图2是根据本申请案的一个实施方式的用于生成语义描述符的方法的流程图。

图3是根据本申请案的一个实施方式的用于生成视觉描述符的方法的流程图。

图4是根据本申请案的一个实施方式的用于针对网络图像形成视觉语义复合网络系统的过程的流程图。

图5(a)-(f)示出根据本申请案的一个实施方式的如何使用视觉语义复合网络系统来搜索图像的框图。

图6是根据本申请案的一个实施方式的用于通过视觉语义复合网络系统来搜索图像的方法的流程图。

具体实施方式

本申请的实施方式可解决在文档呈现过程中出现存储资源浪费或描述不准确的问题。因此，可实现减少存储空间的同时提高呈现准确性的技术效果。

图1示出根据本申请案的一个实施方式的、用于网络图像的示例性视觉语义复合网络系统100的框图。如图1所示，系统100包括收集装置10、语义概念确定装置20、描述符生成装置30以及相关性装置40。

收集装置10被配置成根据给定的查询关键字来检索多个图像和文本。在本申请案的实施方式中，从搜索引擎的前几个查询关键字开始，随后自动发现更大数量的、具有视觉和语义一致性的紧凑图像聚类的语义概念。在一种情况下，以必应(Bing)图像搜索引擎为例，如果搜索引擎有(例如)2,000个关键字，那么将会发现约33,240个语义概念。

语义概念确定装置20被配置成确定检索文本和检索图像的语义概念和代表图像。在本申请案的一个实施方式中，语义概念确定装置20通过发现视觉上类似的图像中频繁出现的关键字来获悉语义概念。这些发现的关键字与图像内容非常相关，因此，形成描述概念。具体而言，针对每个查询q，例如，“apple”，我们都会将q提交到图像搜索引擎。通过检索的图像集和周围文本可以自动发现它们的相关语义概念，例如，“apple fruit”和“apple iphone”。此类概念具有更具体的语义含义并且视觉多样性较少，因此可被视作网络图像集的基本单元。根据查询关键字q获悉的概念表示为。概念是从不同查询中获悉的，形成VSCN 100的节点。

以下是概念发现的总结过程。

算法1通过查询扩展的概念发现

输入：查询q、图像集周围文本

输出：获悉的概念集。

1:初始化：

2:针对所有图像则

3：找到前K个视觉邻近，表示为

4:令是周围文本中的T个最频繁的词

5:针对所有词则

6:

7:结束

8:结束

9:通过最大的r_I(w)将q与M_q字词结合起来以形成

描述符生成装置30被配置成根据检索图像、检索文本和基础单元生成用于确定的语义概念的文本描述符和视觉描述符。由于概念的数量非常大(例如，在本实施方式中是33,240，并且如果扩展VSCN的话，可能会更大)，因此，下文将描述两种用来计算语义相关性和视觉相关性的有效方法。

具体而言，描述符生成装置30包括文本描述符生成单元301和视觉描述符生成单元302。

在一个实施方式中，文本描述符生成单元301操作以收集对应于语义概念的文本片段，计算/确定收集的片段的词频(TF)矢量，以便保留矢量中的词频最高的第一多个词语(也就是说，矢量中的其他词语将被取消)，因此，计算的词频矢量被截短。随后，文本描述符生成单元301操作以将截短的矢量标准化，并且根据截短矢量来确定语义相关性。例如，文本描述符生成单元301操作，以对截短的矢量进行L₂标准化。

具体而言，对于每个概念文本描述符生成单元301可操作以实施如图2所示的下列步骤。在步骤s201处，文本描述符生成单元301将c_i用作网络搜索(例如，Google网络搜索)上的查询输入，并且收集前K个(例如，K＝50)搜索片段，表示为S(c_i)。在步骤s202处，文本描述符生成单元301计算/确定S(c_i)的词频(TF)矢量，并且保留例如TF最高的前M个(例如，K＝100)词语，也就是说，TF矢量被截短。在步骤s203处，文本描述符生成单元301将截短的矢量标准化以形成文本描述符。

视觉描述符生成单元302被配置成通过散列函数H对每个检索的图像进行编码，以生成用于每个检索图像的二进制矢量、累积生成的二进制矢量，以及将累积的矢量量化为二进制矢量，从而将根据量化的二进制矢量形成每两个概念之间的视觉相关性(视觉描述符)。

具体而言，视觉描述符生成单元302可操作以实施如图3所示的下列步骤。在步骤S301处，对于概念其示例性图像由设置。使用M位基本散列函数H以M维二进制矢量H(I_k)进行编码(此处，用±1表示每个位)。在步骤S302处，视觉描述符生成单元302操作以将二进制矢量累积为A＝ΣH(I_k)。在步骤303处，视觉描述符生成单元302操作以将累积的矢量量化为二进制矢量，其被表示为视觉描述符simhash(c_i)＝sign(A)。

相关性装置40被配置成根据生成的文本描述符和视觉描述符来确定语义相关性，以将语义相关性和视觉相关性结合起来生成K最近邻(K-NN)图像网络系统。

通过使用传统方式可确定语义相关性。例如，针对短文本x，从网络搜索中获取片段的集合S(x)。片段是利用查询c由用于每个搜索结果条目的搜索引擎生成的短文本摘要。文本描述符生成单元301收集前N个搜索结果条目的片段，从而为x提供丰富的语义语境。随后，文本描述符生成单元301操作以通过使用词语矢量模型和余弦相似度计算S(x₁)与S(x₂)的文本相似度来确定两个文本x₁与x₂之间的相似度。

在作为文本描述符的结果矢量ntf(c_i)如图2所示确定之后，相关性装置40操作以通过下列规则来确定c_i与c_j之间的语义相关性：

S_Cor＝Cosine(ntf(c_i),ntf(c_j)). (1)

对于视觉相关性，可通过其对应示例性图像集合之间的视觉相似度进行测量。针对每个概念，其示例性图像集合由通过将概念用作查询关键字而从搜索引擎检索到的前K个(例如，300个)图像组成。该示例性图像集合由传统的sim散列(sim-hashing)算法进一步表示为二进制代码。该sim散列代码可被视作原始示例性图像集合的视觉标记。任何一对示例性图像集合之间的视觉相似度随后都可通过它们的sim散列代码之间的汉明距离的负值逼近。具体而言，一旦在步骤S303处由单元302确定了视觉描述符simhash(c_i)＝sign(A)，相关性装置40便操作以通过下列规则来确定c_i与c_j之间的视觉相关性：

V_C o r = 1 - \frac{1}{M} H a m D i s t (s i m h a s h (c_{i}), s i m h a s h (c_{j})) . - - - (2)

随后，相关性装置40操作以通过Cor＝S_cor+V_cor将语义相关性和视觉相关性结合起来。最后，通过将每个节点关联到其相关性最大的前K个近邻，系统100将VSCN构建成K最近邻(K-NN)图。

下文中，本申请还提出了形成用于网络图像的视觉语义复合网络系统的过程400。如图4所示，在步骤S401中，所述过程根据给定的查询关键字来检索多个图像和与多个图像相关联的多个文本。

在步骤S402中，所述过程确定检索文本和检索图像的语义概念和代表图像。

在步骤S403中，所述过程根据确定的语义概念和代表图像生成用于确定的语义概念的文本描述符和视觉描述符。步骤S403可包括以下步骤：根据生成的文本描述符和生成的视觉描述符来确定语义相关性和视觉相关性，如上文参考图2和图3所论述的。

在步骤S404中，所述过程分别根据生成的文本描述符和生成的视觉描述符来确定语义相关性和视觉相关性。具体而言，可以通过以下步骤生成每两个文本概念之间的语义相关性，即，收集对应于语义概念的多个文本片段；确定搜集的片段的词频矢量；截短计算的矢量从而保留矢量中的词频最高的多个词语；以及将截短的矢量标准化以生成所述文本描述符从而根据量化的二进制矢量来生成每两个文本概念之间的视觉相关性。可以通过以下步骤生成视觉相关性，即，通过散列函数对每个检索的图像进行编码以生成用于每个检索图像的二进制矢量；累积生成的二进制矢量；将累积的矢量量化为二进制矢量作为所述视觉描述符；以及根据截短的矢量来确定视觉相关性。上文已经论述了语义相关性和视觉相关性的生成，因此，将省略其详细描述。

在步骤S405中，过程400将语义相关性和视觉相关性结合起来，以生成视觉语义复合网络系统。

如本领域已知的，复合网络具有很多重要的特性，其中的一些利用提议的VSCN 100进行探索。研究这些特性不但能在微观层面上更好地理解网络图像集，而且还提供有助于包括CBIR和图像浏览的重要任务的有价值的信息，这将在后面进行描述论述。

1)小世界行为

小世界行为存在于很多复合网络中，例如，社交网络和万维网。这意味着，可通过较少数量的跃程从其他节点到达多数节点。研究这一现象是否也存在于VSCN 100中是很有趣的。小世界行为在一些应用中具有重要的暗示，例如，通过操纵VSCN 100进行的图像浏览。

由于VSCN 100是在本地构建的，因此，关注的是了解其如何全球连接。结果发现，即使对于小邻近尺寸(K＝5)，也已出现包括VSCN上的一半以上的节点的主导连接分量，如图3(a)所示。最大连接分量随着K快速增长，并且当K＝20时，覆盖96％的VSCN。因此，VSCN是连接良好的网络。

平均最短路径长度如下确定：

L = \frac{1}{| V | (| V | - 1)} Σ_{v_{i}, v_{j} &Element; V, v_{i} &NotEqual; v_{j}} d (v_{i}, v_{j}) . - - - (3)

V被定义为最大连接部件，以避免L的发散。图3(a)示出根据K变化的L。L在开始时便快速下降。针对K>20的情况，最大连接分量上的两个节点之间的平均间隔仅为约六个跃程。主导连接分量的存在以及其节点之间的小间隔表明有可能通过跟随VSCN 100的边缘来操纵VSCN100，从而激发出如下文将论述的新颖的图像浏览方案。在下文中，出于描述的目的，K将固定在20，但本申请不限于此。

2)入度分布

入度是复合网络中的重要量度。在VSCN 100上，节点具有相同的出度(例如，K＝20)，但它们的入度在0到500之间差别很大。只有1％的节点具有大于100的入度。一般来说，作为许多其他概念的近邻的代表和热门概念具有较高的入度，并且形成中枢结构。单独的概念具有零入度。它们一般是不常见的概念，例如，“短线程圆顶(geodesic dome)”和“ant grasshopper”，或者不具有语义含义的概念检测的失败，例如，“dscnjpg”。图5示出VSCN的一部分，其中概念具有较大的入度。可以识别由这些概念形成的若干语义区域，包括旅行、娱乐、墙纸和汽车，它们分别对应于绿色、黄色、深蓝和浅蓝区域。

下文中，将讨论用于通过视觉语义复合网络系统100来搜索图像的方法600。

一般来说，给定查询图像(图5(a))之后，通过基线方法或任何其他可用的方法来检索其在数据库中的最近邻。基于初始的检索结果，使用VSCN 100上的相关语义概念的较小集合来估计查询图像的语义含义。这些语义概念下的图像随后被搜集起来，以形成重排序池。池内部的图像基于它们与查询图像的视觉相似度进行排序，并且返回排序列表(图5(f))。VSCN带来两个关键益处：(1)随着搜索空间大大减少，重排序池比整个数据库显著包含更少的干扰，从而形成较优的检索结果。(2)重排序池比整个数据库含有更易管理的图像数量(几千相对数百万)。这允许使用更强大的特征和相似度测量，从而进一步提高性能。

具体而言，将参考图6来论述根据本申请的实施方式的用于通过视觉语义复合网络系统来搜索图像的方法600。在步骤601处，根据给定图像通过使用现有技术中的任何传统方式来获取图像列表。

在步骤S602处，将根据从步骤S601返回的列表来确定一组紧密相关的概念社区。

语义区域表明VSCN上存在社区结构。在复合网络的文献中，社区被称为具有紧密连接的节点的子图。在VSCN上，其对应于一组(例如，紧密)相关的语义概念，称为概念社区。为了找到此类社区，发明人采用现有技术中的基于图形的聚类算法，因为该算法的性能良好并且效率较高。所述算法通过将每个单独节点视作聚类来开始，随后以迭代方式合并紧密度最大的聚类，所述紧密度经由两个聚类之间的入度和出度的乘积进行测量。

发明人从聚类结果中观察到一些有趣的事实。第一，聚类的大小近似服从幂律分布，并且10％聚类的大小大于10。它们覆盖VSCN上52％的节点。第二，这些聚类对应于各种语义主题，例如，汽车、食物、植物和动物。

在步骤S603处，将根据在步骤S602中确定的社区来确定一组紧密相关的语义概念。

方法的一个关键步骤是估计查询图像的语义含义，这在两个层面上完成。在社区层面，其使用在上文中发现的概念社区的集合来估计查询图像的语义含义。由于概念社区组合了类似的概念，因此，估计相关社区比估计单独概念更可靠。随后，在概念层面，根据先前识别的社区来进一步识别相关概念的更小集合。这两个层面都充分利用了VSCN的结构信息，从而使得我们的方法更具有鲁棒性。

1.1 社区层面的估计

检测到的概念社区被称为。给定查询图像I_q，排在前面的图像的列表和它们到I_q的距离由基线检索算法(例如，ITQ散列法)返回。根据截短的列表，为每个T_i计算相关分值：

s (T_{i}) = Σ_{k = 1}^{N_{I}} \exp (\frac{- d_{k}}{σ}) \cdot χ [c (I_{k}), T_{i}] . - - - (2)

c(I_k)是数据库图像I_k所属的概念。如果c(I_k)∈T_i，则χ[c(I_k),T_i]是1，否则是0。。在计算了所有社区的相关分值之后，保留具有最大相关分值的前N_T。这些概念社区中包括的概念被收集起来并且表示为。

1.2 概念层面的估计

概念层面的估计结果使得我们能够集中于概念的小子集C'。为了从C'中最好地识别最相关的概念，我们共同使用两个信息源。第一个源是从基线检索算法返回的排序列表中得到的相关分值。类似于5.1节，对于每个概念c′_i∈C′，我们将初始相关分值计算为：

s (c_{i}^{'}) = Σ_{k = 1}^{N_{I}} \exp (\frac{- d_{k}}{σ}) \cdot 1 [c (I_{k}) = c_{i}^{'}], - - - (3)

其中1[·]是指示函数，并且σ与等式3中的相同。由于s(c′_i)并不非常可靠，因此，引入第二信息源，即，语义概念之间的相关性，以提高噪声相关分值。为此，我们通过从VSCN提取子图来进一步构建图形G′(V′,E′,W′)，其中V'是对应于C'的节点。E'是具有V'中的两个节点的边缘，以及W'是与E'相关联的权重。为了整合两个信息源，对G'执行重启随机游走(RWR)，其特征在于：

pⁿ⁺¹＝αP^Tpⁿ+(1-α)π, (4)

其中pⁿ是在第n步处在V'上的游走概率分布。P是从W'和得到的跃迁矩阵。等式5的物理含义可被解释为在每一步处，随机游走根据跃迁矩阵P沿着E'游走(其中概率为α)或从固定概率分布π重启(其中概率为1-α)。因此，分别并入到等式5的r.h.s.上的两个项中的两个信息源由RWR组合到平衡系数α。

RWR的均衡分布p被称为个性化页面等级(PageRank)矢量，其具有下列分析解：

p＝(1-α)(I-αP^T)^-1π, (5)

其中p的概率越大表示对应节点的相关性越高。根据p中的概率值对语义概念进行排序，并且使用前N_C个来表示查询图像的语义含义。

在步骤s604处，前N_C个概念的图像被搜集并且形成搜集图像的重排序池，所述搜集图像与查询图像相匹配。

本申请的一方面公开了一种帮助用户探索VSCN 100并且找到所感兴趣的图像的新浏览方案。用户通过将查询关键字输入系统来开始浏览。由于VSCN的尺寸很大，因此，其提供局部视图。该方案允许用户浏览两个空间，即，查询空间和本地概念空间，每个空间都只代表整个VSCN100的小子集。查询空间将通过相同查询生成的语义概念可视化。例如，“apple”的查询空间含有诸如“apple fruit”、“apple iphone”、“apple pie”的概念，以及它们的对应图像。本地概念空间将中心概念(例如，“appleiphone”)以及其可来自不同查询关键字的邻近概念(例如，“htc diamond”和“palm pixi”)可视化。通过这种方式，其将最相关概念的图像桥接起来，并且帮助用户访问更多感兴趣的图像，而无需受限于初始查询。

在浏览过程中，用户可以在两个空间之间自由切换。选择查询空间中的特定概念的用户进入本地概念空间，并且所选的概念成为中心概念。随后通过选择邻近概念，用户可以移动到新的概念空间。如果用户选择本地概念空间中的中心概念，那么他将移动回到中心概念所属的查询空间。通过这种方式，用户可操纵VSCN并且搜索目标图像。

本发明的实施方式可使用某些硬件、软件或者它们的组合来实施。此外，本发明的实施方式可适于计算机程序产品，所述计算机程序产品具体化在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于，磁盘存储器、CD-ROM、光学存储器等)。

在以上描述中，为了说明的目的，在单个实施方式中组合各个方面、步骤或部件。本公开不应被解释为要求保护的主题的所有公开的变型。所附权利要求书并入示例性实施方式的描述中，其中每项权利要求本身作为本公开的单独实施方式。

此外，通过考虑本公开的说明和实践，所属领域的技术人员将明白，在不脱离本公开的范围的情况下，可对所公开的系统和方法进行各种更改和变化。因此，说明和实例仅应被视作示例性的，而本公开的真实范围由所附权利要求书及其等同指定。

Claims

1.一种视觉语义复合网络系统，包括：

收集装置，其被配置成根据给定的查询关键字检索多个图像和与所述多个图像相关联的多个文本；

相关性装置，其被配置成分别根据生成的文本描述符和视觉描述符来确定语义相关性和视觉相关性，以及将确定的语义相关性和确定的视觉相关性结合起来生成所述视觉语义复合网络系统。

2.根据权利要求1所述的系统，其中所述系统包括K最近邻图网络系统，K是整数。

3.根据权利要求2所述的系统，其中所述相关性装置被配置成分别生成每两个所述语义概念之间的语义相关性和视觉相关性。

4.根据权利要求3所述的系统，其中所述描述符生成装置包括文本描述符生成单元，所述文本描述符生成单元被配置成：

收集对应于所述语义概念的多个文本片段；

确定收集的文本片段的词频矢量；

将确定的词频矢量截短从而保留所述词频矢量中的具有最高词频的多个词语；以及

将截短的词频矢量标准化以生成所述文本描述符，从而从标准化的词频矢量中生成每两个所述语义概念之间的所述语义相关性。

5.根据权利要求3所述的系统，其中所述描述符生成装置包括视觉描述符生成单元，所述视觉描述符生成单元被配置成：

通过散列函数对所述代表图像中的每个进行编码，以生成每个检索的图像的二进制矢量，

累积生成的二进制矢量；以及

将累积的矢量量化为二进制矢量作为所述视觉描述符，从而从所述二进制矢量生成每两个所述语义概念之间的所述视觉相关性。

6.根据权利要求5所述的系统，其中，所述语义相关性和所述视觉相关性结合生成所述视觉语义复合网络系统。

7.一种用于根据网络图像构成视觉语义复合网络系统的方法，包括：

根据给定的查询关键字检索多个图像和与所述多个图像相关联的多个文本；

分别确定检索文本和检索图像的语义概念和代表图像；

根据所述语义概念和所述代表图像生成文本描述符和视觉描述；以及

分别根据生成的文本描述符和生成的视觉描述符确定语义相关性和视觉相关性；

将所述语义相关性和所述视觉相关性结合起来生成所述视觉语义复合网络系统。

8.根据权利要求7所述的方法，其中根据所述生成的文本描述符和所述生成的视觉描述符确定语义相关性和视觉相关性的步骤包括：

生成每两个所述语义概念之间的语义相关性和视觉相关性。

9.根据权利要求8所述的方法，其中生成每两个所述语义概念之间的语义相关性的步骤包括：

收集对应于所述语义概念的多个文本片段；

确定收集的片段的词频矢量；

将计算的词频矢量截短，从而保留所述词频矢量中的具有最高词频的多个词语；以及

将截短的词频矢量标准化以生成所述文本描述符，从而从标准化的矢量中生成每两个所述语义概念之间的所述语义相关性。

10.根据权利要求8所述的方法，其中确定所述语义相关性的步骤包括：

通过散列函数对检索到的图像中的每个进行编码，以生成每个检索的图像的二进制矢量，

累积生成的二进制矢量；

将累积的词频矢量量化为二进制矢量作为所述视觉描述符；以及

从截短的词频矢量中确定所述语义相关性。

11.根据权利要求8所述的方法，其中确定所述视觉相关性的步骤包括：

累积生成的二进制矢量；

将累积的二进制矢量量化为二进制矢量，作为所述视觉描述符；以及

从截短的二进制矢量中确定所述视觉相关性。

12.根据权利要求11所述的方法，其中所述结合的步骤进一步包括：

13.一种用于通过视觉语义复合网络系统来搜索图像的方法，包括：

根据给定的查询图像获取图像列表；

根据获取的图像列表确定一组相关的概念社区；

根据确定的概念社区确定一组相关的语义概念；

根据确定的相关语义概念搜集前几个概念的图像；以及

14.一种用于通过语义概念浏览图像的方法，包括：

将查询关键字输入到显示系统中；

基于相同的查询生成多个语义概念，作为输入的关键字；

在所述显示系统的查询空间中，将生成的语义概念可视化；以及

响应于选择了从所述查询空间选择的概念，将显示系统由所述查询空间切换到本地概念空间，并在所述本地概念空间上展示选择的概念及其邻近概念。

15.根据权利要求14所述的方法，其进一步包括：

选择所述本地概念空间中的中心概念；以及

切换到所选择的概念所属的查询空间；

选择所述本地概念空间中的另一概念；以及