CN102197393B

CN102197393B - 基于图像的语义距离

Info

Publication number: CN102197393B
Application number: CN200980143703.7A
Authority: CN
Inventors: X-S·华; L·吴; S·李
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2008-10-27
Filing date: 2009-10-27
Publication date: 2014-12-24
Anticipated expiration: 2029-10-27
Also published as: WO2010062625A2; US20100106486A1; EP2344958A4; CN102197393A; WO2010062625A3; EP2344958A2; EP2344958B1; US8645123B2

Abstract

呈现基于图像的语义距离技术实施例，它们涉及建立语义概念之间基于图像的语义距离的量度。一般而言，这需要基于与语义概念相关联的图像集分别为每个概念计算语义概念表示。然后计算两个语义概念表示之间的差异度，来为这对概念产生上述的语义距离量度。

Description

基于图像的语义距离

背景技术

探究概念之间的语义关系是近来的热门研究课题，因为它在自然语言处理、对象检测和多媒体检索等领域有着广泛应用。值得注意的是，语义关系不仅是同义词(例如足球-英式足球)和概念相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性关系(例如飞机-机场)等关系。在该上下文中，并发性是指两个概念可能在日常生活而非文本文档中同时出现。更广泛地，与可以在文本文档领域中表示概念同现的术语“相似性”不同，术语“并发性”可以在视觉领域中表示概念同现或背景一致。

概述

本文所述的基于图像的语义距离技术实施例涉及建立语义概念之间基于图像的语义距离的量度。一般而言，这需要基于与每一概念相关联的图像集来分别为该概念计算语义概念表示。然后计算两个语义概念表示之间的差异度，来为这对概念产生上述的语义距离量度。在某些实施例中，语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式，并且差异度采用统计分布散度量度的形式。

某些实施例还包括潜在语义分析以捕捉在用于计算语义概念表示的相关图像集合中的概念的外观(appearance)的变化。在这些实施例中，建立语义概念之间的基于图像的语义距离量度通常需要基于与每个语义概念相关联的图像来为该概念计算语义概念表示，其中每个表示计入相关联的语义概念的外观的变化。一旦语义概念表示就绪，则计算一对语义概念表示之间的差异度以产生语义距离量度。在这种情形中，计算与这对语义概念表示中的第一个相关联的每个外观变化和与这对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。

应该注意，提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

参考以下描述、所附权利要求书以及附图，将更好地理解本发明的具体特征、方面和优点，附图中：

图1是概括示出用于建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。

图2是示出图1中过程的实现的框图，采用视觉语言模型和詹森-香农(Jensen-Shannon)散度来用于建立语义概念之间的基于图像的语义距离量度。

图3是概括示出用于在计入概念外观变化的同时建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。

图4是描绘了构成用于实现本文所述的基于图像的语义距离技术实施例的示例系统的通用计算设备的图示。

详细描述

在以下对基于图像的语义距离技术实施例的描述中，对附图进行了参考，附图构成了实施例的一部分且在附图中作为说明示出了可在其中实践该技术的具体实施例。可以理解，可以使用其它实施例并且可以做出结构改变而不背离本发明技术的范围。

1.0 基于图像的语义距离

语义概念之间的关系可以涉及同义词(例如足球-英式足球)或相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性(例如飞机-机场)之类的关系。某些语义概念更加紧密相关，诸如“飞机”和“机场”，而某些更加疏远，诸如“卫城(acropolis)”和“酒精(alcohol)”。本文所述的基于图像的语义距离技术实施例提供通过使用描绘概念的图像来量化概念之间关系的紧密度的方式。由于语义概念之间的关系是人类感知的知识并且80％的人类认知来自于视觉信息，因此通过视觉相关性而非通过文本文档中的概念同现来生成有关概念关系的人为知识是合理的。此外，视觉领域中的相关性不仅由图像中低级别视觉特征的频率表示，而且可以使用图像中这些低级别视觉特征之间的空间信息。例如，相同的视觉特征(即车轮)频繁同现在“车辆”和“摩托车”图像中，但是它们的邻近特征是不同的。由于忽视视觉特征之间的空间信息，这两个概念可能被混淆。然而，如果考虑这些视觉特征的邻近信息，概念之间的关系更加清晰。因此，视觉特征的安排在表示概念时也能提供信息。

鉴于上文，本文所述的基于图像的语义距离技术实施例能够建立语义概念之间基于图像的语义距离的量度。参照图1，这通常涉及首先基于与概念相关联的图像分别为每个概念计算语义概念表示(100)。这通常涉及首先基于与概念相关联的图像分别计算每个概念的语义概念表示(100)。然后计算两个语义概念表示之间的差异度，来产生这对概念的上述语义距离量度(102)。在某些实施例中，语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式，并且差异度采用统计分布散度量度的形式(有时还称为统计分布距离量度)。

具体而言，如图2所示，本文所述的基于图像的语义距离技术实施例是视觉领域中语义概念200、202(例如对象、场景)之间关系的新颖量度。对于每个概念，获得图像集204、206，在一个实施例中基于此，建立视觉语言模型208、210来捕捉概念的视觉特性。然后测量不同概念之间基于图像的语义距离，在一个实施例中，这采用对应视觉语言模型212之间詹森-香农(JS)散度计算的形式。

1.1 语义概念图像池

如上所述，由于80％的人类认知来自于视觉信息，因此通过日常生活中概念的并发来测量这些概念之间的语义距离是有意义的。为了模拟日常生活中的概念并发，应该在日常生活环境中执行概念关系学习过程。与人类观察系统类似，世界上的数码相机记录每天的现实日常生活。可以从大型日常生活照片池中挖掘概念之间的统计语义关系。为了实现对统计概念关系的偏见较小的估计，图像池应该非常大并且照片来源应该是独立的。

幸运的是，存在可用的基于web的图像池，它包括用描述关联图像的词句来标记的图像。这些词句通常涉及感兴趣的语义概念。例如，存在在线照片共享网站Flickr。该网站收集了由独立用户上传的超过10⁹个图像。此外，这些图像中的大量图像已被标注(即标记)。因此，这是学习概念语义关系的理想数据集。

为了提供概念之间语义距离的无偏见估计，需要足够大的无偏见图像数据集。此外，数据集中的图像应该包括图像与概念之间的连接信息。这可以通过采用Flickr 照片集作为图像池而满足。在一个实施例中，只有预定数量(例如1000)的用查询概念来标记的最高返回图像被用于表示每个查询概念。这避免了噪声标签的问题。

1.2 语义概念表示

为了分析照片池中的概念相关性，使用上述语义概念表示。该表示可以采用与语义概念相关联的图像的统计分布模型的形式。存在许多能够使用的计算机视觉模型，诸如词袋(BOW)模型和基于感兴趣区域(ROI)的模型。然而，在基于图像的语义距离技术的一个实施例中，使用视觉语言模型(VLM)。VLM是捕捉局部外观特征及其空间依存关系的有效视觉统计分析方法。如上所述，这在表征语义概念时比纯视觉特征分布更有辨别力。VLM的训练很快，这使该建模方法尤其适于大规模概念数据集。VLM的输出是图像碎片的视觉特征的条件分布，基于此可以定义严谨的距离量度。VLM还可以抑制噪声。实际包含目标概念的图像会共享某些视觉特征，这实际上对模型有贡献。在被错误标记的噪声样本中的视觉特征对最终VLM影响很小。

在操作中，VLM通过分析邻近图像碎片之间的空间依存关系来捕捉图像的统计语义。因此，统计语义可以表示为图像局部特征及其空间依存关系。具体而言，对于每个语义概念，通过上述描述性标签的帮助获得相关图像的集合。假设标记有相同概念的图像共享类似的外观特征及其排列模式。这形成概念的统计语义。将每个图像划分成尺寸相等的碎片，然后使用VLM计算这些碎片之间的条件依存关系以捕捉概念的视觉统计语义。

1.2.1 潜在主题视觉语言模型

在基于图像的语义距离技术的另一实施例中，将潜在语义分析结合到VLM中以捕捉概念外观变化。在处理概念外观变化中，传统VLM可能并不完善。这包括由于比例(例如近景/远景镜头)和取向(例如侧视/前视)以及诸如对象形状、照明、颜色、纹理等的其它属性而引起的外观变化。在这些情形中，将潜在主题分析结合到VLM中是可能的，并假设概念的每个外观变化对应于潜在主题Z_i。概率性潜在语义分析(pLSA)可以适于用户感兴趣的每个变化下概念的视觉特性。在以下段落中，详细地描述这一潜在主题视觉语言模型，以特征提取阶段开始并以潜在主题VLM生成阶段结束。

在特征提取阶段的一个实施例中，将每个图像划分成统一采样、尺寸相等的碎片。这是适当的，因为统一采样需要很少计算成本，并且其性能可以比得上使用显著检测或基于局部区域的分割等其它方法，但是如果需要也可以使用这些其它方法(以及类似方法)。对于每个碎片，使用8维纹理直方图来描述。每个纬度对应于沿八个量化方向之一的纹理梯度。可以使用常规方法来计算纹理直方图。接下来，将每个碎片的纹理直方图转换成视觉词w_xy。在一个实施例中，使用散列编码方案。

潜在主题VLM生成阶段通常涉及将潜在主题(外观变化)分析结合到VLM中以根据低级别视觉特征排列来表征每个概念C_i。这提供了对概念进行建模的有效方式。每个VLM以条件分布的形式来呈现，条件分布描述了在给定其近邻和潜在主题的情况下低级别视觉特征之间的空间依存关系。

根据所考虑的邻近视觉词的数量，可将视觉语言模型细分成一元语法(unigram)、二元语法(bigram)、三元语法(trigram)、或者一般情况下的n元语法(n-gram)模型。一元语法模型假设视觉词彼此独立。该模型实际上捕捉视觉词分布。二元语法模型假设视觉词依赖于其邻近特征之一，例如左侧最近邻。该模型在给定其近邻词之一的情况下计算每个视觉词的条件概率。三元语法模型假设视觉词依赖于其邻近词中的两个，例如左侧最近邻和上侧最近邻。因此，一般而言，n元语法模型假设视觉词依赖于其近邻词中的n-1个。然而，应该注意，虽然更高阶模型可以更有辨别力，但是随着模型阶数增大，参数数量会指数增长。由于参数是从训练集中n元语法的出现来估计的，因此如果阶数n过大，相对受限的训练集会遭遇稀缺问题。因此，辨别力和稀缺之间存在折衷。

此外，还有可能使用组合模型。在组合模型中，使用一个以上的n元语法模型来生成参数。例如，可以从首先使用二元语法方法、然后使用三元语法方法生成的参数中计算与VLM相关联的条件分布。可以使用各方法的任何组合。然而，虽然使用方法组合可以产生更有辨别力的结果，但是参数数量的增加会增加处理成本。因此，辨别力和成本之间存在折衷。

在测试实施例中，选择三元语法模型来捕捉概念，但是如上文所指出的，可以改为使用更高或更低(或组合)阶模型。在三元语法模型中，理念是估计条件分布

P (w_{xy} | w_{x - 1, y}^{2}, C), - - - (1)

其中C是语义概念，且表示二元语法w_x-1，yw_x，y-1。由于视觉概念可以具有各种外观，所以使用多个模型来表示概念是适当的。为此，引入潜在变量z来表示概念变化。由于该变量被隐藏，因此将pLSA结合到VLM中以对每个变化下的概念进行建模。

因此，潜在主题VLM估计其中表示概念C的第k外观变化。该潜在主题三元语法建模过程可以用公式表示如下。

P (w_{xy} | w_{x - 1, y}^{2}, d_{j}) = Σ_{k = 1}^{K} P (w_{xy} | w_{x - 1, y}^{2}, z_{k}^{C}) P (z_{k}^{C} | d_{j}) - - - (2)

x＝1，…，m；y＝1，…，n；j＝1，…，N。

其中表示概念C中的第j个图像。是概念C中第k个潜在主题。K是潜在主题的总数，它可以根据经验确定。使用期望值最大化(EM)技术来估计参数和 EM技术的目标函数是最大化概念及其视觉词排列A_w的联合分布。

最大化p(A_w，C) (3)

p (A_{w}, C) = \underset{d_{j} &Element; C}{Π} \underset{x, y}{Π} P (w_{xy} | w_{x - 1, y} w_{x, y - 1}, d_{j}) - - - (4)

为了获得在分析上易处理的密度估计，可以使用交叉更新方案，其中同时估计和然后，通过这两个估计来计算 (方程(11))。如下执行E步骤和M步骤。

E步骤：

Q_{2} (z_{k}^{C} | d_{j}^{C}, w_{x - 1, y}^{2}) &LeftArrow; P (z_{k}^{C} | d_{j}^{C}) P (w_{x - 1, y}^{2} | z_{k}^{C}) - - - (5)

Q_{3} (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3}) &LeftArrow; P (z_{k}^{C} | d_{j}^{C}) P (w_{xy}^{3} | z_{k}^{C}) - - - (6)

Q (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3}) &LeftArrow; P (z_{k}^{C} | d_{j}^{C}) P (w_{xy} | w_{x - 1, y}^{2}, z_{k}^{C}) - - - (7)

M步骤：

P (w_{x - 1, y}^{2} | z_{k}^{C}) &LeftArrow; \frac{Σ_{j} n (d_{j}^{C}, w_{x - 1, y}^{2}) Q_{2} (z_{k}^{C} | d_{j}^{C}, w_{x - 1, y}^{2})}{Σ_{x, y, j} n (d_{j}^{C}, w_{x - 1, y}^{2}) Q_{2} (z_{k}^{C} | d_{j}^{C}, w_{x - 1, y}^{2})} - - - (8)

P (w_{xy}^{3} | z_{k}^{C}) &LeftArrow; \frac{Σ_{j} n (d_{j}^{C}, w_{xy}^{3}) Q_{3} (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3})}{Σ_{x, y, j} n (d_{j}^{C}, w_{xy}^{3}) Q_{3} (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3})} - - - (9)

P (z_{k}^{C} | d_{j}^{C}) &LeftArrow; \frac{Σ_{x, y} n (d_{j}^{C}, w_{xy}^{3}) Q (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3})}{Σ_{x, y, k} n (d_{j}^{C}, w_{xy}^{3}) Q (z_{k}^{C} | d_{j}^{C}, w_{xy}^{3})} - - - (10)

P (w_{xy} | w_{x - 1, y}^{2}, z_{k}^{C}) &LeftArrow; \frac{P (w_{xy}^{3} | z_{k}^{C})}{P (w_{x - 1, y}^{2} | z_{k}^{C})} - - - (11)

P (z_{k}^{C} | C) &LeftArrow; \underset{d^{C} &Element; C}{Σ} P (z_{k}^{C} | d^{C}, C) P (d^{C} | C) - - - (12)

输出是每个潜在主题的三元语法的条件分布， k＝1，…，K.

1.3 语义距离量度

为了测量一对语义概念表示之间的距离，在一个实施例中，计算这些表示之间的詹森-香农(JS)散度的平方根。如果两个概念更有可能相关，则其视觉语言模型的JS散度平方根往往较小；否则较大。JS和Kullback-Leibler(KL)散度是两个分布之间的常用相似性测量。虽然可以使用KL，但是JS散度被演示成对称并满足三角不等式。而且已知詹森-香农散度的平方根是一个度量(metric)。由于期望定义各概念之间的距离度量，因此使用JS散度平方根是适当的。

在使用潜在主题VLM计入概念外观变化的基于图像的语义距离技术实施例中，该距离通常被定义成在与一对语义概念表示中的第一个相关联的每个条件分布和与这对语义概念表示中的另一个相关联的每个条件分布之间詹森-香农散度和的平方根。

例如，在使用三元语法方法来计算潜在主题VLM的条件分布的情形中，令和分别是潜在主题和下的三元语法条件分布。表示概念C₁的第i个潜在主题，表示概念C₂的第j个潜在主题。它们之间的K-L散度被定义为

D_{KL} (P_{z_{i}^{C_{1}}} | P_{z_{j}^{C_{2}}}) = \underset{l}{Σ} P_{z_{i}^{C_{1}}} (l) \log \frac{P_{z_{i}^{C_{1}}} (l)}{P_{z_{j}^{C_{2}}} (l)} - - - (13)

其中分别对应于这两个分布中第l个三元语法的概率密度。就信息理论而言，KL散度实际上是两个视觉语言模型之间相互熵的测量。

D_{KL} (P_{z_{i}^{C_{1}}} | P_{z_{j}^{C_{2}}})

= - \underset{l}{Σ} P_{z_{i}^{C_{1}}} (l) \log P_{z_{j}^{C_{2}}} (l) + \underset{l}{Σ} P_{z_{i}^{C_{1}}} (l) \log P_{z_{i}^{C_{1}}} (l)

= H (P_{z_{i}^{C_{1}}}, P_{z_{j}^{C_{2}}}) - H (P_{z_{i}^{C_{1}}}) - - - (14)

其中是两个分布的交叉熵，并且是的熵。根据吉布斯(Gibbs)不等式，当且仅当等于时，它为零。

基于KL散度来定义JS散度，以定义这些视觉语言模型之间的距离度量(方程(15))。

D_{JS} (P_{z_{i}^{C_{1}}} | P_{z_{j}^{C_{2}}}) = \frac{1}{2} D_{KL} (P_{z_{i}^{C_{1}}} | M) + \frac{1}{2} D_{KL} (P_{z_{j}^{C_{2}}} | M) - - - (15)

M = \frac{1}{2} (P_{z_{i}^{C_{1}}} + P_{z_{j}^{C_{2}}}) - - - (16)

其中M是和的平均。已经演示了詹森-香农散度的平方根是一个度量。鉴于此，在一个实施例中，可以将两个概念C₁和C₂之间基于图像的语义距离计算为在与概念C₁的潜在主题VLM相关联的每个条件分布和与概念C₂的潜在主题VLM相关联的每个条件分布之间计算的加权JS散度的总和的平方根，如下：

D (C_{1}, C_{2}) = \sqrt{Σ_{i = 1}^{K} Σ_{j = 1}^{K} P (z_{i}^{C_{1}} | C_{1}) P (z_{j}^{C_{2}} | C_{2}) D_{JS} (P_{z_{i}^{C_{1}}} | P_{z_{j}^{C_{2}}})} - - - (17)

其中D(C₁，C₂)是语义距离量度，是表示给定C₁的情况下潜在主题概率的加权因子，并且是表示给定C₂的情况下潜在主题概率的加权因子。这些加权因子表示在与一概念相关联的各图像之间该概念的特定变化的重要性(概率或频率)。使用它们以使得所得语义距离量度受到被测量语义概念图像中更普遍的变化影响更大。

1.4 给定概念外观变化的情况下基于图像的语义距离

鉴于上文，可以实现基于图像的语义距离实施例以在计入概念外观变化的同时建立一对语义概念之间的基于图像的语义距离量度。这在图3的示例性实施例中概括地示出。参照图3基于与概念相关联的图像来计算每个语义概念的语义概念表示，其中各表示中的每个表示计入在用于计算该表示的图像中描绘的相关联的语义概念的外观的变化(300)。在某些实施例中，计算语义概念表示需要使用潜在主题视觉语言模型，该模型以所考虑的每个变化的条件分布的形式来捕捉外观变化的视觉特征，如上所述。一旦语义概念表示就绪，随后计算一对语义概念表示之间的差异度以产生语义距离量度，其中该计算需要计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合(302)。在某些实施例中，后一任务涉及将差异度计算为在与该对语义概念中的第一个相关联的每个条件分布和与该对语义概念中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根。对于每个所计算的詹森-香农散度，加权可以基于与第一语义概念的条件分布相关联的图像中变化的重要性(概率或频率)以及与另一语义概念的条件分布相关联的图像中变化的重要性。

2.0 视觉概念网络

可以使用基于图像的语义距离来构建视觉概念网络。视觉概念网络(VCNet)是图G(V，E，W)，其中概念是节点v_i∈V，i＝1，…，N且两个概念之间的语义关系是边e(v_i，v_j)∈E，i，j＝1，…，N。节点之间基于图像的语义距离由边的长度(权重)表示，w∈W。如果两个概念具有大的基于图像的语义距离，则它们之间的边较长；否则较短。

为了避免概念节点的重叠，可以采用力指向图布局技术。通常，节点之间的边可以表示为吸引力，而不共享边(tie)的节点被某种约束推开以便于防止重叠。

VCNet在许多多媒体相关任务中是有用的，诸如知识表示、多媒体检索等等。这一概念网络以图形方式对概念关系进行建模。此外，它可以维护大得多并且不断增长的语料库。VCNet的最直接应用之一是概念群集。该任务旨在将图像标签中的概念或描述进行群集以帮助发现关于图像的主要主题和概要。使用VCNet，带有语义连接的概念更可能被群集在一起。VCNet的另一个应用是基于内容的web图像/视频注释，其中通用范例是通过分类来注释图像或视频帧。这是通过考虑概念是彼此独立的或者将概念关系结合到模型中来完成的。VCNet还具有许多其它可能应用，诸如查询扩展、注释细化等等。

3.0 概念群集

基于图像的语义距离还可以直接用于概念群集。概念群集广泛地用于文本领域中的主题检测和概要。存在与web图像相关联的许多标签和描述。概念群集方法通常使用这些标签和描述来检测这些图像的主要主题或概要。然而，图像中主题概要的焦点可以与文本焦点不同。例如，图像更可能聚焦在主要对象或场景上，而文本更多地聚焦在故事或作者观点上。因此，文本领域可用的概念距离量度可能不如视觉领域的特定距离量度一样表现良好。

4.0 图像注释

对图像的各概念进行自动注释在web图像检索和浏览中非常重要。现有技术中大多数图像注释方法以隔离方式检测多个语义概念，这忽视了概念可以相互关联的事实。注释过程的生产模型可以表示为方程(18)。

w^{*} = \arg \max_{w &Subset; V} P (w, I_{u}) - - - (18)

其中w是注释关键词，w^*是最适合关键词。I_u表示未标注图像。该注释过程等于联合概率P(w，I_u)的最大化。注释性能可以通过考虑概念关系而进一步提高。

基于这一动机，提出双跨媒体相关模型(DCMRM)。该模型假设观察到注释关键词w和图像I_u的概率在给定关键词v的情况下是相互独立的，并且该相关模型被表示如下。

w^{*} = \arg \max_{w &Subset; V} \underset{v &Element; V}{Σ} P (I_{u} | v) P (w | v) P (v) - - - (19)

其中w和v是两个注释关键词，P(I_u|v)表示在给定词v的情况下未标记图像I_u的概率。P(w|v)表示给定词v的情况下词w的概率。基于图像的语义距离被用于计算条件概率P(w|v)。

5.0 计算环境

现在将描述其中可实现本文所描述的基于图像的语义距离技术实施例的各部分的合适计算环境的简要、一般描述。各技术实施例可用于众多通用或专用计算系统环境或配置。适合的公知计算系统、环境和/或配置的示例包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、包括以上系统或设备的任一个的分布式计算环境等等。

图4示出合适的计算系统环境的示例。计算系统环境仅为合适的计算环境的一个示例，并非旨在对本文所描述的基于图像的语义距离技术实施例的使用范围或功能提出任何限制。也不应将该计算环境解释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图4，用于实现此处所描述的各实施例的示例性系统包括计算设备，诸如计算设备10。在其最基本的配置中，计算设备10通常包括至少一个处理单元12和存储器14。取决于计算设备的确切配置和类型，存储器14可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。该最基本配置在图4中由虚线16来示出。另外，设备10还可具有附加特征/功能。例如，设备10还可包含附加存储(可移动和/或不可移动)，包括但不限于磁盘、光盘或磁带。这样的附加存储在图4中由可移动存储18和不可移动存储20例示。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储器14、可移动存储18和不可移动存储20都是计算机存储介质的示例。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储所需信息并且可由设备10访问的任何其它介质。任何这样的计算机存储介质可以是设备10的一部分。

设备10还可包含使该设备能与其它设备进行通信的通信连接22。设备10还可以具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备、照相机等输入设备24。还可以包括诸如显示器、扬声器、打印机等输出设备26。所有这些装置在本领域中都是众所周知的，因此不必在此详细讨论。

此处所描述的基于图像的语义距离技术实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。此处所描述的各实施例还能在其中任务由通过通信网络链接的远程处理设备完成的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。

6.0 其他实施例

应当注意，可以按所需的任何组合来使用本说明书全文中的上述实施例的任一个或全部以形成另外的混合实施例。另外，尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于建立语义概念之间基于图像的语义距离的量度的计算机实现的方法，包括：

基于与概念相关联的图像分别计算每个概念的语义概念表示(100)，其中所述语义概念表示中的每一个表示计入在用于计算该语义概念表示的图像中所描绘的相关联的语义概念的外观的变化，其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式，并且所述统计分布模型是视觉语言模型，每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性；以及

计算两个语义概念表示之间的差异度以产生该对相应语义概念的基于图像的语义距离量度(102)，其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。

2.如权利要求1所述的方法，其特征在于，所述语义概念表示之间的差异度采用统计分布散度的形式。

3.如权利要求2所述的方法，其特征在于，所述统计分布散度是所述统计分布模型之间的詹森-香农散度计算的平方根。

4.如权利要求1所述的方法，其特征在于，所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的对象。

5.如权利要求1所述的方法，其特征在于，所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的场景。

6.如权利要求1所述的方法，还包括以下过程动作：计算多对语义概念中每一对之间的基于图像的语义距离量度，以及使用这些量度来构建视觉概念网络，所述视觉概念网络包括具有表示每个语义概念的分开节点和连接表示在每个经连接节点之间计算的基于图像的语义距离量度的节点的边的图。

7.如权利要求1所述的方法，其特征在于，还包括以下过程动作：计算多对语义概念中每一对之间的基于图像的语义距离量度，以及在语义概念群集应用中使用这些量度。

8.如权利要求1所述的方法，其特征在于，还包括以下过程动作：计算多对语义概念中每一对之间的基于图像的语义距离量度，以及在图像注释应用中使用这些量度。

9.一种用于建立一对语义概念之间的基于图像的语义距离的量度的计算机实现的系统，包括：

用于基于与所述概念相关联的图像分别计算每个语义概念的语义概念表示的装置，其中所述语义概念表示中的每一个表示计入在用于计算该表示的图像中所描绘的相关联的语义概念的外观的变化(300)，其中所述语义概念表示各自采用与对应的语义概念相关联的图像的统计分布模型的形式，并且所述统计分布模型是视觉语言模型，每个所述统计分布模型捕捉与对应的语义概念相关联的图像的视觉特性，以及

用于计算一对语义概念表示之间的差异度以产生基于图像的语义距离量度的装置，其中计算差异度包括计算与所述语义概念表示中的第一个相关联的每个外观变化和与所述语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。

10.如权利要求9所述的系统，其特征在于，所述外观的变化可归因于比例、取向、对象形状、照明、色彩、和纹理的变化中的至少一个。

11.如权利要求9所述的系统，其特征在于，用于计算语义概念表示的装置包括用于使用潜在主题视觉语言模型计算每个语义概念表示的子模块，所述潜在主题视觉语言模型以每个所考虑变化的条件分布的形式来捕捉所述外观变化的视觉特征。

12.如权利要求11所述的系统，其特征在于，在计算语义概念表示的潜在主题视觉语言模型之前，与所述表示的语义概念相关联的每个图像被表征为视觉词集合。

13.如权利要求11所述的系统，其特征在于，用于计算一对语义概念表示之间的差异度的装置包括用于将差异度计算为在与该对语义概念表示中的第一个相关联的每个条件分布和与该对语义概念表示中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根的子模块，其中对于所计算的每个詹森-香农散度，加权是基于与第一语义概念表示的条件分布相关联的图像中变化的重要性以及与另一语义概念表示的条件分布相关联的图像中变化的重要性的。