CN102144231A

CN102144231A - 用于基于文本的图像搜索结果重新排序的自适应视觉相似性

Info

Publication number: CN102144231A
Application number: CN2009801325309A
Authority: CN
Inventors: F·闻; X·唐
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2008-06-16
Filing date: 2009-06-16
Publication date: 2011-08-03
Also published as: EP2300947A2; EP2300947A4; US20090313239A1; WO2010005751A3; WO2010005751A2

Abstract

描述了一种根据与用户选择图像的视觉相似性对按某种相关性估计(例如，根据基于文本的相似性)被初始排序的图像重新排序的技术。接收用户选择的图像并将其分类到意图类中，诸如景观类、肖像类等等。使用该意图类来确定如何比较其他图像的视觉特征和用户选择的图像的视觉特征。例如，比较操作可以取决于为用户选择的图像确定哪个意图类来使用不同的特征加权。其他图像基于其所计算的与用户选择的图像的相似性来重新排序，并作为查询结果返回。还描述了使用实际的用户提供的相关性反馈来重新调整特征权重。

Description

用于基于文本的图像搜索结果重新排序的自适应视觉相似性

背景

用户可以在因特网上搜索的东西之一是图像。一般而言，用户键入一个或多个关键词，希望找到某种类型的图像。图像搜索引擎随后基于所输入的文本来查找图像。例如，搜索引擎可以返回按从图像文件名和环绕文本中提取的文本关键词来排序的成千上万的图像。

然而，当代商业因特网范围的图像搜索引擎提供了非常差的用户体验，因为许多所返回的图像是不相关的。有时候，这是有歧义的搜索术语导致的结果，例如“林肯”可以指的是著名的亚伯拉罕·林肯、汽车品牌、内布拉斯加州的州府等等。然而，即使在较少歧义时，图像表示及其意义之间的语义间隙使得很难在受到许多不相关图像的污染的因特网范围的数据库上提供良好的结果。在按相关性对图像排序时使用视觉特征可能是有帮助的，但至今为止这种使用在因特网范围的图像搜索引擎中花费了太多的时间和空间上的成本。

概述

提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在以限制所要求保护的主题的范围的任何方式来使用。

简言之，此处描述的主题的各方面涉及通过其来接收用户选择的图像、将用户选择的图像分成意图类并将其与其他图像进行比较以获得相似性的技术，其中比较操作取决于意图类来使用。例如，比较操作可以取决于被分类到哪个意图类来使用不同的特征加权。其他图像基于其所计算的与用户选择的图像的相似性来重新排序。

在一方面，描述了接收对应于一组图像和一个所选图像的数据。所选图像被分类到意图类中，进而使用该意图类来从多个可用比较机制(例如，其他特征权重集)之中选择一种比较机制(例如，一组特征权重)。每一图像被特征化，在比较特征时使用所选比较机制来确定表示每一其他图像相对于所选图像的相似性的相似性分数。图像可以根据每一图像相关联的相似性分数来重新排序并作为经重新排序的搜索结果被返回。

结合附图阅读以下详细描述，本发明的其他优点会变得显而易见。

附图简述

作为示例而非限制，在附图中示出了本发明，附图中相同的附图标记指示相同或相似的元素，附图中：

图1是表示在其中搜索图像并基于用户选择按可能改进的相关性重新排序图像的示例因特网搜索环境的框图。

图2是表示用于基于用户选择重新排序图像的示例自适应图像后处理机制的框图。

图3是示出基于查询图像分类和图像特征重新排序图像所采取的示例步骤的流程图。

图4是表示基于相对于相关性的实际用户反馈来重新调整模型的框图。

图5示出可以将本发明的各方面并入其中的计算环境的说明性示例。

详细描述

此处描述的技术的各方面一般涉及基于图像之间的视觉相似性重新排序基于文本的图像搜索结果。在接收到响应于关键词查询的图像之后，用户可以提供关于特定图像的实时选择，例如，通过在一个图像上点击来将该图像选择为查询图像(例如，图像本身和/或其标识符)。随后，基于该图像的类来对其他图像重新排序，使用该图像的类来对查询图像的一组视觉特征相对于其他图像的视觉特征进行加权。

应当理解，此处阐述的任何示例都是非限制性示例。例如，此处描述和使用来表征图像的特征和/或类仅仅是可以使用的某些特征和/或类，且并非需要使用的所有特征和/或类。如此，本发明不限于此处所描述的任何特定实施例、方面、概念、结构、功能或示例。相反，在此所描述的实施例、方面、概念、结构、功能或示例中的任何一个都是非限制性的，并且本发明可以按一般在计算、联网和内容检索中提供益处和优点的各种方式来使用。

如图1概括地表示的，示出了因特网图像搜索环境，在其中，客户机(用户)将初始查询102提交给图像搜索引擎104，如标有带圈的数字一(1)的箭头概括地表示的。如图所示，图像搜索引擎104访问一个或多个数据存储106并且响应于初始查询102提供一组图像108(带圈的数字二(2))。图像基于文本按相关性进行排序。

如标有带圈的数字三(3)和数字四(4)的箭头概括地表示的，用户可以经由重新排序查询110向图像搜索引擎104提供一选择。通常，这通过将“查询图像”选为该选择来完成，诸如通过按照请求重新排序的方式在图像中的一个上点击。

当搜索引擎104接收到该重新排序查询110时，图像搜索引擎调用自适应图像后处理机制112来将初始结果重新排序(带圈的数字五(5)和六(6))到重新排序查询响应114中，所述重新排序查询响应114随后作为经重新排序的图像被返回(带圈的数字七(7))。

在一个示例实现中，重新排序基于如下所述的查询图像的分类(例如，景观类图像、肖像类图像等等)。然而，注意，用户选择可以不仅仅包括查询图像，例如，用户可以诸如从类列表中提供意图分类本身和所述查询图像一起来指定类似于“对看上去像该查询图像但却是肖像而非这种图像类型的图像进行排序”的内容；出于简洁的目的不在下文中描述这种选择，相反改为将分类委托给自适应图像后处理机构112。

一般而言，自适应图像后处理机构112包括根据所返回的图像与查询的相似性来对这些图像重新排序的实时算法。更具体地，如图2所示，搜索引擎将图像数据和用户选择(例如，查询图像)发送给自适应图像后处理机构112。注意，只要可以适当地处理图像就不必发送图像本身而发送标识符。

如图2所表示的，图像/用户选择208包括可以由意图分类机构220根据一组预定“意图”来分类的查询图像218，诸如将查询图像分类到以下描述的意图类中的一类222中。此外，查询图像218可以由特征化器机构224处理成各种特征值228，诸如以下描述的那些特征值。注意，分类和/或特征化可以按需动态地完成，或者可以预先计算并从一个或多个高速缓存228中检索。例如，可以保存经常被选为查询图像的流行图像的类和/或特征值以供更高效的操作。

其他图像被类似地特征化成其特征值。然而，代替直接将这些特征值与查询图像的特征值进行比较来确定与查询图像218的相似性，可以改为首先基于类相对于彼此对特征加权。换言之，选择不同的比较机制(例如，不同的权重)用于比较特征的相似性取决于该查询图像被分类到哪个类中，即，该查询图像的意图。为此，特征比较机构230从先前训练和/或计算的那些比较机制之中获得合适的比较机制232(例如，存储在数据存储中的一组特征权重)。排序机构234可以在将各种其他图像与查询图像比较时操作，或者基于相关联的分数来向后排序图像，然后提供最终经重新排序的结果114。

转向基于类的特征权重的概念，意图反映了可以组合不同特征来提供不同类别的图像的更好结果的方式。对每一意图类别有差别地调整图像重新排序(例如，经由不同的特征权重)。实际结果已经证明，通过有差别地分类图像，提高了关于相关性的整体检索性能。

为了从诸如色彩、形状、纹理等不同角度表征图像，此处描述了一组示例特征。这些特征在描述图像的内容方面是有效的，并且就其计算和存储复杂性而言使用高效。然而，在给定模型中可以使用少于所有这些所例示的特征和/或可以使用其他特征来代替这些示例特征，或除了这些示例特征之外可以使用其他特征。

描述图像的色彩组成的一个特征一般被称为色彩签名。为此，在对LAB色彩空间中的像素色彩进行k-均值聚类之后，取各聚类中心及其相对比例作为签名。用于解决图像的不同部分的不同重要性的一种已知的色彩签名被称为Attention Guided Color Signature(注意力引导色彩签名)(ASig)；可以使用注意力检测器来计算图像的特征图，并由该特征图对k-均值聚类执行加权。可以使用已知(例如，Earth Mover距离，即EMD)算法来高效地计算两个ASig之间的距离。

使用另一(并且认为是新的)特征，“Color Spatialet(色彩小空间)”特征来表征图像中的色彩的空间分布。为此，首先将图像由规则网格分成n×n片。在每一片中，将片的主色彩计算为k-均值聚类之后的最大聚类。图像由Color Spatialet(CSpa)，n²个色彩值的向量来表征；在一个实现中，n＝9。在计算两个CSpa A和B的距离时可以使用下式来解决图像中的对象的某种空间移动和大小调整：

d (A, B) = Σ_{i = 1}^{n} Σ_{j = 1}^{n} \min [d (A_{i, j}, B_{i &PlusMinus; 1, j &PlusMinus; 1})] - - - (1)

其中A_i，j表示图像中第(i，j)个块的主色彩。

Gist是表征图像的整体外观的一种已知方式，并且因此可将其用作特征，如来度量两个自然景观图像之间的相似性。Gist可以突出共有相似语义场景类别的图像。

Daubechies Wavelet(Daubechies小波)是另一特征，基于各频带中的小波系数的二阶矩来表征图像中的纹理特性。更具体地，使用Daubechies-4小波变换(DWave)，该变换由某一给定支集的最大数量的零矩来表征。

SIFT是同样可以用来表征图像的一个已知特征。更具体地，展示在对象识别任务方面具有出众表现的局部描述符。已知的典型的局部描述符包括SIFT和Geometric Blur(几何模糊)。在一个实现中，使用128-维SIFT来描述Harris兴趣点周围的区域。通过从来自数据库的随机选择的10000个图像的集中提取的150万个SIFT描述符的集上执行分层k-均值来获得450个词的码本。随后该码本量化每一图像内部的描述符。可以使用tf-idf(项频率-逆文档频率)来计算两个SIFT特征的距离，这在考虑词的相对重要性的信息检索中是一种常见的方法。

描述了边缘取向的直方图的Multi-Layer Rotation Invariant Edge Orientation Histogram(多层旋转不变的边缘取向直方图)(MRI-EOH)由于其对光照变化和移动的不变性而长期在可变视觉应用程序中使用。在比较两个EOH时结合旋转不变性，得到多层旋转不变的EOH(MRI-EOH)。为了计算两个MRI-EOH之间的距离，旋转其中的一个来最佳地匹配另一个，并取该距离作为两者之间的距离。以此方式，在某种程度上结合了旋转不变性。注意，在计算MRI-EOH时，使用阈值参数来过滤掉弱边缘；一个实现使用多个阈值来得到多个EOH来以不同比例表征图像边缘分布。

另一特征基于梯度的直方图(HoG)，即规则网格所划分的图像块中的梯度的直方图。HoG反映了边缘在图像的不同部分上的分布，并且对于具有强、长边缘的图像特别有效。

对于面部特征，面部及其外表的存在给出了图像的清晰语义解释。可以对图像中的每一个使用已知的脸部检测算法来获得面部数量、面部大小和位置以作为面部特征(脸)来从“面部”角度描述图像。将两个图像之间的距离计算为面部数量差、平均面部大小和平均面部位置之和。

有了从多个方面来表征图像的该组特征，可以组合这些特征来作出关于查询图像和任何其他图像之间的相似性s_i(·)的决定。然而，将不同的特征组合在一起是重要的。考虑有F个不同的特征来表征图像。图像i和j之间在特征m方面的相似性被表示为s^m(i，j)。为每一图像i定义向量αi来表达其对不同特征的具体“观点”。αi_m越大，第m个特征对于图像i就越重要。在不丧失通用性的情况下，一条约束是α≥0且||α1||＝1，提供了对图像i局部相似性的度量：

s_{i} (i, \cdot) = Σ_{m = 1}^{F} α_{im} s^{m} (i, \cdot) - - - (2)

对于任意不同的i，对这些相似性具有不同的强调。例如，如果用户选择的查询图像是一般的景观图像，则通过在组合特征时赋予场景特征较大的权重来强调场景特征，而如果查询图像是集体照，则更多地强调面部特征。这种对特征的具体需要在此处被称为意图(Intention)的权重α中反映。

为了使不同的特征共同作用于具体图像，则根据不同的查询图像局部地调整特征权重。如以上概括地描述的，一种机制/算法涉及通过意图分类来推断局部相似性。一般而言，如同对自然图像的人类感知，图像一般可以被分类成典型的意图类，诸如在以下意图表中阐述的(注意，在给定模型中可以使用少于所有这些所例示的类，和/或可以使用其他类来代替这些示例类，或除了这些示例类之外可以使用其他类)：

一般对象	包含一般对象的特写的图像
		简单背景对象	带有简单背景的对象
景观	景观图像

人物	一般带有人物的图像
		肖像	包含肖像的图像(比“人物”意图更具体)。
其他	基于以上没有清晰意图的图像

虽然几乎可以使用任何类型的分类器，此处描述了一种用于将每一查询图像分类到意图类中并将具体特征组合赋予每一分类的示例试探加权算法。一般而言，给定查询图像，可以由试探算法通过带有基于查询图像的视觉特征的规则的投票过程来决定其意图分类。例如，可以使用以下规则；(然而，注意，意图分类算法不限于这种基于规则的算法)：

1.如果图像包含脸，则增加“人物”和“肖像”的得分

2.如果图像只包含带有相对较大尺寸的一张脸并且这张脸靠近中心，则增加“肖像”的得分

3.如果图像示出强方向性(EOH的峰度)，则增加“景观”、“一般对象”和“带有简单背景的对象”的得分

4.如果CSpa特征的变化很小，即色彩均匀，则增加“景观”的得分

5.如果边缘能量较大，则增加“一般对象”和“带有简单背景的对象”的得分

6.如果边缘能量主要分布在图像中央，则增加“带有简单背景的对象”的得分。

为了将这些先验规则统一成训练框架，定义了贡献函数r_i(·)来表示具体的图像特征对查询图像Q的意图i的贡献。意图i的最后得分可以被计算为：

f_{i} (Q) = Σ_{m = 1}^{F} r_{i} (Q_{m}) - - - (3)

该等式是查询图像Q的F个特征Q_m的和。贡献函数中的每一项具有形式

并且是圆锥形的，意味着只有当x在c周围特定范围内时才增加得分。不同的意图具有不同的参数，这些参数可以通过在小训练集中的交叉确认来训练以最大化性能。具有最高得分的意图是该查询图像Q的意图。

对于意图专用特征融合，在每一意图类别中，预先训练最优权重α来实现该意图中的“最佳”性能：

α^{*} = \underset{α}{\arg \max} \underset{i}{Σ} p_{i}^{k} [s_{i} (α)] - - - (4)

其中s_i(α)是为图像i以权重α定义的相似性，并且

是以图像i查询时的最高的k个图像的精度。该求和可以针对该意图类别中的所有图像。这得到基于随机采样的图像子集中的交叉确认实现了最佳性能的α。

图3总结了以上参考图2概括地描述的所例示的后处理操作，在步骤302处开始，该步骤表示接收文本排序图像数据和用户选择，在该示例中即查询图像。步骤304基于查询图像的意图对其分类，如以上所述的可以是动态的或者可以通过从高速缓存中检索类。该类用于选择如何组合并比较特征，例如，使用哪组权重。

步骤306表示将查询图像特征化为特征值，该步骤也可以是动态执行的或者通过查找先前计算的特征值。步骤308选择第一图像(作为比较图像)来进行相似性比较，经由步骤314和316将每一其他图像作为比较图像来重复步骤308。

在处理每一图像时，步骤310将所选图像特征化成其特征值。步骤312将这些特征值与查询图像的特征值比较，基于如上所述的查询图像的意图类来使用合适的类选择特征权重集来强调某些特征。例如，可以使用向量空间中的距离来确定接近度/相似性分数。注意，在返回根据分数重新排序的图像(例如，在步骤318处)之前，在计算分数时可以使用该分数来将图像相对于彼此进行排序，和/或在计算了所有分数之后执行排序。

转向另一方面，为了通过调整每一图像的特征权重来进一步改进性能，可以使用附加信息。例如，在基于web的应用程序中，可以容易地从诸如相关性反馈数据440(图4)之类的用户行为数据日志中收集成对的相似性关系信息。

例如，如果用户或显式或隐式地将图像j标记为“相关的”，则意味着该图像与查询图像i之间的相似性大于任何其他“不相关的”图像k和查询图像i之间的相似性，即，s_ij≥s_ik。在恒定比例的情况下，阐明这种约束的一种等价方式是s_ij-s_ik≥1。这些约束反映了用户对图像的感知，可以使用这种感知来推断有用权重，以组合来自不同特征的线索，从而作出尽可能与这些约束一致的排序。

为了将该技术扩展到新的样本，局部相似的样本需要具有相似的组合权重。为此，可以使用局部相似性学习机构442来调整特征权重集232。例如，通过最小化以下能量项来惩罚不平滑的αs：

J_{s} = \frac{1}{2} \underset{i}{Σ} \underset{j}{Σ} s_{ij} {| | α_{i} - α_{j} | |}^{2} = Tr (αΔ α^{T}) - - - (5)

其中α＝[α₁，α₂，...，α_n]，是将图像的权重堆叠在一起的矩阵，其中每一权重α_i＝[α_i1，α_i2，...，α_iF]^T。离散拉普拉斯Δ可以被计算为：

Δ＝D-S (6)

其中S(i，j)＝s_ij，s_ij＝1/2[s_i(i，j)+s_j(i，j)]，并且D是带有其第i个对角元素的对角矩阵

为了从成对的相似性关系中学习，可以通过求解以下优化问题来得到最优权重α：

min Tr(αΔα^T)+λ||α||²

s . t . : s_{ij} - s_{ik} &GreaterEqual; 1, &ForAll; (i, j, k) &Element; C - - - (7)

其中C是带有满足s_ij-s_ik≥1的元素(i，j，k)的约束集，并且第二项是控制求解复杂度的规则化项。此处，范数|·|可以是出于稳健性的L2范数，或者出于稀疏性的L1范数。

如果取Frobenius范数作为规则化项，则

可以为每一约束(i，j，k)添加松弛变量ξijk，从而将优化问题进一步简化为：

\min_{α, ζ} Tr (α (Δ + λI) α^{T}) + γ Σ_{ijk} ξ_{ijk}

s . t . : s_{ij} - s_{ik} &GreaterEqual; 1 - ξ_{ijk}, &ForAll; (i, j, k) &Element; C,

该式是关于ξ和α的凸优化问题，并且可以高效地求解；还可以使用已知的迭代算法。注意，在该示例优化中，Δ依赖于α，所以一种机制可以通过在求解等式(8)中的优化问题和根据等式(6)来更新Δ之间进行迭代直到收敛来求解最优α。

对于扩展到新的图像，考虑没有任何相关性反馈日志的新的查询图像j。可以从经训练的样本中的最近邻居推断其最优权重

例如，可以取该最近邻居的权重为最优权重。如果稍后在某种用户交互之后收集到相关性反馈，则该图像的意图可以通过取α_j的初始值作为

来更新，并求解以下优化问题：

\min_{α_{j}, ξ} {| | α_{j} - α_{j}^{*} | |}_{2}^{2} + γ Σ_{ijk} ξ_{ijk}

s . t . : s_{ij} - s_{ik} &GreaterEqual; 1 - ξ_{ijk}, &ForAll; (i, j, k) &Element; C_{j},

其中Cj是与图像有关的所有可用约束集。

相关性反馈尤其适合基于web的图像搜索引擎，其中用户通过点击的行为可供容易地分析，并且可以容易地获得相当数量的相似性关系。在这种场景中，可以用在线方式更新与每一图像相关联的权重，同时逐渐增加数据库中经训练的样本。随着越来越多的用户行为数据变得可用，可以显著地改进搜索引擎的性能。

总之，提供了经由基于查询图像集成一组补充特征的意图分类模型来改进关于按相关性对图像排序的图像搜索引擎性能的一种实用且有效的方式。通过具体地考虑每一图像来进一步调整以得到改进的用户体验。

示例性操作环境

图5示出其上可实现图1-4的各示例的合适的计算和联网环境500的示例。例如，图1和2的自适应图像后处理机构112可以在计算机系统510中实现，客户机由远程计算机580表示。计算系统环境500只是合适计算环境的一个示例，而非意在暗示对本发明使用范围或功能有任何限制。也不应该将计算环境500解释为对示例性操作环境500中示出的任一组件或其组合有任何依赖性或要求。

本发明可用各种其他通用或专用计算系统环境或配置来操作。适用于本发明的公知计算系统、环境、和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、嵌入式系统、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括任何以上系统或设备的分布式计算环境等等。

本发明可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括存储器存储设备在内的本地和/或远程计算机存储介质中。

参考图5，用于实现本发明的各方面的示例性系统可包括计算机510形式的通用计算设备。计算机510的组件可以包括但不限于：处理单元520、系统存储器530和将包括系统存储器在内的各种系统组件耦合至处理单元520的系统总线521。系统总线521可以是几种类型的总线结构中的任何一种，包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。

计算机510通常包括各种计算机可读介质。计算机可读介质可以是能由计算机510访问的任何可用介质，并包含易失性和非易失性介质以及可移动、不可移动介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块之类的信息或其他数据的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不仅限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或可以用来存储所需信息并可以被计算机510访问的任何其他介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任一信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制，通信介质包括有线介质，如有线网络或直接线连接，以及诸如声学、射频(RF)、红外线及其他无线介质之类的无线介质。上面各项中的任何项的组合也包括在计算机可读介质的范围内。

系统存储器530包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)531和随机存取存储器(RAM)532。基本输入/输出系统533(BIOS)包括如在启动时帮助在计算机510内的元件之间传输信息的基本例程，它通常储存在ROM 531中。RAM 532通常包含处理单元520可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图5示出了操作系统534、应用程序535、其他程序模块536和程序数据537。

计算机510还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器541，从可移动、非易失性磁盘552中读取或向其写入的磁盘驱动器551，以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘556中读取或向其写入的光盘驱动器555。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器541通常由不可移动存储器接口，诸如接口540连接至系统总线521，磁盘驱动器551和光盘驱动器555通常由可移动存储器接口，诸如接口550连接至系统总线521。

以上描述并在图5中示出的驱动器及其相关联的计算机存储介质为计算机510提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。例如，在图5中，硬盘驱动器541被示为存储操作系统544、应用程序545、其他程序模块546和程序数据547。注意，这些组件可以与操作系统534、应用程序535、其他程序模块536和程序数据537相同，也可以与它们不同。操作系统544、应用程序545、其他程序模块546和程序数据547在这里被标注了不同的附图标记是为了说明至少它们是不同的副本。用户可通过诸如图形输入板或电子数字化仪564、话筒563、键盘562和定点设备561(通常指的是鼠标、跟踪球或触摸垫)等输入设备向计算机510输入命令和信息。图5中未示出的其他输入设备可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常由耦合至系统总线的用户输入接口560连接至处理单元520，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器591或其他类型的显示设备也经由接口，诸如视频接口590连接至系统总线521。监视器591也可以与触摸屏面板等集成。注意，监视器和/或触摸屏面板可以在物理上耦合至其中包括计算设备510的外壳，诸如在平板型个人计算机中。此外，诸如计算设备510等计算机还可以包括其他外围输出设备，诸如扬声器595和打印机595，它们可以通过输出外围接口594等连接。

计算机510可使用至一个或多个远程计算机，如远程计算机580的逻辑连接在网络化环境中操作。远程计算机580可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点，并且通常包括许多或所有以上关于计算机510所描述的元件，尽管在图5中仅示出了存储器存储设备581。图5中所示的逻辑连接包括一个或多个局域网(LAN)571和一个或多个广域网(WAN)573，但也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机510通过网络接口或适配器570连接至LAN 571。当在WAN联网环境中使用时，计算机510通常包括调制解调器572或用于通过诸如因特网等WAN 573建立通信的其他装置。可为内置或可为外置的调制解调器572可以经由用户输入接口560或其他合适的机制连接至系统总线521。诸如包括接口和天线的无线联网组件可通过诸如接入点或对等计算机等合适的设备耦合到WAN或LAN。在网络化环境中，关于计算机510所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例而非限制，图5示出远程应用程序585驻留在存储器设备581上。可以理解，所示的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其他手段。

辅助子系统599(例如，用于内容的辅助显示)可经由用户接口560连接，从而即使计算机系统的主要部分处于低功率状态中，也允许诸如程序内容、系统状态和事件通知等数据被提供给用户。辅助子系统599可连接至调制解调器572和/或网络接口570，从而在主处理单元520处于低功率状态中时，也允许在这些系统之间进行通信。

结论

尽管本发明易于作出各种修改和替换构造，但其某些说明性实施例在附图中示出并在上面被详细地描述。然而应当了解，这不旨在将本发明限于所公开的具体形式，而是相反地，旨在覆盖落入本发明的精神和范围之内的所有修改、替换构造和等效方案。

Claims

1.一种在计算环境中的方法，包括：

接收关于从多个图像中选择的图像的用户选择数据，所述选择数据包括查询图像；

基于每一其他图像与所述查询图像的相关性来确定所述多个其他图像的相似性分数，其中所述相似性分数至少部分地基于与所述查询图像相关联的意图类信息来计算；以及

返回对应于基于所述相似性分数来排序的所述图像的结果。

2.如权利要求1所述的方法，其特征在于，接收所述用户选择数据包括基于文本排序的图像结果接收对应于所述查询图像的用户选择。

3.如权利要求1所述的方法，其特征在于，还包括将所述查询图像分类成类，并且基于所述类来选择所述意图类信息。

4.如权利要求1所述的方法，其特征在于，还包括将所述查询图像特征化为第一特征值并且将每一其他图像特征化为第二特征值，并且确定所述相似性分数包括比较对应于所述第一特征值和第二特征值的数据。

5.如权利要求4所述的方法，其特征在于，比较对应于所述第一特征值和第二特征值的数据包括基于所述意图类信息对所述特征值的各部分相对于彼此加权。

6.如权利要求1所述的方法，其特征在于，还包括基于相关性反馈来调整所述意图类信息。

7.一种在计算环境中的系统，所述系统包括一种图像处理机构，所述机构包括获得所选图像的意图类的分类机构、获得所述所选图像的第一特征值和另一图像的第二特征值的特征化器机构、以及耦合到所述分类机构和所述特征化器机构的特征比较机构，所述特征比较机构被配置成使用所述意图类来选择比较机制，并且使用所述比较机制以使用所述第一特征值和所述第二特征值来计算所选图像和所述其他图像之间的相似性分数。

8.如权利要求7所述的系统，其特征在于，所选图像和所述其他图像由耦合到所述图像处理机构的因特网搜索引擎提供。

9.如权利要求7所述的系统，其特征在于，所述图像处理机构还包括对所述相似性分数相对于通过处理另一图像获得的至少一个其他相似性分数来进行排序。

10.如权利要求7所述的系统，其特征在于，还包括耦合到所述图像处理机构的高速缓存，其中所述特征化器机构从所述高速缓存获得所述第一特征值中的至少某些，或者所述第二特征值中的至少某些，或者所述第一特征值和所述第二特征值两者中的至少某些。

11.如权利要求7所述的系统，其特征在于，还包括耦合到所述图像处理机构的高速缓存，其中所述分类机构从所述高速缓存获得所述意图类。

12.如权利要求7所述的系统，其特征在于，还包括用于基于相关性反馈来调整所述比较机制的装置。

13.如权利要求11所述的系统，其特征在于，所述比较机构包括从多组特征权重之中选择的一组特征权重。

14.如权利要求13所述的系统，其特征在于，所述特征包括色彩签名、色彩小空间、gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸，或色彩签名、色彩小空间、gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸的任意组合。

15.如权利要求13所述的系统，其特征在于，所述类包括一般对象、简单背景对象、景观、人物、肖像或其他，或一般对象、简单背景对象、景观、人物、肖像或其他的任意组合。

16.一个或多个具有计算机可执行指令的计算机可读介质，所述计算机可执行指令在被执行时执行以下步骤，包括：

(a)接收对应于一组图像和一个所选图像的数据；

(b)将所选图像分类到意图类中；

(c)基于所述意图类从多个可用比较机制之中选择一个比较机制；

(d)将所选图像特征化为第一特征值；

(e)对于除了所选图像之外的每一图像，将所述图像作为比较图像，将所述比较图像特征化为第二特征值，并且使用在步骤(c)中使用选择的比较机制来比较所述第一特征值和所述第二特征值以确定所述比较图像关于所选图像的相似性分数并将所述相似性分数与所述比较图像相关联；以及

(f)返回数据，所述数据对应于基于为每一图像确定的所述相关联的相似性分数而相对于彼此重新排序的比较图像。

17.如权利要求16所述的一个或多个计算机可读介质，其特征在于，选择所述比较机制包括基于所述意图类从不同的特征权重集之中选择一组特征权重。

18.如权利要求16所述的一个或多个计算机可读介质，其特征在于，还具有包括基于用户相关性反馈来改变至少一个比较机制的计算机可执行指令。

19.如权利要求16所述的一个或多个计算机可读介质，其特征在于，所述特征包括色彩签名、色彩小空间、gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸，或色彩签名、色彩小空间、gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸的任意组合。

20.如权利要求16所述的一个或多个计算机可读介质，其特征在于，所述类包括一般对象、简单背景对象、景观、人物、肖像或其他，或一般对象、简单背景对象、景观、人物、肖像或其他的任意组合。