CN102402593A

CN102402593A - 对于搜索查询输入的多模态方式

Info

Publication number: CN102402593A
Application number: CN201110345050XA
Authority: CN
Inventors: 刘激杨; 孙剑; 沈向洋; 杨晓松; 郭昱廷; 张磊; 李鹢; 柯启发; 刘策
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2010-11-05
Filing date: 2011-11-04
Publication date: 2012-04-04
Also published as: MX2013005056A; WO2012061275A1; IN2013CN03029A; AU2011323602A1; EP2635984A1; EP2635984A4; RU2013119973A; JP2013541793A; IL225831A0; US20120117051A1; TW201220099A; KR20130142121A

Abstract

包含多种模式的查询输入的搜索查询用于识别响应的结果。搜索查询可以由关键词或者文本输入、图像输入、视频输入、音频输入、或者其它模式的输入的组合组成。多种模式的查询输入可以在初始的搜索请求中存在，或者包含一种类型的查询输入的初始请求可以利用第二种类型的输入来补充。除了提供响应结果之外，在一些实施例中，可以基于查询的内容或者初始响应的结果来做出额外的查询改进或者建议。

Description

对于搜索查询输入的多模态方式

背景技术

本领域中已知各种用于搜索和检索信息的方法，诸如在广域网络上通过搜索引擎来进行。这样的方法典型地利用基于文本的搜索。基于本文的搜索利用包括一个或多个诸如词或短语之类的文本元素的搜索查询。将文本元素与索引或其它数据结构比较以识别包括匹配的或者语义上相似的文本内容、元数据、文件名或者其它文本表示的、诸如网页之类的文档。

基于文本的搜索的已知的方法对于基于文本的文档相对较好地工作，然而它们难以应用于图像文件和数据。为了经由基于文本的查询来搜索图像文件，图像文件必须与一个或多个诸如标题、文件名或者其它元数据或标签之类的文本元素关联起来(associate)。用于基于文本的搜索的搜索引擎和算法不能基于图像的内容来搜索图像文件，并且由此被限制于仅基于与图像关联起来的数据来识别搜索结果图像。

已经开发了用于基于内容的图像搜索的方法，其分析图像的内容以识别视觉上相似的图像。然而，对于识别与图像搜索的输入关联的基于文本的文档，这样的方法可能受限制。

发明内容

在各种实施例中，提供用于使用多种模式的输入作为搜索查询的一部分的方法。所述方法允许由关键词或者文本输入、图像输入、视频输入、音频输入或者其它模式的输入的组合组成的搜索查询。然后，可以基于从各种模式的查询输入提取的特征来执行对于响应文档的搜索。可以在初始搜索请求中呈现多个模式的查询输入，或者可以利用第二类型的输入来补充包含单个类型的查询的初始请求。除了提供响应结果之外，在一些实施例中，可以基于查询的内容或者初始的响应结果来做出额外的查询改进(refinement)或者建议。

提供此发明内容部分来以简化的形式介绍构思的选择，所述构思在下面在具体实施方式部分中进一步描述。此发明内容部分并不意在标识所请求保护的主题的关键特征或者必要特征，其也不意在用于孤立地帮助确定所请求保护的主题的范围。

附图说明

下面参照附图详细描述本发明，附图中：

图1是适用于实现本发明的实施例的示例计算环境的框图。

图2示意性地示出了适用于执行本发明的实施例的网络环境。

图3示意性地示出了根据本发明的实施例的用户界面的组件的示例。

图4示出了执行本发明的实施例时所涉及的各种组件和进程之间的关系。

图5-9示出了根据本发明的实施例、从图像提取图像特征的示例。

图10-12示出了根据本发明的各个实施例的方法的示例。

具体实施方式

在各个实施例中，提供了用于将关键词或者基于文本的搜索输入与其它模式的搜索输入集成的系统和方法。其他模式的搜索输入的示例可以包括图像输入、视频输入、以及音频输入。更一般地，所述系统和方法可以允许基于查询中多种模式的输入的搜索的性能。所得到的多模态搜索系统和方法的实施例可以在向搜索引擎提供输入时为用户提供更大的灵活性。另外，当用户利用一种类型的输入（诸如图像输入）发起搜索时，然后可以使用第二类型的输入（或者多种其他类型的输入）来改进(refine)或者在其它情况下修改响应的搜索结果。例如，用户可以输入一个或者多个关键词以便与图像输入关联起来。在许多情况下，额外的关键词与图像输入的关联可以提供比单独的图像输入或者关键词输入更清楚的用户意图的指示。

在一些实施例中，通过使用包括与多于一种类型的数据有关的项的索引（诸如包括基于文本的关键词、基于图像的“关键词”、基于视频的“关键词”、以及基于音频的“关键词”的索引）来执行基于多模态的搜索输入对于响应结果的搜索。用于将用于除了基于文本的搜索之外的输入模式的“关键词”合并的一个选择可以是使多模态特征与人造关键词相互关联(correlate)。这些人造关键词可被称为描述符关键词。例如，用于基于图像的搜索的图像特征可以与描述符关键词相互关联，以使得基于图像的搜索特征出现在与传统的基于文本的关键词相同的倒排的索引(inverted index)中。例如，在西雅图的“Space Needle（太空针塔）”大厦的图像可以包含多个图像特征。这些图像特征可以从图像提取，并且然后与描述符“关键词”相互关联，以用于与其它基于文本的关键词项一起合并到倒排的索引中。

除了将描述符关键词合并到基于文本的关键词索引中之外，来自图像（或者另一种类型的非文本输入）的描述符关键词也可以与传统的关键词项关联起来。在上面的示例中，项“space needle”可以与来自Space Needle的图像的一个或多个描述符关键词相互关联。这可以允许包括描述符关键词的建议的或者修改的查询，并且因此更好地适于执行对于类似于Space Needle图像的其它图像的基于图像的搜索。这样的建议的查询可被提供给用户以允许对于与Space Needle图像有关的其它图像的改善的搜索，或者可以自动地使用建议的查询来识别这样的有关的图像。

在下面的讨论中，使用下面的定义来描述执行多模态搜索的各方面。特征指可以用作响应于搜索查询对文档进行选择和/或评级(ranking)的一部分的任何类型的信息。来自基于文本的查询的特征典型地包括关键词。来自基于图像的查询的特征可以包括图像中被识别为具区别性的部分，诸如图像中具有对比度强的亮度(contrasting intensity)的部分或者图像中用于面部识别的对应于人的面部的部分。来自基于音频的查询的特征可以包括音频的音量等级的变化或者其它可检测的音频模式。关键词指传统的基于文本的搜索项。关键词可以指被用作用于响应于查询来识别文档的单个项的一个或多个词。描述符关键词指已经与非基于文本的特征关联起来的关键词。由此，描述符关键词可被用于识别基于图像的特征、基于视频的特征、基于音频的特征、或者其它非文本特征。响应结果指基于由搜索引擎执行的选择和/或评级被识别为与搜索查询相关的任何文档。当显示响应结果时，可以通过显示文档自身来显示响应结果，或者可以显示文档的标识符。例如，由基于文本的搜素引擎返回的传统的超链接（也被称作“蓝链接”）表示用于其它文档的标识符或者到其它文档的链接。通过点击该链接，可以访问所表示的文档。用于文档的标识符可以提供或者可以不提供有关对应的文档的另外的信息。

接收多模态的搜索查询

来自多种搜索模式的特征可以从查询中提取并且用于识别响应于查询的结果。在实施例中，可以通过任何方便的方法来提供多种模式的查询输入。例如，用于接收查询输入的用户界面可以包括用于接收关键词查询输入的对话框。用户界面也可以包括用于接收由用户选择的图像的位置，诸如允许用户将期望的输入图像“丢”到用户界面中的图像查询框。可替代地，图像查询框可以接收文件位置或者网络地址作为图像输入的来源。可以提供类似的框或者位置，以用于识别音频文件、视频文件、或者另一种类型的非文本输入，以用作查询输入。

多种模式的查询输入不需要同时被接收。作为替代，可以首先提供一种类型的查询输入，然后可以提供第二种模式的输入以改进查询。例如，可以提交电影明星的图像作为查询输入。这将返回一系列可能包括该图像的匹配结果。然后，可以将词语“演员”输入到搜索查询框中作为关键词，以便基于用于对于获知电影明星的名字的期望来改进搜索结果。

在接收多模态搜索信息之后，多模态信息可被用作搜索查询以识别响应结果。响应结果可以是任何类型的被搜索引擎确定为相关的文档，不管搜索查询的输入模式如何。由此，图像项可被识别为对于基于文本的查询的响应文档，或者基于文本的项可以是对于基于音频的查询的响应文档。另外，包括多于一种模式的输入的查询也可以被用于识别任何可用类型的响应结果。被显示给用户的响应结果可以是文档它们自身的形式，或者是用于响应文档的标识符的形式。

可以使用一个或多个索引来便于识别响应结果。在一个实施例中，可以使用诸如倒排的索引之类的单个索引来存储基于所有类型的索索模式的关键词以及描述符关键词。可替代地，单个评级系统可以使用多个索引来存储项或特征。不管索引的数量或形式如何，可以将一个或多个索引用作用于识别响应于查询的文档的集成的选择和/或评级方法的一部分。所述选择方法和/或评级方法可以基于任何可用模式的查询输入来合并特征。

也可以提取与其它类型的输入关联起来的基于文本的关键词以供使用。一种用于合并多种模式的信息的选择可以是使用与另一种模式的查询输入关联起来的文本信息。图像、视频、或者音频文件经常会具有与文件关联起来的元数据。这可以包括文件的标题、文件的主题、或者其它与文件关联起来的文本。所述其它文本可以包括作为其中媒体文件作为链接出现的文档（诸如网页）的一部分的文本、或者其它描述媒体文件的文本。与图像、视频、或者音频文件关联起来的元数据可被用于以各种方式对查询输入进行补充。文本元数据可被用于形成被提供给用户的额外的查询建议。所述文本也可以被自动用于补充现有的搜索查询，以便修改响应结果的评级。

除了使用与输入查询关联起来的元数据之外，还可以使用与响应结果关联起来的元数据来修改搜索查询。例如，基于图像的搜索查询可以导致埃菲尔铁塔的已知图像作为响应结果。来自响应结果的元数据可以指示埃菲尔铁塔是响应的图像结果的主题。此元数据可被用于向用户建议额外的查询，或者自动地补充搜索查询。

存在多种提取元数据的方式。元数据提取技术可以是预先确定的，或者其可以由人或者自动的过程来动态地选择。元数据提取技术可以包括、但不限于：（1）为了嵌入的元数据对文件名进行解析（parse）；（2）从近似重复数字对象中提取元数据；（3）在网页中提取其中包含（host）近似重复数字对象的周围的文本；（4）从其中存储近似重复数字媒体对象的、支持注释和评论的网站中提取与近似重复关联的注释和评论；以及（5）当用户在文本查询之后选择了近似重复之后提取与近似重复关联的查询关键词。在其它实施例中，元数据提取技术可以涉及其它操作。

一些元数据提取技术以文本的主题开始并且筛出最简要的元数据。因此，可以利用诸如针对语法的解析以及其它基于令牌的分析之类的技术。例如，图像周围的文本可以包括标题(caption)或者很长的段落。至少在后者的情况下，所述很长的段落可被解析以提取感兴趣的项。通过另一个示例，注释和评论数据因为包含文本缩写（例如，IMHO代表“依我拙见”）以及情感虚词（例如笑脸符号和重复的惊叹号）方面是声名狼藉的。IMHO尽管其在注释和评论中看起来是强调，但在搜索元数据时可能是要被滤除的候选。

如果选择了多个元数据提取技术，则调解(reconciliation)方法可以提供一种调解潜在冲突的候选元数据结果的方式。可以例如使用统计分析以及机器学习、或者可替代地经由规则引擎来执行调解。

图3提供了根据本发明的实施例的适于接收多模态的搜索输入以及显示响应结果的用户界面的示例。在图3中，用户界面提供用于三种类型的查询输入的输入位置。输入框311可以接收关键词输入，诸如典型地由传统的搜索引擎使用的基于文本的输入。输入框313可以接收图像和/或视频文件作为输入。被粘贴或者在其它情况下被“丢”到输入框313中的图像或者视频文件可以被使用图像分析技术分析以识别可被提取用于搜索的特征。类似地，输入框315可以接收音频文件作为输入。

区域320包括响应结果的列表。在图3中示出的实施例中，当前示出响应结果332和342。响应结果332是用于响应于搜索而被识别的图像文档的标识符，诸如缩略图(thumbnail)。除了图像结果332之外，还提供链接或者图标334以允许合并图像结果332（或者与图像结果332关联起来的描述符关键词）作为修改的查询的一部分的修改的搜索。响应结果342对应于基于文本的文档的标识符。

区域340包含基于初始查询的建议的查询347的列表。可以使用传统的查询建议算法来生成建议的查询347。建议的查询347也可以基于与在图像/视频输入313或者音频输入315中提交的输入关联起来的元数据。另一个建议的查询347可以基于与诸如响应结果332之类的响应结果关联起来的元数据。

图4示意性地示出了根据本发明的实施例的用于执行多模态搜索的各种系统和/或过程的交互。在图4中示出的实施例中，多模态搜索对应于基于关键词查询输入以及图像查询输入两者的搜索。在图4中，基于接收查询来开始搜索。查询包括查询关键词405以及查询图像407。为了处理查询图像407，可以使用图像理解组件412来识别图像内的特征。由图像理解组件412从查询图像407提取的特征可以由图像文本特征和图像可视特征组件422分配描述符关键词。可以由图像理解组件412使用的方法的示例在下面结合图5-9描述。图像理解组件412也可以包括其它类型的图像理解方法，诸如面部识别方法、或者用于分析图像中的色彩相似性的方法。元数据分析组件414可以识别与查询图像407关联起来的元数据。这可以包括通过操作系统在图像文件内嵌入和/或与该文件一起存储的信息，诸如在文件内存储的图像的标题或者注释。这也可以包括其它与图像关联的文本，诸如被输入以识别用于搜索的图像的URL路径中的文本、用于或者位于或者嵌入网页或者其它基于文本的文档的图像的位于图像附近的文本。图像文本特征和图像视觉特征组件422可以基于来自元数据分析414的输出来识别关键词特征。

在识别了查询项405以及图像文本特征和图像视觉特征组件422中的任何额外的特征之后，所得到的查询可以可选地在组件432中更改或者扩展。查询更改或扩展可以基于从元数据分析组件414和图像文本特征/图像视觉特征组件422中的元数据导出的特征。查询更改或者扩展的另一个来源可以是来自UI交互组件462的反馈。这可以包括由用户提供的额外的查询信息、以及基于来自当前或者之前的查询的响应结果的查询建议442。然后，可选地扩展的或者更改的查询可被用于生成响应结果452。在图4中，结果生成452涉及使用查询来识别数据库475中的响应文档，其包括数据库中文档的文本特征和图像特征。数据库475可以表示倒排的索引或者任何其他方便的类型的用于基于查询识别响应结果的存储格式。

根据该实施例，结果生成452可以提供一种或者多种类型的结果。在某些情况下，最可能匹配的识别可能是期望的，诸如一个或者几个高评级的响应结果。这可以作为应答444来提供。可替代地，响应结果按照评级顺序的列表可能是期望的。这可以作为组合的评级的结果446而提供。除了应答或者评级的结果之外，还可以将一个或者多个查询建议442提供给用户。包括结果显示和查询接收的与用户的交互可以由UI交互组件462处理。

基于多媒体的搜索方法

图5-9示意性地示出了根据本发明的实施例示例图像500的处理。在图5中，使用算子（operator）算法来处理图像500以便识别多个兴趣点502。算子算法包括任何可以用于识别图像500中的兴趣点502的可用的算法。在实施例中，算子算法可以是本领域中已知的高斯算法与拉普拉斯算法的差。在实施例中，算子算法被配置为在二维上分析图像500。可选地，当图像500是彩色图像时，可以将图像500转换为灰度级。

兴趣点502可以包括如图5中所描绘的图像500中的任何点、以及如图6中所描绘的图像500中的区域602、区域、像素组、或者特征。为了清楚和简洁，兴趣点502和区域602在下文中被称作兴趣点502，然而，对于兴趣点502的引用意在包含兴趣点502和区域602。在一个实施例中，兴趣点502位于图像500中稳定的区域中，并且包括图像500中明显不同的或者可识别的特征。例如，兴趣点502位于图像中具有在诸如在502a与602a处描绘的特征之间具有高对比度的鲜明的特征的区域。相反，兴趣点不位于不具有明显不同的特征或者对比度的区域，诸如由504指示的恒定的颜色或者灰度的区域。

算子算法识别图像500中任何数量的兴趣点502，诸如例如数千个兴趣点。兴趣点502可以是图像500中的点502与区域602的组合，其数量可以基于图像500的大小。图像处理组件412为每个兴趣点502计算量度，并且根据该量度对兴趣点502进行评级。该量度可以包括图像500在兴趣点502处的信号强度或者信噪比的度量。图像处理组件412基于该评级选择兴趣点502的子集以用于进一步的处理。在一个实施例中，选择具有最高信噪比的一百个最显著的兴趣点502，然而也可以选择任何期望数量的兴趣点502。在另一个实施例中，不选择子集，并且在进一步的处理中包括所有的兴趣点。

如图7中所描绘的，可以识别对应于所选择的兴趣点502的小块(patch)700的集合。每个小块702对应于单个所选择的兴趣点502。小块702包括图像500中包括相应的兴趣点502的区域。根据对于每个所选择的兴趣点502来自算子算法的输出来确定要取自图像500的每个小块702的大小。每个小块702可以有不同的大小，图像500中要包括在小块702中的区域可以重叠。另外，小块702的形状是任何期望的形状，包括正方形、矩形、三角形、圆形、椭圆形等等。在所图示的实施例中，小块702在形状上是正方形。

小块702可以如图7中描绘的那样被标准化。在一个实施例中，小块702被标准化以使每个小块702复合相同的大小，诸如X像素乘X像素的正方形小块。除其它操作之外，使小块702标准化为相同的大小可以包括增加或者减小小块702的大小和/或分辨率。也可以经由尤其诸如应用对比度增强、去斑(despeckling)、锐化、以及应用灰度之类的一个或者多个其它的操作来使小块702标准化。

也可以为每个标准化的小块确定描述符。描述符可以是可以作为特征而合并以用于图像搜索的小块的描述。可以通过计算小块702中像素的统计数字来确定描述符。在一个实施例中，基于小块702中像素的灰度梯度的统计数字来确定描述符。该描述符可以可视地表示为每个小块的直方图，诸如图8中描述的描述符802（其中图7的小块702对应于图8中类似位置的描述符802）。描述符也可以被描述为多维向量，诸如例如但不限于表示小块中的像素的像素灰度统计数字的多维向量。T2S2 36维向量是表示像素灰度统计数字的向量的示例。

如图9中所描绘，量化表(quantization table)900可被用于使描述符关键词902与每个描述符802相互关联。量化表900可以包括可用于将描述符802映射到描述符关键词902的任何表、索引、图表、或者其它数据结构。各种形式的量化表900在本领域中已知，并且可用于本发明的各实施例中。在一个实施例中，通过首先处理大量的图像（例如图像500）、例如一百万个图像，来为每个图像识别描述符802，从而生成量化表900。从中识别的描述符802然后被统计分析以识别具有相似的、或者统计上相似的值的描述符802的串(cluster)或组。例如，T2S2向量中变量的值是类似的。每个串的代表性描述符904被选择并且分配量化表900中的位置以及对应的描述符关键词902。描述符关键词902可以包括识别对应的代表性描述符904的任何期望的指示符。例如，描述符关键词902可以包括如图9中描绘的整数值、或者字母数字值、数字值、符号、文本或者它们的组合。在一些实施例中，描述符关键词902可以包括识别与非基于文本的搜索模式关联的描述符关键词的字符的序列。例如，所有的描述符关键词可以包括一系列的三个整数，随后是下划线的字符，作为关键词中的前四个字符。然后，初始的序列可被用于识别与图像关联的描述符关键词。

对于每个描述符802，可以在量化表900中识别最接近地匹配的代表性描述符904。例如，图8中描绘的描述符802a最接近地对应于图9中量化表900的代表性描述符904a。由此，每个描述符802的描述符关键词902与图像500关联起来（例如，描述符802a对应于描述符标识符902“1”）。与图像500关联起来的描述符关键词902每个可能彼此不同，或者一个或多个描述符关键词902可以与图像500多次关联（例如图像500可以具有“1，2，3，4”或者“1，2，2，3”的描述符关键词902）。在一个实施例中，为了考虑诸如图像变化之类的特征，可以通过识别多于一个最接近地匹配描述符802的代表性描述符904以及其相应的描述符关键词902来将描述符802映射到多于一个描述符标识符902。基于以上，具有识别的兴趣点502的集合的图像500的内容可以由描述符关键词902的集合来表示。

在另一个实施例中，可以将其它类型的基于图像的搜索集成到搜索方案中。例如，面部识别方法可以提供另一种类型的图像搜索。除了如上所述那样识别描述符关键词之外，和/或代替如上所述那样识别描述符关键词，可以使用面部识别方法来确定图像中人的身份。图像中人的身份可被用于对搜索查询进行补充。另一个选择可以是具有用于与面部识别技术匹配的人的库。可以在该库中包括用于各种人的元数据，并且此存储的元数据可被用于对搜索查询进行补充。

上面提供了一种用于使基于图像的搜索方案适配于基于文本的搜索方案的描述。可以对于诸如基于音频的搜索方案之类的其他模式的搜索作出类似的适配。在一个实施例中，可以使用任何方便类型的基于音频的搜索。用于基于音频的搜索的方法可以具有被用于识别具有类似的特征的音频文件的一种或者多种类型的特征。如上所述，音频特征可以与描述符关键词相互关联。描述符关键词可以具有指示关键词与音频搜索有关的格式，诸如使关键词的后四个字符对应于后面跟随四个数字的连字符。

基于多模态的查询的搜索的示例

搜索示例1—将图像信息添加到基于文本的查询。传统的搜索方法的一个困难是识别对于常见的查询项期望的结果。可以涉及常见的查询项的一种类型的搜索是对于具有常见的姓名（诸如“Steve Smith”）的人的搜索。如果关键词查询“steve smith”被提交给搜索引擎，则大量的结果将可能被识别为响应，并且这些结果将可能对应于共享相同或者类似的姓名的大量不同的人。

在一个实施例中，可以通过提交实体的图片作为搜索查询的一部分来改善对于指定的实体的搜索。例如，除了在关键词文本框中输入“steve smith”之外，可以将感兴趣的特定的Smith先生的图像或者视频丢到用于接收基于图像的查询信息的位置。然后，可以使用面部识别软件来使正确地“Steve Smith”与搜索查询匹配。另外，如果图像或者视频包含其他人，则可以为基于额外的人的结果分配较低的评级，因为关键词查询指示了感兴趣的人。结果，可以使用关键词和图像或视频的组合来有效地识别对应于具有常见的姓名的人（或其它实体）的结果。

作为上面的变型，考虑其中用户具有人的图像或视频，但不知道人的姓名的情形。所述人可以是政治家、男演员或女演员、体坛名人、或者可以通过面部识别或者图像匹配技术识别的任何其它人或其它实体。在此情形下，包含该实体的图像或者视频可以与一个或者多个关键词一起作为多模态搜索查询而被提交。在此情形下，所述一个或多个关键词可以表示用户拥有的有关该实体（诸如“政治家”或“女演员”）的信息。该额外的关键词可以以各种方式辅助图像搜索。具有图像或视频并且具有关键词的一个益处是用户的感兴趣的结果可以被给予更高的评级。将关键词“女演员”与图像一起提交指示获知图像中人的姓名的意愿，并且将导致女演员的姓名成为比在演员表中列出女演员的电影的结果具有更高评级的结果。另外，对于面部识别或者其它其中未实现精确的匹配的图像分析技术，关键词可以帮助对潜在响应的搜索结果进行评级。如果面部识别方法将州议员和作者都识别为潜在的匹配，则关键词“政治家”可以用于提供有关州议员作为最高评级的结果的信息。

搜索示例2—用于多模态查询的查询改进。在此示例中，用户期望获得更多有关商店中找到的商品（音乐CD或者电影DVD）的信息。作为搜索过程的前身，用于可以拍摄感兴趣的音乐CD的封面的图片。然后，可以将此图片作为搜索查询来提交。使用图像识别和/或匹配，可以将该CD封面与包括额外的元数据的CD封面的所存储的图像匹配。此元数据可以可选地包括艺术家的姓名、CD的标题、CD上各首歌曲的名称、或者任何其它有关该CD的数据。

可以将所存储的CD封面的图像作为响应结果而返回，并且可能作为最高的评级结果而返回。根据该实施例，可以为用户提议关于初始的结果页面的潜在的查询修改，或者用户可以点击链接以便访问潜在的查询修改。该查询修改可以包括基于元数据（诸如艺术家的姓名、CD的标题、CD上流行的歌曲之一的名称）的建议。可以将这些查询修改作为链接提供给用户。可替代地，可以为用户提供将某些或者所有的查询元数据添加到关键词搜索框的选择。用户也可以利用额外的搜索项来对所建议的修改进行补充。例如，用户可以选择艺术家的姓名，并且然后将词语“音乐会”添加到查询框。可以使该额外的词语“音乐会”与图像关联起来用作搜索查询的一部分。这可以例如产生指示艺术家未来的音乐会日期的响应结果。对于查询建议或者修改的其它选择可以包括价格信息、与艺术家有关的新闻、CD上的歌曲的歌词、或者其它类型的建议。可选地，可以对于搜索自动地提交某些查询修改，以生成对于修改的查询的响应结果，而无需来自用户的另外的动作。例如，将关键词“价格”添加到基于CD封面的查询可以是自动地查询修改，以使得各个在线零售商的定价与初始的搜索结果页面一起返回。

注意到：在上面的示例中，首先提交查询图像，然后将关键词与查询关联起来，以作为改进。可以通过以文本关键词搜索开始、然后基于图像、视频、或者音频文件改进，来执行类似的改进。

搜索示例3—改善的移动搜索。在此示例中，用户可能大体知晓要求什么，但是可能不确定如何表达搜索查询。这种类型的移动索索可以被用于关于任何类型的位置、人、对象、或者其它实体的搜索。添加一个或多个关键词允许用户接收基于用户意愿的响应结果，而非基于最佳的图像匹配的响应结果。可以例如在作为搜索查询提交图像之前，将关键词添加到搜索文本框中。关键词可以可选地补充可以从与图像、视频、或者音频文件关联起来的元数据导出的任何关键词。例如，用户可以拍摄餐馆的图片并且将该图片作为搜索查询与关键词“菜单”一起提交。这将提高涉及该餐馆的菜单的结果的评级。可替代地，用户可以拍摄一种类型的猫的视频，并且将搜索查询与词语“种属”一起提交。与返回执行类似的动作的其它动物的图像或者视频结果形成对照，这将提高识别猫的类型的结果的相关性(relevance)。另一个选择是将电影的海报的图像与关键词“电影配乐”一起提交，以便识别在电影中播放的歌曲。

作为又一个示例，在城市中行进的用户可能想要获得有关当地公共交通系统的调度的信息。不幸的是，用户不知晓该系统的名称。用户通过在关键词查询中输入<城市名称>以及“公共交通”来开始。这返回大量的结果，用户对于哪个结果将最有帮助没有信心。然后，用户注意到附近的公共汽车站处该交通系统的标志。用户拍摄该标志的图片，并且使用该标志作为查询的一部分来改进搜索。然后，与该标志有关的公共汽车系统被作为最高评级的结果返回，从而为用户提供已经识别了正确的交通调度的信心。

搜索示例4-涉及音频文件的多模态搜索。除了视频或者图像之外，可以使用其它类型的输入模式用于搜索。音频文件表示适当的查询输入的另一个示例。如上面对于图像或者视频所描述的，可以将音频文件作为搜索查询结合关键词一同提交。可替代地，可以在提交另一种类型的查询输入之前或者之后来提交音频文件，以作为查询改进的一部分。注意到：在一些实施例中，多模态搜索查询可以包括多种类型的查询输入，而无需用户提供任何关键词输入。由此，用户可以提供图像和视频或者视频和音频文件。又一个选择可以是包括多个图像、视频、和/或音频文件，连同关键词一起作为查询输入。

已经简要描述了本发明的各个实施例的概述，现在描述适于执行本发明的示例操作环境。总地参照各附图，并且具体地首先参照图1，用于实现本发明的实施例的示例操作环境被示出，并且总地指定为计算设备100。计算设备100仅仅是适当的计算环境的一个示例，并且不意在建议对于本发明的使用或者功能的范围的任何限制。计算设备100不应当被解释为具有有关所图示的组件中的任一个或者其组合的依赖性或者要求。

可以在计算机代码或者机器可用指令的总的背景下描述本发明的实施例，计算机代码或者机器可用指令包括由计算机或者诸如个人数据助理或者其它手持设备之类的其它机器执行的、诸如程序模块之类的计算机可执行指令。通常，包括例程、程序、对象、组件、数据结构等等的程序模块是指执行特定的任务或者实现特定的抽象数据类型的代码。可以在各种系统配置中实施本发明，包括手持设备、消费电子设备、通用计算机、更专用的计算设备等等。还可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施本发明。

继续参照图1，计算设备100包括总线110，其直接或者间接地与以下设备耦接：存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出（I/O）端口118、I/O组件120、以及示例的电源122。总线110表示可以是一个或者多个总线的总线（诸如地址总线、数据总线、或者它们的组合）。尽管图1中的各个框为求清楚以线示出，但是实际上描绘各个组件不那么清楚，打比方说，所述线更准确地将是灰的和模糊的。例如，可能将诸如显示设备之类的呈现组件视为I/O组件。另外，许多处理器具有存储器。发明人在这里认识到：这是本领域的性质，并且重申图1的图仅仅是可以与本发明的一个或多个实施例一起使用的示例计算设备的例示。不在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等之类的类别之间进行区分，因为它们都预期在图1的范围内，并被称为“计算设备”。

计算设备100典型地包括各种计算机可读介质。计算机可读介质可以是可以由计算设备100访问的任何可用的介质，并且包括易失性和非易失性介质、可移动和不可移动介质。通过示例、而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以存储诸如计算机可读指令、数据结构、程序模块、或其它数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括、但不限于随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、闪存或者其它存储器技术、CD-ROM、数字多用途盘（DVD）或其它全息存储器、磁带盒、磁带、磁盘存储装置或者其它磁存储设备、载波、或者可被用于编码期望的信息并且可被计算设备100访问的任何其它的介质。在一个实施例中，计算机存储介质可以从有形的计算机存储介质中选择。在另一实施例中，计算机存储介质可以从非瞬时计算机存储介质中选择。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的、或者它们的组合。示例硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或者I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或者其它设备呈现数据指示。示例呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

I/O端口118允许计算设备100逻辑地耦接到其它设备，包括其中一些可以内置的I/O组件120。示例组件包括麦克风、操纵杆、游戏板、碟形卫星信号接收器、扫描仪、打印机、无线设备等等。

另外参照图2，描述了描绘适用于本发明的实施例的示例网络环境200的框图。环境200仅仅是可用于本发明的实施例的环境的一个示例，并且可以包括很多种配置下的任意数量的组件。这里提供的环境200的描述用于例示目的，并且不意在限制可以实现本发明的实施例的环境的配置。

环境200包括网络202、查询输入设备204、以及搜索引擎服务器206。网络202包括任何计算机网络，诸如例如但不限于因特网、内联网、专用和公共本地网、以及无线数据或电话网络。查询输入设备204是任何计算设备，诸如可以从其中提供搜索查询的计算设备100。例如，除其它设备外，查询输入设备204可以是个人计算机、膝上型计算机、服务器计算机、无线电话或者设备、个人数字助理（PDA）、或者数码相机。在一个实施例中，多个查询输入设备204，诸如数千个或者数百万个查询输入设备204，连接到网络202。

搜索引擎服务器206包括诸如计算设备100之类的任何计算设备，并且提供用于提供基于内容的搜索引擎的功能的至少一部分。在一个实施例中，一组搜索引擎服务器206共享或者分布向用户人群提供搜索引擎操作所需的功能。

在环境200中还提供了图像处理服务器208。图像处理服务器208包括诸如计算设备100之类的任何计算设备，并且被配置为分析、表示、索引下面更充分地描述的图像的内容。图像处理服务器208包括量化表210，其存储在图像处理服务器208的存储器中，或者可以由图像处理服务器208远程地访问。量化表210被图像处理服务器208使用以通知图像内容的映射，从而允许对图像特征进行搜索和索引。

搜索引擎服务器206和图像处理服务器208可通信地耦接到图像存储装置212和索引214。图像存储装置212和索引214包括任何可用的计算机存储设备或者多个可用的计算机存储设备，诸如硬盘驱动器、闪存、光存储器设备等等。图像存储装置212提供可以响应于本发明的实施例的基于内容的搜索而提供的图像文件的数据存储。索引214提供经由网络202可用的用于基于内容的文档搜索的搜索索引，包括存储在图像存储装置212中的图像。索引214可以利用任何索引数据结构或格式，并且优选地利用倒排的索引格式。注意：在某些实施例中，图像存储装置212可以是可选的。

倒排的索引提供描绘内容在数据结构中的位置的映射。例如，当对于特定关键词（包括关键词描述符）搜索文档时，在标识文档中该词的位置和/或图像文档中特征的存在的倒排的索引中找到关键词，而不是搜索文档以找到该词或特征的位置。

在一个实施例中，将搜索引擎服务器206、图像处理服务器208、图像存储装置212、以及索引214中的一个或多个集成在单个计算设备中，或者它们直接可通信地耦接以便允许这些设备之间直接通信，而无需横跨网络202进行通信。

图10描绘了根据本发明的实施例的方法，或者可替代地是用于根据本发明的实施例的在计算机存储介质上包含的方法的可执行指令。在图10中，获取1010包括可被提取的多个相关性特征的图像、视频、或音频文件。该图像、视频、或音频文件与至少一个关键词关联起来1020。将该图像、视频、或者音频文件以及关联的关键词作为查询提交1030给搜索引擎。响应于多个相关性特征以及关联的关键词来接收1040至少一个响应结果。然后，显示1050该至少一个响应结果。

图11描绘了根据本发明的实施例的另一个方法，或者可替代地是用于根据本发明的实施例的在计算机存储介质上包含的方法的可执行指令。在图11中，接收1110包括至少两个查询模式的查询。从查询中提取1120对应于至少两个查询模式的相关性特征。基于所提取的相关性特征来选择1130多个响应结果。还基于所提取的相关性特征对该多个响应结果进行评级1140。然后，显示1150评级的响应结果中的一个或多个。

图12描绘了根据本发明的实施例的另一个方法，或者可替代地是用于根据本发明的实施例的在计算机存储介质上包含的方法的可执行指令。在图12中，接收1210包括至少一个关键词的查询。基于所接收的查询显示1220多个响应结果。接收1230包括图像、视频、或者音频文件中的至少一个的补充查询输入。基于补充查询输入来修改1240多个响应结果的评级。基于修改的评级来显示1250响应结果中的一个或多个。

附加实施例

第一预期的实施例包括一种用于执行多模态搜索的方法。所述方法包括接收（1110）包括至少两种查询模式的查询；从所述查询提取（1120）对应于所述至少两种查询模式的相关性特征；基于所提取的相关性特征选择（1130）多个响应结果；基于所提取的相关性特征对所述多个响应结果进行评级（1140）；以及显示（1150）所评级的响应结果中的一个或多个。

第二实施例包括第一实施例的方法，其中所接收的查询中的查询模式包括关键词、图像、视频、或者音频文件中的两个或者更多个。

第三实施例包括上述实施例中任一个，其中使用合并来自至少两种查询模式的相关性特征的倒排的索引来选择多个响应文档。

第四实施例包括第三实施例，其中从图像、视频、或者音频文件中提取的相关性特征被作为描述符关键词合并到倒排的索引中。

在第五实施例中，提供了一种用于执行多模态搜索的方法。所述方法包括获取（1010）包括能够被提取的多个相关性特征的图像、视频、或者音频文件；将所述图像、视频、或者音频文件与至少一个关键词关联起来（1020）；将图像、视频、或者音频文件以及关联的关键词作为查询提交（1030）给搜索引擎；接收（1040）响应于所述多个相关性特征以及关联的关键词的至少一个响应结果；以及显示（1050）所述至少一个响应结果。

第六实施例包括上述实施例中的任一个，其中所提取的相关性特征对应于关键词和图像。

第七实施例包括上述实施例中的任一个，还包括：从图像、视频、或者音频文件中提取元数据；根据所提取的元数据识别一个或多个关键词；以及形成第二查询，该第二查询至少包括从所接收的查询提取的相关性特征以及从所提取的元数据识别的关键词。

第八实施例包括第七实施例，其中基于所提取的相关性特征对多个响应文档进行评级包括基于第二查询对多个响应文档进行评级。

第九实施例包括第七或第八实施例，其中第二查询与所显示的响应结果相关联地显示。

第十实施例包括第七到第九实施例中任一个，还包括：基于第二查询自动地选择第二组多个响应文档；基于第二查询对第二组多个响应文档进行评级；以及显示来自第二组多个响应的文档的至少一个文档。

第十一实施例包括上述实施例中的任一个，其中获取作为来自与获取设备关联起来的摄像机的图像或者视频的图像或视频。

第十二实施例包括上述实施例中的任一个，其中通过经由网络访问所存储的图像、视频、或者音频文件来获取图像、视频或者音频文件。

第十三实施例包括上述实施例中的任一个，其中所述至少一个响应结果包括文本文档、图像、视频、音频文件、文本文档的标识(identity)、图像的标识、视频的标识、音频文件的标识、或者它们的组合。

第十四实施例包括上述实施例中的任一个，其中所述方法还包括基于所提交的查询和对应于至少一个响应结果的元数据来显示一个或多个查询建议。

在第十五实施例中，提供了一种用于执行多模态搜索的方法，包括接收（1210）包括至少一个关键词的查询；基于所接收的查询显示（1220）多个响应结果；接收（1230）包括图像、视频、或者音频文件中的至少一个的补充查询输入；基于所述补充查询输入修改（1240）多个响应结果的评级；以及基于所修改的评级显示（1250）响应结果中的一个或多个。

已经关于特定实施例描述了本发明的实施例，其意在在各个方面都是示例性的、而非限制性的。在不偏离本发明的范围的情况下，替代实施例对于本发明所属的领域的普通技术人员来说将变得显而易见。

根据上文，将看到：本发明很好地适于获得在上文提出的所有目的和目标以及其它明显的并且对于该结构来说固有的优点。

将理解：特定的特征和子组合是实用的，并且可以在不参照其它特征和子组合的情况下被利用。这是权利要求的范围所预期的，并且在权利要求的范围内。

Claims

1.一种用于执行多模态搜索的方法，包括：

接收（1110）包括至少两种查询模式的查询；

从所述查询提取（1120）对应于所述至少两种查询模式的相关性特征；

基于所提取的相关性特征选择（1130）多个响应结果；

基于所提取的相关性特征对所述多个响应结果进行评级（1140）；以及

显示（1150）所评级的响应结果中的一个或多个。

2.如权利要求1所述的方法，其中所接收的查询中的查询模式包括关键词、图像、视频、或者音频文件中的两个或者更多个。

3.如上述权利要求中的任一项所述的方法，其中使用合并来自所述至少两种查询模式的相关性特征的倒排的索引来选择多个响应文档。

4.如权利要求3所述的方法，其中从图像、视频、或者音频文件中提取的相关性特征被作为描述符关键词合并到倒排的索引中。

5.一种用于执行多模态搜索的方法，包括：

获取（1010）包括能够被提取的多个相关性特征的图像、视频、或者音频文件；

将所述图像、视频、或者音频文件与至少一个关键词关联起来（1020）；

将图像、视频、或者音频文件以及关联的关键词作为查询提交（1030）给搜索引擎；

接收（1040）响应于所述多个相关性特征以及关联的关键词的至少一个响应结果；以及

显示（1050）所述至少一个响应结果。

6.如上述权利要求中的任一项所述的方法，其中所提取的相关性特征对应于关键词和图像。

7.如上述权利要求中的任一项所述的方法，还包括：

从图像、视频、或者音频文件中提取元数据；

从所提取的元数据中识别一个或多个关键词；以及

形成第二查询，该第二查询至少包括从所接收的查询提取的相关性特征以及从所提取的元数据识别的关键词。

8.如权利要求7所述的方法，其中基于所提取的相关性特征对多个响应文档进行评级包括基于第二查询对多个响应文档进行评级。

9.如权利要求7或8所述的方法，其中第二查询与所显示的响应结果关联地显示。

10.如权利要求7-9中的任一项所述的方法，还包括：

基于第二查询自动地选择第二组多个响应文档；

基于第二查询对第二组多个响应文档进行评级；以及

显示来自第二组多个响应文档的至少一个文档。

11.如上述权利要求中的任一项所述的方法，其中获取作为来自与获取设备关联起来的摄像机的图像或者视频的图像或视频。

12.如上述权利要求中的任一项所述的方法，其中通过经由网络访问所存储的图像、视频、或者音频文件来获取图像、视频或者音频文件。

13.如上述权利要求中的任一项所述的方法，其中所述至少一个响应结果包括文本文档、图像、视频、音频文件、文本文档的标识、图像的标识、视频的标识、音频文件的标识、或者它们的组合。

14.如上述权利要求中的任一项所述的方法，其中所述方法还包括基于所提交的查询和对应于至少一个响应结果的元数据来显示一个或多个查询建议。

15.一种用于执行多模态搜索的方法，包括：

接收（1210）包括至少一个关键词的查询；

基于所接收的查询显示（1220）多个响应结果；

接收（1230）包括图像、视频、或者音频文件中的至少一个的补充查询输入；

基于所述补充查询输入修改（1240）多个响应结果的评级；以及

基于所修改的评级显示（1250）响应结果中的一个或多个。

16.一种计算机可读介质，包括可执行指令，所述可执行指令当在计算机上执行时用于执行如权利要求1-15中任何一个所述的方法。