CN103946838A

CN103946838A - 交互式多模图像搜索

Info

Publication number: CN103946838A
Application number: CN201180075049.8A
Authority: CN
Inventors: T·梅; S·李; J·王; Y·王
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2014-07-23
Anticipated expiration: 2031-11-24
Also published as: JP2014534540A; US20140250120A1; US9411830B2; JP6278893B2; EP2783305A1; WO2013075316A1; EP2783305A4; KR20140093957A; CN103946838B

Abstract

在移动设备上的视觉搜索的机构利用了在移动设备上的多模和多触摸输入。通过从口头搜索查询中提取词汇实体并将所述词汇实体与图像标签进行匹配，该机构为每个实体提供了候选图像。所选的候选图像之一被用于在查询画布上构造合成的视觉查询图像。所选候选图像在合成的视觉查询图像中的相对大小和位置(不需要现有的图像)为正被提交给知晓上下文的视觉搜索的合成的视觉查询图像的上下文的定义做出了贡献。

Description

交互式多模图像搜索

版权通告和许可

背景

提供对因特网和万维网访问的移动设备正变得越来越普遍地用作为个人因特网冲浪的门卫(concierge)，它在行进的同时为用户提供了对日益增加的数据量的访问。

用于移动设备的一些搜索应用支持将内建在移动设备内的相机所获取的照片作为视觉查询，这被称为捕捉-到-搜索。在捕捉-到-搜索中，典型地先抓取(snap)图片，随后将快照作为在各种纵向领域中搜索匹配的查询来提交。由于在长句子的语义含义的机器学习中的间隙的原因，现有的搜索引擎对于很好地处理长查询来说能力有限。例如，诸如“查找在白色房屋前面有几颗绿树的图像(find an image withseveral green trees in front of a white house)”的文本查询可能不会产生任何相关的搜索结果。

一些用于桌面的搜索引擎使用用户提交的草图来进行搜索，采用各种过滤器，例如“类似图像”、颜色、样式或脸作为搜索意图的指示，或者支持将现有图像上传作为用于搜索的查询，类似于上述的捕捉-到-搜索模式。一种搜索程序允许用户将查询图像中某些区域强调作为关键搜索分量，而另一搜索程序使用一组标签的位置和大小来过滤排名最前的基于文本的搜索结果，而又另一搜索程序使用对合成画布上的多个色彩提示的选择作为视觉查询。但，与桌面的用户交互不同于与移动设备的用户交互。

移动设备目前并没有提供一种有助于某些类型的搜索的平台，特别是在没有捕捉搜索主题的照片的情况下搜索图像或视频。另外，文本输入或语音输入并不能很好地适合于视觉搜索。例如，在电话上打字通常是乏味的，而口头查询不适合于表达视觉意图。而且，在视觉搜索过程中查明用户意图有点复杂，并且可能并不能很好地由文本片段(或转录到文本的语音)来表达

概述

本文档描述了用于在移动设备上的视觉搜索的机构，该机构利用了包括在移动设备上的触摸输入的多模输入。通过从包括口头搜索查询的搜索查询中提取词汇实体并将所述词汇实体与图像标签进行匹配，该机构为每个实体提供了候选图像。该机构提供了对特定候选图像的选择。该机构使用所选择的候选图像(包括它们的大小和位置)来在查询画布上构造一个合成的视觉查询。该合成的视觉查询不需要是现有的图像。

提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的选择的概念。本发明内容不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。例如，术语“技术”或“机构”可以指上述上下文和通篇文档所准许的设备、系统、方法、和/或计算机可读指令。

附图说明

参考附图来描述具体实施方式。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在各附图中，使用相同的标号来指示相同的特征和组件。

图1是通过移动设备实现交互式多模图像搜索的示例框架的图示。

图2是在移动设备上的交互式多模图像搜索的示例用户界面的图示。

图3是从说明在移动设备上的知晓上下文的图像搜索的多模查询的变形中实现交互式多模图像搜索的示例用户界面的图示。

图4是示出表示选择要操作的实体并形成合成视觉查询的候选图像的图示。

图5是示出配置用于移动交互式多模图像搜索的示例移动设备的选择部件的框图。

图6是实现移动交互式多模图像搜索的示例过程的流程图。

图7是用于使用串接直方图描述的比较图像的示例过程的流程图。

图8是示出用于生成候选图像的示例的基于群集的过程的流程图。

图9是示出知晓上下文的基于合成图像的图像搜索过程的数学上注释的视图的流程图。

具体实施方式

一种移动交互式多模图像搜索工具提供了丰富的功能集来获得视觉搜索的相关结果。与主要支持文本-到-搜索的桌面计算机相比较，移动设备为用户交互提供了更加丰富的接口集，使用所述接口集可以容易使用和获得更加相关的结果。例如，除了在桌面环境中接收的传统的键盘和鼠标输入之外，移动设备允许接收附加的多模输入。除了在一些情况下接受多触摸输入的触摸屏接口之外，移动设备接口还可以将文本输入通过内建的相机与视觉模态以及通过语音识别与语音模态相结合。多触摸启用接口识别多个同时发生的触摸输入。

视觉搜索所面临的一个挑战在于搜索意图可以是隐含的。搜索意图是隐含的意味着用户可能不是处于对应于特定视觉搜索意图的周围，使得捕捉-到-搜索是切实可行的，但是用户可以通过其他模态，例如在语音描述或文本输入中，来表达搜索意图。

例如，用户可以查找具有红色的门和在其前面有两头石狮的饭店。然而，用户可能不记得该饭店的名字来以此为基础开始搜索。在这个示例中，如由在此所述的移动交互式多模图像搜索工具所提供的，能够将长文本或音频(例如口头查询)转换到视觉查询并利用用户交互的客户端侧工具可以被用于标识该饭店并确定该饭店的名字和位置。作为另一个示例，用户可以参观城市并记住饭店(或饭店连锁店)在该特定城市中有一个位置但没有记住该位置，所以，用户可以将该城市作为口头查询的部分。

移动交互式多模图像搜索工具利用了包括触摸和多触摸交互的多模交互来帮助确定隐含的搜索意图并改善包括当查询图像最初不可用时的视觉搜索的性能。在此所述的搜索过程包括下述阶段：1)接收初始输入，例如诸如说出的自然语句之类的音频输入，作为给移动设备的查询，2)使用语音识别来将语音输入转换成文本，3)通过实体提取将文本分解成关键字，4)通过图像群集处理根据所提取的实体标识候选图像，5)接收对可以视觉上表示每个实体的特定候选图像的选择，6)接收对彼此相关的所选特定候选图像的细化以合成查询图像，以及7)使用所合成的查询图像作为视觉查询来搜索类似的图像。

在此所述的移动交互式多模图像搜索工具提供了一种图像搜索的知晓上下文的方案，方案考虑了在分开的图像间的空间关系，这些图像被作为图像的片来对待，例如，表示视觉单词的小的子图像。移动交互式多模图像搜索工具呈现了一种用于新的搜索模式的界面，所述模式允许用户通过以下方式来制定合成的查询图像：选择特定候选图像、操控所选的候选图像(包括重新调整大小和相对彼此操纵它们，并将这些操控的图像放置在一起，如同七巧板的各片以在交互画布上创建合成的查询图像。

示例框架

图1示出如在此所述的交互式移动图像搜索的框架100。示例框架100被示出为具有由至少一个服务器104主控的云侧102。服务器104包括存储器106、存储编程108以及处理器110。来自客户端侧114的一个或多个移动设备112通过网络116(由虚线所示)可以连接到服务器104和其他基于云的设备。服务器104可以包括，例如，web服务器、应用服务器以及任意数目的其他数据服务器。网络116表示任何类型的通信网络，包括例如因特网。移动设备112表示被配置成通过网络116发送和接收数据的任何类型的移动设备。例如，移动设备112可被实现为移动电话、个人数字助理(PDA)、上网本、平板计算机、手持式计算机和其他这样的由减少的形状因素和资源限制所表征的移动计算设备等。

框架100使用来自移动设备112多模交互性来识别搜索意图并可以组合不同的视觉描述符(例如比例不变特征变换(SIFT)、颜色以及边缘)以用于视觉搜索。虽然，某些操作被示为在图1的云102中发生，但在各种实现中，这些操作的一种或多种可以在移动设备112上发生。

在所示出的示例中，移动设备112通过麦克风和语音处理器接收自然语句输入以启动语音查询，如在118处所示。例如，移动设备112接收诸如“查找具有湖、天空和树的图像(find an image with a lake,the sky,and a tree)”，如在118处所示。所述系统使用语音识别(SR)引擎120来将118处接收的语音转换成文本片段。随后，所述系统使用实体提取引擎122来提取实体，对于文本来说就是名词。因此，工具从词典124中识别出“湖”、“天空”和“树”作为三个实体。图像群集引擎126从图像数据库128中标识出候选图像，所述候选图像对应于所述三个实体中的每个实体并可以被用作表示所识别的实体的对应的图像片。

将所提取的实体直接用作图像搜索的文本查询可能不能返回相关的结果，因为搜索围绕匹配图像标签的文本仅仅分开地处理每个实体，而不是作为一个组。另外，它没有提供一种考虑表示所提取的实体的图像相对于彼此的位置和/或大小的机构。因此，交互式多模图像搜索工具呈现了预定数目的候选图像，这样，可以选择每个实体的特定图像并且可以从所选的图像中构成合成的视觉查询，如在130处所示。

交互式多模图像搜索工具利用合成的视觉查询从图像数据库128中搜索相关的图像或者在一些实例中从诸如因特网之类的其他源进行搜索。交互式多模图像搜索工具基于所选图像的相对的位置和大小以及它们各自的可视内容进行知晓上下文的图像搜索，如在132处所示。响应于知晓上下文的图像搜索，交互式多模图像搜索工具使得视觉结果被返回给移动设备112。

示例用户界面

图2，在200处，示出了在移动设备112上的交互式多模图像搜索中使用的用户界面组件的示例。在所示的示例中，移动设备112表示Windows设备，但还可以类似地使用其他移动电话、智能手机、平板计算机和其他这样的移动设备。在移动设备112上，硬或软按钮202的激活指示启动音频输入的期望。如上所述，音频输入通过例如语音识别引擎120被接收并转换成文本。经转换的文本可以被呈现在移动设备112的屏幕上，如在204处所示，这允许在文本的一部分被错误转换的情况下进行编辑。在一些替换实例中，可以通过移动设备112上的硬或软按键接收文本输入，而不是初始音频输入，来启动交互式多模图像搜索。

因此，在各种实施例中，交互式多模图像搜索工具利用语音输入来帮助用户通过使用SR引擎，例如基于隐马尔可夫模型(HMM)的SR引擎，来启动查询，所述SR引擎能够接受自然语句和短语片段，并随后将所述语音转录成文本。

示例SR引擎120使用统计建模框架，在其中，所接收的发言先被转换成特征空间中的紧凑和有意义的表示(矢量)。示例SR引擎120的解码器将特征矢量作为输入，并基于声学和语言模型生成假设的词语序列的概率。

来自示例SR引擎120的输出可以被用作图像搜索的查询。交互式多模图像搜索工具处理来自SR引擎120的输出以提取实体，所述实体是诸如“树”、“湖”、“车”和“房屋”之类的名词关键字。实体提取引擎122可以检测由几个候选图像所表示的词语。当标识了多个候选图像时，可以选择候选图像中的特定图像用于细化以示出搜索意图。因此，该工具将视觉上有意义的名词词语/短语检测为实体，例如“房屋”、“湖”和“树”，同时丢弃非视觉描述性的名词，例如“法律”和“假期”。在一些实现中，被检测为实体的城市名可以被作为非视觉描述性名词来对待。在几个这样的实例中，丢弃城市名，在其他实例中，保存城市名作为单独的名词类别以供日后使用。

为此目的，交互式多模图像搜索工具可以通过收集具有具体的视觉表示的名词(例如从155,287个词语中收集117,798个名词)来构建实体字典或词典，例如词典124。在示例实现中，一个名词是否具有具体视觉表示的判定是基于该名词是否被包括在图像数据库128中的任意图像标签内，所述判定被定期更新。在至少一个实现中，交互式多模图像搜索工具忽略具有低于图像数据库中阈值数目的图像(例如100)的名词，使得保留较少数目的唯一的词语(例如保留22,117个唯一词语)。

另外，在至少一个实现中，交互式多模图像搜索工具包括其他实体，例如名人名字、流行产品以及路标以考虑诸如“超人”和“埃菲尔”之类的输入。交互式多模图像搜索工具可以通过挖掘因特网来获得这些附加实体，并且/或者这些附加实体可以基于来自商业搜索引擎的查询。在示例实现中，作为由实体提取引擎122所执行的实体提取的一部分，将口头搜索查询中的词语分配给来自词典124的它们的最长的匹配。例如，“北极熊”和“埃菲尔铁塔”是提供了已知的语义含义的短语。这样，它们被提取作为短语实体，所述短语实体被匹配于来自词典124的短语。每个所提取的实体以其最长的形式被单独用在由图像群集引擎126所执行的图像群集中。这样，所提取的短语实体被图像群集引擎126用作短语，而不是单独名词。因此，随后被用作知晓上下文的图像搜索132的合成的视觉查询中的图像片的所选图像可以表示短语，而不是单独的名词。

在示例实现中，所提取的实体在移动设备112的屏幕上被呈现为标签，如在206处所示。同时，实体的候选图像可以被呈现在移动设备112的屏幕上，如在208处所示。在所示示例中，一个实体“树”的候选图像被以单个水平功能区格式呈现，从其中可以通过拖放到移动设备112的屏幕的画布区域210上来选择特定图像。同时，已经通过拖放到移动设备112的屏幕的画布区域210上来选择了实体“湖”和“天空”的特定候选图像。然而，其他格式也同时是可能的和预期的。例如，可以在屏幕的一个部分上的垂直或水平功能区中同时呈现超过一个的实体的候选图像，以便选择表示每个实体的特定候选图像。

通过包括多触摸输入的触摸，画布区域210接受对所选图像的操控，以在画布区域210内重新调整图像大小和操纵图像。在这种方式中，通过每个图像片在合成的查询图像中的大小和位置来定义用于视觉搜索的合成的查询图像，而不要求现有的查询图像。在所示的示例中，交互式多模图像搜索工具将湖的位置记录为在画布区域210的框架中比树和天空更低。同时，树被记录为被定位到画布区域210的框架中的右边在天空之下，而天空在画布区域210的顶部。在各种实现中，在画布区域210内形成合成的查询图像时，一个或多个所选图像的全部或部分可以覆盖另一个所选图像。当图像部分由于覆盖而被遮挡时，所遮挡的部分可以被丢弃，或被给予较低的计算权重和/或正被覆盖的所述部分可以被给予较高的计算权重。基于所选的特定的候选图像的视觉内容，各个实体的内容包括天空中的积云、没有叶子的树以及具有某种可视岸线的平静的湖。

搜索按钮212的激活开始了基于在画布区域210中所定义的合成的视觉查询图像的知晓上下文的视觉搜索132。在其他实现中，双击或其他输入可以开始知晓上下文的视觉搜索132在各种实现中，搜索按钮212的激活可以使得与所选图像相关联的标签被保存以备交互式多模图像搜索工具的日后使用。

如在214处的所示示例中示出的，移动设备112被配置为在屏幕上呈现知晓上下文的视觉搜索132的结果。使用屏幕上的触摸输入，可以滚动结果，并且通过轻击或其他这样的输入，可以选择结果之一，例如，以检索关于结果图像的附加信息。或者，如果没有结果满足搜索意图，则后退按钮216的激活将使得屏幕复原到先前的画布，这样，合成的查询图像可以被进一步操控。在另一方面，通过激活开始按钮218可以访问移动设备的其他功能。

图3，在300处，示出使用移动交互式多模图像搜索工具从同一特定所选候选图像中正被组成的两个合成的视觉查询。如在所示的示例中示出的，所选图像被作为图像片来对待，其相对位置和大小有助于使用该合成的图像作为视觉查询的知晓上下文的图像搜索的执行。在302处虚线的左侧上表示的合成的视觉查询已经与水平方向上朝向左边并在垂直方向上在画布的中间的树组合在一起。同时，在304处虚线的右侧上表示的合成的视觉查询已经与水平方向上朝向右边并在垂直方向上在画布的中间的树组合在一起。在其他示例中，也可以改变图像片的大小以获得附加结果。如在300处所示，在两个合成的视觉查询中的具有相同的存储的标签的相同图像片的不同位置可能导致返回不同的查询结果。

如上所述，在此所述的交互式多模图像搜索工具利用了移动设备的多模功能，包括触摸屏交互，来允许视觉查询的合成。对于从诸如音频或文本输入之类的初始输入中提取的每个实体，所述系统返回了一组候选图像。从正被拖放到形成合成的视觉查询的画布上的所选图像中识别为每个实体选择特定图像。通过对所选图像中的每个图像的操控以用作合成的视觉查询中的图像片来实施所述合成的视觉查询的形成。所述操控，例如，可以包括例如通过触摸和/或多触摸来调整画布区域210上的每个所选图像的位置和大小。这样的多模交互解决了在现有的基于文本的图像搜索系统中存在的各种歧义，包括例如多义、形态、观点、位置和属性。

在本公开的上下文中，多义、形态、观点、位置和属性具有下述含义：多义是指词语具有多个含义，例如苹果(水果或产品)，足球(欧式足球或美式足球)；形态指示一个词语可能表示多个概念，例如苹果(公司或产品)，足球(物体或比赛)；视点是指从不同的角度或视角来看物体具有各种外观，例如车(侧面图和前视图)或办公室(内部或外部)；位置指示物体在目标图像中所期望的位置；而属性定义了实体的特性，例如颜色、类型和装饰。这些歧义中的每个可以导致在从音频或文本查询中得到视觉搜索意图的困难。

表1列出了可以被用于表示各种图像特征的符号，如在图4中所示。

表1

如在图4中所示，在400处，通过操控在合成画布上的多个所选图像的视觉查询的交互合成允许搜索意图的导出。具体地，从语音查询，“查找具有一个苹果和一串香蕉的照片”(“find a photo with an apple and a bunch of bananas")，402，交互式多模图像搜索系统将识别一组实体(关键字)404，并返回每个实体的候选图像列表。在各种实现中，每个实体的候选图像列表被存储以供日后由交互式多模图像搜索工具使用。

如图4中所示，T^(k)指示一个实体，且k是文本查询T中的实体的数目，在所示的示例中为2：T⁽¹⁾＝“苹果”，406，而T⁽²⁾＝“一串香蕉”408。

在替换实现中，用户可以从大数量的图像(例如图像数据库或来自搜索引擎的排在最前的图像搜索结果)中手动选择候选图像。在另一个替换实现中，可以通过适应在数据库和通用web图像之间的跨域区别来简单地基于标签使用来自数据库的图像。

在至少一个实现中，交互式多模图像搜索工具使用自动处理来标识每个实体的候选图像。例如，交互式多模图像搜索工具使用基于视觉特征和相似性度量的基于群集的方案以通过利用已知的图像数据库和图像搜索引擎结果来为给定实体标识候选图像。图4以功能区格式呈现出实体T⁽¹⁾和T⁽²⁾的候选图像的示例。在410(1)处示出了T⁽¹⁾的候选图像的功能区，并且，在410(2)处示出了T⁽²⁾的候选图像的功能区。

交互式多模图像搜索工具接收对对应于每个实体的特定候选图像的选择，以及在画布区域210上的对所选图像的重新定位和重新调整大小的指示，通过所述指示，交互式多模图像搜索工具制定合成的视觉查询。因此，合成的视觉查询可以被表示为一组分量其中每个分量C^(k)对应于一个实体T^(k)，以及所选图像I^(k)和在画布区域210上包括所选图像的矩形区域的位置和大小R^(k)。这样，如在412处所示，C^(k)可以由三元组(T^(k),I^(k),R^(k))来定义。

给定包括所识别的实体、所选图像和它们的预期位置的合成的视觉查询，任务是要搜索与该查询上下文相关的目标图像。如在此所使用，相关性是指目标图像被期望表示实体关键字和在期望位置中的视觉相似物体这两者。这样，在诸如画布区域210之类的画布上形成的合成的视觉查询414的目标图像每个将包括包含在上部的小苹果以及在右边的一大串香蕉的照片或真实图像。可以基于所指示的位置通过视觉相似性和意图一致性来测量视觉查询和目标图像之间的相关性。

交互式多模图像搜索工具将多种类型的视觉特征分析用于图像检索。例如，在至少一个实现中，该工具将合成的视觉查询的比例不变特征变换(SIFT)、色彩直方图和梯度直方图与目标图像进行比较以便图像检索。由于诸如SIFT的本地描述符对于某些图像分类并不能很好地执行，该工具利用了色彩和梯度直方图的区别能力。一个SIFT不能很好地执行的示例分类包括意指风景的场景或不包括路标的自然场景。SIFT不能很好地执行的另一示例分类包括人类图像，意指没有包括名人的随机、匿名或未知的人或人们的照片或图像。这样的分类由于其多种多样的外观，可能不包括SIFT共享特征。然而，交互式多模图像搜索工具可以使用这些分类内的颜色和/或图案相似性来用于对场景、人类和其他这样的分类的图像检索。

示例移动设备

图5示出被配置用于提供如在此所述的交互式多模图像搜索机构的示例移动设备112的选择部件。示例移动设备112包括网络接口502、一个或多个可以包括微处理器的处理器504、语音处理器506、一个或多个麦克风508以及存储器510。网络接口502允许移动设备112通过网络116来发送和/或接收数据。网络接口502还可表示其它通信接口的任何组合，以允许移动设备112发送和/或接收各种类型的通信，包括但不限于：基于web的数据和基于蜂窝电话网络的数据。

操作系统(OS)512、浏览器应用514、全球定位系统(GPS)模块516、罗盘模块518、交互式多模图像搜索工具520以及任意数目的其他应用522可以被作为计算机可读指令存储在存储器510中，并且至少部分在处理器504上被执行。

浏览器应用514表示可以在移动设备112上执行以提供用户界面的各种应用中的任意一种，通过所述用户界面可以访问因特网上可用的web内容。

GPS模块516表示在移动设备112上实现的根据全球定位系统来确定、监视和/或跟踪移动设备112的地理位置的任意功能。作为示例，GPS模块516可以被集成在单带或多带收发机中。作为另一个示例，GPS模块516可以被至少部分地用于向移动设备122的用户提供地图和/或导航方向。如在此所述，GPS模块516可以被配置为标识在任意给定时间的移动设备112的当前位置和/或维护移动设备112先前已经被定位的位置的历史。

罗盘模块518表示在移动设备112上实现的用以确定移动设备的当前地理方向的任意功能。在示例实现中，可以将从罗盘模块518中收集的信息与例如从GPS模块516收集的信息相组合以提供附加的位置信息。

其他应用522可以包括在移动设备112上可执行的任意数目的其它应用。这样的其他应用可以包括，例如，电子邮件应用、日历应用、交易模块、音乐播放器、相机应用、计算器、一个或多个游戏、一个或多个生产力工具、即时消息应用、加速计等等。

交互式多模图像搜索工具520包括一个或多个语音识别模块524、实体提取模块526、图像群集模块528、用户界面模块530、画布模块532、视觉查询合成模块534、知晓上下文模块536、图像搜索模块538以及可能的其他交互式多模图像搜索部件540。

语音识别模块524可以构成语音识别引擎120的编程全部或部分或与其一致地操作。语音识别模块524识别音频内容或输入中的词语并将所识别的词语转换成文本。例如，语音识别模块524可以由语音处理器506执行以处理来自麦克风508的输入。或者或另外地，语音识别模块524可以被配置为绕过语音处理器506来直接接收音频输入。语音识别模块524也可以访问先前存储的音频文件以及其他类似的数据源以生成音频数据的文本表示。语音识别模块524以文本形式输出查询。

实体提取模块526可以构成实体提取引擎122的编程的全部或部分或与其一致地操作。实体提取模块526检测来自语音识别模块524的文本输出中的名词，特别是可以由候选图像视觉表示的名词。在一些实施例中，实体提取模块526从以多种方式中的一种方式生成的文本查询中检测视觉上可表示的名词。例如，可由处理器504执行的实体提取模块526将视觉上有意义的名词词语/短语检测为实体，例如“房屋”、“湖”和“树”，同时放弃非视觉上描述性的名词，例如“法律”和“假期”。在各种实施例中，实体提取模块526将实体贡献用于通过收集具有具体视觉表示的名词来构造实体字典或词典，例如词典124。

图像群集模块528可以构成图像群集引擎126的编程全部或部分或与其一致地操作。图像群集模块528例如从图像数据库128中标识与由实体提取模块526所提取的每个实体相对应的候选图像。例如，可以由处理器504执行的图像群集模块528标识可以被用作在合成图像中表示所识别的实体的相应图像片的预定数目的候选图像。

可以访问各种图像数据源的任意组合来标识图像内容。在示例实现中，搜索服务可以被用于基于通常由因特网搜索服务来维护的“排名最前的故事”或“排名最前的搜索”来标识目前正流行的图像或图像对象。还可以使用其他上下文信息来标识图像内容源。可以使用技术的任意组合来标识图像内容源，并且可以使用这样的源的任意组合来标识可用的候选图像。

用户界面模块530可以构成移动设备112的其他机械和/或软件用户界面部件的操作的编程全部或部分或与其一致地操作。例如，可以由处理器504执行的用户界面模块530可以控制在交互式多模图像搜索工具520的上下文中的硬或软按钮202、后退按钮216和/或开始按钮218的功能。用户界面模块530允许选择由图像群集模块528所标识的候选图像的特定图像。例如，用户界面模块530提供了对在移动设备112的屏幕上以可滚动功能区格式所呈现的特定候选图像的选择，如在208处所示。

在所示出的示例中可以作为用户界面模块530的编程的部分被包括或在一些实现中单独地被包括的画布模块532可以构成移动设备112的触摸屏的用户界面的交互式画布区域210的操作的编程全部或部分或与其一致地操作。例如，当使用触摸用户界面将通过用户界面模块530所选的图像放置在屏幕的画布区域210中时，可以由处理器504执行的画布模块532记录所选的图像。

视觉查询合成模块534可以构成用于从由画布模块532所记录的所选图像中组成合成的视觉查询的编程全部或部分或与其一致地操作。例如，当所选图像被操控为通过与屏幕的触摸交互来在用户界面的画布区域210上形成合成视觉查询的图像片时，可以由处理器504执行的视觉查询合成模块534记录所选图像的位置和相对大小。另外，视觉查询合成模块534可以提交用于搜索的合成的视觉查询。

知晓上下文模块536可以构成用于至少基于来自视觉查询合成模块534的合成的视觉查询来执行知晓上下文的图像搜索的编程全部或部分或与其一致地操作。例如，可以由处理器504执行的知晓上下文模块536可以查明构成合成的视觉查询的图像片的视觉上下文。知晓上下文模块536可以至少部分基于通过所选特定候选图像与未选中的候选图像相比较所克服的歧义来查明视觉上下文。例如图4中所提取的实体“苹果”的候选图像410(1)示出与名词“苹果”相关联的歧义。当选择水果的图片时，知晓上下文模块536可以推断出该查询不是意在查找由苹果公司所制造的电子产品的图像。知晓上下文模块536使得知晓上下文的图像搜索的结果可用于在移动设备112的屏幕上显示。

在一些实例中，实体提取模块526和/或知晓上下文模块536可以基于包括移动设备112的当前或预期的将来位置的任意组合来标识音频输入中的诸如“靠近”或“这附近”之类的输入，并将基于位置的上下文信息应用到候选图像和/或从合成的视觉查询返回的结果，这些候选图像和结果可能与上下文相关。例如，基于从GPS模块516和罗盘模块518获得的上下文信息，当用户已经选择加入收集并使用来自GPS模块516和/或罗盘模块518的位置信息的交互式多模搜索工具时，可以确定旅行的当前位置和方向。随后，基于来自所述查询、GPS信息和/或罗盘信息中正被包括的一个或多个城市的位置信息，可以将与当前位置有关的候选图像和/或合成的视觉查询的结果标识为上下文相关的。在另一个示例中，可以将这样的位置信息用于对返回的视觉查询的结果进行排名。

图像搜索模块538可以构成用于至少基于来自视觉查询合成模块534的合成的视觉查询和/或来自知晓上下文模块536的结果来执行图像搜索的编程全部或部分或与其一致地操作。例如，可以由处理器504执行的图像搜索模块538可以基于构成合成的视觉查询的一个或多个图像片的矢量匹配来标识图像搜索的结果。图像搜索模块538可以使得图像搜索的结果可用于在移动设备112的屏幕上显示。

在一些实施例中，其他交互式多模图像搜索部件540可以应用其他交互式数据的上下文来执行合成的视觉查询。例如，可以被使用的其他上下文数据包括但不局限于：最近搜索、即时消息收发信息、标识最近被访问的应用(例如游戏、生产力应用等)的数据、可以被用于确定移动设备112正在移动的速度的加速计数据等等。

虽然在图5中被示为是被存储在移动设备112的存储器510中，在一些实现中，交互式多模图像搜索工具520可以被存储在一个或多个服务器104上和/或通过基于云的实现(例如云102)被执行。另外，在一些实施例中，可以使用可由移动设备112访问的计算机可读介质的任意形式来实现交互式多模图像搜索工具520或其部分。而且，在一些实现中，操作系统512、浏览器应用514、GPS模块516、交互式多模图像搜索工具520和/或其他应用522的一个或多个部件可被实现为作为移动设备112的一部分或可被移动设备112访问的集成电路的一部分。而且，虽然被示出且描述为是在移动设备112上实现，在一些实施例中，由如在此所述的交互式多模图像搜索工具520所提供的数据访问和其他功能还可以在被配置用于多模输入并且通过其用户可以执行交互式多模视觉搜索的任意其他类型的计算设备上实现，包括但不局限于桌面计算机系统和膝上计算机系统。

如本文所使用的术语，计算机可读介质包括至少两种类型的计算机可读介质，即计算机存储介质和通信介质。计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可用于存储信息以供计算设备访问的任何其他非传输介质。

相反，通信介质可在诸如载波之类的已调制数据信号或其它传输机制中体现计算机可读指令、数据结构、程序模块或其它数据。如在此所述，计算机存储介质不包括除了执行传输所需的任意硬件部件之外的通信介质。

示例操作

图6-9示出用于实现在此所述的交互式多模图像搜索工具520的示例过程。这些过程被示为逻辑流程图中的各框的集合，这表示可用硬件、软件或其组合实现的一系列操作。在软件的上下文中，这些框表示在一个或多个计算机可读介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时使得这些处理器执行既定操作。

这承认，软件可以是有价值的，单独地可交换的商品。它旨在包含运行于或者控制哑摂或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片，或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。

注意，描述过程的次序并不旨在解释为限制，并且任何数目的所述过程框可以按任何次序组合以实现本过程或替换过程。另外，可从过程中删除各个框，而不背离此处所述的主题的精神和范围。此外，尽管如上参考图1-5所述的移动设备112来描述该过程，但在一些实施例中包括基于云的体系结构的其他计算机体系结构可以整体或部分地实现这些过程的一个或多个部分。

图6示出用于实现交互式多模图像搜索工具的示例过程600。

在框602处，接收音频输入。例如，如在图1和5中所示，移动设备112通过麦克风508接收口头查询。

在框604，语音识别被用于将音频输入转换成文本。如上参考图1和5所述，语音识别(SR)引擎或模块(例如语音识别引擎120和/或语音识别模块524)的任意组合可以被用于将所接收的语音转换成文本。

在框606，执行分析以标识文本中的可被视觉表示的名词和名词短语。这些名词或名词短语中的每个在实体提取中被提取作为实体。例如，如在图1和5中所示，实体提取引擎或模块(例如实体提取引擎122和/或实体提取模块526)的任意组合可以被用于从文本中标识并提取可被视觉表示的名词和名词短语。

在框608，为所提取的实体标识候选图像。可以访问各种图像内容源(包括诸如图像数据库128的图像数据库和商业搜索引擎)来标识可用的候选图像。如上所述，在示例实现中，搜索服务可以被用于基于通常由因特网搜索服务来维护的“排名最前的故事”或“排名最前的搜索”来标识目前正流行的图像内容。在至少一个实现中，依据视觉特征和相似性度量的基于群集的方案被用于通过利用已知的图像数据库和来自图像搜索引擎的结果来标识给定实体的候选图像。例如，如图1和5所示，图像群集引擎或模块(例如图像群集引擎126和/或图像群集模块528)的任意组合可以被用于标识实体的候选图像。

在框610，所标识的候选图像被用于选择最接近地表示实体的意图含义的特定图像。如上参考图1-5所述，可以通过诸如移动设备112上的启用触摸屏的显示器来提供候选图像。例如，如在图1和5中所示，用户界面模块(例如用户界面模型530和/或画布模块532)的任意组合可以被用于提供表示所提取实体的候选图像以供选择。在至少一个实现中，候选图像被用于通过给移动设备112上的用户界面的触摸输入的选择。

在框612，接收对表示每个实体的候选图像的特定一个的选择。在各种实现中，通过将特定候选图像拖放到移动设备112的用户界面的画布区域210上来接收选择。例如，如在图1和5中所示，用户界面模块(例如用户界面模型530和/或画布模块532)的任意组合可以被用于接收表示所提取实体的特定候选图像的选择。在至少一个实现中，通过给移动设备112上的用户界面的触摸输入来接收对候选图像的选择的指示。

在框614，通过用户界面的画布区域210来接收对所选图像的细化。在各种实施例中，细化包括有关在画布区域210上操控所选图像以形成合成的图像的信息。所述操控包括调整大小、操纵位置以及所选图像相对彼此的大小和位置中的一个或这两者的形态中的一个或多个。在至少一个实现中，通过到移动设备112上的用户界面的触摸输入来接收对所选图像的细化的指示。

在框616，所述合成的图像被用于执行在知晓上下文的图像搜索中的视觉查询。

图7示出了用于比较使用串接直方图所描述的图像的示例过程700。

在至少一个实现中，在框702，交互式多模图像搜索工具在图像的每个关键点处提取一个描述符，例如128维SIFT描述符。例如，图像可以包括来自图像数据库128的一个或多个图像，从web搜索中获得的图像和/或合成的视觉查询图像。在一些实例中，例如对于来自图像数据库128的每个图像，提取离线地预先发生。在其他实例中，例如对于从web搜索获得的图像和对于合成的视觉查询图像，提取基本上实时地在线发生。这些在线和离线提取方案可以被组合以从多个源标识候选图像。例如，在至少一个实现中，当基于可能的候选图像的标签的文本搜索为实体标识候选图像时，来自所标识的候选图像的诸如SIFT、颜色和/或梯度之类的特征描述符可以与不具有标签或具有标识附加候选图像的其他标签的可能的候选图像的其他图像相匹配。

在示例实现中，一个名词是否具有具体视觉表示的判定是基于该名词是否被包括在图像数据库128中的任意图像标签内，所述判定被定期更新。

在框704，交互式多模图像搜索工具通过分层K均值构造了所标识的实体的词汇树。例如，交互式多模图像搜索工具使用由分层K均值建立的词汇树来构造视觉代码簿。在其他示例中，可由KD-树来取代视觉代码簿或可使用其他技术。在一个示例实现中，例如对于来自图像数据库128的每个图像来说，这从图像数据库中产生了约6,000个视觉词语。在各种示例中，词汇树的叶子可以被认为是视觉词语，而图像内的本地点可以与词汇树的叶子相匹配以查找最近似于图像的叶子。

在框706，交互式多模图像搜索工具通过遍历树将每个SIFT描述符散列到视觉词语内。

在框708，交互式多模图像搜索工具通过加权视觉词语来描述图像。例如，在一个实现中，交互式多模图像搜索工具基于视觉词语的对应的图像片与图像中心的相对距离来加权视觉词语，其中离中心更近的图像片获得比离中心更远的图像片更重的加权。作为另一个示例，在至少一个实现中，交互式多模图像搜索工具基于视觉词语的各自的图像片的相对大小来加权视觉词语，其中越大的图像片并赋予越重的加权。

在框710，交互式多模图像搜索工具量化来自图像的颜色。例如，在一个示例实现中，交互式多模图像搜索工具将来自图像的颜色在色调、饱和度和值(HSV)空间中量化为192柱(bin)以描述所述图像。

在框712，交互式多模图像搜索工具量化来自图像的梯度。例如，交互式多模图像搜索工具将来自图像的梯度量化成8个方向和8个强度，产生64维梯度直方图来描述所述图像。

在框714，交互式多模图像搜索工具组合特征描述符来描述所述图像。在各种实现中，可以通过线性融合、串接或其他形式的组合来组合特征描述符。这样，对于示例实现，结果，所述工具通过这三种类型的视觉特征的串接直方图，例如(6256＝6000视觉词语+192颜色柱+64维梯度直方图)，来描述图像。使用这三种类型的视觉特征已经被证明对于图像检索而言是有效的。在至少一个实现中，在被组合之前个别地规范化每种类型的特征。在一些实现中，交互式多模图像搜索工具还使用加权函数来平衡不同类型的描述符并挖掘直方图中的提供信息的元素。

在框716，交互式多模图像搜索工具使用相似性度量来比较可能的候选图像的直方图的相似性。例如，使得f_i和f_j分别标记图像i和j的规范化的直方图。如公式1所表示的，通过在两个直方图之间的加权的交集核来给定这两个图像之间的相似性。

sim (f_{i}, f_{j}) = Σ_{n = 1}^{N} w_{n} \min (f_{i, n}, f_{j, n}) - - - (1)

在公式1中，f_i,n指示直方图f_i的第n个元素，W_n是测量来自第n个元素上的相似性的贡献的权重，而N(例如,N＝6256)是直方图的维度。因为并不是直方图中的所有的元素对于比较图像来说都是同等重要的，因此，权重将来自不同的特征的贡献区分开来。交互式多模图像搜索工具跨图像平均特征，并获得平均直方图并随后定义权重W_n为元素跨所有图像的频率越高，该元素的重要性就越低。因此，该加权函数能够挖掘直方图中的提供信息的元素并平衡不同类型的描述符。

图8示出由交互式多模图像搜索工具所使用的标识每个实体的候选图像的基于群集的方案的示例过程800。在一些实现中，过程800表示根据图6的框608的为所提取的实体标识的候选图像。

在框802，交互式多模图像搜索工具根据实体关键字从图像数据库中选择可能的候选图像并从商业图像搜索引擎选择预定数目(例如1,000)的排在最前的图像。

在框804，交互式多模图像搜索工具根据在先前章节中所述的和如公式1所示的视觉描述符和相似性度量通过比较图像对来计算相似性矩阵。

在框806，在一些实现中，为了避免背景混乱，交互式多模图像搜索工具在特征提取之前进行显著区域检测处理。例如，当含有物体的图像杂乱得使得该物体不能被容易地辨别时，交互式多模图像搜索工具可以使用显著区域检测处理来获得不具有混乱该物体的附加背景分量的反映该物体的图像分量。

在框808，交互式多模图像搜索工具从图像提取特征。在至少一个实施例中，为了避免背景混乱，仅考虑显著区域内的视觉描述符。

在框810，在各种实施例中，交互式多模图像搜索工具使用将特征分组成许多分类的未受监督的群集方法。例如，仿射传播(AP)算法可以是一种用于查找用于分组到分类中的特征的视觉实例的未受监督的群集方法。

在框812，交互式多模图像搜索工具根据包括在每个群集中的图像的数目以降序形式排序群集例如，具有少于100个图像的群集的排名将比具有超过100个图像的群集更低。

在框814，交互式多模图像搜索工具从排名最前的群集(例如最前的10个)中选择预定数目的图像的中心作为该实体的候选图像。例如，示出不同主题的可能的候选图像可以具有匹配实体的标签。虽然可以通过搜索某个标签来收集可能的候选图像，但交互式多模图像搜索工具可以根据可能的候选图像的外观来将这些可能的候选图像群集到分组中以标识在图像中所呈现的不同主题的代表性图像。交互式多模图像搜索工具例如根据各个分组中的图像的数目来排名分组，这样，具有最大数目图像的分组被排名第一。另外，在一些实例中，交互式多模图像搜索工具保留被认为最具代表性的预定数目(例如最前的10个或最前的5个)的分组。在一些实例中，保留的分组数目是用户可配置的。

在框814，对于保留的分组，交互式多模图像搜索工具选择每个分组的群集中心作为代表性的候选图像，每个群集选择一个图像。这样，例如，来自表示具有对应于实体的标签的10个不同的主题的10个分组中的每个分组的代表性图像可以被呈现为从其中可以选择要成为合成的视觉查询的一部分的图像的10个候选图像。

在框816，交互式多模图像搜索工具加权描述符。例如，高斯窗口可以被用于加权描述符，并使得靠近中心的描述符更加重要。

图9是在900处示出知晓上下文的基于合成的图像的图像搜索过程的数学上注释的视图。该过程以合成的视觉查询C开始，如在902处所示，该查询包括两个图像片。

在904，交互式多模图像搜索工具例如通过组合所存储的表示实体关键字{T^(k)}(如关于图4所述的)的标签来生成文本查询。作为另一个示例，可以生成文本查询以包括除标签外的来自其他类别的文本，例如当标签中不包含城市名时来自位置类别的城市名。所生成的文本查询被提交给图像搜索模块或引擎(例如在图5和9中所示的那些，包括图像搜索模块538和/或图像搜索引擎906)的任意组合。

在908处，图像搜索引擎906可以根据文本查询从诸如图像数据库128之类的图像数据库中搜索相关的图像。在一些实例中，根据位置来过滤相关的图像，所述位置可以包括GPS信息、位置类别和/或城市标签中的一个或多个，当这些信息可用于减少搜索结果的数目时。搜索结果910是候选图像。候选图像910表示从文本查询904所提取的并由合成的视觉查询902所表示的实体的候选图像。这些候选图像910是基于文本的图像搜索结果，所述图像搜索结果每个都可以作为目标图像与合成的视觉查询902进行比较。

在912，交互式多模图像搜索工具计算在合成的视觉查询902的每个图像片分量和目标图像J,924中对应的区域之间的视觉相似性

对于动作912，为了计算在合成的视觉查询902的图像片分量和目标图像J,924中对应的区域之间的基于区域的视觉相似性交互式多模图像搜索工具获得在J,924中的对应区域的视觉表示。由于实时计算J,924中的特定区域的视觉表示并不是经常可行的(例如因为在构建合成的图像时用户可能频繁地改变该分量的位置和大小)，交互式多模图像搜索工具使用有效的基于网格的搜索模式并将目标图像J分隔到小网格中。其中M表示目标图像J将被分成的单元的整数数目，而i,j表示每个单元的角点的坐标。

对于第k个图像片分量(对应于合成的查询中的区域R^(k))，以及对应于在J中的网格(i,j)的中心位置，在J中的对应区域被给予了每个相关联的网格的并集，即在每个网格中，交互式多模图像搜索工具使用利用了包括上述SIFT、颜色直方图和梯度直方图的三种类型的视觉特征的方案来获得特征直方图。在示例实现中，所获得的特征直方图被提前存储。交互式多模图像搜索工具可以将目标图像J表示为其中h_J(i.j)是网格(i,j)的视觉描述符。M＝9,(一个9x9网格)被用在一个示例实现中。交互式多模图像搜索工具使用来自相关网格的直方图的线性融合来获得区域的视觉表示，如公式2所表示。

f_{J}^{(k)} (i, j) = \underset{(i, j) &Element; R_{J}^{(k)}}{Σ} w_{J} (i, j) h_{J} (i, j), - - - (2)

在公式2中，W_J(i,j)是在给定区域中心的2D高斯分布的权重，它将更多的重要性分配给了靠近中心的网格。随后，公式3给出了在第k个图像片分量和区域之间的基于区域的视觉相似性。

e_{J}^{(k)} (i, j) = sim (f^{(k)}, {f_{J}}^{(k)} (i, j)), - - - (3)

在公式3中，f^(k)是第k个图像片分量的视觉描述符，而sim(·)在公式1中给出。注意在上述公式中，交互式多模图像搜索工具使用索引(i,j)和k两者。这是因为交互式多模图像搜索工具将使用滑动窗口来计算基于区域的相似性以处理位置容差。因此，指示了在第k个图像片分量和目标图像J中的(i,j)的中心处的对应区域之间的视觉相似性。

在914，交互式多模图像搜索工具将来自合成的视觉查询902的每个图像片分量的维度重叠到目标图像J上。

在916，如从图像片分量C⁽¹⁾开始的双头箭头所示，交互式多模图像搜索工具在目标图像J上将片的区域扩展到更大的大小以考虑输入不精确性。

在918，交互式多模图像搜索工具生成意图图{d^(k)(i，j)}，如在920处所示。意图图920是根据图像片在合成的视觉查询902内的位置来生成的，如在诸如画布区域210之类的画布上所细化的。例如，在各种实施例中，如上参考图6的框614所述，细化可以改变一个或多个所选图像的大小和/或位置。

关于动作918，在图像片分量I^(k)和对应的区域之间的基于区域的相关性的计算应该考虑所述意图。这种基于区域的意图相关性可以被标记为相关性。直观地，靠近每个区域R^(k)的中心的意图比远离中心的意图更加强健。而且，在图像片分量I^(k)内的意图比在其外的意图更强健。交互式多模图像搜索工具首先定义意图图，该图是在合成的视觉查询中的意图的软度量。

使得(x^(k),y^(k))指代在合成的视觉查询中的第k个图像片分量的中心。为了容忍如用户所指示的该位置处的不确定性，交互式多模图像搜索工具计算一个软图来表示如由公式4所示的意图。

d(x，y)＝2g(x，y)-1， (4)

g (x, y) = \exp {- {(\frac{x - x^{(k)}}{θ \cdot w^{(k)}})}^{2} - {(\frac{y - y^{(k)}}{θ \cdot h^{(k)}})}^{2}},

在公式4中，w^(k)和h^(k)分别是区域R^(k)的宽度和高度，而θ被设定为常量，例如(81n2)^-1/2，以使得g在区域R^(k)的边缘处下降到0.5。可以使用其他值。

关于动作922，交互式多模图像搜索工具确定之内和之外的网格的意图一致性。该依据在网格(i,j)的网格处的第k个分量的意图一致性由公式5给出。

r_{J}^{(k) +} (i, j) = \min (e_{J}^{(k)} (i, j), d^{(k)} (i, j)) - - - (5)

这被称为正相关性，因为它主要聚焦于之内的网格。交互式多模图像搜索工具还使用一种方案来惩罚在非期望的位置(例如在所指示的区域之外)中存在的实体。交互式多模图像搜索工具用惩罚分数来表示在区域之外的每个网格的相关性。所述惩罚分数可以由公式6获得。

r_{J}^{(k) -} (i, j) = \min (e_{J}^{(k)} (i, j), - d^{(k)} (i, j)) - - - (6)

这被称为负相关性，因为它惩罚了在之外的网格。这就允许来自在合成查询画布上的所选图像的该放置和细化中的意图的指示中的不精确性(例如所选图像可能定位在近似位置，而不是精确位置，并且没有被很好地重新调整大小)。因此，交互式多模图像搜索工具维护了对每个图像片分量的位置和大小的容差。

在922，交互式多模图像搜索工具通过考虑在目标图像J924中的图像片的视觉相似性和所生成的意图图这两者来为每个图像片分量计算正相关性r_j ^(k)+(i，j)和负相关性r_j ^(k)-(i，j)，所述视觉相似性和所生成的意图图对应于合成的查询图像中的每个图像片分量。

在926，交互式多模图像搜索工具通过考虑在目标图像J,924中的周围网格(使用滑动窗口)，如在928处所示，为每个图像片分量计算组合的相关性。

关于动作926，为了处理容差问题，交互式多模图像搜索工具使用了滑动窗口，其大小与R^(k)相同并且将该窗口放置在中的所有的网格(i,j)处的中心。换句话说，可以在这些滑动窗口上重新定位原始图像片分量以引入某种位置容差。交互式多模图像搜索工具通常在这些滑动窗口中搜索最佳匹配，如在图9中所示。因此，由公式7来计算在第k个图像片分量和之间的“正相关性”和“负相关性”。

\begin{matrix} r_{J}^{(k) +} = \max_{(i, j) &Element; R_{J}^{(k)}} {r_{J}^{(k) +} (i, j)}, \\ r_{J}^{(k) -} = \max_{(i, j) &NotElement; &Element; R_{J}^{(k)}} {r_{J}^{(k) -} (i, j)} . \end{matrix} - - - (7)

在第k个图像片分量和之间的组合的相关性由公式8给出。

r_{J}^{(k)} = r_{J}^{(k) +} - r_{J}^{(k) -} - - - (8)

在930处，交互式多模图像搜索工具计算在合成的视觉查询C,902和目标图像J,924之间的总体相关性r_j。通过这种方式，交互式多模图像搜索工具可以根据该总体相关性分数来对在908返回的图像进行排名。

关于动作930，在交互式多模图像搜索工具获得每个基于区域的相关性之后，该交互式多模图像搜索工具通过比较跨C和J两者的所有的图像片分量的视觉描述符的串联来计算C和J之间的整体的相关性。为了考虑不同的图像片分量的差异，由对每个基于区域的相关性的平均和方差两者都敏感的融合函数来给出总体相关性，如在公式9中所示。

r_{J} = E (r_{J}^{(k)}) - \frac{γ}{K} Σ_{k = 1}^{K} | r_{J}^{(k)} - E (r_{J}^{(k)}) | - - - (9)

在公式9中，是平均相关性，而γ是控制惩罚程度的正参数。当不存在离某些区域更近的目标图像时或当一些区域被很好匹配而另一些则匹配不佳时，可以使用这样的惩罚。因此，在一些实现中，施加的惩罚程度至少部分地基于各种区域的相关性匹配所查明的差异量。在至少一个实现中，惩罚的程度依据经验被设定为0.8。

结语

随着通过移动设备可用的功能性和数据访问的不断增加，这样的设备可以被用作在行进的同时为用户提供了对日益增加的数据量的访问的个人因特网冲浪门卫。通过利用由移动设备实现的可用的多模交互，交互式多模图像搜索工具可以被有效地执行视觉搜索，而无需现有的查询图像。

尽管已经用结构特征和/或方法运算专用的语言描述了交互式多模视觉搜索系统，但要理解，所附权利要求书中定义的特征和操作不必限于所描述的具体特征或操作。相反，这些具体特征和操作是作为实现权利要求的示例形式来公开的。

Claims

1.一种方法，包括：

通过计算设备(112)接收查询输入(204)；

基于所述查询输入生成候选的图像集(208)；

接收对所述候选的图像集(208)中的一个或多个图像的选择(612)；

促进包括来自所述候选的图像集(208)的一个或多个图像的合成的图像(414)的合成，所述促进包括通过所述计算设备(112)的用户界面接收所述一个或多个图像在画布(210)上的放置的指示；以及

使用所述合成的图像(414)作为查询图像来执行视觉搜索。

2.如权利要求1所述的方法，其特征在于，至少部分基于从所述查询输入中提取的实体来生成所述候选的图像集。

3.如权利要求1所述的方法，其特征在于，所述放置的指示包括：

所述一个或多个图像在所述画布上的放置的位置；或

所述一个或多个图像中的至少两个图像在所述画布上的放置的相对位置。

4.如权利要求1所述的方法，其特征在于，所述合成的图像的合成包括接收所述一个或多个图像在所述画布上的大小的指示，所述大小的指示包括：

一个或多个所述图像在所述画布上的大小的修改；或

所述一个或多个图像中的至少两个图像在所述画布上的相对大小。

5.如权利要求1所述的方法，其特征在于，所述查询输入包括音频输入。

6.如权利要求1所述的方法，其特征在于，所述计算设备包括移动设备。

7.如权利要求1所述的方法，其特征在于，所述用户界面包括触摸界面。

8.如权利要求1-7中任一权利要求所述的方法，其特征在于，还包括在存储器中记录所述合成的图像。

9.一种包括处理器和存储器的系统，所述系统被配置为执行如在权利要求1-7中任一权利要求所述的操作。

10.一种在其上编码了计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在被执行时将一种设备编程为执行如权利要求1-7中的任一项所述的操作。