CN114817351A

CN114817351A - 促进图像在搜索查询中的使用

Info

Publication number: CN114817351A
Application number: CN202210447280.5A
Authority: CN
Inventors: M.沙里菲; D.彼得鲁; A.夏尔马
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-04-18
Filing date: 2016-12-02
Publication date: 2022-07-29
Also published as: US20220188321A1; WO2017184207A1; US20170300495A1; US11269897B2; US10489410B2; CN108701143B; US20200050610A1; US20230350905A1; EP3446233A1; CN108701143A; US11734287B2

Abstract

用于接收查询图像，接收与查询图像相关联的一个或多个实体，针对实体中的一个或多个识别与一个或多个实体预先关联的一个或多个候选搜索查询，为候选搜索查询中的每一个生成各个相关性分数，至少基于所生成的各个相关性分数选择具体候选搜索查询作为查询图像的代表性搜索查询，并响应于接收到查询图像而提供代表性搜索查询以用于输出的方法、系统和装置。通过允许搜索查询采用图像的形式，用户界面能够允许进入搜索查询而不需要使用键盘或诸如话音辨识的另一文本键入机制的文本输入。

Description

促进图像在搜索查询中的使用

本申请是申请日为2016年12月2日、申请号为201680082227.2、发明名称为“促进图像在搜索查询中的使用”的发明专利申请的分案申请。

技术领域

本说明书涉及简化搜索引擎的使用。

背景技术

一般地，用户能够通过向搜索引擎输入查询来请求信息。搜索引擎能够处理查询并且能够响应于查询而提供用于输出到用户的信息。一些用户受限于他们与计算机交互的能力，包括受限于他们将搜索查询输入到计算机中的能力。

发明内容

根据本说明书中描述的主题的一些创新方面，计算设备允许对于搜索工具的简化用户界面。具体地，计算设备允许用户能够提供查询图像(例如，来自用户周围环境的照片)作为搜索查询。响应于系统接收到查询图像，系统用一个或多个查询图像标签(例如，标记查询图像中的特征的查询图像标签)来注释查询图像。查询图像标签标记查询图像的粗粒度特征，并且在某些情况下，标记查询图像的细粒度特征。基于查询图像标签，系统识别与查询图像标签相关联的一个或多个实体，例如，人、地点、电视网络、或体育俱乐部，并使用所识别的一个或多个实体识别一个或多个候选搜索查询。系统使用所识别的实体和查询图像标签来将候选搜索查询的评分偏向与用户相关的候选搜索查询，而与查询图像是否用细粒度标签标记无关。系统提供一个或多个相关的代表性搜索查询用于输出。

通过允许搜索查询采取图像的形式，用户界面能够允许进入搜索查询而不需要使用键盘或诸如话音辨识的另一文本键入机制的文本输入。这能够允许可能不能够以其它方式容易地使用搜索引擎的一类用户来使用界面，该类用户包括幼儿、具有有限的精细运动控制的用户、没有话音能力的用户等。它也能够允许在基于文本输入可能很难或不可能的情况下由用户使用界面，诸如在寒冷环境中，用户戴在其手上的手套阻止他们使用诸如在其移动设备上的虚拟键盘或小键盘的文本键入设备。用户可以键入文本以补充搜索查询的图像组件。

本说明书中描述的主题的创新方面可以体现在方法中，该方法包括接收查询图像，接收与查询图像相关联的一个或多个实体，对于实体中的一个或多个，识别与该一个或多个实体预先关联的一个或多个候选搜索查询，为候选搜索查询中的每一个生成各个相关性分数，至少基于所生成的各个相关性分数选择具体候选搜索查询作为查询图像的代表性搜索查询，并响应于接收到查询图像而提供代表性搜索查询以用于输出。

此方面的其它实施例包括相应的计算机系统、装置、和记录在一个或多个计算机存储设备上的计算机程序，均被配置为执行该方法的动作。一个或多个计算机的系统能够被配置为通过安装在系统上的、在操作中引起或引起系统执行动作的软件、固件、硬件、或其组合来执行具体操作或动作。一个或多个计算机程序能够被配置为通过包括当由数据处理装置运行时引起装置执行动作的指令来执行具体操作或动作。

前述和其它实施例均单独地或组合地能够可选地包括一个或多个以下特征。在一些实施方式中，为候选搜索查询中的每一个生成各个相关性分数包括，对于每个候选搜索查询：确定查询图像的上下文是否匹配候选搜索查询；并且基于所确定的匹配，为候选搜索查询生成各个相关性分数。

在一些实施方式中，确定查询图像的上下文是否匹配候选搜索查询包括确定查询图像是否具有匹配候选搜索查询的关联定位。

在一些情况下，该方法还包括接收自然语言查询；并且至少基于接收到的自然语言查询，为候选搜索查询中的每一个生成各个相关性分数。

在其它情况下，该方法还包括为候选搜索查询中的每一个生成各个相关性分数包括，对于每个候选搜索查询：使用候选搜索查询生成搜索结果页面；分析所生成的搜索结果页面以确定指示该搜索结果页面多感兴趣和多有用的度量；并且基于所确定的度量，为候选搜索查询生成各个相关性分数。

在一些实施方式中，为候选搜索查询中的每一个生成各个相关性分数包括，对于每个候选搜索查询：确定候选搜索查询的流行度；并且基于所确定的流行度，为候选搜索查询生成各个相关性分数。

在其它实施方式中，接收与查询图像相关联的一个或多个实体包括：获得一个或多个查询图像标签；并且对于查询图像标签中的一个或多个，识别与该一个或多个查询图像标签预先关联的一个或多个实体。

在一些情况下，一个或多个查询图像标签包括细粒度图像标签。

在一些情况下，一个或多个查询图像标签包括粗粒度图像标签。

在一些实施方式中，该方法还包括为查询图像标签中的每一个生成各个标签分数。

在一些实施方式中，查询图像标签的各个标签分数至少基于查询图像标签的时事性。

在其它实施方式中，查询图像标签的各个标签分数至少基于该标签有多特定。

在进一步的实施方式中，查询图像标签的各个标签分数至少基于后端的可靠性和校准的后端置信度分数，其中通过该后端获得查询图像标签。

在一些情况下，至少基于候选查询分数选择具体候选搜索查询还包括至少基于候选查询分数和标签分数来选择具体候选搜索查询。

在一些实施方式中，至少基于候选查询分数和标签分数来选择具体候选搜索查询包括：确定每个标签分数与关联候选查询分数之间的聚合分数；对所确定的聚合分数进行排名；并选择对应于最高排名分数的具体候选搜索查询。

在一些情况下，至少基于候选查询分数选择具体候选搜索查询包括：对候选搜索查询的相关性分数进行排名；并选择对应于最高排名分数的具体候选搜索查询。

在一些实施方式中，响应于接收到查询图像而提供代表性搜索查询以用于输出还包括响应于接收到查询图像而提供与预定数量的最高排名分数相对应的预定数量的候选搜索查询以用于输出。

在其它实施方式中，该方法还包括使用代表性搜索查询生成搜索结果页面；并且响应于接收到查询图像而提供所生成的搜索结果页面以用于输出。

本说明书中描述的主题的创新方面可以包括一种计算系统，该计算系统包括：一个或多个处理器；一个或多个非暂时性计算机可读介质，一个或多个非暂时性计算机可读介质共同存储指令，当指令由一个或多个处理器执行时，使计算系统执行操作，操作包括：获得查询图像，其中查询图像包括一个或多个图像特征；对查询图像执行视觉识别过程，以至少部分地基于一个或多个图像特征识别与查询图像相关联的一个或多个视觉识别结果；至少部分地基于一个或多个视觉识别结果来确定多个候选搜索查询；确定与查询图像相关联的上下文；至少部分地基于与查询图像相关联的上下文来确定多个候选搜索查询的代表性搜索查询；获得与代表性搜索查询相关联的搜索结果页面；和提供搜索结果页面以供显示。

本说明书中描述的主题的创新方面可以体现在一种计算机实现的方法中，方法包括：由包括一个或多个处理器的计算系统获得查询图像，其中查询图像包括一个或多个图像特征；由计算系统对查询图像执行视觉识别过程，以至少部分地基于一个或多个图像特征来识别与查询图像相关联的一个或多个视觉识别结果；由计算系统至少部分地基于一个或多个视觉识别结果来确定多个候选搜索查询；由计算系统确定与查询图像相关联的上下文；由计算系统至少部分地基于与查询图像相关联的上下文来确定多个候选搜索查询中的代表性搜索查询；由计算系统获得与代表性搜索查询相关联的搜索结果页面；和由计算系统提供搜索结果页面以供显示。

本说明书中描述的主题的创新方面可以包括一个或多个非暂时性计算机可读介质，一个或多个非暂时性计算机可读介质共同存储指令，当由一个或多个计算设备执行时，指令使一个或多个计算设备执行操作，操作包括：获得查询图像，其中查询图像包括一个或多个图像特征；对查询图像执行视觉识别过程，以至少部分地基于一个或多个图像特征识别与查询图像相关联的一个或多个视觉识别结果；至少部分地基于一个或多个视觉识别结果来确定多个候选搜索查询；确定与查询图像相关联的上下文；至少部分地基于与查询图像相关联的上下文来确定多个候选搜索查询的代表性搜索查询；获得与代表性搜索查询相关联的搜索结果页面；和提供搜索结果页面以供显示。

在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图、和权利要求，本主题的其它潜在特征、方面、和优点将变得显而易见。

附图说明

图1描绘了示例查询图像和针对该示例查询图像的示例搜索结果页面。

图2描绘了响应于接收到查询图像而提供代表性搜索查询以用于输出的示例系统。

图3描绘了响应于接收到查询图像而提供代表性搜索查询以用于输出的示例过程的流程图。

各个附图中的相似参考符号指示相似元素。

具体实施方式

本说明书描述了使用基于图像的查询生成文本搜索查询的系统。系统能够接收基于图像的查询，例如，来自用户周围的照片。系统将接收到的基于图像的查询的视觉辨识结果的集合与搜索查询日志和已知的搜索查询属性组合，以针对所输入的基于图像的搜索查询生成相关自然语言候选搜索查询。自然语言候选搜索查询偏向如下搜索查询：(i)匹配用户的意图，(ii)生成感兴趣的或相关的搜索结果页面，或(iii)被确定为流行的搜索查询。

在一些实施方式中，系统可以接收基于图像的搜索查询以及自然语言查询，例如，可能已经使用话音辨识技术说出并导出的文本。系统可以将接收到的基于图像的搜索查询的视觉辨识结果的集合与搜索查询日志和已知搜索查询属性组合，以生成所输入的基于图像的搜索查询的相关自然语言候选搜索查询。自然语言候选搜索查询偏向如下搜索查询：(i)匹配用户的意图，(ii)生成感兴趣或相关的搜索结果页面，(iii)被确定为流行的搜索查询，和(iv)包括接收到的自然语言查询或与接收到的自然语言查询相关联。

图1描绘了示例查询图像100和针对该示例查询图像100的示例搜索结果页面110。例如，示例搜索结果页面110可以由系统响应于接收并处理示例查询图像100而提供。

图1中描绘的示例查询图像100是代表性照片查询图像106。例如，照片查询图像106可以代表由用户104使用用户设备102拍摄的照片。在其它示例中，照片查询图像106可以代表由用户104在用户设备102处接收的或以其它方式访问的照片。在一些实施方式中，示例查询图像100可以代表由用户104在用户设备102处接收、获得、或访问的另一类型的图像。例如，图像可以代表在由用户设备102访问的网站上找到的缩略图或其它图像、或者从在用户设备102上运作的应用获得的图像。

示例查询图像100可以包括一个或多个图像特征。该一个或多个图像特征包括可以由图像辨识系统标记的图像特征。例如，查询图像100可以包括粗粒度图像特征和细粒度图像特征两者。作为示例，查询图像100可以包括桌子上的书的图片。在这种情况下，查询图像100的粗粒度特征可以是书，并且细粒度特征可以是书的标题或体裁。在图1中描绘的示例查询图像100中，粗粒度查询图像特征可以包括“城市”或“建筑物”，并且细粒度特征可以包括“伦敦”或“小黄瓜(The Gherkin)”。

查询图像100还可以包括可以由图像辨识系统标记为大(例如，占据较大比例的图像表面面积)、小(例如，占据较小比例的图像表面面积)、或中心(例如，居中在图像的中间)的一个或多个对象或特征。继续以上示例，查询图像100可以包括桌子上的书的图片。在这种情况下，大图像特征可以是桌子，并且小图像特征可以是书。此外，书可以是中心图像特征。在图1中描绘的示例查询图像100中，大图像特征可以是建筑物，小图像特征可以是建筑物中的一个的窗户或门，并且中心图像特征可以是建筑物“小黄瓜”。

示例查询图像100可以由用户设备102接收并且使用响应于接收到查询图像而提供代表性搜索查询以用于输出的系统(例如，以下图2中的系统200)处理，以提供一个或多个候选搜索查询用于输出。图1中描绘的示例搜索结果页面110是代表性搜索结果页面，其包括响应于接收到示例查询图像100而可以被显示在用户设备102上的一个或多个代表性搜索查询114。

示例搜索结果页面110包括用户可以在其中键入搜索查询的搜索框112。搜索框可以被配置为接收直接从用户输入的搜索查询，或者可以被配置为响应于接收到搜索查询图像(例如，查询图像100)而提供一个或多个代表性搜索查询。如图1中所描绘的，搜索框包括已经响应于接收到查询图像100而提供给用户设备的四个代表性搜索查询“小黄瓜是什么建筑风格？”“小黄瓜有多高？”“谁占用小黄瓜？”和“提供到小黄瓜的驾驶方向”。

示例搜索结果页面110还包括搜索结果列表116和知识面板118。知识面板118提供与实体“小黄瓜”有关的一般信息，诸如建筑物的尺寸、年龄、和地址。例如响应于将实体“小黄瓜”识别为示例查询图像100的重要或中心特征，已经提供了知识面板用于在示例搜索结果页面110中的显示。搜索结果列表116提供响应于代表性搜索查询“小黄瓜是什么建筑风格？”的搜索结果。例如，当处理示例查询图像100时，系统可能已经确定示例查询图像100的上下文匹配代表性搜索查询“小黄瓜是什么建筑风格？”，例如，用户设备102的用户104可能已经有意或无意地指示对建筑的兴趣。以下参考图2和图3更详细地描述响应于接收到查询图像而提供代表性搜索查询以用于输出。

图2描绘了响应于接收到查询图像而提供代表性搜索查询以用于输出的系统200。简而言之，系统200能够接收查询图像，诸如由用户拍摄并输入的照片，并且能够接收与查询图像相关联的一个或多个实体。系统200能够识别与一个或多个实体预先关联的一个或多个候选搜索查询，为候选搜索查询中的每一个生成各个分数，并基于所生成的分数从候选搜索查询选择代表性搜索查询。能够提供代表性搜索查询以用于向用户输出。

系统200包括用户设备202、查询引擎前端220、图像注释器240、辨识引擎250、和知识引擎260。系统200的组件均能够通过一个或多个网络(诸如，一个或多个LAN或WAN)进行通信，或者能够通过一个或多个其它有线或无线连接进行通信。

在操作(A)期间，查询引擎前端220接收对用户输入的查询图像编码的数据。例如，用户204能够在用户设备202处提供照片(例如，照片206)作为查询图像，并且能够由查询引擎前端220接收对查询图像编码的数据。在一些实施方式中，查询引擎前端220能够通过一个或多个网络或通过一个或多个其它无线或有线连接接收对用户输入的查询图像编码的数据。

用户设备202可以是移动计算设备，诸如移动电话、智能电话、个人数字助理(personal digital assistant，PDA)、音乐播放器、电子书阅读器、平板电脑、可穿戴计算设备、膝上型计算机、桌上型计算机、或其它便携式或固定计算设备。用户设备202能够以使得用户204能够在设备处输入查询的麦克风、键盘、触摸屏、或其它接口为特征。在一些实施方式中，用户204能够在用户设备202所呈现的或可从用户设备202访问的接口处提供查询。例如，用户204能够在在用户设备202处可访问的搜索引擎处进入查询，能够在用户设备202处可访问的数据库处进入查询，或者能够在以搜索能力为特征的任何其它接口处(例如，在社交网络接口处)提供查询。

用户204能够在用户设备202处通过选择或提交用户想要搜索的图像，或者通过提供用户想要搜索的内容的视频样本来提供查询。在一些实施方式中，用户204能够向用户设备202提供查询图像和自然语言查询两者。可以通过说出查询的一个或多个术语来向用户设备202提供自然语言查询。例如，自然语言查询能够是由用户通过对与用户设备202相关联的麦克风说话而输入的口述语音查询。在这种情况下，系统可以获得口述语音查询的转录。例如，用户设备可以与自动话音辨识(automatic speech recognition，ASR)引擎相关联或者可以访问自动话音辨识(ASR)引擎，并且能够基于将对口述语音查询编码的数据提交给ASR引擎来获得口述语音查询的转录。在其它示例中，能够通过键入查询的一个或多个术语、(例如，从可用术语的菜单中)选择搜索查询的一个或多个术语、(例如，从可用查询的菜单中)选择包括一个或多个术语的查询、或通过使用任何其它方法提供查询，来向用户设备提供自然语言查询。例如，用户204可以将用户输入的照片206与文本“定位”或“建筑”一起提供给用户设备202。

包括由用户204输入的查询图像的数据能够被查询引擎前端220在单个数据包或多个数据包中接收。与用户输入的查询图像相关联的数据还能够同时被接收，或者能够在不同的时间单独被接收。

基于接收到对用户输入的查询图像编码的数据，查询引擎前端220能够将与用户输入的查询图像相关联的数据发送到图像注释器240。例如，基于接收包括用户输入的照片206的数据，查询引擎前端220能够提取与用户输入的照片206相关联的数据，并且能够将与该照片相关联的数据发送到图像注释器240。

在操作(B)期间，图像注释器240能够接收与用户输入的查询图像相关联的数据，并且能够为用户输入的查询图像识别一个或多个查询图像标签，例如，视觉辨识结果。例如，图像注释器240可以包括被配置为分析给定查询图像并识别一个或多个查询图像标签的一个或多个后端或与之通信。图像注释器240可以识别细粒度查询图像标签(例如，标记给定图像中存在的特定地标、书封面、或海报的图像标签)、和/或粗粒度图像标签(例如，标记诸如桌子、书或湖的对象的图像标签)。例如，基于接收到与用户输入的照片206相关联的数据，图像注释器可以识别针对用户输入的照片206的细粒度查询图像标签，诸如“小黄瓜”或“伦敦”，并且可以识别粗粒度查询图像标签，诸如“建筑物”或“城市”。在一些实施方式中，图像注释器240可以返回基于OCR(Optical Character Recognition，光学字符识别)或文本视觉辨识结果的查询图像标签。例如，图像注释器240可以识别并分配被打印在查询图像所包括的街道标示上的名称、或图像中所包括的商店的名称，作为查询图像标签。

在一些实施方式中，图像注释器240可以识别针对用户输入的查询图像的一个或多个查询图像标签，并为所识别的查询图像标签中的每一个生成各个标签分数。查询图像标签的各个标签分数可以基于查询图像中标签的时事性(例如，总的来说查询图像标签对查询图像有多重要)、或者基于查询图像标签有多特定的度量。例如，基于接收到与用户输入的照片206相关联的数据并识别标签“建筑物”、“城市”、“伦敦”、和“小黄瓜”，图像注释器240可以生成高于其它标签分数的标签“小黄瓜”的分数，因为小黄瓜是照片206的中心特征。查询图像标签的各个标签分数也可以基于识别查询图像标签的后端的可靠性和校准的后端置信度分数，例如，指示查询图像标签准确的后端置信度的分数。例如，校准的后端置信度分数可以基于查询图像标签准确的后端对置信度，并且可以基于后端的可靠性来调整。

在操作(C)期间，图像注释器240能够将与已标记的用户输入的查询图像相关联的数据(例如，用户输入的查询图像和任何识别的查询图像标签)发送到查询前端220。在一些实施方式中，图像注释器240还发送与任何生成的查询图像标签分数相关联的数据。例如，基于接收到包括用户输入的照片206的数据，图像注释器240能够识别查询图像标签“建筑物”、“城市”、“伦敦”、和“小黄瓜”，并且能够将与照片和具有各个标签分数的所识别的查询图像标签相关联的数据发送到查询前端220。

在操作(D)期间，辨识引擎250能够接收与已标记的用户输入的查询图像相关联的数据，并且能够识别与已标记的用户输入的查询图像相关联的一个或多个实体。在一些实施方式中，辨识引擎250能够通过比较查询图像标签和与已知实体的集合相关联的术语，来识别与已标记的用户输入的查询图像相关联的一个或多个实体。例如，由辨识引擎250接收的已标记的用户输入的查询图像能够包括粗粒度标签“建筑物”，并且辨识引擎250能够基于比较查询标签“建筑物”和与已知实体的集合相关联的术语，将诸如“艾菲尔铁塔”、“帝国大厦”、或“泰姬陵”的实体识别为与用户输入的查询图像相关联。作为另一示例，由辨识引擎250接收的已标记的用户输入的查询图像能够包括细粒度标签“小黄瓜”，并且辨识引擎250能够基于比较查询标签“小黄瓜”和与已知实体的集合相关联的术语，将诸如“诺曼福斯特”(建筑师)、“标准生活”(租户)、或“伦敦金融城”(定位)的实体识别为与用户输入的查询图像相关联。在一些实施方式中，辨识引擎250在数据库处可访问已知的实体的集合，该数据库是诸如与辨识引擎250相关联或者辨识引擎250可以以其它方式(例如，通过一个或多个网络)访问的数据库。

在操作(E)期间，基于识别与已标记的用户输入的查询图像相关联的一个或多个实体，辨识引擎250能够向查询引擎前端220发送识别实体的数据、和(如果适用的话)任何额外的上下文术语。在一些实施方式中，辨识引擎250能够额外地确定与实体相关联的标识符，并且除了发送识别实体的数据之外或代替发送识别实体的数据，能够将包括实体标识符的数据发送到查询引擎前端220。辨识引擎250能够通过一个或多个网络或通过一个或多个其它有线或无线连接将识别实体和/或实体标识符的数据发送到查询引擎前端220。

在操作(F)期间，查询引擎前端220能够接收识别一个或多个实体的数据，并且能够将识别实体的数据发送到知识引擎260。例如，查询引擎前端220能够接收识别实体“小黄瓜”、“诺曼福斯特”、“标准生活”、和“伦敦城”的信息，并且可以将数据传输到识别“小黄瓜”、“诺曼福斯特”、“标准生活”、和“伦敦城”的知识引擎260。在一些实例中，查询引擎前端220能够通过一个或多个网络或通过一个或多个其它有线或无线网络连接将识别实体的数据发送到知识引擎260。

如上面参考操作(A)所描述的，在一些实施方式中，用户204能够向用户设备202提供查询图像和自然语言查询两者。在这些实例中，查询引擎前端220能够向知识引擎260发送识别实体的数据和自然语言查询。例如，查询引擎前端220能够发送识别实体“小黄瓜”、“诺曼福斯特”、“标准生活”、和“伦敦城”的数据以及自然语言查询“定位”或“建筑”。

知识引擎260能够接收识别实体的数据，并且能够识别与一个或多个实体预先关联的一个或多个候选搜索查询。在一些实施方式中，知识引擎260能够基于访问维护与实体有关的候选搜索查询的数据库或服务器(例如，预先计算的查询映射(map))来识别与所识别的实体相关的候选搜索查询。例如，知识引擎260能够接收识别实体“小黄瓜”的信息，并且知识引擎能够访问数据库或服务器以识别与实体“小黄瓜”相关联的候选搜索查询，诸如“小黄瓜有多高”或“小黄瓜是什么建筑风格？”。在一些实施方式中，由知识引擎260访问的数据库或服务器能够是与知识引擎260相关联的数据库或服务器(例如作为知识引擎260的部分)，或者知识引擎260能够例如通过一个或多个网络访问该数据库或服务器。维护与实体相关的候选搜索查询的数据库或服务器(例如，预先计算的查询映射)可以包括不同语言的候选搜索查询。在这种情况下，知识引擎可以被配置为以匹配用户语言的语言(例如，如用户设备所指示的语言或查询图像所提供的自然语言查询所指示的语言)来识别与给定的实体相关联的候选搜索查询。

数据库或服务器可以包括经训练的或硬编码的相关实体的统计映射(mapping)，例如，基于搜索查询日志，并且能够存储与各种实体相关的候选搜索查询。知识引擎260能够使用数据库或服务器获得或识别与一个或多个实体相关的候选搜索查询，其中该一个或多个实体与用户输入的查询搜索相关联。例如，知识引擎260能够在数据库或服务器处识别与建筑物“小黄瓜”相关的一个或多个候选搜索查询。知识引擎260能够基于在数据库或服务器中执行对与“小黄瓜”相关的候选搜索查询的搜索、或者通过执行对与唯一地识别“小黄瓜”的实体标识符相关的候选搜索查询的搜索，来识别相关候选搜索查询。在其它实施方式中，知识引擎250能够通过在数据库或服务器处访问与所识别的实体明显相关的条目来识别相关的候选搜索查询。例如，该数据库或服务器可以维护包括与“小黄瓜”相关的候选搜索查询的文件夹或其它数据存储，并且知识引擎260能够获得或识别与“小黄瓜”相关的候选搜索查询。

如以上参考操作(A)所描述的，在一些实施方式中，用户204能够向用户设备202提供查询图像和自然语言查询。在这种情况下，知识引擎260能够使用提交的自然语言查询识别与一个或多个实体预先关联的候选搜索查询。在一些实施方式中，知识引擎260可以识别与一个或多个实体和/或提交的自然语言查询预先关联的候选搜索查询。例如，知识引擎260可以识别与实体“小黄瓜”和自然语言查询“定位”预先关联的候选搜索查询，诸如候选搜索查询“到小黄瓜的方向”或“小黄瓜的定位”。

知识引擎260也能够为与一个或多个实体预先关联的一个或多个候选搜索查询中的每一个生成各个相关性分数。例如，知识引擎260可以确定接收到的用户输入的查询图像的上下文是否匹配候选搜索查询，并且基于所确定的匹配，为候选搜索查询生成各个相关性分数。确定接收到的用户输入的查询图像的上下文是否匹配候选搜索查询可以包括确定候选搜索查询是否匹配用户的意图，例如，使用由用户与查询图像一起提交的自然语言查询，或者确定用户输入的查询图像是否具有匹配候选搜索查询的关联定位。例如，可以确定接收的小黄瓜的照片100是在小黄瓜的附近拍摄的。在这样的示例中，知识引擎260可以为与伦敦城相关的候选搜索查询生成更高的各个相关性分数。在另一示例中，知识引擎260可以确定接收到的小黄瓜的照片100是在用户的家中拍摄的。在这样的示例中，知识引擎260可以为与小黄瓜的属性或特征相关的候选搜索查询生成更高的各个相关性分数。

在其它示例中，知识引擎260可以通过使用候选搜索查询生成搜索结果页面并分析所生成的搜索结果页面以确定指示搜索结果页面有多感兴趣和多有用的度量来为一个或多个候选搜索查询中的每一个生成各个相关性分数。基于所确定的度量，系统可以为候选搜索查询生成各个相关性分数。例如，生成包括许多视觉元素的搜索结果页面的候选搜索查询可以被分配比生成包括更少或不包括视觉元素的搜索结果页面的候选搜索查询更高的相关性分数。

在其它示例中，知识引擎260可以通过确定候选搜索查询的流行度来为一个或多个候选搜索查询中的每一个生成各个相关性分数。例如，知识引擎260可以为比被发布更少次数的另一候选搜索查询发布更多次数的候选搜索查询生成更高的相关性分数。

在进一步的示例中，知识引擎260可以通过确定与接收到的图像相关联的用户活动来为一个或多个候选搜索查询中的每一个生成各个相关性分数。例如，知识引擎260可以基于用户的当前和最近定位或者最近提交的与观光有关的搜索查询来确定用户的当前活动是观光。在进一步的示例中，知识引擎260可以使用其它手段来确定用户的当前活动，诸如通过访问用户日历上的活动信息。在这样的示例中，知识引擎260可以确定用户期望在周末去伦敦观光，并且在接收到小黄瓜的查询图像时，知识引擎260可以为与伦敦著名地标有关的候选搜索查询生成更高的各个相关性分数。

在一些实施方式中，用户204能够向用户设备202提供查询图像和自然语言查询两者。在这种情况下，知识引擎260可以基于自然语言查询为一个或多个候选搜索查询中的每一个生成各个相关性分数。例如，知识引擎260可以使与自然语言查询相关的候选搜索查询的分数高于与自然语言查询无关的候选搜索查询，例如，基于自然语言查询“建筑”，知识引擎260可以使候选搜索查询“小黄瓜是什么建筑风格”或“谁设计了小黄瓜”的分数高于候选搜索查询“小黄瓜有多高”或“谁占用小黄瓜？”

在一些实例中，相关性分数可以由另一系统分配给一个或多个候选搜索查询，或者由人(例如系统200的调节者或用户)分配给候选搜索查询。

在操作(G)期间，基于识别与一个或多个实体预先关联的一个或多个候选搜索查询，知识引擎260能够向查询引擎前端220发送识别候选搜索查询及其各个相关性分数的数据。例如，知识引擎260能够获得和/或识别与建筑物“小黄瓜”相关的一个或多个候选搜索查询，并且能够向查询引擎前端220发送包括或识别候选搜索查询“小黄瓜有多高？”或“小黄瓜是什么建筑风格？”的数据。知识引擎260能够通过一个或多个网络或者通过一个或多个其它有线或无线连接将包括或识别候选搜索查询的数据发送到查询引擎前端220。

查询引擎前端220能够从知识引擎260接收包括或识别一个或多个候选搜索查询及其各个相关性分数的数据，并且能够至少基于该相关性分数从一个或多个候选搜索查询选择一个或多个代表性搜索查询，例如，通过对一个或多个候选搜索查询进行排名并选择若干最高评分搜索查询作为代表性搜索查询。例如，查询引擎前端可以接收包括或识别候选搜索查询“小黄瓜有多高？”(具有相关性分数0.7)和“小黄瓜的建筑风格是什么？”(具有相关性分数0.8)的数据。基于相关性分数，查询引擎前端可以选择候选搜索查询“小黄瓜是什么建筑风格？”。在一些实施方式中，查询引擎前端可以基于接收到的相关性分数和来自图像注释器240的标签分数从一个或多个候选搜索查询选择一个或多个代表性搜索查询，例如，通过使用排名函数或分类器来聚合相关性分数。

在操作(H)期间，查询引擎前端220能够将对一个或多个代表性搜索查询编码的数据发送到用户设备202。在一些实施方式中，查询引擎前端220能够通过一个或多个网络或通过一个或多个其它有线或无线连接向用户设备202发送对一个或多个代表性搜索查询编码的数据和与搜索结果页面(例如，与最高评分的代表性搜索查询相关联的搜索结果页面)的呈现的相关的数据，其中，该搜索结果页面与搜索查询中的一个或多个相关联。

用户设备202能够从查询引擎前端220接收对一个或多个代表性搜索查询编码的数据，并向用户204提供一个或多个代表性搜索查询和(可选地)与一个或多个代表性搜索查询相关联的搜索结果页面以用于输出。例如，用户设备202可以接收对已排名的代表性搜索查询“小黄瓜是什么建筑风格？”“小黄瓜有多高？”或“谁占用小黄瓜？”编码的数据并且提供一个或多个代表性搜索查询和与最高排名的代表性搜索查询“小黄瓜是什么建筑风格？”相关联的搜索结果页面以用于向用户204输出，如以上在图中1所描绘的。

图3呈现了用于响应于接收到搜索查询图像而提供搜索查询的示例过程300。例如，响应于在用户设备202处接收到用户204的搜索查询图像，能够由系统200执行过程300。

系统接收查询图像(步骤302)。该查询图像可以是图像形式的搜索查询，例如来自用户周围的照片。在一些实施方式中，系统也可以与查询图像一起接收自然语言查询。

系统接收与查询图像相关联的一个或多个实体(步骤304)。在一些实施方式中，系统通过首先获得查询图像的一个或多个查询图像标签(例如，视觉辨识结果)来接收与查询图像相关联的一个或多个实体。例如，系统可以从一个或多个后端获得查询图像的查询图像标签。一些后端可以返回某些类别的细粒度结果，即，一个或多个查询图像标签可以包括细粒度图像标签，诸如标记查询图像中存在的特定地标、书封面或海报的标签。其它后端可以返回粗粒度结果，即，一个或多个查询图像标签可以包括粗粒度图像标签，诸如标记查询图像中存在的对象(例如，建筑物、书籍或湖泊)的标签。在其它示例中，一些后端可以返回OCR或文本结果。

对于获得的查询图像标签中的一个或多个，系统然后可以例如使用知识图识别与一个或多个查询图像标签预先关联的一个或多个实体。例如，如上所述，系统可以从返回细粒度图像标签的后端收集查询图像标签。这样的细粒度图像标签可以与知识图中的特定实体(例如，实体“小黄瓜”、或“埃菲尔铁塔”)预先关联。

在一些实施方式中，系统还可以为所获得的查询图像标签中的每一个生成各个标签分数。查询图像标签的各个标签分数可以至少基于查询图像标签的时事性，例如，总的来说查询图像标签对查询图像有多重要。例如，接收到的查询图像可以是拿着一瓶品牌软饮料的手的照片。所获得的查询图像标签可以包括标记瓶子的图像标签和标记拿着瓶子的手的图像标签。基于时事性，对于手的标签分数可以低于对于瓶子的标签分数，因为手对于图像不太重要和/或其比起瓶子覆盖查询图像更小的区域。

在一些情况下，查询图像标签的各个标签分数可以至少基于标签有多特定。

在进一步的情况下，查询图像标签的各个标签分数可以至少基于后端的可靠性，其中通过后端获得查询图像标签。例如，从具有准确分析图像以识别图像标签的声誉的后端获得的查询图像标签可以被分配比从具有不准确地分析图像以识别图像标签的声誉的后端获得的查询图像标签更高的标签分数。

对于实体中的一个或多个，系统识别与该一个或多个实体预先关联的一个或多个候选搜索查询(步骤306)。例如，系统可以访问预先计算的查询映射以识别对于给定实体的一个或多个候选搜索查询。预先计算的查询映射可以是经训练的或硬编码的相关实体的统计映射，例如，基于搜索查询日志，并且可以用于识别实体和候选搜索查询两者。例如，查询图像可以包括篮球的照片，并且实体“篮球”可以被接收为与查询图像相关联的实体。实体“篮球”可以被认为与“NBA”相关，因此实体“篮球”和候选搜索查询“NBA”两者都可以在预先计算的查询映射中找到。

系统为候选搜索查询中的每一个生成各个相关性分数(步骤308)。在一些实施方式中，为候选搜索查询中的每一个生成各个相关性分数可以包括，对于每个候选搜索查询，确定查询图像的上下文是否匹配候选搜索查询，并且基于所确定的匹配，为候选搜索查询生成各个相关性分数。例如，对于给定的候选搜索查询，系统可以确定候选搜索查询的类型是否匹配用户的意图。

在一些实施方式中，确定查询图像的上下文是否匹配候选搜索查询可以包括确定查询图像是否具有匹配候选搜索查询的关联定位。

在一些情况下，系统可以确定与拍摄或产生查询图像的定位相对应的定位。例如，系统可以确定接收到的外套照片是在购物中心内拍摄的。在这样的示例中，系统可以为与购物或商业结果相关的候选搜索查询生成更高的各个相关性分数。在另一示例中，系统可以确定接收的外套照片是在用户的家中拍摄的。在这样的示例中，系统可以为与天气相关的候选搜索查询生成更高的各个相关性分数，诸如“我今天需要我的外套吗？”

在其它情况下，系统可以确定与用户设备的当前定位相对应的定位。例如，系统可以确定在特定城镇或社区中接收鲜花图像。在这样的示例中，系统可以为与附近的花店或园艺服务相关的候选搜索查询生成更高的各个相关性分数。

在一些实施方式中，为候选搜索查询中的每一个生成各个相关性分数可以包括，对于每个候选搜索查询，使用候选搜索查询生成搜索结果页面并分析所生成的搜索结果页面以确定指示该搜索结果页面有多感兴趣和多有用的度量。基于所确定的度量，系统可以为候选搜索查询生成各个相关性分数。例如，指示搜索结果页面有多有趣和多有用的度量可以取决于该搜索结果页面中显示的视觉元素。系统可以为产生具有应用盒子(oneboxes)或网站答案(webanswer)卡的搜索结果页面的候选搜索查询生成比产生没有oneboxes或webanwer卡的搜索结果页面的候选搜索查询更高的各个相关性分数。

在一些实施方式中，为候选搜索查询中的每一个生成各个相关性分数可以包括，对于每个候选搜索查询，确定候选搜索查询的流行度，并且基于所确定的流行度，为每个候选搜索查询生成各个相关性分数。例如，系统可以为被发布更多次数的候选搜索查询生成比被发布更少次数的候选搜索查询更高的相关性分数。

在进一步的实施方式中，为候选搜索查询中的每一个生成各个相关性分数可以包括确定与接收到的图像相关联的用户活动。例如，系统可以基于用户的定位或最近提交的与购物有关的搜索查询来确定用户的当前活动是购物。在进一步的示例中，系统可以使用其它手段来确定用户的当前活动，诸如通过访问用户日历上的活动信息来确定用户的当前活动。在这样的示例中，系统可以确定用户期望在周末去远足，并且在接收到一对登山靴的查询图像时，系统可以为与附近远足路径相关的候选搜索查询生成更高的各个相关性分数。

如以上参考步骤302所述的，在一些实施方式中，系统接收查询图像和自然语言查询。在这样的情况下，为候选搜索查询中的每一个生成各个相关性分数可以包括至少基于接收到的自然查询为候选搜索查询中的每一个生成各个相关性分数。例如，查询图像可以包括“洛杉矶湖人”徽标的图像，并且自然语言查询可以包括文本“购买服装”。然后系统可以为候选搜索查询“洛杉矶湖人球衣”或“购买洛杉矶湖人球衣”生成比与文本“购买服装”无关的候选搜索查询的相关性分数更高的各个相关性分数。

系统至少基于所生成的各个相关性分数来选择具体候选搜索查询作为对于查询图像的代表性搜索查询(步骤310)。在一些实施方式中，至少基于候选查询分数选择具体候选搜索查询包括至少基于以上参考步骤304描述的候选查询分数和标签分数选择具体候选搜索查询。

例如，在一些实施方式中，至少基于候选查询分数和标签分数来选择具体候选搜索查询可以包括确定每个标签分数与关联候选查询分数之间的聚合分数。系统可以例如使用排名函数或分类器来对所确定的聚合分数进行排名，并选择对应于最高排名分数的具体候选搜索查询。

在其它实施方式中，至少基于候选查询分数来选择具体候选搜索查询可以包括例如使用排名函数或分类器对候选搜索查询的相关性分数进行排名，并选择对应于最高排名分数的具体候选搜索查询。

系统响应于接收到查询图像而提供代表性搜索查询以用于输出(步骤312)。在一些实施方式中，系统还使用代表性搜索查询生成搜索结果页面，并且响应于接收到查询图像而提供所生成的搜索结果页面以用于输出。

在一些情况下，系统也可以响应于接收到查询图像而提供与预定数量的最高排名分数相对应的预定数量的候选搜索查询。例如，系统可以响应于接收到查询图像而提供前10个评分候选搜索查询以用于输出，并且允许用户选择他们选择的搜索查询。在这种情况下，系统可以响应于接收到查询图像而提供与预定数量的候选搜索查询中的每一个相关联的各个搜索结果页面以用于输出。

已经描述了若干实施方式。然而，应该理解，在不脱离本公开的精神和范围的情况下，可以做出各种修改。例如，可以通过重新排序、添加、或移除步骤来使用以上示出的流程的各种形式。因此，其它实施方式在以下权利要求的范围内。

对于本文所讨论的其中系统和/或方法可以收集关于用户的个人信息或者可以利用个人信息的实例，可以向用户提供控制程序或特征是否收集个人信息(例如关于用户的社交网络、社交动作或活动、职业、偏好、或当前定位的信息)、或控制系统和/或方法是否和/或如何能够执行与用户更相关的操作的机会。另外，某些数据可以在其被存储或使用之前以一种或多种方式匿名化，从而移除个人可识别信息。例如，用户的身份可以是匿名的，从而不能为用户确定个人可识别信息，或者可以在获得定位信息的地方概括用户的地理定位，诸如城市、邮政编码、或州级，从而无法确定用户的具体定位。因此，用户可以控制如何收集并使用关于他或她的信息。

本说明书中描述的实施例和所有功能性操作可以以数字电子电路实施，或者以计算机软件、固件、或硬件实施，包括本说明书中公开的结构及其结构等同物，或者以它们中的一个或多个的组合实施。实施例可以被实施为一个或多个计算机程序产品，即，在计算机可读介质上编码用于由数据处理装置运行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的合成、或它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备、和机器，包括以实例的方式的可编程处理器、计算机、或多个处理器或计算机。除了硬件之外，装置还可以包括为讨论的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如，机器生成的电、光、或电磁信号，该信号被生成以编码信息用于发送到合适的接收器装置。

计算机程序(也称为程序、软件、软件应用、脚本、或代码)可以以任何形式的编程语言编写，包括编译或解释的语言，并且它可以以任何形式部署，包括作为独立程序或作为适合于计算环境中使用的模块、组件、子例程、或其它单元。计算机程序不必要对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的部分中(例如，存储在置标语言文档中的一个或多个脚本)，存储在专用于讨论的程序的单个文件中，或者存储在多个协调文件(例如，存储一个或多个模块、子程序、或代码部分的文件)中。计算机程序可以被部署为在一个计算机或多个计算机上运行，该多个计算机位于一个站点或跨多个站点分布并由通信网络互连。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路))执行，并且装置也可以实施为专用逻辑电路。

适合于计算机程序的运行的处理器包括，以示例的方式，通用和专用微处理器两者、以及任何种类的数字计算机的任何一个或多个处理器。一般地，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。

计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。一般地，计算机也将包括或可操作地耦合到存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘、或光盘)，以用于从该存储设备接收数据或将数据传递到该存储设备或既接收数据又传递数据。然而，计算机不需要具有这样的设备。而且，计算机可以被嵌入在另一设备中，例如，平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(Global Positioning System，GPS)接收器，仅举几例。适合于存储计算机程序指令和数据的计算机可读介质包括非易失性存储器、介质、和存储器设备的所有形式，包括以示例的方式的半导体存储器设备(例如，EPROM、EEPROM、和闪存设备)；磁盘(例如，内部硬盘或可移动磁盘)；磁光盘；和CD ROM以及DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示设备(例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)监测器)以及用户可以通过其向计算机提供输入的键盘和指点设备(例如，鼠标或轨迹球)的计算机上实施实施例。其它种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是感觉反馈的任何形式，例如视觉反馈、听觉反馈、或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、话音、或触觉输入。

实施例可以在包括后端组件(例如，作为数据服务器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有用户可以通过其与实施方式交互的图形用户界面或网页浏览器的客户端计算机)、或者一个或多个这样的后端、中间件、或前端组件的任何组合的计算系统中实施。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离，并且典型地通过通信网络交互。客户端和服务器的关系通过在各个计算机上运作并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多细节，但是这些不应被解释为对本公开或可要求保护的范围的限制，而是作为对特定于具体实施例的特征的描述。以单独实施例的上下文在本说明书中描述的某些特征也可以在单个实施例中组合地实施。相反，以单个实施例的上下文描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。而且，虽然以上可以将特征描述为以某些组合作用并且甚至初始地如此要求保护，但是来自所要求保护的组合的一个或多个特征可以在某些情况下从该组合切除，并且该要求保护的组合可以指向子组合或子组合的变化。

类似地，虽然在附图中以具体顺序描绘了操作，但是这不应该被理解为为了实现期望的结果必须以所示的具体顺序或以先后次序执行这样的操作，或执行所有示出的操作。在某些情形下，多任务处理和并行处理可能是有利的。而且，上述实施例中的各种系统组件的分离不应被理解为在所有实施例中都要求这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或打包到多种软件产品中。

在提及HTML(Hypertext Markup Language，超文本置标语言)文件的每个实例中，可以用其它文件类型或格式替换。例如，HTML文件可以由XML(Extensive MarkupLanguage，可扩展置标语言)、JSON(JavaScript Object Notation，JavaScript对象简谱)、纯文本、或其它类型地文件替换。而且，在提及表格或散列表格的情况下，可以使用其它数据结构(诸如电子表格、关系数据库、或结构化文件)。

因此，已经描述了具体实施例。其它实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以以不同的次序执行并且仍然实现期望的结果。

Claims

1.一种计算系统，包括：

一个或多个处理器；

一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储指令，当所述指令由所述一个或多个处理器执行时，使所述计算系统执行操作，所述操作包括：

获得查询图像，其中所述查询图像包括一个或多个图像特征；

对所述查询图像执行视觉识别过程，以至少部分地基于所述一个或多个图像特征识别与所述查询图像相关联的一个或多个视觉识别结果；

至少部分地基于所述一个或多个视觉识别结果来确定多个候选搜索查询；

确定与所述查询图像相关联的上下文；

至少部分地基于与所述查询图像相关联的上下文来确定所述多个候选搜索查询的代表性搜索查询；

获得与所述代表性搜索查询相关联的搜索结果页面；和

提供所述搜索结果页面以供显示。

2.根据权利要求1所述的计算系统，其中至少部分地基于所述一个或多个视觉识别结果确定所述多个候选搜索查询包括：

识别与所述一个或多个视觉识别结果关联的一个或多个实体，所述一个或多个视觉识别结果与所述查询图像中呈现的对象相关。

3.根据权利要求2所述的计算系统，其中至少部分地基于与所述查询图像相关联的上下文来确定所述多个候选搜索查询的代表性搜索查询包括：

为实体中的一个或多个识别一个或多个候选搜索查询，其中所述一个或多个候选搜索查询是文本搜索查询，并且其中所述一个或多个候选搜索查询不同于与所述一个或多个实体相关联的一个或多个术语。

4.根据权利要求1所述的计算系统，其中至少部分地基于与所述查询图像相关联的上下文来确定所述多个候选搜索查询的代表性搜索查询包括：

为所述候选搜索查询中的每一个生成相应的相关性分数；和

至少基于生成的相应相关性得分，选择所述查询图像的代表性搜索查询。

5.根据权利要求1所述的计算系统，其中所述操作还包括：

使用一个或多个查询图像标签注释所述查询图像。

6.权利要求5的计算系统，其中所述一个或多个查询图像标签标记所述查询图像中的一个或多个图像特征。

7.根据权利要求1所述的计算系统，其中所述一个或多个图像特征包括一个或多个粗粒度特征。

8.根据权利要求1所述的计算系统，其中所述一个或多个图像特征包括一个或多个细粒度特征。

9.根据权利要求1所述的计算系统，其中所述搜索结果页面包括响应于所述代表性搜索查询的多个搜索结果。

10.根据权利要求1所述的计算系统，其中所述查询图像包括在用户设备访问的网站上找到的图像。

11.根据权利要求1所述的计算系统，其中所述搜索结果页面包括知识面板，其中所述知识面板包括与实体相关联的一般信息，所述实体与所述一个或多个视觉识别结果相关联。

12.一种计算机实现的方法，所述方法包括：

由包括一个或多个处理器的计算系统获得查询图像，其中所述查询图像包括一个或多个图像特征；

由所述计算系统对所述查询图像执行视觉识别过程，以至少部分地基于所述一个或多个图像特征来识别与所述查询图像相关联的一个或多个视觉识别结果；

由所述计算系统至少部分地基于所述一个或多个视觉识别结果来确定多个候选搜索查询；

由所述计算系统确定与所述查询图像相关联的上下文；

由所述计算系统至少部分地基于与所述查询图像相关联的上下文来确定所述多个候选搜索查询中的代表性搜索查询；

由所述计算系统获得与所述代表性搜索查询相关联的搜索结果页面；和

由所述计算系统提供所述搜索结果页面以供显示。

13.根据权利要求12所述的方法，还包括：

由所述计算系统基于所述一个或多个图像特征确定一个或多个查询图像标签；和

由所述计算系统确定与所述一个或多个查询图像标签相关联的一个或多个实体。

14.根据权利要求13所述的方法，还包括：

由所述计算系统提供所述一个或多个实体以供显示。

15.根据权利要求12所述的方法，其中由所述计算系统确定与所述查询图像相关联的上下文包括：

由所述计算系统确定用户的意图或用户的位置中的至少一个。

16.根据权利要求12所述的方法，还包括：

由所述计算系统使用图像注释器处理所述查询图像，以识别一个或多个查询图像标签，其中所述一个或多个查询图像标签标记所述查询图像中的一个或多个对象。

17.一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质共同存储指令，当由一个或多个计算设备执行时，所述指令使所述一个或多个计算设备执行操作，所述操作包括：

对查询图像执行视觉识别过程，以至少部分地基于所述一个或多个图像特征识别与所述查询图像相关联的一个或多个视觉识别结果；

确定与所述查询图像相关联的上下文；

获得与所述代表性搜索查询相关联的搜索结果页面；和

提供所述搜索结果页面以供显示。

18.根据权利要求17所述的一个或多个非暂时性计算机可读介质，其中所述搜索结果页面包括响应于所述代表性搜索查询的一个或多个图像和一个或多个文本搜索结果。

19.根据权利要求17所述的一个或多个非暂时性计算机可读介质，其中至少部分地基于所述一个或多个视觉识别结果确定所述多个候选搜索查询包括使用知识引擎确定所述多个候选搜索查询，其中所述知识引擎被配置为以与用户语言匹配的语言识别与实体相关联的候选搜索查询。

20.根据权利要求19所述的一种或多种非暂时性计算机可读介质，其中所述用户语言由与所述查询图像相关联的用户设备指示。