CN109791559B

CN109791559B - 促进图像作为搜索查询的使用

Info

Publication number: CN109791559B
Application number: CN201680088365.1A
Authority: CN
Inventors: A.夏尔马; D.彼得鲁; M.夏里菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-06-28
Filing date: 2016-12-09
Publication date: 2023-10-10
Anticipated expiration: 2036-12-09
Also published as: US20190286649A1; EP3475840B1; EP4057163B1; EP4057163A1; US20170371898A1; EP3475840A1; US20200285670A1; WO2018004731A1; US10664519B2; EP4379579A2; CN117473127A; US10353950B2; US11461386B2; CN109791559A; US20230029323A1

Abstract

方法、系统和装置，用于接收查询图像和用户点击位置，基于用户点击位置处理接收的查询图像，识别与处理的查询图像相关联的一个或多个实体，并且响应于接收(i)查询图像、和(ii)用户点击位置，提供关于实体中的识别的一个或多个的信息。通过允许搜索查询采取图像和用户点击位置的形式，用户界面能够允许键入搜索查询而无需使用键盘或者诸如话音辨识的其它文本录入机制的文本录入。

Description

促进图像作为搜索查询的使用

技术领域

本说明书涉及简化搜索引擎的使用。

背景技术

通常，用户能够通过向搜索引擎输入查询请求信息。搜索引擎能够处理查询并且能够响应于查询提供用于输出到用户的信息。一些用户受限于其与计算机交互的能力，包括受限于其将搜索查询输入到计算机中的能力。

发明内容

根据本说明书中描述的主题的一些创新方面，计算设备允许到搜索设施的简化的用户界面。特别地，计算设备允许用户能够提供查询图像和用户点击位置作为搜索查询，例如来自用户周围的具有选择的兴趣区域的照片。响应于系统接收查询图像和用户点击位置，系统将视觉辨识技术应用于接收的查询图像以在接收的查询图像中识别一个或多个实体。通过使用用户点击位置改进视觉辨识结果。例如，视觉辨识结果可以用于增强对后端辨识器的输入并且可以用于排序获得的辨识结果。系统响应于接收查询图像和用户点击位置提供关于识别的实体中的一个或多个的信息。

通过允许搜索查询采取图像和用户点击位置的形式，用户界面能够允许键入搜索查询而无需使用键盘或者诸如话音辨识的另一文本录入机制的文本录入。这能够允许界面由以下用户的类别使用：不可以以其它方式能够轻易地使用搜索引擎的用户(包括幼儿)、具有有限精细马达控制的用户、没有话音能力的用户等。其也能够允许界面由在基于文本的输入可能是困难或者不可能的情形中的用户使用，诸如在用户在其手上戴着手套阻止他们在其移动设备上使用诸如虚拟或者小尺寸键盘的文本录入设备的寒冷环境中。

本说明书中描述的主题的创新方面可以体现在方法中，方法包括以下动作：接收(i)查询图像、和(ii)用户点击位置；基于用户点击位置处理接收的查询图像；识别与处理的查询图像相关联的一个或多个实体；并且响应于接收(i)查询图像、和(ii)用户点击位置，提供关于识别的一个或多个实体的信息。

此方面的其它实施例包括对应的计算机系统、装置、和计算机程序，计算机程序记录在一个或多个计算机储存设备上，每个配置为执行方法的动作。一个或多个计算机的系统能够配置为凭借在系统上安装在操作中导致系统执行动作的软件、固件、硬件、或者其组合执行特定操作或者动作。一个或多个计算机程序能够配置为凭借包括当由数据处理装置运行时导致装置执行动作的指令执行特定操作或者动作。

前述和其它实施例能够每个可选地单独地或者以组合包括以下特征中的一个或多个。在一些实施方式中，对于候选搜索查询中的每一个生成各个相关性分数包括，对于每个候选搜索查询：确定查询图像的上下文是否匹配候选搜索查询；并且基于确定的匹配，对于候选搜索查询生成各个相关性分数。

在一些实施方式中，基于用户点击位置处理接收的查询图像包括基于用户点击位置裁剪接收的查询图像。

在一些实施方式中，裁剪接收的查询图像包括以下中的一个或多个：(i)执行内容感知裁剪算法，(ii)使用对象检测神经网络处理查询图像，(iii)围绕用户点击位置应用固定大小裁剪，并且(iv)应用多种裁剪。

在一些情况下，识别与处理的查询图像相关联的一个或多个实体包括：使用神经网络处理处理的查询图像以在处理的查询图像中分类一个或多个实体。

在一些实施方式中，方法进一步包括使用神经网络处理接收的查询图像以在接收的查询图像中分类一个或多个实体；并且组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体。

在一些情况下，组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体包括使用在接收的查询图像中分类的一个或多个实体上下文化(contextualize)在处理的查询图像中分类的一个或多个实体。

在其它实施方式中，基于用户点击位置处理接收的查询图像包括使用光学字符辨识引擎处理接收的查询图像以检测文本的一个或多个区域。

在一些情况下，方法进一步包括围绕用户点击位置选择区域。

在一些情况下，识别与处理的查询图像相关联的一个或多个实体包括：使用第一光学字符辨识引擎处理选择的区域以识别第一数量的实体；使用第二光学字符辨识引擎处理处理的查询图像中的剩余文本以识别第二数量的实体，其中使用第二光学字符辨识引擎处理文本比使用第一光学字符辨识引擎处理文本在计算上更便宜。

在一些实施方式中，基于用户点击位置处理接收的查询图像包括围绕用户点击位置定义兴趣区域。

在一些实施方式中，识别与处理的查询图像相关联的一个或多个实体包括使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体。

在其它实施方式中，使用描述符匹配引擎处理处理的查询图像包括在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符。

在进一步的实施方式中，提供关于识别的一个或多个实体的信息包括响应于接收(i)查询图像、和(ii)用户点击位置提供用于输出的代表性搜索查询。

在一些情况下，响应于接收(i)查询图像、和(ii)用户点击位置提供用于输出的代表性搜索查询，包括：对于与处理的查询图像相关联的识别的实体中的一个或多个，识别与一个或多个实体预先关联的一个或多个候选搜索查询；对于候选搜索查询中的每一个生成各个相关性分数；并且至少基于生成的各个相关性分数选择特定候选搜索查询作为对于查询图像的代表性搜索查询。

在一些实施方式中，对于候选搜索查询中的每一个生成各个相关性分数包括基于与候选搜索查询预先关联的一个或多个实体对用户点击位置的接近度对于候选搜索查询中的每一个生成各个相关性分数。

在一些情况下，基于与候选搜索查询预先关联的一个或多个实体对用户点击位置的接近度对于候选搜索查询中的每一个生成各个相关性分数包括：围绕每个识别的与处理的查询图像相关联的一个或多个实体定义边界框；确定用户点击位置位于一个或多个各个实体的一个或多个边界框内；向与一个或多个各个实体预先关联的一个或多个候选搜索查询分配比其它候选搜索查询更高的相关性分数。

在一些实施方式中，对于候选搜索查询中的每一个的每个生成的各个相关性分数基于以下中的一个或多个：(i)结果置信度、(ii)查询普及性(popularity)、(iii)候选搜索查询的时事性、或者(iv)指示与候选搜索查询相关联的搜索结果页面是多有趣和有用的测量。

在其它实施方式中，识别与处理的查询图像相关联的一个或多个实体包括：使用第一分类器处理接收的查询图像以在接收的查询图像中识别一个或多个实体；使用第二分类器处理处理的查询图像以在处理的查询图像中识别一个或多个实体，其中第二分类器具有比第一分类器更高处理能力。

本说明书中描述的主题能够在特定实施例中实施以便实现以下优点中的一个或多个。

图像辨识系统和过程可能是在计算上昂贵的，因为在图像中有效地辨识对象或者文本可能涉及通过描述符的大型数据库搜索、或者使用深度神经网络(例如卷积神经网络)处理图像。此外，图像辨识系统经常具有有限资源。

如本说明书中描述的，使用用户点击位置实施视觉辨识的系统允许视觉辨识引擎有效地将视觉辨识资源(诸如神经网络或者其它图像分类组件)应用于用户感兴趣的图像的区域。系统向用户已经指示为重要或者有趣的图像的区域分配并且应用更多处理能力，同时向图像的其它区域分配并且应用更少处理能力。系统可以因此在用户已经指示为重要或者有趣的图像的区域中实现更高质量辨识。此外，由视觉辨识系统要求的计算资源和时间可以减少，因为不要求系统向完整图像应用高处理。此外，系统可以当回答用户查询时实现更高级别的准确度，因为系统能够从查询图像过滤掉不相关的对象并且分析与用户查询相关的对象。

在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。从说明书、附图、和权利要求，本主题的其它潜在特征、方面、和优点将变得显而易见。

附图说明

图1描绘了示例查询图像和对于示例查询图像的示例搜索结果页面。

图2描绘了用于响应于接收查询图像和用户点击位置提供用于输出的关于一个或多个实体的信息的示例系统。

图3描绘了用于响应于接收查询图像和用户点击位置提供关于一个或多个实体的信息的示例过程的流程图。

图4描绘了用于响应于接收查询图像和用户点击位置提供用于输出的代表性搜索查询的示例过程的流程图。

各种附图中的相同参考符号指示相同元件。

具体实施方式

本说明书描述了用于基于基于图像的查询提供信息(例如，建议的搜索查询)的系统。当执行视觉搜索时，用户设备的用户可以从设备上图库打开照相机取景器或者相片以选择输入查询图像。用户可以在输入图像中点击兴趣区域。用户点击的位置可以与输入查询图像作为图像搜索请求的部分传送到系统。

系统能够接收输入查询图像和用户点击位置并且基于接收的用户点击位置处理接收的输入查询图像以生成处理的查询图像。系统可以识别与处理的查询图像相关联的一个或多个实体并且提供偏向与用户点击位置紧密接近的一个或多个实体的信息。

图1描绘了示例查询图像100、示例用户点击位置106、以及对于示例查询图像100和示例用户点击位置106的示例搜索结果页面110。例如，示例搜索结果页面110可以由系统响应于接收并且处理示例查询图像100和用户点击位置106而提供。

图1中描绘的示例查询图像100是代表性照片查询图像。例如，示例查询图像100可以表示由用户104使用用户设备102拍摄的照片。在其它示例中，示例查询图像100可以表示由用户104在用户设备102处接收或者以其它方式访问的照片。在一些实施方式中，示例查询图像100可以表示由用户104在用户设备102处接收、获得、或者访问的另一类型的图像。例如，图像可以表示在由用户设备102访问的网站上找到的缩略图或者其它图像、或者从在用户设备102上运行的应用获得的图像。

示例查询图像100可以包括一个或多个图像特征。一个或多个图像特征包括可以由图像辨识系统识别的图像特征或者实体。例如，在图1中描绘的示例查询图像100中，一个或多个图像特征包括“建筑物”、“城市景观”、“小黄瓜”、“塔桥”、或者“伦敦眼”。其它图像特征可以包括其它对象或者实体，诸如树木、汽车、水体、或者人。在一些情况下，示例查询图像100可以包括可以由图像辨识系统识别的文本的部分，例如，作为路牌名称或者海报中的文本。

示例用户点击位置106包括已经由用户设备102的用户104选择的示例查询图像100的区域。例如，用户设备102可以包括触摸屏设备(例如智能电话)，并且用户点击位置106可以表示用户已经点击或者选择以指示区域中的特定兴趣的区域。在一些情况下，用户点击位置106可以由表示用户点击的中心的坐标(x，y)定义。在其它情况下，用户点击位置106可以由指示位置的另一形式的上下文(例如，手动输入坐标)定义。如图1中所描绘，用户102已经点击或者选择了聚焦在“小黄瓜”上的区域106。

示例查询图像100和用户点击位置106可以由用户设备102接收并且使用系统(例如，以下图2中的系统200)处理，用于响应于接收查询图像和用户点击位置提供用于输出的信息，以提供用于输出的关于在查询图像中识别的一个或多个实体的信息。关于在查询图像中识别的一个或多个实体的信息可以偏向在查询图像中识别为与用户点击位置106紧密接近的实体。

如图1中所描绘，关于在查询图像中识别的一个或多个实体的信息包括示例搜索结果页面110，示例搜索结果页面110包括搜索框112、多个示例代表性搜索查询114、与查询图像中识别的实体相关的搜索结果116、和知识卡118。示例搜索结果页面110仅是代表性的，并且提供的用于输出的关于在查询图像中识别的一个或多个实体的信息可以包括采取各种表示的更少或者更大量的信息。

示例搜索结果页面110包括搜索框112，在搜索框112中用户可以键入搜索查询。搜索框可以配置为接收从用户直接地输入的搜索查询，或者可以配置为响应于接收搜索查询图像和用户点击位置(例如，查询图像100和用户点击位置106)提供一个或多个代表性搜索查询。如图中1所描绘，搜索框包括与被确定为与用户点击位置106紧密接近的实体的实体“小黄瓜”相关的三个代表性搜索查询“小黄瓜是多高？”“小黄瓜是什么建筑风格？”和“谁拥有拥有小黄瓜？”。

示例搜索结果页面110进一步包括搜索结果116的列表和知识卡118。知识卡118提供与实体“小黄瓜”有关的一般信息，诸如建筑物的大小、年龄、和地址。已经提供了知识卡用于示例搜索结果页面110中的显示，例如响应于将实体“小黄瓜”识别为与查询图像100的用户点击位置106紧密接近。搜索结果116的列表响应于代表性搜索查询“小黄瓜”提供搜索结果。响应于接收查询图像和用户点击位置提供关于与查询图像相关联的一个或多个实体的信息在以下参考图2、图3和图4更详细地描述。

图2描绘了系统200，系统200用于响应于接收查询图像和用户点击位置提供用于输出的关于一个或多个实体的信息。简而言之，系统200能够接收查询图像(诸如由用户拍摄的照片)、和用户点击位置。系统200能够处理接收的查询图像并且识别与处理的查询图像相关联的一个或多个实体。系统能够提供关于与处理的查询图像相关联的识别的一个或多个实体的信息作为对用户的输出。

系统200包括用户设备202、查询引擎前端220、图像处理模块240、辨识引擎250、和知识引擎260。在一些情况下，系统200的一个或多个组件可以包括在用户设备202中。在一些情况下，系统200的组件能够各自在一个或多个网络(诸如一个或多个LAN(local areanetwork，局域网)或者WAN(wide area network，广域网)上通信，或者能够通过一个或多个其它有线或者无线连接通信。

在操作(A)期间，查询引擎前端220接收编码由用户输入的查询图像和用户点击位置的数据。例如，用户204能够与用户点击位置(例如，用户点击位置106)一起在用户设备202处提供作为查询图像的照片(例如，照片100)。用户点击位置可以包括如由用户指定的位置的坐标，例如，由手指点击在用户设备的屏幕上指定或者由其它手段指定。编码查询图像和用户点击位置的数据可以由查询引擎前端220接收。在一些实施方式中，查询引擎前端220能够在一个或多个网络之上、或者在一个或多个其它无线或有线连接之上接收编码用户输入查询图像和用户点击位置的数据。

用户设备202可以是移动计算设备，诸如移动电话、智能电话、个人数字助理(personal digital assistant，PDA)、音乐播放器、电子书阅读器、平板计算机、可穿戴计算设备、膝上型计算机、桌面计算机、或者其它便携式或者稳定计算设备。用户设备202能够以麦克风、键盘、触摸屏、或者使得用户204能够在设备处输入查询并且指定点击位置的其它界面为特征。例如，用户设备可以是配置为检测用户的点击位置的触摸屏智能手机。在一些实施方式中，用户204能够在从用户设备202呈现或者可访问的界面处提供查询。例如，用户204能够在在用户设备202处可访问的搜索引擎处、在用户设备202处可访问的数据库处键入查询，或者能够在以搜索能力为特征的任何其它界面处(例如，在社交网络界面处)提供查询和点击位置。用户204能够通过选择或者提交用户想要搜索的图像，或者通过提供用户想要搜索的内容的视频样本，在用户设备202处提供查询。

表示由用户204输入的查询图像和点击位置的数据能够由查询引擎前端220在单个数据包或者在多个数据包中接收。可以进一步同时地接收数据，或者能够在不同时间处分开地接收数据。

在一些实施方式中，表示查询图像的数据可以包括表示围绕用户点击位置的查询图像的部分的数据和表示查询图像的剩余部分的数据。例如，用户设备202可以配置为以高分辨率传送表示围绕用户点击位置的查询图像的部分的数据和以更低分辨率传送表示查询图像的剩余部分的数据。

基于接收编码由用户输入的查询图像和点击位置的数据，查询引擎前端220能够将数据发送到图像处理模块240。在操作(B)期间，图像处理模块240能够接收表示用户输入的查询图像和点击位置的数据并且基于用户点击位置处理用户输入的查询图像以生成处理的查询图像。

图像处理模块240可以基于用户点击位置处理接收的查询图像以便增强对辨识引擎250的输入，例如，以改进由辨识引擎250获得的辨识结果。在一些实施方式中，图像处理模块240可以配置为基于用户点击位置裁剪接收的查询图像。例如，图像处理模块240可以接收表示照片100和点击位置106的数据。图像处理模块240可以然后通过使用裁剪引擎基于用户点击位置106裁剪照片100处理照片100。在一些实施方式中，图像处理模块240可以包括内容感知裁剪算法并且可以通过在查询图像上执行内容感知裁剪算法裁剪接收的查询图像。在一些实施方式中，图像处理模块240可以包括对象检测神经网络并且可以使用对象检测神经网络处理查询图像以生成裁剪的接收的查询图像。在一些实施方式中，图像处理模块240可以配置为围绕用户点击位置将固定大小裁剪应用于接收的查询图像，例如图像处理模块240可以围绕用户点击位置106将固定大小裁剪应用于照片100，结果为包括建筑物“小黄瓜”的大部分或者所有的图像。在进一步的实施方式中，系统可以围绕用户点击位置应用多个裁剪。例如，系统可以使用在查询图像中识别多个对象的对象检测神经网络处理查询图像并且可以围绕每个识别的对象裁剪图像以生成多个裁剪的图像。

在一些实施方式中，图像处理模块240可以包括多个光学字符辨识(opticalcharacter recognition，OCR)引擎，例如，多个神经网络或者其它分类器。图像处理模块240可以通过在查询图像上运行引擎中的一个或多个以使用OCR引擎处理接收的查询图像以在接收的查询图像中检测文本的一个或多个区域，例如，文本的一行或多行。例如，图像处理模块240可以检测文本的一行或多行，围绕用户点击位置选择文本的区域(例如，固定大小的区域)，并且使用第一OCR引擎处理选择的区域以在查询图像中识别文本的第一部分。图像处理模块240可以使用第二OCR引擎进一步处理处理的查询图像中的剩余文本。在一些实施方式中，OCR引擎可以具有不同处理能力。例如，第二OCR引擎可以比第一OCR引擎更便宜于运行，例如，第二OCR引擎可以包括比第一OCR引擎更浅的神经网络。

在一些实施方式中，图像处理模块240可以配置为通过围绕用户点击位置定义兴趣区域基于用户点击位置处理接收的查询图像。例如，图像处理模块240可以围绕用户点击位置106在照片100中定义兴趣区域，结果为包括建筑物“小黄瓜”的大部分或者所有的定义的兴趣区域。

在操作(C)期间，图像处理模块240可以将表示处理的查询图像的数据发送到查询引擎前端220，查询引擎前端220转而可以将数据发送到辨识引擎250。在操作(D)期间，辨识引擎250能够接收表示处理的查询图像的数据并且能够辨识与处理的查询图像相关联的一个或多个实体。

例如，在一些实施方式中，辨识引擎250能够接收表示处理的查询图像的数据，数据包括已经基于用户点击位置裁剪的查询图像。在这些情况下，辨识引擎250能够识别与裁剪的查询图像相关联的一个或多个实体。在一些实施方式中，辨识引擎250可以包括一个或多个神经网络，例如，训练用于图像分类的一个或多个深度神经网络，并且可以使用神经网络中的一个处理接收的裁剪的查询图像以在裁剪图像中识别一个或多个实体。

在一些实施方式中，辨识引擎250能够进一步接收表示接收的查询图像(例如，照片100)的数据，并且可以使用神经网络中的一个处理接收的查询图像以在接收的查询图像中识别一个或多个实体。例如，辨识引擎250可以使用相比于用于处理处理的查询图像的神经网络更浅的神经网络(例如，要求更少处理能力的神经网络)以处理查询图像。辨识引擎250可以组合在裁剪的查询图像和查询图像中识别的一个或多个实体。例如，辨识引擎250可以使用浅度神经网络处理照片100以识别包括“建筑物”、“桥梁”、“城市”、或者“摩天大楼”的一个或多个实体。此外，辨识引擎可以使用深度神经网络处理包括围绕用户点击位置106的裁剪版本的照片100的处理的查询图像以识别包括“小黄瓜”或者“伦敦”的一个或多个实体。作为另一示例，辨识引擎250可以使用具有第一数量的输出类别的神经网络处理处理的查询图像并且使用具有第二数量的输出类别的神经网络处理接收的查询图像，其中第一数量大于第二个数量。例如，继续以上示例，第二数量的输出类别可以包括诸如“建筑物”或者“城市”的实体标签，而第一数量的输出类别可以包括诸如“小黄瓜”或者“伦敦”的更特定实体标签。

如上所述，在一些实施方式中，图像处理模块240可以通过在查询图像上运行一个或多个OCR引擎处理接收的查询图像以在接收的查询图像中检测文本的一个或多个区域，例如，文本的一行或多行。在这些情况下，辨识引擎250可以通过分析检测的文本并且识别检测的文本中包括的一个或多个实体识别与处理的查询图像相关联的一个或多个实体。

如上所述，在一些实施方式中，图像处理模块240可以通过围绕用户点击位置定义兴趣区域基于用户点击位置处理接收的查询图像。在这些情况下，辨识引擎250可以通过使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体识别与处理的查询图像相关联的一个或多个实体。例如，系统可以通过在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符，使用描述符匹配引擎处理处理的查询图像。

在一些实施方式中，辨识引擎250可以通过使用第一分类器处理接收的查询图像以在接收的查询图像中识别一个或多个实体并且使用第二分类器处理处理的查询图像以在处理的查询图像中识别一个或多个实体识别与处理的查询图像相关联的一个或多个实体，其中第二分类器具有比第一分类器更高处理能力。例如，在一些情况下，用户设备的用户可能意外地提供用户点击位置，或者可能差错地提供不正确的用户点击位置。不正确的用户点击位置可以包括在对于用户无立即兴趣的实体上或者附近的点击，或者可以包括不在可能实体中心上或者附近的点击，例如蓝天的部分或者模糊背景的部分。在这些情况下，辨识引擎可以处理接收的查询图像并且使用更高处理能力基于处理的查询图像(例如基于用户点击位置)偏置接收的查询图像的处理。辨识引擎250可以然后确保在查询图像中识别一个或多个实体，即使在意外的或者不正确的点击的存在中。

辨识引擎250可以将识别的实体与与已知实体的集合相关联的术语和实体比较以便识别实体的扩展的集合。例如，辨识引擎250可能已经处理了处理的查询图像和/或接收的查询图像以识别实体“建筑物”、“桥梁”、“摩天大楼”、“城市”、“小黄瓜”或者“伦敦”的集合。辨识引擎250可以然后将识别的实体和与识别的实体相关联的术语比较以便识别实体的扩展的集合。例如，识别的实体能够包括实体“建筑物”并且辨识引擎250能够识别与“建筑物”相关联的额外术语，诸如“艾菲尔铁塔”、“帝国大厦”、或者“泰姬陵”。作为另一示例，辨识引擎250可以识别实体“小黄瓜”并且能够识别与“小黄瓜”相关联的额外术语，诸如“诺曼福斯特”(建筑师)、“标准生活”(租户)、或者“伦敦金融城”(位置)。在一些实施方式中，实体或者术语的已知集合能够在诸如与辨识引擎250相关联的或者以其它方式(例如，在一个或多个网络之上)对辨识引擎250可访问的数据库的数据库处对于辨识引擎250可访问。

在一些实施方式中，识别与处理的查询图像相关联的一个或多个实体可以在用户设备处本地地执行，例如，用户设备202可以包括一个或多个辨识引擎并且可以配置为从给定的查询图像提取特征。例如，用户设备202可以配置为通过在用户设备202处使用描述符匹配引擎本地地处理处理的查询图像来识别与处理的查询图像相关联的一个或多个实体。在这种情况下，用户设备202可以通过如上所述在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符使用描述符匹配引擎处理处理的查询图像。

在操作(E)期间，基于识别与输入的查询图像和用户点击位置相关联的一个或多个实体，辨识引擎250能够向查询引擎前端220发送识别实体和(如果适用的话)任何额外实体或者术语的数据。辨识引擎250能够在一个或多个网络之上或者在一个或多个其它有线或者无线连接之上将识别实体的数据发送到查询引擎前端220。

在操作(F)期间，查询引擎前端220能够接收识别一个或多个实体的数据，并且能够将识别实体的数据发送到知识引擎260。例如，查询引擎前端220能够接收识别实体“小黄瓜”、“诺曼福斯特”、“标准生活”、和“伦敦金融城”的信息并且可以将识别“小黄瓜”、“诺曼福斯特”、“标准生活”和“伦敦金融城”的数据发送到知识引擎260。在一些实例中，查询引擎前端220能够在一个或多个网络之上或者在一个或多个其它有线或者无线连接之上将识别实体的数据发送到知识引擎260。

知识引擎260能够接收识别实体的数据，并且能够标识关于实体的信息。例如，知识引擎能够识别与一个或多个实体预先关联的信息。在一些实施方式中，知识引擎260能够基于访问维护与实体有关的信息的数据库或者服务器识别与识别的实体有关的信息。例如，知识引擎260能够接收识别实体“小黄瓜”的信息，并且知识引擎能够访问数据库或者服务器以识别使用预先计算的查询映射与实体“小黄瓜”相关联的候选搜索查询，诸如“小黄瓜是多高”或者“到小黄瓜的方向”。在一些实施方式中，由知识引擎260访问的数据库或者服务器能够是例如作为知识引擎260的部分与知识引擎260相关联的数据库或者服务器，或者知识引擎260能够例如在一个或多个网络之上访问数据库或者服务器。维护与实体有关的信息的数据库或者服务器可以包括不同语言的信息。在这种情况下，知识引擎可以配置为以例如如由用户设备指示的匹配用户的语言的语言识别与给定的实体相关联的信息。

在一些实施方式中，关于实体的信息可以包括与识别的实体相关或者指代识别的实体的一个或多个候选搜索查询。例如，数据库或者服务器可以包括例如基于搜索查询日志的实体的训练的或者硬编码的统计映射，并且能够储存与各种实体有关的候选搜索查询。知识引擎260能够使用数据库或者服务器获得或者识别和与用户输入的查询搜索图像和用户点击位置相关联的一个或多个实体相关的候选搜索查询。例如，知识引擎260能够在数据库或者服务器处识别与建筑物“小黄瓜”相关的一个或多个候选搜索查询。知识引擎260能够基于对数据库或者服务器执行对于与“小黄瓜”有关的候选搜索查询来识别有关的候选搜索查询。在其它实施方式中，知识引擎250能够通过在数据库或者服务器处访问与识别的实体明显地有关的条目，识别有关的候选搜索查询。例如，数据库或者服务器可以维护包括与“小黄瓜”有关的候选搜索查询的文件夹或者其它数据储存，并且知识引擎260能够获得或者识别与“小黄瓜”有关的候选搜索查询。

知识引擎260也能够对于与一个或多个实体预先关联的不同类型的信息生成各个相关性分数。例如，知识引擎260可以确定接收的查询图像的上下文是否匹配候选搜索查询，并且基于确定的匹配，对于候选搜索查询生成各个相关性分数。

在一些实施方式中，知识引擎260可以围绕与处理的查询图像相关联的每个识别的一个或多个实体定义边界框。知识引擎260可以然后确定用户点击位置位于一个或多个各个实体的一个或多个边界框内并且向一个或多个各个实体分配比其它识别的实体更高相关性分数。

如以上参考操作(D)描述的，在一些实施方式中，辨识引擎250可以组合在处理的查询图像中分类的实体与在接收的查询图像中分类的实体。在这些情况下，知识引擎260能够接收识别组合的实体的数据，并且能够使用在接收的查询图像中分类的一个或多个实体上下文化在处理的查询图像中分类的一个或多个实体。例如，知识引擎260可以识别与在处理的查询图像中识别的实体(例如，实体“建筑物”或者“小黄瓜”)预先关联的候选搜索查询。在这样的示例中，知识引擎260可以使用在接收的查询图像中识别的实体(例如，实体“伦敦”)对于与“小黄瓜”的属性相关的候选搜索查询生成比对于与“建筑物”的属性相关的候选搜索查询的相关性分数更高的各个相关性分数。

在其它示例中，知识引擎260可以通过使用候选搜索查询生成搜索结果页面并且分析生成的搜索结果页面以确定指示搜索结果页面是多有趣和有用的测量对于一个或多个候选搜索查询中的每一个生成各个相关性分数。基于确定的测量，知识引擎260可以对于候选搜索查询生成各个相关性分数。例如，生成包括许多视觉元素的搜索结果页面的候选搜索查询可以被分配比生成包括更少或者无视觉元素的搜索结果页面的候选搜索查询更高的相关性分数。

在其它示例中，知识引擎260可以通过确定候选搜索查询的普及性对于一个或多个候选搜索查询中的每一个生成各个相关性分数。例如，知识引擎260可以对于比发布更少次数的另一候选搜索查询发布更多次数的候选搜索查询生成更高相关性分数。

在一些实例中，相关性分数可以由另一系统分配给关于一个或多个实体的信息或者由人(例如，系统200的调节人或者用户)分配给信息。

在操作(G)期间，基于识别关于一个或多个实体的信息，知识引擎260能够向查询引擎前端220发送识别不同类型和片段的信息的数据以及其各个相关性分数。例如，知识引擎260能够获得和/或识别与建筑物“小黄瓜”相关的一个或多个候选搜索查询，并且能够向查询引擎前端220发送包括或者识别候选搜索查询“小黄瓜是多高？”或者“到小黄瓜的方向”的数据。知识引擎260能够在一个或多个网络之上、或者在一个或多个其它有线或者无线连接之上将包括或者识别候选搜索查询的数据发送到查询引擎前端220。

查询引擎前端220能够从知识引擎260接收包括或者识别信息的数据以及其各个相关性分数并且能够响应于接收查询图像和用户点击位置选择信息的一个或多个代表性片段作为输出提供。例如，查询引擎前端可以至少基于相关性分数从一个或多个候选搜索查询选择一个或多个代表性搜索查询，例如，通过排名一个或多个候选搜索查询并且选择数个最高评分搜索查询作为代表性搜索查询。例如，查询引擎前端可以接收包括或者识别候选搜索查询具有相关性分数0.8的“小黄瓜是多高？”和具有相关性分数0.6的“到小黄瓜的方向”的数据。基于相关性分数，查询引擎前端可以选择候选搜索查询“小黄瓜是多高？”

在操作(H)期间，查询引擎前端220可以将编码代表性信息(例如，代表性搜索查询)的数据发送到用户设备202。在一些实施方式中，查询引擎前端220能够在一个或多个网络之上、或者在一个或多个其它有线或者无线连接之上将编码一个或多个代表性搜索查询的数据和与与代表性搜索查询中的一个或多个相关联的搜索结果页面(例如，与最高评分代表性搜索查询相关联的搜索结果页面)的呈现有关的数据发送到用户设备202。

用户设备202能够从查询引擎前端220接收编码代表性信息的数据，并且将用于输出的信息提供给用户204。例如，用户设备202可以接收编码排名的代表性搜索查询“到小黄瓜的方向”“小黄瓜是多高？”或者“谁拥有小黄瓜？”的数据并且向用户204提供一个或多个代表性搜索查询和与最高排名的代表性搜索查询“小黄瓜是多高？”相关联的搜索结果页面用于输出，如以上图1中所描绘的。

图3呈现了用于响应于接收查询图像和用户点击位置提供关于一个或多个实体的信息的示例过程300。例如，过程300能够由系统200响应于接收由用户204在用户设备202处的查询图像和用户点击位置执行。

系统接收查询图像和用户点击位置(步骤302)。查询图像可以是以图像形式的搜索查询，例如来自用户周围的相片。用户点击位置可以被提供作为查询图像的点(x，y)、或者作为查询图像的区域(例如查询图像的固定大小的区域)。

系统基于用户点击位置处理接收的查询图像(步骤304)。在一些实施方式中，系统可以通过基于用户点击位置裁剪接收的查询图像处理接收的查询图像。例如，系统可以接收查询图像，查询图像示出具有在正在玩的篮球上或者附近的用户点击位置的篮球比赛的照片。系统可以通过基于点击的正在玩的篮球裁剪接收的查询来处理接收的查询图像。例如，系统可以通过执行内容感知裁剪算法裁剪接收的查询图像。作为另一示例，系统可以使用对象检测神经网络处理查询图像以生成裁剪的接收的查询图像。作为又一示例，系统可以围绕用户点击位置将固定大小裁剪应用于接收的查询图像，例如，围绕正在玩的篮球的固定大小裁剪。在一些实施方式中，系统可以通过在若干地方裁剪查询图像生成多个裁剪的图像，例如，在对象检测神经网络已经在查询图像中检测多个对象的情况下。

在一些实施方式中，系统可以通过使用光学字符辨识(OCR)引擎处理接收的查询图像以在接收的查询图像中检测文本的一个或多个区域基于用户点击位置处理接收的查询图像。例如，系统可以围绕用户点击位置选择区域(例如，固定大小的区域)，并且使用第一OCR引擎处理选择的区域以识别第一数量的实体。系统可以使用第二OCR引擎进一步处理处理的查询图像中的剩余文本以识别第二数量的实体。在一些实施方式中，使用第二OCR引擎处理文本可以比使用第一OCR引擎处理文本在计算上更便宜。

在一些实施方式中，系统可以通过围绕用户点击位置定义兴趣区域基于用户点击位置处理接收的查询图像。例如，系统可以接收查询图像，查询图像示出具有在正在玩的篮球上或者附近的用户点击位置的篮球比赛的照片。系统可以通过围绕点击的正在玩的篮球定义兴趣区域来处理接收的查询图像。

系统识别与处理的查询图像相关联的一个或多个实体(步骤306)。例如，如以上参考步骤304所述，在一些实施方式中，系统可以通过基于用户点击位置裁剪接收的查询图像生成处理的查询图像。在这些情况下，系统可以通过使用神经网络(例如，如以上参考图2所述的训练用于图像辨识的神经网络)处理处理的查询图像识别与处理的查询图像相关联的一个或多个实体以在处理的图像中分类一个或多个实体。

在一些实施方式中，系统可以使用神经网络进一步处理接收的查询图像(即未处理的查询图像)以在接收的查询图像中分类一个或多个实体。系统可以然后组合在处理的查询图像中分类的一个或多个实体与在接收的查询图像中分类的一个或多个实体以生成一个或多个实体的识别的集合。在一些实施方式中，系统可以通过使用在接收的查询图像中分类的一个或多个实体上下文化在处理的查询图像中分类的一个或多个实体来组合在处理的查询图像中分类的一个或多个实体与在接收的查询图像中分类的一个或多个实体。

例如，系统可以接收示出篮球比赛的照片的查询图像并且基于以接收的查询图像中示出的篮球为中心的用户点击位置裁剪图像。系统可以然后使用神经网络处理处理的图像以在处理的图像中分类一个或多个实体。例如，神经网络可以在处理的图像中将一个或多个实体分类为篮球。系统可以使用神经网络进一步处理接收的查询图像以在接收的查询图像中分类一个或多个实体并且使用分类的一个或多个实体以上下文化在处理的查询图像中分类的一个或多个实体。例如，系统可以在接收的查询图像中分类实体“篮球游戏”或者“迈克尔乔丹”并且使用这些分类以向实体“篮球”提供上下文，例如包括篮球比赛或者NBA联盟的上下文。作为替代示例，系统可以接收示出体育商店的内部的照片的查询图像，并且系统可以在接收的查询图像中分类包括体育商店的名称或者篮球制造商的名称的实体并且使用这些分类以向实体“篮球”提供上下文，例如包括购物的上下文。

如以上参考步骤304所述，在一些实施方式中，系统可以通过使用一个或多个OCR引擎处理接收的查询图像以在接收的查询图像中检测文本的一个或多个区域来基于用户点击位置处理接收的查询图像。在这些情况下，系统可以通过分析检测的文本并且识别检测的文本中包括的一个或多个实体识别与处理的查询图像相关联的一个或多个实体。例如，系统可以检测在处理的查询图像中示出的篮球上打印的文本的区域，并且可以将与处理的查询图像相关联的实体识别为篮球的制造商的名称。

如以上参考步骤304所述，在一些实施方式中，系统可以通过围绕用户点击位置定义兴趣区域来基于用户点击位置处理接收的查询图像。在这些情况下，系统可以通过使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体来识别与处理的查询图像相关联的一个或多个实体。例如，系统可以通过在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符来使用描述符匹配引擎处理处理的查询图像。

在一些实施方式中，系统可以通过使用第一分类器处理接收的查询图像以在接收的查询图像中识别一个或多个实体并且使用第二分类器处理处理的查询图像以在处理的查询图像中识别一个或多个实体以识别与处理的查询图像相关联的一个或多个实体，其中第二分类器具有比第一分类器更高处理能力。例如，在一些情况下，用户设备的用户可能意外地提供用户点击位置，或者可能差错地提供不正确的用户点击位置。不正确的用户点击位置可以包括在对于用户非立即兴趣的实体上或者附近的点击，或者可以包括不在可能实体中心上或者附近的点击，例如蓝天的部分或者模糊背景的部分。在这些情况下，系统可以处理接收的查询图像并且使用更高处理能力基于处理的查询图像(例如基于用户点击位置)偏置接收的查询图像的处理。系统可以然后确保在查询图像中识别一个或多个实体，即使存在意外的或者不正确的点击。

响应于接收查询图像和用户点击位置，系统提供关于识别的一个或多个实体的信息(步骤308)。例如，系统可以提供与识别的一个或多个实体有关的一个或多个知识卡、与识别的实体中的一个或多个有关的搜索结果页面、或者与识别的一个或多个实体有关的一个或多个代表性搜索查询。在一些实施方式中，系统可以至少基于在处理的查询图像中上下文化的分类的一个或多个实体提供关于识别的一个或多个实体的信息，如以上参考步骤306描述的。例如，系统可以使用上下文化的分类的一个或多个实体以生成上下文化的知识卡、搜索结果页面、或者对于识别的一个或多个实体的代表性搜索查询，例如，与NBA联盟有关的知识卡或者搜索结果页面而不是与购买篮球有关的知识卡或者搜索结果页面。响应于接收查询图像和用户点击位置提供用于输出的代表性搜索查询在以下参考图4更详细地描述。

图4呈现了用于响应于接收查询图像和用户点击位置提供用于输出的代表性搜索查询的示例过程400。例如，过程400能够由系统200响应于接收由用户204在用户设备202处的查询图像和用户点击位置执行。

对于与处理的查询图像相关联的一个或多个识别的实体，系统识别与一个或多个实体预先关联的一个或多个候选搜索查询(步骤402)。例如，系统可以访问预先计算的查询映射以识别对于给定实体的一个或多个候选搜索查询。预先计算的查询映射可以是例如基于搜索查询日志的有关实体的训练的或者硬编码的统计映射，并且可以用于识别实体和候选搜索查询两者。例如，查询图像可以包括篮球比赛的相片，并且实体“篮球”可以作为与查询图像和对应的用户点击位置相关联的实体被接收。因为实体“篮球”可以被考虑为与“NBA”有关，所以实体“篮球”和候选搜索查询“NBA”两者可以在预先计算的查询映射中找到。

系统对于候选搜索查询中的每一个生成各个相关性分数(步骤404)。在一些实施方式中，对于候选搜索查询中的每一个生成各个相关性分数可以包括基于与候选搜索查询预先关联的一个或多个实体对用户点击位置的接近度对于候选搜索查询中的每一个生成各个相关性分数。例如，查询图像可以包括具有篮球为中心的用户点击位置的篮球比赛的相片。在此示例中，此系统可以识别要与候选搜索查询“NBA”预先关联的实体“篮球”和要与候选搜索查询“迈克尔乔丹统计数据”预先关联的实体“迈克尔乔丹”。系统可以基于实体“篮球”和“迈克尔乔丹”对用户点击位置的接近度对于候选搜索查询“NBA”和“迈克尔乔丹统计”生成各个相关性分数。例如，候选搜索查询“NBA”可以被分配比候选搜索查询“迈克尔乔丹统计”更高相关性分数，因为实体“篮球”比实体“迈克尔乔丹”与用户点击位置更紧密接近。

在一些实施方式中，系统可以围绕与处理的查询图像相关联的每个识别的一个或多个实体定义边界框。系统可以然后确定用户点击位置位于一个或多个各个实体的一个或多个边界框内并且向一个或多个各个实体分配比其它识别的实体更高相关性分数。例如，查询图像可以包括篮球的照片并且系统可以围绕在查询图像中识别的每个实体定义边界框，例如，围绕实体“篮球”、“迈克尔乔丹”、“芝加哥公牛队”、或者“裁判员”。系统可以然后确定用户点击位置位于实体“篮球”的边界框内并且向候选搜索查询“NBA”分配比其它候选搜索查询更高的相关性分数。

在一些实施方式中，对于候选搜索查询中的每一个的每个生成的各个相关性分数可以基于以下中的一个或多个：(i)结果置信度、(ii)查询普及性、或者(iii)候选搜索查询的时事性。例如，系统可以确定置信度的测量，置信度的测量反映识别的实体和候选搜索查询准确地表示用户的意图的置信度，并且基于确定的置信度的测量对于候选搜索查询中的每一个生成各个相关性分数。系统可以对于比具有置信度的更低测量的候选搜索查询具有置信度的更高测量的候选搜索查询生成更高的各个相关性分数。

作为另一示例，系统可以确定候选搜索查询中的每一个的普及性，并且基于确定的普及性，对于候选搜索查询中的每一个生成各个相关性分数。系统可以对于已经比发布更少次数的另一候选搜索查询发布更多次数的候选搜索查询生成更高各个相关性分数。

作为另一示例，系统可以确定候选搜索查询中的每一个的时事性，并且基于确定的时事性，对于候选搜索查询中的每一个生成各个相关性分数。系统可以对于被确定为比被确定为更少时事的候选搜索查询更加时事的候选搜索查询生成更高各个相关性分数。例如，与当前篮球赛季相关的候选搜索查询可以被确定为比与过去篮球赛季相关的候选搜索查询更加时事。

作为对于候选搜索查询中的每一个生成各个相关性分数的另一示例可以包括，对于每个候选搜索查询，使用候选搜索查询生成搜索结果页面并且分析生成的搜索结果页面以确定指示搜索结果页面是多有趣和有用的测量。基于确定的测量，系统可以对于候选搜索查询生成各个相关性分数。例如，指示搜索结果页面是多有趣和有用的测量可以取决于搜索结果页面中示出的视觉元素。系统可以对于产生具有oneboxes或者webanswer卡的搜索结果页面的候选搜索查询生成比产生没有oneboxes或者webanswer卡的搜索结果页面的候选搜索查询更高的各个相关性分数。

系统至少基于生成的各个相关性分数选择特定候选搜索查询作为对于查询图像的代表性搜索查询(步骤406)。例如，系统可以例如使用排名函数或者分类器排名对于候选搜索查询的生成的相关性分数，并且选择对应于最高排名的分数的对于查询图像的特定候选搜索查询。

响应于接收查询图像和用户点击位置，系统提供用于输出的代表性搜索查询(步骤408)。在一些实施方式中，系统使用代表性搜索查询进一步生成搜索结果页面并且响应于接收查询图像提供生成的搜索结果页面用于输出。在一些情况下，系统也可以响应于接收查询图像提供对应于预定数量的最高排名的分数的预定数量的候选搜索查询用于输出。例如，系统可以响应于接收查询图像提供前10个评分候选搜索查询用于输出，并且允许用户选择其选择的搜索查询。

已经描述了数个实施方式。然而，应该理解，可以做出各种修改而不脱离本公开的范围。例如，可以使用以上示出的各种形式的流程，其中重新排序、添加、或者移除步骤。因此，其它实施方式在以下权利要求的范围内。

对于其中这里讨论的系统和/或方法可以收集关于用户的个人信息、或者可以利用个人信息的实例，可以向用户提供控制程序或者特征是否收集个人信息(例如关于用户的社交网络、社交动作或者活动、职业、偏好、或者当前位置的信息)、或者控制系统和/或方法是否和/或如何能够执行与用户更有关的操作的机会。另外，某些数据可以在其储存或者使用之前以一种或多种方式匿名化，从而移除个人地可识别的信息。例如，用户的身份可以匿名化从而无个人地可识别的信息能够对于用户确定，或者用户的地理位置可以概括在获得位置信息的地方，诸如到城市、邮政编码、或者州级别，从而用户的特定位置不能确定。因此，用户可以控制如何收集并且使用关于他或者她的信息。

本说明书中描述的实施例和功能操作的所有可以在数字电子电路中实施，或者在计算机软件、固件、或者硬件(包括本说明书中公开的结构及其结构等同物)中实施，或者在其中的一个或多个的组合中实施。实施例可以实施为一个或多个计算机程序产品，即，在计算机可读介质上编码用于由数据处理装置运行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机可读介质可以是机器可读储存设备、机器可读储存基板、存储设备、影响机器可读传播信号的物质的组成、或者其中的一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有装置、设备、和机器，以示例的方式包括可编程处理器、计算机、或者多个处理器或者计算机。装置除了硬件之外可以包括为问题中的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者其中的一个或多个的组合的代码。传播信号是人工地生成的信号，例如，被生成为编码信息用于向合适接收器装置的发送的机器生成的电、光、或者电磁信号。

计算机程序(也已知为程序、软件、软件应用、脚本、或者代码)可以以任何形式的编程语言(包括编译或者解释语言)写入，并且其可以以任何形式(包括作为独立程序或者作为模块、组件、子例程、或者适用于计算环境的其它单元)部署。计算机程序不必要对应于文件系统中的文件。程序可以储存在保存其它程序或者数据的文件(例如，储存在标记语言文档中的一个或多个脚本)的部分中，储存在专用于问题中的程序的单个文件中，或者储存在多个协调文件(例如，储存一个或多个模块、子程序、或者代码的部分的文件)中。计算机程序可以部署为在一个计算机上运行或者在位于一个站点处或者跨越多个站点分布并且通过通信网络互连的多个计算机上运行。

本说明书中描述的过程和逻辑流程可以由运行一个或多个计算机程序以通过对输入数据操作并且生成输出执行功能的一个或多个可编程处理器执行。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实施为专用逻辑电路，例如FPGA(fieldprogrammable gate array，现场可编程门阵列)或者ASIC(application specificintegrated circuit，专用集成电路)。

适合于计算机程序的运行的处理器以示例的方式包括通用和专用微处理器两者、以及任何种类的数字计算机的任何一个或多个处理器。一般地，处理器将从只读存储器或者随机存取存储器或者两者接收指令和数据。

计算机的基本元件是用于执行指令的处理器和用于储存指令和数据的一个或多个存储设备。一般地，计算机也将包括或者可操作地耦合以从用于储存数据的一个或多个大容量储存设备(例如磁盘、磁光盘、或者光盘)接收数据或者将数据传递到一个或多个大容量储存设备。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，例如平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GlobalPositioning System，GPS)接收器，仅举几例。适用于储存计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，以示例的方式包括半导体存储设备(例如EPROM(Electrically Programmable Read-Only-Memory，电可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory电可擦除可编程只读存储器、和闪存设备)；磁盘(例如内部硬盘或者可移动磁盘)；磁光盘；和CD ROM(compact disc read-only-memory，光盘只读存储器)和DVD-ROM(Digital Video Disc-Read Only Memory，数字视频盘只读存储器)盘。处理器和存储器可以由专用逻辑电路补充或者并入专用逻辑电路中。

为了提供与用户的交互，实施例可以在具有用于向用户显示信息的显示设备(例如CRT(cathode ray tube，阴极射线管)或者LCD(liquid crystal display，液晶显示器))监视器、和通过其用户可以向计算机提供输入的键盘和指示设备(例如鼠标或者轨迹球)的计算机上实施。其它种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈、或者触觉反馈；并且来自用户的输入可以以任何形式接收，包括声音、话音、或者触觉输入。

实施例可以在包括后端组件(例如作为数据服务器)、或者包括中间件组件(例如应用服务器)、或者包括前端组件(例如具有通过其用户可以与实施方式交互的图形用户界面或者网页浏览器的客户端计算机)、或者一个或多个这样的后端、中间件、或者前端组件的任何组合的计算系统中实施。系统的组件可以以任何形式或者介质的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，诸如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般地从彼此远程，并且典型地通过通信网络交互。客户端和服务器的关系凭借在各个计算机上运行并且对彼此具有客户端-服务器关系的计算机程序出现。

虽然本说明书包含许多详情，但是这些详情不应该被解释为对本公开或者可以要求保护的范围的限制，而是作为对特定实施例特定的特征的描述。以分开的实施例的上下文在本说明书中描述的某些特征也可以在单个实施例中以组合实施。相反地，以单个实施例的上下文描述的各种特征也可以分开地或者以任何合适的子组合在多个实施例中实施。此外，虽然以上特征可以描述为以某些组合作用并且甚至初始地如此要求保护，但是来自要求保护的组合的一个或多个特征可以在某些情况下从组合切除，并且要求保护的组合可以指向子组合或者子组合的变化。

类似地，尽管在附图中以特定次序描绘了操作，但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作，或者执行所有示出的操作，以达到期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分开不应该被理解为在所有实施例中要求这样的分离，并且应该理解，描述的程序组件和系统可以一般地一起集成在单个软件产品中或者打包到多种软件产品中。

在提及HTML(Hypertext Markup Language，超文本标记语言)文件的每个实例中，可以替换其它文件类型或者格式。例如，HTML文件可以由XML(Extensive MarkupLanguage，可扩展标示语言)、JSON(JavaScript Object Notation，基于JavaScript语言的轻量级的数据交换格式)、纯文本、或者其它类型的文件替换。此外，在提及表或者散列表的地方，可以使用其它数据结构(诸如电子表格、关系型数据库、或者结构化文件)。

因此，已经描述了特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可以以不同次序执行并且仍然达到期望的结果。

Claims

1.一种促进图像作为搜索查询的使用的计算机实施的方法，包括：

接收(i)查询图像、和(ii)用户点击位置；

基于用户点击位置处理接收的查询图像；

识别与处理的查询图像相关联的一个或多个实体；并且

响应于接收(i)查询图像、和(ii)用户点击位置，基于关于实体中的识别的一个或多个中的第一识别实体与用户点击位置的接近度，提供关于第一识别实体的信息，包括：

围绕与经处理的查询图像相关联的所识别的一个或多个实体中的每一个来定义边界框；

确定用户点击位置位于第一识别实体的边界框内；

基于确定用户点击位置位于第一识别实体的边界框内，识别与第一识别实体预先关联的多个候选文本搜索查询；

提供多个候选文本搜索查询中的一个或多个代表性文本搜索查询，用于在用户设备的显示器上呈现；和

响应于经由用户设备对一个或多个代表性文本搜索查询中的特定代表性文本搜索查询的选择，提供响应于该特定代表性文本搜索查询的搜索结果。

2.如权利要求1所述的方法，其中基于用户点击位置处理接收的查询图像包括基于用户点击位置裁剪接收的查询图像。

3.如权利要求2所述的方法，其中裁剪接收的查询图像包括以下中的一个或多个：(i)执行内容感知裁剪算法，(ii)使用对象检测神经网络处理查询图像，(iii)围绕用户点击位置应用固定大小裁剪，并且(iv)应用多个裁剪。

4.如权利要求2或者3所述的方法，其中识别与处理的查询图像相关联的一个或多个实体包括：

使用神经网络处理处理的查询图像以在处理的查询图像中分类一个或多个实体。

5.如权利要求4所述的方法，进一步包括：

使用神经网络处理接收的查询图像以在接收的查询图像中分类一个或多个实体；

组合(i)在处理的查询图像中分类的一个或多个实体、和(ii)在接收的查询图像中分类的一个或多个实体。

6.如权利要求5所述的方法，其中组合(i)在处理的查询图像中分类的实体、和(ii)在接收的查询图像中分类的实体包括：

使用在接收的查询图像中分类的实体以对在处理的查询图像中分类的实体进行上下文化。

7.如权利要求1所述的方法，其中基于用户点击位置处理接收的查询图像包括使用光学字符辨识引擎处理接收的查询图像以检测文本的一个或多个区域。

8.如权利要求7所述的方法，进一步包括围绕用户点击位置选择区域。

9.如权利要求8所述的方法，其中识别与处理的查询图像相关联的一个或多个实体包括：

使用第一光学字符辨识引擎处理选择的区域以识别第一数量的实体；

使用第二光学字符辨识引擎处理处理的查询图像中的剩余文本以识别第二数量的实体，其中使用第二光学字符辨识引擎处理文本比使用第一光学字符辨识引擎处理文本在计算上更便宜。

10.如权利要求1所述的方法，其中基于用户点击位置处理接收的查询图像包括围绕用户点击位置定义兴趣区域。

11.如权利要求10所述的方法，其中识别与处理的查询图像相关联的一个或多个实体包括使用描述符匹配引擎处理处理的查询图像以识别一个或多个实体。

12.如权利要求11所述的方法，其中使用描述符匹配引擎处理处理的查询图像包括在定义的兴趣区域中提取相比于处理的查询图像中的其它区域的更高密度的描述符。

13.如权利要求1所述的方法，其中，识别多个候选文本搜索查询包括：

对于多个候选文本搜索查询生成各个相关性分数；并且

至少基于生成的各个相关性分数选择多个候选文本搜索查询中的所述一个或多个代表性文本搜索查询。

14.如权利要求13所述的方法，其中对于候选文本搜索查询中的每一个的每个生成的各个相关性分数基于以下中的一个：(i)结果置信度、(ii)查询普及性、(iii)候选搜索查询的时事性、或者(iv)指示与候选文本搜索查询相关联的搜索结果页面是多有趣和有用的测量。

15.如权利要求1所述的方法，其中识别与处理的查询图像相关联的一个或多个实体包括：

使用第一分类器处理接收的查询图像以在接收的查询图像中识别一个或多个实体；

使用第二分类器处理处理的查询图像以在处理的查询图像中识别一个或多个实体，其中第二分类器具有比第一分类器更高的处理能力。

16.一种促进图像作为搜索查询的使用的系统，包括：

一个或多个计算机和储存指令的一个或多个储存设备，该指令当由一个或多个计算机运行时可操作以导致一个或多个计算机执行操作，该操作包括：

接收(i)查询图像、和(ii)用户点击位置；

基于用户点击位置处理接收的查询图像；

识别与处理的查询图像相关联的一个或多个实体；并且

确定用户点击位置位于第一识别实体的边界框内；

17.一种编码有计算机程序的计算机可读储存设备，该程序包括指令，该指令如果由一个或多个计算机运行则导致一个或多个计算机执行操作，该操作包括：

接收(i)查询图像、和(ii)用户点击位置；

基于用户点击位置处理接收的查询图像；

识别与处理的查询图像相关联的一个或多个实体；并且

确定用户点击位置位于第一识别实体的边界框内；