CN110651267A

CN110651267A - 有效地增强具有相关内容的图像

Info

Publication number: CN110651267A
Application number: CN201780090761.2A
Authority: CN
Inventors: 查尔斯·杨; 路易斯·王; 查尔斯·J·罗森贝格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2020-01-03
Anticipated expiration: 2037-09-13
Also published as: US20220121331A1; WO2019054999A1; CN110651267B; JP2020521219A; US11747960B2; JP7204847B2; EP3602321B1; JP6938680B2; EP3602321A1; JP2021192267A; US11231832B2; CN117194753A; JP2023040119A; JP7448628B2; US20210208741A1; US20230359329A1

Abstract

本说明书的主题大体上涉及提供与图像中描绘的文本相关的内容。在一个方面中，系统包括数据处理设备，所述数据处理设备被配置成从图像中提取文本。所提取的文本被划分成多个块。所述多个块在用户界面上以第一缩放级呈现为相应的第一用户可选目标。检测对所述多个块中的第一块的用户选择。响应于检测到对所述第一块的所述用户选择，所述第一块中的所提取的文本的部分在所述用户界面上以大于所述第一缩放级的第二缩放级呈现为相应的第二用户可选目标。响应于检测到对所述第一块内的所提取的文本的一部分的用户选择，基于用户选择文本的内容而发起动作。

Description

有效地增强具有相关内容的图像

背景技术

因特网提供诸如图像文件、音频文件、视频文件和网页的多种资源的访问。搜索系统可以响应于查询而识别资源。查询可以是包括一个或多个搜索项或短语的文本查询、包括图像的图像查询，或文本查询和图像查询的组合。搜索系统对资源进行排名，并且提供可以链接到所识别资源的搜索结果或提供与查询相关的内容。

图像(例如，数码照片)已成为用户收集信息并对信息进行处理的流行方式，这已在具有相机和相机优先应用的智能手机中得到广泛应用。例如，已经在智能手机或其它装置上拍摄照片的用户可能想要获取关于照片内容的更多信息。在一些情况下，用户可能必须打开不同的应用来基于用户在照片中识别的内容来输入查询，这样非常麻烦并且可能导致查询不准确或无效。

发明内容

本说明书描述用于呈现与图像中描绘的文本相关的内容的系统、方法、装置和技术。

一般来说，本说明书中描述的主题的一个创造性方面可以在一种方法中实施，所述方法包括由用户装置从捕获的图像中提取文本。用户装置可以将所提取的文本划分成多个块。用户装置可以在用户装置的用户界面上以第一缩放级将块呈现为相应的用户可选目标。可以检测多个块中的第一块的用户选择。响应于检测到第一块的用户选择，用户装置可以在用户装置的用户界面上以大于第一缩放级的第二缩放级将第一块中的所提取的文本的部分呈现为相应的第二用户可选目标。响应于检测到第一块内的所提取的文本的一部分的用户选择，用户装置可以基于用户选择文本的内容而发起动作。此方面的其它实施方式包括对应设备、方法和在计算机存储装置上编码的计算机程序，所述计算机程序被配置成执行方法的动作。

这些和其它实施方式可以任选地包括以下特征中的一个或多个。在一些方面中，发起动作可以包括发起与用户选择文本所识别的目标地址的通信。

发起动作可以包括基于用户选择文本的内容而生成搜索查询，以及由用户装置将所述搜索查询发送到搜索引擎。发起动作可以包括基于用户选择文本的内容而生成两个或更多个候选搜索查询，在用户界面上显示候选搜索查询，以及响应于候选查询中的一个的用户选择，由用户装置将所选择候选查询发送到搜索引擎。

一些方面可以包括由用户装置从图像中提取场境。生成搜索查询或候选搜索查询可以包括进一步基于图像的所提取场境而生成搜索查询或候选搜索查询。

一些方面可以包括由用户装置从图像中提取场境；以及由用户装置使用图像的所提取的场境来确定图像是否落入多个预定类别中的一个中。生成搜索查询或候选搜索查询可以包括：如果图像落入预定类别中的一个中，则基于所提取的场境而生成搜索查询或候选搜索查询；否则，仅基于用户选择文本的内容而生成搜索查询或候选搜索查询。

在一些方面中，针对至少一个块并且在块中的任一个的用户选择之前，用户装置可以基于块中的所提取的文本而生成一个或多个搜索查询。用户装置可以将一个或多个搜索查询从用户装置发送到搜索引擎。在将块作为相应的用户可选目标呈现在用户界面上之前，用户装置可以生成一个或多个搜索查询并且发送一个或多个搜索查询。

在一些方面中，用户装置可以基于一个或多个搜索查询而从搜索引擎接收搜索结果内容，并且将接收到的搜索结果内容存储在用户装置的本地存储器中。基于块中的所提取的文本而生成一个或多个搜索查询可以包括以第一基于文本的粒度级将块中的所提取的文本解析成多个第一文本集，以及生成每个第一文本集的搜索查询。

一些方面可以包括：响应于检测到块的用户选择，以大于第一基于文本的粒度级的第二基于文本的粒度级将块中的所提取的文本解析成多个第二本文集；以及在接收第一块内的所提取的文本的一部分的用户选择之前，生成每个第二文本集的附加搜索查询；将每个附加搜索查询从用户装置发送到搜索引擎；基于附加搜索查询而由用户装置从搜索引擎接收附加搜索结果内容；并且将附加搜索结果内容存储在用户装置的本地存储器中。

在一些方面中，将所提取的文本划分成块至少部分地基于所提取的文本的语义分析。一些方面可以包括将在用户装置处从搜索引擎接收的内容显示在用户界面上。

一般来说，本说明书中描述的主题的另一个创造性方面可以在一种方法中实施，所述方法包括由用户装置从图像中提取文本。用户装置可以将所提取的文本划分成多个块。用户装置可以在用户装置的用户界面上以第一缩放级将多个块呈现为相应的第一用户可选目标。可以检测多个块中的第一块的用户选择。响应于检测到第一块的用户选择，用户装置可以在用户装置的用户界面上以大于第一缩放级的第二缩放级将第一块中的所提取的文本的部分呈现为相应的第二用户可选目标。响应于检测到第一块内的所提取的文本的一部分的用户选择，用户装置可以基于用户选择文本的内容而发起动作。

在一些方面中，发起动作可以包括发起与用户选择文本所识别的目标地址的通信。发起动作可以包括基于用户选择文本的内容而生成搜索查询，以及将搜索查询发送到搜索引擎。

一些方面可以包括由用户装置从图像中提取场境；使用图像的所提取场境来确定图像属于多个预定类别中的一个；以及响应于确定图像属于所述预定类别中的一个，基于所提取的文本而调整搜索查询。

一些方面可以包括由用户装置从搜索引擎接收基于搜索查询选择的搜索结果内容。搜索引擎可以基于图像所属的一个预定类别而对搜索结果进行排名。一些方面可以包括由用户装置从图像中提取场境；以及使用图像的所提取场境来确定图像不属于多个预定类别中的一个。生成搜索查询可以包括仅基于用户选择文本而生成常规搜索查询。

在一些方面中，发起动作可以包括基于用户选择文本的内容而生成两个或更多个候选搜索查询；在用户界面上显示候选搜索查询；以及响应于候选查询中的一个的用户选择，由用户装置将用户选择的候选查询发送到搜索引擎。

一些方面可以包括：在块中的任一个的用户选择之前并且针对第一块，由用户装置基于第一块中的所提取的文本而生成一个或多个搜索查询；以及将一个或多个搜索查询从用户装置发送到搜索引擎。

在一些方面中，在将多个块作为相应的第一用户可选目标呈现在用户界面上之前，用户装置生成一个或多个搜索查询并且发送一个或多个搜索查询。一些方面可以包括基于一个或多个搜索查询而从搜索引擎接收搜索结果内容，以及将接收到的搜索结果内容存储在用户装置的本地存储器中。

在一些方面中，基于第一块中的所提取的文本而生成一个或多个搜索查询可以包括以第一基于文本的粒度级将第一块中的所述所提取的文本解析成多个第一文本集；以及生成每个第一文本集的搜索查询。

一些方面可以包括：响应于检测到第一块的用户选择，以大于第一基于文本的粒度级的第二基于文本的粒度级将所述第一块中的所提取的文本解析成多个第二本文集；以及在接收第一块内的所提取的文本的一部分的用户选择之前，生成每个第二文本集的附加搜索查询；将每个附加搜索查询从用户装置发送到搜索引擎；基于附加搜索查询，由用户装置从所述搜索引擎接收附加搜索结果内容；以及将附加搜索结果内容存储在用户装置的本地存储器中。

在一些方面中，将所提取的文本划分成块至少部分地基于所提取的文本的语义分析。一些方面可以包括将在用户装置处从搜索引擎接收的内容显示在用户界面上。将在用户装置处从搜索引擎接收的内容显示在用户界面上可以包括将所述内容与图像的至少一部分一起显示在用户装置的视口中。

已提出使用OCR(光学字符辨识)来从物理文档中提取文本(特别是通过扫描的文档)。然而，所提取的文本通常被视为文本块。相反，本公开的方面可以使图像中的所有(或一些)单词、短语和/或文本块(包括数字，例如电话号码)成为相应的用户可选目标。用户可以通过基于通过选择含有/包括文本项的块的图像中的文本项而启动查询来获得关于图像内容的更多信息。通过查询返回的内容显示在用户装置的用户界面上。与要求用户手动地将图像中的文本输入搜索引擎以发起查询的现有过程相比，本发明的方面消除了用户在手动地输入搜索项并必须重新输入搜索项时出错的可能性。这样更有效地利用网络和搜索引擎资源，因为这样避免了搜索引擎对错误地输入的查询作出响应并且当用户意识到自己的错误并重新发送纠正的查询时必须重复查询和检索过程的可能性。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。基于图像内描述且由用户选择的文本识别内容(例如，经由查询)，而不是要求用户手动地输入文本查询结果可通过以下方式更有效地利用网络和搜索引擎资源：减少遍历网络的提交查询的数目；减少由搜索引擎处理的搜索查询的数目；以及减少响应于搜索查询而通过网络提供的搜索结果的数目。例如，用户可能地错误地输入用户在图像中看到的文本作为查询，或可能提交无法准确地反映图像内容的查询，这需要一个或多个查询修订以及随后的网络通信和搜索引擎处理，直到正确的查询产生满足用户信息需求的搜索结果。这些附加查询会消耗网络和搜索引擎资源，从而导致可以用于处理其它网络业务和其它查询的更少网络和搜索引擎带宽，和/或尤其在跨越搜索引擎的多个用户扩展时的更长搜索引擎响应时间。因此，响应于准确地反映用户信息需求的文本的用户选择而识别内容可以产生更多网络带宽、更快的网络和搜索引擎响应时间，和/或由搜索引擎处理的更多查询。

允许用户选择文本而不是重新键入文本对于用户来说也更有效，并且允许用户更快地请求与文本相关的内容。通过简单地为文本的不同部分选择不同目标，这也使用户更容易提交多个查询。

本文所描述的缩放技术使用户能够快速地且有效地选择用户想要接收附加内容的文本。例如，当用户装置处于低缩放级(例如，文本最小的最低缩放级)时，为文本的每个部分创建用户可选目标可能会导致用户选择错误的文本，诸如与用户预期选择的文本相邻的文本。这可能导致具有上述缺点的无意查询通过网络传输到搜索引擎，任何缺点还可能导致用户失望。通过以适当的缩放级为文本块创建用户可选目标并且随后以更高缩放级为文本的较小部分创建用户可选目标，用户可以更容易地选择正确文本。由于减少了通过网络传输到搜索引擎的无意查询的数目，缩放技术可以引起更多网络带宽、更快的网络响应时间、由搜索引擎处理的更多查询，以及更快的搜索引擎响应时间。

基于缩放级和/或以缩放级在用户装置的视口中呈现的图像内的文本，可以将图像的内容预缓存在用户装置处。当缩放级改变时，可以基于更新的缩放级和/或以更新的缩放级呈现在视口中的文本而预缓存附加的(和/或替选的)内容。以此方式，响应于文本的用户选择，可以更快速地呈现与图像内的文本相关的内容。

下文相对于附图描述前述主题的各个特征和优点。额外的特征和优点从本文所描述的主题和权利要求书中显而易见。

为了避免疑问，如本文使用的“文本”旨在涵盖字母、数字和/或符号，使得例如电话号码或电子邮件地址可以构成文本块。

附图说明

图1是用户装置呈现与图像中所描绘的文本相关的内容的示例环境。

图2描绘示例用户界面的示例屏幕快照，所述用户界面使用户能够选择文本以请求与用户选择文本相关的附加内容。

图3描绘示例用户界面的示例屏幕快照，所述用户界面使用户能够选择文本并查看与所选择文本相关的内容。

图4描绘示例用户界面的示例屏幕快照，所述用户界面使用户能够选择文本并查看与所选择文本相关的内容。

图5是用于基于用户选择文本的内容而发起动作的示例过程的流程图。

图6是用于响应于搜索查询而提供内容的示例过程的流程图。

具体实施方式

一般来说，本文所描述的系统和技术识别并提供与图像中所描绘的文本和/或其它内容相关的附加内容。用户可以使用智能电话或其它用户装置的相机来捕获图像。随后，图像内的文本可以用于识别附加内容。例如，图像可以描绘餐馆菜单。用户装置可以在文本处或文本周围呈现用户可选目标，从而允许用户选择文本并查看与所选择文本相关的附加内容。例如，用户可以选择菜单项并查看与菜单项相关的内容(例如，营养信息)、菜单项的图像，或与菜单项相关的其它类型的内容。使用下面描述的预缓存技术，可以响应于选择而瞬时地(或几乎瞬时地)呈现附加内容。

用户装置可以例如使用文本的语义分析和/或图像中的文本的布置将图像中所描绘的文本划分成块，并且将每个块呈现为用户可选目标。例如，用户装置可以基于图像中的文本的布局和语义分析而将菜单图像中的文本划分成多个块，所述多个块包括用于菜单的每个部分的块(例如，开胃菜块、主菜块等)。当用户选择块中的一个时，用户装置可以以更高缩放级呈现所选择块并且将块内的文本的部分呈现为用户可选目标。例如，用户装置可以识别短语、菜单项或文本的其它相关部分，并且以更高缩放级将文本的相关部分中的至少一些呈现为用户可选目标。通过基于改变的缩放级而改变缩放级和用户可选目标，用户可以更容易地选择用户想要查看附加内容的文本。

在每个缩放级下，可以基于由用户装置在所述缩放级下呈现的文本而将内容预缓存在用户装置处。在用户调整缩放级时，可以基于由用户装置在更新的缩放级下呈现的文本而将附加和/或不同(替选)内容预缓存在用户装置处(例如，在用户选择文本之前)。以此方式，在用户进行选择之后可以瞬时地或与通过网络传输请求相比至少更快地提供与用户选择的文本相关的内容。

图1是用户装置110呈现与图像中所描绘的文本相关的内容的示例环境100。用户装置110可以是智能电话、平板计算机、可穿戴装置，或其它类型的移动或非移动电子装置。用户装置110包括捕获图像113和/或视频的相机112。用户装置110还包括呈现图像113和/或视频，以及与图像113相关的内容的显示器120。如下文更详细地描述，显示器120可以包括诸如触摸屏的输入装置，所述输入装置允许用户与呈现在显示器120处的图像113中所描绘的文本交互。

用户装置110包括图像应用111，该图像应用111允许用户使用相机112捕获图像或使用取景器查看在相机透镜的视场中的对象。图像应用111还允许用户查看和/或收听与图像中所描绘的文本相关的内容。出于本文档的目的，图像是指由相机112捕获的图像以及示出相机透镜的视场的取景器中的可见内容。图像应用111还可以允许用户查看与图像中所描绘的文本相关的附加内容，所述图像存储在用户装置处，例如存储在用户装置110的本地存储器124中，或存储在不同位置处。例如，用户可以使用图像应用111来选择存储在用户装置110处(或网络位置处)的图像，并且查看与图像中所描绘的文本相关的图像和/或内容。本地存储器124可以包括用户装置110的内部存储器(例如，用户装置110的闪存存储器)或连接到用户装置110的外部存储器(例如，连接到用户装置110的通用串行总线(USB)端口的存储器)。

图像应用111包括文本处理器114，所述文本处理器处理在图像中描绘的文本。文本处理器114可以例如使用光学字符辨识(OCR)来辨识图像中所描绘的文本。在一些实施方式中，文本处理器114包括轻质OCR引擎，该OCR引擎在用户装置110上执行，以例如相对于位于网络位置处的全服务OCR应用增加在图像中识别文本的速度。轻质OCR引擎是使用少量存储器(例如，少于存储器的阈值量)和/或使用用户装置110的最小处理能力识别图像中的文本的OCR引擎。尽管相对于将图像传输到网络位置处的OCR引擎，轻质OCR引擎可以使用用户装置110的附加处理能力，但是如果图像通过网络传输、由OCR引擎处理并且文本被传输回用户装置110，则轻质OCR引擎允许比原本更快地执行文本辨识。这样减少了辨识文本并呈现与文本相关的内容的时延。轻质OCR引擎可以实施为软件开发包(SDK)，所述SDK包括用于识别图像中的文本的功能。

文本处理器114还可以处理图像中所描绘的文本，以识别块、短语或相关文本的其它部分。在一些实施方式中，文本处理器114可以基于文本在图像内的布置而识别相关文本。例如，文本处理器114可以将分组在一起和/或具有诸如相同字体类型、大小和/或颜色的相同(或相似)视觉特征的文本识别为相关文本。一组文本可以包括处于组内的其他文本的阈值距离内的文本，和/或位于图像内的可见边缘或边界内的文本。例如，一组文本可以包括在图像中所描绘的可见块(例如，正方形、矩形，或具有可见边界的其它合适形状)内，或在图像中所描绘的分界线一侧的文本。

在一些实施方式中，文本处理器114对图像中所描绘的文本执行语义分析以识别相关文本。例如，文本处理器114可以使用语义分析来将图像中所描绘的文本内的短语、从句、句子或段落识别为相关文本。文本处理器114还可以使用语义分析和/或图像内的文本的布置来识别相关短语、从句、句子、段落或单个单词的块。例如，通过分析图像中的所有(或大部分)所辨识单词，文本处理器114可以如下文所描述确定图像的类别，并且使用图像的类别来消除可能具有多种含义的单词含义的歧义。在另一示例中，文本处理器114可以使用文本的布置来确定单词包括在包括特定标题的图像的特定部分中，并且使用标题来确定单词的含义。例如，如果单词“面颊(cheek)”在菜单的图像中并且在标题“烧烤主菜(BBQEntrees)”下，则文本处理器114可以确定单词“cheek”是指食物项目而不是身体部位。

在一些情况下，文本块包括多行文本。例如，菜单上的开胃菜的文本块可以包括每个开胃菜的一行或多行文本。在其它情况下，文本块可以包括单个短语或单个单词。例如，文本块可以包括涂在船的侧面上或刻在公园的标牌中的文本。

文本处理器114可以输出图像数据115，该图像数据115指定在处理后图像中识别的文本以及在图像中识别的每个文本块(或其它部分)。对于每个文本块，图像数据115可以指定包括在所述块中的实际文本(例如，实际单词和短语)。图像数据115还可以指定图像中的文本的每个部分的位置。例如，对于文本块，图像数据115可以包括包围文本块的图像内的坐标，或矩形文本块的每个角落的坐标。如下文所描述，图像应用111的内容获取器116可以使用图像数据115来获取与图像中所识别的文本相关的内容，例如以将内容预缓存在本地存储器124中。

图像应用111的用户界面控制器118可以接收图像113并且生成将图像113呈现在显示器120上的用户界面122。在一些实施方式中，图像应用111将由相机112捕获的图像113直接提供给用户界面控制器118，用于例如在图像由文本处理器114处理之前由用户装置110的显示器120显示。以此方式，在捕获图像之后立即显示图像113。

用户界面控制器118还可以接收由文本处理器114输出的图像113的图像数据115。用户界面控制器118可以使用图像数据115(例如，指示图像113内的文本块以及其位置的数据)来生成由文本处理器118识别的文本块的用户可选目标。用户可选目标允许用户：选择文本块来获得与块中的文本相关的内容；放大块以选择块内的文本；和/或发起另一动作。每个用户可选目标可以包括显示器的可选部分(例如，可选触摸屏区域)以及指示块是可选的视觉指示符。例如，文本块的用户可选目标可以包括可选图标、块周围的突出显示框(或其它形状)、块中的文本的不同背景颜色、块中的文本的不同字体颜色、突出显示或加粗的文本作为视觉指示符，或包括向用户指示块是可选的一些其它合适的视觉指示符。用户可以通过与目标交互，例如通过单击目标，将指针悬停在目标上，在目标位置处触摸触摸屏，或使用其它合适的用户交互来选择用户可选目标。

用户界面控制器118可以将图像113与用户可选目标一起呈现在用户界面122中。用户界面控制器118还可以为包括在块中的文本的部分生成用户可选目标。例如，对于文本块，用户界面122可以包括用户可选目标，该用户可选目标使用户能够放大块，以使所述块中的文本变大。对于块中的文本的一个或多个部分中的每一个，用户界面122还可以包括用户可选目标，该用户可选目标允许用户选择文本的部分来请求与文本的部分相关的内容。在如上所述在捕获图像之后立即显示图像113的一些实施方式中，一旦图像已由文本处理器处理，则用户界面控制器118可以用用户可选目标来补充初始显示的图像。

在一些实施方式中，用户界面控制器118可以包括文本块的两个用户可选目标。例如，第一用户可选目标可以允许用户放大文本块，并且第二用户可选目标可以允许用户请求与块内的文本相关的内容。在另一实例中，用户界面控制器118可以响应于用户选择块内的不包括文本的位置，例如文本之间的空间，而放大文本块。如果用户选择块内的文本，则用户界面控制器118可以发起对与用户选择文本或块内的文本相关的内容的请求。

用户界面控制器118可以响应于文本块的用户选择而确定是否放大文本块或是否呈现内容。在一些实施方式中，用户界面控制器118可以基于所选择文本块内的文本，例如基于所选择文本块内的文本的语义内容，而确定是否放大或呈现内容。例如，如果文本块包括与一个特定实体或特定类型的内容相关的文本，则用户界面控制器118可以确定呈现与实体相关的内容，而不是放大文本块。在另一实例中，如果文本块包括与特定饭菜相关的文本，则用户界面控制器118可以响应于文本块的用户选择而确定呈现与特定饭菜相关的内容。例如，内容可以是在动画对话泡泡中带有菜肴评论的文本块旁边的角色头像。如果文本块包括与多个实体或多个类型的内容相关的文本，则用户界面控制器118可以响应于文本块的用户选择而确定放大文本块。

每当用户选择文本的一部分的用户可选目标时，用户界面控制器118就可以调整缩放级，例如，直到达到特定缩放级。如果用户选择文本块，则用户界面控制器118可以放大文本块，使得块中的文本在显示器120上更大。例如，用户界面控制器118可以放大显示器120上的图像，使得用户选择块在至少一个维度上(例如，水平和/或垂直地)填充显示器120的视口。

用户界面控制器118还可以将用户选择块中的文本的至少一部分呈现为用户可选目标。以此方式，用户可以选择文本的一部分，例如单词或短语，来请求与所述单词或短语相关的内容。在一些实施方式中，如果用户选择短语或包括多于一个单词的文本的其它部分，则用户界面控制器118可以进一步放大文本的部分，并且呈现所选择部分的子部分的用户可选目标。例如，如果用户选择短语，则用户界面控制器118可以放大，使得短语在至少一个维度上(例如，水平的和/或垂直的)填充显示器的视口。用户界面控制器118还可以将文本的子部分呈现为用户可选目标。例如，如果用户在菜单的图像中选择短语“红酒(redwine)”，则用户界面控制器118可以放大短语，并且将单词“红(red)”呈现为一个用户可选目标并将单词“酒(wine)”呈现为第二用户可选目标。

用户界面控制器118可以基于文本的部分的内容而选择用户选择块中的文本的部分来呈现为用户可选目标。在一些实施方式中，用户界面控制器118可以基于可用于文本部分的内容而选择文本。例如，用户界面控制器118可以访问特定类型的内容可用的已知实体列表(例如，包括实体的信息摘要的知识图可用的实体)。如果文本的一部分包括名称或对已知实体列表中的实体的其它引用，则用户界面控制器118可以将文本的部分呈现为用户可选目标，使得用户可以选择文本的部分来请求与实体相关的附加内容。

在一些实施方式中，用户界面控制器118对用户选择块中的文本的部分进行排名，并且将较高排名的文本的部分呈现为用户可选目标，同时不将较低排名的文本的部分呈现为用户可选目标。例如，用户界面控制器118可以选择具有最高排名的文本的部分或具有满足(例如，超过)阈值分数的排名得分的文本的部分的指定数目或百分比。用户界面控制器118可以基于可用于文本的每个部分的内容量、文本的每个部分与图像类别之间的相关性、文本的部分所引用的实体的流行度(例如，基于针对每个实体接收的查询的数目)和/或其它合适的标准而对文本的部分进行排名(和/或确定文本的部分的排名得分)。

用户界面控制器118还可以响应于用户交互而缩小文本。例如，响应于用户在触摸屏上捏合或选择用于缩小的图标，用户界面控制器118可以缩小以呈现更多图像。

当用户例如通过选择文本的一部分的用户可选目标而发起对内容的请求时，UI控制器118可以将请求数据123发送到内容获取器116。请求数据119可以指定已选择的文本。例如，如果用户选择在呈现于用户界面122中的图像中所描绘的用户可选短语，则用户界面控制器118可以生成指定短语中的每个单词的请求数据119。在另一示例中，如果用户选择文本块，则用户界面控制器118可以生成指定文本块中的每个单词的请求数据119。

在一些实施方式中，请求数据119包括场境数据。例如，请求数据119可以包括尚未选择的其它文本。在特定实例中，请求数据119可以包括在图像中所识别的每个单词(或一些单词)，或基于当前缩放级在用户界面122中可见的每个单词(或一些单词)。如下文所描述，场境数据可以用于识别图像的类别，随后可以用于消除所选择单词的歧义并且选择用于响应于用户选择而呈现的内容。例如，菜单图像中的附加单词可以用于确定诸如“肩部(shoulder)”的所选择单词对应于食物项目并选择合适的内容。

内容获取器116可以从用户界面控制器118接收请求数据119并且基于请求数据119而从搜索系统150(或本地存储器124)获得内容。在一些实施方式中，内容获取器118基于请求数据119而生成指定一个或多个搜索查询的查询数据，并且通过数据通信网络140，例如，局域网(LAN)、广域网(WAN)、移动网络、因特网或其组合将查询数据130发送到搜索系统150。一个或多个查询可以包括由用户选择的文本。查询数据130还可以包括场境数据。

搜索系统150包括搜索引擎152和场境分类器154。基于包括在查询数据130中的一个或多个搜索查询所包括的单词，搜索引擎150可以使用索引156来识别内容。索引156可以包括可以响应于查询而提供或可以在响应于查询而提供的搜索结果中引用的指定电子资源(例如，网页、图像、视频，和/或其它内容)的数据。

场境分类器154可以使用一个或多个机器学习模型，以基于在图像或图像的一部分中所描绘的文本而对图像(或在用户界面122中可见的图像的一部分)进行分类。可以使用标记的训练数据来训练机器学习模型。标记的训练数据可以包括一组训练图像，并且对于每个图像，包括指定图像中所描绘的单词的数据以及指定图像类别的标记。示例类别可以包括餐馆菜单、标牌(例如，路牌或商店招牌)、杂志、电影海报、音乐海报等。尽管图1将场境分类器154说明为搜索系统150的一部分，但是在一些实施方式中，可以在用户装置110上实施场境分类器154。

当接收到查询数据时，场境分类器154可以使用查询数据130中的场境数据和机器学习模型来尝试将图像分类成一组预定类别中的一个，所述机器学习模型已针对所述类别进行训练以对图像进行分类。在一些实施方式中，搜索引擎152基于分类和/或是否已成功地对图像进行分类而调整搜索查询和/或调整资源的排名。

如果场境分类器154将图像分类成类别中的一个，则搜索引擎152(或在场境分类器154在用户装置110上实施的情况下内容获取器116)可以基于图像分类到的类别而将搜索查询调整为包括一个或多个术语。例如，如果图像被分类为电影海报，则搜索引擎152可以将单词“电影(movie)”添加到搜索查询。在特定示例中，用户选择文本可以是电影标题“外星人(Alien)”。场境分类器154可以使用在电影海报中所描绘的附加单词，例如演员姓名或电源的描述来将图像分类为电影海报。搜索引擎152随后可以将单词“电影”添加到查询“外星人”，以形成查询“外星人电影(Alien movie)”。以此方式，一般来说，搜索结果将更可能与电源“外星人”相关，而不是与外星人相关的其它内容。

在一些实施方式中，搜索引擎152基于图像的分类而调整搜索结果的排名。例如，除了修改搜索查询之外，搜索引擎152可以增加与图像类别相关的资源的搜索结果(例如，提高搜索结果的排名)，和/或降低与图像类别不相关的搜索结果的排名。在一些实施方式中，搜索引擎152可以基于图像的类别而调整资源类型的排名。例如，如果图像类别是音乐海报，则搜索引擎152可以增加音频和视频资源并降低网页资源的排名。

如果场境分类器154未将图像分类成一个或多个类别，例如因为场境数据与所述类别中的一个不相关，则搜索引擎152可以使用用户选择文本来执行一般搜索。对于无法基于由场境分类器154接收的场境数据而确定类别的图像，这可以是后备选项。例如，商店招牌的图像可以仅包括单个单词，所述单个单词不具有可以用于对图像进行分类的附加场境文本。

搜索引擎152可以基于搜索查询以及响应于搜索查询识别的资源排名而将内容132提供到内容获取器116。例如，搜索引擎152可以向特定数目的最高排名资源提供内容132。在另一示例中，搜索引擎152可以向引用最高排名资源，提供内容132，例如链接到最高排名资源的参考的搜索结果,。例如，如下文所描述，可以与图像一起呈现内容或可以呈现搜索结果页面，所述搜索结果页面包括基于用户选择文本而选择的搜索结果。内容获取器116可以接收内容132并且将内容132提供到用户界面控制器118。用户界面控制器118继而可以与图像或搜索结果页面上的搜索结果一起呈现包括在用户界面122中的内容132中的资源的至少一部分。例如，用户界面控制器118可以将从网页资源中提取的文本和/或图像、到由网站托管的视频的链接，和/或视频的缩略图呈现为内容，如果被用户选择，则在用户界面中启动视频播放。

例如，在接收图像中所描绘的文本的选择之前，内容获取器116还可以将内容预缓存在本地存储器中。在一些实施方式中，内容获取器116基于由文本处理器114输出的图像数据115而将查询数据130发送到搜索系统150。查询数据130可以包括由文本处理器114在图像中识别的所有文本。搜索引擎152可以基于文本和/或由场境分类器154确定的图像类别而识别内容。内容获取器116可以从搜索引擎152接收所识别内容并且将所述内容存储在本地存储器124中。以此方式，如果用户请求总体上与图像相关的内容，则内容获取器116可以从本地存储器中获得内容，而不是在用户请求之后通过网络140将附加查询数据传输到搜索系统150。这可以减少将内容呈现给用户的时延，并且允许用户瞬时地或几乎瞬时地(例如，在小于诸如一秒的阈值时间量内)查看与所选择文本相关的附加内容。

在一些实施方式中，基于用户界面122的缩放级，内容获取器116生成用于不同基于本文的粒度的查询来进行预缓存。基于文本的粒度限定用于生成每个查询的文本量。例如，在一个基于文本的粒度下，单个单词可以用于生成查询。在更高基于文本的粒度下，单个短语或多达阈值量个单词的多个单词的其它集合可以用于生成查询。

当缩放级允许整个图像在用户界面中可见时，内容获取器可以针对呈现用户可选目标的每个文本块生成一个或多个查询。例如，例如在接收块中的一个的用户选择之前，文本处理器114可以识别图像中的多个不同文本块并且为每个块请求单独内容。在特定示例中，菜单图像可以包括用于开胃菜的第一文本块、用于主菜的第二文本块，以及用于饮料的第三文本块。在此示例中，查询数据130可以包括第一块中的开胃菜列表、第二块中的主菜列表，以及第三块中的饮料列表。搜索引擎152可以单独地识别每个块的内容(例如，电子资源)并且将内容提供给内容获取器116。内容获取器116可以将内容存储在本地存储器124中。以此方式，如果用户选择块中的一个，则内容获取器116可以从本地存储器124中获得用户选择块的内容，而不是在用户选择之后通过网络140将附加查询数据传输到搜索系统150。

响应于与改变用户界面122的缩放级的用户界面122的用户交互，内容获取器116可以更新存储于本地存储器124中的内容。例如，如果用户选择块中的一个，则用户界面控制器118可以放大所选择块并且将用户选择块中的文本的至少一些部分呈现为用户可选目标。内容获取器116还可以基于更新的缩放级而以不同基于文本的粒度生成查询。例如，针对所选择块中所识别的每个短语或用户界面控制器118将呈现为用户可选目标的所选择块中的每个短语，内容获取器可以生成查询。

继续先前的菜单示例，如果用户选择用于开胃菜的块，则内容获取器116可以针对表示开胃菜的每个短语生成一个或多个查询。例如，在用户选择开胃菜中的一个之前，或在开胃菜在用户界面122中呈现为用户可选目标之前，内容获取器116可以将指定查询的查询数据130发送到搜索引擎152。搜索引擎152可以识别每个开胃菜的内容并且将所识别内容提供给内容获取器116。内容获取器116可以将内容存储在本地存储器124中。以此方式，如果用户选择开胃菜中的一个，则内容获取器116可以从本地存储器124中获得用户选择的开胃菜的内容，而不是在用户选择之后通过网络140将附加查询数据传输到搜索系统150。

在一些实施方式中，用户界面控制器118可以执行除了基于文本的内容而请求与用户选择文本相关的内容之外的动作。例如，如果图像描绘电话号码，则用户界面控制器118可以响应于智能电话对电话号码显示的用户选择而在智能电话上发起电话呼叫。在另一示例中，如果图像描绘地址，则用户界面控制器118可以打开地图应用，并且响应于地址的用户选择而请求地图应用显示地址所引用的位置的地图。在又一示例中，如果图像描绘例如通用资源定位符(URL)的网络资源的目标地址，则用户界面控制器118可以打开应用(例如，网页浏览器)，并且请求到网络地址所引用的电子资源的应用导航。在又一示例中，如果图像描绘网络资源的电子邮件地址，则例如通过打开电子邮件应用并显示发送到电子邮件地址的空白电子邮件，用户界面控制器118可以响应于电子邮件地址的用户选择而发起到所述电子邮件地址的电子邮件。

在一些实施方式中，用户界面控制器118生成扩大在取景器中所示的内容的用户界面。例如，用户可以将相机112指向菜单或其它对象。用户界面控制器118可以生成文本块的用户可选目标和/或当前在取景器中所示的文本的其它部分，并且在取景器中呈现用户可选目标以及文本。如果用户移动相机112，则用户界面控制器118可以将用户可选目标以及针对其生成用户可选目标的文本移动到其适当位置。如果新文本变成在取景器中可见，则用户界面控制器118可以如上所述处理文本以生成用户可选目标，并且响应于用户可选目标的用户选择而呈现内容。

图2描绘示例用户界面205的示例屏幕快照，所述用户界面使用户能够选择文本以请求与用户选择文本相关的附加内容。用户界面205的第一屏幕快照210示出用户界面205，所述用户界面205呈现来自示例餐馆的菜单的图像211。例如，用户可能已使用智能电话的相机来捕获菜单的图像211。示例菜单包括开胃菜部分、三明治部分、主菜部分和甜品部分。

用户界面205的第二屏幕快照220说明已为菜单的不同部分创建的用户可选目标221-224。例如，用户界面控制器，例如图1的用户界面控制器118可以识别出菜单的每个部分是相关文本块并且将每个部分呈现为用户可选目标。具体而言，用户可选目标221允许用户选择菜单的开胃菜部分；用户可选目标222允许用户选择菜单的主菜部分；用户可选目标223允许用户选择菜单的三明治部分；并且用户可选目标224允许用户选择菜单的甜品部分。

在此示例中，每个用户可选目标221-224包括在其部分周围的粗线，所述粗线向用户指示菜单的部分是可选择的。在一些实施方式中，每个部分周围的线可以是特定颜色或具有特定亮度，以吸引用户注意可以选择该部分的事实。在其它示例中，可以突出显示或改变每个部分的文本后面的背景颜色，以指示该部分是可选择的，或可以改变文本颜色以指示该部分是可选择的。

示例用户界面205还已经更新为在屏幕快照220中包括过敏指示符227。在一些实施方式中，图像应用，例如图像应用111，可以访问由用户提供的用户数据，以呈现与用户相关并且与图像中所描绘的文本相关的附加内容。用户数据的示例是用户对其过敏的食物项目的列表。图像应用可以将菜单中的食物项目与过敏列表相比较，并且如果存在匹配，则在菜单中的项目旁边呈现过敏指示符。在此示例中，用户对虾过敏并且过敏指示符227向用户指示菜单项目。

用户可以通过在用户可选目标内触摸(如果用户装置具有触摸屏)，通过使用指针和鼠标单击用户可选目标，或另一合适方式来选择用户可选目标。在此示例中，用户使用指针226来选择用户可选目标221，以放大菜单中的开胃菜部分。

响应于用户可选目标221的选择，更新用户界面205以呈现开胃菜部分的放大视图，如在实例屏幕快照230中所示。例如，可以以第一缩放级，例如默认缩放级，来显示菜单的图像211。当选择用户可选目标时，可以将用户界面的缩放级更新到大于第一缩放级的第二缩放级，从而以更高缩放级呈现所选择部分中的文本。这样使用户能够更好地查看所选择部分中的文本，并且更好地选择用户想要进一步放大或请求内容的文本。

在示例屏幕快照230中，用户界面205还将每个开胃菜描绘为用户可选目标。例如，开胃菜薯片和莎莎酱呈现为用户可选目标231；开胃菜酿蘑菇呈现为用户可选目标232；开胃菜布法罗辣鸡翅呈现为用户可选目标233；并且开胃菜马芝瑞拉起司条呈现为用户可选目标234。如上所述，当用户选择文本块时，所选择块中的文本的至少一部分可以呈现为用户可选目标。

当用户选择用户可选目标时，可以更新用户界面205以进一步扩大或呈现与用户选择目标的内容相关的内容。在此示例中，用户使用指针236选择薯片和莎莎酱的用户可选目标231，并且作为响应，更新用户界面205以进一步放大短语薯片和莎莎酱，如在示例屏幕快照240中所示。

用户界面205还已更新，以呈现短语“薯片和莎莎酱(chips and salsa)”中的单词的用户可选目标。具体而言，用户界面205包括单词“薯片(chips)”的用户可选目标241以及单词“莎莎酱(salsa)”的用户可选目标243。用户界面205可以不包括单词“和(and)”以及用户不可能选择的其它单词的用户可选目标。例如，如上所述，基于可用于文本内容(例如，用于文本所引用的实体)的内容或其它标准，用户界面控制器可以选择所选择块中或文本的其它部分中的哪些单词或短语将呈现为用户可选目标。

如果用户选择用户可选目标241，则可以更新用户界面205以呈现与薯片相关的内容，例如，薯片的营养信息、薯片的图像、薯片的配方等。类似地，如果用户选择用户可选目标243，则可以更新用户界面205以呈现与莎莎酱相关的内容，例如，莎莎酱的营养信息、莎莎酱的图像、莎莎酱的配方等。

图3描绘示例用户界面305的示例屏幕快照310和320，所述用户界面使用户能够选择文本并查看与所选择文本相关的内容。屏幕快照310类似于图2的屏幕快照230。在屏幕快照310中，用户界面305呈现菜单图像的部分视图(例如，放大视图)。具体而言，用户界面305呈现图像的部分，该图像的部分包括菜单的开胃菜部分。用户界面305还将开胃菜项目的用户可选目标311-314呈现在菜单中。在此示例中，用户已使用指针316来选择开胃菜“薯片和莎莎酱”的用户可选目标311。

响应于用户选择，更新用户界面305以在菜单的图像上呈现与薯片和莎莎酱相关的内容，如在屏幕快照320中所示。在此示例中，内容包括：文本块322，该文本块322包括关于薯片和莎莎酱的信息；以及薯片和莎莎酱的图像323和324。文本块322以及图像323和324可以呈现在屏幕快照310中可见的菜单图像的部分上，使得所选择的用户可选目标311保持可见。例如，文本块322以及图像323和324呈现在描绘其它开胃菜的图像的部分上，同时薯片和莎莎酱的文本保持可见。

在一些实施方式中，可以通过使得图像的不同部分可见来更新用户界面305，从而使得所选择文本保持可见并且与所选择文本相关的内容呈现在所选择文本下方。在一些实施方式中，图像的可见部分不改变，并且内容呈现在不包括所选择文本的图像的一部分上方，例如，呈现在所选择文本上方或所选择文本一侧。

图4描绘示例用户界面405的实例屏幕快照410和420，该用户界面405使用户能够选择文本并查看与所选择文本相关的内容。屏幕快照410类似于图2的屏幕快照230。在屏幕快照410中，用户界面405呈现菜单图像的部分视图(例如，放大视图)。具体而言，用户界面405呈现图像的部分，所述图像的部分包括菜单的开胃菜部分。用户界面405还将开胃菜项目的用户可选目标411-314呈现在菜单中。用户已使用指针416选择开胃菜“薯片和莎莎酱”的用户可选目标411。

在此示例中，除了如在图3的示例中将内容呈现在图像上，用户界面405已更新为呈现搜索结果页面421，如屏幕快照420中所示。搜索结果页面421可以用于基于用户所选择的文本而开始搜索。例如，搜索结果页面421包括搜索框422，所述搜索框422响应于用户选择文本“薯片和莎莎酱”的用户可选目标411而例如由图像应用自动地用文本“薯片和莎莎酱”填充。用户随后可以修改搜索框422中的查询以提交修改后查询，诸如“薯片和莎莎酱营养信息(chips and salsa nutritional information)”，并且在搜索结果页面421上查看修改后查询的搜索结果。

搜索结果页面421还包括基于查询“薯片和莎莎酱”识别的搜索结果423-425。例如，图像应用可以将查询提交给搜索引擎，并且响应于检测到用户可选目标411的选择而将从搜索引擎接收的搜索结果呈现在搜索结果页面上。如果用户修改查询并提交修改后查询，则修改后查询的新搜索结果可以呈现在搜索结果页面上，例如代替搜索结果423-425。

图5是用于基于用户选择文本的内容而发起动作的示例过程500的流程图。例如，可以由用户装置实施过程500的操作，所述用户装置包括一个或多个数据处理设备，诸如图1的用户装置110。过程500还可以由存储于计算机存储介质上的指令实施，其中包括数据处理设备的系统对指令的执行使数据处理设备执行过程500的操作。

用户装置从捕获的图像中提取文本(502)。图像可以使用用户装置的相机捕获，由发送到用户装置的另一装置的相机捕获，或从存储装置中检索。用户装置可以使用OCR技术从捕获的图像中提取文本。

用户装置将所提取的文本划分成多个块(504)。基于所提取的文本在捕获的图像内的布置，基于所提取的文本的一个或多个语义分析，和/或使用用于识别相关文本组的其它合适技术，用户装置将所提取的文本划分成多个相关文本块。

用户装置在用户装置的用户界面上将多个文本块呈现为相应的第一用户可选目标(506)。用户界面可以以第一缩放级，例如示出整个捕获的图像的默认缩放级，将多个块呈现为用户可选目标。

用户装置检测多个块中的第一块的用户选择(508)。用户可以与用户可选目标交互以选择文本。例如，用户可以在文本位置处触摸用户装置的显示器的触摸屏，或使用鼠标点击文本。

响应于文本的用户选择，用户装置在用户装置的用户界面上将第一块中的所提取的文本呈现为相应的第二用户可选目标(510)。例如，用户装置可以更新用户界面以放大第一文本块。即，用户装置可以以大于第一缩放级的第二缩放级显示第一文本块。以此方式，第一块的文本较大并且对于用户来说更容易选择合适的文本来请求与文本相关的内容。

用户装置检测第一文本块内的所提取的文本的一部分的用户选择(512)。作为响应，用户装置基于所选择文本的内容而发起动作(514)。该动作可以基于所选择文本的内容而改变。例如，如果所选择文本的内容是电话号码，则该动作可以是使用电话号码发起电话呼叫。如果所选择文本的内容是地址，则该动作可以是打开到所述地址的地图应用。

如果所选择文本的内容是实体，或否则不具有对应动作，则该动作可以是请求与所选择文本的内容相关的内容。例如，用户装置可以基于所选择文本的内容而生成一个或多个搜索查询，并且使用所选择文本的内容发起搜索。

在一些实施方式中，动作可以是在用户界面上显示多个候选搜索查询，以允许用户选择优选搜索查询。候选搜索查询可以基于所选择文本的内容。例如，候选搜索查询可以包括所选择文本的内容以及与所选择文本的内容相关的一个或多个建议术语。如果用户选择候选查询中的一个，则用户装置可以将查询发送到搜索引擎，并且在用户界面上呈现与所选择查询相关的搜索结果或内容。

图6是用于响应于搜索查询而提供内容的实例过程600的流程图。例如，可以由诸如图1的搜索系统150的包括一个或多个数据处理设备的系统来执行过程600的操作。过程600还可以由存储于计算机存储介质上的指令实施，其中包括数据处理设备的系统对指令的执行使数据处理设备执行过程600的操作。

系统接收查询数据(602)。查询数据可以包括用于捕获的图像的查询和场境数据。查询可以包括在图像中描绘并且由用户选择的文本的内容。场境数据可以包括在图像中描绘，但用户未选择的其它文本。

系统尝试基于场境数据而对图像进行分类(604)。例如，系统可以使用一个或多个机器学习模型来尝试基于场境数据中包括的图像的文本而对图像进行分类。机器学习模型的输出可以是一组预定义类别中的一个(例如，菜单、电影、音乐、标牌等)，或者没有分类。

如果系统确定图像属于类别中的一个，则系统基于用户选择文本的内容和类别的组合而识别电子资源(例如，网页、图像、视频等)并对该电子资源进行排名(608)。例如，基于所识别类别，系统可以将基于所选择文本的内容的查询修改成包括一个或多个术语。在另一示例中，系统可以提高与类别相关的资源的排名，和/或降低与类别不相关的资源的排名。

如果系统确定图像不属于该类别中的一个，则系统使用常规搜索来识别资源并对资源进行排名(610)。例如，系统可能不修改查询或调整资源的排名。替代地，系统可以仅基于所选择文本的内容而识别资源。

系统提供用于在从其接收查询数据的用户装置处呈现的搜索结果内容(612)。在一些实施方式中，如果图像被分类为属于类别中的一个，则搜索结果内容可以包括基于查询识别的资源以及任选地图像的类别。例如，用户装置可以显示具有从中选择了文本的图像的内容(例如，网页的文本、图像、嵌入的视频，或到视频的链接)。

在一些实施方式中，如果图像被分类为属于类别中的一个，则搜索结果内容包括基于查询识别的资源以及任选地图像的类别的搜索结果。例如，用户装置可以将搜索结果呈现在搜索结果页面上，例如代替图像，或呈现在图像上。

本说明书中描述的主题和操作的实施例可以在包括本说明中所公开的结构以及其结构等效物的数字电子电路，或计算机软件、固件或硬件，或在其中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，在计算机存储介质上编码以供数据处理设备执行或控制数据处理设备的操作的计算机程序指令的一个或多个模块。替选地或另外，程序指令可以在例如机器产生的电信号、光信号或电磁信号等的人为产生的传播信号上编码，产生人为产生的传播信号以对传输到合适接收器设备以供数据处理设备执行的信息进行编码。计算机存储介质可以是计算机可读存储装置、计算机可读存储基底、随机或串行接入存储器阵列或装置，或其中的一者或多者的组合，或可以包括在计算机可读存储装置、计算机可读存储基底、随机或串行接入存储器阵列或装置，或其中的一者或多者的组合中。此外，尽管计算机存储介质不是传播信号，但是计算机存储介质可以是在人为产生的传播信号中编码的计算机程序指令的源或目标。计算机存储介质还可以是一个或多个单独的物理组件或介质(例如，多个CD、磁盘或其它存储装置)，或可以包括在一个或多个单独的物理组件或介质中。

本说明中描述的操作可以实施为由数据处理设备对存储于一个或多个计算机可读存储装置上或从其它源接收的数据执行的操作。

术语“数据处理设备”涵盖用于处理数据的所有种类的设备、装置和机器，包括例如可编程处理器、计算机、片上系统，或多个片上系统，或前述项的组合。设备可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，设备还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行环境、虚拟机，或其中的一者或多者的组合的代码。设备和执行环境可以实现各种不同的计算模型基础结构，诸如网络服务、分布式计算基础结构和网格计算基础结构。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言、声明或过程性语言，并且所述计算机程序可以用任何形式部署，包括作为独立程序或作为模块、组件、子例程、对象或适用于计算环境中的其它单元。计算机程序可以，但不需要对应于文件系统中的文件。程序可以存储在文件的一部分中，所述文件将其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)保存在专用于所讨论的程序的单个文件中，或多个协调文件(例如，存储一个或多个模块、子程序或代码的一部分的文件)中。计算机程序可以被部署为在一个计算机上或在多个计算机上执行，所述多个计算机位于一个位置处或跨越多个位置分布并且通过通信网络互连。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过在输入数据上操作并且产生输出来执行动作。过程和逻辑流还可以通过专用逻辑电路执行并且设备还可以实施为所述专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适用于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器，以及用于存储指令和数据的一个或多个存储器装置。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置，或可操作地耦合以从所述一个或多个大容量存储装置接收数据或将数据传递到所述一个或多个大容量存储装置，或从所述一个或多个大容量存储装置接收数据且将数据传递到所述一个或多个大容量存储装置，所述一个或多个大容量存储装置例如，磁盘、磁光盘或光盘。然而，计算机不需要具有此类装置。此外，计算机可以嵌入另一装置中，例如，仅举几例，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储装置(例如，通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的装置包括所有形式的非易失性存储器、介质和存储器装置，包括例如，例如EPROM、EEPROM的半导体存储器装置和闪存存储器装置；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于将信息显示给用户的例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示装置，以及用户可以通过其将输入提供到计算机的例如鼠标或轨迹球的键盘和指向装置的计算机上实施。其它种类的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入可以用任何形式接收，包括声音、语音或触觉输入。另外，通过将文档发送到用户使用的装置以及从所述装置接收文档；例如，通过响应于从网络浏览器接收的请求而将网页发送到用户的客户端装置上的网络浏览器，计算机可以与用户交互。

本说明书中描述的主题的实施例可以在计算系统中实施，所述计算系统包括例如作为数据服务器的后端组件，或包括例如应用服务器的中间件组件，或包括例如具有用户可以通过其与本说明书中描述的主题的实施方式交互的图形用户界面或网络浏览器的客户端计算机的前端组件，或一个或多个这种后端、中间件或前端组件的任何组合。系统的组件可以通过例如通信网络的数字数据通信的任何形式或介质互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，因特网)和对等网络(例如，点对点对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行以及彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，服务器将数据(例如，HTML页)传输到客户端装置(例如，出于将数据显示给与客户端装置交互的用户以及从所述用户接收用户输入的目的)。可以从服务器处的客户端装置接收在客户端装置处产生的数据(例如，用户交互的结果)。

尽管本说明书含有许多特定实施方式细节，但是这些细节不应解释为限制任何发明或可以主张的内容的范围，而是对特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各个特征也可以单独地在多个实施例中或在任何合适的子组合中实施。此外，尽管特征可以在上文描述为在某些组合中起作用且甚至初始地如此主张，但是来自所主张组合的一个或多个特征在一些情况下可以从所述组合中删除，并且所主张组合可以引导向子组合或子组合的变体。

类似地，尽管在图中以特定次序描绘操作，但是这不应理解为需要按所示的特定次序或按顺序执行此类操作，或执行所有所说明的操作以实现所需要的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各个系统组件的分离不应理解为在所有实施例中需要此种分离，并且应理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装成多个软件产品。

因此，已描述主题的特定实施例。其它实施例在后续的权利要求书的范围内。在一些情况下，权利要求书中叙述的动作可以按不同次序执行并且仍实现所需要的结果。另外，附图中描绘的过程不一定需要按所示的特定次序或按顺序来实现所需要的结果。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种方法，包括：

由用户装置从捕获的图像中提取文本；

由所述用户装置将所提取的文本划分成多个块；

由所述用户装置并且以第一缩放级，在所述用户装置的用户界面上将所述块呈现为相应的用户可选目标；

检测对所述多个块中的第一块的用户选择；

响应于检测到对所述第一块的所述用户选择，由所述用户装置并且以大于所述第一缩放级的第二缩放级，在所述用户装置的所述用户界面上将所述第一块中的所提取的文本的部分呈现为相应的第二用户可选目标；以及

响应于检测到对所述第一块内的所提取的文本的一部分的用户选择，由所述用户装置基于用户选择文本的内容而发起动作。

2.根据权利要求1所述的方法，其中，发起所述动作包括发起与由所述用户选择文本识别的目标地址的通信。

3.根据权利要求1所述的方法，其中，发起所述动作包括：

基于所述用户选择文本的所述内容而生成搜索查询；以及

由所述用户装置将所述搜索查询发送到搜索引擎。

4.根据权利要求1所述的方法，其中，发起所述动作包括：

基于所述用户选择文本的所述内容而生成两个或更多个候选搜索查询；

将所述候选搜索查询显示在所述用户界面上；以及

响应于对所述候选查询中的一个候选查询的用户选择，由所述用户装置将所选择的候选查询发送到所述搜索引擎。

5.根据权利要求3或4所述的方法，所述方法进一步包括：

由所述用户装置从所述图像中提取场境；

其中，生成所述搜索查询或所述候选搜索查询包括进一步基于所述图像的所提取的场境而生成所述搜索查询或所述候选搜索查询。

6.根据权利要求3或4所述的方法，所述方法进一步包括：

由所述用户装置从所述图像中提取场境；以及

由所述用户装置使用所述图像的所提取的场境来确定所述图像是否落入多个预定类别中的一个预定类别中；

其中，生成所述搜索查询或所述候选搜索查询包括：如果所述图像落入所述预定类别中的一个预定类别中，则进一步基于所提取的场境而生成所述搜索查询或所述候选搜索查询；否则，仅基于所述用户选择文本的所述内容而生成所述搜索查询或所述候选搜索查询。

7.根据前述权利要求中的任一项所述的方法，所述方法进一步包括，在对所述块中的任何块的用户选择之前：

针对至少一个块，由所述用户装置基于该块的所提取的文本而生成一个或多个搜索查询；以及

将所述一个或多个搜索查询从所述用户装置发送到搜索引擎。

8.根据权利要求7所述的方法，其中，在所述用户界面上将所述块呈现为相应的用户可选目标之前，所述用户装置生成所述一个或多个搜索查询并且发送所述一个或多个搜索查询。

9.根据权利要求7或8所述的方法，进一步包括：

基于所述一个或多个搜索查询，在所述用户装置处从所述搜索引擎接收搜索结果内容；以及

将所接收的搜索结果内容存储在所述用户装置的本地存储器中。

10.根据权利要求7、8或9所述的方法，其中，基于所述块的所提取的文本而生成所述一个或多个搜索查询包括：

以第一基于文本的粒度级将所述块的所提取的文本解析成多个第一文本集；以及

生成每个第一文本集的搜索查询。

11.根据权利要求10所述的方法，进一步包括：

响应于检测到对所述块的所述用户选择：

以大于所述第一基于文本的粒度级的第二基于文本的粒度级将所述块的所提取的文本解析成多个第二文本集；以及

在接收到对所述第一块内的所提取的文本的一部分的所述用户选择之前：

生成每个第二文本集的附加搜索查询；

将每个附加搜索查询从所述用户装置发送到所述搜索引擎；

基于所述附加搜索查询，由所述用户装置并且从所述搜索引擎接收附加搜索结果内容；以及

将所述附加搜索结果内容存储在所述用户装置的本地存储器中。

12.根据前述权利要求中的任一项所述的方法，

其中，将所提取的文本划分成所述块至少部分地基于所提取的文本的语义分析。

13.根据权利要求3至11中任一项所述的方法，或当从属于权利要求3至11中任一项时的权利要求12所述的方法，进一步包括将在所述用户装置处从所述搜索引擎接收的内容显示在所述用户界面上。

14.一种利用指令编码的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至13中的任一项所定义的方法。

15.一种处理器，所述处理器被配置成执行如权利要求1至13中的任一项所定义的方法。

16.一种方法，包括：

由用户装置从图像中提取文本；

由所述用户装置将所提取的文本划分成多个块；

由所述用户装置并且以第一缩放级，在所述用户装置的用户界面上将所述多个块呈现为相应的第一用户可选目标；

检测对所述多个块中的第一块的用户选择；

17.根据权利要求16所述的方法，其中，发起所述动作包括发起与由所述用户选择文本识别的目标地址的通信。

18.根据权利要求16所述的方法，其中，发起所述动作包括：

基于所述用户选择文本的所述内容而生成搜索查询；以及

由所述用户装置将所述搜索查询发送到搜索引擎。

19.根据权利要求18所述的方法，进一步包括：

由所述用户装置从所述图像中提取场境；

使用所述图像的所提取的场境来确定所述图像属于多个预定类别中的一个预定类别；以及

响应于确定所述图像属于所述预定类别中的一个预定类别，基于所提取的场境而调整所述搜索查询。

20.根据权利要求19所述的方法，进一步包括由所述用户装置并且从所述搜索引擎，接收基于所述搜索查询选择的搜索结果内容，其中，所述搜索引擎基于所述图像所属于的所述一个预定类别而对所述搜索结果进行排名。

21.根据权利要求18所述的方法，进一步包括：

由所述用户装置从所述图像中提取场境；以及

使用所述图像的所提取的场境来确定所述图像不属于多个预定类别中的一个预定类别；

其中，生成所述搜索查询包括仅基于所述用户选择文本而生成常规搜索查询。

22.根据权利要求16所述的方法，其中，发起所述动作包括：

将所述候选搜索查询显示在所述用户界面上；以及

响应于对所述候选查询中的一个候选查询的用户选择，由所述用户装置将用户所选择的候选查询发送到搜索引擎。

23.根据权利要求16所述的方法，进一步包括在对所述块中的任何块的用户选择之前：

针对所述第一块，由所述用户装置基于所述第一块的所提取的文本而生成一个或多个搜索查询；以及

24.根据权利要求23所述的方法，其中，在所述用户界面上将所述多个块呈现为相应的第一用户可选目标之前，所述用户装置生成所述一个或多个搜索查询并且发送所述一个或多个搜索查询。

25.根据权利要求23所述的方法，进一步包括：

基于所述一个或多个搜索查询而从所述搜索引擎接收搜索结果内容；以及

26.根据权利要求23所述的方法，其中，基于所述第一块的所提取的文本而生成所述一个或多个搜索查询包括：

以第一基于文本的粒度级将所述第一块的所提取的文本解析成多个第一文本集；以及

生成每个第一文本集的搜索查询。

27.根据权利要求26所述的方法，进一步包括：

响应于检测到对所述第一块的所述用户选择：

以大于所述第一基于文本的粒度级的第二基于文本的粒度级将所述第一块的所提取的文本解析成多个第二文本集；以及

生成每个第二文本集的附加搜索查询；

将每个附加搜索查询从所述用户装置发送到所述搜索引擎；

28.根据权利要求16所述的方法，其中，将所提取的文本划分成所述块至少部分地基于所提取的文本的语义分析。

29.根据权利要求16所述的方法，进一步包括将在所述用户装置处从所述搜索引擎接收的内容显示在所述用户界面上。

30.根据权利要求29所述的方法，其中，将在所述用户装置处从所述搜索引擎接收的内容显示在所述用户界面上包括：将所述内容与所述图像的至少一部分一起显示在所述用户装置的视口中。

31.一种系统，包括：

数据处理设备；以及

存储器设备，所述存储器设备与所述数据处理设备进行数据通信并且存储指令，所述指令能够由所述数据处理设备执行并且在此种执行时使所述数据处理设备执行操作，所述操作包括：

从图像中提取文本；

将所提取的文本划分成多个块；

以第一缩放级，在用户界面上将所述多个块呈现为相应的第一用户可选目标；

检测对所述多个块中的第一块的用户选择；

响应于检测到对所述第一块的所述用户选择，以大于所述第一缩放级的第二缩放级，在所述用户界面上将所述第一块中的所提取的文本的部分呈现为相应的第二用户可选目标；以及

响应于检测到对所述第一块内的所提取的文本的一部分的用户选择，基于用户选择文本的内容而发起动作。

32.根据权利要求31所述的系统，其中，发起所述动作包括发起与由所述用户选择文本识别的目标地址的通信。

33.根据权利要求31所述的系统，其中，发起所述动作包括：

基于所述用户选择文本的所述内容而生成搜索查询；以及

将所述搜索查询发送到搜索引擎。

34.根据权利要求33所述的系统，其中，所述操作进一步包括：

从所述图像中提取场境；

35.根据权利要求34所述的系统，其中，所述操作进一步包括从所述搜索引擎接收基于所述搜索查询选择的搜索结果内容，其中，所述搜索引擎基于所述图像所属于的所述一个预定类别而对所述搜索结果进行排名。

36.根据权利要求33所述的系统，其中，所述操作进一步包括：

从所述图像中提取场境；以及

37.根据权利要求31所述的系统，其中，发起所述动作包括：

将所述候选搜索查询显示在所述用户界面上；以及

响应于对所述候选查询中的一个候选查询的用户选择，将用户所选择的候选查询发送到搜索引擎。

38.根据权利要求31所述的系统，其中，所述操作进一步包括在对所述块中的任何块的用户选择之前：

针对所述第一块，基于所述第一块的所提取的文本而生成一个或多个搜索查询；以及

将所述一个或多个搜索查询发送到搜索引擎。

39.根据权利要求38所述的系统，其中，在所述用户界面上将所述多个块呈现为相应的第一用户可选目标之前，所述数据处理设备生成所述一个或多个搜索查询并且发送所述一个或多个搜索查询。

40.根据权利要求38所述的系统，其中，所述操作进一步包括：

将所接收的搜索结果内容存储在所述数据处理设备的本地存储器中。

41.根据权利要求38所述的系统，其中，基于所述第一块的所提取的文本而生成所述一个或多个搜索查询包括：

生成每个第一文本集的搜索查询。

42.根据权利要求41所述的系统，其中，所述操作进一步包括：

响应于检测到对所述第一块的所述用户选择：

生成每个第二文本集的附加搜索查询；

将每个附加搜索查询发送到所述搜索引擎；

基于所述附加搜索查询而从所述搜索引擎接收附加搜索结果内容；以及

将所述附加搜索结果内容存储在所述数据处理设备的本地存储器中。

43.根据权利要求31所述的系统，其中，将所提取的文本划分成所述块至少部分地基于所提取的文本的语义分析。

44.根据权利要求31所述的系统，其中，所述操作进一步包括将从所述搜索引擎接收的内容显示在所述用户界面上。

45.根据权利要求44所述的系统，其中，将从所述搜索引擎接收的内容显示在所述用户界面上包括：将所述内容与所述图像的至少一部分一起显示在所述数据处理设备的视口中。

46.一种具有存储于其上的指令的非暂时性计算机可读存储介质，所述指令在由数据处理设备执行时使所述数据处理设备执行操作，所述操作包括：

从图像中提取文本；

将所提取的文本划分成多个块；

检测对所述多个块中的第一块的用户选择；

47.根据权利要求46所述的非暂时性计算机可读存储介质，其中，发起所述动作包括发起与由所述用户选择文本识别的目标地址的通信。

48.根据权利要求46所述的非暂时性计算机可读存储介质，其中，发起所述动作包括：

基于所述用户选择文本的所述内容而生成搜索查询；以及

将所述搜索查询发送到搜索引擎。

49.根据权利要求48所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括：

从所述图像中提取场境；

50.根据权利要求49所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括从所述搜索引擎接收基于所述搜索查询选择的搜索结果内容，其中，所述搜索引擎基于所述图像所属于的所述一个预定类别而对所述搜索结果进行排名。

51.根据权利要求48所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括：

从所述图像中提取场境；以及

52.根据权利要求46所述的非暂时性计算机可读存储介质，其中，发起所述动作包括：

将所述候选搜索查询显示在所述用户界面上；以及

53.根据权利要求46所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括在对所述块中的任何块的用户选择之前：

将所述一个或多个搜索查询发送到搜索引擎。

54.根据权利要求53所述的非暂时性计算机可读存储介质，其中，在所述用户界面上将所述多个块呈现为相应的第一用户可选目标之前，所述数据处理设备生成所述一个或多个搜索查询并且发送所述一个或多个搜索查询。

55.根据权利要求53所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括：

56.根据权利要求53所述的非暂时性计算机可读存储介质，其中，基于所述第一块的所提取的文本而生成所述一个或多个搜索查询包括：

生成每个第一文本集的搜索查询。

57.根据权利要求56所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括：

响应于检测到对所述第一块的所述用户选择：

生成每个第二文本集的附加搜索查询；

将每个附加搜索查询发送到所述搜索引擎；

58.根据权利要求46所述的非暂时性计算机可读存储介质，其中，将所提取的文本划分成所述块至少部分地基于所提取的文本的语义分析。

59.根据权利要求46所述的非暂时性计算机可读存储介质，其中，所述操作进一步包括将从所述搜索引擎接收的内容显示在所述用户界面上。

60.根据权利要求59所述的非暂时性计算机可读存储介质，其中，将从所述搜索引擎接收的内容显示在所述用户界面上包括：将所述内容与所述图像的至少一部分一起显示在所述数据处理设备的视口中。