CN108628919A

CN108628919A - 情景地消除查询的歧义

Info

Publication number: CN108628919A
Application number: CN201711049727.9A
Authority: CN
Inventors: I.拜德尔; N.格里姆斯莫; G.H.巴基尔; K.阿尼基; A.库马尔; V.库兹涅佐夫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-03-20
Filing date: 2017-10-31
Publication date: 2018-10-09
Also published as: DE202017106609U1; DE102017125474A1; EP3583514A1; GB2560785A; WO2018174849A1; GB201717984D0

Abstract

公开了包含在计算机存储介质上编码的计算机程序的方法、系统和设备，用于情景关联地消除查询的歧义。在一个方面，方法包含接收在计算装置的显示器上呈现的图像和由计算装置的用户所说出的话语的转录，识别包含在图像中的特定子图像，并且基于在特定子图像上进行图像识别来确定一个或多个第一标签，该一个或多个第一标签指示特定子图像的情景。该方法还包含基于在图像的除了特定子图像之外的部分上进行文本识别来确定指示特定子图像的情景的一个或多个第二标签，基于转录、第一标签和第二标签来生成搜索查询，以及提供搜索查询以用于输出。

Description

情景地消除查询的歧义

技术领域

本说明书涉及搜索引擎。

背景技术

通常，在请求执行搜索时，搜索查询包含提交到搜索引擎的一个或多个术语。例如，用户可以通过在键盘上打字、或者在语音查询的实例中通过对着计算装置的麦克风说出查询术语来输入搜索查询的查询术语。可以使用语音识别技术来处理语音查询。

发明内容

在一些实施方式中，可以分析对应于计算装置的显示器的一部分的图像，以辅助查询处理系统回答自然语言查询。例如，用户可以询问关于用户正在计算装置上浏览的照片的问题，诸如“这是什么？”。计算装置可以检测用户的话语并且捕获用户正在浏览的计算装置的相应的图像。计算装置处理话语以生成由计算装置的用户所说出的话语的转录。计算装置将转录和图像发送到服务器。

服务器从计算装置接收转录和图像。服务器可以识别图像中的视觉和文本内容。服务器生成图像的标签，该标签对应于图像的内容，诸如位置、实体、名称、动物类型等。服务器可以识别图像中的特定子图像。特定子图像可以是照片或者图画。在一些方面，服务器识别特定子图像的用户可能主要感兴趣的部分(诸如图像中的古迹)。服务器可以在特定子图像上进行图像识别，以生成特定子图像的标签。服务器还可以通过在图像的除了特定子图像之外的部分上进行文本识别来生成图像中的文本内容的标签(诸如对应于特定子图像的注释)。服务器可以基于接收的转录和生成的标签来生成搜索查询。另外，服务器可以配置为向搜索引擎提供用于输出的搜索查询。

本说明书中描述的主题的一个创新方面以方法实现，该方法包含以下动作：接收在计算装置的显示器的至少一部分上呈现的图像或者对应于计算装置的显示器的至少一部分的图像，以及接收由计算装置的用户所说出的话语的转录或者与由计算装置的用户所说出的话语相对应的转录(通常在呈现图像的同时)，识别包含在图像中的特定子图像，以及基于在特定子图像上进行图像识别来确定一个或多个第一标签，该一个或多个第一标签指示特定子图像的情景。该方法还包含基于在图像的除了特定子图像之外的部分上进行文本识别来确定指示特定子图像的情景一个或多个第二标签，基于转录、第一标签和第二标签来生成搜索查询，以及提供搜索查询用于输出。

这些方法步骤或者如本文所描述的步骤的其他组合可以自动实行并且无需进一步的用户介入，例如响应于计算装置的自动判断方法应该在特定时间实行，或者跟随来自计算装置的用户的特定的按钮按压、所说出的命令或其他指示，来实行这个方法。本文描述的方法因此可以通过减少需要用户的输入，给用户提供更为有效的用户界面，以获得期望的或者令人满意的搜索查询生成。

该方面和其他方面的其他实施方式包含对应的系统、设备和计算机程序，其配置为进行在计算机存储装置上编码的该方法的动作。

实施方式各自可以可选地包含以下特征中的一个或多个。例如，方法可以包含不同于第二标签地加权第一标签。方法还可以包含通过以第一标签或者第二标签中的一个或多个替换转录的术语来生成搜索查询。在一些方面，方法包含为第一标签和第二标签中的每一个生成标签置信度，该标签置信度指示标签与特定子图像的用户主要感兴趣的部分相对应的可能性，以及基于相应的标签置信度来选择第一标签和第二标签中的一个或多个，其中基于所选择的第一标签和第二标签中的一个或多个来生成搜索查询。另外，方法可以包含存取历史查询数据，该历史查询数据包含由其他用户提供的先前搜索查询，基于转录、第一标签和第二标签来生成一个或多个候选搜索查询，将历史查询数据与一个或多个候选搜索查询相比较，以及基于将历史查询数据与一个或多个候选搜索查询相比较来从一个或多个候选搜索查询中选择搜索查询。

方法可以包含基于转录、第一标签和第二标签来生成一个或多个候选搜索查询，为一个或多个候选搜索查询中的每一个确定查询置信度，该查询置信度指示候选搜索查询是转录的准确重写的可能性，以及基于查询置信度来选择特定候选搜索查询作为搜索查询。此外，方法可以包含识别包含在图像中的一个或多个图像，为包含在图像中的一个或多个图像中的每一个生成图像置信度，该图像置信度指示图像是用户主要感兴趣的图像的可能性，以及基于一个或多个图像的图像置信度来选择特定的子图像。方法可以包含接收数据，该数据指示在计算装置处的控制事件的选择，其中控制事件识别特定子图像。在一些方面，计算装置配置为响应于检测到预定的热词来捕获图像并捕获对应于话语的音频数据。

另外，方法可以包含接收计算装置的附加图像和由计算装置的用户所说出的附加话语的附加转录，识别包含在附加图像中的附加特定子图像，基于在附加特定子图像上进行图像识别来确定一个或多个附加第一标签，该一个或多个附加第一标签指示附加特定子图像的情景，基于在附加图像的除了附加特定子图像之外的部分上进行文本识别来确定一个或多个附加第二标签，该一个或多个附加第二标签指示附加特定子图像的情景，基于附加转录、附加第一标签和附加第二标签来生成命令，以及执行命令。在该实例中，执行命令可以包含在存储器中对附加图像进行存储，在存储器中存储特定子图像，将附加图像上传到服务器，将特定子图像上传到服务器，将附加图像导入计算装置的应用，以及将特定子图像导入到计算装置的应用。在某些方面，方法可以包含识别与特定子图像相关联的元数据，其中确定指示特定子图像的情景的一个或多个第一标签还基于与特定子图像相关联的元数据。

有利的实施方式可以包含以下特征中的一个或多个。方法可以确定对应于计算装置的显示器的一部分的图像的情景，以辅助自然语言查询的处理。可以通过图像和/或文本识别来确定图像的情景。具体而言，图像的情景可以用于重写用户的话语的转录。方法可以生成涉及图像的情景的标签，以及用标签替换转录的部分。例如，用户可以在计算装置上浏览照片并且询问“这是在哪儿拍摄的？”。方法可以确定用户是指计算装置的屏幕上的照片。方法可以提取关于照片的信息，以确定照片的情景以及图像的不包含照片的其他部分的情景。在该实例中，情景信息可以用于确定拍摄照片的位置。因此，方法可以使用对应于计算装置的显示器的图像，以辅助搜索查询的生成。

在一些方面中，方法可以识别图像中的特定子图像，该特定子图像是用户的主要焦点。方法可以生成对应于特定子图像的标签，并且不同于其他标签地加权对应于特定子图像的标签，使得可以更有效地确定图像的情景。方法可以基于特定子图像在图像中的显著性、特定子图像标签在历史搜索查询中出现的频率、特定子图像标签在最近搜索查询中出现的频率等来加权标签。因此，方法可以识别图像中用户感兴趣的主要点，以作为整体确定图像的情景。

在附图和以下描述中阐述发明的一个或多个实施例的细节。通过描述、附图和权利要求书，本发明的其他特征和优点将变得显而易见。

附图说明

图1是用于情景地消除查询的歧义的示例环境的图。

图2是用于情景地消除查询的歧义的示例系统的图。

图3是图示了用于情景地消除查询的歧义示例过程的流程图。

图4是图示了使用置信度来选择特定子图像的示例过程的流程图。

图5是图示了使用所选择的标签来生成搜索查询的示例过程的流程图。

图6是示例计算装置和示例移动计算装置的图。

在各附图中的相同的附图标记和标号表示相同的元件。

具体实施方式

图1是用于情景地消除查询的歧义示例环境100的图。环境100包含用户102和计算装置104。在环境100中，用户102向计算装置104提供话语103(诸如查询)。用户102可以询问关于在计算装置104的图形显示上所显示的一个或多个对象的问题。例如，话语103可以包含诸如“这是什么？”的查询。在该实例中，用户102可以是在提及计算装置104的图形显示上所显示的对象(诸如图像、文本、视频或者其任何组合)。计算装置104可以包含一个或多个计算装置，诸如笔记本电脑、台式机、智能电话、平板电脑或者已知的任何其他计算装置。

用户102的话语103可以是情景模糊的。在该实例中，话语103可能无法通过名称直接引用在计算装置102处显示的内容。然而，可以确定显示的对象的情景，并且可以结合使用情景和对应于话语103的转录以消除查询的歧义。

计算装置104可以配置为，当接收用户102的话语103时，捕获在计算装置104的显示器上呈现的图像106。例如，计算装置104可以捕获显示器的一部分，该部分包含照片108和对应于照片的评论116，但是不会包含标志图标120(诸如正在运行的计算装置的应用标题)。在一些示例中，图像106对应于计算装置104的截屏。替代地或者附加地，计算装置104可以在检测到话语103时持续地捕获显示的内容并且发送特定子图像。另外，可以在检测到话语103中的预定的热词时捕获图像106。计算装置104可以转录话语103。在一些实施方式中，计算装置104可以将对应于话语103的音频数据发送到语音识别引擎，并且从语音识别引擎接收话语103的转录。

可以通过网络将对应于话语103的转录和图像106发送到服务器，以进行处理(例如，话语的消除歧义)。服务器可以配置为通过分析图像106来确定图像106的情景。服务器可以通过识别和分析图像或者图像中的照片来确定图像106的情景。例如，可以分析照片108以识别照片108包含照片108中的一个或多个实体。参考图1的示例环境100，可以由服务器识别照片108，并且然后分析照片108以确定照片108包含实体(诸如埃菲尔铁塔110和埃菲尔铁塔110前的狗112)。

在一些示例中，服务器在特定子图像108中进行图像识别。进行图像识别以确定一个或多个第一标签，该一个或多个第一标签指示特定子图像的情景。例如，服务器可以在照片108上进行图像识别，并且确定对应于照片108的第一标签(诸如埃菲尔铁塔、法国、巴黎和狗)。图像识别可以包含确定照片108中的焦点中的实体、照片108的前景和背景中的实体、照片108中的实体的相对大小等。在一些示例中，服务器可以识别与特定子图像或者图1中的照片108相关联的元数据。服务器可以使用元数据以确定对应于特定子图像的第一标签。

附加地，服务器可以在图像106上进行文本识别。服务器可以在图像的除了照片108之外的部分上进行文本识别。图像106的部分可以包含照片108的标题114和/或涉及照片108的评论116。例如，图1的图像106包含标题114，其指示照片108拍摄的位置(诸如巴黎，法国)。图像106还包含涉及照片108的评论，诸如“戴夫好酷啊，法国是我的最爱”、“莎拉～不知道你有一只金色的，我也有一只！”和“阿比我刚在巴黎，你什么时候在那里？”。

图像106的标题114和评论116可以是经由文本识别由服务器来处理。通过进行文本识别，服务器可以确定一个或多个第二标签，该一个或多个第二标签进一步指示特定子图像的情景。例如，服务器可以在标题114上进行文本识别，以验证特定子图像的位置是巴黎，法国。另外，服务器可以在评论116上进行文本识别以验证特定子图像的位置是巴黎，法国(例如，通过在短语“我刚在巴黎。”上进行文本识别)。附加地，服务器可以在评论116上进行文本识别(例如，通过在短语“不知道你有一只金色的……”上进行文本识别)以确定照片108中的狗112是金色的猎犬。因此，服务器可以生成一个或多个第二标签(诸如巴黎、法国和金色的猎犬)。

服务器可以配置为基于接收的转录、第一标签和第二标签来生成搜索查询。服务器可以在没有进一步的用户介入的情况下自动地生成搜索查询。例如，响应于由计算装置104自动确定方法应该在特定时间实行，跟随话语之前的特定按钮按压、跟随包含在话语中的所说出的命令/热词、或者来自装置104的用户102的任何其他指示，该方法将在服务器接收转录和图像之前实行。

可以通过重写转录来生成搜索查询。在一些方面中，可以通过把第一标签和/或第二标签中的一个或多个替换成转录来重写转录。例如，转录可以包含“这是什么？”。在该实例中，短语“埃菲尔铁塔”可以替换转录中的术语“这”。因此，可以将搜索查询重写为包含以下的“什么是埃菲尔铁塔？”

在一些方面中，服务器配置为生成第一标签和第二标签中的每一个的标签置信度。在该实例中，标签置信度可以指示每个标签对应于特定子图像的用户102主要感兴趣的部分的相对可能性。例如，第一标签可以包含具有0.8的置信度的“埃菲尔铁塔”，并且第二标签可以包含具有0.5的置信度的“金色的猎犬”。在该实例中，置信度可以基于更大的、相应的标签置信度来指示第一标签对应于用户102可能更主要感兴趣的实体。

可以基于置信度来选择标签以生成搜索查询。例如，可以选择具有最高置信度的若干数量的标签，以与转录结合生成搜索查询。在另一示例中，满足特定标签置信度阈值的所有标签可以与转录结合使用，以生成搜索查询。在另一示例中，服务器可以基于在最近的搜索查询中出现标签的频率、在所有历史搜索查询中出现标签的频率等来生成标签置信度。

服务器可以配置为存取历史搜索查询数据。历史查询数据可以包含由用户102和/或其他用户提供的若干先前的搜索查询。服务器可以基于转录、第一标签和第二标签来生成一个或多个候选搜索查询，并且将历史查询数据与候选搜索查询相比较。基于将历史查询数据与一个或多个候选搜索查询相比较，服务器可以选择特定的候选搜索查询作为搜索查询。例如，基于在最近的搜索查询(诸如由用户输入的查询)中出现候选搜索查询的频率和/或在历史搜索查询(诸如由所有用户输入到搜索引擎中的查询)中出现候选搜索查询的频率之间的比较，服务器可以选择特定候选搜索查询。

服务器可以配置为提供生成的搜索查询以用于输出。例如，服务器可以配置为向搜索引擎提供生成的搜索查询。在另一个示例中，服务器可以生成搜索查询并且将搜索查询发送到计算装置102。在该实例中，可以由计算装置104在听觉上或者视觉上将搜索查询提供给用户102，以验证服务器已经准确地重写查询。

服务器还可以配置为将用于输出的生成的搜索查询和/或搜索结果提供给计算装置104。在该实例中，计算装置104可以配置为接收搜索查询并且提供搜索结果，该搜索结果对应于用于输出122(诸如“你在看埃菲尔铁塔的照片”)的搜索查询。

图2是用于情景地消除查询的歧义的示例系统200的图。系统200包含用户102、计算装置104、服务器206、图像识别引擎208和文本识别引擎210。计算装置104通过一个或多个网络与服务器206通信。计算装置104可以包含麦克风或者其他检测机构，用于检测用户102的话语。

在示例中，用户102将话语提供给计算装置104。可以由计算装置102检测和转录话语。因此，计算装置104可以生成对应于用户102的话语的转录204。计算装置104还可以配置为捕获计算装置104的图形显示的图像202。在检测用户102的话语时或者在转录话语时，计算装置104可以捕获图像202。附加地或替代地，计算装置104可以配置为持续地捕获计算装置104的显示内容。在该实例中，在检测到话语时，转录204可以与特定子图像一起发送到服务器206。

在另一个示例中，计算装置104可以配置为将用户102的话语发送到服务器206。例如，计算装置104可以配置为检测话语中的预定的热词，并且在检测到热词时，将话语发送到服务器206。在该实例中，服务器206配置为生成对应于话语的转录。

在事件(A)，服务器206从计算装置104接收转录204和图像202。计算装置104可以将转录204和图像202自动地发送到服务器206。计算装置104也可以在用户输入时发送转录204和图像202。例如，用户可以在计算装置104的图形显示处提供话语以及触摸输入，指示用户请求对应于话语的转录以及将被发送到服务器206的图像。

在事件(B)，服务器206识别图像202的特定子图像207并且将特定子图像207发送到图像识别引擎208。在一些方面，服务器206通过网络与图像识别引擎208通信。在其他方面，服务器206和图像识别引擎208集成到单一系统中。

在一些示例中，图像202可以包含多个图像。服务器206可以分析多个图像以确定用户102可能感兴趣的特定子图像207。附加地，服务器206可以接收用户输入，其指示在图像202中的图像的用户102主要感兴趣的特定子图像207。服务器206可以生成图像202中的多个图像中的每一个的图像置信度。图像置信度可以指示图像是用户102主要感兴趣的图像的相对可能性。服务器206可以基于生成的置信度来确定特定子图像207或者用户102主要感兴趣的图像。例如，服务器206可以识别计算装置104的显示器包含第一部分和第二部分。第一部分可以包含照片，并且第二部分可以包含标志图像，该标志图像对应于计算装置正在使用的应用的标题。服务器可以配置为生成第一部分的0.9的置信度和第二部分的0.3的置信度。在该实例中，服务器206基于生成的置信度来确定第一部分最可能是用户102主要感兴趣的。

服务器可以配置为基于接收指示控制事件的选择的数据来确定特定子图像207。控制事件可以对应于用户102在计算装置104处提供输入。具体而言，控制事件可以对应于用户102与计算装置104的显示器交互。例如，用户102可以与显示器的对应于特定子图像207的部分交互。服务器206可以接收数据，该数据指示用户102与显示器对应于特定子图像207的部分交互，并且因此可以确定显示器的该部分对应于特定子图像207。

在事件(C)，图像识别引擎208在特定子图像207上进行图像识别。图像识别引擎208进行图像识别以生成特定子图像207的标签209，该标签指示特定子图像的情景。标签209可以对应于特定子图像207中的实体，诸如树或者狗。标签209也可以对应于包含特定位置或者地标的实体(诸如埃菲尔铁塔)。标签209可以单独或结合使用，以确定特定子图像207的情景。

图像识别引擎208可以配置为确定特定子图像207的用户102主要感兴趣的部分。例如，图像识别引擎208可以分析特定子图像207，以确定特定子图像207包含诸如埃菲尔铁塔和狗的实体。图像识别引擎208可以分析特定子图像207中的实体，并且确定埃菲尔铁塔在尺寸上比狗大。基于确定埃菲尔铁塔在尺寸上比狗成比例地更大，图像识别引擎208可以确定埃菲尔铁塔110很可能是用户102主要感兴趣的。附加地或替代地，图像识别引擎208可以配置为分析特定子图像207的其他方面，诸如前景对背景、特定子图像207的焦点中的实体等。例如，图像识别引擎208可以确定埃菲尔铁塔在特定子图像207中的焦点中以及确定狗在焦点外。因此，图像识别引擎208可以确定埃菲尔铁塔很可能是用户102主要感兴趣的。

在事件(D)，服务器206识别图像202的不包含特定子图像的一个或多个部分211。一个或多个部分211被发送到文本识别引擎210。在一些方面，服务器206通过网络与文本识别引擎210通信。在其他方面，服务器206和文本识别引擎210集成到单一系统中。另外，服务器206、图像识别引擎208和文本识别引擎210可以集成到单一系统中。在一些示例中，一个或多个部分211可以包含：包含在图像202中的标题、包含在图像202中的评论或者在图像202中的不包含特定子图像207的其他内容。

在事件(E)，服务器210在图像202的不包含特定子图像207的一个或多个部分211上进行文本识别。文本识别引擎210进行文本识别以生成一个或多个部分211的标签212，该标签指示特定子图像207的情景。例如，部分211可以包含评论，诸如“戴夫好酷啊，法国是我的最爱。”、“莎拉～不知道你有一只金色的，我也有一只！”和“阿比我刚在巴黎，你什么时候在那里？”标签212可以直接对应于一个或多个部分211中的文本。在该实例中，标签212可以包含诸如“法国”或者“巴黎”的术语。标签212可以从一个或多个部分211中的文本推断。在该实例中，可以将标签212推断为包含短语“金色的猎犬”。标签212可以单独或结合使用，以确定特定子图像207的情景。

通过进行文本识别，文本识别引擎210可以确定一个或多个标签212，该一个或多个标签进一步指示特定子图像207的情景。例如，文本识别引擎210可以在评论116上进行文本识别以验证特定子图像207的位置是巴黎，法国(例如，通过在短语“我刚在巴黎。”上进行文本识别)。附加地，文本识别引擎210可以在评论上进行文本识别以确定在特定子图像207中的狗是金色的猎犬(例如，通过在短语“不知道你有一只金色的……”上进行文本识别)。因此，文本识别引擎210可以生成一个或多个标签212，诸如巴黎、法国和金色的猎犬。

在事件(F)，服务器206使用转录204、来自图像识别引擎208的标签209、以及来自文本识别引擎210的标签212来生成搜索查询213。服务器206可以在进一步的用户介入的情况下自动地生成搜索查询213。例如，响应于由计算装置104自动确定方法应该在特定时间实行，跟随话语之前的特定按钮按压、跟随包含在话语中的所说出的命令/热词、或者来自计算装置104的用户102的任何其他指示，该方法将在服务器206接收转录204和图像202之前实行。

服务器206可以重写转录204作为搜索查询213。服务器206可以将图像识别引擎209和文本识别引擎212的标签的子集替换为转录204，以生成搜索查询213。例如，服务器206可以将“埃菲尔铁塔”的标签替换为转录204，使得生成的搜索查询213包含“埃菲尔铁塔是什么？”。

另外，在事件(F)中，服务器206提供生成的搜索查询213用于输出。例如，服务器206可以将搜索查询213提供给搜索引擎。服务器206可以从搜索引擎接收搜索结果，并且通过网络将搜索结果提供给计算装置104。在一些方面，计算装置104可以接收搜索结果，并且以音频或者视觉输出的形式提供搜索结果。例如，服务器206可以生成搜索查询213“埃菲尔铁塔是什么？”，并且将生成的搜索查询213提供给计算装置104。在该实例中，计算装置104可以配置为在将搜索查询213输入到搜索引擎之前，将生成的搜索查询213听觉地输出给用户102用于验证。

在一些示例中，根据标签209和212的生成的加权，服务器206生成搜索查询213。在该实例中，服务器206可以生成图像标签209的第一加权，该第一加权不同于文本标签212的第二加权。例如，服务器206可以确定：图像标签209比文本标签212更与转录204相关。因此，服务器206可以通过比文本标签212更多地加权图像标签209，来更加强调图像标签209。

服务器206可以配置为接收计算装置104的附加图像和由计算装置104的用户所说出的附加话语的附加转录。服务器206可以识别包含在附加图像中的附加特定子图像，并且将附加特定子图像发送到图像识别引擎208，以在附加特定子图像上进行图像识别。图像识别引擎208可以配置为生成附加特定子图像的一个或多个附加第一标签，该一个或多个附加第一标签指示附加特定子图像的情景。同样地，服务器可以配置为将附加图像的不包含附加特定子图像的部分发送到文本识别引擎210，以基于在附加图像的除了附加特定子图像之外的部分上进行文本识别来生成一个或多个附加第二标签。

服务器206可以使用附加转录、附加第一标签和附加第二标签，以生成命令或动作。命令可以由服务器206自动进行、提供给计算装置104等。在一些示例中，命令可以包含一个或多个动作，诸如在存储器中存储附加图像、在存储器中存储附加特定子图像、将附加图像上传到服务器206、将附加特定子图像上传到服务器206、将附加图像导入计算装置104的应用、以及将特定子图像导入计算装置104的应用。例如，用户102可以在计算装置104的显示器上浏览笔记中的视觉和文本内容。使用接收的转录和生成的标签，服务器206可以配置为捕获图像的在笔记应用中的部分，并且将图像的部分上传到云以进行存储。

在某些方面，服务器206将搜索查询213提供给计算装置104。在该实例中，计算装置104可以在将搜索查询213作为输入提供给搜索引擎之前，提供搜索查询213用于用户102的验证。因此，可以由用户102接受、修改或者拒绝搜索查询213。例如，响应于在计算装置104处接收搜索查询213，用户102可以提供用户输入，该用户输入指示将搜索查询213提供给搜索引擎。在另一个示例中，用户102可以提供用户输入，该用户输入指示搜索查询213将在被提供给搜索引擎前被修改。因此，用户可以直接修改搜索查询213，或者从服务器206请求另一个搜索查询。在另一个示例中，用户102可以提供用户输入，该用户输入指示搜索查询213被拒绝。因此，用户102可以从服务器206请求另一个搜索查询，或者提供将在另一个搜索查询的生成中使用的另一个话语。

图3是图示了用于情景地消除查询的歧义的示例过程300的流程图。可以由一个或多个服务器或者其他计算装置来进行过程300。例如，过程300的操作可以由图2的服务器206进行。过程300的操作也可以实现为存储在非暂时性计算机可读介质上的指令，并且当该指令由一个或多个服务器(或者其他计算装置)执行时，使得一个或多个服务器进行过程300的操作。

在步骤310处，服务器接收图像和话语的转录。图像可以对应于与服务器通信的计算装置的图形显示。例如，计算装置可以在接收话语时捕获图像。在一些方面，当计算装置处于照相机模式时，图像可以对应于计算装置的图形显示。因此，图像可以对应于计算装置所捕获的照片、或者由与计算装置通信的照相机所浏览的照片。另外，图像可以对应于由计算装置的照相机所捕获的视频、或者在计算装置的显示器处所显示的视频。附加地或者替代地，计算装置可以发送在接收话语的同时所捕获的背景噪声。在该实例中，服务器可以使用背景噪声以生成附加标签和/或对生成的标签评分。

转录可以对应于由计算装置接收的话语。在一些方面，基于接收的话语，由计算装置生成转录。在其他方面，转录对应于由计算装置接收的用户输入。例如，用户可以经由计算装置的键盘或者用户界面来输入问题。计算装置可以基于输入来生成转录，并且将转录提供给服务器。

在步骤320处，服务器识别包含在图像中的特定子图像。服务器配置为从图像中的一个或多个图像之中识别出特定子图像。特定子图像可以是用户很可能主要关注或感兴趣的图像。例如，图像可以包含照片以及多个其他图形图标。服务器可以配置为分析图像，以便确定照片是用户主要感兴趣的，而显示器中的其他图形图标不是用户主要感兴趣的。

在步骤330处，服务器基于特定子图像的图像识别来确定一个或多个第一标签。服务器可以在图像中的特定子图像上进行图像识别，以识别特定子图像中的一个或多个实体，并且生成一个或多个实体的相应的标签。一个或多个实体中的每一个可以对应于一个或多个相应的第一标签。可以使用与特定子图像相关联的元数据来部分确定第一标签。第一标签可以指示特定子图像的情景。在某些方面，服务器配置为在整个图像上进行图像识别。在该实例中，可以为图像中的由图像识别所识别的所有实体生成第一标签。

在步骤340处，服务器基于图像的除了特定子图像之外的部分上的文本识别来确定一个或多个第二标签。服务器可以在图像的除了特定子图像之外的部分上进行文本识别，以识别图像中的文本内容，从而在指示内容的情景的标签的生成中使用。可以使用一个或多个第二标签来标记文本内容，该一个或多个第二标签指示特定内容的情景。

可以使用与该部分相关联的元数据来部分地确定第二标签。例如，服务器可以配置为存取和捕获代码，该代码与在计算装置的显示器上所显示的内容相关。在该实例中，服务器可以存取标识代码并且捕获标识代码，以分析可以在第二标签的生成中使用的元数据。在一些方面，服务器配置为在整个图像上进行文本识别。在该实例中，可以为图像中的由文本识别所识别的所有文本内容生成第二标签。

在步骤350处，服务器基于转录、第一标签和第二标签来生成搜索查询。具体而言，服务器配置为基于转录和标签来生成搜索查询。在一些示例中，服务器配置为基于转录和标签来生成多个候选搜索查询。可以基于历史查询数据来排名候选搜索查询。因此，可以选择排名最高的候选搜索查询作为搜索查询。

在步骤360处，服务器提供搜索查询用于输出。所选择的搜索查询可以直接提供给搜索引擎。在该实例中，服务器也可以配置为从搜索引擎接收一个或多个搜索结果，并且提供搜索结果用于输出。例如，服务器可以将搜索查询提供给搜索引擎，选择特定搜索结果，并且将搜索结果提供给计算装置用于听觉或者视觉的输出。

在其他方面，可以将搜索查询提供给计算装置。计算装置可以提供搜索查询用于听觉或者视觉的输出。在该实例中，可以在将搜索查询作为输入提供给搜索引擎之前，由用户验证搜索查询。

图4是图示了使用置信度来选择特定子图像示例过程400的流程图。可以由一个或多个服务器或者其他计算装置来进行过程400。例如，过程400的操作可以由图2的服务器206进行。过程400的操作也可以实现为存储在非暂时性计算机可读介质上的指令，并且当指令由一个或多个服务器(或者其他计算装置)执行时，使得一个或多个服务器进行过程400的操作。

在步骤410处，服务器识别包含在图像中的多个图像。在某些方面，服务器从计算装置接收图像，并且识别图像中的多个图像。服务器可以配置为在图像上进行图像识别，以识别多个图像。图像可以包含照片、图标、图画、图片等。图像可以在尺寸、形状和种类上变化。在一些方面，图像对应于视频的静态帧。例如，图像可以是网页，该网页包含多个图像和在背景中播放的视频。图像可以对应于在网页上播放的视频的单个捕获的帧。

在步骤420处，服务器为识别的图像中的每一个生成置信度。置信度可以各自指示可能性，该可能性为：图像是正在浏览图像的用户所主要感兴趣的图像的可能性。可以基于图像的各种特征来确定置信度。例如，相比图像中小的图像，服务器可以为大的图像生成更大的置信度。在另一示例中，服务器可以为在图像中具有大量可识别的实体(诸如地标、人物或者动物)的图像生成更大的置信度，并且反之亦然。

在步骤430处，服务器基于置信度来选择特定子图像。服务器可以配置为基于最高置信度来选择特定子图像。因此，可以比较图像的置信度，以确定哪个图像与最大置信度相关联。在一些示例中，服务器选择多个图像。在该实例中，服务器可以配置为：如果所选择的图像中的每一个都满足预定的图像置信度阈值，则选择图像。当图像中的多个图像包含相似实体或者对象时，可以是这种情况。例如，图像中的两个图像可以包含埃菲尔铁塔，并且第三图像可以不包含埃菲尔铁塔。因此，由于在两个图像中的每一个中的相似内容，可以选择包含埃菲尔铁塔的两个相应的图像作为特定子图像。

图5是图示了使用所选择的标签来生成搜索查询示例过程500的流程图。可以由一个或多个服务器或者其他计算装置来进行过程500。例如，过程500的操作可以由图2的服务器206进行。过程500的操作也可以实现为存储在非暂时性计算机可读介质上的指令，并且当该指令由一个或多个服务器(或者其他计算装置)执行时，使得一个或多个服务器进行过程500的操作。

在步骤510处，服务器为第一标签和第二标签中的每一个生成置信度。第一标签可以对应于在图像中识别的特定子图像，并且第二标签可以对应于图像的除了特定子图像之外的部分。例如，特定子图像可以是图像中的埃菲尔铁塔的照片，并且图像的除了特定子图像之外的部分可以包含关于照片的评论。第一标签和第二标签的置信度各自指示相应的标签对应于特定子图像的用户主要感兴趣的部分的可能性。

在步骤520处，服务器基于置信度选择第一标签和第二标签中的一个或多个。例如，服务器可以选择具有最大置信度的单个标签。在另一个示例中，服务器配置为选择具有满足预定的置信度阈值的置信度的标签。在另一个示例中，服务器配置为选择预定数量的具有最大置信度的标签。

在步骤530处，服务器使用接收的转录、所选择的第一标签和所选择的第二标签来生成搜索查询。服务器可以配置为提供生成的搜索查询以用于输出。例如，服务器可以配置为提供生成的搜索查询到搜索引擎。在另一个示例中，服务器可以生成搜索查询并且将搜索查询发送到计算装置。在该实例中，可以由计算装置将搜索查询在听觉上或者视觉上提供给计算装置。

图6是示例计算装置600和示例移动计算装置650的图，其可以使用本文所描述的技术。计算装置600旨在表现数字计算机的各种形式，诸如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他合适的计算机。移动计算装置650旨在表现移动装置的各种形式，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅为示例性的，并不意味着限制本文中描述和/或要求保护的发明的实现。

计算装置600包含处理器602、存储器604、存储装置606、连接到存储器604和高速扩展端口610的高速接口608、以及连接到低速总线614和存储装置606的低速接口612。部件602、604、606、608、610和612中的每一个使用各种总线互连，并且可以适当地安装在公共的主板上或以其他方式安装。处理器602可以处理用于在计算装置600内执行的指令，该指令包含存储在存储器604中或在存储装置606上的指令，以在外部输入/输出装置(诸如联接到高速接口608的显示器616)上显示GUI的图形信息。在其他实施方式中，可以连同多个存储器和多种存储器一起，适当地使用多个处理器和/或多个总线。另外，在每个装置提供必要操作的部分(例如，作为服务器组、刀片式服务器的组、或者多处理器系统)的情况下，可以连接多个计算装置600。

存储器604在计算装置600内存储信息。在一个实施方式中，存储器604是(多个)易失性存储器单元。在另一个实施方式中，存储器604是(多个)非易失性存储器单元。存储器604还可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储装置606能够为计算装置600提供大量存储。在一个实施方式中，存储装置606可以是或者含有计算机可读介质(诸如软盘装置、硬盘装置、光盘装置或者磁带装置、闪存存储器、或者其他类似的固态存储装置、或者装置阵列)，其包含存储区域网络中的装置或者其他配置。计算机程序产品可以有形地实施在信息载体中。计算机程序产品也可以含有指令，当执行该指令时进行一个或多个方法(诸如如上所述的这些方法)。信息载体是计算机或者机器可读介质，诸如存储器604、存储装置606、或者处理器602上的存储器。

高速控制器608管理计算装置600的带宽密集的操作，而低速控制器612管理较低带宽密集的操作。操作的此类分配仅是示例性的。在一个实施方式中，高速控制器608联接到存储器604、显示器616(例如，通过图形处理器或者加速器)和可以接受各种扩展卡(未示出)的高速扩展端口610。在实施方式中，低速控制器612耦合到存储装置606和低速扩展端口614。低速扩展端口(其可以包含各种通信端口，例如，USB、蓝牙、以太网、无线以太网)可以例如通过网络适配器联接到一个或多个输入/输出装置，诸如键盘、指点装置、扫描仪或者诸如交换机或路由器的网络装置。

如图所示，可以采用若干不同形式来实现计算装置600。例如，其可以实现为标准服务器620，或者成倍的一组此类服务器。其还可以实现为机架服务器系统624的部分。此外，其可以在诸如笔记本电脑622的个人计算机中实现。替代地，来自计算装置600的部件可以与诸如移动计算装置650的移动装置(未示出)中的其他部件结合。此类装置中的每一个可以含有计算装置600、650中的一个或多个，并且整个系统可以由彼此通信的多个计算装置600、650组成。

移动计算装置650包含处理器652、存储器664、诸如显示器654的输入/输出装置、通信接口666和收发器668、以及其他部件。移动计算装置650还可以设置有存储装置(诸如微驱动器或者其他装置)，以提供额外的存储。部件650、652、664、654、666和668中的每一个使用各种总线互连，并且可以在公共的主板上或以其他方式安装适当地安装数个部件。

处理器652可以执行移动计算装置650内的指令，包含存储在存储器664中的指令。处理器可以实现为芯片的芯片组，该芯片包含分别的、多个模拟和数字处理器。例如，处理器可以提供移动计算装置650的其他部件(诸如用户界面的控制、由装置650运行的应用、以及通过装置650的无线通信)的协调。

处理器652可以通过联接到显示器654的控制接口658和显示接口656与用户通信。显示器654可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器，或者其他适当的显示技术。显示接口656可以包括用于驱动显示器654的适当的电路，以向用户呈现图形和其他信息。控制接口658可以从用户接收命令，并且将其转换，用于提交给处理器652。此外，可以提供外部接口662与处理器652进行通信，以便使移动计算装置650可以与其他装置进行近区域通信。外部接口662可以例如在一些实施方式中提供有线通信，或者在其他实施方式中提供无线通信，并且还可以使用多个接口。

存储器664在移动计算装置650内存储信息。存储器664可以实现为(多个)计算机可读介质、(多个)易失性存储器单元、或者(多个)非易失性存储器单元中的一个或多个。扩展存储器654也可以通过扩展接口652来提供并连接到装置650，扩展接口可以包含例如SIMM(单列直插式存储器模块)卡接口。此类扩展存储器654可以为装置650提供额外的存储空间，或者还可以存储用于装置650的应用或者其他信息。具体而言，扩展存储器654可以包含待实行的或者补充上述过程的指令，并且也可以包含安全信息。因此，例如，可以提供扩展存储器654作为装置650的安全模块，并且可以采用指令来编程，该指令许可装置650的安全使用。此外，可以经由SIMM卡提供安全应用连同附加信息，诸如以不易破解的方式将识别信息放置在SIMM卡上。

存储器可以包含例如闪存存储器和/或NVRAM存储器，如下所述。在一个实施方式中，计算机程序产品有形地实施在信息载体中。计算机程序产品含有指令，当执行该指令时进行一个或多个方法(诸如如上所述的这些方法)。信息载体是计算机或者机器可读介质，诸如存储器664、扩展存储器654、处理器652上的存储器、或者传播信号，该传播信号可以例如通过收发器668或外部接口662接收。

装置650可以通过通信接口666进行无线通信，通信接口666可以在必要时包含数字信号处理电路。通信接口666可以提供在各种模式或协议(诸如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等)下的通信。此类通信可以例如通过射频收发器668发生。此外，可以发生短距离通信，诸如使用蓝牙、Wi-Fi或其他此类收发器(未示出)。此外，GPS(全球定位系统)接收器模块650可以向装置650提供附加的导航和位置相关的无线数据，其可以由在装置650上运行的应用适当地使用。

可以使用音频编解码器660来与装置650在听觉上通信，音频编解码器660可以接收由用户所说出的信息并且将其转换为可用的数字信息。音频编解码器660同样可以为用户生成可听见的声音，诸如通过例如在装置650的手持听筒中的扬声器。此类声音可以包含来自语音电话呼叫的声音，可以包含记录的声音(例如，语音消息、音乐文件等)，并且还可以包含在装置650上操作的应用所生成的声音。

如图所示，可以采用若干不同形式来实现计算装置650。例如，其可以实现为蜂窝电话680。其还可以实现为智能电话682、个人数字助理或其他类似的移动装置的部分。

若干实施方式已被描述。然而，应当理解的是，可以在不脱离本公开的精神和范围的情况下做出各种修改。例如，通过重新排序、添加或移除步骤，可以使用如上所示的各种形式的流程。

本发明的实施例和本说明书中描述的所有功能操作可以在数字电子电路中或者在计算机软件、固件或硬件(包含在本说明书中公开的结构以及其结构的等同，或者其一个或多个的组合)中实现。本发明的实施例可以实现为一个或多个计算机程序产品，例如在计算机可读介质上编码的计算机程序指令的一个或多个模块，以由数据处理设备执行或者用于控制数据处理设备的操作。该计算机可读介质可以是机器可读存储装置、机器可读存储基板、存储器装置、影响机器可读传播信号的组成物、或其一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有设备、装置和机器，包含例如可编程处理器、计算机或多个处理器或计算机。除了硬件以外，该设备可以包含代码，该代码创建用于所涉及的计算机程序的执行环境，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或其一个或多个的组合的代码。传播信号是人工生成的信号，例如机器生成的电学、光学或电磁学的信号，生成该信号用于编码信息，以向适当的接收器设备发送该信息。

可以以任何形式的编程语言(包含编译或解释的语言)写入计算机程序(也称为程序、软件、软件应用、脚本或代码)，并且其可以以任何形式(包含作为独立的程序或作为模块、部件、子例程或适于在计算环境中使用的其他单元)来部署2。计算机程序不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如，在标记语言文档中存储的一个或多个脚本)、在专用于所涉及的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机或者在多个计算机上执行，该多个计算机位于一个站点或者分布在多个站点上，并且由通信网络互连。

可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本说明书中所描述的过程和逻辑流，以通过在输入数据上进行操作并且生成输出来进行功能。也可以由专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))进行过程和逻辑流，并且设备可以实现为专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))。

适合于计算机程序的执行的处理器包含例如通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储装置。通常，计算机还将包含用于存储数据的一个或多个大量存储装置(例如磁盘、磁光盘或光盘)，或者可操作地联接以从大量存储装置接收数据或者将数据传输到大量存储装置，或者以上两者。但是，计算机不必具有此类装置。此外，计算机可以嵌入在另一个装置(例如，平板电脑、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器，仅举几例)中。适用于存储计算机程序指令和数据的计算机可读介质包含所有形式的非易失性存储器、介质和存储装置，包含例如半导体存储器装置(例如EPROM、EEPROM和闪速存储装置)、磁盘(例如内部硬盘或可移除磁盘)、磁光盘以及CDROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或合并在其中。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监控器)以及键盘和指点装置(例如鼠标或轨迹球)的计算机上实现本发明的实施例，用户可以通过该指点装置向计算机提供输入。其他类型的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如视觉反馈、听觉反馈或者触觉反馈)；并且可以采用任何形式(包含声音、语音或触觉输入)接收来自用户的输入。

可以在计算系统中实现本发明的实施例，该计算系统包含后端部件(例如作为数据服务器)，或者包含中间件部件(例如应用服务器)，或者包含前端部件(例如具有图形用户界面或浏览器的客户端计算机，用户可以通过该图形界面或浏览器与本发明的实施方式或者此类后端、中间件或前端部件中的一个或多个的任何组合进行交互)。系统的部件可以通过任何形式或者数字数据通信的介质(例如通信网络)进行交互。通信网络的示例包含局域网(“LAN”)和例如互联网的广域网(“WAN”)。

计算系统可以包含客户和服务器。客户和服务器通常相互远离，并且通常通过通信网络进行交互。客户和服务器的关系借助于计算机程序而产生，该计算机程序在相应的计算机上运行并且使得客户-服务器彼此具有关系。

尽管本说明书含有许多细节，但这些不应当解释为限制本发明的范围或者要求保护的范围，而是专用于对本发明的特定实施例的特征进行描述。在本说明书中所描述的在单独实施例的情景中的某些特征也可以在单个实施例中组合地实现。相反，在单个实施例的情景中描述的各种特征也可以分开地实现在多个实施例中或在任何适当的子组合中。此外，尽管上文可以将特征描述为以某些组合运作并且甚至最初这样要求，但是在一些情况下，可以从组合删除来自所要求的组合的一个或多个特征，并且所要求的组合可以针对于组合和/或子组合的变型。

类似地，尽管在附图中以特定顺序描述了操作，但这不应当理解为要求按所示的特定顺序或序列顺序进行此类操作或者进行所有示出的操作以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各种系统部件的分离不应被理解为在所有实施例中需要此类分离，并且应当理解的是，所描述的程序部件和系统通常可以集成在单个软件产品中或者打包成多个软件产品。

在提及HTML文件的每个实例中，可以替换其他文件类型或格式。例如，HTML文件可以被XML、JSON、纯文本或其他类型的文件替换。此外，在提及表格或散列表(hash table)的情况下，可以使用其他数据结构(例如电子表格、关系数据库或结构化文件)。

已经描述了本发明的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中所述的步骤可以以不同的顺序进行，并且仍然实现期望的结果。

Claims

1.一种计算机实现的方法，包括：

接收在计算装置的显示器上呈现的图像和由所述计算装置的用户所说出的话语的转录；

识别包含在所述图像中的特定子图像；

基于在所述特定子图像上进行图像识别，确定一个或多个第一标签，所述一个或多个第一标签指示所述特定子图像的情景；

基于在所述图像的除了所述特定子图像之外的区域上进行文本识别，确定一个或多个第二标签，所述一个或多个第二标签指示所述特定子图像的情景；

基于所述转录、所述第一标签和所述第二标签，生成搜索查询；以及

提供所述搜索查询用于输出。

2.如权利要求1所述的方法，其中，生成所述搜索查询包括以所述第一标签或者所述第二标签中的一个或多个替换所述转录的术语。

3.如前述权利要求中任一项所述的方法，包括：

为所述第一标签和所述第二标签中的每一个生成标签置信度，所述标签置信度指示所述标签对应于所述特定子图像的用户主要感兴趣的部分的可能性；以及

基于所述相应的标签置信度，选择所述第一标签和所述第二标签中的一个或多个，

其中，基于一个或多个所选择的第一标签和第二标签，生成所述搜索查询。

4.如前述权利要求中任一项所述的方法，其中，生成搜索查询包括：

存取历史查询数据，所述历史查询数据包含由其他用户提供的先前的搜索查询；

基于所述转录、所述第一标签和所述第二标签，生成一个或多个候选搜索查询；

将所述历史查询数据与所述一个或多个候选搜索查询相比较；以及

基于将所述历史查询数据与所述一个或多个候选搜索查询相比较，从所述一个或多个候选搜索查询中选择所述搜索查询。

5.如权利要求1至3中任一项所述的方法，还包括：

为所述一个或多个候选搜索查询中的每一个确定查询置信度，所述查询置信度指示所述候选搜索查询是所述转录的准确重写的可能性；以及

基于所述查询置信度，选择特定候选搜索查询作为所述搜索查询。

6.如前述权利要求中任一项所述的方法，其中，识别包含在所述图像中的所述特定子图像包括：

识别包含在所述图像中的一个或多个子图像；

为包含在所述图像中的所述一个或多个子图像中的每一个生成图像置信度，所述图像置信度指示子图像为用户主要感兴趣的可能性；以及

基于所述一个或多个子图像的图像置信度，选择所述特定子图像。

7.如权利要求1至5中任一项所述的方法，其中，识别包含在所述图像中的所述特定子图像包括在所述计算装置处接收数据，所述数据指示控制事件的选择，所述控制事件识别所述特定子图像。

8.如前述权利要求中任一项所述的方法，其中，所述计算装置配置为响应于检测到预定的热词来捕获所述图像并捕获对应于所述话语的音频数据。

9.如前述权利要求中任一项所述的方法，包括：

接收附加图像和由所述计算装置的用户所说出的附加话语的附加转录，所述附加图像对应于所述计算装置的所述显示器的至少另一部分；

识别包含在所述附加图像中的附加特定子图像；

基于在所述附加特定子图像上进行图像识别，确定一个或多个附加第一标签，所述一个或多个附加第一标签指示所述附加特定子图像的情景；

基于在所述附加图像的除了所述附加特定子图像之外的部分上进行文本识别来确定一个或多个附加第二标签，所述一个或多个附加第二标签指示所述附加特定子图像的情景；

基于所述附加转录、所述附加第一标签和所述附加第二标签来生成命令；以及

执行所述命令。

10.如权利要求9所述的方法，其中，执行所述命令包括在存储器中对所述附加图像进行存储，在所述存储器中存储所述特定子图像，将所述附加图像上传到服务器，将所述特定子图像上传到所述服务器，将所述附加图像导入所述计算装置的应用，以及将所述特定子图像导入所述计算装置的应用。

11.如前述权利要求中任一项所述的方法，包括：

识别与所述特定子图像相关联的元数据，

其中，确定指示所述特定子图像的情景的所述一个或多个第一标签还基于与所述特定子图像相关联的所述元数据。

12.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储装置，当由所述一个或多个计算机执行时，所述指令可操作为使得所述一个或多个计算机进行操作，所述操作包括：

识别包含在所述图像中的特定子图像；

基于在所述特定子图像上进行图像识别来确定一个或多个第一标签，所述一个或多个第一标签指示所述特定子图像的情景；

基于在所述图像的除了所述特定子图像之外的部分上进行文本识别来确定一个或多个第二标签，所述一个或多个第二标签指示所述特定子图像的情景；

基于所述转录、所述第一标签和所述第二标签来生成搜索查询；以及

提供所述搜索查询用于输出。

13.如权利要求12所述的系统，其中，所述生成搜索查询的所述操作包括不同于所述第二标签地加权所述第一标签。

14.如权利要求12或13所述的系统，其中，所述生成所述搜索查询的所述操作包括以所述第一标签或所述第二标签中的一个或多个替换所述转录的术语。

15.如权利要求12至14任一项所述的系统，其中，所述操作包括：

为所述第一标签和所述第二标签中的每一个生成标签置信度，所述标签置信度指示所述标签对应于所述特定子图像的用户主要感兴趣的部分的可能性；

基于所述相应的标签置信度来选择所述第一标签和所述第二标签中的一个或多个，

其中，基于一个或多个所选择的第一标签和第二标签来生成所述搜索查询。

16.如权利要求12至15任一项所述的系统，其中，生成搜索查询的所述操作包括：

基于所述转录、所述第一标签和所述第二标签来生成一个或多个候选搜索查询；

17.一种存储软件的非暂时性计算机可读介质，包括由一个或多个计算机可执行的指令，当进行这样的执行时，所述指令使得所述一个或多个计算机进行操作，所述操作包括：

识别包含在所述图像中的特定子图像；

提供所述搜索查询用于输出。

18.如权利要求17所述的非暂时性计算机可读介质，其中，生成搜索查询的所述操作包括不同于所述第二标签地加权所述第一标签。

19.如权利要求17或18所述的非暂时性计算机可读介质，其中，生成所述搜索查询的所述操作包括以所述第一标签或所述第二标签中的一个或多个替换所述转录的术语。

20.如权利要求17至19中任一项所述的非暂时性计算机可读介质，其中，所述操作包括：