CN110741331B

CN110741331B - 用于图像响应自动助理的系统、方法和装置

Info

Publication number: CN110741331B
Application number: CN201880038695.9A
Authority: CN
Inventors: 马尔钦·诺瓦克-普日戈兹基; 格克汗·巴克尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-09
Filing date: 2018-09-07
Publication date: 2023-12-08
Anticipated expiration: 2038-09-07
Also published as: CN117666896A; US11417092B2; US20200202130A1; KR20210109052A; JP2020530604A; US10607082B2; KR20200006563A; KR102421662B1; KR102297392B1; US20220392216A1; JP7461405B2; CN110741331A; US20190080169A1; WO2019051293A1; EP3532940A1; JP2022115933A

Abstract

本文公开的技术使得用户能够与自动助理交互，并且从所述自动助理获得相关输出，不需要用户提供费力的键入输入，和/或不需要用户提供可能引起隐私关注(例如，如果附近有其它人)的语音输入。所述助理应用能够在多种不同的图像会话模式下操作，其中所述助理应用响应于所述相机的视场内的各种对象。当在所述相机的视场内检测到特定对象时，能够将所述图像会话模式建议给用户。当所述用户选择一种图像会话模式时，所述助理应用之后能够提供输出，以基于所述所选的图像会话模式并且基于由所述相机的图像捕捉的对象呈现。

Description

用于图像响应自动助理的系统、方法和装置

背景技术

人类可以使用本文称为“自动助理”(也称为“数字代理”、“聊天机器人”、“助理应用”、“交互式个人助理”、“智能个人助理”、“会话代理”等)的交互式软件应用参与人机对话。例如，人类(当他们与自动助理交互时可被称为“用户”)可以通过使用(i)口头自然语言输入(即话语)，和/或(ii)通过提供文本(例如，键入的)自然语言输入提供命令和/或请求，在某些情况下可以将口头自然语言输入转换成文本然后进行处理。某些自动助理能够响应于来自用户的语音命令来提供信息(例如，电影放映时间、营业时间等)，和/或根据语音命令来控制外围设备。尽管这些特征是方便的，但是可能存在多种方式：提供更精细的命令、以不太繁琐的输入提供命令、提供保护相应用户的隐私的命令和/或为命令提供附加或可替选益处。

发明内容

本文公开的实施方式涉及从客户端设备的相机生成针对图像中捕捉的对象的属性定制的输出，并且使得在客户端设备处渲染(例如，可听地和/或以图形方式)定制的输出，可选地连同(例如，以图形方式覆盖)来自相机的实时图像馈送的呈现。在各种实施方式中，相机捕捉的至少一个图像被处理以确定该图像捕捉的对象的一个或多个属性。此外，基于一个或多个确定的属性，从多个可用的会话模式的组中选择一个或多个会话模式的子组。然后，使得与子组的会话模式相对应的可选择元素在客户端设备的接口处被显示为初始输出。以这种方式，初始输出包括与会话模式相对应的可选择元素，这些可选择元素针对处理的图像中的对象的确定的属性定制。

响应于对可选择元素之一的选择，使得显示进一步的输出，其中进一步的输出包括针对所选元素的会话模式定制的对象数据，以及针对处理的图像中的对象定制的对象数据。例如，能够基于下列内容标识对象数据，该内容响应于基于会话模式和基于对象的一个或更多确定的属性(包括用于选择会话模式的子组的确定属性，和/或除了用于选择会话模式的子组的确定属性)表达的查询。能够发出查询以响应于可选择元素的选择来检索响应内容，或者能够在选择可选择元素之前发出查询。此外，响应于可选择元素的选择，基于响应内容的对象数据能够在客户端设备上以听觉或图形方式渲染成进一步的输出。例如，对象数据能够与从相机馈送的渲染的实时图像一起以以图形方式呈现。以这种方式，进一步的输出包括针对所选的会话模式和所处理的图像中的对象的所确定的属性而定制的对象数据。

在一些实施方式中，能够在选择会话模式、确定多个会话模式的可选择元素的呈现突出度和/或确定对象数据时另外利用一个或多个场境特征。场境特征能够包括例如计算设备的位置、一天中的时间、一周中的天、最近在来自相机的图像中检测到的对象的特征等。作为一个示例，如果计算设备的当前位置位于“杂货店”，则可以基于“食品”的对象标识符来选择“价格”会话模式，而如果当前位置是计算设备用户的“家”位置，则可不选择“价格”会话模式(或者相应的可选择元素的呈现较不突出)。作为另一示例，能够基于场境特征(例如，包括基于场境数据的术语)来进一步生成发出以确定对象数据的查询。

作为本文公开的实施方式的一个特定示例，客户端设备的相机能够捕捉图像。该图像能够捕捉大的红色美味苹果，并且能够进行处理以确定“食物”、“苹果”以及“红色美味”的属性。基于在一个或多个计算机可读介质中被定义为与“食物”属性相关联的“卡路里”会话模式，能够从多个可用会话模式的组中选择“卡路里”会话模式。然后能够在客户端设备的接口处显示与“卡路里”会话模式相对应的可选择元素作为初始输出。响应于对“卡路里”可选择元素的选择，能够显示针对“卡路里”会话模式定制并且进一步针对“红色美味”和“苹果”属性定制的其它输出。例如，“红色美味苹果中的卡路里”的查询能够被发送到搜索引擎，接收到“72卡路里”的响应，并且在客户端设备上显示“72卡路里”。例如，对象数据能够与相机馈送的经渲染的实时图像一起以以图形方式呈现。此外，用户之后能够将相机指向不同的食物对象并接收那些对象的卡路里信息。例如，在仍然处于“卡路里”模式时由相机捕捉的附加图像能够捕捉香蕉，并且能够经处理以确定“香蕉”属性。基于在附加图像中确定的“香蕉”属性，能够将“香蕉中的卡路里”的查询发送到搜索引擎，接收“105卡路里”的响应，并在客户端设备上显示“105卡路里”。

在各种实施方式中，本文所述的以上和其它技术使用户能够与自动助理交互并从自动助理获得相关输出，而无需由用户提供繁重的打字输入和/或不需要用户提供可能会引起隐私问题的语音输入(例如，如果附近有其它人)。此外，各种实施方式能够相对于其它技术减少获得相关输入所需的输入数量，这可以节省客户端设备的计算资源和/或帮助用户解决语音和/或灵活性问题。另外，本文公开的各种实施方式在客户端设备本地执行图像处理以确定图像中包含的对象的属性。在那些各种实施方式中的一些中，能够基于所确定的属性来进行对会话模式的任何选择和/或确定在远程设备上发生的对象数据，而无需对图像本身进行任何引用。以这种方式，能够在客户端设备上保存图像，而无需从设备发送图像以选择会话模式和/或获得响应对象数据——由此增强了这些图像的安全性。

在一些实施方式中，提出了一种由一个或多个处理器实现的方法。该方法能够包括诸如为从计算设备的相机馈送的实时图像中以以图形方式表示的对象生成对象标识符的步骤。实时图像馈送能够显示在计算设备的接口处，并且生成对象标识符能够包括处理来自实时图像馈送的一个或多个图像。该方法还能够包括基于所生成的对象标识符，从多个会话模式中选择会话模式，以经由计算设备的相机与助理应用进行交互。另外，该方法能够包括响应于会话模式的选择，使与所选择的会话模式相对应的可选择元素被显示在计算设备的接口处。该方法还能够包括：在接口处接收对可选择元素的选择；使得发送查询以检索与由对象标识符标识的对象相关联的数据；以及响应于接收到该选择，使数据在接口上显示。

在一些实施方式中，该方法能够包括当在接口上显示实时图像馈送时，在接口上接收对象的图形表示的选择。另外，生成对象标识符的步骤能够响应于接收到对象的图形表示的选择。能够在接口显示对象图形表示的同时显示数据。可选择元素能够标识其中助理应用提供数据的图像会话模式。在一些实施方式中，该方法能够包括确定与图像数据相关联的场境数据。以这种方式，能够进一步基于场境数据来选择图像会话模式。场境数据能够包括标识计算设备的位置的地理位置数据。场境数据能够包括相机正在生成实时图像馈送的时间。

在还有的其它实施方式中，提出一种系统，其包括相机、显示设备，与显示设备和相机通信的一个或多个处理器，以及存储器。存储器能够被配置成存储指令，当指令被一个或多个处理器执行时，使该一个或多个处理器执行包括从相机接收图像数据的步骤。图像数据能够包括或捕捉在相机的视场中存在的对象。这些步骤还能够包括基于对图像数据的处理来确定对象的对象标识符，以及使可选择元素在显示设备上以图形方式表示。可选择元素能够标识用于使用相机与助理应用交互的会话模式。这些步骤还能够包括：接收对可选择元素的选择；和将对象标识符和与所接收的选择相对应的选择标识符发送到被配置成基于对象标识符和选择标识符来提供对象数据的一个或多个远程设备。这些步骤还能够包括：从一个或多个远程设备接收对象数据；以及在相机的视场中存在对象的同时，在显示设备中以图形方式表示对象数据。该对象能够与在一个或多个远程设备处可用的不同类型的对象数据相关联，并且会话模式能够与将由助理应用在显示设备上表示的至少一种类型的对象数据相关联。在一些实施方式中，这些步骤能够包括响应于在相机的视场中呈现出不同的对象，使得在显示设备中以图形方式表示不同的对象数据。不同的对象数据能够对应于与会话模式相关联的至少一种类型的对象数据。在一些实施方式中，这些步骤能够包括响应于在相机的视场中呈现出不同的对象，使得在显示设备中以图形方式表示不同的可选择元素。不同的可选择元素能够标识使用相机与助理应用进行交互的不同会话模式。

在还有的其它实施方式中，提出了一种非暂时性计算机可读介质。该非暂时性计算机可读介质能够存储指令，当由一个或多个处理器执行时，该指令使该一个或多个处理器执行多个步骤，包括在图像会话模式下操作助理应用，其中助理应用响应于由计算设备的相机提供的实时图像馈送。这些步骤还能够包括使助理应用在显示图像馈送的计算设备的接口处提供对象数据。对象数据能够对应于在图像馈送中以图形方式表示的第一对象以及与图像会话模式相关联的数据类型。这些步骤还能够包括：在接口处接收对相机所指向的第二对象的图形表示的选择；以及使助理应用在计算设备的接口处提供不同的对象数据。不同的对象数据能够对应于与图像会话模式相关联的数据的类型。在一些实施方式中，这些步骤能够包括：生成与图像馈送相关联的场境数据；以及根据场境数据选择数据的类型。数据类型能够包括：金钱数据、营养数据和/或事实数据。场境数据能够包括：与计算设备相关联的地理位置数据，和/或与图像馈送相关联的时间数据。

在一些实施方式中，这些步骤能够包括响应于接收到对第二对象的图形表示的选择，使助理应用向第三方代理应用查询不同的对象数据。在其它实施方式中，使助理应用查询第三方代理应用能够包括使得与不同对象相对应的对象标识符被传输到托管第三方代理应用的远程设备上。该接口能够是触摸屏显示器，并且第二对象的图形表示的选择能够为在触摸屏显示器上的触摸输入。这些步骤还能够包括使助理应用在计算设备的接口上提供可选择元素。可选择元素能够标识可通过助理应用获得的不同图像会话模式。

另外，一些实施方式包括一个或多个计算设备的一个或多个处理器，其中该一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中这些指令被配置成引起执行本文所述的一种或多种方法。处理器可包括一个或多个图形处理单元(GPU)、中央处理单元(CPU)和/或张量处理单元(TPU)。一些实施方式包括一种或多种非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以执行本文所述的一种或多种方法的计算机指令。

应明白，本文中更详细描述的前述概念和附加概念的所有组合都应被认为是本文公开的主题的一部分。例如，出现在本公开的结尾处的所要求保护的主题的所有组合都被认为是本文公开的主题的一部分。

附图说明

图1示出用于提供可在多种图像转换模式下操作的自动辅助应用的系统。

图2A示出包括或访问能够在多种不同的图像转换模式下操作的自动助理应用的计算设备的视图。

图2B示出在图像转换模式下操作的计算设备的视图。

图3A示出操作能够使用场境数据和图像数据以提供数据和/或执行某些控制的自动助理应用的计算设备的视图。

图3B示出以价格图像转换模式操作自动助理的计算设备的视图，其中当用户将相机指向对象时对象的价格呈现在接口上。

图4示出使用来自计算设备的相机提供的实时图像馈送的图像数据与自动助理应用交互的方法。

图5示出基于计算设备的相机指向的对象在计算设备的接口上提供对象数据的方法。

图6是示例计算系统的方框图。

具体实施方式

在本文公开的各种实施方式中，提供了一种自动助理，其能够响应于在客户端设备的相机的可视范围内提供特定对象而使得特定信息被呈现(例如，可听地和/或以图形方式)在客户端设备处。在一些实施方式中，自动助理能够利用远程设备(例如，远程服务器)的计算资源来处理来自相机的图像，以标识图像中的特定对象。作为响应，远程设备或自动助理能够建议功能和/或提供与所标识的对象有关的信息。例如，当在图像中标识出某个对象时，自动助理能够根据针对相似对象建立的预定过程(例如，针对符合该特定对象分类的任何对象建立的过程)进行响应。例如，当相机指向具有一个或多个特定属性的对象时，用户能够通过口头命令或其它接口输入来创建自动助理的偏好，以提供某些信息(例如，“助理，当我将相机指向汽车时，能否请你向我展示汽车的竞争价格选项(Assistant,couldyou please show me competing pricing options for a car when I point thecamera at the car)”(其中特定属性为“汽车(car)”的分类))。另外或可替选地，能够由创建自动助理的一方和/或使用其它用户创建的配置来预先配置自动助理。例如，如果一个或多个用户为他们的自动助理创建了一个首选项以便以某种方式对他们的相机看到的某些对象做出响应，则能够在其它自动助理中预先配置或以其它方式共享该首选项。制造商或第三方能够将自动助理配置成根据图像会话模式进行操作，在该模式下，自动助理会响应计算设备相机的可见范围内存在特定对象。

采用自动助理的计算设备能够为可穿戴设备、蜂窝设备、平板计算机和/或能够托管自动助理的任何其它设备。在一些实施方式中，计算设备能够至少包括麦克风、显示器(例如，触摸显示器)以及用于收集将由远程设备处理的图像的相机。用户能够通过相机应用、自动助理应用和/或能够处理由相机捕捉的图像的任何应用来调用自动助理。例如，在操作相机应用时，用户能够将相机指向食品(例如，苹果)，由此使食品的图像以图形方式呈现在计算设备的显示器上。能够在计算设备上处理图像和/或将图像发送到远程设备以进行远程处理，从而标识图像中包含的对象的特征。例如，对象标识符能够被传回计算设备(当远程处理图像时)，或者在计算设备上生成(当在本地处理图像时)，并由自动助理使用以提供会话模式的建议从而协助用户。

作为一个特定示例，基于对图像的处理而标识的对象标识符能够指示图像中的对象是食物，并且建议能够标识与食物有关的会话模式。例如，触摸显示器能够呈现多个可选择元素，每个可选择元素都包括相应的文本和/或其它标记，该文本和/或其它标记标识基于“食物”对象标识符而选择的会话模式(例如，卡路里模式、营养模式、价格模式等)。响应于用户选择与对象标识符有关的会话模式之一，自动助理能够使得提供基于所选择的会话模式的内容。例如，如果用户选择了卡路里模式，则自动助理能够使卡路里信息呈现在显示器上和/或被可听地渲染。例如，自动助理能够使得显示和/或可听地呈现“苹果中有95卡路里(There are 95calories in an apple)”，其中卡路里信息是基于所选的“卡路里模式”提供的，并基于指示对象是“苹果”的对象的附加对象标识符针对“苹果”的卡路里含量定制。还能够通过图像和/或附加图像的处理在本地或远程地生成附加对象标识符。卡路里信息能够由计算设备呈现，同时来自相机的实时图像馈送也显示在计算设备上。以这些和其它方式，用户能够将相机指向不同的食物，以使自动助理呈现关于不同食物的卡路里信息，而不必口头询问自动助理。例如，在选择卡路里模式的同时，用户能够将相机指向苹果以引起呈现有关苹果的卡路里信息，然后将相机重定向至香蕉以引起呈现有关香蕉的卡路里信息。例如，关于香蕉的卡路里信息能够基于所选的“卡路里模式”呈现，并且能够基于在相机指向香蕉时捕捉的附加图像，针对“香蕉”的卡路里含量进行定制，并且基于附加图像生成“香蕉”的对象标识符。

在一些实施方式中，能够呈现与相机的视场中的不同对象相对应的会话模式。换句话说，尽管对象在类别上是不同的，但是能够向用户呈现与不同对象相关联的建议元素。例如，用户能够将其计算设备的相机指向街道，包括饭店、停放的汽车和天际线。包括前述对象的图像能够被计算设备或远程设备处理，从而为每个对象提供对象标识符。在一些实施方式中，自动助理能够询问用户以标识他们感兴趣的对象(例如，“(点击你感兴趣的)Tapon what you're interested in”)。作为响应，用户能够在以图形方式表示对象的区域处轻击触摸显示器，或者以其它方式向自动助理指示他们对特定对象(例如，餐馆)感兴趣。

能够将用户点击的位置映射到该位置处的对象的对象标识符，作为响应，自动助理能够使建议元素呈现在触摸显示器上，以初始化与所选位置的对象标识符相关联的会话模式。例如，如果所选择的位置被映射到“餐厅”对象标识符，则在触摸显示器上呈现给用户的建议元素能够对应于餐厅评论模式、社交事件模式、有趣事实模式和/或任何与“餐厅”对象标识符相关联的其它模式。当用户选择餐厅评论模式时，自动助理能够根据用户使他们的相机正在指向的餐厅来使餐厅评论呈现在触摸显示器上。例如，能够基于图像的处理(例如，基于图像中包括餐厅名称和/或徽标的文本识别)和/或基于其它场境提示(例如，基于计算设备的当前位置)来标识当前在图像中捕捉的特定餐厅。此外，能够从各种来源(例如，餐厅评论网站和应用)收集与特定餐厅有关的一个或多个评论，并且在相机指向评论与其相关联的餐厅的同时提供评论的片段以显示在触摸显示器上。

在一些实施方式中，用户可用的会话模式能够包括随机事实模式、价格比较模式、评论模式、营养模式、规格模式和/或其中能够呈现图像中的对象的详细信息的任何其它模式。例如，当用户选择随机事实模式时，用户能够将他们的计算设备的相机指向对象，以使自动助理呈现关于该对象的随机事实。在一些实施方式中，随机事实能够由自动助理使用网络查询来生成，该网络查询由自动助理初始化为相对于正在控制相机的相机应用的后台处理。后台处理能够包括确定图像中的对象的对象标识符，基于对象标识符以及可选地基于所选择的会话模式来生成查询，以及基于响应于查询的搜索结果来标识关于对象的随机事实。然后能够通过相机应用在接口处呈现随机事实。在一些实施方式中，结果包括网络搜索结果，并且基于网络搜索结果之一(例如，来自网络搜索结果之一的片段)生成随机事实。在一些实施方式中，针对知识图或其它数据库来发出查询，该知识图或其它数据库定义多个实体，并且对于每个实体，定义实体的特性和/或实体与其它实体的关系。例如，查询能够定义通过图像处理确定的特定实体，与该特定实体对应的所标识的知识图的节点，以及基于作为指配给知识图中的该实体的特性的“结果”生成的随机事实。例如，如果特定实体是特定餐厅，则随机事实能够为餐厅的“首次开业日”，如通过映射(例如，经由“边缘”)到知识图中的用于特定餐厅的节点的“首次开业日”特性节点所定义的。

当用户选择价格模式时，用户能够将他们的计算设备的相机指向对象，以使自动助理为该对象呈现一个或多个价格。例如，自动助理能够将包括对象的图像发送到远程设备以处理和标识对象。对象的标识符能够在远程设备处生成，并被发送回计算设备，并且自动助理能够使用对象标识符来执行价格查询以标识对象的价格。可替选地，自动助理能够发送带有价格查询的图像，以使远程设备生成对象的标识符，使用该标识符来标识对象的价格，并将价格发送回计算设备。自动助理能够使用价格查询产生的价格在相机应用的接口上呈现。例如，当用户将相机指向对象(例如汽车)时，能够在对象的图形表示附近呈现对象的多个价格。此外，用户能够将相机移动到其它对象，以使自动助理实时提供在相机可见范围内的其它对象的价格。

在一些实施方式中，相机使用的场境能够附加地或可替选地用作会话模式的基础。场境能够为用户的位置(例如，如用户的计算设备的位置所指示的)、相机使用的时间、与用户附近的人有关的数据、用户正在执行的其它动作和/或用户可能与自动助理进行交互的任何其它场境。在一些实施方式中，当用户将他们的相机指向对象时，能够使用用户的位置来选择建议给用户的会话模式。例如，当用户在餐厅并且已经收到他们的餐点时，用户能够将他们的计算设备的相机指向他们的餐点。作为响应，自动助理能够使用餐点的图像来标识图像中的对象(例如，他们的餐点中的食品)，并使用对象和用户的位置来选择会话模式以向用户建议。自动助理能够例如过滤掉或以其它方式不选择价格模式，因为用户在餐厅并且已经收到食物，因此用户可能对查看他们的食物的价格不感兴趣。然而，用户可能对营养模式和/或卡路里模式感兴趣，以便享用餐点并可能跟踪他们的卡路里消耗。当用户将他们的相机指向他们的餐点时，能够向用户建议最终选择的会话模式。如果用户选择了营养模式，则自动助理能够指导用户点击他们餐点中的对象(例如，“请点击你想了解营养的食品？(Please tap on a food item you are interested in seeing nutritionfor？)”)。例如，用户能够点击其面板上的烤土豆的图形表示，并且作为响应，自动助理能够提供有关烤土豆的营养信息(例如，“铁6％，锌20％，...”)。在一些实施方式中，自动助理能够确定部分的大小(例如，小烤土豆、中烤土豆、大烤土豆等)，并根据部分的大小提供营养信息和/或卡路里信息。

在附加或可替选实施方式中，自动助理能够使用用户正在操作相机的场境来确定或过滤用于会话模式的信息源。例如，国际旅行的用户能够将其相机指向感兴趣的地标，以使自动助理在以自动助理的事实会话模式进行操作时提供有趣的事实。自动助理能够确定用户在度假而不在他们家里(例如，使用地理位置数据和/或日历数据)，并选择度假地点作为事实会话模式的场境。结果，当用户将他们的相机指向对象时呈现给用户的事实可能来自与休假位置相关联的来源。例如，前往国家公园度假的用户能够将其相机指向国家公园内的地标。地标能够是例如国家公园内的一座非常大的山脉。自动助理不仅能够从各种未经过滤的来源收集有关山脉的事实，还能够使用图像的场境(例如，用户正在国家公园度假)来标识与这座山有关的更多场境相关事实来源。例如，在雷纳尔山国家公园度假时将他们的相机指向雷纳尔山的用户能够接收有关雷纳尔山附近的活动的信息(例如，“仙境步道是一条93英里的步道，环绕雷尼尔山峰(Wonderland Trail is a 93mile trail thatcircumnavigates the peak of Mount Rainer)”)，而不是接收与活动无关的信息(例如，“雷尼尔山海拔14411英尺(Mount Rainer has an elevation of 14,411feet)”)。以这种方式，用户能够在公园内并且将他们的相机指向公园内的各个地标以发现在公园内要进行的活动，而不必提供特定的口头或文字手势来发现这些活动。

现在参考附图，图1示出了用于提供可在各种图像会话模式下操作的自动助理应用的系统100。系统100能够包括计算设备102，其能够为蜂窝设备、平板设备、可穿戴设备、个人计算机和/或能够使用相机捕捉图像的任何其它设备。计算设备102能够包括相机106，其能够捕捉照片和/或视频以供计算设备102或远程设备112处理。计算设备102还能够包括显示设备108，其能够基于由相机106提供的图像数据提供实时图像馈送。在一些实施方式中，显示设备108为触摸显示器，因为它是触摸敏感的并且为用户提供触摸接口以与计算设备102上的各种应用进行交互。

在一些实施方式中，计算设备102能够包括助理接口110，其能够为与计算设备102和/或服务器设备112上的助理应用118相关联的应用接口。在各种实施例方式中，能够在计算设备102上实现助理应用118的全部或多方面。在那些实施方式中的一些实施方式中，助理应用118的各方面是通过计算设备102的本地助理应用实现的，并与实现助理的其它方面的服务器设备112交互。服务器设备112能够可选地经由多个线程来服务多个用户及其关联的助理应用。在经由计算设备102的本地助理应用来实现助理应用118的全部或方面的实施方式中，本地助理应用能够为与计算设备102的操作系统分离的应用(例如，安装在操作系统“之上”)，或者能够可替选地由计算设备102的操作系统直接实现(例如，视为是操作系统的应用但是与操作系统集成)。

助理应用118是能够经由助理接口110接收口头和/或文本命令的自动助理应用。响应于接收到命令，助理应用118能够提供数据、执行应用功能、与第三方代理通信、控制外围设备和/或以其它方式执行适于由计算设备执行的任何命令。例如，助理接口110能够为用于接收口头命令的麦克风，口头命令能够被转换成音频数据并且被处理以确定适当的响应。音频数据能够在计算设备102或服务器设备112中处理。例如，服务器设备112能够包括语音到文本引擎116，以处理从计算设备102接收的音频数据。语音到文本引擎116能够操作以接收音频数据、识别音频数据内的语音并以文本形式输出语音，以便其它应用(诸如助理应用118)能够使用该语音文本。

助理应用118能够根据一个或多个图像会话模式120进行操作。图像会话模式120对应于一种操作模式，其中助理应用118响应于来自计算设备102的相机106的图像数据。此外，当以图像会话模式120进行操作时，助理应用118能够引起助理接口110(例如，在显示设备108上提供的图形用户接口)的动态变化，允许在相机106提供图像数据的同时，用户与助理应用118交互。例如，当在计算设备102上操作相机应用时，能够用来自相机106的实时图像馈送来显示助理接口110。助理接口110能够包括一个或多个可选择元素，其带有文本和/或邀请用户初始化图像会话模式的其它标记(例如，“营养模式”、“价格模式”、“事实模式”、“你对什么感兴趣？”等)。当用户选择可选择元素时，能够经由助理接口110以图形方式和/或可听地渲染与可选择元素的图像会话模式相关并且与图像的对象相关的数据，以呈现给计算设备102的用户。如本文所述，能够基于由相机106捕捉的图像中捕捉的对象的对象标识符来选择呈现给用户的可选择元素，并且能够基于对象的对象标识符确定所渲染的数据(与在选择可选择元素时使用的对象标识符相同和/或附加对象标识符)。能够基于由图像处理引擎114对图像的处理标识图像的对象标识符，图像处理引擎114能够被设置在计算设备102或服务器设备112中。

图像处理引擎114能够从相机106接收图像，并且对图像进行处理以标识图像内的对象的对象标识符，该对象标识符能够与图像会话模式120相关联。图像处理引擎114能够采用一种或多种图像处理技术来确定与由相机106捕捉的图像中的对象相对应的对象标识符。例如，图像处理引擎114能够采用计算机视觉算法来标识图像中以图形方式表示的有形对象，并且生成对应于有形对象的对象标识符。同样地，例如，图像处理引擎114能够利用一个或多个机器学习模型，诸如深度神经网络模型，该模型接受图像作为输入，并利用学习的参数来生成作为基于图像的输出的度量，该度量指示在图像中存在多个相应属性中的哪一个属性。如果度量指示图像中存在特定属性(例如，如果度量满足阈值)，则能够将该属性视为该图像“已解析”(即，该属性能够被视为存在于图像中)。对象标识符能够对应于一个或多个解析的属性。例如，解析的属性能够为“汽车”分类，而对象标识符能够为“汽车”分类。图像处理引擎114能够在生成对象标识符时采用附加和/或可替选的图像处理技术，诸如光学字符识别(“_OCR”)、图像相似性技术(例如，基于被确定为与所考虑的图像最相似的参考图像的“标签”来标识对象标识符)等。

一个或多个对象标识符能够由图像处理引擎114生成并提供给助理应用118。助理应用118能够使用对象标识符来提供关于将要经由显示设备108向用户建议的图像会话模式120的建议。例如，助理应用118能够存储或访问将对象标识符与助理应用118可用的图像会话模式120(例如，营养模式、价格模式、事实模式等)相关联的索引或表格。例如，通常可以出售的物品，诸如汽车和食品，能够与例如价格模式相关。同样，例如，食物能够附加地与营养模式相关，而汽车将与营养模式不相关。

在一些实施方式中，显示设备108可能为能够接收触摸输入的触摸显示器，以选择出现在由相机106提供的实时图像馈送中的对象。用户能够选择在实时图像馈送中呈现的对象，以便识别感兴趣的物品。如果选择的对象对应于由图像处理引擎114或助理应用118生成的对象标识符，则助理应用118能够作为响应提供对应的可选择元素。对应的可选择元素能够标识图像会话模式120，其中用户能够使用相机106和显示设备108与助理应用进行交互。

在其它实施方式中，当用户正在操作相机应用或采用相机106的任何其它应用(例如，助理应用)时，助理应用118能够呈现用于激活图像会话模式120的可选择元素。例如，用户能够沿着街道行走并将他们的相机106指向面对街道的建筑物。助理应用118能够同时呈现用于激活特定图像会话模式120的选项，诸如价格模式、翻译模式、事实模式、评论模式和/或能够与相机106捕捉的图像相关联的任何其它模式。如果用户选择了一种模式(例如，价格模式)，则能够在显示设备108上呈现其它模式和/或数据，以代替任何先前表示的模式。例如，如果用户选择了价格模式，则能够在显示设备上呈现街道上的对象的价格。能够使用图像处理引擎114来识别对象，并且能够通过单独的第一网络设备126来标识它们的价格，第一网络设备126能够通过诸如因特网的网络122与服务器设备112进行通信。在价格模式下，用户能够将相机106指向不同的方向，以显示不同对象的价格。此外，作为用户将相机106指向不同对象的结果，能够显示与那些对象相关的其它模式的可选择元素。

在还有的其它实施方式中，用户能够操作相机106并将相机106指向文档或其它文本介质，该文档或其它文本介质包括不是用户的主要方言的语言。从相机106捕捉的图像能够被处理以标识所捕捉的图像中的一种或多种文本语言。然后文本能够被助理应用118可用的翻译器应用翻译，并且已翻译的文本能够被计算设备102的显示设备108中的助理应用118呈现。在一些实施方式中，翻译应用能够提供用于与助理应用118的主要方言设置进行比较的文本语言的指示。如果指示的语言与主要方言设置相同，则助理应用118能够绕过在显示设备108中提供任何翻译的文本。然而，如果指示的语言与主要方言设置不同，则辅助应用118能够在显示设备108上提供已翻译的文本。

在一些实施方式中，自动助理118能够向用户提供关于是否进入翻译模式的提示。然而，在其它实施方式中，当用户将相机106指向特定对象时，助理应用118能够绕过提示用户是否呈现翻译文本并在显示设备108上自动提供翻译文本。例如，助理应用118能够响应于用户将相机106朝着包括外语文本的对象重新定向而呈现更新的翻译文本。在一些实施方式中，与翻译的文本有关的其它会话模式能够被自动助理118在显示设备108处呈现给用户。例如，如果用户将相机106指向以外语提供的菜单(例如，德语)，则自动助理118能够使显示设备108呈现来自菜单的翻译文本。此外，自动助理118能够处理翻译的文本以确定文本的场境和/或文本的其它特性。例如，自动助理118能够确定翻译的文本与食物有关并且提供与进入卡路里模式有关的可选择元素。可替选地，如果用户在将他们的相机106指向其它食物时先前已经选择了卡路里模式，则能够将翻译的文本(例如，“烤土豆和牛排”)与翻译的文本标识的食物的卡路里或营养数据(例如，“800卡路里”)一起在显示设备108中呈现。

在一些实施方式中，当以特定模式(例如营养模式)操作时，与特定模式有关的数据能够关于相机106的观看区域中的对象来呈现。当用户将相机106指向先前不在观看区域内的对象时，能够呈现其它模式和/或数据。例如，当用户在营养模式下操作助理应用118时，其中为实时图像馈送中表示的食物呈现营养数据，用户能够将相机106指向他们通常会在杂货店获得的食物类型。作为响应，助理应用118能够建议用于继续与助理应用118进行图像会话的另一种模式。该另一种模式能够为例如价格模式，其中来自食物的竞争供应商的价格被显示在显示设备108上。能够与在显示设备108处呈现杂货物品的同时，在显示设备108中呈现的可选择元素中标识另一种模式。以这种方式，用户能够直观地在操作他们的相机106时在多种模式之间转换。在其它实施方式中，当将相机106指向食物时，助理应用118能够随着时间的推移确定用户更喜欢进入营养模式。结果，助理应用118能够绕过向用户呈现用于进入营养模式的可选择元素，相反，自动地提供关于相机106指向的食物的营养数据。以这种方式，用户不需要连续地做出手动选择来进入图像会话模式，而是能够依赖于助理应用118学习在某些情况下用户希望观看的图像数据。

在一些实施方式中，助理应用118能够通过网络122访问用于图像会话模式的数据。例如，助理应用118能够连接到一个或多个远程设备(例如，包括第一数据132的第一远程设备126、包括第二数据134的第二远程设备128以及包括第N数据136的第N远程设备130)。每个远程设备都能够包括与由图像处理引擎114和/或助理应用118生成的对象标识符相关联的数据。例如，当在计算设备102处访问助理应用118并且助理应用118正在以价格图像会话模式操作时，助理应用118能够访问一个或多个远程设备(例如，126、128、130)以检索价格数据。价格数据能够与相机106指向的对象的竞争价格相关联。在一些实施方式中，远程设备能够托管网站、应用数据和/或能够通过网络访问并与对象相关联的任何其它数据。

特定图像会话模式的建议能够基于一个或多个机器学习模型，该机器学习模型能够接收针对要建议的图像会话模式的一个或多个输入和输出概率。例如，助理应用118能够包括或访问机器学习模型，该机器学习模型能够从相机106接收图像并处理图像106以确定要建议的合适的图像会话模式。该机器学习模型能够为深度神经网络模型，该深度神经网络模型能够经训练以使得能够基于包括对象图像和/或基于图像生成的对象标识符的输入来生成概率。概率能够与助理应用118能够在其中操作的图像会话模式相关。例如，当将包括汽车的图像应用于机器学习模型时，能够使用机器学习模型来生成价格图像会话模式的概率，其高于营养图像会话模式的概率。此外，当将包括多个食品的图像应用于机器学习模型时，能够利用机器学习模型为营养图像会话模式生成比事实图像会话模式更高的概率。

在还有的其它实施方式中，助理应用118能够包括或访问能够接收不同输入的多个机器学习模型。例如，助理应用118能够访问接收图像作为输入的第一机器学习模型和接收图像场境作为输入的第二机器学习模型。能够使用一个或多个场境标识符将图像场境输入到第二机器学习模型。场境标识符能够包括标识图像的场境的数据，诸如位置、时间、事件、环境和/或能够指示场境的任何其它特征。例如，场境标识符能够使用由计算设备102的全球定位系统(GPS)发射器提供的地理位置数据来标识图像被捕捉的位置。地理位置数据能够被助理应用118用来标识图像被捕捉的位置。例如，助理应用118能够通过网络122访问地图应用以确定用户位于特定餐厅内部。能够将餐厅名称或位置提供给第二机器学习模型，并且第二机器学习模型能够为评论图像会话模型输出比事实图像会话模式更高的概率。此外，能够将来自餐厅的食物图像提供给第一机器学习模型，作为响应，第一机器学习模型能够为评论图像会话模式提供与事实图像会话模式相等的概率。然而，由于第二机器学习模型已经为评论图像会话模式提供了更高的概率，因此能够在显示设备108处向用户建议评论图像会话模式。

在一些实施方式中，计算设备102能够包括一个或多个存储器设备，其能够存储图像、文档和/或能够由计算设备存储和/或编辑的任何其它介质。此外，当用户正在访问计算设备102的存储器设备时，助理应用118能够响应于介质正被用户访问。例如，用户可能正在查看食物的图像，并且助理应用118能够对图像进行处理以确定针对图像会话模式120的建议从而呈现给用户以供选择。在一些实施方式中，当用户正在观看存储在计算设备102中或以其它方式在计算设备102中访问的图像时，助理应用118能够建议营养图像会话模式和卡路里图像会话模式。可替选地，用户可能正在查看便携式文档格式(PDF)中的文档，并且助理应用118能够处理PDF以便标识与可用的图像会话模式相关联的PDF的内容。例如，如果PDF是科学期刊文章，则助理应用118能够向用户呈现用于进入事实图像会话模式的可选择元素，事实图像会话模式能够提供事实以帮助用户理解期刊文章。可替选地，助理应用118能够自动地进入事实图像会话模式并在显示设备108上呈现事实。例如，这些事实能够基于PDF中提供的内容，并且所呈现的事实能够随着用户滚动浏览PDF或打开不同的PDF而动态地改变。

图2A示出了包括或访问能够以多种不同的图像会话模式进行操作的自动助理应用的计算设备210的视图200。图像会话模式是一种操作模式，其中自动助理响应于将计算设备210的相机指向一个或多个对象而提供数据。例如，图像会话模式能够包括卡路里模式和营养模式。当以卡路里模式操作时，计算设备210的用户能够将相机(例如，相机位于计算设备210的背表面上，背对接口204)指向诸如苹果202的对象，并接收苹果202的卡路里数据。例如，能够与相机在实时图像馈送中提供苹果202的图像同时在计算设备210的接口204上呈现卡路里数据(例如“一个苹果有95卡路里”)。在以营养模式操作时，计算设备210的用户能够将相机指向诸如苹果202之类的对象，并接收苹果202的营养数据。能够与相机在实时图像馈送中提供苹果202的图像同时在接口204上呈现营养数据(例如“钾195毫克，膳食纤维4.4g，...”)。

图2A能够示出用户在操作计算设备210的相机以初始化图像会话模式(例如，卡路里模式和/或营养模式208)时看到的接口204。在操作能够提供相机指向的实时图像馈送的相机应用时，能够处理来自实时图像馈送的图像以标识图像内的对象。例如，能够将图像从计算设备210传输到远程设备(例如，服务器设备)以进行处理，或者能够在计算设备210上处理图像。处理图像能够包括执行计算机视觉算法，以标识和分类图像中的对象。当已经标识了每个对象时，一个或多个对象标识符或分类能够被生成或标识，并由助理应用用来推荐图像会话模式。例如，当相机指向苹果202时，助理应用能够确定相机指向了苹果202或食物，并标识合适的图像会话模式以向用户建议。图像会话模式能够与各种对象标识符、对象类型、对象分类和/或对象的任何其它描述符相关。如本文所讨论的，对象和会话模式的相关性能够由自动助理可访问的索引来提供，或者能够从一个或多个机器学习模型推断。

由自动助理标识的图像会话模式能够在接口204上可选择作为第一可选择元素206和第二可选择元素208。具体而言，第一可选择元素206能够标识第一图像会话模式(例如，“卡路里模式(CALORIE MODE)”)，并且第二可选择元素208能够标识第二图像会话模式(例如，“营养模式(NUTRITION MODE)”)。当用户选择任一可选择元素时，自动助理能够接收选择并生成查询以提供与图像会话模式相对应的数据。可替选地，当数据在计算设备210上可用时，助理应用能够访问数据。能够基于图像中的对象(例如，苹果202)的对象标识符以及由用户选择的图像会话模式(例如，卡路里模式)来生成查询。作为一个示例，能够针对“卡路里”会话模式定义“[对象的最细粒度分类]中的卡路里”的查询模板。能够使用图像中的对象的最精细分类的别名来填充占位符“[对象的最精细分类]”。例如，假设图像包含一个大的红色美味苹果。如果基于图像处理确定的最精细分类是“苹果”，则查询能够为“苹果中的卡路里”。另一方面，如果确定的最精细分类是“红色美味苹果”，则查询能够为“红色美味苹果中的卡路里”——或者，如果确定的最精细分类是“大的红色美味苹果”，则查询能够为“大的红色美味苹果中的卡路里”。作为又另一示例，能够基于所选择的会话模式和对象的标识符来生成非自然语言查询。例如，对于“卡路里”会话模式，能够定义查询模板“针对[对象的最精细分类的节点]的[卡路里参数]”。查询模板定义响应于查询的数据是在实体数据库中为对应于对象的最精细分类的实体数据库的节点定义的卡路里参数。

能够将查询传输到托管助理应用、搜索引擎、知识图系统和/或响应查询的其它系统的远程设备。远程设备能够使用基于对象标识符(例如，“苹果”)和所选的图像会话模式的查询，向助理应用提供数据(例如，苹果的卡路里含量)以呈现在接口上204。例如，搜索引擎能够向查询提供“权威答案”(如果有)作为数据，或者响应于查询作为数据而从排名最高的文档中提供最相关的摘录。而且，例如，知识图系统能够基于查询来标识知识图的特定节点，并且提供来自节点(或与节点相对应)的信息作为数据。远程设备能够存储数据或从单独的服务器访问数据，该数据包括满足查询的应用数据或Web数据。当助理应用接收到数据时，能够在将相机指向苹果202的同时在接口204上呈现数据。

在一些实施方式中，当用户选择与图像会话模式相对应的可选择元素(例如，第一可选择元素206)时，能够将数据(例如，卡路里含量)与针对图像会话模式的其它建议一起呈现。例如，当用户选择卡路里模式时，能够将查询发送到远程设备以标识将满足查询的数据。能够托管助理应用的远程设备还能够标识其它会话模式，这些模式可能对于对食物的卡路里含量感兴趣的用户有用。例如，助理应用能够包括健康跟踪器图像会话模式，该模式允许用户将相机指向不同的食物，以便为用户查看这些食物如何适合饮食或每日卡路里摄入。当以健康跟踪器图像会话模式进行操作时，自动助理能够将用户先前食用的食物的营养价值或卡路里含量与相机所指向的食物进行比较。当特定食品不在饮食中时，自动助理能够使接口204向用户呈现通知，或者使他们一天中所需的每日热量摄入更优。能够响应于用户选择卡路里模式或营养模式，将健康跟踪器图像会话模式表示为附加的可选择元素。

图2B示出了在图像会话模式下操作的计算设备210的视图212。具体而言，图2B示出了自动助理应用使接口204在相机指向另一对象218(香蕉)的同时在接口上提供卡路里数据214。自动助理还能够使接口204在操作图像会话模式时为图像会话模式提供附加建议。例如，用户能够从图2中选择卡路里模式，并将相机从图2A的对象202重定向至图2B的对象218。在接口204处提供的实时图像馈送能够用对象218更新，并且能够处理来自实时图像馈送的图像以标识图像中的对象。能够处理图像，并且能够从图像生成对象标识符。然后，对象标识符能够由自动助理使用，以生成用于标识与对象218相关联的卡路里数据的查询。然后，能够在相机指向对象218时，在接口204上将卡路里数据(例如“120卡路里”)作为图形元素214呈现。

在一些实施方式中，响应于相机被从一个对象(例如，对象202)重定向到另一对象(例如，对象218)，自动助理能够使接口204呈现对图像会话模式的其它建议。例如，机器学习模型能够确定要向用户建议的图像会话模式的概率。能够根据图像会话模式的相应概率对图像会话模式进行排名，并且在用户将相机指向对象时能够向用户建议前N个(例如，1、2、3等)图像会话模式。在用户选择一种会话模式之后，能够将先前未呈现的一个或多个其它会话模式作为附加的可选择元素216呈现给用户。例如，能够响应与用户先前选择了不同的图像会话模式(例如，卡路里图像会话模式)并且将相机重定向至另一对象(例如，对象218)，向用户呈现价格图像会话模式。如果用户选择了价格图像会话模式(例如，通过选择附加的可选择元素216)，则对象218的价格能够在接口204上与图形元素214(其显示响应与卡路里模式的数据)一起呈现，或者代替图形元素214呈现。

图3A示出了操作能够使用场境数据和图像数据来提供数据和/或执行某些控件的自动助理应用的计算设备312的视图300。具体地，自动助理能够提供关于图像会话模式的建议，以根据场境数据和图像数据进行操作。例如，用户可能正在操作计算设备312的相机应用并且将计算设备312的相机指向对象302(例如，汽车)。相机提供的图像能够被自动助理或单独的应用处理，以标识图像中的一个或多个对象。自动助理能够接收或生成对象标识符(例如，标识汽车的数据对象)，该对象标识符能够由自动助理用来选择一个或多个图像会话模式以呈现在接口304上。此外，自动助理能够接收或生成场境标识符(例如，标识图像的场境的数据对象)，该场境标识符能够由自动助理用来进一步缩小要呈现在接口304上的图像会话模式的选择。

在一些实施方式中，用户可能正在步行通过售卖汽车的车行并使用计算设备312的相机来捕捉车行中汽车的图像。自动助理能够接收汽车的图像，诸如在图3A的接口304处呈现的图像，并使用图像确定相机指向汽车。自动助理能够根据图像中标识的对象确定图像会话模式以向用户建议。例如，因为图像包括汽车(即，对象302)，所以自动助理能够标识与汽车相关联的图像会话模式，诸如价格模式、事实模式和/或方向模式。此外，自动助理能够确定图像的场境以选择图像会话模式以向用户建议。场境能够基于图像被捕捉的时间、图像被捕捉的位置、与图像相关联的事件和/或能够体现在数据中的任何其它场境描述符。例如，图像被捕捉的位置可能是用于购买汽车的车行，由此指示用户将对学习汽车感兴趣，而不是接收与汽车一起去哪里的方向。因此，对象标识符(例如，“汽车”)和场境标识符(例如，“车行”)能够被自动助理组合使用，以选择要向用户建议的图像会话模式。例如，能够向用户建议价格模式和事实模式，同时能够从建议中省略方向模式。例如，索引或表格能够将价格模式和事实模式定义为与对象标识符“汽车”和场境标识符“车行”的组合更相关，而不是与“方向模式”组合相关。能够在如图3A中所提供的接口304处的第一可选择元素306和第二可选择元素308中标识建议。

在一些实施方式中，能够将对象标识符和场境标识符中的每个输入到一个或多个机器学习模型(例如，深度学习模型)中，以将概率与自动助理可用的每个图像会话模式相关联。例如，能够将对象302的对象标识符提供给第一学习模型，以确定图像会话模式的概率或排名用于向用户建议。能够将标识对象场境的场境标识符提供给第二机器学习模型，以确定图像会话模式的概率或排名用于向用户建议。能够根据它们相应的图像会话模式组合来自第一学习模型和第二学习模型的概率，并且能够将与最高概率相对应的图像会话模式呈现给用户。根据上述示例，当对象标识符是汽车并且场境标识符是车行时，与方向模式相比，价格模式和事实模式能够与更高的概率相关联。

在其它实施方式中，辅助应用能够提供图形元素310，该图形元素310建议用户点击在接口上呈现的不同对象或对象的不同部分，以便接收与所选对象相关联的数据或图像会话模式的建议。相机提供的图像能够被助理应用或单独的应用处理，以标识图像中与对象相对应的部分。每个对象都能够与对象标识符相关联，使得当用户点击接口的一部分时，能够处理对象标识符以提供关于图像会话模式的建议。例如，自动助理能够从接口304上的图像生成汽车和轮胎314的对象标识符。如果用户点击轮胎314，则与用户点击汽车的车身相比，图像会话模式的建议能够不同。自动助理能够使用一种或多种技术从图像生成不同的对象标识符，这些技术能够在逐像素的基础上，或者在逐像素组的基础上对图像进行分类。例如，图像的每个NxN像素组都能够与一个或多个对应的对象标识符(以及可选地，多个对象标识符中的每一个的对应概率)相关联。例如，能够将与汽车的轮胎相对应的一组像素与“轮胎”对象分类关联最紧密，而将与汽车其它部分相对应的像素组与“汽车”分类关联最紧密。如果用户选择一个或多个“轮胎”像素(例如，通过“点击”或“环绕”或以其它方式通过触摸来限制那些像素)，则能够呈现与“轮胎”分类最相关的图像会话模式。另一方面，如果用户选择一个或多个“汽车”像素，则能够呈现与“汽车”分类最相关的图像会话模式。

图3B示出了在价格图像会话模式下操作自动助理的计算设备312的视图316，其中当用户将相机指向对象时，在接口304处呈现对象的价格。具体地，用户能够选择图3A中呈现的价格模式(例如，可选择元素306)，从而使得会话元素318被呈现在接口304上。会话元素318能够包括与用户选择的对象(例如，汽车)有关的数据。例如，由于用户选择了汽车，因此自动助理能够使查询生成用于标识汽车的价格，以及能够帮助用户反映出汽车价格的任何其它数据(例如，型号和年份)。

响应于用户选择价格模式，能够修改接口304处对图像会话模式的建议。例如，能够呈现可选择元素320以代替可选择元素306，以便向用户提供进入评论图像会话模式的选项。此外，未选择的可选择元素308能够保留在接口304处，或者由标识不同图像会话模式的不同可选择元素代替。评论图像会话模式能够使自动助理在接口304上提供针对相机所指向的对象的Web评论。Web评论能够由一个或多个远程设备提供，这些远程设备托管与用户提交的特定对象(例如，汽车)的评论相关的Web数据或应用数据。在可选择元素308中标识的事实模式，当被选择时，能够使自动助理提供与图像中的一个或多个对象相关联的事实。事实数据也能够由托管与对象相关联的Web数据和/或应用数据的一个或多个远程设备提供。当助理应用在事实图像会话模式或评论图像会话模式下操作并且相机指向对象(例如，汽车)时，事实数据和/或网络评论能够被呈现在接口元素中(例如，类似于会话元素318)。

图4示出了用于使用来自由计算设备的相机提供的实时图像馈送的图像与自动助理应用进行交互的方法400。方法400能够由计算设备、服务器设备和/或适于使数据在图形用户接口处呈现的任何其它设备执行。方法400能够包括从计算设备的相机接收图像数据的方框402。相机响应于在相机的视场中存在对象而生成图像数据。该对象能够为能够由相机在图像中捕捉的任何对象。例如，对象能够为城市中的街道。

在方框404中，方法400能够包括基于图像数据确定对象的对象标识符。对象标识符能够对应于对象本身(例如，街道)、对象的组成部分或对象内的单独对象。例如，对象标识符能够标识位于相机视场内的街道上的餐厅。对象标识符能够由自动助理或已从相机接收图像数据的远程设备生成。对象标识符的生成能够包括光学字符识别(OCR)算法，该算法能够标识图像数据中的文本(例如，餐厅名称)。能够利用附加的和/或可替选的图像处理技术来生成对象标识符。

方法400还能够包括方框406，方框406使得在显示设备处以图形方式表示可选择元素。可选择元素能够标识自动助理能够在其中操作的一个或多个图像会话模式。在一些实施方式中，方框406包括基于在方框404所标识的对象标识符来选择图像会话模式，并且基于与图像会话模式相对应的可选择元素来使该可选择元素被以图形方式表示。能够从多个可用的图像会话模式中选择图像会话模式。每种图像会话模式都能够使用来自相机的图像数据从自动助理中得出数据和/或执行自动助理的功能。例如，可选择元素能够包括标识评论图像会话模式的文本，其中自动助理提供针对计算设备的相机所指向的对象web评论。以这种方式，用户不必必须向自动助理提供文本或口头命令，而是能够简单地将相机指向不同的对象以得出响应。

方法400还能够包括接收可选择元素的选择的方框408。能够通过口头命令(例如，“助理，请开始审阅模式(Assistant,please start the review mode)”)或文本命令在显示设备的触摸接口上进行选择。

在方框410中，能够使用图像中的对象的至少一个对象标识符以及与通过方框408的选择所选择的可选择元素相对应的会话模式来标识对象数据。该对象的对象标识符能够与在方框406中利用的对象标识符相同和/或能够包括附加的对象标识符(例如，与在方框406中利用的对象标识符相比，更细粒度地标识该对象的对象标识符)。自动助理能够使用在计算设备的存储器设备处可用的数据在计算设备处标识对象数据。可替选地，自动助理能够向一个或多个远程设备提供一个或多个查询，以收集对象数据从而呈现在显示设备上。例如，查询能够为提供给托管搜索引擎的服务器的搜索引擎查询。查询的结果能够包括对其它人提交的对象的评论，并且能够基于一个或多个结果来标识对象数据。例如，当对象是餐厅并且自动助理以评论图像会话模式操作时，对象数据能够包括由搜索引擎标识的一个或多个评论的多个部分。

在方框412处的方法400能够包括使得在对象在显示设备处被以图形方式表示的同时，对象数据在显示设备处被以图形方式表示。换句话说，如果将相机指向街道上的餐厅，并且在显示设备上显示来自相机的实时图像馈送，则能够在实时图像馈送上呈现对象数据。如果相机指向不同的对象，诸如不同的餐厅，则能够由自动助理或远程设备生成不同餐厅的单独对象标识符。该单独对象标识符能够用于检索评论或与其它餐厅有关的其它对象数据，并且能够自动地在显示设备上显示评论或其它对象数据。

图5示出了用于基于计算设备的相机指向的对象在计算设备的接口处提供对象数据的方法500。方法500能够由计算设备、服务器设备和/或能够处理图像相关数据的任何其它装置执行。方法500能够包括在图像会话模式下操作助理应用的方框502，其中助理应用响应于由计算设备的相机提供的实时图像馈送。能够在计算设备处提供助理应用，或者计算设备可通过其它方式访问助理应用。此外，图像会话模式能够为使助理应用响应于相机指向一个或更多特定对象而提供图形、可听或其它输出的操作模式。例如，图像会话模式能够是事实模式，其中当用户将相机指向对象时，助理应用提供关于对象的事实。当用户正在休假并且对周围环境感兴趣，但对向自己的助理应用提供多个语言或文本查询以接收有关他们的周围环境的信息可能不适时，这可能会很有帮助。

在方框504中，方法500能够包括使助理应用在显示图像馈送的计算设备的接口处提供对象数据。该对象数据能够对应于在图像馈送中以图形方式表示的第一对象以及与图像会话模式相关联的数据类型。例如，当图像会话模式是事实图像会话模式并且第一对象是纪念碑时，助理应用能够提供有关第一个对象的历史事实作为对象数据(例如，“华盛顿纪念碑的建设始于1848年(Construction of the Washington Monument began in1848)”)。能够从托管与第一个对象有关的数据的远程服务器获得对象数据。对象的标识符能够由助理应用或采用一种或多种图像处理技术来标识图像中的对象的远程设备生成。例如，第一对象的图像能够被传输到基于图像的搜索引擎，该引擎能够接收图像并从图像提供Web搜索结果。Web搜索结果能够包括对象标识符(例如“华盛顿纪念碑(the Washingtonmonument)”)，助理应用能够使用该对象标识符来检索有关该对象的其它信息。

在方框506中，方法500能够包括在计算设备的接口处接收对相机所指向的第二对象的图形表示的选择。图形表示的选择能够包括在表示第二对象的接口上的位置处的点击手势。在一些实施方式中，图形表示的选择能够为用户将相机指向第二对象。这样，用户能够在某个位置无缝地将相机操纵到不同的对象，以便收集有关不同对象的数据。例如，当助理应用以事实图像会话模式操作时，用户能够将相机指向第一对象(例如，华盛顿纪念碑)，然后将相机重定向到第二对象(例如，白宫)。当第二对象出现在由相机提供的实时图像馈送中时，能够至少在图像会话模式方面将第二对象视为已选择。

在方框508中，方法500能够包括使助理应用在计算设备的接口处提供不同的对象数据。不同的对象数据能够对应于与图像会话模式相关联的数据的类型。例如，当助理应用以事实会话模式操作并且第二对象是白宫时，不同的对象数据能够为关于白宫的事实(例如，“白宫的第一个椭圆形办公室建于1909年(the first Oval Office in the WhiteHouse was built in 1909)”)。在一些实施方式中，与指向第二对象的相机有关的场境数据能够被用作呈现给用户的对象数据的基础。例如，场境数据能够将用户标识为第二对象的位置的游客，因此，助理应用能够提供有关在用户操作图像会话模式时在该位置要做什么的详细信息。场境数据能够包括正在查看第二对象的时间，并且助理应用能够使用该时间来标识要在第二对象处或附近进行的活动。例如，当第二对象是白宫并且时间是复活节后的星期一时，第二对象数据能够包括诸如“今天是白宫的复活节滚彩蛋(Today is theEaster Egg Roll at the White House)”的消息。

图6是示例计算机系统610的方框图。计算机系统610通常包括至少一个处理器614，其经由总线子系统612与多个外围设备进行通信。这些外围设备可以包括存储子系统624，包括例如存储器625和文件存储子系统626，用户接口输出设备620、用户接口输入设备622以及网络接口子系统616。输入和输出设备允许用户与计算机系统610交互。网络接口子系统616提供到外部网络的接口，并耦合到其它计算机系统中的相应接口设备。

用户接口输入设备622可以包括键盘，定点设备(诸如鼠标、轨迹球)、触摸板或图形输入板、扫描仪、结合在显示器中的触摸屏，音频输入设备(诸如语音识别系统、麦克风)和/或其它类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入计算机系统610或通信网络的所有可能类型的设备和方式。

用户接口输出设备620可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)显示器，诸如液晶显示器(LCD)的平板设备，投影设备或用于创建可见图像的一些其它机构。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常，术语“输出设备”的使用旨在包括将信息从计算设备610输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统624存储提供本文所述的一些或所有模块的功能的程序和数据构造。例如，存储子系统624可以包括执行方法400、方法500的选定方面和/或实现一个或更多计算设备102、服务器设备112、助理应用118、远程设备112和/或本文讨论的任何其它应用或设备的逻辑。

这些软件模块通常由处理器614单独或与其它处理器结合执行。在存储子系统624中使用的存储器625能够包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)630以及其中存储了固定指令的只读存储器(ROM)632。文件存储子系统626能够为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器或可移动介质盒。实施某些实施方式的功能的模块可以由文件存储子系统626存储在存储子系统624中，或者存储在处理器614可访问的其它机器中。

总线子系统612提供了一种机制，该机制用于使计算机系统610的各个组件和子系统按预期彼此通信。尽管总线子系统612被示意性地示出为单个总线，但是总线子系统的可替选实施方式可以使用多个总线。

计算机系统610能够为各种类型，包括工作站、服务器、计算集群、刀片式服务器、服务器场或任何其它数据处理系统或计算设备。由于计算机和网络不断变化的性质，所以出于说明一些实施方式的目的，图6中所示的计算机系统610的描述仅有意作为特定示例。与图6中所示的计算机系统相比，计算机系统610的许多其它配置可能具有更多或更少的组件。

在本文描述的系统收集有关用户(或者是本文中经常称为的“参与者”)的个人信息或可能利用个人信息的情况下，可以为用户提供控制程序或部件是否收集用户信息(例如，有关用户的社交网络、社交动作或活动、职业、用户的喜好或用户的当前地理位置的信息)的机会，或者是控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。同样地，某些数据在存储或使用之前可能会以一种或多种方式处理，以便删除个人身份信息。例如，可以处理用户的身份，以便无法确定针对该用户的任何个人身份信息，或者可以在获得地理位置信息的情况下将用户的地理位置进行概括(例如，概括到城市、邮政编码或州级别)，因此无法确定用户的特定地理位置。因而，用户可以控制如何收集和/或有关用户的信息。

尽管本文已经描述和示出了几种实施方式，但是可以利用用于执行功能和/或获得结果和/或本文所述的一个或更多优点的多种其它手段和/或结构，并且每个这些变化和/或修改都应被认为是在本文所述的实施方式的范围内。更一般地，本文所述的所有参数、尺寸、材料和配置都是例证性的，并且实际参数、尺寸、材料和/或配置将取决于对其使用本教导的具体应用。仅使用常规实验，本领域技术人员将认识到或能够确定本文所述的特定实施方式的许多等同形式。因此，应理解，前述实施方式仅以示例的方式呈现，并且在所附权利要求及其等效物的范围内，可以以不同于具体描述和要求保护的方式来实施多种实施方式。本公开的实施方式针对本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果这些特征、系统、物品、材料、套件和/或方法相互不矛盾，则两个或更多个这样的特征、系统、物品、材料、套件和/或方法的任意组合也被包括在本公开的范围内。

Claims

1.一种用于提供对象数据的方法，所述方法包括：

针对在来自计算设备的相机的实时图像馈送中以图形方式表示的对象生成对象标识符，所述实时图像馈送被显示在所述计算设备的接口处，其中生成所述对象标识符包括：处理来自所述实时图像馈送的一个或多个图像；

基于所生成的对象标识符，从多个会话模式中选择会话模式，以经由所述计算设备的所述相机与助理应用进行交互；

响应于所述会话模式的选择，使得与所选择的会话模式相对应的可选择元素被显示在所述计算设备的所述接口处；

在所述接口处接收对所述可选择元素的选择；

响应于接收到所述选择，使得数据与标识另一会话模式的附加可选择元素一起在所述接口上被显示，

其中所述数据与由所述对象标识符所标识的所述对象相关联并且是基于所选择的会话模式；以及

在使得数据在所述接口上被显示之后：

确定用户已经将所述相机重定向以使得附加对象处于所述相机的视场中，

响应于所述附加对象处于所述相机的所述视场中，使得在所述接口处渲染所述附加对象的附加图像，以及

响应于所述附加对象处于所述相机的所述视场中，使得在所述接口处渲染所述附加对象和附加可选择元素同时在所述接口处提供附加对象数据，

其中在所述接口处提供的所述附加对象数据是基于所选择的会话模式。

2.根据权利要求1所述的方法，还包括：

当在所述接口处显示所述实时图像馈送时，在所述接口处接收对所述对象的图形表示的另一选择，其中生成所述对象标识符是响应于接收到对所述对象的所述图形表示的选择。

3.根据权利要求2所述的方法，其中，在所述接口显示所述对象的所述图形表示的同时显示所述数据。

4.根据权利要求1所述的方法，其中，所述可选择元素标识所述助理应用提供所述数据的所述会话模式。

5.根据权利要求1所述的方法，还包括：

确定与所述实时图像馈送相关联的场境数据，其中进一步基于所述场境数据来选择所述会话模式。

6.根据权利要求5所述的方法，其中，所述场境数据包括标识所述计算设备的位置的地理位置数据。

7.根据权利要求5所述的方法，其中，所述场境数据包括所述相机正在生成所述实时图像馈送的时间。

8.一种用于提供对象数据的系统，包括：

相机；

显示设备；

一个或多个处理器，所述一个或多个处理器与所述显示设备和所述相机通信；以及

存储器，所述存储器被配置成存储指令，当所述指令被所述一个或多个处理器执行时，使所述一个或多个处理器执行步骤，所述步骤包括：

从所述相机接收图像数据，其中所述图像数据捕捉在所述相机的视场中存在的对象；

基于处理所述图像数据来确定所述对象的对象标识符；

使得可选择元素以图形方式被表示在所述显示设备处，

其中，所述可选择元素标识用于使用所述相机与助理应用进行交互的多个会话模式中的会话模式；

接收对以图形方式被表示在所述显示设备处的所述可选择元素的选择；

基于对所述可选择元素的所述选择，处理所述对象标识符和与所述接收的选择相对应的选择标识符，以促进基于所述对象标识符和所述选择标识符来向用户提供对象数据；

在所述相机的视场中存在所述对象和附加可选择元素的同时，使得所述对象数据以图形方式被表示在所述显示设备处，

其中所述附加可选择元素标识所述多个会话模式中的附加会话模式；以及

在使得所述对象数据以图形方式被表示在所述显示设备处之后：

确定所述用户已经将所述相机重定向以使得附加对象处于所述相机的所述视场中，

响应于所述附加对象处于所述相机的所述视场中，使得在所述显示设备处渲染所述附加对象的图像，以及

响应于所述附加对象处于所述相机的所述视场中，使得在所述显示设备处渲染所述附加对象和所述附加可选择元素同时在所述显示设备处提供附加对象数据，

其中在所述显示设备处提供的所述附加对象数据是基于所述会话模式。

9.根据权利要求8所述的系统，其中，所述对象与不同类型的对象数据相关联，并且所述会话模式与将由所述助理应用在所述显示设备处表示的至少一种类型的对象数据相关联。

10.根据权利要求9所述的系统，其中，所述步骤还包括：

在渲染与所述对象相对应的所述对象数据之后：

使得在所述显示设备处渲染所述附加对象的所述图像同时在所述显示设备处以图形方式表示不同的可选择元素，

其中所述不同的可选择元素标识使用所述相机与所述助理应用进行交互的不同会话模式。

11.一种存储指令的非暂时性计算机可读介质，当由一个或多个处理器执行时，所述指令使所述一个或多个处理器执行步骤，所述步骤包括：

在图像会话模式下操作助理应用，在所述图像会话模式中所述助理应用响应于由计算设备的相机提供的实时图像馈送；

使得所述助理应用在显示所述实时图像馈送的所述计算设备的接口处提供对象数据；

在所述接口处接收对所述相机所指向的第一对象的图形表示的选择；

使得所述助理应用提供对象数据，所述对象数据对应于以图形方式被表示在所述实时图像馈送中的所述第一对象以及与所述图像会话模式相关联的所述数据的类型；

在渲染与所述第一对象相对应的所述对象数据之后：

确定用户已经将所述相机重定向以使得第二对象处于所述相机的视场中，

响应于所述第二对象处于所述相机的所述视场中，使得在所述接口处渲染所述第二对象的图像以及附加可选择元素，

其中，所述附加可选择元素标识另一图像会话模式，以及

响应于所述第二对象处于所述相机的所述视场中，使得在渲染所述第二对象和所述附加可选择元素同时在所述接口处提供附加对象数据，

其中在所述接口处提供的所述附加对象数据是基于所述图像会话模式。

12.根据权利要求11所述的非暂时性计算机可读介质，其中，所述步骤还包括：

生成与所述实时图像馈送相关联的场境数据；以及

根据所述场境数据选择所述数据的类型。

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述数据类型包括：金钱数据、营养数据和/或事实数据。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，所述场境数据包括：与所述计算设备相关联的地理位置数据和/或与所述实时图像馈送相关联的时间数据。

15.根据权利要求11所述的非暂时性计算机可读介质，其中，所述步骤还包括：

响应于接收到对所述第二对象的所述图形表示的选择，使得所述助理应用向第三方代理应用查询所述附加对象数据。

16.根据权利要求15所述的非暂时性计算机可读介质，其中，使得所述助理应用查询所述第三方代理应用包括：使得与所述第二对象相对应的对象标识符被发送到托管所述第三方代理应用的远程设备上。

17.根据权利要求11所述的非暂时性计算机可读介质，其中，所述步骤还包括：

在渲染与所述第一对象相对应的所述对象数据之后：

使得所述助理应用在所述第二对象的所述图像被渲染在所述计算设备的所述接口处同时在所述接口处提供可选择元素，

其中所述可选择元素标识通过所述助理应用可获得的不同图像会话模式。