CN110730938A

CN110730938A - 为助理应用提供图像快捷方式的系统、方法和装置

Info

Publication number: CN110730938A
Application number: CN201880038680.2A
Authority: CN
Inventors: 马尔钦·诺瓦克-普日戈兹基; 格克汗·巴克尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-09-09
Filing date: 2018-09-07
Publication date: 2020-01-24
Anticipated expiration: 2038-09-07
Also published as: JP2020530603A; EP3532920B1; US20220309788A1; EP3532920A1; US20230206628A1; US10657374B2; US20200250433A1; KR20200007012A; KR102420118B1; JP7048806B2; EP4180952A1; US11600065B2; JP6961019B2; US11908187B2; KR20230034439A; JP2022008901A; WO2019051287A1; KR102634734B1; US10366291B2; KR102300076B1

Abstract

生成和/或利用响应于确定一个或多个特征存在于来自用户的计算设备的相机的图像中(例如，存在于来自相机的实时图像馈送中)而使得执行一个或多个相应的计算机动作的图像快捷方式。可以响应于用户接口输入诸如语音命令来生成图像快捷方式。例如，用户接口输入可以指示自动化助理响应于在相机的视野中存在具有某些特征的对象来执行一个或多个动作。随后，当用户将他们的相机指向具有这些特征的对象时，助理应用可以使得动作被自动地执行。例如，助理应用可以根据图像快捷方式，使得数据被呈现和/或可以控制远程设备。

Description

为助理应用提供图像快捷方式的系统、方法和装置

背景技术

人类可以使用在本文中称为“自动化助理”(也称为“数字助理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“会话代理”等)的交互式软件应用参与人机对话。例如，人类(当他们与自动化助理互动时，可以被称为“用户”)可以使用在一些情况下可以被转换为文本然后进行处理的语音自然语言输入(即话语)和/或通过通过提供文本(例如，键入的)自然语言输入来提供命令和/或请求。尽管使用自动化助理可以允许更容易访问信息和控制外围设备更方便的方式，但是在某些情况下，提供说出的输入和/或文本命令可能很困难。例如，当家中其他人可能正在睡觉时的早上，用户可能对自动助理应用提供口头命令。这些和其他问题可能是由于助理应用对口头命令的依赖性而引起的。但是，可能存在提供更复杂命令、使用更不费力的输入提供命令、提供保护相应用户的隐私的命令和/或提供具有其他或替代益处的命令的方法。

发明内容

本文公开的实施方式涉及生成和利用图像快捷方式，该图像快捷方式响应于确定一个或多个特征存在于来自用户的计算设备的相机的图像中(例如存在于来自相机的实时图像馈送中)而导致执行一个或多个相应的计算机动作。在各种实施方式中，响应于用户提供的语音和/或键入的用户接口输入，生成图像快捷方式并将其与用户相关联地存储。例如，用户可以向自动助理应用提供说出的输入“when I direct the camera at a trainplatform,give me a train schedule(当我将相机指向列车站台时，给我列车时刻表)”。响应于该说出的输入，可以生成图像快捷方式，该图像快捷方式使得响应于确定来自计算设备的相机的实时图像馈送捕获具有指示“列车站台”的特征的图像，在用户的计算设备处图形和/或可听地呈现列车时刻表信息。例如，可以(在计算设备本地和/或远程地)处理经由计算设备捕获的未来图像以识别指示“列车站台”的特征，诸如：作为“列车站台”图像的图像的分类；作为将诸如“列车”、“人”、“人群”、“列车轨道”的图像的一部分的分类和/或指示“列车站台”的其他分类等等。可以基于这些特征的存在确定未来图像捕获“列车站台”，并且作为响应呈现列车时刻表信息。列车时刻表信息可以在捕获图像的同一计算设备上可听和/或图形地呈现，和/或在(例如，通过在两个计算设备处使用的用户账户，基于连接到同一网络的两个计算设备)链接到捕获图像的计算设备的另一计算设备处呈现。在一些实施方式中，计算设备的当前位置和/或其他场境(contextual)数据也可以被利用来确定图像捕获了“列车站台”。例如，确定图像捕获列车站台可以基于以下两个方面：确定图像的特征指示“列车站台”；以及确定计算设备的当前位置具有“列车站”分类。可以利用各种图像处理技术来确定图像的分类和/或其他特征。例如，一些技术可以利用深度神经网络模型，该模型接受图像作为输入，并且利用学习的参数来将指示多个相应特征中的哪个特征存在于图像中的度量生成为基于图像的输出。

在一些实施方式中，对图像快捷方式执行的计算机动作包括生成查询、发送所生成的查询、响应于发送查询而接收响应数据，和/或呈现响应数据的全部或部分。在那些实施方式的一些实施方式中，图像快捷方式与查询或查询模板相关联，该查询或查询模板指示根据图像快捷方式要提供的数据的类型。例如，继续上面的“列车站台”示例，生成的图像快捷方式可以定义“列车时刻表”查询、“[当前位置]列车时刻表”的查询模板或“从[当前位置]到[目的地位置]的列车时刻表”的查询模板。在查询模板中，可以使用计算设备的当前位置来填充占位符“[当前位置]”。当前位置可以是指示计算设备当前所在的列车站的特定坐标、地理区域或文本或其他信息。占位符“[目的地位置]”可以利用场境相关的目的地来填充，诸如，如果在工作日的早晨为用户的“工作”目的地、如果在周末的晚上为用户的“家”目的地、对于对应于存储在用户的电子日历中的时间上接近的约会的用户为“约会”位置。在那些实施方式中的一些实施方式中，查询或“填充的”查询模板可以被用来确定列车时间表信息，以响应于确定图像捕获列车站台而提供。例如，可以将查询或填充的查询模板发送到搜索引擎、应用和/或其他资源，作为响应接收响应列车时刻表，以及可听或图形地呈现响应列车时刻表。

在一些实施方式中，对图像快捷方式要执行的计算机动作附加和/或替选地包括传送使得一个或多个外围设备(例如，物联网(IoT)设备)的状态改变的一个或多个命令。例如，用户可以向自动助理应用提供说出的输入“when I direct the camera at my alarmclock in the morning,turn on my bedroom lights and turn on my coffee makerplug(当我早晨将相机指向闹钟时，打开卧室灯并且打开咖啡机插头)”。响应于该说出的输入，可以生成图像快捷方式，该图像快捷方式响应于确定来自用户的计算设备的相机的实时图像馈送捕获具有指示任何“闹钟”(或用户的特定闹钟)的特征的图像，使得打开用户的“卧室灯”和“咖啡机插头”。例如，图像快捷方式可以响应于做出该确定而使得发送使得被标记为“卧室灯”的联网灯被“打开”的命令，并且还使得发送使得被标记为“咖啡机插头”的联网插头被打开的命令。在生成和/或发送导致设备状态改变的命令中，可以利用一个或多个应用编程接口(API)和/或其他通信协议。在一些实施方式中，图像快捷方式使得基于确定图像具有指示闹钟的特征并且在“morning(早上)”捕获该图像(例如，基于包括“in themorning(在早上)”的说出的输入)和/或在用户的“家”位置捕获图像(例如，基于包括“myalarm clock(我的闹钟)”的说出的输入)，打开“卧室灯”和“咖啡机插头”。此外，在一些实施方式中，自动化助理在生成图像快捷方式时，可以提示用户捕获用户的特定闹钟的图像，此后，仅响应于捕获具有与用户的特定闹钟的特征相匹配的特征(如由响应于该提示捕获的图像得出)的图像的实时图像馈送来触发图像快捷方式。

在一些实施方式中，对图像快捷方式执行的计算机动作附加和/或替选地包括将一个或多个电子通信发送给其他用户。例如，用户可以向自动助理应用提供说出的输入“when I direct the camera at my car key while at work,give me a trafficupdate and text the traffic update to my wife(当我在工作时将相机指向我的车钥匙时，给我交通更新并且将该交通更新发短信给我的妻子)”。响应于该说出的输入，可以生成图像快捷方式，该图像快捷方式响应于确定用户在工作中并且来自用户的计算设备的相机的实时图像馈送捕获具有指示“车钥匙”的特征的图像，使交通更新呈现在计算设备(和/或用户的另一计算设备)上，并且使包括交通更新的文本消息被自动生成并且自动地发送给用户的“妻子”联系人。

作为本文公开的实施方式的另一示例，在执行他/她的早上例程时，用户可能希望看到存储在他们的便携式计算设备上的他们的日程安排。尽管用户可以使用说出的命令来调用自动化助理以查看日程安排(例如，“Assistant,could you please show me myagenda？(助理，能显示我的日程安排吗？)”)，但用户可以相反地将自动化助理配置为当便携式计算设备的相机指向具有一个或多个特定特征的对象时自动地提供日程安排。用户可以使用说出的命令诸如“Assistant,when I direct the camera at a mirror in themorning,please display my agenda(助理，当我早晨将相机指向镜子时，请显示我的日程安排)”来配置此设置。作为响应，自动化助理可以使得解析说出的命令，以便识别与新图像快捷方式配置有关的文本。然后，可以在稍后时间为用户生成和存储新的图像快捷方式配置。例如，新的图像快捷方式配置可以响应于确定：当前是“早晨”；并且由相机捕获的图像包括镜子，使得经由便携式计算设备，向用户可听和/或图形地提供用户的当前日程安排。例如，第二天早上，用户可以在其便携式计算设备上打开相机应用，并且将相机指向其镜子。响应于为“早晨”并且将相机指向镜子，自动化助理可以使当天的用户日程安排被呈现在便携式计算设备上。

在各种实施方式中，本文所述的上述和其他技术使得用户能够与自动化助理交互并且从自动化助理获得相关输出，无需用户提供费力的键入输入和/或无需用户提供会导致隐私问题的说出的输入(例如，如果附近有其他人)。此外，各种实施方式可以相对于其他技术减少获得相关输出所需的输入量，这可以节省客户端设备的计算资源和/或帮助用户解决语音和/或灵活性问题。另外，本文公开的各种实施方式在客户端设备本地地执行图像的处理以确定图像中包含的对象的特征。在那些各种实施方式中的一些实施方式中，客户端设备基于所确定的特征、以及可选地还基于本地确定的场境数据(例如，当前时间、一周中的当前日期、客户端设备的当前位置)，进一步本地地确定是否实例化图像快捷方式设置。此外，客户端设备自身可以响应于确定实例化了图像快捷方式设置而本地地执行图像快捷方式设置的计算机动作，或者可以将查询和/或其他数据发送到一个或多个远程设备以使得执行一个或多个计算机操作(无需传送图像和/或场境数据)。以这种方式，可以在客户端设备上维护图像和/或场境数据，无需从客户端设备发送图像以使得执行图像快捷方式设置的计算机动作，从而增强了这些图像和/或场境数据的安全性。

在一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括诸如下述的步骤：由助理应用确定来自计算设备的相机的实时图像馈送包括对象的图形表示。确定可以包括使用一种或多种图像处理技术，处理来自相机的图像。步骤还可以包括识别与对象相关联的图像快捷方式设置。图像快捷方式设置可以对应于预配置过程，通过预配置过程，助理应用对实时图像馈送中提供的图像内容进行响应。步骤可以进一步包括生成与图像快捷方式设置相关联的查询。查询可以包括助理应用根据图像快捷方式设置而提供的数据的类型的数据标识符。另外，步骤可以包括基于查询接收数据，数据对应于与图像快捷方式设置相关联的数据的类型。响应于确定实时图像馈送包括对象的图形表示，并且基于与对象相关联地存储的图像快捷方式设置，一个或多个处理器可以执行使得与实时图像馈送一起，在计算设备处渲染对象数据的步骤。

查询可以进一步包括用于来自相机的实时图像馈送的场境的场境标识符。场境标识符可以识别相机提供实时图像馈送的位置。图像快捷方式设置可以由用户通过口头命令预先配置，口头命令至少部分地经由助理应用处理。步骤还可以包括将查询传送到计算设备处的单独的应用，其中，从单独的应用接收数据。数据的类型可以对应于与助理应用无关地改变的动态数据。可以从响应于来自助理应用的查询的远程设备接收数据。

在其他实施方式中，一种系统可以被阐述为包括相机；显示设备；扬声器；与相机、显示设备和扬声器通信的一个或多个处理器；以及存储器，存储器被配置为存储指令，指令当由一个或多个处理器执行时，使一个或多个处理器执行包括下述的步骤：基于来自由相机提供的实时图像馈送的图像来生成对象标识符。产生对象标识符可以包括使用一种或多种图像处理技术来处理图像。步骤还可以包括确定对象标识符对应于图像快捷方式设置。图像快捷方式设置可以使得响应于出现在实时图像馈送中的对象而提供数据。步骤可以进一步包括将查询发送到被配置为响应于接收到查询来检索数据的远程设备；从远程设备接收与图像快捷方式设置相关联的数据；以及使得经由显示设备和扬声器中的至少一个来呈现数据。

数据可以与在显示设备上显示的实时图像馈送同时呈现。步骤可以进一步包括由实时图像馈送确定图像的场境标识符，其中，查询包括场境标识符。场境标识符可以指定由相机生成图像的位置。系统还可以包括麦克风，并且步骤可以进一步包括从麦克风接收与来自用户的、促使产生图像快捷方式设置的请求相对应的音频数据。可以当相机提供不同的图像时，接收音频数据。步骤可以进一步包括从音频数据识别对象描述；确定对象描述与不同图像之间的对应关系；以及至少基于对象描述来生成图像快捷方式设置。

在其他实施方式中，一种非暂时性计算机可读介质被阐述为存储指令，指令当由一个或多个处理器执行时，使得一个或多个处理器执行包括下述的步骤：接收与对助理应用的请求相对于的音频数据以创建图像快捷方式设置；以及从由计算设备的相机生成的实时图像馈送中接收图像数据，其中，助理应用可以由计算设备访问。步骤还可以包括从音频数据中识别对来自助理应用的数据的请求，并且从图像数据识别与计算设备的相机所指向的对象相对应的对象标识符。识别对象标识符的步骤可以包括使用一种或多种图像处理技术来处理图像数据。步骤可以进一步包括基于请求和对象标识符来生成图像快捷方式设置。图像快捷方式设置可以被配置为使得助理应用响应于由相机生成的实时图像馈送。另外，步骤可以包括响应于相机提供与对象标识符相关联的不同图像数据，使得助理应用根据图像快捷方式设置来提供数据。

在一些实施方式中，步骤可以包括从不同的图像数据中识别相机先前指向的对象，以及访问提供对应于该请求的数据的远程服务。识别与对象相对应的对象标识符的步骤可以包括识别与计算设备的相机指向的多个不同对象相对应的多个对象标识符。图像快捷方式设置可以进一步基于多个对象标识符。在一些实施方式中，步骤还可以包括从音频数据或图像数据中识别请求的场境标识符。可以进一步基于场境标识符来生成图像快捷方式设置。场境标识符可以识别请求的时间，并且助理应用可以进一步响应于相机在所识别的时间提供不同的图像数据来提供数据。

在其他实施方式中，提出了一种由一个或多个处理器实施的方法，该方法包括使用一种或多种图像处理技术来处理来自计算设备的相机的图像，并且基于该处理确定图像包含一个或多个特征。该方法进一步包括识别与一个或多个特征相关联的图像快捷方式设置。图像快捷方式设置定义响应于确定图像包括一个或多个特征而要执行的一个或多个计算机动作。该方法进一步包括响应于确定图像包括一个或多个特征并且基于与该一个或多个特征相关联地存储的图像快捷方式设置来执行一个或多个计算机动作。

一个或多个计算机动作可以包括使得命令被发送到至少一个外围设备，其中，该命令使得至少一个外围设备的状态被改变。一个或多个计算机动作可以附加地或替选地包括发送查询，响应于该查询而接收数据，以及使该数据被呈现在该计算设备处和/或链接到该计算设备的另一计算设备处。可以可选地基于一个或多个特征和/或基于与图像的捕获相关联的场境数据来生成查询。一个或多个计算机动作可以附加地或替选地包括使得电子通信(例如，电子邮件、文本消息)被发送到另外的用户的另外的计算设备。图像可以来自相机的实时图像馈送。

在其他实施方式中，提出了一种由一个或多个处理器实施的方法，该方法包括：接收与创建图像快捷方式设置的请求相对应的音频数据；以及从计算设备的相机生成的实时图像馈送接收图像数据。该方法进一步包括：从音频数据中识别要执行的一个或多个计算机动作；以及从图像数据中识别与计算设备的相机所指向的对象相对应的对象标识符。标识对象标识符包括使用一种或多种图像处理技术来处理图像数据。该方法进一步包括基于该请求和对象标识符来生成图像快捷方式设置。图像快捷方式设置被配置为响应于从来自相机的后续实时图像馈送的后续图像数据中识别出对象标识符来使得执行一个或多个计算机动作。该方法进一步包括响应于从后续图像数据中识别出对象标识符，使得根据图像快捷方式设置来执行一个或多个计算机动作。

一个或多个计算机动作可以包括向至少一个外围设备发送命令，其中，命令使得至少一个外围设备的状态被改变。该方法可以进一步包括从音频数据或图像数据中识别请求的场境标识符，并且进一步基于场境标识符来生成图像快捷方式设置。场境标识符可以识别至少一个时间和/或至少一个位置，以及使得根据图像快捷方式设置执行一个或多个计算机动作可以进一步响应于在与至少一个时间匹配的时间，和/或在与至少一个位置匹配的位置处提供的后续图像数据。

此外，一些实施方式包括一个或多个计算设备的一个或多个处理器，其中，一个或多个处理器可操作以执行存储在相关联的存储器中的指令，以及其中，所述指令被配置为使得执行本文所述的一种或多种方法。处理器可以包括一个或多个图形处理单元(GPU)、中央处理单元(CPU)和/或张量处理单元(TPU)。一些实施方式包括一种或多种非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以实现本文所述的一种或多种方法的计算机指令。

应当理解到，本文更详细所述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如，出现在本公开的结尾处的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。

附图说明

图1示出了能够根据由用户创建的图像快捷方式设置来响应于相机图像以提供自动化助理的系统。

图2A示出了计算设备的视图，该计算设备操作能够根据来自用户的指令来生成图像快捷方式设置的助理应用。

图2B示出了计算设备的视图，该计算设备通过将计算设备的相机指向与图像快捷方式设置相关联的对象来对用户初始化图像快捷方式设置提供响应。

图3A示出了用于配置助理应用的图像快捷方式设置的计算设备的视图。

图3B示出了根据图像快捷方式设置来操作助理应用的计算设备的视图。

图4A示出了用于布置图像快捷方式设置的计算设备的视图，该图像快捷方式设置可以使得助理应用至少基于由助理应用接收的场境数据来提供数据或执行动作。

图4B示出了用户将计算设备的相机指向列车站以便使助理应用根据先前生成的图像快捷方式设置来执行动作的视图。

图5A示出了其中，计算设备上运行的助理应用响应于用户将计算设备的相机指向镜子而操作的用户创建图像快捷方式设置的视图。

图5B示出了用户根据图像快捷方式设置调用助理应用来执行功能的视图。

图6示出了用于根据助理应用的图像快捷方式设置使助理应用向用户提供数据的方法。

图7示出了用于至少根据来自用户的命令以生成图像快捷方式设置的方法。

图8是示例计算机系统的框图。

具体实施方式

本文公开的实施方式涉及图像快捷方式设置，当计算设备的相机指向一个或多个对象时，该图像快捷方式设置可以使助理应用执行一个或多个功能。例如，在执行他们的早上例程时，用户可能希望看到存储在他们的便携式计算设备上的他们的日程安排。尽管用户可以使用口头命令来调用自动化助理以查看日程安排(例如，“Assistant,could youplease show me my agenda？”)，但用户反而将自动化助理配置为当便携式计算设备的相机指向具有一个或多个特定特征的对象时自动地提供日程安排。用户可以使用说出的命令诸如“Assistant,when I direct the camera at a mirror in the morning,pleasedisplay my agenda”来配置此设置。作为响应，自动化助理可以使得解析说出的命令，以识别与新图像快捷方式配置有关的文本。然后，可以生成和存储新的图像快捷方式配置用于在稍后时间使用。例如，新的图像快捷方式配置可以响应于确定：当前是“早晨(themorning)”并且由相机捕获的图像包括镜子，使得经由便携式计算设备，向用户可听和/或图形地提供用户的当前日程安排。例如，第二天早上，用户可以在其便携式计算设备上打开相机应用，并且将相机指向其镜子。响应于为“早晨”并且将相机指向镜子，自动化助理可以使当天的用户日程安排被呈现在便携式计算设备上和/或用户的另一计算设备上。例如，用户可以将便携式手表的相机指向他们的镜子，并且作为响应，可以在用户的智能手机、用户的智能电视或用户的独立语音激活扬声器上可听和/或图形地呈现用户的日程安排。

在一些实施方式中，用户可以配置自动化助理以提供与由便携式计算设备的相机生成的图像有关的信息。例如，当用户将相机指向天空时，用户可以口头地指示自动化助理提供天气信息(例如，“Assistant,when I face the camera at the sky,please provideme with weather information(助理，当我将相机面对天空时，请向我提供天气信息)”)。此后，当用户将相机面对天空时，自动化助理可以向天气应用或网站查询天气数据，并且将天气数据呈现在便携式计算设备的显示器上和/或另一计算设备的显示器上。在一些实施方式中，自动化助理可以将便携式计算设备的地理位置与相机捕获的天空图像结合使用以提供天气信息。例如，自动化助理可以生成查询，该查询包括从图像导出的位置和/或对象信息。可以将查询提供给天气应用、天气网站和/或任何其他天气信息源。然后，自动化助理可以接收特定于相机捕获的位置和/或图像的天气信息。特定于该位置的天气信息可以包括与温度、湿度、降水、云量和/或任何其他特定于该位置的天气信息相对应的预报。

在一些实施方式中，可以在提供识别图像内的对象的服务的计算设备或远程设备处处理由相机捕获的图像，以便由自动化助理提供的信息可以基于所识别的对象。例如，当用户配置自动化助理以当用户将相机指向天空时提供天气信息时，可以识别天空中的对象并且将其用作提供天气信息的基础。这样的对象可以包括云或不存在云。如果不存在云，则自动化助理可以至少基于用户可以推断云覆盖的状态的假设来提供天气信息，无需有关云覆盖的详细信息。

在一些实施方式中，用户可以将自动化助理配置为响应于来自相机的图像，同时还考虑捕获图像的时间和/或位置和/或任何其他场境数据。例如，当用户将相机指向列车站时，用户可以向自动化助理指示他们想要交通信息(例如，“Assistant,could youplease provide transit information when I direct the camera at a trainstation？(助理，当我将相机指向列车站时，您能提供交通信息吗？)”)。作为响应，当用户随后将相机指向列车或列车站时，自动化助理可以提供交通信息。交通信息可以基于相机捕获列车或列车站的图像的时间、星期几和/或特定日期、便携式计算设备的当前位置、所存储的用户个人信息(例如，用户的日历、用户的家庭或工作地址)和/或任何其他场境数据。例如，如果在工作日的早晨捕获图像，则自动化助理可以确定从便携式计算设备的当前位置到用户的工作地址的交通信息。例如，自动化助理可以生成并提交寻求从当前位置到工作位置的公共交通路线的查询。可以响应于查询而接收交通信息，并在便携式计算设备处将其提供给用户以呈现。另一方面，如果用户捕获图像的时间是晚上，则自动化助理可以检索并提供与前往用户的家有关的交通信息。作为又一示例，如果用户的日历指示在特定位置的即将到来的约会，则自动化助理可以检索并提供与前往该特定位置有关的交通信息。在其他实施方式中，当用户在晚上将他们的相机指向列车或列车站时，自动化助理可以由用户配置来提供媒体以阅读、观看或收听(例如，文章、播客等)(例如，“Assistant,couldyou please provide me with a podcast when I point the camera at a trainduring a work night(助理，当我在工作之夜将相机指向列车时，能否为我提供播客)”)。以这些和其他方式，用户不必必须提供口头或文本命令来调用自动化助理以向用户提供信息。

在一些实施方式中，用户可以配置自动化助理以响应于用户将相机指向特定对象提供存储在其设备上或通过其设备可访问的信息。例如，用户可以将自行车锁密码存储在他们的便携式计算设备的笔记中。当用户将便携式计算设备的相机指向自行车锁时，用户可以指示自动化助理创建自行车锁密码的图像快捷方式。换句话说，用户可以使用诸如“Assistant,when I direct the camera at my bike lock,please provide me withthe bike lock code in my notes(助理，当我将相机指向自行车锁时，请为我提供我的笔记中的自行车锁密码)”的命令来调用自动化助理。此后，当用户将相机指向自行车锁时，自动化助理可以使自行车锁密码呈现出来，或者可以使包括自行车锁密码的笔记应用在向用户呈现自行车锁密码的状态下打开。可以与相机应用提供相机所指向的自行车锁的实时图像馈送同时地选择性地呈现自行车锁密码。

在其他实施方式中，当便携式计算设备的相机指向特定对象时，自动化助理可以被配置为从远程设备提供信息。例如，用户可以配置自动化助理当用户将便携式计算设备的相机指向度假屋的门时提供度假屋的安全码。可以通过响应于诸如“Assistant,pleaseprovide the security code to this door when I direct the camera at the door(助理，当我将相机指向门时，请提供该门的安全码)”的命令来配置自动化助理。自动化助理提供的信息(例如，安全码)可以基于相机捕获的图像、便携式计算设备的位置和/或来自远程设备的数据。例如，可以从发送给用户的电子邮件中提取安全码，并将其存储在便携式计算设备可访问的电子邮件服务器处。自动化助理可以向电子邮件服务器(或相关服务器)提供查询，以检索安全码。该查询可以可选地包括拍摄图像的位置的标识符，以便从用户的其他电子邮件中提取的多个候选安全码(例如，可以对应于其他位置的安全码)中识别安全码。当自动化助理检索到安全码时，可以在用户将相机指向度假屋的门口时，在便携式计算设备的显示器上呈现安全码。备选地，自动化助理可以通过不同的介质(例如，通过文本消息、音频公告等)提供安全码。例如，自动化助理可以将安全码转换为音频，然后由便携式计算设备的扬声器进行放映(例如，“Assistant,when I point the camera at this door,could you please tell me the security code for the door？(助理，当我将相机指向这扇门时，能否请您告诉我该门的安全码？)”)。此后，当用户将相机指向门时，自动化助理可以可听地提供安全码(例如，“The security code from your email is 2,7,1,8,2(电子邮件中的安全码为2、7、1、8、2)”)。

现在转到附图，图1示出了用于提供自动化助理的系统100，该自动化助理能够根据用户创建的图像快捷方式设置来响应相机图像。自动化助理可以操作为在计算设备102或远程设备124诸如服务器设备112上提供的助理应用118的一部分。用户可以经由助理接口110与自动化助理进行交互，该助理接口可以是麦克风、相机、触摸屏显示器、用户接口和/或能够在用户和应用之间提供接口的任何其他设备。例如，用户可以通过向助理接口110提供口头、文本或图形输入来初始化自动化助理，以使自动化助理执行功能(例如，提供数据、控制外围设备、访问代理等)。计算设备102可以包括相机106，用于捕获相机106可以指向的对象的图像和/或视频。相机106可以在指向对象的同时生成图像数据，并且可以在计算设备102的显示设备108处显示图像数据。以这种方式，计算设备102可以在显示设备108处提供相机106所指向的实时图像馈送。显示设备108可以是包括触摸接口的显示面板，用于接收触摸输入和/或手势，以允许用户经由触摸接口来控制计算设备102的应用。

尽管在图1中示出了单个计算设备102，但是，在各种实施方式中，多个计算设备可以在执行本文公开的各种技术时与助理应用118连接。例如，可以基于经由计算设备102的相机106捕获的图像来触发图像快捷方式，并且可以响应于图像快捷方式的触发，在单独的计算设备处可听和/或图形地呈现该图像快捷方式的响应数据。单独的计算设备可以链接到计算设备102。例如，可以基于同一用户账户用在两个计算设备处、基于两个计算设备都连接到同一安全网络、基于两个计算设备处于彼此的直接对等通信等，将单独的计算设备链接到计算设备102。作为另一示例，可以基于经由计算设备102的相机106捕获的图像来触发图像快捷方式，并且所触发的图像快捷方式可以使助理应用118发送使得一个或多个外围设备(例如IoT设备)的状态变更的命令。例如，可以将命令传送到联网的“智能”灯，使该灯打开或关闭、更改其流明输出、更改其光输出颜色等。同样，例如，命令可以附加或替选地传送到联网的“智能”恒温器，该恒温器使其更改加热或致冷系统的设定温度、打开或关闭加热或致冷系统等。同样，例如，命令可以附加地或替选地被发送到使车库门打开或关闭的联网的“智能”车库门开启器。

计算设备102可以通过诸如互联网的网络122与远程设备124通信。计算设备102可以将计算任务卸载到服务器设备112以便节省计算设备102处的计算资源。例如，服务器设备112可以托管助理应用118，而计算设备102可以将在助理接口110处接收到的输入传输到服务器设备112。然而，在一些实施方式中，助理应用118可以被托管在计算设备102处。在各种实施方式中，可以在计算设备102上实施助理应用118的全部或方面。在那些实施方式中的一些实施方式中，助理应用118的各方面经由计算设备102的本地助理应用来实现，并与实现该助理的其他方面的服务器设备112连接。服务器设备112可以可选地经由多个线程为多个用户及其关联的助理应用提供服务。在经由计算设备102的本地助理应用来实现助理应用118的全部或方面的实施方式中，本地助理应用可以是与计算设备102的操作系统分离的应用(例如，安装在操作系统的“上方”)或替选地通过计算设备102的操作系统直接实现(例如，被认为是操作系统的应用程序，但与操作系统集成在一起)。

服务器设备112可以包括用于处理由计算设备102提供的数据的其他应用和/或脚本。例如，服务器设备112可以包括图像处理引擎114，其能够处理来自计算设备102的相机106的图像并且提供与图像中的对象相对应的对象标识符。图像处理引擎114可以采用一种或多种算法，诸如计算机视觉算法，以处理来自相机106的图像。计算机视觉算法可以对应于能够对图像的像素进行分割并将像素的片段指定为对象的像素分组或像素分类算法。图像处理引擎114和/或助理应用118可以使用可以根据逐个像素或逐个像素组对图像进行分类当一种或多种技术由图像生成不同的对象标识符。例如，图像的每个N×N像素组可以与一个或多个相应的对象标识符(可选地，多个对象标识符中的每一个的相应概率)相关联。例如，与自行车的轮胎相对应的一组像素可以与“轮胎”对象分类最紧密地关联，而与自行车的其他部分相对应的像素组可以与“自行车”分类最紧密地关联。可以利用附加和/或替代的图像处理技术来生成对象标识符。

在一些实施方式中，图像处理引擎114可以包括图像搜索引擎，该图像搜索引擎使用图像作为对互联网搜索引擎的搜索查询以识别图像中的对象。可替选地，图像处理引擎114可以采用一个或多个机器学习模型来识别由计算设备102提供的图像内的对象。响应于图像处理引擎114处理图像，可以由图像处理引擎114和/或助理应用118生成与图像中的对象相对应的对象标识符。助理应用118可以在生成图像快捷方式设置120时使用对象标识符。

图像快捷方式设置120可以被预置有助理应用118，或者至少通过与助理应用118的用户交互来设置。图像快捷方式设置120可以是使得助理应用118响应于用户将相机106指向特定对象而提供数据或以其他方式执行动作的应用设置。图像快捷方式设置120可以由用户通过说出的命令和相机106提供的图像数据的组合来设置。例如，用户可以通过向计算设备102处的助理接口110提供口头命令(例如，“Assistant,could you please providemy shopping list when I point my camera at the refrigerator？(助理，当我将相机指向冰箱时，能向我提供购物清单吗？)”)来初始化图像快捷方式设置120的创建。在提供口头命令的同时，用户可以将相机106指向对象，以使助理应用118接收对象的图像。图像可以由图像处理引擎114处理，并且图像处理引擎114可以向助理应用118提供与对象相对应的对象标识符。此外，可以在计算设备102处将口头命令捕获为音频数据，并在服务器设备112处将其传送到语音到文本引擎116。

语音到文本引擎116可以处理音频数据以识别嵌入音频数据中的文本。用于将音频数据转换为文本的过程可以包括语音识别算法，该语音识别算法可以采用神经网络和/或统计模型来识别与单词或短语相对应的音频数据组。从音频数据转换的文本可以作为文本数据对助理应用118可用，该文本数据可用于生成图像快捷方式设置120，取决于文本数据的内容。例如，当文本数据包括识别相机或图像的条件语句以及要由助理应用118执行的动作时，助理应用118可以基于文本数据生成图像快捷方式设置120。此外，还可以与图像快捷方式设置120相关联地存储由相机提供的图像生成的对象标识符。以这种方式，助理应用118可以具有参考，该参考将与相机提供的未来图像进行比较。

例如，可以通过语音到文本引擎116，将短语“Assistant,please provide myshopping list when I point my camera at the refrigerator(助理，当我将相机指向冰箱时，请向我提供购物清单)”处理为文本，并且可以由助理应用118解析该文本。助理应用118可以从命令“提供购物清单”识别用户希望创建图像快捷方式设置120，并且识别对象描述符“冰箱”和设备标识符“相机”。如果用户将相机指向冰箱，则图像处理引擎114可以处理冰箱的一个或多个图像，以生成对象标识符(例如“冰箱”)。可以与图像快捷方式设置120相关联地存储图像和/或对象标识符，使得下次用户将相机指向冰箱时，可以由助理应用118执行命令(例如，“提供我的购物清单”)。

在一些实施方式中，服务器设备112可以包括一个或多个机器学习模型，该机器学习模型利用相机106先前捕获的图像来训练，以加快识别图像中的对象的过程。此外，助理应用118可以访问用户的购买历史，以更容易地识别来自相机106的图像中的对象。例如，助理应用118可以访问托管用户在其中购买了他们的冰箱的购物应用以及标识该冰箱的第一数据132的第一远程设备126。第一数据132可以包括冰箱的图像，从而允许助理应用118将来自相机106的图像与来自第一数据132的图像进行比较。这允许助理应用118确认用于创建图像快捷方式设置120的口头命令中的文本实际上对应于图像中的对象(例如，冰箱)。

在其他实施方式中，与来自相机的图像数据和来自用户的说出的命令的文本数据相结合的场境数据可以被用于生成图像快捷方式设置。例如，当用户提供命令“Assistant,please provide my shopping list when I point my camera at the refrigerator”时，助理应用118可以确认用户或计算设备的地理位置。助理应用118可以确定地理位置对应于用户的家，并因此确定图像中的冰箱归用户所有。这避免了当用户将相机指向不同的冰箱并且助理应用118提供购物清单时的情况。替选地，助理应用118可以接收具有地理位置的图像数据(例如，冰箱的图像)并且在提供购物清单之前或者以其他方式履行与该图像快捷方式设置120相关联的请求之前，确认该地理位置对应于用户的住所。

在其他实施方式中，可以设置图像快捷方式设置120以使助理应用118提供存储在与计算设备102分开的设备上的数据。例如，用户响应于将相机106指向冰箱而请求的上述购物清单可以存储在包括第二数据134的第二远程设备128和/或包括第N数据136的第N远程设备130处。因此，根据图像快捷方式设置120，助理应用118可以查询与计算设备102或服务器设备112不同的远程设备(例如，第一远程设备126)以获得购物清单。在一些情况下，购物清单可以由第一远程设备126上托管的网站或应用管理。替选地，图像快捷方式设置120可以包括对可以定期改变的动态数据(例如，天气数据、新闻等)的请求。因此，响应于用户将其相机106指向与预配置图像快捷方式设置120相关联的对象，助理应用118可以查询一个或多个远程设备(例如，新闻网站服务器)以接收动态数据。

图2A示出了计算设备202的视图200，该计算设备202操作能够根据来自用户的指令来生成图像快捷方式设置的助理应用。具体而言，图2A示出了当用户将计算设备202的相机指向作为图像快捷方式设置的主题的对象(例如，天空)时，计算设备202用于设置图像快捷方式设置。为了设置图像快捷方式设置，用户可以将(例如，在远离接口206的计算设备202的背面上的)相机指向天空，并且将口头命令提供给计算设备202的麦克风208。口头命令可以指定图像快捷方式设置的条件，诸如如由输入文本204(“When I point at thesky,show me the weather(当我指向天空时，向我展示天气)”)所述的将相机指向天空。可以将口头命令捕获为音频数据并在计算设备202或远程设备处进行处理以将音频数据转换为文本。此后可以处理或解析命令的文本，以确定如何响应命令。

计算设备202可访问的助理应用可以处理文本以确定响应于接收到音频数据而采取的动作。例如，术语“When I point(当我指向)”可以是条件，术语“show me the weather(向我展示天气)”可以是动作，术语“sky(天空)”可以是条件的主语的对象。助理应用还可以使用来自计算设备202的相机的一个或多个图像以生成图像快捷方式设置。例如，如图2A所示，用户可以在提供用于初始化图像快捷方式设置的创建的口头命令的同时，将计算设备202的相机指向天空。来自相机的图像可以由计算设备202或单独设备进行处理以识别图像中的对象。当图像中的对象也由口头命令中的文本标识时，可以认为该对象对于图像快捷方式设置必不可少。例如，也可以在输入文本204中标识在接口206中以图形表示的天空。图像和口头命令之间的这种对应关系可以体现在由助理应用管理并与图像快捷方式设置相关联地存储的索引中。

在一些实施方式中，生成图像快捷方式设置可以基于从计算设备202的一个或多个传感器接收的传感器数据。例如，可以从相机、陀螺仪传感器、加速度计、触摸传感器、音频传感器、红外传感器、温度传感器、心率监视器、化学传感器、电容传感器和/或任何其他传感器提供传感器数据。例如，助理应用可以存储要求陀螺仪传感器指向地平线或地平线以上的条件，以至少部分地满足用于提供天气的图像快捷方式设置。替选地，图像快捷方式设置可以被存储为可变条件设置，其根据用户或计算设备202的地理位置为不同位置提供天气。例如，对应于图像快捷方式设置的功能可以包括用于对象标识符(例如，“天空”)的槽(slot)、位置(例如，来自GPS发射机的坐标或由其他应用(诸如日历应用)收集的位置数据)和/或一天中的某个时间(例如，9:00AM EST)。以这种方式，响应于用户调用图像快捷方式设置而提供的天气数据可以根据调用图像快捷方式设置的对象、位置和/或时间而不同。例如，用户可以将相机在早晨(例如，一天中的时间＝9:00AM EST)指向天空，以获取当天其余时间的天气，或者将相机在晚上(例如，一天中的时间＝10:00PM EST)指向天空以获取第二天的天气。

图2B示出了计算设备202的视图200，其对通过将计算设备202的相机指向与图像快捷方式设置相关联的对象的用户初始化图像快捷方式设置提供响应。具体地，用户可以通过将他们的相机指向诸如天空的对象来根据图像快捷方式设置，初始化要执行的动作。相机可以提供可以在计算设备202的接口206处呈现的实时图像馈送。当实时图像馈送包括天空时，助理应用可以使接口206响应于相机指向天空而提供数据或执行一些动作。例如，在接口206处呈现的图像可以包括一定量的天空(例如，云214)，从而触发自动化助理根据图像快捷方式设置执行提供天气数据的动作。

在一些实施方式中，可以对来自在接口206处提供的实时图像馈送的图像进行采样，并将其提供给训练后的机器学习模型，该模型能够响应于接收到采样图像而提供对象标识符(例如，“天空”)。此后，助理应用可以使用对象标识符来根据图像快捷方式设置确定是否要执行动作。替选地，可以将采样的图像提供给图像搜索数据库，该图像搜索数据库能够将采样的图像与其他存储的图像进行比较以识别图像中的对象的标识符。如果一个或多个对象与一个或多个图像快捷方式设置相对应，则可以根据相应的图像快捷方式设置执行一个或多个动作。

在一些实施方式中，可以从采样图像中推断出场境数据或场境标识符，并用来确定是否满足图像快捷方式设置的条件。例如，用户可以指示自动化助理根据从相机图像中推断的条件来创建图像快捷方式设置(例如，“Assistant,when I point the camera atthe sky in the morning,please send my wife a text that says'Good morning！’(助理，当我早晨将相机指向天空时，请给我妻子发送文字'早上好！')”)。随后，用户可以将相机指向早晨的天空(即，太阳越过地平线)，其可以由助理应用、计算设备202或远程设备进行处理，以确定该图像在早上被捕获。如果用户实际上是在早上将相机指向天空，则可以执行与图像快捷方式设置相对应的操作(例如，一条文字消息“Good morning！(早上好！)”可以被发送给标记为“wife(妻子)”的联系人)。替选地，可以从计算设备202或远程设备处的时钟推断与图像相关联的时间。在一些情况下，用户可以请求在用户旅行且相机在早晨指向天空时发送文本消息。以这种方式，天空的图像以及图像的时间和位置可以是将从计算设备202发送文本消息的条件。

图3A示出了用于配置助理应用的图像快捷方式设置的计算设备302的视图300。具体地，图像快捷方式设置允许用户响应于将其相机指向一个或多个对象而接收存储在其计算设备302处或以其他方式可由其计算设备302访问的数据。最初，用户可以提供口头命令(例如，经由计算设备302的麦克风304)或文本命令(例如，使用计算设备302的键盘)。该命令可以提供图像快捷方式设置的对象、条件和/或动作。例如，如在用户输入306中所提供的(即，由助理应用转录的口头命令)，用户可以请求助理应用提供用于用户附接到他们的自行车以在特定位置处保护自行车的自行车锁的密码。助理应用可以解析命令中的文本，以生成由助理应用管理的图像快捷方式设置。例如，可以对文本进行解析以便识别要输入到用于生成图像快捷方式设置的功能的槽中的数据。要输入到功能中的数据可以包括“"whenI point(当我指向)”、“bike lock(自行车锁)”和“code(密码)”。此外，该功能可以包括用户必须使用相机应用或以其他方式满足功能条件来定向相机的条件。此后，当用户将他们的相机指向自行车锁308时，助理应用可以使自行车锁密码出现在接口310上，或者可听地宣布自行车锁密码。

在一些实施方式中，作为图像快捷方式设置的初始主题的图像可以被处理以识别图像内的多个对象，这些对象可以被用来触发助理应用的动作。例如，尽管用户已经建议当相机指向自行车锁时，助理应用提供自行车锁密码，但是可以处理接口310处的图像以识别除自行车锁308之外的其他对象。附加对象可以包括自行车轮胎312，其在被识别时可以提供场境数据，该场境数据可以为助理应用采取行动提供进一步的基础。例如，除非自行车锁附接到自行车，否则用户可能对看到他们的自行车锁密码不感兴趣。因此，可以将图像快捷方式设置生成为仅在将相机指向自行车锁和自行车轮胎312时提供自行车锁密码，从而避免了将相机以其他方式将相机指向自行车锁308时的情况。例如，用户可以将相机指向书架以获取有关他们的一本书的信息，而自行车锁可以放在书架上。但是，由于当指向书架时，自行车轮胎312未出现在相机的视野中，因此助理应用可以忽略提供自行车密码，而是提供有关书籍的信息。

在一些实施方式中，用户可以轻敲旨在为图像快捷方式设置的条件对象的图像的部分或在图像的该部分周围画线。例如，用户可以将他们的相机指向诸如自行车锁308的对象，并且可以在计算设备或远程设备处处理实时图像馈送或自行车锁308的图像以识别图像内的对象。计算设备还可以识别实时图像馈送或对象(例如，自行车锁308)所在的图像中的区域，并且如果用户轻击该区域内的计算设备的触摸显示器或在该对象周围绘制形状，则该对象被指定为图像快捷方式设置的对象。

在一些实施方式中，计算设备302可以是可穿戴设备，其可以类似于眼镜或其他可穿戴配件被戴在用户的头部。可穿戴设备可以包括显示设备，其可以在用户的眼睛上方延伸；以及相机，其可以在与用户的眼睛基本相同的方向上定向或与用户的眼睛共享观看区域。例如，当用户佩戴可穿戴设备(即，计算设备302)时，用户可以使相机捕获自行车锁308的图像。同时，用户可以使用他们的手指指向自行车锁308，并且通过可穿戴设备向自动化助理朗诵命令。例如，用户可以提供命令“Assistant,when I point to the bike lock,please provide the bike lock code 2-7-1-8(助理，当我指向自行车锁时，请提供自行车锁密码2-7-1-8)”。随后，当用户佩戴可穿戴设备并用手指指向他们的自行车锁308时，自动化助理可以通过可穿戴设备可听地提供自行车锁密码，或者使自行车锁密码呈现在可穿戴设备的显示器上。类似地，用户可以在佩戴可穿戴设备的同时使用他们的眼睛运动，以创建图像快捷方式设置。例如，用户可以将他们的眼睛指向自行车锁308，并且命令自动化助理创建有关眼睛方向和自行车锁308的图像快捷方式设置。该命令可以是例如“Assistant,when I am looking at the bike lock,provide me the bike code 2-7-1-8(助理，当我看向自行车锁时，请提供自行车密码2-7-1-8)”。随后，当用户佩戴可穿戴设备并且看向自行车锁308时，自动化助理可以使可穿戴设备可听地或可视地呈现自行车锁密码。

图3B示出了根据图像快捷方式设置来操作助理应用的计算设备302的视图314。具体地，视图314示出了助理应用如何响应于计算设备302的相机指向对象(例如，自行车锁308)而提供输出316。例如，在经由助理应用创建图像快捷方式设置之后，用户可以接近自行车并且将计算设备302的相机指向自行车锁308。助理应用和/或计算设备302可以处理由相机捕获的自行车锁308的图像，以确定自行车锁308在相机的视野内。作为响应，助理应用可以为用户呈现数据(例如，自行车锁密码)或执行其他操作。

在一些实施方式中，可以执行与图像快捷方式设置相关联的动作(例如，提供数据)的过程，而无需计算设备302在接口310处提供实时图像馈送。而是，用户可以在接口310不显示实时图像馈送的情况下或者在接口未被激活的情况下接近对象，并且仍然使动作被执行。例如，用户可以操作在整个接口310上显示的消息传递应用，并且同时将相机指向对象。作为响应，助理应用可以确认该对象在相机的视野中，并且执行与作为图像快捷方式设置的主题的对象相关联的操作(例如，在消息传递应用接口上方呈现自行车锁密码)。

在其他实施方式中，当计算设备302被锁定时或当计算设备302以其他方式能够操作相对面对的相机时，可以执行与图像快捷方式设置相关联的动作。例如，计算设备302可以包括前置相机(即，与接口310面向相同方向的相机)和后置相机(即，朝向远离接口310的相机)。助理应用可以访问图像快捷方式设置，以在第一对象存在于前置相机的视野中而第二对象存在于后置相机的视野中时提供数据。此外，可以由计算设备302的所有者或计算设备302的非所有者来设置图像快捷方式设置。例如，通过在线服务在家里招待访客的人可以为助理应用创建图像快捷方式设置。主人设置的图像快捷方式设置可以要求访客在访客的计算设备的前置相机上显示自己的脸，同时将其后置相机指向主人的家以进入其家。访客的脸部图像可以由访客上传到主人的网站或与主人相关联的站点，并且可以将来自访客的计算设备的前置相机的图像与上传的图像进行比较。如果网站或其他设备确定前置相机图像对应于上传的图像，则助理应用可以进一步确定后置相机是否同时指向房屋的锁。如果是，托管网站的服务器可以提供访客设备或助理应用的访问密码。在一些实施方式中，图像快捷方式设置还可以要求在接收访问密码之前确认访客的地理位置(例如，确认访客在家里)。

图4A示出了用于布置图像快捷方式设置的计算设备402的视图400，该图像快捷方式设置可以至少基于该助理应用接收的场境数据来使助理应用提供数据或执行动作。例如，用户可以通过向助理应用提供口头命令来初始化图像快捷方式设置的创建(例如，“When I point at the train station,give me a travel schedule(当我指向列车站时，给我旅行日程。)”)。可以在计算设备402的麦克风404处接收口头命令，并在计算设备402或远程设备处将其转换为文本输入406。文本输入406可以由助理应用解析，以识别作为图像快捷方式设置的主体的对象(例如，列车站)和响应于该对象存在于计算设备402的相机的视野中要提供的数据(例如，旅行日程)。

助理应用提供的数据可以根据用户经由图像快捷方式设置调用助理应用的时间而改变。例如，助理应用可以从日历应用、历史旅行数据和/或可以包括位置数据的任何其他数据源中推断出目的地。推断出的目的地可以取决于用户将相机指向列车站408的一天中的时间。例如，当提供用于创建图像快捷方式设置的口头命令时，助理应用可以识别与用户所在的列车站408相对应的列车时刻表。因为列车时刻表是随时间变化的动态数据，助理应用可以与具有槽的功能以及至少对象标识符(例如，“列车站”)相关联地存储图像快捷方式设置。以这种方式，当用户将相机指向列车站408时，作为响应，助理应用可以检索一天中的时间和列车时刻表。在一些实施方式中，响应于用户将相机指向列车站408，助理应用还可以从各种源检索目的地信息。助理应用可以使用目的地信息来根据与列车站408相关联的可用列车时刻表，提供用户到达其预测目的地的估计时间。

图4B示出了用户将计算设备402的相机指向列车站408以使助理应用根据先前生成的图像快捷方式设置执行动作的视图412。可以在计算设备402或远程设备处处理在计算设备402的接口410处提供的列车站408的图像，以便确定该图像包含列车站。然后，助理应用可以接收在图像中标识列车站的对象标识符，并且可选地，助理应用可以确定列车站408的位置和/或捕获图像的一天中的时间。列车站408的位置可以被用来确定列车站408在哪里，以便可以检索适当的列车时刻表。此外，可以检索一天中的时间以识别将要到达列车站408并随后向用户目的地行驶的列车。

如果助理应用能够收集与用户的位置、列车通过列车站408的行驶时间表以及用户捕获列车站408的图像的一天中的时间有关的数据，则助理应用可以为用户生成输出414。具体地，输出414可以包括对从列车站到用户目的地采用的路线的建议。例如，助理应用可以确定用户正在工作并且现在正在列车站408，因此用户可能要回家(除非他们的日历另有说明)。然后，助理应用可以识别去他们家的列车(例如，“Yellow Line(黄线)”)，并提供如果用户乘坐即将到来的列车时用户何时回家的估计(例如，“If you take the YellowLine at computing devices 4:45,you will arrive home at 5:15(如果在计算设备处4：45乘坐黄线，您将在5：15到家)”。以这种方式，用户不必向助理应用提供说出的命令，而是可以简单地将他们的相机指向列车站，以便接收有关在特定时间回家的最佳路线的指令。

图5A示出了用户508创建图像快捷方式设置的视图500，其中，在计算设备502上运行的助理应用响应于用户508将计算设备502的相机指向镜子512。用户508可以通过向计算设备502的接口诸如麦克风504提供口头或文本命令506来初始化图像快捷方式设置的创建。命令506可以包括短语“When I point the camera at a mirror in the morning,give me my agenda(当我早晨将相机指向镜子时，将我的日程安排给我)”。如本文所讨论的，可以在计算设备502或单独的设备处处理该短语，以识别用于生成图像快捷方式设置的参数。因为该短语包括场境条件(例如，“早晨”)，所以与图像快捷方式设置相关联的功能可以包括用于时间的槽。此外，助理可以至少基于用户识别他们自己的属性(即“我的镜子”)来推断位置的场境条件，因此该功能的槽可以对应于位置。以这种方式，仅当用户508在家并且在早晨在他们的镜子前时，提供用户508所请求的日程安排。在一些实施方式中，功能还可以包括与用户508的面部识别相关联的槽。以这种方式，仅当助理应用确定镜子中的脸是用户508的脸而不是正在访问计算设备502的相机的另一个人的脸时，才执行该功能。例如，可以处理在计算设备502的接口510处呈现的图像和/或以其他方式将其与用户508的脸的图像进行比较，以验证接口510处的图像包括用户508的脸。可以由助理应用确认该验证，该助理应用可以继续执行与图像快捷方式设置相关联的功能。

图5B示出了用户508调用助理应用以根据图像快捷方式设置执行功能的视图516。具体地，图5B中所示的用户可以通过将计算设备502指向镜子512以便可以处理用户508和/或镜子512的图像来调用助理应用。如接口510处呈现的用户508的图像可以在计算设备502或远程设备上被处理以识别用户508、计算设备502、镜子512和/或可以与图像快捷方式设置相关联的任何其他对象。可以将基于图像生成的对象标识符以及场境数据或场境标识符诸如一天中的时间、位置和/或可以与图像的场境相关联的任何其他数据一起提供给助理应用。当对象标识符和/或场境数据满足图像快捷方式设置的条件时，可以执行与图像快捷方式设置相关联的功能。例如，响应于用户508将相机指向镜子512，助理应用可以访问计算设备502处的日历应用或托管日历应用的远程设备。助理应用可以检索当天的项目列表，并且使该项目列表在接口510处以图形方式表示，如图5B的输出514中所提供的。以这种方式，用户508能够利用他们的计算设备502执行先前限于通过口头或文本命令来调用的功能。

在一些实施方式中，用户可以通过打开图像以供在计算设备502处显示来使自动化助理执行与图像快捷方式设置相关联的动作。例如，计算设备502可以存储相机胶卷，该相机胶卷包括由计算设备502的相机捕获的图像。替选地，计算设备502可以包括用于在互联网上搜索图像的浏览器。如果计算设备502访问的图像包括与图像快捷方式设置相对应的对象，则自动化助理可以执行与图像快捷方式设置相对应的动作。例如，用户可以设置与在可用于计算设备502的特定图像中识别的人相关联的提醒。建立图像快捷方式设置的命令可以是例如“When you see an image of Matthew,remind me to video call Matthewand Jane(当您看到Matthew的图像时，提醒我与Matthew和Jane视频通话)”。以这种方式，每当用户打开包括Matthew的图像或瘵计算设备502的相机指向Matthew时，自动化助理将使提醒呈现给用户。例如，自动化助理可以生成可听响应，例如“Remember to video callMatthew and Jane(记得与Matthew和Jane视频通话)”。

图6示出了用于根据助理应用的图像快捷方式设置，使助理应用向用户提供数据的方法600。方法600可以由计算设备、服务器设备和/或适合于提供数据的任何其他设备来执行。方法600可以包括框602，在框602，通过助理应用确定来自计算设备的相机的实时图像馈送包括对象的图形表示。该对象可以是在相机生成的图像中捕获的任何有形对象。此外，实时图像馈送可以是在计算设备的图形用户接口(例如，触摸屏显示器)处呈现的视频馈送。助理应用可以是在计算设备或远程设备(例如，与计算设备分离的服务器设备)上托管的自动化助理，并且可以由用户直接或间接地根据用户执行的动作配置。

方法600可以包括框604：识别与对象相关联的图像快捷方式设置。图像快捷方式设置120可以与助理应用通过其响应实时图像馈送中提供的图像内容的预配置过程相关联。例如，该过程可以包括当用户将相机指向食物时，助理应用提供关于食物的营养数据。营养数据可以由用户请求的源或由通过助理应用初始化的搜索引擎查询识别的源提供。

方法600可以包括框606：生成与图像快捷方式设置相关联的查询。该查询可以是对在图像快捷方式设置中识别的数据的请求。该查询可以是访问在计算设备或与计算设备分离的远程设备的应用处可用的数据的请求。然而，在一些实施例中，框606可以包括生成与图像快捷方式设置相关联的命令以用于控制外围设备。以这种方式，响应于用户将他们的相机指向对象，外围设备可以从计算设备接收命令。

方法600可以包括框608，基于查询来接收助理应用所请求的数据。可以从能够响应来自助理应用的查询的单独应用或远程设备接收数据。例如，可以从与已经提供代理应用以帮助用户接收服务(例如，订购物品、由可用数据生成估计等)的第三方相关联的代理应用接收数据。

方法600可以进一步包括框610：使得与在计算设备的接口处显示的实时图像馈送同时渲染数据。例如，用户可以将他们的计算设备的相机指向诸如苹果的食品，以使得助理应用提供关于苹果的营养信息，同时在计算设备的接口处图形地表示苹果。

图7示出了用于至少根据来自用户的命令来生成图像快捷方式设置的方法700。方法700可以由计算设备、服务器设备和/或能够解释来自用户的命令的任何其他设备执行。方法700可以包括框702：接收与对助理应用创建图像快捷方式设置的请求相对应的音频数据。图像快捷方式设置可以对应于助理应用响应于存在于计算设备的相机的视野范围内的一个或多个对象的过程。对象可以由用户指定，并由助理应用或能够使用相机数据和计算机视觉算法识别对象的单独应用标识。

方法700可以包括框704：从由计算设备的相机生成的实时图像馈送接收图像数据。实时图像馈送可以是在相机指向对象时，由相机实时生成的图像数据或传感器数据。实时图像馈送可以在计算设备的图形用户接口(例如，触摸显示接口)处图形地表示，从而允许用户确认该对象在相机的视野范围内。这还允许用户在计算设备处显示对象的同时，提供用于创建图像快捷方式设置的命令。

方法700可以包括框706：从音频数据中识别对来自助理应用的数据的请求。可以通过在计算设备或远程设备(例如，服务器设备)处执行的语音识别算法，使音频数据转换为文本数据来识别对数据的请求。在一些实施方式中，代替在框702处接收到音频数据，可以将文本数据接收为查询或对自动化助理创建图像快捷方式设置的请求。可以在助理接口诸如包括用于接收手工键入的文本数据的一个或多个字段的图形用户接口处接收文本数据。然后，可以由助理应用处理文本数据，以确定请求被包括在框702处接收的数据中，并且标识用户已请求的数据的类型。例如，响应于用户将他们的相机指向天空而接收天气数据的请求可以嵌入在从音频数据或手工键入的文本数据中提取的文本数据中。

方法700还可以包括框708：从图像数据中识别与计算设备的相机所指向的对象相对应的对象标识符。图像数据可以由助理应用、计算设备、单独的计算设备(例如，服务器设备)和/或能够处理图像数据的任何其他设备来处理。可以将图像数据提供给一个或多个机器学习模型以识别图像数据内的对象，或以其他方式将其输入到计算机视觉算法以从图像数据生成对象标识符和对象的位置。此后，当执行与图像快捷方式设置相关联的功能时，助理应用可以使用对象标识符和/或对象的位置。

方法700可以进一步包括框710：基于对数据的请求和对象标识符来生成图像快捷方式设置。图像快捷方式设置可以由助理应用生成以提供当用户将相机指向对象(例如，天空)时用户可以通过其来指示助理应用执行动作(例如，检索天气数据)的过程。以这种方式，用户不必必须向计算设备提供文本或口头输入以检索数据，而是仅将计算设备的相机指向对象。

图8是示例计算机系统810的框图。计算机系统810通常包括经由总线子系统812与多个外围设备通信的至少一个处理器814。这些外围设备可以包括存储子系统824包括例如存储器825和文件存储子系统826、用户接口输出设备820、用户接口输入设备822和网络接口子系统816。输入和输出设备允许用户与计算设备810交互。网络接口子系统816提供到外部网络的接口并且耦合至其它计算机系统中的相应接口设备。

用户接口输入设备822可以包括键盘、指示设备诸如鼠标、轨迹球、触摸板或者图形输入板、扫描仪、并入显示器中的触摸屏、音频输入设备诸如语音识别系统、麦克风和/或其它类型的输入设备。一般而言，使用术语“输入设备”旨在包括将信息输入到计算机系统810中或者到通信网络上的所有可能类型的设备和方法。

用户接口输出设备820可以包括显示子系统、打印机、传真机、或者非可视显示器，诸如，音频输出设备。显示子系统可以包括阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备、或者用于创建可见的图像的一些其它机构。显示子系统还可以提供非可视显示器，诸如，经由音频输出设备。一般而言，使用术语“输出设备”旨在包括将信息从计算机系统810输出至用户或者至另一机器或者计算机系统的所有可能类型的设备和方法。

存储子系统824存储提供本文所述的模块中的一些或者所有的功能的编程和数据结构。例如，存储子系统824可以包括执行方法600、方法700的所选方面，和/或实现计算设备102、计算设备202、计算设备302、计算设备402、计算设备502、服务器设备112、远程设备124和/或本文所讨论的任何其他实施方式中的一个或多个的逻辑。

这些软件模块通常由处理器814单独或者与其它处理器组合执行。用在存储子系统824中的存储器825可以包括多个存储器，该多个存储器包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)830以及存储固定指令的只读存储器(ROM)832。文件存储子系统826可以为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移动介质、CD-ROM驱动器、光盘驱动器、或者可移动介质盒。实现某些实施方式的功能的模块可以由文件存储子系统826存储在存储子系统824中或者可以存储在可由处理器814访问的其它机器中。

总线子系统812提供用于使计算机系统810的各种组件和子系统按照预期的方式彼此通信的机制。虽然总线子系统812被示意性地示出为单个总线，但是总线子系统的替选实施方式可以使用多个总线。

计算机系统810可以有各种类型，包括工作站、服务器、计算集群、刀片式服务器、服务器群、或者任何其它数据处理系统或者计算设备。由于计算机和网络的性质多变，所以图8中图示的计算机系统810的描述仅仅旨在作为为了说明一些实施方式的目的的具体示例。计算机系统810的许多其它配置可能具有比图8中图示的计算机系统更多或者更少的组件。

在本文所述的系统收集有关用户(或如本文所引用的“参与者”)的个人信息或可以利用个人信息的情况下，可以为用户提供控制程序或功能部件是否收集用户信息(例如，有关用户的社交网络、社交动作或活动、职业、用户的喜好或用户当前的地理位置的信息)，或控制是否和/或如何从内容服务器接收与用户更相关的内容的机会。而且，某些数据在被存储或使用之前可能以一种或多种方式处理，以便移除个人身份信息。例如，可以处理用户的身份，以便无法确定该用户的任何个人可识别信息，或者可以概括获得地理位置信息的用户的地理位置(例如到市、邮政编码或州级)，因此无法确定用户的具体地理位置。因此，用户可以控制如何收集有关用户的信息和/或使用该信息。

虽然在本文中已经描述和示出了多个实施方式，但是可以利用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的各种其它装置和/或结构，并且认为这类变形和/或改进中的每一个在本文所述的实施方式的范围内。更一般地，本文所述的所有参数、尺寸、材料和配置是指示例的，并且实际参数、尺寸、材料和/或配置将取决于使用了本教导的具体应用。本领域的技术人员仅仅使用常规实验即将认识或者能够确定本文所述的具体实施方式的许多等同物。因此，将理解到，前述实施方式仅仅以举例的方式呈现，并且在所附权利要求书和其等同物的范围内，可以不同于所具体描述和所要求保护的方式来实现实施方式。本公开的实施方式是针对本文所述的每一单个特征、系统、制品、材料、套件和/或方法。另外，如果这些特征、系统、制品、材料、套件和/或方法并非相互矛盾，则两个或以上这些特征、系统、制品、材料、套件和/或方法的任意组合被包括在本公开的范围内。

Claims

1.一种由一个或多个处理器实现的方法，所述方法包括：

由助理应用确定来自计算设备的相机的实时图像馈送包括对象的图形表示，所述确定包括：使用一种或多种图像处理技术，处理来自所述相机的图像；

识别与所述对象相关联的图像快捷方式设置，所述图像快捷方式设置对应于预配置过程，通过所述预配置过程，所述助理应用对所述实时图像馈送中提供的图像内容进行响应；

生成与所述图像快捷方式设置相关联的查询，所述查询包括所述助理应用根据所述图像快捷方式设置而提供的数据的类型的数据标识符；

基于所述查询接收数据，所述数据对应于与所述图像快捷方式设置相关联的所述数据的类型；以及

响应于确定所述实时图像馈送包括所述对象的图形表示，并且基于与所述对象相关联地存储的所述图像快捷方式设置：

使得所述对象数据与所述实时图像馈送一起在所述计算设备处被渲染。

2.如权利要求1所述的方法，其中，所述查询进一步包括用于来自所述相机的所述实时图像馈送的场境的场境标识符。

3.如权利要求2所述的方法，其中，所述场境标识符识别所述相机提供所述实时图像馈送的位置。

4.如权利要求1所述的方法，其中，所述图像快捷方式设置由用户通过口头命令被预先配置，所述口头命令至少部分地经由所述助理应用来处理。

5.如权利要求1所述的方法，进一步包括：

将所述查询传送到所述计算设备处的单独的应用，其中，从所述单独的应用接收所述数据。

6.如权利要求1所述的方法，其中，所述数据的类型对应于与所述助理应用无关地改变的动态数据。

7.如权利要求6所述的方法，其中，从响应于来自所述助理应用的查询的远程设备接收所述数据。

8.一种系统，包括：

相机；

显示设备；

扬声器；

与所述相机、所述显示设备和所述扬声器通信的一个或多个处理器；以及

存储器，所述存储器被配置为存储指令，所述指令当由所述一个或多个处理器执行时，使所述一个或多个处理器执行步骤，所述步骤包括：

基于来自由所述相机提供的实时图像馈送的图像来生成对象标识符，其中，生成所述对象标识符包括：使用一种或多种图像处理技术来处理所述图像；

确定所述对象标识符对应于图像快捷方式设置，其中，所述图像快捷方式设置使得响应于出现在所述实时图像馈送中的对象而提供数据；

将查询发送到远程设备，所述远程设备被配置为响应于接收到所述查询来检索数据；

从所述远程设备接收与所述图像快捷方式设置相关联的数据；以及

使得经由下述中的至少一个来呈现所述数据：所述显示设备和所述扬声器。

9.如权利要求8所述的系统，其中，所述数据与在所述显示设备上显示的所述实时图像馈送同时被呈现。

10.如权利要求8所述的系统，其中，所述步骤进一步包括：

从所述实时图像馈送确定所述图像的场境标识符，其中，所述查询包括所述场境标识符。

11.如权利要求10所述的系统，其中，所述场境标识符指定由所述相机生成所述图像的位置。

12.如权利要求8所述的系统，进一步包括麦克风，其中，所述步骤进一步包括：

从所述麦克风接收音频数据，所述音频数据与来自用户的、促使生成所述图像快捷方式设置的请求相对应。

13.如权利要求12所述的系统，其中，当所述相机提供不同的图像时，接收所述音频数据。

14.如权利要求13所述的系统，其中，所述步骤进一步包括：

从所述音频数据识别对象描述；

确定所述对象描述与所述不同图像之间的对应关系；以及

至少基于所述对象描述来生成所述图像快捷方式设置。

15.至少一种非暂时性计算机可读介质，所述计算机可读介质被配置为存储指令，所述指令当由一个或多个处理器执行时，使得所述一个或多个处理器执行步骤，所述步骤包括：

接收音频数据，所述音频数据与创建图像快捷方式设置的请求相对应；

从由计算设备的相机生成的实时图像馈送中接收图像数据；

从所述音频数据中识别要执行的一个或多个计算机动作；

从所述图像数据中识别与所述计算设备的相机所指向的对象相对应的对象标识符，其中，识别所述对象标识符包括：使用一种或多种图像处理技术来处理所述图像数据；

基于所述请求和所述对象标识符来生成所述图像快捷方式设置，其中，所述图像快捷方式设置被配置为响应于从来自所述相机的后续实时图像馈送的后续图像数据中识别出所述对象标识符，使得执行所述一个或多个计算机动作；以及

响应于从所述后续图像数据中识别出所述对象标识符，使得根据所述图像快捷方式设置执行所述一个或多个计算机动作。

16.如权利要求15所述的非暂时性计算机可读介质，其中，所述一个或多个计算机动作包括向至少一个外围设备发送命令，其中，所述命令使得所述至少一个外围设备的状态被改变。

17.如权利要求15所述的非暂时性计算机可读介质，其中，识别与所述对象相对应的所述对象标识符包括：识别与所述计算设备的相机所指向的多个不同对象相对应的多个对象标识符。

18.如权利要求17所述的非暂时性计算机可读介质，其中，所述图像快捷方式设置是基于所述多个对象标识符。

19.如权利要求15所述的非暂时性计算机可读介质，其中，所述步骤进一步包括：

从所述音频数据或所述图像数据中识别所述请求的场境标识符，其中，进一步基于所述场境标识符来生成所述图像快捷方式设置。

20.如权利要求19所述的非暂时性计算机可读介质，其中，所述场境标识符识别至少一个时间或至少一个位置，以及其中，使得根据所述图像快捷方式设置执行所述一个或多个计算机动作进一步响应于在与所述至少一个时间匹配的时间、或在与所述至少一个位置匹配的位置处提供的后续图像数据。