CN108093167A

CN108093167A - 使用自然语言命令可操作的相机

Info

Publication number: CN108093167A
Application number: CN201710915947.9A
Authority: CN
Inventors: 罗德里戈·卡尔斯罗尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-22
Filing date: 2017-09-30
Publication date: 2018-05-29
Anticipated expiration: 2037-09-30
Also published as: US20180146133A1; US10212338B2; CN111953894A; US20200053279A1; CN108093167B; WO2018097889A1; DE202017105675U1; US11317018B2; US20190166305A1; US10469740B2

Abstract

本申请涉及一种使用自然语言命令可操作的相机。通常，本公开的技术可以使计算设备基于自然语言用户输入来捕获一个或多个图像。当计算设备在图像捕获模式中操作时，接收与图像捕获命令相关联的自然语言用户输入的指示。计算设备基于图像捕获命令，确定要被包括在由计算设备的相机捕获的一个或多个图像中的视觉令牌。当在图像捕获模式中操作时，计算设备定位由计算设备输出的图像预览内的视觉令牌。计算设备捕获视觉令牌的一个或多个图像。

Description

使用自然语言命令可操作的相机

技术领域

本申请涉及使用自然语言命令可操作的相机。

背景技术

一些计算设备依赖用户敏感技术来接收用户输入以操作计算设备的相机。例如，计算设备可以显示用于控制触摸屏处的相机的图形用户界面(GUI)，并且接收触摸屏处的用户输入以使得相机拍摄照片或视频，将相机聚焦在特定主体上，调整相机的闪光灯，或控制一些其他相机功能和/或照片特性。依赖GUI和存在敏感技术作为控制相机的主要方式有缺陷。例如，当正尝试拍摄照片或视频(例如，运动对象)时，用户在GUI处提供他或她的输入太慢，使得相机错过了镜头。此外，在正尝试在相机取景器中构图场景时与GUI交互会很麻烦并且有些不切实际，因为GUI的输入会导致设备移动，这可能模糊或以其他方式不利地影响所得到的照片或视频的质量。

发明内容

在一个示例中，本公开针对一种方法，包括当计算设备在图像捕获模式中操作时，由计算设备接收与图像捕获命令相关联的自然语言用户输入的指示。该方法进一步包括由计算设备基于该图像捕获命令，确定要被包括在将由计算设备的相机捕获的一个或多个图像中的视觉令牌。该方法还包括在图像捕获模式中操作时，由计算设备在由计算设备输出的图像预览内定位视觉令牌。该方法进一步包括由计算设备捕获视觉令牌的一个或多个图像。

在另一示例中，本公开针对一种计算设备，该计算设备包括相机、至少一个处理器和存储指令的至少一个非暂态计算机可读存储介质，指令可由至少一个处理器执行以当计算设备在图像捕获模式中操作时，接收与图像捕获命令相关联的自然语言用户输入的指示。该指令进一步可由至少一个处理器执行以基于图像捕获命令，确定要被包括在将由相机捕获的一个或多个图像中的视觉令牌。该指令可进一步由至少一个处理器执行以当在图像捕获模式中操作时，在由计算设备输出的图像预览内定位视觉令牌。指令进一步可由至少一个处理器执行以捕获视觉令牌的一个或多个图像。

在另一示例中，本公开针对存储指令的非暂态计算机可读存储介质，当被执行时，使计算设备的至少一个处理器执行以当计算设备在图像捕获模式中操作时，接收与图像捕获命令相关联的自然语言用户输入的指示。该指令进一步使计算设备的至少一个处理器基于图像捕获命令，确定要被包括在将由相机捕获的一个或多个图像中的视觉令牌。该指令进一步使计算设备的至少一个处理器当在图像捕获模式中操作时，在由计算设备输出的图像预览内定位视觉令牌。指令进一步使计算设备的至少一个处理器以捕获视觉令牌的一个或多个图像。

在附图和下述描述中，阐述本公开的一个或多个示例的详情。从描述和附图以及从权利要求，本公开的其他特征、目的和优点将是显而易见。

附图说明

图1是示出根据本公开的一个或多个方面，具有示例性计算设备的示例性计算系统的概念图，该示例性计算设备被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令。

图2是示出根据本公开的一个或多个方面，被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令的示例性计算设备的框图。

图3是示出根据本公开的一个或多个方面，可由计算设备执行的示例性图像捕获命令的概念图。

图4是示出可由计算设备执行的第二示例性图像捕获命令的另一概念图。

图5是示出根据本公开的一个或多个方面，被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令的示例性计算设备的示例性操作的流程图。

具体实施方式

通常，本公开的技术能使计算设备解释自然语言用户输入以精确地控制计算设备的相机来拍摄现实世界对象、动作、人物、地点、概念或场景的特定视觉令牌的照片或视频。例如，包括相机的计算设备可以接收与图像捕获命令相关联的自然语言用户输入的指示。例如，当用户说出短语“拍摄正上下跳的穿黄色连衣裙的女孩的照片”时，计算设备的麦克风可以接收音频输入。

计算设备可以分析自然语言输入并且确定图像捕获命令以及要被包括在将由相机捕获的一个或多个图像中的一个或多个视觉令牌。例如，将自然语言处理技术用在由麦克风接收的音频输入上，计算设备可以将短语“拍照”识别为图像捕获命令，并且将短语“正上下跳的穿黄色连衣裙的女孩”识别为视觉令牌。

计算设备可以在输出以由计算设备显示的图像预览内定位视觉令牌(例如，作为图形用户界面的取景器的一部分)。例如，使用图像处理技术，计算设备可以识别对应于穿黄色连衣裙的女孩的体型和颜色的图像预览的一部分。计算设备可以自动执行由自然语言输入指示的图像捕获命令，以捕获由自然语言输入指定的对象的一个或多个图像。例如，计算设备可以调整相机控制以聚焦、裁剪或以其他方式增强图像预览，使得相机拍摄对准穿黄色连衣裙的女孩的照片。

以这种方式，不是要求存在敏感输入设备处的用户输入以控制设备的相机，本公开的技术可以使计算设备使用自然语言用户输入来拍摄照片、视频或以其他方式控制相机。计算设备可以纯粹基于语音输入，而不要求用户触摸计算设备的屏幕或按钮，执行捕获视觉令牌的一个或多个图像中的复杂操作。计算设备可以接收口头的自然语言用户输入，使得当计算设备处理图像捕获命令并且执行与图像捕获命令相关联的功能时，用户将他们的全部注意力投入稳定计算设备上。

在整个本公开中，描述示例，其中，仅当计算设备从用户接收到许可以分析信息时，计算设备和/或计算系统才分析与计算设备相关联的信息(例如，来自用户的语音输入)。例如，在下文所述的情形中，其中，计算设备可以收集或者可以利用与用户相关联的信息，可以给用户提供机会以提供控制计算设备的程序或功能部件是否收集和利用用户信息或规定计算设备是否和/或如何接收与用户有关的内容的输入。此外，特定数据在由计算设备和/或计算系统存储或使用前，可以以一种或多种方式处理，从而消除个人身份信息。例如，可以处理用户的身份，使得不能确定关于用户的个人身份信息。因此，用户可以控制计算设备如何收集和使用关于用户的信息。

图1是示出根据本公开的一个或多个方面，具有示例性计算设备10的示例性计算系统1的概念图，其中，计算设备10被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令。图1的计算系统1是包括计算设备10的示例性计算系统。在其他示例中，计算系统1还可以包括其他外部设备，诸如服务器设备、网络或其他相机设备。

在图1的示例中，计算设备10是移动计算设备(例如移动电话)。然而，计算设备10可以是任何类型的移动或非移动计算设备，诸如平板电脑、个人数字助理(PDA)、台式计算机、膝上型计算机、游戏系统、媒体播放器、电子书阅读器、电视平台、汽车导航系统或可穿戴计算设备(例如，计算机化手表、计算机眼镜、计算机化手套)。

如图1所示，计算设备10包括用户界面设备(UID)12。UID 12可以充当用于计算设备10的输入设备和输出设备。UID 12可以使用各种技术实现。例如，UID 12可以充当使用存在敏感输入屏，诸如电阻式触摸屏、表面声波触摸屏、电容式触摸屏、投影电容触摸屏、压敏屏、声学脉冲识别触摸屏或其他存在敏感显示技术的输入设备。UID 12可以充当使用任何一个或多个显示设备，诸如液晶显示器(LCD)、点阵显示器、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、电子墨水或能够向计算设备10的用户输出可见信息的类似的单色或彩色显示器的输出(例如显示器)设备。

计算设备10的UID 12可以包括从计算设备10的用户接收触觉输入的存在敏感显示器。UID 12可以通过检测来自计算设备10的用户的一个或多个姿势(例如，用户通过手指或触笔触摸或指向UID 12的一个或多个位置)，接收触觉输入的指示。UID 12可以将在例如存在敏感显示器处，将输出呈现给用户。UID 12可以将输出呈现为图形用户界面(例如用户界面14)，其可以与由计算设备10提供的功能性相关联。例如，UID 12可以呈现在计算设备10处执行或由计算设备10访问的计算平台、操作系统、应用程序或服务的组件(例如电子设备应用、互联网浏览器应用、移动操作系统等)的各种用户界面。用户可以与各个用户界面交互以使计算设备10执行与功能有关的操作。根据本公开的技术，当计算设备10在图像捕获模式中操作时，计算设备10的用户界面(UI)模块21可以利用UID 12来示出图像预览16。

计算设备10可以被配置成在不同模式或设备状态中操作。在一些示例中，计算设备10正操作的模式取决于由计算设备10的一个或多个模块执行的应用。通常，如本公开所提及的，“图像捕获模式”可以被视为在接收利用相机，诸如相机30的用户输入的初始指示后，但在相机被真正用来捕获图像、拍照、拍摄图像或以其他方式生成和存储表示一个或多个所捕获的图像前，计算设备，诸如计算设备10进入的任何模式或状态。例如，当计算设备10在图像捕获模式中操作时，计算设备10的一个或多个模块可以利用计算设备10，执行相机应用或以其他方式提供用户可以与相机30交互的界面。然而，当在图像捕获模式中操作时，计算设备10的相机30还未执行捕获被存储为所捕获的图像或视频的图像的操作。图像捕获模式与“后捕获模式”，诸如“图像评价模式”相反或不同。如本文如提及的，“后捕获模式”表示计算设备，诸如计算设备10在执行捕获被存储为捕获图像或视频的图像的操作后，立即进入的任何模式。例如，除了其他之外，计算设备10可以在后捕获模式中时，输出以显示由相机30拍摄的捕获图像以便后处理、用户评价、用户确认或用户启动删除。在一些示例中，计算设备10接收表示用户想要拍摄另一照片的用户输入的后续指示，计算设备10可以退出后捕获模式并且返回到在图像捕获模式中操作。

计算设备10可以包括各种输入设备。例如，计算设备10可以包括相机30。相机30可以是用于录制或捕获图像的光学仪器。相机30可以捕获个人静态照片或构成视频或电影的图像序列。相机30可以是计算设备10的物理组件。相机30可以包括充当计算设备10的用户与相机30的功能性之间的界面的相机应用。相机30可以执行各种功能，诸如捕获一个或多个图像、聚焦一个或多个对象以及利用各种闪光灯设置。

计算设备10可以包括麦克风32。麦克风32可以是将声音转换成电信号以由计算设备10的一个或多个模块处理的换能器。麦克风32可以使用电磁感应(动圈麦克风)、电容变化(电容式麦克风)或压电(压电麦克风)来由气压变化产生电信号。麦克风32可以输出以模拟或数字形式的电信号。例如，麦克风32可以将电信号输出为模拟输出和/或可以输出以数字形式的电信号，诸如消息、位序列或其他数字输出。对象模块20可以从麦克风32接收输出并且处理该输出以确定由麦克风32接收的口语输入(spoken input)。

计算设备10可以包括对象模块20和图像模块22。模块20和22可以使用驻留在计算设备10中和/或在计算设备10处执行的软件、硬件、固件或硬件、软件和固件的混合，执行所述的操作。计算设备10可以通过一个或多个处理器执行模块20和22。计算设备10可以将模块20和22执行为在底层硬件上执行的虚拟机。模块20和22可以执行为操作系统或计算平台的服务或组件。模块20和22可以执行为计算平台处的一个或多个可执行程序。UID 12以及模块20和22可以以其他方式被远程地指定到计算设备10并且远程地访问该计算设备10，例如，作为在网络云中的网络上操作的一个或多个网络服务。

通常，对象模块20可以执行与自然语言命令处理和对象定位相关联的本公开的各种技术。例如，对象模块20可以接收对计算设备10的用户输入的指示，诸如由麦克风32接收的口语输入。对象模块20可以进一步解释用户输入的指示以响应接收的用户输入的指示，确定待执行的功能。对象模块20可以通过将由相机30捕获的图像或相机30已经捕获的图像的图像预览，基于由计算设备10存储的参考视觉令牌(referential visual tokens)，定位和确定各个视觉令牌。换句话说，参考视觉令牌可以是在计算设备10中存储的、描述计算设备10在图像预览内检测的视觉令牌的一个或多个特性的数据。

通常，图像模块22可以执行与捕获图像并且执行从由对象模块20处理的用户输入解释的图像捕获命令相关联的本公开的各个技术。例如，图像模块22可以利用相机30来捕获由对象模块20定位的对象的一个或多个图像。当对象正执行特定动作时，图像模块22可以进一步执行图像捕获命令的方面，诸如将相机30聚焦在视觉令牌上、绕视觉令牌裁剪图像、使相机30变焦到视觉令牌，或使用相机30捕获视觉令牌的一个或多个图像。换句话说，图像模块22可以执行与使用相机30直接相关联的动作。

根据本公开的技术，计算设备10可以在图像捕获模式中操作时，执行各种功能。当计算设备10正在图像捕获模式中操作时，计算设备10的一个或多个模块可以执行相机应用或利用计算设备10，以其他方式提供用户与相机30交互的界面。在其他实例中，计算设备10可以在图像捕获模式中操作，只要计算设备10能够接收易于捕获一个或多个图像的用户输入的指示。当在图像捕获模式中时，计算设备10的UI模块21可以输出包括图像预览16的图形用户界面14。图像预览16可以包括如果相机30打算立即捕获图像，什么将被包括在所捕获的图像的数字表示。当计算设备10的用户移动相机30时，如果相机30打算在移动后立即捕获图像，UI模块21可以更新图像预览16以表示什么将被包括在所捕获的图像的新数字表示。在图1的示例中，图像预览16包括主体18A-18F(统称为主体18)。

当在图像捕获模式中操作时，对象模块20可以接收与图像捕获命令相关联的自然语言用户输入的指示。例如，在图1的示例中，计算设备10的用户可以向麦克风32说出自然语言用户输入，其中，自然语言用户输入包括图像捕获命令。麦克风32可以将自然语言用户输入转换成一些形式的输出，诸如电信号、消息或位序列。对象模块20可以将输出接收为自然语言用户输入的指示。对象模块20可以分析该输出以确定图像捕获命令。在图1的示例中，图像捕获命令可以是拍摄主体18中的最左主题(即主体18A)的照片的指令。

对象模块20可以基于图像捕获命令，确定将被包括在将由计算设备10的相机30捕获的一个或多个图像中的视觉令牌。例如，对象模块20可以将自然语言用户输入解析成两个或以上不同的部分：特定图像捕获命令，以及使用特定图像捕获命令，为由相机30捕获的一个或多个图像的主体的特定视觉令牌或多个视觉令牌。根据本公开的技术，视觉令牌可以是对象、人、动作、地点或概念(例如“野生动物”、“婚礼”、“吻”、“军事”或“爱”)。在图1的示例中，包括在自然语言用户输入中的视觉令牌为主体18A。同样地，对象模块20可以确定使用特定图像捕获命令，作为将由相机30捕获的一个或多个图像的主体的视觉令牌为主体18的最左主体(即主体18A)。

在图像捕获模式中操作时，对象模块20可以定位在由计算设备10的UID 12输出的图像预览16内的视觉令牌。如上所述，对象模块20可以确定主体18A是将在由相机30捕获的一个或多个图像中的视觉令牌。对象模块20可以扫描图像预览16以定位主体18并且确定主体18的最左主体(即主体18A)。在下文中，参考图2，描述对象模块20定位图像预览16内的视觉令牌的各种方式的更详细示例。

使用由对象模块20确定的视觉令牌位置和图像捕获命令，对象模块20可以捕获视觉令牌的一个或多个图像。例如，图像模块22可以从对象模块20接收图像捕获命令和主体18A的位置。图像模块22可以利用相机30来执行图像捕获命令并且捕获主体18A的一个或多个图像。在一些示例中，只要主体18A完全位于图像预览16内，图像模块22可以使用相机30来捕获主体18A的一个或多个图像。在一些其他示例中，图像模块22可以将相机30聚焦在主体18A上并且保持相机30的缩放级别一致。在这些示例的其他实例中，图像模块22可以裁剪所捕获的图像以提供相机30放大主体18A的错觉。在其他示例中，图像模块22可以将相机30变焦到主体18A上，使得主体18A是所捕获的图像的中心。

不是要求用户在计算设备10上输入多个触摸指示以便拍摄，而是通过基于自然语言用户输入，执行图像捕获命令，计算设备10可以执行捕获视觉令牌的一个或多个图像的复杂操作，而不要求用户触摸计算设备10的UID 12或按钮。计算设备10可以口头地接收自然语言用户输入，诸如经由麦克风32，使得当计算设备10处理图像捕获命令并且执行与图像捕获命令相关联的功能时，用户将全部注意力放在稳定相机30上。此外，通过要求更少触摸输入的指示(例如调整焦点、变焦、闪光灯设置以及拍照的多触摸)，计算设备10可以响应于此，执行更少操作，由此消耗更少电力。

本文所述的技术可以进一步对身体受损的人有利。例如，如果用户具有限制使用他们的手臂或手的身体残缺，接收自然语言用户输入的指示以捕获图像并且执行复杂图像捕获命令的计算设备允许这类用户不使用他们的手仍然能拍照。具有各种身体残缺的用户发现在握住计算设备时，难以操作要求触摸输入或其他手动输入的计算设备。同样地，计算设备10可以为具有各种身体残缺的这些用户提供宝贵的帮助。

图2是示出根据本公开的一个或多个方面，被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令的示例性计算设备10的框图。在下文中，在图1的计算系统1的场境内，描述图2的计算设备10。图2仅示出计算设备10的一个具体示例并且在其他实例中，可以使用计算设备10的许多其他示例。在图2的示例中，计算设备10可以是可穿戴计算设备、移动计算设备或非便携式(例如台式等)计算设备。图2的计算设备10可以包括包含在示例性计算设备10中的组件的子集或可以包括图2中未示出的附加组件。

如图2的示例中所示，计算设备10包括用户界面设备12(“UID12”)、一个或多个处理器40、一个或多个输入设备42、一个或多个通信单元44、一个或多个输出设备46以及一个或多个存储设备48。输入设备42包括相机30、麦克风32以及一个或多个传感器52。计算设备10的存储设备48还包括对象模块20、UI模块21、图像模块22、视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29。对象模块20可以进一步包括命令模块54、视觉令牌模块56和动作模块58。对象模块20、UI模块21和图像模块22可以依赖在存储设备48处，存储为视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29的信息。换句话说，如下文更详细所述，对象模块20、UI模块21和图像模块22可以由处理器40操作来在存储设备48处，存储为视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29的信息上执行读/写操作。对象模块20、UI模块21和图像模块22可以访问在视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29中存储的信息以执行计算设备10的功能。

通信信道50可以与12,20,21,22,24,26,28,29,30,32,40,42,44,46,48,52,54,56和58的每个互连以组件间通信(物理地、通信和/或可操作地)。在一些示例中，通信信道50可以包括系统总线、网络连接、进程间通信数据结构或用于传送数据的任何其他方法。

计算设备10的一个或多个输出设备46可以生成输出。输出的示例是触觉、音频和视频输出。在一个示例中，计算设备10的输出设备46包括存在敏感显示器、声卡、视频图形适配器、扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)或用于生成对人或机器的输出的任何其他类型的设备。

计算设备10的一个或多个输入设备42可以接收输入。输入的示例为触觉、音频和视频输入。在一些示例中，计算设备10的输入设备42包括存在敏感显示器、触敏屏、鼠标、键盘、声音响应系统、摄像机、麦克风、传感器或用于检测来自人或机器的输入的任何其他类型的设备。

输入设备42的相机30可以类似于图1的330并且包括与图1的相机30相同的特征中的一些或全部。相机30可以是用于读取或捕获图像的光学仪器。相机30可以捕获单张静态照片或组成视频或电影的图像序列。相机30可以是计算设备10的物理组件。相机30可以包括充当计算设备10的用户和相机30的功能性之间的界面的相机应用。相机30可以执行各种功能，诸如捕获一个或多个图像、聚焦一个或多个视觉令牌并且利用各种闪光灯设置。在一些示例中，相机30可以得单个相机。在其他示例中，相机30可以包括多个相机。

输入设备42的麦克风32可以类似于图1的麦克风32并且包括与图1的麦克风32相同的特征中的一些或全部。麦克风32可以是将声音转换成将由计算设备10的一个或多个模块处理的电信号的换能器。麦克风32可以使用电磁感应(动圈麦克风)、电容变化(电容式麦克风)或压电(压电麦克风)来由气压变化产生电信号。麦克风32可以基于所接收的音频输入，诸如消息或位序列，产生其他输出。对象模块20可以从麦克风32接收该输出并且处理该输出以确定由麦克风32接收的口语输入。在一些示例中，麦克风32可以是单个麦克风。在其他示例中，麦克风32可以包括多个麦克风。

传感器52可以包括记录计算设备10周围的环境的变化的输入设备42的一个或多个其他输入设备并且将这些变化转换成数据。传感器52的示例可以包括生成加速计数据的加速计。加速计数据可以表示计算设备10的加速度和/或加速度变化。传感器52可以包括生成陀螺仪数据的陀螺仪。陀螺仪数据可以表示计算设备10的物理方位或物理方位的变化。在一些示例中，该方位可以相对于一个或多个参考点。传感器52可以包括生成磁强计数据的磁强计。磁强计数据可以表示触摸或接近计算设备10的对象的磁化强度。磁强计数据可以表示地球的磁场，以及在一些示例中，提供罗盘的方向功能性。传感器52可以包括用于检测与计算设备10相关联的气压的气压计。计算设备10可以基于由传感器52的气压计获得的气压数据，推断海拔的变化或检测运动。

传感器52的附加示例可以包括生成环境光数据的环境光传感器。环境光数据可以表示计算设备10暴露的光的强度。传感器52可以包括生成接近度数据的接近传感器。接近度数据可以表示对象是否在计算设备10附近。在一些示例中，接近度数据可以表示对象离计算设备10有多近。在一些示例中，传感器52可以包括生成日期和时间的时钟。日期和时间可以是当前日期和时间。传感器52可以包括生成压力数据的压力传感器。压力数据可以表示是否将力施加到计算设备10和/或施加到计算设备10的力的大小。压力数据可以表示是否将力施加到UID12和/或施加到UID 12的力的大小。传感器52可以包括生成位置数据的全球定位系统。

计算设备10的一个或多个通信单元44可以通过在一个或多个网络上传送和/或接收网络信号，经由一个或多个有线和/或无线网络，与外部设备通信。通信单元44的示例包括网络接口卡(例如，诸如以太网卡)、光收发器、射频收发器、GPS接收机或能发送和/或接收信息的任何其他类型的设备。通信单元44的其他示例可以包括短波无线电、蜂窝数据无线电、无线网络无线电以及通用串行总线(USB)控制器。

UID 12类似于图1的UID 12，并且可以包括与图1的UID 12相同的特征中的一些或全部。在一些示例中，计算设备10的UID 12可以包括输入设备42和/或输出设备46的功能性。在图2的示例中，UID 12可以是或可以包括存在敏感输入设备。在一些示例中，存在敏感输入设备可以检测屏幕处和/或附近的对象。作为一个示例性范围，存在敏感输入设备可以检测对象，诸如在屏幕的2英寸或更小内的手指或触笔。存在敏感输入设备可以确定检测到对象的屏幕的位置(例如，(x,y)坐标)。在另一示例性范围中，存在敏感输入设备可以检测离屏幕6英寸或更小的对象并且其他范围也是可能的。存在敏感输入设备可以确定使用电容、电感和/或光学识别技术，由用户的手指选择的屏幕的位置。在一些示例中存在敏感输入设备还可以例如在显示器处，使用如参考输出设备46所述的触觉、音频或视频刺激，为用户提供输出。在图2的示例中，UID 12呈现用户界面(诸如图1的用户界面14)。

尽管示为计算设备10的内部组件，但UID 12也表示与计算设备10共享数据通路，用于传送和/或接收输入和输出的外部组件。例如，在一个示例中，UID 12表示位于计算设备10的外部封装(例如移动电话的屏幕)内并且与其物理连接的计算设备10的内置组件。在另一示例中，UID 12表示位于计算设备10的封装外并且物理地与其分离的计算设备10的外部组件(例如与平板电脑共享有线和/或无线数据通路的监视器、投影仪等)。

计算设备10内的一个或多个存储设备48可以存储信息，以在操作计算设备10期间处理(例如，计算设备10可以存储在计算设备10处执行期间，模块20(包括模块54,56和58)、21和22访问的数据(例如视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29))。在一些示例中，存储设备48是临时存储器，是指存储设备48的主要目的不是长期存储。计算设备10上的存储设备48可以将配置为易失性存储器，用于短期存储信息，因此，如果断电，则不保留所存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)和本领域已知的其他形式的易失性存储器。

在一些示例中，存储设备48包括一个或多个计算机可读存储介质。存储设备48可以被配置为存储比易失性存储器更多的信息。存储设备48可以进一步被配置为非易失性存储器空间，用于长期存储信息并且在上电/断电周期后保留信息。非易失性存储器的示例包括磁硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。存储设备48可以与对象模块20(包括模块54,56和58)、21和22相关联的程序指令和/或信息(例如数据)、视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29。

一个或多个处理器40可以实现功能性和/或执行计算设备10内的指令。例如，计算设备10上的处理器40可以接收并且执行由存储设备48存储的指令，该指令执行对象模块20(包括模块54,56和58)、UI模块21和图像模块22的功能性。由处理器40执行的这些指令可以使计算设备10基于在程序执行期间，存储设备48内的视觉令牌24、未来视觉令牌模型26、图像队列28和动作模型29，处理和执行用于计算设备10的图像命令。处理器40可以执行模块(包括模块54,56和58)、21和22的指令来实现计算设备10的各种动作或功能。

视觉令牌24表示用于存储在UID 12上显示的图像预览中发现的不同视觉令牌的任何适当的存储介质。根据本公开的技术，视觉令牌可以与对象、人、动作、位置或概念，以及对象、人、动作、位置之间的关系及其任意组合相关联。根据本公开的技术，视觉令牌数据可以包括能由对象模块20使用以识别图像预览内的视觉令牌的任何信息，诸如视觉令牌形状信息、视觉令牌颜色信息、视觉令牌大小信息、视觉令牌方位信息、视觉令牌环境信息、视觉令牌运动信息、视觉令牌的样本图像、视觉令牌的示例性部分的样本图像或对象模块20可以用来识别图像预览中的相关视觉令牌的相关视觉令牌的任何其他标识信息。例如，视觉令牌24可以是用于基于由相机30捕获的图像预览，组织如由对象模块20接收的视觉令牌数据的短期数据结构。对象模块20可以访问视觉令牌24以确定表示计算设备10上的图像预览中的视觉令牌的任何当前视觉令牌。对象模块20可以执行用于将标识信息添加到视觉令牌24或编辑视觉令牌24中的标识信息的读/写操作(例如当相机30平移时和/或当新的视觉令牌显示在图像预览中时)。

未来视觉令牌模型26表示用于存储可由计算设备10用来基于在视觉令牌24中确定的当前视觉令牌，确定图像预览中的预期视觉令牌的模型的任何适当的存储介质。例如，未来视觉令牌模型26可以是用于基于由相机30捕获的图像预览，组织如由对象模块20接收的视觉令牌数据的长期数据结构。视觉令牌模型26可以将不同视觉令牌相互关联并且对象模块20可以基于视觉令牌之间的关联，基于当前视觉令牌24，预测视觉令牌的未来存在。对象模块20可以访问未来视觉令牌模型26以基于表示计算设备10上的图像预览中的视觉令牌的当前视觉令牌，确定预期视觉令牌。对象模块20可以执行用于将信息添加到未来视觉令牌模型26(例如当对象模块20确定图像预览中的新的视觉令牌对时)或编辑来自未来视觉令牌模型26的信息(例如，当对象模块20改变未来视觉令牌模型26内的视觉令牌之间的关联时)的读/写操作。

在一些实例中，未来视觉令牌模型26可以潜在地至少部分地基于隐马尔可夫模型(hidden Markov model)，描述视觉令牌24的一个或多个子集之间的一个或多个关系。例如，如果对象模块20确定两个或以上视觉令牌存在于图像预览中，对象模块20可以访问未来视觉令牌模型26内的数据以确定两个或以上视觉令牌之间的关系。从该关系，对象模块20可以确定图像预览的场景或地点。例如，如果对象模块20确定记分牌和围栏均存在于图像预览中，对象模块20可以访问未来视觉令牌模型26以确定记分牌和围栏之间的关系。视觉令牌模型26可以表示视觉令牌可以存在于棒球场。视觉令牌模型26还可以表示棒球设施和棒球运动员通常也出现在棒球场。同样地，对象模块20可以确定预期未来视觉令牌为棒球设施和棒球运动员。

图像队列28表示用于存储由相机30捕获的一个或多个不同图像的任何适当的存储介质。例如，图像队列28可以是用于基于由相机30捕获的图像，组织如由图像模块22接收的一个或多个图像的短期数据结构。图像模块22可以访问图像队列28以存储由相机30捕获的一个或多个图像。对象模块20，包括动作模块58可以进一步执行用于编辑来自图像队列28的信息的读/写操作(例如，对象模块20分析图像队列28中的一个或多个图像以确定一个或多个图像中的视觉令牌何时正执行特定动作)。

动作模型29表示用于存储可由计算设备10用来确定一个或多个图像内的对象是否正执行如由视觉令牌定义的特定动作的模型的任何适当的存储介质。例如，动作模型29可以是用于基于由相机30捕获的过去图像，组织如由对象模块20确定的动作并且将图像内的对象的不同构成与特定动作关联的长期数据结构。动作数据的示例包括描述各种视觉令牌的运动的信息，诸如在运动前、期间和之后的视觉令牌形状构成、运动信息的速度、执行特定动作的视觉令牌的样本图像、视觉令牌方位变动或视觉令牌环境变化。对象模块20可以访问动作模型26以确定由计算设备10中的图像队列28的一个或多个图像中的一个或多个视觉令牌内的特定对象采取的动作。对象模块20可以执行用于将信息添加到动作模型29(例如当对象模块20确定由各种对象/视觉令牌执行的新动作时)或编辑来自动作模型29的信息(例如，当基于用户反馈，执行各个动作时，当对象模块20更新由相机30捕获的图像内的各种对象/视觉令牌如何出现时)的读/写操作。

存储设备48可以包括对象模块20、UI模块21和图像模块22。对象模块20、UI模块21和图像模块22可以是图1的模块20、21和22的附加示例，包括与图1的模块20,21和22类似及其一些或全部相同的功能性。

根据本公开的技术，在计算设备10在图像捕获模式中操作时，计算设备10可以执行用于控制相机30的各个功能。当在图像捕获模式中操作时，对象模块20可以利用命令模块54来接收和处理自然语言用户输入。即，命令模块54可以接收与图像捕获命令相关联的自然语言用户输入的指示。

例如，计算设备10的用户可以说出由麦克风32检测的自然语言用户输入，其中，自然语言用户输入包括指定至少包括对象和动作的视觉令牌的图像捕获命令。麦克风32可以将自然语言用户输入转换成输出，诸如消息、位序列或电信号，以及命令模块54可以在通信信道50上，从麦克风32接收输出，作为自然语言用户输入的指示。

当用户提供自然语言用户输入时，命令模块54可以分析来自麦克风32的输出以确定由用户所述的图像捕获命令。在图2的示例中，当特定对象正执行特定动作(例如抓球)时，图像捕获命令可以是捕获包括特定对象(例如狗)的视觉令牌的图像。在其他实例中，图像捕获命令可以是裁剪一个或多个图像以适合特定对象的视觉令牌或将相机30聚焦在特定对象上并且捕获聚焦在特定对象上的一个或多个图像的指令。

命令模块54可以基于图像捕获命令，确定要被包括在由计算设备10的相机30捕获的一个或多个图像中的视觉令牌。例如，命令模块54可以将自然语言用户输入解析成两个或以上不同的部分：包括特定图像捕获命令的自然语言用户输入的一个或多个部分，以及包括将作为使用特定图像捕获命令，由相机30捕获的一个或多个图像的主体的特定视觉令牌或多个视觉令牌的自然语言输入的一个或多个部分。在图2的示例中，包括在自然语言用户输入中的视觉令牌为狗对象。同样地，命令模块54可以确定将作为使用特定图像捕获命令，由相机30捕获的一个或多个图像的主体的对象为位于图像预览内的狗。

例如，在解析自然语言用户输入中，命令模块54可以确定所接收的输入是否包括表示人类语音的音频部分。使用语音识别技术，命令模块54可以将接收的自然语言用户输入转录成所说语言的一个或多个词。命令模块54可以在转录过程期间，利用包含各种语音特性的数据来补偿不同用户的语音的变化。这些特性可以包括设备从来自用户的先前的自然语言输入中了解到的有关用户的语调、口音、节奏、流速、发音、音调、回声或其他特性。考虑到有关用户的语音的已知特性，命令模块54可以在转录用于那个用户的自然语言用户输入中改进结果。

在图像捕获模式中操作时，视觉令牌模块56可以经由计算设备10的UID 12，定位由在UI模块21输出的图像预览内的自然语言输入确定的视觉令牌。如上所述，命令模块54可以确定狗是在由相机30捕获的一个或多个图像中的视觉令牌。视觉令牌模块56可以扫描图像预览以定位和确定图像预览内的狗。

在一些实例中，在定位视觉令牌中，视觉令牌模块56可以确定与图像预览内的一个或多个视觉令牌中的各个视觉令牌相关联的一个或多个参考视觉令牌。根据本文所述的技术，参考视觉令牌可以是在计算设备10中存储的、描述计算设备10在图像预览内检测的视觉令牌的一个或多个特性的数据。视觉令牌模块56可以将这些参考视觉令牌存储在视觉令牌24中。然后，视觉令牌模块56可以将自然语言用户输入与一个或多个参考视觉令牌24的第一参考视觉令牌匹配并且确定与第一参考视觉令牌相关联的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。例如，在图像预览中，视觉令牌模块56可以识别狗、草地、灌木丛和树。视觉令牌模块56可以确定标识四个所识别的视觉令牌中的每个的各个参考视觉令牌。视觉令牌模块56可以将所确定的视觉令牌与从图像捕获命令识别的视觉令牌(例如狗)匹配并且确定与狗匹配的视觉令牌为在一个或多个图像中捕获的视觉令牌。

在一些实例中，由视觉令牌模块56确定的一个或多个视觉令牌可以是当前视觉令牌。在这些实例中，使用未来视觉令牌模型26，视觉令牌模块56可以确定一个或多个预期未来视觉令牌。如上所述，未来视觉令牌模型26可以描述视觉令牌的一个或多个子集之间的关系。基于当前视觉令牌24和未来视觉令牌模型26内的关系，视觉令牌模块56可以确定一个或多个预期未来视觉令牌。例如，基于狗和草地的当前视觉令牌，视觉令牌模块56可以确定场景为公园，以及在未来图像预览中，预期球的视觉令牌、

在一些示例中，视觉令牌模块56可以基于各个信息，更新未来视觉令牌模型26。例如，视觉令牌模块56可以确定与在原始图像预览之后生成的第二图像预览中的一个或多个视觉令牌的各个视觉令牌相关联的一个或多个实际未来视觉令牌。视觉令牌模块56可以将一个或多个实际未来视觉令牌与先前确定的一个或多个预期未来视觉令牌比较。然后，视觉令牌模块56可以基于该比较，更新未来视觉令牌模型26。例如，在图2的示例中，视觉令牌模块56确定球为预期未来视觉令牌。如果视觉令牌模块56分析第二图像预览并且确定球现在出现在第二图像预览内，视觉令牌模块56可以通过当狗和草地出现时，确认在前预测，增加确定球将出现的未来可能性，更新未来视觉令牌模型26。然而，如果视觉令牌模块56分析第二图像预览并且确定绳子玩具现在出现在第二图像预览内，视觉令牌模块56可以通过当狗和草地存在时，减小确定球存在的未来可能性，以及当狗和草地存在时，确定绳子玩具将存在的未来可能性，更新未来视觉令牌模型26。

在其他实例中，视觉令牌模块56可以基于众包视觉令牌数据，更新未来视觉令牌模型26。例如，视觉令牌模块56可以接收众包视觉令牌数据，其中，众包视觉令牌数据包括与用于不同计算设备10的一个或多个众包计算设备的一个或多个当前视觉令牌相关联的一个或多个预期未来视觉令牌的集合。众包数据(crowdsourced data)可以基于具有与计算设备10的用户类似兴趣的用户。例如，计算设备10的用户属于用于爱狗者的社交媒体组。假定视觉令牌模块56尝试基于狗的当前视觉令牌，确定预期未来视觉令牌，当用户正拍摄狗和草地的照片时，视觉令牌模块56可以从与用于预期视觉令牌的同一社交媒体组的用户相关联的计算设备接收众包视觉令牌数据。视觉令牌模块56可以基于来自具有与该用户相同兴趣的用户的众包视觉令牌数据，更新未来视觉令牌模型26，因为预期具有类似兴趣的用户会在他们捕获的图像中遇到类似的视觉令牌。

视觉令牌模块56可以利用未来视觉令牌模型26来分析用于当前视觉令牌的未来图像。通过一致地更新未来视觉令牌模型26，视觉令牌模块56可以在执行本文所述的技术期间，更有效地分析图像和图像内的动作。未来视觉令牌模型26可以基础，在此基础上，当基于分类，接收未来图像捕获命令时，计算设备10可以对事件分类或“构建”捕获的图像或视频的故事。

不是跨视频帧手动地放置对象标签，计算设备10可以分析在多个图像中共同的某些令牌，以便在未来图像预览中语境化并且成功地预测各种令牌的出现。在语境化和预测各个令牌后，计算设备10可以以比基于跟踪的时间拖尾更精确的方式改进识别。

同样地，计算设备10可以识别未来视觉令牌模型26中，覆盖潜在图像的大部分的小的场境分类的集合和与各个图像内的对象相关联的视觉令牌的词汇。在一些示例中，计算设备10可以基于共同用户场境(context)，进行用户个人的这些识别。同样地，计算设备10可以找出图像群集并且确定图像群集中的视觉令牌的词汇。

例如，未来视觉令牌模型26可以包括婚礼、烧烤派对、毕业、洗礼、露营、体育赛事、节日、航展、音乐会和巡航旅行的类别。对这些类别中的一些，未来视觉令牌模型26可以包括通常预测的视觉令牌，例如在婚礼中，视觉令牌可以包括派对后的正式的仪式，其中，正式的仪式由主要参与者入场、然后歌曲和/或演讲的混合、接着结婚戒指被带入和戴在新娘和新郎手上、吻，最后主要参与者离开组成。然而，未来视觉令牌模型26中的其他类别可能是更松散的结构化，并且在这些类别内的某些视觉令牌可能对有关即将发生的事，比其他类别提供更多见解。例如，如果未来视觉令牌模型26中的类别是野营旅行并且具有日落的图像，则未来视觉令牌模型26可以指示火或烤架的视觉令牌可能出现在未来的图像中。

通过未来视觉令牌模型26中的场境特定的令牌预测，计算设备10可以被配置成利用动态编程，其中，用户流中看到的每个新捕获的图像可以被标记为属于未来视觉令牌模型26中的特定类别的事件的实例的继续、来自未来视觉令牌模型26的干扰者(例如，不符合当前类别的图像)、相同或不同类别的新事件的开始，或者先前中断的当前类别中的事件的新插曲的开始。计算设备10可以将这些标签分配中的每个分配取决于项目的主题特异性(例如，项目在用于特定类别的图像内有多常见)和相邻图像的时空间隙(例如，所捕获的图像之间经过的时间量)的成本。可替选地，计算设备10可以训练(例如，基于如时间、地理和语义距离的因素)将测量任何两个图像有多可能属于未来视觉令牌模型26中的相同类别中的单个事件的距离度量。计算设备10可以使用聚类算法来训练未来视觉令牌模型26，以通过将这种距离与叙事适应度(narrative fitness)组合来测量将每个候选项目添加到现有群集的成本来增长群集。

本文所述的技术使得对于每个相关语境类别，专业化这些现有约束以及添加所选子集的叙事完整性。由于令人惊奇的元素可能是捕获图像的动机，计算设备10可能不会排除来自特定类别的事件的内容，仅因为该内容不符合特定类别的典型实例。然而，计算设备10可以训练未来视觉令牌模型26，使得通常存在的某些关键叙事元素来讲述某种故事。例如，计算设备10可以比较用于生成未来视觉令牌模型26的两个选项：一个仅包括可视令牌A和C，另一个包括A、B和C。如果计算设备10训练未来视觉令牌模型26以预测A和C的可能性小于A、B和C，那么计算设备10可以对省去B实行惩罚。为了正确地处理这个问题，计算设备10可以将用于将来视觉令牌模型26中的整个场境类别的中心的令牌与相对于将来视觉令牌模型26中的场境类别，用于指定用户故事的中心的那些令牌分开。

使用本文所述的技术，计算设备10可以进一步提高捕获时间。未来视觉令牌模型26可以模拟哪些元素是指定场景中的中心叙事元素，使得计算设备10可以聚焦在重要的视觉令牌的位置。这些选择偏向于良好地表示关键叙事元素的图像预览。

使用由命令模块54确定的视觉令牌位置和图像捕获命令，图像模块22可以捕获视觉令牌的一个或多个图像。例如，图像模块22可以从对象模块20接收图像捕获命令和图像预览内的狗的位置。图像模块22可以利用相机30来执行图像捕获命令并且捕获狗的一个或多个图像。在一些示例中，只要狗完全位于图像预览内，图像模块22可以使用相机30来捕获狗的一个或多个图像。在一些其他示例中，图像模块22可以将相机30聚焦在狗上，并且保持相机30的缩放级别一致。在这些示例的一些实例中，图像模块22可以裁剪所捕获的图像以提供相机30放大狗的错觉。在其他的示例中，图像模块22可以将相机30对焦在狗上，使得狗是所捕获的图像的中心。

在图2的示例中，图像捕获命令包括捕获包括执行特定动作(例如，抓球)的特定对象(例如狗)的视觉令牌的一个或多个图像。在这些实例中，为执行图像捕获命令，图像模块22可以监视图像预览内的特定对象。只要动作模块58确定图像预览内的特定对象开始执行特定动作，图像模块22可以使用相机30来捕获该对象的一个或多个图像，如图像预览中所示并且将对象的一个或多个图像存储在图像队列28中。图像模块22可以继续捕获一个或多个图像直到动作模块58确定图像预览中的特定对象完成执行特定动作为止。然后，动作模块58可以分析图像队列28中的一个或多个图像中的每个以确定在一个或多个图像中的每个内的对象的状态或执行动作的特定对象的进度的指示。动作模块58可以响应基于动作模型29，确定特定图像中的对象的状态与处于执行特定动作中间的特定对象更匹配，选择一个或多个图像中的特定图像。

例如，在图2的示例中，其中，图像捕获命令包括用于捕获抓球的狗的图像的指令，动作模块58可以分析图像系列中的每个图像以确定狗的状态。例如，动作模块58可以确定狗坐着、狗正在跳跃、狗张嘴或闭嘴或狗的一些其他状态。动作模块58可以确定与球相关联的视觉令牌是否存在一个或多个图像的任何一个以及在球存在的一个或多个图像的每个中，球离狗的嘴巴有多近。动作模型29可以包括表示图像的一部分表示抓球的动作的需求，诸如要求：球和狗均出现在图像中、球应当在狗的嘴巴中或能表示狗抓球的任何其他信息相关的数据。然后，只要狗开始跳在空中或只要球出现在图像预览中并且当狗带着嘴里的球落在地面上来停止捕获图像，图像模块22可以捕获狗的一系列图像。基于与包括在动作模型29中的抓球的动作相关联的数据，动作模块58可以选择一个或多个图像中的特定图像，其中，狗的状态与动作模型29的需求更匹配。例如，动作模块58可以选择狗的状态表示狗正跳在空中以及球的状态表示球处于狗的嘴巴中的图像。

动作模块58可以基于用户反馈，更新动作模型29。例如，UI模块21可以使UID 12呈现由动作模块58选择的第一图像并且还输出用于获得用户输入的指示的提示以确认特定图像或拒绝特定图像。如果动作模块58接收确认特定图像的用户输入的指示，则动作模块58可以将特定图像存储到存储器并且更新动作模型29以增强执行抓球的特定动作的狗的分析和确定。然而，如果动作模块58接收拒绝第一图像的用户输入的指示，则动作模块58可以更新动作模型29以减少如目前定义的、狗和球之间的关联。动作模块58可以在抓球的过程中，选择狗的一个或多个附加图像并且利用UI模块21来使UID 12呈现一个或多个附加图像。动作模块58可以接收选择一个或多个附加图像的第二图像的用户输入的附加指示并且基于更新的选择，更新动作模型29。

在一些实例中，图像捕获命令可以包括捕获用于视觉令牌的一系列图像。在这些实例中，图像模块22可以利用相机30来捕获用于视觉令牌的多个图像。然后，UI模块21可以使UID 12显示图像。然后，命令模块54可以接收附加命令以聚焦在多个图像中，显示执行特定动作的对象的视觉令牌的图像上。同样地，在以如上所述的技术类似的方式，捕获一个或多个图像以选择执行特定动作的对象的视觉令牌的图像后，本公开的技术进一步使计算设备10处理一个或多个图像。

在捕获图像后，计算设备10可以利用未来视觉令牌模型26来通过建议属于与相册相同的未来视觉令牌模型26内的类别的图像的可能不连续子集，可能通过使用未来视觉令牌模型26，将捕获的图像分成对应于更小叙事单元的页，组织先前捕获的图像。计算设备10还可以以计算设备10计算在未来视觉令牌模型26的某些场境的每个中，每个视觉令牌、动作或N元语法出现的概率的方式，构建用户使用未来视觉令牌模型26，通过相机30捕获的场景、对象和动作的本体论。

类似地，计算设备10可以实现更深刻个性化。如果用户想聚焦在特定主体上，很可能特定主体很重要并且可能出现在过去捕获的其他图像中。计算设备10可以相对于未来视觉令牌模型26，分析特定主体的可能出现的空间，用户优选这些空间的哪些部分。例如，可以使用此来使最终保存的图像不会太模糊且质量更高。

贯穿本公开，描述了仅当计算设备从用户接收许可来分析该信息时，计算设备和/或计算系统分析与计算设备相关联的信息(例如来自用户的语音输入)的示例。例如，在上述情形中，其中，计算设备收集和利用与用户相关联的信息，包括由图像数据表示的语音输入或位置信息，可以为用户提供机会以提供控制计算设备的程序或功能部件是否能收集和利用用户信息或规定计算设备是否和/或如何接收与用户有关的内容的输入。此外，特定数据在由计算设备和/或计算系统存储或使用前，以一种或多种方式被处理，使得去除个人身份信息。例如，处理所存储的图像数据，使得不能确定有关该用户的个人身份信息。由此，用户控制计算设备如何收集和使用有关用户的信息。

图3是根据本公开的一个或多个方面，示出由计算设备执行的示例性图像捕获命令的概念图。在图1的系统1和图2的计算设备10的场境内，描述计算设备10的操作。图3的概念图包括用来表示响应由计算设备10接收的图像捕获命令，由计算设备10的相机30预览的一系列图像的示例性图像预览60A-60E。

例如，在图3的示例中，图像捕获命令可以包括捕获包括人跳跃的视觉令牌的图像。在这些示例中，计算设备10可以按时间顺序预览图像60A-60E，首先预览图像60A，最后预览图像60E。计算设备10可以分析图像预览60A-60E的每个图像预览以确定图像内的人的状态。例如，计算设备10可以确定图像预览60A中的人正站在固定位置。计算设备10可以确定图像预览60B中的人正蹲下准备起跳。此时，只要计算设备10确定图像预览60B中的视觉令牌开始执行在图像捕获命令中指定的动作，计算设备10可以开始捕获视觉令牌的一个或多个图像。计算设备10可以确定图像预览60C中的人在跳的过程中处于半空中。110可以确定图像预览60D中的人在起跳后首次与地面接触。最后，根据着地力，在起跳后，由于着地的结果，计算设备10确定图像预览60E中的人正下蹲。因此，只要计算设备10确定图像预览60E是的视觉令牌完成该动作，计算设备10可以停止捕获图像。然后，计算设备10可以基于图像预览60C，选择捕获的图像，其中，图像预览60C中的人的状态与动作模型中，起跳的定义匹配。然后，计算设备10可以将图像62输出为所选的人起跳的图像。

图4是示出由计算设备执行的第二示例性图像捕获命令的另一概念图。在图1的系统1和图2的计算设备10的场境内，描述计算设备10的操作。图4的概念图包括示例性图像预览70A，是指表示当计算设备10接收图像捕获命令时，由计算设备10的相机30预览的示例性图像。

在图4的示例中，图像捕获命令可以包括捕获图像预览70A中，多个主体18A-18F中的最左主体18A的图像。在该示例中，计算设备10可以捕获仅包括最左主体18A的图像预览70A的一部分。计算设备10可以分析图像预览70A以确定相对于彼此，主体18的每个的位置。基于该分析，计算设备10可以确定主体18A是图像预览70A内的最左主体18。同样地，计算设备10可以裁剪图像预览70A，使得主体18A处于图像预览的中心并且是图像预览的主要或唯一主体。然后，计算设备10基于更新的图像预览，捕获图像70B。计算设备10可以输出图像70B，其包括给出放大主体18A的错觉的图像预览70A的剪裁版本。

图5是示出根据本公开的一个或多个方面，被配置成接收与图像捕获命令相关联的自然语言用户输入的指示并且执行图像捕获命令的示例性计算设备的示例性操作的流程图。在图1的系统1和图2的计算设备10的场境内，描述计算设备10的操作。

根据本公开的描述，计算设备10可以在图像捕获模式中操作时，执行各种功能。当在图像捕获模式中操作时，计算设备10可以接收与图像捕获命令相关联的自然语言用户输入的指示(200)。例如，在图5的示例中，计算设备10的用户可以对麦克风32说出自然语言用户输入，其中，自然语言用户输入包括图像捕获命令。麦克风32可以将自然语言用户输入转换成计算机可读输出，诸如消息、位序列或电信号。计算设备10可以分析麦克风32的输出以确定图像捕获命令。在图5的示例中，图像捕获命令可以是当特定对象正在执行特定动作(例如投篮球)时，捕获包括特定对象(例如人)的视觉令牌的图像。在其他实例中，图像捕获命令可以是剪裁一个或多个图像以适合特定视觉令牌或将相机30聚焦在特定视觉令牌上，并且捕获聚焦在特定视觉令牌上的一个或多个图像。

计算设备10可以基于图像捕获命令，确定要被包括在由计算设备10的相机30捕获的一个或多个图像中的视觉令牌(210)。例如，计算设备10可以将自然语言用户输入解析成二个或以上不同的部分：特定图像捕获命令，以及使用特定图像捕获命令，将是由相机30捕捉的一个或多个图像的主体的特定视觉令牌或多个视觉令牌。在图5的示例中，包括在自然语言用户输入中的视觉令牌为人。同样地，计算设备10可以确定使用特定图像捕获命令，作为将由相机30捕获的一个或多个图像的主体的视觉令牌为位于图像预览内的人。

计算设备10当在图像捕获模式中操作时，经由计算设备10的UID12，在由计算设备10输出的图像预览内，定位视觉令牌(220)。如上所述，计算设备10可以确定投篮球的人是在由相机30捕获的一个或多个图像中的视觉令牌。计算设备10可以扫描图像预览以定位和确定图像预览内的人。

在一些实例中，在定位视觉令牌中，计算设备10可以将自然语言用户输入与来自预定令牌的参考视觉令牌24的一个或多个参考视觉令牌中的第一参考视觉令牌匹配。计算设备10可以将第一参考视觉令牌与图像预览内的一个或多个视觉令牌中的每个比较并且确定最匹配第一参考视觉令牌的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。例如，在图像预览中，计算设备10可以识别人、木制场地和篮球。计算设备10可以确定识别三个识别的对象中的每个的各个参考视觉令牌。计算设备10可以将所确定的视觉令牌与从图像捕获命令识别的视觉令牌(即，人)匹配并且确定与人匹配的视觉令牌为将在一个或多个图像中捕获的视觉令牌。

在一些实例中，由计算设备10确定的一个或多个视觉令牌可以是当前视觉令牌。在这些实例中，使用未来视觉令牌模型26，计算设备10可以确定一个或多个预期未来视觉令牌。如上所述，未来视觉令牌模型26可以描述一个或多个视觉令牌子集之间的关系。基于当前视觉令牌24和未来视觉令牌模型26内的关系，计算设备10可以确定一个或多个预期未来视觉令牌。例如，基于人、木制场地和篮球的当前视觉令牌，计算设备10可以确定场景可能为篮球场，在未来图像预览中，预期后卫人类玩家或篮球框的视觉令牌。

在一些示例中，计算设备10可以基于各种信息，更新未来视觉令牌模型26。例如，计算设备10可以确定与初始图像预览之后生成的第二图像预览中的一个或多个视觉令牌的各个视觉令牌相关联的一个或多个实际未来视觉令牌。计算设备10可以将一个或多个实际未来视觉令牌与先前确定的一个或多个预期未来视觉令牌比较。然后，计算设备10可以基于该比较，更新未来视觉令牌模型26。例如，在图5的示例中，计算设备10将篮球框确定为预期未来视觉令牌。如果计算设备10分析第二图像预览并且确定篮球框现在出现在第二图像预览中，计算设备10可以通过增加当人、木制场地和篮球存在时，确认在前预测，确定篮球框将出现的未来可能性。

在其他实例中，计算设备10可以基于众包视觉令牌数据，更新未来视觉令牌模型26。例如，计算设备10可以接收众包视觉令牌数据，该众包视觉令牌数据包括与用于不同于计算设备10的一个或多个众包计算设备的一个或多个当前视觉令牌相关联的一个或多个预期未来视觉令牌的集合。众包数据可以基于具有与计算设备10的用户类似兴趣的用户。例如，计算设备10的用户可以频繁地拍摄篮球赛的照片。假定计算设备10尝试基于人、木制场地和篮球的当前视觉令牌，确定预期未来视觉令牌，计算设备10可以从与同样频繁地拍摄篮球赛的照片的用户相关联的计算设备接收众包视觉令牌数据。计算设备10可以基于来自具有与该用户类似兴趣的用户的众包视觉令牌数据，更新未来视觉令牌模型26，因为预期具有类似兴趣的用户在他们捕获的图像中会面临类似的视觉令牌。

使用视觉令牌位置和由计算设备10确定的图像捕获命令，计算设备10可以捕获视觉令牌的一个或多个图像(230)。例如，计算设备10可以接收图像捕获命令和图像预览内的人的位置。计算设备10可以利用相机30来执行图像捕获命令并且捕获人的一个或多个图像。在一些示例中，只要人完全位于图像预览内，计算设备10可以使用相机30来捕获人的一个或多个图像。在一些其他示例中，计算设备10可以将相机30聚焦在人上并且使相机30的缩放级别保持一致。在这些示例的一些实例中，计算设备10可以裁剪所捕获的图像以提供相机30放大人的错觉。在其他示例中，计算设备10可以将相机30变焦在人上，使得人是所捕获的图像的中心。

在图5的示例中，图像捕获命令包括捕获表示执行特定动作(例如投篮球)的特定对象(例如，人)的视觉令牌的一个或多个图像。在这些实例中，为执行该图像捕获命令，计算设备10可以监视图像预览以确定特定对象何时开始执行特定动作。只要计算设备10确定特定对象开始执行特定动作，计算设备10可以捕获对象的一个或多个图像并且将对象的一个或多个图像存储在图像队列28中。只要计算设备10确定图像预览中的对象不再执行特定动作，计算设备10可以停止捕获对象的图像。然后，计算设备10可以分析图像队列28中的一个或多个图像的每个以确定各个图像内的对象的状态。计算设备10可以基于动作模型29，选择第一图像中的对象的状态最匹配处于执行特定动作中的特定对象时的一个或多个图像中的第一图像。

例如，在图5的示例中，图像捕获命令包括捕获投篮球的人的图像，计算设备10可以确定人是否站立、人是否起跳、人是否抓球、人是否放弃篮球等。计算设备10可以确定与人的手有关的篮球相关联的视觉令牌的位置。动作模型29可以包括与投篮球的动作相关联的数据，诸如要求篮球和人出现在图像中、球应当在人的手中、人应当跳投以及能描述人投篮球的任何其他信息。只要计算设备10使用动作模型29，确定图像预览中的人开始起跳，计算设备10可以开始捕获人的一系列图像。当图像预览中的人从起跳着地时，可以停止捕获人的图像。计算设备10可以分析该系列图像的每个以确定人的状态。然后，计算设备10可以选择一个或多个图像中的第一图像，其中，人的状态匹配动作模型29的要求。例如，计算设备10可以选择人在半空中并且篮球在人手中的图像。

计算设备10可以基于用户反馈，更新动作模型29。例如，计算设备10可以呈现由计算设备10选择的第一图像并且提示用户输入的指示以确认第一图像或拒绝第一图像。如果计算设备10接收确认第一图像的用户输入的指示，计算设备10可以将第一图像存储到存储器并且更新动作模型29以增强执行投篮球的特定动作的人的分析和确定。然而，如果计算设备10接收到拒绝第一图像的用户输入的指示，计算设备10可以更新动作模型29以减小如前定义的人和篮球之间的关联。计算设备10可以选择投篮球过程中的人的一个或多个附加图像并且利用计算设备10来呈现一个或多个附加图像。计算设备10可以接收选择一个或多个附加图像的第二图像的用户输入的附加指示并且基于更新的选择，更新动作模型29。

示例1.一种方法，包括：当计算设备在图像捕获模式中操作时：由所述计算设备接收与图像捕获命令相关联的自然语言用户输入的指示；由所述计算设备基于所述图像捕获命令，确定要被包括在由所述计算设备的相机捕获的一个或多个图像中的视觉令牌；由所述计算设备定位当在所述图像捕获模式中操作时，由所述计算设备输出的图像预览内的视觉令牌；以及由所述计算设备捕获所述视觉令牌的一个或多个图像。

示例2.如示例1所述的方法，其中，定位所述视觉令牌包括：由所述计算设备将所述自然语言用户输入与来自预定令牌的模型的一个或多个参考视觉令牌中的第一参考视觉令牌匹配；由所述计算设备将所述第一参考视觉令牌与所述图像预览内的一个或多个视觉令牌中的每个比较；以及由所述计算设备确定与所述第一参考视觉令牌最匹配的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。

示例3.如示例2所述的方法，其中，所述一个或多个视觉令牌包括一个或多个当前视觉令牌，其中，所述方法进一步包括：由所述计算设备并且至少部分地基于所述一个或多个当前视觉令牌来确定未来视觉令牌模型、以及所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系、一个或多个预期未来视觉令牌。

示例4.如示例3所述的方法，进一步包括：由所述计算设备至少部分地基于隐马尔可夫模型，确定所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系。

示例5.如示例3-4中任何一项所述的方法，其中，所述图像预览包括第一图像预览，以及其中，所述方法进一步包括：由所述计算设备确定与第二图像预览内的一个或多个视觉令牌中的各个视觉令牌相关联的一个或多个实际未来视觉令牌，其中，在所述第一图像预览之后，生成所述第二图像预览；由所述计算设备比较所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌；以及由所述计算设备基于所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌之间的比较，更新所述未来视觉令牌模型。

示例6.如示例5所述的方法，进一步包括：由所述计算设备接收众包视觉令牌数据，所述众包视觉令牌数据包括与用于不同于所述计算设备的一个或多个众包计算设备的一个或多个当前视觉令牌相关联的一个或多个预期未来视觉令牌的集合；以及由所述计算设备基于所述众包视觉令牌数据，更新所述未来视觉令牌模型。

示例7.如示例1-6中任何一项所述的方法，其中，所述图像捕获命令包括捕获所述视觉令牌的一个或多个图像，所述视觉令牌包括执行特定动作的对象。

示例8.如示例7所述的方法，其中，执行所述图像捕获命令包括：由所述计算设备确定所述图像预览中的对象开始执行所述特定动作的第一时间；在所述第一时间处，由所述计算设备开始捕获所述对象的一个或多个图像；由所述计算设备确定所述图像预览中的对象完全执行所述特定动作的第二时间；在所述第二时间处，由所述计算设备停止捕获所述对象的一个或多个图像；由所述计算设备分析所述一个或多个图像的每个以确定各个图像内的对象的状态；以及由所述计算设备基于动作模型，选择所述一个或多个图像中的第一图像，其中所述第一图像的对象的状态与所述特定动作最匹配。

示例9.如示例8所述的方法，进一步包括：由所述计算设备输出所述第一图像以在可操作地连接到所述计算设备的显示设备处显示；由所述计算设备提示确认所述第一图像或拒绝所述第一图像的用户输入的指示；响应接收到确认所述第一图像的用户输入的指示，由所述计算设备将所述第一图像存储到所述计算设备的存储器；以及响应接收到拒绝所述第一图像的用户输入的指示：由所述计算设备基于拒绝所述第一图像的用户输入的指示，更新所述动作模型；由所述计算设备输出所述视觉令牌的一个或多个图像的一个或多个附加图像以在所述显示设备处显示；由所述计算设备接收选择第二图像的用户输入的附加指示，其中所述第二图像被包括在所述一个或多个附加图像中；以及由所述计算设备基于选择所述第二图像，更新所述动作模型。

示例10.如示例1-9中任何一项所述的方法，其中，所述图像捕获命令包括由所述计算设备裁剪所述一个或多个图像以适合所述视觉令牌或由所述计算设备将所述一个或多个图像聚焦在所述视觉令牌上的一个或多个图像。

示例11.如示例1-10中任何一项所述的方法，其中，所述视觉令牌包括对象、人、动作、地点或概念中的至少一个。

示例12.如示例1-11中任何一项所述的方法，其中，所述自然语言用户输入包括口语的用户输入。

示例13.一种计算设备，包括：相机；至少一个处理器和至少一个非暂态计算机可读存储介质，存储可由至少一个处理器执行的指令以：当计算设备在图像捕获模式中操作时：接收与图像捕获命令相关联的自然语言用户输入的指示；基于所述图像捕获命令，确定要被包括在由所述计算设备的相机捕获的一个或多个图像中的视觉令牌；定位当在所述图像捕获模式中操作时，由所述计算设备输出的图像预览内的视觉令牌；以及捕获所述视觉令牌的一个或多个图像。

示例14.如示例13所述的计算设备，其中，可由至少一个处理器执行以定位所述视觉令牌的指令包括可由至少一个处理器执行的指令以：将所述自然语言用户输入与来自预定令牌的模型的一个或多个参考视觉令牌中的第一参考视觉令牌匹配；将所述第一参考视觉令牌与所述图像预览内的一个或多个视觉令牌中的每个比较；以及确定与所述第一参考视觉令牌最匹配的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。

示例15.如示例14所述的计算设备，其中，所述一个或多个视觉令牌包括一个或多个当前视觉令牌，其中，指令可进一步由至少一个处理器执行以：至少部分地基于所述一个或多个当前视觉令牌来确定未来视觉令牌模型、以及所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系、一个或多个预期未来视觉令牌。

示例16.如示例15所述的计算设备，其中，指令可进一步由至少一个处理器执行以：至少部分地基于隐马尔可夫模型，确定所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系。

示例17.如示例14-15中任何一项所述的计算设备，其中，所述图像预览包括第一图像预览，以及其中，指令可进一步由至少一个处理器执行以：确定与第二图像预览内的一个或多个视觉令牌中的各个视觉令牌相关联的一个或多个实际未来视觉令牌，其中，在所述第一图像预览之后，生成所述第二图像预览；比较所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌；以及基于所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌之间的比较，更新所述未来视觉令牌模型。

示例18.如示例17所述的计算设备，其中，指令可进一步由至少一个处理器执行以：接收众包视觉令牌数据，所述众包视觉令牌数据包括与用于不同于所述计算设备的一个或多个众包计算设备的一个或多个当前视觉令牌相关联的一个或多个预期未来视觉令牌的集合；以及基于所述众包视觉令牌数据，更新所述未来视觉令牌模型。

示例19.如示例13-18中任何一项所述的计算设备，其中，所述图像捕获命令包括捕获所述视觉令牌的一个或多个图像，所述视觉令牌包括执行特定动作的对象。

示例20.如示例19所述的计算设备，其中，可由至少一个处理器执行以实现图像捕获命令的指令包括可由至少一个处理器执行的指令以：确定所述图像预览中的对象开始执行所述特定动作的第一时间；在所述第一时间处，开始捕获所述对象的一个或多个图像；确定所述图像预览中的对象完全执行所述特定动作的第二时间；在所述第二时间处，停止捕获所述对象的一个或多个图像；分析所述一个或多个图像的每个以确定各个图像内的对象的状态；以及基于动作模型，选择所述一个或多个图像中的第一图像，其中所述第一图像的对象的状态与所述特定动作最匹配。

示例21.如示例20所述的计算设备，其中，指令可进一步由至少一个处理器执行以：输出所述第一图像以在可操作地连接到所述计算设备的显示设备处显示；提示确认所述第一图像或拒绝所述第一图像的用户输入的指示；响应接收到确认所述第一图像的用户输入的指示，将所述第一图像存储到所述计算设备的存储器；以及响应接收到拒绝所述第一图像的用户输入的指示：基于拒绝所述第一图像的用户输入的指示，更新所述动作模型；输出所述视觉令牌的一个或多个图像的一个或多个附加图像以在所述显示设备处显示；接收选择第二图像的用户输入的附加指示，其中所述第二图像被包括在所述一个或多个附加图像中；以及基于选择所述第二图像，更新所述动作模型。

示例22.如示例13-21中任何一项所述的计算设备，其中，所述图像捕获命令包括由所述计算设备裁剪所述一个或多个图像以适合所述视觉令牌或由所述计算设备将所述一个或多个图像聚焦在所述视觉令牌上的一个或多个图像。

示例23.如示例13-22中任何一项所述的计算设备，其中，所述视觉令牌包括对象、人、动作、地点或概念中的至少一个。

示例24.如示例13-23中任何一项所述的计算设备，其中，所述自然语言用户输入包括口语的用户输入。

示例25.一种存储指令的非暂态计算机可读存储介质，所述指令当被执行时，使计算设备的至少一个处理器以：当计算设备在图像捕获模式中操作时：接收与图像捕获命令相关联的自然语言用户输入的指示；基于所述图像捕获命令，确定要被包括在由所述计算设备的相机捕获的一个或多个图像中的视觉令牌；定位当在所述图像捕获模式中操作时，由所述计算设备输出的图像预览内的视觉令牌；以及捕获所述视觉令牌的一个或多个图像。

示例26.如示例25所述的非暂态计算机可读存储介质，其中，使至少一个处理器定位所述视觉令牌的指令包括使至少一个处理器以实现下述的指令：将所述自然语言用户输入与来自预定令牌的模型的一个或多个参考视觉令牌中的第一参考视觉令牌匹配；将所述第一参考视觉令牌与所述图像预览内的一个或多个视觉令牌中的每个比较；以及确定与所述第一参考视觉令牌最匹配的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。

示例27.如示例26所述的非暂态计算机可读存储介质，其中，所述一个或多个视觉令牌包括一个或多个当前视觉令牌，其中，所述图像预览包括第一图像预览，以及其中，指令可进一步使至少一个处理器：至少部分地基于所述一个或多个当前视觉令牌来确定未来视觉令牌模型、以及所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系、一个或多个预期未来视觉令牌；确定与第二图像预览内的一个或多个对象中的各个对象相关联的一个或多个实际未来视觉令牌，其中在所述第一图像预览之后，生成所述第二图像预览；比较所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌；以及基于所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌之间的比较，更新所述未来视觉令牌模型。

示例28.如示例25-27中任何一项所述的非暂态计算机可读存储介质，其中，所述图像捕获命令包括捕获所述视觉令牌的一个或多个图像，所述视觉令牌包括执行特定动作的对象，其中，可使至少一个处理器执行图像捕获命令的指令包括使至少一个处理器以实现下述的指令：确定所述图像预览中的对象开始执行所述特定动作的第一时间；在所述第一时间处，开始捕获所述对象的一个或多个图像；确定所述图像预览中的对象完全执行所述特定动作的第二时间；在所述第二时间处，停止捕获所述对象的一个或多个图像；分析所述一个或多个图像的每个以确定各个图像内的对象的状态；以及基于动作模型，选择所述一个或多个图像中的第一图像，其中所述第一图像的对象的状态与所述特定动作最匹配。

示例29.如示例28所述的非暂态计算机可读存储介质，其中，指令进一步使至少一个处理器以：呈现所述第一图像以在可操作地连接到所述计算设备的显示设备处显示；提示确认所述第一图像或拒绝所述第一图像的用户输入的指示；响应接收到确认所述第一图像的用户输入的指示，将所述第一图像存储到所述计算设备的存储器；以及响应接收到拒绝所述第一图像的用户输入的指示：基于拒绝所述第一图像的用户输入的指示，更新所述动作模型；呈现所述视觉令牌的一个或多个图像的一个或多个附加图像以在所述显示设备处显示；接收选择第二图像的用户输入的附加指示，其中所述第二图像被包括在所述一个或多个附加图像中；以及基于选择所述第二图像，更新所述动作模型。

示例30.如示例25-29中任何一项所述的非暂态计算机可读存储介质，其中，所述图像捕获命令包括由所述计算设备裁剪所述一个或多个图像以适合所述视觉令牌或所述计算设备将所述一个或多个图像聚焦在所述视觉令牌上的一个或多个图像。

示例31.一种计算设备，被配置成执行如示例1-12中任何一项所述的方法。

示例32.一种计算设备，包括用于执行如示例1-12中任何一项所述的方法的装置。

示例33.一种计算机可读存储介质，编码有用于使一个或多个可编程处理器执行如示例1-12中任何一项所述的方法的指令。

在一个或多个示例中，所述的功能可以以硬件、软件、固件或其任意组合实现。如果用软件实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或在计算机可读介质上传送并且由硬件处理单元执行。计算机可读介质可以包括对应于诸如数据存储介质的有形介质的计算机可读存储介质或通信介质，其包括根据例如根据通信协议，将计算机程序从一个地方传送到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂态的有形的计算机可读存储介质，或(2)诸如信号或载波的通信介质。数据存储介质可以是能由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这些计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备、闪存或能被用来以指令或数据结构的形式存储所需程序代码并且能由计算机访问的任何其他介质。此外，任何连接被适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线(DSL)或无线技术，诸如红外线、无线电和微波，从网站、服务器或其他远程源传送指令，则同轴线缆、光纤线缆、双绞线、DSL或无线技术，诸如红外线、无线电和微波被包括在介质的定义中。然而，应理解到，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是指向非暂态有形存储介质。如本文所使用的磁盘和光盘包括小型盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘通过激光来光学地再现数据。以上的组合也应当被包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等同的集成或分立逻辑电路。因此，如本文所使用的术语“处理器”可以指适于实现本文所述技术的任何前述结构或任何其他结构。此外，在一些方面中，本文描述的功能可以在专用硬件和/或软件模块内提供。此外，这些技术能完全被实现在一个或多个电路或逻辑元件中。

本公开的技术可以在各种设备或装置中实现，包括无线手机、集成电路(IC)或一组IC(例如，芯片组)。在本公开中描述了各种组件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同硬件单元实现。相反，如上所述，各种单元可以组合在硬件单元中，或者由包括如上所述的一个或多个处理器的可互操作硬件单元的集合结合适当的软件和/或固件来提供。

已经描述了本公开的各个实施例。仔细考虑了所述系统、操作或功能的任意组合。这些和其他示例在所附权利要求的范围内。

Claims

1.一种方法，包括：

当计算设备在图像捕获模式中操作时：

由所述计算设备接收与图像捕获命令相关联的自然语言用户输入；

由所述计算设备基于所述图像捕获命令，确定要被包括在由所述计算设备的相机捕获的一个或多个图像中的视觉令牌；

由所述计算设备定位由所述计算设备输出的图像预览内的视觉令牌；以及

由所述计算设备的相机来捕获所述视觉令牌的一个或多个图像。

2.如权利要求1所述的方法，其中，定位所述视觉令牌包括：

由所述计算设备将所述自然语言用户输入与来自预定令牌的模型的一个或多个参考视觉令牌中的第一参考视觉令牌匹配；

由所述计算设备将所述第一参考视觉令牌与所述图像预览内的一个或多个视觉令牌中的每个比较；以及

由所述计算设备确定与所述第一参考视觉令牌最匹配的视觉令牌是要被包括在待捕获的一个或多个图像中的视觉令牌。

3.如权利要求2所述的方法，其中，所述一个或多个视觉令牌包括一个或多个当前视觉令牌，其中，所述方法进一步包括：

由所述计算设备并且至少部分地基于所述一个或多个当前视觉令牌来确定未来视觉令牌模型、所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系、以及一个或多个预期未来视觉令牌。

4.如权利要求3所述的方法，进一步包括：

由所述计算设备至少部分地基于隐马尔可夫模型，确定所述一个或多个当前视觉令牌的一个或多个子集之间的一个或多个关系。

5.如权利要求3所述的方法，其中，所述图像预览包括第一图像预览，以及其中所述方法进一步包括：

由所述计算设备来确定与第二图像预览内的一个或多个视觉令牌中的每个视觉令牌相关联的一个或多个实际未来视觉令牌，其中在所述第一图像预览之后，生成所述第二图像预览；

由所述计算设备来比较所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌；以及

由所述计算设备基于所述一个或多个实际未来视觉令牌和所述一个或多个预期未来视觉令牌之间的比较，更新所述未来视觉令牌模型。

6.如权利要求5所述的方法，进一步包括：

由所述计算设备接收众包视觉令牌数据，所述众包视觉令牌数据包括与用于不同于所述计算设备的一个或多个众包计算设备的一个或多个当前视觉令牌相关联的一个或多个预期未来视觉令牌的集合；以及

由所述计算设备基于所述众包视觉令牌数据，更新所述未来视觉令牌模型。

7.如权利要求1所述的方法，其中，所述图像捕获命令包括捕获所述视觉令牌的一个或多个图像，所述视觉令牌包括执行特定动作的对象。

8.如权利要求7所述的方法，其中，执行所述图像捕获命令包括：

由所述计算设备来确定所述图像预览中的对象开始执行所述特定动作的第一时间；

在所述第一时间处，由所述计算设备开始捕获所述对象的一个或多个图像；

通过所述计算设备来确定所述图像预览中的对象完全执行所述特定动作的第二时间；

在所述第二时间处，由所述计算设备停止捕获所述对象的一个或多个图像；

由所述计算设备分析所述一个或多个图像中的每个图像以确定图像内的对象的状态；以及

由所述计算设备并且基于动作模型，选择所述一个或多个图像中的第一图像，其中所述第一图像内的对象的状态与所述特定动作最匹配。

9.如权利要求8所述的方法，进一步包括：

由所述计算设备输出所述第一图像并且在可操作地连接到所述计算设备的显示设备处显示；

由所述计算设备提示确认所述第一图像或拒绝所述第一图像的用户输入；

响应接收到确认所述第一图像的用户输入，由所述计算设备将所述第一图像存储到所述计算设备的存储器；以及

响应接收到拒绝所述第一图像的用户输入：

由所述计算设备基于拒绝所述第一图像的用户输入，更新所述动作模型；

由所述计算设备输出所述视觉令牌的一个或多个图像的一个或多个附加图像并且在所述显示设备处显示；

由所述计算设备从所述一个或多个附加图像来接收选择第二图像的附加用户输入；以及

由所述计算设备基于选择所述第二图像来更新所述动作模型。

10.如权利要求7-9中任何一项所述的方法，其中，所述图像捕获命令包括由所述计算设备裁剪所述一个或多个图像以适合所述对象或由所述计算设备将所述一个或多个图像聚焦在所述对象上的一个或多个图像。

11.如权利要求1-6中任何一项所述的方法，其中，所述视觉令牌包括对象、人、动作、地点和概念中的至少一个。

12.如权利要求1-9中任何一项所述的方法，其中，所述自然语言用户输入包括口语的用户输入。

13.一种计算设备，包括：

相机；

至少一个处理器；以及

至少一个非暂态计算机可读存储介质，存储将由所述至少一个处理器执行的指令以实现如权利要求1-12中任何一项所述的方法。

14.一种系统，包括：用于实现如权利要求1-12中任何一项所述的方法的装置。

15.一种存储指令的非暂态计算机可读存储介质，所述指令当被执行时，使计算设备的至少一个处理器实现如权利要求1-12中任何一项所述的方法。