CN112136309B

CN112136309B - 用移动图像捕获设备执行倒回操作的系统和方法

Info

Publication number: CN112136309B
Application number: CN201880093639.5A
Authority: CN
Inventors: D.A.巴内特; D.卡拉姆; A.韦沃德; A.M.唐斯巴赫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2022-10-11
Anticipated expiration: 2038-10-09
Also published as: JP7279068B2; JP2021524171A; US11417364B2; CN115580773A; EP3753241A1; JP2023099600A; WO2020076292A1; US20220246178A1; CN112136309A; US20240144971A1; US20210142826A1; US11848031B2

Abstract

提供了一种移动图像捕获设备，该设备可以包括图像捕获系统，该图像捕获系统可进行操作以捕获图像帧并被配置为：提供实时视频流以在用户界面的取景器部分中显示，该实时视频流描绘图像捕获系统的当前视场的至少一部分；将来自实时视频流的视频片段存储在临时图像缓冲器中，该视频片段包括由图像捕获系统捕获的多个图像帧；接收针对用户界面的取景器部分、请求倒回操作的用户输入；以及响应于这样的用户输入，关于视频片段在用户界面的取景器部分中执行倒回操作，其中，可以以倒退的时间顺序提供视频片段的至少两个图像帧以在用户界面中显示。

Description

用移动图像捕获设备执行倒回操作的系统和方法

技术领域

本公开总体上涉及移动图像捕获系统和方法。更特别地，本公开涉及用于用移动图像捕获设备执行倒回操作的系统和方法。

背景技术

越来越多的人正在使用计算设备来捕获、存储、共享例如照片和视频的视觉内容，并与之交互。特别地，对于某些人而言，例如智能电话或平板计算机的手持式计算设备是用于捕获例如照片和视频的视觉内容的主要设备。

然而，当经由手持式计算设备捕获动态主题的照片或视频时，用户可能经常会错过她打算捕获的时刻。例如，用户可以打开相机应用，将手持式计算设备指向她打算捕获的主题，然后操作快门按钮(例如，用户界面内的虚拟快门按钮)以指示手持式计算设备捕获图像。但是，由于主题的动态性质，她可能太迟或太早轻易按下快门按钮。结果，捕获的照片或视频可能没有包括用户打算捕获的内容。当试图捕获特定事件的影像和/或描绘不顺从对象(例如，儿童或宠物)的影像时，该问题尤其严重。结果，即使当用户已打开相机应用并指向期望的对象时，用户也可能无法在恰好合适的时间捕获照片以捕获期望的图像。例如，当用户的婴儿眼睛指向相机生动地笑时，她可能无法在恰好转瞬即逝的时刻捕获图像。

现有系统中解决该问题的一种通常执行的动作是使用户在预期发生期望事件的时间左右简单地捕获非常大量的图像。但是，这种尝试的解决方案具有许多问题。首先，即使用户已经捕获了大量图像，但仍然不能保证用户实际捕获了期望的时刻。其次，这种尝试的解决方案导致在用户设备上存储大量照片。这导致存储器资源的不良分配(例如，存储模糊或不想要的照片)，或者需要用户手动翻阅她的照片集并删除那些不想要的或者没有描绘期望的主题的图像。

发明内容

本公开的实施例的各方面和优点将在以下描述中部分地阐述，或者可以从描述中获悉，或者可以通过实施例的实践而获悉。

本公开的一个示例方面涉及一种移动图像捕获设备。该移动图像捕获设备可以包括可进行操作以捕获图像帧的图像捕获系统。该移动图像捕获设备可以包括一个或多个处理器以及一个或多个非暂时性计算机可读介质，一个或多个非暂时性计算机可读介质存储指令，指令在由一个或多个处理器执行时使该一个或多个处理器执行操作。该操作可以包括提供实时视频流以在用户界面的取景器部分中显示。该实时视频流可以描绘移动图像捕获设备的图像捕获系统的当前视场的至少一部分。该操作可以包括将来自实时视频流的视频片段存储在临时图像缓冲器中。该视频片段可以包括由图像捕获系统捕获的多个图像帧。该操作可以包括接收针对用户界面的取景器部分并且请求倒回操作的用户输入。该操作可包括响应于接收请求倒回操作的用户输入，在用户界面的取景器部分中关于视频片段执行倒回操作。在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示。

本公开的另一示例方面涉及一种移动图像捕获设备。该移动图像捕获设备可以包括图像捕获系统，该图像捕获系统可进行操作以从多个源捕获图像帧。每个源可以具有相应的视场。该移动图像捕获设备可以包括一个或多个处理器以及一个或多个非暂时性计算机可读介质，一个或多个非暂时性计算机可读介质存储指令，指令在由一个或多个处理器执行时使该一个或多个处理器执行操作。该操作可以包括提供实时视频流以在用户界面的取景器部分中显示。该实时视频流可以包括从多个源生成的合成环境流。该操作可以包括将来自实时视频流的视频片段存储在临时图像缓冲器中。该视频片段可以包括由图像捕获系统捕获的多个图像帧。该操作可以包括接收针对用户界面的取景器部分并且请求倒回操作的用户输入。该操作可包括响应于接收请求倒回操作的用户输入，在用户界面的取景器部分中关于视频片段执行倒回操作。在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示。

本公开的另一示例方面涉及一种用于执行倒回操作的方法。该方法可以包括由一个或多个计算设备提供实时视频流以在用户界面的取景器部分中显示。该实时视频流可以描绘移动图像捕获设备的图像捕获系统的当前视场的至少一部分。该方法可以包括由一个或多个计算设备将来自实时视频流的视频片段存储在临时图像缓冲器中。该视频片段可以包括由图像捕获系统捕获的多个图像帧。该方法可以包括由一个或多个计算设备接收针对用户界面的取景器部分并请求倒回操作的用户输入。该方法可以包括响应于接收请求倒回操作的用户输入，由一个或多个计算设备在用户界面的取景器部分中关于视频片段执行倒回操作。在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示。

本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。结合在本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，该说明书参考附图，其中：

图1A描绘了根据本公开的示例实施例的示例计算系统的框图。

图1B描绘了根据本公开的示例实施例的示例计算系统的框图。

图1C描绘了根据本公开的示例实施例的示例计算系统的框图。

图2描绘了根据本公开的示例实施例的机器学习图像选择模型。

图3描绘了根据本公开的示例实施例的机器学习图像捕获模型。

图4描绘了根据本公开的示例实施例的机器学习源选择模型。

图5A描绘了根据本公开的示例实施例的在倒回操作的执行之前的示例用户界面。

图5B描绘了根据本公开的示例实施例的在倒回操作的执行期间的示例用户界面。

图5C描绘了根据本公开的示例实施例的在倒回操作的执行期间的各个阶段的示例用户界面。

图5D描绘了根据本公开的示例实施例的在要存储的图像帧的编辑期间的示例用户界面。

图5E描绘了根据本公开的示例实施例的示例用户界面，该示例用户界面显示在倒回操作的执行期间建议用于存储的图像帧的弹出窗口。

图6描绘了根据本公开的示例实施例的在与主要和次要实时视频馈送相关联的切换操作期间的各个阶段的示例用户界面。

图7描绘了根据本公开的示例实施例的用于执行倒回操作的示例方法的流程图。

在多个附图之间重复的附图标记旨在标识各种实施方式中的相同特征。

具体实施方式

概述

总体上，本公开涉及提供用于利用例如智能电话或平板计算机的手持式计算设备捕获图像和/或视频的改善的用户体验的系统和方法。本文描述的系统和方法可以向用户提供“倒回”时间并从用户未能明确操作设备捕获的先前时刻捕获视频或图像的能力。即使在时刻过去之后，该能力也可以允许用户捕获“完美的镜头”。

特别地，在一个示例中，用户可以将手持式设备的相机指向感兴趣的对象，并且可以在设备的显示器的取景器部分中观看来自相机的实时流。设备可以将来自实时视频流的视频片段(例如，一组捕获的图像)临时存储在临时图像缓冲器中。与在用户希望进行捕获的确切时刻尝试按下捕获按钮不同，她可以一直注视直到该时刻过去。然后，用户可以通过提供用户输入(例如，滑动(swipe)或其他动作或手势)来请求倒回操作。作为响应，设备可以立即(或快速)向用户提供“倒回时间”的能力，以审查显示在取景器上的先前时刻。可以以倒退的时间顺序显示先前时刻和/或用户可以通过例如在擦拭(scrubbing)操作中滚动视频片段来控制回放。她可以选择一个或多个图像，例如作为捕获她错过的“完美的镜头”的照片或视频，并且可以将所选择的(一个或多个)图像保存到设备的非临时存储器中。以这样的方式，提出的系统使用户即使在时刻过去之后也能捕获“完美的镜头”，但不会使用户的相机胶卷(camera roll)充满不想要的图像，或者需要用户手动检查并删除大量不想要的照片。

更特别地，根据本公开的一个方面，移动图像捕获设备(例如，智能电话或平板计算机)可以包括可进行操作以捕获图像帧的图像捕获系统。移动图像捕获设备可以被配置为执行操作。该操作可以包括提供实时视频流以在用户界面的取景器部分中显示。实时视频流可以描绘移动图像捕获设备的图像捕获系统的当前视场的至少一部分。作为示例，移动图像捕获设备可以包括相机(例如，(一个或多个)前向和/或后向相机)。移动图像捕获设备可以被配置为在用户界面的取景器部分上提供由相机中的一个或多个捕获的图像的实时流。移动图像捕获设备可以包括显示用户界面的触敏显示屏。

移动图像捕获设备可以被配置为将来自实时视频流的视频片段存储在临时图像缓冲器中。视频片段可以包括由图像捕获系统捕获的多个图像帧。作为示例，视频片段可以包括例如当前时间之前的先前时间段的移动时间窗口。可以接收针对用户界面的取景器部分并请求倒回操作的用户输入。该用户输入可以包括关于触敏显示屏的用户触摸动作。作为示例，用户可以滑动、点击或以其他方式触摸触敏显示屏。响应于接收用户输入，移动图像捕获设备可以在用户界面的取景器部分中关于视频片段执行倒回操作。

在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示。作为示例，视频片段的至少一部分可以以与正常向前回放速度对应的时间速率向后播放。作为另一示例，视频片段的图像可以例如在擦拭操作中以响应于(例如，经由触摸屏的)连续用户输入的方式显示。

在一些实施方式中，移动图像捕获设备可以被配置为接收对图像帧之一的用户选择并将所选择的(一个或多个)图像帧存储到非临时存储器位置中。换句话说，用户可以导航视频片段的图像帧并选择要存储哪个(哪些)图像帧(例如，作为照片或视频)供以后查看。在倒回操作期间，用户可以选择性地查看视频片段的图像帧。当用户看到她想保存为照片的帧时，用户可以提供用户输入，该用户输入请求将该照片存储在非临时存储器中。这样的用户输入的示例包括点击显示在用户界面中的虚拟捕获按钮。

在一些实施方式中，移动图像捕获设备可以允许用户在倒回操作期间(例如，在存储在非临时存储器位置之前)编辑一个或多个图像帧。用户可以执行请求关于当前显示的图像帧的裁剪或缩放功能的用户输入。作为示例，用户可以执行两指(例如，捏合动作(pinching motion))用户输入以控制裁剪/缩放功能。

作为另一示例，用户可以将移动图像捕获设备从与第一图像纵横比(例如，肖像纵横比)相关联的第一取向(例如，肖像取向)旋转到与第二图像纵横比(例如，景观纵横比)相关联的第二取向(例如，景观取向)。作为响应，移动图像捕获设备可以从以第一图像纵横比显示当前显示的图像帧改变为第二图像纵横比。在一些实施方式中，移动图像捕获设备可以捕获具有广视场的图像帧(例如，使用广角相机)。图像帧的视场可以大于第一图像纵横比和/或第二图像纵横比(例如，比景观纵横比宽和/或比肖像纵横比高)。当以肖像取向显示(一个或多个)图像帧时，移动图像捕获设备可以显示(一个或多个)图像帧的具有肖像纵横比的一部分(例如，肖像裁剪版本)。类似地，当以景观取向显示(一个或多个)图像帧时，移动图像捕获设备可以显示(一个或多个)图像帧的具有景观纵横比的一部分(例如，景观裁剪版本)。一旦用户完成(一个或多个)图像帧的编辑，就可以将图像帧存储在非临时存储器位置中。这样，用户可以通过在倒回操作期间简单地旋转移动图像捕获设备来在存储以供以后查看之前快速裁剪(一个或多个)图像帧。

作为又另一示例，用户可以在将(一个或多个)图像帧存储在非临时存储器位置之前执行请求对(一个或多个)图像帧的一个或多个特性(例如，亮度、对比度、颜色饱和度等)的调整的用户输入。移动图像捕获设备可以被配置为允许用户在将视频片段的一个或多个图像帧存储在非临时存储器位置之前对视频片段的一个或多个图像帧执行各种合适的图像或视频编辑功能。

在一些实施方式中，用户可以用单个手势发起倒回操作、存储一个或多个图像帧并结束倒回操作。作为示例，用户可以用她的手指在触摸屏上发起滑动手势以请求倒回操作。用户可以保持她的手指和触摸屏之间的接触(例如，当执行擦拭操作时)，直到显示她想要保存为照片的图像帧。然后，她可以从触摸屏抬起手指，以请求将当前显示的图像帧作为照片保存到非临时存储器位置。从触摸屏抬起手指也可以可选地结束倒回操作。作为响应，移动图像捕获设备可以继续在她的用户界面的取景器部分中显示实时视频流。

用户可以类似地在倒回操作期间将视频片段的一部分保存在非临时存储器中以供以后查看。例如，在倒回操作期间，用户可以标记她希望保存的部分的开始和结束。用户可以使用各种用户输入动作来标记开始和结束，例如包括按下虚拟标记按钮、从触摸屏暂时抬起她的手指或任何其他合适的手势或输入。

在一些实施方式中，如以上所指出的，移动图像捕获设备可以被配置为例如在倒回操作期间响应于用户输入的移动而执行擦拭操作。擦拭操作可以被配置为允许用户在视频片段的各个图像帧之间(例如，以倒退和/或向前的时间顺序)导航。作为示例，用户输入可以具有速度，并且用户界面可以以与用户输入的速度正相关的速度在不同图像帧的显示之间(例如，以向前和/或倒退的时间顺序)转换。更特别地，用户界面可以以与用户输入的速度正相关的速度在视频片段的第一图像帧与视频片段的至少第二图像帧之间转换。用户可以通过控制用户输入的方向来控制是以向前还是倒退的时间顺序显示图像帧。作为示例，用户可以向左或向下滑动从而以倒退的时间顺序显示图像帧。用户可以向右或向上滑动从而以向前的时间顺序显示图像帧。因此，在倒回操作期间，用户可以快速且直观地导航视频片段的图像帧，例如以定位她希望保存的一个或多个帧。

在一些实施方式中，移动图像捕获设备可以被配置为在倒回操作期间显示缩略图条(thumbnail strip)。缩略图条可以包括多个缩略图像。缩略图像可以以时间顺序排列。可以突出显示或标记多个图像中的当前图像。缩略图条可以包括视频片段的多个图像的子集，并且该子集可以指示当前图像在视频片段内的相对时间位置(例如，相对于时间上相邻的图像帧)。因此，缩略图条可以为用户提供对视频片段内当前图像的关系的上下文理解。

在一些实施方式中，来自实时视频流的视频片段可以以与移动时间窗口相关联的先进先出(FIFO)配置存储在临时图像缓冲器中。移动时间窗口可以具有从当前时刻开始向后延伸的相关联时间段(例如，五秒)。换句话说，移动时间窗口可以包括距当前时刻的前五秒。移动图像捕获设备可以将来自实时视频流的图像存储在临时图像缓冲器中。当图像变得比所述时间段旧时(例如，当它们“退出(exit)”移动时间窗口时)，移动图像捕获设备可以从临时图像缓冲器丢弃(例如，删除或覆写)该图像。在这方面，可以将存储描述为先进先出配置。因此，临时图像缓冲器可以提供对移动时间窗口的视频片段的临时存储。

在一些实施方式中，移动图像捕获设备可以被配置为自动开始存储视频片段，而无需用户按下捕获按钮。作为示例，当提供实时视频流以在界面的取景器部分中显示时，视频片段可以从实时视频流自动存储在临时图像缓冲器中。用户可以打开相机应用，并且响应于相机应用被打开，移动图像捕获设备可以开始自动存储视频片段(例如，无需进一步的用户输入)。

作为另一示例，相机应用可以在多种模式下可操作，并且当相机应用在至少两种模式下操作时，视频片段可以被自动存储。当首次打开相机应用时，无论相机应用处于图像捕获模式还是视频捕获模式，都可以自动存储视频片段。因此，用户可以打开相机应用并将移动图像捕获设备指向对象。如果用户随后错过她(例如，在视频或照片中)打算捕获的时刻，则用户可以请求倒回操作以“返回”并捕获错过的时刻，即使用户在她首次打开相机应用时不打算使用倒回操作也如此。

在一些实施方式中，移动图像捕获设备可以被配置为向用户提供关于要保存视频片段的哪个图像帧的一个或多个建议。在倒回操作期间，移动图像捕获设备可以突出显示一个或多个图像帧或以其他方式将用户的注意力吸引到一个或多个图像帧。作为示例，可以出现弹出窗口，其显示被建议存储的一个或多个图像帧的预览。弹出窗口可以为用户提供以下选项：在将来自动存储这样的图像帧、在更大的窗口中(例如，在整个用户界面中)查看建议的图像帧和/或丢弃建议的图像帧。

移动图像捕获设备可以被配置为例如基于各种摄影特性来选择和推荐一个或多个图像帧进行存储。这样的特性的示例可以包括构图、照明和上下文，例如关于视频片段或视频片段的相邻部分与图像帧相关联的时间上下文。如果用户同意移动设备获悉她对这样的特性的偏好，则移动图像捕获设备可以基于所获悉的关于用户对这样的照片特性的偏好的信息，选择要推荐存储的图像帧。

重要的是，可以向用户提供控件(control)，该控件允许用户关于本文描述的系统、程序或特征是否可以以及何时可以启用对用户信息(例如，偏好)的收集进行选择。另外，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得个人可识别信息被去除。例如，可以处理用户的标识，使得无法针对该用户确定个人可识别信息。因此，用户可以对收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息进行控制。

在一些实施方式中，移动图像捕获设备可以利用机器学习图像选择模型来选择图像帧以向用户建议进行存储。机器学习图像选择模型可以被配置为接收视频片段的多个图像帧。响应于接收多个图像帧，机器学习图像选择模型可以输出描述对多个图像帧中的至少一个的选择的帧选择集(frame selection set)。移动图像捕获设备可以被配置为将视频片段的多个图像帧输入到机器学习图像选择模型中。该帧选择集可以作为机器学习图像选择模型的输出而被接收。移动图像捕获设备可以提供选择建议，以在包括由帧选择集描述的图像帧中的至少一个的用户界面中显示。因此，移动图像捕获设备可以经由机器学习图像选择模型来选择图像，并建议所选择的图像供用户存储。

在一些实施方式中，如果用户同意，则移动图像捕获设备可以自动地从实时视频流捕获图像帧而无需接收任何用户输入。作为示例，移动图像捕获设备可以利用机器学习图像捕获模型以从实时视频流中选择一个或多个图像帧进行存储(例如，存储在非临时存储器中)。机器学习图像捕获模型可以被配置为从实时视频流接收图像帧。响应于接收图像帧，机器学习捕获模型可以输出描述是否存储图像帧(例如，存储在非临时存储器中)的捕获决策。移动图像捕获设备可以被配置为(例如，以定期间隔)对实时视频流进行采样以获得输入到机器学习图像捕获模型中的图像帧。捕获决策可以作为机器学习图像捕获模型的输出被接收。机器学习捕获模型可以被配置为基于多种因素，包括例如图像帧的特性以及如果用户同意则包括用户的偏好，来选择要捕获的图像。

移动图像捕获设备可以基于捕获决策自动捕获图像。因此，移动图像捕获设备可以利用机器学习图像捕获模型来从实时视频流中自动捕获图像帧，而无需接收任何用户输入。

在一些实施方式中，可以在倒回操作结束时或当与执行倒回操作相关联的相机应用关闭时删除或清除临时图像缓冲器。作为示例，用户可以请求倒回操作并选择一个或多个图像帧以存储在非临时存储器位置中。在存储(一个或多个)图像帧后，可以自动结束倒回操作。替代地，用户可以例如通过按下显示在用户界面中的虚拟“结束”按钮或另一合适的用户输入来请求结束倒回操作。作为响应，移动图像捕获设备可以结束倒回操作并继续提供实时视频流以供显示。当在倒回操作结束时提供实时视频流以供显示时，移动图像捕获设备可以清除或覆写临时图像缓冲器。替代地，移动图像捕获设备可以保留来自倒回操作的临时图像缓冲器，并且在预期第二倒回操作的情况下开始将来自实时视频流的视频片段存储在辅助临时图像缓冲器中。在这样的实施方式中，移动图像捕获设备可以保留与一个或多个倒回操作相关联的临时图像缓冲器，例如，直到与倒回操作相关联的相机应用被关闭。当关闭相机应用时，可以清除(一个或多个)临时图像缓冲器以释放设备的资源以用于后续操作。

根据本公开的另一方面，移动图像捕获设备可以提供实时视频流以在用户界面的取景器部分中显示，并且实时视频流可以包括从多个源生成的合成环境流(compositeenvironmental stream)。该多个源可以与多个设备上相机(例如，前向相机和后向相机)对应。移动图像捕获设备可以被配置为通过在空间上布置和/或接合(例如，“拼接”)来自多个源的两个或更多个视频流来生成合成环境流。在一个示例中，合成环境流可以包括已与广角图像的部分组合的窄角图像，其中，广角图像的部分小于广角图像的整体，并且其中，广角图像的这些部分围绕窄角图像的周边的至少一部分。这可以使合成环境流能够描绘场景周围比仅由窄角度图像描绘的环境更大的环境。在一些实施方式中，合成环境流可以至少部分是全景的。因此，在一个示例中，合成环境流可以描绘由后向相机捕获的窄角图像以及由前向相机捕获的广角图像的部分(或反之)，从而提供描绘移动图像捕获设备前面和后面两者的环境的影像。

在一些实施方式中，用户界面可以在同一界面内呈现多个实时视频流。例如，主要实时视频流和次要实时视频流可以在同一界面内呈现。可以将与多个实时视频流对应的多个视频片段存储在一个或多个临时缓冲器中。每个实时视频流可以直接与相机的视场对应，和/或实时视频流之一可以源自多个相机(或其子组合)。

在一些实施方式中，可以将主要实时视频流显示得大于次要实时视频流。主要实时视频流可以包括来自第一源(例如，后向相机)的图像，并且可以显示在用户界面的取景器部分的主要观看部分中。次要实时视频流可以包括来自第二源(例如，前向相机)的图像，并且可以显示在取景器的次要观看部分中。主要观看部分可以大于次要观看部分。例如，次要观看部分可以覆写或叠加在主要观看部分的部分上。例如，次要观看部分可以被呈现在叠加在主要观看部分的部分上的气泡内。

主要和/或次要实时视频流可以向用户提供与捕获的图像帧相关联的更多的上下文信息。作为示例，次要实时视图流可以在用户观看显示在主要实时视图流中的主题时向她提供她的面部表情的视图。作为另一示例，次要实时视图流可以通过在观看主要实时视频流时向用户提供关于其她周围环境的视觉信息来充当“后视镜”。

合成环境流可以具有可以向用户提供关于用户环境的视觉信息的广视场。合成环境流的视场可以大于主要和次要实时流各自的相应视场。作为示例，主要和次要实时流可以具有互补或重叠的视场。结果，在一些实施方式中，合成环境流可以具有360度的视场。在一个示例中，合成环境流可以包括由窄角相机捕获的一些或全部影像以及由广角相机捕获的一些或全部影像的合成。例如，可以在由窄角相机捕获的影像周围添加由广角相机捕获的影像的部分。因此，除了用户打算捕获的主题之外，合成环境流还可以向用户提供关于周围环境的视觉信息。

可以对于流中的一个或两个执行倒回操作。更特别地，可以将包括合成环境流的视频片段存储在临时图像缓冲器中，并且可以对于该视频片段执行倒回操作。替代地，可以存储来自主要实时视频流的主要视频片段，并且可以存储来自次要实时视频流的次要视频片段。响应于请求倒回操作的用户输入，移动图像捕获设备可以对于实时视频流中的一个或两个执行倒回操作。

用户可以能够控制在用户界面的取景器部分的主要观看部分中显示多个源中的哪个源。用户可以在执行倒回操作之前和/或期间行使该控制。作为示例，用户可以执行请求改变在取景器的主要观看部分中显示的源的用户输入。用户可以触摸取景器的次要观看部分，以请求将显示在次要观看部分中的源显示在取景器的主要观看部分中。移动图像捕获设备可以切换显示在主要和次要观看部分中的相应源。

在一些实施方式中，用户可以在倒回操作期间控制(例如，选择)在主要观看部分中显示哪个源。用户可以能够存储反映她的选择的合成环境流的视频。更特别地，该视频可以在回放期间在与用户在倒回操作期间进行控制的时间相同的时间并且以与其相同的方式来切换源。

作为示例，用户可以将移动图像捕获设备的后向相机指向对象。移动图像捕获设备的前向相机可以指向用户。用户可以请求倒回操作并从先前时间间隔(例如，前五秒)的存储的视频片段中查看图像帧。用户可以浏览(scrub through)图像帧(至少部分以倒退的顺序)以定位并选择她希望作为视频存储在非临时存储器中的视频片段的一部分。用户然后可以例如通过以向前的时间顺序以正常时间速率查看视频片段的该部分来预览她希望存储的视频片段的该部分。在此预览期间，用户可以选择(例如，来自前向相机或后向相机的)哪个实时视频流要显示在取景器的主要观看部分中。然后，用户可以保存视频，在该视频中，显示在取景器的主要观看部分中的视频流在与预览期间她进行控制的时间相同的时间及与其相同的方式被改变。替代地，用户可以将合成视频存储在非临时存储器中，该合成视频可以在以后时间在回放期间类似地被控制。更特别地，在回放这样的合成视频期间，用户可以选择在用户界面的取景器部分的主要观看部分中显示哪个源。

在一些实施方式中，移动图像捕获设备可以被配置为自动控制(例如，改变或切换)在取景器的主要观看部分中显示哪个源。例如，移动图像捕获设备可以被配置为在取景器的主要观看部分中在显示前向相机或后向相机之间进行切换。移动图像捕获设备可以被配置为在实时观看期间(例如，在提供实时视频流以在用户界面的取景器部分中显示时)和/或在倒回操作期间执行该切换。附加地或替代地，移动图像捕获设备可以被配置为在回放存储在非临时存储器中的合成视频期间执行该切换。

作为示例，移动图像捕获设备可以利用机器学习源选择模型来选择在取景器的主要观看部分中显示哪个源。机器学习源选择模型可以配置为接收来自第一视频源的第一组图像帧和来自第二视频源的第二组图像帧。第一和第二视频源可以与相应的实时视频流或相应的实时视频流的存储的视频对应。第一和第二视频源可以与来自前向和后向相机的实时视频流对应。响应于接收第一和第二视频源，机器学习源选择模型可以输出源选择输出，该源选择输出描述要在取景器的主要观看部分中显示哪个源(例如，何时在显示来自前向相机的视频流和来自后向相机的视频流之间切换)的时间对齐指示。移动图像捕获设备可以被配置为将来自多个源(例如，实时视频流或存储的视频)的图像输入到机器学习源选择模型。可以将源选择输出作为机器学习源选择模型的输出来接收。移动图像捕获设备可以基于源选择输出来控制源在主要观看部分和/或次要观看部分中的显示。

替代地，移动图像捕获设备可以向用户提供关于何时要在主要观看部分显示哪个源的建议。这样的建议可以与视频片段内的相应图像帧或相应时间相关联。可以在倒回操作期间和/或在观看存储的合成视频期间提供这样的建议。

本公开的系统和方法提供了许多技术效果和益处。作为一个示例，本文描述的系统和方法可以使用最少的计算资源来执行倒回操作，这相对于捕获视频并将其存储在非临时存储器中，然后审查图像帧的存储的视频和/或视频片段来进行提取，可以导致更快且更高效的执行。例如，在一些实施方式中，由于减少的计算需求，因此可以在诸如例如智能电话的用户计算设备上快速且高效地执行本文描述的系统和方法。这样，本公开的各方面可以例如改善在云计算不可用或以其他方式不合需要的情况下(例如，出于改善用户隐私性和/或降低通信成本的原因)使用这样的设备的视频捕获的可访问性和有效性。

以这种方式，本文描述的系统和方法可以提供移动图像捕获的更高效的操作。通过捕获视频片段并将其存储在临时存储器中，可以提高提取特定图像并将其存储在非临时存储器中的效率。特别地，可以改善对短暂和/或不可预测事件的捕获，例如，捕获大笑或微笑或捕获体育事件或天气事件。因此，本文描述的系统和方法避免了效率较低(例如高速连拍(burst)摄影)或需要例如外部声音/运动触发器的附加装备的图像捕获操作。

作为一个示例，可以在应用、浏览器插件的上下文中或在其他上下文中包括或以其他方式利用本公开的系统和方法。因此，在一些实施方式中，本公开的模型可以被包括在例如膝上型计算机、平板计算机或智能电话的用户计算设备中或以其他方式由其存储和实现。作为又另一个示例，模型可以被包括在根据客户端-服务器关系与用户计算设备进行通信的服务器计算设备中或以其他方式由其存储和实现。例如，模型可以由服务器计算设备实现为网络服务(例如，网络电子邮件服务)的一部分。

现在参考附图，将进一步详细讨论本公开的示例实施例。

示例设备和系统

图1A描绘了根据本公开的示例实施例的用于执行倒回操作的示例计算系统100的框图。系统100包括通过网络180通信地联接的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102通常是移动图像捕获设备，例如智能电话或平板计算机。在其他实施方式中，用户计算设备102可以是任何类型的计算设备，例如，个人计算设备(例如，膝上型计算机或台式计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器114可以存储数据116和由处理器112执行以使用户计算设备102执行操作的指令118。存储器114还可包括非临时存储器位置120和临时图像缓冲器122。例如，临时图像缓冲器122可以与适于信息的临时存储的非暂时性计算机可读存储介质(例如RAM)对应。非临时存储器位置120可以与适于信息的非临时存储的非暂时性计算机可读存储介质(例如闪存设备、磁盘等)对应。

用户计算设备102可以存储或包括一个或多个机器学习图像选择模型123、机器学习图像捕获模型124和/或机器学习选择模型125。例如，机器学习模型123、124、125可以是或可以以其他方式包括各种机器学习模型，例如神经网络(例如，深度神经网络)或其他多层非线性模型。神经网络可以包括循环神经网络(例如，长短期记忆循环神经网络)、前馈神经网络或其他形式的神经网络。参考图2至图4讨论示例模型123、124、125。

在一些实施方式中，一个或多个模型123、124、125可以通过网络180从服务器计算系统130接收，被存储在用户计算设备存储器114中，并且由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现模型123、124、125中的一个或多个的多个并行实例(例如，以在模型123、124、125的多个实例之间执行并行操作)。

附加地或替代地，一个或多个模型140、142、144可以被包括在根据客户端-服务器关系与用户计算设备102通信的服务器计算系统130中或以其他方式由其存储和实现。例如，可以在用户计算设备102处存储和实现一个或多个模型140、142、144和/或可以在服务器计算系统130处存储和实现一个或多个模型140。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件126。例如，用户输入组件126可以是对用户输入对象(例如，手指或手写笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可通过其输入通信的其他装置。

用户计算设备102还可以包括一个或多个相机128。例如，用户计算设备102可以包括前向相机和/或后向相机。作为示例，用户计算设备102可以与智能电话对应，并且后向相机可以被定位成与智能电话的显示器相邻，使得当用户在持有智能电话并观看显示器时后向相机背向用户指向。类似地，前向相机可以被定位成使得当用户在持有智能电话并观看显示器时，前向相机远离用户指向。用户计算设备102可以包括具有各种不同特性的任何数量的不同类型和布置的相机128。在一个示例中，设备102可以具有多个前向相机和/或多个后向相机。相机128可以是窄角相机、广角相机或其组合。相机128可以具有不同的滤光器和/或可感受不同波长的光(例如，一个红外相机和一个可见光谱相机)。在一个示例中，设备102可以具有第一后向相机(例如，具有广角镜和/或f/1.8光圈)、第二后向相机(例如，具有远摄镜和/或f/2.4光圈)和前向相机(例如，具有广角镜和/或f/2.2光圈)。在另一特定示例中，设备102可以包括以下相机：后向相机(例如，具有12.2兆像素、激光自动聚焦和/或双像素相位检测)、第一前向相机(例如，具有8.1兆像素和/或f/1.8的光圈)以及第二前向相机(例如，具有8.1兆像素、广角镜和/或可变的f/1.8和f/2.2的光圈)。

服务器计算系统130可以包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器134可以存储数据136和由处理器132执行以使服务器计算系统130执行操作的指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或由其实现。在服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140、142、144。例如，模型140、142、144可以是或可以以其他方式包括各种机器学习模型，例如神经网络(例如深度循环神经网络)或其他多层非线性模型。参考图2至图4讨论示例模型140、142、144。

服务器计算系统130可以经由与通过网络180而通信联接的训练计算系统150的交互来训练模型140。训练计算系统150可以与服务器计算系统130分开或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或操作性地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器154可以存储数据156和由处理器152执行以使训练计算系统150执行操作的指令158。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由其实现。

训练计算系统150可以包括模型训练器160，该模型训练器160使用各种训练或学习技术(诸如例如，误差的反向传播)来训练存储在服务器计算系统130处的机器学习模型140、142、144中一个或多个。在一些实施方式中，执行误差的反向传播可以包括执行通过时间的截断反向传播(truncated backpropagation through time)。模型训练器160可以执行多种泛化技术(例如，权重衰减、丢弃等)，以提高正被训练的模型的泛化能力。

特别地，模型训练器160可以基于训练数据162集来训练模型140、142、144中的一个或多个。训练数据162可以包括模型输入和/或输出的标记或未标记的集合，例如以下参考图2至图4所述。

在一些实施方式中，如果用户已经提供同意，则训练示例可以由用户计算设备102(例如，基于先前由用户计算设备102的用户提供的通信)提供。因此，在这样的实施方式中，提供给用户计算设备102的模型140、142、144可以由训练计算系统150在从用户计算设备102接收的用户特定的通信数据上进行训练。在一些情况下，该过程可以被称为对模型个性化。例如，可以基于(例如，对于照相特性的)用户偏好训练模型140、142、144中的一个或多个。

模型训练器160包括用于提供期望功能的计算机逻辑。可以以控制通用处理器的硬件、固件和/或软件来实现模型训练器160。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并且由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括存储在有形的计算机可读存储介质(例如RAM硬盘或光或磁介质)中的一个或多个计算机可执行指令集。

网络180可以是任何类型的通信网络，例如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且可以包括任意数量的有线或无线链路。通常，可以使用各种不同的通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)，经由任何类型的有线和/或无线连接来承载通过网络180的通信。

图1A示出了可以用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型140、142、144可以在用户计算设备102处被本地地训练和使用。在一些这样的实施方式中，用户计算设备102可以实现模型训练器160以基于用户特定的数据来个性化模型140、142、144。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用1到N)。每个应用包含其自己的机器学习库和(一个或多个)机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B所示，每个应用可以与计算设备的多个其他组件进行通信，诸如例如，一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在某些实施方式中，每个应用使用的API特定于该应用。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1到N)。每个应用都与中央智能层进行通信。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，所有应用之间的共同API)与中央智能层(以及存储在其中的(一个或多个)模型)进行通信。

中央智能层包括多个机器学习模型。例如，如图1C所示，可以为每个应用提供相应的机器学习模型(例如，模型)，并且该机器学习模型可以由中央智能层进行管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统内或以其他方式由其实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备50的数据的集中式存储库。如图1C所示，中央设备数据层可以与计算设备的多个其他组件通信，诸如例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，专用API)与每个设备组件通信。

示例模型布置

图2描绘了根据本公开的示例实施例的示例机器学习图像选择模型200的框图。在一些实施方式中，机器学习图像选择模型200可以被配置为接收(例如，视频片段的)多个图像帧202。响应于接收多个图像帧202，机器学习图像选择模型200可以输出描述对多个图像帧202中的至少一个的选择的帧选择集204。

图3描绘了示例机器学习图像捕获模型300的框图。机器学习图像捕获模型300可以配置为(例如，从实时视频流)接收图像帧302。响应于接收图像帧302，机器学习捕获模型可以输出捕获决策304，该捕获决策304描述是否存储图像帧(例如，存储在以上参考图1A描述的非临时存储器位置120中)。

图4描绘了示例机器学习源选择模型400选择在用户界面的取景器部分的主要观看部分中显示哪个源(例如如下面参考图6所述)的框图。机器学习源选择模型400可以被配置为接收来自第一视频源402的第一组图像帧和来自第二视频源404的第二组图像帧。第一和第二视频源402、404可以与相应的实时视频流或相应的实时视频流的存储的视频对应。作为示例，第一和第二视频源402、404可以分别与来自前向和后向相机128的实时视频流对应。响应于接收第一和第二视频源402、404，机器学习源选择模型400可以输出源选择输出406，该源选择输出406描述要在取景器的主要观看部分中显示哪个源(例如，何时在显示来自前向相机的视频流和来自后向相机的视频流之间切换)的时间对齐指示，例如，如下面参考图6所述。

参考图5A和5B，在一个示例中，用户可以将手持式设备502的相机指向感兴趣的对象，并可以在设备502的显示器505的取景器部分504中观看来自相机的实时流。在该示例中，感兴趣的对象是将帽子扔到男人头上的女人。设备502可以将来自实时视频流的视频片段(例如，一组捕获图像)临时存储在临时图像缓冲器122(图1A)中。与在用户希望进行捕获的确切时刻尝试按下捕获按钮508(又称“快门释放按钮”)不同，她可以注视直到该时刻过去。然后，用户可以通过提供用户输入(例如，如接触显示屏505的用户的手506所示的滑动或其他动作或手势)来请求倒回操作。作为响应，设备502可以立即(或快速)向用户提供“倒回时间”的能力(如图5B所示)以审查显示在取景器部分504上的先前时刻。可以以倒退的时间顺序显示先前时刻和/或用户可以通过例如在擦拭操作中滚动视频片段来控制回放。她可以选择一个或多个图像，例如作为捕获她错过的“完美的镜头”的照片或视频，并且可以将所选择的(一个或多个)图像保存到设备102的非临时存储器位置120(图1A)。以这样的方式，提出的系统使用户即使在该时刻过去之后也能捕获“完美的镜头”，但不会使用户的相机胶卷充满不想要的图像，或需要用户手动检查并删除大量不想要的照片。

更特别地，参考图5C，根据本公开的一个方面，移动图像捕获设备(例如，智能电话或平板计算机)可以包括可进行操作以捕获图像帧的图像捕获系统。在图5C中，在四个不同的时序帧552、554、558、562中示出了移动图像捕获设备的用户界面。移动图像捕获设备可以被配置为执行操作。参考第一帧552，操作可以包括提供实时视频流以在用户界面的取景器部分504中显示。实时视频流可以描绘移动图像捕获设备的图像捕获系统的当前视场的至少一部分。作为示例，移动图像捕获设备可以包括相机，例如前向和/或后向相机(例如，与以上参考图1A描述的相机128对应)。移动图像捕获设备可以被配置为在用户界面的取景器部分504上提供由一个或多个相机捕获的图像的实时流。移动图像捕获设备可以包括显示用户界面的触敏显示屏。

移动图像捕获设备可以被配置为将来自实时视频流的视频片段存储在临时图像缓冲器122(图1A)中。视频片段可以包括由图像捕获系统捕获的多个图像帧。作为示例，视频片段可以包括例如当前时间之前的先前时间段的移动时间窗口。

参考图5C的帧554，可以接收针对用户界面的取景器部分504并请求倒回操作的用户输入。该用户输入可以包括关于触敏显示屏的用户触摸动作。例如，在图5C的帧554中，用户输入由用户的手的虚线轮廓和表示关于触敏显示屏的滑动输入的伴随箭头556示出。作为其他示例，用户点击或以其他方式触摸触敏显示屏。响应于接收用户输入，移动图像捕获设备可以在用户界面的取景器部分中关于视频片段执行倒回操作。

参考图5C中的帧558，在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示。作为示例，视频片段的至少一部分可以以与正常向前回放速度对应的时间速率向后播放。作为另一示例，视频片段的图像可以例如在擦拭操作(由用户的手的虚线轮廓和指向左侧和右侧的一组伴随的箭头560示出)中以响应于连续用户输入(例如，经由触摸屏)的方式显示。

用户可以经由擦拭操作(由箭头560表示)在视频片段的各个图像帧之间导航(例如，以倒退和/或向前的时间顺序)。作为示例，用户输入可以具有速度，并且用户界面可以以与用户输入的速度正相关的速度在不同图像帧的显示之间转换(例如，以向前和/或倒退的时间顺序)。更特别地，用户界面可以以与用户输入的速度正相关的速度在视频片段的第一图像帧与视频片段的至少第二图像帧之间转换。用户可以通过控制用户输入的方向来控制是以向前还是倒退的时间顺序显示图像帧。作为示例，用户可以向左或向下滑动从而以倒退的时间顺序显示图像帧。用户可以向右或向上滑动从而以向前的时间顺序显示图像帧。因此，在倒回操作期间，用户可以快速且直观地导航视频片段的图像帧，例如以定位她希望保存的一个或多个帧。

在一些实施方式中，移动图像捕获设备可以被配置为在倒回操作期间显示缩略图条510。缩略图条510可以包括多个缩略图像。缩略图像可以以时间顺序排列。可以突出显示或以其他方式标记多个图像中的当前图像518。缩略图条510可以包括视频片段的多个图像的子集，并且该子集可以指示当前图像在视频片段内的相对时间位置(例如，相对于时间上相邻的图像帧)。因此，缩略图条510可以为用户提供视频片段内当前图像的关系的上下文理解。

参考图5C的帧562，在一些实施方式中，移动图像捕获设备可以被配置为接收对图像帧之一的用户选择并将所选择的(一个或多个)图像帧存储到非临时存储器位置120(图1A)中。换句话说，用户可以导航视频片段的图像帧并选择要存储哪个(哪些)图像(例如，作为照片或视频)供以后查看。在倒回操作期间，用户可以选择性地查看视频片段的图像帧。当用户看到她想保存为照片的帧时，用户可以提供用户输入，该用户输入请求将该照片存储在非临时存储器(例如，参考图1A描述的非临时存储器位置120)中。这样的用户输入的示例包括点击显示在用户界面中的虚拟捕获按钮508。另外，在一些实施方式中，用户可以例如通过点击“保存全部”按钮568来将所有临时存储的图像保存到非临时存储器位置120中。移动图像捕获设备可以在用户界面中提供指出已保存(一个或多个)图像的通知570。

参考图5D，在一些实施方式中，移动图像捕获设备可以允许用户在倒回操作期间(例如，在存储在非临时存储器之前)编辑一个或多个图像帧。图5D包括移动图像捕获设备的多个帧580、586、588，其处于编辑举起女孩以“灌”篮的男人的图像的各个阶段。参考图5D的帧580，用户可以执行请求关于当前显示的图像帧的裁剪或缩放功能的用户输入。作为示例，用户可以执行两指“捏合动作”用户输入(由图5D的帧580中的一系列圆圈582表示)以控制裁剪/缩放功能。更特别地，移动图像捕获设备可以将图像文件保存到与显示在用户界面中的图像的部分对应的非临时存储器位置120。用户可以通过点击捕获按钮508来请求图像捕获设备保存图像。

图5D的帧586和588示出了用于在倒回操作期间编辑一个或多个图像帧的另一技术。用户可以将移动图像捕获设备从例如如帧586中所示的第一取向旋转到例如如帧588中所示的第二取向。第一取向(例如，肖像取向)可以与第一图像纵横比(例如，肖像纵横比)相关联。第二取向(例如，景观取向)可以与第二图像纵横比(例如，景观纵横比)相关联。作为响应，移动图像捕获设备可以从以第一图像纵横比显示当前显示的图像帧改变为第二图像纵横比。然后，用户可以例如通过点击捕获按钮508，保存当前显示在取景器中的图像。

在一些实施方式中，移动图像捕获设备可以(例如，使用广角相机)捕获具有广视场的图像帧。图像帧的视场可以大于第一图像纵横比和/或第二图像纵横比(例如，比景观纵横比宽和/或比肖像纵横比高)。当以肖像取向显示(一个或多个)图像帧时，移动图像捕获设备可以显示(一个或多个)图像帧的具有肖像纵横比的一部分(例如，肖像裁剪版本)。类似地，当以景观取向显示(一个或多个)图像帧时，移动图像捕获设备可以显示(一个或多个)图像帧的具有景观纵横比的一部分(例如，景观裁剪版本)。一旦用户完成(一个或多个)图像帧的编辑，就可以例如响应于用户点击捕获按钮508将图像帧存储在非临时存储器中。这样，用户可以通过在倒回操作期间简单地旋转移动图像捕获设备来在存储以供以后查看之前快速裁剪(一个或多个)图像帧。因此，在一些实施方式中，(一个或多个)图像帧的整体可以被存储在临时图像缓冲器中，并且用户可以在倒回操作期间事后在这样的(一个或多个)图像帧内进行空间探索/修改和编辑。

作为又另一示例，用户可以在将(一个或多个)图像帧存储在非临时存储器之前执行请求对(一个或多个)图像帧的一个或多个特性(例如，亮度、对比度、颜色饱和度等)进行调整的用户输入。移动图像捕获设备可以被配置为允许用户在将视频片段的一个或多个图像帧存储在非临时存储器位置之前对视频片段的一个或多个图像帧执行各种合适的图像或视频编辑功能。

在一些实施方式中，用户可以用单个手势发起倒回操作、存储一个或多个图像帧并结束倒回操作。作为示例，用户可以用她的手指在触摸屏上发起滑动手势以请求倒回操作。用户可以(例如，在执行擦拭操作的同时)保持她的手指和触摸屏之间的接触，直到显示她想要保存为照片的图像帧。然后，她可以从触摸屏抬起手指，以请求将当前显示的图像帧作为照片保存到非临时存储器。从触摸屏抬起手指也可以可选地结束倒回操作。作为响应，移动图像捕获设备可以继续在用户界面的取景器部分中显示实时视频流。

用户可以类似地在倒回操作期间将视频片段的一部分保存在非临时存储器中以供以后查看。例如，在倒回操作期间，用户可以标记她希望保存的部分的开始和结束。用户可以使用各种用户输入动作来标记开始和结束，例如包括按下虚拟标记按钮、从触摸屏片刻地抬起她的手指或任何其他合适的手势或输入。

在一些实施方式中，来自实时视频流的视频片段可以以与移动时间窗口相关联的先进先出(FIFO)配置存储在临时图像缓冲器122(图1A)中。移动时间窗口可以具有从当前时刻开始在时间上向后延伸的相关联时间段(例如，五秒)。换句话说，移动时间窗口可以包括距当前时刻的前五秒。移动图像捕获设备可以将来自实时视频流的图像存储在临时图像缓冲器122(图1A)中。当来自临时存储器(例如，以上参考图1A描述的临时图像缓冲器122)的图像变得比所述时间段旧时(例如，当它们“退出”移动时间窗口时)，移动图像捕获设备可以从临时图像缓冲器丢弃(例如，删除或覆写)这样的图像。在这方面，可以将存储描述为先进先出配置。因此，临时图像缓冲器122(图1A)可以提供对移动时间窗口的视频片段的临时存储。

在一些实施方式中，移动图像捕获设备可以被配置为自动开始存储视频片段，而无需用户请求(例如通过按下捕获按钮(例如，以上参考图5A到图5D描述的捕获按钮508))这样的存储。作为示例，当提供实时视频流以在界面的取景器部分中显示时，视频片段可以从实时视频流自动存储在临时图像缓冲器122(图1A)中。用户可以打开相机应用，并且响应于相机应用被打开，移动图像捕获设备可以开始自动存储视频片段(例如，无需进一步的用户输入)。

参考图5E，在一些实施方式中，移动图像捕获设备可以被配置为向用户提供关于要保存视频片段的哪个图像帧的一个或多个建议。图5E的帧590描绘了倒回操作期间的移动图像捕获设备。当用户正审查要保存的潜在图像时，移动图像捕获设备可以突出显示一个或多个图像帧或以其他方式将用户的注意力吸引到一个或多个图像帧。作为示例，参考图5E的帧592，可以出现弹出窗口594，其显示被建议存储的一个或多个图像帧596的预览。弹出窗口594可以为用户提供以下选项：在将来自动存储这样的图像帧、在更大的窗口中(例如，在整个用户界面中)查看建议的图像帧、保存建议的图像帧和/或丢弃建议的图像帧。

移动图像捕获设备可以被配置为例如基于各种摄影特性来选择和推荐一个或多个图像帧以进行存储。这样的特性的示例可以包括构图、照明和上下文，例如关于视频片段或视频片段的相邻部分与图像帧相关联的时间上下文。如果用户同意移动设备获悉她对这样的特性的偏好，则移动图像捕获设备可以基于所获悉的关于用户对这样的照片特性的偏好的信息，选择要推荐存储的图像帧。

重要的是，可以向用户提供控件，该控件允许用户关于本文描述的系统、程序或特征是否可以以及何时可以启用对用户信息(例如，偏好)的收集进行选择。另外，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得个人可识别信息被去除。例如，可以处理用户的标识，使得无法针对该用户确定个人可识别信息。因此，用户可以对收集关于用户的会对信息、如何使用该信息以及向用户提供什么信息进行控制。

在一些实施方式中，移动图像捕获设备可以利用机器学习图像选择模型(例如参考图2所述)来选择图像帧以向用户建议进行存储。往回参考图2，移动图像捕获设备可以被配置为将视频片段的多个图像帧202输入到机器学习图像选择模型200中。该帧选择204集可以作为机器学习图像选择模型200的输出而被接收。移动图像捕获设备可以提供选择建议，以在包括由帧选择集204描述的图像帧中的至少一个的用户界面中(例如，在上述弹出窗口594中)显示。因此，移动图像捕获设备可以经由机器学习图像选择模型200来选择图像，并建议所选择的图像供用户存储。

在一些实施方式中，如果用户同意，则移动图像捕获设备可以自动地从实时视频流捕获图像帧而无需接收任何用户输入。移动图像捕获设备可以利用机器学习图像捕获模型300(例如参考图3所述)以从实时视频流中选择一个或多个图像帧进行存储(例如，存储在非临时存储器位置120中)。例如，再次参考图3，机器学习图像捕获模型可以被配置为从实时视频流接收图像帧302。响应于接收图像帧302，机器学习捕获模型300可以输出描述是否存储图像帧(例如，存储在非临时存储器位置120中)的捕获决策304。移动图像捕获设备可以被配置为(例如，以定期间隔)对实时视频流进行采样以获得输入到机器学习图像捕获模型300中的图像帧302。捕获决策可以作为机器学习图像捕获模型300的输出被接收。机器学习捕获模型300可以被配置为基于多种因素，包括例如图像帧的特性以及如果用户同意则包括用户的偏好，来选择要捕获的图像。

移动图像捕获设备可以基于捕获决策自动捕获图像。因此，移动图像捕获设备可以利用机器学习图像捕获模型300来从实时视频流中自动捕获图像帧，而无需接收任何用户输入。

在一些实施方式中，可以在倒回操作结束时或当与执行倒回操作相关联的相机应用关闭时删除或清除临时图像缓冲器122。作为示例，用户可以请求倒回操作并选择一个或多个图像帧以存储在非临时存储器位置120中。在存储(一个或多个)图像帧后，可以自动结束倒回操作。替代地，用户可以例如通过按下可以显示在用户界面中的虚拟“结束”按钮(例如，在图5E中由“X”598表示)来请求结束倒回操作。作为响应，移动图像捕获设备可以结束倒回操作并继续提供实时视频流以供显示。当在倒回操作结束时提供实时视频流以供显示时，移动图像捕获设备可以清除或覆写临时图像缓冲器122。替代地，移动图像捕获设备可以保留来自倒回操作的临时图像缓冲器122，并且在预期第二倒回操作的情况下开始将来自实时视频流的视频片段存储在辅助临时图像缓冲器中。在这样的实施方式中，移动图像捕获设备可以保留与一个或多个倒回操作相关联的临时图像缓冲器，例如，直到与倒回操作相关联的相机应用被关闭。当关闭相机应用时，可以清除(一个或多个)临时图像缓冲器以释放设备的资源以用于后续操作。

参考图6，根据本公开的另一方面，移动图像捕获设备可以提供实时视频流以在用户界面的取景器部分中显示，并且实时视频流可以包括从多个源生成的合成环境流。该多个源可以与多个设备上相机(例如，前向相机和后向相机)对应。移动图像捕获设备可以被配置为通过在空间上布置和/或接合(例如，“拼接”)来自多个源的两个或更多个视频流来生成合成环境流。

在一些实施方式中，可以将主要实时视频流显示得大于次要实时视频流。主要实时视频流可以包括来自第一源(例如，后向相机)的图像，并且可以显示在用户界面的取景器部分的主要观看部分604中。次要实时视频流可以包括来自第二源(例如，前向相机)的图像，并且可以显示在取景器的次要观看部分606中。主要观看部分604可以大于次要观看部分606。例如，次要观看部分606可以覆写或叠加在主要观看部分606的一部分上。例如，次要观看部分606可以被呈现在叠加在主要观看部分604的一部分上的气泡内。

主要和/或次要实时视频流可以向用户提供与捕获的图像帧相关联的更多的上下文信息。作为示例，次要实时视图流可以在用户观看显示在主要实时视图流中的主题时向他提供他的面部表情的视图，例如，如图6的第一帧602中所示。作为另一示例，(在次要观看部分606中的)次要实时视图流可以通过在观看主要实时视频流时向用户提供关于其周围环境的视觉信息来充当“后视镜”，例如，如图6的第二帧608中所示。

参考图6的帧608，用户可以能够控制在用户界面的取景器部分的主要观看部分604中显示多个源中的哪个源。用户可以在执行倒回操作之前和/或期间行使该控制。作为示例，用户可以执行请求改变在取景器的主要观看部分中显示的源的用户输入。用户可以触摸取景器的次要观看部分606，以请求将显示在次要观看部分中的源显示在取景器的主要观看部分中，例如，如图6的帧608中的用户的手610的虚线轮廓所示。移动图像捕获设备可以切换显示在主要和次要观看部分604、606中的相应源，例如，如图6的帧612中所示。

在一些实施方式中，用户可以能够在倒回操作期间控制(例如，选择)在主要观看部分中显示哪个源。用户可以能够存储反映他的选择的合成环境流的视频。更特别地，该视频可以在回放期间在与用户在倒回操作期间进行控制的时间相同的时间并且以与其相同的方式来切换源。

作为示例，用户可以将移动图像捕获设备的后向相机指向对象。移动图像捕获设备的前向相机可以指向用户。用户可以请求倒回操作并从先前时间间隔(例如，前五秒)的存储的视频片段中查看图像帧。用户可以(至少部分以倒退的顺序)浏览图像帧，例如，如以上参考图5C的帧558所述，以定位并选择他希望作为视频存储在非临时存储器中的视频片段的一部分。用户然后可以例如通过以向前的时间顺序以正常时间速率查看视频片段的该部分来预览他希望存储的视频片段的该部分。在此预览期间，用户可以选择(例如，来自前向相机或后向相机的)哪个实时视频流要显示在取景器的主要观看部分604中。然后，用户可以保存视频，在该视频中，显示在取景器的主要观看部分604中的视频流在与预览期间他进行控制的时间相同的时间和以与其相同的方式被改变。替代地，用户可以将合成视频存储在非临时存储器中，该合成视频可以在以后时间在回放期间类似地被控制。更特别地，在回放这样的合成视频期间，用户可以选择在用户界面的取景器部分的主要观看部分604中显示哪个源。

作为示例，移动图像捕获设备可以利用机器学习源选择模型，例如如关于图4所述，来选择在取景器的主要观看部分604中显示哪个源。再次参考图4，机器学习源选择模型400可以配置为接收来自第一视频源402的第一组图像帧和来自第二视频源404的第二组图像帧。第一和第二视频源402、404可以与相应的实时视频流或相应的实时视频流的存储的视频对应。第一和第二视频源402、404可以与来自前向和后向相机的实时视频流对应。响应于接收第一和第二视频源402、404，机器学习源选择模型400可以输出源选择输出406，该源选择输出406描述要在取景器的主要观看部分604中显示哪个源(例如，何时在显示来自前向相机的视频流和来自后向相机的视频流之间切换)的时间对齐指示。移动图像捕获设备可以被配置为将来自多个源(例如，实时视频流或存储的视频)的图像输入到机器学习源选择模型400。可以将源选择输出406作为机器学习源选择模型400的输出被接收。再次参考图6，移动图像捕获设备可以基于源选择输出406来控制源在主要观看部分604和/或次要观看部分606中的显示。

替代地，移动图像捕获设备可以向用户提供关于何时要在主要观看部分604中显示哪个源的建议。这样的建议可以与视频片段内的相应图像帧或相应时间相关联。可以在倒回操作期间和/或在观看存储的合成视频期间提供这样的建议。

本公开的系统和方法提供了许多技术效果和益处。作为一个示例，本文描述的系统和方法可以使用最少的计算资源来执行倒回操作，这相对于捕获视频并将其存储在非临时存储器中、然后审查图像帧的存储的视频和/或视频片段来进行提取，可以导致更快且更高效的执行。例如，在一些实施方式中，由于减少的计算需求，因此可以在诸如例如智能电话的用户计算设备上快速且高效地执行本文描述的系统和方法。这样，本公开的各方面可以改善例如在云计算不可用或以其他方式不合需要的情况下(例如，出于改善用户隐私性和/或降低通信成本的原因)使用这样的设备的视频捕获的可访问性和有效性。

以这种方式，本文描述的系统和方法可以提供移动图像捕获的更高效的操作。通过捕获视频片段并将其存储在临时存储器中，可以提高可以提取特定图像并将其存储在非临时存储器中的效率。特别地，可以改善对短暂和/或不可预测事件的捕获，例如，捕获大笑或微笑或捕获体育事件或天气事件。因此，本文描述的系统和方法避免了效率较低(例如高速连拍摄影)或需要例如外部声音/运动触发器的附加装备的图像捕获操作。

示例方法

图7描绘了根据本公开的示例实施例的用于执行倒回操作的示例方法的流程图。尽管为了说明和讨论的目的，图7描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或调整方法700的各个步骤。

在702处，方法700可以包括提供实时视频流以在用户界面的取景器部分中显示，例如，如以上参考图5C的帧552和图6所述。该实时视频流可以描绘移动图像捕获设备的图像捕获系统的当前视场的至少一部分。

在704处，方法700可以包括将来自实时视频流的视频片段存储在临时图像缓冲器中，例如，如以上参考图1至图5C所述。该视频片段可以包括由图像捕获系统捕获的多个图像帧。

在706处，方法700可以包括接收针对用户界面的取景器部分并且请求倒回操作的用户输入，例如，如以上参考图5B和图5C的帧554所述。

在708处，方法700可以包括响应于接收请求倒回操作的用户输入，在用户界面的取景器部分中关于视频片段执行倒回操作，例如，如以上参考图5A至图6所述。在倒回操作期间，可以提供视频片段的至少两个图像帧，以便以倒退的时间顺序在用户界面中显示，例如，如以上参考图5C的帧558和图6所述。

附加公开

本文讨论的技术提及服务器、数据库、软件应用和其他基于计算机的系统，以及采取的动作和发送到这样的系统和自这样的系统发送的信息。基于计算机的系统的固有灵活性允许在两个组件之间以及多个组件之间对任务和功能进行多种可能的配置、组合和划分。例如，本文讨论的过程可以使用单个设备或组件或联合工作的多个设备或组件来实现。数据库和应用可以在单个系统上实现，也可以分布在多个系统上。分布式组件可以顺序或并行操作。

尽管已经针对本主题的各种特定示例实施例详细描述了本主题，但是每个示例都是通过说明而非对本公开进行限制的方式提供的。本领域技术人员在理解了前述内容之后，可以容易地产生这样的实施例的更改、变化和等同物。因此，本公开并不排除包括对本主题的这样的修改、变化和/或添加，这对于本领域普通技术人员来说将是显而易见的。例如，作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，意图是本公开涵盖这样的更改、变化和等同物。

Claims

1.一种移动图像捕获设备，包括：

图像捕获系统，所述图像捕获系统可进行操作以捕获图像帧；

触敏显示屏；

一个或多个处理器；和

一个或多个非暂时性计算机可读介质，所述一个或多个非暂时性计算机可读介质存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

提供实时视频流以在用户界面的取景器部分中显示，所述实时视频流描绘所述移动图像捕获设备的所述图像捕获系统的当前视场的至少一部分；

将来自所述实时视频流的视频片段存储在临时图像缓冲器中，其中，所述视频片段包括由所述图像捕获系统捕获的多个图像帧；

接收针对所述用户界面的所述取景器部分并请求倒回操作的用户输入，其中，所述用户输入包括关于所述触敏显示屏的用户触摸动作；以及

响应于接收请求所述倒回操作的所述用户输入，在所述用户界面的所述取景器部分中关于所述视频片段执行所述倒回操作，其中，执行所述倒回操作包括响应于用户输入的移动来执行擦拭操作，并且其中，在所述倒回操作期间，以倒退的时间顺序提供所述视频片段的至少两个图像帧，以便在所述用户界面中显示。

2.根据权利要求1所述的移动图像捕获设备，其中，所述操作还包括：

接收对所述图像帧之一的用户选择；以及

将所选择的图像帧存储到非临时存储器位置中。

3.根据权利要求1所述的移动图像捕获设备，其中：

所述用户输入具有速度；并且

执行所述倒回操作包括以与所述用户输入的速度正相关的速度在显示所述视频片段的第一图像帧与显示所述视频片段的至少第二图像帧之间转换所述用户界面。

4.根据权利要求1所述的移动图像捕获设备，其中，来自所述实时视频流的所述视频片段以与移动时间窗口相关联的先进先出(FIFO)配置存储在所述临时图像缓冲器中。

5.根据权利要求1所述的移动图像捕获设备，其中，所述操作包括在所述倒回操作期间显示倒回条。

6.根据权利要求1所述的移动图像捕获设备，其中，所述实时视频流包括从多个实时视频流生成的合成环境流。

7.根据权利要求1所述的移动图像捕获设备，其中，执行所述倒回操作包括以倒退的时间顺序提供所述视频片段以便在所述用户界面中显示。

8.根据权利要求1所述的移动图像捕获设备，还包括机器学习图像选择模型，所述机器学习图像选择模型被配置为接收所述视频片段的所述多个图像帧，并且响应于接收所述多个图像帧，输出描述对所述多个图像帧中的至少一个的选择的帧选择集，并且其中，所述操作还包括：

将所述视频片段的所述多个图像帧输入到所述机器学习图像选择模型；

接收所述帧选择集作为所述机器学习图像选择模型的输出；以及

提供选择建议以在所述用户界面中显示，所述选择建议包括由所述帧选择集描述的图像帧中的至少一个。

9.根据权利要求1所述的移动图像捕获设备，其中，所述操作还包括：

接收请求所述实时视频流从第一源切换到第二源的用户输入；以及

响应于接收请求所述实时视频流从所述第一源切换到所述第二源的所述用户输入，将所述实时视频流从所述第一源切换到所述第二源。

10.根据权利要求1所述的移动图像捕获设备，其中，相机应用一被打开，所述视频片段就从所述实时视频流自动存储在所述临时图像缓冲器中。

11.根据权利要求10所述的移动图像捕获设备，所述相机应用至少可在图像捕获模式和视频捕获模式下操作，并且其中，当所述相机应用处于所述图像捕获模式或所述视频捕获模式中时，从所述实时视频流自动存储所述视频片段。

12.一种移动图像捕获设备，包括：

图像捕获系统，所述图像捕获系统可进行操作以从多个源捕获图像帧，每个源具有相应的视场；

触敏显示屏；

一个或多个处理器；和

提供实时视频流以在用户界面的取景器部分中显示，所述实时视频流包括从所述多个源生成的合成环境流；

响应于接收请求所述倒回操作的所述用户输入，在所述用户界面的所述取景器部分中关于所述视频片段执行所述倒回操作，其中，执行所述倒回操作包括响应于用户输入的移动来执行擦拭操作，并且其中，在所述倒回操作期间，以倒退的时间顺序提供所述视频片段的至少两个图像帧，以便在用户界面中显示。

13.根据权利要求12所述的移动图像捕获设备，其中：

提供所述实时视频流以在所述用户界面的所述取景器部分中显示包括显示主要实时视频流和次要实时视频流，所述主要实时视频流被显示得大于所述次要实时视频流；

显示所述主要实时视频流包括显示来自所述多个源中的第一源的图像；并且

显示所述次要实时视频流包括显示来自所述多个源中的第二源的图像。

14.根据权利要求12所述的移动图像捕获设备，其中：

提供所述实时视频流以在所述用户界面的所述取景器部分中显示包括将主要实时视频流显示得大于次要实时视频流；并且

显示所述主要实时视频流包括在显示来自所述多个源中的第一源的图像与显示来自所述多个源中的第二源的图像之间自动切换。

15.根据权利要求14所述的移动图像捕获设备，其中，所述多个源中的所述第一源包括前向相机，并且其中，所述多个源中的第二源包括后向相机。

16.一种用于执行倒回操作的方法，所述方法包括：

由一个或多个计算设备提供实时视频流以在用户界面的取景器部分中显示，所述实时视频流描绘图像捕获系统的当前视场的至少一部分；

由所述一个或多个计算设备将来自所述实时视频流的视频片段存储在临时图像缓冲器中，其中，所述视频片段包括由所述图像捕获系统捕获的多个图像帧；

由所述一个或多个计算设备接收针对所述用户界面的所述取景器部分并请求倒回操作的用户输入，其中，所述用户输入包括关于所述触敏显示屏的用户触摸动作；

响应于接收请求所述倒回操作的所述用户输入，由所述一个或多个计算设备在所述用户界面的所述取景器部分中关于所述视频片段执行所述倒回操作，其中，执行所述倒回操作包括响应于用户输入的移动来执行擦拭操作，并且其中，在所述倒回操作期间，以倒退的时间顺序提供所述视频片段的至少两个图像帧，以便在所述用户界面中显示。

17.根据权利要求16所述的方法，执行所述倒回操作包括以与所述用户输入的速度正相关的速度在显示所述视频片段的第一图像帧与显示所述视频片段的至少第二图像帧之间转换所述用户界面。

18.一种用于执行倒回操作的方法，所述方法包括：

由一个或多个计算设备提供实时视频流以在用户界面的取景器部分中显示，所述实时视频流包括从所述多个源生成的合成环境流；

响应于接收请求所述倒回操作的所述用户输入，由所述一个或多个计算设备在所述用户界面的所述取景器部分中关于所述视频片段执行所述倒回操作，其中，执行所述倒回操作包括响应于用户输入的移动来执行擦拭操作，并且其中，在所述倒回操作期间，以倒退的时间顺序提供所述视频片段的至少两个图像帧，以便在用户界面中显示。