CN106375674B

CN106375674B - 寻找和使用与相邻静态图像相关的视频部分的方法和装置

Info

Publication number: CN106375674B
Application number: CN201610730195.4A
Authority: CN
Inventors: C·莫尔加德; B·M·奇汀; G·E·威廉姆斯; M·祖莱尼; V·Y·翁; F·多普克; E·J·泰若-汤普森
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2015-06-07
Filing date: 2016-06-07
Publication date: 2020-08-04
Anticipated expiration: 2036-06-07
Also published as: US10706892B2; EP3298771A1; EP3298771B1; CN106375674A; US20160358634A1; US10170157B2; WO2016200741A1; US20190096441A1

Abstract

本公开涉及寻找和使用与相邻静态图像相关的视频部分的方法和装置.本发明涉及用于通过捕获提前的预快照图像数据以及后快照图像数据来响应于用户的快照请求的系统、方法以及计算机可读介质.依赖于实施例，该捕获的信息可以被用来创建档案图像信息以及对用户有用并且令用户愉悦的图像呈现信息.该捕获的信息可以自动地被修整或者被编辑以便有助于创建增强的图像，诸如移动的静态图像.本发明的变化的实施例提供用于基于以下进行修整和编辑的技术：曝光、亮度、聚焦、白平衡、检测到的摄像机运动、实证的图像分析、检测到的声音、图像元数据、和/或以上的任何组合。

Description

寻找和使用与相邻静态图像相关的视频部分的方法和装置

技术领域

本公开一般涉及数字图像捕获和处理的领域。更特别地，本公开涉及用于捕获时间上在静态图像周围的图像信息的系统和过程，该静态图像由摄像机的用户或者计算设备的摄像机接口来选择。本公开讨论与静态图像结合对周围信息的使用，以形成增强的图像或者增强的媒体产品。

相关内容

本公开要求标题为“Method And Apparatus For Finding And Using VideoPortions That Are Relevant To Adjacent Still Images”、并且具有62/172,107的申请号的临时申请(2015年6月7日提交)的优先权，该申请的全部内容通过引用的方式并入本文。

背景技术

诸如智能电话之类的如今的许多便携式设备提供图像捕获能力，诸如静态物和视频捕获功能。例如，诸如摄像机、平板计算机、或者蜂窝电话之类的典型的便携式设备的用户可以通过设备上的摄像机或者摄像机接口来捕获静态图像和视频两者。如今的用户对以比常规的静态摄影更丰富的方式体验图像具有兴趣。因此，许多智能电话和摄像机提供多样化的捕获模式以及处理效果来使图像更加丰富并且让用户满意。

发明内容

一种典型的与摄像机的用户交互涉及用户(例如，人、机器等)监控取景器或者屏幕以及决定何时捕获静态图像或者开始捕获视频。当用户做出捕获静态图像或者开始视频捕获的决定时，用户一般通过按压按钮、与GUI交互、或者设置定时器(例如，定时捕获)来指示该决定。按钮按压或者对捕获的指示可以被称为拍快照。

本公开的实施例寻求通过在快照之前和快照之后两者捕获连续的图像或视频来预期以及响应于用户快照。然后得到的捕获的数据可以包括例如时间上在该快照之前的图像信息、在快照点处(或者在定时器的情况下在定时器超时处)的一个或多个图像、或者时间上在该快照之后的图像信息。此外，在一些实施例中，除了捕获图像数据之外，背景数据也可以被捕获和保持。背景数据可以包括摄像机元数据、与设备关联的传感器输出、与设备关联的应用数据、与设备关联的网络可用数据、以及任何其他可用的背景数据。

已经捕获到用户选择的快照周围的图像信息束之后，本公开的一些实施例寻求通过使用快照前以及快照后的信息以便丰富快照的视觉体验来创建增强的图像。例如，诸如移动的静态图像之类的简短的循环视频可以被呈现(作为语义，术语移动的静态图像被用来指代简短的循环视频或者在其中图像的一部分示出重复或者循环的移动的静态图像)。然而，被收集的图像信息可能包含不相关的方面和帧。例如，图像捕获时间段可能开始得太早并且获取对象进入之前的场景，干扰(例如，被遮挡的镜头)可能在任何点处短暂地使得对象被模糊，并且图像捕获时间段可能扩展得太长并且可能获取对象离开之后的场景。因此，本公开的许多实施例预想到自动地修整和/或编辑所捕获的图像信息以便消除不相关的内容或者缓和它的出现。

在创建增强的图像的过程中，由于以下被检测到的原因中的一个或多个原因，本公开的变化的实施例自动地修整来自收集的图像数据的内容：曝光、亮度、焦点、白平衡、检测到的摄像机的移动、实证的图像分析、被检测到的声音、图像元数据、或者以上的任何组合。

附图说明

图1示出了代表性的硬件环境。

图2示出了代表性的网络环境。

图3示出了代表性的软件架构。

图4A、4B和4C示出了摄像机和/或镜头信息。

图5示出了与本公开的一些实施例相关联的示例性过程。

图6示出了示例性的被捕获的图像数据和背景信息。

图7A和7B示出了被捕获的图像数据以及背景信息的修整。

图8和8A示出了与本公开的一些实施例相关联的示例性过程。

图9示出了与本公开的一些实施例相关联的示例性过程。

具体实施方式

本公开涉及用来改进摄像机系统的操作的系统、方法和计算机可读介质。本公开还涉及各种用于摄像机的设计和/或操作的体系架构，其涉及捕获和处理图像信息以创建对用户有用并且令用户愉悦的档案图像信息以及图像呈现信息。通常，本发明的许多实施例涉及通过实际上捕获类似于视频的长序列的帧来响应于用户捕获静态图像的期望。来自长序列的一个或多个帧可以被指定为用户对所捕获的帧的选择，而其余的帧可以用作增强信息，例如用于创建移动的静止图像。本公开的变化的实施例涉及选择用于增强信息的有用的帧或者消除没有用的帧。另外，许多其他系统和技术被讨论。

在下列描述中，出于解释的目的，阐述了许多特定的细节以便提供对公开的发明构思的深入理解。作为本描述的一部分，本公开的一些附图以框图的形式呈现结构和设备，以便避免模糊所公开的发明构思的新颖性方面。出于清楚的目的，没有描述实际的实现的所有特征。此外，本公开所用的语言主要被选择以用于可读性和指导性的目的，不是被选择用来描绘或限制发明主题，而是借助权利要求来确定这样的发明主题。本公开中对“一个实施例”或者“实施例”或者“多个实施例”的引用意味着与本发明有关所描述的特定特征、结构或者特性被包括在所公开的主题的至少一个实施例中，并且多个对“一个实施例”或者“实施例”的引用不应当被理解为一定全部指代相同的实施例。

可以理解的是，在任何实际的实现的开发中(在任何软件和/或硬件的开发项目中)，必须做出许多决定来实现开发者的特定目标(例如，符合系统相关和业务相关的约束)，并且这些目标可能随实现的不同而变化。还可以理解的是，这样的开发努力可能是复杂且耗时的，但是对于得益于本公开的在计算系统和/或图形系统的设计和实施领域中的普通技术人员来说会是常规的工作。

示例性的硬件和软件

本文描述的发明性实施例涉及图像捕获并且因此通常体现在摄像机类型的设备或者与摄像机类型的设备一起使用的系统中。因为许多实施例依赖于计算操作和系统，因此本公开可以在所有类型的智能设备中具有牵连和用途，该智能设备包括单处理器和多处理器的计算系统以及包含单处理器或多处理器的计算系统的垂直设备(例如，摄像机、游戏系统、家电等)。参考可以被讨论作为服务器系统或者终端用户系统的常用计算配置进行本文的讨论。这种常用计算配置可以具有包括一个或多个微处理器的CPU资源。这个讨论仅仅用于与示例实施例相关的说明，而不意图将本发明的应用限定于所公开的硬件。具有其他(现在或将来)已知的或常用的硬件配置的其他系统是完全可以被预想和希望的。在这种预告的情况下，下面讨论典型的硬件和软件操作环境。硬件配置可以出现在例如摄像机、安全系统、服务器、工作站、膝上型计算机、平板计算机、桌面式计算机、游戏平台(便携式或非便携式)、电视机、娱乐系统、智能电话、电话、或任何其他移动或者静止的计算设备中。

参考图1，所公开的实施例可以由代表性的计算机系统100来执行。例如，该代表性的计算机系统100可以充当服务器或者终端用户设备。系统100可以被体现在任何类型的设备中，这些设备诸如摄像机、通用计算机系统、电视机、机顶盒、媒体播放器、多媒体娱乐系统、图像处理工作站、手持设备(诸如电话)、或者任何可以与图像捕获和/或处理功能耦合或者可以包含图像捕获和/或处理功能的设备。计算机系统100可以包括一个或多个处理器105、存储器110(110A和110B)、一个或多个存储设备115、以及图形硬件120。计算机系统100还可以具有设备传感器125，该设备传感器125可以包括以下的一个或多个：深度传感器(诸如深度摄像机)、3D深度传感器、成像设备(诸如固定的和/或具有视频能力的图像捕获单元)、RGB传感器、接近传感器、环境光传感器、加速度计、陀螺仪、任何类型的静态或者视频摄像机、LIDAR设备、SONAR设备、麦克风、CCD(或者其他图像传感器)、红外传感器、温度计等。这些以及其他传感器可以与一个或多个GPU、DSP或者常规的微处理器连同适合的程序一起组合工作，因此传感器输出可以被正确地解释和/或组合并解释。

回到图1，系统100还可以包括通信接口130、用户接口适配器135、以及播放器适配器140——所有这些可以经由系统总线或者底板145而耦合。存储器110可以包括由处理器105和图形硬件120使用的一个或多个(例如，固态的、DRAM、光学的、磁性的等)不同类型的介质。例如，存储器110可以包括存储器高速缓存、只读存储器(ROM)、和/或随机存取存储器(RAM)。存储设备115可以包括一个或多个非暂时性存储介质，包括例如(固定的、软的、和可移除的)磁盘和磁带，诸如CD-ROM和数字视频盘(DVD)之类的光学介质，以及诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)之类的半导体存储器设备。存储器110和存储设备115可以用于保持媒体(例如，音频、图像和视频文件)、偏好信息、设备简档信息、被组织到一个或多个模块并且以任何期望的计算机编程语言编写的计算机程序指令、以及任何其他合适的数据。当由处理器105和/或图形硬件120(也可以是处理器)执行时，这样的计算机程序代码可以实现本文描述的方法或过程中的一个或多个。通信接口130可以包括基于半导体的电路，并且可以用来将计算机系统100连接到一个或多个网络。说明性的网络包括但不限定于诸如USB网络之类的局域网络；商业的局域网络；以及诸如因特网之类的广域网；并且可以采用任何合适的(例如，有线或者无线的)技术。可以被实现的通信技术包括基于蜂窝单元的通信(例如，LTE、CDMA、GSM、HSDPA等)或者其他通信(以太网、WIFI、蓝牙、USB、雷电(Thunderbolt)、火线(Firewire)等)。用户接口适配器135可以用来连接键盘150、麦克风155、指向设备160、扬声器165、以及诸如触摸板和/或触摸屏(未示出)之类的其他用户接口设备。显示适配器140可以用于通过帧缓冲器(未示出)来连接一个或多个显示单元170。

处理器105可以执行实行或控制由系统100执行的许多功能(例如，图像评估和处理)的操作所必需的指令。例如，处理器105可以驱动显示器170并从用户接口适配器135或者由系统体现的任何其他用户接口接收用户输入。例如，用户接口适配器135可以采用各种形式，诸如按钮、小键盘、拨号盘、点击式转盘、键盘、显示屏、和/或触摸屏、或者它们的任何组合。当用户与接口交互时，用户接口项或小程序件(widget)可以由图形硬件120实时地生成。处理器105可以是任何类型的计算设备，诸如一个或多个微处理器，其独立地工作或者与GPU、DSP和/或诸如那些在移动设备中的片上系统设备一起工作。处理器105可以包括一个或多个接受程序指令来创建或者改变诸如像素之类的显示信息的专用GPU或图形子系统。另外，处理器105可以基于精简指令集计算机(RISC)或者复杂指令集计算机(CISC)架构或者任何其他适合的架构并且可以包括一个或多个处理核。图形硬件120可以是特殊目的计算硬件，用于处理图形和/或辅助处理器105执行计算任务。在一些实施例中，图形硬件120可以包括CPU集成的图形设备和/或一个或多个可编程GPU。

本发明的各种实施例可以采用诸如摄像机之类的传感器。摄像机和类似的传感器系统可以包括自动聚焦系统以便精确地捕获最终用于解释用户意图或者命令的视频或者图像数据。由于用户的运动可以基于在捕获的图像中小的区域(例如，手、手指、面部、嘴、眉毛等)中的细微活动，因此自动聚焦系统可以用来分开地聚焦图形的多个区域以便访问更好的信息。

回到图1，传感器125可以捕获背景(contextual)和/或环境现象，诸如时间、位置信息、与光、重力、以及磁北极相关的设备状态；以及甚至静态和视频图像。另外，诸如天气信息之类的网络可访问的信息也可以用来作为背景的一部分。所有被捕获的背景以及环境的现象可以用于提供所捕获的图像的背景、用户或对象活动或与用户或对象活动有关的信息。例如，在访问所捕获的图像序列中，背景信息可以被用作分析的一部分。通过例如将背景信息附连到图像/帧、执行一个或多个诸如利用某种模式进行图像捕获之类的功能、或者通过利用图形硬件120来引起显示系统上的活动，系统100可以对环境和背景事件做出反应并且实时地反映该反应。

来自传感器125的输出可以至少部分地由处理器105和/或图形硬件120、和/或包含在系统100内或未包含在系统100内的专用图像处理单元来处理。这样捕获的信息可以被存储在存储器110和/或存储设备115和/或在附连的网络(诸如因特网)上可访问的任何存储设备。存储器110可以包括由处理器105、图形硬件120、以及传感器125使用的用于执行设备功能的一个或多个不同类型的媒介。存储设备115可以存储诸如媒体(例如音频、图像、以及视频文件)之类的数据；用于媒体的元数据；计算机程序指令；以及其他软件；包括数据库应用(例如，存储虚拟(avatar)帧的数据库)、偏好信息、设备简档信息以及任何适合的数据。存储器110和存储设备115可以被用于保持以编译的形式被组织到一个或多个模块或者以任何期望的计算机编程语言编写的计算机程序指令或者代码。当例如由处理器105执行时，这样的计算机程序代码可以实施本文描述的动作或功能(例如，实施图像分析和修整)的一个或多个。

现在参考图2，本公开的技术可以在其中实现的示例性的网络架构200包括多个网络205(即，205A、205B、和205C)，其中每一个网络可以采用包括但不限于局域网(LAN)或者诸如因特网之类的广域网(WAN)的任何形式。此外，网络205可以使用任何期望的(有线的、无线的、或它们的组合)技术和协议(例如，传输控制协议、TCP)。耦合到网络205的是数据服务器计算机210(即，210A和210B)，数据服务器计算机210能够操作诸如数据库之类的服务器应用，并且还能够通过网络205进行通信。使用服务器计算机的一个实施例可以涉及一个或多个中央系统的操作，这些操作用于收集、处理以及评估图像信息(例如，帧)和/或背景信息，或者作为用于移动计算设备(诸如智能电话或者网络连接的平板计算机)的代理的其他信息。

同样耦合到网络205和/或数据服务器计算机210的是客户计算机215(即，215A、215B和215C)，它们可以采用包括嵌入式系统的任何计算机、机顶盒、娱乐设备、通信设备、或者智能机器的形式。在一些实施例中，用户可以利用采用智能电话或者平板计算机的形式的客户计算机。同样，在一些实施例中，网络架构200还可以包括诸如打印机220之类的网络打印机和诸如225之类的存储系统，该存储系统可以用于存储本文引用的多媒体项(例如，图像)。为了便利不同网络设备(例如，数据服务器210、终端用户计算机215、网络打印机220、以及存储系统225)之间的通信，至少一个网关或者路由器230可以被可选地耦合在它们之间。此外，为了便利这样的通信，每个使用该网络的设备可以包括网络适配器。例如，如果以太网网络是通信所需要的，则每个参与的设备必须具有以太网适配器或者嵌入式的具有以太网能力的IC。进一步，设备可以承载网络适配器以用于任何它们可以参与的网络。

如上所述，本文公开的发明的实施例包括软件。如此，常用计算软件架构的一般描述如图3的层框图表达。如同硬件的示例，以任何方式，这里讨论的软件架构不意图为排他的，而是说明性的。对于层类型的框图尤为如此，软件开发者趋于以稍微不同的方式表达层类型的框图。在这种情况下，从开始于O/S内核31的层开始进行描述，因此较低层级的软件和固件已经从说明中省略，但并未从预期的实施例中省略。这里使用的注释一般意图指示在层中示出的软件元件采用来自下面层的资源并且向上面的层提供服务。然而，在实践中，特殊的软件元件的组件可能不会全部以那种方式进行。

在关于软件的那些预告的情况下，参考图3，层31是O/S内核，其在被保护的环境中提供核心O/S功能。在O/S内核上面的是层32，O/S核心服务，其扩展功能性的服务到上面的层，该功能性的服务诸如盘和通信访问。层33被插入以示出开放式GL库以及类似的应用和框架资源的一般相对定位。层34是典型地被表达为多个层的功能的合并：应用框架和应用服务。为了我们讨论的目的，这些层可以为驻留于最高层的应用程序(如这里的项35所示)提供高层级并且通常是功能性的支持。项C100意图示出可以执行本文所讨论的图像以及背景分析的框架软件的一般相对定位。特别地，在一些实施例中，本文讨论的图像分析和/或图像捕获技术可以通过使用应用编程接口由框架软件来执行。在某些实施例中，通过API可访问的框架软件(或者其他软件)可以观察用户行为和传感器读数(例如，背景)并且可以使用这个信息来评估图像并做出有关图像的结论，例如导致修整。当然，应用程序也可以执行相同的功能而无需框架的帮助。此外，在服务器侧，通过使用服务器应用级软件和数据库软件的组合(可能包括框架和/或各种资源模块)，本文描述的某些实施例可以被实现。在一些实施例中，服务器可以通过网络被访问以便对由便携式设备捕获的图像执行图像处理。

在引入第一实施例之前，针对镜头移动和传感器功能方面对典型的摄像机的结构进行回顾可以是有用的。参考图4A，捕获组件400可以包括图像传感器405、镜头管410、镜头组件415、微距光圈(macro stops)420、以及无穷大(∞)光圈425。在本公开中，术语“镜头”和“镜头组件”被视为同义的。由此，术语镜头可以意味着单个光学元件或者被配置成堆叠或其他布置的多个元件。参考图4B，当镜头415靠到无穷大光圈425时，所有超出第一距离(以下被称为“无穷大距离”)的物体会被聚焦。参考图4C，当镜头415靠到微距光圈420时，成像组件400可以聚焦接近第二距离(以下被称为“微距距离”)的物体。在自动聚焦的操作中，镜头415可以从管410的一端移动到另一端，在沿线上指定数量的多个位置处停止来捕获图像。镜头415停止的位置可以是均匀地或者不均匀地分布在两组光圈(微距光圈420和无穷大光圈425)之间。本领域的普通技术人员可以认识到，特定的摄像机的微距和无穷大距离以及在自动聚焦的操作期间采用的镜头位置的数量可以依赖于摄像机的特定设计。另外，熟练的技工将理解到例如针对光灵敏度、失真比率和/或每秒捕获的帧的最大数量方面图像传感器的变化的性能。

这些硬件和软件的描述不意图限制，并且本文的发明的变化的实施例可以包括任何方式的计算设备，诸如Mac、PC、PAD、电话、服务器、或者甚至嵌入式系统。

增强的图像

本公开的实施例涉及图像捕获以及处理这些捕获到的图像以创建增强的视觉图像。一些实施例可以创建增强的视觉图像，其包含图像中的可见项的运动。在一些实施例中，运动可以发生在整个图像中，例如在池中游泳的人的1.5秒的循环视图。在其他实施例中，只是图像的一部分会呈现移动；例如，具有仅仅示出形成微笑的对象或者诸如滚动的波浪之类的背景风景的移动的运动的肖像。

本发明的许多实施例涉及通过在用户拍快照(例如，指示捕获静态图像的期望)之前和/或之后捕获图像和其他传感器数据来产生增强的图像的过程的全部或一部分。换句话说，本公开的许多实施例涉及用户在静态图像模式中操作摄像机并且指示捕获在显示屏上预览的图像的期望。本发明的若干实施例在用户期望的快照之前(“预捕获”)和快照之后(“后捕获”)的一段时间内捕获图像和其他信息(诸如传感器信息)。这种额外的数据可以被概念化作为视频数据或仅仅作为连续帧。此外，在预捕获和/或后捕获时间段期间捕获的信息可以用来创建增强的图像，它们仅仅是提供比普通数字静态图像更加丰富的感观体验的图像。

用来创建增强的图像的高层级过程

参考图5，示出了创建增强的图像的过程。尽管这样的一些实施例和其他过程可以预想到操作的某种顺序，但本公开或者以下的发明通常不意图具有严格的顺序。在505，图像信息可以被捕获，而在510，背景信息可以被捕获。为了创建增强的图像，除了静态图像的普通像素值之外必须捕获一些信息。在一些实施例中，将用在主机设备上可用的背景信息的全部或一些来增加捕获的图像信息。这可以包括：所有可用的摄像机数据；所有可用的传感器数据(例如，来自上面讨论的传感器)；来自驻留于相同主机设备上的应用和库的所有信息和数据(例如，在图像帧被捕获的时间处应用的状态)；从诸如因特网之类的网络接收的外部背景数据(例如，示出图像帧被捕获的时间处外部事件的状态)；以及或者由用户输入(到GUI、设置、或者偏好项)的用户信息或者推断出的关于用户的用户信息。在一些实施例中，所捕获的信息(图像和/或背景)可以在用户捕获帧的指示之前。换句话说，主机设备可以在用户点击摄像机或者摄像机应用上的“捕获”按钮之前的一段时间内捕获和保持图像和背景数据。为了实现这种数据的保持，设备可以一直记录和维持一定量的这种数据，例如基于先入/先出的原则，N秒的数据可以被维持。在其他实施例中，可以仅在摄像机/图像-捕获应用运行并且活动的时候保持先入/先出数据。在其他实施例中，摄像机/图像-捕获可以在摄像机应用被激活或者设备处于图像可以被捕获的模式时开始。

在一些实施例中，所捕获的图像信息和/或背景信息还可以先于用户捕获帧的指示。换句话说，在用户点击摄像机或者摄像机应用上的“捕获”按钮之后的一段时间内，主机设备可以捕获和保持图像数据和/或背景数据。为了保持这种数据，设备可以仅仅保持在由用户做出捕获指示之后的T秒内的数据。

回到图5，在515，指定的静态图像可以被识别。该被识别的静态图像(其在本公开中指的是CS图像或者帧(在下面解释))可以仅仅是在摄像机被操作作为正常静态图像单元的情况下用户已经捕获的快照或者静态图像。在用户指示进行捕获(例如，拍照片)的期望的时间(或者在离该时间一定阈值内)，CS图像可以被识别为在摄像机的预览区域中的图像。在520和525，所捕获的内容(其可以包括图像数据和/或背景数据)可以被分析和修整。分析520可以指的是评估图像数据和/或背景数据来确定与特定的增强图像相关的数据或者与任何数量的潜在的增强图像相关的数据。在一些实施例中，该分析可以涉及确定哪些帧与CS帧不相关或者可能与CS帧不相关。在其他实施例中，该分析还可以涉及确定哪些帧是相关的。修整525指的是对除了CS图像之外的帧的删除和标记。在许多实施例中，修整可以涉及在从指定的帧(可能不相关的帧)一直到剪辑片段中离CS帧最远的一端中对预捕获或者后捕获的帧的删除或者标记。

两侧箭头535被示出以指示与项520和525有关的一些实施例的潜在的迭代特性。该迭代可以出现，因为如果较多的数据修整被完成，则可能留下较少的分析工作(即，因为存在较少的要被分析的帧)。因此，在一些实施例中，520和525可以颠倒或者过程可以在修整和分析之间交替(例如，一旦针对一个或多个帧做出确定就进行修整，并且然后在涉及的较少的帧的情况下继续分析)。最后，在530，可以利用所捕获的图像信息和/或背景信息中的留下的或者未修整的部分来创建增强的图像。

在一些实施例中，增强的档案图像可以由包括CS帧和/或预捕获帧和/或后捕获帧的一组相连的帧(contiguous frame)形成，其中在该组相连的帧中没有删除(即，仅仅对外部边缘执行修整)。在其他实施例中，增强的档案图像可以由包括CS帧和/或一些预捕获帧和/或一些后捕获帧的帧序列形成，其中序列的中间部分存在删除。在其他实施例中，增强的档案图像可以由包括CS帧和/或一些预捕获帧和/或一些后捕获帧的帧序列形成，其中序列中的一个或多个帧已经被软件修改以便创建效果。例如，为了示出在其中除了来自烟囱的烟之外全都保持不动的静态情况，预捕获帧和后捕获帧可能需要编辑(或者与CS图像进行部分合并)，以使得仅仅烟是随帧而改变的。

现在参考图6，示出了图像数据601和背景数据610、620、630、和640的概念化。图像数据601被图示为25帧，N到N+24，其中帧N+12代表所捕获的静态物602，它是用户想要通过摄像机或者摄像机软件的操作来捕获的帧或者静态图像。所捕获的静态物602(“CS”图像或者帧)可以代表任何形式的以任何已知的方式捕获的静态图像。图像数据601还示出预捕获帧603，其被示出为包括帧N到帧N+11。预捕获帧603代表时间上在CS帧的捕获之前以及潜在地在用户拍照之前收集的图像信息。依赖于实施例，预捕获帧可以代表采用任何已知形式的视频信息和/或静态图像的快速(诸如5fps、10fps、15fps、120fps、150fps、或更高)序列。无论预捕获帧是被收集作为交错的视频还是帧序列，它们都可以被概念化为帧的序列并且将会在本文中如此被讨论。图像数据601还示出了后捕获帧604，其被示出为包括帧N+13到N+24。后捕获帧604代表时间上在CS帧的捕获之后收集的图像信息。和预捕获帧603一样，依赖于实施例，后捕获帧604可以代表采用任何已知形式的视频信息和/或静态图像的快速(诸如5fps、10fps、15fps、120fps、150fps、或更高)序列。此外，无论后捕获帧是被收集作为交错的视频还是帧序列，它们都可以被概念化为帧的序列并且将会在本文中如此被讨论。

在一起观看的情况下，图像数据601代表图像信息的时间上的序列，由用户选择的静态图像将多个预捕获帧603和多个后捕获帧604分隔开。依赖于实施例，图像数据601的整个时间长度可以从一秒的一部分变化到几分钟。一种特定的实施例使用在CS图像每侧的1.5秒视频。预想的实施例不要求预捕获段和后捕获段的尺寸、长度或者格式相同，但设计者可能发现平衡会带来便利。

再次参考图6，还示出了多个轨道610、620、630、和640，它们与来自图像数据601的图像帧对齐。轨道610、620、630、和640可以携带用于图像数据601的背景数据，并且可以被绘制以概念化将例如语音和/或元数据与图像对齐的传统的媒体轨道。然而，本公开的一些实施例可能不利用传统的基于轨道的机制来存储背景信息，而可能替代地使用其他类型的存储设备，诸如数据库。图6中所示的特定的背景信息轨道是音频1610(代表潜在的许多音频轨道中的一个)，摄像机元数据620(代表由摄像机提供的图像元数据的一个或多个项)，传感器数据1630(代表源自本文所讨论的任何传感器的传感器数据的一个或多个项)，以及场景分类640(代表可以与图像数据对齐的潜在的许多类型的计算出/推导出的图像分析信息中的一个)。所示的背景数据的形式不意图限制，并且本公开的变化的实施例可以预想到使用来自任何源的任何可用的背景数据。例如，其他轨道可以保存与帧中的面部、帧中的身份、帧中的动作(例如，跳舞、步行、奔跑、驾驶、吹灭蜡烛等)、帧中的特定物体(例如，球、球棒、球拍、车、房屋、盆、锅、盘)、图像统计数据、和/或动物的存在等有关的信息。

现在参考图7A，示出了与来自图6的图像数据601具有类似形式的图像数据701。如上所述，本发明的一些实施例可以预想到修整预捕获段703和后捕获段704来消除在增强的图像的构造中不相关的或者不那么相关的帧。在本公开的一些实施例中，诸如在图7A中所示的那样，可以从图像数据701的任何位置修整帧。值得注意地，修整区域705位于图像数据701的边缘上，并且因此删除该区域不代表对保持原始帧中相连的时间序列(包括CS帧)的中断。然而，修整区域706在时间上处于CS图像和其他被标记要被保持的帧之间。因此，修整区域706的移除或者删除在帧序列的被保持部分中留下“间隙”。这意味着，如果所有被保持的图像在没有编辑或者变更的情况下按序列播放，则用户可能在演示的流程中感知到伪影(artifact)或中断。然而，对这些伪影或中断的感知可以通过诸如图像分析和/或图像编辑或者插入过渡之类的技术而被最小化或消除。

在由于修整导致整个保持的图像数据部分具有帧间隙的情况中(例如，图7A)，存在(依赖于实施例)在使用被保持的部分中可能适用的若干考虑。首先，可以考虑到帧间隙的尺寸的比例相对于帧率。例如，15fps序列中单个缺失的帧可能是可注意到的但通常是不重要的。相反，120fps序列中多个缺失的帧通常是非可注意到的。第二，图像分析可以被执行以确定由修整引起的任何不连续(如果有的话)的影响(即使那些不连续是成比例可注意到的)。例如，如果序列的对象是具有冒烟的烟囱的房屋，则修整可以消除示出了运输卡车行驶通过的间断的帧。然而，给定冒烟烟囱的特性以及它在整个相对不动的房屋照片中的比例，删除行驶的卡车的帧不太可能增加用户的注意。本文讨论的任何背景分析可以提供对特定次序中的特定间隙的影响的指导。

除了确定间隙的视觉重要性以外，对被保持的部分的使用可以被考虑或者被变更以容忍间隙。例如，机器制造的过渡(例如，已知的视频过渡效果，诸如在苹果的iMovie应用和其他视频编辑程序中使用的那些)可以被插入到可注意到的间隙中。可替代地，如果增强的图像是延时序列(示出阶段而不是连续体)，则延时阶段可以选择处于间隙周围。此外，其他用于具有间隙的视频序列的使用可以被得到，诸如图7B示出的。

在其他实施例中，诸如图7B中所示的，修整被限制在预捕获区域的外部边缘。在这些实施例中，被保持的帧710包括原始帧的完整序列，包括CS图像。尽管一些实施例(例如，图7A或者7B)允许编辑每个被保持的帧以实现某种效果，但图7B下的实施例不从被保持的帧710中删除帧。通过维持相连的序列，包括所捕获的静态物702的未修整的部分可以用作视频循环，而无需担心可见的不连续。当使用仅保持相连的帧的一些实施例时，一些以其他方式相关的帧被修整是可能的，因为不相关的帧位于所捕获的静态物702和以其他方式相关的帧之间。

修整

在一些实施例中，用户可能不会意识到视频正在被捕获。对用户隐藏预捕获序列和后捕获序列的设计选择可能具有副作用。特别地，许多用户至少最初可能没有认知到预捕获603帧和后捕获604帧正被记录。作为结果，被捕获的场景和/或事件的特性可能无法和预先定义的捕获范围(例如，图像数据601)很好地对齐。例如，捕获的图像数据601可能代表包括在拍摄CS图像之前和之后1.5秒的视频序列。然而，作为捕获的对象的孩子可能已经下滑进入并且然后仅在一秒之后跑开。一旦对象(孩子)位于帧以外，操作摄像机或者摄像机软件的用户就会移动摄像机或者将摄像机拿开。在这3秒的示例中，在孩子跑开之后的0.5秒垃圾帧将会保持(孩子在CS图像被捕获之后的1秒内可见)。在一些实施例中，用户可能意识到预捕获特征和后捕获特征，但是即使在利用特征进行实验之后，用户可能仍然将事件与捕获时间段对偏。为了补救这一点，一些实施例允许通过GUI来灵活地设置预捕获时间段和后捕获时间段。其他实施例可以使用GUI指示符来向用户示出何时开始预捕获时间段以及何时结束后捕获时间段。其他实施例可以在摄像机或者摄像机软件处于适当的捕获模式(潜在地从各种模式中选择)中的任何时间处捕获预捕获帧和背景。

即使使用上述解决方案，用户也经常将捕获时间段与相关的对象体对偏。另外，这些预捕获序列和后捕获序列中的许多序列可能不是按用户期望的那样被取景。例如，部分序列可能在用户仍在调整拍照的取景或者正把摄像机放入他们的口袋或者从他们的口袋拿出摄像机的时候捕获场景。问题可能是复合的，因为在这些情况下摄像机的自动曝光可能没有时间进行调整，使得部分视频曝光过度或者过于黑暗。另外，处于用户控制以外的事件(诸如暂时在摄像机前移动的人、车、或者物体)也可能减损增强的图像的期望的效果。

如上所述，本公开的许多实施例可以使用自动修整技术，以便从所捕获的序列中消除不相关的帧。在一些实施例中，可以利用硬修整(hard trimming)，硬修整意味着被修整的帧实际上被删除以节约存储器和其他资源。硬修整提供更紧凑的增强的图像，其可以更好地用于诸如通过因特网之类的基于网络的传送。其他实施例可以使用软修整，其中所有的帧被保留，但是仅仅被修整的帧被标识或者标记为不相关。在一些实施例中，可以按照主题进行标记。例如，相同的帧可以出于一个原因被标识为不相关，而可以出于其他原因而保持为相关。用来标识的“原因”可以从被使用的增强图像类型(出于连续视频而不相关)变化到图像特定的方面(出于活动、宠物、建筑物等而不相关)。当然，帧还可以或者可替代地出于相关的原因(例如，出于风景、阳光、孩子的内容等而相关)而被标记。一些实施例还可以使用软修整和硬修整的混合。在混合的实施例中，内容的档案版本保持了所有帧并使用标记来指示相关或者不相关。然而，这些实施例还提供每个档案版本的硬修整版本，其中硬修整版本消除了出于特定目的不需要的帧。因此，例如，单个档案版本可以具有多个硬修整版本，每个硬修整版本用于不同目的或者不同的项目。

亮度修整

在本公开的一些实施例中，出于有关曝光的问题，即亮度或者帧太亮或者太暗，帧可以被修整或者从被保持的部分被消除。在一些实施例中，与可接受或者不可接受的亮度有关的确定可以由评估图像或者场景的软件做出。在一个实施例中，在处理器105上运行的软件可以提供与给定场景的两个值有关的信息，其中一个值指示与亮度相关的当前等级，而另一个值指示与亮度相关的目标值，例如，当前亮度等级和目标亮度等级。在某些实施例中，该信息可以由软件的自动曝光模块得到，和/或可以针对每一帧或像素单独地计算出它。

参考图8，示出了作为亮度修整的一部分的过程。在805，针对场景的当前或者平均亮度等级可以被接收(例如，被测量出或者每个像素的合计或者来自摄像机硬件/软件的其他值)。场景可以活动地呈现在摄像机的取景器中或者呈现在之前捕获的帧中。在一些实施例中，无论场景是存在于摄像机的取景器中还是呈现在存储的帧中，平均亮度均基于计数读数、软件、或者来自帧的实际曝光/捕获的数据。在810，针对场景的目标亮度信息可以被接收。目标亮度可以设置用于如摄像机或者软件确定的图像中的理想照明的等级。在815，自动曝光(“AE”，)比率可以通过将平均亮度除以目标亮度(或者在一些实施例中反之亦然)而被计算出。AE比率指示当前亮度或者平均亮度与目标亮度的接近程度。因此，AE比率为1可以指示目标亮度和当前/平均亮度值相同，使得图像不会太暗或者太亮。在这个情形中，如果AE比率偏离1，则图像可能太暗或者太亮。

再次参考图8，在决定820处，每一帧的AE比率可以被存储。该比率可以以诸如数据库或表之类的任何类型的数据结构被存储在存储器中，并且与合适的帧相关联。如参考图6所示，该比率还可以被存储为与图像/视频帧相关联的元数据轨道。在825，做出与是否存在更多要评估的帧相关的确定。如果存在更多的帧，则控制可以返回到805，而如果没有其他的帧，则控制继续到830。

在830，目标AE比率可以被设置。在这个示例中，因为值为1指示良好的曝光(在亮度方面)，因此本公开的许多实施例可以将目标AE比率设置为1。然而，如果所捕获的静态图像(即，CS图像602或者702)具有的AE比率不接近1，则目标AE比率可以参考CS图像来进行选择。例如，如果CS图像稍亮，则补充的图像可以以稍亮为目标。此外，在835，AE比率阈值可以被设置。阈值的目的在于，或者在偏离良好的亮度等级(例如，AE比率为1)方面或者在偏离CS图像的亮度方面为每一帧设置容差。因此，在一些实施例中，AE比率阈值可以被设置为1周围的可选带、CS图像的AE比率周围的可选带等。在其他实施例中，如果CS图像具有较差的AE比率(例如，由软件和/或可能不同的阈值集合判断为太暗或者太亮)，则可以不使用AE比率阈值，即，所有帧可以被认为具有足够好的亮度。例如，如果CS图像不满足特定的暗/亮标准，则该标准可以不被应用于其他帧。

在840，针对每一帧可以做出有关帧的分数或者消除的决定。特别地，在一些实施例中，基于亮度信息，帧可以被消除或者被标记。在这些实施例中，如果帧不满足亮度标准，则它可以被消除或者被标记。对于使用项830和835的实施例，标准可以是例如帧的AE比率是否处于阈值集合内。对于不使用项830和835的实施例，其他标准可以被用来确定针对每个帧可接受的亮度。其他标准可以依赖于任何本文讨论的因素，包括场景分类、任何传感器读数等。

在840，本公开的一些实施例仅仅为每一帧提供亮度评定(基于它的适合性的程度)，而不是基于亮度消除帧。该评定可以和其他与帧有关的分析组合，以便做出与该帧被修整还是不被修整的处置有关的最终决定。例如，在本公开的不允许间隙删除的实施例中(即，要求在修整之后留下的部分中的单个相连的帧序列)，即使亮度是适当的，也可以基于相连的要求来消除帧。

与修整(即，消除)或为帧计分的决定相关的其他亮度考虑包括以下：在CS图像捕获期间或者在整个捕获期间使用闪光灯或者电筒的能力、与周围的帧相比在所捕获的CS图像中对闪光灯的使用、每一帧中的热像素(根据传感器/固件被过度曝光)的计数、以及针对每一帧的颜色直方图信息(例如，由传感器/固件提供)(因为某些直方图模式指示褪色的图像)。除了亮度之外，还存在可能对帧消除或者计分有影响的其他考虑，诸如：指示较差内容的其他对捕获的自动调整(诸如自动聚焦和自动白平衡)；聚焦分数(指示模糊度)；以及在照明饱和的情况下的色度或者色调(可能指示较差的图像)。

基于聚焦、白平衡、以及其他参数的修整

在其他实施例中，图8所示的相同过程可以被应用到其他摄像机标准，诸如白平衡或者聚焦。因此，将图8的过程应用到这些其他的标准可以类似地涉及：当前值和目标值805和810，这些值的比率815，潜在的目标比率830，用于该比率的潜在目标阈值835，以及计分或者修整决定840。有经验的技术人员可以容易地将图8适用到经受目标值和实际/当前值的其他图像标准中。

基于ISP元数据的修整

现在参考图8A，示出了可替代的修整过程。在850，可以例如从与图像信号处理器相关联的自动曝光部分或者算法接收AE平均值和AE目标值。在一些实施例中，AE平均值和AE目标值可以是由诸如自动曝光算法和/或图像信号处理器(在硬件或者软件中表示)之类的软件或者硬件产生的元数据。在一些实施例中，AE目标值可以指示目标亮度，诸如18％的亮度，但目标亮度可以随着场景而改变(例如，曝光等级可以依赖于场景的内容，诸如一个或多个大的面部(large face)或者高调(high key)或者低调情形)。另外，在这些实施例中，AE平均值可以由特定帧的亮度(luma)通道的加权平均值来计算。例如，在一些实施例中，平均亮度可以代表AE平均值。

再次参考图8A，在855，摄像机的曝光控制可以可选地调整曝光，使得AE平均值变得接近AE目标值。在一些实施例中，该调整尝试使AE平均值尽摄像机所能地接近AE目标值。使用被调整的AE平均值以及在一些实施例中的任何更新的AE目标值，AE平均值和AE目标值的比率被计算(例如，AE平均值/AE目标值)。在这些实施例中，给定摄像机校正曝光的尝试，AE比率指示帧可以被曝光的好坏。因此，AE比率为1可以指示帧的亮度是良好的或者期望的，而AE比率极大地偏离1可能指示帧太暗或者太亮并且不能被摄像机校正(例如，通过使用曝光控制)。

再次参考图8A，在860，每一帧的AE比率可以被存储。如在之前的实施例中讨论的，该比率可以以诸如数据库或表之类的任何类型的数据结构被存储在存储器中，并且与适当的帧相关联。同样，如参考图6所示，该比率还可以被存储作为与图像/视频帧相关联的元数据轨道。在855，可以针对是否存在更多要被评估的帧做出确定。如果存在更多的帧，则控制可以返回到850，而如果不存在其他的帧，则控制可以继续到870。

在870，目标AE比率可以被设置。在这个示例中，因为值为1指示良好的亮度，因此本公开的许多实施例可以设置目标AE比率为1。然而，如果所捕获的静态图像(即，CS图像602或者702)具有不接近1的AE比率，则目标AE比率可以参考CS图像来选择。例如，如果CS图像稍亮，则补充的图像可以以稍亮为目标。此外，在835，AE比率阈值可以被设置。阈值的目的在于，或者在偏离良好的亮度(例如，AE比率为1)方面或者在偏离CS图像的亮度方面为每一帧设置容差。因此，在一些实施例中，AE比率阈值可以被设置为1周围的可选带、CS图像的AE比率周围的可选带等。在其他实施例中，如果CS图像具有较差的AE比率(例如，由软件和/或可能不同的阈值集合判断为太暗或者太亮)，则可以不使用AE比率阈值，即，所有帧可以被认为具有足够好的亮度。例如，如果CS图像不满足特定的暗/亮标准，则该标准可以不被应用于其他帧。

在880以及上述参考图8的讨论中，针对每一帧可以做出有关帧的分数或者消除的决定。此外，如上所示，本公开的一些实施例仅仅为每一帧提供亮度评定(基于它的适合性的程度)，而不是基于亮度消除帧。该评定可以和其他与帧有关的分析组合，以便做出与该帧被修整还是不被修整的处置有关的最终决定。此外，如之前所讨论的，与修整(即，消除)或为帧计分的决定相关的其他考虑包括以下：在CS图像捕获期间或者在整个捕获期间使用闪光灯或者电筒的能力、与周围的帧相比在所捕获的CS图像中对闪光灯的使用、每一帧中的热像素(根据传感器/固件被过度曝光)的计数、以及针对每一帧的颜色直方图信息(例如，由传感器/固件提供)(因为某些直方图模式指示褪色的图像)。除了亮度之外，还存在可能对帧消除或者计分有影响的其他考虑，诸如：指示较差内容的其他对捕获的自动调整(诸如自动聚焦和自动白平衡)；聚焦分数(指示模糊度)；以及在照明饱和的情况下的色度或者色调(可能指示较差的图像)。

基于运动传感器的修整

本公开的一些实施例预想到使用摄像机运动作为背景因素来帮助确定帧的修整。便利地，诸如电话之类的许多手持设备具有包含在其中的摄像机和运动传感器，诸如加速度计和陀螺仪。此外，许多设备也包含GPS，它可以用来检测较大的运动或者较高速度的运动，诸如在汽车中进行驾驶。当摄像机与传感器被包含在相同的设备中时，摄像机的运动被传感器读数显现出，这可以用来表征摄像机的移动。

摄像机的移动在做出修整决定中可以是有用的，因为被感测的移动可以与针对有用的帧序列或者不相关的序列的被希望的移动作比较。例如，在摄像机使用期间，在将摄像机移入或者移出存放位置(例如，口袋)时或者在某些取景活动(例如，旋转视图)期间，不相关的序列可以被捕获。可替代地，在平动或者朝着或者远离对象移动(本质上通过移动进行变焦)期间发现的帧序列可以是或者有用的或者不相关的。

参考图9，示出了说明运动修整方面的过程。在905，可以针对帧接收摄像机速度或速率信息。速度或者速率信息可以源自任何传感器或者传感器的组合，该传感器诸如加速度计、陀螺仪、和GPS。在910，可以针对帧接收摄像机加速度(例如，从相同的传感器中的一个或多个)。在915和920，速度/速度和加速度信息可以被存储。信息可以采用诸如数据库或表之类的任何类型的数据结构被存储在存储器中，并且与适合的帧相关联。此外，如图6所建议的，信息还可以被存储作为与图像/视频帧相关联的元数据轨道。在925，针对是否存在更多要评估的帧做出确定。如果存在更多的帧，则控制可以返回到905，而如果不存在更多的帧，则控制可以继续到930。

在930，针对速度和加速度可以设置阈值。可以参考经验数据或者主观地根据标记在其中摄像机移动地太快或者加速地太快的帧的目标来设置阈值：以便与用户想要保持的帧相关联或者捕获有用的帧。在一些实施例中，阈值可以被应用在多帧序列中，因此C个连贯的帧必须突破该阈值以触发计分或者修整。在一个实施例中，采用15fps的捕获率，突破阈值的2个连贯的帧可以触发计分或者修整。此外，依赖于该实施例(并且如上所述)，失败的阈值(failed threshold)可能导致仅仅修整失败的帧(failing frame)，或者可替代地修整从失败的帧到剪辑片段中离CS帧最远的边缘(即，预捕获边缘或者后捕获边缘)的整个剪辑片段。

在935，阈值可以基于感测到的每一帧相对于CS帧的运动的表征可选地被加权。在一些实施例中，如果非CS帧的运动与CS帧的运动正交，则情形可以被认为相反的(例如，摄像机返回到用户的口袋)并且阈值可以被加权以使得修整或者计分更可能或甚至更肯定。可替代地，如果非CS帧的运动方向与CS帧的运动方向一致(例如，如果摄像机随着对象平动或移动)，则阈值可以被加权以使得计分或者消除不那么可能。

在940，针对每一帧(或用于多帧分析的一组帧)可以做出关于一个或多个帧的分数或消除的决定。特别地，在一些实施例中，帧可以基于针对移动的标准而被消除，并且如果帧不满足移动标准，则它们可以被消除。在其他实施例中，如果帧不满足标准，则从失败的帧到剪辑片段中离CS帧最远的边缘的整个片断可以被修整。对于利用加权935的项的实施例，根据其他因素(诸如移动方向、场景分类、和/或任何其他的传感器读数)，标准可以被加权。

在940，本公开的一些实施例仅仅基于移动标准为每一帧提供移动评分，而不是基于移动来修整或者消除帧或者剪辑片段。该评分可以与其他与帧有关的分析组合来做出关于帧被修整还是不被修整的处置的最终决定。

在一些实施例中，加权935或者其他技术可以用来影响修整或者计分结果以便缓解不正确结果。例如，针对摄像机运动，可以计算统计数据以便避免不相关帧的不适当的错误指示。在一个实施例中，加权过程被变更以包含在驾驶或使用其他大型机器时进行摄像的情况。当移动的平衡和场景一致时，补偿说明振动以及与场景正交的摄像机运动。通过分析移动信号以及应用经验统计数据，许多错误的读数可以被避免。

在其他实施例中，加权935可以类似地被用于将帧降级(de-rate)，由此提高计分或者修整的概率。例如，在一些实施例中，运动传感器可以用来检测摄像机朝向的改变。如果非CS帧的朝向不同于CS帧的朝向，则一些实施例可以修整帧或者为该帧计分，因此它被消除或者因此删除的概率被增加。在其他实施例中，如果用户大幅度地旋转设备，可能在初始处于纵向朝向时作为横向来取景拍照，则运动导致可注意到的不期望的视频帧。这些帧与CS帧相比可能出现侧身或者可能甚至是颠倒的。帧的移动可能是不期望的并且可能是视觉上动摇的，因此帧应该被降级(或者导致它们的某种修整或者增加概率)。由于许多摄像机设备已经检测到朝向上的改变和其他特性，并且将元数据附连到指示在捕获时的朝向和其他特性的图像，因此这些类型的优化可以在较少的原始编程的情况下被应用。

基于图像分析的修整

在一些实施例中，图像分析可以用作对帧计分或者修整帧的因素。图像分析涉及对图像的内容(通常对于用户可见的分量)的调查。例如，在分析单个图像中，面部可以被检测和/或识别，物体可以被识别，质量参数(例如，模糊度、锐度等)可以被评定，和/或场景可以被分类(即，分类为沙滩、运动、肖像、风景等)。当多个图像被一起分析时，图像分析可以包括图像的比较，诸如图像配准(其中针对多个图像，图像特征或者甚至元数据被对齐)。这种类型的图像分析允许软件来检测例如在摄像机前面步行的不想要的人，或者通过分析摄像机运动或者曝光等级不可检测到的其他视觉干扰。多图像分析还可以用来强化来自单个图像评估的结论，诸如物体或者面部识别。

在一些实施例中，图像分析可以用来做出与修整帧或者为帧计分有关的确定。在一些实施例中，具有可观看的面部的帧可以被保持或者计分为具有较高的保持概率。在其他实施例中，如果面部被识别(使用具有被预先识别的个体的软件)，则帧可以被保持或者计分为具有较高的保持概率。在其他实施例中，其他可识别因素可以被用来对帧评分或者修整帧，包括但不局限于宠物、可识别的宠物、面部表情、物体/对象识别、场景分类、和/或软件可以通过图像分析做出的其他智能性结论。

本公开的一些实施例可以利用多元素指标以用于图像分析，其可以用来影响修整或者计分决定。在一个实施例中，所述因素可以从以下中选择：帧的锐度；帧的聚焦计分；帧的白平衡；动物的存在；可识别的宠物的存在；面部的存在；在连续的帧中相同的面部的存在以及连续的帧的数量；在存在的面部中面部表情的分类；物体/对象的身份；帧的场景分类；连续的帧的场景分类以及连续的帧的数量；以及它们的任何组合。在典型的多因素分析中，每个因素可以贡献标准化的分数，并且所有这些分数可以被组合(例如，求和)以形成单一指标。然后该指标可以被应用到阈值或者阈值带以确定一个帧或多个帧的计分或处置。例如，如果该指标超过阈值，则该一个帧或多个帧可以被保持或者修整。可替代地，如果该指标落入特定带内，则可以给予它某一图像分析分数，而如果它落入不同的带内，则可以给予它不同的图像分析分数。图像分析分数然后可以和其他因素组合以便产生对一个帧或者多个帧的处置。

在一些实施例中，本公开可以预想到三分量指标，出于示例性的目的，其被称为“垃圾”指标(garbage indicator)。垃圾指标的分量可以包括：根据帧配准得到的摄像机行进距离；模糊度/锐度；以及基于帧配准分析的图像质量评定。该垃圾指标的分量的每一个可以被标准化，并且然后通过简单的求和或者通过任何已知的数学原理来组合在一起。

在使用垃圾指标的一个实施例中，用来计算摄像机行进距离的帧配准可以是仅平移的配准，其导致二维向量。二维向量意图代表第一帧的最佳平移，该最佳平移使得它的内容对应于第二帧。实施例可以可选地使用基于像素求和的方法，其中沿图像的每行和每列将像素的照度加和来在单维度信号中创建像素的“签名”或者“投影”。这种单维度信号可以每行(或者每列)包含一个针对图像的每一个行总和(或者列总和)的值。在一些实施方式中，两个信号可以被得到：一个针对列，而一个针对行。在垂直方向上的配准可以通过匹配来自第一个图像/帧的行总和与来自第二个图像/帧的行总和来进行。匹配可以通过滑动一个信号经过另一个信号并且计算差值来执行。另外，Y平移(Y translation)可以被提供，并且在一个实施例中，Y平移可以是差值的总和被最小化的那一点。类似地，X平移可以通过使用列总和信号而被计算(即，差值被最小化的位置)。摄像机行进距离然后可以被确定为得到的向量的大小(即，X平移和Y平移)。

本公开的其他实施例预想到对摄像行进距离的不同推导。在一些示例中，可以采用计算更密集的方法(诸如仿射变换或者完全对应(full-homographic)的变换的确定)来匹配一个图像/帧和另一个图像/帧。这些更密集的技术可以采用异常拒绝(outlierrejection)方法来确定两个图像之间的特征对应，其中特征可以从像素强度计算出(示例技术包括Harris Corners，SIFT以及方向梯度的直方图)。如果摄像机与深度传感器相关联或者可以以其他方式获取深度信息，还可以利用深度信息。

说明性的垃圾指标的第二分量可以模糊度/锐度的指标。为了确定模糊度/锐度，一个实施例可以利用基于小波(wavelet)的方法，其使用可能由模糊边缘引起的跨带系数比较的分类。其他实施例可以采用其他技术，诸如：基于梯度的方法；边缘宽度(edge-width)方法；局部对比方法；非锐化异蔽能量(unsharp masking energy)方法；自然图像统计方法；基于熵的方法等。事实上，所有模糊/锐度确定技术存在精度和计算复杂度/负担之间的权衡。

说明性的垃圾指标的第三个分量是基于平移的配准结果的图像质量评定。在一个实施例中，第三因素可以是偏度参数，其可以按照以下来确定。参考针对第一垃圾指标因素讨论的配准技术，在优化的X和Y平移处来自行总和和列总和的绝对差值被收集并且用来创建对标准正态分布的MAP(最大后验概率)估计。这个实施例利用了这种标准正态分布的前三个模式，分别作为中值、标准偏差和偏度。然而，在一些实施方式中，差值的分布可以是高度非高斯的，使得标准正态分布成为不那么精确的模式。但是，估计的偏度模式提供了对估计的质量的指示并且可以被相应地使用。

在许多实施方式中，在具有局部运动或者合理的精确配准的情况下，偏度将是高的。这是因为由于图像对象的运动导致较大的误差的长尾，这使得场景中的物体变得或者可见或者隐藏。其他误差可能从配准区域中出现，其中图像匹配将会非常小。如果配准较差，或者图像内容大幅度地改变以至于良好的平移估计难以进行，则误差分布变得更加随机，并且偏度变小。

一旦三个垃圾指标因素已经被确定，每一个就可以通过任何本领域技术人员已知的机制被标准化。在一些实施例中，标准化可以是基于统计数据的，其中统计数据可以与CS图像/帧和/或它紧靠的周围的帧相关。在一个实施例中，针对每一因素的中值以及标准偏差可以被计算，并且涉及CS图像的每一侧上的F个帧。在一些情况中，F可以被选择为可用的帧的25-40％(例如，如果在后捕获侧有17帧，则33％将近似为5帧)。在具有中值和标准偏差的情况下，通过减去中值并除以标准偏差，每个因素可以被标准化为零中值和单元标准偏差。在一些实施例中，对于每一个值，标准偏差还可以被约束，使得该值不会通过在静态捕获帧附近的不寻常的较大变化或较小变化而被过度衰减或者过度放大。

在一个实施例中，一旦全部三个值被标准化，垃圾指标就可以被计算为摄像机行进距离+模糊量-偏度。该垃圾指标可以通过将它与一个或多个阈值比较而被利用。对于每一个阈值，最小偏度值可以被要求，其有效地保证了偏度因素对整个垃圾指标的最小影响。如果满足了最小偏度值，并且阈值被超过，则视频帧被分类为垃圾，即它应当被排除。在一些实施例中，单个垃圾帧可以被忽略，但是如果遭遇两个连贯的垃圾帧，则从那个点到离CS帧最远的一端修整帧序列。

垃圾指标实施例被设计为用于便利的处理(例如，快速的执行时间)。本公开的其他实施例可以预想到更复杂的图像分析。例如，对象跟踪方法可以被用来识别前景移动的物体并表征它们的运动，这对于理解何时这样的物体可以进入或退出场景会是有用的，和/或针对模糊度和锐度评估提供聚集区域。作为另一个示例，基于机器学习的图像理解方法也可以提供有帮助的图像分析，诸如在场景分类的情况中。在一种示例中，如果部分视频被分类为室内，而其余的部分被分类为户外，则分类可以添加到修整确定。特别地，如果CS图像被分类为室内，则一些实施例可以仅仅保持非CS帧的室内部分(例如，帧或者连续的段)。

更复杂的图像分析的另一个示例是面部和/或身份检测，包括感情或者表情检测。在一个样本示例中，CS图像可以包含笑脸，而大部分后捕获序列示出悲伤或者厌恶的表情。在这种情况下，一些实施例可以修整包含悲伤或者厌恶的表情的序列或帧。

基于声音/音频的修整

在一些实施例中，音频可以被用来帮助通知修整或者计分决定。在一个实施例中，如果言语被检测到，关联的帧不以中断言语的方式被修整或者消除。在其他实施例中，智能言语识别可以用来确定言语的相关度，其可以用来影响修整或者计分确定。在许多实施例中其他类型的声音也是有用的。例如，诸如欢呼的人群或者尖锐的撞击之类的声音可以指示对一个或多个关联帧的重要性。因为人群通常在大型体育比赛之后欢呼，因此欢呼声可以用来指示大型比赛结束的位置。同样，大的撞击或者其他像爆炸的响亮的声音可能对应于受关注的事物，诸如烟花爆炸。因此，一些实施例可以保持与这些声音相关联的帧或者可以对这些帧计分，因此它们更有可能被保持。

基于其他元数据的修整

在许多实施例中，各种其他有用的元数据可以被附连到图像/帧。元数据可以从例如摄像机传感器、设备中的其他传感器和/或设备中的处理单元被获得或者计算出。一般地，可用的数据可以从已知的设备性能(例如，一天的时间、位置)或者在图像捕获期间在设备上运行的算法(例如，视频稳像或者稳定性估计)中得到。在一个实施例中，Apple硬件被利用并且Apple平台提供用于视频稳像数据以及场景稳定性估计两者的程序接口。在一些实施例中，视频稳像数据可以用于代替图像配准或者传感器运动数据。另外，已知的用于估计场景稳定性的技术可以提供与存在多少对象动动有关的附加的信息。这可以用来影响修整和计分确定，并且特别地用来改进垃圾指标实施例。

在一些实施例中，在系统中表达或观察到的用户偏好、设置以及历史日志可以用作对修整和计分决定的进一步辅助。例如，如果用户的日历指示7AM的航班，则在7：30捕获的图片可能是在飞机中并且可以被相应地修整(即，飞机的内部相对于更亮的窗景)。

其他背景数据

本公开的一些实施例可以预想到通过诸如因特网之类的网络可用的背景数据的使用。例如，通过使用外部数据，GPS位置可以被转换为地点，诸如餐厅、球场、或者剧院。与位置的身份有关的实质性信息可以有助于修整和计分决定，例如，小的飞行的白色物体几乎确定是与棒球场馆有关。相同的有用性对于个人身份以及任何可以被获得以丰富局部数据的背景(诸如GPS、姓名、预约、联系卡信息等)同样成立。

使用计分

以上的讨论已经引用了修整或者删除以及对帧计分以用于与处置有关的后续决定。而通过下面提供的示例，本领域技术人员将熟悉计分系统的使用。在一些实施例中，基于不同因素，每一帧可以获得一个或若干分数。然后诸如序列之类的一组帧可以通过相对计分的评估而被比较。评估可以导致依赖于如何利用分数来寻找更相关的帧和/或不那么相关的帧。另外，计分提供了分析的深度(例如，为什么某一帧好或者差)，这允许要被确定的帧针对特定的目的的相关性。例如，计分分析可以确定同一帧对于相连的视频增强图像是差的，但是对于延时图像是好的。

增强的图像

如上所述，本公开的许多实施例预想到增强图像的创建。以一种形式，增强的图像可以是简短的视频循环，其将所有未被修整的图像数据部分连结在一起。还存在这种形式的变化，通过高亮CS帧来呈现该变化，可以通过原义上的高亮(例如，边框、图像效果、尺寸等)和/或通过扩展呈现的时间(例如，呈现多个完全相同的CS帧来延长CS帧的呈现)两者来进行。另外，本公开的变化的实施例设想许多更多类型的增强的图像，它们在以下被列出：

仅仅视频循环所保持的图像数据部分的一部分。

当播放头接近CS图像时，减慢循环视频，并且然后当播放头变得离CS图像较远时加速循环视频。

编辑帧，使得增强的图像的一部分示出运动而另一部分不示出运动(例如，我们仅仅看到投手移动的棒球比赛，或者除了从烟囱冒出的烟以外不运动的房屋)。

改变一些帧的播放时间而不改变其他帧的播放时间。

文件类型和使用

本文讨论的实施例可以以各种格式来实施，所述各种格式包括静态图像和视频格式。在一些实施例中，增强的图像可以被维持为一组文件，其可以包括一个或多个图像文件(例如，RAW、JPEG、TIFF等)以及一个或多个视频文件(例如，H.264、MPEG等)。在一些实施例中，增强的图像被存储为单个图像文件以及通过例如元数据或者数据库关联在一起的单个视频文件。在这些实施例中的一个或多个实施例中，图像文件可以是CS图像，而视频文件可以是被修整的图像序列。在其他实施例中，该增强的图像可以被存储为一系列关联的静态图像，并且可以通过快速地过渡连续的静态图像来播放视频(例如，每秒15帧或者更多帧)。在其他实施例中，增强的图像可以被存储为单个静态图像(例如，CS图像)和两个或更多个相关联的视频文件，例如，一个或多个用于预捕获时间段的视频文件以及一个或多个用于后捕获时间段的视频文件。在这些实施例中，更多的灵活性被提供用于回放选择，诸如仅播放预捕获视频或者后捕获视频。在一些实施例中，视频和静态图像文件被保持为资源库的一部分。资源库可以是完全独立的或者与应用或者框架(例如，操作系统的一部分)相关联。

用户可以通过利用用户接口来激活图像播放来欣赏增强的图像。例如，适合的用户接口将允许用户观看CS图像或者视频或两者。在一个实施例中，用户通过在触摸接口上从显示的列表或者显示的图像组中选择静态图像来显示该静态图像。一旦静态图像被显示，相关联的增强(例如，视频)可以通过用户做出的另一个接口动作而被观看。例如，用户可以通过在触摸接口上的按压和保持姿势来播放增强的特征，其中在静态图像上的单个手指触摸被保持超过阈值时间。在其他实施例中，不同的姿势可以用来激活增强的特征。例如，可以用一种姿势类型(例如，单个手指触摸)激活静态图像，并且增强的显示可以通过不同的姿势(例如，多手指触摸)被激活。当然可以使用任何已知的姿势，诸如滑刷、捏夹等。

在一些实施例中，主机系统通过显示静态图像并且然后当视频应当被播放时(例如，接收用户提示之后)通过使用静态图像和视频或多个视频之间的关联来搜索视频文件(或多个文件)，来提供静态图像和视频。例如，当从静态图像到相关联的增强的特征视频过渡时，主机系统可以：寻找和加载与该静态图像对应的视频；创建从静态图像到视频的第一帧的过渡；显示该过渡；播放该视频；创建从最后的视频帧回到静态图像的过渡；显示该过渡；以及再次显示该静态图像。在一些实施例中，过渡可以被提前创建，并且在其他实施例中它们可以在运行时被创建。在具有低帧率播放的一些实施例中，帧模糊可以用来改进观看体验。

可以理解的是上述描述意图是说明性的，而不是限制性的。材料已经被呈现以使得任何本领域技术人员能够制造和使用所要求的本发明，并且在特别实施例的背景下被提供，本发明的变化对于本领域普通技术人员而言将是容易显而易见的(例如，许多公开的实施例可以彼此组合起来被使用)。另外，将理解的是，本文所识别的一些操作可以以不同次序来执行。因此本发明的范围应当由所附的权利要求连同这样的权利要求有资格要求的等价物的完全范围来确定。在所附的权利要求中，术语“包括including”以及“在其中inwhich”被用作相应的术语“包括comprising”和“其中wherein”的简明英语等价物。

Claims

1.一种产生增强的图像的方法，所述方法包括：

捕获第一多个图像，其中所述第一多个图像包括：

快照图像，其中响应于通过用户接口接收到快照指示而捕获所述快照图像；

预捕获图像序列，其中所述预捕获图像序列包括在捕获所述快照图像之前捕获的多个图像，并且其中在捕获所述预捕获图像序列的多个图像中的至少一个之后接收所述快照指示；和

后捕获图像序列，其中所述后捕获图像序列包括在捕获所述快照图像之后捕获的多个图像；

为所述第一多个图像中的每一个图像确定速率或加速度；

根据所述快照图像的速率或加速度设置用于速率或加速度的阈值；和

基于所述预捕获图像序列的速率或加速度与用于速率或加速度的阈值的比较，从所述预捕获图像序列中识别要修剪的第一图像子集；

基于所述后捕获图像序列的速率或加速度与用于速率或加速度的阈值的比较，从所述后捕获图像序列中识别要修剪的第二图像子集；和

标记并存储要修剪的第一图像子集和要修剪的第二图像子集；

创建增强的图像，所述增强的图像包招所述快照图像、所述预捕获图像序列中不包括要修剪的第一图像子集的第三图像子集和所述后捕获图像序列中不包括要修剪的第二图像子集的第四图像子集；

其中，基于所述预捕获图像序列和所述后捕获图像序列中的每一个相对于所述快照图像的感测到的运动的表征来对所述阈值进行加权。

2.如权利要求1所述的方法，其中所述第三图像子集包括连续图像集，所述连续图像集以所述预捕获图像序列中的图像开始且以紧接在所述快照图像之前捕获的图像结束。

3.如权利要求1所述的方法，其中所述第四图像子集包括连续图像集，其以紧接在所述快照图像之后捕获的图像开始且以所述后捕获图像序列中的图像结束。

4.如权利要求1所述的方法，还包括确定所述第一多个图像中的图像的运动方向是否与所述快照图像的运动方向一致。

5.一种用于产生增强的图像的装置，包括：

用于捕获第一多个图像的部件，其中所述第一多个图像包括：

用于为所述第一多个图像中的每一个图像确定速率或加速度的部件；

用于根据所述快照图像的速率或加速度设置用于速率或加速度的阈值的部件；和

用于基于所述预捕获图像序列的速率或加速度与用于速率或加速度的阈值的比较，从所述预捕获图像序列中识别要修剪的第一图像子集的部件；

用于基于所述后捕获图像序列的速率或加速度与用于速率或加速度的阈值的比较，从所述后捕获图像序列中识别要修剪的第二图像子集的部件；和

用于标记并存储要修剪的第一图像子集和要修剪的第二图像子集的部件；

用于创建增强的图像的部件，所述增强的图像包招所述快照图像、所述预捕获图像序列中不包括要修剪的第一图像子集的第三图像子集和所述后捕获图像序列中不包括要修剪的第二图像子集的第四图像子集；

6.如权利要求5所述的装置，其中所述第三图像子集包括连续图像集，所述连续图像集以所述预捕获图像序列中的图像开始且以紧接在所述快照图像之前捕获的图像结束。

7.如权利要求5所述的装置，其中所述第四图像子集包括连续图像集，其以紧接在所述快照图像之后捕获的图像开始且以所述后捕获图像序列中的图像结束。

8.如权利要求5所述的装置，其中为所述第一多个图像中的至少一个图像确定的速率或加速度是从加速度计或从陀螺仪获得的。

9.如权利要求5所述的装置，还包括用于确定所述第一多个图像中的图像的运动方向是否与所述快照图像的运动方向一致的部件。

10.一种用于产生增强的图像的系统，所述系统包括：

一个或多个CPU；

一个或多个摄像机，所述一个或多个摄像机用于捕获图像数据的档案，所述图像数据的档案包括被分段成预捕获图像序列、快照以及后捕获图像序列的多个图像帧；

用于存储用于所述一个或多个CPU的程序指令的存储器，其中所述指令在被执行时使得所述一个或多个CPU执行以下操作：

捕获第一多个图像，其中所述第一多个图像包括：

为所述第一多个图像中的每一个图像确定速率或加速度；

创建增强的图像，所述增强的图像包括所述快照图像、所述预捕获图像序列中不包括要修剪的第一图像子集的第三图像子集和所述后捕获图像序列中不包括要修剪的第二图像子集的第四图像子集；

11.如权利要求10所述的系统，其中所述第三图像子集包括连续图像集，所述连续图像集以所述预捕获图像序列中的图像开始且以紧接在所述快照图像之前捕获的图像结束。

12.如权利要求10所述的系统，其中所述第四图像子集包括连续图像集，其以紧接在所述快照图像之后捕获的图像开始且以所述后捕获图像序列中的图像结束。

13.如权利要求10所述的系统，其中为所述第一多个图像中的至少一个图像确定的速率或加速度是从加速度计或从陀螺仪获得的。

14.如权利要求10所述的系统，其中所述指令在被执行时还使得所述一个或多个CPU执行以下操作：确定所述第一多个图像中的图像的运动方向是否与所述快照图像的运动方向一致。

15.一种计算机可读存储介质，其上存储有指令，当所述指令被执行时使得处理器执行如权利要求1-4中任一项所述的方法。