CN112087574A

CN112087574A - 增强的图像捕获

Info

Publication number: CN112087574A
Application number: CN202010816682.9A
Authority: CN
Inventors: 多依娜·I·彼得雷斯库; 托马斯·T·莱; 斯蒂文·R·皮特里; 比尔·瑞安; 斯尼格达·辛哈; 杰弗瑞·S·凡霍夫
Original assignee: Google Technology Holdings LLC
Current assignee: Google Technology Holdings LLC
Priority date: 2014-05-21
Filing date: 2015-03-30
Publication date: 2020-12-15
Anticipated expiration: 2035-03-30
Also published as: CN112087574B; US9729784B2; US20150341549A1; CN106464803B; WO2015179023A1; CN106464803A; EP3146707A1

Abstract

本公开涉及增强的图像捕获。公开了提供在捕获命令被接收(例如，在“快门”按钮被按下时)的瞬间的几秒钟内拍摄的“最优”图片的技术。在一些情景中，若干静态图像被自动地(也即，无需用户输入)捕获。这些图像被比较以找到“最优”图像，所述“最优”图像被呈现给摄影师以供考虑。视频也被自动捕获且被分析以判断在捕获命令的时间附近是否存在动作场景或其他运动内容。如果分析揭露任何感兴趣的东西，则视频剪辑被呈现给摄影师。视频剪辑可以被裁剪以匹配静态捕获场景且移除暂态的部分。基于运动分析和像素数据分析，更高精度的水平线检测可以被提供。

Description

增强的图像捕获

本申请是分案申请，原案的申请号是201580025007.1，申请日是2015年3月30日，发明名称是“增强的图像捕获”。

相关申请的交叉引用

本申请要求2014年5月21日提交的美国临时专利申请62/001,327的优先权，其全部内容在此通过引用并入。

本申请涉及同日提交的美国专利申请(Motorola案卷号CS42367,CS42701、CS42702、CS42704和CS42741)。

技术领域

本公开总体上涉及静态图像和视频捕获，以及更具体地，涉及数字图像处理。

背景技术

平均来说，人们由于不满意，丢弃大量他们拍摄的照片。在很多情况下，这是由于在图像捕获的瞬间主体在眨眼、移动(也即，太模糊)、或未微笑。在另外的情况中，摄影师在捕获瞬间无意地移动了图像捕获设备(例如，由于不稳定的手或者由于设备的无意识旋转)。一些图片被丢弃是因为图像捕获设置不合适(例如，设置未适配于暗光场景)。

附图说明

尽管附加权利要求具体地提出本技术的特征，这些技术与它们的目标和优点一起，可以从下述具体实施方式结合附图中被最好地理解，其中附图：

图1A是本技术可以被实践的典型环境的概述。

图1B是支持本技术中的某些技术的典型网络的概述。

图2是用于选择和呈现所捕获的“最优”静态图像的典型方法的流程图。

图3是用于捕获“感兴趣的”视频的典型方法的流程图。

图4是用于选择所捕获的“最优”静态图像和用于捕获“感兴趣的”视频的典型方法的流程图。

图5是用于辅助图像捕获设备的远程服务器的典型方法的流程图。

图6是用于通知用户“更优”的静态图像或“感兴趣”的视频可用的典型方法的流程图。

图7是用于在所捕获的图像中检测水平线且随后使用所检测的水平线的典型方法的流程图；以及

图8是示出典型图像捕获设备或服务器的各个组件的原理图。

具体实施方式

转向附图，其中，相似的附图标记指的是相似的元件，本公开的技术被图示为在合适的环境实现。下文的描述基于权利要求的实施例，且不应考虑到未在本文中明确描述的替选实施例而被理解为限制权利要求。

发明人相信摄影师除了得到可能的最优照片之外，想要多于一张照片以捕获该瞬间，且在一些情况中，想要与静态图片相关联的几秒钟的视频。这随后应该被完成，无需摄影师花费时间在静态捕获模式和视频捕获模式之间切换。

本公开的技术的方面提供了在捕获命令被接收的瞬间(例如，在“快门”按钮被按下时)的几秒钟内拍摄的“最优”的图片。此外，在同样的时刻附近，若干秒的视频被捕获，且对用户可获取。更特别地，在一些实施例中，若干静态的图像被自动地(也即，无需用户输入)捕获。这些图像被比较以找到“最优”的图片，“最优”的图片被呈现给摄影师供考虑。视频也被自动地捕获且被分析以判断在捕获命令的时刻附近是否存在动作场景或者其他的运动内容。如果分析揭露任何感兴趣的事情，随后，视频剪辑被呈现给摄影师。视频剪辑可以被裁剪以匹配静态捕获场景，且移除暂态的部分。在进一步的实施例中，通过增强曝光控制，更优的暗光图片被提供。基于运动分析，更高精度的水平线检测可以被提供。

为了更详细的分析，首先转向图1A。在示例环境100中，摄影师102(在本讨论中有时也被称作“用户”)使用他的相机104以拍摄“场景”106的静态图像。在这个示例中，摄影师102想拍摄一张捕获了他的朋友108的快照。

摄影师102实际上看到的视野被描述为110，在图1A的下半部被放大。特别地，当摄影师102按下“捕获”按钮(由于历史的原因也被称为“快门”)时，相机104捕获图像，且将捕获的图像显示在取景器显示器112中。到此为止，对曾经用智能电话或者用具有大的取景器显示器112的相机拍摄照片的任何人而言，这应该非常熟悉。然而，在图1A的示例中，相机104也向摄影师102显示“通知图标”114。尽管支持该图标114的详细的功能在下文被详尽地讨论，简而言之，图标114告诉摄影师102相机104相信或者它捕获到一张比在取景器显示器112中显示的“更优”的静态图像，或者它已捕获到摄影师102可能感兴趣的视频。

图1B介绍网络116(例如，互联网)和远程服务器118。下文的讨论示出它们可以怎样被使用以详细叙述图1A的示例情景。图1B也视觉地证明“相机”104不需要实际上是专用的相机这一点：它可以是任意图像捕获设备，包括摄像机、平板式计算机、智能电话等。为了清晰的原因，本讨论中继续将图像捕获设备104称为“相机”。

图2呈现了用于增强静态图像捕获的特定的技术的方法。在步骤200，相机104捕获若干静态图像。作为示例，考虑摄影师102将相机104置于“取景器”模式。在这种模式下，相机的取景器112显示被相机104“看到”的图像。摄影师102可以明确地命令相机104进入该模式，或相机104能够在其确定该模式被期望时(例如，通过监视相机的当前位置和观察摄影师102的行为)自动进入该模式。

在任何情况，相机104自动地(也即，尽管仍然在取景器模式且不响应于来自摄影师102的明确命令)捕获若干静态图像，例如在几秒的时间段内每秒钟五张。这些捕获的静态图像被相机104存储。

由于拍摄这么多图像，存储的储存器通常成为问题。在一些实施例中，图像存储在循环缓冲区中(可选择的步骤，202)，循环缓冲区保存静态图像比如十秒钟。因为循环缓冲区的容量有限，缓冲区可以连续地刷新，最新的照片替代缓冲区中最早的图像。因此，缓冲区存储若干捕获的静态图像，时间范围从最新的图像到最早的，缓冲区中的图像的数量取决于缓冲区的大小。在一些实施例中，选择过程(见下文对步骤208的讨论)在包含在循环缓冲区中的图像集合上被连续地执行。不太好的图像(被下文讨论的技术判断)被丢弃，进一步在循环缓冲区中释放空间，且仅保留在过去比如三秒钟内捕获的“最优”的图像。即使在这种情况中，与丢弃的图像相关联的元数据被保留以用于审查。

注意在步骤200中图像的捕获率可以是可被摄影师102配置的，或可以取决于对摄影师的先前的行为的分析，或甚至取决于对所捕获的图像本身的分析。例如，如果一个图像与另外一个的比较指示所捕获场景中的显著量的移动，则相机104可能聚焦在运动事件，且这应该增加它的捕获率。捕获率也可以取决于对相机104可用的资源。因此，如果相机的电池电量低，则它可以降低捕获率以节约能源。在极端的情况下，当资源紧缺时，自动捕获的技术可以被关闭。

在步骤204(通常地，当相机104继续自动捕获静态图像时)，摄影师102向相机104给出捕获命令。如前述，这可以由摄影师102按下相机104上的快门按钮造成。(通常，捕获命令可以是用于捕获一个静态图像的命令或用于捕获视频的命令。)

(为了本讨论，当相机104接收到捕获命令时，其暂时退出取景器模式且进入“捕获”模式。一旦所请求的静态图像(或视频，在下文被讨论)被捕获到，相机104通常重新进入取景器模式且继续按照步骤200自动捕获图像。)

与步骤200中的技术不相似，传统的相机停留在取景器模式而不捕获图像，直至它们接收到捕获命令。它们随后捕获当前图像且存储它。然而，按照本公开动作的相机104即使当它依然在取景器模式时，已经正在捕获和存储图像(步骤200和202)。思考本技术的一个方法是认为步骤204的捕获命令根本不是命令，而是由摄影师102给予相机104的指示，指示摄影师102对他在取景器显示器112中正在观看的某些东西感兴趣。相机104随后相应地动作(也即，其根据图2的流程图的剩余部分行动)。

步骤206在下文结合对步骤214的讨论被讨论。

在步骤208，相机104审查它已捕获的图像(其可能包括略微早于或略微晚于捕获命令被接收时被捕获的图像)且选择“最优”的一个(或在一些实施例中，“最优”的若干个)。(在一些实施例中，该选择过程在被部分处理的、或“原始的”图像上执行)。在该分析过程中，很多不同的因素可以被审查。如前述，捕获命令可以被考虑为摄影师102对他看到的东西感兴趣的指示。因此，在捕获命令和特定的图像被捕获之间的非常短的时间间隔意味着该特定的图像有可能是摄影师102想要记录的东西，且因此，该时间间隔是确定哪个图像是“最优”的因素。

不同的实施例在决定捕获的图像中哪个是“最优”的时使用不同的信息集合。除与摄影师的捕获命令的时间接近度之外，一些实施例使用运动传感器数据(来自相机104上的加速度计、陀螺仪、定向、或GPS接收器)(例如，当该图像被捕获的时候相机104是否正在移动？)、面部检测信息(面部检测、姿势、笑容和眨眼检测)(也即，容易检测的面部通常导致好的快照)、像素帧统计信息(例如，亮度的统计信息：梯度平均，图像间差别)、活动检测、来自相机104上其他传感器的数据、以及场景分析。有时可用的进一步的信息可以包括摄影师102声明的偏好、摄影师102的过去的行为(例如，该摄影师102倾向于保存具有显著面部图像的图片)、以及隐私设置(例如，不要保存具有不在相机104的联系人列表中的人的显著的面部的照片)。同样通常可用的是相机104元数据和相机状态信息。所有这样的数据可以被引入相机104且作为与所捕获的图像相关联的元数据被存储。

这些元数据也可以包括所捕获的图像的降低分辨率的版本，其可以被用于在所捕获的场景内运动检测。运动检测提供用于“最优”图片选择(和所捕获的视频的分析，见下文讨论)的信息，以及提高图像捕获体验的其他特征。

统计信息和运动检测结果也可以被曝光流程使用以通过例如改变曝光参数和闪光灯，提高在暗光下捕获的图像的质量。当在暗光下存在运动且来自相机104的闪光灯可用时，闪光灯可以被控制，使得多个图像可以在恰当的曝光下被捕获且随后被分析以选择最优曝光。

无论捕获的“最优”图像被怎样选择，在步骤210中最优图像被呈现给摄影师102。存在若干可能方法来做这样做。很多实施例旨在从摄影师的视角完全“显然”，也即摄影师102简单地“按下(snap)”快门且被呈现被选择的最优图像，无论该图像是不是在快门命令时刻实际捕获的图像。

再次考虑图1A的情景。当摄影师102按下快门按钮时(步骤204)，取景器显示器112如图1A所示。清晰地，摄影师102想要他的朋友108的面部的图片。系统可以审查从比如捕获命令被接收的一秒钟之前到一秒钟之后所捕获的图像、分析它们、且选择最优的一个。此处，这可以是聚焦的、其中朋友108正看着相机104、眼睛睁开等的图像。当摄影师102按下快门按钮时，最优图像被呈现给摄影师102，即使在按快门的确切时刻捕获的图像并不是这么好。

略微复杂些的用户接口向摄影师102呈现快门命令被接收时捕获的图像(如传统的一样)且随后，如果该图像不是最优可用的，向摄影师102呈现“更优”的图像可用的指示(图1A中的114)供摄影师考虑。再次考虑图1A中的情景，可能他的朋友108在捕获命令的时刻眨眼。“眨眼的”图像被呈现给摄影师102，但指示114被点亮以示出另外的、可能更优的图像可用供摄影师审查。

用户接口上的其他变化是可能的。在给定情况下使用哪个的选择可以基于摄影师102做出的设置、基于对摄影师的过去行为的分析(例如，他是否是“快照游客”，或他是否表现得更像有经验的摄影师？)、且基于捕获的场景的分析。

在可选择的步骤212，如有必要，所选择的图像被进一步处理，且被复制到更永久的储存器区域。

在一些实施例中，与所捕获的图像相关联的元数据(可能包括摄影师102最后对图像做了什么)被发送(步骤214)到远程服务器设备(图1B的118)。远程服务器118的工作在下文关于图5被更详细地讨论，但是简要地，远程服务器118分析潜在地来自多个图像捕获设备104的信息，寻找趋势和“最优实践”。其随后封装其学习到的东西，且向相机104发送推荐(步骤206)。当相机104在步骤208中选择图像时，自由地使用这些推荐。

图3呈现用于增强图像捕获的其他方法，这次是用于增强视频图像捕获。图3的方法可以独立于或结合于图2的方法被实行。

在步骤300，当相机104在取景器模式时(也即，如前文所述，当相机104未接收到用于捕获视频的明确的指令时)，相机104捕获视频。正如静态图片捕获，视频捕获的参数可以被改变以反映相机104上可用的资源(例如，电池、存储的储存器)。

在一些实施例中，所捕获的视频在此时仅是“原始的”、未处理的图像的时间序列。(如后面有必要，这些原始图像可以随后被进一步处理：见下文对步骤312的讨论)。前述针对静态图像的储存器问题针对视频被加剧，因此，再一次，循环缓冲区被推荐用于将视频按照其被捕获的样子存储(步骤302)。最近的视频图像(也被称为“帧”)替代最早的，使得在任何时刻，循环缓冲区具有例如最近的二十秒的所捕获的视频。

可选择地，捕获命令在步骤304被接收。如前述，其不被看作实际命令，而是作为摄影师102给予相机104的指示，指示摄影师102对他在取景器显示器112中看到的一些东西感兴趣。

无论捕获命令是否已被接收，所捕获的视频被连续地分析(步骤308)以判断它是否“是感兴趣的”。尽管摄影师102能够通过按下快门指示他的兴趣，另外于(或替代于)此，其他的信息能够被使用，诸如活动检测、帧内和帧间运动、以及面部检测。作为示例，活动的突然冲击与清晰可辨认的面部的结合可以指示感兴趣的场景。正如静态图像捕获，摄影师102的偏好、过去的行为、以及隐私设置等也能够以机器学习的意义被使用以了解该摄影师102认为什么是感兴趣的。

如果所捕获的视频的片段(也被称为“剪辑”)已被发现潜在地是感兴趣的(例如，如果视频剪辑的“感兴趣得分”超过设定阈值)，则在步骤308，这被通知给摄影师102。摄影师102可以随后审查所指示的视频剪辑以判断是否他也认为它是感兴趣的。如果是的，则视频剪辑如必要地被进一步处理(例如，通过应用视频压缩技术)且被复制到长期储存器(步骤312)。

作为改进，感兴趣的的视频剪辑的定界可以使用前述的相同的分析技术以及应用运动传感器数据而被确定。作为示例，剪辑的起始点可以被设定为略早于感兴趣的事情开始出现。

同样正如静态图像实施例，元数据可以被发送到远程服务器118(步骤314)。基于被远程服务器118执行的分析的推荐和改进的操作参数可以被接收(步骤306)且被用于步骤308的分析。

注意从前文描述中，在一些实施例和在一些情景中，相机104捕获和呈现视频而不离开取景器模式。也即，相机104无需曾接收任意要求这么做的明确的命令而查看场景、定界感兴趣的视频剪辑、且将这些视频剪辑通知摄影师102。在其他的实施例中，这些视频捕获和分析技术可以明确地被摄影师102调用或禁用。

如前文在图3的讨论的介绍中提及的，图2的静态图像捕获增强技术可以与图3的视频图像捕获增强技术合并。图4与一些感兴趣的改进一起呈现这样的合并。

再次考虑图1的场景。相机104在取景器模式，捕获静态图像(步骤400，如按照图2的步骤200)和视频(步骤408，如图3的步骤300)两者。在合适的条件下，系统呈现所捕获的最优静态图像(步骤406)和感兴趣的视频(步骤410)两者以供摄影师考虑(可能使用步骤402的捕获命令的时刻以选择和分析所捕获的图像和帧)。

即使静态图像和视频帧能够在同时被捕获，图4的改进将图像稳定技术应用到所捕获的视频但不应用到所捕获的静态图像(步骤412)。与为静态图像和视频两者做出同样处理的任意已知的“妥协”系统相比，这提供了更优的视频和更优的静态图像二者。

在另一个改进中，最优静态图像的选择(步骤406)可以部分地取决于对视频的分析(步骤410)且反之亦然。考虑高运动的体育场景。因为视频能最好地示出动作，最好从分析视频确定最重要的场景。由此，最感兴趣的瞬间的时刻被确定。该确定可以改变最优静态图像的选择过程。因此，在当运动员踢出胜利的射门得分时的瞬间拍摄的静态图像可以被选择为最优图像，即使其他的因素可能需要被妥协(例如，在该图像中运动员的脸不清晰可见)。在其他方面，视频剪辑可以仅因为其包括极好的人面部视角而被确定为是感兴趣的，即使此人在视频中未作任何不寻常的事情。

特殊地，在静态图像选择中使用的所有元数据能够与在视频分析和定界中使用的所有元数据结合使用。结合的元数据集合能够随后被用于选择最优静态图像和确定视频剪辑是否是感兴趣的两者。

图4的方法也能够包括在远程服务器118的使用(步骤404和414)中的改进。这些改进在下文参照图5被讨论。

远程服务器118的操作的方法在图5中被图示。如前文所讨论，服务器118接收与静态图像选择相关联的元数据(步骤500；也见图2的步骤214和图4的步骤414)。同样的服务器118也可以接收与分析视频相关联的元数据以判断是否视频是感兴趣的(步骤504；也见图3的步骤314和图4的步骤414)。服务器118能够分别地分析这两个数据集合(步骤508)且向不同的图像捕获设备104提供静态图像选择推荐(步骤510)和视频分析推荐(步骤510)。

然而，在一些实施例中，远程服务器118可以做更多。首先，除分析元数据之外，如果图像捕获设备104使该数据内容对远程服务器118可用(步骤502和506)，其可以进一步分析数据本身(也即，实际捕获的静态图像和视频)。利用元数据和捕获的内容，服务器118能够执行与由图像捕获设备104它们自己在本地执行的同样类型的选择和分析(见图2的步骤208；图3的步骤308和310；和图4的步骤406和410)。不是简单地提供用于事后评审本地设备104的手段，而是服务器118能够比较它自己的选择和感兴趣得分与那些在本地生成的，且因此改进其技术以更好地匹配在图像捕获设备104的通常群体(general population)中的那些。

进一步，图像捕获设备104能够告诉远程服务器118摄影师102刚刚对选中的静态图像和认为是感兴趣的视频剪辑做了什么(步骤502和506)。再次，服务器118能够以此来进一步提高它的推荐模型。作为示例，如果摄影师102经常频繁地丢弃被前述技术选中为最优的静态图像，则显然这样的技术需要被提高。服务器118可以能够比较实际被摄影师102保留的图像和被系统选中的图像，且通过在大量群体集合中分析，更好地学习怎样选择“最优”图像。

更进一步，远程服务器118能够分析静态图像选择元数据(且，如果可用，静态图像本身和摄影师对静态图像的最终处置)与视频分析元数据(以及，如果可用，视频剪辑本身与摄影师对所捕获的视频的最终处置)一起。这相似于前述关于图4讨论的交叉授粉(cross-pollination)观念：也即，通过合并静态图像和视频的分析，服务器118能够进一步提高其针对选择静态图像和针对分析视频剪辑两者的推荐。此处可用的特定的方法论从模式分析和机器学习中易知。

总之，如果远程服务器118被给予对关于多个图像捕获设备104的选择和分析的信息的访问，则从处理该信息，服务器118能够或者一般地、或者定制于特定的摄影师102和情景，提供更好的推荐。

图6呈现用于适用于当前讨论的技术的用户接口的方法。用户接口功能的多数已在前面被讨论，因此只有几点在此处被详细讨论。

在步骤600，相机104可选择地进入取景器模式，其中相机104显示它在取景器显示器112中看到的内容。如前文参考图2提到的，摄影师102可以明确地命令相机104进入该模式，或相机104能够在当它确定该模式被期望的时候自动地进入该模式。

在步骤602的第一实施例中，摄影师102按下快门键(也即，向相机104提交图像捕获命令)，相机104瞬间地进入图像捕获模式，在取景器显示器112显示捕获的图像，且随后重新进入取景器模式。在第二实施例中，摄影师将相机104置于另一个模式(例如，“相册”模式)，其中相机104显示已经捕获的图像，包括自动捕获的图像。

如前文所讨论，该显示的图片可以是直接响应于图像捕获命令而捕获的图像，也可以是通过上述技术选中的“更优”的图像。如果存在所捕获的图像优于所显示的那个，则这被通知给摄影师102(步骤604)。通知可以是视觉的(例如，通过图1A的图标114)、听觉的、或者甚至是触觉的。在一些情况中，通知是更优的图像本身的小的版本。如果摄影师102点击该小的版本，则完全的图像在取景器显示器112中被呈现以供他考虑。当相机104在相册模式时，通过以某种方式高亮它们，摄影师102能够被通知哪个图像“更优”，例如通过以明显的边界环绕它们或者首先示出它们。

同时，如果前述技术捕获了认为感兴趣的视频剪辑，不同的用户通知可以被发布。再一次，若干类型的通知是可能的，包括来自视频的小的定格(或甚至是视频本身的呈现)。

其他的用户接口是可能的。尽管前述用于选择静态图像和用于分析视频剪辑的技术相当复杂，它们允许非常简单的用户接口，在一些情况中，接口对摄影师102完全显然(例如，当摄影师102按下快门按钮时，仅示出所捕获的最优的静态图像)。更复杂的用户接口适合于更有经验的摄影师102。

图7呈现能够与任意前述技术一起使用的改进。第一图像(静止图像或视频的帧)在步骤700被捕获。可选择地，附加的图像在步骤702被捕获。

在步骤704，第一图像被分析(例如，寻找水平或竖直线)。同时，来自相机104的运动传感器数据被分析以尝试确定第一图像的水平线。

一旦水平线已被检测到，它可以被用作在选择其他图像时的输入，其他图像在接近于第一图像的时刻被捕获。作为示例，所检测的水平线可以显示当图像被捕获时相机104以怎样的水平被持有，且这可以是确定是否该图像优于另一个图像的因素。另外，当后期处理图像以针对无意识转动将其旋转到水平或以其它方式调整它们时，所检测的水平线可以被使用。

图8示出典型相机104或服务器118的主要组件。相机104可以是例如智能电话、平板电脑、个人计算机、电子书、或专用相机。服务器118可以是个人计算机、计算服务器、或计算服务器的协作组。

相机104或服务器118的中央处理单元(“CPU”)800包括一个或多个处理器(也即，微处理器、控制器等的任何)或处理器和存储器系统，其处理计算机可执行指令以控制设备104、118的操作。具体地，CPU 800支持前文讨论的、在图1到图7中示出的本公开的方面。设备104、118可以伴随结合处理和控制电路被实现的软件、硬件、固件、和固定逻辑电路的组合被实现，处理和控制电路通常在802被识别。尽管未示出，设备104、118可以包括在设备104、118内部耦合不同的组件的系统总线或数据转移系统。系统总线可以包括不同的总线结构的任意组合，诸如存储器总线或存储器控制器、外围总线、通用串行总线、以及处理器或利用任意不同的总线体系结构的局部总线。

相机104或服务器118也包括一个或多个启用数据储存器的存储器设备804(包括参考图2至图4描述的循环缓冲区)，其示例包括随机存取存储器，非易失性存储器(例如，只读存储器、闪存、可擦除可编程只读存储器、和电可擦除可编程只读存储器)、和磁盘储存器设备。磁盘储存器设备可以被实现为任意类型的磁性或者光学储存器设备，诸如硬盘驱动、可记录或可写入光盘(disc)、任意类型的数字通用光盘等。设备104、118也可以包括大容量储存器介质设备。

存储器系统804提供数据存储机制以存储设备数据812、其他类型的信息和数据、和不同的设备应用810。操作系统806可以在存储器804内部被维护为软件指令且被CPU800执行。设备应用810也可以包括设备管理器，例如任意形式的控制应用或软件应用。实用程序808可以包括信号处理和控制模块、相机104或服务器118的特定组件的本机代码、特定组件的硬件抽象层等。

相机104或服务器118也可以包括处理音频数据且控制音频系统816(其可以包括例如扬声器)的音频处理系统814。视觉处理系统818处理图形命令和视觉数据且控制显示系统820，显示系统820可以包括例如显示屏幕112。音频系统816和显示系统820可以包括处理、显示、或以其它方式显现音频、视频、显示、或图像数据的任意设备。显示数据和音频信号可以经由被媒体数据端口822表示的射频链路、S-video链路、高清晰多媒体接口(High-Definition Multimedia Interface)、复合视频链路、分量视频链路、数字视频接口、模拟音频连接、或其它类似的通信链路被通信到音频组件或显示组件。在一些实施方式中，音频系统816和显示系统820是在设备104、118外部的组件。替选地(例如，在蜂窝电话中)，这些系统816、820是设备104、118的集成的组件。

相机104或服务器118可以包括通信接口，通信接口包括启用有线或无线通信的通信收发器824。示例收发器824包括符合不同的电气和电子工程师协会(“IEEE”)802.15标准的无线个人区域网无线电、符合任意不同的IEEE 802.11标准的无线局域网无线电、符合第三代合作伙伴项目标准的无线广域网蜂窝无线电、符合不同的IEEE 802.16标准的无限城域网无线电、以及有限局域网以太收发器。

相机104或服务器118也可以包括一个或多个数据输入端口826，经由数据输入端口826任意类型的数据、媒体内容、或输入可以被接收，诸如用户可选输入(例如，从键盘、从触摸感应输入屏幕、或从另一个用户输入设备)、短信、音乐、电视内容、记录的视频内容、以及任意其他类型的从任意内容或数据源接收的音频、视频或图形数据。数据输入端口826可以包括通用串行总线端口、同轴电缆端口、以及其他串行或并行的针对闪存、储存器磁盘等的连接器(包括内部连接器)。这些数据输入端口826可以被用于耦合设备104、118到组件、外围、或诸如麦克风或相机的附件。

最后，相机104或服务器118可以包括任意数量的“其他传感器”828。这些传感器828可以包括例如加速度计、GPS接收器、指南针、磁场传感器等。

本讨论的剩余部分呈现可以在某些实施方式中使用的选择和流程的细节。尽管非常特定，这些细节被给予使得读者可以更全面地理解前文讨论的广泛概念。这些实施方式选择不旨在以任何方式限制要求的发明的范围。

很多技术可以被使用以评估静态图像，以选择“最优”的一个(图2的步骤208)。针对包括面部的图像，一个实施例基于锐度和曝光计算图像得分且为面部特征计算分离的得分。

首先，面部识别技术被应用于所捕获的图像以判断是否他们中很多包括面部。如果是的，则被捕获的场景被评估为“面部”场景。如果场景不是面部场景，则锐度/曝光得分被其本身使用以选择最优图像。另一方面，针对面部场景，如果可用于评估的图像(也即，合理地接近于捕获命令的时刻的所有被捕获的图像的集合)具有非常相似的锐度/曝光得分(例如，得分在特定于所使用的硬件的相似度阈值内相等)，则最优图像仅基于面部得分被选择。

对于面部场景，当图像集合在其锐度/曝光得分上具有显著差别时，则最优图像是具有最高的组合得分的那个，组合得分同时基于锐度/曝光得分和面部得分二者。组合得分可以是两个得分的总和或加权总和：

picture_score(i)＝mFEscore(i)+total_faces(i)

可以使用针对图像中所有像素的Sobel梯度测量的平均值和被分析的图像与前一刻的图像之间的平均像素差异，计算锐度/曝光得分。仅亮度数据被使用在这些计算中。帧梯度度量和帧差异度量按照下述被计算：

其中：

W＝图像宽度；

H＝图像高度；

Sobel_x＝利用Sobel Gx算子的图像的卷积结果：

以及

Sobel_x＝利用Sobel Gy算子的图像的卷积结果：

针对在在捕获瞬间附近的N个图像的循环图像缓冲区中的每个图像(i)，使用Sobel值及其最小值来计算锐度/曝光得分：

针对如果图像中所有像素值的平均值不在正常曝光范围内或如果聚焦状态指示图像未聚焦的任意图像，mFEscore被设置为0。可用的图像集合的锐度/曝光得分值随后被归一化到比如0到100的范围，以当面部场景被检测到时与面部得分结合使用。

当至少一个面部被检测到时，针对图像的面部得分被计算。对每个面部，得分由所检测的笑容得分、眼睛睁开得分、面部定向得分的加权总和构成。作为示例：

笑容：取值范围从1到100，针对大笑有大的取值，针对没有笑容有小的取值。

眼睛睁开：取值范围从1到100，针对大睁的眼睛有小的取值，针对闭上的眼睛(例如，眨眼)有大的取值。每个眼睛分别提供取值。分别的眨眼检测器也可以被使用。

面部定向(凝视(gaze))：从看向正面的0度到看向侧面的+/-45的角度。

流程使用面部检测引擎值且为每个面部参数创造归一化的得分，如下：

笑容得分：使用来自引擎的笑容值；随后如下所示，为N个可用图像的集合，归一化到1至100的范围：

眼睛睁开得分：使用眨眼检测器和连续帧之间眼睛变化参数，检测眨眼或半睁的眼睛的存在；当眨眼或半睁的眼睛被检测到时，图像得分为0。对于剩余的图像，使用双眼取值的平均值计算得分，且以相似于针对笑容而描述的方式，被归一化到该范围。在分析中的N个图像中眼睛睁开最大时，取得最大得分。

面部定向得分(凝视)：针对正向凝视使用最大得分，当面部向侧面看时减少得分。

对图像中的每个面部，面部得分作为加权总和被计算：

face_score＝α*smile+β*eyes+π*gaze

如果图像中存在多于一个面部，则所有面部得分的平均值或加权平均值可以被使用以为该图像计算总面部得分。用于计算总面部得分的权重可以关联于面部大小，使得更大的面部对总面部得分具有更高的得分贡献。在另一个实施例中，权重与通过位置或通过一些面部识别引擎确定的面部优先级相关。针对具有M个面部的图像i，总面部得分则可以被计算为：

如前文所讨论的，面部得分可以随后与锐度/曝光得分合并(如合适)，且具有最高得分的图像被选为“最优”图像。作为改进，在一些实施例中，选中的图像随后与“捕获的”图像对比(也即，在最接近捕获命令时刻的时刻捕获的图像)。如果这些图像太相似，则仅有的所捕获的图像被呈现给用户。这个考虑具有普遍适用性，因为研究已示出当选中的“最优”图像与捕获的图像的差别相当小时，摄影师不会更喜欢选中的“最优”图像。

正如选择“最优”图像，很多技术可以被应用于确定捕获的视频是否“是感兴趣的”。通常，视频分析流程实时运行，不断将视频帧标记为感兴趣的或非感兴趣的。另外，视频分析确定感兴趣的视频剪辑在哪里起始和结束。在视频分析中有用的一些量度包括感兴趣的区域、运动向量(“MV”)、设备运动、面部信息和帧统计信息。这些度量按照帧被计算且关联于帧。

在一些实施例中，设备运动检测流程合并来自陀螺仪、加速度计、和磁力计的数据以计算设备移动和设备位置，可能使用互补滤波器或卡尔曼(Kalman)滤波器。结果按照下述被分类：

NO_MOTION(无运动)指的是设备既未移动也未经历仅仅小水平的手抖；

INTENTIONAL_MOTION(有意运动)指的是设备已被有意识地移动(例如，摄影师在摇摄)；以及

UNINTENTIONAL_MOTION(无意运动)指的是设备经历了非旨在作为向图像捕获系统的输入的大的运动(例如，设备掉落、被拉出口袋等)。

通过比较计算的位置的连续值，设备在三维空间轴的运动被表征：

如果(所有3个轴的位置变化量<NO_MOTION_THRESHOLD(无运动阈值))

设备运动状态＝NO_MOTION

如果(一个轴的位置变化量<INTENTIONAL_MOTION_THRESHOLD(有意运动阈值)&&另外两个轴的位置变化量<NO_MOTION_THRESHOLD(无运动阈值)&&发生在帧序列中)

设备运动状态＝INTENTIONAL_MOTION

如果(任意轴的位置变化量>UNINTENTIONAL_MOTION_THRESHOLD(无意运动阈值))

设备运动状态＝UNINTENTIONAL_MOTION

设备运动状态随后关联于图像被存储。

与找到帧之间的(帧间)运动相对，运动估计找到在帧内部的(帧内)运动。基于块的运动估计方案使用绝对差异和(“SAD”)作为主要成本度量。其他实施例可以使用目标跟踪。通用运动估计方程包括：

s(x，y，l)，其中0≤x，y，≤N-1

其中

S(x,y,l)是指定像素定位的函数；

(l)＝候选帧

(k)＝参考帧；以及

(vx,vy)是关于(i,j)的运动向量位移。

运动估计过程将每个N×N的候选块与过去的参考帧相比较，且计算候选块的像素位移。在每个位移位置，SAD被计算。产生最小SAD值的位置代表有最低畸变的位置(基于SAD成本度量)。

一旦针对每个N×N块原始向量被计算，向量被滤波以获得帧内运动。在一个示例性方法中：

运动利用预测的运动向量被估计；

中值滤波器被应用到运动向量；

运动向量被附加地滤波，由于以下原因：

||MV||>静态运动阈值；或

||MV||>动态运动阈值；或

协同零SAD(Collocated zero SAD)>(所有块的)平均零SAD(mean zero SAD)；或

块SAD<大SAD阈值；或

亮度方差>低块活动(low-block-activity)阈值；

创建遮蔽区域(例如，在矩形帧中内切最大正菱形，随后在菱形中内切最大规则矩形(“内含矩形”))；以及

计算：

Diamond_Count＝num(菱形区域中的MV))/num(帧中的MV)；

以及

Inner_Rectangle_Count＝num(内含矩形中的MV))/num(菱形区域中的MV)

每个视频帧基于诸如帧内运动、亮度曝光值、设备运动、Sobel梯度得分和面部运动的量度，被表征为“感兴趣的”(或不感兴趣的)。这些量度被加权以说明每个量度的优先级。

内部帧运动：计算自Diamond_Count和Inner_Rectangle_Count率。

亮度曝光：计算自像素数据，且针对曝光过度或不足的图像，权重更少。

Sobel梯度得分：计算自像素数据，且针对远离每个帧的Sobel得分的时间平均值的Sobel得分，权重更少。

设备运动：使用设备运动状态，且针对UNINTENTIONAL_MOTION，权重更少。

面部运动：运动向量由针对每个面部所检测的位置被计算。针对每个面部的更大的运动向量，权重更少。

将这些放在一起：

如果motion_frame_score(运动帧得分)超过阈值，则帧被包括到“序列计算”中。序列计算计算具有感兴趣的信息的帧的数量的总和，且与序列得分阈值对比。如果序列得分超过阈值，则场景被标记为感兴趣的视频剪辑，且被永久存储(图3的步骤312)。

在视频剪辑被存储之前，起始和结束点被计算。基于设备运动，定界符的第一水平被应用。流程在视频中寻找设备被标记为NO_MOTION的片段且标记起始和结束点。作为二次核对，流程也在每个帧中检查帧内运动，且在片段内部标记没有相机运动的子片断以指示感兴趣的运动何时在视频中出现。具有感兴趣的帧内运动的第一帧是视频剪辑的新的起始，且视频中在捕获之后具有感兴趣的运动的最后一帧结束视频剪辑。在一些实施例中，剪辑被延展以在感兴趣的部分之前和之后捕获少量时间。

水平线检测(见图7和所附文本)处理图像帧和传感器数据以找到具有最平坦水平线的帧。如果没有图标包括0度(阈值范围内)的水平线，则图像被旋转和裁剪以创建具有水平的水平线的图像。竖直线也可以被用于检测水平线。

在一些实施例中，每个帧到来时，下述流程被连续执行。对每个图像：

将来自运动传感器的角度位置关联到图像；

在图像上应用高斯模糊滤波器，随后应用边缘检测滤波器(例如，使用Canny检测滤波器)；

应用图像处理以找到图像中的线段(例如，使用Hough线段变换)。对每个找到的线段：

关于设备的0度定向(即，水平的)计算线段的角度；以及

保留这样的线段：

在一些角度阈值内的；以及

在一些长度阈值内的；

找到最长的线段(被称为“最大线段”)、最大线段的起始和结束的位置、以及最大线段的角度。(用极坐标和笛卡尔坐标以及用线性方程存储线段信息很重要)。

在流程的这个位置，每个图像包括对应于以下参数的元数据：最大线段的长度、最大线段相对于水平线的角度、最大线段的线性方程、以及设备定向(也即，设备相对于来自运动传感器的图像平面的角度)。

对每个图像系列，通过考虑，移除绝对差异(设备定向角度减去最大线段角度)大于阈值的图像。这允许物理的运动传感器信息结合像素信息一起被使用以确定该角度。

为每个图像找到“感兴趣的区域”。为了做到这个，延伸图像中的最大线段到图像的两个边界。感兴趣的区域是以图像的右侧和左侧为边界的包括最大线段的最小矩形。

接下来通过找到在相关图像的感兴趣区域之间最大覆盖的区，寻找“参考区域”。这帮助验证每个最大线段实际上是同样的水平线，但是在不同的图像中以不同的角度被捕获。通过考虑移除最大线段落在参考区域之外的图像。

最后，对相关图像，选择在参考区域中的最大线段具有最接近0度定向的角度(也即，最接近水平的)的图像。以此作为检测的水平线。如果必要，也即，如果选中的图像的角度大于某阈值，则使用计算的角度旋转该图像并且裁剪并放大图像。

鉴于本讨论的原则可以被应用到很多可能的实施例，应认识到此处关于附图描述的实施例仅意味着示例性，且不应被理解成限制本权利要求的范围。因此，如此处描述的技术将所有这样的实施例看作在下述权利要求及其等价物的范围之内。

Claims

1.一种图像捕获设备上的方法，所述方法包括：

捕获多个静态图像；

从服务器接收对从多个静态图像的子集中进行选择的推荐；

部分地基于所接收的推荐，从所述多个静态图像的子集中选择最优静态图像；和

呈现所述最优静态图像。

2.根据权利要求1所述的方法，其中，捕获所述多个静态图像是响应于在接收到捕获命令的指示之前进入用于捕获所述多个静态图像的模式。

3.根据权利要求2所述的方法，还包括：响应于接收到所述捕获命令的指示，识别所述多个静态图像的子集，所述多个图像的子集在时间上接近所述捕获命令的指示的接收。

4.如权利要求1所述的方法，其中，所述选择还基于由所述图像捕获设备在所述多个静态图像中检测到的活动或面部。

5.根据权利要求1所述的方法，其中，所述选择还基于在捕获所述多个静态图像期间由所述图像捕获设备检测到的运动。

6.一种图像捕获设备，包括：

图像捕获系统；

显示器；和

处理系统，所述处理系统配置为使所述图像捕获设备：

使用所述图像捕获系统来捕获多个静态图像；

从服务器接收对从所述多个静态图像中进行选择的推荐；

部分地基于所接收的推荐，从所述多个静态图像中选择最优静态图像；和

使用所述显示器呈现所述最优静态图像。

7.一种图像捕获设备上的方法，所述方法包括：

捕获视频；

从服务器接收对分析所捕获的视频的推荐；

部分地基于所接收的推荐来分析所捕获的视频，以识别可能感兴趣的所捕获的视频的片段；和

呈现可能感兴趣的所捕获的视频的片段。

8.根据权利要求7所述的方法，其中，捕获所述视频是响应于在接收到捕获命令的指示之前进入用于捕获所述视频的模式。

9.根据权利要求7所述的方法，其中，所述分析还包括活动检测或面部检测。

10.一种图像捕获设备，包括：

图像捕获系统；

显示器；和

处理系统，所述处理系统配置为使所述图像捕获设备：

使用所述图像捕获系统来捕获视频；

从服务器接收对分析所捕获的视频的推荐；

使用所述显示器来呈现可能感兴趣的所捕获的视频的片段。