CN112019736A

CN112019736A - 用于媒体捕获和保留的视频分析和管理技术

Info

Publication number: CN112019736A
Application number: CN202010456855.0A
Authority: CN
Inventors: 高爽; V·E·安顿; R·A·贝利; E·基姆; V·雅加迪什; P·施奈德; P·斯坦奇克; A·布兰得利; J·克利维顿; J·戈瑟兰德里什堡; J·特里斯卡里; S·贝塞里; 杨扬; A·德汉; P·范德默维
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-05-31
Filing date: 2020-05-26
Publication date: 2020-12-01
Anticipated expiration: 2040-05-26
Also published as: CN112019736B; DE102020113972A1

Abstract

本公开涉及用于编辑所捕获的媒体以克服在捕获操作期间可能出现的操作困难的技术。根据这些技术，可用一对相机捕获内容，其中第一相机具有比第二相机更宽的视场。可从来自较宽视场相机的所捕获的内容检测一个或多个对象。可在至少一个检测到的对象的位置中从较宽视场相机处理所捕获的内容。通常，操作者可尝试使用来自更窄视场相机的内容来框取内容。因此，操作者可能不知道期望的内容是使用更宽视场的第二相机捕获的。来自经处理的较宽视场数据的结果可被提出给操作者以供查看以及如果需要的话可保留。

Description

用于媒体捕获和保留的视频分析和管理技术

相关申请的交叉引用

本专利申请要求2019年10月15日提交的美国专利申请16/653,704以及2019年5月31日提交的美国临时专利申请62/855,874的优先权，这些专利申请全文以引用方式并入本文。

背景技术

本公开涉及使用消费电子设备的媒体捕获。

消费设备通常拥有允许操作者捕获其日常生活的图像和视频的一个或多个相机系统。虽然此类设备为此类用户提供了方便的工具，但操作者在捕获事件期间可能有困难。此类相机系统通常集成在多用途设备中，该多用途设备还用作例如电话、Web浏览器、媒体播放器、个人信息管理器。这些设备通常具有用于这些竞争用途的形状因数，这可使得操作者难以在图像和/或视频捕获事件期间使设备保持稳定。实际上，这些设备的形状因数已减小到使得看似小的操作者运动伪影可在捕获的图像和/或视频中引起大的运动的程度。

这些设备中的许多具有若干图像捕获系统。例如，单个设备可具有面向共同方向的若干相机系统，每个相机系统具有其自身的光学系统。实际上，当操作者在捕获事件期间框取图像内容时，可能将来自这些相机中的仅一个的内容显示给操作者。由于事实上当设备上的一个相机已捕获期望内容时，操作者观察到来自另一个相机的数据，操作者可能会将捕获事件感知为未能捕获期望内容。

附图说明

图1是根据本公开的一个方面的系统的功能框图。

图2(a)示出了可由窄FOV相机生成的示例性帧，图2(b)示出了可由宽FOV相机生成的示例性帧。

图3是根据本公开的另一方面的系统的功能框图。

图4示出了根据本公开的一个方面的适合与之一起使用的示例性帧序列。

图5示出了根据本公开的一个方面的示例性检测到的对象和构图操作。

图6示出了根据本公开的一个方面的可从合成器生成的示例性帧。

图7示出了适合与本公开的一个方面一起使用的处理系统。

图8示出了根据本公开的一个方面的特征检测和特征匹配的操作。

图9示出了根据本公开的一个方面的三脚架稳定。

图10示出了根据本公开的一个方面的均匀摇拍。

图11示出了根据本公开的一个方面的平滑化加速度。

图12示出了根据本公开的一个方面的多模式。

具体实施方式

本公开的各方面提供用于编辑捕获的媒体以克服在捕获操作期间可能出现的操作困难的技术。根据这些方面，可用一对相机捕获内容，其中第一相机具有比第二相机更宽的视场。可从来自较宽视场相机的捕获的内容检测一个或多个对象。可在至少一个检测到的对象的位置中从较宽视场相机处理捕获的内容。来自经处理的较宽视场数据的结果可被提出给操作者以供查看和(如果需要)保留。

图1是根据本公开的一个方面的系统100的功能框图。系统100可包括一对相机110、相机115、一对视频捕获系统120、视频捕获系统125、显示器130、对象跟踪器135、合成器140和存储系统145(被示为145.1、145.2、145.3)。这些部件可在控制器150的控制下操作。

相机110、相机115可具有相对于彼此不同的视场(通常称为“FOV”)，一个比另一个宽。为方便起见，第一相机110在本文中被描述为具有“窄”视场，第二相机115被描述为具有“宽”视场。因此，当由两个相机捕获视频数据时，由宽FOV相机115输出的视频内容可能将包含由窄FOV相机110输出的视频内容和在由窄FOV相机110输出的视频中不存在的附加内容。图2示出了可分别从窄FOV相机(图2(a))和宽FOV相机(图2(b))获得的示例性帧210、示例性帧220。如图2(b)所示，窄FOV相机的视频内容可被包括在宽FOV相机的视频内容内。在实践中，窄FOV相机的视频内容和宽FOV相机的对应视频内容将彼此不相同；相机系统之间的操作差异(例如，传感器分辨率、传感器系统的光学响应、透镜属性、自动对焦和自动曝光能力以及相机安装位置)可导致这些区域中的内容之间存在内容差异。然而，这些区域的内容可以彼此具有良好的相关性以用于分析目的。

每个相机110、相机115的视频捕获系统120、视频捕获系统125可控制由相机执行的视频捕获操作。例如，响应于来自控制器150的捕获控制命令，视频捕获系统可使得由相应相机系统110、相机系统115捕获的视频被存储。控制器150可响应于输入到设备的用户界面(未示出)中的操作者命令而发出捕获命令。这样，系统100可创建表示被指定由操作者捕获的视频的视频文件。用户命令可指定视频捕获的属性，例如，全速率视频捕获或“慢动作”视频捕获以及控制来自相机110、相机115的视频如何被记录的其他属性。视频捕获系统120、视频捕获系统125可在存储由其捕获系统生成的视频时应用此类捕获模式。由捕获系统120、捕获系统125生成的分别示为“视频1”和“视频2”的视频可存储在系统100上的存储装置中。

在操作期间，系统100可在显示器130上显示来自窄FOV相机110的相机输出，这可以帮助操作者适当地框取视频并控制系统的其他操作(例如，选择视频捕获操作的开始和结束)。

对象跟踪器135可接收来自宽FOV相机115的视频输出并将对象跟踪应用于视频的内容。对象跟踪器135可对视频执行各种对象识别过程，例如人脸识别、人体识别、动物识别等。对象跟踪器135可包括已经过训练以识别视频内容中预先确定类型的对象的机器学习系统(诸如神经网络(未示出))。当对象跟踪器识别图像内容中的对象时，跟踪器135可生成标识对象及其在图像内容内的空间位置的数据。

合成器140可基于对象跟踪器135的输出从宽FOV视频内容生成视频。例如，合成器140可基于由对象跟踪器135识别的对象及其在视频内容内的位置来生成视频的裁剪窗口，并相应地裁剪宽FOV视频。这样，系统100可克服由操作者引入的框取不一致性。来自合成器140的经处理的视频可被存储在存储装置145.3中(被示为“视频3”)。

在一个方面中，系统100可包括运动传感器155，该运动传感器生成表示在捕获操作期间发生的系统100的运动活动的数据。运动数据可被输出到合成器140，合成器140可使用该运动数据来执行图像稳定。例如，合成器140可根据特征检测、特征匹配和匹配特征之间的估计单应性来估计视频内容的帧间运动。合成器140可从运动传感器数据估计帧间运动。合成器140还可识别视频内容帧内的特征并执行配准操作以对准检测到的特征。运动传感器155可作为加速度计或陀螺仪提供。

图8示出了根据本公开的一个方面的特征检测和特征匹配的操作。图8示出了来自示例性视频序列的相邻帧810和相邻帧820。图像分析可检测多个内容特征，在帧810中示出为特征830.1-特征830.8，在帧820中示出为特征840.1-特征840.8。运动传感器数据可提供粗略的偏置，以将帧810中的许多特征830.1-特征830.8与帧820中的对应特征840.1-特征840.8对准。在实践中，可能发生的情况是，给定帧对中的所有特征将不会都发生特征匹配，这是由于诸如竞争单应平面、模糊效果、遮挡和给定帧中的特征的区别损失的效果。此外，一些特征可来源于在视场中移动的对象(例如，特征830.7、特征830.8)，当其他特征830.1-特征830.6匹配时，这些特征变为异常值。

稳定操作可控制裁剪窗口以使检测到的特征在视频的视场内表现出受控平移。在第一方面中，如图9所示，裁剪窗口可被定义为排除视场之内的匹配特征的运动。如图所示，尽管在运动数据中表示为非零运动，但匹配特征仍没有运动。此类控件被标记为“三脚架”稳定模式，因为它们对视频赋予效果，就好像在视频捕获期间视频被安装在三脚架上一样。

在另一方面中，如图10所示，裁剪窗口可被定义为将均匀运动赋予视场内的匹配特征，尽管在运动数据中表示为不均匀运动。此类控件被标记为“摇拍”稳定模式，因为它们对视频赋予效果，就好像在视频捕获期间视频被安装在三脚架上一样。

在另一个方面中，如图11所示，裁剪窗口可被定义为基于所确定的运动数据将加速度模型化轨迹应用于视场内的匹配特征。例如，可根据L1范数最小化技术来选择加速度轨迹，该技术例如通过位置、速度和加速度来最小化相机位置的导数。以这种方式平滑化的视频预期提供被感知为具有比其源视频更大的稳定性的视频。

此外，如图12的该方面所示，稳定操作可基于运动数据在不同模式(三脚架、摇拍和加速度模型化平滑)之间切换。可对视频片段应用稳定操作，并作出模式选择以使检测到的运动数据与估计的特征轨迹之间的累积偏差最小化。

图3是根据本公开的一个方面的系统300的功能框图。系统300可包括一对相机310、相机315、一对图像捕获系统320、图像捕获系统325、显示器330、对象检测器335、合成器340和存储系统345(被示为345.1、345.2、345.3)。这些部件可在控制器350的控制下操作。

如图1所示的方面中那样，相机310、相机315可具有相对于彼此不同的视场，一个“窄”，另一个“宽”。因此，当由两个相机捕获图像数据时，由宽FOV相机315输出的图像内容(图像1)可能将包含由窄FOV相机310输出的图像内容和在由窄FOV相机310输出的图像中不存在的附加内容。同样，图2示出了可存在于两个相机310、相机315之间的视场之间的示例性关系。在实践中，窄FOV相机310的图像内容和宽FOV相机320的对应图像内容将彼此不相同；相机系统之间的操作差异(例如，传感器分辨率、传感器系统的光学响应、透镜属性、自动对焦和自动曝光能力以及相机安装位置)可导致这些区域中的内容之间存在内容差异。然而，这些区域的内容可以彼此具有良好的相关性以用于分析目的。

每个相机310、相机315的图像捕获系统320、图像捕获系统325可控制由相机执行的图像捕获操作。例如，响应于来自控制器350的捕获控制命令，图像捕获系统可使得由相应相机系统310、相机系统315捕获的图像被存储。控制器350可响应于输入到系统300的用户界面(未示出)中的操作者命令而发出捕获命令。这样，系统300可创建表示被指定由操作者捕获的图像的图像文件。用户命令可指定图像捕获的属性，例如，图像捕获模式(例如，HDR或SDR、单次图像捕获之与多次图像捕获等)，以及控制来自相机310、相机315的图像将如何生成的其他属性。图像捕获系统320、图像捕获系统325可在存储由其捕获系统生成的图像时应用此类捕获模式。由捕获系统320、捕获系统325生成的分别示为“图像1”和“图像2”的图像可存储在系统300上的存储装置中。

在一个方面中，系统300可采用在窄FOV相机310和宽FOV相机315生成的图像之间执行图像融合的图像合并单元355。在应用中，可能发生的情况是，窄FOV相机310在其视场中生成比来自宽FOV相机315的对应图像内容更高分辨率的图像内容。图像合并单元355可执行图像拼接以将来自两个图像的内容融合在一起，从而在对应于窄FOV相机的视场的一个或多个区域中产生更高分辨率的图像。通常，此类图像融合涉及识别重叠视场内的对象、对准内容以及混合内容。

在操作期间，系统300可在显示器330上显示来自窄FOV相机310的相机输出，这可以帮助操作者适当地框取图像并控制系统的其他操作(例如，选择图像捕获操作的开始和结束)。

对象检测器335可接收来自宽FOV相机315的图像输出并将对象检测应用于图像的内容。对象检测器335可对图像执行各种对象检测过程，例如人脸识别、人体识别、动物识别。对象检测器335可包括已经过训练以识别图像内容中预先确定类型的对象的机器学习系统(诸如神经网络(未示出))。当对象检测器识别图像内容中的对象时，检测器335可生成标识对象及其在图像内容内的空间位置的数据。在一个方面中，对象和位置数据可以与宽FOV图像数据一起存储以供稍后处理。

在另一方面中，合成器340可基于对象检测器335的输出从宽FOV图像内容生成新图像。例如，合成器340可基于对象检测器335识别的对象及其在图像内容内的位置来裁剪图像。这样，系统300可克服由操作者引入的框取不一致性。来自合成器340的经处理的图像可被存储在存储装置345.3中(被示为“图像3”)。在宽FOV图像的不同位置中识别出多个对象的情况下，合成器340可从公共宽FOV图像导出多个图像，每个图像都是从为相应对象生成的裁剪窗口发展来的。

图4-图6参考视频/图像数据的模拟示出了合成器140(图1)、合成器340(图3)的示例性操作。尽管以下讨论将合成器应用于视频数据，但讨论的原理也适用于图像数据。图4示出了表示可从窄FOV相机110(图1)生成的示例性数据的帧序列410-帧序列440。图5示出了表示可从宽FOV相机115生成的示例性数据的帧序列510-帧序列540。在图4和图5所示的示例中，两个相机的视场之间存在固定关系，使得来自窄FOV相机的帧410-帧440的内容出现在帧510-帧540的中心区域中。

如结合图1所讨论的，对象跟踪器130可从窄FOV视频的内容识别各种对象。图5的示例示出了在帧510-帧540中的每个帧内识别的一对对象OBJ1、对象OBJ2。如图4所示，对象OBJ1、对象OBJ2的内容不存在于帧410中，它们仅部分地存在于帧420中，并且它们以不同的尺寸存在于帧430和帧440中。

同样如结合图1所讨论的，合成器140可基于在宽视图FOV中识别的对象的类型和位置从宽FOV视频导出新视频。在图5的示例中，合成器140可定义裁剪窗口CW，裁剪窗口划定在帧510-帧540中检测到的对象OBJ1、对象OBJ2的周界。合成器140可根据为那些帧510-帧540定义的裁剪窗口裁剪宽FOV视频序列，从而由其生成新帧610-帧640(图6)。因此，与从窄FOV相机110生成的帧410-帧440相比，由合成器140生成的帧610-帧640将检测到的对象保留在视频内容内。此类操作预期会生成具有更高感知质量的视频，尽管由于对象将保留在视频内容中而难以对快速移动的内容进行框取。

合成器140(图1)可执行多种视频合成技术。首先，如图5中帧510-帧530所示，合成器140可定义裁剪窗口CW，该裁剪窗口划定在宽FOV视频中检测到的一个或多个对象的周界。在简单的应用中，裁剪窗口CW可具有固定的尺寸并且具有在宽FOV视频序列的帧510-帧530之间变化的位置，该位置与在视频内检测到的一个或多个对象的位置对应。

在另一方面中，合成器140可混合裁剪和数字缩放操作，如帧510-帧540中所示。在图5的示例中，裁剪窗口CW被示出为在帧510-帧530中具有共同尺寸并且在帧540中具有更大尺寸。在该示例中，对象OBJ1、对象OBJ2被示为在帧540中比在帧510-帧530中更大。因此，合成器140可通过改变裁剪窗口CW的尺寸以匹配，然后将裁剪视频重新缩放到共同尺寸来对视频中对象的尺寸的改变做出响应。在图6的示例中，帧640被示出为重新缩放到与帧610-帧630的尺寸匹配的尺寸，即使帧640是从应用于帧540的比应用于帧510-帧530的裁剪窗口更大的裁剪窗口CW导出的。

本公开的原理适应多种用例以定义裁剪窗口。在第一方面中，合成器140可确定视频内容内被检测到的对象占据的聚合区域，并且定义划定该区域周界的裁剪窗口。在为视频序列的每个帧定义了裁剪窗口之后，合成器140可对裁剪窗口应用平滑操作以减小可能存在于各个帧的裁剪窗口之间的帧间视差。

在另一方面中，系统100可包括对象选择器140，该对象选择器140选择要作为主要对象的对象以用于裁剪的目的。可能发生的是，不同的对象移动到视频序列内的不同位置，使得难以限定包括所有此类对象的统一裁剪窗口。对象选择器140可将检测到的对象中的一个对象指定为主要对象，合成器140可使用该主要对象来定义裁剪窗口。这样，合成器140可定义划定主要对象(以及任选地可能在图像内容内的主要对象附近的其他次要对象)周界的裁剪窗口。

主要对象可以多种方式来定义。首先，可以选择在宽FOV视频内容的与窄FOV相机的视场重叠的区域中出现的对象作为主要对象。另选地，可以选择在宽FOV视频内容内具有最大总体尺寸的对象作为主要对象。在又一方面中，系统100可以向用户显示标识在图像内容(通常，窄FOV视频内容)中检测到的对象的指示符，并且接受用户对主要对象的选择。

在一个方面中，裁剪窗口可被定义为包围占据面积比检测到的对象更大的视频内容。许多对象跟踪器经过训练以识别当由人类观察者观看时表示感兴趣的对象的一部分的内容。例如，经过训练以识别人体的对象跟踪器可生成不包括手或脚(人类观察者将认为手或脚是人体的一部分)的位置数据。类似地，人脸检测器和动物检测器可生成省略人类观察者会将其与这些对象关联的内容的特定部分的位置数据。在一个方面中，裁剪窗口可被定义为大于对象跟踪器135识别的位置，这可使得对象的一个或多个附加部分在由合成器140生成时被包括在视频数据中。

类似地，合成器140可估计包含在视频内容内的内容的帧间运动。裁剪窗口可被定义为包括未被识别为属于对象但位于对象附近并且表现出与对象运动相关的运动的内容元素。就这一点而言，可定义裁剪窗口，该裁剪窗口包括检测到的对象与之交互的内容元素(诸如由检测到的对象保持的内容元素、由检测到的对象拉动或推动的内容元素等)。

并且，如上文所讨论的，合成器140可使用由运动传感器155(图1)提供的运动数据来执行视频稳定化。

在另一方面中，合成器140可对视频数据执行透视校正，从而校正可能由于被摄体与相机的距离而发生的图像失真。在此类操作中，对象跟踪器130可基于对象的检测到的尺寸来估计一个或多个对象与相机的距离。合成器140可通过基于内容估计距离重设图像内容的尺寸来引入内容校正。此外，合成器140可估计非对象内容(例如背景元素、视频内容的架构元素)的距离并从这些估计值导出视频帧的校正。

在另一方面中，合成器140可对视频数据执行水平线校正，从而为视频内容校正可能由于视频捕获期间的设备偏斜而出现在内容中的倾斜。

前述方面预期应用于易出现人为误差的图像/视频捕获系统的媒体查看/编辑服务。操作者在捕获操作期间通常难以框取图像和视频，尤其是在捕获高动态被摄体的数据时。在许多消费者应用中，操作者尝试基于窄FOV相机的内容来框取内容。可能发生的情况是，对被摄体的期望内容是由系统通过另一个相机捕获的，但操作者在捕获事件本身期间不知道捕获操作。通过提供上文所述的技术，系统可以生成表示检测到的对象的新媒体项(图像和/或视频)，并且可以在查看操作期间向操作者建议新媒体项。如果操作者批准新媒体项，则系统100、系统300可以将新媒体项作为持久媒体项存储在“照片”或“视频”存储位置中，或者它可以用新媒体项替代由捕获系统中的一个生成的对应项目。就这一点而言，系统100、系统300的操作预期为操作者产生更高质量的媒体项，尽管他们在捕获操作期间存在自身的困难。

前述实施方案已经将本公开的原理描述为在执行图像捕获、对象跟踪和合成的系统上操作。此类系统可通过处理设备诸如计算机服务器、个人计算机、笔记本计算机、平板电脑、智能电话、媒体播放器等来实现。此类操作可用于单个独立的计算机系统中，或者具有分布在多个联网设备上的处理功能。虽然具体实施不同，但此类系统可包括存储器系统720和一个或多个处理器710(图7)。存储器系统720可存储表示系统的操作系统722和应用程序724的程序指令。程序指令可由一个或多个处理设备720执行。存储器系统还可以表示用于前述附图中讨论的媒体项的存储装置145(图1)、存储装置345(图3)。

本文所述的视频稳定过程可在用例中应用于多种应用。此类技术可应用于单个相机视频捕获系统并对单个视频流执行稳定操作。此类技术可在不执行独立对象检测或使用合成器的视频捕获系统中执行。例如，此类技术可应用于普通消费电子设备，例如智能电话、平板电脑和数字相机。

本文具体示出和/或描述了本公开的若干实施方案。然而，应当理解的是，在不脱离本公开的实质和预期范围的情况下，本公开的修改和变型由上述教导内容涵盖并且在所附权利要求的范围内。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种系统，包括：

第一相机，所述第一相机通过第一视场来表征，

第二相机，所述第二相机通过比所述第一视场更宽的第二视场来表征，

对象跟踪器，所述对象跟踪器具有耦接至所述第二相机的输出的输入，

合成器，所述合成器具有用于由所述第二相机捕获的内容的输入以及用于由所述对象跟踪器输出的数据的输入，所述数据表示由所述对象跟踪器从所述第二相机的所述输出检测到的一个或多个对象的一个或多个位置，并且所述合成器具有用于在至少一个所检测到的对象的位置中处理的所述第二相机的内容的输出。

2.根据权利要求1所述的系统，其中所述合成器输出是由所述第二相机输出的内容的裁剪表示。

3.根据权利要求2所述的系统，其中所述裁剪表示通过裁剪窗口发生，所述裁剪窗口具有对所检测到的对象的位置进行跟踪的位置。

4.根据权利要求1所述的系统，其中所检测到的对象是选自由所述第二相机输出的所述内容的中心区域的对象。

5.根据权利要求1所述的系统，其中所检测到的对象是由所述第二相机输出的所述内容的最大尺寸对象。

6.根据权利要求1所述的系统，其中所检测到的对象是操作者选择的对象。

7.根据权利要求1所述的系统，其中所述合成器输出是由所述第二相机输出的内容的经裁剪和缩放的表示。

8.根据权利要求1所述的系统，还包括运动传感器，其中所述合成器输出是由所述第二相机输出的内容的运动稳定表示。

9.根据权利要求1所述的系统，其中所述合成器输出是由所述第二相机输出的内容的透视校正表示。

10.根据权利要求1所述的系统，其中所述合成器输出是由所述第二相机输出的内容的水平线校正表示。

11.根据权利要求1所述的系统，还包括用于将来自所述合成器的所述输出存储为媒体项的存储系统。

12.根据权利要求11所述的系统，其中所述存储系统将来自所述第二相机的输出存储为与从所述合成器输出的所述媒体项不同的媒体项。

13.根据权利要求11所述的系统，其中所述存储系统将来自所述第一相机的输出存储为与从所述合成器输出的所述媒体项不同的媒体项。

14.根据权利要求11所述的系统，其中所述媒体项为视频。

15.根据权利要求11所述的系统，其中所述媒体项为静止图像。

16.根据权利要求1所述的系统，还包括显示器，所述显示器用于显示在捕获操作期间由所述第一相机捕获的内容。

17.一种方法，包括：

利用一对相机来捕获内容，第一相机具有比第二相机更宽的视场，

从来自所述更宽视场相机的所捕获的内容检测一个或多个对象，

在至少一个检测到的对象的位置中处理来自所述更宽视场相机的所述捕获的内容。

18.根据权利要求17所述的方法，其中所述处理裁剪所述更宽视场相机的所述捕获的内容。

19.根据权利要求17所述的方法，其中所检测到的对象是选自由所述更宽视场相机输出的所述内容的中心区域的对象。

20.根据权利要求17所述的方法，其中所检测到的对象是由所述更宽视场相机输出的所述内容的最大尺寸对象。

21.根据权利要求17所述的方法，其中所检测到的对象是操作者选择的对象。

22.根据权利要求17所述的方法，其中所述处理缩放所述更宽视场相机的所述捕获的内容。

23.根据权利要求17所述的方法，其中所述处理基于来自运动传感器的运动数据来执行由所述更宽视场相机输出的运动稳定内容。

24.根据权利要求17所述的方法，其中所述处理校正由所述更宽视场相机输出的内容的透视。

25.根据权利要求17所述的方法，其中所述处理校正由所述更宽视场相机输出的内容的水平线。

26.根据权利要求17所述的方法，还包括将所述经处理的内容存储为媒体项。

27.根据权利要求26所述的方法，还包括将来自所述更宽视场相机的输出存储为与由所述经处理的内容表示的所述媒体项不同的媒体项。

28.根据权利要求26所述的方法，还包括将来自所述第二相机的输出存储为与由所述经处理的内容表示的所述媒体项不同的媒体项。

29.根据权利要求26所述的方法，其中所述媒体项为视频。

30.根据权利要求26所述的方法，其中所述媒体项为静止图像。

31.根据权利要求17所述的方法，还包括显示在捕获操作期间由所述第二相机捕获的内容。

32.一种存储程序指令的计算机可读介质，所述程序指令在由处理设备执行时使得所述设备：

显示在捕获操作期间由第一相机捕获的内容，

响应于由具有比所述第一相机更宽的视场的第二相机捕获的内容，从来自所述第二相机的所述捕获的内容检测一个或多个对象，

33.根据权利要求32所述的介质，其中所述处理裁剪所述第二相机的所述捕获的内容。

34.根据权利要求32所述的介质，其中所检测到的对象选自由所述第二相机输出的所述内容的中心区域。

35.根据权利要求32所述的介质，其中所检测到的对象是由所述第二相机输出的所述内容的最大尺寸对象。

36.根据权利要求32所述的介质，其中所检测到的对象是由操作者从所述所显示的内容中选择的对象。

37.根据权利要求32所述的介质，其中所处理缩放所述第二相机的所述捕获的内容。

38.根据权利要求32所述的介质，其中所述处理校正由所述第二相机输出的内容的透视。

39.根据权利要求32所述的介质，其中所述处理校正由所述第二相机输出的内容的水平线。