CN115225806A

CN115225806A - 用于宽视场(fov)相机的电影式图像取景

Info

Publication number: CN115225806A
Application number: CN202210407759.6A
Authority: CN
Inventors: S·瓦卢鲁; A-A·阿尔丹; B·J·科里; S·K·V·耶拉姆拉朱
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-04-19
Filing date: 2022-04-19
Publication date: 2022-10-21
Also published as: US20220335703A1; EP4080446A1

Abstract

本公开涉及用于宽视场(FOV)相机的电影式图像取景。本文公开了用于为宽视场(FOV)视频图像流提供改进的感兴趣区域(ROI)跟踪、图像取景和失真校正的设备、方法和非暂态程序存储设备。所公开的技术可被配置为使得在捕获的宽FOV视频图像流的过程期间做出的这些图像取景决策能够平稳地移镜并且在取景广角相机FOV的较窄部分到取景该广角相机FOV的较宽部分之间无缝地过渡(或反之亦然)，例如，根据构图和相关对象在被捕获场景中的移动。本文所公开的技术还可以用于对该输出视频图像流中的所取景的图像部分执行期望的任何失真校正，例如基于这些图像部分FOV和/或这些部分在原始宽FOV视频图像流内的位置。

Description

用于宽视场(FOV)相机的电影式图像取景

技术领域

本公开整体涉及图像处理领域。更具体地，但并非限制性地，本公开涉及用于对宽视场(FOV)视频图像流进行图像取景和失真校正的技术。

背景技术

便携式集成计算设备的出现已经导致相机和其他能够视频捕获的设备的广泛扩增。这些集成计算设备通常采用智能电话、平板电脑或膝上型计算机的形式，并且通常包括通用计算机、相机、包括触敏屏幕的复杂的用户界面，以及通过Wi-Fi、LTE、HSDPA、新空口(NR)和其他基于小区的或无线的技术的无线通信能力。这些集成设备的广泛扩增为使用这些设备的能力来执行原本需要专用的硬件和软件的任务提供了机会。例如，集成设备诸如智能电话、平板电脑和膝上型电脑通常具有两个或更多个嵌入式相机。这些相机通常相当于可通过通用计算机使用固件和/或软件(例如，“应用”)以及用户界面来控制的镜头/相机硬件模块，包括触摸屏按钮、固定按钮和/或非触控式控件(诸如语音控件)。

将相机集成到通信设备诸如智能手机、平板电脑和膝上型计算机中使人们能够以前所未有的方式共享图像和视频。现在很流行获取并立即与他人共享照片和视频，要么通过经由文本消息、SMS或电子邮件来发送照片和视频，要么通过将照片和视频上载到基于互联网的服务(诸如社交网站或多媒体共享站点)。

随着经由具有集成相机的便携式集成计算设备进行照片和视频共享的日益流行，经由便携式集成计算设备进行视频会议也随之兴起。具体地，用户通常参与视频会议通话，其中视频图像通常由设备上的前置相机(即，与相机设备的显示屏朝向相同方向的相机)捕获。大多数现有技术相机要么针对广角普通摄影进行了优化，要么针对较窄角度自拍肖像和视频会议流使用情况进行了优化。针对广角进行了优化的那些相机通常针对群组和景观构图进行了优化，但是由于例如当对象距离相机较近或位于相机视场的边缘处时而发生的失真，这些相机对于个人肖像来说不是最佳的。因为针对肖像和视频会议流(例如，“前置”相机)进行了优化的那些相机的视场有限，所以它们通常对于景观和群组照片(或群组视频会议通话)来说不是最佳的。此外，给定相机的视场还可影响用户如何为拍摄构图(即，他们的位置相对于设备的相机有多远和相对于设备的相机的角度是多少)以及最终被捕获图像的质量。

如本文所用，“视场”或“FOV”是指由相机成像的给定场景的角度范围。FOV通常以角度为单位进行测量，并且可表达为竖直FOV、水平FOV和/或对角线FOV。本文经常提到图像传感器的对角线FOV，因为它是相机光学器件的更相关的量度，由于它尝试覆盖图像的角部，其中与图像传感器的角部处的像素相关联的“衰减”(即，渐晕)问题可能会变得更明显。用于参考，具有焦距为50mm的镜头的典型的35mm相机将具有39.6°的水平FOV、27.0°的竖直FOV和46.8°的对角线FOV。

对于给定相机到对象的距离，广角镜头(例如，焦距短于传感器对角线的镜头和/或对角线FOV大于70°的镜头)将使透视失真，使得更接近相机的物体看起来比正常镜头下更大，并且远处的物体看起来更小且更远。此外，靠近广角镜头相机的FOV的边缘的物体可能变得拉伸和/或弯曲，从而导致不自然的外观，尤其是对于人脸。由于这些失真，广角镜头通常不用于肖像、一对一视频会议情况，或者人类对象的面部的正确外观和/或尺寸对于给定应用来说很重要的其他图像捕获场景。

同样地，由于正常的或标准的镜头(例如，焦距大约等于传感器对角线的镜头和/或对角线FOV小于70°的镜头)的视场相对更有限，所以它们通常不用于景观或较大人群(其通常分散在正被捕获场景的较大部分)的摄影或视频记录和/或固定相机设置，其中正在被捕获场景中的人们可在场景内规律移动—这将导致他们反复进入(和离开)标准镜头固定相机的更有限的FOV。

因此，期望具有为宽FOV视频图像流提供改进的图像取景(“取景”，如本文所用，是指确定宽FOV源图像的哪个(哪些)部分用于生成输出图像的过程)的方法和系统，使得来自宽FOV相机的所捕获的视频流被智能地且动态地取景(并且失真被校正，例如，如有必要，经由非线性扭曲)以从视频流中逐帧产生具有任何期望FOV(从非常窄的FOV一直到非常宽的FOV)的输出视频图像流，例如，使得被捕获场景中的可能的感兴趣区域(ROI)在输出视频图像流的持续时间内以美观的或“电影式”的方式被包括在内。

发明内容

本文公开了用于为宽视场(FOV)视频图像流提供改进的感兴趣区域(ROI)跟踪、图像取景和失真校正的设备、方法和非暂态程序存储设备(NPSD)。具体地，本文所公开的技术可被配置为使得在所捕获的宽FOV视频图像流的过程期间做出的这些图像取景决策具有“电影式”美学，例如，在宽FOV视频图像流内的相关位置间平稳地移镜并且在取景广角相机FOV的较窄部分(例如，当单个对象在场景中时)到取景该广角相机FOV的较宽部分(例如，当多个对象在场景中时)之间无缝地过渡，这取决于构图和相关对象在被捕获场景中的随时间的移动。

本文所公开的技术还可用于对输出视频图像流中的所取景的图像执行所需的任何失真校正，使得输出图像中的任何非自然失真被最小化。应用于输出视频图像流中的所取景的图像的失真校正的类型和程度可至少部分地基于所取景的图像的FOV，以及给定输出图像从其取景的原始宽FOV视频图像流内的位置(例如，宽FOV视频图像流的中心部分可能比宽FOV视频图像流的较外围部分需要更少的失真校正)。

因此，根据一些实施方案，提供了一种设备，该设备包括：存储器；一个或多个图像捕获设备；和一个或多个处理器，该一个或多个处理器可操作地耦合至该存储器，其中该一个或多个处理器被配置为执行使得该一个或多个处理器进行以下操作的指令：从由该一个或多个图像捕获设备中的至少一个图像捕获设备捕获的传入图像流中获得第一图像，其中该传入图像流包括被捕获场景的两个或更多个图像，每个图像具有第一视场(FOV)；在第一图像内确定被捕获场景中的第一感兴趣区域(ROI)，其中该第一ROI包括在具有第二FOV的第一图像内的第一位置，其中该第二FOV小于该第一FOV，其中该第一ROI包括被捕获场景内的确定用于包括在第一输出图像中的内容，并且其中该第一输出图像包括第一图像的第一部分；在第一图像内确定被捕获场景中的第二ROI，其中该第二ROI包括至少部分地基于第一位置来确定的第一图像内的第二位置，并且其中该第二ROI具有第三FOV，该第三FOV小于第一FOV并且至少部分地包含该第一ROI；至少部分地基于第二ROI的第二位置和第三FOV来确定第一图像的第一部分；以及至少部分地基于第一图像的所确定的第一部分来生成第一输出图像。然后所生成的第一输出图像(和来自传入图像流的任何随后生成的输出图像)可被存储、显示和/或传输到另一个设备，如针对给定具体实施所期望的。

在一些实施方案中，该设备的该一个或多个处理器可进一步：从传入图像流中获得第二图像，其中该第二图像继第一图像之后被捕获；从第一图像中的第一位置到第二图像内的第三位置跟踪被捕获场景中的第一ROI；至少部分地基于第一位置与第三位置之间的距离大于预先确定的阈值来确定将第一图像中第二ROI的第二位置更新为第二图像内的第四位置；至少部分地基于第二图像内第二ROI的第四位置来确定第二图像的第二部分；以及至少部分地基于第二图像的所确定的第二部分来生成第二输出图像。在一些情况下，从第一图像中的第一位置到第二图像内的第三位置跟踪被捕获场景中的第一ROI还可包括该一个或多个处理器执行以下操作：在第二图像中确定第一ROI的更新后的第二FOV；基于更新后的第二FOV来确定更新第二ROI的第三FOV；以及至少部分地基于第二图像内第二ROI的更新后的第三FOV来进一步确定第二图像的第二部分。

在其他实施方案中，生成第一输出图像还包括至少部分地基于第一图像内第二ROI的第二位置和第二ROI的第三FOV，对第一图像的所确定的第一部分应用透视失真校正。

在一些情况下，第一ROI还可包括具有第四FOV的第一图像内的第三位置，其中该第四FOV小于第一FOV，并且其中该第四FOV包括被捕获场景内的确定用于包括在第一输出图像中的另外的内容。在这种情况下，第二ROI可包括第二FOV和第四FOV两者。

在其他实施方案中，确定第二图像的第二部分还包括：根据一个或多个动画曲线(例如，水平位移曲线、竖直位移曲线或变焦曲线)将第二ROI从第二位置朝向第四位置移位，其中该一个或多个动画曲线中的至少一个动画曲线由以下中的至少一者参数化：加速度值；时间值；或动画约束值。在单个帧的过程期间，第二ROI可一直移动到第四位置，或仅向第四位置移动一部分路程，这取决于动画如何被调谐。

在一些实施方案中，可根据一个或多个预先确定的取景规则，至少部分地基于将第一ROI的至少一部分取景在第二ROI内(诸如将某些类型的物体(例如，人脸)取景在第二ROI内的某些位置处(例如，水平地居中并且定位在帧的高度的1/3或2/3处等))来确定第二ROI的第二位置。

在其他实施方案中，可根据一个或多个预先确定的取景规则，至少部分地基于将第二ROI取景在第一部分内来确定第一部分的第三位置。

在其他实施方案中，可相对于第二ROI内的确定枢转点来完成将第二ROI从第二位置朝向第四位置移位(其也可包括在此过程中改变第二ROI的FOV)，例如，以便使第二ROI在从第二位置移位到第四位置时的平移量最小化。

在一些情况下，例如，当第一ROI包括人类对象时，可至少部分地基于人类对象在被捕获场景中的估计深度来确定第一ROI的第二FOV的大小。

本文还公开了各种非暂态程序存储设备(NPSD)的实施方案。此类NPSD可被一个或多个处理器读取。指令可被存储在NPSD上，以用于使该一个或多个处理器执行本文所公开的实施方案中的任何一个实施方案。根据本文公开的设备和NPSD实施方案，本文还公开了各种图像处理方法。

附图说明

图1示出了根据一个或多个实施方案的示例性宽FOV图像及其所取景和失真校正的部分。

图2示出了根据一个或多个实施方案的用于宽FOV图像取景、虚拟相机移镜和失真校正的示例性系统图。

图3示出了根据一个或多个实施方案的宽FOV相机镜头中的各个位置处的失真的示例。

图4示出了根据一个或多个实施方案的球形图像旋转和重投影到线性坐标空间的示例。

图5示出了根据一个或多个实施方案的基于感兴趣区域来确定取景空间中的图像部分的示例。

图6示出了根据一个或多个实施方案的基于感兴趣区域来确定取景空间中的图像部分的附加示例。

图7示出了根据一个或多个实施方案的在使用和不使用确定枢转点的情况下确定图像移镜移动的示例。

图8A是示出根据各种实施方案的从宽FOV图像中生成图像部分的方法的流程图。

图8B是示出根据各种实施方案的从宽FOV视频图像流中生成图像部分的方法的流程图。

图8C是示出根据各种实施方案的从宽FOV视频图像流中重新缩放图像部分的方法的流程图。

图9是示出可编程电子计算设备的框图，在该可编程电子计算设备中可实现本文所公开的技术中的一种或多种技术。

具体实施方式

在以下描述中，为了解释的目的，阐述了很多具体细节，以便提供对本文公开的发明的彻底理解。然而，对本领域的技术人员而言显而易见的是，可以在不存在这些具体细节的情况下实践本发明。在其它情况中，结构和设备被以框图的形式示出，以便避免模糊本发明。对没有下标或后缀的数字的引用应当理解为引用对应于附图标记的所有下标和后缀情况。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，并且因此可能需要诉诸于权利要求书以确定此类发明主题。在说明书中对“一个实施方案”或“实施方案”(或类似表述)的引用意指在发明之一的至少一个实施方案中包括的结合该实施方案描述的特定特征、结构或特性，并且对“一个实施方案”或“实施方案”的多次引用不应被理解为全部必然地参考相同的实施方案。

示例性宽FOV图像感兴趣区域(ROI)跟踪、取景和失真校正

现在转向图1，根据一个或多个实施方案，示出了示例性宽FOV图像100及其所取景和失真校正的部分150。首先查看示例性宽FOV图像100，如宽FOV图像100的圆形形状所示，可以看出被捕获场景包括超宽FOV，例如，120°或更大。被捕获场景包括各种物体，例如，太阳(115)、第一人类对象(105)、第二人类对象(110)和树(120)。如将在下文参考图3更详细地示出和解释的，在被捕获场景中的物体或对象中出现的失真量取决于该物体或对象与相机的距离及其在宽相机FOV内的位置。例如，更靠近相机FOV的边缘的物体诸如太阳(115)可比更靠近宽相机FOV的中心的物体诸如树(120)经历更大的拉伸/扭曲。

根据一些实施方案，可在被捕获场景内检测和跟踪一个或多个第一感兴趣区域(ROI)，例如，人脸ROI 125A和125B。尽管宽FOV图像100中的ROI 125A和125B在该示例中刚好与检测到的人脸大小大致相同，但是应当理解，在给定具体实施中，任何期望类型的物体或物体组合(例如，躯干、头部、对象面部的特定子部分、包含对象头部和肩部的区域、咖啡马克杯等)都可作为ROI被检测和跟踪，并且每个ROI都可在被捕获场景内具有其自己的不同的位置和FOV。如将在下文例如关于图5更详细地描述的，在一些实施方案中，第二ROI(130)可在图像内被确定为涵盖第一ROI中的全部(或尽可能多的第一ROI)。根据一些实施方案，可基于一个或多个预先确定的取景规则来确定第二ROI 130在宽FOV图像100内的位置和/或尺寸。例如，可能期望尝试将该一个或多个第一ROI居中在第二ROI内的特定位置处(例如，水平地居中并且定位在第二ROI的竖直范围的大约1/3或2/3处等)。

此外，可以例如确定第二ROI的尺寸，使得在以下中的一者或多者之间存在特定的所需的(或优选的)边界或边缘：一个或多个第一ROI(125)和第二ROI(130)的范围；第二ROI(130)和所确定的第一部分(135)的范围；和/或第二ROI(130)和宽FOV图像(100)的总FOV的范围。例如，在一些情况下，第二ROI的位置和/或尺寸可被确定为所确定的第一部分(135)的位置和尺寸的参数化函数，如将在下文更详细地解释的，其中所确定的第一部分(135)可用于基于当前的输入宽FOV图像100来生成输出图像。

在一些实施方案中，还可能期望在确定更新第二ROI 130在宽FOV图像100内的位置和/或尺寸时采用一个或多个延迟定时器。例如，在一些具体实施中，第二ROI 130的位置和/或尺寸可被更新为仅在已经过特定阈值秒数n的相对的“场景停滞”(例如，在预先确定的采样时间内由被捕获场景的一个或多个第一ROI的小于阈值的移动量来定义)之后围绕该一个或多个第一ROI重新居中(并且/或者根据给定具体实施的预先确定的取景规则，以其他方式在美学上重新取景)。

换句话说，如果一个或多个第一ROI仍在所捕获的帧中快速地四处移动，或者快速进出帧等，则使用延迟定时器将防止第二ROI过快地改变位置和/或尺寸，即，由被跟踪的该一个或多个第一ROI中的任一个第一ROI围绕场景的非常临时或不规则的移动而引起，并且从而导致突兀的或抖动的输出视频。另一方面，如果第一ROI在被捕获场景内的大小和/或位置已明显地改变了超过阈值时间量，那么根据预先确定的取景规则开始改变第二ROI130的位置和/或尺寸以开始包含和/或以其他方式取景该一个或多个第一ROI是有意义的。

如将在下文更详细地解释的，当确定开始改变第二ROI 130的位置和/或尺寸(并且，引申开来，改变第一部分135的位置和/或尺寸)时，可根据一个或多个平滑的动画曲线和/或经由使用预先确定的“枢转点”来进行此类改变，从而向从输入宽FOV视频图像流中使用(以及任选地，失真校正)以产生输出视频图像流的变化的FOV提供“电影式”感觉。

现在可更全面地理解，确定确切的美学部分以通过非线性移动和重投影来从相机中拉取该部分是很难的。因此，在一些实施方案中，可在空间(在本文中也称为“取景空间”)中确定近似的取景。取景空间本质上是指宽FOV相机的FOV的一些子集。在一些实施方案中，可选择取景空间，使得其在球形(或圆柱形)坐标系中是对应于在原始宽FOV图像100中的非线性子集的矩形。在该取景空间的矩形内，各种取景操作可以以线性方式进行，即使当转换回原始图像时，它们不是线性的。应当理解，与必须在原始输入图像空间中执行某些操作相比，通过使用线性表示，这些操作在计算上的复杂度可能会大大降低。如图1所示，共用元素标号彼此对应，没有撇号的元素标号对应于出现在“输入图像空间”中的物体和区域，并且有撇号的元素标号对应于将出现在取景空间中的物体和区域，这可以例如由球形坐标系表示，使得在取景空间中确定的所得线性/矩形第一部分(例如，第一部分135')可被映射回输入图像空间中的对应的非线性“虚拟相机”投影(即，第一部分135)。如本文所用，术语“虚拟相机”将用于指宽FOV相机的被捕获图像的将从输入图像中使用的子部分，例如，在生成透视校正的输出图像(诸如图1所示的示例性输出图像150)的过程中使用。在一些实施方案中，虚拟相机模块也可接收其他与相机相关的信号作为输入。例如，镜头参数(诸如焦距、镜头样式等)还可进一步影响在生成输出图像的过程中如何使用和/或修改宽FOV相机的图像的已识别的子部分。换句话说，输入图像空间中的第一感兴趣区域125A和125B(其大致对应于球体外表面上存在的小块)可被映射至透视校正的输出图像150中的矩形感兴趣区域125A'和125B'。输入图像空间中的树120映射至透视校正的输出图像150中的树120'，并且由于所确定的第一部分135的尺寸和位置，输入图像空间中的区域115不出现在透视校正的输出图像150中，如将在下文进一步详细解释的。

一旦映射的第一ROI(即，在图1的示例中，由125A'和125B'表示)在取景空间中被确定，第二ROI(130')可被识别。如上所述，在一些实施方案中，第二ROI 130'的目标可以是根据预先确定的取景规则来包含和/或以其他方式取景该一个或多个第一ROI。在图1的示例中，第二ROI 130'是包括第一ROI 125A'和125B'两者的矩形区域，在第一ROI与第二ROI130'的范围之间留有一些边界或边缘。第二ROI 130'也被定位，使得第一ROI 125A'和125B'被居中在第二ROI 130'内的期望位置处，在这种情况下，可能沿着从第二ROI 130'的底部边缘向上延伸大致1/3的水平线。当然，任何取景规则都是可能的，这取决于给定系统的期望美学。通过在第一ROI与第二ROI的范围之间留有预先确定的或可配置的边界或边缘，系统可实际上抑制或延迟最终确定的第一部分135的移动量或者其位置和尺寸的改变。例如，在一些实施方案中，第二ROI 130'可被配置为保持静止，除非或直到被系统跟踪的至少一个第一ROI 125来到在第二ROI的当前边界的阈值距离(例如，100个像素)内。以这种方式，直到第一ROI中的一个(或多个)第一ROI在一个或另一个方向上“推动”第二ROI达相当大的量，第二ROI才会重定位，此时系统可再次应用其预先确定的取景规则，以将该一个或多个第一ROI重新居中(或以其他方式重新取景)在新更新了位置和/或尺寸的第二ROI内。

如上所述，使用一个或多个延迟定时器也可用于确定何时更新第二ROI的位置和/或尺寸。也就是说，在更新第二ROI的位置和/或尺寸之前，除了边界阈值距离检查之外，系统还可能需要第一ROI在第二ROI的边界的阈值距离内达可调谐的阈值时间量(例如，5秒)。以这种方式，如果人类对象110远离人类对象105移动几英尺只达1秒或2秒，但随后返回到他在宽FOV图像100中的当前位置，则不需要更新第二ROI 130的位置和/或尺寸，因为对象110的位置变化不会持续长于阈值时间量。另一方面，如果对象110远离对象105移动达大于阈值时间量，则系统可开始平稳且逐渐地更新位置和/或尺寸(例如，增加第二ROI 130的大小以再次圈住对象110)以适应对象110的新的远离的站立位置，如将在下文更详细地解释的。

尽管在图1中示出的是图像具有两个离散的、非重叠的第一ROI的情况，但在实践中，上述相同的第二ROI移动抑制技术也可应用于仅单个ROI(例如，单个人类对象)。换句话说，单个人类对象向被捕获场景的另一侧的非常短暂的移动(或单个人类对象到相机的距离的快速变化)可能不会导致第二ROI的位置和/或尺寸的任何立即改变。然而，如果单个人类对象将其自身重新安置在场景内的新的位置(或新的距离)处达长于阈值时间量，则第二ROI(以及，引申开来，用于生成输出图像的输入图像的总体部分)可再次根据期望的预先确定的取景规则，再次开始平稳且逐渐地更新位置和/或尺寸(例如，增加第二ROI 130的大小)以适应单个人类对象的新安置的位置。

对于在矩形取景空间中表示的任何给定图像(或图像的区域)，一旦第二ROI 130'的位置和尺寸被确定，则可再次根据任何期望的预先确定的取景规则，基于所确定的第二ROI 130'的位置和尺寸来确定第一部分135'。例如，在取景空间内具有位置(x,y)和大小(w,h)的第一部分135'可对应于在取景空间内是位于位置：(x+w/2-w*A/2,y+w*B)并具有尺寸：(w*A,h*C)的矩形的第二ROI 130'，其中A、B和C是可被配置为针对任何给定帧改变第一部分135'的大小和尺寸与第二ROI 130'的大小和尺寸之间的相对关系的参数。在一些实施方案中，第一部分的纵横比可以是第一部分的宽度和/或期望输出图像的期望纵横比的函数。

一旦期望的第一部分135'在取景空间中被确定，则该第一部分的位置(例如，就中心点、左上角点等而言)和尺寸(例如，就对角线视场、宽度/高度等而言)可被映射回输入图像空间，使得虚拟相机方向和视场可被确定为将虚拟相机“指引”或“移镜”到输入图像空间中已被确定为第一部分135的区域，以从宽FOV相机中拉取正在处理的当前帧。最后，在步骤140处，任何必要的透视失真校正可应用于第一部分135，从而生成输出图像150。

现在可以理解，输出图像150是以下操作的结果：在输入图像中跟踪一个或多个相关第一ROI；基于被跟踪的相关第一ROI的位置和大小以及任何预先确定的取景规则(以及将任何期望的运动抑制规则应用于来自前一帧的取景的更新位置)来做出智能取景决策；以及考虑可能由以下事实引起的失真而应用透视失真校正：输出图像150是从宽FOV相机的捕获内的特定位置获取的。如图1所示，输出图像150中的对象105'和110'脸部的失真和“拉伸”效应相比他们在输入宽FOV图像100中的105和110处具有的失真量大大减少。树120'的失真的减少被示为是不太明显的，因为树120更接近原始宽图像的FOV的中心，物体在此经历较少的失真。此外，原始宽FOV图像100的FOV的大且不相关的部分(例如，天空和太阳115)已从输出图像150中被裁剪出，因为它们未被识别为具有任何值得跟踪的相关ROI。

用于宽FOV图像感兴趣区域(ROI)跟踪、取景、虚拟相机移镜和失真校正的系统

现在转向图2，根据一个或多个实施方案，示出了宽FOV图像取景、虚拟相机移镜和失真校正的示例性系统图200。如上文参考图1示出的示例所概述的，本文中描述的“电影式”取景系统200可通过接收输入视频图像帧(205)开始操作。在输入图像帧内，框210可执行感兴趣区域(ROI)检测以及在图像内的一个或多个感兴趣区域的跟踪。如上所述，可针对给定具体实施调谐各种参数，包括ROI的构成，系统有兴趣跟踪的物体类型，以及系统为证明对给定ROI的继续跟踪的合理性强加的任何大小/质量/持续时间要求。

在一些具体实施中，框210可用于执行以下一个或多个操作：1)将ROI检测框坐标从输入图像空间坐标转换为取景空间坐标；2)例如，用对应的身体检测ROI匹配面部检测ROI，使得可确定总体‘人’ROI框(在场景中检测到未匹配的面部/身体的情况下，其可与合成估计的身体/面部匹配，使得可为对象估计出合理的总体身体检测框)；3)在时间上平滑单个ROI检测框的大小和/或位置的变化(例如，使用卡尔曼滤波)；4)估计单个ROI检测框速度(例如，给定ROI检测框在x轴向方向、y轴向方向、和/或大小，在本文中也称为z轴向方向，上的变化有多快)；以及甚至5)估计单个ROI检测框是否移动(例如，基于其估计速度)。然后最终被框210生成的跟踪信息(215)可被传递到跟踪选择框220。

跟踪选择框220可应用各种逻辑规则，包括任何期望的预定跟踪规则或启发法，以确定哪些跟踪的ROI应包含在系统做出的取景决策中。例如，在一些实施方案中，简单地不跟踪面部尺寸小于第一阈值threshold1的基于面部的ROI。在一些此类实施方案中，从跟踪中删除先前跟踪的但现在面部尺寸小于第二阈值threshold2(其中threshold2可能小于threshold1)的基于面部的ROI。在此示例中，具有两个跟踪框大小的阈值可帮助系统避免不期望的边界条件，例如，其中在取景确定过程中由于随着场景构图、场景勒克斯值和/或总体质量水平变化在检测到的面部尺寸中的逐帧快速波动或“噪声”，给定ROI不断被包括和被排除考虑。

在一些实施方案中，可应用其他跟踪规则，例如，可能无法跟踪需要虚拟相机放大超过第一变焦阈值(即，使确定的取景部分相对于总体宽相机FOV变得太大)的ROI踪迹。类似地，还可能从跟踪操作中删除先前跟踪的但需要虚拟相机放大超过第二变焦阈值甚至大于第一变焦阈值的ROI。

在其他实施方案中，当被捕获场景中存在至少一个固定ROI时，就可以从跟踪操作中删除已经移动超过阈值时间量的所有其他ROI。对于所有其他移动ROI(例如，仅仅开始移动的那些)，ROI最后固定位置可用于后续取景决策。如果没有找到满足系统跟踪标准的ROI，则虚拟相机视图可从其当前位置和尺寸所在的任何位置平稳地过渡回宽FOV相机的FOV(例如，具有默认FOV)中心。

各种其他启发法也可能在跟踪选择框220中实施，例如，基于其视觉可见性/质量忽略单个对象或ROI，或者基于估计的场景勒克斯值忽略所有对象或ROI等。

然后最终由跟踪选择框220生成的关于所选ROI跟踪(225)的跟踪信息可被传递到取景确定框230。

取景确定框230的作用已在上文关于图1和从中可生成输出图像的确定输入图像的示例性第二ROI 130和第一部分135中进行了介绍。具体地，例如，根据一个或多个预先确定的取景规则，取景确定框230将确定在线性取景空间中的宽FOV相机的美学选择部分的尺寸和位置，并且然后将所确定的部分映射回输入图像空间并且创建所确定的部分的透视失真校正版本(用潜在修改以排除任何“无效像素”，即映射回输入图像空间的用于相机不具有任何捕获图像数据的像素位置，例如，图1中宽FOV图像100的“黑色”拐角区域)。然后所谓的“虚拟相机目标”信息，即最终由取景确定框230生成的指定来自宽FOV相机(235)的目标确定部分的位置和/或尺寸的信息，可被传递到相机移镜确定框240。

相机移镜确定框240可起到平稳且智能地将用于先前输入视频帧的虚拟相机的视图朝向为当前输入视频帧确定的虚拟相机目标移位的作用。具体地，相机移镜确定框240可根据一个或多个动画曲线确定如何将第二ROI从其当前位置朝向针对当前输入视频帧确定的虚拟相机目标移位。该一个或多个动画曲线可包括水平位移曲线；竖直位移曲线；和/或变焦曲线。对于由动画曲线(例如，水平、竖直和/或变焦)控制的虚拟相机移镜移动的每个轴向方向，相应动画曲线可由以下中的至少一者参数化：加速度值；时间值；或动画约束值。这将允许系统，例如，在每个新帧上，独立地施加一定量的加速度到特定的轴向方向动画曲线，以确保相机以期望的速率和平滑度朝向其取景目标移镜。

例如，如果a_x表示施加于当前虚拟相机位置在x轴(例如，水平)方向上朝向取景目标移动的加速度的量，并且Δt表示自最后一个图像帧以来经过的时间量，并且v_x表示当前图像帧在x轴方向上的虚拟相机的速度，则在时间Δt后虚拟相机在x轴方向上的速度可以表示为：v_x'＝v_x+a_xΔt，同时在时间Δt后虚拟相机在x轴方向上的位置可以表示为：x'＝x+v_x'Δt。对于每个帧，可以在其他轴向方向(例如，y轴向方向和z/变焦轴向方向)上进行类似的确定。现在可以理解，根据所使用的动画曲线和虚拟相机当前位置与其目标位置之间的距离，在一个捕获的输入视频图像帧的持续时间内虚拟相机可能会或可能不会一直移动到达其目标位置。相反，虚拟相机可能需要多帧才能到达其目标位置，每个连续帧只向其目标位置移动一部分路程。当然，基于场景构图，目标位置本身可随着每个捕获帧不断更新，因此虚拟相机将不断想要更新其目标位置并且根据其指定动画曲线朝向其目标移动—即使实际上永远不能达到目标位置终点。

如果给定帧的确定目标位置与虚拟相机的当前位置保持相同(或在阈值Δ内)，则给定帧不需要相机的移动或移镜。如上所述，在某些实施方案中，延迟定时器的使用也可有助于避免不希望的或过度移动。换句话说，在更新的虚拟相机目标位置实际导致虚拟相机位置的移镜或移动之前可设置例如5秒的延迟定时器。这将使场景构图的短暂和/或临时变化不被匆忙的或急促明显的相机移动打断，以尝试适应场景构图的临时变化。然而，如果相机目标位置停留超过远离其当前位置的阈值Δ，长于延迟定时器的设置，则相机移镜确定框240可开始，如上所述，通过更新从当前输入视频图像帧被拉取出的取景部分的位置和/或尺寸，根据一个或多个动画曲线来启动虚拟相机位置的移动。

如果需要，特定动画约束可独立地应用于每个轴向移动方向。例如，移镜约束可包括允许值的间隔(例如，在一个或多个轴向方向上限定最小和/或最大允许速度和/或加速度值)。作为另一示例，加速度和/或速度约束曲线可应用于在一个或多个轴向方向上的移动。例如，可根据需要采用与传统缓入、缓出或缓入缓出贝塞尔动画曲线相当的效果，以进一步平滑虚拟相机的“电影式”移动。例如，缓入曲线可限制虚拟相机在向目标位置移动的开始时的加速度或速度，但是随着虚拟相机接近其目标位置(即，当速度低时，朝向目标的加速度低)，放宽该限制；缓出曲线可限制虚拟相机在其向目标位置移动的结束时的加速度或速度(即，当到目标的位移小时，朝向目标的速度低)；并且缓入缓出式曲线可限制虚拟相机在其朝向目标位置移动的开始和结束时的加速度或速度。

其他类型的动画约束也是可能的。例如，可采用作为虚拟相机到取景空间边缘的当前距离的函数的关于速度的约束，以确保虚拟相机在其接近宽FOV输入相机的视场边界时减速。同样地，可以使用对加速度和/或速度的恒定约束来确保移镜不会太急促或太快。

现在可以理解，这些各种动画约束允许在每个虚拟相机的轴向方向上独立地自定义调谐运动。例如，在一些情况下，与缩小相比，可能需要相对缓慢地进行放大(即，z轴负方向上的最大允许速度的绝对值应较小)。如参考图7将进一步详细解释的，在其他情况下，还可期望变焦(即，z轴方向上的移动)应比移镜(即，在x轴或y轴方向上的移动)相对更快地完成，例如，来避免无意裁剪掉从与当前ROI相对的FOV侧进入场景，并且虚拟相机需要增大尺寸(和/或移动穿过FOV)来适应的新对象的全部或部分或其他ROI。

然后当前输入视频图像帧的取景信息，即由相机移镜确定框240最终生成的指定来自宽FOV相机(245)的所确定的部分的位置和/或尺寸的信息，可被传递到相机重投影/失真校正框250。

在相机重投影/失真校正框250处，使用为当前输入视频图像帧(245)所请求的部分的确定位置和/或尺寸(例如，根据水平FOV、竖直FOV和/或对角线FOV)，一种或多种形式的适当的相机投影和/或失真校正可被应用于当前输入视频帧(255)。在一些实施方案中，也可向重投影/失真校正框250给予其他参数，例如虚拟相机在当前输出视频帧中模拟的期望焦距(或其他镜头参数)(例如，取决于是否有人在场，如果有，估计他们离相机有多远)。在其他实施方案中，也可采用和组合一个或多个内容特定的失真校正模型，例如，基于宽FOV图像的确定部分内的内容(例如，专门针对架构调谐的失真校正模型，或为减少某些类型的动物面部的失真而调谐的失真校正模型等)。如在例如图4中更详细地示出的，根据一些实施方案，虚拟相机的位置可旋转(并且如果请求，可变焦)到输入图像空间中所确定的部分的位置和/或尺寸，并且然后重投影到线性取景空间中以形成平面输出视频图像帧(260)，然后该帧可根据需要显示、存储和/或传输到另一设备(例如，在视频会议应用的情况下)。

宽FOV相机中的透视失真的示例

现在转向图3，根据一个或多个实施方案，示出了在宽FOV相机镜头不同位置处的失真的示例300。在示例300中，相同的人脸在相机FOV的各处被复制，以演示在相机FOV内不同位置处将经历的相对失真。例如，人脸1(315)在示例性框305的中心(其更靠近相机FOV的中心)并且人脸2(320)在示例性框310的中心(其更靠近相机FOV的边缘)。示例性对应的头部到下巴的测量结果已经在人脸1(315)和人脸2(320)中标记。如图所示，人脸2(320)的头部到下巴测量结果335显著大于人脸2(315)的头部到下巴测量结果325。这与在宽FOV相机中的预期一致，更靠近FOV的边缘的物体将开始变得拉伸和/或扭曲。因此，可以理解，对于输出视频图像流中从更靠近宽相机FOV的边缘的区域获取的图像和/或通常从宽相机FOV获取的较大图像可能需要附加的透视失真校正。图3中也示出了从更靠近宽相机FOV的边缘，例如，示例性框310，获取的图像部分可包括一个或多个“无效”像素(即，示例性框310右侧的黑色像素)的原理。在一些实施方案中，如果所确定的部分包括一个或多个无效像素，则可对所确定的部分应用一个或多个调整(例如，减小所确定部分的大小和/或将所确定部分移位回朝向宽FOV相机的FOV中心)以从生成的输出视频图像流中排除任何无效像素。

透视重投影示例

现在转向图4，根据一个或多个实施方案，示出了球形图像旋转并重投影到线性坐标空间的示例400。图像410示出了球形输入图像空间视图(415)的横截面平面(420)的示例。球形输入图像空间415在该示例中可，例如，表示宽FOV相机的FOV，例如，具有120°或更大的FOV的相机。在此示例中，中心点430已经被定义为具有(0°,0°)的球形坐标，即，0°的偏航旋转和0°的俯仰旋转，以及68°的“默认”对角线视场(425)。中心点430也可被认为是输入相机的光学中心。在图像410的示例中，存在系统希望“指引”虚拟相机，例如，为了从宽输入图像的FOV创建平面的透视校正的输出图像，用于视频会议应用等的感兴趣区域(例如，面部435)。ROI 435可在由中心点440表示的位置处居中，该中心点具有球形坐标(θ_yaw,θ_pitch)，即，相对于中心点430偏航旋转θ_yaw度并且俯仰旋转θ_pitch度。在球形(或圆柱形)“取景”图像坐标系中，那些旋转可对应于(u,v)的坐标值。如下所述，在一些实施方案中，电影式取景系统的目标可以是使中心点440从其当前坐标(θ_yaw,θ_pitch)“旋转”到相机中心点430坐标(0,0)。为此，系统可围绕坐标系的竖直轴线施加-θ_yaw弧度的逆旋转，此后，中心点440应具有坐标(0,θ_pitch)。然后系统可围绕坐标系的水平轴线施加-θ_pitch弧度的逆旋转(注意：根据在给定坐标空间中限定的偏航值和俯仰值，旋转角度的符号可能不同)。由于此第二旋转，中心点440将位于(0,0)处。在一些坐标系中，施加旋转的顺序可有影响。这可以用旋转矩阵R总结，所述旋转矩阵R定义为R_yaw*R_pitch。通过将取景空间和所需旋转都选择在同一个球形坐标系中，可通过使用(u,v)坐标在取景空间中应用必要的旋转。在更一般的情况下，例如，取景空间可处于不同的坐标系中，诸如矩形坐标，ROI435的中心点440的位置首先需要转换为对应的球形坐标系，然后才可以进行旋转。

图像450示出了使中心的(或默认的)FOV(425)旋转(箭头455)到以ROI 435的中心点440为中心的确定部分位置(460)和FOV的示例。ROI 435的部分460的位置(和/或FOV)可由智能取景算法确定，例如上述那些算法。应当理解，部分460的FOV也可大于或小于默认的或中心的FOV 425，这取决于取景算法的输出。如图像480中所示，一旦确定输入图像FOV(460)的所需部分，就可将其旋转回相机FOV的中心并重投影(箭头485)到平面输出图像坐标系(在本文中也称为“输出图像空间”)中，以生成平面和透视校正的输出图像490，包括新居中(和失真校正)的ROI 495。在一些实施方案中，将ROI居中并重投影到平面输出图像坐标系中的此任务可在单个数学运算中执行。例如，假设相机的重投影/失真校正模块接收三个参数(即，θ_yaw、θ_pitch和所需FOV)作为输入，则对于输入图像中的每个点，该模块可计算对应的球形坐标，例如，(x,y)。(注意此操作可能需要适当的输入相机校准数据。)然后重投影/失真校正模块可根据以下运算来改变点：(θ^-1 _yaw,θ^-1 _pitch)·(x,y)。最后，所有点可投影回平面输出图像490中。(注意此操作可能需要适当的虚拟相机校准数据。)

取景确定

现在转向图5，根据一个或多个实施方案，示出了基于感兴趣区域(510/515)确定取景空间505中的图像部分的示例500。如上所述，根据一些实施方案，智能取景确定模型的目标可以是确定线性取景空间中的宽FOV输入图像的美观的或“电影式”的部分。在一些情况下，可期望以默认(例如，中间)部分开始，并且然后尽可能少地逐帧修改默认部分(例如，在位置和/或尺寸方面)，以维持所需的美学规则。

可为系统实施任何数量的所需规则，以识别、检测和跟踪被捕获场景中的ROI。例如，诸如场景500的场景可能具有多个人类对象(例如，第一对象525A和第二对象525B)。假设已经在给定具体实施中确定人类头部和肩部作为第一ROI，则系统可最初检测两个不同的第一ROI，即，对应于第一对象525A的头部和肩部的第一ROI 510A和对应于第二对象525B的头部和肩部的第一ROI 510B，期望将其包括在任何美学取景的输出视频图像中。

如上所述，在一些实施方案中，第二ROI(515)还可由系统限定，其中第二ROI 515的位置和尺寸被系统确定为：1)如果可能，完全包含在被捕获场景中识别的任何第一ROI(例如，第一ROI 510A和510B)；和2)例如，根据任何预先确定的取景规则，恰好取景包含在所确定的第二ROI内的任何第一ROI。同样如上所述，通过允许在第一ROI的范围与第二ROI的范围之间的某些边界或边缘以及一个或多个延迟定时器的使用，可抑制，例如，忽略第二ROI(即，由该一个或多个第一ROI的移动和大小变化引起)的移动，直到一个或多个第一ROI已经移动在距第二ROI的边界的阈值距离内(并且，任选地，保持在这样的位置内超过阈值时间量)。在其他实施方案中，可禁用移动抑制的第二ROI，其中第一部分被确定，例如，仅作为包括场景中的任何第一ROI的边界框(以及任何期望的边缘)。

基于第二ROI(515)的位置和尺寸，并且根据一个或多个预先确定的取景规则和/或可调谐参数，可确定第一部分520的位置和尺寸。如上所述，在一些实施方案中，第二ROI(515)和第一部分(520)的尺寸和位置可通过一个或多个可调谐参数化等式相关。例如，第一部分可被配置为使得第二ROI构成第一部分的水平范围的75％和第一部分的竖直范围的50％，同时在第一部分内水平居中并且位于第一部分的竖直范围的顶部1/3处。第一部分相对于第二ROI的放置也可能基于其他因素，诸如变焦级别、场景构图、场景质量、设备定向等。

应当理解，在一些情况下，对于预先确定的取景规则和/或给定确定的第一部分要满足的参数，对象会太大、太小或定位得太靠近广FOV相机的FOV的边缘。在这种情况下，可以简单地忽略第一ROI中的不能包含在第二ROI中的部分。或者，该系统可允许在技术上落入取景空间的“外部”的第一部分被包括在输出视频图像流中(例如，用模糊像素、黑色像素、透明像素、重复边缘像素等填充输出图像FOV中的“无效”像素)。

现在转向图6，根据一个或多个实施方案，示出了基于感兴趣区域来确定取景空间中的图像部分的附加示例600。如图6示出，应当理解，与取景确定相关的对象的部分可因具体实施而变化，以及基于对象的捕获场景中的估计深度而变化。例如，对于离相机距离极小的对象(如在取景空间605A中的对象610A所示)，对象的面部在图像帧中将是突出的，并且因此可对第一ROI 615A/第二ROI 620A的位置和/或尺寸的最终确定具有比场景中的其他元素更大的权重或影响。对于离相机距离相对较小的对象(如在取景空间605B中的对象610B所示)，对象的额头可以是在图像帧中正确取景的最重要的特征，并且因此可以对第一ROI 615B/第二ROI 620B的位置和/或尺寸的最终确定具有比场景中的其他元素更大的权重或影响。对于离相机距离较大的对象(如在取景空间605C中的对象610C所示)，对象的整个头部可以是在图像帧中正确取景的最重要的特征，并且因此可以对第一ROI 615C/第二ROI 620C的位置和/或尺寸的最终确定具有比场景中的其他元素更大的权重或影响。应当理解，这些组合仅仅是示例性的，并且它们可根据第二ROI和第一部分的参数化和其他用户体验选择或取景偏好而被调谐。

虚拟相机移镜确定

现在转向图7，示出了根据一个或多个实施方案的在使用和不使用确定枢转点的情况下确定图像移镜移动的示例性场景700/750。首先查看示例性场景A 700，当前部分框705表示正在用于生成输出图像的宽相机FOV的当前部分。如图所示，当前部分框705恰好在场景的右边缘上在当前部分框705的竖直范围的约1/3处取景男性对象的头部和肩部。在示例性场景700中，女性对象在左边缘上进入场景，从而导致智能取景算法确定新的目标部分框710，其将在场景的所确定的部分中包括女性和男性对象两者。如上所述，相机移镜确定模块将开始扩展当前部分框705并在确定时间间隔Δt期间将其朝向目标部分框710移位，例如根据一个或多个动画曲线735，其可以用于在x轴、y轴或z轴方向中的任何方向上指定当前部分框705朝向其目标部分位置和尺寸(示出为目标部分框710)的更新位置、速度和/或加速度。

然而，在一些情况下，例如由于场景的构图、目标部分框的位置和/或尺寸和当前部分框在x轴、y轴或z轴方向中的每个方向上的相对速度等，可以在当前部分朝向其目标部分终点移动时以不美观的方式从当前部分中切出第一ROI中的一个的所有或子部分。例如，在示例性场景A 700中，虚拟相机将使用当前部分框705的初始中心点715作为移镜操作的“枢转点”来移镜。也就是说，当前部分框705内的所有点将相对于中心点715朝向目标部分框710的位置和尺寸移动和扩展。如示例性场景A 700所示，这意味着当前部分框的中心点715将平移为点720，即目标部分框710的中心点。然而，如果从中心点715沿着虚线箭头至点720的这种移动比当前部分框705可扩展至目标部分框710的尺寸更快地发生，则可能存在其中例如女性对象的头部被裁出帧的一个或多个帧，即，直到当前部分框的尺寸可以充分放大/扩大以涵盖女性对象全身为止。路径730示出了当前部分框705中的点中的每个点(例如，包括图7中示出的左下中心点)也根据动画曲线735平移和扩展，使得当前部分的左下角点最终作为目标部分的左下角点。如图所示，左下角点的一些量的移动将是由于当前部分整体的平移，并且左下角点的一些量的移动将是由于当前部分框的扩展。与左下角一样，当前部分的左上角点最终作为目标部分的左上角点，等等，对于当前部分中的所有点，其最终作为相对于其在目标部分中的对应点。

现在查看示例性场景B 750，和，系统可以替代地确定所谓“枢转点”以进行缩放并围绕其移动，而非缩放当前部分并围绕其中心点将其朝向其目标部分终点移动。如上所述，当前部分矩形的缩放和移动可以相对于矩形内的任何点来表达，例如，中心、左下角、自顶而下1/3点和自左而右1/3点等。因此，根据示例性场景B 750，可以例如经由优化操作确定枢转点，使得其是当前部分和目标部分两者内的点，其相对位置尽可能彼此接近，并且理想地是在相同位置处。使用此类确定点作为从当前部分到目标部分的移镜移动的枢转点将有助于使枢转平移最小化，并且在当前部分朝向其目标部分移动时避免不太美观的取景决策，诸如上述示例性场景，其中在当前部分框相对于其中心点平移时女性对象的头部被短暂地裁出帧。

如示例性场景B 750所示，在当前部分中存在枢转点765，该点几乎与其在目标部分框710中的对应点770同位。换句话说，点765和770中的每个点沿着右边缘并且在从相应部分框的竖直范围自顶而下大约1/4处。因此，如775所示，枢转点基本上不需要平移(或需要极小的平移)以达到其在目标部分框710内的对应位置。因此，当前部分中的点可以在时间间隔Δt期间简单地扩展到其在目标部分框710中的对应位置，例如根据动画曲线785。在一些实施方案中，可以针对每个帧重新确定枢转点(例如，在随后已更新目标部分的位置和/或尺寸的情况下)，以便使枢转点平移最小化，并且然后可以针对示例性点(例如，左上角点)计算当前部分框的x轴、y轴和z轴方向速度。此时，可以将枢转点平移(如有必要)，并且可以朝向目标部分终点更新当前部分的左上点和其尺寸。现在可以理解，通过使枢转平移最小化，当平移到目标部分框710的位置和尺寸时，当前部分不太可能导致视觉上不美观的结果，例如，由于尝试在其扩展(或收缩)同时平移而引起不美观结果。

执行宽FOV视频图像流的“电影式”取景的示例性方法

图8A是根据各种实施方案示出从宽FOV图像中生成图像部分的方法800的流程图。首先，在步骤802处，方法800可以从由一个或多个图像捕获设备捕获的传入图像流中获得第一图像，其中传入图像流包括被捕获场景的两个或更多个图像，每个图像具有第一视场(FOV)。接下来，在步骤804处，方法800可以在第一图像内确定被捕获场景中的第一感兴趣区域(ROI)，其中第一ROI包括在具有第二FOV的第一图像内的第一位置，其中第二FOV小于第一FOV，其中第一ROI包括被捕获场景内的确定用于包括在第一输出图像中的内容，并且其中第一输出图像包括第一图像的第一部分。

接下来，在步骤806处，方法800可以在第一图像内确定被捕获场景中的第二ROI，其中第二ROI包括至少部分地基于第一位置(和任选地，一个或多个预先确定的取景规则)来确定的第一图像内的第二位置，并且其中第二ROI具有第三FOV，该第三FOV小于第一FOV并且至少部分地包含第一ROI。根据一些实施方案，优选的是在给定具体实施中，给定场景的构图和预先确定的取景规则时，第二ROI在任何可能的时候完全包含第一ROI。

接下来，在步骤808处，方法800可以至少部分地基于第二ROI的第二位置和第三FOV来确定第一图像的第一部分。最后，在步骤810处，方法800可以至少部分地基于第一图像的所确定的第一部分来生成第一输出图像。如果需要，在步骤812处，方法800还可以在生成第一输出图像之前对所确定的第一部分应用透视失真校正。根据一些实施方案，可以对所确定的第一部分应用各种形式的透视失真校正(例如，桶形失真校正、鱼眼镜头失真校正等)，其中要应用的各种形式的失真的权重基于所确定的第一部分的FOV、其中的内容或其他因素。在一些情况下，还可以在步骤812处应用附加倾斜校正以考虑重力矢量相对于输出图像的方向，例如，通过使输出图像旋转所需的任何附加量，使得在输出图像中重力矢量始终指向下。最后，如有必要，可以将第一部分移位和/或缩放，以避免可能已经通过初始透视失真校正操作被拉入第一输出图像中的任何“无效”像素。

图8B是根据各种实施方案示出从宽FOV视频图像流中生成图像部分的方法820的流程图。图8B提供了可以应用于最初在图8A中提到的传入图像流的第二图像(或任何后续图像)的处理操作类型的示例。通过继续在传入图像流的图像中逐帧跟踪并移位ROI的位置/缩放ROI的尺寸，可以确定用于制作“电影式”取景的输出视频图像流的美学取景和移镜决策。

现在返回图8B，首先，在步骤822处，方法820可以从传入图像流中获得第二图像，其中第二图像继第一图像之后被捕获。接下来，在步骤824处，方法820可以从第一图像中的第一位置到第二图像内的第三位置跟踪被捕获场景中的第一ROI。接下来，在步骤826处，方法820可以至少部分地基于第一位置与第三位置之间的距离大于预先确定的阈值来确定将第一图像中第二ROI的第二位置更新为第二图像内的第四位置。例如，如果第一位置与第三位置之间的距离小于预先确定的阈值，则方法可以简单地确定不更新第二ROI的第二位置，因为就观众的体验而言，在输出视频图像流的过程期间第二ROI(并且因此第一部分)的过多移动结果可能太过突兀。同样，如果第三位置远离第一位置已经大于阈值距离—但仅持续少于阈值时间量—方法也可以选择不更新第二ROI的位置，因为第一ROI到第三位置的移动可能仅是经过第三位置(例如，用户弯腰离开画面并且然后又站直回归画面)，在这种情况下，尝试更新第二ROI(并且因此第一部分)的第二位置可能太过突兀。

接下来，在步骤828处，方法820可以至少部分地基于第二图像内第二ROI的第四位置来确定第二图像的第二部分。在一些情况下，确定第二部分可能需要根据一个或多个动画曲线将第二ROI从第二位置朝向第四位置移位(步骤830)。应当理解，第二ROI可以花费若干帧的时长以实际达到其移动到第四位置的目标，每个后续帧移动仅一部分路程。此外，在第二ROI的移动的过程期间，第四位置可以不断地更新和改变。进一步地，第二ROI可以在任何时间消失或离开场景，此时其可以停止被跟踪(并且因此(即使部分地)停止驱动系统的取景决策)。在一些情况下，还可以相对于第二ROI内的确定枢转点来进行将第二ROI从第二位置朝向第四位置移位，例如，以避免在输出视频图像流中出现不太美观的部分，如上文参考图7(步骤832)所描述的。最后，在步骤834处，方法820可以至少部分地基于第一图像的所确定的第二部分来生成第二输出图像。如果需要，在步骤836处，方法820还可以在生成第二输出图像之前对所确定的第二部分应用透视失真校正，如上文参考步骤812所描述的。

图8C是示出图8B的步骤824的附加细节的流程图，包括根据各种实施方案的从宽FOV视频图像流中重新缩放图像部分的方法。首先，在步骤842处，方法可以在第二图像中确定第一ROI的更新后的第二FOV。接下来，在步骤844处，方法可以基于更新后的第二FOV来确定更新第二ROI的第三FOV(例如，更新为比其当前FOV更大或更小)。最后，在步骤846处，方法可以至少部分地基于第二图像内第二ROI的更新后的第三FOV(例如，基于第一ROI的大小随时间推移增大或减小来增大或减少第二ROI的最初确定的第三FOV)来进一步确定第二图像中的第二部分。

示例性电子计算设备

现在参见图9，其示出了根据一个实施方案的说明性的可编程电子设备900的简化的功能框图。电子设备900可为例如移动电话、个人媒体设备、便携式相机、或平板电脑、笔记本电脑或台式计算机的系统。如图所示，电子设备900可包括处理器905、显示器910、用户界面915、图形硬件920、设备传感器925(例如，接近传感器/环境光传感器、加速度计、惯性测量单元和/或陀螺仪)、麦克风930、音频编解码器935、扬声器940、通信电路945、图像捕获设备950(例如，其可包括具有不同特性或能力(例如，静止图像稳定(SIS)、HDR、OIS系统、光学变焦和数字变焦等)的多个相机单元/光学图像传感器)、视频编解码器955、存储器960、存储装置965以及通信总线970。

处理器905可执行有必要用于实施或控制由电子设备900所执行的多种功能的操作的指令(例如，根据本文描述的各种实施方案的图像的生成和/或处理)。处理器905可例如用于驱动显示器910并可从用户界面915接收用户输入。用户界面915可采取多种形式，诸如按钮、小键盘、拨号盘、点击轮、键盘、显示屏和/或触摸屏。用户界面915可以例如是用户可以通过其观看所捕获的视频流的导线管和/或指示用户想要捕获的特定图像帧(例如，通过在设备的显示屏上正显示所需图像帧的时刻点击物理按钮或虚拟按钮)。在一个实施方案中，显示器910可显示在处理器905和/或图形硬件920和/或图像捕获电路同时地生成视频流并将视频流存储在存储器960和/或存储装置965中时其被捕获的视频流。处理器905可为片上系统(SOC)诸如存在于移动设备中的那些片上系统，并且可包括一个或多个专用图形处理单元(GPU)。处理器905可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。图形硬件920可以是用于处理图形并/或辅助处理器905执行计算任务的专用计算硬件。在一个实施方案中，图形硬件920可包括一个或多个可编程图形处理单元(GPU)和/或一个或多个专用SOC，例如，专门设计用于比主设备中央处理单元(CPU)或典型的GPU(诸如Apple的神经引擎处理核心)更节能的方式实现神经网络和机器学习操作(例如，卷积)。

例如，根据本公开，图像捕获设备950可包括一个或多个相机单元，该一个或多个相机单元被配置为捕获图像，例如，可被处理以生成所述捕获图像的图像定位和/或失真校正版本的图像。至少部分地通过以下设备可处理来自图像捕获设备950的输出：视频编解码器955和/或处理器905和/或图形硬件920、和/或结合在图像捕获设备950内的专用图像处理单元或图像信号处理器。这样捕获的图像可被存储在存储器960和/或存储装置965中。存储器960可包括由处理器905、图形硬件920和图像捕获设备950使用的一种或多种不同类型的介质以执行设备功能。例如，存储器960可包括存储器高速缓存、只读存储器(ROM)和/或随机存取存储器(RAM)。存储装置965可存储介质(例如，音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置965可包括一个或多个非暂态存储介质，该一个或多个非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质诸如CD-ROM和数字视频光盘(DVD)、以及半导体存储器设备诸如电可编程只读存储器(EPROM)、和电可擦除可编程只读存储器(EEPROM)。存储器960和存储装置965可用于保持被组织成一个或多个模块并以任何期望的计算机编程语言编写的计算机程序指令或代码。例如，在由处理器905执行时，此类计算机程序代码可实现本文所述的方法或过程中的一种或多种。电源975可包括用于管理电子设备900的电子部件和相关联的电路和/或向该电子设备的电子部件和相关联的电路提供电力的可再充电电池(例如，锂离子电池等)或到电源(例如，到电源)的其他电连接。

应当理解，以上描述旨在是示例性的而非限制性的。例如，可彼此结合地使用上述实施方案。在回顾以上描述时，许多其他实施方案对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。

Claims

1.一种设备，所述设备包括：

存储器；

一个或多个图像捕获设备；和

一个或多个处理器，所述一个或多个处理器可操作地耦接到所述存储器，其中所述一个或多个处理器被配置为执行使所述一个或多个处理器进行以下操作的指令：

从由所述一个或多个图像捕获设备中的至少一个图像捕获设备捕获的传入图像流中获得第一图像，其中所述传入图像流包括被捕获场景的两个或更多个图像，每个图像具有第一视场(FOV)；

在所述第一图像内确定所述被捕获场景中的第一感兴趣区域(ROI)，其中所述第一ROI包括所述第一图像内的具有第二FOV的第一位置，其中所述第二FOV小于所述第一FOV，其中所述第一ROI包括所述被捕获场景内的确定用于包括在第一输出图像中的内容，并且其中所述第一输出图像包括所述第一图像的第一部分；

在所述第一图像内确定所述被捕获场景中的第二ROI，其中所述第二ROI包括所述第一图像内的至少部分地基于所述第一位置来确定的第二位置，并且其中所述第二ROI具有第三FOV，所述第三FOV小于所述第一FOV并且至少部分地包含所述第一ROI；

至少部分地基于所述第二ROI的所述第二位置和所述第三FOV来确定所述第一图像的所述第一部分；以及

至少部分地基于所述第一图像的所确定的第一部分来生成所述第一输出图像。

2.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

从所述传入图像流中获得第二图像，其中所述第二图像继所述第一图像之后被捕获；

从所述第一图像中的所述第一位置到所述第二图像内的第三位置跟踪所述被捕获场景中的所述第一ROI；

至少部分地基于所述第一位置与所述第三位置之间的距离大于预先确定的阈值来确定将所述第一图像中所述第二ROI的所述第二位置更新为所述第二图像内的第四位置；

至少部分地基于所述第二图像内所述第二ROI的所述第四位置来确定所述第二图像的第二部分；以及

至少部分地基于所述第二图像的所确定的第二部分来生成第二输出图像。

3.根据权利要求2所述的设备，其中使所述一个或多个处理器从所述第一图像中的所述第一位置到所述第二图像内的第三位置跟踪所述被捕获场景中的所述第一ROI的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

确定所述第二图像中所述第一ROI的更新后的第二FOV；

基于所述更新后的第二FOV来确定更新所述第二ROI的所述第三FOV；以及

至少部分地基于所述第二图像内所述第二ROI的所述更新后的第三FOV来进一步确定所述第二图像的所述第二部分。

4.根据权利要求1所述的设备，其中使所述一个或多个处理器生成所述第一输出图像的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

至少部分地基于所述第一图像内所述第二ROI的所述第二位置和所述第二ROI的所述第三FOV，对所述第一图像的所确定的第一部分应用透视失真校正。

5.根据权利要求1所述的设备，其中所述第一ROI还包括所述第一图像内的具有第四FOV的第三位置，其中所述第四FOV小于所述第一FOV，并且其中所述第四FOV包括所述被捕获场景内的确定用于包括在所述第一输出图像中的另外的内容。

6.根据权利要求5所述的设备，其中使所述一个或多个处理器确定所述第二ROI的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

至少部分地基于所述第三位置来进一步确定所述第二ROI的所述第二位置，其中所述第二ROI还至少部分地包含所述第四FOV。

7.根据权利要求1所述的设备，其中所述第三FOV包含所述第一ROI的全部。

8.根据权利要求2所述的设备，其中使所述一个或多个处理器确定所述第二图像的第二部分的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

根据一个或多个动画曲线将所述第二ROI从所述第二位置朝向所述第四位置移位。

9.根据权利要求8所述的设备，其中所述一个或多个动画曲线包括：水平位移曲线；竖直位移曲线；和变焦曲线。

10.根据权利要求8所述的设备，其中所述一个或多个动画曲线中的至少一个动画曲线通过以下中的至少一者参数化：加速度值；时间值；或动画约束值。

11.根据权利要求8所述的设备，其中使所述一个或多个处理器根据一个或多个动画曲线将所述第二ROI从所述第二位置朝向所述第四位置移位的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

根据所述一个或多个动画曲线将所述第二ROI从所述第二位置朝向所述第四位置移位一部分路程。

12.根据权利要求8所述的设备，其中使所述一个或多个处理器根据一个或多个动画曲线将所述第二ROI从所述第二位置朝向所述第四位置移位的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

根据所述一个或多个动画曲线将所述第二ROI从所述第二位置一直移位到所述第四位置。

13.根据权利要求1所述的设备，其中使所述一个或多个处理器确定包括所述第一图像内的第二位置的所述被捕获场景中的第二ROI的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

根据一个或多个预先确定的取景规则，至少部分地基于将所述第一ROI的至少一部分取景在所述第二ROI内来确定所述第二ROI的所述第二位置。

14.根据权利要求1所述的设备，其中使所述一个或多个处理器至少部分地基于所述第二ROI的所述第二位置和所述第三FOV来确定所述第一图像的所述第一部分的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

根据一个或多个预先确定的取景规则，至少部分地基于将所述第二ROI取景在所述第一部分内来确定所述第一部分的第三位置。

15.根据权利要求8所述的设备，其中使所述一个或多个处理器将所述第二ROI从所述第二位置朝向所述第四位置移位的所述指令还包括使所述一个或多个处理器进行以下操作的指令：

将所述第二ROI相对于所述第二ROI内的确定的枢转点从所述第二位置朝向所述第四位置移位。

16.根据权利要求1所述的设备，其中第一ROI包括人类对象，并且其中至少部分地基于所述人类对象在所述被捕获场景中的估计深度来确定所述第一ROI的所述第二FOV的大小。

17.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

在所述设备的显示器上显示所述第一输出图像。

18.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

向第二设备传输所述第一输出图像。

19.一种非暂态程序存储设备(NPSD)，所述NPSD包括能够由一个或多个处理器执行以进行以下操作的指令：

从由至少一个图像捕获设备捕获的传入图像流中获得第一图像，其中所述传入图像流包括被捕获场景的两个或更多个图像，每个图像具有第一视场(FOV)；

在所述第一图像内确定所述被捕获场景中的第二ROI，其中所述第二ROI包括至少部分地基于所述第一位置来确定的所述第一图像内的第二位置，并且其中所述第二ROI具有第三FOV，所述第三FOV小于所述第一FOV并且至少部分地包含所述第一ROI；至少部分地基于所述第二ROI的所述第二位置和所述第三FOV来确定所述第一图像的所述第一部分；以及

20.一种图像处理方法，所述图像处理方法包括：

在所述第一图像内确定所述被捕获场景中的第二ROI，其中所述第二ROI包括至少部分地基于所述第一位置来确定的所述第一图像内的第二位置，并且其中所述第二ROI具有第三FOV，所述第三FOV小于所述第一FOV并且至少部分地包含所述第一ROI；