CN114342358A

CN114342358A - 运动场景中的实时图像生成

Info

Publication number: CN114342358A
Application number: CN202080061470.2A
Authority: CN
Inventors: S·曼干
Original assignee: Navigation 81 Co
Current assignee: Navigation 81 Co
Priority date: 2019-07-09
Filing date: 2020-07-09
Publication date: 2022-04-12
Also published as: WO2021005609A1; EP3997864A4; US11910001B2; US20220256183A1; US20220279203A1; IL289681A; JP2022540858A; WO2021005608A1; KR20220031682A; EP3997864A1

Abstract

一种方法，包括：接收场景的高帧速率视频流，其中该场景包括相对于获取视频流的成像设备运动的至少一个对象；将视频流实时连续地划分为至少一个连续序列，每序列n帧；对于每个当前序列：(i)估计序列中的至少一些帧对之间的像素运动，(ii)计算序列中的每个像素的运动矢量场，(iii)基于计算的运动矢量场来生成将所有像素共同定位到相应像素位置的代表性帧，以及(iv)对于相应像素位置中的每一个，聚合来自序列中所有帧的像素值；以及实时输出代表性帧的流，其中流具有比高帧速率低的帧速率。

Description

运动场景中的实时图像生成

相关申请的交叉引用

本申请要求2019年7月9日提交的题为“SYSTEM AND METHOD FOR REAL-TIMEIMAGE GENERATION IN MOVING SCENES”的美国临时专利申请No.62/871,941的优先权，其内容全部通过引用并入本文。

技术领域

本发明涉及计算机图像处理领域。

背景技术

数字成像设备在电子图像传感器上形成图像以创建场景的电子表示。传感器通常由二维像素阵列组成，每个像素都充当在传感器暴露于场景期间积累的光的储存库。

由于成像设备的收集效率，只有少量的光照射到像素上，并且传感器的曝光时间必须足够长才能收集到足够量的光。最佳曝光时间必须考虑环境光照条件等因素。例如，场景越暗，曝光时间就应该越长，以保证足够的图像亮度。但是，如果场景中的对象在捕获期间移动，则较长的曝光时间可能会导致图像具有对象运动模糊和噪点。随着具有越来越小的像素面积的图像传感器的现代趋势，该问题变得更加显著。

减少对象运动模糊的一种方法是缩短曝光时间。但是，较短的曝光时间可能会导致图像亮度不足，尤其是在较暗的条件下或较暗的阴影和图像的其他低光区段。此外，短曝光时间会导致有用光子的浪费和动态范围的损失，这些光子本来可以被收集并为图像提供扩展的动态范围。

相关技术的前述示例和与其相关的限制旨在说明性而非排他性的。通过阅读说明书和研究附图，相关技术的其他限制对本领域技术人员将变得明显。

发明内容

结合旨在示例性和说明性而非限制范围的系统、工具和方法来描述和说明以下实施例及其方面。

在一些实施例中，本公开提供一种系统、方法和计算机程序产品，用于通过使用高帧速率相机以及空间时间计算方案和简化的光流算法来有效地实时计算运动矢量场。在一个实施例中，本发明设置的条件，特别是快速帧速率和在多个分辨率和多个时间间隔下的空间时间导数，允许利用100％的光子撞击传感器，从而为计算提供最优SNR条件。在另一个实施例中，本发明设置的条件，特别是最优SNR、快速帧速率以及在多个分辨率和多个时间间隔下的空间时间导数，将运动检测问题带到需要单次迭代来求解孔径问题并以像素分辨率生成运动场矢量的状况。因此，这使得能够在快速运动条件下从多个高速帧计算平均图像帧，在一个实施例中，其被转换为标准颜色空间图像或视频输出。

在一个实施例中，提供一种系统，包括至少一个硬件处理器；以及其上存储有程序指令的非暂时性计算机可读存储介质，程序指令可由至少一个硬件处理器执行以：接收场景的高帧速率视频流，其中场景包括相对于获取视频流的成像设备运动的至少一个对象，实时连续地将视频流划分为至少一个连续帧序列，每序列n帧，对于每个当前序列：(i)估计序列中的至少一些帧对之间的像素运动，(ii)计算序列中的每个像素的运动矢量场，(iii)基于计算的运动矢量场，生成将所有像素共同定位到相应像素位置的代表性帧，以及(iv)对于相应像素位置中的每一个，聚合来自序列中的所有帧的像素值，并且实时输出代表性帧的流，其中流具有比高帧速率低的帧速率。

在一个实施例中，还提供一种方法，包括：接收场景的高帧速率视频流，其中该场景包括相对于获取视频流的成像设备运动的至少一个对象；将视频流实时连续划分为至少一个连续序列，每序列n帧；对于每个当前序列：(i)估计序列中的至少一些帧对之间的像素运动，(ii)计算序列中的每个像素的运动矢量场，(iii)基于计算的运动矢量场，生成将所有像素共同定位到相应像素位置的代表性帧，以及(iv)对于相应像素位置中的每一个，聚合来自序列中的所有帧的像素值，并且实时输出代表性帧的流，其中流具有比高帧速率低的帧速率。

在一个实施例中，进一步提供一种计算机程序产品，该计算机程序产品包括具有体现在其中的程序代码的非暂时性计算机可读存储介质，程序代码可由至少一个硬件处理器执行以：接收场景的高帧速率视频流，其中该场景包括相对于获取视频流的成像设备运动的至少一个对象；将视频流实时连续划分为至少一个连续序列，每序列n帧；对于每个当前序列：(i)估计序列中的至少一些帧对之间的像素运动，(ii)计算序列中的每个像素的运动矢量场，(iii)基于计算的运动矢量场，生成将所有像素共同定位到相应像素位置的代表性帧，以及(iv)对于相应像素位置中的每一个，聚合来自序列中的所有帧的像素值，并且实时输出代表性帧的流，其中流具有比高帧速率低的帧速率。

在一些实施例中，至少一些帧对是相邻的帧对。

在一些实施例中，至少一些帧对是不相邻的帧对。

在一些实施例中，仅对于序列中的对的子集执行估计。

在一些实施例中，用以下中的至少一项来初始化估计：与序列中的对中的在前对相关联的估计；与视频流中的在前时间点相关联的估计；以及分层运动估计。

在一些实施例中，使用光流系统执行估计。

在一些实施例中，估计至少部分地基于下采样分辨率级别。

在一些实施例中，通过相对于运动矢量场联合求解多帧多级时间-空间平滑度约束，在(i)序列中的帧的子集和(ii)分辨率级别的子集上进一步细化计算。

在一些实施例中，高帧速率在每秒120-10,000帧(fps)之间。

在一些实施例中，至少部分地基于高帧速率和低帧速率之间的比率来确定n。

在一些实施例中，基于输出流的期望帧速率来确定较低帧速率。

在一些实施例中，至少部分地基于与估计、计算、生成和聚合相关联的处理时间进一步确定n。

在一些实施例中，输出进一步包括(i)从RGB颜色空间中的每个代表性帧生成图像，以及(ii)输出图像。

在一些实施例中，对于相应像素位置中的每一个，使用像素平均来执行聚合。

除了上述示例性方面和实施例之外，通过参考附图并通过研究以下具体实施方式，其他方面和实施例将变得明显。

附图说明

示例性实施例在参考图中图示。通常选择图中所示的部件和特征部的尺寸是为了方便和呈现的清晰度，不一定按比例显示。下面列出了这些图。

图1示出了根据本发明的示例性实施例的用于使用高帧速率成像设备自动实时生成运动场景中具有减少的运动模糊和高信噪比(SNR)的图像的示例性系统；

图2是详细说明根据本发明的示例性实施例的用于使用高帧速率成像设备自动实时生成具有运动场景的减少的运动模糊和高信噪比(SNR)的图像的过程中的功能步骤的流程图；以及

图3A-图3B是根据本发明的示例性实施例的用于使用高帧速率成像设备自动实时生成具有运动场景的减少的运动模糊和高信噪比(SNR)的图像的迭代过程的示意图。

具体实施方式

本文描述了一种系统、方法和计算机程序产品，用于使用高帧速率成像设备自动实时生成具有运动场景的减少的运动模糊、高动态范围和高信噪比(SNR)的图像。

在一些实施例中，本公开对于从帧序列(例如，视频流)生成场景的低噪声图像特别有用，该帧序列由高帧速率成像设备在低光照条件下和/或当在场景中的对象运动时获取。

运动模糊和信号噪声是数字成像中图像质量下降的主要根源。在低光照条件下，图像质量通常是运动模糊和噪声之间的折衷。为了获得足够的信噪比，在低照明级别下需要长的曝光时间。另一方面，由于相机引起的运动或主体运动而导致运动模糊的风险随着曝光时间变长而增加。

当相机或对象在曝光周期期间移动时，就会出现运动模糊。发生这种情况时，对象的图像会在曝光时间期间移动到相机传感器感光表面的不同区域。因此，当曝光时间为很长一段时间时，相机运动或场景中对象的运动很可能在图像中变得可见。

数码相机噪声包括多个噪声源，例如由光电传感器部件产生的噪声；光电传感器电压泄漏生成的噪声；与图像传感器像素的不均匀性相关联的图案噪声；或主要噪声源-光子散粒噪声-它与在给定时间间隔期间由传感器像素捕获的光子数量的随机性相关联。由于散粒噪声的泊松分布，相对噪声随着光量的增加而降低，因此更长的曝光时间可以改进SNR。

在移动设备相机中尤其如此，例如智能电话相机。由于它们的尺寸更小，像素在相同的曝光时间内接收到的光子数量更少。此外，获得的信号中还存在各种来源引起的随机噪声。

减少图像中相对噪声量(即提高SNR)的最有效方法是使用更长的曝光时间，这允许传感器观察到更多的光子。但是，在长曝光时间的情况下，运动模糊的风险会增加。

试图缓解这些问题的已知方法包括：

·应用卷积核来提高图像分辨率，但是这些技术只能提供有限的改进，通常是在运动范围小且全局的情况下。

·使用光学或电子图像稳定来减轻小范围的相机运动和振动。然而，虽然对于补偿相机抖动很有用，但当运动范围大或不是全局的时，这些技术是无效的。

·抓取多个帧，基于锐度标准选择帧。

然而，这种方法无法处理场景中的非均匀运动。

然而，这些已知方法通常不能有效地处理低光照条件、并发的相机运动和对象运动，和/或大的帧到帧运动速率。

因此，在一些实施例中，本公开提供一种过程，该过程例如使用高帧速率成像设备来捕获场景的高帧速率、短曝光时间的图像帧的序列。

在一些实施例中，本公开随后计算帧的序列内的相邻帧对之间的像素级运动。

在一些实施例中，本公开随后计算在序列中遍及所有帧的针对每个像素的运动矢量场。

在一些实施例中，本公开随后规定计算在序列中遍及所有帧的针对每个像素位置的聚合像素值，其中聚合补偿不同帧的像素之间的运动。在一些实施例中，然后可以使用聚合像素值来生成在序列中的所有帧的代表性图像，其中与序列中的任何单个帧相比，每个像素位置反映了捕获的光子量增加，因此SNR更高。在一些实施例中，遍及多个短曝光帧的聚合或组合像素值用于增加所得代表性图像的有效曝光时间，而不会招致任何运动模糊损失。

在一些实施例中，可以迭代地执行该过程，例如，对来自连续视频流的连续序列。在一些实施例中，关于每个这样的序列，本公开规定输出代表性帧，其中与序列中的任何单个帧相比，每个像素位置反映了增加的捕获光子量，并因此反映了更高的SNR。在一些实施例中，本公开规定以低于流的较高采集帧速率的帧速率输出代表性帧的对应的流，例如，10-100fps的输出速率。在一些实施例中，本公开的输出流帧速率可以基于期望的输出帧速率来确定，例如，结合下游应用程序或实施方式的要求。

在一些实施例中，然后可以将生成的代表性图像和/或图像的流转换为例如标准RGB颜色空间并作为标准RGB图像输出。

在一些实施例中，本公开规定实时执行该过程，例如，通过从接收到的高帧速率图像流(例如视频流)实时生成无运动模糊的高SNR图像的连续的较低帧速率流。在一些实施例中，通过利用表示相对小的帧到帧运动速率的高帧速率输入流，可以实现连续实时代表性图像生成，因为本过程规定减少的计算开销要求。因此，可以在常用的成像平台(例如移动设备)上快速有效地计算运动估计，而无需离线处理。

在一些实施例中，本公开基于聚合来自多个高帧速率、短曝光时间帧的代表性图像帧曝光时间，其可以规定更大的动态照明范围，因为在强光照下，这可以防止由于图像传感器的全阱容量有限而导致的饱和，并且能够实现在整个成像时间内100％光子收集，从而提高SNR和运动检测精度。在低光照条件下，这可以防止场景中强光源造成饱和，并将它们用作强运动锚点，同时实现场景中较暗区域的100％光子收集。

在一些实施例中，本公开可能特别适合使用常用的技术和设备来实施，例如：

·低成本、高速CMOS图像传感器，

·可以以例如每秒120-10,000帧(fps)的速率运行的高帧速率图像传感器，

·封装的移动设备，诸如智能电话，将图像传感器、存储器和适当的处理能力并入低功耗的小单元中，和/或

·使用小型处理单元的高效、高度并行处理模块，诸如能够集成在智能相机或移动设备中的图形处理单元(GPU)、张量处理单元(TPU)和人工智能处理单元(AIU)，或其他乘法累加(MAC)运算阵列。

因此，本公开的潜在优势在于它规定对高帧速率图像或视频流的序列中的运动矢量场的有效实时计算，这允许聚合撞击图像传感器中的每个像素位置上的光子总量，以产生运动补偿的、高动态范围、高SNR代表性的标准颜色空间图像的连续流作为输出。

通过使用更高帧速率的图像采集，对于具有期望帧速率输出的给定场景，本公开提高了在宽动态范围的照明条件下操作的能力。在强光下，这防止图像传感器的全阱容量有限而导致的饱和，并在整个成像时间期间实现100％的光子收集，从而提高SNR和运动检测精度。在低光照条件下，这防止场景中强光源造成饱和，并将它们用作强运动锚点，同时实现场景中较暗区域的100％光子收集。

本公开在例如消费级相机的背景下可能特别有用，例如在移动设备中，移动设备当在低光下拍摄运动中的场景时通常表现出较差的结果。

如本文所用，术语“图像”是指像素值的二维阵列。一个图像可以是另一个图像的二维子集。数字图像包括一个或多个数字图像通道，每个数字图像通道包括像素的二维阵列，其中每个像素值与由对应于像素的几何域的电子图像传感器接收的光量有关。对于颜色成像应用，数字图像通常由红色、绿色和蓝色数字图像通道组成，但也可以采用其他配置。对于单色应用，数字图像由一个数字图像通道组成。在一些实施例中，本公开可应用于但不限于用于任何上述应用的数字图像。

尽管本公开将数字图像通道描述为按行和列排列的像素值的二维阵列，但是本公开可以以相同的效果应用于马赛克阵列，诸如拜耳阵列。类似地，本公开可应用于颜色图像传感器，其中一个在另一个之上放置像素颜色传感器。

在一些实施例中，本公开描述了用处理后的像素值替换原始像素值，以用处理后的像素值形成新的数字图像，然而，也预期保留原始像素值。

图1图示了根据本发明的一些实施例的用于使用高帧速率成像设备自动实时生成场景的高SNR图像的示例性系统100。

如本文所述的系统100仅是本发明的示例性实施例，并且实际上可以具有比所示更多或更少的部件，可以组合两个或更多个部件，或者可以具有不同的配置或部件的布置。系统100的各种部件可以用硬件、软件或硬件和软件的组合来实施。在各种实施例中，系统100可以包括专用硬件设备，或者可以形成对现有设备的添加或扩展。

在一些实施例中，系统100可以包括处理单元110和存储器存储设备114。在一些实施例中，系统100可以在其非易失性存储器(诸如存储设备114)中存储被配置为操作处理单元(也称为“硬件处理器”、“CPU”或简称为“处理器)，诸如处理单元110的软件指令或部件。在一些实施例中，软件部件可以包括操作系统，包括各种软件部件和/或驱动器，用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、电源管理等)并促进各种硬件和软件部件之间的通信。在一些实施例中，系统100可以包括一个或多个图形处理单元(GPU)。在一些实施例中，处理单元110包括例如GPU、TPU、AIU或其他乘法累加(MAC)阵列，其可以并入任何台式机、智能相机或移动计算设备中。

在一些实施例中，系统100还可以包括一个或多个例如用于补偿自振动的IMU传感器。

操作处理单元110的软件指令和/或部件可以包括用于接收和分析由合适的成像设备捕获的多个帧的指令。例如，处理单元110可以包括图像处理模块111和卷积网络模块112。图像处理模块110接收例如视频流并向其应用一种或多种图像处理算法。

传入的图像流可能来自各种成像设备。由图像处理模块111接收的图像流可以根据它们相应的源设备的特性和目的而在分辨率、帧速率(例如，在100和10,000fps之间)、格式和协议方面变化。取决于实施例，图像处理模块111可以通过各种处理功能部路由视频流，或者路由到输出电路，该输出电路通过网络将处理后的视频流发送到记录系统以供(例如，在显示器上)呈现，或到另一个合乎逻辑的目的地。图像处理模块111可以单独或组合执行图像流处理算法。图像处理模块111还可以促进关于图像流的登记或记录操作。

卷积网络模块112可以包括卷积层网络，其通过导数卷积核、下采样核和上采样核、或低通核、或空间移位核在单个帧内或在序列中的两个或更多个帧之间执行运动检测或补偿。

在一些实施例中，系统100还可以被配置为估计图像帧之间的运动，即，确定描述从一个帧中的每个点到另一帧中的多个点的变换的运动矢量场(通常，在序列中的相邻帧之间或在所有帧到一个代表性帧之间)。运动估计可以被定义为在两个图像(例如，帧)之间找到对应点的过程，其中在场景或对象的两个视图中彼此对应的点可以被认为是该场景中或在那个对象的相同点。在一些实施例中，本公开可以应用基于帧间和帧内导数的高密度光流算法加上全局约束来估计帧之间的运动。参见，例如，B.K.P.Horn和B.G.Schunck的“Determining optical flow”，Artificial Intelligence期刊，第17卷，第185-203页，1981年。在一些实施例中，本公开提出的部件和条件使得能够在单次或几次迭代中解决全局约束，从而能够实时高效地计算密集光流。在一些实施例中，本公开可以应用光流和/或另一种和/或类似的计算机视觉技术或算法来估计帧之间的运动。例如，参见

G.(2003)的Two-Frame Motion Estimation Based on Polynomial Expansion，在:BigunJ.、Gustavsson T.(eds)的Image Analysis，SCIA 2003，Computer Science中的LectureNotes，第2749卷，Springer(施普林格)，柏林，海德堡。

对于连续的图像序列，例如在视频演示中发现的，光流可以定义被为将一个图像扭曲成另一个(通常表示微小的位置变化)图像的速度场。在一些实施例中，光流估计包括描述像素从一个图像中的位置到后续图像中的位置的任何运动的平移的估计。在一些实施例中，光流估计返回，关于每个像素和/或像素组，改变是像素的坐标(x，y)。在一些实施例中，可以使用附加和/或其他方法来估计图像对之间的像素运动。在一些实施例中，系统100还可以计算在图像帧的序列之上获取的累积像素坐标差。

图2是详细说明根据本发明的一些实施例的使用高帧速率成像设备自动实时生成场景的低噪声、高动态范围、运动补偿图像的过程中的功能步骤的流程图。

在一些实施例中，在步骤202处，诸如图1中的示例性系统100的系统可以被配置为接收描绘例如场景的输入图像流，该场景可以包括一个或多个移动对象，诸如人类、宠物、车辆等，或相机与场景之间的相对运动。

在一些实施例中，可以使用例如在120-10,000fps之间的高帧速率成像设备来获取输入流。在一些实施例中，可以使用具有较低和/或较高帧速率的成像设备。

在一些实施例中，流中描绘的场景或场景的部分可以是昏暗的，例如，可以在低光环境条件下获取图像流。在一些实施例中，部分场景包含深色阴影区域。在一些实施例中，场景可以包括以相对高的运动速率移动的对象。在一些实施例中，相机相对于场景以相对高的运动或角运动速率移动。

在一些实施例中，在步骤204处，图像帧流可以被连续地划分为连续序列，每个序列n个帧，例如，每个序列5-100帧之间。

在一些实施例中，每个序列中的帧数可以通过参数的组合来确定，参数包括但不限于计算平台的架构和类型、期望的速度和质量结果等。在一些实施例中，序列中的帧数可以由例如要在其上执行处理的相关联的计算平台的计算能力和处理时间来规定。在一些实施例中，可以至少部分地基于计算平台的即时响应时间来动态地调整序列中的帧数。因此，例如，假设帧处理时间为例如80ms，第一序列可以包括指定数量的帧，而随后的序列可以包括例如更大数量的帧，其中即时处理时间可能已经减少到例如40毫秒。

在一些实施例中，在步骤206处，本公开在整个序列中逐帧估计像素运动的连续光流过程中遍及序列中的相邻帧对估计像素运动。在一些实施例中，在步骤206处，本公开使用一对帧的多个下采样级别来估计遍及相邻帧对的像素运动。

在一些实施例中，在步骤206处，本公开在估计遍及序列的像素运动的连续光流过程中估计遍及序列中多对不相邻帧的子集的像素运动。

在一些实施例中，使用运动矢量场之上的多帧时间-空间约束在帧的子集和分辨率级别的子集之上联合细化在步骤206处计算的估计的帧到帧像素运动。

图3A是步骤206的迭代过程的示意图。因此，如图3A所示，在一些实施例中，系统100可以接收包括n个帧的当前序列，例如，包括帧N-2到N+2的序列i，其中在序列中的帧数中n＝5。

系统100然后可以对于每个当前序列执行步骤206的以下子步骤。

(i)步骤206a：估计像素级运动，例如，在：

a.帧[N-2]-[N-1]之间，

b.帧[N-1]-[N]之间，

c.帧[N]-[N+1]之间，以及

d.帧[N+1]-[N+2]之间；以及

(ii)步骤206b：使用在所有分辨率级别和帧对之上估计的运动计算当前序列之上每个像素的像素级运动场矢量。

在一些实施例中，像素级运动估计可以在当前序列i中的每相邻帧对之间的多个下采样分辨率级别之上进行细化。

在一些实施例中，相邻对运动估计可以使用来自序列中另一对(例如，前一对)的结果来初始化。

在一些实施例中，可以使用任何合适的方法来执行根据本公开的像素级运动估计，例如任何合适的图像运动估计算法，诸如任何光流或2D运动流算法。

光流是视觉场景中由观察者和场景之间的相对运动引起的对象、表面和边缘的表观运动的模式。光流也可以被定义为图像中亮度模式的运动的表观速度的分布。

因此，光流方法尝试计算在时间t和t+Δt在每个像素或体素位置处获取的两个图像帧之间的运动。这些方法被称为微分的，因为它们基于图像信号的局部泰勒级数近似；也就是说，它们使用关于空间和时间坐标的偏导数。

对于2D+t维情况，在位置(x，y，t)处的具有强度I(x，y，t)的体素为将在两个图像帧之间移动Δx、Δy和Δt，以及可以给出以下亮度恒定约束：

I(x，y，t)＝I(x+Δx，y+Δy，t+Δt)

假设运动很小，在I(x，y，t)处具有泰勒级数的图像约束可以被展开以得出：

从这些方程可以得出：

或者

其结果为

其中V_x、V_y是I(x，y，t)的速度或光流的x和y分量，

是图像在(x，y，t)处在相应方向的导数。I_x、I_y和I_t可以写成下面的导数：

I_xV_x+I_yV_y＝-I_t

或者

上述详细方法描述了计算图像中每个像素的空间和时间导数I_x、I_y、I_t。然而，计算每个像素的运动矢量场需要解决运动估计的“孔径问题”。解决孔径问题的已知方法包括：

·相位相关性；

·基于块的方法(最小化平方差之和或绝对差之和，或最大化归一化的互相关性)；

·估计光流的微分方法，基于图像信号的偏导数和/或寻找的流场和高阶偏导数，例如：

οLucas-Kanade方法：关于图像补丁和流场的仿射模型，

οHom-Schunck方法：优化基于来自亮度恒定约束的残差的函数，以及表示流场的预期平滑度的特定正则化项，

οBuxton-Buxton方法：基于图像序列中的边缘的运动的模型，

οBlack-Jepson方法：经由相关的粗光流，以及

ο一般变分方法：使用其他数据项和其他平滑项对Horn-Schunck进行一系列修改/扩展。

·离散优化方法：对搜索空间进行量化，然后通过在每个像素处的标签分配来解决图像匹配问题，从而使相应的变形最小化在源与目标图像之间的距离。最优解通常通过最大流/最小割定理算法、线性规划或置信传播方法来恢复。

光流方法的主要缺点在于导数的计算：首先，当运动太快时，运动模糊效应妨碍了导数的准确估计，并且降低了方法的准确性。其次，当使用短曝光来防止运动模糊时，由于帧之间的空间运动导致的距离太长，无法正确估计空间导数。在大多数应用中，这些将解决方案仅限于低运动速率。

在一些实施例中，本公开利用估计光流的Hom-Schunck方法，这是一种引入平滑度的全局约束来解决孔径问题的全局方法。该方法本质上是迭代的，然而在某些条件下，例如小运动，它可以通过仅仅一次或几次迭代来解决。

该技术的变化可能包括：

·应用分层下采样和使用多尺度分辨率；

·使用关键点匹配来更好地估计拐角和交叉点；或者

·馈送来自早期帧的运动作为初始猜测。

因此，在一些实施例中，本公开规定基于计算每个相邻帧对(例如，在图3A中的帧N-1、N)中的空间和时间导数来计算当前序列中每个帧中的每个像素的运动矢量场，如上所述。在一些实施例中，空间导数可以通过在x和y方向上一对相邻帧的帧来计算，并从未移位的图像中减去结果以产生x、y导数I_x、I_y。在一些实施例中，将帧对N-1、N减去以产生时间导数I_t。

在一些实施例中，本公开基于计算不相邻帧对的子集(例如，帧N、M)之间的空间和时间导数，为当前序列中的每个帧中的每个像素计算运动矢量场，如上所述。在一些实施例中，可以通过一对不相邻帧中的帧在x和y方向上计算空间导数，并且从未移位的图像中减去结果以产生x、y导数I_x、I_y。在一些实施例中，帧对N、M被减去以产生时间导数I_t。

在一些实施例中，然后可以使用预定义的输入方法来解决孔径问题，例如Lucas-Kanade、Horn-Schunck或任何其他合适的方法。在一些实施例中，解决孔径问题包括例如控制过程的输入参数，例如块大小、平滑度调节项或任何其他相关参数。在一些实施例中，该过程可以进一步使用运动矢量场估计来初始化，该运动矢量场估计可以取自序列中的另一个相邻帧对的结果。

在一些实施例中，运动矢量场计算可以利用多尺度分辨率，也称为分层分辨率或金字塔分辨率。因此，在一些实施例中，帧对N、M可以在如上所述导数被计算之前以若干比率下采样，诸如但不限于2:1、4:1和直至最大比率max:l，。

在一些实施例中，计算的导数可用于解决孔径问题，以产生输出运动矢量场。

因此，在一些实施例中，可以根据步骤206的迭代过程来处理当前帧序列，例如图3A中的序列i，以产生针对包括序列i的帧中的每个像素位置的运动矢量场。

在一些实施例中，在图2中的步骤208处，本公开可以规定为每个当前序列(例如，图3A中的序列i)生成代表性帧n_r。在一些实施例中，代表性帧n_r包括基于平均运动矢量场和在步骤206中执行的遮挡状态计算而共同定位到代表性像素位置的序列i中的至少一些帧的所有像素。

在一些实施例中，遮挡状态被定义为每帧每像素。在一些实施例中，使用在帧之间的像素邻域相似性度量来检测遮挡。在一些实施例中，通过检测运动矢量场中的空隙来检测遮挡。

因此，在一些实施例中，本公开计算在序列i中至少一些帧(例如，所有帧或帧的子集)之上的平均运动。在一些实施例中，本公开随后对序列i中的帧应用已运动补偿的平均，以产生表示序列i中的帧中的每个像素位置处的所有像素值的聚合的平均“冻结”图像。在一些实施例中，通过平均像素强度值来聚合。

在一些实施例中，步骤208包括对序列i中的帧的至少子集进行的全局对齐、移位、配准和/或扭曲操作，以将序列i中的每个帧中的对应像素共同定位在选定帧上，例如，序列i内的中心帧、居间帧、中间帧等。

在一些实施例中，可以对于稀疏帧序列执行步骤206和/或208，稀疏帧序列包括例如序列i中的帧的子集，例如第一、第二、第四、八帧等，或任何其他选定的子集。图3B是关于稀疏帧序列执行的步骤206的迭代过程的示意图。

在一些实施例中，继续参考图2中的步骤208，代表性帧n_r中的所有共同定位的像素的像素值可以被组合以形成图像输出i_r。因此，来自相同颜色像素的电荷可以被组合或分箱，例如，基于组合信号电平、与像素电荷相关联的值的加权平均值和/或任何其他合适的方法。在一些实施例中，组合像素的所得SNR相对于未组合信号提高了SNR。在一些实施例中，组合像素的所得动态范围增大了相对于未组合信号的动态范围。

在其他实施例中，传感器可以是颜色传感器，例如拜耳、quad-Bayer(其中每个拜耳像素被划分为4个子像素)、nova-Bayer(9个子像素拜耳)和/或任何其他空间马赛克或深度叠加的颜色排列。在颜色传感器的情况下，可以首先将颜色数据转换成单色强度场，用于产生运动矢量场，并且每种颜色在被去马赛克之前是单独运动平均以产生颜色图像。在另一个实施例中，首先对颜色数据进行去马赛克，并且每种颜色用于计算用于运动场计算的空间时间导数，其中梯度是在quad-Bayer、nova-Bayer等的子拜耳像素之上计算的，并且空间梯度用于颜色去马赛克。在一些实施例中，在去马赛克之前使用单色插值计算时间梯度，而在其他实施例中，在多色去马赛克之后计算时间梯度。在一些实施例中，导数是按图像传感器分辨率(例如，40MP)的像素计算的，而光流是在诸如输出分辨率(例如，4K/UHD/8MP)的较低分辨率下估计的。在一些实施例中，运动场是按图像传感器分辨率(例如，40MP)的像素计算的，而输出处于较低分辨率(例如，4K/UHD/8MP)，使得初始分辨率在下采样到目标输出分辨率之前，用于子分辨率移位。该算法的输出是目标颜色空间(诸如RGB)中的图像。图像从线性独立颜色(例如R、G、B)的独立字段通过颜色转换，以产生sRGB或其他等效标准颜色空间中的标准可显示图像。

本发明可以是一种系统、一种方法和/或一种计算机程序产品。计算机程序产品可以包括一个或多个计算机可读存储介质，其上具有计算机可读程序指令，用于使处理器执行本发明的各方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质例如可以是但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、其上记录有指令的机械编码设备，以及前述的任何适当组合。如本文所用的计算机可读存储介质不应被解释为本身是瞬态信号，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播(例如，通过光纤电缆的光脉冲)的电磁波，或通过电线传输的电信号。相反，计算机可读存储介质是非瞬态(即，非易失性)介质。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络下载到外部计算机或外部存储设备，例如经由互联网、局域网、广域网和/或无线网络。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器或网络接口从网络接收计算机可读程序指令并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或以一种或多种编程语言的任意组合编写的源代码或对象代码，编程语言包括诸如Java、Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言或类似的编程语言的常规过程编程语言。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上和部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用Internet服务提供商通过互联网(Internet))。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路，以执行本发明的各个方面。

本文参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图和/或框图的每个框，以及流程图和/或框图中的框的组合，可以通过计算机可读程序指令来实施。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以生产机器，使得经由计算机的处理器或其他可编程数据执行的指令处理装置，创建用于实施流程图和/或一个或多个框图框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中，该计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其他设备以特定方式运行，使得其中存储有指令的计算机可读存储介质包括包含实现流程图和/或一个或多个框图框中指定的功能/动作的方面的指令的制品。

计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上，以使一系列操作步骤在计算机、其他可编程装置或其他设备上执行以产生计算机实施的过程，例如在计算机、其他可编程装置或其他设备上执行的指令实施流程图和/或一个或多个框图框中指定的功能/动作。

附图中的流程图和框图图示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实施方式的体系结构、功能和操作。就这一点而言，流程图或框图中的每一个框可表示模块、区段或指令的一部分，其包括用于实施(一个或多个)指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中，框中标注的功能可能不按图中标注的顺序出现。例如，连续显示的两个框图块实际上可以基本上执行同时，或者有时可能以相反的顺序执行框，具体取决于所涉及的功能。还应注意，框图和/或流程图说明的每个框，以及框图和/或流程图说明中的框的组合，可以由执行指定功能或动作的专用基于硬件的系统实施，或执行专用硬件和计算机指令的组合。

本发明的各种实施例的描述是为了说明的目的而呈现的，但并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是明显的。选择本文使用的术语是为了最好地解释实施例的原理、实际应用或对市场中发现的技术的技术改进，或者使本领域的其他普通技术人员能够理解本文公开的实施例。

Claims

1.一种系统，其包括：

至少一个硬件处理器；以及

非暂时性计算机可读存储介质，其上存储有程序指令，所述程序指令由所述至少一个硬件处理器可执行以：

接收场景的高帧速率视频流，其中所述场景包括相对于获取所述视频流的成像设备运动的至少一个对象，

将所述视频流实时连续地划分为至少一个连续序列，每序列n帧，

对于每个当前序列：

(i)估计所述序列中的至少一些帧对之间的像素运动，

(ii)为所述序列中的每个像素计算运动矢量场，

(iii)基于所述计算的运动矢量场，生成将所有所述像素共同定位到相应像素位置的代表性帧，以及

(iv)对于所述相应像素位置中的每一个，聚合来自所述序列中所有帧的像素值，以及

实时输出所述代表性帧的流，其中所述流具有比所述高帧速率低的帧速率。

2.根据权利要求1所述的系统，其中所述帧对中的至少一些是相邻的帧对。

3.根据权利要求1所述的系统，其中所述帧对中的至少一些是不相邻的帧对。

4.根据权利要求1-3中任一项所述的系统，其中所述估计仅对于所述序列中的所述对的子集执行。

5.根据权利要求1-4中任一项所述的系统，其中所述估计用以下至少一项来初始化：与所述序列中的所述对中的前一个对相关联的所述估计；与所述视频流中的在前时间点相关联的所述估计；以及分层运动估计。

6.根据权利要求1-5中任一项所述的系统，其中所述估计是使用光流系统来执行的。

7.根据权利要求1-6中任一项所述的系统，其中所述估计至少部分地基于下采样分辨率级别。

8.根据权利要求1-7中任一项所述的系统，其中通过联合求解关于所述运动矢量场的多帧多级时间-空间平滑度约束，在(i)所述序列中的所述帧的子集和(ii)分辨率级别的子集之上进一步细化所述计算。

9.根据权利要求1-8中任一项所述的系统，其中所述高帧速率在每秒120-10,000帧(fps)之间。

10.根据权利要求1-9中任一项所述的系统，其中至少部分地基于所述高帧速率和所述较低帧速率之间的比率来确定n。

11.根据权利要求1-10中任一项所述的系统，其中所述较低帧速率是基于所述输出流的期望帧速率来确定的。

12.根据权利要求1-11中任一项所述的系统，其中至少部分地基于与所述估计、计算、生成和聚合相关联的处理时间来进一步确定n。

13.根据权利要求1-12中任一项所述的系统，其中所述输出还包括

(i)从RGB颜色空间中的每个所述代表性帧生成图像，以及

(ii)输出所述图像。

14.根据权利要求1-13中任一项所述的系统，其中对于所述相应像素位置中的每一个，使用像素平均来执行所述聚合。

15.一种方法，其包括：

对于每个当前序列：

(i)估计所述序列中的至少一些帧对之间的像素运动，

(ii)为所述序列中的每个像素计算运动矢量场，

16.根据权利要求15所述的方法，其中所述帧对中的至少一些是相邻的帧对。

17.根据权利要求15所述的方法，其中所述帧对中的至少一些是不相邻的帧对。

18.根据权利要求15-17中任一项所述的方法，其中所述估计仅对于所述序列中的所述对的子集执行。

19.根据权利要求15-18中任一项所述的方法，其中所述估计用以下至少一项来初始化：与所述序列中的所述对中的前一对相关联的所述估计；与所述视频流中的在前时间点相关联的所述估计；以及分层运动估计。

20.根据权利要求15-19中任一项所述的方法，其中所述估计是使用光流法执行的。

21.根据权利要求15-20中任一项所述的方法，其中所述估计至少部分地基于下采样分辨率级别。

22.根据权利要求15-21中任一项所述的方法，其中通过联合求解关于所述运动矢量场的多帧多级时间-空间平滑度约束，在(i)所述序列中的所述帧的子集和(ii)分辨率级别的子集之上进一步细化所述计算。

23.根据权利要求15-22中任一项所述的方法，其中所述高帧速率在每秒120-10,000帧(fps)之间。

24.根据权利要求15-23中任一项所述的方法，其中至少部分地基于所述高帧速率和所述较低帧速率之间的比率来确定n。

25.根据权利要求15-24中任一项所述的方法，其中所述较低帧速率是基于所述输出流的期望帧速率来确定的。

26.根据权利要求15-25中任一项所述的方法，其中至少部分地基于与所述估计、计算、生成和聚合相关联的处理时间来进一步确定n。

27.根据权利要求15-26中任一项所述的方法，其中所述输出进一步包括：(i)从RGB颜色空间中的每个所述代表性帧生成图像，以及(ii)输出所述图像。

28.根据权利要求15-27中任一项所述的方法，其中对于所述相应像素位置中的每一个，使用像素平均来执行所述聚合。

29.一种计算机程序产品，其包括其中包含程序代码的非暂时性计算机可读存储介质，所述程序代码由至少一个硬件处理器可执行以：

接收场景的高帧速率视频流，其中所述场景包括相对于获取所述视频流的成像设备运动的至少一个对象；

将所述视频流实时连续地划分为至少一个连续序列，每序列n帧；

对于每个当前序列：

(i)估计所述序列中的至少一些帧对之间的像素运动，

(ii)为所述序列中的每个像素计算运动矢量场，

30.根据权利要求29所述的计算机程序产品，其中所述帧对中的至少一些是相邻的帧对。

31.根据权利要求29所述的计算机程序产品，其中所述帧对中的至少一些是不相邻的帧对。

32.根据权利要求29-31中任一项所述的计算机程序产品，其中所述估计仅对于所述序列中的所述对的子集来执行。

33.根据权利要求29-32中任一项所述的计算机程序产品，其中所述估计用以下至少一项来初始化：与所述序列中的所述对中的前一对相关联的所述估计；与所述视频流中的在前时间点相关联的所述估计；以及分层运动估计。

34.根据权利要求29-33中任一项所述的计算机程序产品，其中所述估计是使用光流系统来执行的。

35.根据权利要求29-34中任一项所述的计算机程序产品，其中所述估计至少部分地基于下采样分辨率级别。

36.根据权利要求29-35中任一项所述的计算机程序产品，其中通过联合求解关于所述运动矢量场的多帧多级时间-空间平滑度约束，在(i)所述序列中的所述帧的子集和(ii)分辨率级别的子集之上进一步细化所述计算。

37.根据权利要求29-36中任一项所述的计算机程序产品，其中所述高帧速率在每秒120-10,000帧(fps)之间。

38.根据权利要求29-37中任一项所述的计算机程序产品，其中至少部分地基于所述高帧速率和所述较低帧速率之间的比率来确定n。

39.根据权利要求29-38中任一项所述的计算机程序产品，其中所述较低帧速率是基于所述输出流的期望帧速率来确定的。

40.根据权利要求29-39中任一项所述的计算机程序产品，其中至少部分地基于与所述估计、计算、生成和聚合相关联的处理时间来进一步确定n。

41.根据权利要求29-40中任一项所述的计算机程序产品，其中所述输出还包括：(i)从RGB颜色空间中的每个所述代表性帧生成图像，以及(ii)输出所述图像。

42.根据权利要求29-41中任一项所述的计算机程序产品，其中对于所述相应像素位置中的每一个，使用像素平均来执行所述聚合。