CN108886584A

CN108886584A - 用于为移动视频生成高保真缩放的方法和装置

Info

Publication number: CN108886584A
Application number: CN201780022710.6A
Authority: CN
Inventors: 哈米德·拉希姆·谢赫; 易卜拉欣·佩克库克森; 约翰·格洛茨巴赫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-04-20
Filing date: 2017-04-19
Publication date: 2018-11-23
Anticipated expiration: 2037-04-19
Also published as: KR102317007B1; KR20180127633A; EP3414892A4; EP3414892A1; US20170310901A1; US10097765B2; WO2017183908A1; CN108886584B

Abstract

一种生成合成图像的方法包括：在由相机拍摄的视频流的帧中识别与在相机拍摄视频流的滑动窗口时的场景中的移动对象相关联的运动特性。所述方法包括：对于滑动窗口中的多个帧，通过处理电路基于所识别的运动特性控制帧的混合权重，以使得能够根据滑动窗口中的多个帧的被控制的混合权重生成合成图像。

Description

用于为移动视频生成高保真缩放的方法和装置

技术领域

本公开大体涉及电子视频处理。更具体地，本公开涉及用于为移动视频生成高保真缩放的方法和装置。

背景技术

由于形状因素的限制，当前存在的几乎所有手机相机都不能够提供光学变焦功能。提供光学变焦需要长焦镜头，这使智能手机的厚度对于一般消费者而言过大。这就是为什么几乎所有智能手机都只在其相机中提供数字缩放功能，在数字缩放功能中，缩放效果仅来自数字方法，而非光学方法。

数字缩放方法通常包括插值算法，例如，双三次插值、多相插值或其他此类方法。这些数字缩放方法一次只处理一帧。数字缩放算法的关键问题在于，对于大缩放因子(例如4倍或更高)，图像中的、在没有缩放的情况下可忍受的伪像和噪声被插值算法增强并放大。这导致图像质量无法被大多数用户接受。

如在标题为“用于为移动电话相机生成高保真数字缩放的方法”的第14/690,046号美国专利申请中所描述的，可以将多个帧一起使用以提供高保真数字缩放(在本公开中称为静止图像的HiFi缩放)。这些方法利用多个帧并且依赖于由于手抖而在相机位置上存在微小差异的事实来最小化来自数字差值的伪像、提高信噪比、提高视频的清晰度和锐度、图像的感知细节和整体感知质量。此类方法非常复杂，并且将这类方法扩展到视频对于本领域技术人员来说并不明确。

发明内容

技术方案

在第一实施方式中，装置包括处理电路。为了生成合成图像，处理电路配置成：在由相机拍摄的视频流的帧中识别与在相机拍摄视频流的滑动窗口时的场景中的移动对象相关联的运动特性；以及对于滑动窗口中的多个帧，基于所识别的运动特性控制帧的混合权重，以使得能够根据滑动窗口中的多个帧的被控制的混合权重生成合成图像。

在第二实施方式中，为了生成合成图像，方法包括：在由相机拍摄的视频流的帧中识别与在相机拍摄视频流的滑动窗口时的场景中的移动对象相关联的运动特性。该方法包括：对于滑动窗口中的多个帧，通过处理电路基于所识别的运动特性控制帧的混合权重，以使得能够根据滑动窗口中的多个帧的被控制的混合权重生成合成图像。

在第三实施方式中，提供了一种包含计算机程序的非暂时性计算机可读介质。为了生成合成图像，该计算机程序包括计算机可读程序代码，该计算机可读程序代码在被执行时使得至少一个处理装置执行以下操作：在由相机拍摄的视频流的帧中识别与在相机拍摄视频流的滑动窗口时的场景中的移动对象相关联的运动特性；以及对于滑动窗口中的多个帧，基于所识别的运动特性控制帧的混合权重，以使得能够根据滑动窗口中的多个帧的被控制的混合权重生成合成图像。

根据以下附图、描述和所附权利要求，其他技术特征对于本领域技术人员可以是显而易见的。

在进行下面的具体实施方式之前，阐述本专利文献中使用的某些词和短语的定义可能是有利的。术语“联接”及其派生词是指两个或更多个元件之间任何直接或间接通信，而无论这些元件是否彼此物理接触。术语“发送”、“接收”和“通信”及其派生词包括直接和间接通信。术语“包括”和“包含”及其派生词意指包含但不限于此。术语“或”是包含性的，意味着和/或。短语“与...相关联”及其派生词意味着包括、包括在...内、与...互连、包含、包含在...内、连接到...或与...连接、联接到...或与...连接、与...通信、与...协作、交叉、并置、接近、受...约束、具有、具有...性能、具有...关系或与...有关系等。术语“控制器”表示控制至少一个操作的任何装置、系统或其部分。这类控制器可以用硬件或硬件和软件和/或固件的组合来实施。与任何特定控制器相关联的功能可以是集中式或分布式，无论是本地还是远程。当短语“至少一个”与项目列表一起使用时，意味着可以使用所列项目中的一项或多项的不同组合，并且可以仅需要列表中的一个项目。例如，“A、B和C中的至少一个”包括以下任何组合：A、B、C、A和B、A和C、B和C、以及A和B和C。

此外，下面描述的各种功能可以由一个或多个计算机程序实施或支持，每个计算机程序由计算机可读程序代码形成并且在计算机可读介质中体现。术语“应用”和“程序”指的是适于在合适的计算机可读程序代码中实施的一个或多个计算机程序、软件组件、指令集、过程、函数、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够被计算机访问的任何类型的介质，例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质排除了传输瞬时电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可以永久存储数据的介质和可以存储和稍后重写数据的介质，例如可重写光盘或可擦除存储器设备。

本专利文献中提供了对其他某些词和短语的定义。本领域普通技术人员应该理解，在许多情况(即使不是大多数情况)下，这样的定义适用于这种定义的单词和短语的先前以及将来的使用。

有益效果

可以提供一种用于移动视频的高保真缩放。

附图说明

为了更完整地理解本公开及其优点，现在参考以下结合附图的描述，在附图中：

图1示出了根据本公开的用于为移动视频生成高保真缩放的示例用户设备；

图2示出了根据本公开的、在用于为移动视频实施高保真缩放的图1的用户设备内的组件的示例框图；

图3A示出了根据本公开的示例视频流；

图3B示出了在图3A的视频流内的N帧滑动窗口的示例；

图4A和图4B示出了根据本公开的用于为移动视频实施高保真缩放的示例系统；

图5示出了在图4B的光度对准和混合处理块内的示例组件；

图6示出了图4B的系统的示例相机运动处理块；

图7示出了图4A和图4B的系统的预处理块内的示例组件；

图8A和图8B示出了根据本公开的用于为移动视频实施高保真缩放的示例过程；

图9示出了根据本公开的用于解释将相机运动信息分解成期望相机运动和手抖相机运动的图；

图10示出了根据本公开的图1的用户设备的配置的框图；

图11示出了根据本公开的、根据基于条带的处理和基于区块的处理划分为条带和区块的帧的示例滑动窗口；

图12A示出了根据本公开的视频流的组件的基于条带处理的示例流程；

图12B示出了根据本公开的视频流的组件的基于区块处理的示例流程；

图13示出了根据本公开的、在用于为移动视频实施高保真缩放的图1的用户设备内的视频回放装置的示例框图；以及

图14示出了根据本公开的用于为移动视频实施高保真缩放的示例过程。

实施本发明的最佳方式

以下讨论的图1至图13以及用于在本专利文件中描述本公开的原理的各个实施方式仅是说明性的，而不应以任何方式解释为限制本公开的范围。本领域技术人员将理解，本公开的原理可以在任何适当布置的无线通信系统中实施。

本公开提供了为视频拍摄提供高质量缩放效果的方法(例如，算法)和装置。本公开的实施方式提供了在移动电话或其他视频处理装置上生成高保真(HiFi)缩放视频的方法。本公开的实施方式提供了改进的用户界面、系统用例实施方法和多帧计算成像算法以提高数字缩放视频的质量。本公开的实施方式还提供了用于实现多个帧的组合以生成无伪像的高质量视频的应用、用户体验设计、视频相机固件配置、算法和实施方法。本公开的实施方式还在缩放视频中生成具有更好的图像渲染、提高的信噪比、更自然的纹理渲染以及提高的对象清晰度的缩放图像。多帧计算成像算法能够在帧与帧之间处理场景中的移动对象以及区分相机的期望运动与手抖相机运动。多帧计算成像算法在嵌入式实施(例如，嵌入在移动电话中)的电力、计算复杂性、存储器带宽和延迟方面表现良好。

图1示出了根据本公开的用于为移动视频生成高保真的示例用户设备(UE)100。

UE 100包括电子显示器102和设置在UE正面的嵌入式相机200。显示器102显示由UE 100的处理电路执行的应用的信息。相机200以高分辨率数字格式拍摄视频，但是相机200未配置成执行光学变焦。UE 100包括具有一个或多个处理器和存储器的处理电路，该处理电路配置成控制UE 100的操作、控制显示器102的操作以及控制相机200的操作。UE 100可以包括用于显示器102、相机200中的每项以及用于UE 100的控制的独立处理电路，这些独立处理电路配置成彼此相互通信和协作以执行本文中所描述的一个或多个功能。在某些实施方式中，显示器102、相机200和UE 100控制功能中的一个或多个控制功能由公共或共享的处理电路执行。

尽管图1示出了一种示例UE 100，但是可以对图1进行各种改变。例如，UE 100的每个组件可以具有任何其他大小、形状和尺寸。

图2示出了根据本公开的、在用于为移动视频实施高保真缩放的图1的用户设备内的组件的示例框图。

相机200包括具有固件202的相机控制器、定制相机控制模块204、视频稳定模块206、传感器208、图像信号处理器(ISP)210、ISP比例调整器212和输入/输出(I/O)接口214。相机200连接到用于移动视频高保真缩放的系统400(本文中也称为“移动视频HiFi数字缩放系统”)，从而以高保真缩放视频模式(HiFi视频模式)操作，并且相机200从移动视频HiFi数字缩放系统400接收控制信号216并向移动视频HiFi数字缩放系统400发送控制信号218和视频流300。I/O接口214从移动视频HiFi数字缩放系统400的I/O接口接收数据，并向移动视频HiFi数字缩放系统400的I/O接口发送数据。

HiFi视频模式是移动电话或UE 100的视频相机应用上的特殊模式。HiFi视频模式可以基于缩放倍率(例如，>2x或其他阈值数字缩放倍率)自动选择，或者基于视频模式(例如，预先选择的质量等级要求)自动选择或由用户手动选择。本文中，自动是指在没有操作员干预的情况下由先前操作产生的动作。例如，响应于确定缩放倍率超过阈值，相机200可以自动地(即，没有人机交互)选择以HiFi视频模式操作。阈值可以指示相机200的非HiFi正常模式的最大缩放倍率。一旦选择了HiFi视频模式并且用户放大以拍摄视频，则视频相机应用将传感器模式切换回至1倍缩放倍率，将视频相机固件配置为应用专属的“调整”参数集，并拍摄视频流300。在某些时刻，用户可能意图保持视频相机静止，例如以拍摄唱诗班唱歌或发言人头部特写的视频。尽管用户努力试图保持相机稳定，但是用户的手不能避免相机的微动。这些微动使得相机200拍摄的视频流300中每个帧来自略微不同的位置。在某些时刻，用户可能想要改变相机的视场，例如通过在水平平面中平移或在竖直平面中倾斜。一旦移动视频高保真缩放算法已经应用于视频流的N帧滑动窗口(下面参见图3B更具体地描述)，所得到的合成帧250被显示给用户或者作为视频文件内的帧被保存在UE 100的存储器中，其中，视频文件可以存储于相机应用的视频库。更具体地，在打开时，移动视频HiFi数字缩放系统400可以将合成帧250提供给显示器102，以使用户能够观看输出视频流的合成帧250。

具有固件202的相机控制器包括信号处理电路，并且UE 100内的存储器存储提供相机200的控制程序的程序代码。具有固件202的相机控制器使用控制信号或控制参数来控制每个其他相机组件208-214的功能。3A锁定的关闭状态或解锁状态使得相机200能够将视频拍摄为连续的图片流，其中，场景亮度、色彩和其他特性不断改变。自动曝光锁定、自动对焦锁定和自动白平衡/色彩平衡锁定统称为3A锁定。因此，用户期望的相机运动可能在视频流300的帧中导致由运动引起的模糊。移动视频高保真缩放算法使用运动引起模糊的这种常识作为控制以提供最佳质量合成帧250的基础，例如，通过控制帧基于其运动模糊特性的经历的混合权重。也就是说，混合权重决定了多帧混合算法中的亮度归一化、色彩归一化和比例归一化。

在非HiFi正常模式中，当用户放大以拍摄视频时，从ISP 210输出的帧以所选择的大于1倍的缩放倍率(例如，1.3倍)从ISP比例调整器212输出。在HiFi视频模式中，相机应用指示相机固件202将模式切换回1倍缩放倍率并输出较小的分辨缓存。更具体地，当用户以使相机200实施HiFi视频模式的足够高的缩放倍率(例如，4倍)放大以拍摄视频时，固件202生成ISP控制参数224，ISP控制参数224使得ISP 210以1倍缩放倍率输出图像串300中的每个图像。1倍分辨率图像使移动视频HiFi数字缩放系统400能够对视频流300执行插值和处理。在另一实施方式中，通过使用ISP比例调整器212或其他放大方法可以将除1倍之外的比例因子输入到移动视频HiFi数字缩放系统400中。相机应用程序重新配置相机固件202以生成更适合于图像纹理保留的“调整”参数224。定制“调整”参数224包括用于缺陷像素校正、滤噪、色彩滤波阵列插值(去马赛克)、锐度增强等的参数。这些定制调整参数224保留图像信息，但是可能在单个图像228中产生不期望的图像效果。不期望的效果通过多个帧的混合来减轻，同时多帧混合不会减弱有益方面(提高的纹理再现)。相机固件202的重新配置使ISP 210能够执行降低滤噪、减少像素缺陷校正和减少插值混叠消除。与正常的照片拍摄场景相比，相机固件202的重新配置使得ISP 210生成较差质量的图像，并且移动视频高保真缩放系统400通过混合视频流300的多个图像生成更高保真度的输出合成帧250。如下面参考图4更具体地描述，移动视频HiFi数字缩放系统400包括滤噪、缺陷像素抑制和混叠抑制。ISP调整参数224使得视频流300的每个图像具有比混合输出合成帧250更差的质量。

定制相机控制模块204使相机200能够拍摄视频流300以接收用于定制相机控制的HiFi请求，并且基于此选择(i)关闭或解锁3A锁定以实施HiFi视频模式，或(ii)打开或锁定3A锁定以实施静止图像的HiFi缩放。

传感器208可以是通过将光转换为电信号来拍摄原始图像222的图像传感器。传感器208从具有固件202的相机控制器接收传感器控制参数220，以控制曝光、白平衡/色彩平衡和聚焦。在HiFi视频模式中，当在拍摄视频流300的每个原始图像222期间拍摄每个图像时，传感器控制参数220包括3A锁定的关闭状态。

ISP 210接收由传感器208拍摄的每个原始图像222，并接收参数224以控制从ISP210输出的图像的质量。基于参数224，ISP 210通过应用降噪滤波、缺陷像素校正、色彩滤波阵列插值(例如，去马赛克)和锐度增强处理来以原始格式留下图像或提高每个原始图像222的质量。ISP将处理后的图像228输出到移动视频HiFi数字缩放系统400。参数224可以由移动视频HiFi数字缩放系统400或具有固件202的相机控制器生成，并且可以从移动视频HiFi数字缩放系统400或具有固件202的相机控制器接收参数224。在非HiFi正常模式中，ISP 210从具有固件202的相机控制器接收参数224，这些参数224是使得ISP 210从图像去除噪声和混叠并输出高质量图像的参数。如下面更具体地描述，移动视频HiFi数字缩放系统400包括一个或多个预处理组件，例如，滤噪器和预锐化器。相应地，当在HiFi视频模式中操作时，相机200不需要重复在移动视频HiFi数字缩放系统400的预处理组件中发生的噪声和混叠去除。在某些实施方式中，滤噪和预锐化是ISP 210的一部分，其可以置于HiFi系统的适当控制之下。也就是说，在HiFi视频模式中，ISP 210从移动视频HiFi数字缩放系统400接收参数224，这些参数224是这样的参数，其使得ISP 210去除比由具有固件202的相机控制器所生成的参数将去除的噪声和混叠的量更少的噪声和混叠的量。在某些实施方式中，来自移动视频HiFi数字缩放系统400的参数224使得ISP 210绕过噪声去除、绕过混叠去除或者绕过噪声和混叠去除。相应地，在HiFi视频模式中从ISP 210输出的图像228可以比在非HiFi正常模式中从ISP 210输出的图像具有更多的噪声或混叠。

在Hi-Fi视频模式中，显示提供到显示器102的合成帧250，在这种情况下，显示器102向用户显示合成帧250。ISP比例调整器212重新调整从ISP 210输出的图像228的分辨率，例如，调整到除1倍以外的中间缩放倍率(例如，1.2倍或4倍)并将重新调整的图像226提供给I/O接口214以发送到移动视频HiFi数字缩放系统400。在某些实施方式中，ISP比例调整器212包括在ISP 210内。当ISP比例调整器212是ISP 210的一部分时，在HiFi视频模式中，ISP 210以1倍分辨率将图像228输出到I/O接口214，或者以中间分辨率(例如，1.2倍或4倍)将重新调整的图像226输出到I/O接口214。在非HiFi正常模式中，ISP比例调整器212可以另外将重新调整的图像226发送到显示器102。

视频稳定模块206检测图像之间的均匀失真，并记录存在失真的点集。例如，当UE100在用户的手中同时拍摄包括相同场景的多个帧的视频流时，场景的第一个图像在相机200以0°角横向水平时拍摄，但由于用户身体的略微移动，相机移动到3°角以拍摄场景的第二图像。视频稳定模块206可以使用第一图像作为参考帧来检测该场景的第二图像中的、与第一图像参考帧中的点的位置相比略微移位的点。视频稳定模块206接收由传感器208拍摄的每个原始图像222，然后输出包括移位点和移位点线性和/或角度平移的相应量的集合的视频稳定信息。在某些实施方式中，移动视频HiFi数字缩放系统400接收并使用相机仿射信息来执行移动视频高保真缩放处理。视频稳定模块206可以使用仿射配准作为实现稳定化的处理，并且可以生成相机仿射信息(例如，仿射矩阵)或其他此类参数。

移动视频HiFi数字缩放系统400从相机200接收视频流300，然后使用视频流图像300的滑动窗口来生成合成帧250。移动视频HiFi数字缩放系统400应用移动视频高保真缩放算法，这两者均参考图4进一步详细描述。

尽管图2示出了用户设备100内的组件的一个示例，但是可以对图2进行各种改变。例如，UE 100的每个组件可以具有任何其他大小、形状和尺寸。作为另一示例，UE 100可包括例如罗盘、陀螺仪和/或加速度计的惯性测量单元260(IMU)，当相机拍摄视频流300的每个原始帧222时，惯性测量单元260以惯性度量265的形式提供指示相机200的旋转、平移、速度和加速度的相机运动信息。作为另一示例，图12示出了相机200可以由视频回放装置1200代替，视频回放装置1200将视频流300的视频帧提供给移动视频HiFi数字缩放系统400。

图3A示出了根据本公开所拍摄的示例视频流300。图3所示的视频流300的实施方式仅用于说明。在不背离本公开的范围的情况下，可以使用其他实施方式。

相机200以例如30帧/秒(fps)的拍摄速率拍摄视频流300。视频流300可包括若干帧，例如包括诸如第一帧302(IMG0)、第二帧304(IMG1)、第三帧306(IMG2)、第四帧308(IMG3)、第五帧310(IMG4)、第六帧312(IMG5)、第七帧314(IMG6)和后续帧(还通过指示在视频流的第七帧与最后帧之间的帧的省略号示出)以及最后帧(IMGW-1)的W个帧。

包括在滑动窗口316、318、320中的每个帧包括N个帧。N可以基于预先确定计算的系统能力(例如，硬件性能、处理器处理功率、存储器大小、存储器带宽等)来选择。在某些实施方式中，N可以依据缩放倍率、功耗、相机ISO、图像噪声或其他系统资源约束而动态地改变。例如，如果N＝5，则每个滑动窗口316、318、320包括第一帧至第N帧。第一滑动窗口316包括第一帧302(IMG0)、第二帧304(IMG1)、第三帧306(IMG2)、第四帧308(IMG3)和第五帧310(IMG4)。相机200在从相机200开始拍摄第一帧302的时间和相机200完成拍摄滑动窗口的最后帧310的时间中推移的时间量内拍摄滑动窗口。以类似的方式，第二滑动窗口318包括第二帧至第六帧(IMG1…IMG5)，并且第三滑动窗口320包括第三帧至第七帧(IMG2…IMG6)。

图3B示出了在图3A的视频流内的N帧滑动窗口的示例。尽管示出了三个滑动窗口316、318、320，但是视频流300可以包括更多或更少的滑动窗口。

图4A和图4B示出了根据本公开的用于为移动视频实施高保真缩放的示例系统400。

如图4A所示，用于为移动视频实施高保真缩放的系统400通过划分移动视频高保真缩放算法来减少重新计算，使得少量组件以多帧处理方式运行，同时提供与用于静止图像的HiFi缩放相比相同的图像质量。

移动视频HiFi数字缩放系统400联接(例如，连接)到IMU 260以接收相机运动信息265。

HiFi数字缩放系统400联接到相机200以接收作为视频流300的部分而拍摄的每个帧302-314。在所示的实施方式中，移动视频HiFi数字缩放系统400从相机200接收视频流300，相机200根据拍摄帧速率每次输出单帧228。移动视频HiFi数字缩放系统400还可以从相机200接收聚焦、曝光和色彩增益信息402。如上所述，移动视频HiFi数字缩放系统400从相机200接收包括基于相机ISO(国际标准化组织)的HiFi控制信号的控制信号218，并向相机200发送包括用于定制相机控制的HiFi请求的控制信号216。控制信号216可以修改ISP210以进行滤噪、去马赛克配置、锐度增强、缺陷像素校正、色彩或曝光。

移动视频HiFi数字缩放系统400包括HiFi控制模块404、预处理模块406、相机运动和场景分析器408、参考帧选择模块410、多帧处理模块412和后处理模块414。预处理模块406和后处理模块414与由多帧处理模块412实施的对齐和混合算法分开。预处理模块406和后处理模块414以拍摄帧速率操作，但是对齐和混合算法是根据拍摄帧速率(也称为正常帧速率)的N倍的速率来实施的，其中，N是识别滑动窗口316、318、320中的帧数的多帧因子。

参考帧选择模块410通过选择最新的帧作为参考帧来降低拍摄原始帧222和输出合成帧250的延迟。参考帧选择模块410中的这种端到端的延迟优化帧选择使得系统400在拍摄第十原始帧之前输出第八合成帧。通过比较的方式，两帧延迟与选择中间帧(例如，滑动窗口中五帧的第三帧)相关联。在其他实施方式中，参考帧选择模块410可以使用诸如最不可能的运动失真的其他标准来选择滑动窗口中的一些其他帧作为参考，在这种情况下，可以选择中心帧(即，后续滑动窗口318的图像3)。

下面参考图4B更具体地描述关于移动视频HiFi数字缩放系统400的组件和操作的细节。

尽管图4A示出了一种示例移动视频HiFi数字缩放系统400，但是可以对图4进行各种改变。例如，后处理模块414可以实施多帧后处理算法，使得后处理模块414可以被包括在多帧处理模块412中并且以拍摄帧速率的N倍的速率操作。

如图4B所示，用于为移动视频实施高保真缩放的移动视频HiFi数字缩放系统400包括第一视频帧缓存器416、滤噪器418、预锐化器420和第二视频帧缓存器422，第一视频帧缓存器416、滤噪器418、预锐化器420和第二视频帧缓存器422中的每项均包括在预处理模块406中(如图7所示)。响应于每次从ISP 210接收视频流300作为单帧228，第一帧缓存器416存储单帧228。

滤噪器418从第一视频帧缓存器416获取单帧228，并对单帧228应用滤噪器以从视频流300中的每个帧去除噪声。相应地，滤噪器418减少了在后期阶段中处理的噪声量。从滤噪器418的输出是单帧228的滤噪版本228a。

预锐化器420获取单帧的滤噪版本228a，并对单帧的滤噪版本228a进行锐化以减少在后期阶段中处理的模糊量。从预锐化器420的输出是单帧的预锐化版本228b，也称为预处理帧。

第二视频帧缓存器422获取并存储单帧的预锐化版本228b。第二视频帧缓存器422累积预处理帧以存储完整的N帧滑动窗口。例如，第二视频帧缓存器422连续存储第一帧至第五帧302-310(IMG0-IMG4)的预处理版本，直到存储了第一滑动窗口316。从第二视频帧缓存器422的输出是一次N帧，即滑动窗口424，其可以包括第一滑动窗口316或任何后续滑动窗口318、320。

移动视频HiFi数字缩放系统400还包括特征检测和跟踪模块426、帧特征缓存器428、帧特征估计器430、用户期望运动估计器432和相机运动稳定器434，特征检测和跟踪模块426、帧特征缓存器428、帧特征估计器430、用户期望运动估计器432和相机运动稳定器434中的每项均包括在相机运动和场景分析器408中(如图6所示)。相机运动和场景分析器408不基于用户在拍摄视频时期望将相机200保持于静止位置的假设来操作。相机运动和场景分析器408基于以下假设操作：部分的相机运动是用户想要的期望相机运动，例如，当用户在视频拍摄期间平移或倾斜相机200时。移动视频HiFi数字缩放系统400(具体而言，相机运动和场景分析器408)分析相机运动并将相机运动分解为用户期望的相机运动和手抖相机运动。

特征检测和跟踪模块426从第一视频帧缓存器416获取单帧228，并根据检测帧速率执行特征检测以及根据跟踪帧速率执行特征跟踪。特征检测和跟踪模块426将帧特征关系的真值计算427输出到帧特征缓存器428。根据本公开，检测帧速率均小于或等于拍摄帧速率，而跟踪帧速率小于或等于N倍拍摄帧速率。跟踪帧速率可以使得检测帧速率和跟踪帧速率相加到拍摄帧速率(例如，30fps)，或者使得检测帧速率和跟踪帧速率在稳健性的计算中具有冗余。也就是说，特征检测和跟踪模块426以例如15fps或10fps的检测帧速率执行特征检测，并跟踪其间的点。帧特征缓存器428保持与N帧滑动窗口中的每个帧匹配的点列表。也就是说，帧特征缓存器428累积并存储与N帧相对应的帧特征信息。用户期望运动估计器432、相机运动稳定器434和场景分析器444以拍摄帧速率操作。如下面更具体地描述，配准模块438以包含在拍摄帧速率与N倍拍摄帧速率(例如，150fps)之间的速率执行运动估计。

作为具体示例，每个滑动窗口包括以30fps的拍摄帧速率拍摄的N＝5帧。特征检测和跟踪模块426可以通过应用10fps的检测帧速率对每隔一帧应用检测。第三帧306(IMG2)将具有由特征检测和跟踪模块426应用的检测，使得帧特征缓存器428存储检测D2的计算。在第一滑动窗口316中，特征检测和跟踪模块426将对第一帧302(IMG0)应用关于前进至第三帧306(IMG2)的跟踪，从而使得帧特征缓存器428存储跟踪关系T02的计算。特征检测和跟踪模块426将对第二帧304(IMG1)应用关于前进至第三帧306(IMG2)的跟踪，从而使得帧特征缓存器428存储跟踪关系T12的计算。特征检测和跟踪模块426将对第四帧308(IMG3)应用关于前进至第三帧306(IMG2)的跟踪，从而使得帧特征缓存器428存储跟踪关系T32的计算。特征检测和跟踪模块426将对第五帧310(IMG4)应用关于前进至第三帧306(IMG2)的跟踪，从而使得帧特征缓存器428存储跟踪关系T42的计算。

接下来，在第二滑动窗口318中，帧特征缓存器428已经存储了跟踪关系T12、T32、T42的真值计算427。帧特征估计器430可以估计第二帧304(IMG1)和第三帧306(IMG2)关于前进至第四帧308(IMG3)的各自的跟踪关系T13和T23，而不是对第四帧308(IMG3)应用检测。跟踪关系T23可以被估计为先前计算的关系值的函数f(T12,T32)，例如，T32的取反与T12之和。跟踪关系T23可以被估计为先前计算的关系值的函数f(T32)，例如，等于T32取反。也就是说，没有额外的跟踪或检测算法应用于第一滑动窗口316和第二滑动窗口318两者共同的帧304-310。帧特征估计器430可以将跟踪关系T43估计为先前计算的关系值的函数f(T42,T32)，例如，T42减去T32的差，而不是对第五帧310(IMG4)应用关于第三帧306的额外跟踪。特征检测和跟踪模块426将跟踪算法应用于第六帧312(IMG5)，从而确定关于返回第三帧306的跟踪关系T53的真值计算427(区别于由帧特征估计器430执行的估计)。

帧特征估计器430将帧特征信息436提供给配准模块438。帧特征信息436包括从帧特征缓存器428获取的所检测特征的真值计算427，例如，对应于第三帧306和第六帧310的D2和D5。帧特征信息436另外包括从帧特征缓存器428获取的跟踪关系的真值计算427，例如，T12、T32、T42。帧特征信息436还包括跟踪关系的估计，例如，由帧特征估计器430估计的T13、T23、T43。配准模块438可以使用帧特征信息436来分析每帧所需的变形校正量。

在另一非限制性示例中，特征检测和跟踪模块426可以通过应用10fps的检测帧速率对每第三帧应用检测。为了比较，在示例性简单实施方法中，每N帧滑动窗口被视为用于静止图像的HiFi缩放的单独实例，这对于计算效率来说是次优的。特征检测以30fps的拍摄帧速率执行；特征跟踪以120fps执行，其是拍摄帧速率的(N-1)倍；以及运动估计以150fps执行，其是拍摄帧速率的N倍。在简单的实施方法中，检测计算应用于每N帧中的一帧，并且跟踪计算应用于其余N-1帧中的每帧。

用户期望运动估计器432识别并描述用户期望的运动，使得形成视频文件的每个合成帧250保留用户期望的运动。用户期望运动估计器432接收相机运动信息，相机运动信息包括帧特征信息436并且可以另外包括惯性度量265。用户期望运动估计器432估计相机运动，其包括使用所接收的相机运动信息确定用户期望的相机运动的移动速度和移动方向。在某些实施方式中，用户期望运动估计器432应用数字方法来估计相机运动。在其他实施方式中，用户期望运动估计器432结合数字方法应用基于惯性度量265的方法来估计相机运动。如下面参考图9更具体地描述，接收或估计的相机运动信息可包括相机200的定向和/或位移以及与视频流300的每个帧(IMG0到IMGW-1)相对应的拍摄时间，相机运动信息可以标绘在图表900上，图表900示出了在特定方向上的位移与时间的关系。从用户期望运动估计器432生成和输出的用户期望相机运动信息440可以表示为时间和例如水平平移方向(表示为x轴905)的特定方向上的位移的函数。

响应于接收到用户期望运动信息440，相机运动稳定器434确定手抖相机运动(表示为手抖相机运动信息442a)、相机稳定路径(表示为位移和/或定向值442b)和相机运动失真信息442c(例如，由CMOS电子卷帘快门引入的失真)。相机运动稳定器434将手抖相机运动信息442a、相机稳定路径442b和相机运动失真信息442c发送到配准模块438。相机运动稳定器434确定用户在拍摄视频流300的每个帧时意图进行拍摄的期望位置和/或定向作为用户期望运动信息440的值。对于视频流300中的每个帧，相机运动稳定器434确定用户期望拍摄帧的期望位置和/或定向(附图标记915a)与相机拍摄帧的实际位置和/或定向(附图标记920a)之间的差异(图9中的附图标记910a、910b)。在某些实施方式中，出于美观的原因，相机运动稳定器434可以选择稳定到与用户期望的相机路径稍微不同的路径。也就是说，为了使期望的相机运动路径美观，相机运动稳定器434可以通过去除突然的抖动(例如，在阈值930之外的差异910a)来生成相机稳定路径442b以作为用户期望的相机运动路径440的函数。同样对于视频流300中的每个帧，手抖相机运动信息442a包括表示差异的值的矩阵，使配准模块438能够从滑动窗口中的失真点去除手抖动相机运动。

场景分析器444确定场景对于混合的适配性。场景分析器444通过确定在每个滑动窗口中拍摄的场景内出现的运动量来确定场景对于混合的适配性。场景分析器444参考相应滑动窗口内的其他帧分析视频流中的每个帧，以确定包括帧中运动量的帧的运动模糊特性和运动引起的模糊。场景分析器444生成混合控制参数446，混合控制参数446指示滑动窗口中每个帧的混合权重。为了提供最优的视频文件质量，场景分析器444基于帧的运动特性(例如，帧中存在的总运动、估计的运动模糊以及被混合的帧与参考帧之间的相对时间差)来控制帧经历的混合权重。场景分析器444选择滑动窗口内的哪些图像将被混合在一起形成合成帧250以及具有什么相对贡献。响应于确定图像具有太多运动，或者在色彩、亮度或聚焦上具有太多差别，为了改善混合处理，场景分析器444可以选择将图像从向光度(PM)对准和混合处理块448的传输中除去。也就是说，场景分析器444选择丢弃哪些图像或者不将哪些图像传输到对齐和混合处理块。混合权重表示对齐和混合处理块应该应用于对应图像的强度。可以从混合处理中消除具有零权重的图像或者PM对准和混合处理块448不依赖具有零权重的图像，而可以严重依赖具有最大权重的图像用于混合处理。

当确定当前滑动窗口中的两个以上的帧之间发生了太多运动，或者由于其他原因(例如，系统中的噪声太大，亮度、色彩或聚焦的差异或者在相机运动的跟踪判断中缺乏一致性)导致跟踪结果不可靠时，场景分析器444重置对应于当前滑动窗口的帧特征检测和跟踪。可以通过指示特征检测和跟踪模块426对具有错误估计的跟踪关系值(例如T43)的特定帧执行附加检测和跟踪来重置帧特征检测和跟踪。场景分析器444可以通过确定与帧相关联的运动量超过帧跟踪可靠性阈值(指示特征检测和特征跟踪所需的可靠性)来确定当前滑动窗口中的两个以上的帧之间发生了太多运动。场景分析器444可以通过确定丢失了太多的特征点(例如，从匹配特征点的列表中丢失)来确定当前滑动窗口中的两个以上的帧之间发生了太多运动。

场景分析器444从配准模块438接收帧对齐和变换信息，例如但不限于变形参数450、仿射矩阵、投影变换矩阵或通用变形参数，并使用仿射矩阵(或其他变换参数)来避免将变形解释为场景内的对象运动。例如，如果用户拍摄具有晴朗天空(例如，没有可见云)的山景的视频，则场景分析器444可以确定场景中没有任何东西在移动，因为在滑动窗口的所有N个图像中，山脉和地面是静止的，并且没有可见的云正在移动。作为另一示例，如果用户拍摄相同山景的视频，但是在五个图像中的两个图像期间，昆虫在相机200镜头或传感器208的视野内飞过场景的水平中心线，则场景分析器444可以确定在场景中发生少量(即，一个昆虫对象、一个方向、几帧)的移动。作为另一示例，如果用户拍摄相同山景的视频，但是在滑动窗口的所有N个图像中，被风吹向各个方向的树叶占据了机镜头或传感器208的视野的右上角，则场景分析器444可以确定在场景中发生了大量(即，数个叶子对象、各个方向、所有帧)的移动。另外，场景分析器444为局部运动分析器454生成运动控制参数452，局部运动分析器454使用运动控制参数452来识别图像内构成场景内的运动对象的像素，例如，飞行昆虫或树叶。注意，通过接收运动控制参数452，局部运动分析器454在帧内移动对象及其边界。

配准模块438确定可以将滑动窗口内的每个非参考帧几何地映射到相同滑动窗口中的参考帧上的最佳参数。例如，配准模块438接收包括从N帧滑动窗口中的每个帧匹配的点列表的帧特征信息436，并且可以将帧特征信息436的点列表识别为存在失真的点集。点集中存在的一些失真可归因于手抖相机运动、用户期望相机运动、场景中的对象移动或诸如互补金属氧化物半导体(CMOS)卷帘快门失真的相机运动失真。配准模块438可以使用帧特征信息列表436确定可以将帧变形对准参考帧的几何变形参数。使用手抖差异信息442a，配准模块438可以修改变形参数以去除手抖。配准模块438可以进一步修改变形参数，使得输出相应于稳定路径442b稳定。配准模块438可以通过利用运动失真信息442c生成失真校正几何变换参数来调整变形参数以去除CMOS卷帘快门失真。配准模块438可以执行这些步骤的全部或部分。配准模块438可以使用任何机制来描述变形参数，例如，仿射矩阵、投影变换矩阵或甚至局部变化的通用网格变形参数。在某些实施方式中，移动视频HiFi数字缩放系统400通过使用从相机的视频稳定模块206接收的相机稳定信息来执行HiFi配准处理。

HiFi插值模块456补偿或以其他方式校正每个图像中的几何变形差。也就是说，对于N帧滑动窗口424中的每个图像，HiFi插值模块456使用与该图像相关联的变形参数450的仿射矩阵来生成该图像的未变形和未放大的版本。也就是说，从HiFi插值模块456的输出是具有N帧的滑动窗口458的插值版本。HiFi插值模块456将插值滑动窗口458放大约1.5倍的缩放倍率，使得插值滑动窗口458具有比N帧滑动窗口424更多的像素数。HiFi插值模块456包括混叠保留插值滤波器，混叠保留插值滤波器包括具有截止低通滤波器(其设计成远远超出标准的Nyquist频率)的数字放大的多相实施并通过第一混叠的绝大部分。在执行插值时，混叠保留插值滤波器有意不滤除混叠分量。混叠的保留可以是部分的或完全的，但是在插值滑动窗口458中保留混叠直到混合处理是专为HiFi视频缩放的滤波器设计而设计的。HiFi插值模块456的混叠保留(从质量的角度来看，混叠保留在单帧插值算法中是不受欢迎的)有助于在混合多个帧时保留图像特征和分辨率。混合多个帧消除混叠，同时保持图像特征。在某些实施方式中，HiFi插值模块456可以使用标准方法中的任何一种进行插值，例如，双线性插值、双三次插值、多相插值或其他此类方法。在某些实施方式中，HiFi插值模块456应用图像插值算法，图像插值算法包括以下项中的至少一项：混叠保留(AR)插值、以上AR插值作为空间变化权重或者实施锐化作为插值的一部分。

HiFi插值模块456基于坐标变换通过双三次加权生成来实施旋转变换和子像素移位。与上述插值滤波器一起，这些旋转变换和子像素移位构成图像的仿射变换。将仿射变换分成放大和旋转/移位操作、通过混叠保留插值算法实施放大以及在旋转/移位操作之前锐化是HiFi插值模块456的技术优点。HiFi插值模块456以不同的特性执行这些技术上有利的操作，从而在减少计算负荷的同时优化输出质量。

在某些实施方式中，移动视频HiFi数字缩放系统400包括将所有阶段(旋转、移位、放大和锐化)组合成一个局部自适应权重集。在某些实施方式中，移动视频HiFi数字缩放系统400包括处理块，处理块是生成一个局部自适应权重集的混叠保留插值、锐化、旋转和子像素移位算法的组合。局部自适应权重是预先计算的，并基于坐标变换的像素移位来应用。基于查找表的方法用于提取在实施方法中应用的局部权重。

HiFi插值模块456使用局部自适应权重来放大(插值)、锐化、旋转和移位(整像素或子像素)帧。在某些实施方式中，HiFi插值模块456以分离的操作执行放大、锐化、旋转和移位。在其他实施方式中，HiFi插值模块456以另一顺序的组合操作执行放大、锐化、旋转和移位。例如，HiFi插值模块456可以包括放大插值、锐化、旋转和移位成一个局部自适应权重集的组合，以及将子集组合成不同的权重集。在某些实施方式中，HiFi插值模块456依据变形参数450(例如，图像配准参数)的仿射矩阵用不同的局部自适应权重集处理N帧滑动窗口424中的N个图像。在某些实施方式中，HiFi插值模块456使用局部自适应权重来实施其间具有锐化滤波器的几何变换(仿射或投影/透视)。在某些实施方式中，HiFi插值模块456拆分几何变换以通过专用插值内核(例如，混叠保留放大内核)实施插值的一个方面并通过标准方法(例如，双线性或双三次或其他)或专用方法实施变换的其他方面。

局部运动分析器454除了接收运动控制参数452，还从相机固件202接收曝光和色彩增益信息402以及从HiFi插值模块456接收包括N个插值帧的插值滑动窗口458。局部运动分析器454将局部运动处理算法应用于插值滑动窗口458，以确定图像的哪些子部分具有移动对象。局部运动分析器454生成权重图或局部运动图460，权重图或局部运动图460指示图像的哪些部分具有运动而哪些部分不具有运动。局部运动分析器454将局部运动图460输出到PM对准和混合处理块448并输出到后处理器462，以指示构成移动对象的每个像素的位置。局部运动分析器454应用局部运动处理算法来分析插值滑动窗口458中的每个图像内的局部运动。例如，局部运动分析器454可以确定构成上述示例中所描述的飞行昆虫或吹动树叶的每个像素的位置。作为另一示例，局部运动分析器454可以确定构成穿过场景的行人的每个像素的位置，并将人的像素与诸如山的静止背景的像素区分开。局部运动分析器454实施算法以确定局部自适应权重。局部运动分析器454通过使用上采样或下采样图像确定用于局部运动决策的局部权重来提高性能和准确度。

PM对准和混合处理块448使用局部运动图460来确保插值滑动窗口458内的移动对象不被混合在一起。如下面参考图5更具体地描述，PM对准和混合处理块448包括PM对准块505和混合模块510。输入PM对准和混合处理块448可以由PM对准块505、混合模块510或PM对准块505和混合模块510两者使用。

PM对准块505将亮度和色彩校正算法应用于混合控制参数446以生成调整的混合控制参数515。如上所述，由于3A锁定在视频拍摄期间具有关闭状态，视频流300包括曝光、聚焦和白平衡的变化。在应用亮度和色彩校正算法时，当通过场景分析器444确定指示帧具有超过预定阈值的亮度差或具有超过预定阈值的色差时，PM对准块505分析在插值滑动窗口458的N帧之间的重叠区域中的帧之间的亮度差和色差，调整滑动窗口中N-1帧的亮度或色彩以尽可能匹配参考帧，以及拒绝混合具有太大亮度/色差的每个帧。另外，PM对准块505通过应用锐度校正和模糊帧丢弃的组合来校正滑动窗口中的移动焦点。相应地，调整的混合控制参数515还包括用于校正移动焦点的参数。在某些实施方式中，如图7所示，可以由预锐化块420执行对移动焦点的校正，因此，预锐化块420可以从场景分析块444接收焦点校正信息705。PM对准块505可以根据N倍拍摄帧速率的速率将PM对准算法应用于滑动窗口，以使亮度和色彩与滑动窗口中的参考帧的亮度和色彩匹配。在其它实施方式中，PM对准块505可以通过将滑动窗口的N帧的亮度和色彩调整为时变目标、根据拍摄帧速率来将PM对准算法应用于滑动窗口中的每个帧。

混合模块510接收插值滑动窗口458，并根据调整的混合控制参数515将N个图像混合成单混合图像464。虽然混合模块510可以接收插值滑动窗口458的所有N个图像，但是混合模块510可以基于从PM对准块505接收的调整的混合控制参数515从混合处理中排除图像。插值滑动窗口458的第一图像302中像素的位置是插值滑动窗口458中的其他图像中该像素的相同位置。相应地，像素的每个位置可以是：(1)从参考帧411中选择的未混合的高质量像素；或者(2)在插值滑动窗口458中N个图像中的每个图像中的相同位置的多达N个像素的混合。对于每个像素位置，位置运动图460指示是否像素将被混合。对于N个图像中的每个图像，调整的混合控制参数515指示哪些图像将用于混合处理以及每个图像的像素分配了多少权重。单混合图像464可包括某些位置处的混合像素和其他位置处的未混合像素。混合模块510使用加权平均操作来执行混合操作。多帧混合操作执行混叠消除、缺陷像素校正和信噪比改良(滤噪)。局部运动图460包括由局部运动分析器454的局部运动处理算法确定的混合函数的权重。混合模块510使用统计估计技术，例如，用于混合多个图像的均值、中值或其他统计数据。例如，混合模块510可以在运行中计算统计均值(或平均值)并且使用均值作为用于混合的计算有效统计量。混合模块510不限于使用统计平均值(例如，均值或中值)，还可以使用标准偏差、最小值或最大值统计量作为可以在运行中计算的计算有效统计量，或者使用从来自N帧的像素计算的任何其他统计量。在某些实施方式中，处理电路配置成通过将滑动窗口的N个帧的亮度和色彩调整为时变目标、根据拍摄帧速率将PM对准技术应用于滑动窗口中的每个帧来生成合成图像。在一些实施方式中，处理电路配置成通过生成包括混合权重或均值运动中的至少一个的局部混合统计量来混合对应于滑动窗口的变形插值帧。并且处理电路配置成根据包括均值或中值中的至少一个的统计函数来执行混合。

移动视频HiFi数字缩放系统400包括后处理器462和第二比例调整466，后处理器462和第二比例调整466均被包括在后处理模块414中。

后处理器462包括后锐化器、对比度分析器和饱和度估计器，后锐化器、对比度分析器和饱和度估计器中的每项处理单混合图像464以生成锐化的单混合图像468。后处理块420的锐化滤波器增强了插值图像中图像细节，并且锐化滤波器有助于提高整个输出合成帧250的锐度。高通/带通滤波器作为锐化滤波器实施。滤波器的截止点经视觉优化以获得最令人满意的输出质量。在某些实施方式中，移动视频HiFi数字缩放系统400通过使用与混叠保留插值滤波器一起设计的锐化滤波器来增强图像保真度。

第二比例调整块466接收单混合图像的锐化版本。第二比例调整块466使用例如双三次方法或其他插值方法的单帧插值算法将锐化的单混合图像468按余量缩放倍率放大。从第二比例调整块466的输出是按用户请求的分辨率(例如，9倍或4倍数字缩放分辨率)的合成图像250。例如，如果用户放大到9倍缩放倍率以拍摄视频流，则HiFi插值模块456应用1.5倍的放大，使得锐化的单混合图像468需要通过余量6倍缩放倍率进一步放大，以获得9倍的总缩放倍率。在该示例中，总缩放倍率÷第一级放大缩放倍率＝余量缩放倍率。在某些实施方式中，第二比例调整块466通过将单帧插值算法应用于单混合图像来使滑动窗口中的每个帧按余量缩放倍率(即，第二部分缩放倍率)放大，使得合成帧250调整到用户选择的缩放倍率(即，总缩放倍率)。

根据本公开，移动视频HiFi数字缩放系统400实施包括非迭代多级混合的多级数字缩放算法，然后进行单帧插值。多级数字缩放算法降低了整体算法的复杂性，因为在较小分辨率下实现了大部分图像质量的提升。也就是说，以1倍或1.5倍分辨率进行图像处理直到最后一级(即，第二比例调整块466)。相比之下，以用户请求的分辨率(例如，4倍或9倍)进行的图像处理增加了处理复杂性。

在一些实施方式中，处理器1045配置成基于超出预定阈值的以下项中的至少一项来重置用于滑动窗口的特征检测和跟踪的应用：帧噪声的估计、检测和跟踪可靠性的估计、亮度差、色差、聚焦差或相机运动估计。

在一些实施方式中，为了降低端到端的延迟，处理器1045配置成根据每个帧的水平和竖直维度将滑动窗口的每个帧划分为M个条带，并提供从视频流的每个帧的M个条带中的第i条带开始的流程，用于同时进行预处理和高保真以及在提供帧的M个条带中的第M条带之前的后续时间进行后处理。

在一些实施方式中，为了降低端到端的延迟，处理器1045配置成将N帧滑动窗口中的每个帧的M个条带中的每个条带划分为L个区块，并且顺序地提供流程(该流程从N-j区块开始，包括N帧滑动窗口的每个第i条带的L个区块中的第j区块)，从而生成N个预处理的第j区块，通过除去手抖相机运动生成插值帧中插值的第j区块，根据滑动窗口中每个帧的混合权重生成第j单混合区块，并且生成具有用户选择的数字缩放倍率的第j合成区块，针对第i+1条带或下一滑动窗口的第一条带，重复执行这一顺序。并且处理器1045配置成在完成下一帧的第M条带的N个预处理的第L区块的生成之前，完成帧的第M条带第L合成区块的生成。

尽管图4B示出了一种示例移动视频HiFi数字缩放系统400，但是可以对图4进行各种改变。例如，场景分析器444、配准模块438和HiFi插值模块456可以接收参考帧选择411，并使用所选择的参考帧(例如，最新拍摄帧)作为滑动窗口内其余帧的比较参考。作为另一示例，特征检测和跟踪模块426可以接收参考帧选择411，并使用所选择的参考帧作为用于计算或估计滑动窗口内的跟踪关系的参考。

图5示出了图4B的光度对准和混合处理块448内的示例组件。PM对准和混合处理块448包括PM对准块505和混合模块510，PM对准块505和混合模块510可操作地彼此联接使得PM对准块505可将调整的混合控制参数515发送到混合模块510。混合模块510通过根据调整的混合控制参数515中所指定的混合权重在插值滑动窗口458内混合N个插值帧来生成单混合图像464。

尽管图5示出了一种示例PM对准和混合处理块448，但是可以对图5进行各种改变。例如，PM对准块505和混合模块510的功能可以组合成单个处理块。在某些实施方式中，可以省略PM对准块505，在这种情况下，移动视频HiFi数字缩放系统400仅依赖于场景分析器444来丢弃具有色差和亮度差的帧。

图6示出了图4B的系统的示例相机运动和场景分析器408。以上参考图4B描述了相机运动和场景分析器408内的组件426、428、430、432、434。在所示的示例中，用户期望运动估计器432基于从IMU 260接收的惯性度量265估计相机运动。

尽管图6示出了一种示例相机运动和场景分析器408，但是可以对图6进行各种改变。例如，用户期望运动估计器432可以与相机运动稳定器434组合，使得用户期望运动估计器432提供手抖相机运动信息442a。在某些实施方式中，在相机运动和场景分析器408中根本不会进行对手抖的稳定化，而是可以外部地发生于相机ISP 210，或可以发生在移动视频HiFi数字缩放系统400的输出端，或者可以不在移动视频HiFi数字缩放系统400中的任何地方发生。

图7示出了图4A和图4B中的系统400的预处理块406内的示例组件。图7中所示的预处理块406的实施方式仅用于说明。在不背离本公开的范围的情况下，可以使用其他实施方式。应该理解的是，其他实施方式可以包括更多、更少或不同的组件。

例如，预处理块406可以包括预比例调整器，其通过应用单帧插值算法以第二部分缩放倍率放大滑动窗口中的每个帧，其中，其中用户选择的缩放倍率等于第一部分缩放倍率乘以第二部分缩放倍率。在另一示例中，多帧预比例调整器可以介入联接在预处理块406与HiFi插值模块456之间，使得预处理块406将N帧滑动窗口424提供给多帧预比例调整器。多帧预比例调整器通过将多帧插值算法应用于滑动窗口424来使滑动窗口中的每个帧按第二部分缩放倍率放大。

图8A和图8B示出了根据本公开的用于为移动视频实施高保真缩放的示例过程800。为了便于解释，假设过程800由UE 100的处理器1045实施。应该理解的是，过程800可以由任何合适的视频处理装置实施。

在框802中，处理器1045接收以拍摄帧速率拍摄的视频流300。例如，相机200以30fps的拍摄帧速率拍摄视频流300，并且连续地将视频流300的每个帧228输出到处理器1045。

在框804中，处理器1045确定相机运动信息。在某些实施方式中，确定相机运动信息包括接收相机运动信息。例如，相机运动信息可以包括以下中的至少一个：惯性度量265或由相机视频稳定模块206记录的点集。在某些实施方式中，确定相机运动信息包括应用数字方法。例如，相机运动信息可包括帧特征信息436。在其他实施方式中，可以利用外部方法(例如，视频稳定模块206)、惯性方法(例如，基于惯性度量265)和数字方法(例如，基于帧特征信息436)的组合。

此外，确定相机运动信息可包括框806，其中处理器1045根据跟踪帧速率和检测帧速率将特征检测和跟踪应用于视频流300，跟踪帧速率和检测帧速率均不超过拍摄帧速率。例如，处理器可以根据15fps的检测帧速率对视频流300应用检测，并根据30fps的跟踪帧速率对视频流300应用跟踪。在该示例中，检测帧速率是拍摄帧速率的一半，并且跟踪帧速率等于拍摄帧速率。在某些实施方式中最大检测帧速率是30fps，并且最大跟踪帧速率是最大检测帧速率的N倍。

在框808中，处理器1045分析相机运动信息。在框810中，处理器1045基于相机运动信息将相机运动信息分解成期望相机运动和手抖相机运动。例如，处理器1045执行用户期望运动估计器432的操作以生成用户期望运动信息440。在框812中，处理器1045应用运动稳定来量化手抖相机运动以从视频流中消除手抖相机运动。例如，处理器执行相机运动稳定器434的操作以生成手抖相机运动信息442a，手抖相机运动信息442a指示为除去归因于手抖相机运动的失真而待应用于帧的失真校正量和方向。相机运动稳定器434还输出稳定路径442b，稳定路径442b向配准模块438指示在输出中待渲染的相机运动路径。相机运动稳定器434还输出CMOS电子卷帘快门失真信息，使得帧配准模块438可以确定需要应用的几何变形量以便校正CMOS电子卷帘快门失真。

在框814中，处理器1045执行帧配准以生成基于手抖运动的消除、输出视频中稳定相机运动路径的生成以及CMOS电子卷帘快门失真的去除的变形参数450(例如但不限于仿射矩阵)。也就是说，处理器1045生成变形参数450的仿射矩阵集，其指示执行所有这三个校正帧所需的变形量。例如，处理器1045执行配准模块438的操作，使用手抖运动信息442a从存在失真的点集(例如，帧特征信息436点列表)中除去可归因于手抖相机运动的失真，使用相机稳定路径信息442b输出视觉上令人满意的动作流畅的视频，并且使用CMOS电子卷帘快门失真信息442c以除去CMOS电子卷帘快门失真。在某些实施方式中，帧配准模块438可以生成组合的变形参数来以有效的方式完成上述三项内容。在其他实施方式中，帧配准模块438可以生成变形参数以完成上述三项内容的子集。

在框816中，处理器1045识别与期望相机运动相关联的运动。例如，处理器1045执行用户期望运动估计器432的操作以确定帧的运动特性。例如，可以从比较相应滑动窗口中的参考帧与每个其他非参考帧之间的差异获取运动特性。在某些实施方式中，还可以通过在帧特征信息436内处理估计来判断运动特性，以确定跟踪性能是否由于过多运动、过度亮度/色彩变化或噪声而低于某个预定可靠性阈值。

在框818中，处理器1045基于所确定的帧的运动特性来确定是否重置跟踪。例如，处理器1045可以基于确定与帧相关联的运动量超过特征跟踪可靠性阈值来重置特征检测和跟踪模块426。作为另一示例，处理器1045可以基于确定丢失的特征点数量超过特征点丢失阈值来重置特征检测和跟踪模块426。在确定重置跟踪时，过程800前进到框820。在确定不重置跟踪时，过程800前进到框827。

在一些实施方式中，处理器1045基于超过预定阈值的以下项中的至少一项来重置用于滑动窗口的特征检测和跟踪的应用：帧噪声的估计、检测和跟踪可靠性的估计、亮度差、色差、聚焦差或相机运动估计。

在框827中，处理器1045将HiFi插值应用于滑动窗口。例如，处理器1045接收滑动窗口424内N帧的预处理版本，并根据变形参数450的仿射矩阵通过应用HiFi插值除去滑动窗口内N个预处理帧中的每个帧的变形，从而生成插值滑动窗口458。如HiFi插值模块456所示，HiFi插值的应用可以除去可归因于CMOS ERS失真的失真，除去手抖相机运动并生成视觉上令人满意的动作流畅的视频。

在框820中，处理器1045对具有错误估计的跟踪关系值或具有太多丢失特征点的帧执行附加帧特征检测和跟踪。例如，处理器1045执行特征检测和跟踪模块426的操作，从而执行与帧相关联的检测和跟踪的附加真值计算。

在框822中，处理器1045基于所识别的帧的运动特性来控制用于视频中的每个帧的混合权重。例如，处理器1045丢弃表现出太多运动的每个帧，例如，当帧与滑动窗口中的另一帧差量超过帧差阈值时。如果帧由于运动或缺乏聚焦而表现出太多模糊，则处理器1045也可以丢弃该帧。

在框824中，处理器1045对多个帧的重叠区域应用全局亮度校正或全局色彩校正。例如，处理器1045执行PM对准块505的操作，以通过调整的混合控制参数446来校正色差并校正亮度差。

在框826中，处理器1045使用对应的N帧滑动窗口将PM对齐应用于帧。例如，处理器1045比较滑动窗口中的每个帧与其他帧，并丢弃具有超过预定阈值亮度差或具有超过预定阈值的色差的每个帧。也就是说，表现出太多亮度差/色差的被丢弃的帧将具有零混合权重并且将从混合过程中被排除。

在一些实施方式中，处理器1045通过将滑动窗口中的N帧的亮度和色彩调整为时变目标、根据拍摄帧速率将PM对准技术应用于滑动窗口中的每个帧，从而生成合成图像。

在框828中，处理器1045将局部运动分析应用于滑动窗口。例如，处理器1045确定插值滑动窗口458内的N个插值帧的哪些子部分具有移动对象，并且该确定基于所接收的曝光和色彩增益信息402和运动控制参数452。

在框830中，处理器1045根据混合权重来混合N帧。也就是说，处理器根据分配给每个帧的混合权重来混合滑动窗口的每个未被丢弃的帧。如上所述，处理器1045从混合处理中排除被丢弃的帧。

在框840中，处理器1045对单混合帧464应用后处理。例如，处理器1045对单混合帧464应用后锐化(在框842中)，随后对锐化的单混合帧应用后对比度分析(在框844中)，随后对对比且锐化的单混合帧进行后饱和度分析。在框848中，处理器1045通过对锐化的单混合图像468应用第二比例调整来生成合成帧250。在框850中，处理器将合成帧250输出到视频文件，视频文件可以存储在UE 100的视频库应用中。

尽管图8A和图8B示出了用于为移动视频实施高保真缩放的一个示例过程800，但是可以对图8A和图8B进行各种改变。例如，虽然作为系列步骤示出，但是图8A和图8B中的各个步骤可以重复、并行发生、以不同顺序发生或者发生任何次数。作为更具体的示例，处理器1045的架构提供了比简单地将算法放入硅中更复杂的低功率实施方法。处理器1045可以组合基于帧的处理、基于区块的处理和基于条带的处理，其中实现若干优化，包括：降低的延迟和低系统存储带宽消耗。

为了降低端到端的延迟，处理器1045实施基于条带的处理，其包括：根据每个帧的水平和竖直维度将滑动窗口的每个帧划分成M个条带；同时向预处理模块406和相机运动和场景分析器408提供视频流300的流程组件；以及在提供帧的M个条带中的第M条带之前的后续时间向后处理模块414提供流程。流程从来自视频流300的每个帧的M个条带中的第i条带开始，随后是第i+1条带，并依次类推到第M条带。

在一些实施方式中，处理器1045配置成通过选择最新拍摄的帧作为参考帧或者从N个帧中选择中心帧作为参考来从滑动窗口中选择参考帧以减少运动失真。并且处理器1045配置成通过对单混合帧的后处理并控制后处理的强度生成合成图像，通过使用局部运动统计以控制后处理噪声控制、后处理锐化控制或后处理饱和控制中的至少一个的强度。并且处理器1045配置成使用输出视频流，相机的图像信号处理器(ISP)的输入、ISP中的具有中间数据格式的中间点或执行视频回放应用中的至少一项。

为了实现额外的端到端延迟降低和/或低系统存储带宽消耗，处理器1045实施基于区块的处理。基于区块的处理包括：将来自滑动窗口的N帧中的每帧的M个条带中的每个条带划分为L个区块。视频流300的组件的流程可以从N个第j区块(例如，j＝1,2,…L)开始。N个第j区块包括来自滑动窗口的N个帧的每个第i条带的L个区块的第j区块。也就是说，流程开始处的N个第j区块包括集合{F1Si＝1Tj＝1,F2S1T1,F3S1T1,F4S1T1,FN＝5S1T1}，随后是来自滑动窗口的N个帧的每个第i条带的N个(j+1)条带，包括集合{F1Si＝1Tj＝2,F2S1T2,F3S1T2,F4S1T2,FN＝5S1T2}，并依此类推直到区块索引j等于区块数L，然后递增条带索引i直到条带索引等于条带数M。对于具有N＝5帧的单滑动窗口的流程，以区块集合{F1Si＝MTj＝L,F2SMTL,F3SMTL,F4SMTL,FN＝5SMTL}结束。基于区块的处理包括：顺序地将视频流300的组件的流程提供给预处理模块，从而生成N个预处理的第j区块；顺序地将视频流300的组件的流程提供给高保真插值模块，从而通过除去手抖相机运动生成插值帧的插值的第j区块；顺序地将视频流300的组件的流程提供给混合模块，从而根据滑动窗口中每个帧的混合权重生成第j单混合区块；以及顺序地将视频流300的组件的流程提供给后处理模块，从而生成具有用户选择的数字缩放倍率的第j合成区块。基于区块的处理还包括：针对第(i+1)条带或下个滑动窗口的第一条带，重复执行这一顺序，其中，在预处理模块完成下一帧的第M条带的N个预处理的第L区块的生成之前，后处理模块完成帧的第M条带的第L合成区块的生成。

图9示出了根据本公开的用于解释将相机运动信息分解成期望相机运动和手抖相机运动的图900。图900包括表示相机200距离初始位置的位移的竖直轴905，以及表示距离初始帧拍摄的时间的水平轴925。

图900包括拍摄视频流300的每个原始图像的实际位置920a(即，实际位置和实际定向)的一系列点。例如，在实际位置920a处拍摄第三帧306(IMG2)，并且在实际位置920b处拍摄第四帧308(IMG3)。作为示例，用户期望运动估计器432可以使用相机运动信息来确定实际位置920a-920b。对于每个滑动窗口，用户期望运动估计器432将用户期望相机运动信息440确定为表示滑动窗口内的N帧的实际相机位置之间的关系的函数。在所示的示例中，用户期望相机运动信息440示出为一条线，表示第一滑动窗口316的实际相机位置之间的关系的函数并表示第二滑动窗口318的实际相机位置之间的关系的函数。

图900包括用户期望拍摄每个帧的期望位置915a-915b(即，期望位置和期望定向)的一系列点。可以将每个期望位置915a-915b确定为用户期望相机运动信息440线和拍摄原始帧时间的交叉点。例如，用户期望运动估计器432估计用户意图在期望位置915a处拍摄第三帧306(IMG2)，并且在期望位置915b处拍摄第四帧308(IMG3)。用户期望运动估计器432可以将用户期望相机运动信息440功能提供给场景分析器444和相机运动稳定器434。

图900包括930帧差阈值930，示出为阴影区域。帧差阈值930包括与用户期望相机运动信息440线的指定差异，并且示出为阴影区域。帧差阈值930表示这样一种条件，即，哪些帧将被混合在一起以及哪些帧将从混合处理中被丢弃。作为示例，差异910a超过帧差阈值930，因为实际位置920被绘制在可容忍的阴影区域之外。超过帧差阈值930的帧差可以指示表现出过大运动模糊特性的帧。作为另一示例，第四帧308(IMG3)的差异910b不超过帧差阈值。在第一滑动窗口中，N＝5帧中的四个帧将被混合在一起。也就是说，第五帧(IMG4)可以是与第一帧(IMG0)、第二帧(IMG1)和第四帧(IMG3)混合的参考帧。在第二滑动窗口中，第六帧(IMG5)可以是与第二帧(IMG1)、第四帧(IMG3)和第五帧(IMG4)混合的参考帧。

相机运动稳定器434计算或以其他方式确定每个实际位置920a-920b与每个期望位置915a-915b之间的差异910a-910b。每个差异910a-910b包括大小和方向，其可以表示为矩阵并且作为手抖相机运动信息442a被发送到配准模块438。图900包括稳定相机路径442b，其可以与用户期望相机运动信息440线相同或不同。

在一些实施方式中，处理器1045基于相机运动信息将相机运动信息分解成期望相机运动路径和手抖相机运动。为了使期望相机运动路径美观，处理器1045通过去除突然的抖动来生成相机稳定路径，以作为用户期望的相机运动路径的函数。并且处理器1045通过将用于相机运动的变形校正与相机运动稳定的变形校正或用于ERS的变形校正中的至少一个项结合来生成变形参数集合。

图10示出了根据本公开的图1的用户设备的配置的框图。图10所示出的UE 100的实施方式仅用于说明。在不背离本公开的范围的情况下，可以使用其他实施方式。UE具有多种多样的配置，而图10不将本公开的范围限制于UE的任何特定实施方法。例如，UE 100可以是移动电话，包括具有相机(例如，嵌入式视频相机)的智能电话、MP3终端、平板PC和各种数字设备。

UE 100包括天线1005、通信单元1010、第一相机1015、第二相机1015、音频单元1025、IMU 260、显示单元102、输入接口1030、传感器1035、存储器1040和处理器1045。

通信单元1010执行与基站或互联网服务器的通信功能。此外，通信单元1010包括调制器和解调器。调制器通过调制信号将发送信号发送到发送器，并且解调器解调通过接收器接收的信号。这里，调制器和解调器可以是长期演进(LTE)、宽带码分多址(WCDMA)、全球移动通讯系统(GSM)、无线保真(WIFI)、无线宽带(WiBro)、近场通讯(NFC)或蓝牙(Bluetooth)。在本公开的实施方式中，通信单元1010配置有LTE、WIFI和蓝牙装置。

第一相机200是设置在便携式终端的背面的相机，并且可以拍摄高分辨率视频。第二相机1015是设置在便携式终端的正面的相机，并且可以进行数字拍照或录制数字视频。

音频单元1025包括麦克风和扬声器。音频单元1025处理以通信模式生成的语音信号，并处理在相机的视频记录模式中生成的音频信号。

显示单元102在处理器1045的控制下显示正在执行的应用的信息。显示单元102可以是液晶显示器(LCD)、OLED或能够呈现例如来自网站的文本和/或至少有限图形的其他显示器。输入接口1030设置为电容型或电阻型，并且将用户触摸(手指触摸)的位置信息输出到处理器1045。此外，输入接口1030可以包括EMR传感器板，并且检测笔触摸输入以发送到处理器1045。这里，显示单元102和输入接口1030可以集成为一个单元。输入接口1030可以包括小型键盘，UE 100的操作者可以使用小型键盘将数据输入到UE 100中。

传感器1035可以包括用于检测UE 100的移动的各种传感器。传感器1035可配置有加速度传感器、地磁传感器和/或位置检测传感器。传感器1035可以包括IMU 260，并且可以实施IMU的功能。

存储器1040包括操作系统(OS)程序1050和一个或多个应用1055(例如，视频相机应用)。存储器1040联接到处理器1045。存储器1040的一部分可以包括随机存取存储器(RAM)，存储器1040的另一部分可以包括闪存或其他只读存储器(ROM)。存储器1040具有存储根据本公开实施方式的UE 100的操作系统1050和视频相机应用1055的程序存储器，以及存储用于操作UE的表和执行程序时生成的数据的数据存储器。

视频相机应用1055提供用于为移动视频生成高保真缩放的专用方法，其生成具有提高的信噪比、较低的混叠、改善弯曲和成角度对象的渲染以及提高的清晰度的视频流。视频相机应用1055将相机运动分解为用户手抖相机运动(手部的小的无意微动)和用户期望相机运动。视频相机应用1055使用计算方法以利用来自略微不同视角这些图像中包含的附加信息，以及生成高保真缩放视频流。视频相机应用1055以两级方式使用多帧高保真插值和常规非HiFi数字缩放的组合，以降低复杂度或扩展缩放范围。

处理器1045可以包括一个或多个处理器或其他处理装置并执行存储在存储器1040中的OS程序1050，从而控制UE 100的整体操作。在一些实施方式中，处理器1045包括至少一个微处理器或微控制器。处理器1045控制UE 100的总体操作，并控制根据本公开的为移动视频生成高保真缩放的功能。也就是说，处理器1045还能够执行存储在存储器1040中的其他处理和程序，诸如用于为移动视频生成高保真缩放的操作。处理器1045可以根据执行过程的需要将数据移入或移出存储器1040。在一些实施方式中，处理器1045配置为基于OS程序1050或响应于从基站或操作者接收的信号来执行应用1055。处理器1045还联接到显示单元102。在UE 100中，处理器1045通过控制第一相机200和/或第二相机1015来获取静止图像或视频帧。处理器1045控制显示单元102显示在编辑模式中选择的图像并显示软按钮以选择用于相机200的HiFi视频模式。

尽管图10示出了UE 100的一个示例，但是可以对图10进行各种改变。例如，图10中的各种组件可以组合、进一步细分或省略，并且可以根据具体需要添加额外组件。作为具体示例，处理器1045可以被划分为多个处理器，诸如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。另外，虽然图10示出了配置为移动电话或智能电话的UE 100，但是UE可以被配置为作为其他类型的移动或固定装置操作。

图11示出了根据本公开的、根据基于条带的处理和基于区块的处理将帧划分为条带和区块的示例滑动窗口316。作为示例，将描述滑动窗口316的基于条带的处理和基于区块的处理，而后续滑动窗口318、320可以类似地划分。滑动窗口316包括N＝5帧302、304、306、308、311，滑动窗口316跨越第一维度1105(即，时间维度)。根据基于条带的处理，根据每个帧的竖直维度1110和水平维度1115将每个帧划分成M个条带1120、1125。也就是说，第一帧302包括第一条带1120、第二条带1125，依此类推到第M条带。类似地，第二帧到第五帧中的每帧包括第一条带1120、第二条带1125，依此类推到第M条带。每个帧可以包括连续条带1120与1125之间的条带额外开销1130。

根据基于区块的处理，根据每个帧的竖直维度1110和水平维度1115将每个条带1120、1125划分成L个区块。如图所示，F0_S0_T0表示第一帧302(即第0帧(F0))、第一条带1120(即第0条带(S0))和第一区块1135(即第0区块(T0))。每个条带可包括相同数量的区块。第一帧至第五帧302、304、306、308、311中的每帧分别在其第一条带1120中包括第一区块1135、1140、1145、1150、1155。第一条带1120包括第二区块1160(F0_S0_T1)、第三区块1165(F0_S0_T2)，依此类推到第L区块(F0_S0_TL)。类似地，第二条带1125包括第一区块1170、第二区块1175、第三区块1180等，直到第L区块(F0_S1_TL)。可以预先确定条带数和/或区块数，或者基于帧的尺寸、帧的宽高比和/或UE 110的硬件性能来计算条带数和/或区块数。

图12A示出了根据本公开的视频流的组件的基于条带的处理流程1200的示例。基于条带的处理流程1200从来自视频流300的每帧的M个条带的第i条带开始，随后是第(i+1)条带，依此类推到第M条带。也就是说，基于条带的处理1200从第一滑动窗口316的第一帧302的第一条带1120(F0_S0)开始，随后是第一滑动窗口316的第一帧302的第二条带1125(F0_S1)，依此类推到第一帧的第M条带1205。在第一帧的M个条带之后，基于条带的处理1200包括第二帧的第一条带1210(F1_S0)、第二条带1215(F1_S1)，依此类推到第M条带(F1_SM)，再依此类推到第一滑动窗口316的第N帧的第M条带1220(F4_SM)。在先前滑动窗口的第N条带之后，基于条带的处理1200包括后续滑动窗口318的第N帧的第一条带1225(F5_S0)、第二条带1230(F5_S1)，依次类推到第M条带1235(F5_SM)。

图12B示出了根据本公开的视频流的组件的基于区块的处理流程1201的示例。基于区块的处理流程1201从包括滑动窗口316中的N帧中每帧的一个区块的区块组1202开始。每个区块由区块索引j引用，并且每个条带由条带索引i引用。相应地，基于区块的处理流程1201从滑动窗口316的N个第i条带的第j区块的第一组1202开始，随后是第二区块组1204。第一组1202包括第一帧至第五帧302、204、306、308和310的第一条带1120的第一区块1135、1140、1145、1150和1155。第二区块组1204包括第一帧至第五帧302、204、306、308和310的第一条带1120的第二区块{(F0_S0_T1),(F1_S0_T1),(F2_S0_T1),(F3_S0_T1),(F4_S0_T1)}。第二区块组1204之后是来自滑动窗口316的每个帧的第一条带1120的后续索引区块，依次类推到第一条带1120的第L区块组{(F0_S0_TL),(F1_S0_TL),(F2_S0_TL),(F3_S0_TL),(F4_S0_TL)}。接下来，基于区块的处理流程1201包括来自滑动窗口316的每个帧的第二条带1125的第一区块组{(F0_S1_T1),(F1_S1_T1),(F2_S1_T1),(F3_S1_T1),(F4_S1_T1)}，依次类推到来自第二条带1125的第L区块组，再依次类推到滑动窗口316的第M条带的第L区块组，滑动窗口316的第M条带的第L区块组是滑动窗口316的最后一组区块。滑动窗口316的最后一组区块包括含有最后区块1206的区块组{(F0_SM_TL),(F1_SM_TL),(F2_SM_TL),(F3_SM_TL),(F4_SM_TL)}。

根据基于区块的处理流程1201，处理器芯片的存储带宽可以包括N个区块的全部组，使得能够使用处理器芯片的存储带宽在多帧处理中处理N个帧。处理器芯片的存储带宽可以远小于存储装置的存储带宽。通过使用处理器芯片的存储带宽实施多帧处理，可以降低UE的存储装置的存储带宽消耗。

在一些实施方式中，处理器1045根据每个帧的水平维度和竖直维度将滑动窗口的每个帧划分成M个条带。并且处理器1045提供从来自视频流的每个帧的M个条带的第i条带开始的流程，用于同时预处理和高保真缩放，并且在提供帧的M个条带的第M条带之前的后续时间进行后处理。

在一些实施方式中，处理器1045将来自滑动窗口的N个帧中的每个帧的M个条带中的每个条带划分成L个区块。并且处理器1045顺序地提供以N个第j区块开始的流程，该流程包括来自滑动窗口的N个帧的每个第i条带的L个区块中的第j区块，以生成N个预处理的第j区块，通过去除手抖相机运动生成插值帧的插值的第j区块，根据滑动窗口中每个帧的混合权重生成第j单混合区块，并生成具有用户选择的数字缩放倍率的第j合成区块。并且处理器1045重复上述顺序提供第(i+1)条带或下一个滑动窗口的第一条带，并且处理器1045在完成下一帧的第M条带的N个预处理的第L区块的生成之前，完成帧的第M条带的第L合成区块的生成。

图13示出了根据本公开的在图1的用于为移动视频实施高保真缩放的用户设备内的视频回放装置的示例框图。

视频回放装置122连接到移动视频HiFi数字缩放系统400以在HiFi视频模式下操作，并且视频回放装置122从移动视频HiFi数字缩放系统400接收控制信号216并将控制信号218和视频流300发送到移动视频HiFi数字缩放系统400。视频回放装置122包括控制视频回放装置122的操作的视频播放器程序或应用，诸如将视频流300的视频帧提供给移动视频HiFi数字缩放系统400。通过处理电路(例如，处理器1045)执行视频回放应用可以包括使用输出视频流以降低端到端延迟。视频回放装置122和确定用户选择的缩放倍率，并将重新调整的图像226提供给显示器102，并且为了这样做，视频回放装置122控制显示器102显示具有用户选择的数字缩放倍率的合成帧250.

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045确定用户选择的缩放倍率，其中，用户选择的缩放倍率等于第一部分缩放倍率乘以第二部分缩放倍率。非暂时性计算机可读介质使得处理器1045以第二部分缩放倍率来对滑动窗口中的每个帧进行放大。非暂时性计算机可读介质使得处理器1045通过应用多帧插值技术以第一部分缩放倍率将滑动窗口中的每个帧放大来生成变形插值帧，使得合成图像调整到用户选择的缩放倍率。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045根据拍摄帧速率通过以下项中的至少一项来预处理视频流的每个帧：增强帧的锐度或滤除帧的噪声。非暂时性计算机可读介质使得处理器1045通过基于自动聚焦信息控制锐化强度来控制视频流的每个帧的预处理。非暂时性计算机可读介质使得处理器1045通过根据拍摄帧速率的N倍速率将光度(PM)对准和混合技术应用于滑动窗口以将亮度和色彩与滑动窗口中的参考帧的亮度和色彩匹配，从而生成合成图像。非暂时性计算机可读介质使得处理器1045将特征检测和特征跟踪应用于视频流，以预处理从预处理操作输出的帧。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，计算机可读程序代码在被执行时，使得处理器1045通过将滑动窗口的N个帧的亮度和色彩调整为时变目标来根据拍摄帧速率将光度(PM)对准技术应用于滑动窗口的每个帧，从而生成合成图像。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045通过生成包括混合权重或均值运动中的至少一项的局部混合统计来混合对应于滑动窗口的变形插值帧，并根据均值或中值中的至少一项的统计函数执行混合。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045通过选择最新拍摄帧作为参考帧或者选择N帧之中的中心帧作为参考帧，从而选择参考帧以减少运动失真。并且该计算机可读程序代码在被执行时，使得处理器1045通过对单混合帧的后处理以及通过控制后处理的强度来生成合成图像，控制后处理的强度是通过以下方式实现的：通过使用局部运动统计来控制后处理噪声控制、后处理锐化控制或后处理对比度控制中的至少一项的强度。并且该计算机可读程序代码在被执行时，使得处理器1045使用输出视频流，相机的图像信号处理器(ISP)的输入、ISP中的具有中间数据格式的中间点或执行视频回放应用中的至少一项。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045基于相机运动信息将相机运动信息分解成期望相机运动路径和手抖相机运动，其中，为了是期望相机运动路径美观，通过去除突然的抖动来生成相机稳定路径以作为期望相机运动路径的函数。并且该计算机可读程序代码在被执行时，使得处理器1045通过以下方式生成变形参数集：将用于相机运动的变形校正与用于相机运动稳定化的变形校正或用于卷帘快门校正的变形校正中的至少一项结合。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045基于帧跟踪可靠性阈值、噪声量或缩放倍率中的至少一项来选择检测帧速率和跟踪帧速率。并且该计算机可读程序代码在被执行时，使得处理器1045根据检测帧速率对视频流应用特征检测，并根据跟踪帧速率对特征检测的应用之间的视频流的点应用特征跟踪，其中，检测帧速率和跟踪帧速率均小于或等于拍摄帧速率。并且该计算机可读程序代码在被执行时，使得处理器1045缓存从每个滑动窗口匹配的点列表并提供该列表作为帧特征信息，其中，点列表包括特征检测结果和特征跟踪结果。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045基于超出预定阈值的以下项中的至少一项重置用于滑动窗口的特征检测和跟踪的应用：帧噪声的估计、检测和跟踪可信度的估计、亮度差、色差、聚焦差或相机运动估计。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045根据每个帧的水平维度和竖直维度将滑动窗口的每个帧划分成M个条带，并提供从来自视频流的每个帧的M个条带的第i条带开始的流程，从而同时进行预处理和高保真缩放，并在提供帧的M个条带的第M条带之前的后续时间进行后处理。

在一些实施方式中，计算机程序的非暂时性计算机可读介质包括计算机可读程序代码，该计算机可读程序代码在被执行时，使得处理器1045将来自滑动窗口的N个帧中的每个帧的M个条带中的每个条带划分成L个区块。并且该计算机可读程序代码在被执行时，使得处理器1045顺序提供从N个第j区块开始的、包括来自滑动窗口的N个帧的每个第i条带的L个区块的第j区块，从而生成N个预处理第j区块，通过去除手抖相机运动生成插值帧的插值的第j区块，根据滑动窗口中每个帧的混合权重生成第j单混合区块，以及生成具有用户选择的数字缩放倍率的第j合成区块。并且该计算机可读程序代码在被执行时，使得处理器1045重复这一顺序处理第(i+1)条带或下一个滑动窗口的第一条带，并且在完成下一帧的第M条带的N个预处理第L区块的生成之前，完成帧的第M条带第L合成区块的生成。

图14示出了根据本公开的用于为移动视频实施高保真缩放的示例过程800。为了便于解释，假设过程800由UE 100的处理器1045实施。应该理解的是，过程800可以由任何合适的视频处理装置实施。

参考图14，在框1402中，处理器1045识别运动特性。在一些实施方式中，识别与在相机拍摄视频流中的滑动窗口时的场景中的移动对象相关联的运动特性。在一些实施方式中，处理器1045还通过将滑动窗口的N个帧的亮度和色彩调整为时变目标以根据拍摄帧速率将(PM)对准技术应用于滑动窗口的每个帧，从而生成合成图像。

在框1404中，处理器1045控制帧的混合权重。在某些实施方式中，处理器1045通过生成局部混合统计来混合对应于滑动窗口的变形插值帧。局部混合统计包括混合权重或均值运动中的至少一项。处理器1045根据包括均值或中值中的至少一项的统计函数来执行混合。处理器1045基于以下项中的至少一项来确定用于视频流中的每个帧的全局帧权重控制：帧的锐度、帧中运动量的估计、帧中噪声量的估计、帧与滑动窗口中的参考帧之间的时间差或帧中细节量的估计。基于从相机接收的自动曝光、自动聚焦和自动白平衡/色彩平衡信息来调整帧的混合权重。在一些实施方式中，处理器1045基于与滑动窗口中的其他帧混合的适配性来确定接受或丢弃滑动窗口中的每个帧。处理器1045基于以下项中的至少一项来确定用于视频流中的每个帧的全局帧权重控制：帧的锐度、帧中运动量的估计、帧中噪声量的估计、帧与滑动窗口中的参考帧之间的时间差或帧中细节量的估计。处理器1045通过丢弃具有以下项中的至少一项的滑动窗口中的每个帧来调整帧的混合权重：超过预定亮度差阈值的亮度差、超过预定色差阈值的色差、超过预定运动模糊阈值的运动模糊估计、超出帧对比度和色调阈值的帧对比度和色调、超过ERS阈值的帧的电子卷帘快门(ERS)失真估计、超过聚焦差阈值的帧聚焦差、超过帧跟踪可靠性阈值的帧特征检测和跟踪结果可靠性或者超出仿射误差阈值或在可容许对准误差范围之外的相机运动参数的可靠性。并且处理器1045基于从相机接收的自动曝光、自动聚焦和自动白平衡/色彩平衡信息来调整帧的混合权重。

在某些实施方式中，处理器1045通过将滑动窗口的N个帧的亮度和色彩调整为时变目标以根据拍摄帧速率将(PM)对准技术应用于滑动窗口的每个帧，从而生成合成图像。

在某些实施方式中，处理器1045通过生成局部混合统计来混合对应于滑动窗口的变形插值帧。局部混合统计包括混合权重或均值运动中的至少一项。并且处理器1045根据包括均值或中值中的至少一项的统计函数来执行混合。

在某些实施方式中，为降低端到端的延迟，处理器1045通过以下中的一个选择参考帧以减少运动失真：选择最新拍摄帧作为参考帧或者选择N帧之中的中心帧作为参考帧。处理器1045通过单混合帧的后处理并通过控制后处理的强度来生成合成图像，控制后处理的强度是通过以下方式实现的：使用局部运动统计来控制后处理噪声控制、后处理锐化控制或后处理对比度控制中的至少一项。处理器使用输出视频流，相机的图像信号处理器(ISP)的输入、ISP中的具有中间数据格式的中间点或执行视频回放应用中的至少一项。

在某些实施方式中，处理器1045基于与滑动窗口中的其他帧混合的适配性来确定接受或丢弃滑动窗口中的每个帧。并且处理器1045基于以下项中的至少一项来确定用于视频流中的每个帧的全局帧权重控制：帧的锐度、帧中运动量的估计、帧中噪声量的估计、帧与滑动窗口中的参考帧之间的时间差或帧中细节量的估计。处理器1045通过丢弃具有以下项中的至少一项的滑动窗口中的每个帧来调整帧的混合权重：超过预定亮度差阈值的亮度差、超过预定色差阈值的色差、超过预定运动模糊阈值的运动模糊估计、超出帧对比度和色调阈值的帧对比度和色调、超过电子卷帘快门(ERS)阈值的帧的ERS失真估计、超过聚焦差阈值的帧聚焦差、超过帧跟踪可靠性阈值的帧特征检测和跟踪结果可靠性或者超出仿射误差阈值或在可容许对准误差范围之外的相机运动参数的可靠性。并且处理器1045基于从相机接收的自动曝光、自动聚焦和自动白平衡/色彩平衡信息来调整帧的混合权重。

在某些实施方式中，处理器1045基于超出预定阈值的以下项中的至少一项重置用于滑动窗口的特征检测和跟踪的应用：帧噪声的估计、检测和跟踪可信度的估计、亮度差、色差、聚焦差或相机运动估计。

用于大缩放倍率的数字缩放技术产生了在所得到的数字缩放图像中的伪像和噪声被增强并被放大的技术问题。在拍摄视频帧期间，除了包括非期望的运动(例如，手抖)之外，相机运动还可以包括用户期望的运动(例如，在第三维中行进时二维平移的组合)。也就是说，仅由于手抖的相机位置的小差异而引起相机运动的假设不适用于可能不包括相同场景的视频帧。本公开提供了将相机运动信息分解为“用户期望相机运动”和“手抖相机运动”的技术方案。由于用户期望的运动使得相机在视频帧中拍摄不同场景，使得在将混合在一起的帧中拍摄相同场景的假设不能够适用。本公开提供了一种技术方案，以识别与场景中的移动对象相关联的运动特性。在视频拍摄期间，待混合帧的曝光、聚焦和白平衡的变化提出了一个技术问题：要避免由于帧在曝光、聚焦和白平衡方面具有过大差异的混合操作而导致合成图像质量下降。本公开提供了一种技术方案，以例如通过应用光度(PM)对准和混合技术基于相对于相同滑动窗口的另一帧的差异来控制帧的混合权重，并且多帧特征检测和跟踪的提高超出了未经改造的实施方法。本公开提供了降低延迟和降低存储带宽要求的技术方案。

根据本发明的权利要求或说明书中所描述的实施方式的方法可以用硬件、软件或硬件和软件的组合来实施。

关于软件实施，可以提供存储一个或多个程序(软件模块)的计算机可读存储介质。存储在计算机可读存储介质中的一个或多个程序可以配置成由电子装置的一个或多个处理器执行。一个或多个程序可以包括用于使电子装置能够执行根据本发明的权利要求或说明书中所描述的实施方式的方法的指令。

这样的程序(软件模块，软件)可以存储到随机存取存储器以及非易失性存储器，非易失性存储器包括闪存、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、磁盘存储设备、ROM-压缩光盘(CD)、数字通用光盘(DVD)或其他光存储设备以及磁带盒。替代地，可以将程序存储到组合这些记录介质的一部分或全部的存储器中。另外，可以包括多个存储器。

另外，程序可以存储在可经由诸如互联网、内联网、局域网(LAN)、宽LAN(WLAN)或存储区域网络(SAN)的通信网络或通过组合这些网络的通信网络访问的可附接存储装置中。这类存储装置可以通过外部端口访问实施本发明的实施方式的装置。另外，通信网络上的单独存储装置可以访问本发明的装置。

在本发明的具体实施方式中，本发明中包括的元件以单数或复数形式表示。然而，单数或复数表达是根据提出的情形为了便于解释而适当选择的，并且本发明不限于单个元件或多个元件。以复数形式表示的元件可以配置成单个元件，并且以单数形式表示的元件可以配置成多个元件。

虽然已经在本发明的说明书中描述了具体实施方式，但应该理解的是，在不背离本发明的范围的情况下，可以在其中进行各种改变。因此，本发明的范围不限于所描述的实施方式，而是由待解释的权利要求的范围及其等同范围限定。

Claims

1.一种装置，包括：

至少一个处理器，配置成：

在由相机拍摄的视频流的帧中识别与在所述相机拍摄所述视频流的滑动窗口时的场景中的移动对象相关联的运动特性；

以及

对于所述滑动窗口中的多个帧，基于所识别的运动特性控制所述帧的混合权重，以使得能够根据所述滑动窗口中的所述多个帧的被控制的混合权重生成所述合成图像。

2.根据权利要求1所述的装置，还包括：

相机，配置成以拍摄帧速率拍摄所述视频流，

其中，所述至少一个处理器还配置成：

在所述滑动窗口中包括所述视频流的至少两个帧，所述滑动窗口包括所述视频流的N个连续帧；

确定与在所述相机拍摄所述视频流时所述相机的运动相关联的相机运动信息；以及

对于所述视频流的一个或多个帧中的每个帧：

基于所述相机运动信息分析所述帧的变形量，以及

生成指示所述帧的变形量的变形参数的集合；

对于包括所述帧的所述滑动窗口中的帧：

通过将所述变形参数和图像插值技术应用于所述帧来生成变形插值帧，

其中，所述至少一个处理器还配置成：

通过以下方式生成所述合成图像：根据所述滑动窗口中每个帧的被控制的混合权重，将与所述滑动窗口对应的变形插值帧混合到单个混合帧中；以及

生成输出视频流，所述输出视频流包括从所述滑动窗口生成的所述合成图像以及从包括所述视频流的后续N个连续帧的后续滑动窗口生成的后续合成图像。

3.根据权利要求2所述的装置，其中，所述至少一个处理器还配置成：

确定用户选择的缩放倍率，其中，所述用户选择的缩放倍率等于第一部分缩放倍率乘以第二部分缩放倍率；

以所述第二部分缩放倍率放大所述滑动窗口中的每个帧；以及

通过以下方式生成所述变形插值帧：通过应用多帧插值技术以所述第一部分缩放倍率放大所述滑动窗口中的每个帧，使得所述合成图像被调整到所述用户选择的缩放倍率。

4.根据权利要求2所述的装置，其中，所述至少一个处理器配置成：

根据所述拍摄帧速率通过增强所述帧的锐化或滤除所述帧的噪声中的至少一项来预处理所述视频流的每个帧；

通过基于自动聚焦信息控制锐化强度来控制所述视频流的每个帧的所述预处理；

通过以下方式生成所述合成图像：根据所述拍摄帧速率的N倍速率将光度(PM)对齐和混合技术应用于所述滑动窗口，以使亮度和色彩与所述滑动窗口中参考帧的亮度和色彩匹配；以及

将特征检测和特征跟踪应用于所述视频流，以预处理从所述预处理操作输出的帧。

5.根据权利要求1所述的装置，其中，所述至少一个处理器配置成：

通过修改所述相机的图像信号处理器(ISP)来控制所述相机以进行以下项中的至少一项：滤噪、去马赛克配置、锐度增强、缺陷像素校正、色彩或曝光；

基于相机国际标准化组织(ISO)参数控制每个帧的混合权重；

基于以下项中的至少一项以高保真(HiFi)视频模式操作：

响应于所述用户选择的数字缩放倍率超过阈值数字缩放倍率，自动选择所述HiFi视频模式，

基于预先选择的质量等级自动选择所述HiFi视频模式，

接收到指示选择所述HiFi视频模式的用户输入；

通过使用以下项中的至少一项来确定所述相机运动信息：

使用数字分析，

从惯性测量单元(IMU)接收的惯性度量，或者

来自所述相机的视频稳定信息；

识别电子卷帘快门(ERS)失真的存在并基于所述视频流和所述相机运动信息确定所述ERS失真的参数；以及

基于以下项中的至少一项动态选择每个滑动窗口中连续帧的数量N：

对装置硬件性能进行的预定计算，

相机国际标准化组织(ISO)参数，或者

场景亮度。

6.根据权利要求2所述的装置，其中，所述至少一个处理器还配置成：

基于所述相机运动信息将所述相机运动信息分解为期望相机运动路径和手抖相机运动，

其中，为使得所述期望相机运动路径美观，通过去除突然的抖动生成相机稳定路径以作为所述用户期望相机运动路径的函数；以及通过将针对相机运动的变形校正与以下项中的至少一项结合来生成所述变形参数的集合：

对相机运动稳定的变形校正，或者

对电子卷帘快门校正(ERS)的变形校正。

7.根据权利要求1所述的装置，其中，所述至少一个处理器还配置成：

基于帧跟踪可靠性阈值、噪声量或缩放倍率中的至少一项来选择检测帧速率和跟踪帧速率；

根据检测帧速率对所述视频流应用特征检测；

根据跟踪帧速率对特征检测的应用之间的视频流的点应用特征跟踪，其中，所述检测帧速率和所述跟踪帧速率均小于或等于所述拍摄帧速率；

缓存从每个滑动窗口匹配的点列表，所述点列表包括特征检测结果和特征跟踪结果；以及

提供所述列表作为所述帧特征信息。

8.一种用于操作电子装置的方法，包括：

在由相机拍摄的视频流的帧中识别与在所述相机拍摄所述视频流的滑动窗口时的场景中的移动对象相关联的运动特性；以及

对于所述滑动窗口中的多个帧，通过至少一个处理器基于所识别的运动特性控制所述帧的混合权重，以使得能够根据所述滑动窗口中的所述多个帧的被控制的混合权重生成所述合成图像。

9.根据权利要求8所述的方法，还包括：

通过相机以拍摄帧速率拍摄视频流；

通过所述至少一个处理器在所述滑动窗口中包括所述视频流的至少两个帧，所述滑动窗口包括所述视频流的N个连续帧；

通过所述至少一个处理器确定与在所述相机拍摄所述视频流时所述相机的运动相关联的相机运动信息；

对于所述视频流的一个或多个帧中的每个帧：

通过所述至少一个处理器基于所述相机运动信息分析所述帧的变形量，以及

通过所述至少一个处理器生成指示所述帧的变形量的变形参数的集合；

对于包括所述帧的所述滑动窗口中的帧：

通过所述至少一个处理器通过将所述变形参数和图像插值技术应用于所述帧来生成变形插值帧；

10.根据权利要求9所述的方法，还包括：

通过以下方式生成变形插值帧：通过应用多帧插值技术以所述第一部分缩放倍率放大所述滑动窗口中的每个帧，使得所述合成图像被调整到所述用户选择的缩放倍率。

11.根据权利要求9所述的方法，还包括：

12.根据权利要求8所述的方法，还包括：

基于相机国际标准化组织(ISO)参数控制每个帧的混合权重；

基于以下项中的至少一项以高保真(HiFi)视频模式操作：

基于预先选择的质量等级自动选择所述HiFi视频模式，

接收到指示选择所述HiFi视频模式的用户输入；

通过使用以下项中的至少一项来确定所述相机运动信息：

使用数字分析，

从惯性测量单元(IMU)接收的惯性度量，或者

来自所述相机的视频稳定信息；

对装置硬件性能进行的预定计算，

相机国际标准化组织(ISO)参数，或者

场景亮度。

13.根据权利要求8所述的方法，还包括：

其中，为使得所述期望相机运动路径美观，所述方法还包括：通过去除突然的抖动生成相机稳定路径以作为所述用户期望相机运动路径的函数；以及

通过将针对相机运动的变形校正与以下项中的至少一项结合来生成所述变形参数的集合：

对相机运动稳定的变形校正，或者

对电子卷帘快门(ERS)校正的变形校正。

14.根据权利要求8所述的方法，还包括：

根据检测帧速率对所述视频流应用特征检测；

提供所述列表作为所述帧特征信息。

15.一种包含计算机程序的非暂时性计算机可读介质，所述计算机程序包括计算机可读程序代码，所述计算机可读程序代码在被执行时使得至少一个处理装置执行以下操作：

对于所述滑动窗口中的多个帧，基于所识别的运动特性控制所述帧的混合权重，以使得能够根据所述多个帧的被控制的混合权重生成所述合成图像；

在所述滑动窗口中包括所述视频流的至少两个帧，所述滑动窗口包括所述视频流的N个连续帧，其中，相机以拍摄帧速率拍摄所述视频流；

确定与在所述相机拍摄所述视频流时所述相机的运动相关联的相机运动信息；

对于所述视频流的一个或多个帧中的每个帧：

基于所述相机运动信息分析所述帧的变形量，以及

生成指示所述帧的变形量的变形参数的集合；

对于包括所述帧的所述滑动窗口中的帧：