CN112449141A

CN112449141A - 用于处理输入视频的系统和方法

Info

Publication number: CN112449141A
Application number: CN202010892984.4A
Authority: CN
Inventors: 穆斯塔法·艾尔可哈米; 李正元; 瑞安·塞托
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-09-04
Filing date: 2020-08-31
Publication date: 2021-03-05
Also published as: US20210065340A1; US11526970B2; KR20210029089A; TW202112138A

Abstract

提供了一种用于处理输入视频的系统和方法。所述方法包括：将输入视频从第一帧率转换为第二帧率，其中，第二帧率是比第一帧率快的帧率；生成处于第二帧率的输入视频的处理的帧；以及使用时间滑动窗口聚合来对处理的帧聚合，以产生处于第三帧率的处理的输出视频。

Description

用于处理输入视频的系统和方法

技术领域

本公开总体涉及视频处理。具体地讲，本公开涉及一种用于基于视频帧之间的时间特性来处理视频的系统和方法。

背景技术

视频是以特定帧率播放的一系列帧。视频可使用已知的视频处理技术(诸如，视频编辑、视频着色、视频修复、视频增强、视频超分辨率处理和视频风格迁移处理)被逐帧地处理。

使用已知处理技术处理的视频经常导致由于连续帧之间的变化而在时间上不相关的视频，从而导致在视频回放期间的闪烁。因此，可需要后处理以使得视频帧在时间上一致。后处理可需要大量的计算机处理资源来考虑每个视频帧中提供的所有信息。

因此，提供能够生成具有增强的时间一致性的视频帧的视频处理技术可能是有利的，从而减轻了提供用于校正视频帧之间的时间变化的附加处理(即，后处理)的需要。

发明内容

根据一个实施例，提供了一种用于在保持跨视频帧的时间一致性的同时处理输入视频的方法。所述方法包括：将输入视频从第一帧率转换到第二帧率，其中，第二帧率是比第一帧率快的帧率；生成处于第二帧率的输入视频的处理的帧；以及使用时间滑动窗口聚合来对处理的帧聚合，以产生处于第三帧率的处理的输出视频。

根据一个实施例，提供了一种用于在保持跨视频帧的时间一致性的同时处理输入视频的系统。所述系统包括非暂时性计算机可读存储器和处理器，其中，处理器在执行存储在非暂时性计算机可读存储器中的指令时被配置为：将输入视频从第一帧率转换为第二帧率，其中，第二帧率是比第一帧率快的帧率；生成第二帧率的输入视频的处理的帧；以及使用时间滑动窗口聚合来对处理的帧聚合，以产生处于第三帧率的处理的输出视频。

附图说明

从下面结合附图进行的详细描述，本公开的特定实施例的以上和其他方面、特征和优点将更清楚，其中：

图1示出根据实施例的用于时间上的上转换和聚合的流程图；

图2示出根据实施例的在时间上的上转换和聚合期间的帧；

图3示出根据实施例的用于执行视频修复的输入视频帧和掩模；

图4A示出根据实施例的用于执行视频修复的帧插值步骤；

图4B示出根据实施例的用于执行视频修复的逐帧修复步骤；

图4C示出根据实施例的时间聚合步骤；以及

图5示出根据一个实施例的网络环境下的电子装置的框图。

具体实施方式

在下文中，参照附图详细描述本公开的实施例。应注意，即使相同的元件在不同的附图中示出，它们也将由相同的参考标号标示。在下面的描述中，仅提供诸如详细配置和组件的具体细节来帮助对本公开的实施例的全面理解。因此，对于本领域技术人员而言应清楚的是，在不脱离本公开的范围的情况下，可进行在此描述的实施例的各种改变和修改。此外，为了清楚和简明，省略了公知功能和结构的描述。下面描述的术语是考虑在本公开中的功能而定义的术语，并且可根据用户、用户的意图或习惯而不同。因此，术语的定义应基于贯穿本说明书的内容来确定。

本公开可具有各种修改和各种实施例，其中，下面参照附图详细描述各种实施例中的实施例。然而，应理解，本公开不限于实施例，而是包括本公开的范围内的所有修改、等同物和替代物。

虽然包括诸如第一、第二等的序数的术语可用于描述各种元件，但是结构元件不受术语限制。术语仅用于将一个元件与另一元件区分开来。例如，在不脱离本公开的范围的情况下，第一结构元件可被称为第二结构元件。类似地，第二结构元件也可被称为第一结构元件。如在此使用的，术语“和/或”包括一个或多个相关项的任何组合和所有组合。

在此使用的术语仅用于描述本公开的各种实施例，而不意在限制本公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。在本公开中，应理解，术语“包括”或“具有”指示特征、数字、步骤、操作、结构元件、部件或它们的组合的存在，并不排除一个或多个其他特征、数字、步骤、操作、结构元件、部件或它们的组合的存在或添加的可能性。

除非不同地定义，否则在此使用的所有术语具有与本公开所属领域的技术人员所理解的含义相同的含义。除非在本公开中清楚地定义，否则术语(诸如在通用词典中定义的那些术语)将被解释为具有与相关领域中的上下文含义相同的含义，并且将不被解释为具有理想的或过于形式化的含义。

根据一个实施例的电子装置可以是各种类型的电子装置中的一种。电子装置可包括例如便携式通信装置(例如，智能电话)、计算机、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据公开的一个实施例，电子装置不限于上述那些。

本公开中使用的术语不意在限制本公开，而是意在包括对应的实施例的各种改变、等同物或替代物。关于附图的描述，类似的参考标号可用于表示类似的或相关的元件。除非相关上下文另外清楚地指示，否则与项对应的名词的单数形式可包括事物中的一个或多个。如在此所使用的，诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”和“A、B或C中的至少一个”的这样的短语中的每个可包括在这些短语中的对应的短语中一起列举的项的所有可能的组合。如在此所使用的，诸如“第1”、“第2”、“第一”和“第二”的术语可用于将对应的组件与另一组件区分开来，但不意在在其他方面(例如，重要性或顺序)限制组件。如果元件(例如，第一元件)在具有或不具有术语“可操作地”或“通信地”的情况下被称为“与”另一元件(例如，第二元件)“结合”、“结合到”另一元件(例如，第二元件)、“与”另一元件(例如，第二元件)连接”或“连接到”另一元件(例如，第二元件)，则意图指示该元件可直接地(例如，有线)、无线地或经由第三元件与另一元件结合。

如在此使用的，术语“模块”可包括以硬件、软件或固件实现的单元，并且可与其他术语(例如，“逻辑”、“逻辑块”、“部件”和“电路”)可互换地使用。模块可以是适于执行一个或多个功能的单个集成组件或其最小单元或部分。例如，根据一个实施例，模块可以以专用集成电路(ASIC)的形式来实现。

在许多算法是基于学习的算法的深度学习的时代，可能难以收集训练算法所需的数据以产生令人满意的输出视频。此外，当视频处理算法考虑来自邻近帧的信息时，时间信息经常被忽略，并且视频处理仍然逐帧地进行。此外，如果连续帧包括显著的变化，则处理的视频可在时间上不一致或不相关。

多帧处理可表示处理帧(即，视频帧)序列中的多个帧的算法。这些帧可具有这些帧之间的时间连贯性。然而，帧率和帧中的对象的速度可确定在连续帧之间能够观察到多少变化。

因此，如果帧序列是不完整的具有缺失的像素，则多帧处理系统和方法可用于使用准确的(即，实际的(realistic))值(即，像素值)替换缺失的区域(即，与缺失的像素对应的帧的区域)。

本公开提供一种包括帧处理算法的系统和方法，所述帧处理算法用于以较高帧率处理视频帧并且将结果跨时间聚合到目标帧率。该系统可包括用于执行该方法的操作的电子装置和/或处理器。

例如，图像修复可以是一种能够以较高帧率对视频帧执行的图像处理算法。

图像修复可被定义为用实际值替换图像中的一组缺失像素的任务。例如，图像修复可被执行以完成视频中的水印去除和/或对象去除。

图像修复可以以两级网络架构为特征，在两级网络架构中，第一级生成粗略预测并且第二级通过考虑两个流(即，图像的前景流和背景流)来细化预测的像素值。

为了改善将被校正的图像的区域内部的特征，修复模块可通过获取修复区域外部的背景块(patch)的加权和，来重建修复区域内部的前景块。用于确定所述加权和的权重可被计算为前景块和背景块之间的相关性。此外，可通过堆叠背景块以执行与前景(例如，未遮挡)区域、其他背景块和/或相关值的卷积，来并行地执行图像修复的相关性操作和重建操作。

此外，通过用部分卷积层(partial convolution layer)替换现有编码器-解码器网络的正常卷积层，可在不依赖于遮挡区域的占位符(placeholder，或称为位置标志符)值的情况下执行图像修复，这可在推断期间导致意外行为。部分卷积层可将输入张量(例如，形成为矩阵或向量的数据)和掩膜(mask，或称为遮罩)两者作为参数，并且将每个输出位置的值计算为未遮蔽(unmasked)输入值的归一化加权和。

此外，图像修复可通过考虑两种类型的损失(重建损失和对抗损失)来成功地重建图像。

重建损失可用于确定预测图像与实际图像的全帧之间的逐像素距离，并且基于每个像素与最接近的已知像素的距离来缩放每个像素的贡献。对抗损失可与图像修复模型联合地更新鉴别器。重建损失和对抗损失可被联合优化以用于改善的图像修复。

当考虑图像的大的连续的遮挡区域(诸如，视频序列中的连续帧)时，从一帧到下一帧识别在图像的相应区域中包含类似信息的上下文帧可能是有益的。

图像修复可被扩展为：通过基于参考帧(例如，视频序列中的特定帧)本身以及多个上下文帧而重建参考帧的特征，来考虑由时间方向上的多个图像帧(例如，连续帧)组成的视频。为了实现这一点，背景块可从参考帧和上下文帧两者被提取，并且与参考帧的前景区域进行卷积。然后结果可基于根据图像内的位置分配的权重被归一化。

然而，关于视频修复，添加的时间维度引入必须满足的附加标准。例如，邻近帧之间的内容应当是一致的，并且它们之间的明显运动(apparent motion)应当是真实的。

本公开提供用于对视频帧执行图像处理(例如，修复)的系统和方法，该系统和方法考虑到各个帧的时间特性，而不必依赖于复杂的时间相关算法来执行图像处理。

图1示出根据实施例的用于时间上的上转换(up-conversion)和聚合的流程图。

参照图1，在步骤101中，系统使用帧插值方法来增加遮挡的输入视频的帧率，帧插值方法在时间上对未处理的视频进行上采样以生成高帧率的插值视频。

在步骤102中，系统对高帧率的插值视频部署逐帧处理算法，以生成高帧率的输出视频。使用逐帧处理(例如，图像修复应用或用于将风格应用于每一帧的应用)独立地处理高帧率的插值视频中的每一帧。

在步骤103中，将高帧率的输出视频中的帧对齐并在适当的步长(例如，多个帧)的重叠窗口内聚合，来获得处于目标帧率的输出视频。

可通过观看图2示出的帧来可视化步骤101、步骤102和步骤103。

图2示出根据实施例的在时间上的上转换和聚合期间的帧。

图2中的步骤201、202和203可分别对应于图1中的步骤101、102和103。

参照图2，以原始帧率R_o运行的未处理的视频V可被提供作为输入，并且在执行步骤201、202和203之后，以目标帧率R_t运行的处理的视频Y可被提供作为输出。

在步骤201中，执行帧率上转换(FRUC)以将输入的未处理的视频V的帧率从R_o上采样到R_u，其中，R_u是比R_o高的视频帧率。

时间上的上转换(例如，FRUC)可对连续帧之间的照明、颜色和运动的变化进行插值，并且产生与所述连续帧相比具有运动、照明和/或颜色的剧烈变化小的中间帧。此外，插值帧可携带来自左(L)和右(R)(例如，前向和后向)参考帧的时间信息。

FRUC可使用常规帧插值技术来执行。附加地或可选地，可通过预测一对光流(optical flow)并由此预测用于将输入帧变形(warp)到特定时间步长(time step)的变形网格(warping grid)使用深度学习技术来执行FRUC。

例如，可通过估计在第一时间步长的第一帧(例如，L帧)与在第二时间步长的第二帧(例如，R帧)之间的前向光流和后向光流(例如，下面等式(1)和等式(2)中的O_{_t->L}和O_{_t->R})，并且估计在第一时间步长的第一帧与在第二时间步长的第二帧之间的前向变形网格和后向变形网格，来执行FRUC。前向光流和前向变形网格可对应于前向方向，并且后向光流和后向变形网格可对应于后向方向。

可针对在第一时间步长的第一帧与在第二时间步长的第二帧之间的每个中间帧来插值光流。第二时间步长可以是相对于第一时间步长的任意时间步长。根据等式(1)和等式(2)，插值光流O_{_t->L}和O_{_t->R}可被估计为从L帧估计的前向光流O_{_L->R}和从R帧估计的后向光流O_{_R->L}的加权和：

O_{_t->L}＝-(1-t)t×O_{_L->R}–t² O_{_R->L} (1)

O_{_t->R}＝(1-t²)O_{_L->R}–t(1-t)O_{_R->L} (2)

在等式(1)和等式(2)中，来自左帧的插值光流是O_{_t->L}，来自右帧的插值光流是O_{_t->R}。可使用从插值光流O_{_t->L}和O_{_t->R}得到的变形网格将左帧和右帧变形，以给出在前向(例如，从L)方向上插值的变形帧F_{_t}(L)和在后向(例如，从R)方向上插值的变形帧F_{_t}(R)。

此外，权重掩膜可被估计并用于对从L方向的变形帧F_{_t}(L)和从R方向的变形帧F_{_t}(R)求和，因此，通过等式(3)定义在中间时间步长t的帧F_{_t}：

F_{_t}＝w_{_L}×F_{_t}(L)+w_{_R}×F_{_t}(R) (3)

在等式(3)中，w_{_L}是用于对从左方向的变形帧求和的权重掩膜，w_{_R}是用于对从右方向的变形帧求和的权重掩膜。

在步骤202中，对插值帧执行逐帧转换。

对中间(例如，插值)帧的逐帧转换(例如，处理)可产生与在参考的非插值帧上获得的结果不同的结果，这是因为由于从在前向方向和后向方向二者上的插值而获得中间帧，所以中间帧可携带来自左帧和右帧(例如，上下文帧)的特性和/或特征。

为了执行逐帧处理，由时间插值帧V^S组成的高帧率视频可使用包括一个或多个逐帧处理技术的逐帧算法在时间t被处理，使得至少一个未处理的插值帧F_t通过逐帧算法P被处理为至少一个处理的帧P(F_{_t})。

逐帧算法P可以是多种不同类型的逐帧图像处理算法。例如，逐帧算法P可以是能够使用上下文关注修复网络(contextual attention inpainting network)独立地修复每个帧的修复算法。附加地或可选地，逐帧算法P可以是能够将特定风格应用于插值帧的算法(诸如，模糊去除算法或黑暗去除算法)。许多不同类型的逐帧算法可应用于上采样的视频帧V^S。

在步骤203，通过将帧聚合来执行帧率下转换(down-conversion)。具体地，可通过使用滑动窗口聚合对插值的处理的帧进行时间上的组合，来对处理的高帧率视频Y^S进行时间上的聚合，以产生处于目标帧率R_t的处理的视频Y。目标帧率R_t可以是原始帧率R_o。

在时间上的聚合处理中，来自处理的高帧率视频Y^S的处理的插值帧的信息可被后向携带到前一(即，左)参考帧并且被前向携带到下一(即，右)参考帧，从而在聚合之后提高处于目标帧率R_t的处理的帧之间的时间一致性。

当t对应于给定特定上采样率u(例如，对应于特定时间步长)的目标帧周围的时间插值时，处于目标帧率R_t的处理的视频Y可以是处理的帧的组合。

可根据等式(4)将处理的视频聚合到目标帧率R_t：

P(F_{_L})＝Agg(P(F_{_{uL-m}}),P(F_{_{uL-m+1}}),…,P(F_{_{uL}}),P(F_{_{uL+1})},)..P(F_{_{uL+m}})) (4)

在等式(4)中，m可以是窗口大小的函数，使得“2m+1”是用于聚合的窗口大小，b可表示-m与m之间的数字，以指示目标窗口中的处理的超帧(例如，上采样的帧)的索引。聚合函数(Agg())可计算每个处理的帧P(F_{_{uL+b}})到处理的目标帧P(F_{_{uL}})之间的光流O_{_(uL+b)->uL}。可使用计算的光流O_{_(uL+b)->uL}将插值帧F_{_(uL+b)}变形到目标帧F_{_uL}，从而产生变形帧W_{_(uL+b)->uL}。可基于等式(5)通过使用权重r_{_b}对变形帧求和，来对处理的帧P(F_{_L})进行时间上的聚合：

P(F_{_L})＝SUM_{_({-m:m}中的b)}(r_{_b} W_{_(uL+b)->uL}) (5)

在等式(5)中，针对距离目标帧越远或具有越大的b的绝对值的帧，权重r_{_b}可具有越小的权重值。

不同类型的逐帧处理可用于处理插值帧。例如，图像修复可以是一种单帧处理，其中，用实际值替换图像中的空间孔洞(hole)(像素的集合或区域)。附加地或可选地，风格迁移处理、风格化处理、超分辨率处理、去噪处理、增强处理、锐化处理、修复处理和阴影减少处理可以是用于处理插值帧的逐帧处理的类型。

视频修复是可应用于本公开的另一类型的处理。视频修复是能够用实际的和合理的内容(即，值)替换视频中的空间-时间孔洞的视频多帧处理的示例。

与图像修复相比，在时间上的帧之间执行处理的视频修复更复杂。例如，在一个帧中被替换的信息应当与在相邻帧中被替换的类似信息在时间上一致。当帧之间存在显著运动时，这变得特别具有挑战性。

图3示出根据实施例的用于执行视频修复的输入视频帧和掩模。

参照图3，为了执行视频修复，未处理的遮挡的输入视频帧301中的每个可伴随有掩模302(例如，遮挡掩模)。掩模302对应于输入视频帧301的将修复的区域。针对输入视频中的每个时间步长，掩膜302可针对每个输入视频帧301而存在。此外，可使用输入视频帧对掩模302进行上采样(例如，步骤101)，使得可以以高的上采样帧率R_u来执行视频修复。

相应地，图4A至图4C示出视频修复，其中，图4A对应于步骤101，图4B对应于步骤102，图4C对应于步骤103。

图4A示出根据实施例的用于执行视频修复的帧插值步骤。

参照图4A，V表示输入视频(即，红色绿色蓝色(RGB)视频)并且可由{v₁,...,v_N}帧构成，X表示遮挡掩模并且可由{x₁,...,x_N}帧构成。V{v₁,...,v_N}和X{x₁,...,x_N}一起指示当像素在输入视频V中被遮挡时要修复的区域。此外，遮挡的像素可具有占位符值以识别它们在帧中的位置。

为了执行视频修复技术，控制器可接受V{v₁,...,v_N}和X{x₁,...,x_N}作为输入，并且输出Y＝{_Y1,...,_YN}，其中，除了遮挡的像素通过去除和替换一个或多个遮挡的区域，已经用实际和合理的值被替换之外，Y＝{_Y1,...,_YN}包括与V{v₁,...,v_N}相同的值。

例如，视频修复技术可通过将相同的变形操作应用于包括在视频V{v₁,...,v_N}中的帧和包括在掩膜X{x₁,...,x_N}中的帧，利用时间上的上转换(例如，FRUC)来人为地增加遮挡视频V{v₁,...,v_N}和遮挡掩模X{x₁,...,x_N}的帧率。如图4A中所示，可针对高每秒帧(FPS)的遮挡视频V^S的每一帧生成高FPS的掩膜X^S。

附加地或可选地，为了执行时间上的上采样，可使用帧上转换方法(诸如，超级SloMo、FRUC和/或帧插值)在遮挡视频V和遮挡掩膜X中的每对帧之间插入多个帧，以创建高FPS版本的遮挡视频V^S和遮挡掩膜X^S。高FPS版本的遮挡视频V^S可由{v_s1,...,v_sN}帧构成，并且高FPS版本的遮挡掩膜(表示为X^S)可由{x_s1,...,x_sN}帧构成。

帧上转换方法可以能够在遮挡视频V和遮挡掩模X中的每对帧之中生成多个中间帧。此外，对于给定的时间步长，一对光流变形网格可用于使遮挡视频V和遮挡掩模X中的帧变形到该时间步长。

图4B示出根据实施例的用于执行视频修复的逐帧修复步骤。

参照图4B，在获得高FPS版本的遮挡视频V^S和遮挡掩模X^S之后，高FPS的遮挡视频的每个帧可被独立地修复以产生高FPS的输出视频Y^S。在一个示例中，在获得遮挡视频V^S和遮挡掩模X^S之后，可通过使用遮挡掩模X^S的与遮挡视频V^S的每个帧对应的帧独立地修复遮挡视频V^S的每个帧以产生输出视频Y^S。

对高FPS的遮挡视频进行独立地修复帧有利地使用比时间上的视频修复小的处理能力，时间上的视频修复必须基于时间考虑帧之间的差异。然而，本公开的视频修复实施例确实在对高FPS的视频的帧进行聚合时考虑帧之间的时间因素。

图4C示出根据实施例的时间上的聚合步骤。

如图4C中所示，在对处理的帧聚合时(例如，在对插值帧执行修复之后或在对插值帧执行另一类型的图像处理之后)，可应用时间上的聚合。具体地，在生成高FPS的输出视频Y^S之后，高FPS的输出视频Y^S中的帧可在具有适当步长(即，帧的长度或数量)的滑动窗口上被对齐和平均，以产生最终输出视频Y的帧。

为了执行时间聚合，处理的帧可在高FPS的输出视频Y^S中的预定步长(即，帧的长度或数量)的重叠窗口内被对齐和平均，以获得输出Y＝{_Y1,...,_YN}。

具体地，可在高FPS的输出视频Y^S中确认至少一个参考帧501。至少一个上下文帧502在时间方向上在参考帧501之前或之后围绕参考帧501。

如图4C中所示，选择具有五个参考帧(包括一个参考帧501和四个上下文帧)长度的滑动窗口503。滑动窗口503可相对于参考帧501被定向，使得参考帧在窗口503内被对齐(例如，居中)。也就是说，在被对齐时，相同数量的上下文帧可位于参考帧501的左侧和右侧。

在图4C中，每三个帧在高FPS的输出视频Y^S中确认一次参考帧501。因此，因为包括在滑动窗口503中的帧的数量(例如，五个帧)大于参考帧之间的帧的数量(例如，两个帧)，所以上下文帧中的至少一些可与多于一个参考帧对齐。相对于前向方向上的参考帧和相对于后向方向上的参考帧对齐同一上下文帧提高了在聚合之后帧之间的图像一致性和平滑度。

在高FPS的输出视频Y^S的帧已经在每个滑动窗口内被对齐之后，滑动窗口503中的每个帧之间的光流可被估计，并且这些帧可然后基于光流被变形。包括在输出视频Y中的最终输出帧可通过将变形帧(例如，变形上下文帧)与参考帧501进行平均来确定。在一个实施例中，可在时间滑动窗口内可将第一组处理的帧进行对齐和平均，可在时间滑动窗口内可将第二组处理的帧进行对齐和平均，其中，第一组处理的帧和第二组处理的帧包括至少一个共享的上下文帧。

因此，根据本公开的实施例，附加(即，后)处理可不必强制执行视频帧之间的时间上的一致性。

图5示出根据一个实施例的网络环境500下的电子装置501的框图。参照图5，网络环境500下的电子装置501可经由第一网络598(例如，短距离无线通信网络)与另一电子装置502通信，或者经由第二网络599(例如，长距离无线通信网络)与另一电子装置504或服务器508通信。电子装置501还可经由服务器508与电子装置504通信。电子装置501可包括处理器520、存储器530、输入装置550、声音输出装置555、显示装置560、音频模块570、传感器模块576、接口577、触觉模块579、相机模块580、电源管理模块588、电池589、通信模块590、用户识别模块(SIM)596和/或天线模块597。在一个实施例中，组件中的至少一个(例如，显示装置560或相机模块580)可从电子装置501省略，或者一个或多个其他组件可被添加到电子装置501。在一个实施例中，多个组件中的一些可被实现为单个集成电路(IC)。例如，传感器模块576(例如，指纹传感器、虹膜传感器或照度传感器)可嵌入在显示装置560(例如，显示器)中。

处理器520可执行例如软件(例如，程序540)以控制与处理器520结合的电子装置501的至少一个其他组件(例如，硬件或软件组件)，并且可执行各种数据处理或计算。作为数据处理或计算的至少一部分，处理器520可将从另一组件(例如，传感器模块576或通信模块590)接收的命令或数据加载在易失性存储器532中，处理存储在易失性存储器532中的命令或数据，并且将结果数据存储在非易失性存储器534中。处理器520可包括主处理器521(例如，中央处理单元(CPU)或应用处理器(AP))，以及可独立于主处理器521操作或结合主处理器521操作的辅助处理器510(例如，图形处理器(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP))。附加地或可选地，辅助处理器510可适于比主处理器521消耗更少的功率，或者执行特定功能。辅助处理器510可被实现为与主处理器521分离或者是主处理器521的一部分。

辅助处理器510可在主处理器521处于非活动(例如，睡眠)状态时代替主处理器521控制与电子装置501的组件中的至少一个组件(例如，显示装置560、传感器模块576或通信模块590)相关的功能或状态中的至少一些，或者在主处理器521处于活动状态(例如，执行应用)时与主处理器521一起控制与电子装置501的组件中的至少一个组件(例如，显示装置560、传感器模块576或通信模块590)相关的功能或状态中的至少一些。根据一个实施例，辅助处理器510(例如，ISP或CP)可被实现为在功能上与辅助处理器510相关的另一组件(例如，相机模块580或通信模块590)的一部分。

存储器530可存储电子装置501的至少一个组件(例如，处理器520或传感器模块576)使用的各种数据。各种数据可包括例如软件(例如，程序540)和用于与其相关的命令的输入数据或输出数据。存储器530可包括易失性存储器532或非易失性存储器534。

程序540可作为软件存储在存储器530中，并且可包括例如操作系统(OS)542、中间件544或应用546。

输入装置550可从电子装置501的外部(例如，用户)接收将由电子装置501的其他组件(例如，处理器520)使用的命令或数据。输入装置550可包括例如麦克风、鼠标或键盘。

声音输出装置555可将声音信号输出到电子装置501的外部。声音输出装置555可包括例如扬声器或接收器。扬声器可用于通用目的(诸如，播放多媒体或记录)，接收器可用于接收呼入呼叫。根据一个实施例，接收器可被实现为与扬声器分开或者是扬声器的一部分。

显示装置560可将信息视觉地提供到电子装置501的外部(例如，用户)。显示装置560可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的对应的一个的控制电路。根据一个实施例，显示装置560可包括适于检测触摸的触摸电路，或者适于测量由触摸引起的力的强度的传感器电路(例如，压力传感器)。

音频模块570可将声音转换成电信号，反之亦然。根据一个实施例，音频模块570可经由输入装置550获得声音，或者经由声音输出装置555或与电子装置501直接地(例如，有线)或无线地结合的外部电子装置502的耳机输出声音。

传感器模块576可检测电子装置501的操作状态(例如，功率或温度)或电子装置501外部的环境状态(例如，用户的状态)，然后生成与检测的状态对应的电信号或数据值。传感器模块576可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、抓握传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征识别传感器、温度传感器、湿度传感器或照度传感器。

接口577可支持将用于电子装置501与外部电子装置502直接地(例如，有线)或无线地结合的一个或多个指定协议。根据一个实施例，接口577可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。

连接端子578可包括连接器，电子装置501可经由连接器与外部电子装置502物理连接。根据一个实施例，连接端子578可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如，耳机连接器)。

触觉模块579可将电信号转换成可由用户经由触觉或动觉来识别的机械刺激(例如，振动或移动)或电刺激。根据一个实施例，触觉模块579可包括例如马达、压电元件或电刺激器。

相机模块580可拍摄静止图像或运动图像。根据一个实施例，相机模块580可包括一个或多个透镜、图像传感器、ISP或闪光灯。

电源管理模块588可管理供应到电子装置501的电力。电源管理模块588可被实现为例如电源管理集成电路(PMIC)的至少一部分。

电池589可将电力供应到电子装置501的至少一个组件。根据一个实施例，电池589可包括例如不可再充电的一次电池、可再充电的二次电池或燃料电池。

通信模块590可支持在电子装置501与外部电子装置(例如，电子装置502、电子装置504或服务器508)之间建立直接(例如，有线)通信信道或无线通信信道，并且经由建立的通信信道执行通信。通信模块590可包括可独立于处理器520(例如，AP)操作并且支持直接(例如，有线)通信或无线通信的一个或多个CP。根据一个实施例，通信模块590可包括无线通信模块592(例如，蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块594(例如，局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应的通信模块可经由第一网络598(例如，短距离通信网络(诸如，Bluetooth^TM、无线保真(Wi-Fi)直连或红外数据协会(IrDA)的标准))或第二网络599(例如，长距离通信网络(诸如，蜂窝网络、因特网)或计算机网络(例如，LAN或广域网(WAN)))与外部电子装置通信。这些各种类型的通信模块可被实现为单个组件(例如，单个IC)，或者可被实现为彼此分开的多个组件(例如，多个IC)。无线通信模块592可使用存储在用户识别模块596中的用户信息(例如，国际移动用户身份(IMSI))来识别和认证通信网络(诸如，第一网络598或第二网络599)中的电子装置501。

天线模块597可向电子装置501的外部(例如，外部电子装置)发送信号或电力或者从电子装置501的外部(例如，外部电子装置)接收信号或电力。根据一个实施例，天线模块597可包括一个或多个天线，并且由此适合于在通信网络(诸如，第一网络598或第二网络599)中使用的通信方案的至少一个天线可例如通过通信模块590(例如，无线通信模块592)被选择。信号或电力可然后经由选择的至少一个天线在通信模块590与外部电子装置之间发送或接收。

上述组件中的至少一些可相互结合，并且经由外设间通信方案(例如，总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动行业处理器接口(MIPI))在它们之间传送信号(例如，命令或数据)。

根据一个实施例，可经由与第二网络599结合的服务器508在电子装置501与外部电子装置504之间发送或接收命令或数据。电子装置502和504中的每个可以是与电子装置501相同类型或不同类型的装置。将在电子装置501处执行的操作中的全部或一些可在外部电子装置502、504或508中的一个或多个处执行。例如，如果电子装置501应自动地执行功能或服务或者响应于来自用户或另一装置的请求而执行功能或服务，则电子装置501可代替执行功能或服务或者除了执行功能或服务之外，请求一个或多个外部电子装置执行功能或服务的至少一部分。接收请求的一个或多个外部电子装置可执行所请求的功能或服务的至少一部分，或者与请求相关的附加功能或附加服务，并且将执行的结果传送到电子装置501。电子装置501可在进一步处理结果或不进一步处理结果的情况下提供结果作为对请求的答复的至少一部分。为此，例如，云计算、分布式计算或客户端-服务器计算技术可被使用。

一个实施例可被实现为包括存储在机器(例如，电子装置501)可读取的存储介质(例如，内部存储器536或外部存储器538)中的一个或多个指令的软件(例如，程序540)。例如，电子装置501的处理器可调用存储在存储介质中的一或多个指令中的至少一个指令，并且在处理器的控制下在使用或不使用一或多个其他组件的情况下执行所述至少一个指令。因此，机器可被操作为根据所调用的至少一个指令来执行至少一个功能。一个或多个指令可包括由编译器生成的代码或由解释器可执行的代码。可以以非暂时性存储介质的形式提供机器可读取存储介质。术语“非暂时性”指示存储介质是有形装置，并且不包括信号(例如，电磁波)，但是这个术语不在数据被半永久地存储在存储介质中与数据被临时地存储在存储介质中之间进行区分。

根据一个实施例，公开的方法可被包括和提供在计算机程序产品中。计算机程序产品可作为产品在卖方与买方之间进行交易。计算机程序产品可以以机器可读取存储介质(例如，光盘只读存储器(CD-ROM))的形式分发，或者经由应用商店(例如，Play Store^TM)或直接在两个用户装置(例如，智能电话)之间在线分发(例如，下载或上传)。如果在线分发，则计算机程序产品的至少一部分可被临时生成或至少临时地存储在机器可读取存储介质(诸如，制造商的服务器、应用商店的服务器或中继服务器的存储器)中。

根据一个实施例，上述组件中的每个组件(例如，模块或程序)可包括单个实体或多个实体。上述组件中的一个或多个可被省略，或者一个或多个其他组件可被添加。替代地或可选地，多个组件(例如，模块或程序)可被集成到单个组件中。在这种情况下，集成组件仍然可以以与通过多个组件中的对应的组件在集成之前执行多个组件中的每个组件的一个或多个功能的方式相同或相似的方式执行多个组件中的每个组件的一个或多个功能。由模块、程序或另一组件执行的操作可顺序地、并行地、重复地或启发式地执行，或者操作中的一个或多个可以以不同的顺序被执行或被省略，或者一个或多个其他操作可被添加。

尽管已经在本公开的具体实施方式中描述了本公开的特定实施例，但是在不脱离本公开的范围的情况下，可以以各种形式修改本公开。因此，本公开的范围不应仅基于描述的实施例来确定，而是基于所附权利要求及其等同物来确定。

Claims

1.一种用于在保持视频帧之间的时间上的一致性的同时处理输入视频的方法，所述方法包括：

将输入视频从第一帧率转换为第二帧率，其中，第二帧率是比第一帧率高的帧率；

生成处于第二帧率的输入视频的处理的帧；以及

使用时间滑动窗口聚合来对处理的帧聚合，以产生处于第三帧率的处理的输出视频。

2.根据权利要求1所述的方法，其中，将输入视频从第一帧率转换为第二帧率的步骤包括：

通过计算在第一时间步长的第一视频帧和在第二时间步长的第二视频帧的加权和来确定中间帧。

3.根据权利要求2所述的方法，其中，计算在第一时间步长的第一视频帧和在第二时间步长的第二视频帧的加权和的步骤包括：

计算从第一视频帧到与中间帧对应的第三时间步长的前向变形网格，并基于前向变形网格获得在前向方向上的变形帧；

计算从第二视频帧到与中间帧对应的第三时间步长的后向变形网格，并基于后向变形网格获得在后向方向上的变形帧；

通过对在前向方向上的变形帧和在后向方向上的变形帧执行加权和，来确定在第三时间步长的中间帧。

4.根据权利要求1所述的方法，其中，将输入视频从第一帧率转换为第二帧率的步骤包括：

将输入视频和遮挡掩模两者从第一帧率转换为第二帧率，

其中，遮挡掩模指示输入视频的将处理的区域。

5.根据权利要求4所述的方法，其中，生成处于第二帧率的输入视频的处理的帧的步骤包括：

使用与处于第二帧率的输入视频的每个帧对应的处于第二帧率的遮挡掩模，独立地处理处于第二帧率的输入视频的每个帧，其中，生成处理的帧的步骤包括：增强处理、锐化处理、去噪处理、超分辨率处理和修复处理中的至少一个。

6.根据权利要求1所述的方法，其中，使用时间滑动窗口聚合来对处理的帧聚合的步骤包括：

选择具有预定步长的时间滑动窗口；以及

在时间滑动窗口内将处理的帧中的至少一些帧进行对齐和平均。

7.根据权利要求6所述的方法，其中，在时间滑动窗口内对齐和平均的处理的帧包括：一个参考帧和至少两个上下文帧。

8.根据权利要求7所述的方法，其中，所述至少两个上下文帧包括：位于参考帧之前的至少一个上下文帧和位于参考帧之后的至少一个上下文帧。

9.根据权利要求1所述的方法，其中，使用时间滑动窗口聚合来对处理的帧聚合的步骤包括：

在时间滑动窗口内将第一组处理的帧进行对齐和平均；以及

在时间滑动窗口内将第二组处理的帧进行对齐和平均，

其中，第一组处理的帧和第二组处理的帧包括至少一个共享的上下文帧。

10.根据权利要求1至9中的任意一项所述的方法，其中，第一帧率等于第三帧率。

11.一种用于在保持视频帧之间的时间上的一致性的同时处理输入视频的系统，所述系统包括：

非暂时性计算机可读存储器和处理器，其中，处理器在执行存储在非暂时性计算机可读存储器中的指令时被配置为：

生成处于第二帧率的输入视频的处理的帧；以及

12.根据权利要求11所述的系统，其中，在将输入视频从第一帧率转换为第二帧率时，处理器还被配置为：

13.根据权利要求12所述的系统，其中，在计算在第一时间步长的第一视频帧和在第二时间步长的第二视频帧的加权和时，处理器还被配置为：

14.根据权利要求11所述的系统，其中，在将输入视频从第一帧率转换为第二帧率时，处理器还被配置为：

将输入视频和遮挡掩模两者从第一帧率转换为第二帧率，

其中，遮挡掩模指示输入视频的将处理的区域。

15.根据权利要求14所述的系统，其中，在生成处于第二帧率的输入视频的处理的帧时，处理器还被配置为：

16.根据权利要求11所述的系统，其中，在使用时间滑动窗口聚合来对处理的帧聚合时，处理器还被配置为：

选择具有预定步长的时间滑动窗口；以及

17.根据权利要求16所述的系统，其中，在时间滑动窗口内对齐和平均的处理的帧包括：一个参考帧和至少两个上下文帧。

18.根据权利要求17所述的系统，其中，所述至少两个上下文帧包括：位于参考帧之前的至少一个上下文帧和位于参考帧之后的至少一个上下文帧。

19.根据权利要求11所述的系统，其中，在使用时间滑动窗口聚合来对处理的帧聚合时，处理器还被配置为：

在时间滑动窗口内将第一组处理的帧进行对齐和平均；以及

在时间滑动窗口内将第二组处理的帧进行对齐和平均，

20.根据权利要求11至19中的任意一项所述的系统，其中，第一帧率等于第三帧率。