CN114731408B

CN114731408B - 使用结构化神经网络进行视频帧插值的系统、设备和方法

Info

Publication number: CN114731408B
Application number: CN202080078349.0A
Authority: CN
Inventors: 池志祥; 拉苏尔·穆罕默德·纳西里; 刘铮; 唐进
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-11-14
Filing date: 2020-09-09
Publication date: 2023-09-12
Anticipated expiration: 2040-09-09
Also published as: CN114731408A; US10958869B1; WO2021093432A1

Abstract

一种用于视频帧插值的系统、设备和方法。一方面，帧插值系统基于第一帧和第二帧接收候选插值帧和差值数据。所述帧插值系统基于所述差值数据识别所述候选插值帧的高误差区域和一个或多个递增低误差区域，并将修正神经网络的多个连续阶段应用于所述候选插值帧的所述区域(按从最高误差到最低误差的顺序)。在每一阶段，上一阶段的结果与下一较低误差区域相结合，然后由当前阶段进行修正。在一些方面，所述系统还使用光流估计神经网络生成所述候选插值帧和所述差值数据。

Description

使用结构化神经网络进行视频帧插值的系统、设备和方法

技术领域

本发明涉及视频帧插值，具体地，涉及一种使用结构化神经网络进行视频帧插值的系统、设备和方法。

背景技术

视频帧插值的目的是将视频帧合成为以视频的两个现有连续帧之间的时间步长呈现。在给定视频的两个连续帧(起始帧和结束帧)的情况下，视频帧插值系统尝试合成一个或多个中间帧以填充起始帧与结束帧之间的过渡。图1A示出了包括由视频帧插值系统合成的起始帧(第一帧102)、结束帧(第二帧104)和插值中间帧106的视频。一般情况下，视频帧插值试图合成插值中间帧106，插值中间帧106包括表示视频中两个连续帧之间的过渡的图像。

最近的视频插值方法使用机器学习模型来基于第一帧和第二帧的输入合成中间帧。机器学习模型可以通过向输入馈入已知期望输出来训练——例如，现有视频的帧和3可以用作输入，并将机器学习模型的输出与帧2进行比较。该比较生成误差函数，该误差函数指示模型输出偏离期望输出的程度。将该比较的结果馈入到模型中，并使用该比较的结果调整模型中的参数。基于足够大的数据集训练模型之后，调整有效设计的模型的参数以生成与期望输出紧密匹配的输出，即当馈入帧1和3时，该模型将插入与帧2紧密匹配的中间帧。

最近的视频帧插值方法通常是基于向量的或基于内核的。基于向量的方法依赖于对来自一对连续帧的双向密集光流的估计。然后，使用视频的一对连续帧之间的估计光流，执行像素重映射以合成新的插值中间帧。插值中间帧通常基于以下公式生成：

I_t(x，y)＝m·I₁(x-u，y-v)+(1-m)·I₂(x，y)

其中，I₁和I₂是起始帧和结束帧，I_t是插值中间帧，x和y是像素坐标，m是融合掩码，u和v是光流向量。

作为基于向量的方法的替代方法，基于内核的方法通过将来自视频的一对连续帧的任何输入补丁与预测的空间自适应内核进行卷积来合成插值中间帧的像素。具体地说，对于目标插值中间帧中的每个像素，基于内核的方法生成内核，例如矩形41x41矩阵。最后，通过使用点积在起始帧像素和结束帧像素的邻域上应用内核来计算输出插值中间帧106中的像素值。

基于内核的方法和基于向量的方法的基本操作如图1B所示。基于向量的视频帧插值方法120通过应用光流向量(u,v)122以基于起始帧I_t 102的(x+u,y+v)124处的相应像素值导出插值像素值，从而生成插值中间帧I_t+1106的像素(x,y)126。由此，I_t+1(x,y)＝f(I_t(x+u,y+v))。

相反，基于内核的视频帧插值方法130通过将内核K(x,y)132按点积应用于起始帧I_t 102的像素(x,y)134的邻域P(x,y)138来生成插值中间帧I_t+1106的像素(x,y)136。由此，I_t+1(x,y)＝K(x,y)·P(x,y)。

这些现有视频帧插值方法存在许多缺点。基于向量的方法在很大程度上依赖于估计光流的准确性，但光流估计必然是不完美的，在处理错位、大运动和重复图案时尤为如此。最近关于基于向量的方法的研究侧重于改善由基于机器学习的模型生成的光流，所述基于机器学习的模型使用边缘、深度和上下文信息等边信息。这些类型的信息可以帮助提高由此类基于机器学习的模型生成的插值中间帧106的质量，但此类模型通常需要高计算成本并且包括需要学习的海量参数。有时，成本与收益之间的权衡是不平衡的：使用具有大量学习参数的基于机器学习的模型只能小幅提高插值中间帧106的质量。因此，在某些应用中，由于用于训练和运行模型的资源存在回报递减，重模型(即，具有大量参数的模型)可能不如轻模型(即，具有较少参数的模型，也称为“轻量级”模型)。

最近基于内核的方法通常为目标插值中间帧中的每个像素生成一个内核，因此需要较大内存。例如，为了生成1080p视频帧(例如，包括1920x1080像素的帧)中所有像素的内核，基于内核的方法需要26GB内存用于存储由基于内核的方法生成的数据。此外，内核的大小限制了捕获大运动的能力。

此外，现有基于向量的方法仅使用光流生成初始扭曲中间插值帧，而未充分利用底层光流信息。光流提供了关于运动复杂性的强大先验知识，这与插值过程的性能直接相关。在给定视频的情况下，视频帧之间的变化运动复杂性使帧插值误差产生了非均匀分布。

鉴于前述内容，需要对视频帧插值方法进行改进。

发明内容

本发明提供了一种用于视频帧插值的系统、设备和方法。候选插值中间帧被分割成具有不同水平估计插值误差的区域。对每个区域分别进行修正(refinement)，并将修正区域进行组合，生成最终插值中间帧。

根据本发明的第一方面，提供了一种计算系统。根据本发明的第一方面的一个实施例，所述计算系统包括处理器系统和存储器，所述存储器耦合至所述处理器系统，所述存储器上有形地存储视频帧插值系统的可执行指令。在所述指令由所述处理器系统执行时使所述帧插值系统执行以下操作：接收候选插值中间帧；接收差值数据；基于所述差值数据识别所述候选插值帧的高误差区域和一个或多个递增低误差区域；分别修正所述高误差区域和所述递增低误差区域中的每一个，从而生成修正区域数据；基于所述修正区域数据生成修正插值中间帧的修正插值中间帧数据。

另一方面，提供了一种帧插值方法。接收候选插值帧。接收差值数据。基于所述差值数据，识别所述候选插值帧的高误差区域和一个或多个递增低误差区域。分别修正所述高误差区域和所述递增低误差区域中的每一个，以生成修正区域数据。基于所述修正区域数据生成修正插值帧数据。

根据另一方面，提供了一种非暂态处理器可读介质，其上有形地存储可执行指令，所示可执行指令在由处理器执行时使所述处理器执行所述帧插值方法。

根据上述方面和实施例的一些实施例，所述差值数据包括光流图，识别所述高误差区域和所述一个或多个递增低误差区域包括：生成高运动掩码，所述高运动掩码对应于所述光流图中光流幅值超过预定义最高光流阈值的区域；生成一个或多个较低运动掩码，所述一个或多个较低运动掩码对应于所述光流图中光流幅值超过一个或多个预定较低光流阈值的一个或多个区域。

根据上述方面和实施例的一些实施例，所述差值数据还包括遮挡图，识别所述高误差区域和所述一个或多个递增低误差区域还包括：基于使用所述光流图分别对所述高运动掩码和所述一个或多个较低运动掩码进行扭曲(warping)，生成扭曲高运动掩码和一个或多个扭曲较低运动掩码；基于所述高运动掩码和所述一个或多个较低运动掩码分别与所述扭曲高运动掩码和所述一个或多个扭曲较低运动掩码的联集，分别生成组合高运动掩码和一个或多个组合较低运动掩码；基于所述遮挡图检测所述候选插值帧的一个或多个遮挡区域；基于所述组合高运动掩码识别所述高误差区域，还包括所述一个或多个遮挡区域；基于所述一个或多个组合较低运动掩码识别所述一个或多个低误差区域。

根据上述要求和实施例的一些实施例，生成所述组合高运动掩码和所述一个或多个组合较低运动掩码还包括：基于所述光流图对每个组合掩码的边界应用膨胀处理。

根据上述要求和实施例的一些实施例，使用所述光流图对掩码进行扭曲以生成扭曲掩码包括：基于所述光流图的对应坐标的光流向量，复制所述掩码中每个像素的值以生成所述扭曲掩码的对应像素的值。

根据上述要求和实施例的一些实施例，所述指令在由所述处理器系统执行时还使所述帧插值系统执行以下操作：使用光流估计神经网络生成所述候选插值帧、所述光流图和所述遮挡图。

根据上述要求和实施例的一些实施例，使用所述光流估计神经网络生成所述候选插值帧、所述光流图和所述遮挡图包括几个步骤。基于第一帧生成基本分辨率第一帧，基于第二帧生成基本分辨率第二帧。使用多阶段串联光流估计神经网络的第一阶段执行以下操作：基于所述基本分辨率第一帧和所述基本分辨率第二帧生成基本分辨率光流图；基于所述基本分辨率第一帧和所述基本分辨率第二帧生成基本分辨率遮挡图。分别基于所述第一帧和所述第二帧生成一对或多对递增分辨率第一帧和递增分辨率第二帧。通过执行以下操作，将所述多阶段串联光流估计神经网络的一个或多个后续阶段中的每一个应用于所述递增分辨率第一帧和递增分辨率第二帧对中的每一对：使用通过上一阶段光流估计神经网络生成的所述光流图对所述较高分辨率第一帧进行扭曲，生成第一扭曲帧；使用通过上一级光流估计神经网络生成的所述光流图对所述较高分辨率第二帧进行扭曲，生成第二扭曲帧；基于所述第一扭曲帧和所述第二扭曲帧生成较高分辨率光流图；基于所述第一扭曲帧和所述第二扭曲帧生成较高分辨率遮挡图。在应用所述多阶段串联光流估计神经网络的最后阶段之后，生成最终第一扭曲帧、最终第二扭曲帧、最终光流图和最终遮挡图：使用所述最终遮挡图作为融合图，融合所述最终第一扭曲帧和所述最终第二扭曲帧，生成所述候选插值帧。基于所述最终光流图生成所述光流图。基于所述最终遮挡图生成所述遮挡图。

根据上述方面和实施例的一些实施例，修正所述高误差区域和所述递增低误差区域包括：将修正神经网络的高误差阶段应用于与所述高误差区域对应的候选插值帧数据的高误差部分，从而生成修正区域数据；对于每个递增低误差区域：基于所述修正区域数据和所述较低误差区域对应的所述候选插值帧数据的较低误差部分，生成组合区域数据；将所述修正神经网络的递增低误差阶段应用于所述组合区域数据，以重新生成所述修正区域数据。

本文中所描述的实施例可以应对现有技术的一个或多个缺点。可以侧重于修正高估计插值误差区域，从而可能节省资源并避免将伪影引入较低误差区域。可以避免在一些已知技术中由光流估计引起的问题，例如在运动边界附近产生阴影。本文中所描述的修正技术可以独立存在，可能应用于通过本文中所描述的方法之外的其它方法创建的光流数据。本文中所描述的用于运动掩码生成的方法可以在没有任何附加参数的情况下执行。

总体而言，如果视频记录或视频流(诸如通过网络连接流式传输的视频)中缺少帧，则所述系统和方法可以提高视频运动平滑度。可以提高帧率，从而提高视觉质量并改善用户体验。通过所述技术实现的效率，可以提高后处理慢速运动应用的性能。

附图说明

图1A示出了包括起始帧、插值中间帧和结束帧的视频的示意图；

图1B示出了用于视频帧插值的基于矢量的方法和用于视频帧插值的基于内核的方法的示意图；

图2示出了根据本发明的一个示例性实施例提供的用于实现视频帧插值系统的计算系统的框图；

图3示出了根据本发明的一个示例实施例提供的由视频帧插值系统使用的候选插值中间帧修正方法的操作的流程图；

图4示出了根据本发明的一个示例性实施例提供的图3所示的候选插值中间帧修正方法的操作的示意图；

图5示出了根据本发明的一个示例实施例提供的由视频帧插值系统使用的掩码生成方法的操作的流程图；

图6示出了根据本发明的一个示例性实施例提供的视频帧插值系统的示例性多阶段串联光流估计神经网络(flow estimation neural network，FE-Net)的光流估计工作流的示意图；

图7示出了根据本发明的一个示例实施例提供的由光流估计神经网络(flowestimation neural network，FE-Net)执行的示例性光流估计方法的流程图；

图8示出了根据本发明的一个示例性实施例提供的包括FE-Net和MAR Net的视频帧插值系统的示意图；

图9示出了根据本发明的一个示例性实施例提供的图5所示的掩码生成方法和图3所示的候选插值中间帧修正方法的示意图；

图10示出了显示光流与插值误差之间的相关性的实验数据的一对散点图。

具体实施方式

本发明以附图作为参考，在所述附图中示出了实施例。然而，可以使用许多不同的实施例，因此不应将该描述视为仅限于本文描述的实施例。相反，提供这些实施例是为了使本发明透彻和完整。在可能的情况下，在附图和具体实施方式中，相同的附图标记用于表示相同的元件，在可替代实施例中，加撇符号用于表示类似的元件、操作或步骤。所示系统和设备的功能元件的单独的框或所示的分离不一定需要此类功能的物理分离，因为在没有任何此类物理分离的情况下，此类元件之间的通信可以通过消息传递、功能调用、共享存储器空间等的方式发生。这样，功能不必在物理上或逻辑上分离的平台中实现，尽管为了便于此处的解释而分别示出了这些功能或模块。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中利用从机器可读介质获得的代码来实现此类功能。最后，采用单数形式表示的元件可以具有复数含义，反之亦然，除非上下文另有明确或固有指示。

为方便起见，本发明结合视频帧插值描述了方法和系统的示例性实施例。可以部署所述方法和系统以合成视频的两个现有帧之间的新的中间插值帧。然而，本文中所描述的方法和系统也可应用于来自非视频来源的两个连续图像之间的插值。例如，如果来源的空间相近视图是从具有时间关系的同一场景中获得的，所述帧可以是所述来源中的任意两个图像。

通常，所述方法和系统可用于任何帧或子帧插值任务。一种应用可以是视频修复，其中帧或帧集合中的区域在视频的特定时间间隔内丢失(由于徽标移除、水印等)，所述方法和系统用于重建丢失或遮挡的帧区域。所述视频帧插值方法和系统可用于通过考虑误差级别来估计目标区域中的像素值。

所述方法和系统也可用于校正视频流式传输期间的一些噪声或误差，例如，当视频的一个帧或一些连续帧在视频流式传输流期间丢失时。本发明方法中的预测误差级别也可以用于视频压缩过程，以实现最佳速率质量控制。

计算视频中的双向光流有助于视频帧插值。光流是物体在两帧之间明显运动的图样。在帧插值中，第一帧和第二帧之间的光流可以由称为光流图的二维向量场来表示，其中在光流图的每个坐标处的向量指示在过渡到第二帧期间像素在第一帧的对应坐标中的表观运动。类似地，在向后过渡到第一帧期间，可以通过映射第二帧中每个像素的表观运动的向量来生成向后光流图。下面描述的实验结果表明，光流幅值和插值误差高度相关。因此，通过使用本文中所描述的运动自适应修正神经网络(motion adaptive refinementneural network，MAR-Net)基于计算的光流对帧区域进行分段，可以将候选插值中间帧的修正侧重于具有高插值误差的帧区域。那些误差水平较高的区域通常很难在整个帧上进行优化；然而，使用运动控制损失函数可能能够解决此问题。

所述方法和系统针对高误差区域进行修正，因此可能比现有基于内核的方法和基于向量的方法更有效、高效。因此，相对于现有方法，在使用基于机器学习的模型用于具有小模型尺寸和少量参数的视频帧插值时，可能在合成插值中间帧方面实现显著改进。

图2示出了根据本发明的一示例性实施例提供的计算系统205的选定组件。在各种实施例中，计算系统205可以是例如由云服务提供商提供的物理计算机(即，台式计算机、笔记本电脑、服务器等物理机)或虚拟计算机(即，虚拟机)。如图2所示，计算系统205包括处理器系统202，处理器系统202通过通信总线或通信链路204耦合至存储器226，通信总线或通信链路204提供存储器226与处理器系统202之间的通信路径。在一些实施例中，存储器226可以是随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、永久性(非易失性)存储器，例如闪存可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)(闪存)。处理器系统202可以包括一个或多个处理单元，例如包括一个或多个中央处理单元(central processing unit，CPU)、一个或多个图形处理单元(graphical processing unit，GPU)、一个或多个张量处理单元(tensorprocessing unit，TPU)和其它处理单元。处理系统202还可以包括一个或多个硬件加速器。

在一些实施例中，处理系统202还可以耦合至：一个或多个通信子系统(未示出)以与通信网络交换数据信号；和/或一个或多个用户界面子系统(未示出)，诸如触摸式显示屏、键盘和/或指针设备。触摸式显示屏可以包括显示器，诸如彩色液晶显示器(colorliquid crystal display，LCD)、发光二极管(light-emitting diode，LED)显示器或有源矩阵有机发光二极管(active-matrix organic light-emitting diode，AMOLED)显示器，具有连接到电子控制器的触敏输入表面或叠加层。另选地，触摸式显示屏可以包括集成有触摸式传感器的显示器。

计算系统205的存储器226存储有软件系统的指令，包括可以由处理器系统202执行的视频帧插值系统262。在各种实施例中，帧插值系统262的指令包括光流估计指令264、掩码生成指令266和/或修正指令268中的一个或多个。光流估计指令264使处理器系统202执行光流估计方法700，如下文和图7中进一步描述的。掩码生成指令266使处理器系统202执行掩码生成方法500，如下面和图5中进一步描述的。修正指令268使处理器系统202执行帧修正方法300，如下面和图3中进一步描述的。

存储器226还存储各种数据280。数据280可包括视频数据282(即，代表视频的数据)，包括代表视频的第一帧的数据(以下简称第一帧286)和代表视频的第二帧的数据(以下简称第二帧288)。第一帧286和第二帧288是视频的一对连续帧。数据280还可以包括基于第一帧286与第二帧288之间的所计算差值而生成的差值数据284，诸如表示光流图的数据(以下简称光流图290)和代表遮挡图的数据(以下简称遮挡图292)。系统软件、软件模块、特定设备应用或其部分可以临时加载到易失性存储器中，诸如存储器226的RAM，该存储器用于存储运行时数据变量和其它类型的数据和/或信息。视频帧插值系统262接收的数据也可以存储在存储器226的RAM中。虽然针对各种类型的存储器描述了特定功能，但这仅是一个示例，并且也可以使用不同类型的存储器的功能分配。

计算系统205可以是单个设备，例如容纳在单个外壳内的电路集合。在其它实施例中，计算系统205可以分布在可能在空间上彼此分开的两个或多个设备或外壳上。通信总线可以包括一个或多个通信链路或网络。

帧插值–修正神经网络

视频帧插值系统262包括修正神经网络，用于修正候选插值中间帧352。在一些实施例中，修正神经网络可以是运动自适应修正网络或MAR-Net 400。

本文中所描述的示例性实施例参考修正神经网络。然而，应当理解，其它机器学习技术可用于学习其它基于机器学习的模型以执行下面描述的候选插值中间修正方法300。

如上所述，存储器226在其上存储可执行视频帧插值系统262。当视频帧插值系统262的指令由处理器系统202执行时，所述指令使视频帧插值系统262执行候选插值中间帧修正方法300，如图3的流程图所示，以生成修正插值中间帧，如下面进一步描述的。

在步骤302，视频帧插值262接收表示从第一帧286和第二帧288合成的视频的候选插值中间帧352的候选插值帧数据。在步骤304，视频帧插值262接收基于第一帧286和第二帧288确定的差值数据284。在一些实施例中，差值数据284可以包括光流图290和/或遮挡图292。在一些实施例中，光流图290可以是尺寸与第一帧286和第二帧288相对应的二维遮挡图，二维光流图290的每个像素坐标是二维运动向量。在一些实施例中，光流图290是双向光流图，该双向光流图包括前向光流图和后向光流图。前向光流图对应于从起始帧(I₁)到插值帧(I_t)的预期运动向量，后向光流图对应于从结束帧(I₂)到插值帧(I_t)的预期运动向量。

候选插值帧数据和差值数据284可以通过通信总线204从存储器226接收。

视频帧插值系统262基于差值数据284识别或估计候选插值帧352的高误差区域和一个或多个递增低误差区域。这些区域随后用于从粗略(高误差)到修正(最低误差)连续修正候选插值帧352中的误差。这些区域的误差水平是指它们各自的估计插值误差水平。

如果差值数据284包括光流图数据290，视频帧插值系统262可以通过使用光流图数据290的一系列操作来识别这些区域。在步骤306，视频帧插值系统262生成对应于光流图290中光流幅值超过预定义最高光流阈值的区域的高运动掩码380，并生成对应于光流图290中光流幅值超过一个或多个预定低光流阈值的一个或多个区域的一个或多个低运动掩码。在一些实施例中，这些掩码是对应于第一帧286和第二帧288的大小的二进制掩码。

通常，使用具有低值的光流阈值生成用于识别最低误差区域的最低误差掩码。

在具有分别用于修正高误差区域、中误差区域、低误差区域的高误差阶段、中误差阶段和低误差阶段的示例性实施例中，可以通过识别光流向量幅值超过预定高光流阈值的光流图290的像素坐标来生成高运动掩码。类似地，通过识别光流图290中向量幅值介于高光流阈值与低光流阈值之间的像素坐标来生成中间运动掩码(即，第一较低运动掩码)，并通过识别光流图290中向量幅值小于低光流阈值的像素坐标来生成低运动掩码(第二较低运动掩码)。

另选地，一些实施例可以以重叠方式生成掩码：每个较低误差掩码将包括高运动掩码和每个先前较低误差掩码中包括的那些区域。这需要对下面描述的组合操作的顺序和细节进行相应的修改，但不会影响视频帧插值系统262的最终结果，因为连续的修正操作仍将应用于包含先前修正阶段的结果的候选插值帧352的组合区域以及当前较低误差区域。

一些实施例还应用光流图290对来自步骤306的掩码进行扭曲。在步骤307，使用光流图对在步骤306(高运动掩码和一个或多个较低运动掩码)生成的掩码进行扭曲，从而生成每个此类掩码(扭曲高运动掩码和一个或多个较低运动掩码)的扭曲版本。在步骤308，组合原始掩码与其扭曲版本以生成这些掩码(组合高运动掩码388和一个或多个组合较低运动掩码，诸如组合中间运动掩码490和组合低运动掩码492，如图4所示)的组合版本。在一些实施例中，原始掩码和扭曲掩码可以通过各自像素的联集运算(逻辑OR)进行组合。组合掩码388、490、492用于识别高误差区域和较低误差区域。

在一些实施例中，生成组合高运动掩码388和一个或多个组合较低运动掩码490、492还包括：在步骤309，基于光流图290对每个组合掩码388、490、492的边界应用膨胀处理。

如果差值数据284包括遮挡图292，在步骤310，视频帧插值系统262可以基于遮挡图292检测候选插值中间帧的一个或多个遮挡区域。在遮挡区域中，光流可能不太准确。因此，无论这些区域中的光流如何，遮挡区域都可以归类为高误差区域。因此，在步骤311，至少部分地通过包括一个或多个遮挡区域来识别高误差区域，至少部分地通过排除一个或多个遮挡区域来识别较低误差区域。其中，差值数据284包括光流图290和遮挡图292，识别所述区域可以包括遮挡区域与组合高运动区域掩码388的联集，以识别高误差区域，并从组合较低运动掩码390中的每一个中排除遮挡区域，以识别较低误差区域中的每一个。

在步骤312，视频帧插值系统262将修正神经网络的高误差阶段362应用于与高误差区域354对应的候选插值帧数据的高误差部分，从而生成修正区域数据370。

对于每个递增低误差区域，视频帧插值系统262应用一系列步骤313、314。在步骤313，视频帧插值系统262基于修正区域数据370和候选插值帧数据中对应于较低误差区域(例如，中误差区域357)的较低误差部分，生成组合区域数据(诸如组合高误差区域数据和中误差区域数据494)。在步骤314，视频帧插值系统262将修正神经网络的递增低误差阶段应用于组合区域数据(例如，组合高误差区域数据和中误差区域数据494)，以重新生成修正区域数据370。对于在步骤306识别的候选插值中间帧352的每个较低误差区域，重复这些步骤313和步骤314。因此，在包括三阶段修正神经网络的视频帧插值系统262中，在步骤306识别一个高误差区域354和两个较低误差区域(例如，中误差区域357和低误差区域358)。在步骤308，此类视频帧插值系统262将修正神经网络的高误差阶段362应用于高误差区域354，并重复步骤313、314两次：视频帧插值系统262将较低误差阶段(例如，中误差阶段365)应用于中误差区域357(与来自高误差阶段362的先前修正区域数据370组合)，然后将进一步的较低误差阶段(例如，低误差阶段366)应用于低误差区域358(与来自中误差阶段365的先前修正区域数据370组合)。

在步骤316，视频帧插值系统262基于修正区域数据370生成修正插值中间帧数据。修正插值中间帧数据表示最终修正插值中间帧376，最终修正插值中间帧376用于表示位于第一帧286与第二帧288之间的合成帧。

所述方法的各种步骤参考扭曲。在一些实施例中，基于光流图290的对应坐标的光流向量，复制掩码、图或帧中的每个像素或像素坐标的值以生成对应像素或像素坐标的值来实现扭曲。

图4示出了由图8所示的MAR-Net 400执行的候选插值中间帧修正方法的操作的示例性实施例。在该示例性实施例中，候选插值中间帧352(例如，如图6所示)显示了人的躯干和手：背景是静态的，而躯干在起始帧与结束帧之间轻微移动，手快速移动，从而在手周围形成高运动区域，包括手和躯干大部分的中等运动区域，以及包括手、躯干和背景的低运动区域。

根据帧各自的运动水平对帧进行空间分割(通过使用掩码)使MAR-Net 400能够以不同的机制修正这些区域。由于低运动区域通常在帧插值中表现出较低级别的误差，因此应用更深层次的修正网络可能会降低性能。相比之下，高运动区域更有可能具有高插值误差，因此可以通过修正获得显著的改进空间。然而，MAR-Net 400的该实现方式不是应用三个单独的网络来基于运动级别处理三个掩码，而是在单个网络内嵌入自适应修正管道，以受益于区域之间的信息共享(即，MAR-Net 400等修正神经网络的三个级别或阶段362、365、366)。

运动自适应修正网络(Motion Adaptive Refinement Network，MAR-Net)400包括三个阶段362、365、366。第一级362开始对高运动区域进行修正，然后中低运动区域在第二级365和第三级366阶段加入修正过程。每个阶段的输出被传递到后续阶段以供进一步修正。此外，由于每个阶段基于对图像数据输入进行滤波生成特征图395(例如，第一阶段362生成高运动区域的特征图)，并且这些特征图395用于生成修正区域数据，因此特征图395也可以作为附加输入传递到下一阶段，以避免需要针对先前修正区域冗余计算这些特征图395。通过继承较高运动区域的高级别特征表示，第二阶段和第三阶段可以避免冗余计算。因此，当前阶段可以更好地侧重于修正指定区域，也可以辅助减小其它区域的误差。

图4未示出生成掩码的步骤。相反，MAR-Net 400接收作为输入的最终高误差掩码，该最终高误差掩码在这里示出为组合高运动掩码388和一个或多个组合较低运动掩码(在这里示出为组合中误差掩码490和组合低误差掩码492)，以及候选插值中间帧352(如图6所示)。组合高运动掩码388应用于候选插值中间帧352，以识别候选插值中间帧352的高误差区域354。MAR-Net 400的高误差阶段362应用于高误差区域354以生成修正区域数据370。

组合中误差掩码490应用于候选插值中间帧352，以识别中误差区域357。中误差区域357与来自上一阶段362的修正区域数据370组合，以生成组合区域数据，这里示出为组合的修正高误差区域数据和中误差区域数据494。

修正继续将中误差阶段365应用于组合的修正高误差区域数据和中误差区域数据494，以重新生成修正区域数据370(这里示出为修正中误差区域L^M与两次修正高误差区域L^H的组合)。组合低误差掩码492应用于候选插值中间帧352以生成低误差区域358，低误差区域358与修正区域数据370组合以生成进一步的组合区域数据，这里示出为组合的修正中高误差区域数据和低误差区域数据496。

然后，应用第三阶段修正。低误差阶段366应用于组合的修正中高误差区域数据和低误差区域数据496，以重新生成修正区域数据370(这里示出为低误差区域L^L、两次修正中误差区域L^M与三次修正高误差区域L^H的组合)。此最终版本的修正区域数据370的使用基础是最终修正插值中间帧376作为视频帧插值系统262的MAR-Net 400的输出创建。

根据差值数据284的性质等，可以以不同的方式生成作为MAR-Net 400的输入的掩码。图5示出了由视频帧插值系统262的掩码生成指令266实现的示例性掩码生成方法500。掩码生成方法500生成与光流图290以及候选插值中间帧352的高误差区域(组合高运动图388)、中误差区域(组合中误差图490)和低误差区域(组合低误差图492)对应的三个二进制掩码。

在给定候选插值中间帧352的情况下，改进候选插值中间帧352的最佳方式是显式修正高误差区域。全局运动(例如，摄像头运动)相对于其它运动类型可以很容易地捕获，因为整个候选插值中间帧352上的运动矢量是相当均匀的。相比之下，场景中的运动对象不仅放大了运动长度，而且与例如摄像头运动所产生的全局运动相比，具有不同的运动方向。

因此，误差更有可能在包含移动对象的区域内和附近累积。为了定位这些区域，可以使用光流图290和遮挡图292。光流图290和遮挡图292(诸如由下面描述的FE-Net 610计算的那些光流图和遮挡图)的幅值为帧插值中的误差提供了非常强的先验概率。通过对光流幅值进行适当的阈值处理，掩码生成方法500能够定位具有高插值误差的区域。

图5示出了三级运动掩码的生成，包括几个处理步骤。首先，系统205计算如上所述的光流图290(这里示出为前向光流图550和后向光流图552)的二维向量的幅值。然后，系统205应用不同的阈值来生成对应于候选插值帧352的高、中、低运动像素区域的三个初始二进制掩码(如方法300的步骤306所述)。这些阈值在图5中示为阈值步骤510，其应用高运动阈值、中运动阈值和低运动阈值，以分别将候选插值帧352分割成高、中和低运动区域。

然后，在步骤514，对初始二进制掩码进行扭曲，以覆盖目的地区域，如方法300的步骤307所述。

最终组合掩码388、490、492生成为初始掩码与扭曲掩码的联集(逻辑OR)516(如方法300的步骤308所述)，随后执行膨胀运算，以覆盖通常受运动影响的一些相邻像素(如方法300的步骤308所述)。

在该实施例中，使用遮挡图290应用可见性或遮挡阈值512，以创建候选插值帧352的检测遮挡区域。遮挡区域包括在联集运算514中，以包括在高运动区域中。

通过应用上述所有处理步骤，系统205最终将获取三个二进制运动掩码388、490、492，如图5所示。

视频帧插值–光流估计神经网络

在一些实施例中，视频帧插值方法系统262还可以包括由光流估计神经网络(flowestimation neural network，FE-Net 610)执行的光流估计方法600的光流估计指令264。FE-Net610生成候选插值中间帧352、光流图290和遮挡图292。

图6示出了示例性多阶段串联光流估计神经网络(flow estimation neuralnetwork，FE-Net)610的光流估计工作流600。FE-Net 610由用于计算光流的三级处理或阶段612、614、616组成。在给定分辨率为N的视频的帧序列(即，第一帧286和第二帧288)的情况下，在第一层(第一阶段612)中，N/4的低帧分辨率或基本帧分辨率以基本分辨率第一帧602和基本分辨率第二帧604的形式处理，基本分辨率第一帧602和基本分辨率第二帧604分别对应于第一帧286和第二帧288的1/4分辨率下采样版本。该基本分辨率第一级处理之后是第二级别(第二阶段614)，其通过使用具有N/2分辨率的帧来修正第一级别的光流：下一较高分辨率第一帧606和下一较高分辨率第二帧607，分别对应于第一帧286和第二帧288的1/2分辨率下采样版本。第三级使用帧(N)的原始大小修正从第二级获取的光流：下一较高分辨率第一帧608和下一较高分辨率第二帧609，分别对应于第一帧286和第二帧288的全分辨率版本。

在一些实施例中，FE-Net 610的每个阶段612、614、616对于所有级别使用与现有神经网络相同的结构，诸如U-Net(如下面详细描述的)。从最粗级别612开始，光流估计工作流600通过处理N/4分辨率来计算初始光流以捕获大位移运动，然后接下来的两个较细级别逐步计算相应的残差以补偿局部、逐渐精细的运动。

在示例性FE-Net 610的每个阶段，FE-Net阶段计算一对连续帧(例如，第一阶段612的基本分辨率第一帧602和基本分辨率第二帧604)之间的双向光流。这产生光流图290。这里，第一阶段612计算这里示出为前向光流图620和后向光流图622的基本分辨率光流图。这些基本分辨率前向光流图620和基本分辨率后向光流图622通过上采样操作650(在这种情况下，为2x上采样操作，从N/4到N/2或从N/2到N)进行上采样，然后传播到下一阶段。

从第二阶段614开始，工作流600包括根据上一阶段的光流对两个当前输入帧中的每一个执行扭曲操作640，以获取中间帧(未示出)的两个初始估计。在当前阶段(例如，第二阶段614)对中间帧的这两个初始估计进行处理之后，输出与来自上一阶段的上采样光流图组合，以生成递增分辨率光流图(例如，第二阶段614的半分辨率光流图：半分辨率前向光流图624和半分辨率后向光流图662；第三阶段616的全分辨率光流图：全分辨率前向光流图628和全分辨率后向光流图630)。

通过将输入帧中每个像素的值复制到输出帧中的相应坐标(基于光流获取)执行扭曲。通过扭曲，系统205从候选帧的每个初始对中获取两个扭曲帧。

随着光流，还在每个尺度上计算可见性或遮挡图292作为融合掩码。第一阶段612计算基本分辨率遮挡图632，第二阶段614计算下一较高分辨率遮挡图(半分辨率遮挡图634)，第三阶段616计算又一个下一较高分辨率遮挡图(全分辨率遮挡图636)。

最终遮挡图(这里示出为全分辨率遮挡图636)作为最终阶段(这是示出为第三阶段616)之后的融合掩码应用，以将两个扭曲帧融合为单个帧。无论是否修改，该融合帧由视频帧插值系统262的掩码生成方法500和MAR-Net 400用作候选插值中间帧352。

类似地，无论是否修改，最终光流图(这里示出为双向全分辨率光流图628、630)和最终遮挡图(这里示出为全分辨率遮挡图636)可以用作由系统262的掩码生成方法500和候选中间帧修正方法300使用的光流图290和遮挡图292。

图7示出了根据帧插值系统205的一示例性实施例提供的使用光流估计神经网络(flow estimation neural network，FE-Net)610的示例性光流估计方法700的流程图。光流估计方法700的步骤对应于光流估计工作流600中的操作。

在方法700中，FE-Net 610(诸如多阶段串联光流估计神经网络，如图6所示)用于生成由视频帧插值系统262的其它部分或步骤使用的候选插值中间帧352、光流图290和遮挡图292。方法700接收诸如视频的两个连续帧等第一帧286和第二帧288作为输入。

在步骤702，基于第一帧286生成基本分辨率第一帧602，基于第二帧288生成基本分辨率第二帧604，如上述结合图6所描述的。

在步骤704，多阶段串联光流估计神经网络610的第一级612用于基于基本分辨率第一帧602和基本分辨率第二帧604生成基本分辨率光流图620、622，如上述结合图6的方法600所描述的。

在步骤706，基于基本分辨率第一帧602和基本分辨率第二帧604生成基本分辨率遮挡图632，如上述结合图6的方法600所描述的。

在步骤708，基于第一帧286和第二帧288分别生成一对或多对递增分辨率第一帧(在阶段2为606，在阶段3为608)和第二帧(在阶段2为607，在阶段3为609)。

多阶段串联光流估计神经网络610的一个或多个后续阶段(例如，614、616)中的每一个应用于递增分辨率第一帧和第二帧(在阶段2为608和609，在阶段3为606和607)对中的每一对。每个神经网络阶段614、616的应用包括四个步骤。在步骤710，使用通过上一阶段光流估计神经网络(在阶段2为620、622，在阶段3为624、626)生成的光流图对较高分辨率第一帧(在阶段2为606，在阶段3为608)进行扭曲，生成第一扭曲帧。在步骤712，使用通过上一阶段光流估计神经网络(在阶段2为620、622，在阶段3为624、626)生成的光流图对较高分辨率第二帧(在阶段2为607，在阶段3为609)进行扭曲，生成第二扭曲帧。在步骤714，基于第一扭曲帧和第二扭曲帧生成较高分辨率光流图(在阶段2为624、626，在阶段3为628、630)。在步骤716，基于第一扭曲帧和第二扭曲帧生成较高分辨率遮挡图(在阶段2为634，在阶段3为636)。

在应用多阶段串联光流估计神经网络610的最后阶段(例如，图6的实施例中的第三阶段616)之后，生成最终第一扭曲帧、最终第二扭曲帧、最终光流图(例如，628、630)和最终遮挡图(例如，636)，并执行步骤718至步骤722。在步骤718，通过使用最终遮挡图(例如，636)作为融合图来融合最终第一扭曲帧和最终第二扭曲帧，生成由修正神经网络(例如，MAR-Net 400)使用的候选插值中间帧352。在步骤720，基于最终光流图(例如，628、630)生成由修正神经网络360使用的光流图290。在步骤722，基于最终遮挡图(例如，636)生成由修正神经网络360使用的遮挡图290。

修正神经网络(例如，MAR-Net 400)和光流估计神经网络610可以使用神经网络的许多已知结构实现。在一些实施例中，修正神经网络和光流估计神经网络610中的一个或两个包括轻量级神经网络。在一些实施例中，修正神经网络和光流估计神经网络610中的一个或两个使用U-Net神经网络实现，U-Net神经网络是在德国弗莱堡大学计算机科学系开发的用于生物医学帧分割的卷积神经网络架构(如https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/中描述，并以引用方式并入本文)。在其它实施例中，光流估计神经网络610可以使用用于光流估计的替代已知结构实现，诸如Super SloMo架构(如https://arxiv.org/abs/1712.00080中描述，并以引用方式并入本文)。

在一些实施例中，MAR-Net 400包括机器学习模型，诸如卷积神经网络(convolutional neural network，CNN)。CNN通常具有作为图像/视频序列的输入和相应的期望输出。典型CNN模型由卷积层、池化层、全连接层等组成。CNN的结构、层和输出高度依赖于CNN所执行的任务。对于卷积层中的每一个，目标是学习滤波器(内核)的参数，以从输入中提取不同的特征并将其传递到下一层。为了训练CNN学习模型，通常通过CNN的各层向前传递输入，以基于输入数据和滤波器的当前状态来计算输出，然后基于设计的损失函数，基于输出中的误差级别或从输出通过每个滤波器的该层之后的各层传播的误差级别来更新每个内核(滤波器)中的权重来执行反向传播。训练CNN时，学习模型，并冻结CNN的权重以进行测试/推理阶段。在测试/推理期间，CNN仅执行前向传递来产生输出，而不执行反向传播。

在一示例性实施例中，采用Vimeo90K数据集(请参阅Tianfan Xue、Baian Chen、Jiajun Wu、Donglai Wei和William T Freeman，《采用面向任务流的视频增强》(Videoenhancement with task-oriented flow)，《计算机视觉国际期刊(InternationalJournal of Computer Vision，IJCV)》，第127卷第8期第1106-1125页，2019年，以引用方式并入本文)来训练FE-Net 610。Vimeo90K数据集包含51,312个用于训练的三元组。每个三元组由3个连续帧组成，固定分辨率为256x448。可以训练FE-Net 610以学习合成候选插值中间帧362的模型。对于数据论证，可以随机水平地和垂直地翻转帧，并且可以颠倒整个序列的时间顺序。在一些实施例中，FE-Net 610以使用Adam优化器(Diederik P.Kingma和JimmyBa，Adam：《一种随机优化方法》(A method for stochastic optimization)，arXiv预印本网站arXiv:1412.6980，2014年，以引用方式并入本文)进行训练。在一些实施例中，FE-Net610可以首先以等于10^-4的初始学习速率进行训练，然后当损失达到平台期时，将初始学习速率降低10倍。在训练FE-Net 610之后，冻结权重，并且开始在修正神经网络(例如，MAR-Net)400上以10^-4的学习速率训练10个周期。然后，下面结合图9所述，整个组合FE-MAR Net900以等于10^-5的学习速率微调至收敛。

不同的实施例可以使用各种功能来优化MAR-Net 400。在一些实施例中，为了引起对较高误差区域内的局部运动的更多关注，可以使用运动控制损失函数，诸如：

其中，i是MAR-Net 400的级别或阶段(例如，阶段362＝1，阶段365＝2，阶段366＝3)；M_j是在级别j应用的掩码(例如，388,490,492)，I’_i和l_i ^gt分别是级别i的修正帧和地面真值帧。

在使用高、中和低误差区域(MAR-Net的3个阶段)的实施例中，可以将该等式重新表示为：

其中，M^Z是运动掩码，是级别j的修正区域，⊙表示逐元素乘法。值得注意的是，对于第一阶段和第二阶段，在未示出掩码时，损失项将被消除。

运动大、纹理丰富的区域经常会出现模糊现象。为了解决该问题，一些实施例可以考虑基于高级特征的感知损失。在一些实施例中，不是直接最小化特征差异，而是可以使用(Muhammad Waleed Gondal、Bernhard Scholkopf和Michael Hirsch，《单帧超分辨率的纹理传输的非理性效果》(The unreasonable effectiveness of texture transfer forsingle frame super-resolution)，《欧洲计算机视觉会议(European Conference onComputer Vision，ECCV)汇刊》，第0–0页，2018年，以引用方式并入本文)中提出的技术应用运动控制纹理损失：

其中，G(F)＝FF^T是格拉姆矩阵。该成本函数可以应用于仅约束高插值误差(interpolation error，IE)区域，因为当地面真值为锐度时，模糊会产生高误差。

在一些实施例中，用于优化FE-Net 610的损失函数可以为：

其中，表示地面真值，I_gt ^k表示如下计算的中间帧：

在尺度级别k，其中，g()是应用于帧I和光流图f的双线性扭曲函数。在该等式中，I₀和I₁是起始帧和结束帧(与上面等式中的I₁和I₂相反)；I_t是插值中间帧；f₀→_t是从起始帧到插值中间帧的前向光流图。

图8示出了视频帧插值系统262，视频帧插值系统262包括组合FE-MAR Net 900，组合FE-MAR Net 900包含上述MAR-Net 400和FE-Net 610，协同工作以基于第一帧286和第二帧288的输入来创建最终修正插值中间帧376。图8的顶行示出了图7的光流估计方法700的简化框图。图8的底行(左侧)示出了实现图5的掩码生成方法500的掩码生成模块501的简化框图，将光流估计方法700的掩码628、630、636作为其输入。图8的底行(右侧)还示出了实现图3的帧修正方法300的帧修正模块301的简化框图，将掩码生成方法500的掩码930以及光流估计方法700的候选插值帧352作为其输入。

根据上述描述，组合FE-MAR Net 900的FE-Net 610接收第一帧286和第二帧288作为输入，并使用第一帧286和第二帧288生成光流图290和遮挡图292(这里示出为最终光流图628、630和最终遮挡图636)。对应于光流估计工作流660的扭曲和融合操作660，将光流图290和遮挡图292传递到掩码生成方法500以及像素重映射操作910，随后执行融合操作920。这两个操作910、920产生作为输入传递到修正方法300的候选插值中间帧352。

掩码生成方法500从FE-Net 610接收光流图290和遮挡图290，并生成一组运动掩码930，诸如图5所示的掩码388、490、492。

在掩码生成方法500生成一组运动掩码930之后，实现MAR-Net 400的帧修正模块301的剩余部分接收一组运动掩码930以及候选插值中间帧352的输入。帧修正模块301将一组掩码930应用于候选插值中间帧352，以识别提供给MAR-Net 400的各种高误差区域和递增低误差区域。MAR-Net 400处理每个区域并生成最终修正插值中间帧376作为其输出。

在一些实施例中，使用T＝0(起始帧)处的前向光流图生成用于将帧分割为高、中、低插值误差(interpolation error，IE)的一组运动掩码930，如下所示：

其中，大写F表示光流幅值；H、M、L分别是高、中、低IE级别；下标f、0表示T＝0处的前向光流产生的掩码；τ是阈值；*表示H、M、L的所有情况。

在一些实施例中，扭曲函数应用如下光流：

采用类似流程生成和/>

在一些实施例中，可以生成遮挡图m^V，以满足以下条件：

在一些实施例中，通过取所有掩码的联集并利用5x5结构元素对所述联集进行膨胀处理以生成最终运动掩码930，对每个IE级别(例如，高、中、低)执行膨胀运算：

为了强调细节的增强，在一些实施例中，MAR-Net 400可以采用残差学习来学习与地面真值之间的差异。本文中所描述的MAR-Net 400是一种具有相对较少的学习参数的轻量级神经网络，可有效减小插值误差。因此，可以遵循(Seungjun Nah、Tae Hyun Kim和Kyoung Mu Lee，用于动态场景去模糊的深度多尺度卷积神经网络，《IEEE计算机视觉与模式识别会议汇刊》，第3883–3891页，2017年，以引入方式并入本文)中描述的残差块结构，以移除不必要的组件，并将通道号设置为32和48以提高效率。

图9示出了另一示例性组合FE-Mar Net工作流1000。除上述结合图4和图5所述的步骤和元素之外，工作流1000还显示了通过扭曲操作514扭曲的初始二进制掩码m^* _*0 1010，以创建扭曲二进制掩码m^* _*t 1012。图9的左侧对应于图5，图9的右侧对应于图4。

实验数据

为验证帧插值任务中插值误差与光流高度相关的命题，进行了大量实验。评估了应用于Vimeo90K测试集(http://toflow.csail.mit.edu/，以引入方式并入本文)的示例性FE-Net实现的输出，以证明光流和插值误差高度相关。具体地说，通过设置光流幅值的阈值将分割成多个区域。然后，比较区域与整个帧的PSNR，以显示IE的变化。如上所述，即使具有较大的均匀运动，由粗到细的FE-Net也可以很好地处理均匀的全局运动(例如，摄像头运动)。为了消除匀速运动的影响，只考虑整个帧上光流超过平均值的区域。

设置了两个比较阈值：mean和mean+2/3(max-mean)。图10示出了区域PSNR相对于整个帧的PSNR的散点图。左图1102示出了使用mean的数据；右图104示出了使用max-mean的数据。预计光流超过平均值(即，低于对角线1106，其中区域的PSNR等于整个帧的PSNR)的大多数区域将经历PSNR下降。类似地，当滤除光流接近平均值的区域时，更多点分散分布在对角线1106下方。即使在整个帧的PSNR非常高的情况下，对于高运动区域，PSNR仍然可以显著降低。该观测结果验证了光流与插值误差校正的前提。

测试数据

依照其它已知技术对所述实施例提供的FE-Mar Net的示例性实施方式进行了测试，其中测量了峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)(以dB为单位测量，越高越好)、结构相似性(Structural Similarity，SSIM)(从0.0到1.0测量，越高越好)和插值误差(Interpolation Error，IE)(越低越好)。结果如下表所示：

概述

本文中所描述的流程图和附图中的步骤和/或操作仅出于示例目的。在不脱离本发明的观点的情况下，可以对这些步骤和/或操作进行诸多变化。例如，可以按照不同的顺序执行所述步骤，或者可以添加、删除或修改所述步骤。

在考虑到本发明的情况下，用于实施上述方法的软件的编码在本领域普通技术人员的范围内。可由一个或多个相应设备的一个或多个处理器执行以执行上述方法的机器可读代码可以存储在诸如数据管理器的存储器之类的机器可读介质中。在本发明中，术语“软件”和“固件”可互换，包括存储在存储器中以供处理器执行的任何计算机程序，包括随机存取存储器(Random Access Memory，RAM)存储器、只读存储器(Read Only Memory，ROM)存储器、EPROM存储器、电EPROM(electrically EPROM，EEPROM)存储器和非易失性RAM(non-volatile RAM，NVRAM)存储器。以上存储器类型仅为示例，因此不限于可用于存储计算机程序的存储器类型。

本文中还公开了在所公开范围内的所有值和子范围。此外，尽管本文中所公开和示出的系统、设备和过程可以包括特定的多个元件，但是系统、设备和组件可以进行修改以包括更多或更少的此类元件。尽管本文描述了几个示例性实施例，但是修改、改编和其它实现是可能的。例如，可以对附图中所示的元素进行替换、添加或修改，并且可以通过对所公开的方法进行替换、重新排序或添加步骤来修改本文中所描述的示例性方法。此外，阐述了许多具体细节，以提供对本文中所描述的示例性实施例的透彻理解。然而，本领域普通技术人员将理解，本文中所描述的示例性实施例可以在没有这些具体细节的情况下实施。此外，没有详细描述众所周知的方法、流程和元素，以免对本文中所描述的示例性实施例造成模糊。本文中描述的主题意在涵盖和包含技术上的所有适当更改。

尽管本发明在方法方面至少部分地进行了描述，但本领域的一般技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种元件，无论是通过硬件、软件还是其组合。因此，本发明的技术方案可以体现在非易失性或非瞬态机器可读介质(例如，光盘和闪存等)中，在其上有形地存储可执行指令，所述可执行指令使处理设备能够执行本文中所公开的方法的示例。

术语“处理器”可以包括任何可编程系统，包括使用微处理器/控制器或纳级处理器/控制器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、精简指令集电路(reduced instruction set circuit，RISC)、逻辑电路以及能够执行本文中所描述的功能的任何其它电路或处理器的系统。术语“数据库”可以指数据体、关系数据库管理系统(relational database managementsystem，RDBMS)或两者。如本文中所使用的，数据库可以包括包括分层数据库、关系数据库、平面文件数据库、对象关系数据库、面向对象数据库的任何数据集合，以及存储在计算机系统中的任何其它记录或数据的结构化集合。以上示例仅为示例，因此并非旨在以任何方式限制术语“处理器”或“数据库”的定义和/或含义。

在不脱离权利要求书的主题的情况下，本发明可以以其它特定形式来体现。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。本发明意在涵盖和包含技术上的所有适当更改。因此，本发明的范围通过所附的权利要求书而不是通过以上描述进行描述。权利要求书的范围不应受所述示例中阐述的实施例的限制，但应给出与所述描述整体一致的最广泛的解释。

Claims

1.一种用于视频帧插值的计算系统，其特征在于，包括：

处理器系统；

存储器，耦合至所述处理器系统，所述存储器上有形地存储可执行指令，所述可执行指令在由所述处理器系统执行时使所述计算系统执行以下操作：

接收候选插值中间帧；

接收差值数据，所述差值数据包括光流图和遮挡图中的至少一个；

对所述差值数据进行处理，以便：估计高误差区域，并为所述高误差区域生成掩码；估计一个或多个递增低误差区域，并为所述一个或多个递增低误差区域中的每一个生成掩码；

将每个掩码应用于候选插值中间帧，以分别修正所述高误差区域和所述递增低误差区域中的每一个，从而生成修正区域数据，继而生成最终修正插值中间帧。

2.根据权利要求1所述的计算系统，其特征在于，

所述差值数据包括光流图；

估计所述高误差区域和所述一个或多个递增低误差区域包括：

生成高运动掩码，所述高运动掩码对应于所述光流图中光流幅值超过预定义最高光流阈值的区域；

生成一个或多个较低运动掩码，所述一个或多个较低运动掩码对应于所述光流图中光流幅值超过一个或多个预定较低光流阈值的一个或多个区域。

3.根据权利要求2所述的计算系统，其特征在于，

所述差值数据还包括遮挡图；

估计所述高误差区域和所述一个或多个递增低误差区域还包括：

基于使用所述光流图分别对所述高运动掩码和所述一个或多个较低运动掩码进行扭曲，生成扭曲高运动掩码和一个或多个扭曲较低运动掩码；

基于所述高运动掩码和所述一个或多个较低运动掩码分别与所述扭曲高运动掩码和所述一个或多个扭曲较低运动掩码的联集，分别生成组合高运动掩码和一个或多个组合较低运动掩码；

基于所述遮挡图检测所述候选插值中间帧的一个或多个遮挡区域；

基于所述组合高运动掩码识别所述高误差区域，还包括所述一个或多个遮挡区域；

基于所述一个或多个组合较低运动掩码识别所述一个或多个低误差区域。

4.根据权利要求3所述的计算系统，其特征在于，生成所述组合高运动掩码和所述一个或多个组合较低运动掩码还包括：基于所述光流图对每个组合掩码的边界应用膨胀处理。

5.根据权利要求3所述的计算系统，其特征在于，使用所述光流图对掩码进行扭曲以生成扭曲掩码包括：基于所述光流图的对应坐标的光流向量，复制所述掩码中每个像素的值以生成所述扭曲掩码的对应像素的值。

6.根据权利要求3所述的计算系统，其特征在于，所述指令在由所述处理器系统执行时，还使得所述计算系统执行以下操作：使用经过训练的光流估计神经网络从第一帧和第二帧生成所述候选插值中间帧、所述光流图和所述遮挡图。

7.根据权利要求6所述的计算系统，其特征在于，所述经过训练的光流估计神经网络通过执行以下操作从所述第一帧和所述第二帧生成所述候选插值中间帧、所述光流图和所述遮挡图：

基于第一帧生成基本分辨率第一帧，基于第二帧生成基本分辨率第二帧；

使用多阶段串联光流估计神经网络的第一阶段执行以下操作：

基于所述基本分辨率第一帧和所述基本分辨率第二帧生成基本分辨率光流图；

基于所述基本分辨率第一帧和所述基本分辨率第二帧生成基本分辨率遮挡图；

分别基于所述第一帧和所述第二帧生成一对或多对递增分辨率第一帧和递增分辨率第二帧；

通过执行以下操作，将所述多阶段串联光流估计神经网络的一个或多个后续阶段中的每一个应用于所述递增分辨率第一帧和递增分辨率第二帧对中的每一对：

使用通过上一阶段光流估计神经网络生成的所述光流图对较高分辨率第一帧进行扭曲，生成第一扭曲帧；

使用通过上一阶段光流估计神经网络生成的所述光流图对较高分辨率第二帧进行扭曲，生成第二扭曲帧；

基于所述第一扭曲帧和所述第二扭曲帧生成较高分辨率光流图；

基于所述第一扭曲帧和所述第二扭曲帧生成较高分辨率遮挡图；

在应用所述多阶段串联光流估计神经网络的最后阶段之后，生成最终第一扭曲帧、最终第二扭曲帧、最终光流图和最终遮挡图：

使用所述最终遮挡图作为融合图，融合所述最终第一扭曲帧和所述最终第二扭曲帧，生成所述候选插值中间帧；

基于所述最终光流图生成所述光流图；

基于所述最终遮挡图生成所述遮挡图。

8.根据权利要求1至7中任一项所述的计算系统，其特征在于，修正所述高误差区域和所述递增低误差区域包括：

将修正神经网络的高误差阶段应用于与所述高误差区域对应的候选插值中间帧数据的高误差部分，从而生成修正区域数据；

对于每个递增低误差区域：

(a)基于所述修正区域数据和较低误差区域对应的所述候选插值中间帧数据的较低误差部分，生成组合区域数据；

(b)将所述修正神经网络的递增低误差阶段应用于所述组合区域数据，以重新生成所述修正区域数据。

9.一种用于帧插值的方法，其特征在于，包括：

接收候选插值中间帧；

10.根据权利要求9所述的方法，其特征在于：

所述差值数据包括光流图；

11.根据权利要求10所述的方法，其特征在于：

所述差值数据还包括遮挡图；

12.根据权利要求11所述的方法，其特征在于，生成所述组合高运动掩码和所述一个或多个组合较低运动掩码还包括应用膨胀运算以包括所述掩码边界附近的一些像素。

13.根据权利要求11所述的方法，其特征在于，使用所述光流图对掩码进行扭曲以生成扭曲掩码包括：基于所述光流图的对应坐标的光流向量，复制所述掩码中每个像素的值以生成所述扭曲掩码的对应像素的值。

14.根据权利要求11所述的方法，其特征在于，还包括使用光流估计神经网络生成所述候选插值中间帧、所述光流图和所述遮挡图。

15.根据权利要求14所述的方法，其特征在于，使用所述光流估计神经网络生成所述候选插值中间帧、所述光流图和所述遮挡图包括：

使用所述最终遮挡图作为融合图，融合所述最终第一扭曲帧和所述最终第二扭曲帧，生成由修正神经网络使用的所述候选插值中间帧；

基于所述最终光流图生成由所述修正神经网络使用的所述光流图；

基于所述最终遮挡图生成由所述修正神经网络使用的所述遮挡图。

16.根据权利要求9至15中任一项所述的方法，其特征在于，修正所述高误差区域和所述递增低误差区域包括：

对于每个递增低误差区域：

基于所述修正区域数据和较低误差区域对应的所述候选插值中间帧数据的较低误差部分，生成组合区域数据；

将所述修正神经网络的递增低误差阶段应用于所述组合区域数据，以重新生成所述修正区域数据。

17.一种包括指令的计算机可读介质，其特征在于，所述指令在由处理器执行时使所述处理器执行权利要求9至16中任一项所述的方法。