CN114071223A

CN114071223A - 基于光流的视频插帧的生成方法、存储介质及终端设备

Info

Publication number: CN114071223A
Application number: CN202010750809.1A
Authority: CN
Inventors: 叶显一
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-02-18

Abstract

本申请公开了一种基于光流的视频插帧的生成方法、存储介质及终端设备，所述方法包括获取第一图像帧和第二图像帧；根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图；基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像。本方法通过前向光流图和后向光流图同一插帧位置的两张预测插帧图像，在基于两张预测插帧图像确定插帧图像，这样一方面可以使得对原视频的插帧，提高原视频的视频帧率，从而提高原视频的播放效果。另一方通过两张预测插帧图像确定插帧图像可以提高插帧图像的图像效果，从而进一步提高原视频的播放效果。

Description

基于光流的视频插帧的生成方法、存储介质及终端设备

技术领域

本申请涉及视频处理技术领域，特别涉及一种基于光流的视频插帧的生成方法、存储介质及终端设备。

背景技术

随着智显示设备(例如，手机，电视等)技术成熟和用户对画面流畅的需求，视频帧率的上限不断增加，例如，手机屏幕采用90hz和电视屏幕采用120hz。然而，以前拍摄的视频常受限于设备水平，帧率普遍低于30hz，这使得在播放以前拍摄的视频时会出现画面卡顿和虚影等问题，给用户的使用带来不便。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种基于光流的视频插帧的生成方法、存储介质及终端设备。

为了解决上述技术问题，本申请实施例第一方面提供了一种基于光流的视频插帧的生成方法，所述方法包括：

获取第一图像帧和第二图像帧；

根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图；

基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像。

所述基于光流的视频插帧的生成方法，其中，所述第一图像帧和所述第二图像帧为原视频中的连续图像帧。

所述基于光流的视频插帧的生成方法，其中，所述根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图具体包括：

将所述第一图像帧和所述第二图像帧依次输入预设的光流生成模块，通过所述光流生成模块生成所述前向光流图；

将所述第二图像帧和所述第一图像帧依次输入所述光流生成模块，通过所述光流生成模块生成所述后向光流图。

所述基于光流的视频插帧的生成方法，其中，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

基于所述第一图像帧、所述前向光流图、所述第二图像帧以及所述后向光流图确定所述第一图像帧对应的第一预测帧和所述第二图像帧对应的第二预测帧；

基于所述第一预测帧和所述第二预测帧，确定所述第一图像帧和所述第二图像帧对应的插帧图像。

所述基于光流的视频插帧的生成方法，其中，所述基于所述第一图像帧、所述前向光流图、所述第二图像帧以及所述后向光流图确定所述第一图像帧对应的第一预测帧和所述第二图像帧对应的第二预测帧具体包括：

基于预设的预测插帧时刻和目标光流图，确定所述预测插帧时刻对应的预测光流图，其中，当目标光流图像为前向光流图时，预测光流图为预测前向光流图，当目标光流图像为后向光流图时，预测光流图为预测后向光流图；

基于所述预测光流图以及目标图像帧，确定目标预测帧；其中，当目标光流图像为前向光流图时，目标图像帧为第一图像帧，目标预测帧为第一预测帧；当目标光流图像为后向光流图时，目标图像帧为第二图像帧，目标预测帧为第二预测帧。

所述基于光流的视频插帧的生成方法，其中，所述基于所述预测光流图以及目标图像帧，确定目标预测帧具体为：

基于所述预测光流图对所述目标图像帧进行仿射变换，以确定目标预测帧。

所述基于光流的视频插帧的生成方法，其中，所述基于所述预测光流图对所述目标图像帧进行仿射变换，以确定目标预测帧具体包括：

获取所述目标图像帧对应的目标区域，其中，所述目标区域为所述目标图像帧的部分图像区域；

基于所述预测光流图对所述目标图像帧中候选区域进行仿射变换，以确定目标预测帧，其中，所述候选区域为目标图像帧中除所述目标区域外的剩余图像区域。

所述基于光流的视频插帧的生成方法，其中，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像之后，所述方法包括：

获取所述第一图像帧对应的第一特征图，以及第二图像帧对应的第二特征图；

基于所述预测前向光流图和所述预测后向光流图、所述第一特征图、所述第二特征图、所述第一预测帧和所述第二预测帧，对所述插帧图像进行修正，以得到修正插帧图像；

将所述修正插帧图像作为所述第一图像帧和所述第二图像帧对应的插帧图像。

所述基于光流的视频插帧的生成方法，其中，所述基于所述预测前向光流图和所述预测后向光流图、所述第一特征图、所述第二特征图、所述第一预测帧和所述第二预测帧，对所述插帧图像进行修正，以得到修正插帧图像具体包括：

确定所述第一图像帧对应的第一掩膜图，其中，所述第一掩膜图用于反映所述第一图像帧携带的目标区域；

确定所述第二图像帧对应的第二掩膜图，其中，所述第二掩膜图用于反映所述第二图像帧携带的目标区域；

基于所述预测前向光流图、所述预测后向光流图、所述第一图像帧、所述第二图像帧、所述第一预测帧、所述第二预测帧、所述第一掩膜图以及所述第二掩膜图，确定所述插帧图像对应的残差图；

基于所述残差图以及所述插帧图像，确定修正插帧图像。

所述基于光流的视频插帧的生成方法，其中，所述获取第一图像帧和第二图像帧之后，所述方法包括：

获取所述第一图像帧对应的第一特征图，将所述第一特征图作为第一图像帧；

获取所述第二图像帧对应的第二特征图，将所述第二特征图作为所述第二图像帧。

所述基于光流的视频插帧的生成方法，其中，所述预设插帧时刻包括若干预测插帧时刻，若干预测插帧时刻中的每个插帧时间均处于所述第一图像帧对应的播放时刻与所述第二图像帧对应的播放时刻之间；所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

对于每个预测插帧时刻，基于该预测插帧时刻和目标光流图，确定插帧时刻对应的预测光流图；

基于所述预测光流图以及目标图像帧，确定目标预测帧，以得到该预测插帧时刻对应的目标预测帧，其中，当目标光流图像为前向光流图时，目标图像帧为第一图像帧，目标预测帧为第一预测帧；当目标光流图像为后向光流图时，目标图像帧为第二图像帧，目标预测帧为第二预测帧；

基于该预测插帧时刻对应的第一预测帧和第二预测帧，确定所述第一图像帧和所述第二图像帧对应的插帧图像，以得到若干插帧图像。

所述基于光流的视频插帧的生成方法，其中，所述方法还包括：

对于每帧插帧图像，将该插帧图像按照其对应的插帧时刻插入所述第一图像帧和所述第二图像帧之间，以得到插帧后的视频，其中，所述插帧后的视频的帧率高于所述原视频的帧率。

本申请实施例第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于光流的视频插帧的生成方法中的步骤。

本申请实施例第二方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于光流的视频插帧的生成方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种基于光流的视频插帧的生成方法、存储介质及终端设备，所述方法包括获取第一图像帧和第二图像帧；根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图；基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像。本方法通过前向光流图和后向光流图同一插帧位置的两张预测插帧图像，在基于两张预测插帧图像确定插帧图像，这样一方面可以使得对原视频的插帧，提高原视频的视频帧率，从而提高原视频的播放效果。另一方通过两张预测插帧图像确定插帧图像可以提高插帧图像的图像效果，从而进一步提高原视频的播放效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于光流的视频插帧的生成方法的流程图。

图2为本申请提供的基于光流的视频插帧的生成方法中若干预测插帧时刻对对应的插帧过程的示意图。

图3为本申请提供的基于光流的视频插帧的生成方法中的第一图像帧的一个示例。

图4为本申请提供的基于光流的视频插帧的生成方法中的前向光流图的一个示例。

图5为本申请提供的基于光流的视频插帧的生成方法中的第二图像帧的一个示例。

图6为本申请提供的基于光流的视频插帧的生成方法中的后向光流图的一个示例。

图7为本申请提供的基于光流的视频插帧的生成方法中特征提取模块的一个示例。

图8为本申请提供的基于光流的视频插帧的生成方法中前向光流图的另一个示例。

图9为本申请提供的基于光流的视频插帧的生成方法中插帧图像的一个示例。

图10为本申请提供的基于光流的视频插帧模型的原理图。

图11为本申请提供的基于光流的视频插帧的生成方法中光流生成模块的一个示例图。

图12为本申请提供的基于光流的视频插帧的生成方法中修正模块的一个示例图。

图13为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种基于光流的视频插帧的生成方法、存储介质及终端设备，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

具体实现中，本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸显示屏和/或触摸板)的移动电话，膝上形计算机或平板计算机之类的其他便携式设备。还应该理解的是，在某些实施例中，所述设备并非便携式通讯设备，而是具有触摸敏感表面(例如，触摸显示屏和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端设备。然而，应当理解的是，终端设备还可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、视频会议应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件由于程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数据相机应用程序、数字摄像机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放应用程序等。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的第一或多个功能以及终端上显示的相应信息。这样，终端的公共物理框架(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，目前智显示设备的视频帧率的上限不断增加，例如，手机屏幕采用90hz和电视屏幕采用120hz。然而，以前拍摄的视频常受限于设备水平，帧率普遍低于30hz，这使得在播放以前拍摄的视频时会出现画面卡顿和虚影等问题，给用户的使用带来不便。从而，为了避免拍摄的视频时会出现画面卡顿和虚影等问题，会将低帧率视频转换成高帧率视频。

目前将低帧率视频转换成高帧率视频所采用的方法普遍为视频插帧方法，其中，视频插帧主要包括复制帧，平均帧和预测帧。前两种视频插帧方法优点在于方法简单，处理速度快，但生成的视频质量差；而预测帧主要是根据前一帧和后一帧的运动状况来预测中间帧，生成的视频质量好。所以，在算力等硬件条件充足的情况下，业内大多采用预测帧的方法进行视频插帧。

目前基于预测帧的视频插帧的方法主要有NVIDIA的superslomo方法和上海交通大学的DAIN方法。其中，superslomo是基于UNet的光流预测和中间帧生成方法，其方法优点在于网络结构简单，计算量小，但生成预测帧画面模糊，且重影现象明显；DAIN方法是基于PWCNet光流估计网络等多个子网络构成的插帧网络，利用了深度信息来有效地矫正了错误的运动估计信息，该方法的光流矫正效率低，并且需要耗费的时间长。

基于此，在本申请实施例提高了一种基于光流的视频插帧的生成方法，所述方法通过获取第一图像帧和第二图像帧；根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图；基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图确定预测帧集；基于所述预测帧集确定所述第一图像帧和所述第二图像帧对应的插帧图像。本方法通过前向光流图和后向光流图同一插帧位置的两张预测插帧图像，在基于两张预测插帧图像确定插帧图像，这样一方面可以使得对原视频的插帧，提高原视频的视频帧率，从而提高原视频的播放效果。另一方通过两张预测插帧图像确定插帧图像可以提高插帧图像的图像效果，从而进一步提高原视频的播放效果。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施提供了一种基于光流的视频插帧的生成方法，如图1所示，所述方法包括：

S10、获取第一图像帧和第二图像帧。

具体地，所述第一图像帧和所述第二图像帧均为原视频中的图像帧，其中，所述原视频为待插帧视频，所述原视频可以是运行该基于光流的视频插帧的终端设备采集的视频(例如，智能手机等)，也可以是其他外部设备(例如，摄像机等)拍摄并存储于终端设备的视频，还可以是通过云端发送至终端设备的视频。在本实施例中，所述视频可以是通过成像系统(例如，摄像头)拍摄得到的视频，其中，所述成像系统可以为终端设备自身配置的，也可以为其他设备配置的。在本实施例的一个实现方式中，所述原视频可以为低帧率的直播视频，也可以是低帧率的短视频，还可以是低帧率的其它视频等，其中，所述帧率(Framerate)是用于测量显示帧数的量度。

在本实施例的一个实现方式中，所述第一图像帧和第二图像帧为原视频中的连续图像帧，连续图像帧指的是按照播放顺序第一图像帧和第二图像帧为连续图像帧，其中，按照播放顺序第一图像帧位于第二图像帧之前，或者第一图像帧位于第二图像帧之后。例如，当第一图像帧位于第二图像帧之前时，播放所述视频的终端设备(例如，智能电视等)播放完第一图像帧后，播放第二图像帧。此外，为了方便后面说明，这里以第一图像帧位于第二图像帧以前为例，即在后续说明中第一图像帧位于第二图像帧之前。

进一步，所述第一图像帧对应的拍摄场景与所述第二图像帧对应的拍摄场景的相似度满足预设条件，其中，所述相似度满足预设条件为所述第一图像帧携带的图像内容与所述第二图像帧携带的图像内容的相似度满足预设条件，第一图像帧的参考图像内容的位置信息与第二图像帧中的目标图像内容的位置信息不同，其中，参考图像内容和目标图像内容相同。例如，第一图像帧的图像内容包括小狗，第二图像帧的图像内容也包括该小狗，小狗在第一图像帧中的图像区域的位置为以(10,50)、(50,50)、(50,10)以及(10,10)为顶点的矩形区域，小狗在第一图像帧中的图像区域的位置为以(20,60)、(60,60)、(60,20)以及(20,20)为顶点的矩形区域。此外，所述预设条件为预设阈值，所述相似度满足预设条件指的相似度达到预设阈值，例如，90％等。

S20、根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图。

具体地，所述前向光流图为第一图像帧到第二图像帧的光流图，用于反映第一图像帧到第二图像帧的运动信息；所述后向光流图为第二图像帧到第一图像帧的光流图，用于反映第二图像帧到第一图像帧的运动信息。例如，如图4所示的光流图为如图3所示的第一图像帧和图5所述的第二图像帧对应的前向光流图，如图6所示的光流图为如图3所示的第一图像帧和图5所述的第二图像帧对应的后向光流图。在本实施例的一个实现方式中，所述第一光流图的图像尺寸和第二光流图的图像尺寸相同，并且第一光流图的图像尺寸小于所述第一图像帧/第二图像帧的图像尺寸，这样通过节约基于光流图确定插帧图像过程中的计算耗力，从而可以提高插帧图像的获取速度。例如，所述第一图像帧的图像尺寸的图像尺寸均为1280*720，那么光流图的图像尺寸可以为第一图像帧的1/4，即，光流图的图像尺寸为320*180。当然，第二图像帧的图像尺寸与第一图像帧的图像尺寸相同，从而，第二光流图的图像尺寸也小于第二图像帧的图像尺寸。

光流图用于反映图像中的模式运动速度，所述模式运动指的是当对象运动时，对象在图像上对应像素点的亮度模式运动。所述光流图包含了对象运动的信息(例如，画面移动过程中对象对应的像素的x，y位移量)，可以基于光流确定对象的目标运动信息。可以理解的是，光流图包括两个通道，两个通道中的一个通道用于反映像素水平移动量；两个通道中的另一通道用于反映像素垂直移动量；即所述光流图包括水平移动光流通道以及垂直移动光流通道。

基于此，所述前向光流图的每个像素点的像素值表示第一图像帧中对应的第一参考像素点移动中到第二图像帧中的第一目标像素点的像素移动量，并将该像素移动量叠加到第一参考像素点时，第一参考像素点与第一目标像素点重合。所述后向光流图中每个像素点的像素值表示第二图像帧中对应的第二参考像素点移动中到第一图像帧中的第二目标像素点的像素移动量，并将该像素移动量叠加到第二参考像素点时，第二参考像素点与第二目标像素点重合。

进一步，所述光流图可以通过传统方法(例如，Lucas-Kanade光流法等)计算得到，也可以是通过深度学习网络确定的。在本实施例的一个实现方式中，所述光流图是基于深度学习网络(例如，卷积神经网络等)确定。相应的，所述根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图具体包括：

具体地，所述光流生成模块为经过训练的深度学习模型，所述光流生成模块的输入项为两帧图像帧，输出项两帧图像帧对应的光流图，其中，两帧图像依次输入所述光流生成模块，所述光流图为有两帧图像帧中先输入的图像帧到后输入的图像帧的光流。

由此，在确定前向光流图时，将第一图像帧和第二图像帧依次输入光流生成模块，以使得光流生成模块输出第一图像帧到第二图像帧的前向光流图；在确定后光流图时，将第二图像帧和第一图像帧依次输入光流生成模块，以使得光流生成模块输出第二图像帧到第一图像帧的后向光流图。由此，在训练过程中，光流生成模型对应的训练样本包括两张训练图像，分别记为第一训练图像和第二训练图像，在将训练样本输入光流生成模型对应的预设网络模型时，第一训练图像和第二训练图像需要先将第一训练图像输入预设网络模型，再将第二训练图像输入预设网络模型，预设网络模型输出第一训练图像到第二训练图像的光流图。

在本实施例的一个实现方式中，如图11所示，所述光流生成模块可以采用IRR_PWCNet中光流估计子网络，并且对于前向光流图和后向光流图，光流估计子网络使用同一组模型参数。可以理解的是，第一图像帧对应的前向光流图和第二图像帧对应的后向光流图时，光流估计子网络共享同一组模型参数，仅需要将第一图像帧和第二图像帧的输入顺序交换，这样使得第一图像帧的图像特征和第二图像帧的图像特征可复用，可以减少光流生成模块的模型参数，并且降低光流生成模块的内存消耗。

进一步，在实施例的一个实现方式中，所述获取第一图像帧和第二图像帧之后之后，所述方法包括：

具体地，所述第一特征图和第二特征图均可以通过特征提取模块确定，其中，特征提取模块为经过训练的，用于提取图像帧的特征图。所述特征提取模块的输入项为图像帧，输入项图像帧对应的特征图。可以理解的是，获取所述第一图像帧对应的第一特征图可以为将第一图像帧输入特征提取模块，通过特征提取模块输出第一图像帧对应的第一特征图，以及获取所述第二图像帧对应的第二特征图可以为将第二图像帧输入特征提取模块，通过特征提取模块输出第二图像帧对应的第二特征图。其中，所述第一特征图的图像尺度与第一图像帧的图像尺寸相同，第二特征图的图像尺寸与第二图像帧的图像尺寸相同，以使得第一特征图携带所述第一图像帧的图像内容信息；第二特征图携带所述第二图像帧的图像内容信息。在本实施例的一个实现方式中，所述特征提取模块可以为如图7所示的VGG16网络，第一图像帧对应的第一特征图，以及第二图像帧对应的第二特征图均为VGG16网络中第一个特征图单元提取得到的特征图，当第一图像帧和第二图像帧的图像尺度均为224*224*3时，第一特征图和第二特征图的图像尺度均为224*224*64。

进一步，由在获取到第一特征图和第二特征图后，将第一特征图作为第一图像帧，将第二特征图作为第二图像帧可知，所述前向光流图为基于第一特征图和第二特征图确定，后向光流图为基于第二特征图和第一特征图确定。从而，在实际应用中，可以将特征提取模块与光流生成模块相连接，在获取到第一图像帧和第二图像帧后，将第一图像帧和第二图像帧输入特征图提取模块，通过特征提取模块输入第一特征图和第二特征图，然后，再将第一特征图和第二特征图依次输入光流生成模块，得到前向图像帧，以及将第二特征图和第一特征图依次输入光流生成模块，得到后向图像帧。这样使得光流生成模块可以不用进行特征提取，可以直接采用特征提取模块提取到的特征图，同时，在后续修正步骤中可以直接采用第一特征图作为第一图像帧，第二特征图作为第二图像帧，可以直接采用特征提取模块提取到的第一特征图和第二特征图，实现了光流图提取过程和后续修正过程的特征图复用，减少特征提取所耗费的时间，提高了插帧图像的确定速度，从而可以提高视频插帧速度。

S30、基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像。

具体地，所述插帧图像为用于插入第一图像帧和第二图像帧之间的图像帧，以通过插入插帧图像提高原视频的帧率，其中，所述插帧图像的图像尺度与第一图像帧的图像尺度相同。在一个实现方式中，所述插帧图像为基于两张预测图像生成，分别记为第一预测图像和第二预测图像，其中，第一预测帧的图像尺度与第二预测帧的图像尺度相同。在获取到第一预测帧和第二预测帧后，将第一预测帧和第二预测帧进行融合，以得到插帧图像，例如，如图3所述的第一图像帧和如图5所述的第二图像帧对应的插帧图像如图9所示。

进一步，所述插帧图像对应的两张预测图像包括基于第一图像帧和前向光流图确定和基于第二图像帧和后向光流图确定，这里将基于第一图像帧和前向光流图确定记为第一预测图像，基于第二图像帧和后向光流图确定记为第二预测帧，其中，所述第一预测帧和第二预测帧为同一预测插帧时刻对应的两个预测帧。可以理解的是，对于一个预测插帧时刻，基于第一图像帧和前向光流图确定该插帧时刻对应的第一预测帧，基于第二图像帧和后向光流图确定该插帧时刻对应的第二预测帧。

在本实施例的一个实现方式中，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

具体地，在获取到第一预测帧和第二预测帧后，可以将第一预测帧和第二预测帧进行融合以得到插帧图像，其中，第一预测帧和第二预测帧的融合过程可以为：对于第一预测帧中每个像素点，确定该像素点对应的目标像素点，其中，目标像素点为第二预测帧内，并且目标像素点在第二预测帧中的像素位置与该像素点在第一预测帧中的像素位置相对应；确定该像素点的像素值与目标像素点的像素值的平均值，并将该平均值作为该像素点的像素值，以更新该像素点的像素值；当第一预测帧内的所有像素点的像素值均更新完毕后，将更新后的第一预测帧作为所述第一图像帧和所述第二图像帧对应的插帧图像。例如，对于第一预测帧中像素位置为(100,100)的像素点a，在第二预测帧中选取像素位置为(100,100)的像素点b，读取像素点a的像素值为50和像素点b的像素值为60，像素点a的像素值与像素点B的像素值的平均值为(50+60)/2＝55，那么将像素点a的像素值更新为55。

进一步，在本实施例的一个实现方式中，所述基于所述第一图像帧、所述前向光流图、所述第二图像帧以及所述后向光流图确定所述第一图像帧对应的第一预测帧和所述第二图像帧对应的第二预测帧具体包括：

S31、基于预设的预测插帧时刻和目标光流图，确定所述预测插帧时刻对应的预测光流图，其中，所述预测插帧时刻位于所述第一图像帧对应的播放时刻与所述第二图像帧对应的播放时刻之间；

S32、基于所述预测光流图以及目标图像帧，确定目标预测帧，其中，当目标光流图像为前向光流图时，目标图像帧为第一图像帧，目标预测帧为第一预测帧；当目标光流图像为后向光流图时，目标图像帧为第二图像帧，目标预测帧为第二预测帧。

具体地，在所述步骤S31中，所述预设的预测插帧时刻为目标预测帧对应的播放时刻，其中，所述预测插帧时刻位于第一图像帧的第一播放时刻与第二图像帧的第二播放时刻之间，并且所述预测插帧时刻可以为第一播放时刻和第二播放时刻之间的任一时刻。所述预测插帧时刻可以是在第一播放时刻和第二播放时刻中随机选取得到，例如，第一图像帧对应的第一播放时刻为第150秒，第二图像帧对应的第二播放时刻为第151秒，那么预测插帧时刻可以为第150.2秒等；或者是，根据第一图像帧和第二图像帧配置的插帧数据确定，并且插帧数将第一播放时刻和第二播放时刻之间的时间段等分为插帧数+1个子时间段，并且预测插帧时刻为等分点，例如，第一图像帧对应的第一播放时刻为第150秒，第二图像帧对应的第二播放时刻为第151秒，第一图像帧和第二图像帧的插帧数为1，第一播放时刻为第150秒与第二播放时刻为第151秒之间的1秒长的时间段等分为两个时间段，并且预测插帧时刻为等分点，从而预测插帧时刻为150.5秒。

此外，对于每个预测插帧时刻，该预测插值时刻对应两个预测光流图，其中，一个预测光流图为预测前向光流图，一个为候选预测光流图，预测前向光流图为基于前向光流图以及预测插帧时刻确定的，预测后向光流图为基于后向光流图以及预测插帧时刻确定的。

进一步，所述预测光流图用于反映目标光流图对应的图像帧A到预测光流图对应的插帧图像对应的运动信息，而目标光流图用于反映目标光流图对应的前一图像帧到目标光流图对应的后一图像帧对应的运动信息，并且图像帧中的图像场景以匀速运动。由此，预测光流图中各像素点的像素值与目标光流图中对应像素点的像素值的比值等于目标比值，目标比值为第一时间段与第二时间段的比值，第一时间段为预测光流图对应的图像帧A的播放时刻与预测帧的播放时刻之间的时间间隔；第二时间段为目标光流图对应的图像帧A的播放时刻与图像帧B的播放时刻之间的时间间隔。其中，当目标光流图为前向光流图时，图像帧A为第一图像帧，图像帧B为第二图像帧，当目标光流图为后向光流图时，图像帧A为第二图像帧，图像帧B为第一图像帧。

基于此，在一个实现方式中，基于预测插帧时刻和目标光流图，确定插帧时刻对应的预测光流图具体为：获取目标光流图对应的两帧图像帧的第一时间间隔，以及预测插帧时刻与目标光流图中前一图像帧的播放时间的第二时间间隔，对于预测光流图中的每个像素点，获取该像素点对应的对照像素点的像素值，对照像素点在目标光流图中的像素位置与与该像素点在预测光流图中的像素位置相对应；根据第一时间间隔、第二时间间隔以及对照像素点的像素值，确定该像素点的像素值，其中，该像素点的像素值＝对象像素点的像素值*第二时间间隔/第一时间间隔。

举例说明：目标光流图为前向光流图，第一图像帧的播放时刻为150秒，第二图像帧的播放时刻为151秒，预测插帧时刻为150.5秒，目标光流图中的像素位置(100,100)的像素点的像素值为(10,20)，预测光流图中像素位置(100,100)的像素点的像素值为(a，b)，那么a/10＝(150.5-150)/(151-150)＝0.5/1,＝1/2，由此可知，a＝10*0.5/1＝5，同理可以得出b＝10。

进一步，在所述步骤S32中，在获取到预测光流图后，可以基于所述预测光流图将目标图像帧仿射至预测光流图对应的插帧时刻，以得到目标预测帧。相应的，所述基于所述预测光流图以及目标图像帧，确定目标预测帧具体包括：

具体地，所述仿射变换为对所述图像帧进行空间移动的warp操作，其中，所述warp操作根据光流对图像中的各像素进行空间移动(即对图像中的像素按照光流中的x，y位移量进行移动)。可以理解的是，目标预测帧为基于预测光流图对目标图像帧进行warp操作得到，其中，当预测光流图为基于前向光流图确定时，基于预测光流图对第一图像帧进行warp操作以得到目标预测帧；当预测光流图为基于后向光流图确定时，基于预测光流图对第二图像帧进行warp操作以得到目标预测帧。由此，对于每个预测插帧时刻，均可以确定该预测插帧时刻对应的两个目标预测帧，分别为第一预测帧和第二预测帧，并所述第一预测帧和第二预测帧构成插帧时刻对应的预测帧集。

进一步，在本实施例的一个实现方式中，所述基于所述预测光流图对所述目标图像帧进行仿射变换，以确定目标预测帧具体包括：

具体地，所述目标区域为所述目标图像帧中的部分图像区域，用于反映目标图像帧需要被保护的图像区域，例如，如图8所示，所述目标区域为图8中的文字所占区域所构成的图像区域。所述候选区域为目标图像帧中除所述目标区域外的剩余图像区域，用于反映目标图像帧需要进行仿射变换的区域，例如，如图8所示，所述候选区域为图8中除文字所占区域外的去其余区域所构成的图像区域。其中，所述目标区域中的图像内容，基于预测光流图对所述目标图像帧进行仿射变换时，目标区域中的图像内容保持不变，仅对候选区域进行仿射变换，这样使得仿射变换得到的目标预测帧中的目标区域对应的图像内容，与目标图像帧中目标区域对应的图像内容相同，这样可以避免因光流估计错误而导致目标区域内的内容错误。

进一步，所述目标区域可以根据图像内容来确定，例如，目标区域对应的图像内容可以为台标以及字幕等logo文字。相应的，所述目标区域可以通过经过训练的定位模块确定，所述定位模块用于定位图像中的logo文字所处区域，以得到目标区域。相应的，获取所述目标图像帧对应的目标区域具体为：将目标图像帧输入定位模块，通过定位模块确定该目标图像帧对应的目标预测帧。其中，所述目标区域采用目标区域掩膜的形成，并且在基于所述预测光流图对所述目标图像帧进行仿射变换，以确定目标预测帧时，可以基于目标区域掩膜以及预设光流图确定参考光流图，基于目标光流图对所述目标图像帧进行仿射变换，以确定目标预测帧，其中，所述参考光流图中与目标区域对应的图像区域中的像素点均为预设像素值，例如，0等。

由此，在本实施例的一个实现方式中，所述定位模块可以与特征提取模块相连接，并与所述光流模型并联；特征提取模块获取得到的第一特征图和第二特征图分别输入光流生成模块和定位模块，通过光流生成模块生成前向光流图和后向光流图，基于定位模块确定前向目标区域掩膜和后向目标区域掩膜，其中，前向目标区域掩膜为基于第一特征图确定，后向目标区域掩膜为基于第二特征图确定。

进一步，在本实施例的一个实现方式，在获取到插帧图像后，还可以对插帧图像进行修正，以提高插帧图像的图像质量。相应的，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像之后，所述方法包括：

基于所述预测前向光流图和预测后向光流图、第一特征图、第二特征图、第一预测帧和第二预测帧，对所述插帧图像进行修正，以得到修正插帧图像；

具体地，所述修正插帧图像为将预测前向光流图和预测后向光流图、第一图像帧、第二图像帧、第一预测帧和第二预测帧对插帧图像进行修正得到的图，其中，所述修正插帧图像为经过训练的图像修正模型的输出项。在本实施例的一个实现方式中，如图12所示，所述图像修正模型可以采用ResNet网络中的残差模块residual blocks等。在本实施例的一个实现方式中，所述第一图像帧可以为上述特征提取模块提取到的第一特征图，第二图像帧可以为上述特征提取模块到的第二特征图。可以理解的是，所述第一特征图与确定第一图像帧对应的前向光流图所采用的第一特征图相同，第二特征图与确定第一图像帧对应的前向光流图采所用的第一特征图相同，这里就不在赘述，具体可以参照上述第一特征图和第二特征图的确定过程。

在一个实现方式中，所述基于所述预测插帧时刻对应的预测前向光流图和预测后向光流图、第一特征图、第二特征图、第一预测帧和第二预测帧，对所述插帧图像进行修正，以得到修正插帧图像具体包括：

基于所述预测前向光流图和预测后向光流图、第一特征图、第二特征图、第一预测帧、第二预测帧、第一掩膜图以及第二掩膜图，确定所述插帧图像对应的残差图；

基于所述残差图以及所述插帧图像，确定修正插帧图像。

具体地，在获取到第一特征图和第二特征图之后，可以基于第一特征图对应的前向预测光流图对第一特征图进行仿射变换，以得到第一特征图对应的第一预测特征图，相应的，基于第二特征图对应的后向预测光流图对第二特征图进行仿射变换，以得到第二特征图对应的第二预测特征图。然而，在采用第一预测特征图作为第一特征图，以及采用第二预测特征图作为第二特征图后，基于所述预测插帧时刻对应的预测前向光流图和预测后向光流图、第一特征图、第二特征图、第一预测帧、第二预测帧、第一掩膜图以及第二掩膜图，对所述插帧图像进行修正，以得到修正插帧图像。这样可以采用插帧时刻对应的第一特征图和第二特征图来引导融合网络，可以提升插帧图像的边缘细节。此外，还可以利用第一预测帧、第二预测帧和前向预测光流和后向预测光流的富余信息来增强插帧图像的画面细节，同时通过加入第一掩膜图和第二掩膜图纠正部分warp仿射变换存在的精度错误，从而提高修正后的插帧图像的图像质量。在本实施例的一个实现方式，所述第一掩膜图和第二掩膜图均可以通过上述定位模块确定，其中，所述第一掩膜图用于反映第一图像帧携带的目标区域，所述第二掩膜图用于反映第二图像帧携带的目标区域，所述第一掩膜图对应的目标区域与对第一图像帧进行仿射变换中的目标区域相同，所述第二掩膜图对应的目标区域与对第二图像帧进行放射变换中的目标区域相同。例如，第一图像帧中的目标区域为logo文字对应的图像区域，那么所述第一掩膜图包括第一图像区域和第二图像区域，其中，所述第一图像区域为logo文字对应的图像区域，第二图像区域为第一图像帧中除logo文字对应的图像区域外的其他区域，第一图像区域中的像素点的像素值可以为第一像素值，第二图像区域中的像素点的像素值可以为第二像素值，如，第一像素值为1，第二像素值为1。

此外，在实际应用中，所述第一掩膜图的图像尺寸与第二掩膜图的图像尺寸相同，并且第一掩膜图的图像尺寸小于第一图像帧的图像尺寸，第二掩膜图的图像尺寸小于第二图像帧的图像尺寸。例如，第一图像帧的图像尺寸为224*224，第一掩膜图的图像尺寸为28*28。这样通过采用小于第一图像帧的图像尺寸的第一掩膜图和小于第二图像帧的图像尺寸的第二掩膜图，在对插帧图像进行修正时，可以降低计算耗力，提高插帧图像的获取速度。

在本实施例的一个实现方式中，如图2所示，所述预设插帧时刻包括若干预测插帧时刻，若干预测插帧时刻中的每个插帧时间均处于所述第一图像帧对应的播放时刻与所述第二图像帧对应的播放时刻之间；所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

具体地，当预测插帧时刻为若干个时，对于每个预测插帧时刻，采用上述实施例中的步骤确定该预测插帧时刻对应的预测光流图，以得到各预测插帧时刻确定预测光流图，并基于目标图像帧以及预测光流图可以确定目标预测帧，这样就可以获取到各预测插帧时刻对应的预测帧集。其中，预测光流图的确定过程以及基于预测光流图以及目标图像帧确定预测帧的过程可以参数步骤S31和步骤S32，这里就不在具体说明。

此外，当预测帧集为若干个时，对于每个预测帧集可以确定该预测帧集确定所述第一图像帧和所述第二图像帧对应的插帧图像，以得到若干插帧图像，其中，若干插帧图像与若干预测插帧时刻一一对应，各插帧图像用于插入各自对应的插帧时刻。基于此，在获取到插帧图像后，所述方法还包括：对于每帧插帧图像，将该插帧图像按照其对应的插帧时刻插入所述第一图像帧和所述第二图像帧之间，以得到插帧后的视频，其中，所述插帧后的视频的帧率高于所述原视频的帧率。这样可以提高原视频的帧率，从而提高避免原视频出现卡顿等问，进而提高原视频的播放效果。

综上所述，本实施提供了一种基于光流的视频插帧的生成方法，所述方法包括获取第一图像帧和第二图像帧；根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图；基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图确定预测帧集；基于所述预测帧集确定所述第一图像帧和所述第二图像帧对应的插帧图像。本方法通过前向光流图和后向光流图同一插帧位置的两张预测插帧图像，在基于两张预测插帧图像确定插帧图像，这样一方面可以使得对原视频的插帧，提高原视频的视频帧率，从而提高原视频的播放效果。另一方通过两张预测插帧图像确定插帧图像可以提高插帧图像的图像效果，从而进一步提高原视频的播放效果。

基于上述基于光流的视频插帧的生成方法，本实施例还可以提供一种基于光流的视频插帧模型，如图10所示，所述光流的视频插帧模型包括特征提取模块，光流生成模块、定位模块、预测生成模块以及修正模块，所述特征图提取模块分别与光流生成模块、定位模块以及预测生成模块相连接，所述光流模块和定位模块与预测生成模块相连接，所述预测生成模块与修正模块相连接；所述特征提取模块用于提取第一图像帧对应的第一特征图，以及第二图像帧对应的第二特征图，并将第一特征图和第二特征图分别输入光流生成模块、定位模块以及预测生成模块；光流生成模块用于根据第一特征图和第二特征图生成前向光流图，以及根据第二特征图和第一特征图生成后向光流图，并将前向光流图和后向光流图输入预测生成模块；所述定位模块用于根据第一特征图生成第一特征图对应的第一目标区域掩膜，以及根据第二特征图生成第二特征图对应的第二目标区域掩膜，并将第一目标区域掩膜和第二目标区域掩膜输入预测生成模块；预测生成模块用于根据第一特征图、第二特征图、第一目标区域掩膜、第二目标区域掩膜、前向光流图以及后向光流图生成插帧图像，并将插帧图像输入修正模块；修正模块用于对插帧图像进行修正，以得到修正后的插帧图像。其中，特征提取模块的工作过程可以参照步骤S10的说明，光流生成模块的工作过程可以参照步骤S20的说明，定位模块、预测生成模块预警修正模块的工作过程可以参照步骤S30和步骤S40的说明，这里就不在赘述。

基于上述基于光流的视频插帧的生成方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的基于光流的视频插帧的生成方法中的步骤。

基于上述基于光流的视频插帧的生成方法，本申请还提供了一种终端设备，如图13所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于光流的视频插帧的生成方法，其特征在于，所述方法包括：

获取第一图像帧和第二图像帧；

2.根据权利要求1所述基于光流的视频插帧的生成方法，其特征在于，所述第一图像帧和所述第二图像帧为原视频中的连续图像帧。

3.根据权利要求1所述基于光流的视频插帧的生成方法，其特征在于，所述根据所述第一图像帧和所述第二图像帧，确定前向光流图和后向光流图具体包括：

4.根据权利要求1所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

5.根据权利要求4所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述第一图像帧、所述前向光流图、所述第二图像帧以及所述后向光流图确定所述第一图像帧对应的第一预测帧和所述第二图像帧对应的第二预测帧具体包括：

6.根据权利要求5所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述预测光流图以及目标图像帧，确定目标预测帧具体为：

7.根据权利要求6所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述预测光流图对所述目标图像帧进行仿射变换，以确定目标预测帧具体包括：

8.根据权利要求5所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像之后，所述方法包括：

9.根据权利要求8所述基于光流的视频插帧的生成方法，其特征在于，所述基于所述预测前向光流图和所述预测后向光流图、所述第一特征图、所述第二特征图、所述第一预测帧和所述第二预测帧，对所述插帧图像进行修正，以得到修正插帧图像具体包括：

基于所述残差图以及所述插帧图像，确定修正插帧图像。

10.根据权利要求1-9所述基于光流的视频插帧的生成方法，其特征在于，所述获取第一图像帧和第二图像帧之后，所述方法包括：

11.根据权利要求1-9任一所述基于光流的视频插帧的生成方法，其特征在于，所述预设插帧时刻包括若干预测插帧时刻，若干预测插帧时刻中的每个插帧时间均处于所述第一图像帧对应的播放时刻与所述第二图像帧对应的播放时刻之间；所述基于所述第一图像帧、所述前向光流图、第二图像帧以及后向光流图，确定所述第一图像帧和所述第二图像帧对应的插帧图像具体包括：

12.根据权利要求11所述基于光流的视频插帧的生成方法，其特征在于，所述方法还包括：

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～12任意一项所述的基于光流的视频插帧的生成方法中的步骤。

14.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-12任意一项所述的基于光流的视频插帧的生成方法中的步骤。