CN112954395B

CN112954395B - 一种可插入任意帧率的视频插帧方法及系统

Info

Publication number: CN112954395B
Application number: CN202110149866.9A
Authority: CN
Inventors: 徐君; 许刚; 程明明
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-05-17
Anticipated expiration: 2041-02-03
Also published as: CN112954395A

Abstract

本公开公开的一种可插入任意帧率的视频插帧方法及系统，包括：获取需要插帧的相邻的上一帧图像特征和下一帧图像特征，及插入帧时刻距离上一帧时刻的第一时间间隔信息，插入帧时刻距离下一帧时刻的第二时间间隔信息；将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中，输出第一中间帧特征，将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中，输出第二中间帧特征，将第一中间帧特征和第二中间帧特征融合获得中间帧特征；根据中间帧特征获得所要插入的中间帧。实现了任意时刻的灵活插帧。

Description

一种可插入任意帧率的视频插帧方法及系统

技术领域

本发明涉及视频插帧技术领域，尤其涉及一种可插入任意帧率的视频插帧方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

视频插帧是指在视频的任意两帧之间插入新的一帧或几帧，现有的显示屏幕播放高清视频的帧率为每秒60帧、120帧或240帧。然而，现有的高清视频内容大多是每秒30帧，如果把视频的每一帧都用单张图超分辨率方法放大可能会导致不同的帧之间会产生像素偏差，从而损害了视频对人类视觉系统的感知质量。因此，视频插帧是一个非常重要的视频增强任务。现有的视频插帧技术大多基于光流的方法，此类方法需要额外大量的内存消耗、参数量和计算量去估计光流信息。为避免使用光流方法，近期的方法主要采用可变形卷积网络框架去学习插帧的过程，然而，此类框架只能在任意两帧之间插入固定的中间一帧。这样每秒30帧的视频最多能插帧到每秒60帧。当然，进行多次插帧可以继续提升视频帧率，但是这样做会导致插帧质量较差，无法实现对不同设备进行灵活插帧。

发明内容

本公开为了解决上述问题，提出了一种可插入任意帧率的视频插帧方法及系统，实现了任意时刻下的视频插帧。

为实现上述目的，本公开采用如下技术方案：

第一方面，提出了一种可插入任意帧率的视频插帧方法，包括：

一种可插入任意帧率的视频插帧系统，包括：

获取需要插帧的相邻的上一帧图像特征和下一帧图像特征，及插入帧时刻距离上一帧时刻的第一时间间隔信息，插入帧时刻距离下一帧时刻的第二时间间隔信息；

将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中，输出第一中间帧特征，将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中，输出第二中间帧特征，将第一中间帧特征和第二中间帧特征融合获得中间帧特征；

根据中间帧特征获得所要插入的中间帧。

第二方面，提出了一种可插入任意帧率的视频插帧系统，包括：

数据获取模块，用于获取需要插帧的相邻的上一帧图像特征和下一帧图像特征，及插入帧时刻距离上一帧时刻的第一时间间隔信息，插入帧时刻距离下一帧时刻的第二时间间隔信息；

中间帧特征获取模块，用于将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中，输出第一中间帧特征，将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中，输出第二中间帧特征，将第一中间帧特征和第二中间帧特征融合获得中间帧特征；

中间帧获取模块，用于根据中间帧特征获得所要插入的中间帧。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种可插入任意帧率的视频插帧方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种可插入任意帧率的视频插帧方法所述的步骤。

与现有技术相比，本公开的有益效果为：

1、本公开给定任意时刻，均可以插帧出该时刻的新视频帧，从而可以在两帧之间插帧出任意数量的帧数，实现灵活插帧。

2、本公开获取上一帧与插入帧间、插入帧与下一帧间的运动信息，通过两个运动信息分别对上一帧图像特征和下一帧图像特征进行运动补偿，进而获得两个插入上一帧和下一帧间的中间帧特征，将两个中间帧特征融合，最终获得在插入帧时刻插入上一帧和下一帧间的中间帧，实现了任意时刻的灵活插帧。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例1公开的时域调控模块控制的金字塔级联和可变形模块原理图；

图2为本公开实施例1公开的时域调控模块原理图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。

本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。

实施例1

为了实现能够在视频中插入任意帧率，在该实施例中，公开了一种可插入任意帧率的视频插帧方法，包括：

根据中间帧特征获得所要插入的中间帧。

进一步的，将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中，输出第一中间帧特征的具体过程为：

将上一帧图像特征、下一帧图像特征输入第一金字塔级联可变形模块中进行特征融合，从第一时间间隔信息中提取第一时间间隔信息特征，将第一时间间隔信息特征与第一金字塔级联可变形模块的主干特征进行融合，获得上一帧图像特征到下一帧图像特征间的第一运动信息，通过第一运动信息对上一帧图像特征进行运动补偿，获得第一中间帧特征。

进一步的，通过全连接网络从第一时间间隔信息中提取第一时间间隔信息特征。

进一步的，将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中，输出第二中间帧特征的具体过程为：

将上一帧图像特征、下一帧图像特征输入第二金字塔级联可变形模块中进行特征融合，从第二时间间隔信息中提取第二时间间隔信息特征，将第二时间间隔信息特征与第二金字塔级联可变形模块的主干特征进行融合，获得下一帧图像特征到上一帧图像特征间的第二运动信息，通过第二运动信息对下一帧图像特征进行运动补偿，获得第二中间帧特征。

进一步的，将第一中间帧特征和第二中间帧特征堆叠并通过卷积操作进行融合，获得中间帧特征。

进一步的，通过特征提取网络分别从上一帧图像和下一帧图像中提取上一帧图像特征和下一帧图像特征。

进一步的，将中间帧特征输入解码网络中，解码获得在插入帧时刻插入上一帧和下一帧之间的中间帧。

对一种可插入任意帧率的视频插帧方法进行详细说明，如图1所示。

为获得灵活的视频插帧效果，满足不同设备和播放环境的需求，本发明提出新型的融入待插帧时刻信息的时域调制模块(Temporal Modulation Block,TMB)，并将此时域调制模块融入到已有的金字塔级联可变形模块(Pyramid,Cascading,and Deformable,PCD)中，从而获得时域可控的视频插帧技术。

第1步：获取需要插帧的相邻的上一帧图像I_2i-1和下一帧图像I_2i+1，及插入帧时刻，通过插入帧时刻，获取插入帧时刻与上一帧时刻的第一时间间隔信息t，插入帧时刻与下一帧时刻间的第二时间间隔信息1-t；

第2步：根据特征提取网络从上一帧图像I_2i-1中提取上一帧图像特征

从下一帧图像I_2i+1中提取下一帧图像特征

第3步：将上一帧图像特征

下一帧图像特征

第一时间间隔信息t、第二时间间隔信息1-t输入可控特征插值模块中，输出在插入帧时刻插入上一帧与下一帧间的中间帧。

其中，可控特征插值模块包括两个时域调制模块控制的金字塔级联可变形模块，分别为时域调制模块控制的第一金字塔级联可变形模块和时域调制模块控制的第二金字塔级联可变形模块，时域调制模块控制的金字塔级联可变形模块包括金字塔级联可变形模块和全连接网络，金字塔级联可变形模块的输入为上一帧图像特征

和下一帧图像特征

全连接网络的输入为时间间隔信息，输出为时间间隔信息特征，将输出的时间间隔信息特征与金字塔级联可变形模块的主干特征进行融合，获得时域调制模块控制的金字塔级联可变形模块，输出中间帧特征，其中，时域调制模块控制的第一金字塔级联可变形模块中全连接网络的输入为第一时间间隔信息，输出第一时间间隔信息特征，时域调制模块控制的第二金字塔级联可变形模块中全连接网络的输入为第二时间间隔信息，输出第二时间间隔信息特征。

(3.1)向时域调制模块控制的第一金字塔级联可变形模块中输入上一帧图像特征

下一帧图像特征

及第一时间间隔信息t，通过全连接网络(Fully ConnectedNetwork,FCN)从第一时间间隔信息t中提取第一时间间隔信息特征v_t，其中具体的FCN实现方式见图2；将第一时间间隔信息特征v_t，与第一金字塔级联可变形模块的主干特征进行融合，获得上一帧2i-1到下一帧2i+1之间的第一运动信息，通过运动补偿(offset)表示，将上一帧图像特征

根据该帧到时刻t的前向运动补偿插帧出在时刻t上的第一中间帧特征

(3.2)向时域调制模块控制的第二金字塔级联可变形模块中输入上一帧图像特征

下一帧图像特征

及第二时间间隔信息1-t；通过全连接网络从第二时间间隔信息1-t中提取第二时间间隔信息特征v_1-t，将第二时间间隔信息特征v_1-t与第二金字塔级联可变形模块的主干特征进行融合，从而得到下一帧2i+1到上一帧2i-1之间的第二运动信息，通过运动补偿(offset)表示，对下一帧图像特征

根据该帧到时刻1-t的反向运动补偿插帧出在时刻1-t上的第二中间帧特征

(3.3)融合前向得到的第一中间帧特征

和反向得到的第二中间帧特征

这个融合是通过把两部分特征堆叠在一起并通过卷积操作进行，得到最终的中间帧特征

(3.4)将融合的中间帧特征

输入到解码网络里，最终输出在插入帧时刻插入上一帧和下一帧间的中间帧I_2i,t。

本实施例与已有的插入固定帧率方法不同，为插入任意帧率提出显示地学习到与时间相关的特征并进行灵活的特征迁移，使得深度学习模型可以感受到不同时间上的特征信息。视频时域上具有空间时域相似性等视频先验，和帧率之间的相关性先验等。这些视频先验将被用于设计基于深度学习的可实现任意插帧频率的视频时域超分辨率方法，从而弥补现有视频插帧方法的只能插固定帧率的局限性。同时，本实施例融合数据先验和视频先验可以得到更有效的插帧效果。

本发明率先提出可根据时间信息控制插帧频率的视频插帧深度卷积神经网络，在可变形卷积网络的基础上，提升其在时域上进行视频插帧的灵活性。所提出的时间可控视频插帧技术可以插帧出任意帧率的视频。为安防领域、视频娱乐产业、电视生产领域和电影工业提供技术支持，提升人们生活的安全程度、增强人们的精神娱乐生活、扩大人们观看超高清视频的方式、全面提升人们生活水平和幸福程度。本发明对于提高成像设备特别是移动设备上数字图像的质量、可靠性、增加视频信息的利用效率等方面具有重要意义。

本算法基于数据驱动的可变形卷积网络框架和深度学习技术，在深度神经网络的训练阶段就会考虑到任意时刻的插帧，并且可以在两帧之间插帧出任意数量的帧数。这种可控帧率的视频时域插帧算法的实现是实现灵活插帧的一个关键问题。本发明利用视频的时域先验和数据先验，可以实现灵活插入任意帧数的视频插帧算法，从而可以将视频插帧算法应用到灵活多变的实际应用场景中去。

实施例2

在该实施例中，公开了一种可插入任意帧率的视频插帧系统，包括：

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种可插入任意帧率的视频插帧方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种可插入任意帧率的视频插帧方法所述的步骤。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种可插入任意帧率的视频插帧方法，其特征在于，包括：

根据中间帧特征获得所要插入的中间帧；

其中，将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中，输出第一中间帧特征的具体过程为：

将上一帧图像特征、下一帧图像特征输入第一金字塔级联可变形模块中进行特征融合，从第一时间间隔信息中提取第一时间间隔信息特征，将第一时间间隔信息特征与第一金字塔级联可变形模块的主干特征进行融合，获得上一帧图像特征到下一帧图像特征间的第一运动信息，通过第一运动信息对上一帧图像特征进行运动补偿，获得第一中间帧特征；

将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中，输出第二中间帧特征的具体过程为：

2.如权利要求1所述的一种可插入任意帧率的视频插帧方法，其特征在于，通过全连接网络从第一时间间隔信息中提取第一时间间隔信息特征。

3.如权利要求1所述的一种可插入任意帧率的视频插帧方法，其特征在于，将第一中间帧特征和第二中间帧特征堆叠并通过卷积操作进行融合，获得中间帧特征。

4.如权利要求1所述的一种可插入任意帧率的视频插帧方法，其特征在于，通过特征提取网络分别从上一帧图像和下一帧图像中提取上一帧图像特征和下一帧图像特征。

5.如权利要求1所述的一种可插入任意帧率的视频插帧方法，其特征在于，将中间帧特征输入解码网络中，解码获得在插入帧时刻插入上一帧和下一帧之间的中间帧。

6.一种可插入任意帧率的视频插帧系统，其特征在于，包括：

中间帧获取模块，用于根据中间帧特征获得所要插入的中间帧；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的一种可插入任意帧率的视频插帧方法的步骤。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的一种可插入任意帧率的视频插帧方法的步骤。