CN112954395B - 一种可插入任意帧率的视频插帧方法及系统 - Google Patents

一种可插入任意帧率的视频插帧方法及系统 Download PDF

Info

Publication number
CN112954395B
CN112954395B CN202110149866.9A CN202110149866A CN112954395B CN 112954395 B CN112954395 B CN 112954395B CN 202110149866 A CN202110149866 A CN 202110149866A CN 112954395 B CN112954395 B CN 112954395B
Authority
CN
China
Prior art keywords
frame
image
feature
time interval
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110149866.9A
Other languages
English (en)
Other versions
CN112954395A (zh
Inventor
徐君
许刚
程明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202110149866.9A priority Critical patent/CN112954395B/zh
Publication of CN112954395A publication Critical patent/CN112954395A/zh
Application granted granted Critical
Publication of CN112954395B publication Critical patent/CN112954395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Television Systems (AREA)

Abstract

本公开公开的一种可插入任意帧率的视频插帧方法及系统,包括:获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;根据中间帧特征获得所要插入的中间帧。实现了任意时刻的灵活插帧。

Description

一种可插入任意帧率的视频插帧方法及系统
技术领域
本发明涉及视频插帧技术领域,尤其涉及一种可插入任意帧率的视频插帧方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
视频插帧是指在视频的任意两帧之间插入新的一帧或几帧,现有的显示屏幕播放高清视频的帧率为每秒60帧、120帧或240帧。然而,现有的高清视频内容大多是每秒30帧,如果把视频的每一帧都用单张图超分辨率方法放大可能会导致不同的帧之间会产生像素偏差,从而损害了视频对人类视觉系统的感知质量。因此,视频插帧是一个非常重要的视频增强任务。现有的视频插帧技术大多基于光流的方法,此类方法需要额外大量的内存消耗、参数量和计算量去估计光流信息。为避免使用光流方法,近期的方法主要采用可变形卷积网络框架去学习插帧的过程,然而,此类框架只能在任意两帧之间插入固定的中间一帧。这样每秒30帧的视频最多能插帧到每秒60帧。当然,进行多次插帧可以继续提升视频帧率,但是这样做会导致插帧质量较差,无法实现对不同设备进行灵活插帧。
发明内容
本公开为了解决上述问题,提出了一种可插入任意帧率的视频插帧方法及系统,实现了任意时刻下的视频插帧。
为实现上述目的,本公开采用如下技术方案:
第一方面,提出了一种可插入任意帧率的视频插帧方法,包括:
一种可插入任意帧率的视频插帧系统,包括:
获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
根据中间帧特征获得所要插入的中间帧。
第二方面,提出了一种可插入任意帧率的视频插帧系统,包括:
数据获取模块,用于获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
中间帧特征获取模块,用于将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
中间帧获取模块,用于根据中间帧特征获得所要插入的中间帧。
第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成一种可插入任意帧率的视频插帧方法所述的步骤。
第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成一种可插入任意帧率的视频插帧方法所述的步骤。
与现有技术相比,本公开的有益效果为:
1、本公开给定任意时刻,均可以插帧出该时刻的新视频帧,从而可以在两帧之间插帧出任意数量的帧数,实现灵活插帧。
2、本公开获取上一帧与插入帧间、插入帧与下一帧间的运动信息,通过两个运动信息分别对上一帧图像特征和下一帧图像特征进行运动补偿,进而获得两个插入上一帧和下一帧间的中间帧特征,将两个中间帧特征融合,最终获得在插入帧时刻插入上一帧和下一帧间的中间帧,实现了任意时刻的灵活插帧。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开实施例1公开的时域调控模块控制的金字塔级联和可变形模块原理图;
图2为本公开实施例1公开的时域调控模块原理图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。
实施例1
为了实现能够在视频中插入任意帧率,在该实施例中,公开了一种可插入任意帧率的视频插帧方法,包括:
获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
根据中间帧特征获得所要插入的中间帧。
进一步的,将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第一金字塔级联可变形模块中进行特征融合,从第一时间间隔信息中提取第一时间间隔信息特征,将第一时间间隔信息特征与第一金字塔级联可变形模块的主干特征进行融合,获得上一帧图像特征到下一帧图像特征间的第一运动信息,通过第一运动信息对上一帧图像特征进行运动补偿,获得第一中间帧特征。
进一步的,通过全连接网络从第一时间间隔信息中提取第一时间间隔信息特征。
进一步的,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第二金字塔级联可变形模块中进行特征融合,从第二时间间隔信息中提取第二时间间隔信息特征,将第二时间间隔信息特征与第二金字塔级联可变形模块的主干特征进行融合,获得下一帧图像特征到上一帧图像特征间的第二运动信息,通过第二运动信息对下一帧图像特征进行运动补偿,获得第二中间帧特征。
进一步的,将第一中间帧特征和第二中间帧特征堆叠并通过卷积操作进行融合,获得中间帧特征。
进一步的,通过特征提取网络分别从上一帧图像和下一帧图像中提取上一帧图像特征和下一帧图像特征。
进一步的,将中间帧特征输入解码网络中,解码获得在插入帧时刻插入上一帧和下一帧之间的中间帧。
对一种可插入任意帧率的视频插帧方法进行详细说明,如图1所示。
为获得灵活的视频插帧效果,满足不同设备和播放环境的需求,本发明提出新型的融入待插帧时刻信息的时域调制模块(Temporal Modulation Block,TMB),并将此时域调制模块融入到已有的金字塔级联可变形模块(Pyramid,Cascading,and Deformable,PCD)中,从而获得时域可控的视频插帧技术。
第1步:获取需要插帧的相邻的上一帧图像I2i-1和下一帧图像I2i+1,及插入帧时刻,通过插入帧时刻,获取插入帧时刻与上一帧时刻的第一时间间隔信息t,插入帧时刻与下一帧时刻间的第二时间间隔信息1-t;
第2步:根据特征提取网络从上一帧图像I2i-1中提取上一帧图像特征
Figure BDA0002932355470000071
从下一帧图像I2i+1中提取下一帧图像特征
Figure BDA0002932355470000072
第3步:将上一帧图像特征
Figure BDA0002932355470000073
下一帧图像特征
Figure BDA0002932355470000074
第一时间间隔信息t、第二时间间隔信息1-t输入可控特征插值模块中,输出在插入帧时刻插入上一帧与下一帧间的中间帧。
其中,可控特征插值模块包括两个时域调制模块控制的金字塔级联可变形模块,分别为时域调制模块控制的第一金字塔级联可变形模块和时域调制模块控制的第二金字塔级联可变形模块,时域调制模块控制的金字塔级联可变形模块包括金字塔级联可变形模块和全连接网络,金字塔级联可变形模块的输入为上一帧图像特征
Figure BDA0002932355470000075
和下一帧图像特征
Figure BDA0002932355470000076
全连接网络的输入为时间间隔信息,输出为时间间隔信息特征,将输出的时间间隔信息特征与金字塔级联可变形模块的主干特征进行融合,获得时域调制模块控制的金字塔级联可变形模块,输出中间帧特征,其中,时域调制模块控制的第一金字塔级联可变形模块中全连接网络的输入为第一时间间隔信息,输出第一时间间隔信息特征,时域调制模块控制的第二金字塔级联可变形模块中全连接网络的输入为第二时间间隔信息,输出第二时间间隔信息特征。
(3.1)向时域调制模块控制的第一金字塔级联可变形模块中输入上一帧图像特征
Figure BDA0002932355470000081
下一帧图像特征
Figure BDA0002932355470000082
及第一时间间隔信息t,通过全连接网络(Fully ConnectedNetwork,FCN)从第一时间间隔信息t中提取第一时间间隔信息特征vt,其中具体的FCN实现方式见图2;将第一时间间隔信息特征vt,与第一金字塔级联可变形模块的主干特征进行融合,获得上一帧2i-1到下一帧2i+1之间的第一运动信息,通过运动补偿(offset)表示,将上一帧图像特征
Figure BDA0002932355470000083
根据该帧到时刻t的前向运动补偿插帧出在时刻t上的第一中间帧特征
Figure BDA0002932355470000084
(3.2)向时域调制模块控制的第二金字塔级联可变形模块中输入上一帧图像特征
Figure BDA0002932355470000085
下一帧图像特征
Figure BDA0002932355470000086
及第二时间间隔信息1-t;通过全连接网络从第二时间间隔信息1-t中提取第二时间间隔信息特征v1-t,将第二时间间隔信息特征v1-t与第二金字塔级联可变形模块的主干特征进行融合,从而得到下一帧2i+1到上一帧2i-1之间的第二运动信息,通过运动补偿(offset)表示,对下一帧图像特征
Figure BDA0002932355470000087
根据该帧到时刻1-t的反向运动补偿插帧出在时刻1-t上的第二中间帧特征
Figure BDA0002932355470000088
(3.3)融合前向得到的第一中间帧特征
Figure BDA0002932355470000089
和反向得到的第二中间帧特征
Figure BDA00029323554700000810
这个融合是通过把两部分特征堆叠在一起并通过卷积操作进行,得到最终的中间帧特征
Figure BDA00029323554700000811
(3.4)将融合的中间帧特征
Figure BDA0002932355470000091
输入到解码网络里,最终输出在插入帧时刻插入上一帧和下一帧间的中间帧I2i,t
本实施例与已有的插入固定帧率方法不同,为插入任意帧率提出显示地学习到与时间相关的特征并进行灵活的特征迁移,使得深度学习模型可以感受到不同时间上的特征信息。视频时域上具有空间时域相似性等视频先验,和帧率之间的相关性先验等。这些视频先验将被用于设计基于深度学习的可实现任意插帧频率的视频时域超分辨率方法,从而弥补现有视频插帧方法的只能插固定帧率的局限性。同时,本实施例融合数据先验和视频先验可以得到更有效的插帧效果。
本发明率先提出可根据时间信息控制插帧频率的视频插帧深度卷积神经网络,在可变形卷积网络的基础上,提升其在时域上进行视频插帧的灵活性。所提出的时间可控视频插帧技术可以插帧出任意帧率的视频。为安防领域、视频娱乐产业、电视生产领域和电影工业提供技术支持,提升人们生活的安全程度、增强人们的精神娱乐生活、扩大人们观看超高清视频的方式、全面提升人们生活水平和幸福程度。本发明对于提高成像设备特别是移动设备上数字图像的质量、可靠性、增加视频信息的利用效率等方面具有重要意义。
本算法基于数据驱动的可变形卷积网络框架和深度学习技术,在深度神经网络的训练阶段就会考虑到任意时刻的插帧,并且可以在两帧之间插帧出任意数量的帧数。这种可控帧率的视频时域插帧算法的实现是实现灵活插帧的一个关键问题。本发明利用视频的时域先验和数据先验,可以实现灵活插入任意帧数的视频插帧算法,从而可以将视频插帧算法应用到灵活多变的实际应用场景中去。
实施例2
在该实施例中,公开了一种可插入任意帧率的视频插帧系统,包括:
数据获取模块,用于获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
中间帧特征获取模块,用于将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
中间帧获取模块,用于根据中间帧特征获得所要插入的中间帧。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种可插入任意帧率的视频插帧方法所述的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种可插入任意帧率的视频插帧方法所述的步骤。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种可插入任意帧率的视频插帧方法,其特征在于,包括:
获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
根据中间帧特征获得所要插入的中间帧;
其中,将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第一金字塔级联可变形模块中进行特征融合,从第一时间间隔信息中提取第一时间间隔信息特征,将第一时间间隔信息特征与第一金字塔级联可变形模块的主干特征进行融合,获得上一帧图像特征到下一帧图像特征间的第一运动信息,通过第一运动信息对上一帧图像特征进行运动补偿,获得第一中间帧特征;
将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第二金字塔级联可变形模块中进行特征融合,从第二时间间隔信息中提取第二时间间隔信息特征,将第二时间间隔信息特征与第二金字塔级联可变形模块的主干特征进行融合,获得下一帧图像特征到上一帧图像特征间的第二运动信息,通过第二运动信息对下一帧图像特征进行运动补偿,获得第二中间帧特征。
2.如权利要求1所述的一种可插入任意帧率的视频插帧方法,其特征在于,通过全连接网络从第一时间间隔信息中提取第一时间间隔信息特征。
3.如权利要求1所述的一种可插入任意帧率的视频插帧方法,其特征在于,将第一中间帧特征和第二中间帧特征堆叠并通过卷积操作进行融合,获得中间帧特征。
4.如权利要求1所述的一种可插入任意帧率的视频插帧方法,其特征在于,通过特征提取网络分别从上一帧图像和下一帧图像中提取上一帧图像特征和下一帧图像特征。
5.如权利要求1所述的一种可插入任意帧率的视频插帧方法,其特征在于,将中间帧特征输入解码网络中,解码获得在插入帧时刻插入上一帧和下一帧之间的中间帧。
6.一种可插入任意帧率的视频插帧系统,其特征在于,包括:
数据获取模块,用于获取需要插帧的相邻的上一帧图像特征和下一帧图像特征,及插入帧时刻距离上一帧时刻的第一时间间隔信息,插入帧时刻距离下一帧时刻的第二时间间隔信息;
中间帧特征获取模块,用于将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征,将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征,将第一中间帧特征和第二中间帧特征融合获得中间帧特征;
中间帧获取模块,用于根据中间帧特征获得所要插入的中间帧;
其中,将上一帧图像特征、下一帧图像特征和第一时间间隔信息输入时域调制模块控制的第一金字塔级联可变形模块中,输出第一中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第一金字塔级联可变形模块中进行特征融合,从第一时间间隔信息中提取第一时间间隔信息特征,将第一时间间隔信息特征与第一金字塔级联可变形模块的主干特征进行融合,获得上一帧图像特征到下一帧图像特征间的第一运动信息,通过第一运动信息对上一帧图像特征进行运动补偿,获得第一中间帧特征;
将上一帧图像特征、下一帧图像特征和第二时间间隔信息输入时域调制模块控制的第二金字塔级联可变形模块中,输出第二中间帧特征的具体过程为:
将上一帧图像特征、下一帧图像特征输入第二金字塔级联可变形模块中进行特征融合,从第二时间间隔信息中提取第二时间间隔信息特征,将第二时间间隔信息特征与第二金字塔级联可变形模块的主干特征进行融合,获得下一帧图像特征到上一帧图像特征间的第二运动信息,通过第二运动信息对下一帧图像特征进行运动补偿,获得第二中间帧特征。
7.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项所述的一种可插入任意帧率的视频插帧方法的步骤。
8.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项所述的一种可插入任意帧率的视频插帧方法的步骤。
CN202110149866.9A 2021-02-03 2021-02-03 一种可插入任意帧率的视频插帧方法及系统 Active CN112954395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110149866.9A CN112954395B (zh) 2021-02-03 2021-02-03 一种可插入任意帧率的视频插帧方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110149866.9A CN112954395B (zh) 2021-02-03 2021-02-03 一种可插入任意帧率的视频插帧方法及系统

Publications (2)

Publication Number Publication Date
CN112954395A CN112954395A (zh) 2021-06-11
CN112954395B true CN112954395B (zh) 2022-05-17

Family

ID=76242651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110149866.9A Active CN112954395B (zh) 2021-02-03 2021-02-03 一种可插入任意帧率的视频插帧方法及系统

Country Status (1)

Country Link
CN (1) CN112954395B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798630A (zh) * 2019-10-30 2020-02-14 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111833245A (zh) * 2020-05-19 2020-10-27 南京邮电大学 一种基于多场景视频补帧算法的超分辨率重建方法
WO2020228418A1 (zh) * 2019-05-15 2020-11-19 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
CN112055249A (zh) * 2020-09-17 2020-12-08 京东方科技集团股份有限公司 一种视频插帧方法及装置
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160040388A (ko) * 2014-10-02 2016-04-14 삼성전자주식회사 프레임 레이트 변환 방법 및 영상출력장치
WO2016187776A1 (zh) * 2015-05-25 2016-12-01 北京大学深圳研究生院 一种基于光流法的视频插帧方法及系统
US10776688B2 (en) * 2017-11-06 2020-09-15 Nvidia Corporation Multi-frame video interpolation using optical flow

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228418A1 (zh) * 2019-05-15 2020-11-19 上海商汤智能科技有限公司 视频处理方法及装置、电子设备和存储介质
CN110798630A (zh) * 2019-10-30 2020-02-14 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN111833245A (zh) * 2020-05-19 2020-10-27 南京邮电大学 一种基于多场景视频补帧算法的超分辨率重建方法
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN112055249A (zh) * 2020-09-17 2020-12-08 京东方科技集团股份有限公司 一种视频插帧方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种图像序列的区域导向帧插值算法;訾玲玲等;《小型微型计算机系统》;20150915(第09期);全文 *
基于视频对象的自适应去帧/插帧视频处理;肖永豪等;《华南理工大学学报(自然科学版)》;20030828(第08期);全文 *

Also Published As

Publication number Publication date
CN112954395A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN102741879B (zh) 由单眼图像产生深度图的方法及其系统
US20200334894A1 (en) 3d motion effect from a 2d image
CN104469179A (zh) 一种将动态图片结合到手机视频中的方法
CN108875900A (zh) 视频图像处理方法和装置、神经网络训练方法、存储介质
CN110610467B (zh) 一种基于深度学习的多帧视频去压缩噪声方法
CN102098528A (zh) 一种平面图像的立体转换方法及装置
CN108875751A (zh) 图像处理方法和装置、神经网络的训练方法、存储介质
CN115115516B (zh) 基于Raw域的真实世界视频超分辨率的构建方法
CN113850718A (zh) 一种基于帧间特征对齐的视频同步时空超分方法
CN114066761A (zh) 基于光流估计与前景检测的运动视频帧率增强方法及系统
CN112954395B (zh) 一种可插入任意帧率的视频插帧方法及系统
CN107729821B (zh) 一种基于一维序列学习的视频概括方法
CN104811622B (zh) 图像色彩移植方法及装置
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
US11373060B2 (en) Training method for video stabilization and image processing device using the same
CN113269068B (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
US9967546B2 (en) Method and apparatus for converting 2D-images and videos to 3D for consumer, commercial and professional applications
Kim et al. Light field angular super-resolution using convolutional neural network with residual network
CN111292677B (zh) 一种图像显示处理方法、装置、计算机设备及存储介质
CN112016456A (zh) 基于自适应反向投影深度学习的视频超分辨率方法及系统
CN103139524A (zh) 视频优化方法以及信息处理设备
CN105243652B (zh) 图像降噪的方法及装置
CN111353394A (zh) 一种基于三维交替更新网络的视频行为识别方法
Fan et al. Learning Bilateral Cost Volume for Rolling Shutter Temporal Super-Resolution
CN111836055B (zh) 图像处理装置及memc基于图像内容的图像块匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant