CN115002379B - 视频插帧方法、训练方法、装置、电子设备和存储介质 - Google Patents

视频插帧方法、训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115002379B
CN115002379B CN202210443435.8A CN202210443435A CN115002379B CN 115002379 B CN115002379 B CN 115002379B CN 202210443435 A CN202210443435 A CN 202210443435A CN 115002379 B CN115002379 B CN 115002379B
Authority
CN
China
Prior art keywords
frame
video
representing
intermediate frame
frame characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210443435.8A
Other languages
English (en)
Other versions
CN115002379A (zh
Inventor
王正
胡梦顺
聂志祥
江奎
肖晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210443435.8A priority Critical patent/CN115002379B/zh
Publication of CN115002379A publication Critical patent/CN115002379A/zh
Application granted granted Critical
Publication of CN115002379B publication Critical patent/CN115002379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频插帧方法、训练方法、装置、电子设备和存储介质,涉及计算机视频处理的技术领域,在训练方法中,首先通过非局部神经网络建立输入的两个视频帧间的全局时空依赖关系并得到第一、第三帧特征图;其次,将第一、第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,以消除经由非局部神经网络产生的时空冗余信息;之后,对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图,以自参考的方式降低误差;最后,将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型。本申请充分利用输入的视频帧的全局和局部信息,提高视频插帧的准确性和鲁棒性。

Description

视频插帧方法、训练方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机视频处理的技术领域,特别涉及一种视频插帧方法、训练方法、装置、电子设备和存储介质。
背景技术
随着计算机视觉技术的发展,用户对于视觉观看体验的要求也越来越高,为了使得用户观看到流畅度或者是清晰度更高的视频,视频插帧技术也应运而生。视频插帧是指根据已有的参考帧来合成未知的中间目标帧,其被广泛应用在视频压缩传输、高帧率视频生成或慢动作生成等应用场景中,也是计算机视觉研究的重要方向之一。
常见的视频插帧方法主要分为两部分,一部分是基于传统方法的,另一部分是基于深度学习的。以基于传统方法的视频插帧技术为例,其主要是利用参考帧间块匹配,寻找两个参考帧间最相似的块估计水平和垂直方向运动距离作为光流信息,再根据估计的运动信息来估计中间帧。然而,该方法对于极度相似的场景存在大量光流估计错误。
近年来,基于深度学习的视频插帧技术也取得了很大的发展,主要是利用卷积神经网络直接进行运动信息预测来获取目标中间帧,在定性和定量上都优于传统方法。
目前流行的基于深度学习的视频插帧方法主要包括基于显式和隐式对齐两种方式。
前者明确地估计了两个连续帧之间的光流,并通过翘曲产生中间帧。而后来有人对这一思想进行了采用和改进,将单光流估计扩展到双向光流估计,并采用后处理模块对插值结果进行了细化。尽管改进后的方法推进了视频插帧的研究,但固定光流估计模型和帧间线性运动假设限制了被推广到现实情况中,也即该方法仍然缺乏估计连续帧之间所有类型的运动的灵活性。
后者还可以通过隐性的方式处理真实的运动场景,包括基于核的方法,基于三维卷积的方法和基于直接融合的方法等。基于核的方法提出通过预测空间自适应核来隐式地对齐视频插帧中的输入帧,用于对输入帧进行重新采样以生成中间帧;然而,大多数工作只考虑局部邻域斑块的重新采样,这通常会导致扭曲的结果。三维卷积方法提出通过三维时空卷积隐式地执行输入帧之间的运动轨迹和遮挡推理,但这种方法需要巨大的计算和内存成本。直接融合方法试图将空间信息转换为多个信道,然后通过通道注意或残余密集块逐步提取运动信息;但其结果是,它们通常会产生模糊的结果。后者的这些方法尽管其在建模各种类型的真实运动时更为灵活,但是大多只关注局部的相关建模,并不能完全执行隐式对齐。此外,这些方案不允许进一步拒绝误差不对准和不可靠的预测。
发明内容
本申请实施例提供一种视频插帧方法、训练方法、装置、电子设备和存储介质,以解决相关技术中视频插帧的结果模糊、扭曲或者运动灵活性欠缺的技术问题。
第一方面,提供了一种视频插帧训练方法,包括以下步骤:
将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型。
一些实施例中,所述非局部神经网络的数学模型包括:
式中:表示第一帧特征图,/>表示第三帧特征图,Is表示连接后的第一帧和第三帧,f表示两个不同特征的矩阵相似的函数,P表示金字塔形式的池化操作,m表示输出位置的索引,n表示不同输入通道索引,/>θ、g表示不同通道的卷积操作。
一些实施例中,所述将第一帧特征图和第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图的具体步骤包括:
从第一帧特征图和第三帧特征图/>中分别提取到多尺度特征图/>和/>
将多尺度特征图和/>通过自适应融合模块进行融合生成粗糙的中间帧特征图其中,i=1、...、K,K代表不同的尺度。
一些实施例中,所述自适应融合模块的数学模型包括:
式中,{·}表示通道连接;AM0和AM1表示注意力融合模块,它们均包括两个3×3卷积层和一个sigmoid激活层;与/>大小相同,其值在[0,1]范围内;/>依次表示第K个尺度的首、尾、中间帧特征图;/>表示一个注意力融合模块后中间帧,C1(·)、C2(·)和C3(·)分别表示一个卷积层。
一些实施例中,所述可变形卷积的数学模型包括:
式中,x表示输入的粗糙的中间帧特征图,y代表输出的精确的中间帧特征图,k代表的是输入索引序号,M2代表采样的大小,W(pk)、p、pk分别代表第k层卷积核的权重、中心指标、第k层偏移量。
一些实施例中,所述重建网络的数学模型包括:
It=RN(Ft 3)
式中,It为生成的中间帧图像,RN为重建网络,Ft 3为精确的中间帧特征图。
第二方面,提供了一种视频插帧方法,包括以下步骤:
将待插入中间帧的两个视频帧输入到所述视频插帧模型中,得到生成的中间帧,其中,所述视频插帧模型由执行如权利要求1~6任意一项所述的视频插帧训练方法的步骤得到;或者,
包括以下步骤:
将待视频插帧的两个视频帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供插到输入的两个视频帧之间。
第三方面,还提供了一种视频插帧训练装置,包括:
全局时空依赖关系构建模块,其被配置为将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
中间帧生成模块,其被配置为将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
图像重构模块,其被配置为将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型。
第四方面,提供了一种电子设备,包括存储器和处理器存储器上存储有在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述的视频插帧训练方法的步骤;或者,
所述处理器执行所述计算机程序时实现如上述的视频插帧方法的步骤。
第五方面,提供了一种计算机存储介质,该存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述的视频插帧训练方法的步骤;或者,
所述计算机程序被处理器执行时实现如上述的视频插帧方法的步骤。
本申请提供的技术方案带来的有益效果包括:充分利用输入视频帧的全局和局部信息,提高插帧的准确性,同时还能够适应不同分辨率大小的视频帧,提高了视频插帧的鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频插帧训练方法的主要流程框图;
图2为本申请实施例提供的一种视频插帧训练方法的完整流程框图;
图3是本申请实施例中非局部连接的流程图;
图4是本申请实施例中金字塔方式池化流程图;
图5是本申请实施例中生成粗糙的中间帧特征图流程图;
图6是本申请实施例提供的电子设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供了一种视频插帧训练方法,其能充分利用输入视频帧的全局和局部信息,提高插帧的准确性,同时还能够适应不同分辨率大小的视频帧,提高了视频插帧的鲁棒性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,本申请实施例提供了一种视频插帧训练方法,包括以下步骤:
S001:将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
S002:将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
S003:将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型。
在本实施例中,训练数据集的准备,对一段视频任意的选取连续的三帧,并且将每帧进行尺度变换和随机裁剪为128x128的分辨率,利用中间帧作为标签,第一帧和第三帧作为输入。
优选地,在步骤S002中,所述非局部神经网络的数学模型包括:
式中:表示第一帧特征图,/>表示第三帧特征图,Is表示连接后的第一帧和第三帧,f表示两个不同特征的矩阵相似的函数,P表示金字塔形式的池化操作,m表示输出位置的索引,n表示不同输入通道索引,/>θ、g表示不同通道的卷积操作。
如图1~2所示,在步骤S001中,建立局部和全局相关性,首先对输入视频帧做一个连接操作,然后利用不同的大小的池化操作保留不同尺度的特征图像并将它们连接,然后以金字塔形式渐进的求得提取特征图的相似性,以此来建立全局时空依赖关系。
具体来说,建立图像的局部和全局相关性,如图3所示,首先将输入网络的视频帧相连接得到Is,然后分别送入三层卷积网络中进提取出图像的特征,然后利用非局部神经网络建立全局依赖。非局部神经网络已被证明能够有效的捕获长期依赖,本质上和运动估计的作用一致,非局部神经网络是为了找出帧间和帧内所有像素可能相关的点,而运动估计打算从帧间找到最相关的像素。我们利用非局部神经网络模型如下:
其中m代表输出位置的索引,n代表不同输入通道索引,f代表计算两个不同特征的矩阵相似,在计算矩阵相似性的时候我们为了减少计算量,所以引入金字塔形式的池化操作也就是P,参见图4所示,初始计算矩阵相似性时其计算复杂度为O(CH2W2),其中C为嵌入的通道数,W和H为嵌入的特征映射的宽度和高度。然而,在视频插帧中,输入大小通常具有较大且任意的分辨率(例如,我们训练阶段的256×256),其中矩阵乘法的结果可能太大,无法计算和存储。为了使非局部块适应我们的情况,我们引入了一个轻量级的金字塔非局部块,它将金字塔池模块(参见图4)嵌入到非局部块中,以构建时空依赖关系。我们采用不同尺度的池化操作,在保留不同尺度的空间信息的同时减少矩阵相似的计算的计算量,将池化操作后不同尺度所有特征图进行连接,其大小设置为S,那么我们进行矩阵计算是的计算量则变为O(CS2),S的值是远小于H*W的。
作为本申请实施例的一种优选方案,所述将第一帧特征图和第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图的具体步骤包括:
从第一帧特征图和第三帧特征图/>中分别提取到多尺度特征图/>和/>
将多尺度特征图和/>通过自适应融合模块进行融合生成粗糙的中间帧特征图其中,i=1、...、K,K代表不同的尺度。
进一步地,所述自适应融合模块的数学模型包括:
式中,{·}表示通道连接;AM0和AM1表示注意力融合模块,它们均包括两个3×3卷积层和一个sigmoid激活层;与/>大小相同,其值在[0,1]范围内;/>依次表示第K个尺度的首、尾、中间帧特征图;/>表示一个注意力融合模块后中间帧,C1(·)、C2(·)和C3(·)分别表示一个卷积层。
在本申请实施例中,在步骤S002中,注意力机制引导融合生成粗糙的中间帧特征图,在通过金字塔非局部块建立了输入帧之间的时空依赖关系后,会存在大量的空间冗余信息,我们引入多个注意力融合模块,它不仅可以从输入视频帧中提取理想的互补信息,还可以通过逐步学习残差的方式来减少时空冗余信息。
具体来说,在建立全局和局部特征联系之后,我们首先使用共享编码层分别从时间依赖的输入特征和/>中提取多尺度特征图/>和/>其中i=1、...,K,K代表不同的尺度。为了减少这两个输入特征的冗余信息,我们在每个尺度上采用堆叠的自适应融合模块(如图5所示)进行自适应融合,生成插值中间帧/>的粗表示。为了更好的解释自适应融合的过程,这里将第K个尺度详细展开描述。
我们对和/>的连接进行卷积运算,作为插值中间帧/>的初始化表示。为了寻找帧间不同区域在融合过程中的重要性,我们分别将特征对/>和特征对/>引入一个可学习的注意力融合模块,然后得到相应的注意图/>和/>其具体模型如下:
其中{·}表示通道连接,AM0和AM1表示注意力融合模块,它们均包括两个3×3卷积层和一个sigmoid激活层。和/>与/>大小相同,其值在[0,1]范围内。然后在注意模块提取帧间互补信息的基础上,学习残余信息,以减少冗余信息。三个特征/>经过一个注意力融合模块后得到更新,具体模型如下:
其中,表示一个注意力融合模块后中间帧,C1(·)、C2(·)和C3(·)分别表示一个卷积层。我们将N个注意力融合模块进行堆叠,逐步获得精确的中间特征/>并在每个尺度上处理这些特征,以便更好地融合输入特征和蒸馏冗余的时间相关信息。同时,除了卷积后使用/> 连接的初始化的最内部尺度外,另一个尺度使用/>的上采样版本。
进一步地,所述可变形卷积的数学模型包括:
式中,x表示输入的粗糙的中间帧特征图,y代表输出的精确的中间帧特征图,k代表的是输入索引序号,M2代表采样的大小,W(pk)、p、pk分别代表第k层卷积核的权重、中心指标、第k层偏移量。
在步骤S002中,修复中间帧细节,在得到一个相对准确中间帧特征结果后,也就是得到粗糙的中间帧特征图之后,我们提出了一个帧内聚合网络进一步利用插值中间帧的空间线索,以自参考的方式减轻误差对齐和不可靠的像素预测。其中,所述帧内聚合网络由一个偏移估计器和几个可变形的卷积层组成。
为了覆盖一个较大的接受域,偏移量估计器采用了常用的U-net体系结构来对生成特征图中得每个特征点估计一个垂直和水平偏移量U-net体系结构就是首先对初始输入特征图进行下采样,下采样之后估计下采样特征图的偏移量,一般是连续下采样两次,从特征图的最小尺度估计的偏移量并对其上采样,上采样的偏移量与相同尺度估计的偏移量融合得到更好的偏移量结果,其中M2代表采样的大小,在我们得网络中M设置为3,此处的j=1,...,P,其中该处的j代表的是卷积核的个数,W和H是生成的中间帧特征图的长和宽。
再将生成的粗糙的中间帧特征图输入到连续的动态卷积网络中自适应地采样相似的空间信息,以增强生成精确的中间帧特征图表示。具体来说可变形卷积的模型可以定义如下:
其中,x代表输入的粗糙中间帧特征图,y代表输出增强过后的中间帧特征图,k代表的是输入索引序号。W(pk),p,pk分别代表第k层卷积核的权重,中心指标和第k层偏移量。按顺序叠加可变形卷积的目的是对全局和局部位置进行采样,以便更好地聚合空间相似信息,并逐步细化粗表示。
优选地,所述重建网络的数学模型包括:
It=RN(Ft 3)
式中,It为生成的中间帧图像,RN为重建网络,Ft 3为精确的中间帧特征图。
在本实施例中,也就是图像重建步骤,重建网络的输入是由多个可变形卷积模块修复了粗糙的中间帧特征图之后输出的结果,也即精确的中间帧特征图,重建网络的输出是中间帧的图像,具体的模型如下:
It=RN(Ft 3)
其中It表示生成的中间帧图像,RN代表重建网络,Ft 3增强后得到的精确化中间帧特征图像。在视频插帧模型训练时,在图像重建后,需要对生成中间帧和真实的中间帧计算一个插值以此作为损失值的约束,具体的模型如下:
Lr=ρ(It-Igt)
其中,It和Igt分别表示生成的中间和真实的中间帧,为约束的损失函数,常数ω一般设为0.001。若训练的损失值趋于稳定时即网络模型达到稳定,则保存网络模型,停止训练;反之,若网络的损失值没有收敛,则继续训练直至收敛达到稳定。
另一方面,本申请实施例还提供了一种视频插帧方法,包括以下步骤:
将待插入中间帧的两个视频帧输入到所述视频插帧模型中,得到生成的中间帧,其中,所述视频插帧模型由执行如上述的视频插帧训练方法的步骤得到;或者,
包括以下步骤:
将待视频插帧的两个视频帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供插到输入的两个视频帧之间。
其中,在训练数据集的准备中,输入的视频帧序列不仅仅局限于输入相邻的视频帧,可以是任意间隔的两个视频帧,而且视频帧的大小并没有限制。值得注意的是,在训练过程中,输入的视频帧的数量是巨大的,一般需要裁剪处理,以降低后续的图像处理量。
在本实施例中,整个框架主要由三部分构成,即帧间信息蒸馏子网、帧内聚合子网以及特征重建子网。首先,设计帧间信息蒸馏子网是为了得到初始的插帧结果,通过金字塔非局部块建立输入框架之间的全局时空依赖关系,并引入多个注意引导融合模块来融合和提取冗余,指导合成生成粗糙的中间帧特征图。其次,采用偏移估计量和多个可变形卷积来逐步聚合生成粗糙中间帧中存在相似的空间信息,并以自参考的方式对其进行补偿和细化得到精确的中间帧特征图。最后,重建图像子网以精确的中间帧特征图作为输入,生成中间帧图像以供插设在输入的两个视频帧之间。
又一方面,本申请实施例还提供了一种视频插帧训练装置,包括:
全局时空依赖关系构建模块,其被配置为将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
中间帧生成模块,其被配置为将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
图像重构模块,其被配置为将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型。
本申请实施例提供的训练装置的实施例与上述的训练方法实施例一一对应,故而在此不再详细赘述。
本申请实施例还提供了一种电子设备,包括存储器和处理器存储器上存储有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的视频插帧训练方法的步骤;或者,
所述处理器执行所述计算机程序时实现如上述的视频插帧方法的步骤。
如图6所示,其为本申请一实施例提供的电子设备的结构示意图。所述电子设备包括:处理器和存储器;存储器中存储有计算机可执行指令;处理器,用于执行计算机可执行指令,以实现如上述的逆变器直流侧信号采集方法中的步骤。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现各个实施例的逆变器直流侧信号采集方法中的步骤以及/或者其他期望的功能。
本申请实施例还提供了一种计算机存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的视频插帧训练方法的步骤;或者,
所述计算机程序被处理器执行时实现如上述的视频插帧方法的步骤。
本申请实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。计算机可读存储介质是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
这里参照根据本申请实施例的逆变器直流侧信号采集方法、装置和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
在本申请的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种视频插帧训练方法,其特征在于,包括以下步骤:
将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型;
所述非局部神经网络的数学模型包括:
式中:表示第一帧特征图,/>表示第三帧特征图,Is表示连接后的第一帧和第三帧,f表示两个不同特征的矩阵相似的函数,P表示金字塔形式的池化操作,m表示输出位置的索引,n表示不同输入通道索引,/>θ、g表示不同通道的卷积操作;
所述″通过非局部神经网络建立输入视频帧的全局时空依赖关系″具体包括以下步骤:首先将输入网络的视频帧相连接得到Is,然后分别送入三层卷积网络中提取出图像的特征,再利用非局部神经网络建立全局依赖;
″利用非局部神经网络建立全局依赖″具体包括以下步骤:利用不同的大小的池化操作保留不同尺度的特征图像,并将他们连接,然后以金字塔形式渐进地求得提取特征图的相似性,以此来建立全局时空依赖关系。
2.如权利要求1所述的视频插帧训练方法,其特征在于,所述将第一帧特征图和第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图的具体步骤包括:
从第一帧特征图和第三帧特征图/>中分别提取到多尺度特征图/>和/>
将多尺度特征图和/>通过自适应融合模块进行融合生成粗糙的中间帧特征图/>其中,i=1、…、K,K代表不同的尺度。
3.如权利要求2所述的视频插帧训练方法,其特征在于,所述自适应融合模块的数学模型包括:
式中,{·}表示通道连接;AM0和AM1表示注意力融合模块,它们均包括两个3×3卷积层和一个sigmoid激活层;与/>大小相同,其值在[0,1]范围内;/>依次表示第K个尺度的首、尾、中间帧特征图;/>表示一个注意力融合模块后中间帧,C1(·)、C2(·)和C3(·)分别表示一个卷积层。
4.如权利要求1所述的视频插帧训练方法,其特征在于,所述可变形卷积的数学模型包括:
式中,x表示输入的粗糙的中间帧特征图,y代表输出的精确的中间帧特征图,k代表的是输入索引序号,M2代表采样的大小,W(pk)、p、pk分别代表第k层卷积核的权重、中心指标、第k层偏移量。
5.如权利要求1所述的视频插帧训练方法,其特征在于,所述重建网络的数学模型包括:
It=RN(Ft 3)
式中,It为生成的中间帧图像,RN为重建网络,Ft 3为精确的中间帧特征图。
6.一种视频插帧方法,其特征在于,包括以下步骤:
将待插入中间帧的两个视频帧输入到视频插帧模型中,得到生成的中间帧,其中,所述视频插帧模型由执行如权利要求1~5任意一项所述的视频插帧训练方法的步骤得到;或者,
包括以下步骤:
将待视频插帧的两个视频帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供插到输入的两个视频帧之间;
所述非局部神经网络的数学模型包括:
式中:表示第一帧特征图,/>表示第三帧特征图,Is表示连接后的第一帧和第三帧,f表示两个不同特征的矩阵相似的函数,P表示金字塔形式的池化操作,m表示输出位置的索引,n表示不同输入通道索引,/>θ、g表示不同通道的卷积操作;
所述″通过非局部神经网络建立输入视频帧的全局时空依赖关系″具体包括以下步骤:首先将输入网络的视频帧相连接得到Is,然后分别送入三层卷积网络中提取出图像的特征,再利用非局部神经网络建立全局依赖;
″利用非局部神经网络建立全局依赖″具体包括以下步骤:利用不同的大小的池化操作保留不同尺度的特征图像,并将他们连接,然后以金字塔形式渐进地求得提取特征图的相似性,以此来建立全局时空依赖关系。
7.一种视频插帧训练装置,其特征在于,包括:
全局时空依赖关系构建模块,其被配置为将视频中连续三个视频帧中的第一帧和第三帧连接后输入到设定的非局部神经网络中得到第一帧特征图和第三帧特征图,其中,通过非局部神经网络建立输入视频帧的全局时空依赖关系;
中间帧生成模块,其被配置为将所述第一帧特征图和所述第三帧特征图通过自适应融合模块生成粗糙的中间帧特征图,并对该粗糙的中间帧特征图进行可变形卷积得到精确的中间帧特征图;
图像重构模块,其被配置为将所述精确的中间帧特征图输入到重建网络中生成中间帧,以供确定是否停止训练并得到视频插帧模型;
所述非局部神经网络的数学模型包括:
式中:表示第一帧特征图,/>表示第三帧特征图,Is表示连接后的第一帧和第三帧,f表示两个不同特征的矩阵相似的函数,P表示金字塔形式的池化操作,m表示输出位置的索引,n表示不同输入通道索引,/>θ、g表示不同通道的卷积操作;
所述″通过非局部神经网络建立输入视频帧的全局时空依赖关系″具体包括以下步骤:首先将输入网络的视频帧相连接得到Is,然后分别送入三层卷积网络中提取出图像的特征,再利用非局部神经网络建立全局依赖;
″利用非局部神经网络建立全局依赖″具体包括以下步骤:利用不同的大小的池化操作保留不同尺度的特征图像,并将他们连接,然后以金字塔形式渐进地求得提取特征图的相似性,以此来建立全局时空依赖关系。
8.一种电子设备,包括存储器和处理器存储器上存储有在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~5任意一项所述的视频插帧训练方法的步骤;或者,
所述处理器执行所述计算机程序时实现如权利要求6所述的视频插帧方法的步骤。
9.一种计算机存储介质,该存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5任意一项所述的视频插帧训练方法的步骤;或者,
所述计算机程序被处理器执行时实现如权利要求6所述的视频插帧方法的步骤。
CN202210443435.8A 2022-04-25 2022-04-25 视频插帧方法、训练方法、装置、电子设备和存储介质 Active CN115002379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210443435.8A CN115002379B (zh) 2022-04-25 2022-04-25 视频插帧方法、训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210443435.8A CN115002379B (zh) 2022-04-25 2022-04-25 视频插帧方法、训练方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN115002379A CN115002379A (zh) 2022-09-02
CN115002379B true CN115002379B (zh) 2023-09-26

Family

ID=83025504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210443435.8A Active CN115002379B (zh) 2022-04-25 2022-04-25 视频插帧方法、训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115002379B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116389793B (zh) * 2023-02-21 2024-01-26 三亚学院 一种视频帧率提升的实现方法和装置
CN117241065B (zh) * 2023-11-14 2024-03-08 腾讯科技(深圳)有限公司 视频插帧图像生成方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110809126A (zh) * 2019-10-28 2020-02-18 北京影谱科技股份有限公司 一种基于自适应可变形卷积的视频帧插值方法及系统
CN111539884A (zh) * 2020-04-21 2020-08-14 温州大学 一种基于多注意力机制融合的神经网络视频去模糊方法
WO2020177108A1 (zh) * 2019-03-01 2020-09-10 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN111898701A (zh) * 2020-08-13 2020-11-06 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN114339409A (zh) * 2021-12-09 2022-04-12 腾讯科技(上海)有限公司 视频处理方法、装置、计算机设备及存储介质
CN114339030A (zh) * 2021-11-29 2022-04-12 北京工业大学 一种基于自适应可分离卷积的网络直播视频稳像方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177108A1 (zh) * 2019-03-01 2020-09-10 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
CN110809126A (zh) * 2019-10-28 2020-02-18 北京影谱科技股份有限公司 一种基于自适应可变形卷积的视频帧插值方法及系统
CN111539884A (zh) * 2020-04-21 2020-08-14 温州大学 一种基于多注意力机制融合的神经网络视频去模糊方法
CN111898701A (zh) * 2020-08-13 2020-11-06 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN114339030A (zh) * 2021-11-29 2022-04-12 北京工业大学 一种基于自适应可分离卷积的网络直播视频稳像方法
CN114339409A (zh) * 2021-12-09 2022-04-12 腾讯科技(上海)有限公司 视频处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN115002379A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Liu et al. Video super-resolution based on deep learning: a comprehensive survey
WO2022033048A1 (zh) 视频插帧方法、模型训练方法及对应装置
CN113034380B (zh) 基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN115002379B (zh) 视频插帧方法、训练方法、装置、电子设备和存储介质
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN111915484A (zh) 基于密集匹配与自适应融合的参考图引导超分辨率方法
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN114339030A (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法
CN116524121A (zh) 一种单目视频三维人体重建方法、系统、设备及介质
KR20220055970A (ko) 사전 정보 학습 기반 영상 업스케일링 장치 및 방법
CN113538527B (zh) 一种高效轻量级光流估计方法、存储介质及装置
CN114758282B (zh) 基于时序校正卷积的视频预测方法
CN111754561A (zh) 基于自监督深度学习的光场图像深度恢复方法及系统
CN116895037A (zh) 基于边缘信息和多尺度交叉融合网络的帧插入方法及系统
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
CN115205117B (zh) 图像重建方法及装置、计算机存储介质、电子设备
CN117011137A (zh) 基于rgb相似度特征匹配的图像拼接方法、装置及设备
CN115633216B (zh) 时域运动一致性视频生成模型的训练方法和视频生成方法
CN115115972A (zh) 视频处理方法、装置、计算机设备、介质及程序产品
CN114881849A (zh) 一种联合单目深度估计的深度图像超分辨率重建方法
Chang DR‐Net: denoising and reconstruction network for 3D human pose estimation from monocular RGB videos
Sun et al. Attention-guided video super-resolution with recurrent multi-scale spatial–temporal transformer
CN115439388B (zh) 基于多层神经表面表达的自由视点图像合成方法
Xu et al. Color Guided Depth Map Super-Resolution with Nonlocla Autoregres-Sive Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant