CN110191299B - 一种基于卷积神经网络的多重帧插值方法 - Google Patents

一种基于卷积神经网络的多重帧插值方法 Download PDF

Info

Publication number
CN110191299B
CN110191299B CN201910300915.7A CN201910300915A CN110191299B CN 110191299 B CN110191299 B CN 110191299B CN 201910300915 A CN201910300915 A CN 201910300915A CN 110191299 B CN110191299 B CN 110191299B
Authority
CN
China
Prior art keywords
frame
network
image
optical flow
flow field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910300915.7A
Other languages
English (en)
Other versions
CN110191299A (zh
Inventor
陈耀武
周橹楠
田翔
刘雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910300915.7A priority Critical patent/CN110191299B/zh
Publication of CN110191299A publication Critical patent/CN110191299A/zh
Application granted granted Critical
Publication of CN110191299B publication Critical patent/CN110191299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于卷积神经网络的多重帧插值方法,包括:(1)截取连续n帧为一个训练样本组成训练集,(2)对训练样本进行数据增强;(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络;(4)设计损失函数;(5)利用训练样本对深度卷积神经网络进行训练,获得多重帧插值模型;(6)输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。该多重帧插值方法可以处理光照变化较大的场景。

Description

一种基于卷积神经网络的多重帧插值方法
技术领域
本发明涉及视频增强领域,具体涉及一种基于卷积神经网络的多重帧插值方法。
背景技术
视频帧插值是图像视频处理领域中的一个重要问题,在许多应用中扮演重要角色,例如,帧率提升,电影制作,慢动作视频,视频编码压缩等等。帧插值属于图像合成的一个分支,典型的帧插值方法是基于光流的图像合成方法。首先估计出光流或者光流的变体形式,从而对物体运动进行建模,然后对输入图像进行扭曲变换和合成,得到新的视频帧。
传统的光流估计方法往往通过目标函数最优化的方法,在输入的两帧图像上寻找相同像素点的精确匹配,匹配像素点之间的距离就是该点的光流。由于这种方法需要在所有像素点上,对目标函数作全局最优化,计算复杂度很高,而且难以并行化计算。尽管过去的二十年中,光流法得到的长足的发展,但是在光照变化以及大运动场景下,挑战依然存在。
与显示寻找像素点匹配不同,一些基于相位的方法隐式地对运动进行建模,将物体的运动表现在单个点的像素值变化。这一类方法又被称为“欧拉方法”(参见论文S.Meyer,O.Wang,H.Zimmer,et al.,“Phase-based frame interpolation for video,”inProceeding of CVPR,1410-1418,2015)。基于相位的方法往往对与处理光照变化问题表现很好。然而,相位法由于其有限的相位变化方法,对于大运动的处理表现较差。
随着深度学习技术的发展,基于神经网络的光流估计方法的精度越来越高,同时具备较低的计算复杂度。基于神经网络的光流法分为有监督和无监督两类。前者需要大量人工标注的标签,后者只需要收集普通的视频序列,无需人工标注。无监督的光流估计实际上是将光流估计作为一个中间步骤,然后合成中间帧图像。从图像合成的角度看,这种无监督的光流估计方法同时包含光流计算和图像合成,为帧插值问题提供了一个端到端的解决方案(参见论文Z.Liu,R.A.Yeh,X.Tang,et al.,“Video Frame Synthesis Using DeepVoxel Flow.,”in Proceeding of ICCV,4473-4481,2017)。
然而,现有的基于神经网络的帧插值算法基于三元组(三个连续帧)训练,在一次前向计算中,只输出一个中间帧。考虑两个输入帧之间的连续区间,可以对多个连续中间帧统一建模,从而加强时域一致性,提高精度。另外,引入相位特征也可以处理较大亮度变化的场景。
发明内容
本发明提供了一种基于卷积神经网络的多重帧插值方法,可以同时输出多个连续的中间帧,而且引入相位特征,可以处理光照变化较大的场景。
本发明的技术方案为:
一种基于卷积神经网络的多重帧插值方法,包括以下步骤:
(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;
(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、时域重采样以及图像全局亮度线性调整处理,以实现对训练集的数据增强;
(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络;
(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;
(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;
(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
本发明的有益新效果表现为:
本发明通过对多重中间帧的时域关系显式建模,在一次前向计算中,同时输出多帧插值结果。通过相位子网络提取相位特征,结合子编码网络提取的运动特征,增加了运动表示能力。合成子网络进一步提升了插值结果的图像质量。
本发明考虑光照变化的问题,并且能够同时输出多帧插值,更加高效地实现了时域一致性强的插值结果,而且适应特殊光照条件的场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的基于卷积神经网络的多重帧插值方法的流程图;
图2为本发明提供的深度卷积神经网络的结构示意图;
图3为本发明提供的相位子网络的结构示意图;
图4为Middlebury数据集上,不同亮度调整下的图像质量对比;
图5为实际光照变化场景下的主观质量对比;
图6为UCF101数据集上的主观质量对比;
图7为动画场景Sintel序列不同运动强度下客观性能对比;
图8为随机选取的场景下多帧插值结果的主观对比。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本发明提供的基于卷积神经网络的多重帧插值方法包括以下步骤:
S101,收集连续的视频帧,构建训练样本集。
为了满足图像内物体的运动近似线性的条件,即相同时间间隔的物体运动,其位移相等,选择合适的样本,具体地,可以截取连续n帧为一个训练样本,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数。
举例说明,可以截取连续5帧作为一个训练样本,该连续5帧组成一个五元组,其中首帧和尾帧作为输入,剩下的三个中间帧作为真实数据,用于监督深度卷积神经网络训练。
S102,对样本集进行数据增强。
为了增强训练样本的多样性,对训练样本进行水平垂直翻转、旋转、随机截取方形区域、时域重采样以及图像全局亮度线性调整处理,以实现对训练集的数据增强。
具体地,采用在线数据增强的方式对训练集的数据增强,包括:
以一定的概率(例如1/2)随机水平垂直翻转帧图像、随机90度旋转帧图像;
随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;
随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本的时域重采样,这样可以消除训练集在时空域上的分布偏差;
以小于0.3的概率(例如0.2)对每个训练样本进行线性亮度调整,针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。这样模拟了亮度的均匀变化。
例如对于连续5帧(首帧、第二帧、第三帧、第四帧以及尾帧)组成的训练样本,首帧的调整率为1/5,尾帧的调整率为1,则中间帧的调整率分别为2/5、3/5、4/5,利用这三个调整率分别对第二帧、第三帧、第四帧进行亮度调整。
S103,构建深度卷积神经网络。
如图2所示,构建的深度卷积神经网络包括用于提取尾帧相对于首帧的相位差的相位子网络A,用于提取尾帧相对于首帧的运动特征的编码子网络B,用于根据相位差和运动特征生成光流场图的多端解码网络C,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络D。相位子网络A、编码子网络B以及多端解码网络C组成预测阶段,合成子网络D作为融合阶段。
其中,相位子网络主要用于提取相位特征,使深度卷积神经网络能够更好的处理亮度变化场景,如图3所示,相位子网络A包括:
特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;
具体地,特征提取模块包含以卷积层、非线性层以及平均池化层为单个特征提取单元的多个特征提取单元,输入为相邻两帧(即首帧和尾帧)3通道RGB图像,首帧和尾帧通过若干卷积层、非线性层,得到特征图,然后进过一层平均池化层,将特征尺寸减小到1/4。
四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;
本发明中,为了网络结构的一致性,金字塔结构的下采样采用平均池化层。
复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;
具体地,针对金字塔的每一层,使用复数Gabor滤波器提取相位信息,复数Gabor滤波器的公式如下:
Figure GDA0002383348850000061
其中,fω,θ=(ωcos(θ),ωsin(θ))为复数Gabor滤波器中心频率,ω与θ分别为频率值和方向,参数σ和中心频率fω,θ决定了滤波器的空域窗大小,i表示虚数单位,x表示空域坐标向量,记滤波后的复数响应的相位为
Figure GDA0002383348850000062
由于Gabor滤波器的自相似性,本发明选用一个尺度四个方向的滤波器组,对不同的金字塔层进行滤波,得到复数值响应。从一个复数可以得到幅值和相位,将每个点的相位值记为
Figure GDA0002383348850000071
相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;
具体地,相位差计算模块中,根据公式(2)获得相位差:
Figure GDA0002383348850000072
其中,atan2{·}表示四象限反正切函数,
Figure GDA0002383348850000073
表示首帧相位信息,
Figure GDA0002383348850000074
表示尾帧相位信息,
Figure GDA0002383348850000075
表示尾帧相对于首帧的相位差。本发明中,对金字塔每一层计算相位差,得到相位差金字塔。
第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差作为分别作为解码子模块四个尺度对应的输入,用于输出相位差特征图。
也就是,将四层相位差金字塔按照相同尺度与解码网络跳跃连接,这样可以将相位差金字塔每层上的相位差输入至解码网络中对应的卷积层上。
其中,编码子网络B主要用于提取输入图像的运动特征。由于物体运动信息体现在空间位置上的变化,编码子网络B通过将空间大小不断减小,通道数不断增加的方式对运动信息进行重新编码。
具体地,编码子网络为以卷积层、非线性层以及平均池化层为单个尺度的五个尺度的网络,其输入为6通道数据,用于提取输入图像的运动特征图。输入图像(首帧与尾帧)组成6通道数据输入至编码子网络中,经一个若干卷积层、非线性层的组合,以增加通道数,再通过一个平均池化层,以减小空间大小,依此重复,总共通过五个尺度(四次池化)的层叠。
其中,多端解码网络C主要用于根据相位差和运动特征生成光流场图的多端解码网络。
具体地,多端解码网络C包括:
第二解码模块,其结构与编码子网络结构对称,在相同尺寸下,采用跳跃连接(skip connect)方式连接编码子网络和第二解码模块,用于对编码子网络输出的运动特征图进行前四个尺度的复原得到运动特征图;
多端解码模块,其包含卷积层和非线性层,输入为相位子网络输出的相位差图和第二解码模块输出的运动特征图按照通道数排布形成的6通道数据,输出包括n个分支,第一个分支与最后一分支输出首帧和尾帧对应时刻的光流程图,剩下的中间分支输出中间时刻的光流场图、图像融合权重图以及光流场融合权重图。
多端解码模块主要负责最后一个尺度特征图的复原,对针对五个连续帧组成的样本,多端解码模块的输出共有5个分支,五个时刻分别为t=t0=0,t=t1=0.25,t=t2=0.5,t=t3=0.75,t=t4=1。每个分支都输出对应时刻的光流场图,并且在t1,t2,t3时刻将额外输出图像融合权重图和光流场融合权重图。这些输出在合成子网络D中均会被用到。
其中,合成子网络D主要用于对多重中间帧的运动显式建模,最后合成图像。具体地,合成子网络包括:
图像变换模块,用于针对每个中间时刻,根据光流场融合权重图和光流场图合成新光流场图,再根据光流场图、新光流场图以及图像融合权重图进行图像变换,生成2个候选帧;
具体地,利用公式(3)获得新光流场图:
Figure GDA0002383348850000081
其中,
Figure GDA0002383348850000091
为ti时刻的新光流场图,
Figure GDA0002383348850000092
分别为ti-1时刻、ti+1时刻的光流场图,
Figure GDA0002383348850000093
为ti时刻的光流场融合权重图;
利用公式(4)进行图像变换,生成2个候选帧:
Figure GDA0002383348850000094
其中,
Figure GDA0002383348850000095
为变换函数(参见文献M.Jaderberg,K.Simonyan,A.Zisserman,etal.,“Spatial Transformer Networks,”in Proceeding of NIPS,2015),
Figure GDA0002383348850000096
为ti时刻的图像融合权重图,I0为首帧,I1为尾帧,
Figure GDA0002383348850000097
Figure GDA0002383348850000098
由公式(5)和公式(6)得到:
Figure GDA0002383348850000099
Figure GDA00023833488500000910
其中,
Figure GDA00023833488500000911
为ti时刻的光流场图;
对于首帧和尾帧,利用变换函数
Figure GDA00023833488500000912
Figure GDA00023833488500000913
合成图像
Figure GDA00023833488500000914
Figure GDA00023833488500000915
对于中间时刻ti,利用公式(3)~(6)计算获得候选帧
Figure GDA00023833488500000920
Figure GDA00023833488500000921
合成模块,其包含卷积层和非线性层,针对每个中间时刻,其输入为图像变换模块输出的2个候选帧,输出的残差信号加回输入,得到中间时刻的插值图像。
根据公式(7)获得中间时刻的插值图像:
Figure GDA00023833488500000916
其中,
Figure GDA00023833488500000917
表示ti时刻的合成子网络,
Figure GDA00023833488500000918
为子合成网络的参数,
Figure GDA00023833488500000919
为ti时刻的插值图像。
S104,设计损失函数。
具体地,根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数,损失函数loss为:
Figure GDA0002383348850000101
其中,
Figure GDA0002383348850000102
表示插值图像
Figure GDA0002383348850000103
与中间帧
Figure GDA0002383348850000104
的距离,
Figure GDA0002383348850000105
表示首帧I0与合成图像
Figure GDA0002383348850000106
的距离,
Figure GDA0002383348850000107
表示尾帧I1与合成图像
Figure GDA0002383348850000108
的距离,β为调节系数,
Figure GDA0002383348850000109
表示中间帧
Figure GDA00023833488500001010
与中间帧
Figure GDA00023833488500001011
合成图像
Figure GDA00023833488500001012
的距离。
S105,训练深度卷积神经网络。
具体地,利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型。针对五元组的训练样本,以首帧和尾帧作为输入,以中间连续三帧作为输出的真实数据,端到端地训练网络,以获得多重帧插值模型。
S106,应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
总体而言,本发明通过对多重中间帧的时域关系显式建模,在一次前向计算中,同时输出多帧插值结果。通过相位子网络提取相位特征,结合编码网络提取的运动特征,增加了运动表示能力。合成子网络进一步提升了插值结果的图像质量。
图4-8给出了本发明的实验效果:评价指标有峰值信噪比(PSNR),结构相似度(SSIM),以及主观质量评估。对比的方法包括本发明方法(Ours),慢动作级联网络(SloMo)、分离卷积网络(SepConv)、深度体素流(DVF)、基于相位方法(PhaseBased)、相位网络(PhaseNet)、运动细节保留光流估计方法(MDP-Flow2)。
图4-8为本发明在不同的数据集上与其他先进方法的对比。如图4所示,在Middlebury数据集上,本发明在多个亮度调整率下都优于其他对比方法,表明本发明具有更好的针对亮度变化场景的处理能力;如图5所示,本发明在实际光照变化场景下的主观质量更好,在闪电导致的光照剧烈变化的场景下,本发明合成的插值图具有更清晰完整的前景和背景,在各个对比方法中主观质量最好;如图6所示,本发明在UCF101数据集上的主观质量更好;如图7所示,本发明在合成的动画场景Sintel序列中,本发明在多种运动强度下均优于其他方法,而且增大运动强度时,质量的下降程度小于其他方法;如图8所示,本发明在随机选取的视频场景中,评估多帧插值的主观质量,具有比其他对比方法更好的表现,这表明本发明的网络的泛化性能较好。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于卷积神经网络的多重帧插值方法,包括以下步骤:
(1)收集连续的视频帧,截取连续n帧为一个训练样本组成训练集,其中,训练样本中的首帧和尾帧作为输入,剩下中间帧作为起监督作用的输出,n为大于等于5的自然数;
(2)对训练样本进行水平垂直翻转、旋转、随机截取方形区域、随机反置时域帧顺序以及图像全局亮度线性调整处理,以实现对训练集的数据增强;
(3)构建深度卷积神经网络,包括用于提取尾帧相对于首帧的相位差的相位子网络,用于提取尾帧相对于首帧的运动特征的编码子网络,用于根据相位差和运动特征生成光流场图的多端解码网络,以及对多端解码网络的输出与首帧和尾帧进行融合输出插值图像的合成子网络,其中,所述相位子网络包括:
特征提取模块,其包括若干个依次连接的卷积层、非线性层以及平均池化层,其输入为3通道数据,用于提取并输出尺寸为输入图像的1/4的特征图;
四层金字塔结构,其输入端与特征提取模块的输出连接,且下采样采用平均池化层,用于对特征图再进行特征提取;
复数Gabor滤波器,其作用于金字塔的每层,用于提取每层特征图的相位信息;
相位差计算模块,根据复数Gabor滤波器输出的首帧对应的相位信息和尾帧对应的相位信息,计算尾帧相对于首帧的相位差;
第一解码模块,其为以卷积层、非线性层以及双线性上采样层为单个尺度的四个尺度的网络,以金字塔四层上的相位差分别作为第一解码模块四个尺度对应的输入,用于输出相位差特征图;
编码子网络为以卷积层、非线性层以及平均池化层为单个尺度的五个尺度的网络,其输入为6通道数据,用于提取输入图像的运动特征图;
多端解码网络包括:
第二解码模块,其结构与编码子网络结构对称,在相同尺寸下,采用跳跃连接方式连接编码子网络和第二解码模块,用于对编码子网络输出的运动特征图进行前四个尺度的复原得到运动特征图;
多端解码模块,其包含卷积层和非线性层,输入为相位子网络输出的相位差图和第二解码模块输出的运动特征图按照通道数排布形成的6通道数据,输出包括n个分支,第一个分支与最后一分支输出首帧和尾帧对应时刻的光流场图,剩下的中间分支输出中间时刻的光流场图、图像融合权重图以及光流场融合权重图;
合成子网络包括:
图像变换模块,用于针对每个中间时刻,根据光流场融合权重图和光流场图合成新光流场图,再根据光流场图、新光流场图以及图像融合权重图进行图像变换,生成2个候选帧;
合成模块,其包含卷积层和非线性层,针对每个中间时刻,其输入为图像变换模块输出的2个候选帧,输出的残差信号加回输入,得到中间时刻的插值图像;
(4)根据深度卷积神经网络的预测输出的插值图像与训练样本中的中间帧的差异设计损失函数;
(5)利用步骤(1)和步骤(2)获得的训练样本对所述深度卷积神经网络进行训练,当网络参数确定时获得多重帧插值模型;
(6)应用时,输入连续的两帧图像至多重帧插值模型,经计算输出两帧图像之间的插值帧图像。
2.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,步骤(2)中,采用在线数据增强的方式对训练集的数据增强,包括:
以一定的概率随机水平垂直翻转帧图像、随机90度旋转帧图像;
随机在每帧图像上截取方形小区域作为深度卷积神经网络的输入图像;
随机反置每个训练样本中连续n帧图像的顺序,以实现对训练样本在运动方向上的数据平衡;
针对需要进行线性亮度调整的训练样本,在一定范围内按照均匀分布选取两个调整率,应用于首帧、尾帧的亮度调整,在首帧和尾帧对应的调整率之间按照均匀的线性比例选取调整率对相应的中间帧进行亮度调整。
3.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,复数Gabor滤波器的公式如下:
Figure FDA0002443815380000031
其中,fω,θ=(ωcos(θ),ωsin(θ))为复数Gabor滤波器中心频率,ω与θ分别为频率值和方向,参数σ和中心频率fω,θ决定了滤波器的空域窗大小,i表示虚数单位,x表示空域坐标向量,记滤波后的复数响应的相位为
Figure FDA0002443815380000032
相位差计算模块中,根据公式(2)获得相位差:
Figure FDA0002443815380000033
其中,atan2{·}表示四象限反正切函数,
Figure FDA0002443815380000041
表示首帧相位信息,
Figure FDA0002443815380000042
表示尾帧相位信息,
Figure FDA0002443815380000043
表示尾帧相对于首帧的相位差。
4.如权利要求1所述的基于卷积神经网络的多重帧插值方法,其特征在于,利用公式(3)获得新光流场图:
Figure FDA0002443815380000044
其中,
Figure FDA0002443815380000045
为ti时刻的新光流场图,
Figure FDA0002443815380000046
分别为ti-1时刻、ti+1时刻的光流场图,
Figure FDA0002443815380000047
为ti时刻的光流场融合权重图;
利用公式(4)进行图像变换,生成2个候选帧:
Figure FDA0002443815380000048
其中,
Figure FDA0002443815380000049
为变换函数,
Figure FDA00024438153800000410
为ti时刻的图像融合权重图,I0为首帧,I1为尾帧,
Figure FDA00024438153800000411
Figure FDA00024438153800000412
由公式(5)和公式(6)得到:
Figure FDA00024438153800000413
Figure FDA00024438153800000414
其中,
Figure FDA00024438153800000415
为ti时刻的光流场图;
对于首帧和尾帧,利用变换函数
Figure FDA00024438153800000416
Figure FDA00024438153800000417
合成图像
Figure FDA00024438153800000418
Figure FDA00024438153800000419
对于中间时刻ti,利用公式(3)~(6)计算获得候选帧
Figure FDA00024438153800000420
Figure FDA00024438153800000421
合成模块中,根据公式(7)获得中间时刻的插值图像:
Figure FDA0002443815380000051
其中,
Figure FDA0002443815380000052
表示ti时刻的合成子网络,
Figure FDA0002443815380000053
为子合成网络的参数,
Figure FDA0002443815380000054
为ti时刻的插值图像。
5.如权利要求4所述的基于卷积神经网络的多重帧插值方法,其特征在于,损失函数loss为:
Figure FDA0002443815380000055
其中,
Figure FDA0002443815380000056
表示插值图像
Figure FDA0002443815380000057
与中间帧
Figure FDA0002443815380000058
的距离,
Figure FDA0002443815380000059
表示首帧I0与合成图像
Figure FDA00024438153800000510
的距离,
Figure FDA00024438153800000511
表示尾帧I1与合成图像
Figure FDA00024438153800000512
的距离,β为调节系数,
Figure FDA00024438153800000513
表示中间帧
Figure FDA00024438153800000514
与中间帧
Figure FDA00024438153800000515
合成图像
Figure FDA00024438153800000516
的距离。
CN201910300915.7A 2019-04-15 2019-04-15 一种基于卷积神经网络的多重帧插值方法 Active CN110191299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910300915.7A CN110191299B (zh) 2019-04-15 2019-04-15 一种基于卷积神经网络的多重帧插值方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910300915.7A CN110191299B (zh) 2019-04-15 2019-04-15 一种基于卷积神经网络的多重帧插值方法

Publications (2)

Publication Number Publication Date
CN110191299A CN110191299A (zh) 2019-08-30
CN110191299B true CN110191299B (zh) 2020-08-04

Family

ID=67714536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910300915.7A Active CN110191299B (zh) 2019-04-15 2019-04-15 一种基于卷积神经网络的多重帧插值方法

Country Status (1)

Country Link
CN (1) CN110191299B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110677651A (zh) * 2019-09-02 2020-01-10 合肥图鸭信息科技有限公司 一种视频压缩方法
CN110798630B (zh) * 2019-10-30 2020-12-29 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110753225A (zh) * 2019-11-01 2020-02-04 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备
CN111292369B (zh) * 2020-03-10 2023-04-28 中车青岛四方车辆研究所有限公司 激光雷达的伪点云数据生成方法
US11689693B2 (en) 2020-04-30 2023-06-27 Boe Technology Group Co., Ltd. Video frame interpolation method and device, computer readable storage medium
CN111898701B (zh) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
RU2764395C1 (ru) 2020-11-23 2022-01-17 Самсунг Электроникс Ко., Лтд. Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети
CN113034380B (zh) * 2021-02-09 2022-06-10 浙江大学 基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN113205148B (zh) * 2021-05-20 2022-10-11 山东财经大学 一种迭代层间信息融合的医学图像帧插值方法及终端机
CN113382247B (zh) * 2021-06-09 2022-10-18 西安电子科技大学 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
CN113469337B (zh) * 2021-06-29 2024-04-05 上海寒武纪信息科技有限公司 用于优化神经网络模型的编译方法及其相关产品
CN113709483B (zh) * 2021-07-08 2024-04-19 杭州微帧信息科技有限公司 一种插值滤波器系数自适应生成方法及装置
CN113935537A (zh) * 2021-10-22 2022-01-14 北京华云星地通科技有限公司 一种基于深度学习的云图内插预测方法及系统
CN113870422B (zh) * 2021-11-30 2022-02-08 华中科技大学 一种点云重建方法、装置、设备及介质
CN114640885B (zh) * 2022-02-24 2023-12-22 影石创新科技股份有限公司 视频插帧方法、训练方法、装置和电子设备
CN115118974A (zh) * 2022-06-22 2022-09-27 清华大学 视频生成方法、装置、系统、电子设备以及可读存储介质
CN115661724B (zh) * 2022-12-12 2023-03-28 内江师范学院 一种适用于连续帧序列单应性变换的网络模型及训练方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101780057B1 (ko) * 2016-08-02 2017-09-19 한양대학교 에리카산학협력단 고해상도 영상 복원 방법 및 장치
CN108830812B (zh) * 2018-06-12 2021-08-31 福建帝视信息科技有限公司 一种基于网格结构深度学习的视频高帧率重制方法
CN109151474B (zh) * 2018-08-23 2020-10-30 复旦大学 一种生成新视频帧的方法
CN109068174B (zh) * 2018-09-12 2019-12-27 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109379550B (zh) * 2018-09-12 2020-04-17 上海交通大学 基于卷积神经网络的视频帧率上变换方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Also Published As

Publication number Publication date
CN110191299A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110191299B (zh) 一种基于卷积神经网络的多重帧插值方法
Liu et al. A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution
Wang et al. Esrgan: Enhanced super-resolution generative adversarial networks
Shi et al. Video frame interpolation via generalized deformable convolution
Liu et al. Learning temporal dynamics for video super-resolution: A deep learning approach
CN109151474B (zh) 一种生成新视频帧的方法
Liu et al. Robust video super-resolution with learned temporal dynamics
Zhang et al. CCR: Clustering and collaborative representation for fast single image super-resolution
CN110197468A (zh) 一种基于多尺度残差学习网络的单图像超分辨重建算法
Li et al. Dual-stage approach toward hyperspectral image super-resolution
CN103824272B (zh) 基于k近邻重识别的人脸超分辨率重建方法
CN108537733A (zh) 基于多路径深度卷积神经网络的超分辨率重建方法
Guo et al. Isdnet: Integrating shallow and deep networks for efficient ultra-high resolution segmentation
Singla et al. A review on Single Image Super Resolution techniques using generative adversarial network
CN112837224A (zh) 一种基于卷积神经网络的超分辨率图像重建方法
Zou et al. Crowd counting via hierarchical scale recalibration network
CN110381268A (zh) 生成视频的方法,装置,存储介质及电子设备
CN108171656A (zh) 基于稀疏表示的自适应全局字典遥感图像超分辨方法
Gendy et al. Lightweight image super-resolution based on deep learning: State-of-the-art and future directions
CN114187214A (zh) 一种红外与可见光图像融合系统及方法
Pu et al. Removing rain based on a cycle generative adversarial network
Lin et al. Smnet: Synchronous multi-scale low light enhancement network with local and global concern
Li et al. D2c-sr: A divergence to convergence approach for real-world image super-resolution
CN109087247A (zh) 一种对立体图像进行超分的方法
Hong et al. Image interpolation using interpolative classified vector quantization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant