CN108830812B - 一种基于网格结构深度学习的视频高帧率重制方法 - Google Patents

一种基于网格结构深度学习的视频高帧率重制方法 Download PDF

Info

Publication number
CN108830812B
CN108830812B CN201810601639.3A CN201810601639A CN108830812B CN 108830812 B CN108830812 B CN 108830812B CN 201810601639 A CN201810601639 A CN 201810601639A CN 108830812 B CN108830812 B CN 108830812B
Authority
CN
China
Prior art keywords
convolution
transverse
group
convolution group
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810601639.3A
Other languages
English (en)
Other versions
CN108830812A (zh
Inventor
刘文哲
李�根
童同
高钦泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Imperial Vision Information Technology Co ltd
Original Assignee
Fujian Imperial Vision Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Imperial Vision Information Technology Co ltd filed Critical Fujian Imperial Vision Information Technology Co ltd
Priority to CN201810601639.3A priority Critical patent/CN108830812B/zh
Publication of CN108830812A publication Critical patent/CN108830812A/zh
Application granted granted Critical
Publication of CN108830812B publication Critical patent/CN108830812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于网格结构深度学习的视频高帧率重制方法,采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。本发明的方法比现有的技术都更加鲁棒。为了进一步提高三维像素流的精度和高帧率重制的效果,本发明提出了一种卷积特征提取层与网格网络结构组合的方式。采用本发明的方法得到的高帧率重制的结果比其他现有技术,在合成帧的细节纹理更加细腻真实。

Description

一种基于网格结构深度学习的视频高帧率重制方法
技术领域
本发明涉及视频高帧率重制领域,尤其涉及一种基于网格结构深度学习的视频高帧率重制方法。
背景技术
视频高帧率重制是利用视频序列中的相邻帧的视频图像信息来估计其中间的关键帧,属于一个经典的图像处理问题。一般来说,视频高帧率重制算法可分为内插帧和外插帧。前者是利用连续两帧图像的信息来估计中间的关键帧;后者是利用视频序列中连续两帧视频图像信息来估计前一帧或者后一帧。
根据视频序列中的连续的视频图像信息,视频高帧率重制算法是合理地利用视频图像内容变化连续性和线性或非线性关系,估计出其中间的关键视频图像的方法。随着相关研究的深入进行,该算法已被广泛地应用于多个场景之中。比如,为了降低视频传输的数据量和节约带宽,可以先在传输前端有效地丢弃视频图像,随后在接收终端设备利用视频高帧率重制算法生成其对应的丢失帧,从而播放时达到比较流畅的视频画面。另外,因拍摄设备的硬件性能的限制,无法正常地拍摄运动量过于快的运动场景,从而导致视频图像失真或者模糊。因此,很多视频编辑软件将把产生运动模糊的视频图像进行高帧率重制的方式去除运动模糊,也能制作视频慢动作特效。
传统的视频高帧率重制算法通常先利用视频图像间的光流估计,然后利用光流变化信息对前、后帧视频图像进行扭曲变换,从而得到合成帧。Amersfoort J V等人提出了一种基于多尺度粗细光流估计网络的视频高帧率重制算法。通过该算法是合成效果依赖于光流估计的准确精度[1]。一般情况下,在运动量比较大的场景中,很难提高光流估计的精准。为了减少光流的估计影响,Niklaus S等人提出了利用多个空域自适应卷积核对输入视频帧进行卷积操作,进而合成出中间帧[2]的方法,该算法简化了高帧率重制的计算过程。虽然该算法提高了高帧率重制算法的性能,但是捕捉大运动量的信息需要较大的卷积核,因此,需要更大的内存空间。Mathieu M等人提出了一种基于多尺度卷积神经网络的端对端高帧率重制算法[3]。Liu Z等人提出了一种基于编码器-解码器网络结构估计时间和空间的三维像素流信息,然后通过该像素流对视频图像进行重采样获得更加自然的中间帧[4]
虽然相关研究已经能够较好地对视频进行高帧率重制,但是还是存在一些问题。基于光流估计的高帧率重制算法对于具有运动模糊,快速运动的视频场景,很难估计到一个很精确的光流。此外,空域自适应卷积法对于具有遮挡物的视频场景,其表现性能不尽如人意,其合成结果通常会是模糊和错乱的。
由于利用编码器-解码器网络结构估计到的三维像素流不够精准,本发明借鉴了Fourure D等人网格网络的思想[6],提出了一个基于网格网络结构的三维像素流的估计方法。网格网络的结构能够使得不同分辨率的信息流相互连接,更好地学习不同尺度下的运动情况,从而得到一个更精准的三维像素流。
发明内容
本发明的目的在于提供一种基于网格结构深度学习的视频高帧率重制方法,显著的提高了合成帧的质量和效果。
本发明采用的技术方案是:
一种基于网格结构深度学习的视频高帧率重制方法,其包括如下步骤:
步骤1,把原始的图像先统一设置为H*W的大小,然后将图像归一化到[-1,1]区间内,最终形成包含N个图像的配对集
Figure BDA0001693214430000021
其中c∈{1,2,…,N},H为图像高度,W为图像宽度,
Figure BDA0001693214430000022
Figure BDA0001693214430000023
分别是t时刻的前一帧和后一帧,
Figure BDA0001693214430000024
是t时刻的当前帧。
步骤2,将图像
Figure BDA0001693214430000025
Figure BDA0001693214430000026
分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段,最终获得一帧和
Figure BDA0001693214430000027
类似的图像;
所述步骤2具体包括以下步骤:
步骤2.1,初始阶段:将输入的图像
Figure BDA0001693214430000028
Figure BDA0001693214430000029
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure BDA00016932144300000210
Figure BDA00016932144300000211
其计算公式是:
Figure BDA00016932144300000212
其中W1和b1分别是本发明的第一层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;
步骤2.2,特征提取阶段:将初始阶段得到的特征
Figure BDA00016932144300000213
Figure BDA00016932144300000214
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure BDA00016932144300000215
Figure BDA00016932144300000216
其计算公式是:
Figure BDA00016932144300000217
其中W2和b2分别是本发明的第二层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;
步骤2.3,特征融合阶段:将特征提取阶段得到的两个特征
Figure BDA00016932144300000218
Figure BDA00016932144300000219
进行1次堆叠操作,其计算公式是:
Figure BDA00016932144300000220
步骤2.4,三维像素流估计阶段:将融合特征F3作为输入特征Fi输入到网格网络中进行三维像素流估计,输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V;其计算公式如下:
V=G(Fi) (10)
其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络;
进一步地,网格网络包括一输入横向卷积组、一输出横向卷积组、第一横向卷积组群、第二横向卷积组群和第三横向卷积组群,输入横向卷积组的输出端连接第一横向卷积组群的输入端,第一横向卷积组群的输出端连接输出横向卷积组,第一横向卷积组群、第二横向卷积组群和第三横向卷积组群均包括依次连接的5个横向卷积组,第一横向卷积组群的前三个横向卷积组的输入端分别通过依次连接的两个下采样卷积组一一对应输出至第三横向卷积组群的前三个横向卷积组的输入端,第三横向卷积组群的后三个横向卷积组的输出端分别各自通过依次连接的两个上采样卷积组一一对应输出至第一横向卷积组群的后三个横向卷积组的输出端,联通第一横向卷积组群的第一个横向卷积组输入端和第三横向卷积组群的第一个横向卷积组输入端的第一个下采样卷积组的输出端与第二横向卷积组群的输入端连接,联通第三横向卷积组群的最后一个横向卷积组输出端和第一横向卷积组群的最后一个横向卷积组输出端的第一个上采样卷积组的输出端与第二横向卷积组群的输出端连接。
进一步地,步骤2.4具体包括以下步骤:
步骤2.4.1,横向卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Gi+1,其计算公式是:
Figure BDA0001693214430000031
Figure BDA0001693214430000032
其中
Figure BDA0001693214430000033
Figure BDA0001693214430000034
分别是横向卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure BDA0001693214430000035
Figure BDA0001693214430000036
分别是横向卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.2,上采样卷积组操作:将输入特征Fi进行1次双线性插值,2次激活函数运算和2次卷积运算,得到其对应的输出结果Ri+2,其计算公式是:
Ri=f(Fi) (6)
Figure BDA0001693214430000037
Figure BDA0001693214430000038
其中f是双线性插值,
Figure BDA0001693214430000041
Figure BDA0001693214430000042
分别是上采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure BDA0001693214430000043
Figure BDA0001693214430000044
分别是上采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.3,下采样卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Si+1,其计算公式是:
Figure BDA0001693214430000045
Figure BDA0001693214430000046
其中
Figure BDA0001693214430000047
Figure BDA0001693214430000048
分别是下采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数(其中卷积的步长为2),
Figure BDA0001693214430000049
Figure BDA00016932144300000410
分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.4,网格网络操作:输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V。横向卷积组、下采样卷积组和上采样卷积组的操作如图2所示,最终呈现的是一个网格的结构。计算公式如下:
V=G(Fi) (11)
其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络。
步骤2.5,重采样阶段:用三维像素流估计阶段得到的像素流V(V={Δx,Δy,Δz})对输入图像
Figure BDA00016932144300000411
Figure BDA00016932144300000412
进行重采样,得到插值的图像
Figure BDA00016932144300000413
其计算公式是:
Figure BDA00016932144300000414
Figure BDA00016932144300000415
Figure BDA00016932144300000416
Figure BDA00016932144300000417
其中,
Figure BDA00016932144300000418
代表图像
Figure BDA00016932144300000427
像素的x坐标,
Figure BDA00016932144300000419
代表图像
Figure BDA00016932144300000420
像素的y坐标,L代表的是双线性采样。
步骤3,将插值的图像
Figure BDA00016932144300000421
与真实的图像
Figure BDA00016932144300000422
进行比较,计算两幅图像之间的欧式距离;
步骤4,基于计算的欧式距离不断更新并优化获得最优的卷积权值参数和偏置参数;
当插值的图像
Figure BDA00016932144300000423
与其对应的原始图像
Figure BDA00016932144300000424
进行比较时没有获得预先设定的合成效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤2-3;
当插值的图像
Figure BDA00016932144300000425
与其对应的原始图像
Figure BDA00016932144300000426
进行比较时已经获得预先设定的合成效果时,则停止反向传播,并最终求得步骤2所获得的卷积权值参数和偏置参数。
本发明采用以上技术方案,采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。本发明的方法比现有的技术都更加鲁棒。为了进一步提高三维像素流的精度和高帧率重制的效果,本发明提出了一种卷积特征提取层与网格网络结构组合的方式。采用本发明的方法得到的高帧率重制的结果比其他现有技术,在合成帧的细节纹理更加细腻真实。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于网格结构深度学习的视频高帧率重制方法的原理示意图;
图2为本发明与现有视频高帧率重制技术在小运动量视频上处理的效果比较图;
图3为本发明与现有视频高帧率重制技术在中运动量视频上处理的效果比较图;
图4为本发明与现有视频高帧率重制技术在大运动量视频上处理的效果比较图。
具体实施方式
如图1-4之一所示,本发明公开了一种基于网格结构深度学习的视频高帧率重制方法,其分为以下几个步骤:
步骤0,训练数据库的图像挑选。本专利的训练数据集是采用UCF-101动作数据集[5],其涵盖了大约1万多个动作视频。我们将视频进行随机采样,选择高质量的并且具有明显运动量的视频帧(本发明的选择标准是认为PSNR大于35的为高质量图像)。最终选取24000组视频帧,每组由连续的三个图像组成。
步骤1,训练数据库的制作,将挑选好的训练数据的图像大小进行重新设置。把原始的图像先统一设置为H*W的大小,然后将图像归一化到[-1,1]区间内,最终形成包含N个图像的配对集
Figure BDA0001693214430000051
其中c∈{1,2,…,N},H为图像高度,W为图像宽度,
Figure BDA0001693214430000052
Figure BDA0001693214430000053
分别是t时刻的前一帧和后一帧,
Figure BDA0001693214430000054
是t时刻的当前帧。
具体地,将图像高度H和图像宽度W统一设置为256*256的大小。
步骤2,将图像
Figure BDA0001693214430000055
Figure BDA0001693214430000056
分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段,最终获得一帧和
Figure BDA0001693214430000057
类似的图像;
所述步骤2具体包括以下步骤:
步骤2.1,初始阶段:将输入的图像
Figure BDA0001693214430000058
Figure BDA0001693214430000059
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure BDA00016932144300000510
Figure BDA00016932144300000511
其计算公式是:
Figure BDA00016932144300000512
其中W1和b1分别是本发明的第一层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;这里的β是使用同一参数,一旦确定,皆使用这个值。
步骤2.2,特征提取阶段:将初始阶段得到的特征
Figure BDA00016932144300000513
Figure BDA00016932144300000514
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure BDA0001693214430000061
Figure BDA0001693214430000062
其计算公式是:
Figure BDA0001693214430000063
其中W2和b2分别是本发明的第二层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;
步骤2.3,特征融合阶段:将特征提取阶段得到的两个特征
Figure BDA0001693214430000064
Figure BDA0001693214430000065
进行1次堆叠操作,其计算公式是:
Figure BDA0001693214430000066
步骤2.4,三维像素流估计阶段:将融合的特征输入到网格网络中,其具体步骤如下:
步骤2.4.1,横向卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Gi+1,其计算公式是:
Figure BDA0001693214430000067
Figure BDA0001693214430000068
其中
Figure BDA0001693214430000069
Figure BDA00016932144300000610
分别是横向卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure BDA00016932144300000611
Figure BDA00016932144300000612
分别是横向卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.2,上采样卷积组操作:将输入特征Fi进行1次双线性插值,2次激活函数运算和2次卷积运算,得到其对应的输出结果Ri+2,其计算公式是:
Ri=f(Fi) (6)
Figure BDA00016932144300000613
Figure BDA00016932144300000614
其中f是双线性插值,
Figure BDA00016932144300000615
Figure BDA00016932144300000616
分别是上采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure BDA00016932144300000617
Figure BDA00016932144300000618
分别是上采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.3,下采样卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Si+1,其计算公式是:
Figure BDA00016932144300000619
Figure BDA00016932144300000620
其中
Figure BDA00016932144300000621
Figure BDA00016932144300000622
分别是下采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数(其中卷积的步长为2),
Figure BDA00016932144300000623
Figure BDA00016932144300000624
分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;这里的β是使用同一参数,一旦确定,皆使用这个值。
步骤2.4.4,网格网络操作:输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V。横向卷积组、下采样卷积组和上采样卷积组的操作如图2所示,最终呈现的是一个网格的结构。计算公式如下:
V=G(Fi) (10)
其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络。
步骤2.5,重采样阶段:用三维像素流估计阶段得到的像素流V(V={Δx,Δy,Δz})对输入图像
Figure BDA0001693214430000071
Figure BDA0001693214430000072
进行重采样,得到插值的图像
Figure BDA0001693214430000073
其计算公式是:
Figure BDA0001693214430000074
Figure BDA0001693214430000075
Figure BDA0001693214430000076
Figure BDA0001693214430000077
其中,
Figure BDA0001693214430000078
代表图像
Figure BDA0001693214430000079
像素的x坐标,
Figure BDA00016932144300000710
代表图像
Figure BDA00016932144300000711
像素的y坐标,L代表的是双线性采样。
步骤3,将插值的图像
Figure BDA00016932144300000712
与真实的图像
Figure BDA00016932144300000713
进行比较,计算两幅图像之间的欧式距离;
步骤4,基于计算的欧式距离不断更新并优化获得最优的卷积权值参数和偏置参数;
当插值的图像
Figure BDA00016932144300000714
与其对应的原始图像
Figure BDA00016932144300000715
进行比较时没有获得预先设定的合成效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤2-3;
当插值的图像
Figure BDA00016932144300000716
与其对应的原始图像
Figure BDA00016932144300000717
进行比较时已经获得预先设定的合成效果时,则停止反向传播,并最终求得步骤2所获得的卷积权值参数和偏置参数。
为了验证本发明的有效性,采用UCF-101动作数据集[5]进行实验。该测试数据集包含400组图像对。本发明得到的视频高帧率重制效果与一些现有最新技术VoxelFlow[4]进行比较。
本发明采用峰值信噪比(PSNR:Peak Signal to Noise Ratio)来衡量视频高帧率重制的性能。
高帧率重制算法 VoxelFlow 本发明(无特征提取层) 本发明
PSNR 36.071 36.152 36.261
表1本发明与现有技术在UCF-101测试数据集的PSNR平均值比较
从表1中可以看出,本发明比现有技术中VoxelFlow的PSNR值提高了将近0.2dB。另外,从表1的最后两列可以看出,本发明采用的特征层面的融合方法比直接在原图像上融合的方法能估计提高了0.11dB。
从图2-4之一所示,的高帧率重制效果图也可以得出和表1的PSNR值所反映出来的一样的结论。图2展示的是三种算法在小运动量视频上处理后的效果图,由局部细节放大图可以看出,这三种方法对于小运动量的视频都能有较好的处理结果,但是从细节可以看出,本发明处理的效果更接近于原始中间帧的细节。图3展示的是三种算法在中运动量视频上处理后的效果图,
VoxelFlow对于中运动量的视频三维像素流估计不精准,因此导致合成的中间帧在运动细节上和真实中间帧有较大的出入。利用原始像素值进行估计三维像素流的效果不如利用高维卷积特征进行估计的效果来得好。通过卷积特征估计到的三维像素流合成出的结果在边缘轮廓上和真实中间帧的边缘轮廓更加相似,而利用原始像素值估计到的三维像素流合成的结果会出现一些模糊和多余的轮廓。图4展示的是三种算法在大运动量视频上处理后的效果图,Voxel Flow的方法无法胜任此类视频的操作,由图4可以看出,重制后的中间帧出现明显的失真现象;同时,采用本发明的无特征融合估计的三维像素流方法也会出现轻微模糊的现象。但是,基于卷积特征估计的三维像素流的方法在大运动量的视频上仍能得到与原始中间帧类似的结果。通过以上分析可以发现,本发明在存在不同尺度运动量的视频上都能够取得较为理想的重制效果。
本发明提出的基于网格结构深度学习的视频高帧率重制方法的创新性主要体现在两个方面:第一,本发明采用网格结构的方式估计到的三维像素流能够在各种运动量的运动场景中得到较为精准的结果。通过实验证明,本发明的方法比现有的技术都更加鲁棒。第二,为了进一步提高三维像素流的精度和高帧率重制的效果,本发明提出了一种卷积特征提取层与网格网络结构组合的方式。通过实验证明,采用本发明的方法得到的高帧率重制的结果比其他现有技术,在合成帧的细节纹理更加细腻真实。
[1]Amersfoort J V,Shi W,Acosta A,et al.Frame Interpolation withMulti-Scale Deep Loss Functions and Generative Adversarial Networks[J].2017.
[2]Niklaus S,Mai L,Liu F.Video Frame Interpolation via AdaptiveConvolution[J].2017:2270-2279.
[3]Mathieu M,Couprie C,Lecun Y.Deep multi-scale video predictionbeyond mean square error[C]//ICLR.2016.
[4]Liu Z,Yeh R A,Tang X,et al.Video Frame Synthesis Using Deep VoxelFlow[C]//IEEE International Conference on Computer Vision.IEEE ComputerSociety,2017:4473-4481.
[5]Soomro K,Zamir A R,Shah M.UCF101:A Dataset of 101Human ActionsClasses From Videos in The Wild[J].Computer Science,2012.
[6]Fourure D,Emonet R,Fromont E,et al.Residual Conv-Deconv GridNetwork for Semantic Segmentation[J].2017.

Claims (4)

1.一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:其包括如下步骤:
步骤1,把原始的图像先统一设置为H*W的大小,然后将图像归一化到[-1,1]区间内,最终形成包含N个图像的配对集
Figure FDA0003164634210000011
其中c∈{1,2,…,N},H为图像高度,W为图像宽度,
Figure FDA0003164634210000012
Figure FDA0003164634210000013
分别是t时刻的前一帧和后一帧,
Figure FDA0003164634210000014
是t时刻的当前帧;
步骤2,将图像
Figure FDA0003164634210000015
Figure FDA0003164634210000016
分别执行初始阶段、特征提取阶段、特征融合阶段、三维像素流估计阶段、重采样阶段,获得一帧
Figure FDA0003164634210000017
的插值图像
Figure FDA0003164634210000018
所述步骤2具体包括以下步骤:
步骤2.1,初始阶段:将输入的图像
Figure FDA0003164634210000019
Figure FDA00031646342100000110
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure FDA00031646342100000111
Figure FDA00031646342100000112
其计算公式是:
Figure FDA00031646342100000113
其中W1和b1分别是第一层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;
步骤2.2,特征提取阶段:将初始阶段得到的特征
Figure FDA00031646342100000114
Figure FDA00031646342100000115
分别进行1次卷积运算和1次激活函数运算得到其对应的输出特征结果
Figure FDA00031646342100000116
Figure FDA00031646342100000117
其计算公式是:
Figure FDA00031646342100000118
其中W2和b2分别是第二层网络的卷积权值参数和偏置参数,β是激活函数的调整系数;
步骤2.3,特征融合阶段:将特征提取阶段得到的两个特征
Figure FDA00031646342100000119
Figure FDA00031646342100000120
进行1次堆叠操作得到融合特征F3,其计算公式是:
Figure FDA00031646342100000121
步骤2.4,三维像素流估计阶段:将融合特征F3作为输入特征Fi输入到网格网络中进行三维像素流估计,网格网络包括一输入横向卷积组、一输出横向卷积组、第一横向卷积组群、第二横向卷积组群和第三横向卷积组群,输入横向卷积组的输出端连接第一横向卷积组群的输入端,第一横向卷积组群的输出端连接输出横向卷积组,第一横向卷积组群、第二横向卷积组群和第三横向卷积组群均包括依次连接的5个横向卷积组,第一横向卷积组群的前三个横向卷积组的输入端分别通过依次连接的两个下采样卷积组一一对应输出至第三横向卷积组群的前三个横向卷积组的输入端,第三横向卷积组群的后三个横向卷积组的输出端分别各自通过依次连接的两个上采样卷积组一一对应输出至第一横向卷积组群的后三个横向卷积组的输出端,联通第一横向卷积组群的第一个横向卷积组输入端和第三横向卷积组群的第一个横向卷积组输入端的第一个下采样卷积组的输出端与第二横向卷积组群的输入端连接,联通第三横向卷积组群的最后一个横向卷积组输出端和第一横向卷积组群的最后一个横向卷积组输出端的第一个上采样卷积组的输出端与第二横向卷积组群的输出端连接;输入特征Fi经过17次横向卷积组操作、6次下采样卷积组操作和6次上采样卷积组操作后,得到估计到的三维像素流V;其计算公式如下:
V=G(Fi) (10)
其中G代表的是横向卷积组操作、下采样卷积组操作和上采样卷积组操作组成的网格网络;
步骤2.5,重采样阶段:用三维像素流估计阶段得到的像素流V,V={Δx,Δy,Δz};对输入图像
Figure FDA0003164634210000021
Figure FDA0003164634210000022
进行重采样,得到插值的图像
Figure FDA0003164634210000023
其计算公式是:
Figure FDA0003164634210000024
Figure FDA0003164634210000025
Figure FDA0003164634210000026
Figure FDA0003164634210000027
其中,
Figure FDA0003164634210000028
代表图像
Figure FDA0003164634210000029
像素的x坐标,
Figure FDA00031646342100000210
代表图像
Figure FDA00031646342100000211
像素的y坐标,L代表的是双线性采样;
步骤3,将插值的图像
Figure FDA00031646342100000212
与真实的图像
Figure FDA00031646342100000213
进行比较,计算两幅图像之间的欧式距离;
步骤4,基于计算的欧式距离不断更新并优化获得最优的卷积权值参数和偏置参数;
当插值的图像
Figure FDA00031646342100000214
与其对应的原始图像
Figure FDA00031646342100000215
进行比较时没有获得预先设定的合成效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤2-步骤3;
当插值的图像
Figure FDA00031646342100000216
与其对应的原始图像
Figure FDA00031646342100000217
进行比较时已经获得预先设定的合成效果时,则停止反向传播,并最终求得步骤2所获得的卷积权值参数和偏置参数。
2.根据权利要求1所述的一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:步骤1之前还包括:
步骤0,训练数据库的图像挑选;采用UCF-101动作数据集,将UCF-101动作数据集涵盖的动作视频进行随机采样,选择高质量的并且具有明显运动量的视频帧,选取24000组视频帧,每组由连续的三个图像组成。
3.根据权利要求2所述的一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:步骤0中视频帧的选择标准是选取PSNR大于35的高质量图像。
4.根据权利要求1所述的一种基于网格结构深度学习的视频高帧率重制方法,其特征在于:步骤2.4具体包括以下步骤:
步骤2.4.1,横向卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Gi+1,其计算公式是:
Figure FDA00031646342100000218
Figure FDA00031646342100000219
其中
Figure FDA0003164634210000031
Figure FDA0003164634210000032
分别是横向卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure FDA0003164634210000033
Figure FDA0003164634210000034
分别是横向卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.2,上采样卷积组操作:将输入特征Fi进行1次双线性插值,2次激活函数运算和2次卷积运算,得到其对应的输出结果Ri+2,其计算公式是:
Ri=f(Fi) (6)
Figure FDA0003164634210000035
Figure FDA0003164634210000036
其中f是双线性插值,
Figure FDA0003164634210000037
Figure FDA0003164634210000038
分别是上采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,
Figure FDA0003164634210000039
Figure FDA00031646342100000310
分别是上采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数;
步骤2.4.3,下采样卷积组操作:将输入特征Fi进行2次激活函数运算和2次卷积运算,得到其对应的输出结果Si+1,其计算公式是:
Figure FDA00031646342100000311
Figure FDA00031646342100000312
其中Ws i和Ws i+1分别是下采样卷积组的第1次卷积运算的权值参数和第2次卷积运算的权值参数,其中卷积的步长为2,
Figure FDA00031646342100000313
Figure FDA00031646342100000314
分别是下采样卷积组的第1次卷积运算的偏置参数和第2次卷积运算的偏置参数,β是激活函数的调整系数。
CN201810601639.3A 2018-06-12 2018-06-12 一种基于网格结构深度学习的视频高帧率重制方法 Active CN108830812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810601639.3A CN108830812B (zh) 2018-06-12 2018-06-12 一种基于网格结构深度学习的视频高帧率重制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810601639.3A CN108830812B (zh) 2018-06-12 2018-06-12 一种基于网格结构深度学习的视频高帧率重制方法

Publications (2)

Publication Number Publication Date
CN108830812A CN108830812A (zh) 2018-11-16
CN108830812B true CN108830812B (zh) 2021-08-31

Family

ID=64144946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810601639.3A Active CN108830812B (zh) 2018-06-12 2018-06-12 一种基于网格结构深度学习的视频高帧率重制方法

Country Status (1)

Country Link
CN (1) CN108830812B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756690B (zh) * 2018-12-21 2020-11-20 西北工业大学 基于特征级别光流的轻量级视频插值方法
GB2581536B (en) * 2019-02-25 2024-01-17 Huawei Tech Co Ltd Joint shape and texture decoders for three-dimensional rendering
CN110191299B (zh) * 2019-04-15 2020-08-04 浙江大学 一种基于卷积神经网络的多重帧插值方法
CN112188236B (zh) * 2019-07-01 2022-07-19 北京新唐思创教育科技有限公司 视频插帧模型训练、视频插帧生成方法及相关装置
JP2021179728A (ja) * 2020-05-12 2021-11-18 株式会社日立製作所 映像処理装置、及び、その方法
CN112565628B (zh) * 2020-12-01 2022-03-29 合肥工业大学 一种卡通视频重制方法及系统
CN113593033A (zh) * 2021-06-03 2021-11-02 清华大学 一种基于网格细分结构的三维模型特征提取方法
CN113837136B (zh) * 2021-09-29 2022-12-23 深圳市慧鲤科技有限公司 视频插帧方法及装置、电子设备和存储介质
CN115941872B (zh) * 2023-02-08 2023-06-16 吉林大学 一种水下高速移动目标的视频插帧方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971335A (zh) * 2014-04-25 2014-08-06 河海大学 一种基于置信度核回归的图像超分辨率重建方法
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN108022278A (zh) * 2017-12-29 2018-05-11 清华大学 基于视频中运动跟踪的人物动画绘制方法及系统
CN108090919A (zh) * 2018-01-02 2018-05-29 华南理工大学 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185909A1 (en) * 2013-10-24 2017-06-29 Aon Benfield, Inc. Systems and methods for performing real-time convolution calculations of matrices indicating amounts of exposure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971335A (zh) * 2014-04-25 2014-08-06 河海大学 一种基于置信度核回归的图像超分辨率重建方法
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN108022278A (zh) * 2017-12-29 2018-05-11 清华大学 基于视频中运动跟踪的人物动画绘制方法及系统
CN108090919A (zh) * 2018-01-02 2018-05-29 华南理工大学 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Video Frame Synthesis using Deep Voxel Flow;Ziwei Liu等;《2017 IEEE International Conference on Computer Vision》;20171231;第4473-4481页 *

Also Published As

Publication number Publication date
CN108830812A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108830812B (zh) 一种基于网格结构深度学习的视频高帧率重制方法
CN111667442B (zh) 一种基于事件相机的高质量高帧率图像重建方法
CN109102462B (zh) 一种基于深度学习的视频超分辨率重建方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN111028177B (zh) 一种基于边缘的深度学习图像去运动模糊方法
CN110120011B (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN108830790A (zh) 一种基于精简卷积神经网络的快速视频超分辨率重建方法
CN110263699B (zh) 视频图像处理方法、装置、设备及存储介质
CN112291570B (zh) 一种基于轻量级可形变卷积神经网络的实时视频增强方法
CN112164011A (zh) 基于自适应残差与递归交叉注意力的运动图像去模糊方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN111369466B (zh) 基于可变形卷积的卷积神经网络的图像畸变矫正增强方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN112819705B (zh) 一种基于网状结构与长距离相关性的真实图像去噪方法
CN114494050A (zh) 一种基于事件相机的自监督视频去模糊和图像插帧方法
CN116894770A (zh) 图像处理方法、图像处理设备和计算机程序
CN112102163A (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN110458784A (zh) 一种基于图像感知质量的去压缩噪声方法
CN116542889A (zh) 一种拥有稳定视点的全景视频增强方法
CN117714875B (zh) 一种基于深度神经网络的端到端视频防抖方法
Men et al. Visual quality assessment for interpolated slow-motion videos based on a novel database
CN113096032A (zh) 一种基于图像区域划分的非均匀一致模糊去除方法
CN116208812A (zh) 一种基于立体事件和强度相机的视频插帧方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant