CN114842400A - 基于残差块和特征金字塔的视频帧生成方法及系统 - Google Patents
基于残差块和特征金字塔的视频帧生成方法及系统 Download PDFInfo
- Publication number
- CN114842400A CN114842400A CN202210565190.6A CN202210565190A CN114842400A CN 114842400 A CN114842400 A CN 114842400A CN 202210565190 A CN202210565190 A CN 202210565190A CN 114842400 A CN114842400 A CN 114842400A
- Authority
- CN
- China
- Prior art keywords
- layer
- residual block
- improved
- encoder
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 21
- 230000033001 locomotion Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 26
- 230000003287 optical effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了基于残差块和特征金字塔的视频帧生成方法及系统;其中所述方法,包括:获取待处理的前后两帧图像;将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;所述改进后的编码器,是通过将U‑Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;所述改进后的解码器,是通过将U‑Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及基于残差块和特征金字塔的视频帧生成方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着移动互联网技术的兴起,形式多样的视频软件为受众开辟了视频时代,赋予视频以新的时代内涵。视频的重要特征是分辨率和帧率,分别代表视频空间分辨率和时间分辨率。帧率作为视频重要特征之一,代表视频每秒播放的帧数。低帧率视频会出现卡顿和跳动现象,给人眼带来不适,影响视觉体验。高帧率视频每秒包含更多信息,视频观感也更顺滑。随着高清晰率高刷新率显示设备不断普及,人们对视频质量的需求也越来越高,帧率提升问题成为了国内外研究热点。视频帧生成方法就是实现帧率提升的关键技术。
帧生成算法是在视频两个相邻真实帧之间提取时空特征相关性并生成中间帧,以此来提高视频帧率的方法。该算法可以用于视频质量增强、视频压缩、慢动作视频生成、视频帧率转化和视图合成等领域。然而,视频帧生成方法极具挑战性,因为自然视频经常包含复杂背景、大运动、非线性运动、物体遮挡和照明环境的变化。如何在上述挑战下提取并合成相邻帧间的时空信息是帧生成方法的关键。
在早期计算资源有限的情况下,传统的帧生成方法涌现,这些方法实现简单,但忽略了帧间物体跨越时空的运动信息。现在处于深度学习发展的爆发阶段,研究者们开始使用深度学习进行帧生成。
基于深度学习的方法大多都是端到端的,与传统方法相比,效果更好,可迁移能力更强。基于深度学习的帧生成方法包括直接像素合成方法、基于光流的方法、基于核的方法、光流和核相结合的方法、其他方法。
基于流估计的方法以估计输入帧间的光流为基础,使用不同的方法将输入帧变形至输出中间帧。基于光流的解决方案往往在具有挑战性的情况下无法估计准确光流,产生模糊的结果。
基于核估计的方法通过自适应估计每个像素的核,并将核与输入帧进行卷积生成中间帧。基于核的方法不需要对流图进行估计,所以不会受到相关问题的影响,但是该类方法不能指向任何位置,因此不能处理超出核大小的物体大运动。
发明内容
为了解决现有技术的不足,本发明提供了基于残差块和特征金字塔的视频帧生成方法及系统;本系统属于基于光流估计与核估计相结合的方法,能够对输入视频中的相邻两帧进行处理,并提取它们之间的空时信息,得到令人满意的中间帧结果,以此来提升视频帧率。关键技术体现将U-Net网络中的编码器和解码器分别与残差块和特征金字塔网络相结合。
第一方面,本发明提供了基于残差块和特征金字塔的视频帧生成方法;
基于残差块和特征金字塔的视频帧生成方法,包括:
获取待处理的前后两帧图像;
将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
第二方面,本发明提供了基于残差块和特征金字塔的视频帧生成系统;
基于残差块和特征金字塔的视频帧生成系统,包括:
获取模块,其被配置为:获取待处理的前后两帧图像;
中间帧生成模块,其被配置为:将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
在保留U-Net网络提取空时特征的特点下,提出了基于残差块的优化编码器,并使用特征金字塔来对解码器每层特征进行处理并融合,得到基于特征金字塔的解码器,以此来获得丰富的上下文信息,生成令人满意的中间帧结果。关键技术体现在在保留U-Net网络的特点下,提出以残差块为基础的编码器和基于特征金字塔处理特征的解码器相集成的系统。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本申请实施例一的方法流程图;
图2(a)~图2(d)为本申请实施例一的网络结构示意图;
图3为本申请实施例一的网络的定量表现;
图4(a)~图4(t)为本申请实施例一的网络的定性表现;
图5(a)~图5(c)为本申请实施例一的数据集形式。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于残差块和特征金字塔的视频帧生成方法;
如图1所示,基于残差块和特征金字塔的视频帧生成方法,包括:
S101:获取待处理的前后两帧图像;
S102:将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
进一步地,如图2(a)的左半部分所示,所述改进后的编码器,具体结构包括:
依次连接的基础模块j1、池化层c1、残差块k1、池化层c2、残差块k2、池化层c3、残差块k3、池化层c4、残差块k4和池化层c5。
其中,如图2(b)所示,基础模块j1,包括:依次连接的卷积层m1、修正线性单元Relu激活函数层n1、卷积层m2、修正线性单元Relu激活函数层n2、卷积层m3和修正线性单元Relu激活函数层n3;其中,卷积层m1、卷积层m2和卷积层m3的卷积核大小为3×3,步长为1。
基础模块j1,对于输入的特征,首先通过卷积层得到一个特征图,随后将特征图输入修正线性单元Relu激活函数层,以此类推,直到生成输出特征。
应理解地,所述残差块k1、残差块k2、残差块k3、残差块k4的内部结构是一致的。
其中,如图2(c)所示,残差块k1的内部结构为:依次连接的卷积层p1、修正线性单元Relu激活函数层q1、卷积层p2、修正线性单元Relu激活函数层q2、卷积层p3和修正线性单元Relu激活函数层q3;卷积层p1的输入端和修正线性单元Relu激活函数层q3的输出端均与加法器的输入端连接,加法器的输出端为残差块k1的输出端,卷积层p1的输入端为残差块k1的输入端。
应理解地,残差块包含一个跳跃连接,跳跃连接将输入原封不动的传递,还包含三个串联的卷积层和修正线性单元激活层,其中,卷积层的卷积核大小为3×3,步长为1。对于输入到残差块的特征,首先通过卷积核大小为3×3的卷积层得到一个特征图,随后特征图输入修正线性单元激活层,以此类推,直到最后一个修正线性单元激活层,其得到的特征与跳跃连接路线输送到的特征相加,作为最终输出。
进一步地,所述改进后的编码器,其残差单元的跳跃连接促进低层和高层模块之间信息的传播,有利于深度网络的训练,减少正向传播中信息的损失,并解决模型在训练时退化的问题,帮助设计出参数少但性能好的网络。
为了解决在原始U-Net网络中连续的卷积和池化操作会丢失一些帧内和帧间相关特征的问题,本发明使用U-Net编码器为主干,结合残差连接,提出了深度残差编码器,该编码器结合了深度残差学习和U-Net编码器架构的优势,得到精细的空时特征,防止重要纹理细节和上下文特征的流失。
深度残差编码器由一系列堆叠的残差块组成,每个残差块都用下述公式来表示:
yi=m(xi)+H(xi,σi) (1)
xi+1=h(yi) (2)
其中,xi和xi+1分别是第i个残差块的输入和输出,H(·)是残差函数,该网络使用三个卷积层和ReLU激活层来拟合残差映射。h(·)是激活函数,使用ReLU函数作为残差块的激活函数。m(·)恒等映射函数,该网络使用典型结构m(xi)=xi。从输入图像中捕获特征,并生成对应的特征图。
进一步地,如图2(a)的右半部分和下半部分所示,所述改进后的解码器,具体结构包括:特征金字塔网络;
所述特征金字塔网络,包括:由左往右依次连接的基础模块j2、上采样层s1、残差块k5、基础模块j3、上采样层s2、残差块k6、基础模块j4、上采样层s3、残差块k7、基础模块j5、上采样层s4、残差块k8和基础模块j6,由上而下排列的有卷积层a1、卷积层a2、卷积层a3、卷积层a4和卷积层a5;
其中,残差块k1的输出端与残差块k8的输入端连接;残差块k2的输出端与残差块k7的输入端连接;残差块k3的输出端与残差块k6的输入端连接;残差块k4的输出端与残差块k5的输入端连接;
其中,卷积层a1的输入端与基础模块j2的输出端连接;卷积层a1的输出端与上采样模块s5的输入端连接;上采样模块s5的输出端与拼接单元的输入端连接;拼接单元的输出端与卷积层a6的输入端连接;
其中,卷积层a2的输入端与基础模块j3的输出端连接;卷积层a2的输出端与上采样模块s6的输入端连接;上采样模块s6的输出端与拼接单元的输入端连接;拼接单元的输出端与卷积层a6的输入端连接;
其中,卷积层a3的输入端与基础模块j4的输出端连接;卷积层a3的输出端与上采样模块s7的输入端连接;上采样模块s7的输出端与拼接单元的输入端连接;拼接单元的输出端与卷积层a6的输入端连接;
其中,卷积层a4的输入端与基础模块j5的输出端连接;卷积层a4的输出端与上采样模块s8的输入端连接;上采样模块s8的输出端与拼接单元的输入端连接;拼接单元的输出端与卷积层a6的输入端连接;
其中,卷积层a5的输入端与基础模块j6的输出端连接;卷积层a5的输出端与上采样模块s9的输入端连接;上采样模块s9的输出端与拼接单元的输入端连接;拼接单元的输出端与卷积层a6的输入端连接;
卷积层a6的输出端,分别与Softmax层的输入端、上采样模块s10的输入端和Sigmoid层的输入端连接。
其中,Softmax层的输出端,输出参数为核权重;上采样模块s10的输出端,输出参数为运动偏移向量;Sigmoid层的输出端,输出参数为遮挡权重。
其中,残差块k5、残差块k6、残差块k7、残差块k8分别与编码器中的残差块k1、残差块k2、残差块k3、残差块k4内部结构相同。
进一步地,所述基础模块j2、基础模块j3、基础模块j4、基础模块j5和基础模块j6与编码器中基础模块j1的内部结构是一致的。
进一步地,所述上采样层s1、上采样层s2、上采样层s3、上采样层s4、上采样层s5、上采样层s6、上采样层s7、上采样层s8和上采样层s9的内部结构是一致的。
其中,如图2(d)所示,所述上采样层s1,内部结构包括:
依次连接的上采样层、卷积层和修正线性单元Relu激活函数层。
进一步地,所述卷积层a1、卷积层a2、卷积层a3、卷积层a4、卷积层a5和卷积层a6的内部结构是一致的,都包含卷积核为3×3的卷积层和ReLU激活函数。
进一步地,所述改进后的解码器,工作原理包括:
首先,采用卷积操作分别把不同层次的特征通道数归一化处理;
然后,通过上采样层,对每个层次的归一化处理的特征进行上采样操作;
随后,将上采样的特征通过通道并联拼接;对拼接结果进行卷积操作;
最后,将拼接结果的卷积结果分别进行处理得到核权重、运动偏移向量和遮挡权重;基于核权重、运动偏移向量和遮挡权重,生成中间帧。
进一步地,所述改进后的解码器,具体工作原理包括:
除了U-Net解码器的最后一个基础模块j6之外,特征金字塔首先利用卷积操作分别把基础模块j2、基础模块j3、基础模块j4、基础模块j5中的特征通道数从(512,512,256,128)都转化为64,使用Fi(i=1,2,3,4)表示卷积后的结果。其中,将基础模块j6中的特征表示为F0。
随后,特征Fi(i=0,1,2,3,4)分别通过上采样层s5、上采样层s6、上采样层s7、上采样层s8和上采样层s9变化尺寸,即,将特征Fi(i=0,1,2,3,4)的分辨率(128×128,64×64,32×32,16×16,,8×8)通过各自对应的上采样层全部转化为128×128。
将上采样的过程使用公式(1)来表示:
UPi=Fi×2i(i=0,1,2,3,4) (1)
其中,2i表示2的i次方,UPi表示第i层特征Fi上采样后的结果。
随后,将上采样后的特征通过通道并联拼接在一起,并进行一次卷积得到改进后U-Net网络的最终结果,该过程如公式(2)所示:
R=conv(cat[UP0,UP1,UP2,UP3,UP4]) (2)
公式(2)中,R代表改进后U-Net网络的最终结果,conv代表卷积核为3×3的卷积层和ReLU激活函数的组合,cat[*]代表特征拼接操作。
除此之外,原始U-Net网络中的跳跃连接是将解码器每个分辨率的特征与编码器中相同分辨率的特征相加,这里将相加改为拼接的形式,得到包含像素运动的参数。
进一步地,所述基于核权重、运动偏移向量和遮挡权重,生成中间帧,具体过程包括:
其中,F是卷积核大小,θa,b(a,b)是核权重,(αa,b,βa,b)是运动偏移向量。
若采样点不是整数值,则使用双线性插值方法。
使用遮挡权重融合帧的具体操作,如公式(4)所示:
其中,为生成的中间帧,V为遮挡权重,⊙为逐像素相乘操作,Y是大小为M×N、值全为1的矩阵,和是变形后的输入帧;对每一个目标像素(i,j),V(i,j)=1代表像素只在中可见,V(i,j)=0代表像素只在中可见。
进一步地,所述训练后的视频帧生成模型;训练过程包括:
构建训练集;所述训练集包括若干个已知中间帧的前后帧图像;
将训练集输入到视频帧生成模型中,对模型进行训练,当模型的损失函数达到最小值或迭代次数达到设定阈值时,停止训练,得到训练后的视频帧生成模型。
本申请实施例可以在视频相邻帧之间插入原本不存在的中间帧,以此来提高视频帧率。
示例性地,所述训练集选用Vimeo90k数据集。该数据集从14777个视频剪辑中获得51312个三帧组。每个三帧组包含三个连续帧,数据集结构将在图5(a)~图5(c)中展示,前一帧和后一帧作为输入输送到网络,中间帧作为真实中间帧来监督网络的训练。Vimeo90K数据集制作标准较为严格,该数据集消除了静止运动和具有较大强度变化的帧。所有相邻帧之间超过5%像素的运动大于3个像素,运动场的平均差值小于1个像素。该数据集中所有帧的分辨率为256×448。本系统在帧的任意位置随机裁剪256×256的图像块进行训练,并对图像块进行水平和垂直翻转,以及时间顺序反转,用于数据增强。
虽然原始U-Net编解码器的操作是从输入图像中捕获特征并生成相应特征图。但是经过池化层和上采样层,特征图的分辨率逐渐下降又恢复至原来的分辨率,会丢失一些帧内和帧间相关特征。本系统使用残差思想将编码器中的卷积模块改变为残差块,保证编码器中重要的空间特征和时间特征的细节不会丢失。
在U-Net网络解码器中,特征图被不停地上采样,仅仅是最后一层的特征对输出结果有直接的影响,这和其他的前馈网络相同。此外,编码器路径中,不同尺度的模块不能共享特征,这可能会阻止上下文信息的流动,产生不必要的参数。所以,本系统使用特征金字塔,将解码器中每层空时特征进行融合,使编码器路径中每一尺度的特征都对最后结果产生影响,保留了信息的准确度。
网络的整体架构将在图2(a)进行展示,自适应合成中间帧阶段没有在图中展示。
用于训练的三帧组数据集包含前一帧、后一帧和实际中间帧,将前后两帧输入网络,通过最小化网络结果与真实中间帧之间的差距来实现最优模型的训练。
进一步地,损失函数:
公式通过Charbonnier惩罚函数来对l1范式进行变形,使损失函数能处理异常值,提高重建精度。
训练结束后,将网络参数固定并转化为测试网络,本系统使用UCF101、DAVIS和Vimeo90K三个测试集评估本系统的性能。
在测试网络上,分别对提出的方法进行了消融实验,以展示了本发明的改进做出的贡献。
其中,ADA为基线模型,ADA+CAT是解码器拼接模式,ADA+MFP在ADA+CAT网络的基础上将解码器和特征金字塔结合,ADA+RES在ADA+MFP基础上基于残差块对编码器进行改进,ADA+RES为本系统总网络。
本系统使用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)这两种方法作为定量评估生成帧质量的工具。
图片相似度越高,峰值信噪比和结构相似性的值越高。消融实验的定量结果如图3所示,图片中最佳结果使用粗体表示。定性视觉结果如图4(a)~图4(t)所示,图中展示了两个示例,每两行为一个示例,示例第一行是完整图片,第二行是重点区域的放大图。从定性结果和定量结果都可以得知本系统提出的方法是有效的。
本发明提出基于残差块的U-Net编码器,残差块有利于深度网络的训练,残差块的跳跃连接可以促进低层和高层网络模块之间信息的传播,减少正向传播中信息的损失,解决模型在训练时退化的问题,帮助研究者们设计出参数少但性能好的网络。使用U-Net编码器为主干,结合残差连接,本发明提出了深度残差编码器,该编码器结合了深度残差学习和U-Net编码器架构的优势,能够得到精细的空时特征,防止重要上下文特征的流失。
本发明提出基于特征金字塔的U-Net解码器。在金字塔解码器外依次添加了卷积层和上采样层,将解码器中每一层次的空时特征图单独进行处理,并融合为最终结果。该操作通过将低层和高层特征图融合,使最终结果包含丰富帧间和帧内信息,提高了空时特征表达能力。本发明在解码器不同分辨率的特征图之后都添加了一个单独路径,该路径包含卷积层和上采样层。对普通U-Net解码器中每一层的结果进行卷积操作,将每层特征的通道数变为与解码器中最后一层特征图相同的通道数,其次,将它们通过上采样层全部转换为与解码器中最后一个分辨率特征图相同的尺寸。针对每个不同分辨率的特征图,上采样的倍数也不同。
本系统提出基于残差块和特征金字塔的视频帧生成网络来应对视频中背景模糊和遮挡的挑战。U-Net网络是本发明的基线模型,但编解码过程会造成一些重要空时特征的丢失。本系统将编码器基础模块优化为残差块,并使用特征金字塔来对解码器每层特征进行融合,以此来获得丰富的空时特征,生成令人满意的中间帧结果。实验结果表明,本系统在Vimeo90K测试集上的结果与真实帧的图像相似度达到96.02%。
实施例二
本实施例提供了基于残差块和特征金字塔的视频帧生成系统;
基于残差块和特征金字塔的视频帧生成系统,包括:
获取模块,其被配置为:获取待处理的前后两帧图像;
中间帧生成模块,其被配置为:将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
此处需要说明的是,上述获取模块和中间帧生成模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于残差块和特征金字塔的视频帧生成方法,其特征是,包括:
获取待处理的前后两帧图像;
将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
2.如权利要求1所述的基于残差块和特征金字塔的视频帧生成方法,其特征是,所述改进后的编码器,具体结构包括:
依次连接的基础模块j1、池化层c1、残差块k1、池化层c2、残差块k2、池化层c3、残差块k3、池化层c4、残差块k4和池化层c5;
基础模块j1,对于输入的特征,首先通过卷积层得到一个特征图,随后将特征图输入修正线性单元Relu激活函数层,以此类推,直到生成输出特征;
对于输入到残差块的特征,首先通过卷积核大小为3×3的卷积层得到一个特征图,随后特征图输入修正线性单元激活层,以此类推,直到最后一个修正线性单元激活层,其得到的特征与跳跃连接路线输送到的特征相加,作为最终输出。
3.如权利要求1所述的基于残差块和特征金字塔的视频帧生成方法,其特征是,所述改进后的解码器,工作原理包括:
首先,采用卷积操作分别把不同层次的特征通道数归一化处理;
然后,通过上采样层,对每个层次的归一化处理的特征进行上采样操作;
随后,将上采样的特征通过通道并联拼接;对拼接结果进行卷积操作;
最后,将拼接结果的卷积结果分别进行处理得到核权重、运动偏移向量和遮挡权重;基于核权重、运动偏移向量和遮挡权重,生成中间帧。
4.如权利要求3所述的基于残差块和特征金字塔的视频帧生成方法,其特征是,所述基于核权重、运动偏移向量和遮挡权重,生成中间帧,具体过程包括:
其中,F是卷积核大小,θa,b(a,b)是核权重,(αa,b,βa,b)是运动偏移向量;
使用遮挡权重融合帧的具体操作,如公式(4)所示:
5.如权利要求1所述的基于残差块和特征金字塔的视频帧生成方法,其特征是,所述训练后的视频帧生成模型;训练过程包括:
构建训练集;所述训练集包括若干个已知中间帧的前后帧图像;
将训练集输入到视频帧生成模型中,对模型进行训练,当模型的损失函数达到最小值或迭代次数达到设定阈值时,停止训练,得到训练后的视频帧生成模型。
7.如权利要求1所述的基于残差块和特征金字塔的视频帧生成方法,其特征是,使用峰值信噪比和结构相似性,作为定量评估生成帧质量的工具。
8.基于残差块和特征金字塔的视频帧生成系统,其特征是,包括:
获取模块,其被配置为:获取待处理的前后两帧图像;
中间帧生成模块,其被配置为:将获取的前后两帧图像,输入到训练后的视频帧生成模型中,输出生成的中间帧图像;
其中,视频帧生成模型包括相互连接的改进后的编码器和改进后的解码器;
所述改进后的编码器,是通过将U-Net网络编码器的卷积层替换为残差块得到;所述改进后的编码器,用于提取前后两帧图像的空时特征;
所述改进后的解码器,是通过将U-Net网络的解码器设置为特征金字塔网络得到;所述改进后的解码器,用于对提取的特征进行特征融合,以生成中间帧图像。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565190.6A CN114842400A (zh) | 2022-05-23 | 2022-05-23 | 基于残差块和特征金字塔的视频帧生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565190.6A CN114842400A (zh) | 2022-05-23 | 2022-05-23 | 基于残差块和特征金字塔的视频帧生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842400A true CN114842400A (zh) | 2022-08-02 |
Family
ID=82572172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210565190.6A Pending CN114842400A (zh) | 2022-05-23 | 2022-05-23 | 基于残差块和特征金字塔的视频帧生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842400A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115588153A (zh) * | 2022-10-10 | 2023-01-10 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
CN115941966A (zh) * | 2022-12-30 | 2023-04-07 | 深圳大学 | 一种视频压缩方法及电子设备 |
CN117896526A (zh) * | 2024-01-15 | 2024-04-16 | 济南大学 | 基于双向编码结构的视频帧插值方法及系统 |
-
2022
- 2022-05-23 CN CN202210565190.6A patent/CN114842400A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115588153A (zh) * | 2022-10-10 | 2023-01-10 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
CN115588153B (zh) * | 2022-10-10 | 2024-02-02 | 山东财经大学 | 一种基于3D-DoubleU-Net的视频帧生成方法 |
CN115941966A (zh) * | 2022-12-30 | 2023-04-07 | 深圳大学 | 一种视频压缩方法及电子设备 |
CN115941966B (zh) * | 2022-12-30 | 2023-08-22 | 深圳大学 | 一种视频压缩方法及电子设备 |
CN117896526A (zh) * | 2024-01-15 | 2024-04-16 | 济南大学 | 基于双向编码结构的视频帧插值方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109379550B (zh) | 基于卷积神经网络的视频帧率上变换方法及系统 | |
CN110324664B (zh) | 一种基于神经网络的视频补帧方法及其模型的训练方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN114842400A (zh) | 基于残差块和特征金字塔的视频帧生成方法及系统 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
Li et al. | DewaterNet: A fusion adversarial real underwater image enhancement network | |
CN111669514B (zh) | 高动态范围成像方法和装置 | |
CN111292264A (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN113570500B (zh) | 一种基于全局信息引导网络实现真实图像风格迁移的方法 | |
CN113096029A (zh) | 基于多分支编解码器神经网络的高动态范围图像生成方法 | |
CN115035011B (zh) | 一种融合策略下自适应RetinexNet的低照度图像增强方法 | |
CN114339030A (zh) | 一种基于自适应可分离卷积的网络直播视频稳像方法 | |
CN112396674B (zh) | 一种基于轻量生成对抗网络的快速事件图像填补方法及系统 | |
Tang et al. | Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction | |
CN111583345B (zh) | 一种相机参数的获取方法、装置、设备及存储介质 | |
CN113837945A (zh) | 一种基于超分辨率重建的显示画质优化方法及系统 | |
CN113191301A (zh) | 融合时序和空间信息的视频密集人群计数方法及系统 | |
CN116757959A (zh) | 一种基于Raw域的HDR图像重建方法 | |
CN115880149A (zh) | 基于轻量化驱动和三尺度编码的视频帧插值方法及系统 | |
CN111861877A (zh) | 视频超分变率的方法和装置 | |
CN115565107A (zh) | 一种基于双流架构的视频显著性预测方法 | |
CN114882405A (zh) | 一种基于时空双流金字塔网络架构的视频显著性检测方法 | |
CN115409721A (zh) | 暗光视频增强方法及装置 | |
Xu et al. | Joint learning of super-resolution and perceptual image enhancement for single image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |