CN112070677A

CN112070677A - 基于时间切片的视频时空超分辨率增强方法

Info

Publication number: CN112070677A
Application number: CN202010989364.2A
Authority: CN
Inventors: 熊志伟; 肖泽宇; 傅雪阳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-11
Anticipated expiration: 2040-09-18
Also published as: CN112070677B

Abstract

本发明公开了一种基于时间切片的视频时空超分辨率增强方法，包括：输入待增强的视频，将其转换成竖直时间切片；将竖直时间切片送入时间切片超分辨率模块，得到超分辨率之后的时间切片，再转换为视频A；所述切片超分辨率模块能够捕获竖直时间切片包含的时空相关性，从而得到与目标视频帧率一致的视频；将视频A送入特征变换模块，获得与目标视频空间分辨率一致的视频B；将视频B送入优化模块，来增强视频细节并消除伪影。该方法通过显式地对时间切片建模，更好地挖掘时空关联信息，捕获长时序的视频信息，实现视频帧率和视频空间分辨率的提升。

Description

基于时间切片的视频时空超分辨率增强方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于时间切片的视频时空超分辨率增强方法。

背景技术

视频超分辨率是图像处理中的一个经典问题，其目标是从给定的低分辨率视频序列中生成高分辨率帧。视频帧率提升是一种将低帧率视频转换为高帧率视频的视频后处理方法，在相邻两视频帧之间插入内插视频帧，以达到增加帧率的目的。

使用单一的方式进行视频质量增强难以满足日益增长的用户需求，为了将视频超分辨率和视频帧率提升应用到实际生活中，因此，需要一种增强低空间分辨率、低视频帧率的方法。

可以通过级联现有视频超分辨率方法和视频帧率提升方法实现视频时空超分辨率。然而级联的方式难以充分捕获视频帧间的时空关联性。使用两阶段的增强方式不仅消耗大量计算资源，而且不可避免地引入累积误差。为了更好探究时间相关性并减少累积误差，研究人员们尝试利用手工设计先验知识或采用深度学习网络进行视频时空超分辨率增强。

Shechtman等人(Shechtman E,Caspi Y,Irani M.Increasing space-timeresolution in video[C]//European Conference on Computer Vision.Springer,Berlin,Heidelberg,2002:753-768.)设计了时空正则项用于求解时空超分辨率问题，然而基于人工设计正则项的方法耗费大量人力。Mudenagudi等人(Mudenagudi U,Banerjee S,Kalra P K.Space-time super-resolution using graph-cut optimization[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2010,33(5):995-1008.)使用最大化后验Markov随机场进行求解该问题，但该方法需要耗费大量计算资源用于优化求解。最近，Xiang等人(Xiang X,Tian Y,Zhang Y,et al.Zooming Slow-Mo:Fastand Accurate One-Stage Space-Time Video Super-Resolution[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020:3370-3379.)首次基于深度学习网络提出单阶段联合增强方法。但是该方法使用的ConvLSTM模块通过隐式帧间对齐方法，难以捕获长时序的时间信息；往往会产生运动伪影和帧间模糊。

现有视频时空超分辨率增强方法不能达到准确、高效的要求，并且这些方法不能充分捕获时空信息关联性，因此这些方法往往产生次优的结果。

发明内容

本发明的目的是提供一种基于时间切片的视频时空超分辨率增强方法，可以实现视频帧率和视频空间分辨率的提升。

本发明的目的是通过以下技术方案实现的：

一种基于时间切片的视频时空超分辨率增强方法，包括：

输入待增强的视频，将其转换成竖直时间切片；

将竖直时间切片送入时间切片超分辨率模块，得到超分辨率之后的时间切片，再转换为视频A；所述切片超分辨率模块能够捕获竖直时间切片包含的时空相关性，从而得到与目标视频帧率一致的视频；

将视频A送入特征变换模块，获得与目标视频空间分辨率一致的视频B；

将视频B送入优化模块，来增强视频细节并消除伪影。

由上述本发明提供的技术方案可以看出，通过显式地对时间切片建模，更好地挖掘时空关联信息，捕获长时序的视频信息，实现视频帧率和视频空间分辨率的提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于时间切片的视频时空超分辨率增强方法的原理图；

图2为本发明实施例提供的特征变换模块的结构图；

图3为本发明实施例提供的优化模块的结构图；

图4为本发明实施例提供的在测试集的视觉对比效果；

图5为本发明实施例提供的在老视频重建任务上的视觉对比效果。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例显式利用时间切片，在充分挖掘的时空关联信息的背景下，利用深度学习算法实现视频帧率和视频空间分辨率的提升。本发明设计了一种基于时间切片的视频时空超分辨率增强方法，通过对时间切片进行处理，可以获取待增强视频的时空关联特性，由此特性可以建立视频的帧间关联信息和空间特征，进而对目标视频进行时空超分辨率增强，再结合特征变换模块与用于减轻伪影和增强细节的优化模块，从而得到高帧率和高分辨率的视频。除此之外，本发明的提供的方法可以进行端到端训练，网络结构轻便且具有较小的计算复杂度，为未来老视频修复或高清影视制作提供了可行的解决思路。如图1所示，该方法主要包括：

1、输入待增强的视频，将其转换成竖直时间切片。

本发明实施例中，输入待增强的视频为低帧率和低分辨率的视频。

2、将竖直时间切片送入时间切片超分辨率模块，得到超分辨率之后的时间切片，再转换为视频A；所述切片超分辨率模块能够捕获竖直时间切片包含的时空相关性，从而得到与目标视频帧率一致的视频。

本领域技术人员可以理解，目标视频的相关帧率、空间分辨率等参数可自行设定；示例性的，假如待增强的视频空间分辨率+帧率为(100x200)+20fps，期待的重建结果(目标视频)分辨率是(400x800)+40fps。

本发明实施例中，时间切片超分辨率模块(Temporal Profile Super-ResolutionModule)可以采用IMDN网络结构(Hui Z,Gao X,Yang Y,et al.Lightweight image super-resolution with information multi-distillation network[C]//Proceedings of the27th ACM International Conference on Multimedia.2019:2024-2032.)，当然可以被任意的超分辨率模块替换。时间切片超分辨率模块可以有效捕获时间切片中包含的时空相关性，用于得到和目标视频帧率一致的视频。

本发明实施例中，训练阶段，采用最小平均绝对误差作为目标损失函数，对时间切片超分辨率模块进行有监督训练。

3、将视频A送入特征变换模块，获得与目标视频空间分辨率一致的视频B。

本发明实施例中，训练阶段，固定时间切片超分辨率模块的参数，采用最小平均绝对误差作为目标损失函数，对特征变换模块(Feature Shuffling Module)进行有监督训练。

如图2的(a)部分所示，所述特征变换模块包括依次设置的：3×3卷积层与5×5卷积层组成的帧特征提取器(用于进一步提高网络的感受野，提升重建精确性)、两个残差累积块(RS Block)、特征变换操作模块、三个卷积和LeakyReLU激活层组成的帧重建器、以及一个级联超分辨率子模块。图2的(b)部分示出了残差累积块的结构，即由多个DFF(Ddilated Featurefusion Block，空洞特征融合块)子块构成，图2的(c)部分示出了DFF子块的结构。图2的(d)部分示出了特征变换操作的原理。

特征变换模块工作原理为：对于视频A每一帧，首先使用两个卷积层组成的特征提取器提取特征图；为了更好地融合时空信息，使用两个残差累积块(RS Block)以生成更精细的特征图，然后将其送入特征变换操作模块，获得和目标视频尺寸一致的特征图，然后由帧重建器和级联超分辨率子模块重建得到高分辨率和高帧率的视频帧。

图2的(d)部分所示的特征变换操作的原理为：特征变换操作的目标是使特征图的宽度尺寸加倍，并保持高度尺寸不变。具体来说，特征变换操作在特征维度对张量(tensor)进行操作，该操作使尺寸为W×2H×C的特征图变换为2W×2H×(C/2)，其中W，H，C分别为特征图的长、宽、特征图通道的数。

上述特征变换模块最终输出与目标视频空间分辨率一致的结果。该特征变换模块网络使用的残差学习方式减轻网络的训练代价，提升了网络的性能；空洞特征融合块通过使用空洞卷积操作，在不增加计算复杂度的前提下增大神经网络感受野，进一步提升了该模块的特征表征能力。

4、将视频B送入优化模块，来增强视频细节并消除伪影。

本发明实施例中，训练阶段，将训练后的时间切片超分辨率模块及特征变换模块，与优化模块(Refining Module)同时进行有监督训练；采用最小平均绝对误差(L1loss)、结构相似性误差(SSIM loss)、感知损失(VGG loss)和循环一致性误差(Cycle consistencyloss)作为目标损失函数，图1中V^GT表示ground truth视频，即用于监督的视频；

循环一致性误差同样是使用最小平均绝对误差优化输入视频的横向时间切片和优化模块输出的视频经过时空降质后的视频的横向时间切片；即，最小平均绝对误差两项分别是：输入视频的横向时间切片和优化模块输出的视频经过时空降质后的视频的横向时间切片。该所述循环一致性误差可以确保增强后的视频与其低帧率和低分辨率输入视频的时空一致性，同时可以避免本发明的基于时间切片的视频时空超分辨率增强方法过拟合。

如图3(a)部分所示，所述优化模块采用UNet结构，使用残差块作为基础模块，不仅能减轻网络的训练代价，也能更好的结合低层和高层视频语义信息，提高网络的优化能力。优化模块的首尾两端各自为一个5×5卷积层，输出连接LeakyReLU激活层(这部分结构为图中的标记1)；三个残差块为一组，组间设有3×3卷积层或3×3反卷积层(这部分结构为图中的标记2)；图3(b)部分示出了残差块的结构。

图3(a)部分给出了15个残差块的结构示例，通过这15个残差块来减轻伪影。

为验证本发明的有效性，在5个公开数据集上实施了对比实验。首先在视频超分辨率增强数据训练集Vimeo90K上训练了基于时间切片的视频时空增强网络(也即图1所示的包含时间切片超分辨率模块、特征变换模块及优化模块的网络)，然后在验证集上进行了数值指标和视觉指标的测试。数值指标评估分为如下三个部分：

第一部分是基于误差敏感的图像质量评估，评价标准为PSNR：

其中，x与y分别为网络输出图像与目标图像，MaxValue为该图像所能取到的最大动态范围，H和W为图像的高度和宽度。

第二部分是基于结构相似的图像质量评估，评价标准为SSIM：

其中，x与y分别为网络输出图像与目标图像，μ_x为x的均值，μ_y为y的均值，

为x的方差，

为y的方差，σ_xy为x与y的协方差，c₁与c₂为常数。

第三部分是使用NIQE指标评价图像主观质量。特别的，归一化图像后，根据局部活性选择部分图像块作为训练数据，以广义高斯模型拟合得到模型参数作为特征，采用多变量高斯模型描述这些特征，评价过程中利用待评价图像特征模型参数与预先建立的模型参数之间的距离来确定图像质量。

对比实验采用了Vimeo-Slow，Vimeo-Medium，Vimeo-Fast，vid4和UCF101数据集，重建结果如表1所示。本发明的方法在三个评价指标上均超过两阶段的方法，即先后级联视频帧率提升和视频空间超分辨率方法。与单阶段方法Zooming Slow-Mo方法相比，本发明提供的方法除Vimeo90K-Fast以外获得了总体上更优异的结果。虽然在此测试集上本发明提供的方法的PSNR和SSIM值略低，但我们仍然获得了明显更好的NIQE结果，这表明本发明提供的方法增强的视频具有更好的视觉质量。

表1本发明的时空视频超分辨率增强方法在多个数据集上的对比性能结果

表1中，VFI(x2)表示视频插帧方法，帧率提高倍数为2倍，VSR(x4)表示视频超分辨率方法，分辨率提升倍数为4倍。SepConv和DAIN是视频插帧方法，SAN是单张图片超分辨率方法、EDVR是视频超分辨率方法。SepConv、SAN、DAIN、EDVR各自对应的论文标题为：VideoFrame Interpolation via Adaptive Separable Convolution、Depth-Aware VideoFrame Interpolation、Second-order Attention Network for Single Image Super-Resolution、EDVR:Video Restoration with Enhanced Deformable ConvolutionalNetworks。

图4展示了本发明时空超分辨率增强算法在数据集上的视觉效果。受累积误差的影响，两阶段方法生成的结果通常具有运动模糊和伪影，视觉质量较差。Zooming Slow-Mo的结果比两阶段方法要好，但是会产生过度平滑的结果。相比之下，本发明提供的方法可以生成视觉效果更好的视频帧，具有更准确的细节和更少的模糊。此外，从横向与纵向时间切片可以发现，其他比较方法会产生明显的时间不连续性，而本发明提供的方法能够重建时间维度一致的结果。以上均说明本发明提供的方法具有的优越性。图4中，overlayed LRframes和overlayed LR是相同含义，受到图像中空间限制，因此省去了frame。OverlayedLR frame是指将两幅LR帧叠加求平均(两帧求平均是最简单的一种插帧手段)。

图5是本发明提供的方法和Zooming Slow-Mo在老视频重建任务中的应用。尽管两种方法不可避免产生某些空间伪影，这主要是因为本发明提供的没有在网络训练中对降质过程进行建模。然而本发明提供的方法可以生成时间上更连续的结果，而Zooming Slow-Mo产生的结果具有较大的模糊，说明本发明提供的方法具有更好的泛化能力与增强能力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于时间切片的视频时空超分辨率增强方法，其特征在于，包括：

输入待增强的视频，将其转换成竖直时间切片；

将视频B送入优化模块，来增强视频细节并消除伪影。

2.根据权利要求1所述的一种基于时间切片的视频时空超分辨率增强方法，其特征在于，所述时间切片超分辨率模块采用IMDN网络结构实现；

训练阶段，采用最小平均绝对误差作为目标损失函数，进行有监督训练。

3.根据权利要求1所述的一种基于时间切片的视频时空超分辨率增强方法，其特征在于，所述特征变换模块包括依次设置的：3×3卷积层与5×5卷积层组成的帧特征提取器、两个残差累积块、特征变换操作模块、三个卷积和LeakyReLU激活层组成的帧重建器、以及一个级联超分辨率子模块；

训练阶段，固定时间切片超分辨率模块的参数，采用最小平均绝对误差作为目标损失函数，进行有监督训练。

4.根据权利要求1所述的一种基于时间切片的视频时空超分辨率增强方法，其特征在于，所述优化模块采用UNet结构，使用残差块作为基础模块，优化模块的首尾两端各自为一个5×5卷积层，输出连接LeakyReLU激活层；三个残差块为一组，组间设有3×3卷积层或3×3反卷积层；

训练阶段，将训练后的时间切片超分辨率模块及特征变换模块，与优化模块同时进行训练；采用最小平均绝对误差、结构相似性误差、感知损失和循环一致性误差作为目标损失函数；循环一致性误差同样是使用最小平均绝对误差优化输入视频的横向时间切片和优化模块输出的视频经过时空降质后的视频的横向时间切片。