CN109819321A

CN109819321A - 一种视频超分辨率增强方法

Info

Publication number: CN109819321A
Application number: CN201910191471.8A
Authority: CN
Inventors: 刘�东; 张昊辰; 熊志伟
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-05-28
Anticipated expiration: 2039-03-13
Also published as: CN109819321B

Abstract

本发明公开了一种视频超分辨率增强方法，包括：收集训练视频，并按照一定方式处理为训练样本；对于面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，各自按照设定的损失函数结合相应的训练样本进行网络训练；对于待增强的视频，将其拆分为视频帧的形式，并分别输入至训练好的面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，从而获得超分辨率增强后的视频。该方法可以用作低分辨率视频的预处理，在付出一定时间的代价后，可以在对视频分类算法不做任何调整的前提下，提高视频分类算法对低分辨率输入视频的识别准确率。

Description

一种视频超分辨率增强方法

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种视频超分辨率增强方法

背景技术

近年来，随着深度学习的迅速发展，计算机的分类能力越来越强：在图像分类方面已经拥有超越人类的识别能力。受此激励，在近些年的研究中，视频分类领域也有了巨大突破。但由于当前的视频分类方法对输入视频的质量(这里主要指目标区域的分辨率)的鲁棒性并不是很强。换而言之，当输入视频的分辨率比较低的时候，分类的准确率会大为降低。为了将计算机强大的识别能力应用到实际生活之中，我们需要一种增强低质量视频的方法。

当前较为常用的处理分辨率差异的方法是基于插值的方法，如最近邻插值，双线性插值和双三次插值。这些方法需要人工设计固定的卷积核并将之应用于给定的低分辨率输入，来得到高分辨率图像。但由于这样的操作过于简单，它们在恢复图像在高频细节的方面效果欠佳。为了更好的恢复图像的高频信息，研究人员们尝试利用卷积神经网络进行视频超分辨率增强。

最近，Tao等人(X.Tao,H.Gao,R.Liao,J.Wang,and J.Jia.Detail-revealingdeep video super-resolution.In ICCV,pages 22–29,2017.)引入亚像素运动补偿操作，运动补偿和上采样相互协作同时进行，从而取得了较高的峰值信噪比。Jo等人(Y.Jo,S.W.Oh,J.Kang,and S.J.Kim.Deep video superresolution network using dynamicupsampling filters without explicit motion compensation.In CVPR,pages 3224–3232,2018.)利用3D卷积，在避免显式运动补偿的同时得到了目前最先进的峰值信噪比性能。上述二例可以看出，现有的视频超分辨率增强方法均以提高峰值信噪比为目标，然而，实验证明峰值信噪比性能与视频可识别性能并不完全正相关，故直接将现有的视频超分辨率增强方法用于低质量视频的增强不能很好地达到提升计算机分类性能的目的。

近期，一些图像超分辨率增强研究者开始将增强的目标定义为图片的感知性能，如：Johnson等人(J.Johnson,A.Alahi,and L.Fei-Fei.Perceptual losses for real-time style transfer and super-resolution.In ECCV,pages 694–711,2016.)定义了感知损失来提升超分辨增强后的图像的视觉质量；Ledig等人(C.Ledig,L.Theis,F.Huszar,J.Caballero,A.Cunningham,A.Acosta,A.P.Aitken,A.Tejani,J.Totz,Z.Wang,etal.Photo-realistic single image super-resolution using a generativeadversarial network.In CVPR,volume 2,pages 4681–4690,2017.)利用对抗生成网络，使用对抗损失来使超分辨率增强后的图像看起来更加逼真。然而，这二例中的感知性能均被定义为有利于人类视觉系统对增强后的图片进行识别，让人看得更清楚的能力，即它们主要是针对人类视觉系统进行增强，而不是以促进计算机识别为目的。而且由于它们是图像超分辨率增强方法，输入输出均为视频的一帧，没有考虑和利用视频多帧的有利信息。

最后，上述不论是图像超分辨率增强方法还是视频超分辨率增强方法，在训练与测试时均只输出视频的一帧，没有考虑视频前后两帧之间的时间连续性，从而产生闪烁效应，影响计算机视觉系统的识别能力。

发明内容

本发明的目的是提供一种视频超分辨率增强方法，通过恢复低质量视频缺失的空间信息和时间信息，来提高计算机视频分类算法的识别能力。

本发明的目的是通过以下技术方案实现的：

一种视频超分辨率增强方法，包括：

收集训练视频，并按照一定方式处理为训练样本；

对于面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，各自按照设定的损失函数结合相应的训练样本进行网络训练；

对于待增强的视频，将其拆分为视频帧的形式，并分别输入至训练好的面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，从而获得超分辨率增强后的视频。

由上述本发明提供的技术方案可以看出，视频超分辨率增强方法可以用作低分辨率视频的预处理，在付出一定时间的代价后，可以在对视频分类算法不做任何调整的前提下，提高视频分类算法对低分辨率输入视频的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种视频超分辨率增强方法的流程图；

图2为本发明实施例提供的收集与处理训练视频的流程图

图3为本发明实施例提供的面向空间的视频超分辨率方法的原理图；

图4为本发明实施例提供的面向时间的视频超分辨率方法的原理图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种视频超分辨率增强方法，其主要目的是为了增强计算机对视频进行分类的能力。由于当前视频分类方法所利用的视频信息主要分为空间信息和时间信息，故本发明考虑了面向空间与面向时间两个方面的视频超分辨率增强，从而达到提高计算机对视频进行分类的能力的目的。如图1所示，本发明所提供的方法主要包括如下步骤：

步骤1、收集训练视频，并按照一定方式处理为训练样本。

如图2所示，本步骤分为两个阶段：收集训练视频(虚线左侧部分)、以及将训练数据处理为训练样本(虚线右侧部分)。

1)收集训练视频。

收集训练视频的优选实施方式为：在互联网上收集自然视频；然后保留自然视频的长宽比，通过插值的方法，处理为与超分辨率增强的目标视频分辨率相近的大小，处理后的视频即为训练视频。

例如在实验中，可以在CDVL视频网站上下载134个视频，它们的分辨率从480×360到1920×1080不等。假如希望得到320×240分辨率的超分辨增强视频，则使用双三次插值，将这134个视频保留长宽比地插值到320×240大小附近。

2)将训练数据处理为训练样本。

由于本发明实施例考虑了面向空间与面向时间两个方面的视频超分辨率增强，因此，对于不同的视频超分辨率增强方案需要引入不同的训练样本。

a、对于面向空间的视频超分辨率网络，通过下述处理方式得到相应的训练样本：

如图2的右上部分所示，从收集的训练视频中随机抽取相邻两帧作为一对高分辨率视频帧，并通过光流预测模块得到二者之间的光流图；

然后，将两通道的光流图通过设定的映射函数，得到一张单通道的权值图像；同时，将第一张高分辨率视频帧通过插值下采样r倍后，再通过插值上采样r倍，得到插值后的低分辨率视频帧；

之后，随机从低分辨率视频帧、权值图像和第一张高分辨率视频帧的相同的位置截取大小为N×N像素的子图像，获得的低分辨率视频帧子图像、权值图像子图像以及高分辨率视频帧子图像作为一个训练样本。

示例性的，可以使用Flownet2.0作为光流预测器，使用双三次插值，取r＝4，N＝128，得到了136950个训练样本。

本发明实施例中，权值定义为光流的模值，权值图像计算公式为：

其中，u、v分别为光流图中代表光流水平分量和竖直分量的两个通道图。

b、对于面向时间的视频超分辨率网络，通过下述处理方式得到相应的训练样本：

如图2的右下部分所示，从收集的训练视频中随机抽取相邻两帧作为一对高分辨率参考帧，并通过光流预测模块得到二者之间的光流图；

然后，根据一对高分辨率参考帧抽取一对高分辨率视频序列：每个高分辨率视频序列包含以一个高分辨率参考帧为中心位置的2k+1(k≥0)张时间连续的视频帧；示例性的，假设一对高分辨率参考帧是第t帧和第t+1帧，且k＝2，则这一对高分辨率视频序列为(t-2,t-1,t,t+1,t+2)帧组成的视频序列和(t-1,t,t+1,t+2,t+3)帧组成的视频序列；

之后，随机从一对高分辨率视频序列、光流图和一对高分辨率参考帧的相同的位置截取大小为N×N像素的子图像，获得一对高分辨率视频子图像序列、光流图子图像以及高分辨率参考帧子图像；再通过插值将一对高分辨率视频子图像序列下采样r倍，变为一对低分辨率视频子图像序列，则一对低分辨率视频子图像序列、光流图子图像以及高分辨率参考帧子图像作为一个训练样本。

示例性的，可以使用TVL1算法进行光流预测，利用双三次插值，取k＝3，r＝4，N＝128，得到了143250个训练样本。

步骤2、对于面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，各自按照设定的损失函数结合相应的训练样本进行网络训练。

如前所述，本发明实施例考虑了面向空间与面向时间两个方面的视频超分辨率增强，因此，实际包含面向空间的视频超分辨率增强方法(SoSR)和面向时间的视频超分辨率增强方法(ToSR)。

本发明实施例中，不限定视频超分辨率网络所使用的网络结构，任何一种适用于图像或视频超分辨率的网络均可在本发明中使用。

在后续的示例中，使用VDSR网络结构实现了后述表1和表2中的SoSR和ToSR1网络；使用VSR-DUF网络结构实现了ToSR2网络。VDSR网络结构是由20个3X3的卷积层组成，除最后一个卷积层外，每个卷积层后都跟着一个Relu激活层；同时VDSR采用残差学习，即仅预测高分辨率标签和插值的低分辨率输入像素值之间的差。VSR-DUF是利用动态滤波器(DynamicUpsampling Filter)的多输入单输出的网络结构：首先，将一组输入低分辨率的视频帧序列送入由2D和3D卷积组成的动态滤波器生成子网络；然后，该子网络输出一系列上采样滤波器，用这些滤波器对输入低分辨率视频帧进行局部滤波，即可得到超分辨增强的结果图。

在训练阶段，对于面向空间的视频超分辨率网络与面向时间的视频超分辨率网络需要各自进行训练，同时，因为面向空间和面向时间的视频超分辨率网络有着各自的侧重，本发明为他们分别设计了相应的损失函数。

1)训练面向空间的视频超分辨率网络。

面向空间的视频超分辨率网络的侧重点在于增强视频每帧的可识别性能。故本发明设计了加权的均方误差损失和高层次图像特征损失，来分别约束超分辨率增强后图像的像素层面相似度以及特征层面相似度。

如图3所示，对于面向空间的视频超分辨率网络，按照设定的损失函数结合相应的训练样本进行网络训练，其优选实施方式为：

将低分辨率视频帧子图像I_LR输入至所述面向空间的视频超分辨率网络，输出增强后的图像记为

以权值图像子图像W_of为权，计算增强后的图像与高分辨率视频帧子图像I_HR之间的加权均方误差损失；

同时，通过卷积神经网络提取I_HR与之间的特征，分别记为F_HR和并计算二者之间的高层次图像特征损失；

所设定的损失函数即为加权均方误差损失函数与高层次图像特征损失函数，二者各自用来约束面向空间的超分辨率增强后图像的像素层面相似度与特征层面相似度，表达式如下：

其中，Loss_WMSE、Loss_Feature对应的表示加权均方误差损失函数、高层次图像特征损失函数；m与n是高分辨率视频帧子图像I_HR的高度和宽度，d表示卷积神经网络提取的特征维度；i，j是图像像素的坐标，s是图像特征的维度；

则面向空间的视频超分辨率网络最终的损失函数表示为：

Loss_SoSR＝(1-α)Loss_WMSE+αLoss_Feature；

其中，α为设定的系数。

示例性的，卷积神经网络可以采用VGG16网络，卷积神经网络提取的特征可以使用Conv3_3卷积层经过Relu激活后的特征图。

计算出相应的损失之后，按照常规网络训练方式即可完成网络训练，即：通过错误反向传播算法对面向空间的视频超分辨网络的参数进行修正和更新；将更新参数后的面向空间的视频超分辨网络应用于下一组训练样本，如此反复，直到面向空间的视频超分辨网络在验证集上总损失的数值变得平稳。例如，在本实验中，在将所有训练样本遍历60遍后，验证集的总损失的数值基本不再变化，即代表训练的结束。

2)训练面向时间的视频超分辨率网络。

面向时间的视频超分辨率网络的侧重点在于增强视频各帧之间的时间连续性，这在本发明中是通过重建损失(SR loss)和扭曲损失(warp loss)实现的。

如图4所示，对于面向时间的视频超分辨率网络，按照设定的损失函数结合相应的训练样本进行网络训练，其优选实施方式为：

将一对低分辨率视频子图像序列各自输入至一个面向时间的视频超分辨率网络；两个面向时间的视频超分辨率网络的输出的增强后的图像分别记为和高分辨率参考帧子图像分别记为I_t和I_t+1；其中，t表示视频帧的序号；如图4所示，低分辨率视频子图像序列t-k：t+k表示从第t-k帧到t+k帧这样一个视频子图像序列；

本发明实施例中，面向时间的视频超分辨率网络具有相同的网络结构且二者共享参数。

本发明实施例中，希望面向时间的视频超分辨率网络的输出和各自拥有较高的质量，所以使用均方误差(MSE)作为约束，因而，依据图像与I_t、以及图像与I_t+1计算相应的重建损失，其公式为：

上式中，分别表示图像与I_t、图像与I_t+1的均方误差；

同时，希望输出和保留时间连续性，因而，利用光流图子图像F_t→t+1(下标表示光流的计算方向)通过扭曲层将图像扭曲为图像公式为：

其中，p代表图像像素点的坐标；

再分别计算图像与以及图像与I_t的均方误差(MSE)作为扭曲损失：

则面向时间的视频超分辨率网络最终的损失函数表示为：

Loss_ToSR＝α’Loss_SR+βLoss_warp-SR+γLoss_warp-HR

其中，α’、β与γ均为设定的系数。

计算出相应的损失之后，按照常规网络训练方式即可完成网络训练，即：通过错误反向传播算法对面向时间的视频超分辨网络的参数进行修正和更新；将更新参数后的面向时间的视频超分辨网络应用于下一组训练样本，如此反复，直到面向时间的视频超分辨网络在验证集上总损失的数值变得平稳。例如，在本实验中，在将所有训练样本遍历60遍后，验证集的总损失的数值基本不再变化，即代表训练的结束。

步骤3、对于待增强的视频，将其拆分为视频帧的形式，并分别输入至训练好的面向空间的视频超分辨率网络与面向时间的视频超分辨率网络，从而获得超分辨率增强后的视频。

当通过以上方式训练好面向空间的视频超分辨率网络与面向时间的视频超分辨率网络后，就可以对输入的待增强的视频(低分辨率视频)进行增强处理。即：

首先将其拆成视频帧的形式分别送入训练好的面向空间的视频超分辨率网络(SoSR)和面向时间的视频超分辨率网络(ToSR)，也就是说将同一个视频针对空间信息和时间的信息分别增强一次。

之后，就可以进行视频分类工作，通常将面向时间的视频超分辨率网络(ToSR)的输出处理成必要的输入形式(如光流图)，与面向空间的视频超分辨率网络(SoSR)输出的增强后的视频帧一起送入视频分类网络进行视频分类。

为了说明本发明的性能我们还进行了相关测试。

测试条件：1)数据集：UCF101和HMDB51动作识别数据集；2)视频分类网络：TSN和ST-Resnet；3)基线方法：插值方法双三次插值(Bicubic)，图像超分辨率增强方法VDSR和两个视频超分辨率增强方法SPMC和VSR-DUF。

表1与表2报告了用上述两个视频分类网络在两个动作识别数据集上测试所得到的分类正确率，其中表1为用TSN作为分类网络时各个超分辨率增强方法性能对比结果，表2为用ST-Resnet作为分类网络时各个超分辨率增强方法性能对比结果；“Spatial”列和“Temporal”列分别为只利用空间信息和只利用时间信息的分类性能，“Fusion”列为两种信息都用的结果。

表1各个超分辨率增强方法增强TSN网络分类性能对比结果

表2各个超分辨率增强方法增强ST-Resnet网络分类性能对比结果

表1和表2证明了上述本发明实施例方案相对于现有的图像和视频超分辨率增强方法，在提高视频分类网络识别性能方面有明显的提升，并且可以看到在HMDB51数据集上，按照本发明实施例提出方案训练得到的的ToSR2在增强时间信息方面获得了几乎与原始高分辨率视频(表格中的HR行)持平的性能：在TSN上有61.24％V.S.62.16％；在ST-Resnet上有58.73％V.S.59.41％。

最后用一块NVIDIA GTX 1080Ti GPU测试时间花费如下：SoSR耗时1.5229秒/视频；ToSR2耗时1.8271秒/视频；光流计算耗时2.6810秒/视频,TSN分类耗时0.6416秒/视频。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种视频超分辨率增强方法，其特征在于，包括：

收集训练视频，并按照一定方式处理为训练样本；

2.根据权利要求1所述的一种视频超分辨率增强方法，其特征在于，对于面向空间的视频超分辨率网络，通过下述处理方式得到相应的训练样本：

从收集的训练视频中随机抽取相邻两帧作为一对高分辨率视频帧，并通过光流预测模块得到二者之间的光流图；

3.根据权利要求2所述的一种视频超分辨率增强方法，其特征在于，权值定义为光流的模值，权值图像计算公式为：

其中，u、v分别为光流图中代表光流水平分量、竖直分量的两个通道图。

4.根据权利要求1所述的一种视频超分辨率增强方法，其特征在于，对于面向时间的视频超分辨率网络，通过下述处理方式得到相应的训练样本：

从收集的训练视频中随机抽取相邻两帧作为一对高分辨率参考帧，并通过光流预测模块得到二者之间的光流图；

然后，根据一对高分辨率参考帧抽取一对高分辨率视频序列：每个高分辨率视频序列包含以一个高分辨率参考帧为中心位置的2k+1张时间连续的视频帧，其中，k≥0；

之后，随机从一对高分辨率视频序列、光流图和一对高分辨率参考帧的相同的位置截取大小为N×N像素的子图像，获得一对高分辨率视频子图像序列、光流图子图像以及高分辨率参考帧子图像；再通过插值将从一对高分辨率视频子图像序列下采样r倍，变为一对低分辨率视频子图像序列，则一对低分辨率视频子图像序列、光流图子图像以及高分辨率参考帧子图像作为一个训练样本。

5.根据权利要求1或2或3或4所述的一种视频超分辨率增强方法，其特征在于，所述收集训练视频的步骤包括：

在互联网上收集自然视频；然后保留自然视频的长宽比，通过插值的方法，处理为与超分辨率增强的目标视频分辨率相近的大小，处理后的视频即为训练视频。

6.根据权利要求2所述的一种视频超分辨率增强方法，其特征在于，对于面向空间的视频超分辨率网络，按照设定的损失函数结合相应的训练样本进行网络训练，其步骤包括：

则面向空间的视频超分辨率网络最终的损失函数表示为：

Loss_SoSR＝(1-α)Loss_WMSE+αLoss_Feature；

其中，α为设定的系数；

计算出相应的损失之后，通过错误反向传播算法对面向空间的视频超分辨网络的参数进行修正和更新；将更新参数后的面向空间的视频超分辨网络应用于下一组训练样本，如此反复，直到面向空间的视频超分辨网络在验证集上总损失的数值变得平稳。

7.根据权利要求4所述的一种视频超分辨率增强方法，其特征在于，对于面向时间的视频超分辨率网络，按照设定的损失函数结合相应的训练样本进行网络训练，其步骤包括：

将一对低分辨率视频子图像序列各自输入至一个面向时间的视频超分辨率网络；两个面向时间的视频超分辨率网络的输出的增强后的图像分别记为和高分辨率参考帧子图像分别记为I_t和I_t+1；其中，t表示视频帧的序号；

依据图像与I_t、以及图像与I_t+1计算相应的重建损失，重建损失使用均方误差作为约束，其公式为：

上式中，分别表示图像与I_t、图像与I_t+1的均方误差；

同时，利用光流图子图像F_t→t+1通过扭曲层将图像扭曲为图像公式为：

其中，p代表图像像素点的坐标；再分别计算图像与以及图像与I_t的扭曲损失：

则面向时间的视频超分辨率网络最终的损失函数表示为：

Loss_ToSR＝α’Loss_SR+βLoss_warp-SR+γLoss_warp-HR

其中，α’、β与γ均为设定的系数；

计算出相应的损失之后，通过错误反向传播算法对面向时间的视频超分辨网络的参数进行修正和更新；将更新参数后的面向时间的视频超分辨网络应用于下一组训练样本，如此反复，直到面向时间的视频超分辨网络在验证集上总损失的数值变得平稳。

8.根据权利要求1所述的一种视频超分辨率增强方法，其特征在于，该方法还包括：利用超分辨率增强后的视频送入视频分类网络进行视频分类；所述超分辨率增强后的视频包括：训练好的面向空间的视频超分辨率网络输出的针对空间信息增强的视频，以及训练好的面向时间的视频超分辨率网络输出的针对时间的信息增强的视频。