CN108259994B

CN108259994B - 一种提高视频空间分辨率的方法

Info

Publication number: CN108259994B
Application number: CN201810036647.8A
Authority: CN
Inventors: 颜波; 李可; 马晨曦
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-10-30
Anticipated expiration: 2038-01-15
Also published as: CN108259994A

Abstract

本发明属于视频编辑技术领域，具体为一种提高视频空间分辨率的方法。视频超分是计算机视觉领域的一个重要分支，它利用视频每一帧内的局部关联信息以及相邻帧之间包含的相关信息来重构具有更高分辨率的视频。本发明方法不仅考虑当前帧内部像素的局部冗余信息，还结合前后相邻帧时间维度的关联性获得低分辨率视频中丢失的高频细节信息恢复原始视频帧的内容，达到了增强视频分辨率丰富细节纹理的效果。实验结果表明，本方法较好地实现了视频分辨率的提升，使得视频具有更加清晰的视觉质量、更丰富的内容及更高的研究应用价值。

Description

一种提高视频空间分辨率的方法

技术领域

本发明属于视频编辑技术领域，具体涉及一种视频超分，更具体地涉及提高视频空间分辨率的方法。

背景技术

传统的视频超分技术基本是作为传统的图像超分技术的研究分支。它是一门具有较高科学研究价值及较为广泛应用领域的现代视频处理技术。

视频分辨率是视频质量的重要指标，分辨率越高，细节越精细，质量越佳，视频提供的信息越丰富。因此高分辨率视频在各个领域有着重要的应用价值及研究前景。但由于视频在采集、存储、传输过程中的限制或干扰，导致其存在不同程度的质量退化。通常获取高分辨率视频最直接的方法是使用高分辨率相机，但由于成本问题，实际情况下许多应用并没有条件使用高分辨率相机。而视频超分技术采用基于信号处理的方法提高视频分辨率，是一种有效提高视频分辨率、改善视频性能的途径，并且该方法成本低，因此对高效高质量的视频超分技术的研究显得更加重要。

视频超分不是简单的扩大视频尺寸，它产生了新的包含更有价值信息的视频。目前，这类视频超分技术在生物医学、航空研究、军事应用、视频监控、视频格式转换、视频增强和复原(如老旧电影的翻制)、显微成像、虚拟现实等领域都表现出巨大的应用潜力。

本发明方法涉及视频超分技术，是在已有的低分辨率视频的基础上通过利用视频每帧内的局部信息及相邻帧间的关联信息，重构出内容更丰富、细节更清晰的视频帧，生成分辨率更高的视频序列。视频超分技术的主要思想是采用一定的算法，从低分辨率的视频序列重构出高分辨率视频序列，从而使获得的视频明显减少模糊、噪声等瑕疵而具有更丰富的高频细节及纹理信息而表现出更好的视觉质量，这类视频超分技术是计算机视频处理领域的一个基本问题。

视频超分可以通过基于插值的算法、基于实例方法和基于神经网络的方法来实现。早期的超分方法是基于插值的，如双三次插值和兰索斯重采样，由于超分是一种不适定问题，每个像素从低分辨率视频到高分辨率视频的映射上有许多解，并且这类方法仅使用低分辨率视频的信息，因此很难模拟真实视频的视觉复杂性，对于纹理复杂、平滑着色的视频，插值法很可能生成不真实的效果。不能很好地重构出高分辨率视频。

因此超分需要很强的先验来约束解空间，最近大多数较好的方法多采用基于实例的策略来学习强大的先验知识。该方法通过找到多个低分辨率碎片与高分辨率碎片间的对应关系，为每个低分辨率碎片在低分辨率视频帧中找到与该碎片最相似的几个碎片，并计算出使重构代价最小的权值参数，最后使用多个低分辨率片和权值参数来生成高分辨率片形成高分辨率视频。该方法的不足是会损失视频中的高频内容，此外由于存在重叠片的计算会导致计算量的增大。

近年来，随着CNN在计算机视觉领域的应用，出现了许多基于CNN的图像超分方法。这些方法实现了这一技术突破性的发展，其中以SRCNN^[1]及VDSR^[3]方法最具代表性。通过对视频每一帧采用这些方法可以简单地将图像超分扩展到视频超分领域。

C.Dong等人在2015年提出来基于卷积神经网络的图像超分方法(SRCNN)，通过学习低分辨率和高分辨率图像间的映射关系来重建高分辨率图像。映射表现为一个CNN，将低分辨率图像作为输入，将高分辨率图像作为输出。该方法利用了神经网络的优越性，将图像超分问题建模为神经网络结构，通过优化目标函数训练合适的神经网络得到简单有效的增强图像分辨率的模型。

神经网络容易对大量训练集数据学习得到，此外一旦训练好超分的模型后，对高分辨率图像的重构就是简单的前馈过程，因此计算复杂度也得到大幅度降低。C.Dong等人又对SRCNN方法进行了改进，提出了FSRCNN^[2]方法，改进了神经网络的结构实现更快的超分效果。

Kim J等人2016年通过加深神经网络结构在图像分辨率上取得了更好的效果，同时利用残差学习提高网络效率加快网络的训练速度。

在以上基于CNN的图像超分技术的基础之上，Kappeler A在2016年等人提出了基于CNN的视频超分技术VSRnet^[4]，该技术不仅对视频每一帧使用图像超分方法进行重构，还结合了视频相邻帧间相关性，利用了更多的信息来重构视频，得到更好的视频超分效果。但这种方法需要对输入的视频进行上采样预处理，增加了超分过程的计算复杂度，CaballeroJ等人2016年又提出了一种新的视频超分网络结构VESPCN^[5]，将视频上采样的预处理操作融入神经网络的结构，加快了视频超分的过程。

随着神经网络在超分领域实现的越来越好的效果，更多的学者通过继续改进神经网络的结构、对视频相邻间信息的融合方式，在超分结果的质量及速度方面不断得到突破。

发明内容

为了改进现有技术得到更好的超分效果，本发明的目的在于提供一种提高视频空间分辨率的方法，以便提升低分辨率视频的质量，缩短超分时间。

本发明提供的提高视频空间分辨率的方法，具体步骤如下：

(1)视频相邻帧之间的运动补偿和多帧信息融合

对于视频超分，分别对视频序列中的每一帧做超分处理，以对第n帧视频I_n的超分为例；本技术是在Niklaus S等人在2017年提出的视频插帧算法中使用的网络结构^[6]的基础上进行改进，来执行视频相邻帧的运动补偿；

具体过程如图1所示，对视频第n帧I_n进行超分时，首先将该帧I_n与其前后各两帧(I_n-2、I_n-1、I_n+1、I_n+2)聚合为lr(lr＝{I_n-2,I_n-1,I_n,I_n+1,I_n+2})，作为运动补偿网络的输入；通过运动补偿网络为当前帧的每一相邻帧分别计算8对在纵向和横向上的一维核(v₁，h₁)、(v₂，h₂)、...、(v₈，h₈)，v、h分别表示求出的垂直、水平方向的核；总共得到32对一维卷积核，记为：(v_n-2,1,h_n-2,1)、(v_n-2,2,h_n-2,2)、...、(v_n-2,8,h_n-2,8)、(v_n-1,1,h_n-1,1)、(v_n-1,2,h_n-1,2)、...、(v_n-1,8,h_n-1,8)、(v_n+1,1,h_n+1,1)、(v_n+1,2,h_n+1,2)、...、(v_n+1,8,h_n+1,8)、(v_n+2,1,h_n+2,1)、(v_n+2,2,h_n+2,2)、...、(v_n+2,8,h_n+2,8)，其中，(v_i,j，h_i,j)表示为第i帧求出的第j对一维卷积核；v_n-2,1表示为第n-2帧求出的第1个垂直方向的核，h_n-2,1表示为第n-2帧求出的第1个水平方向的核；

得到32个一维核后，每对核分别与网络的输入lr进行卷积得到1个feature map，一共得到32个feature map(f_n-2,1、f_n-2,2、...、f_n-2,8、f_n-1,1、f_n-1,2、...、f_n-1,8、f_n+1,1、f_n+1,2、...、f_n+1,8、f_n+2,1、f_n+2,2、...、f_n+2,8),其中，f_i,j表示使用核(v_i,j，h_i,j)对lr进行卷积处理后得到的feature map，f_n-2,1表示使用核(v_n-2,1，h_n-2,1)对网络的输入lr进行处理得到的featuer map；最后再将这些feature map与当前帧聚合起来作为网络此步的输出q(q＝{In,f_n-2,1,...,f_n-2,8,f_n-1,1,...,f_n-1,8,f_n+1,1,...,f_n+1,8,f_n+2,1,...,f_n+2,8})，并将其输入下一步网络中；这样同时实现了视频超分过程中相邻帧运动信息抵消和相邻帧图像的特征信息与当前帧融合；

(2)重构当前帧

在融合了相邻视频帧信息的基础上，将上一步得到的特征图与当前帧的合并结果q输入到单视频帧重构的网络中；这一步类似于图像超分的过程，将输入的feature map经过该重构网络的处理得到当前帧的残差图，将上采样后的当前帧与该残差图结合，得到网络最终输出的超分后的视频帧

本发明利用了视频序列中存在的相邻帧之间具有相似结构的特性，使用相邻帧间的相关信息来产生更好的重构效果。例如，对于视频第n帧I_n的4倍超分，需要利用视频中第n-2、n-1、n+1和n+2帧的信息。但由于视频中存在着运动，因此要先抵消掉相邻帧与当前帧间存在的运动误差。

本发明步骤(1)中，没有显式地执行运动估计和运动补偿步骤来抵消掉视频相邻帧间的像素位移，而是通过一个神经网络学习出的一维卷积核来对视频序列中的相邻帧进行处理，隐式地包含了运动及多帧特征融合操作。使运动估计和运动补偿过程整合到神经网络中，可以通过网络训练来学习这一过程，得到了更好的效果。同时可以与超分网络无缝结合，实现端到端的视频超分结构，实现了高效的计算速度。此外，步骤(1)中没有将运动估计与运动补偿的实现分开，而是使用求出的核来统一处理相邻帧，在效果上相当于实现了将视频相邻帧对齐到当前帧的状态，即运动估计和运动补偿。最后可以通过将feature map与插值后的帧I_n简单的合并来实现信息融合。

本发明步骤(2)中，要对该步的输入q进行预处理操作。具体预处理的步骤为：处理q得到水平梯度图、垂直梯度图和亮度图，然后将这三张图合并得到重构网络的输入，具体合并方法是水平梯度图作为合并后图像的第一维，垂直梯度图作为第二维，亮度图作为第三维。

本发明步骤(2)中，在视频每一帧超分的网络结构框架中，本发明提出了一种新的基于gated highway unit的神经网络--重构网络，可实现更好的超分效果。该重构网络结构如图4所示，包括：依次连接的d个gated highway unit，以及deconvolution，d>＝1；

视频每一帧的重构：首先将预处理后的输入信号送入该视频帧重构网络中，将输入信号输入到d个(提供的效果图都是在d＝7的情况下得到的)gated highway unit中，并经deconvolution单元，得到残差r。最后残差r和输入的低分辨率视频帧的亮度图相加得到最终的高分辨率图像。

本发明步骤(2)中，视频帧重构网络中使用的gated highway unit，其结构如图5所示：在输入与输出之间包括上下两个通道；上通道依次为一个卷积层、一个sigmoid层，下通道包含三个卷积层、一个dropout层及两个ReLU层；依次为：dropout层，卷积层1，ReLU层1，卷积层2，ReLU层2，卷积层2；上下两个通道最后在聚合层汇合；上层通道的输出g、下层通道的输出y及输入信号x通过聚合层结合起来，最后得到公路单元的输出。

首先，把此单元前一层输出的信号作为输入x送给上下两个通道，经过上下两个通道的处理，上层通道的输出g、下层通道的输出y及输入信号x汇合到聚合层，聚合层将三者结合起来，最后得到公路单元的输出，即聚合层的输出为：

Output＝g*y+(1-g)*x。

这一单元的精髓就是由上通道学出一个权值g，用来合并单元的输入和下通道的输出y。每一个gated highway单元输出之前还要考虑它的输入信号，这也是所提方法在相同参数量的情况下性能比其他方法都好的原因。网络设计上还有一个创新点就是把dropout层部署在每一个公路单元下通道的最前面，其他方法都会把dropout放在网络结构中的最后。按本发明部署，不论公路单元数目设置为多少，所训的网络都会收敛，而且性能也会比同等参数量的其他网络结构要好。

本发明的有益效果在于：本发明提出的方法不仅利用视频每一帧内部的信息使用传统图像超分方法对视频每一帧进行超分处理，也考虑到相邻视频帧间的相关性对每一帧视频重构的影响。本发明主要针对视频质量要求较高的应用领域。本方法直接将低分辨率视频输入到训练好的网络结构中，执行前向操作得到最终的高分辨率视频，不需要其他额外操作，增强最终视频质量，简化视频超分过程。

附图说明

图1为本发明的流程图(整体网络)。

图2为运动补偿网络中计算核部分的图示。

图3为运动补偿网络中融合相邻帧部分图示。

图4为视频每一帧的重构网络结构图示。

图5为视频帧重构网络中使用的gated highway unit的结构图示。

图6为利用本方法对视频超分的效果对比图。(a)原图，(b)低分辨率图像，(c)超分后的图像。

具体实施方式

图1为对一个低分辨率视频序列的其中一帧(第n帧I_n)的超分过程，具体扮步骤为：

(1)首先将当前帧I_n与其前后各两帧图像(I_n-2、I_n-1、I_n+1、I_n+2)聚合为lr(lr＝{I_n-2,I_n-1,I_n,I_n+1,I_n+2})。再将lr输入到运动补偿网络中，为每一帧输出8对一维卷积核(v₁，h₁)、(v₂，h₂)、...、(v₈，h₈)。总共得到32对一维卷积核(v_n-2,1,h_n-2,1)、(v_n-2,2,h_n-2,2)、...、(v_n-2,8,h_n-2,8)、(v_n-1,1,h_n-1,1)、(v_n-1,2,h_n-1,2)、...、(v_n-1,8,h_n-1,8)、(v_n+1,1,h_n+1,1)、(v_n+1,2,h_n+1,2)、...、(v_n+1,8,h_n+1,8)、(v_n+2,1,h_n+2,1)、(v_n+2,2,h_n+2,2)、...、(v_n+2,8,h_n+2,8)，其中(v_i,j，h_i,j)表示为第i帧求出的第j对一维卷积核；

(2)将当前帧I_n使用bicubic方法上采样到与高分辨率视频帧相同大小。然后使用生成的32对卷积核分别对网络的输入lr处理生成32个feature map(f_n-2,1、f_n-2,1、...、f_n-2,8、f_n-1,1、f_n-1,2、...、f_n-1,8、f_n+1,1、f_n+1,2、...、f_n+1,8、f_n+2,1、f_n+2,2、...、f_n+2,8),其中f_i,j表示使用核(v_i,j，h_i,j)对lr进行卷积处理后得到的feature map。最后再将这些feature map与当前帧聚合起来作为网络此步的输出q(q＝{In,f_n-2,1,...,f_n-2,8,f_n-1,1,...,f_n-1,8,f_n+1,1,...,f_n+1,8,f_n+2,1,...,f_n+2,8})；

(3)将上一步的输出q输入到超分子网络中，将该帧视频超分重构出高分辨率的视频帧

图2为运动补偿网络的求核过程，其具体步骤为：

输入lr依次经过一个卷积层、一个ReLU层、两个卷积层、一个最大池化层、两个卷积层、一个最大池化层、一个卷积层、一个双线性插值层、一个卷积层，将得到的输出与第一个最大池化层的输出通过一个跳跃连接合并。将合并后的信号再依次经过两个卷积层、一个双线性插值层、一个卷积层，将这一步的输出与之前的ReLU层的输出通过一个跳跃连接合并起来，把合并后的信号经过一个卷积层处理后分别经过四个对应于相邻的四帧的不同卷积层，每个卷积层得到的一组输出包括8对一维卷积核(v₁，h₁)、(v₂，h₂)、...、(v₈，h₈)。总共得到4组输出一共32对一维卷积核(v_n-2,1,h_n-2,1)、(v_n-2,2,h_n-2,2)、...、(v_n-2,8,h_n-2,8)、(v_n-1,1,h_n-1,1)、(v_n-1,2,h_n-1,2)、...、(v_n-1,8,h_n-1,8)、(v_n+1,1,h_n+1,1)、(v_n+1,2,h_n+1,2)、...、(v_n+1,8,h_n+1,8)、(v_n+2,1,h_n+2,1)、(v_n+2,2,h_n+2,2)、...、(v_n+2,8,h_n+2,8)，其中(v_i,j，h_i,j)表示为第i帧求出的第j对一维卷积核。

图3为运动补偿网络的相邻帧信息融合的过程，其具体步骤为：

将网络的输入lr用前一步的4组输出(每组包含8对一维卷积核)分别进行卷积处理，其中每对卷积核对lr处理得到一个feature map。最后对应得到4组输出(F_n-2,F_n-1,F_n+1,F_n+2)，每组输出包括8个feature map(F_n-2＝{f_n-2,1、f_n-2,2、...、f_n-2,8},F_n-1,＝{f_n-1,1、f_n-1,2、...、f_n-1,8},F_n+1＝{f_n+1,1、f_n+1,2、...、f_n+1,8},F_n+2＝{f_n+2,1、f_n+2,2、...、f_n+2,8}),其中f_i,j表示使用核(v_i,j，h_i,j)对lr进行卷积处理后得到的feature map。

图4为对视频当前帧进行重构的网络，具体步骤为：

将前一步的32个feature map与当前帧聚合起来作为这一网络的输入q。首先对q进行预处理得到q的水平梯度图、垂直梯度图和亮度图，将三者结合起来依次经过d个(提供的效果图都是在d＝7的情况下得到的)gated highway unit、一个去卷积层得到当前帧的残差。最后将得到的残差与输入q结合得到重构的当前帧作为整个超分网络的输出。

图5为重构网络中使用的gated highway unit的结构，具体步骤为：

公路单元的输入与输出之间包括上下两个通道，将前一步输出的信号分别输入公路单元的两个通道。上通道的结构依次为一个卷积层、一个sigmoid层，下通道包含三个卷积层、一个dropout层及两个ReLU层，依次为：dropout层，卷积层1，ReLU层1，卷积层2，ReLU层2，卷积层2。上下两个通道最后在聚合层汇合，上层通道的输出g、下层通道的输出y及输入信号x通过聚合层结合起来，得到公路单元的输出。

图6展示了使用本方法的效果图与原图、低分辨率输入图之间的对比。其中图(a)为原始的高分辨率视频序列中的第16帧图像。图(b)为网络的输入，是将原始高分辨率视频经过下采样操作得到的低分辨率视频序列的第16帧图像。图(c)为对图(b)进行超分后的效果。可以看出，本方法很好地实现了超分后视频帧细节信息的重构，比较完整地恢复了原图中的数字、字母等纹理内容，同时实现了视觉质量的增强，明显提升了视频清晰度。

参考文献：

[1]C.Dong,C.C.Loy,K.He,and X.Tang.Image super-resolution using deepconvolutional networks.IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),38(2):295–307,2015.(SRCNN)

[2]C.Dong,C.C.Loy,and X.Tang.Accelerating the super-resolutionconvolutional neural network.In European Conference on Computer Vision(ECCV),pages 391–407.Springer International Publishing,2016.(FSRCNN)

[3]Kim J,Lee J K,Lee K M.Accurate Image Super-Resolution Using VeryDeep Convolutional Networks[C]//IEEE Conference on Computer Vision andPattern Recognition.IEEE Computer Society,2016:1646-1654.(VDSR)

[4]Kappeler A,Yoo S,Dai Q,et al.Video Super-Resolution WithConvolutional Neural Networks[J].IEEE Transactions on Computational Imaging,2016,2(2):109-122.(VSRnet)

[5]Caballero J,Ledig C,Aitken A,et al.Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation[J].2016.(VESPCN)

[6]Niklaus S,Mai L,Liu F.Video Frame Interpolation via AdaptiveConvolution[J].2017。

Claims

1.一种提高视频空间分辨率的方法，其特征在于，具体步骤如下：

(1)视频相邻帧之间运动补偿并融合多帧信息

分别对视频序列中的每一帧视频，结合其相邻的4帧视频信息后单独做超分处理，以实现视频超分；设第n帧视频为I_n，首先对于视频插帧算法中的网络结构加以改进，用于执行视频超分过程中的相邻帧的运动补偿，即对于每一帧的超分：将该帧In与其前后各两帧：I_n-2、I_n-1、I_n+1、I_n+2合并为lr，lr＝{I_n-2,I_n-1,I_n,I_n+1,I_n+2}，作为网络的低分辨率输入；为每一个相邻帧分别计算8对在纵向和横向上的一维核{(v₁，h₁)、(v₂，h₂)、...、(v₈，h₈)}，v、h分别表示求出的垂直、水平方向的核；总共得到32对一维卷积核，记为：(v_n-2,1,h_n-2,1)、(v_n-2,2,h_n-2,2)、...、(v_n-2,8,h_n-2,8)、(v_n-1,1,h_n-1,1)、(v_n-1,2,h_n-1,2)、...、(v_n-1,8,h_n-1,8)、(v_n+1,1,h_n+1,1)、(v_n+1,2,h_n+1,2)、...、(v_n+1,8,h_n+1,8)、(v_n+2,1,h_n+2,1)、(v_n+2,2,h_n+2,2)、...、(v_n+2,8,h_n+2,8)，其中，(v_i,j，h_i,j)表示为第i帧求出的第j对一维卷积核；

得到32个一维核后，每对核分别与网络的输入lr进行卷积得到1个feature map，一共得到32个feature map：f_n-2,1、f_n-2,2、...、f_n-2,8、f_n-1,1、f_n-1,2、...、f_n-1,8、f_n+1,1、f_n+1,2、...、f_n+1,8、f_n+2,1、f_n+2,2、...、f_n+2,8，其中，f_i,j表示使用核(v_i,j，h_i,j)对lr进行卷积处理后得到的feature map；最后再将这些feature map与当前帧聚合起来作为网络此步的输出q：

q＝{In,f_n-2,1,...,f_n-2,8,f_n-1,1,...,f_n-1,8,f_n+1,1,...,f_n+1,8,f_n+2,1,...,f_n+2,8}，并将其输入下一步网络中；这样同时实现了视频超分过程中相邻帧运动信息抵消和相邻帧图像的特征信息与当前帧图像融合；

(2)重构当前帧

将上一步得到的特征图与当前帧的合并结果q输入到单视频帧重构的网络中；这一步类似于图像超分的过程，首先对输入信号进行预处理，再将其经过一个基于gated highwayunit的超分网络结构，执行若干次gated highway unit中定义的操作，得到当前帧的残差图，将上采样后的当前低分辨率帧与该残差图结合，得到网络最终输出的高分辨率视频帧

2.根据权利要求1所述的方法，其特征在于，在步骤(2)中，需要对该步的输入q进行预处理操作，其步骤为：首先对q进行处理得到水平梯度图、垂直梯度图和亮度图，最后合并这三张图得到重构网络的输入，合并方法是，水平梯度图作为合并后图像的第一维，垂直梯度图作为第二维，亮度图作为第三维。

3.根据权利要求1所述的方法，其特征在于，步骤(2)中在视频每一帧超分的网络结构框架中，采用新的基于gated highway unit的神经网络结构，首先将预处理后的输入信号送入该视频帧重构网络中，将输入信号输入到d个gated highway unit中，得到残差r，最后残差r和输入的低分辨率视频帧合并得到最终的高分辨率图像，d>＝1。

4.根据权利要求1所述的方法，其特征在于，步骤(2)中视频帧重构网络中使用的gatedhighway unit，其结构为：在输入与输出之间包括上下两个通道；上通道依次为一个卷积层、一个sigmoid层，下通道包含三个卷积层、一个dropout层及两个ReLU层；依次为：dropout层，卷积层1，ReLU层1，卷积层2，ReLU层2，卷积层2；上下两个通道最后在聚合层汇合；上层通道的输出g、下层通道的输出y及输入信号x通过聚合层结合起来，最后得到公路单元的输出；

操作时，首先把此单元前一层输出的信号作为输入x送给上、下两个通道，再上层通道的输出g、下层通道的输出y及输入信号x通过聚合层结合起来，最后得到公路单元的输出：

Output＝g*y+(1-g)*x。