CN109949217A

CN109949217A - 基于残差学习和隐式运动补偿的视频超分辨率重建方法

Info

Publication number: CN109949217A
Application number: CN201711384656.8A
Authority: CN
Inventors: 何小海; 王文君; 卿粼波; 任超; 陈洪刚; 滕奇志; 吴小强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2019-06-28
Anticipated expiration: 2037-12-20
Also published as: CN109949217B

Abstract

本发明公开了一种基于残差学习和隐式运动补偿的视频超分辨率重建方法。主要包括以下步骤：分别训练不同放大倍数的卷积神经网络模型；将相邻低分辨率视频帧作为输入，通过上一步骤训练的网络模型，得到最终的重建结果。本发明所述方法可以由低分辨率视频帧重建出高质量的高分辨率视频帧，是一种有效的视频超分辨率重建方法。

Description

基于残差学习和隐式运动补偿的视频超分辨率重建方法

技术领域

本发明涉及图像分辨率提升技术，具体涉及一种基于残差学习和隐式运动补偿的视频超分辨率重建方法，属于数字图像处理领域。

背景技术

在医学成像，视频监控和遥感成像等许多应用中，都需要捕获高质量的图像和视频。然而，在现实生活中，由于成像设备限制、大气扰动及场景运动变化等因素影响，实际获取的视频往往分辨率较低，给后续的视频处理和分析带来困难，难以满足人们的需求。提升图像和视频分辨率的方法主要有两种：一种是提高成像设备的物理分辨率；另一种是通过软件实现分辨率的提升。提高成像设备分辨率的方法，代价较高，且无法对已经存储的数据进行处理，因此，通过软件实现分辨率提升的超分辨率重建技术成为图像处理领域的一个研究热点。

超分辨率重建是一种从低分辨率图像或视频序列中恢复其高分辨率版本的方法。视频超分辨率重建方法主要分为基于重建的方法和基于学习的方法。其中，基于学习的方法由基于字典和基于卷积神经网络两类方法构成。近年来，随着计算机和智能技术的发展，基于卷积神经网络的方法取得了较大的进展，相比于传统的基于重建的方法，其运行速度快并且能够很好地恢复图像细节。然而，现有的基于卷积神经网络的视频超分辨率重建方法，在重建质量和网络结构有效性等方面还有进一步提升的空间。

发明内容

本发明的目的是结合基于残差学习的卷积神经网络的优点，进而构建一种有效的视频超分辨率重建方法。

本发明提出的基于残差学习和隐式运动补偿的视频超分辨率重建方法(enhancedvideo SR network with residual blocks，EVSR)，主要包括以下操作步骤：

(1)分别训练不同放大倍数的卷积神经网络模型；

(2)将相邻低分辨率帧作为输入，通过步骤(1)中训练的网络模型，得到最终的重建结果。

附图说明

图1是本发明基于残差学习和隐式运动补偿的视频超分辨率重建方法的原理框图。其中，(a)为本发明EVSR的训练及重建阶段的框图，(b)为(a)中残差模块结构图，(c)为维度调整层图解说明

图2是本发明与另外七种方法对测试视频“city”重建结果的对比图。其中，(a)为原始高分辨率图像，(b)为Bicubic处理结果，(c)到(h)为方法1到方法6的实验结果，(i)为本发明结果

图3是本发明与七种方法对测试视频“walk”重建结果的对比图。其中，(a)为原始高分辨率图像，(b)为Bicubic处理结果，(c)到(e)为方法1到方法3的实验结果，(f)到(h)为方法5到方法7的实验结果，(i)为本发明结果

图4是本发明与八种方法对测试视频“foliage”重建结果的对比图。其中，(a)为原始高分辨率图像，(b)为Bicubic处理结果，(c)到(i)为方法1到方法7的实验结果，(j)为本发明结果

具体实施方式

下面结合附图对本发明作进一步说明：

图1中，基于残差学习和隐式运动补偿的视频超分辨率重建方法，具体可以分为以下几个步骤：

(1)分别训练不同放大倍数的卷积神经网络模型；

(2)将相邻低分辨率帧作为输入，通过步骤(1)中训练的网络模型，得到最终的重建结果；

具体地，所述步骤(1)中，进行训练的卷积神经网络模型如图1(a)所示。卷积神经网络结构主要包括特征提取、非线性映射和重建三个部分。首先，通过第一层网络对输入的三个相邻低分辨率帧进行特征提取。然后，经非线性映射部分将一个高维特征非线性地映射到另一个高维特征。该操作是提升重建质量的重要部分。最后，使用反卷积层来获得重建结果。网络框架总共有11层，其中包括两个残差单元，一个带维度调整层的长连接和一个反卷积层。我们的深度网络可以充分利用时空信息并且隐式地捕捉相邻帧间的运动关系，所以，不同于以往基于卷积神经网络的视频超分辨率方法，EVSR不需要进行独立的运动补偿操作。另外，由于残差学习在提升收敛速度和网络重建效果方面表现突出，所以本发明使用残差模块和带有维度调整层的长连接来更好地预测高频信息。

通过实验论证，本发明的深度卷积神经网络可以精确地并且隐式地从训练库中学习相邻帧之间的运动关系。如果将运动补偿和卷积神经网络分离，由运动补偿帧带来的估计误差可能会扩散到重建阶段，并影响最终的重建结果。因此，在训练及重建过程中的显式的运动补偿可以省去。此外，在训练和重建阶段，隐式运动补偿还可以在一定程度上减少显式运动补偿所消耗的时间。

残差模块由三个卷积层和三个激励层(Parametric Rectified Linear Unit,PReLU)组成，其中最后一个激励层在求和操作之后，详细结构见图1(b)。残差模块的公式表示如下：

x_i+1＝p[x_i+f(x_i,W_i)] (1)

式中，x_i是残差模块的第i个输入，W_i＝{w_i,q|1≤q≤Q}是和第i个残差模块相关的一组权重，Q是残差模块中卷积层的数量。f代表残差操作，如图1(b)中虚线框所示。p代表激励函数，在本发明中使用PReLU。PReLU被定义为：

p(z)＝max(z,0)+a min(0,z) (2)

式中，z是函数p的输入，a是可以被PReLU学习到的参数。当a是一个固定的很小的非零数时，它可以被看做LeakyReLU；当a＝0时，PReLU等价为ReLU。为方便讨论，我们仅给出当z大于0时的分析，其他情况以此类推：

x_i+1＝x_i+f(x_i,W_i) (3)

将多个残差模块级联，可得：

从公式(4)中，我们可以得出以下信息：1)在任意模块i和I之间，模型总是残差形式；2)公式(4)是先前残差公式的和。不同于没有残差的网络，x_I源自一系列矩阵向量。

公式(4)也有很好的反向传播特性。定义损失函数为Φ，可得：

从公式(5)(6)中可得，梯度可以被分解为两部分，仅有通过卷积层传播信息。带有的项保证信息可以被传播到前面的模块。不可能总是-1，所以不太可能消失。换句话说，即使权重特别小，卷积层的梯度也不会消失。

残差模块能够降低卷积层中梯度消失的风险，而且，拟合残差比拟合原始真实图像更容易。

广义地说，维度调整层用于解决如图1(c)所示的不同数量和尺寸的特征或图像的求和问题。具体来说，假设输入特征的尺寸为s₁×s₁，个数为k₁，输出特征尺寸为s₂×s₂，个数为k₂。如果s₁＝s₂，k₁＝k₂，那么这些特征可以直接相加。但如果不符合上述情况，则需要通过特殊操作，使其维度匹配，进而进行求和操作。所以，我们提出了由卷积层构成的维度调整层来解决此问题。维度调整层的神经元尺寸和个数分别设置为(s₂-s₁+1)×(s₂-s₁+1)和k₂。在本发明中，为了引入全局残差策略，我们使用维度调整层实现了不同尺寸和数量的输入帧和残差图像的求和。

所述步骤(2)中，将相邻低分辨率帧输入步骤(1)中训练的网络模型，得到最终重建结果。

为了更好地说明本发明的有效性，在常用测试视频库“Videoset4”(包括“walk”、“calendar”、“foliage”和“city”四个视频)和一些其他视频上进行了比较实验。模拟低分辨率视频帧的生成方式：使用双三次插值分别进行2、3和4倍下采样。实验中，选取双三次插值Bicubic及8种典型的单幅图像超分辨率和视频超分辨率算法作为对比方法。

对比的超分辨率重建算法为：

方法1：Dong等人提出的方法，参考文献“C.Dong,C.C.Loy,K.He,and X.Tang,“Image super-resolution using deep convolutional networks,”IEEE transactionson pattern analysis and machine intelligence,vol.38,no.2,pp.295–307,2016.”。

方法2：Dong等人提出的方法，参考文献“C.Dong,C.C.Loy,and X.Tang,“Accelerating the super-resolution convolutional neural network,”in EuropeanConference on Computer Vision.Springer,2016,pp.391–407.”。

方法3：Kim等人提出的方法，参考文献“J.Kim,J.Kwon Lee,and K.Mu Lee,“Accurate image super-resolution using very deep convolutional networks,”inProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2016,pp.1646–1654.”。

方法4：Lai等人提出的方法，参考文献“W.S.Lai,J.B.Huang,N.Ahuja,andM.H.Yang,“Deep laplacian pyramid networks for fast and accurate super-resolution,”in IEEE Conference on Computer Vision and Pattern Recognition,2017.”。

方法5：Infognition Co.Ltd公司开发的一款Video Enhancer软件，参考文献“Infognition.(2010).Video Enhancer[Online].Available:http://www.infognition.com/videoenhancer.”。

方法6：Kappeler等人提出的方法，参考文献“A.Kappeler,S.Yoo,Q.Dai,andA.K.Katsaggelos,“Video super-resolution with convolutional neural networks,”IEEE Transactions on Computational Imaging,vol.2,no.2,pp.109–122,2016.”。

方法7：Caballero等人提出的方法，参考文献“J.Caballero,C.Ledig,A.Aitken,A.Acosta,J.Totz,Z.Wang,and W.Shi,“Real-time video super-resolution withspatio-temporal networks and motion compensation,”pp.2848–2857,2017.”。

方法8：Li等人提出的方法，参考文献“D.Li and Z.Wang,“Video super-resolution via motion compensation and deep residual learning,”IEEETransactions on Computational Imaging,2017.”。

对比实验的内容如下：

实验1，分别用Bicubic，方法1到方法8以及本发明对测试视频库“Videoset4”模拟生成的低分辨率视频帧进行2、3和4倍重建。其中方法7和8的作者没有提供代码和可用的模型，所以直接使用其论文中的数据进行比较。方法4仅提供二倍和四倍的模型。超分辨率重建结果分别如图2、图3和图4所示，重建结果的客观评价参数如表一所示。其中客观评价参数采用PSNR(Peak Signal to Noise Ratio)和SSIM(Structure Similarity Index)，两个参数的数值越高表明重建效果越好。

表一

实验2，分别用Bicubic，方法1到方法6以及本发明对“waterfall”、“tempete”、“crew”和“foreman”低分辨率视频帧进行2、3和4倍重建。其中方法7和8的作者没有提供代码和可用的模型，方法4仅提供二倍和四倍的模型。重建结果的客观评价参数如表二所示。其中客观评价参数采用PSNR(Peak Signal to Noise Ratio)和SSIM(StructureSimilarity Index)，两个参数的数值越高表明重建效果越好。

表二

从表一及表二所示的客观参数上看，在测试视频“Videoset4”、“waterfall”、“tempete”、“crew”和“foreman”，上本发明都取得了较高的PSNR和SSIM值。

图2、图3及图4展示了“Videoset4”中不同视频帧在2、3、4倍的重建结果。在图2中，由于其他算法的初始化双三次插值放大或不准确的运动补偿，建筑物顶部的窗户产生了模糊。但是本发明在这个部分能够恢复更精确的结构。同样，在图3和图4的轮胎和雪花上，本发明也表现出更好的重建效果。

综上所述，相比于对比方法，本发明的重建结果在主客观评价上都有很大优势。因此，本发明是一种有效的视频超分辨率重建方法。

Claims

1.基于残差学习和隐式运动补偿的视频超分辨率重建方法，其特征在于包括以下步骤：

步骤一：分别训练不同放大倍数的卷积神经网络模型；

步骤二：将相邻低分辨率帧作为输入，通过步骤一中训练的网络模型，得到最终的重建结果。

2.根据权利要求1所述的基于残差学习和隐式运动补偿的视频超分辨率重建方法，其特征在于步骤一中所述的卷积神经网络模型。该网络模型不同于传统基于卷积神经网络的视频超分辨率网络模型，由于本发明的深度卷积神经网络可以充分利用时空信息并且隐式地捕捉相邻帧间的运动关系，所以并不需要进行网络外的运动补偿或在网络中设置单独实现运动补偿的模块，从而省去以往方法中运动估计的时间。

3.根据权利要求1所述的基于残差学习和隐式运动补偿的视频超分辨率重建方法，其特征在于步骤一中所述的卷积神经网络模型。该模型中使用残差模块来提升收敛速度和重建效果，该残差模块由三个卷积层和三个激励层(PReLU)组成。残差模块能够降低卷积层中梯度消失的风险，同时，拟合残差也比拟合原始真实图像更容易。

4.根据权利要求1所述的基于残差学习和隐式运动补偿的视频超分辨率重建方法，其特征在于步骤一中所述的卷积神经网络模型。模型中使用带有维度调整层的长跳连接来预测高频细节。广义来说，维度调整层可以解决不同维度的图像或特征的匹配问题。假设输入特征的尺寸为s₁×s₁，个数为k₁，输出特征尺寸为s₂×s₂，个数为k₂。如果s₁＝s₂，k₁＝k₂，那么这些特征可以直接相加。但如果不符合上述情况，则需要通过特殊操作，使其维度匹配，从而进行求和操作。所以，我们提出了由卷积层构成的维度调整层来解决此问题。维度调整层的神经元尺寸和个数分别设置为s₂-s₁+1和k₂。在本发明中，为了引入全局残差策略，我们使用维度调整层实现了不同尺寸和数量的输入帧和残差图像的求和。