CN109102462A

CN109102462A - 一种基于深度学习的视频超分辨率重建方法

Info

Publication number: CN109102462A
Application number: CN201810864938.6A
Authority: CN
Inventors: 章东平; 张香伟; 倪佩青
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-28
Anticipated expiration: 2038-08-01
Also published as: CN109102462B

Abstract

本发明公开了一种基于深度学习的视频超分辨率重建方法，其技术关键在于（1）给定同一镜头下连续图像，网络预测更清晰的视频帧图像；（2）采用双向循环神经网络和深度3D反向投影网络；（3）本发明将两个网络合并成一个网络，此网络作为本发明的深度学习的视频超分辨率重建的网络（4）训练数据为有标签，将处理的数据视频帧通过此网络得到损失函数。本发明最终目标是输入低分辨率视频帧经过双向循环网络预测视频帧的时间和空间上的信息，经过3D投影网络再预测视频帧的细节信息，经过反复训练得到一个最优模型，这个模型应用于去除相机的抖动、物体快速运动的模糊、失焦模糊、镜头光学模糊、景深变化、压缩失真和噪声等降质因素的影响。

Description

一种基于深度学习的视频超分辨率重建方法

技术领域

本发明属于视频处理领域，尤其涉及一种基于深度学习的视频超分辨率重建方法。

背景技术

视频超分辨率(super resolution,SR)是从一个低分辨率视频得到高分辨率视频的过程，该技术主要被用于对视频空间分辨率的增强，其可以突破原有的系统成像硬件条件的限制，重新获得的高分辨率视频具有更高的分辨率，更多的细节信息，更高质量的画质的特点，是目前获取高精度视频的最有效、最低成本的途径之一。

视频获取过程中，受成像条件和成像方式等因素的限制，成像系统通常并不能获取原始场景中的所有信息，在成像过程中会受到震动、变形、模糊、下采样和噪声等诸多因素的影响，从而造成获取的视频质量下降。因此，在不改变成像系统硬件设备的前提下，有效提高所获取的视频质量，一直以来都是成像技术领域所致力解决的核心问题。该项技术的研究具有重要的意义。

实际生活中对模糊视频的处理已经迫在眉睫，不管是相机抖动，雾霭，噪声，本身分辨率不够等多种原因，都需要一种有效的方法将不清晰的模糊的视频变为清晰的视频。一种方法是提高视频帧的分辨率，另一种就是提高视频帧的质量(类似photoshop中图像的品质)。由此也产生2个不同的研究方向：一个是超分辨率方向，一个是解模糊方向。超分辨率实现技术的方法有多种，这里我们阐述几个目前最常使用的方法：1)基于插值。该方法是目前超分辨率研究中最直观的方法。通过对该视频的多帧进行比较估计，得到它们之间的相对关系信息，以此获得高分辨率视频帧在非均匀间距采样点上的像素值。然后通过非均匀插值的方法，经过一定的插值，就可以得到一幅高分辨率的视频帧。当然，这样得到的视频帧会存在噪音、模糊等问题，因此可以通过图像恢复技术进行一定的修复。2)基于重建。该方法主要有配准和重建两个关键步骤。在配准时，利用多帧低分辨的图像作为数据一致性的约束，这样可以获得其他低分辨率的图像和参考低分辨图像之间的亚像素精度的相对运动。重建时，可以利用图像的先验知识对目标图像进行优化。该方法常见的算法有迭代方向投影、最大后验概率、凸集投影等。3)基于学习。该方法的前提是认为低分辨率的图像完全拥有用于推理预测其所对应的高分辨率部分的信息。这样就可以对一个低分辨率图像集进行训练，产生一个学习模型，这个模型可以计算出图像高频细节信息。目前有以下几种基于学习的代表性方法：Dong等率先将卷积神经网络引入到图像超分辨率问题当中，设计了基于深度卷积神经网络的图像超分辨率复原方法(Super resolution using convolutionneural network,SRCNN)。Kim等在SRCNN的基础上借鉴用于图像分类的VGG网络结构，提出极深网络的图像超分辨率复原方法(Accurate image super-resolution using verydeep convolutional network,VDSR)。与图像分类的极深网络不同，极深网络的超分辨率方法可以用更深网络对低分辨率图像和高分辨率图像之间映射关系建模。VDSR的方法具有20层深层网络，其缺乏层间信息反馈及上下文信息关联，为了解决此问题，Kim等提出了深度递归卷积神经网络的超分辨率方法(Deeply recursive convolutionak network,DRCN)。Christian等将生成式对抗网络用语SR问题,提出(Photo-Realistic Single ImageSuper-Resolution Using a Generative Adversarial Network,SRGAN)。其出发点是传统方法一般处理的是较小的放大倍数，当放大倍数在4以上时，很容易使得到的结果显得过于平滑，而缺少一些细节信息上的真实感。因此SRGAN使用GAN来生成图像中的细节。Bee Lim等提出了用于单一图像超分辨率的增强型深度残差网络(Enhanced Deep ResidualNetworks for Single Image Super-Resolution,EDSR)，是NTIRE2017夺冠论文。

虽然已有多种视频超分辨率复原方法，但是实际应用中仍存在一下问题：

(1)SR是一个逆问题，它的难点在于细节的恢复。

(2)真实多媒体应用中获得的低质量视频往往是多种降质因素并存的复杂降质视频，如相机的抖动、快速运动的物体、失焦模糊、镜头光学模糊、景深变化、压缩失真和噪声等降质因素的影响。

发明内容

本发明的目的在于针对上面技术的不足，提出一种基于深度学习的视频超分辨率重建方法，利用深度学习技术对低分辨率视频数据帧进行训练得到低分辨率视频帧到高分辨率视频帧之间的映射函数，从而达到超分辨率的效果。

本发明采用的技术方案是：

一种基于深度学习的视频超分辨率重建方法，包括以下步骤：

步骤1：训练与测试数据准备：(1)公开数据集采集：采集两组内容相同的公开视频M对，一组为低分辨率视频，另一组为相应的高清视频；(2)私有数据集采集：用不同的手机和不同的摄像机拍摄高清视频，总共采集N组高清视频，高清视频用H_i(i＝1、2、…N)表示；将采集的高清视频H_i使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频，其中生成相机运动V_i ^a(a＝1、2、…n_a)组，生成不同场景深度V_i ^b(b＝1、2、…n_b)组，生成运动模糊V_i ^c(c＝1、2、…n_c)组，总共采集P(P＝a+b+c)组低分辨率视频；然后将内容相同的低分辨率视频与高清视频一一对应，集合成P组视频对。

步骤2：视频对数据增强：将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧，把这些视频帧通过平移、旋转图像(0°，90°，180°，270°)和缩放图像(1/4,1/3,1/2)来增加数据；总共收集7×(M+P)组视频对，其中0.9×7×(M+P)组视频对作为训练数据，0.1×7×(M+P)组视频对作为测试数据，且训练数据和测试数据不交叉。

步骤3：视频对数据处理：将7×(M+P)对视频转化成连续的图像，用V_i ^t(i＝1、2、3…N，t＝1、2、…7×(M+P))表示视频的每一帧，把处理的视频图像数据存为HDF5(Hierarchical Data Format)文件。

步骤4：设计网络结构：本发明所提出的网络模型的体系结构将连续的3帧作为输入，前向循环神经网络输入正向低分辨率视频帧，反向循环神经网络输入反向低分辨率视频帧，经过双向循环神经网络后是一个卷积，每个卷积块的深度代表卷积后的特征数量，紧接着是放大投影卷积和缩小投影卷积，并将所有的放大投影特征融合，进行卷积输出结果。

步骤5：训练：确定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss。输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

步骤6：测试：输入同一镜头下连续帧低分辨率图像到训练好的神经网络模型中，神经网络的输出即为重建后的超分辨率视频帧。

步骤7：将得到的连续超分辨率视频帧合成视频。

附图说明

以下结合附图，对本发明的具体实施方式做进一步的详细描述。

图1为深度双向循环网络图。

图2为深度3D反向投影网络图。

图3为本发明的创新网络图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细的说明。

如图3所示，本发明的基于深度学习的视频超分辨率重建方法，包括如下步骤：

步骤4：设计网络结构：本发明所提出的网络模型的体系结构将连续的3帧作为输入，前向循环子网络输入正向低分辨率视频帧V_i ^t，所述正向视频帧从V₁ ^t帧到V_N ^t帧；反向循环子网络输入反向低分辨率视频帧V_i ^t，所述反向视频帧从V_N ^t帧到V₁ ^t帧；选定前向子网络和反向子网络隐藏层深度为n，双向循环神经网络后连接一个3D卷积层，每个卷积块的深度代表卷积后的特征数量；紧接着是放大投影卷积单元和缩小投影卷积单元，选定放大投影单元深度为f，选定缩小投影单元深度为f，所述放大投影单元依次是将缩小投影单元输出的结果作为3D卷积的输入，输出为L^t-1，接着进行3D反卷积，输出为H₀ ^t，再一次进行3D卷积，输出为L^t，L^t与L^t-1相减得到E^t，E^t进行3D卷积得到H₁ ^t，H₁ ^t与H₀ ^t相加得到H^t；所述缩小投影单元依次是将放大投影单元输出的结果作为3D卷积的输入，输出为H^t1，再一次进行3D卷积输出为L₀ ^t，紧接着进行3D反卷积，输出为H₀ ^t，H₀ ^t与H^t1相减得到E^t，E^t进行3D卷积得到L₁ ^t，L₁ ^t与L₀ ^t相加得到L^t；经过f个放大投影单元和f个缩小投影单元之后是连接层，连接层将所有放大投影单元输出的特征融合，将融合的特征进行3D卷积，输出结果。

步骤5：训练：选定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss。

(5a)选定损失函数Loss。在一种基于深度学习的视频超分辨率重建方法研究中采用的训练集为有标签数据，所述标签为低分辨率视频帧所对应的原始高分辨率视频帧。

采用欧式距离的计算方法,当前视频帧图像矩阵有W×H个元素(像素点)，用W×H个元素值(A₁,A₂,...,A_W×H)构成原始高分辨率视频帧图像的一维向量，用(a₁,a₂,...,a_W×H)构成重建高分辨率视频帧图像的一维向量，然后利用数学上的欧式距离公式计算这两个向量之间的距离，距离越小就说明两幅图像越相似。

进一步地，所述欧式距离公式为：

原始高分辨率视频帧图像I^H＝(A₁,A₂,...,A_W×H)

重建高分辨率视频帧图像I^S＝(a₁,a₂,...,a_W×H)

当前帧损失

(5b)将数据送入网络，数据先经过双向循环神经网络提取主要特征，然后特征数据经过深度3D反投影网络恢复视频帧的细节。

(5c)如图1所示为本发明网络的深度双向循环网络，双向循环神经网络的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络，前向子网络输入正向视频帧，反向子网络输入反向视频帧；循环神经网络在工作时一个重要的优点在于，能够在输入和输出序列之间的映射过程中利用前后帧相关信息；而双向循环神经网络的改进之处在于，假设当前的输出(第t帧的输出)不仅仅与前面的序列帧有关，并且还与后面的序列帧有关。例如：预测视频中一帧那么就需要根据前后帧来进行预测。双向循环神经网络是由两个循环神经网络叠加在一起组成的，输出由这两个循环神经网络的隐藏层的状态决定的。

(5d)增加双向深度循环神经网络的深度和广度，目的为了增加可学习参数的个数，从而增加网络的拟合能力。本发明实际在网络设计时，深度和广度都要考虑，在实验中测试深度和广度的比例，比较不同比例的深度和广度训练出的模型，比较哪一个比例能使损失函数最小，选定深度和广度比例为k的双向循环神经网络。

(5e)增加深度3D反向投影网络的深度，多次的重复实验选定网络深度为F的3D反向投影网络。

(5f)把5d和5e得到的网络合并为一个网络作为本发明网络。

输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

步骤6：测试：对用于测试的低分辨率视频进行镜头分割，把同一镜头的低分辨率视频输入到训练好的神经网络模型中，模型的输出即为重建后的超分辨率视频帧。

步骤7：将得到的连续超分辨率视频帧合成视频。

Claims

1.一种基于深度学习的视频超分辨率重建方法，其特征在于包括如下步骤：

步骤1：训练与测试数据准备：(1)公开数据集采集：采集两组内容相同的公开视频M对，一组为低分辨率视频，另一组为相应的高清视频；(2)私有数据集采集：用不同的手机和不同的摄像机拍摄高清视频，总共采集N组高清视频，高清视频用H_i(i＝1、2、…N)表示；将采集的高清视频H_i使用对抗网络生成具有多种相机运动、多种场景深度以及多种运动模糊低分辨率视频，其中生成相机运动V_i ^a(a＝1、2、…n_a)组，生成不同场景深度V_i ^b(b＝1、2、…n_b)组，生成运动模糊V_i ^c(c＝1、2、…n_c)组，总共采集P(P＝a+b+c)组低分辨率视频；然后将内容相同的低分辨率视频与高清视频对应组对，集合成P组视频对；

步骤2：视频对数据增强：将采集的M对公开视频和用对抗网络生成的P对视频生成视频帧，把这些视频帧通过平移、旋转图像(0°，90°，180°，270°)和缩放图像(1/4,1/3,1/2)来增加数据；总共收集7×(M+P)组视频对，其中0.9×7×(M+P)组视频对作为训练数据，0.1×7×(M+P)组视频对作为测试数据，且训练数据和测试数据不交叉；

步骤3：视频对数据处理：将7×(M+P)对视频转化成连续的图像，用V_i ^t(i＝1、2、3…N，t＝1、2、…7×(M+P))表示视频的每一帧，把处理的视频图像数据存为HDF5(HierarchicalData Format)文件；

步骤4：设计网络结构：本发明所提出的网络模型的体系结构将连续的3帧作为输入，前向循环子网络输入正向低分辨率视频帧V_i ^t，所述正向视频帧从V₁ ^t帧到V_N ^t帧；反向循环子网络输入反向低分辨率视频帧V_i ^t，所述反向视频帧从V_N ^t帧到V₁ ^t帧；选定前向子网络和反向子网络隐藏层深度为n，双向循环神经网络后连接一个3D卷积层，每个卷积块的深度代表卷积后的特征数量；紧接着是放大投影卷积单元和缩小投影卷积单元，选定放大投影单元深度为f，选定缩小投影单元深度为f，所述放大投影单元依次是将缩小投影单元输出的结果作为3D卷积的输入，输出为L^t-1，接着进行3D反卷积，输出为H₀ ^t，再一次进行3D卷积，输出为L^t，L^t与L^t-1相减得到E^t，E^t进行3D卷积得到H₁ ^t，H₁ ^t与H₀ ^t相加得到H^t；所述缩小投影单元依次是将放大投影单元输出的结果作为3D卷积的输入，输出为H^t1，再一次进行3D卷积输出为L₀ ^t，紧接着进行3D反卷积，输出为H₀ ^t，H₀ ^t与H^t1相减得到E^t，E^t进行3D卷积得到L₁ ^t，L₁ ^t与L₀ ^t相加得到L^t；经过f个放大投影单元和f个缩小投影单元之后是连接层，连接层将所有放大投影单元输出的特征融合，将融合的特征进行3D卷积，输出结果；

步骤5：训练：选定深度神经网络输入层节点数q个、输出层节点数e个、隐藏层数r层和隐藏层节点数t个、batch_size大小为u，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss；

选定损失函数Loss，在一种基于深度学习的视频超分辨率重建方法研究中采用的训练集为有标签数据，所述标签为低分辨率视频帧所对应的原始高分辨率视频帧；

采用欧式距离的计算方法,当前视频帧图像矩阵有W×H个元素(像素点)，用W×H个元素值(A₁,A₂,...,A_W×H)构成原始高分辨率视频帧图像的一维向量，用(a₁,a₂,...,a_W×H)构成重建高分辨率视频帧图像的一维向量，然后利用数学上的欧式距离公式计算这两个向量之间的距离，距离越小就说明两幅图像越相似；

反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型；

步骤6：测试：对用于测试的低分辨率视频进行镜头分割，把同一镜头的低分辨率视频输入到训练好的神经网络模型中，模型的输出即为重建后的超分辨率视频。

2.如权利要求1所述的基于深度学习的视频超分辨率重建方法，其特征在于所述欧式距离公式为：

原始高分辨率视频帧图像I^H＝(A₁,A₂,...,A_W×H)

重建高分辨率视频帧图像I^S＝(a₁,a₂,...,a_W×H)

当前帧损失