CN108805808A

CN108805808A - 一种利用卷积神经网络提高视频分辨率的方法

Info

Publication number: CN108805808A
Application number: CN201810293104.4A
Authority: CN
Inventors: 吴含前; 李程超; 姚莉; 李露
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-11-13

Abstract

本发明公开了一种利用卷积神经网络提高视频分辨率的方法，该方法针对视频图像序列构建了基于卷积神经网络的视频超分辨率重建模型，在模型构建过程中基于视频图像序列的特点设置了卷积神经网络的超参数，包括卷积核尺寸、神经网络层数等；然后利用单图像的超分辨率方法产生的图像训练权重用来初始化视频模型的权重参数，并充分利用视频帧间的冗余信息，以多帧视频图像作为卷积神经网络模型的输入，通过增量式的迭代方法，最终得到高分辨率的视频。本发明提出的视频超分辨率模型训练速度快且预测精度高，对比试验验证结果表明，相对于其他超分辨率算法，利用本发明的方法重建出的图像的峰值信噪比和结构相似性具有综合最优结果。

Description

一种利用卷积神经网络提高视频分辨率的方法

技术领域

本发明涉及视频处理方法，具体涉及一种利用卷积神经网络提高视频分辨率的方法。

背景技术

为了得到高分辨率的图像序列或者是视频，通过视频超分辨率(Video SuperResolution，VSR)技术，将原始的低分辨率视频进行进一步的后期放大处理，有利于提高视频资源的利用率，可将其应用到视频监控、卫星图像、医学图像处理等各个领域。超分辨率技术的应用条件简单，只要能够获得同一场景的不同低分辨率(Low Resolution，LR)图像即可。它在不增加硬件成本的条件下，通过已有的成像设备，利用算法来提高图像的分辨率，突破成像设备所得到图像空间分辨率的极限，然后得到具有较高分辨率(HighResolution，HR)的图像或者视频序列，非常经济而且方便。

视频超分辨率是超分辨率技术的进一步应用，是针对单张图像超分辨率的进一步改进，因为在视频序列中，有更多的冗余信息可以利用。当前已有利用卷积神经网络(Convolutional Neural Networs,CNN)进行超分辨率方法的研究，Chao Dong等在“Learning a Deep Convolutional Network for Image Super-Resolution”(inProceedings of European Conference on Computer Vision(ECCV),2014)中使用深度卷积神经网络在LR图像和HR图像之间构建了一个端到端的映射关系，第一次验证了卷积神经网络应用在图像超分辨领域的可行性，但该算法计算量复杂，且容易产生过拟合，不适合直接对多帧的视频进行处理。Armin Kappeler等在“Video Super-Resolution WithConvolutional Neural Networks”(《IEEE Transactions on Computational Imaging》,2016,2(2):109-122)中基于卷积神经网络，首先使用单帧图像的预训练参数，经过多层隐层将其转化为视频序列图像模型的参数，但他没有充分利用视频帧间的冗余信息，生成的高分辨率视频效果并不理想。

发明内容

发明目的：基于现有技术的不足，本发明提出一种利用深度卷积神经网络来提高视频分辨率的方法，通过深度卷积神经网络构建一个针对视频序列的超分辨率模型，使其计算复杂度有效降低，并能取得更好的重建质量。

技术方案：一种利用卷积神经网络提高视频分辨率的方法，包括训练阶段和重构阶段，在训练阶段，以多帧下采样视频图像作为卷积神经网络模型的输入，以单图像的超分辨率方法所产生的训练权重来初始化该卷积神经网络模型的权重参数，得到训练好的卷积神经网络模型；在重构阶段，将待处理的视频图像输入训练好的卷积神经网络模型，得到重构后的高分辨率图像。

所述卷积神经网络模型包括三层卷积层和两层池化层共5层架构，所述卷积层用于对输入的图像进行特征提取，所述池化层用于对输入的特征图进行压缩。5层架构依次为第一卷积层、第一池化层、第二卷积层、第二池化层和第三卷积层，第一卷积层、第二卷积层的卷积核大小均为3*3，第三卷积层的卷积核大小为5*5。

在训练阶段，所述卷积神经网络模型的输入图像序列为单帧图像的相邻前后d帧图像，即针对某重建帧，其图像输入共有2d+1张，即使用多张图像形成的向量进行模型的训练。可以采用串联的方式将图像连接起来，若图像的大小为H×W×3，则训练模型的输入图像向量大小为H×W×3×(2d+1)，其中d值的大小可以根据实验情况调节。模型的训练损失函数选择均方误差函数(MSE)，激活函数为ReLU。而采用的优化函数，即训练模型参数的方法，是基于梯度下降算法的改进。采用Adam算法，该算法结合了RMSProp和momentum动量方法，如下式所示：

m_t＝β₁m_t-1+(1-β₁)▽X_t-1

v_t＝β₂v_t-1+(1-β₂)▽(X_t-1)²

其中β₁,β₂∈[0,1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-8，▽X_t-1表示t-1次迭代中的参数梯度矩阵。在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。

本发明利用单图像的超分辨率方法所产生的训练权重来初始化视频超分辨率卷积神经网络模型的权重参数，这需要保证视频超分辨率模型中的卷积核尺寸以及数量和单张图像超分辨率模型(SRCNN)中保持一致。但是在视频超分辨率模型中，输入图像的大小是SRCNN的2d+1倍，所以第一卷积层的卷积核尺寸会是SRCNN的2d+1倍，而之后两层卷积层和SRCNN模型中的保持一致。因此需要将第一卷积层的输出尺寸减小到和下一层卷积层的大小一致。

对于单张图像来说，假设第一层的输出数据用H₁来表示，该层卷积核的维度为M×N×C，C是核数量，则某一卷积层像素点输出数据可用下式表示：

其中i,j是图像Y通道二维矩阵的索引值，w(·)是权重参数，b(·)是偏置，c是核的索引，y_t是t时刻的图像亮度值，本发明采用输入图像的YCrCb空间表示，在重建过程中只使用Y通道，即亮度。所以权重参数的维度是M×N×1×C，1代表只有一个图像通道。

对于视频超分辨率重建而言，有2d+1张输入图像对应图像帧时刻为t-d到t+d，则相应的输出图像数据表示为：

表示t'时刻的图像亮度值(在这里t'可以为t-d,...,t-2,t-1,t+1,t+2,...,t+d时刻，表示2d+1个时刻的输出值都是同样的公式，y拔代表值不定)。在权重的初始化时，处理第一张视频图像，将输入的2d+1幅图像设置为一致，那么y_t-d＝...＝y_t-2＝y_t-1＝y_t＝y_t+1＝y_t+2＝...＝y_t+d，则可以用图像超分辨率的权重初始化视频超分辨率的初始权重，它们的关系为：

w(m,n,t,c)＝w_v(m,n,t-d,c)+...+w_v(m,n,t-2,c)+w_v(m,n,t-1,c)

+w_v(m,n,t,c)+w_v(m,n,t+1,c)+w_v(m,n,t+2,c)+...+w_v(m,n,t+d,c)

b(c)＝b_v(c)

所以，可以得到视频超分辨率的初始化权重：

即将视频超分辨率模型的初始权重初始化为图像超分辨模型中权重的平均值。

有益效果：

1)本发明的卷积神经网络模型采用5层架构，在训练视频超分辨率模型时，既减少了局部最优的风险，又加快了模型收敛的速度。

2)本发明使用图像超分辨率模型的训练参数来初始化视频超分辨率模型的初始权重参数，不仅使训练过程能够快速收敛，提高了训练速度，而且使用相关图像的权重也能使得到的模型权重参数在预测时具有更好的精度。

附图说明

图1是本发明方法流程图；

图2是本发明构建的视频超分辨率模型架构图；

图3是根据本发明实施例的walk视频重建主观效果对比；

图4是根据本发明实施例的city视频重建主观效果对比。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明针对视频图像序列构建了基于卷积神经网络的视频超分辨率重建模型，在模型构建过程中基于视频图像序列的特点设置了卷积神经网络的超参数，包括卷积核尺寸、神经网络层数等；然后利用单图像的超分辨率方法产生的图像训练权重用来初始化视频超分辨率重建模型的权重参数，并充分利用视频帧间的冗余信息，以多帧视频图像作为卷积神经网络模型的输入，通过增量式的迭代方法，最终得到高分辨率的视频。参照图1，本发明提出的视频超分辨率方法，包括训练阶段和重构阶段，在训练阶段，以多帧下采样视频图像作为卷积神经网络模型的输入，以单帧原始高清视频图像的训练权重来初始化该卷积神经网络模型的权重参数，得到训练好的卷积神经网络模型；在重构阶段，将待处理的视频图像输入训练好的卷积神经网络模型，得到高分辨率图像。

本发明的超频超分辨率卷积神经网络模型包括三层卷积层和两层池化层共5层架构，卷积层用于对输入的图像进行特征提取，池化层用于对输入的特征图进行压缩。模型的训练损失函数选择均方误差函数(MSE)，激活函数为ReLU。三个卷积层中的每一层均包括卷积、非线性变换和下采样三个阶段，其中下采样不是必须的。卷积阶段，通过提取信号特征，来观测信号的模式；非线性变换阶段，对不同特征进行筛选，来提高模型的表达能力；下采样阶段，通常是进行池化操作，达到降低输出图的分辨率同时能保持高分辨率特征图描述特征的目的。由这三个单层卷积神经网络组成的可训练多层网络结构可构成用于单图像的超分辨率CNN模型(SRCNN)，其具体过程如下：

第一卷积层用于图像块的提取与表示，进行图像块特征向量的提取，通过式1来表达：

F₁(Y)＝max(0,W₁*Y+B₁) (1)

其中W₁和B₁分别代表滤波器参数和偏置，W₁的大小是c*f₁*f₁*n₁，f₁是滤波器的尺寸大小，n₁是滤波器的个数，即需要提取的特征数目，c是图像的数量。所以有n₁个大小为c*f₁*f₁的卷积核应用到图像上，B₁是一个n₁维的向量。max是ReLU激活函数。

第二卷积层用于非线性关联的映射，将上一阶段提取的n₁维的特征向量匹配到HR图像块上，实际上是映射到一个n₂维的特征向量上。利用式2表示：

F₂(Y)＝max(0,W₂*F₁(Y)+B₂) (2)

W₂的大小是n₁*f₂*f₂*n₂，B₂是一个n₂维的向量。在SRCNN算法中，f₂的大小一般取为1。理论上来讲，该式得到的n₂维特征向量代表着HR图像特征，可以直接用来进行重建。即使用多层神经网络来进行这一步的训练，但是相应的计算复杂度会很高。

第三卷积层用于重建，根据上面得到的HR图像块进行融合，一般采用均值或者是按权值来进行融合得到最终的高分辨率图像，利用式3表示：

F(Y)＝W₃*F₂(Y)+B₃ (3)

W₃的大小是n₂*f₃*f₃*c，可以是一个均值滤波器或者是其他的线性滤波器。B₃是c维向量。

本发明在第一卷积层和第二卷积层的后面分别设置一池化层。引入池化层可以降低维度，降低计算复杂度，提高训练的速度，并且防止过拟合。由于对于视频而言，输入训练样本相比于图像来说具有更大的维度，所以加入池化层，简化网络参数，来提高训练的效率是非常有必要的，本发明采用最大池化的方法来处理卷积之后的数据。模型采用的优化函数，即训练模型参数的方法，是基于梯度下降算法的改进。采用Adam算法，该算法结合了RMSProp和momentum动量方法，采用式子4表示：

其中β₁,β₂∈[0,1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-8，这三个参数是模型设置好的可以调节的参数，属于超参数。▽X_t-1表示t-1次迭代中的参数梯度矩阵。在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。Adam算法实际上是一种自适应调节学习率的方法，因为它根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整对于每个参数的学习速率，既可以减少局部最优的风险，又可以加快收敛的速度。

在视频超分辨率卷积神经网络模型的参数设置方面，本发明考虑到是对视频图像的处理，针对第一卷积层的输入，可以降低卷积核的大小，因为这样就可以覆盖绝大部分的图像特征，采用3*3的核尺寸，可以有效的减少第一卷积层的训练参数。接着是第一池化层，这一层实际上是对输入图像进行分割，对每个子区域求最大值，然后输出给第二卷积层。在第二卷积层的设置中，实验中发现核尺寸越大，训练出来的模型具有更好的效果，即重建出的超分辨率图像越清晰，但是增大了运算量，所以本发明做了一个折中处理，将第二卷积层的卷积核大小设置为3*3，这样即可以提高重建效果，也不会让计算量大幅增加。接着第四层即第二池化层也进行一次池化的操作。而在第五层即第三卷积层重建融合阶段，为了能够保证图像的重建质量，仍然和SRCNN模型中一样，采用5*5的卷积核尺寸。

在训练阶段，本发明卷积神经网络模型的输入图像序列为单帧图像的相邻前后d帧图像，即针对某重建帧，其图像输入共有2d+1张，即使用多张图像形成的向量进行模型的训练。可以采用串联的方式将图像连接起来，若图像的大小为H×W×3，则训练模型的输入图像向量大小为H×W×3×(2d+1)，其中d值的大小可以根据实验情况调节，在实施例中取d＝1。将视频模型训练输入图像设置为单帧图像相邻d帧图像，可以充分利用帧间冗余信息，提高训练出视频模型的重建效果。

本发明使用单图像超分辨率训练模型的参数初始化视频超分辨率模型的权重参数，当然这需要保证视频模型中的卷积核尺寸以及数量和单张图像超分辨率中的一致。但是在视频模型中，第一层的大小会是原来的2d+1倍，所以第一卷积层的卷积核尺寸会是SRCNN的2d+1倍，而之后两层卷积层和SRCNN模型中的保持一致。因此需要将第一卷积层的输出尺寸减小到和下一层卷积层的大小一致。在实施例中取d＝1，即使用视频帧的前一帧和后一帧共三张图像进行当前帧的重建，所以第一层的卷积核尺寸会是之前的三倍；而之后两层卷积层和SRCNN模型中的保持一致。所以现在的问题是将第一层的输出尺寸减小到和下一层卷积层的大小一致。

对于单张图像来说，假设第一层的输出数据用H₁来表示，该层卷积核的维度为M×N×C，C是核数量。则某一卷积层像素点输出数据可用式5表示：

对于视频超分辨率重建而言，有三张输入图像对应图像帧时刻为t-1到t+1，则相应的输出图像数据表示为：

表示t'时刻的图像亮度值(在这里t'为t-1和t+1时刻)。在权重的初始化时，处理第一张视频图像，将输入的三幅图像设置为一致，那么y_t-1＝y_t＝y_t+1，则可以用图像超分辨率的权重初始化视频超分辨率的初始权重，它们的关系为：

所以，根据式8可以得到视频超分辨率的初始化权重：

即将视频超分辨率模型的初始权重初始化为图像超分辨中权重的平均值。这样初始化权重相比采用高斯分布或者均匀分布初始化的好处是，能够更快的让训练收敛，提高了训练速度，另一方面使用相关图像的权重也能使得到的模型权重参数在预测时具有更好的精度。

为了验证本发明相对于其他超分辨率算法的优势，进行了一些列的对比实验，客观上采用PSNR值和SSIM值来度量重建质量。实验环境配置包括硬件和软件两部分，训练模型使用的硬件配置是Intel Xeon 2.5GHz,4核，内存8GB。软件配置部分，操作系统为CentOS7，利用的机器学习前端库为keras-1.2.2，后端为theano-0.8.2，基于python2.7以及一些科学计算库。实验的步骤主要包括三个方面，首先是数据准备；然后模型训练；最后是通过训练好的模型进行测试图像的测试，展示主客观效果。

1)数据准备

实验采用的数据主要有两部分，一部分是单张图像，用于训练初始化参数，出于公平性考虑，这一部分的训练数据采用图像增强领域通用的含有91幅图像的训练集；另一部分是视频数据，来自https://media.xiph.org/video/derf/的标准视频序列，分别选取了calendar,city,foreman,walk作为测试视频数据集。总共选取91384块训练图像块，5120块测试验证图像块然后降采样为图像块。

2)模型训练

在训练初始化参数时，对单张图像采用8×8的分割方法将图像分割为图像块，总共产生91384块训练图像块S＝{S₁,S₂,S₃,…,S_n}，5120块测试验证图像块C＝{C₁,C₂,C₃,…,C_n}，。同样对于视频帧也采用分割图像块进行训练。对于图像块，首先进行降采样，模糊到LR图像块，训练图像和测试验证图像降采样后分别为S′＝{S′₁,S′₂,S′₃,…,S′_n}和C′＝{C′₁,C′₂,C′₃,…,C′_n}，然后再通过普通的插值操作放大到预期的HR图像大小，作为模型的输入数据。本文的降采样因子为2，同样升采样也为2，即将LR图像放大1倍，重建出高分辨率图像。通过迭代，以S′作为训练输入，和高分辨率图像块S拟合，训练出模型；采用MSE作为代价函数，Adam优化方法，以及ReLU激活函数。

测试视频序列分别选取的视频序列分辨率列表如下：

表1测试视频分辨率

训练过程中一共迭代250次，由于没有采用GPU进行加速，所以耗时较长。

将训练好的模型权重以h5的格式进行存储，然后使用测试数据集进行测试。

3)实验结果

得到训练模型后，以C′作为测试数据，通过训练模型计算对应的高分辨率图像块H＝{H₁,H₂,H₃,…,H_n}，然后计算C和H之间的PSNR值和SSIM值，进行对比试验。在实验的过程中，分别使用cubic算法和去噪SRCNN算法(dsr)作为对比，分别计算预测重建出图像的峰值信噪比(PSNR)以及结构相似性(SSIM)，以这两个参数作为客观评价指标。从视频帧中选取10帧的平均参数作为对比，PSNR值比越大，说明丢失的信息越少；SSIM值越接近1，说明和原始HR视频之间的相似程度越大。

从表2可以看出，相比于去噪后的SRCNN算法，本发明所提出的改进算法依然有优势，不仅是在PSNR值上，还是在SSIM值上，这主要是因为在第二层卷积层采用了更加精细的卷积核，以及使用图像训练参数来初始化视频模型。客观结果相比于原始SRCNN算法都有提高。当然基于机器学习的方法相比于传统的插值方法，优势更加的明显。

除了客观指标之外，还选取了两组重建后的视频帧，walk和city两种视频，分别代表了运动的视频以及含有条纹细节的图像视频，从图3和图4可以看出，(a)为原始图像，(b)为cubic算法重建后图像，(c)为dsr算法重建后图像，(d)代表的是本发明提出的重建算法重建后图像，在图像的纹理和细节上和原始的HR图像最为接近，而传统基于插值的算法给人的主观效果并不是太理想。

表2重建客观结果

Claims

1.一种利用卷积神经网络提高视频分辨率的方法，其特征在于，该方法包括训练阶段和重构阶段，在所述训练阶段，以多帧下采样视频图像作为卷积神经网络模型的输入，以单图像的超分辨率方法所产生的训练权重来初始化该卷积神经网络模型的权重参数，得到训练好的卷积神经网络模型；在所述重构阶段，将待处理的视频图像输入训练好的卷积神经网络模型，得到重构后的高分辨率图像。

2.根据权利要求1所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，所述卷积神经网络模型包括三层卷积层和两层池化层共5层架构，所述卷积层用于对输入的图像进行特征提取，所述池化层用于对输入的特征图进行压缩，所述5层架构依次为第一卷积层、第一池化层、第二卷积层、第二池化层和第三卷积层。

3.根据权利要求2所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，所述第一卷积层、第二卷积层的卷积核大小均为3*3，所述第三卷积层的卷积核大小为5*5。

4.根据权利要求1所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，在所述训练阶段，所述卷积神经网络模型的输入图像序列为单帧图像的相邻前后d帧图像，即使用2d+1张图像形成的向量进行模型的训练。

5.根据权利要求1所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，所述卷积神经网络模型中训练模型参数的方法采用Adam算法，其形式如下式所示：

其中β₁,β₂∈[0,1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-8，表示t-1次迭代中的参数梯度矩阵；在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。

6.根据权利要求1所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，所述视频超分辨率模型的初始权重为单图像超分辨率方法产生的权重的平均值。

7.根据权利要求6所述的一种利用卷积神经网络提高视频分辨率的方法，其特征在于，所述视频超分辨率模型的初始权重计算方法如下：

其中i,j是图像Y通道二维矩阵的索引值，w(·)是权重参数，b(·)是偏置，c是核的索引，y_t是t时刻的图像亮度值；

表示t'时刻的图像亮度值，t'为t-d,...,t-2,t-1,t+1,t+2,...,t+d时刻，在权重的初始化时，处理第一张视频图像，将输入的2d+1幅图像设置为一致，那么y_t-d＝...＝y_t-2＝y_t-1＝y_t＝y_t+1＝y_t+2＝...＝y_t+d，则可以用图像超分辨率的权重初始化视频超分辨率的初始权重，它们的关系为：

w(m,n,t,c)＝w_v(m,n,t-d,c)+...+w_v(m,n,t-2,c)+w_v(m,n,t-1,c)

+w_v(m,n,t,c)+w_v(m,n,t+1,c)+w_v(m,n,t+2,c)+...+w_v(m,n,t+d,c)

b(c)＝b_v(c)

所以，可以得到视频超分辨率的初始化权重：