CN107507134A

CN107507134A - 基于卷积神经网络的超分辨率方法

Info

Publication number: CN107507134A
Application number: CN201710859461.8A
Authority: CN
Inventors: 杨鑫; 王鑫; 许可; 尹宝才; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2017-12-22
Anticipated expiration: 2037-09-21
Also published as: CN107507134B

Abstract

本发明提供了一种基于卷积神经网络的超分辨率方法，旨在利用深度卷积神经网络探索一种实现速度快、修复品质高的单幅图像超分辨率方法。提供更加适合于单幅图像的超分辨率重建算法融合的方法，解决时间损耗多、算法实现所需要的硬件需求高等问题，同时针对不同超分辨率算法的特点，对现有的超分辨率算法进行分析以及选择，使得所选择的超分辨率算法进行融合之后能够实现优势互补，突破现有超分辨率算法实现的劣势。

Description

基于卷积神经网络的超分辨率方法

技术领域

图像超分辨率技术(Image Super-Resolution,简称SR)就是根据一张或者多张低分辨率(Low Resolution,简称LR)的图像来获取高分辨率(High Resolution,简称HR)的图像，该技术能够提供视觉效果更好的图像，提供更多的图像信息，是计算机视觉领域中经典的低级问题。分为多帧图像超分辨率和单帧图像超分辨率(Single Image Super-Resolution，简称SISR)。前者利用多张类似的低分辨率图像来重建出具有高分辨率的图像。而SISR只给定一张低分辨率图像，根据有限的信息恢复出有良好视觉体验的高分辨率图像。本发明旨在利用深度卷积神经网络探索一种实现速度快、修复品质高的单幅图像超分辨率方法。

背景技术

一张图像的分辨率，可以表示为“水平像素数×垂直像素数”，即宽×高。它展示了图像中存储了多少的信息，PPI(Pixels Per Inch)是分辨率的单位，一般称作：像素每英寸。根据不同的用途，图像分辨率可以有很多种表示方法。在本论文的研究中，图像分辨率就是指图像内含有多少个像素点。低分辨率的图像像素点个数少，因此图像的尺寸就比较小，相反，高分辨率的图像含有较多的像素点，因此尺寸比较大。超分辨率中涉及的放大倍数就可以看成是尺寸的放大倍数。

(1)融合

目前，大多数的深度学习SR方法都是先将输入图片经过双三次插值的方法放大到期望输出图片的大小，然后将其当作输入来学习端对端的映射关系，FSRCNN为了加快处理速度，直接用“小图”当作输入而不经过双三次插值处理。本文方法的输入是现有的顶尖的方法生成的图片，用卷积神经网络来融合这些图片，学习它们与标签之间的对应关系,理论上由于输入的信息增多，效果相比于输入会有提升。因此，挑选哪些方法十分关键，这要求必须对现有的一些方法有深入的了解，清楚它们的优缺点。

(2)融合方法的选择：

①插值方法：

插值，是一种处理图像的方式，可以为图像增减像素点的个数，以下是对三种常用的数字图像插值方法的介绍。

1)最邻近元法：这是最简单的一种插值方法，它不需要计算，直接将距离待求像素最近的相邻像素的值赋给待求像素。这种方法的计算量非常小，但是生成的图像很有可能在灰度上不连续，呈现出锯齿状。

2)双线性内插法：该方法利用待求像素点周围的四个点的值作相互垂直的两条直线，在线上插值。很明显，这种方法的计算量要比最邻近元法更复杂，运算速度下降，但是在灰度上比较连续。它可以看作是一个低通滤波器，会使高频分量受损，图像的轮廓会变得模糊，整体看起来会更光滑一些。

3)双三次插值：使用双三次插值方法生成的图像的轮廓更清晰，但是该方法比双线性内插法更加复杂。相比于前两种插值方法，双立方插值生成的图像效果最好，图形更精准，但速度是最慢的。

显然，不管使用多么高级的插值方法，插补生成的图像也必然没有原始图像准确。这意味着对一张图片进行插值处理后，虽然图像的尺寸变大了，但是整体却比较模糊，不像真实图像那样拥有锐利的边缘。由于本文的方法需要的是更多的信息，因此选用双三次插值的方法(也是许多超分辨率方法中最常用的方法)，牺牲一些时间来获取更多的图像信息。

②SRCNN和FSRCNN：

SRCNN(Super ResolutionConvolutional Neural Network)是香港中文大学多媒体实验室汤晓鸥教授的团队提出的用于SISR的深度学习方法，该方法直接学习BICUBIC和真实图像之间的映射关系，这种深层的CNN结构呈现出了很高的修复质量，证明了深度学习对超分辨率这种古典的计算机视觉问题很有用。接着，该团队又提出了FSRCNN(Accelerating the super-resolutionconvolutional neural network)，实现了更高的修复质量和更快的实现速度，并且该方法的输入直接是低分辨率的图像，不需要任何预处理，鉴于这些优点并经过大量的实验数据证明，本发明的方法最终采用FSRCNN的结构作为“联合策略”中的一部分。

③VDSR与SRGAN：

VDSR(Accurate Image Super-Resolution Using Very Deep ConvolutionalNetworks)发表在CVPR2016上，是非常深的卷积神经网络，并且效果显著提升。该方法主要有以下两个特点：第一，像SRCNN这样的网络结构感受野的大小只有13，其他方法的感受野甚至更小，而VDSR的结构非常深，感受野也随之增大。第二，传统的基于学习的方法在训练过程中的学习率(Learning Rate)非常小，VDSR使用了残差学习，确保了大的学习率也可以收敛并取得很好的效果。基于这些，本发明的方法结合了VDSR的这两种特点。

GAN网络这近几年提出来的，也是非常火热的研究课题。现在GAN网络已经成功应用于超分辨率这个问题上，最新提出来的SRGAN取得了非常好的效果。其网络结构非常复杂，包括一个生成器模型和一个判别器模型。和其他基于深度学习模型进行图像超分辨率的结果相比，SRGAN的结果能够提供更锐利的纹理细节，使人们难以区分到底是真实的图像还是网络生成的图像。但是，由于GAN网络生成图像的高频细节可能与真实的纹理特征不一样，因此SRGAN这种方法不适合应用在医疗，卫星信息采集和监控等领域。正是这个原因，本文的方法没有采用SRGAN的思想和任何相关技术。如果做图像风格转换等图像处理的问题，可以采用SRGAN的思想和相关技术。

④图像滤波器

目前大多数的超分辨率方法生成的图像都存在模糊的区域，不能做到像SRGAN那样拥有锐利的边缘细节，这是因为都使用了均方误差作为损失函数，优化的目标就是最小化均方误差，这就使得模型向整体最小的方向发展而忽略细节。鉴于这种情况，想让网络去关注图像的轮廓信息，因此本文尝试对输入的图像进行图像滤波，将滤波后的轮廓图像再和其他方法进行融合，也就是在网络结构中代替了BICUBIC的那部分。

(3)神经网络结构

深度卷积神经网络的结构是算法的核心，神经网络的结构对图像超分辨率最终的效果有直接的影响。卷积核的大小、滤波器数量、卷积层的数量以及整体的结构，都需要深入研究。对于单幅图像的超分辨，其目的是根据输入的低分辨率图像I^LR，估计高分辨的输出图像I^SR，在这里I^LR是高分辨的真实图像I^HR所对应的低分辨率的版本。高分辨的真实图像只有在训练阶段可用。网络训练的过程中，对I^HR应用一个高斯滤波器进行下采样操作来获得低分辨率的输入图像I^LR，下采样的倍数是r。对于拥有C个颜色通道的图片，使用一个尺寸大小是W×H×C的实值张量来表示，那么对应的I^HR和I^LR的大小就是rW×rH×C。任务最终的目标是训练一个前馈函数F，能够估计给定输入图像所对应的LR图像。为了达到这个目标，本文训练了一个前馈的CNN网络，用表示，在这里θ_F＝{W_1:L；b_1:L}表示L层深度网络的权重和偏置，它通过优化一个确定的SR损失函数L^SR获得。对于训练图片n＝1,---,N和其对应的n＝1,---,N，就是要解决这样一个问题：

意思就是通过训练找到一组合适的网络参数，使通过网络输出的图像和真实图像之间的损失函数最小，在这里损失函数采用的是使用最广泛的均方误差损失函数。

(4)算法实现

对于深度学习的框架，本发明选择Caffe来实现所提出的算法。Caffe支持命令行、MATLAB以及Python接口，属于C++/CUDA架构，可以随意选择使用GPU还是CPU来进行计算。因此需要首先熟悉Caffe的用法，然后在这个框架上不断调试设计的神经网络，最后根据实验数据进行归纳总结。

对于编程软件，本发明使用了VSCode和Matlab，本发明选用Matlab来进行图像的预处理、绘制曲线和最后的结果测试。通过在VSCode中编写Python程序来对训练时产生的日志文件进行处理，帮助分析训练的过程。此外，为了更好的实现所提出来的算法，还必须配置并熟练使用Matcaffe和Pycaffe接口，在Caffe与编程软件之间更好地连接。

发明内容

本发明的目的是针对上述问题，提供更加适合于单幅图像的超分辨率重建算法融合的方法，解决时间损耗多、算法实现所需要的硬件需求高等问题，同时针对不同超分辨率算法的特点，对现有的超分辨率算法进行分析以及选择，使得所选择的超分辨率算法进行融合之后能够实现优势互补，突破现有超分辨率算法实现的劣势。

本发明的技术方案：

基于卷积神经网络的超分辨率方法，步骤如下：

(1)训练集和测试集

训练集包括两部分，第一部分训练集是从ImageNet中根据人物、动物、飞机、车辆、水果、建筑物、自然场景等不同的场景进行选择的100-200张图片，后来为了方便与其他方法进行对比，使用第二部分训练集91images。训练集91images是为了与其他方法进行对比，而我们所提出的数据集可以让神经网络训练的更加充分，得到的超分辨率重建结果也更加好。

对于训练集图像的预处理，首先使用BICUBIC的方法将图像进行不同倍数(3倍和4倍)的缩小，然后分别将低分辨率的图像送入BICUBIC和FSRCNN中，考虑到计算机显存和训练速度的限制，将图像切分成尺寸大小是45×45的小patch(图像小块)，将经过BICUBIC和FSRCNN预处理生成的图像压缩成两层，之后将数据保存为HDF5文件，供训练使用。此外，对图片的训练集进行了扩充，数据扩充的方法就是把原始图片分别逆时针旋转0°、90°、180°和270°，然后对每一个旋转角度的图片进行0.6、0.7、0.8和0.9倍的缩放，这样的操作将训练集扩充为原来的4×4＝16倍。最后，将图片切分Patch，批大小(Batch Size)是64。

六组测试集：Set5、Set14、B100、BSD100、Urban100和ImageNet400。其中ImageNet400是从ImageNet中根据人物、动物、飞机、车辆、水果、建筑物、自然场景等不同的场景进行选择的400余张图片，此测试集包含的场景丰富，可以测试出算法在多种场景图片上处理的性能。测试集的预处理和训练集相同，经过BICUBIC和FSRCNN后切分成Patch，大小是45×45×2×1908，表示宽和高是45，两层，Batch Size是4。

(2)网络结构

更深的网络结构很难训练，但是更深的结构能够为更加复杂的映射关系建模，因此这样的结构更有潜力增加网络的表达能力进而提升效果。为了能够有效的对深层的CNN结构进行训练，在本发明的方法中使用了归一化和残差学习的策略。归一化可以抵消数据内部的共同平移，对于每个隐层神经元，BN方法把逐渐向饱和区靠拢的输入分布重新规划成方差是1均值是0的标准正态分布，使数据落入激活函数比较敏感的区间，进而避免梯度消失的问题。这样的操作能够使梯度一直维持在较大的状态，因此即使学习率设置的不是非常完美，网络也能够更稳定更快速的收敛；而残差学习使得在网络中传播的大部分值为零，简化了计算，同时避免梯度消失，收敛速度更快，学习出来的效果也更好。

网络分成三个部分：联合策略、特征提取和深度融合；联合策略将低分辨率图像分别经过双三次插值和FSRCNN来生成初级的高分辨率图像，然后用特征提取的三个卷积层进行特征提取，在最后的深度融合将提取的特征用20层的深度卷积神经网络进行融合，输出高分辨率的图像；

一种深度卷积神经网络结构，共包括23个卷积层；特征提取部分包含三层，第一层卷积核大小为1，特征图数量为64即通过卷积产生64种特征，padding为0；第二层卷积核大小为9，特征图数量为32，padding为4，第三层卷积核大小为5，特征图数量为1，padding为2；深度融合包含二十层，步长Stride为1，卷积核大小为3，padding设为1以保证特征图的尺寸不变，根据感受野计算表达式：

RF_n-1＝(RF_n-1)×Stride+Kernel_Size (3)

计算得到的深度卷积神经网络结构的最后一层网络的感受野大小是3，利用公式(3)逐层进行计算，得到第一层神经网络的感受野是53，即所生成的高分辨率图像中的每一个像素点均与输入图像中的53x53个像素点有关系；考虑到训练速度和计算机内存的限制，首先将训练集和测试集中RGB的彩色图像转换成YCbCr颜色空间，只计算Y通道即亮度通道，然后切成大小是45×45的patch作为输入。每一个卷积层后面都紧跟一个PReLU激活函数(Parametric Rectified Linear Unit，参数化矫正线性单元)和BN层，并且在整个网络结构中没有使用过最大池化层，避免了细节信息的丢失。为了保证训练过程的收敛，深度融合部分使用了残差学习的策略。

对输入的图像进行图像滤波，将滤波后的轮廓图像再进行融合，也就是在网络结构中代替了BICUBIC部分。

使用fspecial这个函数来定义滤波算子，就是固定大小的具有规律的一个小矩阵。

本发明的有益效果：

(1)超分辨率重建结果与效率

本发明提出了新颖的卷积神经网络结构，使用卷积神经网络对顶尖的超分算法产生的结果进行融合，并利用浅层的结构进行特征提取以及利用非常深的结构进行高频信息的学习。

本发明所提出的方法在进行超分辨率重建得到的图像的视觉效果较好，并且在峰值信噪比和结构与相关性这两项评价超分辨率算法优劣的指标上都能够得到超过目前先进算法的很好的表现。由于网络结构很深，参数较多，因此在训练和测试过程中的计算量较大，处理速度较慢。

(2)更大规模的数据集

深度模型通常受益于大的训练集，训练集中有些图片没有清晰的边缘或者平滑的区域较多，因此更适合于超分辨率的数据集对超分辨率算法结果的提升有一定的作用。本发明为了得到数量充足的数据集，在原有的数据集上面选择质量更好的图片并对图片进行翻转、不同角度的旋转等操作将数量少的数据集成倍数的扩大，得到了更加适用于超分辨率算法研究的数据集，并且超分辨率的算法所生成的图像的质量得到了进一步的提高。

(3)图像任意尺寸的放大

本发明因为输入的图像和最终输出的图像有着相同的尺寸，因此可以直接将训练得到的模型应用在图像的任意放大倍数上。只需要一次训练，产生的模型就可应用于任意倍数的图像超分辨率。

(4)训练模型技巧

使用小的学习率训练一个非常深的网络并使网络较快的收敛是十分具有挑战性的，因此本文使用了残差学习的策略、较大的学习率以及PReLU和归一化等技巧，确保深度网络能够更快更稳定的收敛到全局最小。

附图说明

图1是算法流程图。

图2是训练/测试曲线图。

图3是学习率与loss的对应关系图。

具体实施方法

图1是本发明所提出的基于卷积神经网络进行融合的超分辨率算法流程图。图中，k表示卷积核的大小，n表示特征图的数量，p表示边界扩充，目的是为了保证卷积操作前后图片的大小保持不变，每一步卷积的步长全部设置为1。本发明所提出的网络可以分成三个部分，联合策略、特征提取和深度融合。联合策略这部分是将低分辨率图像分别经过双三次插值和FSRCNN来生成初级的高分辨率图像，然后用特征提取部分的三个卷积层来进行特征提取，在最后的深度融合部分，将前面提取出来的特征用20层的深度卷积神经网络进行融合，输出高分辨率的图像。训练过程中，第一部分联合策略单独处理，输出的图像送入第二部分和第三部分进行联合优化。

图2是训练和测试曲线图。由于开始阶段的训练和测试损失的值非常大，经过一定次数的迭代后损失值降得很低，范围非常大，因此采用loglog函数绘制了对数曲线，这样也能够呈现出训练的整体趋势。可以看出，经过数十万次的迭代，测试集的损失趋于稳定，不再下降，可以近似的认为网络已经收敛。

图3是科研工作者们在神经网络训练过程中根据经验得出的不同学习率与loss的对应关系，经过对比，可以认定本文的学习率设置的比较合理。

Claims

1.一种基于卷积神经网络的超分辨率方法，其特征在于，步骤如下：

(1)训练集和测试集

训练集是从ImageNet数据集中根据人物、动物、飞机、车辆、水果、建筑物、自然场景不同的场景选择100-200张图片；同时，为了与其他方法进行对比，使用统一的训练集91images；

训练集图像的预处理：首先使用BICUBIC的方法，将步骤(1)中的两部分训练集中的图像进行不同倍数的缩小，分别为3倍和4倍；然后分别将低分辨率的图像送入BICUBIC和FSRCNN中，再将图像切分成45×45的patch，将经过BICUBIC和FSRCNN预处理生成的图像压缩成两层，再将数据保存为HDF5文件，供训练使用；

对步骤(1)中的两部分训练集进行扩充，把训练集中的图片分别逆时针旋转0°、90°、180°和270°，然后对每一个旋转角度的图片进行0.6、0.7、0.8和0.9倍的缩放，将训练集扩充为原来的4×4＝16倍；最后，将图片切分成Patch，批大小是64；

六组测试集：Set5、Set14、B100、BSD100、Urban100和ImageNet400；其中，ImageNet400是从ImageNet数据集中根据人物、动物、飞机、车辆、水果、建筑物等自然场景不同的场景选择400张图片；测试集的预处理过程和训练集的预处理过程相同，经过BICUBIC和FSRCNN后切分成Patch，大小是45×45×2×1908，表示宽和高是45，两层，Batch Size是4；

(2)网络结构

RF_n-1＝(RF_n-1)×Stride+Kernel_Size (3)

计算得到的深度卷积神经网络结构的最后一层网络的感受野大小是3，利用公式(3)逐层进行计算，得到第一层神经网络的感受野是53，即所生成的高分辨率图像中的每一个像素点均与输入图像中的53x53个像素点有关系；

首先将训练集和测试集中RGB的彩色图像转换成YCbCr颜色空间，只计算Y通道即亮度通道，然后切成大小是45×45的patch作为输入；每一个卷积层后均紧跟一个PReLU激活函数和BN层；

2.根据权利要求1所述的超分辨率方法，其特征在于，使用fspecial函数定义滤波算子，就是固定大小且具有规律的一个小矩阵。