CN111583115A

CN111583115A - 基于深度注意力网络的单幅图像超分辨率重建方法及系统

Info

Publication number: CN111583115A
Application number: CN202010364389.3A
Authority: CN
Inventors: 顿玉洁; 杨帅; 钱学明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-25
Anticipated expiration: 2040-04-30
Also published as: CN111583115B

Abstract

本发明公开一种基于深度注意力网络的单幅图像超分辨率重建方法及系统，包括：步骤1：对开源图像训练数据集DIV2K进行预处理，获得训练集；步骤2：建立能够对图像进行超分辨率重建的卷积神经网络；步骤3：将步骤1获得的训练训练集输入步骤2建立的卷积神经网络进行训练，得到超分辨率重建模型；步骤4：将待处理的低分辨率单幅图像输入步骤3获得的超分辨率重建模型，输出单幅图像超分辨率重建图像。利用多个常用测试数据集来对最终训练好的模型进行峰值信噪比和结构相似性的计算，本发明利用深度学习的方法设计的近200层卷积层的网络可以实现和400层左右的网络相当的性能，并且参数量更少，训练更容易，并且超分处理后的图像更加清晰。

Description

基于深度注意力网络的单幅图像超分辨率重建方法及系统

技术领域

本发明属于计算机数字图像处理与计算机视觉技术领域，特别涉及一种基于深度注意力网络的单幅图像超分辨率重建方法及系统。

背景技术

随着数字化、信息化的全面普及与应用，近些年来不断涌现的许多新的概念和新的应用。人脸检测、人脸识别、监控视频、相机美颜、人脸解锁等已经成为人们日常生活中很重要的一部分。图像分辨率泛指成像或显示系统对细节的分辨能力，代表图像中的存储的信息量。一般情况下，图像分辨率越高，图像中包含的细节越多，信息量也越大。图像分辨率分为空间分辨率和时间分辨率。通常，分辨率被表示成每一个方向上的像素数量。但是，分辨率的高低并不等同于像素数量的多少，例如一个通过插值放大了3倍的图像并不表示它包含的细节增加了多少。图像超分辨重建关注的是恢复图像中丢失的细节，即高频细节。如今，电荷耦合器件(CCD)和互补金属氧化物半导体(CMOS)是最广泛使用的图像传感器。提高图像分辨率的直接方法是在感光靶片生产过程中尽量减少成像像素的尺寸大小，提高单位面积上的像素个数。但是这种方法有弊端，此方法的缺点是使每个像素上接收的光量减少，容易产生噪点而降低图像的质量。另外，目前的工艺基本上也达到了像素尺寸大小的限制(如CMOS 0.35微米大小)。提高图像分辨率的另一种方法是在固定像素尺寸大小的基础上增加感光靶片大小，从而增加靶片的容量。而这样的处理方式将直接降低靶片成像数据的输出速度，导致后续图像处理中产生问题。而为了避免此问题，常常需要高精度的光学系统和特定的感光靶片。

但是由于传感器和光学制造技术的局限性，减小像素尺寸以及增加焦距或芯片尺寸的方法都不被认为是有效的方法。由于提高图像采集的质量对图像采集的硬件条件要求高，这样会带来过大的成本代价，并且在图像信息的传输过程中，图像质量的保持需要较大的带宽，因此从图像采集环节直接通过硬件设备提高图像分辨率成本极高。

J.L.Harris和J.W.Goodman一起提出的基于单帧图像的Harris-Goodman频谱外推法是最早的超分辨率图像处理的方法。随后，Tsai与Huang提出了基于序列或多帧图像的超分辨率重建问题，并给出了基于频域逼近的重建图像方法。在这之后，学者们相继提出了极大后验概率估计法、凸集投影法、反向投影迭代法和自适应滤波等具有价值的方法。

目前，国内外对超分辨率的研究较突出的有：美国加州大学多维信号处理研究小组的PeymanMilanfar等提出了大量实用算法和集成各种算法的超分辨率图像恢复软件包；美国Dayton大学和Wright实验室对红外CCD相机进行了机载实验，利用20幅低分辨率的红外图像取得了分辨率提高近5倍的实验结果。香港R.F.Chars等研究了超分辨率图像恢复的有效预处理共轭梯度迭代算法。以色列耶鲁撒冷大学M.Elad等对存在任意运动的图像序列，以及动态的和彩色的多媒体等超分辨率恢复进行了研究。以色列的EROS-A卫星利用“过采样”技术使影像的分辨率提高一倍以上。印度S.Chaudhuri等研究了迭代的超分辨率图像恢复方法。韩国Pohang理工大学在各向异性扩散用于超分辨率方法进行了研究。国内近几年在频谱外推、混叠效应的消除、无损检测、成像探测元的阵列改进以及一些超分辨率方法的改进方面也做过类似研究。

在前些年，传统的图像处理方法占据一定地位，在图像超分辨率处理上有着独特的处理方法，但是近些年来，传统方法似乎遇到的瓶颈，这些方法已经在图像超分辨率领域很难有质的提升，急需一些新颖独特的方法出现来打破瓶颈，提升性能。目前，处理图像超分辨率问题的传统方法有着很多局限性。在超分辨率图像处理方法的研究中，运动估计、退化模型、重建算法等三方面是难点所在。因为超分辨率重建问题是非定性的问题，所以超分辨率重建成功的关键是一定较强的鲁棒性。准确的退化模型非常有利于改进超分辨率重建算法，目前退化模型主要有以下几个研究方向：考虑有损压缩过程中的退化因素的退化模型研究；考虑磁性存储介质在记录与回读过程中的退化效应；考虑传感器几何形状、空间时间积分特性、噪声和读出效应等因素的更接近于实际系统特性的退化模型研究。

近些年由于大数据和深度学习算法技术的飞快发展，我们完全可以单纯从软件方面入手去提高图像超分辨率技术，既节约了硬件成本，又能提高图像分辨率，软件方法甚至比硬件方法提升分辨率提升的更优。深度学习的概念是由Hinton等人在2006年提出的，目的是模拟人脑来获取和辨别学习事物、知识等。目前，深度学习已经在视觉、语音、文本等多个方面展现出了相比传统方法更大的优势。

由Z.Hui,X.Wang,X.Gao等人提出的IDN的方法，详见文献Z.Hui,X.Wang,X.Gao,“Fast and Accurate Single Image Super-Resolution via Information DistillationNetwork[C]”,CVPR,2018:723-731。此方法中的蒸馏模块的结构是对前三个卷积层的结果进行切片操作，第一部分作为后三层卷积层的输入，另一部分和蒸馏模块的输入进行拼接操作，然后将后三层卷积层的输出和拼接操作后的特征图进行点到点的相加。而压缩模块由一层卷积核大小为1x1的卷积层组成。IDN方法就是由这两个模块堆叠而成，虽然相比其他方法有了性能上的提升，但是还是存在一些缺点：首先，IDN方法结构相对比较简单，没有充分利用到先前卷积层的特征信息，会导致图像信息的一些丢失，不利于重建图像最后的恢复。其次，实验证明，注意力机制可以提升网络的表征能力，但是IDN方法没有注意到特征图通道间的信息之间的联系，没有发挥注意力机制的作用。

发明内容

本发明的目的在于提供一种基于深度注意力网络的单幅图像超分辨率重建方法及系统，能够对单幅图像进行超分辨率重建，并得到更加丰富的高频信息和视觉效果。

为了实现上述目的，本发明采用如下技术方案：

基于深度注意力网络的单幅图像超分辨率重建方法，包括以下步骤：

步骤1：对开源图像训练数据集DIV2K进行预处理，获得训练集；

步骤2：建立能够对图像进行超分辨率重建的卷积神经网络；

步骤3：将步骤1获得的训练训练集输入步骤2建立的卷积神经网络进行训练，得到超分辨率重建模型；

步骤4：将待处理的低分辨率单幅图像输入步骤3获得的超分辨率重建模型，输出单幅图像超分辨率重建图像。

本发明进一步的改进在于：步骤1中所述预处理具体包括：

首先，利用双三次内插将开源图像训练数据集DIV2K中的ground truth图像进行下采样操作生成低分辨率图像；

然后，对下采样操作生成低分辨率图像进行切块操作，每块图像大小一致；

最后，对切块操作后的图像进行数据增强处理后进行归一化，获得训练集。

本发明进一步的改进在于：所述数据增强处理为：以百分之五十的概率选中切块操作后的图像进行翻转或旋转处理。

本发明进一步的改进在于：切块操作设定图像大小为48×48。

本发明进一步的改进在于：步骤2建立的超分辨率重建的卷积神经网络包括3个部分：

浅层特征提取网络，由一到两层的卷积层组成，用于将预处理后的图像从颜色空间转换到特征空间，形成特征图；

高频特征提取网络，用于提取浅层特征提取网络后的特征图中的深层特征，获得深层特征图；

重建网络，用于将深层特征图的尺寸变成ground truth图像的尺寸大小，最后将特征从特征空间转换到颜色空间。

本发明进一步的改进在于：高频提取网络由20个CBG模块堆叠而成，每个CBG模块包含一个DDN模块、CAP模块和一层卷积层；

其中，DDN模块包含一个DEN模块和一个瓶颈层；其中，DEN模块中包含6个卷积层；DEN模块中的6个卷积层的卷积核数量分别为：64、48、80、80、64以及96，卷积核大小均为3×3，步长均为1，每一层的激活函数均为ReLU函数，将第3层卷积层的结果进行切片操作，其1/4和第一层卷积层的输入进行拼接操作，另外3/4作为第4层卷积层的输入，再将拼接的特征和第6层进行拼接作为瓶颈层的输入，将前面层的结果和本层卷积层的结果进行拼接操作；最后瓶颈层将卷积核个数降到64，卷积核大小为1×1；

CAP模块为基于注意力机制的模块；瓶颈层的输出作为CAP模块的输入，首先经过一个全局平均池化层，将特征图变成1×1的大小，再经过两个大小为1×1的卷积核，然后特征图通过sigmoid激活函数后，和最初CAP模块的输入进行点到点的相乘操作，得到深层特征图。

本发明进一步的改进在于：超分辨率重建的卷积神经网络的卷积层设置的滤波器大小为3×3，卷积核数量除了高频特征提取网络中的DDN模块外均为64，步长为1，padding的大小为1，激活函数为ReLU函数，池化层采用全局平均池化操作，全网络中不含全连接层和BN层。

本发明进一步的改进在于：重建网络中，经过高频特征提取网络之后，深层特征图经过一个亚像素卷积层将深层特征图大小变成ground truth的大小，再经过一层数量为3，大小为3×3的卷积层，最后和ground truth进行L1loss函数的计算。

本发明进一步的改进在于：步骤3中训练最大迭代次数为1000次，batch-size为16，初始学习率为0.0001，并设置衰减步数为2e-4，衰减率设置为0.5。

本发明进一步的改进在于：对ground truth图像进行下采样的倍数为2倍、3倍、4倍、8倍、16倍或32倍。

基于深度注意力网络的单幅图像超分辨率重建系统，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于深度注意力网络的单幅图像超分辨率重建方法的方法步骤。

相对于现有技术，本发明具有以下有益效果：本发明尽可能的减少了训练参数，最后超分辨处理后的图像拥有丰富的高频信息和清晰的边缘纹理，并在2、3以及4倍的超分辨倍数上面有较好的表现。相比于IDN方法，在Set5测试数据集上，本发明在2倍的超分辨倍数上的PSNR和SSIM分别为38.10和0.9609，而IDN方法在2倍的超分辨倍数上的PSNR和SSIM分别为37.83和0.9600；本发明在3倍的超分辨倍数上的PSNR和SSIM分别为34.60和0.9287，而IDN方法在3倍的超分辨倍数上的PSNR和SSIM分别为34.11和0.9253；本发明在4倍的超分辨倍数上的PSNR和SSIM分别为32.37和0.897，而IDN方法在4倍的超分辨倍数上的PSNR和SSIM分别为31.82和0.890。

附图说明

图1是本发明实施例的一种基于深度注意力网络的单幅图像超分辨率重建方法流程示意图；

图2是本发明整体的基于深度注意力网络的单幅图像超分辨率重建方法的结构图；

图3是图2中CBG模块的细节图；

图4是图2中的DEN网络；

图5是图2中的CAP网络；

图6是训练数据集部分训练样本图片；

图7是超分辨重建后的结果比较图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1及图2所示，本发明提供一种基于深度注意力网络的单幅图像超分辨率重建方法，包括以下步骤：

步骤1：通过对开源图像训练数据集DIV2K进行预处理，获得训练集；

本实例中利用开源训练数据集DIV2K来训练卷积神经网络，请参阅图6所示。DIV2K公开数据集中含有900张训练图像，本发明预处理包括：首先，利用双三次内插将开源图像训练数据集DIV2K中的ground truth图像进行下采样操作生成低分辨率图像；然后，对下采样操作生成低分辨率图像进行切块操作，每块图像大小一致；最后，对切块操作后的图像进行数据增强处理后进行归一化，数值在0到1之间，获得训练集。所述数据增强处理为：以百分之五十的概率选中切块操作后的图像进行翻转或旋转处理。在经过旋转、翻转等数据增强处理后的数据集可以达到2400幅左右的训练图像。然后对每一幅图像的像素值进行归一化处理，这是为了便于训练过程中的运算速度。

步骤2：建立在GPU上实现的可以对图像进行超分辨率重建的卷积神经网络；

本实例建立了训练和测试所使用的神经网络结构，请参阅图2所示，超分辨率重建的卷积神经网络包括3个部分：浅层特征提取网络、高频特征提取网络和重建网络。

本实例所采用的网络包括2层卷积作为的浅层特征提取网络，接着是高频特征提取网络。

高频提取网络主要由20个CBG模块堆叠而成，每个CBG模块包含一个DDN模块，CAP模块和一层卷积层，请参阅图3所示。其中DDN模块中包含一个DEN模块和一个瓶颈层。其中，DEN模块中包含6个卷积层，请参阅图4所示。DEN模块中的6个卷积层的卷积核数量分别为：64、48、80、80、64以及96，卷积核大小均为3x 3，步长均为1，每一层的激活函数均为ReLU函数，将第3层卷积层的结果进行切片操作，其1/4和第一层卷积层的输入进行拼接操作，另外3/4作为第4层卷积层的输入，再将拼接的特征和第6层进行拼接作为瓶颈层的输入，而每一层都用到了densenet的思想，将前面层的结果和本层卷积层的结果进行拼接操作。最后瓶颈层将卷积核个数降到64，卷积核大小为1x 1。CAP模块是本方法用到的基于注意力机制的模块，目的是为了提高模型的表征能力，请参阅图5所示。瓶颈层的输出作为CAP模块的输入，首先经过一个全局平均池化层，将特征图变成1x 1的大小，再经过两个大小为1x 1的卷积核，这一步操作相当于一个全连接层，然后特征图通过sigmoid激活函数后，和最初CAP模块的输入进行点到点的相乘操作，得到最后的深度特征图。

重建网络，用于将深度特征图的尺寸变成ground truth图像的尺寸大小，最后将特征从特征空间转换到颜色空间。整个网络的卷积层设置的滤波器大小为3x 3，卷积核数量除了特殊结构外均为64，步长为1，padding的大小为1，激活函数为ReLU函数，池化层用的是全局平均池化操作，全网络中不含全连接层和BN层。

重建网络中，在经过高频特征提取网络之后，特征图经过一个亚像素卷积层将特征图大小变成ground truth的大小，再经过一层数量为3，大小为3x 3的卷积层，最后和ground truth进行L1loss函数的计算。

步骤3：将切块后的训练训练集输入卷积神经网络，得到超分辨率重建模型；

在训练过程中，本发明用到的训练数据集是DIV2K数据集，DIV2K数据集是由900幅RGB训练图像，100幅RGB验证图像组成。毫无疑问，本发明选择利用90度旋转和翻转等操作来将训练数据集进行扩充。在图像输入网络之前，本方法利用双三次内插来将groundtruth图像进行的下采样操作来生成低分辨率图像对。在本发明的实验中，对原本的groundtruth图像进行了2、3以及4倍的下采样。本发明利用Xavier方法来对权重进行初始化，并使用ADAM优化器来对网络进行训练。初始的学习率设置为1e-4，并设置衰减步数为2e-4，也就是每隔2e-4步，学习率就衰减一次，衰减率设置为0.5。本发明在GTX 1070服务器上利用Pytorch框架来实现提出的结构，用了6天时间进行了1000次迭代。卷积神经网络进行训练所选用的验证集是DIV2K中的验证数据集，其中包含100图像；本发明采用了其中部分图像作为验证集。

在步骤3的模型训练完成后，利用多个常用测试数据集来对最终训练好的模型进行峰值信噪比和结构相似性的计算，并与近年其他方法进行比较。

在测试过程中，本发明用到的是四个经典的测试数据集：Set5，Set14，BSD100，以及Urban100。其中Urban100数据集包含了拥有不同频率细节的城镇景象。为了评价，测试图像会首先由RGB空间转换到YCbCr空间中，然后再利用峰值信噪比PSNR和结构相似性SSIM来只对Y通道中的图像进行评价验证。最后我们可视化证明了本方法的有效性，请参阅图7所示。图7中的最后一对图像是本发明的方法，其他图像均是图像超分辨领域的经典方法。图7中本发明利用深度学习的方法设计的近200层卷积层的网络可以实现和400层左右的网络相当的性能，并且参数量更少，训练更容易，并且超分处理后的图像更加清晰。本发明相比于其他经典方法来说，丰富了随着网络深度的加深而损失的高频信息，并且更加关注通道间的特征信息，提升整个网络的表征能力。

在本发明的又一实施例中，还提供一种基于深度注意力网络的单幅图像超分辨率重建系统，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于深度注意力网络的单幅图像超分辨率重建方法的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，包括以下步骤：

步骤2：建立能够对图像进行超分辨率重建的卷积神经网络；

2.根据权利要求1所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，步骤1中所述预处理具体包括：

3.根据权利要求2所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，所述数据增强处理为：以百分之五十的概率选中切块操作后的图像进行翻转或旋转处理。

4.根据权利要求2所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，切块操作设定图像大小为48×48。

5.根据权利要求1所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，步骤2建立的超分辨率重建的卷积神经网络包括3个部分：

6.根据权利要求5所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，高频提取网络由20个CBG模块堆叠而成，每个CBG模块包含一个DDN模块、CAP模块和一层卷积层；

7.根据权利要求6所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，超分辨率重建的卷积神经网络的卷积层设置的滤波器大小为3×3，卷积核数量除了高频特征提取网络中的DDN模块外均为64，步长为1，padding的大小为1，激活函数为ReLU函数，池化层采用全局平均池化操作，全网络中不含全连接层和BN层。

8.根据权利要求5所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，重建网络中，经过高频特征提取网络之后，深层特征图经过一个亚像素卷积层将深层特征图大小变成ground truth的大小，再经过一层数量为3，大小为3×3的卷积层，最后和ground truth进行L1loss函数的计算。

9.根据权利要求1所述的基于深度注意力网络的单幅图像超分辨率重建方法，其特征在于，步骤3中训练最大迭代次数为1000次，batch-size为16，初始学习率为0.0001，并设置衰减步数为2e-4，衰减率设置为0.5。

10.基于深度注意力网络的单幅图像超分辨率重建系统，其特征在于，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述权利要求1至9中任一项所述的基于深度注意力网络的单幅图像超分辨率重建方法的方法步骤。