CN114022362A

CN114022362A - 一种基于金字塔注意力机制和对称网络的图像超分辨率方法

Info

Publication number: CN114022362A
Application number: CN202111364295.7A
Authority: CN
Inventors: 王彩玲; 沈齐; 蒋国平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-08

Abstract

一种基于金字塔注意力机制和对称网络的图像超分辨率方法，首先对于待训练数据集处理，制作与真实图像对应的低分辨率图像；然后对真实图像输入进行特征提取，经过卷积‑池化操作后，通过金字塔注意力模块进行计算，获取图像的多层次信息分布与细节特征；再计算得到误差损失，用来更新网络参数与梯度；再进行重构得到重构的结果图，与真实图像进行计算损失，并反向更新网络的参数和梯度；最后将低分辨率图像输入进第二个网络，逐分辨率的扩大低分辨率图像，最后得到生成的高分辨率图像，并于真实图像计算损失，再次对网络的参数进行更新。本方法通过注意力机制和损失函数，对网络进行参数更新与迭代，极大提升网络的生成能力与泛化能力。

Description

一种基于金字塔注意力机制和对称网络的图像超分辨率方法

技术领域

本发明属于计算机视觉与视觉图像重构领域，主要涉及了一种基于金字塔注意力机制和对称网络的图像超分辨率方法。

背景技术

图像超分辨率算法是当下计算机视觉领域的一个分支研究方向，在城市监控、医疗图像、遥感等等领域得到广泛的应用。其主要任务是将采集到的低分辨率图像输入进网络，由网络进行训练推导，最终生成具有更多细节和纹理特征的高分辨率图像。尽管图像超分辨率算法已经被广泛研究，但大多数传统方法得到的高分辨率图像存在着平滑、振铃和清晰度低等问题，对于细节的处理仍达不到预期标准。

当前图像超分辨率算法从基础框架上可以分为三大类：基于插值处理的传统方法、基于图像重建的方法和基于深度学习的方法。基于插值处理的传统方法是通过给定的像素来估计新像素的过程，该方法认为图像的新增像素点只与周围的像素值有关，这是提高低分辨率图像最简单的方法，优势在于算法简单且速度快，其缺点也很明显，生成的高分辨率图像质量很有限。基于图像重建的方法是利用图像的退化模型，研究原始视觉场景是如何演化得到观测图像的，其中运动估计和先验知识提取是关键因素。该方法的优势是生成的图像质量优于基于插值的传统方法，但是在高上采样比例的场景下，低分辨率图像富含的信息很少，导致重建的图像质量较差。

目前业内研究最广泛的是基于深度学习的图像超分辨率方法，大多数方法是通过研究低分辨率图像与对应的高分辨率图像之间的映射关系，使用深度网络进行学习，并对输入图像进行重建。通常基于深度学习的图像超分辨率算法先将图像分块，并构建低分辨率图像和高分辨率图像的图像对，然后学习相对的低分辨率图像和高分辨率图像之间的关系，最后在输入低分辨率图像的基础上利用学习到的关系重建出高分辨率图像。2014年，卷积神经网络兴起的时代，Dong C et.al首次将卷积神经网络应用到图像超分辨率算法中，通过设置一个三层的纯卷积网络，并运用大数据训练直接学习低分辨率图像与对应高分辨率图像之间的映射关系。后来FSRCNN算法的出现大大提升了算法的推理速度，亚像素卷积层的使用，在保持网络参数不变的前提下，比反卷积提高了上采样效率。深度学习方法在超分辨率算法的应用迅速发展，更是衍生出盲超分算法、基于注意力机制的超分算法等等。但是基于深度学习网络的图像超分辨率算法在图像精度上有了质的飞跃，但是模型训练推演的速度、模型大小也随之增加，越来越多的卷积层被堆叠到超分辨率网络中，使得算法在有限资源的平台上难以应用，而且大多数基于深度卷积网络结构的图像超分辨率算法，生成的结果仍然存在着细节模糊、平滑、伪细节等问题，高分辨率图像的质量仍需要提高。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于金字塔注意力机制和对称网络的图像超分辨率方法，包括使用包含两个结合金字塔注意力模块并且相对称的卷积网络来处理学习输入的高分辨率图像的全局分布，重构输入的低分辨率图像，并结合三个损失函数的反向梯度优化，对模型权重进行进一步调整优化。在不降低模型训练速度的前提下，提高生成结果的质量与效果。

一种基于金字塔注意力机制和对称网络的图像超分辨率方法，包含以下步骤：

步骤1，对于待处理的数据集，采用双三次插值函数，制作高分辨率图像(x^HR)与其对应的低分辨率图像(x^LR)，低分辨率分别为2.0，3.0，4.0，即缩小2倍，3倍，4倍；

步骤2，将高分辨率图像(x^HR)输入到对称网络的第一部分网络中进行特征提取，首先经过金字塔注意力模块，融合真实图像的多尺度信息，之后经过卷积层-ReLU激活层-最大池化层操作生成中间特征图，整个过程获取图像的多层次信息分布并对其中高频细节信息进行强化；

步骤3，将经过卷积之后生成的中间特征图，与低分辨率图像进行计算得到误差损失，损失用来更新网络参数与梯度；具体损失公式如下：

式中，x_t代表第一网络的第t层生成的中间特征图，y_t代表第二网络的第t层生成的中间特征图，N代表特征图上像素点的数量。当计算第一网络生成的中间特征图(x₃)和输入的低分辨率图像(x^LR)之间的损失值时：

步骤4，将第一网络生成的中间特征图输入进第二部分网络进行重构，得到重构的高分辨率图像

与输入的高分辨率图像

进行计算损失，并反向更新网络的参数和梯度。计算损失的具体公式如下：

式中

代表由第一网络生成的中间特征图重构而成的高分辨率图像。

步骤5，将低分辨率图像(^xL^R)输入进第二部分网络，逐分辨率的扩大低分辨率图像，最后得到生成的高分辨率图像

并与高分辨率图像(x^HR)计算损失，再次对网络的参数进行更新。计算损失的具体公式如下：

式中

代表第二网络将输入的低分辨率图像(x^LR)重构而成的高分辨率图像。

在步骤4和步骤5中，用于计算损失的函数不同是因为，重构由高分辨率图像生成的中间特征图应该尽可能的接近原图，这样才能保证网络学到了真实的图像信息分布；而重构由低分辨率图像最终应该保留图像的高频信息和全局分布。两种损失函数在这两方面上效果不同，用L1损失函数训练的生成结果往往趋于锐化，而MSE损失函数训练的结果往往趋于平滑。

进一步地，所述步骤2中的对称网络由网络层数、结构、卷积核大小、池化方式、Padding步长以及注意力模块完全相同且共享权值的两个网络串联组成。

进一步地，第一网络结构以及对应参数为，Conv1+ReLU层，大小和通道数3*3*96，Padding：valid；MaxPool1层，大小和通道数2*2，Padding：valid；Conv2+ReLU层，大小和通道数3*3*256，Padding：same；MaxPool2层，大小和通道数2*2，Padding：same；Conv3+ReLU层，大小和通道数3*3*512，Padding：valid；各层滤波器步长均为1。

进一步地，第二网络结构以及对应参数为，Conv1+ReLU层，大小和通道数3*3*512，Padding：valid；Conv2+ReLU层，大小和通道数3*3*256，Padding：same；UpConv1层，大小和通道数2*2，Padding：same；Conv3+ReLU层，大小和通道数3*3*96，Padding：valid；UpConv2层，大小和通道数2*2，Padding：valid；各层滤波器步长均为1。

进一步地，当来自数据集中高分辨率图像被输入进第一网络时，高分辨率图片会逐层2倍减少尺寸；当中间特征图被输入进第二网络时，低分辨率图像会逐层2倍扩大尺寸。

进一步地，第一网络的各层计算输出后的特征维度和尺寸具体为，Conv1+ReLU层输出480*480*96，MaxPool1层输出240*240*96，Conv2+ReLU层输出240*240*256，MaxPool2层输出120*120*256，Conv3+ReLU层输出120*120*512。

进一步地，第二网络的各层计算输出后的特征维度和尺寸具体为，Conv1+ReLU层输出120*120*512，Conv2+ReLU层输出120*120*256，UpConv1层输出240*240*256，Conv3+ReLU层输出240*240*96，UpConv2层输出480*480*96。

进一步地，所述步骤3的详细特点在于，训练所采用的训练数据集和测试数据集包括：

DIV2K数据集，包含800张自然场景train图像和100张validation图像；Set5数据集，包含人物图、动物图、漫画图共5张高分辨率图像；Set14数据集，包含人物图、动物图、漫画图、黑白图、场景图等共14张高分辨率图像；BSD100数据集，包含人物图、动物图、场景图、建筑图等等共100张高分辨率图像；Urban100数据集，包含100张高分辨率的建筑图像；

其中，训练、测试时采用的低分辨率图像都是采用双三次下采样函数制作。

进一步地，金字塔注意力模块的推导过程如下：

其中，K_i代表第i个卷积核的尺寸，K_i＝2×(i+1)+1，；x_t代表第t层的中间特征图；

代表使用分组卷积的卷积层，G_i代表第i层的分组尺寸，

F_i代表不同尺度的分组特征图；Z_i代表生成的特征描述符，δ代表ReLU层操作，S代表按照特征图的通道数进行分组划分的数量，这里设置为4，σ代表Sigmoid激活函数，

代表全卷积层，H和W代表输入图像的长和宽尺寸，m，n分别代表F_i特征图的行索引和列索引；H_i代表重新校准权重的特征图，exp(·)表示以e为底的指数函数；⊙是点乘操作；τ(·)表示用来归一化的标量函数，

表示用来计算区域特征相关性的函数，θ(·)表示一个生成新的特征表示的特征转换函数；Concat(·)是融合操作，将各个分组的重校准特征块融合，Out代表注意力模块最后输出的结果。

进一步地，在训练阶段，第一网络和第二网络对应尺寸的模块组输出的特征图之间计算特征损失，用于更新网络参数。训练流程分为两个部分：

输入高分辨率图像进第一网络，逐层降低尺寸生成中间特征图，并输入进第二网络，逐层增加尺寸生成中间特征图；相同尺度之间的特征图采用L1范数损失进行计算，并反向更新网络梯度。最终得到的超分辨率图像与输入的高分辨率图像也进行损失计算(L1损失)和指标评价(PSNR/SSIM)，验证网络的泛化能力；

输入与高分辨率图像对应的低分辨率图像进第二网络，逐层增加尺寸生成中间特征图，并与第一网络生成的相同尺度中间特征图计算损失，这里采用均方误差损失(MSE)进行计算，并反向更新网络梯度，得到最终重构的超分辨率图像用来验证网络的泛化能力；

在测试推演阶段，仅将低分辨率图像输入进第二网络，生成最终的超分辨率图像，并使用全参考图像质量评价指标(PSNR/SSIM)对生成结果进行评价。

本发明达到的有益效果为：本方法通过注意力机制和损失函数，对网络进行参数更新与迭代，极大提升网络的生成能力与泛化能力，保证模型训练速度的情况下，提高最终高分辨率图像的质量和效果。

附图说明

图1是本发明实施例中的基于金字塔注意力机制和对称网络的图像超分辨率方法的网络结构图。

图2是本发明实施例中的基于金字塔注意力机制和对称网络的图像超分辨率方法流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

下面结合附图2对本发明的技术方案做进一步的详细说明：

如图2所示，进行基于金字塔注意力机制和对称网络的图像超分辨率重构时，首先搭建用于执行图像重构任务的深度神经网络，主要包含两部分：用于加强网络特征提取能力的金字塔注意力模块和执行对高分辨率、低分辨率图像训练和重构任务的端到端对称网络部分。

具体而言，网络整体可以分为第一网络和第二网络。第一网络中自上而下包含三个模块组，前两个模块组由金字塔注意力模块-卷积层-ReLU激活层-最大池化层组成，其中图像的下尺寸采样由最大池化层具体实现，第三个模块组由金字塔注意力机制模块-卷积层和ReLU激活层组成；第二网络中自下而上包含三个模块组，第一个模块组由金字塔注意力模块-ReLU激活层-卷积层组成，后两个模块组由金字塔注意力模块-ReLU激活层-卷积层-上卷积层组成，其中图像的上采样由上卷积层具体实现。网络结构采用对称的串联双网络，网络逐阶段降低特征的尺寸，增加特征的通道数。

对称网络部分由网络层数、卷积核大小、池化方式和Padding步长相同且权值共享的两部分网络串联组成，具体的网络结构和参数如表1和表2所示：

表1 第一网络结构和参数表

表2 第二网络结构和参数表

表中，Layer表示从接收原始高分辨率图像输入的第一层卷积层Conv1开始直到最后一层池化层之间的所有的网络层；

Size表示当前卷积层或池化层的卷积核或滤波器大小和通道数；Stride表示当前网络层的滤波器步长；Padding表示当前网络层使用的Padding方式：Same方式或Valid方式。

当来自数据集中高分辨率图像被输入进第一网络时，高分辨率图片会逐层2倍减少尺寸；当中间特征图被输入进第二网络时，低分辨率图像会逐层2倍扩大尺寸，每一层网络计算输出后的特征维度和尺寸，如表3和表4所示：

表3 第一网络各层特征维度和尺寸

表4 第二网络各层特征维度和尺寸

其中，Layer表示对称网络中所有的网络层；Size表示当前卷积层或池化层处理之后特征尺寸以及通道数。

金字塔注意力模块，首先将输入的特征按照通道数进行分组卷积，得到分组的特征之后，采用Squeeze-and-Excitation网络进行特征权值的提取和激活，经过Softmax归一化函数的计算之后，得到每个分组的注意力权重，与特征值相互点乘之后可以获得含有更多丰富细节的特征图。

金字塔注意力机制可以帮助网络更精准的获得图像丰富的细节，提升网络的特征提取能力和生成泛化能力，金字塔注意力模块的推导过程如下：

其中,K_i代表第i个卷积核的尺寸，K_i＝2×(i+1)+1,；x_t代表第t层的中间特征图；

代表使用分组卷积的卷积层，G_i代表第i层的分组尺寸，

下面简述网络的训练流程和测试推理流程。在训练阶段，第一网络和第二网络对应尺寸的模块组输出的特征图之间计算特征损失，用于更新网络参数。训练流程分为两个部分：

1.输入高分辨率图像进第一网络，逐层降低尺寸生成中间特征图，并输入进第二网络，逐层增加尺寸生成中间特征图；相同尺度之间的特征图采用L1范数损失进行计算，并反向更新网络梯度。最终得到的超分辨率图像与输入的高分辨率图像也进行损失计算(L1损失)和指标评价(PSNR/SSIM)，验证网络的泛化能力。

2.输入与高分辨率图像对应的低分辨率图像进第二网络，逐层增加尺寸生成中间特征图，并与第一网络生成的相同尺度中间特征图计算损失，这里采用均方误差损失(MSE)进行计算，并反向更新网络梯度，得到最终重构的超分辨率图像用来验证网络的泛化能力。

搭建好用于图像超分辨率重构的对称网络之后，开始训练网络获得良好的模型权重。采用端到端的训练方式，训练所采用的图像超分辨率训练数据集和测试数据集包括：

DIV2K数据集，包含800张自然场景train图像和100张validation图像。

Set5数据集，包含人物图、动物图、漫画图共5张高分辨率图像。

Set14数据集，包含人物图、动物图、漫画图、黑白图、场景图等共14张高分辨率图像。

BSD100数据集，包含人物图、动物图、场景图、建筑图等等共100张高分辨率图像。

Urban100数据集，包含100张高分辨率的建筑图像。

下面进行测试实验。从近几年所提出的方法中，分别选取多种基于深度特征的图像超分辨率方法，在Set5、Set14、BSD100和Urban100数据集上分别对传统方法、深度方法以及本发明方法进行PSNR和SSIM指标对比，在4倍超分辨率的实验结果如表5所示：

表5 测试集实验结果

其中，第一列是几种典型的超分辨率方法，第一行是四个超分辨率常用的测试数据集，峰值信噪比(PSNR)是一种全参考的图像质量评价指标，即基于误差敏感的图像质量评价，其数值越大，生成的质量越好。结构相似性(SSIM)也是一种全参考的图像质量评价指标，分别从亮度、对比度、结构三方面度量图像相似性，其数值越大，说明生成的图像失真越小。从表中数据可以看出，本发明在图像生成质量即指标上优于大部分实验比较对象，且网络结构复杂度远低于其他对比方法，因此本发明的有效性得以证明。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：包含以下步骤：

步骤1，对于待处理的数据集，采用双三次插值函数，制作高分辨率图像x^HR与其对应的低分辨率图像x^LR，低分辨率分别为2.0，3.0，4.0，即缩小2倍，3倍，4倍；

步骤2，将高分辨率图像x^HR输入到对称网络的第一部分网络中进行特征提取，首先经过金字塔注意力模块，融合真实图像的多尺度信息，之后经过卷积层-ReLU激活层-最大池化层操作生成中间特征图，整个过程获取图像的多层次信息分布并对其中高频细节信息进行强化；

式中，x_t代表第一网络的第t层生成的中间特征图，y_t代表第二网络的第t层生成的中间特征图，N代表特征图上像素点的数量；当计算第一网络生成的中间特征图x₃和输入的低分辨率图像x^LR之间的损失值时：

与输入的高分辨率图像x^HR进行计算损失，并反向更新网络的参数和梯度；计算损失的具体公式如下：

式中

代表由第一网络生成的中间特征图重构而成的高分辨率图像；

步骤5，将低分辨率图像x^LR输入进第二部分网络，逐分辨率的扩大低分辨率图像，最后得到生成的高分辨率图像

并与高分辨率图像x^HR计算损失，再次对网络的参数进行更新；计算损失的具体公式如下：

式中

代表第二网络将输入的低分辨率图像x^LR重构而成的高分辨率图像。

2.根据权利要求1所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：所述步骤2中的对称网络由网络层数、结构、卷积核大小、池化方式、Padding步长以及注意力模块完全相同且共享权值的两个网络串联组成。

3.根据权利要求2所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：第一网络结构以及对应参数为，Conv1+ReLU层，大小和通道数3*3*96，Padding：valid；MaxPool1层，大小和通道数2*2，Padding：valid；Conv2+ReLU层，大小和通道数3*3*256，Padding：same；MaxPool2层，大小和通道数2*2，Padding：same；Conv3+ReLU层，大小和通道数3*3*512，Padding：valid；各层滤波器步长均为1。

4.根据权利要求2所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：第二网络结构以及对应参数为，Conv1+ReLU层，大小和通道数3*3*512，Padding：valid；Conv2+ReLU层，大小和通道数3*3*256，Padding：same；UpConv1层，大小和通道数2*2，Padding：same；Conv3+ReLU层，大小和通道数3*3*96，Padding：valid；UpConv2层，大小和通道数2*2，Padding：valid；各层滤波器步长均为1。

5.根据权利要求1所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：当来自数据集中高分辨率图像被输入进第一网络时，高分辨率图片会逐层2倍减少尺寸；当中间特征图被输入进第二网络时，低分辨率图像会逐层2倍扩大尺寸。

6.根据权利要求5所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：第一网络的各层计算输出后的特征维度和尺寸具体为，Conv1+ReLU层输出480*480*96，MaxPool1层输出240*240*96，Conv2+ReLU层输出240*240*256，MaxPool2层输出120*120*256，Conv3+ReLU层输出120*120*512。

7.根据权利要求5所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：第二网络的各层计算输出后的特征维度和尺寸具体为，Conv1+ReLU层输出120*120*512，Conv2+ReLU层输出120*120*256，UpConv1层输出240*240*256，Conv3+ReLU层输出240*240*96，UpConv2层输出480*480*96。

8.根据权利要求1所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：所述步骤3的详细特点在于，训练所采用的训练数据集和测试数据集包括：

9.根据权利要求1所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：金字塔注意力模块的推导过程如下：

代表使用分组卷积的卷积层，G_i代表第i层的分组尺寸，

F_i代表不同尺度的分组特征图；Z_i代表生成的特征描述符，δ代表ReLU层操作，S代表按照特征图的通道数进行分组划分的数量，这里设置为4，σ代表Sigmoid激活函数,

代表全卷积层,H和W代表输入图像的长和宽尺寸，m,n分别代表F_i特征图的行索引和列索引；H_i代表重新校准权重的特征图，exp(·)表示以e为底的指数函数；⊙是点乘操作；τ(·)表示用来归一化的标量函数，

10.根据权利要求1所述的一种基于金字塔注意力机制和对称网络的图像超分辨率方法，其特征在于：在训练阶段，第一网络和第二网络对应尺寸的模块组输出的特征图之间计算特征损失，用于更新网络参数。训练流程分为两个部分：

输入高分辨率图像进第一网络，逐层降低尺寸生成中间特征图，并输入进第二网络，逐层增加尺寸生成中间特征图；相同尺度之间的特征图采用L1范数损失进行计算，并反向更新网络梯度。最终得到的超分辨率图像与输入的高分辨率图像也进行损失计算和指标评价，验证网络的泛化能力；

输入与高分辨率图像对应的低分辨率图像进第二网络，逐层增加尺寸生成中间特征图，并与第一网络生成的相同尺度中间特征图计算损失，这里采用均方误差损失进行计算，并反向更新网络梯度，得到最终重构的超分辨率图像用来验证网络的泛化能力；

在测试推演阶段，仅将低分辨率图像输入进第二网络，生成最终的超分辨率图像，并使用全参考图像质量评价指标对生成结果进行评价。