CN110415170A

CN110415170A - 一种基于多尺度注意力卷积神经网络的图像超分辨率方法

Info

Publication number: CN110415170A
Application number: CN201910551507.9A
Authority: CN
Inventors: 邹华; 肖田雨; 肖春霞; 姚江军
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-11-05
Anticipated expiration: 2039-06-24
Also published as: CN110415170B

Abstract

本发明公开一种基于多尺度注意力卷积神经网络的图像超分辨率方法，通过使用多尺度结构和注意力机制，不仅使得卷积神经网络能够提取到图像中的丰富信息，并且能对提取的特征进行重要性区分，使得卷积神经网络的学习可以区分重要信息和干扰信息，提升学习效率。同时，本发明使用了密集连接和残差连接的方式，加强了梯度的反向传播，避免了梯度不稳定的问题，增强了特征的重用性，充分利用低分辨图像中的特征，模型的训练速度得到提高，模型参数进一步减少。另外，本发明在图像放大阶段使用亚像素卷积层的方法，将学习到的像素值按照一定规律填充到高分辨率图像中，而不需要经过计算，使得运算集中在小尺度阶段，减少了运算量，提高了图像重建速度。

Description

一种基于多尺度注意力卷积神经网络的图像超分辨率方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于多尺度注意力卷积神经网络的图像超分辨率方法。

背景技术

现今，人民生活水平日益提高，手机、摄像机、照相机等电子设备，在生活中十分常见，扮演着记录和分享美好时刻的角色。另外，在交通安全、公安刑侦、医疗影像、遥感卫星、军事侦察等公共领域，图像视频数据也是十分重要，往往图像和视频数据的质量起着至关重要的作用。同时，在一些其他的计算机视觉任务中，高质量的图像和视频有助于提升任务的表现，从多任务学习中可以明显看到这一点。

图像作为重要的信息载体，其中人对外界的感知能力，视觉占到百分之七十，是人们获得信息的最重要的途径。图像质量的衡量指标主要是图像分辨率，代表单位面积内像素点的多少。在分辨率小的图像中，包含的信息少，细节缺失严重，往往不能满足人们的需求。高分辨率的图像，在细节方面更清晰，蕴含的信息较多，因此高分辨率的图像在各个领域都需求很大。然而，在客观条件的限制下，往往得不到质量高的图像。从解决这些客观限制的角度上，一方面成本很高，另一方面一些技术难以突破。受限于这些客观条件，往往得到的是模糊，缺失细节的低分辨率图像，不能满足使用要求。图像超分辨率重建技术就是为了增强图像分辨率、提高图像质量。因此，研究先进的图像超分辨率重建技术是十分关键的。

图像超分辨率重建方法是计算机视觉领域的研究热点，产生了许多优秀的方法，它们可以分为三类：基于插值的方法、基于重构的方法、基于学习的方法。其中，基于学习的方法又可以分为，传统学习方法和深度学习方法，深度学习的方法在计算机视觉领域表现出色，是目前主流的研究方向。基于深度学习的图像超分辨率重建方法，主要有基于卷积神经网络的图像超分辨率方法和基于生成对抗神经网络的图像超分辨方法两大类。在2016年Dong等人在《Image super-resolution using deep convolutional networks》论文中提出了SRCNN，是深度学习在图像超分辨率算法中的开山之作。SRCNN构建了三层的卷积神经网络，利用网络的非线性，学习低分辨率图像和高分辨率图像之间的映射关系，通过大量的数据训练后，SRCNN的效果明显优于以往方法。此后，激励了许多学者对基于深度学习的图像超分辨率方法的大量研究，推动了这一领域的发展。然而，把图像超分辨率算法，简单的当作使用神经网络学习，低分辨率图像到高分辨率图像映射关系，效果并不好。

本发明根据图像超分辨率重建任务的特点设计了基于多尺度注意力卷积神经网络的图像超分辨率方法，使用多尺度单元和注意力单元，有效提取低分辨率图像中的信息，而且能够有效利用有益信息，避免冗余信息干扰。使用残差结构和密集连接结构，增强梯度流动，优化信息传播和重用，有效提升可训练的网络深度，也大大减少了网络的参数量，提高网络的训练以及使用速度。使用亚像素卷积层作为特征图放大的操作，能够减少运算量。

发明内容

本发明为了解决上述技术问题提供了一种基于多尺度注意力卷积神经网络的图像超分辨率方法。

本发明的技术方案为一种基于多尺度注意力卷积神经网络的图像超分辨率方法，包括以下步骤：

一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于，其包括以下步骤：

步骤1，根据图像超分辨率领域常用的公开数据集制作训练集(I_LR H_HR)；

使用图像超分辨率重建领域常用的DIV2K数据集，DIV2K数据集包含了L张2K分辨率的高质量图像，其中训练集M张，测试集N张，验证集P张，它们包含了丰富的场景，可以用于训练和测试模型；具体而言，首先，从DIV2K训练数据集中随机抽取16张图像，包括低分辨率图像和其对应的高分辨率图像；然后，在低分辨率图像中随机选取32*32大小的图像区域，接着选取低分辨率图像区域对应高分辨率图像块，共同组成训练数据集(I_LR H_HR)；

步骤2，构建多尺度注意力卷积神经网络：

步骤2.1，构建多尺度单元，具体是在网络前向传播方向，将前一层特征图，输入到多尺度单元的四个多尺度分支里；第一个分支是卷积核大小为1的卷积层；第二个分支是一个卷积核大小为3的卷积层，后接卷积核大小为1的卷积层；第三个分支是一个卷积核大小为5的卷积层，后接卷积核大小为1的卷积层；第四个分支是一个卷积核大小为7的卷积层，后接卷积核大小为1的卷积层；在四个分支的卷积层中，除了卷积核尺寸为1的卷积层，其卷积核个数均为A个外，其他的卷积层个数均为B个；最后，将四个分支得到的特征图在通道上叠加，输出到注意力单元；

步骤2.2，构建注意力单元，具体是将步骤2.1得到的特征图，首先经过全局平均池化，得到特征向量；然后，将得到的向量输入到两个全连接层，第一个全连接层节点数量为输入的特征图数量的四分之一，第二个节点数等于输入特征图数量；接着，对全连接层的输出，使用Sigmoid函数激活，得到的向量数值在0和1之间；最后，将激活后的向量和步骤2.1得到的特征图相乘，对每个特征图重要程度进行区分；

步骤2.3，构建多尺度单元和注意力单元结合的残差结构块，具体是将输入到多尺度单元的特征图和经过多尺度单元和注意力单元运算之后的结果，进行相加，形成残差结构；

步骤2.4，构建基本特征提取单元，具体是使用C个步骤2.3得到的多尺度单元和注意力单元结合的残差结构块串联，形成基本特征提取单元；

步骤2.5，构建整体网络结构，具体是由四个阶段构成，首先是浅层特征提取阶段，由卷积核大小为3的单个卷积层组成，然后是主要特征提取阶段，是由K个步骤2.4得到的基本特征提取单元通过密集连接的方式组成，接着是特征图放大阶段，使用亚像素卷积层的方式把特征图放大到所需尺寸，最后是重建高分辨率图像阶段，采用单个卷积层根据前面阶段得到的特征图重建出高分辨率图像；

步骤3，使用步骤1得到的训练集，训练集中的低分辨率图像I_LR作为输入，原始高分辨率图像H_HR作为目标；通过前向传播得到网络输出H_hr，与原始高分辨率图像进行比较，计算误差；

min_w,b∑(H_HR-H_hr)²(1)

其中，w和b分别是网络参数权重和偏置；

步骤4，使用优化器Adam，参数设置为默认，对网络进行迭代训练，根据每一次前向传播计算的误差，通过反向传播和梯度下降法不断优化模型，最终得到训练好的网络模型；

步骤5，利用训练好的模型，对测试集进行测试，将方法得到的图像和原始高分辨率图像进行比较，计算峰值信噪比PSNR和结构相似性SSIM客观指标。

在上述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，采用多尺度和注意力单元结合，输入的特征图经过该单元后，每个特征图会有一个权重，代表了特征图的重要性。

在上述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，网络模型中激活函数具体是，注意力单元的第二个全连接层使用Sigmoid激活函数，其他卷积层均为ReLu激活函数。

在上述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，网络结构的具体配置为A＝8、B＝32、C＝4、K＝10。

在上述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，将网络重建出来的高分辨率图像和原始高分辨率图像转换到YCbCr空间，在Y通道上计算峰值信噪比PSNR和SSIM结构相似性指标。

本发明使用多尺度单元和注意力单元，具有高效提取和利用特征的能力，在极大地提取丰富的特征同时，又能避免冗余信息的干扰。采用了密集连接和残差连接的方式，优化了信息的传递流动，加强了梯度传播，避免了梯度不稳定，还可以增强特征的重用，充分利用低分辨率图像的信息。使用亚像素卷积层，把运算集中在小尺度的阶段，可以减少运算量，提高了训练和使用的速度。

附图说明

图1是本发明一种基于多尺度注意力卷积神经网络的图像超分辨率方法的模型结构图。

图2是本发明一种基于多尺度注意力卷积神经网络的图像超分辨率方法的多尺度注意力单元结构图。

图3是本发明一种基于多尺度注意力卷积神经网络的图像超分辨率方法的基本特征提取单元结构图。

图4是输入的测试低分辨率图像。

图5是基于双三次插值的高分辨率重建图像。

图6是基于Aplus算法的高分辨率重建图像。

图7是基于卷积神经网络的SRCNN算法的高分辨率重建图像。

图8是基于卷积神经网络的VDSR算法的高分辨率重建图像。

具体实施方式

本发明公开了一种基于多尺度注意力卷积神经网络的图像超分辨率方法，利用了多尺度单元、注意力单元、密集连接结构、残差结构、亚像素卷积层的优点，能够高效重建出高分辨率图像。本发明的方法具体包括以下步骤：

本发明使用图像超分辨率重建领域常用的DIV2K数据集，DIV2K数据集包含了L张2K分辨率的高质量图像，其中训练集M张，测试集N张，验证集P张，它们包含了丰富的场景，可以用于训练和测试模型。具体而言，首先，从DIV2K训练数据集中随机抽取16张图像，包括低分辨率图像和对应的高分辨率图像。然后，在低分辨率图像中随机选取32*32大小的图像块，接着选取低分辨率图像块对应高分辨率图像块，共同组成训练数据集(I_LR H_HR)。

实施例具体的实施过程说明如下：

DIV2K数据集包含1000张高清图像，训练集800张，测试集100张，验证集100张。在训练集中随机选取16张低分辨率图像和高分辨率图像对。然后，在每张低分辨率图像中随机选取32*32大小的图像区域，再选取与之对应的高分辨率图像区域，对于2倍放大任务，高分辨率图像块大小为64*64，3倍情况下，高分辨率图像块大小是96*96，4倍放大任务是128*128的高分辨率图像块。共同构成训练数据集。

步骤2，构建多尺度注意力卷积神经网络：

步骤2.1，构建多尺度单元，具体是在网络前向传播方向，将前一层特征图，输入到多尺度单元的四个多尺度分支里。第一个分支是卷积核大小为1的卷积层。第二个分支是一个卷积核大小为3的卷积层，后接卷积核大小为1的卷积层。第三个分支是一个卷积核大小为5的卷积层，后接卷积核大小为1的卷积层。第四个分支是一个卷积核大小为7的卷积层，后接卷积核大小为1的卷积层。在四个分支的卷积层中，除了卷积核尺寸为1的卷积层，其卷积核个数均为A个外，其他的卷积层个数均为B个。最后，将四个分支得到的特征图在通道上叠加，输出到注意力单元。

实施例具体的实施过程说明如下：

卷积核尺寸为1的卷积层个数为A＝8，其他尺寸卷积核的卷积层个数为B＝32，卷积层的激活函数均为ReLu激活函数。

步骤2.2，构建注意力单元，具体是将步骤2.1得到的特征图，首先经过全局平均池化。然后，将得到的向量输入到两个全连接层，第一个全连接层节点数量为输入的特征图数量的四分之一，第二个节点数等于输入特征图数量。接着，对全连接层的输出，使用Sigmoid函数激活，得到的向量数值在0和1之间。最后，将激活后的向量和步骤2.1得到的特征图相乘，对每个特征图重要程度进行区分。

步骤2.3，构建多尺度单元和注意力单元结合的残差结构块，具体是将输入到多尺度单元的特征图和经过多尺度单元和注意力单元运算之后的结果，进行相加，形成残差结构。

步骤2.4，构建基本特征提取单元，具体是使用C个步骤2.3得到的多尺度单元和注意力单元结合的残差结构块串联，形成基本特征提取单元。

实施例具体的实施过程说明如下：

基本特征提取单元由C＝4个多尺度单元和注意单元组成的残差结构块串联，用于提取丰富的特征。

步骤2.5，构建整体网络结构，具体是由四个阶段构成，首先是浅层特征提取阶段，由卷积核大小为3的单个卷积层组成，然后是主要特征提取阶段，是由K个步骤2.4得到的基本特征提取单元通过密集连接的方式组成，接着是特征图放大阶段，是使用亚像素卷积层的方式把特征图放大到所需尺寸，最后是重建高分辨率图像阶段，采用单个卷积层根据前面阶段得到的特征图重建出高分辨率图像。

实施例具体的实施过程说明如下：

整体网络中，浅层特征提取阶段的卷积层，卷积核个数是32。主要特征提取阶段由K＝10个步骤2.4中的基本特征提取单元通过密集连接方式组合而成。主要特征提取阶段，卷积层是3层，输出三通道的特征图。

步骤3，使用步骤1得到的训练集，训练集中的低分辨率图像I_LR作为输入，原始高分辨率图像H_HR作为目标。通过前向传播得到网络输出H_hr，与原始高分辨率图像进行比较，计算误差。

min_w,b∑(H_HR-H_hr)² (1)

其中，w和b分别是网络参数权重和偏置。

实施例具体的实施过程说明如下：

首先将图像数据归一化，把像素值除以255，得到的数值在0和1之间。数据张量维度是16*32*32*3，输入到步骤2得到的模型中，经过前向传播得到模型的输出，也就是重建出的高分辨率图像。将它和原始的高分辨率图像比较，计算两者之间的均方误差。

步骤4，使用优化器Adam，参数设置为默认，对网络进行迭代训练，根据每一次前向传播计算的误差，通过反向传播和梯度下降法不断优化模型，最终得到训练好的网络模型。

实施例具体的实施过程说明如下：

Adam是一种动量优化器，具有方便高效的优点，可以适应目标函数，能够快速得到优良的结果，在深度学习领域得到广泛使用。在Adam优化器的参数设置上，本发明设置β₁＝0.9，β₂＝0.999，学习率设置为0.001，总训练代数为50万。

步骤5，利用训练好的模型，对测试集进行测试，将方法得到的图像和原始高分辨率图像进行比较，计算PSNR(峰值信噪比)和SSIM(结构相似性)指标。

实施例具体的实施过程说明如下：

为了验证算法的效果，本发明在图像超分辨率重建领域的常用测试集Set5、Set14、BSD100，和其他算法进行了对比。图(4)是输入的低分辨率图像，图(5)是双三次插值得到的结果，图(6)是Aplus算法得到的结果，图(7)是SRCNN算法得到的重建结果，图(8)是本发明提出的方法得到的结果。从对比结果中可以看出本发明提出的算法重建出来的图像在细节上更加清晰，恢复出来更多的高频信息。在PSNR(峰值信噪比)和SSIM(结构相似性)客观指标上，通过表1可以看出算法有效性。

本发明采用了上述的技术方案，采用了多种最先进的技术，提高了图像超分辨率重建的质量。具体的创新点包括以下的几点：(1)本发明使用了多尺度和注意力单元，多尺度的结构可以提取低分辨率图像包含的各种信息，充分挖掘有用特征。注意力结构能够对提取的大量的特征进行有用性重要性的区分，避免了干扰信息，能够有效利用信息。(2)密集连接和残差连接方式，在基本的特征提取单元中使用了密集连接的方式，在多尺度注意力单元使用残差连接方式，能够加强梯度传播，避免梯度消失，在特征重用方面更加优秀，有助于浅层信息的流动和使用，将浅层信息和深层信息有效的结合，重建出逼真的高分辨率图像。(3)使用了亚像素卷积层的方式对特征图进行放大，将卷积神经网络特征提取阶段得到的特征，直接排列到大尺度的图像中，减少了计算量，保证了重建的速度。

表1

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于，其包括以下步骤：

步骤2，构建多尺度注意力卷积神经网络：

min_w,b∑(H_HR-H_hr)² (1)

其中，w和b分别是网络参数权重和偏置；

2.根据权利要求1所述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于：采用多尺度和注意力单元结合，输入的特征图经过该单元后，每个特征图会有一个权重，代表了特征图的重要性。

3.根据权利要求1所述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于：网络模型中激活函数具体是，注意力单元的第二个全连接层使用Sigmoid激活函数，其他卷积层均为ReLu激活函数。

4.根据权利要求1所述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于：网络结构的具体配置为A＝8、B＝32、C＝4、K＝10。

5.根据权利要求1所述的一种基于多尺度注意力卷积神经网络的图像超分辨率方法，其特征在于：将网络重建出来的高分辨率图像和原始高分辨率图像转换到YCbCr空间，在Y通道上计算峰值信噪比PSNR和SSIM结构相似性指标。