CN111476717A

CN111476717A - 基于自注意力生成对抗网络的人脸图像超分辨重建方法

Info

Publication number: CN111476717A
Application number: CN202010262877.3A
Authority: CN
Inventors: 吴浩博; 张强; 赵世祥
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-07-31
Anticipated expiration: 2040-04-07
Also published as: CN111476717B

Abstract

本发明提出了一种基于自注意力生成对抗网络的人脸图像超分辨重建方法，解决了现有技术只能针对简单下采样所得低分辨图像进行重建，而对于真实场景中的低分辨图像重建效果差的问题。实现步骤为：构建两个生成器网络和判别器网络；构建并初始化两个自注意力生成对抗网络；生成初始人脸图像训练集；训练两个自注意力生成对抗网络；对低分辨人脸图像进行超分辨率重建。本发明在网络中加入了自注意力层，引入图像全局整体特征，在损失函数中加入了上下文损失，增强了生成图像的纹理细节信息。

Description

基于自注意力生成对抗网络的人脸图像超分辨重建方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像超分辨重建技术领域中的一种基于自注意力生成对抗网络的人脸图像超分辨重建方法。本发明可用于从真实场景中的低分辨人脸图像重建出对应的高分辨人脸图像。

背景技术

随着近年来通信技术的不断发展,数字化图像作为一种重要的信息传递方式,已经渗透到人们生成生活的方方面面。在视频监控领域中,由于图像采集过程中硬件设备存在噪声、设备分辨率有限和图像传播过程中含有误差等因素的影响，所获得的人脸图像往往分辨率不高，细节信息较差。通过超分辨重建技术可以恢复低分辨人脸图像的纹理细节信息，提升人脸图像的辨识度。现阶段，深度学习由于其强大的非线性能力和特征学习能力，成为了超分辨重建中的主流方法。

中国科学技术大学在其申请的专利文献“一种基于有监督逐像素生成对抗网络的人脸超分辨率方法”(专利申请号：201910879159.8，申请公开号：110689482A)中提出了一种人脸图像超分辨重建方法。该方法设计了一个有监督逐像素的生成对抗网络，包括一个生成器网络和一个逐像素的判别器网络。该方法将高分辨图像下采样得到低分辨图像，将低分辨图像通过生成器生成超分辨图像，接着把超分辨图像和高分辨图像分别输入到逐像素的判别器网络中，得到逐像素判别矩阵，以此计算对抗损失，并将该损失进行反向传播训练参数。该方法采用逐像素判别损失，提高了人脸超分辨重建的相似度和低分辨人脸识别的准确度。但该方法的不足之处是，直接通过下采样得到低分辨人脸图像，这与真实场景中的低分辨人脸图像降质过程不同，使得该方法在应用到真实低分辨人脸图像时，效果较差。

电子科技大学在其申请的专利文献“基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法”(专利申请号：201710347472.8，申请公开号：107154023A)中提出了一种人脸图像超分辨重建方法。该方法同样设计了一个生成对抗网络进行超分辨重建，包括一个生成器网络和一个判别器网络。该方法在生成器网络中通过卷积提取低分辨图像特征，并加入亚像素卷积层来实现低分辨图像特征到高分辨图像的映射，结合生成图像特征的损失信息进行训练。该方法考虑到在低分辨到高分辨的映射过程中，反卷积可能会造成一些图像伪影，因此用亚像素卷积层替代反卷积层后，重建图像整体效果更加自然。但该方法的不足之处是生成器网络中的卷积操作更擅长于提取局部特征，在提取图像全局特征时比较困难，重建过程中未能有效地利用图像的全局整体特征对局部信息进行指导，导致部分重建图像局部不够合理。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出了一种基于自注意力生成对抗网络的人脸图像超分辨重建方法，用于解决现有方法多针对于简单下采样得到的低分辨图像重建，而对于真实场景低分辨图像重建效果差、纹理细节信息不足的问题。

为实现上述目的，本发明的思路是，构建两个基于自注意力机制的生成对抗网络，在生成器网络中加入自注意力层，在训练网络的损失函数中加入上下文损失，在图像重建过程中加入更多的图像整体全局特征以增强生成图像的细节纹理信息。通过先利用一个生成网络学习低分辨图像的降质过程，再学习超分辨过程，这样的训练方式使得本发明能适用于真实场景中的任意未知降质过程的低分辨图像。

本发明方法的具体步骤包括如下：

(1)构建两个生成器网络：

(1a)搭建两个基本结构相同的生成器网络，每个网络的结构依次为:输入层→第1卷积层→第1激活函数层→残差块组合→第1自注意力层→第2卷积层→第2激活函数层→第3卷积层→第3激活函数层→第2自注意力层→第4卷积层→第4激活函数层→输出层；

第1个生成器网络中的残差块组合由12个残差块串联组成；第2个生成器网络中的残差块组合由11个残差块组成，每个残差块的基本结构为：第1归一化层→反卷积层→第1激活函数层→第1卷积层→第2归一化层→池化层→第2激活函数层→第2卷积层；其中，第1个生成器网络中残差块组合中的第1、3、5、7残差块中不设置反卷积层，第2、4、6、8残差块中不设置反卷积层和池化层，第9、10残差块中不设置池化层，第11、12残差块均不设置反卷积层和池化层；第2个生成器网络中的第6、9残差块中不设置池化层，其余残差块中均不设置反卷积层和池化层；将第2个生成器网络残差块组合中的第1至第6残差块组成第一组残差块，第7至第9残差块组成第二组残差块，第10个和第11个残差块组成第三组残差块；残差块的组间采用串联方式连接，每组残差块的内部采用串--跨连接方式连接；

(1b)所述两个生成器网络中的第1激活函数层采用LeakyReLU函数实现，第2、3激活函数层均采用ReLU函数实现，第4激活函数层采用Tanh函数实现；

所述两个生成器网络中的残差块组合的第1、2归一化层均采用BatchNorm2d函数实现，第1、2激活函数均采用ReLU函数实现；

(1c)设置第1个生成器网络的每层参数：

将第1卷积层至第4卷积层的卷积核的个数依次设置为64，96，96，3，卷积核大小均设置为3×3，卷积步长均设置为1；

将第1激活函数层的LeakyReLU函数的斜率设置为0.2；

将残差块组合中第1至第12个残差块的卷积核个数依次设置为64，64，96，96，128，128，256，256，128，128，96，96，将每个残差块中的两个卷积层的卷积核大小均设置为3×3，卷积核的个数相同，卷积步长均设置为1；

将残差块组合中池化层的池化卷积核设置为2×2，池化步长为2；

将残差块组合中的反卷积层的卷积核大小设置为4×4，卷积核的个数均设置为128，卷积步长设置为2，在反卷积过程中对输入的填充数设置为1；

(1d)设置第2个生成器网络的每层参数：

将第1卷积层至第4卷积层的卷积核的个数依次设置为256，128，96，3，卷积核大小均设置为3×3，卷积步长均设置为1；

将第1激活函数层的LeakyReLU函数的斜率设置为0.2；

将残差块组合的第1组至第3组残差块中的卷积层的卷积核个数依次设置为256，128，96，所有残差块中的卷积层的每个卷积核大小均设置为3×3，卷积步长均设置为1；

将残差块组合中的反卷积层的卷积核设置为4×4，卷积核的个数均设置为128，卷积步长设置为2，在反卷积过程中对输入的填充数设置为1；

(2)构建判别器网络：

(2a)搭建两个基本结构相同的判别器网络，每个网络的结构依次为：输入层→第1卷积层→第1激活函数层→残差块组合→全局平均池化层→第1自注意力层→第2卷积层→第2激活函数层→第2自注意力层→第3卷积层→第3激活函数层Sigmoid→输出层；

所述残差块组合均由6个残差块串联组成，每个残差块的结构为：第1激活函数层→第1卷积层→第2激活函数层→第2卷积层；

所述第1、2激活函数层均采用LeakyReLU函数实现，第3激活函数层采用Sigmoid函数实现；

所述残差块组合中的第1、2激活函数层均采用LeakyReLU函数实现；

(2b)设置判别器网络的每层参数：

第1个判别器网络和第2个判别器网络的参数相同，均按照如下设置；

将第1卷积层的卷积核大小设置为3×3，卷积核的个数设置为64，卷积步长设置为1；将第2、3卷积层的卷积核的个数依次设置为1024，1，卷积核大小均设置为1x1，卷积步长均设置为1；

将所有激活函数层的LeakyReLU函数的斜率均设置为0.2；

将残差块组合中的所有卷积层的卷积核大小均设置为3×3，卷积层的卷积步长均设置为1；

将残差块组合中的所有激活函数层的LeakyReLU函数的斜率设置为0.2；

将残差块组合中的第1至第6个残差块中每2个卷积层中卷积核个数依次设置为：(64，64)、(64，128)、(128，128)、(128，256)、(256，256)、(256，512)；

(3)构建两个自注意力生成对抗网络：

将第1个生成器网络和第1个判别器网络级联组成第1个自注意力生成对抗网络，将第2个生成器网络和第2个判别器网络级联组成第2个自注意力生成对抗网络；

(4)初始化自注意力生成对抗网络：

将两个自注意力生成对抗网络中所有的卷积层、反卷积层和归一化层的权重初始化为满足正态分布的随机值，其中：所述正态分布的均值为0，标准差为0.02；

(5)生成初始人脸图像训练数据集：

选取N张大小为W×H的三通道彩色高分辨人脸图像组成初始高分辨图像训练集；再选取M张大小为

的三通道彩色低分辨人脸图像组成初始低分辨图像训练集；其中，N＞1000，600＜M＜1000，W、H分别表示每张所选人脸图像的宽和高，64≤W≤256，64≤H≤256，W和H的单位为像素；

(6)训练两个自注意力生成对抗网络：

(6a)将初始高分辨图像训练集输入到第1个生成器网络中，输出对应的预测低分辨图像，利用生成器损失函数计算第1个生成器网络损失值；

利用梯度下降法将第1个生成器网络的损失值反向传播，计算第1个生成器网络每个卷积层和反卷积层的每个卷积核的所有梯度、归一化层的所有梯度、注意力层的所有梯度；

根据第1个生成器网络每个卷积层和反卷积层的每个卷积核的所有梯度、归一化层的所有梯度、注意力层的所有梯度，使用Adam优化器对生成器网络每个卷积层和反卷积层的每个卷积核的所有权重、归一化层的所有权重、注意力层的所有权重进行迭代更新；所述Adam优化器的初始学习率为0.0002，指数衰减率为(0，0.9)；

(6b)将初始低分辨图像训练集中的图像和预测低分辨图像依次输入到第1个判别器网络中，第1个判别器网络输出对应的真伪概率，利用判别器损失函数计算第1个判别器网络的损失值；

利用梯度下降法将第1个判别器网络的损失值反向传播，计算第1个判别器网络每个卷积层的每个卷积核的所有梯度和自注意力层的所有梯度；

根据第1个判别器网络每个卷积层的每个卷积核的所有梯度和自注意力层的所有梯度，使用Adam优化器对判别器网络每个卷积层的每个卷积核的所有权重和自注意力层的所有权重进行迭代更新；所述Adam优化器的初始学习率为0.0002，指数衰减率为(0，0.9)；

(6c)依次重复步骤(6a)和(6b)500次，完成生成对抗网络的训练，得到训练好的第1个生成器网络权重，保存训练好的生成对抗网络中生成器网络每个卷积层和反卷积层的每个卷积核的所有权重、归一化层的所有权重、注意力模块的所有权重；

(6d)第1个生成对抗网络训练结束后，将初始高分辨图像训练集输入到第1生成器网络中，利用保存的生成器网络权重，输出对应的低分辨图像，组成预测低分辨人脸图像训练集；

(6e)将步骤(6d)得到的预测训练集中的低分辨图像输入到第2个生成器网络中，第2个生成器网络输出对应的超分辨图像之后，再将超分辨图像和步骤(6d)得到的初始训练集中的高分辨图像依次输入到第2个判别器网络中，第2个判别器网络对依次输入的图像判别后分别输出对应的真伪概率，采用和步骤(6a)至(6c)中相同的训练方式对第2个生成器网络和第2个判别器网络进行训练，得到训练好的第2个生成器网络并保存训练好的第2个生成器网络权重；

(7)对低分辨人脸图像进行超分辨率重建：

将待超分辨率的低分辨人脸图像输入到第2个生成器网络中，利用保存好的生成器网络权重输出超分辨率重建的结果。

本发明与现有技术相比较，具有以下优点：

第一，本发明提出的基于自注意力生成对抗网络的人脸图像超分辨重建方法，在构建生成器网络中充分考虑到图像的全局整体特征，在生成器输出预测图像过程中和判别器输出预测真伪概率过程中均加入了自注意力层来提取图像全局特征，克服了现有技术中仅通过卷积操作提取图像局部特征的弊端，使得生成的超分辨结果每个像素和所有其它像素都有联系，整体图像更加合理。同时，本发明在构建网络损失函数时引入了上下文损失，克服了现有技术重建得到的高分辨图像中纹理细节信息不足的问题，使得本发明所提出的技术得到的重建图像中纹理细节信息更加丰富，图像视觉效果更好。

第二，本发明构建了两个由生成器网络和判别器网络组成的自注意力生成对抗网络；对于真实场景中未知复杂降质的低分辨图像，首先采用一个生成对抗网络学习低分辨图像的降质过程，再通过另一个生成对抗网络学习超分辨重建过程，这种训练方式克服了现有技术只能针对简单下采样所得的低分辨图像具有良好重建结果、而对于真实场景图像效果较差的问题。本发明能适用于真实场景中任意未知降质过程的低分辨人脸图像。

附图说明

图1为本发明的流程图；

图2为本发明自注意力生成对抗网络中生成器网络的结构示意图；其中，图2(a)为本发明的第1个生成器网络结构示意图，图2(b)为第2个生成器网络结构示意图，图2(c)为生成器中残差块的结构示意图，图2(d)为生成器中注意力层的结构示意图；

图3为本发明自注意力生成对抗网络中判别器网络结构示意图；

图4为本发明自注意力生成对抗网络中判别器网络的残差块图；

图5为本发明的仿真图，其中，图5(a)为输入的低分辨图像，图5(b)为采用Bicubic方法进行重建的结果图，图5(c)为采用SRCNN方法进行重建的结果图，图5(d)为采用SRGAN方法进行重建的结果图，图5(e)为采用本发明方法进行重建的结果图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，对本发明的具体步骤做进一步的描述。

步骤1.构建两个生成器网络。

搭建两个基本结构相同的生成器网络，每个网络的结构依次为：输入层→第1卷积层→第1激活函数层→残差块组合→第1自注意力层→第2卷积层→第2激活函数层→第3卷积层→第3激活函数层→第2自注意力层→第4卷积层→第4激活函数层→输出层。

第1个生成器网络中的残差块组合由12个残差块串联组成；第2个生成器网络中的残差块组合由11个残差块组成。每个残差块的基本结构为：第1归一化层→反卷积层→第1激活函数层→第1卷积层→第2归一化层→池化层→第2激活函数层→第2卷积层；所述残差块的结构参照附图2(c)。

其中，第1个生成器网络中残差块组合中的第1、3、5、7残差块中不设置反卷积层，第2、4、6、8残差块中不设置反卷积层和池化层，第9、10残差块中不设置池化层，第11、12残差块均不设置反卷积层和池化层。第1个生成器网络的具体结构参照图2(a)。

第2个生成器网络中的第6、9残差块中不设置池化层，其余残差块中均不设置反卷积层和池化层；将第2个生成器网络残差块组合中的第1至第6残差块组成第一组残差块，第7至第9残差块组成第二组残差块，第10个和第11个残差块组成第三组残差块；残差块的组间采用串联方式连接，每组残差块的内部采用串--跨连接方式连接；第2个生成器网络的具体结构参照附图2(b)。

第2个生成器网络中，所述的每组残差块内部采用的串--跨连接方式为：每组残差块内从输入到输出有两路连接，一路连接为输入顺序经过各个残差块到达该组输出，为串联方式，一路连接为输入直接连接到输出，为跨连接方式。

所述生成器网络中的自注意力层由4个卷积层组成，具体结构参照图2(d)。

所述两个生成器网络中的第1激活函数层采用LeakyReLU函数实现，第2、3激活函数层均采用ReLU函数实现，第4激活函数层采用Tanh函数实现；所述两个生成器网络中的残差块中的第1、2归一化层均采用BatchNorm2d函数实现，第1、2激活函数均采用ReLU函数实现。

设置第1个生成器网络的每层参数。

将第1卷积层至第4卷积层的卷积核的个数依次设置为64，96，96，3，卷积核大小均设置为3×3，卷积步长均设置为1。

将第1激活函数层的LeakyReLU函数的斜率设置为0.2。

将残差块组合中，第1至第12个残差块的卷积核个数依次设置为64，64，96，96，128，128，256，256，128，128，96，96，将每个残差块中的两个卷积层的卷积核大小均设置为3×3，卷积核的个数相同，卷积步长均设置为1。

将残差块组合中池化层的池化卷积核设置为2×2，池化步长为2。

将残差块组合中的反卷积层的卷积核大小设置为4×4，卷积核的个数均设置为128，卷积步长设置为2，在反卷积过程中对输入的填充数设置为1。

设置第2个生成器网络的每层参数。

将第1卷积层至第4卷积层的卷积核的个数依次设置为256，128，96，3，卷积核大小均设置为3×3，卷积步长均设置为1。

将第1激活函数层的LeakyReLU函数的斜率设置为0.2。

将残差块组合的第1组至第3组残差块中的卷积层的卷积核个数依次设置为256，128，96，所有残差块中的卷积层的每个卷积核大小均设置为3×3，卷积步长均设置为1。

将残差块组合中的反卷积层的卷积核设置为4x4，卷积核的个数均设置为128，卷积步长设置为2，在反卷积过程中对输入的填充数设置为1。

步骤2.构建判别器网络。

搭建两个基本结构相同的判别器网络，每个网络的结构依次为：输入层→第1卷积层→第1激活函数层→残差块组合→全局平均池化层→第1自注意力层→第2卷积层→第2激活函数层→第2自注意力层→第3卷积层→第3激活函数层→输出层。所述判别器网络的结构参照图3。

所述残差块组合均由6个残差块串联组成，每个残差块的结构为：第1激活函数层→第1卷积层→第2激活函数层→第2卷积层。所述残差块的结构参照图4。

所述第1、2激活函数层均采用LeakyReLU函数实现，第3激活函数层采用Sigmoid函数实现。所述残差块组合中的第1、2激活函数层均采用LeakyReLU函数实现。

设置判别器网络的每层参数。

第1个判别器网络和第2个判别器网络的参数相同，均按照如下设置。

将第1卷积层的卷积核大小设置为3×3，卷积核的个数设置为64，卷积步长设置为1；将第2、3卷积层的卷积核的个数依次设置为1024，1，卷积核大小均设置为1x1，卷积步长均设置为1。

将所有激活函数层的LeakyReLU函数的斜率均设置为0.2。

将残差块组合中的所有卷积层的卷积核大小均设置为3×3，卷积层的卷积步长均设置为1。

将残差块组合中的所有激活函数层的LeakyReLU函数的斜率设置为0.2。

将残差块组合中的第1至第6个残差块中每2个卷积层中卷积核个数依次设置为：(64，64)、(64，128)、(128，128)、(128，256)、(256，256)、(256，512)。

步骤3.构建两个自注意力生成对抗网络。

将第1个生成器网络和第1个判别器网络级联组成第1个自注意力生成对抗网络，将第2个生成器网络和第2个判别器网络级联组成第2个自注意力生成对抗网络。

步骤4.初始化自注意力生成对抗网络。

使用Pytorch函数库中的torch.nn.init.normal函数将两个自注意力生成对抗网络中所有的卷积层、反卷积层和归一化层的权重初始化为满足正态分布的随机值，其中：所述正态分布的均值为0，标准差为0.02；

步骤5.生成初始人脸图像训练数据集。

的三通道彩色低分辨人脸图像组成初始低分辨图像训练集；其中，N＞1000，M＞800，W、H分别表示每张所选人脸图像的宽和高，64≤W≤256，64≤H≤256，W和H的单位是像素。

步骤6.训练两个自注意力生成对抗网络。

第1步，将初始高分辨图像训练集输入到第1个生成器网络中，输出对应的预测低分辨图像，利用生成器损失函数计算第1个生成器网络损失值。

所述的生成器网络损失函数如下：

L_G＝10*L_con+0.05*L_adv+1*L_cx

其中，L_G表示生成器网络损失函数，*表示相乘运算，L_con表示生成器输出的预测低分辨图像和初始低分辨图像间的最小均方误差损失，L_adv表示生成器网络的对抗损失，L_cx表示生成器输出的预测低分辨图像和初始低分辨图像间的上下文损失，其中上下文损失是指将待计算的两张图像分别经过固定的特征提取网络提取一组特征，通过计算两张图像特征间的相似度来衡量两张图像的差异，从而得到的一种损失，称为上下文损失。

分别由下列公式得到：

L_adv＝0.5×(D(G(Iⁿ))-1)²

其中，D(·)表示注意力生成对抗网络中的判别器网络的输出，G(·)表示注意力生成对抗网络中的生成器网络的输出，i、j分别表示图像中像素的位置坐标，

表示输入到判别器网络的初始低分辨图像训练集中的图像中坐标为(i、j)处的像素值，

表示经生成器输出的预测低分辨图像中坐标为(i、j)处的像素值，Iⁿ表示输入到生成器网络中的初始高分辨图像训练集中的图像，∑表示求和操作，log表示以10为底的对数操作，N表示输入到判别器的初始低分辨图像训练集中的图像和经生成器输出的预测低分辨图像经过特征提取网络后所得图像特征的维数，max表示取最大值操作，d_mn表示初始低分辨图像训练集中图像的第m个特征和生成器输出预测低分辨图像的第n个特征间的余弦距离，d_mk表示初始低分辨图像训练集中图像的第m个特征和生成器输出预测低分辨图像的第k个特征间的余弦距离，||·||₂表示2范数操作。

第2步，将初始训练集中的低分辨图像和经生成器网络输出的预测低分辨图像依次输入到第1个判别器网络中，第1个判别器网络输出对应的真伪概率，利用判别器损失函数计算第1个判别器网络的损失值。

所述的判决器网络损失函数如下：

L_D＝0.5×(D(I^c)-1)²+0.5×(D(G(Iⁿ)))²

其中，L_D表示判别器损失函数，I^c表示输入到判别器网络的初始低分辨图像训练集中的图像。

利用梯度下降法将第1个判别器网络的损失值反向传播，计算第1个判别器网络每个卷积层的每个卷积核的所有梯度和自注意力层的所有梯度。

根据第1个判别器网络每个卷积层的每个卷积核的所有梯度和自注意力层的所有梯度，使用Adam优化器对判别器网络每个卷积层的每个卷积核的所有权重和自注意力层的所有权重进行迭代更新；所述Adam优化器的初始学习率为0.0002，指数衰减率为(0，0.9)。

第3步，依次重复本步骤第1步和第2步500次，完成生成对抗网络的训练，得到训练好的第1个生成器网络权重，保存训练好的生成对抗网络中生成器网络每个卷积层和反卷积层的每个卷积核的所有权重、归一化层的所有权重、注意力模块的所有权重。

第4步，第1个生成对抗网络训练结束后，把初始训练集中的高分辨图像输入到第1生成器网络中，利用保存的生成器网络权重，输出对应的低分辨图像，组成预测低分辨人脸图像训练集。

第5步，将第4步得到的预测训练集中的低分辨图像输入到第2个生成器网络中，第2个生成器网络输出对应的超分辨图像之后，再将超分辨图像和第4步得到的初始训练集中的高分辨图像依次输入到第2个判别器网络中，第2个判别器网络输出对应的真伪概率，采用与本步骤第1步至第3步中相同的训练方式对第2个生成器网络和第2个判别器网络进行训练，得到训练好的第2个生成器网络并保存训练好的第2个生成器网络权重。

步骤7.对低分辨人脸图像进行超分辨率重建。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台：处理器为Intel(R)Core i7-8700CPU、主频为3.20GHz、内存为32GB、显卡为GeForce RTX 2080。

本发明的仿真实验的软件平台：Python3.6，Pytorch1.2.0。

2.仿真内容及其结果分析：

本发明的仿真实验是采用本发明的方法，从CelebA人脸图像数据集中选取了60000张大小为64×64的三通道彩色高分辨人脸图像，组成初始高分辨图像训练集；再从Widerface人脸图像数据集中选取了53254张大小为16×16的三通道彩色低分辨人脸图像，组成初始低分辨图像训练集；此外，在Widerface人脸数据集中重新选取了3000张大小为16×16的三通道彩色低分辨人脸图像作为测试集。

为了验证本发明的仿真实验效果，将测试集中所有低分辨人脸图像输入到训练好的第2个生成器网络中进行超分辨重建，得到测试集中所有低分辨人脸图像的超分辨结果。

本发明的仿真实验还采用了现有技术的Bicubic、SRCNN和SRGAN共三种超分辨方法进行仿真，其中，Bicubic为双三次插值法，同过对低分辨图像进行双三次插值得到超分辨图像，SRCNN通过一个三层卷积神经网络对图像进行超分辨重建，首先将低分辨图像通过插值放大，再输入卷积神经网络得到超分辨输出，SRGAN利用一个生成对抗网络对图像进行超分辨重建。本发明的仿真实验将测试集中所有低分辨人脸图像用现有技术的三种对比方法进行仿真实验，再将其结果与本发明的方法进行对比，以此证明本发明方法的有效性。

本发明仿真实验得到的部分重建结果如附图5所示。其中，图5(a)为输入的低分辨图像，其大小为16×16。图5(b)为采用Bicubic方法进行重建所得到的结果图，其大小为64×64。图5(c)为采用SRCNN方法进行重建所得到的结果图，其大小为64×64。图5(d)为采用SRGAN方法进行重建所得到的结果图，其大小为64×64。图5(e)为采用本发明方法进行重建所得到的结果图，其大小为64×64。由图5可以看出，本发明方法所得到的重建结果的视觉效果更好，纹理细节信息更充分。

为了验证本发明的仿真效果，由下式计算PSNR和SSIM，并将计算结果绘成表1：

其中，SSIM(I^c,I^p)表示对输入到公式的初始低分辨训练集中的人脸图像I^c和生成器输出的预测低分辨人脸图像I^p计算得到的结构相似度SSIM值，式中，μ_c、μ_p分别为I^c和I^p图像像素值的均值，δ_c ²、δ_p ²分别为I^c和I^p图像像素值的方差，δ_cp为I^c和I^p图像像素值的协方差，c₁、c₂分别为非常小的常数，避免出现除0操作。PSNR(I^c,I^p)表示对输入到公式的两张人脸图像I^c和I^p计算得到的峰值信噪比PSNR值，lg表示以10为底的对数运算符号。

表1

	Bicubic	SRCNN	SRGAN	Ours
					PSNR	18.15	19.86	18.94	20.32
SSIM	0.648	0.679	0.575	0.693

表1中从左到右依次为Bicubic方法、SRCNN方法、SRGAN方法和本发明的方法。表1中的第一行数据为每种方法得到的峰值信噪比PSNR(Peak Signal to Noise Ratio)值，第2行数据为每种方法得到的结构相似度SSIM(Structural SIMilarity)值。由表1可以看出，本发明方法所得超分辨重建图像的指标更高，说明重建后的图像内容更加准确。

以上仿真实验表明：本发明通过构建两个自注意力生成对抗网络，对低分辨图像的降质过程先进行学习，有效解决了现有技术只能对简单下采样得到的低分辨图像进行重建的不足，本发明可有效用于真实场景中未知复杂降质过程的低分辨图像中，通过在生成器网络和判别器网络中加入自注意力层，解决了现有技术仅利用图像局部信息，生成图像部分不合理的问题，通过引入图像的上下文损失，让它和图像内容损失、对抗损失一起引导生成对抗网络的训练过程，有效提升了重建图像的纹理细节信息，是一种非常实用的人脸图像超分辨重建方法。

Claims

1.一种基于自注意力生成对抗网络的人脸图像超分辨重建方法，其特征在于，构建两个由生成器和判别器组成的自注意力生成对抗网络，通过生成器和判别器的交替更新对生成对抗网络进行训练，首先学习低分辨图像的降质过程，再对低分辨图像进行超分辨重建；该方法具体步骤包括如下：

(1)构建两个生成器网络：

(1c)设置第1个生成器网络的每层参数：

将第1激活函数层的LeakyReLU函数的斜率设置为0.2；

(1d)设置第2个生成器网络的每层参数：

将第1激活函数层的LeakyReLU函数的斜率设置为0.2；

(2)构建判别器网络：

(2a)搭建两个基本结构相同的判别器网络，每个网络的结构依次为：输入层→第1卷积层→第1激活函数层→残差块组合→全局平均池化层→第1自注意力层→第2卷积层→第2激活函数层→第2自注意力层→第3卷积层→第3激活函数层→输出层；

(2b)设置判别器网络的每层参数：

将所有激活函数层的LeakyReLU函数的斜率均设置为0.2；

(3)构建两个自注意力生成对抗网络：

(4)初始化自注意力生成对抗网络：

(5)生成初始人脸图像训练数据集：

的三通道彩色低分辨人脸图像组成初始低分辨图像训练集；其中，N＞1000，M＞800，W、H分别表示每张所选人脸图像的宽和高，64≤W≤256，64≤H≤256，W和H的单位为像素；

(6)训练两个自注意力生成对抗网络：

(6e)将步骤(6d)得到的预测训练集中的低分辨图像输入到第2个生成器网络中，第2个生成器网络输出对应的超分辨图像之后，再将超分辨图像和步骤(6d)得到的初始训练集中的高分辨图像依次输入到第2个判别器网络中，第2个判别器网络输出对应的真伪概率，采用和步骤(6a)至(6c)中相同的训练方式对第2个生成器网络和第2个判别器网络进行训练，得到训练好的第2个生成器网络并保存训练好的第2个生成器网络权重；

(7)对低分辨人脸图像进行超分辨率重建：

2.根据权利要求1所述的基于自注意力生成对抗网络的人脸图像超分辨重建方法，其特征在于，步骤(1a)中所述每组残差块的内部采用串--跨连接方式连接指的是：第2个生成器网络中每组残差块内部从输入到输出有两路，其中，一路为输入顺序经过各个残差块到达该组输出，为串联方式；一路为输入直接连接到输出，为跨连接方式。

3.根据权利要求1所述的基于自注意力生成对抗网络的人脸图像超分辨重建方法，其特征在于，步骤(6a)中所述的生成器网络损失函数形式如下：

L_G＝10*L_con+0.05*L_adv+1*L_cx

其中，L_G表示生成器网络损失函数，*表示相乘运算，L_con表示生成器输出的预测低分辨图像和初始低分辨图像间的最小均方误差损失，L_adv表示生成器网络的对抗损失，L_cx表示生成器输出的预测低分辨图像和初始低分辨图像间的上下文损失，其中上下文损失是指将待计算的两张图像分别经过固定的特征提取网络提取一组特征，通过计算两张图像特征间的相似度来衡量两张图像的差异，从而得到的一种损失，称为上下文损失。分别由下列公式得到：

L_adv＝0.5×(D(G(Iⁿ))-1)²

4.根据权利要求3中所述的基于自注意力生成对抗网络的人脸图像超分辨重建方法，其特征在于，步骤(6b)中所述的判别器损失函数如下：

L_D＝0.5×(D(I^c)-1)²+0.5×(D(G(Iⁿ)))²