CN117291803B

CN117291803B - Pamgan轻量化面部超分辨率重建方法

Info

Publication number: CN117291803B
Application number: CN202311275131.6A
Authority: CN
Inventors: 邓红霞; 高磊怡; 李娇; 张军; 张瑞欣
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-02-27
Anticipated expiration: 2043-09-28
Also published as: CN117291803A

Abstract

本发明属于深度学习技术领域，具体涉及PAMGAN轻量化面部超分辨率重建方法，包括下列步骤：构建数据集；构建神经网络模型PAMGAN；利用所属训练集在所构建的PAMGAN网络上进行训练；获取待超分辨率重建的面部图像，并通过训练完毕的PAMGAN模型进行低分辨率图像的超分辨率重建；建立评价指标用于对PAMGAN模型的评估。本发明主体框架是一个GAN结构，在Swin Transformer的窗口自注意力机制中加入由脉冲耦合神经网络提取的多迭代次数全局面部特征进行注意力的计算，对输入信息进行全局和局部的空间关联建模，有效实现面部超分辨率重建结果纹理清晰且符合人类感知，同时保持网络结构的轻量化。

Description

PAMGAN轻量化面部超分辨率重建方法

技术领域

本发明属于深度学习技术领域，具体涉及一种PAMGAN轻量化面部超分辨重建方法。

背景技术

随着社会的不断发展和科技的日益进步，我们使用的图像质量也在不断得到提升。然而由于现实生活中的一些物理成像设备或采集环境的限制，以及一些老旧成像的存储，低分辨率(LR)面部图像普遍存在，这不仅影响了面部图像的观感和辨别效果，也制约了诸如面部识别、表情分析、姿态估计等应用的准确性和稳定性。为了解决这一问题，面部超分辨率(FSR)技术应运而生，旨在通过从低分辨率面部图像中重建出高分辨率(HR)面部图像，以提高图像质量和视觉效果。

图像的超分辨率(SR)不管是在数学还是计算机领域都被认为是一个不适定问题。由于图像在下采样过程中，信息会被丢失或压缩，这就意味着多个不同的高分辨率图像可能会对应于同一个低分辨率图像。且由于FSR相对于普通SR的高倍率特性，FSR可以被视为一种半生成半恢复的问题，自诞生以来一直是图像处理领域和计算机视觉(CV)领域的热门话题。尽管CNN以其速度快、复杂度低、准确率高等优势在面部超分辨率领域取得了不少优秀成果，但对于FSR的高倍率特性，CNN往往无法恢复更精细和自然的纹理细节，这激发了研究人员使用生成对抗网络(GAN)来恢复具有更多高频细节的FSR结果。在早期，URDGN首先将GAN用于FSR，生成了感知质量良好的面部图像。在这之后，众多相关工作也证明了GAN在该领域的优越性。

同时，由于面部图像以其高度结构化的特点可以被探索和利用，相关研究人员利用这些信息进一步拓展了FSR的种类。例如使用先验信息引导的FSR、属性约束的FSR和参考FSR等，这些方法可以恢复出具有更加清晰的面部结构的面部图像。

最近，Transformer在图像处理领域展现出了巨大的潜力，其用于FSR领域的工作近年来逐渐增多。将空间注意力引入生成器，并利用多尺度鉴别器来提高FSR的图像质量；CTCNet将CNN与Transformer协作起来，使用多尺度连接的编码器-解码器架构作为骨干用于面部超分辨率任务，在多个数据集上展现出了实用性和适用性。基于深度学习的面部超分辨率(FSR)研究近年来取得了重大进展，而如何在保证恢复出面部精细自然的纹理细节的同时，有效降低模型复杂度，以满足在轻量化设备上迁移使用的需求，是该领域的一个难点，仍然需要通过搭建深度学习框架来进行结构化图像超分辨重建。

发明内容

针对上述的技术问题，本发明提供了一种PAMGAN轻量化面部超分辨重建方法，首次将脉冲耦合神经网络(PCNN)提取的全局特征信息融合进窗口自注意力机制，同时利用了全局结构化信息和局部关键信息以改善网络的学习能力及超分重建的性能；其次，网络框架采用对抗生成网络结构，使用基于窗口自注意力的渐进式生成器，以保证网络的轻量级。

为了解决上述技术问题，本发明采用的技术方案为：

PAMGAN轻量化面部超分辨率重建方法，包括下列步骤：

S1、构建以渐进式生成器为主的基于对抗生成网络GAN结构的轻量化面部超分辨率模型PAMGAN；

S2、使用脉冲耦合神经网络神经网络PCNN提取不同分辨率图像的全局多轮次信息；

S3、在RST block中使用窗口自注意力机制提取局部关键信息，S2中得到的全局多轮次信息参与窗口自注意力计算，在注意力计算过程中实现全局和局部信息的融合；

S4、使用Charbonnier损失指导渐进式生成器稳定训练，同时加速生成器和鉴别器的收敛。

所述S1中模型的主体框架是一个GAN结构，生成器负责面部超分重建的主要功能，鉴别器负责判断超分辨率SR图像和高分辨率HR图像的相对真实性；为保证模型的轻量化，采用渐进式生成器对图片进行超分辨率重建操作：分辨率为16×16的低分辨率LR图像输入到生成器，在经过PCNN提取模块和RST block之后使用亚像素卷积进行2倍上采样操作，得到中间结果；此过程重复三次后，再重复一次无上采样的操作，总共得到三个不同分辨率的中间结果以及最后大小为128*128的SR结果；此结果与相应的HR图像一同被送到鉴别器中判断图像真实性，二者相互对抗，提升图像的超分重建效果。

所述S2中使用PCNN模块进行图像全局结构化信息的提取；PCNN模块包括输入、连接和脉冲产生三个部分，如果在本轮次中神经元内部的活动项超过其激发动态门限，则产生脉冲，所述产生脉冲在结果矩阵中体现为1，否则不产生脉冲信息，所述不产生脉冲在结果矩阵中体现为0；将LR输入以及2中所提到的各中间结果分别送到PCNN模块中，进行32轮次的特征提取过程，分别得到高度和宽度与输入等大，通道数为32的二值化矩阵；LR图像在浅层特征提取后，所得通道数为64，且在自注意力机制中进行的是矩阵乘法，二值化矩阵参与运算太过绝对，所以将32轮次的特征经过一个线性层得到通道数为64，且数值调和之后的全局特征用于后续计算。

所述PCNN模块定义为：

F_ij[n]＝exp(-α_F)F_ij[n-1]+V_F∑m_ijklY_kl[n-1]+I_ij

其中，F_ij[n]表示第(i,j)个神经元的第n次反馈输入，m_ijkl表示F_ij[n]中Y_kl[n]的加权系数，V_F表示固有电势，α_F表示衰减时间常数；

L_ij[n]＝exp(-α_L)L_ij[n-1]+V_L∑w_ijklY_kl[n-1]

其中，L_ij[n]表示第(i,j)个神经元的第n次线性连接输入，w_ijkl表示L_ij[n]中Y_kl[n]的加权系数，V_L表示固有电势，α_L表示衰减时间常数；

U_ij[n]＝F_ij[n-1](1+β)L_ij[n]

其中，U_ij[n]表示第(i,j)个神经元第n次的内部活动项，β表示连接强度常数；

其中，Y_ij[n]表示第(i,j)个神经元第n次的决定脉冲；

E_ij[n]＝exp(-α_E)E_ij[n-1]+V_E∑Y_kl[n-1]

其中，E_ij[n]表示第(i,j)个神经元的第n次激发动态门限，V_E表示固有电势，α_E表示衰减时间常数，且α_F<α_E<α_L。

所述S3中的RST block由7个STL、一个卷积操作以及残差连接组成；在每个STL中进行主要的窗口自注意力计算：

其中：F_PCNN代表经过PCNN模块之后得到的特征，L(*)代表线性层，K、V分别代表Key和Value矩阵，是缩放系数，B是可学习的相对位置编码；

在上述自注意力计算中，原本自学习的Query矩阵被PCNN提取的全局特征信息代替，在计算过程中实现窗口局部信息和全局信息的有效结合。

所述S4中使用Charbonnier损失指导渐进式生成器稳定训练的方法为：

利用训练集所构建的PAMGAN网络模型中，计算超分辨率结果和高分辨率图片中所有对应位置的像素点之间的平均绝对误差作为模型的像素损失，计算模型的三个中间结果以及由对应高分辨率图像进行双三次下采样获得的相同分辨率图像的平均绝对误差和作为模型的Charbonnier损失，计算两幅图像在预训练的VGG19网络得到的特征距离作为模型的感知损失，计算网络对超分辨率结果和高分辨率图像的判别期望与真实之间的差异作为模型的对抗损失，四个损失函数联合训练进行反向传播以更新权重，所述模型的损失计算公式为：

L_G＝λ_pixL_pix+λ_charL_char+λ_pcpL_pcp+λ_GL_{GAN_G}

L_D＝L_{GAN_D}

其中，L_G和L_D分别代表生成器和鉴别器的损失，每个损失项前面的参数代表其对应权重，其数值大小按照经验设定；L_pix代表像素损失，L_char代表Charbonnier损失，L_pcp代表感知损失，L_{GAN_D}代表对抗损失。

所述像素损失定义为：

其中，h、w、c分别代表图像的高、宽和通道数，I_SR代表超分图像结果，I_HR代表地面真实值，像素损失用于约束SR输出和HR之间的差距。

所述Charbonnier损失函数如下：

其中，代表网络第i阶段的中间输出，/>则代表HR图像经过双三次下采样2^i-1倍得到的输出，ε依据经验设置为1e-3；

GAN结构本身相对难以训练，为保证轻量化而设计的渐进式上采样生成器使用Charbonnier损失来指导训练；不同于常规的像素损失在SR和HR之间进行损失的计算，Charbonnier损失在每个上采样层级都进行相应计算，是L1范数的可微变体；在三个中间结果与其对应大小的HR图像下采样的中间结果进行Charbonnier损失计算，加速网络收敛。

所述感知损失定义为：

其中，F_i()表示图像在预训练网络中第i层的特征表示，N表示预训练网络的特征层数，感知损失是在预训练的VGG19网络的特征空间进行计算的损失，有助于约束输出的图像的高级语义信息。

所述对抗损失定义为：

L_{GAN_G}＝-D(I_SR)

L_{GAN_D}＝max(0,1-D(I_HR))+max(0,1+D(I_SR))

其中，D表示PAMGAN中使用的鉴别器。

本发明与现有技术相比，具有的有益效果是：

本发明将PCNN与注意力机制结合，能够有效地提取面部的全局结构信息和局部关键细节信息，在平衡模型的轻量化前提下，使重建结果更符合人类的感知。本发明在8倍放大因子的面部图像数据集中在LPIPS和MPS两种感知评价指标上获得了很高的评价分数，取得了低至0.09的LPIPS值和高达0.8的MPS值；且在主观视觉质量上也表现优秀。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明的PAMGAN整体架构图；

图2为本发明的PAMGAN模型中RST块和STL块的结构图；

图3为本发明所用PAMGAN模型与其他超分辨率重建方法在面部数据集放大8倍的定性比较结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制；基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明在pytorch深度学习框架下实现，本发明提供了PAMGAN轻量化面部超分辨重建方法，具体包括以下步骤：

1、数据准备

数据集I：来自香港中文大学的CelebA数据集，包含202,599张面部图片，每张图片都做好了特征标记，包含面部bbox标注框、5个面部特征点坐标以及40个属性标记，其中，随机选取200张面部图像作为测试数据集，其余作为训练数据集。数据集II：来自Helen课题组的Helen数据集，包含2330张面部图片，涵盖了不同的姿态，表情，光照等多种条件，随机选取200张面部图像作为测试数据集。

对上述数据集进行强度标准化处理，使用多任务级联卷积神经网络(MTCNN)检测面部并粗略地裁剪出面部区域，MTCNN利用面部检测和面部关键点定位这两个任务之间潜在的联系，实现面部检测和5个特征点的标定。通过双立方插值将其大小调整为128×128，并将其用作高分辨率训练集。通过对高分辨率图像进行双三次下采样得到低分辨率(16×16)训练集。为避免过拟合，还对图像对使用了水平翻转和缩放等数据增强操作，最终大概产生了179k的图像对。

2、模型构建

构建的PAMGAN模型主体框架是一个GAN结构，具体网络模型结构如图1所示，其中PAMGAN模型包含生成器和鉴别器两大模块，生成器包含5个卷积模块、4个PCNN模块、3个亚像素卷积模块和4个RST block，其中卷积操作中的卷积核大小为3×3，步长为1，边缘扩充为1个像素值，PCNN的结构可以划分为3部分：输入、连接以及脉冲产生，输入部分包括线性连接输入和反馈输入，连接部分是一种对上面两部分输入的非线性连接调制，脉冲产生部分会根据神经元内部活动项大小是否能够超过其激发动态门限决定脉冲是否产生。RSTblock由7个STL(Swin Transformer Layer)块、1个卷积核为3×3、步长为1的卷积层和1个残差连接组成，STL块如图2所示，由2个归一化层、1个多头自注意力层、1个多层感知机和2个跳跃连接组成。分辨率为16×16的LR图像作为输入，首先被送进PCNN模块进行多轮次的特征提取，这些特征会和经过浅层特征提取的图像一起被送进RST block进行多次注意力的计算，在此之后会经过一个亚像素卷积实现图像的二倍上采样操作。如此重复四次之后，就可以得到三个不同大小的中间结果和相应的分辨率大小为128×128的SR结果。鉴别器则主要负责与生成器进行对抗训练，使生成器能够在实现高倍率面部超分辨率重建的同时，对SR结果保持较为自然真实的纹理细节。

其中，PCNN模块定义为：

F_ij[n]＝exp(-α_F)F_ij[n-1]+V_F∑m_ijklY_kl[n-1]+I_ij

其中，F_ij[n]表示第(i,j)个神经元的第n次反馈输入，m_ijkl表示F_ij[n]中Y_kl[n]的加权系数，V_F表示固有电势，α_F表示衰减时间常数。

L_ij[n]＝exp(-α_L)L_ij[n-1]+V_L∑w_ijklY_kl[n-1]

其中，L_ij[n]表示第(i,j)个神经元的第n次线性连接输入，w_ijkl表示L_ij[n]中Y_kl[n]的加权系数，V_L表示固有电势，α_L表示衰减时间常数。

U_ij[n]＝F_ij[n-1](1+β)L_ij[n]

其中，U_ij[n]表示第(i,j)个神经元第n次的内部活动项，β表示连接强度常数。

其中，Y_ij[n]表示第(i,j)个神经元第n次的决定脉冲。

E_ij[n]＝exp(-α_E)E_ij[n-1]+V_E∑Y_kl[n-1]

STL中使用的窗口自注意力机制的注意力公式定义为：

其中，F_PCNN表示经过PCNN模块之后得到的特征，L表示线性层，K、V分别表示Key和Value矩阵，表示缩放系数，B表示可学习的相对位置编码。

3、模型训练

L_G＝λ_pixL_pix+λ_charL_char+λ_pcpL_pcp+λ_GL_{GAN_G}

L_D＝L_{GAN_D}

其中，L_G和L_D分别代表生成器和鉴别器的损失，每个损失项前面的参数代表其对应权重，其数值大小按照经验设定。像素损失定义为:

其中，h、w、c分别代表图像的高、宽和通道数，I_SR代表超分图像结果，I_HR代表地面真实值。像素损失用于约束SR输出和HR之间的差距。Charbonnier损失定义为：

其中，表示网络第i阶段的中间输出，/>表示HR图像经过双三次下采样2^i-1倍得到的输出，ε依据经验设置为1e-3。由于生成器采用的是渐进式超分结构，Charbonnier损失可以指导网络由粗到细地进行超分重建工作。感知损失定义为：

其中，F_i()表示图像在预训练网络中第i层的特征表示，N表示预训练网络的特征层数。感知损失是在预训练的VGG19网络的特征空间进行计算的损失，有助于约束输出的图像的高级语义信息。对抗损失定义为：

L_{GAN_G}＝-D(I_SR)

L_{GAN_D}＝max(0,1-D(I_HR))+max(0,1+D(I_SR))

其中，D表示PAMGAN中使用的鉴别器。

4、测试结果

训练进行低分辨率图像的超分辨率重建以获得重建结果的方法为：对于人脸数据集，利用双立方插值将待测试数据集调整分辨率至128×128作为HR图像，用相同方法将HR图像下采样至16×16用作LR图像。LR图像经过PAMGAN模型得出重建后的SR图像，使用相应评估指标与HR图像进行重建质量评价。

5、模型评估

利用重建结果和真实图像计算峰值信噪比(PSNR)、结构相似性(SSIM)、学习感知图像相似度(LPIPS)、平均感知得分(MPS)和FID评价指标以评估模型的性能。

表1不同方法在CelebA和Helen数据集上放大8倍的对比结果表

在CelebA测试数据集和Helen测试数据集上进行放大因子为8的面部超分辨率重建实验结果如表1和图3所示，表中最优指标为加粗字体。所有的算法与基线(双三次插值)方法相比，不论是在评价指标上还是在视觉效果上，均有较大幅度的提升。

对于FSRGAN、EIPNet和DICGAN来说，他们提取面部先验信息并应用到网络中，但不准确的先验信息也会反过来限制网络的性能，影响重建效果。从图3中可以看出，FSRGAN对于两个数据集均出现了明显的非自然纹理信息，导致视觉感观较差；与其他基于GAN的方法对比，EIPNet的结果过于平滑，所以其在PSNR和SSIM两个量化指标上取得了较好的结果，但对于感知评价指标均处于劣势；对于DICGAN的双循环来说，不准确的先验提取方式也会导致其在Helen测试集上的泛化性较差，从可视化结果能够看出，其对于面部纹理的刻画较为刻意，且在Helen测试集上的五官重建质量有所下降。

对于SPARNetHD、SFMNet+GAN和本文提出的PAMGAN这类通用超分重建方法来说，其稳定性会有所提高。SFMNet+GAN使用了空间鉴别器和频率鉴别器，所以其对于结构特征更加敏感，且更加注重于保持图像整体的一致性，但在8倍放大因子的前提下，其视觉效果在不同的测试集上出现了差别，在Helen测试集上效果更好，但在有些细节方面(如眼睛)会出现失误；对于SPARNetHD的视觉表现效果来说与本文提出的PSDGAN难分伯仲，二者都能够较好的刻画清晰细腻的纹理及边缘信息，但其在Helen测试集上对于眼部的刻画有些过于突出，降低了图像的一致性，且在参数的量级上，PAMGAN仅是SPARNetHD的十分之一量级。与参数同量级的方法相比，PAMGAN不管是在定量还是定性的比较中均取得了较好的结果，尤其是在如LPIPS这类符合人类感知的评价指标上，这再一次证明了PAMGAN方法的优越性。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.PAMGAN轻量化面部超分辨率重建方法，其特征在于：包括下列步骤：

S1、构建以渐进式生成器为主的基于对抗生成网络GAN结构的轻量化面部超分辨率模型PAMGAN；所述S1中模型的主体框架是一个GAN结构，生成器负责面部超分辨率重建的主要功能，鉴别器负责判断超分辨率SR图像和高分辨率HR图像的相对真实性；为保证模型的轻量化，采用渐进式生成器对图片进行超分辨率重建操作：分辨率为16×16的低分辨率LR图像输入到生成器，在经过PCNN提取模块和RST block之后使用亚像素卷积进行2倍上采样操作，得到中间结果；此过程重复三次后，再重复一次无上采样的操作，总共得到三个不同分辨率的中间结果以及最后大小为128*128的SR结果；此结果与相应的HR图像一同被送到鉴别器中判断图像真实性，二者相互对抗，提升图像的超分辨率重建效果；

S2、使用脉冲耦合神经网络PCNN提取不同分辨率图像的全局多轮次信息；所述S2中使用PCNN模块进行图像全局结构化信息的提取；PCNN模块包括输入、连接和脉冲产生三个部分，如果在本轮次中神经元内部的活动项超过其激发动态门限，则产生脉冲，所述产生脉冲在结果矩阵中体现为1，否则不产生脉冲信息，所述不产生脉冲在结果矩阵中体现为0；将LR图像以及各中间结果分别送到PCNN模块中，进行32轮次的特征提取过程，分别得到高度和宽度与输入等大，通道数为32的二值化矩阵；LR图像在浅层特征提取后，将32轮次的特征经过一个线性层得到通道数为64，数值调和之后的全局特征用于后续计算；

S3、在RST block中使用窗口自注意力机制提取局部关键信息，S2中得到的全局多轮次信息参与窗口自注意力计算，在注意力计算过程中实现全局和局部信息的融合；所述S3中的RST block由7个STL、一个卷积操作以及残差连接组成；在每个STL中进行主要的窗口自注意力计算：

在上述自注意力计算中，原本自学习的Query矩阵被PCNN提取的全局特征信息代替，在计算过程中实现窗口局部信息和全局信息的有效结合；

S4、使用Charbonnier损失指导渐进式生成器稳定训练，同时加速生成器和鉴别器的收敛；所述S4中使用Charbonnier损失指导渐进式生成器稳定训练的方法为：

L_G＝λ_pixL_pix+λ_charL_char+λ_pcpL_pcp+λ_GL_{GAN_G}

L_D＝L_{GAN_D}

其中，L_G和L_D分别代表生成器和鉴别器的损失，每个损失项前面的参数代表其对应权重，其数值大小按照经验设定；L_pix代表像素损失，L_char代表Charbonnier损失，L_pcp代表感知损失，L_{GAN_G}代表生成器的对抗损失，L_{GAN_D}代表鉴别器的对抗损失。

2.根据权利要求1所述的PAMGAN轻量化面部超分辨率重建方法，其特征在于：所述PCNN模块定义为：

F_ij[n]＝exp(-α_F)F_ij[n-1]+V_F∑m_ijklY_kl[n-1]+I_ij

L_ij[n]＝exp(-α_L)L_ij[n-1]+V_L∑w_ijklY_kl[n-1]

U_ij[n]＝F_ij[n-1](1+β)L_ij[n]

其中，Y_ij[n]表示第(i,j)个神经元第n次的决定脉冲；

E_ij[n]＝exp(-α_E)E_ij[n-1]+V_E∑Y_kl[n-1]

3.根据权利要求1所述的PAMGAN轻量化面部超分辨率重建方法，其特征在于：所述像素损失定义为：

4.根据权利要求1所述的PAMGAN轻量化面部超分辨率重建方法，其特征在于：所述Charbonnier损失函数如下：

其中，代表网络第i阶段的中间输出，/>则代表HR图像经过双三次下采样2^i-1倍得到的输出，ε依据经验设置为e-3；

5.根据权利要求1所述的PAMGAN轻量化面部超分辨率重建方法，其特征在于：所述感知损失定义为：

6.根据权利要求1所述的PAMGAN轻量化面部超分辨率重建方法，其特征在于：所述对抗损失定义为：

L_{GAN_G}＝-D(I_SR)

L_{GAN_D}＝max(0,1-D(I_HR))+max(0,1+D(I_SR))

其中，D表示PAMGAN中使用的鉴别器。