CN112750082B

CN112750082B - 基于融合注意力机制的人脸超分辨率方法及系统

Info

Publication number: CN112750082B
Application number: CN202110081811.9A
Authority: CN
Inventors: 卢涛; 赵康辉; 张彦铎; 吴云韬; 金从元; 张力; 余晗
Original assignee: Wuhan Institute of Technology; Wuhan Fiberhome Technical Services Co Ltd
Current assignee: Wuhan Institute of Technology; Wuhan Fiberhome Technical Services Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-05-16
Anticipated expiration: 2041-01-21
Also published as: CN112750082A

Abstract

本发明公开了一种基于融合注意力机制的人脸超分辨率方法及系统，属于人脸图像超分辨率领域，该方法包括：将高分辨率人脸图像下采样至目标低分辨率人脸图像后，进行分块操作，分出相互重叠的图像块后，使用浅层特征提取器提取浅层特征；融合像素、通道和空间三重注意力模块的特征，增强重建的人脸面部结构细节；构建融合注意力网络作为深层特征提取器，将浅层的面部特征输入融合注意力网络获得深层特征，融合注意力网络包含若干融合注意力组，各融合注意力组包括若干融合注意力块；将深层特征图进行上采样，将上采样后的人脸特征图重建成目标的高分辨率人脸图像。本发明优于其他最新的人脸图像超分辨率算法，能生成更高质量的人脸高分辨率图像。

Description

基于融合注意力机制的人脸超分辨率方法及系统

技术领域

本发明属于计算机视觉人脸超分辨率领域，更具体地，涉及一种基于融合注意力机制的人脸超分辨率方法及系统。

背景技术

人脸超分辨率(face hallucination)，是超分辨率(Super-Resolution，SR)的一个特殊领域，是一种从输入的低分辨率(Low Resolution，LR)人脸图像中推理出高分辨率(High Resolution，HR)图像的技术，可以显著增强低分辨率人脸图像的细节信息。在现实世界的监视场景中，成像传感器和人脸之间的距离往往过大，从而会导致低分辨率人脸图像。利用人脸超分辨率恢复高分辨率人脸图像，有助于目标人物识别。该方法在人脸检测、人脸识别和分析等许多应用中发挥着重要作用。

一般来说，人脸超分辨率和一般的图像复原方法一样，根据先验信息的来源可分为三类：插值法、重建法和基于学习的方法。基于插值的方法在不生成像素的情况下缩放图像的像素大小，并在周围像素的基础上通过数学公式计算缺失像素的值。基于重建的人脸超分辨率依赖于多幅LR输入图像融合亚像素配准信息。然而，当放大倍数过大时，基于插值和重建的方法的效率和性能会大幅度降低。近十年来，基于学习的方法在人脸超分辨率中得到了广泛的应用，因为基于学习的方法能够充分利用训练样本中的先验信息，将LR图像映射到HR图像中，获得了令人满意的视觉效果。

最近，基于卷积神经网络(Convolutional Neural Networks，CNN)的方法比传统的SR方法有了显著的改进。其中，Dong等人提出了一种用于图像超分辨率的深度卷积网络(Learning a Deep Convolutional Network for Image Super-Resolution)，通过引入三层CNN来实现图像超分辨率。此后，在深度学习的发展过程中，SR的重建性能不断提高，并且人脸SR的性能也得到了提高。将注意力机制引入到人脸SR中，以聚焦人脸结构信息。Wang等人提出了一种纹理注意力模块(Face Super-Resolution by Learning Multi-viewTexture Compensation)来获取人脸图像与多视角人脸图像的对应关系。Song等人提出了一种两阶段人脸SR的方法(Learning to hallucinate face images via ComponentGeneration and Enhancement，LCGE)，分别对人脸图像中的五个器官结构进行SR，然后将这些重建的器官结构恢复到人脸图像中，使CNN的注意力集中在局部的面部信息上。Zhang提出了一种通道注意力机制(Image super-resolution using very deep residualchannel attention networks，RCAN)，通过考虑通道之间的相互依赖性来自适应地重新调整通道方式的特征。

虽然上述使用注意力机制的人脸SR方法取得了令人满意的效果，但大多数方法只考虑单个注意力机制，这限制了CNN的多特征提取能力，而且缺少人脸结构信息的融合与交互。因此，如何充分利用多种注意力特征提升人脸SR的重建性能是非常重要的。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于融合注意力机制的人脸超分辨率方法及系统，解决目前人脸超分辨率重建算法不能同时利用多种注意力特征，导致人脸图像重建性能存在一定局限性的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于融合注意力机制的人脸超分辨率方法，包括：

S1：构建下采样模块，将高分辨率人脸图像下采样至目标低分辨率人脸图像；

S2：构建浅层特征提取器，将目标低分辨率人脸图像进行分块操作，分出相互重叠的图像块后，使用浅层特征提取器提取浅层特征图；

S3：构建融合注意力块，融合像素、通道和空间三重注意力模块的特征，产生网络的融合注意力特征，增强重建的人脸面部结构细节；

S4：构建融合注意力网络作为深层特征提取器，将浅层的面部特征输入融合注意力网络获得深层的脸部特征图，其中，融合注意力网络包含若干个融合注意力组，每个融合注意力组包括若干个融合注意力块；

S5：构建上采样模块，将得到的人脸深层特征图进行上采样；

S6：构建人脸图像重建模块，将上采样后的人脸特征图重建成目标的高分辨率人脸图像。

在一些可选的实施方案中，步骤S2包括：

使用一个卷积层构建浅层特征提取器，并提取浅层特征图，其中，所述浅层特征图表示为：F₀＝f(I_LR)，F₀表示浅层特征图，f表示卷积操作，I_LR表示输入的低分辨率人脸图像。

在一些可选的实施方案中，步骤S3包括：

构建由像素注意力、通道注意力和空间注意力三个并行的注意力组成的融合注意力块；

对于输入的向量X^H×W×C，H表示特征图的高，W表示特征图的宽，C表示特征图所在的通道数，将X^H×W×C输入到三个并行的注意力中，融合不同并行的注意力提取出来的不同的特征，最后通过一个卷积进行降维，使得输入输出在维度上保持一致。

在一些可选的实施方案中，在像素注意力中，首先使用一个卷积降维减少计算量，随后由三个并行分支组成，其中最上层和最下层的分支由一个卷积和一个激活函数组成，用于获得双重像素注意力特征；中间层分支由两个卷积和另一个激活函数组成，用于获得残留特征，最后将三个分支的输出特征进行元素级相乘，再由一个卷积得到最后的像素注意力特征

其中，T₁、T₂和T₃分别表示三层分支特征，f表示卷积操作；

在通道注意力中，首先通过一个全局平均池将通道的全局空间信息转换为通道描述符，获取1×1×C的特征图，然后通过下采样压缩成

的特征图，再上采样恢复为1×1×C特征图，最后再通过一个激活函数获取1×1×C的表示每个通道的权值的描述符，最后各通道权重值分别和原特征图对应通道的二维矩阵相乘，r为通道缩放的系数；

在空间注意力中，先由一个卷积层开始以减小通道尺寸，接着通过一个卷积层和最大池化层来扩大感受野；后面紧跟一个卷积组，卷积组由若干个卷积层组成；最后通过上采样层以恢复空间尺寸，并使用卷积来恢复通道尺寸，由一个激活函数获得最后的空间注意力特征。

在一些可选的实施方案中，步骤S4包括：

所述融合注意力网络包含若干个融合注意力组FAG和长跳过连接LSC，其中，每个融合注意力组还包含具有短跳过连接SSC的若干个融合注意力块，第m组的融合注意力组表示为：F_m＝H_m(F_m-1)＝H_m(H_m-1(…H₁(F₀)…))，H_m表示第m个融合注意力组，F_m和F_m-1为第m个融合注意力组的输入和输出；

在每个融合注意力组里面堆叠融合注意力块，将第m个融合注意力组中的第n个融合注意力块表示为：F_m,n＝G_m,n(F_m,n-1)＝H_m,n(H_m,n-1(…H_m,1(F_m-1)…)，F_m,n-1和F_m,n是第m个融合注意力组中的第n融合注意力块的输入和输出。

在一些可选的实施方案中，步骤S5包括：

所述上采样后的特征表示为：F_UP＝H_UP(F_BF)，F_UP和H_UP分别表示上采样后的特征和上采样模块。

在一些可选的实施方案中，步骤S6包括：

所述的人脸图像重建模块表示为：I_SR＝H_Recon(F_UP)，H_Recon和I_SR分别表示为由一个卷积构成的重建模块和目标高分辨率人脸图像。

在一些可选的实施方案中，整个网络的损失函数L(θ)表示为：

N表示数据集的规模，

和

表示数据集中第i张超分辨率后的人脸图像和第i张高分辨率人脸图像。

按照本发明的另一方面，提供了一种基于融合注意力机制的人脸超分辨率系统，包括：

下采样模块，用于将高分辨率人脸图像下采样至目标低分辨率人脸图像；

浅层特征提取器模块，用于将目标低分辨率人脸图像进行分块操作，分出相互重叠的图像块后，使用浅层特征提取器提取浅层特征图；

深层特征提取器模块，用于构建融合注意力块，融合像素、通道和空间三重注意力模块的特征，产生网络的融合注意力特征，增强重建的人脸面部结构细节；构建融合注意力网络作为深层特征提取器，将浅层的面部特征输入融合注意力网络获得深层的脸部特征图，其中，融合注意力网络包含若干个融合注意力组，每个融合注意力组包括若干个融合注意力块；

上采样模块，用于将得到的人脸深层特征图进行上采样；

人脸图像重建模块，用于将上采样后的人脸特征图重建成目标的高分辨率人脸图像。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供了一种基于融合注意力机制的人脸超分辨率方法及系统，融合像素、通道和空间注意力特征，使得网络能让不同注意力跨特征交互和融合，从而增强网络的特征表达能力。本发明提出的融合注意力网络能将网络的多种注意力特征集中到面部结构信息的交互，从而提高人脸图像的重建性能。

附图说明

图1是本发明实施例提供的一种基于融合注意力机制的人脸超分辨率方法的流程示意图；

图2是本发明实施例提供的一种基于融合注意力机制的人脸超分辨率网络结构示意图；

图3是本发明实施例提供的一种基于融合注意力机制的人脸超分辨率系统的结构示意图；

图4是本发明实施例提供的一种测试结果比较图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示是本发明实施例提供的一种基于融合注意力机制的人脸超分辨率方法的流程示意图，包括以下步骤：

其中，在步骤S1中可以使用双三次插值法(Bicubic interpolation)将高分辨率人脸图像下采样至目标低分辨率人脸图像。

在本发明实施例中，使用FFHQ人脸数据集作为本发明的训练集、验证集和测试集，其中包含850幅图像作为训练数据集，100幅图像作为验证数据集，50幅图像作为测试数据集。数据集中图像大小为256×256像素，在本发明实施例中，可以使用双三次退化模型对数据集进行下采样，其中下采样因子为4，因此下采样后的低分辨率图像的大小为64×64像素。

如图2所示，在本发明实施例中，可以使用一个3*3卷积层构建浅层特征提取器，并提取浅层特征图。所述的浅层特征图表示为：

F₀＝f^3×3(I_LR)

其中，F₀表示浅层特征图，f^3×3表示3*3卷积，I_LR表示输入的低分辨率人脸图像。

在本发明实施例中，所述的融合注意力块，由像素注意力、通道注意力和空间注意力三个并行的注意力组成。对于输入的向量X^H×W×C，H表示特征图的高，W表示特征图的宽，C表示特征图所在的通道数，将其输入到三个并行的注意力中，融合不同并行的注意力提取出来的不同的特征，最后通过一个1*1的卷积进行降维，使得输入输出在维度上保持一致，可用公式表示为：

F_fusion＝f^1×1(concat(PA,CA,SA))

其中，f^1×1表示1*1卷积层，concat表示融合操作，(PA,CA,SA)分别表示像素注意力、通道注意力和空间注意力特征。

其中，在像素注意力中，首先可以使用一个1*1卷积降维减少计算量，随后由三个并行分支组成，其中最上层和最下层的分支由一个3*3卷积和一个Sigmoid激活函数组成，用于获得双重像素注意力特征；中间层分支由两个3*3卷积和一个ReLU激活函数组成，用于获得残留特征，最后将三个分支的输出特征进行元素级相乘，再由一个3*3卷积得到最后的像素注意力特征，可以表示为：

其中，T₁、T₂和T₃分别表示三层分支特征，f^3×3表示3*3卷积层。

其中，在通道注意力中，首先可以通过一个全局平均池将通道的全局空间信息转换为通道描述符，也就是获取1×1×C的特征图，然后通过下采样压缩成

的特征图，其中，r为通道缩放的系数，再上采样恢复为1×1×C特征图，最后再通过一个sigmoid激活函数获取1×1×C的表示每个通道的权值的描述符，最后各通道权重值分别和原特征图对应通道的二维矩阵相乘。

其中，在空间注意力中，先由一个1×1卷积层开始以减小通道尺寸，接着通过一个步长为2的卷积层和最大池化层来扩大感受野；后面紧跟一个卷积组，卷积组由3个步长为3，卷积核为7×7的卷积层组成；最后通过上采样层以恢复空间尺寸，并使用1×1卷积来恢复通道尺寸，由一个Sigmoid激活函数获得最后的空间注意力特征。

在本发明实施例中，卷积层大小及卷积层数量还可以为其它数值，本发明实施例不做唯一性限定。

在本发明实施例中，所述的深层脸部特征图表示为：

F_BF＝H_FAN(F₀)

其中，F_BF表示深层脸部特征图，H_FAN表示融合注意力网络。

其中，所述的融合注意力网络包含10个融合注意力组(Fusion Attention Group，FAG)和长跳过连接(Long Skip-Connection，LSC)。每个融合注意力组还包含具有短跳过连接(Short Skip-Connection，SSC)的10个融合注意力块。第m组的融合注意力组可用公式表示为：

F_m＝H_m(F_m-1)＝H_m(H_m-1(…H₁(F₀)…))

其中。H_m表示第m个融合注意力组，F_m和F_m-1为第m个融合注意力组的输入和输出；此外引入了长跳过连接LSC来稳定网络的训练，同时可以学习到残余的信息。在每个融合注意力组里面堆叠融合注意力块，可以将第m个融合注意力组中的第n个融合注意力块表示为：

F_m,n＝H_m,n(F_m,n-1)＝H_m,n(H_m,n-1(…H_m,1(F_m-1)…)

其中，F_m,n-1和F_m,n是第m个融合注意力组中的第n个融合注意力块的输入和输出，H_m,n是第m个融合注意力组中的第n个融合注意力块。

在本发明实施例中，所述的上采样后的特征表示为：

F_UP＝H_UP(F_BF)

其中，F_UP和H_UP分别表示上采样后的特征和上采样模块。上采样模块可以采用亚像素卷积实现。

在本发明实施例中，所述的人脸图像重建模块表示如下：

I_SR＝H_Recon(F_UP)

其中，H_Recon和I_SR分别表示为由一个3*3卷积构成的重建模块和目标高分辨率人脸图像。

其中，整个网络的损失函数L(θ)表示为：

其中，N表示数据集的规模，

和

本发明还提供一种用于实现上述基于融合注意力机制的人脸超分辨率方法的基于融合注意力机制的人脸超分辨率系统，如图3所示，包括：

下采样模块101，用于将高分辨率人脸图像下采样至目标低分辨率人脸图像；

浅层特征提取器模块102，用于将目标低分辨率人脸图像进行分块操作，分出相互重叠的图像块后，使用浅层特征提取器提取浅层特征图；

深层特征提取器模块103，用于构建融合注意力块，融合像素、通道和空间三重注意力模块的特征，产生网络的融合注意力特征，增强重建的人脸面部结构细节；构建融合注意力网络作为深层特征提取器，将浅层的面部特征输入融合注意力网络获得深层的脸部特征图，其中，融合注意力网络包含若干个融合注意力组，每个融合注意力组包括若干个融合注意力块；

上采样模块104，用于将得到的人脸深层特征图进行上采样；

人脸图像重建模块105，用于将上采样后的人脸特征图重建成目标的高分辨率人脸图像。

本发明还提供一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行上述的基于融合注意力机制的人脸超分辨率方法。

本发明最后提供一个测试实施例，使用FFHQ人脸数据集对该算法进行了验证。使用850幅图像作为训练数据集，100幅图像作为验证数据集，50幅图像作为测试数据集。HR图像大小为256×256像素，下采样因子为4，因此LR图像(使用双三次退化模型)的大小为64×64像素。需要注意的是，所有的训练、验证和测试都是基于YCbCr颜色空间中的亮度通道，并且使用了4倍的放大因子进行训练和测试。使用峰值信噪比(Peak signal-to-noiseratio，PSNR)、结构相似性(Structural SIMilarity，SSIM)、特征相似度(FeatureSimilarity，FSIM)和视觉信息保真度(Visual Information Fidelity，VIF)四个评价指标对SR重建结果进行评价，以检验亮度信道下SR重建的性能。模型由Adam优化器训练，β¹＝0.9，β²＝0.999，和∈＝10^-8。初始学习率设置为10^-4，然后每50个周期降低一半。表1通过上述三个评价指标展示了在重建倍数为4的条件下的对比结果，图4为4倍人脸图像的重建结果对比图。

选择作为对比的人脸SR方法包括：Bicubic,LCGE,EDGAN,SRFBN,MTC和RCAN。Bicubic是一种经典的图像插值算法；LCGE是一种经典的两步人脸SR方法；EDGAN是一种使用生成对抗网络(Generative Adversarial Networks，GAN)的最先进的深度学习人脸SR算法；SRFBN是一种使用反馈网络的最新和最先进的深度学习人脸SR算法网络；MTC是一种新的基于多视角纹理补偿的人脸SR；RCAN是一种经典的基于深度残差通道注意力网络的SR方法。图4中(a)为Bicubic图像；(b)为本发明实验结果图；(c)为原始高分辨率图像，可以从中发现，本发明在视觉结果中取得了很高的视觉效果。

表1本发明与六种优秀算法比较结果表

方法	Bicubic	LCGE	EDGAN	RCAN	SRFBN	MTC	本发明
								PSNR/dB	29.81	31.12	30.87	32.67	32.42	32.01	32.85
SSIM	0.8451	0.8668	0.8574	0.8977	0.8944	0.8885	0.9011
								FSIM	0.8889	0.9099	0.9231	0.9337	0.9305	0.9281	0.9359
VIF	0.5246	0.5563	0.5386	0.6161	0.6077	0.5933	0.6219

从以上表格实验结果可以看出，本发明与其他六种方法相比，取得了很明显的优势。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于融合注意力机制的人脸超分辨率方法，其特征在于，包括：

S6：构建人脸图像重建模块，将上采样后的人脸特征图重建成目标的高分辨率人脸图像；

步骤S3包括：

构建由像素注意力、通道注意力和空间注意力三个并行的注意力组成的融合注意力块，其中，在像素注意力中，首先使用一个卷积降维减少计算量，随后由三个并行分支组成，其中最上层和最下层的分支由一个卷积和一个激活函数组成，用于获得双重像素注意力特征；中间层分支由两个卷积和另一个激活函数组成，用于获得残留特征，最后将三个分支的输出特征进行元素级相乘，再由一个卷积得到最后的像素注意力特征

对于输入的向量X^H×W×C，H表示特征图的高，W表示特征图的宽，C表示特征图所在的通道数，将X^H×W×C输入到三个并行的注意力中，融合不同并行的注意力提取出来的不同的特征，最后通过一个卷积进行降维，使得输入输出在维度上保持一致；

步骤S4包括：

在每个融合注意力组里面堆叠融合注意力块，将第m个融合注意力组中的第n个融合注意力块表示为：F_m,n＝H_m,n(F_m,n-1)＝H_m,n(H_m,n-1(…H_m,1(F_m-1)…)，F_m,n-1和F_m,n是第m个融合注意力组中的第n融合注意力块的输入和输出。

2.根据权利要求1所述的方法，其特征在于，步骤S2包括：

3.根据权利要求2所述的方法，其特征在于，在通道注意力中，首先通过一个全局平均池将通道的全局空间信息转换为通道描述符，获取1×1×C的特征图，然后通过下采样压缩成

4.根据权利要求3所述的方法，其特征在于，步骤S5包括：

5.根据权利要求4所述的方法，其特征在于，步骤S6包括：

6.根据权利要求5所述的方法，其特征在于，整个网络的损失函数L(θ)表示为：

N表示数据集的规模，

和

7.一种基于融合注意力机制的人脸超分辨率系统，其特征在于，包括：

上采样模块，用于将得到的人脸深层特征图进行上采样；人脸图像重建模块，用于将上采样后的人脸特征图重建成目标的高分辨率人脸图像；

所述深层特征提取器模块，具体用于执行以下操作：

其中，T₁、T₂和T₃分别表示三层分支特征，f表示卷积操作；对于输入的向量X^H×W×C，H表示特征图的高，W表示特征图的宽，C表示特征图所在的通道数，将X^H×W×C输入到三个并行的注意力中，融合不同并行的注意力提取出来的不同的特征，最后通过一个卷积进行降维，使得输入输出在维度上保持一致；所述融合注意力网络包含若干个融合注意力组FAG和长跳过连接LSC，其中，每个融合注意力组还包含具有短跳过连接SSC的若干个融合注意力块，第m组的融合注意力组表示为：F_m＝H_m(F_m-1)＝H_m(H_m-1(…H₁(F₀)…))，H_m表示第m个融合注意力组，F_m和F_m-1为第m个融合注意力组的输入和输出；在每个融合注意力组里面堆叠融合注意力块，将第m个融合注意力组中的第n个融合注意力块表示为：F_m,n＝H_m,n(F_m,n-1)＝H_m,n(H_m,n-1(…H_m,1(F_m-1)…)，F_m,n-1和F_m,n是第m个融合注意力组中的第n融合注意力块的输入和输出。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。