CN113284051A

CN113284051A - 一种基于频率分解多注意力机制的人脸超分辨方法

Info

Publication number: CN113284051A
Application number: CN202110834275.5A
Authority: CN
Inventors: 孙立剑; 何鹏飞; 曹卫强; 徐晓刚; 王军; 朱岳江
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-08-20
Anticipated expiration: 2041-07-23
Also published as: CN113284051B

Abstract

本发明属于计算机视觉、图像处理领域，涉及一种基于频率分解多注意力机制的人脸超分辨方法，利用小波变换及其逆变换均可逆的性质，将输入的低分辨率人脸图像进行频率分解，针对不同频率的特征，采用不同的核卷积构建基础模块，自适应集成不同感受野的特征，利用残差注意力模块，包含像素、空间和通道注意力机制，对不同频率的特征分别进行处理，低频部分纹理采用较少计算量的注意力，高频部分采用更多的残差注意力模块，在保持计算量的同时将更多的网络应用于高频部分，利用预训练的人脸关键点提取网络进行关键点提取并进行反馈，增强轮廓特征，利用生成抵抗网络增强纹理特征。

Description

一种基于频率分解多注意力机制的人脸超分辨方法

技术领域

本发明属于计算机视觉、图像处理领域，涉及一种基于频率分解多注意力机制的人脸超分辨方法。

背景技术

图像分辨率的大小直接关系到图像的质量，对高级别的任务包括检测识别等会有很大的影响，更高的高分辨率意味着包含更多的细节信息，应用潜能更大。然而在实际图像获取过程中，由于成像设备本身的限制、环境因素的影响以及存储介质和网络带宽的影响导致无法直接获取高质量的图像。随着计算机视觉技术尤其是深度学习的快速发展，图像增强方法也越来越多，超分辨技术就是一项提升图像画质的有效手段，能够有效提升图像分辨率。图像超分辨率技术是将低分辨率的图像通过相应算法，将其上采样到高分辨率图像，与硬件方式相比，可以有效降低图像增强的成本，在卫星成像、安防监控、医学检测、刑事侦查、历史图像修复增强等多个领域都具有非常重要的应用价值。例如在安防监控场景中，由于摄像头和周围环境等因素，拍摄到的目标所占像素较低，导致无法识别目标，通过超分辨技术可以重构出分辨率较高的图像，提高目标人脸的分辨率，从而对目标人物提供的检测和识别提供帮助。因此，图像超分辨技术作为一种低层的图像处理方法，可以为后续的高层次图像处理方法提供有效的支持。

目前有很多关于图像超分辨的网络，在处理各种各样的场景、物体方面都有了比较明显的提升，针对人脸超分辨方面的网络虽然取得了一些进步，但是针对低分辨率的人脸，超分效果不是很好。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于频率分解多注意力机制的人脸超分辨方法，在保证网络复杂度不增加和低频结构的一致性的情况下，使网络更加关注高频部分，利用哈尔小波变换将原始输入图像分解为四部分不同频率，分别通过网络进行高低频特征的增强处理，并且针对直接从 LR 输入中估计面部的关键点有一定困难，通过超分辨输出结果图进行人脸关键点信息的提取并反馈到主干网络中的低频部分来进一步提升人脸信息，其具体技术方案如下：

一种基于频率分解多注意力机制的人脸超分辨方法，包括以下步骤：

步骤S1，输入低分辨率人脸图像，将该图像通过一个卷积层后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图，总通道数变为原来的4倍，尺寸变为原来的1/2，将每个通道的四类特征分解图按频率组合在一起，输出四组不同频率的特征图；

步骤S2，将步骤S1中得到的四组不同频率的特征图按频率组输入到一个多核卷积模块分别进行处理得到四路特征；

步骤S3，将步骤S2处理得到的四路特征输入至多注意力模块，将所有通道的特征进行级联，再经过通道注意力模块，后再分解为原先的四路特征，然后依次经过4-8个所述的多注意力模块进行特征增强；

步骤S4，将经过步骤S3增强的特征与步骤S1中二维哈尔小波变换得到的特征按照频率分别进行相加操作，然后输入到粗上采样模块中，获得放大2-4倍的中分辨率特征；

步骤S5，将粗上采样后的特征再经过一个多核卷积模块和4-8个多注意力模块，然后经过一个精上采样模块，获得再次放大2-4倍的目标高分辨特征，经过二维可逆小波变换之后得到结果与输入的低分辨率人脸图像经过卷积层和上采样处理的特征进行相加操作，得到目标分辨率图像；

步骤S6，利用已经经过预训练处理的人脸关键点提取网络对输出的目标分辨率图像进行特征提取，将其经过不同倍率的下采样操作后的关键点分别输入到多核卷积模块中；

步骤S7，最后增加一个判别器网络和增加基于视觉感知质量的损失函数，利用生成对抗学习训练方式得到最终的高质量图像生成网络，输出最终的高质量图像。

进一步的，所述卷积层为一个3×3×16×1卷积层，3×3表示卷积核尺寸，16表示卷积核个数，1表示卷积核的运动步幅；所述四个降采样图，分别对应对角线高频D、垂直高频V、水平高频H和低频A。

进一步的，所述步骤S2具体为：所述多核卷积模块根据频率高低的不同分别处理步骤S1中得到的特征图，将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层，将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成。

进一步的，所述多注意力模块设有像素注意力模块、空间注意力模块、普通卷积模块和通道注意力模块，所述步骤S3具体包括：

（1）将D支路部分输入到像素注意力模块中，所述的像素注意力模块分为主路部分和支路部分，主路部分依次经过一个1×1和3×3的卷积层，支路部分经过一个1×1的卷积层和sigmoid激活层，然后两路经过点乘合成一路，再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层；

（2）将V和H输入到空间注意力模块中，所述的空间注意力模块也分为两路，主路经过一个3×3卷积层，支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层，然后两路经过点乘合成一路，再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层；

（3）将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中；

（4）将所有通道的特征进行级联，输入到通道注意力模块中，所述的通道注意力模块分为两路，一路依次经过一个全局平均池化、一个3×3卷积层、一个ReLU非线性激活层和一个3×3的卷积层和sigmoid激活层，另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层，两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作，然后再分解为原先的四路特征，然后依次经过4-8个这样的多注意力模块。

进一步的，所述粗上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、LeakyReLU非线性变换组成，通过交替使用最邻近和亚像素卷积，分别放大2倍，最近邻执行空域变换，亚像素卷积执行通道到空间的变换。

进一步的，所述的精上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成。

进一步的，所述步骤S1到步骤S6所使用的网络组成为高分辨率图像的生成网络。

进一步的，所述步骤S7具体为：

基于ESRGAN判别器，损失函数为

用于区分真实图像与生成图像，对于生成网络而言，损失函数由三部分构成：内容感知损失、对抗损失

以及像素损失

，损失函数使用反向传播策略交替更新生成器网络和判别器网络，若已收敛，则保存训练好的生成器网络模型，其中，

其中

和

分别表示真实图像和生成器生成的假图像，

是sigmoid函数，

是非变换判别器输出,

和

分别表示在mini批处理中对所有生成的假数据和真实数据取平均值的操作；

感知超分辨方法的损失函数选择的是对抗损失

和LPIPS的感知损失，提高图片的视觉感知质量，其中，

其中

表示特征提取器，

表示深度嵌入转化为标量LPIPS评分，并从k层中计算平均得分；

此外，还利用判别器的特征匹配损失来减少对抗性损失带来的不良噪声：

为判别器D的第

层激活量，H为光滑

损失。另外再加上在RGB像素空间上的损失

和YUV像素空间上的损失

来防止颜色和亮度发生变化以及

用于人脸关键点的监督，

用于关键点提取，

。

所以整体损失函数为：

。

本发明的有益效果是：通过采用小波变换将图像分解为四类不同频率的特征，针对不同频率的特征分别采用复杂程度不同的卷积核和不同的注意力模型，使网络参数更加偏重于构建细节信息，在保证图像结构的基础上，更注重于复原细节，在上采样阶段交替使用不同的上采样方法以降低计算复杂度，同时具有令人满意的性能，关键点提取网络采用性能较好的预训练网络模型，比直接采用嵌入式的网络结构具有更好的性能，并将关键点信息反馈到低频支路上，提升人脸几何形状特征提取的准确性，而多样化的损失函数可以保持色彩和亮度的一致性，引入的LPIPS评价指标有助于增强视觉感知质量，另外增加生成对抗网络进行训练，进一步增加了图像的视觉感知质量。

附图说明

图1是本发明的一种基于频率分解多注意力机制的人脸超分辨方法整体流程示意图；

图2是本发明的多核卷积模块结构示意图；

图3是本发明的多注意力模块结构示意图；

图4是本发明的像素注意力模块结构示意图；

图5是本发明的空间注意力模块结构示意图；

图6是本发明的普通卷积模块结构示意图；

图7是本发明的通道注意力模块结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

实施例：

以8倍图像超分辨率为例进行说明，一种基于频率分解多注意力机制的人脸超分辨方法，针对低分辨率的人脸图像更多的是丢失高频成分，因此针对不同频率的特征需要区别对待，高频部分采用复杂的操作处理，对低频部分采用廉价操作处理，从而在相同的计算量前提下可以更好地恢复图像的特征，具体的，包括以下步骤：

步骤S1，如图1所示，输入图像分辨率为16×16的人脸图像，将人脸图像通过一个3×3×16×1卷积层，3×3表示卷积核尺寸，16表示卷积核个数，最后一位表示卷积核的运动步幅，然后采用二维哈尔小波变换将每个通道的特征图分解为四个降采样图，分别对应对角线高频D、垂直高频V、水平高频H和低频A，总通道数变为原来的4倍，尺寸变为原来的1/2，将每个通道的四类特征分解图按频率组合在一起，输出四组不同频率的特征；

步骤S2，如图2所示，将步骤S1中得到的四种不同频率成分的特征图按频率组输入到一个多核卷积模块分别进行处理，该模块主要根据频率高低的不同分别处理，频率越高采用参数量较多的卷积层，频率低的由于包含细节信息较低，采用了较少参数量的卷积层，将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层，将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成；

步骤S3，如图3和图4所示，将步骤S2中输出的四路特征输入到多注意力模块中，根据特征的不同，将D支路部分输入到像素注意力模块中，所述的像素注意力模块分为两路，主路依次经过一个1×1和3×3的卷积层，支路部分经过一个1×1的卷积层和sigmoid激活层，然后两路经过点乘合成一路，再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，像素注意力关注像素信息，具有较高的细粒度，用于更好地描述细节纹理信息；

如图5所示，将V和H输入到空间注意力模块中，所述的空间注意力模块也分为两路，主路经过一个3×3卷积层，支路部分依次经过一个3×3卷积层、1×1卷积层和sigmoid激活层，然后两路经过点乘合成一路，再经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层；

如图6所示，由于A包含的是低频信息保存较为完善，将A输入到一个由3×3卷积、LeakyReLU非线性变换和3×3卷积组成的普通卷积模块中；

如图7所示，将所有通道的特征进行级联，输入到通道注意力模块中，所述的通道注意力模块分为两路，一路依次经过一个全局平均池化、一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层和和sigmoid激活层，另一路经过一个3×3卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层，两路结果进行点乘得到的特征与该模块的原始输入特征进行相加操作，然后再分解为原先的四路特征，然后依次经过6个这样的多注意力模块；

步骤S4，将步骤S3中经过一阶段增强的特征与原始小波变换得到的特征按照频率分别进行相加操作，然后输入到粗上采样模块中，所述粗上采样模块用于对人脸特征图的像素进行增强处理，获得放大4倍的中分辨率图，其由2倍最邻近、LeakyReLU非线性变换和2倍亚像素卷积、LeakyReLU非线性变换组成，最近邻执行空域变换，亚像素卷积执行通道到空间的变换，提升空间与通道间的信息交互；

步骤S5，步骤S3类似，将粗上采样后的特征再经过一个多核卷积模块和8个多注意力模块，然后经过一个精上采样模块，所述的精上采样模块由2倍最邻近、LeakyReLU非线性变换、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成的，获得目标高分辨特征，经过二维可逆小波变换之后得到结果与输入的低分辨率图像经过卷积和上采样处理的特征进行相加操作，得到目标分辨率图像；

步骤S6，利用已经经过预训练处理的关键点提取网络对输出的目标分辨率图像进行特征提取，将其经过不同倍率的下采样操作后的关键点特征反馈到主干网络，分别输入到多核卷积模块中对应的低频支路部分进行级联操作，进一步提升低频轮廓的精度；

步骤S7，步骤S1到S6所涉及的网络作为高分辨率图像的生成网络，为了进一步增加人脸图像的感知质量，增加一个判别器网络并增加基于视觉感知质量的损失函数，利用生成对抗学习训练方式得到最终的高质量图像生成网络，输出最终的高质量图像，具体的为：

基于ESRGAN判别器，损失函数为

以及像素损失

。损失函数使用反向传播策略交替更新生成器网络和判别器网络，如已收敛，则保存训练好的生成器网络模型，其中，

其中

和

分别表示真实图像和生成器生成的假图像，

是sigmoid函数，

是非变换判别器输出,

和

感知超分辨方法的损失函数选择的是对抗损失和LPIPS的感知损失，提高图片的视觉感知质量，其中，

其中

表示特征提取器，

表示深度嵌入转化为标量LPIPS评分，并从k层中计算平均得分。

为判别器D的第

层激活量，H为光滑

损失。另外再加上在RGB像素空间上的损失

和YUV像素空间上的损失

来防止颜色和亮度发生变化以及

用于人脸关键点的监督，

用于关键点提取，

。

所以整体损失函数为：

使用PSNR(峰值信噪比)、SSIM(结构相似性)，LPIPS作为图片质量的评价指标，选择高分辨率的人脸数据集并进行裁剪和不同的退化处理，得到高低分辨率的人脸图像对作为训练集、验证集和测试集，整个训练过程分为两个阶段，第一个阶段采用损失进行训练，第二个阶段引入内容损失与对抗损失进行模型微调，使用反向传播策略交替更新生成器网络和判别器网络，如已收敛，则保存训练好的生成器网络模型，用该生成器网络用作最终的推理。

表1为本发明与其他方法在放大8倍时不同数据集下的性能比较：

表1中最后一行为本发明的结果，在Helen和CelebA都进行了测试，对比常用的超分辨方法，包括SRGAN、ESRGAN、RCAN和FSRNet，进行了同样的数据集训练和测试，本发明得到的100张测试图片的平均PSNR和SSIM都取得了较高的结果，另外LPIPS最低，保持着最好的视觉感知质量，整体图片清晰度也最好。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，包括以下步骤：

步骤S7，最后增加一个判别器网络和增加基于视觉感知质量的损失函数，利用生成对抗学习训练方式得到最终的图像生成网络，输出最终的图像。

2.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述卷积层为一个3×3×16×1卷积层，3×3表示卷积核尺寸，16表示卷积核个数，1表示卷积核的运动步幅；所述四个降采样图，分别对应对角线高频D、垂直高频V、水平高频H和低频A。

3.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述步骤S2具体为：所述多核卷积模块根据频率高低的不同分别处理步骤S1中得到的特征图，将D输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个3×3的卷积层，将V和H分别输入到一个3×3的卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，将A输入到一个深度可分离卷积层、一个LeakyReLU非线性激活层和一个1×1的卷积层，所述的深度可分离卷积由通道数为1的3×3×16×1大小卷积层和通道数为16的1×1×32×1卷积层组成。

4.如权利要求2所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述多注意力模块设有像素注意力模块、空间注意力模块、普通卷积模块和通道注意力模块，所述步骤S3具体包括：

5.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述粗上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、LeakyReLU非线性变换组成，通过交替使用最邻近和亚像素卷积，分别放大2倍，最近邻执行空域变换，亚像素卷积执行通道到空间的变换。

6.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述的精上采样模块由最邻近、LeakyReLU非线性变换和亚像素卷积、残差网络、LeakyReLU非线性变换和一个3×3卷积层组成。

7.如权利要求1所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述步骤S1到步骤S6所使用的网络组成为高分辨率图像的生成网络。

8.如权利要求7所述的一种基于频率分解多注意力机制的人脸超分辨方法，其特征在于，所述步骤S7具体为：

基于ESRGAN判别器，损失函数为