CN111768342B

CN111768342B - 基于注意力机制和多级反馈监督的人脸超分辨方法

Info

Publication number: CN111768342B
Application number: CN202010915168.0A
Authority: CN
Inventors: 孙立剑; 徐晓刚; 章琪; 王军; 刘雪莹; 朱岳江
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-01
Anticipated expiration: 2040-09-03
Also published as: CN111768342A

Abstract

本发明涉及一种基于注意力机制和多级反馈监督的人脸超分辨方法，采用两个阶段学习极低分辨率的人脸图像到高分辨率图像的映射，并且学习一个额外的反馈回归映射，估计下采样核并重建低分辨率图像，形成一个闭环来提供额外的监督。首先利用残差网络和通道注意力机制对原始图像进行特征提取，利用亚像素卷积进行上采样，得到质量较好的图像并进行反馈监督，然后输入到精细超分辨网络中得到目标高分辨图像，并对其提取人脸五官解析图，将解析图和主网络图像特征融合后送到一个精细的超分辨解码器来恢复高分辨图像，并进行反馈监督。本发明针对原始图片无法提取较好的人脸几何形状，采用两级超分辨网络和反馈回归映射进一步增强人脸特征。

Description

基于注意力机制和多级反馈监督的人脸超分辨方法

技术领域

本发明属于计算机视觉、图像处理领域，尤其涉及一种基于注意力机制和多级反馈监督的人脸超分辨方法。

背景技术

图像分辨率的大小直接关系到图像的质量，更高的高分辨率意味着包含更多的细节信息，蕴含更大的应用潜能。然而在实际图像获取过程中，由于成像设备本身的限制、环境因素的影响导致无法直接获取高质量的图像，同时，由于存储介质和网络带宽的影响，最终获得的图像分辨率也较低，阻碍图像的进一步处理和应用。随着计算机视觉技术的不断发展，尤其是深度学习的发展，图像画质增强方法也越来越多，超分辨技术就是一项图像画质增强的有效手段，可以显著提升图像的分辨率。图像超分辨率技术是将低分辨率的图像通过软件手段，将其上采样到高分辨率图像，与硬件方式相比，可以有效降低图像增强的成本，在卫星成像、安防监控、医学检测、刑事侦查、历史图像修复增强等多个领域都具有非常重要的应用价值。例如通过增强卫星图的分辨率，可以让目标检测识别网络更好地识别其中的目标，在安防监控场景中，由于摄像头和周围环境等因素，拍摄到的目标会存在模糊，导致无法识别目标，通过超分辨技术可以重构出较为清晰的画面，提高嫌犯的分辨率，从而对嫌犯的身份识别提供帮助。因此，图像超分辨技术作为一种低层的图像处理方法，可以为后续的目标检测识别等高层的处理方法提供有效的支持。

目前有很多关于图像超分辨的网络，在处理各种各样的场景、物体方面都有了比较明显的提升，针对人脸超分辨方面的网络较少，很多方法都是通过构建相应的人脸数据，然后用已有的网络进行训练，虽然取得了一些进步，但是针对低分辨率的人脸，输入信息量过少导致映射空间过大，超分效果不是很好，而人脸相对于场景和物体来说，有着较为统一的结构，形状结构相似性较高，为了克服现有技术的不足，提升人脸超分的效果，在利用人脸的结构信息的基础上，通过引入注意力机制聚焦人脸五官区域，并增加反馈回归网络进行反向监督，增加约束关系进一步减小可能的映射空间，使映射关系更接近实际情况。

发明内容

本发明的目的在于针对现有技术中难以直接从低分辨率输入中估计面部解析图，泛化性能较差且对低分辨率人脸图像分辨率增强差等不足，构建由两个阶段的超分辨子网络和对应的反馈回归网络、解析图提取网络等多种监督方式来提升人脸信息。

本发明的目的是通过以下技术方案来实现的：

一种基于注意力机制和多级反馈监督的人脸超分辨方法，包括以下步骤：

（1）采用粗超分辨网络对低分辨率图像进行原始特征提取，并上采样得到中分辨率图像；所述中分辨率图像的分辨率是目标分辨率的1/8~1/2；所述粗超分辨网络为残差通道注意力网络；

（2）将步骤（1）获得的中分辨率图像输入至精超分辨网络中，获得高分辨率图像；其中，所述精超分辨网络包括：

由多个残差通道注意力单元组成的精超分辨编码器，用于提取深层次的人脸特征信息；

由亚像素卷积上采样单元和残差网络组成的精超分辨解码器，用于解析获得高分辨率图像；

由三个残差单元和两个Hourglass组成的人脸解析网络，用于从高分辨率图像中提取获得五官解析图；

所述五官解析图作为反馈与人脸特征信息进行融合并作为精超分辨解码器的输入；

（3）对粗超分辨网络和精超分辨网络进行监督训练，包括：

反向监督：

将中分辨率图像下采样到低分辨率图像，学习从超分辨后的中分辨率图像到低分辨率图像的对偶回归对粗超分辨网络进行监督训练；

将高分辨率图像下采样到中分辨率图像，学习从超分辨后的高分辨率图像到中分辨率图像的对偶回归对精超分辨网络进行监督训练；

正向监督：

将粗糙分辨网络和精超分辨网络共同作为生成对抗网络中的生成器，并构建判别器和网络的整体损失函数，利用生成对抗方式进行训练直至整体损失函数收敛。

进一步地，所述步骤（1）中，低分辨率图像的分辨率不大于32×32。

进一步地，所述粗超分辨网络由3×3×64×1卷积层（3×3表示卷积核尺寸，64表示卷积核个数，最后一位表示卷积核的运动步幅）、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成，所述步骤（1）的实现方法具体包括如下子步骤：

(1.1) 将低分辨率图像输入至粗超分辨网络中，低分辨率图像先通过3×3×64×1卷积层，然后输入至4个串联的残差通道注意力单元中进行原始特征提取；其中，每个残差通道注意力单元均包括残差单元和通道注意力单元，通过残差单元提取输入图像的特征，再将特征输入至通道注意力单元中获取通道校准系数向量β，将通道校准系数向量β与通道注意力单元的输入特征进行重新校准后作为残差通道注意力单元的输出；所述通道注意力单元包括池化层、卷积层、ReLU非线性变换层、卷积层和Sigmoid非线性变换层，其中池化层采用方差对该层输入特征作全局池化处理，提取其全局语义信息；

(1.2)将最后一个残差通道注意力单元的输出输入到亚像素卷积上采样单元中，通过亚像素卷积操作得到放大后的特征；所述亚像素卷积上采样单元包括一个3×3×64s²×1卷积层，s为放大倍数，将输出通道数扩大为输入通道数的s²倍，一个LeakyReLU非线性变换层；同时将最后一个残差通道注意力单元的输出通过双三次上采样处理，将其与亚像素卷积输出的放大后的特征进行叠加，得到中分辨率图像。

进一步地，精超分辨编码器提取深层次的人脸特征信息的具体过程为：

中分辨率图像通过一个3×3×64×1卷积层提取浅层特征，然后将浅层特征输入至15个串联的残差通道注意力单元中，再通过一个3×3×64×1卷积层进一步提取特征，将进一步提取的特征与通过第一个卷积层得到的浅层特征进行逐像素相加操作，得到深层次的人脸特征信息。

进一步地，人脸解析网络提取获得五官解析图的具体过程为：

高分辨率图像依次通过一个7×7×64×1的卷积层、ReLU非线性变换、一个3×3×128×1卷积层、ReLU非线性变换和三个残差单元，所述残差单元中的卷积层为3×3×128×1；然后输入到两个三阶的Hourglass单元中，Hourglass单元在对称层之间使用跳跃连接机制，最后，将Hourglass单元得到的特征连接到1×1×11×1卷积层生成五官解析图。

进一步地，所述精超分辨解码器包括：

依次连接的3×3×64×1卷积层、ReLU非线性变换层、亚像素卷积上采样单元、三个残差单元、3×3×64×1卷积层和Tanh非线性变换层；

其中，亚像素卷积上采样单元包括一个3×3×64s²×1卷积层，一个LeakyReLU非线性变换层；残差单元中的卷积层为3×3×64×1。

进一步地，所述反向监督的损失函数采用L1损失。

进一步地，所述正向监督具体为：

采用ESRGAN网络中的判别器网络和判别损失函数作为生成对抗网络中的判别器和对应的损失函数，网络的整体损失函数包括生成器对抗损失、中分辨率图像上采样至真值分辨率后与真值图像的L1损失，高分辨率图像与真值图像的L1损失，人脸解析网络输出的五官解析图与真值解析图的L1损失，使用反向传播策略交替更新生成器网络和判别器网络直至收敛，保存训练好的生成器网络模型。

其中，中分辨率图像上采样至真值分辨率具体为：将中等分辨率的图像通过3×3×3×s反卷积处理，得到与真值图像相同的尺寸。

本发明的有益效果是，将人脸的几何形状作为先验知识输入到网络中，并增加反馈回归网络，通过减小可能的映射空间和增加更多的信息输入来提高超分辨效果。采用两个阶段的超分辨网络，第一阶段通过多个残差通道注意力单元，残差可以专注于图像高频信息的提取，通道注意力可以自适应地选择每一个输入卷积循环单元的特征，从而可以从低分辨率图像中提取更准确的原始特征；先验信息提取网络即人脸解析网络采用Hourglass结构，能够抓住很多局部的特征信息并结合起来，增加了人脸几何形状特征提取的准确性，每个阶段均采用反馈回归网络，有了这样的约束，就能够估计底层的下采样核，从而减少可能函数的空间，找到从低分辨率到高分辨率的良好映射。由于增加了反向监督，可以在已知真值的数据对上混入一定比例的未知真值的低分辨率数据，这部分数据由于没有真值数据缺少正向监督，但可以通过反向监督进一步增强模型的泛化性能。另外，增加了生成对抗网络进行训练，进一步增加了图像的视觉感知质量。

附图说明

图1是本发明基于注意力机制和多级反馈监督的人脸超分辨网络结构示意图；

图2是本发明的残差单元结构图；

图3是本发明的残差通道注意力单元结构图；

图4是本发明的粗超分辨网络结构图；

图5是本发明的精超分辨率编码器网络结构图；

图6是本发明的人脸解析网络结构图；

图7是本发明的三阶Hourglass网络结构图；

图8是本发明的精超分辨率解码器网络结构图。

具体实施方式

下面根据附图详细说明本发明。

本实施例以8倍图像超分辨率为例进行说明，具体如下：

本发明的基于注意力机制和多级反馈监督的人脸超分辨方法，包括以下步骤：

（1）采用粗超分辨网络对低分辨率图像（16×16的人脸图像）进行原始特征提取，并上采样得到中分辨率图像；所述中分辨率图像的分辨率是目标输出的高分辨率图像的1/2；所述粗超分辨网络为残差通道注意力网络；

由亚像素卷积上采样单元和多个残差单元组成的精超分辨解码器，用于解析获得高分辨率图像；

（3）对粗超分辨网络和精超分辨网络进行监督训练，包括：

反向监督：

正向监督：

图1是本发明方法构建的由残差通道注意力网络和精超分辨网络共同组成的人脸超分辨网络结构示意图。

图4是本发明的粗超分辨网络结构图，具体地，由卷积层、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成。

所述步骤（1）的实现方法具体包括如下子步骤：

（1.1）16×16的人脸图像输入至残差通道注意力网络中，先通过一层卷积，然后输入到四个残差通道注意力单元中，用来自适应地选择输入的特征，每个残差通道注意力单元均包括残差单元和通道注意力单元，残差单元结构如图2所示，包括卷积层、ReLU非线性变换层、卷积层，通道注意力单元包括池化层、卷积层、ReLU非线性变换层、卷积层和Sigmoid非线性变换层，残差通道注意力单元的整体结构如图3所示；在每个残差通道注意力单元中，输入图像先通过卷积层、ReLU非线性变换、卷积层提取输入图像的特征，然后输入到通道注意力单元中进行操作，由于超分辨的终旨是恢复图像的高频分量，因此使用有关通道的高频统计信息来确定注意力图更为合理。为此，选择对合并方法使用方差而不是平均值对输入特征作全局池化处理，提取其全局语义信息，然后经过卷积层、ReLU非线性变换、卷积层和Sigmoid非线性变换后得到通道校准系数向量β，将通道校准系数向量β与通道注意力单元的输入特征进行重新校准作为残差通道注意力单元的输出。上述残差通道注意力网络中所涉及到的卷积层均为3×3×64×1，3×3表示卷积核尺寸，64表示卷积核个数，最后一位表示卷积核的运动步幅。

（1.2）通过4个串联的残差通道注意力单元提取特征之后，将其输入到亚像素卷积上采样单元中，该单元包括一个3×3×64×16×1卷积层，将输出通道数扩大为输入通道数的16倍，一个LeakyReLU非线性变换，通过亚像素卷积操作得到放大4倍后的特征，同时将输入特征通过双三次上采样4倍进行处理，将其与亚像素卷积输出的特征进行叠加，得到中分辨率图像。

作为优选方案，所述精超分辨编码器具体结构如图5所示，精超分辨编码器提取深层次的人脸特征信息的具体过程为：

将第一阶段的残差通道注意力网络超分辨处理得到中分辨率图像输入到精超分辨编码器中，中分辨率图像首先通过一个3×3×64×1卷积层，之后输入到由15个残差通道注意力单元组成的网络中，该残差通道注意力单元与粗超分辨网络中的一样，再通过一个3×3×64×1卷积层，然后与通过第一个卷积层得到的浅层特征进行逐像素相加操作，得到深层次人脸特征信息。

优选地，人脸解析网络结构如图6所示，人脸解析网络提取获得五官解析图的具体过程为：

将最终输出的高分辨率图像返回输入到人脸解析网络中进行人脸五官解析图的提取，高分辨率图像先通过一个7×7×64×1的卷积层、ReLU非线性变换、一个3×3×128×1卷积层、ReLU非线性变换和三个残差单元，残差单元中的卷积层为3×3×128×1，然后输入到两个三阶的Hourglass单元中，Hourglass在对称层之间使用跳跃连接机制，中间增加反馈机制提升网络效率，如图7所示。最后，由Hourglass得到的特征连接到1×1×11×1来生成人脸解析图。

将五官解析图特征信息进行softmax处理后与精超分辨编码器中提取的深层次人脸特征信息进行融合，并输入到一个3×3×64×1卷积层、ReLU非线性变换、亚像素卷积（一个3×3×64×4×1卷积层，将输出通道数扩大为输入通道数的4倍，图像放大两倍，一个LeakyReLU非线性变换）、三个残差单元（其中的卷积层为3×3×64×1）、一个3×3×64×1卷积层、Tanh非线性变换组成的精超分辨解码器（如图8所示）中，即可得到高分辨率图像。

对于人脸超分辨网络进行监督训练，具体采用：

将第一阶段输出的中分辨图像经过一个3×3×64×2卷积层、ReLU非线性变换、3×3×64×2卷积层，返回到输入分辨率空间，通过引入了一个附加的约束来减少可能的空间，以便中分辨图像能够重建输入的低分辨率图像。通过这样的约束估计底层的下采样核，从而减少可能函数的空间，找到从低分辨率到高分辨率的良好映射。

将高分辨图像经过一个3×3×64×1卷积层、ReLU非线性变换、3×3×64×2卷积层，向下采样到中分辨率图像，学习从超分辨后的图像到中分辨率图像的对偶回归来进行监督，使其尽量能返回到中分辨率图像空间中。

上述反向监督中，均采用L1损失函数。

同时将残差通道注意力网络和精超分辨网络联合作为高分辨率图像的生成网络，为了进一步增加人脸图像的感知质量，增加一个判别器网络，利用ESRGAN网络中的判别器网络和判别损失函数作为本方案的判别器和对应的损失函数，生成器的损失函数包括生成器对抗损失、第一阶段输出的中分辨率图像（将中分辨率的图像通过3×3×3×4反卷积处理，得到与真值图像相同的尺寸，用以监督第一阶段生成的超分辨图像）与真值图像的L1损失，第二阶段输出的最终高分辨率图像与真值图像的L1损失，人脸解析网络输出的人脸解析图与真值解析图的L1损失，我们以平均绝对损失函数为目标训练网络，使用PSNR(PeakSignal to Noise Ratio，峰值信噪比)、SSIM(structural similarity index，结构相似性)，选择高分辨率的人脸数据集CelebAMask-HQ，对图像进行裁剪操作，只截取人脸部分，避免头发帽子衣服对人脸的影响，将截取的照片双三次下采样到128×128作为高分辨率图像，双三次下采样到16×16作为对应的低分辨率图像，选择其中20000对高低分辨率的人脸图像对作为训练集，由于增加了反向监督，可以在已知真值的数据对上混入一定比例的未知真实的低分辨率数据，这部分数据由于没有真值数据缺少正向监督，但可以通过由已知真值的数据对训练的模型得到高分辨率结果，然后反向监督看其是否能够返回到原始低分辨率空间中。优选地，在网络上搜寻到8000张低分辨率的带有实际退化的人脸图，再下采样到16×16，将所有原始图片旋转90°，180°，270°和水平翻转，进行图像增强，使用RMSprop进行训练，学习率设置为0.0001，使用反向传播策略交替更新生成器网络和判别器网络，如已收敛，则保存训练好的生成器网络模型，用该生成器网络用作最终的推理，另外选择100张低分辨率的图片作为测试集。另外，用同样的方法在Helen数据集上进行训练和测试，测试结果如表1所示。

表1. 本发明与其他算法在放大8倍时不同数据集下的性能比较(PSNR/SSIM)

数据集

Bicubic

SRCNN

VDSR

SRResNet

EDSR

RCAN

本发明

Helen

23.49/0.6233

23.97/0.6521

24.41/0.6773

25.11/0.7157

25.46/0.7252

25.93/0.7309

26.37/0.7821

CelebA

23.36/0.6265

23.85/0.6474

24.33/0.6686

25.12/0.7169

25.52/0.7347

25.71/0.7451

26.73/0.7768

表1中最后一列为本发明的结果，在Helen和CelebA都进行了测试，对比常用的超分辨方法，包括双三次上采样、SRCNN、VDSR、SRResNet、EDSR和RCAN，进行了同样的数据集训练和测试，本发明得到的100张测试图片的平均PSNR和SSIM都是最好的，另外，本发明在没有多级反馈监督的情况下，将会下降0.3左右的PSNR和0.02左右的SSIM的性能，说明了增加反馈学习的必要性，而且具有多级反馈监督的情况下，还可以在数据集中增加没有真值图像的数据集，增加了超分辨模型的泛化能力。

Claims

1.一种基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，包括以下步骤：

（3）对粗超分辨网络和精超分辨网络进行监督训练，包括：

反向监督：

正向监督：

将粗超分辨网络和精超分辨网络共同作为生成对抗网络中的生成器，并构建判别器和网络的整体损失函数，利用生成对抗方式进行训练直至整体损失函数收敛。

2.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，所述步骤（1）中，低分辨率图像的分辨率不大于32×32。

3.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，所述粗超分辨网络由3×3×64×1卷积层、4个串联的残差通道注意力单元、亚像素卷积上采样单元组成，所述步骤（1）的实现方法具体包括如下子步骤：

(1.2)将最后一个残差通道注意力单元的输出输入到亚像素卷积上采样单元中，通过亚像素卷积操作得到放大后的特征；所述亚像素卷积上采样单元包括一个3×3×64s²×1卷积层，s为放大倍数，一个LeakyReLU非线性变换层；同时将最后一个残差通道注意力单元的输出通过双三次上采样处理，将其与亚像素卷积输出的放大后的特征进行叠加，得到中分辨率图像。

4.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，精超分辨编码器提取深层次的人脸特征信息的具体过程为：

5.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，人脸解析网络提取获得五官解析图的具体过程为：

6.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，所述精超分辨解码器包括：

其中，亚像素卷积上采样单元包括一个3×3×64s²×1卷积层，s为放大倍数，一个LeakyReLU非线性变换层；残差单元中的卷积层为3×3×64×1。

7.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，所述反向监督的损失函数采用L1损失。

8.根据权利要求1所述的基于注意力机制和多级反馈监督的人脸超分辨方法，其特征在于，所述正向监督具体为：

采用ESRGAN网络中的判别器网络和判别损失函数作为生成对抗网络中的判别器和对应的损失函数，网络的整体损失函数包括生成器对抗损失、中分辨率图像上采样至真值分辨率后与真值图像的L1损失，高分辨率图像与真值图像的L1损失，人脸解析网络输出的五官解析图与真值解析图的L1损失，使用反向传播策略交替更新生成器网络和判别器网络直至收敛。