CN110689482A

CN110689482A - 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法

Info

Publication number: CN110689482A
Application number: CN201910879159.8A
Authority: CN
Inventors: 凌强; 张梦磊; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-01-14
Anticipated expiration: 2039-09-18
Also published as: CN110689482B

Abstract

本发明涉及一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，首先读取原始人脸图片数据集；然后进行数据裁剪清洗等预处理工作；第三读取高分辨率人脸图像进行双三次插值下采样，获得高分辨率人脸图像‑低分辨率人脸图像对；第四将低分辨率人脸图像输入到生成器网络生成超分辨率人脸图像；第五再将高分辨率人脸图像和超分辨率图像分别输入到逐像素判别器网络，使用逐像素判别器网络输出的逐像素判别矩阵计算有监督的逐像素对抗损失函数，使用误差反向传播训练生成器网络。

Description

一种基于有监督逐像素生成对抗网络的人脸超分辨率方法

技术领域

本发明涉及图像重建方法领域，具体涉及一种基于有监督逐像素生成对抗网络的人脸超分辨率方法。

背景技术

随着机场、地铁、购物中心等拥挤区域的安防标准不断提高，基于机器视觉的智能监控系统受到了越来越多的关注。大多数监控视频为了得到更广阔的视野，通常采集到的人脸通常分辨率较小，相对于清晰、高分辨率图片，小尺度人脸图片区分度和信息量都大大降低，因此监控视频人脸识别系统需要针对小尺度人脸图片进行超分辨率重建。超分辨率重建方法可以恢复人脸图片的纹理细节，提高低分辨率图片人脸识别准确度。

目前，关于人脸图像超分辨重建的算法已经被研究了许多年，但是大多数基于深度学习的人脸图像超分辨率重建算法仅使用均方误差作为损失函数，造成重建的人脸图片过于平滑，缺少纹理细节，不利于后续的人脸识别。基于生成对抗网络的图像超分辨率重建方法使用无监督的方式，容易引入噪声影响人脸识别精度。因此如何针对低分辨率人脸图片，研究更加有效的超分辨率重建方法，提高低分辨率人脸识别准确度，成为监控视频低分辨率人脸识别的关键问题。

现有的人脸图像超分辨率方法可以分为三种类型：基于插值的方法，基于统计的方法和基于学习的方法。在早期，前两类方法因其计算效率优势而得到广泛的关注。但是，这两类方法总是局限于较小的超分辨率倍数(2×超分辨)，超分辨率倍数增大时(4×或者8×超分辨)效果较差。基于学习的方法【1】使用大量的低分辨率-高分辨率图像对来训练人脸超分辨率重建模型，使得训练好的模型可以根据输入数据来推断出低分辨率图片所缺失的高频信息，并且在较大放大倍数时也可以得到较好的超分辨率重建效果。基于深度学习的方法具有从大规模数据库中学习知识的强大能力，因而被引入到图像超分辨率重建问题。但是这些基于卷积神经网络的方法大多数主要使用均方误差(MSE)损失函数【2】来学习低分辨率图像到高分辨率图像之间的映射关系，当输入图像分辨率非常低并且放大倍数很大时，就会导致输出过度平滑。

目前人脸图像超分辨率重建领域主要有三种方法来缓解过度平滑问题。第一种是利用人脸分析技术来学习人脸图像的结构先验信息。刘等人【3】在重建高分辨率人脸图像之前估计人脸的关键点和面部姿势先验信息，然后使用这些先验信息进行人脸图像超分辨率重建工作，但是当人脸图像分辨率较小时先验信息很难准确估计。朱等人【4】提出了人脸超分辨率重建和场景估计的统一框架，以恢复纹理细节。他们在较小的人脸图像上实现了最先进的结果，但是在各种姿态和遮挡条件下，由于难以进行准确的场景估计，超分辨重建结果并不理想。第二种方法是引入语义损失函数，直接提升输出图像所包含的语义信息。约翰逊等人【5】使用预先训练好的分类模型提取特征计算损失作为语义损失来恢复更多的语义信息。然而，其缺点是特征作为损失函数并不是非常直观。最后一种方式【6】是用生成对抗网络引入图像先验知识。于等人【7】提出一个生成对抗网络(GAN【8】)来对16×16像素大小的人脸图像进行8×超分辨。生成对抗网络可以恢复更加真实的纹理细节，但是传统无监督的生成对抗网络学习方式使得生成的图像与原始图像差距较大，无法用于进行人脸识别，因此需要针对这一问题加以改进。

【1】Dong C，Loy C C，He K，et al.Image super-resolution using deepconvolutional networks[J].IEEE transactions on pattern analysis and machineintelligence，2015，38(2)：295-307.

【2】Shi W，Caballero J，Huszár F，et al.Real-time single image and videosuper-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016：1874-1883.

【3】Liu W，Lin D，Tang X.Hallucinating faces：Tensorpatch super-resolution and coupled residue compensation[C]//2005IEEE Computer SocietyConference on Computer Vision and Pattern Recognition(CVPR′05).IEEE，2005，2：478-484.

【4】Zhu S，Liu S，Loy C C，et al.Deep cascaded bi-networkfor facehallucination[C]//European conference on computer vision.Springer，Cham，2016：614-630.

【5】Johnson J，Alahi A，Fei-Fei L.Perceptual losses for real-time styletransfer and super-resolution[C]//European conference on computervision.Springer，Cham，2016：694-711.

【6】Ledig C，Theis L，Huszár F，et al.Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2017：4681-4690.

【7】Yu X，Porikli F.Ultra-resolving face images by discriminativegenerative networks[C]//European conference on computer vision.Springer，Cham，2016：318-333.

【8】Goodfellow I，Pouget-Abadie J，Mirza M，et al.Generative adversarialnets[C]//Advances in neural information processing systems.2014：2672-2680.

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，提高监控视频低分辨率人脸识别精度，使用逐像素生成对抗网络来增加超分辨重建人脸图像的纹理细节，使用有监督的生成对抗网络来提高超分辨率重建人脸图像的人脸识别精度。

本发明的技术方案：一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，包括以下步骤：

Step 1：建立用于训练有监督逐像素的生成对抗网络的原始人脸图片数据集，将数据集分为训练集和测试集；生成对抗网络包含生成器网络和逐像素判别器网络；

Step 2：对数据集中的人脸图片进行检测和裁剪，并筛选出符合条件的训练集中的人脸图片；

Step 3：随机分批提取训练集中的人脸图片作为高分辨率人脸图片，将高分辨率人脸图片进行双三次插值下采样到指定分辨率作为低分辨率人脸图片，获得用于训练有监督逐像素生成对抗网络的高分辨率人脸图像-低分辨率人脸图像对；

Step4：将低分辨率人脸图像输入到生成器网络，生成超分辨率人脸图像，生成器网络生成的人脸图像即超分辨率人脸图像；

Step5：将高分辨率人脸图像和超分辨率人脸图像分别输入到逐像素判别器网络中，使用逐像素判别器网络输出的逐像素判别矩阵计算有监督的逐像素对抗损失函数，使用误差反向传播训练生成器网络；

Step6；计算验证集中高分辨率人脸图像和超分辨率人脸图像之间的峰值信噪比是否达到设计要求，即峰值信噪比不再提高即符合设计要求；如果达到设计要求，则输出最终训练好的生成器网络，否则继续继续提取训练集中的人脸图片；

Step7：最终得到训练完成的生成器网络作为低分辨率人脸超分辨率重建模型，输入低分辨率人脸图像得到超分辨率人脸图像。

所述Step 4中，生成器网络结构如下：

生成器网络输入为低分辨率人脸图像，首先使用9个卷积核大小3×3、步长为1的卷积层提取特征，卷积层通道数分别为128->128->128->256->256->512->512->1024->1024；然后使用卷积核大小3×3步长为1的子像素卷积层将特征图放大到高分辨率图像大小，输出通道数为64；最后使用通道数为3、卷积核大小为3×3、步长为1的卷积层输出超分辨率人脸图像。

所述Step 5中，逐像素判别器网络的结构如下：

逐像素判别器网络输入为高分辨率人脸图像或者超分辨率人脸图像，然后使用9个卷积核大小为3×3、步长为1的卷积层提取特征，卷积层通道数分别为8->8->8->16->16->32->32->64->64；然后通过卷积核大小为3×3、步长为1、通道数为1的卷积层，输出通道数为1的逐像素判别矩阵

其中：W和H代表低分辨率图像的宽和高，r代表超分辨率倍数；D(·，·)代表逐像素判别器网络，输入为超分辨率图像

或者高分辨率图片y和上采样的低分辨率图像x；输出矩阵上的每个值p_i，j代表输入图像第i行第j列像素属于高分辨率的概率。

所述Step5中，有监督的逐像素对抗损失函数为：包含生成器损失函数和判别器损失函数：

D_sp(x，y)＝D(x，y)-D(x，G(x))

其中：L(D)是判别器损失函数，L(G)是生成器损失函数，生成器和判别器分别使用对应损失函数交替训练；D(x，y)是高分辨率人脸图像的逐像素判别器输出，G(x)是超分辨率人脸图像，D(x，G(x))是超分辨率人脸图像的逐像素判别器输出，D_sp(x，y)是根据逐像素判别器输出计算的有监督逐像素判别矩阵，D_sp(x，y)_i，j是逐像素判别矩阵第i行第j列元素；α_i，j是逐像素判别矩阵第i行第j列元素监督参数，a是逐像素判别矩阵元素小于0时的监督参数，当a＜0时，生成的超分辨率图像被强制与真实的高分辨率图像相同，当a≥0时，生成的超分辨率图像比相应的高分辨率图像更逼真。

本发明与现有技术相比的优点在于：

(1)本发明能够有效的提高人脸超分辨率重建相似度

传统基于生成对抗网络的人脸图片超分辨率重建方法使用无监督的对抗损失函数，因此超分辨率重建出的人脸图片与原图差别较大，相似度较低。本发明针对监控视频人脸识别问题对相似度要求较高的特点，引入有监督的逐像素对抗损失函数，提高超分辨率重建出的人脸与原图的相似度。

(2)本发明能够有效提高低分辨率图像人脸识别准确度

传统基于均方误差损失函数的人脸图像超分辨率重建方法模糊了人脸细节，因此用于人脸识别问题效果并不理想。本发明使用逐像素对抗损失函数，在恢复人脸图片纹理细节的同时，最大程度保证超分辨率重建人脸图片与原图的相似度，更加有利于提高低分辨率人脸识别问题准确度。

附图说明

图1为本发明的人脸超分辨率重建网络训练流程图；

图2为本发明提出的带有r×放大因子的有监督像素生成对抗网络的整体结构。图中所有方块代表卷积层，卷积核大小为3×3，步幅为1，通道大小为每层下的数字。生成器末端的S指示子像素卷积以构建超分辨率人脸图像。判别器的输入是上采样后的低分辨率输入人脸图像和高分辨率(或超分辨率)人脸图像在通道方向上拼接。判别器的输出是与输入人脸图像大小相同的逐像素判别矩阵，其用于计算有监督的逐像素判别差异；

图3为在不同的监督参数a下的有监督的逐像素判别差D_sp(x,y)；

图4为不同方法8×超分辨率重建结果与细节放大比较(a).双三次插值，(b).原始高分辨率图像(c).传统生成对抗网络(d).本发明提出的基于有监督逐像素生成对抗网络的人脸图像超分辨率重建方法。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明方法具体实现如下：

Step 1)：读取原始人脸图片数据集；

建立用于训练有监督逐像素生成对抗网络(包含生成器和判别器)的原始人脸图片数据集，将数据集分为训练集和测试集

Step 2)：对数据中的图片进行人脸检测、裁剪，并筛选出符合条件的训练图片；

Step 3)：随机分批读取高分辨率人脸图像进行双三次插值下采样，获得用于有监督生成对抗网络的高分辨率-低分辨率人脸图像对；

随机分批提取训练集中的人脸图片作为高分辨率人脸图片，将高分辨率人脸图片进行双三次插值下采样到指定分辨率作为低分辨率人脸图片，获得用于训练有监督生成对抗网络的高分辨率人脸图像-低分辨率人脸图像对；

Step 4)：将低分辨率人脸图像输入到生成器网络生成超分辨率人脸图像；

作为基于学习的人脸超分辨率重建方法，本发明旨在学习从低分辨率人脸图像到高分辨率人脸图像的映射函数。将低分辨率输入人脸图像表示为x，将高分辨率目标人脸图像表示为y，将超分辨率输出人脸图像表示为

从低分辨率输入人脸图像到超分辨率输出人脸图像具有参数θ的的映射函数G(·)可以表示为：

将人脸图像超分辨率重建应用于监控视频人脸识别问题，需要保证超分辨率重建生成器网络的速度。为了减少网络计算量，使用低分辨率输入人脸图片来进行特征提取，同时使用子像素卷积操作来减少上采用部分的计算量。

基于子像素卷积的生成器网络结构如图2所示。该生成器包括特征提取网络、子像素预测网络和构建最终超分辨率图像的子像素卷积网络。特征提取网络为9个卷积核大小3×3、步长为1的卷积层提取特征，卷积层通道数分别为128->128->128->256->256->512->512->1024->1024，将低分辨率人脸图像作为输入并提取用于子像素预测的人脸特征。特征提取网络的卷积层的信道数逐渐增加。在特征提取网络中使用残差连接来完全混合底层和高层特征。残差连接作为单位映射，其保留来自先前层的信息并限制网络仅学习残差，并允许通过跳转连接路径反向传播梯度，防止梯度消失。子像素预测网络接收特征提取网络的提取到的人脸特征作为输入，并计算出r²个子像素。这些子像素和输入低分辨率人脸图像的尺寸W×H相同。最后使用子像素卷积操作将这r²个W×H尺寸的子像素组合在一起以构建尺寸为rW×rH的超分辨率人脸图像。

Step 5)：将高分辨率和超分辨率人脸图像分别输入到逐像素判别器网络中，使用逐像素判别器网络输出的逐像素判别矩阵计算有监督的逐像素对抗损失函数，使用误差反向传播训练生成器网络；

为了增加超分辨率人脸图像的纹理细节信息，本发明采用了生成对抗网络框架。传统的生成对抗网络输入单张图片输出单个标量数字来表示输入图像属于真实高分辨率图像的概率。但是传统的生成对抗网络仅仅关注图像全局信息，而忽略图像的局部信息。因此与传统生成对抗网络框架不同，本发明提出的有监督逐像素生成对抗网络的逐像素判别器网络输出与输入图片大小相同的逐像素判别矩阵，如图2所示。本发明的鉴别器采用全卷积网络架构，没有下采样层和全连接层。由于全卷积网络架构可以端到端和像素到像素的进行训练，因此非常适合本发明提出的逐像素判别器网络。同时判别器网络通过1×1卷积层引入残差连接，使得底层特征可以直接传递到高层特征图。通过残差连接，本发明的判别器可以设计得更深，以便输出逐像素判别矩阵的每个元素都可以实现更大的视野和更强的拟合能力。

在训练人脸超分辨率重建网络时，每一个超分辨率人脸图像都具有其对应的高分辨率人脸图像作为真实值，即，超分辨率图像的每一个像素在高分辨率图像中都具有对应的像素作为监督项。为了充分利用高分辨率-超分辨率图像对，本发明提出了一种用于人脸超分辨率重建的有监督逐像素生成对抗网络。由于将单个数字作为整个图像的监督项很容易在生成图像中引入噪声，因此本发明引入逐像素判别器网络以生成与输入图像大小相同的逐像素判别矩阵

其中：W和H代表低分辨率图像的宽和高，r代表超分辨率倍数；

代表判别器网络，输入为超分辨率图像

(或者高分辨率图片y)和上采样的低分辨率图像x；输出矩阵上的每个值p_i，j代表输入图像第i行第j列像素属于高分辨率的概率。基于上述逐像素判别器网络

可以以强监督方式利用生成对抗网络。更具体地，真实高分辨率人脸图像的每个像素通过

的对应元素监督所生成的超分辨率图像的对应像素，使得真实高分辨率图像与生成的超分辨率图像之间的每个像素的差异可以尽可能的小，进而大大减少噪声引入。基于逐像素判别器

有监督的逐像素对抗损失可以定义为：

D_sp(x，y)＝D(x，y)-D(x，G(x))

其中：有监督的逐像素对抗损失函数包含生成器损失函数和判别器损失函数，L(D)是判别器损失函数，L(G)是生成器损失函数，生成器和判别器分别使用对应损失函数交替训练；D(x，y)是高分辨率人脸图像的逐像素判别器输出，G(x)是超分辨率人脸图像，D(x，G(x))是超分辨率人脸图像的逐像素判别器输出，D_sp(x，y)是根据逐像素判别器输出计算的有监督逐像素判别矩阵，D_sp(x，y)_i，j是逐像素判别矩阵第i行第j列元素；α_i，j是逐像素判别矩阵第i行第j列元素监督参数，a是逐像素判别矩阵元素小于0时的监督参数，当a＜0时，生成的超分辨率图像被强制与真实的高分辨率图像相同，当a≥0时，生成的超分辨率图像比相应的高分辨率图像更逼真。因此，判别器不只是简单地将输入人脸图像分类为真实或假的。相反，它定量地评估所生成的超分辨率人脸图像与其对应的高分辨率人脸图像之间的像素级的差异。基于判别器的这种像素级输出，生成器可以学习如何补偿所生成的超分辨率人脸图像与其对应的真实高分辨率人脸图像之间的差异并改善其超分辨效果。图4展示了本发明提出的逐像素生成对抗网络人脸超分辨率重建方法与传统方法比较结果，可以看出本发明提出的方法可以在恢复更多纹理信息的同时保证超分辨结果的准确性。

Step6)；计算验证集上高分辨率人脸图像和超分辨率人脸图像之间的峰值信噪比是否达到设计要求；

计算验证集上超分辨率重建人脸图像和高分辨率人脸图像之间的峰值信噪比：

其中：y(i，j)表示高分辨率人脸图像坐标(i，j)位置的像素值，

表示超分辨率人脸图像坐标(i，j)位置的像素值，W、H分别表示图像的宽度和高度；MSE是高分辨率人脸图像和超分辨率人脸图像之间的均方误差，PSNR是高分辨率人脸图像和超分辨率人脸图像之间的峰值信噪比。

Step 7)：最终得到训练完成的生成器网络作为低分辨率人脸超分辨率重建模型，输入低分辨率人脸图像可以得到超分辨率人脸图像。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，其特征在于，包括以下步骤：

Step 4：将低分辨率人脸图像输入到生成器网络，生成超分辨率人脸图像，生成器网络生成的人脸图像即超分辨率人脸图像；

Step 5：将高分辨率人脸图像和超分辨率人脸图像分别输入到逐像素判别器网络中，使用逐像素判别器网络输出的逐像素判别矩阵计算有监督的逐像素对抗损失函数，使用误差反向传播训练生成器网络；

Step 6；计算验证集中高分辨率人脸图像和超分辨率人脸图像之间的峰值信噪比是否达到设计要求，即峰值信噪比不再提高即符合设计要求；如果达到设计要求，则输出最终训练好的生成器网络，否则继续继续提取训练集中的人脸图片；

Step 7：最终得到训练完成的生成器网络作为低分辨率人脸超分辨率重建模型，输入低分辨率人脸图像得到超分辨率人脸图像。

2.根据权利要求1所述的一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，其特征在于：所述Step 4中，生成器网络结构如下：

生成对抗网络输入为低分辨率人脸图像，首先使用9个卷积核大小3×3、步长为1的卷积层提取特征，卷积层通道数分别为128->128->128->256->256->512->512->1024->1024；然后使用卷积核大小3×3步长为1的子像素卷积层将特征图放大到高分辨率图像大小，输出通道数为64；最后使用通道数为3、卷积核大小为3×3、步长为1的卷积层输出超分辨率人脸图像。

3.根据权利要求1所述的一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，其特征在于：所述Step 5中，逐像素判别器网络的结构如下：

其中：W和H代表低分辨率图像的宽和高，r代表超分辨率倍数；D(·，·)代表逐像素判别器网络，输入为超分辨率图像或者高分辨率图片y和上采样的低分辨率图像x；输出矩阵上的每个值p_i，j代表输入图像第i行第j列像素属于高分辨率的概率。

4.根据权利要求3所述的一种基于有监督逐像素生成对抗网络的人脸超分辨率方法，其特征在于：所述Step5中，有监督的逐像素对抗损失函数为：包含生成器损失函数和判别器损失函数：

D_sp(x，y)＝D(x，y)-D(x，G(x))

其中：L(D)是判别器损失函数，L(G)是生成器损失函数，生成器和判别器分别使用对应损失函数交替训练；D(x，y)是高分辨率人脸图像的逐像素判别器输出，G(x)是超分辨率人脸图像，D(x，G(x))是超分辨率人脸图像的逐像素判别器输出，D_sp(x，y)是根据逐像素判别器输出计算的有监督逐像素判别矩阵，D_sp(x，y)_i，j是逐像素判别矩阵第i行第j列元素；α_i，j是逐像素判别矩阵第i行第j列元素监督参数，a是逐像素判别矩阵元素小于0时的监督参数，当a≤0时，生成的超分辨率图像被强制与真实的高分辨率图像相同，当a＞0时，生成的超分辨率图像比相应的高分辨率图像更逼真。