CN110211045A

CN110211045A - 基于srgan网络的超分辨率人脸图像重建方法

Info

Publication number: CN110211045A
Application number: CN201910455715.9A
Authority: CN
Inventors: 于力; 刘意文; 邹见效; 杨瞻远; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06
Anticipated expiration: 2039-05-29
Also published as: CN110211045B

Abstract

本发明公开了一种基于SRGAN网络的超分辨率人脸图像重建方法，采用SRGAN网络作为超分辨人脸图像重建模型，获取若干高分辨率人脸图像，经过下采样得到对应的低分辨率人脸图像，从而构成训练样本集，然后基于训练样本集对SRGAN网络进行训练，在训练过程中基于EM散度对优化目标函数进行改进；将需要进行重建的低分辨率人脸图像输入训练好的SRGAN网络中的生成器G中，输出对应的超分辨率人脸图像的重建图像。本发明通过对SRGAN网络的训练方法进行改进，得到更优的SRGAN网络，从而提高超分辨率人脸图像重建结果的质量。

Description

基于SRGAN网络的超分辨率人脸图像重建方法

技术领域

本发明属于超分辨率人脸图像重建技术领域，更为具体地讲，涉及一种基于SRGAN网络的超分辨率人脸图像重建方法。

背景技术

人脸检测问题最初是作为人脸识别系统的一个子问题出现的，随着研究的不断深入而渐渐成为一个独立的课题。当前的人脸检测技术交叉融合了机器学习、计算机视觉、模式识别和人工智能等领域，成为了所有人脸影像分析衍生应用的基础，并对这些衍生系统的响应速度与精准检测能力都有重大影响。在人脸检测应用场景不断拓展的过程中，逐渐遇到了由于各种原因导致输入的人脸图像尺寸过小或质量过低等问题，对于这些低分辨率的人脸图像，人脸检测系统的准确率经常会出现大幅下降。通常将低质量和小尺寸的人脸图像的检测问题统称为低分辨率人脸检测。

当前的人脸检测算法本质都是一个二分类问题，基本流程为先从待检测区域提取有效特征，然后凭借这些特征来判断是否存在人脸，低分辨率人脸检测也是在这个基础上进行研究的。低分辨率人脸具有三个特点：信息量少、噪声多和可利用工具较少，这导致我们无法从候选区域提取到足够多的有效特征来表达这个区域，从特征表达层面来看，在传统方法中表现为无法提取到足够多用于表达低分辨率人脸的有效特征；在深度神经网络中表现为前面的卷积层无法提供足够强有力特征图谱，而后面的卷积层中无法提供足够多的低分辨率人脸区域的特征，这个先天不足导致检测低分辨率人脸非常困难。为了解决低分辨率人脸检测问题，许多优秀的学者做了大量针对性的研究，综合来看，国内外学者对这个问题的处理主要集中在三个方向进行，分别是寻找对于人脸区域的分辨率稳健特征表达方法、针对低分辨率人脸的特点设计新的分类器和图像超分辨率重建方法。

图像超分辨率重建方法是一种利用特定算法来丰富低分辨率的像素和细节，提高图像表达力的技术。传统的人脸图像超分辨率重建方法主要包括三种：基于插值的超分辨率重建，基于重构的超分辨率重建和基于学习的超分辨率重建。近年来随着深度学习技术的快速发展，还出现了基于卷积神经网络的人脸图像超分辨率重建方法和基于对抗生成网络的人脸图像超分辨率重建方法。就基于对抗生成网络的人脸图像超分辨率重建方法而言，现阶段还存在模型难以训练和分布重叠的问题，难以取得理想的效果，需要进行进一步的改进。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于SRGAN网络的超分辨率人脸图像重建方法，通过对SRGAN网络的训练方法进行改进，得到更优的SRGAN网络，从而提高超分辨率人脸图像重建结果的质量。

为实现上述发明目的，本发明基于SRGAN网络的超分辨率人脸图像重建方法包括以下步骤：

S1：构建SRGAN网络；

S2：获取若干高分辨率人脸图像I^HR，经过下采样得到对应的低分辨率人脸图像I^LR，每幅高分辨率人脸图像I^HR和对应的低分辨率人脸图像I^LR构成一个训练样本，从而得到训练样本集；

S3：采用步骤S2得到的训练样本集对SRGAN网络进行训练，训练过程中生成器G的优化目标函数为：

判别器D的优化目标函数为：

其中，x表示真实的高分辨率人脸图像，z表示输入生成器G的低分辨率人脸图像，G(z)为生成器G中生成的超分辨率重建人脸图像，P_g表示超分辨重建人脸图像的概率分布，P_r表示真实的高分辨率人脸图像的概率分布，D(x)、D(G(z))分别表示判别器D判断高分辨率人脸图像、超分辨率重建人脸图像是否为真实人脸图像的概率，E[]表示数学期望，表示真实高分辨率人脸图像x和超分辨率重建人脸图像G(z)的一个随机线性组合，P_u表示样本的概率分布，k和p分别表示一个常数；

S4：将需要进行重建的低分辨率人脸图像输入步骤S3训练好的SRGAN网络中的生成器G中，输出对应的超分辨率人脸图像的重建图像。

本发明基于SRGAN网络的超分辨率人脸图像重建方法，采用SRGAN网络作为超分辨人脸图像重建模型，获取若干高分辨率人脸图像，经过下采样得到对应的低分辨率人脸图像，从而构成训练样本集，然后基于训练样本集对SRGAN网络进行训练，在训练过程中基于EM散度对优化目标函数进行改进；将需要进行重建的低分辨率人脸图像输入训练好的SRGAN网络中的生成器G中，输出对应的超分辨率人脸图像的重建图像。

本发明通过对SRGAN网络的训练方法进行改进，得到更优的SRGAN网络，从而提高超分辨率人脸图像重建结果的质量。

附图说明

图1是SRGAN网络中生成器的结构图

图2是SRGAN网络中判别器的结构图；

图3是本发明基于SRGAN网络的超分辨率人脸图像重建方法的具体实施方式流程图；

图4是本发明和Bicubic算法的超分辨率人脸图像重建图像结果示例图；

图5是图4中各幅图像中下巴区域的放大展示图；

图6是图4中各幅图像中右眼区域的放大展示图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了更好地说明本发明的技术方案，首先对本发明的技术原理进行简要说明。

SRGAN网络是当前一种使用广泛、效果优秀的超分辨率图像重建模型，基于GAN(Generative Adversarial Network，生成对抗网络)网络训练而成。SRGAN网络由一个生成器G和一个判别器D共同组成。图1是SRGAN网络中生成器的结构图。图2是SRGAN网络中判别器的结构图。生成器的核心是其中的多个残差块，每个残差块包含两个3*3的卷积层，卷积层后接批归一化层(batch normalization,BN)和PReLU作为激活函数，两个2×亚像素卷积层(sub-pixel convolution layers)被用来增大特征尺寸。判别器D采用的是一个类似VGG19的网络结构，但是没有进行maxpooling池化。判别器D部分包含8个卷积层，伴随网络的不断加深，特征数量不断增加，特征尺寸不断减小，采用LeakyReLU作为激活函数，最后利用两个全连接层和最终的sigmoid激活函数获得学习到的真实样本的概率。

在现有的SRGAN网络中，训练目标函数可以表示为：

其中，V(D,G)表示优化目标函数，x表示高分辨率样本，z表示输入生成器G的低分辨率样本，G(z)为生成器G中生成的超分辨率重建样本，D(x)、D(G(z))分别表示判别器D判断高分辨率样本、超分辨率重建样本是否为真实样本的概率。E[]表示数学期望，P_data(x)表示高分辨率样本的概率分布，P_z(z)表示低分辨率样本的概率分布。

对于以上公式可以分为两部分看，对于生成网络G，希望自己生成的伪造样本(即超分辨率重建样本)更加接近真实，因此希望D(G(z))尽可能的大；对于判别网络D，希望提高自己的分辨能力，因此D(x)应该越大，D(G(z))应该越小。

现有的SRGAN网络存在模型难以训练和分布重叠的问题，经研究发现，这些问题源于在传统SRGAN网络中采用KL散度和JS散度作为衡量真实样本分布与生成样本分布间的距离的标准。本发明经过研究，采用EM散度来解决以上问题。EM散度是一种对称的散度，其定义为：

设Ω∈Rⁿ是一个有界连续开集，S是Ω中所有Radon概率分布的集合，如果对某个p≠1,k＞0，则EM散度的计算公式如下：

其中，P_r和P_g表示两个不同概率分布，P_u表示一个随机概率分布，inf表示最下界，x表示服从P_r分布的样本，表示服从P_g分布的样本，表示样本x和的一个随机线性组合，P_u表示样本的概率分布，k和p分别表示一个常数，是Ω上所有具有紧支持性质的一阶可微函数的函数空间，|| ||表示求取范数。

EM散度的优势在于对两个不同的分布，即使它们之间没有重叠部分，仍然能够反映两个分布间的距离。这意味着在训练中能够时刻提供有意义的梯度，让整个SRGAN网络能够稳定的训练，可以有效解决原始SRGAN网络训练过程中可能出现的由于梯度消失导致的模式崩溃等问题。在本发明中，基于EM散度对模型训练中目标函数进行了改进。

SRGAN网络的原始目标函数公式：

这个函数并不能直接作为目标函数使用，需要通过权重裁剪附加K-Lipschitz约束才行。本发明将EM散度引入，可以得到下式所示的目标函数L_EM：

这个目标函数可以直接作为优化函数，这个目标函数与EM散度的计算公式相比，除了没有下确界，其它的都相同。最小化L_EM就可以估算出两个分布间的EM散度因为L_EM越小，对的估计就越好。

同时利用一个由判别器D产生的以及一个由生成器G产生的超分辨率重建图像的概率分布P_g，基于EM散度改进后的SRGAN网络的最大最小问题的优化目标函数：

其中，x表示真实高分辨率样本，z表示输入生成器G的低分辨率样本，G(z)为生成器G中生成的超分辨率重建样本，P_g表示超分辨重建样本的概率分布，P_r表示真实高分辨率样本的概率分布，D(x)、D(G(z))分别表示判别器D判断高分辨率样本、超分辨率重建样本是否为真实样本的概率，E[]表示数学期望，表示真实高分辨率样本x和超分辨率重建样本G(z)的一个随机线性组合，P_u表示样本的概率分布，k和p分别表示一个常数。

在训练过程中，将上述优化目标函数分解为两个优化问题：

1、对分辨器D的优化：

2、对生成器G的优化：

基于以上技术推导，本发明提出了基于SRGAN模型的超分辨率人脸图像重建方法，通过对SRGAN模型的训练方法进行改进，得到更优势的SRGAN模型，从而提高超分辨率人脸图像重建结果的质量。图3是本发明基于SRGAN模型的超分辨率人脸图像重建方法的具体实施方式流程图。如图3所示，本发明基于SRGAN模型的超分辨率人脸图像重建方法的具体步骤包括：

S301：构建SRGAN网络：

本发明中，使用SRGAN网络作为超分辨率图像重建模型。由于改进后的优化目标函数中没有log项，因此可以对传统的SRGAN网络进行一些修改，即在判别器D的最后一层抛弃了sigmoid函数。

S102：获取训练样本集：

获取若干高分辨率人脸图像I^HR，经过下采样得到对应的低分辨率人脸图像I^LR，构成训练样本集。

本实施例中，采用高斯金字塔进行下采样，首先将原图像作为最底层图像G0(高斯金字塔的第0层)，利用高斯核(5*5)对其进行卷积，然后对卷积后的图像进行下采样(去除偶数行和列)得到上一层图像G1，迭代进行完成4倍下采样。

S103：SRGAN网络训练：

采用步骤S2得到的训练样本集对SRGAN网络进行训练，训练过程中生成器G的优化目标函数为：

判别器D的优化目标函数为：

其中，x表示真实的高分辨率人脸图像，z表示输入生成器G的低分辨率人脸图像，G(z)为生成器G中生成的超分辨率重建人脸图像，P_g表示超分辨重建人脸图像的概率分布，P_r表示真实的高分辨率人脸图像的概率分布，D(x)、D(G(z))分别表示判别器D判断高分辨率人脸图像、超分辨率重建人脸图像是否为真实人脸图像的概率，E[]表示数学期望，表示真实高分辨率人脸图像x和超分辨率重建人脸图像G(z)的一个随机线性组合，P_u表示样本的概率分布，k和p分别表示一个常数；。

在SRGAN网络的训练过程中，先由生成器G进行对每个训练样本X中的低分辨率人脸图像I^LR进行超分辨率重建，具体方法为：由生成器G对训练样本X中的低分辨率人脸图像I^LR进行上采样，得到超分辨率重建人脸图像I^SR。由于本实施例中是对高分辨率人脸图像I^HR进行4倍下采样得到低分辨率人脸图像I^SR，因此在生成超分辨率重建人脸图像I^SR的上采样倍数也为4。

然后将低分辨率人脸图像I^LR对应的高分辨率人脸图像I^HR和由生成器G生成的超分辨率重建人脸图像I^SR输入判别器D，计算训练样本X的损失函数Loss_SR：

其中，表示训练样本的内容损失函数，表示对抗损失。

本实施例中，损失函数的计算公式如下：

其中，表示基于均方差误差的内容损失函数，其计算公式如下：

其中，W表示高分辨率人脸图像I^HR的宽，H表示高分辨率人脸图像I^HR的高，r表示下采样因子，表示高分辨率人脸图像I^HR中坐标为(x,y)的像素点的像素值，表示超分辨率重建人脸图像I^SR中坐标为(x,y)的像素点的像素值。

由于基于均方差误差的损失函数着重点在于峰值信噪比(MSE)，但是MSE捕捉感知相关差异的能力非常有限，最终得到的结果虽然包含有很高的信噪比，最终产生的图像会存在高频细节缺失，导致生成图像过于平滑。为了解决这个问题，本发明在内容损失中添加了另一种内容损失函数，即将超分辨率重建人脸图像I^SR与真实的高分辨率人脸图像I^HR之间的欧氏距离定义为VGG损失

其中，i表示判别器D中VGG-19网络中最大池化层序号，j表示与第i层最大池化层和第i+1层最大池化层之间的卷积层序号，在现有VGG-19网络中，最大池化层数量为5，两个相邻最大池化层之间的卷积层数量为2或4。φ_i,j表示判别器D中VGG-19网络的第i层最大池化层之后的第j个卷积层获取的特征图，W_i,j表示特征图φ_i,j的宽，H_i,j表示特征图φ_i,j的高。

表示对抗损失，这一部分损失函数使SRGAN网络通过“欺骗”判别器从而偏向生成输出更接近自然图像的输出，其计算公式如下：

其中，D(G(I^LR))表示判别器D将生成器生成的超分辨率重建人脸图像(即I^SR)当作真实高分辨率人脸图像的概率，下标θ_D、θ_G分别表示判别器D和生成器G的网络参数，n表示网络参数的维度序号，n＝1,2,…,N，N表示网络参数的维度。

由于本发明中优化目标函数没有log项，因此可以优选Adam优化算法实现生成器G和判别器的目标函数优化，从而提高训练效率。就生成器G而言，利用Adam优化算法降序更新生成器G的权重w_G：

其中，表示权重w_G的下降的梯度，z_m表示超分辨率重建人脸图像I^SR中第m个像素的值，m＝1,2,…,M，M表示像素数量，D(G(z_m))表示判别器D判断超分辨率重建人脸图像I^SR中第m个像素为高分辨率人脸图像I^HR中像素的概率，α表示学习率，β₁表示一阶矩估计的指数衰减率，β₂表示二阶矩估计的指数衰减率。Adam优化算法三个参数的典型取值为α＝0.00001、β₁＝0.9和β₂＝0.999。

利用Adam优化算法降序更新判别器D的权重w_D：

其中，表示权重w_D下降的梯度，x_m表示高分辨率人脸图像I^HR第m个像素的值，D(x_m)表示判别器D判断高分辨率人脸图像I^HR第m个像素为高分辨率人脸图像I^HR中像素的概率，表示下降的梯度，μ_m＝m/M，表示判别器D判断为高分辨率人脸图像I^HR中中像素的概率。

在本实施例中，优选交替更新生成器G的权重w_G和判别器D的权重w_G，即首先固定生成器G的参数，更新判别器D的参数，然后固定判别器D的参数，更新生成器G的参数，如此交替进行。

S104：超分辨率人脸图像重建：

将需要进行重建的低分辨率人脸图像输入步骤S103训练好的SRGAN网络中的生成器G中，输出对应的超分辨率人脸图像的重建图像。

为了更好地说明本发明的技术效果，采用具体实例对本发明进行实验验证。本次实验验证中采用FDDB数据集作为训练集，FDDB作为使用最广泛的人脸数据集之一，共含有2845张图片，5171张标定人脸，数据强调日常生活场景，来源于新闻图片，包含不同的分辨率、姿势以及旋转和遮挡等场景下的图片，是最权威的人脸数据集之一。在对SRGAN模型训练时设置初始学习率为10^-4，在经过100,000次迭代之后，降低为10^-5，训练过程中使用的Adam算法，设置的参数值为{α＝0.001,β1＝0.5,β2＝0.9}，同时注意到在更新判别器D中的参数时，有两个重要的超参数k和p，本次实验验证中取值k＝2,p＝6。

在检测阶段，本次实验验证中选择Bicubic算法作为对比方法。从Wider Face、SET14以及BSD100中随机选取了10张人脸图片作为测试样本，首先对测试样本进行下采样得到低分辨率人脸图像，然后将低分辨率人脸图像采用本发明和两种对比方法进行超分辨率人脸图像重建，将重建结果进行对比。本次实验验证中使用结构相似性(StructuralSimilarity，SSIM)和峰值信噪比(Peak Signal to NoiseRatio，PNSR)作为重建图像的评估指标。表1是本次实验验证中超分辨率人脸图像重建结果的评估指标对比表。

	PSNR	SSIM
			Bicubic	26.06	0.696
本发明	26.76	0.744

表1

从表1中可以看到，本发明相较于Bicubic算法取得了更优秀的结果，说明本发明的超分辨率人脸图像重建图像结果比Bicubic算法的更加优秀。

图4是本发明和Bicubic算法的超分辨率人脸图像重建图像结果示例图。图5是图4中各幅图像中下巴区域的放大展示图。图6是图4中各幅图像中右眼区域的放大展示图。如图4-图6中HR图像为原始的高分辨率图像，LR图像为经下采样得到的低分辨率图像。如图4-图6所示，Bicubic算法得到的超分辨率重建人脸图像在不保持原有大小的情况下，视觉效果只是稍好于LR图像，明显缺失细节信息，边缘处理模糊，纹理缺失；而本发明可以得到效果不错的超分辨率图像，直观上比LR图片要清晰的多，十分接近真实的视觉效果，在细节上也更加丰富，相较于真实样本的HR图像，给人的感受是成像方式上有一些的区别，在分辨率上并无太大差距。可见，本发明可以得到较好的超分辨率人脸图像重建图像。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于SRGAN网络的超分辨率人脸图像重建方法，其特征在于包括：

S1：构建SRGAN网络；

判别器D的优化目标函数为：

2.根据权利要求1所述的超分辨率人脸图像重建方法，其特征在于，所述步骤S3中，每个训练样本X的损失函数Loss_SR根据以下公式计算：

其中，表示训练样本的内容损失函数，表示对抗损失。

3.根据权利要求1所述的超分辨率人脸图像重建方法，其特征在于，所述步骤S3中，采用Adam优化算法实现生成器G和判别器的目标函数优化，具体方法为：

利用Adam优化算法，降序更新生成器G的权重w_G：

其中，表示权重w_G的下降的梯度，z_m表示超分辨率重建人脸图像I^SR中第m个像素的值，m＝1,2,…,M，M表示像素数量，D(G(z_m))表示判别器D判断超分辨率重建人脸图像I^SR中第m个像素为高分辨率人脸图像I^HR中像素的概率。α表示学习率，β₁表示一阶矩估计的指数衰减率，β₂表示二阶矩估计的指数衰减率；

利用Adam优化算法降序更新判别器D的权重w_D：

4.根据权利要求1所述的超分辨率人脸图像重建方法，其特征在于，所述步骤S3中交替更新生成器G的权重w_G和判别器D的权重w_D。