CN113112416B

CN113112416B - 一种语义引导的人脸图像修复方法

Info

Publication number: CN113112416B
Application number: CN202110308440.3A
Authority: CN
Inventors: 张繁; 叶凯威
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2024-05-03
Anticipated expiration: 2041-03-23
Also published as: CN113112416A

Abstract

本发明公开了一种语义引导的人脸图像修复方法，该方法使用来自CelebA人脸数据集，整理分割成训练集和测试集；并对人脸图像数据集进行预处理，根据人眼位置定位之后，调整图像到大小，并在中心区域添加掩码，读取对应图片的标签，用于之后的训练和测试；将经过预处理的图像以及选取的人脸属性标签输入到修复模型之中，经过对抗的训练，提升修复的质量，用测试集及指标来进行评价修复能力。本发明方法可在保证修复效果的同时，控制图像其余属性不变，通过更改属性标签生成带有特定属性的修复结果；通过一个多维度的空洞卷积以及引入注意力机制，增加图像的感受野以增强图像的修复能力，且通过多种损失函数，使修复结果更加真实自然。

Description

一种语义引导的人脸图像修复方法

技术领域

本发明属于图像修补和深度学习技术领域，涉及一种语义引导的人脸图像修复方法，尤其是一种基于对抗生成网络的语义引导的人脸图像修复方法。

背景技术

图像修复技术一直是图像处理中的一个重要问题，属于模式识别，机器学习，计算机视觉中的一个交叉问题。图像往往含有大量的信息，而图像的缺失就意味着信息的缺失。图像修复指的是对于缺失的图像进行修复。在图像修复领域，人脸图像由于具有大量的语义信息以及纹理信息，在图像修复的领域里面更是一个难点。目前为止，研究人员提出了大量的图像修复的方法，已经广泛的应用于影视，刑侦，老照片修复等领域。

在早期的图像修复算法中，可以通过直接对缺失区域内的边缘像素进行拉伸，更加精细的方法则需要计算小区块(patch)的相似度，扩散式的逐步填充。但是这种方法无法获得图像的高层结构和语义信息，也无法产生新的图像内容。随着深度学习的发展，基于CNN的深度网络被证明其有能力在高层上捕获图像的抽象信息。2014年Ian Goodfellow等人提出了GAN(Generative Adversarial Network生成对抗网络)用于生成图像。MehdiMirza等人提出的CGAN，在训练集中加入监督信息，能够带有指定条件的图像。2017年Augustus Odena等人提出了ACGAN(Conditional Image Synthesis with AuxiliaryClassifier GANs)通过引入分类器，使得CGAN的图像生成能力得到提升。2018年KamyarNazeri等人提出了EdgeConnect，这是一种两阶段修复模型，通过第一阶段的边缘图的修复，第二阶段通过边缘图的指导生成缺失的区域。EdgeConnect取得了非常逼真的效果，在大规模的数据集上依旧取得了很好的效果，但是由于二阶段的修复过程依赖第一阶段的边缘图且需要训练的时间很长。

基于深度学习的图像修复算法目前在修复普通的图像，例如建筑、天空等有不错的效果，但是对于人脸这种带有大量的语义信息的图像还是难以取得令人满意的效果。

发明内容

本发明的目的在于针对现有技术的不足，提出了一种语义引导的人脸图像修复方法，该方法可以提高人脸图像的修复质量，同时可以通过语义引导来控制生成人脸图人脸属性，可利用数据自带的人脸属性生成指定的修复图像。

一种语义引导的人脸图像修复方法，采用生成对抗网络构建修复模型，包括生成器、判别器和分类器，使用CelebA人脸数据集数据分割为训练集和测试集，对其进行如下预处理：根据人眼位置定位之后，调整图像大小，并在中心区域添加掩码，读取人脸属性标签；通过预处理后的训练集和选取的人脸属性标签训练所述修复模型，将经过预处理的测试集输入到训练好的修复模型之中，对修复能力进行评价，且可根据标签，在保证其余属性不变的情况下，修复生成带有特定属性的图像。

所述的生成器输入的图像为带有缺失的图像，输出为修补后的图像，生成器采用编码-解码结构，在编码器阶段，采用多尺度融合空洞卷积模块以神经网络下采样的方式提取缺失图像的特征，所述判别器同时输出Real/Fake信息以及分类信息，所述分类器则完全输出分类信息。

在所述生成器中引入注意力机制加强前景区域和背景区域的关联。

在生成器中，输入信息经过三层卷积后输入通过八个多尺度融合的空洞卷积模块之后再经过三个卷积块生成修复后的图像；单个多尺度融合的空洞卷积模块具体为：

维度为(192,64,64)的输入特征首先经过一个卷积核为3×3、步长为1的卷积层后分别同时输入到三个空洞卷积块中，三个空洞卷积块的卷积核大小为3×3、扩张率分别为1,2,4，结果分别为dc1，dc2，dc3；dc1和dc2经过逐元素的相加后得到dc4，dc4和dc3进行逐元素的相加得到dc5，最后将dc1，dc4，dc5进行特征拼接得到dc6，送入注意力模块层，注意力模块层由通道注意力层以及空间注意力层组成；通道注意力层由一个空间的全局平均池化和最大池化得到两个(1,1,192)的通道特征，然后将它们分别送入一个两层的神经网络，将得到的两个特征相加后经过Sigmoid激活函数得到权重系数Mc后，和dc5相乘即可得到缩放后的新特征dc7，空间的注意力层由一个通道维度的平均池化和最大池化组成，将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS，和dc7相乘后经过一个3×3的卷积层后输出；整个多尺度融合模块在计算过后的输入特征和输出特征保持一致。

损失函数由六部分组成：(1)对抗损失用于驱动生成网络G修复出质量更高的图像；(2)L1损失/>用于像素点之间的计算，促进图像修复生成；(3)感知损失/>通过预训练的VGG模型促进修复结果更佳；(4)风格损失/>通过预训练的VGG模型特征的协方差矩阵帮助图像修复；(5)总变分损失/>改善修复结果的棋盘伪影；(6)分类损失/>引导生成带有指定属性的图像。

所述的预处理具体为：

根据数据集中带有的5个面部标定点，对人脸的范围做裁切并且调整图像大小到256×256，使用大小为128×128的掩膜，区域位于图像的中心；对于每一张图片，在数据集中一共40个属性标记，选取眼镜以及男性这两个标签用于展示有效性，在训练模型阶段，同时读取每一张图像的标签信息和图像匹配用于训练。

从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。

本发明的优点在于：

采用本发明方法可以在保证修复效果的同时，还可以通过语义引导修复不同属性的人脸图像；通过多尺度融合的空洞卷积模块提取多尺度信息，增加模型感受野且不增加计算量；此外，本发明方法通过多种损失函数，可以使修复结果更加真实自然。

附图说明

图1是本发明方法中修复模型的总体框架实例示意图；

图2是图1所述模型中多尺度融合的空洞卷积模块的结构示意图；

图3本发明实例的步骤示意图；

图4本发明实例的修复效果展示(有/无标签)；

图5本发明修复效果与其他现有方法对比结果；

图6本发明修补结果属性软差值；

具体实施方式

下面结合附图和具体实例对本发明的语义引导的人脸图像修复方法做进一步的说明。本实例的人脸图像修复方法包括以下步骤：

1)人脸图像采集，本实例中使用到的数据来自CelebA人脸数据集，整理分割成训练集和测试集；

2)人脸图像数据集预处理，对CelebA数据集的图像根据人眼位置定位之后，调整图像到256×256大小，并在中心区域添加掩码，读取对应图片的标签，用于之后的训练和测试；

3)训练修复模型，将经过预处理的图像以及选取的人脸属性标签输入到网络之中，经过对抗的训练，提升修复的质量；

4)测试训练好的修复模型，将经过预处理的图像输入到训练好的修复模型之中。从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。并且根据标签，在保证其余属性不变的情况下，修复生成带有特定属性的图像。

本发明中所使用的数据集来自CelebA人脸数据集，本数据集一共含有10177个名人的202599张图片，其大小为178×218。接下来需要对人脸数据进行划分，我们按照8:2的比例将数据集分为训练集和测试集，其中训练集一共162079张图片，测试集一共40520张图像。测试集用于检测训练好的网络模型以验证其模型的修复效果。

由于数据集中人脸图片的大小为178×218不适用于深度学习训练且包含有大量的背景信息。根据数据集中带有的5个面部标定点，对人脸的范围做裁切并且调整图像大小到256×256，在本发明中，使用的掩膜大小为128×128，区域位于图像的中心。表达式如下：

y＝(1-M)(·)x

其中，y为生成的缺失图像，M为掩膜，掩膜大小为128×128和位于图像的中间，仅有0和1两个数值，在本发明中1代表缺失，0表示完好。(·)为点积，x代表原图像。

对于每一张图片，在数据集中一共40个属性标记，例如黑发，金发，眼镜，男性等。在本发明中，为了表明本发明对于属性的控制效果，在本发明选取眼镜以及男性这两个标签用于展示有效性。在训练模型阶段，同时读取每一张的图像的标签信息和图像匹配用于训练。

训练修复模型，将经过预处理的图像以及选取的人脸属性标签输入到网络之中，经过对抗的训练，提升修复的质量。

1)生成器结构：

本实例的网络结构是一个Encoder-Decoder(编码-解码)结构，在编码器阶段，模型利用神经网络下采样的方式不断提取出缺失图像的特征，在其中通过利用多尺度融合的空洞卷积模块，使得在不增加计算量的同时，增加网络的感受野，以提升网络的修复能力。同时为了增强图像的前景区域和背景区域的长程关联，引入了一种注意力机制加强了前景区域和背景区域的关联，这同样可以提升网络的整理修复效果。本实例中模型的总体框架如图1所示，生成器输入的图像为带有缺失的图像，输出为修补后的图像，网络输入为256×256的图像以及一个4维度标签信息，经过三层卷积后输出向量维度为(64,64,64)，输入通过8个多尺度融合模块再经过三个卷积块生成修复后的图像。通过输入标签信息可以有效的再保证修复效果的同时，增加面部属性控制的效果。在本发明中，参考了PatchGAN的思想，对于输入的判别图像，分成30×30的块进行判别，对判别的结果取平均。同时在判别器的中使用谱归一化来稳定判别器的训练。在最后的分支中引出判别分支用于预测标签的分类，判别器同时输出Real/Fake信息以及分类信息；同时加入分类器网络，不同于判别器部分的标签分类网络，由于判别器部分仅仅在网络的最后一层引出分类层，会出现分类的能力不足的现象，增加一个并行的分类器来对于图像的分类惩罚，提升条件引导的效果，分类器则完全输出分类信息。

分类器的结构可以如下所示；

表1-1分类器网络结构

每个多尺度融合的空洞卷积的模块如图2所示：

空洞卷积模块由5个卷积块构成，输入特征首先经过一个卷积核为3×3，步长为1的卷积层后分别同时输入到三个空洞卷积块中，三个空洞卷积块的卷积核大小为3×3，扩张率分别为1,2,4。结果分别为dc1，dc2，dc3，dc1和dc2经过逐元素的相加后得到dc4，dc4和dc3进行逐元素的相加得到dc5，最后将dc1，dc4，dc5进行特征拼接送入注意力模块层。每一个卷积块都由卷积层，正则层，激活层组成。特征拼接后的向量为dc6，输入的特征为(192,64,64)；注意力模块层由通道注意力模块以及空间注意力模块组成。通道注意力层由一个空间的全局平均池化和最大池化得到两个(1,1,192)的通道特征，然后将它们分别送入一个两层的神经网络，将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc后，拿权重系数和原来的特征dc5相乘即可得到缩放后的新特征dc7。空间的注意力层由一个通道维度的平均池化和最大池化组成，将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS，和dc7进行相乘后经过一个3×3的卷积层后输出。整个多尺度融合模块在计算过后的输入特征和输出特征保持一致。

在本发明的损失函数由六部分组成：(1)对抗损失用于驱动生成网络G修复出质量更高的图像；(2)L1损失/>像素点之间的计算，促进图像修复生成；(3)感知损失/>通过预训练的VGG模型促进修复结果更佳；(4)风格损失/>通过预训练的VGG模型特征的协方差矩阵帮助图像修复；(5)总变分损失/>改善修复结果的棋盘伪影；(6)分类损失/>引导生成带有指定属性的图像。

1)对抗损失

在本发明采用的PatchGAN的方式构建判别器，对于输出的30x30的矩阵进行判别，每点的代表输入图像一块区域。对抗损失如下式(1-1)所示，其中I_gt代表真实图像，I_comp代表生成图像将缺失区域裁剪下和原图中的未缺失区域进行像素上的叠加而成，即

I_comp＝I_gt⊙(1-M)+I_pred⊙M。

2)L1损失

L1损失通过对生成图像和原始图像进行逐像素的对比，如式(1-2)所示。

3)感知损失

感知损失的出发点是考虑到不同的卷积层能够提取出的特征向量是不同的，利用这一特性可以帮助图像的生成任务。如式(1-3)所示，其中φ_i代表预训练的VGG-19第i层的特征。在本章实验中，分别采用relu1_1，relu2_1，relu13_1，relu4_1，relu5_1作为提取特征的层数。

提取出的特征同时也用于计算风格损失。

4)风格损失

风格损失(Style Loss)如式(1-4)所示，代表感知损失中从VGG-19网络中提取的特征向量的Gram矩阵。其中通过构建了一个Gram矩阵，通过i通道的特征图和j通道的特征图进行内积，用于衡量两个特征图之间的差异度，可以提升图像修复的效果。

5)总变分损失

在使用了感知损失和风格损失时，生成的图像可能会出现棋盘状的伪影，这是由于在VGG-19的网络中，大量的使用了空洞卷积。而同样扩张率的空洞卷积会造成对输入特征的固定位置进行卷积运算，即网格效应。总变分损失(Total Variation loss)可以降低相邻像素值的差异以达到减少棋盘伪影的影响。总变分损失的定义如式(1-5)所示，其中N_I代表I中像素的个数，而代表一阶导数，包含水平和垂直。

6)分类损失

本章分类损失由判别器和分类器一同组成，定义如式(1-6)所示。分类网络输出和判别网络的输出分别与真实标签计算交叉熵得到分类损失。

总体损失：

网络的总体损失的定义如式(1-7)所示。其中λ_L1＝1，λ_adv＝0.1，λ_p＝0.1，λ_s＝250，λ_t＝0.1。

网络模型的判别器部分中的权重初始化采用Spectral Normalization(谱归一化)来权重初始化。该网络通过空洞卷积模块增加网络的感受野，以捕获到更多的特征，同时通过注意力的机制让网络关心真正需要修复的区域，对人脸的特征进行学习增加修复的能力，模型中采用反向传递算法(BP)对网络中的权重进行更新，生成器和判别器依次更新权重，不断的迭代完成训练。

测试训练好的修复模型，将经过预处理的图像输入到训练好的修复模型之中。从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行评价修复能力。并且根据标签，在保证其余属性不变的情况下，修复生成带有特定属性的图像。

方法	MAE	SSIM	PSRN
				Context[1]	0.030703	0.877586	23.879710
Pen[2]	0.024294	0.901866	25.339467
				本方法	0.022851	0.919418	26.263925

上表为本发明方法与其他现有技术对比，可以看出三种客观评价指标都说明了使用了注意力机制以及空洞卷积模块的有效性，修复能力得到了提升。对比实验使用10000张未经训练的测试集图像，计算相应的指标之后取平均值。

[1]Pathak D,Krahenbuhl P,Donahue J,et al.Context encoders:Featurelearning by inpainting[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2016:2536-2544.

[2]Zeng Y,Fu J,Chao H,et al.Learning pyramid-context encoder networkfor high-quality image inpainting[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.2019:1486-1494.

通过以上步骤，图3-6给出了本发明在实际使用中的过程以及产生的效果。图3为本发明的本发明的步骤展示；图4为人脸图像的修补结果，其中第一列为输入的图像，图像中间为缺失部分，第二列为原始图像，第三、四、五列均为采用本发明方法获得的修复结果，其中第三列为无标签的结果，第四以及第五列分别为带有男性标签的结果以及带有眼睛标签的结果；图5为本发明的对比图，第一列为缺失图像，第二列为原始图像，第三列为文章[2]方法的结果，第四列为本发明方法的结果；图6为本发明属性软差值结果图，其中第三列到第九列为眼镜标签从0-1的软插值结果。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种语义引导的人脸图像修复方法，其特征在于，采用生成对抗网络构建修复模型，包括生成器、判别器和分类器，使用CelebA人脸数据集数据分割为训练集和测试集，对其进行如下预处理：根据人眼位置定位之后，调整图像大小，并在中心区域添加掩码，读取人脸属性标签；通过预处理后的训练集和选取的人脸属性标签训练所述修复模型，将经过预处理的测试集输入到训练好的修复模型之中，对修复能力进行评价，且可根据标签，在保证其余属性不变的情况下，修复生成带有特定属性的图像；

维度为（192,64,64）的输入特征首先经过一个卷积核为3×3、步长为1的卷积层后分别同时输入到三个空洞卷积块中，三个空洞卷积块的卷积核大小为3×3、扩张率分别为1,2,4，结果分别为dc1，dc2，dc3；dc1和dc2经过逐元素的相加后得到dc4，dc4和dc3进行逐元素的相加得到dc5，最后将dc1，dc4，dc5进行特征拼接得到dc6，送入注意力模块层，注意力模块层由通道注意力层以及空间注意力层组成；通道注意力层由一个空间的全局平均池化和最大池化得到两个（1,1,192）的通道特征，然后将它们分别送入一个两层的神经网络，将得到的两个特征相加后经过Sigmoid 激活函数得到权重系数 Mc后，和dc5相乘即可得到缩放后的新特征dc7，空间的注意力层由一个通道维度的平均池化和最大池化组成，将两个特征按照通道拼接在一起后经过一个7×7的卷积和Sigmoid激活之后得到权重MS，和dc7相乘后经过一个3×3的卷积层后输出；整个多尺度融合模块在计算过后的输入特征和输出特征保持一致；

损失函数由以下各部分组成：（1）对抗损失，用于驱动生成网络/>修复出质量更高的图像；（2）L1损失/>，用于像素点之间的计算，促进图像修复生成；（3）感知损失/>，通过预训练的VGG模型促进修复结果更佳；（4）风格损失/>，通过预训练的VGG模型特征的协方差矩阵帮助图像修复；（5）总变分损失/>，改善修复结果的棋盘伪影；（6）分类损失/>引导生成带有指定属性的图像。

2.根据权利要求1所述的语义引导的人脸图像修复方法，其特征在于，所述的生成器输入的图像为带有缺失的图像，输出为修补后的图像，生成器采用编码-解码结构，在编码器阶段，采用多尺度融合空洞卷积模块以神经网络下采样的方式提取缺失图像的特征，所述判别器同时输出Real/Fake信息以及分类信息，所述分类器则完全输出分类信息。

3.根据权利要求1所述的语义引导的人脸图像修复方法，其特征在于，在所述生成器中引入注意力机制加强前景区域和背景区域的关联。

4.根据权利要求1所述的语义引导的人脸图像修复方法，其特征在于，所述的预处理具体为：

5.根据权利要求1所述的语义引导的人脸图像修复方法，其特征在于，评价修复能力从主观的视觉感受以及计算原图与修复图像之间的均方误差MSE、峰值信噪比PSNR以及结构相似性SSIM指标来进行。