CN112837234B

CN112837234B - 一种基于多列门控卷积网络的人脸图像修复方法

Info

Publication number: CN112837234B
Application number: CN202110096256.7A
Authority: CN
Inventors: 杨有; 李可森; 杨学森; 刘思汛; 姚露
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-07-22
Anticipated expiration: 2041-01-25
Also published as: CN112837234A

Abstract

本发明公开了一种基于多列门控卷积网络的人脸图像修复方法，获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像；基于感知损失法，利用隐式多元马尔可夫随机场计算出所述生成图像和原始图像之间的特征损失值；将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，由三个并行的编解码器分支组成，每个分支设置不同尺寸的卷积核，分别提取人脸不同层次的语义信息，提高全局语义结构一致性；融入一种门控卷积，提高了不规则缺失区域的修复能力；并使用多尺度神经块匹配方法，增强脸部的细节纹理，提高修复能力。

Description

一种基于多列门控卷积网络的人脸图像修复方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多列门控卷积网络的人脸图像修复方法。

背景技术

图像修复(Image inpainting)，又称图像补全(Image completion)，目的是推测合适的像素信息来修复图像中的缺失区域，其核心问题是保持全局语义结构的一致性，并为缺失区域生成逼真的纹理细节。人脸修复(Face inpainting)作为图像修复的一个分支，用于修复人脸缺失的区域，是一项具有挑战性的任务。传统的图像修复方法主要有两类:一类是基于纹理合成的方法。这类方法仅用到低级像素特征，难以捕获图像的全局结构和语义信息，不能修复像人脸这样复杂的非重复性图像。另一类是基于外部数据库的搜索方法，在大量数据集中搜索背景信息最相似的图片后，将其前景信息提取并融合到缺失区域。如果在数据集中没有很好的匹配项时，这种方法会出现修复错误。

近年来，随着生成对抗网络的快速发展，利用大规模数据集学习图像的高级语义信息，以端到端方式合成噪声图像内容的方法成为主流趋势。这些方法将图像修复视为条件生成问题，即通过编码器-解码器模型计算图像的高级语义信息和低级像素特征，联合对抗网络激励模型生成逼真的信息，可以在人脸这样高度结构化的图像中产生合理的新内容。然而，这些修复方法的局限是仅将图像转换成单一层次的特征空间，忽略了修复涉及不同层次的事实。不仅如此，普通卷积对所有有效、无效和混合(缺失边界)像素使用相同的卷积操作，在修复不规则缺失区域时出现模糊的修复结果，降低修复能力。

发明内容

本发明的目的在于提供一种基于多列门控卷积网络的人脸图像修复方法，提高修复能力。

为实现上述目的，本发明提供了一种基于多列门控卷积网络的人脸图像修复方法，包括以下步骤：

获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像；

基于感知损失法，利用隐式多元马尔可夫随机场计算出所述生成图像和原始图像之间的特征损失值；

将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复。

其中，获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像，包括：

获取待修复图像和掩码，并利用生成器的多个门控卷积分支提取所述待修复图像和所述掩码的多个图像特征和掩码特征，其中，利用所述掩码对获取的人脸图像训练集进行标记得到所述待修复图像；

对所述待修复图像进行下采样，并利用扩张卷积进行处理；

对多个所述图像特征进行上采样，并利用带有门控卷积的解码器进行多次卷积，得到对应的生成图像。

其中，对多个所述图像特征进行上采样，并利用带有门控卷积的解码器进行多次卷积，得到对应的生成图像，包括：

对多个所述图像特征进行上采样，并在空间分量上对得到的原始分辨率进行合并，得到特征矩阵；

利用带有门控卷积的解码器对所述特征矩阵进行多次卷积还原，得到对应的生成图像。

其中，对所述待修复图像进行下采样，并利用扩张卷积进行处理，包括：

对所述待修复图像进行下采样，并在下采样到对应的位置时，将多个所述图像特征和多个所述掩码特征利用扩张卷积进行处理。

其中，将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复，包括：

将所述生成图像中的已知像素和边界像素的置信度赋值为1，并利用高斯滤波器对多个所述掩码特征进行卷积，得到对应的掩码权重；

根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复。

其中，根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复，包括：

对所述掩码权重进行多次迭代，得到对应的重建损失值；

利用铰链损失作为目标函数，利用快速逼近法对所述生成器的输出进行计算，得到对应的对抗损失值；

将正则化参数与所述特征损失值相乘，并与所述重建损失值求和，然后将得到的结果与对抗参数与所述对抗损失值的乘积相加，得到对应的联合损失值。

本发明的一种基于多列门控卷积网络的人脸图像修复方法，获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像；基于感知损失法，利用隐式多元马尔可夫随机场计算出所述生成图像和原始图像之间的特征损失值；将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复。生成器由三个并行的编解码器分支组成，每个分支设置不同尺寸的卷积核，分别提取人脸不同层次的语义信息，提高全局语义结构一致性；融入一种门控卷积，提高了不规则缺失区域的修复能力；同时，使用多尺度神经块匹配方法，在全局而非局部搜索缺失区域的高维特征匹配信息，增强脸部的细节纹理，提高修复能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于多列门控卷积网络的人脸图像修复方法的步骤示意图。

图2是本发明提供的基于多列门控卷积网络的人脸图像修复网络的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1和图2，本发明提供一种基于多列门控卷积网络的人脸图像修复方法，包括以下步骤：

S101、获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像。

具体的，获取一张用于训练的人脸图像和代表缺失区域的掩码(1/0分别表示已知/未知区域)，用掩码将训练图像标记得到待修复图像后，利用生成器的多个门控卷积分支提取所述待修复图像和所述掩码的多个图像特征和掩码特征，其中，生成器由n(n＝3)个并行带有门控卷积的encoder-decoder分支组成。首先，编码端的n个分支拥有不同的感受野和特征分辨率，共同提输入图片X和掩码M不同层次的特征，每个分支记为{ei(·)}(i∈{1,2,...,n})。

对所述待修复图像进行下采样，得到高级特征，并当在下采样到下一层时，将多个所述图像特征和多个所述掩码特征进行分开，然后利用扩张卷积进行处理，增加感受野，以提高修复边缘的连续性。

对所述待修复图像进行下采样，得到高级特征，然后利用扩张卷积进行处理，增加感受野，以提高修复边缘的连续性。

对多个所述图像特征进行上采样，得到原始分辨率，并在空间分量上对得到的原始分辨率特征进行合并，得到特征矩阵F，利用带有门控卷积的解码器d(·)对所述特征矩阵进行多次卷积，将所述特征矩阵还原到图像空间中，得到对应的生成图像

同时输出所述生成图像和对应的原始图像Y之间的误差，最小化该误差，使得{ei(·)}(i∈{1,2,...,n})能够精准的捕获图像各个层次合适的信息。在这样的一个网络结构中，各个分支并不是完全独立的，d(·)使得它们在训练中相互影响和补充，而不是简单地继承。

对于门控卷积来说，它可以从数据中自动学习掩码更新策略，为不同的有效像素分配不同的权重。定义如下：

Gatting＝Conv(W_g,I)

Feature＝Conv(W_f,I)

O＝σ(Gatting)⊙Φ(Feature)

其中，Gatting表示掩码特征；Feature表示图像特征；Conv表示卷积操作；I表示输入信息，它由输入图像和掩码图像在通道上合并产生；W_g和W_f表示两个参数不一样的卷积核；σ为sigmoid函数，产生(0,1)之间的门控值。Φ可以是任何激活函数(例如，ReLU、ELU和LeakyReLU)。⊙表示Hadamard点积。门控卷积学习了一种针对每个通道和每个空间位置的动态特征选择机制。在传播到下一层时，门控操作将图像特征和掩码特征分开，掩码使用sigmoid激活函数输出(0,1)之间的值表示门控权重，越接近1表示该区域的有效像素权重越大，再将门控权重与图像特征相乘。掩码与图像的训练是同步的，所以并不是按照固定的规则更新。

S102、基于感知损失法，利用隐式多元马尔可夫随机场计算出所述生成图像和原始图像之间的特征损失值。

具体的，根据隐式多元马尔可夫随机场，通过VGG19网络将原始图像和所述生成图像转换到对应的高层特征，并从所述高层特征中提取出对应的神经块，计算出对应的相关性值，具体为：为了在全局匹配正确的信息，隐式多元马尔可夫随机场(ImplicitDiversified Markov Random Fields，ID-MRF)通过VGG19网络将生成图像和原始图像转换成高层特征

和

后，分别从

和

中提取神经匹配块v，s，并计算二者相关性：

其中，RS(v,s)表示两个匹配块v和s的相似性；exp(·)表示指数函数；μ(·,·)是余弦相似性，max表示取最大值操作。

表示α属于

中除去s的其它修复块，h和ε是两个正数。如果v与s的相似性比v与

其它神经修复块相似性都大，RS(v,s)会更大。

对所述相关性值进行正则化处理，并在得到的损失值中加入感知损失，得到对应的特征损失值，具体为：

对所述相关性值进行归一化处理，其计算公式为：

RS(v,s)表示RS(v,α)的归一化结果，

表示α是

中除去s的神经修复块。∑表示求和运算。

根据归一化的结果，计算

和

之间的ID-MRF损失：

其中，L_M(F)表示ID-MRF损失；Z是一个标准化因子。对于每一个

表示相对于

中的其它匹配块，

与s更加相似，∑表示求和运算。然后使用VGG19的conv4_2层来描述图像语义结构，conv3_2和conv4_2层用于描述图像纹理。

虽然ID-MRF可以帮助匹配正确信息，但输入是一张不完整的图像，会丢失部分高频信息。为了进一步提高神经匹配块的质量，本文加入感知损失。它是将真实图片卷积得到的特征与生成图片卷积得到的特征作比较，使得高层信息(内容和全局结构)接近，不仅考虑到了特征重构后的相似性，也考虑到了低层特征的相似性。感知损失的计算公式如下：

其中，L_perceptual表示感知损失；ψ_pre(·)和ψ_gt(·)分别表示生成图和原始图通过VGG19得到的特征，conv_t,2表示VGG网络的第t层第2个卷积操作。

融入感知损失进行改进后的ID-MRF损失值计算公式为：

L_mrf表示改进后的ID-MRF损失；L_M(conv_4,2)表示生成图和原图用VGG19网络得到conv_4,2层特征后计算的ID-MRF损失；L_M(conv_t,2)表示生成图和原图用VGG19网络得到后conv_t,2层特征计算的ID-MRF损失；∑表示求和运算。

S103、将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复。

具体的，将所述生成图像中的已知像素和边界像素的置信度赋值为1，并利用高斯滤波器对多个所述掩码特征进行卷积，得到对应的掩码权重，包括：

使用的置信驱动的重建损失，使靠近填充边界的未知像素比远离填充边界的未知像素受到更强的约束。具体做法是将已知像素的置信度设为1，将与修复边界相关的边界像素置信度设为1。为了将已知像素的置信度传递给未知像素，使用高斯滤波器g对多个所述掩码特征

进行卷积来创建一个权重掩码M_w：

其中，

表示第i轮迭代得到的权重矩阵，其中

高斯滤波器g的大小为64×64，标准差为40。

表示第i轮所使用的掩码，其迭代公式为

⊙表示对应位置相乘(Hadamard product operator)。将上式重复数次得到最终的M_w。

根据权重矩阵M_w，计算对应的重建损失值：

L_r＝||(Y-G([X,M]；θ))⊙M_w||₁

其中，L_r表示重建损失；Y表示原始图；X表示输入图像，M表示输入掩码G([X,M]；θ)为生成模型G的输出，θ为可学习的参数；⊙表示Hadamard点积；M_w为权重矩阵；||·||₁表示L1范式。

判别器采用SN-GANs中描述的默认快速逼近算法，并使用铰链损失作为目标函数来进一步稳定训练。对生成器来说，对抗损失被定义为：

其中，L_adv表示判别损失；E表示数学期望；P_d _a _t _a(X)表示输入图像X对应的概率分布，X～P_d _a _t _a(X)表示输入图像X服从的概率分布，P_Z(Z)表示噪声图像Z的概率分布，Y_Z～P_Z(Z)表示噪声图Z用模型拟合Y之后所服从的概率分布；ReLU表示激活函数；D^sn表示光普归一化判别器，G是生成网络。

联合损失在使用置信驱动的重建损失值、特征损失值和对抗性损失值的情况下，网络模型联合损失定义为：

L＝L_r+λ_mrfL_mrf+λ_advL_adv

其中，L表示联合损失；L_r、L_mrf和L_adv分别表示重建损失，ID-MRF损失和判别损失；λ_mrf和λ_adv分别是正则化参数和对抗参数，用来平衡局部结构正则化和对抗性训练之间的影响。

本发明的有益效果为：

提出一种新的多列卷积网络。该网络由三个并列的编码器-解码器(包括生成器、判别器和VGG19网络)组成，分别提取图像不同层次的信息，保证全局和局部语义结构的一致性。同时，为每个分支融入门控卷积和扩张卷积，更好的修复任意缺失形状的区域，使得修复边缘连续性效果更好。

提出一种改进的多尺度特征匹配方法。用深度分类网络将生成图像和原始图像转换到高维特征后，计算二者之间的纹理和结构差异作为损失项，而非在生成器端跟随训练，防止训练不稳定导致视觉伪影。同时加入多层感知损失作为约束，提高图像的修复质量。该方法在全局而非局部搜索匹配项，保证匹配信息的正确性。

我们提出的MGCN(Multi-column Gated Convolutional Network)中融入SN-PatchGAN判别器。该判别器的输出映射中，每个神经元的接收域可以覆盖整个输入图像，不需要额外的局部判别器，更适合不规则缺失区域的图像修复。

为了验证本文方法的有效性，此次实验在公开的高清人脸数据集CelebA-HQ上测试本文提出的模型，该数据集包含3万张名人人脸照片。分别使用规则掩码和不规则掩码进行定性定量分析。

实验设置

实验是在Tensorflow框架上实现，硬件采用英特尔CPU E5(2.60GHz)和GTX1080tiGPU。CelebA-HQ数据集尺寸为256*256，并将其划分为28K张训练集，1K张验证集，1K张测试集。分别采用规则掩码和不规则掩码训练和评估。在训练时，先使用重建损失预训练网络，拟合后设置λ_mrf＝0.05、λ_adv＝0.001微调网络，模型优化器为Adam optimizer，学习率设置为0.0001。选择三种评价指标用于测量不同方法的性能：1)峰值信噪比(PSNR)，直接测量误差的可见度，并给出一个平均值；2)结构相似性(SSIM)，它度量图像与参考图像之间的结构相似性；3)l₂损失，反映了模型重建原始图像的能力。分别在规则掩码和不规则掩码上进行评估，

对比算法的文献来源描述如下：

CA(2018)：Yu J.,Lin Z.,Yang J.,et al.‘Generative Image Inpainting withContextual Attention’.IEEE Conference on Computer Vision and PatternRecognition；Salt Lake City,UT,2018,pp.5505-5514.

GMCNN(2018)：WangYi,Tao Xin,Qi Xiaojuan,et al.‘Image inpainting viagenerative multi-column convolutional neural networks’.InternationalConference on Neural Information Processing Systems；Curran Associates Inc.,Red Hook,NY,USA,2018,pp.329–338.

GC(2019)：Yu J.,Lin Z.,Yang J.,et al.‘Free-form image inpainting withgated convolution’.IEEE International Conference on ComputerVision；LongBeach,CA,USA,2019,pp.4471–4480.

PIC(2019)：Zheng C.,Cham T.,Cai J.‘Pluralistic Image Completion’.IEEEConference on Computer Vision and Pattern Recognition；Long Beach,CA,USA,2019,pp.1438-1447.

RN(2020)：Yu,T.,Guo,Z.,Jin,X.,et al.‘Region Normalization for ImageInpainting’.AAAI Conference on Artificial Intelligence.34,(07),2020,pp.12733-12740.

RFR(2020)：Li J.,Wang N.,Zhang L.,Du B.,et al.‘Recurrent FeatureReasoning for Image Inpainting’.IEEE Conference on ComputerVision and PatternRecognition,Seattle,WA,USA,2020,pp.7757-7765.

客观质量评估

表1本文提出的方法与其它方法在CelebA-HQ数据集上的对比，测试使用的是规则掩码。

Method	l<sub>2</sub>↓	PSNR↑	SSIM↑
				CA	8.4％	23.988	0.855
GMCNN	7.8％	25.904	0.888
				GC	8.0％	25.772	0.884
PlC	8.5％	24.303	0.860
				RN	7.5％	25.110	0.853
RFR	8.0％	23.379	0.847
				Ours	7.3％	27.164	0.902

表1为我们的MGCN方法与CA，GMCNN，GC，PIC，RN和RFR在规则掩码(128*128)上的性能对比，其中，↓表示越小评估越好，↑表示越大评估越好。RN并未给出人脸数据集的预训练模型，根据作者发布的代码在CelebA-HQ数据集上重新训练后对其评估的，该方法侧重于区域归一化，选取的网络模型比较简单，所以在修复人脸这种复杂的图像时难以产生理想的效果。PIC会产生多个结果，测试时选取其中最接近Ground Truth的一张。RFR通过循环推断的方法逐步修复图像，从性能评价可以看出，该方法在修复大面积缺失的人脸图像时难以保证修复效果。在规则掩码的测试上，与依赖生成模型，结构信息和侧重于人脸的修复方法相比，本文方法在l₂，PSNR和SSIM评价指标上都优于目前最先进的方法。

表2为本文提出的方法与其它方法在CelebA-HQ数据集上的对比，测试使用的是不规则掩码，每行表示掩码面积。

表2是本文方法MGCN在不规则掩码数据集上与CA，GMCNN，GC，PIC和RN的测试结果，其中Mask表示不规则掩码遮挡的面积，选取10％-50％的遮挡区域进行测试。测试结果表明，在l₂，PSNR和SSIM评价指标上，GC方法最优，MGCN次优，而且，MGCN与GC方法性能接近。

主观质量评估

根据观察规则掩码和不规则掩码的测试效果，可以看到CA方法会产生严重的视觉伪影，无法满足人脸修复效果。GC方法在CA的基础上加入了门控卷积和SN-Patch后修复效果大有提升，但是依然会产生颜色上的差异。PIC方法借助其注意力机制的优势可以产生高质量的图片，但其多样性破坏了人脸结构的对称性，可以看到左右眼明显不对称。RN方法以其简单的网络结构产生优异的结果，整体脸部结构非常完整，但是与RFR相似，在细节纹理上有所欠缺。

消融实验

(1)感知损失对修复性能的影响

为了验证加入感知损失正则化对ID-MRF的影响，本文在CelebA-HQ上对本文的MGCN方法进行了对比实验，依然是28K训练集，1K验证集和1K测试集。为了更好的显示对比，使用规则掩码训练和测试，同时保证其它条件都相同。实验结果如表3所示，可以看到加入感知损失后，修复效果明显提高。

表3CelebA-HQ数据集规则掩码质量评估，N-PR/Y-PR表示我们的方法没有/加入感知损失正则化。

Model	ID-MRF/N-PR	ID-MRF/Y-PR
			l<sub>2</sub>↓	7.8％	7.1％
PSNR↑	26.038	27.164
			SSIM↑	0.889	0.902

(2)门控卷积对修复效果的影响

普通卷积在修复不规则缺失区域时难以达到理想效果，为了验证多列网络结构融入门控卷积后修复不规则缺失区域的优越性，在CelebA-HQ数据集上采用不规则掩码对本文的多列卷积网络重新测试。实验结果如表4所示，Mask同样表示不规则掩码遮挡的面积，选取10％-50％的遮挡区域进行测试。本文方法加入门控卷积后比不加入普通卷积效果更优。

表4CelebA-HQ数据集不规则掩码质量评估，×/√表示我们的方法使用普通卷积/门控卷积。

本发明的一种基于多列门控卷积网络的人脸图像修复方法，获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像；基于感知损失法，利用隐式多元马尔可夫随机场计算出所述生成图像和原始图像之间的特征损失值；将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复，由三个并行的编解码器分支组成，每个分支设置不同尺寸的卷积核，分别提取人脸不同层次的语义信息，提高全局语义结构一致性；融入一种门控卷积，提高了不规则缺失区域的修复能力；同时，使用多尺度神经块匹配方法，在全局而非局部搜索缺失区域的高维特征匹配信息，增强脸部的细节纹理，提高修复能力。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于多列门控卷积网络的人脸图像修复方法，其特征在于，包括以下步骤：

将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复；

获取待修复人脸图像和掩码，并将所述待修复人脸图像输入带有门控卷积的生成器中进行修复，得到生成图像，包括：

对所述待修复图像进行下采样，并利用扩张卷积进行处理；

对多个所述图像特征进行上采样，并利用带有门控卷积的解码器进行多次卷积，得到对应的生成图像；

对多个所述图像特征进行上采样，并利用带有门控卷积的解码器进行多次卷积，得到对应的生成图像，包括：

利用带有门控卷积的解码器对所述特征矩阵进行多次卷积还原，得到对应的生成图像；

对所述待修复图像进行下采样，并利用扩张卷积进行处理，包括：

2.如权利要求1所述的基于多列门控卷积网络的人脸图像修复方法，其特征在于，将所述生成图像中的像素的置信度进行赋值，并根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复，包括：

3.如权利要求2所述的基于多列门控卷积网络的人脸图像修复方法，其特征在于，根据所述特征损失值和计算得到的两种损失值，得到联合损失值，完成修复，包括：

对所述掩码权重进行多次迭代，得到对应的重建损失值；