CN109685724B

CN109685724B - 一种基于深度学习的对称感知人脸图像补全方法

Info

Publication number: CN109685724B
Application number: CN201811344788.2A
Authority: CN
Inventors: 张加万; 詹睿; 孙迪; 潘刚
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2020-04-03
Anticipated expiration: 2038-11-13
Also published as: CN109685724A

Abstract

本发明涉及一种基于深度学习的对称感知人脸图像补全方法，包括下列步骤：(1)选取数据；(2)构建网络模型：采用生成对抗网络来构建补全网络模型，该网络模型包含一个生成器和三个判别器，生成器采用“U‑Net”网络结构，它的输入是一张带有缺失区域的RGB图像，输出是补全后的RGB结果图，生成器致力于为输入图像的缺失区域构建出真实自然的语义内容；三个判别器分别为全局判别器，局部判别器以及对称判别器，这三个判别器通过判别其输入内容的真假，以此来对生成器进行优化；(3)训练网络模型；(4)对人脸图像中的对称性元素的补全进行优化。

Description

一种基于深度学习的对称感知人脸图像补全方法

技术领域

本发明涉及计算机视觉中的图像补全(图像修复)技术。尤其是针对人脸图像的修复算法。

背景技术

人脸补全，也称为人脸修复，是计算机视觉和图像处理领域的一个重要话题。它的主要任务是填充人脸图像中的缺失像素或者删除不需要的部分。它通常与人脸识别和面部编辑结合使用。

人脸补全的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素，并使得这些像素与人脸图像中的已有内容相一致。由于，人脸图像的面部组成元素语义上彼此相关而不是独立存在的。这使得人脸补全任务比一般图像补全要困难得多。

早期的人脸补全技术[1][2][3]主要是基于纹理合成和块匹配方法。基于纹理合成的方法[4][5]在具有小缺失或网状遮挡的图像上工作良好，但它们不适合大面积遮挡的情况。而基于块匹配的方法[6]通常需要借助额外的参考图像或数据库来完成补全，这使得当在参考图像或数据库中找不到类似的语义块时不能获得很好的补全效果。最近，深度学习取得了很大进展，特别是生成对抗网络(GANs)。与此同时，基于深度学习的图像补全方法[7][8]也取得了显着的成果。这些补全方法不仅适用于具有小面积缺失的图像，而且还适用于包含独立语义成分的大面积缺失的图像。虽然，基于深度学习的补全方法在一定程度上解决了传统方法所不能解决的问题。但是，这些方法大多数都致力于寻找一个对多类图像(人脸图像、自然风景图像、动物图像等)都能取得很好的补全效果的模型。因此，导致这些方法都只注重所有图像的共性，而忽略了每类图像所特有的特征。虽然这些方法能够对多类图像都取得不错的补全效果，但是不能实现对每类图像更为精准的补全。

参考文献：

[1]史加荣,焦李成,尚凡华.张量补全算法及其在人脸识别中的应用[J].模式识别与人工智能,2011,24(2):000255-261.

[2]张怡,张加万,专利名称：一种综合结构信息的图像补全方法,申请号：CN101847255

[3]Zhuang,Y.t.,Wang,Y.s.,Shih,T.K.,Tang,N.C.:Patch-guided facialimage inpainting by shapepropagation.Journal ofZhejiang University-SCIENCEA10(2009)232-238.

[4]林云莉,赵俊红,朱学峰,等.改进的纹理合成图像修复算法[J].计算机应用与软件,2010,27(10):11-12.

[5]莉彭,李树涛,专利名称：基于小波变换的纹理合成图像修复方法，申请号：CN101635047A[P].

[6]何凯,牛俊慧,沈成南,等.基于SSIM的自适应样本块图像修复算法[J].天津大学学报(自然科学与工程技术版),2018(7).

[7]Yu,J.,Lin,Z.,Yang,J.,Shen,X.,Lu,X.,Huang,T.S.:Generative imageinpainting with contextual attention.arXivpreprint(2018).

[8]Iizuka,S.,Simo-Serra,E.,Ishikawa,H.:Globally and locallyconsistent image completion.ACM Transactions on Graphics(TOG)36(2017)107.

发明内容

本发明提出一种基于深度学习的对称性感知的人脸补全方法，能够根据输入的缺失图像，生成视觉逼真语义合理的补全图像。该方法不仅对小面积缺失的人脸图像具有很好的补全效果，还能对大面积的包含对称性元素的缺失具有很好的补全效果。技术方案如下：

一种基于深度学习的对称感知人脸图像补全方法，包括下列步骤：

(1)选取数据

选取合适的人脸图像数据集，将其划分成训练集和测试集，其中训练集用于训练网络模型，测试集用于测试网络模型的好坏；

(2)构建网络模型

采用生成对抗网络来构建补全网络模型，该网络模型包含一个生成器和三个判别器，生成器采用“U-Net”网络结构，它的输入是一张带有缺失区域的RGB图像，输出是补全后的RGB结果图，生成器致力于为输入图像的缺失区域构建出真实自然的语义内容；三个判别器分别为全局判别器，局部判别器以及对称判别器，这三个判别器通过判别其输入内容的真假，以此来对生成器进行优化，其中全局判别器旨在判别整张图像的真实性，其输入为整张补全结果图和真值图像，通过全局判别器的优化，使得生成器生成的补全内容与周围像素点具有较好的一致性；局部判别器旨在判别缺失区域内容的真实性，其输入是补全图像和真值图像缺失区域内的内容，通过局部判别器的优化，使得生成器生成的补全内容模糊现象减少；对称判别器将人脸图像的对称性转换成约束来进一步优化生成器，在利用对称判别器进行优化之前，需要检测补全结果以及真值图像缺失区域内的对称元素，然后将其作为对称判别器的输入；

(3)训练网络模型

采用重建损失和结构损失训练生成器，重建损失为生成的补全图像与真值图像的距离；采用生成器解码阶段的特征来构建结构损失，除了需要将带有缺失的输入图像输入到生成器中之外，还需将真值图像也输入到生成器中，然后分别提取输入图像与真值图像在生成器解码阶段的中间层特征，生成器的解码阶段利用编码阶段提取出来的特征逐步进行补全，输入图像与真值图像在生成器解码阶段的中间层特征尽可能相似，并约束真值图像经过生成器后的生成结果与真值图像之间的一致性；全局判别器和局部判别器以全局判别损失和局部判别损失的形式作来优化生成器，判别损失都是采取的交叉熵损失；

(4)对人脸图像中的对称性元素的补全进行优化

采用Haar cascade检测算法检测人脸图像补全区域内所涉及到的对称性元素，根据检测元素在人脸中的相对位置以及数目对Haar cascade算法的检测结果进行调优；将补全区域内所涉及到的对称性元素输入对称判别器，利用对称判别器的判别作用来约束补全的对称性元素保持较好的对称性，对称性判别器利用未缺失的部分来约束缺失部分的补全。

附图说明

图1是所提网络模型结构。网络模型包含4个部分，生成器、全局判别器、局部判别器以及对称判别器。其中生成器分为两部分，编码器和解码器。编码器通过下采样过程来提取输入图像的特征，解码器利用编码器所提取的特征并通过上采样过程来构建补全内容。为了减少在编码解码过程中特征的丢失，采用Skip Connection来将编码器的每一层特征传递到解码器中的相应特征中来进行补充，Skip Connection在图中用细线箭头所表示。全局判别器的的输入是整张补全结果图和真值图像，局部判别器的输入是补全区域内的补全结果和真值内容，而对称判别器的输入则是补全结果和真值图像中补全区域内所涉及到的对称元素，如果对称性元素仅有一部分被补全区域包含，那么该对称性部分以及其相应的对称性部位都应作为输入，未被补全区域包含的对称性部分将作为条件来约束被补全区域包含的对称性部分的补全。三个判别器的作用是通过判别输入图像的真假来进一步优化生成器，使其能够生成出真实、自然的补全结果。

图2是所提方法处理结果图

具体实施方式

为了实现对人脸图像的精准补全，需要充分考量人脸图像的特征。在所有特征中，对称性是人脸图像最显著的特征。这里所指的对称性比几何对称具有更广泛的含义，它是指代人脸的对称性元素(眼睛、耳朵、眉毛、鼻子、嘴)之间应具有相似的特征(颜色、纹理、形状等)，比如，人的左眼应与右眼具有相似的颜色、眼妆等。如果忽略了人脸的对称性，会使得对人脸图像的对称性元素进行补全时造成很大的不一致性。因此，对人脸图像对称性的考量是人脸补全方法成功的关键。下面结合实施例对本发明进行说明。

1、选取数据

选取合适的人脸图像数据集，将其划分成训练集和测试集，其中训练集用于训练网络模型，测试集用于测试网络模型的好坏。数据集的选择符合两大条件：第一，数据集的量必须要足够大。第二：数据集中的人脸必须丰富多样。只有当数据集中包含足够多并且丰富多样的人脸图像时，才能保证网络模型能够学习到足够多的人脸特征，以至于能够对不同人脸的不同区域都能进行很好的补全。

根据数据集的选取原则，最终选取CelebA人脸图像数据集作为本专利的训练和测试数据集。CelebA中包含202599张大小为218*178的人脸图像。首先对所有的图像裁剪至大小为178*178，然后缩放到大小为256*256，最后随机选取其中的200000张图像作为训练集，2599张图像作为测试集。

2、构建网络模型

构建网络模型是人脸补全方法中最核心的一步，网络模型的好坏决定了补全方法的好坏。本专利采用生成对抗网络来构建补全网络模型。该网络模型包含一个生成器，三个判别器。其中生成器采用了“U-Net”网络结构，它的输入是一张带有缺失区域的RGB图像，输出是补全后的RGB结果图。生成器致力于为输入图像的缺失区域构建出真实自然的语义内容。三个判别器分别为全局判别器，局部判别器以及对称判别器。这三个判断器通过判别其输入内容的真假，以此来对生成器进行优化。其中全局判别器旨在判别整张图像的真实性，因此其输入为整张补全结果图和真值图像。通过全局判别器的优化，可以使得生成器生成的补全内容与周围像素点具有较好的一致性。局部判别器旨在判别缺失区域内容的真实性，它的输入是补全图像和真值图像缺失区域内的内容。通过局部判别器的优化，可以使得生成器生成的补全内容更加真实自然，能有效地减少补全内容的模糊现象。对称判别器将人脸图像的对称性转换成约束来进一步优化生成器。在利用对称判别器进行优化之前，需要检测补全结果以及真值图像缺失区域内的对称元素，然后将其作为对称判别器的输入。通过对称判别器的优化，能够更有效的保持补全结果的对称性和真实性。

本实施例采用生成对抗网络来构建网络模型。图1给出了所提方法的网络结构图，网络模型包括一个生成器，三个判别器(全局判别器、局部判别器、对称判别器)。其中生成器采用了“U-Net”网络结构，“U-Net”网络结构分为两个部分，第一部分为编码器，第二部分为解码器。编码器将输入的图像通过逐层下采样的方式提取出其特征，而解码器通过逐层上采用的方式利用编码器提取出来的特征来构建补全结果图。编码器和解码器都包含9层，其中编码器的每一层都由一个卷积层，一个LeakyRelu激活层和一个BatchNormalization层组成。而解码器的每一层则由一个卷积层，一个Relu激活层和一个BatchNormalization层组成。“U-Net”网络结构与常规的编码-解码结构的不同之处在于，它在编码器和解码器之间增加了SkipConnection结构，SkipConnection的作用是为了弥补编码过程中通过下采样方式提取特征时所损失的特征，因此它将编码器的每一层特征都传递到相应的解码器特征中，以实现特征的补充。

所有的判别器，包括全局判别器、局部判别器和对称判别器，都采用相同的结构，不同的输入。除最后一层外，判别器的每一层都是由一个卷积层、一个LeakyRelu激活层和一个BatchNormalization层组成。最后一层则由一个卷积层和一个Sigmoid层组成。判别器的作用是用来判别输入图像的真假，通过真假判别可以进一步促进生成器生成真实自然的补全结果。全局判别器顾名思义是判别整张图像的真假，通过全局判别器优化，可以使得补全内容与上下文之间具有较好的语义一致性。局部判别器通过对补全区域内容的判别，可以使得生成的补全内容结构更加清晰，内容更加真实。而对称判别器，则是用于优化人脸的对称性元素，使得人脸的对称性元素总是能保持相似的特征。

3、训练网络模型

(1)步骤一：采用重建损失和结构损失来预训练生成模型

采用重建损失和结构损失训练生成器。重建损失为生成的补全图像与真值图像的L₁距离，公式如下：

L_r(x,M)＝||G(x,M)-x||₁ (1)

其中x是真值图像，M为二值掩码图像(缺失区域为1，非缺失区域为0)，通过x与M相与可以构建带有缺失的输入图像。G为生成器，G(x,M)表示生成器生成的补全结果。

结构损失用于约束生成的补全结果与真值图像之间的结构相似性，图像之间的结构相似性可以用特征相似性来表示，因此我们采用了生成器解码阶段的特征来构建结构损失。为了构建结构损失，除了需要将带有缺失的输入图像输入到生成器中之外，还需将真值图像也输入到生成器中。然后分别提取输入图像与真值图像在生成器解码阶段的中间层特征，生成器的解码阶段利用编码阶段提取出来的特征逐步进行补全，因此带有掩码的输入图像在解码阶段的特征就是其补全结果的特征。根据生成器生成的补全结果应尽可能的与真值图像相似的原则，可以得出输入图像与真值图像在生成器解码阶段的中间层特征也应尽可能相似。但是仅通过约束中间层特征的相似性，还不能保证生成的补全结果与真值图像之间的结构相似性，因为还无法保证真值图像输入到生成器之后的生成结果与真值图像相同。因此，结构损失除了需要约束补全结果与真值图像之间的特征相似性之外，还需约束真值图像经过生成器后的生成结果与真值图像之间的一致性。结构损失的公式如下：

其中，N表示的是生成器的解码阶段的层数，φ_k表示的是第k层的特征，α_k表示的是第k层特征之间的相似度权重，β表示的是对真值图像的生成结果与真值图像自身之间的相似度权重。

(2)步骤二：在步骤1的模型的基础上，增加全局判别器和局部判别器来进一步优化生成模型，使生成模型的补全结果内容更加真实自然。

全局判别器和局部判别器以全局判别损失和局部判别损失的形式作来优化生成器，公式分别如下：

本专利的判别损失都是采取的交叉熵损失，其中D表示的是判别器，判别器使得当输入内容为真时判别结果尽可能为1，输入内容为假时判别结果尽可能为0。在对抗机制中，判别器的作用是尽可能的正确判别输入内容的真假，而生成器的作用是生成更为真实的补全结果，尽可能的使判别器进行误判。

(3)步骤三：在步骤二的基础上，引入对称判别器来进一步对人脸图像中的对称性元素的补全进行优化。

使用对称判别器优化生成模型，首先需要检测待优化的对称元素。人脸中包含5大对称元素，眼睛、眉毛、鼻子、嘴、耳朵，其中眉毛可以看成是眼睛的一部分，并且由于大多数图像中人的耳朵并不是成对出现的，因此可以忽略对耳朵的优化。总而言之，需要优化的对称性元素只有三对：眼睛(眉毛)、鼻子、嘴。本专利采用经典的Haar cascade检测算法来检测待优化的对称性元素，为了提高检测的准确率，采用算法1来优化检测过程。

算法1：对称性元素检测

第1步：使用Haar cascade算法检测人脸，并在检测到的人脸中检测待优化的对称性元素。

第2步：根据检测到的元素数目以及其在人脸中的相对位置来判别检测的正误。例如：人眼分为左眼和右眼，因此正确的人眼检测数目为2。人的左眼在人脸中的位置范围为[1/3*H,1/3*W,1/2*H,1/2*W],右眼的位置范围为[1/3*H,1/2*W,1/2*H,2/3*W]，其中H，W分别为检测到的人脸的高与宽。当检测数目小于正确检测数目时，则判断检测为误。当检测数目等于正确检测数目，但是检测到的元素位置未在正确的位置范围内，则判断为误。当检测数目大于正确的检测数目时，根据位置范围排除错误的检测，并保留正确的检测。如果排除后的检测数目小于正确的检测数目，则判断检测为误。如果排除后的检测数目大于正确的检测数目则随机抽选出正确数目的检测结果作为最终的检测结果。其他情况都视为检测是正确的。

第3步：当第二步中的检测被判断为误时，则利用先前对该类检测元素检测正确的元素位置的平均值作为本次检测的结果。

使用算法1获取了待优化的元素位置后，可以进一步提取出待优化的元素，并使其作为对称判别器的输入。对称判别器以对称损失的形式来优化生成器，其公式如下：

其中P_l和P_r分别为真值图像中待优化的对称性元素的左右两部分，当对眼睛进行优化时，P_l和P_r则分别表示人的左眼和右眼。而

和

分别为补全结果中缺失区域内检测到的待优化的对称性元素的左右两部分。公式5表示的是只有待优化的对称性元素的左侧部分缺失时的优化公式，此时判别器判别为真时，输入的是真值图像中的待优化元素的左右两部分。判别器判别为假时，输入的是补全结果中的待优化元素的左侧部分，以及真值图像的待优化元素的右侧部分。此时判别器的真正含义是判别生成的补全元素是否与其相对称的元素仍然对称。公式6表示的是当只有待优化元素右侧部分缺失时的优化公式。公式6与公式5的区别仅为将判别为假时的输入变成了真值图像的待优化元素的左侧部分以及补全结果中的待优化元素的右侧部分。

4、测试和调优

在训练的每一阶段都需使用测试集中的数据来测试模型的好坏，根据测试结果来调整每一阶段的参数。在整个训练过程中，采用Adam优化器来进行优化，初始的学习率设置为0.00005。

图2展示了本专利所提方法的补全结果结果。三张图像为一组，最左侧图像为输入图像，中间为补全结果，最右侧为真值图像。从补全结果中可以看出，本专利所提出的人脸补全方法不仅能够对包含多个元素的大面积缺失区域进行很好的补全，还能对对称性元素的缺失部分进行很好的补全。采用本专利所提方法对测试图像进行处理，得到了良好的处理效果，平均处理速度为108ms，处理速度能够满足实时要求。

Claims

1.一种基于深度学习的对称感知人脸图像补全方法，包括下列步骤：

（1）选取数据

（2）构建网络模型

（3）训练网络模型

采用重建损失和结构损失训练生成器，重建损失为生成的补全图像与真值图像的距离；采用生成器解码阶段的特征来构建结构损失，除了需要将带有缺失的输入图像输入到生成器中之外，还需将真值图像也输入到生成器中，然后分别提取输入图像与真值图像在生成器解码阶段的中间层特征，生成器的解码阶段利用编码阶段提取出来的特征逐步进行补全，输入图像与真值图像在生成器解码阶段的中间层特征尽可能相似，并约束真值图像经过生成器后的生成结果与真值图像之间的一致性；全局判别器和局部判别器以全局判别损失和局部判别损失的形式来优化生成器，判别损失都是采取的交叉熵损失；

（4）对人脸图像中的对称性元素的补全进行优化

采用Haar cascade检测算法检测人脸图像补全区域内所涉及到的对称性元素，根据检测元素在人脸中的相对位置以及数目对Haar cascade算法的检测结果进行调优；将补全区域内所涉及到的对称性元素输入对称判别器，利用对称判别器的判别作用来约束补全的对称性元素保持对称性，对称判别器利用未缺失的部分来约束缺失部分的补全。