CN114862697A

CN114862697A - 一种基于三维分解的人脸盲修复方法

Info

Publication number: CN114862697A
Application number: CN202210370638.9A
Authority: CN
Inventors: 颜波; 谭伟敏; 白玉; 何瑞安; 林洋乐
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-04-10
Filing date: 2022-04-10
Publication date: 2022-08-05

Abstract

本发明属于数字图像处理技术领域，具体为一种基于三维分解的人脸盲修复方法。本发明包括：使用人脸三维重建模型将人脸图像分解为纹理层、骨骼结构层和环境及位姿参数三部分；对骨骼结构层使用编码器‑解码器对其进行粗粒度填充，对纹理层先使用不同参数编码器‑解码器对其进行细粒度填充，再使用人脸增强模块对人脸细节增强；用三维重建网络中的渲染器将修复的两个成分与其他参数结合渲染得到修复重建后的三维人脸图像；将修复得到的三维人脸图像和被遮挡的输入图共同输入人脸精修模块，得到被修复的人脸图像。实验结果表明，当图像的遮挡范围没有被手动标注时，本发明能够准确地对人脸进行修复，同时保持未被遮挡部分和输入图像保持一致。

Description

一种基于三维分解的人脸盲修复方法

技术领域

本发明属于数字图像处理技术领域，具体涉及一种人脸盲修复方法。

背景技术

近年来，随着数字图像处理技术的不断发展，人脸修复作为其中一个重要的任务，在日常生活中得到了越来越多的应用。人脸修复任务可以对被遮挡或物理损坏的人脸照片进行修复，得到未被遮挡的完整人脸图像。传统的人脸修复方法需要将待修复的区域作为标签输入到网络中去，而对待修复图像被遮挡或损坏的区域进行人工标注是一个较为繁琐的过程。人脸盲修复即为不需要人工标注遮挡区域、由网络全自动修复遮挡人脸的人脸修复方法。目前的人脸盲修复方法主要基于遮挡区域检测的方法实现。然而，遮挡检测在照片的后期物理损坏上做出了较好的表现，在原始照片中即包含遮挡物的图像中表现欠佳。对遮挡边缘检测的不精确也会导致修复结果边缘产生影响视觉效果的伪影。基于上述背景，本发明将人脸三维分解和人脸盲修复相结合，利用人脸图像的固有特性对待修复的图像进行分解、对分解得到的不同人脸成分进行不同方式的修复并最终将各成分合成并精修为未被遮挡的人脸。

人脸三维重建在近年来的数字图像处理研究中获得了越来越多的成果。传统的人脸三维重建方法需要将待重建人脸图像与多个扫描的三维人体头部进行匹配从而得到重建结果。在近年来的研究中，研究者开始尝试将人脸图像分解为多个不同的成分，并将这些成分合成为三维人脸模型。文献[1]提出了一种将非对齐的人脸通过无监督的方式分解为多个成分并最终渲染合成为三维模型的方法。本发明基于近年来对三维重建的研究，利用人脸先验知识和人脸所具有的对称性特征将其中的三维分解部分应用于人脸修复，通过对每个分解得到的人脸进行不同方式的修复，从而得到去除了遮挡和损坏的完整人脸图像。

发明内容

为了克服现有人脸盲修复技术在修复结果遮挡检测、边缘处理上的不足，本发明的目的在于提供一种基于三维分解的人脸盲修复方法，它主要针对存在遮挡或受到损坏的人脸图像，在不给定人工标注的遮挡区域范围时实现网络全自动地对损坏人脸进行修复，从而得到无遮挡且未被损坏的人脸图像。

本发明提出的基于三维分解的人脸盲修复方法，使用无监督人脸三维重建模型对人脸进行三维分解，将输入人脸图像分解为纹理层、骨骼结构层和环境及位姿参数三个部分；结合分解得到的两个层次所具有的固有特性，用不同的网络分别对其进行修复；其中，对骨骼结构层直接使用编码器-解码器架构对其进行粗粒度的填充；对纹理层则先使用不同参数的编码器-解码器架构对其进行细粒度填充，再使用人脸增强模块对纹理层所具有的人脸细节进行增强；用三维重建网络中的渲染器将修复得到的两个成分与其他参数相结合渲染得到修复重建后的三维人脸图像；将修复得到的三维人脸图像和被遮挡的输入图共同输入人脸精修模块，从而得到被修复的人脸图像。此外，本发明利用三维遮挡物贴纸渲染构建了三维遮挡数据集。具体步骤如下：

(1)人脸三维分解

对于给定的被遮挡待修复人脸图像，将其输入到无监督的三维人脸分解网络中，利用该网络将所输入图像分解为骨骼结构层(shape，s)、纹理层(texture，t)和环境(environment，e)及位姿(pose，p)参数；其中，骨骼结构层为单通道的灰度图，纹理层为三通道的彩色图像，其余参数为一组表示人脸所处光照环境和人脸角度的数值，具体分解过程可以表示为：

Ω(t,s,e,p)＝F_3D(I) #(1)

其中，Ω表示三维分解模型的结果集合，其分解结果分别为骨骼结构层(s)、纹理层(t)和环境(e)及位姿(p)参数，I表示输入的待分解图像，F_3D为三维分解函数。

三维人脸分解网络中，主要由编码器-解码器(encoder-decoder)结构生成骨骼结构层和纹理层，由编码器(encoder)结构对环境及位姿参数进行编码。其中，不同的编码器-解码器或编码器结构不共享参数，生成骨骼结构层的网络结构为处理单通道图像的网络，生成纹理层的网络为处理三通道图像的网络。

其中，分解得到的各个组成成分经过渲染得到的三维人脸重建模型，可以根据输入图像的位姿参数投影得到和输入图像具有相同位姿和环境光照的二维人脸图像，这是个三维人脸重建渲染过程和对三维人脸重建模型的投影过程；三维人脸重建渲染过程表示为：

M＝R₀(t,s,e) #(2)

三维人脸重建模型的投影过程表示为：

I′＝∏(M,p)＝∏(R₀(t,s,e),p) #(3)

其中，R₀表示渲染器，而∏为投影函数。

本方法中，所使用的人脸三维分解网络模型是基于Wu[1]等人提出的无监督三维人脸重建模型的，在此基础上将图像尺度调整为128×128以提高图像的分辨率，并在网络训练过程中加入人脸身份损失，以提高分解结果中人脸的身份特征保持程度，身份损失L_ID可以用如下公式表示：

其中，函数f(·)为网络对图像进行的变换，I为输入图像，I′为经过处理的图像。

人脸三维分解过程中使用了文献[1]中提出的人脸对称概率图，以确保人脸各个组成成分均为标准状态下的对称图，该对称概率图能够在一定程度上修复人脸各个结构层中非对称的遮挡和损坏。

(2)骨骼结构层和纹理层修复

对于三维人脸分解网络中分解获得的、待修复图像的骨骼结构层和纹理层进行修复，使得修复后的骨骼结构层和纹理层具有完整的人脸结构。对于对称的待修复区域，骨骼结构层和纹理层均首先使用编码器-解码器(contextencoder)网络分别对其进行修复；对该部分网络，均分别使用像素级的重构损失、生成器对抗损失和对应判别器的对抗损失进行训练；其中：

像素级重构损失L_pix可以表示为：

L_pix＝||t_gt-G(t_occ)|| #(5)

对抗损失L_adv可以表示为：

对应的判别器对抗损失L_D可以表示为：

在公式(5)(6)(7)中，t_occ表示遮挡图分解得到的骨骼结构图，为对应的groundtruth图像，G为生成器，D为判别器。

由于骨骼结构层仅具有较为简单的轮廓信息，而不包含较为精准的人脸细节信息，骨骼结构层仅经过其专门的修复网络对结构上的缺失进行填补即可，该填补过程主要为将修复网络中所具有的人脸先验轮廓填补于缺失的人脸结构部分；纹理层具有较多的人脸细节和色彩，具有较为准确的人脸细节，而该细节在人脸对称性分解和人脸初步修复过程中会存在一定的损坏，所以需要使用人脸增强模块进行进一步增强。

骨骼结构层的灰度图仅经过编码器-解码器结构修复，即可恢复较为准确的结构，而纹理层还需要使用人脸增强模块增强修复过程中较为模糊的细节；此处的人脸增强模块直接使用文献[6]中提出的人脸增强模块；经过该步骤可得被修复的骨骼结构图t_inpaint和纹理图s_inpaint，分别表示为：

t_inpaint＝E(G(t_occ)) #(8)

s_inpaint＝G(S_occ) #(9)

其中，t_inpaint和t_occ分别为修复后的骨骼结构图和未被修复的、直接从遮挡图像分解得到的骨骼结构图；s_inpaint和s_occ分别为修复后的纹理图和未被修复的、直接从遮挡图像分解得到的纹理图。

该阶段，像素级重构损失L_pix的系数设置为λ₁，对抗损失L_adv的系数设置为λ₂，对应的判别器对抗损失L_D的系数设置为λ₃；总损失为：

L_M＝λ₁L_pix+λ₂L_adv+λ₃L_D。

(3)骨骼结构层和纹理层修复结果渲染合成三维人脸模型

将步骤(2)中修复得到的骨骼结构层和纹理层结合步骤(1)中分解得到的环境参数及位姿参数，经过渲染器和投影函数得到修复后三维人脸结果、和输入图像具有相同环境光照和位置参数的二维投影，具体渲染和投影过程同公式(2)、(3)中所表述；该过程不涉及模型参数训练。

(4)人脸精修

将步骤(3)中获得的三维修复人脸模型的二维投影与原始待修复图像结合，将其和原始待修复图像共同输入人脸精修模块，得到最终的人脸修复结果。三维人脸模型的二维投影与原始待修复图像的结合方式，表示为：

公式(10)结合得到的人脸重建图具有完整的人脸结构而失去了少量人脸所具有的细节，需要使用原始待修复图像中的部分细节与其进行结合，以获得视觉效果较好的修复结果，即该步骤需要学习一个重建图和待修复图到修复人脸的映射，可以表示为：

(I_recon,I_occ)→I_gt #(11)

所述人脸精修模块采用U-Net网络的架构，使用像素到像素(pixel-to-pixel)损失、感知损失、对抗损失和判别器对抗损失对网络进行训练，其中像素到像素损失

为：

感知损失L_percep为：

对抗损失L_{adv_U}表示为：

判别器的对抗损失

以表示为：

(5)网络总体训练过程

最后，为了保证网络各个模块之间的连续性，并针对整个网络优化各个模块所包含的参数，整个网络中的人脸精修模块和人脸成分修复模块(包括骨骼结构层和纹理层修复的整体模块)使用端到端的重构损失进行微调。由于三维人脸分解网络的训练数据与其余模块不同，在最终的端到端训练中，固定三维分解网络的参数，仅对各个人脸成分修复模块和人脸精修模块网络的参数进行微调。损失可以表示为：

L_recon＝|I_refine-I_gt| #(16)

整个网络的训练损失可以表示为：

其中，第一、第二、第三项对应于式(5)、(6)、(7)表示的损失，第四、第五、第六、第七、第八项对应于式(12)、(14)、(15)、(13)、(16)表示的损失。参数λ₁，λ₂，λ₃，λ₄，λ₅、λ₆，λ₇为对应项权系数。

步骤(1)、(2)、(4)中涉及的模块均使用成对的人脸非遮挡图-对应的人脸遮挡图进行训练。

本发明的有益效果在于：

本发明的方法规避了过去基于遮挡检测的人脸盲修复方法中遮挡检测不准确带来的遮挡边缘的伪影问题，利用三维人脸分解技术对人脸的各个层面进行了不同方式的修复。本发明充分利用了人脸图像中的人脸先验知识、人脸本身所具有的对称性和人脸所具有的三维特性，对人脸进行分解、有针对性的修复和合成结果的精修，得到了较为准确精细的人脸盲修复结果。

附图说明

图1为本发明的流程图。

图2为使用本发明对128×128图像进行人脸盲修复的实验结果。其中，第一行是输入待修复图像，第二行为本发明的修复结果图；左边两列为合成图像上的实验结果而右边两列为真实数据集上的实验结果。

具体实施方式

以一张被遮挡或损坏的人脸图片为例，采用本发明方法将其人脸部分根据其余未被遮挡部分所提示的信息还原为完整的人脸图像，具体过程为：

(1)使用三维人脸分解网络将待修复的人脸图像分解为标准对称的纹理图、骨骼结构图和环境及位姿参数。该网络经过30轮(epoch)的训练，输入待分解图像和输出的纹理图、骨骼结构图均为128×128像素大小；该阶段的训练使用Adam优化器并将批大小(batchsize)设置为16；

(2)修复分解得到的纹理图和骨骼结构图。修复两个成分的网络均经过200轮(epoch)的训练，并将学习率(learningrate)设置为0.0002，批大小(batchsize)设置为8；该阶段逐像素的重构损失系数λ₁设置为999，对抗损失的系数λ₂设置为1，对偶的判别器对抗损失系数λ₃设置为1；纹理图修复过程中涉及到的人脸增强模块直接复用文献[6]中的人脸增强模块；

(3)修复结果渲染为三维人脸图像。渲染过程为三维分解过程的逆变换，具体过程可以参见文献[1]中的渲染方法。该渲染过程不涉及网络训练；

(4)将合成得到的三维人脸图像和待修复输入图同时输入到人脸精修模块中，获得完成修复的人脸图像。该网络以0.0002的学习率(learningrate)和128的批大小(batchsize)训练200轮(epoch)；在该阶段中，将逐像素的重构损失系数λ₄设置为100，生成器和判别器对抗损失系数λ₅、λ₆分别均设置为1，感知损失系数λ₇设置为10；

(5)整个网络的所有模块最终以端到端的形式进行微调训练，该阶段中人脸三维分解模块的参数固定，其余模块的参数在该阶段中进行微调。

图2为本发明的实例对比，其中第一行是输入待修复图像，第二行为本发明的修复结果图；左边两列为合成图像上的实验结果，右边两列为真实数据集上的实验结果；可以看出，本发明的方法在合成遮挡和真实遮挡上都能对被遮挡人脸图像进行盲修复，获得较为真实的修复结果，同时保持未被遮挡部分的特征。

参考文献

[1]S.Wu,C.Rupprecht,and A.Vedaldi.“Unsupervised Learning of ProbablySymmetric Deformable 3DObjects from Images in the Wild”.In CVPR,pages 1–10.Computer Vision Foundation/IEEE,2020.

[2]X.Yuan and I.Park.“Face de-occlusion using3d morphable model andgenerative adversarial network”.InICCV,pages 10061–10070.IEEE,2019.

[3]Y.Wang,Y.Chen,X.Tao,and J.Jia.“Vcnet:ARobust Approach to BlindImage Inpainting”.In ECCV(25),volume 12370of Lecture Notes in ComputerScience,pages752–768.Springer,2020.

[4]A.Hertz,S.Fogel,R.Hanocka,R.Giryes,andD.Cohen-Or.“Blind VisualMotif Removal from aSingleImage”.In CVPR,pages 6858–6867.Computer VisionFoundation/IEEE,2019.

[5]D.Pathak,P.Krahenbuhl,J.Donahue,T.Darrell,and A.Efros.“ContextEncoders:Feature Learning by Inpainting”.In CVPR,pages 2536–2544.IEEEComputerSociety,2016

[6]Z.Wan,B.Zhang,D.Chen,P.Zhang,D.Chen,J.Liao,and F.Wen.“Bringing OldPhotos Back toLife”.In CVPR,pages 2744–2754.Computer Vision Foundation/IEEE,2020。

Claims

1.一种基于三维分解的人脸盲修复方法，其特征在于，具体步骤如下：

(1)人脸三维分解

将给定的被遮挡待修复人脸图像输入到无监督的三维人脸分解网络中，利用该网络将所输入图像分解为骨骼结构层(s)、纹理层(t)和环境(e)及位姿(p)参数；其中，骨骼结构层为单通道的灰度图，纹理层为三通道的彩色图像，其余参数为一组表示人脸所处光照环境和人脸角度的数值，具体分解过程表示为：

Ω(t，s，e，p)＝F_3D(I) #(1)

其中，Ω表示三维分解模型的结果集合，其分解结果分别为骨骼结构层(s)、纹理层(t)和环境(e)及位姿(p)参数，I表示输入的待分解图像，F_3D为三维分解函数；

三维人脸分解网络中，由编码器-解码器结构生成骨骼结构层和纹理层，由编码器结构对环境及位姿参数进行编码；其中，不同的编码器-解码器或编码器结构不共享参数，生成骨骼结构层的网络结构为处理单通道图像的网络，生成纹理层的网络为处理三通道图像的网络；

分解得到的各个组成成分经过渲染器渲染得到三维人脸重建模型，三维人脸重建模型根据输入图像的位姿参数投影，得到和输入图像具有相同位姿和环境光照的二维人脸图像；

三维人脸重建渲染过程表示为：

M＝R₀(t，s，e) #(2)

三维人脸重建模型的投影过程表示为：

I1＝Π(M，p)＝Π(R₀(t，s，e)，p) #(3)

其中，R₀表示渲染器，Π为投影函数；

所使用的人脸三维分解网络模型是基于无监督三维人脸重建模型的，在此基础上将图像尺度调整为128×128以提高图像的分辨率，并在网络训练过程中加入人脸身份损失，以提高分解结果中人脸的身份特征保持程度，身份损失L_ID用如下公式表示：

其中，函数f(·)为网络对图像进行的变换，I为输入图像，I′为经过处理的图像；

人脸三维分解过程中使用人脸对称概率图，以确保人脸各个组成成分均为标准状态下的对称图，该对称概率图在一定程度上修复人脸各个结构层中非对称的遮挡和损坏；

(2)骨骼结构层和纹理层修复

对于三维人脸分解网络中分解获得的、待修复图像的骨骼结构层和纹理层进行修复，使修复后的骨骼结构层和纹理层具有完整的人脸结构；

对于对称的待修复区域，骨骼结构层和纹理层均首先使用编码器-解码器网络分别对其进行修复；对该部分网络，均分别使用像素级的重构损失、生成器对抗损失和对应判别器的对抗损失进行训练；其中：

像素级重构损失L_pix表示为：

L_pix＝||t_gt-G(t_occ)|| #(5)

对抗损失L_adv表示为：

对应的判别器对抗损失L_D表示为：

在公式(5)(6)(7)中，t_occ表示遮挡图分解得到的骨骼结构图，为对应的groundtruth图像，G为生成器，D为判别器；

该阶段，训练总损失为：

L_M＝λ₁L_pix+λ₂L_adv+λ₃L_D；

参数λ₁，λ₂，λ₃为对应的权系数；

对于骨骼结构层的灰度图仅经过编码器-解码器结构修复，即可恢复较为准确的结构；

对于纹理层，还使用人脸增强模块增强修复过程中较为模糊的细节；经过本步骤得被修复的骨骼结构图t_inpaint和纹理图s_inpaint，分别表示为：

t_inpaint＝E(G(t_occ)) #(8)

s_inpaint＝G(s_occ) #(9)

其中，t_inpaint和t_occ分别为修复后的骨骼结构图和未被修复的、直接从遮挡图像分解得到的骨骼结构图；s_inpaint和s_occ分别为修复后的纹理图和未被修复的、直接从遮挡图像分解得到的纹理图；

(3)骨骼结构层和纹理层修复结果渲染合成三维人脸模型

将步骤(2)中修复得到的骨骼结构层和纹理层结合步骤(1)中分解得到的环境参数及位姿参数，经过渲染器和投影函数得到修复后三维人脸结果、和输入图像具有相同环境光照和位置参数的二维投影，具体渲染和投影过程同公式(2)、(3)中所表述；

(4)人脸精修

将步骤(3)中获得的三维修复人脸模型的二维投影与原始待修复图像结合，将其和原始待修复图像共同输入人脸精修模块，得到最终的人脸修复结果；三维人脸模型的二维投影与原始待修复图像的结合方式，表示为：

公式(10)结合得到的人脸重建图具有完整的人脸结构而失去了少量人脸所具有的细节，需要使用原始待修复图像中的部分细节与其进行结合，以获得视觉效果较好的修复结果，即该步骤需要学习一个重建图和待修复图到修复人脸的映射，表示为：

(I_recon，I_occ)→I_gt #(11)

所述人脸精修模块采用U-Net网络的架构，使用像素到像素损失、感知损失、对抗损失和判别器对抗损失对网络进行训练，其中：

像素到像素损失

为：

感知损失L_percep为：

对抗损失L_{adv_U}表示为：

判别器的对抗损失

以表示为：

(5)网络总体训练

最后，为了保证网络各个模块之间的连续性，并针对整个网络优化各个模块所包含的参数，人脸精修模块和人脸成分修复模块使用端到端的重构损失进行微调；由于三维人脸分解网络的训练数据与其余模块不同，在最终的端到端训练中，固定三维分解网络的参数，仅对各个人脸成分修复模块和人脸精修模块网络的参数进行微调；其损失L_recon表示为：

L_recon＝|I_refine-I_gt| #(16)

整个网络的训练损失表示为：

参数λ₁，λ₂，λ₃，λ₄，λ₅、λ₆，λ₇为对应项权系数。