CN113240792B

CN113240792B - 一种基于人脸重建的图像融合生成式换脸方法

Info

Publication number: CN113240792B
Application number: CN202110474053.7A
Authority: CN
Inventors: 朱建科; 俞境心; 林利翔
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-08-16
Anticipated expiration: 2041-04-29
Also published as: CN113240792A

Abstract

本发明公开了一种基于人脸重建的图像融合生成式换脸方法。本发明包括以下步骤：1)选取多张人脸图像进行预处理，获得多张预处理后的人脸图像并构成训练集；2)构建生成式人脸替换网络；3)将训练集输入生成式人脸替换网络进行训练，训练直至生成式人脸替换网络收敛，获得训练后的生成式人脸替换网络；4)将待换的源人脸图像和目标人脸图像输入到训练后的生成式人脸替换网络中，输出获得换脸图像。本发明有效解决了换脸过程中纹理不匹配的问题，实现了三维人脸重建的皮肤纹理精细化生成，从而有效地提升了换脸的相似度和真实感，得到高质量的换脸图像。

Description

一种基于人脸重建的图像融合生成式换脸方法

技术领域

本发明涉及计算机视觉的人脸合成领域的一种基于神经网络的换脸方法，具体涉及了一种基于人脸重建的图像融合生成式换脸方法。

背景技术

人脸图像作为身份信息的媒介，在医疗、教育、科学、文化等产业有着广泛的应用。这也增加了个人隐私泄露的风险。替换图像中的人脸来保护民众隐私安全的方法应运而生。在计算机视觉领域，该方法被称为人脸替换。此外，人脸替换常被用于影视剧中演员的自动化替换，实现解放劳动力并快速生产视频。综上，人脸替换对保护民众隐私安全、推动影视行业发展具有重要意义。

人脸替换是指将源人脸融合到目标人脸图像，获得具有源人脸身份信息并保持目标人脸表情、姿态、光照等属性信息的合成人脸的过程。其难点在于提升合成人脸图像和源人脸的相似度。目前的研究通常基于三维人脸重建或生成式对抗网络的方法实现。

基于三维人脸重建的换脸方法将源人脸和目标人脸分别进行系数重建，通过交换二者的对应系数实现换脸。尽管三维人脸模型具有稳定的拓扑结构使得该方法可以稳定地表达人脸纹理，尤其是皮肤纹理，但是三维人脸重建受限于平均人脸模型，五官的纹理表达能力不足，同时三维人脸数据采集成本较高，目前的开源数据集均已商用化，高昂的费用让传统的重建方式步履维艰。

基于生成式对抗网络的人脸替换方法将人脸替换看作是一种风格迁移，通过身份属性的编解码器合成得到真实度高的换脸结果。由于无法完全解耦人脸图像的身份和属性特征，使得合成人脸的皮肤纹理表达不稳定，影响替换人脸的相似度。

发明内容

为了解决技术背景中存在的问题，本发明提出了一种基于人脸重建的图像融合生成式换脸方法，实现基于三维人脸重建和生成式对抗网络的换脸方法的优势互补，有效解决了人脸合成领域中换脸纹理不匹配的问题，有效提升了换脸的相似度和真实感。

本发明提出的生成式人脸替换网络包含三个模块，皮肤重建模块R-Net、五官合成模块G-Net和融合渲染模块F-Net。皮肤重建模块通过组件级重建的方法输出去除五官的皮肤区域，实现三维人脸替换的皮肤重建过程；五官合成网络生成换脸结果的五官区域；融合渲染网络用于R-Net生成的皮肤区域与G-Net生成的五官区域融合，得到最终换脸图像。

下面将对本发明的技术方案做详细的说明：

本发明包括以下步骤：

1)选取多张人脸图像进行预处理，获得多张预处理后的人脸图像并构成训练集；

2)构建生成式人脸替换网络，生成式人脸替换网络包括多层级特征编码器、五官合成模块、皮肤重建模块和融合渲染模块，多层级特征编码器分别与五官合成模块和皮肤重建模块相连，五官合成模块和皮肤重建模块均与融合渲染模块相连；

3)将训练集输入生成式人脸替换网络进行训练，训练直至生成式人脸替换网络收敛，获得训练后的生成式人脸替换网络；

4)将待换的源人脸图像和目标人脸图像输入到训练后的生成式人脸替换网络中，输出获得最终换脸图像。

所述多层级特征编码器主要由源人脸图像特征编码模块和目标人脸图像特征编码模块组成，其中，源人脸图像特征编码模块和目标人脸图像特征编码模块均输入人脸图像，源人脸图像特征编码模块和目标人脸图像特征编码模块的第一输出输入到皮肤重建模块，目标人脸图像特征编码模块的第二输出输入到五官合成模块的第二输入，源人脸图像特征编码模块和目标人脸图像特征编码模块的结构相同，具体为：

包括七个卷积层、六个反卷积层和第一全连接层；源人脸图像特征编码模块或目标人脸图像特征编码模块的输入输入到第一卷积层，第一卷积层依次经第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层和第五反卷积层后与第六反卷积层相连，第一卷积层的输出输入到第六反卷积层，第二卷积层的输出输入到第五反卷积层，第三卷积层的输出输入到第四反卷积层，第四卷积层的输出输入到第三反卷积层，第五卷积层的输出输入到第二反卷积层，第六卷积层的输出输入到第一反卷积层，第六卷积层的输出还输入到第一全连接层，第一全连接层的输出作为源人脸图像特征编码模块或目标人脸图像特征编码模块的第一输出，第七卷积层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层的输出共同作为源人脸图像特征编码模块或目标人脸图像特征编码模块的第二输出。

所述五官合成模块主要由身份编码器和3D融合生成模块组成，身份编码器与3D融合生成模块相连，人脸图像输入到身份编码器，身份编码器的输入为五官合成模块的第一输入，3D融合生成模块的输入为五官合成模块的第二输入，多层级特征编码器与五官合成模块的第二输入相连；

3D融合生成模块包括第七反卷积层和七个融合生成子模块；第七反卷积层与身份编码器相连，第七反卷积层依次经第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块和第六融合生成子模块后与第七融合生成子模块相连，身份编码器还分别与第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块相连，五官合成模块的第二输入分别输入到第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块中，第七融合生成子模块的输出作为五官合成模块的输出。

所述七个融合生成子模块结构相同，具体为：

包括残差模块、全局池化层、第二全连接层、第三全连接层和激活层；融合生成子模块的三个输入进行级联后的输出作为融合子输出，融合子输出输入到残差模块中，残差模块依次经全局池化层、第二全连接层和第三全连接层后与激活层相连，残差模块的输出、融合子输出和激活层的输出进行相加后的输出作为融合生成子模块的输出。

所述皮肤重建模块主要由人脸系数重组模块、超分辨率模块、三维重建模块和组件分割融合模块依次连接组成；

多层级特征编码器与人脸系数重组模块相连，源人脸图像特征编码模块的输入还输入到组件分割融合模块，组件分割融合模块的输出作为皮肤重建模块的输出。

所述输入到源人脸图像特征编码模块的预处理后的人脸图像为源人脸图像，输入到目标人脸图像特征编码模块的预处理后的人脸图像为目标人脸图像；如果源人脸图像和目标人脸图像为同一张预处理后的人脸图像，则训练五官合成模块、皮肤重建模块和融合渲染模块，如果源人脸图像和目标人脸图像为不同的预处理后的人脸图像，则不训练皮肤重建模块和融合渲染模块，只训练五官合成模块。

本发明与背景技术相比，具有更有益的效果：

本发明通过单一特征编码器实现了三维人脸模型系数和人脸属性特征的预测，使用融合渲染模块将皮肤重建模块和五官合成模块的结果真实自然的融合，从而有效解决了换脸过程中纹理不匹配的问题。

本发明方法通过结合基于超分辨率渲染的皮肤重建网络和替换式重建的对抗网络，实现了三维人脸重建的皮肤纹理精细化生成，并将两者结果使用生成式对抗网络进行融合，从而有效地提升了换脸的相似度和真实感。

本发明采用了基于生成式对抗网络的人脸替换方法，解决了人脸合成领域中五官不匹配的问题，提高了换脸的相似性和真实感。

附图说明

图1为本发明中生成式人脸替换网络结构图。

图2为本发明中多层级编码器结构图。

图3为本发明中AEI3DNet结构图。

图4为本发明中AAD ResBlk+SENet结构图。

图5为本发明中皮肤重建模块中的组件分割模块的输出结果图。

具体实施方式

本发明适用于绝大多数换脸场景，下面将对本发明的具体使用进行清晰、详细、完整的描述。

本发明使用300W-LP作为主要训练数据，300W-LP数据集是通过300W数据集人脸扭曲变形和翻转扩充得到，还使用了CelebAMask-HQ作为训练数据，CelebAMask-HQ包含三万张人脸图像，并且每幅图像都有对应于CelebA数据集的面积属性分割掩码。本发明从CelebAMask-HQ数据集中抽样1000张图像用于测试，同时，为了验证模型的泛用性，从Seeprettyface数据集中抽样1000张用于测试。

对于包含68个三维人脸关键点的300W-LP数据集，对300W-LP数据集进行预处理，具体为通过MTCNN方法进行人脸对齐，再通过Face-Parsing进行人脸分割，获得用于网络训练的分辨率为224×224的预处理后的300W-LP数据集，对于已有人脸分割掩码的CelebAMask-HQ数据集，使用MTCNN进行人脸对齐和face-alignment进行人脸关键点检测得到68个三维人脸关键点和224×224的输入图像。

本发明方法包括以下步骤：

1)选取多张人脸图像进行预处理，获得多张预处理后的人脸图像并构成训练集；在训练阶段，多张预处理后的人脸图像既是源人脸图像也是目标人脸图像。

2)如图1所示，构建生成式人脸替换网络，生成式人脸替换网络包括多层级特征编码器、五官合成模块G-net、皮肤重建模块R-net和融合渲染模块F-net，多层级特征编码器分别与五官合成模块和皮肤重建模块相连，五官合成模块和皮肤重建模块均与融合渲染模块相连，五官合成模块G-net输出第一换脸图像，皮肤重建模块R-net输出第二换脸图像，融合渲染模块输出最终换脸图像；

如图2所示，多层级特征编码器主要由源人脸图像特征编码模块和目标人脸图像特征编码模块组成，其中，源人脸图像特征编码模块和目标人脸图像特征编码模块均输入人脸图像，源人脸图像特征编码模块和目标人脸图像特征编码模块的第一输出输入到皮肤重建模块，目标人脸图像特征编码模块的第二输出输入到五官合成模块的第二输入，目标人脸图像特征编码模块的第二输出为目标人脸图像的属性特征attr1-attr7，源人脸图像特征编码模块的第二输出不与任何模块相连，源人脸图像特征编码模块和目标人脸图像特征编码模块的结构相同，具体为：

具体实施中，七个卷积层和六个反卷积层的卷积核大小为4，步长为2。七个卷积层的通道数依次分别为32、64、128、256、512、1024和1024。六个反卷积的通道数依次分别为1024、512、256、128、64和32。第一全连接层输出257维的人脸系数。

如图3所示，五官合成模块主要由身份编码器和3D融合生成模块组成，身份编码器与3D融合生成模块相连，人脸图像输入到身份编码器，身份编码器的输入为五官合成模块的第一输入，3D融合生成模块的输入为五官合成模块的第二输入，多层级特征编码器的目标人脸图像特征编码模块的第二输出与五官合成模块的第二输入相连；具体实施中，身份编码器采用152层的ArcFace模型，3D融合生成模块为在Face-shifer模型的融合生成网络AEINet的AAD层内增加了SENet模块获得。

3D融合生成模块包括第七反卷积层和七个融合生成子模块；第七反卷积层与身份编码器相连，第七反卷积层依次经第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块和第六融合生成子模块后与第七融合生成子模块相连，身份编码器还分别与第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块相连，五官合成模块的第二输入即第七卷积层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层的输出分别对应输入到第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块中，第七融合生成子模块的输出作为五官合成模块的输出，第七融合生成子模块输出第一换脸图像。

如图4所示，七个融合生成子模块结构相同，具体为：

包括残差模块、全局池化层、第二全连接层、第三全连接层和激活层；融合生成子模块的三个输入进行级联后的输出作为融合子输出，融合子输出输入到残差模块中，残差模块依次经全局平均池化层、第二全连接层和第三全连接层后与激活层相连，全局平均池化层实现通道的压缩，将特征维度降到1/16，激活层的激活函数为Sigmoid函数，残差模块的输出、融合子输出和激活层的输出进行相加后的输出作为融合生成子模块的输出。具体实施中，残差模块采用AAD ResBlk模型。

皮肤重建模块主要由人脸系数重组模块、超分辨率模块srgan、三维重建模块BFM和组件分割融合模块依次连接组成；

多层级特征编码器的源人脸图像特征编码模块和目标人脸图像特征编码模块的第一输出均与人脸系数重组模块相连，源人脸图像特征编码模块的输入还输入到组件分割融合模块，组件分割融合模块的输出作为皮肤重建模块的输出，源人脸图像特征编码模块的第一输出为源人脸图像的人脸系数，目标人脸图像特征编码模块的第一输出为目标人脸图像的人脸系数，每个人脸系数均由身份系数、纹理系数、表情系数、光照系数和姿态系数五个系数组成，人脸系数重组模块将源人脸图像的身份系数和纹理系数与目标人脸图像的表情系数、光照系数和姿态系数进行重组后获得重建人脸系数，对重建人脸系数中的纹理系数进行生成得到纹理贴图，并使用超分辨率模块对纹理贴图进行精细化处理，将纹理贴图和重建人脸系数中除纹理系数外的其他系数一起输入到三维重建模块中，三维重建模块进行人脸的重建；为了获取更加真实的换脸结果与之后的五官合成模块更好的融合，使用组件分割融合模块中移除了三维重建模块输出的人脸图像的五官部分，获得去除五官的人脸图像，如图5所示，并且组件分割融合模块还将源人脸图像中的五官部分与去除五官的人脸图像进行alpha融合，最终输出第二换脸图像。组件分割融合模块分割人脸皮肤图像，获得眼部、鼻头、嘴部和皮肤共四个组件，四个组件的具体信息如表1所示，其中，眼部区域包含纹理接近的眼睛和眉毛区域，鼻头主要包含鼻孔附近与皮肤纹理差异明显的区域，嘴部则以嘴唇为主，其余则为皮肤区域。如此的分割选择可以尽可能的让组件内纹理差异最小化，组件间纹理差异最大化，有效提升网络学习纹理的能力。

表1：四个组件的具体信息

组件名	顶点数量	三角面片数量
			眼部	2581	7744
鼻头	572	1714
			嘴部	860	2582
皮肤	14619	58479

具体实施中，融合渲染模块为生成式对抗模型，采用Pix2PixHD网络模型，Pix2PixHD网络模型进行肤色迁移和256x256的alpha通道的背景融合，将源人脸图像的五官自然地融合回目标人脸图像的去除五官的人脸皮肤图像，为了使预测的融合矩阵更加鲁棒，本发明在Pix2PixHD的输出后添加一层卷积，实现柔化滤波，从而使合成的人脸图像更加真实自然，得到人脸替换图像。

输入到源人脸图像特征编码模块的预处理后的人脸图像为源人脸图像，输入到目标人脸图像特征编码模块的预处理后的人脸图像为目标人脸图像；如果源人脸图像和目标人脸图像为同一张预处理后的人脸图像，则训练五官合成模块、皮肤重建模块和融合渲染模块，即计算三个模块的损失函数并进行梯度回传；如果源人脸图像和目标人脸图像为不同的预处理后的人脸图像，则不训练皮肤重建模块和融合渲染模块，只训练五官合成模块，即皮肤重建模块不参与损失函数的计算，只计算五官合成模块的损失函数。

4)将待换的源人脸图像和目标人脸图像输入到训练后的生成式人脸替换网络中，输出获得换脸图像。

在CelebAMask-HQ及Seeprettyface测试集上进行人脸相似度数值计算，结果如表2所示，本发明的ID相似度上分别提升了4.9％和8.0％，在ID距离上分别提升了7.9％和2.9％。可以看出，经过上述改进步骤和融合渲染模块的融合，本发明能获得更好的换脸效果。

表2为本发明在数据集上的计算结果

Claims

1.一种基于人脸重建的图像融合生成式换脸方法，其特征在于，包括以下步骤：

4)将待换的源人脸图像和目标人脸图像输入到训练后的生成式人脸替换网络中，输出获得最终换脸图像；

包括七个卷积层、六个反卷积层和第一全连接层；源人脸图像特征编码模块或目标人脸图像特征编码模块的输入输入到第一卷积层，第一卷积层依次经第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层和第五反卷积层后与第六反卷积层相连，第一卷积层的输出输入到第六反卷积层，第二卷积层的输出输入到第五反卷积层，第三卷积层的输出输入到第四反卷积层，第四卷积层的输出输入到第三反卷积层，第五卷积层的输出输入到第二反卷积层，第六卷积层的输出输入到第一反卷积层，第六卷积层的输出还输入到第一全连接层，第一全连接层的输出作为源人脸图像特征编码模块或目标人脸图像特征编码模块的第一输出，第七卷积层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层的输出共同作为源人脸图像特征编码模块或目标人脸图像特征编码模块的第二输出；

3D融合生成模块包括第七反卷积层和七个融合生成子模块；第七反卷积层与身份编码器相连，第七反卷积层依次经第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块和第六融合生成子模块后与第七融合生成子模块相连，身份编码器还分别与第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块相连，五官合成模块的第二输入分别输入到第一融合生成子模块、第二融合生成子模块、第三融合生成子模块、第四融合生成子模块、第五融合生成子模块、第六融合生成子模块和第七融合生成子模块中，第七融合生成子模块的输出作为五官合成模块的输出；

2.根据权利要求1所述的一种基于人脸重建的图像融合生成式换脸方法，其特征在于，所述七个融合生成子模块结构相同，具体为：

3.根据权利要求1所述的一种基于人脸重建的图像融合生成式换脸方法，其特征在于，所述输入到源人脸图像特征编码模块的预处理后的人脸图像为源人脸图像，输入到目标人脸图像特征编码模块的预处理后的人脸图像为目标人脸图像；如果源人脸图像和目标人脸图像为同一张预处理后的人脸图像，则训练五官合成模块、皮肤重建模块和融合渲染模块，如果源人脸图像和目标人脸图像为不同的预处理后的人脸图像，则不训练皮肤重建模块和融合渲染模块，只训练五官合成模块。