CN116071494A

CN116071494A - 基于隐式神经函数的高保真三维人脸重建与生成方法

Info

Publication number: CN116071494A
Application number: CN202211666157.9A
Authority: CN
Inventors: 鲍虎军; 张举勇; 张丁芸; 郭玉东
Original assignee: Hangzhou Xiangyan Technology Co ltd
Current assignee: Hangzhou Xiangyan Technology Co ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-05-05

Abstract

本发明公开了一种基于隐式神经函数的高保真三维人脸重建与生成方法，该方法提出一种可语义解耦编辑的高保真参数化人脸模型，同时引入新的身份、表情表示及语义分割网络。该方法借助隐式神经表示，可以对人脸细节、困难表情和大角度相机位姿进行高保真重建和合成，从而使得生成的人脸图片拥有很好的真实感和清晰度。

Description

基于隐式神经函数的高保真三维人脸重建与生成方法

技术领域

本发明涉及三维人脸重建与生成技术，尤其涉及一种基于隐式神经函数的高保真三维人脸重建与生成方法。

背景技术

随着数字人时代的到来，人们渴望在社交平台、线上虚拟平台等拥有自己的数字人分身。高保真的人脸重建和生成由此应运而生。人们希望自己的人脸重建具有高保真、高真实感和高清晰度，同时可以对人脸各个属性进行解耦地编辑。此外，生成的人脸需要可以在各个相机位姿下保持视角一致性，同时不会在视角变换时出现毛发粘连现象。

近年来，以英伟达为代表的科研组织提出了具有高清晰度生成质量的人脸生成模型，任给随机数种子，这些模型生成的人脸具有较好的真实感和视角一致性。然而，这些模型的可语义编辑性较弱，只能简单地变换相机位姿，而无法对身份、光照等人脸属性进行解耦编辑。同时，当输入单张人脸图片并借助这些模型进行GAN逆向变换，从而进行人脸重建时，重建出的人脸不能很好地学出身份和表情，清晰度不够理想，同时生成的人脸在变换相机位姿时也无法很好地保持视角一致性，人脸的身份和表情会随视角变换而变化。

最近，具有代表性的人脸重建模型为HeadNeRF，它主要由体渲染模块和2D神经渲染上采样模块构成。HeadNeRF具有一定的语义可编辑性，但重建出的人脸图片清晰度和真实感较差，有图片泛白、头发、眼部和牙齿模糊等现象，同时对困难表情的重建及大角度相机位姿的新视角重建效果都较为不理想。这是因为HeadNeRF的上采样结构设计不够合理，网络中包含明显的走样信息干扰，同时不能保持网络的平移和旋转不变性。同时，由于HeadNeRF直接采用3DMM的身份和表情向量作为身份和表情的隐码输入，而3DMM对身份和表情的表达能力不够理想，在多身份、多表情的训练数据下，无法很好地对人脸细节和困难表情高保真地重建。

此外，人脸生成和人脸重建模型生成的人脸，在改变相机位姿时，都会有毛发和牙齿闪烁的问题，即毛发粘连问题。这影响了生成人脸的真实感，也是困扰人脸生成领域的现象。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于隐式神经函数的高保真三维人脸重建与生成方法。本发明设计了一种可语义解耦编辑的高保真参数化人脸模型，通过引入一种新的人脸身份和表情表示，具有旋转和平移不变性的上采样模块以及语义分割网络，本发明生成的人脸可以避免毛发粘连问题，具有很好的真实感和清晰度，同时本发明可以对人脸细节、困难表情进行高保真重建，同时清晰地合成大角度新视角人脸。

本发明的目的是通过以下技术方案实现的：一种基于隐式神经函数的高保真三维人脸重建与生成方法，该方法包括以下步骤：

S1，根据人脸单目视频数据集和单张人脸数据集构建训练集，对训练集中的训练数据进行预处理；

S2，对训练集中任意人脸图片，将其输入可语义编辑的参数化人脸模型中，生成对应的渲染RGB图像和渲染语义分割图；

所述参数化人脸模型由RGB网络和语义网络组成；所述RGB网络和语义网络均包括体渲染模块和上采样模块；

所述体渲染模块中，给定带有关键点标注的单张人脸图片或单目视频序列，沿着相机光线采样，对采样点进行位置编码，将采样点位置编码以及输入人脸语义隐码作为基于多层感知器的隐式神经函数的输入，输出密度值及一个高维特征，借助体渲染生成特征图；所述语义隐码包括身份隐码、表情隐码、纹理隐码和光照隐码；

所述RGB网络的上采样模块Θ中，将特征图作为上采样模块Θ的输入，同时将语义隐码输入基于多层感知器的映射网络，将映射网络的输出作为风格隐码输入上采样模块Θ的每一层子网络，输出RGB图像；

所述语义网络的上采样模块Ψ中，将特征图输入基于HeadNeRF的2D神经渲染模块得到的上采样模块Ψ，输出语义分割图；

S3，利用训练集训练参数化人脸模型，所述参数化人脸模型的模型参数和语义隐码均参与优化；

S4，利用训练好的参数化人脸模型对测试图片进行新视角合成、可解耦语义编辑、表情迁移应用。

进一步地，步骤S1中，采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注；采用一欧元滤波算法减轻单目视频帧间的标注抖动。

进一步地，所述体渲染模块中，利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息，提取出其中的纹理向量和光照向量分别作为纹理隐码和光照隐码的初始化；基于MagFace预训练一个人脸识别网络，推断出身份特征作为身份隐码。

进一步地，所述体渲染模块中，利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格，抽取出基准空间的k×3维3D关键点，对3D关键点进行标准化，并将其作为新的表情表示。

进一步地，所述体渲染模块中，将身份隐码、表情隐码和采样点位置编码一起输入隐式神经函数，同时，将身份隐码再一次输入2n层多层感知器的第n+1层全连接层；利用身份隐码、表情隐码和采样点位置编码预测出采样点的密度值和一个中间特征；纹理隐码和光照隐码将在此基础上预测出一个高维特征，继而借助体渲染生成特征图。

进一步地，所述语义网络的上采样模块Ψ中，对HeadNeRF的2D神经渲染模块加入降噪滤波层，降噪滤波层采用RDN网络，用于有效滤除人脸上的噪点。

进一步地，所述参数化人脸模型的损失函数包括像素损失、解耦损失、感知损失、语义损失和分布损失；

所述语义损失L_sem的公式为

其中，w_*是平衡语义网络的像素损失

和感知损失

的超参数权重；

所述分布损失L_dist的公式为

其中，

是RGB网络的体渲染模块生成的特征图，

是正确的上采样模块Θ的输入分布。

进一步地，所述参数化人脸模型的训练过程中，先用Ψ代替Θ，并且用训练集中随机选取地部分人脸图片来预训练替换后的参数化人脸模型，接着，将RGB网络中的Ψ替换为Θ；

将正式的训练分为三个阶段，在第一阶段，将随机的傅里叶特征输入Θ，同时，用均方误差来约束

和

之间的分布差异；在第二阶段，用

替换

并且将前者输入Θ中；在训练的前两阶段，固定预训练的Θ的模型参数，避免其被训练中相对大的噪声干扰，在第三阶段，让上采样模块Θ的模型参数开始自由变化，使得参数化人脸模型能够有效学习人脸的细节和困难表情。

进一步地，在训练的第一阶段，将分布损失的权重调得相对较大，并将分布损失作为损失函数的主体，而在接下来的两个训练阶段，降低分布损失的权重并让参数化人脸模型的注意力集中在学习输入图片的人脸信息上。

由上述本发明提供的技术方案可以看出，本发明的有益效果是：

1)通过提出一种可语义解耦编辑的参数化人脸模型，引入新的身份和表情表示以及语义分割网络，可以对人脸细节、困难表情进行高保真重建，清晰地合成大角度新视角人脸。

2)通过本发明设计的新的可编辑参数化人脸模型，可以解耦地对生成的人脸进行属性编辑，使得模型在人脸表情迁移、人脸风格化中都有丰富的应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种可编辑参数化人脸模型的网络结构图；

图2为本发明实施例提供的模型所生成人脸图片视角一致性示例图；

图3、图4、图5、图6为本发明实施例提供的模型所生成人脸图片可语义解耦编辑示例图；

图7为本发明实施例提供的模型进行大角度相机位姿合成定性对比示意图；

图8为本发明实施例提供的模型和HeadNeRF重建结果定性对比示意图；

图9为本发明实施例提供的模型和目前最佳的人脸生成模型重建结果定性对比示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于隐式神经函数的高保真三维人脸重建与生成方法，包括以下步骤：

步骤1、根据收集的高清人脸单目视频数据集和高清单张人脸数据集构建训练集，对训练集中的训练数据进行预处理。

本发明实施例采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注。此外，由于现有算法对单目视频的标注会出现明显的帧间抖动现象，因此本发明实施例采用一欧元滤波算法，有限减轻了帧间的标注抖动，保证训练的稳定性。

步骤2、如图1所示，对训练集中任意人脸图片，将其输入可语义编辑的参数化人脸模型中，生成对应的渲染RGB图像和渲染语义分割图。本步骤具体的网络结构和模型表示如下：

将本发明设计的可语义编辑的参数化人脸模型记为HeadNeRF V2，它由两个平行的网络组成，分别为RGB网络记为RGBNet和语义网络记为SemanticNet。

首先介绍体渲染模块。给定带有关键点标注的单张人脸图片或单目视频序列，沿着相机光线采样，记采样点为

对x进行位置编码，记为γ(x)。接着将其输入一个基于多层感知器的隐式神经函数h_θ，后者可以被公式化为：

其中，θ代表网络参数，z_*代表输入人脸的语义隐码：身份隐码z_id，表情隐码z_lm，纹理隐码z_alb和光照隐码z_ill，记z＝(z_id,z_lm,z_alb,z_ill)，其中括号表示向量的拼接。本实施例中，

利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息，提取出其中的纹理和光照向量作为z_alb和z_ill的初始化。在体渲染模块的语义隐码输入初始化阶段，为了弥补3DMM的身份向量对人脸身份表达能力不足的问题，即该向量无法表达人脸的牙齿和头发等细节，本实施例基于MagFace预训练了一个人脸识别网络，推断出一个128维的身份特征作为z_id，增强了可学习隐码对大量身份的表达能力。

如步骤1中所述，为了在训练阶段使用大量数据，增加模型的可泛化性，本发明不采用人工标注的关键点数据作为训练集。取而代之，利用目前最佳的关键点标注算法InsghtFace对单目视频和单张人脸图片进行关键点标注。接着，利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格，抽取出基准空间的k×3维3D关键点，本实施例中k取68。特别地，本发明在3D关键点参与相机参数变换前将其抽出，从而保证其不包含相机参数的信息，使得其与相机参数自然地解耦。本发明对3D关键点进行标准化，并将其作为新的表情表示，即

此外，对于体渲染模块，本发明将z_id和z_lm与γ(x)一起输入h_θ。同时，将z_id再一次输入2n层多层感知器的第n+1层全连接层(对于八层多层感知器，输入第五层全连接层)，使得模型可以更好地学到身份信息。接着，利用z_id，z_lm和γ(x)预测出x的密度值σ和一个中间特征。z_alb和z_ill将在此基础上预测出一个高维特征F(x)。继而借助体渲染生成特征图

其中，

r(t)代表从相机中心射出的一条光线。为了区分RGBNet和SemanticNet中的体渲染模块，分别用Φ_i,i∈{1,2}来表示它们，即Φ₁表示RGBNet的体渲染模块，Φ₂表示SemanticNet的体渲染模块，并用

表示对应的特征图。

接着，介绍RGBNet的上采样模块Θ。将特征图

作为上采样模块Θ的输入，同时将z输入基于多层感知器的映射网络M并将其映射到512维，记为w。接着将w作为风格隐码输入上采样模块Θ的每一层子网络，引导参数化人脸模型HeadNeRF V2去有效学习人脸细节信息。在图像信号经过上采样模块Θ之后，特征图

被转换为了分辨率为1024的RGB图像，记为I₁。

对于SemanticNet，由于相对于RGB图片，语义分割图不包含太多的高频信息，因此不需要像RGBNet的上采样模块Θ这样精细的结构。取而代之，在得到特征图

后，将其输入到基于HeadNeRF的2D神经渲染模块得到的上采样模块Ψ中，得到相应的分辨率为1024的语义分割图I₂。优选地，对HeadNeRF的2D神经渲染模块加入降噪滤波层，降噪滤波层采用RDN网络，可以将人脸上的噪点有效滤除。SemanticNet的加入不仅增强了参数化人脸模型HeadNeRF V2对人脸语义信息的学习，也纠正了I₁和真实RGB图片之间的误差，加速了模型的学习。

此外，由于输入参数化人脸模型的语义隐码z是可学习的，因此它作为RGBNet和SemanticNet之间的桥梁来传递网络之间的人脸信息。

步骤3、本发明实施例中，参数化人脸模型HeadNeRF V2的模型参数和语义隐码z_id,z_lm,z_alb,z_ill都参与优化。本发明精心设计了有利于HeadNeRF V2训练的损失函数，并将其叙述如下：

(1)像素损失：

本发明实施例的像素损失可以用公式表达为：

其中，

分别表示RGBNet和SemanticNet的图片损失和训练图片真实值。

(2)解耦损失：

本发明实施例的解耦损失可以帮助语义隐码，即身份、表情、纹理和光照进行良好地解耦。本发明实施例的解耦损失可以用公式表达为：

其中，z_*表示可学习的隐码，

表示输入图片的初始化隐码，w_*表示平衡各项隐码损失的超参数权重。

(3)感知损失：

感知损失LPIPS是一种图片感知损失，可以引导参数化人脸模型HeadNeRF V2的上采样模块，尤其是Θ学习人脸的细节信息，同时增强所生成图片的真实感和清晰度。本发明实施例的感知损失记为

(4)语义损失：

本发明实施例的语义损失可以优化可学习的隐码z，而z的变化将会调节RGB图像I₁，从而帮助RGBNet学习人脸语义信息以及细微表情，加速模型的训练。本发明实施例的语义损失可以用公式表达为：

其中，w_*是平衡SemanticNet的像素损失

和感知损失

的超参数权重。

(5)分布损失：

本发明实施例的分布损失对上采样模块Θ的训练十分关键。只有使RGBNet的体渲染模块生成的特征图

的分布学到预训练的上采样模块Θ的输入分布

上采样模块Θ才能避免信号干扰，发挥其强大的生成能力。本发明实施例的分布损失可以用公式表达为：

其中，

是正确的上采样模块Θ的输入分布。本发明将正式的训练分为三个阶段，在阶段一，将分布损失的权重w_dist调得相对较大，并将分布损失作为损失函数的主体，而在接下来的两个训练阶段，降低权重w_dist并让参数化人脸模型HeadNeRF V2的注意力集中在学习输入图片的人脸信息上。将在步骤4中具体描述上述三个训练阶段。

(6)总体损失：

实验表明，本发明实施例的最优损失函数组合为：

其中，w_*代表平衡各项损失的权重，而将w_sem调得适当小使得模型可以更集中于学习RGB图像的高频信息。

参数化人脸模型HeadNeRF V2的损失函数设计很好地保证了其对困难表情、人脸细节和可编辑语义属性的学习。

步骤4、本发明实施例中，RGBNet的上采样模块Θ在预训练时的输入分布

服从一个特定的分布，例如可以服从傅里叶分布，从而保证网络的平移和旋转不变性。然而，

和

的分布差异很大，因此直接用前者代替后者输入上采样模块只能生成充满噪声块的图片。因此，本发明精心地设计训练策略来使上采样模块可以发挥其优势。

本发明先用Ψ代替Θ，并且用训练集中随机选取地部分人脸图片来预训练替换后的参数化人脸模型，这样Φ_i,i∈{1,2}可以学到神经辐射场的特征分布。接着，将RGBNet中的Ψ替换为Θ。

本发明将正式的训练分为三个阶段。在第一阶段，将随机的傅里叶特征输入Θ，而不是直接将

输入其中，同时，用均方误差来约束

和

之间的分布差异。在第二阶段，用

替换

并且将前者输入Θ中。本发明用特殊的替换方法来保证训练的稳定性。在这一阶段，由于

的引导，参数化人脸模型HeadNeRF V2可以学得控制相机位姿和人脸语义属性的能力。

在训练的前两阶段，固定预训练的Θ的模型参数，避免其被训练中相对大的噪声干扰。而在第三阶段，让上采样模块Θ的模型参数开始自由变化，使得参数化人脸模型HeadNeRF V2可以有效学习人脸的细节和困难表情。

得益于预训练的Θ和输入Θ的语义隐码z中蕴含的先验人脸信息的帮助，参数化人脸模型HeadNeRF V2生成的人脸图片具有很高的真实感和清晰度。

步骤5、本发明实施例在参数化人脸模型HeadNeRF V2训练完成后，可以对测试图片进行新视角合成、可解耦语义编辑以及表情迁移应用。

如附图2所示，我们展示HeadNeRF V2对相机位姿的解耦控制及合成的新视角图片的视角一致性。借助预训练的HeadNeRF V2，我们对输入的测试图片进行重建，并且通过改变相机位姿生成新视角的图片。从图中可以看出，我们的新视角图片在各个相机位姿下都有很好的视角一致性。同时，我们的相机位姿编辑不会影响身份、表情等人脸属性，说明前者和人脸属性可以很好地解耦。

如附图3所示，我们首先对两侧的人脸进行重建，接着对他们的身份隐码进行插值，中间的生成结果则是我们连续变换身份隐码并输入HeadNeRF V2后得到的新身份人脸图片。

如附图4、5、6所示，最左侧的人脸为我们随机输入HeadNeRF V2的测试图片重建得到的结果，我们分别任意给定一个目标纹理、表情、光照隐码，类似地，借助预训练的HeadNeRF V2，我们可以对重建的人脸进行连续的纹理、表情和光照编辑。我们对身份、表情等属性的单独编辑不会改变人脸的其它属性，这展示了HeadNeRF V2语义编辑的良好解耦性。

如附图7所示，我们对比了HeadNeRF V2和目前最佳的人脸生成模型对大角度相机位姿人脸的合成结果，可以看到GAN-Control生成的人脸会有面部轮廓黑线、悬浮镜框等不自然的人脸细节，而HeadNeRF V2则可以自然地合成大角度新视角人脸，验证了模型的稳定性。

如附图8所示，我们任意输入测试图片并和HeadNeRF对比重建结果，可以看到HeadNeRF重建的人脸模糊且有泛白现象，同时无法对细微表情和眼镜等很好地进行还原，而HeadNeRF V2的重建结果则清晰而高保真。

如附图9所示，我们和目前最佳的几个人脸生成模型进行了人脸重建结果的对比。可以看到，EG3D等模型重建的结果在视角一致性和困难表情的重建上效果不够理想，改变相机位姿会影响身份，而HeadNeRF V2则可以高保真地重建人脸并保持视角一致性。

我们定量地将HeadNeRF V2生成图片的FID值与目前最佳的人脸重建和人脸生成模型进行对比，如表1所示，可以看到，我们的结果仅次于EF3D。但后者无法进行语义编辑，只能较小角度地调节相机位姿且训练数据分布稳定，而我们在计算HeadNeRF V2的FID值时出于公平起见进行了简单的双线性下采样，这导致了图像信息的损失从而造成FID值比真实值高。

表1HeadNeRF V2和其他人脸生成及重建模型的重建结果定量对比表

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，步骤S1中，采用关键点标注算法InsightFace对训练数据中的人脸进行关键点标注；采用一欧元滤波算法减轻单目视频帧间的标注抖动。

3.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述体渲染模块中，利用人脸追踪算法并基于三维可变形人脸模型3DMM来逆向优化出输入人脸的3DMM信息，提取出其中的纹理向量和光照向量分别作为纹理隐码和光照隐码的初始化；基于MagFace预训练一个人脸识别网络，推断出身份特征作为身份隐码。

4.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述体渲染模块中，利用人脸的语义隐码和标注的k点关键点生成对应的人脸网格，抽取出基准空间的k×3维3D关键点，对3D关键点进行标准化，并将其作为新的表情表示。

5.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述体渲染模块中，将身份隐码、表情隐码和采样点位置编码一起输入隐式神经函数，同时，将身份隐码再一次输入2n层多层感知器的第n+1层全连接层；利用身份隐码、表情隐码和采样点位置编码预测出采样点的密度值和一个中间特征；纹理隐码和光照隐码将在此基础上预测出一个高维特征，继而借助体渲染生成特征图。

6.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述语义网络的上采样模块Ψ中，对HeadNeRF的2D神经渲染模块加入降噪滤波层，降噪滤波层采用RDN网络，用于有效滤除人脸上的噪点。

7.根据权利要求1所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述参数化人脸模型的损失函数包括像素损失、解耦损失、感知损失、语义损失和分布损失；

所述语义损失L_sem的公式为

其中，w_*是平衡语义网络的像素损失

和感知损失

的超参数权重；

所述分布损失L_dist的公式为

其中，

是RGB网络的体渲染模块生成的特征图，

是正确的上采样模块Θ的输入分布。

8.根据权利要求7所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，所述参数化人脸模型的训练过程中，先用Ψ代替Θ，并且用训练集中随机选取地部分人脸图片来预训练替换后的参数化人脸模型，接着，将RGB网络中的Ψ替换为Θ；

和

之间的分布差异；在第二阶段，用

替换

9.根据权利要求8所述的一种基于隐式神经函数的高保真三维人脸重建与生成方法，其特征在于，在训练的第一阶段，将分布损失的权重调得相对较大，并将分布损失作为损失函数的主体，而在接下来的两个训练阶段，降低分布损失的权重并让参数化人脸模型的注意力集中在学习输入图片的人脸信息上。