CN117333604A

CN117333604A - 一种基于语义感知神经辐射场的人物面部重演方法

Info

Publication number: CN117333604A
Application number: CN202311372550.1A
Authority: CN
Inventors: 王子梦; 顾晓玲; 吴子朝; 匡振中; 俞俊
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-02

Abstract

本发明公开了一种基于语义感知神经辐射场的人物面部重演方法，包括如下步骤：步骤(1)收集任务的数据，并对数据进行预处理，进而构建数据集；步骤(2)构建基于语义感知的神经辐射场网络模型，步骤(3)利用反向传播算法的基于语义感知的神经辐射场网络模型的参数进行训练，直至整个模型收敛，所述参数的训练是在最小化光度损失和语义损失下，利用预处理后的数据集训练；步骤(4)应用完成训练后的基于语义感知的神经辐射场网络模型生成对应的人脸图像。该方法将表情和姿态参数作为语义感知神经辐射场的输入，精准地控制人物重演图像的生成。经过在NeRFace数据集上的实验验证，取得了出色的定量和定性结果。

Description

一种基于语义感知神经辐射场的人物面部重演方法

技术领域

本发明涉及人物面部重演技术领域，具体指提到了一种基于语义感知神经辐射场的人物面部重演(Semantic-Aware Neural Radiance Fields for Facial Reenactment)方法，其中主要涉及一种基于语义感知的动态神经辐射场方法，能够有效地表示特定的3D人脸，并且可以利用表情和姿态参数来精确地控制人脸的生成过程。

背景技术

人物面部重演在数字人、增强现实、虚拟现实和视频编辑等领域具有巨大的应用潜力。然而，这是计算机视觉和计算机图形领域中一个极具挑战性的问题。传统方法通常无法捕捉到人脸的微妙细节和表情变化，导致生成的人脸图像缺乏真实感。目前，人物面部重演方法得到了广泛研究，并且有很多人物面部重演的方案被提出，大致可分为基于传统方法的人物面部重演和基于深度学习的人物面部重演。

基于传统方法的人物面部重演通过特征点检测、特征提取、插值、图像合成和细节处理等步骤，以修改或合成人脸图像。这些方法具有计算效率高、解释性强和灵活性等优点，但受到特征提取和插值技术的限制，难以应对复杂的任务，如真实性合成和细致的特征编辑。此外，它们对输入数据质量要求较高，需要大量的手工工程和调整。随着深度学习技术的崛起，深度神经网络已成为主流，因为它们能够更好地处理复杂任务和更广泛的数据集。这一方法的核心是利用生成对抗网络(GAN)等深度神经网络，以自动生成、修改或合成极为逼真的人脸图像。在这个过程中，生成器神经网络负责生成图像，判别器神经网络则负责区分生成的图像与真实图像之间的差异。通过大规模的人脸图像数据训练，生成器的目标是欺骗判别器，生成尽可能逼真的图像。这一方法的优势在于生成结果的逼真性，通常令人难以辨别生成图像与真实图像之间的区别，而且它可以应用于多个领域，包括虚拟人物创建、面部表情编辑、特效制作、面部重建以及提高图像分辨率。相较于传统方法，深度学习方法减少了手动工程和调整的需求，自动化程度更高。神经辐射场(Neural RadianceFields，NeRF)是一种先进的计算机图形学技术，能够生成高度逼真的3D场景。它通过深度学习的方法从2D图片中学习，并生成连续的3D场景模型。NeRF的关键思想是通过仅由全连接层组成的神经网络对颜色和密度作为空间位置和视角的函数进行编码，并采用体绘制(Volume Rendering)技术进行新视图的合成。尽管NeRF已在静态场景中展现出卓越的渲染质量，但在动态场景的重构方面仍然存在挑战。为应对这一问题，研究者们逐渐将NeRF的原理应用于人物面部重演，引入了可变形神经辐射场的概念。这一创新允许我们更好地捕捉在单目视频中出现的非刚性变形面部，提高了动态人脸的重演质量。然而，尽管取得了显著进展，动态人脸的准确重演仍然是一个复杂的问题，需要进一步的研究和创新。为此，我们的任务需要解决几个具有挑战性的问题。

1)捕捉人脸非刚性运动的困难性

非刚性运动是指面部的变形和运动不仅仅受到肌肉收缩的影响，还受到皮肤、软组织和骨骼结构的影响。因此，捕捉非刚性运动以及其与表情之间的关系是具有挑战性的问题。

2)头部姿态、面部表情和躯干的运动差异显著

虽然容易将头部姿势与摄像机姿势绑定在一起，但使用一个模型准确地建模面部表情和躯干的非刚性运动非常具有挑战性。

3)逼真度和自然性

创建逼真和自然的人物面部重演是一个主要挑战。人们对面部表情和动作的感知非常敏感，因此生成的重演结果必须能够准确地捕捉到微妙的面部细节，包括肌肉运动、眼睛的闪烁、嘴唇的形状等。

发明内容

本发明提供了一种基于语义感知神经辐射场的人物面部重演方法，该方法将表情和姿态参数作为语义感知神经辐射场的输入，精准地控制人物面部重演图像的生成。经过在NeRFace数据集上的实验验证，取得了出色的定量和定性结果。

一种基于语义感知神经辐射场的人物面部重演方法，包括如下步骤：

步骤(1)收集任务的数据，并对数据进行预处理，进而构建数据集，所述数据集包括人脸图像、表情参数、姿态参数、人脸语义信息；

步骤(2)构建基于语义感知的神经辐射场网络模型，所述基于语义感知的神经辐射场网络模型包括语义感知动态光线采样模块、超空间变形模块、语义感知神经辐射场和体绘制模块；

步骤(3)利用反向传播算法的基于语义感知的神经辐射场网络模型的参数进行训练，直至整个模型收敛，所述参数的训练是在最小化光度损失和语义损失下，利用预处理后的数据集训练；

步骤(4)应用完成训练后的基于语义感知的神经辐射场网络模型生成对应的人脸图像。

作为优选，所述步骤(1)中，输入人脸图像，使用人脸三维形变模型从人脸图像中估计人脸的表情参数和人物的头部姿态参数；使用人脸解析器来计算一个包含12个标签的人脸语义信息。

其中，计算出的表情参数为76维向量，头部的姿态参数为4*4的矩阵。另外，包含12个标签的人脸语义信息，每个标签代表脖子、躯干、背景和人物头部的特定部分，比如脸颊、鼻子、眼睛和眉毛等区域。

作为优选，所述语义感知动态光线采样模块是采用动态光线采样策略进行均匀采样，具体方法如下：

第i个类别的图像区域光线采样概率如下：

其中，是上一轮迭代中第i个语义类别的语义损失和光度损失的总和，初始时,因此，第i个类别的图像区域需采样的光线数量为：

N_i＝p_i·N_s

其中，N_s＝2048是采样的光线总数量。

作为优选，所述超空间变形模块包括两个多层感知机，第一个所述多层感知机的深度为6，宽度为128，第二个所述多层感知机的深度为6，宽度为64。

作为优选，所述步骤S2中，通过第一个多层感知机得到基准空间下的坐标的位移量，具体方法如下：

给定观察空间下的坐标表情参数/>和头部的姿态信息统一变形函数/>被训练成输出位移/> 将观察空间下的坐标x转换为基准空间下的坐标x′，即x′＝x+Δx，表达式如下：

Γ(x)＝[sin(2⁰πx),cos(2⁰πx),…,sin(2^L-1πx),cos(2^L-1πx)]

其中，为正弦位置编码，L＝10；函数/>的输入为Γ(x)、头部姿态p和表情参数γ的拼接，输出为将观察空间下的坐标x转换到基准空间下的位移量Δx。

作为优选，所述步骤S2中，通过第二个多层感知机得到环境坐标，具体方法如下：

每个观察空间下的坐标x，在给定表情参数γ和头部的姿态信息p的情况下，通过一个超空间映射函数映射到环境空间下的坐标/>该点定义了超空间中横截面子空间的坐标，超空间映射函数/>的表达式如下：

该函数的输入为Γ(x)、头部的姿态信息p和表情参数γ的拼接，输出为环境空间下的坐标w。

作为优选，所述语义感知神经辐射场包括一个主干多层感知机和两个分支多层感知机，所述主干多层感知机的深度为8，宽度为256，两个分支多层感知机分别为RGB分支和语义分支，两个所述分支多层感知机的深度均为4，宽度均为128。

作为优选，所述步骤S2中，通过语义感知神经辐射场得到RGB值和语义标签，具体方法如下：

将基准空间下的坐标x′、视角方向d和环境空间下的坐标w映射到像素的颜色和K个语义标签的分布上。该表述如下：

Γ(d)＝[sin(2⁰πd),cos(2⁰πd),…,sin(2^M-1πd),cos(2^M-1πd)]

Γ(w)＝[sin(2⁰πw),cos(2⁰πw),…,sin(2^N-1πw),cos(2^N-1πw)]

其中，c为RGB值，s为长度为12的语义标签；为正弦位置编码，M＝6；/>N＝4；/>由主干多层感知机和两个分支多层感知机构成，主干多层感知机的输入为Γ(x′)和Γ(w)的拼接，输出为长度256的特征向量β，RGB分支的输入为β和Γ(d)的拼接，输出为RGB值c，语义分支的输入为β，输出为语义标签s。

作为优选，所述步骤S2中，通过体绘制模块进行体积渲染输出重构结果，具体方法如下：

让x(t)表示沿着从投影中心o发射到像素v的相机射线r(t)＝o+td上的一个点，该射线上的近界和远界t_n和t_f，像素v的期望颜色C和语义值S可以表示为：

其中，

其中，以基准空间下的坐标的位置编码、环境空间下的坐标的位置编码和视角方向的位置编码作为输入，输出RGB值、语义值和体密度，随后，对语义值进行softmax激活函数处理，将其转化为多类别概率。

作为优选，所述基于语义感知的神经辐射场网络模型的训练方法为：

使用光度损失和语义损失/>的组合进行训练的：

其中，是每个批次中的光线集合，C(r)、/>和/>分别是射线r的实际RGB值、粗网络体预测RGB值和细网络体预测RGB值；p^l(r)、/>和/>分别表示射线r的实际多类别语义概率、粗网络体预测的多类别语义概率和细网络体预测的多类别语义概率，

因此，模型的总训练损失为：

其中，λ为语义损失的权重，用于平衡两种损失的幅度。

本发明有益效果：

与现有方法相比，本发明解决了多个关键问题，改进了人物面部重演质量和连贯性。首先，现有方法在处理面部表情时常常出现不自然的情况，导致生成的重演结果显得生硬和失真。然而，本发明引入了语义感知神经辐射场，有助于更准确地呈现面部表情，从而使重演图像更加自然和流畅。其次，许多方法在生成重演图像时存在头部和躯干分离的问题，这会导致生成不协调的动作和姿态。本发明通过统一的模型处理头部和躯干的运动，使得运动更加连贯和真实，增强了整体效果。此外，本发明还利用了最先进的人脸三维变形模型提取人脸的表情和姿态参数，这意味着它能够更自然地捕捉人脸表情和姿态的微妙变化。这进一步提高了生成的人物面部重演图像的精确性和逼真度，使其更具吸引力和可信度。这项发明的益处不仅体现在重演的质量和连贯性方面，还可扩展到更广泛的应用领域，如虚拟现实、娱乐产业和教育等。

附图说明

图1是本发明方法的流程示意图。

图2是本发明方法中语义感知神经辐射场网络模型。

图3是本发明数据组示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明提供了一种基于语义感知神经辐射场的人物面部重演方法，该方法将表情和姿态参数作为语义感知神经辐射场的输入，精准地控制人物面部重演图像的生成。经过在NeRFace数据集上的实验验证，我们取得了出色的定量和定性结果。

如图1所示，一种基于语义感知神经辐射场的人物面部重演方法，其步骤如下：

步骤(1)、借助现有的人脸数据集，收集任务的数据，并对数据进行预处理，构建人脸图像、表情参数、姿态参数、语义信息数据组。

步骤(1)所述的借助现有人脸数据集，收集任务的数据，本实施例中在NeRFace数据集上评估了人物面部重演方法，它包含3个不同的人脸数据集，对每个人脸数据集分别进行评估。

具体的，所述的构建人脸图像、表情参数、姿态参数、语义信息数据组，是指对于对应的人脸图像数据，使用最先进的人脸三维形变模型(3D morphable model，3DMM)从人脸图像中估计人脸的表情参数和人物的头部姿态参数，计算出的表情参数为76维向量，头部姿态参数为4*4的矩阵。另外，使用先进的人脸解析器来计算一个包含12个标签的人脸语义信息，每个标签代表脖子、躯干、背景和人物头部的特定部分，比如脸颊、鼻子、眼睛和眉毛等区域。

步骤(2)、在现有人脸数据集下，以生成自然准确的人脸图像为目标，构建基于语义感知的神经辐射场网络模型。

所述的构建基于语义感知的神经辐射场，生成连续逼真的人物面部重演图像。

本发明的进一步设置，如图2所示，展示了基于语义感知的神经辐射场模型网络架构。基于语义感知的神经辐射场网络模型由语义感知动态光线采样模块、超空间变形模块、语义感知神经辐射场和体绘制模块构成。

具体的，语义感知动态光线采样模块具体实现如下：

在最初的NeRF模型中对一张图片进行光线采样时采用均匀采样策略，即所有像素点以相等的概率(其中W、H分别为图片的宽和高)进行采样。然而存在以下难点，场景中的人像部分明显比背景更重要，而在面部特征中，口部显然是更需要关注的部分。因此，让语义感知动态光线采样模块更专注于这些小但重要的部分对于在最终生成中获得更好的结果至关重要。

与原始NeRF在图像平面上进行均匀采样策略不同，本实施例中采用动态光线采样策略，以使模型能够更专注于小但重要的区域，如口部区域。第i个类别的图像区域采样概率如下：

N_i＝p_i·N_s

其中，N_s＝2048是采样的光线总数量。

超空间变形模块具体实现如下：

需要处理人像不同部分之间不一致的运动。对于头部和面部运动的不一致性，简单将表情参数作为条件来实现动态NeRF，这会导致约束不足的问题，生成图像将会出现伪影。对于头部和躯干运动的不一致性，有些技术采用了两个NeRF模型分别对这两个部分进行建模，这导致了头部和躯干分离的生成结果。为了解决这些问题，本实施例中，使用一个超空间变形模块将观察空间的坐标映射到基准超空间，以学习更自然的人脸形变和头部-躯干运动。超空间变形模块由统一的变形函数和超空间映射函数构成。

统一的变形函数被优化用于估算观察空间中的场景与基准空间中的场景之间的变形场。然而，当头部姿态充当相机姿态且不考虑头部的刚性运动时，面部的变形仅依赖于面部表情，而躯干的变形受到头部姿态和面部表情的双重影响(即使影响可能很轻微)。为了使该函数能够建模头部和躯干的非刚性形变，本实施例选择采用了一种直接的方法，即将头部姿态和表情参数作为输入传递给该函数。形式上，给定观察空间下的坐标表情参数/>和头部姿态/>统一变形函数/>被训练成输出位移/>将观察空间下的坐标x转换为基准空间下的坐标x′，即x′＝x+Δx。

Γ(x)＝[sin(2⁰πx),cos(2⁰πx),…,sin(2^L-1πx),cos(2^L-1πx)] (公式2)

其中，为正弦位置编码，L＝10；函数/>被设计成深度为6，宽度为128的多层感知机(Multilayer Perceptron，MLP)，并在第4层将Γ(x)作为残差输入。该函数的输入为Γ(x)、头部姿态p和表情参数γ的拼接，输出为将观察空间下的坐标x转换到基准空间下的位移量Δx。

然而，连续的变形场无法充分表示面部的拓扑形变，例如眨眼睛、嘴巴张开和闭合等，这可能导致伪影的生成。为此，利用一个超空间映射函数来表示每个输入图像的5D辐射场，将其作为超空间中的一个切片。具体而言，类似于统一的变形函数，每个观察空间下的坐标x，在给定表情参数γ和头部姿态p的情况下，通过一个超空间映射函数映射到环境空间下的坐标/>该点定义了超空间中横截面子空间的坐标。这个函数的形式如下：

其中，函数被设计成深度为6，宽度为64的多层感知机，并在第4层将Γ(x)作为残差输入。该函数的输入为Γ(x)、头部姿态p和表情参数γ的拼接，输出为环境空间下的坐标w。

语义感知神经辐射场模块的具体实现如下：

关于隐式场景表示的研究表明，相似类别的物体更有可能具有相似的形状和外观。使用语义图作为先验信息可以帮助模型不同地处理肖像的不同部分。通过在注入视角方向到MLP之前引入语义分支来增强原始的NeRF，并提出了一种将语义分割表述为天生具有视角不变性的函数的方法。具体而言，将基准空间下的坐标x′、视角方向d和环境空间下的坐标w映射到像素的颜色和K个语义标签的分布上。该表述如下：

Γ(d)＝[sin(2⁰πd),cos(2⁰πd),…,sin(2^M-1πd),cos(2^M-1πd)] (公式5)

Γ(w)＝[sin(2⁰πw),cos(2⁰πw),…,sin(2^N-1πw),cos(2^N-1πw)] (公式6)

其中，c为RGB值，s为长度为12的语义标签；为正弦位置编码，M＝6；/>N＝4；/>由主干多层感知机和两个分支多层感知机构成。主干多层感知机的深度为8，宽度为256，并在第4层将Γ(x′)作为残差输入。主干多层感知机的输入为Γ(x′)和Γ(w)的拼接，输出为长度256的特征向量β。两个分支多层感知的深度为4，宽度为128，一个为RGB分支，一个为语义分支。RGB分支的输入为β和Γ(d)的拼接，输出为RGB值c。语义分支的输入为β，输出为语义标签s。

提出的语义感知方法不仅实现了整个图像各部分的自然分割，还利用预测的语义信息来提高3D重建的准确性和质量。

体绘制模型的具体实现如下：

将NeRF体积渲染方程调整为计算单个像素的语义和颜色，并考虑统一变形函数和超空间映射函数。让x(t)表示沿着从投影中心o发射到像素v的相机射线r(t)＝o+td上的一个点。考虑该射线上的近界和远界t_n和t_f，像素v的期望颜色C和语义值S可以表示为：

其中，

其中，以基准空间下的坐标的位置编码、环境空间下的坐标的位置编码和视角方向的位置编码作为输入，输出RGB值、语义值和体密度。随后，可以对语义值进行softmax激活函数处理，将其转化为多类别概率。在(公式7)、(公式8)、(公式12)中，体积渲染积分可以通过数值积分进行近似。

步骤(3)利用反向传播算法的基于语义感知的神经辐射场网络模型的参数进行训练，直至整个模型收敛，所述参数的训练是在最小化光度损失和语义损失下，利用预处理后的数据集训练。

构建深度学习框架，在最小化光度损失和语义损失下，如图3所示，利用收集到的数据组训练语义感知神经辐射场网络模型。具体如下：

为了保证模型能够生成高保真且具有3D一致性的人脸图像，采用了光度损失和语义损失对模型进行训练，并且与NeRF类似，采用分层体积采样策略，同时优化粗网络和细网络。这两个网络都是使用光度损失和语义损失/>的组合进行训练的：

其中，是每个批次中的光线集合，C(r)、/>和/>分别是射线r的实际RGB值、粗网络体预测RGB值和细网络体预测RGB值；p^l(r)、/>和/>分别表示射线r的实际多类别语义概率(在类别l处)、粗网络体预测的多类别语义概率和细网络体预测的多类别语义概率。因此，模型的总训练损失为：

其中，本实施例中，λ＝0.02为语义损失的权重，用于平衡两种损失的幅度。

将待重构的图像输入至步骤(3)中完成训练的基于语义感知的神经辐射场网络模型，进而输出对应的人脸图像。

基于本实施例所提供的技术方案，本实施例将NeRFace数据集中的数据通过步骤(1)构建测试集，然后输入完成训练的基于语义感知的神经辐射场网络模型中，根据输出的人脸图像，得到以下定量指标，如表1所示。

表格1在NeRFace数据集上实验的定量结果

如表格1所示，本实施例在NeRFace数据集上将提出的方法和先前的两种人物面部重演方法FOMM和NeRFace进行了定量对比。通过观察表格不难发现，本实施例的方法在所有评估指标上都有明显的提升，优于先前的两种方法。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述步骤(1)中，输入人脸图像，使用人脸三维形变模型从人脸图像中估计人脸的表情参数和人物的头部姿态参数；使用人脸解析器来计算一个包含12个标签的人脸语义信息。

3.根据权利要求1所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述语义感知动态光线采样模块是采用动态光线采样策略进行均匀采样，具体方法如下：

第i个类别的图像区域光线采样概率如下：

N_i＝p_i·N_s

其中，N_s＝2048是采样的光线总数量。

4.根据权利要求3所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述超空间变形模块包括两个多层感知机，第一个所述多层感知机的深度为6，宽度为128，第二个所述多层感知机的深度为6，宽度为64。

5.根据权利要求4所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述步骤S2中，通过第一个多层感知机得到基准空间坐标的位移量，具体方法如下：

给定观察空间下的坐标表情参数/>和头部的姿态信息/>统一变形函数/>被训练成输出位移/> 将观察空间下的坐标x转换为基准空间下的坐标x′，即x′＝x+Δx，表达式如下：

Γ(x)＝[sin(2⁰πx),cos(2⁰πx),…,sin(2^L-1πx),cos(2^L-1πx)]

其中，Γ(x):为正弦位置编码，L＝10；函数/>的输入为Γ(x)、头部姿态p和表情参数γ的拼接，输出为将观察空间下的坐标x转换到基准空间下的位移量Δx。

6.根据权利要求5所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述步骤S2中，通过第二个多层感知机得到环境坐标，具体方法如下：

7.根据权利要求6所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述语义感知神经辐射场包括一个一个主干多层感知机和两个分支多层感知机，所述主干多层感知机的深度为8，宽度为256，两个分支多层感知机分别为RGB分支和语义分支，两个所述分支多层感知机的深度均为4，宽度均为128。

8.根据权利要求7所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述步骤S2中，通过语义感知神经辐射场得到RGB值和语义标签，具体方法如下：

将基准空间下的坐标x′、视角方向d和环境空间下的坐标w映射到像素的颜色和K个语义标签的分布上，该表述如下：

其中，c为RGB值，s为长度为12的语义标签；Γ(d):为正弦位置编码，M＝6；Γ(w):/>N＝4；/>由主干多层感知机和两个分支多层感知机构成，主干多层感知机的输入为Γ(x′)和Γ(w)的拼接，输出为长度256的特征向量β，RGB分支的输入为β和Γ(d)的拼接，输出为RGB值c，语义分支的输入为β，输出为语义标签s。

9.根据权利要求8所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述步骤S2中，通过体绘制模块进行体积渲染输出重构结果，具体方法如下：

其中，

其中，以基准空间坐标的位置编码、环境空间坐标的位置编码和视角方向的位置编码作为输入，输出RGB值、语义值和体密度，随后，对语义值进行softmax激活函数处理，将其转化为多类别概率。

10.根据权利要求1所述的一种基于语义感知神经辐射场的人物面部重演方法，其特征在于，所述基于语义感知的神经辐射场网络模型的训练方法为：

使用光度损失和语义损失/>的组合进行训练的：

因此，模型的总训练损失为：

其中，λ为语义损失的权重，用于平衡两种损失的幅度。