CN115170559A

CN115170559A - 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法

Info

Publication number: CN115170559A
Application number: CN202210966077.9A
Authority: CN
Inventors: 高玄; 郭玉东; 张举勇
Original assignee: Hangzhou Xiangyan Technology Co ltd
Current assignee: Hangzhou Xiangyan Technology Co ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-10-11

Abstract

本发明公开了一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法。基于网格blendshape基底重建输入的RGB视频；通过求解逆向渲染问题，得到表情系数和相机参数；将每一帧人头部分分割出来，得到头部语义分割图；用每一帧的表情系数组合神经辐射场基底，得到多分辨率哈希表，令采样点在多分辨率哈希表上进行查询得到体素特征，用多层感知机将体素特征转换为采样点RGB和体密度，通过体渲染得到渲染图像；在采样过程中使用密度格阵记录空间中的密度信息来指导采样，并采用考虑表情系数的密度格阵更新策略，充分考虑人脸各表情所能达到的最大范围。通过对基底以及多层感知机的优化训练，最终得到高质量个性化的神经辐射场人头参数化模型。

Description

基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法。

背景技术

3D人脸/头部表示是计算机视觉和计算机图形学中的一个重要研究问题，在AR/VR、数字游戏和电影行业有着广泛的应用。如何表示动态人头场景并从单目RGB视频中保真地重建人头模型是一个重要且具有挑战性的研究课题。用低维系数表达人头的参数化头部模型，如blendshape基底，已经被研究和改进了很长时间。Blendshape基底用表情系数线性组合人头表情基底来生成人脸几何。它的优点有两个：一是这是一种语义参数化，表情系数的大小可以表征特定某一表情基对最终组合结果的影响。二是blendshape基底构建了一个合理的低维变形空间，可以降低用户编辑人脸表情的难度。

目前的如FaceWarehouse和FLAME等显式的blendshape基底旨在对具有不同表情的不同个体进行建模，因此可能会忽略很多个性化的几何和纹理细节。为了构建个性化的blendshape基底，传统的基于网格的方法通常采用变形迁移(deformation transfer)或构建多线性张量的人脸三维模型。然而，这些方法通常具有以下缺点。第一，基于网格的参数化显式模型很难表示非面部部分，如头发和牙齿。第二，如果要使用RGB监督，必须使用近似可微渲染技术来缓解不可微问题。第三，由于表示能力有限，变形迁移不能真实地重建表情。最后，面部表情受年龄以及肌肉运动等许多因素有关，而这些因素很难被一个泛化的显式blendshape基底模型表达。

最近，基于神经辐射场(NeRF)的方法使得合成逼真的头部图像成为可能。一些工作将神经辐射场与生成对抗网络结合。然而，这种生成模型将表情与身份耦合在一起，带来了表情编辑任务的困难。HeadNeRF提出了一种策略来解耦人头神经辐射场的不同的语义属性，但是受限于其本身泛化模型的容量，很难精确建模个性化的人脸细节还有人脸动态规律。AD-NeRF和NerFACE可以生成高度个性化的面部动画，他们的一人一训的策略使得模型可以学习到更多个性化的面部细节。然而，由于其使用了傅里叶编码以及张量拼接(concatenate)的策略，他们往往需要很长时间才能训练出一个合理的动态人头场。尽管已经有不少方法来加速静态神经辐射场的训练和推理，但如何实现对动态场景(例如复杂的头部变形)的快速训练仍然是一个问题。

发明内容

本发明针对现有技术的不足，提出了一种新型的个性化人头参数化模型——神经辐射场基底(英文名NeRF blendshape)并给出了这种模型的高效的重建方法。神经辐射场基底是一种在多层级体素场上定义的个性化人头基底，它具有快速收敛的性质，大约10-20分钟内构建一个逼真的个性化人头基底。它具有很强的表达能力，不仅从网格blendshape基底继承了良好的语义性，而且还可以学习到更多的个性化细节，包括非线性变形(脸颊褶皱、额头皱纹)，用户特定的属性(痣、胡须)，以及非面部的人头特征。与传统的网格blendshape基底相比，本发明提出的神经辐射场基底可以从单目RGB视频构建得到。本发明技术方案可以解决虚拟现实技术中的人头跨身份驱动、新视角合成等问题。

本发明的目的通过以下技术方案实现：一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，包括：

基于网格blendshape基底重建输入的RGB视频；通过求解逆向渲染问题，得到表情系数和相机参数；将每一帧人头部分分割出来，得到头部语义分割图；

用每一帧的表情系数组合神经辐射场基底，得到表情系数对应的多分辨率哈希表，令人头场景空间的采样点在多分辨率哈希表上进行查询得到体素特征，用多层感知机将体素特征转换为采样点RGB和体密度，通过体渲染得到渲染图像。

进一步地，所述神经辐射场基底的每个基底都是一个由多层级体素场表达的辐射场，所述多层级体素场是一个L层的特征存储结构，每一层均为一个体素场，每一个体素块存储长度为F的特征，使用多分辨率哈希表来压缩存储多层级体素场，多分辨率哈希表h是一个大小为L×T×F的特征表，T为哈希表大小。

进一步地，人头表示写为：

其中，I是最终渲染的图像，θ表示多层感知机可学习的权重，

表示采样、采样点特征访问以及体渲染，C是相机内外参，h₀∈R^L×T×F表示平均脸的多分辨率哈希表，H＝{h₁，h₂，...，h_K}，h_i∈R^L×T×F表示不同表情偏移量的多分辨率哈希表，K是基底个数，w＝{w₁，w₂，...，w_K}∈R^K是表情系数；表情系数对应的多分辨率哈希表的组合方式是：

进一步地，在采样过程中，使用密度格阵记录空间中的密度信息来指导采样，并采用考虑表情系数的密度格阵更新策略，充分考虑人脸各表情所能达到的最大范围。

进一步地，针对密度格阵更新策略，每个基底所对应的哈希表

其中，N是视频的总帧数，

为第j帧表情系数的第i维元素，h₀表示平均脸的多分辨率哈希表，h_i表示不同表情偏移量的多分辨率哈希表；取所有

对应的密度格阵的逐元素最大值，来得到最终的密度格阵。

进一步地，基于一个密度格阵进行光线采样的方法具体为：先从视点处开始采样，每个采样点都到密度格阵中查询密度值，若高于阈值，则继续采样，若低于阈值，则直接跳转至该光线与格阵下一体素交点处采样。

进一步地，对于空间中的任一点x，计算其在多分辨率哈希表上存储特征的方法具体为：先计算x在每一层上的对角点索引，将其输入给哈希函数得到哈希值，利用哈希值在哈希表上查找特征，再通过线性插值查找得到的特征，从而得到x对应的体素特征。

进一步地，用多层感知机g_θ将采样点x的体素特征转换为采样点RGB和体密度，表示为：

g_θ：(η(x；h)，γ(d))→(σ，c)

其中，c，σ分别表示采样点RGB和体密度，η(x；h)表示采样点x在哈希表h上查询得到的体素特征，γ(d)表示对视角向量d的位置编码。

进一步地，通过体渲染得到渲染图像，渲染单条光线RGB的计算式为：

其中，I(r)表示光线r对应的颜色，t，s为光线参数化变量，c(r(t))为光线上点r(t)对应的RGB，σ(r(s))，σ(r(t))分别为光线上点r(s)，r(t)对应的体密度。

进一步地，在训练阶段，通过图像RGB、头部语义分割图以及感知损失函数的监督，训练得到神经辐射场基底；在训练开始时，对神经辐射场基底进行随机初始化，在训练过程中不断更新神经辐射场基底

由上述本发明提供的技术方案可以看出：1)本发明的架构已经考虑了全局条件和局部特征(包括表情系数和查询得到的位置编码等)之间的关系。这种特征组合架构可以减轻多层感知机的学习负担。这样的结构比起广泛使用的张量拼接结构，更易于学习和收敛，表达能力也更强。2)本发明提出的神经辐射场基底可以同时捕获多尺度细节，而且不同层级的多分辨率哈希表的特征可以一并优化。3)通过本发明提出的密度格阵更新策略可以确保采样跳过了人脸动态无法覆盖到的部分。本发明的密度格阵更新策略会考虑表情动态，以确保考虑到头部区域可能占据的每个体素。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图做简单的介绍，显而易见得，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的神经辐射场基底构造管线。

图2为本发明实施例提供的不同方法的渲染图片结果展示图。

图3为本发明实施例提供的某身份测试集上PSNR随训练时间变化的曲线。

图4为本发明实施例提供的不同方法训练到不同的阶段时在测试集上的渲染效果图。

图5为本发明实施例提供的跨身份的表情驱动应用示意图。

图6为本发明实施例提供的人头的新视角合成应用示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明提供一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，图1为本发明方法管线示意图。

神经辐射场基底的每个基底都是一个由多层级体素场表达的辐射场。出于性能考虑，本发明采用多分辨率哈希表来存储多层级体素场。任何人头场景都可以表达为表情系数与基底的组合，基底个数与表情系数的维数保持一致。本发明采用一个多层感知机(MLP)来将体素场转换为体渲染的辐射场，并进一步根据面部运动范围确定了一个密度格阵(density grid)来指导高效采样。

本发明用一个多层级体素场来表示某一特定表情对应人头的辐射场，多层级体素场是一个L层的特征存储结构，每一层均为一个体素场，每一个体素块存储长度为F的特征。由于多层级体素场占用存储空间很大，在实际实现的时候，使用多分辨率哈希表来压缩存储多层级体素场，多分辨率哈希表h是一个大小为L×T×F的特征表，T为哈希表大小。

本发明中人头表示可以写为：

表示采样、采样点特征访问以及体渲染，C是相机内外参，h₀∈R^L×T×F表示平均脸的多分辨率哈希表，H＝{h₁，h₂，...，h_K}，h_i∈R^L×T×F表示不同表情偏移量的多分辨率哈希表，K是基底个数，而w＝{w₁，w₂，...，w_K}∈R^K是表情系数。表情系数对应的多分辨率哈希表的组合方式是：

对于人头场景空间中的一个采样点x，令其在哈希表h上查询，得到体素特征，然后用多层感知机将其转换为采样点RGB和体密度σ，最后通过体渲染得到渲染图像。

在一个实施例中，神经辐射场基底的构造方案如下：

基于一个网格blendshape基底，优化人脸参数，去拟合重建单人单目的RGB视频里的每一帧，得到每一帧的表情系数和相机参数。同时将每一帧的人头部分分割出来，得到头部语义分割图。

用每一帧的表情系数组合神经辐射场基底，得到表情系数对应的多分辨率哈希表，然后对于人头场景空间的采样点，在哈希表上进行查询，得到采样点RGB和体密度，最后渲染得到对应像素的颜色。通过图像RGB、头部语义分割图以及感知损失函数(perceptualloss)的监督，训练得到神经辐射场基底。在训练开始时，对神经辐射场基底进行随机初始化，在训练过程中不断更新神经辐射场基底。

为了加速采样和渲染，本发明用一个密度格阵记录空间中的密度信息来指导采样，为了充分考虑所有表情的密度分布，首先计算每一个基底所对应的哈希表

其中，N是视频的总帧数，

为第j帧表情系数的第i维元素；然后取所有

对应的密度格阵的逐元素最大值，来得到最终的密度格阵。

基于一个密度格阵进行光线采样的方法具体为：先从视点处开始采样，每个采样点都到密度格阵中查询密度值，若高于阈值，则继续采样，若低于阈值，则直接跳转至该光线与格阵下一体素交点处采样。

对于人头场景空间中的一个采样点x，令其在哈希表上查询，得到体素特征，具体地，对于空间中的任一点x，计算其在多分辨率哈希表上存储特征的方法为：先计算x在每一层上的对角点索引，将其输入给哈希函数得到哈希值，利用哈希值在哈希表上查找特征，再通过线性插值查找得到的特征，从而得到x对应的体素特征。

在一个实施例中，对于正方体体素场，边长为N₁，对角点索引即为计算角点

和

。

在一个实施例中，用多层感知机g_θ将采样点x的体素特征转换为采样点RGB和体密度，表示为：

g_θ：(η(x；h)，γ(d))→(σ，c)

通过体渲染得到渲染图像，渲染单条光线RGB的计算式为：

头部语义分割图渲染计算式为：

其中，M(r)为光线r对应的头部语义分割图的像素值。

在一个实施例中，基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法的主要步骤如下：

1、数据采集阶段。本发明的重建方案只需要单目RGB视频序列即可构建个性化人头神经辐射场基底；首先固定相机使镜头对准被采集人，然后要求被采集人做出符合FACS(Facial Action Coding System，见https：//www.paulekman.com/facial-action-coding-system/)标准的46个表情。之后再要求被采集人随意做一些表情，在做表情的过程中转动头部，使训练数据中包含从各个角度拍摄到的人头图像。单人视频长度总计约3-5分钟。

2、数据预处理阶段。首先基于网格blendshape基底来重建输入的RGB视频。通过求解逆向渲染问题，得到每一帧的表情系数和相机参数。同时将每一帧的人头部分分割出来，得到头部语义分割图。

3、将所取帧的表情系数组合神经辐射场基底，得到对应帧的多分辨率哈希表，对于人头场景空间的采样点，在哈希表上进行查询，得到采样点RGB和体密度，最后渲染得到对应像素的颜色。

4、训练阶段。渲染计算损失函数，损失函数有以下几项：

(1)颜色损失函数L_color：

其中，IGT(r)为光线r对应的颜色真值，

为采样光线集合；

(2)语义分割损失函数L_mask：

其中，M_GT(r)为光线r对应的头部语义分割图像素值真值；

(3)感知损失函数：为了提升人脸渲染细节，使用VGG网络来实现感知损失函数，实际计算的时候是在图片上采样小窗口的光线，然后应用感知损失函数。

在训练过程中，每一个神经辐射场基底的密度格阵更新公式如下：

取所有

对应的密度格阵的逐元素最大值来得到最终的密度格阵。实验证明这样的更新策略能够保证最后得到的密度格阵可以考量到人脸各表情所能达到的最大区域。

以下给出本发明方法的效果展示。

1、与同类方法对比

我们与最前沿的人脸驱动或头部建模工作进行比较，这些工作分别是：

First Order Motion Model for Image Animation(NeurIPS 2019)下简称FOMM；

NerFACE:Dynamic Neural Radiance Fields for Monocular 4D Facial AvatarReconstruction(CVPR 2021 Oral Presentation)下简称NerFACE；

Neural Head Avatars from Monocular RGB Videos(CVPR 2022)下简称NHA；

我们在十个不同发型、性别、肤色、年龄的被采集者的单目RGB视频上训练，下方表格所展示为测试集上五种不同的度量下生成结果与真实值的差异：

	MSE(1e-3)↓	L1(1e-2)↓	PSNR↑	SSIM(1e-1)↑	LPIPS(1e-2)↓
						FOMM	1.75(0.81)	1.87(0.52)	28.32(2.45)	9.29(0.28)	5.30(1.73)
NHA	0.69(0.54)	0.80(0.29)	32.85(3.01)	9.69(0.16)	3.37(1.88)
						NerFACE	0.75(0.45)	0.84(0.30)	32.24(2.70)	9.67(0.15)	3.50(1.64)
本发明方法	0.48(0.32)	0.70(0.23)	34.15(2.58)	9.73(0.13)	2.67(1.32)

括号外的数值是均值，括号内是标准差。可以看到本发明方法构建的神经辐射场基底，在渲染质量和模型表达能力上都胜过了同类方法。渲染图片结果展示如图2所示。

2、训练效率比较

在人头NeRF的训练任务上，到目前为止被广泛使用的是将表情系数与位置编码进行张量拼接(concatenate)作为多层感知机的输入以达到动态表情驱动的目的，而位置编码一般使用的是傅里叶编码，类似的策略可见于ADNeRF、HeadNeRF、NerFACE等著名工作。在这里展示我们的多层级体素场的位置编码方式要优于傅里叶编码，同时我们的神经辐射场基底这样的表情组合结构比起张量拼接而言，可以更有效地用表情系数全局控制局部特征，进而可以降低多层感知机的学习压力。NerFACE即为一种傅里叶编码加张量拼接的结构。本发明另外实现了一个直接张量拼接多层体素特征与表情系数的结构(concatenatecase)作为基准方法，然后比较本发明方法(NeRF blendshape)与另外两者的训练效率。

图3展示了在某一身份测试集上PSNR随训练时间变化的曲线，从图3中可以看到多层级体素特征与表情系数直接拼接的方法是优于NerFACE的，这说明了多层级体素特征的使用可以提高训练效率以及模型的表达能力。而本发明方法和多层级体素特征与表情系数直接拼接的方法相比，训练速度更快，可见神经辐射场基底这样的结构比起张量拼接而言在训练上更有优势。

图4展示了三种方法训练到不同的阶段时在测试集上的渲染效果，可以看到NerFACE在二十分钟内无法得到清晰的人脸，而基准方法和本发明方法都能在二十分钟内实现人脸刚性区域的收敛，但同时本发明方法比起基准方法可以在更短的时间内学到人脸非刚性的形变，这既说明了多层级体素场在场景收敛速度上的优势，也验证了神经辐射场基底的组合结构相比于张量拼接结构可以更好地降低多层感知机的学习压力。

3、应用展示

通过提取源身份的表情系数，然后乘以对应身份神经辐射场基底，进行体渲染后可以实现跨身份的表情驱动应用，如图5所示。

由于神经辐射场基底本身是三维人脸的建模，所以也支持人头的新视角合成应用，图6是对于某一帧的人头调整视角渲染得到的结果。

综上，相比于其他的人头参数化模型构建方法，本发明有以下几个优点：

1)多层级体素场的使用使得我们的人头模型可以同时捕捉和学习人脸不同尺度的细节，而我们的blendshape基底结构可以预先对位置编码进行预调制，降低了多层感知机的学习压力。这使得我们的人头模型构建速度快，同时生成图像质量也更高。

2)本发明将blendshape基底的概念从传统的显式网格模型推广到了NeRF下，本发明的神经辐射场基底不仅仅和网格模型一样有着解耦的语义，同时更能体现个性化的人脸面部肌肉和纹理变化，进而对动态人头场景进行更好的建模。

3)体渲染的使用可以使我们完全可微地用人头图片进行监督训练。语义分割损失函数的使用可以使模型更快地学到几何的分布。感知损失函数的使用可以使建模结果包含更多的人脸细节。

4)密度格阵的使用可以使采样跳过空区域，提高采样效率，而我们的考虑了表情系数的密度格阵更新策略，可以考虑到人脸所能达到的最大范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以得到一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，所述神经辐射场基底的每个基底都是一个由多层级体素场表达的辐射场，所述多层级体素场是一个L层的特征存储结构，每一层均为一个体素场，每一个体素块存储长度为F的特征，使用多分辨率哈希表来压缩存储多层级体素场，多分辨率哈希表h是一个大小为L×T×F的特征表，T为哈希表大小。

3.根据权利要求2所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，人头表示写为：

表示采样、采样点特征访问以及体渲染，C是相机内外参，h₀∈R^L×T×F表示平均脸的多分辨率哈希表，H＝{h₁,h₂,…,h_K},h_i∈R^L×T×F表示不同表情偏移量的多分辨率哈希表，K是基底个数，w＝{w₁,w₂,…,w_K}∈R^K是表情系数；表情系数对应的多分辨率哈希表的组合方式是：

4.根据权利要求1所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，在采样过程中，使用密度格阵记录空间中的密度信息来指导采样，并采用考虑表情系数的密度格阵更新策略，充分考虑人脸各表情所能达到的最大范围。

5.根据权利要求4所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，针对密度格阵更新策略，每个基底所对应的哈希表

其中，N是视频的总帧数，

对应的密度格阵的逐元素最大值，来得到最终的密度格阵。

6.根据权利要求4或5所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，基于一个密度格阵进行光线采样的方法具体为：先从视点处开始采样，每个采样点都到密度格阵中查询密度值，若高于阈值，则继续采样，若低于阈值，则直接跳转至该光线与格阵下一体素交点处采样。

7.根据权利要求1-4中任一项所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，对于空间中的任一点x，计算其在多分辨率哈希表上存储特征的方法具体为：先计算x在每一层上的对角点索引，将其输入给哈希函数得到哈希值，利用哈希值在哈希表上查找特征，再通过线性插值查找得到的特征，从而得到x对应的体素特征。

8.根据权利要求1所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，用多层感知机g_θ将采样点x的体素特征转换为采样点RGB和体密度，表示为：

其中，c,σ分别表示采样点RGB和体密度，η(x；h)表示采样点x在哈希表h上查询得到的体素特征，γ(d)表示对视角向量d的位置编码。

9.根据权利要求1所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，通过体渲染得到渲染图像，渲染单条光线RGB的计算式为：

其中，I(r)表示光线r对应的颜色，t,s为光线参数化变量，c(r(t))为光线上点r(t)对应的RGB，σ(r(s)),σ(r(t))分别为光线上点r(s),r(t)对应的体密度。

10.根据权利要求1所述的一种基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法，其特征在于，在训练阶段，通过图像RGB、头部语义分割图以及感知损失函数的监督，训练得到神经辐射场基底；在训练开始时，对神经辐射场基底进行随机初始化，在训练过程中不断更新神经辐射场基底。