CN114648613A

CN114648613A - 基于可变形神经辐射场的三维头部模型重建方法及装置

Info

Publication number: CN114648613A
Application number: CN202210537880.0A
Authority: CN
Inventors: 王雪莹; 郭玉东; 张举勇
Original assignee: Hangzhou Xiangyan Technology Co ltd
Current assignee: Hangzhou Xiangyan Technology Co ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-06-21
Anticipated expiration: 2042-05-18
Also published as: CN114648613B

Abstract

本发明公开了一种基于可变形神经辐射场的三维头部模型重建方法及装置，该方法包括：对输入视频逐帧进行分割和人脸关键点检测，逐帧拟合参数化模型；对输入视频逐帧提取语义信息，主要包括头发标签和脸部标签；在参数化模型和语义信息的引导下，在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化，从而得到逐帧高质量的三维头部模型。

Description

基于可变形神经辐射场的三维头部模型重建方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于可变形神经辐射场的三维头部模型重建方法及装置。

背景技术

近年来，随着计算机技术和通信技术的发展，基于人工智能的数字人表示越来越多的受到人们的关注，其中逼真的头部表示对虚拟数字人的可信度有着非常重要的作用。更进一步，人的头部作为一个人身体中最具代表性的部分，可以提供丰富的信息，比如：人的性别、年龄、情绪、种族、健康状况和性格等等。高质量三维头部重建一直是计算机视觉和图形学领域的研究热点，它在人体数字化和动画等场景中都具有广泛的应用。因此，研究如何获得高质量的三维头部模型具有重要和现实的研究意义。

在过去，高质量三维头部模型的获取主要有四种渠道：人体扫描，通过借助扫描设备对真实的人进行扫描采集数据，这一方法可以直接获取人的三维信息，但这一类方法所需要的扫描设备价格昂贵，且一般无法对头发进行建模，扫描得到的数据也伴随有缺失和噪声，仍然需要后续的数据处理过程；基于多张图像的重建，从多视角或多光照下采集的图像来进行三维重建，这一方法仍然需要特定的采集设备的搭建，或者是光照条件的设定，在数据采集上仍然具有一定的难度和成本，并且这一方法通常需要复杂的优化过程来保证几何精度；基于单张图像的重建，从采集的单张图像中来进行三维重建，这一方法大大简化了数据采集的过程，使得数据的获取变得方便快捷，但由于单张图像所包含的信息过于单一，所以由单张图像重建出的三维几何可能包含歧义性，仍然不利于投入使用；基于视频序列的重建，从一个人的一段视频中重建出其对应的三维头部模型，随着便携电子设备的采集，一段视频的采集变得越来越快捷，这一方法通常借助于人脸或头部参数化模型，通过拟合每一帧来进行三维重建，这样做的好处是可以得到很好的几何结构信息，但由于受到参数化模型表达能力的限制，这一类方法的几何精度较低，并且无法对头发进行表示。

而隐式神经辐射场一方面通过隐式函数将显示的三维模型表示转换为空间中点的几何性质，一般是带符号距离场，来对三维几何进行表示，一定程度上提高了三维几何的精度，相比较于传统的显示表示方法更加灵活；另一方面，基于神经辐射场的渲染方式将原本的基于显示模型的渲染方式替换为了模拟真实成像的隐式函数，通过沿视线方向估计图片的颜色和密度特征来进行渲染，从而可以得到与原图非常一致的重建结果。但隐式神经辐射场通常只可以应用在静态场景的重建中，所以为了能够从视频序列中进行三维重建，本发明引入变形场。变形场可以将任意帧所对应的空间变形到基准空间下，建立每一帧和基准空间的对应关系，通过对基准空间的进一步建模与渲染就可以得到目标三维模型。

发明内容

本发明的目的是提供一种基于可变形神经辐射场的三维头部模型重建方法及装置，以解决上述传统三维头部模型重建技术中所存在的问题。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种基于可变形神经辐射场的三维头部模型重建方法，该方法包括以下步骤：

S1：对输入视频逐帧进行头部区域分割和人脸关键点检测，逐帧拟合参数化模型；

S2：对输入视频逐帧进行语义信息提取；

S3：在参数化模型和语义信息的引导下，在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化，得到逐帧三维头部模型。

进一步地，步骤S1中，根据头部区域分割结果和人脸关键点，对输入视频逐帧拟合参数化模型，所述参数化模型的系数包括身份、表情、纹理和姿态。

进一步地，步骤S2中，逐帧提取的语义信息包括头发标签和脸部标签，所述脸部标签包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。

进一步地，步骤S3包括：

根据刚性注册编码建立当前帧所对应的空间和基准空间之间的刚性注册关系，得到刚性注册后的三维空间点的位置；

将非刚性形变编码作为条件，利用形变量估计模型学习非刚性偏移量，得到基准空间下点的位置；

将非刚性形变编码作为条件，利用拓扑估计模型学习当前帧所对应的空间到基准空间的拓扑变化特征；

在拓扑变化特征的条件下，利用带符号距离场估计模型学习基准空间下点的带符号距离场和全局几何性质；

以视线方向、全局几何性质和纹理编码作为条件，根据基准空间下点的位置和法向，利用颜色估计模型学习沿视线方向每个采样点的颜色值；

根据每个采样点上的带符号距离值计算得到采样点密度，根据采样点密度和颜色值得到头部区域的渲染结果。

进一步地，利用语义信息进行引导，以全局几何性质作为条件，利用语义信息估计模型学习每个采样点的语义概率，根据语义概率和采样点密度得到头部区域语义信息的分布情况。

进一步地，利用参数化模型进行引导，在参数化模型上进行采样，经过以刚性注册编码为条件的刚性注册和以非刚性形变编码为条件的形变量估计模型后得到基准空间下的采样点；经过以非刚性形变编码为条件的拓扑估计模型后得到拓扑变化特征；以拓扑变化特征作为条件，通过带符号距离场估计模型对基准空间下的采样点估计带符号距离场。

进一步地，根据图像真实度损失函数、语义一致性损失函数和带符号距离正则损失函数，反向传播更新刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型。

进一步地，根据可变形神经辐射场渲染得到的图像和原图像计算图像真实度损失函数；根据交叉熵函数计算估计出的语义信息与提取出的语义信息的语义一致性损失函数；根据参数化模型的带符号距离场计算带符号距离正则损失函数。

进一步地，所述形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型均为神经网络模型，均依次包括输入层、非线性层、全连接层和输出层。

根据本发明的第二方面，提供一种基于可变形神经辐射场的三维头部模型重建装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述基于可变形神经辐射场的三维头部模型重建方法。

本发明的有益效果是：1）刚性注册编码的使用为不同姿态下的空间对齐提出了一种很自然的解决方案，同时形变量估计模型的使用解决了非刚性形变的问题；2）隐式神经辐射场用带符号距离场来表示头部几何，解决了参数化模型表达能力不够丰富的问题，提高了三维头部模型重建的精度，同时基于神经辐射场的渲染方式可以得到与输入图像高度一致的渲染结果；3）参数化模型和语义信息的使用为优化过程提供了一定的引导，为高质量三维头部模型的重建提供了先验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图做简单的介绍，显而易见得，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于可变形神经辐射场的三维头部模型重建方法的流程图；

图2为本发明实施例提供的对输入视频进行三维重建的示意图；

图3为本发明实施例提供的基于可变形神经辐射场的三维头部模型重建装置的结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

在三维头部模型重建领域，传统的基于图像的方法或者是需要复杂的采集设备和环境的构建，或者是受限于参数化模型的表达能力，都不能够重建出高质量的三维头部模型；而隐式神经辐射场一方面通过隐式函数来对三维几何进行表示，一定程度上提高了三维几何的精度，另一方面，基于神经辐射场的渲染方式可以得到与原图非常一致的重建结果，但这种方法通常只可以应用在静态场景的重建中。为此，本发明提供了一种基于可变形神经辐射场的高质量三维头部模型重建方法。

本发明实施例中三维头部模型用参数化模型作为先验，参数化模型中的几何和纹理信息表示如下：

其中，S为三维几何信息，

和

分别为身份和表情系数，

为带有身份和表情信息的模板几何，

为基于身份信息的回归函数，

为蒙皮权重矩阵，

为标准蒙皮函数；T为纹理信息，

为平均纹理信息，

为纹理的PCA基，

为纹理系数。

，

，

，

和

的获取可以用文献【Li, Tianye and Bolkart, Timo and Black, Michael. J. and Li, Hao and Romero, Javier. Learning a model of facial shape and expression from 4D scans. In ACM Transactions on Graphics, (Proc. SIGGRAPH Asia), 36(6), 2017；T. Karras, S. Laine, and T. Aila. A style- based generator architecture for generative adversarial networks, in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 4401–4410】中的FLAME和FFHQ数据集。投影模型用标准透视投影表示如下：

其中，

和

分别是点在图像平面和世界坐标系下的坐标，R是由欧拉角pitch、yaw和roll构造的旋转矩阵，t是平移向量，

是从三维到二维的透视投影映射。

本发明实施例提供一种基于可变形神经辐射场的三维头部模型重建方法，方法流程如图1所示，主要包括以下步骤：

步骤1、对输入视频逐帧进行分割，分割后每帧图像Image包括的要素为：头部区域和除头部外的背景区域，同时对输入视频逐帧提取68个人脸关键点，根据分割结果和人脸关键点，对输入视频逐帧拟合参数化模型，参数化模型的系数包括身份、表情、纹理和姿态，表示为

。

具体地，输入视频为RGB三通道彩色人体视频。

步骤2、对输入视频逐帧进行语义信息提取，提取后每帧图像Image包括的要素为：头发标签和脸部标签，脸部标签又包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。

步骤3、在参数化模型和语义信息的引导下，在输入视频上利用可变形神经辐射场渲染的方式对刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型进行优化，从而得到逐帧高质量的三维头部模型。以下详细描述优化过程。

步骤3.1、根据刚性注册编码

建立当前帧所对应的空间和基准空间之间的刚性注册关系f：

其中，

为当前帧所对应的空间中的采样点，c为当前帧所对应的相机位置，v为视线方向，t为沿视线方向v的采样步长，

和

分别为刚性注册所对应的旋转矩阵和平移矩阵；由此本发明实施例可以得到刚性注册后的三维空间点的位置

：

步骤3.2、将非刚性形变编码

作为条件，利用形变量估计模型

学习非刚性偏移量

：

进而得到基准空间下点的位置

：

其中，

表示形变量估计模型中的可学习参数；

本发明实施例中，形变量估计模型

采用神经网络模型，依次包括输入层、非线性层、全连接层和输出层。

步骤3.3、将非刚性形变编码

作为条件，利用拓扑估计模型

学习当前帧所对应的空间到基准空间的拓扑变化特征

：

其中，

表示拓扑估计模型中的可学习参数；

本发明实施例中，拓扑估计模型

步骤3.4、在拓扑变化特征

的条件下，利用带符号距离场估计模型

学习基准空间下三维点的带符号距离场

和全局几何性质

：

其中，

表示带符号距离场估计模型中的可学习参数。

本发明实施例中，带符号距离场估计模型

步骤3.5、以视线方向v、全局几何性质

和纹理编码

作为条件，根据基准空间下点的位置

和法向n，利用颜色估计模型

学习沿视线方向每个采样点的颜色值RGB：

其中，v表示由姿态系数计算得到的视线方向，

表示颜色估计模型中的可学习参数。

本发明实施例中，颜色估计模型

步骤3.6、根据每个采样点上的带符号距离值计算得到对应的密度

：

其中，t为沿视线方向的采样步长，

为Sigmoid函数，

为基准空间点

的带符号距离值；依据各个采样点的密度，采用如下积分方式即可得到优化后头部区域的渲染结果

：

其中，

表示图像像素点坐标，

和

分别表示沿视线方向的最远和最近采样步长，

为基准空间点

在视线方向v下的颜色值，

为透明度函数，

步骤3.7、利用语义信息对上述过程进行引导，本发明实施例以全局几何性质

作为条件，利用语义信息估计模型

学习每个采样点的语义概率

：

采用如下积分方式即可得到头部区域语义信息的分布情况

：

其中，

为基准空间点

的语义概率；

本发明实施例中，语义信息估计模型

步骤3.8、利用参数化模型对上述过程进行引导，本发明实施例在参数化模型M上进行采样，得到采样点

，经过以刚性注册编码

为条件的刚性注册

和以非刚性形变编码

为条件的形变量估计模型

后得到基准空间下的采样点

；同时，经过以非刚性形变编码

为条件的拓扑估计模型

后得到拓扑变化特征

。此时，以拓扑变化特征

作为条件，通过带符号距离场估计模型

对基准空间下的采样点

估计带符号距离场

和全局几何性质

：

步骤3.9、经过上述可变形神经辐射场渲染得到的图像

和原图像

一起计算图像真实度损失函数

：

其中，W和H分别表示输入图像的宽和高；经过交叉熵函数计算估计出的语义信息

与提取出的语义信息L的语义一致性损失函数

：

其中，

表示交叉熵函数，

为像素点

处提取出的语义信息；经过参数化模型的带符号距离场计算带符号距离正则损失函数

：

其中，M表示从原图像中拟合出的参数化模型，

为M上的采样点。

根据图像真实度损失函数

、语义一致性损失函数

和带符号距离正则损失函数

，反向传播更新刚性注册编码

、非刚性形变编码

和纹理编码

、形变量估计模型

、拓扑估计模型

、带符号距离场估计模型

、颜色估计模型

和语义信息估计模型

。

相比于传统的三维头部模型重建方法，本发明具有以下优点：

1）刚性注册编码的使用为不同姿态下的空间对齐提出了一种很自然的解决方案，同时形变量估计模型的使用解决了非刚性形变的问题；

2）用带符号距离场来表示头部几何，解决了参数化模型表达能力不够丰富的问题，提高了三维头部模型重建的精度；

3）基于神经辐射场的渲染方式可以得到与输入图像高度一致的渲染结果；

4）参数化模型和语义信息的使用为优化过程提供了一定的引导，为高质量三维头部模型的重建提供了先验。

与前述基于可变形神经辐射场的三维头部模型重建方法的实施例相对应，本发明还提供了基于可变形神经辐射场的三维头部模型重建装置的实施例。

参见图3，本发明实施例提供的基于可变形神经辐射场的三维头部模型重建装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于可变形神经辐射场的三维头部模型重建方法。

本发明基于可变形神经辐射场的三维头部模型重建装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明基于可变形神经辐射场的三维头部模型重建装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于可变形神经辐射场的三维头部模型重建方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于可变形神经辐射场的三维头部模型重建方法，其特征在于，包括以下步骤：

S2：对输入视频逐帧进行语义信息提取；

2.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，步骤S1中，根据头部区域分割结果和人脸关键点，对输入视频逐帧拟合参数化模型，所述参数化模型的系数包括身份、表情、纹理和姿态。

3.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，步骤S2中，逐帧提取的语义信息包括头发标签和脸部标签，所述脸部标签包括眉毛标签、眼睛标签、鼻子标签、嘴巴标签和其余脸部标签。

4.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，步骤S3包括：

5.根据权利要求4所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，利用语义信息进行引导，以全局几何性质作为条件，利用语义信息估计模型学习每个采样点的语义概率，根据语义概率和采样点密度得到头部区域语义信息的分布情况。

6.根据权利要求5所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，利用参数化模型进行引导，在参数化模型上进行采样，经过以刚性注册编码为条件的刚性注册和以非刚性形变编码为条件的形变量估计模型后得到基准空间下的采样点；经过以非刚性形变编码为条件的拓扑估计模型后得到拓扑变化特征；以拓扑变化特征作为条件，通过带符号距离场估计模型对基准空间下的采样点估计带符号距离场。

7.根据权利要求6所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，根据图像真实度损失函数、语义一致性损失函数和带符号距离正则损失函数，反向传播更新刚性注册编码、非刚性形变编码和纹理编码、形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型。

8.根据权利要求7所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，根据可变形神经辐射场渲染得到的图像和原图像计算图像真实度损失函数；根据交叉熵函数计算估计出的语义信息与提取出的语义信息的语义一致性损失函数；根据参数化模型的带符号距离场计算带符号距离正则损失函数。

9.根据权利要求1所述的基于可变形神经辐射场的三维头部模型重建方法，其特征在于，所述形变量估计模型、拓扑估计模型、带符号距离场估计模型、颜色估计模型和语义信息估计模型均为神经网络模型，均依次包括输入层、非线性层、全连接层和输出层。

10.一种基于可变形神经辐射场的三维头部模型重建装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现如权利要求1-9中任一项所述的基于可变形神经辐射场的三维头部模型重建方法。