CN115953513A

CN115953513A - 一种可驱动三维人头模型重建方法、装置、设备及介质

Info

Publication number: CN115953513A
Application number: CN202211737158.8A
Authority: CN
Inventors: 陈华荣; 邱见明; 徐乐朗; 刘帝
Original assignee: Beijing Yuanyuan Information Technology Co ltd
Current assignee: Beijing Yuanyuan Information Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-11
Anticipated expiration: 2042-12-30
Also published as: CN115953513B

Abstract

本发明涉及一种可驱动三维人头模型重建方法、装置、设备及介质，本方法包括：采集一段包括待重建对象的脸部、头部的视频片段；对视频片段的每一帧进行预处理，得到训练数据；构建基于神经辐射场的可驱动三维人头模型；使用步骤S2中得到的所述训练数据训练步骤S3中的可驱动三维人头模型；最后通过另一段对象本身或其他人的单目人脸视频驱动训练完成的可驱动三维人头模型。本发明使用神经辐射场来表达可驱动三维人头模型，同时将神经辐射场解耦为表情相关的运动部分和静态外表部分。本发明相比于同类方法，在保证渲染质量的同时实现了更快的训练速度。

Description

一种可驱动三维人头模型重建方法、装置、设备及介质

技术领域

本发明属于三维计算机视觉和计算机图形学技术领域，具体涉及一种可驱动三维人头模型重建方法、装置、设备及介质。

背景技术

三维计算机视觉领域当中，对人头、人脸可驱动模型的重建以及通过中之人进行高精度的驱动一直在电影、动画、AR、VR、网络直播、全息通讯、数字人等领域有着极其广泛的应用。尤其是通过单目RGB视频中的人头图像重建高保真度的三维人头模型并通过中之人的单目RGB视频进行驱动，因其采集方法十分便捷，同时对采集设备要求低，具有十分巨大的应用价值。但先前的相关方法，由于所使用的数据结构和表达方式不够高效，重建一个三维人头模型往往需要大量的训练时间，因此，亟需研究一种能够快速重建可驱动三维人头模型的方法和装置来解决目前存在的技术问题。

发明内容

为了克服现有技术存在的问题，本发明提供一种可驱动三维人头模型重建方法、装置、设备及介质，用于克服目前存在的缺陷。

一种可驱动三维人头模型重建方法，包括以下步骤：

步骤S1、采集一段包括待重建对象的脸部、头部的视频片段；

步骤S2、对视频片段的每一帧进行预处理，得到训练数据；

步骤S3、构建基于神经辐射场的可驱动三维人头模型；

步骤S4、使用步骤S2中得到的所述训练数据训练步骤S3中的可驱动三维人头模型；

步骤S5、最后通过另一段对象本身或其他人的单目人脸视频驱动训练完成的可驱动三维人头模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1中的视频片段的内容包括待重建对象的多种常见表情、日常交流和/或头部姿态变化。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S2的训练数据包括估计表情参数θ和估计相机姿态参数P，估计过程如下：定义68关键点的空间坐标为X(θ′)，预测图像坐标K，进而定义损失函数为：

L＝||K-φ(P′，X(θ′))||₂

其中，φ(P，X(θ′))为通过给定的相机参数P′将空间坐标X(θ′)投影到图像平面上，通过梯度下降优化给定的θ′、P′参数，从而获得估计的表情参数θ和相机姿态参数P。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S3中的可驱动三维人头模型包括与待重建对象的表情相关的运动和静态外表两部分。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，与所述表情相关的运动使用若干与表情参数同等数量的神经体素网格基底

的组合来表示，估计的表情参数θ＝(θ₁，θ₂，...，θ_N)，生成一个对应表情的神经体素网格

所述静态外表部分使用一个神经体素网格V_a来表示，N为正整数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S3中的可驱动三维人头模型表示为辐射场(c，σ)＝f(θ，x，d)，具体包括如下步骤：

S31.输入估计的表情参数θ到运动部分作为基底组合时的权重，生成表情相关运动部分的神经体素网格；

S32.同时输入当前点x的空间坐标到运动部分，在组合得到的神经体素网格V_d中获取对应的特征向量，再通过一个两层全连接神经网络将特征向量映射为当前点的偏移δx；

S33.输入偏移后的坐标x+δx值到静态外表部分，在对应神经体素网格V_a中获取对应特征向量，再通过一个两层全连接神经网络将特征向量映射为当前点x的颜色c和密度σ，同时全连接神经网络中额外输入估计的表情参数θ和观测方向d。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4具体包括；

步骤S41.给定一组步骤S2中处理得到的包括图像I和相机参数P的训练数据；步骤S42.根据估计的相机参数P，通过体渲染得到渲染图像I'；

步骤S43.定义渲染图像I'和图像I间均方误差作为损失函数：

L_rgb＝||I-I′||₂

步骤S44.通过梯度下降优化上述运动部分神经体素网格基底和两层全连接神经网络网络，静态外表部分神经体素网格和两层全连接神经网络网络的参数。

本发明还提供了一种可驱动三维人头模型重建装置，所述装置用于实现所述的方法，所述装置包括：

采集模块，用于采集一段包括待重建对象的脸部、头部的视频片段；

获取模块，用于对所述视频片段的每一帧进行预处理，得到图像数据；

构建模块，用于构建基于神经辐射场的可驱动三维人头模型；

生成模块，用于给定表情参数时，通过可驱动三维人头模型生成神经辐射场；

渲染模块，用于给定相机参数时，通过体渲染所述神经辐射场，合成任意视点的图像；

训练模块，使用所述图像数据训练所述可驱动三维人头模型；

完成模块，用另一段对象本身或其他人的单目人脸视频驱动训练完成的可驱动三维人头模型。

本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现所述的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述所述的方法。

本发明的有益效果

与现有技术相比，本发明有如下有益效果：

本发明提出使用动态感知神经体素来表示可驱动三维人头模型，进而实现快速训练生成可驱动的三维人头模型。具有以下有益效果：

(1)本发明提出将基于神经辐射场的可驱动三维人头模型解耦为表情相关的运动部分和静态外表部分，二者均由神经体素表示。

(2)本发明提出表情相关的运动部分由若干神经体素网格基底的组合表示，并由表情参数作为组合权重。

(3)本发明受益于解耦运动部分和静态外表部分，以及使用神经体素的表示，在保证渲染质量的同时实现分钟级的训练速度。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的方法和另外两种现有方法NeRFBlendShape、NeRFace训练速度的对比示意图；

图3为本发明的方法和另外三种现有方法DeepVideoPortraits、IMAvatar、NeRFace重建结果对比示意图。

具体实施方式

为了更好的理解本发明的技术方案，本发明内容包括但不限于下文中的具体实施方式，相似的技术和方法都应该视为本发明保护的范畴之内。为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

应当明确，本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了可驱动三维人头模型重建方法，包括以下步骤：

步骤S1、采集一段包括待重建对象(如一个人)的脸部、头部的视频片段，内容包括待重建对象的多种常见表情、日常交流和头部姿态变化等，该视频片段作为可驱动三维人头模型的训练数据；

步骤S2、对视频片段的每一帧进行预处理，得到训练数据，具体为对视频片段的每一帧包括待重建对象(一个人)不同表情和头部姿态的脸部、头部图片进行预处理：估计图片中待重建对象的脸部的68关键点用于后续估计表情参数θ和相机姿态参数P；通过68关键点，估计图片中人脸对应的3DMM(3D可变形人脸模板)的表情参数θ作为训练数据；估计相机姿态参数P，在实际应用中，假设人头是保持不动的，而相机在不断的运动变换观测方向，因此人头姿态参数是恒定的，同时估计每一帧的相机相对于人正面的观测方向即相机姿态参数；使用RobustVideoMatting(去除背景工具)工具，该工具用于输入带有人物的图像，将人物和背景分离开，来对上述每一帧图片去除背景，保留人脸、人头的前景；使用face-parsing(人脸语义分割工具)工具，该工具输入一张人脸图片，输出图片中的各部分分别属于人身上的例如鼻子、眼睛、耳朵等，从而去除脖子和躯干部分，即对上述每一张图片，在去除了背景之后的基础上再额外去除脖子和躯干的部分，最终处理得到仅包括人脸和头发区域且不包括脖子、躯干和背景的人头模型图片，后续可以直接用于训练过程。具体来说，步骤S2估计表情参数和相机姿态参数的过程如下：估计表情参数用θ表示，估计相机参数用P表示，包括旋转、平移和投影相机坐标系相对于人头模型坐标系的旋转平移矩阵，以及相机坐标系下到相机图像平面的透视投影矩阵，定义68关键点的空间坐标为X(θ′)，X(θ′)是一个68×3的矩阵，68个点的空间坐标，预测图像坐标K，通过输入图像预测的68关键点，在图像中的坐标为K，K是一个68×2的矩阵，进而定义损失函数：

L＝||K-φ(P′，X(θ′))||₂

其中，φ(P，X(θ′))为通过相机参数P′将空间坐标X(θ′)投影到图像平面上得到的坐标。具体而言，对于φ(P，X(θ′))：首先P′是3×4矩阵，左乘X(θ′)的齐次形式(每个点坐标补充一个1变成(x,y,z,1))再转置(形状为4×68)，得到3×68的矩阵，再取该矩阵前两维并除以第三维最后再转置，得到的为投影到图像上的二维坐标矩阵，形状为68×2。

通过梯度下降优化θ′、P′参数来最小化损失函数值，获得对应的估计的图像中人脸的表情参数θ和相机姿态P。

步骤S3、构建基于神经辐射场的可驱动三维人头模型：该可驱动三维人头模型包括表情相关的运动部分和静态外表两部分，并且两部分均由神经体素网格表示。现有技术中的基于神经辐射场的可驱动人头模型重建方法如NeRFace、NeRFBlendShape等，这些方法均将人脸的表情动作和外表耦合在一起，将模型随表情的变化建模为动态的外表变化，从而使得模型难以学到复杂的外表变化，训练速度受到限制，因此本发明将可驱动三维人头模型设置为包括分离的表情相关的运动和静态外表两部分，并采用神经体素网格来大幅度提高可驱动三维人头模型的训练速度。与所述表情相关的运动使用若干与表情参数维度同等数量(上述估计的表情参数θ的维度N)的所述神经体素网格基底

的组合来表示，每一个基底

是一个D_d×D_d×D_d的立方体(D_d一般取16或32，i取正整数)，每个单位方格即体素中储存一个C_d维特征向量(C_d一般取2)。估计的表情参数θ＝(θ₁，θ₂，...，θ_N)，生成一个对应表情的神经体素网格

所述静态外表部分使用一个神经体素网格V_a来表示，V_a是一个D_a×D_a×D_a的立方体(D_a一般取64)，每个单位方格即体素中储存一个C_a维特征向量(C_a一般取4或6)。上述神经体素网格都与人头模型的包围盒对齐。如由图2所示，本方法相比于其他类似方法，训练速度有明显提升，本方法在2分钟内本可驱动三维模型已经大致收敛。

具体地，上述步骤S3中的生成神经辐射场的过程包括以下步骤：

S32.输入当前点x的空间坐标值，到可驱动三维人头模型的运动部分，在组合得到的神经体素网格V_d中获取对应的特征向量v_d，再通过一个两层全连接神经网络将特征向量v_d映射为当前点x的偏移δx；

S33.输入偏移后的坐标x+δx值到静态外表部分，在对应神经体素网格V_a中获取对应特征向量v_a，再通过一个两层全连接神经网络将特征向量v_a映射为当前点的颜色c和密度σ，同时全连接神经网络中额外输入表情参数θ和观测方向d。

步骤S4、使用步骤S2中得到的所述图像数据训练步骤S3中的可驱动三维人头模型。所述S4具体包括：

步骤S41.给定一组步骤S2中处理得到的训练数据，包括图像I，估计的表情参数θ，估计的相机参数P；

步骤S42.采用估计的相机参数P，通过Ray Marching体渲染得到渲染图像I′。具体而言，从相机中心经过每一个图像像素都发出一条射线，并在射线上采样若干点，对每一个当前点x，已知其坐标，射线方向d和估计的表情参数θ，于是通过S3中构建的人头模型计算该点对应的颜色和密度(c，σ)＝f(θ，x，d)，最后对一条光线上的所有点以σ为权重累加c值，即得到该像素的颜色值，进而得到每个像素的颜色值，完成图像I′的渲染；

步骤S43.定义生成图像I′和输入图像I间均方误差作为损失函数：

L_rgb＝||I-I′||₂；

步骤S44.通过梯度下降优化上述运动模块神经体素网格基底和两层全连接神经网络网络，静态外表模块神经体素网格和两层全连接神经网络网络的参数。图3所示重建结果及与其他方法的对比，本方法在大幅度减少训练时间的情况下，重建质量没有下降(相比NeRFace)，甚至更好(相比DeepVideoPortraits和IMAvatar)。

本发明提出将基于神经辐射场的可驱动三维人头模型解耦为表情相关的运动部分和静态外表部分，二者均由神经体素表示：静态外表部分由一个神经体素网格表示；表情相关的运动部分由若干神经体素网格基底的组合表示。本发明相比于同类方法，受益于解耦运动部分和静态外表部分；以及使用神经体素的表示，在保证渲染质量的同时实现了更快的训练速度。

本发明中表情相关的运动部分使用若干神经体素网格基底组合来表示，数量与表情参数相等，其中每一个基底是N×N×N(N为正整数)的立方体每个体素为一个特征向量；同时每个基底对应一个表情参数，并将表情参数的值作为组合时的权重；静态外表部分使用一个N×N×N的立方体神经体素网格来表示，每个体素为一个特征向量；构建的可驱动三维人头模型中所有的参数包括：运动部分神经体素网格基底

用于将特征向量v_d映射为当前点x的偏移δx的两层全连接神经网络；静态外表部分神经体素网格V_a；用于将特征向量v_a映射到(c，σ)的两层全连接神经网络。

进一步地，上述步骤S5中通过另一段对象本身或其他人的单目人脸视频驱动训练完成的可驱动三维人头模型，具体流程为：对其中任意视频帧，首先如上述步骤S2估计相机参数和表情参数，将表情参数输入可驱动三维人头模型模块生成神经辐射场，再给定相机参数，通过体渲染，合成对应表情下的人头模型的RGB图像，从而实现可驱动三维人头模型的驱动。

本发明还提供了一种可驱动三维人头模型快速重建装置，所述装置用于实现所述的方法，所述装置包括：

采集模块，用于采集一段包括人影的重建对象的视频片段；

完成模块，用于通过一段中之人的单目视频驱动训练完成的可驱动三维人头模型。

本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现本发明所述的方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现本发明所述的方法。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求书的保护范围内。

Claims

1.一种可驱动三维人头模型重建方法，其特征在于，包括以下步骤：

步骤S2、对视频片段的每一帧进行预处理，得到训练数据；

步骤S3、构建基于神经辐射场的可驱动三维人头模型；

2.根据权利要求1所述的可驱动三维人头模型重建方法，其特征在于，所述S1中的视频片段的内容包括待重建对象的多种常见表情、日常交流和/或头部姿态变化。

3.根据权利要求1所述的可驱动三维人头模型重建方法，其特征在于，所述S2的训练数据包括估计的表情参数θ和估计相机姿态参数P，估计过程如下：定义所述脸部的68关键点的空间坐标为X(θ′)，预测图像坐标K，进而定义损失函数为：

L＝||K-φ(P′，X(θ′))||₂

4.根据权利要求3所述的可驱动三维人头模型重建方法，其特征在于，所述S3中的可驱动三维人头模型包括与待重建对象的表情相关的运动和静态外表两部分。

5.根据权利要求4所述的可驱动三维人头模型重建方法，其特征在于，与所述表情相关的运动使用若干与表情参数同等数量的神经体素网格基底

的组合来表示，根据估计的表情参数θ＝(θ₁，θ₂，...，θ_N)，生成一个对应表情的神经体素网格

6.根据权利要求5所述的可驱动三维人头模型重建方法，其特征在于，所述S3中的可驱动三维人头模型表示为辐射场(c，σ)＝f(θ，x，d)，具体包括如下步骤：

S32.同时输入当前点空间坐标x到运动部分，在组合得到的神经体素网格V_d中获取对应的特征向量，再通过一个两层全连接神经网络将特征向量映射为当前点的偏移δx；

S33.输入偏移后的坐标x+δx值到静态外表部分，在对应神经体素网格V_a中获取对应特征向量，再通过一个两层全连接神经网络将特征向量映射为当前点的颜色c和密度σ，同时全连接神经网络中额外输入估计的表情参数θ和观测方向d。

7.根据权利要求4所述的可驱动三维人头模型重建方法，其特征在于，所述S4具体包括；

步骤S41.给定一组步骤S2中处理得到的包括图像I和估计的相机参数P的训练数据；

步骤S42.根据估计的相机参数P，通过体渲染得到渲染图像I'；

步骤S43.定义渲染图像I'和图像I间均方误差作为损失函数：

8.一种可驱动三维人头模型重建装置，所述装置用于实现权利要求1-7任一项所述的方法，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述权利要求1至7任一项所述的方法。