CN117274501B

CN117274501B - 一种可驱动数字人建模方法、装置、设备及介质

Info

Publication number: CN117274501B
Application number: CN202311531170.8A
Authority: CN
Inventors: 邱见明; 赵洁; 李哲; 陈华荣
Original assignee: Hangzhou Xinchangyuan Technology Co ltd
Current assignee: Hangzhou Xinchangyuan Technology Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-09
Anticipated expiration: 2043-11-16
Also published as: CN117274501A

Abstract

本发明涉及一种可驱动数字人建模方法、装置、设备及介质，包括以下步骤：首先，使用多相机系统拍摄人体表演不同动作的视频，并提取人体的动作姿势；然后学习以姿势为条件的神经辐射场；从神经辐射场提取的几何获得纹理图，并通过神经网络学习从人体位置图到纹理图的映射；提取映射的纹理图的特征，并微调以姿势为条件的神经辐射场，从而建模出更精细的可驱动数字人。本发明的方法相较于其他可驱动数字人建模的方法，能够生成更真实、动态的渲染结果。不仅如此，由于该方法为更为快速方便，可以为用户提供良好的交互式三维重建体验，拥有广阔的应用前景。

Description

一种可驱动数字人建模方法、装置、设备及介质

技术领域

本发明属于计算机视觉与计算机图形学领域，具体涉及一种可驱动数字人建模方法、装置、设备及介质。

背景技术

可驱动数字人建模是计算机图形学和计算机视觉领域的重点问题。高质量的可驱动数字人在影视娱乐、虚拟现实等领域有着广泛的应用前景和重要的应用价值。但是高质量、高拟真度的可驱动数字人获取通常依靠价格昂贵的激光扫描仪或者多相机阵列系统对人体建模来实现，虽然效果较为真实，但是也显著存在着一些缺点：第一，设备复杂，这些方法往往需要多相机阵列的搭建；第二，速度慢，这些方法往往创建一个数字人需要花费数个月的时间；第三，这些方法需要美工等专家的手动介入，自动化不够。因此，亟需一种可方便快捷、自动化地建模可驱动的数字人的方法。

发明内容

为了克服现有技术存在的问题，本发明提供一种可驱动数字人建模方法、装置、设备及介质，用于克服目前存在的缺陷。

一种可驱动数字人建模方法，包括以下步骤：

S1.拍摄获取人体表演不同动作的视频，并提取人体的动作姿势；

S2.学习以所述动作姿势为条件的神经辐射场；

S3.从所述神经辐射场提取纹理图，并通过神经网络学习从人体位置图到纹理图的映射；

S4.提取映射后的纹理图的特征，并微调以动作姿势为条件的神经辐射场，从而建模出可驱动的数字人。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，S1具体包括采用多个RGB相机对单个人体拍摄RGB图像序列，得到图像集，并提取人体的动作姿势。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述步骤S2具体包括：通过反向蒙皮将所述动作姿势的空间中任一三维点变形至标准空间，得到对应的三维点/>，通过神经网络学习标准空间下所述动作姿势到人体动态外观的映射，即

，

其中是由多层感知器MLP参数化的映射函数，/>是RGB颜色值，/>是符号距离函数值，通过

,

将符号距离函数值转化为体积密度值/>，/>和/>构成神经辐射场，/>为可优化的系数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述神经辐射场进行体渲染获得渲染图像，和拍摄得到的真实图像/>构建损失函数，所述损失函数用于优化所述神经网络。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S3具体包括：从所述图像集中提取标准空间下的三维几何模型，并将其经过前项蒙皮后投影到每个视点，获得顶点颜色，并将所述三维几何模型通过正交投影投射到正反视角，获得标准姿势下的位置图以及纹理图/>，其中位置图每个像素值为姿势空间下的坐标，即与人体姿势参数/>相关；建立位置图/>到纹理图/>的映射，即

,

其中，为二维卷积层以及池化层参数化的映射函数。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，采用映射的纹理图优化映射函数，从而用于优化所述神经辐射场。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4具体包括：从所述映射出的纹理图中提取特征向量，并将其通过采用另一个多层感知器MLP进行处理得到纹理特征/>，加在映射函数/>的中间层特征上，并通过最小化渲染图像和真实图像之间的损失，微调/>以获得更加精细的数字人。

本发明还提供了一种可驱动数字人建模的装置，所述装置用于实现所述的方法，所述装置包括：

拍摄模块，用于拍摄获取人体表演不同动作的视频，并提取人体的动作姿势；

学习模块，用于学习以所述动作姿势为条件的神经辐射场；

提取映射模块，用于从所述神经辐射场提取纹理图，并通过神经网络学习从人体位置图到纹理图的映射；

建模模块，用于提取映射后的纹理图的特征，并微调以姿势为条件的神经辐射场，从而建模出可驱动的数字人。

本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现所述的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述所述的方法。

本发明的有益效果

与现有技术相比，本发明有如下有益效果：

本发明的可驱动数字人建模方法，包括以下步骤：首先，使用多相机系统拍摄人体表演不同动作的视频，并提取人体的动作姿势；然后学习以姿势为条件的神经辐射场；根据从神经辐射场提取的几何特征获得纹理图，并通过神经网络学习从人体位置图到纹理图的映射；提取投影式纹理图的特征，并微调以姿势为条件的神经辐射场，从而建模出更精细的可驱动数字人。本发明的方法相较于其他可驱动数字人建模的方法，能够生成更真实、动态的渲染结果，以用于全息通信、虚拟偶像、线上直播等应用场景。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的装置结构示意图。

具体实施方式

为了更好的理解本发明的技术方案，本发明内容包括但不限于下文中的具体实施方式，相似的技术和方法都应该视为本发明保护的范畴之内。为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

应当明确，本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种可驱动数字人建模方法，包括以下步骤：

S1.拍摄获取人体表演不同动作的视频，并提取人体的动作姿势；S2.学习以所述姿势为条件的神经辐射场；

S4.提取投影纹理图的特征，并微调以姿势为条件的神经辐射场，从而建模出可驱动的数字人。

具体地，本发明的建模过程如下：

（1）通过多个RGB相机对单个人体拍摄RGB图像序列，并提取人体动作姿势参数，该动作姿势参数包括人体每个关节的三维旋转等特征，表示为一个三维轴角向量，这些轴角向量构成人体姿势参数，同时由该图像序列得到相应的关于单个人体的图像集，该图像集为多个RGB相机拍摄得到的多视点视频数据，作为后面的训练集；

（2）给定姿势参数，通过反向线性混合蒙皮将姿势参数所在姿势空间中任一三维点/>变形至标准姿势空间，得到对应的三维点/>，从而通过神经网络学习标准空间下姿势到人体动态外观的映射，即

（1），

其中是由多层感知器MLP参数化的映射函数，也称为神经网络，/>是三维空间点所对应的RGB颜色值，/>是符号距离函数值，即空间中三维点到人体表面的带符号距离，通过下式将神经辐射场渲染为给定视角下的图像：

（2）

公式（2）将符号距离函数值转化为体积密度值/>，/>和/>构成神经辐射场，/>为可优化系数，为已知参数，神经辐射场是一种通用三维表征方式，其在空间中定义为连续的密度场以及颜色场，可通过可微体渲染获得渲染图像。本发明将其作为人体在标准空间下的三维表征，并通过姿势对其驱动。对经公式（2）得到的神经辐射场进行体渲染获得渲染图像和步骤（1）拍摄得到的真实图像/>进行计算，构建L1损失函数 />以优化神经网络/>，即前面的映射函数/>。

（3）神经网络训练完成后，对训练集每一帧，对神经网络f输入该帧的姿势参数，神经网络f可输出与姿势相关的符合距离场，从该符号距离场中提取标准空间下的三维几何模型，并将其经过前项蒙皮后投影到训练集中的每个视点，加权平均从而获得三维几何模型上每个顶点的颜色，训练集为多个RGB相机对单个人体拍摄得到的多视点视频数据，由步骤（1）得到。同时将三维几何模型通过正交投影投射到正反视角，获得标准姿势下的位置图/>以及真实纹理图/>，其中位置图/>中的每个像素值为姿势空间下的坐标，即与给定的人体姿势/>相关，真实纹理图/>用作后续的卷积神经网络的训练。之后通过二维卷积神经网络学习从位置图/>到纹理图/>的映射，即

（3）

其中，是由二维卷积层以及池化层参数化的映射函数，并对通过由该公式（3）得到的映射后的纹理图/>与前一段真实纹理图之间的L1损失函数进行优化，L1损失函数即为前述步骤（2）得到的，其应用于预测值和真实值之间的约束优化，卷积神经网络g被训练完成后，通过该公式（3），对与驱动姿势相关的位置图进行映射，得到预测的高清纹理图，为后续得到更加精细的数字人作准备。

（4）最后，从位置图预测出的纹理图中提取特征向量，并将其通过另一个多层感知器MLP进行处理得到纹理特征/>，并将该特征/>加在映射函数/>的中间层特征上，并进一步通过最小化渲染图像和真实图像之间的L1损失，/>作为表达该可驱动数字人的一部分，m表示另一个多层感知器MLP的层数，特征向量/>可根据需要选择不同的层数，即m可调。因此，本发明通过前面的步骤获得的特征向量，经过本步骤的优化微调该纹理特征/>可获得更加精细的可驱动数字人。

本发明的上述方法相较于其他可驱动数字人建模的方法，对拍摄获取的关于图像中的单个人体的动作姿势进行处理，最终能够生成更真实、动态的渲染结果。由前面的过程可知，本发明的方法更加快速方便，可以为用户提供良好的交互式三维重建体验。

本发明提供一个具体的实施例来进行说明：

第一步，本发明通过多个RGB相机对单个人体全身拍摄RGB图像序列，如使用5个RGB相机采集得到多视点视频数据作为训练集，并同时提取人体动作姿势参数，所有的姿势参数构成姿势空间；人体关节的三维旋转，表示RGB图像中人体姿势的关节相对于标准姿势（例如双手平伸、双腿垂直站立的姿势，一般称之为T-pose）的三维旋转；姿势空间即为人体所有关节的三维旋转的叠加；某个姿势即包含了所有关节的三维旋转；

第二步，给定人体姿势参数，给定θ的选取方式可以任意选取，只要满足人体解剖学限制、不出现反关节情况即可，通过反向蒙皮将姿势空间中任一三维点/>变形至标准空间，得到对应的三维点/>，通过神经网络学习标准空间下姿势到人体动态外观的映射，即

,

其中，是由多层感知器（MLP）参数化的映射函数，/>是三维空间点所对应的RGB颜色值，/>是三维空间点对应的符号距离函数值，该值获得过程如下：通过查找该三维空间点在人体三维表面的最近点，计算该点与人体三维表面的距离，并根据该点是否在人体三维表面内部赋予符号（内部符号为负，外部为正），从而得到三维空间点对应的符号距离函数值/>。为了将神经辐射场渲染为给定视角下的图像，通过下式

，

将符号距离函数值转化为体积密度值/>，/>和/>构成神经辐射场，神经辐射场（Neural Radiance Field, NeRF）是一种有隐式场景表示的新视角合成方法，通过多层感知器MLP，使用带有隐式神经场景表示的体渲染。神经辐射场描述了场景中每个点和每个观察方向的颜色/>和体积密度/>，在获得三维空间的体积密度值和颜色值后，可以利用体渲染技术，即追踪场景的光线信息，按照一定长度对光线进行积分，从而生成最终的图像。在本发明中，神经辐射场用于描述数字人的形状和外观信息，从而在数字人进行驱动之后，实现对数字人的自由视点渲染。对于神经辐射场，本发明通过体渲染获得渲染图像/>和拍摄得到的真实图像/>，构建L1损失函数 />以优化神经网络/>，即前面的映射函数/>。

第三步，在神经网络训练完成后，之后对训练集每一帧，输入该帧的姿势参数，神经网络/>可输出与姿势相关的符号距离场，从该符号距离场中提取标准空间下的三维几何模型，并将其经过前项蒙皮后投影到训练集中的每个视点，进行加权平均获得三维几何模型上每个视点的颜色，训练的时候需要二维图像和三维图像的颜色对齐，因此，以该颜色作为损失函数参与训练，其中，三维几何模型为一个由一系列三角面片连接而成的三维模型，模型形式为使用采集到的数据训练神经网络，得到预测三维空间中的符号距离场，且符号距离场表示的三维空间中的点位于人体表面。同时将三维几何模型通过正交投影投射到正反视角，获得标准姿势下的位置图/>以及真实纹理图/>，其中位置图/>中每个像素值为姿势空间下的坐标，即与人体姿势/>相关，真实纹理图/>用作后续的卷积神经网络的训练。随后，通过二维卷积神经网络学习位置图/>到纹理图/>的映射，即

,

其中，是由二维卷积层以及池化层参数化的映射函数，并通过预测的纹理图与真实纹理图之间的L1损失函数被优化。卷积神经网络/>被训练完成后，则可通过上述映射关系来根据与驱动姿势相关的位置图进行映射，得到预测高清纹理图，为后续更加精细的数字人建模提供支持。

最后，从第三步得到的预测高清纹理图中提取特征向量，并将其通过另一个多层感知器（MLP）中的第/>个MLP处理得到纹理特征/>，该多层感知器（MLP）包括多层，以变量m表示，取值由1至该感知器MLP的最大层数,将得到的纹理特征/>加在神经网络/>的中间层的特征上以增强该特征，从而获得经纹理特征增强后的特征，从而得到后面的编码更精细的纹理外观。/>作为神经网络，具体也是为一个多层的感知器MLP，优选为8层MLP，中间层则选取神经网络/>中的第6层的特征，将/>加在f的中间层后则获得经纹理增强后的特征，经过纹理特征增强后，神经辐射场可表示更高频纹理细节，从而输出更高清的渲染图像，然后，通过最小化渲染图像和真实图像之间的L1损失，并可同时微调另一个感知器MLP的层数/>，即将特征向量/>采用不同层的MLP处理，最后能够获得更加精细的数字人纹理外观渲染。本发明将人体的姿势经过转换等处理，得到由姿势预测的高清纹理图，学习从纹理特征到动态神经辐射场的映射，使得最后得到的可驱动数字人的纹理更加清晰和高质量。

本发明的上述实施例，利用多个RGB相机对人体进行拍摄以采集RGB图像序列，并基于该序列构建可驱动的数字人。该方法所需的输入信息非常容易采集，对拍摄的相机不作要求，因此，拥有广阔的应用前景，可以在PC机或工作站等硬件系统上快速实现。

根据本发明公开的实施例，本发明还提供了一种可驱动数字人建模的装置，所述装置包括：

学习模块，用于学习以所述姿势为条件的神经辐射场；

建模模块，用于提取映射的纹理图的特征，并微调以姿势为条件的神经辐射场，从而建模出可驱动的数字人。如图2所示，本发明中的拍摄模块采用多个RGB相机210、学习模块采用神经辐射场网络模块220来实现、提取映射模块采用纹理图网络模块230来实现，及建模模块采用网络微调模块240来实现，上述各模块构成本发明的装置。

本发明还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现本发明所述的方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现本发明所述的方法。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求书的保护范围内。

Claims

1.一种可驱动数字人建模方法，其特征在于，包括以下步骤：

S1.拍摄获取人体表演不同动作的视频，并提取人体的动作姿势，具体包括：采用多个RGB相机对单个人体拍摄RGB图像序列，得到图像集，并提取人体的动作姿势；

S2.学习以所述动作姿势为条件的神经辐射场；

S3.从所述神经辐射场提取纹理图，并通过神经网络学习从人体位置图到纹理图的映射，具体包括：从所述图像集中提取标准空间下的三维几何模型，并将其经过前向蒙皮后投影到每个视点，获得顶点颜色，并将所述三维几何模型通过正交投影投射到正反视角，获得标准姿势下的位置图以及纹理图/>，其中位置图每个像素值为姿势空间下的坐标，即与人体动作姿势参数/>相关；建立位置图/>到纹理图/>的映射，即

，

其中，为二维卷积层以及池化层参数化的映射函数；

2.根据权利要求1所述的可驱动数字人建模方法，其特征在于，所述步骤S2具体包括：通过反向蒙皮将所述动作姿势的空间中任一三维点变形至标准空间，得到对应的三维点/>，通过神经网络学习标准空间下所述动作姿势到人体动态外观的映射，即

，

其中，是由多层感知器MLP参数化的映射函数，/>是RGB颜色值，/>是符号距离函数值，通过

，

3.根据权利要求2所述的可驱动数字人建模方法，其特征在于，对所述神经辐射场进行体渲染获得渲染图像，和拍摄得到的真实图像/>构建损失函数，所述损失函数用于优化所述神经网络。

4.根据权利要求1所述的可驱动数字人建模方法，其特征在于，采用映射的纹理图优化映射函数，从而用于优化所述神经辐射场。

5.根据权利要求1所述的可驱动数字人建模方法，其特征在于，所述S4具体包括：从所述映射出的纹理图中提取特征向量，并将其通过采用另一个多层感知器MLP进行处理得到纹理特征/>，加在映射函数/>的中间层特征上，并通过最小化渲染图像和真实图像之间的损失，微调/>以获得更加精细的数字人。

6.一种可驱动数字人建模的装置，所述装置用于实现权利要求1-5任一项所述的方法，其特征在于，所述装置包括：

学习模块，用于学习以所述动作姿势为条件的神经辐射场；

7.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述权利要求1至5任一项所述的方法。