CN116778045A

CN116778045A - 神经辐射场数字人生成方法、系统及装置

Info

Publication number: CN116778045A
Application number: CN202310838277.0A
Authority: CN
Inventors: 彭伟龙; 杨志豪; 汪洋涛; 谭恒良; 唐可可; 方美娥
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-09-19

Abstract

本发明公开了一种神经辐射场数字人生成方法、系统及装置，包括：S1、构建动作和纹理编辑的神经辐射场模型；S2、训练动作和纹理编辑的神经辐射场模型；S3、基于训练好的动作和纹理编辑的神经辐射场模型得到动作和纹理编辑的定制数字人二维图像。本发明可以实现神经辐射场数字人生成方法、系统及装置。

Description

神经辐射场数字人生成方法、系统及装置

技术领域

本发明涉及数字人生成领域，尤其是涉及一种神经辐射场数字人生成方法、系统及装置。

背景技术

数字孪生是计算机视觉领域的重要研究方向，尤其是在数字人物相关技术中具有重要意义。它利用数字技术将现实世界中的人物生成为计算机图像，并且可以对其进行相应的编辑。在短视频场景中，用户希望能够编辑短视频的观看视角；在虚拟主播场景中，工作人员需要对虚拟主播的动作进行编辑。然而，现有的数字人技术在满足用户需求方面还存在一定的局限性。

目前，数字人物的创建和编辑主要采用符号距离场(Signed DistanceFunction)、生成对抗网络(Generative Adversarial Networks，简称GANs)和神经辐射场(Neural Radiance Field)等方法。然而，这些方法都存在一些限制和缺陷。符号距离场算法依赖于三维数据信息，但是获取三维数据集需要昂贵的专业设备和人力资源，并且生成的数字人物具有较低的分辨率，并且可能缺失人体表面的轮廓性。生成对抗网络算法虽然只需要二维图像，并且能够生成较高分辨率的数字人物，但是在面对非常见信息时，往往会生成与现实世界不符的效果。此外，该方法的视角编辑能力有限，并且模型训练过程中难以达到理想的收敛效果。神经辐射场是通过训练一系列二维图像的神经网络来实现的，它具有强大的拟合能力，能够生成具有一定复杂性场景的新视角图像。神经辐射场算法能够生成较高分辨率的数字人物，并且具备视角编辑能力。然而，目前存在的相关算法只能生成离散的动作编辑数字人，无法生成动作流畅且高分辨率的数字人物。

发明内容

本发明的目的在于提供一种神经辐射场数字人生成方法、系统及装置，旨在解决。

本发明提供一种神经辐射场数字人生成方法，包括：

S1、构建动作和纹理编辑的神经辐射场模型；

S2、训练动作和纹理编辑的神经辐射场模型；

S3、基于训练好的动作和纹理编辑的神经辐射场模型得到动作和纹理编辑的定制数字人二维图像。

本发明还提供一种神经辐射场数字人生成系统，包括：

构建模块：用于构建动作和纹理编辑的神经辐射场模型；

训练模块，用于训练动作和纹理编辑的神经辐射场模型；

应用模块：用于基于训练好的动作和纹理编辑的神经辐射场模型得到动作和纹理编辑的定制数字人二维图像。

本发明实施例还提供一种神经辐射场数字人生成装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现上述方法的步骤。

采用本发明实施例，可以实现神经辐射场数字人生成。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的神经辐射场数字人生成方法的流程图；

图2是本发明实施例的神经辐射场数字人生成方法的具体流程图；

图3是本发明实施例的神经辐射场数字人生成系统的示意图；

图4是本发明实施例的神经辐射场数字人生成装置的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

根据本发明实施例，提供了一种神经辐射场数字人生成方法，图1是本发明实施例的神经辐射场数字人生成方法的流程图，如图1所示，具体包括：

S1、构建动作和纹理编辑的神经辐射场模型；

S2、训练动作和纹理编辑的神经辐射场模型；

S1具体包括：S1具体包括：给定空间中的采样点位置，通过输入人体动作信息p来对由神经辐射场表示的T姿态的数字人进行动作的编辑，结合输入的人体纹理编码，计算采样点的颜色c和体密度σ，定制生成数字人的动作和纹理，其定义如下：

F(x,d,p,α)＝(c,σ)

其中，x为采样点的三维坐标，d为相机参数或视角参数，p为人体动作信息，α为纹理编码；预测采样点的颜色c和体密度σ之后利用传统体渲染方法生成数字人的二维图像；

数字人动作的编辑具体包括：对采样点进行基于线性混合蒙皮算法的变换，即：

其中，K为骨骼数量，wⁱ为第i块骨骼的骨骼权重，(R_i,t_i)为动作基，即变形矩阵M_i，变形矩阵由人体动作信息p计算获得；骨骼权重wⁱ由一个三维卷积神经网络进行表示，对于采样点x可以在三维卷积神经网络对应的空间位置中进行采样得到骨骼权重；通过人体动作信息p对点x在空间上进行基于动作的变换，使得T姿态的数字人变换到指定的动作姿态；

纹理的编辑具体包括：将具有特定纹理的人体照片与一个对应的纹理编码α进行绑定，其中，每种纹理对应一个唯一的纹理编码，通过输入不同的纹理编码，对数字人的纹理进行编辑；

经过动作和纹理编辑后的数字人定义如下：

F(T_s(x,p),d,α)＝(c,σ)

V(F(T_s(x,p),d,α))＝I

其中T_s(x,p)为动作编辑；通过神经辐射场预测颜色c和体密度σ，V为传统体渲染方法，生成经过动作和纹理编辑的数字人二维图像I。

S2具体包括：给定输入的图片、人体动作信息p、纹理编码α和视角d_i(i＝1…N)，通过优化以下方程实现动作和纹理可编辑的神经辐射场的训练，优化公式如下：

其中N是输入的图片数目，损失函数，V体渲染，I_i为输入的特定d_i视角下的图片，p为人体动作信息，α为纹理编码。

S3具体包括：输入的定制动作信息p和纹理编码α生成经过动作和纹理编辑的定制数字人二维图像。

具体实施方法如下：

通过生成由神经辐射场表示的一个标准动作，即T姿态的数字人，通过结合线性混合蒙皮来实现数字人动作、视角编辑的效果。将完整人体二维图像，或视频流的每一帧图像作为输入，并通过掩码操作和三维姿态估计模型获取图像中目标人体的相机成像参数，即相机成像矩阵M_c和人体动作信息p(包括骨骼位置J和骨骼朝向Ω)，以便后续进行线性混合蒙皮操作。在神经辐射场基于传统图形学的体渲染方法生成二维图像过程中，对采样点进行基于人体关节点的线性混合蒙皮。此外，我们还通过纹理编码来控制数字人的表面纹理，以实现数字人动作和纹理的编辑。在由神经辐射场表示数字人训练完成后，我们可以根据输入的动作信息、纹理编码和相机成像参数生成具有高分辨率、可编辑动作和纹理，并且动作流畅的数字人。

1.预处理阶段

对输入的二维图像进行掩码操作，即去除冗余背景信息，能够有效提高后续三维姿态估计的精度。通过这样的操作，我们可以从图像中提取出目标人体的关键信息。经过掩码后的二维图像可以用于后续的三维姿态估计模型，以获取图像目标人体的相机成像参数，即相机成像矩阵M_c和人体动作信息p(包括骨骼位置J和骨骼朝向Ω)。准确的动作和相机信息对于后续的线性混合蒙皮操作和神经辐射场生成二维图像都非常重要。

2.基于神经辐射场的数字人生成

神经辐射场是由一系列二维图像训练的神经网络，即通过输入的二维图像，优化一个由五维函数表示的场景，结合传统图形学的体渲染方法，实现场景新视角二维图像的生成，其通过神经网络强大的拟合能力来生成具有一定复杂性场景的新视角图像，其定义如下：

F(x,θ)＝(c,σ)

其中x为采样点的三维坐标，θ为与相机成像矩阵M_c相关的光线轴角参数，颜色值c和透明度σ为体渲染生成二维图像所需要的参数。

我们通过训练一个由神经辐射场表示的标准动作数字人，根据我们输入的相机成像矩阵M_c，实现对数字人的视角编辑。

3.数字人的动作和纹理编辑

通过结合线性混合蒙皮算法，我们能够实现对数字人的动作编辑。线性混合蒙皮是一种基于骨骼结构进行人体网格变形的算法，它是当前人体动画中最常用的动作驱动算法之一，具有计算速度快和变形效果好的特点。在线性混合蒙皮算法中，每个网格顶点都由多个骨骼控制。骨骼权重表示了每个骨骼对顶点的影响程度。当骨骼移动时，与其相关联的顶点也会相应移动。通过插值计算网格顶点的位置，我们可以创建平滑的动画效果。定义如下：

其中T_s为经过变形后的人体网格，x为人体网格顶点，K为骨骼数量，wⁱ为第i块骨骼的骨骼权重，(R_i,t_i)为动作基，即变形矩阵M_i，其可由人体动作信息p计算获得。在数字人生成过程中，骨骼权重wⁱ由一个三维卷积神经网络进行表示，对于一个采样点x，我们在三维卷积神经网络中进行采样得到骨骼权重。

我们的方法利用神经辐射场和线性混合蒙皮相结合的方式，实现对由神经辐射场表示的标准动作数字人的动作编辑效果。具体而言，我们将神经辐射场通过体渲染方法生成的二维图像中的采样点作为线性混合蒙皮中的人体网格顶点，同时结合从二维图像估计得到的动作信息p，来对数字人进行变形，从而实现动作编辑的效果。

此外，我们还引入了纹理编码的概念。我们将具有相同纹理的人体照片与一个可学习的纹理编码α_i进行绑定，其中每种纹理对应一个唯一的纹理编码。通过输入不同的纹理编码，我们能够对数字人的纹理进行编辑，实现对其外观的调整。

经过动作和纹理编辑后的数字人定义如下：

F(T_s(x,p),θ,α)＝(c,σ)

其中x为采样点的三维坐标，θ为与相机成像矩阵M_c相关的光线轴角参数，p为动作信息，T_s(x,p)为线性混合蒙皮操作，α纹理编码。通过神经辐射场预测颜色值c和透明度σ，即体渲染生成二维图像所需要的参数。

二维图像的像素值可由神经辐射场预测的(c,σ)通过体渲染获得，其定义如下：

其中

针对每个像素点，我们对应一条光线r，并对该光线上进行G个点的采样。这些采样点的间距为Δt_i。我们将每个采样点的坐标以及光线轴角参数θ作为输入，传递给神经辐射场返回相应的颜色值c和透明度σ。通过体渲染的技术，我们对颜色值c和透明度σ进行累积操作，以得到该像素点的最终像素值C(r)。这样，通过对每个像素点进行光线采样、神经辐射场的处理和体渲染，我们能够生成具有新视角的二维图像。

4.基于神经辐射场的可编辑数字人生成

V(F(T_s(x,p),θ,α))＝I

其中V为体渲染，我们使用体渲染技术将经过动作和纹理编辑后的人体二维图像I与数据集中的人体二维图像I_T进行像素值的损失计算。我们对网络施加均方误差(MSE)损失和感知相似性(LPIPS)损失，将二者结合得到总的损失函数L，即L＝L_MSE+λL_LPIPS，其中λ为超参数。

经过训练后，我们得到了由神经辐射场表示的标准动作数字人。接下来，根据输入的指定视角的相机成像矩阵M_c、动作信息p和纹理编码α_i，我们就能够生成具有目标动作和纹理的数字人，实现了视角和动作的可编辑性，并且生成的数字人具有高分辨率。此外，通过输入连续的动作流信息(即连续的动作信息p)，我们还能够生成具有动作流畅性和高分辨率的数字人。这种效果是现有的数字人技术很难实现的。

本方法的输入是完整的人体二维图像或视频流的每一帧图像。首先，通过掩码操作去除图像中的冗余背景信息，并利用三维姿态估计模型获取图像目标人体的相机成像参数，即相机成像矩阵M_c和人体动作信息p(包括骨骼位置J和骨骼朝向Ω)。根据相机成像矩阵M_c生成体渲染所需的采样点，并利用线性混合蒙皮算法对采样点进行变形，以实现对数字人的动作编辑。此外，通过将纹理信息与可学习的纹理编码α_i进行绑定，实现对数字人的纹理编辑。最后，利用传统图形学的体渲染方法生成最终的数字人二维图像。

2.在由神经辐射场表示的一个标准动作(T姿态)的数字人训练完成后，根据输入的相机成像矩阵M_c、人体动作信息p和对应纹理的纹理编码α_i，我们可以生成具有视角、动作和纹理可编辑性的高分辨率数字人。如果输入的人体动作信息p是连续的动作流，我们可以生成动作流畅的数字人，实现对数字人动作的流畅编辑。

本发明是一种视角和动作可编辑的数字人生成方法。我们的方面利用了神经辐射场和线性混合蒙皮各自的优势。一方面神经辐射场具有的高分辨率生成效果、视角编辑能力突出的特点，这是其他方法所不具有的；并且结合了线性混合蒙皮在人体动画中具有计算速度快，变形效果好等特点；同时通过一个纹理编码控制数字人的纹理，从而生成在视角、动作和纹理可编辑的前提下，动作流畅的高分辨率数字人。

系统实施例

根据本发明实施例，提供了一种神经辐射场数字人生成系统，图3是本发明实施例的神经辐射场数字人生成系统的示意图，如图3所示，具体包括：

构建模块：用于构建动作和纹理编辑的神经辐射场模型；

训练模块，用于训练动作和纹理编辑的神经辐射场模型；

二维图像模块：用于基于训练好的动作和纹理编辑的神经辐射场模型得到动作和纹理编辑的定制数字人二维图像。

构建模块具体用于：给定空间中的采样点位置，通过输入人体动作信息p来对由神经辐射场表示的T姿态的数字人进行动作的编辑，结合输入的人体纹理编码，计算采样点的颜色c和密度σ，定制生成数字人的动作和纹理，其定义如下：

F(x,p,α)＝(c,σ)

其中，x为采样点的三维坐标，p为人体动作信息，α_i为纹理编码；预测采样点的颜色c和密度σ之后利用传统体渲染方法生成数字人的二维图像；

其中，K为骨骼数量，wⁱ为第i块骨骼的骨骼权重，(R_i,t_i)为动作基，即变形矩阵M_i，变形矩阵由人体动作信息p计算获得；骨骼权重wⁱ由一个三维卷积神经网络进行表示，在三维卷积神经网络中进行采样得到骨骼权重；通过人体动作信息p对点x在空间上进行基于动作的变换，使得T姿态的数字人变换到指定的动作姿态；

纹理的编辑具体包括：将具有特定纹理的人体照片与一个纹理编码α_i进行绑定，其中，每种纹理对应一个唯一的纹理编码，通过输入不同的纹理编码，对数字人的纹理进行编辑；

经过动作和纹理编辑后的数字人定义如下：

F(T_s(x,p),α)＝(c,σ)

V(F(T_s(x,p),α))＝I

其中T_s(x,p)为动作编辑；通过神经辐射场预测颜色值c和透明度σ，V为传统体渲染方法，生成经过动作和纹理编辑的数字人二维图像I。

训练模块具体用于：给定输入的图片、人体动作信息p、纹理编码α_i和视角，通过优化一下方程实现动作和纹理可编辑的神经辐射场的训练，优化公式如下：

其中N是输入的图片数目，损失函数，V体渲染，I_i为输入图片，p为人体动作信息，α为纹理编码。

二维图像模块具体用于：输入的定制动作信息p和纹理编码α_i生成经过动作和纹理编辑的定制数字人二维图像。

本发明实施例是与上述方法实施例对应的系统实施例，各个模块的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。

装置实施例一

本发明实施例提供一种神经辐射场数字人生成，如图4所示，包括：存储器40、处理器42及存储在存储器40上并可在处理器42上运行的计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

装置实施例二

本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有信息传输的实现程序，程序被处理器42执行时实现上述方法实施例中的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换本发明各实施例技术方案，并不使相应技术方案的本质脱离本方案的范围。

Claims

1.一种神经辐射场数字人生成方法，其特征在于，包括：

S1、构建动作和纹理编辑的神经辐射场模型；

S2、训练动作和纹理编辑的神经辐射场模型；

2.根据权利要求1所述的方法，其特征在于，所述S1具体包括：给定空间中的采样点位置，通过输入人体动作信息p来对由神经辐射场表示的T姿态的数字人进行动作的编辑，结合输入的人体纹理编码，计算采样点的颜色c和体密度σ，定制生成数字人的动作和纹理，其定义如下：

F(x,d,p,α)＝(c,σ)

经过动作和纹理编辑后的数字人定义如下：

F(T_s(x,p),d,α)＝(c,σ)

V(F(T_s(x,p),d,α))＝I

3.根据权利要求2所述的方法，其特征在于，所述S2具体包括：给定输入的图片、人体动作信息p、纹理编码α和视角d_i(i＝1,…,N)，通过优化以下方程实现动作和纹理可编辑的神经辐射场的训练，优化公式如下：

4.根据权利要求3所述的方法，其特征在于，所述S3具体包括：输入的定制动作信息p和纹理编码α生成经过动作和纹理编辑的定制数字人二维图像。

5.一种神经辐射场数字人生成系统，其特征在于，包括：

构建模块：用于构建动作和纹理编辑的神经辐射场模型；

训练模块，用于训练动作和纹理编辑的神经辐射场模型；

6.根据权利要求5所述的方法，其特征在于，所述构建模块具体用于：给定空间中的采样点位置，通过输入人体动作信息p来对由神经辐射场表示的T姿态的数字人进行动作的编辑，结合输入的人体纹理编码，计算采样点的颜色c和体密度σ，定制生成数字人的动作和纹理，其定义如下：

F(x,d,p,α)＝(c,σ)

其中，x为采样点的三维坐标，d为相机成像参数，p为人体动作信息，α为纹理编码；预测采样点的颜色c和体密度σ之后利用传统体渲染方法生成数字人的二维图像；

纹理的编辑具体包括：将具有特定纹理的人体照片与一个纹理编码α进行绑定，其中，每种纹理对应一个唯一的纹理编码，通过输入不同的纹理编码，对数字人的纹理进行编辑；

经过动作和纹理编辑后的数字人定义如下：

F(T_s(x,p),d,α)＝(c,σ)

V(F(T_s(x,p),d,α))＝I

7.根据权利要求6所述的系统，其特征在于，所述训练模块具体用于：给定输入的图片、人体动作信息p、纹理编码α和视角，通过优化一下方程实现动作和纹理可编辑的神经辐射场的训练，优化公式如下：

8.根据权利要求7所述的系统，其特征在于，所述应用模块具体用于：输入的定制动作信息p和纹理编码α生成经过动作和纹理编辑的定制数字人二维图像。

9.一种神经辐射场数字人生成装置，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的神经辐射场数字人生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至4中任一项所述的神经辐射场数字人生成方法的步骤。