CN117496072B

CN117496072B - 一种三维数字人生成和交互方法及系统

Info

Publication number: CN117496072B
Application number: CN202311809947.2A
Authority: CN
Inventors: 王康侃; 王冲; 李绍园
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-08
Anticipated expiration: 2043-12-27
Also published as: CN117496072A

Abstract

本发明属于三维重建技术领域，公开了一种三维数字人生成和交互方法及系统。本发明方法包括如下步骤：从单目视频中进行人体实例分割捕捉视频中人体动作；使用神经辐射场重建包含细节的三维数字人形象；采用哈希表编码的方法加速重建；使用扩散模型生成运动序列；通过编辑生成的方式生成任意长度序列；恢复可用于驱动的动作参数；对人脸单独建立三维神经辐射场模型；使用低分辨率特征图和二维神经渲染合成任意视角的二维图像；将脸型、表情等人脸特征映射到一组参数，控制不同参数实现人脸表情驱动和编辑。本发明能够从单目视频快速重建任意的包含精细头像的数字人形象，提供了多样且智能的交互方式。

Description

一种三维数字人生成和交互方法及系统

技术领域

本发明属于三维重建技术领域，尤其涉及一种三维数字人生成和交互方法及系统。

背景技术

数字人生成是元宇宙和虚拟现实领域的研究热点之一，它在游戏开发、电影制作、虚拟试衣、虚拟角色设计、广告宣传等领域具有广阔的应用前景。其目标是利用计算机技术生成高度逼真的数字人，并实现自然流畅的动作和表情。数字人生成涉及多个关键问题，包括数字人重建、数字人动态驱动和数字人智能交互。

在数字人重建方面，主要关注数据采集、数据表达和重建方法。传统数字人重建的输入数据主要分为多视角视频、单视角视频和点云。多视角方法需要事先扫描人体模板模型，并利用多个相机从不同角度采集数据，以降低人体变形的自由度。然而，多视角重建系统成本高昂，限制了其在日常生活中的应用。

近年来，基于深度学习的数字人重建方法得到广泛研究。它通过深度神经网络学习人体形状和姿势的先验知识，使得从单目视频中重建数字人成为可能。然而，由于人体不同部位相互遮挡和单目相机的视角限制等因素，导致人体数据丢失，增加了研究难度。

传统的数字人重建方法通常使用网格、体素等表示，具有处理简单的优势。然而，这些表示方法在处理包含大量细节的人体时（衣服、人脸等），会消耗大量内存，并且不能表示因光照等因素导致的人体颜色变化，拟真度有限。

近年来，神经辐射场（NeRF）的提出为数字人重建提供了新的表示方法。它利用神经网络将空间坐标映射为颜色和密度，并通过体素渲染合成图像，具有可控的内存占用，并且能够实现逼真的新视角图像合成。最新的研究将传统的网格表示方法与神经辐射场相结合，使用参数化的人体网格模型作为神经辐射场中人体的变形先验，实现了高精度的数字人重建。

然而，这些方法的神经辐射场训练通常需要较长时间训练（一到两天）。传统的从点云中重建数字人的方法分为恢复参数化模型和非参数化模型，恢复参数化模型方法往往不能包含衣服细节，而非参数化模型则容易出现不合理的结果，如断臂等。

一些方法将参数化模型变形以获得衣服细节，但比较而言，这些细节（纹理和几何等）是粗糙的，这导致点云重建方法难以用于重建高拟真度的数字人。

数字人动态驱动是实现数字人自然动作和表情的关键技术。首先，通过数字人重建方法获取人体的三维模型，然后通过驱动技术使其执行所需的动作和表情。

常用的数字人驱动方法包括基于骨架驱动和非刚性变形的驱动方法。骨架驱动的方法需要对三维数字人创建骨架结构，然后根据运动学原理计算骨骼运动轨迹来实现对数字人运动的控制。非刚性变形则将数字人模型网格看作弹性物体，通过对顶点位置的调整来实现对数字人运动驱动。虽然这些方法能够用于驱动数字人，但是如何高效准确地生成自然、时空连贯的长序列动作仍具有很大的挑战性。

人工生成3D骨骼动画显然是低效的，而使用真实人体的运动数据则需要使用数字人动作捕捉技术，它需要表演者完成设定的动作来提取运动数据，且获得的动作序列固定，难以做出适合场景的调整，更不能实时生成。扩散模型近年来被广泛用于图像合成任务，它能够从噪声中生成有意义的数据，也可以用于生成数字人驱动所需的动作序列，但是它无法一次生成较长的动作序列，如果将多次生成的序列拼接会导致动作序列不平滑。

数字人的智能交互是数字人能够根据环境和用户的输入做出智能响应和互动。智能交互通常包括文本交互、语音交互、视觉交互、多模态交互等，一个成熟的数字人智能系统应具备多种交互功能。

综上，传统的数字人重建方法在处理包含大量细节的数字人时存在着计算资源消耗大、拟真度有限等问题。数字人动态驱动技术虽然能够用于驱动数字人实现运动效果，但如何高效准确地生成自然、时空连贯的长序列动作仍具有很大的挑战性。数字人系统智能交互也需要克服多种技术难题，如多模态数据的输入、多语言处理等等。

发明内容

本发明的目的在于提出一种三维数字人生成和交互方法，该方法能够从单目视频输入快速地生成高拟真的全身像数字人，包括数字人和数字头像，并且能够生成任意长度的动作序列，同时还能够对数字人实现多模态驱动。

本发明为了实现上述目的，采用如下技术方案：

一种三维数字人生成和交互方法，包括如下步骤：

步骤1. 数字人生成和交互处理；

步骤1.1. 从单目视频中进行人体实例分割，以精准捕捉视频中人体动作；

步骤1.2. 使用神经辐射场建立三维人体模板空间下的神经辐射场，包括人体的颜色和几何模型，重建包含细节的三维数字人形象；

步骤1.3. 在生成三维数字人形象时，采用哈希表编码的方法加速重建过程；

步骤1.4. 使用扩散模型根据输入文本或语音信息生成动作序列，其中，动作序列由预先定义好的若干人体关节点位置表示；

步骤1.5. 受限于原始数据动作序列长度的限制，无法直接生成任意长度的动作序列，通过编辑生成的方式生成任意长度动作序列；

步骤1.6. 采用基于Transformer的模型恢复用于驱动的动作参数，以驱动数字人模型；

步骤1.7 使用多模态数据驱动数字人，实现数字人的交互功能；

步骤2. 数字头像生成和交互处理；

步骤2.1. 对人脸单独建立三维神经辐射场模型；

步骤2.2. 使用低分辨率特征图和二维神经渲染合成任意视角的二维图像；

步骤2.3. 将人脸特征映射到一组参数，通过控制不同参数实现人脸的表情驱动和编辑。

在三维数字人生成和交互方法的基础上，本发明还提出了一种与之对应的三维数字人生成和交互系统，该三维数字人生成和交互系统采用如下技术方案：

一种三维数字人生成和交互系统，包括：

数字人生成和交互处理模块，用于实现数字人生成和交互处理，其处理过程为：

从单目视频中进行人体实例分割，以精准捕捉视频中人体动作；

使用神经辐射场建立三维人体模板空间下的神经辐射场，包括人体的颜色和几何模型，重建包含细节的三维数字人形象；

在生成三维数字人形象时，采用哈希表编码的方法加速重建过程；

使用扩散模型根据输入文本信息生成动作序列，其中，动作序列由预先定义好的若干人体关节点位置表示；

受限于原始数据动作序列长度的限制，无法直接生成任意长度的动作序列，通过编辑生成的方式生成任意长度动作序列；

采用基于Transformer的模型恢复用于驱动的动作参数，以驱动数字人模型；

使用多模态数据驱动数字人，实现数字人的交互功能；

以及数字头像生成和交互处理模块，用于实现数字头像生成和交互处理，其处理过程为：

对人脸单独建立三维神经辐射场模型；

使用低分辨率特征图和二维神经渲染合成任意视角的二维图像；

将人脸特征映射到一组参数，通过控制不同参数实现人脸的表情驱动和编辑。

本发明具有如下优点：

如上所述，本发明述及了一种三维数字人生成和交互方法及系统。其中，本发明能够快速地生成高拟真的三维全身像数字人，与传统方案相比，本发明方法能够在5分钟以内快速的重建数字人，且生成的精度与当先先进方案相差无几。另外，本发明提出一个可以生成任意长度动作序列的生成模型，相比传统方案，本发明采用最先进的生成模型从真实数据中学习到更加逼真的动作序列同时对生成的动作序列长度没有要求，且可以一次性准确的估计出可用于驱动的参数化模型，大大加快了交互的速度。此外，本发明还提出了一种新的数字头像生成和交互方法，该方法能够重建出可驱动的高精度数字头像，与传统方法相比，本发明所提数字头像生成和交互方法能够达到更快的重建速度，并且对数字头像进行参数解耦，实现了对数字头像表情、光照、反射率等的分别驱动，同时可以合成任意视角的逼真图像。

附图说明

图1为本发明实施例中三维数字人生成和交互方法的流程图。

图2为本发明实施例中哈希表编码的框架示意图。

图3为本发明实施例中动作生成的框架示意图。

图4为本发明实施例中动作编辑生成的示意图。

图5为本发明实施例中数字头像生成框架示意图。

图6为本发明实施例中数字人生成结果示意图。

图7为本发明实施例中文本驱动数字人的渲染结果示意图。

图8为本发明实施例中视频驱动数字人的结果示意图。

图9为本发明实施例中数字头像生成与驱动结果示意图。

图10为本发明实施例中三维数字人生成和交互系统的界面展示图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

实施例1

本实施例1述及了一种三维数字人生成和交互方法，该方法能够以输入的文本或语音描述作为条件生成动作序列，进一步根据生成的动作序列估计SMPL参数，实现驱动数字人体运动，也可以通过在视频或图像中提取人体姿态并驱动数字人做出相应动作，实现通过文字、语音、图像、视频等多模态数据对生成的数字人体进行智能化交互。

此外，在数字头像交互方面，本发明基于数字头像的神经辐射场模型，通过编辑表情和姿态模型参数，实现以表情和视频为输入的数字人头像表情编辑和视频驱动交互。

如图1所示，本实施例中三维数字人生成和交互方法，包括如下步骤：

步骤1. 数字人生成和交互处理。

步骤1.1. 从单目视频中进行人体实例分割，以精准捕捉视频中人体动作。

本发明通过对输入视频的每一帧预测人体关节点，并作为提示（Prompt）输入到人体实例网络得到稳健的像素级人体分割，用于后续三维数字人体的重建。

具体的，从单目视频中进行人体实例分割的具体过程如下：

首先对输入的单目视频的每一帧，使用Openpose得到的人体关键点信息，然后将人体关键点信息作为提示输入到人体实例分割网络得到稳健的像素级人体分割；最后通过寻找最大连通域，以进一步提升分割效果，去除非人体干扰，使得人体分割更加精准。

步骤1.2. 使用神经辐射场建立三维人体模板空间下的神经辐射场，包括人体的颜色和几何模型，重建包含细节的三维人体模型，即三维数字人形象。

人体模板空间的几何和颜色在后续阶段保持不变，用于后续阶段的模型驱动。

模板空间的人体几何由包含占据网络的神经辐射场表示。

首先定义三维人体模板空间，用于获取一个固定位置、固定姿态的三维数字人体表示，在训练阶段，视频中处于不同位置、不同姿态的待重建人体都将被转换到此模板空间内。

首先将输入视频中不同位置不同姿态的人体转换到模板空间，将用于训练出一个固定位置、固定姿态的三维人体表示，并在后续阶段保持不变。

对于要合成图像上的每个像素生成一条光线r=o+td。

其中o为相机中心，d为光线方向，沿光线在远近边界中取采样点，每个像素的颜色C可以通过访问沿对应光线累计的辐射与密度得到。

，其中，/>，N采样点的数量，c_i表示采样点的颜色信息，σ_i对应采样点的密度，δ_i两个相邻采样点之间的距离。

传统方法建立模板空间人体表示是直接对姿态空间采样，计算时间长，算力消耗大。

本发明首先将输入视频中的每一帧从姿态空间恢复到模板空间，采用一个64×64×64的低分辨率体素网格表征蒙皮权重场，每个网格点的蒙皮权重由距离SMPL模型最近的顶点决定，模板空间中的每个采样点依据线性混合蒙皮转化到一个变形空间。

变形后的每个采样点可表示为：。其中w_i表示对应关节位置对该顶点的权重，B_i表示第i个关节的变换矩阵，x表示模板空间下的顶点，x＇表示变形后的顶点。

由此得到了姿态空间与模板空间中各采样点的对应关系。

步骤1.3. 在生成三维数字人形象时，使用基于哈希表编码的方式加速重建过程。

传统获取采样点特征的方法计算量大，模型收敛缓慢。本发明采用多分辨率的哈希编码存储采样点信息，舍弃原始神经辐射场中的大部分参数，替换为一个更加紧凑的网络。

对于每条从观察视角出发的射线，获取其在三维人体模板空间中的每个采样点，从存储的采样点信息中读取并进行三线性插值，并将插值后的特征信息依据不同层级进行拼接，最后通过一个浅层MLP将采样点特征信息解码为对应颜色与密度。

哈希表的表示如图2所示，其中图2中的(1)表示网格顶点哈希编码，(2)表示寻找，(3)表示线型插值，(4)表示拼接，(5)表示网络。例如，对于标准空间内一个采样点x，先以L种分辨率层次找到点周围的体素网格，并使用哈希编码为网格顶点创建索引。图2的(1)中各数字表示在模板空间下该位置在特定分辨率的哈希表下，通过哈希映射后得到的该位置在此哈希表中的索引。图2的(2)中数字表示某个分辨率的哈希表下的所有索引，通过其中某个索引可以获取哈希表在此位置处存储的数据。通过图2的(1)中的数字所代表的索引可以查找得到图2的(2)中哈希表中相同数字处的数据，哈希表中保存的数据是用于训练的F维特征向量。对于每个分辨率层级，根据坐标在空间中的位置，对特征向量进行线性插值以匹配输入坐标，并将来自每个网格的特征向量拼接起来输入到神经网络中，预测RGB颜色c与体密度σ。其中N_l表示不同的哈希表分辨率，l表示哈希表的层级，b表示哈希表的成长参数。各参数之间的关系可以表示为：

；

。

其中，N_min表示最小的哈希表分辨率，N_max表示最大的哈希表分辨率。

对于每一帧使用关节变形动态地将观察帧空间中的三维采样点变形到标准空间，以此获得Nerf输出的几何和颜色，并采用经典体渲染技术合成二维图片，并通过最小化合成图像和输入视频对应帧之间的差异以优化网络模型。

步骤1.4. 如图3所示，使用扩散模型根据输入文本或语音信息生成动作序列，其中，动作序列由一组预先定义好的人体关节位置表示。

首先以输入的文本或语音描述作为条件，以从标准正态分布中采样的数据作为起始，采用从真实数据中学习得到逼真的动作序列的扩散模型中生成符合文本和语音描述的动作序列。

采用基于扩散模型的生成模型从真实数据中学习得到逼真的动作序列，扩散模型(Diffusion Model)通常可以被定义为：

。

其中，x₀~q(x₀)是真实数据，p_θ表示由模型预测的在扩散模型对应步骤的概率分布，x_t表示在第t步数据的构成。

扩散模型在学习过程中通常包含一个扩散和逆扩散的过程。其中通过一个正向加噪过程将有序数据变换为随机噪声，再通过逆向过程通过模型学习恢复原始数据结构的过程。

为了近似后验概率q(x_1:T| x₀)，扩散过程遵循马尔科夫链逐渐向数据添加高斯噪声，直到其分布接近潜在分布N(0,1)。

步骤1.5. 受限于原始数据动作序列长度的限制，无法直接生成任意长度的动作序列，本发明采用编辑生成的方式从真实数据中学习到逼真的动作序列，同时可以生成任意长度的动作序列。具体的，本发明首先根据以输入的文本或语音描述作为条件，以从标准正态分布中采样的数据作为起始，生成符合描述的一段逼真动作序列。

由于原始数据动作长度的限制，动作生成模型的生成长度会受到限制，如图4所示，其中图4中上方一排图像中的右侧部分为通过编辑生成的，而图4中下方一排图像中右侧框内的部分为直接生成的。由对比可知，本发明采用编辑生成的方式，从真实数据中学习到逼真的动作序列，从前一次生成的运动序列的末尾中选取一段子动作序列，将此子动作序列与从标准正态分布中采样得到的数据结合输入到扩散模型中作为下一次序列的生成，重复此过程并将得到的序列进行拼接，通过这种方式生成的动作序列非常连贯，同时可以生成任意长度的动作序列。在此步骤中，生成的动作序列皆以预定义人体若干关节的位置表示。可以表示为：

M_n=F_D(text,M_p)。

其中，M_p、M_n分别表示前一次和后一次的动作序列，F_D表示扩散模型，text表示文本约束条件。

本发明基于扩散模型生成的人体运动骨架，能够根据用户给定的音频、自然语言文本输入生成指定的动作序列，通过运动编辑生成方法，能够生成自然平滑的人体动作长序列，从而驱动数字人运动。

步骤1.6. 采用基于Transformer的模型恢复用于驱动的动作参数，以驱动数字人模型。

动作序列进行参数化模型恢复，步骤4中生成的以关节位置表示的动作序列无法直接驱动数字人模型，需要将其恢复其SMPL模型参数。

以往的方法采用对每一个动作对应的SMPL模型参数单独优化，耗时长，不利于长序列动作的恢复，本发明采用基于Transformer的方法一次性从生成的整段关节位置恢复全部SMPL模型参数，这种方法直接从模型获取输出，计算速度快同时能达到极高的准确性。

具体地，通过最小化参数化人体模型的关节位置和真实数据的关节位置之间的距离，去逐渐拟合参数化人体模型的参数，同时使用一个人体先验来避免模型生成畸形的人体。

模型的损失可以定义为：

E=λ_θE(θ)+ λ_jE(J)+ λ_pE(P)。

其中E(θ)、E(J)、E(P)分别表示关节位置、模型参数、人体先验损失，λ_θ、λ_j、λ_p分别为各项损失的权重。

对于生成动作序列，采用基于Transformer的方法一次性地从整段序列估计可用于驱动的SMPL参数：

F_(θ)：J_i→θ_i；

其中，J_i表示第i帧的关节坐标，θ_i表示预测出的第i帧的SMPL参数。

本发明考虑动作序列时序上的连贯性，能够准确的估计出每一帧的SMPL参数。

步骤1.7. 使用多模态数据驱动数字人，实现数字人的交互功能。

以文本或语音为输入，通过扩散模型生成并进一步估计的SMPL参数驱动数字人；以图像和视频作为输入，采用OpenPose方法对输入图像或视频进行SMPL模型恢复进而驱动数字人；对于需要驱动的动作，获取该动作参数对应的SMPL模型顶点，通过匹配距离采样点最近的SMPL模型顶点，得到每个采样对应的关节变形权重，通过将关节变形权重应用到每个采样点，变形采样点到模板空间下的对应位置，得到对应动作的数字人的渲染图像，以此实现与数字人之间的交互。其中，数字人的交互效果如图6至图8所示。其中，图7中展示的上方一排图像为一个人在跑步的场景，下方一排图像为一个人在踢腿的场景。

步骤2. 数字头像生成和交互处理。

以往的方法存在着设备要求高或不能驱动等问题。本发明采用基于隐式表征的方法对数字头像进行表示，同时通过属性解耦的方式实现对数字头像进行不同方式的驱动。

其中，在生成数字头像时，对表示模型的参数进行解耦，包括身份、表情、反射率和光照编码四个参数，其中身份和表情编码控制了面部的几何形状，而反射率和光照编码控制了渲染出来的面部的外观。在渲染头像二维图片阶段，采用低分辨率特征图和二维神经渲染的方式加速合成图片。

步骤2.1. 对人脸单独建立三维神经辐射场模型。

对于数字头像生成部分，如图5所示，首先输入的目标图像通过3DMM拟合学习得到初始隐式编码；接着，初始隐式编码加上增量编码作为给定的语义隐式编码和摄像机参数一起输入体渲染。其中，体渲染是指利用基于多层感知机MLP的隐函数预测从一条射线采样的三维点的密度和特征向量，其中，多个特征向量组合成为低分辨率的特征图。

步骤2.2. 使用低分辨率特征图和二维神经渲染合成任意视角的二维图像。

首先，获取低分辨率三维特征图，再通过体绘制获得低分辨率的2D特征图I _F，公式如下：

。

其中，r(t)表示从相机中心发射的射线，F(x)表示对应位置的特征向量，w(t)表示每个点的权重。

其次，将得到的特征图进行一系列的上采样，将所有特征图输入1×1的2D卷积得到RGB图像，将所有RGB图像相加得到数字头像对应视角的渲染图像。

利用步骤2.2中得到的数字头像渲染图象和输入的人脸图像做一个损失计算，以该损失更新隐式编码增量，最终得到完整的隐式编码。

数字头像生成表示为：

I=R(z_id, z_exp, z_alb, z_ill, P)；

其中，z_id、z_exp、z_alb、z_ill分别表示个人身份编码、表情编码、光照编码、反射率编码，P表示相机位姿。

数字头像的生成和交互效果如图9所示，此种方式可实现分别生成的数字头像的表情、光照、反射率等的变化。

此外，为了实现对渲染结果的语义解缠控制，让一个主体的所有图像共享相同的身份编码，并且来自同一主体的不同光照条件和不同拍摄相机的相同表情的图像共享相同的表情潜在代码，并以此设计一项损失要求可学习的编码能够表征不同的物理属性，以四种编码控制数字头像，通过对编码的分别控制实现数字头像的表情、光照、反射率的不同变化。

本发明述及的三维数字人生成和交互方法，克服了传统方法在细节丰富度、计算资源消耗和准确性方面的局限性，为数字人在游戏开发、电影制作、虚拟试衣、虚拟角色设计、广告宣传等领域的应用提供更加高效、准确、逼真、快速的解决方案。

实施例2

在上述实施例1的基础上，本实施例2提出了一种与之对应的三维数字人生成和交互系统，该生成和交互系统对输入视频进行像素级分割，使用哈希表编码加速的神经辐射场建立模板模型空间，使用扩散模型生成任意长度的动作序列，基于Transformer恢复对应参数化模型，将模板空间驱动到对应姿态空间，通过神经辐射场和属性解耦实现数字头像的重建与驱动，采用低分辨率特征图和二维神经渲染快速合成任意视角图像。

结合上述功能的实现，本实施例中系统，将快速数字人生成方法、长序列动作生成方法以及数字人脸生成方法整合为一个完整系统，实现了从单目视频或者图像输入生成可任意驱动的数字人系统，且该系统可以对人脸做出精细化表示和驱动，同时设计实现一套便捷的交互界面，将系统各个功能可以同时运行和展示，系统展示如图10所示。

具体的，本实施例中三维数字人生成和交互系统，包括：

使用多模态数据驱动数字人，实现数字人的交互功能；

对人脸单独建立三维神经辐射场模型；

本发明系统能够从单目视频快速重建出任意的包含精细头像的数字人形象，并提供了多样且智能的交互方式，在虚拟现实、虚拟试衣，虚拟体育直播等领域提供了基础。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种三维数字人生成和交互方法，其特征在于，包括如下步骤：

步骤1. 数字人生成和交互处理；

步骤1.5. 通过编辑生成的方式生成任意长度动作序列；

步骤1.7 使用多模态数据驱动数字人，以实现数字人的交互；

步骤2. 数字头像生成和交互处理；

步骤2.1. 对人脸单独建立三维神经辐射场模型；

2.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.1具体为：

首先对输入的单目视频的每一帧，使用Openpose得到的人体关键点信息；然后将人体关键点信息作为提示输入到人体实例分割网络得到像素级人体分割；

最后通过寻找最大连通域，去除非人体干扰。

3.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.2具体为：

4.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.3具体为：

通过采用多分辨率的哈希编码存储采样点信息；

5.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.4具体为：

6.根据权利要求5所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.5具体为：

采用编辑生成的方式，从真实数据中学习到逼真的动作序列，从前一次生成的运动序列的末尾中选取一段子动作序列，将此子动作序列与从标准正态分布中采样得到的数据结合输入到扩散模型中作为下一次序列的生成，重复此过程并将得到的序列进行拼接得到最终的任意长度的动作序列。

7.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.6具体为：

通过最小化参数化人体模型的关节位置和真实数据的关节位置之间的距离，去逐渐拟合参数化人体模型的动作和体型参数，同时使用一个人体先验来避免模型生成畸形的人体。

8.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤1.7具体为：

以文本或语音为输入，通过扩散模型生成并进一步估计的SMPL参数驱动数字人；以图像和视频作为输入，采用OpenPose方法对输入图像或视频进行SMPL模型恢复进而驱动数字人；对于需要驱动的动作，获取该动作参数对应的SMPL模型顶点，通过匹配距离采样点最近的SMPL模型顶点，得到每个采样对应的关节变形权重，通过将关节变形权重应用到每个采样点，变形采样点到模板空间下的对应位置，得到对应动作的数字人的渲染图像。

9.根据权利要求1所述的三维数字人生成和交互方法，其特征在于，

所述步骤2.1具体为：

首先输入的目标人脸图像通过3DMM拟合学习得到初始隐式编码；接着，初始隐式编码加上增量编码作为给定的语义隐式编码和摄像机参数一起输入体渲染；

其中，体渲染是指利用基于多层感知机MLP的隐函数预测从一条射线采样的三维点的密度和特征向量，多个特征向量组合成为低分辨率的特征图；

所述步骤2.2具体为：

首先，获取低分辨率三维特征图，再通过体绘制获得低分辨率的2D特征图；

其次，将得到的特征图进行一系列的上采样，将所有特征图输入1×1的2D卷积得到RGB图像，将所有RGB图像相加得到数字头像对应视角的渲染图像；

所述步骤2.3具体为：

利用步骤2.2中得到的数字头像渲染图像和输入的目标人脸图像进行损失计算，以该损失更新隐式编码增量，最终得到完整的隐式编码；

数字头像生成表示为：

I=R(z_id, z_exp, z_alb, z_ill, P)；

其中z_id、z_exp、z_alb、z_ill分别表示个人身份编码、表情编码、光照编码、反射率编码，P表示相机位姿；

让一个主体的所有图像共享相同的身份编码，并且来自同一主体的不同光照条件和不同拍摄相机的相同表情的图像共享相同的表情潜在代码，并以此设计一项损失要求可学习的编码能够表征不同的物理属性，以四种编码控制数字头像，通过对编码的分别控制实现数字头像的表情、光照、反射率的不同变化。

10.一种三维数字人生成和交互系统，其特征在于，包括：

通过编辑生成的方式生成任意长度动作序列；

使用多模态数据驱动数字人，以实现数字人的交互；

对人脸单独建立三维神经辐射场模型；