CN118115642A

CN118115642A - 三维数字人的生成方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN118115642A
Application number: CN202410536323.6A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2024-04-30
Filing date: 2024-04-30
Publication date: 2024-05-31

Abstract

本公开涉及图像生成技术领域，尤其涉及一种三维数字人的生成方法、装置、电子设备、存储介质和程序产品。所述方法包括：获取用于生成三维数字人的目标文本描述信息；对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息；根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值；根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人。本公开能够基于文本引导快速生成三维数字人。通过采用本公开生成三维数字人，能够简化用户操作。用户无需深厚的3D建模技能，仅通过简单的文本描述，即可快速生成高度个性化的三维数字人。

Description

三维数字人的生成方法、装置、电子设备、存储介质和程序产品

技术领域

本公开涉及图像生成技术领域，尤其涉及一种三维数字人的生成方法、三维数字人的生成装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着人工智能技术的迅猛发展，AIGC（Artificial Intelligence GeneratedContent，人工智能生成内容）取得了显著成果，特别是在文本问答（如ChatGPT）和文本生成图片（如Stable Diffusion）等方面，均实现了突破性的进展。然而，在3D（3 Dimensions，三维）生成领域，尽管存在研究，但尚未出现突破性的进展。随着虚拟现实（Virtual Reality，VR）与增强现实（Augmented Reality，AR）技术的不断进步，数字人的创建与应用变得越来越普遍，尤其在娱乐、社交、教育与培训等领域，数字人作为虚拟互动的重要主体，其需求呈现快速增长的趋势。

传统的三维数字人（3D Avatar）生成技术依赖于复杂的手工建模过程，这不仅耗时耗力，而且对用户的专业技能要求较高，从而极大地限制了数字人生成的效率及其普及范围。

发明内容

本公开提供了一种三维数字人的生成技术方案。

根据本公开的一方面，提供了一种三维数字人的生成方法，包括：

获取用于生成三维数字人的目标文本描述信息；

对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息；

根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值；

根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人。

在一种可能的实现方式中，所述根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人，包括：

根据所述控制参数的值，设置所述三维数字人参数化模型，得到目标三维数字人的几何形状；

获得所述目标三维数字人的纹理信息；

根据所述几何形状和所述纹理信息，生成所述目标三维数字人。

在一种可能的实现方式中，在所述生成所述目标文本描述信息对应的目标三维数字人之后，所述方法还包括：

对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像；

基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值；

根据所述损失函数的值，对所述目标三维数字人进行调整。

在一种可能的实现方式中，

所述对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像，包括：对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的多个视图的二维图像；

所述基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值，包括：基于所述多个视图的二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值。

在一种可能的实现方式中，所述基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值，包括：

对所述二维图像进行编码，得到所述二维图像对应的第一特征向量；

将所述第一特征向量输入扩散模型，通过所述扩散模型获得预测数据；

根据所述预测数据与所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值。

在一种可能的实现方式中，所述根据所述损失函数的值，对所述目标三维数字人进行调整，包括：

根据所述损失函数的值，对所述目标三维数字人的几何形状和纹理信息进行调整；

根据调整后的几何形状和调整后的纹理信息，生成调整后的目标三维数字人。

在一种可能的实现方式中，所述根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值，包括：

将所述关键属性信息输入预先训练的参数映射网络，通过参数映射网络输出三维数字人参数化模型的控制参数的值。

在一种可能的实现方式中，所述控制参数包括以下至少部分：姿态参数、形状参数、表情参数、置换参数。

在一种可能的实现方式中，在所述对所述目标三维数字人进行调整之后，所述方法还包括：

对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人。

在一种可能的实现方式中，所述预设的压缩处理包括以下至少之一：模型简化处理、贴图压缩处理。

在一种可能的实现方式中，所述对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人，包括：

获取指定平台的部署要求信息；

根据所述部署要求信息，对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人。

根据本公开的一方面，提供了一种三维数字人的生成装置，包括：

获取模块，用于获取用于生成三维数字人的目标文本描述信息；

文本解析模块，用于对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息；

第一确定模块，用于根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值；

生成模块，用于根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人。

在一种可能的实现方式中，所述生成模块用于：

获得所述目标三维数字人的纹理信息；

在一种可能的实现方式中，所述装置还包括：

可微渲染模块，用于对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像；

第二确定模块，用于基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值；

调整模块，用于根据所述损失函数的值，对所述目标三维数字人进行调整。

在一种可能的实现方式中，

所述可微渲染模块用于：对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的多个视图的二维图像；

所述第二确定模块用于：基于所述多个视图的二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值。

在一种可能的实现方式中，所述第二确定模块用于：

在一种可能的实现方式中，所述调整模块用于：

在一种可能的实现方式中，所述第一确定模块用于：

在一种可能的实现方式中，所述装置还包括：

压缩模块，用于对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人。

在一种可能的实现方式中，所述压缩模块用于：

获取指定平台的部署要求信息；

根据本公开的一方面，提供了一种电子设备，包括：一个或多个处理器；用于存储可执行指令的存储器；其中，所述一个或多个处理器被配置为调用所述存储器存储的可执行指令，以执行上述方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

根据本公开的一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述方法。

在本公开实施例中，通过获取用于生成三维数字人的目标文本描述信息，对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息，根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值，并根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人，由此能够基于文本引导快速生成三维数字人。通过采用本公开实施例生成三维数字人，能够简化用户操作。用户无需深厚的3D建模技能，仅通过简单的文本描述，即可快速生成高度个性化的三维数字人。因此，本公开实施例显著提高了三维数字人生成的效率，降低了生成三维数字人的专业技能门槛，使得非专业用户也能够轻松创建个性化的三维数字人。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出本公开实施例提供的三维数字人的生成方法的流程图。

图2示出本公开实施例提供的三维数字人的生成方法的示意图。

图3示出本公开实施例提供的三维数字人的生成装置的框图。

图4示出本公开实施例提供的电子设备1900的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

相关技术中，三维数字人的制作成本高昂，采集流程复杂。

为了解决类似上文所述的技术问题，本公开实施例提供了一种三维数字人的生成方法，通过获取用于生成三维数字人的目标文本描述信息，对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息，根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值，并根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人，由此能够基于文本引导快速生成三维数字人。通过采用本公开实施例生成三维数字人，能够简化用户操作。用户无需深厚的3D建模技能，仅通过简单的文本描述，即可快速生成高度个性化的三维数字人。因此，本公开实施例显著提高了三维数字人生成的效率，降低了生成三维数字人的专业技能门槛，使得非专业用户也能够轻松创建个性化的三维数字人。

下面结合附图对本公开实施例提供的三维数字人的生成方法进行详细的说明。

图1示出本公开实施例提供的三维数字人的生成方法的流程图。在一种可能的实现方式中，所述三维数字人的生成方法的执行主体可以是三维数字人的生成装置，例如，所述三维数字人的生成方法可以由终端设备或服务器或其它电子设备执行。其中，终端设备可以是用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备或者可穿戴设备等。在一些可能的实现方式中，所述三维数字人的生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，所述三维数字人的生成方法包括步骤S11至步骤S14。

在步骤S11中，获取用于生成三维数字人的目标文本描述信息。

在步骤S12中，对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息。

在步骤S13中，根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值。

在步骤S14中，根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人。

在本公开实施例中，目标文本描述信息可以是用于生成三维数字人的任意文本描述信息。用户可以根据自己对三维数字人形象的喜好或者实际的应用场景需求，输入目标文本描述信息。

在获取目标文本描述信息之后，可以采用自然语言处理（Natural LanguageProcessing，NLP）等技术，分析目标文本描述信息中包含的关键信息，得到目标文本描述信息对应的关键属性信息。其中，目标文本描述信息对应的关键属性信息可以表示目标文本描述信息中包含的关键属性的信息。其中，关键属性可以包括性别、年龄、发型、眼睛颜色等等，在此不做限定。

在得到目标文本描述信息对应的关键属性信息之后，可以根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值。其中，三维数字人参数化模型可以为预先构建的三维数字人的参数化模型。控制参数可以用于对三维数字人参数化模型进行控制。

在一些应用场景中，三维数字人参数化模型还可以称为参数化身体模型、参数身体模型等等，在此不做限定。控制参数还可以称为外观参数、形象参数等等，在此不做限定。

在一种可能的实现方式中，所述控制参数包括以下至少部分：姿态（pose）参数、形状（shape）参数、表情（expression）参数、置换（displacement）参数。

其中，姿态参数可以用来控制三维数字人的身体姿态和动作。通过调整姿态参数，可以使三维数字人摆出不同的姿势，例如站立、坐下、行走、跑步等等。通过设置三维数字人参数化模型的姿态参数，能够使生成的三维数字人呈现出更为生动和自然的动作表现。

形状参数可以用于定义三维数字人的整体身形和体型。通过调整形状参数，可以改变三维数字人的身高、体重、肌肉分布等特征，从而创建出具有不同体型特点的三维数字人。通过灵活调整三维数字人参数化模型的形状参数，能够生成更加多样化和个性化的三维数字人形象。

表情参数可以用于控制三维数字人的面部表情。通过调整三维数字人参数化模型的表情参数，可以让三维数字人展现出不同的情绪状态，如开心、生气、惊讶等。表情参数的精确控制能够使三维数字人的面部表情更加生动和真实，从而能够增强三维数字人的情感表达能力。

置换参数可以用于对三维数字人的细节进行调整。置换参数可以用于在三维数字人的表面添加微小的凹凸和纹理变化，从而增加三维数字人的真实感和立体感。通过调整置换参数，可以模拟出皮肤上的皱纹、衣物的褶皱等细节，使得三维数字人的外观更加逼真。

在一个示例中，所述控制参数可以包括姿态参数、形状参数、表情参数和置换参数。姿态参数、形状参数、表情参数和置换参数可以共同决定最终生成的三维数字人的外观和表现。通过姿态参数、形状参数、表情参数和置换参数共同协作，能够生成出具有丰富姿态、多样化体型、生动表情和逼真细节的三维数字人形象。

在一种可能的实现方式中，所述根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值，包括：将所述关键属性信息输入预先训练的参数映射网络，通过参数映射网络输出三维数字人参数化模型的控制参数的值。

在该实现方式中，可以预先训练参数映射网络，其中，参数映射网络可以用于将关键属性信息映射为控制参数的值。在一个例子中，参数映射网络可以为深度神经网络。通过训练参数映射网络，能够使参数映射网络学习关键属性信息与三维数字人参数化模型的控制参数之间的复杂映射关系。

在该实现方式中，通过将关键属性信息输入预先训练的参数映射网络，能够高效且准确地确定三维数字人参数化模型的控制参数的值。这种自动化映射方式不仅减少了人工干预和错误的可能性，还提高了整个过程的效率和精度。另外，预先训练的参数映射网络能够学习和理解关键属性信息与控制参数之间的复杂关系。这意味着，即使面对复杂多变的关键属性信息，参数映射网络也能够灵活调整输出参数，使最终生成的三维数字人模型与输入的关键属性信息高度匹配。

在本公开实施例中，在确定三维数字人参数化模型的控制参数的值之后，可以根据根据所述控制参数的值，生成目标文本描述信息对应的目标三维数字人。在一种可能的实现方式中，可以通过三维模型生成器根据所述控制参数的值，生成目标文本描述信息对应的目标三维数字人。

在一种可能的实现方式中，所述根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人，包括：根据所述控制参数的值，设置所述三维数字人参数化模型，得到目标三维数字人的几何形状；获得所述目标三维数字人的纹理信息；根据所述几何形状和所述纹理信息，生成所述目标三维数字人。

在该实现方式中，目标三维数字人的几何形状可以根据所述控制参数的值确定。例如，可以通过控制三维数字人参数化模型的姿态参数、形状参数、表情参数和置换参数，输出对应的几何形状。随着所述控制参数的变化，目标三维数字人的几何形状也将发生变化。

纹理信息是赋予三维数字人表面材质和颜色的关键。在该实现方式中，可以基于三维数字人参数化模型对应的UV贴图（UV map），得到初始化的纹理信息（texture）。其中，初始化的纹理信息可以是采用随机初始化等方式得到的，在此不做限定。其中，UV贴图是一种将三维模型表面展开到二维平面的技术，它使得纹理映射变得更加直观和精确。通过UV贴图，可以方便地获取和编辑三维数字人的纹理信息。

在该实现方式中，在获取了目标三维数字人的几何形状和纹理信息后，可以将它们结合起来，生成目标三维数字人。

在本公开实施例中，在生成目标文本描述信息对应的目标三维数字人之后，可以对目标三维数字人进行细节调整。在一种可能的实现方式中，在生成目标文本描述信息对应的目标三维数字人之后，可以对目标三维数字人的关键部位进行调整。例如，可以对皮肤纹理、发色、衣着等进行优化，以使调整后的目标三维数字人更贴近用户的文本描述。

在一种可能的实现方式中，在所述生成所述目标文本描述信息对应的目标三维数字人之后，所述方法还包括：对所述目标三维数字人进行可微渲染（DifferentiableRendering），得到所述目标三维数字人对应的二维图像；基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值；根据所述损失函数的值，对所述目标三维数字人进行调整。

渲染是指将三维场景转化为二维图像的过程，通常包括投影、光照、阴影等步骤。传统的渲染方法通常是非常复杂的、基于物理的过程，这使得渲染引擎在训练深度学习模型时变得不可微。在该实现方式中，可微渲染的目标是在渲染过程中引入可微性，使整个渲染管线成为一个可导的函数，由此可以使用梯度下降等基于梯度的优化方法，来优化渲染过程，以最小化与目标图像的差异。这对于计算机图形学和计算机视觉任务非常有用，有助于生成更逼真的三维数字人形象。

在该实现方式中，可以使用可微渲染技术对目标三维数字人进行渲染，得到其对应的至少一个二维图像。例如，可以使用可微渲染技术对目标三维数字人进行渲染，得到其对应的多个二维图像。其中，任一二维图像可以视为三维数字人在某个视角下的投影或表现形式。

基于得到的二维图像和目标文本描述信息，可以计算目标三维数字人对应的损失函数的值。其中，损失函数可以用于衡量二维图像与目标文本描述信息之间的匹配程度。该过程可以涉及多个方面的比较，比如二维图像的外观、姿态、表情等是否与文本描述相符，以及是否满足某些预定义的视觉质量标准等等。

在该实现方式中，在确定目标三维数字人对应的损失函数的值之后，可以根据损失函数的值，对目标三维数字人进行调整。该调整过程可以通过梯度下降或其他优化算法实现，旨在最小化损失函数的值。在该实现方式中，可以通过不断地调整三维数字人的几何形状和纹理信息，使得其对应的二维图像更加接近目标文本描述信息，从而达到优化和完善的效果。

在该实现方式中，通过可微渲染和损失函数计算，可以对生成的三维数字人进行精细化的调整，使其更加符合目标文本描述信息的要求，从而提高生成质量。由于可微渲染能够捕捉三维数字人在不同视角下的表现，因此生成的二维图像更加真实自然，增强了三维数字人的真实感。在该实现方式中，通过计算损失函数并基于其值进行调整，实现了对三维数字人的自动化优化。这种方法减少了手动调整的工作量，提高了生成效率。另外，由于整个过程是可导的，因此可以支持多次迭代和优化，逐步逼近更完美的结果。

作为该实现方式的一个示例，所述对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像，包括：对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的多个视图的二维图像；所述基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值，包括：基于所述多个视图的二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值。

不同于仅从单一视角对目标三维数字人进行渲染，该示例采用了多视图可微渲染。这意味着目标三维数字人会被渲染成多个不同视角下的二维图像。在一个例子中，多个视图的二维图像可以包括局部（例如面部）的二维图像和全身的二维图像等，在此不做限定。例如，多个视图的二维图像可以包括正面的全身视图、侧面的全身视图、面部的特写视图等等。

在该示例中，基于多个视图的二维图像进行损失函数的计算。即，损失函综合考虑多个视角下的目标三维数字人的外观和姿态，使其在不同视图下都与目标文本描述信息保持高度一致。

由于使用了多个视图，损失函数可以包含多个组成部分，每个组成部分可以针对特定视图或特定属性（如形状、纹理、姿态等）。这样，损失函数就能更全面地评估目标三维数字人与目标文本描述信息之间的匹配程度。

在该示例中，通过多视图可微渲染和基于多视图的损失函数计算，可以使目标三维数字人在不同视角和姿态下都能与目标文本描述信息保持高度一致，从而提高了生成结果的全面性和准确性。通过使用多个视图，特别是包括特写视图在内，能够使得三维数字人的细节部分（如面部特征、服饰纹理等）得到更好的展现和处理，增强了生成结果的细节表现。基于多视图的损失函数能够更全面地评估三维数字人的各个方面，减少了单一视图可能带来的评估偏差，提高了评估的准确性。并且，生成的三维数字人在多个视角下都能保持与目标文本描述信息的一致性，用户无论从哪个角度观察都能获得满意的视觉效果，从而提升了用户体验。

作为该实现方式的一个示例，可以采用分层渲染（Layered Rendering）技术，对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像。其中，分层渲染是一种渲染技术，它将场景分解为多个层次或图层，每个图层代表场景中的不同元素或特征。这种方法允许用户对每个图层进行独立的控制和优化，从而可以更精细地调整场景的最终外观。在三维数字人的生成中，分层渲染可以用来分别处理面部的不同区域（如皮肤、眼睛、头发等），使每个部分都达到所需的细节和真实感。

作为该实现方式的一个示例，可以采用分数蒸馏采样技术（FractionalDistillation Sampling），对所述目标三维数字人进行可微渲染，得到所述目标三维数字人对应的二维图像。其中，分数蒸馏采样技术是一种用于提高渲染质量和效率的方法，特别是在处理复杂场景或高分辨率图像时。这种技术通过智能地选择和采样渲染过程中的关键信息，来减少计算量和内存需求，同时保持图像质量。在三维数字人的生成中，分数蒸馏采样技术可以帮助优化渲染过程，使生成的三维数字人在细节上既丰富又准确。

作为该实现方式的一个示例，所述基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值，包括：对所述二维图像进行编码，得到所述二维图像对应的第一特征向量；将所述第一特征向量输入扩散模型（Diffusion Models，DM），通过所述扩散模型获得预测数据；根据所述预测数据与所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值。

在该示例中，可以对通过可微渲染得到的二维图像进行编码，得到所述二维图像对应的第一特征向量。其中，第一特征向量可以表示所述二维图像对应的特征向量。第一特征向量能够捕获所述二维图像中的关键信息，如形状、纹理、颜色等。

在一个例子中，可以通过编码器对所述二维图像进行编码，得到所述二维图像对应的第一特征向量。例如，可以对多个视图的二维图像进行编码，得到所述多个视图的二维图像对应的第一特征向量。在一个例子中，编码器可以是扩散模型的一部分。

在该示例中，可以将编码后的第一特征向量输入到扩散模型中。扩散模型是一种深度生成模型，它通过逐步添加噪声和去除噪声的过程来生成数据。在该示例中，扩散模型可以根据输入的第一特征向量（即二维图像的编码表示）来生成预测数据。预测数据可以是某种预设形式的编码或表示。

在一个例子中，扩散模型的输入还可以包括目标文本描述信息。

在该示例中，可以根据扩散模型生成的预测数据和目标文本描述信息，计算目标三维数字人对应的损失函数的值。该损失函数可以衡量预测数据与目标文本描述信息之间的不一致性。通过最小化这个损失函数，可以调整目标三维数字人的参数，使其更好地符合目标文本描述信息。

在该示例中，扩散模型能够捕捉到数据的复杂分布和潜在结构。通过引入扩散模型，可以更准确地预测目标三维数字人的特征，从而提高损失函数计算的准确性和有效性。通过结合二维图像的编码和扩散模型的预测，能够更准确地建立起文本描述和图像之间的映射关系。这有助于使生成的三维数字人不仅在外观上与目标文本描述信息相符，而且在语义上也保持一致。另外，扩散模型具有生成多样性和创造性的特点，通过引入扩散模型，可以生成更多样化和具有创新性的三维数字人。这有助于满足不同用户对于个性化三维数字人的需求，有助于提高调整后的三维数字人的逼真性和细节丰富度。再者，通过编码二维图像并使用扩散模型进行预测，可以更有效地计算损失函数，进而更高效地调整三维数字人的参数。这有助于加速优化过程，提高生成三维数字人的效率。在该示例中，通过引入二维图像编码和扩散模型预测，提高了确定损失函数值的准确性和效率，进而增强了文本到图像的匹配度和生成结果的多样性。

作为该实现方式的一个示例，所述根据所述损失函数的值，对所述目标三维数字人进行调整，包括：根据所述损失函数的值，对所述目标三维数字人的几何形状和纹理信息进行调整；根据调整后的几何形状和调整后的纹理信息，生成调整后的目标三维数字人。

在该示例中，可以根据损失函数的值，对目标三维数字人的几何形状和纹理信息进行调整。其中，损失函数的值可以反映目标三维数字人当前的二维图像与目标文本描述信息之间的差异或不一致性。通过反向传播或其他优化算法，可以将损失函数的梯度应用于目标三维数字人的参数，从而调整其几何形状（如姿态、形状等）和纹理信息（如颜色、纹理细节等）。

在调整了目标三维数字人的几何形状和纹理信息之后，可以重新组合这些调整后的元素以生成一个新的、改进的三维数字人模型。这个新的三维数字人模型通常更接近目标文本描述信息所表达的特征和属性。

在该示例中，通过直接对目标三维数字人的几何形状和纹理信息进行调整，可以实现更精细和具体的优化。这有助于使生成的三维数字人在形状、姿态和纹理等方面都能准确地反映目标文本描述信息的要求。通过不断迭代和调整，可以逐渐减小损失函数的值，从而使生成的三维数字人越来越接近目标文本描述信息。这有助于提高生成结果的准确性和质量，使得生成的三维数字人更加逼真和符合用户期望。另外，在该示例中，通过直接对几何形状和纹理信息进行调整，可以更有效地利用计算资源，减少不必要的中间步骤和计算开销。这有助于提高优化过程的效率，加速生成三维数字人的速度。

因此，该示例通过根据损失函数的值直接调整目标三维数字人的几何形状和纹理信息，实现了更精细、更高效和更灵活的三维数字人生成和调整过程。这有助于提高生成结果的准确性和质量，并满足用户多样化的需求。

在一种可能的实现方式中，在所述对所述目标三维数字人进行调整之后，所述方法还包括：对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人。

在该实现方式中，通过对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人，由此能够使目标三维数字人符合不同平台（如移动设备、VR（VirtualReality，虚拟现实）/AR（Augmented Reality，增强现实）头盔等）的部署要求。

作为该实现方式的一个示例，所述预设的压缩处理包括以下至少之一：模型简化处理、贴图压缩处理。

在一个示例中，在对目标三维数字人调整完成之后，可以对目标三维数字人进行模型简化处理。三维数字人模型通常包含大量的多边形和顶点数据，这些数据在提供高度细节的同时，也可能导致三维数字人模型在性能受限的设备（如移动设备）上运行缓慢或占用过多的存储空间。模型简化处理通过减少多边形的数量、合并顶点或采用其他优化算法，能够降低三维数字人模型的复杂度，从而在不损失太多视觉质量的情况下提升运行效率。

在一个示例中，在对目标三维数字人调整完成之后，可以对目标三维数字人进行贴图压缩处理。其中，贴图（纹理）是赋予三维数字人模型表面视觉特征的关键元素，它们可以包含颜色、光泽度、凹凸等信息。然而，高清贴图往往占用大量的存储空间，这不利于在移动设备上存储和传输。贴图压缩技术可以在保持贴图视觉质量的同时，显著减少其文件大小，从而优化三维数字人模型的存储和加载性能。

作为该实现方式的一个示例，所述对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人，包括：获取指定平台的部署要求信息；根据所述部署要求信息，对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人。

其中，指定平台可以为指定的移动设备、VR设备、AR设备等等，在此不做限定。通过采用该实现方式，能够使压缩后的目标三维数字人符合指定平台的部署要求。

在一种可能的实现方式中，在对所述目标三维数字人进行调整之后，可以基于所述三维数字人参数化模型，对所述目标三维数字人进行绑定，从而能够对所述目标三维数字人进行驱动，实现动画效果。

本公开实施例提供的XX方法可以应用于AIGC、3D数字人生成、扩散模型、多模态（Multimodal）、可微渲染等技术领域，在此不做限定。

下面通过一个具体的应用场景说明本公开实施例提供的三维数字人的生成方法。图2示出本公开实施例提供的三维数字人的生成方法的示意图。

一、文本解析阶段

可以接收用户输入的目标文本描述信息，并可以利用自然语言处理技术，分析目标文本描述信息中包含的关键信息，得到目标文本描述信息对应的关键属性信息。

二、特征映射阶段

可以将所述关键属性信息输入预先训练的参数映射网络，通过参数映射网络输出三维数字人参数化模型的控制参数的值。其中，所述控制参数可以包括姿态参数、形状参数、表情参数和置换参数。

三、3D模型生成阶段

可以根据所述控制参数的值，设置三维数字人参数化模型，得到目标三维数字人的几何形状。可以基于UV贴图，得到初始化的纹理信息。

四、细节调整阶段

可以对目标三维数字人进行可微渲染，得到目标三维数字人对应的多个视图的二维图像。可以通过编码器对多个视图的二维图像进行编码，得到多个视图的二维图像对应的第一特征向量。可以将第一特征向量和目标文本描述信息输入扩散模型，通过扩散模型获得预测数据。可以根据预测数据与目标文本描述信息，确定目标三维数字人对应的损失函数的值。可以根据所述损失函数的值，对目标三维数字人的几何形状和纹理信息进行更新调整，并可以根据调整后的几何形状和调整后的纹理信息，生成调整后的目标三维数字人。

五、后处理阶段

可以对目标数字人进行模型简化处理、贴图压缩处理等预设的压缩处理，得到压缩后的目标三维数字人。

相关技术中的三维数字人生成方法在几何和纹理质量方面受到限制，几何和纹理之间存在较大的不一致性，特别是在面部区域。例如，在三维数字人的面部，几何形状（如脸型、眼睛、鼻子等）与应用的纹理（如皮肤纹理、眼睛的颜色和光泽等）不匹配，导致看起来不自然或失真。

在该应用场景中，通过采用二维扩散模型和绑定的三维数字人参数化模型相结合的方式，实现了几何和纹理的协同生成。这种方法使得在三维数字人的生成过程中，几何形状和纹理信息能够相互匹配和协调，从而减少了不一致性的发生。

另外，可以在训练过程中通过渲染法线和RGB图像来使几何形状与纹理之间的正确对齐。渲染法线图像能够捕捉表面的细节和形状变化，而RGB图像则提供了丰富的颜色信息。通过同时考虑这两种信息，可以更准确地调整纹理以适应几何体的形状，从而进一步减少了几何和纹理之间的不一致性。

再者，该应用场景还引入了表情参数来对三维数字人进行变形。该方法允许在保持三维数字人模型表情效果的同时，对几何和纹理进行微调，以使它们在不同表情下仍能保持一致性。通过调整表情参数，可以生成更加生动和真实的三维数字人，同时也减少了由于表情变化而引起的几何和纹理不一致性。

综上，通过采用该应用场景提供的三维数字人的生成方法，能够将文字描述转换为富有表现力的高质量的三维数字人。与相关技术相比，该应用场景能够更快速有效地生成细节丰富、逼真的三维数字人。该应用场景能够创建大规模、可动画化的数字角色资产，并可通过自然语言轻松编辑。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了三维数字人的生成装置、电子设备、计算机可读存储介质、计算机程序产品，上述均可用来实现本公开提供的任一种三维数字人的生成方法，相应技术方案和技术效果可参见方法部分的相应记载，不再赘述。

图3示出本公开实施例提供的三维数字人的生成装置的框图。如图3所示，所述三维数字人的生成装置包括：

获取模块31，用于获取用于生成三维数字人的目标文本描述信息；

文本解析模块32，用于对所述目标文本描述信息进行文本解析，得到所述目标文本描述信息对应的关键属性信息；

第一确定模块33，用于根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值；

生成模块34，用于根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人。

在一种可能的实现方式中，所述生成模块34用于：

获得所述目标三维数字人的纹理信息；

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，

在一种可能的实现方式中，所述第二确定模块用于：

在一种可能的实现方式中，所述调整模块用于：

在一种可能的实现方式中，所述第一确定模块33用于：

在一种可能的实现方式中，所述装置还包括：

在一种可能的实现方式中，所述压缩模块用于：

获取指定平台的部署要求信息；

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现和技术效果可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。其中，所述计算机可读存储介质可以是非易失性计算机可读存储介质，或者可以是易失性计算机可读存储介质。

本公开实施例还提出一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述方法。

本公开实施例还提供一种电子设备，包括：一个或多个处理器；用于存储可执行指令的存储器；其中，所述一个或多个处理器被配置为调用所述存储器存储的可执行指令，以执行上述方法。

电子设备可以被提供为终端、服务器或其它形态的设备。

图4示出本公开实施例提供的电子设备1900的框图。例如，电子设备1900可以被提供为一服务器或一终端。参照图4，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入/输出接口1958（I/O接口）。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统（Windows Server^TM），苹果公司推出的基于图形用户界面操作系统（MacOS X^TM），多用户多进程的计算机操作系统（Unix^TM），自由和开放原代码的类Unix操作系统（Linux^TM），开放原代码的类Unix操作系统（FreeBSD^TM）或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

若本公开实施例的技术方案涉及个人信息，应用本公开实施例的技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本公开实施例的技术方案涉及敏感个人信息，应用本公开实施例的技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种三维数字人的生成方法，其特征在于，包括：

获取用于生成三维数字人的目标文本描述信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述控制参数的值，生成所述目标文本描述信息对应的目标三维数字人，包括：

获得所述目标三维数字人的纹理信息；

3.根据权利要求1或2所述的方法，其特征在于，在所述生成所述目标文本描述信息对应的目标三维数字人之后，所述方法还包括：

根据所述损失函数的值，对所述目标三维数字人进行调整。

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，所述基于所述二维图像和所述目标文本描述信息，确定所述目标三维数字人对应的损失函数的值，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述损失函数的值，对所述目标三维数字人进行调整，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述根据所述关键属性信息，确定三维数字人参数化模型的控制参数的值，包括：

8.根据权利要求1或2所述的方法，其特征在于，所述控制参数包括以下至少部分：姿态参数、形状参数、表情参数、置换参数。

9.根据权利要求3所述的方法，其特征在于，在所述对所述目标三维数字人进行调整之后，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述预设的压缩处理包括以下至少之一：模型简化处理、贴图压缩处理。

11.根据权利要求9所述的方法，其特征在于，所述对所述目标三维数字人进行预设的压缩处理，得到压缩后的目标三维数字人，包括：

获取指定平台的部署要求信息；

12.一种三维数字人的生成装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储可执行指令的存储器；

其中，所述一个或多个处理器被配置为调用所述存储器存储的可执行指令，以执行权利要求1至11中任意一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至11中任意一项所述的方法。

15.一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，其特征在于，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行权利要求1至11中任意一项所述的方法。