CN116993875B

CN116993875B - 数字人的生成方法、装置、电子设备及存储介质

Info

Publication number: CN116993875B
Application number: CN202311116109.7A
Authority: CN
Inventors: 王思奇
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2024-02-27
Anticipated expiration: 2043-08-31
Also published as: CN116993875A

Abstract

本申请适用于计算机应用技术领域，提供了一种数字人的生成方法、装置、电子设备及存储介质，该方法包括：根据获取到的多模态描述信息，生成目标数字人在至少一个视角的目标二维图像；将多模态描述信息及目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的网格建模信息；将多模态描述信息及各个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图；将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。由此，通过根据用户输入的多模态描述信息，生成符合用户需求的数字人形象，从而不仅提升了数字人的生成效率，而且提升了生成的数字人形象的多样性和灵活性。

Description

数字人的生成方法、装置、电子设备及存储介质

技术领域

本申请属于计算机应用技术领域，尤其涉及一种数字人的生成方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能（Artificial Intelligence）技术、虚拟内容（Virtualization）技术、增强现实（AugmentedReality，AR）技术、虚拟现实（Virtual Reality，VR）技术和云引擎（CloudComputing）等技术的发展，元宇宙（Metaverse）概念应运而生。元宇宙通常被理解为虚拟世界，这个虚拟世界是基于AR/VR、三维虚拟空间和互联网技术构建的，在这个世界中可以提供和真实世界一样的基础服务，例如文化娱乐、游戏、人际社交互动、学习教育和生活服务等。虚拟世界相当于现实世界的镜像，因为虚拟世界的不限空间、不限时间的特点，可以提供类似甚至超越物理现实社会的服务与应用。目前，仍然处于虚拟世界的构建早期，主要有三个方向需要进行构建：虚拟内容（Content）、虚拟直播（Avatar）和虚拟数字人（AIHuman）。

相关技术中，通常采用人工的方式构建数字人，不仅效率低下，而且数字人的多样性较差。

发明内容

本申请实施例提供了一种数字人的生成方法、装置、电子设备及计算机可读存储介质，可以解决采用人工的方式构建数字人，不仅效率低下，而且数字人的多样性较差的问题。

第一方面，本申请实施例提供了一种数字人的生成方法，包括：获取多模态描述信息，其中，多模态描述信息用于描述目标数字人的形象特征；根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像；将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息；将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图；将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。

在第一方面一种可能的实现方式中，上述多模态描述信息包括文本信息、语音信息、图像信息及视频信息中的至少一种。

可选的，在第一方面另一种可能的实现方式中，上述多模态描述信息包括第一多模态描述信息及第二多模态描述信息；相应的，上述根据所述多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像，包括：

获取用户输入的第一多模态描述信息；

根据第一多模态描述信息，生成目标数字人在至少一个视角的至少一个初始二维图像；

若未获取到用户输入的第二多模态描述信息，则将各个初始二维图像确定为各个目标二维图像；

若获取到用户输入的第二多模态描述信息，则根据第一多模态描述信息、第二多模态描述信息及至少一个初始二维图像，重新生成至少一个修正二维图像，并将各个修正二维图像，确定为各个目标二维图像。

可选的，在第一方面再一种可能的实现方式中，上述将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图之前，还包括：

获取第一场景信息；

相应的，上述将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图，包括：

将多模态描述信息、第一场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图。

可选的，在第一方面又一种可能的实现方式中，上述将各个网格建模信息与对应的纹理展开图结合，以生成至少一个目标数字人之后，还包括：

获取第二场景信息；

将多模态描述信息、第二场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第二纹理展开图；

将各个网格建模信息与对应的第二纹理展开图结合，以更新目标数字人。

可选的，在第一方面又一种可能的实现方式中，上述根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像，包括：

将多模态描述信息输入预设的多模态信息融合模型，以生成至少一个目标二维图像。

可选的，在第一方面另一种可能的实现方式中，上述预设的网格建模重建模型是由预设的扩散模型及预设的神经辐射场模型构成的；相应的，上述将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息，包括：

将多模态描述信息及至少一个目标二维图像输入预设的扩散模型，以生成多模态描述信息及至少一个目标二维图像对应的特征向量；

将特征向量及目标数字人对应的预设的点云数据，输入预设的神经辐射场模型，以生成至少一个网格建模信息，其中，特征向量用于对预设的神经辐射场模型的网格建模过程进行约束。

可选的，在第一方面再一种可能的实现方式中，上述将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人，包括：

将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个参考数字人；

利用预设的效果校验模型对各个参考数字人进行效果校验，以生成各个参考数字人对应的评价分数；

根据各个参考数字人对应的评价分数，选取至少一个参考数字人作为目标数字人。

可选的，在第一方面又一种可能的实现方式中，上述预设的效果校验模型为二维模型；相应的，上述利用预设的效果校验模型对各个参考数字人进行效果校验，以生成各个参考数字人对应的评价分数，包括：

对每个参考数字人分别进行渲染处理，以生成每个参考数字人在至少一个视角下的二维渲染图像；

将各个参考数字人对应的二维渲染图像输入预设的效果校验模型，以生成各个参考数字人对应的评价分数。

可选的，在第一方面再一种可能的实现方式中，上述预设的效果校验模型为三维模型；相应的，上述利用预设的效果校验模型对各个参考数字人进行效果校验，以生成各个参考数字人对应的评价分数，包括：

将各个参考数字人输入预设的效果校验模型，以生成各个参考数字人对应的评价分数。

第二方面，本申请实施例提供了一种数字人的生成装置，包括：第一获取模块，用于获取多模态描述信息，其中，多模态描述信息用于描述目标数字人的形象特征；第一生成模块，用于根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像；第二生成模块，用于将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息；第三生成模块，用于将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图；第四生成模块，用于将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。

在第二方面一种可能的实现方式中，上述多模态描述信息包括文本信息、语音信息、图像信息及视频信息中的至少一种。

可选的，在第二方面另一种可能的实现方式中，上述第一生成模块，包括：

第一获取单元，用于获取用户输入的第一多模态描述信息；

第一生成单元，用于根据第一多模态描述信息，生成目标数字人在至少一个视角的至少一个初始二维图像；

第一确定单元，用于若未获取到用户输入的第二多模态描述信息，则将各个初始二维图像确定为各个目标二维图像；

第二确定单元，用于若获取到用户输入的第二多模态描述信息，则根据第一多模态描述信息、第二多模态描述信息及至少一个初始二维图像，重新生成至少一个修正二维图像，并将各个修正二维图像，确定为各个目标二维图像。

可选的，在第二方面再一种可能的实现方式中，上述装置，还包括：

第二获取模块，用于获取第一场景信息；

相应的，上述第三生成模块，包括：

第二生成单元，用于将多模态描述信息、第一场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图。

可选的，在第二方面又一种可能的实现方式中，上述装置，还包括：

第三获取模块，用于获取第二场景信息；

第五生成模块，用于将多模态描述信息、第二场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第二纹理展开图；

第一更新模块，用于将各个网格建模信息与对应的第二纹理展开图结合，以更新目标数字人。

可选的，在第二方面又一种可能的实现方式中，上述第一生成模块，包括：

第三生成单元，用于将多模态描述信息输入预设的多模态信息融合模型，以生成至少一个目标二维图像。

可选的，在第二方面另一种可能的实现方式中，上述预设的网格建模重建模型是由预设的扩散模型及预设的神经辐射场模型构成的；相应的，上述第二生成模块，包括：

第四生成单元，用于将多模态描述信息及至少一个目标二维图像输入预设的扩散模型，以生成多模态描述信息及至少一个目标二维图像对应的特征向量；

第五生成单元，用于将特征向量及目标数字人对应的预设的点云数据，输入预设的神经辐射场模型，以生成至少一个网格建模信息，其中，特征向量用于对预设的神经辐射场模型的网格建模过程进行约束。

可选的，在第二方面再一种可能的实现方式中，上述第四生成模块，包括：

第六生成单元，用于将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个参考数字人；

第七生成单元，用于利用预设的效果校验模型对各个参考数字人进行效果校验，以生成各个参考数字人对应的评价分数；

第三确定单元，用于根据各个参考数字人对应的评价分数，选取至少一个参考数字人作为目标数字人。

可选的，在第二方面又一种可能的实现方式中，上述预设的效果校验模型为二维模型；相应的，上述第七生成单元，具体用于：

可选的，在第二方面再一种可能的实现方式中，上述预设的效果校验模型为三维模型；相应的，上述第七生成单元，具体用于：

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如前所述的数字人的生成方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如前所述的数字人的生成方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如前所述的数字人的生成方法。

本申请实施例与现有技术相比存在的有益效果是：通过根据用户输入的多模态描述信息，生成符合用户需求的数字人形象，从而不仅提升了数字人生成的效率，而且提升了生成的数字人形象的多样性和灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的数字人的生成方法的流程示意图；

图2是本申请一实施例提供的一种目标数字人的示意图；

图3是本申请一实施例提供的另一种数字人的生成方法的流程示意图；

图4是本申请一实施例提供的数字人的生成装置的结构示意图；

图5是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件] ”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件] ”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、 “第二”、 “第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、 “在一些实施例中”、 “在其他一些实施例中”、 “在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、 “包含”、 “具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

电子设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的安卓（Android）系统为例，对电子设备的软件系统进行示例性说明。

下面参考附图对本申请提供的数字人的生成方法、装置、电子设备、存储介质及计算机程序进行详细描述。

图1示出了本申请实施例提供的一种数字人的生成方法的流程示意图。

如图1所示，该数字人的生成方法，包括以下步骤：

步骤101，获取多模态描述信息，其中，多模态描述信息用于描述目标数字人的形象特征。

需要说明的是，本申请实施例的数字人的生成方法可以由本申请实施例的数字人的生成装置执行。本申请实施例的数字人的生成装置可以配置在任意电子设备中，以执行本申请实施例的视频拍摄数字人的生成方法。比如，本申请实施例的数字人的生成装置可以配置在手机中，以根据用户需求生成相应的数字人形象。

另外还需要说明的是，除了手机之外，本申请实施例提供的数字人的生成方法还可以应用于诸如运动相机（GoPro）、数码相机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、蜂窝电话、个人数字助理（personal digital assistant，PDA）、增强现实（augmentedreality，AR）\虚拟现实（virtual reality，VR）设备、可穿戴设备（如可穿戴智能手环等）、智能家居设备（如智能冰箱、智能电视机等）之类的电子设备，本申请实施例对此不作限定。电子设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构，如本申请实施例的电子设备的软件系统可以为分层架构的安卓（Android）系统，本申请实施例对此不做限定。

其中，多模态描述信息，可以包括文本信息、语音信息、图像信息及视频信息中的至少一种；多模态描述信息可以包括对目标数字人的性别、年龄、身高、国籍、穿着等外表形象信息进行描述的信息。需要说明的是，多模态描述信息可以是用户根据当前的实际需求输入的；也可以是电子设备根据当前的实际应用场景自动生成的。多模态描述信息的获取方式及包含的具体内容与实际的应用场景有关，本申请实施例对此不做限定。

其中，目标数字人，可以是指根据多模态描述信息最终需要生成的虚拟数字人形象。

在本申请实施例中，电子设备可以获取用户输入的文本信息、语音信息、图像信息或视频信息中的至少一种，并将获取到的各类型的信息作为多模态描述信息，以通过多模态描述信息描述最终需要生成的目标数字人的形象特征，进而生成符合多模态描述信息的目标数字人。

作为一种示例，可以允许用户通过文本信息、语音信息、图像信息或视频信息中的任意一种描述当前需要生成的数字人的形象特征。比如，用户可以输入一段文本信息用于描述符合当前需求的数字人的形象特征，从而可以将该文本信息作为多模态描述信息；或者，在不方便输入文本信息时，用户还可以通过语音输入的方式描述符合当前需求的数字人的形象特征，从而可以将获取到的语音信息作为多模态描述信息，或者可以将获取到的语音信息转换为文本信息之后作为多模态描述信息；或者，为了使得数字人的形象更加具体，用户还可以将包含人物的图像（如自己或他人的照片）进行上传，以用于描述当前的数字人生成需求，从而可以将获取到的图像信息作为多模态描述信息；或者，为了获得数字人多角度、多方面的形象信息，以使数字人的形象特征更加丰富和具体，用户还可以将包含人物的视频进行上传，以用于描述当前的数字人生成需求，从而可以将获取到的视频信息作为多模态描述信息，或者，还可以从视频信息中提取出包含人物特征的至少一个关键帧作为多模态描述信息。

作为一种示例，还可以允许用户通过文本信息、语音信息、图像信息及视频信息中的多种信息描述当前需要生成的数字人的形象特征。比如，用户可以同时输入一段文本信息及一段语音描述数字人的生成需求，并同时输入一张或多张图像用于描述当前的数字人生成需求，从而可以将获取到的文本信息、语音信息及图像信息作为多模态描述信息。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，确定多模态描述信息包含的具体数据类型及获取方式，本申请实施例对此不做限定。

步骤102，根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像。

在本申请实施例中，获取到多模态描述信息之后，则可以对多模态描述信息进行编码处理，以生成多模态描述信息对应的特征向量，进而可以根据多模态描述信息对应的特征向量，生成目标数字人在至少一个视角的至少一个目标二维图像，以通过目标数字人在至少一个视角的目标二维图像，生成三维的目标数字人形象。

需要说明的是，在生成目标数字人对应的目标二维图像时，可以生成目标数字人在一个视角的目标二维图像，也可以生成目标数字人在多个视角的目标二维图像；并且，对于每个视角，可以生成一个目标二维图像，也可以生成多个目标二维图像，本申请实施例对此不做限定。举例来说，本申请实施例所提及的视角可以是正面视角、侧面视角、背面视角等等，本申请实施例对此不做限定。实际使用时，具体生成哪些视角的目标二维图像，可以根据实际的应用场景以及获取到的多模态描述信息能够表征的形象特征相关，实际使用时，可以生成以上列举的更多或更少的视角的目标二维图像，本申请实施例对此不做限定。

进一步的，可以通过预先训练的编码模型，对多模态描述信息进行处理，以生成目标数字人在至少一个视角的至少一个目标二维图像。即在本申请实施例一种可能的实现方式中，上述步骤102，可以包括：

其中，预设的多模态信息融合模型，可以是由任意具有多模态信息编码能力的模型及任意类型的图像生成模型构成的。

举例来说，本申请实施例所使用的具有多模态信息编码能力的模型可以为对比语言-图像预训练（Contrastive Language-Image Pre-Training，clip）模型、变分自编码器（Variational Autoencoders，VAE）模型等；本申请实施例所使用的图像生成模型可以为类controlnet模型。需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，选取合适的模型构成预设的多模态信息融合模型。

可以理解的是，在本申请实施例中，可以根据实际的应用需求选取合适的具有多模态信息编码能力的模型及图像生成模型构成初始多模态信息融合模型，并利用与当前应用场景相关的训练数据集对初始多模型信息融合模型进行训练，以生成适用于当前应用场景的预设的多模型信息融合模型。

作为一种可能的实现方式，在获取到多模态描述信息之后，可以将多模态描述信息中包括的各个模态的信息（如文本信息、语音信息、图像信息、视频信息等）分别输入预设的多模态信息融合模型，以对各个模态的信息进行编码处理，进而将各个模态的信息对应的编码结果进行融合，以生成多模态描述信息对应的特征向量。之后，可以利用预设的多模态信息融合模型中的图像生成模型部分对多模态描述信息对应的特征向量进行处理，以生成目标数字人在至少一个视角的目标二维图像。

进一步的，由于根据用户单次输入的多模态描述信息生成的目标二维图像，有可能与用户的实际需求存在偏差，因此在每次生成目标二维图像之后，还可以允许用户再次输入多模态描述信息以对生成的目标二维图像进行修正和调整，以进一步提升数字人生成的灵活性和可靠性，进一步贴近用户的实际使用需求。即在本申请实施例一种可能的实现方式中，上述步骤102，可以包括：

获取用户输入的第一多模态描述信息；

其中，第一多模态描述信息与第二多模态描述信息均可以包括文本信息、语音信息、图像信息及视频信息中的至少一种。

需要说明的是，本申请实施例的第一多模态描述信息可以是指用户初次输入的多模态描述信息，第二多模态描述信息可以是指已经根据第一多模态描述信息生成目标二维图像之后，用户再次输入的多模态描述信息，用于对已经生成的目标二维图像进行调整和修正，以使最终生成的目标数字人的形象能够更加贴合用户的实际使用需求。并且第二多模态描述信息可以包括的数据类型可以是与多模态描述信息相同，均可以包括文本信息、语音信息、图像信息及视频信息中的一种或多种。

作为一种可能的实现方式，在根据第一多模态描述信息生成目标数字人在至少一个视角的初始二维图像之后，可以在电子设备的显示设备中显示已经生成的各个初始二维图像，并可以继续获取用户输入的第二多模态描述信息。若获取到用户对各个初始二维图像的确认命令，则可以确定未获取到用户输入的第二多模态描述信息，即可以确定当前生成的各个初始二维图像满足用户当前的实际使用需求，从而可以直接将各个初始二维图像作为目标二维图像，并继续进行本申请实施例之后的步骤。若获取到用户输入的第二多模态描述信息，则可以综合第一多模态描述信息、第二多模态描述信息，以及参考已经生成的各个初始二维图像，对已经生成的各个初始二维图像进行调整或修正，或者再次生成新的至少一个修正二维图像。并且，在每次生成一批二维图像之后都可以在电子设备的显示设备中显示各个二维图像，并继续获取用户输入的第二多模态描述信息，并且每次生成新的修正二维图像时均可以参考上一次生成的各个二维图像，直至获取到用户对各个修正二维图像的确认命令，则可以确定当前生成的各个修正二维图像已经符合用户当前的实际使用需求，从而可以将各个修正二维图像确定为目标二维图像，并可以结束生成目标二维图像的过程，进行下一步骤。

需要说明的是，在每次生成一批二维图像并显示时，除了可以在电子设备的显示设备中显示各个二维图像，还可以在同一显示界面中显示第二多模态描述信息输入控件（如文本输入控件、语音输入控件、图像或视频上传控件，等等），以及对二维图像的确认控件，以使用户通过对确认控件的触发操作（如点击操作、语音控制等），对各个二维图像进行确认，以进入下一处理流程。

另外，在通过用户多次输入的多模态描述信息生成二维图像时，也可以采用预设的多模态信息融合模型对每次获取到的多模态描述信息及每次生成的二维图像进行处理，以生成目标二维图像。具体的实现过程及原理可以参照前述步骤的详细描述，此处不再赘述。

步骤103，将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息。

其中，网格（mesh）建模信息，可以是指目标数字人对应的三维建模模型。需要说明的是，目标数字人对应的网格建模信息可以用于表示目标数字人的三维立体模型，但是该三维立体模型还未包含颜色及纹理信息（如衣服褶皱、头发纹理、面部器官及皮肤纹理等）；并且该三维立体模型可以被划分为多个尺寸较小的网格，以使后续可以根据十分细化的网格信息进行颜色渲染和纹理填充，以提升数字人生成的生动性和细腻度。

在本申请实施例中，由于多模态描述信息可以用于描述目标数字人的形象特征，并且多模态描述信息可以用于表示用户的真实需求，各个目标二维图像可以用于表示目标数字人在各个视角的图像效果，因此在生成目标数字人的网格建模信息时，可以同时利用用户输入的多模态描述信息及前述步骤生成的目标二维图像，共同生成目标数字人对应的网格建模信息，以使生成的网格建模信息更加准确，并且更加贴合用户的实际使用需求。

需要说明的是，在建立预设的网格建模重建模型时，可以根据当前的实际应用场景，将当前的实际应用场景中已经存在的大量数字人数据作为训练数据集对初始网格建模重建模型进行训练，以生成预设的网格建模重建模型；或者，还可以通过对真实人体进行扫描，并利用得到的大量真实人体的三维扫描数据构成训练数据集，对初始网格建模重建模型进行训练，以生成预设的网格建模重建模型；或者，还可以综合大量数字人数据及对真实人体进行扫描得到的三维扫描数据进行结合，以构成训练数据集，并利用该训练数据集对初始网格建模重建模型进行训练，以生成预设的网格建模重建模型。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，确定构建训练数据集的方式以及对预设的网格建模重建模型进行训练的方式，本申请实施例对此不做限定。

进一步的，本申请实施例可以利用扩散（diffusion）模型及神经辐射场（NeuralRadiance Field，NeRF）模型，构成预设的网格建模重建模型，以充分利用扩散模型的控制解耦能力及神经辐射场模型的隐式建模能力，从而进一步提升网格建模信息生成的可靠性，进而提升数字人生成的可靠性和细腻性。即在本申请实施例一种可能的实现方式中，上述预设的网格建模重建模型是由预设的扩散模型及预设的神经辐射场模型构成的；相应的，上述步骤103，可以包括：

其中，神经辐射场模型，可以用于三维场景的新视角合成，是一种使用神经网络来隐式表达三维场景的技术。需要说明的是，在训练神经辐射场模型时，可以输入一系列的已知视角，优化神经辐射场模型来表示连续场景，最后渲染出该场景的新视角。神经辐射场模型的输入为5维的数据（x, y, z,θ，），输出为（c，/>），其中，x、y、z用于表示空间中一点的三维坐标，θ、/>用于表示该点的观测方向，c用于表示该点对应的像素值（可以包括R、G、B三个维度的像素值），/>用于表示该点的体密度。

需要说明的是，本申请实施例的预设的神经辐射场模型可以是根据前述提及的方式预先训练好的适用于当前应用场景的模型，输入空间中某一点的三维坐标和观测方向数据，预设的神经辐射场模型即可输出该点对应的体密度。即本申请实施例的预设的神经辐射场模型的输出可以仅包括体密度，以生成目标数字人的网格建模信息（三维模型），而目标数字人的颜色信息和纹理信息可以通过以下步骤进行渲染。

其中，目标数字人对应的预设的点云数据，可以是指预先配置的具有一定尺寸的三维空间，并且三维空间中的每个点均可以通过上述（x, y, z,θ，）的五维数据进行表示。比如，预设的点云数据可以是变成为a的正方体、半径为b的球体、长宽高分别为m、n、l的长方体，等等，本申请实施例对此不做限定。并且，可以预先建立预设的点云数据对应的三维坐标系，并通过预设的点云数据在该三维坐标系中的坐标信息表示预设的点云数据中的每个点，以作为预设的神经辐射场模型的输入。

作为一种可能的实现方式，可以将多模态信息及前述步骤生成的各个目标二维图像输入预设的扩散模型，以对多模态信息及各个目标二维图像进行编码处理，以生成多模态信息对应的编码结果，以及各个目标二维图像对应的编码结果，进而将多模态信息对应的编码结果及各个目标二维图像对应的编码结果进行融合，以生成多模态信息及各个目标二维图像对应的特征向量。可以理解的是，该特征向量可以用于表示多模态信息及各个目标二维图像中的关键信息。

之后，可以将预设的点云数据中的每个点对应的坐标信息（x, y, z,θ，）及该特征向量，输入预设的神经辐射场模型，以输出每个点对应的体密度，从而生成目标数据人对应的网格建模信息。需要说明的是，该特征向量用于约束对预设的神经辐射场模型生成网格建模信息的过程进行约束，以使生成的网格建模信息能够最大程度的贴近用户的实际使用需求。

步骤104，将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图。

其中，第一纹理展开图（UV）中可以包含网格建模信息中每个位置的颜色信息和纹理信息，第一纹理展开图与对应的网格建模信息存在映射关系，即网格建模信息中每个网格或区域的颜色信息和纹理信息，都与其对应的第一纹理展开图中的某个区域的数据对应，网格建模信息的颜色信息和纹理信息都可以通过其对应的第一纹理展开图确定。

在本申请实施例中，生成了目标数字人对应的至少一个网格建模信息之后，即可以生成网格建模信息对应的纹理展开图，以对网格建模信息进行颜色渲染和纹理填充，从而生成最终的数字人形象。因此，可以将代表目标数字人形象特征的多模态描述信息和各个网格建模模型输入预设的纹理展开图生成模型，以生成每个网格建模信息对应的第一纹理展开图，以通过每个网格建模信息对应的第一纹理展开图，分别对每个网格建模信息进行颜色渲染和纹理填充，以生成目标数字人；从而使得生成的第一纹理展开图不仅和上一步骤中生成的网格建模信息匹配，而且可以与用户输入的描述信息匹配。

可以理解的是，若在不做103中生成了多个网格建模信息，则在步骤104中，对于一个网格建模信息，可以将该网格建模信息及多模态描述信息输入预设的纹理展开图生成模型，以生成该网格建模信息对应的第一纹理展开图；以此类推，可以依次生成每个网格建模信息对应的第一纹理展开图。

需要说明的是，在建立预设的纹理展开图生成模型时，可以根据当前的实际应用场景，将当前的实际应用场景中已经存在的大量数字人对应的人体渲染数据作为训练数据集对初始纹理展开图生成模型进行训练，以生成预设的纹理展开图生成模型；或者，还可以通过对真实人体进行扫描，并利用得到的大量真实人体的人体渲染数据构成训练数据集，对初始纹理展开图生成模型进行训练，以生成预设的纹理展开图生成模型；或者，还可以综合大量数字人的人体渲染数据及对真实人体进行扫描得到的人体渲染数据进行结合，以构成训练数据集，并利用该训练数据集对初始纹理展开图生成模型进行训练，以生成预设的纹理展开图生成模型。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，确定构建训练数据集的方式以及对预设的纹理展开图生成模型进行训练的方式，本申请实施例对此不做限定。

实际使用时，可以根据实际需要及具体的应用场景，选取合适的模型或网络架构作为预设的纹理展开图生成模型的网络结构，本申请实施例对此不做限定。比如，可以预设的纹理展开图生成模型可以为controlnet网络架构。

步骤105，将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。

在本申请实施例中，生成目标数字人对应的各个网格建模信息，以及每个网格建模信息对应的第一纹理展开图之后，即可以将每个网格建模信息与对应的第一纹理展开图进行结合，以分别对每个网格建模信息进行颜色渲染和纹理填充，从而生成包含丰富的颜色信息、皮肤纹理、衣服纹理的目标数字人。其中，一个网格建模信息与其对应的第一纹理展开图进行结合，可以生成一个目标数字人，从而，通过本申请实施例的方式可以根据用户的描述信息，生成多个符合用户当前的使用需求的数字人形象，以供用户进行使用或选择，从而提升了数字人生成的多样化和灵活性，更加贴合用户的实际使用需求，提升了用户的粘性。

举例来说，如图2所示，为本申请实施例提供的一种目标数字人的示意图，图2所示的目标数字人是采用本申请实施例的数字人的生成方法生成的，假设获取到的多模态描述信息为“生成一个白色衣服黑色裤子的梳着大背头的人物形象”，从图2中可以看出，目标数字人的形象完全符合用户输入的多模态描述信息所表示的形象特征，并且目标数字人具有非常真实的衣服褶皱等纹理信息，提升了数字人的生动性，而采用现有技术生成的数字人无法达到如此细腻的纹理效果。

进一步的，由于本申请实施例的数字人生成方法，可以根据用户的需求生成多个数字人，因此还可以对生成的多个数字人进行校验和评分，以将效果最好的一个或多个数字人形象展示给用户，以进一步提升数字人生成的可靠性。即在本申请实施例一种可能的实现方式中，上述步骤105，可以包括：

作为一种可能的实现方式，在将每个网格建模信息分别与其对应的第一纹理展开图进行结合，以生成各个参考数字人之后，还可以利用预设的效果校验模型对各个参考数字人进行效果校验，以生成每个参考数值人对应的评价分数；之后，可以将分数最高的一个或多个参考数字人作为目标数字人；也可以设置分数阈值，将评价分数大于或等于分数阈值的参考数值人，确定为目标数字人，以将生成效果最好的数字人推荐给用户。

需要说明的是，本申请实施例的预设的效果校验模型的具体类型，可以根据实际需要及具体的应用场景确定，本申请实施例对此不做限定。比如，预设的效果校验模型可以生成式对抗网络模型。

进一步的，若预设的效果校验模型为只可以对二维图像进行处理的二维模型，则可以将三维的参考数字人转换为二维图像之后，再利用预设的效果校验模型对参考数字人进行效果校验。即在本申请实施例一种可能的实现方式中，上述预设的效果校验模型为二维模型；相应的，上述利用预设的效果校验模型对各个所述参考数字人进行效果校验，以生成各个所述参考数字人对应的评价分数，可以包括：

作为一种可能的实现方式，若预设的效果校验模型为只可以对二维图像进行处理的二维模型，则对于一个参考数字人，可以首先对该参考数字人进行渲染处理，以生成该参考数字人在至少一个视角下的二维渲染图像，之后将该参考数字人对应的各个二维渲染模图像输入预设的效果校验模型，以通过预设的效果校验模型对各个二维渲染图像进行打分，最终得到该参考数字人对应的评价分数。

需要说明的是，在生成参考数字人对应的二维渲染图像时，可以根据实际需要及具体的应用场景，确定生成参考数字人在哪些视角的二维渲染图像，本申请实施例对此不做限定。比如，可以生成参考数字人在较多视角下的二维渲染图像，以进一步提升效果校验的准确性；或者，还可以生成参考数字人在主要视角下的二维渲染图像，以在保证效果校验准确性的同时，降低效果校验的计算复杂度。

进一步的，在预设的效果校验模型为可以对三维图像进行处理的三维模型时，可以利用预设的效果校验模型直接对参考数字人进行效果校验。即在本申请实施例一种可能的实现方式中，上述预设的效果校验模型为三维模型；相应的，上述利用预设的效果校验模型对各个所述参考数字人进行效果校验，以生成各个所述参考数字人对应的评价分数，可以包括：

作为一种可能的实现方式，若预设的效果校验模型为可以对三维图像进行处理的三维模型，则可以直接依次将各个参考数字人输入预设的效果校验模型，以通过预设的效果校验模型直接对各个参考数字人进行处理，以得到每个参考数字人对应的评价分数。

本申请实施例提供的数字人的生成方法，通过根据获取到的多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像，并将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息，之后将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图，进而将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。由此，通过根据用户输入的多模态描述信息，生成符合用户需求的数字人形象，从而不仅提升了数字人生成的效率，而且提升了生成的数字人形象的多样性和灵活性。

下面结合图3，对本申请实施例提供的数字人的生成方法进行进一步说明。

图3示出了本申请实施例提供的另一种数字人的生成方法的流程示意图。

如图3所示，该数字人的生成方法，包括以下步骤：

步骤301，获取多模态描述信息，其中，多模态描述信息用于描述目标数字人的形象特征。

步骤302，根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像。

步骤303，将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息。

上述步骤301-303的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤304，获取第一场景信息。

其中，第一场景信息，可以是指用于描述当前使用场景的信息。比如，第一场景信息可以包括日期、季节、天气、温度、地理位置及应用场景等信息。

需要说明的是，上述列举的信息类型仅为示例性的，不能视为对本申请的限制。实际使用时，第一场景信息中包括的信息类型可以根据实际需要及具体的应用场景确定，本申请实施例对此不做限定。

在本申请实施例中，为了使得生成的数字人形象不仅符合用户需求，而且能够与当前的场景匹配，因此在生成各个网格建模信息对应的第一纹理展开图之前，还可以获取第一场景信息，以在生成各个网格建模信息对应的第一纹理展开图时，可以参考第一场景信息生成符合该第一场景信息的第一纹理展开图。

举例来说，获取到的第一场景信息包括“2033年7月23日、夏季、36°、雨”，因此，在生成第一纹理展开图时，可以参考第一场景信息生成穿着夏季服装对应的纹理展开图；或者，还可以参考第一场景信息生成穿着夏季服装且穿着雨衣或打伞的纹理展开图，等等，以使生成的第一纹理展开图与当前的应用场景匹配。

步骤305，将多模态描述信息、第一场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图。

在本申请实施例中，获取到第一场景信息之后，在生成任意一个网格建模信息对应的第一纹理展开图时，可以将多模态描述信息、第一场景信息及该网格建模信息输入预设的纹理展开图生成模型中，以生成该网格建模信息对应的第一纹理展开图，并使得生成的该第一纹理展开图既符合用户的当前的使用需求，又与当前的使用场景自动匹配。

需要说明的是，步骤305的其他具体实现过程及原理可以参照上述实施例的详细描述，此处不再赘述。

步骤306，将各个网格建模信息与对应的所述第一纹理展开图结合，以生成至少一个目标数字人。

上述步骤306的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

进一步的，在生成目标数字人之后，由于用户的场景信息可以是随时变化的，因此还可以根据用户的实时场景信息对目标数字人进行实时更新，以使数字人形象始终与用户的使用场景相匹配，进一步提升了数字人生成的灵活性。即在本申请实施例一种可能的实现方式中，上述步骤306之后，还可以包括：

获取第二场景信息；

其中，第二场景信息，可以是指用于描述当前使用场景的信息。比如，第二场景信息可以包括日期、季节、天气、温度、地理位置及应用场景等信息。需要说明的是，本申请实施例中的第一场景信息可以是指在根据用户需求生成目标数字人之前获取的当前场景信息，第二场景信息可以是指在生成目标数字人之后，在对目标数字人进行更新时获取的当前场景信息，第一场景信息与第二场景信息中可以包含的信息类型可以是相同的，本申请实施例对此不做限定。

在本申请实施例中，由于在用户的当前场景信息可以是随着时间随时变化的，如季节变化、地理位置变化、天气变化，等等，因此可以在生成目标数字人之后，随时获取第二场景信息，并将重新获取到的第二场景信息、多模态描述信息及网格建模信息输入预设的纹理展开图生成模型，以重新生成各个网格建模信息对应的纹理展开图，即生成各个网格建模信息对应的第二纹理展开图，之后即可以将各个网格建模信息与其对应的第二纹理展开图进行结合，以根据第二场景信息对目标数字人进行更新，从而使得目标数字人的形象始终与当前场景信息匹配。

作为一种示例，在生成目标数字人之后，可以以预设频率获取第二场景信息，即以预设频率对目标数字人进行更新。比如，预设频率可以为每天1次、每周1次、每月1次，等等，本申请实施例对此不做限定。

需要说明的是，在对目标数字人进行更新时，也可以采用前述实施例中公开的效果评价方式对生成的各个数字人进行效果评价，并将评价分数较高的数字人作为更新后的目标数字人展示给用户。

本申请实施例提供的数字人的生成方法，通过根据获取到的多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像，并将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息，之后将多模态描述信息、第一场景信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图，进而将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人，并利用第二场景信息对目标数字人进行更新。由此，通过根据用户输入的多模态描述信息及当前场景信息，生成符合用户需求及实际使用场景的数字人形象，并在生成数字人之后根据实时场景信息对数字人的形象进行实时更新，从而不仅提升了数字人生成的效率，而且通过进一步提升了数字人形象与应用场景的匹配度，进一步提升了生成的数字人形象的多样性和灵活性，进一步提升了用户的使用体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的数字人的生成方法，图4示出了本申请实施例提供的数字人的生成装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该装置40，包括：

第一获取模块41，用于获取多模态描述信息，其中，多模态描述信息用于描述目标数字人的形象特征；

第一生成模块42，用于根据多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像；

第二生成模块43，用于将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息；

第三生成模块44，用于将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图；

第四生成模块45，用于将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。

在实际使用时，本申请实施例提供的数字人的生成装置，可以被配置在任意电子设备中，以执行前述数字人的生成方法。

本申请实施例提供的数字人的生成装置，通过根据获取到的多模态描述信息，生成目标数字人在至少一个视角的至少一个目标二维图像，并将多模态描述信息及至少一个目标二维图像输入预设的网格建模重建模型，以生成目标数字人对应的至少一个网格建模信息，之后将多模态描述信息及至少一个网格建模信息输入预设的纹理展开图生成模型，以生成各个网格建模信息对应的第一纹理展开图，进而将各个网格建模信息与对应的第一纹理展开图结合，以生成至少一个目标数字人。由此，通过根据用户输入的多模态描述信息，生成符合用户需求的数字人形象，从而不仅提升了数字人生成的效率，而且提升了生成的数字人形象的多样性和灵活性。

在本申请的一种可能的实现方式中，上述多模态描述信息包括文本信息、语音信息、图像信息及视频信息中的至少一种。

进一步的，在本申请另一种可能的实现方式中，上述第一生成模块42，包括：

第一获取单元，用于获取用户输入的第一多模态描述信息；

进一步的，在本申请再一种可能的实现方式中，上述装置40，还包括：

第二获取模块，用于获取第一场景信息；

相应的，上述第三生成模块44，包括：

进一步的，在本申请又一种可能的实现方式中，上述装置40，还包括：

第三获取模块，用于获取第二场景信息；

进一步的，在本申请又一种可能的实现方式中，上述第一生成模块42，包括：

进一步的，在本申请另一种可能的实现方式中，上述预设的网格建模重建模型是由预设的扩散模型及预设的神经辐射场模型构成的；相应的，上述第二生成模块43，包括：

进一步的，在本申请再一种可能的实现方式中，上述第四生成模块45，包括：

进一步的，在本申请又一种可能的实现方式中，上述预设的效果校验模型为二维模型；相应的，上述第七生成单元，具体用于：

进一步的，在本申请又一种可能的实现方式中，上述预设的效果校验模型为三维模型；相应的，上述第七生成单元，具体用于：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

为了实现上述实施例，本申请还提出一种电子设备。

图5为本申请一个实施例的电子设备的结构示意图。

参见图5，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，比如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口，如可以包括集成电路（inter-integrated circuit，I2C）接口，集成电路内置音频（inter-integrated circuitsound，I2S）接口，脉冲编码调制（pulse code modulation，PCM）接口，通用异步收发传输器（universal asynchronous receiver/transmitter，UART）接口，移动产业处理器接口（mobile industry processor interface，MIPI），通用输入输出（general-purposeinput/output，GPIO）接口，用户标识模块（subscriber identity module，SIM）接口，和/或通用串行总线（universal serial bus，USB）接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备100供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态（漏电，阻抗）等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。比如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（low noise amplifier，LNA）等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备（不限于扬声器170A，受话器170B等）输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网（wirelesslocal area networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellite system，GNSS），调频（frequency modulation，FM），近距离无线通信技术（near field communication，NFC），红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统（global system for mobile communications，GSM），通用分组无线服务（general packet radio service，GPRS），码分多址接入（codedivision multiple access，CDMA），宽带码分多址（wideband code division multipleaccess，WCDMA），时分码分多址（time-division code division multiple access，TD-SCDMA），长期演进（long term evolution，LTE），BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统（global positioning system，GPS），全球导航卫星系统（global navigation satellite system，GLONASS），北斗卫星导航系统（beidounavigation satellite system，BDS），准天顶卫星系统（quasi-zenith satellitesystem，QZSS）和/或星基增强系统（satellite based augmentation systems，SBAS）。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganic light emitting diode，AMOLED），柔性发光二极管（flex light-emittingdiode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dot lightemitting diodes，QLED）等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP 用于处理摄像头193反馈的数据。比如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。比如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，比如：动态图像专家组（moving picture experts group，MPEG）1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络（neural-network，NN）计算处理器，通过借鉴生物神经网络结构，比如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，比如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，比如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。比如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，计算机可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，来执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备100在使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，比如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D以及应用处理器等实现音频功能，比如音乐播放，录音等。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，在拍摄场景中，电子设备100可以利用距离传感器180F测距以实现快速对焦。

按键190包括开机键，音量键等。按键190可以是机械按键，也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的数字人的生成方法的解释说明，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种数字人的生成方法，其特征在于，包括：

获取多模态描述信息，其中，所述多模态描述信息用于描述目标数字人的形象特征；

根据所述多模态描述信息，生成所述目标数字人在至少一个视角的至少一个目标二维图像；

将所述多模态描述信息及至少一个所述目标二维图像输入预设的扩散模型，以生成所述多模态描述信息及至少一个所述目标二维图像对应的特征向量；

将所述特征向量及所述目标数字人对应的预设的点云数据，输入预设的神经辐射场模型，以生成至少一个网格建模信息，其中，所述特征向量用于对所述预设的神经辐射场模型的网格建模过程进行约束；

将所述多模态描述信息及至少一个所述网格建模信息输入预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第一纹理展开图；

将各个所述网格建模信息与对应的所述第一纹理展开图结合，以生成至少一个所述目标数字人。

2.如权利要求1所述的方法，其特征在于，所述多模态描述信息包括文本信息、语音信息、图像信息及视频信息中的至少一种。

3.如权利要求1所述的方法，其特征在于，所述多模态描述信息包括第一多模态描述信息及第二多模态描述信息，所述根据所述多模态描述信息，生成所述目标数字人在至少一个视角的至少一个目标二维图像，包括：

获取用户输入的第一多模态描述信息；

根据所述第一多模态描述信息，生成所述目标数字人在至少一个视角的至少一个初始二维图像；

若未获取到用户输入的第二多模态描述信息，则将各个所述初始二维图像确定为各个所述目标二维图像；

若获取到用户输入的所述第二多模态描述信息，则根据所述第一多模态描述信息、所述第二多模态描述信息及至少一个所述初始二维图像，重新生成至少一个修正二维图像，并将各个所述修正二维图像，确定为各个所述目标二维图像。

4.如权利要求1所述的方法，其特征在于，所述将所述多模态描述信息及至少一个所述网格建模信息输入预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第一纹理展开图之前，还包括：

获取第一场景信息；

所述将所述多模态描述信息及至少一个所述网格建模信息输入预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第一纹理展开图，包括：

将所述多模态描述信息、所述第一场景信息及至少一个所述网格建模信息输入所述预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第一纹理展开图。

5.如权利要求4所述的方法，其特征在于，所述将各个所述网格建模信息与对应的所述纹理展开图结合，以生成至少一个所述目标数字人之后，还包括：

获取第二场景信息；

将所述多模态描述信息、所述第二场景信息及至少一个所述网格建模信息输入所述预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第二纹理展开图；

将各个所述网格建模信息与对应的所述第二纹理展开图结合，以更新所述目标数字人。

6.如权利要求1所述的方法，其特征在于，所述根据所述多模态描述信息，生成所述目标数字人在至少一个视角的至少一个目标二维图像，包括：

将所述多模态描述信息输入预设的多模态信息融合模型，以生成至少一个所述目标二维图像。

7.如权利要求1-6任一所述的方法，其特征在于，所述将各个所述网格建模信息与对应的所述第一纹理展开图结合，以生成至少一个所述目标数字人，包括：

将各个所述网格建模信息与对应的所述第一纹理展开图结合，以生成至少一个参考数字人；

利用预设的效果校验模型对各个所述参考数字人进行效果校验，以生成各个所述参考数字人对应的评价分数；

根据各个所述参考数字人对应的评价分数，选取至少一个所述参考数字人作为所述目标数字人。

8.如权利要求7所述的方法，其特征在于，所述预设的效果校验模型为二维模型，所述利用预设的效果校验模型对各个所述参考数字人进行效果校验，以生成各个所述参考数字人对应的评价分数，包括：

对每个所述参考数字人分别进行渲染处理，以生成每个所述参考数字人在至少一个视角下的二维渲染图像；

将各个所述参考数字人对应的二维渲染图像输入所述预设的效果校验模型，以生成各个所述参考数字人对应的评价分数。

9.如权利要求7所述的方法，其特征在于，所述预设的效果校验模型为三维模型，所述利用预设的效果校验模型对各个所述参考数字人进行效果校验，以生成各个所述参考数字人对应的评价分数，包括：

将各个所述参考数字人输入所述预设的效果校验模型，以生成各个所述参考数字人对应的评价分数。

10.一种数字人的生成装置，其特征在于，包括：

第一获取模块，用于获取多模态描述信息，其中，所述多模态描述信息用于描述目标数字人的形象特征；

第一生成模块，用于根据所述多模态描述信息，生成所述目标数字人在至少一个视角的至少一个目标二维图像；

第四生成单元，用于将所述多模态描述信息及至少一个所述目标二维图像输入预设的扩散模型，以生成所述多模态描述信息及至少一个所述目标二维图像对应的特征向量；

第五生成单元，用于将所述特征向量及所述目标数字人对应的预设的点云数据，输入预设的神经辐射场模型，以生成至少一个网格建模信息，其中，所述特征向量用于对所述预设的神经辐射场模型的网格建模过程进行约束；

第三生成模块，用于将所述多模态描述信息及至少一个所述网格建模信息输入预设的纹理展开图生成模型，以生成各个所述网格建模信息对应的第一纹理展开图；

第四生成模块，用于将各个所述网格建模信息与对应的所述第一纹理展开图结合，以生成至少一个所述目标数字人。

11.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。