CN114495927A

CN114495927A - 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端

Info

Publication number: CN114495927A
Application number: CN202111677847.XA
Authority: CN
Inventors: 柴金祥; 谭宏冰; 熊兴堂; 王从艺; 王斌; 梁志强; 戴鹭琳
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13

Abstract

一种多模态交互的虚拟数字人的生成方法及装置、存储介质、终端，所述方法包括：获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；获取交互能力模型，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人；生成所述虚拟数字人的应用程序和/或服务接口。通过本发明提供的方案，可以高效地得到高质量的虚拟数字人。

Description

多模态交互的虚拟数字人的生成方法及装置、存储介质、终端

技术领域

本发明涉及虚拟数字人技术领域，尤其涉及一种多模态交互的虚拟数字人的生成方法及装置、存储介质、终端。

背景技术

随着人工智能技术(Artificial Intelligence)、虚拟内容(Virtualization)技术、增强现实(Augmented Reality，AR)技术、虚拟现实(Virtual Reality，VR)技术和云引擎(Cloud Computing))等技术的发展，元宇宙(Meta verse)概念应运而生。元宇宙通常被理解为虚拟世界，这个虚拟世界是基于AR/VR、三维虚拟空间和互联网技术构建的，在这个世界中可以提供和真实世界一样的基础服务，例如文化娱乐、游戏、人际社交互动、学习教育和生活服务等。虚拟世界相当于现实世界的镜像，因为虚拟世界的不限空间、不限时间的特点，可以提供类似甚至超越物理现实社会的服务与应用。

目前，仍然处于虚拟世界的构建早期，主要有三个方向需要进行构建：虚拟内容(Content)、虚拟直播(Avatar)和虚拟数字人(AI Human)。采用现有技术构建得到的虚拟数字人质量仍然有待提高。

因此，亟需一种多模态交互虚拟数字人的生成方法，能够高效地生成高质量的虚拟数字人。

发明内容

本发明解决的技术问题是如何高效地生成高质量的多模态交互虚拟数字人。

为解决上述技术问题，本发明实施例提供一种多模态交互的虚拟数字人的生成方法，所述方法包括：获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；生成所述虚拟数字人的应用程序和/或服务接口。

可选的，获取初始虚拟数字人包括：获取所述使用者输入的对象信息，所述对象信息用于描述所述使用者期望的虚拟数字人的虚拟形象；根据所述对象信息生成所述初始虚拟数字人。

可选的，根据所述对象信息生成所述初始虚拟数字人包括：根据所述对象信息，确定所述初始虚拟数字人的特征信息；根据所述初始虚拟数字人的特征信息，从预设的虚拟数字人库中选择初步匹配的预设虚拟数字人，其中，所述初步匹配的预设虚拟数字人是指所述虚拟数字人库中特征信息与所述初始虚拟数字人的特征信息差异最小的预设虚拟数字人；根据所述初始匹配的预设虚拟数字人的特征信息和所述初始虚拟数字人的特征信息之间的差异，对所述初步匹配的虚拟数字人进行迭代地调整；当所述预设虚拟数字人的特征信息和所述初始虚拟数字人的特征信息之间的差异小于预设阈值时，则得到所述初始虚拟数字人。

可选的，获取交互能力模型包括：获取使用者输入的训练语音；根据所述训练语音对预先构建的标准语音生成模型进行训练，以得到目标语音生成模型，其中，所述目标语音生成模型输出的语音具有使用者的音色；其中，所述标准语音生成模型包括以下一项或多项：基于文本生成语音模型、语音转换模型。

可选的，对话模型包括单轮对话模型，获取交互能力模型包括：获取使用者输入的对话样本；根据所述对话样本训练得到单轮对话模型。

可选的，所述对话模型包括多轮对话模型，获取交互能力模型包括：调用多轮对话引擎，并获取使用者在所述多轮对话引擎中输入的多轮对话的配置信息，所述配置信息包括：触发指令、对话流程和语料信息；根据所述配置信息，构建得到所述多轮对话模型。

可选的，生成所述虚拟数字人的应用程序和/或服务接口之前，所述方法还包括：获取待输出的交互信息；根据所述待输出的交互信息，确定文本驱动指令，所述文本驱动指令包括文本；根据所述文本驱动指令中文本的语义、使用者针对所述文本输入的动作标识以及使用者针对所述文本输入的展示内容中的一项或多项，生成所述文本驱动指令对应的动作驱动指令，根据使用者针对所述文本输入的展示内容生成展示驱动指令；其中，所述文本驱动指令用于生成所述虚拟数字人的音频信息和面部动画数据，所述动作驱动指令用于生成所述虚拟数字人的动作动画数据，所述展示驱动指令用于显示所述虚拟数字人的虚拟展示内容。

本发明实施例还提供一种多模态交互的虚拟数字人的生成装置，所述装置包括：初始获取模块，用于获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；第一生成模块，用于获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；第二生成模块，用于生成所述虚拟数字人的应用程序和/或服务接口。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的多模态交互的虚拟数字人的生成方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的多模态交互的虚拟数字人的生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例的方案中，获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象。进一步地，可以获取交互能力模型并为初始虚拟数字人配置交互能力模型，由于交互能力模型包括对话模型，因此可以生成能够进行智能对话的虚拟数字人。进一步地，由于交互能力模型还包括语音生成模型和动画生成模型，由此对话模型的输出能够以音频、动画等多模态的形式展现，因此本发明实施例中的虚拟数字人能够进行多模态地交互，质量较高。

进一步，本发明实施例的方案中，获取所述使用者输入的对象信息，所述对象信息用于描述所述使用者期望的虚拟数字人的虚拟形象，根据所述对象信息生成所述初始虚拟数字人。采用这样的方案，可以根据使用者的需求生成对应的虚拟数字人的形象，有利于使虚拟数字人的形象更加贴合实际的应用场景。

进一步，本发明实施例的方案中，获取使用者输入的训练语音，并根据训练语音对预先构建的标准语音生成模型进行训练，以得到目标语音生成模型。采用这样的方案，可以使虚拟数字人输出的音频具有使用者专属的音色，有利于使虚拟数字人的形象更加贴合实际的应用场景。

进一步，本发明实施例的方案中，获取文本驱动指令，然后根据文本驱动指令中交互文本的语义生成文本驱动指令对应的动作驱动指令。采用这样的方案，有利于虚拟数字人在交互时具有真实自然的声音、面部表情和肢体动作。

附图说明

图1是本发明实施例中一种多模态交互的虚拟数字人的生成方法的流程示意图；

图2是本发明实施例中一种多模态交互的虚拟数字人的生成方法的部分流程示意图；

图3是本发明实施例中一种多模态交互的虚拟数字人的生成装置的结构示意图。

具体实施方式

如背景技术所述，亟需一种虚拟数字人的生成方法，能够高效地生成高质量的虚拟数字人。

现有技术中，生成的虚拟数字人主要存在以下几个问题：(1)生成的虚拟数字人的形象单一；(2)智能化程度较低，声音、唇形动画、表情动画和动作动画等融合效果不高，展现不够流畅；(3)过程繁琐、成本较高，缺少端到端的生成虚拟数字人的方案，一般的使用者无法直接自己构建所需的虚拟数字人，通常需要委托专门的研发团队进行专门的开发。

为了解决上述技术问题，本发明实施例提供一种多模态交互的虚拟数字人的生成方法，在本发明实施例的方案中，获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象。进一步地，可以获取交互能力模型并为初始虚拟数字人配置交互能力模型，由于交互能力模型包括对话模型，因此可以生成能够进行智能对话的虚拟数字人。进一步地，由于交互能力模型还包括语音生成模型和动画生成模型，由此对话模型的输出能够以音频、动画等多模态的形式展现，因此本发明实施例中的虚拟数字人能够进行多模态地交互，质量较高。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本发明实施例中一种多模态交互的虚拟数字人的生成方法的流程示意图。所述方法可以由终端执行，所述终端可以是各种现有的具有数据接收和处理能力的终端设备，例如，可以是手机、计算机和平板电脑等，但并不限于此。其中，生成的所述虚拟数字人可以是各种领域的虚拟人，例如，可以是虚拟新闻播报员、虚拟老师、虚拟政务助手、虚拟客服、虚拟医生和虚拟主播等等，但并不限于此。需要说明的是，生成的虚拟数字人可以是三维的，也可以是二维的，本发明实施例对此并不进行限制。图1示出的虚拟数字人的视频生成方法可以包括以下步骤：

步骤S101：获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；

步骤S102：获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型。

步骤S103：生成所述虚拟数字人的应用程序和/或服务接口。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

在步骤S101的具体实施中，可以获取初始虚拟数字人，初始虚拟数字人为静态的虚拟数字人，初始虚拟数字人具有对应的虚拟内容，虚拟内容可以包括：虚拟形象和虚拟场景。

具体而言，初始虚拟数字人具有使用者期望的虚拟形象，初始虚拟数字人的虚拟形象可以是指虚拟数字人的外在形象。更具体地，虚拟形象可以包括以下一项或多项：脸型、发型、服饰、妆容和姿态等。可以理解的是，虚拟数字人的应用场景不同，虚拟数字人的虚拟形象的风格也不同。例如，虚拟数字人为银行的虚拟客服时，虚拟形象可以为超写实风格等。

进一步地，虚拟场景是指使用者期望的虚拟数字人所处的场景。具体而言，虚拟场景可以包括以下一项或多项：虚拟背景和镜头角度等，但并不限于此。可以理解的是，虚拟数字人的应用场景不同，虚拟数字人的虚拟场景也不同。例如，虚拟数字人为银行的虚拟客服时，虚拟场景可以为银行大厅的背景以及能够显示虚拟数字人全身的镜头角度等。

在第一个具体的例子中，初始虚拟数字人可以是预先根据使用者的需求通过建模生成的，执行步骤S101时，可以从外部终端获取预先生成的初始虚拟数字人。

在第二个具体的例子中，初始虚拟数字人可以是由使用者上传的。在具体实施中，可以对使用者上传的初始虚拟数字人进行标准化处理，以便后续可以对使用者上传的初始虚拟数字人进行交互能力模型的配置等处理。

在第三个具体的例子中，可以获取使用者输入的对象信息，所述对象信息可以用于描述使用者期望的虚拟数字人的虚拟形象。所述对象信息可以是图片，也可以是文本等，本实施例对于对象信息的数据形式并不进行限制。

进一步地，可以根据使用者输入的对象信息生成初始虚拟数字人。

具体而言，可以根据对象信息确定初始虚拟数字人的特征信息，然后根据初始虚拟数字人的特征信息从预设的虚拟数字人库中选择初步匹配的预设虚拟数字人。

更具体地，预设的虚拟数字人库可以包括多个预设虚拟数字人，每个预设虚拟数字人具有对应的特征信息，所述特征信息可以用于指示该预设虚拟数字人的形象特征及场景特征。然后可以根据初始虚拟数字人的特征信息与预设的虚拟数字人库中各个预设虚拟数字人的特征信息之间的差异，确定差异最小的预设虚拟数字人为初步匹配的预设虚拟数字人。

进一步地，可以根据初步匹配的预设虚拟数字人的特征信息与初始虚拟数字人的特征信息之间的差异迭代地优化初步匹配的预设虚拟数字人，直至二者之间的差异小于预设阈值时，预设虚拟数字人即为初始虚拟数字人。

在步骤S102的具体实施中，可以获取交互能力模型，并为初始虚拟数字人配置交互能力模型，以得到可进行多模态交互的虚拟数字人，也即，虚拟数字人具有进行多模态交互的能力。所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型。

具体而言，语音生成模型可以包括：基于文本生成语音模型，和/或，语音转换模型。更具体地，基于文本生成语音模型可以用于将文本信息转换为音频信息；语音转换模型可以用于对语音信息进行音色转换，以得到虚拟数字人输出的音频信息。

基于文本生成语音模型可以基于文本生成风格化、有感情的高质量语音，保留类似真人的音调和韵律，听起来更有感情。

在一个具体的例子中，可以读取预先设置的语音生成模型库，其中，语音生成模型库可以包括多个预设语音生成模型，且不同的预设语音生成模型具有不同的音色。使用者可以根据实际需求从多个预设语音生成模型中选择确定语音生成模型。

具体地，不同的音色包括不同性别，不同年龄的声音，覆盖不同的使用场景，例如虚拟客服，可以选择一个知性女性的音色。

在另一个具体的例子中，可以获取使用者输入的训练语音，并根据训练语音对预先构建的标准语音生成模型进行训练，以得到目标语音生成模型，其中，目标语音生成模型输出的音频信息具有使用者的音色。

进一步地，为初始虚拟数字人配置语音生成模型，可以使虚拟数字人能够输出音频信息，并具有使用者期望的音色。

具体而言，可以获取待输出的交互信息，并将其输入至语音生成模型，以得到虚拟数字人输出的音频信息。也即，如果交互信息为文本信息，则可以将文本信息输入至基于文本生成语音模型，以得到基于文本生成语音模型输出的虚拟数字人的音频信息；如果交互信息为语音信息，可将语音信息输入至语音转换模型，以得到虚拟数字人输出的音频信息。

进一步地，动画生成模型可以包括面部动画生成模型和动作动画生成模型，其中，面部动画生成模块可以用于生成面部动画数据，动作动画生成模块可以用于生成动作动画。

进一步地，面部动画生成模型可以包括：基于文本生成语音动画模型，和/或，基于音频生成动画模型。其中，基于文本生成语音动画模型可以根据文本信息生成音频信息和面部动画数据；基于音频生成动画模型可以根据音频信息生成面部动画数据。

在具体实施中，可以读取预先设置的动画生成模型，并为所述初始虚拟数字人配置所述动画生成模型，以使得虚拟数字人在交互时可以具有真实自然的面部表情和肢体动作。

具体而言，可以获取待输出的交互信息，并将其输入至面部动画生成模型，以得到虚拟数字人的面部动画数据，面部动画数据至少包括唇形动画数据。更具体地，如果交互信息为文本信息，则将文本信息输入至基于文本生成语音动画模型，以得到虚拟数字人的音频信息和面部动画数据或者将文本信息输入至基于文本生成语音模型，以得到基于文本生成语音模型输出的虚拟数字人的音频信息，再将音频信息输入基于音频生成动画模型到以得到虚拟数字人的面部动画数据；如果交互信息为语音信息，则可以将文本信息输入至基于音频生成动画模型，以得到虚拟数字人的面部动画数据。

具体地，采用基于文本生成动画模型生成面部动画数据，具体过程参照以下描述。

获取文本信息，其中，所述文本信息包括待生成虚拟对象的面部动画数据的文本；分析文本信息的情感特征和韵律边界；根据情感特征、韵律边界和文本信息进行语音合成，以得到音频信息，其中，音频信息包括基于文本信息转换得到的带有情感的语音；基于文本信息和音频信息生成对应的虚拟对象动画数据，并且，虚拟对象动画数据与所述音频信息在时间上是同步的，虚拟对象动画数据可以包括虚拟对象的面部动画数据。

进一步，分析文本信息的情感特征和韵律边界包括：对文本信息进行分词处理；对于分词得到的每一字词，对字词进行情感分析以得到字词的情感特征；确定每一字词的韵律边界。

进一步，分析文本信息的情感特征和韵律边界还可以包括：基于预设文本前端预测模型分析文本信息的情感特征，预设文本前端预测模型的输入为文本信息，预设文本前端预测模型的输出为文本信息的情感特征、韵律边界和分词。

在一个具体实施中，预设文本前端预测模型可以包括耦接的循环神经网络(Recurrent Neural Network，简称RNN)和条件随机场(Conditional Random Fields，简称CRF)。也就是说，本具体实施采用RNN+CRF的深度学习模型快速预测文本信息的各个字词的情感特征以及韵律边界估计。

需要指出的是，预设文本前端预测模型可以是同时输出文本信息的情感特征、韵律边界和分词结果的。而在预设文本前端预测模型内部，则可以先进行分词，然后再处理分词结果以得到对应的情感特征和韵律边界。

进一步，根据情感特征、韵律边界和文本信息进行语音合成，以得到音频信息包括：将文本信息、情感特征和韵律边界输入预设语音合成模型，其中，预设语音合成模型用于将输入的文本序列按时序转换成语音序列，且语音序列中的语音带有对应时间点上文本的情感；获取预设语音合成模型输出的音频信息。

进一步，预设语音合成模型是基于训练数据训练得到的，其中，训练数据包括文本信息样本以及对应的音频信息样本，音频信息样本是根据所述文本信息样本预先录制得到的。

具体地，预设语音合成模型可以为序列到序列(Sequence to Sequence，简称Seq-to-Seq)模型。

进一步，基于所述文本信息和音频信息生成对应的虚拟对象动画包括：将文本信息和音频信息输入预设时序映射模型，以生成对应的虚拟对象动画数据。

具体地，采用基于音频生成动画模型生成动画数据，具体过程参照以下描述。

具体地，可以将音频信息(或音频信息)转换为发音单元序列，并对发音单元序列进行特征分析，以得到对应的语言学特征序列，再将语言学特征序列输入至预设时序映射模型，以得到面部动画数据。其中，发音单元是可以是音素，语言学特征可以用于表征发音单元的发音特征，预设时序映射模型是基于深度学习技术训练构建的，用于将输入的语言学特征序列映射至对应的面部动画数据。

进一步，预设时序映射模型可以用于基于深度学习按时序将输入的语言学特征序列映射至虚拟对象的表情参数，以生成对应的虚拟对象的面部动画数据。

具体地，将音频信息转换为发音单元序列可以包括步骤：将音频信息转换为发音单元及对应的时间码；根据时间码对发音单元进行时间对齐操作，以得到时间对齐后的发音单元序列。为便于表述，本实施例将时间对齐后的发音单元序列简称为发音单元序列。

进一步，可以将所述音频信息转换为文本信息后，再对文本信息进行处理以得到发音单元和对应的时间码。

具体地，可以基于自动语音识别(Automatic Speech Recognition，简称ASR)技术和预设发音字典将所述音频信息转换为发音单元及对应的时间码。

进一步，对发音单元序列进行特征分析，得到对应的语言学特征序列包括：对发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征；基于每个发音单元的语言学特征，生成对应的语言学特征序列。

进一步，对发音单元序列中的每个发音单元进行特征分析，得到每个发音单元的语言学特征可以包括：对于每个发音单元，分析发音单元的发音特征，以得到发音单元的独立语言学特征；基于发音单元的独立语言学特征生成发音单元的语言学特征。

进一步，可以在一定的时间窗口范围内对每个发音单元的所有邻接发音单元进行分析，分析的维度包括但不限于当前发音单元的左侧窗口内有多少个元音或辅音、当前发音单元的右侧窗口内有多少个前鼻音或后鼻音等。例如，统计所述邻接发音单元所具有发音特征的种类以及同种发音特征的数量，并根据统计结果得到邻接语言学特征。

进一步，可以将量化后的统计特征作为当前发音单元的邻接语言学特征。

进一步，发音单元的邻接发音单元可以包括：以发音单元为中心，在时序上位于发音单元前后的预设数量的发音单元。

进一步，对于每一发音单元，将发音单元的独立语言学特征和邻接语言学特征相组合，以得到发音单元的完整的语言学特征。

进一步，将语言学特征序列输入预设时序映射模型，以基于语言学特征序列生成对应的虚拟对象的面部动画数据包括：基于预设时序映射模型对语言学特征序列进行多维度的信息提取，其中，多维度包括时间维度和语言学特征维度；基于预设时序映射模型对多维度的信息提取结果进行特征域的映射和特征维度变换，以得到虚拟对象的表情参数。

其中，特征域的映射是指语言学特征域到虚拟对象面部动画数据特征域的映射，虚拟对象的面部动画数据特征域至少包括虚拟对象的表情特征。

具体地，由于音频信息的长度并不固定，因此，可以基于循环神经网络(RecurrentNeural Network，简称RNN)及其变体(如长短时记忆网络(Long Short-Term Memory，简称LSTM)等)处理基于输入信息处理得到的变长序列信息(即所述语言学特征序列)，从而从整体上提取特征信息。特征映射模型通常涉及到特征域转换以及特征维度变换。对此，可以基于全链接网络(Fully Connected Network，简称FCN)实现此转换功能。

进一步，RNN网络可从时间维度上对输入特征进行处理，而为了在更多维度上对特征进行处理从而提取出更高维度的特征信息，进而增强模型的泛化能力，可以基于卷积神经网络(Convolutional Neural Network，简称CNN)及其变体(如膨胀卷积、因果卷积等)对输入信息进行处理。

在一个具体实施中，预设时序映射模型可以为卷积网络-长短时记忆网络-深度神经网络(Convolutional LSTM Deep Neural Networks，简称CLDNN)。

具体地，预设时序映射模型可以包括：多层卷积网络，用于接收语言学特征序列，并对语言学特征序列进行多维度的信息提取。

例如，多层卷积网络可以包括四层膨胀卷积网络，对语言学特征序列进行多维度的信息提取。语言学特征序列可以为二维数据，假设对于每一发音单元都由600位长度的发音特征表示且共有100个发音单元，则输入所述预设时序映射模型的语言学特征序列为100×600的二维数组。其中100这个维度代表时间维度，600这个维度代表语言学特征维度。相应的，多层卷积网络在时间和语言学特征两个维度上进行特征运算。

进一步，预设时序映射模型还可以包括：长短时记忆网络，用于对时间维度的信息提取结果进行信息聚合处理。由此，可以在时间维度上对经过多层卷积网络卷积处理后的特征从整体上进行连续性考虑。

例如，长短时记忆网络可以包括两层堆叠的双向LSTM网络，与多层卷积网络的耦接以获取多层卷积网络输出的对语言学特征序列在时间维度上的信息提取结果。进一步，两层堆叠的双向LSTM网络对语言学特征序列在时间维度上的信息提取结果进行高维度的信息加工，以进一步得到时间维度上的特征信息。

进一步，预设时序映射模型还可以包括：深度神经网络，与多层卷积网络和长短时记忆网络耦接，深度神经网络用于对多层卷积网络和长短时记忆网络的输出的多维度的信息提取结果进行特征域的映射和特征维度变换，以得到虚拟对象的表情参数。

例如，深度神经网络可以接收多层卷积网络输出的语言学特征维度的信息提取结果，深度神经网络还可以接收长短时记忆网络输出的更新的时间维度上的信息提取结果。

维度变换可以指降维，如所述预设时序映射模型的输入为600个特征，输出则为100个特征。

例如，深度神经网络可以包括：多层串联连接的全连接层，其中，第一层全连接层用于接收多维度的信息提取结果，最后一层全连接层输出虚拟对象的表情参数。全连接层的数量可以为三层。

进一步，深度神经网络还可以包括：多个非线性变换模块，分别耦接于除最后一层全连接层外的相邻两层全连接层之间，非线性变化模块用于对耦接的上一层全连接层的输出结果进行非线性变换处理，并将非线性变换处理的结果输入耦接的下一层全连接层。

非线性变换模块可以为修正线性单元(Rectified linear unit，简称ReLU)激活函数。

非线性变换模块可以提升预设时序映射模型的表达能力和泛化能力。

在一个变化例中，多层卷积网络、长短时记忆网络和深度神经网络可以是依次串联连接的，多层卷积网络输出的语言学特征维度的信息提取结果经过长短时记忆网络透传至所述深度神经网络，多层卷积网络输出的时间维度的信息提取结果经过长短时记忆网络处理后传输至所述深度神经网络。

具体地，虚拟对象可以为虚拟数字人。

进一步地，可以获取对话模型，并为初始虚拟数字人配置对话模型，以使得虚拟数字人可以进行智能对话。其中，对话模型可以包括：单轮对话模型，和/或，多轮对话模型。

在一个具体的例子中，可以获取使用者输入的对话样本，每个对话样本包括第一对话信息和第二对话信息，每条第一对话信息可以对应一条或多条第二对话信息。其中，第一对话信息为虚拟数字人与用户交互过程中虚拟数字人需要接收的信息，第二对话信息为虚拟数字人与用户交互过程中虚拟数字人需要输出的信息，也即，第二对话信息可以是待输出的交互信息。然后采用对话样本训练得到单轮对话模型。更具体地，可以采用Bert、Fast text等算法进行训练，以得到单轮对话模型。例如，对话样本中第一对话信息可以是“你是谁？”，与其对应的第二对话信息可以是“我是虚拟数字人”、“我是AI虚拟人”等。在具体实施中，第一对话信息为文本信息，第二对话信息为文本信息和/或语音信息。在实际使用时，虚拟数字人在接收到第一对话信息后，在对应的多个第二对话信息中选择确定其中一条输出即可。

进一步地，为初始虚拟数字人配置单轮对话模型后，虚拟数字人可以完成单轮对话。

进一步地，获取使用者输入的第二对话信息时，还可以获取使用者输入的动作标识和展示内容等，从而生成第二对话信息对应的动作驱动指令和展示驱动指令。具体内容将在下文描述。

在另一个具体的例子中，可以调用多轮对话引擎，并获取使用者在多轮对话引擎中输入的多轮对话的配置信息，配置信息可以包括多轮对话的触发指令、对话流程和语料信息等；然后可以基于使用者输入的配置信息，生成多轮对话模型。

进一步地，为初始虚拟数字人配置多轮对话模型后，虚拟数字人可以完成多轮的任务型对话，例如，机票订购、天气查询等。

需要说明的是，上述的对话对和多轮对话的配置信息可以是根据虚拟数字人的应用场景确定的。例如，如果虚拟数字人为银行的虚拟客服，则可以配置银行客服场景中常遇到的问题，例如咨询产品，咨询业务办理流程等；又例如关于咨询业务办理流程的对话对可以包括：“请问如何转账”和“您可以在手机银行或者柜台进行银行转账”。

进一步地，交互能力模型还可以包括虚拟展示模型，所述虚拟展示模型用于展示虚拟信息，所述虚拟信息包括：虚拟道具、特效效果、使用者上传的展示内容等。进一步地，交互能力模型还包括：引擎模型，所述引擎模型用于对多模态交互信息渲染和解算，以得到最终的视频流呈现给使用者和用户。

具体而言，引擎模型包括实时解算模块，实时解算模块用于采用解算算法将动画数据模拟出接近真实场景的效果，比如虚拟数字人的毛发或者衣服，还用户采用动力学解算模拟出符合真实场景运动规律的动态效果，从而极大增强了虚拟数字人的动画输出效果。

进一步地，引擎模型还包括实时渲染模块，实时渲染模块用于采用实时渲染技术对虚拟数字人进行高质量的实时渲染。

进一步地，交互模型还可以包括技能模型，所述技能模型可以是从预先设置的技能模型库中获取的，也可以是由使用者上传的，还可以是从云端服务器获取的，其中，云端服务器的技能模型可以是由其他使用者上传的。技能模型可以是根据虚拟数字人的实际应用场景设置的。其中，所述技能模型可以包括以下一项或多项：查天气、查时间、讲笑话、唱歌、查新闻、查汇率、查疫情和查转账等模型，但并不限于此。

进一步地，可以对待输出的交互信息进行动作和展示信息的配置。其中，待输出的交互信息可以是对话模型中使用者配置的虚拟数字人在交互过程中需要输出的信息，例如，可以是第二对话信息，还可以是多轮对话模型中的语料信息等，本实施例对此并不进行限制。

参照图2，图2是本发明实施例中一种多模态交互的虚拟数字人的生成方法的部分流程示意图。图2示出的生成方法可以包括以下步骤：

步骤S201：获取待输出的交互信息；

步骤S202：根据所述待输出的交互信息，确定文本驱动指令，所述文本驱动指令包括文本；

步骤S203：根据所述文本驱动指令中文本的语义、使用者针对所述文本输入的动作标识以及使用者针对所述文本输入的展示内容中的一项或多项，生成所述文本驱动指令对应的动作驱动指令，根据使用者针对所述文本输入的展示内容生成展示驱动指令；

其中，所述文本驱动指令用于生成所述虚拟数字人的音频信息和面部动画数据，所述动作驱动指令用于生成所述虚拟数字人的动作动画数据，所述展示驱动指令用于显示所述虚拟数字人的虚拟展示内容。

如上所述，待输出的交互信息可以是由使用者输入的，可以是文本信息，也可以是语音信息。待输出的交互信息是指使用者配置的虚拟数字人在与用户交互过程中需要输出的信息。例如，待输出的交互信息可以是对话模型中使用者配置的第二对话信息，还可以是多轮对话模型中的语料信息等。

其中，用户是指与虚拟数字人进行交互的对象，而使用者是指向用户提供虚拟数字人的对象。在一个具体的例子中，使用者可以是银行的工作人员，其提供的虚拟数字人为银行的虚拟客服，用户则为与虚拟客服进行交互的消费者。

在步骤S202的具体实施中，可以待输出的交互信息的文本驱动指令。具体而言，可以对待输出的交互信息对应的文本内容进行分词处理，以得到多个文本，其中，文本可以是文本内容中能够表征特定含义的最小单元的字词，所述最小单元的字词可以是单个的字，也可以是能够表征特定含义的词组、成语等。本发明实施例对于最小单元的字词的字数并不进行限制，例如，可以是“你好”、“我”、“谢谢”等等，但并不限于此。

其中，如果待输出的交互信息为文本信息，则对应的文本内容即为其本身；如果待输出的交互信息为语音信息，则对应的文本内容是对待输出的交互信息进行语音识别后得到的。

进一步地，可以根据多个文本，生成多个文本驱动指令。需要说明的是，文本驱动指令与文本是一一对应的。也即，针对每个文本，可以生成该文本对应的文本驱动指令，其中，每个文本对应的文本驱动指令中包含该文本。更具体地，文本驱动指令可以仅包括文本。

在步骤S203的具体实施中，可以根据所述文本驱动指令中文本的语义、使用者针对所述文本输入的动作标识以及使用者针对所述文本输入的展示内容中的一项或多项，生成所述文本驱动指令对应的动作驱动指令和/或展示驱动指令。

第一方面，可以获取使用者从待输出的交互信息对应的文本内容中选择的第一文本，然后获取使用者针对第一文本设置的动作标识，然后根据使用者针对第一文本设置的动作标识生成第一文本驱动指令对应的动作驱动指令。其中，第一文本驱动指令为包含第一文本的文本驱动指令，也即，是指第一文本对应的文本驱动指令。采用这样的方案，用户可以自行配置虚拟数字人的肢体动作，实现肢体动作的个性化设置。

第二方面，还可以获取使用者在待输出的交互信息对应的文本内容中选择的第二文本，然后获取使用者针对第二文本输入的展示内容；进一步地，根据使用者针对第二文本输入的展示内容生成第二文本驱动指令对应的展示驱动指令，其中，第二文本驱动指令为包含所述第二文本的文本驱动指令。其中，展示内容是指需要展示内容。

进一步地，可以根据所述展示驱动指令，生成所述展示驱动指令对应的动作驱动指令。例如，如果展示驱动指令为图片、文字、表格等，则根据展示驱动指令生成的动作驱动指令可以是引导动作对应的动作驱动指令。换言之，对应的动作为引导动作。

第三方面，可以根据文本驱动指令中文本的语义，生成文本驱动指令对应的动作驱动指令。更具体地，对于除第一文本驱动指令和第二文本驱动指令以外的其他文本驱动指令，可以根据其中文本的语义，生成对应的动作驱动指令。

其中，动作驱动指令包括动作标识，所述动作标识可以是字符串等，本实施例对于动作标识的表现形式并不进行限制。换言之，动作标识可以是根据文本的语义确定的。

更具体地，相同语义的文本确定得到的为同一个动作标识，语义不同的文本确定得到的动作标识也不同。也即，动作标识与语义能够具有对应关系。动作标识不同，动作驱动指令对应的动作的含义也不同，也即，动作标识相同，则动作驱动指令对应的动作的含义也相同。因此，动作标识能够指示语义，也能够指示动作的含义。

需要说明的是，动作驱动指令、文本驱动指令和展示驱动指令之间是对齐的，也即，文本驱动指令可以具有与其对应的动作驱动指令和展示驱动指令。

由上，可以生成可进行多模态交互的虚拟数字人。

在交互过程中，将文本驱动指令、动作驱动指令和展示驱动指令分别输入至对应的交互能力模型，即可得到虚拟数字人输出的多模态交互内容。这里的交互过程可以是使用者配置驱动指令后进行预览的过程，也可以是生成虚拟数字人后实际与用户进行交互的过程。

具体而言，在交互过程中，可以依次将各个文本驱动指令发送至基于文本生成语音动画模型，以输出音频信息和面部动画数据。

进一步地，可以获取反馈信息，反馈信息可以用于指示正在输出的音频信息对应的文本驱动指令。

进一步地，可以判断下一个文本驱动指令是否具有对应的动作驱动指令，如果是，则可以将动作驱动指令发送至动作动画生成模型，以输出对应的动作动画数据。其中，动作动画生成模型获取到动作驱动指令后，可以根据动作驱动指令中的动作标识从预设的动作数据库中选择确定对应的动作动画数据。其中，预设的动作数据库包括多个动作动画数据，每个动作动画数据具有标签，所述标签用于指示动作动画数据对应的动作的含义。更具体地，可以根据动作驱动指令中的动作标识，在动作数据库中进行查询，以得到动作驱动指令对应的动作动画数据。其中，所述预设的动作数据库包括多个动作动画数据，每个动作动画数据具有标签，所述标签用于指示所述动作动画数据对应的动作的含义。

进一步地，还可以判断下一个文本驱动指令是否具有对应的展示驱动指令，如果是，则可以将展示驱动指令发送至虚拟展示模型，以输出对应的展示虚拟信息，虚拟展示信息可以是使用者输入的展示内容，例如，可以是图片、文字、表格和视频等等，但并不限于此。

进一步地，可以对动作动画数据、面部动画数据和虚拟展示信息发送至引擎模型，以进行解算和渲染，以得到虚拟数字人的多模态交互内容。例如，可以将处理后的动画数据输入实时引擎(例如，UE4、Unity等)进行解算和渲染，以得到虚拟数字人的视频。更具体地，可以根据预设的视频参数进行解算和渲染，以得到对应的视频。其中，视频参数可以是使用者预先设置的，所述视频参数可以包括以下一项或多项：视频分辨率、视频帧率、视频格式等，但并不限于此。其中，虚拟数字人的视频可以是二维的，也可以是三维的。需要说明的是，多模态交互内容可以是虚拟数字人在实际交互过程中产生的，也可以是使用者在生成虚拟数字人的过程中预览产生的。

继续参考图1，在步骤S103的具体实施中，可以生成虚拟数字人的应用。具体而言，所述虚拟数字人的应用可以是虚拟数字人的标准化产品，例如，Android应用程序、iOS应用程序、网页应用程序、小程序应用和Windows应用程序等。虚拟数字人的应用还可以是虚拟数字人的接口服务，例如，Android SDK服务、iOS SDK服务JS SDK、小程序SDK和API接口等。

由上，使用者可以得到用户可用的虚拟数字人应用，用户可以使用该应用与虚拟数字人进行多模态的交互，从而给用户提供内容讲解、智能互动等服务。

具体而言，用户通过语音、文字、图像等多模态的信息输入，虚拟数字人可以输出多模态的交互信息，也即，虚拟数字人可以像真人一样通过语音、动作、表情等和用户进行交互，还可以结合丰富的展现形式，对图文、视频等进行多模态输出展示。

与用户的交互过程中，可以获取用户输入的输入信息，所述输入信息可以是输入文本，进一步地，可以将用户输入的输入信息对话模型，对话模型可以包括：自然语言理解(Natural Language Understanding，NLU)模块、对话管理(Dialog Management)模块和自然语言生成(Natural Language Generation，NLU)模块等。如输入信息是输入语音，可以先通过自动语音识别(Automatic Speech Recognition，简称ASR)技术将输入语音转化为输入文本后，再输入至对话模型。

其中，自然语言理解模块用于将用户输入的输入信息转化为机器可理解的、结构化的、完整的语义表示，自然语言理解模块可以对用户输入的输入信息进行分析、词性标注、句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索和文字校对等。

对话管理模块用于根据知识图谱和语料库进行对话的管理，主要控制人机对话的过程，根据对话历史信息，决定此刻对用户的反应。知识图谱为语义网的知识库，是一种对事实的结构化表征，它由实体，关系和语义描述组成是用于支持NLP模块、DM模块和NLU模块的底层技术。语料库是用于储存基础问答和多轮对话的语料，通过训练这些语料，可输出支持基础问答和多轮对话的智能对话模型。DM模块可以支持的对话类型主要包括闲聊、问答管理、任务型对话。其中，对话管理的主要任务包括，对话状态维护，生成系统决策等。

自然语言生成模块用于让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。

具体而言，对于用户输入的输入信息，首先通过自然语言理解模块理解输入用户输入的输入信息，以得到用户输入信息的语义信息，并将用户输入信息的语义信息发送给对话管理模块，对话管理模块可以基于预先设置的语料信息和知识图谱等信息决策出需要输出的内容(也即，待输出的交互信息)，并将决策出的内容传输至自然语言生成模块，以得到自然语言生成模块输出的文本驱动指令，文本驱动指令中包括自然语言形式的文本，所述文本为待输出的交互文本。进一步地，还可以调用与文本驱动指令对应的动作驱动指令和展示驱动指令。更进一步地，分别将文本驱动指令输入至基于文本生成语音动画模型，将动作驱动指令输入至动作动画生成模型，以及将展示驱动指令输入至虚拟展示模型，以得到虚拟数字人输出的多模态交互内容。具体内容可以参照上文的具体描述，在此不再赘述。

参照图3，图3是本发明实施例中一种多模态交互的虚拟数字人的生成装置，图3示出的装置可以包括：

初始获取模块31，用于获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；

第一生成模块32，用于获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；

第二生成模块33，用于生成所述虚拟数字人的应用程序和/或服务接口。

在具体实施中，上述虚拟数字人的视频生成装置可以对应于终端内具有数据处理功能的芯片，或者对应于终端内具有数据处理功能的芯片模组，或者对应于终端。

关于图3示出的多模态交互的虚拟数字人的生成装置的工作原理、工作方式和有益效果等更多内容，可以参照上文关于多模态交互的虚拟数字人的生成方法的相关描述，在此不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的多模态交互的虚拟数字人的生成方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种多模态交互的虚拟数字人的生成方法，其特征在于，所述方法包括：获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；

生成所述虚拟数字人的应用程序和/或服务接口。

2.根据权利要求1所述的多模态交互的虚拟数字人的生成方法，其特征在于，获取初始虚拟数字人包括：

获取所述使用者输入的对象信息，所述对象信息用于描述所述使用者期望的虚拟数字人的虚拟形象；

根据所述对象信息生成所述初始虚拟数字人。

3.根据权利要求2所述的多模态交互的虚拟数字人的生成方法，其特征在于，根据所述对象信息生成所述初始虚拟数字人包括：

根据所述对象信息，确定所述初始虚拟数字人的特征信息；

根据所述初始虚拟数字人的特征信息，从预设的虚拟数字人库中选择初步匹配的预设虚拟数字人，其中，所述初步匹配的预设虚拟数字人是指所述虚拟数字人库中特征信息与所述初始虚拟数字人的特征信息差异最小的预设虚拟数字人；

根据所述初始匹配的预设虚拟数字人的特征信息和所述初始虚拟数字人的特征信息之间的差异，对所述初步匹配的虚拟数字人进行迭代地调整；

当所述预设虚拟数字人的特征信息和所述初始虚拟数字人的特征信息之间的差异小于预设阈值时，则得到所述初始虚拟数字人。

4.根据权利要求1所述的多模态交互的虚拟数字人的生成方法，其特征在于，获取交互能力模型包括：

获取使用者输入的训练语音；

根据所述训练语音对预先构建的标准语音生成模型进行训练，以得到目标语音生成模型，其中，所述目标语音生成模型输出的语音具有使用者的音色；

其中，所述标准语音生成模型包括以下一项或多项：基于文本生成语音模型、语音转换模型。

5.根据权利要求1所述的多模态交互的虚拟数字人的生成方法，其特征在于，对话模型包括单轮对话模型，获取交互能力模型包括：

获取使用者输入的对话样本；

根据所述对话样本训练得到单轮对话模型。

6.根据权利要求1所述的多模态交互的虚拟数字人的生成方法，其特征在于，所述对话模型包括多轮对话模型，获取交互能力模型包括：

调用多轮对话引擎，并获取使用者在所述多轮对话引擎中输入的多轮对话的配置信息，所述配置信息包括：触发指令、对话流程和语料信息；

根据所述配置信息，构建得到所述多轮对话模型。

7.根据权利要求1所述的多模态交互的虚拟数字人的生成方法，其特征在于，生成所述虚拟数字人的应用程序和/或服务接口之前，所述方法还包括：

获取待输出的交互信息；

根据所述待输出的交互信息，确定文本驱动指令，所述文本驱动指令包括文本；

根据所述文本驱动指令中文本的语义、使用者针对所述文本输入的动作标识以及使用者针对所述文本输入的展示内容中的一项或多项，生成所述文本驱动指令对应的动作驱动指令，根据使用者针对所述文本输入的展示内容生成展示驱动指令；

8.一种多模态交互的虚拟数字人的生成装置，其特征在于，所述装置包括：

初始获取模块，用于获取初始虚拟数字人，所述初始虚拟数字人具有使用者期望的虚拟形象；

第一生成模块，用于获取交互能力模型，并为所述初始虚拟数字人配置所述交互能力模型，以得到可进行多模态交互的虚拟数字人，所述交互能力模型包括以下一项或多项：语音生成模型、动画生成模型和对话模型；

第二生成模块，用于生成所述虚拟数字人的应用程序和/或服务接口。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至7中任一项所述的多模态交互的虚拟数字人的生成方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至7中任一项所述的多模态交互的虚拟数字人的生成方法的步骤。