CN117710543A

CN117710543A - 基于数字人的视频生成与交互方法、设备、存储介质与程序产品

Info

Publication number: CN117710543A
Application number: CN202410157869.0A
Authority: CN
Inventors: 俞洪蕴; 王云峰; 孙泽锋; 陈志文; 宋亚运; 吕承飞
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-03-15

Abstract

本申请实施例提供一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品，在本申请实施例中，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

Description

基于数字人的视频生成与交互方法、设备、存储介质与程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品。

背景技术

随着人工智能和大模型技术的快速进步，出现了数字人技术。数字人是指具有数字化外形的虚拟人物，具有形象能力、感知能力、表达能力和互动能力，被广泛应用在直播、短视频以及在线客服等各种领域中，用以增强服务质量和用户体验。

然而，传统数字人多以单一、标准化的音色为主进行声音和动态形象的驱动，逼真度较差，降低了用户的沉浸感和互动体验的真实性。因此，亟需一种新的数字人驱动方案。

发明内容

本申请的多个方面提供一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品，用以实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验。

本申请实施例提供一种基于数字人的视频生成方法，包括：接收用于在目标场景中驱动数字人模型的目标文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；根据目标用户的声音特征和目标情感标签，对目标文本信息进行语音转换，以得到与目标用户适配的目标语音信号；根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

本申请实施例还提供一种基于数字人的交互方法，包括：接收在目标场景中向数字人模型发起的问题信息，根据问题信息生成回复文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；根据目标用户的声音特征和目标情感标签，对回复文本信息进行语音转换，以得到与目标用户适配的目标语音信号；根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

本申请实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

在本申请实施例中，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于数字人的视频生成方法的流程图；

图2为本申请实施例提供的示例性的目标文本转语音模型的结构示意图；

图3为本申请实施例提供的示例性的目标语音转表情模型的结构示意图；

图4为本申请实施例提供的示例性的渲染过程图；

图5为本申请实施例提供的示例性的训练初始文本转语音模型的训练原理图；

图6为本申请实施例提供的示例性的训练通用语音转表情模型的训练原理图；

图7为本申请实施例提供的示例性的训练3D高斯模型的训练原理图；

图8为本申请实施例提供的示例性的端云交互的训练原理图；

图9为本申请实施例提供的示例性的端云交互的推理原理图；

图10为本申请实施例提供的一种基于数字人的交互方法的流程图；

图11为本申请实施例提供的示例性的端云交互的应用场景图；

图12为本申请实施例提供的一种基于数字人的视频生成装置的结构示意图；

图13为本申请实施例提供的一种基于数字人的交互装置的结构示意图；

图14为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。另外，本申请涉及的各种模型（包括但不限于语言模型或大模型）是符合相关法律和标准规定的。

为此，本申请实施例提供一种基于数字人的视频生成与交互方法、设备、存储介质与程序产品，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种基于数字人的视频生成方法的流程图。参见图1，该方法可以包括以下步骤：

101、接收用于在目标场景中驱动数字人模型的目标文本信息，目标场景对应目标情感标签，数字人模型对应目标用户。

在本实施例中，目标场景可以是任意的视频场景，例如包括但不限于：直播场景、在线客服场景、短视频场景等，这些场景具有不同的情感表达，预先将不同的情感表达进行了分类，得到了不同的情感标签，情感标签例如包括但不限于：正向情感、负向情感。正向情感是人对正向价值的增加或负向价值的减少所产生的情感；负向情感是人对正向价值的减少或负向价值的增加所产生的情感。当然，情感标签也可以是表达更细粒度的情感，情感标签例如包括但不限于：正能量、快乐、幸福、信任、感激、庆幸、抑郁、悲伤、失落、痛苦、鄙视、仇恨、嫉妒等。

在本实施例中，数字人模型经过渲染可以得到目标用户的虚拟化形象（也可以称作为虚拟人物），数字人模型可以是任意对目标用户进行三维重建得到的3D（三维）模型，可以理解的是，数字人模型是目标用户的3D模型，3D模型由很多顶点(Vertex)组成，顶点之间形成三角形或四边形，多个三角形或四边形形成立体的3D模型。优先的，数字人模型为3D高斯模型。

102、根据目标用户的声音特征和目标情感标签，对目标文本信息进行语音转换，以得到与目标用户适配的目标语音信号。

在本实施例中，利用TTS（Text To Speech，文本转语音）技术将目标文本信息可以转化成与目标用户适配的目标语音信号。在TTS过程中融合目标用户的声音特征和目标情感标签，模拟目标用户真人的说话语调、说话节奏和情感，进而使得目标语音信号非常接近真人发声。其中，声音特征例如包括但不限于：音调、响度、音色、节奏和发音习惯。

实际应用中，可以训练一个TTS模型，该TTS模型能够反映目标用户的声音特征，所转换的语音信号非常接近目标用户真人发声，在此将所训练的TTS模型称作为目标文本转语音模型。基于上述，步骤102的实现方式为：将目标文本信息和目标情感标签输入目标文本转语音模型，对目标文本信息进行语音转换，以得到目标语音信号。

本实施例对TTS模型的模型结构不做限制。可选的，参见图2，目标文本转语音模型包括：文本特征编码网络和语音特征解码网络。基于此，步骤102的实现方式为将目标文本信息和目标情感标签输入文本特征编码网络，得到目标文本特征；将目标文本特征输入语音特征解码网络，得到目标语音信号。

在本实施例中，文本特征编码网络具有文本信息进行编码得到文本特征的功能，文本特征编码网络可以是任意结构的编码（encode）网络，对此不做限制。例如，参见图2，文本特征编码网络可以包括：文本特征学习模块、目标情感标签对应的向量化模块和文本编码器。又例如，参见图2，文本特征编码网络可以包括：文本特征学习模块、情感标签对应的向量化模块、其他向量化模块和文本编码器。其他向量化模块包括以下一个或多个：语言类型对应的向量化模块、音素信息对应的向量化模块、用户的标识信息对应的向量化模块。可以理解的是，向量化模块越多，文本特征编码网络的精度越高，网络性能越好。

在本实施例中，文本特征学习模块可以是任意结构的特征提取模块，用于从文本信息中学习文本信息的特征（也即文本特征）。

在本实施例中，向量化模块可以是任意结构的具有向量化处理功能的网络模块。

在本实施例中，文本编码器可以是任意结构的编码器（encoder）。

作为一种示例，文本特征编码网络将目标文本信息和目标情感标签输入文本特征编码网络，得到目标文本特征时，具体用于：将目标文本信息输入文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；将目标情感标签输入情感标签对应的向量化模块进行向量化处理，以得到情感特征；将初始文本特征、情感特征输入文本编码器进行特征编码，以得到目标文本特征。

作为另一种示例，文本特征编码网络将目标文本信息和目标情感标签输入文本特征编码网络，得到目标文本特征时，具体用于：将目标文本信息、目标情感标签以及其它模型入参输入文本特征编码网络进行文本特征融合编码，以得到目标文本特征。

可选的，文本特征编码网络包括：文本特征学习模块、向量化模块和文本编码器；将目标文本信息、目标情感标签以及其它模型入参输入文本特征编码网络进行文本特征融合编码，以得到目标文本特征，包括：将目标文本信息输入文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；将目标情感标签和其它模型入参输入对应的向量化模块进行向量化处理，以得到情感特征和其它模型入参的特征；将初始文本特征、情感特征和其它模型入参的特征输入文本编码器进行特征编码，以得到目标文本特征。

可选的，可以根据目标文本信息，确定其它模型入参，其它模型入参至少包括目标文本信息的语言类型信息、目标文本信息包含的目标音素信息和/或目标用户的标识信息。

其中，语言类型信息例如包括但不限于：中文、英文、日文等等。

其中，音素（phoneme）信息，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

其中，用户的标识信息（ID）会对应所属的音色类别，用来区分不同的用户，音色类别例如包括但不限于：少年男孩音色、中年人的音色，女生音色等。

在本实施例中，语音特征解码网络具有将文本特征解码为语音信号的功能，语音特征解码网络可以是任意结构的解码（decode）网络。进一步可选的，参见图2，为了提高TTS性能，语音特征解码网络包括：文本特征投影模块、语音长度预测器和语音解码器。

在本实施例中，文本特征投影模块具有将文本特征投影（project）成语音特征的功能，文本特征投影模块可以是任意结构的特征投影模块。具体而言，特征投影模块通过定义的投影函数能够学习输入特征到输出特征的映射关系，可以将输入特征投影到不同空间，并在该空间执行学习以将输入特征映射到输出特征。可选的，文本特征投影模块可以是神经投影网络（Neural Projection Networks）。在本实施例中，文本特征投影模块首先将输入的目标文本特征投影到相同语义的语音特征空间，在语音特征空间执行学习以将目标文本特征映射到目标语音特征。

在本实施例中，语音长度预测器具有语音时长预测功能，可以是任意结构的网络模块。语音长度预测器能够预测语音信号的语音时长，并产生具有该语音时长分布的随机的噪声信号。

在本实施例中，语音解码器可以是任意结构的解码（decode）模块，对此不做限制。在本申请的各个实施例中，解码（decode）模块也即decoder,编码（encode）模块也即encoder。

基于上述，利用语音特征解码网络对目标文本特征进行语音解码操作，以得到目标语音信号的实现方式为：将目标文本特征输入文本特征投影模块，针对目标文本特征在同语义的语音特征空间进行语音特征的学习，以得到目标语音特征；将目标文本特征输入语音长度预测器，针对目标文本特征进行语音长度的预测，以得到目标噪声信号；将目标语音特征和目标噪声信号输入语音解码器，利用目标噪声信号的长度对目标语音特征进行解码，以得到目标语音信号。

103、根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列。

在本实施例中，表情系数是控制数字人模型的微笑、皱眉、眨眼、说话等表情动作的系数。可以建立目标用户的声音特征和表情系数之间的映射关系，并利用映射关系将目标语音信号对应的声音特征映射为与目标语音信号适配的目标表情系数序列，目标表情系数序列中包括多个表情系数。

进一步可选的，可以训练一个能够将声音特征映射为表情系数的目标语音转表情模型。目标语音转表情模型用于反映目标用户的声音特征和表情系数之间的映射关系。基于此，103步骤的实现方式为：将目标语音信号输入目标语音转表情模型，对目标语音信号进行表情系数的映射，以得到目标表情系数序列。

在本实施例中，对目标语音转表情模型的模型结构不做限制。进一步可选的，参见图3，目标语音转表情模型可以包括：语音特征编码网络、表情特征解码网络和线性化网络。

基于上述，步骤103的实现方式为：将目标语音信号输入语音特征编码网络，对目标语音信号进行语音特征提取，以得到目标潜在语音特征；将目标潜在语音特征输入表情特征解码网络进行表情解码，以得到目标顶点偏移序列；根据基准顶点序列与目标顶点偏移序列，生成与目标语音信号适配的目标顶点序列，基准顶点序列是数字人模型在无表情状态下对应的顶点序列；利用线性化网络对目标顶点序列进行线性化处理，以得到目标表情系数序列。

在本实施例中，语音特征编码网络可以是任意的提取语音特征的编码网络，例如为wav2vec(音频向量化)模型、wav2vec2(音频向量化)模型等。参见图3，当目标语音信号输入语音特征编码网络后，语音特征编码网络输出反映表情的状态的目标潜在语音特征。

在本实施例中，表情特征解码网络可以是任意具有表情解码功能的解码网络。参见图3，当目标潜在语音特征输入表情特征解码网络后，输出目标顶点偏移序列，目标顶点偏移序列包括多个目标顶点的偏移信息。

可以理解的是，数字人模型由很多顶点组成，目标顶点是很多顶点中的部分或全部。针对数字人模型有对应的基准顶点序列，基准顶点序列包括多个基准顶点的位置坐标，基准顶点是很多顶点中的部分或全部，基准顶点序列是数字人模型在无表情状态下对应的顶点序列，其中，无表情状态按需灵活设置。

在本实施例中，目标顶点的偏移信息是指目标顶点的位置坐标相对于对应的基准顶点的位置坐标的偏移，目标顶点的偏移信息是因表情动作而产生的偏移，基于此，目标顶点偏移序列是与表情动作相关的顶点偏移序列。

在本实施例中，参见图3，根据基准顶点序列与目标顶点偏移序列，生成与目标语音信号适配的目标顶点序列。例如，将目标顶点的偏移信息和对应的基准顶点的位置坐标相加，得到目标顶点的位置坐标，多个目标顶点的位置坐标组成目标顶点序列。又例如，将目标顶点的偏移信息和对应的基准顶点的位置坐标相减，得到目标顶点的位置坐标，多个目标顶点的位置坐标组成目标顶点序列。又例如，将目标顶点的偏移信息和对应的基准顶点的位置坐标相加，并将相加结果和一个常系数相乘，得到目标顶点的位置坐标，多个目标顶点的位置坐标组成目标顶点序列，对此不做限制。

在本实施例中，线性化网络是具有线性化处理功能的网络模块，参见图3，将目标顶点序列输入线性化网络，线性化网络输出对目标顶点序列进行线性化处理得到的目标表情系数序列，目标表情系数序列中包括多个表情系数。

104、根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

在本实施例中，由于目标表情系数序列中的表情系数本质与数字人模型中的顶点的位置坐标相关，在对数字人模型进行渲染时，利用目标表情系数序列中表情系数调整数字人模型中的顶点的位置坐标，也即对数字人模型进行变形处理，使得数字人模型发呈现为相应表情动作，基于顶点颜色、纹理信息等渲染参数对变形后的数字人模型进行渲染，得到渲染后的数字人模型，通过视角变换，将渲染后的数字人模型转换为动作图像序列，动作图像序列包括多个动作图像，动作图像带有表情信息；将动作图像序列与目标语音信号进行合并，以得到数字人模型的视频数据。

进一步可选的，数字人模型为3D高斯模型，步骤104的实现方式为：利用目标表情系数序列对初始空间中的3D高斯模型进行变形处理，得到规范空间中的3D高斯模型；利用骨骼变换系数对规范空间中的3D高斯模型进行线性蒙皮处理，得到变形空间中的3D高斯模型；采用高斯溅射（Gaussian Splatting）方式将变形空间中的3D高斯模型转换成待渲染图像序列；对待渲染图像序列进行渲染，得到动作图像序列；将动作图像序列与目标语音信号进行合并，以得到数字人模型的视频数据。

具体而言，3D高斯模型包括点云数据，点云数据（point cloud data）包括多个顶点的顶点数据，顶点数据例如包括但不限于：顶点位置、大小、旋转、透明度、颜色特征。使3D高斯模型产生变形的变形系数例如包括但不限于：表情系数、形状系数、头部运动位置、嘴部运动位置、骨骼变换系数（也可称作为骨骼变换矩阵）。

在本实施例中，初始空间、规范空间、变形空间是不同坐标系下的空间，通过坐标变换可以在不同空间中转换。

在本实施例中，参见图4，利用目标表情系数序列调整初始空间中的3D高斯模型中相应顶点的位置坐标，也即对初始空间中的3D高斯模型进行变形处理，可以将初始空间中的3D高斯模型转换到规范空间中的3D高斯模型。利用骨骼变换系数对规范空间中的3D高斯模型进行线性蒙皮处理，可以将规范空间中的3D高斯模型转换到变形空间中的3D高斯模型；通过高斯溅射方式可以将三维的变形空间中的3D高斯模型转换成二维的待渲染图像序列，基于颜色、纹理信息等渲染参数对二维的待渲染图像序列进行渲染，得到动作图像序列。值得注意的是，图4中动作图像中的人脸为卡通人脸仅仅是示意，实际为真人人脸。

本申请实施例提供的技术方案，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

下面对目标文本转语音模型的训练过程进行说明。

在实施例中，在目标文本转语音模型训练时，可以利用第一通用样本数据对初始文本转语音模型进行通用模型训练，以得到通用文本转语音模型；利用第一个性化样本数据对通用文本转语音模型进行个性化模型训练，以得到目标文本转语音模型，第一个性化样本数据包括目标用户的个性化样本语音信号、个性化样本文本信息和个性化样本情感标签。

具体而言，基于第一通用样本数据进行模型训练，可以提高目标文本转语音模型的泛化性能。基于第一个性化样本数据进行模型训练可以提高目标文本转语音模型的模型精度。

在本实施例中，初始文本转语音模型可以是任意结构的TTS模型，对此不做限制。

在本实施例中，第一通用样本数据包括多个第一样本用户对应的通用样本语音信号、通用样本文本信息和通用样本情感标签，但并不限于此。例如，第一通用样本数据还可以包括第一样本用户的通用样本文本信息对应的语言类型、第一样本用户的通用样本文本信息包括的音素信息、第一样本用户的标识信息。

在本实施例中，第一样本用户是参与模型训练的任意用户，第一样本用户的通用样本语音信号也即参与模型训练时第一样本用户的语音信号，第一样本用户的通用样本文本信息也即参与模型训练时第一样本用户的文本信息，第一样本用户的通用样本情感标签也即与模型训练时对应的场景的情感标签。

在本实施例中，利用第一通用样本数据对初始文本转语音模型进行通用模型训练，以得到通用文本转语音模型，包括：对通用样本语音信号进行滤波，以得到通用样本频谱特征，并对通用样本频谱特征进行语音特征提取，以得到通用样本语音特征；将通用样本文本信息和通用样本情感标签输入初始文本转语音模型中的初始文本特征编码网络，得到通用样本文本特征；将通用样本文本特征和通用样本语音特征输入初始文本转语音模型中的初始语音特征解码网络进行语音解码操作，以得到转换后语音信号；以及在上述模型训练过程中，计算至少一种损失函数，并在至少一种损失函数满足设定的结束条件时结束通用模型训练过程。

具体而言，参见图5，第一样本用户的通用样本语音信号经过滤波和语音特征提取，以得到通用样本语音特征。

参见图5，作为一种示例，第一样本用户的通用样本文本信息、通用样本情感标签输入初始文本转语音模型中的初始文本特征编码网络，得到通用样本文本特征。

可选的，若初始文本特征编码网络包括文本特征学习模块、情感标签对应的向量化模块、文本编码器，则将通用样本文本信息输入文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；将通用样本情感标签输入情感标签对应的向量化模块进行向量化处理，以得到情感特征；将初始文本特征、情感特征输入文本编码器进行特征编码，以得到通用样本文本特征。

参见图5，作为另一种示例，将第一样本用户的通用样本文本信息、通用样本情感标签和其他模型输入数据输入初始文本转语音模型中的初始文本特征编码网络，得到通用样本文本特征。其他模型输入数据例如包括以下至少一个：第一样本用户的通用样本文本信息对应的语言类型、第一样本用户的通用样本文本信息包括的音素信息、第一样本用户的标识信息。

可选的，文本特征编码网络包括：文本特征学习模块、向量化模块和文本编码器；将第一样本用户的通用样本文本信息、通用样本情感标签和其他模型输入数据输入初始文本转语音模型中的初始文本特征编码网络，得到通用样本文本特征，包括：将通用样本文本信息输入文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；将通用样本情感标签和其它模型入参输入对应的向量化模块进行向量化处理，以得到情感特征和其它模型入参的特征；将初始文本特征、情感特征和其它模型入参的特征输入文本编码器进行特征编码，以得到目标文本特征。

参见图5，将通用样本文本特征和通用样本语音特征输入初始文本转语音模型中的初始语音特征解码网络进行语音解码操作，以得到转换后语音信号。进一步可选的，参见图5，为了提高TTS性能，初始语音特征解码网络包括：文本特征投影模块、语音长度预测器和语音解码器。基于上述，将通用样本文本特征和通用样本语音特征输入初始文本转语音模型中的初始语音特征解码网络进行语音解码操作，以得到转换后语音信号的实现方式为：将通用样本文本特征输入文本特征投影模块，针对通用样本文本特征在同语义的语音特征空间进行语音特征的学习，以得到中间样本语音特征；利用单调对齐搜索(MonotonicAlignment Search，MAS)算法对通用样本语音特征和中间样本语音特征进行处理，得到单调对齐关系，单调对齐关系反映通用样本语音特征和中间样本语音特征匹配的特征点对；将通用样本文本特征和单调对齐关系输入语音长度预测器进行预测处理，得到预测的语音时长和满足语音时长分布的样本噪声信号；将通用样本语音特征和样本噪声信号输入语音解码器，得到转换后语音信号。

在本实施例中，在模型训练过程中，计算至少一种损失函数，并在至少一种损失函数满足设定的结束条件时结束通用模型训练过程，至少一种损失函数例如包括但不限于：

（1）通用样本语音特征与在初始语音特征解码网络中对通用样本文本特征进行特征投影得到的中间样本语音特征之间的KL散度损失函数。

其中，KL散度（Kullback-Leibler Divergence，简称KL散度）是一种度量两个概率分布之间差异的指标，也被称为相对熵（Relative Entropy）。KL散度被广泛应用于信息论、统计学、机器学习和数据科学等领域。

（2）通用样本语音信号与转换后语音信号之间的长度损失函数。

具体而言，长度损失函数反映通用样本语音信号的语音时长和转换后语音信号的语音时长之间的差异信息，长度损失函数例如包括但不限于：负对数似然损失函数(Negative Log Likelihood Loss，NLL Loss)、交叉熵损失函数、重构误差损失函数(Reconstruction Loss)等等。

（3）通用样本语音信号与转换后语音信号之间的重建损失函数。

具体而言，重建损失函数反映通用样本语音信号的语音特征和转换后语音信号的语音特征之间的差异信息，重建损失函数例如包括但不限于：负对数似然损失函数、交叉熵损失函数、重构误差损失函数等等。

（4）通用样本频谱特征与转换后语音信号经过滤波得到的频谱特征之间的损失函数。其中，损失函数例如包括但不限于：负对数似然损失函数、交叉熵损失函数等等。

（5）通用样本语音信号与判别器从通用样本语音信号和转换后语音信号中选出的真实语音信号之间的损失函数。

具体而言，判别器可以是生成对抗网络（Generative Adversarial Network，GAN)中的判别器。损失函数表征判别网络输出的判别结果和通用样本语音信号之间的差异信息，判别结果为判别通用样本语音信号为真实语音信号或判别转换后语音信号为真实语音信号。损失函数例如包括但不限于：负对数似然损失函数、交叉熵损失函数、最小二乘损失函数等等。

在本实施例中，对设定的结束条件不做限制。例如，对上述至少一种损失函数进行加权求和、求均值、累加等各种运算，得到总损失函数，若总损失函数小于或等于预设的损失值，认为满足设定的结束条件，若总损失函数大于预设的损失值，认为不满足设定的结束条件。又例如，上述至少一种损失函数中每种损失函数分别小于或等于各自对应的预设的损失值，认为满足设定的结束条件；若有一个损失函数大于对应的预设的损失值，认为不满足设定的结束条件。又例如，上述至少一种损失函数中每种损失函数分别小于或等于各自对应的预设的损失值，且总损失函数小于或等于预设的损失值，认为满足设定的结束条件；若有一个损失函数大于对应的预设的损失值，或总损失函数大于预设的损失值认为不满足设定的结束条件。

在本实施例中，利用第一个性化样本数据对通用文本转语音模型进行个性化模型训练，以得到目标文本转语音模型，第一个性化样本数据包括目标用户的个性化样本语音信号、个性化样本文本信息和个性化样本情感标签。

在本实施例中，对初始文本转语音模型进行通用模型训练的过程与对通用文本转语音模型进行个性化模型训练的过程相同，不同的仅仅是模型输入数据，在此，不再赘述。

在本实施例中，第一个性化样本数据包括目标用户的个性化样本语音信号、个性化样本文本信息和个性化样本情感标签，但并不限于此。例如，第一个性化样本数据还可以包括目标用户的个性化样本文本信息对应的语言类型、目标用户的个性化样本文本信息对应包括的音素信息、目标用户的标识信息。

在本实施例中，目标用户的个性化样本语音信号也即参与模型训练时目标用户的语音信号，目标用户的个性化样本文本信息也即参与模型训练时目标用户的文本信息，目标用户的个性化样本情感标签也即与模型训练时对应的场景的情感标签。

下面对目标语音转表情模型的训练过程进行说明。

在本实施例中，在训练目标语音转表情模型时，利用第二通用样本数据对初始语音转表情模型进行通用模型训练，以得到通用语音转表情模型，第二通用样本数据包括多个第二样本用户对应的通用样本语音信号和通用样本表情系数序列；利用第二个性化样本数据对通用语音转表情模型进行个性化模型训练，以到目标语音转表情模型，第二个性化样本数据包括目标用户的个性化样本语音信号和个性化样本表情系数序列。

具体而言，基于第二通用样本数据进行模型训练，可以提高目标语音转表情模型的泛化性能。基于第二个性化样本数据进行模型训练可以提高目标语音转表情模型的模型精度。

在本实施例中，第二样本用户是参与模型训练的任意用户，第二样本用户的通用样本语音信号也即参与模型训练时第二样本用户的语音信号，第二样本用户的通用样本表情系数序列也即参与模型训练时第二样本用户的表情系数序列。目标用户的个性化样本语音信号也即参与模型训练时目标用户的语音信号，个性化样本表情系数序列也即参与模型训练时目标用户的表情系数序列。

在本实施例中，初始语音转表情模型的网络结构不做限制。对初始语音转表情模型进行通用模型训练的过程与对通用语音转表情模型进行个性化模型训练的过程相同，不同的仅仅是模型输入数据，在此介绍对通用语音转表情模型进行个性化模型训练，对初始语音转表情模型进行通用模型训练的过程可以参照对通用语音转表情模型进行个性化模型训练的训练过程。

基于上述，参见图6，利用第二个性化样本数据对通用语音转表情模型进行个性化模型训练，以到目标语音转表情模型的实现方式为：将个性化样本语音信号输入通用语音转表情模型中的语音特征编码网络，对个性化样本语音信号进行语音特征提取，以得到第一潜在语音特征；将第一潜在语音特征输入通用语音转表情模型中的表情特征解码网络进行表情解码，以得到第一顶点偏移序列；根据基准顶点序列与第一顶点偏移序列，生成与个性化样本语音信号适配的第一顶点序列；利用通用语音转表情模型中的线性化网络对第一顶点序列进行线性化处理，以得到第一表情系数序列；在上述模型训练过程中，计算至少一种损失函数，并在至少一种损失函数满足设定的结束条件时结束个性化模型训练过程。

在本实施例中，至少一种损失函数例如包括但不限于：

（1）第一潜在语音特征与第二潜在语音特征之间的KL散度损失函数；其中，利用嘴部区域编码网络对第一顶点序列中嘴部区域的顶点序列进行语音编码得到第二潜在语音特征。

参见图6，个性化样本语音信号输入通用语音转表情模型中的语音特征编码网络，语音特征编码网络输出第一潜在语音特征。通用语音转表情模型还包括嘴部区域编码网络，嘴部区域编码网络是任意结构的解码网络，嘴部区域编码网络输出第二潜在语音特征，并计算第一潜在语音特征与第二潜在语音特征之间的KL散度损失函数。

（2）第一顶点序列与第二顶点序列之间的L1损失函数，第二顶点序列是数字人模型在发出个性化样本语音信号时对应的顶点序列。其中，L1损失函数也即平均绝对误差函数。

（3）第二顶点序列与第三顶点序列之间的L1损失函数，其中，利用表情系数解码器对第一表情系数序列中的表情系数进行解码得到第三顶点序列。

参见图6，通用语音转表情模型还包括表情系数解码器，表情系数解码器是任意结构的解码网络。将第一表情系数序列输入表情系数解码器，表情系数解码器输出第三顶点序列。

（4）第一表情系数序列和个性化样本表情系数序列中对应表情系数之间的L1损失函数。

下面介绍3D高斯模型的训练方式。

具体而言，利用第三个性化样本数据对初始3D高斯模型进行模型训练，以得到3D高斯模型；第三个性化样本数据包括目标用户的个性化样本表情系数和对应的个性化样本图像。

具体而言，目标用户的个性化样本表情系数是参与模型训练时目标用户的表情系数，个性化样本图像是参与模型训练时包括目标用户脸部的图像。参见图4，在训练阶段，利用个性化样本表情系数调整初始空间中的初始3D高斯模型中相应顶点的位置坐标，也即对初始空间中的初始3D高斯模型进行变形处理，可以将初始空间中的初始3D高斯模型转换到规范空间中的3D高斯模型。利用骨骼变换系数对规范空间中的3D高斯模型进行线性蒙皮处理，可以将规范空间中的3D高斯模型转换到变形空间中的3D高斯模型；通过高斯溅射方式可以将三维的变形空间中的3D高斯模型转换成二维的待渲染图像序列，基于颜色、纹理信息等渲染参数对二维的待渲染图像序列进行渲染，得到动作图像序列；计算动作图像序列与个性化样本图像序列之间的损失函数，根据损失函数调整初始空间中的初始3D高斯模型中顶点的顶点数据；重复执行上述步骤，直至达到模型训练结束条件。将模型训练结束后，初始空间中的3D高斯模型作为最终的数字人模型，最终的数字人模型可在推理阶段使用。

在本实施例中，个性化样本图像序列包括多个个性化样本图像，计算动作图像序列与个性化样本图像序列之间的损失函数时，计算每个个性化样本图像及其对应的动作图像之间的损失函数，将各个个性化样本图像及其对应的动作图像之间的损失函数进行加权求和、求均值、累加等各种运算，得到最终的损失函数。若最终的损失函数小于或等于预设的损失值，认为达到模型训练结束条件，若最终的损失函数大于预设的损失值，认为未达到模型训练结束条件。又例如，当模型训练次数达到指定的次数时，认为达到模型训练结束条件。

本申请实施例提供的技术方案可以由端侧执行，也可以由云侧执行，或者，由端云协同执行，对此不做限制。云侧可以理解为提供云服务的系统，端侧可以理解为提供本地服务或边缘服务的系统，和云侧相比，端侧更加靠近用户。示例性的，由端云协同执行时，步骤101至步骤103可以由云侧执行，步骤104可以由端侧执行。这样，将表情系数与数字人视频渲染的过程解耦开来，将表情系数的生成放在云端，数字人视频渲染放在端侧的客户端，可以有效减轻云侧的计算负载，另外，云侧只需向端侧传输少量的表情系数、语音信号等，由端侧的客户端基于表情系数渲染成数字人视频，这样可以有效降低传输大量数据带来的响应时延，也即降低数据传输的时延。

为了更好地理解端云交互，下面结合图8和图9进行介绍具体的场景实施例。

参见图8，模型训练由云端的云服务器执行，端侧的客户端可以将目标用户的说话视频上传给云端，云端根据目标用户的说话视频准备目标用户的第一个性化样本数据、第二个性化样本数据、第三个性化样本数据。云端利用第一通用样本数据和第一个性化样本数据训练目标文本转语音模型；云端利用第二通用样本数据和第二个性化样本数据训练目标语音转表情模型；云端利用第三个性化样本数据训练3D高斯模型（也即数字人模型）。接着，云端的云服务器将数字人模型下发给客户端。

参见图9，在推理阶段，端云交互完成数字人视频渲染。首先，客户端向云端的云服务器发送目标文本信息。接着，云端的云服务器利用目标语音转表情模型将目标文本信息转换成目标语音信号，云端还利用目标语音转表情模型将目标语音信号转换成目标表情系数序列。接着，云端的云服务器向端侧的客户端返回目标表情系数序列和目标语音信号，以供端侧的客户端基于目标表情系数序列和目标语音信号对数字人模型进行渲染，得到数字人视频。

图10为本申请实施例提供的一种基于数字人的交互方法的流程图。参见图10，该方法可以包括：

201、接收在目标场景中向数字人模型发起的问题信息，根据问题信息生成回复文本信息，目标场景对应目标情感标签，数字人模型对应目标用户。

在本实施例中，问题信息用于描述目标用户的问题，问题信息可以是文本形式的问题信息，也可以是语音型问题信息，对此不做限制。对问题信息进行意图理解，并基于意图理解结果对问题信息进行应答处理，得到回复文本信息。

可选的，问题信息为语音型问题信息，则根据问题信息生成回复文本信息，包括：将语音型问题信息输入语音转文本模型进行文本信息转换，以得到文本型问题信息；至少将文本型问题信息输入问答模型进行意图理解和答案生成，以得到回复文本信息。

其中，语音转文本模型可以是任意的具有自动语音识别（Automatic SpeechRecognition，ASR）功能的模型，对此不做限制。

其中，问答模型例如包括但不限于：DBQA(Document-Based Question Answering，基于文档的问题回答)模型、生成式人工智能(artificial intelligence generatedcontent，AIGC)模型、大语言模型（Large Language Model，LLM)。

202、根据目标用户的声音特征和目标情感标签，对目标文本信息进行语音转换，以得到与目标用户适配的目标语音信号。

203、根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列。

204、根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

在本实施例中，回复文本信息可以理解为述实施例中目标文本信息，关于步骤202至步骤204可以参见前述实施例中的步骤102至步骤104，在此不再赘述。

关于本申请实施例中更多细节可以参见前述实施例。

本申请实施例提供的技术方案，将在目标场景中向数字人模型发起的问题信息转变成回复文本信息，基于用户的声音特征和情感标签进行文本转语音处理，以及基于用户的声音特征和表情系数之间的映射关系进行语音转表情处理，并基于语音信号和表情系数渲染数字人模型，以得到数字人模型的视频数据。由此，精准地模拟用户的声音特征，确保了数字人的语音输出不仅听起来自然，而且具有高度的个性化，实现数字人的个性化驱动，提高数字人在声音和动态形象方面的逼真度，进而提高用户体验，提升了数字人的互动性、真实感和沉浸感。

下面结合图11介绍一具体的场景实施例。首先，客户端向云端输入语音，也即输入用户的语音型问题信息。接着，云端的云服务器利用ASR模型对语音型问题信息进行语音识别，得到文本型问题信息；接着，文本型问题信息输入大语言模型，获取大语言模型输出回复文本信息；接着，云端的云服务器利用目标语音转表情模型将回复文本信息转换成目标语音信号，云端还利用目标语音转表情模型将目标语音信号转换成目标表情系数序列。接着，云端的云服务器向端侧的客户端返回目标表情系数序列、目标语音信号、回复文本信息。端侧的客户端基于目标表情系数序列渲染动作图像序列，将动作图像序列、目标语音信号和回复文本信息进行合并，得到数字人视频。

图12为本申请实施例提供的一种基于数字人的视频生成装置的结构示意图。参见图12，该装置可以包括：

接收模块11，用于接收用于在目标场景中驱动数字人模型的目标文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；

语音转换模块12，用于根据目标用户的声音特征和目标情感标签，对目标文本信息进行语音转换，以得到与目标用户适配的目标语音信号；

表情映射模块13，用于根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；

渲染模块14，用于根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

可选的，语音转换模块12具体用于：将目标文本信息和目标情感标签输入目标文本转语音模型，对目标文本信息进行语音转换，以得到目标语音信号；其中，目标文本转语音模型是根据目标用户的第一个性化样本数据对通用文本转语音模型进行个性化训练得到的，用于反映目标用户的声音特征。

可选的，语音转换模块12具体用于：根据目标文本信息，确定其它模型入参，其它模型入参至少包括目标文本信息的语言类型信息、目标文本信息包含的目标音素信息和/或目标用户的标识信息；将目标文本信息、目标情感标签以及其它模型入参输入目标文本转语音模型，对目标文本信息进行语音转换，以得到目标语音信号。

可选的，目标文本转语音模型包括：文本特征编码网络和语音特征解码网络；语音转换模块12具体用于：将目标文本信息、目标情感标签以及其它模型入参输入文本特征编码网络进行文本特征融合编码，以得到目标文本特征；利用语音特征解码网络对目标文本特征进行语音解码操作，以得到目标语音信号。

可选的，文本特征编码网络包括：文本特征学习模块、向量化模块和文本编码器；语音转换模块12进行文本特征融合编码时，具体用于：将目标文本信息输入文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；将目标情感标签和其它模型入参输入对应的向量化模块进行向量化处理，以得到情感特征和其它模型入参的特征；将初始文本特征、情感特征和其它模型入参的特征输入文本编码器进行特征编码，以得到目标文本特征。

可选的，语音特征解码网络包括：文本特征投影模块、语音长度预测器和语音解码器；语音转换模块12进行语音解码操作时，具体用于：将目标文本特征输入文本特征投影模块，针对目标文本特征在同语义的语音特征空间进行语音特征的学习，以得到目标语音特征；将目标文本特征输入语音长度预测器，针对目标文本特征进行语音长度的预测，以得到目标噪声信号；将目标语音特征和目标噪声信号输入语音解码器，利用目标噪声信号的长度对目标语音特征进行解码，以得到目标语音信号。

可选的，上述装置还包括：训练模块，用于利用第一通用样本数据对初始文本转语音模型进行通用模型训练，以得到通用文本转语音模型，第一通用样本数据包括多个第一样本用户对应的通用样本语音信号、通用样本文本信息和通用样本情感标签；利用第一个性化样本数据对通用文本转语音模型进行个性化模型训练，以得到目标文本转语音模型，第一个性化样本数据包括目标用户的个性化样本语音信号、个性化样本文本信息和个性化样本情感标签。

可选的，对初始文本转语音模型进行通用模型训练的过程与对通用文本转语音模型进行个性化模型训练的过程相同；

其中，训练模块进行通用模型训练时，具体用于：对通用样本语音信号进行滤波，以得到通用样本频谱特征，并对通用样本频谱特征进行语音特征提取，以得到通用样本语音特征；将通用样本文本信息和通用样本情感标签输入初始文本转语音模型中的初始文本特征编码网络，得到通用样本文本特征；将通用样本文本特征和通用样本语音特征输入初始文本转语音模型中的初始语音特征解码网络进行语音解码操作，以得到转换后语音信号；以及在上述模型训练过程中，计算至少一种损失函数，并在至少一种损失函数满足设定的结束条件时结束通用模型训练过程：

（1）通用样本语音特征与在初始语音特征解码网络中对通用样本文本特征进行特征投影得到的中间样本语音特征之间的KL散度损失函数；

（2）通用样本语音信号与转换后语音信号之间的长度损失函数；

（3）通用样本语音信号与转换后语音信号之间的重建损失函数；

（4）通用样本频谱特征与转换后语音信号经过滤波得到的频谱特征之间的损失函数；

可选的，表情映射模块13进行表情映射时，具体用于：将目标语音信号输入目标语音转表情模型，对目标语音信号进行表情系数的映射，以得到目标表情系数序列；其中，目标语音转表情模型是根据目标用户的第二个性化样本数据对通用语音转表情模型进行个性化训练得到的，用于反映目标用户的声音特征和表情系数之间的映射关系。

可选的，目标语音转表情模型包括：语音特征编码网络、表情特征解码网络和线性化网络；表情映射模块13进行表情映射时，具体用于：将目标语音信号输入语音特征编码网络，对目标语音信号进行语音特征提取，以得到目标潜在语音特征；将目标潜在语音特征输入表情特征解码网络进行表情解码，以得到目标顶点偏移序列；根据基准顶点序列与目标顶点偏移序列，生成与目标语音信号适配的目标顶点序列，基准顶点序列是数字人模型在无表情状态下对应的顶点序列；利用线性化网络对目标顶点序列进行线性化处理，以得到目标表情系数序列。

可选的，训练模块还用于：利用第二通用样本数据对初始语音转表情模型进行通用模型训练，以得到通用语音转表情模型，第二通用样本数据包括多个第二样本用户对应的通用样本语音信号和通用样本表情系数序列；利用第二个性化样本数据对通用语音转表情模型进行个性化模型训练，以到目标语音转表情模型，第二个性化样本数据包括目标用户的个性化样本语音信号和个性化样本表情系数序列。

可选的，对初始语音转表情模型进行通用模型训练的过程与对通用语音转表情模型进行个性化模型训练的过程相同；

其中，训练模块进行个性化模型训练时，具体用于：将个性化样本语音信号输入通用语音转表情模型中的语音特征编码网络，对个性化样本语音信号进行语音特征提取，以得到第一潜在语音特征；将第一潜在语音特征输入通用语音转表情模型中的表情特征解码网络进行表情解码，以得到第一顶点偏移序列；根据基准顶点序列与第一顶点偏移序列，生成与个性化样本语音信号适配的第一顶点序列；利用通用语音转表情模型中的线性化网络对第一顶点序列进行线性化处理，以得到第一表情系数序列；在上述模型训练过程中，计算至少一种损失函数，并在至少一种损失函数满足设定的结束条件时结束个性化模型训练过程：

（1）第一潜在语音特征与第二潜在语音特征之间的KL散度损失函数；其中，利用嘴部区域编码网络对第一顶点序列中嘴部区域的顶点序列进行语音编码得到第二潜在语音特征；

（2）第一顶点序列与第二顶点序列之间的L1损失函数，第二顶点序列是数字人模型在发出个性化样本语音信号时对应的顶点序列；

（3）第二顶点序列与第三顶点序列之间的L1损失函数，其中，利用表情系数解码器对第一表情系数序列中的表情系数进行解码得到第三顶点序列；

可选的，数字人模型为3D高斯模型，渲染模块14具体用于：利用目标表情系数序列对初始空间中的3D高斯模型进行变形处理，得到规范空间中的3D高斯模型；利用骨骼变换系数对规范空间中的3D高斯模型进行线性蒙皮处理，得到变形空间中的3D高斯模型；采用高斯溅射方式将变形空间中的3D高斯模型转换成待渲染图像序列；对待渲染图像序列进行渲染，得到动作图像序列；将动作图像序列与目标语音信号进行合并，以得到数字人模型的视频数据。

可选的，训练模块还用于：利用第三个性化样本数据对初始3D高斯模型进行模型训练，以得到3D高斯模型；第三个性化样本数据包括目标用户的个性化样本表情系数和对应的个性化样本图像。

图12所示的装置可以执行图1所示实施例所示的方法，其实现原理和技术效果不再赘述。对于上述实施例中的图12所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13为本申请实施例提供的一种基于数字人的交互装置的结构示意图。参见图13，该装置可以包括：

获取模块21，用于接收在目标场景中向数字人模型发起的问题信息，根据问题信息生成回复文本信息，目标场景对应目标情感标签，数字人模型对应目标用户；

语音转换模块22，用于根据目标用户的声音特征和目标情感标签，对回复文本信息进行语音转换，以得到与目标用户适配的目标语音信号；

表情映射模块23，用于根据目标用户的声音特征和表情系数之间的映射关系，对目标语音信号进行表情映射，以得到与目标语音信号适配的目标表情系数序列；

渲染模块24，用于根据目标语音信号和目标表情系数序列，对数字人模型进行渲染，以得到数字人模型的视频数据。

可选的，问题信息为语音型问题信息，则获取模块21根据问题信息生成回复文本信息时，具体用于：将语音型问题信息输入语音转文本模型进行文本信息转换，以得到文本型问题信息；至少将文本型问题信息输入问答模型进行意图理解和答案生成，以得到回复文本信息。

图13所示的装置可以执行图10所示实施例所示的方法，其实现原理和技术效果不再赘述。对于上述实施例中的图13所示的装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤104的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤102和103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

图14为本申请实施例提供的一种电子设备的结构示意图。如图14所示，该电子设备包括：存储器11和处理器12；

存储器11，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器11可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random-AccessMemory，SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable read only memory，EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM），可编程只读存储器（Programmable read-only memory，PROM），只读存储器（Read-Only Memory，ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器12，与存储器11耦合，用于执行存储器11中的计算机程序，以用于：基于数字人的视频生成方法或与基于数字人的交互方法中的步骤。

可选的，如图14所示，该电子设备还包括：通信组件13、显示器14、电源组件15、音频组件16等其它组件。图14中仅示意性给出部分组件，并不意味着电子设备只包括图14所示组件。另外，图14中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT（物联网，Internet of things）设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图14中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图14中虚线框内的组件。

关于处理器执行各动作的详细实施过程可参见前述方法实施例或设备实施例中的相关描述，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi（WirelessFidelity，无线保真）、2G（2Generation，2代）、3G（3Generation，3代）、4G（4Generation，4代）/LTE（long Term Evolution，长期演进）、5G（5Generation，5代）等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（Near FieldCommunication，NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RadioFrequency Identification，RFID）技术，红外数据协会（The Infrared DataAssociation，IrDA）技术，超宽带（Ultra Wide Band，UWB）技术，蓝牙（Bluetooth，BT）技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器（Liquid Crystal Display，LCD）和触摸面板（Touch Panel，TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（microphone，MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(Central ProcessingUnit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变化内存(Phase Change RAM，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(Digital versatile disc，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于数字人的视频生成方法，其特征在于，包括：

接收用于在目标场景中驱动数字人模型的目标文本信息，所述目标场景对应目标情感标签，所述数字人模型对应目标用户；

根据所述目标用户的声音特征和所述目标情感标签，对所述目标文本信息进行语音转换，以得到与所述目标用户适配的目标语音信号；

根据所述目标用户的声音特征和表情系数之间的映射关系，对所述目标语音信号进行表情映射，以得到与所述目标语音信号适配的目标表情系数序列；

根据所述目标语音信号和所述目标表情系数序列，对所述数字人模型进行渲染，以得到所述数字人模型的视频数据。

2.根据权利要求1所述的方法，其特征在于，根据所述目标用户的声音特征和所述目标情感标签，对所述目标文本信息进行语音转换，以得到与所述目标用户适配的目标语音信号，包括：

将所述目标文本信息和所述目标情感标签输入目标文本转语音模型，对所述目标文本信息进行语音转换，以得到所述目标语音信号；

其中，所述目标文本转语音模型是根据所述目标用户的第一个性化样本数据对通用文本转语音模型进行个性化训练得到的，用于反映目标用户的声音特征。

3.根据权利要求2所述的方法，其特征在于，将所述目标文本信息和所述目标情感标签输入目标文本转语音模型，对所述目标文本信息进行语音转换，以得到所述目标语音信号，包括：

根据所述目标文本信息，确定其它模型入参，所述其它模型入参至少包括所述目标文本信息的语言类型信息、所述目标文本信息包含的目标音素信息和/或所述目标用户的标识信息；

将所述目标文本信息、所述目标情感标签以及所述其它模型入参输入所述目标文本转语音模型，对所述目标文本信息进行语音转换，以得到所述目标语音信号。

4.根据权利要求3所述的方法，其特征在于，所述目标文本转语音模型包括：文本特征编码网络和语音特征解码网络；

将所述目标文本信息、所述目标情感标签以及所述其它模型入参输入所述目标文本转语音模型，对所述目标文本信息进行语音转换，以得到所述目标语音信号，包括：

将所述目标文本信息、所述目标情感标签以及所述其它模型入参输入所述文本特征编码网络进行文本特征融合编码，以得到目标文本特征；

利用所述语音特征解码网络对所述目标文本特征进行语音解码操作，以得到所述目标语音信号。

5.根据权利要求4所述的方法，其特征在于，所述文本特征编码网络包括：文本特征学习模块、向量化模块和文本编码器；

将所述目标文本信息、所述目标情感标签以及所述其它模型入参输入所述文本特征编码网络进行文本特征融合编码，以得到目标文本特征，包括：

将所述目标文本信息输入所述文本特征学习模块进行语言学特征信息的学习，以得到多层次的初始文本特征；

将所述目标情感标签和所述其它模型入参输入对应的向量化模块进行向量化处理，以得到情感特征和所述其它模型入参的特征；

将所述初始文本特征、情感特征和所述其它模型入参的特征输入所述文本编码器进行特征编码，以得到所述目标文本特征。

6.根据权利要求4所述的方法，其特征在于，所述语音特征解码网络包括：文本特征投影模块、语音长度预测器和语音解码器；

利用所述语音特征解码网络对所述目标文本特征进行语音解码操作，以得到所述目标语音信号，包括：

将所述目标文本特征输入所述文本特征投影模块，针对所述目标文本特征在同语义的语音特征空间进行语音特征的学习，以得到目标语音特征；

将所述目标文本特征输入所述语音长度预测器，针对所述目标文本特征进行语音长度的预测，以得到目标噪声信号；

将所述目标语音特征和所述目标噪声信号输入所述语音解码器，利用所述目标噪声信号的长度对所述目标语音特征进行解码，以得到所述目标语音信号。

7.根据权利要求2-6任一项所述的方法，其特征在于，还包括：

利用第一通用样本数据对初始文本转语音模型进行通用模型训练，以得到通用文本转语音模型，所述第一通用样本数据包括多个第一样本用户对应的通用样本语音信号、通用样本文本信息和通用样本情感标签；

利用所述第一个性化样本数据对所述通用文本转语音模型进行个性化模型训练，以得到所述目标文本转语音模型，所述第一个性化样本数据包括所述目标用户的个性化样本语音信号、个性化样本文本信息和个性化样本情感标签。

8.根据权利要求1-6任一项所述的方法，其特征在于，根据所述目标用户的声音特征和表情系数之间的映射关系，对所述目标语音信号进行表情映射，以得到与所述目标语音信号适配的目标表情系数序列，包括：

将所述目标语音信号输入目标语音转表情模型，对所述目标语音信号进行表情系数的映射，以得到所述目标表情系数序列；

其中，所述目标语音转表情模型是根据所述目标用户的第二个性化样本数据对通用语音转表情模型进行个性化训练得到的，用于反映所述目标用户的声音特征和表情系数之间的映射关系。

9.根据权利要求8所述的方法，其特征在于，所述目标语音转表情模型包括：语音特征编码网络、表情特征解码网络和线性化网络；

将所述目标语音信号输入目标语音转表情模型，对所述目标语音信号进行表情系数的映射，以得到所述目标表情系数序列，包括：

将所述目标语音信号输入所述语音特征编码网络，对所述目标语音信号进行语音特征提取，以得到目标潜在语音特征；

将所述目标潜在语音特征输入所述表情特征解码网络进行表情解码，以得到目标顶点偏移序列；

根据基准顶点序列与所述目标顶点偏移序列，生成与所述目标语音信号适配的目标顶点序列，所述基准顶点序列是所述数字人模型在无表情状态下对应的顶点序列；

利用所述线性化网络对所述目标顶点序列进行线性化处理，以得到所述目标表情系数序列。

10.根据权利要求8所述的方法，其特征在于，还包括：

利用第二通用样本数据对初始语音转表情模型进行通用模型训练，以得到通用语音转表情模型，所述第二通用样本数据包括多个第二样本用户对应的通用样本语音信号和通用样本表情系数序列；

利用所述第二个性化样本数据对所述通用语音转表情模型进行个性化模型训练，以到所述目标语音转表情模型，所述第二个性化样本数据包括所述目标用户的个性化样本语音信号和个性化样本表情系数序列。

11.根据权利要求1-6任一项所述的方法，其特征在于，所述数字人模型为3D高斯模型，所述根据所述目标语音信号和所述目标表情系数序列，对所述数字人模型进行渲染，以得到所述数字人模型的视频数据，包括：

利用所述目标表情系数序列对初始空间中的3D高斯模型进行变形处理，得到规范空间中的3D高斯模型；

利用骨骼变换系数对规范空间中的3D高斯模型进行线性蒙皮处理，得到变形空间中的3D高斯模型；

采用高斯溅射方式将变形空间中的3D高斯模型转换成待渲染图像序列；

对待渲染图像序列进行渲染，得到动作图像序列；

将所述动作图像序列与所述目标语音信号进行合并，以得到所述数字人模型的视频数据。

12.一种基于数字人的交互方法，其特征在于，包括：

接收在目标场景中向数字人模型发起的问题信息，根据所述问题信息生成回复文本信息，所述目标场景对应目标情感标签，所述数字人模型对应目标用户；

根据所述目标用户的声音特征和所述目标情感标签，对所述回复文本信息进行语音转换，以得到与所述目标用户适配的目标语音信号；

13.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序以用于执行权利要求1-12中任一项所述方法中的步骤。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器能够实现权利要求1-12中任一项所述方法中的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，致使所述处理器能够实现权利要求1-12中任一项所述方法中的步骤。