CN113256821A

CN113256821A - 一种三维虚拟形象唇形生成方法、装置及电子设备

Info

Publication number: CN113256821A
Application number: CN202110610872.XA
Authority: CN
Inventors: 张家珺; 冀志龙; 高原; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-13
Anticipated expiration: 2041-06-02
Also published as: CN113256821B

Abstract

本公开公开了一种三维虚拟形象唇形生成方法、装置及电子设备，该方法包括获取语音数据，根据语音数据得到表情参数和姿态参数，表情参数表示唇部的表情信息，姿态参数表示口型信息，根据表情参数和姿态参数生成三维虚拟形象唇形。通过本公开解决了现有技术中如何提升三维虚拟唇形生成的同步度、自然度的问题。

Description

一种三维虚拟形象唇形生成方法、装置及电子设备

技术领域

本公开涉及动画制作技术领域，具体涉及一种三维虚拟形象唇形生成方法、装置及电子设备。

背景技术

视觉，听觉和文字是人与人或人与机器交互中的重要通道，这几种模式的信息有很强的相关性。近年来，跨模态学习和模态建模在计算机视觉，计算机图形学等研究领域受到广泛关注，然而利用文本生成面部三维属性的研究仍然较少。

三维虚拟形象的表情，唇形生成目前需要动画工程师使用专业动画制作软件如Unity3d，Maya等，并利用动画技术如blendshape，蒙皮骨骼动画等，根据需求逐帧手调参数。这种制作方法成本极高，并且不具备泛化性，每次提出新制作内容时，都需要动画师逐帧重新制作调整。

发明内容

有鉴于此，本公开实施例提供了一种三维虚拟形象唇形生成方法、装置及电子设备，以解决现有技术中如何提升三维虚拟唇形生成的同步度、自然度的问题。

为此，本公开实施例提供了如下技术方案：

本公开第一方面，提供了一种三维虚拟形象唇形生成方法，包括：

获取语音数据；

根据所述语音数据得到表情参数和姿态参数；其中，所述表情参数表示唇部的表情信息，所述姿态参数表示口型信息；

根据所述表情参数和所述姿态参数生成三维虚拟形象唇形。

可选地，根据所述语音数据得到表情参数和姿态参数包括：

所述语音数据经预训练的深度神经网络模型得到所述表情参数和所述姿态参数；其中，所述预训练的深度神经网络模型的训练包括：

获取音频数据样本以及与所述音频数据样本对应的视频数据样本；

根据所述视频数据样本得到3DMM参数；其中，所述3DMM参数为与所述视频数据样本对应的形状参数、表情参数和姿态参数，或者，所述3DMM参数为与所述视频数据样本对应的表情参数和姿态参数；

根据音频数据样本输入深度神经网络模型的输出，以及所述3DMM参数对深度神经网络模型进行训练，得到所述预训练的深度神经网络模型。

可选地，获取音频数据样本以及与所述音频数据样本对应的视频数据样本包括：获取人脸区域的音视频数据样本；对所述人脸区域的音视频数据样本进行音视频分离，得到所述音频数据样本和所述视频数据样本。

可选地，所述预训练的深度神经网络模型包括音频编码器和音频解码器；

其中，所述音频编码器包括卷积神经网络和循环神经网络；

所述音频解码器包括残差模块、注意力模块和全连接层。

可选地，根据音频数据样本输入深度神经网络模型的输出，以及所述3DMM参数对深度神经网络模型进行训练包括：

将音频数据样本输入至所述深度神经网络模型得到训练的3DMM参数的顶点信息；其中，所述训练的3DMM参数至少包括与所述音频数据样本对应的表情参数和姿态参数；

通过与所述音频数据样本对应的视频数据样本，得到真实的3DMM参数的顶点信息；其中，所述真实的3DMM参数至少包括与所述视频数据样本对应的表情参数和姿态参数；

计算所述训练的3DMM参数的顶点信息与所述真实的3DMM参数的顶点信息之间的第一距离；和/或，计算所述训练的3DMM参数的顶点信息与所述真实的3DMM参数的顶点信息之间连续帧差之间的第二距离；

根据所述第一距离和/或所述第二距离训练损失函数。

可选地，经预训练的深度神经网络模型得到所述表情参数和所述姿态参数包括：

将唇形风格信息和所述语音数据输入所述预训练的深度神经网络模型，得到与所述唇形风格信息对应的表情参数和姿态参数。

可选地，根据所述视频数据样本得到3DMM参数包括：

对所述视频数据样本进行抽帧处理，得到二维图像信息；

基于所述二维图像信息得到所述3DMM参数。

可选地，所述方法还包括：

获取动画模型形状；

将所述三维虚拟形象唇形叠加至所述动画模型形状，形成三维动画。

可选地，获取语音数据包括：

获取文本数据；

将所述文本数据输入至语音合成模型，得到所述语音数据。

本公开第二方面，提供了一种三维虚拟形象唇形生成装置，包括：

第一获取模块，用于获取语音数据；

第二获取模块，用于根据所述语音数据得到表情参数和姿态参数；其中，所述表情参数表示唇部的表情信息，所述姿态参数表示口型信息；

生成模块，用于根据所述表情参数和所述姿态参数生成三维虚拟形象唇形。

本公开第三方面，提供了一种应用于三维虚拟形象唇形生成方法的预训练的深度神经网络模型，包括：

根据音频数据样本输入深度神经网络模型的输出，以及与根据视频数据样本得到的3DMM参数对所述深度神经网络模型进行训练，得到所述预训练的深度神经网络模型；

其中，所述视频数据样本与所述音频数据样本对应；所述3DMM参数为与所述视频数据样本对应的形状参数、表情参数和姿态参数，或者，所述3DMM参数为与所述视频数据样本对应的表情参数和姿态参数。

可选地，所述音频数据样本和所述视频数据样本通过对采集的人脸区域的音视频数据样本进行音视频分离得到。

可选地，对所述视频数据样本进行抽帧处理，得到二维图像信息，基于所述二维图像信息得到所述3DMM参数。

其中，所述音频编码器包括卷积神经网络和循环神经网络；

所述音频解码器包括残差模块、注意力模块和全连接层。

将音频数据样本输入至所述深度神经网络模型得到训练的3DMM参数的顶点信息；其中，所述训练的3DMM参数至少包括与所述音频数据样本对应的表情参数和姿态参数；通过与所述音频数据样本对应的视频数据样本，得到真实的3DMM参数的顶点信息；其中，所述真实的3DMM参数至少包括与所述视频数据样本对应的表情参数和姿态参数；

根据所述第一距离和/或所述第二距离训练损失函数。

可选地，生成三维虚拟形象唇形的方法包括：

获取语音数据；

将所述语音数据输入所述预训练的深度神经网络模型得到表情参数和姿态参数；其中，所述表情参数表示唇部的表情信息，所述姿态参数表示口型信息；

根据所述表情参数和所述姿态参数生成三维虚拟形象唇形。

可选地，还包括：

获取动画模型形状；

本公开第四方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器执行上述第一方面中任一所述的三维虚拟形象唇形生成方法。

本公开第五方面，提供了一种计算机可读存储介质，存储有计算机指令，所述计算机指令被处理器执行时，使所述处理器执行上述第一方面中任一所述的三维虚拟形象唇形生成方法。

本公开第六方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中任一所述的三维虚拟形象唇形生成方法。

本公开实施例技术方案，具有如下优点：

本公开实施例提供了一种三维虚拟形象唇形生成方法、装置及电子设备，该方法包括获取语音数据，根据语音数据得到表情参数和姿态参数，表情参数表示唇部的表情信息，姿态参数表示口型信息，根据表情参数和姿态参数生成三维虚拟形象唇形。解决了现有技术中如何提升三维虚拟唇形生成的同步度、自然度的问题。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开实施例的三维虚拟形象唇形生成方法的流程图；

图2是根据本公开实施例的预训练的深度神经网络模型的训练示意图；

图3是根据本公开实施例的文本驱动动画虚拟形象模型唇形运动流程示意图；

图4是根据本公开实施例的三维虚拟形象唇形生成装置的结构框图；

图5是本公开可选实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本公开中，“示例性”一词用来表示“用作例子、例证或说明”。本公开中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本公开，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本公开。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本公开的描述变得晦涩。因此，本公开并非旨在限于所示的实施例，而是与符合本公开所公开的原理和特征的最广范围相一致。

根据本公开实施例，提供了一种三维虚拟形象唇形生成方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本实施例中提供了一种三维虚拟形象唇形生成方法，可用于手机、平板电脑等智能终端，图1是根据本公开实施例的三维虚拟形象唇形生成方法的流程图，如图1所示，该流程100包括如下步骤：

步骤S101，获取语音数据。具体地，可以直接采集语音数据，或者在另一些可选实施例中，获取文本数据，将该文本数据输入至语音合成模型，得到语音数据。本领域技术人员应当知晓，获取语音数据的方式可以包括很多种，这里仅作为举例说明，不作为对本实施例的限定。

步骤S102，根据语音数据得到表情参数和姿态参数。表情参数表示唇部的表情信息，姿态参数表示口型信息。由于包括该表情参数和姿态参数的上述语音数据能够直接决定唇形，从而对后续生成三维虚拟形象唇形提供了基础。

步骤S103，根据表情参数和姿态参数生成三维虚拟形象唇形。生成的三维虚拟形象唇形可以有多种应用，在一些可选实施例中，可以获取动画模型形状，将生成的三维虚拟形象唇形叠加至该动画模型形状，形成三维动画。例如，上述语音数据为表示儿童教学的语音数据，根据儿童教学的语音数据生成三维虚拟形象唇形，并将该三维虚拟形象唇形叠加至猴子的动画模型形状，从而看起来猴子的嘴唇运动和儿童教学的语音数据同步，像是猴子的动画模型在进行儿童教学，从而提升了教学的趣味性。

通过上述步骤，根据语音数据获取表示唇部的表情信息和表示口型的信息，进而生成三维虚拟形象唇形，解决了现有技术中如何提升三维虚拟唇形生成的同步度、自然度的问题，实现了准确生成三维虚拟形象唇形。

上述步骤S102涉及根据语音数据得到表情参数和姿态参数，该获取方式可以包括很多种，下面进行举例说明。在一些可选实施例中，语音数据经预训练的深度神经网络模型得到该表情参数和该姿态参数。具体地，预训练的深度神经网络模型为Audio2Lip模型，Audio即音频，lip即唇部。Audio2Lip模型为输入为音频，输出为表情参数和姿态参数的深度神经网络模型。

具体地，预训练的深度神经网络模型的训练方式可以是获取人脸区域的音视频数据样本，对人脸区域的音视频数据样本进行音视频分离，得到音频数据样本和视频数据样本，根据视频数据样本得到三维形变统计模型（3D Morphable Face Model，简称为3DMM）参数，具体地，可以对该视频数据样本进行抽帧处理，得到二维图像信息，基于该二维图像信息得到该3DMM参数。其中，该3DMM参数可以是与视频数据样本对应的形状参数、表情参数和姿态参数，3DMM参数还可以是与该视频数据样本对应的表情参数和姿态参数，由于本可选实施例的目的在于生成唇形，决定唇形的主要因素是表情参数和姿态参数，因此在该实施例中，3DMM参数可以不包括形状参数。

根据音频数据样本输入深度神经网络模型的输出，以及上述3DMM参数对深度神经网络模型进行训练，得到上述预训练的深度神经网络模型。关于具体的训练方式，在一些可选实施例中，可以将音频数据样本输入至深度神经网络模型得到训练的3DMM参数的顶点信息，其中该训练的3DMM参数可以至少包括与该音频数据样本对应的表情参数和姿态参数，还可以包括形状参数等，通过与该音频数据样本对应的视频数据样本，得到真实的3DMM参数的顶点信息，其中该真实的3DMM参数可以至少包括与该视频数据样本对应的表情参数和姿态参数，还可以包括形状参数等，计算该训练的3DMM参数的顶点信息与该真实的3DMM参数的顶点信息之间的第一距离，根据该第一距离训练损失函数，进而得到上述预训练的深度神经网络模型，该可选实施例的位置项损失有助于模型回归出真实的顶点。在另一些可选实施例中，计算该训练的3DMM参数的顶点信息与该真实的3DMM参数的顶点信息之间连续帧差之间的第二距离，根据该第二距离训练损失函数，进而得到上述预训练的深度神经网络模型，该可选实施例的速度项有助于模型预测具有时间稳定性。

在一些具体的可选实施例中，损失函数可以为；

，

，

，

其中，

为损失值，

为位置项损失值，

为速度项损失值，

为真实顶点第i帧的位置，

为训练顶点第i帧的位置，

为真实顶点第i-1帧的位置，

为训练顶点第i-1帧的位置。第i帧和第i-1帧为连续的两帧。

本公开实施例的应用领域可以为三维动画面部模型的驱动，应用于公司动画模型的唇形生成。首先利用深度神经网络模型将位于不同空间、不同模态的文本，语音信号与面部运动信号联系起来，然后通过预训练的深度学习模型，将文本驱动人脸模型变化的参数应用于公司的动画模型上。将深度学习技术与动画制作技术这两个不相关的技术结合起来，提供一种端到端通用的稳定的技术方案，可以将任何文字，任何人的言语，任何脸型的面部运动与三维动画虚拟形象模型的面部运动联系起来，在提升了唇形生成的同步度、自然度、准确度的同时，极大的降低了动画的制作成本。最终实现了根据文本输入，实时的驱动动画模型的唇形运动生成。

关于预训练的深度神经网络模型的具体结构，在一些可选实施例中，预训练的深度神经网络模型可以包括音频编码器和音频解码器，其中音频编码器包括卷积神经网络和循环神经网络，音频解码器包括残差模块、注意力模块和全连接层。

虽然相同的语音数据对应相同的三维虚拟形象唇形，为了适用不同的场景可以为三维虚拟形象唇形匹配不同的唇形风格信息，以进一步提升趣味性，因此，在一些可选实施例中，可以将唇形风格信息和该语音数据输入预训练的深度神经网络模型，得到与该唇形风格信息对应的表情参数和姿态参数进而得到三维虚拟形象唇形。

下面结合附图2具体说明预训练的深度神经网络模型的训练方式。（1）收集并预处理训练数据集。本可选实施例中所用的训练数据集为可以为企业自构建的，语料文本来源于教育场景下的课堂，对录制的视频进行剪辑，并将人脸区域从原视频中截取出来，并用Fast Forward Moving Picture Expert Group（简称为FFMPEG）开源工具进行音视频分离，以及视频抽帧。（2）Detailed Expression Capture and Animation（简称为DECA）开源算法提取从2D图片回归3D人脸的参数。对人脸进行三维建模的常用方法是使用3DMM，近年来，使用深度学习方法从2D图像回归3DMM参数实现对人脸三维建模的方法被提出如DECA，RingNet等。本可选实施例中，可以使用开源方法DECA对训练数据提取人脸的3DMM参数，包括表情，姿态，形状等。其中，使用的3DMM模型为开源模型FLAME。（3）Audio2Lip模型训练。本可选实施例中设计的Audio2Lip神经网络模型由ID与音频信号作为输入，其中，该ID可以表示不同人的不同的唇形风格，使用音频编码器将音频特征进行编码，紧接着的音频解码器将该嵌入映射到3DMM参数空间。如图2所示，该可选实施例的训练同样支持文本输入，只需额外嵌入预训练的TTS语音合成模型，具体细节如下：对于给定的长度T秒的音频片段，对音频进行如Filter bank（简称为FBANK）或倒谱均值方差归一化（cepstral mean andvariance normalization，简称为CMVN）等预处理，以提升语音编码的性能。音频编码器可以由Visual Geometry Group Network（简称为VGG）网络与长短期记忆网络（Long Short-Term Memory，简称为LSTM）结构组成。音频解码器可以由若干具有线性激活函数的全连接层，残差模块，注意力模块（Attention）构成。最终回归出3DMM的表情参数，姿态参数。训练损失函数可以由两部分组成，一个位置项和一个速度项。位置项损失通过计算回归的参数计算出3DMM中各顶点的与训练顶点之间的距离，位置项损失有助于模型回归出真实的顶点。速度项采用后项有限差分，计算出预测输出与训练顶点之间的连续帧差之间的距离，速度项有助于模型预测具有时间稳定性。

图3是根据本公开实施例的文本驱动动画虚拟形象模型唇形运动流程示意图，如图3所示，（1）根据人脸3DMM，动画师进行blendshape捏脸，以及蒙皮骨骼绑定。具体地，人脸3DMM由形状，表情，姿态参数组成，对于同一个id的人，本质上形状是不变化的，任一时刻下人的面部运动可以看作为形状叠加不同的表情与姿态。因此，可以将一个人脸的表情参数，姿态参数提取出来，叠加在另一个id的人脸形状上，这样另一个人可以拥有同样的表情。有了以上理论作为基础，本可选实施例中使用Audio2Lip神经网络模型输出的表情参数、姿态参数叠加在动画模型形状上，即可使动画模型与人脸3DMM拥有相同的唇部运动。根据开源人脸三维形变模型FLAME，动画师使用Maya，或Unity3d等动画制作软件仿照人脸3DMM中的表情基底进行捏脸，还需要提供蒙皮骨骼动画中所需要的骨骼点，绑定信息等。（2）得到预训练Audio2Lip模型，推理预测。具体地，推理流程如图3所示，预测阶段支持文本或音频两种模态的输入，以文本输入为例，嵌入的预训练文本转语音（text-to-speech，简称为TTS）模型将文本信号转换为音频信号，随后将音频信号输入到预训练的Audio2Lip模型中，并支持选择不同id的唇型风格。根据模型输出的表情参数，姿态参数，动画模型blendshape和蒙皮信息，可以计算出模型顶点位置。由于动画形象应用场景不同，以及动画师通过手工捏表情基可能带来的误差，可以适当放大表情参数和姿态参数，来获得不同夸张度的动画。

在本实施例中还提供了一种三维虚拟形象唇形生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种三维虚拟形象唇形生成装置40，如图4所示，包括：

第一获取模块401，用于获取语音数据；

第二获取模块402，用于根据该语音数据获取表情参数和姿态参数；其中，该表情参数表示唇部的表情信息，该姿态参数表示口型信息；

生成模块403，用于根据该表情参数和该姿态参数生成三维虚拟形象唇形。

本实施例中的三维虚拟形象唇形生成装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本公开实施例还提供了一种应用于三维虚拟形象唇形生成方法的预训练的深度神经网络模型，具体地，该预训练的深度神经网络模型是通过如下步骤训练得到的，根据音频数据样本输入深度神经网络模型的输出，以及与根据视频数据样本得到的3DMM参数对该深度神经网络模型进行训练，得到该预训练的深度神经网络模型。该视频数据样本与该音频数据样本对应；该3DMM参数为与视频数据样本对应的形状参数、表情参数和姿态参数，或者，该3DMM参数为与该视频数据样本对应的表情参数和姿态参数。

在一个可选实施例中，该音频数据样本和该视频数据样本通过对采集的人脸区域的音视频数据样本进行音视频分离得到。

在一个可选实施例中，对该视频数据样本进行抽帧处理，得到二维图像信息，基于该二维图像信息得到该3DMM参数。

在一个可选实施例中，该预训练的深度神经网络模型包括音频编码器和音频解码器，该音频编码器包括卷积神经网络和循环神经网络，该音频解码器包括残差模块、注意力模块和全连接层。

上述实施例涉及根据音频数据样本输入深度神经网络模型的输出，以及该3DMM参数对深度神经网络模型进行训练，具体地，将音频数据样本输入至该深度神经网络模型得到训练的3DMM参数的顶点信息，其中，该训练的3DMM参数至少包括与该音频数据样本对应的表情参数和姿态参数，通过与该音频数据样本对应的视频数据样本，得到真实的3DMM参数的顶点信息；其中，该真实的3DMM参数至少包括与该视频数据样本对应的表情参数和姿态参数，计算该训练的3DMM参数的顶点信息与该真实的3DMM参数的顶点信息之间的第一距离；和/或，计算该训练的3DMM参数的顶点信息与该真实的3DMM参数的顶点信息之间连续帧差之间的第二距离，根据该第一距离和/或该第二距离训练损失函数。

上述实施例涉及生成三维虚拟形象唇形的方法，具体地，获取语音数据，将该语音数据输入该预训练的深度神经网络模型得到表情参数和姿态参数，其中，该表情参数表示唇部的表情信息，该姿态参数表示口型信息，根据该表情参数和该姿态参数生成三维虚拟形象唇形。

上述实施例生成的三维虚拟形象唇形可以用于生成动画，在一个可选实施例中，获取动画模型形状，将该三维虚拟形象唇形叠加至该动画模型形状，形成三维动画。

该一种应用于三维虚拟形象唇形生成方法的预训练的深度神经网络模型的实施例中技术特征的功能描述与上述对应实施例相同，在此不再赘述。本公开实施例还提供了一种电子设备，具有上述图4所示的三维虚拟形象唇形生成装置。

请参阅图5，图5是本公开可选实施例提供的电子设备的结构示意图，如图5所示，该终端可以包括：至少一个处理器501，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口503，存储器504，至少一个通信总线502。其中，通信总线502用于实现这些组件之间的连接通信。其中，通信接口503可以包括显示屏（Display）、键盘（Keyboard），可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速RAM存储器（Random Access Memory，随机存取存储器），也可以是非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图5所描述的装置，存储器504中存储应用程序，且处理器501调用存储器504中存储的程序代码，以用于执行上述任一三维虚拟形象唇形生成方法。

其中，通信总线502可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器504可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器504还可以包括上述种类的存储器的组合。

其中，处理器501可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic, 缩写：GAL）或其任意组合。

可选地，存储器504还用于存储程序指令。处理器501可以调用程序指令，实现如本公开图1、3实施例中所示的任一三维虚拟形象唇形生成方法。

本公开实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中三维虚拟形象唇形生成方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（HardDisk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本公开实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例中任一所述的三维虚拟形象唇形生成方法。

虽然结合附图描述了本公开的实施例，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种三维虚拟形象唇形生成方法，其特征在于，包括：

获取语音数据；

根据所述表情参数和所述姿态参数生成三维虚拟形象唇形。

2.根据权利要求1所述的三维虚拟形象唇形生成方法，其特征在于，根据所述语音数据得到表情参数和姿态参数包括：

所述语音数据经预训练的深度神经网络模型得到所述表情参数和所述姿态参数；

其中，所述预训练的深度神经网络模型的训练包括：

3.根据权利要求2所述的三维虚拟形象唇形生成方法，其特征在于，获取音频数据样本以及与所述音频数据样本对应的视频数据样本包括：

获取人脸区域的音视频数据样本；

对所述人脸区域的音视频数据样本进行音视频分离，得到所述音频数据样本和所述视频数据样本。

4.根据权利要求2所述的三维虚拟形象唇形生成方法，其特征在于，所述预训练的深度神经网络模型包括音频编码器和音频解码器；

其中，所述音频编码器包括卷积神经网络和循环神经网络；

所述音频解码器包括残差模块、注意力模块和全连接层。

5.根据权利要求2所述的三维虚拟形象唇形生成方法，其特征在于，根据音频数据样本输入深度神经网络模型的输出，以及所述3DMM参数对深度神经网络模型进行训练包括：

根据所述第一距离和/或所述第二距离训练损失函数。

6.根据权利要求2所述的三维虚拟形象唇形生成方法，其特征在于，经预训练的深度神经网络模型得到所述表情参数和所述姿态参数包括：

7.根据权利要求2所述的三维虚拟形象唇形生成方法，其特征在于，根据所述视频数据样本得到3DMM参数包括：

对所述视频数据样本进行抽帧处理，得到二维图像信息；

基于所述二维图像信息得到所述3DMM参数。

8.根据权利要求1所述的三维虚拟形象唇形生成方法，其特征在于，所述方法还包括：

获取动画模型形状；

9.根据权利要求1至8中任一所述的三维虚拟形象唇形生成方法，其特征在于，获取语音数据包括：

获取文本数据；

将所述文本数据输入至语音合成模型，得到所述语音数据。

10.一种三维虚拟形象唇形生成装置，其特征在于，包括：

第一获取模块，用于获取语音数据；

11.一种应用于三维虚拟形象唇形生成方法的预训练的深度神经网络模型，其特征在于，包括：

12.根据权利要求11所述的预训练的深度神经网络模型，其特征在于，所述音频数据样本和所述视频数据样本通过对采集的人脸区域的音视频数据样本进行音视频分离得到。

13.根据权利要求11所述的预训练的深度神经网络模型，其特征在于，对所述视频数据样本进行抽帧处理，得到二维图像信息，基于所述二维图像信息得到所述3DMM参数。

14.根据权利要求11所述的预训练的深度神经网络模型，其特征在于，所述预训练的深度神经网络模型包括音频编码器和音频解码器；

其中，所述音频编码器包括卷积神经网络和循环神经网络；

所述音频解码器包括残差模块、注意力模块和全连接层。

15.根据权利要求11所述的预训练的深度神经网络模型，其特征在于，根据音频数据样本输入深度神经网络模型的输出，以及所述3DMM参数对深度神经网络模型进行训练包括：

根据所述第一距离和/或所述第二距离训练损失函数。

16.根据权利要求11所述的预训练的深度神经网络模型，其特征在于，生成三维虚拟形象唇形的方法包括：

获取语音数据；

根据所述表情参数和所述姿态参数生成三维虚拟形象唇形。

17.根据权利要求11至16中任一所述的预训练的深度神经网络模型，其特征在于，还包括：

获取动画模型形状；

18.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器执行上述权利要求1-9中任一所述的三维虚拟形象唇形生成方法。

19.一种计算机可读存储介质，存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，使所述处理器执行上述权利要求1-9中任一所述的三维虚拟形象唇形生成方法。

20.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现权利要求1-9中任一所述的三维虚拟形象唇形生成方法。