CN117788651A

CN117788651A - 一种3d虚拟数字人唇形驱动方法及装置

Info

Publication number: CN117788651A
Application number: CN202311532765.5A
Authority: CN
Inventors: 袁海杰
Original assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Current assignee: Xiaoduo Intelligent Technology Beijing Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-03-29

Abstract

一种3D虚拟数字人唇形驱动方法及装置，该方法通过获取音频数据和音频数据对应的文本数据，以及文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；对训练数据集中的数据进行数据格式转换，将数据格式统一为允许唇形驱动模型框架识别的输入格式；利用统一数据格式后的数据，采用端到端方式训练深度神经网络得到唇形驱动模型；将待推理的目标文本音频输入训练完毕的唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。本发明实现音频、文本与数字人对应唇部动作相匹配的效果，不仅降低了控制3D角色面部动画的技术难度，同时降低了成本。

Description

一种3D虚拟数字人唇形驱动方法及装置

技术领域

本发明属于数字孪生技术领域，具体涉及一种3D虚拟数字人唇形驱动方法及装置。

背景技术

随着计算机视觉的发展，数字孪生开始应用于各种领域，元宇宙作为一个大的依托，数字世界也应运而生。在社交、购物和游戏等现代生活中，吸引人的、可动画化的3D角色是进入数字世界的重要入口。富有表现力的3D角色面部动画是现代计算机生成电影和数字游戏的重要组成部分。

现阶段，基于视觉的性能捕捉，即通过观察到的人类演员的动作来驱动动画面部，是大多数生产流程中不可或缺的组成部分。传统技术中，虽然从捕捉系统中获得的质量正在稳步提高，但制作高质量面部动画的成本仍然很高，主要表现如下：

首先，计算机视觉系统需要精心设置，通常还需要劳动密集型的清理和其他处理步骤；另外，无论何时录制新镜头，演员都需要在现场，最好还能保持他们的外表，存在较大的挑战。最重要的是，在许多现代游戏中，游戏中角色所说的几十个小时的对话，对于使用基于视觉的系统来说太昂贵了。因此，通常的做法是只制作关键动画，使用视觉系统并依靠基于音频和文字记录的系统来制作大量的游戏内材料，这种系统产生的动画的质量还有待改进。

发明内容

为此，本发明提供一种3D虚拟数字人唇形驱动方法及装置，解决传统技术成本高、产生的动画质量差的问题。

为了实现上述目的，本发明提供如下技术方案：一种3D虚拟数字人唇形驱动方法，包括：

获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；

对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。

作为3D虚拟数字人唇形驱动方法优选方案，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

作为3D虚拟数字人唇形驱动方法优选方案，在进行数据格式统一过程中：

若所述音频数据和所述面部BlendShape参数数据不能强制对齐，将不能强制对齐的所述音频数据和所述面部BlendShape参数数据舍弃。

若所述音频数据和所述面部BlendShape参数数据，小于预设的帧数阈值或预设文字数量阈值，将小于预设的帧数阈值或预设文字数量阈值的所述音频数据、所述面部BlendShape参数数据舍弃。

作为3D虚拟数字人唇形驱动方法优选方案，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

编码器的骨干网络采用Transformer，编码器通过样式映射层与特征融合层得到特征向量，所述特征向量为包含文本音频特征的高维向量，将所述特征向量进行降维映射后，与所述面部BlendShape参数数据进行匹配。

作为3D虚拟数字人唇形驱动方法优选方案，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

本发明还提供一种3D虚拟数字人唇形驱动装置，包括：

训练数据集构建模块，用于获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；

数据格式统一模块，用于对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

模型训练模块，用于利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

面部参数推理模块，用于将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。

作为3D虚拟数字人唇形驱动装置优选方案，所述训练数据集构建模块中，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

作为3D虚拟数字人唇形驱动装置优选方案，所述数据格式统一模块中：

若所述音频数据和所述面部BlendShape参数数据不能强制对齐，将不能强制对齐的所述音频数据和所述面部BlendShape参数数据舍弃；

所述数据格式统一模块中：

作为3D虚拟数字人唇形驱动装置优选方案，所述模型训练模块中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

编码器的骨干网络采用Transformer，编码器通过样式映射层与特征融合层得到特征向量，所述特征向量为包含文本音频特征的高维向量，将所述特征向量进行降维映射后，与所述面部BlendShape参数数据进行匹配；

所述模型训练模块中，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

本发明的有益效果如下，通过获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。本发明可以通过输入音频，控制生成3D虚拟数字人的唇形动画，实现音频、文本与数字人对应唇部动作相匹配的效果，不仅降低了控制3D角色面部动画的技术难度，同时降低了成本。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其他的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的3D虚拟数字人唇形驱动方法流程示意图；

图2为本发明实施例提供的3D虚拟数字人唇形驱动方法采用的唇形驱动模型架构图；

图3为本发明实施例提供的3D虚拟数字人唇形驱动装置架构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，本发明实施例1提供一种3D虚拟数字人唇形驱动方法，包括以下步骤：

S1、获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；

S2、对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

S3、利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

S4、将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。

本实施例中，在步骤S1，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

其中，BlendShape(网络混合变形)是一种用于实现角色面部表情的技术，通过改变角色模型的顶点位置模拟不同的表情，从而实现面部表情的变化。在现有Unity软件中，可以使用SkinMeshRenderer(带蒙皮的网格渲染器)组件实现Blendshape。

其中，公开数据集如BEAT(Body-Expression-Audio-Text)，由76小时动捕设备采集的谈话数据和语义-情感标注组成。原始数据包含肢体和手部动捕数据，ARKit标准52维面部Blendshape权重，音频与文本，标注数据包含8类情感分类标签，以及动作类型分类和语义相关度打分。

其中，面部动作捕捉软件如Unity，提供了面部动作捕捉的功能，Unity中的面部动作捕捉可以使用不同的技术，例如深度相机、红外相机、RGB-D相机等，这些技术可以实时捕捉演员的面部表情，Unity中的面部动作捕捉可以用于游戏中的角色动画、虚拟现实、交互式演出等领域。

本实施例中，由于通过动作捕捉软件输出的不是直接的BlendShape参数，而是fbx动画文件，需要通过进一步处理转换将格式更改统一。

其中，在进行数据格式统一过程中：

具体的，对于收集筛选之后的所有训练数据集进行人工处理统一格式，使得音频数据、对应的文本数据与BlendShape参数数据相对应，保证后续训练准确度。其中音频文件要求如下：

如果音频数据不能与BlendShape参数数据强制对齐，需要将相关的音频数据、面部BlendShape参数数据进行舍弃。如果筛选清洗后的音频数据和BlendShape参数数据不满足帧数与文字数量限制的要求，需要将相关的音频数据、面部BlendShape参数数据进行舍弃。

其中，对于音频数据、文本数据等多模态数据，对齐操作是十分重要的操作，可以让多模态模型学习到不同模态之间的相互表示等信息。从对齐的对象来分，对齐操作可以分为粗粒度对齐和精细化对齐。粗粒度对齐是指将整个模态信息当作对象来进行对齐操作，如整幅图像对应整句话，而精细化对齐是指模态内部的子对象之间进行对齐，例如图像中的猫对应文本中的“cat”单词。不同粒度的对齐能够产生不同的效果。

本实施例中，在步骤S3，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；编码器的骨干网络采用Transformer，编码器通过样式映射层与特征融合层得到特征向量，所述特征向量为包含文本音频特征的高维向量，将所述特征向量进行降维映射后，与所述面部BlendShape参数数据进行匹配；同时，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

参见图2，具体的，唇形驱动模型的目标是基于人声音轨产生可信的和富有表现力的3D面部动画。为了使结果看起来自然，动画必须考虑复杂和相互依赖的现象，包括音素协同发音、词汇重读以及面部肌肉和皮肤组织之间的相互作用。本实施例采用数据驱动的方法，以端到端方式训练深度神经网络，以复制在训练数据中观察到的相关效果。将处理好的数据通过唇形驱动模型训练框架算法，通过深度学习的方式实现文本音频与BlendShape参数的对应。其中，唇形驱动模型能够识别不同音频数据的输入，解决了用户不同而导致的输入音频音色的差距，解决因数据集不足或者数据集单一而产生的泛化能力较差的问题。

其中，唇形驱动模型训练实现将文本音频进行特征参数化，旨在通过自设计编码器将文本音频进行解耦表示。其中，编码器骨干网络由Transformer组成，再通过样式映射层与特征融合层得到的特征向量，此特征向量为包含文本音频特征的高维向量，特征高维向量进行降维映射后，与BlendShape数字资源进行匹配。最后将验证集生成的BlendShape参数与原始BlendShape参数进行损失值计算，然后进行反向传播，在多次迭代训练的过程中更新唇形驱动模型参数。当损失值达到最优时，唇形驱动模型停止训练，保存最优的唇形驱动模型权重即可。通过级联式的深度学习网络结构，平滑对音频数据向量进行处理，高维映射与BlendShape参数数据匹配的处理方式，不仅保留了音频数据的显著特征，又高度匹配了BlendShape参数。

本实施例中，在步骤S4，通过加载训练好的唇形驱动模型权重文件，将需要推理的目标文本音频输入唇形驱动模型进行自动推理，然后生成对应的BlendShape参数数据，并通过Unity等软件可以观察驱动对应虚拟数字人的唇部动作，解决需要耗费大量计算机视觉系统资源和人力资源来生成3D虚拟数字人面部动画的繁琐流程。

在一种可能的实施例中，对唇形驱动模型的推理结果进行优化，通过对唇形驱动模型的多个推理结果进行加权平均数分析，运行结合数据集分布的数据处理程序，使最终的推理结果展现更加平滑真实，以使唇形驱动模型更具适配性，具有更优秀的推理效果。

综上所述，本发明实施例通过获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。本发明采用的模型框架能够识别不同音频文件的输入，解决了用户不同而导致的输入音频音色的差距，解决了因数据集不足或者数据集单一而产生的泛化能力较差的问题。；解决了从需要耗费大量计算机视觉系统资源和人力资源来生成3D虚拟数字人面部动画的繁琐流程；通过级联式的深度学习网络结构，平滑对音频文本向量进行处理，高维映射与BlendShape参数匹配的处理方式，既保留了音频文本的显著特征，又高度匹配了BlendShape参数；自建音频、文本和对应面部BlendShape参数数据集，使模型更具适配性，最终的推理效果优秀。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

实施例2

参见图3，本发明实施例2提供一种3D虚拟数字人唇形驱动装置，包括：

训练数据集构建模块1，用于获取音频数据和所述音频数据对应的文本数据，以及所述文本数据对应的面部BlendShape参数数据，形成训练唇形驱动模型的训练数据集；

数据格式统一模块2，用于对所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据进行数据格式转换，将所述音频数据、所述文本数据和所述面部BlendShape参数数据的数据格式统一为允许所述唇形驱动模型框架识别的输入格式；

模型训练模块3，用于利用统一数据格式后的所述音频数据、所述文本数据和所述面部BlendShape参数数据，采用端到端方式训练深度神经网络得到所述唇形驱动模型；

面部参数推理模块4，用于将待推理的目标文本音频输入训练完毕的所述唇形驱动模型，生成目标文本音频对应的目标面部BlendShape参数推理结果，利用目标面部BlendShape参数推理结果驱动3D虚拟数字人的唇部动作。

本实施例中，所述训练数据集构建模块1中，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

本实施例中，所述数据格式统一模块2中：

所述数据格式统一模块2中：

本实施例中，所述模型训练模块3中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

所述模型训练模块3中，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

需要说明的是，上述装置各模块之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有3D虚拟数字人唇形驱动方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的3D虚拟数字人唇形驱动方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidState Disk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，包括：存储器和处理器；

所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的3D虚拟数字人唇形驱动方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种3D虚拟数字人唇形驱动方法，其特征在于，包括：

2.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

3.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

4.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，在进行数据格式统一过程中：

5.根据权利要求1所述的一种3D虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，通过编码器将所述音频数据和所述文本数据进行解耦表示；

6.根据权利要求5所述的一种3D虚拟数字人唇形驱动方法，其特征在于，采用端到端方式训练深度神经网络得到所述唇形驱动模型过程中，采用验证集生成的BlendShape参数数据与原始BlendShape参数数据进行损失值计算，在迭代训练的过程中更新所述唇形驱动模型的参数，当损失值达到最优时，停止训练所述唇形驱动模型。

7.一种3D虚拟数字人唇形驱动装置，其特征在于，包括：

8.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述训练数据集构建模块中，所述训练数据集中的所述音频数据、所述文本数据和所述面部BlendShape参数数据获取来源包括：从公开数据集中筛选；通过面部动作捕捉软件拍摄。

9.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述数据格式统一模块中：

所述数据格式统一模块中：

10.根据权利要求7所述的一种3D虚拟数字人唇形驱动装置，其特征在于，所述模型训练模块中，通过编码器将所述音频数据和所述文本数据进行解耦表示；