CN117765214A

CN117765214A - 3d数字人唇形实时驱动方法、装置、终端和存储介质

Info

Publication number: CN117765214A
Application number: CN202410193089.1A
Authority: CN
Inventors: 李志华; 杨松; 杨波
Original assignee: Feihu Information Technology Tianjin Co Ltd
Current assignee: Feihu Information Technology Tianjin Co Ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-03-26

Abstract

本公开提供3D数字人唇形实时驱动方法及装置、终端和存储介质。3D数字人唇形实时驱动方法包括：获取训练音频和训练BS数据，得到训练音频‑BS数据对；利用训练音频‑BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；将音频输入经训练的卷积神经网络模型以输出BS数据；基于音频和BS数据进行3D数字人唇形的驱动和音频的同步播放。本公开的方法提高了训练模型的泛化能力，且通用性更强，能够保证3D数字人唇形驱动的实时性。

Description

3D数字人唇形实时驱动方法、装置、终端和存储介质

技术领域

本公开涉及信息技术领域，尤其涉及3D数字人唇形实时驱动方法及装置、终端和存储介质。

背景技术

随着人工智能时代的来临，基于人工智能人机交互方式的应用也越来越普遍，可视化语音技术就是一种新一代人机交互方式。3D数字人是一种比较常见的方式，可以模拟真人的动作、神态，且可以与真人进行语音交流。3D数字人唇形驱动技术是3D数字人产品落地所需的关键技术之一。目前大部分同类产品要么采用传统方法，即人为设计驱动规则，通用性较差；要么采用基于深度学习的技术方案，训练数据采集成本高，不易获取。基于此，如何提高3D数字人唇形驱动的鲁棒性成为了亟需解决的技术问题。

发明内容

为解决现有问题，本公开提供一种3D数字人唇形实时驱动方法及装置、终端和存储介质。

本公开采用以下的技术方案。

本公开的实施例提供一种3D数字人唇形实时驱动方法，3D数字人唇形实时驱动方法包括：获取训练音频和训练BS数据，得到训练音频-BS数据对；利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；将音频输入所述经训练的卷积神经网络模型以输出BS数据；基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

本公开的另一实施例提供了一种3D数字人唇形实时驱动装置，所述3D数字人唇形实时驱动装置包括：训练数据获取模块，配置为获取训练音频和训练BS数据，得到训练音频-BS数据对；模型训练模块，配置为利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；BS数据输出模块，配置为将音频输入所述经训练的卷积神经网络模型以输出BS数据；驱动模块，配置为基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

在一些实施例中，本公开提供一种终端，包括：至少一个存储器和至少一个处理器；其中，存储器用于存储程序代码，处理器用于调用所述存储器所存储的程序代码执行上述3D数字人唇形实时驱动方法。

在一些实施例中，本公开提供一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述3D数字人唇形实时驱动方法。

本公开通过采用基于BS（blendshape）的深度学习方法，利用训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型，然后将音频输入经训练的卷积神经网络模型以输出BS数据，进而基于音频和BS数据进行3D数字人唇形的驱动和音频的同步播放，如此，提高了训练模型的泛化能力，且通用性更强，能够保证3D数字人唇形驱动的实时性。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是本公开的实施例的3D数字人唇形实时驱动方法的示意流程图。

图2是本公开的实施例的用于3D数字人唇形实时驱动装置的部分模块。

图3是本公开实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

首先简要介绍一些相关术语。UE5（Unreal Engine 5）是Epic Games公司发布的新一代游戏引擎，集成了世界领先的3D渲染和开发工具。BS（blendshape）是一种表示面部表情特征的方式。每一组blendshape都包括一个表示人脸特定表情的定位符与一个表示表情程度的浮点类型值，表情程度值的范围为0到1，0表示没有表情，1表示完全表情，而0到1中间值则会对网格进行融合，形成一种过渡表情。Arkit为苹果公司通过整合设备摄像头图像信息与设备运动传感器信息，在应用中提供增强现实（AR）体验的开发套件。本公开中用到的为符合arkit规范的52维人脸BS参数集。

用户数据报协议（UDP ，User Datagram Protocol）是一种网络传输协议，用于在计算机网络上传输数据。与传输控制协议（TCP）相比，UDP具有速度快、开销小的优点。卷积神经网络（CNN，Convolutional Neural Networks）是一类包含卷积计算且具有深度结构的前馈神经网络。线性预测编码（LPC，linear predictive coding）是一种音频特征表征方式，将音频信号分解成短帧，根据自相关系数求解每一帧的线性滤波器系数，该特征可以很容易地学会估计特定频段的瞬时功率，非常适合CNN网络。语音合成技术（TTS，text tospeech）可以根据文本生成语音。

唇形驱动是3D数字人驱动领域最基本也是最重要的环节，现有方法一般包括传统算法和深度学习算法。传统算法往往采用音素对照表，即人为设定规则，更像是一个专家系统，泛化性差。深度学习方法一类是基于人脸网格（mesh）顶点预测的，缺点是mesh点数太多导致运算量大，并且算法通用性较差，不同3D数字人之间往往不通用；另一类是基于blendshape的，缺点是采集BS数据需要专业设备，成本较高，且各家BS标准不统一。

本公开旨在设计出可以将任意输入音频转化成对应3D数字人唇形动作的深度学习方法和系统。基于CNN网络模型，使用音频-BS数据对进行训练，得到可以根据音频生成数字人BS数据的CNN模型。对任意音频输入都能输出对应的唇形BS参数，大大提高了泛化能力，且CNN模型可以运行在服务端，前端只需根据服务端发来的BS数据来渲染即可，便利地实现实时驱动。

图1提供了本公开的实施例的3D数字人唇形实时驱动方法的流程图。本公开的3D数字人唇形实时驱动方法可以包括步骤S101，获取训练音频和训练BS数据，得到训练音频-BS数据对。人工智能的基础是模型的训练，训练的基础是要获取训练数据。在一些实施例中，能够用于采集音频的设备均可以用于获取训练音频。在一些实施例中，可以通过安装live Link Face app的设备进行训练BS数据的采集，如此，训练音频和与该训练银屏对应的训练BS数据构成训练音频-BS数据对。

在一些实施例中，本公开的方法还可以包括步骤S102，利用训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型。在一些实施例中，音频特征提取采用LPC算法，针对LPC特征和BS数据特点设计CNN网络模型。在一些实施例中，CNN网络模型参照英伟达公司开源的audio2face算法网络结构，由音素分析网络、语言表达网络和输出网络三部分组成，前两者均由5层卷积层组成，后者由两层全连接层组成。如此，通过利用训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型。

在一些实施例中，本公开的方法还可以包括步骤S103，将音频输入经训练的卷积神经网络模型以输出BS数据。在实际应用中，要让3D数字人表现出相应的唇形，仅需将要说的话（即，音频）输入给经训练的卷积神经网络模型，由经训练的卷积神经网络模型输出相应的BS数据。

在一些实施例中，本公开的方法还可以包括步骤S104，基于音频和BS数据进行3D数字人唇形的驱动和音频的同步播放。在得到与音频对应的BS数据之后，可以利用虚拟引擎（例如，UE5）进行3D数字人唇形的驱动，使得3D数字人表现出与音频对应的唇形，并且可以同步播放该音频，实现音画同步。

现有的唇形驱动技术往往存在音画关联性低、通用性弱等缺点，且BS数据采集需要专业设备，成本较高。本公开利用人工智能技术，仅需简单的设备（例如，一部苹果手机）即可实现训练BS数据的采集。然后，将采集到的大量训练音频-BS数据对，输入到CNN模型做训练，得到的经训练的CNN模型可以根据输入的音频来输出对应的BS参数，最终实现任意音频驱动3D数字人说话的目的。

在一些实施例中，本公开的3D数字人唇形实时驱动方法还包括：在获取训练音频和训练BS数据之前，制作3D数字人，其中， 3D数字人具有符合arkit标准的52维BS结构。在一些实施例中，使用UE5的metahuman creator插件，创建3D数字人并对数字人进行面部、肢体以及装扮进行调整，得到符合要求的3D数字人，导出的3D数字人模型具有符合arkit标准的52维BS结构。

在一些实施例中，获取训练音频和训练BS数据包括：通过苹果手机和电脑获取训练音频和训练BS数据。在一些实施例中，通过苹果手机和电脑获取训练音频和训练BS数据包括：通过苹果手机或电脑获取训练音频；通过苹果手机获取训练BS数据；通过电脑接收从苹果手机发送的训练BS数据，并且通过安装在电脑中的虚拟引擎进行3D数字人唇形实时驱动，以实时验证训练BS数据的采集质量。在本公开的实施例中，可以仅需要一台苹果手机（例如，iphone X或更高版本的苹果手机），安装好Live Link Face app；以及作为前端的一台电脑，安装好UE5。两者建立网络连接后，在前端运行接收数据的脚本用于存储BS数据。UE5接收到app发来的BS数据后进行数字人的实时驱动，便于实时验证数据采集的质量。为了提高数据的丰富性，还可以采用一些公开数据集。音频部分使用电脑或者苹果手机录制均可。在一些实施例中，可以对采集到的训练音频和训练BS数据进行裁剪和筛选，得到高质量的训练音频-BS数据对。

在一些实施例中，卷积神经网络模型包括音素分析网络、语言表达网络和输出网络，其中，音素分析网络由五层残差块组成，输出网络由两层全连接层组成，输出网络的激活函数为修正线性单元。通常地，音素分析网络由五层卷积层组成。由于采集的数据量比较大，为了提高模型的学习能力，本公开对该网络进行了改造，将音素分析网络的卷积层替换为残差块，以及将输出网络的激活函数改为修正线性单元（ReLU）。在一些实施例中，损失函数由三部分组成：位置损失用于确保每个输出顶点的总体位置大致正确，运动损失用于确保顶点在动画下显示正确的运动，正则化损失用于防止情感数据的短期变化。另外，本公开采用归一化方式实现根据各损失相对重要性来自动平衡它们之间的权重。此外，在CNN模型训练过程中，通过数据扩充等手段，可以使CNN模型获得更好的泛化能力。

在一些实施例中，本公开的3D数字人唇形实时驱动方法还包括：在进行3D数字人唇形的驱动之前，对BS数据进行滤波。在一些实施例中，可以按照各个维度对CNN模型的原始输出BS数据进行滤波，从而提高前后帧的唇形流畅度。

在一些实施例中，将音频输入经训练的卷积神经网络模型包括：获取输入的文本信息；将文本信息转化为音频并且将音频输入经训练的卷积神经网络模型。在一些实施例中，音频可以由文本信息通过TTS算法生成。在一些实施例中，将音频和滤波后的BS数据按照UDP协议发送到前端（即电脑端）。前端UE5接收到数据后，进行数字人唇形的驱动以及音频的同步播放。

在一些实施例中，由于BS数据是按照固定的帧率生成的，前端按照该帧率播放即可，但由于前端显卡性能的差异，导致不同帧渲染的时长不尽相同。为此，可以采用同步机制，即每一帧的渲染时间不光由帧率决定，还跟之前累计帧的实际渲染情况有关。即当前帧的渲染从上一帧渲染结束开始，到当前累计帧按照帧率计算所得的渲染结束时间作为结束，如此，可以很好地保证音画同步。

采用本公开的方法，仅需一部苹果手机即可采集高质量的训练BS数据。即，使用一个苹果手机安装Live Link Face app，一台电脑安装UE5，二者连接成功后即可采集高质量的训练音频-BS数据对，大大降低了数据采集成本。另外，相对于采用音素-唇形映射表的方案（人为设定规则，泛化性差），本公开基于CNN网络模型，使用训练音频-BS数据对进行训练，得到可以根据音频生成3D数字人的BS数据的CNN模型。对任意音频输入都能输出对应的唇形BS参数，大大提高了泛化能力，且CNN模型可以运行在服务端，前端只需根据服务端发来的BS数据来渲染即可，减轻了前端的运算压力，确保实现实时驱动。

因此，本公开提供了一套完整的用于将音频转换为BS参数的深度学习方法，3D数字人制作方便快捷，训练数据容易采集，降低了成本。为了克服传统方法通用性不强的缺点，本公开采用基于blendshape的深度学习方法，获取大量音频-BS数据训练CNN网络，得到了通用性好和泛化能力强的模型。

本公开的实施例还提供了一种3D数字人唇形实时驱动装置400。图2是本公开的实施例的用于3D数字人唇形实时驱动装置的部分模块。3D数字人唇形实时驱动装置400包括训练数据获取模块401、模型训练模块402、BS数据输出模块403和驱动模块404。在一些实施例中，训练数据获取模块401配置为获取训练音频和训练BS数据，得到训练音频-BS数据对。在一些实施例中，模型训练模块402配置为利用训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型。在一些实施例中，BS数据输出模块403配置为将音频输入经训练的卷积神经网络模型以输出BS数据。在一些实施例中，驱动模块404配置为基于音频和BS数据进行3D数字人唇形的驱动和音频的同步播放。

应该理解，关于3D数字人唇形实时驱动方法描述的内容也适用于此处的用于3D数字人唇形实时驱动装置400，为了简单的目的，在此不进行详细描述。

在一些实施例中，3D数字人唇形实时驱动装置还包括：数字人制作模块，配置为在获取训练音频和训练BS数据之前，制作3D数字人，其中，3D数字人具有符合arkit标准的52维BS结构。在一些实施例中，获取训练音频和训练BS数据包括：通过苹果手机和电脑获取训练音频和训练BS数据。在一些实施例中，通过苹果手机和电脑获取训练音频和训练BS数据包括：通过苹果手机或电脑获取训练音频；通过苹果手机获取训练BS数据；通过电脑接收从苹果手机发送的训练BS数据，并且通过安装在电脑中的虚拟引擎进行3D数字人唇形实时驱动，以实时验证训练BS数据的采集质量。在一些实施例中，3D数字人唇形实时驱动装置还包括：BS数据处理模块，配置为在进行3D数字人唇形的驱动之前，对BS数据进行滤波。在一些实施例中，将音频输入经训练的卷积神经网络模型包括：获取输入的文本信息；将文本信息转化为音频并且将音频输入经训练的卷积神经网络模型。在一些实施例中，卷积神经网络模型包括音素分析网络、语言表达网络和输出网络，其中，音素分析网络由五层残差块组成，输出网络由两层全连接层组成，输出网络的激活函数为修正线性单元。

此外，本公开还提供一种终端，包括：至少一个存储器和至少一个处理器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器所存储的程序代码以执行上述3D数字人唇形实时驱动方法。

此外，本公开还提供一种计算机存储介质，该计算机存储介质存储有程序代码，程序代码用于执行上述3D数字人唇形实时驱动方法。

以上，基于实施例和应用例说明了本公开的3D数字人唇形实时驱动方法及装置。此外，本公开还提供一种终端及存储介质，以下说明这些终端和存储介质。

下面参考图3，其示出了适于用来实现本公开实施例的电子设备（例如终端设备或服务器）500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图3所示，电子设备500可以包括处理装置（例如中央处理器、图形处理器等）501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储装置508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出（I/O）接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述的本公开的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范状态的硬件逻辑部件包括：现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、复杂可编程逻辑设备（CPLD）等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种3D数字人唇形实时驱动方法，所述3D数字人唇形实时驱动方法包括：获取训练音频和训练BS数据，得到训练音频-BS数据对；利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；将音频输入所述经训练的卷积神经网络模型以输出BS数据；基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

根据本公开的一个或多个实施例，3D数字人唇形实时驱动方法还包括：在获取所述训练音频和所述训练BS数据之前，制作3D数字人，其中，所述3D数字人具有符合arkit标准的52维BS结构。

根据本公开的一个或多个实施例，获取所述训练音频和所述训练BS数据包括：通过苹果手机和电脑获取所述训练音频和所述训练BS数据。

根据本公开的一个或多个实施例，通过苹果手机和电脑获取所述训练音频和所述训练BS数据包括：通过所述苹果手机或所述电脑获取所述训练音频；通过所述苹果手机获取所述训练BS数据；通过所述电脑接收从所述苹果手机发送的所述训练BS数据，并且通过安装在所述电脑中的虚拟引擎进行3D数字人唇形实时驱动，以实时验证所述训练BS数据的采集质量。

根据本公开的一个或多个实施例，3D数字人唇形实时驱动方法还包括：在进行3D数字人唇形的驱动之前，对所述BS数据进行滤波。

根据本公开的一个或多个实施例，将音频输入所述经训练的卷积神经网络模型包括：获取输入的文本信息；将所述文本信息转化为所述音频并且将所述音频输入所述经训练的卷积神经网络模型。

根据本公开的一个或多个实施例，所述卷积神经网络模型包括音素分析网络、语言表达网络和输出网络，其中，所述音素分析网络由五层残差块组成，所述输出网络由两层全连接层组成，所述输出网络的激活函数为修正线性单元。

根据本公开的一个或多个实施例，提供了一种3D数字人唇形实时驱动装置，所述3D数字人唇形实时驱动装置包括：训练数据获取模块，配置为获取训练音频和训练BS数据，得到训练音频-BS数据对；模型训练模块，配置为利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型； BS数据输出模块，配置为将音频输入所述经训练的卷积神经网络模型以输出BS数据；驱动模块，配置为基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

根据本公开的一个或多个实施例，提供了一种终端，包括：至少一个存储器和至少一个处理器；其中，所述至少一个存储器用于存储程序代码，所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行上述中任一项所述的方法。

根据本公开的一个或多个实施例，提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种3D数字人唇形实时驱动方法，其特征在于，所述3D数字人唇形实时驱动方法包括：

获取训练音频和训练BS数据，得到训练音频-BS数据对；

利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；

将音频输入所述经训练的卷积神经网络模型以输出BS数据；

基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

2.根据权利要求1所述的3D数字人唇形实时驱动方法，其特征在于，还包括：

在获取所述训练音频和所述训练BS数据之前，制作3D数字人，其中，所述3D数字人具有符合arkit标准的52维BS结构。

3.根据权利要求1所述的3D数字人唇形实时驱动方法，其特征在于，获取所述训练音频和所述训练BS数据包括：通过苹果手机和电脑获取所述训练音频和所述训练BS数据。

4.根据权利要求3所述的3D数字人唇形实时驱动方法，其特征在于，通过苹果手机和电脑获取所述训练音频和所述训练BS数据包括：

通过所述苹果手机或所述电脑获取所述训练音频；

通过所述苹果手机获取所述训练BS数据；

通过所述电脑接收从所述苹果手机发送的所述训练BS数据，并且通过安装在所述电脑中的虚拟引擎进行3D数字人唇形实时驱动，以实时验证所述训练BS数据的采集质量。

5.根据权利要求1所述的3D数字人唇形实时驱动方法，其特征在于，还包括：

在进行3D数字人唇形的驱动之前，对所述BS数据进行滤波。

6.根据权利要求1所述的3D数字人唇形实时驱动方法，其特征在于，将音频输入所述经训练的卷积神经网络模型包括：

获取输入的文本信息；

将所述文本信息转化为所述音频并且将所述音频输入所述经训练的卷积神经网络模型。

7.根据权利要求1所述的3D数字人唇形实时驱动方法，其特征在于，所述卷积神经网络模型包括音素分析网络、语言表达网络和输出网络，其中，所述音素分析网络由五层残差块组成，所述输出网络由两层全连接层组成，所述输出网络的激活函数为修正线性单元。

8.一种3D数字人唇形实时驱动装置，其特征在于，所述3D数字人唇形实时驱动装置包括：

训练数据获取模块，配置为获取训练音频和训练BS数据，得到训练音频-BS数据对；

模型训练模块，配置为利用所述训练音频-BS数据对训练卷积神经网络模型，得到经训练的卷积神经网络模型；

BS数据输出模块，配置为将音频输入所述经训练的卷积神经网络模型以输出BS数据；

驱动模块，配置为基于所述音频和所述BS数据进行3D数字人唇形的驱动和所述音频的同步播放。

9.一种终端，包括：

至少一个存储器和至少一个处理器；

其中，所述至少一个存储器用于存储程序代码，所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行权利要求1至7中任一项所述的3D数字人唇形实时驱动方法。

10.一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1至7中任一项所述的3D数字人唇形实时驱动方法。