CN116312613A

CN116312613A - 数字人表情口型驱动方法、系统、电子设备和存储介质

Info

Publication number: CN116312613A
Application number: CN202310280729.8A
Authority: CN
Inventors: 沈来信; 邵岭; 郑小林
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本公开的实施例提供一种数字人表情口型驱动方法、系统、电子设备和存储介质，方法包括：获取驱动语音；编码驱动语音，得到驱动语音的特征向量；输入驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；采样眨眼blendshape值，拼接口型blendshape值和眨眼blendshape值，得到最终blendshape值；输入最终blendshape值至Unity客户端，得到数字人表情口型。本公开结合了Transformer模型和Gaussdiffusion模型的优势，拟合成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，使生成的数字人表情和口型更加逼真。

Description

数字人表情口型驱动方法、系统、电子设备和存储介质

技术领域

本公开的实施例属于数字人技术领域，具体涉及一种数字人表情口型驱动方法、系统、电子设备和存储介质。

背景技术

随着数字人技术的发展，利用输入文本，利用语音合成可以得到对应的语音，对于给定的输入文本语音，通过设计的深度学习模型可以学习到数字人的表情口型的blendshape值，这个值和真人说话得到的blendshape越接近,数字人的表情越逼真，再把生成的blendshape返回给Unity客户端进行驱动，那么就可以生成数字人的表情口型。

对于给定输入文本或语音，生成高自然度的、唇音同步的人脸动画，Blendshape事一种动画制作方式，主要是人脸局部表情动作，再相邻的两个网格间做插值运算，从一个形状融合到另一个形状，根据blendshape参数，就可以生成数字人的人脸面部的动画。

发明专利《一种基于文本驱动的虚拟人微表情表达方法(公开号CN113838169A)》根据输入的文本合成语音，然后从合成语音中提取元音音素，利用Blendshape模型，根据文本的情感标签和元音音素得到动画，提出改进的多分辨率LPC分析语音中的共振峰信息，利用小波变换的多频带分解，可获取局部特征，可同时对频域及时域定位的特征，与LPC分析法相结合等。

发明专利《多模态交互的虚拟数字人的生成方法及装置、存储介质、中断(公开号CN114495927A)》利用语音生成模型、动画生成模型和对话模型完成使用者所期望的虚拟形象，通过给初始虚拟人配置交互能力模型，得到可进行多模态交互的虚拟交互人，生成虚拟数字人的应用程序和服务接口。

现有的数字人表情口型生成模型，其参数集的精准度还较低，生成的表情和口型的逼真度还有待提高。

发明内容

本公开的实施例旨在至少解决现有技术中存在的技术问题之一，提供一种数字人表情口型驱动方法、系统、电子设备和存储介质。

本公开的一个方面提供一种数字人表情口型驱动方法，包括：

获取驱动语音；

编码所述驱动语音，得到所述驱动语音的特征向量；

输入所述驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；

采样眨眼blendshape值，拼接所述口型blendshape值和所述眨眼blendshape值，得到最终blendshape值；

输入所述最终blendshape值至Unity客户端，得到数字人表情口型。

可选的，所述获取驱动语音，包括：

获取驱动文本；

采用语音合成处理所述驱动文本，得到驱动语音。

可选的，所述输入所述驱动语音的特征向量至预先训练的拟合模型，得到口型blendshape值，包括：

分别对每个所述驱动语音的特征向量进行打分，得到各所述驱动语音的特征向量的语音得分；

采用模型融合处理各所述驱动语音的特征向量的语音得分，得到口型blendshape值。

可选的，所述拟合模型通过以下步骤训练得到：

获取训练驱动语音；

编码所述训练驱动语音，得到所述训练驱动语音的特征向量；

提高Transformer模型的拟合度，得到拟合模型；

根据所述训练驱动语音的特征向量训练所述拟合模型。

本公开的另一个方面提供一种数字人表情口型驱动，包括：

获取模块，用于获取驱动语音；

编码模块，用于编码所述驱动语音，得到所述驱动语音的特征向量；

生成模块，用于输入所述驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；

后处理模块，用于采样眨眼blendshape值，拼接所述口型blendshape值和所述眨眼blendshape值，得到最终blendshape值；

驱动模块，用于输入所述最终blendshape值至Unity客户端，得到数字人表情口型。

可选的，获取模块还用于：

获取驱动文本；

采用语音合成处理所述驱动文本，得到驱动语音。

可选的，所述系统还包括融合模块，其用于：

可选的，所述系统还包括训练模块，用于：

获取训练驱动语音；

提高Transformer模型的拟合度，得到拟合模型；

根据所述训练驱动语音的特征向量训练所述拟合模型。

本公开的又一个方面提供一种电子设备，包括：

一个或多个处理器；存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。

本公开的最后一个方面提供一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行时能实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。

本公开的实施例的一种数字人表情口型驱动方法、系统、电子设备和存储介质，采用基于Transformer和Gaussdiffusion模型的blendshape生成架构，进行多模型融合以及眨眼后处理优化方案，充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势，拟合生成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，得到更加精准的模型参数集，使生成的数字人表情和口型更加逼真。

附图说明

图1为本公开一实施例的一种数字人表情口型驱动方法的步骤示意图；

图2为本公开另一实施例的Gaussdiffusion模型架构图；

图3为本公开另一实施例的一种数字人表情口型驱动系统的结构示意图；

图4为本公开另一实施例的一种电子设备的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。

如图1所示，本公开的实施例提供一种数字人表情口型驱动方法，包括：

S1、获取驱动语音。

具体地，如果输入的是文本，利用语音合成模型，得到对应的语音。如果输入的是语音，则直接输入到Wav2vec2.0模型中。

S2、编码所述驱动语音，得到所述驱动语音的特征向量。

具体地，利用语音编码器Wav2vec2.0，对S1中输入的语音进行语音特征提取和编码，得到256维的特征向量。

S3、输入所述驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值。

示例性地，所述拟合模型由以下步骤训练得到：

S31、获取训练驱动语音；S32、编码所述训练驱动语音，得到所述训练驱动语音的特征向量；S33、提高Transformer模型的拟合度，得到拟合模型；S34、根据所述训练驱动语音的特征向量训练所述拟合模型。

具体地，步骤S31使用同上述步骤S1中同样的方法获取训练驱动语音。同理，步骤S32使用同上述步骤S2中同样的方法对步骤S31中获取的训练驱动语音进行处理。在步骤S33中具体使用Gaussdiffusion(高斯扩散模型)提高Transformer模型的拟合度。Transformer模型为基于Encoder(编码器)-Decoder(解码器)-Self-Attention(自注意力)架构设计的轻量级Transformer模块，其中编码层数encoder_layer取5，编码头encoder_head取2，编码隐藏层数encoder_hidden取128。Gaussdiffusion中，扩散时间步长timesteps取100，残差层数residual_layers取15，如图2所示为其模型架构。在步骤S34中，对于Transformer模型，分别使用训练步长Epoch取50000，每批步长k-step分别取100和150，残差层数Residual_layers分别取15和17，学习率Lr取0.00008，耐心系数Warmup_steps取4000，批数据大小Batch_size取8，分别得到四个模型，记为model1、model2、model3和model4。

训练完成的Transformer模型还将进行模型融合，具体为：对于每一个输入音频，使用model1、model2、model3和model4进行打分，分别得到Score1、Score2、Score3和Score4，使用模型融合策略，每个模型选取验证集分数最好的模型融合以及结果融合策略相结合，得到模型融合结果score。

S4、采样眨眼blendshape值，拼接所述口型blendshape值和所述眨眼blendshape值，得到最终blendshape值。

具体地，分别处理左眼眨眼、左眼目视下方、左眼注视鼻尖、左眼目视上方、左眼眯眼、左眼睁大、右眼眨眼、右眼目视下方和右眼注视鼻尖等，处理方法就是针对每个动作，随机从真实样本里采样眨眼的blendshape，和生成的口型blendshape拼接在一起作为最终结果。

S5、输入所述最终blendshape值至Unity客户端，得到数字人表情口型。

具体地，利用生成的blendshape值，返回给Unity客户端进行驱动，得到数字人的表情口型等。

本公开实施例的一种数字人表情口型驱动方法，采用基于Transformer和Gaussdiffusion模型的blendshape生成架构，进行多模型融合以及眨眼后处理优化方案，充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势，拟合生成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，得到更加精准的模型参数集，使生成的数字人表情和口型更加逼真。

如图3所示，本公开的另一实施例提供一种数字人表情口型驱动系统，其包括：

获取模块301，用于获取驱动语音；

编码模块302，用于编码所述驱动语音，得到所述驱动语音的特征向量；

生成模块303，用于输入所述驱动语音的特征向量至预先训练的拟合模型，生成口型blendshape值；

后处理模块304，用于采样眨眼blendshape值，拼接所述口型blendshape值和所述眨眼blendshape值，得到最终blendshape值；

驱动模块305，用于输入所述最终blendshape值至Unity客户端，得到数字人表情口型。

具体地，获取模块301用于向Wav2vec2.0模型输入驱动语音，如果输入的是文本，则利用语音合成模型，得到对应的语音。如果输入的是语音，则直接输入到Wav2vec2.0模型中。

编码模块302利用语音编码器Wav2vec2.0，对获取模块301中输入的语音进行语音特征提取和编码，得到256维的特征向量。

示例性地，所述系统还包括训练模块306，用于：

获取训练驱动语音；

提高Transformer模型的拟合度，得到拟合模型；

根据所述训练驱动语音的特征向量训练所述拟合模型。

具体地，训练模块306使用同上述获取模块301中同样的方法获取训练驱动语音。并使用同上述编码模块302中同样的方法对获取模块301中获取的训练驱动语音进行处理。随后使用Gaussdiffusion(高斯扩散模型)提高Transformer模型的拟合度。Transformer模型为基于Encoder(编码器)-Decoder(解码器)-Self-Attention(自注意力)架构设计的轻量级Transformer模块，其中编码层数encoder_layer取5，编码头encoder_head取2，编码隐藏层数encoder_hidden取128。Gaussdiffusion中，扩散时间步长timesteps取100，残差层数residual_layers取15，如图2所示为其模型架构。在训练时，对于Transformer模型分别使用训练步长Epoch取50000，每批步长k-step分别取100和150，残差层数Residual_layers分别取15和17，学习率Lr取0.00008，耐心系数Warmup_steps取4000，批数据大小Batch_size取8，分别得到四个模型，记为model1、model2、model3和model4。

示例性地，所述系统还包括融合模块307，其用于：

具体地，训练完成的Transformer模型还将通过融合模块307进行模型融合，具体为：对于每一个输入音频，使用model1、model2、model3和model4进行打分，分别得到Score1、Score2、Score3和Score4，使用模型融合策略，每个模型选取验证集分数最好的模型融合以及结果融合策略相结合，得到模型融合结果score。

后处理模块304分别处理左眼眨眼、左眼目视下方、左眼注视鼻尖、左眼目视上方、左眼眯眼、左眼睁大、右眼眨眼、右眼目视下方和右眼注视鼻尖等，处理方法就是针对每个动作，随机从真实样本里采样眨眼的blendshape，和生成的口型blendshape拼接在一起作为最终结果。

最后，驱动模块305利用生成的blendshape值，返回给Unity客户端进行驱动，得到数字人的表情口型等。

本公开实施例的一种数字人表情口型驱动系统，采用基于Transformer和Gaussdiffusion模型的blendshape生成架构，进行多模型融合以及眨眼后处理优化方案，充分结合了Transformer模型和高斯拓展Gaussdiffusion模型的优势，拟合生成更精准的blendshape特征参数集；同时利用模型融合和眨眼后处理优化，得到更加精准的模型参数集，使生成的数字人表情和口型更加逼真。

如图4所示，本公开的又一实施例提供一种电子设备，包括：

一个或多个处理器401；存储器402，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器401执行时，能使得所述一个或多个处理器401实现如前文所述的数字人表情口型驱动方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的最后一实施例提供一种计算机可读存储介质，其上存储有计算机程序。所述计算机程序被处理器执行时能实现如前文所述的数字人表情口型驱动方法。

其中，计算机可读介质可以是本发明的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种数字人表情口型驱动方法，其特征在于，包括：

获取驱动语音；

编码所述驱动语音，得到所述驱动语音的特征向量；

2.根据权利要求1所述的方法，其特征在于，所述获取驱动语音，包括：

获取驱动文本；

采用语音合成处理所述驱动文本，得到驱动语音。

3.根据权利要求1所述的方法，其特征在于，所述输入所述驱动语音的特征向量至预先训练的拟合模型，得到口型blendshape值，包括：

4.根据权利要求1所述的方法，其特征在于，所述拟合模型通过以下步骤训练得到：

获取训练驱动语音；

提高Transformer模型的拟合度，得到拟合模型；

根据所述训练驱动语音的特征向量训练所述拟合模型。

5.一种数字人表情口型驱动系统，其特征在于，所述系统包括：

获取模块，用于获取驱动语音；

6.根据权利要求5所述的系统，其特征在于，所述获取模块还用于：

获取驱动文本；

采用语音合成处理所述驱动文本，得到驱动语音。

7.根据权利要求5所述的系统，其特征在于，所述系统还包括融合模块，其用于：

8.根据权利要求5所述的系统，其特征在于，所述系统还包括训练模块，用于：

获取训练驱动语音；

提高Transformer模型的拟合度，得到拟合模型；

根据所述训练驱动语音的特征向量训练所述拟合模型。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，

所述计算机程序被处理器执行时能实现根据权利要求1至4任一项所述的数字人表情口型驱动方法。