CN116705038A

CN116705038A - 基于语音分析的3d虚拟演讲者驱动方法及相关装置

Info

Publication number: CN116705038A
Application number: CN202310781774.1A
Authority: CN
Inventors: 陈观理; 黄国恒; 黄俊平
Original assignee: Guangzhou Huateng Education Technology Co ltd
Current assignee: Guangzhou Huateng Education Technology Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-05

Abstract

本申请公开了基于语音分析的3D虚拟演讲者驱动方法及相关装置，方法包括：通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征，模型包括残差块；基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征；通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数；依据口型系数、头部运动系数和预置手部动作对3D虚拟演讲者驱动。本申请能解决现有技术仅考虑语音驱动的口型变化情况，忽略其他动作形态，且驱动因素仅分析语音，太过单一，导致三维虚拟演讲者动作驱动效果较差的技术问题。

Description

基于语音分析的3D虚拟演讲者驱动方法及相关装置

技术领域

本申请涉及语音分析技术领域，尤其涉及基于语音分析的3D虚拟演讲者驱动方法及相关装置。

背景技术

现如今由于受各种外界环境因素影响，同时基于网络在线学习给学习者提供了便捷、自由和宽松的学习环境，学习者们更倾向于从网络视频上获取知识。然而，这种分离时空的教学方式久而久之会使学习者难以保持长久的热情，专注力也会有所下降。针对这一问题三维虚拟教师应运而生。在动画视频教学中，虚拟教师的形象对调动学生积极性、引导学生参与课堂等方面具有积极影响，而一个好的虚拟教师形象对人物建模、人物口型与人物动作都有要求。

一个包含三维虚拟教师形象的视频需要通过人工手段驱动三维人物模型，使虚拟教师能够动起来达到真实教师教授课程的效果，这其中的每一过程都需要人工参与调节，并且在模型发生较大变化时，需要重新进行骨骼绑定等操作，难以复用过去的成果，这导致了教学视频的产出需要耗费较多的时间与人力，由此可见，传统的语音和面部运动的同步很难人工实现，这就需要用自动生成虚拟人物口型与动作的方案来缩短视频制作工期与人力。

现有的方法有使用颜色、深度和音频重现RGBD传感器记录说话者面部动画，然而，这并不适用于推广到不可见的说话者的语音。同时也有的方法试图在潜在表征中对说话者风格进行建模，或者将个人风格编码在静态blendshape基础中，但是这两种方法都集中于较低的面部动画，主要是在唇部，并不包含其他动作。主流的语音驱动三维模型是编码器-解码器模型，或结合解耦与融合的思想计算口型的偏移量。单纯口型的变化而忽略了语音驱动人脸面部表情，让三维虚拟人物看起来目光呆滞，无法与学习者产生共鸣，并且语音中演讲者的声音特征、情绪特征与上下文内容特征也应该对人物的口型与动作产生影响，否则会使虚拟人物的表现能力不佳。而且，在口型生成时忽略了声色、抑扬等具有演讲者特点的部分；另外，头部动作并非只与语音相关，相同的语音内容可能有不同的动作，或者说头部动作并非是语音一个因素可以决定。所以实际的三维虚拟演讲者语音驱动效果较差，不满足实际场景应用需求。

发明内容

本申请提供了基于语音分析的3D虚拟演讲者驱动方法及相关装置，用于解决现有技术仅考虑语音驱动的口型变化情况，忽略了其他动作形态，且驱动因素仅分析语音，太过单一，导致三维虚拟演讲者动作驱动效果较差的技术问题。

有鉴于此，本申请第一方面提供了基于语音分析的3D虚拟演讲者驱动方法，包括：

通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；

采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征，所述预设自回归概率模型包括残差块；

基于LSTM网络模型和第一MLP根据所述语音内容编码和所述演讲人信息编码提取风格口型特征，所述风格口型特征包括通用口型特征；

通过第二MLP根据所述当前头部运动特征和所述风格口型特征计算口型系数和头部运动系数；

依据所述口型系数、所述头部运动系数和预置手部动作对3D虚拟演讲者进行驱动。

优选地，所述采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征，包括：

以历史头部运动特征和对应的历史语音表征为条件，采用预设自回归概率模型捕获所述语音内容编码中头部运动的时序依赖关系，并预测当前头部运动特征。

优选地，所述基于LSTM网络模型和第一MLP根据所述语音内容编码和所述演讲人信息编码提取风格口型特征，所述风格口型特征包括通用口型特征，包括：

基于第一LSTM网络模型在所述语音内容编码中提取通用口型特征；

通过第一MLP将所述演讲人信息编码进行降维处理后，采用第二LSTM网络模型根据所述通用口型特征和降维后的所述演讲人编码信息进行综合特征提取，得到风格口型特征。

优选地，所述依据所述口型系数、所述头部运动系数和预置手部动作对3D虚拟演讲者进行驱动，之前还包括：

基于姿势静止回归模型和MoGlow模型构建自回归序列到序列模型；

采用所述自回归序列到序列模型根据所述语音内容编码生成预置手部动作。

本申请第二方面提供了基于语音分析的3D虚拟演讲者驱动装置，包括：

特征编码单元，用于通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；

头部预测单元，用于采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征，所述预设自回归概率模型包括残差块；

口型分析单元，用于基于LSTM网络模型和第一MLP根据所述语音内容编码和所述演讲人信息编码提取风格口型特征，所述风格口型特征包括通用口型特征；

系数计算单元，用于通过第二MLP根据所述当前头部运动特征和所述风格口型特征计算口型系数和头部运动系数；

形态驱动单元，用于依据所述口型系数、所述头部运动系数和预置手部动作对3D虚拟演讲者进行驱动。

优选地，所述头部预测单元，具体用于：

优选地，所述口型分析单元，具体用于：

优选地，还包括：

模型构建单元，用于基于姿势静止回归模型和MoGlow模型构建自回归序列到序列模型；

动作生成单元，用于采用所述自回归序列到序列模型根据所述语音内容编码生成预置手部动作。

本申请第三方面提供了基于语音分析的3D虚拟演讲者驱动设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于语音分析的3D虚拟演讲者驱动方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的基于语音分析的3D虚拟演讲者驱动方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了基于语音分析的3D虚拟演讲者驱动方法，包括：通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征，预设自回归概率模型包括残差块；基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征，风格口型特征包括通用口型特征；通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数；依据口型系数、头部运动系数和预置手部动作对3D虚拟演讲者进行驱动。

本申请提供的基于语音分析的3D虚拟演讲者驱动方法，基于当前语音信息不仅考虑了口型特征，还分别提取出了头部运动特征和手部动作用于生动灵活的驱动演讲者的动作形态；而且除了语音内容信息之外，还考虑了演讲人信息，结合演讲人个性化特征和语音内容分析并得到各类动作系数，进而实现对演讲者的高效驱动；此外，在头部运动特征分析阶段还考虑到了前面时间的头部运动特征对后来时间的头部运动特征的影响，更加符合实际情况。因此，本申请能够解决现有技术仅考虑语音驱动的口型变化情况，忽略了其他动作形态，且驱动因素仅分析语音，太过单一，导致三维虚拟演讲者动作驱动效果较差的技术问题。

附图说明

图1为本申请实施例提供的基于语音分析的3D虚拟演讲者驱动方法的流程示意图；

图2为本申请实施例提供的基于语音分析的3D虚拟演讲者驱动装置的结构示意图；

图3为本申请实施例提供的采用预设自回归概率模型提取头部运动特征的过程示意图；

图4为本申请实施例提供的结合口型特征、头部运动特征和手部动作特征驱动演讲者的流程示意图；

图5为本申请实施例提供的预置手部动作生成过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的基于语音分析的3D虚拟演讲者驱动方法的实施例，包括：

步骤101、通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码。

当前语音信息中可以提取到与演讲者无关的音频内容信息，本实施例采用的预置编码器是AutoVC编码器，该编码器可以将音频内容信息压缩成紧凑的表达，然后经过网络训练放弃原演讲者信息，只保留语音内容；即从当前语音信息中提取语音内容编码，可以表达为C∈R^T×bs，其中，R为向量空间，T为输入当前语音信息中的音频帧总数，bs为三维模型blendshape系数的个数。

本实施例通过说话者验证模型在当前语音信息中提取演讲者的身份信息，这个模型可以最大化同一个说话者的不同话语之间的相似性，并最小化不同说话者之间的相似性，若是提取的说话者身份信息向量S的大小为256，那么通过单层MLP就可以将其维数从256降到128，从而提高人脸动画的泛化能力，尤其是对陌生演讲者的处理。经过处理的身份信息就可以生成演讲人信息编码，用于后续的特征分析和提取的过程中。

步骤102、采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征，预设自回归概率模型包括残差块。

进一步地，步骤102，包括：

以历史头部运动特征和对应的历史语音表征为条件，采用预设自回归概率模型捕获语音内容编码中头部运动的时序依赖关系，并预测当前头部运动特征。

由于单纯口型的变化而忽略了语音驱动人其他动作状态，让三维虚拟人物看起来目光呆滞，无法与学习者产生共鸣，本实施例结合了头部运动才可以在一定程度上保持好观感。

为了从音频中生成个性化和时间一致的头部姿势，本实施例将提取的与说话人无关的音频内容特征投影到目标特征空间，并利用目标特征重建音频特征，此过程可以看作从源域到目标域的域自适应。假设当前或者未来时刻的头部运动姿势与音频信息相关，部分与历史头部运动姿势相关。为了使头部运动衔接的更自然，本实施例使用改进的预设自回归概率模型进行处理，根据估计的分布对头部姿势进行采样，捕获之前时刻的历史头部运动特征与语音表征作为条件，形成自回归的机制，头部运动的联合概率描述如下：

其中，h_t、h_t-1分别为第t帧和第t-1帧的头部运动特征，C_t为第t帧的语音内容编码。

使用的概率模型是多维高斯分布，且是使用两个残差块堆叠生成概率模型，在残差块内使用空洞卷积替换普通卷积以捕获头部运动的时序依赖关系，请参阅图3，感受野l是捕获之前头部特征的帧数，每一层的输出被使用两个relu与卷积堆叠的网络和全连接层处理，以生成头部运动的高斯分布H_Gau的平均值μ和标准差σ。在当前分布中进行采样获得头部运动特征，包含当前帧的头部运动信息；在采样之后，将当前头部姿态编码为下一时间步的输入姿态信息，形成自回归机制：

H_Gau＝Φ(H_t-l,…,H_t-1,C_t)

H_t＝Sample(H_Gau)

其中，H_t-l为当前帧t的前第l帧的头部运动特征。基于以上过程可以预测得到当前头部运动特征H_t。

步骤103、基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征，风格口型特征包括通用口型特征。

进一步地，步骤103，包括：

基于第一LSTM网络模型在语音内容编码中提取通用口型特征；

通过第一MLP将演讲人信息编码进行降维处理后，采用第二LSTM网络模型根据通用口型特征和降维后的演讲人编码信息进行综合特征提取，得到风格口型特征。

直接采用第一LSTM网络模型可以在语音内容编码中提取到通用口型特征M_n,t，但是为了更加准确可靠的表达出口型特征，还需要提取包含演讲人身份信息的口型特征M_s,t；两种口型特征结合才可以得到风格口型特征。

对于通用口型特征M_n,t的提取，在处理第t帧时，第一LSTM网络模型中的网络模块将[t,t+τ]内的内容信息C_[t,t+τ]作为输入，其中是τ帧窗口容量，公式具体表达为：

其中，为LSTM网络模型中网络层L_c的可学习参数。

对于包含演讲者身份信息的口型特征的提取是考虑不同演讲者在发音时的口型变化方向是相似的，但是演讲者的情感、音量和风格等特点仍然会影响口型变化情况。所以首先采用第一MLP将演讲人信息编码S进行降维处理，若是S维度是256，降维处理后是128，以提高泛化能力；降维后的演讲人信息编码表达为S’。将内容信息C_[t,t+τ]与S’嵌入第二LSTM网络模型中极性特征分析，即可得到包含演讲人身份信息的口型特征M_s,t；在处理第t帧时，LSTM模块将[t,t+τ]内的内容信息C_[t,t+τ]作为输入，其中τ是帧窗口容量，公式如下：

S'＝MLP₁(S)

其中，为LSTM网络模型中网络层L_s的可学习参数。

将通用口型特征M_n,t与包含演讲人身份信息的口型特征M_s,t拼接得到风格口型特征M_t：

综合考虑通用口型特征和包含演讲人身份信息的口型特征才会使虚拟演讲者的口型变化与语音更加契合，驱动效果更好。

步骤104、通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数。

将原始的bs信息、口型中间状态特征M_t和当前头部运动特征H_t一起嵌入有两个分支的第二MLP网络MLP₂，得到当前帧的模型口型blendshape系数，即口型系数bs_t和头部运动系数hp_t，hp_t包含yaw、roll、pitch三个方向的值，公式表达如下：

bs_t,hp_t＝MLP₂(bs,M_t,H_t)

步骤105、依据口型系数、头部运动系数和预置手部动作对3D虚拟演讲者进行驱动。

预置手部动作也是根据语音内容编码生成的符合实际情况的除了口型变化之外的动作形态，结合口型和头部变化状态可以更加灵活生动的表现演讲者的肢体动作，更能使听讲者产生共鸣。请参阅图4，本实施例最终结合口型系数、头部运动系数和预置手部动作可以更加高效的驱动3D虚拟演讲者。

进一步地，步骤105，之前还包括：

采用自回归序列到序列模型根据语音内容编码生成预置手部动作。

本实施例中考虑到自然的手势可以使虚拟教师更具信服力和亲和力，以达到更好的授课效果。所以，首先在姿势序列x＝[x₁,......,x_T]的静止回归模型中使用归一化流技术以学习姿势X的多维下一步分布，这样可以在表示大量连续值分布的同时高效的推理和分布采样。此外，还引入MoGlow模型，通过使用Glow来描述自回归模型中的下一步分布，以扩展到建模和生成运动的问题。而且MoGlow增加了对输出的控制，使用递归神经网络进行跨时间的长期记忆。同时将之前的姿势x_t-l:t-1和当前的控制信号c_t输入系统的仿生耦合层，由此产生自回归序列到序列模型p可以表达为：

h_t+1＝g(x_t-l:t-1,c_t,h_t)

其中，假设自回归序列到序列模型和放射函数g(·)不依赖于时间t，控制信号c_t不仅包含当前的语音特征a_t，同时还包括周围的语音特征窗口a_t-l:t+τ。预置手部动作基于窗口特征处理的方式生成过程如图5所示；控制信息和自回归上下文组成调节信息输入MoGlow模型得到下一步的分布，进而生成预置手部动作h_t+1。

本申请实施例提供的基于语音分析的3D虚拟演讲者驱动方法，基于当前语音信息不仅考虑了口型特征，还分别提取出了头部运动特征和手部动作用于生动灵活的驱动演讲者的动作形态；而且除了语音内容信息之外，还考虑了演讲人信息，结合演讲人个性化特征和语音内容分析并得到各类动作系数，进而实现对演讲者的高效驱动；此外，在头部运动特征分析阶段还考虑到了前面时间的头部运动特征对后来时间的头部运动特征的影响，更加符合实际情况。因此，本申请实施例能够解决现有技术仅考虑语音驱动的口型变化情况，忽略了其他动作形态，且驱动因素仅分析语音，太过单一，导致三维虚拟演讲者动作驱动效果较差的技术问题。

为了便于理解，请参阅图2，本申请提供了基于语音分析的3D虚拟演讲者驱动装置的实施例，包括：

特征编码单元201，用于通过预置编码器在当前语音信息中分别获取语音内容编码和演讲人信息编码；

头部预测单元202，用于采用预设自回归概率模型根据语音内容编码和历史头部运动特征预测当前头部运动特征，预设自回归概率模型包括残差块；

口型分析单元203，用于基于LSTM网络模型和第一MLP根据语音内容编码和演讲人信息编码提取风格口型特征，风格口型特征包括通用口型特征；

系数计算单元204，用于通过第二MLP根据当前头部运动特征和风格口型特征计算口型系数和头部运动系数；

形态驱动单元205，用于依据口型系数、头部运动系数和预置手部动作对3D虚拟演讲者进行驱动。

优选地，头部预测单元202，具体用于：

优选地，口型分析单元203，具体用于：

基于第一LSTM网络模型在语音内容编码中提取通用口型特征；

优选地，还包括：

模型构建单元206，用于基于姿势静止回归模型和MoGlow模型构建自回归序列到序列模型；

动作生成单元207，用于采用自回归序列到序列模型根据语音内容编码生成预置手部动作。

本申请还提供了基于语音分析的3D虚拟演讲者驱动设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行上述方法实施例中的基于语音分析的3D虚拟演讲者驱动方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述方法实施例中的基于语音分析的3D虚拟演讲者驱动方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.基于语音分析的3D虚拟演讲者驱动方法，其特征在于，包括：

2.根据权利要求1所述的基于语音分析的3D虚拟演讲者驱动方法，其特征在于，所述采用预设自回归概率模型根据所述语音内容编码和历史头部运动特征预测当前头部运动特征，包括：

3.根据权利要求1所述的基于语音分析的3D虚拟演讲者驱动方法，其特征在于，所述基于LSTM网络模型和第一MLP根据所述语音内容编码和所述演讲人信息编码提取风格口型特征，所述风格口型特征包括通用口型特征，包括：

4.根据权利要求1所述的基于语音分析的3D虚拟演讲者驱动方法，其特征在于，所述依据所述口型系数、所述头部运动系数和预置手部动作对3D虚拟演讲者进行驱动，之前还包括：

5.基于语音分析的3D虚拟演讲者驱动装置，其特征在于，包括：

6.根据权利要求5所述的基于语音分析的3D虚拟演讲者驱动装置，其特征在于，所述头部预测单元，具体用于：

7.根据权利要求5所述的基于语音分析的3D虚拟演讲者驱动装置，其特征在于，所述口型分析单元，具体用于：

8.根据权利要求5所述的基于语音分析的3D虚拟演讲者驱动装置，其特征在于，还包括：

9.基于语音分析的3D虚拟演讲者驱动设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的基于语音分析的3D虚拟演讲者驱动方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的基于语音分析的3D虚拟演讲者驱动方法。