CN115272537A

CN115272537A - 基于因果卷积的音频驱动表情方法及装置

Info

Publication number: CN115272537A
Application number: CN202210723651.8A
Authority: CN
Inventors: 司马华鹏; 廖铮; 唐翠翠
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2022-11-01
Also published as: CN113592985B; US11847726B2; WO2023011221A1; CN113592985A; US20230215068A1

Abstract

本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置，所述方法包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；将目标音频特征向量和目标标识输入音频驱动动画模型；将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t‑n时刻之间的输入特征向量确定下一层(2t‑n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入独热编码层进行二进制向量编码，得到目标标识编码特征；根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值。

Description

基于因果卷积的音频驱动表情方法及装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置。

背景技术

语音驱动三维人脸动画的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对真人录音或者使用从文本到语音(Text To Speech，简称为TTS)技术合成的语音进行预处理，使之驱动虚拟的三维人脸头像上合成与语音对应的口型动画(lipanimation)和面部表情(facial expressions)。

相关技术中，语音驱动三维人脸动画的研究主要集中在合成同步、精确的口型动画，以及通过语音分析实现对面部表情的分类上，目前还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部表情。缺乏面部表情会使得语音驱动虚拟人的表情木讷、呆滞，没有较为丰富的信息反馈，降低了人机交互的可理解性和认知度。

针对相关技术中，无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于因果卷积的音频驱动表情方法及装置、存储介质、电子装置，以至少解决相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题。

在本申请的一个实施例中，提出了一种基于因果卷积的音频驱动表情方法，包括：对获取的目标音频数据进行特征提取，得到目标音频特征向量；

将所述目标音频特征向量和目标标识输入音频驱动动画模型，其中，所述目标标识为从预设标识中选取的标识，所述预设标识用于指示预设的说话风格，所述音频驱动动画模型包括音频编码层和独热编码层；其中，所述音频编码层包括输入层、输出层，以及分布于所述输入层与所述输出层之间的多个卷积层，每一卷积层包括多个第一卷积通道以及多个第二卷积通道，所述第一卷积通道用于指示非空闲的卷积通道，所述第二卷积通道用于指示空闲的卷积通道；位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量；

将所述目标音频特征向量输入所述音频编码层，根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算；根据上一层卷积层在t时刻和t-n时刻之间的输入特征向量确定下一层卷积层在(2t-n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层卷积层的有效特征向量输出目标音频编码特征，并将所述目标标识输入所述独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；

根据所述目标音频编码特征和所述目标标识编码特征，通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值；

根据所述混合变形值驱动虚拟对象的口型动画和面部表情，其中，所述混合变形值与所述目标标识相对应。

在本申请的一个实施例中，还提出了一种基于因果卷积的音频驱动表情装置，包括：特征提取模块，配置为对获取的目标音频数据进行特征提取，得到目标音频特征向量；输入模块，配置为将所述目标音频特征向量和目标标识输入音频驱动动画模型，其中，所述目标标识为从预设标识中选取的标识，所述预设标识用于指示预设的说话风格，所述音频驱动动画模型包括：音频编码层和独热编码层；其中，所述音频编码层包括输入层、输出层，以及分布于所述输入层与所述输出层之间的多个卷积层，每一卷积层包括多个第一卷积通道以及多个第二卷积通道，所述第一卷积通道用于指示非空闲的卷积通道，所述第二卷积通道用于指示空闲的卷积通道；位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量；编码模块，配置为将所述目标音频特征向量输入所述音频编码层，根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算；根据上一层卷积层在t时刻和t-n时刻之间的输入特征向量确定下一层卷积层在(2t-n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层卷积层的有效特征向量输出目标音频编码特征，并将所述目标标识输入所述独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；输出模块，配置为根据所述目标音频编码特征和所述目标标识编码特征，通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值；所述输出模块还配置为，根据所述混合变形值驱动虚拟对象的口型动画和面部表情，其中，所述混合变形值与所述目标标识相对应。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，对获取的目标音频数据进行特征提取，得到目标音频特征向量；将目标音频特征向量和目标标识输入音频驱动动画模型，其中，目标标识为从预设标识中选取的标识，预设标识用于指示预设的说话风格，音频驱动动画模型包括：音频编码层和独热编码层；将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值，其中，混合变形值用于指示虚拟对象的口型动画和面部表情，混合变形值与目标标识相对应。解决了相关技术中无法有效实现语音同时驱动虚拟对象的口型动画和面部表情的技术问题，本申请使用的编码方式相对于现有的卷积神经网络的编码方式，计算速度快，消耗小，极大的提高了动画生成速度，可以根据音频实时产生说话动画，同时结合目标标识编码，可以产生指定人物风格的说话动画，适用于多种应用场景。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的基于因果卷积的音频驱动表情方法流程图；

图2是根据本申请实施例的一种可选的音频特征编码方式示意图；

图3是根据本申请实施例的一种可选的训练数据预处理流程示意图；

图4是根据本申请实施例的一种可选的音频驱动动画模型的训练过程示意图；

图5是根据本申请实施例的一种可选的基于因果卷积的音频驱动表情装置的结构框图；

图6是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种基于因果卷积的音频驱动表情方法，包括：

步骤S102，对获取的目标音频数据进行特征提取，得到目标音频特征向量；

步骤S104，将目标音频特征向量和目标标识输入音频驱动动画模型，其中，目标标识为从预设标识中选取的标识，预设标识用于指示预设的说话风格，音频驱动动画模型包括：音频编码层和独热编码层；

步骤S106，将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；

步骤S108，根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值；

步骤S110，根据混合变形值驱动虚拟对象的口型动画和面部表情，其中，混合变形值与目标标识相对应。

需要说明的是，本申请实施例技术方案所涉及网络构架包括：音频接收设备，动画展示设备，人工智能服务器，上述基于因果卷积的音频驱动表情方法在人工智能服务器上实现。本申请实施例中的音频接收设备，动画展示设备不限于独立的设备，也可集成于其它具有拾音功能跟动画展示的硬件设备，如具备语音识别功能的LED大屏或者手机终端等。本申请实施例对此不做限定。

本申请实施例中涉及的预设标识用于指示预设的说话风格，可以理解为，对应指示不同风格说话人在说话时的面部表情，口型等。

需要说明的是，本申请实施例中通过音频编码层对目标音频特征进行编码的过程，如图2所示。音频编码层可以包括输入层、多层卷积层和输出层，为了直观地展示编码过程，图2中以2层卷积层为例进行说明。根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，本申请实施例中，以n＝2为例，根据输入层t、t-1和t-2时刻的输入特征向量确定第一卷积层t-1时刻的输入特征向量，并确定为有效特征向量，然后根据第一卷积层的有效特征向量可以确定第二卷积层的有效特征向量，进而通过输出层输出目标音频编码特征。结合附图2可以看出，相比于传统的循环神经网络结构，本申请实施例的音频编码层既可以获取序列的时序信息而且有计算速度快，消耗小的优点，而且越到上层，卷积层中空闲的卷积通道越多，由该空闲的卷积通道所形成的卷积窗口越大。

上述音频编码层在实际计算过程中，对于某个卷积层而言，其存在的卷积窗口可在当前时序用于学习上一卷积层在之前时序对应的输出(之前时序可以为一个或多个，可根据需求进行设定，例如，在每次计算过程中学习上一卷积层分别在之前三个时序对应的输出)，即在当前时序卷积层根据之前时序的输入综合计算当前时刻的输出。以此，本实施例中的音频编码层在进行计算过程中，并不需要额外设置卷积层去实现针对上一卷积层在之前时序对应的输出进行计算，而通过卷积层自身的卷积窗口即可实现该效果。

较于相关技术中，在引入更多计算参数而必要额外扩展多个卷积层的模型结构而言，本实施例中的音频编码层可显著减少卷积层的数量，例如，对于一个由三层卷积层构成的音频编码层的网络结构，设定卷积层在计算过程中需学习上一卷积层分别在之前三个时序对应的输出，则采用相关技术中的传统方式，需要对音频编码层中后两个卷积层分别扩展三个卷积层，对应学习上一卷积层分别在之前三个时序对应的输出，扩展后的音频编码层包括九个卷积层，其网络体积明显得以增加。相较之下，本实施例中的音频编码层不需要对卷积层进行额外扩展，通过音频编码层的三个卷积层中后两个卷积层的卷积窗口即可实现该效果。因此，本实施例中的音频编码层可在通过因果关系的学习提高模型效果的同时，显著控制模型的体积。

在一实施例中，在将音频特征向量和目标标识输入音频驱动动画模型之前，所述方法还包括：

使用样本数据训练音频驱动动画模型，其中，样本数据包括采集的说话对象的音频数据和与音频数据同步采集的说话对象的面部数据，以及面部数据对应的混合变形样本值，面部数据包括口型和面部表情。

需要说明的是，在使用样本数据训练音频驱动动画模型之前，本申请实施例还包括一个对音频数据预处理的流程，预处理过程包括数据采集，数据筛选，数据优化三部分构成，整体流程图如图3所示。

以使用iphone作为数据采集设备为例，iphone作为数据采集设备，得益于iphone的结构光和内置的arkit技术，可以实现成本较低的实时面部捕捉。在实际数据采集时，可以采用40句固定的话，20名演员在相同环境下对着iphone进行带有特定表情的说话。利用iphone记录演员说话时候的音频，以及每一帧arkit自带的52个混合形状(blendshape，简称为bs)的变化值。之后进行数据筛选，由人工筛出质量较好的数据，排除各种环境原因或者演员失误。最后考虑到数据的准确性，让动画师对数据进行手动优化，针对数据中不准确的部分，使用手动制作动画的方式进行优化。优化有的数据为后面可以使用的训练数据。

在一实施例中，使用样本数据训练所述音频驱动动画模型，包括：

通过自动语音识别模型提取音频数据的局部特征向量；

将局部特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效局部特征向量，依次根据每一层的有效局部特征向量输出音频数据对应的音频编码特征；

将说话对象的面部数据对应的标识输入独热编码层，得到标识对应的标识编码特征，其中，不同的面部数据对应不同的说话风格，标识用于指示说话风格；

将音频编码特征和标识编码特征拼接后进行编码和解码，输出音频数据对应的混合变形预测值，其中，混合变形预测值与标识相对应；

根据混合变形样本值和混合变形预测值的误差，使用损失函数训练音频驱动动画模型的模型参数。

需要说明的是，在实际使用时，考虑到声音接收设备以及声音来源的多种多样，需要一种具有泛化性的音频特征提取方式，因此选用自动语音识别模型对语音进行特征提取，比如masr，deepspeech模型等。通过获取中间层的特征来对音频进行特征提取。这样做的好处是语音识别模型经过了大量语料的训练，获取的音频特征对不同语种,不同接受设备，不同说话人都有较好的泛化性。

训练模块采用深度学习网络，输入为音频特征以及录制数据时的用户id(相当于标识)，输出为对应时间的blendshape值。为了保留说话时的面部表情，对不同录制人员的说话风格进行编码，在这里采用独热编码onehot方式进行直接编码。音频编码中既包含通用的发音信息，也包含少量的个性化说话风格信息。

在一实施例中，根据混合变形样本值和混合变形预测值的误差，使用损失函数训练音频驱动动画模型的模型参数，包括：

使用L2 loss函数获取混合变形样本值和混合变形预测值的重构误差、速度误差以及加速度误差；

根据重构误差、速度误差以及加速度误差训练音频驱动动画模型的模型参数。

需要说明的是，训练时可以采用l2loss函数，为了复现捕捉到的blendshape系数，计算真实blendshape系数与预测blendshape系数直接的l2误差,为了让预测效果更准确更平稳，可以计算1-3阶的误差,物理意义分别对应重构误差,速度误差,以及加速度误差。

在一实施例中，将音频编码特征和标识编码特征拼接后进行编码和解码，包括：

将音频编码特征和标识编码特征拼接后输入编码层，得到拼接特征编码，其中，编码层包含三层全连接网络层；

将拼接特征编码输入解码层，通过解码层输出标识对应的混合变形预测值，其中，解码层包含三层全连接网络层。

在一实施例中，根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值，包括：

将目标音频编码特征和目标标识编码特征拼接后进行编码和解码，输出目标音频数据对应的混合变形值。

如图4所示，音频驱动动画模型的训练过程包括特征编码，特征拼接，以及混合变形值的输出。为了能实现更加真实的三维人脸动画，将用户编码(相当于目标标识编码)与音频编码进行拼接，在保证发音信息足够泛化的同时，加入人物个性化信息，以此来实现口型动画和面部表情的较好复现。拼接后的特征送入encoder，decoder架构的网络中，decoder模块的输出即为最终的blendshape系数，其中encoder与decoder均可以由三层全连接网络构成。

在一实施例中，在输出目标音频数据对应的混合变形值之后，所述方法还包括：

根据目标音频数据对应的混合变形值以及目标标识对应的三维场景在显示屏上显示与混合变形值对应的视频画面。

在实际驱动时，首先通过音频接收设备获得音频，然后采用音频预处理模块对音频进行特征提取，用户id预设为想要的说话风格的id，两者一起输入预先训练好的音频驱动三维人脸动画模型中，输出对应帧的bs值，将bs值传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshape，通过ue4渲染到多种终端设备上。

本申请实施例还提供了一种基于因果卷积的音频驱动表情装置，如图5所示，包括：

特征提取模块502，配置为对获取的目标音频数据进行特征提取，得到目标音频特征向量；

输入模块504，配置为将目标音频特征向量和目标标识输入音频驱动动画模型，其中，目标标识为从预设标识中选取的标识，预设标识用于指示预设的说话风格，音频驱动动画模型包括：音频编码层和独热编码层；

编码模块506，配置为将目标音频特征向量输入包含多层卷积层的所述音频编码层，根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入所述独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；

输出模块508，配置为根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值；输出模块还配置为，根据混合变形值驱动虚拟对象的口型动画和面部表情，其中，混合变形值与目标标识相对应。

在一示例性实施例中，以手机终端的模仿用户说话为例进行说明，用户通过手机终端程序进行收音，音频设备获得音频，然后采用音频预处理模块对音频进行特征提取，用户id预设为我们想要的说话风格的id，两者一起输入预先训练好的音频驱动三维人脸动画模型中，输出对应帧的bs值，将bs值传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshape，通过ue4渲染到手机上。

在另一示例性实施例中，以大屏幕的播放广告为例进行说明，通过内置录音或者内部的从文本到语音(Text To Speech，简称为TTS)系统获得获得音频，然后采用音频预处理模块对音频进行特征提取，用户id预设为我们想要的说话风格的id，两者一起输入预先训练好的音频驱动三维人脸动画模型中，输出对应帧的bs值，将bs值传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshape，通过ue4渲染到大屏上。

本申请实施例的音频驱动动画模型通过音频编码方式代替领域内传统使用的RNN极大的提高了动画生成速度，可以根据音频实时产生说话动画。本申请实施例的音频编码方式结合说话人编码，可以同时实现口型动画和面部表情的较好复现。本申请实施例的音频驱动动画模型通过对说话人编码，可以产生指定人物风格的说话动画，适用于多种应用场景。同时可以接收不同语种，不同收声设备，不同说话人的说话音频，且支持TTS，适用于多种应用场景。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于因果卷积的音频驱动表情方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图6所示，该电子装置包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，对获取的目标音频数据进行特征提取，得到目标音频特征向量；

S2，将目标音频特征向量和目标标识输入音频驱动动画模型，其中，目标标识为从预设标识中选取的标识，预设标识用于指示预设的说话风格，音频驱动动画模型包括：音频编码层和独热编码层；

S3，将目标音频特征向量输入包含多层卷积层的音频编码层，根据上一层t时刻和t-n时刻之间的输入特征向量确定下一层(2t-n)/2时刻的输入特征向量，将与上一层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层的有效特征向量输出目标音频编码特征，并将目标标识输入独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；

S4，根据目标音频编码特征和目标标识编码特征，通过音频驱动动画模型输出目标音频数据对应的混合变形值，其中，混合变形值用于指示虚拟对象的口型动画和面部表情，混合变形值与目标标识相对应。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本申请实施例中的基于因果卷积的音频驱动表情方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于因果卷积的音频驱动表情方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于基于因果卷积的音频驱动表情方法的程序步骤。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示训练过程；和连接总线610，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于因果卷积的音频驱动表情方法，其特征在于，包括：

对获取的目标音频数据进行特征提取，得到目标音频特征向量；

2.根据权利要求1所述的方法，其特征在于，在将所述音频特征向量和目标标识输入音频驱动动画模型之前，所述方法还包括：

使用样本数据训练所述音频驱动动画模型，其中，所述样本数据包括采集的说话对象的音频数据和与所述音频数据同步采集的所述说话对象的面部数据，以及所述面部数据对应的混合变形样本值，所述面部数据包括口型和面部表情。

3.根据权利要求2所述的方法，其特征在于，所述使用样本数据训练所述音频驱动动画模型，包括：

通过自动语音识别模型提取所述音频数据的局部特征向量；

将所述局部特征向量输入包含多层卷积层的所述音频编码层，根据上一层卷积层在t时刻和t-n时刻之间的输入特征向量确定下一层卷积层在(2t-n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效局部特征向量，依次根据每一层卷积层的有效局部特征向量输出所述音频数据对应的音频编码特征；

将所述说话对象的面部数据对应的标识输入独热编码层，得到所述标识对应的标识编码特征，其中，不同的所述面部数据对应不同的说话风格，所述标识用于指示所述说话风格；

将所述音频编码特征和所述标识编码特征拼接后进行编码和解码，输出所述音频数据对应的混合变形预测值，其中，所述混合变形预测值与所述标识相对应；

根据所述混合变形样本值和所述混合变形预测值的误差，使用损失函数训练所述音频驱动动画模型的模型参数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述混合变形样本值和所述混合变形预测值的误差，使用损失函数训练所述音频驱动动画模型的模型参数，包括：

使用L2 loss函数获取所述混合变形样本值和所述混合变形预测值的重构误差、速度误差以及加速度误差；

根据所述重构误差、所述速度误差以及所述加速度误差训练所述音频驱动动画模型的模型参数。

5.根据权利要求3所述的方法，其特征在于，所述将所述音频编码特征和所述标识编码特征拼接后进行编码和解码，包括：

将所述音频编码特征和所述标识编码特征拼接后输入编码层，得到拼接特征编码，其中，所述编码层包含三层全连接网络层；

将所述拼接特征编码输入解码层，通过所述解码层输出所述标识对应的混合变形预测值，其中，所述解码层包含三层全连接网络层。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频编码特征和所述目标标识编码特征，通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值，包括：

将所述目标音频编码特征和所述目标标识编码特征拼接后进行编码和解码，输出所述目标音频数据对应的混合变形值。

7.根据权利要求1所述的方法，其特征在于，在输出所述目标音频数据对应的混合变形值之后，所述方法还包括：

根据所述目标音频数据对应的混合变形值以及所述目标标识对应的三维场景在显示屏上显示与所述混合变形值对应的视频画面。

8.一种基于因果卷积的音频驱动表情装置，其特征在于，包括：

特征提取模块，配置为对获取的目标音频数据进行特征提取，得到目标音频特征向量；

输入模块，配置为将所述目标音频特征向量和目标标识输入音频驱动动画模型，其中，所述目标标识为从预设标识中选取的标识，所述预设标识用于指示预设的说话风格，所述音频驱动动画模型包括：音频编码层和独热编码层；其中，所述音频编码层包括输入层、输出层，以及分布于所述输入层与所述输出层之间的多个卷积层，每一卷积层包括多个第一卷积通道以及多个第二卷积通道，所述第一卷积通道用于指示非空闲的卷积通道，所述第二卷积通道用于指示空闲的卷积通道；位于上一层的所述卷积层中的所述第二卷积通道数量小于位于下一层的所述卷积层中的所述第二卷积通道数量；

编码模块，配置为将所述目标音频特征向量输入所述音频编码层，根据每一层卷积层中的所述第一卷积通道针对输入特征向量进行计算；根据上一层卷积层在t时刻和t-n时刻之间的输入特征向量确定下一层卷积层在(2t-n)/2时刻的输入特征向量，将与上一层卷积层的输入特征向量有因果关系的特征向量确定为有效特征向量，依次根据每一层卷积层的有效特征向量输出目标音频编码特征，并将所述目标标识输入所述独热编码层进行二进制向量编码，得到目标标识编码特征，其中，n＜t；

输出模块，配置为根据所述目标音频编码特征和所述目标标识编码特征，通过所述音频驱动动画模型输出所述目标音频数据对应的混合变形值；所述输出模块还配置为，根据所述混合变形值驱动虚拟对象的口型动画和面部表情，其中，所述混合变形值与所述目标标识相对应。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。