CN114581570B

CN114581570B - 一种三维脸部动作生成方法和系统

Info

Publication number: CN114581570B
Application number: CN202210195575.8A
Authority: CN
Inventors: 王新文; 陈珉; 谌明
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2024-01-26
Anticipated expiration: 2042-03-01
Also published as: CN114581570A

Abstract

本说明书涉及一种三维脸部表情生成方法和系统，方法包括：获取音频信号中的至少一帧信号对应的至少一个音频特征；获取所述至少一帧信号对应的至少一个音素特征；通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

Description

一种三维脸部动作生成方法和系统

技术领域

本申请涉及动画技术领域，尤其涉及一种三维脸部动作生成方法和系统。

背景技术

随着动画技术的发展，三维(也可以称为3D)脸部动画制作在影视、游戏、新闻媒体、互联网金融等领域得到广泛应用。在一些应用场景中，可以基于语音生成三维脸部动作的动画，例如基于人的语音生成游戏角色、虚拟主播、虚拟家教、虚拟客服等虚拟角色的三维脸部动作动画，以满足影视、游戏、新闻媒体、互联网金融等领域的虚拟角色需求。

因此，亟需三维脸部动作生成方法和系统来实现三维脸部动作动画的生成。

发明内容

本说明书实施例之一提供一种三维脸部表情生成模型的训练方法，所述方法包括：获取音频信号样本中的帧信号样本对应的音频特征样本；获取所述帧信号样本对应的音素特征样本；通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值；基于所述脸部表情系数预测值与所述帧信号样本对应的脸部表情系数标签的差异，调整所述三维脸部表情生成模型的参数。

本说明书实施例之一提供一种三维脸部动作生成方法，所述方法包括：获取音频信号中的至少一帧信号对应的至少一个音频特征；获取所述至少一帧信号对应的至少一个音素特征；通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

本说明书实施例之一提供一种三维脸部动作生成系统，所述系统包括：第一获取模块，用于获取音频信号中的至少一帧信号对应的至少一个音频特征；第二获取模块，用于获取所述至少一帧信号对应的至少一个音素特征；表情系数生成模块，用于通过三维脸部表情生成模型处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；三维脸部动作生成模块，用于基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

本说明书实施例之一提供一种三维脸部动作生成装置，所述装置包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当所述至少一个处理器执行所述指令时，实现所述三维脸部动作生成方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的三维脸部动作生成系统的应用场景示意图；

图2是根据本说明书一些实施例所示的三维脸部动作生成系统的模块图；

图3是根据本说明书一些实施例所示的三维脸部动作生成方法的示例性流程图；

图4是根据本说明书一些实施例所示的三维脸部表情生成模型的示例性示意图；

图5是根据本说明书一些实施例所示的三维脸部表情生成模型的训练方法的示例性流程图；

图6是根据本说明书一些实施例所示的三维脸部表情生成模型的训练架构的示例性示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本说明书一些实施例所披露的三维脸部动作生成方法和系统，可以应用于多种领域，例如影视、游戏、新闻媒体、互联网金融等领域。通过获取音频信号中帧信号的音频特征和音素特征，并通过三维脸部表情生成模型处理帧信号的音频特征和音素特征得到帧信号对应的脸部表情系数，以及基于帧信号对应的脸部表情系数、预设的脸部表情基底和预设脸部形状，得到帧信号对应的三维脸部动作图像，得到音频信号中多帧信号对应的多个三维脸部动作图像后便可以得到三维脸部动作动画，实现了基于音频生成三维脸部动作动画，并且同时基于音频信号的音频特征和音素特征可以得到更加准确的三维脸部动作图像和三维脸部动作动画。

图1是根据本说明书一些实施例所示的三维脸部动作生成系统的应用场景示意图。

如图1所示，三维脸部动作生成系统的应用场景100可以包括第一计算系统130和第二计算系统140。

第一计算系统130可以获取音频信号样本中的帧信号样本的音频特征样本110和音素特征样本120，并基于音频特征样本110、音素特征样本120、脸部表情系数标签训练三维脸部表情生成模型124。三维脸部表情生成模型134可以用于处理帧信号的音频特征和音素特征，得到帧信号的脸部表情系数。帧信号样本的音频特征样本110、音素特征样本120、脸部表情系数标签可以通过各种常见的方式(例如，通过输入设备输入、存储设备通过网络传输等)进入第一计算系统130。

关于三维脸部表情生成模型134训练方法的详细描述可以参见图5的说明，此处不再赘述。

第二计算系统140可以获取三维脸部表情生成模型134，还可以获取音频信号中一帧或多帧信号的音频特征150和音素特征160，并通过三维脸部表情生成模型134处理各帧信号的音频特征150和音素特征160，得到各帧信号对应的脸部表情系数。第二计算系统140还可以基于各帧信号对应的脸部表情系数、预设的脸部表情基底、预设脸部形状得到各帧信号对应的三维脸部动作图像170，从而可以得到音频信号对应的三维脸部动作动画。三维脸部表情生成模型134、音频信号中一帧或多帧信号的音频特征150和音素特征160可以通过各种常见的方式(例如，通过输入设备输入、存储设备通过网络传输等)进入第二计算系统140。

在一些实施例中，第一计算系统130和第二计算系统140可以相同也可以不同。在一些实施例中，第一计算系统140和第二计算系统140可以是指具有计算能力的系统。在一些实施例中，第一计算系统130和第二计算系统140可以包括各种计算机，例如服务器、个人计算机等。在一些实施例中，第一计算系统130和第二计算系统140也可以是由多台计算机以各种结构连接组成的计算平台。

在一些实施例中，第一计算系统130和第二计算系统140中可以包括处理器。在一些实施例中，处理器可以执行程序指令。在一些实施例中，处理器可以包括各种常见的通用中央处理器(Central Processing Unit,CPU)，图形处理器(Graphics Processing Unit,GPU)，微处理器(Microprocessor Unit,MPU)，特殊应用集成电路(Application-SpecificIntegrated Circuit,ASIC)，或其他类型的集成电路。

在一些实施例中，第一计算系统130和第二计算系统140可以包括存储介质。在一些实施例中，存储介质可以存储指令，也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。

在一些实施例中，第一计算系统130和第二计算系统140可以包括用于内部连接和与外部连接的网络。在一些实施例中，网络可以是有线网络或无线网络中的任意一种或多种。

在一些实施例中，第一计算系统130和第二计算系统140可以包括用于输入或输出的终端。在一些实施例中，终端可以包括各类具有信息接收和/或发送功能的设备，如计算机、手机、文字扫描设备、显示设备、打印机等。

关于三维脸部动作生成系统的描述旨在是说明性的，而不是限制本申请的范围。许多替代、修改和变化对本领域普通技术人员将是显而易见的。本申请描述的示例性实施方式的特征、结构、方法和其它特征可以以各种方式组合以获得另外的和/或替代的示例性实施例。例如，第一计算系统130和第二计算系统140可以被集成到单个设备中。然而，这些变化和修改不会背离本申请的范围。

图2是根据本申请一些实施例所示的三维脸部动作生成系统的模块图。

在一些实施例中，三维脸部动作生成系统200可以实施于第一计算系统130和/或第二计算系统140上。

如图2所示，三维脸部动作生成系统200可以包括第一获取模块210、第二获取模块220、表情系数生成模块230、三维脸部动作生成模块240。在一些实施例中，三维脸部动作生成系统200还可以包括模型训练模块250。

在一些实施例中，第一获取模块210可以用于获取音频信号中的至少一帧信号对应的至少一个音频特征。

在一些实施例中，第二获取模块220可以用于获取所述至少一帧信号对应的至少一个音素特征。

在一些实施例中，表情系数生成模块230可以用于通过三维脸部表情生成模型处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数。

在一些实施例中，三维脸部动作生成模块240可以用于基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

在一些实施例中，模型训练模块250可以用于获取音频信号样本中的帧信号样本对应的音频特征样本；获取所述帧信号样本对应的音素特征样本；通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值；基于所述脸部表情系数预测值与对应的脸部表情系数标签的差异，调整所述三维脸部表情生成模型的参数。

关于第一获取模块210、第二获取模块220、表情系数生成模块230、三维脸部动作生成模块240、模型训练模块250的更多详细描述可以参见本申请图3、图5及其相关说明，在此不再赘述。

可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图2中披露的第一获取模块210和第二获取模块220可以是由一个模块来实现上述两个模块的功能。又例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本说明书一些实施例所示的三维脸部动作生成方法的示例性流程图。

在一些实施例中，流程300中的一个或多个操作可以通过处理设备实现。例如，流程300可以以指令的形式存储在第一计算系统130和/或第二计算系统140的存储介质中，并被第一计算系统130和/或第二计算系统140的处理设备调用和/或执行。

在一些实施例中，可以通过方法300得到音频信号中的各个帧信号对应的三维脸部动作图像，进而可以得到音频信号对应的三维脸部动作动画。

如图3所示，流程300可以包括以下操作。

步骤310，获取音频信号中的至少一帧信号对应的至少一个音频特征。

在一些实施例中，步骤310可以由第一获取模块210执行。

音频信号是指带有语音、音乐、音效等的有规律的声波的频率、幅度变化信息的信号。本说明书中所述的音频信号可以是各种类型的音频信号，例如人或动物等的语音信号。在一些实施例中，音频信号可以通过设备采集(例如通过拍摄设备采集音视频信号或通过录音设备采集音频信号)、计算机模拟等各种可行的方式获得。

在一些实施例中，可以通过分帧操作将音频信号划分为多个帧信号。帧信号的长度可以根据需求或经验设置，例如帧信号的长度可以是20ms～50ms。

音频特征是指音频信号的声波频率、声波幅度变化信息等声波特征。音频特征可以包括音频信号的能量特征、时域特征(例如起音时间、过零率等)、频域特征(例如频谱质心、频谱平坦度、频谱通量等)、乐音特征(例如基音频率、失谐度等)、感知特征(例如响度、尖锐度等)等等。音频特征可以反映身份特征(例如反映声音是来自于小明或小亮)、情感特征(例如快乐、悲伤、愤怒等)等声音信息。

在一些实施例中，帧信号的音频特征可以包括该帧信号对应长度的一段音频信号的音频特征。在一些实施例中，一帧信号的音频特征可以用向量进行表示。

在一些实施例中，还可以对音频信号进行加窗操作，以得到多个窗口信号，一个窗口信号可以与一个帧信号对应。一个帧信号对应的窗口信号可以包括该帧信号所在的预设长度的信号，该预设长度可以根据经验和实际需求进行设置，例如60ms～150ms。在一些实施例中，一个帧信号对应的窗口信号可以包括该帧信号、该帧信号前面一帧或多帧信号以及该帧信号后面一帧或多帧信号。在一些实施例中，可以通过对音频信号进行滑窗采样处理等加窗操作来得到各帧信号对应的窗口信号。

在一些实施例中，帧信号的音频特征可以包括该帧信号对应的窗口信号的音频特征。通过本实施例，可以使得帧信号的音频特征包括该帧信号前后信号的音频特征，使得后续基于音频特征确定帧信号的三维脸部动作图像时可以使用到该帧信号前后信号的音频特征，可以提高三维脸部动作图像的准确性。

在一些实施例中，可以用多个向量对窗口信号的音频特征进行表示，例如(m₁,m₂,…,m_T)，其中，窗口信号中包括T(T为大于2的整数)帧信号，其中每一帧信号的音频特征对应一个向量表示m_T。

在一些实施例中，可以通过Mel频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)、神经网络模型等各种音频特征提取方法获取帧信号的音频特征。

步骤320，获取所述至少一帧信号对应的至少一个音素特征。

在一些实施例中，步骤320可以由第二获取模块220执行。

音素特征是指音频信号中的音素的特征。其中，音素是指对语音划分出的最小语音单位，一个音素可以对应一个发音，例如“普通话”可以包括“p,u,t,o,ng,h,u,a”八个音素。音素特征可以反映音频信号中的说话内容，从而可以反映出脸部的视素特征(例如嘴部的口型等视素特征)，其中，视素是指说话口型最小的视觉单元。在一些实施例中，音素特征可以包括语音的辅音特征、浊音音质、发音部位、对应的口型特征等等。

在一些实施例中，帧信号的音素特征可以包括该帧信号对应长度的一段音频信号的音素特征。在一些实施例中，一帧信号的音素特征可以用向量进行表示。

在一些实施例中，帧信号的音素特征可以包括该帧信号对应的窗口信号的音素特征。通过本实施例，可以使得帧信号的音素特征包括该帧信号前后信号的音素特征，使得后续基于音素特征确定帧信号的三维脸部动作图像时可以使用到该帧信号前后信号的音素特征，可以提高三维脸部动作图像的准确性。

在一些实施例中，可以用多个向量对窗口信号的音素特征进行表示，例如(v₁,v₂,…,v_T)，其中，窗口信号中包括T(T为大于或等于2的整数)帧信号，其中每一帧信号的音素特征对应一个向量表示v_T。

在一些实施例中，可以通过语音识别技术等各种可行的语音处理方法获得音频信号的音素序列，并可以通过词向量模型、语言处理模型等各种可行的方法处理音频信号的音素序列，以获取帧信号的音素特征。

步骤330，通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数。

在一些实施例中，步骤330可以由表情系数生成模块230执行。

三维脸部表情生成模型可以用于生成帧信号对应的脸部表情系数。在一些实施例中，一帧信号可以对应一个脸部表情系数序列(y₁,y₂,…,y_d)，其中包括d(d为大于或等于1的整数)个脸部表情系数，d可以由经验或实际需求进行设置。脸部表情系数可以用于表征脸部表情基底的权重，脸部表情基底可以用于表示三维脸部动作中的脸部表情相对于基础三维脸部模型(也可以称为平均三维脸部模型，可以用于表示基础的或平均的三维脸部动作)的偏置。一帧信号可以对应d个脸部表情基底，一个脸部表情基底可以对应一个脸部表情系数y_d。关于脸部表情基底和脸部表情系数如何用于生成三维脸部动作图像的更多内容可以参见步骤340及其相关说明。

在一些实施例中，对于一帧信号，可以将该帧信号的音频特征和音素特征输入三维脸部表情生成模型进行处理，三维脸部表情生成模型可以得到该帧信号对应的脸部表情系数(例如得到该帧信号对应的脸部表情系数序列(y₁,y₂,…,y_d))。音频信号的各帧信号都可以通过三维脸部表情生成模型进行相同的处理，以得到各帧信号对应的脸部表情系数。

在一些实施例中，三维脸部表情生成模型可以包括CNN(卷积神经网络模型)、DNN(深度神经网络模型)等神经网络模型或其它可用的机器学习模型。

在一些实施例中，三维脸部表情生成模型可以包括特征融合网络和表情系数生成网络。

特征融合网络可以用于对帧信号的音频特征和音素特征进行进一步的深层特征提取以及将音频特征和音素特征的深层特征进行融合，得到音频特征和音素特征的融合特征。在一些实施例中，特征提取网络可以包括各种可以用于对音频特征和音素特征进行进一步的深层特征提取以及将音频特征和音素特征的深层特征进行融合的网络，例如NN、CNN、DNN等神经网络。

图4是根据本说明书一些实施例所示的三维脸部表情生成模型的示例性示意图。图4中示出了特征融合网络的示例性结构，下文结合图4对特征融合网络进行了进一步的说明。

在一些实施例中，特征融合网络可以包括一个或多个第一特征提取单元和一个或多个第二特征提取单元。

一个或多个第一特征提取单元可以用于处理帧信号的音频特征，得到一个或多个第一特征提取单元对应的一个或多个第一音频特征。其中，多个第一特征提取单元中第一个第一特征提取单元用于对帧信号的音频特征进行特征提取处理得到对应的输出特征，其余第一特征提取单元(指多个第一特征提取单元中除第一个之外的其余第一特征提取单元)用于对前一个第一特征提取单元的输出特征进行特征提取处理得到对应的输出特征。

在一些实施例中，特征融合网络包括一个第一特征提取单元时，该第一特征提取单元的输出特征可以作为该第一特征提取单元对应的第一音频特征。

在一些实施例中，特征融合网络包括多个第一特征提取单元时，多个第一特征提取单元中的一个或多个第一特征提取单元(例如第m个至第n个第一特征提取单元，m和n为大于或等于1的整数)的输出特征可以作为所需的一个或多个第一音频特征以被一个或多个第二特征提取单元处理。

例如，如图4所示，特征融合网络可以包括3个第一特征提取单元，第一特征提取单元1处理帧信号的音频特征得到第一音频特征1，第一特征提取单元2处理第一音频特征1得到第一音频特征2，第一特征提取单元3处理第一音频特征2得到第一音频特征3。

第一特征提取单元可以包括一个或多个卷积神经网络，例如可以包括一个或多个卷积层，卷积层的卷积核大小可以根据经验或实际需求设置。卷积神经网络的卷积方式也可以根据经验或实际需求设置，例如卷积神经网络可以采用一维卷积的卷积方式。

一个或多个第二特征提取单元可以用于处理帧信号的音素特征和一个或多个第一音频特征，得到帧信号的融合特征。

当特征融合网络包括一个第二特征提取单元时，该第二特征提取单元可以与一个或多个第一特征提取单元中的一个第一特征提取单元对应，以及该第二特征提取单元用于处理帧信号的音素特征，得到对应的第二音素特征，第二音素特征和与其对应的第一特征提取单元的第一音频特征拼接得到音频信号的融合特征。其中，两个特征的拼接可以是指在特征数据的某个维度(例如时间维度)上将两个特征拼接在一起。例如，一个特征为10*300的矩阵，另一个特征为10*100的矩阵，将该两个特征拼接可以得到一个10*400的矩阵。

当特征融合网络包括多个第二特征提取单元时，该多个第二特征提取单元中的一个或多个可以分别与一个或多个第一特征提取单元中的某个第一特征提取单元对应。多个第二特征提取单元中的第一个第二特征提取单元用于处理帧信号的音素特征，得到对应的输出特征即第二音素特征。

在一些实施例中，其余第二特征提取单元(指多个第二特征提取单元中除第一个之外的其余第二特征提取单元)中的部分可以用于对前一个第二特征提取单元的输出特征进行处理，得到对应的输出特征；另外还有部分其余第二特征提取单元可以用于对前一个第二特征提取单元的输出特征和与其对应的第一特征提取单元的第一音频特征拼接得到的拼接特征进行处理，得到对应的输出特征即单元融合特征。最后一个第二特征提取单元的输出特征(即单元融合特征)或最后一个第二特征提取单元的输出特征和与其对应的第一特征提取单元的第一音频特征拼接得到的拼接特征可以作为帧信号的融合特征。

在一些实施例中，其余第二特征提取单元中的全部可以用于对前一个第二特征提取单元的输出特征和与其对应的第一特征提取单元的第一音频特征拼接得到的拼接特征进行处理，得到对应的输出特征即单元融合特征。最后一个第二特征提取单元的输出特征或最后一个第二特征提取单元的输出特征(即单元融合特征)和与其对应的第一特征提取单元的第一音频特征拼接得到的拼接特征可以作为帧信号的融合特征。

例如，如图4所示，特征融合网络可以包括3个第二特征提取单元，第二特征提取单元1处理帧信号的音素特征得到第二音素特征1，第二音素特征1和与第二音素特征1和与其对应的第一特征提取单元1的第一音频特征1拼接得到对应的拼接特征1；第二特征提取单元2处理第二特征提取单元1对应的拼接特征1得到对应的单元融合特征2，单元融合特征2和与其对应的第一特征提取单元2的第一音频特征2拼接得到对应的拼接特征2；第二特征提取单元3处理第二特征提取单元2对应的拼接特征2得到对应的单元融合特征3，单元融合特征3和与其对应的第一特征提取单元3的第一音频特征3拼接得到对应的拼接特征3，拼接特征3作为帧信号的融合特征。

第二特征提取单元的结构和第一特征提取单元类似，此处不再赘述。

可以理解，音频信息可以体现音频信号对应的声源身份的相关信息，音素特征可以体现音频信号的语言内容的相关信息，通过将帧信号的音频特征和音素特征进行进一步的深层特征提取和特征融合，可以得到既能体现声源身份的相关信息，又能体现语音内容的相关信息的融合特征，基于该融合特征确定帧信号对应的脸部表情系数，以及进一步确定三维脸部动作图像可以使得三维脸部动作图像的嘴型正确且符合声源身份独特的口型特征，令帧信号对应的三维脸部动作图像更加准确，从而得到更加准确的音频信号对应的三维脸部动作动画。

在上文描述的一些实施例中，通过将多个第二特征提取单元的输出特征和与之对应的第一特征提取单元的第一音频特征进行拼接，可以实现将音频浅层和深层特征分别与音素的浅层和深层特征进行拼接操作，从而实现充分地进行多模态的特征融合，进一步提高了基于融合特征确定的脸部表情系数的准确性。

图4中还示出了表情系数生成网络的示意图。表情系数生成网络可以用于基于帧信号的音频特征和音素特征的融合特征得到帧信号对应的脸部表情系数。在一些实施例中，表情系数生成网络可以包括各种可以用于基于帧信号的音频特征和音素特征的融合特征得到帧信号对应的脸部表情系数的网络，例如NN、CNN、DNN等神经网络。

在一些实施例中，表情系数生成网络可以包括卷积神经网络，例如可以包括一个或多个卷积层，卷积层的卷积核大小可以根据经验或实际需求设置。卷积神经网络的卷积方式也可以根据经验或实际需求设置，例如卷积神经网络可以采用一维卷积的卷积方式。

在一些实施例中，三维脸部表情生成模型可以通过机器学习的方法进行训练。在一些实施例中，可以基于对应的一个或多个训练样本对三维脸部表情生成模型进行训练，其中，三维脸部表情生成模型的训练样本可以包括音频信号样本中的帧信号样本对应的音频特征样本和音素特征样本，帧信号样本具有与其对应的脸部表情系数标签。关于三维脸部表情生成模型的训练方法的更多具体内容可以参见图5及其相关说明。

步骤340，基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

在一些实施例中，步骤340可以由三维脸部动作生成模块240执行。

脸部可以建模为三维脸部模型，即脸部可以表示为由x、y、z三维坐标位置构成的三维数据。其中，三维脸部模型(即脸部的三维数据)可以基于脸部形状基底和脸部表情基底的线性组合确定，由此，三维脸部动作可以基于脸部形状基底和脸部表情基底的线性组合确定。其中，脸部形状基底可以用于表示三维脸部动作中的脸部形状相对于基础三维脸部模型(也可以称为平均三维脸部模型，可以用于表示基础的或平均的三维脸部动作)的偏置，脸部表情基底可以用于表示三维脸部动作中的脸部表情相对于基础三维脸部模型的偏置。脸部形状基底和脸部表情基底都可以表示为由x、y、z三维坐标位置构成的三维数据。

前文已经说明了脸部表情基底有其对应的权重，该权重可以表示三维脸部动作中的脸部表情相对于基础三维脸部模型的偏置的大小。同样的，脸部形状基底也可以有其对应的权重，该权重可以表示三维脸部动作中的脸部形状相对于基础三维脸部模型的偏置的大小。

在一些实施例中，三维脸部模型或三维脸部动作可以用如下线性组合表示：S＝S₀+α*S_base+β*E_base，其中S表示三维脸部模型或三维脸部动作，S₀表示基础三维脸部模型(也可以称为平均三维脸部模型)，S_base表示脸部形状基底，α表示脸部形状基底的权重，E_base表示脸部表情基底，β表示脸部表情基底的权重。

在一些实施例中，三维脸部模型或三维脸部动作中的脸部形状(例如脸部形状基底、脸部形状基底对应的权重、基础三维脸部模型)、脸部表情基底可以是预设的，例如可以根据各种已有的三维脸部模型、经验或实际需求进行设置。

在确定帧信号对应的脸部表情系数后，可以按前述线性组合(S＝S₀+α*S_base+β*E_base)确定帧信号对应的三维脸部动作图像。

前文中已经说明了，在一些实施例中，一帧信号的脸部表情系数可以包括脸部表情系数序列(y₁,y₂,…,y_d)，其中包括d(d为大于或等于1的整数)个脸部表情系数，d个脸部表情系数对应d个脸部表情基底。在一些实施例中，一帧信号对应的三维脸部动作图像可以基于d个脸部表情基底、每个脸部表情基底对应的脸部表情系数、预设脸部形状按照前述线性组合确定。例如，在确定帧信号对应的脸部表情系数序列后，可以按照线性组合确定帧信号对应的三维脸部动作图像，其中(S_base1,S_base2,…S_based)表示d个脸部表情系数对应的d个脸部表情基底,d个脸部表情基底可以是预设的，例如可以根据各种已有的三维脸部模型、经验或实际需求进行设置。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。

图5是根据本说明书一些实施例所示的三维脸部表情生成模型的训练方法的示例性流程图。

在一些实施例中，流程500中的一个或多个操作可以通过处理设备实现。例如，流程500可以以指令的形式存储在第一计算系统130和/或第二计算系统140的存储介质中，并被第一计算系统130和/或第二计算系统140的处理设备调用和/或执行。在一些实施例中，流程500可以由模型训练模块250执行。

在一些实施例中，可以多次执行流程500以对三维脸部表情生成模型进行迭代训练。

如图5所示，流程500可以包括以下操作。

步骤510，获取音频信号样本中的帧信号样本对应的音频特征样本。

音频信号样本是指作为样本的音频信号。音频信号样本可以包括不同类型的音频信号，例如不同生物、不同性别、不同音色、不同内容等各种类型的音频信号。在一些实施例中，音频信号样本可以通过设备采集(例如通过拍摄设备采集音视频信号)、计算机模拟等各种可行的方式获得。

音频信号样本中的帧信号可以称为帧信号样本。帧信号样本的音频特征可以称为音频特征样本。可以通过与获取帧信号的音频特征类似的方法获取帧信号样本的音频特征样本，具体内容可以参见步骤310及其相关描述，此处不再赘述。

步骤520，获取所述帧信号样本对应的音素特征样本。

帧信号样本的音素特征可以称为音素特征样本。可以通过与获取帧信号的音素特征类似的方法获取帧信号样本的音素特征样本，具体内容可以参见步骤320及其相关描述，此处不再赘述。

步骤530，通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值。

在一些实施例中，在三维脸部表情生成模型的训练过程中，三维脸部表情生成模型处理帧信号样本的音频特征样本和音素特征样本得到的帧信号样本的脸部表情系数可以称为脸部表情系数预测值。三维脸部表情生成模型处理帧信号样本的音频特征样本和音素特征样本得到的帧信号样本的脸部表情系数的方法与三维脸部表情生成模型处理帧信号的音频特征和音素特征得到的帧信号的脸部表情系数的方法相同，具体内容可以参见步骤330及其相关描述，此处不再赘述。

步骤540，基于所述脸部表情系数预测值与所述帧信号样本对应的脸部表情系数标签的差异，调整所述三维脸部表情生成模型的参数。

帧信号样本具有对应的脸部表情系数标签，即该帧信号样本所对应真实三维脸部动作图像对应的三维脸部模型的脸部表情系数。

帧信号样本对应的真实三维脸部动作图像可以基于音频信号样本对应的视频(例如拍摄设备采集的音视频)获得，例如可以将帧信号样本对应的图像从视频中截取出来。

三维脸部动作图像对应的三维脸部模型可以通过各种基于2D图像重建三维脸部模型的方法获得，例如通过立体匹配、3DMM(3D Morphable Models)模型重建等各种可行的方法获得。重建得到的三维脸部模型可以表示为关于脸部形状基底和脸部表情基底的线性组合，例如可以表示为如下线性组合：S＝S₀+α*S_base+β*E_base或者如下线性组合：由此，基于由帧信号样本所对应图像重建得到的三维脸部模型便可以确定帧信号样本所对应真实三维脸部动作图像对应的脸部表情系数，即帧信号样本对应的脸部表情系数标签。

在一些实施例中，根据三维脸部表情生成模型输出的帧信号样本的脸部表情系数预测值与帧信号样本对应的脸部表情系数标签的差异可以建立第一损失函数，三维脸部表情生成模型训练时的优化目标可以是调整三维脸部表情生成模型的参数使得第一损失函数值减小(例如最小化损失函数值)。

在一些实施例中，通过三维脸部表情生成模型的特征融合网络处理帧信号样本的音频特征和音素特征得到的帧信号样本的融合特征可以称为融合特征样本。通过三维脸部表情生成模型的一个或多个第一特征提取单元处理帧信号样本的音频特征得到的第一音频特征(例如最后一个第一特征提取单元对应的第一音频特征)可以称为第一音频特征样本。

三维脸部表情生成模型处理帧信号样本的音频特征样本和音素特征样本得到的帧信号样本的融合特征、第一音频特征的方法与三维脸部表情生成模型处理帧信号的音频特征和音素特征得到的帧信号的融合特征、第一音频特征的方法相同，具体内容可以参见步骤330及其相关描述，此处不再赘述。

在一些实施例中，三维脸部表情生成模型的训练还可以包括通过身份识别网络处理帧信号样本的融合特征样本或第一音频特征样本，得到帧信号样本对应的身份预测值。以及可以基于帧信号样本对应的身份预测值和身份标签的差异确定第二损失函数，三维脸部表情生成模型训练的优化目标还可以包括调整三维脸部表情生成模型的参数(例如一个或多个第一特征提取单元的参数，或者特征融合网络的参数)以使得第二损失函数值减小(例如最小化第二损失函数值)。其中，帧信号样本对应的身份标签是指帧信号样本所在的音频信号样本的声源的真实身份，例如身份ID、具体人员等。

图6是根据本说明书一些实施例所示的三维脸部表情生成模型的训练架构的示例性示意图，可见，图6在图4的三维脸部表情生成模型的基础上，增加了身份识别网络以用于三维脸部表情生成模型的训练。

身份识别网络是指可以用于基于帧信号的融合特征或音频特征得到帧信号对应的声源身份的网络。在一些实施例中，身份识别网络可以包括NN、CNN、DNN等各种神经网络模型或其它机器学习模型。

在一些实施例中，三维脸部表情生成模型的训练中使用的身份识别网络可以是训练好的。在一些实施例中，三维脸部表情生成模型的训练还可以包括同时调整身份识别网络的参数以使得第二损失函数值减小(例如最小化第二损失函数值)，也即可以同时对身份识别网络进行训练。通过本实施例，可以联合身份识别网络对三维脸部表情生成模型进行训练，可以使得训练得到的三维脸部表情生成模型的一个或多个第一特征提取单元或特征融合网络的特征提取效果(从音频信号中提取身份相关特征的效果)、特征融合效果更好，进一步提升三维脸部表情生成模型的预测准确性。

在一些实施例中，三维脸部表情生成模型训练时使用的损失函数可以是基于第一损失函数和第二损失函数确定的总损失函数(例如基于第一损失函数和第二损失函数的加和确定的总损失函数)。

本说明书实施例之一还提供一种三维脸部动作生成装置，所述装置包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当所述至少一个处理器执行所述指令时，实现所述三维脸部动作生成方法，所述方法可以包括：获取音频信号中的至少一帧信号对应的至少一个音频特征；获取所述至少一帧信号对应的至少一个音素特征；通过三维脸部表情生成模型处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

本说明书实施例可能带来的有益效果包括但不限于：通过获取音频信号中帧信号的音频特征和音素特征，并通过三维脸部表情生成模型处理音频特征和音素特征得到帧信号对应的脸部表情系数，以及基于脸部表情系数、预设的脸部表情基底和预设脸部形状，得到帧信号对应的三维脸部动作图像，实现了基于音频生成三维脸部动作动画，并且同时基于音频信号的音频特征和音素特征可以得到更加准确的三维脸部动作图像和三维脸部动作动画。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，对本领域技术人员来说在阅读本详细公开之后十分显然的是，之前的详细公开旨在仅作为示例来给出，而并不构成限定。各种变更、改善和修改可发生且为本领域技术人员所预期，尽管未在本文中明确陈述。这些变更、改善和修改旨在为本公开所建议，并且落入本公开的示例性实施例的精神和范围之内。

此外，已使用特定术语来描述本公开的各实施例。例如，术语“一个实施例”、“一实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征、结构或特性被包括在本公开的至少一个实施例中。因此，强调并应领会，在本说明书的各个部分中对“一实施例”或“一个实施例”或“替换实施例”的两个或更多个引述未必全都指向同一实施例。此外，特定的特征、结构或特性在本公开的一个或多个实施例中可被适当地组合。

此外，本领域技术人员将领会，本公开的各方面在本文中可以在数个可专利类别或上下文中的任何一者中进行说明和描述，包括任何新的和有用的过程、机器、制造、或物质的组成，或其任何新的和有用的改进。此外，本公开的各方面可采取实施在一个或多个计算机可读介质中的计算机程序产品的形式，该一个或多个计算机可读介质上实施有计算机可读程序代码。

计算机可读信号介质可包括被传播的数据信号，其具有被实施在其中(例如，在基带中或作为载波的一部分)的计算机可读程序代码。此类被传播的信号可采取各种形式中的任何形式，包括电磁、光学等等、或其任何合适组合。计算机可读信号介质可以是并非计算机可读存储介质的、并且可以传达、传播、或传输程序以供指令执行系统、装置或设备执行或结合其来执行的任何计算机可读介质。实施在计算机可读信号介质上的程序代码可使用任何恰适的介质来传送，包括无线、有线、光纤电缆、RF等等、或前述的任何合适的组合来传送。

用于执行本公开的各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，包括面向对象编程语言，诸如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等等，常规的过程式编程语言，诸如“C”编程语言、VisualBasic、Fortran2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言，诸如Python、Ruby和Groovy，或其他编程语言。程序代码可完全地在用户的计算机上、部分地在用户的计算机上、作为独立软件包、部分地在用户的计算机上且部分地在远程计算机上、或完全地在远程计算机或服务器上执行。在后一场景中，可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))将远程计算机连接到用户的计算机，或可作出至外部计算机的连接(例如，使用因特网服务提供商通过因特网)或在云计算环境中或被提供作为服务(诸如软件即服务(SaaS))。

此外，处理元素或序列、或使用数字、字母或其他标号的所叙述次序因此并非旨在将所要求保护的过程和方法限定于任何次序，除非可能在权利要求书中指明。尽管以上公开贯穿各种示例讨论了当前被认为是本公开的各种有用实施例的内容，但是应理解，此类细节仅仅是为了该目的，并且所附权利要求书并不被限定于所公开的实施例，而是反之旨在覆盖落在所公开的实施例的精神和范围内的修改和等效布置。例如，尽管以上描述的各种组件的实现可被实施在硬件设备中，但是它也可被实现为仅软件解决方案——例如，安装在现有服务器或移动设备上。

类似地，应当领会，在对本公开的实施例的以上描述中，出于精简本公开以帮助理解各创造性实施例中的一者或多者的目的，各个特征有时被一起编组在单个实施例、附图、或其描述中。然而，这种公开的方法不应被解释为反映所要求保护的主题需要比在每项权利要求中所明确记载的更多特征的意图。相反，创造性的实施例存在于比单个前述公开的实施例的全部特征更少的特征。

在一些实施例中，表达用于描述并要求保护本申请的某些实施例的数量或属性的数字应当被理解为在一些实例中由术语“大约”、“近似”或“基本上”来修饰。例如，“大约”、“近似”或“基本上”可指示所描述的值的±20％的变化，除非另外声明。因此，在一些实施例中，在书面描述和所附权利要求书中所阐述的数值参数是可取决于力图通过特定实施例而获得的期望属性而改变的近似值。在一些实施例中，应当根据所报告的有效数字的数目并且应用普通的舍入技术来解释这些数值参数。尽管阐述本申请的一些实施例的广泛范围的数值范围和参数是近似值，但是在特定示例中阐述的数值是以实践上尽可能精确的方式被报告的。

本文引用的每个专利、专利申请、专利申请公开以及其它材料(诸如文章、书籍、说明书、出版物、文献、物品等)在此出于所有目的引用整体并入本文，与上述材料相关联的任何起诉文件历史记录、上述材料中与本文件不一致或相冲突的材料、或上述材料中可能对现在或之后与本文件相关联的权利要求最大保护范围有限定影响的材料除外。作为示例，假如与任何所纳入的材料相关联的术语的描述、定义和/或使用和与本文件相关联的术语的描述、定义和/或使用之间存在任何不一致或冲突，则以本文件中的术语的描述、定义和/或使用为准。

最后，应该理解，本文公开的应用的实施例是对本申请的实施例的原理的解说。可以采用的其他修改可以落入本申请的范围内。由此，作为示例而非限制，根据本文的教导可以利用本申请的实施例的替换配置。因此，本申请的实施例并不限于如精确地所示和所描述的那样。

Claims

1.一种三维脸部表情生成模型的训练方法，所述方法包括：

获取音频信号样本中的帧信号样本对应的音频特征样本；

获取所述帧信号样本对应的音素特征样本；

通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值，其中，所述脸部表情系数预测值包括多个脸部表情基底对应的多个脸部表情系数；

基于所述脸部表情系数预测值与所述帧信号样本对应的脸部表情系数标签的差异，调整所述三维脸部表情生成模型的参数；

其中，调整所述三维脸部表情生成模型的参数还包括：

通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的融合特征样本或者第一音频特征样本；

通过身份识别网络处理所述融合特征样本或者所述第一音频特征样本，得到所述帧信号样本对应的身份预测值；

基于所述身份预测值与所述帧信号样本对应的身份标签的差异，调整所述三维脸部表情生成模型的参数。

2.如权利要求1所述的方法，所述三维脸部表情生成模型包括特征融合网络和表情系数生成网络；所述通过所述三维脸部表情生成模型处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的脸部表情系数预测值包括：

通过所述特征融合网络处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的融合特征样本；

通过所述表情系数生成网络处理所述融合特征样本，得到所述帧信号样本对应的脸部表情系数预测值。

3.如权利要求1所述的方法，所述特征融合网络包括一个或多个第一特征提取单元和一个或多个第二特征提取单元；

所述通过所述特征融合网络处理所述音频特征样本和所述音素特征样本，得到所述帧信号样本对应的所述融合特征样本包括：

通过所述一个或多个第一特征提取单元处理所述音频特征样本，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征样本；

通过所述一个或多个第二特征提取单元处理所述音素特征样本和所述一个或多个第一音频特征样本，得到所述帧信号样本对应的所述融合特征样本。

4.一种三维脸部动作生成方法，包括：

获取音频信号中的至少一帧信号对应的至少一个音频特征；

获取所述至少一帧信号对应的至少一个音素特征；

通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数，其中，所述脸部表情系数包括多个脸部表情基底对应的多个脸部表情系数；

基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的所述脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像；

其中，所述三维脸部表情生成模型包括特征融合网络和表情系数生成网络，所述通过三维脸部表情生成模型处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数包括：

通过所述特征融合网络处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号对应的至少一个融合特征；

通过所述表情系数生成网络处理所述至少一帧信号对应的所述至少一个融合特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数。

5.如权利要求4所述的方法，所述获取音频信号中至少一帧信号对应的至少一个音频特征包括：

获取所述至少一帧信号对应的至少一个窗口信号，其中一帧信号对应的窗口信号包括所述一帧信号所在的预设长度的音频信号；

基于所述至少一个窗口信号，获取所述至少一个音频特征。

6.如权利要求4所述的方法，所述获取音频信号中至少一帧信号对应的至少一个音频特征包括：

基于所述至少一个窗口信号，获取所述至少一个音素特征。

7.如权利要求4所述的方法，所述三维脸部表情生成模型包括卷积神经网络模型。

8.如权利要求4所述的方法，所述特征融合网络包括一个或多个第一特征提取单元和一个或多个第二特征提取单元；

所述通过所述特征融合网络处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号对应的至少一个融合特征包括：对于所述至少一帧信号中的每一帧信号：

通过所述一个或多个第一特征提取单元处理所述每一帧信号对应的所述音频特征，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征；

通过所述一个或多个第二特征提取单元处理所述每一帧信号对应的所述音素特征和所述一个或多个第一音频特征，得到所述每一帧信号对应的所述融合特征。

9.如权利要求4所述的方法，所述通过所述一个或多个第一特征提取单元处理所述每一帧信号对应的所述音频特征，得到所述一个或多个第一特征提取单元对应的一个或多个第一音频特征包括：

所述一个或多个第一特征提取单元中的第一个特征提取单元处理所述每一帧信号对应的所述音频特征，得到所述第一个特征提取单元对应的所述第一音频特征；

所述多个第一特征提取单元中的其余第一特征提取单元处理前一个第一特征提取单元对应的所述第一音频特征，得到所述其余第一特征提取单元对应的所述第一音频特征。

10.如权利要求4所述的方法，所述通过所述一个或多个第二特征提取单元处理所述每一帧信号对应的所述音素特征和所述一个或多个第一音频特征，得到所述每一帧信号对应的所述融合特征包括：

所述一个或多个第二特征提取单元中的第一个第二特征提取单元处理所述每一帧信号对应的所述音素特征，得到所述第一个第二特征提取单元对应的第二音素特征；

所述一个或多个第二特征提取单元中的其余第二特征提取单元处理前一个第二特征提取单元对应的拼接特征，得到所述其余第二特征提取单元对应的单元融合特征；所述一个或多个第二特征提取单元中的最后一个第二特征提取单元对应的所述单元融合特征或拼接特征作为所述每一帧信号对应的所述融合特征；其中，

所述第一个第二特征提取单元对应的所述第二音素特征与对应的所述第一特征提取单元对应的所述第一音频特征拼接，得到所述第一个第二特征提取单元对应的所述拼接特征；所述其余第二特征提取单元对应的所述单元融合特征与对应的所述第一特征提取单元对应的所述第一音频特征拼接，得到所述其余第二特征提取单元对应的所述拼接特征。

11.如权利要求4所述的方法，所述一个或多个第一特征提取单元和所述一个或多个第二特征提取单元对应。

12.如权利要求4所述的方法，所述三维脸部表情生成模型的训练方法包括如权利要求1~3中任一项所述的方法。

13.一种三维脸部动作生成系统，包括：

第一获取模块，用于获取音频信号中的至少一帧信号对应的至少一个音频特征；

第二获取模块，用于获取所述至少一帧信号对应的至少一个音素特征；

表情系数生成模块，用于通过三维脸部表情生成模型处理所述至少一帧信号对应的所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数，其中，所述脸部表情系数包括多个脸部表情基底对应的多个脸部表情系数；

所述三维脸部表情生成模型包括特征融合网络和表情系数生成网络，所述表情系数生成模块进一步用于通过所述特征融合网络处理所述至少一个音频特征和所述至少一个音素特征，得到所述至少一帧信号对应的至少一个融合特征；通过所述表情系数生成网络处理所述至少一帧信号对应的所述至少一个融合特征，得到所述至少一帧信号中的每一帧信号对应的脸部表情系数；

三维脸部动作生成模块，用于基于所述至少一帧信号中的各帧信号对应的所述脸部表情系数、预设的所述脸部表情基底和预设脸部形状，得到所述至少一帧信号对应的至少一个三维脸部动作图像。

14.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求4~12中任一项所述的方法。