CN117115312B

CN117115312B - 一种语音驱动面部动画方法、装置、设备及介质

Info

Publication number: CN117115312B
Application number: CN202311342897.1A
Authority: CN
Inventors: 柳欣; 胡众旺; 张力洋; 徐素文; 黄忠湖
Original assignee: Tiandu Xiamen Science And Technology Co ltd
Current assignee: Tiandu Xiamen Science And Technology Co ltd
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-12-19
Anticipated expiration: 2043-10-17
Also published as: CN117115312A

Abstract

本发明提供了一种语音驱动面部动画方法、装置、设备及介质，获取音频和面部图像数据进行逐帧预处理；提取音频帧内自相关系数作为音频特征，通过SEResNet50网络获得面部图像发音特征;将音频特征输入深度可分离共振峰神经网络获取音频共振峰发音特征，通过全连接映射获取音频和面部对应的音素特征、跨模态差异特征、跨模态共享特征、情绪特征及音频强度特征组，通过跨模态交互感知和对齐方法获取音频和面部图像动画相关系数编码，通过ROC曲线阈值限定和平滑操作以获得驱动面部动画的关键帧混合形状动画系数权重。在适用于不同场景、不同语言下的音频流，能够保证高精度实时混合形状动画系数推理结果,进而实时驱动角色面部动画。

Description

一种语音驱动面部动画方法、装置、设备及介质

技术领域

本发明涉及音频处理与模式识别技术领域，具体涉及一种语音驱动面部动画方法、装置、设备及介质。

背景技术

当前，基于深度跨模态交互感知的语音驱动面部动画方法是一种先进的技术，它结合了语音信号处理、面部表情识别和情感分析等领域的知识。在过去几年中，深度学习在计算机视觉和自然语言处理等任务上取得了巨大成功，这也为语音驱动表情预测提供了有力支持。人类在进行交流时，语音和面部表情往往是密不可分的。通过深度学习技术，可以训练模型来解析语音信号，并将其与对应的面部表情联系起来；这种技术的背后主要依赖于神经网络的强大能力。通过构建复杂的深度神经网络架构，可以从语音数据中提取特征，并预测出相应的面部表情。

为了实现语音驱动的面部表情预测，研究人员需要大量的数据集，其中包括同时记录语音和面部表情的样本。这些数据被用于训练深度神经网络，使其能够理解语音信号与表情之间的关系。此外，还需要一些预处理步骤，例如声音分析和面部关键点检测，以帮助网络更好地理解输入数据。但是，现有的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题。

有鉴于此，提出本申请。

发明内容

有鉴于此，本发明的目的在于提供一种语音驱动面部动画方法、装置、设备及介质，使其在适用于不同场景、不同语言下的音频流的情况下，能够保证高精度实时混合形状动画系数推理结果,进而实时驱动角色面部动画，能够有效解决现有技术中的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题。

本发明公开了一种语音驱动面部动画方法，包括：

获取不同人物、不同音素口型、不同情绪状态、以及不同发音强度的人脸视频样本，并对所述人脸视频样本进行标注，生成人脸视频初始样本数据集，其中，所述人脸视频初始样本数据集由多个音频-面部图像样本对构成；

分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理，生成人脸视频样本数据集，其中，所述音频数据预处理包括音频帧切分、音频帧随机偏移、音频帧随机噪声添加和音频帧自相关系数计算；所述面部图像数据预处理包括面部区域截取、面部图像尺寸伸缩；

调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，其中，所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型、深度残差神经网络模型和跨模态关联神经网络模型；

通过多个共享全连接层获取多个所述音频关联特征编码组，生成音频特征关联编码混合形状系数组，并对所述音频特征关联编码混合形状系数组进行后处理驱动，生成面部动画。

本发明还公开了一种语音驱动面部动画装置，包括：

样本获取单元，用于获取不同人物、不同音素口型、不同情绪状态、以及不同发音强度的人脸视频样本，并对所述人脸视频样本进行标注，生成人脸视频初始样本数据集，其中，所述人脸视频初始样本数据集由多个音频-面部图像样本对构成；

数据预处理单元，用于分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理，生成人脸视频样本数据集，其中，所述音频数据预处理包括音频帧切分、音频帧随机偏移、音频帧随机噪声添加和音频帧自相关系数计算；所述面部图像数据预处理包括面部区域截取、面部图像尺寸伸缩；

神经网络模型处理单元，用于调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，其中，所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型、深度残差神经网络模型和跨模态关联神经网络模型；

面部动画生成单元，用于通过多个共享全连接层获取多个所述音频关联特征编码组，生成音频特征关联编码混合形状系数组，并对所述音频特征关联编码混合形状系数组进行后处理驱动，生成面部动画。

本发明还公开了一种语音驱动面部动画设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的一种语音驱动面部动画方法。

本发明还公开了一种可读存储介质，其特征在于，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的一种语音驱动面部动画方法。

综上所述，本实施例提供的一种语音驱动面部动画方法、装置、设备及介质，分别获取音频数据和面部图像数据并进行逐帧预处理操作；接下来提取音频帧内自相关系数作为音频特征以及通过SEResNet50网络获得面部图像发音特征; 将音频特征输入到深度可分离共振峰神经网络获取音频共振峰发音特征，进一步分别通过全连接映射获取音频和面部对应的音素特征、跨模态差异特征、跨模态共享特征、情绪特征及音频强度特征组，最后通过跨模态交互感知和对齐方法获取音频和面部图像动画相关系数编码，并通过ROC 曲线阈值限定和平滑操作对音频驱动面部动画相关系数编码进行后处理获得驱动面部动画的关键帧混合形状动画系数权重。本发明在适用于不同场景、不同语言下的音频流，能够保证高精度实时混合形状动画系数推理结果,进而实时驱动角色面部动画。从而解决现有技术中的基于深度跨模态交互感知的语音驱动面部动画方法存在弥合音频单模态面部驱动动画不精准的问题。

附图说明

图1是本发明实施例提供的一种语音驱动面部动画方法的流程示意图。

图2是本发明实施例提供的一种语音驱动面部动画装置的模块示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1，本发明的第一实施例提供了一种语音驱动面部动画方法,其可由语音驱动面部动画设备（以下动画设备）来执行，特别的，由动画设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，获取不同人物、不同音素口型、不同情绪状态、以及不同发音强度的人脸视频样本，并对所述人脸视频样本进行标注，生成人脸视频初始样本数据集，其中，所述人脸视频初始样本数据集由多个音频-面部图像样本对构成；

具体地，在本实施例中，获取不同音素口型、不同情绪状态及不同发音强度的面部特征编码系数；即对不同人物、不同音素口型、不同情绪状态及不同发音强度的人脸视频样本进行标注以获得多个音频-面部图像样本对所构成的面部视频样本数据集。

S102，分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理，生成人脸视频样本数据集，其中，所述音频数据预处理包括音频帧切分、音频帧随机偏移、音频帧随机噪声添加和音频帧自相关系数计算；所述面部图像数据预处理包括面部区域截取、面部图像尺寸伸缩；

具体地，步骤S102包括：对所述人脸视频初始样本数据集的用户音频波形数据进行归一化处理，生成归一化音频波形数据；

通过均值插值方法对所述归一化音频波形数据进行变换处理，生成标准音频波形数据；

对所述标准音频波形数据进行分割处理，并添加双向偏移步长，生成音频帧序列；

按照预设滑动窗口参数对所述音频帧序列进行处理，获取帧内窗口，并采用Hanning窗口生成算法将所述帧内窗口变换为平滑帧内窗口；

根据公式计算所述平滑帧内窗口的音频自相关系数，其中，/>为平滑帧内窗口第/>个样本值，/>为平滑帧内窗口样本在延迟/>个样本后的第/>行自相关程度系数，/>，/>为平滑帧内窗口的样本数。

调用训练好的人脸检测神经网络模型通过线性插值方法对所述人脸视频初始样本数据集的面部区域进行尺寸伸缩处理；

当所述人脸视频初始样本数据集的面部区域伸缩至预设标准尺寸时，覆盖原面部图像，生成面部图像样本；

将同一帧的所述面部图像样本与所述音频自相关系数进行组合处理，构建生成人脸视频样本数据集。

具体地，在本实施例中，首先，对获取的音频-面部图像样本对中的初始音频数据集进行预处理操作，其中，所述音频数据预处理包括：音频帧切分，音频帧随机偏移，音频帧随机噪声添加，音频帧自相关系数计算并保存在样本数据集之中。具体的，获取用户的音频波形数据，先按振幅最大值为1，振幅最小值为-1将音频数据归一化至[-1,+1]，获取归一化音频波形数据。通过均值插值的方法将归一化音频波形数据变换为16000Hz的标准音频波形数据。按照33ms的滑动步长，520ms的滑动窗口大小对标准音频波形数据进行分割处理，并随机添加10ms的双向偏移步长，以生成音频帧序列，此时音频帧尺寸为1×8320。对音频帧内按照滑动窗口大小16ms，滑动窗口步长为8ms获取帧内窗口，此时帧内窗口尺寸为64×256，其中64为帧内窗口样本数，256为帧内窗口样本的数据长度，使用Hanning窗口生成算法，将帧内窗口变换为平滑帧内窗口，其中窗口矩阵第行，第/>列元素为/>。对于平滑帧窗口按照下式逐行计算自相关系数：

其中，表示平滑帧内窗口第/>个样本值，/>表示平滑帧内窗口样本在延迟/>个样本后的第/>行自相关程度系数，此处设置/>，/>表示平滑帧内窗口的样本数，从而得到自相关系数尺寸为64×32，其中64为按照时序的自相关系数数量，32为自相关系数数据维度。

其次，对获取的音频-面部图像样本对进行预处理操作，其中，所述面部图像数据预处理包括：面部区域截取、面部图像尺寸伸缩。通过预训练面部检测模型获取初始面部图像数据集中面部区域并通过尺寸伸缩至统一尺寸，覆盖原面部图像保存在人脸视频样本数据集之中。即，面部图像预处理通过预训练的人脸检测神经网络模型获取面部区域，并通过线性插值的方法将面部区域尺寸伸缩至网络输入的标准尺寸得到面部图像样本。

S103，调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，其中，所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型、深度残差神经网络模型和跨模态关联神经网络模型；

具体地，步骤S103包括：所述深度可分离共振峰神经网络模型以所述音频自相关系数为样本对所述人脸视频样本数据集进行提取处理，提取音频共振峰降采样特征，其中，所述深度可分离共振峰神经网络模型由一个二层归一化卷积层网络和三层可分离共振峰神经网络模型构成；

对于特定卷积核及其卷积对象，利用激活函数对预处理的音频自相关系数样本进行非线性处理，批量归一化卷积操作公式为：

其中，为非线性激活函数，/>为批量归一化运算，/>为卷积算子操作，/>和分别为批归一化卷积操作中的权重参数与偏置项，/>为对输入的音频自相关系数样本/>进行批归一化卷积操作；

可分离卷积层通过批归一化卷积操作提取的音频初始特征图，同时，通过1×1卷积操作提取特征图中的辅助信息特征图，并将所述音频初始特征图和所述辅助信息特征图通过拼接方式完成特征融合，生成最终特征图，公式为：

其中，为1×1卷积操作，/>为按通道维度拼接操作，/>为非线性批归一化卷积操作处理操作；

经过3层可分离卷积层，/>，/>获取面部特征图/>，公式为：/>；

以音频共振峰降采样特征图作为输入发音分析网络，其中，发音分析网络采用与深度可分离共振峰神经网络相同的组合卷积方法提取音频发音特征，操作公式为：；

将音频发音特征进行进一步的信息提取处理，以获取音频音素特征、音频跨模态差异特征、音频跨模态共享特征、音频情绪特征及音频强度特征，并通过展平操作，将原尺寸256×1×1变换为尺寸256，维持数值及排列顺序不变，生成音频编码特征组，其中，所述音频编码特征组包括音频音素特征、音频跨模态差异特征、音频跨模态共享特征、音频情绪特征、以及音频强度特征，变换公式为：

其中，为音频音素特征，/>为音频跨模态差异特征，/>为音频跨模态共享特征，/>为音频情绪特征，/>为音频强度特征，/>表示为以/>为输入，为输出向量维度的全连接操作。

使用SEResNet50通用骨干网络对所述面部图像样本进行特征提取，获得面部图像发音特征/>，变换公式为：

其中，函数表示以/>为输入的SEResNet50网络的输出特征；

通过全连接层将面部图像发音特征分别变换为面部图像编码特征组，其中，所述面部图像编码特征组包括面部图像音素特征、面部图像跨模态差异特征、面部图像跨模态共享特征、面部图像情绪特征、以及面部图像强度特征，变换公式为：

其中，为面部图像音素特征，/>为面部图像跨模态差异特征，/>为面部图像跨模态共享特征，/>为面部图像情绪特征，/>为面部图像强度特征；

将所述音频编码特征组与所述面部图像编码特征组作为输入，使用所述跨模态关联神经网络模型获取对应的音频关联特征编码组，所述跨模态关联神经网络模型由共享全连接层作为隐式的跨模态对齐方法，其中/>表示共享全连接层的输入，/>表示输出向量维度，/>表示共享全连接层序号，两个不同输入对应相同共享全连接层序号则表示这两个输入使用同一共享全连接层。

具体地，在本实施例中，根据收集的人脸视频样本数据集，利用梯度下降方法对于该多任务的深度跨模态交互感知神经网络模型进行优化训练从而得到最终的深度可分离共振峰神经网络模型，用于预测音频音素、情绪状态以及音频强度。将同一帧面部图像样本与音频自相关系数样本组合构建音频-面部图像样本对作为基于深度跨模态交互感知面部动画混合形状系数预测神经网络的输入，此神经网络需提取音频特征（包括音频共振峰降采样特征图、音频音素特征、音频情绪特征、音频强度特征、音频跨模态同构特征以及音频跨模态异构特征）及面部图像特征（面部图像音素特征、面部图像情绪特征、面部图像强度特征以及面部图像跨模态异构特征）。

针对音频特征中音频共振峰降采样特征图的提取，本发明深度可分离共振峰神经网络模型由一个2层归一化卷积层网络和3层可分离共振峰神经网络模型以音频自相关系数样本来提取音频共振峰降采样特征，通过调整两种卷积步长为1×2以压缩特征图的尺寸，通过这种方式增加模型对于音频样本短时感受野。对于音频特征提取中的卷积核尺寸依次为为1×3、1×3、1×3、1×3、1×2，卷积输出通道数量分别为72，108，162，243，256。1×3与1×2的卷积核可以更多地提取音频样本内时序相邻的梯度关系，有利于学习单帧内部音频时序信息。

批归一化卷积层，对于特定卷积核及其卷积对象，利用激活函数对预处理的音频自相关系数样本进行非线性处理，规定批量归一化卷积操作处理可表示为：

其中，为非线性激活函数；/>为批量归一化运算；/>为卷积算子操作；/>和分别为批归一化卷积操作中的权重参数与偏置项；/>为对输入的音频自相关系数样本/>进行批归一化卷积操作。

具体的，可分离共振峰神经网络采用组合的方式，经过3层可分离卷积层模型可得到音频共振峰降采样特征图，具体包括：

可分离卷积层通过批归一化卷积操作提取的音频初始特征图，再通过1×1卷积操作提取特征图中的辅助信息特征图，将这两部分特征通过拼接的方式完成特征融合，输出最终特征图：

深度可分离共振峰神经网络模型由一个2层归一化卷积层网络和3层可分离共振峰神经网络模型组成，经过3层可分离卷积层，/>，/>获取面部特征图/>：

上述公式中涉及的常规卷积网络参数配置如表1所示，深度可分离卷积具体参数配置如表2所示：

表1

表2

模型的前两层批归一化卷积层输出有较大的特征图尺寸，可以在较大的尺度内获取音频帧中的主要时序信息，同时第二个卷积层通过更多的通道数量提取了更多的语音信息。模型的可分离卷积网络通过普通卷积操作提取部分特征，再通过1×1卷积操作提取特征图中的冗余特征，将这两部分特征通过拼接的方式完成了特征融合，同时此种方式参数量更小，有更快的模型推理速度。至此，通过深度可分离卷积操作最终获取音频共振峰降采样特征图，其维度为256×64×1。

针对音频共振峰降采样特征图中音频发音特征提取，以音频共振峰降采样特征图作为输入发音分析网络，其中发音分析网络采用与深度可分离共振峰神经网络相同的组合卷积方法提取音频发音特征，其尺寸为256×1×1，其中卷积核相关参数不同，其操作如下公式所示：

所述组合卷积参数修改如表3、4所示：

表3

表4

发音分析网络在时序这一维度上以常规卷积的方式进行降采样扩大了感受野，获取了更为音频帧整体的发音信息；同时可分离卷积通过提取冗余信息，增强了对于音频发音的判别性，有利于更加细粒度地获取发音信息。

为了将音频发音特征进一步进行信息提取用于获取音频音素特征、音频跨模态差异特征、音频跨模态共享特征、音频情绪特征及音频强度特征，通过展平操作，将原尺寸256×1×1变换为尺寸256，维持数值及排列顺序不变。

定义表示以/>为输入，/>为输出向量维度的全连接操作，将展平后的音频发音特征分别变换为音频特征组，包括音频音素特征/>、音频跨模态差异特征/>、音频跨模态共享特征/>、音频情绪特征/>及音频强度特征/>，其变换公式如下：

在本实施例中，将上文提及的音频-面部图像样本对中的面部图像样本作为输入，使用SEResNet50通用骨干网络进行特征提取（函数/>表示以/>为输入的SEResNet50网络的输出特征），获得面部图像发音特征/>，其尺寸为256，变换公式如下：

通过全连接层将面部图像发音特征分别变换为，面部图像特征组包括面部图像音素特征、面部图像跨模态差异特征/>、面部图像跨模态共享特征/>、面部图像情绪特征/>及面部图像强度特征/>，变换公式如下：

将音频编码特征组与面部图像编码特征组作为输入，使用跨模态对齐神经网络模型获取对应的音频关联特征编码组. 跨模态神经网络由共享全连接层作为隐式的跨模态对齐方法，其中/>表示共享全连接层的输入，/>表示输出向量维度，/>表示共享全连接层序号，两个不同输入对应相同共享全连接层序号则表示这两个输入使用同一共享全连接层。

S104，通过多个共享全连接层获取多个所述音频关联特征编码组，生成音频特征关联编码混合形状系数组，并对所述音频特征关联编码混合形状系数组进行后处理驱动，生成面部动画。

具体地，步骤S104包括：通过多个共享全连接层获取音频特征关联编码混合形状系数组，其中，所述音频特征关联编码混合形状系数组包括音频关联编码组和面部图像关联编码组；

其中，所述音频关联编码组包括音频活跃状态关联编码、音频音素权重关联编码、音频情绪关联编码、音频强度关联编码，所述面部图像关联编码组包括面部图像活跃状态关联编码、面部图像音素权重关联编码、面部图像情绪关联编码、面部图像强度关联编码，公式为：

其中，为音频活跃状态关联编码，/>为音频音素权重关联编码，/>为音频情绪关联编码，/>为音频强度关联编码，/>为面部图像活跃状态关联编码，/>为面部图像音素权重关联编码，/>为面部图像情绪关联编码，/>为面部图像强度关联编码。

具体地，在本实施例中，通过多个共享全连接层获取音频特征关联编码混合形状系数组，包括音频活跃状态关联编码、音频音素权重关联编码/>、音频情绪关联编码/>及音频强度关联编码/>，与面部图像关联编码组（包括面部图像活跃状态关联编码/>、面部图像音素权重关联编码/>、面部图像情绪关联编码/>及面部图像强度关联编码/>，其公式如下：

在本发明一个可能的实施例中，在调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理之前，还包括：

构建一个基础神经网络模型，使用多种跨模态对齐损失函数对所述基础神经网络模型进行训练，其中，训练包括活跃状态损失、音素权重损失、情绪损失、强度损失、以及跨模态交互损失，计算公式为：

其中，表示向量的均方根，/>表示两个特征向量/>、/>之间的余弦相似度值,/>、/>、/>、/>、/>、/>、/>、/>分别代表音频活跃状态关联编码、音频音素权重关联编码、音频情绪关联编码、音频强度关联编码、面部图像活跃状态关联编码、面部图像音素权重关联编码、面部图像情绪关联编码及面部图像强度关联编码的真实混合形状系数，/>表示模型训练的整体损失,/>、/>、/>、通过神经网络模型拟合面部动画混合形状系数及活跃状态，同时还共享全连接层进行隐式跨模态对齐，/>通过显式地跨模态余弦相似度对齐，同时通过引入异构项减少模态异构信息对跨模态对齐地影响；

经过多轮训练，取得预设的验证集最小损失后，对提出的深度可分离共振峰神经网络模型权重进行推理，对测试音频进行预处理，获取音频帧自相关系数样本；

将所述音频帧自相关系数样本输入所述基础神经网络模型中，推理出测试音频特征关联编码组，并进行后处理；

通过获取ROC曲线确定音频活跃状态的最佳阈值，并通过最佳阈值进行编码获取面部最优活跃状态编码，以判断在推理音频中相应的音素是否处于活跃状态，其中，用于驱动面部动画的第/>帧的音素活跃状态编码/>中各元素计算公式为;

/>

其中，表示音素序号；

通过第帧的音素活跃状态编码/>与获取第/>帧音素权重关联编码/>中各元素系数相乘以获得初音素混合形状系数序列/>，计算公式为:

对推理驱动音素权重混合形状系数序列、推理音频初始情绪混合形状系数序列、以及推理音频初始强度混合形状系数序列在以音频帧时序维度上移动，并对预设滑动窗口进行中值滤波，获取第帧平滑音素混合形状系数序列，生成基于深度跨模态交互感知的神经网络模型。

具体地，在本实施例中，根据收集的人脸视频样本数据集，构建基于深度跨模态交互感知的神经网络模型，包含深度可分离共振峰神经网络模型、深度残差神经网络模型与跨模态关联神经网络模型）。为了提高该模型的拟合效果，本模型使用多种跨模态对齐损失函数用于模型训练，包括活跃状态损失、音素权重损失/>、情绪损失/>、强度损失/>及跨模态交互损失/>，其计算公式如下：

其中表示向量的均方根，/>表示两个特征向量/>、/>之间的余弦相似度值，/>、/>、/>、/>、/>、/>、/>、/>分别代表音频活跃状态关联编码、音频音素权重关联编码、音频情绪关联编码、音频强度关联编码、面部图像活跃状态关联编码、面部图像音素权重关联编码、面部图像情绪关联编码及面部图像强度关联编码的真实混合形状系数值。其中，/>表示模型训练的整体损失,/>、/>、、/>一方面通过神经网络模型拟合面部动画混合形状系数及活跃状态，另一方面通过共享全连接层进行隐式跨模态对齐；/>通过显式地跨模态余弦相似度对齐，同时通过引入异构项减少模态异构信息对跨模态对齐地影响。

在经过多轮训练获取了验证集最小损失后，即可对提出的深度可分离共振峰神经网络模型权重进行推理。首先将测试音频通过预处理获取音频帧自相关系数样本并输入深度可分离共振峰神经网络模型推理出测试音频特征关联编码组（包括音频活跃状态关联编码序列/>、音频音素权重关联编码序列/>、音频情绪关联编码序列及音频强度关联编码序列/>，其中/>表示测试音频第/>帧序号。

由于此时训练结果仅考虑单帧音频，因此需要对获取的推理编码组进行后处理。为了判断在推理音频中相应的音素是否处于活跃状态，需要通过模型训练获取ROC曲线确定音频活跃状态的最佳阈值，通过这些最佳阈值进行编码获取面部最优活跃状态编码进行进一步处理。将用于驱动面部动画的第/>帧的音素活跃状态编码/>中各元素计算公式如下：

其中，表示音素序号。

进一步通过第帧的音素活跃状态编码/>与获取第/>帧音素权重关联编码中各元素系数相乘以获得初音素混合形状系数序列/>，计算公式如下：

其中，表示音素序号。

对推理驱动音素权重混合形状系数序列、推理音频初始情绪混合形状系数序列及推理音频初始强度混合形状系数序列以在音频帧时序维度上移动，窗口大小为9的滑动窗口进行中值滤波获取第帧平滑音素混合形状系数序列，包括音频活跃状态关联编码系数序列/>、音频音素权重关联编码序列/>、音频情绪关联编码序列/>及音频强度关联编码序列/>。

其中表示窗口大小为9的中值滤波操作算子。

使用后处理的音频特征关联编码组调节对应的预制混合形状面部关键帧动画权重以达到驱动面部动画的功能。

所述语音驱动面部动画方法要解决的技术问题是提供一种通过语音驱动面部动画的方法，并利用音频-面部图像跨模态交互感知的方法实现网络参数的调优，以弥合音频单模态面部驱动动画的不精准问题。所述语音驱动面部动画方法基于深度学习的语音驱动表情预测技术具有广泛的应用前景。它可以用于改善虚拟角色和机器人的交互体验，使其能够更准确地传达情感。此外，它还可以在辅助沟通领域发挥作用，帮助那些面部表情受限的人群更好地表达自己的情感。尽管该技术存在一些挑战，如数据获取、模型训练的复杂性及单模态语义二义性，但随着深度学习算法的不断进步和计算能力的提升，语音驱动表情预测有望在未来得到更广泛的应用和研究。

为进一步说明本实施例，下面将从以一具体的实验来对本发明的效果进行验证。本实验对100人的正面讲话视频数据进行测试，受试者包括50名男性与50名女性。受试者通过苹果手机的单目3D深度摄像头采集单目RGB视频，并通过Arkit对嘴唇与下颚张开强度逐帧自动标注；逐帧通过预训练情绪识别模型对受试者情绪进行标注；逐帧对语音的音素活跃度、音素权重进行标注。其中所音素活跃度为0或1的二元值，其余标注值均为0到1之间的连续值，视频总时长为2小时34分钟，按照30的帧率划分为音频帧与面部图像帧，实验按照7:2:1的比例划分为训练集、验证集和测试集，分别用于模型训练、验证和测试。

实验中，选取了现有最先进方法进行检测效果对比试验，具体为（文献1-Xing,Jinbo, et al. "Codetalker: Speech-driven 3d facial animation with discretemotion prior."Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition. 2023.),（文献2-Guan, Jiazhi, et al. "StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator."Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2023，（文献3-Zhai, Shuyan, et al. "Talking Face Generation WithAudio-Deduced Emotional Landmarks."IEEE Transactions on Neural Networks andLearning Systems(2023)，其中参数选择文献中默认参数。为公平比较实验结果，采用相同训练方法并只比较音频活跃状态编码、音素权重编码、音频情绪编码及音频强度测试结果。

对于二元值采用准确率作为评价标准，对于连续值采用模型预测值与标签值的均方差作为评价标准，这两种评价标准衡量算法的稳定性与精确度。相同实验均进行3次，实验测试集评价标准具体数值如下表5所示：

表5

实验结果表明，当使用本实施例时，最重要的音素活跃度编码、音素权重编码及音频情绪编码这三项指标显著优于文献1、2、3中方法获取的结果，音频强度编码这项次要指标也获取了较优值，且与最优值接近。其中，音素活跃度编码、音素权重编码及音频情绪编码结果表明本实施例能够获取精确、稳定的面部混合形状系数以用于驱动面部动画。本实施例能够取得最好的预测效果主要原因在于跨模态交互感知网络提供的丰富模态信息为弥合了音频驱动面部动画的二义性；次要的跨模态予以对齐、模态差异特征与同构特征的分解通过损失函数的方式进一步强化了模态间的判别性；此外深度可分离共振峰神经网络提取了音频模态的更多细节特征，加强了神经网络的而判别能力。从实验结果看，本实施例的基于深度跨模态交互感知语音驱动面部动画方法具备一定的理论意义与实际应用价值，实验验证了本实施例的有效性。

综上，所述语音驱动面部动画方法的有益效果有：1.通过深度跨模态交互感知的方法使得音频与面部图像获取的特征在样本空间上的分布更相近，进而提高了音频驱动面部动画混合形状系数预测的准确性。2.通过深度跨模态交互感知的方法在推理阶段只需使用音频作为单模态输入，在更多的训练辅助信息下有更快的推理速度。3.通过深度跨模态交互感知的方法使得模型可以学习如何从不同的模态中提取特征和表示以作为数据增强方法；这种数据增强可以扩大训练数据的范围，提高模型的泛化能力，减少过拟合的风险。4.通过深度可分离共振峰神经网络模型提取源于音频中的特征，并采用深度跨模态交互感知共享全连接层与分类器来提高音频驱动面部动画混合形状系数预测的准确性。5.通过在通用的基于音素及情绪的面部混合形状系数之外上引入音频强度，用于表达语音的强度，减少了音频驱动面部动画的二义性，增强了面部动画的表现力。6.通过计算机视觉和人工智能进行音频驱动面部动画的混合形状预测以实现音频驱动面部动画，可在移动端基于音频实时预测面部动画混合形状并依此驱动面部动画；本发明的音频驱动面部动画的混合形状系数预测精度较高，可为游戏、动画电影等的虚拟数字角色面部语音动画制作提供较高精度且较低时间复杂度的自动化制作方法。

请参阅图2，本发明的第二实施例提供了一种语音驱动面部动画装置，包括：

样本获取单元201，用于获取不同人物、不同音素口型、不同情绪状态、以及不同发音强度的人脸视频样本，并对所述人脸视频样本进行标注，生成人脸视频初始样本数据集，其中，所述人脸视频初始样本数据集由多个音频-面部图像样本对构成；

数据预处理单元202，用于分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理，生成人脸视频样本数据集，其中，所述音频数据预处理包括音频帧切分、音频帧随机偏移、音频帧随机噪声添加和音频帧自相关系数计算；所述面部图像数据预处理包括面部区域截取、面部图像尺寸伸缩；

神经网络模型处理单元203，用于调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，其中，所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型、深度残差神经网络模型和跨模态关联神经网络模型；

面部动画生成单元204，用于通过多个共享全连接层获取多个所述音频关联特征编码组，生成音频特征关联编码混合形状系数组，并对所述音频特征关联编码混合形状系数组进行后处理驱动，生成面部动画。

本发明的第三实施例提供了一种语音驱动面部动画设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的一种语音驱动面部动画方法。

本发明的第四实施例提供了一种可读存储介质，其特征在于，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的一种语音驱动面部动画方法。

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述一种语音驱动面部动画设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种语音驱动面部动画方法的控制中心，利用各种接口和线路连接整个所述一种语音驱动面部动画方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种语音驱动面部动画方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、文字转换功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、文字消息数据等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡（Smart Media Card, SMC）、安全数字（SecureDigital, SD）卡、闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims

1.一种语音驱动面部动画方法, 其特征在于，包括：

分别对所述人脸视频初始样本数据集进行音频数据预处理和面部图像数据预处理，生成人脸视频样本数据集，其中，所述音频数据预处理包括音频帧切分、音频帧随机偏移、音频帧随机噪声添加和音频帧自相关系数计算；所述面部图像数据预处理包括面部区域截取、面部图像尺寸伸缩，具体为：

对所述人脸视频初始样本数据集的用户音频波形数据进行归一化处理，生成归一化音频波形数据；

根据公式计算所述平滑帧内窗口的音频自相关系数，其中，/>为平滑帧内窗口第/>个样本值，/>为平滑帧内窗口样本在延迟/>个样本后的第/>行自相关程度系数，/>，/>为平滑帧内窗口的样本数；

其中，表示向量的均方根，/>表示两个特征向量/>、/>之间的余弦相似度值,、/>、/>、/>、/>、/>、/>、/>分别代表音频活跃状态关联编码、音频音素权重关联编码、音频情绪关联编码、音频强度关联编码、面部图像活跃状态关联编码、面部图像音素权重关联编码、面部图像情绪关联编码及面部图像强度关联编码的真实混合形状系数，/>表示模型训练的整体损失,/>、/>、/>、通过神经网络模型拟合面部动画混合形状系数及活跃状态，同时还共享全连接层进行隐式跨模态对齐，/>通过显式地跨模态余弦相似度对齐，同时通过引入异构项减少模态异构信息对跨模态对齐地影响；

其中，表示音素序号；

对推理驱动音素权重混合形状系数序列、推理音频初始情绪混合形状系数序列、以及推理音频初始强度混合形状系数序列在以音频帧时序维度上移动，并对预设滑动窗口进行中值滤波，获取第帧平滑音素混合形状系数序列，生成基于深度跨模态交互感知的神经网络模型；

调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，其中，所述基于深度跨模态交互感知的神经网络模型包括深度可分离共振峰神经网络模型、深度残差神经网络模型和跨模态关联神经网络模型，具体为：

所述深度可分离共振峰神经网络模型以所述音频自相关系数为样本对所述人脸视频样本数据集进行提取处理，提取音频共振峰降采样特征，其中，所述深度可分离共振峰神经网络模型由一个二层归一化卷积层网络和三层可分离共振峰神经网络模型构成；

其中，为非线性激活函数，/>为批量归一化运算，/>为卷积算子操作，/>和/>分别为批归一化卷积操作中的权重参数与偏置项，/>为对输入的音频自相关系数样本/>进行批归一化卷积操作；

经过3层可分离卷积层，/>，/>获取面部特征图/>，公式为：；

其中，为音频音素特征，/>为音频跨模态差异特征，/>为音频跨模态共享特征，/>为音频情绪特征，/>为音频强度特征，/>表示为以/>为输入，/>为输出向量维度的全连接操作；

通过多个共享全连接层获取多个所述音频关联特征编码组，生成音频特征关联编码混合形状系数组，并对所述音频特征关联编码混合形状系数组进行后处理驱动，生成面部动画，具体为：

通过多个共享全连接层获取音频特征关联编码混合形状系数组，其中，所述音频特征关联编码混合形状系数组包括音频关联编码组和面部图像关联编码组；

其中，为音频活跃状态关联编码，/>为音频音素权重关联编码，/>为音频情绪关联编码，/>为音频强度关联编码，/>为面部图像活跃状态关联编码，为面部图像音素权重关联编码，/>为面部图像情绪关联编码，/>为面部图像强度关联编码。

2.根据权利要求1所述的一种语音驱动面部动画方法, 其特征在于，对所述人脸视频初始样本数据集进行面部图像数据预处理，具体为：

3.根据权利要求1所述的一种语音驱动面部动画方法, 其特征在于，调用训练好的基于深度跨模态交互感知的神经网络模型对所述人脸视频样本数据集进行预处理，生成音频关联特征编码组，还包括：

其中，函数表示以/>为输入的SEResNet50网络的输出特征；

4.一种语音驱动面部动画装置，其特征在于，引用如权利要求1所述的一种语音驱动面部动画方法，包括：

5.一种语音驱动面部动画设备，其特征在于，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如权利要求1至3任意一项的一种语音驱动面部动画方法。

6.一种可读存储介质，其特征在于，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如权利要求1至3任意一项的一种语音驱动面部动画方法。