CN113838174B

CN113838174B - 一种音频驱动人脸动画生成方法、装置、设备与介质

Info

Publication number: CN113838174B
Application number: CN202111412881.4A
Authority: CN
Inventors: 刘逸颖; 李太豪; 郑书凯; 阮玉平
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-06-10
Anticipated expiration: 2041-11-25
Also published as: CN113838174A

Abstract

本发明公开了一种音频驱动人脸动画生成方法、装置、设备和介质，该方法包括以下步骤：步骤1，采集语音信号，提取MFCC特征并输入音素识别器，获得语音的音素分类概率；步骤2，将音素分类概率输入Embedding层，得到音素的Embedding编码；步骤3，将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；步骤4，将3D人脸顶点位移与自然表情的人脸模板相加，得到带说话表情的3D人脸；步骤5，将连续时间内的3D人脸渲染为2D图像，生成动画视频。本发明将发音和人脸表情直接关联，能够识别全球超2000种语言，具有更强的泛化能力，同时，可以为不同语言的动画进行配音，大大降低动画制作成本。

Description

一种音频驱动人脸动画生成方法、装置、设备与介质

技术领域

本发明属于人工智能领域，涉及一种音频驱动人脸动画生成方法、装置、设备与介质。

背景技术

音频驱动人脸动画生成涵盖语音处理、计算机图形学、计算机视觉、多媒体等多个学科领域。近年随着人工智能和多媒体技术的不断发展，虚拟数字人技术得到广泛的关注，音频驱动3D人脸动画作为其中的一个重要组成部分，也得到越来越多的关注。音频驱动人脸动画技术能够大大简化3D角色动画制作，使动画与配音音轨匹配，轻松完成游戏、电影和实时数字助理的动画角色制作；可用于交互式实时应用场景、传统的面部动画创作工具等。

现有的音频驱动人脸动画生成方案，仅针对单种语言，即单个模型仅对特定的语言能够具有较好的面部动作表情生成，若需针对不同语言，需设计不同的网络结构并进行训练。如论文“Capture, Learning, and Synthesis of 3D Speaking Styles”针对英语语音，首先利用一个语音识别模型DeepSpeech将音频识别为文字信息，之后再利用文字信息去预测3D人脸的相应动作变化。然而相比于文字信息，发音才是与嘴部运动具有最直接关系，而与语音所传达的语义无关。一个未知语言的音频信号预测一个人脸动画是有可能的。

现有的专利“用于生成动画的方法和装置”，CN109377539A公开了其音素与嘴型是预设的对应关系，从而确定嘴型对象，在其得到该嘴型信息匹配的嘴型对象后，直接将各信息进行汇总，利用现有的动画制作工具，例如Unity 3D，Maya等，生成人脸图像。其局限于需要进行预设，以及人脸图像的生成过程具有一定的复杂性。相同的，现有的专利“视频生成方法和装置”，CN 113282791 A亦是公开其音素与表情的对应关系是预设的。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种音频驱动人脸动画生成方法、装置、设备与介质，其具体技术方案如下：

一种音频驱动人脸动画生成方法，包括以下步骤：

步骤1，采集语音信号，提取MFCC特征，并输入音素识别器，获得语音的音素分类概率；

步骤2，将音素分类概率输入Embedding层，得到音素的Embedding编码；

步骤3，将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；

步骤4，将3D人脸顶点位移，与自然表情的人脸模板相加，得到带说话表情的3D人脸；

步骤5，将连续时间内的3D人脸渲染为2D图像，生成动画视频。

进一步的，所述音素识别器，由5个堆叠的双向LSTM和一个全连接层串联组成，通过最小化CTC损失函数来优化网络参数，其中双向LSTM的输入大小为120，隐藏层的单元数为320，输出大小为640；全连接层输入大小为640，输出大小为230，全连接层的激活函数为softmax。

进一步的，所述音素识别器输出为一个长度为230的概率向量，分类包含1个空隔及229个国际音标，共230个类别，该229个国际音标覆盖全球超过2000种语言的发音。

进一步的，所述的Embedding层将音素分类概率编码为一个64维向量，构建音素之间的内在联系，并去除冗余信息。

进一步的，所述的表情预测器为一个编码器-解码器结构，其中编码器的网络结构为4个卷积层和2个全连接层进行串联，解码器的网络结构为一个全连接层。

进一步的，所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据；训练过程中通过最小化损失函数来更新所述Embedding层及表情预测器的网络参数，所述的损失函数由三部分组成：顶点的距离损失

，人脸的68个landmark距离损失

以及人脸的68个landmark的时间连续性损失

，表达式分别如下：

其中，N为3D人脸的顶点总数，

为第i个顶点的真实三维坐标，

为预测的顶点坐标，M=68为landmark的数量，

为第k个lanmark对应的第

个顶点的真实三维坐标，

预测的对应的顶点坐标，t表示当前帧，t-1表示前一帧；三者以权重

、

和

进行相加：

。

进一步的，所述人脸模板是与所述表情预测器输出具有相同顶点数和固定拓扑结构的任意形状的3D人脸。

一种音频驱动人脸动画生成装置，包括：

音频采集模块，用于采集语音信号；

人脸动画生成模块，用于根据输入的语音信号，提取MFCC特征，并输入音素识别器，获得语音的音素分类概率；将音素分类概率输入Embedding层，得到音素的Embedding编码；将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；将3D人脸顶点位移，与自然表情的人脸模板相加，得到带说话表情的3D人脸序列；将3D人脸序列渲染为2D图像，生成动画视频；

动画显示模块，用于显示生成的动画视频。

一种电子设备，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于执行存储器中存储的实现任一所述一种音频驱动人脸动画方法的步骤的计算机程序指令。

一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现任一所述一种音频驱动人脸动画方法的步骤。

本发明的优点：

1.本发明提出的跨语言的音频驱动人脸动画生成方法，能够识别全球超过2000种语言的发音，并根据发音驱动3D人脸动画，相比于以往的方式，本发明将发音和人脸表情直接关联，而非将更复杂的上层语言依赖特征与人脸表情进行关联，具有更强的泛化能力。

2.本发明仅需使用一个训练好的模型，就能为全球超过2000种不同语言进行3D动画配音，并保证嘴型与语音一致，能够大大降低动画制作成本，提高动画的观感。

3. 由于不同音素可能对应到同一嘴型，本发明使用的Embedding层能够有效的构建不同音素之间的内在联系，减少冗余信息，并有效提高网络的泛化能力。

附图说明

图1为本发明的音频驱动人脸动画生成方法的流程示意图；

图2为本发明的人脸的68个landmark位置示意图；

图3为本发明的音频驱动人脸动画生成系统的结构示意图；

图4为本发明的动画生成的效果示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，一种跨语言的音频驱动人脸动画生成方法，包括以下步骤：

步骤1，采集语音信号，提取MFCC特征，并输入音素识别器，获得语音的音素分类概率。

本实施例中，对采集的音频信号设置采样率为8000Hz，并设置滑窗大小为0.025s，滑窗步幅为0.01s，倒谱数为40，提取出MFCC特征，并将得到的MFCC特征每3个进行堆叠，得到的每一帧的MFCC特征的长度为120，随后输入音素识别器进行音素识别。

音素识别器输出为一个长度为230的概率向量，分类包含1个空白分类及229个国际音标IPA，共230个类别，其中的国际音标IPA分别为：I, a, aː, ã, ă, b, bʲ, bʲj, bʷ,bʼ, bː, b̞, b̤, b̥, c, d, dʒ, dʲ, dː, d̚, d̥, d̪, d̯, d͡z, d͡ʑ, d͡ʒ, d͡ʒː, d͡ʒ̤, e, eː, e̞, f, fʲ, fʷ, fː, g, gʲ, gʲj, gʷ, gː, h, hʷ, i, ij, iː, i̞, i̥, i̯, j, k, kx, kʰ, kʲ, kʲj, kʷ, kʷʼ, kʼ, kː, k̟ʲ, k̟̚, k͡p̚, l, lʲ, lː, l̪, m, mʲ, mʲj, mʷ, mː, n,nj, nʲ, nː, n̪, n̺, o, oː, o̞, o̥, p, pf, pʰ, pʲ, pʲj, pʷ, pʷʼ, pʼ, pː, p̚, q, r,rː, s, sʲ, sʼ, sː, s̪, t, ts, tsʰ, tɕ, tɕʰ, tʂ, tʂʰ, tʃ, tʰ, tʲ, tʷʼ, tʼ, tː, t̚, t̪, t̪ʰ, t̪̚, t͡s, t͡sʼ, t͡ɕ, t͡ɬ, t͡ʃ, t͡ʃʲ, t͡ʃʼ, t͡ʃː, u, uə, uː, u͡w, v, vʲ, vʷ, vː, v̞, v̞ʲ, w, x, x̟ʲ, y, z, zj, zʲ, z̪, ä, æ, ç, çj, ð, ø, ŋ, ŋ̟, ŋ͡m, œ, œ̃,ɐ, ɐ̞, ɑ, ɑ̱, ɒ, ɓ, ɔ, ɔ̃, ɕ, ɕː, ɖ̤, ɗ, ə, ɛ, ɛ̃, ɟ, ɡ, ɡʲ, ɡ̤, ɡ̥, ɣ, ɣj,ɤ, ɤɐ̞, ɤ̆, ɥ, ɦ, ɨ, ɪ, ɫ, ɯ, ɯ̟, ɯ̥, ɰ, ɱ, ɲ, ɳ, ɴ, ɵ, ɸ, ɹ, ɹ̩, ɻ, ɻ̩, ɽ, ɾ, ɾj, ɾʲ, ɾ̠, ʀ, ʁ, ʁ̝, ʂ, ʃ, ʃʲː, ʃ͡ɣ, ʈ, ʉ̞, ʊ, ʋ, ʋʲ, ʌ, ʎ, ʏ, ʐ,ʑ, ʒ, ʒ͡ɣ, ʔ, ʝ, ː, β, β̞, θ, χ, ә, ḁ，该229个音标能够覆盖全球超过2000种语言的发音。

如表2所示，音素识别器由5个堆叠的双向LSTM和一个全连接层串联组成，其中双向LSTM的输入大小为120，隐藏层的单元数为320，输出大小为640，全连接层输入大小为640，输出大小为230，激活函数为softmax。

可选地，音素识别器的训练使用如表1所示不同语言对应的数据集进行训练，并通过最小化CTC损失函数来优化网络参数。

表1 语言及数据集

由于不同音素有可能对应到相同的嘴型，即不同的音素之间存在一定的相关性。因此，本发明使用一个Embedding层将音素分类概率编码为一个64维向量，它能够构建音素之间的内在联系，去除冗余信息，并起到降维的作用。

步骤3, 将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；

本发明的表情预测器为一个编码器-解码器的结构。其中，编码器的网络结构为4个卷积层和2个全连接层进行串联。网络结构及网络参数如表2所示。编码器的输入为音素的Embedding，并对该输入以大小为16的滑窗在时序上进行堆叠，输出长度为50的向量。

解码器的结构为1个全连接层，输入长度为n_exp的向量，输出大小为n_verts×3的人脸模型顶点位移，n_verts为3D人脸的顶点数量。本实施例中，n_exp为50，n_verts为5023。可选的，根据使用的3D人脸拓扑网格的不同，顶点数不同，例如，BFM模型的人脸顶点数为53215, FLAME模型的人脸顶点数为5023。

表2 网络结构参数

如图2所示，本发明的表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据；训练过程中通过最小化损失函数来更新所述Embedding层及表情预测器的网络参数，所述的损失函数由三部分组成：顶点的距离损失

，人脸的68个landmark距离损失

以及人脸的68个landmark的时间连续性损失

，表达式分别如下：

其中，N为3D人脸的顶点总数，

为第i个顶点的真实三维坐标，

为预测的顶点坐标，M=68为landmark的数量，

为第k个lanmark对应的第

个顶点的真实三维坐标，

、

和

进行相加：

本实施例设置

=2、

=1和

=1。

步骤4，将3D人脸顶点位移，与自然表情的人脸模板相加，得到带说话表情的3D人脸序列。

人脸模板可以是与所述表情预测器输出具有相同顶点数和固定拓扑结构的任意形状，如，不同胖瘦，老幼、男女等特征的3D人脸。

如图3所示，在上述实施例的基础上，为本发明实施例提供的一种语音驱动人脸动画生成装置，包括：

音频采集模块301，用于采集语音信号；

人脸动画生成模块302，用于根据输入的语音信号，提取MFCC特征，并输入音素识别器，获得语音的音素分类概率；将音素分类概率输入Embedding层，得到音素的Embedding编码；将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；将3D人脸顶点位移，与自然表情的人脸模板相加，得到带说话表情的3D人脸序列；将3D人脸序列渲染为2D图像，生成动画视频；

动画显示模块303，用于显示生成的动画视频。

如图4所示为本发明的人脸动画显示模块输出的效果图。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。