CN115330912A

CN115330912A - 基于音频和图像驱动的用于生成人脸说话视频的训练方法

Info

Publication number: CN115330912A
Application number: CN202211248353.4A
Authority: CN
Inventors: 储琪; 刘斌; 俞能海; 盛典墨
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-11-11
Anticipated expiration: 2042-10-12
Also published as: CN115330912B

Abstract

本发明公开了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法。该方法包括：获取预设帧数的视频样本，并构建人脸说话视频生成模型；利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量；利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量；利用音频‑表情映射网络处理音频特征向量和扩展潜在向量，得到加权的扩展潜在向量；利用生成器处理加权的扩展潜在向量，得到生成视频。本发明同时还提供了一种基于音频和图像驱动的人类说话视频的生成方法。

Description

基于音频和图像驱动的用于生成人脸说话视频的训练方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于音频和图像驱动的用于生成人脸说话视频的训练方法以及基于音频和图像驱动的人脸说话视频生成方法。

背景技术

所谓人脸说话生成，是指根据输入的驱动信号（音频、图像、视频、文本等）来生成一个人的具有真实感的有声谈话视频。通常音频信号提供目标人物的说话风格及唇部运动信息，图像或视频信号提供目标人物的外观及运动学信息。人脸说话生成具有广泛的应用，如说话和特效制作，电话会议，游戏，社交媒体，VR和虚拟角色生成等。然而该任务具有极大的挑战。生成一系列高真实感的视频帧，需要考虑人脸面部表情的真实性，视频帧之间的时间连续性，唇部运动与语音的同步性等多方面因素，而且人们对面部动作和视听同步中的细微异常都很敏感。随着深度生成模型的快速发展，现有方法大多通过借助不同驱动信号的信息辅助生成中间目标身份人脸建模，通过深度渲染的方式获得生成视频。

然而，现有技术中，人脸说话生成方法存在目标人脸身份信息难以保持、生成的人脸细节表现力差、泛化能力弱等问题。

发明内容

鉴于上述问题，本发明提供了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法及基于音频和图像驱动的人脸说话视频生成方法及系统，以期望能够至少解决上述问题之一。

根据本发明的第一个方面，提供了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法，包括：

获取预设帧数的视频样本，并构建人脸说话视频生成模型，其中，人脸说话视频生成模型包括音频-表情映射网络、音频特征提取器、图像编码器和生成器，音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块；

利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量；利用音频编码器将音频特征向量进行编码处理，得到编码后的音频特征向量；利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量；利用潜在向量编码器计算视频图像的扩展潜在向量的位移，得到扩展潜在向量的位移原点；利用映射网络处理编码后的音频特征向量和扩展潜在向量的位移原点，得到扩展潜在向量的位移信息；利用注意力模块计算扩展潜在向量的位移信息的线性组合，得到加权的扩展潜在向量；利用生成器处理加权的扩展潜在向量，得到生成视频，其中，生成器基于StyleGAN2模型构建；

利用损失函数处理生成视频、与生成视频相对应的视频样本和扩展潜在向量，得到损失值，并根据损失值，优化人脸说话视频生成模型的参数；

迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作，直到损失值满足预设条件，得到训练完成的人脸说话视频生成模型。

根据本发明的实施例，上述利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量包括：

利用音频特征提取器分别获取距离视频样本的目标帧之前和之后第一预设时长的多个音频片段；

利用音频特征提取器的语音识别模型提取每个音频片段预设数量的逻辑单元，得到具有第二预设时长的多个逻辑单元，其中，任意两个逻辑单元所对应的音频互不重叠；

利用音频特征提取器将逻辑单元处理成第一预设维度的音频特征向量；

其中，音频特征提取器基于DeepSpeech构建，音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。

根据本发明的实施例，上述利用音频编码器将音频特征向量进行编码处理，得到编码后的音频特征向量包括：

利用音频编码器将音频特征向量进行转置，得到转置后的音频特征向量；

利用音频编码器对转置后的音频特征向量在时间维度上进行一维时间卷积，得到编码后的音频特征向量；

其中，音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层，每个一维卷积层包括偏置项和多个滤波器。

根据本发明的实施例，上述利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量包括：

利用图像编码器处理视频样本，得到线性输出向量，并将线性输出向量映射到具有第二预设维度的扩展潜在空间，得到潜在向量；

利用图像编码器计算平均潜在向量的偏移量，并将平均潜在向量的偏移量和潜在向量进行向量运算，得到扩展潜在向量；

其中，图像编码器基于ResNet18构建；

其中，平均潜在向量由StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。

根据本发明的实施例，上述利用潜在向量编码器计算视频图像的扩展潜在向量的位移，得到扩展潜在向量的位移原点包括：

获取训练样本中事先设置的潜在向量的预设数量的主成分的分量，并根据预设数量的主成分的分量，初始化潜在向量编码器的参数；

利用潜在向量编码器提取视频图像的扩展潜在向量的位移的特征信息，并将特征信息映射到一维向量中得到扩展潜在向量的位移原点。

根据本发明的实施例，上述映射网络包括多个第一全连接层和多个第二全连接层；

其中，第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。

根据本发明的实施例，上述注意力模块包括采用预设斜率的LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。

根据本发明的实施例，上述利用生成器处理加权的扩展潜在向量，得到生成视频包括：

利用生成器的StyleGAN2模型进行跳跃连接，将具有不同尺寸的特征图引入生成器；

利用生成器通过多级特征生成视频图像的细节特征；

利用生成器输入逐帧经过位移信息调整后的潜在向量，生成时序图像；

利用图像转换工具将时序图像进行转换，得到生成视频。

根据本发明的实施例，上述损失函数包括感知损失函数和加权均方差损失函数。

根据本发明的第二个方面，提供了一种基于音频和图像驱动的人脸说话视频生成方法，包括：

利用训练完成的人脸说话视频生成模型处理目标人物的视频，得到目标人物的人脸说话生成视频，其中，训练完成的人脸说话生成模型由上述训练方法训练得到。

本发明通过基于StyleGAN2潜在向量映射空间的人脸说话生成模型来提高人脸说话的生成质量并提供音频对应的情绪表达。本发明提供的人脸说话生成模型具有通用性，可以适应不同的输入数据，应用于不同的目标身份，具有良好的泛化性。此外，本发明通过一个预测StyleGAN2的扩展潜在向量空间中与音频段相对应的线性位移的模块，利用音频特征对目标身份图像潜在向量进行控制，以实现音频-表情映射学习，进而生成带有音频情绪对应面部表情的目标身份说话视频。

附图说明

图1是根据本发明实施例的基于音频和图像驱动的用于生成人脸说话视频的训练方法的流程图；

图2是根据本发明实施例的获取音频特征向量的流程图；

图3是根据本发明实施例的DeepSpeech模型的结构示意图；

图4是根据本发明实施例的获取音频特征向量的过程示意图；

图5是根据本发明实施例的获取编码后的音频特征向量的流程图；

图6是根据本发明实施例的获取扩展潜在向量的流程图；

图7是根据本发明实施例的图像编码器的运行示意图；

图8是根据本发明实施例的获取位移原点的流程图；

图9是根据本发明实施例的潜在空间的示意图；

图10是根据本发明实施例的交换潜在向量区间可视化示意图；

图11是根据本发明实施例的获取生成视频的流程图；

图12是根据本发明实施例的基于StyleGAN2的生成器的结构示意图；

图13是根据本发明实施例的面部掩模可视化的示意图；

图14是根据本发明实施例的人脸说话视频生成方法的结构示意图；

图15是根据本发明实施例的可视化对比结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

根据人脸的建模类型不同，可以将人脸说话生成方法分为基于2D人脸模型和基于3D人头模型的方法。基于2D人脸模型的方法又可分类为对象相关模型和对象不相关模型。早期工作都是基于对象相关人脸建模，例如使用重定时动态编程方法重现说话人运动动态。然而，重定时动态编程方法是针对单一身份建模的，并不能推广到其他身份上。对象相关的建模限制了实际应用场景。另一方面，对象不相关模型需要目标身份图像或视频数据（例如在训练数据中出现过）生成一个目标人脸的面部动态2D关键点作为中间产物辅助合成说话人脸。现有技术中已经出现了采用人脸2D面部关键点作为中间表示帮助建模从驱动音频信号到人脸说话视频输出的映射。后续基于2D的方法大多延续了生成面部关键点作为中间表示的思路，例如通过卷曲生成的唇部区域融入到源视频帧获得与音频匹配的人脸说话视频，但面部其他区域没有灵活的运动。这些基于2D人脸建模的方法在展示出色的面部结果质量的同时，只能合成固定视点视频，很难获得更加动态体验。近年来随着深度学习的发展，利用卷积神经网络（Convolutional Neural Network, CNN）提取的外观特征被广泛应用到多目标跟踪领域。

基于2D人脸模型的方法不同，本发明提供的人脸说话生成方法将外观特征和目标之间的相互关系（特征）进行有效结合，为每个目标构建一个有向图的特征表示。

为了解决上述基于2D人脸模型存在的不足，基于3D人头模型的方法通过更加精准的立体建模一定程度上解决了这些问题。基于3D人头模型的方法也可分为对象相关模型和对象不相关模型。传统的基于3D人头模型的方法通常会建立一个目标身份相关的模型，该模型只能合成一个身份，无法迁移到其他身份上。此外，传统的基于3D人头模型的方法专注于在头部姿态固定情况下传递目标身份的表情，例如使用RGB或RGBD传感器收集要合成的目标身份的镜头，然后针对其面部区域构建目标身份3D模型。随着深度学习方法的发展，最近的基于3D模型的方法能够生成对象不相关的人脸说话生成，例如采用联合视听表示，将身份信息和说话内容信息从图像域中分离出来以构建对象不相关的3D人头模型。在测试时，新身份将用于驱动3D模型以生成所需的面部运动。尽管基于3D人头模型的方法在合成头部运动方面做得很出色，但很难生成逼真的头发，牙齿等细节。

然而，现有技术中，无论是基于2D人脸模型和基于3D人头模型的方法都存在一些共性的技术问题：

首先，很难保持目标人脸身份信息。针对特定身份的模型可以很好地保持身份信息，但存在无法针对其他身份生成的问题；采用构建标准人脸/人头模型的方法可以采用数据驱动的训练方法提高泛化性能，但很难保持目标身份的面部细节。

其次，生成的嘴唇动作通常表现出较少的表现力，不能很好传达音频语义信息。采用音素视位检索可以合成逼真的唇部运动，但针对训练数据不存在的音素无法生成，现有基于生成的方法通过对唇部细节设置损失函数可以学习到一定的唇部动作，但是往往与真实唇部动作有差异。

最后，泛化性弱，对于未知身份的面孔生成效果差。通过构建标准人脸或人头模型可以学习针对多个身份的人脸说话生成，然而对于数据集中不存在的身份，生成效果较差。针对泛化性弱等问题，最新研究采用元学习提高泛化性能。元学习，也称为“学会学习”，旨在通过少量训练样本即可让模型学习到如何快速适应全新的数据。在人脸说话生成领域，通过元学习阶段获得的通用人脸嵌入参数，再通过few-shot阶段在新身份上训练微调该参数得到特定身份嵌入参数用于生成对应身份视频帧；或者使用MAML（Model-Agnostic-Meta-Learning）方法训练GAN以实现标准2D人脸关键点到目标身份视频帧的映射。

针对上述技术问题，如何根据获得的中间表示生成最终的视频结果也是值得研究的内容。现有方法大多基于图像翻译生成模型基础上迁移得到。在人脸编辑领域，图像被编码为潜在向量（latent code）的过程就是一个解耦过程，网络的低层次控制全局特征如：姿势、一般发型、面部形状；中层影响更精细的面部特征、发型、眼睛的睁开或是闭合；高层影响颜色方案（眼睛、头发和皮肤）和微观特征，通过映射网络解耦出样式，在生成网络的不同层次引入额外的噪声，可以对不同层次的特征进行控制，通过实验证明了他们的方法有效性。由于StyleGAN在生成时会在局部细节上产生伪影，为了解决这个问题，通过对原生成模型中的AdaIN层（adaptive instance normalization）重新设计为权重解调层，并在GAN的编码器与解码器间加入跳跃连接实现了消除伪影与提高生成质量。

针对现有技术中存在的各种问题，本发明提供的人脸说话视频生成方法基于音频和单张图片驱动，通过将人脸肖像投影到共享的扩展潜在空间中实现面部特征的解耦，获得目标身份面部不同维度的特征。同时，通过设计音频-表情映射网络根据音频信号学习时序的音频情绪表示并对面部潜在向量计算偏移量，最终采用StyleGAN2生成器网络生成逼真的人脸说话视频帧。

本发明的人脸说话视频生成方法的技术要点主要有：首先提出了一种基于StyleGAN2投影潜在空间的生成方法，通过将输入图像投影到扩展潜在空间对人脸属性进行解耦；其次，构建音频-表情映射网络，使用解耦的潜在向量计算与标准面部位移并根据音频信息对目标身份的唇部和表情进行操纵；此外，基于StyleGAN2生成器网络，根据调整后的潜在向量生成高保真，唇形与音频同步的真实人脸说话视频，从而解决现有技术中人脸说话视频生成过程中生成质量低、唇形视听同步差等问题。

需要特别指出的是，在本发明的技术方案中，所涉及的包含人脸的视频数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1是根据本发明实施例的基于音频和图像驱动的用于生成人脸说话视频的训练方法的流程图。

如图1所示，上述基于音频和图像驱动的用于生成人脸说话视频的训练方法包括操作S100~操作S190。

在操作S100，获取预设帧数的视频样本，并构建人脸说话视频生成模型，其中，人脸说话视频生成模型包括音频-表情映射网络、音频特征提取器、图像编码器和生成器，音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块。

上述视频样本是包括人脸说话的真实影像视频。

预设帧数可以是25FPS，先将上述视频样本的帧数调整为25FPS，再进行后续的处理。

在操作S110，利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量。

上述音频特征提取器基于DeepSpeech构建，DeepSpeech是一个在数千小时的转录音频进行端到端训练的自动语音识别模型。上述音频特征提取器结构包含三个采用ReLU激活函数的全连接层处理一个MFCC窗口，结果被传递到一个双向LSTM网络中，并进一步传递到采用Softmax激活函数的全连接层，输出29个字符的概率分布。

在操作S110中，对于视频样本中的每一帧，本发明采用320毫秒的音频，即期望输出帧之前和之后的160毫秒音频段。对每个音频片段，使用DeepSpeech模型提取16个logits，每个logit对应于没有重叠的20毫秒音频，产生16×29维的特征向量。输入的视频均预先调整为25 FPS，因此，连续帧之间具有280毫秒的重叠部分。

在操作S120，利用音频编码器将音频特征向量进行编码处理，得到编码后的音频特征向量。

在操作S110中提取的音频特征的维数为W×D，其中窗口大小W为16，DeepSpeech字母表中的字符数D为29。由于这29个字符logits没有空间相关性，因此音频编码器

在时间维度上使用一维时间卷积。对于输入的音频特征，首先将其转置为D×W，使得D沿着一维卷积的通道维度。

上述音频编码器的网络结构使用4个一维卷积层，所有卷积层都包含偏置项，卷积核大小为3，步长为2，激活函数是一个斜率为0.02的Leaky ReLU (带泄漏单元的ReLU激活函数)。卷积层分别有32、32、64和64个滤波器，最后输出维度为64×1的向量。在前向传播过程中，音频编码器单独处理

个音频特征。

在操作S130，利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量。

由于本发明的目标是控制面部表情及嘴部运动等细粒度的面部特征，这需要将视频样本（或者训练图片数据）的精确投影。因此，使用扩展潜在空间

，该空间包含数据集中所有图片的潜在向量。

图像编码器

是一个ResNet18网络，其中输出层被一个线性层代替，该线性层被映射到18×512维的扩展潜在空间中，以预测给定输入图像的扩展潜在向量

。为了便于训练，

只预测每层平均潜在代码

的偏移量

。

是通过StyleGAN2模型的投影网络初始化10000个随机潜在向量样本z来计算的。本发明中的StyleGAN2模型并没有对噪声进行优化，而是对所有图像使用固定的噪声。因为对于视频而言，需要最小化由随机噪声引入的连续帧的皮肤和头发纹理等细微变化以保持目标身份信息。

在操作S140，利用潜在向量编码器计算视频图像的扩展潜在向量的位移，得到扩展潜在向量的位移原点。

由于不同身份的潜在向量位于潜在空间的不同位置，只有对于接近所需特征的分离边界的潜在向量才能很好地进行属性编辑与控制。因此，在潜在空间中，人脸各部位特征并没有在整个潜在空间完全解耦，而是仅在相对较小的范围内如特征分离边界得到一定程度上的解耦。针对人脸说话生成任务，这种情况更加严重，因为在改变嘴唇形状与面部表情的同时，这些部位应该与目标身份紧密匹配。在许多情况下，对每个身份应用一个通用的潜在向量位移而不考虑不同身份的潜在向量在潜在空间中位置不同会导致次优结果。对潜在向量

和

应用相同的位移

不会以期望的方式改变

。因此，网络必须知道潜在向量的起始位置。

本发明在对潜在向量进行操纵前给出它在潜在空间的大致位置，即计算位移的原点，这也是潜在向量编码器

的任务。为了减小参数数量，这个网络只由一个线性层组成，它从潜在向量中提取关键信息到一个128维的向量中。为了便于训练，这里使用训练数据所有图片预先计算好的潜在向量的前150个主成分分析（Principal Component Analysis , PCA）的分量来初始化潜在向量编码器的权重，这些分量解释了训练数据中大约98.95%的差异，足够进行特征分离以找到潜在向量于潜在空间的位置。

在操作S150，利用映射网络处理编码后的音频特征向量和扩展潜在向量的位移原点，得到扩展潜在向量的位移信息。

映射网络

的任务是根据音频编码器和潜在向量编码器的输出生成输入图像潜在向量的位移建议。该模块包含4个全连接层，其中前两层之后是斜率为0.02的Leaky ReLU 激活层，第一层在Leaky ReLU之前包含一个AdaIN层，后两个全连接层没有激活函数。这里使用前512个预先计算的PCA分量初始化最后的全连接层的权重，这些分量解释了训练数据中大约99.98%的差异。这意味着，最后的全连接层在PCA空间上执行回归。但是，本发明并没有固定该层的权重，允许它在训练中进行更新。

映射网络仅在扩展潜在空间

的子集中计算位移预测。由于StyleGAN样式生成器中的各个层控制最终图像的某些特征，本发明进一步评估了在扩展潜在空间中的具体情况。

在操作S160，利用注意力模块计算扩展潜在向量的位移信息的线性组合得到加权的扩展潜在向量。

注意力模块

是一个卷积神经网络，将由映射网络计算的

个位移建议作为输入，计算输入的的线性组合，并输出最终位移

。每个位移建议为2048维，即扩展潜在向量

中的4个512维向量。本发明将位移建议叠加到一个形状为

的矩阵中，其中

，这样

就位于通道维度上。

该模块包含4个一维卷积层，卷积核大小为3，步长为1，采用斜率为0.02的Leaky ReLU激活函数。它们沿着时间维度

执行操作，连续地将通道数量减少到一个，最终输出

维的潜在向量偏移。最后是一个带有softmax激活函数的全连接层，会计算

个时序权重，决定

个位移如何整合成最终位移

。这种形式的注意力模块，这增加了每个帧的有效音频上下文，有助于显著降低连续帧的表情突变，并生成平滑的嘴巴运动。

在操作S170，利用生成器处理加权的扩展潜在向量，得到生成视频，其中，生成器基于StyleGAN2模型构建。

为了更充分地利用网络各层输出的特征图，StyleGAN2通过采用跳跃连接，将不同尺度的特征图引入生成器，利用多级特征生成高分辨率图像中的细节。

生成器网络输入逐帧的经过最终位移

调整后的预测的潜在向量

，输出生成的时序图片结果，通过FFMPEG工具转换得到目标帧率的人脸说话视频结果。

在操作S180，利用损失函数处理生成视频、与生成视频相对应的视频样本和扩展潜在向量，得到损失值，并根据损失值，优化人脸说话视频生成模型的参数。

上述损失函数包括感知损失函数和加权均方差损失函数，其中，感知损失函数的输入包括生成视频和与生成视频相对应的视频样本，加权均方差损失函数的输入包括生成视频的扩展潜在向量和视频样本的扩展潜在向量。

在操作S190，迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作，直到损失值满足预设条件，得到训练完成的人脸说话视频生成模型。

图2是根据本发明实施例的获取音频特征向量的流程图。

如图2所示，上述利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量包括操作S210~操作S230。

在操作S210，利用音频特征提取器分别获取距离视频样本的目标帧之前和之后第一预设时长的多个音频片段。

在操作S220，利用音频特征提取器的语音识别模型提取每个音频片段预设数量的逻辑单元，得到具有第二预设时长的多个逻辑单元，其中，任意两个逻辑单元所对应的音频互不重叠。

在操作S230，利用音频特征提取器将逻辑单元处理成第一预设维度的音频特征向量。

其中，上述音频特征提取器基于DeepSpeech构建，音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。

图3是根据本发明实施例的DeepSpeech模型的结构示意图。

图4是根据本发明实施例的获取音频特征向量的过程示意图。

为了更好地理解上述获取音频特征向量的过程，本发明结合图3和图4对上述获取音频特征向量的过程作进一步详细地说明。

对于传统的语音识别，通常会分为3个部分：语音模型、词典以及语言模型。语音模型和语言模型都是分开进行训练的，因此这两个模型优化的损失函数不是相同的。而整个语音识别训练的目标（WER：word error rate）与这两个模型的损失函数不是一致的。另外语音处理中有几个难点：输入的语音与目标文本之间的对齐(alignment)；语音的切片如何切，以多长的时间滑动窗口切分，是很难定义的；输出结果需要处理后才能映射到目标 label上。CTC损失函数完美地解决了这几个问题。基于RNN 网络和CTC损失，如图3所示， DeepSpeech模型学习音频到文本的映射的，实现了端到端的语音识别，其中，

表示t时刻第i层隐藏层的输出，例如

表示t时刻第1层隐藏层的输出；

表示t时刻隐藏层的前向计算；

表示t时刻隐藏层的反向传播；

表示C帧的上下文信息；

表示t时刻的音频帧信息。上述DeepSpeech模型的输入是context特征，输出是字符序列，解码需要结合ngram语言模型。ngram语言模型共五层，前三层是简单的DNN结构，第四层是双向RNN，第五层的输入是 RNN的前向和后向单元，后面跟着softmax分类。

图4表明了利用上述音频特征提取器对视频样本中目标帧所对应的音频的前后一段时长的音频片段进行提取，从而获取目标帧所对应的音频前后的多个音频片段。之后用图3所示的DeepSpeech模型对每个音频片段进行处理，提取多个logits，产生具有预设维度（例如16×29）的音频特征向量，其中，每个logit所对应的音频片段为20毫秒。视频样本的连续帧之间具有280毫秒的重叠部分。

图5是根据本发明实施例的获取编码后的音频特征向量的流程图。

如图5所示，上述利用音频编码器将音频特征向量进行编码处理，得到编码后的音频特征向量包括操作S510~操作S520。

在操作S510，利用音频编码器将音频特征向量进行转置，得到转置后的音频特征向量。

在操作S520，利用音频编码器对转置后的音频特征向量在时间维度上进行一维时间卷积，得到编码后的音频特征向量。

上述音频编码器包括预设斜率的LeakyReLU激活函数（带泄露单元的ReLU）和多个一维卷积层，每个一维卷积层包括偏置项和多个滤波器。

图6是根据本发明实施例的获取扩展潜在向量的流程图。

如图6所示，上述利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量包括操作S610~操作S620。

在操作S610，利用图像编码器处理视频样本，得到线性输出向量，并将线性输出向量映射到具有第二预设维度的扩展潜在空间，得到潜在向量。

在操作S620，利用图像编码器计算平均潜在向量的偏移量，并将平均潜在向量的偏移量和潜在向量进行向量运算，得到扩展潜在向量。

图7是根据本发明实施例的图像编码器的运行示意图。

如图7所示，图像编码器

基于ResNet18构建，平均潜在向量由StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。对于视频样本中目标帧图像，通过ResNet18处理后得到

，将

与平均潜在向量

进行向量运算得到预测的扩展潜在向量

，预测的扩展潜在向量

再经过StyleGAN2处理得到视频样本中目标帧图像的扩展潜在向量

，并利用训练完成和参数固定的StyleGAN2生成器生成最终图像

。

图8是根据本发明实施例的获取位移原点的流程图。

如图8所示，上述利用潜在向量编码器计算视频图像的扩展潜在向量的位移，得到扩展潜在向量的位移原点包括操作S810~操作S820。

在操作S810，获取训练样本中事先设置的潜在向量的预设数量的主成分的分量，并根据预设数量的主成分的分量，初始化潜在向量编码器的参数。

在操作S820，利用潜在向量编码器提取视频图像的扩展潜在向量的位移的特征信息，并将特征信息映射到一维向量中得到扩展潜在向量的位移原点。

图9是根据本发明实施例的潜在空间的示意图。

下面结合图9对上述获取位移原点的过程作进一步详细地描述。

如图9所示，对潜在向量

和

应用相同的位移

不会以期望的方式改变

。因此，网络必须知道潜在向量的起始位置。这就需要本发明所提供的潜在向量编码器能够计算潜在向量的位移原点。

根据本发明的实施例，上述映射网络包括多个第一全连接层和多个第二全连接层；其中，第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。

图10是根据本发明实施例的交换潜在向量区间可视化示意图。

下面结合图10对本发明所提供的映射网络及其功能作进一步地详细说明。

如图10显示了投影到扩展潜在空间的两帧视频。第一列显示输入图像和目标图像，而后几列最上面一行显示输入图像潜在向量的各个层与目标图像的对应各个层交换的结果，第二行显示了输入图像和相应交换结果之间的绝对差异，第三行显示了目标图像和相应交换结果之间的绝对差异。白色表示绝对差异大，而黑色部分表示绝对差异小。通过可视化比较可以发现，只有交换中间层[4:7]才能得到想要的变化，包括显著的唇部变化与对应的表情。顶层[0:3]改变了头部姿势。这可以通过观察目标图像和结果之间的差异来验证，头部轮廓周围的灰色区域（即第一列中2个人脸图像所示的灰色区域和第一行中3个人脸图像所示的灰色区域）相对来说比所有其他层都要小。交换底层[8:18]几乎不会导致几何差异。因此本发明最终训练时仅会针对潜在向量的[4:7]层计算偏移量以减小数据维度。

图11是根据本发明实施例的获取生成视频的流程图。

如图11所示，上述利用生成器处理加权的扩展潜在向量，得到生成视频包括操作S111~操作S114。

在操作S111，利用生成器的StyleGAN2模型进行跳跃连接，将具有不同尺寸的特征图引入生成器。

在操作S112，利用生成器通过多级特征生成视频图像的细节特征。

在操作S113，利用生成器输入逐帧经过位移信息调整后的潜在向量，生成时序图像。

在操作S114，利用图像转换工具将时序图像进行转换，得到生成视频。

图12是根据本发明实施例的基于StyleGAN2的生成器的结构示意图。

下面结合图12对上述生成器的结构和功能作进一步地详细说明。

在图12中，子图（a）和（b）为StyleGAN的网络结构，子图（b）显示了StyleGAN的详细网络结构（detailed），子图（c）为StyleGAN2调整后的网络结构（revised architecture），子图（d）为StyleGAN2使用权重解调操作来代替实例标准化示意图（weight demodulation）。附图12中，Upsample表示上采样，Mod mean/std表示模均值/标准差，Norm mean/std表示范数均值/标准差，Style block表示样式区块，AdaIN表示Adaptive Instance Normalization，自适应实例标准化，Conv表示卷积，例如Conv

表示

的卷积层，Const表示常量，A代表从潜在空间中通过仿射变换的到的样式，B代表引入的噪声，w、 b、c分别代表网络权重、偏置项和恒定输入，Demod代表权重解调操作。并进一步引入了路径长度正则化将生成良好图像的潜在空间进行拉伸，帮助生成器选择合适的潜在向量，同时对于潜在空间中同方向的变化，不同的路径长短可以带来不同幅度的变化。这种方法有效提高了图片的生成质量。

生成器网络输入逐帧的经过最终位移

调整后的预测的潜在向量

图13是根据本发明实施例的面部掩模可视化的示意图。

下面结合图13对上述损失函数优化人脸说话视频生成模型的过程作进一步详细地说明。

上述人脸说话视频生成模型优化的目标是图像

，它是输入音频

的对应的视频帧。本发明决定采用复合损失函数以获得理想的训练效果。

上述人脸说话视频生成模型的第一个损失函数是感知损失

。输入图像和目标图像都通过预先训练的VGG16网络，并且在网络的不同层比较它们的特征。这里将描述图像内容的感知特征向量表示为

。虽然所有训练数据人脸都是预先对齐的，但它仍然包含头部姿态的许多变化，特别是俯仰和偏航旋转，以及对齐过程中产生的微小尺寸变化。这些变化与音频没有直接相关性，因此必须将它们排除在优化过程之外。本发明通过在计算感知损失之前用二进制掩模过滤

和

来实现这一点。掩模是通过使用Dlib开源工具为数据集的每一帧预测眼部区域12个和唇部区域的20个二维面部关键点。然后计算所有帧的32 个二维面部关键点中每个关键点的平均值和标准差，并将每个标志的平均值移动到距离唇部中心标准差的五倍而创建的。如图13所示，在这些点的凸包内部为1可见，在外部为0不可见。这使得优化中充分考虑唇部和眼部周围的足够多的面部特征，它们与表情密切相关，同时避免捕捉不必要的头部运动。

上述人脸说话视频生成模型的第一个损失函数是预测的扩展潜在向量

和从目标图像提取的扩展潜在向量

之间的加权均方误差损失（Mean Squared Error, MSE）。由于训练数据中每个视频只包含一个身份，因此潜在向量4至7维中的大部分差异来自面部表情的变化。如公式1所示，通过计算数据集中所有潜在向量的每个视频差异，并使用这些每个视频差异的平均值来计算与MSE相同形状的权重掩模

。

（1），

其中

等于数据集中的视频数量，

是第

个视频中的帧数，

表示第

个视频中第

帧的扩展潜在向量，

是第

个视频的平均扩展潜在向量。因此完整的MSE损失如公式2 所示：

（2），

其中，

等于

中的潜在向量总数，

表示第

帧掩模。

此外，用

和

超参数对两个损失进行加权，最终损失函数如公式3所示：

（3）。

根据本发明的第二个方面，提供了一种基于音频和图像驱动的人脸说话视频生成方法，包括：利用训练完成的人脸说话视频生成模型处理目标人物的视频，得到目标人物的人脸说话生成视频，其中，训练完成的人脸说话生成模型由上述训练方法训练得到。

图14是根据本发明实施例的人脸说话视频生成方法的结构示意图。

下面结合图14对本发明所提供的上述人脸说话视频生成方法作进一步地详细说明。

如图14所示，其中， MSE表示加权均方误差损失，LPIPS表示感知损失函数，

表示图像，

表示音频，

表示音频的扩展潜在向量，

表示图像的扩展向量，

表示预测的扩展潜在向量，

表示最终生成的视频图像，

表示加权系数。对目标人物视频的某一帧图像，用图像编码器获取该帧图像的扩展潜在向量，在此过程中，可以先用MSE和LPIPS损失函数优化图像编码器。同时，对于目标人物视频的某一帧图像所对应的音频，用基于 DeepSpeech模型的音频特征提取器得到音频特征，将上述音频特征和扩展潜在向量输入到 Audio2Expression Net（即音频-表情映射网络）中处理，得到加权的扩展潜在向量，最终由基于StyleGAN2的生成器处理上述加权的扩展潜在向量，得到生成视频。

为了更好地理解本发明所提供的上述方法和/或模型，本发明通过设计以下实验来进一步详细地说明本发明所提供的上述方法。

为了评价本发明所提供的上述方法和/或模型的优点和积极效果，本发明设计了如下几个评价指标：峰值信噪比（Peak Signal to Noise Ratio, PSNR）、结构相似性指数（Structural Similarity, SSIM）、预先训练的唇读模型的错误率（Word Error Rate,WER）、SyncNet置信度和视听偏移量以及FaceNet嵌入空间中帧的距离。其中，峰值信噪比的值越高说明方法和/或模型的效果越好；结构相似性指数的值越高说明方法效果越好；预先训练的唇读模型的错误率的值越低说明方法和/或模型的效果越好；SyncNet置信度的值越高说明方法和/或模型的效果越好，SyncNet视听偏移量的值越低说明方法和/或模型的效果越好；FaceNet嵌入空间中帧的距离的值越低说明方法和/或模型的效果越好。

在实验中，本发明基于Pytorch 开源框架来实现音频-表情映射网络（Audio2Expression Net），并使用torchvision库中预先训练的权重来初始化模型的图像编码器ResNet18网络。优化器使用Adam优化器，学习率为0.0001，在最后30％的训练中线性下降至0.0，批大小设置为

，迭代300000次。CREMA-D数据集按7:2:1拆分为训练集、测试集和验证集。在每次迭代中，会从预先划分的训练集的视频中随机抽取

个视频的一帧作为输入样本，并随机选择相同视频的另一帧及其对应的DeepSpeech特征组成训练样本。在所有实验中设置音频上下文长度

。损失函数的权重分别设置为

和

。

对于StyleGAN2生成器，这里使用NVIDIA官方的Pytorch实现以及在FFHQ数据集上训练好的权重。

将本发明中的Audio2Expression Net模型与基于时序GAN的方法的两个不同版本模型（CREMA、GRID）从直观可视化质量和评价指标两个方面进行对比。

图15是根据本发明实施例的可视化对比结果示意图。

如图15所示的可视化对比结果，可以看到，所有的对比方法只生成面部，而本发明的方法生成和输入肖像一样比例的说话人脸，并且能生成头发和背景。

另一个显著差异是生成帧的分辨率。由本发明的方法生成的帧分辨率为256×256，而Speech2Vid、ATVGNet和基于时序GAN的方法生成的帧分辨率分别是128×128，109×109和128×96。显然越高的分辨率，生成的效果越逼真。为了便于展示，这里将对比方法的生成结果均放大为宽256像素。

此外，还可以看到，基于时序GAN的方法两个模型都无法迁移到CREMA-D数据上，出现不同程度的扭曲与畸变，一定程度上反应了泛化性能较差。Speech2Vid、ATVGNet方法目标身份信息得以保持。最后，本发明的方法在生成逼真的面部纹理和背景效果方面优于所有基线方法，结果视觉感受更加真实自然。

为了确保各种方法之间的公平比较，本发明的生成结果在缩放到

128×128的面部区域上计算各个指标。对使用face-alignment开源库获得的2D面部关键点进行仿射变换，使得眼睛位于变换图像中的期望位置。

表1显示了在CREMA-D数据集和GRID数据集的测试集上的实验结果，其中标粗的是最优性能。对于WER指标由于LipNet仅在GRID数据集上训练，因此所有方法仅对比该数据集上的测试结果。基于时序GAN的方法（grid）和基于时序GAN的方法（crema）表示他们的模型分别在GRID和CREMA-D数据集上进行训练，因此在各自的测试数据上进行评估。为了和ATVGNet及基于时序GAN的方法（grid）对比，本发明的方法也在GRID数据集上进行了测试。

表1 在CREMA-D数据集和GRID数据集上的评价指标对比

本发明的Audio2Expression Net模型在两个数据集上评价指标得分领先。在CREMA-D数据集上5个指标除Offset均为最优，在GRID数据集上PSNR、SSIM、FD为最优。从可视化结果和评价指标均能看出本发明的Audio2Expression Net模型生成质量的优越性，对于未曾训练的GRID数据集也能保持较高的生成质量，泛化性能优秀，生成唇形与音频的置信度和视听偏移量也在良好的范围，可以很好地应用于人脸说话生成任务。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法，包括：

获取预设帧数的视频样本，并构建人脸说话视频生成模型，其中，所述人脸说话视频生成模型包括音频特征提取器、图像编码器、音频-表情映射网络和生成器，所述音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块；

利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量；利用所述音频编码器将所述音频特征向量进行编码处理，得到编码后的音频特征向量；利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量；利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点；利用所述映射网络处理所述编码后的音频特征向量和所述扩展潜在向量的位移原点，得到扩展潜在向量的位移信息；利用所述注意力模块计算所述扩展潜在向量的位移信息的线性组合，得到加权的扩展潜在向量；利用所述生成器处理所述加权的扩展潜在向量，得到生成视频，其中，所述生成器基于StyleGAN2模型构建；

利用损失函数处理所述生成视频、与所述生成视频相对应的视频样本和所述扩展潜在向量，得到损失值，并根据所述损失值，优化所述人脸说话视频生成模型的参数；

迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作，直到所述损失值满足预设条件，得到训练完成的人脸说话视频生成模型。

2.根据权利要求1所述的训练方法，其中，利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量包括：

利用所述音频特征提取器分别获取距离所述视频样本的目标帧之前和之后第一预设时长的多个音频片段；

利用所述音频特征提取器的语音识别模型提取每个所述音频片段预设数量的逻辑单元，得到具有第二预设时长的多个逻辑单元，其中，任意两个逻辑单元所对应的音频互不重叠；

利用所述音频特征提取器将所述逻辑单元处理成第一预设维度的音频特征向量；

其中，所述音频特征提取器基于DeepSpeech构建，所述音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。

3.根据权利要求1所述的训练方法，其中，利用所述音频编码器将所述音频特征向量进行编码处理，得到编码后的音频特征向量包括：

利用所述音频编码器将所述音频特征向量进行转置，得到转置后的音频特征向量；

利用所述音频编码器对所述转置后的音频特征向量在时间维度上进行一维时间卷积，得到编码后的音频特征向量；

其中，所述音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层，每个所述一维卷积层包括偏置项和多个滤波器。

4.根据权利要求1所述的训练方法，其中，利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量包括：

利用所述图像编码器处理所述视频样本，得到线性输出向量，并将所述线性输出向量映射到具有第二预设维度的扩展潜在空间，得到潜在向量；

利用所述图像编码器计算平均潜在向量的偏移量，并将所述平均潜在向量的偏移量和所述潜在向量进行向量运算，得到所述扩展潜在向量；

其中，所述图像编码器基于ResNet18构建；

其中，所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。

5.根据权利要求1所述的训练方法，其中，利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点包括：

获取所述视频样本中事先设置的潜在向量的预设数量的主成分的分量，并根据所述预设数量的主成分的分量，初始化所述潜在向量编码器的参数；

利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信息，并将所述特征信息映射到一维向量中得到所述扩展潜在向量的位移原点。

6.根据权利要求1所述的训练方法，其中，所述映射网络包括多个第一全连接层和多个第二全连接层；

其中，所述第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。

7.根据权利要求1所述的训练方法，其中，所述注意力模块包括采用预设斜率的LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。

8.根据权利要求1所述的训练方法，其中，利用所述生成器处理所述加权的扩展潜在向量，得到生成视频包括：

利用所述生成器的StyleGAN2模型进行跳跃连接，将具有不同尺寸的特征图引入所述生成器；

利用所述生成器通过多级特征生成所述视频图像的细节特征；

利用所述生成器输入逐帧经过所述位移信息调整后的潜在向量，生成时序图像；

利用图像转换工具将所述时序图像进行转换，得到所述生成视频。

9.根据权利要求1所述的训练方法，其中，所述损失函数包括感知损失函数和加权均方差损失函数。

10.一种基于音频和图像驱动的人脸说话视频生成方法，包括：

利用训练完成的人脸说话视频生成模型处理目标人物的视频，得到目标人物的人脸说话生成视频，其中，所述训练完成的人脸说话生成模型由权利要求1-9任一所述的训练方法训练得到。