CN116721190A

CN116721190A - 一种语音驱动三维人脸动画生成方法

Info

Publication number: CN116721190A
Application number: CN202310697185.5A
Authority: CN
Inventors: 王素琴; 麻慧祥; 石敏; 朱登明
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-08

Abstract

本发明公开了一种语音驱动三维人脸动画生成方法，所述方法，包括：步骤1：获取样本数据，对数据进行预处理；步骤2：重建三维人脸模型，对完成重建的三维人脸模型进行拓扑对齐，获得连续的人脸模型动画，结合音频数据，构建4D数据集；步骤3：训练模型，求解音频特征信息与人脸模型动画中的映射关系；步骤4：给定音频和静态人脸模型，通过预训练模型，给出对应的三维人脸模型动画。

Description

一种语音驱动三维人脸动画生成方法

技术领域

本发明涉及人机多模态交互领域，具体涉及一种语音驱动三维人脸模型方法。

背景技术

人脸是人类最具表现力和个性化的外部特征，是人际交流中表达情感和态度的直接载体，面部表情和唇形动作能够传递出更丰富、更高效的信息，极大提高了语言的理解效果。三维人脸动画致力于研究在计算机中虚拟人脸部的外观特征和运动变化。

随着电影和游戏产业的不断发展，越来越多3D动画电影和3D网络进入到人们的生活中。从早期的《侏罗纪公园》到《指环王》、《变形金刚》、《星球崛起》等，运用计算机的三维特技可以有效地还原表演者的细致动作以及表现力，优化内容制作行业。但是这种通过捕捉表演者表演来驱动人脸动画方法，采集设备价格昂贵，同时需要专业人员进行专业操作，普通用户很难实施操作。因此，这种通过给定的音频合成与音频对应的三维人脸动画，使静态模型可以完成语言和面部表情的表达语音驱动技术，将会成为现代电影产业及数字游戏等行业中至关重要的组成部分，对虚拟角色的构建与发展具有决定性的影响。

与此同时，在人机交互中，区别于只是使用简单的语音或者文本进行交流，可以根据语音信息驱动人脸模型，获得人脸动画，丰富人机接口，帮助用户提高人机交互的便捷性和友好程度。例如在ESC2020上，三星公司已经将三星ai lab实验室发表的顶级会议文章进行了产品落地，推出了全新的虚拟人物，NEON，其真实度和智能性都远超目前市面上的语音助手，其重要的提升就在于NEON所拥有的高度真实的面部表情为使用者提供了更好的使用体验。

近年来，虚拟现实社交是目前学术界和工业界都十分关注的热点，让虚拟形象具有逼真的表情、流畅自然的脸部动作变化更是智能化以及图形学上的难题。虽然当下存在一些有效的消费级脸部追踪技术，但通过语音来驱动人脸动画，是虚拟现实(VirtualReality)等领域重要不懈追求的目标。考虑语音中的重音、情感等因素，用语音驱动人脸自然生动地变化，将极大地优化虚拟现实的展示与交互，使计算机软件的虚拟人物形象得到更生动的展示。

与单纯的语音交互相比，语音驱动的人脸动画方法在人机交互、虚拟现实等领域中可以显著提高场景的真实感、提高用户的注意力以及在噪音环境中提高理解性，也可以提高虚拟会议、游戏、个人虚拟助手、教育辅导等注重人机交流的系统用户体验。

总而言之，三维人脸动画的研究具有非常重要的理论价值与广阔的应用空间。语音驱动的具有真实感的人脸动画技术不仅仅是拓宽了人机交互的渠道，而且对提高人机交互的舒适度和人性化提供了新的前进方向。

发明内容

本发明人针对一种语音驱动三维人脸模型方法研究时，发现可以通过对视频中人脸进行人脸模型的三维重建，获得人脸模型数据及其对应的音频数据。在获取这些数据之后，经过对数据的处理，可以获得4D数据集。这个数据集可以作为下一步语音驱动三维人脸动画的训练数据。

为了实现上述目的，本发明提供的技术方案如下：

步骤1：获取样本数据，对数据进行预处理；

步骤11：搭建视频拍摄平台，获得被拍摄者的正面视频。

步骤12：处理拍摄的视频，将视频帧率设置为每秒60帧，同时提取视频中的音频信息，音频信息采样率为22050Hz。

步骤2：重建三维人脸模型，对完成重建的三维人脸模型进行拓扑对齐，获得连续的人脸模型动画，结合音频数据，构建4D数据集；

步骤21：利用步骤12得到的视频，重建三维人脸模型，在人脸重建过程中有一个必不可少的环节：那就是数据预处理。由于图像在采集过程中会受到许多因素的影响。给定一张二维图像作为输入，首先将图片编码成潜代码,然后解码以用来合成一个二维图像并最小化合成图像之间的差别。

步骤22：人脸重建使用的是第一个100FLAME的形状参数β，以及50个表情参数ψ，还有50个反射率的参数α，重建一共预测236维的潜在空间，使用了Dlib库里68个关键点；

步骤3：训练模型，求解音频特征信息与人脸模型动画中的映射关系；

步骤4：给定音频和静态人脸模型，通过预训练模型，给出对应的三维人脸模型动画。

本申请方法具有如下有益效果：目前基于真实数据的4D人脸模型数据集很少，语音驱动人脸模型的泛化性比较差，本申请基于从视频中重建三维人脸模型，制作4D数据集，利用获得的数据集设计了一种语音驱动是三维人脸模型的方法，该方法能够将语音与面部形状的三维面部动作联系起来，根据输入的音频生成与音频对应的人脸模型动画。通过对人脸模型的重建，克服了4D数据集比较少以及通过采集设备采集数据的成本大的缺点。语音驱动的三维人脸模型利用算法和机器学习技术，可以自动地从语音数据中学习和生成面部动作。

本申请的一种语音驱动三维人脸模型方法有如下有益效果：

本申请方法基于深度学习的一种音频驱动三维人脸模型方法，与传统的手工建模相比，降低了对专业的艺术家或技术人员进行面部建模和动画设计的需求，能够节省大量的时间和精力。

充分学习音频特征与人脸模型的映射关系，能计算出符合音频内容的三维人脸面部动画。

附图说明

下面对本发明中所需要使用的附图进行介绍。

图1为一种音频驱动三维人脸模型方法技术路线；

图2是针对视频中的人脸获取脸部的关键点；

图3是重建三维人脸模型结果；

图4是训练音频到人脸模型的映射关系时的收敛情况；

图5为输入音频和静态人脸模型后获得的人脸模型动画；

具体实施方式

为了对本发明的技术方案更加清晰的说明，下面将基于实施例中的附图对本发明进行详细地描述此外，此处描述的实施例仅用以解释本发明，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前基于有经验的人工进行面部建模和动画设计，很难获取到与音频相对应的完整的4D人脸模型的数据。而直接使用采集设备对人脸进行捕获建模时，除了高昂的采集设备和采集成本。因此，构建4D三维人脸模型的数据集，根据数据集完成音频与人脸模型的映射，根据训练的模型，输入音频和静态模板，获得与音频对应的三维人脸动画，将在人机交互、虚拟现实、增强现实等领域具有广泛的应用潜力。

常见的语音驱动三维人脸模型方法有以下两种：第一种基于人脸表情数据库的人脸模型映射(Face Model Mapping)：通过建立人脸表情数据库，将语音信号中的特征与人脸表情之间的关系进行学习。然后，通过匹配语音特征，将语音信号映射到合适的人脸表情上。第二种是使用深度学习技术，将语音信号直接输入到神经网络中，并通过网络输出三维人脸模型的参数或关键点坐标。这种方法能够端到端的学习语音和人脸之间的映射关系，不需要手动定义特征或建立复杂的模型。

实施例一

如图1所示，本发明实施例提供一种语音驱动三维人脸模型方法，包括下述步骤：

步骤1：获取样本数据，对数据进行预处理；

在上述的步骤1中，本实例的方法具体包括如下步骤：

步骤11：搭建视频拍摄平台，获得被拍摄者的正面视频。

步骤21：利用步骤12得到的视频，重建三维人脸模型，在人脸重建过程中有一个必不可少的环节：那就是数据预处理。由于图像在采集过程中会受到许多因素的影响。给定一张二维图像作为输入，首先将图片编码成潜代码,然后解码以用来合成一个二维图像并最小化合成图像之间的差别。训练一个编码器，它是由ResNet50网络加上一个全连接层组成，用来回归这个低维的潜在代码；

步骤22：人脸重建使用的是第一个100FLAME的形状参数β，以及50个表情参数ψ，还有50个反射率的参数α，重建一共预测236维的潜在空间，使用了Dlib库里68个关键点，参考图2；

步骤23：重建模型的损失包括人脸特征点的损失L_lmk,眼睛眨动的损失(L_eye),基于拍摄图像的损失(L_pho),正则化的损失(L_reg),连续形状的损失(L_sc)：

L_coarse＝L_lmk+L_eye+L_pho+L_sc+L_reg

眼睛眨动的损失Leye：

L_eye＝∑_(i，j)∈E||K_i-K_j-s∏(M_i-M_j)||₁

计算的是上下眼皮相对的偏移量。并投影到图像中的FLAME表面M_i和M_j上相应坐标的偏移量差异。E为上下眼皮标志对的集合。

ID损失Lid：利用身份损失产生更逼真的面部形状。使重建后的模型更光滑。

如果没有L_eye损失，可能将眼睛形状错误的重建眼部区域或存在凹陷或者凸起得误差；缺失L_id损失让重建模型没有原图像的真实性，丢失了一部分身份特征信息导致最后结果的不准确。

步骤24：将获得的重建模型与FLAME标准模型根据ICP点云配准方法，进行配准，去除模型的旋转，参考图3。根据获得的模型和音频，创建4D数据集，包括三维的序列头部模型信息和一维音频信息；

步骤31：为了更好的处理音频信息，获得音频信息的特征，使用DeepSpeech,一个预训练的语音到文本模型。由于其庞大的训练语料库(数百小时的演讲)，将它作为音频特征提取器可提供对于不同音频源的鲁棒性。给定一个长度为T秒的输入音频，我们使用DeepSpeech提取语音特征。输出是未归一化的字符对应的对数概率，每个帧的长度为0.02秒(每秒50帧)；因此，它是一个大小为50T×D的数组，其中D是字母表中的字符数量加上一个用于表示空白标签。我们使用线性插值将输出重新采样为60帧每秒。为了融入时序信息，我们将音频帧转换为大小为W×D的重叠窗口，其中W是窗口大小。输出是一个三维数组，维度为60T×W×D。

步骤32：编码器由四个卷积层和两个全连接层组成。语音特征和最后一个卷积层会根据主题标签进行调整，以便在跨多个主题进行训练时学习特定主题的风格。对于八个训练主题，每个主题j都被编码为一个one-hot向量。该向量被连接到每个D维语音特征向量中(即导致维度为W×(D+8)的窗口)，并连接到最后一个卷积层的输出上；

步骤33：为了学习时间特征并降低输入的维度，每个卷积层使用3×1的卷积核和2×1的步幅。由于使用DeepSpeech提取的特征没有任何空间相关性，我们将输入窗口重新调整为维度为W×1×(D+8)，并在时间维度上进行1D卷积。为了避免过拟合，我们保持参数数量较小，并仅学习前两个卷积层的32个过滤器和后两个卷积层的64个过滤器。最后一个卷积层与主题编码的连接后面是两个全连接层。第一个全连接层有128个单元和双曲正切激活函数；第二个全连接层是一个具有50个单元的线性层；

步骤34：解码器是一个带有线性激活函数的全连接层，输出5023×3维度的从T开始的顶点位移数组。该层的权重是通过对训练数据的顶点位移进行计算得到的50个主成分进行初始化，偏置被初始化为零，训练结果参考图4；

步骤41：输入静态三维人脸模型和音频，根据预训练的结果，输出与语音对应的三维人脸模型序列，参考图5；

步骤42：在推断过程中，改变八维的单热向量可以改变输出的说话风格。输出是一个以“零姿态”表示的3D面部，具有与FLAME面部模型相同的网格拓扑结构。输出与FLAME的兼容性使得可以通过添加来自FLAME的加权形状混合形状来改变与身份相关的面部形状。面部表情和姿势(例如头部、下颚和眼球的旋转)也可以使用FLAME提供的混合权重、关节和姿势混合形状进行改变。

Claims

1.一种语音驱动三维人脸动画生成方法，其特征在于，包括下述步骤：

步骤1：获取样本数据，对数据进行预处理；

2.根据权利要求1所述的一种语音驱动三维人脸动画生成方法，其特征在于，所述步骤1具体包括：

步骤11：搭建视频拍摄平台，获得被拍摄者的正面视频。

3.根据权利要求1所述的一种语音驱动三维人脸动画生成方法，其特征在于，所述步骤2具体包括：

L_coarse＝L_lmk+L_eye+L_pho+L_sc+L_reg

眼睛眨动的损失L_eye：

L_eye＝∑_(i，j)∈E||K_i-K_j-sΠ(M_i-M_j)||₁

ID损失L_id：利用身份损失产生更逼真的面部形状。使重建后的模型更光滑。

步骤24：将获得的重建模型与FLAME标准模型根据ICP点云配准方法，进行配准，去除模型的旋转。根据获得的模型和音频，创建4D数据集，包括三维的序列头部模型信息和一维音频信息。

4.根据权利要求1所述的一种语音驱动三维人脸动画生成方法，其特征在于，所述步骤3具体包括：

步骤34：解码器是一个带有线性激活函数的全连接层，输出5023×3维度的从T开始的顶点位移数组。该层的权重是通过对训练数据的顶点位移进行计算得到的50个主成分进行初始化，偏置被初始化为零。

5.根据权利要求1所述的一种语音驱动三维人脸动画生成方法，其特征在于，所述步骤4具体包括：

步骤41：输入静态三维人脸模型和音频，根据预训练的结果，输出与语音对应的三维人脸模型序列；