CN116051692A

CN116051692A - 一种基于语音驱动的三维数字人脸部动画生成方法

Info

Publication number: CN116051692A
Application number: CN202310342435.3A
Authority: CN
Inventors: 陈尧森; 周川力; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-05-02
Anticipated expiration: 2043-04-03
Also published as: CN116051692B

Abstract

本发明提供一种基于语音驱动的三维数字人脸部动画生成方法，包括：采集语音驱动数据集；所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画；利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练，训练完成后得到语音驱动模型；获取目标人物音频并处理为具有音频特征的音频数据，将该具有音频特征的音频数据输入语音驱动模型进行回归预测，得到嘴部动画数据；制作面部动画数据和表情动画数据；将嘴部动画数据同面部动画数据和表情动画数据融合，渲染得到表情自然的三维数字人语音驱动动画。本发明通过构建的语音驱动数据集来训练搭建好的深度学习网络网络模型，能够实现三维数字人语音驱动的自然且逼真呈现。

Description

一种基于语音驱动的三维数字人脸部动画生成方法

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种基于语音驱动的三维数字人脸部动画生成方法。

背景技术

数字人语音驱动技术是近年来快速发展的领域，它结合了数字人技术和语音驱动技术的优势，为直播、新闻播报等领域带来了广阔的应用前景。

在语音驱动技术方面，已有的技术包括传统的基于语言学的模型或基于神经网络的模型实现，虽然这些技术已经取得了一定的进展，但仍然存在一些挑战，例如：基于语言学的模型的方法是将音频进行音素划分，然后驱动音素所对应的口型，这种方法语音驱动的效果不够自然，也不具有学习的能力，同时由于每个语种的音素是完全不同的，需要人工事先制作对应语言音素的口型。基于神经网络的模型是通过音频直接生成数字人脸模型的顶点坐标，这种方法的成本极高，需要专业演员和高精度设备进行数据采集工作，且数字人语音驱动泛化能力差。因此如何高效且低成本的语音驱动数字人成为一个亟待解决的问题。

发明内容

本发明旨在提供一种基于语音驱动的三维数字人脸部动画生成方法，以解决目前语音驱动成本高昂、口型驱动效果不理想等问题。

本发明提供的一种基于语音驱动的三维数字人脸部动画生成方法，包括如下步骤：

S1，采集语音驱动数据集；所述语音驱动数据集包括具有音频特征的音频数据和对应的嘴型变形动画；

S2，利用语音驱动数据集对深度学习网络模型进行若干轮数语音驱动训练，训练完成后得到语音驱动模型；

S3，获取目标人物音频并处理为具有音频特征的音频数据，将该具有音频特征的音频数据输入语音驱动模型进行回归预测，得到嘴部动画数据；

S4，制作面部动画数据和表情动画数据；

S5，将嘴部动画数据同面部动画数据和表情动画数据融合，渲染得到表情自然的三维数字人语音驱动动画。

进一步地，步骤S1包括如下子步骤：

S11，录制目标人物在特定姿态状态下的音视频；所述音视频包括音频和对应的嘴部运动视频；

S12，对目标人物的音频使用线性预测编码（LPC）构建具有音频特征的音频数据；

S13，对目标人物的嘴部运动视频构建嘴部变形动画；

S14，将构建的音频特征和嘴型变形动画作为语音驱动数据集。

进一步地，步骤S11包括如下子步骤：

S111，在无噪声场所搭建音视频录制设备，包括红外相机和麦克风；

S112，目标人物按照事先准备的语料库进行阅读，通过红外相机录制目标人物的嘴部运动视频，同时通过麦克风录制音频，从而得到目标人物的音视频并保存为文件。

进一步地，步骤S12中，对目标人物的音频使用线性预测编码（LPC）构建音频特征的方法包括：

使用线性预测编码（LPC）处理目标人物的音频时，首先对音频进行归一化处理，将音频分成多个音频帧；对于每个音频帧，移除DC分量并应用标准汉恩窗口来减少时间混叠效应；最后，计算若干个自相关系数，从而为输入音频窗口产生多个标量，得到音频的紧凑二维表示，该得到音频的紧凑二维表示即为具有音频特征的音频数据；线性预测编码（LPC）的公式表示为：

其中，y(n)表示第n个采样点的语音信号值，a(1)到a(p)是线性预测编码（LPC）模型中的预测系数，p是线性预测编码（LPC）模型的阶数，e(n)是预测误差。

进一步地，步骤S13中，对目标人物的嘴部运动视频构建嘴部变形动画的方法包括：

使用Avatary表情捕捉工具和Maya动画软件构建嘴型驱动动画；首先利用Avatary表情捕捉工具中的Tracker功能追踪嘴部运动视频中目标人物的嘴部关键点，然后将其导入Maya动画软件中，根据每帧间的嘴部关键点移动将其转化为嘴部变形动画并导出。

进一步地，步骤S2中，所述深度学习网络模型包括频率分析层、发音分析层和动画输出层。

进一步地，步骤S2包括如下子步骤：

S21，将具有音频特征的音频数据送入声调分析网络，然后用5个卷积层来训练，对音频特征进行压缩，最终输出新特征向量；

S22，把声调分析网络输出的新特征向量输入到发音分析层，然后用5个卷积层来训练，在时序上提取相邻序列帧的关联特征，输出发音特征向量；

S23，动画输出层通过两层全连接层实现从发音特征向量到嘴部变形动画的映射。

进一步地，步骤S3包括如下子步骤：

S31，直接采集目标人物音频，或者使用文本语音合成目标人物音频；

S32，对目标人物音频进行归一化处理，将归一化处理后的音频使用LPC线性预测编码处理，得到具有音频特征的待处理音频数据；

S33，把具有音频特征的待处理音频数据作为输入，利用语音驱动模型进行回归预测输出嘴部变形动画；

S34，对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。

进一步地，步骤S34中，采用卡尔曼滤波方法对嘴部变形动画进行滤波，平滑相邻帧之间的嘴部变形动画参数，从而得到平滑后的嘴部动画数据。

进一步地，步骤S4包括如下子步骤：

S41，观察不同目标人物真实的面部动作，直接制作面部动画数据；

S42，观察不同目标人物真实的表情，直接制作表情动画数据。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明能够低成本获取大量的目标人物音视频数据，通过构建的语音驱动数据集来训练搭建好的深度学习网络网络模型，能够实现三维数字人语音驱动的自然且逼真呈现。

2、本发明基于大量数据训练的语音驱动模型，能够做到人物无关性，使得数字人语音驱动能够适应各种音频（真实人声、语音合成）。

3、本发明能够将面部动画和表情动画融合到嘴部动画中，使得数字人语音驱动更加自然且真实。

4、本发明的输出结果能够直接应用到各种渲染引擎中，有很高的适应性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中提供的一种基于语音驱动的三维数字人脸部动画生成方法的流程示意图。

图2为本发明实施例中采集语音驱动数据集的流程示意图。

图3为本发明实施例中语音驱动深度学习网络模型训练的流程示意图。

图4为本发明实施例中三维数字人脸部动画渲染视频生成的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种基于语音驱动的三维数字人脸部动画生成方法，包括如下步骤：

S4，制作面部动画数据和表情动画数据；

在实际应用过程中，如图2所示，步骤S1具体包括如下子步骤：

S12，对目标人物的音频使用线性预测编码（LPC，Linear Predictive Coding）构建具有音频特征的音频数据；

S13，对目标人物的嘴部运动视频构建嘴部变形动画；

在实际应用过程中，步骤S11包括如下子步骤：

S111，在无噪声场所搭建音视频录制设备，包括红外相机和麦克风等；

S112，目标人物按照事先准备的语料库进行阅读，通过红外相机录制目标人物的嘴部运动视频，同时通过麦克风录制音频，从而得到目标人物的音视频并保存为文件，一般来说，为了使得数据量充分，需要录制约三小时的音视频。

在实际应用过程中，步骤S12中，对目标人物的音频使用线性预测编码（LPC）构建音频特征的方法包括：

使用线性预测编码（LPC）处理目标人物的音频时，首先对音频进行归一化处理，将音频分成多个音频帧，通常每个音频帧长度为16毫秒，并且连续的音频帧相距8ms；对于每个音频帧，移除DC分量并应用标准汉恩窗口来减少时间混叠效应；最后，计算32个自相关系数，从而为输入音频窗口产生总共64×32个标量，得到音频的紧凑二维表示，该得到音频的紧凑二维表示即为具有音频特征的音频数据；线性预测编码（LPC）的公式表示为：

其中，y(n)表示第n个采样点的语音信号值，a(1)到a(p)是线性预测编码（LPC）模型中的预测系数，p是线性预测编码（LPC）模型的阶数，e(n)是预测误差。线性预测编码（LPC）模型的目标是通过最小化预测误差的方差来确定最佳的预测系数。一般采用自相关函数法或Yule-Walker方程法求解预测系数。

在实际应用过程中，步骤S13中，对目标人物的嘴部运动视频构建嘴部变形动画的方法包括：

在实际应用过程中，如图3所示，步骤S2中，所述深度学习网络模型包括频率分析层(Formant Analysis Network)、发音分析层(Articulation Network)和动画输出层(Output Network)。由此，步骤S2包括如下子步骤：

S21，将具有音频特征的音频数据送入声调分析网络，然后用5个卷积层来训练，对音频特征进行压缩，最终输出新特征向量；通过训练，卷积层学会提取与面部动画有关的短期特征，如语调、重点和特定音素。

S22，把声调分析网络输出的新特征向量输入到发音分析层，然后用5个卷积层来训练，在时序上提取相邻序列帧的关联特征，输出发音特征向量；发音特征向量即为从数据集上学习到的人脸说话表情动画的特征。

在实际应用过程中，如图4所示，步骤S3包括如下子步骤：

S32，对目标人物音频进行归一化处理，将归一化处理后的音频使用线性预测编码（LPC）处理，即转换为音频的紧凑二维表示，得到具有音频特征的待处理音频数据；

S34，对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。其中，对嘴部变形动画进行滤波采用的方法是使用卡尔曼滤波，平滑相邻帧之间的变形动画参数，从而消除三维数字人嘴部驱动时抖动的问题，得到平滑后的嘴部动画数据。

在实际应用过程中，步骤S4包括如下子步骤：

S41，观察不同目标人物真实的面部动作，直接制作面部动画数据（眉毛、眼睛等）；

S42，观察不同目标人物真实的表情，直接制作表情动画数据（开心、伤心、恐惧等）。

在实际应用过程中，步骤S5中，在执行所述动画融合时，如图4所示，针对在不同场景不同氛围时，可根据实际情况将嘴部动画数据同面部数据（眉毛、眼睛等）、表情动画数据（开心、伤心、恐惧等）融合，通过渲染融合动画数据进一步提高三维数字人语音驱动的自然度和逼真度。融合输出的动画适用于各种渲染引擎，如UE、iClone等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音驱动的三维数字人脸部动画生成方法，其特征在于，包括如下步骤：

S4，制作面部动画数据和表情动画数据；

2.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S1包括如下子步骤：

S12，对目标人物的音频使用线性预测编码构建具有音频特征的音频数据；

S13，对目标人物的嘴部运动视频构建嘴部变形动画；

3.根据权利要求2所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S11包括如下子步骤：

4.根据权利要求3所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S12中，对目标人物的音频使用线性预测编码构建音频特征的方法包括：

使用线性预测编码处理目标人物的音频时，首先对音频进行归一化处理，将音频分成多个音频帧；对于每个音频帧，移除DC分量并应用标准汉恩窗口来减少时间混叠效应；最后，计算若干个自相关系数，从而为输入音频窗口产生多个标量，得到音频的紧凑二维表示，该得到音频的紧凑二维表示即为具有音频特征的音频数据；线性预测编码的公式表示为：

其中，y(n)表示第n个采样点的语音信号值，a(1)到a(p)是线性预测编码模型中的预测系数，p是线性预测编码模型的阶数，e(n)是预测误差。

5.根据权利要求3所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S13中，对目标人物的嘴部运动视频构建嘴部变形动画的方法包括：

6.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S2中，所述深度学习网络模型包括频率分析层、发音分析层和动画输出层。

7.根据权利要求6所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S2包括如下子步骤：

8.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S3包括如下子步骤：

S32，对目标人物音频进行归一化处理，将归一化处理后的音频使用线性预测编码处理，得到具有音频特征的待处理音频数据；

S34，对嘴部变形动画进行滤波得到平滑后的嘴部动画数据。

9.根据权利要求8所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S34中，采用卡尔曼滤波方法对嘴部变形动画进行滤波，平滑相邻帧之间的嘴部变形动画参数，从而得到平滑后的嘴部动画数据。

10.根据权利要求1所述的基于语音驱动的三维数字人脸部动画生成方法，其特征在于，步骤S4包括如下子步骤：