CN117975536A

CN117975536A - 一种人脸密集特征点检测与表情参数捕捉方法及装置

Info

Publication number: CN117975536A
Application number: CN202410209467.0A
Authority: CN
Inventors: 刘烨斌; 王立祯
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-03

Abstract

本申请提出了一种人脸密集特征点检测与表情参数捕捉方法及装置，该方法包括：构建包含独立眼球、牙齿、舌头建模的三维人脸模板，在三维人脸模板中标注密集关键点；获取真实人脸数据集和三维扫描人脸数据集，对真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到第一三维人脸模板渲染数据与真实人脸数据对应的第一数据集；对新数据集中的第一三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集；利用结合时序信息进行训练的方式，根据第二数据集得到人脸密集特征点检测网络。基于本申请提出的方案，能够实现实时高质量的人脸密集特征点检测和表情捕捉。

Description

一种人脸密集特征点检测与表情参数捕捉方法及装置

技术领域

本申请涉及计算机视觉领域，尤其涉及一种人脸密集特征点检测与表情参数捕捉方法及装置。

背景技术

随着计算机视觉领域的不断发展，为了提升诸如数字人表情驱动、三维动画人脸表情驱动等技术的效果，对人脸进行更高精度的密集特征点检测与表情捕捉是一项重要的基础技术。

现有技术往往在以下几个方面存在不足：

(1)传统的人脸模型可能无法准确地描述独立眼球、牙齿和舌头等细节部分。这限制了模型的真实性和应用范围。

(2)许多现有方法在表情捕捉方面存在限制，无法准确地捕捉人脸的微妙表情变化。

(3)传统方法可能仅仅依赖于单一类型的数据集，限制了算法在多样性场景下的适用性。

(4)一些现有方法在处理大规模数据集时可能效率较低，难以实现实时的应用。

(5)传统方法可能在处理不同部分(如牙齿、舌头等)时需要使用不同的模型，导致整体流程复杂。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种人脸密集特征点检测与表情参数捕捉方法。

本申请的第二个目的在于提出一种人脸密集特征点检测与表情参数捕捉装置。

为达上述目的，本申请第一方面实施例提出一种人脸密集特征点检测与表情参数捕捉方，包括：

构建包含独立眼球、牙齿、舌头建模的三维人脸模板，在所述三维人脸模板中标注密集关键点；

获取真实人脸数据集和三维扫描人脸数据集，对所述真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到第一三维人脸模板渲染数据与真实人脸数据对应的第一数据集；

对所述新数据集中的第一三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集；

利用结合时序信息进行训练的方式，根据所述第二数据集得到人脸密集特征点检测网络。

可选的，所述三维人脸模板为FaceVerse模型。

可选的，所述获取真实人脸数据集，包括：

根据开源的真实人脸数据库中的数据构建所述真实人脸数据集。

可选的，所述获取三维扫描人脸数据集，包括：

根据开源的三维扫描人脸数据中的数据构建所述三维扫描人脸数据集；

或者，使用多视角相机拍摄图片，利用开源软件识别所述拍摄图片中的特征点以构建所述三维扫描人脸数据集；

或者，根据开源的三维扫描人脸数据中的数据以及所述拍摄图片中的特征点共同构建所述三维扫描人脸数据集。

可选的，所述对所述真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到三维人脸模板渲染数据与真实人脸数据对应的第一数据集，包括：

利用所述FaceVerse模型与所述三维扫描人脸数据集进行拟合，得到与所述FaceVerse模型具有相同密集特征点位置的新的FaceVerse模型；

利用新的FaceVerse模型对所述真实人脸数据集进行渲染，得到渲染后的所述第一三维人脸模板渲染数据，根据成对的所述第一三维人脸模板渲染数据与所述真实人脸数据创建所述第一数据集。

可选的，所述对所述新数据集中的三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集，包括：

构建生成对抗网络，通过训练好后的生成对抗网络实现所述第一三维人脸模板渲染数据与所述真实人脸数据中牙齿和舌头的相互映射，得到牙齿和舌头进行数据生成与增强的第二三维人脸模板渲染数据，根据所述第二三维人脸模板渲染数据和所述真实人脸数据创建所述第二数据集；

其中，训练过程中根据循环损失约束所述三维人脸模板渲染数据与所述真实人脸数据中牙齿和舌头中的位置一致性与纹理特征相似性。

可选的，所述利用结合时序信息进行训练的方式，根据所述第二数据集得到人脸密集特征点检测网络，包括：

构建候选人脸密集特征点检测网络，将所述第二三维人脸模板渲染数据中的光照渲染图、法向渲染图、语义特征图、深度渲染图、关键点位置图作为条件输入到所述候选人脸密集特征点检测网络，得到包含密集特征点的虚拟人脸数据；

根据所述虚拟人脸数据和对应的成对中的真实人脸数据计算循环损失，根据所述循环损失对所述候选人脸密集特征点检测网络的参数进行更新，以约束生成的虚拟人脸集中特征点位置的准确性，训练结束后，得到所述人脸密集特征点检测网络。

其中，在训练过程中引入时序信息。

可选的，还包括：

将其他的人脸图片或人脸视频输入所述人脸密集特征点检测网络，得到目标人脸密集特征点。

可选的，还包括：

利用多任务学习的方式，在所述人脸密集特征点检测网络输出阶段使用新的全连接层，用于直接预测输入的人脸图片或人脸视频的表情参数。

为达上述目的，本申请第二方面实施例提出了一种人脸密集特征点检测与表情参数捕捉装置，包括：

构建模块，用于构建包含独立眼球、牙齿、舌头建模的三维人脸模板，在所述三维人脸模板中标注密集关键点；

拟合模块，用于获取真实人脸数据集和三维扫描人脸数据集，对所述真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到第一三维人脸模板渲染数据与真实人脸数据对应的第一数据集；

局部增强模块，用于对所述新数据集中的第一三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集；

输出模块，用于利用结合时序信息进行训练的方式，根据所述第二数据集得到人脸密集特征点检测网络。

本申请的实施例提供的技术方案至少带来以下有益效果：

通过构建更为精细的三维人脸模板，能够更好地捕捉人脸的细节；通过引入了结合时序信息进行训练的方法，从而能够更精确地预测人脸的表情参数序列；通过充分利用人脸图片、三维扫描模型和人脸视频数据集，提高了模型的泛化性能；通过提出高效的网络结构和加速方法，能够在实时性应用中取得更好的效果；通过提出了统一的方法，能够综合地处理人脸不同部分的生成和捕捉。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请实施例示出的一种人脸密集特征点检测与表情参数捕捉方法的流程图；

图2是根据本申请实施例示出的一种人脸密集特征点检测与表情参数捕捉装置的框图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的一种人脸密集特征点检测与表情参数捕捉方法和装置。

通过本申请提出的方案，在数字媒体与娱乐产业中可以用于生成高质量的人脸模型和表情捕捉，为电影、游戏、虚拟角色等数字媒体内容的创作提供强大的工具。通过从真实人脸视频中捕捉表情和特征，可以创造更加逼真的虚拟角色，增强用户体验。在虚拟现实和增强现实应用中，人脸的逼真性和互动性至关重要。这项技术可以用于生成高质量的虚拟人物，使用户可以在虚拟环境中与逼真的虚拟人物进行互动，增强用户的身临其境感。在视频通信、视频会议等应用中，生成逼真的虚拟人脸可以增强远程交流的真实感和情感表达。这项技术可以用于在远程通信中生成逼真的虚拟人脸，使交流更加生动。在广告制作和市场营销活动中，逼真的虚拟人脸可以用于代言人、角色形象等方面。这项技术可以用于生成逼真的虚拟代言人，增强广告的吸引力和影响力。综上，该项技术在数字媒体、虚拟现实、人机交互、广告等多个领域都有广泛的应用前景，为各种应用场景提供了更加逼真、高质量的人脸模型和视频生成能力。

图1是根据本申请实施例示出的一种人脸密集特征点检测与表情参数捕捉方法的流程图，如图1所示，该方法包括以下步骤：

步骤101，构建包含独立眼球、牙齿、舌头建模的三维人脸模板，在三维人脸模板中标注密集关键点。

针对传统的人脸模型可能无法准确地描述独立眼球、牙齿和舌头等细节部分，这限制了模型的真实性和应用范围，本申请采用FaceVerse模型作为三维人脸模板，并在三维人脸模板中标注密集关键点。

需要说明的是，现有技术中，大量高精度三维人脸数据的采集具有很高的成本和难度，而对于高质量三维人脸模板的构建，这又往往是必不可少的。为解决这一难题，本申请采用FaceVerse模型作为三维人脸模板。

FaceVerse模型是一种从混合数据集中构建的高质量三维人脸神经模型。这一混合数据集包含60K的RGB-D人脸图像和2K高精度三维头部扫描模型。针对这一数据集，FaceVerse模型提出了一种分层结构：在基础表达模块中，从大规模RGB-D图像生成基础参数化人脸模板，该模型在不同性别、年龄的数据分布下都能有很好的拟合能力；然后细节优化模块中，提出了一种基于StyleGAN和UV展开图的表达方式，使得最终生成的人脸模型能够表达丰富精细的面部几何和纹理细节。与以前的方法不同，因而FaceVerse的基本属性和面部细节是可以独立编辑的。

作为一种可能的实现方式，本申请采用FaceVerse第4版模型，其支持：

(1)人脸形状参数、表情参数和纹理参数的调整，可控制面部整体形变、表情变化和纹理特征变化，支持以人物图像为输入进行参数拟合；

(2)对眼球和牙齿进行独立建模，支持眼球、嘴唇和牙齿的独立运动。

步骤1012，获取真实人脸数据集和三维扫描人脸数据集，对真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到第一三维人脸模板渲染数据与真实人脸数据对应的第一数据集。

本步骤中进行数据的获取。

作为一种可能的实现方式，根据开源的真实人脸数据库中的数据构建本申请中的真实人脸数据集。

以及，根据开源的三维扫描人脸数据中的数据构建三维扫描人脸数据集；或者，使用多视角相机拍摄图片，利用开源软件识别拍摄图片中的特征点以构建三维扫描人脸数据集；或者，根据开源的三维扫描人脸数据中的数据以及拍摄图片中的特征点共同构建三维扫描人脸数据集。

可以理解的是，也可以从其他另外的途径获取数据，本申请对真实人脸数据集和三维扫描人脸数据集中的数据来源不做具体限定。

本申请实施例中，为了弥补三维扫描人脸扫描数据集中人脸身份较少的不足，本申请对真实人脸数据进行渲染，首先利用FaceVerse模型与三维扫描人脸数据集进行拟合，得到与FaceVerse模型具有相同密集特征点位置的新的FaceVerse模型，新的FaceVerse模型能够通过渲染产生不同角度下的具有真值的数据集，然后利用新的FaceVerse模型对真实人脸数据集进行渲染，得到渲染后的第一三维人脸模板渲染数据，以弥补三维扫描人脸扫描数据集中人脸身份较少的不足，最后根据成对的第一三维人脸模板渲染数据与真实人脸数据创建第一数据集。

另外，三维扫描人脸数据集进行拟合的过程为：将头部三维模型渲染为图片，利用开源算法识别出图片中的关键点，并利用FaceVerse模型的预定义关键点通过构建损失函数进行梯度下降拟合的方式与之进行对齐，如此重复左中右三个视角后即可得到三维初步对应的FaceVerse模型，再利用非刚性对齐算法对这一结果进行更精细的对齐，即可完成拟合。

步骤103，对新数据集中的第一三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集。

本申请实施例中，由于FaceVerse渲染出的牙齿和舌头仍是固定纹理和光照条件下渲染出的图片，与真实拍摄的牙齿舌头存在很大差别，因此需要将渲染出的图片进行真实感增强，利用在真实数据和渲染数据上训练的神经网络，将其转换为具有更高真实感的牙齿和舌头图像。

具体的，本申请构建生成对抗网络，通过训练好后的生成对抗网络实现第一三维人脸模板渲染数据与真实人脸数据中牙齿和舌头的相互映射，得到牙齿和舌头进行数据生成与增强的第二三维人脸模板渲染数据，根据第二三维人脸模板渲染数据和真实人脸数据创建第二数据集。

可以理解的是，生成对抗网络是一种深度学习架构，该架构训练两个神经网络相互竞争，从而从给定的训练数据集生成更真实的新数据，由于生成对抗网络为本领域公知的模型结构，本申请对此不做过多说明。

可以理解的是，训练过程中，将渲染数据数据输入生成对抗网络得到预测数据，根据预测数据和真实数据获取循环损失，根据循环损失约束三维人脸模板渲染数据与真实人脸数据中牙齿和舌头中的位置一致性与纹理特征相似性，以完成生成对抗网络的训练。

可以理解的是，能够理解的是，模型的训练是个重复迭代的过程，通过不断地调整模型的网络参数进行训练，直到模型整体的损失函数值小于预设值，或者模型整体的损失函数值不再变化或变化幅度缓慢，模型收敛，得到训练好的模型。

可选地，还可为达到预设的训练次数，则可认为训练结束。

可选地，还可为达到预设的训练时间，则可认为训练结束。

步骤104，利用结合时序信息进行训练的方式，根据第二数据集得到人脸密集特征点检测网络。

本申请实施例中，在渲染数据中的牙齿和舌头经过增强后，该步骤用于根据第二三维人脸模板渲染数据和真实人脸数据训练候选人脸密集特征点检测网络。

类似步骤103中的模型训练过程，首先构建候选人脸密集特征点检测网络，将第二三维人脸模板渲染数据中的光照渲染图、法向渲染图、语义特征图、深度渲染图、关键点位置图作为条件输入到候选人脸密集特征点检测网络，得到包含密集特征点的虚拟人脸数据；然后根据虚拟人脸数据和对应的成对中的真实人脸数据计算循环损失，根据循环损失对候选人脸密集特征点检测网络的参数进行更新，以约束生成的虚拟人脸集中特征点位置的准确性，训练结束后，得到人脸密集特征点检测网络。

并且，为了准确地捕捉人脸的微妙表情变化，本申请采用结合时序信息的训练方式，具体的训练过程不做限定。

在得到人脸密集特征点检测网络后，将其他的人脸图片或人脸视频输入人脸密集特征点检测网络，得到目标人脸密集特征点。

作为一种可能的实现方式，将USB相机与主机相连，作为人脸视频的捕捉设备，然后将捕捉后的人脸图片或人脸视频输入人脸密集特征点检测网络，得到目标人脸密集特征点。

另外，作为另一种可能的实现方式，可以利用多任务学习的方式，在人脸密集特征点检测网络输出阶段使用新的全连接层，用于直接预测输入的人脸图片或人脸视频的表情参数，与从密集特征点中拟合三维人脸模板的方式相比，这种方式在解耦人脸形状和表情中具有更优的效果。

综上，本申请实施例通过构建更为精细的三维人脸模板，能够更好地捕捉人脸的细节；通过引入了结合时序信息进行训练的方法，从而能够更精确地预测人脸的表情参数序列；通过充分利用人脸图片、三维扫描模型和人脸视频数据集，提高了模型的泛化性能；通过提出高效的网络结构和加速方法，能够在实时性应用中取得更好的效果；通过提出了统一的方法，能够综合地处理人脸不同部分的生成和捕捉。

图2是根据本申请实施例示出的一种人脸密集特征点检测与表情参数捕捉装置10的框图，包括：

构建模块100，用于构建包含独立眼球、牙齿、舌头建模的三维人脸模板，在三维人脸模板中标注密集关键点；

拟合模块200，用于获取真实人脸数据集和三维扫描人脸数据集，对真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到第一三维人脸模板渲染数据与真实人脸数据对应的第一数据集；

局部增强模块300，用于对新数据集中的第一三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集；

输出模块400，用于利用结合时序信息进行训练的方式，根据第二数据集得到人脸密集特征点检测网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人脸密集特征点检测与表情参数捕捉方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述三维人脸模板为FaceVerse模型。

3.根据权利要求1所述的方法，其特征在于，所述获取真实人脸数据集，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取三维扫描人脸数据集，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述真实人脸数据集和三维扫描人脸数据集进行三维人脸模板拟合，得到三维人脸模板渲染数据与真实人脸数据对应的第一数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述新数据集中的三维人脸模板渲染数据的牙齿和舌头进行数据生成与增强，得到第二数据集，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用结合时序信息进行训练的方式，根据所述第二数据集得到人脸密集特征点检测网络，包括：

其中，在训练过程中引入时序信息。

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种人脸密集特征点检测与表情参数捕捉装置，其特征在于，包括：