CN110223368A

CN110223368A - 一种基于深度学习的面部无标记运动捕捉方法

Info

Publication number: CN110223368A
Application number: CN201910403729.6A
Authority: CN
Inventors: 池前程; 李鑫
Original assignee: Wuhan Obesavi Digital Technology Co Ltd
Current assignee: Wuhan Obesavi Digital Technology Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-09-10

Abstract

本发明公开了一种基于深度学习的面部无标记运动捕捉方法，包括以下步骤：包括：第一步，使用深度相机对真实人物进行面部表情捕捉；第二步，处理捕捉的面部表情数据，并生成面部表情捕捉文件；第三步，构建三维虚拟人物几何模型，导入面部表情捕捉文件，驱动模型。该方法无需手动标记Marker，直接使用图像识别的方法识别并记录面部关键点的运动数据。其捕获的数据是人脸的真实运动数据，动作连贯逼真，表情细腻丰富，而且此方法获取到的面部表情捕捉文件可以重复使用，节约了成本。

Description

一种基于深度学习的面部无标记运动捕捉方法

技术领域

本发明涉及计算机视觉及计算机图形学技术领域，特别涉及一种基于深度学习的面部无标记运动捕捉方法。

背景技术

近年来，随着计算机图形学的发展，计算机动画技术合成人的面部表情动画是当前动画学科研究的一个重点之一，它使得动画制作者能够以演员的表情直接驱动画形象模型，受到了动画制作者们更多的关注。面部表情捕捉能够实时地检测、记录表演者的表情，转化为数字化的“抽象表情”，以便动画软件将它“赋予”模型，使模型具有和表演者一样的表情，并生成最终的表情动画序列。

目前，人脸表情动画总体上可分为基于几何、基于图像、基于运动跟踪的研究方法。其中基于几何的研究方法主要包括关键帧插值法、参数化方法、肌肉模型法等；基于图像的方法主要包括：图像变形、动态纹理映射、面色变化的表情等。

在基于几何的研究方法中，关键帧插值法首先在两个不同的时刻建立几何模型，然后在这两个模型之间进行插值得到中间时刻的模型，从而获得人脸表情动画，这是一种最传统的、最原始的人脸动画方法，同时也是一种标准的人脸动画方法，但它的不足之处是需要很大的工作量。参数化方法是由Parke首次应用于人脸动画，嘴唇说话时的动作就适合用这种方法，这种方法的不足是产生的人脸表情不够自然，并且在设置参数值时需要大量的手工调整。肌肉模型法是通过一组构成肌肉模型的弹性肌肉的收缩来控制人脸表面网格变化进而模拟人脸表情的。

在基于图像的方法中，图像变形一种是在两个图像之间手工操作对应特征线段来实现2D变形；另一种是通过变形的3D模型映射到2D的参数空间来实现3D模型变形以及通过将几何模型的3D变换和2D变形相结合，利用3D几何插值，并在对应纹理图像间进行图像的变形操作来获得真实的人脸表情动画。除此之外，还有基于Bezier特征曲线和基于径向基神经网络的图像变形等算法。动态纹理映射依赖视点的纹理映射，它每次允许使用不同的纹理图，通过模型的反复绘制来对当前视点的调和权值进行动态的调整，不足是需要的计算和内存量大，而多纹理融合如果独立于视点的话，由于记录和采样存在误差常常使纹理变得模糊。

目前，应用最广的是基于运动跟踪方法，运动跟踪方法主要是利用运动捕捉系统来进行表情捕捉，它主要是利用已有的捕获数据将源模型的人脸表情迁移到目标模型上，从而实现人脸的面部表情捕获，获得逼真的面部表情。

现有的运动捕捉技术根据捕捉设备和原理不同主要分为四大类：机械式、声学式、电学式以及光学式运动捕捉，其中，光学运动捕捉方式具有获取数据便捷、采样精度高、频率高、使用范围广等优点，它采集的数据是以帧为单位的序列标识点(Marker)点集数据，在表演者的脸部关键点贴上Marker，视觉系统将识别和处理这些Maker，就可以实现表情捕捉。

本发明采用的是基于运动跟踪的方法，不同于传统的光学式的捕捉方法。本发明在表情捕捉过程中无需手动标记Marker，直接使用图像识别的方法识别并记录面部关键点的运动数据。它主要是利用已有的捕获数据将源模型的人脸表情迁移到目标模型上，从而实现人脸的面部表情捕获，获得逼真的面部表情。

发明内容

本发明的主要目的在于提供一种基于深度学习的面部无标记运动捕捉方法，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

一种基于深度学习的面部无标记运动捕捉方法，包括以下步骤：

S1.使用深度相机对真实人物进行面部表情捕捉；

步骤S1中具体的包括：

1、利用深度相机获取人脸彩色图像和深度图像；

2、建立头部姿态判断模型；

3、训练并建立AAM算法的模型；

4、利用AAM算法定位面部特征点；

5、获取面部特征点的三维坐标。

S2.处理捕捉的面部表情，并生成面部表情捕捉文件；

S3.构建三维虚拟人物几何模型，导入面部表情捕捉文件，驱动模型。

所述步骤S1中采用AAM算法标定真实人物的面部特征点，使头部姿态各异的情况下我们也能够对面部特征点进行精确的定位，从而对真实人物进行面部表情捕捉。

所述步骤1中具体为利用深度相机获取三维人脸的彩色数据流与深度数据流，并将彩色数据流转换成彩色图像，将深度数据流转换成深度图像。

所述步骤2中具体为利用深度相机获取不同的头部姿态相对应的深度图像，然后按照头部姿态的位置将获取到的深度图像分为多个不同的分类训练集，使用脸部近视平面的法向量来表示不同的头部姿态，从而建立头部姿态判断模型。

所述步骤3和4中所采用的AAM算法把模型分为形状模型和纹理模型两个部分，AAM算法是在ASM算法的基础上(即将人脸图像变形到平均形状)对图像进行纹理分析来定位其特征点。

所述步骤4中具体为输入新的图像，使用步骤2建立的随机回归森林模型，对给出的新的深度图像判断其中的头部位置，并且给出一组头部姿态的估计值，计算出给出的深度图像的头部中心的位置和头部姿态信息，然后选择与之最匹配的AAM模型，头部姿态估计信息获得头部中心位置和头部姿态，由此来计算头部模型的旋转和平移，利用头部旋转角度计算旋转矩阵R，使用头部中心位置作为平移矩阵，利用R和T对得到的3D面部特征点进行旋转和平移，之后再利用相机内参将变换后的点投影到RGB图像平面，得到RGB图像上的特征点集，以此作为AAM模型实例的形状初始值。

步骤5中进一步具体为确定面部特征点的位置后，计算并获取人脸面部特征点的坐标信息，深度相机的坐标系是以其自身为坐标原点，正前方为Z轴方向，向左为X轴的正方向，向上为Y轴的正方向，深度相机能获取到深度图像，最终获得整个三维人脸。

与现有技术相比，本发明具有如下有益效果：本方法捕获的数据是现实世界人脸的真实的运动数据，动作连贯真实，表情细腻丰富，而且此方法获取到的面部表情捕捉文件可以重复使用，节约了成本。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明提出的一种基于深度学习的面部无标记运动捕捉方法，包括以下步骤：

S1.使用深度相机对真实人物进行面部表情捕捉；

步骤S1中具体的包括：

6、利用深度相机获取人脸彩色图像和深度图像；

7、建立头部姿态判断模型；

8、训练并建立AAM算法的模型；

9、利用AAM算法定位面部特征点；

10、获取面部特征点的三维坐标。

S2.处理捕捉的面部表情，并生成面部表情捕捉文件；

步骤S1中采用AAM算法标定真实人物的面部特征点，使头部姿态各异的情况下我们也能够对面部特征点进行精确的定位，从而对真实人物进行面部表情捕捉。

步骤1中具体为利用深度相机获取三维人脸的彩色数据流与深度数据流，并将彩色数据流转换成彩色图像，将深度数据流转换成深度图像。

步骤2中具体为利用深度相机获取不同的头部姿态相对应的深度图像，然后按照头部姿态的位置将获取到的深度图像分为多个不同的分类训练集，使用脸部近视平面的法向量来表示不同的头部姿态，从而建立头部姿态判断模型。

步骤3和4中所采用的AAM算法把模型分为形状模型和纹理模型两个部分，AAM算法是在ASM算法的基础上(即将人脸图像变形到平均形状)对图像进行纹理分析来定位其特征点。

步骤4中具体为输入新的图像，使用步骤2建立的随机回归森林模型，对给出的新的深度图像判断其中的头部位置，并且给出一组头部姿态的估计值，计算出给出的深度图像的头部中心的位置和头部姿态信息，然后选择与之最匹配的AAM模型，头部姿态估计信息获得头部中心位置和头部姿态，由此来计算头部模型的旋转和平移，利用头部旋转角度计算旋转矩阵R，使用头部中心位置作为平移矩阵，利用R和T对得到的3D面部特征点进行旋转和平移，之后再利用相机内参将变换后的点投影到RGB图像平面，得到RGB图像上的特征点集，以此作为AAM模型实例的形状初始值。

本发明提出的一种基于深度学习的面部无标记运动捕捉方法，本发明通过动作捕捉文件来驱动虚拟模型来实现人脸面部表情的捕捉，处理深度相机获取的每一帧图像并从中确定提取特征点的三维坐标信息，通过转换算法计算得出旋转信息，并将其按照bvh的格式写入动作捕捉文件中，本方法捕获的数据是现实世界人脸的真实的运动数据，动作连贯真实，表情细腻丰富，而且此方法获取到的面部表情捕捉文件可以重复使用，节约了成本。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度学习的面部无标记运动捕捉方法，其特征在于，包括以下步骤：

S1.使用深度相机对真实人物进行面部表情捕捉；

步骤S1中具体的包括：

利用深度相机获取人脸彩色图像和深度图像；

建立头部姿态判断模型；

训练并建立AAM算法的模型；

利用AAM算法定位面部特征点；

获取面部特征点的三维坐标；

S2.处理捕捉的面部表情，并生成面部表情捕捉文件；

2.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：步骤S1中采用AAM算法标定真实人物的面部特征点，使头部姿态各异的情况下我们也能够对面部特征点进行精确的定位，从而对真实人物进行面部表情捕捉。

3.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：所述步骤1中具体为利用深度相机获取三维人脸的彩色数据流与深度数据流，并将彩色数据流转换成彩色图像，将深度数据流转换成深度图像。

4.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：所述步骤2中具体为利用深度相机获取不同的头部姿态相对应的深度图像，然后按照头部姿态的位置将获取到的深度图像分为多个不同的分类训练集，使用脸部近视平面的法向量来表示不同的头部姿态，从而建立头部姿态判断模型。

5.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：所述步骤3和4中所采用的AAM算法把模型分为形状模型和纹理模型两个部分，AAM算法是在ASM算法的基础上(即将人脸图像变形到平均形状)对图像进行纹理分析来定位其特征点。

6.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：所述步骤4中具体为输入新的图像，使用步骤2建立的随机回归森林模型，对给出的新的深度图像判断其中的头部位置，并且给出一组头部姿态的估计值，计算出给出的深度图像的头部中心的位置和头部姿态信息，然后选择与之最匹配的AAM模型，头部姿态估计信息获得头部中心位置和头部姿态，由此来计算头部模型的旋转和平移，利用头部旋转角度计算旋转矩阵R，使用头部中心位置作为平移矩阵，利用R和T对得到的3D面部特征点进行旋转和平移，之后再利用相机内参将变换后的点投影到RGB图像平面，得到RGB图像上的特征点集，以此作为AAM模型实例的形状初始值。

7.根据权利要求1所述的一种基于深度学习的面部无标记运动捕捉方法，其特征在于：所述步骤5中进一步具体为确定面部特征点的位置后，计算并获取人脸面部特征点的坐标信息，深度相机的坐标系是以其自身为坐标原点，正前方为Z轴方向，向左为X轴的正方向，向上为Y轴的正方向，深度相机能获取到深度图像，最终获得整个三维人脸。