CN114049678A

CN114049678A - 一种基于深度学习的面部动作捕捉方法及系统

Info

Publication number: CN114049678A
Application number: CN202210023895.5A
Authority: CN
Inventors: 刘逸颖; 李太豪; 阮玉平; 马诗洁; 郑书凯
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-02-15
Anticipated expiration: 2042-01-11
Also published as: CN114049678B

Abstract

本发明公开了一种基于深度学习的面部动作捕捉方法及系统，包括以下步骤：S1：使用深度相机采集人脸的视频数据和对应的深度数据，构建数据集；S2：构建面部动作识别网络，使用所述数据集进行面部动作识别网络训练；S3：将任意视频序列输入训练后的面部动作识别网络，预测混合形状系数；S4：将所述预测混合形状系数应用于任意的虚拟形象上，驱动虚拟形象的面部动作。系统包括视频采集模块，网络训练模块，面部动作预测模块，虚拟形象动画展示模块。本发明的算法运行速率高，只在训练时使用了深度信息进行训练，在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉，无需额外的深度采集设备，可实时的进行面部动作捕捉。

Description

一种基于深度学习的面部动作捕捉方法及系统

技术领域

本发明涉及一种计算机视觉、计算机图形学技术领域，尤其涉及一种基于深度学习的面部动作捕捉方法及系统。

背景技术

面部动作捕捉是动作捕捉技术的一部分，指使用机械装置、相机等设备记录人类面部表情和动作，将之转换为一系列参数数据的过程。与人为制作的动画角色表情相比，通过捕捉真人面部动作生成的角色会更具真实感，还能大大的降低人工建模的成本。现如今动作捕捉技术已经是影视动画制作、游戏开发、虚拟现实等领域中必不可少的生产工具。

现在主流的方式可分为：基于二维数据和基于三维数据。前者采用光学镜头，通过算法理解人的面部表情及动作，如 Faceware 的头盔式单相机面部动作捕捉系统，这种方式的优点是成本低、易获取、使用方便，缺点是捕捉精度与其他方法相比较低；后者通过光学镜头获得二维数据，同时通过额外的手段或设备获得深度信息，如多目相机、结构光等，如苹果的Animoji在前置摄像头旁安装了红外相机以采集深度信息，这种方式的处理速度快，精度高，但需要额外的深度采集设备。

为了，我们设计了一种基于深度学习的面部动作捕捉方法及系统以此解决上述技术问题。

发明内容

本发明的目的在于提供一种基于深度学习的面部动作捕捉方法及系统，对于输入的任意包含人脸的视频，本方法采用深度学习网络识别通用的混合形状模型的权重系数，该识别结果可应用于任意的虚拟形象上，从而驱动虚拟形象的面部动作。

本发明采用的技术方案如下：

一种基于深度学习的面部动作捕捉方法，包括以下步骤：

S1：使用深度相机采集人脸的视频数据和对应的深度数据，构建数据集；

S2：构建面部动作识别网络，使用所述数据集进行面部动作识别网络训练；

S3：将任意视频序列输入训练后的面部动作识别网络，预测混合形状系数；

S4：将所述预测混合形状系数应用于任意的虚拟形象上，驱动虚拟形象的面部动作。

进一步地，所述S1中所述构建数据集包括以下子步骤：

S11：构建每个所述人脸的视频数据中人脸的混合模型：根据深度图重建中性表情下的3D人脸模型，并利用网格形变迁移算法得到混合形状模型，其中混合形状模型包含了一个中性表情B₀和n个表情基(B₁,…,B_n)；

S12：检测所述人脸的视频数据中每一帧的人脸关键点，并根据所述深度数据获得所述人脸关键点的三维坐标；

S13：根据所述人脸关键点的三维坐标和所述混合形状模型上的对应的顶点，计算所述混合形状模型与相机坐标系下人脸的旋转平移矩阵。

进一步地，所述S3所述面部动作识别网络的输入为任意视频序列，输出为视频每一帧对应的预测混合形状系数。

进一步地，所述S2所述面部动作识别网络包括特征提取网络、Transformer和全连接网络串联。

进一步地，所述特征提取网络为卷积神经网络结构，所述特征提取网络对任意视频序列的每帧图像进行特征提取，并编码为一个特征向量，所述特征向量与任意视频序列的视频帧位置编码进行连接作为所述Transformer的输入，用于构建人脸表情在时序上的关联性，全连接层使用Sigmoid作为激活函数，输出预测混合形状系数。

进一步地，所述S2中面部动作识别网络训练过程中包括拟合当前帧的3D人脸，公式为：

其中，

为混合形状系数，

；

为最终生成的对应于输入人脸的视频数据的3D人脸，

是中性表情人脸模型，

-

是人脸模型的不同表情基，

表示不同表情和中性表情之间的顶点偏移量，将拟合当前帧的3D人脸与当前帧中的人脸在空间上对齐，得到变换后的3D人脸，公式为：

其中，R为3×3的旋转矩阵，T为1×3的平移矩阵。

进一步地，所述S2中面部动作识别网络训练的过程中，由拟合损失和时间连续性损失构成的损失函数进行反向传播，学习网络参数，表达式为：

其中，

为拟合损失，

为时间连续性损失，

衡量了

的比重。

进一步地，所述拟合损失

为所述变换后的3D人脸上的关键点与所述深度数据获得所述人脸关键点的三维坐标之间的欧式距离：

其中，

大小为k×3，为拟合当前帧的3D人脸

上的关键点的三维坐标,

大小为k×3，为当前帧由深度数据获得所述人脸关键点的三维坐标，k为关键点的数量。

进一步地，所述时间连续性损失

为相邻帧之间的平滑误差，表达式为：

其中，

为网络预测的当前帧的网络输出，

为网络预测的前1帧的网络输出，

为网络预测的前2帧的网络输出。

本发明还提供一种基于深度学习的面部动作捕捉系统，包括以下模块：

视频采集模块，用于采集人脸的视频数据和对应的深度数据，构建数据集；

网络训练模块，用于使用数据集进行面部动作识别网络训练；

面部动作预测模块，用于将任意视频序列输入训练后的网络训练模块，预测混合形状系数；

虚拟形象动画展示模块，用于将所述预测混合形状系数应用于虚拟形象，实时展示视频中人脸的面部表情。

本发明的有益效果是：

1.本发明提出的动作捕捉方法，只在训练时使用了深度信息进行训练，在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉，无需额外的深度采集设备，因此成本低，可以更灵活的应用于各个场景。

2. 本发明提出的面部动作识别网络在训练过程中，不需要使用市面上昂贵的面部动作捕捉设备获取每一帧的混合形状系数作为真值，而是通过将网络输出计算3D人脸，并计算其与由深度相机采集的面部关键点的距离误差进行间接的学习，减小了训练集的制作成本。

3.本发明提出的面部动作识别网络由卷积、transformer等基本网络结构构成，其中卷积网络在图像的特征提取上有着优越的性能，而transformer能够在时间上联合考虑相邻帧之间的信息，因此算法精度高。此外卷积和transformer都能够进行高效的并行计算，因此本发明的算法运行速率高，可实时的进行面部动作捕捉。

附图说明

图1为本发明的面部动作捕捉方法的流程示意图；

图2为本发明构建的混合模型形状的表情示意图；

图3为本发明检测的面部关键点示意图；

图4为本发明的面部动作识别网络结构示意图；

图5为本发明的一种基于深度学习的面部动作捕捉系统示意图；

图6为本发明一种基于深度学习的面部动作捕捉装置的结构图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

见图1，一种基于深度学习的面部动作捕捉方法，包括以下步骤：

在本实施例中，使用RealSense L515采集原始的视频和深度图，构建数据集包括以下方面：

S11：构建每个所述人脸的视频数据中人脸的混合模型：根据深度图重建中性表情下的3D人脸模型，并利用网格形变迁移算法得到混合形状模型，混合形状模型包含中性表情

和n个表情基(

)，如张口、微笑、皱眉、闭眼等。

可选地，混合形状模型的构建的方法为：

1)准备一个包含不同表情基的人脸模板；

2)从深度图中恢复点云，并裁剪出人脸部分的点云，利用Nonrigid ICP算法，对中性表情的人脸模板进行变形，使其与采集的点云形状一致，得到目标人脸。见图2中的（a），根据采集的深度图重建的3D人脸。

3)利用网格形变迁移算法，将人脸模板的不同表情迁移到目标人脸，得到目标人脸的不同表情的集合。见图2中的(b)-图2中的(f)列举了得到的一些表情的示例。本实施例共使用了52个表情基，共同构成了目标人脸的混合形状模型。

见图3，本实施例使用了Dlib提供的人脸检测算法，检测人脸的68个关键点。由于编号为1-17的面部轮廓点的界定较模糊，不同角度拍摄的人脸检测的位置区别很大，因此本实施例筛选了其中的编号为18-68的关键对作为后续损失函数计算的关键点。

本实施例点云之间的旋转平移矩阵的计算方式可根据需要选择现有任意的旋转平移矩阵计算方式。考虑到面部的非刚性运动可能会对姿态解算带来噪声，选取了图3中编号为37、40、43、46、31、34的几个点构成点云进行计算，这些点代表了左眼内外眼角、右眼内外眼角、鼻尖、人中几个关键区域，它们在人脸做表情时为相对固定点。

面部动作识别网络训练过程中包括拟合当前帧的3D人脸，公式为：

其中，

为混合形状系数

；

为最终生成的对应于输入人脸的视频数据的3D人脸，

是中性表情人脸模型，

-

是人脸模型的不同表情基，

其中，R为3×3的旋转矩阵，T为1×3的平移矩阵。

所述S2中面部动作识别网络训练的过程中，由拟合损失和时间连续性损失构成的损失函数进行反向传播，学习网络参数，表达式为：

其中，

为拟合损失，

为时间连续性损失，

衡量了

的比重。

所述拟合损失

式中，

大小为k×3，为拟合当前帧的3D人脸

上的关键点的三维坐标,

所述时间连续性损失

为相邻帧之间的平滑误差，表达式为：

其中，

为网络预测的当前帧的网络输出，

为网络预测的前1帧的网络输出，

为网络预测的前2帧的网络输出。

S3：将任意视频序列输入训练后的面部动作识别网络，预测混合形状系数；预测阶段只需输入二维的视频序列，而无需深度数据，即预测混合形状系数：

见图4，为本发明的面部动作识别网络，它的输入为任意视频序列，输出为视频每一帧对应的预测混合形状系数，该预测混合形状系数可用于3D人脸动作的驱动。面部动作识别网络由特征提取网络、Transformer和全连接网络串联构成；其中，所述特征提取网络为卷积神经网络结构，所述特征提取网络对任意视频序列的每帧图像进行特征提取，并编码为一个特征向量，所述特征向量与任意视频的视频帧位置编码进行连接作为所述Transformer的输入，用于构建人脸表情在时序上的关联性，全连接层使用Sigmoid作为激活函数，输出预测混合形状系数。

本实施例中，使用了Resnet34的预训练模型作为特征提取网络。由于Transformer模型本身不具备像RNN那样的学习次序信息的能力，需要主动将次序信息喂给模型，因此除了特征提取网络的输出外，还使用Embeding对输入的视频帧进行位置编码，并将二者进行连接作为Transformer模型的输入。

所述虚拟形象也应包含与训练使用的混合形状模型相同的表情基。

本发明实施例的基于深度学习的面部动作捕捉方法，只在训练时使用了深度信息进行训练，在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉，无需额外的深度采集设备，因此成本低，可以更灵活的应用于各个场景。

进一步地，本发明实施例提出的面部动作识别网络在训练过程中，不需要使用市面上昂贵的面部动作捕捉设备获取每一帧的混合形状系数作为真值，而是通过将网络输出计算3D人脸，并计算其与由深度相机采集的面部关键点的距离误差进行间接的学习，减小了训练集的制作成本。

进一步地，本发明实施例提出的面部动作识别网络由卷积、transformer等基本网络结构构成，其中卷积网络在图像的特征提取上有着优越的性能，而transformer能够在时间上联合考虑相邻帧之间的信息，因此算法精度高。此外卷积和transformer都能够进行高效的并行计算，因此本发明的算法运行速率高，可实时的进行面部动作浦捉。

见图5，一种基于深度学习的面部动作捕捉系统，包括以下模块：

与前述基于深度学习的面部动作捕捉方法的实施例相对应，本发明还提供了基于深度学习的面部动作捕捉装置的实施例。

参见图6，本发明实施例提供的一种基于深度学习的面部动作捕捉装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的基于深度学习的面部动作捕捉方法。

本发明基于深度学习的面部动作捕捉装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明基于深度学习的面部动作捕捉装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于深度学习的面部动作捕捉方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的面部动作捕捉方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于深度学习的面部动作捕捉方法，其特征在于，所述S1中所述构建数据集包括以下子步骤：

3.如权利要求1所述的一种基于深度学习的面部动作捕捉方法，其特征在于，所述S3所述面部动作识别网络的输入为任意视频序列，输出为视频每一帧对应的预测混合形状系数。

4.如权利要求1所述的一种基于深度学习的面部动作捕捉方法，其特征在于，所述S2所述面部动作识别网络包括特征提取网络、Transformer和全连接网络串联。

5.如权利要求4所述的一种基于深度学习的面部动作捕捉方法，其特征在于，所述特征提取网络为卷积神经网络结构，所述特征提取网络对任意视频序列的每帧图像进行特征提取，并编码为一个特征向量，所述特征向量与任意视频序列的视频帧位置编码进行连接作为所述Transformer的输入，用于构建人脸表情在时序上的关联性，全连接层使用Sigmoid作为激活函数，输出预测混合形状系数。

6.如权利要求2所述的一种基于深度学习的面部动作捕捉方法，其特征在于，所述S2中面部动作识别网络训练过程中包括拟合当前帧的3D人脸，公式为：