CN111161395A

CN111161395A - 一种人脸表情的跟踪方法、装置及电子设备

Info

Publication number: CN111161395A
Application number: CN201911131497.XA
Authority: CN
Inventors: 王志全; 黄哲
Original assignee: Shenzhen Three D Artificial Intelligence Technology Co ltd
Current assignee: Shenzhen Three D Artificial Intelligence Technology Co ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-05-15
Anticipated expiration: 2039-11-19
Also published as: CN111161395B

Abstract

本申请提供一种人脸表情的跟踪方法、装置及电子设备，所述方法包括：获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量；采集人脸图像中的特征点数据，结合所述核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将所述当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；结合所述核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将所述当前的人脸表情系数迁移到目标模型。本发明能够增强检测的精度与稳定性，使呈现出来的视频更加平滑。

Description

一种人脸表情的跟踪方法、装置及电子设备

技术领域

本申请涉及人脸检测技术领域，尤其涉及一种人脸表情的跟踪方法、装置及电子设备。

背景技术

人脸重建主要分三类，分别为传统三维人脸重建、基于模型的三维人脸重建以及端到端的三维人脸重建。传统重建方法主要基于图像亮度、边缘信息、线性透视、颜色、相对高度、视差等等一种或多种信息进行建模的技术，另外一种情形则是基于多张图片或者视频。现有技术中，提出过基于光照信息进行高频细节的人脸重建；基于模板的传统算法或者深度学习算法进行人脸重建；基于三维人脸数据库面结合人脸形状及人脸纹理，同时考虑人脸的姿态以及光照的因素进行人脸重建；甚至有人提出通过UV位置映射进行三维人脸重建。上述的技术在重建的人脸上其网格会有明显的条纹，出现不平滑的现象。

在人脸重建的过程中会对人脸的特征点进行跟踪检测，现有的做法通常会通过卷积神经网络并结合弱监督方式，利用大量的大姿态照片进行模型训练，甚至有人提出通过连续帧时间的光流信息建立视频中特征点之间的检测与跟踪。但是整体来说，其跟踪效果质量较差，常会出现视频抖动现象，制作成本高。可见，现有技术中，对于视频制作存在抖动且成本高的问题。

发明内容

本申请的目的是针对上述现有技术存在的缺陷，提供一种人脸表情的跟踪方法，解决了视频抖动及成本高的问题。

本申请的目的是通过以下技术方案来实现的：

第一方面，提供一种人脸表情的跟踪方法，所述方法包括：获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量；

采集人脸图像中的特征点数据，结合所述核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；

对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将所述当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；

结合所述核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将所述当前的人脸表情系数迁移到目标模型。

第二方面，本发明实施例还提供一种人脸表情的跟踪装置，所述装置包括：

分解模块，用于获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量；

计算模块，用于采集人脸图像中的特征点数据，结合所述核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；

采集模块，用于对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将所述当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；

迁移模块，用于结合所述核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将所述当前的人脸表情系数迁移到目标模型。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如具体实施例中任一项所述的人脸表情的跟踪方法中的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本实施例中如具体实施例中任一项所述的人脸表情的跟踪方法中的步骤。

本申请带来的有益效果：获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量；采集人脸图像中的特征点数据，结合所述核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将所述当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；结合所述核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将所述当前的人脸表情系数迁移到目标模型。本发明实施例由于自动生成人脸表情系数可以大幅度降低手动制作的周期和成本；并且在人脸图像跟踪时，对当前图像帧中检测到的特征点数据以及头部动作数据进行加权处理，增强检测的精度与稳定性，有利于对视频去抖，使呈现出来的视频更加平滑。

附图说明

图1为本申请实施例提供的一种人脸表情的跟踪方法的流程示意图；

图2为本申请实施例提供的图1中步骤S101的具体实施例流程示意图；

图3为本申请实施例提供的图1中步骤S102的具体实施例流程示意图；

图4为本申请实施例提供的图1中步骤S102的另一个具体实施例流程示意图；

图5为本申请实施例提供的图1中步骤S103的具体实施例流程示意图；

图6为本申请实施例提供的图1中步骤S104的具体实施例流程示意图；

图7为本申请实施例提供的一种人脸表情的跟踪装置结构示意图；

图8为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图9为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图10为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图11为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图12为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图13为本申请实施例提供的另一种人脸表情的跟踪装置结构示意图；

图14为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面描述本申请的优选实施方式，本领域普通技术人员将能够根据下文用本领域的相关技术加以实现，并能更加明白本申请的创新之处和带来的益处。

如图1所示，为了进一步描述本申请的技术方案，本发明实施例提供了一种人脸表情的跟踪方法的流程示意图，方法具体包括以下步骤：

S101、获取原始人脸数据集，通过多维度的奇异值算法对原始人脸数据集进行分解，生成核心张量。

其中，原始人脸数据集可以是原始构造的人脸表情数据库中存储的人脸表情图像。一个人脸表情图像的模板可以拥有20329个顶点，4000个面。上述的原始人脸数据集只是部分的数人脸数据，原始人脸数据集可以是呈现阵列排布，其中包括多个人的人脸表情。阵列中每列表示同一个人的不同表情，每一行表示不同人拥有相同的表情。

在原始构造的人脸表情数据库中，每个人可以包含47个人脸表情，500个人脸形状，每个人脸表情包括20329个顶点，并且可以通过矩阵T_{20329×500×47}来表示，其中，T表述数据张量，表示总的数据对应形成的多维矩阵。人脸表情包括但不限于张嘴、微笑、左右撇嘴、哭、皱眉等等。

上述人脸形状包括但不限于来自不同性别(男、女)，从18岁到70等不同年龄的人。由原始数据T构成的张量因为数据较大，可以通过上述的多维度的奇异值算法(N-mode，SVD)对获取到的人脸数据集进行分解，分解后可以得到一个核心张量，核心张量为分解后的矩阵。

S102、采集人脸图像中的特征点数据，结合核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵。

具体的，系统可以采用网络摄像机(webcam)对特征点数据进行采集，例如：信号为罗技C930e，其最大分辨率可以达到2048×980。特征点数据可以表示用于描述人脸图像的具体结构和轮廓的多个点，例如：眉毛、鼻子、眼睛、嘴巴、以及人脸最外围一圈的轮廓等，对应每个部位可以采集多个特征点数据。结合核心张量进行计算可以是将核心张量的矩阵在人脸表情的维度上进行展开得到当前用户的人脸表情融合模型B＝{B0，B1，B2，…，B45，B46}。通过最小化能量算法拟合特征点数据得到一个三维人脸网格模型，也即是得到对应的目标人脸形状系数与相机的目标内参矩阵，获取到目标人脸形状系数以及相机的目标内参矩阵也即是完成了系统的初始化。

S103、对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理。

其中，系统经过初始化阶段以后，获得了当前用户的目标人脸形状参数以及相机的目标内参矩阵，然后正式进入人脸表情跟踪与重建。人脸表情跟踪与重建的过程主要涉及人脸跟踪与特征点检测，以及人脸表情重建，最后是表情的迁移过程。

上述对当前人脸图像的每帧图像进行跟踪，采集图像帧中的特征点数据可以是采用dlib库中的方法。其中，Dlib库是一个包含机器学习算法的C++开源工具包，还提供了debug模式；打开debug模式后，用户可以调试代码，查看变量和对象的值，快速定位错误点。Dlib不依赖第三方库，Dlib可用在window、 Mac OS、Linux系统上。可疑针对大规模分类和递归的降维方法，还可以未知函数进行预测或分类。

其中，头部动作数据包括头部姿态，例如：左偏、右偏、上仰、低头等。头部动作数据可以作为相机的外参，可以通过一个矩阵的形式表示，用于后续计算。前面连续帧可以是预设数量的图像帧，例如：10帧、20帧等。将当前图像帧中检测到的特征点数据以及头部动作数据做加权处理，可以是通过获取前面连续帧中的特征点数据及头部动作数据与当前图像帧中的特征点数据及头部动作数据分别进行加权计算，可以预设权重，其权重值可以呈现均值为0，方差为1的正态分布。权重的重要性可以是根据与当前帧的距离进行确定，距离当前帧越近，对应的权重越大，越往前其权重越小，且当前帧的权重为最大值。做加权处理可以使得视频更为平滑，减少抖动。

S104、结合核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将当前的人脸表情系数迁移到目标模型。

其中，人脸表情系数的计算过程可以是人脸表情估计的过程，对应当前帧中的人脸表情估计可以采用重投影误差最小方式，在初始极端得到了目标人脸形状系数及相机的目标内参矩阵；在跟踪阶段，算法每次估计当前用户的人脸表情系数可以基于目标人脸形状系数及相机的目标内参矩阵、加权处理后的头部动作数据对应的矩阵和特征点数据、以及核心张量进行计算，同样可以是基于误差最小的方式进行计算，其中，可以通过核心张量与人脸表情形状系数相乘得到当前用户的人脸表情形状基。当计算出人脸表情系数之后，便可以将该人脸表情系数转移到其他人脸模型上，这样就只需要构造其他人脸表情混合模型即可。

本发明实施例可以用于影视动画游戏方面，提供丰富的表情动画进行影视制作，特别是动画电影中有着重要的作用。也可以运用在运动捕捉系统。当然，在移动终端，随着手机等移动设备的普及，用户还可生成个性化的头像，例如：在视频通话，视频游戏过程中等。

其中，移动终端可以是具有显示屏、可以对进行视频观看、编辑等操作的电子设备，且移动终端包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

在本发明实施例中，通过获取原始人脸数据集，通过多维度的奇异值算法对原始人脸数据集进行分解，生成核心张量；采集人脸图像中的特征点数据，结合核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；结合核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将当前的人脸表情系数迁移到目标模型。本发明实施例由于自动生成人脸表情系数可以大幅度降低手动制作的周期和成本；并且在人脸图像跟踪时，对当前图像帧中检测到的特征点数据以及头部动作数据进行加权处理，增强检测的精度与稳定性，有利于对视频去抖，使呈现出来的视频更加平滑本发明实施例由于对原始人脸数据集进行分解，得到的核心张量更为准确，并且在人脸图像跟踪时，对当前图像帧中检测到的特征点数据以及头部动作数据进行加权处理，增强检测的精度与稳定性，有利于对视频去抖，使呈现出来的视频更加平滑。

可选的，如图2所示，图2为本申请实施例提供的步骤S101的具体流程示意图，原始人脸数据集包括多个人脸的k张图像的图像数据，k张图像的图像数据包括多维参数，S101具体包括以下步骤：

S201、获取预设的人脸图像数据库中多个人脸的k张图像的图像数据，其中，K为大于1的自然数。

其中，在原始构造的人脸表情数据库中，每个人可以包含47个人脸表情， 500个人脸形状，每个人脸表情包括20329个顶点，并且可以通过矩阵T_{20329×500×47}来表示，其中，T表述数据张量。上述人脸形状包括但不限于来自不同性别(男、女)，从18岁到70等不同年龄的人。

S202、通过多维度的奇异值算法对与k张图像的图像数据对应的多维参数进行分解，得到核心张量。

由原始人脸数据集T构成的张量因为数据较大，可以通过上述的多维度的奇异值算法对获取到的k张图像的图像数据根据不同的维度进行分解、压缩、降维，分解后可以得到一个核心张量，核心张量可以用矩阵进行表示。多维可以表示2维、3维、4维等。其中，进行降维分解的维度参数之间是正交旋转矩阵的关系，分别包含了对应维度经过SVD操作之后得到的奇异向量。

在本发明实施例中，通过在人脸表情数据库获取多个人的k张图像的图像数据，并对k张图像的图像数据对应的多维参数通过多维度的奇异值算法进行分解降维，得到核心张量，由于获取到了大量的人脸对应的图像数据进行降维分解，能够得到准确度更高的核心张量。

可选的，如图3所示，图3为本申请实施例提供的步骤S202的流程示意图，其中，多维参数包括网格顶点、人脸表情及个体形状，S202具体包括以下步骤：

S301、将k张图像的图像数据进行旋转。

其中，k张图像对应的图像数据通过矩阵的形式进行表示，通过SVD算法进行分解首先将数据张量T中的数据进行旋转操作也即是表示对k张图像的图像数据对应的矩阵进行旋转。

S302、保持网格顶点不变，通过多维度的奇异值算法对人脸表情及个体形状进行降序分解，得到对应的个体形状系数及人脸表情系数。

上述的多维参数包括网格顶点、人脸表情及个体形状，并且可以将网格顶点作为第一维度，个体形状作为第二维度，人脸表情作为第三维度。当然，维度的顺序也可以不按照上述方法设置，在本实施例中对此不作限定。

因在分解过程中，图像作为一个整体出现，其中的网格顶点不减少，因此在分解过程中需要保持第一维度网格顶点不变。然后，将核心张量中第二维和第三维按照数据重要性降序排列，对应的分解公式如下：

其中，T为数据张量，C是经过SVD分解后的张量，称为核心张量，U_id为包括个体形状的正交旋转矩阵、U_exp包括人脸表情的正交旋转矩阵。进行分解实际上是将三个维度以矩阵的形式进行计算，并保证网格顶点对应的矩阵不改变。

上述的维度越靠前的数据越重要，所以可以预设一个分割阈值，将超过分割阈值之后的分量舍弃。这样，可以生成一个简化张量模型，并且该简化张量模型可通过上述的正交旋转矩阵来近似原始的数据张量，对应的计算公式如下：

其中Cr为简化后的张量模型，张量模型为人脸表情跟踪的双线性人脸模型，通过Cr中的张量收缩计算，它可以表达不同用户的不同表情，其计算公式为：

其中，W_id表示人脸形状系数的向量，W_exp为人脸表情系数的向量。

S303、对原始人脸数据集、个体形状系数及人脸表情系数做积，得到核心张量。

若上述公式(1)所示，将获取到原始人脸数据集(数据张量T)、个体形状的正交旋转矩阵U_id以及人脸表情的正交旋转矩阵U_exp做乘积，表可以得到分解后的核心向量。

本发明实施例中，通过将k张图像的图像数据进行旋转；并保持图像中对应的网格顶点不变，通过多维度的奇异值算法对人脸表情及个体形状进行降序分解，得到对应的个体形状系数及人脸表情系数；并对原始人脸数据集、个体形状系数及人脸表情系数做积，得到核心张量，这样，能够减小核心张量的数据占用的空间，同时便于计算人脸表情系数。

可选的，如图4所示，图4为本申请实施例提供的步骤S102的流程示意图，其中，人脸图像包括不同姿态的人脸图像，S102具体包括以下步骤：

S401、拍摄多张姿态不同的人脸图像。

其中，拍摄多张姿态不同的人脸图像表示拍摄用户在不同姿态下的带自然表情的人脸图像。具体的，可以在yaw，pitch，roll三个方向上各自取一定的角度范围，然后每隔预设的采集角度进行采集图像，一个用户总共可以有多张用户人脸图像，例如：在yaw，pitch，roll三个方向上各自选取的角度为60度，预设的采集角度为10度，一个人可以有94张人脸图像。

上述在yaw，pitch，roll三个方向上各自选取的角度为也可以是不同的角度，在每个方向上的预设采集角度也可以是不同的角度，在本发明实施例中不作限定。上述yaw，pitch，roll为三维空间的右手笛卡尔坐标。其中，pitch是围绕X轴旋转，也叫做俯仰角；yaw是围绕Y轴旋转，也叫偏航角；roll是围绕Z轴旋转，也叫翻滚角。

S402、对拍摄到的姿态不同的人脸图像分别进行特征点数据检测，特征点数据包括特征点坐标。

具体的，对上述姿态不同的人脸图像进行特征点检测，每帧分别检测出各自的脸部显著标记点(特征点)，每个人脸图像可以检测出多个特征点，例如： 68个特征点。针对于每张人脸图像检测到的特征点都有一一对应的特征点坐标，作为每个特征点对应的数值化标记。

S403、预设内参矩阵，将核心张量在人脸表情的维度上进行展开得到表情形状基，并结合特征点数据的重投影误差最小化构建对应的目标人脸形状系数。

具体的，利用上述分解出来的核心张量来拟合人脸模型，从而估计人脸形状系数W_id。估计人脸形状系数W_id可以是将获取到的多个特征点根据重投影误差最小化来进行构建。

可以给定张量模型Cr，然后在人脸表情的维度上进行展开，得到当前用户的表情融合模型B＝{B₀，B₁，…，B₄₆}，也即是当前用户的表情形状基。其拟合过程可转为最小化能量E的过程，对应的人脸形状系数W_id求解的公式如下：

其中，Q为相机的目标内参矩阵，n表示人脸图像的个数，每个人脸图像共68个特征点，U^i,k表示第i张图像中第k个特征点的特征点坐标。通过最优化E求解出了W_id，即对应于用户的人脸形状系数。

公式(4)优化采用分块的方式进行，先固定相机的内参矩阵，给一个初始估计值。因为针孔相机作为透视投影的一个理想模型，可以预设其相机为针孔相机模型，然后初始化一个焦距参数f就可以构造目标内参矩阵Q。得到目标内参矩阵之后，利用重投影误差估计用户人脸形状系数W_id。

S404、通过最小化能量算法结合特征点坐标、表情形状基、目标人脸形状系数进行计算，得到目标内参矩阵。

其中，目标内参矩阵可以将3D相机坐标变换到2D齐次图像坐标。上述得到人脸形状系数W_id之后，对人脸形状系数W_id进行固定，同样可以利用公式 (4)将对应的特征点坐标、表情形状基以及目标人脸形状系数带入，依次迭代上述步骤，直到算法收敛为止，从而估计出相机的目标内参矩阵。

本发明实施例中，通过拍摄多张姿态不同的人脸图像并检测人脸图像中的特征点数据，然后将核心张量在人脸表情的维度上进行展开得到表情形状基，基于重投影误差最小化构建对应的目标人脸形状系数并估计目标内参矩阵，再将得到的目标人脸形状系数并估计目标内参矩阵进行加权优化处理，作为人脸表情系数构建的基础。这样，得到的目标人脸形状系数及目标内参矩阵会更为准确，让加权处理之后的特征点更稳定，保证视频画面更加平滑流畅，在后续自动生成人脸表情系数可以大幅度降低手动制作的周期和成本。

可选的，如图5所示，图5为本申请实施例提供的步骤S103的流程示意图，S103具体包括以下步骤：

S501、检测当前人脸图像，并对当前人脸图像进行持续跟踪。

首先，先检测当前有没有人脸图像，然后可以根据人脸的矩阵框的中心相对变化比较小，进行人脸的持续跟踪，以防止跟丢和跟错的情况。

S502、确定当前图像帧中与当前人脸图像对应的人脸区域，对人脸区域内的人脸图像的特征点数据及头部动作数据进行采集。

参见图5所示，检测到表情表演视频中的原始图像之后，需要先锁定人脸所在的区域，在人脸区域中可以包括鼻子、眼睛、嘴巴、下巴、脑门、耳朵等结部位。确认人脸区域之后，便可以对人脸区域中的人脸的多个特征点进行以及头部动作数据进行采集。在表情表演视频中除了一个人脸之外，还可能会出现干扰人脸的情况。若有干扰人脸，则可以根据标记的人脸区域的大小选取人脸区域最大的作为目标人脸。

S503、将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权，并对人脸表情系数进行约束。

采集到人脸区域中的人脸的多个特征点以及头部动作数据之后，可得到当前用户的表情模型。因为每帧人脸表情系数都是单独进行重建，为解决在重建过程中出现的抖动，可以将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权处理，如图5所示，具体的公式为：

其中，U^k ₀表示当前帧(0)第k个特征点的像素坐标值，公式右边的i表示当前帧的第前i帧图像帧，如不存在，则不纳入计算；Wi表示第前i帧的权重，其权重值可以是均值为0，方差为1的正态分布。当前帧对应权重最大值，往前帧其权重依次降低，可以预设涉及的图像帧数量，例如：前10帧内。

此外，对估计出来的头部动作数据H也与前面连续帧中估计出来的头部动作数据进行加权平均处理。此时的加权平均处理可以针对旋转矩阵对应的三个欧拉角分别进行加权平均。对其中包含的平移量也在三个方向上相应的加权平均，从而得到当前帧的头部动作数据。对应的加权平均的方式仍然采用公式(5) 的策略，通过高斯阶段进行加权平均。

具体的，在将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权之后，可以通过重投影误差最小算法估计用户当前的人脸表情系数Wexp，其估计公式如下：

其中，Q表示相机内参矩阵，是一个3×3的矩阵，H为加权后的当前的头部动作数据，为4×4的旋转矩阵，包含一个3×3的旋转以及一个3×1的平移向量。其中，U^k表示当前帧中检测出的第k个人脸图像的特征点，B_j(j＝0,…,46) 表示当前用户的人脸表情形状基，它通过人脸表情个体系数和核心张量乘积 (B_j＝W_id×T)得到，第0个表示均值模型，其它各个代表不同的表情语义(j 等于0)。

通过最小化公式(6)，可以计算得到当前的人脸表情系数。在得到人脸表情系数之后，可把该人脸表情系数转移到其它人脸模型上，只需要构造其它模型的人脸表情混合模型即可。

对特征点数据以及头部动作数据分别进行加权处理之后，因为人脸表情变化是逐步进行的，相邻帧之间的人脸表情系数相近，在当前的人脸表情系数估计优化算法中，对当前的人脸表情系数进行约束，使得当前估计出来的人脸表情系数与上一帧对应的人脸表情系数尽可能地接近。对当前的人脸表情系数进行约束的公式如下所示，总共取10张人脸图像：

其中，E_smooth为约束后的人脸表情系数。

可选的，特征点数据包括特征点以及与特征点对应的像素坐标值，上述步骤S503包括：

获取当前图像帧及以及预设数量的前面连续帧中每帧对应的特征点以及与特征点对应的像素坐标值。

检测到当前图像帧中的特征点后，同时采集前面连续帧中的每个特征点对应的像素坐标值。

获取对应当前图像帧以及预设数量的前面连续帧中每帧所对应的权重。

其中，权重值可以是均值为0，方差为1的正态分布，这样可以根据正态分布关系得到对应每帧图像的权重值，当前帧中对应的权重值为正态分布曲线的对称轴对应的最高点，也即是相对前面图像帧而言最大的权重值。

基于对应的图像帧中的像素坐标值以及权重进行加权计算。

如公式(5)所示，取10帧图像帧，基于每帧图像帧对应的权重以及对应于每个特征点像素坐标值相乘并求和，得到当前帧对应的特征点的像素坐标值。

本发明实施例中，在得到核心张量，并结合核心张量以及采集到的特征点数据计算出目标人脸形状系数及目标内参矩阵之后，对当前人脸图像中的每帧图像进行跟踪，采集头部动作数据以及当前图像帧中的特征点数据，在采集的过程中，对当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权，并对人脸表情系数进行约束，提高了对特征点数据采集的精度，消除了视频中存在的抖动现象，使得视频播放中的人脸图像更为平滑，且上述自动生成人脸表情系数可以大幅度降低手动制作的周期和成本。

可选的，如图6所示，图6为本申请实施例提供的步骤S104的流程示意图，S104具体包括以下步骤：

S601、预先对任意一个目标模型构造预设数量的表情模型，表情模型中包括表情形状基。

经过上述优化之后，得到当前帧的人脸表情系数，其对应的是核心张量中的表情混合基。对任意一个avatar模型，首先可以构造其对应数量的人脸表情模型，例如：46个。

S602、基于优化后的当前人脸表情系数、表情形状基计算得到目标模型的迁移后对应的顶点。

此时，可以采用变形迁移的方式或者动画师手动制作，每个人脸表情模型都对应一个与核心张量相同语义的表情，用B_exp＝{b_i，i＝0，1，2…,46}。其表情迁移方式对应的公式如下：

其中，V为对应的avatar表情迁移得到的网格顶点，而b_i为avatar的第i 个表情形状基，而Wⁱ _exp为优化后得到的人脸表情系数的第i维值。

S603、基于迁移后的顶点生成目标模型。

经过上述步骤S601-S602之后，当前用户的人脸表情便迁移到了avatar模型上，从而可以实现实时的进行跟踪与表演。

本发明实施例中，基于获取到的原始人脸数据集进行分解生成核心张量，并结合采集到的人脸图像中的特征点数据进行计算，得到对应的目标人脸形状系数及目标内参矩阵；将当前图像帧中的特征点数据与前面连续帧中的特征点数据以及头部动作数据分别进行加权，并对计算出来的当前的人脸表情系数进行约束，根据对应预设的表情模型，结合对应的表情形状基以及优化后的当前人脸表情系数计算得到目标模型的迁移后对应的目标模型。本发明实施例由于自动生成人脸表情系数可以大幅度降低手动制作的周期和成本；并且在人脸图像跟踪时，对当前图像帧中检测到的特征点数据以及头部动作数据进行加权处理，增强检测的精度与稳定性，有利于对视频去抖，使呈现出来的视频更加平滑。

第二方面，请参见图7，图7是本申请实施例提供的一种人脸表情的跟踪装置的结构示意图，如图7所示，装置具体包括：

分解模块701，用于获取原始人脸数据集，通过多维度的奇异值算法对原始人脸数据集进行分解，生成核心张量；

计算模块702，用于采集人脸图像中的特征点数据，结合核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；

采集模块703，用于对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；

迁移模块704，用于结合核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将当前的人脸表情系数迁移到目标模型。

可选的，如图8所示，原始人脸数据集包括多个人脸的k张图像的图像数据，k张图像的图像数据包括多维参数，分解模块701包括：

获取单元7011，用于获取预设的人脸图像数据库中多个人脸的k张图像的图像数据，其中，K为大于1的自然数；

分解单元7012，用于通过多维度的奇异值算法对与k张图像的图像数据对应的多维参数进行分解，得到核心张量。

可选的，如图9所示，多维参数包括网格顶点、人脸表情及个体形状，分解模块701还包括：

获取单元7011还用于将k张图像的图像数据进行旋转；

分解单元7012还用于保持网格顶点不变，通过多维度的奇异值算法对人脸表情及个体形状进行降序分解，得到对应的个体形状系数及人脸表情系数；

第一计算单元7013，用于对原始人脸数据集、个体形状系数及人脸表情系数做积，得到核心张量。

可选的，人脸图像包括不同姿态的人脸图像，如图10所示，计算模块702 包括：

拍摄单元7021，用于拍摄多张姿态不同的人脸图像；

第一采集单元7022，用于对拍摄到的姿态不同的人脸图像分别进行特征点数据检测，特征点数据包括特征点坐标；

构建单元7023，用于预设内参矩阵，将核心张量在人脸表情的维度上进行展开得到表情形状基，并结合特征点数据的重投影误差最小化构建对应的目标人脸形状系数；

第二计算单元7024，用于通过最小化能量算法结合特征点坐标、表情形状基、目标人脸形状系数进行计算，得到目标内参矩阵。

可选的，如图11所示，采集模块703包括：

跟踪单元7031，用于检测当前人脸图像，并对当前人脸图像进行持续跟踪；

第二采集单元7032，用于确定当前图像帧中与当前人脸图像对应的人脸区域，对人脸区域内的人脸图像的特征点数据及头部动作数据进行采集；

第三计算单元7033，用于将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权，并对人脸表情系数进行约束。

可选的，特征点数据包括特征点以及与特征点对应的像素坐标值，特征点数据包括特征点以及与特征点对应的像素坐标值，如图12所示，上述第三计算单元7033包括：

计算子单元70331，用于将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权的步骤具体包括：

第一获取子单元70332，用于获取当前图像帧及以及预设数量的前面连续帧中每帧对应的特征点以及与特征点对应的像素坐标值；

第一获取子单元70332还用于获取对应当前图像帧以及预设数量的前面连续帧中每帧所对应的权重；

上述计算子单元70331还用于基于对应的图像帧中的像素坐标值以及权重进行加权计算。

可选的，如图13所示，迁移模块704包括：

构造单元7041，用于预先对任意一个目标模型构造预设数量的表情模型，表情模型中包括表情形状基；

第四计算单元7042，用于基于优化后的当前人脸表情系数、表情形状基计算得到目标模型的迁移后对应的顶点；

生成单元7043，用于基于迁移后的顶点生成目标模型。

本发明实施例提供的人脸表情的跟踪装置能够实现上述任一方法实施例中人脸表情的跟踪方法实现的各个过程及相同的有益效果，为避免重复，这里不再赘述。

第三方面，如图14所示，为本发明实施例提供的一种电子设备的结构示意图，电子设备包括：通过系统总线相互通信连接存储器1402、处理器1401、网络接口1403以及存储在存储器1402上并可在处理器1401上运行的计算机程序。需要指出的是，图中仅示出了具有组件1401-1403的电子设备，但应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital SignalProcessor，DSP)、嵌入式设备等。

上述电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

其中：

处理器1401在一些实施例中可以是控制器、微控制器、微处理器、或其他数据处理芯片，该处理器1401通常用于控制计算机设备的总体操作。

处理器1401用于调用存储器1402存储的计算机程序，执行如下步骤：

获取原始人脸数据集，通过多维度的奇异值算法对原始人脸数据集进行分解，生成核心张量；

采集人脸图像中的特征点数据，结合核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵；

对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理；

结合核心张量、目标人脸形状系数、加权后的特征点数据及头部动作数据、内参矩阵计算当前的人脸表情系数，并将当前的人脸表情系数迁移到目标模型。

可选的，原始人脸数据集包括多个人脸的k张图像的图像数据，k张图像的图像数据包括多维参数，处理器1401执行的获取原始人脸数据集，通过多维度的奇异值算法对原始人脸数据集进行分解，生成核心张量的步骤具体包括：

获取预设的人脸图像数据库中多个人脸的k张图像的图像数据，其中，K 为大于1的自然数；

通过多维度的奇异值算法对与k张图像的图像数据对应的多维参数进行分解，得到核心张量。

可选的，多维参数包括网格顶点、人脸表情及个体形状，处理器1401执行的通过多维度的奇异值算法对与k张图像的图像数据对应的多维参数进行分解，得到核心张量的步骤具体包括：

将k张图像的图像数据进行旋转；

保持网格顶点不变，通过多维度的奇异值算法对人脸表情及个体形状进行降序分解，得到对应的个体形状系数及人脸表情系数；

对原始人脸数据集、个体形状系数及人脸表情系数做积，得到核心张量。

可选的，人脸图像包括不同姿态的人脸图像，处理器1401执行的采集人脸图像中的特征点数据，结合核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵的步骤具体包括：

拍摄多张姿态不同的人脸图像；

对拍摄到的姿态不同的人脸图像分别进行特征点数据检测，特征点数据包括特征点坐标；

预设内参矩阵，将核心张量在人脸表情的维度上进行展开得到表情形状基，并结合特征点数据的重投影误差最小化构建对应的目标人脸形状系数；

通过最小化能量算法结合特征点坐标、表情形状基、目标人脸形状系数进行计算，得到目标内参矩阵。

可选的，处理器1401执行的对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理的步骤包括：

检测当前人脸图像，并对当前人脸图像进行持续跟踪；

确定当前图像帧中与当前人脸图像对应的人脸区域，对人脸区域内的人脸图像的特征点数据及头部动作数据进行采集；

将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权，并对人脸表情系数进行约束。

可选的，特征点数据包括特征点以及与特征点对应的像素坐标值，处理器 1401执行的将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权的步骤具体包括：

获取当前图像帧及以及预设数量的前面连续帧中每帧对应的特征点以及与特征点对应的像素坐标值；

获取对应当前图像帧以及预设数量的前面连续帧中每帧所对应的权重；

基于对应的图像帧中的像素坐标值以及权重进行加权计算。

可选的，处理器1401执行的将人脸表情系数迁移到目标模型的步骤具体包括：

预先对任意一个目标模型构造预设数量的表情模型，表情模型中包括表情形状基；

基于优化后的当前人脸表情系数、表情形状基计算得到目标模型的迁移后对应的顶点；

基于迁移后的顶点生成目标模型。

本发明实施例提供的电子设备能够实现人脸表情的跟踪方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本申请实施例提供的人脸表情的跟踪方法中的步骤。即在本发明的具体实施例中，计算机可读存储介质的计算机程序被处理器执行时实现上述的人脸表情的跟踪方法的步骤，能降低数字电路控制电容的非线性。

示例性的，计算机可读存储介质的计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的。

任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机可读存储介质的计算机程序被处理器执行时实现上述的人脸表情的跟踪方法的步骤，因此上述人脸表情的跟踪方法的所有实施例均适用于该计算机可读存储介质，且均能达到相同或相似的有益效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等) 执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以上内容是结合具体的优选实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施方式只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种人脸表情的跟踪方法，其特征在于，所述方法包括以下步骤：

获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量；

2.如权利要求1所述的方法，其特征在于，所述原始人脸数据集包括多个人脸的k张图像的图像数据，所述k张图像的图像数据包括多维参数，所述获取原始人脸数据集，通过多维度的奇异值算法对所述原始人脸数据集进行分解，生成核心张量的步骤具体包括：

获取预设的人脸图像数据库中所述多个人脸的k张图像的图像数据，其中，K为大于1的自然数；

通过所述多维度的奇异值算法对与所述k张图像的图像数据对应的多维参数进行分解，得到所述核心张量。

3.如权利要求2所述的方法，其特征在于，所述多维参数包括网格顶点、人脸表情及个体形状，所述通过所述多维度的奇异值算法对与所述k张图像的图像数据对应的多维参数进行分解，得到所述核心张量的步骤具体包括：

将所述k张图像的图像数据进行旋转；

保持所述网格顶点不变，通过所述多维度的奇异值算法对所述人脸表情及所述个体形状进行降序分解，得到对应的个体形状系数及人脸表情系数；

对所述原始人脸数据集、个体形状系数及人脸表情系数做积，得到所述核心张量。

4.如权利要求3所述的方法，其特征在于，所述人脸图像包括不同姿态的人脸图像，所述采集人脸图像中的特征点数据，结合所述核心张量进行计算，得到对应的目标人脸形状系数及目标内参矩阵的步骤具体包括：

拍摄多张所述姿态不同的人脸图像；

对拍摄到的所述姿态不同的人脸图像分别进行特征点数据检测，所述特征点数据包括特征点坐标；

预设内参矩阵，将所述核心张量在所述人脸表情的维度上进行展开得到表情形状基，并结合所述特征点数据的重投影误差最小化构建对应的目标人脸形状系数；

通过最小化能量算法结合所述特征点坐标、表情形状基、目标人脸形状系数进行计算，得到目标内参矩阵。

5.如权利要求3所述的方法，其特征在于，所述对当前人脸图像的每帧图像进行跟踪，采集当前图像帧中的特征点数据及头部动作数据，将所述当前图像帧中的特征点数据及头部动作数据分别与前面连续帧做加权处理的步骤包括：

检测当前人脸图像，并对所述当前人脸图像进行持续跟踪；

确定当前图像帧中与所述当前人脸图像对应的人脸区域，对所述人脸区域内的人脸图像的特征点数据及头部动作数据进行采集；

将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权，并对所述人脸表情系数进行约束。

6.如权利要求5所述的方法，其特征在于，所述特征点数据包括特征点以及与所述特征点对应的像素坐标值，所述将当前图像帧中的特征点数据与前面连续帧中的特征点数据进行加权，将当前图像帧中的头部动作数据与前面连续帧中的头部动作数据进行加权的步骤具体包括：

获取当前图像帧及以及预设数量的前面连续帧中每帧对应的特征点以及与所述特征点对应的像素坐标值；

基于对应的图像帧中的像素坐标值以及权重进行加权计算。

7.如权利要求5所述的方法，其特征在于，所述将所述人脸表情系数迁移到目标模型的步骤具体包括：

预先对任意一个所述目标模型构造预设数量的表情模型，所述表情模型中包括表情形状基；

基于所述优化后的当前人脸表情系数、表情形状基计算得到目标模型的迁移后对应的顶点；

基于所述迁移后的顶点生成目标模型。

8.一种人脸表情的跟踪装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的人脸表情的跟踪方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的人脸表情的跟踪方法中的步骤。