CN111723756B

CN111723756B - 基于自监督和半监督学习的面部特征点跟踪方法

Info

Publication number: CN111723756B
Application number: CN202010589060.7A
Authority: CN
Inventors: 王上飞; 殷实; 王海涵
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-09-06
Anticipated expiration: 2040-06-24
Also published as: CN111723756A

Abstract

本发明公开了一种基于自监督和半监督学习的面部特征点跟踪方法，其步骤包括：1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理；2、构建并初始化特征点跟踪器f_G(·)；3、在无标注数据上对跟踪器f_G(·)进行自监督训练；4、在有标注和无标注数据上对跟踪器f_G(·)进行半监督训练；5、利用训练好的跟踪器对待测人脸视频进行预测，实现人脸特征点的跟踪。本发明能高精度地定位人脸特征点，从而能高质量地实现人脸表情和姿态识别等相关应用。

Description

基于自监督和半监督学习的面部特征点跟踪方法

技术领域

本发明涉及深度学习和计算机视觉领域，为一种面部特征点跟踪技术，属于面部分析类技术。

背景技术

在目前几乎所有的人脸分析任务(人脸识别、人脸表情分类、人脸动作单元识别、人脸验证)中，面部特征点的自动定位都扮演了重要角色。根据处理对象的不同，特征点定位可以分为静态图像上的特征点检测以及动态视频流中的特征点跟踪两大任务。

现有的基于深度学习的人脸特征点定位方法，主要可以分为两类：1.基于全监督学习的方法；2.基于半监督学习的方法。其中全监督学习是利用人工标注的数据产生监督信号，训练得到检测器/跟踪器。这种方法需要大量完整标注的训练数据。然而，标注过程是非常耗力耗时。即使是一分钟30帧、每帧68个特征点的短视频片段，也会有122400个特征点需要标注。如此大的工作量决定了标注数据十分有限，这限制了跟踪器的性能。因此，有必要探索一种减少标注数据依赖的学习方法。为了减少对标注数据的依赖，一些半监督检测特征点的方法被提了出来。但是这些方法侧重于图像级的特征点检测，忽略了视频中的时序信息。此外，这类方法往往需要额外的人脸属性(例如人脸五官的检测框)来训练检测器，而这些属性不容易获得，使得利用大规模无标注数据训练检测器变得很困难，限制了这类方法的适用范围。

发明内容

为了克服上述现有技术中的缺陷，本发明提供一种基于自监督和半监督学习的面部特征点跟踪方法，以期能充分利用无标注视频数据训练跟踪器，提升跟踪器的跟踪精度，从而高质量地实现人脸表情和姿态识别等相关应用。

为实现上述目的，本发明采用以下技术方案，包括：

本发明一种基于自监督和半监督学习的面部特征点跟踪方法的特点包括如下步骤：

步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理：

步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测，得到第m个人脸框，并将所述第m个人脸框的边长放缩到固定值L，从而将放缩后的人脸框内图像作为新的第m个标注帧

进而得到新的M个标注帧，并记为

步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测，得到第n个人脸框，并将第n个人脸框的边长放缩到固定值L，从而将放缩后的人脸框内图像作为新的第n个无标注帧

进而得到新的N个无标注帧，并记为

步骤1.3、由所述新的M个标注帧

和新的N个无标注帧

构成新的人脸视频，记为I_1:M+N＝(I₁,I₂,...,I_t,...,I_M+N)，I_t表示人脸视频的第t帧；1≤t≤M+N；

步骤2、构建并初始化特征点跟踪器f_G(·)：

所述特征点跟踪器f_G(·)由特征提取器f_E(·)和回归器f_R(·)构成；

定义所述特征点跟踪器f_G(·)，特征提取器f_E(·)和回归器f_R(·)的参数集合分别表示为θ_G，θ_E和θ_R，且θ_G＝θ_E∪θ_R；

令所述特征提取器f_E(·)由S个卷积层、R个沙漏网络，Z个卷积和池化层依次级联构成；

所述第t帧人脸视频I_t经过所述特征提取器f_E(·)得到第t个特征向量，记为f_t；

令所述回归器f_R(·)由Q层LSTM网络构成；

所述第t个特征向量f_t作为所述回归器f_R(·)的第t个时间步的输入，由所述回归器f_R(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值；

所述特征点跟踪器f_G(·)中神经网络的各个参数均采用高斯采样方式初始化；

步骤3、在新的N个无标注帧

上对所述特征点跟踪器f_G(·)进行自监督训练：

步骤3.1、将新的N个无标注帧

输入所述特征提取器f_E(·)中，得到无标注特征

表示第n个无标注特征；

步骤3.2、将新的N个无标注帧

随机洗牌，得到洗牌结果记为

其中，g_S(·)表示洗牌操作，将洗牌结果

输入所述特征提取器f_E(·)中，得到洗牌特征

表示第n个洗牌特征；

步骤3.3、令神经网络分类器f_C(·)由H层LSTM网络和P层全连接网络级联构成，其中，H层LSTM网络输出的各隐层取平均后作为全连接网络的输入；

定义神经网络分类器义f_C(·)包含的参数集合由θ_C表示；

步骤3.4、将所述无标注特征

和洗牌特征

依次输入所述神经网络分类器f_C(·)中，利用式(1)训练所述神经网络分类器f_C(·)，并将误差反向传播训练特征提取器f_E(·)，从而将所述无标注特征

分类为“0”，将洗牌特征

分类为“1”：

式(1)中，L_C表示分类误差，并作为自监督学习的损失函数；σ(·)表示Sigmoid函数；

步骤4、在有标注和无标注数据上对所述特征点跟踪器f_G(·)进行半监督训练：

步骤4.1、将所述新的M个标注帧

输入所述特征点跟踪器f_G(·)中，并利用式(2)训练所述特征点跟踪器f_G(·)：

式(2)中，

表示新的第m个标注帧

的跟踪结果，

表示第m个标注帧

的特征点标注；L_S表示标签回归误差，并作为自监督学习的损失函数；

步骤4.2、利用所述特征点跟踪器f_G(·)分别从正、逆两个方向跟踪新的N个无标注帧

上，并利用两个方向上跟踪结果的误差作为损失函数并用于训练所述特征点跟踪器f_G(·)；

步骤4.3、利用所述特征点跟踪器f_G(·)分别跟踪新的N个无标注帧

及其扰动序列，并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练所述特征点跟踪器f_G(·)，从而得到训练好的跟踪器

用于实现人脸特征点的跟踪。

本发明所述的面部特征点跟踪方法的特点也在于，所述步骤4.2是按如下过程进行：

步骤4.2.1、所述特征点跟踪器f_G(·)按照正序对新的N个无标注帧

进行特征点跟踪，得到新的第n个无标注帧的正序跟踪结果表示为

对新的第n个无标注帧

的特征点跟踪是利用第n个无标注帧

和第n个无标注帧

之前的所有帧来定位第n个帧上的特征点；

步骤4.2.2、所述特征点跟踪器f_G(·)按照逆序对新的N个无标注帧

进行特征点跟踪，得到新的第n个无标注帧的逆序跟踪结果表示为

对新的第n个无标注帧

的特征点跟踪是利用第n个无标注帧

和第n个无标注帧

之后的所有帧来定位第n个帧上的特征点；

步骤4.2.3、利用式(3)来训练所述特征点跟踪器f_G(·)：

式(3)中，L_I表示逆序回归误差，并作为自监督学习的损失函数。

所述步骤4.3是按如下过程进行：

步骤4.3.1、利用纹理扰动g_te(·)和空间变换g_tr(·)生成扰动序列

其中，

表示第n个扰动帧；所述空间变换g_tr(·)包括平移、旋转和缩放操作；

利用式(4)构建空间变换g_tr(·)的约束条件：

式(4)中，Δ_n表示第n帧的平移量，θ_n表示第n帧的旋转量、r_n表示第n帧的缩放因子，α，β和γ为平滑参数；

步骤4.3.2、所述特征点跟踪器f_G(·)跟踪新的第n个无标注帧

的跟踪结果记为

表示新的第n个无标注帧

和第n个无标注帧

之前的所有帧；

步骤4.3.3、所述特征点跟踪器f_G(·)跟踪扰动序列第n帧的结果记为

步骤4.3.4、利用式(5)训练所述特征点跟踪器f_G(·)：

式(5)中，

表示g_tr(·)的逆变换，L_D表示扰动回归误差，并作为半自监督学习的损失函数。

与已有技术相比，本发明的有益效果体现在：

1、本发明方法充分利用了无标注数据，突破了以往工作用标注数据产生监督信号的限制，克服了手工标注数据较少的困难，有效提升了跟踪器的跟踪精度；

2、本发明方法能同时捕捉人脸视频中的时空模式，而不是只考虑当前图像中的空间模式；相较于现有的半监督方法，可以更有效地利用视频流中的时序信息，因而跟踪器具有更好的时序分析能力，能在充满扰动的成像环境中达到稳定、精准的跟踪效果；

3、经本发明方法训练得到的特征点跟踪器，能提供准确的特征点定位，从而进一步提升了人脸表情识别、姿态识别等特征点相关应用的技术水平和性能表现。

附图说明

图1为本发明方法流程示意图；

图2为本发明模型结构图；

图3a为本发明原图；

图3b为本发明施加了黑色遮挡的扰动操作后的图片；

图3c为本发明施加了同域遮挡的扰动操作后的图片；

图3d为本发明施加了高斯模糊的扰动操作后的图片；

图3e为本发明施加了高斯噪声的扰动操作后的图片；

图3f为本发明施加了椒盐噪声的扰动操作后的图片；

图3h为本发明施加了随机光源的扰动操作后的图片；

图3g是为本发明方法生成的光源图片。

具体实施方式

如图1和图2所示，一种基于自监督和半监督学习的面部特征点跟踪方法的实施步骤如下：

步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测，得到第m个人脸框，并将第m个人脸框的边长放缩到固定值L，从而将放缩后的人脸框内图像作为新的第m个标注帧

进而得到新的M个标注帧，并记为

步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测，得到第n个人脸框，并将第n个人脸框的边长放缩为L，从而将放缩后的人脸框内图像作为新的第n个无标注帧

进而得到新的N个无标注帧，并记为

1≤n≤N；本实施例中，步骤1.1和1.2中L均设置为256；

步骤1.3、由新的M个标注帧

和新的N个无标注帧

步骤2、构建并初始化特征点跟踪器f_G(·)：

特征点跟踪器f_G(·)由特征提取器f_E(·)和回归器f_R(·)构成；

定义特征点跟踪器f_G(·)，特征提取器f_E(·)和回归器f_R(·)的参数集合分别表示为θ_G，θ_E和θ_R，且θ_G＝θ_E∪θ_R；

令特征提取器f_E(·)由S个卷积层、R个沙漏网络，Z个卷积和池化层依次级联构成；本实施例中，S设置为1，卷积核尺寸为7×7，核数为64，步长为2，每个卷积层其后均接入一个实例正则化层和ReLU激活函数；R设置为4；Z设置为2，卷积核尺寸为4×4，核数为128，步长为4，每个卷积层其后均接入一个实例正则化层和ReLU激活函数；池化核尺寸为2×2，步长为2；

第t帧人脸视频I_t经过特征提取器f_E(·)得到第t个特征向量，记为f_t；

令回归器f_R(·)由Q层LSTM网络构成；本实施例中，Q设置为2，LSTM第一层网络隐层大小为128，第二层网络的隐层大小为136，LSTM采用Sigmoid激活函数

第t个特征向量f_t作为回归器f_R(·)的第t个时间步的输入，由f_R(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值；

特征点跟踪器f_G(·)中神经网络的各个参数均采用高斯采样方式初始化；本实施例中，各参数均使用服从N(0,0.02)的高斯分布进行权值初始化；

步骤3、在新的N个无标注帧

上对特征点跟踪器f_G(·)进行自监督训练：

步骤3.1、将新的N个无标注帧

输入特征提取器f_E(·)中，得到无标注特征

表示第n个无标注特征；

步骤3.2、将新的N个无标注帧

随机洗牌，得到洗牌结果记为

其中，g_S(·)表示洗牌操作，将洗牌结果

输入特征提取器f_E(·)中，得到洗牌特征

表示第n个洗牌特征；

步骤3.3、令神经网络分类器f_C(·)由H层LSTM网络和P层全连接网络级联构成，其中，H层LSTM网络输出的各隐层取平均后作为全连接网络的输入；本实施例中，L设置为2。其中第一层LSTM隐层大小为128，第二层LSTM的隐层大小为64，LSTM采用Sigmoid激活函数。P设置为1。全连接网络输入节点数为64，输出节点数为1；

定义神经网络分类器义f_C(·)包含的参数集合由θ_C表示；

步骤3.4、将所述无标注特征

和洗牌特征

分类为“0”，将洗牌特征

分类为“1”：

式(1)中，L_C表示分类误差，并作为自监督学习的损失函数；其中σ(·)表示Sigmoid函数；

步骤4、在有标注和无标注数据上对特征点跟踪器f_G(·)进行半监督训练：

步骤4.1、将新的M个标注帧

输入特征点跟踪器f_G(·)中，并利用式(2)训练特征点跟踪器f_G(·)：

式(2)中，

表示新的第m个标注帧

的跟踪结果，

表示

的特征点标注。L_S表示标签回归误差，并作为自监督学习的损失函数；

步骤4.2、利用特征点跟踪器f_G(·)分别从正、逆两个方向跟踪新的N个无标注帧

上，并利用两个方向上跟踪结果的误差作为损失函数并用于训练特征点跟踪器f_G(·)：

步骤4.2.1、特征点跟踪器f_G(·)按照正序对新的N个无标注帧

对新的第n个无标注帧

的特征点跟踪是利用第n个无标注帧

和第n个无标注帧

之前的所有帧来定位第n个帧上的特征点；

步骤4.2.2、特征点跟踪器f_G(·)按照逆序对新的N个无标注帧

对新的第n个无标注帧

的特征点跟踪是利用第n个无标注帧

和第n个无标注帧

之后的所有帧来定位第n个帧上的特征点；

步骤4.2.3、利用式(3)来训练特征点跟踪器f_G(·)：

式(3)中，L_I表示逆序回归误差，并作为自监督学习的损失函数；

步骤4.3、利用特征点跟踪器f_G(·)分别跟踪新的N个无标注帧

及其扰动序列，并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练特征点跟踪器f_G(·)，从而得到训练好的跟踪器

用于实现人脸特征点的跟踪：

其中，

表示第n个扰动帧；纹理扰动包括遮挡、模糊、噪声和光照变化。图3a所示为本实施例的一张原图。在本实施例中采用了两种形式的遮挡。第一种是黑色遮挡，将大小为D×D像素的黑色正方块随机叠加在人脸区域的某个位置，如图3b所示。第二种为同域遮挡，从人脸一个随机位置截取大小为D×D像素的图块，随机叠加到另一位置，如图3c所示。其中D采样自服从N(32,0.0)的高斯分布。在本实施例中，图像模糊采取高斯模糊方式，如图3d所示。本实施例采取两类噪声，高斯噪声(如图3e所示)和椒盐噪声(如图3f所示)。其中高斯噪声产生于N(0.0,0.01)的高斯分布；椒盐噪声通过随机(概率为0.3)将某个图像像素替换为黑色像素点实现。本实施例采取将静态光源图片(如图3g所示)和原始图片叠加的方式产生光照变化(如图3h所示)；

利用式(4)构建空间变换g_tr(·)的约束条件：

式(4)中，Δ_n表示第n帧的平移量，θ_n表示第n帧的旋转量、r_n表示第n帧的缩放因子，α，β和γ为平滑参数；在本实施例中，它们分别被设置为0.03,0.02和0.02；

步骤4.3.2、所述特征点跟踪器f_G(·)跟踪新的第n个无标注帧

的跟踪结果记为

表示新的第n个无标注帧

和第n个无标注帧

之前的所有帧；

步骤4.3.3、特征点跟踪器f_G(·)跟踪扰动序列第n帧的结果记为

步骤4.3.4、利用式(5)训练所述特征点跟踪器f_G(·)：

式(5)中，

表示g_tr(·)的逆变换，L_D表示扰动回归误差，并作为半自监督学习的损失函数；

步骤5、利用训练好的跟踪器对待测人脸视频进行预测，从而实现人脸特征点的跟踪：

为了验证所提出的方法，本发明方法在标注了特征点的视频数据集300VW和TF上进行了实验。跟踪器在300VW训练集上进行训练，在300VW的三个测试集300VW S1，S2,S3和TF上进行测试。其中在300VW上使用了全部68个预定义特征点，在TF上使用了与300VW具有相同定义的7个特征点。在训练时，只保留一部分比例(γ)的标注数据，对其他数据去除标注，变成无标注数据。在训练数据上得到的跟踪器的跟踪误差NRMSE在表1中列出。“/”左侧是在标注数据上采用传统全监督学习的结果，而其右侧是本发明提出的自监督+半监督学习得到跟踪器的实验结果：

表1跟踪器在不同比例(γ)标注数据下的跟踪误差(NRMSE)

由表1看出，本发明提出的方法能在不同的γ下大幅降低跟踪误差，这意味着跟踪精度的提升。当标注数据越少时，性能提升越显著。这是因为传统全监督学习只能利用有标注数据，当有标注数据量有限时，深度网络往往难以产生很好的泛化性能；而本发明方法充分利用了无标注数据上的时空信息，拓宽了跟踪器训练的数据来源，提升了其泛化性能。