CN111723756B - 基于自监督和半监督学习的面部特征点跟踪方法 - Google Patents

基于自监督和半监督学习的面部特征点跟踪方法 Download PDF

Info

Publication number
CN111723756B
CN111723756B CN202010589060.7A CN202010589060A CN111723756B CN 111723756 B CN111723756 B CN 111723756B CN 202010589060 A CN202010589060 A CN 202010589060A CN 111723756 B CN111723756 B CN 111723756B
Authority
CN
China
Prior art keywords
frame
nth
new
unmarked
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010589060.7A
Other languages
English (en)
Other versions
CN111723756A (zh
Inventor
王上飞
殷实
王海涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010589060.7A priority Critical patent/CN111723756B/zh
Publication of CN111723756A publication Critical patent/CN111723756A/zh
Application granted granted Critical
Publication of CN111723756B publication Critical patent/CN111723756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自监督和半监督学习的面部特征点跟踪方法,其步骤包括:1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理;2、构建并初始化特征点跟踪器fG(·);3、在无标注数据上对跟踪器fG(·)进行自监督训练;4、在有标注和无标注数据上对跟踪器fG(·)进行半监督训练;5、利用训练好的跟踪器对待测人脸视频进行预测,实现人脸特征点的跟踪。本发明能高精度地定位人脸特征点,从而能高质量地实现人脸表情和姿态识别等相关应用。

Description

基于自监督和半监督学习的面部特征点跟踪方法
技术领域
本发明涉及深度学习和计算机视觉领域,为一种面部特征点跟踪技术,属于面部分析类技术。
背景技术
在目前几乎所有的人脸分析任务(人脸识别、人脸表情分类、人脸动作单元识别、人脸验证)中,面部特征点的自动定位都扮演了重要角色。根据处理对象的不同,特征点定位可以分为静态图像上的特征点检测以及动态视频流中的特征点跟踪两大任务。
现有的基于深度学习的人脸特征点定位方法,主要可以分为两类:1.基于全监督学习的方法;2.基于半监督学习的方法。其中全监督学习是利用人工标注的数据产生监督信号,训练得到检测器/跟踪器。这种方法需要大量完整标注的训练数据。然而,标注过程是非常耗力耗时。即使是一分钟30帧、每帧68个特征点的短视频片段,也会有122400个特征点需要标注。如此大的工作量决定了标注数据十分有限,这限制了跟踪器的性能。因此,有必要探索一种减少标注数据依赖的学习方法。为了减少对标注数据的依赖,一些半监督检测特征点的方法被提了出来。但是这些方法侧重于图像级的特征点检测,忽略了视频中的时序信息。此外,这类方法往往需要额外的人脸属性(例如人脸五官的检测框)来训练检测器,而这些属性不容易获得,使得利用大规模无标注数据训练检测器变得很困难,限制了这类方法的适用范围。
发明内容
为了克服上述现有技术中的缺陷,本发明提供一种基于自监督和半监督学习的面部特征点跟踪方法,以期能充分利用无标注视频数据训练跟踪器,提升跟踪器的跟踪精度,从而高质量地实现人脸表情和姿态识别等相关应用。
为实现上述目的,本发明采用以下技术方案,包括:
本发明一种基于自监督和半监督学习的面部特征点跟踪方法的特点包括如下步骤:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将所述第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧
Figure GDA0003701166850000011
进而得到新的M个标注帧,并记为
Figure GDA0003701166850000021
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第n个无标注帧
Figure GDA0003701166850000022
进而得到新的N个无标注帧,并记为
Figure GDA0003701166850000023
步骤1.3、由所述新的M个标注帧
Figure GDA0003701166850000024
和新的N个无标注帧
Figure GDA0003701166850000025
构成新的人脸视频,记为I1:M+N=(I1,I2,...,It,...,IM+N),It表示人脸视频的第t帧;1≤t≤M+N;
步骤2、构建并初始化特征点跟踪器fG(·):
所述特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义所述特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR
令所述特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;
所述第t帧人脸视频It经过所述特征提取器fE(·)得到第t个特征向量,记为ft
令所述回归器fR(·)由Q层LSTM网络构成;
所述第t个特征向量ft作为所述回归器fR(·)的第t个时间步的输入,由所述回归器fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
所述特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;
步骤3、在新的N个无标注帧
Figure GDA0003701166850000026
上对所述特征点跟踪器fG(·)进行自监督训练:
步骤3.1、将新的N个无标注帧
Figure GDA0003701166850000027
输入所述特征提取器fE(·)中,得到无标注特征
Figure GDA0003701166850000028
Figure GDA0003701166850000029
表示第n个无标注特征;
步骤3.2、将新的N个无标注帧
Figure GDA00037011668500000210
随机洗牌,得到洗牌结果记为
Figure GDA00037011668500000211
其中,gS(·)表示洗牌操作,将洗牌结果
Figure GDA00037011668500000212
输入所述特征提取器fE(·)中,得到洗牌特征
Figure GDA00037011668500000213
Figure GDA00037011668500000214
表示第n个洗牌特征;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;
定义神经网络分类器义fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征
Figure GDA00037011668500000215
和洗牌特征
Figure GDA00037011668500000216
依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征
Figure GDA0003701166850000031
分类为“0”,将洗牌特征
Figure GDA0003701166850000032
分类为“1”:
Figure GDA0003701166850000033
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对所述特征点跟踪器fG(·)进行半监督训练:
步骤4.1、将所述新的M个标注帧
Figure GDA0003701166850000034
输入所述特征点跟踪器fG(·)中,并利用式(2)训练所述特征点跟踪器fG(·):
Figure GDA0003701166850000035
式(2)中,
Figure GDA0003701166850000036
表示新的第m个标注帧
Figure GDA0003701166850000037
的跟踪结果,
Figure GDA0003701166850000038
表示第m个标注帧
Figure GDA0003701166850000039
的特征点标注;LS表示标签回归误差,并作为自监督学习的损失函数;
步骤4.2、利用所述特征点跟踪器fG(·)分别从正、逆两个方向跟踪新的N个无标注帧
Figure GDA00037011668500000310
上,并利用两个方向上跟踪结果的误差作为损失函数并用于训练所述特征点跟踪器fG(·);
步骤4.3、利用所述特征点跟踪器fG(·)分别跟踪新的N个无标注帧
Figure GDA00037011668500000311
及其扰动序列,并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练所述特征点跟踪器fG(·),从而得到训练好的跟踪器
Figure GDA00037011668500000312
用于实现人脸特征点的跟踪。
本发明所述的面部特征点跟踪方法的特点也在于,所述步骤4.2是按如下过程进行:
步骤4.2.1、所述特征点跟踪器fG(·)按照正序对新的N个无标注帧
Figure GDA00037011668500000313
进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为
Figure GDA00037011668500000314
对新的第n个无标注帧
Figure GDA00037011668500000315
的特征点跟踪是利用第n个无标注帧
Figure GDA00037011668500000316
和第n个无标注帧
Figure GDA00037011668500000317
之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、所述特征点跟踪器fG(·)按照逆序对新的N个无标注帧
Figure GDA00037011668500000318
进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为
Figure GDA00037011668500000319
对新的第n个无标注帧
Figure GDA00037011668500000320
的特征点跟踪是利用第n个无标注帧
Figure GDA00037011668500000321
和第n个无标注帧
Figure GDA00037011668500000322
之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练所述特征点跟踪器fG(·):
Figure GDA00037011668500000323
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数。
所述步骤4.3是按如下过程进行:
步骤4.3.1、利用纹理扰动gte(·)和空间变换gtr(·)生成扰动序列
Figure GDA0003701166850000041
其中,
Figure GDA0003701166850000042
表示第n个扰动帧;所述空间变换gtr(·)包括平移、旋转和缩放操作;
利用式(4)构建空间变换gtr(·)的约束条件:
Figure GDA0003701166850000043
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;
步骤4.3.2、所述特征点跟踪器fG(·)跟踪新的第n个无标注帧
Figure GDA0003701166850000044
的跟踪结果记为
Figure GDA0003701166850000045
Figure GDA0003701166850000046
表示新的第n个无标注帧
Figure GDA0003701166850000047
和第n个无标注帧
Figure GDA0003701166850000048
之前的所有帧;
步骤4.3.3、所述特征点跟踪器fG(·)跟踪扰动序列第n帧的结果记为
Figure GDA0003701166850000049
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
Figure GDA00037011668500000410
式(5)中,
Figure GDA00037011668500000411
表示gtr(·)的逆变换,LD表示扰动回归误差,并作为半自监督学习的损失函数。
与已有技术相比,本发明的有益效果体现在:
1、本发明方法充分利用了无标注数据,突破了以往工作用标注数据产生监督信号的限制,克服了手工标注数据较少的困难,有效提升了跟踪器的跟踪精度;
2、本发明方法能同时捕捉人脸视频中的时空模式,而不是只考虑当前图像中的空间模式;相较于现有的半监督方法,可以更有效地利用视频流中的时序信息,因而跟踪器具有更好的时序分析能力,能在充满扰动的成像环境中达到稳定、精准的跟踪效果;
3、经本发明方法训练得到的特征点跟踪器,能提供准确的特征点定位,从而进一步提升了人脸表情识别、姿态识别等特征点相关应用的技术水平和性能表现。
附图说明
图1为本发明方法流程示意图;
图2为本发明模型结构图;
图3a为本发明原图;
图3b为本发明施加了黑色遮挡的扰动操作后的图片;
图3c为本发明施加了同域遮挡的扰动操作后的图片;
图3d为本发明施加了高斯模糊的扰动操作后的图片;
图3e为本发明施加了高斯噪声的扰动操作后的图片;
图3f为本发明施加了椒盐噪声的扰动操作后的图片;
图3h为本发明施加了随机光源的扰动操作后的图片;
图3g是为本发明方法生成的光源图片。
具体实施方式
如图1和图2所示,一种基于自监督和半监督学习的面部特征点跟踪方法的实施步骤如下:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧
Figure GDA0003701166850000051
进而得到新的M个标注帧,并记为
Figure GDA0003701166850000052
Figure GDA0003701166850000053
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩为L,从而将放缩后的人脸框内图像作为新的第n个无标注帧
Figure GDA0003701166850000054
进而得到新的N个无标注帧,并记为
Figure GDA0003701166850000055
1≤n≤N;本实施例中,步骤1.1和1.2中L均设置为256;
步骤1.3、由新的M个标注帧
Figure GDA0003701166850000056
和新的N个无标注帧
Figure GDA0003701166850000057
构成新的人脸视频,记为I1:M+N=(I1,I2,...,It,...,IM+N),It表示人脸视频的第t帧;1≤t≤M+N;
步骤2、构建并初始化特征点跟踪器fG(·):
特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR
令特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;本实施例中,S设置为1,卷积核尺寸为7×7,核数为64,步长为2,每个卷积层其后均接入一个实例正则化层和ReLU激活函数;R设置为4;Z设置为2,卷积核尺寸为4×4,核数为128,步长为4,每个卷积层其后均接入一个实例正则化层和ReLU激活函数;池化核尺寸为2×2,步长为2;
第t帧人脸视频It经过特征提取器fE(·)得到第t个特征向量,记为ft
令回归器fR(·)由Q层LSTM网络构成;本实施例中,Q设置为2,LSTM第一层网络隐层大小为128,第二层网络的隐层大小为136,LSTM采用Sigmoid激活函数
第t个特征向量ft作为回归器fR(·)的第t个时间步的输入,由fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;本实施例中,各参数均使用服从N(0,0.02)的高斯分布进行权值初始化;
步骤3、在新的N个无标注帧
Figure GDA0003701166850000061
上对特征点跟踪器fG(·)进行自监督训练:
步骤3.1、将新的N个无标注帧
Figure GDA0003701166850000062
输入特征提取器fE(·)中,得到无标注特征
Figure GDA0003701166850000063
Figure GDA0003701166850000064
表示第n个无标注特征;
步骤3.2、将新的N个无标注帧
Figure GDA0003701166850000065
随机洗牌,得到洗牌结果记为
Figure GDA0003701166850000066
其中,gS(·)表示洗牌操作,将洗牌结果
Figure GDA0003701166850000067
输入特征提取器fE(·)中,得到洗牌特征
Figure GDA0003701166850000068
Figure GDA0003701166850000069
表示第n个洗牌特征;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;本实施例中,L设置为2。其中第一层LSTM隐层大小为128,第二层LSTM的隐层大小为64,LSTM采用Sigmoid激活函数。P设置为1。全连接网络输入节点数为64,输出节点数为1;
定义神经网络分类器义fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征
Figure GDA00037011668500000610
和洗牌特征
Figure GDA00037011668500000611
依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征
Figure GDA00037011668500000612
分类为“0”,将洗牌特征
Figure GDA00037011668500000613
分类为“1”:
Figure GDA00037011668500000614
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;其中σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对特征点跟踪器fG(·)进行半监督训练:
步骤4.1、将新的M个标注帧
Figure GDA0003701166850000071
输入特征点跟踪器fG(·)中,并利用式(2)训练特征点跟踪器fG(·):
Figure GDA0003701166850000072
式(2)中,
Figure GDA0003701166850000073
表示新的第m个标注帧
Figure GDA0003701166850000074
的跟踪结果,
Figure GDA0003701166850000075
表示
Figure GDA0003701166850000076
的特征点标注。LS表示标签回归误差,并作为自监督学习的损失函数;
步骤4.2、利用特征点跟踪器fG(·)分别从正、逆两个方向跟踪新的N个无标注帧
Figure GDA0003701166850000077
上,并利用两个方向上跟踪结果的误差作为损失函数并用于训练特征点跟踪器fG(·):
步骤4.2.1、特征点跟踪器fG(·)按照正序对新的N个无标注帧
Figure GDA0003701166850000078
进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为
Figure GDA0003701166850000079
对新的第n个无标注帧
Figure GDA00037011668500000710
的特征点跟踪是利用第n个无标注帧
Figure GDA00037011668500000711
和第n个无标注帧
Figure GDA00037011668500000712
之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、特征点跟踪器fG(·)按照逆序对新的N个无标注帧
Figure GDA00037011668500000713
进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为
Figure GDA00037011668500000714
对新的第n个无标注帧
Figure GDA00037011668500000715
的特征点跟踪是利用第n个无标注帧
Figure GDA00037011668500000716
和第n个无标注帧
Figure GDA00037011668500000717
之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练特征点跟踪器fG(·):
Figure GDA00037011668500000718
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数;
步骤4.3、利用特征点跟踪器fG(·)分别跟踪新的N个无标注帧
Figure GDA00037011668500000719
及其扰动序列,并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练特征点跟踪器fG(·),从而得到训练好的跟踪器
Figure GDA00037011668500000720
用于实现人脸特征点的跟踪:
步骤4.3.1、利用纹理扰动gte(·)和空间变换gtr(·)生成扰动序列
Figure GDA00037011668500000721
其中,
Figure GDA00037011668500000722
表示第n个扰动帧;纹理扰动包括遮挡、模糊、噪声和光照变化。图3a所示为本实施例的一张原图。在本实施例中采用了两种形式的遮挡。第一种是黑色遮挡,将大小为D×D像素的黑色正方块随机叠加在人脸区域的某个位置,如图3b所示。第二种为同域遮挡,从人脸一个随机位置截取大小为D×D像素的图块,随机叠加到另一位置,如图3c所示。其中D采样自服从N(32,0.0)的高斯分布。在本实施例中,图像模糊采取高斯模糊方式,如图3d所示。本实施例采取两类噪声,高斯噪声(如图3e所示)和椒盐噪声(如图3f所示)。其中高斯噪声产生于N(0.0,0.01)的高斯分布;椒盐噪声通过随机(概率为0.3)将某个图像像素替换为黑色像素点实现。本实施例采取将静态光源图片(如图3g所示)和原始图片叠加的方式产生光照变化(如图3h所示);
利用式(4)构建空间变换gtr(·)的约束条件:
Figure GDA0003701166850000081
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;在本实施例中,它们分别被设置为0.03,0.02和0.02;
步骤4.3.2、所述特征点跟踪器fG(·)跟踪新的第n个无标注帧
Figure GDA0003701166850000082
的跟踪结果记为
Figure GDA0003701166850000083
Figure GDA0003701166850000084
表示新的第n个无标注帧
Figure GDA0003701166850000085
和第n个无标注帧
Figure GDA0003701166850000086
之前的所有帧;
步骤4.3.3、特征点跟踪器fG(·)跟踪扰动序列第n帧的结果记为
Figure GDA0003701166850000087
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
Figure GDA0003701166850000088
式(5)中,
Figure GDA0003701166850000089
表示gtr(·)的逆变换,LD表示扰动回归误差,并作为半自监督学习的损失函数;
步骤5、利用训练好的跟踪器对待测人脸视频进行预测,从而实现人脸特征点的跟踪:
为了验证所提出的方法,本发明方法在标注了特征点的视频数据集300VW和TF上进行了实验。跟踪器在300VW训练集上进行训练,在300VW的三个测试集300VW S1,S2,S3和TF上进行测试。其中在300VW上使用了全部68个预定义特征点,在TF上使用了与300VW具有相同定义的7个特征点。在训练时,只保留一部分比例(γ)的标注数据,对其他数据去除标注,变成无标注数据。在训练数据上得到的跟踪器的跟踪误差NRMSE在表1中列出。“/”左侧是在标注数据上采用传统全监督学习的结果,而其右侧是本发明提出的自监督+半监督学习得到跟踪器的实验结果:
表1跟踪器在不同比例(γ)标注数据下的跟踪误差(NRMSE)
Figure GDA0003701166850000091
由表1看出,本发明提出的方法能在不同的γ下大幅降低跟踪误差,这意味着跟踪精度的提升。当标注数据越少时,性能提升越显著。这是因为传统全监督学习只能利用有标注数据,当有标注数据量有限时,深度网络往往难以产生很好的泛化性能;而本发明方法充分利用了无标注数据上的时空信息,拓宽了跟踪器训练的数据来源,提升了其泛化性能。

Claims (3)

1.一种基于自监督和半监督学习的面部特征点跟踪方法,其特征包括如下步骤:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将所述第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧
Figure FDA0003696592130000011
进而得到新的M个标注帧,并记为
Figure FDA0003696592130000012
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第n个无标注帧
Figure FDA0003696592130000013
进而得到新的N个无标注帧,并记为
Figure FDA0003696592130000014
步骤1.3、由所述新的M个标注帧
Figure FDA0003696592130000015
和新的N个无标注帧
Figure FDA0003696592130000016
构成新的人脸视频,记为I1:M+N=(I1,I2,...,It,...,IM+N),It表示人脸视频的第t帧;1≤t≤M+N;
步骤2、构建并初始化特征点跟踪器fG(·):
所述特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义所述特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR
令所述特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;
所述第t帧人脸视频It经过所述特征提取器fE(·)得到第t个特征向量,记为ft
令所述回归器fR(·)由Q层LSTM网络构成;
所述第t个特征向量ft作为所述回归器fR(·)的第t个时间步的输入,由所述回归器fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
所述特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;
步骤3、在新的N个无标注帧
Figure FDA0003696592130000017
上对所述特征点跟踪器fG(·)进行自监督训练:
步骤3.1、将新的N个无标注帧
Figure FDA0003696592130000018
输入所述特征提取器fE(·)中,得到无标注特征
Figure FDA0003696592130000019
Figure FDA00036965921300000110
表示第n个无标注特征;
步骤3.2、将新的N个无标注帧
Figure FDA00036965921300000111
随机洗牌,得到洗牌结果记为
Figure FDA00036965921300000112
其中,gS(·)表示洗牌操作,将洗牌结果
Figure FDA00036965921300000113
输入所述特征提取器fE(·)中,得到洗牌特征
Figure FDA00036965921300000114
Figure FDA00036965921300000115
表示第n个洗牌特征;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;
定义神经网络分类器fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征
Figure FDA0003696592130000021
和洗牌特征
Figure FDA0003696592130000022
依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征
Figure FDA0003696592130000023
分类为“0”,将洗牌特征
Figure FDA0003696592130000024
分类为“1”:
Figure FDA0003696592130000025
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对所述特征点跟踪器fG(·)进行半监督训练:
步骤4.1、将所述新的M个标注帧
Figure FDA0003696592130000026
输入所述特征点跟踪器fG(·)中,并利用式(2)训练所述特征点跟踪器fG(·):
Figure FDA0003696592130000027
式(2)中,
Figure FDA0003696592130000028
表示新的第m个标注帧
Figure FDA0003696592130000029
的跟踪结果,
Figure FDA00036965921300000210
表示第m个标注帧
Figure FDA00036965921300000211
的特征点标注;LS表示标签回归误差;
步骤4.2、利用所述特征点跟踪器fG(·)分别从正、逆两个方向跟踪新的N个无标注帧
Figure FDA00036965921300000212
并利用两个方向上跟踪结果的误差作为损失函数并用于训练所述特征点跟踪器fG(·);
步骤4.3、利用所述特征点跟踪器fG(·)分别跟踪新的N个无标注帧
Figure FDA00036965921300000213
及其扰动序列,并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练所述特征点跟踪器fG(·),从而得到训练好的跟踪器
Figure FDA00036965921300000214
用于实现人脸特征点的跟踪。
2.根据权利要求1所述的面部特征点跟踪方法,其特征是,所述步骤4.2是按如下过程进行:
步骤4.2.1、所述特征点跟踪器fG(·)按照正序对新的N个无标注帧
Figure FDA00036965921300000215
进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为
Figure FDA00036965921300000216
对新的第n个无标注帧
Figure FDA00036965921300000217
的特征点跟踪是利用第n个无标注帧
Figure FDA00036965921300000218
和第n个无标注帧
Figure FDA00036965921300000219
之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、所述特征点跟踪器fG(·)按照逆序对新的N个无标注帧
Figure FDA00036965921300000220
进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为
Figure FDA00036965921300000221
对新的第n个无标注帧
Figure FDA00036965921300000222
的特征点跟踪是利用第n个无标注帧
Figure FDA0003696592130000031
和第n个无标注帧
Figure FDA0003696592130000032
之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练所述特征点跟踪器fG(·):
Figure FDA0003696592130000033
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数。
3.根据权利要求1所述的面部特征点跟踪方法,其特征是,所述步骤4.3是按如下过程进行:
步骤4.3.1、利用纹理扰动gte(·)和空间变换gtr(·)生成扰动序列
Figure FDA0003696592130000034
其中,
Figure FDA0003696592130000035
表示第n个扰动帧;所述空间变换gtr(·)包括平移、旋转和缩放操作;
利用式(4)构建空间变换gtr(·)的约束条件:
Figure FDA0003696592130000036
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;
步骤4.3.2、所述特征点跟踪器fG(·)跟踪新的第n个无标注帧
Figure FDA0003696592130000037
的跟踪结果记为
Figure FDA0003696592130000038
表示新的第n个无标注帧
Figure FDA0003696592130000039
和第n个无标注帧
Figure FDA00036965921300000310
之前的所有帧;
步骤4.3.3、所述特征点跟踪器fG(·)跟踪扰动序列第n帧的结果记为
Figure FDA00036965921300000311
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
Figure FDA00036965921300000312
式(5)中,
Figure FDA00036965921300000313
表示gtr(·)的逆变换,LD表示扰动回归误差。
CN202010589060.7A 2020-06-24 2020-06-24 基于自监督和半监督学习的面部特征点跟踪方法 Active CN111723756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010589060.7A CN111723756B (zh) 2020-06-24 2020-06-24 基于自监督和半监督学习的面部特征点跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010589060.7A CN111723756B (zh) 2020-06-24 2020-06-24 基于自监督和半监督学习的面部特征点跟踪方法

Publications (2)

Publication Number Publication Date
CN111723756A CN111723756A (zh) 2020-09-29
CN111723756B true CN111723756B (zh) 2022-09-06

Family

ID=72568834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010589060.7A Active CN111723756B (zh) 2020-06-24 2020-06-24 基于自监督和半监督学习的面部特征点跟踪方法

Country Status (1)

Country Link
CN (1) CN111723756B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095128B (zh) * 2021-03-01 2023-09-19 西安电子科技大学 基于k最远交叉一致性正则化的半监督时序行为定位方法
CN112820322B (zh) * 2021-03-18 2022-12-23 中国科学院声学研究所 一种基于自监督对比学习的半监督音频事件标注方法
CN113378673B (zh) * 2021-05-31 2022-09-06 中国科学技术大学 一种基于一致性正则化的半监督脑电信号分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472533A (zh) * 2019-07-31 2019-11-19 北京理工大学 一种基于半监督训练的人脸识别方法
CN111080511A (zh) * 2019-11-18 2020-04-28 杭州时光坐标影视传媒股份有限公司 一种端到端的高分辨率多特征提取的人脸交换方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9483838B2 (en) * 2014-04-24 2016-11-01 Xerox Corporation Method and system for automated sequencing of vehicles in side-by-side drive-thru configurations via appearance-based classification
CN105913487B (zh) * 2016-04-09 2018-07-06 北京航空航天大学 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472533A (zh) * 2019-07-31 2019-11-19 北京理工大学 一种基于半监督训练的人脸识别方法
CN111080511A (zh) * 2019-11-18 2020-04-28 杭州时光坐标影视传媒股份有限公司 一种端到端的高分辨率多特征提取的人脸交换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Shuffle and learning:unsupervised learning using temporal order verification;lshan misra et al.;《arxiv》;20160726;第1-21页 *
Supervision-by-registration:an unsupervised approach to improve the precision of facial landmark detectors;xuanyi dong et al.;《the computer vision foundation》;20181231;第1-9页 *
视频监测中的驾驶人面部特征点跟踪;郭克友等;《计算机工程与应用》;20100517;第202-219页 *

Also Published As

Publication number Publication date
CN111723756A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
Shen et al. Human-aware motion deblurring
Majd et al. Correlational convolutional LSTM for human action recognition
Wang et al. Video salient object detection via fully convolutional networks
Chung et al. An efficient hand gesture recognition system based on deep CNN
CN111723756B (zh) 基于自监督和半监督学习的面部特征点跟踪方法
Liu et al. Denet: A universal network for counting crowd with varying densities and scales
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
Chen et al. Self-supervised vision transformer-based few-shot learning for facial expression recognition
Xue et al. ECANet: Explicit cyclic attention-based network for video saliency prediction
Chen et al. Video saliency prediction using enhanced spatiotemporal alignment network
Xu et al. Learning self-supervised space-time CNN for fast video style transfer
Zhang et al. Joint motion information extraction and human behavior recognition in video based on deep learning
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
Alawode et al. Utb180: A high-quality benchmark for underwater tracking
Cheng et al. Joint image enhancement learning for marine object detection in natural scene
Yao et al. Recurrent graph convolutional autoencoder for unsupervised skeleton-based action recognition
Yuan et al. Optical flow training under limited label budget via active learning
Zhou et al. Real-time underwater object detection technology for complex underwater environments based on deep learning
Gu et al. Vtst: Efficient visual tracking with a stereoscopic transformer
Aghelan et al. Underwater image super-resolution using generative adversarial network-based model
Fu et al. Distractor-aware event-based tracking
Zhang et al. Tobacco leaf segmentation based on improved mask RCNN algorithm and SAM model
Yang et al. Deep triply attention network for RGBT tracking
Luo et al. Infrared Road Object Detection Based on Improved YOLOv8.
Sun et al. Underwater Object Detection with Swin Transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant