CN111723756B - 基于自监督和半监督学习的面部特征点跟踪方法 - Google Patents
基于自监督和半监督学习的面部特征点跟踪方法 Download PDFInfo
- Publication number
- CN111723756B CN111723756B CN202010589060.7A CN202010589060A CN111723756B CN 111723756 B CN111723756 B CN 111723756B CN 202010589060 A CN202010589060 A CN 202010589060A CN 111723756 B CN111723756 B CN 111723756B
- Authority
- CN
- China
- Prior art keywords
- frame
- nth
- new
- unmarked
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000001815 facial effect Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 8
- 239000011541 reaction mixture Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000003094 perturbing effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000002566 Capsicum Nutrition 0.000 description 3
- 239000006002 Pepper Substances 0.000 description 3
- 241000722363 Piper Species 0.000 description 3
- 235000016761 Piper aduncum Nutrition 0.000 description 3
- 235000017804 Piper guineense Nutrition 0.000 description 3
- 235000008184 Piper nigrum Nutrition 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自监督和半监督学习的面部特征点跟踪方法,其步骤包括:1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理;2、构建并初始化特征点跟踪器fG(·);3、在无标注数据上对跟踪器fG(·)进行自监督训练;4、在有标注和无标注数据上对跟踪器fG(·)进行半监督训练;5、利用训练好的跟踪器对待测人脸视频进行预测,实现人脸特征点的跟踪。本发明能高精度地定位人脸特征点,从而能高质量地实现人脸表情和姿态识别等相关应用。
Description
技术领域
本发明涉及深度学习和计算机视觉领域,为一种面部特征点跟踪技术,属于面部分析类技术。
背景技术
在目前几乎所有的人脸分析任务(人脸识别、人脸表情分类、人脸动作单元识别、人脸验证)中,面部特征点的自动定位都扮演了重要角色。根据处理对象的不同,特征点定位可以分为静态图像上的特征点检测以及动态视频流中的特征点跟踪两大任务。
现有的基于深度学习的人脸特征点定位方法,主要可以分为两类:1.基于全监督学习的方法;2.基于半监督学习的方法。其中全监督学习是利用人工标注的数据产生监督信号,训练得到检测器/跟踪器。这种方法需要大量完整标注的训练数据。然而,标注过程是非常耗力耗时。即使是一分钟30帧、每帧68个特征点的短视频片段,也会有122400个特征点需要标注。如此大的工作量决定了标注数据十分有限,这限制了跟踪器的性能。因此,有必要探索一种减少标注数据依赖的学习方法。为了减少对标注数据的依赖,一些半监督检测特征点的方法被提了出来。但是这些方法侧重于图像级的特征点检测,忽略了视频中的时序信息。此外,这类方法往往需要额外的人脸属性(例如人脸五官的检测框)来训练检测器,而这些属性不容易获得,使得利用大规模无标注数据训练检测器变得很困难,限制了这类方法的适用范围。
发明内容
为了克服上述现有技术中的缺陷,本发明提供一种基于自监督和半监督学习的面部特征点跟踪方法,以期能充分利用无标注视频数据训练跟踪器,提升跟踪器的跟踪精度,从而高质量地实现人脸表情和姿态识别等相关应用。
为实现上述目的,本发明采用以下技术方案,包括:
本发明一种基于自监督和半监督学习的面部特征点跟踪方法的特点包括如下步骤:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将所述第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧进而得到新的M个标注帧,并记为
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第n个无标注帧进而得到新的N个无标注帧,并记为
步骤2、构建并初始化特征点跟踪器fG(·):
所述特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义所述特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR;
令所述特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;
所述第t帧人脸视频It经过所述特征提取器fE(·)得到第t个特征向量,记为ft;
令所述回归器fR(·)由Q层LSTM网络构成;
所述第t个特征向量ft作为所述回归器fR(·)的第t个时间步的输入,由所述回归器fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
所述特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;
定义神经网络分类器义fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征和洗牌特征依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征分类为“0”,将洗牌特征分类为“1”:
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对所述特征点跟踪器fG(·)进行半监督训练:
步骤4.3、利用所述特征点跟踪器fG(·)分别跟踪新的N个无标注帧及其扰动序列,并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练所述特征点跟踪器fG(·),从而得到训练好的跟踪器用于实现人脸特征点的跟踪。
本发明所述的面部特征点跟踪方法的特点也在于,所述步骤4.2是按如下过程进行:
步骤4.2.1、所述特征点跟踪器fG(·)按照正序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、所述特征点跟踪器fG(·)按照逆序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练所述特征点跟踪器fG(·):
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数。
所述步骤4.3是按如下过程进行:
利用式(4)构建空间变换gtr(·)的约束条件:
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
与已有技术相比,本发明的有益效果体现在:
1、本发明方法充分利用了无标注数据,突破了以往工作用标注数据产生监督信号的限制,克服了手工标注数据较少的困难,有效提升了跟踪器的跟踪精度;
2、本发明方法能同时捕捉人脸视频中的时空模式,而不是只考虑当前图像中的空间模式;相较于现有的半监督方法,可以更有效地利用视频流中的时序信息,因而跟踪器具有更好的时序分析能力,能在充满扰动的成像环境中达到稳定、精准的跟踪效果;
3、经本发明方法训练得到的特征点跟踪器,能提供准确的特征点定位,从而进一步提升了人脸表情识别、姿态识别等特征点相关应用的技术水平和性能表现。
附图说明
图1为本发明方法流程示意图;
图2为本发明模型结构图;
图3a为本发明原图;
图3b为本发明施加了黑色遮挡的扰动操作后的图片;
图3c为本发明施加了同域遮挡的扰动操作后的图片;
图3d为本发明施加了高斯模糊的扰动操作后的图片;
图3e为本发明施加了高斯噪声的扰动操作后的图片;
图3f为本发明施加了椒盐噪声的扰动操作后的图片;
图3h为本发明施加了随机光源的扰动操作后的图片;
图3g是为本发明方法生成的光源图片。
具体实施方式
如图1和图2所示,一种基于自监督和半监督学习的面部特征点跟踪方法的实施步骤如下:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧进而得到新的M个标注帧,并记为
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩为L,从而将放缩后的人脸框内图像作为新的第n个无标注帧进而得到新的N个无标注帧,并记为1≤n≤N;本实施例中,步骤1.1和1.2中L均设置为256;
步骤2、构建并初始化特征点跟踪器fG(·):
特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR;
令特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;本实施例中,S设置为1,卷积核尺寸为7×7,核数为64,步长为2,每个卷积层其后均接入一个实例正则化层和ReLU激活函数;R设置为4;Z设置为2,卷积核尺寸为4×4,核数为128,步长为4,每个卷积层其后均接入一个实例正则化层和ReLU激活函数;池化核尺寸为2×2,步长为2;
第t帧人脸视频It经过特征提取器fE(·)得到第t个特征向量,记为ft;
令回归器fR(·)由Q层LSTM网络构成;本实施例中,Q设置为2,LSTM第一层网络隐层大小为128,第二层网络的隐层大小为136,LSTM采用Sigmoid激活函数
第t个特征向量ft作为回归器fR(·)的第t个时间步的输入,由fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;本实施例中,各参数均使用服从N(0,0.02)的高斯分布进行权值初始化;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;本实施例中,L设置为2。其中第一层LSTM隐层大小为128,第二层LSTM的隐层大小为64,LSTM采用Sigmoid激活函数。P设置为1。全连接网络输入节点数为64,输出节点数为1;
定义神经网络分类器义fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征和洗牌特征依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征分类为“0”,将洗牌特征分类为“1”:
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;其中σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对特征点跟踪器fG(·)进行半监督训练:
步骤4.2.1、特征点跟踪器fG(·)按照正序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、特征点跟踪器fG(·)按照逆序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练特征点跟踪器fG(·):
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数;
步骤4.3、利用特征点跟踪器fG(·)分别跟踪新的N个无标注帧及其扰动序列,并利用两个序列上的跟踪结果的偏差作为损失函数并用于训练特征点跟踪器fG(·),从而得到训练好的跟踪器用于实现人脸特征点的跟踪:
步骤4.3.1、利用纹理扰动gte(·)和空间变换gtr(·)生成扰动序列其中,表示第n个扰动帧;纹理扰动包括遮挡、模糊、噪声和光照变化。图3a所示为本实施例的一张原图。在本实施例中采用了两种形式的遮挡。第一种是黑色遮挡,将大小为D×D像素的黑色正方块随机叠加在人脸区域的某个位置,如图3b所示。第二种为同域遮挡,从人脸一个随机位置截取大小为D×D像素的图块,随机叠加到另一位置,如图3c所示。其中D采样自服从N(32,0.0)的高斯分布。在本实施例中,图像模糊采取高斯模糊方式,如图3d所示。本实施例采取两类噪声,高斯噪声(如图3e所示)和椒盐噪声(如图3f所示)。其中高斯噪声产生于N(0.0,0.01)的高斯分布;椒盐噪声通过随机(概率为0.3)将某个图像像素替换为黑色像素点实现。本实施例采取将静态光源图片(如图3g所示)和原始图片叠加的方式产生光照变化(如图3h所示);
利用式(4)构建空间变换gtr(·)的约束条件:
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;在本实施例中,它们分别被设置为0.03,0.02和0.02;
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
步骤5、利用训练好的跟踪器对待测人脸视频进行预测,从而实现人脸特征点的跟踪:
为了验证所提出的方法,本发明方法在标注了特征点的视频数据集300VW和TF上进行了实验。跟踪器在300VW训练集上进行训练,在300VW的三个测试集300VW S1,S2,S3和TF上进行测试。其中在300VW上使用了全部68个预定义特征点,在TF上使用了与300VW具有相同定义的7个特征点。在训练时,只保留一部分比例(γ)的标注数据,对其他数据去除标注,变成无标注数据。在训练数据上得到的跟踪器的跟踪误差NRMSE在表1中列出。“/”左侧是在标注数据上采用传统全监督学习的结果,而其右侧是本发明提出的自监督+半监督学习得到跟踪器的实验结果:
表1跟踪器在不同比例(γ)标注数据下的跟踪误差(NRMSE)
由表1看出,本发明提出的方法能在不同的γ下大幅降低跟踪误差,这意味着跟踪精度的提升。当标注数据越少时,性能提升越显著。这是因为传统全监督学习只能利用有标注数据,当有标注数据量有限时,深度网络往往难以产生很好的泛化性能;而本发明方法充分利用了无标注数据上的时空信息,拓宽了跟踪器训练的数据来源,提升了其泛化性能。
Claims (3)
1.一种基于自监督和半监督学习的面部特征点跟踪方法,其特征包括如下步骤:
步骤1、对包含M个标注帧和N个无标注帧的人脸视频进行预处理:
步骤1.1、使用YOLO神经网络算法依次对M个标注帧中第m个标注帧进行人脸框检测,得到第m个人脸框,并将所述第m个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第m个标注帧进而得到新的M个标注帧,并记为
步骤1.2、使用YOLO神经网络算法依次对N个无标注帧中第n个无标注帧进行人脸框检测,得到第n个人脸框,并将第n个人脸框的边长放缩到固定值L,从而将放缩后的人脸框内图像作为新的第n个无标注帧进而得到新的N个无标注帧,并记为
步骤2、构建并初始化特征点跟踪器fG(·):
所述特征点跟踪器fG(·)由特征提取器fE(·)和回归器fR(·)构成;
定义所述特征点跟踪器fG(·),特征提取器fE(·)和回归器fR(·)的参数集合分别表示为θG,θE和θR,且θG=θE∪θR;
令所述特征提取器fE(·)由S个卷积层、R个沙漏网络,Z个卷积和池化层依次级联构成;
所述第t帧人脸视频It经过所述特征提取器fE(·)得到第t个特征向量,记为ft;
令所述回归器fR(·)由Q层LSTM网络构成;
所述第t个特征向量ft作为所述回归器fR(·)的第t个时间步的输入,由所述回归器fR(·)的第Q层LSTM第t个时间步的输出得到第t帧的特征点坐标预测值;
所述特征点跟踪器fG(·)中神经网络的各个参数均采用高斯采样方式初始化;
步骤3.3、令神经网络分类器fC(·)由H层LSTM网络和P层全连接网络级联构成,其中,H层LSTM网络输出的各隐层取平均后作为全连接网络的输入;
定义神经网络分类器fC(·)包含的参数集合由θC表示;
步骤3.4、将所述无标注特征和洗牌特征依次输入所述神经网络分类器fC(·)中,利用式(1)训练所述神经网络分类器fC(·),并将误差反向传播训练特征提取器fE(·),从而将所述无标注特征分类为“0”,将洗牌特征分类为“1”:
式(1)中,LC表示分类误差,并作为自监督学习的损失函数;σ(·)表示Sigmoid函数;
步骤4、在有标注和无标注数据上对所述特征点跟踪器fG(·)进行半监督训练:
2.根据权利要求1所述的面部特征点跟踪方法,其特征是,所述步骤4.2是按如下过程进行:
步骤4.2.1、所述特征点跟踪器fG(·)按照正序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的正序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之前的所有帧来定位第n个帧上的特征点;
步骤4.2.2、所述特征点跟踪器fG(·)按照逆序对新的N个无标注帧进行特征点跟踪,得到新的第n个无标注帧的逆序跟踪结果表示为对新的第n个无标注帧的特征点跟踪是利用第n个无标注帧和第n个无标注帧之后的所有帧来定位第n个帧上的特征点;
步骤4.2.3、利用式(3)来训练所述特征点跟踪器fG(·):
式(3)中,LI表示逆序回归误差,并作为自监督学习的损失函数。
3.根据权利要求1所述的面部特征点跟踪方法,其特征是,所述步骤4.3是按如下过程进行:
利用式(4)构建空间变换gtr(·)的约束条件:
式(4)中,Δn表示第n帧的平移量,θn表示第n帧的旋转量、rn表示第n帧的缩放因子,α,β和γ为平滑参数;
步骤4.3.4、利用式(5)训练所述特征点跟踪器fG(·):
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010589060.7A CN111723756B (zh) | 2020-06-24 | 2020-06-24 | 基于自监督和半监督学习的面部特征点跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010589060.7A CN111723756B (zh) | 2020-06-24 | 2020-06-24 | 基于自监督和半监督学习的面部特征点跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723756A CN111723756A (zh) | 2020-09-29 |
CN111723756B true CN111723756B (zh) | 2022-09-06 |
Family
ID=72568834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010589060.7A Active CN111723756B (zh) | 2020-06-24 | 2020-06-24 | 基于自监督和半监督学习的面部特征点跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723756B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095128B (zh) * | 2021-03-01 | 2023-09-19 | 西安电子科技大学 | 基于k最远交叉一致性正则化的半监督时序行为定位方法 |
CN112820322B (zh) * | 2021-03-18 | 2022-12-23 | 中国科学院声学研究所 | 一种基于自监督对比学习的半监督音频事件标注方法 |
CN113378673B (zh) * | 2021-05-31 | 2022-09-06 | 中国科学技术大学 | 一种基于一致性正则化的半监督脑电信号分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN111080511A (zh) * | 2019-11-18 | 2020-04-28 | 杭州时光坐标影视传媒股份有限公司 | 一种端到端的高分辨率多特征提取的人脸交换方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9483838B2 (en) * | 2014-04-24 | 2016-11-01 | Xerox Corporation | Method and system for automated sequencing of vehicles in side-by-side drive-thru configurations via appearance-based classification |
CN105913487B (zh) * | 2016-04-09 | 2018-07-06 | 北京航空航天大学 | 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法 |
-
2020
- 2020-06-24 CN CN202010589060.7A patent/CN111723756B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472533A (zh) * | 2019-07-31 | 2019-11-19 | 北京理工大学 | 一种基于半监督训练的人脸识别方法 |
CN111080511A (zh) * | 2019-11-18 | 2020-04-28 | 杭州时光坐标影视传媒股份有限公司 | 一种端到端的高分辨率多特征提取的人脸交换方法 |
Non-Patent Citations (3)
Title |
---|
Shuffle and learning:unsupervised learning using temporal order verification;lshan misra et al.;《arxiv》;20160726;第1-21页 * |
Supervision-by-registration:an unsupervised approach to improve the precision of facial landmark detectors;xuanyi dong et al.;《the computer vision foundation》;20181231;第1-9页 * |
视频监测中的驾驶人面部特征点跟踪;郭克友等;《计算机工程与应用》;20100517;第202-219页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111723756A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Human-aware motion deblurring | |
Majd et al. | Correlational convolutional LSTM for human action recognition | |
Wang et al. | Video salient object detection via fully convolutional networks | |
Chung et al. | An efficient hand gesture recognition system based on deep CNN | |
CN111723756B (zh) | 基于自监督和半监督学习的面部特征点跟踪方法 | |
Liu et al. | Denet: A universal network for counting crowd with varying densities and scales | |
Chen et al. | Learning linear regression via single-convolutional layer for visual object tracking | |
Chen et al. | Self-supervised vision transformer-based few-shot learning for facial expression recognition | |
Xue et al. | ECANet: Explicit cyclic attention-based network for video saliency prediction | |
Chen et al. | Video saliency prediction using enhanced spatiotemporal alignment network | |
Xu et al. | Learning self-supervised space-time CNN for fast video style transfer | |
Zhang et al. | Joint motion information extraction and human behavior recognition in video based on deep learning | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
Alawode et al. | Utb180: A high-quality benchmark for underwater tracking | |
Cheng et al. | Joint image enhancement learning for marine object detection in natural scene | |
Yao et al. | Recurrent graph convolutional autoencoder for unsupervised skeleton-based action recognition | |
Yuan et al. | Optical flow training under limited label budget via active learning | |
Zhou et al. | Real-time underwater object detection technology for complex underwater environments based on deep learning | |
Gu et al. | Vtst: Efficient visual tracking with a stereoscopic transformer | |
Aghelan et al. | Underwater image super-resolution using generative adversarial network-based model | |
Fu et al. | Distractor-aware event-based tracking | |
Zhang et al. | Tobacco leaf segmentation based on improved mask RCNN algorithm and SAM model | |
Yang et al. | Deep triply attention network for RGBT tracking | |
Luo et al. | Infrared Road Object Detection Based on Improved YOLOv8. | |
Sun et al. | Underwater Object Detection with Swin Transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |