CN115631526A - 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 - Google Patents
基于自监督学习技术的被遮挡的人脸表情识别方法及应用 Download PDFInfo
- Publication number
- CN115631526A CN115631526A CN202211334926.5A CN202211334926A CN115631526A CN 115631526 A CN115631526 A CN 115631526A CN 202211334926 A CN202211334926 A CN 202211334926A CN 115631526 A CN115631526 A CN 115631526A
- Authority
- CN
- China
- Prior art keywords
- image
- self
- occlusion
- training
- supervision learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用,该方法的步骤包括:1、对一个包含无标签人脸图像的数据库进行图像预处理;2、构建自监督学习的前置任务阶段网络模型;3、构造相似性损失和遮挡识别损失;4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;5、对N类人脸表情图像的数据库进行图像预处理;6、构建自监督学习的下游任务阶段网络模型;7、构造分类损失;8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;9、利用训练好的分类器对待测人脸图像进行人脸表情的分类识别。本发明能克服图像遮挡对人脸表情识别效果造成的负影响,从而能实现人脸表情的精准识别。
Description
技术领域
本发明属于遮挡表情识别,情感计算,自监督学习领域,具体的说是一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用。
背景技术
被遮挡的人脸表情识别作为人脸表情识别的一种复杂情况,在真实生产、生活中有着广泛的应用。现有的被遮挡的人脸表情识别方法主要分为四类,分别是:基于鲁棒人脸特征的方法、基于无遮挡的人脸图像重建的方法、基于子区域分析的方法和基于无遮挡的人脸图像辅助的方法。基于鲁棒人脸特征的方法旨在找到一种对遮挡不敏感,但对不同表情具有可区分性的特征表示。但遮挡可能在人脸图像中的任意位置上出现,因此很难找到一种对遮挡具有鲁棒性的人脸特征表示;基于无遮挡的人脸图像重建的方法旨在使用生成模型重建待识别图像的无遮挡版本,然后根据重建后的图像进行表情分类。但是生成的图像的真实度通常都不高,这直接影响了面部表情识别的性能;基于子区域分析的方法将图像划分为若干区域,再从这些子区域和整个图像中进行面部表情识别。一般来说进行面部子区域分割会使用到面部关键点检测和注意力机制技术,但对被遮挡的面部图像进行面部关键点检测仍然是具有挑战性的,这也影响了该类方法对面部表情识别的精度;基于无遮挡的人脸图像辅助的方法通常采用无遮挡人脸图像作为特权信息来辅助被遮挡的人脸表情识别。在训练过程中,这些方法一般会构建两个网络:一个用于无遮挡的人脸表情识别,另一个用于被遮挡的人脸表情识别。在测试过程中,这些方法假设所有的人脸图像都被遮挡,只使用被遮挡的人脸表情识别网络进行识别。但是在现实场景中人们无法知道人脸图像是否是被遮挡的。此外,上述所有方法都需要完整的表情标注图像进行训练,但因为遮挡部分的类型和位置是无限的,为这些方法收集具有各种表情和遮挡的大规模图像数据集是十分困难的。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于自监督学习技术的被遮挡的人脸表情识别方法及应用,以期能使用无遮挡人脸和遮挡图案位置信息协助被遮挡人脸表情的识别,从而能提升被遮挡人脸表情识别的准确率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于自监督学习的被遮挡人脸表情识别方法的特点是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作其中,Np表示训练样本的总数,表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
前置特征提取器Fb由输入卷积层、批归一化层和ReLU激活函数构成;
图像特征提取器F由最大池化层、Resnet特征提取层和均值池化层构成;
遮挡识别器Uo由输入卷积层、上采样卷积层和输出卷积层构成,输入卷积层和上采样卷积层后均接入批归一化层和ReLU激活函数,输出卷积层后接入批归一化层;
特征映射头R由输入线性层、ReLU激活函数和输出线性层构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.2、遮挡识别损失:
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子;
步骤4.2、设置外部的总训练步数为K,外部的当前训练步数为k;设置内部的总训练步数为Kb,内部的当前训练步数为kb;设置训练中每次采样的样本数为B;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集中进行外部第k次内部第kb次随机不放回的取出B组样本并作为外部第k次内部第kb次迭代的训练样本;其中,表示所述第j张无遮挡的人脸图像,表示所述第j张有遮挡的人脸图像,M(j)表示所述第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对所述自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集共有Nfo+Nfc个训练样本,其中,表示无遮挡的人脸图像,是向中添加遮挡之后的有遮挡的人脸图像,y(i')∈{0,1,…,Ne-1}表示第i'个样本的表情标签;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层、一个批归一化层、一个ReLU激活函数、一个线性层、一个批归一化层、一个ReLU激活函数和一个线性层组成,其中线性层参数需要进行初始化;
步骤7、构造分类损失;
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、设置总的训练步数为K',当前总的训练步数为k';设置内部的训练步数为K'b,当前内部的训练步数为k'b;设置训练中每次采样的样本数为B';初始化k',k'b为1;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C;
步骤8.4、将k'b+1赋值给k'b后,判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则,返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则,将初始化k'b=1后,返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述被遮挡人脸表情识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述被遮挡人脸表情识别方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明通过提出向无遮挡的人脸图像添加遮挡图案的方法生成被遮挡的人脸表情图像,并使用在这一过程中的无遮挡人脸图像和遮挡图案的位置信息来辅助进行被遮挡的人脸图像的表情识别。解决了现有的被遮挡表情识别方法受限于样本数量、多样性的问题,实现了效果更为优秀的被遮挡人脸表情识别。
2、本发明通过提出使用对比学习的技术,以相似性损失衡量无遮挡人脸图像特征与有遮挡人脸图像特征之间的差距,使得有遮挡人脸图像的特征表示更趋近与相同表情的无遮挡人脸图像的特征表示,指导了网络从有遮挡人脸图像中提取对遮挡更具有鲁棒性的特征表示,提升了在实际环境中的可用性。
3、本发明通过提出遮挡预测损失,使得网络能够预测出有遮挡图像上遮挡图案的位置,并更少的关注遮挡图案区域上的信息,以此降低遮挡带来的影响,提高所提取特征表示与表情的相关性,有效提升了被遮挡表情的识别准确率。
4、本发明通过提出使用自监督学习技术,通过在自监督学习的前置任务阶段中应用相似性损失和遮挡预测损失,为自监督学习的下游任务阶段提供一个具有更好初始参数的特征提取器,在提高被遮挡人脸表情识别率的同时也使得该方法能够更容易的迁移到其他数据集上,拥有更佳的泛化能力。
附图说明
图1为本发明模型自监督学习的前置任务阶段的框架图。
图2为本发明模型自监督学习的下游任务阶段的框架图。
具体实施方式
本实施例中,如图1所示,一种基于自监督学习的被遮挡人脸表情识别方法的前置任务阶段是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作其中,Np表示训练样本的总数,表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;本实施例中,经过归一化处理后的所有人脸图像的像素大小为224×224;即H=224,W=224。使用VGGFace2作为无标签人脸图像数据库,VGGFace2包含来自9131个人的3141890张图像,该数据库是从GoogleImage Search下载的,在种族、年龄和姿势方面有很大差异,在本实施例中作为自监督学习的前置任务阶段数据集使用,即Np=3141890;
从Nc种遮挡图案中随机选择的一种遮挡图案并随机添加到第i张无遮挡的人脸图像上,生成第i张有遮挡的人脸图像且对应的遮挡掩码记为M(i)∈{0,1}H×W;本实施例中,Nc=15,分别为5种手部遮挡图案,5种食物遮挡图案和5种饮品遮挡图案。
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
本实施例中,前置特征提取器Fb依次由一个输入卷积层、一个批归一化层和一个ReLU激活函数构成;本实施例中,输入卷积层、批归一化层和ReLU激活函数均由resnet34预训练网络提供,分别为resnet34.conv1、resnet34.bn1和resnet34.relu;
图像特征提取器F依次由一个最大池化层、四个Resnet特征提取层和一个均值池化层构成;本实施例中,最大池化层和四个Resnet特征提取层均由resnet34预训练网络提供,分别为resnet34.maxpool和resnet34.layer1-4,均值池化层为尺寸为1×1的自适应均值池化层;
遮挡识别器Uo依次由一个输入卷积层(本实施例中该卷积层设置为输入通道数为64,输出通道数为32,卷积核尺寸为3×3,填充为1)、一个上采样卷积层(本实施例中该卷积层设置为尺度因子为2,采样模式为bilinear)和一个输出卷积层(本实施例中该卷积层设置为输入通道数为32,输出通道数为1,卷积核尺寸为3×3,填充为1)构成,输入卷积层和上采样卷积层后均接入一个批归一化层(本实施例中批归一化特征数为32)和ReLU激活函数,输出卷积层后接入一个批归一化层(本实施例中批归一化特征数为1);
本实施例中,特征映射头R依次由一个输入线性层(本实施例中该线性层输入数量为512,输出数量为128)、一个ReLU激活函数和一个输出线性层(本实施例中该线性层输入数量为128,输出数量为128)构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;本实施例中所有的卷积层使用kaiming正态分布进行权值初始化,如果卷积层中存在偏移量则将偏移量初始化为常数0、所有批归一化层中的权重均初始化为常数1、所有批归一化层中的偏移量初始化为常数0、所有的线性层均使用正态分布初始化权值(均值为0,方差为0.005的正态分布),线性层中的偏移量初始化为常数0;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.1.4本方法期望相同人脸的有遮挡面部表示和无遮挡面部表示是相似的,而对比学习最大化正对之间的相似性,最小化负对之间的相似性的特点满足了本方法的需要,所以本方法根据对比学习的思想利用式(1)构建相似性损失函数
步骤3.2、遮挡识别损失:
步骤3.2.1、在人脸图像中,被遮挡的区域通常仅包含较少的甚至不包含关于表情的信息,如果网络能够得知遮挡所在的位置,并更少的关注被遮挡区域上的信息,那么遮挡带来的影响就会更小,网络也能够获得与表情更相关的特征,因此本方法将有遮挡前置特征输入遮挡识别器Uo中进行处理,得到遮挡预测矩阵
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型的参数进行优化;
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子(本实施例中λss=5,λmask=1);
步骤4.2、本实施例中,设置外部的总训练步数为K=2,外部的当前训练步数为k;设置内部的总训练步数为Kb=4910,内部的当前训练步数为kb;设置训练中每次采样的样本数为B=64;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集中进行外部第k次内部第kb次随机不放回的取出B组样本并作为外部第k次内部第kb次迭代的训练样本;其中,表示第j张无遮挡的人脸图像,表示第j张有遮挡的人脸图像,M(j)表示第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断是否全部训练样本已经被取出,即判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',作为下一阶段的初始网络,执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
本实施例中,如图2所示,一种基于自监督学习的被遮挡人脸表情识别方法的下游任务阶段是按如下步骤进行:
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集共有Nfo+Nfc个训练样本,其中表示无遮挡的人脸图像,是向中添加遮挡之后的有遮挡的人脸图像,y(i')∈{0,1,…,Ne-1}表示第i'个样本的表情标签。本实施例中共在三个数据库进行了后续操作,分别为RAF-DB、AffectNet和CK+。在RAF-DB中本方法将所有人脸图像归一化处理为224×224的像素大小;即H=224,W=224,Nfo=Nfc=12271,Ne=7;在AffectNet中本方法将所有人脸图像归一化处理为224×224的像素大小;即H=224,W=224,Nfo=Nfc=287651,Ne=7;在AffectNet中本方法将所有人脸图像归一化处理为48×48的像素大小;即H=48,W=48,Nfo=Nfc=636,Ne=7;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层(本实施例中该线性层设置为输入数为512,输出数为256)、一个批归一化层(本实施例中批归一化特征数为256)、一个ReLU激活函数、一个线性层(本实施例中该线性层设置为输入数为256,输出数为128)、一个批归一化层(本实施例中批归一化特征数为128)、一个ReLU激活函数和一个线性层(本实施例中该线性层设置为输入数为128,输出数为128)组成,其中线性层参数需要进行初始化(本实施例中都使用正态分布初始化权值(均值为0,方差为0.003的正态分布),偏移量初始化为常数0);
步骤7、构造分类损失;
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、本实施例中,设置总的训练步数为K'=20,当前总的训练步数为k';设置内部的训练步数为K'b(在RAF-DB上K'b=31;在AffectNet上K'b=411;在RAF-DB上K'b=8;),当前内部的训练步数为k'b;设置训练中每次采样的样本数为B'=64;初始化k',k'b为1;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C。
步骤8.4、将k'b+1赋值给k'b后,判断是否全部训练样本已经被取出,即判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则将1赋值给k'b后返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该被遮挡人脸表情识别方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该被遮挡人脸表情识别方法的步骤。
Claims (3)
1.一种基于自监督学习的被遮挡人脸表情识别方法,其特征是按如下步骤进行:
步骤1、对包含无标签人脸图像的数据库进行图像预处理:
根据数据库中每张图像的人脸关键点信息,对包含无标签人脸图像的数据库中的每张图像进行尺寸裁剪、缩放和旋转的操作,使得图像中的人脸处于在中间位置后,得到处理后的图像集,记作其中,Np表示训练样本的总数,表示第i张无遮挡的人脸图像;H代表图像的高度,W代表图像的宽度;
步骤2、构建自监督学习的前置任务阶段网络模型,包括:前置特征提取器Fb,图像特征提取器F,遮挡识别器Uo和特征映射头R;
前置特征提取器Fb由输入卷积层、批归一化层和ReLU激活函数构成;
图像特征提取器F由最大池化层、Resnet特征提取层和均值池化层构成;
遮挡识别器Uo由输入卷积层、上采样卷积层和输出卷积层构成,输入卷积层和上采样卷积层后均接入批归一化层和ReLU激活函数,输出卷积层后接入批归一化层;
特征映射头R由输入线性层、ReLU激活函数和输出线性层构成;
遮挡识别器Uo和特征映射头R中的参数需要进行初始化;
步骤3、构造相似性损失和遮挡识别损失;
步骤3.1、相似性损失:
步骤3.2、遮挡识别损失:
步骤4、使用梯度下降法对自监督学习的前置任务阶段网络模型参数进行优化;
式(5)中,λss和λmask分别是控制相似性损失和遮挡识别损失权重的权重因子;
步骤4.2、设置外部的总训练步数为K,外部的当前训练步数为k;设置内部的总训练步数为Kb,内部的当前训练步数为kb;设置训练中每次采样的样本数为B;初始化k=1,kb=1;
步骤4.3、从自监督学习的前置任务阶段数据集中进行外部第k次内部第kb次随机不放回的取出B组样本并作为外部第k次内部第kb次迭代的训练样本;其中,表示所述第j张无遮挡的人脸图像,表示所述第j张有遮挡的人脸图像,M(j)表示所述第j张有遮挡图像对应的遮挡掩码;
步骤4.4、将外部第k次内部第kb次迭代的训练样本输入自监督学习的前置任务阶段网络模型中,并使用梯度下降法对所述自监督学习的前置任务阶段网络模型进行训练,同时计算总损失函数函数以外部第k次内部第kb次更新网络模型参数;
步骤4.5、将kb+1赋值给kb后,判断kb*B≥Np是否成立,若成立,则执行步骤4.6,否则返回步骤4.3继续执行;
步骤4.6、将k+1赋值给k后,判断k≥K是否成立,若成立,则表示自监督学习的前置任务阶段网络模型训练结束,并得到自监督学习的前置任务阶段训练后的前置特征提取器F'b,图像特征提取器F',遮挡识别器U'o和特征映射头R',执行步骤5,否则,初始化kb=1后,返回步骤4.3继续执行;
步骤5、对包含具有N类人脸表情图像的数据库进行图像预处理;
对数据库中所有的人脸图像进行裁剪、缩放和旋转操作,得到归一化后的人脸图像数据集共有Nfo+Nfc个训练样本,其中,表示无遮挡的人脸图像,是向中添加遮挡之后的有遮挡的人脸图像,y(i’)∈{0,1,…,Ne-1}表示第i'个样本的表情标签;
步骤6、构建自监督学习的下游任务阶段网络模型,包括自监督学习的前置任务阶段训练后的前置特征提取器F'b,自监督学习的前置任务阶段训练后的图像特征提取器F'和表情分类器C;
表情分类器C依次由一个线性层、一个批归一化层、一个ReLU激活函数、一个线性层、一个批归一化层、一个ReLU激活函数和一个线性层组成,其中线性层参数需要进行初始化;
步骤7、构造分类损失;
步骤8、使用梯度下降法对自监督学习的下游任务阶段网络模型参数进行优化;
步骤8.1、设置总的训练步数为K',当前总的训练步数为k';设置内部的训练步数为K'b,当前内部的训练步数为k'b;设置训练中每次采样的样本数为B';初始化k',k'b为1;
步骤8.3、将训练样本输入自监督学习的下游任务阶段网络模型,使用梯度下降法根据式(6)优化前置特征提取器F'b,图像特征提取器F'和表情分类器C;
步骤8.4、将k'b+1赋值给k'b后,判断k'b*B'≥Nfo是否成立,若成立,则执行步骤8.5,否则,返回步骤8.2继续执行;
步骤8.5、将k'+1赋值给k'后,判断k'≥K'是否成立,若成立,则表示自监督学习的下游任务阶段网络模型训练结束,并得到自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C',执行步骤9,否则,将初始化k'b=1后,返回步骤8.2继续执行;
步骤9、利用训练好的自监督学习的下游任务阶段训练后的前置特征提取器F”b,图像特征提取器F”和表情分类器C'对待测的人脸图像进行预测,以实现人脸表情的分类识别。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述被遮挡人脸表情识别方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述被遮挡人脸表情识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211334926.5A CN115631526A (zh) | 2022-10-28 | 2022-10-28 | 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211334926.5A CN115631526A (zh) | 2022-10-28 | 2022-10-28 | 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631526A true CN115631526A (zh) | 2023-01-20 |
Family
ID=84909300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211334926.5A Pending CN115631526A (zh) | 2022-10-28 | 2022-10-28 | 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631526A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372818A (zh) * | 2023-12-06 | 2024-01-09 | 深圳须弥云图空间科技有限公司 | 目标重识别方法及装置 |
-
2022
- 2022-10-28 CN CN202211334926.5A patent/CN115631526A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372818A (zh) * | 2023-12-06 | 2024-01-09 | 深圳须弥云图空间科技有限公司 | 目标重识别方法及装置 |
CN117372818B (zh) * | 2023-12-06 | 2024-04-12 | 深圳须弥云图空间科技有限公司 | 目标重识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111339975A (zh) | 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法 | |
CN117015796A (zh) | 处理组织图像的方法和用于处理组织图像的系统 | |
Wang et al. | S 3 D: Scalable pedestrian detection via score scale surface discrimination | |
CN112861915A (zh) | 一种基于高级语义特征无锚框非合作目标检测方法 | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN116612335B (zh) | 一种基于对比学习的少样本细粒度图像分类方法 | |
Naqvi et al. | Feature quality-based dynamic feature selection for improving salient object detection | |
CN111695455B (zh) | 一种基于耦合判别流形对齐的低分辨人脸识别方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN115358337A (zh) | 一种小样本故障诊断方法、装置及存储介质 | |
CN112085742A (zh) | 一种基于上下文注意力的nafld超声视频诊断方法 | |
Nie et al. | Recent advances in diagnosis of skin lesions using dermoscopic images based on deep learning | |
CN115631526A (zh) | 基于自监督学习技术的被遮挡的人脸表情识别方法及应用 | |
CN113592769B (zh) | 异常图像的检测、模型的训练方法、装置、设备及介质 | |
CN110956157A (zh) | 基于候选框选择的深度学习遥感影像目标检测方法及装置 | |
Artola et al. | Glad: A global-to-local anomaly detector | |
Cheriguene et al. | New computer aided diagnosis system for glaucoma disease based on twin support vector machine | |
CN110414562B (zh) | X光片的分类方法、装置、终端及存储介质 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
CN114119970B (zh) | 目标跟踪方法及装置 | |
Marjusalinah et al. | Classification of finger spelling American sign language using convolutional neural network | |
CN114118303B (zh) | 基于先验约束的人脸关键点检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |