CN116386104A - 对比学习结合掩码图像建模的自监督人脸表情识别方法 - Google Patents
对比学习结合掩码图像建模的自监督人脸表情识别方法 Download PDFInfo
- Publication number
- CN116386104A CN116386104A CN202310194562.3A CN202310194562A CN116386104A CN 116386104 A CN116386104 A CN 116386104A CN 202310194562 A CN202310194562 A CN 202310194562A CN 116386104 A CN116386104 A CN 116386104A
- Authority
- CN
- China
- Prior art keywords
- facial expression
- self
- expression recognition
- image
- supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000000007 visual effect Effects 0.000 claims abstract description 49
- 238000011156 evaluation Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000009966 trimming Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 241001310757 Phortica tau Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001609 comparable effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种对比学习结合掩码图像建模的自监督人脸表情识别方法,该方法为:构建对比学习结合掩码图像建模的自监督人脸表情识别模型;在模型上进行无监督的预训练;对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估;采用微调评估后的模型,对输入的人脸图像进行表情识别;该方法通过一个无卷积的孪生网络学习人脸表情表征,利用对比损失和掩码图像建模损失对孪生网络进行预训练,从而同时理解高级视觉语义和图像内部结构,最大化学生网络和教师网络输出之间的一致性。本发明可以学习丰富的视觉信息,对于各种与面部表情无关的干扰具有鲁棒性,同时在人脸表情数据集的线性探测和微调评估上均取得了出色的效果。
Description
技术领域
本发明属于图像分类技术领域,特别涉及一种对比学习结合掩码图像建模的自监督人脸表情识别方法。
背景技术
面部表情提供了丰富的情感信息,是人类表达情感和意图最强大、最普遍和最自然的方式之一,在人际交往中是不可忽视的重要信息载体。近年来,随着人工智能的不断发展,人脸表情识别(Facial Expression Recognition,FER)在智能设备、医疗服务、个人情绪管理、疲劳驾驶监测及其他人机交互系统等诸多领域广泛应用,是情感计算和计算机视觉(Computer Vision,CV)领域的研究热点之一。著名美国心理学家保罗·埃克曼(PaulEkman)提出了如今被视为普遍标准的人类6类基础表情:愤怒、厌恶、恐惧、高兴、悲伤和惊讶,后来又增加了蔑视(contempt)这一新的基础表情。
在深度学习兴起之前,传统的FER方法主要基于手工特征和浅层学习(例如,定向梯度直方图(HOGs)、局部二进制模式(LBP)和稀疏表示)。近年来,随着数据驱动技术的发展,基于深度学习的方法逐渐取代传统方法,实现了最先进的FER性能。深度学习虽然具备强大的表征能力,但应用于人脸表情识别任务上还存在以下几个问题:
1)依赖大规模的标注数据。目前基于深度学习的人脸表情识别方法的成功依靠有监督的训练方式,对数据量要求巨大。标注数据越多,标注质量越好,模型效果越显著,而缺乏足量训练数据会导致过拟合问题。然而,当前人脸表情数据的人工标注存在标注质量不一和成本高昂的问题。一方面,不同标注者对表情的理解和认知差异会导致标注结果具有主观性、低准确性,对网络训练过程有很大的干扰。另一方面,人工对人脸表情数据进行标注需要多个繁琐的步骤,效率较低且所需成本较高,获取高质量的有标注人脸表情数据具有较大的难度。
2)自然场景下与表情识别无关因素的干扰。人脸表情识别在自然场景下的表现会受到很多外部因素的影响,如光照条件不同、背景复杂、头部姿态不同、部分遮挡、面部扭曲、模糊等,因此是一项非常困难的任务。
监督学习(Supervised Learning,SL)方法极度依赖于大量的有标注数据,缺乏标注数据促使研究者们寻找替代方法,即如何利用大量的无标注数据,因此自监督学习(Self-Supervised Learning,SSL)得到了广泛关注。自监督学习属于无监督学习的一种,可以直接利用数据本身作为监督信息(伪标签),而不需要人工标注的信息。自监督学习首先通过前置任务在预训练阶段学习图像的特征表示,此阶段无需标注数据。之后将学习到的参数作为预训练模型迁移到下游任务(downstream task),使用部分标注数据进行微调,就可以达到很好的效果。自监督学习相比于监督学习具有以下优势:1)不需要大量的标注数据;2)更多地关注数据的内在信息,数据所能提供的信息比稀疏的标签更加丰富;3)能够学习到更多通用的知识,自监督学习得到的表示往往能够更好地迁移到下游任务中。
为了减少训练过程中对分类标签的依赖,可以利用自监督学习(Self-SupervisedLearning,SSL)方法预训练深度神经网络。SSL框架可分为对比学习(ContrastiveLearning,CL)和生成学习。对比学习将来自同一图像的不同增强视图的表示拉近,同时避免特征崩溃。它在线性探测方面表现良好。但是,对比学习主要集中在中心区域和高级语义上,在捕获局部特征方面较差,这与有监督的预训练类似。最近,掩码图像建模(MaskedImage Modeling,MIM)逐渐受到了广泛的关注,MIM通过训练模型来恢复被遮挡图像的原始内容,属于生成学习框架。MIM可以更好地理解图像内复杂的局部结构,从而在微调上有出色的表现,但在线性探测上表现不佳。CL和MIM方法各有优缺点。CL简单地学习整张图像的全局表示,因此无法描述图像内部结构。而MIM在每张图像中分别发挥作用,更多地关注低级信息,却不考虑图像之间的交互。MIM难以学习到高层语义相似的图像表征,导致线性探测性能较差。
发明内容
本发明的目的在于针对上述现有技术存在的问题,提供一种对比学习结合掩码图像建模的自监督人脸表情识别方法。
实现本发明目的的技术解决方案为:一种对比学习结合掩码图像建模的自监督人脸表情识别方法,所述方法包括以下步骤:
步骤1,构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
步骤2,在自监督人脸表情识别模型上进行无监督的预训练;
步骤3,对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
步骤4,采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别。
一种对比学习结合掩码图像建模的自监督人脸表情识别装置,该装置包括以下模块:
模型构建模块,用于构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
模型训练模块,用于在自监督人脸表情识别模型上进行无监督的预训练;
模型评估模块,用于对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
模型识别模块,用于采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别;
所述装置在人脸表情识别的过程中,执行所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现对比学习结合掩码图像建模的自监督人脸表情识别方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
本发明与现有技术相比,其显著优点为:(1)结合了对比学习和掩码图像建模各自的优势,可以同时考虑到图像间关系和图像内结构:一方面,通过促进同一图像的不同增强视图中的分类tokens的相似性来捕获高层视觉语义,从而实现语义对齐;另一方面,预测来自同一图像的不同增强视图的掩码图像的HOG特征,从而对每张图像内的局部结构进行建模;(2)在掩码图像建模损失中引入手工特征HOG,很好地拟合了随机掩码图像块的预测目标,可以在一定程度上使模型对于自然场景下的照明和对比度变化等干扰具有鲁棒性,而且可以防止模型过度拟合像素细节信息。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为对比学习结合掩码图像建模的自监督人脸表情识别方法的模型图。
图2为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络主干网络f(ViT-S/16)的结构示意图。
图3为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络的一个预训练模型可视化注意力图。
图4为搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络的另一个预训练模型可视化注意力图。
具体实施方式
本发明一种对比学习结合掩码图像建模的自监督人脸表情识别方法,所述方法包括以下步骤:
步骤1,构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
步骤2,在自监督人脸表情识别模型上进行无监督的预训练;
步骤3,对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
步骤4,采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别。
作为一种具体示例,步骤1所述构建对比学习结合掩码图像建模的自监督人脸表情识别模型,具体包括:
步骤1-1,计算输入图像x的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征zhog;
步骤1-2,对输入图像进行处理,给定输入图像首先分成N=HW/P2个图像块/>其中C是通道的数量,为3个通道(RGB);(H,W)是输入图像的分辨率,即(224,224);(P,P)是每个图像块的分辨率,大小为(16,16),N为196;
步骤1-3,将输入图像x进行随机变换,产生两个相关增强视图表示为u和v,作为正样本对,分别送入学生网络gs和教师网络gt;
步骤1-6,使用ViT-S/16(Vision Transformer-Small,视觉Transformer)的编码器作为自监督人脸表情识别模型的主干网络f,/16表示图像块大小为16,编码器(Encoder)层数为12;
步骤1-7,增强视图u和v通过一个线性层转换为一组嵌入序列,在序列中添加一个额外的可学习的token(视觉词);该类别视觉词[CLS]的作用是聚合整个序列的信息,不附加任何标签或监督;视图u经过掩码后,图像块视觉词和类别视觉词[CLS]的集合被送入到学生网络的Transformer编码器fs;视图v未经掩码,图像块视觉词v和类别视觉词[CLS]直接送入教师网络的编码器ft;
步骤1-8,自监督人脸表情识别模型的投影头h由一个3层的多层感知机(MLP),一个l2归一化层和一个权重归一化的K维的全连接层组成;
步骤1-9,自监督人脸表情识别模型的网络g由主干网络f和投影头h组成,学生网络和教师网络共享相同的架构g,且具有不同的参数集θs和θt;使用大小为224×224的图像对Transformer进行预训练和微调,图像块视觉词的总数N为196,共享投影头的输出维度设置为108,最终输出的向量维度K为21168。
作为一种具体示例,步骤2所述在自监督人脸表情识别模型上进行无监督的预训练,具体包括:
步骤2-1,初始化自监督人脸表情识别模型的网络参数及迭代次数;
步骤2-4,掩码图像建模(Masked Image Modeling,MIM)的训练目标定义为:
其中,为掩码图像建模损失,N为视觉词个数,i表示图像块视觉词序号,mi为1表示该图像块被掩码,mi为0表示该图像块未掩码,即只在掩码图像块上计算重建损失;zhog作为自监督人脸表情识别模型的目标特征,是一个一维向量,首先在掩码视图的整张图像上提取HOG特征图,然后将其重塑为图像块,掩码图像块的直方图被展平并连接成zhog;
步骤2-6,在教师网络上应用一个停止梯度算子sg(stop-gradient),只通过学生网络来传播梯度;教师网络的参数θt随学生网络的参数θs进行指数移动平均(ExponentialMoving Average,EMA),更新规则为:
θt←λθt+(1-λ)θs
其中,λ为超参数,在训练期间遵循从0.996到1的余弦学习率调整;自监督人脸表情识别模型通过动量更新与掩码图像建模的目标共同优化,所以不需要额外的训练阶段作为预处理设置;
作为一种具体示例,步骤3所述对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估,具体包括:
步骤3-1,在无监督预训练之后,在去除投影头的教师网络的冻结特征上学习一个监督线性分类器,进行线性探测(Linear Probing)评估;
步骤3-2,对于微调(Fine-tune)评估,基于无监督预训练好的教师网络编码器的权值,在去除投影头的教师网络上学习一个监督线性分类器,使用有标签的验证集数据来更新教师网络和分类层的参数,即不冻结教师网络的参数;
步骤3-3,在有标签的验证集上线性探测和微调100个epochs(迭代次数),以进行线性探测和微调评估。
本发明还提供一种对比学习结合掩码图像建模的自监督人脸表情识别装置,该装置包括以下模块:
模型构建模块,用于构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
模型训练模块,用于在自监督人脸表情识别模型上进行无监督的预训练;
模型评估模块,用于对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
模型识别模块,用于采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别;
所述装置在人脸表情识别的过程中,执行所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
本发明还提供一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现对比学习结合掩码图像建模的自监督人脸表情识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
实施例1
在本实施例中,提供一种对比学习结合掩码图像建模的自监督人脸表情识别方法,该方法包括以下步骤:
步骤1,构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
步骤2,在对比学习结合掩码图像建模的自监督人脸表情识别模型上进行无监督的预训练;
步骤3,对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估。
进一步地,在其中一个实施例中,结合图1~图2,图1为实施例中对比学习结合掩码图像建模的自监督人脸表情识别方法模型图,图2为实施例中搭建的对比学习结合掩码图像建模的自监督人脸表情识别网络主干网络f(ViT-S/16)的结构示意图,由多头自注意力网络、残差连接和层归一化、前馈(全连接)神经网络构成。
步骤1所述构建对比学习结合掩码图像建模的自监督人脸表情识别模型,具体包括:
步骤1-1,计算输入图像x的方向梯度直方图(Histogram of Oriented Gradient,HOG)特征zho;
步骤1-2,将输入图像x进行随机变换,产生两个相关增强视图表示为u和v,作为正样本对;
步骤1-3,对输入图像进行处理,给定输入图像首先分成N=HW/P2个图像块(patches):/>i∈N,其中C是通道的数量,为3个通道(RGB);(H,W)是输入图像的分辨率,即(224,224);(P,P)是每个图像块的分辨率,大小为(16,16),因此N为196。通过线性投影,二维图像x被展平为图像块:/>可以看作一个图像视觉词(tokens)序列;
步骤1-5,使用ViT-S/16作为模型的主干网络f,/16表示图像块大小为16,编码器(Encoder)层数为12。然后,这些图像块通过一个线性层转换为一组嵌入序列,并在序列中添加一个额外的可学习的token(视觉词)。这个类别token[CLS]的作用是聚合整个序列的信息,它不附加任何标签或监督。然后图像块tokens和[CLS]tokens的集合被送入到一个标准的Transformer网络。使用大小为224×224的图像对Transformer进行预训练和微调,相应的图像块tokens的总数为196,共享投影头的输出维度设置为108,因此最终输出的向量维度为21168;
步骤1-6,模型的投影头h由一个3层的多层感知机(MLP),一个l2归一化层和一个权重归一化的K维的全连接层组成;
步骤1-7,模型的网络g由主干网络f和投影头h组成:g=h°f,学生和教师两个网络共享相同的架构g,但具有不同的参数集θs和θt。
优选地,在其中一个实施例中,步骤1-2中所述图像增强的方法依次应用:随机裁剪然后调整到224×224大小,随机水平翻转、随机颜色抖动、随机高斯模糊和过曝。
进一步地,在其中一个实施例中,步骤2所述在对比学习结合掩码图像建模的自监督人脸表情识别模型上进行无监督的预训练,具体包括:
步骤2-1,初始化模型网络参数及迭代次数;
步骤2-4,掩码图像建模的训练目标可定义为:
其中N为视觉词个数,mi为1表示该图像块被掩码,即只在掩码图像块上计算重建损失;zhog作为模型的目标特征,是一个一维向量,首先在掩码视图的整张图像上提取HOG特征图,然后将其重塑为图像块,掩码图像块的直方图被展平并连接成zho;
步骤2-5,为了保持语义对齐,模型还对不同视图的[CLS]tokens执行交叉熵损失,作为对比损失。通过最小化交叉熵损失来匹配语义相似的信息:
步骤2-6,在教师网络上应用一个sg(stop-gradient)算子停止梯度,只通过学生网络来传播梯度。教师网络的参数θt随学生网络的参数θs进行指数移动平均(EMA),更新规则为:
θt←λθt+(1-λ)θs
其中,λ在训练期间遵循从0.996到1的余弦学习率调整。模型通过动量更新与掩码图像建模的目标共同优化,所以不需要额外的训练阶段作为预处理设置。
这里,优选地参数设置为:在FERplus训练集上用AdamW优化器进行预训练,批大小(batch size)为64。以ViT-S/16为主干网络进行300个epochs无标签预训练。在最初的10个epochs中,学习率线性上升到其基准值,该值由线性缩放规则决定:lr=0.0005×batchsize/256,预热后采用余弦学习率衰减。权重的衰减也遵循从0.04到0.4的余弦调整。温度τs设置为0.1,在前30个epochs中对τt使用了从0.04到0.07的线性预热。随机掩码比例r为所有图像块的40%。所有数据集的图像都被调整为224×224大小。
进一步地,在其中一个实施例中,步骤3所述对预训练后的模型在带标签的验证集上进行线性探测评估和微调评估,具体包括:
步骤3-1,在无监督预训练之后,在去除投影头的教师网络的冻结特征上学习一个监督线性分类器,进行线性探测(Linear Probing)评估;
步骤3-2,对于微调(Fine-tune)评估,基于无监督预训练好的权值来初始化网络,使用有标签的数据来更新包含分类层和特征提取部分的整个网络的参数;
步骤3-3,在有标签的验证集上线性探测和微调100个epochs,以进行评估。
实施例2
示例性地,在本实施例中,使用相同的人脸表情数据集进行实验,将本发明模型与最新的主流自监督学习方法(DINO、iBOT、MAE)进行对比,评估标准采用线性探测和微调;并将本发明模型与最先进的有监督学习方法在FERplus、RAF-DB、CK+数据集上进行对比。
对比实验结果如下表1至表2所示。
表1与自监督学习方法在FERplus数据集上的结果对比
表2与有监督学习方法的结果对比
从表1可以看出,本发明提出的对比学习结合掩码图像建模的自监督人脸表情识别方法以ViT-S/16为主干网络,达到了84.62%的线性探测精度,比DINO和iBOT分别高出2.53%和0.47%;微调精度为89.28%,相比于MAE提升了1.47%,较DINO和iBOT提高约0.2%。总的来说,本方法在线性探测和微调评估上均达到了最先进的性能,且在线性探测精度上的优势更为明显。
从表2可以看出,本方法使用更少的标记数据,在FERplus上优于其他监督训练方法,而在RAF-DB和CK+上取得了与监督方法相当的效果。与RAN和SCN相比,本方法在FERplus上的总改进分别为1.43%和1.27%。与基线方法DLP-CNN相比,本方法在RAF-DB上获得了3.53%的增益。本方法在RAF-DB和CK+上的结果仅略低于最先进的有监督方法,但本方法在没有标签的情况下进行预训练来学习特征,无疑通过减少对输出标签的依赖提供了优势。
图3~图4是在FERplus上预训练的模型可视化注意力图,不同的头部(heads)用不同的颜色来表示。不同头部可以处理图像的不同语义区域,即使被遮挡(如图4的嘴);模型可以突出区分性区域,即与人脸表情信息相关的区域,忽略无关区域(如图3中人脸图像的背景和干扰)。因此模型可以学习到丰富的与人脸表情有关的面部信息,并且聚焦表情关键区域。
综上,本方法通过一个无卷积的孪生网络学习人脸表情表征,学生网络输入经过随机掩码的人脸图像,而教师网络输入未掩码的图像。为了最大化学生网络和教师网络输出之间的一致性,该方法利用对比损失和掩码图像建模损失对孪生网络进行预训练,可以同时理解高级视觉语义和图像内部结构。实验结果表明,该方法可以学习丰富的视觉信息,对于自然场景下的人脸表情识别中的各种与面部表情无关的干扰具有鲁棒性。在不使用额外的预训练权重或监督的情况下,该方法在人脸表情数据集的线性探测和微调评估上都取得了出色的效果。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种对比学习结合掩码图像建模的自监督人脸表情识别方法,其特征在于,所述方法包括以下步骤:
步骤1,构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
步骤2,在自监督人脸表情识别模型上进行无监督的预训练;
步骤3,对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
步骤4,采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别。
2.根据权利要求1所述的对比学习结合掩码图像建模的自监督人脸表情识别方法,其特征在于,步骤1所述构建对比学习结合掩码图像建模的自监督人脸表情识别模型,具体包括:
步骤1-1,计算输入图像x的方向梯度直方图HOG特征zhog;
步骤1-2,对输入图像进行处理,给定输入图像首先分成N=HW/P2个图像块patches:/>其中C是通道的数量,为3个通道RGB;(H,W)是输入图像的分辨率,即(224,224);(P,P)是每个图像块的分辨率,大小为(16,16),N为196;
步骤1-3,将输入图像x进行随机变换,产生两个相关增强视图表示为u和v,作为正样本对,分别送入学生网络gs和教师网络gt;
步骤1-6,使用视觉Transformer ViT-S/16的编码器作为自监督人脸表情识别模型的主干网络f,/16表示图像块大小为16,编码器Encoder层数为12;
步骤1-7,增强视图u和v通过一个线性层转换为一组嵌入序列,在序列中添加一个额外的可学习的视觉词token;该类别视觉词[CLS]的作用是聚合整个序列的信息,不附加任何标签或监督;视图u经过掩码后,图像块视觉词和类别视觉词[CLS]的集合被送入到学生网络的Transformer编码器fs;视图v未经掩码,图像块视觉词v和类别视觉词[CLS]直接送入教师网络的编码器ft;
步骤1-8,自监督人脸表情识别模型的投影头h由一个3层的多层感知机MLP,一个l2归一化层和一个权重归一化的K维的全连接层组成;
步骤1-9,自监督人脸表情识别模型的网络g由主干网络f和投影头h组成,学生网络和教师网络共享相同的架构g,且具有不同的参数集θs和θt;使用大小为224×224的图像对Transformer进行预训练和微调,图像块视觉词的总数N为196,共享投影头的输出维度设置为108,最终输出的向量维度K为21168。
3.根据权利要求2所述的对比学习结合掩码图像建模的自监督人脸表情识别方法,其特征在于,步骤2所述在自监督人脸表情识别模型上进行无监督的预训练,具体包括:
步骤2-1,初始化自监督人脸表情识别模型的网络参数及迭代次数;
步骤2-4,掩码图像建模MIM的训练目标定义为:
其中,为掩码图像建模损失,N为视觉词个数,i表示图像块视觉词序号,mi为1表示该图像块被掩码,mi为0表示该图像块未掩码,即只在掩码图像块上计算重建损失;zhog作为自监督人脸表情识别模型的目标特征,是一个一维向量,首先在掩码视图的整张图像上提取HOG特征图,然后将其重塑为图像块,掩码图像块的直方图被展平并连接成zhog;
步骤2-6,在教师网络上应用一个停止梯度算子,只通过学生网络来传播梯度;教师网络的参数θt随学生网络的参数θs进行指数移动平均EMA,更新规则为:
θt←λθt+(1-λ)θs
其中,λ为超参数,在训练期间遵循从0.996到1的余弦学习率调整;自监督人脸表情识别模型通过动量更新与掩码图像建模的目标共同优化,所以不需要额外的训练阶段作为预处理设置;
4.根据权利要求4所述的对比学习结合掩码图像建模的自监督人脸表情识别方法,其特征在于,步骤3所述对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估,具体包括:
步骤3-1,在无监督预训练之后,在去除投影头的教师网络的冻结特征上学习一个监督线性分类器,进行线性探测评估;
步骤3-2,对于微调评估,基于无监督预训练好的教师网络编码器的权值,在去除投影头的教师网络上学习一个监督线性分类器,使用有标签的验证集数据来更新教师网络和分类层的参数,即不冻结教师网络的参数;
步骤3-3,在有标签的验证集上线性探测和微调100个迭代次数epochs,以进行线性探测和微调评估。
5.一种对比学习结合掩码图像建模的自监督人脸表情识别装置,其特征在于,该装置包括以下模块:
模型构建模块,用于构建对比学习结合掩码图像建模的自监督人脸表情识别模型;
模型训练模块,用于在自监督人脸表情识别模型上进行无监督的预训练;
模型评估模块,用于对预训练后的自监督人脸表情识别模型在带标签的验证集上进行线性探测评估和微调评估;
模型识别模块,用于采用微调评估后的自监督人脸表情识别模型,对输入的人脸图像进行表情识别;
所述装置在人脸表情识别的过程中,执行权利要求1~4任一项所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
6.一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项的对比学习结合掩码图像建模的自监督人脸表情识别方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至4中任一项所述对比学习结合掩码图像建模的自监督人脸表情识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194562.3A CN116386104A (zh) | 2023-03-03 | 2023-03-03 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310194562.3A CN116386104A (zh) | 2023-03-03 | 2023-03-03 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386104A true CN116386104A (zh) | 2023-07-04 |
Family
ID=86968366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310194562.3A Pending CN116386104A (zh) | 2023-03-03 | 2023-03-03 | 对比学习结合掩码图像建模的自监督人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386104A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115750A (zh) * | 2023-09-21 | 2023-11-24 | 广州民航信息技术有限公司 | 一种改进ViT在X光安检图违禁品识别的应用 |
CN117437518A (zh) * | 2023-11-03 | 2024-01-23 | 苏州鑫康成医疗科技有限公司 | 基于glnet和自注意力的心脏超声图像识别方法 |
CN117611516A (zh) * | 2023-09-04 | 2024-02-27 | 北京智芯微电子科技有限公司 | 图像质量评估、人脸识别、标签生成及确定方法和装置 |
CN118014047A (zh) * | 2024-04-07 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 编码器的训练方法、装置、计算机设备及存储介质 |
CN118230398A (zh) * | 2024-05-24 | 2024-06-21 | 中国科学技术大学 | 一种微表情识别模型的训练方法、识别方法及相关设备 |
CN118351400A (zh) * | 2024-06-18 | 2024-07-16 | 武汉互创联合科技有限公司 | 基于多任务掩码特征建模的胚胎图像自动聚焦方法及装置 |
CN118570779A (zh) * | 2024-07-31 | 2024-08-30 | 苏州耀腾光电有限公司 | 一种自监督学习的驾驶员分心行为检测方法 |
-
2023
- 2023-03-03 CN CN202310194562.3A patent/CN116386104A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611516A (zh) * | 2023-09-04 | 2024-02-27 | 北京智芯微电子科技有限公司 | 图像质量评估、人脸识别、标签生成及确定方法和装置 |
CN117115750A (zh) * | 2023-09-21 | 2023-11-24 | 广州民航信息技术有限公司 | 一种改进ViT在X光安检图违禁品识别的应用 |
CN117115750B (zh) * | 2023-09-21 | 2024-01-30 | 广州民航信息技术有限公司 | 一种改进ViT在X光安检图违禁品识别的应用 |
CN117437518A (zh) * | 2023-11-03 | 2024-01-23 | 苏州鑫康成医疗科技有限公司 | 基于glnet和自注意力的心脏超声图像识别方法 |
CN118014047A (zh) * | 2024-04-07 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 编码器的训练方法、装置、计算机设备及存储介质 |
CN118230398A (zh) * | 2024-05-24 | 2024-06-21 | 中国科学技术大学 | 一种微表情识别模型的训练方法、识别方法及相关设备 |
CN118230398B (zh) * | 2024-05-24 | 2024-07-26 | 中国科学技术大学 | 一种微表情识别模型的训练方法、识别方法及相关设备 |
CN118351400A (zh) * | 2024-06-18 | 2024-07-16 | 武汉互创联合科技有限公司 | 基于多任务掩码特征建模的胚胎图像自动聚焦方法及装置 |
CN118570779A (zh) * | 2024-07-31 | 2024-08-30 | 苏州耀腾光电有限公司 | 一种自监督学习的驾驶员分心行为检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gogić et al. | Fast facial expression recognition using local binary features and shallow neural networks | |
CN116386104A (zh) | 对比学习结合掩码图像建模的自监督人脸表情识别方法 | |
Li et al. | Blended emotion in-the-wild: Multi-label facial expression recognition using crowdsourced annotations and deep locality feature learning | |
Kola et al. | A novel approach for facial expression recognition using local binary pattern with adaptive window | |
Han et al. | A unified metric learning-based framework for co-saliency detection | |
Liu et al. | Multi-objective convolutional learning for face labeling | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
Sadeghi et al. | HistNet: Histogram-based convolutional neural network with Chi-squared deep metric learning for facial expression recognition | |
Yan et al. | Cross-domain facial expression recognition based on transductive deep transfer learning | |
Zhu et al. | IExpressNet: Facial expression recognition with incremental classes | |
Sun et al. | Scene categorization using deeply learned gaze shifting kernel | |
Khalid et al. | DFGNN: An interpretable and generalized graph neural network for deepfakes detection | |
Shanthi et al. | Algorithms for face recognition drones | |
Liu et al. | Lightweight ViT model for micro-expression recognition enhanced by transfer learning | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Bie et al. | Facial expression recognition from a single face image based on deep learning and broad learning | |
Bhattacharya | A survey on: facial expression recognition using various deep learning techniques | |
Zhang et al. | Considering three elements of aesthetics: Multi-task self-supervised feature learning for image style classification | |
Wang et al. | C2DNDA: A deep framework for nonlinear dimensionality reduction | |
Cao et al. | An Improved YOLOv4 Lightweight Traffic Sign Detection Algorithm | |
Chen et al. | Dual subspace manifold learning based on GCN for intensity-invariant facial expression recognition | |
Davoudi et al. | Ancient document layout analysis: Autoencoders meet sparse coding | |
Kaleem et al. | A Comprehensive Review of Knowledge Distillation in Computer Vision | |
Borgalli et al. | Review on learning framework for facial expression recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |