CN116311483A - 基于局部面部区域重构和记忆对比学习的微表情识别方法 - Google Patents

基于局部面部区域重构和记忆对比学习的微表情识别方法 Download PDF

Info

Publication number
CN116311483A
CN116311483A CN202310588032.7A CN202310588032A CN116311483A CN 116311483 A CN116311483 A CN 116311483A CN 202310588032 A CN202310588032 A CN 202310588032A CN 116311483 A CN116311483 A CN 116311483A
Authority
CN
China
Prior art keywords
micro
optical flow
representing
sequence
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310588032.7A
Other languages
English (en)
Other versions
CN116311483B (zh
Inventor
张鹏
武晨曦
包永堂
单彩峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202310588032.7A priority Critical patent/CN116311483B/zh
Publication of CN116311483A publication Critical patent/CN116311483A/zh
Application granted granted Critical
Publication of CN116311483B publication Critical patent/CN116311483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部面部区域重构和记忆对比学习的微表情识别方法,属于计算机视觉领域,包括如下步骤:步骤1、获取现有的公开数据集的微表情视频序列,并进行处理得到起始帧和顶点帧图像对序列;步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型;步骤3、对微表情识别模型进行预训练进行微调,同时构建总体损失函数来约束识别模型,进而训练优化模型,得到训练完成的微表情识别模型;步骤4、获取当前人的面部表情样本,基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。本发明通过局部面部区域重构和记忆对比学习提高了微表情识别模型的分类准确率。

Description

基于局部面部区域重构和记忆对比学习的微表情识别方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于局部面部区域重构和记忆对比学习的微表情识别方法。
背景技术
面部表情在推断情绪方面发挥着至关重要的作用,这有助于理解他人的意图。面部表情分为宏表情和微表情。从时间和空间上看,宏表情持续时间更长,涉及的面部区域更大,人们可以主观上控制宏表情,因此宏表情传递的不一定是真实的情感。然而,微表情是潜意识和不自主的,它的最短持续时间是1/25秒。这些特点使得微表情所传达的信息比宏表情更准确、真实。因此,微表情识别在心理分析和人际交往等领域中有重要的应用前景。
目前,大多数关于微表情识别的研究和方法通过增加训练数据来减少过拟合现象的发生,但是这种方式需要采集和标注大量微表情数据,造成严重的人力和时间成本浪费,且分类准确率低。为了学习微表情相关特征,一部分微表情识别研究根据先验知识获取感兴趣区域,一部分研究通过使用注意力机制让网络自动学习感兴趣区域,但是忽略了样本之间的差异和过度关注相似性区域。已有的基于对比学习的微表情识别工作都是从小批量样本特征的角度进行对比学习,没有考虑数据集的全局有效类别特征方面的有用信息。
发明内容
为了解决上述问题,本发明提出了一种基于局部面部区域重构和记忆对比学习的微表情识别方法,利用局部面部区域重构缓解模型过拟合现象和捕捉面部表情的局部区域关系,并与有监督的记忆对比学习一起训练模型提高微表情识别模型的判别性,从而增强微表情识别模型的性能,使模型在有限的微表情数据下提取具有判别性的特征,提高分类准确率。
本发明的技术方案如下:
一种基于局部面部区域重构和记忆对比学习的微表情识别方法,包括如下步骤:
步骤1、获取现有的公开数据集的微表情视频序列,并进行处理得到起始帧和顶点帧图像对序列;
步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型;
步骤3、对微表情识别模型进行预训练进行微调,同时构建总体损失函数来约束识别模型,进而训练优化模型,得到训练完成的微表情识别模型;
步骤4、获取当前人的面部表情样本,基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。
进一步地,微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块;数据预处理模块提取处理后图像对序列的光流,构建光流输入序列并进行格式转换;局部面部区域重构模块包括编码器、使用Mask Token替换Patch Token的随机掩蔽操作、单独的Transformer块和解码器;记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典;分类模块包括由全连接层组成的多层感知机;其中,Patch Token 表示图像的小块转化的向量,Mask Token是可学习的零向量。
进一步地,步骤1的具体过程如下:
步骤1.1、首先在人脸定位的基础上,利用Dlib视觉库确定面部68个关键特征点,进行人脸裁剪和人脸矫正,实现人脸对齐;
步骤1.2、然后采用旋转、翻转、亮度变化、随机裁剪的方式进行数据增强;
步骤1.3、最后根据数据集的标注文件找到数据集中每个样本的起始帧和顶点帧,并存放在列表中,进而构建得到起始帧和顶点帧图像对序列。
进一步地,步骤2中,微表情识别模型的具体工作流程为:
步骤2.1、由微表情视频序列中的起始帧和顶点帧经过全变分光流估计算法得到光流输入序列,并进行格式转换;
步骤2.2、将转换后的序列作为局部面部区域重构模块的输入,转换后的序列首先经过编码器进行特征提取,提取得到特征嵌入,对特征嵌入进行随机掩蔽操作,得到包含Mask Token和Patch Token的特征嵌入组合序列;特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列,进行重构的同时,特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征;
步骤2.3、分类特征经过记忆对比学习模块约束网络提取区分性的特征,并经过分类模块进行微表情类别的预测。
进一步地,步骤2.1的具体过程为:
步骤2.1.1、采用全变分光流估计算法获取起始帧和顶点帧之间的光流估计
Figure SMS_6
,其中,/>
Figure SMS_7
表示图像的横坐标,/>
Figure SMS_8
表示图像的宽,/>
Figure SMS_9
表示图像的纵坐标,/>
Figure SMS_10
表示图像的高度,/>
Figure SMS_11
表示水平光流场,
Figure SMS_12
,/>
Figure SMS_1
表示垂直光流场,/>
Figure SMS_2
,/>
Figure SMS_3
表示时间;将光流幅值/>
Figure SMS_4
表示为:
Figure SMS_5
步骤2.1.2、将水平光流场
Figure SMS_13
、垂直光流场/>
Figure SMS_14
和光流幅度/>
Figure SMS_15
进行级联生成光流输入图像/>
Figure SMS_16
步骤2.1.3、将光流输入图像划分为
Figure SMS_17
个/>
Figure SMS_20
尺寸的Patch拉平的/>
Figure SMS_21
的序列,/>
Figure SMS_23
表示Patch的个数,Patch是将输入图像划分为固定大小的小块,/>
Figure SMS_24
表示Patch的尺寸,
Figure SMS_25
,/>
Figure SMS_26
经过可训练的线性层投影到/>
Figure SMS_18
维嵌入空间转变成向量格式,/>
Figure SMS_19
表示通道数;然后在每个Patch嵌入的基础上加上位置嵌入;使用一个随机初始化的ClassToken总结其他Token上的信息;最终得到所需的光流输入图像序列/>
Figure SMS_22
表示为:
Figure SMS_27
(1);
其中,
Figure SMS_28
是Class Token,Class Token表示图像类别语义信息的向量;/>
Figure SMS_29
表示第/>
Figure SMS_30
个Patch的嵌入,/>
Figure SMS_31
是Patch嵌入投影,/>
Figure SMS_32
是位置嵌入;Token表示将文本和图像中每个单词和Patch转化为一个唯一的标识符。
进一步地,步骤2.2中,编码器包含三个串联的Transformer块,每个Transformer块均由多头自注意力和多层感知机交替组成,第
Figure SMS_33
个Transformer块的输出/>
Figure SMS_34
表示为:
Figure SMS_35
(2);
Figure SMS_36
(3);
其中,
Figure SMS_37
表示输入和经过层归一化和多头自注意力操作后的残差连接输出,
Figure SMS_38
表示多头自注意力机制,/>
Figure SMS_39
表示层归一化,/>
Figure SMS_40
表示第/>
Figure SMS_41
个Transformer块的输出,/>
Figure SMS_42
表示Transformer块的总个数,/>
Figure SMS_43
表示多层感知机;
将编码器输出的特征嵌入记作:
Figure SMS_44
(4);
其中,
Figure SMS_45
代表编码器输出的特征嵌入的第/>
Figure SMS_46
个Patch的特征嵌入;
然后,按一定的概率
Figure SMS_47
选择随机噪声值较大的位置记作随机掩蔽的索引,索引记作/>
Figure SMS_48
,其中/>
Figure SMS_49
,/>
Figure SMS_50
表示第/>
Figure SMS_51
个索引,/>
Figure SMS_52
表示被掩蔽的特征嵌入的总个数,/>
Figure SMS_53
表示随机掩蔽的概率;
接下来,用基于这些索引的可学习的零向量Mask Token替换相应位置的PatchToken,其中Mask Token记作
Figure SMS_54
最后,将所有特征嵌入进行连接,得到特征嵌入组合序列
Figure SMS_55
,将/>
Figure SMS_56
作为解码器和单独的Transformer块的输入:
Figure SMS_57
(5);
其中,
Figure SMS_59
表示编码器输出的特征嵌入的Class Token特征嵌入;/>
Figure SMS_60
表示编码器输出的特征嵌入的第1个Patch的特征嵌入;/>
Figure SMS_61
表示/>
Figure SMS_62
位置的Mask Token;/>
Figure SMS_63
表示/>
Figure SMS_64
位置的Mask Token;/>
Figure SMS_65
代表编码器输出的特征嵌入的第/>
Figure SMS_58
个Patch的特征嵌入;
解码器由三个Transformer块串联组成;使用特征嵌入组合序列
Figure SMS_66
作为解码器和单独的Transformer块的输入,经过解码器进行局部面部区域的重构任务得到重构后的光流序列,同时经过单独的Transformer块获得分类特征,分类特征一方面用于计算存储在记忆字典中的类中心,另一方面直接传入全连接层组成的多层感知机进行微表情分类预测。
进一步地,步骤2.3中,在模型的训练中引入了记忆对比学习,在历史记忆字典中存储每个类别的类中心
Figure SMS_68
,类别/>
Figure SMS_70
的类中心/>
Figure SMS_71
是每一个周期此类别的所有训练样本得到的特征集合/>
Figure SMS_73
的平均值,其中/>
Figure SMS_74
,/>
Figure SMS_75
表示类别/>
Figure SMS_76
的特征,/>
Figure SMS_67
表示类别/>
Figure SMS_69
的样本个数;/>
Figure SMS_72
表示为:
Figure SMS_77
(6);
其中,
Figure SMS_78
是单独的Transformer块输出的分类特征。
进一步地,步骤3的具体过程如下:
步骤3.1、使用海量人脸数据集CelebA进行重建任务预训练,然后采用微表情光流数据序列进行微调;根据留一验证法划分微表情识别模型训练的训练集和测试模型效果的测试集,也就是根据数据集标注文件中受试者标记选择一个受试者的样本作为测试集,其他的受试者的样本作为训练集;
步骤3.2、在训练期间,固定解码器参数以约束网络以提取有价值的特征;在随机掩蔽操作之后,解码器促进剩余特征学习与掩蔽特征的关系,使得网络模型具有对局部面部区域关系建模的能力;
步骤3.3、构建总体损失函数,约束识别模型;其中重建任务受均方误差损失的约束,记忆对比学习模块受聚类对比损失的约束,分类模块受交叉熵损失的约束。
进一步地,步骤3.3的具体过程如下:
步骤3.3.1、在模型的预训练和表情分类阶段,采用均方误差损失作为特征嵌入组合序列中Mask Token的像素重建目标函数,均方误差损失
Figure SMS_79
的目标函数表示为:
Figure SMS_80
(7);
其中,
Figure SMS_81
是Mask Token重建后得到的重构后的光流序列中的特征嵌入,/>
Figure SMS_82
是Mask Token对应光流输入图像区域的特征嵌入,/>
Figure SMS_83
表示第/>
Figure SMS_84
个Mask Token的索引,/>
Figure SMS_85
表示Mask Token的总个数;
步骤3.3.2、聚类对比损失
Figure SMS_86
表示为:
Figure SMS_87
(8);
其中,
Figure SMS_88
表示指数函数,/>
Figure SMS_89
是温度超参数,/>
Figure SMS_90
是单独的Transformer块输出的分类特征/>
Figure SMS_91
对应样本的真值,/>
Figure SMS_92
表示类别/>
Figure SMS_93
的样本个数;通过历史记忆字典中的类中心和每次迭代的批量样本每类特征的平均值能够计算得到动态更新后的记忆字典,动态更新后的记忆字典的类中心/>
Figure SMS_94
为:
Figure SMS_95
(9);
其中,
Figure SMS_96
表示特征更新的动量参数,/>
Figure SMS_97
表示批量中和第/>
Figure SMS_98
个样本对应的类别相同的样本特征的均值,/>
Figure SMS_99
表示更新;
步骤3.3.3、用于表情分类的交叉熵损失函数
Figure SMS_100
定义为:
Figure SMS_101
(10);
其中,
Figure SMS_102
为第/>
Figure SMS_103
个样本对应的真实标签,/>
Figure SMS_104
为预测的微表情类别,/>
Figure SMS_105
表示样本个数
Figure SMS_106
的索引;
步骤3.3.4、最后将
Figure SMS_107
、/>
Figure SMS_108
和/>
Figure SMS_109
的和作为网络训练的总体损失函数
Figure SMS_110
Figure SMS_111
(11);
其中,
Figure SMS_112
表示均方误差损失/>
Figure SMS_113
权重系数,/>
Figure SMS_114
表示聚类对比损失/>
Figure SMS_115
的权重系数;
通过总体损失函数对微表情识别模型进行约束,训练优化获得有效和鲁棒的微表情识别模型。
本发明所带来的有益技术效果如下。
本发明提出一个新颖的基于Transformer结构的微表情深度学习识别方法,进一步挖掘Transformer结构在微表情识别方面的潜能;将局部面部区域重构模块作为辅助任务和正则化方法,能有效防止模型过拟合和探索表情的局部区域之间的关系,节省人力和时间成本;本发明在微表情识别中引入有监督的记忆对比学习算法,利用存储在记忆中的所有训练数据特征计算得到类中心,以提供历史的全局信息来促进网络优化,进一步提升最终的分类效果。
附图说明
图1为本发明基于局部面部区域重构和记忆对比学习的微表情识别方法的流程图。
图2为本发明基于局部面部区域重构和记忆对比学习的微表情识别模型的网络结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
首先给出如下术语的解释:
起始帧:微表情视频序列以起始帧为开始,通常表现中性表情。
顶点帧:微表情视频序列中变化强度最大的一帧。
Transformer:Transformer是一种基于自注意力机制的序列到序列模型,用于处理序列数据。在处理输入图像时,先将其分成一个个固定大小的图像块,并将每个图像块看作是序列中的一个词,然后利用Transformer进行特征提取和分类。
全变分光流估计算法:全变分光流估计是由Zach、Pock和Bischof在2007年提出的,它通过最小化全变分正则化项和数据项之和的能量函数来求解光流场。全变分正则化项利用了图像中像素之间的空间关系,可以有效地平滑光流场并减少噪声。
Dlib视觉库:Dlib是一个开源的C++计算机视觉库,旨在提供各种用于图像处理和机器学习应用的算法和工具。它包括用于人脸检测、人脸关键点定位、对象跟踪、姿态估计和图像分类等任务的模块和函数。
68个关键特征点:68个关键特征点分布在眉毛、眼睛、鼻子、嘴巴、下巴、脸颊,可以准确描述人脸的各个部位。
Token:Token表示将文本和图像中每个单词和Patch(Patch是将输入图像划分为固定大小的小块)转化为一个唯一的标识符。Patch Token 表示图像的小块转化的向量,Class Token表示图像类别语义信息的向量,Mask Token是可学习的零向量。
温度超参数
Figure SMS_116
:用来调整Softmax函数的平滑程度。温度系数越大,概率分布曲线越平滑;反之,曲线越尖锐。
CelebA:CelebA是一个大规模的人脸数据集,包含约20万个名人和非名人的人脸图像。每张图像都有40个属性注释,例如年龄、性别、眼镜和面部表情等。CelebA被广泛用于人脸识别、属性识别、人脸合成和其他计算机视觉任务的训练和测试。
留一验证:全称Leave-One-Subject-Out(LOSO),在微表情识别方向LOSO表示每次取一个受试者的样本进行测试,而其余的受试者样本进行训练。
聚类对比损失:聚类对比损失属于对比损失。对比损失是指通过最大化同类别样本之间的相似性,并将不同类别样本之间的相似性最小化来学习嵌入空间。聚类对比损失通过最大化相同类别样本之间的相似性,并将不同类别样本之间的相似性最小化,促进了聚类。
如图1所示,一种基于局部面部区域重构和记忆对比学习的微表情识别方法,包括步骤如下:
步骤1、获取现有的公开数据集的微表情视频序列,并进行处理得到起始帧和顶点帧图像对序列。
步骤1的具体过程如下:
步骤1.1、首先在人脸定位的基础上,利用Dlib视觉库确定面部68个关键特征点,进行人脸裁剪和人脸矫正,实现人脸对齐;
步骤1.2、然后采用旋转、翻转、亮度变化、随机裁剪的方式进行数据增强;
步骤1.3、最后根据数据集的标注文件找到数据集中每个样本的起始帧和顶点帧,并存放在列表中,进而构建得到起始帧和顶点帧图像对序列。
步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型。具体过程如下:
如图2所示,构建的基于局部面部区域重构和记忆对比学习的微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块。
其中,数据预处理模块主要用于提取预处理后图像对序列的光流,构建光流输入序列并进行格式转换;局部面部区域重构模块包括编码器、使用Mask Token替换PatchToken的随机掩蔽操作、单独的Transformer块和解码器;记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典;分类模块包括由全连接层实现的多层感知机。
该微表情识别模型的具体工作流程为:
步骤2.1、由微表情视频序列中的起始帧和顶点帧经过全变分光流估计算法得到光流,并进行格式转换。具体过程为:
步骤2.1.1、采用全变分光流估计算法获取起始帧和顶点帧之间的光流估计
Figure SMS_118
,其中,/>
Figure SMS_119
表示图像的横坐标,/>
Figure SMS_121
表示图像的宽,/>
Figure SMS_122
表示图像的纵坐标,/>
Figure SMS_124
表示图像的高度,/>
Figure SMS_125
表示水平光流场,
Figure SMS_128
,/>
Figure SMS_117
表示垂直光流场,/>
Figure SMS_120
,/>
Figure SMS_123
表示时间;将光流幅值/>
Figure SMS_126
表示为:
Figure SMS_127
步骤2.1.2、将水平光流场
Figure SMS_129
、垂直光流场/>
Figure SMS_130
和光流幅度/>
Figure SMS_131
进行级联生成光流输入图像/>
Figure SMS_132
步骤2.1.3、将光流输入图像划分为
Figure SMS_134
个/>
Figure SMS_136
尺寸的Patch拉平的/>
Figure SMS_137
的序列,/>
Figure SMS_138
表示Patch块的个数,/>
Figure SMS_140
表示Patch的尺寸,/>
Figure SMS_141
,/>
Figure SMS_142
经过可训练的线性层投影到/>
Figure SMS_133
维嵌入空间转变成向量格式,/>
Figure SMS_135
表示通道数。然后在每个Patch向量的基础上加上位置向量,以保留住原始图像中Patch的位置信息。使用一个随机初始化的Class Token总结其他Token上的信息,以免偏向某个Patch Token信息。最终得到的网络所需的光流输入图像序列/>
Figure SMS_139
被表示为:
Figure SMS_143
(1);
其中,
Figure SMS_144
是Class Token,/>
Figure SMS_145
表示第/>
Figure SMS_146
个Patch的嵌入,/>
Figure SMS_147
是Patch嵌入投影,/>
Figure SMS_148
是位置嵌入。
步骤2.2、将转换后的序列作为局部面部区域重构模块的输入,转换后的序列首先经过编码器进行特征提取,提取得到特征嵌入,对特征嵌入进行随机掩蔽操作,得到包含Mask Token和Patch Token的特征嵌入组合序列;特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列,进行重构的同时,特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征。
由于微表情数据少,浅层网络表现出更优的识别性能,因此编码器包含三个串联的Transformer块,每个Transformer块均由多头自注意力和多层感知机交替组成,第
Figure SMS_149
个Transformer块的输出/>
Figure SMS_150
表示为:
Figure SMS_151
(2);
Figure SMS_152
(3);
其中,
Figure SMS_153
表示输入和经过层归一化和多头自注意力操作后的残差连接输出,
Figure SMS_154
表示多头自注意力,/>
Figure SMS_155
表示层归一化,/>
Figure SMS_156
表示第/>
Figure SMS_157
个Transformer块的输出,/>
Figure SMS_158
表示Transformer块的总个数,/>
Figure SMS_159
表示多层感知机;
Transformer的结构使得随机掩蔽操作比较容易实现。
为了让模型学习更丰富的语义信息,将编码器输出的特征嵌入记作:
Figure SMS_160
(4);
其中,
Figure SMS_161
代表编码器输出的特征嵌入的第/>
Figure SMS_162
个Patch的特征嵌入;
然后,按一定的概率
Figure SMS_163
选择随机噪声值较大的位置记作随机掩蔽的索引,索引记作/>
Figure SMS_164
,其中/>
Figure SMS_165
,/>
Figure SMS_166
表示第/>
Figure SMS_167
个索引,/>
Figure SMS_168
表示被掩蔽的特征嵌入的总个数,/>
Figure SMS_169
表示随机掩蔽的概率。
接下来,用基于这些索引的可学习的零向量Mask Token替换相应位置的PatchToken,其中Mask Token记作
Figure SMS_170
最后,将所有特征嵌入进行连接,得到特征嵌入组合序列
Figure SMS_171
,将/>
Figure SMS_172
作为解码器和单独的Transformer块的输入:
Figure SMS_173
(5);
其中,
Figure SMS_175
表示编码器输出的特征嵌入的Class Token特征嵌入;/>
Figure SMS_176
表示编码器输出的特征嵌入的第1个Patch的特征嵌入;/>
Figure SMS_177
表示/>
Figure SMS_178
位置的Mask Token;/>
Figure SMS_179
表示/>
Figure SMS_180
位置的Mask Token;/>
Figure SMS_181
代表编码器输出的特征嵌入的第/>
Figure SMS_174
个Patch的特征嵌入。
在现有的丢弃结构下,添加由三个Transformer块串联组成的解码器,用于构建预训练的自监督重建任务。当重建时,解码器更关注小范围相邻区域中的特征信息。出于这个原因,使用特征嵌入组合序列
Figure SMS_182
作为解码器和单独的Transformer块的输入,经过解码器进行局部面部区域的重构任务得到重构后的光流序列,同时经过单独的Transformer块获得分类特征,分类特征一方面用于计算存储在记忆字典中的类中心,另一方面直接传入全连接层组成的多层感知机进行微表情分类预测。
步骤2.3、分类的特征经过记忆对比学习模块约束网络提取区分性的特征,并经过多层感知机组成的分类模块进行微表情类别的预测。
为了充分利用样本信息得到具有区分性的特征,在模型的训练中引入了记忆对比学习。在历史记忆字典中存储每个类别的类中心
Figure SMS_184
,类别/>
Figure SMS_185
的类中心/>
Figure SMS_187
是每个周期此类别的所有训练样本得到的特征集合/>
Figure SMS_189
的平均值,其中/>
Figure SMS_190
,/>
Figure SMS_191
表示类别/>
Figure SMS_192
的特征,/>
Figure SMS_183
表示类别/>
Figure SMS_186
的样本个数;/>
Figure SMS_188
表示为:
Figure SMS_193
(6);
其中,
Figure SMS_194
是单独的Transformer块输出的分类特征。
步骤3、对微表情识别模型进行预训练,对模型进行微调,并构建总体损失函数来约束识别模型,进而训练优化模型,得到训练完成的微表情识别模型。具体过程如下:
步骤3.1、使用海量人脸数据集CelebA进行重建任务预训练,然后采用微表情光流数据序列进行微调。根据留一验证法划分微表情识别模型训练的训练集和测试模型效果的测试集,也就是根据数据集标注文件中受试者标记选择一个受试者的样本作为测试集,其他的受试者的样本作为训练集;
步骤3.2、在训练期间,固定解码器参数以约束网络以提取有价值的特征。在随机掩蔽操作之后,解码器促进剩余特征学习与掩蔽特征的关系,使得网络模型具有对局部面部区域关系建模的能力。
步骤3.3、构建总体损失函数,约束识别模型;其中重建任务受均方误差损失的约束,记忆对比学习模块受聚类对比损失的约束,分类模块受交叉熵损失的约束。具体过程如下:
步骤3.3.1、在模型的预训练和表情分类阶段,采用均方误差损失作为特征嵌入组合序列中Mask Token的像素重建目标函数,均方误差损失
Figure SMS_195
的目标函数表示为:
Figure SMS_196
(7);
其中,
Figure SMS_197
是Mask Token重建后得到的重构后的光流序列中的特征嵌入,/>
Figure SMS_198
是Mask Token对应光流输入图像区域的特征嵌入,/>
Figure SMS_199
表示第/>
Figure SMS_200
个Mask Token的索引,/>
Figure SMS_201
表示Mask Token的总个数。
步骤3.3.2、聚类对比损失用于引导网络优化,旨在让单独的Transformer块输出的分类特征
Figure SMS_202
与其类别的类中心更加相似,与其他类别的类中心差异更大。聚类对比损失
Figure SMS_203
可表示为:
Figure SMS_204
(8);
其中,
Figure SMS_205
表示指数函数,/>
Figure SMS_206
是温度超参数,/>
Figure SMS_207
是/>
Figure SMS_208
对应样本的真值。同时,通过历史记忆字典中的类中心和每次迭代的批量样本每类特征的平均值能够计算得到动态更新后的记忆字典,动态更新后的记忆字典的类中心/>
Figure SMS_209
为:
Figure SMS_210
(9);
其中,
Figure SMS_211
表示特征更新的动量参数,/>
Figure SMS_212
表示批量中和第/>
Figure SMS_213
个样本对应的类别相同的样本特征均值,/>
Figure SMS_214
表示更新。
步骤3.3.3、用于表情分类的交叉熵损失函数
Figure SMS_215
定义为:
Figure SMS_216
(10);
其中,
Figure SMS_217
为第/>
Figure SMS_218
个样本对应的真实标签,/>
Figure SMS_219
为预测的微表情类别,/>
Figure SMS_220
表示样本个数
Figure SMS_221
的索引。
步骤3.3.4、最后将
Figure SMS_222
、/>
Figure SMS_223
和/>
Figure SMS_224
的和作为网络训练的总体损失函数
Figure SMS_225
Figure SMS_226
(11);
其中,
Figure SMS_227
表示/>
Figure SMS_228
权重系数,/>
Figure SMS_229
表示/>
Figure SMS_230
的权重系数。
通过总体损失函数对微表情识别模型进行约束,可以训练优化获得有效和鲁棒的微表情识别模型。
步骤4、获取当前人的面部表情样本,基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。
本发明实施例中,步骤1获得的光流输入图像大小设置为224
Figure SMS_231
224,将图片分割成不重叠的16/>
Figure SMS_232
16大小的Patch,则微表情识别模型的输入大小为/>
Figure SMS_233
196/>
Figure SMS_234
784,经过局部面部区域重构模块后用于分类和参与对比学习的特征大小为25/>
Figure SMS_235
784,其中25为批量大小,196为不重叠的Patch 分别放入196个通道,784是每个Patch转化为特征嵌入的大小。本发明是在PyTorch框架下实现的,使用Adam算法对模型进行优化,学习率设置为3.5e-4,最大迭代次数为60。
为了验证本发明的可行性与优越性,进行了如下对比实验。对比实验均选取CASMEII、SAMM和SMIC三个微表情数据集。
对比实验1:复合数据评估。
选取LBP-TOP、CapsuleNet、Dual Inception、FeatRef、BDCNN和SLSTT五个方法进行复合数据评估标准下的比较。LBP-TOP方法的内容为:使用局部二值模式提取特征,并进行微表情识别。CapsuleNet方法的内容为:使用胶囊网学习图像部分和整体之间的关系,并进行微表情识别。Dual Inception方法的内容为:将光流特征的水平和垂直分量经过双流的以Inception块组成的网络提取特征,并进行微表情识别。FeatRef方法是一种新的基于表情特征学习和融合的微表情识别特征细化方法,由一个具有注意力机制的表情特定特征学习模块和一个分类特征模块组成。BDCNN方法提出一种新的具有隐式深度特征增强的分块卷积网络,主要是在模型中将每个图像划分为不重叠小块,然后依次对这些小块进行卷积和池化操作。SLSTT方法提出了一种基于Transformer结构的捕捉局部和全局时空特征的网络结构,第一次将Transformer结构用于微表情识别。表1为本发明方法与其他五个方法在复合数据评估标准下的比较结果。复合数据集是CASMEII、SAMM和SMIC三个微表情数据集将原始表情重新划分为消极、积极、惊讶三种表情得到的集合。
表1 本发明方法与其他五个方法在复合数据评估标准下的比较结果;
Figure SMS_236
F1指F1分数(F1 Score),是统计学中用来衡量二分类(或多任务二分类)模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,值越大意味着模型越好。从表1可以看出,本发明方法具有很高的识别率,与其他方法相比具有显著优势,其中在CASMEII数据集上的识别准确率达到了96.49%。
对比实验2:单数据集评估。
选取LBP-TOP、DSSN、KFC、FeatRef、SLSTT五个方法进行单数据集评估标准下的比较。DSSN方法通过不同形式的光流作为轻量级的双流浅层网络的输入提取微表情相关特征。KFC方法是将由光流计算得到的一阶和二阶运动特征作为并行浅层网络的输入,并提出了组成感知模块引导网络学习表情相关特征。表2为本发明方法与其他五个方法在单数据集评估标准下的比较。
表2 本发明方法与其他五个方法在单数据集评估标准下的比较结果;
Figure SMS_237
从表2可以看出,本发明提出的微表情自动识别方法与现有的光流为输入的深度学习方法进行比较时,在CASMEII数据集和SMIC数据集上取得了最好的结果,SAMM取得了次优结果。
实验3:分类准确率实验。
本发明方法在单数据集评估标准下最优参数得到了混淆矩阵,混淆矩阵展示了使用本发明的微表情自动识别方法的每个类别的分类情况。混淆矩阵的具体内容如下:
CASMEII数据集中,矩阵对角线位置的数据结果为:真实标签为高兴,预测标签为高兴的准确率为80.65%;真实标签为厌恶,预测标签为厌恶的准确率为83.87%;真实标签为压抑,预测标签为压抑的准确率为74.08%;真实标签为惊喜,预测标签为惊喜的准确率为96%;真实标签为其他,预测标签为其他的准确率为82.83%。
SAMM数据集中,矩阵对角线位置的数据结果为:真实标签为生气,预测标签为生气的准确率为96.43%;真实标签为蔑视,预测标签为蔑视的准确率为45.45%;真实标签为高兴,预测标签为高兴的准确率为53.85%;真实标签为惊喜,预测标签为惊喜的准确率为86.67%;真实标签为其他,预测标签为其他的准确率为53.85%。
SMIC数据集中,矩阵对角线位置的数据结果为:真实标签为消极,预测标签为消极的准确率为72.73%;真实标签为积极,预测标签为积极的准确率为84.31%;真实标签为惊讶,预测标签为惊讶的准确率为82.5%。
由上述数据可以看出,矩阵对角线位置的准确率是最高的,说明本发明提出的微表情自动识别方法能提取到区分性的特征,实现较为准确的分类。
本发明提出的方法,采用了局部面部区域重构缓解了模型过拟合和强制模型学习局部区域面部组合关系,同时使用有监督的记忆对比学习利用历史的全局的数据集类别特征和提取的特征进行对比,增加了类间特征距离,缩小类内特征距离,使得模型提取的特征更具有判别性,上述实验数据结果可以有效证明本发明的可行性和优越性。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (9)

1.一种基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,包括如下步骤:
步骤1、获取现有的公开数据集的微表情视频序列,并进行处理得到起始帧和顶点帧图像对序列;
步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型;
步骤3、对微表情识别模型进行预训练进行微调,同时构建总体损失函数来约束识别模型,进而训练优化模型,得到训练完成的微表情识别模型;
步骤4、获取当前人的面部表情样本,基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。
2.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块;数据预处理模块提取处理后图像对序列的光流,构建光流输入序列并进行格式转换;局部面部区域重构模块包括编码器、使用Mask Token替换Patch Token的随机掩蔽操作、单独的Transformer块和解码器;记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典;分类模块包括由全连接层组成的多层感知机;其中,Patch Token 表示图像的小块转化的向量,Mask Token是可学习的零向量。
3.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤1的具体过程如下:
步骤1.1、首先在人脸定位的基础上,利用Dlib视觉库确定面部68个关键特征点,进行人脸裁剪和人脸矫正,实现人脸对齐;
步骤1.2、然后采用旋转、翻转、亮度变化、随机裁剪的方式进行数据增强;
步骤1.3、最后根据数据集的标注文件找到数据集中每个样本的起始帧和顶点帧,并存放在列表中,进而构建得到起始帧和顶点帧图像对序列。
4.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤2中,微表情识别模型的具体工作流程为:
步骤2.1、由微表情视频序列中的起始帧和顶点帧经过全变分光流估计算法得到光流输入序列,并进行格式转换;
步骤2.2、将转换后的序列作为局部面部区域重构模块的输入,转换后的序列首先经过编码器进行特征提取,提取得到特征嵌入,对特征嵌入进行随机掩蔽操作,得到包含MaskToken和Patch Token的特征嵌入组合序列;特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列,进行重构的同时,特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征;
步骤2.3、分类特征经过记忆对比学习模块约束网络提取区分性的特征,并经过分类模块进行微表情类别的预测。
5.根据权利要求4所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤2.1的具体过程为:
步骤2.1.1、采用全变分光流估计算法获取起始帧和顶点帧之间的光流估计
Figure QLYQS_2
,其中,/>
Figure QLYQS_3
表示图像的横坐标,/>
Figure QLYQS_5
表示图像的宽,/>
Figure QLYQS_7
表示图像的纵坐标,/>
Figure QLYQS_10
表示图像的高度,/>
Figure QLYQS_11
表示水平光流场,
Figure QLYQS_12
,/>
Figure QLYQS_1
表示垂直光流场,/>
Figure QLYQS_4
,/>
Figure QLYQS_6
表示时间;将光流幅值/>
Figure QLYQS_8
表示为:
Figure QLYQS_9
步骤2.1.2、将水平光流场
Figure QLYQS_13
、垂直光流场/>
Figure QLYQS_14
和光流幅度/>
Figure QLYQS_15
进行级联生成光流输入图像
Figure QLYQS_16
步骤2.1.3、将光流输入图像划分为
Figure QLYQS_18
个/>
Figure QLYQS_20
尺寸的Patch拉平的/>
Figure QLYQS_22
的序列,/>
Figure QLYQS_23
表示Patch的个数,Patch是将输入图像划分为固定大小的小块,/>
Figure QLYQS_24
表示Patch的尺寸,
Figure QLYQS_25
,/>
Figure QLYQS_26
经过可训练的线性层投影到/>
Figure QLYQS_17
维嵌入空间转变成向量格式,/>
Figure QLYQS_19
表示通道数;然后在每个Patch嵌入的基础上加上位置嵌入;使用一个随机初始化的ClassToken总结其他Token上的信息;最终得到所需的光流输入图像序列/>
Figure QLYQS_21
表示为:
Figure QLYQS_27
(1);
其中,
Figure QLYQS_28
是Class Token,Class Token表示图像类别语义信息的向量;/>
Figure QLYQS_29
表示第/>
Figure QLYQS_30
个Patch的嵌入,/>
Figure QLYQS_31
是Patch嵌入投影,/>
Figure QLYQS_32
是位置嵌入;Token表示将文本和图像中每个单词和Patch转化为一个唯一的标识符。
6.根据权利要求5所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤2.2中,编码器包含三个串联的Transformer块,每个Transformer块均由多头自注意力和多层感知机交替组成,第
Figure QLYQS_33
个Transformer块的输出/>
Figure QLYQS_34
表示为:
Figure QLYQS_35
(2);
Figure QLYQS_36
(3);
其中,
Figure QLYQS_37
表示输入和经过层归一化和多头自注意力操作后的残差连接输出,/>
Figure QLYQS_38
表示多头自注意力机制,/>
Figure QLYQS_39
表示层归一化,/>
Figure QLYQS_40
表示第/>
Figure QLYQS_41
个Transformer块的输出,/>
Figure QLYQS_42
表示Transformer块的总个数,/>
Figure QLYQS_43
表示多层感知机;
将编码器输出的特征嵌入记作:
Figure QLYQS_44
(4);
其中,
Figure QLYQS_45
代表编码器输出的特征嵌入的第/>
Figure QLYQS_46
个Patch的特征嵌入;
然后,按一定的概率
Figure QLYQS_47
选择随机噪声值较大的位置记作随机掩蔽的索引,索引记作
Figure QLYQS_48
,其中/>
Figure QLYQS_49
,/>
Figure QLYQS_50
表示第/>
Figure QLYQS_51
个索引,/>
Figure QLYQS_52
表示被掩蔽的特征嵌入的总个数,/>
Figure QLYQS_53
表示随机掩蔽的概率;
接下来,用基于这些索引的可学习的零向量Mask Token替换相应位置的Patch Token,其中Mask Token记作
Figure QLYQS_54
最后,将所有特征嵌入进行连接,得到特征嵌入组合序列
Figure QLYQS_55
,将/>
Figure QLYQS_56
作为解码器和单独的Transformer块的输入:
Figure QLYQS_57
(5);
其中,
Figure QLYQS_59
表示编码器输出的特征嵌入的Class Token特征嵌入;/>
Figure QLYQS_60
表示编码器输出的特征嵌入的第1个Patch的特征嵌入;/>
Figure QLYQS_61
表示/>
Figure QLYQS_62
位置的Mask Token;/>
Figure QLYQS_63
表示/>
Figure QLYQS_64
位置的MaskToken;/>
Figure QLYQS_65
代表编码器输出的特征嵌入的第/>
Figure QLYQS_58
个Patch的特征嵌入;
解码器由三个Transformer块串联组成;使用特征嵌入组合序列
Figure QLYQS_66
作为解码器和单独的Transformer块的输入,经过解码器进行局部面部区域的重构任务得到重构后的光流序列,同时经过单独的Transformer块获得分类特征,分类特征一方面用于计算存储在记忆字典中的类中心,另一方面直接传入全连接层组成的多层感知机进行微表情分类预测。
7.根据权利要求6所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤2.3中,在模型的训练中引入了记忆对比学习,在历史记忆字典中存储每个类别的类中心
Figure QLYQS_68
,类别/>
Figure QLYQS_69
的类中心/>
Figure QLYQS_71
是每一个周期此类别的所有训练样本得到的特征集合/>
Figure QLYQS_73
的平均值,其中/>
Figure QLYQS_74
,/>
Figure QLYQS_75
表示类别/>
Figure QLYQS_76
的特征,/>
Figure QLYQS_67
表示类别/>
Figure QLYQS_70
的样本个数;/>
Figure QLYQS_72
表示为:
Figure QLYQS_77
(6);
其中,
Figure QLYQS_78
是单独的Transformer块输出的分类特征。
8.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤3的具体过程如下:
步骤3.1、使用海量人脸数据集CelebA进行重建任务预训练,然后采用微表情光流数据序列进行微调;根据留一验证法划分微表情识别模型训练的训练集和测试模型效果的测试集,也就是根据数据集标注文件中受试者标记选择一个受试者的样本作为测试集,其他的受试者的样本作为训练集;
步骤3.2、在训练期间,固定解码器参数以约束网络以提取有价值的特征;在随机掩蔽操作之后,解码器促进剩余特征学习与掩蔽特征的关系,使得网络模型具有对局部面部区域关系建模的能力;
步骤3.3、构建总体损失函数,约束识别模型;其中重建任务受均方误差损失的约束,记忆对比学习模块受聚类对比损失的约束,分类模块受交叉熵损失的约束。
9.根据权利要求8所述基于局部面部区域重构和记忆对比学习的微表情识别方法,其特征在于,所述步骤3.3的具体过程如下:
步骤3.3.1、在模型的预训练和表情分类阶段,采用均方误差损失作为特征嵌入组合序列中Mask Token的像素重建目标函数,均方误差损失
Figure QLYQS_79
的目标函数表示为:
Figure QLYQS_80
(7);
其中,
Figure QLYQS_81
是Mask Token重建后得到的重构后的光流序列中的特征嵌入,/>
Figure QLYQS_82
是MaskToken对应光流输入图像区域的特征嵌入,/>
Figure QLYQS_83
表示第/>
Figure QLYQS_84
个Mask Token的索引,/>
Figure QLYQS_85
表示MaskToken的总个数;
步骤3.3.2、聚类对比损失
Figure QLYQS_86
表示为:
Figure QLYQS_87
(8);
其中,
Figure QLYQS_88
表示指数函数,/>
Figure QLYQS_89
是温度超参数,/>
Figure QLYQS_90
是单独的Transformer块输出的分类特征/>
Figure QLYQS_91
对应样本的真值,/>
Figure QLYQS_92
表示类别/>
Figure QLYQS_93
的样本个数;通过历史记忆字典中的类中心和每次迭代的批量样本每类特征的平均值能够计算得到动态更新后的记忆字典,动态更新后的记忆字典的类中心/>
Figure QLYQS_94
为:
Figure QLYQS_95
(9);
其中,
Figure QLYQS_96
表示特征更新的动量参数,/>
Figure QLYQS_97
表示批量中和第/>
Figure QLYQS_98
个样本对应的类别相同的样本特征的均值,/>
Figure QLYQS_99
表示更新;
步骤3.3.3、用于表情分类的交叉熵损失函数
Figure QLYQS_100
定义为:
Figure QLYQS_101
(10);
其中,
Figure QLYQS_102
为第/>
Figure QLYQS_103
个样本对应的真实标签,/>
Figure QLYQS_104
为预测的微表情类别,/>
Figure QLYQS_105
表示样本个数/>
Figure QLYQS_106
的索引;
步骤3.3.4、最后将
Figure QLYQS_107
、/>
Figure QLYQS_108
和/>
Figure QLYQS_109
的和作为网络训练的总体损失函数/>
Figure QLYQS_110
Figure QLYQS_111
(11);
其中,
Figure QLYQS_112
表示均方误差损失/>
Figure QLYQS_113
权重系数,/>
Figure QLYQS_114
表示聚类对比损失/>
Figure QLYQS_115
的权重系数;
通过总体损失函数对微表情识别模型进行约束,训练优化获得有效和鲁棒的微表情识别模型。
CN202310588032.7A 2023-05-24 2023-05-24 基于局部面部区域重构和记忆对比学习的微表情识别方法 Active CN116311483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310588032.7A CN116311483B (zh) 2023-05-24 2023-05-24 基于局部面部区域重构和记忆对比学习的微表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310588032.7A CN116311483B (zh) 2023-05-24 2023-05-24 基于局部面部区域重构和记忆对比学习的微表情识别方法

Publications (2)

Publication Number Publication Date
CN116311483A true CN116311483A (zh) 2023-06-23
CN116311483B CN116311483B (zh) 2023-08-01

Family

ID=86783639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310588032.7A Active CN116311483B (zh) 2023-05-24 2023-05-24 基于局部面部区域重构和记忆对比学习的微表情识别方法

Country Status (1)

Country Link
CN (1) CN116311483B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218499A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 面部表情捕捉模型的训练方法、面部表情驱动方法和装置
CN117456586A (zh) * 2023-11-17 2024-01-26 江南大学 一种微表情识别方法、系统、设备和介质
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法
CN118506456A (zh) * 2024-07-15 2024-08-16 中国科学技术大学 基于小波变换混合增强对比学习的微动作识别方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
CN111460981A (zh) * 2020-03-30 2020-07-28 山东大学 一种基于重构跨域视频生成对抗网络模型的微表情识别方法
AU2020102556A4 (en) * 2020-10-01 2020-11-19 Ci, Yuming Mr Psychological state analysis method based on facial micro-expression
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN113139479A (zh) * 2021-04-28 2021-07-20 山东大学 一种基于光流和rgb模态对比学习的微表情识别方法及系统
CN113221639A (zh) * 2021-04-01 2021-08-06 山东大学 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN114140848A (zh) * 2021-11-29 2022-03-04 中国平安财产保险股份有限公司 基于knn和dsn的微表情识别方法、系统、设备及存储介质
CN114973383A (zh) * 2022-06-21 2022-08-30 广东工业大学 一种微表情识别方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130300900A1 (en) * 2012-05-08 2013-11-14 Tomas Pfister Automated Recognition Algorithm For Detecting Facial Expressions
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN111460981A (zh) * 2020-03-30 2020-07-28 山东大学 一种基于重构跨域视频生成对抗网络模型的微表情识别方法
AU2020102556A4 (en) * 2020-10-01 2020-11-19 Ci, Yuming Mr Psychological state analysis method based on facial micro-expression
CN113221639A (zh) * 2021-04-01 2021-08-06 山东大学 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN113139479A (zh) * 2021-04-28 2021-07-20 山东大学 一种基于光流和rgb模态对比学习的微表情识别方法及系统
CN114140848A (zh) * 2021-11-29 2022-03-04 中国平安财产保险股份有限公司 基于knn和dsn的微表情识别方法、系统、设备及存储介质
CN114973383A (zh) * 2022-06-21 2022-08-30 广东工业大学 一种微表情识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴进;闵育;马思敏;张伟华;: "一种基于CNN与LSTM结合的微表情识别算法", 电讯技术, no. 01 *
孔慧芳;钱世超;闫嘉鹏;: "基于不均衡数据与迁移学习的面部微表情识别", 合肥工业大学学报(自然科学版), no. 07 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218499A (zh) * 2023-09-29 2023-12-12 北京百度网讯科技有限公司 面部表情捕捉模型的训练方法、面部表情驱动方法和装置
CN117456586A (zh) * 2023-11-17 2024-01-26 江南大学 一种微表情识别方法、系统、设备和介质
CN117576765A (zh) * 2024-01-15 2024-02-20 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法
CN117576765B (zh) * 2024-01-15 2024-03-29 华中科技大学 一种基于分层特征对齐的面部动作单元检测模型构建方法
CN118506456A (zh) * 2024-07-15 2024-08-16 中国科学技术大学 基于小波变换混合增强对比学习的微动作识别方法及装置

Also Published As

Publication number Publication date
CN116311483B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
Nasfi et al. A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Gat et al. Latent space explanation by intervention
CN113283336A (zh) 一种文本识别方法与系统
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
Agbo-Ajala et al. A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images
CN117351550A (zh) 基于有监督对比学习的网格自注意力人脸表情识别方法
CN117198468A (zh) 基于行为识别和数据分析的干预方案智慧化管理系统
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN112560668B (zh) 一种基于场景先验知识的人体行为识别方法
CN116758621B (zh) 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN116884072A (zh) 一种基于多层级和多尺度注意机制的面部表情识别方法
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN111160124A (zh) 一种基于知识重组的深度模型定制方法
Kousalya et al. Prediction of Best Optimizer for Facial Expression Detection using Convolutional Neural Network
CN113688799B (zh) 一种基于改进深度卷积生成对抗网络的人脸表情识别方法
CN115457374A (zh) 基于推理模式评估深伪图像检测模型泛化性方法及装置
CN111126364A (zh) 一种基于分组卷积神经网络的表情识别方法
CN114973357B (zh) 一种基于双标签学习的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant