CN117456581A - 一种图像预训练模型到视频人脸表情识别的方法 - Google Patents
一种图像预训练模型到视频人脸表情识别的方法 Download PDFInfo
- Publication number
- CN117456581A CN117456581A CN202311453207.XA CN202311453207A CN117456581A CN 117456581 A CN117456581 A CN 117456581A CN 202311453207 A CN202311453207 A CN 202311453207A CN 117456581 A CN117456581 A CN 117456581A
- Authority
- CN
- China
- Prior art keywords
- facial expression
- video
- facial
- representing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 153
- 238000012549 training Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 63
- 230000001815 facial effect Effects 0.000 claims abstract description 38
- 230000014509 gene expression Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 230000005251 gamma ray Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- VKYKSIONXSXAKP-UHFFFAOYSA-N hexamethylenetetramine Chemical compound C1N(C2)CN3CN1CN2C3 VKYKSIONXSXAKP-UHFFFAOYSA-N 0.000 claims 1
- 230000003068 static effect Effects 0.000 abstract description 8
- 238000004821 distillation Methods 0.000 abstract description 7
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像预训练模型到视频人脸表情识别的方法,在Vision Transformer模型的基础上插入模态互补模块和时间建模模块,基于人脸表情的图片数据集和视频数据集,提取并引入人脸关键点辅助引导模型关注人脸上与表情更加相关的区域;首先训练出具有图像表征能力的图像预训练模型再扩展到视频模型,训练出具有动态识别能力的人脸表情识别模型。本发明采用了预先在静态表情数据集上训练然后在动态视频数据集上微调的方法,通过静态数据弥补了视频数据集在数量上的不足;通过模态互补模块对人脸表情特征和人脸关键点做模态融合,并通过时间建模模块学习时间维度信息;同时在视频模型训练阶段基于表情锚的自蒸馏损失提高监督信号,减少了噪声样本的干扰。
Description
技术领域
本发明涉及深度学习、计算机视觉技术领域,具体涉及一种图像预训练模型到视频人脸表情识别的方法。
背景技术
面部表情往往能够反映一个人的情感状态,在人际互动中发挥着至关重要的作用。由于其在应用中的重要性不断增加,如人机交互、医疗辅助和疲劳驾驶检测等,因此理解面部表情中的情感状态变得越来越关键,自动且准确地识别面部表情已经成为计算机视觉领域中的一项重要且备受欢迎的任务。
目前,面部表情识别可以大致分为两种类型:静态面部表情识别(SFER)和动态面部表情识别(DFER)。其中,SFER主要集中在从静态图像中识别表情,而DFER集中在从动态图像序列(或视频)中识别表情。本领域技术人员在这一领域已经进行了大量的研究工作,以推动SFER和DFER的发展。
在深度学习时代之前,本领域技术人员主要依赖于浅层学习方法和手工特征提取方法来进行FER,例如局部二进制(LBP)、梯度直方图(HOG)、非负矩阵分解(NMF)和稀疏表示等。尽管这些方法在实验室环境中的数据集上表现出有希望的性能,但在处理真实世界的人脸时,它们的性能急剧下降。
随着深度学习的兴起,FER采用了数据驱动方法,受益于卷积神经网络(CNN)和视觉变换器(Vision Transformer)等强大的表示能力。FER在真实世界的SFER数据集上取得了显著进展,如RAF-DB、AffectNet、FERPlus等,但在DFER数据集上的性能(例如DFEW、FERV39K、MAFW等)仍然不尽如人意。这主要是由于DFER数据集的收集困难、数据中的限制(例如姿势、遮挡、光照)、模糊的标注(即嘈杂的标签)以及有关时间信息的不足学习所致。
发明内容
本发明的目的提供一种图像预训练模型到视频人脸表情识别的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明采用如下技术方案:
一种图像预训练模型到视频人脸表情识别的方法,包括以下步骤:
S1、基于人脸表情图片数据集,提取并引入人脸关键点,训练出具有图像表征能力的图像预训练模型;
S2、将该图像预训练模型扩展到视频模型,基于人脸表情视频数据集,再次提取并引入人脸关键点,训练出具有动态识别能力的人脸表情识别模型。
进一步地,所述步骤S1具体包括以下操作:
S11、在标准的Vision Transformer模型的基础上插入模态互补模块,得到初始图像训练模型;
S12、基于人脸表情图片数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合;
S13、基于初始图像训练模型,对经过模态融合后的人脸表情的特征进行学习优化,得到具有图像表征能力的图像预训练模型。
进一步地,所述步骤S2具体包括以下操作:
S21、在图像预训练模型的基础上插入时间建模模块,得到初始视频训练模型;
S22、基于人脸表情视频数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合,人脸表情的特征同时通过时间建模模块学习时间维度信息;
S23、基于初始视频训练模型,对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化,得到人脸表情识别模型。
进一步地,所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的;所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入;所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入;所述人脸表情和人脸关键点的图像序列或视频片段分别表示为:
式中:表示数据集;XF表示人脸表情的图像序列或视频片段;XL表示人脸关键点的图像序列或视频片段;T表示帧数;C表示通道数;H表示高;W表示宽。
进一步地,所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合生成引导prompt:/> 生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程;
为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始图像训练模型的transformer层/>中进行学习优化;
所述模态融合和学习优化的过程通过公式(1)和公式(2)表示:
公式(1)、(2)中:l表示模态融合以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合前的人脸表情的tokens,/>表示第l次模态融合后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习优化后的人脸表情的tokens。
进一步地,所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合并生成引导prompt:同时将/>输入到时间建模模块中学习时间维度信息:/> 生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中,并重复所述模态融合和学习时间维度信息的过程;
为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始视频训练模型的transformer层/>中进行学习优化;
所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示:
公式(3)、(4)中:l表示模态融合、学习时间维度信息以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合和学习时间维度信息前的人脸表情的tokens,/>表示第l次模态融合和学习时间维度信息后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习到的时间维度信息;/>表示第l+1次学习优化后的人脸表情的tokens。
进一步地,将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现:
首先模态互补模块接收人脸表情特征和人脸关键点特征/>作为输入;
然后将和/>通过1x1卷积层分别投影到一个低纬度的空间:
公式(5)、(6)中:和/>表示/>和/>低维度空间上的投影;g1和g2均是1×1卷积层;
再对做类似注意力度操作:
公式(7)、(8)中:表示mask信息;/>表示选择的人脸表情特征;[:,i,j]表示三维数组中第一维全取、第二位取i、第三维取j,i和j均大于等于零且小于图像或视频的patch大小;λ表示一个随机初始化的可学习的变量;
学习到的引导prompt通过公式(9)表示:
公式(9)中:g2是1×1卷积层。
进一步地,所述时间建模模块包括Temporal Adapter模块、Layer Norm层和Simple Adapter模块;其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块;所述时间建模模块以人脸表情特征作为输入,人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现:
首先将输入形状变换到/>并通过一层线性层投影到一个更低的维度,然后通过多头自注意力模块捕获时间信息:
公式(10)、(11)、(12)中:f1、f2表示线性层;GELU表示GELU激活函数;T-MSA表示时间维度的多头自注意力机制;表示被形状变换回T×N×D的捕获了时间信息后的人脸表情特征;
再经过Layer Nrom层和Simple Adapter模块后输出:
公式(13)、(14)中:LN表示LayerNorm层;GELU表示GRLU激活函数;f3和f4表示线性层;表示第l+1次学习到的时间维度信息。
进一步地,在所述初始视频训练模型的训练过程中,通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰,具体通过以下方法实现:
首先在初始视频训练模型的训练过程中为每一个人脸表情的类别维护两个队列Pc和Qc,分别用于保存模型的输出特征v和输出概率p,且‖p‖=1;队列Pc和Qc表示为:
将训练过程中输入的视频片段及其标签记作样本(Xi,Yi),每一个输入的样本(Xi,Yi)的输出特征和输出概率记作vi和pi;
首先计算输出特征vi和队列Qc中每一个向量的余弦相似度,得到相似度分数α={α1,α2,…,αC},其中/>相似度分数/>由公式(15)计算得到:
公式(15)中:表示对输出特征vi进行转置;
再从每一个人脸表情的类别中挑选出分数最高的样本,得到最后的分数σ:
公式(16)中:K表示分数最高的样本的数量;
通过以下公式得到最后估计的伪标签Ysoft:
然后采用真实标签Yi和伪标签Ysoft进行监督,损失的计算公式如下:
公式(18)、(19)中:表示目标损失函数;/>表示辅助损失函数;BCE表示二值交叉熵损失函数;
最后结合式目标损失函数和辅助损失函数,得到监督损失函数:
公式(20)中:表示监督损失函数;γ1表示表示目标损失的权重;γ2表示辅助损失函数的权重。
由以上技术方案可知,本发明具有以下技术优势:
1、本发明采用了先在静态表情数据集上训练然后再动态视频数据集上微调的方法,通过静态数据弥补视频数据集数量上的不足;
2、本发明通过时间建模模块,有效地在时间维度学习动态时间信息,将图像模型方便的扩展到视频模型;
3、本发明设通过基于表情锚的自蒸馏损失,利用其他表情来估计噪声样本的标签分布,为模型提供了一份辅助监督信号,减少了噪声样本的干扰,且只需要在训练阶段使用,不会在推理阶段带来额外的计算开销,能够有效提高模型的性能;
4、本方法将图像模型扩展到视频模型时,只需要训练很小部分参数(<模型参数的10%),既高效又有效。
附图说明
图1为本发明方法的步骤流程示意图;
图2为本发明的网络框架示意图;
图3为本发明模态互补模块的原理示意图;
图4为本发明的时间建模模块的原理示意图;
图5为本发明基于表情锚的自蒸馏损失的原理示意图;
图6为本发明对比实验中所有模型在DFEW、FERV39K和MAFW数据集上的准确度数据;
图7为本发明对比实验中所有模型在DFEW数据集上每个表情类别的细粒度性能。
具体实施方式
下面结合附图对本发明的一种优选实施方式做详细的说明。
如图1和2所示的图像预训练模型到视频人脸表情识别的方法,包括以下步骤:
S1、基于人脸表情图片数据集,提取并引入人脸关键点,训练出具有图像表征能力的图像预训练模型;
S11、在标准的Vision Transformer模型的基础上插入模态互补模块,得到初始图像训练模型;
S12、基于人脸表情图片数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合;
S13、基于初始图像训练模型,对经过模态融合后的人脸表情的特征进行学习优化,得到具有图像表征能力的图像预训练模型;
S2、将该图像预训练模型扩展到视频模型,基于人脸表情视频数据集,提取并引入人脸关键点,训练出具有动态识别能力的人脸表情识别模型;
S21、在图像预训练模型的基础上插入时间建模模块,得到初始视频训练模型;
S22、基于人脸表情视频数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合,人脸表情的特征同时通过时间建模模块学习时间维度信息;
S23、基于初始视频训练模型,对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化,得到人脸表情识别模型。
本优选实施例所述的人脸表情图片数据集采用数据集AffectNet,数据集AffectNet约有40万张标注的人脸表情图片,是现有的最大的SFER数据集;所述的人脸表情视频数据集采用DFEW、FERV39K或AFEW数据集。
为了获得一个更好的图像表征能力,本发明在人脸表情图片数据集和人脸表情视频数据集的基础上引入了人脸关键点作为辅助信息;本优选实施例所述的人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型MobileFaceNe获得的。具体的,所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入;所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入;所述人脸表情和人脸关键点的图像序列或视频片段分别表示为:
式中:XF表示人脸表情的图像序列;XL表示人脸关键点的图像序列;T表示帧数;X表示通道数;H表示高;W表示宽。
进一步地,所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合生成引导prompt:/> 生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程;
为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始图像训练模型的transformer层/>中进行学习优化;
所述模态融合和学习优化的过程通过公式(1)和公式(2)表示:
公式(1)、(2)中:l表示模态融合以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合前的人脸表情的tokens,/>表示第l次模态融合后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习优化后的人脸表情的tokens。
相似的,所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合并生成引导prompt:同时将/>输入到时间建模模块中学习时间维度信息:/> 生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中,并重复所述模态融合和学习时间维度信息的过程;
为每个模态融合的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始视频训练模型的transformer层/>中进行学习优化;
所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示:
公式(3)、(4)中:l表示模态融合、学习时间维度信息以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合和学习时间维度信息前的人脸表情的tokens,/>表示第l次模态融合和学习时间维度信息后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习到的时间维度信息;/>表示第l+1次学习优化后的人脸表情的tokens。
为了更好的融合人脸表情特征和人脸关键点特征,本发明通过模态互补模块将人脸表情特征和人脸关键点进行融合,如图3所示,将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现:
首先模态互补模块接收人脸表情特征和人脸关键点特征/>作为输入;
然后将和/>通过1x1卷积层分别投影到一个低纬度的空间:
公式(5)、(6)中:和/>表示/>和/>低维度空间上的投影;g1和g2均是1×1卷积层;
再对做类似注意力度操作:
公式(7)、(8)中:表示mask信息;/>表示选择的人脸表情特征;[:,i,j]表示三维数组中第一维全取、第二位取i、第三维取j,i和j均大于等于零且小于图像或视频的patch大小;λ表示一个随机初始化的可学习的变量;
学习到的引导prompt通过公式(9)表示:
公式(9)中:g3是1×1卷积层。
在静态图像数据集上训练过后,图像模型已经具备了鲁棒的图像表征能力,但是还不能捕捉时序信息。如图4所示,为了将图像模型扩展到视频模型上面,本发明采用了时间建模模块(TMA),本优选实施例所述时间建模模块包括Temporal Adapter模块、LayerNorm层和Simple Adapter模块;其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块;所述时间建模模块以人脸表情特征作为输入,人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现:
首先将输入形状变换到/>并通过一层线性层投影到一个更低的维度,然后通过多头自注意力模块捕获时间信息:
公式(10)、(11)、(12)中:f1、f2表示线性层;GELU表示GELU激活函数;T-MSA表示时间维度的多头自注意力机制;表示被形状变换回T×N×D的捕获了时间信息后的人脸表情特征;
再经过Layer Nrom层和Simple Adapter模块后输出:
公式(13)、(14)中:LN表示LayerNorm层;GELU表示GELU激活函数;f3和f4表示线性层;表示第l+1次学习到的时间维度信息。
具体的,本优选实施例所述的多头自注意力模块在时间维度上具体操作机制通过以下公式进行描述:
式中:Wq,Wk,Wv,WO都是可学习的权重;Q表示查询向量;K表示键向量;V表示值向量;dk表示维度;/>表示对Ki进行转置;MultiHead多头自注意力机制;Concat表示concatenate操作。
如图5所示,本优选实施例在所述初始视频训练模型的训练过程中,通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰,具体通过以下方法实现:
首先在初始视频训练模型的训练过程中为每一个人脸表情的类别维护两个队列Pc和Qc,分别用于保存模型的输出特征v和输出概率p,且‖p‖=1;队列Pc和Qc表示为:
将训练过程中输入的视频片段及其标签记作样本(Xi,Yi),每一个输入的样本(Xi,Yi)的输出特征和输出概率记作vi和pi;
首先计算输出特征vi和队列Qc中每一个向量的余弦相似度,得到相似度分数其中/>相似度分数/>由公式(15)计算得到:
公式(15)中:表示对输出特征vi进行转置;
再从每一个人脸表情的类别中挑选出分数最高的样本,得到最后的分数σ:
公式(16)中:K表示分数最高的样本的数量;
通过以下公式得到最后估计的伪标签Ysoft:
然后采用真实标签Yi和伪标签Ysoft进行监督,损失的计算公式如下:
公式(18)、(19)中:表示目标损失函数;/>表示辅助损失函数;BCE表示二值交叉熵损失函数;/>
最后结合式目标损失函数和辅助损失函数,得到监督损失函数:
公式(20)中:表示监督损失;γ1表示表示目标损失的权重;γ2表示辅助损失函数的权重;权重γ1和γ2可以根据实际需要进行选择。
下面通过一组对比实验对本发明所述的图像预训练模型到视频人脸表情识别的方法的先进性能进行阐述:
首先将本优选实施例所述的人脸识别模型(S2D)与采用现有技术下常用的模型构建方法得到的模型分别在DFEW、FERV39K和MAFW三个数据集上进行了识别准确率的对比实验,具体实验数据如图6和7所示。
由图6中的实验数据可知,所述人脸识别模型在DFEW、FERV39K和MAFW三个数据集上的性能均明显优于采用现有技术下最佳的建模方法(即IAL,M3DFEL)得到的模型,所述人脸识别模型在平均准确率(UAR)方面分别取得了6.47%、5.05%、6.59%的显著提升,并在总的准确率(WAR)方面分别取得了6.73%、4.16%、9.19%的显著提升。这些显著的提升表明本发明所述的图像预训练模型到视频人脸表情识别的方法可以通过在大规模SFER(静态表情识别)数据集上进行预训练来学习强大的DFER(动态表情识别)表示。
同时,还将所述人脸识别模型与采用了自监督方法MAE-DFER得到的模型进行了比较,该方法使用自监督方法在大规模视频数据集上进行了预训练。实验结果表明,所述人脸识别模型在DFEW、FERV39K和MAFW数据集上的平均准确率(UAR)方面分别提高了2.04%、0.85%、1.54%,在总的准确率(WAR)方面分别提高了1.6%、0.49%和3.06%。
此外,图7还展示了上述实验中所有模型在DFEW数据集上每个表情类别的细粒度性能,所述人脸识别模型在所有表情类别的细粒度性能上都展现出了显著的改进,表明本优选实施例所述人脸识别模型在实际场景中具有强大的泛化能力。且值得注意的是,本发明所述的图像预训练模型到视频人脸表情识别的方法不需要在DFER(静态表情识别)数据集上重新训练所有模型参数,而只需微调少量参数(不到可调参数的10%),使其更具参数效率和实用性。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (9)
1.一种图像预训练模型到视频人脸表情识别的方法,其特征在于,包括以下步骤:
S1、基于人脸表情图片数据集,提取并引入人脸关键点,训练出具有图像表征能力的图像预训练模型;
S2、将该图像预训练模型扩展到视频模型,基于人脸表情视频数据集,提取并引入人脸关键点,训练出具有动态识别能力的人脸表情识别模型。
2.根据权利要求1所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述步骤S1具体包括以下操作:
S11、在标准的Vision Transformer模型的基础上插入模态互补模块,得到初始图像训练模型;
S12、基于人脸表情图片数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合;
S13、基于初始图像训练模型,对经过模态融合后的人脸表情的特征进行学习优化,得到具有图像表征能力的图像预训练模型。
3.根据权利要求2所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述步骤S2具体包括以下操作:
S21、在图像预训练模型的基础上插入时间建模模块,得到初始视频训练模型;
S22、基于人脸表情视频数据集提取人脸关键点,通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合,人脸表情的特征同时通过时间建模模块学习时间维度信息;
S23、基于初始视频训练模型,对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化,得到人脸表情识别模型。
4.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的;所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入;所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入;所述人脸表情和人脸关键点的图像序列或视频片段分别表示为:
式中:表示数据集;XF表示人脸表情的图像序列或视频片段;XL表示人脸关键点的图像序列或视频片段;T表示帧数;C表示通道数;H表示高;W表示宽。
5.根据权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合生成引导prompt:生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程;
为每个模态融合后的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始图像训练模型的transformer层/>中进行学习优化;
所述模态融合和学习优化的过程通过公式(1)和公式(2)表示:
公式(1)、(2)中:l表示模态融合以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合前的人脸表情的tokens,/>表示第l次模态融合后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习优化后的人脸表情的tokens。
6.权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作:
首先将XF、XL分别通过一个patch embedding层分成N个块,并变换到D维空间,得到:
式中:表示人脸表情的tokens;/>表示人脸关键点的tokens;
然后将和/>输入到模态互补模块中进行模态融合并生成引导prompt:同时将/>输入到时间建模模块中学习时间维度信息:/> 生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中,并重复所述模态融合和学习时间维度信息的过程;
为每个模态融合后的人脸表情的token及其块的类别xclass附上位置信息positionembedding;同时将xclass以及position embedding输入到初始视频训练模型的transformer层/>中进行学习优化;
所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示:
公式(3)、(4)中:l表示模态融合、学习时间维度信息以及学习优化的次数;L表示transformer层的层数;表示第l次模态融合和学习时间维度信息前的人脸表情的tokens,/>表示第l次模态融合和学习时间维度信息后的人脸表情的tokens;/>表示第l+1次模态融合生成的引导prompt;/>表示第l+1次学习到的时间维度信息;/>表示第l+1次学习优化后的人脸表情的tokens。
7.根据权利要求5或6所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现:
首先模态互补模块接收人脸表情特征和人脸关键点特征/>作为输入;
然后将和/>通过1x1卷积层分别投影到一个低纬度的空间:
公式(5)、(6)中:和/>表示/>和/>低维度空间上的投影;g1和g2均是1×1卷积层;
再对做类似注意力度操作:
公式(7)、(8)中:表示mask信息;/>表示选择的人脸表情特征;[:,i,j]表示三维数组中第一维全取、第二位取i、第三维取j,i和j均大于等于零且小于图像或视频的patch大小;λ表示一个随机初始化的可学习的变量;
学习到的引导prompt通过公式(9)表示:
公式(9)中:g3是1×1卷积层。
8.根据权利要求7所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,所述时间建模模块包括Temporal Adapter模块、Layer Norm层和Simple Adapter模块;其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块;所述时间建模模块以人脸表情特征作为输入,人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现:
首先将输入形状变换到/>并通过一层线性层投影到一个更低的维度,然后通过多头自注意力模块捕获时间信息:
公式(10)、(11)、(12)中:f1、f2表示线性层;GELU表示GELU激活函数;T-MSA表示时间维度的多头自注意力机制;表示被形状变换回T×N×D的捕获了时间信息后的人脸表情特征;
再经过Layer Nrom层和Simple Adapter模块后输出:
公式(13)、(14)中:LN表示LayerNorm层;GELU表示GELU激活函数;f3和f4表示线性层;表示第l+1次学习到的时间维度信息。
9.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法,其特征在于,在所述初始视频训练模型的训练过程中,通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰,具体通过以下方法实现:
首先在初始视频训练模型的训练过程中为每一个人脸表情的类别维护两个队列Pc和Qc,分别用于保存模型的输出特征v和输出概率p,且‖p‖=1;队列Pc和Qc表示为:
将训练过程中输入的视频片段及其标签记作样本(Xi,Yi),每一个输入的样本(Xi,Yi)的输出特征和输出概率记作vi和pi;
首先计算输出特征vi和队列Qc中每一个向量的余弦相似度,得到相似度分数α={α1,α2,…,αC},其中/>相似度分数/>由公式(15)计算得到:
公式(15)中:表示对输出特征vi进行转置;
再从每一个人脸表情的类别中挑选出分数最高的样本,得到最后的分数σ:
公式(16)中:K表示分数最高的样本的数量;
通过以下公式得到最后估计的伪标签Ysoft:
然后采用真实标签Yi和伪标签Ysoft进行监督,损失的计算公式如下:
公式(18)、(19)中:表示目标损失函数;/>表示辅助损失函数;BCE表示二值交叉熵损失函数;
最后结合式目标损失函数和辅助损失函数,得到监督损失函数:
公式(20)中:表示监督损失函数;γ1表示表示目标损失的权重;γ2表示辅助损失函数的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453207.XA CN117456581A (zh) | 2023-11-01 | 2023-11-01 | 一种图像预训练模型到视频人脸表情识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453207.XA CN117456581A (zh) | 2023-11-01 | 2023-11-01 | 一种图像预训练模型到视频人脸表情识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117456581A true CN117456581A (zh) | 2024-01-26 |
Family
ID=89579671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311453207.XA Pending CN117456581A (zh) | 2023-11-01 | 2023-11-01 | 一种图像预训练模型到视频人脸表情识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456581A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689998A (zh) * | 2024-01-31 | 2024-03-12 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
-
2023
- 2023-11-01 CN CN202311453207.XA patent/CN117456581A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689998A (zh) * | 2024-01-31 | 2024-03-12 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
CN117689998B (zh) * | 2024-01-31 | 2024-05-03 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020647A (zh) | 基于级联的sift特征和稀疏编码的图像分类方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN117456581A (zh) | 一种图像预训练模型到视频人脸表情识别的方法 | |
Naeem et al. | T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition | |
Zhang et al. | Enhancing audio-visual association with self-supervised curriculum learning | |
CN115482387A (zh) | 基于多尺度类别原型的弱监督图像语义分割方法及系统 | |
CN115331259A (zh) | 一种三维人体姿态估计方法、系统及存储介质 | |
CN116758621B (zh) | 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法 | |
US11908222B1 (en) | Occluded pedestrian re-identification method based on pose estimation and background suppression | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN117437426A (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
CN116884072A (zh) | 一种基于多层级和多尺度注意机制的面部表情识别方法 | |
Tan et al. | Human action recognition with sparse autoencoder and histogram of oriented gradients | |
CN108108652A (zh) | 一种基于字典学习的跨视角人体行为识别方法及装置 | |
CN116167014A (zh) | 一种基于视觉和语音的多模态关联型情感识别方法及系统 | |
Li et al. | Pose2seg: Human instance segmentation without detection | |
CN115222959A (zh) | 一种轻量化卷积网络与Transformer相结合的人体关键点检测方法 | |
Islam et al. | New hybrid deep learning method to recognize human action from video | |
Belhouchette | Facial action units detection to identify interest emotion: An application of deep learning | |
CN112487927A (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
Zhou et al. | Lightweight Self-Attention Network for Semantic Segmentation | |
Masilang et al. | Connet: Designing a fast, efficient, and robust crowd counting model through composite compression | |
Lahgazi et al. | Improving pedestrian segmentation using region proposal-based CNN semantic segmentation | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |