CN115457643A - 一种基于增量技术和注意力机制的公平人脸表情识别方法 - Google Patents

一种基于增量技术和注意力机制的公平人脸表情识别方法 Download PDF

Info

Publication number
CN115457643A
CN115457643A CN202211394678.3A CN202211394678A CN115457643A CN 115457643 A CN115457643 A CN 115457643A CN 202211394678 A CN202211394678 A CN 202211394678A CN 115457643 A CN115457643 A CN 115457643A
Authority
CN
China
Prior art keywords
expression
module
attention
fair
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211394678.3A
Other languages
English (en)
Other versions
CN115457643B (zh
Inventor
古天龙
李映辉
罗义琴
李龙
冯旋
李晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202211394678.3A priority Critical patent/CN115457643B/zh
Publication of CN115457643A publication Critical patent/CN115457643A/zh
Application granted granted Critical
Publication of CN115457643B publication Critical patent/CN115457643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于增量技术和注意力机制的公平人脸表情识别方法,包括:构建并训练表情平衡模型,所述表情平衡模型包括:骨干模块、注意力特征融合模块和表情平衡微调模块;将人脸表情图像输入所述骨干模块,提取所述人脸表情图像的表情特征;将所述表情特征输入所述注意力特征融合模块,获取不同表情类别;将所述不同表情类别输入所述表情平衡微调模块,对所述不同表情类别进行调节,输出公平人脸表情识别结果。本发明采用增量技术和注意力机制结合的方式处理表情图像,能够提取代表性不足的表情类别中更细微的特征,从而缓解人脸表情识别中的表情类别偏差,达到公平人脸表情识别的目的。

Description

一种基于增量技术和注意力机制的公平人脸表情识别方法
技术领域
本发明属于深度学习和计算机视觉技术领域,尤其涉及一种基于增量技术和注意力机制的公平人脸表情识别方法。
背景技术
随着人工智能逐渐地融入人们的日常生活中,研究人员对智能情感分析的研究取得了不错的进展。而人脸表情是表达人类意图和情绪的重要信号。因此,人脸表情识别技术得到了深入研究,并已广泛应用于社会分析、医疗保健、安全驾驶等领域。现有的表情识别方法是基于深度神经网络进行分类,同时,深度神经网络在数据和算法上存在偏差。虽然针对人口统计属性偏差的公平表情识别已获得不错的进展,但对于表情类别偏差的研究较少。事实上,在很多应用场景中,表情类别偏差对系统的应用效果有不利影响。例如,在对自闭症儿童的案例研究中,惊讶的识别率远高于恐惧的识别率。同样,在自动驾驶汽车的驾驶员监控案例中,经过训练的神经网络在检测快乐、中立和惊喜方面表现出色,但在识别恐惧和悲伤方面却很弱。所以,需要开展针对表情类别偏差的研究,以满足人们更高的公平要求。
有研究证明平衡采样和公平加权技术可以缓解类别偏差。采样方法指的是在预处理阶段干预数据分布后再进行神经网络训练,而加权方法是在神经网络结构中添加代价敏感层,改变神经网络的偏向性。但是,平衡采样方法容易导致模型过拟合,而公平加权方法可能会为某类别分配不合理的预测值。而注意力机制和增量技术开始成为了近几年的研究热点。注意力机制表明不同图像区域对于预测结果的重要性是不同的。对人脸表情而言,人脸的特殊区域,如眼睛、嘴角、眉毛,对于识别结果更加重要。该机制可以加强地关注代表性低的表情,以减轻深度神经网络的偏差。而增量技术可以敏锐地感知数据分布的变化,确保某个类别不会主导整个神经网络。就表情识别而言,增量技术可以让代表性强的表情类别不再主导神经网络。然而,注意力机制和增量技术对表情类别偏差的缓解方法尚未成熟,对公平人脸表情识别的实现还需进一步完善。
发明内容
为解决上述技术问题,本发明提出了一种基于增量技术和注意力机制的公平人脸表情识别方法,有效地提升代表性低的表情类别的识别性能,减缓人脸表情识别中的类别偏差。
为实现上述目的,本发明提供了一种基于增量技术和注意力机制的公平人脸表情识别方法,包括:
构建并训练表情平衡模型,所述表情平衡模型包括:骨干模块、注意力特征融合模块和表情平衡微调模块;
将人脸表情图像输入所述骨干模块,提取所述人脸表情图像的表情特征;
将所述表情特征输入所述注意力特征融合模块,获取不同表情类别;
将所述不同表情类别输入所述表情平衡微调模块,对不同所述表情类别进行调节,输出公平人脸表情识别结果。
可选地,训练所述表情平衡模型包括:
获取所述人脸表情图像的数据集;
构建交叉注意蒸馏损失函数;
基于所述数据集和所述交叉注意蒸馏损失函数对所述表情平衡模型进行训练。
可选地,所述表情平衡模型还包括:增量记忆内存模块;
所述增量记忆内存模块与所述骨干模块连接;
在所述表情平衡模型的训练过程中,基于所述增量记忆内存模块保留上一训练阶段的预设数量的旧类别数据,减少所述表情平衡模型对代表性不足的表情类别的偏见。
可选地,所述骨干模块包括:一个卷积层、一个池化层和若干相连的残差连接单元;
所述卷积层、池化层和若干所述残差连接单元依次连接;
所述残差连接单元包括:主分支子单元和副分支子单元;
所述主分支子单元,用于提取输入图像的不同特征;所述副分支子单元,用于连接所述残差连接单元的输入和输出。
可选地,所述注意力特征融合模块包括:空间子模块、通道子模块和全连接层子模块;
所述注意力特征融合模块将所述表情特征,从两个维度进行压缩和融合为注意力图,并将所述注意力图输入所述全连接层,获得所述不同表情类别;其中,所述两个维度包括:所述空间子模块提供的空间维度和所述通道子模块提供的通道维度。
可选地,所述空间子模块包括:最大和平均池化层,以及与所述最大和平均池化层连接的三个并联的卷积层;
所述通道子模块包括:若干编码器,以及与所述若干编码器连接的两个并联的池化层。
可选地,所述交叉注意蒸馏损失函数包括:交叉熵损失、注意力分区损失和蒸馏损失;
所述交叉注意蒸馏损失函数
Figure 472764DEST_PATH_IMAGE001
为:
Figure 221277DEST_PATH_IMAGE002
其中,
Figure 897109DEST_PATH_IMAGE003
为注意力分区损失,
Figure 823608DEST_PATH_IMAGE004
为交叉熵损失,
Figure 76735DEST_PATH_IMAGE005
为蒸馏损失。
可选地,对所述表情平衡模型进行训练包括:
将所述数据集以类别增量的形式输入所述表情平衡模型中,每批次有一组新类别数据。
可选地,将所述数据集以类别增量的形式输入所述表情平衡模型中包括:
S1.设定第一训练阶段的数据集
Figure 379671DEST_PATH_IMAGE006
,其中
Figure 769064DEST_PATH_IMAGE007
为第
Figure 522256DEST_PATH_IMAGE008
张图像,
Figure 13412DEST_PATH_IMAGE009
为 第一训练阶段数据集的图像总数;设定第二或后续阶段的数据集
Figure 369307DEST_PATH_IMAGE010
,其中
Figure 19731DEST_PATH_IMAGE007
Figure 288032DEST_PATH_IMAGE011
分别为第
Figure 656697DEST_PATH_IMAGE012
训练阶段中第
Figure 550704DEST_PATH_IMAGE008
张新类 别和旧类别的图像,
Figure 196580DEST_PATH_IMAGE013
Figure 25995DEST_PATH_IMAGE014
分别为第
Figure 741010DEST_PATH_IMAGE012
训练阶段中新类别和旧类别的图像总数;
S2.在所述第
Figure 579654DEST_PATH_IMAGE012
训练阶段,采用数据集
Figure 548878DEST_PATH_IMAGE015
对所述表情平衡模型进行训练:
S3.选取当前训练阶段的数据集
Figure 939408DEST_PATH_IMAGE016
中的预设数 量的新类别数据
Figure 17085DEST_PATH_IMAGE017
,其中,
Figure 269206DEST_PATH_IMAGE018
为每个表情类别运行存放的样本数量;将所述 新类别数据放入所述增量记忆内存模块中,完成所述增量记忆内存模块的内存更新;此外, 在最后一个训练阶段,不再更新所述增量记忆内存模块的内存。
可选地,所述表情平衡微调模块对所述不同表情类别进行调节包括:
构建一个平衡子集
Figure 748729DEST_PATH_IMAGE019
,其中
Figure 44581DEST_PATH_IMAGE007
表示第
Figure 484921DEST_PATH_IMAGE008
张图像,
Figure 399787DEST_PATH_IMAGE020
为平衡子集中图像的总数;
基于所述平衡子集以预设阈值的学习率对所述表情平衡模型进行调整,保持所述表情平衡模型的识别性能平衡。
与现有技术相比,本发明具有如下优点和技术效果:
本发明采用增量技术来研究人脸表情识别的类别偏差问题,利用增量技术对数据分布敏感的特点,从而克服了不同表情类别在数据量和特征上的分布不平衡的问题,缓解了识别中的表情类别偏差。
本发明搭建了一个表情平衡网络对人脸表情图像中代表性不足的表情类别强化了特征提取,确保表情平衡网络不会被某个表情类别给主导,并将代表性强的特征迁移到不足的类别特征上。同时混合损失函数(交叉注意蒸馏损失),解决了表情平衡网络训练中存在的不稳定问题。最后表情平衡微调模块,有效地减缓模型对代表性强的表情类别的偏向性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的表情平衡网络示意图;
图2为本发明实施例的注意力特征融合网络示意图;
图3为本发明实施例的表情平衡微调模块示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例
本发明提供了一种基于增量技术和注意力机制的公平人脸表情识别方法,包括:
构建并训练表情平衡模型,表情平衡模型包括:骨干模块、注意力特征融合模块和表情平衡微调模块;
将人脸表情图像输入骨干模块,提取人脸表情图像的表情特征;
将表情特征输入注意力特征融合模块,获取不同表情类别;
将不同表情类别输入表情平衡微调模块,对不同表情类别进行调节,输出公平人脸表情识别结果。
进一步地,训练表情平衡模型包括:
获取人脸表情图像的数据集;
构建交叉注意蒸馏损失函数;
基于数据集和交叉注意蒸馏损失函数对表情平衡模型进行训练。
进一步地,表情平衡模型还包括:增量记忆内存模块;
在表情平衡模型的训练过程中,基于增量记忆内存模块保留上一训练阶段的预设数量的旧类别数据,减少表情平衡模型对代表性不足的表情类别的偏见。
进一步地,骨干模块包括:一个卷积层、一个池化层和若干相连的残差连接单元;卷积层、池化层和若干所述残差连接单元依次连接;
残差连接单元包括:主分支子单元和副分支子单元;
主分支子单元,用于提取输入图像的不同特征;副分支子单元,用于连接残差连接单元的输入和输出。
进一步地,注意力特征融合模块包括:空间子模块、通道子模块和全连接层子模块;
注意力特征融合模块将表情特征,从两个维度进行压缩和融合为注意力图,并将注意力图输入全连接层,获得不同表情类别;其中,两个维度包括:空间子模块提供的空间维度和通道子模块提供的通道维度。
进一步地,空间子模块包括:最大和平均池化层、三个并联的卷积层和一个激活函数;
通道子模块包括:若干编码器、两个并联的池化层和一个激活函数。
进一步地,交叉注意蒸馏损失函数包括:交叉熵损失、注意力分区损失和蒸馏损失;
交叉注意蒸馏损失函数
Figure 858450DEST_PATH_IMAGE001
为:
Figure 466149DEST_PATH_IMAGE021
其中,
Figure 393785DEST_PATH_IMAGE003
为注意力分区损失,
Figure 971397DEST_PATH_IMAGE004
为交叉熵损失,
Figure 425512DEST_PATH_IMAGE005
为蒸馏损失。
进一步地,对表情平衡模型进行训练包括:
将数据集以类别增量的形式输入表情平衡模型中,每批次有一组新类别数据。
如图1所示,为本实施例所构建的基于增量技术和注意力机制的公平人脸表情识别方法的结构流程,本实施例的具体流程如下:
步骤一,从公开表情数据集中收集数据,对数据集中的表情图片进行预处理。
本步骤通过选定某几类特定的表情,从公开的表情数据集中进行采集,并将表情 图片经过对齐和裁剪处理后,并检查数据集中的表情标签。人脸图像的尺寸统一为224× 224,数据集为
Figure 813899DEST_PATH_IMAGE022
,其中
Figure 353465DEST_PATH_IMAGE007
表示第
Figure 734768DEST_PATH_IMAGE008
张图像,
Figure 918755DEST_PATH_IMAGE023
为图像数 据集中人脸图像的总数。
步骤二,搭建一个包括ResNet18、增量记忆内存、注意力特征融合网络和表情平衡微调模块的表情平衡网络。其具体实施流程如下:
S2.1:构建一个具有18层的残差网络(ResNet18)作为骨干网络用于人脸表情特征的提取;骨干网络依次设置有一个卷积层、一个池化层和若干个相连的残差连接单元;残差连接单元包括主分支和副分支,主分支包括有卷积核大小为3×3的三层卷积层,第一个卷积层可能只提取一些如边缘、线条和角的低级特征,越后面的单元能从低级特征中迭代提取更复杂的特征。副分支子单元的构成为1×1的卷积核,副分支用于连接每个残差连接单元的输入和输出。当输入通道数不同时,可以利用副分支1×1的卷积核进行修改匹配;
S2.2:构建一个增量记忆内存用于保留上一个训练阶段的少量旧类别数据,减少模型对代表性不足的表情类别的偏见;
S2.3:构建一个注意力特征融合网络用于生成通道和空间的融合注意力图;如图2所示,注意力特征融合网络包括空间模块和通道模块;空间模块包括最大和平均池化层,三个并联的卷积层和一个激活函数,其中三个并联层的卷积核大小分别为3×1、3×3、1×3的三层卷积,激活函数采用ReLU;通道模块包括多层编码器,两个并联的池化层和一个激活函数,其中两个并联池化层分别为最大池化和平均池化,激活函数采用ReLU;
S2.4:如图3所示,设置一个表情平衡微调模块用于调节不同表情类别。
步骤三,建立混合损失函数
Figure 868257DEST_PATH_IMAGE001
(交叉注意蒸馏损失)用于对注意力融合网络进行分 区,并提取旧表情类别的网络参数:
S3.1:建立如式(1)所示的交叉熵损失
Figure 488594DEST_PATH_IMAGE004
Figure 814533DEST_PATH_IMAGE024
其中,
Figure 853028DEST_PATH_IMAGE025
表示为样本数量,
Figure 832485DEST_PATH_IMAGE026
表示为分类数,
Figure 346643DEST_PATH_IMAGE027
Figure 820481DEST_PATH_IMAGE028
分别表示为第
Figure 838115DEST_PATH_IMAGE008
样本为
Figure 254053DEST_PATH_IMAGE029
类表情的真实概率和预测概率;
S3.2:建立如式(2)所示的注意力分区损失
Figure 865294DEST_PATH_IMAGE003
Figure 533036DEST_PATH_IMAGE030
其中,
Figure 264231DEST_PATH_IMAGE031
表示为注意力图的通道长度,
Figure 992016DEST_PATH_IMAGE032
表示为第
Figure 90553DEST_PATH_IMAGE008
样本中第
Figure 155461DEST_PATH_IMAGE029
通道上的方差;
S3.3:建立如式(3)所示的蒸馏损失
Figure 882109DEST_PATH_IMAGE005
Figure 656161DEST_PATH_IMAGE033
其中,
Figure 960103DEST_PATH_IMAGE034
表示为旧表情的类别数目,
Figure 969647DEST_PATH_IMAGE035
表示为蒸馏温度系数,
Figure 957326DEST_PATH_IMAGE027
Figure 761334DEST_PATH_IMAGE036
分别表示为第
Figure 818152DEST_PATH_IMAGE008
样本为
Figure 365808DEST_PATH_IMAGE029
类表情的真实概率和旧模型的预测概率;
S3.4:构建如式(6)混合损失(交叉注意蒸馏损失)
Figure 942414DEST_PATH_IMAGE001
Figure 41957DEST_PATH_IMAGE037
步骤四,将表情数据以类别增量的形式输入模型中,每批次有一组新类别数据:
S4.1:给定第一训练阶段的数据集
Figure 727016DEST_PATH_IMAGE006
,其中
Figure 688150DEST_PATH_IMAGE007
表示第
Figure 509475DEST_PATH_IMAGE008
张图像,
Figure 45499DEST_PATH_IMAGE009
为第一训练阶段数据集的图像总数;第二或后续阶段的数据集
Figure 562062DEST_PATH_IMAGE016
,其中
Figure 451521DEST_PATH_IMAGE007
Figure 517566DEST_PATH_IMAGE011
分别表示第
Figure 568698DEST_PATH_IMAGE012
训练阶段中第
Figure 572558DEST_PATH_IMAGE008
张 新类别和旧类别的图像,
Figure 390341DEST_PATH_IMAGE013
Figure 186258DEST_PATH_IMAGE014
分别为第
Figure 549238DEST_PATH_IMAGE012
训练阶段中新类别和旧类别的图像总数;
S4.2:对于第
Figure 430606DEST_PATH_IMAGE012
训练阶段,采用数据集
Figure 786501DEST_PATH_IMAGE015
对步骤二所构造的表情平衡网络进行训 练,训练包括:
S2.1中的骨干网络采用ResNet18的结构,并提取输入数据的表情特征;然后将这些数据特征输入到注意力模块中。
S2.3中的注意力特征融合网络采用空间和通道注意力机制,并将输入数据的特征从空间和通道两个维度进行压缩和融合为注意力图;然后将这些注意力图输入到全连接层,并获得表情标签。
依据这些表情标签和步骤三中的混合损失函数(交叉注意蒸馏损失),计算损失值;然后利用随机梯度下降算法更新骨干网络、注意力特征融合网络的参数值;
S4.3:更新增量记忆内存中的数据:
选取当前训练阶段的数据集
Figure 46712DEST_PATH_IMAGE016
中的部分新类 别数据
Figure 970806DEST_PATH_IMAGE017
Figure 198525DEST_PATH_IMAGE018
为每个表情类别运行存放的样本数量;然后将这些新类别数 据放入S2.2中的增量记忆内存中,完成内存更新;此外,在最后一个训练阶段,不再更新内 存。
步骤五,如图1和图3所示,采用S2.4中的表情平衡微调模块对模型进行微调:
S5.1:从本地内存中选择数据来构建一个平衡的子集
Figure 233477DEST_PATH_IMAGE019
,其中
Figure 613774DEST_PATH_IMAGE007
表示第
Figure 567824DEST_PATH_IMAGE008
张图像,
Figure 423784DEST_PATH_IMAGE020
为平衡子集中图像的总数。基于平衡子集以较低的 学习率对模型进行微调,以获得更平衡的性能,最后结束训练。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,包括:
构建并训练表情平衡模型,所述表情平衡模型包括:骨干模块、注意力特征融合模块和表情平衡微调模块;
将人脸表情图像输入所述骨干模块,提取所述人脸表情图像的表情特征;
将所述表情特征输入所述注意力特征融合模块,获取不同表情类别;
将所述不同表情类别输入所述表情平衡微调模块,对不同所述表情类别进行调节,输出公平人脸表情识别结果。
2.根据权利要求1所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,训练所述表情平衡模型包括:
获取所述人脸表情图像的数据集;
构建交叉注意蒸馏损失函数;
基于所述数据集和所述交叉注意蒸馏损失函数对所述表情平衡模型进行训练。
3.根据权利要求2所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,所述表情平衡模型还包括:增量记忆内存模块;
所述增量记忆内存模块与所述骨干模块连接;
在所述表情平衡模型的训练过程中,基于所述增量记忆内存模块保留上一训练阶段的预设数量的旧类别数据,减少所述表情平衡模型对代表性不足的表情类别的偏见。
4.根据权利要求1所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,所述骨干模块包括:一个卷积层、一个池化层和若干相连的残差连接单元;
所述卷积层、池化层和若干所述残差连接单元依次连接;
所述残差连接单元包括:主分支子单元和副分支子单元;
所述主分支子单元,用于提取输入图像的不同特征;所述副分支子单元,用于连接所述残差连接单元的输入和输出。
5.根据权利要求1所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,所述注意力特征融合模块包括:空间子模块、通道子模块和全连接层子模块;
所述注意力特征融合模块将所述表情特征,从两个维度进行压缩和融合为注意力图,并将所述注意力图输入所述全连接层,获得所述不同表情类别;其中,所述两个维度包括:所述空间子模块提供的空间维度和所述通道子模块提供的通道维度。
6.根据权利要求5所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,
所述空间子模块包括:最大和平均池化层,以及与所述最大和平均池化层连接的三个并联的卷积层;
所述通道子模块包括:若干编码器,以及与所述若干编码器连接的两个并联的池化层。
7.根据权利要求2所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,所述交叉注意蒸馏损失函数包括:交叉熵损失、注意力分区损失和蒸馏损失;
所述交叉注意蒸馏损失函数
Figure 671185DEST_PATH_IMAGE001
为:
Figure 401374DEST_PATH_IMAGE002
其中,
Figure 509008DEST_PATH_IMAGE003
为注意力分区损失,
Figure 717266DEST_PATH_IMAGE004
为交叉熵损失,
Figure 859535DEST_PATH_IMAGE005
为蒸馏损失。
8.根据权利要求3所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,对所述表情平衡模型进行训练包括:
将所述数据集以类别增量的形式输入所述表情平衡模型中,每批次有一组新类别数据。
9.根据权利要求8所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,将所述数据集以类别增量的形式输入所述表情平衡模型中包括:
S1.设定第一训练阶段的数据集
Figure 760626DEST_PATH_IMAGE006
,其中
Figure 496501DEST_PATH_IMAGE007
为第
Figure 23297DEST_PATH_IMAGE008
张图像,
Figure 770804DEST_PATH_IMAGE009
为第一 训练阶段数据集的图像总数;设定第二或后续阶段的数据集
Figure 233009DEST_PATH_IMAGE010
其中
Figure 315235DEST_PATH_IMAGE007
Figure 521088DEST_PATH_IMAGE011
分别为第
Figure 123102DEST_PATH_IMAGE012
训练阶段中第
Figure 146422DEST_PATH_IMAGE008
张新类 别和旧类别的图像,
Figure 591310DEST_PATH_IMAGE013
Figure 210641DEST_PATH_IMAGE014
分别为第
Figure 182008DEST_PATH_IMAGE012
训练阶段中新类别和旧类别的图像总数;
S2.在所述第
Figure 986016DEST_PATH_IMAGE012
训练阶段,采用数据集
Figure 793566DEST_PATH_IMAGE015
对所述表情平衡模型进行训练:
S3.选取当前训练阶段的数据集
Figure 341222DEST_PATH_IMAGE016
中的预设数量 的新类别数据
Figure 167096DEST_PATH_IMAGE017
,其中,
Figure 282950DEST_PATH_IMAGE018
为每个表情类别运行存放的样本数量;将所 述新类别数据放入所述增量记忆内存模块中,完成所述增量记忆内存模块的内存更新;此 外,在最后一个训练阶段,不再更新所述增量记忆内存模块的内存。
10.根据权利要求1所述的基于增量技术和注意力机制的公平人脸表情识别方法,其特征在于,所述表情平衡微调模块对所述不同表情类别进行调节包括:
构建一个平衡子集
Figure 702430DEST_PATH_IMAGE019
其中
Figure 912832DEST_PATH_IMAGE007
表示第
Figure 734157DEST_PATH_IMAGE008
张图像,
Figure 778772DEST_PATH_IMAGE020
为平衡子集中图像的总数;
基于所述平衡子集以预设阈值的学习率对所述表情平衡模型进行调整,保持所述表情平衡模型的识别性能平衡。
CN202211394678.3A 2022-11-09 2022-11-09 一种基于增量技术和注意力机制的公平人脸表情识别方法 Active CN115457643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211394678.3A CN115457643B (zh) 2022-11-09 2022-11-09 一种基于增量技术和注意力机制的公平人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211394678.3A CN115457643B (zh) 2022-11-09 2022-11-09 一种基于增量技术和注意力机制的公平人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN115457643A true CN115457643A (zh) 2022-12-09
CN115457643B CN115457643B (zh) 2023-04-07

Family

ID=84310538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211394678.3A Active CN115457643B (zh) 2022-11-09 2022-11-09 一种基于增量技术和注意力机制的公平人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN115457643B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631530A (zh) * 2022-12-22 2023-01-20 暨南大学 一种基于人脸动作单元的公平人脸表情识别方法
CN116597486A (zh) * 2023-05-16 2023-08-15 暨南大学 一种基于增量技术和掩码剪枝的人脸表情平衡识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558851A (zh) * 2018-12-04 2019-04-02 广东智媒云图科技股份有限公司 一种基于面部表情的联合作画方法及系统
CN111291670A (zh) * 2020-01-23 2020-06-16 天津大学 基于注意力机制和网络集成的小目标人脸表情识别方法
CN111709266A (zh) * 2020-03-26 2020-09-25 杭州尚课网络科技有限公司 基于时空融合网络的面部表情识别方法
CN111783621A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人脸表情识别及模型训练的方法、装置、设备及存储介质
CN112784763A (zh) * 2021-01-27 2021-05-11 南京邮电大学 基于局部与整体特征自适应融合的表情识别方法及系统
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN114241564A (zh) * 2021-12-17 2022-03-25 东南大学 一种基于类间差异强化网络的人脸表情识别方法
CN114724219A (zh) * 2022-04-11 2022-07-08 辽宁师范大学 一种基于注意力遮挡机制的表情识别方法
US20220327308A1 (en) * 2021-04-13 2022-10-13 Chongqing University Method for recognizing facial expressions based on adversarial elimination

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558851A (zh) * 2018-12-04 2019-04-02 广东智媒云图科技股份有限公司 一种基于面部表情的联合作画方法及系统
CN111291670A (zh) * 2020-01-23 2020-06-16 天津大学 基于注意力机制和网络集成的小目标人脸表情识别方法
CN111709266A (zh) * 2020-03-26 2020-09-25 杭州尚课网络科技有限公司 基于时空融合网络的面部表情识别方法
CN111783621A (zh) * 2020-06-29 2020-10-16 北京百度网讯科技有限公司 人脸表情识别及模型训练的方法、装置、设备及存储介质
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN112784763A (zh) * 2021-01-27 2021-05-11 南京邮电大学 基于局部与整体特征自适应融合的表情识别方法及系统
US20220327308A1 (en) * 2021-04-13 2022-10-13 Chongqing University Method for recognizing facial expressions based on adversarial elimination
CN114241564A (zh) * 2021-12-17 2022-03-25 东南大学 一种基于类间差异强化网络的人脸表情识别方法
CN114724219A (zh) * 2022-04-11 2022-07-08 辽宁师范大学 一种基于注意力遮挡机制的表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
亢洁等: "基于注意力机制的卷积神经网络人脸表情识别", 《陕西科技大学学报》 *
王晓华等: "基于层级注意力模型的视频序列表情识别", 《计算机辅助设计与图形学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631530A (zh) * 2022-12-22 2023-01-20 暨南大学 一种基于人脸动作单元的公平人脸表情识别方法
CN116597486A (zh) * 2023-05-16 2023-08-15 暨南大学 一种基于增量技术和掩码剪枝的人脸表情平衡识别方法

Also Published As

Publication number Publication date
CN115457643B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115457643B (zh) 一种基于增量技术和注意力机制的公平人脸表情识别方法
CN109325443B (zh) 一种基于多实例多标签深度迁移学习的人脸属性识别方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
EP4006776A1 (en) Image classification method and apparatus
CN112395442B (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN108960288B (zh) 基于卷积神经网络的三维模型分类方法及系统
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN113033450A (zh) 多模态连续情感识别方法、服务推理方法及系统
CN113297955A (zh) 一种基于多模态分层级信息融合的手语词识别方法
CN114463812B (zh) 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法
CN110705379A (zh) 一种基于多标签学习的卷积神经网络的表情识别方法
CN111860046A (zh) 一种改进MobileNet模型的人脸表情识别方法
CN115049814B (zh) 采用神经网络模型的护眼灯智能调节方法
CN110288603A (zh) 基于高效卷积网络和卷积条件随机场的语义分割方法
CN117275074A (zh) 基于宽广注意力和多尺度融合机制的人脸表情识别方法
CN111543985A (zh) 一种基于新型深度学习模型的脑控混合智能康复方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN111767842B (zh) 基于迁移学习和自编码器数据增强的微表情种类判别方法
CN113065512A (zh) 人脸微表情识别方法、装置、设备及存储介质
WO2021189321A1 (zh) 一种图像处理方法和装置
CN111461169B (zh) 基于正反卷积和多层分支深度网络的行人属性识别方法
CN115376542B (zh) 一种低侵入性的视听语音分离方法及系统
Viedma et al. Deep gender classification and visualization of near-infra-red periocular-iris images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant