CN116884072A - 一种基于多层级和多尺度注意机制的面部表情识别方法 - Google Patents
一种基于多层级和多尺度注意机制的面部表情识别方法 Download PDFInfo
- Publication number
- CN116884072A CN116884072A CN202310896839.7A CN202310896839A CN116884072A CN 116884072 A CN116884072 A CN 116884072A CN 202310896839 A CN202310896839 A CN 202310896839A CN 116884072 A CN116884072 A CN 116884072A
- Authority
- CN
- China
- Prior art keywords
- facial expression
- expression recognition
- module
- feature
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000014509 gene expression Effects 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 3
- 230000004913 activation Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 206010063659 Aversion Diseases 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层级和多尺度注意机制的面部表情识别方法,该方法首先将四个公共数据集拆分成为训练集、测试集和验证集。其次构建包含特征预提取模块、多层级注意模块和多尺度注意模块的面部表情识别模型,并对模型输入的数据集的图像进行人脸检测和对齐,以及随机图像增强。然后将处理好的训练集图像输入到构建好的面部表情识别模型中,利用交叉熵损失和限制中心损失对模型进行训练和优化。最后对测试集和验证集中的图像进行推理,得到相应的分类结果,识别表情。本发明增加了模型所提取特征的鲁棒性,提高模型输出特征的表达能力,进行准确的面部表情识别。
Description
技术领域
本发明涉及面部表情识别领域,尤其涉及一种基于多层级和多尺度注意机制的面部表情识别方法。
背景技术
面部表情是人际交往中最简单也是最自然的表达之一,它能够形象生动地表达人类的情感,在日常生活中发挥着重要的作用。面部表情识别是人工智能中一个重要的研究方向,在过去几十年里,由于面部表情识别在人机交互、数字娱乐、医疗保健和驾驶检测等行业的广泛应用,导致越来越多的人关注这个研究方向。
面部表情识别的目标是把一张图像所表达的情感准确的为类为快乐、惊讶、悲伤、厌恶、恐惧、愤怒、中性和轻蔑这几种基本情绪中的一种。传统的面部表情识别方法主要利用手工特征或浅层特征来对面部表情图像进行识别,由于面部表情类间的高相似性、面部遮挡和姿势变化的影响,导致传统的方法很难正确地识别图像所属的类别。虽然近些年来提出了很多先进的基于注意机制方法来提升面部表情识别的性能,但是,这些方法仍然会存在以下问题:
1.由于不同情绪的表现可能存在高度的相似性,而相同情绪的表现可能存在高度的差异性,这些图像只有通过额头的褶皱程度、眼睛的大小以及嘴角的闭合程度这些细节特征才能对其进行区分,而现有的方法很难让模型去关注到这些重要的细节特征。
2.当今大部分的面部表情识别模型都只利用了交叉熵损失作为最终的损失函数,而交叉熵损失只关注了预测分数与正确标签之间的差异,而忽视了与其他非正确标签的差异。
发明内容
针对以上问题,本发明提供一种基于多层级和多尺度注意机制的面部表情识别方法。首先,设计了多层级注意模块,该模块用来将特征预提取模块不同阶段提取出来的特征根据重要性赋予不同的权重;其次,设计了多尺度注意模块,该模块用来对深层特征进行多尺度融合,以提高深层特征的语义信息和表示能力;最后,设计了限制中心损失,该损失用来拉近同一类特征的距离,疏远不同类特征的距离,以提高不同类特征的差异性,并通过增加限制条件限制类内、类间距离,从而防止产生过大的损失值。
本发明解决技术问题所采取的技术方案为:
步骤1:将若干个公共数据集拆分成为训练集、测试集和验证集、在训练集,测试集和验证集中均包含7种基本表情图像若干张。
步骤2:构建面部表情识别模型,该模型包含特征预提取模块、多层级注意模块和多尺度注意模块。
步骤3:对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐,并将其裁剪为固定的大小。对模型输入的训练集随机抽取10%的图像进行图像增强,图像增强的操作如水平翻转、随机裁剪、随机去除、随机旋转等,用来防止模型过拟合。
步骤4:将经过步骤3处理好的训练集图像,输入到构建的面部表情识别模型中,利用交叉熵损失和限制中心损失对模型中可学习的参数进行训练和优化,直至训练到模型的准确度不再提升为止,具体训练过程包含以下子步骤:
步骤4.1:将步骤3处理好的图像输入到特征预提取模块中,其中特征预提取模块总共包含n个基本块,将特征预提取模块中每个基本块的输出特征图Xi作为特征预提取模块每个阶段输出的特征。
步骤4.2:通过多层级注意模块中的权重分配模块对前n-1个基本块输出的特征图根据重要性的不同分配不同的权重,在该模块中,首先利用平均池化层来对前n-1个基本块输出的特征图Xi的通道信息进行聚合,得到平均池化通道向量其次,经过全连接层和激活层对通道向量/>进行降维得到最终的权重αi。其计算公式为:
其中,AvgPool代表平均池化操作;和/>分别代表ReLU激活函数和Sigmoid激活函数,/>和/>代表全连接层的参数,下标代表与第i个基本块对应,上标代表第几个全连接层或者激活层;/>和αi分别代表第i个基本块输出特征对应的平均池化通道向量和权重。
步骤4.3:通过打平操作(将多维特征图展开成一维度)以及全连接层将前n-1个基本块输出的特征图映射到同一尺寸维度上得到特征图Zi。其计算公式为:
Zi=f(Xi)wi,
其中,f(*)代表打平操作,wi代表全连接层的参数,Zi代表第i个基本块输出的特征图进行重塑后得到的向量。
步骤4.4:将αi与对应的Zi相乘后相加,得到多层级注意模块的输出Yout1。
其中n代表基本块的个数,在本方法的面部表情识别模型中,特征预提取模块包含4个基本块。
步骤4.5:由于SEBlock具有出色的通道聚合能力,采用由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成的SEBlock,对特征预提取模块第n个基本块的输出Xn进行通道维度上的加权,在该模块中,首先,利用平均池化层来对第n个基本块的输出Xn的通道信息进行聚合,得到平均池化通道向量其次,利用全连接层和激活层对进行升维后降维得到与/>尺寸一致的向量W;最后,将得到的W与Xn相乘得到S,从而实现了Xn在通道维度上的加权。
步骤4.6:利用多尺度注意模块中的多尺度融合模块来对特征图S进行多尺度融合,在该模块中,首先,将特征图S分别经过三个空洞卷积层、归一化层和激活层,得到对应的特征图Dj;其次,将得到的特征图Dj相加融合得到特征图D。其计算公式为:
Dj=σj(BNj(μj(S;j))),
其中,σj代表ReLU激活函数,BNj(*)代表归一化操作,μj(·;j)代表空洞卷积操作,j代表膨胀比。
步骤4.7:通过打平操作以及全连接层将特征图D映射到与Yout1同一尺寸维度上得到多尺度注意模块最终的输出Yout2。
步骤4.8:将Yout1和Yout2相加得到最终的特征输出Y。其计算公式为:
Y=β1Yout1+β2Yout2,
其中,β1和β2为超参数,代表多层级注意模块的输出和多尺度注意模块的输出对于模型最终输出特征的贡献。
步骤4.9:构建损失函数,计算损失,并对面部表情识别模型进行优化,为了减少预测分数与真实标签之间的差距,本发明采用交叉熵损失Lc1。其计算公式为:
其中m代表每一个小批次mini-batch中的样本个数,k代表类别的个数,代表第h个样本对应的第g个类别的标签,/>代表第h个样本对应输出的第g个类别的预测分数。
为了拉近同一类特征的距离,疏远不同类特征的距离,,并限制损失值的大小,本发明设计了限制中心损失Llc,其计算公式为:
其中Yh代表第h个样本对应输出各类别的预测分数,ch代表第h个样本对应类别的中心向量,表示L2范数的平方,cg代表第g个类别对应的中心向量,γ1、γ2、ω1、ω2为超参数,γ1和γ2用来调节Llc的大小,ω1用来约束限制类内距离,ω2用来约束限制类间距离,δ表示一个极小值,用来防止分母为0。
将上述损失函数相加得到总的损失Ltotal。
步骤5:对测试集和验证集中的图像进行推理,将经过步骤3处理好的训练集和测试集图像输入到模型中,得到相应的分类结果,识别表情,分类结果为厌恶、快乐、生气、害怕、惊讶、悲伤和中性这7种基本表情中的一种。
本发明网络架构由特征预提取模块、多层级注意模块和多尺度注意模块构成。特征预提取模块采用了多阶段提取特征的方式,使得模型最终提取出的特征既包含了浅层网络(前n-1个基本块)中的低级空间信息,又包含了深层网络(第n个基本块)中的高级语义信息,增加了模型所提取特征的鲁棒性;多层级注意模块作用在特征预提取模块的浅层基本块上,该模块用来将特征预提取模块浅层基本块提取出来的特征根据重要性赋予不同的权重,从而让模型去关注那些重要的细节特征;多尺度注意模块作用在特征预提取模块最深层基本块上,用来帮助模型更好地融合多尺度上下文信息,从而提高模型输出特征的表达能力;此外,本发明设计了限制中心损失,在中心损失函数的基础上通过惩罚不同类别的中心距离,拉远了不同类别的距离,并通过增加限制条件约束类内、类间距离,有效防止了过大损失值的产生,从而更好地优化模型,识别出精确的面部表情。
附图说明
图1为本发明基于多层级和多尺度注意机制的面部表情识别方法的流程图;
图2为本发明实例的整体网络架构示意图;
图3为本方法的多尺度注意模块和多层级注意模块在原始图像上的注意力可视化。
具体实施方式
本发明提出基于多层级和多尺度注意机制的面部表情识别方法。如图1所示,整体网络架构由特征预提取模块、多层级注意模块和多尺度注意模块构成。首先,利用特征预提取模块提取出输入图像的初步特征,根据研究表明,在卷积网络中,越深的卷积感受野越大,学到的语义特征更丰富,而越浅的卷积感受野越小,学到的几何特征更丰富(如外形、轮廓,边缘等),因此在特征预提取模块采用了分阶段提取特征的方式,便于让模型捕获到更加全面的信息;然后,利用多层级注意模块对特征预提取模块的浅层特征进行进一步提取,并根据提取特征的重要性赋予不同的权重,并将得到的特征与对应的权重相乘后相加得到多层级注意模块的最终输出;接着,利用多尺度注意块对特征预提取模块最深层输出的特征进行多尺度融合,以提高深层特征的语义信息和表示能力,并将输出的特征与多层级注意模块最终的输出进行相加融合得到模型最终的输出;最后,利用交叉熵损失和限制中心损失来对原始标签、每个类别的中心向量以及模型最后的输出计算损失,该步骤只会在训练过程中使用,用来优化网络的整体参数,使得模型在后续的推理中预测出准确地分类分数。
下面结合附图以及具体实施方式对本发明作进一步的详细说明。
具体的,本发明是基于多层级和多尺度注意机制的面部表情识别方法,如图一所示,主要包括如下步骤:
步骤1:将Affect-Net、RAF-DB、FERPlus、SFEW2.0四个公共数据集拆分成为训练集、测试集和验证集,在训练集,测试集和验证集中均包含7种基本表情图像若干张。
其中RAF-DB是一个真实世界数据集,它包含3万张来自数千名不同国家和不同年龄段的人的面部表情图像,这些图像的遮挡范围,姿势变化,亮度都不受控制,而且每张图像都由大约40名标注者独立标注,将数据集划分为7种基本标签,共包含15339张图像(其中12271张图像作为训练集、3068张图像作为测试集);FERPlus数据集由FER2013数据扩展出来,而FER2013数据集是由谷歌搜索引擎收集得到的大规模真实数据集,在FER2013数据集中,所有图像都已经过人脸对齐后裁剪成48x48,但是由于FER2013数据集中存在很多标记错误的图像,因此,FERPlus数据集对其进行拓展重标签,FERPlus数据集总共包含35887张图像(其中28709张图像作为训练集、3589张图像作为测试集、3589张图像作为验证集);Affect-Net数据集是所有面部表情识别公共数据集中最大的一个数据集,它是由三个主要的搜索引擎收集而来,共包含287401张图像(其中283901张图像作为训练集、3500张图像作为测试集);SFEW2.0数据集是从AFEW数据集中提取出来的,该数据涵盖了不受约束的面部表情、不同姿势的变化、不同年龄段范围、不同面部分辨率的图像,共包含1766张图像(其中958张图像作为训练集、372张图像作为测试集,436张图像作为验证集)。
步骤2:如图2所示,构建面部表情识别模型,该模型包含特征预提取模块、多层级注意模块和多尺度注意模块。
步骤3:对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐,并将其裁剪为固定的大小。对模型输入的训练集随机抽取10%的图像进行图像增强,图像增强操作如水平翻转、随机裁剪、随机去除、随机旋转等,用来防止模型过拟合。
步骤4:将步骤3处理好的训练集图像输入到构建好的面部表情识别模型中,利用交叉熵损失和限制中心损失对模型中可学习的参数进行训练和优化,直至训练到模型的准确度不再提升为止,具体训练过程包含以下子步骤:
步骤4.1:将步骤3处理好的图像输入到特征预提取模块中,其中特征预提取模块由ResNet-50构成,ResNet-50包含4个基本块,每个基本块分别包含3、4、6、3个Bottleneck,其中每个Bottleneck包含1个3x3的卷积以及2个1x1的卷积,当图像输入到特征预提取模块中,每经过一个基本块,特征图的空间尺度就会减半,通道数量就会加倍,将特征预提取模块中每个基本块的输出特征图Xi作为特征预提取模块每个阶段输出的特征。其计算公式为:
Xi=r(Xi-1;θi),
其中,r(·)表示卷积和激活操作,θi表示特征预提取模块中每个基本块中的参数,i表示第几个基本块,从1开始。
步骤4.2:通过权重分配模块对特征预提取模块前三个基本块输出的特征图根据重要性的不同分配不同的权重,该模块由平均池化层、全连接层以及激活层构成,在该模块中,首先利用平均池化层来对前n-1个基本块输出的特征图Xi的通道信息进行聚合,得到平均池化通道向量其次,经过两次全连接层和激活层对通道向量/>进行降维得到最终的权重αi。其计算公式为:
其中,σ代表ReLU激活函数,AvgPool代表平均池化操作和/>分别代表ReLU激活函数和Sigmoid激活函数,/>和/>代表全连接层的参数,下标代表与第i个基本块对应,上标代表第几个全连接层或者激活层;/>和αi分别代表第i个基本块输出特征对应的平均池化通道向量和权重。
步骤4.3:通过打平操作(将多维特征图展开成一维度)以及全连接层将前n-1个基本块输出的特征图Xi映射到同一尺寸维度上得到特征图Zi。其计算公式为:
Zi=f(Xi)wi,
其中,f(*)代表打平操作,wi代表全连接层的参数,Zi代表第i个基本块输出的特征图进行重塑后得到的向量。
步骤4.4:将αi与对应的Zi相乘后相加,得到多层级注意模块的输出Yout1:
其中,n代表基本块的个数,在本方法的面部表情识别模型中,特征预提取模块包含4个基本块。
步骤4.5:由于SEBlock具有出色的通道聚合能力,本方法采用SEBlock对特征预提取模块第四个基本块的输出Xn进行通道维度上的加权,其中SEBlock主要由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成,在该模块中,首先,利用平均池化层来对第n个基本块的输出Xn的通道信息进行聚合,得到平均池化通道向量其次,利用全连接层和Relu激活层对/>进行升维后利用全连接层和Sigmoid激活层进行降维得到与/>尺寸一致的向量W;最后,将得到的W与Xn相乘得到S,从而实现了Xn在通道维度上的加权。其计算公式为:
S=WXn,
步骤4.6:利用多尺度融合模块来对特征图S进行多尺度融合,该模块主要由三个不同膨胀比的3x3空洞卷积层、归一化层和激活层构成,在该模块中,首先,将特征图S分别经过三个不同空洞卷积层、归一化层和激活层,其中三个空洞卷积的膨胀比分别设置为1,2,3,得到对应的特征图Dj;其次,将得到的特征图Dj相加融合得到特征图D。其计算公式为:
Dj=σ+(BNj(μj(S;j))),
其中,σj代表ReLU激活函数,BNj(*)代表归一化操作,μj(·;j)代表空洞卷积操作,j代表膨胀比。
步骤4.7:通过打平操作以及全连接层将特征图D映射到与Yout1同一尺寸维度上得到多尺度注意模块最终的输出Yout2。其计算公式为:
Yout2=f(D)wn,
步骤4.8:将Yout1和Yout2相加得到最终的特征输出Y。其计算公式为:
Y=β1Yout1+β2Yout2,
其中,β1和β2为超参数,代表多层级注意模块的输出和多尺度注意模块的输出对于模型最终输出特征的贡献。
步骤4.9:构建损失函数,计算损失,并对面部表情识别模型进行优化,为了减少预测分数与真实标签之间的差距,本发明采用交叉熵损失Lce。其计算公式为:
其中,m代表每一个小批次mini-batch中的样本个数,k代表类别的个数,代表第h个样本对应的第g个类别的标签,/>代表第h个样本对应输出的第g个类别的预测分数。
由于传统的中心损失只考虑了拉近同一类特征的距离,而没有考虑拉远不同类特征的距离,而且容易产生较大的损失值,因此本发明提出了限制中心损失Llc,它在中心损失的基础上通过惩罚不同类别的中心距离,从而拉远了不同类别的中心距离,并通过增加限制条件限制类内、类间距离,从而防止了产生过大的损失值。其计算公式为:
其中Yh代表第h个样本对应输出各类别的预测分数,ch代表第h个样本对应类别的中心向量,cg代表第g个类别对应的中心向量,表示L2范数的平方,γ1、γ2、ω1、ω2为超参数,γ1和γ2用来调节Llc的大小,ω1用来约束限制类内距离,ω2用来约束限制类间距离,δ表示一个极小值,用来防止分母为0。
将上述损失函数整合到一起得到总的损失Ltotal。其计算公式为:
Ltotal=Lce+Llc.
步骤5:对测试集和验证集中的图像进行推理,将处理好的训练集和测试集图像输入到模型中,得到相应的分类结果,结果为厌恶、快乐、生气、害怕、惊讶、悲伤和中性这7种基本表情中的一种。
为了证明方法的有效性,本方法利用热力图来可视化模型关注的区域,如图3所示,图中第一行代表生气,第二行代表害怕,第一列代表原始图像,第二、三列分别代表多尺度注意模块和多层级注意模块最终输出对于原始图像的注意力可视化。图中清楚的展示了多尺度注意模块更加注重全局的特征,而多层级注意模块更加注重重要的细节特征,通过这两个模块的相互配合,有效提高了面部表情识别的准确率。
表1本方法与其他先进的方法在RAF-DB数据集上的对比实验结果
表2本方法与其他先进的方法在Affect-Net数据集上的对比实验结果
表3本方法与其他先进的方法在FERPlus数据集上的对比实验结果
为了证明方法的优异性,本发明在RAF-DB、Affect-Net、FERPlus这三个数据集上与其他最先进的方法进行了对比实验,实验结果如表1,表2,表3所示,通过实验结果可以证明本方法具有较高的识别准确率。
Claims (8)
1.一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,包括如下步骤:
步骤1:将若干个公共数据集拆分成为训练集、测试集和验证集;
步骤2:构建包含特征预提取模块、多层级注意模块和多尺度注意模块的面部表情识别模型;
步骤3:对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐,并将其裁剪为固定的大小;
对模型输入的训练集随机抽取10%的图像进行图像增强;
步骤4:将经过步骤3处理好的训练集图像,输入到构建的面部表情识别模型中,利用交叉熵损失和限制中心损失对模型中的参数进行训练和优化,直至训练到面部表情识别模型模型的准确度不再提升为止;
步骤5:将经过步骤3处理好的训练集和测试集图像输入到面部表情识别模型模型中,得到相应的分类结果,识别表情。
2.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,在步骤1中,所述训练集、测试集和验证集中均包含7种基本表情图像若干张;
所述7种基本表情为厌恶、快乐、生气、害怕、惊讶、悲伤和中性。
3.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,在步骤3中,所述图像增强的操作为:水平翻转、随机裁剪、随机去除、随机旋转。
4.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,步骤4具体过程如下:
步骤4.1:将步骤3处理好的图像输入到特征预提取模块中,其中特征预提取模块包含n个基本块,将特征预提取模块中每个基本块的输出特征图Xi作为特征预提取模块每个阶段输出的特征;
步骤4.2:通过多层级注意模块中的权重分配模块对前n-1个基本块输出的特征图,根据重要性的不同分配不同的权重αi;
步骤4.3:通过将多维特征图展开成一维度的打平操作以及全连接层将前n-1个基本块输出的特征图Xi映射到同一尺寸维度上得到特征图Zi;
步骤4.4:将得到的αi与对应的Zi相乘后相加,得到多层级注意模块最终的输出Yout1;
步骤4.5:采用由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成的SEBlock,对特征预提取模块第n个基本块的输出Xn进行通道维度上的加权,得到特征图S;
步骤4.6:利用多尺度注意模块中的多尺度融合模块对特征图S进行多尺度融合,得到特征图D;
步骤4.7:通过打平操作以及全连接层将特征图D映射到与Yout1同一尺寸维度上得到多尺度注意模块最终的输出Yout2;
步骤4.8:将Yout1和Yout2相加得到最终的特征输出Y,其计算公式为:
Y=β1Yout1+β2Yout2,
其中,β1和β2为超参数;
步骤4.9:构建损失函数,计算损失,对面部表情识别模型进行优化。
5.根据权利要求4所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,在步骤4.2所述权重分配模块中,首先利用平均池化层对前n-1个基本块输出的特征图Xi的通道信息进行聚合,得到平均池化通道向量
其次,经过全连接层和激活层对通道向量进行降维得到权重αi。
6.根据权利要求5所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,在步骤4.5中所述SEBlock中,首先利用平均池化层对第n个基本块的输出Xn的通道信息进行聚合,得到平均池化通道向量
其次,利用全连接层和激活层对进行升维后降维得到与/>尺寸一致的向量W;
最后,将得到的W与Xn相乘,得到特征图S。
7.根据权利要求6所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,在步骤4.6所述多尺度融合模块中,首先将特征图S分别经过三个空洞卷积层、归一化层和激活层,得到对应的特征图Dj;
其次,将得到的特征图Dj相加融合得到特征图D。
8.根据权利要求7所述的一种基于多层级和多尺度注意机制的面部表情识别方法,其特征在于,步骤4.9所述计算损失的损失函数具体如下:
(1)交叉熵损失Lce,其计算公式为:
其中m代表每一个小批次中的样本个数,k代表类别的个数,代表第h个样本对应的第g个类别的标签,/>代表第h个样本对应输出的第g个类别的预测分数;
(2)限制中心损失Llc,其计算公式为:
其中,Yh代表第h个样本对应输出各类别的预测分数,ch代表第h个样本对应类别的中心向量,表示L2范数的平方,cg代表第g个类别对应的中心向量,γ1、γ2、ω1、ω2为超参数,γ1和γ2调节Llc的大小,ω1约束限制类内距离,ω2约束限制类间距离,δ表示一个极小值;
(3)将交叉熵损失Lce和限制中心损失Llc相加,得到总的损失Ltotal。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896839.7A CN116884072A (zh) | 2023-07-21 | 2023-07-21 | 一种基于多层级和多尺度注意机制的面部表情识别方法 |
GBGB2403110.6A GB202403110D0 (en) | 2023-07-21 | 2024-03-04 | Facial expression recognition method based on multi-level and mlti-scale attention mechanism |
GBGB2403086.8A GB202403086D0 (en) | 2023-07-21 | 2024-03-04 | Facial expression recognition method based on multi-level and multi-scale attention mechanism |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310896839.7A CN116884072A (zh) | 2023-07-21 | 2023-07-21 | 一种基于多层级和多尺度注意机制的面部表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884072A true CN116884072A (zh) | 2023-10-13 |
Family
ID=88260161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310896839.7A Pending CN116884072A (zh) | 2023-07-21 | 2023-07-21 | 一种基于多层级和多尺度注意机制的面部表情识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116884072A (zh) |
GB (2) | GB202403086D0 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558050A (zh) * | 2023-11-17 | 2024-02-13 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
-
2023
- 2023-07-21 CN CN202310896839.7A patent/CN116884072A/zh active Pending
-
2024
- 2024-03-04 GB GBGB2403086.8A patent/GB202403086D0/en not_active Ceased
- 2024-03-04 GB GBGB2403110.6A patent/GB202403110D0/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558050A (zh) * | 2023-11-17 | 2024-02-13 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
CN117558050B (zh) * | 2023-11-17 | 2024-05-28 | 西安理工大学 | 面向边缘计算端的实时人脸表情识别方法及人机交互系统 |
Also Published As
Publication number | Publication date |
---|---|
GB202403086D0 (en) | 2024-04-17 |
GB202403110D0 (en) | 2024-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Feature learning for image classification via multiobjective genetic programming | |
CN113221639B (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
Tian et al. | Ear recognition based on deep convolutional network | |
CN112464865A (zh) | 一种基于像素和几何混合特征的人脸表情识别方法 | |
CN112070768B (zh) | 基于Anchor-Free的实时实例分割方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN116884072A (zh) | 一种基于多层级和多尺度注意机制的面部表情识别方法 | |
Borgalli et al. | Deep learning for facial emotion recognition using custom CNN architecture | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Agbo-Ajala et al. | A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images | |
Ullah et al. | Emotion recognition from occluded facial images using deep ensemble model | |
Yan et al. | A parameter-free framework for general supervised subspace learning | |
CN111767842B (zh) | 基于迁移学习和自编码器数据增强的微表情种类判别方法 | |
CN117456581A (zh) | 一种图像预训练模型到视频人脸表情识别的方法 | |
CN114863520B (zh) | 一种基于c3d-sa的视频表情识别方法 | |
CN116311472A (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Zhang et al. | Position-squeeze and excitation module for facial attribute analysis | |
Rohani et al. | Deep Multi-task Convolutional Neural Networks for Efficient Classification of Face Attributes | |
Islam et al. | New hybrid deep learning method to recognize human action from video | |
Mohana et al. | Emotion Recognition from Facial Expression Using Hybrid cnn–lstm Network | |
Abdullah et al. | A Comparative Approach for Facial Expression Recognition in Higher Education Using Hybrid-Deep Learning from Students' Facial Images. | |
Singla et al. | Age and gender detection using Deep Learning | |
Sultana et al. | A Deep CNN based Kaggle Contest Winning Model to Recognize Real-Time Facial Expression | |
Hagar et al. | Emotion recognition in videos for low-memory systems using deep-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |