CN116110089A - 一种基于深度自适应度量学习的面部表情识别方法 - Google Patents
一种基于深度自适应度量学习的面部表情识别方法 Download PDFInfo
- Publication number
- CN116110089A CN116110089A CN202211307199.3A CN202211307199A CN116110089A CN 116110089 A CN116110089 A CN 116110089A CN 202211307199 A CN202211307199 A CN 202211307199A CN 116110089 A CN116110089 A CN 116110089A
- Authority
- CN
- China
- Prior art keywords
- expression recognition
- feature
- attention
- adaptive
- facial expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000008921 facial expression Effects 0.000 title claims abstract description 47
- 230000014509 gene expression Effects 0.000 claims abstract description 62
- 230000003044 adaptive effect Effects 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 12
- 230000001815 facial effect Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000005259 measurement Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000007717 exclusion Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 2
- 238000013135 deep learning Methods 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Abstract
本发明公开一种基于深度自适应度量学习的面部表情识别方法,步骤为:S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;S2:构建表情识别主干模型,使用ResNet18作为网络的骨干网,用上下文卷积,并采用协调注意模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码;S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;S5:使用表情识别模型进行面部表情检测,输出识别结果。
Description
技术领域
本发明属于人工智能算法和计算机视觉技术领域,尤其涉及一种基于深度自适应度量学习的面部表情识别方法。
背景技术
随着人工智能的发展,情感计算已经成为人工智能情感化的关键一步,面部表情显然是传达人类情感最直接的方式。具体来说,这些基本情绪状态主要包括高兴、生气、悲伤、恐惧、厌恶、惊讶和中性。由于面部表情识别(FER)在医疗辅助、驾驶员监控、智能教育、电商等领域的广泛应用,已成为计算机视觉领域一个活跃的研究课题。例如,商家通过记录消费者在浏览商品时的表情预测产品销量,为下一期的产品设计做好准备。
现有的大多数面部表情识别方法主要针对受控的实验室环境,不能很好地适应复杂的自然环境。在非受控的自然环境下,面部遮挡和姿势变化是影响识别性能的两个关键问题,它们导致了显著的类间相似性和类内差异性,同时产生了类别分布不平衡的特点。在现有方案中,面部表情识别方法主要分为以下几种方式:
(1)使用传统方法进行表情识别:传统的表情识别方法多为先手工设计特征或进行浅层学习,例如局部二值模式(local binary pattern,LBP)、非负矩阵分解(nonnegative matrix factorization,NMF)和稀疏学习等,而后再选择分类器进行表情分类,主要有决策树、支持向量机(SVM)、K最邻近(KNN)和Adaboost等。虽然所需数据量较小,但在实际应用中准确率不高。在传统的表情识别方法中,人工特征提取方法对某些特定数据往往能有较好的效果,但是这种提取方法并不通用,当面对不同的数据集或数据规模较大时,其准确性会下降。它的主要问题在于其针对某种数据库提取的特征和训练的分类器的泛化能力不强,由于自然环境中存在光照、姿势、变形、遮挡等复杂情形,最终输入的测试样本跟训练样本可能存在巨大的差异,这就导致了最终的识别结果不能让人满意。
(2)使用深度学习方法进行识别:近年来,随着人工智能的发展,深度学习技术得到了广泛应用,各个领域的研究也开始转向使用深度学习方法。基于深度学习的人脸识别、目标检测、姿态估计取得了显著的效果,这对表情识别有一定的借鉴意义。将深度学习技术运用到人脸表情识别中,使用卷积神经网络以“端到端”的方式完成特征提取和分类,能够提取更深层的表情特征,从而提高面部表情分类识别性能,使用深度学习方法进行表情识别的精度较高。该方法大多使用经典的分类模型,可以有效的识别面部表情,准确率较高。虽然利用深度学习能自动地获得表征能力和泛化性更强的特征,有效避免了传统方法的不足,但现有模型仍存在两个主要缺陷:1)卷积神经网络以平等方式处理图像中所有元素,对表情信息丰富的面部关键区域关注不足;2)使用经典损失函数训练模型无法控制表情类内差异性和数据分布不平衡带来的影响,不能为表情识别任务提供足够的鉴别信息。
中国专利文献(CN 113792572 A)公开了一种基于局部表征的表情识别算法,称为表情运动单元卷积神经网络,为提取面部的局部特征,该文首先根据获取的人脸68个特征点将整体面部图像划分成43个子区域,随后选择肌肉运动区域与面部显著器官所覆盖的8个局部候选区域作为卷积神经网络的输入。为均衡局部候选区域的特征,采用8个并行的特征提取分支,每个分支支配不同维全连接层。分支的输出按照注意力自适应地连接,以突出不同局部候选区域的重要程度,最后经Softmax函数将表情分为中性、愤怒、厌恶、惊讶、高兴、悲伤和恐惧七类。但该发明中识别的表情仅为设定的七类,且不能很好地适应复杂的自然环境。
因此,针对此问题,有必要提出一种基于深度自适应度量学习的面部表情识别方法,从非平衡表情数据中学习更具辨别力的情感表征,能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高自然环境下表情识别的性能。
发明内容
本发明的目的是解决在复杂的自然环境中如何准确地识别面部表情提出了一种基于深度自适应度量学习的面部表情识别方法,能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高复杂的自然环境下表情识别的性能。
为了解决上述技术问题,本发明采用的技术方案为:该基于深度自适应度量学习的面部表情识别方法,具体包括以下步骤:
S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;
S2:构建表情识别主干模型,使用轻量级ResNet18作为网络的骨干网,用上下文卷积代替普通卷积,并采用协调注意(coordination attention,CA)模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;
S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码,有区分地对待不同人脸特征;
S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;
S5:使用步骤S4中训练得到的表情识别模型进行面部表情检测,输出识别结果。
采用上述技术方案,首先进行人脸检测,提取到每个单独的人脸图像,然后使用ResNet18作为骨干模型,提取图像特征;然而,该模型的性能很大程度取决于其在训练过程中对数据特征的学习能力,但自然环境下的表情数据往往存在数据分布不平衡,类间特征相似度高和类内特征差异性大的特点,经典深度学习模型对少数样本的学习强度不够,难以捕获细微的表情变化,因此无法学习到具有辨别力的表情特征。
因此本发明提出将ResNet18中的普通卷积替换成上下文卷积,并在每个阶段使用了协调注意力模块进行调制,以此来增强特征表征能力;与ResNet18的大部分不同,用多级上下文卷积来整合面部表情的上下文空间信息,在不增加网络复杂度的情况下提取出更鲁棒的面部特征,但上下文卷积虽然可以提高FER的精度,但也增加了空间信息的冗余,因此,嵌入了协调注意(CA)模块来关注显著特征。为了更好的学习表情相关特征而不受其它因素的干扰,提出自适应注意模块,产生注意力权重加权各类特征与其中心之间的欧氏距离,捕捉对细微的表情变化更敏感的特征,滤除不相关信息,大大增加了模型学习特征的准确性。该方法能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高复杂的自然环境下表情识别的性能。
作为本发明的优选技术方案,所述步骤S1的具体步骤为:
S11:通过摄像装置拍摄人脸图像,获取人脸图像;
S12:将人脸图像中的人脸区域使用矩形框进行框选,去除多余背景,只保留人脸区域;
S13:然后对用矩形框框选的区域输入面部表情识别模型。因度量学习方法属于图像识别领域,因此需要将图像中的人脸区域使用矩形框进行框选,去除多余背景,只保留人脸区域。
作为本发明的优选技术方案,所述步骤S3的具体步骤为:
S31构建自适应注意力模块:利用随机注意力构建自适应注意力模块;
S32计算动态权重:将来自步骤S2中的获得的空间特征图作为输入,利用自适应注意力模块生成潜在特征表示,并使用多个二进制分类器计算每个人脸特征元素上的权重值;由于同时关注所有特征可能会包含一些不相关的特征,最终会降低学习算法的泛化能力,因此构建一个自适应注意力模块(AAM)来对主干网提取的特征进行编码;以及利用AAM生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征。具体为:利用随机注意力(SA)变换特征排列顺序,通过堆叠三个可训练的完全连接线性层,在上下文空间中提取相关信息,计算编码特征;然后将来自ResNet18的空间特征图作为输入,AAM生成潜在特征表示,并使用多个二进制分类器估计相关权重。
作为本发明的优选技术方案,所述步骤S31利用随机注意力构建自适应模块的具体步骤为:
S311对输入特征进行分组:对于输入的空间特征图X∈RC×H×W,其中C、H、W分别表示通道数、空间高度和宽度,随机注意力SA首先将X沿通道维数划分为G组,即X=[X1,…,XG],Xk∈RC/G×H×W,其中每个子特征Xk在训练过程中逐渐捕捉到特定的语义响应;然后,通过注意模块为每个子特征Xk生成相应的重要系数;
S312捕获通道间的依赖关系:首先嵌入全局信息,使用全局平均池化(GAP)生成通道级统计信息,即c∈RC/2G×1×1;再通过门控机制与sigmoid激活函数,得到通道注意的最终输出;
S313获取空间位置信息:采用群范数生成空间统计量,生成类似于通道分支的紧凑特征。
作为本发明的优选技术方案,所述步骤S311中通过注意模块为每个子特征Xk生成相应的重要系数具体步骤为:在每个注意单元开始时,Xk的输入沿着通道维度被分成两个分支,即Xk1,Xk2∈RC/2G×H×W;其中一个分支Xk1来产生一个通道注意力来利用通道间的相互关系,而另一分支Xk2用于利用空间位置间的关系特性生成一个空间注意力地图。
作为本发明的优选技术方案,在其中一个分支Xk1上,通过使用全局平均池化(GAP)来嵌入全局信息,生成所述步骤S312中的通道级统计信息c∈RC/2G×1×1,通过空间维数H×W收缩Xk1来计算通道级统计信息c,公式为:
其中,Xk1表示该分支上的特征,Fqp表示全局平均池化操作;
通过门控机制与sigmoid激活函数得到通道注意的最终输出表示为:
X′k1=σ(Fc(s))·Xk1=σ(W1+b1)·Xk1 (2);
其中,Fc表示缩放和移位操作,W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和移位通道级统计信息c的参数,W1表示缩放尺度,b1表示移位大小;σ表示sigmoid激活函数;
在另一个分支Xk2上,采用步骤S313中通过群范数成类似于通道分支的紧凑特征,生成一个空间注意力图获取空间位置信息,作为对通道信息的补充,公式为:
X′K2=σ(W2·GN(XK2)+b2)·XK2 (3);
其中,Xk2表示该分支上的特征,GN表示计算Xk2的群范数,W2和b2是形状为RC/2G×1×1的缩放和移位参数,σ表示sigmoid激活函数;
然后,再将分支Xk1和分支Xk2串联起来,使通道数与输入数保持一致,即X′k=[X′k1,X′k2]∈RC/G×G×W。
作为本发明的优选技术方案,所述步骤S32的具体步骤为:S321:将空间特征图作为输入,通过堆叠三个可训练的完全连接线性层,从上下文空间中提取相关信息,计算编码特征,公式为:
其中,是自适应注意力模块的输出特征图,即第i个样本的上下文特征,Wl和bl分别是第l个线性层的权重和偏差,其中l=1,2,3;在分层中插入批量归一化BN(.)和整流线性单元relu(.),以捕获层之间的非线性关系;最后的双曲正切函数tanh(.)作为单元的非线性保留了正的和负的激活值,以在网络中获得更平滑的梯度流;
S322:再在最后的线性层上附加多个二进制分类器,并在d个线性单元之间共享潜在维数特征向量s,再将softmax函数应用于每个二分类器的输出,得到相应的注意权重aij,公式为:
作为本发明的优选技术方案,所述步骤S4中采用结合平衡损失和稀疏中心损失的联合损失函数用于监督模型学习,具体步骤为:
S41用于类失衡的平衡损失:对交叉熵损失进行泰勒展开,公式为:
其中,Pt为面部表情识别模型对目标表情类的预测概率;1/j为系数;
在使用梯度下降法优化交叉熵损失时,应对Pt取梯度,而因1/j抵消了公式(5)中的多项式基的j次幂,因此交叉熵损失的梯度为多项式(1-Pt)j的和,即公式为:
然后,在交叉熵损失中修正每一项的多项式系数αj,而其余的保持不变,从而对式(8)进行简化得到最终的平衡损失,如下式所示:
其中,θ表示系数修正参数,N为交叉熵损失的泰勒展开式项数;
S42用于特征细化的稀疏中心损失函数:将获得的各个维度的距离进行加权,从而建立稀疏中心损失,过滤掉不相关的特征,其公式为:
其中,⊙为元素级乘法,aij表示上下文空间中第i个深度特征沿第j维的注意力权重;xij为上下文空间中第i个深度特征在第j维上的特征元素;为各类的特征中心;m为训练过程中的批量大小;d为特征向量维度大小。
由于交叉熵损失不能解决自然环境下FER的类不平衡和类内差异化问题,同时,其优化能力不足,不能有效提高模型的性能,而模型的训练需要有良好的目标函数,因此构建联合损失函数约束网络学习过程,包括平衡损失和稀疏中心损失,一方面,平衡损失将交叉熵损失扩展为多项式组合,并调整不同多项式基的重要程度,从而在增大各类特征间的距离同时增加对少数样本的学习强度;另一方面,通过计算各类别表情特征的与其中心特征的相似度,内聚类内特征。
作为本发明的优选技术方案,所述步骤S1中使用Yolov5预训练模型对拍摄图像中的人脸进行检测。
与现有技术相比,本发明具有的有益效果为:
(1)将ResNet18中的普通卷积替换成上下文卷积,并在每个阶段使用了协调注意力机制,以此来增强特征表征能力;
(2)利用随机注意力(SA)构建自适应注意模块,产生注意力权重加权各类特征与其中心之间的欧氏距离,捕捉对细微的表情变化更敏感的特征,滤除不相关信息,大大增加了模型学习特征的准确性;
(3)构建联合损失函数约束网络学习过程,包括平衡损失和稀疏中心损失,一方面,平衡损失将交叉熵损失扩展为多项式组合,并调整不同多项式基的重要程度,从而在增大各类特征间的距离同时增加对少数样本的学习强度;另一方面,通过计算各类别表情特征的与其中心特征的相似度,内聚类内特征。
附图说明
图1为本发明的基于深度自适应度量学习的面部表情识别方法的流程图;
图2为本发明的基于深度自适应度量学习的面部表情识别方法的深度自适应度量学习方法框图;
图3为本发明的基于深度自适应度量学习的面部表情识别方法的自适应注意模块(AMM)框图;
图4为本发明的基于深度自适应度量学习的面部表情识别方法的随机注意力(SA)的具体构成图。
具体实施方式
下面结合附图对本发明实施例进行详细描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例:如图1~2所示,该基于深度自适应度量学习的面部表情识别方法,具体包括以下步骤:
S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;所述步骤S1的具体步骤为:
S11:通过摄像装置拍摄人脸图像,获取人脸图像;
S12:将人脸图像中的人脸区域使用矩形框进行框选,去除多余背景,只保留人脸区域;
S13:然后对用矩形框框选的区域输入面部表情识别模型;使用Yolov5预训练模型对拍摄图像中的人脸进行检测;Yolov5预训练模型为现有技术中常用的Yolov5预训练模型;
S2:构建表情识别主干模型,使用深度度量学习方法进行面部表情识别;采用轻量级ResNet18作为网络的骨干网,用上下文卷积代替普通卷积,并采用协调注意(coordination attention,CA)模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;由于在自然环境下的面部表情识别任务中,类别分布不平衡和类内分散是使用深度学习方法进行核心问题,而将深度学习与度量学习结合在一起,其目标是学习到一个从原始特征到低维稠密的向量空间,可称为嵌入空间的映射,使得同类对象在嵌入空间上使用常用的距离函数计算的距离较近,不同类的对象之间的距离较远;深度度量学习方法的总体框图如图2所示,与ResNet18的大部分不同,使用多级上下文卷积来整合面部表情的上下文空间信息,在不增加网络复杂度的情况下提取出更鲁棒的面部特征;上下文卷积虽然可以提高FER的精度,但也增加了空间信息的冗余;因此,嵌入了协调注意(CA)模块来关注显著特征;
S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码,有区分地对待不同人脸特征;由于同时关注所有特征可能会包含一些不相关的特征,最终会降低学习算法的泛化能力,因此构建一个自适应注意力模块(AAM)来对主干网提取的特征进行编码;以及利用AAM生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征;具体为:利用随机注意力(SA)变换特征排列顺序,通过堆叠三个可训练的完全连接线性层,在上下文空间中提取相关信息,计算编码特征;然后将来自ResNet18的空间特征图作为输入,AAM生成潜在特征表示,并使用多个二进制分类器估计相关权重;
所述步骤S3的具体步骤为:
S31构建自适应注意力模块:利用随机注意力构建自适应注意力模块;自适应注意模块(AMM)框图如图3所示;
所述步骤S31利用随机注意力构建自适应模块的具体步骤为:
S311对输入特征进行分组:如图4所示,对于输入的空间特征图X∈RC×H×W,其中C、H、W分别表示通道数、空间高度和宽度,随机注意力(SA)首先将X沿通道维数划分为G组,即X=[X1,…,XG],Xk∈RC/G×H×W,其中每个子特征Xk在训练过程中逐渐捕捉到特定的语义响应;然后,通过注意模块为每个子特征Xk生成相应的重要系数;所述步骤S311中通过注意模块为每个子特征Xk生成相应的重要系数具体步骤为:在每个注意单元开始时,Xk的输入沿着通道维度被分成两个分支,即Xk1,Xk2∈RC/2G×H×W;采用如图4所示,其中一个分支Xk1来产生一个通道注意力来利用通道间的相互关系,而另一分支Xk2用于利用空间位置间的关系特性生成一个空间注意力地图;
S312捕获通道间的依赖关系:为了完全捕获通道依赖关系,首先嵌入全局信息,使用全局平均池化(GAP)生成通道级统计信息,即c∈RC/2G×1×1;再通过门控机制与sigmoid激活函数,得到通道注意的最终输出;即创建了一个紧凑的特征,以指导精确和自适应的选择;
S313获取空间位置信息:采用群范数生成空间统计量,生成类似于通道分支的紧凑特征;
在其中一个分支Xk1上,通过使用全局平均池化(GAP)来嵌入全局信息,生成所述步骤S312中的通道级统计信息c∈RC/2G×1×1,通过空间维数H×W收缩Xk1来计算通道级统计信息c,公式为:
其中,Xk1表示该分支上的特征,Fqp表示全局平均池化操作;
通过门控机制与sigmoid激活函数得到通道注意的最终输出表示为:
X′k1=σ(Fc(s))·Xk1=σ(W1+b1)·Xk1 (2);
其中,Fc表示缩放和移位操作,W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和移位通道级统计信息c的参数,W1表示缩放尺度,b1表示移位大小;σ表示sigmoid激活函数;
在另一个分支Xk2上,采用步骤S313中通过群范数成类似于通道分支的紧凑特征,生成一个空间注意力图获取空间位置信息,作为对通道信息的补充,公式为:
X′K2=σ(W2·GN(XK2)+b2)·XK2 (3);
其中,Xk2表示该分支上的特征,GN表示计算Xk2的群范数,W2和b2是形状为RC/2G×1×1的缩放和移位参数,σ表示sigmoid激活函数;
然后,再将分支Xk1和分支Xk2串联起来,使通道数与输入数保持一致,即X′k=[X′k-1,X′k2]∈RC/G×H×W;
S32计算动态权重:将来自步骤S2中的获得的空间特征图作为输入,利用自适应注意力模块生成潜在特征表示,并使用多个二进制分类器计算每个人脸特征元素上的权重值;所述步骤S32的具体步骤为:
S321:将空间特征图作为输入,通过堆叠三个可训练的完全连接线性层,从上下文空间中提取相关信息,计算编码特征,公式为:
其中,是自适应注意力模块的输出特征图,即第i个样本的上下文特征,Wl和bl分别是第l个线性层的权重和偏差,其中l=1,2,3;在分层中插入批量归一化BN(.)和整流线性单元relu(.),以捕获层之间的非线性关系;最后的双曲正切函数tanh(.)作为单元的非线性保留了正的和负的激活值,以在网络中获得更平滑的梯度流;
S322:再在最后的线性层上附加多个二进制分类器,并在d个线性单元之间共享潜在维数特征向量s,再将softmax函数应用于每个二分类器的输出,得到相应的注意权重aij,公式为:
S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;
由于交叉熵损失不能解决自然环境下FER的类不平衡和类内差异化问题,同时,其优化能力不足,不能有效提高模型的性能;因此,结合平衡损失和稀疏中心损失的联合损失函数,用于有监督模型学习;
所述步骤S4中采用结合平衡损失和稀疏中心损失的联合损失函数用于监督模型学习,具体步骤为:
S41用于类失衡的平衡损失:对交叉熵损失进行泰勒展开,公式为:
其中,Pt为面部表情识别模型对目标表情类的预测概率;1/j为系数;
在使用梯度下降法优化交叉熵损失时,应对Pt取梯度,而因1/j抵消了公式(5)中的多项式基的j次幂,因此交叉熵损失的梯度为多项式(1-Pt)j的和,即公式为:
再结合平衡损失,将损失函数设为多项式的线性组合,如下式(8)所示:
根据自然环境下的FER任务,调整不同多项式基的重要性,以增强模型对少量样本的学习强度,以解决类不平衡问题,有相关研究表明,去掉高阶多项式和调优前导多项式可以提高模型的鲁棒性和性能;因此再在交叉熵损失中扰动了前面的多项式系数,而其余的保持不变,发现第一个多项式的收益最大,从而对式(8)进行简化得到最终的平衡损失,如下式(9)所示:
其中,θ表示系数修正参数,N为交叉熵损失的泰勒展开式项数;
S42用于特征细化的稀疏中心损失函数:中心损失学习每个类下深特征的中心,惩罚深特征与对应类中心的距离,这在ResNet18中很容易优化;然而,平等对待所有特征不利于捕捉表达式之间的微妙差异,因为特征向量中的所有元素都与表情识别相关,而本发明的目标是保留具有辨别能力的元素子集,以帮助更好地识别不同的面部表情;因此,为了过滤掉不相关的特征,将获得的各个维度的距离进行加权,从而建立稀疏中心损失,过滤掉不相关的特征,其公式为:
其中,⊙为元素级乘法,aij表示上下文空间中第i个深度特征沿第j维的注意力权重;xij为上下文空间中第i个深度特征在第j维上的特征元素;为各类的特征中心;m为训练过程中的批量大小;d为特征向量维度大小;由于交叉熵损失不能解决自然环境下FER的类不平衡和类内差异化问题,同时,其优化能力不足,不能有效提高模型的性能,而模型的训练需要有良好的目标函数,因此构建联合损失函数约束网络学习过程,包括平衡损失和稀疏中心损失,一方面,平衡损失将交叉熵损失扩展为多项式组合,并调整不同多项式基的重要程度,从而在增大各类特征间的距离同时增加对少数样本的学习强度;另一方面,通过计算各类别表情特征的与其中心特征的相似度,内聚类内特征;
S5:使用步骤S4中训练得到的表情识别模型进行面部表情检测,通过比较每类表情的预测概率来判断表情类别,输出识别结果。
本发明所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改或补充或说明或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求述所定义的范围。
Claims (9)
1.一种基于深度自适应度量学习的面部表情识别方法,其特征在于,具体包括以下步骤:
S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;
S2:构建表情识别主干模型,使用轻量级ResNet18作为网络的骨干网,用上下文卷积代替普通卷积,并采用协调注意模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;
S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码,有区分地对待不同人脸特征;
S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;
S5:使用步骤S4中训练得到的表情识别模型进行面部表情检测,输出识别结果。
2.根据权利要求1所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S1的具体步骤为:
S11:通过摄像装置拍摄人脸图像,获取人脸图像;
S12:将人脸图像中的人脸区域使用矩形框进行框选,去除多余背景,只保留人脸区域;
S13:然后对用矩形框框选的区域输入面部表情识别模型。
3.根据权利要求1所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S3的具体步骤为:
S31构建自适应注意力模块:利用随机注意力构建自适应注意力模块;
S32计算动态权重:将来自步骤S2中的获得的空间特征图作为输入,利用自适应注意力模块生成潜在特征表示,并使用多个二进制分类器计算每个人脸特征元素上的权重值。
4.根据权利要求3所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S31利用随机注意力构建自适应模块的具体步骤为:
S311对输入特征进行分组:对于输入的空间特征图X∈RC×H×W,其中C、H、W分别表示通道数、空间高度和宽度,随机注意力首先将X沿通道维数划分为G组,即X=[Xl,…,XG],Xk∈RC /G×H×W,其中每个子特征Xk在训练过程中捕捉到特定的语义响应;然后,通过注意模块为每个子特征Xk生成相应的重要系数;
S312捕获通道间的依赖关系:首先嵌入全局信息,使用全局平均池化生成通道级统计信息,即c∈RC/2G×1×1;再通过门控机制与sigmoid激活函数,得到通道注意的最终输出;
S313获取空间位置信息:采用群范数生成空间统计量,生成通道分支的紧凑特征。
5.根据权利要求4所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S311中通过注意模块为每个子特征Xk生成相应的重要系数具体步骤为:在每个注意单元开始时,Xk的输入沿着通道维度被分成两个分支即Xk1,Xk2∈RC/2G×H×W;其中一个分支Xk1来产生一个通道注意力来利用通道间的相互关系,而另一分支Xk2用于利用空间位置间的关系特性生成一个空间注意力图。
6.根据权利要求5所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,在其中一个分支Xk1上,通过使用全局平均池化来嵌入全局信息,生成所述步骤S312中的通道级统计信息c∈RC/2G×1×1,通过空间维数H×W收缩Xk1来计算通道级统计信息c,公式为:
其中,Xk1表示该分支上的特征,Fqp表示全局平均池化操作;
通过门控机制与sigmoid激活函数得到通道注意的最终输出表示为:
X′k1=σ(Fc(s))·Xk1=σ(W1+b1)·Xk1 (2);
其中,Fc表示缩放和移位操作,W1∈RC/2G×1×1和b1∈RC/2G×1×1是用于缩放和移位通道级统计信息c的参数,W1表示缩放尺度,b1表示移位大小;σ表示sigmoid激活函数;
在另一个分支Xk2上,采用步骤S313中通过群范数成类似于通道分支的紧凑特征,生成一个空间注意力图获取空间位置信息,作为对通道信息的补充,公式为:
X′K2=σ(W2·GN(XK2)+b2)·XK2 (3);
其中,Xk2表示该分支上的特征,GN表示计算Xk2的群范数,W2和b2是形状为RC/2G×1×1的缩放和移位参数,σ表示sigmoid激活函数;
然后,再将分支Xk1和分支Xk2串联起来,使通道数与输入数保持一致,即X′K=[X′K1,X′K2]∈RC/G×H×W。
7.根据权利要求4所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S32的具体步骤为:
S321:将空间特征图作为输入,通过堆叠三个可训练的完全连接线性层,从上下文空间中提取相关信息,计算编码特征,公式为:
其中,是自适应注意力模块的输出特征图,即第i个样本的上下文特征,Wl和bl分别是第l个线性层的权重和偏差,其中l=1,2,3;在分层中插入批量归一化BN(.)和整流线性单元relu(.),以捕获层之间的非线性关系;最后的双曲正切函数tanh(.)作为单元的非线性保留了正的和负的激活值,以在网络中获得更平滑的梯度流;
S322:在最后的线性层上附加多个二进制分类器,并在d个线性单元之间共享潜在维数特征向量s,再将softmax函数应用于每个二分类器的输出,得到相应的注意权重aij,公式为:
8.根据权利要求7所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S4中采用结合平衡损失和稀疏中心损失的联合损失函数用于监督模型学习,具体步骤为:
S41用于类失衡的平衡损失:对交叉熵损失进行泰勒展开,公式为:
其中,Pt为面部表情识别模型对目标表情类的预测概率;1/j为系数;
在使用梯度下降法优化交叉熵损失时,应对Pt取梯度,而因1/j抵消了公式(5)中的多项式基的j次幂,因此交叉熵损失的梯度为多项式(1-Pt)j的和,即公式为:
然后,在交叉熵损失中修正每一项的多项式系数αj,而其余的保持不变,从而对式(8)进行简化得到最终的平衡损失,如下式所示:
其中,θ表示系数修正参数,N为交叉熵损失的泰勒展开式项数;
S42用于特征细化的稀疏中心损失函数:将获得的各个维度的距离进行加权,从而建立稀疏中心损失,过滤掉不相关的特征,其公式为:
9.根据权利要求2所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S1中使用Yolov5预训练模型对拍摄图像中的人脸进行检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211307199.3A CN116110089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于深度自适应度量学习的面部表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211307199.3A CN116110089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于深度自适应度量学习的面部表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116110089A true CN116110089A (zh) | 2023-05-12 |
Family
ID=86260430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211307199.3A Pending CN116110089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于深度自适应度量学习的面部表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116110089A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912919A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN117095447A (zh) * | 2023-10-18 | 2023-11-21 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
CN117612230A (zh) * | 2023-11-17 | 2024-02-27 | 苏州耀腾光电有限公司 | 一种基于标签特征信息分布学习的人脸表情识别方法及系统 |
-
2022
- 2022-10-25 CN CN202211307199.3A patent/CN116110089A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912919A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN116912919B (zh) * | 2023-09-12 | 2024-03-15 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN117095447A (zh) * | 2023-10-18 | 2023-11-21 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
CN117095447B (zh) * | 2023-10-18 | 2024-01-12 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
CN117612230A (zh) * | 2023-11-17 | 2024-02-27 | 苏州耀腾光电有限公司 | 一种基于标签特征信息分布学习的人脸表情识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Feature learning for image classification via multiobjective genetic programming | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
Zhan et al. | Face detection using representation learning | |
CN116110089A (zh) | 一种基于深度自适应度量学习的面部表情识别方法 | |
Cong et al. | Self-supervised online metric learning with low rank constraint for scene categorization | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
Sawalha et al. | Face recognition using harmony search-based selected features | |
CN115100709B (zh) | 一种特征分离的图像人脸识别与年龄估计方法 | |
Agbo-Ajala et al. | Face-based age and gender classification using deep learning model | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
Mohamed et al. | Deep learning face detection and recognition | |
Kumar et al. | One-shot face recognition | |
Sen et al. | Face recognition using deep convolutional network and one-shot learning | |
Okokpujie et al. | Predictive modeling of trait-aging invariant face recognition system using machine learning | |
Abdallah et al. | Facial-expression recognition based on a low-dimensional temporal feature space | |
Sumalakshmi et al. | Fused deep learning based Facial Expression Recognition of students in online learning mode | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
Ma et al. | Bottleneck feature extraction-based deep neural network model for facial emotion recognition | |
CN113887509B (zh) | 一种基于图像集合的快速多模态视频人脸识别方法 | |
Pryor et al. | Deepfake Detection Analyzing Hybrid Dataset Utilizing CNN and SVM | |
Dalara et al. | Entity Recognition in Indian Sculpture using CLAHE and machine learning | |
Golchha et al. | Quantum-Enhanced Support Vector Classifier for Image Classification | |
Li et al. | Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition | |
ALtememe et al. | Gesture Interpreting of Alphabet Arabic Sign Language Based on Machine Learning algorithms | |
Darma et al. | The Regularization Effect of Pre-activation Batch Normalization on Convolutional Neural Network Performance for Face Recognition System Paper |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |