CN115862120A - 可分离变分自编码器解耦的面部动作单元识别方法及设备 - Google Patents
可分离变分自编码器解耦的面部动作单元识别方法及设备 Download PDFInfo
- Publication number
- CN115862120A CN115862120A CN202310138875.7A CN202310138875A CN115862120A CN 115862120 A CN115862120 A CN 115862120A CN 202310138875 A CN202310138875 A CN 202310138875A CN 115862120 A CN115862120 A CN 115862120A
- Authority
- CN
- China
- Prior art keywords
- facial
- face
- action unit
- feature
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 title claims abstract description 42
- 230000001815 facial effect Effects 0.000 claims abstract description 208
- 230000008921 facial expression Effects 0.000 claims abstract description 71
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 49
- 238000012512 characterization method Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 240000004760 Pimpinella anisum Species 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 2
- 230000036544 posture Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种可分离变分自编码器解耦的面部动作单元识别方法及设备,方法包括:对人脸图像中进行预处理获得面部区域图像;将面部区域图像输入可分离组合深度卷积模块中获得面部特征图;对面部特征图进行分割获得特征子图,通过全连接操作聚合得到局部块特征组;在局部块特征组中嵌入位置编码,相加后输入多头自注意力模块获得自注意力特征图;将自注意力特征图解耦为面部动作单元编码表征与面部姿态编码表征,并融合重建为面部表情置信度编码表征;通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值,以进行面部动作单元的识别。本发明具有面部动作单元编码识别精度高等优点。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种可分离变分自编码器解耦的面部动作单元识别方法及设备。
背景技术
人脸面部表情映射着人类内心世界丰富的情感活动,是人体行为信息与情感的重要载体。然而,面部表情的产生是由丰富的面部肌肉之间的联合运动所得到的,因此常用的面部基本表情不足以对人类的所有面部表情进行精确的描述。面部动作单元是一组用于描述面部肌肉运动的编码,旨在描述面部肌肉群的微小运动,通过面部单元识别可对人面部状态进行更全面和精确的判断。通过计算机自动检测面部动作单元及其组合,有助于准确分析面部表情和理解个体情绪,并在虚拟人交互动画、驾驶员疲劳检测、心理诊断、活体检测和影视评估等场景中具有良好的应用前景。
人们在日常生活中面部活动通常以局部面部的动作来表达情感,如悲伤时嘴角下垂、惊讶时眉毛抬高等,因此对于更细粒度的面部表情识别而言,需要更多地关注局部面部动作而不仅仅是整体表情的识别。
人类的面部表情可以通过面部动作编码系统定义的不同面部动作单元的组合准确描述。面部动作单元的不同组合方式在描述人脸表情及其变化上作为基础起着极其重要的作用,因此面部动作单元识别与面部动作单元编码成为计算机视觉领域一个重要的研究课题,精确且快速的面部动作单元编码方法在学术界、工业界均引起了广泛关注。
早期面部动作编码系统是基于解剖学结构的面部编码结构,用于描述面部的肌肉运动。早期基于计算机视觉的面部动作编码与识别主要使用人工设计特征如方向梯度直方图、Gabor特征等以及如人脸关键点的几何特征。对于更高层的语义特征,早期的特征设计通常选用永久面部特征(如嘴巴、眼睛等)与瞬态面部特征(如皱纹等)分析面部动作的细微变化。基于这些人工设计的特征,一些早期的面部动作单元识别的方法主要使用支持向量机算法、随机森林、动态贝叶斯网络等算法,这些特征对于人脸表情识别有一定的可解释性并在一些在小数据集上均取得了较为准确的识别效果,但对于真实场景下大数据量的面部动作单元数据集,这些方法的识别效果准确性与稳健性大幅下滑。
近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点。面部动作单元分析可以分为面部动作单元检测和面部动作单元强度识别两个不同的任意端到端的方式运行,提高了模型的整体学习能力和效率。在面部动作单元识别方面,大多通过收集大量面部动作单元样本,搭建卷积神经网络训练出面部动作单元特征识别模型,进而用来进行面部动作单元特征识别与分类,但该种方法对样本库样本质量和数量要求较高,训练往往依赖复杂的网络结构以及大量的数据样本,同时在神经网络前向传播过程中受网络层数、参数量的影响在非图形处理器环境下会受到较大的影响。此外,由于不同人的面部动作常常表现为不同强度、不同尺度范围的面部姿态细微变化,一些面部动作还存在强度的差异,这些因素和表情之间是非线性关系,因此直接送入神经网络训练的效果并不好,如此影响最终识别的准确率。
发明内容
有鉴于此,本发明的目的在于提供一种可分离变分自编码器解耦的面部动作单元识别方法及设备,以改善上述问题。
本发明实施例提供了一种可分离变分自编码器解耦的面部动作单元识别方法,其包括:
提取待识别的人脸图像,对人脸图像进行预处理以获得面部区域图像;
将所述面部区域图像输入到预先训练好的可分离组合深度卷积模块中,以获得面部特征图;
对所述面部特征图进行分割获得多个的特征子图,并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组;
在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系,并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图;
通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征,并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征;
通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值;
根据面部动作单元编码和面部表情置信度编码表征值识别与所述人脸图像对应的面部动作单元。
优选地,所述可分离组合深度卷积模块包含2层批归一化卷积层和3层深度可分离卷积层,则将预处理的面部区域图像输入到预先训练好的可分离组合深度卷积模块中,以获得面部特征图,具体包括:
根据给定的卷积步长,对预处理的面部区域图像利用激活函数进行非线性批归一化卷积操作处理:
优选地,对所述面部特征图进行分割获得多个特征子图,并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组,具体为:
其中,操作表示面部特征图/>按照从左到右、从上到下的顺序分割为个特征子图,/>代表面部特征图的分割行数,/>代表面部特征图的分割列数,为面部特征图/>输出的单一特征向量维度;给定可分离卷积层/>的卷积通道数/>,flatten表示将特征图保留通道维度展开为/>的特征组;FC表示通过全连接层将特征组聚合为/>的特征;/>为按通道维度拼接操作将/>个的特征拼接为/>的局部块特征组。
优选地,在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系,并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图,具体包括:
在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系:
优选地,通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征,并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征,具体包括:
将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征z:
其中,σ表示面部动作单元编码表征,μ表示面部姿态编码表征,z表示面部表情置信度编码表征,其中FC 3 表示三层全连接操作。
优选地,通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信编码表征值,具体包括:
构建基于变分自编码器解耦表征损失函数:
其中x为多头自注意力特征图中的任一向量,/>为先验概率分布;为后验概率分布;/>为极大似然概率分布;z符合正态分布/>,和/>分别为正态分布的均值与标准差,E为期望,/>为KL散度算子,/>为超参数;
对面部表情置信度编码表征z采用softmax二分类生成面部表情置信度概率值p=softmax(z),并设计如下面部表情置信度交叉熵损失函数:
解耦通过组合线性分解约束损失、变分自编码器解耦表征损失、面部动作单元平方差损失函数、面部姿态平方差损失函数和面部表情置信度交叉熵损失函数来构成可分离变分自编码器解耦的联合约束损失函数:
基于联合约束损失函数,通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。
优选地,对于面部表情的预测概率值,设定p 0 >0.75则预测结果为面部存在面部表情单元,否则预测结果为面部不存在面部表情单元;若检测存在面部表情单元,则根据获得的面部动作单元编码进行面部动作单元识别。
优选地,还包括:
根据面部姿态编码对头部动作进行预测。
本发明实施例还提供了一种可分离变分自编码器解耦的面部动作单元识别设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的可分离变分自编码器解耦的面部动作单元识别方法。
综上所述,本实施例提供的可分离变分自编码器解耦的面部动作单元识别方法,通过在模型中附带位置编码特征信息的多头注意力机制进行特征提取,可以更有效地挖掘局部信息之间的语义,同时更有效地融合了局部特征与全局特征,获得更具判别性的融合特征。此外,本实施例中表征解耦将人脸特征图中潜在的面部动作单元特征与面部姿态特征在隐空间中分离,使这两项任务之间更具判别性,从而在训练结束之后可以很好的适应实际应用场景。
更进一步的,本实施例通过可分离组合深度卷积操作有效提取了特征中的辅助信息,并通过深度可分离卷积这一对计算机中央处理器计算要求较低的操作实现基于移动端的实时面部动作单元编码和面部姿态编码值,从而可在移动端实时检测用户面部动作单元及面部姿态并依此驱动虚拟数字人角色动画以达到表情随动的效果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的可分离变分自编码器解耦的面部动作单元识别方法的流程示意图。
图2为本发明第一实施例提供的可分离变分自编码器解耦的面部动作单元识别方法的工作原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2,本发明第一实施例提供了一种可分离变分自编码器解耦的面部动作单元识别方法,其可由可分离变分自编码器解耦的面部动作单元识别设备(以下简称识别设备)来执行,特别的,由所述识别设备内的一个或者多个处理器来执行,以实现如下步骤:
S101,提取待识别的人脸图像,对人脸图像中进行预处理以获得面部区域图像。
在本实施例中,所述识别设备可为智能移动终端、电脑、工作站或者服务器等具有数据处理能力的设备,本发明不做具体限定。
在本实施例中,所述人脸图像可通过识别设备上的图像采集装置来获取,例如通过摄像头来获取等,本发明不做具体限定。
在本实施例中,所述预处理包括从人脸图像中提取出面部区域图像以及对面部区域图像进行大小伸缩至标准尺寸等。其中,人脸的面部区域提取可通过预训练的MTCNN标准的人脸检测神经网络模型来获得,再通过线性插值的方法将面部区域图像的尺寸伸缩至预设的标准尺寸,如。
S102,将所述面部区域图像输入到预先训练好的可分离组合深度卷积模块中,以获得面部特征图。
具体地,在本实施例中,首先构建可分离组合深度卷积模块,该可分离组合深度卷积模块包含2层批归一化卷积层和3层深度可分离卷积层。然后需对所述可分离组合深度卷积模块进行训练,其中,在训练时,获取不同人物、不同姿态、不同面部动作单元编码(编码需预先人工标注)的人脸图像样本数据集,然后对这些人脸图像样本数据集进行预处理后输入至可分离组合深度卷积模块进行训练,从而获得训练后的可分离组合深度卷积模块。
则步骤S102具体包括:
S1021,根据给定的卷积步长,对预处理的面部区域图像利用激活函数进行非线性批归一化卷积处理:
其中,为非线性激活函数,此处选用sigmoid作为激活函数,该激活函数在定义域上均可导,且可将输出规范在/>区间。BN为批量归一化运算;conv为卷积算子操作;和/>分别为该层卷积中的权重参数与偏置项,/>为对输入的面部区域图像I进行批归一化卷积操作。
表 1
通过上述的2层批归一化卷积层操作可以提取关于面部区域的纹理及边缘结构等有效信息用于后续进一步学习。此处的2层批归一化卷积层输出有较大的特征图尺寸,可以在较大的尺度内获取面部区域图像中的主要信息,同时筛除面部区域图像中非面部的环境信息。
其中,三层深度可分离卷积具体参数配置如表2所示:
表2
S103,对所述面部特征图进行分割获得多个的特征子图,并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组。
其中,操作表示面部特征图/>按照从左到右、从上到下的顺序分割为个特征子图,/>代表面部特征图的分割行数,/>代表面部特征图的分割列数,为面部特征图/>输出的单一特征向量维度;给定可分离卷积层/>的卷积通道数/>,flatten表示将特征图保留通道维度展开为/>的特征组;FC表示通过全连接层将特征组聚合为/>的特征;/>为按通道维度拼接操作将/>个的特征拼接为/>的局部块特征组。
在本实施例中,特别的,面部特征图的分割行数和列数可选取为8,面部特征图输出的单一特征向量维度可选256,即将面部特征图分割为64个特征子图,然而应当理解的是,在本发明的其他实施例中,也可以根据实际的需要来设置分割行数和列数,这些方案均在本发明的保护范围之内。
S104,在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系,并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图。
在本实施例中,针对面部动作单元编码,面部的局部特征能够有效凸显动作状态。针对面部局部特征的提取,进一步采用基于多头自注意力机制的方式进行信息提取。所述多头自注意力模块能够用于对面部特征图中相邻的特征通过展平及全连接的操作聚合为同一特征,以此达到减少参数量与提取局部特征之间的平衡。
具体地:
首先,在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系:
其中为标准的多头自注意力模块。多头自注意力模块结构通过矩阵乘法生成的查询向量与键向量之间的向量内积生成注意力分数,以此种方式提取块特征向量之间的关系。同时由于特征图块向量与其余所有特征图块向量之间均进行了上述操作,该方法也能够对全局信息起到较好的提取作用,而其中的位置编码与块特征向量相加后有利于提取块间相对位置关系信息,可以增强模型的拟合能力和对不同任务的适应能力。
S105,通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征,并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征。
在本实施例中,由于最终的任务分为面部动作单元编码预测、面部姿态编码预测和面部表情置信度预测。为了获取这些编码信息,本实施例采取解耦表征的方法对预测过程中的任务进行分离。
具体地:
将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征z:
其中,σ表示面部动作单元编码表征,μ表示面部姿态编码表征,z表示面部表情置信度编码表征,其中FC 3 表示三层全连接操作。
S106,通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。
S107,根据面部动作单元编码和面部表情置信度编码表征值识别判断与所述人脸图像对应的面部动作单元。
在本实施例中,为使重建后表征在空间中符合预期分布,通过变分自编码器方式设计目标函数最大化面部表情置信度编码表征值,同时最小化真实和估计后验分布的Kullback-Leible散度(KL散度),相应的基于变分自编码器解耦表征损失函数如下式:
其中x为多头自注意力特征图中的任一向量,/>为先验概率分布;为后验概率分布;/>为极大似然概率分布;z符合正态分布/>,和/>分别为正态分布的均值与标准差,E为期望,/>为KL散度算子,/>为超参数。
通过优化该解耦表征损失函数,面部姿态编码表征将作为面部动作单元表征的辅助信息,此种方式更有利于突出面部动作单元编码预测任务的主要性。
通过上述过程,本实施例已经生成了附带大量关键信息的对应不同任务的三种表征,则针对不同任务的输出形式与输出尺寸,有:
对面部表情置信度编码表征z采用softmax二分类生成面部表情置信度概率值p=softmax(z),并设计如下面部表情置信度交叉熵损失函数:
其中为面部表情是否存在真实值,t 0 、t 1 分别代表对于面部表情存在与不存在的置信度,/>为对应的预测概率值。本实施例设定/>则预测结果为面部存在面部表情单元,否则预测结果为面部不存在面部表情单元,当然,可以理解的是,在本发明的其他实施例中,可以根据实际的需要来设置/>的阈值,本发明在此不做赘述。
根据线性分解约束损失、变分自编码器解耦表征损失函数、面部动作单元平方差损失函数、面部姿态平方差损失函数和面部表情置信度交叉熵损失函数的联合约束学习可生成如下可分离变分自编码器解耦的联合约束损失函数:
最后,通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。
在本实施例中,平衡参数和/>选取值分别为0.6和0.1,在获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值后,就可以根据其对待识别的人脸图像上的面部动作单元进行识别。而面部姿态编码可以对头部转动等姿态行为进行预测分析,适合头部动作的预测。
综上所述,本实施例提供的可分离变分自编码器解耦的面部动作单元识别方法,通过在模型中附带位置编码特征信息的多头注意力机制进行特征提取,可以更有效地挖掘局部信息之间的语义,同时更有效地融合了局部特征与全局特征,获得更具判别性的融合特征。此外,本实施例中表征解耦将人脸特征图中潜在的面部动作单元特征与面部姿态特征在隐空间中分离,使这两项任务之间更具判别性,从而在训练结束之后可以很好的适应实际应用场景。
更进一步的,本实施例通过可分离组合深度卷积操作有效提取了特征中的辅助信息,并通过深度可分离卷积这一对计算机中央处理器计算要求较低的操作实现基于移动端的实时面部动作单元编码和面部姿态编码预测,从而可在移动端实时检测用户面部动作单元及面部姿态并依此驱动虚拟数字人角色动画以达到表情随动的效果。
为进一步说明本实施例,下面将从以一具体的实验来对本发明的效果进行验证。
本实验采集了50人的人脸表情数据进行测试,包括30名男性测试者与20名女性测试者。受试者通过苹果手机的单目3D深度摄像头采集在观看8 个不同内容影像时自发表现出的不同表情的记录视频,同时利用苹果手机自带的ARkit应用对面部编码并进行人工校准后获取52维面部动作单元维编码,3维面部姿态编码。此外,人脸图像中每个面部动作单元强度进行0到10的11个强度等级打分生成对应的面部动作单元编码,并标注了每张图像各个动作单元的标签状态,激活状态记为 1,非激活状态记为0,样本数量总计6000,实验按照7:2:1的比例划分训练集、验证集和测试集,分别用于模型的训练、验证和测试。
实验中,选取现有最先进方法进行检测效果对比实验,具体为用于面部动作单元检测的深度区域和多标签学习(文献1-Zhao K ,Chu W S,Zhang H . Deep Region andMulti-label Learning for Facial Action UnitDetection[C]// IEEE Conference onComputer Vision and Pattern Recognition(CVPR). 2016,pp.3391-3399),基于自监督学习的面部动作单元识别(文献2- Cheng H, Xie X, Liang S.H., Two-Stage Self-SupervisedLearning for Facial Action Unit Recognition[C]// 4th InternationalConferenceon Image, Video and Signal Processin,2022, pp 80–84),联合面部动作单元检测和面部对齐的深度自适应注意力方法(文献3- Shao, Z., Liu, Z., Cai,J., Ma,L.. Deep Adaptive Attention for Joint Facial Action Unit Detection andFaceAlignment[C]// European Conference on Computer Vision,2018:pp. 725–740),其中参数选择文献中默认参数。为公平比较实验结果,采用相同的训练方法并只比较面部动作单元编码和面部姿态编码测试结果。
评价标准采取方差来衡量算法的稳定性,方差是每个样本值与全体样本值的平均数之差的平方值的平均数,采用平均识别准确率来验证面部动作单元编码的有效性,面部动作单元编码预测正确视为识别准确,反之错误。
相同实验均进行3次,实验测试集面部动作单元编码、姿态编码及面部表情识别准确率如表3所示:
表3
方法 | 实验次数 | 平均面部动作单元编码方差 | 平均面部姿态编码方差 | 平均面部动作单元识别准确率 |
文献1 | 3 | 6.1956 | 0.5956 | 93.8% |
文献2 | 3 | 6.0424 | 0.4762 | 94.7% |
文献3 | 3 | 5.5123 | 0.4532 | 95.6% |
本实施例 | 3 | 4.5526 | 0.2679 | 97.4% |
实验结果表明,当使用本实施例时,各项指标均优于文献1、2、3中方法获取的结果。其中,平均面部动作单元编码方差和平均面部姿态编码方差均获得较小的方差值,结果表明本实施例能够取得精确稳定的面部动作单元编码和面部姿态编码特征集。同时本实施例在测试集中获得的最高的面部表情单元识别准确率,主要原因在于本本实施例提出的深度可分离卷积提取了特征图中的辅助信息,更好地获取细节特征,加强了神经网络的判别能力。此外,本实施例中的变分自编码器解耦模块通过解耦的方式将面部姿态编码表征这一潜在影响因子与面部动作单元表征分离,减少了表征耦合对面部动作单元特征提取的干扰,同时提出的局部特征编码方式及位置编码特征信息的嵌入加强了对面部动作单元特征编码元素的判别性。从实验结果来看,本实施例的面部动作单元编码方法具备一定的理论意义和实际应用价值,实验验证了本实施例的有效性。
本发明第二实施例还提供了一种可分离变分自编码器解耦的面部动作单元识别设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的可分离变分自编码器解耦的面部动作单元识别方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,包括:
提取待识别的人脸图像,对人脸图像进行预处理以获得面部区域图像;
将所述面部区域图像输入到预先训练好的可分离组合深度卷积模块中,以获得面部特征图;
对所述面部特征图进行分割获得多个的特征子图,并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组;
在所述局部块特征组中嵌入位置编码以获取各局部块特征之间的位置关系,并将所述局部块特征组与位置编码相加后输入多头自注意力模块中获得面部自注意力特征图;
通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征,并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征;
通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值;
根据面部动作单元编码和面部表情置信度编码表征值识别与所述人脸图像对应的面部动作单元。
2.根据权利要求1所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,所述可分离组合深度卷积模块包含2层批归一化卷积层和3层深度可分离卷积层,则将预处理的面部区域图像输入到预先训练好的可分离组合深度卷积模块中,以获得面部特征图,具体包括:
根据给定的卷积步长,对预处理的面部区域图像利用激活函数进行非线性批归一化卷积操作处理:
3.根据权利要求2所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,对所述面部特征图进行分割获得多个特征子图,并对每个特征子图进行特征展平后通过全连接操作聚合得到局部块特征组,具体为:
5.根据权利要求4所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,通过变分自编码器解耦表征的方法将所述面部自注意力特征图分解为面部动作单元编码表征与面部姿态编码表征,并将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征,具体包括:
将面部动作单元编码表征与面部姿态编码表征进行全连接层线性融合重建为面部表情置信度编码表征z:
其中,σ表示面部动作单元编码表征,μ表示面部姿态编码表征,z表示面部表情置信度编码表征,其中FC 3 表示三层全连接操作。
6.根据权利要求5所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,通过线性分解约束损失、变分自编码器解耦表征约束损失和各自编码损失约束联合学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信编码表征值,具体包括:
构建基于变分自编码器解耦表征损失函数:
其中x为多头自注意力特征图中的任一向量,/>为先验概率分布;/>为后验概率分布;/>为极大似然概率分布;z符合正态分布/>,/>和/>分别为正态分布的均值与标准差,E为期望,/>为KL散度算子,/>为超参数;
对面部表情置信度编码表征z采用softmax二分类生成面部表情置信度概率值p=softmax(z),并设计如下面部表情置信度交叉熵损失函数:
解耦通过组合线性分解约束损失、变分自编码器解耦表征损失、面部动作单元平方差损失函数、面部姿态平方差损失函数和面部表情置信度交叉熵损失函数来构成可分离变分自编码器解耦的联合约束损失函数:
基于联合约束损失函数,通过联合约束学习获得判别性的面部动作单元编码、面部姿态编码和面部表情置信度编码表征值。
7.根据权利要求6所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,对于面部表情的预测概率值,设定p 0 >0.75则预测结果为面部存在面部表情单元,否则预测结果为面部不存在面部表情单元;若检测存在面部表情单元,则根据获得的面部动作单元编码进行面部动作单元识别。
8.根据权利要求1所述的可分离变分自编码器解耦的面部动作单元识别方法,其特征在于,还包括:
根据面部姿态编码对头部动作进行预测。
9.一种可分离变分自编码器解耦的面部动作单元识别设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至8任意一项所述的可分离变分自编码器解耦的面部动作单元识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138875.7A CN115862120B (zh) | 2023-02-21 | 2023-02-21 | 可分离变分自编码器解耦的面部动作单元识别方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138875.7A CN115862120B (zh) | 2023-02-21 | 2023-02-21 | 可分离变分自编码器解耦的面部动作单元识别方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115862120A true CN115862120A (zh) | 2023-03-28 |
CN115862120B CN115862120B (zh) | 2023-11-10 |
Family
ID=85658469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138875.7A Active CN115862120B (zh) | 2023-02-21 | 2023-02-21 | 可分离变分自编码器解耦的面部动作单元识别方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862120B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117912086A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409222A (zh) * | 2018-09-20 | 2019-03-01 | 中国地质大学(武汉) | 一种基于移动端的多视角人脸表情识别方法 |
CN110020623A (zh) * | 2019-04-04 | 2019-07-16 | 中山大学 | 基于条件变分自编码器的人体活动识别系统及方法 |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418074B (zh) * | 2020-11-20 | 2022-08-23 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
-
2023
- 2023-02-21 CN CN202310138875.7A patent/CN115862120B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409222A (zh) * | 2018-09-20 | 2019-03-01 | 中国地质大学(武汉) | 一种基于移动端的多视角人脸表情识别方法 |
CN110020623A (zh) * | 2019-04-04 | 2019-07-16 | 中山大学 | 基于条件变分自编码器的人体活动识别系统及方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN111582059A (zh) * | 2020-04-20 | 2020-08-25 | 哈尔滨工程大学 | 一种基于变分自编码器的人脸表情识别方法 |
US20220121871A1 (en) * | 2020-10-16 | 2022-04-21 | Tsinghua University | Multi-directional scene text recognition method and system based on multi-element attention mechanism |
CN114998958A (zh) * | 2022-05-11 | 2022-09-02 | 华南理工大学 | 一种基于轻量化卷积神经网络的人脸识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN117912086A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 基于撒切尔效应驱动的人脸识别方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115862120B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pitaloka et al. | Enhancing CNN with preprocessing stage in automatic emotion recognition | |
Sun et al. | A visual attention based ROI detection method for facial expression recognition | |
Sajjad et al. | Raspberry Pi assisted facial expression recognition framework for smart security in law-enforcement services | |
CN108596039B (zh) | 一种基于3d卷积神经网络的双模态情感识别方法及系统 | |
Kim et al. | Deep generative-contrastive networks for facial expression recognition | |
Zhang et al. | Multimodal learning for facial expression recognition | |
Chen et al. | Convolution neural network for automatic facial expression recognition | |
Abd El Meguid et al. | Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers | |
Manna et al. | Face recognition from video using deep learning | |
Khan et al. | Facial expression recognition on real world face images using intelligent techniques: A survey | |
CN115862120A (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
John et al. | Real-time facial emotion recognition system with improved preprocessing and feature extraction | |
Linda et al. | Color-mapped contour gait image for cross-view gait recognition using deep convolutional neural network | |
Shokrani et al. | Facial emotion recognition method based on Pyramid Histogram of Oriented Gradient over three direction of head | |
Bachay et al. | Hybrid Deep Learning Model Based on Autoencoder and CNN for Palmprint Authentication. | |
Aslam et al. | Gender classification based on isolated facial features and foggy faces using jointly trained deep convolutional neural network | |
Nasir et al. | Recognition of human emotion transition from video sequence using triangulation induced various centre pairs distance signatures | |
Dujaili | Survey on facial expressions recognition: databases, features and classification schemes | |
Nimbarte et al. | Biased face patching approach for age invariant face recognition using convolutional neural network | |
Monisha et al. | Enhanced automatic recognition of human emotions using machine learning techniques | |
Sharrma et al. | Vision based static hand gesture recognition techniques | |
Kumar et al. | Emotion recognition using anatomical information in facial expressions | |
Moran | Classifying emotion using convolutional neural networks | |
Jaison et al. | A review on facial emotion recognition and classification analysis with deep learning | |
Devi et al. | Face Emotion Classification using AMSER with Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |