CN114582004A - 人脸表情识别方法、系统、设备及存储介质 - Google Patents
人脸表情识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114582004A CN114582004A CN202210459722.8A CN202210459722A CN114582004A CN 114582004 A CN114582004 A CN 114582004A CN 202210459722 A CN202210459722 A CN 202210459722A CN 114582004 A CN114582004 A CN 114582004A
- Authority
- CN
- China
- Prior art keywords
- expression
- module
- features
- local
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims description 80
- 230000004927 fusion Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000004709 eyebrow Anatomy 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 210000000744 eyelid Anatomy 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人脸表情识别方法、系统、设备及存储介质,通过引入Transformer中的多头自注意力结构,能够有效解决人脸表情高的类间相似度的问题;通过引入人脸运动单元信息,能够有效解决人脸表情大的类内差异的问题,结合两者可提升人脸表情的识别准确率。
Description
技术领域
本发明涉及人脸表情识别技术领域,尤其涉及一种人脸表情识别方法、系统、设备及存储介质。
背景技术
人脸表情是表达内心情感的最有影响力以及最直接的方式之一,是人际交流中必不可少的信息渠道,在社交机器人、安全驾驶和教育等领域都具有广泛的应用。自动人脸表情识别技术是使计算机能够理解人脸图像所表达的情感信息,通常是从图像中识别出人的情绪并分类到基于视觉信息的情感类别当中,比如愤怒、惊讶和高兴等。按照提取特征的不同,人脸表情识别方法可以分为传统手工特征方法和深度学习方法。
在传统手工特征方法中,通常是利用几何特征,获取与表情表达相关的关键面部组成部分,比如眼镜、鼻子和嘴巴等的形状和位置;或者表观特征,如LBP特征(局部二值模式特征),HOG特征(方向梯度直方图特征)等,然后利用分类器,例如SVM(支持向量机)等对其进行分类识别。但这类方法的缺点是手工特征的设计需要花费大量时间和精力,而且极依赖专家知识。
相比于传统手工特征方法,深度学习方法具有强大的学习能力和判别能力,可以学习到更深层次的表情特征。目前研究者们已经提出了各种基于卷积神经网络的人脸表情识别模型,在识别准确率上取得了一定的突破。但从面部表情方法实际使用精度和学术上非受控环境人脸表情识别精度来看,仍存在一定的不足,主要是受到表情的大的类内差异、高的类间相似度和自然场景中的遮挡和光照等因素影响。目前针对遮挡和光照等问题的工作较多,但针对人脸表情大的类内差异和高的类间相似度问题的研究较少,因此迫切需要提出针对这种人脸表情不确定性问题的研究方法,以提升表情识别的准确率。
发明内容
本发明的目的是提供一种人脸表情识别方法、系统、设备及存储介质,可以解决人脸表情的大的类内差异和高的类间相似度的问题,有效提升表情识别的准确率。
本发明的目的是通过以下技术方案实现的:
一种人脸表情识别方法,包括:
对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征;
利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征;
对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征;
利用所述融合特征进行表情识别。
一种人脸表情识别系统,包括:
局部特征提取模块,用于对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征;
全局关系建模模块,其包含多层Transformer编码器,用于对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征;
人脸运动单元融合模块,用于对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征;
分类识别模块,用于利用所述融合特征进行表情识别。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,通过引入Transformer中的多头自注意力结构,能够有效解决人脸表情高的类间相似度的问题;通过引入人脸运动单元信息,能够有效解决人脸表情大的类内差异的问题,结合两者可提升人脸表情的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种人脸表情识别方法的流程图;
图2为本发明实施例提供的一种人脸表情识别方法的模型示意图;
图3为本发明实施例提供的一种人脸表情识别系统的示意图;
图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种人脸表情识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种人脸表情识别方法,用于解决现有人脸表情识别技术所无法解决的大的类内差异和高的类间相似度的问题,图1展示了本发明的主要流程,其主要包括如下步骤:
步骤1、对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征。
本发明实施例中,可以通过卷积神经网络对局部区域进行特征提取,提取出所有局部区域的特征,并综合为局部表情特征。
本发明实施例中,所述的局部区域是指整个人脸表情图像中的一部分区域,局部区域可以包括但不限于包括:眼睛区域,鼻子区域,嘴巴区域等。
步骤2、利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征。
本领域技术人员可以理解,长程依赖(Long-Term Dependencies)为本领域专用术语,在本发明实施例中,长程依赖的建模主要用于获取不同局部区域特征之间(例如,眼睛区域特征与鼻子区域特征之间、鼻子区域特征与嘴巴区域特征之间等)存在的某种关联。
本发明实施例中,首先对步骤1获得的局部表情特征进行数据加工,再利用包含多层Transformer编码器的全局关系建模模块对局部表情特征之间的长程依赖进行捕捉,通过多层Transformer编码器中的多头自注意力结构,来有效解决人脸表情高的类间相似度的问题。
步骤3、对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征。
本发明实施例中,引入人脸运动单元信息辅助人脸表情识别,以解决人脸表情大的类内差异的问题。
步骤4、利用所述融合特征进行表情识别。
本发明实施例中,通过对所述融合表情进行分类,完成表情识别。表情分类所涉及的分类模型(分类识别模块)可采用本领域已有的分类模型,故不做赘述。
为了便于理解,下面针对上述步骤1~步骤3的优选实施方式做详细的介绍。
图2展示了实现上述步骤1~步骤3的模型示意图,左侧LFE(Local FeatureExtraction)表示局部特征提取模块,用于执行上述步骤1;中间部分的GRM(GlobalRelationship Modeling)表示全局关系建模模块,用于执行上述步骤2;右侧的AFM(AUFusion Module)表示AU融合模块,用于执行上述步骤3,其中的AU(Action Unit)表示人脸运动单元。具体介绍如下:
一、局部表情特征提取模块。
本发明实施例中,局部表情特征提取模块的输入为人脸表情图像,输出为局部表情特征,即图2中的X local ,局部表情特征X local 左侧部分的每一个矩形框都可以理解为一个局部区域特征,也就是说,局部表情特征X local 包含所有局部区域特征。
图2展示了以卷积神经网络(CNN)作为局部表情特征提取模块骨干网络(backbone)的示例,其中,CNN可以使用具有26层卷积网络的ResNet网络。
二、全局关系建模模块。
为了解决人脸表情高的类间相似度的问题,本发明实施例引入多层Transformer编码器对局部表情特征之间的长程依赖进行捕捉。
如图2所示,通过局部表情特征提取模块获得局部表情特征后,需要进行数据加工,主要包括:将所述局部表情特征进行维度变换,再变换为序列形式,获得局部表情特征序列。图2展示了维度变换的示例,即采用1×1的卷积操作改变局部表情特征的维度,获得维度变换后的特征X proj ,之后,通过reshape函数获得局部表情特征序列。
所述局部表情特征序列将作为全局关系建模模块的输入,进行长程依赖建模;主要包括两个阶段:
第一个阶段,在所述全局关系建模模块入口处,为所述局部表情特征序列的开头位置添加类别特征,并进行位置表征,获得初始特征序列X embed ,表示为:
其中,表示局部表情特征序列,表示局部表情特征序列中的第i个特征向量,hw表示特征向量的总数,局部表情特征为特征图,此处的h与w分别为特征图的高度与宽度;x class 表示类别特征,X pos 表示位置表征(position Embeddings)。
本发明实施例中,添加在局部表情特征序列前端的类别特征(class token)用于后续的分类,初始阶段可以是全0或者随机化的一个数组;位置表征用于对整个局部表情特征序列进行位置编码,实际操作与类别特征类似,初始阶段也可以是随机化的一个数组。此处所述的初始阶段是指训练之前的阶段,本发明提供的三个模块会通过训练进行参数优化,并更新类别特征与位置表征;考虑到训练时可以采用常规的损失函数,训练过程也可参照现有方式实现,故不做赘述。
第二个阶段,将所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模,获得表情特征X e 。
如图2所示,所述多层Transformer编码器的层数设为N,其数值可以由用户根据实际情况或者经验自行设定。多层Transformer编码器中的每一层均包括:一个多头自注意力模块(Multi-Head Self Attention)与多层感知机模块(MLP)。多头自注意力模块前端设有第一层标准化单元,多层感知机模块的前端设有第二层标准化单元,两个层标准化单元均表示为Norm;多头自注意力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加,作为多头自注意力模块最终输出结果,并输入至所述第二层标准化单元;同样的,多层感知机模块的后端采用残差连接将所述第二层标准化单元的输入与自身的输出相加,作为多层感知机模块的最终输出结果。
多层Transformer编码器中的每一层的处理流程完全相同,以第l层为例,l=1,…,N, N为整数,处理表示为:
z l ’=MHSA(LN 1(z l-1))+z l-1
z l =MLP(LN 2(z l ’))+z l ’
其中,LN 1(.)与LN 2(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化操作后的输出,MHSA(.)表示多头自注意力模块的输出,z l ’表示第l层中多头自注意力模块的最终输出结果;MLP(.)表示多层感知机模块的输出,z l 表示第l层中多层感知机模块的最终输出结果,当l=1时,z l-1表示所述初始特征序列。
下面针对多头自注意力模块与多层感知机模块的内部计算过程做详细的介绍。
1、多头自注意力模块的内部计算过程。
多头自注意力模块包含了多个单头自注意力模块,本发明设置单头自注意力模块的数目为H,H为正整数,具体数值可以由用户根据实际情况或者经验自行设定。
每一个多个单头自注意力模块各自计算单头注意力,计算过程包括:
对输入信息X 1通过不同的线性变换获得查询向量Q、键向量K与值向量V,表示为:
Q=X 1WQ,K=X 1WK,V=X 1WV
其中,WQ、WK、WV表示三种线性变换的权重参数,不同单头注意力模块的以上三种线性变换的权重参数都是不同的,X 1表示多头自注意力模块的输入信息,也即多头自注意力模块前端的第一层标准化单元的输出LN 1(.)。
根据三个向量计算单头注意力SA,表示为:
其中,T为转置符号,d k 表示键向量K的维度中的参数。键向量K维度为一个数组类型,表示为[S, d k ],S为局部表情特征序列的长度+1(即hw+1),d k =embed_dim / H,embed_dim为设定值,举例来说,在实验中设置embeddim =384。
之后,将H个单头注意力堆叠,获得多头自注意力模块的输出,表示为:
MHSA(X 1)=Concat(SA 1,SA 2,…,SA H )W O
其中,SA表示单头自注意力模块计算的单头注意力,数字1,2,…, H均表示多头注意力模块的序号,W O 表示多头自注意力模块的权重参数。
2、多层感知机模块的内部计算过程。
本发明实施例中,所述多层感知机模块包括两个全连接层,通过两个全连接层对输入信息X 2进行特征映射,表示为:
MLP(X 2)=GELU(W1 X 2+b1)W2+b2
其中,W1与b1表示第一个全连接层的权重与偏置参数,W2与b2表示第二个全连接层的权重与偏置参数;GELU(.)为非线性激活函数,输入信息X 2为多层感知机模块前端的第二层标准化单元的输出LN 2(.)。
三、AU融合模块。
为了解决人脸表情大的类内差异的问题,本发明实施例引入人脸运动单元信息辅助人脸表情识别。
本发明实施例中,选择多个人脸运动单元,从所述输入的人脸表情图像中提取所选的所有人脸运动单元的人脸运动单元信息X AU ,并映射至与所述表情特征相同的维度,再与所述表情特征融合。
示例性的,此处提供17个人脸运动单元:AU1(眉毛内侧提起),AU2(眉毛外侧提起),AU4(眉毛降低),AU5(上眼睑提起),AU6(脸颊提起),AU7(眼睑缩紧),AU9(皱鼻),AU10(上嘴唇提起),AU12(嘴角提起),AU14(酒窝),AU15(嘴角降低),AU17(下巴提起),AU20(嘴唇拉紧),AU23(嘴唇缩紧),AU25(嘴巴张开),AU26(下巴降低)和AU45(眨眼)。
本发明实施例中,可以通过Openface(它是一种开源软件工具)提取人脸表情图像的上述17个人脸运动单元信息。需要说明的是,实际应用中人脸运动单元的具体位置以及数目可根据实际情况或者需要自行设定,本发明不做具体的限定。
如图2所示,可以通过全连接层(FC)将所有人脸运动单元的人脸运动单元信息X AU 映射至与所述表情特征相同的维度,之后,可以采用点乘的方式融合维度映射后的人脸运动单元信息与表情特征。
基于以上三个模型协同处理后,将获得的融合特征输入至分类模型(图2中未示出),用于后续的表情分类,获得表情识别结果,图2展示了若干表情类别的示例:Happy(高兴)、Sad(难过)、Angry(愤怒)、Surprise(惊讶)、Disgust(反感)、Fear(害怕)、Contempt(鄙视)。
为了直观的体现本发明上述方案的识别效果,在公开数据集RAF-DB和FERPlus数据集上进行了七分类实验,实验结果表明本发明的识别准确率高于目前的识别方案,实验结果如表1所示:
表1 实验结果。
实施例二
本发明还提供一种人脸表情识别系统,其主要基于前述实施例一提供的方法实现,如图3所示,该系统主要包括:
局部特征提取模块,用于对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征;
全局关系建模模块,其包含多层Transformer编码器,用于对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征;
人脸运动单元融合模块,用于对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征;
分类识别模块,用于利用所述融合特征进行表情分类识别。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是,上述系统各个部分的主要工作原理在之前的实施例一中已经做了详细的介绍,故不再赘述。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种人脸表情识别方法,其特征在于,包括:
对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征;
利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征;
对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征;
利用所述融合特征进行表情识别。
2.根据权利要求1所述的一种人脸表情识别方法,其特征在于,所述利用包含多层Transformer编码器的全局关系建模模块对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情包括:
将所述局部表情特征进行维度变换,再变换为序列形式,获得局部表情特征序列;
全局关系建模模块以所述局部表情特征序列作为输入,在所述局部表情特征序列中添加类别特征,并进行位置表征,获得初始特征序列,表示为:
所述初始特征序列作为多层Transformer编码器的输入进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征。
3.根据权利要求2所述的一种人脸表情识别方法,其特征在于,所述多层Transformer编码器中的每一层均包括:一个多头自注意力模块与多层感知机模块;多头自注意力模块前端设有第一层标准化单元,多层感知机模块的前端设有第二层标准化单元;多头自注意力模块的后端采用残差连接将所述第一层标准化单元的输入与自身的输出相加,作为多头自注意力模块最终输出结果,并输入至所述第二层标准化单元;多层感知机模块的后端采用残差连接将所述第二层标准化单元的输入与自身的输出相加,作为多层感知机模块的最终输出结果。
4.根据权利要求3所述的一种人脸表情识别方法,其特征在于,将所述多层Transformer编码器的层数设为N,第l层的处理表示为:
z l ’=MHSA(LN 1(z l-1))+ z l-1
z l =MLP(LN 2(z l ’))+z l ’
其中,LN 1(.)与LN 2(.)分别表示第一层标准化单元与第二层标准化单元执行层标准化操作后的输出,MHSA(.)表示多头自注意力模块的输出,z l ’表示第l层中多头自注意力模块的最终输出结果;MLP(.)表示多层感知机模块的输出,z l 表示第l层中多层感知机模块的最终输出结果;l=1,…,N,N为整数,当l=1时,z l-1表示所述初始特征序列。
5.根据权利要求3或4所述的一种人脸表情识别方法,其特征在于,所述多头自注意力模块中包含H个单头自注意力模块,每一个单头自注意力模块各自计算相应的单头注意力,将H个单头注意力堆叠,获得多头自注意力模块的输出,表示为:
MHSA(X 1)=Concat(SA 1,SA 2,…,SA H )W O
其中,SA表示单头自注意力模块计算的单头注意力,数字1,2,…, H均表示多头注意力模块的序号,W O 表示多头自注意力模块的权重参数;X 1表示多头自注意力模块的输入信息;
其中,单头注意力SA的计算过程包括:
对输入信息X 1通过不同的线性变换获得查询向量Q、键向量K与值向量V,表示为:
Q= X 1WQ,K= X 1WK,V= X 1WV
其中,WQ、WK、WV表示三种线性变换的权重参数;
根据三个向量计算单头注意力SA,表示为:
其中,T为转置符号,d k 表示键向量K的维度中的参数。
6.根据权利要求3或4所述的一种人脸表情识别方法,其特征在于,所述多层感知机模块包括两个全连接层,通过两个全连接层对输入信息X 2进行特征映射,表示为:
MLP(X 2)=GELU(W1 X 2+b1)W2+b2
其中,W1与b1分别表示第一个全连接层的权重与偏置参数,W2与b2分别表示第二个全连接层的权重与偏置参数;GELU(.)为非线性激活函数。
7.根据权利要求1所述的一种人脸表情识别方法,其特征在于,所述对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合包括:选择多个人脸运动单元,从所述输入的人脸表情图像中提取所选的所有人脸运动单元的人脸运动单元信息,并映射至与所述表情特征相同的维度,再与所述表情特征融合。
8.一种人脸表情识别系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
局部特征提取模块,用于对输入的人脸表情图像中多个局部区域进行特征提取,获得包含所有局部区域特征的局部表情特征;
全局关系建模模块,其包含多层Transformer编码器,用于对所述局部表情特征进行长程依赖的建模,确定不同局部区域特征之间的关联,获得表情特征;
人脸运动单元融合模块,用于对输入的人脸表情图像进行人脸运动单元信息的提取,并将提取到的人脸运动单元信息与所述表情特征融合,获得融合特征;
分类识别模块,用于利用所述融合特征进行表情识别。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459722.8A CN114582004A (zh) | 2022-04-28 | 2022-04-28 | 人脸表情识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210459722.8A CN114582004A (zh) | 2022-04-28 | 2022-04-28 | 人脸表情识别方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114582004A true CN114582004A (zh) | 2022-06-03 |
Family
ID=81779058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210459722.8A Pending CN114582004A (zh) | 2022-04-28 | 2022-04-28 | 人脸表情识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582004A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190294868A1 (en) * | 2016-06-01 | 2019-09-26 | Ohio State Innovation Foundation | System and method for recognition and annotation of facial expressions |
CN112528639A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置、存储介质及电子设备 |
CN112906500A (zh) * | 2021-01-29 | 2021-06-04 | 华南理工大学 | 基于深度特权网络的人脸表情识别方法及系统 |
CN114360005A (zh) * | 2021-12-14 | 2022-04-15 | 武汉烽火信息集成技术有限公司 | 一种基于AU区域和多层级Transformer融合模块的微表情分类方法 |
-
2022
- 2022-04-28 CN CN202210459722.8A patent/CN114582004A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190294868A1 (en) * | 2016-06-01 | 2019-09-26 | Ohio State Innovation Foundation | System and method for recognition and annotation of facial expressions |
CN112528639A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置、存储介质及电子设备 |
CN112906500A (zh) * | 2021-01-29 | 2021-06-04 | 华南理工大学 | 基于深度特权网络的人脸表情识别方法及系统 |
CN114360005A (zh) * | 2021-12-14 | 2022-04-15 | 武汉烽火信息集成技术有限公司 | 一种基于AU区域和多层级Transformer融合模块的微表情分类方法 |
Non-Patent Citations (2)
Title |
---|
FANGLEI XUE ET AL.: "TransFER: Learning Relation-aware Facial Expression Representations with Transformer", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》 * |
FUYAN MA ET AL.: "Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion", 《ARXIV.ORG》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388876B (zh) | 一种图像识别方法、装置以及相关设备 | |
CN110785767B (zh) | 紧凑的无语言面部表情嵌入和新颖三元组的训练方案 | |
Salmam et al. | Facial expression recognition using decision trees | |
Littlewort et al. | Dynamics of facial expression extracted automatically from video | |
CN111563417A (zh) | 一种基于金字塔结构卷积神经网络的人脸表情识别方法 | |
CN112580617A (zh) | 自然场景下的表情识别方法和装置 | |
Perveen et al. | Facial expression recognition using facial characteristic points and Gini index | |
Taha et al. | Emotion recognition from 2D facial expressions | |
Xu et al. | Person-independent facial expression recognition method based on improved Wasserstein generative adversarial networks in combination with identity aware | |
Borgalli et al. | Deep learning for facial emotion recognition using custom CNN architecture | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
EP1801731A1 (en) | Adaptive scene dependent filters in online learning environments | |
Perikos et al. | Recognizing emotions from facial expressions using neural network | |
Kulkarni et al. | Analysis on techniques used to recognize and identifying the Human emotions | |
Ullah et al. | Emotion recognition from occluded facial images using deep ensemble model | |
Rasoulzadeh | Facial expression recognition using fuzzy inference system | |
Mistry et al. | Intelligent Appearance and shape based facial emotion recognition for a humanoid robot | |
Hdioud et al. | Facial expression recognition of masked faces using deep learning | |
Pandey et al. | Effects of modifying the input features and the loss function on improving emotion classification | |
Gupta et al. | A human emotion recognition system using supervised self-organising maps | |
CN114582004A (zh) | 人脸表情识别方法、系统、设备及存储介质 | |
Gowri et al. | Detection of real-time facial emotions via deep convolution neural network | |
Sohail et al. | Classifying facial expressions using point-based analytic face model and Support Vector Machines | |
Starostenko et al. | Unobtrusive emotion sensing and interpretation in smart environment | |
Sui et al. | Dynamic Expression Recognition Based on Hybrid Features and Optimized Extreme Learning Machine Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220603 |