CN112464865A - 一种基于像素和几何混合特征的人脸表情识别方法 - Google Patents

一种基于像素和几何混合特征的人脸表情识别方法 Download PDF

Info

Publication number
CN112464865A
CN112464865A CN202011439263.4A CN202011439263A CN112464865A CN 112464865 A CN112464865 A CN 112464865A CN 202011439263 A CN202011439263 A CN 202011439263A CN 112464865 A CN112464865 A CN 112464865A
Authority
CN
China
Prior art keywords
features
layer
face
vgg
geometric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011439263.4A
Other languages
English (en)
Inventor
刘畅
廣田薰
王健
戴亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011439263.4A priority Critical patent/CN112464865A/zh
Publication of CN112464865A publication Critical patent/CN112464865A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于像素和几何混合特征的人脸表情识别方法,属于模式识别和情感识别领域。本发明实现方法为:读取表情数据集图像,进行人脸检测后裁剪人脸关键区域;设计基于人脸像素的特征提取器,利用带有空间注意力的卷积神经网络进行表情特征提取,其中,空间注意力模型通过自适应评估像素与表情的相关性进行权重分配;进行人脸关键点检测,将关键点按人脸五官区域进行分组,利用不同的LSTM对不同区域的关键点进行局部几何特征提取,局部特征通过注意力模型分配权重获得整体几何特征,能够自适应地强调具有显著特征区域的特征而抑制冗余区域的特征表达;将像素级特征和几何级特征融合获得混合特征,并使用Softmax进行分类,实现面部表情图像的高精度识别。

Description

一种基于像素和几何混合特征的人脸表情识别方法
技术领域
本发明涉及模式识别和情感计算领域,尤其涉及一种基于像素和几何混合特征的人脸表情识别方法。
背景技术
面部表情是人类认知情感状态的重要特征之一,在日常社会交际中传递关键的非语言特征信息。由于表情识别在情感计算、计算机视觉、医学评估和人机交互等多个研究领域中展现出巨大的应用潜力,引起了人们的广泛关注。近年来,随着深度学习的迅猛发展及其在机器视觉领域中的成功应用,大量基于静态表情图像的高精度表情识别方法不断涌现。然而,大多数方法都是在不考虑深层几何特征的情况下直接从图像中提取像素级人脸特征,但是深层几何特征表现为检测到的面部关键点的相对空间几何位置的变化,具有优异的可辨别性。除此之外,面部表情是由面部行为的变化引起的,它与某些区域密切相关,而不是整个面部,冗余的面部特征信息会影响表情识别的性能表现。
发明内容
为了解决上述问题,本发明充分利用面部区域的情感特征,提出了一种基于像素和几何混合特征的人脸表情识别方法。该方法使用卷积神经网络从人脸图像中提取像素级人脸特征,同时利用多个长短期记忆网络(LSTM,Long Short-TermMemory)探索面部关键点之间的相对空间位置关系对表情识别的影响。在处理面部关键点时,本发明首先提出一种深度几何特征描述子,通过深度学习的方法分别对图像中不同面部区域人脸关键点之间的坐标相关性进行深层几何级特征提取;然后在LSTMs中嵌入注意力模型,根据各个面部区域的关键点特征对表情贡献的不同将较大的权重分配给对应的与表情密切相关的局部深层几何级特征,并将重新标定权重中的特征串接为表征表情的整体深层几何人脸特征,从而实现局部-整体的几何特征提取;最后将像素级特征和几何级特征进行融合以获得更具有分辨性的混合情感特征,对其分类获得识别结果。该方法主要包括以下步骤:
步骤1:读取表情数据集图像,进行人脸检测后截取人脸关键区域,去除冗余区域;
步骤2:设计空间注意力模块,利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取,其中,空间注意力模型得到的特征图每个值对应于人脸关键区域像素在空间位置的相对重要性,给予与表情表达相关的空间像素位置较大权重,而不相关的空间像素位置给予较小权重,从而提高与表情相关区域的特征表达,并且抑制无关区域的干扰;
步骤3:对人脸关键区域进行关键点检测,将人脸关键点按人脸五官区域进行分组,划分为多个局部面部区域,利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取,将每个LSTM提取的关键点特征级联后通过注意力模型,分配各个局部面部区域不同权重,能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达,最后经非线性函数激活后获得全局面部特征,即深层几何级特征;
步骤4:将像素级特征和几何级特征融合获得混合特征,利用交叉熵损失函数进行权值更新并使用Softmax对混合特征进行分类,获得面部表情图像的识别结果。
在所述步骤1中,数据集预处理过程包括以下步骤:
步骤1.1:读取表情数据集图像,对输入图像进行人脸检测获得人脸区域。
步骤1.2:截取人脸区域并归一化为统一尺寸获得人脸特征区域;
步骤1.3:按照步骤1.1、步骤1.2的操作处理数据集中全部用于实验(训练和验证)的图像,得到预处理之后的数据集。
在所述步骤2中,像素级特征提取过程包括以下步骤:
卷积神经网络通过堆叠的卷积结构进行特征提取,具有捕捉深层信息的能力。VGG网络模型是由多个VGG块组成的级联模型,每个VGG块由多个卷积层和一个用于下采样的最大池化层组成。本专利所设计使用的带有空间注意力模型的卷积神经网络受到VGG网络模型的启发,设计了空间注意力模块来减少情感不相关区域中冗余信息的影响。
当输入图像为N×N×M(其中,N为特征图大小,M为通道数量)时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个
Figure BDA0002821819420000021
的卷积层、1个
Figure BDA0002821819420000022
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个
Figure BDA0002821819420000023
的卷积层、1个
Figure BDA0002821819420000024
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个
Figure BDA0002821819420000025
的卷积层、2个
Figure BDA0002821819420000026
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个
Figure BDA0002821819420000027
的卷积层、3个
Figure BDA0002821819420000028
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个
Figure BDA0002821819420000029
的卷积层、1个池化窗口大小为Km×Km的最大池化层和1个池化窗口大小为Ka×Ka的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。其中,在
Figure BDA0002821819420000031
中,上标i表示第i个卷积层,Ki为卷积层的卷积核尺寸,
Figure BDA0002821819420000032
为卷积层的输入通道数量,
Figure BDA0002821819420000033
为卷积层的输出通道数量。
步骤2.2:将步骤2.1的输出输入到注意力模块,注意力模块包含1个
Figure BDA0002821819420000034
(其中,
Figure BDA0002821819420000035
为卷积层的输入通道数量)的卷积层、1个tanh激活层和1个Lin×Lout(其中,Lin为全连接层输入节点个数,Lout为全连接层输出节点个数)的全连接层。全连接层的输出即为提取到的像素级特征。
作为优选,输入图像为44×44×3时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个3×3×256×512的卷积层、3个3×3×512×512的卷积层和1个2×2的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1个1×1的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。
步骤2.2:将步骤2.1的输出特征输入到注意力模块,注意力模块包含1个1×1×512×1的卷积层、一个tanh激活层和1个512×512的全连接层。全连接层的输出即为提取到的像素级特征。
在所述步骤3中,几何级特征提取过程包括以下步骤:
步骤3.1:对输入人脸图像进行关键点检测,将人脸关键点按人脸五官区域进行分组,确定N个相关局部面部区域(比如眉毛、眼睛和嘴巴等)的位置和形状,获取局部面部区域中各关键点的笛卡尔坐标信息。
步骤3.2:将笛卡尔坐标信息作为向量输入到对应每个面部区域设计的LSTM模型中来捕捉人脸关键点坐标间的相对位置依赖关系,从而提取深层几何特征,该过程可由以下公式递归表示:
it=σ(Wvivt+Whiht-1+Wcict-1+bi) (1)
fi=σ(Wvfvt+Whfht-1+Wcfct-1+bf) (2)
ct=ftct-1+it tanh(Wvcvt+Whcht-1+bc) (3)
ot=σ(Wxovt+Whoht-1+Wcoct-1+bo) (4)
ht=tanh(ct) (5)
其中,it、ft和ot分别是LSTM模型中输入门、忘记门、存储单元和输出门的激活向量。vt和ht分别是在第t个时间步骤的输入向量和隐藏向量。Wαβ表示α和β之间的权重矩阵。bα是α的偏差,σ(·)表示Sigmoid函数σ(x)=1/(1+e-x)。每个LSTM的神经元个数等于输入面部关键点的数目。
步骤3.3:将不同局部面部区域的LSTM提取的几何特征hl输入到注意力网络,通过输出注意力掩膜Ml来量化不同面部区域特征的重要性;其中,注意力掩膜Ml可由公式(6)表示:
Ml=fa(Wg*hl+Bg) (6)
其中,其中Wg是注意网络的卷积核,Bg是相应的偏差,符号“*”表示卷积操作,fa(·)是激活函数。注意力掩膜的每个位置的权重只与相应局部区域的特征有关,因此,每一个注意力权重大小都可以反映不同面部区域的重要程度,并且能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达。
步骤3.4:通过注意力网络赋予不同权重的每个区域的几何特征在经过非线性激活后获得最终几何级特征hg,该过程如公式(7)所示:
Figure BDA0002821819420000045
其中,g(·)是Relu函数,符号
Figure BDA0002821819420000044
为元素数乘。
在所述步骤4中,混合特征获取和识别过程包括以下步骤:
步骤4.1:将提取的像素级特征和几何级特征进行拼接操作,获得混合特征;
步骤4.2:训练步骤2和步骤3网络结构的同时使用Softmax损失函数进行参数优化,使其代价函数最小,权值更新用到的交叉熵损失函数LossCE如公式(8)所示:
Figure BDA0002821819420000041
其中,Z为样本总数,C为分类类别总数,
Figure BDA0002821819420000042
为第k个样本的真实类别为c,
Figure BDA0002821819420000043
表示第k个样本预测为第c类的概率。
步骤4.3:使用Softmax分类器对混合特征进行分类预测,得到属于每一类情感类别的概率,概率值最大对应的情感类别即为输入的融合特征的情感识别结果。
有益效果:
1、本发明公开的一种基于像素和几何混合特征的人脸表情识别方法,对面部区域进行像素级特征和几何级特征提取,并合理的利用的注意力模块来反映不同面部区域的重要程度,通过拼接操作获得的融合特征具有更好的可分辨性,提高表情识别精度。
2、本发明公开的一种基于像素和几何混合特征的人脸表情识别方法,合理划分面部区域,并巧妙地运用多个LSTM模型对不同面部区域中关键点信息的坐标相关性进行学习,合理的使用注意力模型,获得更具分辨性的几何级特征,提高模型的情感特征表现能力。
附图说明
下面结合附图与实施例对本发明进一步说明,附图中:
图1为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的流程图;
图2为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的框架图;
图3为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的深度卷积网络模型结构图。
图4为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的提取的面部关键点示意图;
图5为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的面部区域划分示意图;
图6为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法中的LSTM模块结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细描述:本发明的实施例提供了一种基于像素和几何混合特征的人脸表情识别方法。
图1为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的流程图,图2为本发明实施例中一种基于像素和几何混合特征的人脸表情识别方法的框架图。一种基于像素和几何混合特征的人脸表情识别方法共分为四个部分,即数据集预处理,像素级特征提取,几何级特征提取以及特征融合与分类识别。具体步骤如下:
步骤1:读取表情数据集图像,进行人脸检测后截取人脸关键区域,去除冗余区域;
具体的,对CK+(The Extended Cohn-Kanade Dataset)数据集进行处理,获得人脸区域归一化统一尺寸44×44,与相对应的表情标签保存获得面部数据集。
步骤2:设计空间注意力模块,并利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取。空间注意力模型得到的特征图每个值对应于人脸关键区域像素在空间位置的相对重要性,给予与表情表达相关的空间像素位置较大权重,而不相关的空间像素位置给予较小权重,提高与表情相关区域的特征表达;
具体的,将面部数据集分批输入到带有空间注意力模型的VGG网络模型中,其中VGG网络模型参数如图3所示,是由多个VGG块组成的级联模型。具体过程为:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个3×3×256×512的卷积层、3个3×3×256×512的卷积层和1个2×2的最大池化层组成;继续输入到第五个VGG块,该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1×1的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。最后输入到注意力模块,注意力模块包含1个1×1×512×1的卷积层、1个tanh激活层和1个512×512的全连接层。此时,全连接层的输出即为提取到的像素级特征。
步骤3:对人脸关键区域进行关键点检测,将人脸关键点按人脸五官区域进行分组,划分为多个局部面部区域,利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取,将每个LSTM提取的关键点特征级联后通过注意力模型,分配各个局部面部区域不同权重,能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达,最后经非线性函数激活后获得全局面部特征,即深层几何级特征;
具体的,对输入人脸图像进行关键点检测,获得68个关键点,提取的面部关键点示意图如图4所示;确定7个相关面部区域的位置和形状,获得面部区域中各关键点的笛卡尔坐标信息。划分示意图如图5所示,具体为:
(1)左眉:左眉区域的5个关键点。相应的二维坐标(x1,k,y1,k),k=1,2,…,5共同作用形成一个十维特征向量(x1,1,y1,1,x1,2,y1,2,…,x1,5,y1,5)。
(2)右眉:右眉区域的5个关键点。相应的二维坐标(x2,k,y2,k),k=1,2,…,5共同作用形成一个十维特征向量(x2,1,y2,1,x2,2,y2,2,…,x2,5y2,5)。
(3)左眼:左眼区域的6个关键点。相应的二维坐标(x3,k,y3,k),k=1,2,…,6共同作用形成一个十二维特征向量(x3,1,y3,1,x3,2,y3,2,…,x3,6,y3,6)。
(4)右眼:右眼区域的6个关键点。相应的二维坐标(x4,k,y4,k),k=1,2,…,6共同作用形成一个十二维特征向量(x4,1,y4,1,x4,2,y4,2,…,x4,6,y4,6)。
(5)鼻子:鼻子区域的9个关键点。相应的二维坐标(x5,k,y5,k),k=1,2,…,9共同作用形成一个十八维特征向量(x5,1,y5,1,x5,2,y5,2,…,x5,9,y5,9)。
(6)嘴巴:左眉区域的5个关键点。相应的二维坐标(x6,k,y6,k),k=1,2,…,20共同作用形成一个四十维特征向量(x6,1,y6,1,x6,2,y6,2,…,x6,20,y6,20)。
(7)轮廓:面部轮廓区域的17个关键点。相应的二维坐标(x7,k,y7,k),k=1,2,…,17共同作用形成一个三十四维特征向量(x7,1,y7,1,x7,2,y7,2,…,x7,17,y7,17)。
将上述特征向量输入到针对每个面部区域设计LSTM模型中来捕捉关键点坐标间的相对空间位置依赖关系,从而提取到每个区域的几何特征。单个区域的LSTM模型示意图如图6所示。将不同局部面部区域的LSTM提取的几何特征输入到注意力网络,通过输出注意力掩膜来量化不同面部区域几何特征的重要性;通过注意力网络赋予不同权重的每个区域提取的几何特征在经过非线性激活后级联获得全局面部特征,即深度几何级特征。
步骤4:将像素级特征和几何级特征融合获得混合特征,利用交叉熵损失函数进行权值更新并使用Softmax对混合特征进行分类。
具体的,表情种类设为7类,即C=7,对于CK+数据集表情标签为愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶,对于FER2013数据集情标签为愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中立。使用交叉熵损失函数LossCE进行网络权值更新,利用Softmax对融合特征进行分类,获得7类表情概率,概率最大者为样本的表情识别结果。
通过上述步骤分别在CK+数据集和FER2013数据集进行验证,由于CK+数据集样本较少,对CK+数据集使用十折交叉验证的方法进行验证。行权值更新的优化方法是随机梯度下降(Stochastic Gradient Descent,SGD)算法,其中初始学习率为0.01,动量、重量衰减和批次大小设置为0.9、0.0005和32,为避免过拟合,Dropout率设置为0.5。对于FER2013数据集,总训练次数设置为200次,学习率在训练50次后开始下降,之后每训练5次学习率乘以0.85;对于CK数据集,总训练次数设置为100次,学习率在训练20次后开始下降,之后每训练3次学习率乘以0.85。在训练过程中使用数据增强算法,对训练图像进行扩充,提高模型泛化能力,最终在CK+数据集上获得95.15%的准确率,在FER2013数据集上获得73.53%的准确率。融合像素级特征和几何级特征提高了特征的可分辨性,相比于其他传统方法和深度学习方法取得更高的识别精度。
上述实施例为本发明较佳的识别方式,但本发明的实施方式并不受上述实施例的限制,凡是在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:读取表情数据集图像,进行人脸检测后截取人脸关键区域,去除冗余区域;
步骤2:设计空间注意力模块,利用带有空间注意力模型的卷积神经网络对人脸关键区域进行像素级特征提取,其中,空间注意力模型得到的特征图中每个值对应于人脸关键区域像素在空间位置的相对重要性,给予与表情表达相关的空间像素位置较大权重,而给予不相关的空间像素位置较小权重,从而提高与表情相关区域的特征表达,并且抑制无关区域的干扰;
步骤3:对人脸关键区域进行关键点检测,将人脸关键点按人脸五官区域进行分组,划分为多个局部面部区域,利用不同的LSTM分别对相应的局部面部区域内关键点特征进行提取,将每个LSTM提取的关键点特征级联后通过注意力模型,分配各个局部面部区域不同权重,能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达,最后经非线性函数激活后获得全局面部特征,即深层几何级特征;
步骤4:将像素级特征和几何级特征融合获得混合特征,利用交叉熵损失函数进行网络权值更新并使用Softmax对混合特征进行分类,得到面部表情图像的识别结果。
2.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤1中,对所述的数据集预处理步骤如下:
骤1.1:读取表情数据集图像,对输入图像进行人脸检测获得人脸区域。
步骤1.2:截取人脸区域并归一化为统一尺寸获得人脸特征区域;
步骤1.3:按照步骤1.1、步骤1.2的操作处理数据集中全部用于实验(训练和验证)的图像,得到预处理之后的数据集。
3.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤2中,像素级特征提取步骤如下:
卷积神经网络通过堆叠的卷积结构进行特征提取,具有捕捉深层信息的能力。VGG网络模型是由多个VGG块组成的级联模型,每个VGG块由多个卷积层和一个用于下采样的最大池化层组成。本专利所设计使用的带有空间注意力模型的卷积神经网络受到VGG网络模型的启发,设计了空间注意力模块来减少情感不相关区域中冗余信息的影响。
当输入图像为N×N×M(其中,N为特征图大小,M为通道数量)时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个
Figure FDA0002821819410000011
的卷积层、1个
Figure FDA0002821819410000012
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个
Figure FDA0002821819410000013
的卷积层、1个
Figure FDA0002821819410000021
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个
Figure FDA0002821819410000022
的卷积层、2个
Figure FDA0002821819410000023
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个
Figure FDA0002821819410000024
的卷积层、3个
Figure FDA0002821819410000025
的卷积层和1个池化窗口大小为Km×Km的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个
Figure FDA0002821819410000026
的卷积层、1个池化窗口大小为Km×Km的最大池化层和1个池化窗口大小为Ka×Ka的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。其中,在
Figure FDA0002821819410000027
中,上标i表示第i个卷积层,Ki为卷积层的卷积核尺寸,
Figure FDA0002821819410000028
为卷积层的输入通道数量,
Figure FDA0002821819410000029
为卷积层的输出通道数量。
步骤2.2:将步骤2.1的输出输入到注意力模块,注意力模块包含1个
Figure FDA00028218194100000210
(其中,
Figure FDA00028218194100000211
为卷积层的输入通道数量)的卷积层、1个tanh激活层和1个Lin×Lout(其中,Lin为全连接层输入节点个数,Lout为全连接层输出节点个数)的全连接层。全连接层的输出即为提取到的像素级特征。
作为优选,输入图像为44×44×3时,具体包括以下步骤:
步骤2.1:将缩放为统一尺寸的人脸图像输入到第一个VGG块,该VGG块包含1个3×3×3×64的卷积层、1个3×3×64×64的卷积层和1个2×2的最大池化层组成;继续输入到第二个VGG块,该VGG块包含1个3×3×64×128的卷积层、1个3×3×128×128的卷积层和1个2×2的最大池化层组成;继续输入到第三个VGG块,该VGG块包含1个3×3×128×256的卷积层、2个3×3×256×256的卷积层和1个2×2的最大池化层组成;继续输入到第四个VGG块,该VGG块包含1个3×3×256×512的卷积层、3个3×3×512×512的卷积层和1个2×2的最大池化层组成;最后输入到第五个VGG块,该VGG块包含4个3×3×512×512的卷积层、1个2×2的最大池化层和1个1×1的平均池化层组成。此外,为了更好的发挥卷积神经网络的作用,在上述的每一个卷积层后添加BN层和Relu激活层。
步骤2.2:将步骤2.1的输出特征输入到注意力模块,注意力模块包含1个1×1×512×1的卷积层、一个tanh激活层和1个512×512的全连接层。全连接层的输出即为提取到的像素级特征。
4.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤3中,几何级特征提取步骤如下:
步骤3.1:对输入人脸图像进行关键点检测,将人脸关键点按人脸五官区域进行分组,确定N个相关局部面部区域(比如眉毛、眼睛和嘴巴等)的位置和形状,获取局部面部区域中各关键点的笛卡尔坐标信息。
步骤3.2:将笛卡尔坐标信息作为向量输入到对应每个面部区域设计的LSTM模型中来捕捉人脸关键点坐标间的相对位置依赖关系,从而提取深层几何特征,该过程可由以下公式递归表示:
it=σ(Wvivt+Whiht-1+Wcict-1+bi) (1)
fi=σ(Wvfvt+Whfht-1+Wcfct-1+bf) (2)
ct=ftct-1+ittanh(Wvcvt+Whcht-1+bc) (3)
ot=σ(Wxovt+Whoht-1+Wcoct-1+bo) (4)
ht=tanh(ct) (5)
其中,it、ft和ot分别是LSTM模型中输入门、忘记门、存储单元和输出门的激活向量。vt和ht分别是在第t个时间步骤的输入向量和隐藏向量。Wαβ表示α和β之间的权重矩阵。bα是α的偏差,σ(·)表示Sigmoid函数σ(x)=1/(1+e-x)。每个LSTM的神经元个数等于输入面部关键点的数目。
步骤3.3:将不同局部面部区域的LSTM提取的几何特征hl输入到注意力网络,通过输出注意力掩膜Ml来量化不同面部区域特征的重要性;其中,注意力掩膜Ml可由公式(6)表示:
Ml=fa(Wg*hl+Bg) (6)
其中,其中Wg是注意网络的卷积核,Bg是相应的偏差,符号“*”表示卷积操作,fa(·)是激活函数。注意力掩膜的每个位置的权重只与相应局部区域的特征有关,因此,每一个注意力权重大小都可以反映不同面部区域的重要程度,并且能够自适应的强调具有显著特征区域的特征而抑制冗余区域的特征表达。
步骤3.4:通过注意力网络赋予不同权重的每个区域的几何特征在经过非线性激活后获得最终几何级特征hg,该过程如公式(7)所示:
Figure FDA0002821819410000031
其中,g(·)是Relu函数,符号
Figure FDA0002821819410000041
为元素数乘。
5.如权利要求1所述的一种基于像素和几何混合特征的人脸表情识别方法,其特征在于,步骤4中,混合特征获取和识别步骤如下:
步骤4.1:将提取的像素级特征和几何级特征进行拼接操作,获得混合特征;
步骤4.2:训练步骤2和步骤3网络结构的同时使用Softmax损失函数进行参数优化,使其代价函数最小,权值更新用到的交叉熵损失函数LossCE如公式(8)所示:
Figure FDA0002821819410000042
其中,Z为样本总数,C为分类类别总数,
Figure FDA0002821819410000043
为第k个样本的真实类别为c,
Figure FDA0002821819410000044
表示第k个样本预测为第c类的概率。
步骤4.3:使用Softmax分类器对混合特征进行分类预测,得到属于每一类情感类别的概率,概率值最大对应的情感类别即为输入的融合特征的情感识别结果。
CN202011439263.4A 2020-12-08 2020-12-08 一种基于像素和几何混合特征的人脸表情识别方法 Pending CN112464865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439263.4A CN112464865A (zh) 2020-12-08 2020-12-08 一种基于像素和几何混合特征的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439263.4A CN112464865A (zh) 2020-12-08 2020-12-08 一种基于像素和几何混合特征的人脸表情识别方法

Publications (1)

Publication Number Publication Date
CN112464865A true CN112464865A (zh) 2021-03-09

Family

ID=74800589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439263.4A Pending CN112464865A (zh) 2020-12-08 2020-12-08 一种基于像素和几何混合特征的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN112464865A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990007A (zh) * 2021-03-13 2021-06-18 山东大学 基于区域分组与内部关联融合的人脸表情识别方法及系统
CN113052064A (zh) * 2021-03-23 2021-06-29 北京思图场景数据科技服务有限公司 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法
CN113065460A (zh) * 2021-03-31 2021-07-02 吉林农业大学 基于多任务级联的猪脸面部表情识别框架的建立方法
CN113392766A (zh) * 2021-06-16 2021-09-14 哈尔滨理工大学 一种基于注意力机制的人脸表情识别方法
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN113435267A (zh) * 2021-06-09 2021-09-24 江苏第二师范学院 一种基于改进的卷积神经网络的在线教育学生专注力判别方法
CN113486744A (zh) * 2021-06-24 2021-10-08 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN114022921A (zh) * 2021-09-13 2022-02-08 齐鲁工业大学 一种基于特征点和局部特征的面部表情分析方法
WO2023065503A1 (zh) * 2021-10-19 2023-04-27 中国科学院深圳先进技术研究院 一种面部表情的分类方法和电子设备
CN117058723A (zh) * 2023-10-11 2023-11-14 腾讯科技(深圳)有限公司 掌纹识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580461A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种结合多级卷积特征金字塔的人脸表情识别算法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580461A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种结合多级卷积特征金字塔的人脸表情识别算法
CN111274977A (zh) * 2020-01-22 2020-06-12 中能国际建筑投资集团有限公司 多任务卷积神经网络模型及使用方法、装置和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘大运等: "基于BiLSTM-Attention唇语识别的研究", 《计算技术与自动化》 *
史鹏坤: "基于深度学习的人脸表情识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王善敏等: "关键点深度特征驱动人脸表情识别", 《中国图象图形学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990007A (zh) * 2021-03-13 2021-06-18 山东大学 基于区域分组与内部关联融合的人脸表情识别方法及系统
CN113052064A (zh) * 2021-03-23 2021-06-29 北京思图场景数据科技服务有限公司 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法
CN113052064B (zh) * 2021-03-23 2024-04-02 北京思图场景数据科技服务有限公司 基于面部朝向、面部表情及瞳孔追踪的注意力检测方法
CN113065460A (zh) * 2021-03-31 2021-07-02 吉林农业大学 基于多任务级联的猪脸面部表情识别框架的建立方法
CN113435267B (zh) * 2021-06-09 2023-06-23 江苏第二师范学院 一种基于改进的卷积神经网络的在线教育学生专注力判别方法
CN113435267A (zh) * 2021-06-09 2021-09-24 江苏第二师范学院 一种基于改进的卷积神经网络的在线教育学生专注力判别方法
CN113392766A (zh) * 2021-06-16 2021-09-14 哈尔滨理工大学 一种基于注意力机制的人脸表情识别方法
CN113486744A (zh) * 2021-06-24 2021-10-08 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113486744B (zh) * 2021-06-24 2023-02-14 中国科学院西安光学精密机械研究所 基于眼动和人脸表情范式的学生学习状态评估系统及方法
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN114022921B (zh) * 2021-09-13 2024-02-20 齐鲁工业大学 一种基于特征点和局部特征的面部表情分析方法
CN114022921A (zh) * 2021-09-13 2022-02-08 齐鲁工业大学 一种基于特征点和局部特征的面部表情分析方法
WO2023065503A1 (zh) * 2021-10-19 2023-04-27 中国科学院深圳先进技术研究院 一种面部表情的分类方法和电子设备
CN117058723A (zh) * 2023-10-11 2023-11-14 腾讯科技(深圳)有限公司 掌纹识别方法、装置及存储介质
CN117058723B (zh) * 2023-10-11 2024-01-19 腾讯科技(深圳)有限公司 掌纹识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN109409222B (zh) 一种基于移动端的多视角人脸表情识别方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
Dong et al. Automatic age estimation based on deep learning algorithm
CN112613581B (zh) 一种图像识别方法、系统、计算机设备和存储介质
CN107239733A (zh) 连续手写字识别方法及系统
CN111191526B (zh) 行人属性识别网络训练方法、系统、介质及终端
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及系统
CN108830237B (zh) 一种人脸表情的识别方法
CN109522925A (zh) 一种图像识别方法、装置和存储介质
CN112733602B (zh) 关系引导的行人属性识别方法
CN111666873A (zh) 一种基于多任务深度学习网络的训练方法、识别方法及系统
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
Wang et al. Building correlations between filters in convolutional neural networks
Borgalli et al. Deep learning for facial emotion recognition using custom CNN architecture
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Ghorpade et al. Neural Networks for face recognition Using SOM
Ma et al. Bottleneck feature extraction-based deep neural network model for facial emotion recognition
CN116434010A (zh) 一种多视图的行人属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210309