CN113221799B - 一种多头部姿态人脸表情识别方法及其应用 - Google Patents

一种多头部姿态人脸表情识别方法及其应用 Download PDF

Info

Publication number
CN113221799B
CN113221799B CN202110567612.9A CN202110567612A CN113221799B CN 113221799 B CN113221799 B CN 113221799B CN 202110567612 A CN202110567612 A CN 202110567612A CN 113221799 B CN113221799 B CN 113221799B
Authority
CN
China
Prior art keywords
expression
front face
network
module
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110567612.9A
Other languages
English (en)
Other versions
CN113221799A (zh
Inventor
陈靓影
徐如意
杨雷
杨宗凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202110567612.9A priority Critical patent/CN113221799B/zh
Publication of CN113221799A publication Critical patent/CN113221799A/zh
Application granted granted Critical
Publication of CN113221799B publication Critical patent/CN113221799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种多头部姿态人脸表情识别方法及其应用。该方法包括步骤:获取训练样本对,所述训练样本对中包括同一表情的正脸图片和非正脸图片;将所述训练样本对输入到预先构建的识别模型进行训练,所述识别模型包括正脸识别网络和非正脸识别网络,所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络,所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。本发明能够消除头部姿态对表情识别的干扰,有效提高表情分类精度。

Description

一种多头部姿态人脸表情识别方法及其应用
技术领域
本发明属于表情识别技术领域,更具体地,涉及一种多头部姿态人脸表情识别方法及其应用。
背景技术
面部表情作为最重要的非语言交流手段之一,可以传达自己内心的情感。心理学研究发现,人类有能力破译各种面部表情的含义,并将面部表情归类为基本情绪之一。为了使计算机理解各种面部表情,人脸表情识别已经成为计算机视觉领域的研究热点之一。
现有的大多数深度学习方法主要集中在正脸或者近似正脸的人脸表情识别,当应用于非正脸的人脸表情识别时,现有方法的表现都会受到很大挑战。当头部姿态相较于正脸产生大范围变化时,人脸表情的类内距离也会相应增加。此外,随着头部姿态逐渐转向一侧,表情从三维空间投影到二维图像平面时,自遮挡区域增加导致更多的辨别信息丢失。这些问题导致现有的方法在应用时都存在局限性,识别精度低。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种多头部姿态人脸表情识别方法及其应用,消除头部姿态对表情识别的干扰,有效提高多头部姿态下的表情分类精度。
为实现上述目的,按照本发明的第一方面,提供了一种多头部姿态人脸表情识别方法,包括步骤:
获取训练样本对,所述训练样本对中包括同一表情的正脸图片和非正脸图片;
将所述训练样本对输入到预先构建的识别模型进行训练,所述识别模型包括正脸识别网络和非正脸识别网络,所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络,所述注意力模块用于提取表情特征和头部姿态特征,所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出表情特征之间的表情差异损失。
优选的,所述注意力模块包括第一注意力模块和第二注意力模块,所述第一注意力模块用于提取输入非正脸图片的头部姿态特征,所述第二注意力模块用于提取输入非正脸图片的表情特征,训练时最小化所述第一注意力模块和所述第二主力模块的正交通道注意力损失。
优选的,所述分类模块包括第一分类模块和第二分类模块,所述第一分类模块用于接收所述第一注意力模块的输出,并输出头部姿态分类结果,所述第二分类模块用于接收所述第二注意力模块的输出,并输出表情分类结果,训练时,根据所述第一分类模块的预测损失、所述第二分类模块的预测损失、所述表情差异损失和所述正交通道注意力损失,计算所述识别模型的总损失。
优选的,所述第一分类模块、所述第二分类模块均包括依次连接的三个全连接层,所述正脸表情特征提取网络包括一个全连接层,所述表情差异损失是所述第二分类模块的任意一个全连接层输出的表情特征与所述正脸表情特征提取网络的全连接层输出的表情特征的差异损失。
优选的,所述注意力模块还包括全局平均池化层,所述全局平均池化层用于计算所述非正脸识别网络的特征提取主干网络的每个特征通道的平均值,并将它们连接成矢量。
优选的,所述正交通道注意力损失的计算公式为:
Figure BDA0003081332370000021
其中,
Figure BDA0003081332370000022
为所述正交通道注意力损失,Ah为所述第一注意力模块的注意力,Ae为所述第二注意力模块的注意力。
优选的,所述识别模型的总损失的计算公式为:
Figure BDA0003081332370000031
其中,
Figure BDA0003081332370000032
为所述识别模型的总损失,
Figure BDA0003081332370000033
为所述第一分类模块的预测损失和所述第二分类模块的预测损失之和,
Figure BDA0003081332370000034
为所述表情差异损失,
Figure BDA0003081332370000035
为正则项,λ1,λ2,和λ3分别是
Figure BDA0003081332370000036
Figure BDA0003081332370000037
的权重参数。
按照本发明的第二方面,提供了一种多头部姿态人脸表情识别系统,包括:
样本获取模块,用于获取训练样本对,所述训练样本对中包括同一表情的正脸图片和非正脸图片;
训练模块,用于将所述训练样本对输入到预先构建的识别模型进行训练,所述识别模型包括正脸识别网络和非正脸识别网络,所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,所述非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络,所述注意力模块用于提取表情特征和头部姿态特征,所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。
按照本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
按照本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法。
总体而言,本发明与现有技术相比,具有有益效果:
(1)本发明通过从同一表情的正脸图片和非正脸图片中学习头部姿态独立的特征,利于缩小两者之间的识别准确率差距;
(2)本发明还采用注意力模块,并将该模块嵌入到多任务学习分支中,有利于利用子任务之间的协同作用,在分支通道注意力模块之前学习好的共享特征,之后学习基于特征通道注意力的子任务特定特征;
(3)本发明还采用正交通道注意力损失,与传统的自注意机制相比,正交注意机制可以进一步有效地解耦头部姿态特征和人脸表情特征,大大提高了人脸表情识别任务的正确率和鲁棒性。
附图说明
图1是本发明实施例的多头部姿态人脸表情识别方法的流程图;
图2是本发明实施例的样本对示意图;
图3是本发明实施例的识别模型示意图;
图4是本发明实施例的注意力模块示意图;
图5是本发明实施例的AlexNet模型网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明实施例的一种多头部姿态人脸表情识别方法,包括步骤:
S101,获取训练样本对,训练样本对中包括同一表情的正脸图片和非正脸图片。
进一步地,获取训练样本对的方法包括步骤:
(1)输入训练数据并且预处理,根据人脸特征点裁剪人脸区域并且做归一化;
进一步地,人脸裁剪与归一化的具体步骤为:首先通过人脸特征点来确定输入图像中可见的眼睛中心以及嘴巴中心的位置。然后通过指定输入图像和对齐图像点与点之间的对应关系来计算相似性变换T。
Figure BDA0003081332370000041
为对齐图像的水平中心,
Figure BDA0003081332370000042
为头部姿态角度。输入和对齐图像中的位置计算如下:
Figure BDA0003081332370000051
Figure BDA0003081332370000052
左眼和右眼中心的坐标分别由sl.eye和sr.eye来表示,当一只眼睛在不可见位置的时候,可见的眼睛的坐标用sv.eye来表示,smouth表示嘴巴中心的坐标。在受试者只有一只眼睛可见的情况下,则使用可见的眼睛坐标sv.eye替代
Figure BDA0003081332370000053
即当受试者只有一只眼睛可见的情况下,s2=sv.eye。齐次变换矩阵T是通过由两点对应给出的线性方程组求解得到的。该对齐方法适用于头部姿势大范围变化下的人脸对齐。
(2)组建训练样本对。
对经过数据预处理的图像根据身份信息与头部姿态信息构建样本对。
优选地,采用同一身份同一表情的正脸图片和非正脸图片。
定义同一身份不同头部姿态的样本对为Si和Sj,其中i表示正脸姿态的序号,j为所有头部姿态的对应序号且满足1≤j≤L,L表示头部姿态的总分类数。由(Si,Sj)组成一对样本对,如图2所示,图2中每类表情包括角度从-90°到+90°的多张表情图片,其中角度为0°的图片为正脸表情图片,其他角度的图片为非正脸表情图片。
S102,将训练样本对输入到预先构建的识别模型进行训练,识别模型包括正脸识别网络和非正脸识别网络,正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络,注意力模块接收非正脸识别网络的特征提取主干网络的输出,并提取表情特征和头部姿态特征输出给非正脸表情分类网络,正脸识别网络和非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化非正脸表情分类网络与正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。
进一步地,注意力模块包括第一注意力模块和第二注意力模块,第一注意力模块用于提取输入非正脸图片的头部姿态特征,第二注意力模块用于提取输入非正脸图片的表情特征,训练时最小化第一注意力模块和第二主力模块的正交通道注意力损失。
进一步地,分类模块包括第一分类模块和第二分类模块,第一分类模块用于接收第一注意力模块的输出,并输出头部姿态分类结果,分类模块用于接收第二注意力模块的输出,并输出表情分类结果,识别模型训练时,根据第一分类模块的预测损失、第二分类模块的预测损失、表情差异损失和正交通道注意力损失,计算识别模型的总损失。
特别说明的是,上述“第一”“第二”仅用于区分两个注意力模块或两个分类网络,两者其他任何限定关系。
下面说明具体实现。
(1)识别模型
如图3所示,识别模型的输入为来自同一表情的一对正脸与非正脸的图片(Si,Sj),Si输入到正脸识别网络,Sj输入到非正脸识别网络。正脸识别网络的前端和非正脸识别网络的前端均为特征提取主干网,采用AlexNet深度模型,包含多个卷积层和池化层,两者的特征提取主干网络共享参数,分别提取图片Si和Sj的特征。特征提取主干网络也可以采用VGGNET、ResNet网络结构。
非正脸识别网络是一个多任务的CNN,其包括两个分支通道的注意力模块,一个用于学习表情特征,一个用于学习头部姿态特征,采用注意力模块来代替原CNN的最后一个卷积层,注意力模块可以有效提取表情特征Fe和头部姿态特征Fh,在每个分支通道的注意力模块后,均使用三个全连接层构造两个子任务分类器,分别对表情特征Fe和头部姿态特征Fh进行分类。该多任务学习分支的预测损失Lm可表述如下:
Lm=Le+Lh
其中Le和Lh分别表示表情识别和头部姿态估计的交叉熵损失。交叉熵损失可以表示如下:
Figure BDA0003081332370000071
其中<·,·>代表内积的运算,Yt是真实值的独热码标签,而
Figure BDA0003081332370000072
是多任务学习CNN预测的概率分布。正脸Si的分支是原始的CNN网络,它使用AlexNet的主干网络和全连接层来提取面部表情特征。Si分支所接的全连接层的输出为Ge,由于从正面人脸图像中提取的特征没有丢失信息和更好的辨别能力,通过学习正脸分支的表情特征,有助于提高多头部姿态人脸表情的识别精度,所以要使多任务分支中表情子任务的第一个全连通层的输出G′e尽可能地类似于Ge。为此,最小化特征差异的L2范数,以监督两个分支中的参数训练:
Ldiff=||Ge-G′e||2
其中,||·||代表L2范数。为了减少由训练数据的尺度变化引起的影响,在计算差异之前,Ge和G′e要做L2范数归一化。
图4为注意力模块的网络结构示意图,即图3识别模型中MTL-OCA的具体结构。input代表输入,Conv代表卷积层,Pool代表池化层,AvgPool代表平均池化层,Softmax代表Softmax激活函数,Scale代表Scale层,Fc代表全连接层,每个缩写之后的序号代表对应层的顺序或者通道。
图5为图3识别模型中AlexNet的具体结构。input表示输入,Conv代表卷积层,Maxpool代表最大池化层,Fc代表全连接层,Softmax代表经过Softmax函数输出,每个缩写之后的序号代表对应层的顺序或者通道。
(2)注意力模块
进一步地,在识别模型中还通过利用表情识别和头部姿态估计之间的协同作用,学习较低卷积层中的共享特征对性能改善具有积极的影响。然而,在更深层次上学习共享特性不利于提高每个子任务的性能。为了学习深层子任务特定的特征,提出了一种分支通道注意力模块来代替最后一层卷积层。
将参数共享的特征层
Figure BDA0003081332370000081
作为分支通道注意力模块输入,其中W,H和C分别表示参数的宽、高和通道数。分支通道注意力模块包含一个全局平均池化层和两个分支,每个分支由两个全连接层组成。全局平均池化层可以计算Fshare中每个特征通道的平均值,并将它们连接成矢量
Figure BDA0003081332370000082
将这两个完全连接的层的参数表示为
Figure BDA0003081332370000083
其中r是缩减率;t∈{e,h}代表表情识别子任务或头部姿态估计子任务。然后,具有ReLU激活功能的第一完全连接层被用于将特征的维数减少到
Figure BDA0003081332370000084
随后,具有SoftMax激活功能的第二完全连接层被用于将特征的维数恢复到1×1×C。从形式上来说,分支的通道注意力可以表述为:
Figure BDA0003081332370000085
其中,δ(·)表示ReLU激活函数,σ(·)表示SoftMax激活函数。与Sigmoid激活函数相比,SoftMax激活函数将注意力得分转化为概率分布,因此注意力权重的模值不会太大。
注意力模块包含两个输出,即Fe和Fh.最终输出可表述为:
Figure BDA0003081332370000086
其中
Figure BDA0003081332370000087
是Ft的第i个通道,
Figure BDA0003081332370000088
是Fshare的第i个通道,
Figure BDA0003081332370000089
则表示第i个通道的权重。
(3)正交通道注意力损失
尽管分支通道注意力模块很好地学习子任务的特征,但它还是不能解耦合两个子任务之间的依赖关系。为了解决这个问题,两个子任务的通道注意力权重被约束为正交的,其可以被公式化为:
Figure BDA0003081332370000091
其中|·|代表向量的模数。通过SoftMax激活,注意力权重被归一化。因此,正交信道注意力损失等于两个子任务单独注意力权重的内积。
通过最小化
Figure BDA0003081332370000092
如果表情注意力通道的权重
Figure BDA0003081332370000093
被赋为非零值,则相应的头部姿态注意力通道的权重
Figure BDA0003081332370000097
应该是零或接近零的值,反之亦然。因此,两个子任务将从共享特征中选择互斥的特征通道来分别表示面部表情和头部姿态。
(4)识别模型的优化
为了获得我们的多头部姿态人脸表情识别模型,通过优化模型的总损失来执行训练过程,模型的总损失可以表示为:
Figure BDA0003081332370000094
其中,右边第一项是正则项;λ1,λ2,和λ3是平衡
Figure BDA0003081332370000095
Figure BDA0003081332370000096
的权重参数,根据经验,在一个实施例中,λ1,λ2,和λ3被分别设置为1、1和10。训练后,将测试数据输入到识别模型中,进行面部表情预测。
在一个实施例中,采用卡耐基梅隆大学创建的Multi-Pie表情库,包含超过750,000张六种面部表情(中性、尖叫、微笑、惊讶、斜视和厌恶)的图像,这些图像是分四次记录,在15个视点和20种照明条件下,采集自337个不同的受试者。本发明从337个人中选择选取100个人,每人有6种表情,13种头部姿态,共计7800张人脸表情图像作为输入,采用五折交叉验证,将样本平均分成5份,每次选取4份共6240张人脸表情图像训练,剩余1份共1560张人脸表情图像作为测试集,重复实验5次计算平均识别精度。
应用上述步骤得到的表情识别模型对测试样本进行人脸表情分类,在Multi-Pie数据集上的识别精度为88.41%,优于现有其他深度学习方法的识别结果,表明本发明提供方法能有效的抑制头部姿态变化对人脸表情识别带来的干扰。
本发明实施例的一种多头部姿态人脸表情识别系统,包括样本获取模块和训练模块。
样本获取模块,用于获取训练样本对,训练样本对中包括同一表情的正脸图片和非正脸图片。
训练模块,将训练样本对输入到预先构建的识别模型进行训练,识别模型包括正脸识别网络和非正脸识别网络,正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络,注意力模块用于提取表情特征和头部姿态特征,正脸识别网络和非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化非正脸表情分类网络与正脸表情特征提取网络两者输出的表情特征之间的表情差异损失。
系统的实现原理、技术效果与上述方法类似,此处不再赘述。
本实施例还提供了一种电子设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述实施例多头部姿态人脸表情识别方法的步骤,具体步骤参见上述实施例,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一多头部姿态人脸表情识别方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种多头部姿态人脸表情识别方法,其特征在于,包括步骤:
获取训练样本对,所述训练样本对中包括同一表情的正脸图片和非正脸图片;
将所述训练样本对输入到预先构建的识别模型进行训练,所述识别模型包括正脸识别网络和非正脸识别网络,所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,所述非正脸识别网络包括特征提取主干网络、注意力模块和非正脸表情分类网络,所述注意力模块用于提取表情特征和头部姿态特征,所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出表情特征之间的表情差异损失;
所述注意力模块包括第一注意力模块和第二注意力模块,所述第一注意力模块用于提取输入非正脸图片的头部姿态特征,所述第二注意力模块用于提取输入非正脸图片的表情特征,训练时最小化所述第一注意力模块和所述第二注意力模块的正交通道注意力损失;
所述分类网络包括第一分类模块和第二分类模块,所述第一分类模块用于接收所述第一注意力模块的输出,并输出头部姿态分类结果,所述第二分类模块用于接收所述第二注意力模块的输出,并输出表情分类结果,训练时,根据所述第一分类模块的预测损失、所述第二分类模块的预测损失、所述表情差异损失和所述正交通道注意力损失,计算所述识别模型的总损失。
2.如权利要求1所述的一种多头部姿态人脸表情识别方法,其特征在于,所述第一分类模块、所述第二分类模块均包括依次连接的三个全连接层,所述正脸表情特征提取网络包括一个全连接层,所述表情差异损失是所述第二分类模块的任意一个全连接层输出的表情特征与所述正脸表情特征提取网络的全连接层输出的表情特征的差异损失。
3.如权利要求1所述的一种多头部姿态人脸表情识别方法,其特征在于,所述注意力模块还包括全局平均池化层,所述全局平均池化层用于计算所述非正脸识别网络的特征提取主干网络的每个特征通道的平均值,并将它们连接成矢量。
4.如权利要求1所述的一种多头部姿态人脸表情识别方法,其特征在于,所述正交通道注意力损失的计算公式为:
Figure FDA0003696955840000021
其中,
Figure FDA0003696955840000022
为所述正交通道注意力损失,Ah为所述第一注意力模块的注意力,Ae为所述第二注意力模块的注意力。
5.如权利要求4所述的一种多头部姿态人脸表情识别方法,其特征在于,所述识别模型的总损失的计算公式为:
Figure FDA0003696955840000023
其中,
Figure FDA0003696955840000024
为所述识别模型的总损失,
Figure FDA0003696955840000025
为所述第一分类模块的预测损失和所述第二分类模块的预测损失之和,
Figure FDA0003696955840000026
为所述表情差异损失,
Figure FDA0003696955840000027
为正则项,λ12,和λ3分别是
Figure FDA0003696955840000028
Figure FDA0003696955840000029
的权重参数。
6.一种多头部姿态人脸表情识别系统,其特征在于,包括:
样本获取模块,用于获取训练样本对,所述训练样本对中包括同一表情的正脸图片和非正脸图片;
训练模块,用于将所述训练样本对输入到预先构建的识别模型进行训练,所述识别模型包括正脸识别网络和非正脸识别网络,所述正脸识别网络包括特征提取主干网络和正脸表情特征提取网络,所述非正脸识别网络包括特征提取主干网络、注意力模块、和非正脸表情分类网络,所述注意力模块用于提取表情特征和头部姿态特征,所述正脸识别网络和所述非正脸识别网络两者的特征提取主干网络的参数共享,训练时最小化所述非正脸表情分类网络与所述正脸表情特征提取网络两者输出的表情特征之间的表情差异损失;
所述注意力模块包括第一注意力模块和第二注意力模块,所述第一注意力模块用于提取输入非正脸图片的头部姿态特征,所述第二注意力模块用于提取输入非正脸图片的表情特征,训练时最小化所述第一注意力模块和所述第二注意力模块的正交通道注意力损失;
所述分类网络包括第一分类模块和第二分类模块,所述第一分类模块用于接收所述第一注意力模块的输出,并输出头部姿态分类结果,所述第二分类模块用于接收所述第二注意力模块的输出,并输出表情分类结果,训练时,根据所述第一分类模块的预测损失、所述第二分类模块的预测损失、所述表情差异损失和所述正交通道注意力损失,计算所述识别模型的总损失。
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
CN202110567612.9A 2021-05-24 2021-05-24 一种多头部姿态人脸表情识别方法及其应用 Active CN113221799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110567612.9A CN113221799B (zh) 2021-05-24 2021-05-24 一种多头部姿态人脸表情识别方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110567612.9A CN113221799B (zh) 2021-05-24 2021-05-24 一种多头部姿态人脸表情识别方法及其应用

Publications (2)

Publication Number Publication Date
CN113221799A CN113221799A (zh) 2021-08-06
CN113221799B true CN113221799B (zh) 2022-08-16

Family

ID=77098212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110567612.9A Active CN113221799B (zh) 2021-05-24 2021-05-24 一种多头部姿态人脸表情识别方法及其应用

Country Status (1)

Country Link
CN (1) CN113221799B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081445A (ja) * 2009-10-02 2011-04-21 Nippon Telegr & Teleph Corp <Ntt> 表情認識装置、人物間感情推定装置、表情認識方法、人物間感情推定方法、及びプログラム
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN111027382A (zh) * 2019-11-06 2020-04-17 华中师范大学 一种基于注意力机制的轻量级人脸检测的方法及模型
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112686117A (zh) * 2020-12-24 2021-04-20 华中师范大学 一种基于隐变量分析的人脸表情强度识别方法及系统
CN112801040A (zh) * 2021-03-08 2021-05-14 重庆邮电大学 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081445A (ja) * 2009-10-02 2011-04-21 Nippon Telegr & Teleph Corp <Ntt> 表情認識装置、人物間感情推定装置、表情認識方法、人物間感情推定方法、及びプログラム
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN111027382A (zh) * 2019-11-06 2020-04-17 华中师范大学 一种基于注意力机制的轻量级人脸检测的方法及模型
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112686117A (zh) * 2020-12-24 2021-04-20 华中师范大学 一种基于隐变量分析的人脸表情强度识别方法及系统
CN112801040A (zh) * 2021-03-08 2021-05-14 重庆邮电大学 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Facial expression recognition under a wide range of head poses;Radu-Laurentiu Vieriu, et al.;《2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG)》;20150723;1-7 *
基于深度特征的多头部姿态下自然表情识别研究;张木兰;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190115;I138-3636 *

Also Published As

Publication number Publication date
CN113221799A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN109033940B (zh) 一种图像识别方法、装置、计算设备及存储介质
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN108629336B (zh) 基于人脸特征点识别的颜值计算方法
EP2920742A2 (en) Devices, systems, and methods for visual-attribute refinement
Arora et al. AutoFER: PCA and PSO based automatic facial emotion recognition
CN109815826A (zh) 人脸属性模型的生成方法及装置
CN104850825A (zh) 一种基于卷积神经网络的人脸图像颜值计算方法
Yadav et al. Bacteria foraging fusion for face recognition across age progression
CN108829900A (zh) 一种基于深度学习的人脸图像检索方法、装置及终端
CN105956570B (zh) 基于唇部特征和深度学习的笑脸识别方法
Duan et al. Expression of Concern: Ethnic Features extraction and recognition of human faces
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN113591763B (zh) 人脸脸型的分类识别方法、装置、存储介质及计算机设备
JP2022553779A (ja) キャビン内の環境の調整方法及び装置
Gudipati et al. Efficient facial expression recognition using adaboost and haar cascade classifiers
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
Garg et al. Facial expression recognition & classification using hybridization of ICA, GA, and neural network for human-computer interaction
Ullah et al. Emotion recognition from occluded facial images using deep ensemble model
Sun et al. General-to-specific learning for facial attribute classification in the wild
CN113221799B (zh) 一种多头部姿态人脸表情识别方法及其应用
Zhang et al. Biometric recognition
Sun et al. Deep Facial Attribute Detection in the Wild: From General to Specific.
CN116311472A (zh) 基于多层次图卷积网络的微表情识别方法及装置
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
CN114743241A (zh) 一种人脸表情识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant