CN110738102B - 一种人脸表情识别方法及系统 - Google Patents
一种人脸表情识别方法及系统 Download PDFInfo
- Publication number
- CN110738102B CN110738102B CN201910832294.7A CN201910832294A CN110738102B CN 110738102 B CN110738102 B CN 110738102B CN 201910832294 A CN201910832294 A CN 201910832294A CN 110738102 B CN110738102 B CN 110738102B
- Authority
- CN
- China
- Prior art keywords
- feature
- expression
- action units
- action
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000008921 facial expression Effects 0.000 title claims abstract description 57
- 230000009471 action Effects 0.000 claims abstract description 96
- 230000014509 gene expression Effects 0.000 claims abstract description 92
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000001815 facial effect Effects 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 210000003205 muscle Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种人脸表情识别方法及系统,方法包括:获取待识别的人脸图像,人脸图像包括多个动作单元,动作单元与表情之间及动作单元之间存在依赖关系;利用神经网络的主干网络获取表征人脸图像全局特性的第一特征;根据预设动作单元与表情之间关系在第一特征的基础上,提取表征动作单元局部特性的第二特征;将第一特征与第二特征进行融合后,根据动作单元之间的依赖关系得到第三特征;将第三特征与第一特征进行拼接得到第四特征,根据第四特征进行人脸表情预测。本发明实施例通过引入表情‑动作单元的关系和动作单元自身的关系,结合表情和动作单元知识交互来辅助特征的提取,从而做到对人脸表情的更准确的识别。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种人脸表情识别方法及系统。
背景技术
人脸表情是传达人的情绪的重要信号,自动化的表情识别可以辅助机器人交互,智慧医疗,用户解析等应用,因而长期以来存在大量的研究工作,主要集中于受控环境中七类基本表情(平静,高兴,生气,悲伤,讨厌,惊讶,害怕)的自动化识别。相关地,动作单元定义的是人脸特定区域肌肉的运动,如嘴角肌肉上扬,下巴下落。根据动作单元编码系统,每个基本表情都能精确地被定义为一系列动作单元的组合,因而动作单元在自动化表情识别中也起到了重要作用。
近年来,研究领域开始出现了反映真实场景的大规模数据集。同之前在实验室场景下收集的数据相比,这些数据集由于在姿势,场景,光照等条件下都有很大的变化,所以对识别的方法带来了很大的挑战。以前手工标识的特征由于难以捕捉到真实场景下巨大的差异性信息,特征表达能力不足,在新出现的数据集上的效果比较差。
发明内容
因此,本发明提供的一种人脸表情识别方法及系统,克服了现有技术中对多样的数据集进行人脸表情识别效果差的缺陷。
第一方面,本发明实施例提供一种人脸表情识别方法,包括如下步骤:获取待识别的人脸图像,所述人脸图像包括多个面部动作单元,所述面部动作单元与表情之间及面部动作单元之间存在依赖关系;利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征;根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征面部动作单元局部特性的第二特征;将所述第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征;将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。
在一实施例中,所述利用神经网络获取表征所述人脸图像全局特性的第一特征的步骤,包括:将待识别的人脸图像的输入神经网络的主干网络,将不同层输出的不同分辨率的特征进行拼接,将得到的初步全局特征作为第一特征。
在一实施例中,所述根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征面部动作单元局部特性的第二特征的步骤,包括:根据先验知识建立动作单元与表情的关系矩阵;利用所述关系矩阵获取与输入表情概率之间的对应关系,得到动作单元的概率分布;将所述动作单元概率作为伪标签对第一局部分支网络进行训练;将第一特征输入训练好的第一局部分支网络得到第二特征。
在一实施例中,所述将所述第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征的步骤,包括:将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合,生成融合特征;将面部动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的面部动作单元的概率向量;将所述概率向量作为权重对所述第二特征进行加权融合,得到第三特征。
在一实施例中,所述将面部动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的面部动作单元的概率向量的步骤,包括:设置损失函数,所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失;根据所述损失函数训练第二局部分支网络;将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。
在一实施例中,所述概率向量通过以下公式计算:
其中,tanh(·)是非线性激活函数,⊙是像素级别的点乘操作、 P∈Rd×1均是可学习的参数矩阵,fe为第一特征,fi a为第二特征,b为偏差值,de是表情的种类数量,da是面部动作单元的种类数量,d是中间维度参数。
在一实施例中,所述将所述概率向量作为权重对所述第二特征进行加权融合,得到第三特征的步骤通过以下公式计算:
第二方面,本发明实施例提供一种人脸表情识别系统,包括:人脸图像获取模块,用于获取待识别的人脸图像,所述人脸图像包括多个面部动作单元,所述面部动作单元与表情之间及面部动作单元之间存在依赖关系;第一特征获取模块,用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征;第二特征获取模块,根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征面部动作单元局部特性的第二特征;第三特征获取模块,将所述第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征;人脸表情预测模块,将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。
第三方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的人脸表情识别方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的人脸表情识别方法。
本发明技术方案,具有如下优点:
本发明实施例提供的一种人脸表情识别方法及系统,获取待识别的人脸图像,人脸图像包括多个面部动作单元,面部动作单元与表情之间及面部动作单元之间存在依赖关系;利用神经网络的主干网络获取表征人脸图像全局特性的第一特征;根据预设人脸动作单元与表情之间关系在第一特征的基础上,提取表征面部动作单元局部特性的第二特征;将第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征;将第三特征与第一特征进行拼接得到第四特征,根据第四特征进行人脸表情预测。本发明实施例通过引入表情-动作单元的关系和动作单元自身的关系,结合表情和动作单元知识交互来辅助特征的提取,从而做到对人脸表情的更准确的识别。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的人脸表情识别方法的一个具体示例的流程图;
图2为本发明实施例提供的表情-动作单元之间的关系的一个示意图;
图3为本发明实施例提供的动作单元之间的关系的一个示意图;
图4为本发明实施例提供的利用神经网络进行特征提取及表情识别过程的示意图;
图5为本发明实施例提供的提取表征面部动作单元局部特性的第二特征的一个具体示例的流程图;
图6为本发明实施例提供的获取第三特征的一个具体示例的流程图;
图7为本发明实施例提供的获取动作单元的概率向量一个具体示例的流程图;
图8为本发明实施例提供的人脸表情识别系统的一个具体示例的组成图;
图9为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的人脸表情识别方法,可以应用于有人脸表情识别需求的应用领域,例如:智慧医疗,智能交通等,通过终端在获取到人脸图像后对人脸的表情进行识别。如图1所示,该人脸表情识别方法包括如下步骤:
步骤S1:获取待识别的人脸图像,所述人脸图像包括多个面部动作单元,所述面部动作单元与表情之间及面部动作单元之间存在依赖关系。
本发明实施例中,涉及的人脸表情包括:平静,高兴,生气,悲伤,讨厌,惊讶,害怕等;面部动作单元是人脸特定区域肌肉的运动,本发明实施例涉及人脸的17个面部动作单元。人脸相关的研究指出,如图2所示,每个表情都和几个动作单元有关,即每个基本表情都能精确地被定义为一系列动作单元的组合(例如,嘴角上扬和脸颊上提的面部动作组合可以对应“高兴”的表情,例如眉毛下压和嘴巴下拉的面部动作组合可以对应“生气”的表情,等等,以上仅以此举例,不以此为限),因此动作单元在自动化表情识别中起到了重要作用。另外,如图3所示,不同的动作单元AU之间也存在着很强的依赖关系,有一些面部动作单元为正相关关系会经常同时出现(例如,脸颊上提和嘴角上扬),而有的面部动作单元是负相关关系会互斥性出现的(例如,眉毛上扬和嘴角下垂)。
步骤S2:利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征。
本发明实施例中,如图4所示,将待识别的人脸图像的输入神经网络的主干网络,将不同层输出的不同分辨率的特征进行拼接,将得到的初步全局特征作为第一特征。
在一具体实施例中,人脸图像的输入大小为224x224,包括RGB三个通道。本发明选取了101层的残差网络作为主干网络。该网络的训练方式上使用表情标签作为监督,交叉熵函数作为损失函数,随机梯度下降作为优化器进行训练。根据分辨率的不同,残差网络的输出特征可以分为四组,分辨率分别:A组特征56x56,B组特征28x28,C组特征14x14,D组特征7x7,将这四组特征做两种处理:
1.A、B、C三组特征下采样到7x7的大小,然后和D组特征拼接在一起,作为全局的表情特征fe;
2.B、C、D组特征上采样到56x56大小,和A组特征拼接在一起,作为输入步骤S3的初始特征fe′。
步骤S3:根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征面部动作单元局部特性的第二特征。
本发明实施例中,选取了17个和表情任务最相关的动作单元,用17个结构相同,但是不共享权重的局部分支网络进行特征的提取。其中:
网络的结构:卷积层64-3x3,全连接层。
输入:每个动作单元都有对应的区域,可以通过脸部关键点进行定位,根据坐标映射的关系,为每个动作单元在步骤一生成的fe′上截取出对应区域的特征。
训练:用自动生成的动作单元概率伪动作单元标签进行局部分支网络的训练,训练过程中,固定住主干网络的权重,只训练局部分支网络。
步骤S4:将所述第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征。本发明实施例中,引入知识约束的注意力机制对面部动作单元的特征进行有加强效果的融合,基于不同的面部动作单元之间存在的依赖关系的约束得到第三特征。
步骤S5:将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。
本发明实施例中,将加强后的动作单元特征与步骤S2的表情特征进行拼接,基于拼接后的特征进行最终的表情预测。
本发明实施例提供的人脸表情识别方法,通过引入表情-动作单元的关系和动作单元自身的关系,结合表情和动作单元知识交互来辅助特征的提取,从而做到对人脸表情的更准确的识别。
在一实施例中,执行步骤S3的具体过程,如图5所示,可以包括以下步骤:
步骤S31:根据先验知识建立动作单元与表情的关系矩阵。
由于每个表情都和几个动作单元有关,这种相关关系可以进一步分为主相关关系和次相关关系。如果出现了某个表情,和该表情有主相关关系的动作单元有极高的出现概率,和该表情有次相关关系的动作单元有较高出现概率,而和该表情无关的动作单元的出现概率较低。根据这样的关系可以建立一个动作单元和表情的关系矩阵WEA,由于涉及的表情为7个,面部动作单元为17个,所以WEA为7*17的矩阵。
步骤S32:利用所述关系矩阵获取所述与输入表情概率之间的对应关系,得到动作单元的概率分布。
通过动作单元和表情的关系矩阵,可以在不需要额外动作单元标注的情况下,对输入的表情概率pe得到比较合理的动作单元的概率分布pa。
pa=peWEA
其中pa={pa0,pa1,…,pA-1},每个元素pai表示对应的动作单元AUi的出现概率。本发明实施例中的表情概率pe是事先通过先验知识的统计结果及表情专家知识库进行标记训练得到的,根据表情概率pe和表情概率pe即可得到动作单元的概率分布。
步骤S33:将所述动作单元概率作为伪标签对第一局部分支网络进行训练。
本发明实施例将动作单元概率作为伪标签对局部分支网络进行训练,从而实现对动作单元表达形式领域自适应的学习,经过这个步骤训练后的局部分支网络可以用于动作单元特征的提取。
步骤S34:将第一特征输入训练好的第一局部分支网络得到第二特征。
本发明实施例,将得到的初始全局特征输入到训练好的局部分支网络后可以得到动作单元特征。
在一实施例中,执行步骤S4的具体过程,如图6所示,可以包括以下步骤:
步骤S41:将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合,生成融合特征。
步骤S42:将面部动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的面部动作单元的概率向量。在一实施中,如图7所示,可以具体包括以下步骤:
步骤S421:设置损失函数,所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失。
由于不同的动作单元之间也存在着很强的依赖关系,有一些动作单元会经常同时出现,而有的动作单元是互斥性出现的。因此,学习的注意力系数也应该符合这样的依赖关系才具有合理性,因此需要制定一个损失函数来进行约束:
p(ii|i1)>p(i0|j1)
p(ii|i1)>p(i1|j0)
通过贝叶斯不等式和一系列变换转换后,上述概率公式等价为如下表示:
p(i1,j1)>p(i0,j1)
p(i1,j1)>p(i1,j0)
p(i1,j1)>p(ii)p(j1)
为了使参数模型符合上述关系的约束,正相关关系的损失可以定义为:
类似地,负相关关系的损失可以定义为:
进而动作单元相关性损失可以定义为以上两种约束的和:
步骤S422:根据所述损失函数训练第二局部分支网络。
步骤S423:将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。
所述概率向量通过以下公式计算:
其中,tanh(·)是非线性激活函数,⊙是像素级别的点乘操作、 P∈Rd×1均是可学习的参数矩阵,fe为第一特征,fi a为第二特征,b为偏差值,de是表情的种类数量,da是面部动作单元的种类数量,d是中间维度参数。
步骤S43:将概率向量作为权重对所述第二特征进行加权融合,得到第三特征。
最终将上述过程得到的加强后的动作单元特征和全局特征通过以下公式进行拼接,进行表情的预测:
pe=fun([fa,fe])
其中,fa加强后的动作单元特征,fe为全局特征。
为了验证本发明实施例提供的人脸表情识别方法的有效性,选取了现有公开数据集中两个具有挑战性的数据集进行评测。这两个数据集是在非受控场景下收集的,难度较大,分别是RAF-DB(Real-world Affective Face Database,真实场景情感相关的人脸数据集),以及SFEW数据集(Static Facial Expressions in the Wild,自然环境下的静态人脸表情)。RAF-DB是现在学术界最大的自然场景的表情数据集之一,包括了29672张差异极大的人脸图片,图片来源于网络。作为最早的一批自然场景表情数据集,被学术界广泛使用,图片总量为1766张。以下对比实验基于这两个数据集的验证集进行评测。和该领域普遍采取的评测指标相同,本方法选择了所有表情类别的平均准确率进行方法之间的对比。
本发明分别在这两个数据集上现在最新的几个达到世界领先水平的方法进行对比。在RAF-DB的基本表情数据上,对比方法有CP(Covariance Pooling,协方差池化法),DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法),MRE-CNN(Multi-Region Ensemble CNN,基于多区域整合的卷积神经网络法)。表1展示了本发明提供的方法和上述对比方法在RAF-DB的基本表情上的预测的准确率的比较。
表1
除了基本表情,本发明还在RAF-DB上难度更高的复合表情数据进行上进行评测,对比的方法有BaseDCNN(基础深度卷积神经网络模型),CenterLoss(中心损失函数法),DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法)。表2展示了本发明提供的方法和上述对比方法在RAF-DB的复合表情数据上的预测的准确率的比较。
表2
方法 | BaseDCNN | CenterLoss | DLP-CNN | 本发明 |
平均准确率 | 40.2 | 40.0 | 44.6 | 51.1 |
在SFEW数据集上,对比方法有CP(Covariance Pooling,协方差池化法),DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法),IA-CNN(Identity-Aware Convolutional Neural Network,结合身份信息的卷积神经网络模型),MDNL(Multiple Deep Network Learning,多个深度网络模型结合法)。表3展示了本发明提供的方法和上述对比方法在SFEW的表情数据上的预测的准确率的比较。
表3
本发明在两个数据集和其他方法对比准确率都有较大提高,其中,特别是对于困难样本的识别的提升作用更明显。如表3的数据所示,对于其他方法都预测不好的类别,如“厌恶”,“害怕”(准确率特别低,分别不超过5%和15%),本发明的识别效果都有了大幅度的提高(17.4%和25.5%)。另外,复合表情相对于简单表情的识别难度更大,由表2可见本发明的方法和其他方法的准确率相比有大幅度提升。可见,针对现有方法的不足,本发明由于加入了先验的知识,在动作单元信息的辅助下,可以做到更精细化的表情识别。
实施例2
本发明实施例提供一种人脸表情识别系统,如图8所示,包括:
人脸图像获取模块1,用于获取待识别的人脸图像,所述人脸图像包括多个面部动作单元,所述面部动作单元与表情之间及面部动作单元之间存在依赖关系。此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
第一特征获取模块2,用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
第二特征获取模块3,根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征面部动作单元局部特性的第二特征;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
第三特征获取模块4,将所述第一特征与第二特征进行融合后,根据面部动作单元之间的依赖关系得到第三特征;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
人脸表情预测模块5,将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
本发明实施例提供的人脸表情识别系统,通过引入表情-动作单元的关系和动作单元自身的关系,结合表情和动作单元知识交互来辅助特征的提取,从而做到对人脸表情的更准确的识别。
实施例3
本发明实施例提供一种计算机设备,如图9所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的人脸表情识别方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的人脸表情识别方法其中,通信总线402可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的人脸表情识别方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的人脸表情识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.一种人脸表情识别方法,其特征在于,包括如下步骤:
获取待识别的人脸图像,所述人脸图像包括多个动作单元,所述动作单元与表情之间及动作单元之间存在依赖关系;
利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征;
根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征动作单元局部特性的第二特征;
将所述第一特征与第二特征进行融合后,根据动作单元之间的依赖关系得到第三特征,包括:
将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合,生成融合特征;
将动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的动作单元的概率向量;
将所述概率向量作为权重对所述第二特征进行加权融合,得到第三特征;
将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。
2.根据权利要求1所述的人脸表情识别方法,其特征在于,所述利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征的步骤,包括:
将待识别的人脸图像的输入神经网络的主干网络,将不同层输出的不同分辨率的特征进行拼接,将得到的初步全局特征作为第一特征。
3.根据权利要求1所述的人脸表情识别方法,其特征在于,所述根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征动作单元局部特性的第二特征的步骤,包括:
根据先验知识建立动作单元与表情的关系矩阵;
利用所述关系矩阵获取与输入表情概率之间的对应关系,得到动作单元的概率分布,通过以下公式计算:
其中,每个元素表示对应的动作单元的出现概率,表情概率是事先通过先验知识的统计结果及表情专家知识库进行标记训练得到的;
将所述动作单元的出现概率作为伪标签对第一局部分支网络进行训练;
将第一特征输入训练好的第一局部分支网络得到第二特征。
4.根据权利要求1所述的人脸表情识别方法,其特征在于,所述将动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的动作单元的概率向量的步骤,包括:
设置损失函数,所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失;
根据所述损失函数训练第二局部分支网络;
将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。
5.根据权利要求1所述的人脸表情识别方法,其特征在于,
所述概率向量通过以下公式计算:
其中,是非线性激活函数,是像素级别的点乘操作、,均是可学习的参数矩阵,为第二特征,b为偏差值,是表情的种类数量,是动作单元的种类数量,是中间维度参数。
6.根据权利要求1所述的人脸表情识别方法,其特征在于,所述将所述概率向量作为权重对所述第二特征进行加权融合,得到第三特征的步骤通过以下公式计算:
其中,是第三特征,概率向量,第二特征。
7.一种人脸表情识别系统,其特征在于,包括:
人脸图像获取模块,用于获取待识别的人脸图像,所述人脸图像包括多个动作单元,所述动作单元与表情之间及动作单元之间存在依赖关系;
第一特征获取模块,用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征;
第二特征获取模块,根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上,提取表征动作单元局部特性的第二特征;
第三特征获取模块,将所述第一特征与第二特征进行融合后,根据动作单元之间的依赖关系得到第三特征,包括:
将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合,生成融合特征;
将动作单元之间的依赖关系作为约束条件,利用表情标签对所述融合特征进行训练,得到特定表情对应的动作单元的概率向量;
将所述概率向量作为权重对所述第二特征进行加权融合,得到第三特征;
人脸表情预测模块,将所述第三特征与所述第一特征进行拼接得到第四特征,根据所述第四特征进行人脸表情预测。
8.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任一所述的人脸表情识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一所述的人脸表情识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832294.7A CN110738102B (zh) | 2019-09-04 | 2019-09-04 | 一种人脸表情识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832294.7A CN110738102B (zh) | 2019-09-04 | 2019-09-04 | 一种人脸表情识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738102A CN110738102A (zh) | 2020-01-31 |
CN110738102B true CN110738102B (zh) | 2023-05-12 |
Family
ID=69267785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832294.7A Active CN110738102B (zh) | 2019-09-04 | 2019-09-04 | 一种人脸表情识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738102B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626113A (zh) * | 2020-04-20 | 2020-09-04 | 北京市西城区培智中心学校 | 一种基于面部动作单元的面部表情识别方法和装置 |
CN111680639B (zh) * | 2020-06-11 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 一种人脸识别验证方法、装置和电子设备 |
CN113095201B (zh) * | 2021-04-07 | 2023-08-18 | 西北工业大学 | 基于人脸不同区域间自注意力和不确定性加权多任务学习的au程度估计模型建立方法 |
CN113283978B (zh) * | 2021-05-06 | 2024-05-10 | 北京思图场景数据科技服务有限公司 | 基于生物基础与行为特征及业务特征的金融风险评估方法 |
CN113673303B (zh) * | 2021-06-28 | 2024-02-02 | 中国科学院大学 | 一种人脸面部动作单元强度回归方法、装置和介质 |
CN113486867B (zh) * | 2021-09-07 | 2021-12-14 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN113887487B (zh) * | 2021-10-20 | 2024-03-15 | 河海大学 | 一种基于CNN-Transformer的面部表情识别方法及装置 |
WO2024000233A1 (zh) * | 2022-06-29 | 2024-01-04 | 中国科学院深圳理工大学(筹) | 面部表情识别方法、装置、设备及可读存储介质 |
CN115546878B (zh) * | 2022-11-23 | 2023-02-03 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766840A (zh) * | 2019-01-10 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 人脸表情识别方法、装置、终端及存储介质 |
CN110069994A (zh) * | 2019-03-18 | 2019-07-30 | 中国科学院自动化研究所 | 基于人脸多区域的人脸属性识别系统、方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514432B (zh) * | 2012-06-25 | 2017-09-01 | 诺基亚技术有限公司 | 人脸特征提取方法、设备和计算机程序产品 |
-
2019
- 2019-09-04 CN CN201910832294.7A patent/CN110738102B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766840A (zh) * | 2019-01-10 | 2019-05-17 | 腾讯科技(深圳)有限公司 | 人脸表情识别方法、装置、终端及存储介质 |
CN110069994A (zh) * | 2019-03-18 | 2019-07-30 | 中国科学院自动化研究所 | 基于人脸多区域的人脸属性识别系统、方法 |
Non-Patent Citations (1)
Title |
---|
An efficient multimodal 2D + 3D feature-based approach to automatic facial expression recognition;Huibin Li等;《Computer Vision and Image Understanding》;20151130;第140卷;第83-92页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110738102A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738102B (zh) | 一种人脸表情识别方法及系统 | |
JP6843086B2 (ja) | 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN110533097B (zh) | 一种图像清晰度识别方法、装置、电子设备及存储介质 | |
Kao et al. | Visual aesthetic quality assessment with a regression model | |
WO2021169116A1 (zh) | 智能化的缺失数据填充方法、装置、设备及存储介质 | |
CN113128287B (zh) | 训练跨域人脸表情识别模型、人脸表情识别的方法及系统 | |
WO2022052530A1 (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
WO2020260862A1 (en) | Facial behaviour analysis | |
US10726206B2 (en) | Visual reference resolution using attention memory for visual dialog | |
EP3961584A2 (en) | Character recognition method, model training method, related apparatus and electronic device | |
US20230162477A1 (en) | Method for training model based on knowledge distillation, and electronic device | |
WO2023024406A1 (zh) | 数据蒸馏的方法、装置、设备、存储介质、计算机程序及产品 | |
US20220215558A1 (en) | Method and apparatus for three-dimensional edge detection, storage medium, and computer device | |
CN110288513A (zh) | 用于改变人脸属性的方法、装置、设备和存储介质 | |
CN112101364A (zh) | 基于参数重要性增量学习的语义分割方法 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN110414541B (zh) | 用于识别物体的方法、设备和计算机可读存储介质 | |
CN113850251A (zh) | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 | |
CN113111716A (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN116229066A (zh) | 人像分割模型的训练方法及相关装置 | |
CN110390254B (zh) | 基于人脸的性格分析方法、装置、计算机设备及存储介质 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
WO2011096010A1 (ja) | パターン認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210310 Address after: 16 / F, No. 37, Jinlong Road, Nansha District, Guangzhou City, Guangdong Province (office only) Applicant after: DMAI (GUANGZHOU) Co.,Ltd. Address before: Room 1901, 19 / F, Lee court I, 33 Hysan Road, Causeway Bay, Hong Kong, China Applicant before: DARK MATTER (HONG KONG) INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |