CN113869229B - 基于先验注意力机制引导的深度学习表情识别方法 - Google Patents

基于先验注意力机制引导的深度学习表情识别方法 Download PDF

Info

Publication number
CN113869229B
CN113869229B CN202111153251.XA CN202111153251A CN113869229B CN 113869229 B CN113869229 B CN 113869229B CN 202111153251 A CN202111153251 A CN 202111153251A CN 113869229 B CN113869229 B CN 113869229B
Authority
CN
China
Prior art keywords
face
mouth
image
eyes
expression recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111153251.XA
Other languages
English (en)
Other versions
CN113869229A (zh
Inventor
李永杰
韦新栩
张显石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111153251.XA priority Critical patent/CN113869229B/zh
Publication of CN113869229A publication Critical patent/CN113869229A/zh
Application granted granted Critical
Publication of CN113869229B publication Critical patent/CN113869229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:S1、对待识别的人脸图像进行人脸检测;S2、计算双眼和嘴部的中心坐标;S3、截取眼部和嘴部三个区域;S4、将人脸区域图像输入VGG16卷积神经网络,将眼部和嘴部区域图像输入到另一个VGG16卷积神经网络,得到四个一维特征向量;S5、获取全局人脸图像和三个局部区域图像对应的权重系数;S6、将特征向量与权重系数相乘;S7、进行特征融合;S8、输入全连接层进行特征降维;S9、通过Softmax激活函数激活得到表情类别。本发明结合眼动和注意力实验,在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率。

Description

基于先验注意力机制引导的深度学习表情识别方法
技术领域
本发明属于计算机视觉和深度学习领域,特别涉及一种基于先验注意力机制引导的深度学习表情识别方法。
背景技术
表情识别在计算机视觉领域一直都是受到人们的关注。表情识别在医疗健康、交通驾驶和心理学等领域都有普遍的应用。传统表情识别方法提取传统表情特征进行识别,传统表情特征提取方法有Gabor小波变换、局部二值模式(LBP)、局部线性嵌入(LLE)、梯度方向直方图(HOG)等。随着深度学习的发展,出现了使用卷积神经网络提取表情特征进行表情识别的方法,并且效果相比起传统方法有了很大的提升。但是在人脸表情图像分辨率比较低、质量较差、背景干扰较大的情况下,卷积神经网络提取的特征的相似度较高,导致网络无法正确识别各种表情,进而导致表情识别的准确率降低。
大量眼动实验和注意力实验证明,当人类在识别进行人脸识别或者表情识别等任务的时候,会将更多的注意力关注到人的眼睛和嘴巴等部位。这是因为人类的注意力资源是有限的,在进行视觉任务的时候,人类会将我们更加感兴趣的、包含更多信息的区域。计算机的计算资源同样是有限的,让计算机拥有人类的注意力机制,会大大提高计算机视觉任务的准确率。
发明内容
本发明的目的在于克服现有技术的不足,提供一种结合眼动和注意力实验,让神经网络模拟人类在进行表情识别任务时的注意力机制,在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率的基于先验注意力机制引导的深度学习表情识别方法。
本发明的目的是通过以下技术方案来实现的:基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:
S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;
S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;
S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域;
S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征,输出一个全局的一维特征向量;将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中,分别输出三个局部的一维特征向量,最终得到四个一维特征向量;
S5、通过预先进行的眼动和注意力实验,获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数;
S6、将每个特征向量与其对应的权重系数相乘;
S7、进行特征融合,将相乘后的四个一维特征向量进行拼接操作,得到一个更大的一维向量;
S8、将S7中得到的特征向量输入全连接层进行特征降维;
S9、通过Softmax激活函数激活得到对应表情类别。
进一步地,所述步骤S3中具体实现方法为:将S1中获取的人脸区域图像Resize为96x96像素大小,通过S3获取的三个中心坐标,将左右眼和嘴部区域从人脸区域截取出来,每个部分截取的大小为36x36。
进一步地,所述步骤S5具体实现方法为:
S51、通过预先进行的眼动和注意力实验,记录下眼动注视点分布图和眼动注视区域热图;
S52、将包含注视点的人脸表情图片Resize成为96x96,统计整个人脸表情图像注视点的个数,然后按照S3的方法截取左右眼和嘴巴三个区域;
S53、分别计算整个人脸表情图片及截取出来的左右眼和嘴巴四个区域的相对注视点分布比例系数,作为对应的特征向量的权重系数,计算方式为:
人脸区域:
Figure GDA0004163748380000021
左眼区域:
Figure GDA0004163748380000022
右眼区域:
Figure GDA0004163748380000023
嘴部区域:
Figure GDA0004163748380000024
本发明的有益效果是:本发明结合眼动和注意力实验,让神经网络模拟人类在进行表情识别任务时的注意力机制,让神经网络在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率。
附图说明
图1为本发明的全局-局部CNN表情识别方法的流程图;
图2为本发明的VGG16卷积神经网络结构示意图;
图3为本发明的眼动仪记录下的被试的眼动注视点分布图和眼动注视区域热图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:
S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;待识别的图像可以使用国际中一些人脸表情公开数据集,比如FER2013、CK+、TFD和Jaffe等,或者采用摄像头获取图像。人脸检测的方法是使用Dlib库的get_frontal_face_detector()函数获取Dlib库内置的人脸检测器模型,可以检测到人脸并获取人脸相对于屏幕所在位置的四个坐标点,由这四个坐标点可以确定一个矩形检测框。
S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;
S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域;具体实现方法为:将S1中获取的人脸区域图像Resize为96x96像素大小,通过S3获取的三个中心坐标,将左右眼和嘴部区域从人脸区域截取出来,每个部分截取的大小为36x36。
S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征,输出一个维度为1x512的全局一维特征向量W1i;将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中,分别输出三个维度为1x512的局部一维特征向量W2i、W3i、W4i,最终得到四个一维特征向量,具体过程如图2所示。
S5、通过预先进行的眼动和注意力实验,获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数;
具体实现方法为:
S51、通过预先进行的眼动和注意力实验,眼动和注意力实验的实验设备为一台头戴式眼动仪。我们邀请不同被试进行眼动实验,要求被试观看多张不同表情的人脸图片,然后要求在规定时间内识别出图片的表情类型。在实验的过程中,使用眼动仪记录下眼动注视点分布图;如图3所示。
S52、将人脸图像Resize成为96x96像素大小,统计整个人脸表情图像注视点的个数,然后按照S3的方法截取左右眼和嘴巴三个区域;
S53、分别计算整个人脸表情图片及截取出来的左右眼和嘴巴四个区域的相对注视点分布比例系数,作为对应的特征向量的权重系数,计算方式为:
人脸区域:
Figure GDA0004163748380000031
左眼区域:
Figure GDA0004163748380000032
右眼区域:
Figure GDA0004163748380000033
嘴部区域:
Figure GDA0004163748380000034
本实施例通过实验得到λ1∶λ2∶λ3∶λ4=0.5∶0.8∶0.8∶0.8。
这四个系数分别作为四个区域的特征向量的权重系数,特征向量权重系数大的区域,网络在训练时将会更多地关注这部分区域,特征向量权重系数小的区域,网络在训练时将会更少地关注这部分区域。通过注意力权重的分配,可以让神经网络模拟人的注意力机制,提高识别的准确率。
S6、将每个特征向量与其对应的权重系数相乘;
S7、进行特征融合,将相乘后的四个一维特征向量进行拼接操作,得到一个更大的一维向量;本实施例的四个一维特征向量进行拼接处理后,得到一个维度为1x2048的特征向量;
S8、将S7中得到的特征向量输入全连接层进行特征降维;如图2所示,将拼接之后的1x2048维特征向量输入到第一个全连接层中,输出的特征向量被降维到1x512维,再将这个特征向量输入到第二个全连接层中,输出的特征向量降维到1x256维;
S9、将得到的维度为1x256的特征向量通过Softmax激活函数激活得到对应表情类别。
本发明在CK+、JAFFE和TFD数据集上进行了消融实验,通过大量实验结果证明,使用了注意力权重系数的表情识别准确率>未使用注意力权重系数的表情识别准确率>只使用全局人脸表情的表情识别准确率。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.基于先验注意力机制引导的深度学习表情识别方法,其特征在于,包括以下步骤:
S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;
S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;
S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域;
S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征,输出一个全局的一维特征向量;将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中,分别输出三个局部的一维特征向量,最终得到四个一维特征向量;
S5、通过预先进行的眼动和注意力实验,获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数;
S6、将每个特征向量与其对应的权重系数相乘;
S7、进行特征融合,将相乘后的四个一维特征向量进行拼接操作,得到一个更大的一维向量;
S8、将S7中得到的特征向量输入全连接层进行特征降维;
S9、通过Softmax激活函数激活得到对应表情类别。
2.根据权利要求1所述的基于先验注意力机制引导的深度学习表情识别方法,其特征在于,所述步骤S3中具体实现方法为:将S1中获取的人脸区域图像Resize为96x96像素大小,通过S3获取的三个中心坐标,将左右眼和嘴部区域从人脸区域截取出来,每个部分截取的大小为36x36。
3.根据权利要求1所述的基于先验注意力机制引导的深度学习表情识别方法,其特征在于,所述步骤S5具体实现方法为:
S51、通过预先进行的眼动和注意力实验,记录下眼动注视点分布图;
S52、将人脸图像Resize成为96x96像素大小,统计整个人脸表情图像注视点的个数,然后按照S3的方法截取左右眼和嘴巴三个区域;
S53、分别计算整个人脸表情图片及截取出来的左右眼和嘴巴四个区域的相对注视点分布比例系数,作为对应的特征向量的权重系数,计算方式为:
人脸区域:
Figure FDA0004163748340000011
左眼区域:
Figure FDA0004163748340000012
右眼区域:
Figure FDA0004163748340000013
嘴部区域:
Figure FDA0004163748340000014
CN202111153251.XA 2021-09-29 2021-09-29 基于先验注意力机制引导的深度学习表情识别方法 Active CN113869229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111153251.XA CN113869229B (zh) 2021-09-29 2021-09-29 基于先验注意力机制引导的深度学习表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111153251.XA CN113869229B (zh) 2021-09-29 2021-09-29 基于先验注意力机制引导的深度学习表情识别方法

Publications (2)

Publication Number Publication Date
CN113869229A CN113869229A (zh) 2021-12-31
CN113869229B true CN113869229B (zh) 2023-05-09

Family

ID=79000672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111153251.XA Active CN113869229B (zh) 2021-09-29 2021-09-29 基于先验注意力机制引导的深度学习表情识别方法

Country Status (1)

Country Link
CN (1) CN113869229B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887386B (zh) * 2021-09-29 2023-04-28 电子科技大学 基于深度学习和机器学习的多特征融合的疲劳检测方法
CN114582002A (zh) * 2022-04-18 2022-06-03 华南理工大学 一种结合注意力模块与二阶池化机制的人脸表情识别方法
CN114898447B (zh) * 2022-07-13 2022-10-11 北京科技大学 一种基于自注意力机制的个性化注视点检测方法及装置
CN115346262A (zh) * 2022-08-23 2022-11-15 北京字跳网络技术有限公司 一种表情驱动参数的确定方法、装置、设备及存储介质
CN116912924B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 一种目标图像识别方法和装置
CN117153403A (zh) * 2023-09-13 2023-12-01 安徽爱学堂教育科技有限公司 基于微表情与身体指标的心理健康评价方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868694A (zh) * 2016-03-24 2016-08-17 中国地质大学(武汉) 基于面部表情和眼球动作的双模态情感识别方法及系统
CN106127196A (zh) * 2016-09-14 2016-11-16 河北工业大学 基于动态纹理特征的人脸表情的分类与识别方法
CN106980848A (zh) * 2017-05-11 2017-07-25 杭州电子科技大学 基于曲波变换和稀疏学习的人脸表情识别方法
CN107256332A (zh) * 2017-05-24 2017-10-17 上海交通大学 基于眼动数据的脑电实验评估系统及方法
CN109344693A (zh) * 2018-08-13 2019-02-15 华南理工大学 一种基于深度学习的人脸多区域融合表情识别方法
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110689599A (zh) * 2019-09-10 2020-01-14 上海大学 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111507224A (zh) * 2020-04-09 2020-08-07 河海大学常州校区 一种基于网络剪枝的cnn人脸表情识别显著性分析方法
CN112733772A (zh) * 2021-01-18 2021-04-30 浙江大学 仓储拣选任务中的实时认知负荷与疲劳度检测方法与系统
WO2021127916A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 脸部情感识别方法、智能装置和计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868694A (zh) * 2016-03-24 2016-08-17 中国地质大学(武汉) 基于面部表情和眼球动作的双模态情感识别方法及系统
CN106127196A (zh) * 2016-09-14 2016-11-16 河北工业大学 基于动态纹理特征的人脸表情的分类与识别方法
CN106980848A (zh) * 2017-05-11 2017-07-25 杭州电子科技大学 基于曲波变换和稀疏学习的人脸表情识别方法
CN107256332A (zh) * 2017-05-24 2017-10-17 上海交通大学 基于眼动数据的脑电实验评估系统及方法
CN109344693A (zh) * 2018-08-13 2019-02-15 华南理工大学 一种基于深度学习的人脸多区域融合表情识别方法
CN109800434A (zh) * 2019-01-25 2019-05-24 陕西师范大学 基于眼动注意力的抽象文本标题生成方法
CN110689599A (zh) * 2019-09-10 2020-01-14 上海大学 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
WO2021127916A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 脸部情感识别方法、智能装置和计算机可读存储介质
CN111507224A (zh) * 2020-04-09 2020-08-07 河海大学常州校区 一种基于网络剪枝的cnn人脸表情识别显著性分析方法
CN112733772A (zh) * 2021-01-18 2021-04-30 浙江大学 仓储拣选任务中的实时认知负荷与疲劳度检测方法与系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
3~6岁自闭症儿童面部表情识别的眼动实验;兰继军 等;中国健康心理学杂志;第25卷(第06期);905-909 *
Attention mechanism-based CNN for facial expression recognition;Jing Li 等;Neurocomputing;第411卷;340-350 *
孤独症谱系障碍儿童情绪面孔识别的眼动轨迹;樊越波 等;中国儿童保健杂志;第24卷(第06期);590-593 *
深度人脸表情识别研究进展;姜月武 等;智能计算机与应用;第11卷(第06期);43-50 *
特征块权重化的面部表情识别研究;江渊广 等;工业控制计算机;第31卷(第02期);94-95+98 *

Also Published As

Publication number Publication date
CN113869229A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN113869229B (zh) 基于先验注意力机制引导的深度学习表情识别方法
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
Zhou et al. Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network
Han et al. Two-stage learning to predict human eye fixations via SDAEs
CN112307958A (zh) 基于时空外观运动注意力网络的微表情识别方法
WO2020103700A1 (zh) 一种基于微表情的图像识别方法、装置以及相关设备
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
Liang et al. A convolution-transformer dual branch network for head-pose and occlusion facial expression recognition
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN109325408A (zh) 一种手势判断方法及存储介质
CN111445496B (zh) 一种水下图像识别跟踪系统及方法
Mosayyebi et al. Gender recognition in masked facial images using EfficientNet and transfer learning approach
CN110826534A (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
Reddi et al. CNN Implementing Transfer Learning for Facial Emotion Recognition
CN112580395A (zh) 基于深度信息的3d人脸活体识别方法、系统、设备及介质
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
Bindhu et al. Analytical study on digital image processing applications
Sui et al. AFNet-M: Adaptive Fusion Network with Masks for 2D+ 3D Facial Expression Recognition
Datta et al. Eye gaze detection based on computational visual perception and facial landmarks
Bartol et al. Can Human Sex Be Learned Using Only 2D Body Keypoint Estimations?
CN112016410B (zh) 一种微表情识别方法、存储介质及系统
Hiremani et al. Validating Machine Vision Competency Against Human Vision
Wei et al. Spontaneous smile intensity estimation by fusing saliency maps and convolutional neural networks
Wimmer et al. Recognizing facial expressions using model-based image interpretation
CN114863545B (zh) 基于DeepLabCut的自动眨眼检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant