CN113869229B

CN113869229B - 基于先验注意力机制引导的深度学习表情识别方法

Info

Publication number: CN113869229B
Application number: CN202111153251.XA
Authority: CN
Inventors: 李永杰; 韦新栩; 张显石
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-05-09
Anticipated expiration: 2041-09-29
Also published as: CN113869229A

Abstract

本发明公开了一种基于先验注意力机制引导的深度学习表情识别方法，包括以下步骤：S1、对待识别的人脸图像进行人脸检测；S2、计算双眼和嘴部的中心坐标；S3、截取眼部和嘴部三个区域；S4、将人脸区域图像输入VGG16卷积神经网络，将眼部和嘴部区域图像输入到另一个VGG16卷积神经网络，得到四个一维特征向量；S5、获取全局人脸图像和三个局部区域图像对应的权重系数；S6、将特征向量与权重系数相乘；S7、进行特征融合；S8、输入全连接层进行特征降维；S9、通过Softmax激活函数激活得到表情类别。本发明结合眼动和注意力实验，在训练表情识别模型的时候，将更多的注意力放到特征更加丰富的眼部和嘴部区域，从而提高表情识别的准确率。

Description

基于先验注意力机制引导的深度学习表情识别方法

技术领域

本发明属于计算机视觉和深度学习领域，特别涉及一种基于先验注意力机制引导的深度学习表情识别方法。

背景技术

表情识别在计算机视觉领域一直都是受到人们的关注。表情识别在医疗健康、交通驾驶和心理学等领域都有普遍的应用。传统表情识别方法提取传统表情特征进行识别，传统表情特征提取方法有Gabor小波变换、局部二值模式(LBP)、局部线性嵌入(LLE)、梯度方向直方图(HOG)等。随着深度学习的发展，出现了使用卷积神经网络提取表情特征进行表情识别的方法，并且效果相比起传统方法有了很大的提升。但是在人脸表情图像分辨率比较低、质量较差、背景干扰较大的情况下，卷积神经网络提取的特征的相似度较高，导致网络无法正确识别各种表情，进而导致表情识别的准确率降低。

大量眼动实验和注意力实验证明，当人类在识别进行人脸识别或者表情识别等任务的时候，会将更多的注意力关注到人的眼睛和嘴巴等部位。这是因为人类的注意力资源是有限的，在进行视觉任务的时候，人类会将我们更加感兴趣的、包含更多信息的区域。计算机的计算资源同样是有限的，让计算机拥有人类的注意力机制，会大大提高计算机视觉任务的准确率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合眼动和注意力实验，让神经网络模拟人类在进行表情识别任务时的注意力机制，在训练表情识别模型的时候，将更多的注意力放到特征更加丰富的眼部和嘴部区域，从而提高表情识别的准确率的基于先验注意力机制引导的深度学习表情识别方法。

本发明的目的是通过以下技术方案来实现的：基于先验注意力机制引导的深度学习表情识别方法，包括以下步骤：

S1、对待识别的人脸图像进行人脸检测，获取人脸区域图像；

S2、对获取的人脸区域图像进行人脸关键点检测，计算双眼和嘴部的中心坐标；

S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域；

S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征，输出一个全局的一维特征向量；将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中，分别输出三个局部的一维特征向量，最终得到四个一维特征向量；

S5、通过预先进行的眼动和注意力实验，获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数；

S6、将每个特征向量与其对应的权重系数相乘；

S7、进行特征融合，将相乘后的四个一维特征向量进行拼接操作，得到一个更大的一维向量；

S8、将S7中得到的特征向量输入全连接层进行特征降维；

S9、通过Softmax激活函数激活得到对应表情类别。

进一步地，所述步骤S3中具体实现方法为：将S1中获取的人脸区域图像Resize为96x96像素大小，通过S3获取的三个中心坐标，将左右眼和嘴部区域从人脸区域截取出来，每个部分截取的大小为36x36。

进一步地，所述步骤S5具体实现方法为：

S51、通过预先进行的眼动和注意力实验，记录下眼动注视点分布图和眼动注视区域热图；

S52、将包含注视点的人脸表情图片Resize成为96x96，统计整个人脸表情图像注视点的个数，然后按照S3的方法截取左右眼和嘴巴三个区域；

S53、分别计算整个人脸表情图片及截取出来的左右眼和嘴巴四个区域的相对注视点分布比例系数，作为对应的特征向量的权重系数，计算方式为：

人脸区域：

左眼区域：

右眼区域：

嘴部区域：

本发明的有益效果是：本发明结合眼动和注意力实验，让神经网络模拟人类在进行表情识别任务时的注意力机制，让神经网络在训练表情识别模型的时候，将更多的注意力放到特征更加丰富的眼部和嘴部区域，从而提高表情识别的准确率。

附图说明

图1为本发明的全局-局部CNN表情识别方法的流程图；

图2为本发明的VGG16卷积神经网络结构示意图；

图3为本发明的眼动仪记录下的被试的眼动注视点分布图和眼动注视区域热图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于先验注意力机制引导的深度学习表情识别方法，包括以下步骤：

S1、对待识别的人脸图像进行人脸检测，获取人脸区域图像；待识别的图像可以使用国际中一些人脸表情公开数据集，比如FER2013、CK+、TFD和Jaffe等，或者采用摄像头获取图像。人脸检测的方法是使用Dlib库的get_frontal_face_detector()函数获取Dlib库内置的人脸检测器模型，可以检测到人脸并获取人脸相对于屏幕所在位置的四个坐标点，由这四个坐标点可以确定一个矩形检测框。

S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域；具体实现方法为：将S1中获取的人脸区域图像Resize为96x96像素大小，通过S3获取的三个中心坐标，将左右眼和嘴部区域从人脸区域截取出来，每个部分截取的大小为36x36。

S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征，输出一个维度为1x512的全局一维特征向量W_1i；将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中，分别输出三个维度为1x512的局部一维特征向量W_2i、W_3i、W_4i，最终得到四个一维特征向量，具体过程如图2所示。

具体实现方法为：

S51、通过预先进行的眼动和注意力实验，眼动和注意力实验的实验设备为一台头戴式眼动仪。我们邀请不同被试进行眼动实验，要求被试观看多张不同表情的人脸图片，然后要求在规定时间内识别出图片的表情类型。在实验的过程中，使用眼动仪记录下眼动注视点分布图；如图3所示。

S52、将人脸图像Resize成为96x96像素大小，统计整个人脸表情图像注视点的个数，然后按照S3的方法截取左右眼和嘴巴三个区域；

人脸区域：

左眼区域：

右眼区域：

嘴部区域：

本实施例通过实验得到λ1∶λ2∶λ3∶λ4＝0.5∶0.8∶0.8∶0.8。

这四个系数分别作为四个区域的特征向量的权重系数，特征向量权重系数大的区域，网络在训练时将会更多地关注这部分区域，特征向量权重系数小的区域，网络在训练时将会更少地关注这部分区域。通过注意力权重的分配，可以让神经网络模拟人的注意力机制，提高识别的准确率。

S6、将每个特征向量与其对应的权重系数相乘；

S7、进行特征融合，将相乘后的四个一维特征向量进行拼接操作，得到一个更大的一维向量；本实施例的四个一维特征向量进行拼接处理后，得到一个维度为1x2048的特征向量；

S8、将S7中得到的特征向量输入全连接层进行特征降维；如图2所示，将拼接之后的1x2048维特征向量输入到第一个全连接层中，输出的特征向量被降维到1x512维，再将这个特征向量输入到第二个全连接层中，输出的特征向量降维到1x256维；

S9、将得到的维度为1x256的特征向量通过Softmax激活函数激活得到对应表情类别。

本发明在CK+、JAFFE和TFD数据集上进行了消融实验，通过大量实验结果证明，使用了注意力权重系数的表情识别准确率>未使用注意力权重系数的表情识别准确率>只使用全局人脸表情的表情识别准确率。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于先验注意力机制引导的深度学习表情识别方法，其特征在于，包括以下步骤：

S6、将每个特征向量与其对应的权重系数相乘；

S8、将S7中得到的特征向量输入全连接层进行特征降维；

S9、通过Softmax激活函数激活得到对应表情类别。

2.根据权利要求1所述的基于先验注意力机制引导的深度学习表情识别方法，其特征在于，所述步骤S3中具体实现方法为：将S1中获取的人脸区域图像Resize为96x96像素大小，通过S3获取的三个中心坐标，将左右眼和嘴部区域从人脸区域截取出来，每个部分截取的大小为36x36。

3.根据权利要求1所述的基于先验注意力机制引导的深度学习表情识别方法，其特征在于，所述步骤S5具体实现方法为：

S51、通过预先进行的眼动和注意力实验，记录下眼动注视点分布图；

人脸区域：

左眼区域：

右眼区域：

嘴部区域：