CN115410258A

CN115410258A - 基于注意力图像的人脸表情识别方法

Info

Publication number: CN115410258A
Application number: CN202211059275.3A
Authority: CN
Inventors: 毛莎莎; 闫丹丹; 石光辉; 缑水平; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-29

Abstract

本发明公开了一种基于注意力图像的人脸表情识别方法，主要解决现有技术在挖掘人脸关键区域时挖掘的人脸关键区域不准确和挖掘的人脸关键区域较为粗糙的问题。本发明为每张人脸表情图像生成与其分辨率相同且标签也相同的注意力图像，用于挖掘人脸的关键区域。本发明利用人脸表情图像及其对应的标签、注意力图像及其对应的标签共同训练卷积神经网络。本发明训练好的网络更加关注人脸表情图像中的关键区域像素，可以实现在像素级别上对人脸关键区域的自动定位，提高了人脸表情图像的识别准确率。

Description

基于注意力图像的人脸表情识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中一种基于注意力图像的人脸表情识别方法。本发明可应用于对智慧教育、辅助医疗、车载安全等诸多复杂场景中人脸的表情类别进行识别。

背景技术

人脸表情识别是指利用计算机提取人脸表情图像特征，并结合人类已有的先验知识进行特征建模，挖掘人脸表情图像与情感之间的关系，从而识别人脸表情的类别。人脸表情能够有效表达个人的情绪，是人类情绪的直观反应。因此，人脸表情识别技术在智慧教育、辅助医疗、车载安全等人工智能领域均具有广泛的应用。由于人脸表情识别任务中存在类内差异大及类间差异小的特点，人脸表情识别任务的性能并不是很理想，这需要网络能够很好地挖掘人脸的关键区域。

Yong Li等人在其发表的论文“Occlusion Aware Facial ExpressionRecognition Using CNN With Attention Mechanism”(IEEE Transactions on ImageProcessing:2439–2450,2019)中提出了一种基于注意力机制的卷积神经网络模型用于感知人脸的遮挡区域并专注于最具辨别力的未遮挡区域。该方法的实施步骤是：收集人脸表情图像并对其进行人脸关键点检测；将人脸表情图像作为输入数据并使用卷积神经网络对其进行特征提取，生成相应的特征图；对特征图进行全局特征编码并通过注意力网络对其进行重要性权重学习；根据人脸关键点对特征图进行区域分解得到24个局部块，对每个局部块进行局部特征编码并通过注意力网络对其进行重要性权重学习；对得到的局部特征及全局特征根据其对应的重要性权重进行特征融合并输入到分类器中进行人脸表情类别的识别。该方法存在的不足之处是：人脸关键区域的挖掘依赖于人脸关键点的检测，若人脸关键点的检测效果不佳，则会导致挖掘的人脸关键区域不够准确，容易对人脸图像的表情类别做出误判。

哈尔滨理工大学在其申请的专利文献“一种基于注意力机制的人脸表情识别方法”(申请号：202110663990.7，申请公布号：CN 113392766 A)中公开一种基于注意力机制的人脸表情识别方法。该方法的实现步骤是：收集数据集并对数据集进行预处理；对每幅人脸表情图像标注人脸特征关键点；对图像进行关键位置裁剪并将裁剪的图像缩放；将得到的图像以及整张人脸表情图像输入到神经网络中进行局部特征与全局特征的识别和获取；对得到的特征进行特征融合并输入到分类器中进行人脸表情类别的识别。该方法存在的不足之处是：该方法通过将人脸图像裁剪为块来挖掘人脸的关键区域，关键区域的挖掘是以图像块而不是单个的像素点为单位，导致挖掘的关键区域较为粗糙，影响人脸表情图像的识别准确率。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于注意力图像的人脸表情识别方法，用于解决现有技术在挖掘人脸关键区域时挖掘的人脸关键区域不够准确，以及挖掘的人脸关键区域较为粗糙的问题。

为实现上述目的，本发明的思路是，为每张人脸表情图像生成与其分辨率相同且标签也相同的注意力图像，注意力图像仅包含人脸表情图像的关键区域像素，使用注意力图像来挖掘人脸的关键区域，可以克服现有技术在挖掘人脸关键区域时，因对人脸关键点检测技术的依赖，而导致挖掘的人脸关键区域不够准确的问题，提高人脸表情图像的识别准确率。本发明利用人脸表情图像及其对应的标签、图像的注意力图像及其对应的标签共同训练卷积神经网络，使得网络更加关注人脸表情图像中的关键区域像素，实现在像素级别上对人脸关键区域的自动定位，解决了现有技术中挖掘的人脸关键区域较为粗糙的问题。

实现本发明目的的具体步骤如下：

步骤1，生成训练集：

步骤1.1，采集至少10000张人脸表情图像组成样本集，样本集中至少包括3种不同的人脸表情的情绪类别，每种情绪类别至少采集280张图像；

步骤1.2，采用224×224的采样分辨率，对样本集中的每张图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的所有人脸表情图像及其对应的标签组成训练集；

步骤2，搭建一个卷积神经网络并设置卷积神经网络的参数；

步骤3，利用卷积神经网络为训练集中的每张人脸表情图像生成对应的注意力图像：

步骤3.1，将从训练集中随机选取的一张人脸表情图像输入到卷积神经网络中，输出所选图像属于真实标签的概率值以及所选图像的特征图；

步骤3.2，按照下式，计算所选图像的特征图中每个通道的权重：

其中，a_k表示所选图像的特征图中第k个通道A^k的权重，m和n分别表示通道A^k在垂直高度和水平宽度方向上的元素总数，i和j分别表示通道A^k在垂直高度和水平宽度方向上的元素序号，h表示将所选图像输入到卷积神经网络后输出的属于真实标签的概率值；

步骤3.3，对特征图中的所有通道加权求和，得到所选图像的加权特征图；

步骤3.4，计算加权特征图中所有元素的均值，将加权特征图中小于或等于均值的元素置为0，得到所选图像的重要性矩阵；

步骤3.5，对重要性矩阵进行归一化处理，将归一化后的重要性矩阵缩放至与所选图像相同尺寸，得到所选图像的注意力矩阵；

步骤3.6，将所选图像与其注意力矩阵点乘，得到所选图像的注意力图像，并将所选图像的标签作为注意力图像的标签；

步骤3.7，判断是否选完训练集中所有的人脸表情图像，若是，则执行步骤4，否则，执行步骤3.1；

步骤4，训练卷积神经网络：

按照批次将训练集中的图像及其对应的标签、图像的注意力图像及其对应的标签依次输入到卷积神经网络中，使用Adam优化器优化训练过程，通过梯度下降算法，迭代更新卷积神经网络中各层的参数，直至卷积神经网络的交叉熵损失函数收敛为止，得到训练好的卷积神经网络；

步骤5，识别人脸图像中的表情类别：

采用224×224的采样分辨率，对每张待识别人脸图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的图像输入到训练好的卷积神经网络中，输出该张人脸图像的表情类别。

本发明与现有技术相比，具有以下优点：

第一，本发明为每张人脸表情图像生成与其分辨率相同且标签也相同的注意力图像，用于挖掘人脸的关键区域，克服了现有技术对挖掘的人脸关键区域不够准确的不足，使得本发明提高了人脸表情图像的识别准确率。

第二，本发明利用人脸表情图像及其对应的标签、注意力图像及其对应的标签共同训练卷积神经网络，解决了现有技术中挖掘的人脸关键区域较为粗糙的缺陷，使得本发明训练好的网络更加关注人脸表情图像中的关键区域像素，实现在像素级别上对人脸关键区域的自动定位。

附图说明

图1为本发明的实现流程图；

图2为本发明生成的注意力图像的效果图。

具体实施方式

以下结合附图和实施例，对本发明做进一步的详细描述。

参照图1和实施例，对本发明的实现步骤做进一步的详细描述。

步骤1，生成训练集和测试集。

步骤1.1，本发明的实施例是从野外人脸表情数据集RAF-DB中采集标注为愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性共七种人脸表情图像，每种情绪类别至少采集350张，共采集15539张人脸表情图像组成样本集。

步骤1.2，使用224×224的采样分辨率，对样本集中的每张图像进行双线性采样，对采样后的图像进行归一化处理，得到归一化后的样本集。

步骤1.3，将从归一化后的样本集中随机选取的12271张人脸表情图像及其对应的标签组成训练集，每种情绪类别至少280张；将剩余的3068张人脸表情图像及其对应的标签组成测试集，每种情绪类别至少70张。

步骤2，搭建一个卷积神经网络并设置卷积神经网络的参数。

步骤2.1，搭建一个卷积神经网络，其结构依次为：输入层，第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层，展平层，第一全连接层，随机失活层，第二全连接层，输出层。

步骤2.2，设置卷积神经网络的参数如下：

将输入层的维度大小设置为b×224×224×3，其中，b表示卷积神经网络一次输入所选取的样本数，在本发明实施例中，训练阶段的b设置为128；

将第一至第十三卷积层的卷积核个数依次设置为64，64，128，128，256，256，256，512，512，512，512，512，512，卷积核尺寸均设置为3×3，步长均设置为1，激活函数均采用线性整流函数；

将第一至第五池化层的池化窗口均设置为2×2，步长均设置为2；

展平层采用flatten函数将输入的矩阵拉伸成一个向量；

将第一全连接层的节点数量设置为512，激活函数采用带泄露的线性整流函数；将第二全连接层的节点数量设置为7；

随机失活层采用dropout函数将每个神经元以概率p置为0，在本发明实施例中，p＝0.3；

在训练阶段，输出层的输出结果由输入图像属于真实标签的概率值和输入图像的特征图组成。在测试阶段，输出层仅输出输入图像的表情类别预测结果。

步骤3，利用卷积神经网络为训练集中的每张人脸表情图像生成对应的注意力图像。

步骤3.1，将从训练集中随机选取的一张人脸表情图像输入到卷积神经网络中，输出所选图像属于真实标签的概率值以及所选图像的特征图。

其中，ak表示所选图像的特征图中第k个通道Ak的权重，m和n分别表示通道Ak在垂直高度和水平宽度方向上的元素总数，i和j分别表示通道Ak在垂直高度和水平宽度方向上的元素序号，k表示将所选图像输入到卷积神经网络后输出的属于真实标签的概率值，在本发明实施例中，m＝n＝7。

步骤3.3，按照下式，对特征图中的所有通道加权求和，得到所选图像的加权特征图：

其中，Map表示所选图像的加权特征图，D表示特征图的通道总数，k表示特征图的通道序号，ak表示特征图中第k个通道Ak的权重，在本发明实施例中，D＝512。

步骤3.4，计算加权特征图中所有元素的均值，将加权特征图中小于或等于均值的元素置为0，得到所选图像的重要性矩阵。

步骤3.5，对重要性矩阵进行归一化处理，将归一化后的重要性矩阵缩放至与所选图像相同尺寸，得到所选图像的注意力矩阵。

步骤3.6，将所选图像与其注意力矩阵点乘，得到所选图像的注意力图像，并令注意力图像的标签与所选图像的标签相同。

步骤3.7，判断是否选完训练集中所有的人脸表情图像，若是，则执行步骤4，否则，执行步骤3.1。

步骤4，训练卷积神经网络。

按照批次将训练集中的图像及其对应的标签、图像的注意力图像及其对应的标签，依次输入到卷积神经网络中，使用Adam优化器优化训练过程，通过梯度下降算法，迭代更新卷积神经网络中各层的参数，直至卷积神经网络的交叉熵损失函数收敛为止，得到训练好的卷积神经网络。

在本发明实施例中，训练集按每批次64张图像进行划分。

所述交叉熵损失函数如下：

其中，log表示以10为底的对数操作，h_i表示训练集中第i张图像经过卷积神经网络输出的属于真实标签的概率值，

表示训练集中第i张图像对应的注意力图像经过卷积神经网络输出的属于真实标签的概率值。

步骤5，识别人脸图像中的表情类别。

将测试集按照每批次64张图像进行划分，按批次输入到训练好的卷积神经网络中，得到每张人脸图像对应的表情类别。

本发明的效果可以通过下面的仿真得到进一步证明。

1.仿真实验条件。

本发明的仿真实验的硬件平台为：图形处理器为GeForce GTX 2080Ti GPU，显存11G。

本发明的仿真实验的软件平台为：Windows 10操作系统和python 3.6，TensorFlow深度学习开发框架。

本发明仿真实验的数据采集自两个野外人脸表情数据集，RAF-DB和AffectNet。

从野外人脸表情数据集RAF-DB中采集标注为愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性共七种人脸表情图像，每种情绪类别至少采集70张，共采集3068张人脸表情图像组成样本集；使用224×224的采样分辨率，对样本集中的每张图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的所有人脸表情图像及其对应的标签组成本发明仿真实验中RAF-DB数据集的测试集。

从野外人脸表情数据集AffectNet中采集标注为愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性共七种人脸表情图像，每种情绪类别均采集500张，共采集3500张人脸表情图像组成样本集；使用224×224的采样分辨率，对样本集中的每张图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的所有人脸表情图像及其对应的标签组成本发明仿真实验中AffectNet数据集的测试集。

2.仿真内容及其结果分析：

本发明的仿真实验1是利用本发明训练好的网络和现有技术训练好的网络，分别对仿真条件中的两个测试集中的人脸图像进行表情类别分类，获得每个方法的两个分类结果。

现有技术是指，Yong Li等人在其发表的论文“Occlusion Aware FacialExpression Recognition Using CNN WithAttention Mechanism”(IEEE Transactionson Image Processing:2439–2450,2019)中提出的一种基于注意力机制的卷积神经网络模型。

为了评价本发明仿真的效果，利用下述分类精度公式，分别对本发明仿真实验中每种方法的两个分类结果进行评价，其评价结果如表1所示。

表1.本发明与现有技术分类结果的精度对比表

数据集	现有技术(％)	本发明(％)
			1.RAF-DB	85.07	86.68
2.AffectNet	58.78	59.08

结合表1可以看出，本发明在RAF-DB和AffectNet测试集中的分类精度分别为86.68％和59.08％，均高于现有技术，证明本发明可以得到更好的人脸表情图像的分类精度。

下面参照图2，对本发明实施例中的一张训练图片分别利用训练前的卷积神经网络和训练好的卷积神经网络所生成的注意力图像作进一步的描述。

图2(a)为本发明实施例中的一张训练图片，图2(b)是利用训练前的卷积神经网络生成的与训练图片相同分辨率的注意力图像，图2(c)是利用训练好的卷积神经网络生成的与训练图片相同分辨率的注意力图像。

图2(b)和图2(c)中将像素点值从0至255之间的变化，通过颜色由黑到白进行表达。从视觉上观察图2(b)和图2(c)中的像素点，若像素点的颜色越接近黑色，则代表该像素点对应图2(a)中相应位置的像素点为非关键像素点；若像素点的颜色越接近白色，则代表该像素点对应图2(a)中相应位置的像素点为关键像素点。

结合图2(b)和图2(c)可以看出，图2(b)中对应图2(a)中面部动作变化较大的额头、眼角和嘴角等关键区域均接近黑色，说明图2(b)没有挖掘到图2(a)中的关键区域。而图2(c)中对应图2(a)中面部动作变化较大的额头、眼角和嘴角等关键区域均接近白色，说明图2(c)更好地挖掘出了图2(a)中的关键区域，证明了本发明所提出的基于注意力图像的人脸表情识别方法能够准确挖掘出人脸的关键区域。

Claims

1.一种基于注意力图像的人脸表情识别方法，其特征在于，利用卷积神经网络生成每张人脸表情图像对应的注意力图像，利用人脸表情图像及其注意力图像训练卷积神经网络；该方法的具体步骤包括如下：

步骤1，生成训练集：

步骤2，搭建一个卷积神经网络并设置卷积神经网络的参数；

步骤4，训练卷积神经网络：

步骤5，识别人脸图像中的表情类别：

2.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤2中所述卷积神经网络的结构依次为：输入层，第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层，展平层，第一全连接层，随机失活层，第二全连接层，输出层。

3.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤2中所述设置卷积神经网络的参数如下：

将输入层的维度大小设置为b×224×224×3，其中，b表示卷积神经网络一次输入所选取的样本数，b≥32；

展平层采用flatten函数将输入的矩阵拉伸成一个向量；

将第一全连接层的节点数量设置为512，激活函数采用带泄露的线性整流函数；

将第二全连接层的节点数量设置为n，n≥3且与训练集中的标签类别数相等；

随机失活层采用dropout函数将每个神经元以概率p置为0，0≤p<1。

4.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤3.3中所述的对特征图中的所有通道加权求和是由下述公式得到的：

其中，Map表示所选图像的加权特征图，D表示特征图的通道总数，k表示特征图的通道序号，a_k表示特征图中第k个通道A^k的权重。

5.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤4中所述的交叉熵损失函数L如下：