CN116884072A

CN116884072A - 一种基于多层级和多尺度注意机制的面部表情识别方法

Info

Publication number: CN116884072A
Application number: CN202310896839.7A
Authority: CN
Inventors: 殷昱煜; 朱晋林; 张新; 周丽; 李尤慧子
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-13
Also published as: GB202403086D0; GB202403110D0

Abstract

本发明公开了一种基于多层级和多尺度注意机制的面部表情识别方法，该方法首先将四个公共数据集拆分成为训练集、测试集和验证集。其次构建包含特征预提取模块、多层级注意模块和多尺度注意模块的面部表情识别模型，并对模型输入的数据集的图像进行人脸检测和对齐，以及随机图像增强。然后将处理好的训练集图像输入到构建好的面部表情识别模型中，利用交叉熵损失和限制中心损失对模型进行训练和优化。最后对测试集和验证集中的图像进行推理，得到相应的分类结果，识别表情。本发明增加了模型所提取特征的鲁棒性，提高模型输出特征的表达能力，进行准确的面部表情识别。

Description

一种基于多层级和多尺度注意机制的面部表情识别方法

技术领域

本发明涉及面部表情识别领域，尤其涉及一种基于多层级和多尺度注意机制的面部表情识别方法。

背景技术

面部表情是人际交往中最简单也是最自然的表达之一，它能够形象生动地表达人类的情感，在日常生活中发挥着重要的作用。面部表情识别是人工智能中一个重要的研究方向，在过去几十年里，由于面部表情识别在人机交互、数字娱乐、医疗保健和驾驶检测等行业的广泛应用，导致越来越多的人关注这个研究方向。

面部表情识别的目标是把一张图像所表达的情感准确的为类为快乐、惊讶、悲伤、厌恶、恐惧、愤怒、中性和轻蔑这几种基本情绪中的一种。传统的面部表情识别方法主要利用手工特征或浅层特征来对面部表情图像进行识别，由于面部表情类间的高相似性、面部遮挡和姿势变化的影响，导致传统的方法很难正确地识别图像所属的类别。虽然近些年来提出了很多先进的基于注意机制方法来提升面部表情识别的性能，但是，这些方法仍然会存在以下问题：

1.由于不同情绪的表现可能存在高度的相似性，而相同情绪的表现可能存在高度的差异性，这些图像只有通过额头的褶皱程度、眼睛的大小以及嘴角的闭合程度这些细节特征才能对其进行区分，而现有的方法很难让模型去关注到这些重要的细节特征。

2.当今大部分的面部表情识别模型都只利用了交叉熵损失作为最终的损失函数，而交叉熵损失只关注了预测分数与正确标签之间的差异，而忽视了与其他非正确标签的差异。

发明内容

针对以上问题，本发明提供一种基于多层级和多尺度注意机制的面部表情识别方法。首先，设计了多层级注意模块，该模块用来将特征预提取模块不同阶段提取出来的特征根据重要性赋予不同的权重；其次，设计了多尺度注意模块，该模块用来对深层特征进行多尺度融合，以提高深层特征的语义信息和表示能力；最后，设计了限制中心损失，该损失用来拉近同一类特征的距离，疏远不同类特征的距离，以提高不同类特征的差异性，并通过增加限制条件限制类内、类间距离，从而防止产生过大的损失值。

本发明解决技术问题所采取的技术方案为：

步骤1：将若干个公共数据集拆分成为训练集、测试集和验证集、在训练集，测试集和验证集中均包含7种基本表情图像若干张。

步骤2：构建面部表情识别模型，该模型包含特征预提取模块、多层级注意模块和多尺度注意模块。

步骤3：对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐，并将其裁剪为固定的大小。对模型输入的训练集随机抽取10％的图像进行图像增强，图像增强的操作如水平翻转、随机裁剪、随机去除、随机旋转等，用来防止模型过拟合。

步骤4：将经过步骤3处理好的训练集图像，输入到构建的面部表情识别模型中，利用交叉熵损失和限制中心损失对模型中可学习的参数进行训练和优化，直至训练到模型的准确度不再提升为止，具体训练过程包含以下子步骤：

步骤4.1：将步骤3处理好的图像输入到特征预提取模块中，其中特征预提取模块总共包含n个基本块，将特征预提取模块中每个基本块的输出特征图X_i作为特征预提取模块每个阶段输出的特征。

步骤4.2：通过多层级注意模块中的权重分配模块对前n-1个基本块输出的特征图根据重要性的不同分配不同的权重，在该模块中，首先利用平均池化层来对前n-1个基本块输出的特征图X_i的通道信息进行聚合，得到平均池化通道向量其次，经过全连接层和激活层对通道向量/>进行降维得到最终的权重α_i。其计算公式为：

其中，AvgPool代表平均池化操作；和/>分别代表ReLU激活函数和Sigmoid激活函数，/>和/>代表全连接层的参数，下标代表与第i个基本块对应，上标代表第几个全连接层或者激活层；/>和α_i分别代表第i个基本块输出特征对应的平均池化通道向量和权重。

步骤4.3：通过打平操作(将多维特征图展开成一维度)以及全连接层将前n-1个基本块输出的特征图映射到同一尺寸维度上得到特征图Z_i。其计算公式为：

Z_i＝f(X_i)w_i，

其中，f(*)代表打平操作，w_i代表全连接层的参数，Z_i代表第i个基本块输出的特征图进行重塑后得到的向量。

步骤4.4：将α_i与对应的Z_i相乘后相加，得到多层级注意模块的输出Y_out1。

其中n代表基本块的个数，在本方法的面部表情识别模型中，特征预提取模块包含4个基本块。

步骤4.5：由于SEBlock具有出色的通道聚合能力，采用由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成的SEBlock，对特征预提取模块第n个基本块的输出X_n进行通道维度上的加权，在该模块中，首先，利用平均池化层来对第n个基本块的输出X_n的通道信息进行聚合，得到平均池化通道向量其次，利用全连接层和激活层对进行升维后降维得到与/>尺寸一致的向量W；最后，将得到的W与X_n相乘得到S，从而实现了X_n在通道维度上的加权。

步骤4.6：利用多尺度注意模块中的多尺度融合模块来对特征图S进行多尺度融合，在该模块中，首先，将特征图S分别经过三个空洞卷积层、归一化层和激活层，得到对应的特征图D_j；其次，将得到的特征图D_j相加融合得到特征图D。其计算公式为：

D_j＝σ_j(BN_j(μ_j(S；j)))，

其中，σ_j代表ReLU激活函数，BN_j(*)代表归一化操作，μ_j(·；j)代表空洞卷积操作，j代表膨胀比。

步骤4.7：通过打平操作以及全连接层将特征图D映射到与Y_out1同一尺寸维度上得到多尺度注意模块最终的输出Y_out2。

步骤4.8：将Y_out1和Y_out2相加得到最终的特征输出Y。其计算公式为：

Y＝β₁Y_out1+β₂Y_out2，

其中，β₁和β₂为超参数，代表多层级注意模块的输出和多尺度注意模块的输出对于模型最终输出特征的贡献。

步骤4.9：构建损失函数，计算损失，并对面部表情识别模型进行优化，为了减少预测分数与真实标签之间的差距，本发明采用交叉熵损失L_c1。其计算公式为：

其中m代表每一个小批次mini-batch中的样本个数，k代表类别的个数，代表第h个样本对应的第g个类别的标签，/>代表第h个样本对应输出的第g个类别的预测分数。

为了拉近同一类特征的距离，疏远不同类特征的距离,，并限制损失值的大小，本发明设计了限制中心损失L_lc，其计算公式为：

其中Y_h代表第h个样本对应输出各类别的预测分数，c_h代表第h个样本对应类别的中心向量，表示L2范数的平方，c^g代表第g个类别对应的中心向量，γ₁、γ₂、ω₁、ω₂为超参数，γ₁和γ₂用来调节L_lc的大小，ω₁用来约束限制类内距离，ω₂用来约束限制类间距离，δ表示一个极小值，用来防止分母为0。

将上述损失函数相加得到总的损失L_total。

步骤5：对测试集和验证集中的图像进行推理，将经过步骤3处理好的训练集和测试集图像输入到模型中，得到相应的分类结果，识别表情，分类结果为厌恶、快乐、生气、害怕、惊讶、悲伤和中性这7种基本表情中的一种。

本发明网络架构由特征预提取模块、多层级注意模块和多尺度注意模块构成。特征预提取模块采用了多阶段提取特征的方式，使得模型最终提取出的特征既包含了浅层网络(前n-1个基本块)中的低级空间信息，又包含了深层网络(第n个基本块)中的高级语义信息，增加了模型所提取特征的鲁棒性；多层级注意模块作用在特征预提取模块的浅层基本块上，该模块用来将特征预提取模块浅层基本块提取出来的特征根据重要性赋予不同的权重，从而让模型去关注那些重要的细节特征；多尺度注意模块作用在特征预提取模块最深层基本块上，用来帮助模型更好地融合多尺度上下文信息，从而提高模型输出特征的表达能力；此外，本发明设计了限制中心损失，在中心损失函数的基础上通过惩罚不同类别的中心距离，拉远了不同类别的距离，并通过增加限制条件约束类内、类间距离，有效防止了过大损失值的产生，从而更好地优化模型，识别出精确的面部表情。

附图说明

图1为本发明基于多层级和多尺度注意机制的面部表情识别方法的流程图；

图2为本发明实例的整体网络架构示意图；

图3为本方法的多尺度注意模块和多层级注意模块在原始图像上的注意力可视化。

具体实施方式

本发明提出基于多层级和多尺度注意机制的面部表情识别方法。如图1所示，整体网络架构由特征预提取模块、多层级注意模块和多尺度注意模块构成。首先，利用特征预提取模块提取出输入图像的初步特征，根据研究表明，在卷积网络中，越深的卷积感受野越大，学到的语义特征更丰富，而越浅的卷积感受野越小，学到的几何特征更丰富(如外形、轮廓，边缘等)，因此在特征预提取模块采用了分阶段提取特征的方式，便于让模型捕获到更加全面的信息；然后，利用多层级注意模块对特征预提取模块的浅层特征进行进一步提取，并根据提取特征的重要性赋予不同的权重，并将得到的特征与对应的权重相乘后相加得到多层级注意模块的最终输出；接着，利用多尺度注意块对特征预提取模块最深层输出的特征进行多尺度融合，以提高深层特征的语义信息和表示能力，并将输出的特征与多层级注意模块最终的输出进行相加融合得到模型最终的输出；最后，利用交叉熵损失和限制中心损失来对原始标签、每个类别的中心向量以及模型最后的输出计算损失，该步骤只会在训练过程中使用，用来优化网络的整体参数，使得模型在后续的推理中预测出准确地分类分数。

下面结合附图以及具体实施方式对本发明作进一步的详细说明。

具体的，本发明是基于多层级和多尺度注意机制的面部表情识别方法，如图一所示，主要包括如下步骤：

步骤1：将Affect-Net、RAF-DB、FERPlus、SFEW2.0四个公共数据集拆分成为训练集、测试集和验证集，在训练集，测试集和验证集中均包含7种基本表情图像若干张。

其中RAF-DB是一个真实世界数据集，它包含3万张来自数千名不同国家和不同年龄段的人的面部表情图像，这些图像的遮挡范围，姿势变化，亮度都不受控制，而且每张图像都由大约40名标注者独立标注，将数据集划分为7种基本标签，共包含15339张图像(其中12271张图像作为训练集、3068张图像作为测试集)；FERPlus数据集由FER2013数据扩展出来，而FER2013数据集是由谷歌搜索引擎收集得到的大规模真实数据集，在FER2013数据集中，所有图像都已经过人脸对齐后裁剪成48x48，但是由于FER2013数据集中存在很多标记错误的图像，因此，FERPlus数据集对其进行拓展重标签，FERPlus数据集总共包含35887张图像(其中28709张图像作为训练集、3589张图像作为测试集、3589张图像作为验证集)；Affect-Net数据集是所有面部表情识别公共数据集中最大的一个数据集，它是由三个主要的搜索引擎收集而来，共包含287401张图像(其中283901张图像作为训练集、3500张图像作为测试集)；SFEW2.0数据集是从AFEW数据集中提取出来的，该数据涵盖了不受约束的面部表情、不同姿势的变化、不同年龄段范围、不同面部分辨率的图像，共包含1766张图像(其中958张图像作为训练集、372张图像作为测试集，436张图像作为验证集)。

步骤2：如图2所示，构建面部表情识别模型，该模型包含特征预提取模块、多层级注意模块和多尺度注意模块。

步骤3：对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐，并将其裁剪为固定的大小。对模型输入的训练集随机抽取10％的图像进行图像增强，图像增强操作如水平翻转、随机裁剪、随机去除、随机旋转等，用来防止模型过拟合。

步骤4：将步骤3处理好的训练集图像输入到构建好的面部表情识别模型中，利用交叉熵损失和限制中心损失对模型中可学习的参数进行训练和优化，直至训练到模型的准确度不再提升为止，具体训练过程包含以下子步骤：

步骤4.1：将步骤3处理好的图像输入到特征预提取模块中，其中特征预提取模块由ResNet-50构成，ResNet-50包含4个基本块，每个基本块分别包含3、4、6、3个Bottleneck，其中每个Bottleneck包含1个3x3的卷积以及2个1x1的卷积，当图像输入到特征预提取模块中，每经过一个基本块，特征图的空间尺度就会减半，通道数量就会加倍，将特征预提取模块中每个基本块的输出特征图X_i作为特征预提取模块每个阶段输出的特征。其计算公式为：

X_i＝r(X_i-1；θ_i)，

其中，r(·)表示卷积和激活操作，θ_i表示特征预提取模块中每个基本块中的参数，i表示第几个基本块，从1开始。

步骤4.2：通过权重分配模块对特征预提取模块前三个基本块输出的特征图根据重要性的不同分配不同的权重，该模块由平均池化层、全连接层以及激活层构成，在该模块中，首先利用平均池化层来对前n-1个基本块输出的特征图X_i的通道信息进行聚合，得到平均池化通道向量其次，经过两次全连接层和激活层对通道向量/>进行降维得到最终的权重α_i。其计算公式为：

其中，σ代表ReLU激活函数，AvgPool代表平均池化操作和/>分别代表ReLU激活函数和Sigmoid激活函数，/>和/>代表全连接层的参数，下标代表与第i个基本块对应，上标代表第几个全连接层或者激活层；/>和α_i分别代表第i个基本块输出特征对应的平均池化通道向量和权重。

步骤4.3：通过打平操作(将多维特征图展开成一维度)以及全连接层将前n-1个基本块输出的特征图X_i映射到同一尺寸维度上得到特征图Z_i。其计算公式为：

Z_i＝f(X_i)w_i，

步骤4.4：将α_i与对应的Z_i相乘后相加，得到多层级注意模块的输出Y_out1：

其中，n代表基本块的个数，在本方法的面部表情识别模型中，特征预提取模块包含4个基本块。

步骤4.5：由于SEBlock具有出色的通道聚合能力，本方法采用SEBlock对特征预提取模块第四个基本块的输出X_n进行通道维度上的加权，其中SEBlock主要由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成，在该模块中，首先，利用平均池化层来对第n个基本块的输出X_n的通道信息进行聚合，得到平均池化通道向量其次，利用全连接层和Relu激活层对/>进行升维后利用全连接层和Sigmoid激活层进行降维得到与/>尺寸一致的向量W；最后，将得到的W与X_n相乘得到S，从而实现了X_n在通道维度上的加权。其计算公式为：

S＝WX_n，

步骤4.6：利用多尺度融合模块来对特征图S进行多尺度融合，该模块主要由三个不同膨胀比的3x3空洞卷积层、归一化层和激活层构成，在该模块中，首先，将特征图S分别经过三个不同空洞卷积层、归一化层和激活层，其中三个空洞卷积的膨胀比分别设置为1，2，3，得到对应的特征图D_j；其次，将得到的特征图D_j相加融合得到特征图D。其计算公式为：

D_j＝σ₊(BN_j(μ_j(S；j)))，

步骤4.7：通过打平操作以及全连接层将特征图D映射到与Y_out1同一尺寸维度上得到多尺度注意模块最终的输出Y_out2。其计算公式为：

Y_out2＝f(D)w_n，

Y＝β₁Y_out1+β₂Y_out2，

步骤4.9：构建损失函数，计算损失，并对面部表情识别模型进行优化，为了减少预测分数与真实标签之间的差距，本发明采用交叉熵损失L_ce。其计算公式为：

其中，m代表每一个小批次mini-batch中的样本个数，k代表类别的个数，代表第h个样本对应的第g个类别的标签，/>代表第h个样本对应输出的第g个类别的预测分数。

由于传统的中心损失只考虑了拉近同一类特征的距离，而没有考虑拉远不同类特征的距离，而且容易产生较大的损失值，因此本发明提出了限制中心损失L_lc，它在中心损失的基础上通过惩罚不同类别的中心距离，从而拉远了不同类别的中心距离，并通过增加限制条件限制类内、类间距离，从而防止了产生过大的损失值。其计算公式为：

其中Y_h代表第h个样本对应输出各类别的预测分数，c_h代表第h个样本对应类别的中心向量，c^g代表第g个类别对应的中心向量，表示L2范数的平方，γ₁、γ₂、ω₁、ω₂为超参数，γ₁和γ₂用来调节L_lc的大小，ω₁用来约束限制类内距离，ω₂用来约束限制类间距离，δ表示一个极小值，用来防止分母为0。

将上述损失函数整合到一起得到总的损失L_total。其计算公式为：

L_total＝L_ce+L_lc.

步骤5：对测试集和验证集中的图像进行推理，将处理好的训练集和测试集图像输入到模型中，得到相应的分类结果，结果为厌恶、快乐、生气、害怕、惊讶、悲伤和中性这7种基本表情中的一种。

为了证明方法的有效性，本方法利用热力图来可视化模型关注的区域，如图3所示，图中第一行代表生气，第二行代表害怕，第一列代表原始图像，第二、三列分别代表多尺度注意模块和多层级注意模块最终输出对于原始图像的注意力可视化。图中清楚的展示了多尺度注意模块更加注重全局的特征，而多层级注意模块更加注重重要的细节特征，通过这两个模块的相互配合，有效提高了面部表情识别的准确率。

表1本方法与其他先进的方法在RAF-DB数据集上的对比实验结果

表2本方法与其他先进的方法在Affect-Net数据集上的对比实验结果

表3本方法与其他先进的方法在FERPlus数据集上的对比实验结果

为了证明方法的优异性，本发明在RAF-DB、Affect-Net、FERPlus这三个数据集上与其他最先进的方法进行了对比实验，实验结果如表1，表2，表3所示，通过实验结果可以证明本方法具有较高的识别准确率。

Claims

1.一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，包括如下步骤：

步骤1：将若干个公共数据集拆分成为训练集、测试集和验证集；

步骤2：构建包含特征预提取模块、多层级注意模块和多尺度注意模块的面部表情识别模型；

步骤3：对模型输入的训练集、测试集和验证集的图像进行人脸检测和对齐，并将其裁剪为固定的大小；

对模型输入的训练集随机抽取10％的图像进行图像增强；

步骤4：将经过步骤3处理好的训练集图像，输入到构建的面部表情识别模型中，利用交叉熵损失和限制中心损失对模型中的参数进行训练和优化，直至训练到面部表情识别模型模型的准确度不再提升为止；

步骤5：将经过步骤3处理好的训练集和测试集图像输入到面部表情识别模型模型中，得到相应的分类结果，识别表情。

2.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，在步骤1中，所述训练集、测试集和验证集中均包含7种基本表情图像若干张；

所述7种基本表情为厌恶、快乐、生气、害怕、惊讶、悲伤和中性。

3.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，在步骤3中，所述图像增强的操作为：水平翻转、随机裁剪、随机去除、随机旋转。

4.根据权利要求1所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，步骤4具体过程如下：

步骤4.1：将步骤3处理好的图像输入到特征预提取模块中，其中特征预提取模块包含n个基本块，将特征预提取模块中每个基本块的输出特征图X_i作为特征预提取模块每个阶段输出的特征；

步骤4.2：通过多层级注意模块中的权重分配模块对前n-1个基本块输出的特征图，根据重要性的不同分配不同的权重α_i；

步骤4.3：通过将多维特征图展开成一维度的打平操作以及全连接层将前n-1个基本块输出的特征图X_i映射到同一尺寸维度上得到特征图Z_i；

步骤4.4：将得到的α_i与对应的Z_i相乘后相加，得到多层级注意模块最终的输出Y_out1；

步骤4.5：采用由平均池化层、全连接层、Sigmoid激活层和ReLu激活层顺序连接构成的SEBlock，对特征预提取模块第n个基本块的输出X_n进行通道维度上的加权，得到特征图S；

步骤4.6：利用多尺度注意模块中的多尺度融合模块对特征图S进行多尺度融合，得到特征图D；

步骤4.7：通过打平操作以及全连接层将特征图D映射到与Y_out1同一尺寸维度上得到多尺度注意模块最终的输出Y_out2；

步骤4.8：将Y_out1和Y_out2相加得到最终的特征输出Y，其计算公式为：

Y＝β₁Y_out1+β₂Y_out2，

其中，β₁和β₂为超参数；

步骤4.9：构建损失函数，计算损失，对面部表情识别模型进行优化。

5.根据权利要求4所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，在步骤4.2所述权重分配模块中，首先利用平均池化层对前n-1个基本块输出的特征图X_i的通道信息进行聚合，得到平均池化通道向量

其次，经过全连接层和激活层对通道向量进行降维得到权重α_i。

6.根据权利要求5所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，在步骤4.5中所述SEBlock中，首先利用平均池化层对第n个基本块的输出X_n的通道信息进行聚合，得到平均池化通道向量

其次，利用全连接层和激活层对进行升维后降维得到与/>尺寸一致的向量W；

最后，将得到的W与X_n相乘，得到特征图S。

7.根据权利要求6所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，在步骤4.6所述多尺度融合模块中，首先将特征图S分别经过三个空洞卷积层、归一化层和激活层，得到对应的特征图D_j；

其次，将得到的特征图D_j相加融合得到特征图D。

8.根据权利要求7所述的一种基于多层级和多尺度注意机制的面部表情识别方法，其特征在于，步骤4.9所述计算损失的损失函数具体如下：

(1)交叉熵损失L_ce，其计算公式为：

其中m代表每一个小批次中的样本个数，k代表类别的个数，代表第h个样本对应的第g个类别的标签，/>代表第h个样本对应输出的第g个类别的预测分数；

(2)限制中心损失L_lc，其计算公式为：

其中，Y_h代表第h个样本对应输出各类别的预测分数，c_h代表第h个样本对应类别的中心向量，表示L2范数的平方，c^g代表第g个类别对应的中心向量，γ₁、γ₂、ω₁、ω₂为超参数，γ₁和γ₂调节L_lc的大小，ω₁约束限制类内距离，ω₂约束限制类间距离，δ表示一个极小值；

(3)将交叉熵损失L_ce和限制中心损失L_lc相加，得到总的损失L_total。