CN117475490A

CN117475490A - 一种基于混合注意力卷积网络的面部表情识别方法

Info

Publication number: CN117475490A
Application number: CN202311118893.5A
Authority: CN
Inventors: 颜飞; 尚育杰; 刘云清; 李棋; 张琼
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2024-01-30

Abstract

本发明属于面部表情识别技术领域，尤其为一种基于混合注意力卷积网络的面部表情识别方法，该方法包括：S10：构建基于混合注意力卷积网络的面部表情识别网络模型；S11：准备数据集，采用面部表情fer2013数据集，将数据集按照9：1的比例划分为训练集和验证集两部分；S12：将所准备数据集的训练集输入至基于混合注意力卷积网络的面部表情识别网络模型中，进行模型训练。本发明针对面部表情识别深度卷积网络参数量多，计算量大的问题，本发明通过将深度可分离卷积块中的普通卷积层替换为深度可分离卷积层，来降低模型的参数量和计算量，同时进一步提升模型的深度。

Description

一种基于混合注意力卷积网络的面部表情识别方法

技术领域

本发明涉及面部表情识别技术领域，具体为一种基于混合注意力卷积网络的面部表情识别方法。

背景技术

面部表情是人类社交活动中表达情绪的主要方式之一，与生理信号相比，具有更加直观的表达情感变化的优势。近几年，面部表情识别领域在智能驾驶，网络远程教学管理，智能监管，临床医疗，人机交互等领域都有着广泛的应用。

目前，关于面部表情识别的研究方法主要是基于卷积网络来进行特征提取和表情分类。为了提高特征提取对于面部表情更重要部分的关注度，研究人员通常在模型中加入注意力机制，通过注意力权重来使模型更加关注于表情识别重要的特征部分，但是注意力机制的引入会增加模型训练过程中梯度爆炸和过拟合的可能性，训练好的模型对于不同尺度和复杂度的图像识别也缺少泛化能力。

针对上述问题，本发明对于面部卷积网络所引用的注意力机制进行改进，提出了一种基于混合注意力卷积网络的面部表情识别方法，对上述问题进行有效改进。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于混合注意力卷积网络的面部表情识别方法，解决了上述背景技术中所提出的问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种基于混合注意力卷积网络的面部表情识别方法，该方法包括：

S10：构建基于混合注意力卷积网络的面部表情识别网络模型；

S11：准备数据集，采用面部表情fer2013数据集，将数据集按照9：1的比例划分为训练集和验证集两部分；

S12：将所准备数据集的训练集输入至基于混合注意力卷积网络的面部表情识别网络模型中，进行模型训练；

S13：将所准备数据集的验证集输入至训练好的网络模型对模型进一步微调，获得最优的训练参数和训练效果；

S14：保存训练和测试后的网络模型以及相关参数。

S15：输入待测人脸图片，输入至模型进行面部表情预测。

进一步地，所述S10中网络模型包含浅层卷积块，深度可分离卷积块，残差和输出模块；

所述浅层卷积块主要是用来提取面部表情的浅层纹理特征和边缘特征，通过逐层卷积等操作捕捉到面部图像中的局部和全局特征，从而帮助模型更好地理解面部表情的结构和变化；

所述深度可分离卷积块主要包含深度可分离卷积部分和所提出的混合注意力部分；所属深度可分离卷积部分主要是对模型进行深层次特征提取，获得更加细腻的面部表情特征，例如面部的微表情、肌肉变化等；所提出的混合注意力部分主要是针对不同的表情可能涉及到不同的面部区域和特征模式，混合注意力可以使模型更集中地关注与当前表情相关的特征；通过使用混合注意力机制来动态地调整特征的权重，使网络可以自适应地关注对于特定任务更重要的特征；

所述残差主要通过残差连接学习上一个模块保留的特征信息，提升特征学习能力，同时限制梯度，有利于避免梯度爆炸，使信息在网络中更容易地传播。

所述输出模块，通过卷积层调整输出维度，利用全局平均池化可以帮助网络汇总整个面部图像中的信息，捕捉到全局的情感特征，从而有助于更准确地进行表情分类。

进一步地，所述S11中，数据集为fer2013数据集，该数据集是从真实世界中收集的，fer2013数据集中的图像分辨率较低，因此可以更好地反映真实场景中的面部表情变化。

进一步地，所述S12中，在训练网络模型时，设置损失函数，训练批次大小，训练次数，优化器，学习率等预值。

进一步地，所述S12中，模型训练损失函数为多分类交叉损失函数，训练批次为300次，优化器为Adam优化器，学习率为0.001。

进一步地，所述S12中，在训练网络模型过程中通过评价指标评估模型训练表情预测分类的准确度。

进一步地，所述S15中，对于待测人脸图片，需要先通过Haar级联分类器从输入图像中检测出人脸信息，校正长宽尺寸，进行人脸分割，最后再输入至模型进行训练预测。

(三)有益效果

与现有技术相比，本发明提供了一种基于混合注意力卷积网络的面部表情识别方法，具备以下有益效果：

(1)针对面部表情识别深度卷积网络参数量多，计算量大的问题，本发明通过将深度可分离卷积块中的普通卷积层替换为深度可分离卷积层，来降低模型的参数量和计算量，同时进一步提升模型的深度。

(2)针对面部表情识别卷积网络引入注意力机制后会增加模型训练过程中梯度爆炸和过拟合的可能性，本发明设计了一种混合注意力模块，可以有效的降低引入注意力机制后带来的梯度爆炸和过拟合的可能性，而且还能有效提高模型的识别精度。

(3)针对面部表情识别卷积网络引入注意力机制后，训练好的模型对于不同尺度和复杂度的图像识别缺少泛化能力的问题，本发明设计的混合注意力机制可以在不同尺度上捕获特征，可以在不同图像场景下自适应地调整其关注度，从而提高了模型对于各种图像输入的适应性，具有更高的泛化能力和鲁棒性。

(4)针对目前面部表情卷积网络引入的注意力机制多数只针对通道相关性加强或者空间位置相关性加强的问题，本发明设计的混合注意力机制通过先加强通道相关性，再对输出进行空间位置相关性加强，使模型在特征提取时，通过通道注意力和空间注意力的联合操作，实现了通道信息和空间信息之间的交互。这有助于模型更好地捕获不同特征之间的关系，提升特征的表达能力。对于模块整体的输入部分进行自注意力加权，将其输出结果与空间位置相关性加权后的结果线性融合，使模型能够更好地进行特征的交互和融合，促使模型在多个层级上进行特征选择和整合，从而提高了模型对不同尺度和层次的信息的敏感性。

附图说明

图1为一种基于混合注意力卷积网络的面部表情识别方法流程图；

图2为一种基于混合注意力卷积网络的面部表情识别方法工作原理图；

图3为本发明所有的浅层卷积块的具体组成示意图；

图4为本发明所有的深度可分离卷积块的具体组成示意图；

图5为本发明所有的混合注意力机制的具体组成示意图；

图6为本发明所有的输出模块的具体组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1-6所示，本发明一个实施例提出的一种基于混合注意力卷积网络的面部表情识别方法，该方法具体包括如下步骤：

S10、构建基于混合注意力卷积网络的面部表情识别网络模型，主要包含输入，浅层卷积块、深度可分离卷积块一、深度可分离卷积块二、深度可分离卷积块三、深度可分离卷积块四，输出；其中，在每个深度可分离卷积块中包含有混合注意力模块，通过通道注意力和空间注意力的联合操作，实现了通道信息和空间信息之间的交互；这有助于模型更好地捕获不同特征之间的关系，提升特征的表达能力；在混合注意力中还引入了自注意力机制，使注意力机制内部能够更好地进行特征的交互和融合，从而更好地捕捉特征之间的关系，增强了特征的表达能力；此外，对每一个深度可分离卷积块添加残差连接，使模型降低过拟合和梯度爆炸的可能性；

S11、准备数据集，对整个模型采用面部表情fer2013数据集进行训练；将数据集打乱，并按照9：1的比例划分为训练集和验证集两部分；

S12、将所准备数据集的训练集输入至基于混合注意力卷积网络的面部表情识别网络模型中，进行模型训练；先将已打乱顺序的训练集进行预处理，通过随机旋转，随机水平平移，随机垂直平移，随机缩放等预处理手段操作进行数据增强，同时增加模型训练时的难度，提升模型的泛化能力；将增强后的训练数据输入至S10构建好的网络模型中，进行模型训练；其中，模型采用Adam优化器，学习率为0.001，patience＝30,衰减因子factor＝0.1,监控指标为验证集准确率，以多分类交叉损失函数作为模型的损失函数；

S13：将fer2013数据集划分出来的验证集输入至训练好的网络模型对模型进一步微调，得到更加稳定的训练参数，是模型具有更好的鲁棒性和泛化能力，能够更好的应用于真实场景；

S14：保存S13模型优化后的网络模型以及相关参数；将这个最终模型以及相关参数作为以后面部表情预测来使用；

S15：输入待测人脸图片，输入至模型进行面部表情预测；通过Haar级联分类器检测出人脸信息，并将其进行灰度图转换再进行长宽尺寸的校正，使所述人脸图像的长宽调整至预设的尺寸；对所述人脸图像按照预设的人脸部位规则进行分割，最后输入至训练好的模型进行面部表情预测。

实施例2

如图1所示，一种基于混合注意力卷积网络的面部表情识别方法，该方法具体包括如下步骤：

S10，构建基于混合注意力卷积网络的面部表情识别网络模型，如图2所示，一种基于混合注意力卷积网络的面部表情识别网络方法整体框图，具体包括输入，浅层卷积块，残差连接，深层卷积块一，深层卷积块二，深层卷积块三，深层卷积块四，残差连接和输出构成；

如图3所示，浅层卷积块，主要由普通卷积层，批量归一化和Relu激活函数构成，共重复堆叠两次；普通卷积层采用3×3卷积核，步长为一，不填充，对输入图片进行逐层下采样特征提取；通过在普通卷积层后引入批量归一化和Relu激活函数，使模型更加稳定，有助于避免梯度消失和爆炸；而Relu激活函数的非线性变换，帮助神经网络模型学习复杂的映射关系，由于输入为负值时，Relu输出为0；使模型更加稀疏和高效；Relu激活函数公式如下所示：

如图4所示，深度可分离卷积块主要依次包含深度可分离卷积层，批量归一化层和Relu非线性激活函数，共重复两次；深度可分离卷积采用3×3卷积核，步长为一；对于相同的输入图像，深度可分离卷积的计算量为逐通道卷积和驻点卷积两个阶段的计算量之和；通过将深度可分离卷积的计算量与普通卷积的计算量进行比较，可以减少训练参数的计算量和可用的训练参数总数至具体公式如下所示；

由于使用的fer2013数据集属于低画质数据集，图片尺寸仅为48x48，因此深度可分离卷积模块的卷积进行填充，以保证输入输出尺度不变，减少由于信息丢失导致模型性能下降的可能性；在深度可分离卷积块最后添加混合注意力模块，结合了通道注意力和空间注意力，使得模型能够在通道维度和空间维度上同时进行特征关注；通过两者的联合操作，实现了通道信息和空间信息之间的交互，有助于模型更好地捕获不同特征之间的关系，提升特征的表达能力；通过引入自注意力，混合注意力机制可以在层级上更好地融合信息；这样的融合可以促使模型在多个层级上进行特征选择和整合，从而提高了模型对不同尺度和层次的信息的敏感性；

如图5所示，混合注意力模块主要包含6个卷积层，这6个卷积层都采用深度可分离卷积层；首先，通过平均池化和最大池化得到输入特征在通道维度上的池化特征，并对得到的两种不同池化特征进行特征拼接；然后将融合后的特征分别通过3×3和1×1的卷积进行卷积处理，不同分支可以专注于捕捉不同通道的特征，从而提高了模型对多尺度特征的感知能力；将经过两个卷积层提取到的特征进行线性融合，通过批归一化和Sigmoid激活函数得到通道注意力权重，最后将注意力权重应用于输入特征，以强化重要的通道信息；紧接着，将经过通道注意力模块后的输入特征再次输入到带有多分支卷积的空间注意力模块中；通过采用1×1、3×3、5×5的三个不同卷积核的卷积层分支，通过在不同分支中引入多尺度的卷积操作，空间注意力模块可以捕获更广泛的上下文关系；不同分支可以理解不同尺度范围内的上下文信息，从而提高模块对输入特征的理解能力；将三个分支提取到的特征进行线性融合，最后通过批归一化和Sigmoid激活函数得到空间注意力权重，然后将空间注意力权重应用于输入特征，以强化重要的空间信息；通过对输入特征采用1×1的卷积对输入特征进行线性变换来生成新的特征表示；通过批归一化和Sigmoid激活函数得到自注意力权重，并将其应用于输入特征，以强化重要的特征信息；将自注意力模块输出特征与经过通道注意力机制和空间注意力机制的输出特征进行线性融合，形成最终的混合注意力机制模块；其中通道注意力，空间注意力，自注意力，混合注意力的计算公式为：

M_c＝σ(k_3×3*Concatenate(AvgPool(F)+MaxPool(F))+k_1×1*Concatenate(AvgPool(F)+MaxPool(F)))

F_c＝M_c*F

M_s＝σ(k_3×3*F_c+k_1×1*F_c+k_5×5*F_c)

M_a＝σ(k_1×1*F)

M_m＝M_s+M_a

式中：K表示n×n的卷积核；F表示输入特征图；σ表示激活函数，M_c为通道注意力加权特征图，M_s为空间注意力加权特征图，F_c表示通道注意力加权后的输出特征，作为空间注意力的输入，M_a为自注意力加权特征图，M_m为最后得到的混合注意力特征图；

残差连接，通过引入跨层的直接连接，通过将前一层的输出与当前层的输入相加，然后输入到当前层的非线性激活函数中，使网络能够学习残差部分，即前一层输出与当前层输出之间的差异；可以有效地传递梯度，减轻了梯度消失问题，使得深层网络更容易训练和优化；

如图6所示，输出部分主要是通过一层3×3卷积核的普通卷积进行降维，然后引入自适应平均池化层；通过在特征图上进行平均操作来减少特征图中的细微噪声，减少模型的过拟合风险，提高泛化能力和模型的鲁棒性；而且相比于传统的全连接层，它不会引入额外的参数，从而减少了模型的总参数数量；最后通过softmax激活函数进行面部表情分类；

S11,准备数据集，对整个模型采用面部表情fer2013数据集进行训练；fer2013数据集是一个用于面部表情识别的公开数据集；它包含了来自互联网上不同来源的人脸图像，总共包含35,887张图片；该数据集主要用于面部表情识别任务的训练和评估；将fer2013数据集打乱，并按照9：1的比例划分为训练集和验证集两部分；

S12、将所准备数据集的训练集输入至基于混合注意力卷积网络的面部表情识别网络模型中，进行模型训练；对于训练集部分进行预处理，采用随机旋转，随机水平平移，随机垂直平移，随机缩放等预处理手段操作进行数据增强，扩充数据集，使其能够在训练过程中使模型获得更高的鲁棒性；将增强后的训练数据输入至S10构建好的网络模型中，进行模型训练；其中，模型采用Adam优化器，学习率为0.001，patience＝30,衰减因子factor＝0.1,监控指标为验证集准确率，以多分类交叉损失函数作为模型的损失函数，并保存最好的模型参数；在超过30次，模型没有准确度提升后，模型会提前终止训练；

S13：将fer2013数据集划分出来的验证集输入至训练好的网络模型对模型进一步微调，确保能够得到更好的验证集预测准确率，并得到更加稳定的训练参数；由于模型最终需要应用于真实场景中，在模型微调过程中，不仅要提高模型预测准确率，也需要使模型具有更好的鲁棒性和泛化能力，能够更好的应用于真实场景；

S15：输入待测人脸图片，输入至模型进行面部表情预测；先将待识别的人脸数据，利用Haar级联分类器从输入图像中检测出人脸信息，Haar级联分类器在检测人脸时已经对所述人脸图像进行灰度转换，转换为灰度图像；对灰度转换后的人脸图像进行长宽尺寸的校正，使所述人脸图像的长宽调整至预设的尺寸；对所述人脸图像按照预设的人脸部位规则进行分割，将该面部区域所有图像作为数据样本图像输入至S14中训练好的网络模型中进行面部表情预测；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：该方法包括：

S14：保存训练和测试后的网络模型以及相关参数。

S15：输入待测人脸图片，输入至模型进行面部表情预测。

2.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S10中网络模型包含浅层卷积块，深度可分离卷积块，残差和输出模块；

所述残差主要通过残差连接学习上一个模块保留的特征信息，提升特征学习能力，同时限制梯度，有利于避免梯度爆炸，使信息在网络中更容易地传播；

3.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S11中，数据集为fer2013数据集，该数据集是从真实世界中收集的，fer2013数据集中的图像分辨率较低，因此可以更好地反映真实场景中的面部表情变化。

4.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S12中，在训练网络模型时，设置损失函数，训练批次大小，训练次数，优化器，学习率等预值。

5.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S12中，模型训练损失函数为多分类交叉损失函数，训练批次为300次，优化器为Adam优化器，学习率为0.001。

6.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S12中，在训练网络模型过程中通过评价指标评估模型训练表情预测分类的准确度。

7.根据权利要求1所述的一种基于混合注意力卷积网络的面部表情识别方法，其特征在于：所述S15中，对于待测人脸图片，需要先通过Haar级联分类器从输入图像中检测出人脸信息，校正长宽尺寸，进行人脸分割，最后再输入至模型进行训练预测。