CN115966010A

CN115966010A - 一种基于注意力和多尺度特征融合的表情识别方法

Info

Publication number: CN115966010A
Application number: CN202310069723.6A
Authority: CN
Inventors: 周同瑄; 王宇; 洪旻珂; 尹海涛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-14

Abstract

本发明属于计算机视觉技术领域，公开了一种基于注意力和多尺度特征融合的表情识别方法，采用fer2013人脸表情数据集，分为训练集、测试集和验证集；构建多尺度特征提取层，加入不同膨胀率的空洞卷积，提取人脸表情图像的尺度信息特征，并进行融合；采用通道注意力机制模块；设计残差模块，将单元的输入直接与单元输出加在一起再进行激活；以ResNet为框架，用构建出的多尺度模块搭建网络；将训练集输入到最终的网络结构中，采用交叉熵损失函数和随机梯度下降优化器进行训练，并将测试集输入到训练好的网络结构中，得到表情分类结果。本发明提高人脸表情识别的精确度，便于人脸识别在医学、心理学、人机交互等领域中的应用。

Description

一种基于注意力和多尺度特征融合的表情识别方法

技术领域

本发明属于计算机视觉技术领域，具体的说是涉及一种基于注意力和多尺度特征融合的表情识别方法。

背景技术

人们对图像的感知和理解是主观性的，该发明的目的是希望计算机能够描述和表达人观察图像所引起的情感反应。近年来，人脸表情识别已成为计算机视觉领域的一热点研究课题，在人机交互、情感挖掘、疲劳驾驶检测、情感评估、图像检索、美术和广告设计等领域得到了广泛的应用。

第一种方法是利用传统的机器学习，包括特征提取、多特征融合、特征分类等，先选择合适的情感空间表示模型，然后从图像内容中提取像颜色和纹理这样的视觉特征，再借助机器学习手段基于人工标注样本开展学习和训练，从而得到图像情感检测器。第二种方法是基于深度学习的方法，深度学习在人工智能和模式识别等相关学科研究中取得了突破性进展，对深度网络进行特征组合变换得到了相对抽象的高阶特征，进而获得了更强的描述和表示的能力。Aarush等人(Gupta A,Agrawal D,Chauhan H,et al.An AttentionModel for Group-Level Emotion Recoginition[C]//Proceedings of the 2018onInternational Conference on Multimodal Interaction.ACM,2018:611-615.)提出了一种用于识别图像中多个人的情况下，每个人的情感的卷积神经网络，先利用局部卷积神经网络监测并提取每个人的面部表情情况，再使用全局卷积神经网络针对图像的基础特征进行提取，结合面部表情来识别图像中每个人的情感。Guo等人(Guo J,Zhou s,wu J,etal.Multi-modality Network with Visual and Geometrical Information for MicroEmotion Recognition[C]//2017 12th IEEE International Conference on AutomaticFace&Gesture Recognition(FG 2017).IEEE Computer Society,2017:814-819.)则是在人脸上找面部关键点，人脸的图像用卷积神经网络提取面部表情特征以表达图像的情感，特征点专门组成矩阵，学习人类在不同情感状态下面部关键点之间的位置关系特征。最后将关键点的特征和面部表情特征进行融合来精确识别图像的情感。Chen等(Chen M,ZhangL,Allebach J P.Learning deep features for image emotion classification[C]//IEEE International Conference on Image Processing.IEEE,2015:4491-4495)构造了一种由3个子网络组成的集成卷积神经网络，并利用支持向量机进行最终表情预测。Minaee等(MINAEE S，MINAEI M，ABDOLRASHIDI A.Deep-Emotion:Facial ExpressionRecognition Using Attentional Convolutional Network[J/OL].arXiv:1902.01019[cs.CV].[2021-11-03].https:llarxiv.orglabs/1902.01019v1.)提出了一种注意力卷积网络来识别表情，并用可视化技术寻找人脸图像中对分类结果影响最强的区域。

但上述识别方法无法捕获表情的多尺度特征，提取到的特征比较贫乏。

发明内容

本发明提出了一种基于注意力和多尺度特征融合的表情识别方法，实现自动提取有效特征并识别人类，利用多尺度特征融合模块，构建多尺度融合特征的计算结构，使模型提取到更丰富的表情特征，增强深度神经网络的可靠性。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于注意力和多尺度特征融合的表情识别方法，包括：

步骤A：采用fer2013人脸表情数据集，对数据集进行预处理，并将数据集按照8:1:1分为训练集、测试集和验证集；

步骤B：构建多尺度特征提取层，采用三个分支，加入不同膨胀率的空洞卷积，提取人脸表情图像的不同尺度信息特征，并将提取到的信息特征进行融合；

步骤C：采用通道注意力机制模块，使模型关注更加重要的特征通道；

步骤D：以跳层连接的形式设计残差模块，将单元的输入直接与单元输出加在一起再进行激活；

步骤E：以ResNet为框架，用构建出的多尺度模块搭建网络；

步骤F：将训练集输入到最终的网络结构中，采用交叉熵损失函数和随机梯度下降优化器进行训练，并将测试集输入到训练好的网络结构中，得到表情分类结果。

本发明的有益效果是：

(1)本发明设计了多尺度特征注意力机制模块，该方法可以提取人脸表情图像的不同尺度信息特征，从而有效提高人脸表情识别的精确度；

(2)本发明将注意力机制与残差融合，残差单元以跳层连接的形式实现，将单元的输入直接与单元输出加在一起，然后再激活，很好地解决了深度神经网络的退化问题；

(3)本发明在提取多尺度特征中加入空洞卷积，在不丢失分辨率的前提下扩大了感受野，大感受野可以检测分割大目标，高分辨率可以精确定位目标。

附图说明

图1为本发明的流程图。

图2为本发明方法设计的多尺度特征融合表情识别网络结构图。

图3为本发明方法一个多尺度模块结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于注意力和多尺度特征融合的表情识别方法，该表情识别方法具体包括如下步骤：

步骤1：采用fer2013人脸表情数据集，并对数据集进行预处理，并将数据集按照8:1:1分为训练集、测试集和验证集。

步骤1-1：使用fer2013人脸表情数据集。fer2013数据集由28709张训练图，3589张公开测试图和3589张私有测试图组成，每一张图都是像素为48×48的灰度图。fer2013数据库中一共有7种表情：愤怒、厌恶、恐惧、开心、难过、惊讶、中性；

步骤1-2：为了防止网络过快地过拟合，可以人为地做一些图像变换，例如裁剪、翻转、归一化处理等，上述操作称为数据增强，可以扩大数据库的数据量，使得训练的网络鲁棒性更强，具体为：

步骤1-2-1：对训练集进行随机裁剪，从而对原始数据集进行增广；

步骤1-2-2：对训练集进行随机水平翻转。假设翻转前的坐标为x₀、y₀、w₀、h₀，翻转后的坐标为x、y、w、h，水平翻转对于标签主要影响的是x坐标，使得x＝1-x₀；

步骤1-2-3：对测试集进行十次裁剪，先从输入图像中间裁剪48×48的图像，然后从图像左上角开始，裁剪48×48图像，同样的方法在原图像的右上、左下、右下各裁剪一张48×48，最后利用镜像操作，得到10张图像；

步骤1-2-4：采用归一化公式

对训练集和测试集图像进行归一化处理，其中(i，j)表示像素点在图像中的位置，X_ij表示位置(i，j)的像素值，X_min是像素的最小值，X_max是像素的最大值。

步骤1-3：将数据集图像的大小统一设置为48×48；

步骤1-4：将整个人脸表情图像数据集以8:1:1的比例随机划分为训练集、测试集和验证集。

步骤2：构建多尺度特征提取层，采用三个分支，加入不同膨胀率的空洞卷积，提取人脸表情图像的不同尺度信息特征，并将提取到的信息特征进行融合。

具体包括如下步骤：

步骤2-1：利用最大池化可以很好地提取特征信息，并使用ReLU激活函数使神经网络学习到非线性映射。最大池化是指将输入拆分成不同的区域，并把每个区域中的最大元素值输出，使用池化层可以缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性。ReLU激活函数即线性整流函数，在神经网络中，该函数定义了神经元在线性变换之后的非线性输出结果。换言之，对于进入神经元的来自上一层神经网络的输入向量，使用线性整流激活函数的神经元会输出max(0,w^Tx+b)至下一层神经元或作为整个神经网络的输出；

步骤2-2：构建多尺度特征提取层，用来提取图像的多尺度结构特征，采用三个分支，分别加入膨胀率为1、2、3的空洞卷积。图像经过不同通道后，再进行融合，具体为：

步骤2-2-1：输入图像经过卷积核为1的卷积层，将通道数改为网络结构可以容纳的通道数；

步骤2-2-2：将图像分别经过膨胀率为1、2、3的空洞卷积通道，卷积核都为3。空洞卷积的膨胀率越大，卷积核的感受野越大。经过空洞卷积操作后，若输入层为

输出层的尺寸为：

w₀＝(w-1)*(d-1)+w，

h₀＝(h-1)*(d-1)+h，

其中d、k、w、h、s和p分别为膨胀率、卷积核数、宽度、高度、步长以及填充数；

步骤2-2-3：将经过三个通道的张量在同一个维度进行合并。若三个通道的通道数分别为c₁、c₂、c₃，则拼接操作后结果的维度为：

N×(c₁+c₂+c₃)×H×W，

其中N、H和W分别为样本数、图像高度和图像宽度；

步骤2-2-4：经过卷积层后，进行归一化，对图像进行归一化操作后再用ReLU函数进行激活。归一化可以减轻对参数初始化的依赖，使得前向激活值和反向梯度更加有效。

步骤3：采用通道注意力机制模块，使模型关注更加重要的特征通道。

具体包括如下步骤：

步骤3-1：对特征通道U＝[u₁,u₂,…,u_c]进行压缩，用全局平均池化的方式将每个特征通道上的W*H特征图压缩为一个具有全局感受野的实数。平均池化是指将输入拆分成不同的区域，并把每个区域中元素值的平均值输出，从而降低参数量，整合全局空间信息。一个通道上的全局特征z_c为：

其中H和W分别为特征图的高度和宽度，压缩后的特征为z＝[z₁,z₂,…,z_c]；

步骤3-2：对z进行激励，先后进行全连接层1、激活函数ReLU、全连接层2和激活函数Sigmoid，最终得到归一化权重。对应的数学表达式为：

s＝σ(g(z,W))＝σ(W₂δ(W₁z))，

其中σ和δ分别代表Sigmoid和ReLU激活函数，

r为超参数“减速比”，用来改善SE模块的计算成本，通常取整数16；

对特征通道U＝[u₁,u₂,…,u_c]赋予权重s，得到输出特征X＝[X₁,X₂,…,X_c]，其中X_c＝s_cu_c，s_c和u_c分别为每个通道的权重和特征；

步骤3-3：在多尺度特征提取层中，将注意力机制嵌入网络结构的每一个通道。

步骤4：以跳层连接的形式设计残差模块，将单元的输入直接与单元输出加在一起再进行激活，具体包括如下步骤：

步骤4-1：将多尺度特征合并后的结果输入到卷积核为1的卷积层中，调整特征的通道数；

步骤4-2：使用残差模块，网络连接直接通过简单的恒等映射完成，无需引入额外参数，将每一个block的输出y是多尺度特征提取层的输出F(x，w)与输入x的直接相加，即y＝F(x，w)+x，其中w表示网络的权重系数。

步骤5：以ResNet为框架，用构建出的多尺度模块搭建网络，将ResNet分为4个Stage，每个Stage结构较为相似，前3个Stage由2个多尺度模块和1个卷积层组成，第4个Stage由2个多尺度模块组成。卷积层的卷积核为1，步长为1，填充为0。

步骤6：将训练集输入到最终的网络结构中，采用交叉熵损失函数和随机梯度下降优化器进行训练，并将测试集输入到训练好的网络结构中，得到表情分类结果，具体包括如下步骤：

步骤6-1：使用交叉熵损失函数，该函数公式为：

其中p(x)表示真实概率分布，q(x)表示预测概率分布，通过交叉熵表示两者之间的差异，值越小表示预测的结果越好。

步骤6-2：使用随机梯度下降优化器，每次只随机选择一个样本来更新模型参数，即：

梯度下降算法是通过沿着目标函数J(θ；x_i；y_i)关于参数θ∈R的负梯度

来不断更新模型参数，从而到达目标函数的最小值，更新步长为η。

随机梯度下降算法每次的学习是非常快速的，并且可以进行在线更新。对于有很多局部极小值点的区域，会使得优化方向从当前的局部极小值点跳到另一个更好的局部极小值点，这样会使得非凸函数最终收敛于一个较好的局部极值点，甚至全局极值点。

实验设置：对空洞卷积通道数不同的三个模型进行实验，选用交叉熵损失函数，设置初始学习率为0.01，并在60轮后对其进行衰减，每隔20轮衰减一次，衰减率为0.9，使用随机梯度下降优化器，设置Batch_Size为32，在Pytorch深度平台上进行150轮训练，并在测试集上进行测试，输出精度。

当空洞卷积通道数量分别为1、2、3时，对应的精确度也不同，结果如表1。可以看出，增加利用空洞卷积能提升表情识别精度。

表1不同空洞卷积通道数量下的精度

空洞卷积通道	精度
		dilation＝1(无空洞卷积)	56.952
dilation＝1,2	57.648
		dilation＝1,2,3	58.011

可以发现，空洞卷积有效提高了人脸表情识别的精确度。

本发明提出一种综合多尺度融合、空洞卷积、注意力机制的表情分类模块，提高人脸表情识别的精确度，便于人脸识别在医学、心理学、人机交互等领域中的应用。

Claims

1.一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述情识别方法包括如下步骤：

步骤1：采用fer2013人脸表情数据集，对数据集进行预处理，并将数据集分为训练集、测试集和验证集；

步骤2：构建多尺度特征提取层，采用三个分支，加入不同膨胀率的空洞卷积，提取人脸表情图像的不同尺度信息特征，并将提取到的信息特征进行融合；

步骤3：采用通道注意力机制模块，使模型关注重要的特征通道；

步骤4：以跳层连接的形式设计残差模块，将单元的输入直接与单元输出加在一起再进行激活；

步骤5：以ResNet为框架，用构建出的多尺度模块搭建网络；

步骤6：将训练集输入到最终的网络结构中，采用交叉熵损失函数和随机梯度下降优化器进行训练，并将测试集输入到训练好的网络结构中，得到表情分类结果。

2.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤2具体包括如下步骤：

步骤2-1：利用最大池化很好地提取特征信息，并使用ReLU激活函数使神经网络学习到非线性映射；

步骤2-2：构建多尺度特征提取层，提取图像的多尺度结构特征，采用三个分支，分别加入膨胀率为1、2、3的空洞卷积，图像经过不同通道后，再进行融合。

3.根据权利要求2所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤2-2具体包括如下步骤：

步骤2-2-1：输入图像经过卷积核为1×1的卷积层，将通道数改为网络结构可以容纳的通道数；

步骤2-2-2：将图像分别经过膨胀率为1、2、3的空洞卷积通道，卷积核都为3，空洞卷积的膨胀率越大，卷积核的感受野越大，经过空洞卷积操作后，若输入层为

输出层的尺寸为：

w₀＝(w-1)*(d-1)+w

h₀＝(h-1)*(d-1)+h

其中，d、k、w、h、s和p分别表示膨胀率、卷积核个数、宽度、高度、步长和填充值；

步骤2-2-3：将经过三个通道特征在同特征维度进行拼接操作，假设三个通道的通道数分别为c₁、c₂、c₃，则拼接操作后结果的维度为：

N×(c₁+c₂+c₃)×H×W

其中，N、H和W分别为样本数、图像高度和图像宽度；

步骤2-2-4：经过卷积层后，进行归一化，对图像进行归一化操作后再用ReLU函数进行激活。

4.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤3具体包括如下步骤：

步骤3-1：对特征通道U＝[u₁，u₂，...，u_c]进行压缩，用全局平均池化的方式将每个特征通道上的W×H特征图压缩为一个具有全局感受野的实数，一个通道上的全局特征z_c为：

其中H和W分别为特征图的高度和宽度，压缩后的特征为z＝[z₁，z₂，...，z_c]；

步骤3-2：对压缩后的特征z进行激励，先后进行2个全连接层和激活函数Sigmoid操作，最终得到归一化权重，对应的数学表达式为：

s＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中σ和δ分别代表Sigmoid和ReLU激活函数，

r为超参数“压缩比”，取整数16，对特征通道U＝[u₁，u₂，...，u_c]赋予权重s，得到输出特征X＝[X₁，X₂，...，X_c]，其中X_c＝s_cu_c，s_c和u_c分别为每个通道的权重和特征；

5.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤4包括如下步骤：

步骤4-1：将多尺度特征合并后的结果输入到卷积核为1×1的卷积层中，调整特征的通道数；

6.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤1具体包括如下步骤：

步骤1-1：使用fer2013人脸表情数据集；

步骤1-2：对图像进行预处理，包括裁剪、翻转以及归一化处理；

步骤1-3：将数据集图像的大小统一设置为48×48；

步骤1-4：将整个人脸表情图像数据集按照8∶1∶1的比例随机划分为训练集、测试集和验证集。

7.根据权利要求6所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤1-2具体包括如下步骤：

步骤1-2-2：对训练集进行随机水平翻转，假设翻转前的坐标为x₀、y₀、w₀、h₀，翻转后的坐标为x、y、w、h，水平翻转对于标签主要影响的是x坐标，使得x＝1-x₀；

步骤1-2-3：对测试集进行10次裁剪，得到10张图像；

步骤1-2-4：采用归一化公式

8.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤5具体为：将ResNet分为4个Stage，每个Stage结构都由多尺度模块和卷积层组成。

9.根据权利要求1所述的一种基于注意力和多尺度特征融合的表情识别方法，其特征在于：所述步骤6具体包括如下步骤：

步骤6-1：交叉熵损失函数公式为：

其中p(x)表示真实概率分布，q(x)表示预测概率分布，通过交叉熵表示两者之间的差异，值越小表示预测的结果越好；

梯度下降算法是通过沿着目标函数J(θ；x_i；y_i)关于参数θ∈R的负梯度方向