CN114783034A

CN114783034A - 基于局部敏感特征与全局特征融合的人脸表情识别方法

Info

Publication number: CN114783034A
Application number: CN202210515089.XA
Authority: CN
Inventors: 达飞鹏; 蒋倩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-22

Abstract

本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法，步骤如下：对公开表情数据集进行预处理；构建基于局部特征与全局特征的神经网络结构，该结构由全局特征提取分支和局部敏感特征提取分支构成；在局部敏感特征提取分支中添加敏感损失，与交叉熵损失一起作为联合损失来监督网络学习；将预处理过的样本图像输入到网络模型中进行训练；将待测试的人脸图像送入训练好的神经网模型中进行表情识别；本发明通过捕获全局和局部敏感特征，从而有效提升了人脸表情分类效果。

Description

基于局部敏感特征与全局特征融合的人脸表情识别方法

技术领域

本发明属于人脸表情识别技术领域，具体涉及一种基于局部敏感特征与全局特征融合的人脸表情识别方法。

背景技术

心理学家研究指出，在人与人的沟通中，面部表情所传递的信息占有非常大的比重，高达55％，38％的情感信息来源于说话的音调，而谈话内容所传递的情感信息仅占7％。人脸表情识别对实现和谐有效的人机交互具有重要意义和潜在价值，逐渐成为机器视觉领域的一项研究热点，受到了越来越多的关注。

人脸表情的判别性特征都位于几个关键区域。从图像局部特征域的角度提取特征成为研究人脸表情识别的一个突破口。现有的采用局部特征进行表情识别的算法主要存在一下两个问题。首先在局部区域的获取上，大多数方法采用随机框选或按照面部关键点划分对图像进行分块。前者会导致提取出的局部区域并不能准确包含面部五官信息，后者会在大大提升模型计算量。其次，在全局特征和局部特征的融合方式上，大部分方法采用的是直接将元素对应位置相加或者特征向量拼接，这种较为简单的操作方法有可能会降低特征的表征能力，不能充分发挥每个特征的优势。

发明内容

为解决上述问题，本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法，对面部局部表情特征和全局特征进行综合分析与非线性加权融合，采用局部敏感损失函数和交叉熵损失函数的结合来进行网络参数的优化，

一种基于局部敏感特征与全局特征融合的人脸表情识别方法，包括以下步骤：

步骤1：从网络上获取公开数据集或从真实环境中采集人脸表情图像，并对数据集进行预处理；

步骤2：设计基于局部敏感特征与全局特征融合的网络结构，全局分支用于从完整人脸图像中提取全局语义特征，局部分支用于从局部特征图中提取细粒度表情特征；

步骤3：将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合，并将融合后的特征送入Softmax分类器中预测人脸表情类别；

步骤4：在局部分支中添加局部敏感损失，与交叉熵损失加权组合构成联合损失共同监督网络训练；

步骤5：使用步骤1中预处理过的样本数据输入到网络中训练并测试。

进一步的，所述步骤1的具体方法为：

所述人脸表情公开数据集为FER2013、RAF-DB、CK+和Oulu-CASIA数据集，本方法首先对数据集进行预处理；利用Dlib人脸检测算法检测出图像中的人脸区域，将其从原始图像中裁剪出来，缩放到统一尺寸224×224，针对单通道图像，通过复制法将单通道图片转化为三通道图片，并采用随机水平翻转、随机裁剪的方法进行数据增强。

进一步的，所述步骤2的具体方法为：

所述网络结构以残差结构为基础，全局分支由ResNet34的block1-block3组成，每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块，并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块，全局分支的前两个block构成预处理模块，用于从输入图像中提取浅层特征，将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重，在靠近局部分支输出端的位置，将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块，其中具体的构建网络结构的方法为：

步骤2.1：ResNet34网络中前三个block分别包含3,4,6个残差结构，所述全局分支网络将尺寸为224×224×3的原始图像作为输入，依次经过三个block进行全局特征提取，在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸，并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合，得到最终的全局高层语义特征；

步骤2.2：步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩，得到两个尺寸为1×h×w的空间维度全局特征M_Avg和M_Max，为减少输入信息丢失，对输入特征图F进行1×1卷积，得到尺寸为c×h×w的特征块M_1×1conv，将M_Avg和M_Max进行逐元素相加后，经Sigmoid激活，得到尺寸为1×h×w的空间注意力图M_SA，将M_SA与M_1×1conv进行逐元素相乘后送入1×1卷积，并与原始的输入特征图F进行逐元素相加，生成经空间注意力模块优化后的尺寸为c×h×w的特征图F_SA可以表示为：

F_SA＝F+f_1×1conv(δ(M_Avg+M_Max)×M_1×1conv) (1)

M_Avg＝AvgPool(F) (2)

M_Max＝MaxPool(F) (3)

M_1×1conv＝f_1×1conv(F) (4)

其中：f_1×1conv表示1×1卷积，MaxPool表示最大池化，AvgPool表示平均池化，δ表示Sigmoid激活操作；

步骤2.3：步骤2.1中所述下采样模块将空间注意力输出特征块F_SA归一化到统一尺寸，下采样模块采用池化和3×3卷积操作串联构成，由于每一个F_SA的尺寸不同，因此将其细化分别命名为F_SA1、F_SA2和F_SA3，其中，F_SA1的尺寸为64×56×56，F_SA2的尺寸为128×28×28，F_SA3的尺寸为256×14×14，将F_SA1、F_SA2和F_SA3分别输入下采样模块，生成尺寸为512×14×14的F_DS1、F_DS2和F_DS3，可以分别表示为：

F_DS1＝f_3×3conv1(MaxPool_1(F_SA1)) (5)

F_DS2＝f_3×3conv2(MaxPool_2(F_SA2)) (6)

F_DS3＝f_3×3conv3(MaxPool_3(F_SA3)) (7)

其中：f_3×3conv1、f_3×3conv2和f_3×3conv3表示3×3卷积，各自的卷积参数不同，MaxPool_1、MaxPool_2和MaxPool_3表示最大池化，各自的池化参数不同；

步骤2.4：步骤2.1中所述在全局分支输出端的位置对F_DS1、F_DS2和F_DS3进行特征融合，融合方式采用逐元素相加，得到最终的全局高层语义特征F_Global可以表示为：

F_Global＝F_DS1+F_DS2+F_DS3 (8)

步骤2.5：输入图像经全局分支的前两个block，提取到浅层特征F_Shallow，F_Shallow包含纹理，线条等基本的图像信息以及一些浅层的面部信息，将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重，在靠近局部分支输出端的位置，将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块F_Local；

步骤2.6：步骤2.5中所述将浅层特征F_Shallow按照五官位置分为9个patch，F_Shallow的尺寸为128×28×28，空间维度的尺寸可以表示为F_Shallow[0:28,0:28]，每个patch的尺寸为128×14×14，具体的提取坐标范围为：Patch₁＝F_Shallow[0:14,0:14]，Patch₂＝F_Shallow[0:14,14:28]，Patch₃＝F_Shallow[4:18,0:14]，Patch₄＝F_Shallow[0:14,7:21]，Patch₅＝F_Shallow[4:18,14:28]，Patch₆＝F_Shallow[10:24,0:14]，Patch₇＝F_Shallow[7:21,7:21]，Patch₈＝F_Shallow[10:24,14:28]，Patch₉＝F_Shallow[14:28,7:21]；

步骤2.7：步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中，特征提取单元由3×3卷积操作构成，权值估计单元由基本的卷积操作，全局池化，全连接层依次串联组成，Patch₁-Patch₉经过特征提取模块提取细粒度特征后，经权值估计单元计算该patch内包含表情特征的丰富度，输出各自对应的重要性权重α，α₁可以表示为：

α₁＝δ(FC(AvgPool(f_3×3conv(f_5×5conv(f_3×3conv(Patch₁)))))) (9)

其中，f_3×3conv表示3×3卷积，f_5×5conv表示5×5卷积，AvgPool表示平均池化，δ表示Sigmoid激活操作，α₁-α₉的计算方式相同；

每个patch最终得到的局部敏感特征块F_Patch，可以表示为：

F_Patch1＝α₁·f_3×3conv(Patch₁) (10)

将9个局部敏感特征块以逐元素相加的方式融合，得到最终的局部特征块F_Local，可以表示为：

F_Local＝F_Patch1+F_Patch2+……+F_Patch9 (11)

进一步的，所述步骤3的具体方法为：

将全局特征F_Global和局部敏感特征F_Local分别经双层卷积后得到F_Global1和F_Local1，将F_Global1和F_Local1分别经Sigmoid激活后再次逐元素相加融合，生成F_Fusion，对F_Fusion进行Sigmoid激活后生成激活值α_Fusion，将α_Fusion分别与F_Global和相乘后逐元素相加，得到最终的F_Output，可以表示为：

F_Output＝α_Fusion·F_Global+α_Fusion·F_Local (12)

α_Fusion＝δ(F_Global+F_Global1)+δ(F_Global+F_Global1) (13)

F_Global1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Global))))) (14)

F_Local1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Local))))) (15)

其中，δ表示Sigmoid激活操作，ReLU表示ReLU激活函数，BN表示归一化层，f_3×3conv表示3×3卷积；

进一步的，所述步骤4的具体方法为：

在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重，一方面，为了保证计算得到各个权值在数量级上不能有太大差异，另一方面要保证各局部敏感单元支路信息的完整性，各个权值不能完全相同，要尽量凸显信息丰富局部区域在特征融合中的占比，设计了一种局部敏感损失RP Loss，当9个重要性权重中的最大值α_max和其他权重差异不大时，损失值会增大，当α_max与其他权重值之间的差距很大时，损失值很小，局部敏感损失函数的具体的定义方式为：

L_RP＝-(1-σ)^γlog(σ) (11)

σ＝α_max-α₀ (12)

其中，σ是权重最大值α_max与权重平均值α₀之间的插值，γ表示可调因子。

最终的损失函数定义为：

L＝βL_CE+(1-β)L_RP (13)

其中，β表示两种loss之间的比重。

进一步的，所述步骤5的具体方法为：

将经过预处理之后的图片数据送入网络中训练，得到网络模型，将待测试图片经过同样的预处理步骤后送入模型中预测表情类别，最后计算预测准确度作为识别结果。

本发明的有益效果：

本发明设计双分支的网络架构，同时兼顾对全局表情特征和局部敏感特征的提取，充分发挥不同尺寸与抽象程度的表情特征的表征优势；

1)提取局部细粒度特征的同时获取每个局部patch的重要性程度，并在局部敏感分支的输出端对每个patch进行按照重要性权重进行加权融合，凸显信息丰富局部区域在特征融合中的占比，有效降低面部冗余信息对人脸表情识别的影响；

2)对全局特征和局部敏感特征进行非线性的特征融合与强化，生成更具鲁棒的整体特征；

3)设计局部敏感损失函数，增大不同局部面部区域的注意力权值差异，在空间维度上凸显信息丰富的局部面部区域，实现更好的分类效果。

附图说明

图1是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的整体流程图；

图2是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的网络结构图；

图3是空间注意力模块Spatial Attention Module(SAM)网络结构图；

图4是特征图分割对应面部位置展示图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本实施案例采用Python3.7及Pytorch深度学习框架作为实验平台，使用显存为8G的GeForce RTX 3070显卡作为训练工具。针对FER2013数据集，使用Training作为训练集(样本数为28709)，PrivateTest作为测试集(样本数为3589)，PublicTest作为验证集(样本数为3589)。针对CK+数据集(样本数为981)和Oulu-CASIA数据集(样本数为1440)，使用10折交叉验证的方式划分为10等分，分别取其中9份作为训练集，剩余1份作为测试集，一共进行10次训练，并取所有结果的平均值。针对RAF-DB数据集，使用原始数据对训练集(样本数为12271)和测试集(样本数为3068)的初始划分作为本实例的划分依据。

本实施案例不采用任何数据集来预训练模型。每种数据集的训练过程采用相同的超参数设置：训练最大迭代次数为200轮；batch_size为128；使用RAdam优化器；plateau_patience设置为5；初始学习率为0.001；weight_decay为1e-6。测试指标为准确率(Accuracy)。以下针对上述实例对本发明作进一步的阐述，如图1所示，本发明的流程包括：

步骤1：将FER2013.csv拆分为三个csv文件，分别命名为:Train.csv,Test.csv,Val.csv，分别在模型训练，测试，验证的时候喂入网络。对RAF-DB数据集，首先将图片按照标签，分别放入Train文件夹和Test文件夹中对应的表情类别文件夹中，再将训练图片和测试图片分别转为csv文件形式，命名为Train.csv和Test.csv，分别在模型训练和测试的时候送入网络。对于、CK+数据集和Oulu-CASIA数据集，分别将测试图片转为csv文件形式，并分别命名为CK+.csv和Oulu-CASIA.csv，将每一个csv文件划分为10等分，每次取其中9份作为训练集，剩余数据作为测试集，分别在模型训练和测试的时候送入网络，因此针对CK+数据集和Oulu-CASIA数据集，需要做10次实验，并取结果的平均值作为最终的结果。利用Torch.Dataset读取批量数据时，首先通过复制法将FER2013数据集和CK+数据集的单通道图片转化为三通道图片，RAF-DB数据集和Oulu-CASIA数据集保留原始三通道格式。接着利用torchvision中的transforms工具对训练数据依次进行角度范围为[-45°～45°]的随机旋转和概率为50％的随机水平翻转，对测试数据进行角度范围为[-45°～45°]的随机旋转。

如图2所示，步骤2：所述网络结构以残差结构为基础，全局分支由ResNet34的block1-block3组成，每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块，并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块，全局分支的前两个block构成预处理模块，用于从输入图像中提取浅层特征，将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重，在靠近局部分支输出端的位置，将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块。其中具体的构建神经网络方法为：

步骤2.1：所述主干网络将尺寸为224×224×3的原始图像作为输入，依次经过三个block进行全局特征提取，在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸，并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合，得到最终的全局高层语义特征；

步骤2.2：步骤2.1中所述步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩，得到两个尺寸为1×h×w的空间维度全局特征M_Avg和M_Max，为减少输入信息丢失，对输入特征图F进行1×1卷积，得到尺寸为c×h×w的特征块M_1×1conv，将M_Avg和M_Max进行逐元素相加后，经Sigmoid激活，得到尺寸为1×h×w的空间注意力图M_SA，将M_SA与M_1×1conv进行逐元素相乘后送入1×1卷积，并与原始的输入特征图F进行逐元素相加，生成经空间注意力模块优化后的尺寸为c×h×w的特征图F_SA可以表示为：

F_SA＝F+f_1×1conv(δ(M_Avg+M_Max)×M_1×1conv) (1)

M_Avg＝AvgPool(F) (2)

M_Max＝MaxPool(F) (3)

M_1×1conv＝f_1×1conv(F) (4)

其中：f_1×1conv表示1×1卷积，MaxPool表示最大池化，AvgPool表示平均池化，δ表示Sigmoid激活操作；附图2中共标注了4个空间注意力模块，从左到右的输入特征图尺寸分别为64×56×56，128×28×28，256×14×14，512×7×7。

F_DS1＝f_3×3conv1(MaxPool_1(F_SA1)) (5)

F_DS2＝f_3×3conv2(MaxPool_2(F_SA2)) (6)

F_DS3＝f_3×3conv3(MaxPool_3(F_SA3)) (7)

F_Global＝F_DS1+F_DS2+F_DS3 (8)

F_Global的尺寸为512×7×7；

步骤2.6：步骤2.5中所述将浅层特征F_Shallow按照五官位置分为9个patch，F_Shallow的尺寸为128×28×28，空间维度的尺寸可以表示为F_Shallow[0:28,0:28]，每个patch的尺寸为128×14×14，具体的提取坐标范围为：Patch₁＝F_Shallow[0:14,0:14]，Patch₂＝F_Shallow[0:14,14:28]，Patch₃＝F_Shallow[4:18,0:14]，Patch₄＝F_Shallow[0:14,7:21]，Patch₅＝F_Shallow[4:18,14:28]，Patch₆＝F_Shallow[10:24,0:14]，Patch₇＝F_Shallow[7:21,7:21]，Patch₈＝F_Shallow[10:24,14:28]，Patch₉＝F_Shallow[14:28,7:21]，具体的分块形式如附图4所示；

α₁＝δ(FC(AvgPool(f_3×3conv(f_5×5conv(f_3×3conv(Patch₁)))))) (9)

每个patch最终得到的局部敏感特征块F_Patch，可以表示为：

F_Patch1＝α₁·f_3×3conv(Patch₁) (10)

F_Local＝F_Patch1+F_Patch2+……+F_Patch9 (11)

F_Local的尺寸为512×7×7。

步骤4：将全局特征F_Global和局部敏感特征F_Local分别经双层卷积后得到F_Global1和F_Local1，将F_Global1和F_Local1分别经Sigmoid激活后再次逐元素相加融合，生成F_Fusion，对F_Fusion进行Sigmoid激活后生成激活值α_Fusion，将α_Fusion分别与F_Global和相乘后逐元素相加，得到最终的F_Output，可以表示为：

F_Output＝α_Fusion·F_Global+α_Fusion·F_Local (12)

α_Fusion＝δ(F_Global+F_Global1)+δ(F_Global+F_Global1) (13)

F_Global1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Global))))) (14)

F_Local1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Local))))) (15)

步骤5：在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重，一方面，为了保证计算得到各个权值在数量级上不能有太大差异，另一方面要保证各局部敏感单元支路信息的完整性，各个权值不能完全相同，要尽量凸显信息丰富局部区域在特征融合中的占比，设计了一种局部敏感损失RP Loss，当9个重要性权重中的最大值α_max和其他权重差异不大时，损失值会增大，当α_max与其他权重值之间的差距很大时，损失值很小，局部敏感损失函数的具体的定义方式为：

L_RP＝-(1-σ)^γlog(σ) (11)

σ＝α_max-α₀ (12)

最终的损失函数定义为：

L＝βL_CE+(1-β)L_RP (13)

其中，β表示两种loss之间的比重，在训练和测试时取值为0.75；

步骤6：根据步骤1的预处理方式对FER2013、RAFDB、CK+、Oulu-CASIA数据集分别送入网络中进行训练，并加载模型对各自的测试集进行测试，得到最终的分类结果。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤1的具体方法为：

3.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤2的具体方法为：

F_SA＝F+f_1×1conv(δ(M_Avg+M_Max)×M_1×1conv) (1)

M_Avg＝AvgPool(F) (2)

M_Max＝MaxPool(F) (3)

M_1×1conv＝f_1×1conv(F) (4)

F_DS1＝f_3×3conv1(MaxPool_1(F_SA1)) (5)

F_DS2＝f_3×3conv2(MaxPool_2(F_SA2)) (6)

F_DS3＝f_3×3conv3(MaxPool_3(F_SA3)) (7)

F_Global＝F_DS1+F_DS2+F_DS3 (8)

α₁＝δ(FC(AvgPool(f_3×3conv(f_5×5conv(f_3×3conv(Patch₁)))))) (9)

每个patch最终得到的局部敏感特征块F_Patch，可以表示为：

F_Patch1＝α₁·f_3×3conv(Patch₁) (10)

F_Local＝F_Patch1+F_Patch2+……+F_Patch9 (11)。

4.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤3的具体方法为：

F_Output＝α_Fusion·F_Global+α_Fusion·F_Local (12)

α_Fusion＝δ(F_Global+F_Global1)+δ(F_Global+F_Global1) (13)

F_Global1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Global))))) (14)

F_Local1＝BN(f_3×3conv(BN(ReLU(f_3×3conv(F_Local))))) (15)

其中，δ表示Sigmoid激活操作，ReLU表示ReLU激活函数，BN表示归一化层，f_3×3conv表示3×3卷积。

5.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤4的具体方法为：

L_RP＝-(1-σ)^γlog(σ) (11)

σ＝α_max-α₀ (12)

最终的损失函数定义为：

L＝βL_CE+(1-β)L_RP (13)

其中，β表示两种loss之间的比重。

6.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤5的具体方法为：