CN114241564A

CN114241564A - 一种基于类间差异强化网络的人脸表情识别方法

Info

Publication number: CN114241564A
Application number: CN202111555614.2A
Authority: CN
Inventors: 达飞鹏; 蒋倩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-25

Abstract

本发明公开了一种基于类间差异强化网络的人脸表情识别方法，步骤如下：收集数据集，对数据集进行预处理；分析表情相似度关系；利用相似度信息构建并行分支网络分别提取全局特征和同于区分相似表情的细粒度特征；将提取的特征分别送入全连接层降维，并进行特征融合，经分类器输出表情类别；添加类平衡加权损失函数，以此扩大类间距。本方法充分利用表情相似度信息，提取细粒度特征，有效地提高了人脸表情分类效果。

Description

一种基于类间差异强化网络的人脸表情识别方法

技术领域

本发明属于人脸表情识别技术领域，具体涉及一种基于双分支注意力机制的人脸表情识别方法。

背景技术

表情包含丰富的人类情感信息，是人类相互交流的主要方式之一。人脸表情识别旨在从人脸图像中挖掘潜在的情感特征并进行分类，是计算机视觉领域的研究热点，在自动驾驶、课堂教学、临床心理学和智能交通等多个领域都显示出了广泛的应用前景。

当前基于深度学习的表情识别研究已经取得了很大的进展，研究人员们提出了各种有效的算法来提升网络的特征学习能力，其中包括：提取面部关键点坐标等辅助输入信号、对各个面部活动单元赋予不同的权重、提取人脸外观身份信息、设计新颖的损失函数优化网络参数等等。但这些方法忽略了不同表情类别间存在高相似度这一特性。例如张嘴是害怕、开心和惊讶的公共面部特征；皱眉是伤心、厌恶，生气的公共面部特征。因此，如何学习有判别性的细粒度人脸表情特征进而对表情间的细微差异进行区分，对提升人脸表情识别模型性能来说是至关重要的。

发明内容

发明目的：本发明的目的在于针对现有技术存在的不足，提供一种基于类间差异强化网络的人脸表情识别方法，设计一种并行的网络结构，对表情类别间的细微差异特征进行强化，提高表情网络识别效果。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于类间差异强化网络的人脸表情识别方法，包括以下步骤：

步骤1：从网络上获取公开数据集并进行图像预处理以及样本增强；

步骤2：进行先验实验对表情相似度关系进行分析，将7类基本表情划分到两个强关联集；

步骤3：设计并行网络结构，网络由主干网络BBN和强化分支DRN组成，将步骤1中得到的数据送入并行网络中，主干网络用于提取全局高层语义特征，强化分支用于提取相似表情细粒度特征；

步骤4：将步骤3中得到的高层语义特征和相似表情细粒度特征经全连接层降维后进行特征融合，经分类器输出人脸表情类别；

步骤5：基于有效样本数理论，设计类平衡加权损失函数。通过在Cross-EntropyLoss的基础上对多数类和稀有类赋予不同的权重，抑制类间竞争，缓解多数类作用于稀有类的负样本监督信号，扩大表情特征的类间距；

进一步的，所述步骤1具体包括以下步骤：

所述人脸表情数据集为FER2013数据集和RAF-DB数据集，本方法首先对数据集进行预处理。利用MTCNN人脸检测算法检测出图像中的人脸区域，将其从原始图像中裁剪出来，缩放到统一尺寸224×224，针对单通道图像，通过复制法将单通道图片转化为三通道图片，并采用随机裁剪、随机水平翻转的方法进行数据增强。

进一步的，所述步骤2具体包括以下步骤：

基于预处理后的FER2013和RAF-DB表情数据集，分别构造各表情类别样本数相等的平衡集。将两个平衡集分别送入三种经典卷积神经网络(ResNet18,ResNet34,ResNet50)中训练并测试得到相应的混淆矩阵，并从混淆矩阵中分析出表情间的相似度关系。其中具体的相似度分析方法为：

步骤2.1：为了减少数据的长尾问题带来的影响，分别对FER2013数据集和RAFDB数据集做随机欠采样实现数据平均，以最短类的数据量为基准，在其他类别中随机选择相同数量的图片，构成平衡集分别记做：FER2013_Balance，RAFDB_Balance；

步骤2.2：使用ResNet18,ResNet34,ResNet50作为先验实验的网络模型，将步骤2.1中得到的：FER2013_Balance和RAFDB_Balance分别送入三个网络中训练并测试，得到6个混淆矩阵；

步骤2.3：混淆矩阵主对角线上的元素表示正确分类结果，其余位置为错误分类结果。针对每个混淆矩阵，将每种表情被错分的概率由大到小排列，保留前三个概率值对应的表情类别，记做该真值类别的强关联表情。统计6个混淆矩阵中的强关联表情并绘制相似度关系矩阵。矩阵中主对角线以外的元素表示各种表情的相似度值；

步骤2.4：将相似度值大于等于4的两种表情类别划分到一组强关联集，由此可将7类表情划分到两个强关联集，分别记做：Group_SL1＝{Angry,Fearful,Surprised}，Group_SL2＝{Happy,Disgusted,Sad,Neutral}。

进一步的，所述步骤3具体包括以下步骤：

所述网络结构以ResNet34网络模型为基础，在网络中嵌入多个轻量级的注意力机制模块，构建主干网络。主干网络BBN以原始图片作为输入，学习全局高层语义特征。强化分支放置在主干网络的第二个残差块和第三个残差块之间并分化为两个分支，分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取。其中具体的构建并行神经网络的方法为：

步骤3.1：ResNet34网络中部由4个残差Block串联而成，每个Block分别包含3,4,6,3个残差结构。所述主干网络将尺寸为224×224×3的原始图像作为输入，在每两个Block之间嵌入轻量的联合注意力模块Lightweight Multi Attention Module(LMAM)，提取得到全局高层语义特征；

步骤3.2：步骤3.1中所述LMAM由Spatial Attention Module(SAM)和ChannelAttention Module(CAM)组成。尺寸为c×h×w的特征图F输入到LMAM中，经SAM学习各个空间位置间的关系，再经CAM获取不同通道的权重，得到最终特征图；

SAM首先利用AvgPool对输入特征图F进行压缩，得到尺寸为1×h×w的空间维度全局特征，再依次经过5×5卷积，MaxPool，3×3卷积后缩小特征尺寸，经上采样处理后恢复原尺寸，最后经Sigmoid激活，得到尺寸为1×h×w的空间注意图M_SA。将M_SA和F进行逐元素相乘，得到被空间注意图优化过的特征图F_SA可以表示为：

M_SA＝SAM(F)＝δ(Upsample(f_conv-pool(AvgPool(x)))) (1)

其中：f_conv-pool表示5×5卷积，MaxPool，3×3卷积串联结构。δ表示Sigmoid激活操作；

步骤3.3：将F_SA输入到CAM中进一步获取不同channel的权重信息。首先利用AvgPool和MaxPool分别对F_SA进行压缩，再分别经双层全连接层处理后，得到两个尺寸为c×1×1的通道特征M_{CA_Avg}和M_{CA_Max}，将M_{CA_Avg}和M_{CA_Max}进行逐元素相加后，经Sigmoid激活，得到空间注意力图M_CA。将M_CA和F进行逐元素相乘，生成被空间注意图和通道注意图双重优化过的特征图F_LMAM可以表示为：

M_CA＝CAM(F)＝(δ(f_FC1(AvgPool(F_SA)))+δ(f_FC2(MaxPool(F_SA)))) (3)

其中：f_FC1和f_FC2表示双层全连接层，δ表示Sigmoid激活操作；

步骤3.4：强化分支网络DRN由两个结构相同的小分支并联组成，分别对不同强关联集内的表情类别进行强化处理。每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元，提取到的相似表情差异细粒度特征可以表示为：

其中：F_DRN1和F_DRN2分别表示分支1和分支2提取到的相似表情细粒度特征。

进一步的，所述步骤4具体包括以下步骤：

将高层语义特征F_BBN和相似表情细粒度特征F_DRN1和F_DRN2分别经全连接层进行降维，再经特征融合得到最终输出特征F_ALL，经分类器输出人脸表情类别。其中具体的特征融合方法为：

步骤4.1：将F_BBN送入AvgPool和单层全连接层进行降维，得到7维输出向量可以表示为：

V_BBN＝[c_AN,c_DI,c_FE,c_HA,c_SA,c_SU,c_NE] (6)

其中：c_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示各类表情的输出值，下标表示该值对应的表情类别信息；

步骤4.2：将F_DRN1和F_DRN2分别经AvgPool和单层全连接层降维后得到7维的输出特征向量，特征向量的每一个元素都对应一种表情的输出特征：

其中：V_DRN1表示分支1的输出特征向量，V_DRN2表示分支2的输出特征向量；

a_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN1中的各类表情对应的输出值，下标表示该值对应的表情类别。b_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN2中的各类表情对应的输出值，下标表示该值对应的表情类别信息。为了达到强化效果，V_DRN1只保留Group_SL1中所包含的三种表情类别对应的输出值，其余位置的元素置零。V_DRN2只保留强Group_SL2中所包含的四种表情类别对应的输出值，其余位置的元素置零。根据步骤二中划分的强关联集，修正后的输出向量可以表示为：

将修正后的两个特征向量在对应位置相加得到强化分支的最终输出向量ECV，可以表示为：

V_DRN＝[a_AN,b_DI,a_FE,b_HA,b_SA,a_SU,b_NE] (9)

其中，a_i,i∈{AN,FE,SU}是向量V_DRN1中的各类表情对应的输出值，下标表示各自对应的表情类别b_j,j∈{DI,HA,SA,NE}是向量V_DRN2中的各类表情对应的输出值，下标表示各自对应的表情类别；

步骤4.3：将V_BBN和V_DRN以一定比例进行逐元素相加，在训练过程中通过控制动态平衡系数α来不断调整融合比例，使得网络的注意力在主干网络和强化分支之间迁移，在测试过程中α设置为常数值0.9。特征融合的平衡参数α和迭代次数之间的函数关系可以表示为：

其中：Epoch_Current和Epoch_Max分别表示当前迭代次数和最大迭代次数，Epoch_Current≥1。融合后得到的最终特征可以表示为：

V_ALL＝αV_BBN+(1-α)V_DRN (11)

进一步的，所述步骤5具体包括以下步骤：

从类平衡组合加权的角度，在交叉熵损失函数的基础上对稀有类进行保护，强化类间差异，增大类间距离。其中具体的类平衡组合加权的方式为：

步骤5.1：首先给出有效样本数F(n)的一个启发式定义：

其中：k是一个系数，n表示实际样本数，F(n)表示有效样本数。该启发式定义可以较好的刻画边际递减效应，当n足够大时，进一步增大n并不能满足有效样本容量。

基于此定义来对各个表情类别的加权权重进行重新定义：

其中：w_c，c∈[1,7]表示各表情类别的加权权重，c表示第c类，n_c表示第c类实际样本数目。

步骤5.2：基于步骤5.1中对各个表情类别加权权重的定义，构建Weighted Cross-Entropy Loss：

其中：c表示表情类别真值标签，

表示表情的预测输出概率值，w_c表示步骤5.1中定义的第c类表情的权重。

有益效果：本发明提供的一种基于类间差异强化网络的人脸表情识别方法，对表情相似度进行分析，利用嵌入轻量级注意力机制模块的并行分支同时提取全局高层语义特征以及用于区分相似表情的细粒度特征，采用类平衡加权损失函数来进行网络参数的优化，该方法有如下几个优点。

1)根据表情相似度关系，设计并行分支的网络架构，同时兼顾对全局语义特征和相似表情细粒度特征的提取，提升了对相似表情类别的分类效果；

2)轻量级的注意力模块先后对输入特征图进行空间维度和通道维度上的特征提取，使神经网络更加关注与表情形成高度相关的面部区域，有效降低面部冗余信息对人脸表情识别的影响；

3)动态的特征融合方式，不断调整网络的特征学习注意力，生成更具鲁棒的整体特征；

4)结合有效样本数原理，设计类平衡加权损失函数，一定程度上抑制了样本数较多类别作用于样本数较少类别的负样本监督信号，增大表情特征的类间距，实现更好的分类效果。

附图说明

图1是本发明提供的基于类间差异强化网络的人脸表情识别方法的整体流程图；

图2是本发明提供的基于类间差异强化网络的人脸表情识别方法的网络结构图；

图3是注意力模块Lightweight Multi Attention Module(LMAM)网络结构图；

图4是通道注意力模块Channel Attention Module(CAM)网络结构图；

图5是空间注意力模块Spatial Attention Module(SAM)网络结构图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

实施案例

本实施案例采用Python3.7及Pytorch深度学习框架作为实验平台，使用显存为8G的GeForce RTX 3070显卡作为训练工具。针对FER2013数据集，使用Training作为训练集(样本数为28709)，PrivateTest作为测试集(样本数为3589)，PublicTest作为验证集(样本数为3589)。针对RAF-DB数据集，使用原始数据对训练集(样本数为12271)和测试集(样本数为3068)的初始划分作为本实例的划分依据。本实施案例不采用任何数据集来预训练模型。两种数据集的训练过程采用相同的超参数设置：训练最大迭代次数为150；batch_size为48；使用RAdam优化器；plateau_patience设置为2；初始学习率为0.01；weight_decay为0.0001。测试指标为准确率(Accuracy)。以下针对上述实例对本发明作进一步的阐述，本发明的流程包括：

步骤1：本实施案例使用FER2013数据集(FER2013.csv)和RAF-DB数据集中经过人脸对齐后的图片(aligned文件夹)，不再使用MTCNN进行人脸对齐。将FER2013.csv拆分为三个csv文件，分别命名为:Train.csv,Test.csv,Val.csv，分别在模型训练，测试，验证的时候喂入网络。对RAF-DB数据集，首先将图片按照标签，分别放入Train文件夹和Test文件夹中对应的表情类别文件夹中，再将训练图片和测试图片分别转为csv文件形式，命名为Train.csv和Test.csv，分别在模型训练和测试的时候送入网络。利用Torch.Dataset读取批量数据时，首先通过复制法将FER2013数据集的单通道图片转化为三通道图片，RAF-DB数据集保留原始三通道格式。接着利用torchvision中的transforms工具对训练数据依次进行角度范围为[-30°～30°]的随机旋转和概率为50％的随机水平翻转，对测试数据进行角度范围为[-30°～30°]的随机旋转。

步骤2：基于预处理后的FER2013和RAF-DB表情数据集，分别构造各表情类别样本数相等的平衡集。将两个平衡集分别送入三种经典卷积神经网络(ResNet18,ResNet34,ResNet50)中训练并测试得到相应的混淆矩阵，并从混淆矩阵中分析出表情间的相似度关系。其中具体的相似度分析方法为：

步骤2.1：为了减少数据的长尾问题带来的影响，分别对FER2013数据集和RAF-DB数据集做随机欠采样实现数据平均，以最短类的数据量为基准，在其他类别中随机选择相同数量的图片，构成平衡集分别记做：FER2013_Balance，RAFDB_Balance，其中FER2013_Balance训练集、测试集、验证集中每类表情的样本数分别为436，55，56，RAFDB_Balance训练集和测试集中每类表情的样本数分别为281，74；

步骤2.2：使用在ImageNet数据集上预训练过的ResNet18,ResNet34,ResNet50作为先验实验的网络模型，将步骤2.1中得到的FER2013_Balance和RAFDB_Balance分别送入三个网络中训练。对所有训练过程使用RAdam优化器优化参数，并采用相同的超参数设置：最大迭代次数为100次；初始学习率为0.001；weight_decay设置为0.0001；batch_size为48。训练后调用模型在相应的测试集上测试，得到6个混淆矩阵；

步骤2.3：混淆矩阵纵轴表示各个表情类别的Ture Label，横轴表示各个表情类别的Predict Label。记录矩阵的每一行中除纵轴对应自身表情类别之外，识别概率最高的三类表情类别，记做该纵轴对应的真值类别的强关联表情，统计6个混淆矩阵中的各类表情对应的强关联表情及其出现的频次，绘制相似度关系矩阵；

步骤2.4：将相似度值大于等于4的两种表情类别划分到一组强关联集，将7类表情划分到两个强关联集，分别记做：Group_SL1＝{Angry,Fearful,Surprised}，Group_SL2＝{Happy,Disgusted,Sad,Neutral}。

步骤3：所述网络结构以ResNet34网络模型为基础，ResNet34网络由一个7×7卷积层、16个残差模块、单层AvgPool和单层的全连接层组成。网络中部的残差模块被划分为4个Block，每个Block中分别包含3、4、6、3个残差模块。主干网络保留ResNet34靠近输入层的7×7卷积和靠近输出层的AvgPool以及单层全连接层，并在网络中嵌入3个轻量级的注意力机制模块。强化分支放置在从主干网络的第二个Block和第三个Block之间并分化为两个分支，分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取。其中具体的构建并行神经网络的方法为：

步骤3.1：所述主干网络将尺寸为224×224×3的原始图像作为输入，在每两个Block之间嵌入轻量的联合注意力模块Lightweight Multi Attention Module(LMAM)，提取得到全局高层语义特征；

SAM首先利用Torch中的nn.AdaptiveAvgPool3d函数对输入特征图F进行压缩，得到尺寸为1×h×w的空间维度全局特征，再依次经过5×5卷积，MaxPool，3×3卷积后缩小特征尺寸，经上采样处理后恢复原尺寸，最后经Sigmoid激活，得到尺寸为1×h×w的空间注意图M_SA。其中5×5卷积和3×3卷积的kernel_size＝1,stride＝1,padding＝1；MaxPool操作的kernel_size＝3,stride＝2,padding＝1；采用转置卷积实现上采样。将M_SA和F进行逐元素相乘，得到被空间注意图优化过的特征图F_SA可以表示为：

M_SA＝SAM(F)＝δ(Upsample(f_conv-pool(AvgPool(x)))) (1)

其中：f_conv-pool表示依次经过5×5卷积，MaxPool，3×3卷积处理。δ表示Sigmoid激活操作；

M_CA＝CAM(F)＝(δ(f_FC1(AvgPool(F_SA)))+δ(f_FC2(MaxPool(F_SA)))) (3)

其中：f_FC1和f_FC2表示双层全连接层，δ表示Sigmoid激活操作；

步骤3.4：强化分支网络DRN由两个结构相同的小分支并联组成，分别对不同强关联集内的表情类别进行强化处理。每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元，具体的操作步骤以及提取到的相似表情差异细粒度特征可以表示为：

步骤4：将高层语义特征F_BBN和相似表情细粒度特征F_DRN1和F_DRN2分别经全连接层进行降维，再经特征融合得到最终输出特征F_ALL，经SoftMax分类器输出人脸表情类别。其中具体的特征融合方法为：

V_BBN＝[c_AN,c_DI,c_FE,c_HA,c_SA,c_SU,c_NE] (6)

其中：c_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示各类表情的输出值，下标表示该元素对应的表情类别信息；

a_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN1中输出各类表情的输出值，下标表示该元素对应的表情类别信息。b_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN2中的元素，下标表示该元素对应的表情类别信息。为了达到强化效果，V_DRN1只保留Group_SL1中所包含的三种表情类别对应的元素信息，其余位置的元素置零。V_DRN2只保留Group_SL2中所包含的四种表情类别对应的元素信息，其余元素置零。根据步骤二中划分的强关联集，修正后的输出向量可以表示为：

V_DRN＝[a_AN,b_DI,a_FE,b_HA,b_SA,a_SU,b_NE] (9)

其中，a_i,i∈{AN,FE,SU}是向量V_DRN1中的元素，b_j,j∈{DI,HA,SA,NE}是向量V_DRN2中的元素，下标表示各自对应的表情类别；

V_ALL＝αV_BBN+(1-α)V_DRN (11)

步骤5：从类平衡组合加权的角度，在交叉熵损失函数的基础上对稀有类进行保护，强化类间差异，增大类间距离。其中具体的类平衡组合加权的方式为：

步骤5.1：首先给出有效样本数F(n)的一个启发式定义：

基于此定义来对各个表情类别的加权权重进行重新定义：

实施案例中，FER2013数据集和RAF-DB数据集根据w_c计算得到各类表情类平衡加权权重值列表分别为：w_FER2013＝[0.0158,0.0478,0.0156,0.0118,0.0144,0.0178,0.0142]，w_RAF-DB＝[0.0376,0.0373,0.0595,0.0145,0.0225,0.0278,0.0199]。列表中各数值对应的表情类别依次为{Angry,Disgusted,Fearful,Happy,Sad,Surprised,Neutral}。

其中：c表示表情类别真值标签，

应当指出，以上所述实施案例仅是本发明的优选实施方式，而非对实施方式的限定，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于类间差异强化网络的人脸表情识别方法，其特征在于，包括以下步骤：

步骤2：进行先验实验分析表情相似度关系，将7类基本表情划分到两个强关联集；

步骤5：基于有效样本数理论，设计类平衡加权损失函数，通过在Cross-Entropy Loss的基础上对多数类和稀有类赋予不同的权重，抑制类间竞争，缓解多数类作用于稀有类的负样本监督信号，扩大表情特征的类间距。

2.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法，其特征在于，所述步骤1的具体方法为：

所述人脸表情数据集为FER2013数据集和RAF-DB数据集，本方法首先对数据集进行预处理，利用MTCNN人脸检测算法检测出图像中的人脸区域，将其从原始图像中裁剪出来，缩放到统一尺寸224×224，针对单通道图像，通过复制法将单通道图片转化为三通道图片，并采用随机裁剪、随机水平翻转的方法进行数据增强。

3.根据权利要求2所述的基于类间差异强化网络的人脸表情识别方法，其特征在于，所述步骤2的具体方法为：

基于预处理后的FER2013和RAF-DB表情数据集，分别构造各表情类别样本数相等的平衡集，将两个平衡集分别送入三种经典卷积神经网络中训练并测试得到相应的混淆矩阵，并从混淆矩阵中分析出表情相似度关系，其中，三种经典卷积神经网络包括ResNet18,ResNet34,ResNet50，具体的相似度分析方法为：

步骤2.3：混淆矩阵主对角线上的元素表示正确分类结果，其余位置为错误分类结果，针对每个混淆矩阵，将每种表情被错分的概率由大到小排列，保留前三个概率值对应的表情类别，记做该真值类别的强关联表情，统计6个混淆矩阵中的强关联表情并绘制相似度关系矩阵，矩阵中主对角线以外的元素表示各种表情间的相似度值；

4.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法，其特征在于，所述步骤3的具体方法为：

所述网络结构以ResNet34网络模型为基础，在网络中嵌入多个轻量级的注意力机制模块，构建主干网络，主干网络BBN以原始图片作为输入，学习全局高层语义特征，强化分支放置在主干网络的第二个残差块和第三个残差块之间并分化为两个分支，分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取，其中具体的构建并行神经网络的方法为：

步骤3.1：ResNet34网络中部由4个残差Block串联而成，每个Block分别包含3,4,6,3个残差结构，所述主干网络将尺寸为224×224×3的原始图像作为输入，在每两个Block之间嵌入轻量的联合注意力模块LMAM，提取得到全局高层语义特征；

步骤3.2：步骤3.1中所述LMAM由SAM和CAM组成，尺寸为c×h×w的特征图F输入到LMAM中，经SAM学习各个空间位置间的关系，再经CAM获取不同通道的权重，得到最终特征图；

SAM首先利用AvgPool对输入特征图F进行压缩，得到尺寸为1×h×w的空间维度全局特征，再依次经过5×5卷积，MaxPool，3×3卷积后缩小特征尺寸，经上采样处理后恢复原尺寸，最后经Sigmoid激活，得到尺寸为1×h×w的空间注意图M_SA，将M_SA和F进行逐元素相乘，得到被空间注意图优化过的特征图F_SA可以表示为：

M_SA＝SAM(F)＝δ(Upsample(f_conv-pool(AvgPool(x)))) (1)

其中：f_conv-pool表示5×5卷积，MaxPool，3×3卷积串联结构，δ表示Sigmoid激活操作；

步骤3.3：将F_SA输入到CAM中进一步获取不同channel的权重信息，首先利用AvgPool和MaxPool分别对F_SA进行压缩，再分别经双层全连接层处理后，得到两个尺寸为c×1×1的通道特征M_{CA_Avg}和M_{CA_Max}，将M_{CA_Avg}和M_{CA_Max}进行逐元素相加后，经Sigmoid激活，得到空间注意力图M_CA，将M_CA和F进行逐元素相乘，生成被空间注意图和通道注意图双重优化过的特征图F_LMAM可以表示为：

M_CA＝CAM(F)＝(δ(f_FC1(AvgPool(F_SA)))+δ(f_FC2(MaxPool(F_SA)))) (3)

其中：f_FC1和f_FC2表示双层全连接层，δ表示Sigmoid激活操作；

步骤3.4：强化分支网络DRN由两个结构相同的小分支并联组成，分别对不同强关联集内的表情类别进行强化处理，每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元，提取到的相似表情差异细粒度特征可以表示为：

5.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法，其特征在于，所述步骤4的具体方法为：

将高层语义特征F_BBN和相似表情细粒度特征F_DRN1和F_DRN2分别经全连接层进行降维，再经特征融合得到最终输出特征F_ALL，经分类器输出人脸表情类别，其中具体的特征融合方法为：

V_BBN＝[c_AN,c_DI,c_FE,c_HA,c_SA,c_SU,c_NE] (6)

步骤4.2：将F_DRN1和F_DRN2分别经AvgPool和单层全连接层降维后得到7维的输出特征向量，特征向量的每一个元素都对应一种表情的输出值：

a_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN1中的各类表情的输出值，下标表示该值对应的表情类别信息。，b_i,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量V_DRN2中的各类表情的输出值，下标表示该值对应的表情类别信息；为了达到强化效果，V_DRN1只保留Group_SL1中所包含的三种表情类别对应的数值信息，其余位置的元素置零，V_DRN2只保留Group_SL2中所包含的四种表情类别对应的数值信息，其余位置的元素置零，根据步骤二中划分的强关联集，修正后的输出向量可以表示为：