CN114038037A

CN114038037A - 基于可分离残差注意力网络的表情标签修正和识别方法

Info

Publication number: CN114038037A
Application number: CN202111318610.2A
Authority: CN
Inventors: 师飘; 胡敏; 任福继; 李星达
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-11
Anticipated expiration: 2041-11-09
Also published as: CN114038037B

Abstract

本发明公开了一种基于可分离残差注意力网络的表情标签修正和识别方法，其步骤包括：1人脸表情数据的收集和MERC方法的预处理；2建立基于可分离残差注意力的人脸表情特征提取网络，依次包括：浅层网络模块，可分离残差注意力模块DSA以及权重输出模块；3使用标签修正模块LA，对较低权重的不确定性表情样本标签进行修正；4结合自注意力权重交叉熵损失L_SCE、排序正则化损失L_RR和类别权重交叉熵损失L_CCE对网络进行迭代训练。本发明能够对人脸表情数据样本进行干扰去除，对不确定性样本进行标签修正，并解决类别不均衡问题，最后使用深度可分离残差注意模块，在降低网络参数的同时，能提高人脸表情的识别精度。

Description

基于可分离残差注意力网络的表情标签修正和识别方法

技术领域

本发明涉及到卷积神经网络、深度可分离网络、残差网络、注意力模块和最终的人脸情感计算的分类判别，属于计算机视觉领域，具体的说是一种融合了多种技术的鲁棒的人脸表情识别方法。

背景技术

根据心理学家A.Mehrabia的研究表明，在人类的日常交流中，通过语言传递的信息仅占信息总量的7％，而通过人脸表情传递的信息却达到信息总量的55％，因此我们每天都在对外展示自己的表情，也在接收别人的表情。随着社会的快节奏发展，越来越多的心理疾病出现，如失眠、焦虑、抑郁症等。无接触的人脸表情分析在日常生活、人机交互、智能服务型机器人研发等领域，扮演着愈发重要的角色。可以说，“无情感不智能”逐步成为众多研究者的共识。

传统的人脸表情识别方法可以分为两大类，基于传统的机器学习方法和基于深度学习的方法。随着大数据时代的到来，数据量之多也同样要求我们对数据的处理效率更高，因此深度学习的方法成为了主流。深度学习方法主要包含以下三个步骤：

(1)人脸图像的截取。该步骤可以使用Dlib或者MTCNN工具进行人脸68个特征点定位，后根据特征点进行截取，或者将区域进行随机扩充截取。

(2)情感特征的提取。通常使用ResNet和VGG等现有的大型网络架构进行迭代训练，或者使用GAN的方法进行数据的扩充。网络设计前端或后端，会涉及到一些经典注意力机制的嵌入，使得网络学习到更加有效的特征。

(3)未知情感的判别。目前较为常用的分类方法是在神经网络的末端加入Softmax层来对未知样本进行类别概率计算，并最终映射到所属类别。

然而研究表明，常见的人脸68个特征点截取包括人脸的眉毛及以下区域，或者再进行区域的随机扩展后截取。这并不能很好的去除干扰和保留最大表情区域。对于注意力模型的嵌入，若在网络前端，则对深层语义特征不能很好的捕获，反义，在网络后端，则对丢失浅层语义特征。且现有的网络模型层数过多，很容易造成网络的过拟合现象。对于GAN网络的使用，在不确定性比较高的数据集中，对抗生成的图像样本可能更加的不确定。网络在训练期间，相关研究很少考虑到样本不同类别的不均衡问题和不确定性标签问题。上述问题会严重影响网络的学习效果以及对于未知样本的判别。

发明内容

本发明为克服现有技术的不足之处，提出一种基于可分离残差注意力网络的表情标签修正和识别方法，以期能更加准确地识别出人脸面部表情，降低不确定性标签样本和干扰样本对网络训练的影响，并提高网络特征提取的准确性，从而显著提高人脸情感识别率。

本发明为解决技术问题采用如下技术方案：

本发明一种基于可分离残差注意力网络的表情标签修正和识别方法的特点是按如下步骤进行：

步骤1、人脸表情数据的收集和MERC方法的预处理：

步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集进行人脸定位并获取每张图像人脸的p个特征点，其中，第n张人脸图像的第i个特征点记为p_i＝(x_i,y_i)，x_i表示第i个特征点的横坐标，y_i表示第i个特征点的纵坐标，i＝1,2,…,p，且第n张人脸图像的标签为flag_n，且flag_n∈{1,2,…,k,…,K}，其中，K表示标签的种类数，标签为k类的人脸图像数量记作n_k；

步骤1.2、利用式(1)所示的最大表情区域截取方法MERC计算第n张人脸图像的p个特征点的最大外接矩形s′_n并进行归一化，得到第n个人脸图像的最大表情区域s_n，并作为第n 个表情样本数据，从而得到表情样本数据集S＝{s₁,…,s_n,…,s_N}，N为表情样本总数：

式(1)中，x_max表示所有p个特征点横坐标的最大值，x_min表示所有特征点横坐标的最小值；y_max表示所有特征点纵坐标的最大值，y_min表示所有特征点纵坐标的最小值；

步骤2、建立基于可分离残差注意力的人脸表情特征提取网络，依次包括：浅层网络模块，可分离残差注意力模块DSA以及权重输出模块：

步骤2.1、所述浅层网络模块由q个浅层单元构成，每个浅层单元是由归一化层BN、激活函数层DReLU以及二维卷积Conv2D依次构成；

将所述表情区域数据集S输入浅层网络模块中，并依次经过q个浅层单元的处理后，得到浅层网络模块特征处理结果supResult；

步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成，每个残差注意力单元包括三条并行支路：可分离注意力支路、残差支路以及卷积核为1×1的卷积支路；

步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块依次构成；

所述特征处理结果supResult输入到第1个残差注意力单元中，并经过第1个残差注意力单元的可分离注意力支路的处理，依次包括：归一化层BN的处理，激活函数层DReLU的处理最后是可分离卷积层SepConv的处理后，输出处理结果CSE_in并作为第1个残差注意力单元中CSE注意模块的输入；

所述CSE注意力模块包含：通道注意力特征提取支路和两个垂直方向的空间特征提取支路；

通道注意力特征提取支路使用全局平均池化GAP对所述处理结果CSE_in进行处理，得到全局平均池化结果；

两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最大池化YGMP对所述处理结果CSE_in进行处理，相应得到X方向池化结果和Y方向池化结果；

三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层 Conv2以及激活函数Sigmoid后，相应得到通道注意力权值a_channel，两个空间垂直方向的注意力权值分别为

和

最终利用式(2)得到注意力模块CSE的注意力输出结果CSE_out：

所述注意力输出结果CSE_out再经过可分离卷积模块的处理，包括：归一化层BN的处理、可分离卷积层SepConv、MaxPool最大池化层的处理后，得到可分离注意力支路的特征处理结果sasResult；

步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理，并得到特征处理结果resResult；

步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1的Conv层的处理后，得到特征处理结果conResult；

步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后，得到特征处理结果dsaResult1＝sasResult+resResult+conResult并作为第2个残差注意力单元的输入，从而经过c个残差注意力单元的处理后，最终由第c个残差注意力单元输出特征处理结果dsaResult；

步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv和全局平均池化层AavgPool的处理，第n张表情样本数据s_n的特征处理结果为f_n，最后由激活函数Sigmod 输出第n张表情样本数据s_n的重要性权重α_n；

步骤3、使用标签修正模块LA，对较低权重的不确定性表情样本标签进行修正：

步骤3.1、将表情样本数据集S的权重按照

比例划分两组，并将较高比例的权重作为高重要性权重，其对应的表情样本数量记作

另一组则作为低重要性权重，其对应的表情样本数量为N-M；

步骤3.2、分别求取两组表情样本的平均重要性权重，其中，高重要性权重的均值记为α_H和低重要性权重的均值记为α_L；

步骤3.3、利用式(3)得到第n个表情样本数据s_n的新标签y′_n：

式(3)中，P_n,max表示第n个表情样本数据s_n的最大预测概率，P_n,gtInd表示第n个表情样本数据s_n的标签flag_n的最大预测概率，l_n,org和l_n,max分别表示样本数据s_n的原始给定的标签和预测后概率最大的标签；

步骤4、结合自注意力权重交叉熵损失L_SCE、排序正则化损失L_RR和类别权重交叉熵损失 L_CCE对网络进行迭代训练：

步骤4.1、利用式(4)构建第n个表情样本数据的自注意力权重交叉熵损失L_SCE：

式(4)中，k表示第n张表情样本s_n的标签flag_n所属的类别，W_k表示权重矩阵W的第k列参数，W_j表示权重矩阵W的第j列参数，j＝1,2,...,K；

步骤4.2、利用式(5)构建排序正则化损失L_RR：

L_RR＝max{0,β₂-(α_H-α_L)} (5)

式(5)中，β₂作为高重要性组和低重要性组之间的超参数；

步骤4.3、利用式(6)构建类别权重损失L_CCE：

式(6)中，α_n,k表示第n张表情样本数据s_n所属的类别k的权重，且

步骤4.4、利用式(7)构建总体损失函数L_total：

L_total＝L_SCE+L_CCE+L_RR (7)

步骤4.5、将表情样本数据集S＝{s₁,…,s_n,…,s_N}输入人脸表情特征提取网络中进行人脸表情特征提取网络的训练，并计算总体损失函数L_total，当训练迭代次数达到设定的次数时，训练停止，从而得到最优的人脸表情特征提取网络，用于对人脸表情图像的类别进行识别。

与已有技术相比，本发明的有益效果体现在：

1、本发明利用最大表情区域截取MERC方法，定位人脸81个特征点，对非人脸表情区域和非人脸干扰样本进行过滤，最大限度保留了对网络学习有用的图像区域。

2、本发明结合SENet和CBAM注意力模块的优点，设计CSE注意力模块，能够同时关注到通道特征和空间特征。由于CSE是一个轻量级的通用模块，可以无缝集成到任何CNN 架构的不同位置，并能够获取浅层语义特征和深层语义特征，最终有助于重要信息的提取。

3、本发明改进原始的网络模块“Conv-BN-ReLU”处理次序，将权重层置后，即 “BN-DReLU-Conv”，这种组合方式比原始组合次序更容易训练和泛化，且DReLU相比ReLU，可根据输入数值的不同，提供一种动态的激活映射，进而显著增强网络的表征能力。

4、本发明结合ResNet和Xception网络的优点，并融合新颖的CSE注意力模块，设计深度可分离残差注意力模块DSA，降低了网络参数的同时，提高了网络对有用特征的提取效果，并解决了深层网络学习过程中梯度易消失的问题。

5、本发明对训练数据中出现的表情标签不确定问题，提出基于自注意力权重的标签修正 LA模块，对不确定性标记的样本标签进行修正，使得网络学习到正确的类别特征。

6、本发明提出类别权重交叉熵损失(CCE-Loss)，并结合排序正则化损失(RR-Loss) 和自注意力权重交叉熵损失(SCE-Loss)对网络进行迭代训练，指导网络进行训练的同时，有效解决了数据中出现的表情类别不均衡问题，并缓和了训练的过拟合现象。

7、本发明能够实现端到端的训练和测试，与传统的情绪识别技术相比，端到端的结构能够同时实现情感相关特征的提取和分类，不需要手工设计复杂的情绪相关特征，通过训练使网络具有特征的选择和提取能力。

附图说明

图1为本发明方法整体的流程图；

图2为本发明中人脸的68个和81个特征点区域的对比图；

图3为本发明MERC方法的具体步骤图；

图4为本发明可分离残差注意力的人脸表情特征提取网络DSA-CNN；

图5为本发明CSE注意力模块结构图；

图6为本发明自注意力权重的标签修正模块LA结构图；

图7为本发明68个和81个特征点所获人脸表情区域的emoji表情检测对比图；

图8是本发明emoji表情可视化结果图。

具体实施方式

本实施例中，一种基于可分离残差注意力网络的表情标签修正和识别方法，如图1所示，整体包含三大步骤，预处理后特征提取，最后是标签修正；具体步骤包括：首先收集人脸表情数据并使用MERC方法进行预处理，如图3所示；然后建立基于可分离残差注意力的人脸表情特征提取网络，如图4所示，依次包括：浅层网络模块，可分离残差注意力模块DSA，如图5所示，以及权重输出模块；接着使用标签修正模块LA，如图6所示，对较低权重的不确定性表情样本标签进行修正；最后结合自注意力权重交叉熵损失L_SCE、排序正则化损失L_RR和类别权重交叉熵损失L_CCE对网络进行迭代训练。具体说，是按如下步骤进行：

步骤1、人脸表情数据的收集和MERC方法的预处理：

本实例中，使用的是实验室数据集CK+，以及野外真实环境数据集FER2013和RAF-DB，研究包含两大类数据，也是为了更充分全面地验证本发明；

步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集CK+、FER2013和RAF-DB进行人脸定位并获取每张图像人脸的p个特征点，其中，第n张人脸图像的第i个特征点记为p_i＝(x_i,y_i)，x_i表示第i个特征点的横坐标，y_i表示第i个特征点的纵坐标， i＝1,2,…,p，且第n张人脸图像的标签为flag_n，且flag_n∈{1,2,…,k,…,K}，其中K表示标签的种类数，标签为k类的人脸图像数量记作n_k；本实例中，标签种类数K＝7，代表Angry 生气、Disgust厌恶、Fear害怕、Happy开心、Sad伤心、Surprise惊讶、Neutral中性；p＝81，相比于传统方法的68个人脸表情特征点，如图2所示，拓展的81个特征点包含了眉毛以上的额头区域，这部分的纹理对于表情的判别同样重要；

步骤1.2、利用式(1)所示的最大表情区域截取方法MERC，如图3所示，可以最大限度保留有用表情区域，并去除非人脸干扰，进而为网络训练提供有用的训练样本；计算第n张人脸图像的p个特征点的最大外接矩形s′_n并进行归一化尺寸为48*48，得到第n个人脸图像的最大表情区域s_n，并作为第n个表情样本数据，从而得到表情样本数据集 S＝{s₁,…,s_n,…,s_N}，N为表情样本总数：

式(1)中，x_max表示所有p＝81个特征点横坐标的最大值，x_min表示所有特征点横坐标的最小值；y_max表示所有特征点纵坐标的最大值，y_min表示所有特征点纵坐标的最小值；

步骤2、建立基于可分离残差注意力的人脸表情特征提取网络，提取人脸表情图像特征，获得图像重要性权重，如图4所示，依次包括：浅层网络模块，可分离残差注意力模块DSA 以及权重输出模块：

步骤2.1、所述浅层网络模块由q个浅层单元构成，每个浅层单元是由归一化层BN、激活函数层DReLU以及二维卷积Conv2D依次构成，本实例中，q＝2，卷积核为3，步长为1，且改进网络模块“Conv-BN-ReLU”，将权重层置后，即“BN-DReLU-Conv”，这种组合方式比原始的方式更容易训练和泛化；且DReLU相比ReLU，可根据输入数值的不同，提供一种动态的激活映射；

步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成，每个残差注意力单元包括三条并行支路：可分离注意力支路、残差支路以及卷积核为1×1的卷积支路，本实例中，c＝6，随着残差注意力模块的堆叠，网络可以获取底层语义特征和高层语义特征；

所述特征处理结果supResult输入到第1个残差注意力单元中，并经过第1个残差注意力单元的可分离注意力支路的处理，依次包括：归一化层BN的处理，激活函数层DReLU的处理最后是可分离卷积层SepConv的处理后，输出处理结果CSE_in并作为第1个残差注意力单元中CSE注意模块的输入，本实例中，可分离卷积SepConv操作中，先经过核为3，步长为 1，填充为1的深度卷积，然后经过一个核为1，步长也为1的点卷积操作，可分离卷积相比与传统的Conv2D卷积，可以极大降低网络参数量；

所述CSE注意力模块包含：通道注意力特征提取支路和两个垂直方向的空间特征提取支路，如图5所示，通道注意力权值和空间上两个方向的注意力权值，均作用到原始数据上。且通道和空间特征并行处理，这充分增强了网络对重要性目标的特征提取效果，也提高网络的拟合能力和最终的判别效果；

通道注意力特征提取支路使用全局平均池化GAP对处理结果CSE_in进行处理，得到全局平均池化结果；

两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最大池化YGMP对处理结果CSE_in进行处理，相应得到X方向池化结果和Y方向池化结果；

和

最终利用式(2)得到注意力模块CSE的注意力输出结果CSE_out:

所述注意力输出结果CSE_out再经过可分离卷积模块的处理，包括：归一化层BN的处理、可分离卷积层SepConv、MaxPool最大池化层的处理后，得到可分离注意力支路的特征处理结果sasResult；本步骤中，Conv1核Conv2的核均为1步长也为1；可分离卷积SepConv操作中，先经过核为3，步长为1，填充为1的深度卷积，然后经过一个核为1，步长也为1的点卷积操作；MaxPool最大池化操作的核为3，步长为1，填充为1；

步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1，步长也为1的Conv层的处理后，得到特征处理结果conResult；

步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv，卷积核为3，步长为1，填充为1，和全局平均池化层AavgPool的处理，第n张表情样本数据s_n的特征处理结果为f_n，最后由激活函数Sigmod输出第n张表情样本数据s_n的重要性权重α_n；

步骤3、使用标签修正模块LA，如图6所示，对较低权重的不确定性表情样本标签进行修正：

步骤3.1、将表情样本数据集S的权重按照

另一组则作为低重要性权重，其对应的表情样本数量为N-M；

步骤3.2、分别求取两组表情样本的平均重要性权重，其中，高重要性权重的均值记为α_H和低重要性权重的均值记为α_L；具体计算公式如式(3)所示：

步骤3.3、基于经验发现，低重要性权重的样本标签通常具有很高的不确定性，对于这些低重要性样本的标签进行修正，利用式(4)得到第n个表情样本数据s_n的新标签y′_n：

式(4)中，P_n,max表示第n个表情样本数据s_n的最大预测概率，P_n,gtInd表示第n个表情样本数据s_n的标签flag_n的最大预测概率，l_n,org和l_n,max分别表示样本数据s_n的原始给定的标签和预测后概率最大的标签；

步骤4.1、利用式(5)构建第n个表情样本数据的自注意力权重交叉熵损失L_SCE：

式(5)中，k表示第n张表情样本s_n的标签flag_n所属的类别，W_k表示权重矩阵W的第k列参数，W_j表示权重矩阵W的第j列参数，j＝1,2,...,K；

步骤4.2、利用式(6)构建排序正则化损失L_RR：

L_RR＝max{0,β₂-(α_H-α_L)} (6)

式(6)中，β₂作为高重要性组和低重要性组之间的超参数，经验设置为0.15；

步骤4.3、利用式(7)构建类别权重损失L_CCE：

式(7)中，α_n,k表示第n张表情样本s_n所属的类别k的权重，且

步骤4.4、利用式(8)构建总体损失函数L_total：

L_total＝L_SCE+L_CCE+L_RR (8)

步骤4.5、将表情样本数据集S＝{s₁,…,s_n,…,s_N}输入人脸表情特征提取网络中进行人脸表情特征提取网络的训练，并计算总体损失函数L_total，当训练迭代次数达到设定的次数时，本实例中采用Adam优化器，迭代训练300次，训练停止，从而得到最优的人脸表情特征提取网络，用于对人脸表情图像的类别进行识别。

为进一步验证本发明的有效性，对测试样本进行分类判别和emoji表情输出，如图7所示，验证人脸68个特征点获得的图像和81个特征点图像检测的可视化对比结果，第一行使用81特征点的MERC方法，输入网络后成功输出了真实标签对应的emoji表情，“Surprise 惊讶”。而第二行是截去了眉毛之上的区域，使用68特征点获取的人脸图像输入到表情识别的网络中，得到错误标签的表情结果为“Fear害怕”。这验证了本发明MERC方法的有效性；进一步，对模糊图像，使用本发明进行验证，如图8所示，同样输出了真实标签所对应的emoji 表情，“Happy开心”和“Disgust厌恶”，这验证了本发明方法的鲁棒性。

综上所述，本发明能够对人脸表情数据样本进行干扰去除，对不确定性样本进行标签修正，并解决了类别不均衡问题，最后使用深度可分离残差注意模块，降低了网络参数的同时，提高了人脸表情的识别精度。本发明能够对实验数据样本进行干扰去除，并对不确定性样本进行标签修正，最后使用深度可分离残差注意模块，降低了网络参数的同时，提高了网络训练的效果以及最终的识别精度。