CN113159002B

CN113159002B - 一种基于自注意力权重辅助模块的人脸表情识别方法

Info

Publication number: CN113159002B
Application number: CN202110580434.3A
Authority: CN
Inventors: 黎勇; 汪榕涛; 刘锐
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-04-07
Anticipated expiration: 2041-05-26
Also published as: CN113159002A

Abstract

本发明涉及人脸表情识别技术领域，具体公开了一种基于自注意力权重辅助模块的人脸表情识别方法，包括步骤1：获取完整人脸图片以及人脸图片中鼻尖的位置；步骤2：将人脸图片以经过鼻尖的直线划分为两半，得到第一半脸图片和第二半脸图片；步骤3：获取完整人脸图片的全局特征向量、第一脸图片的局部特征向量以及第二半脸图片的局部特征向量；步骤4：将全局特征向量、局部特征向量及局部特征向量分别送入人脸表情识别神经网络中得到第一脸图片和第二半脸图片各自在辅佐预测中的权重值、全局预测向量、第一半脸局部预测向量和第二半脸局部预测向量；依照各预测向量权及其权重值得出最终的表情识别结果。本方法能有效识别人脸表情且抗姿势干扰。

Description

一种基于自注意力权重辅助模块的人脸表情识别方法

技术领域

本发明属于人脸表情识别技术领域，具体涉及一种基于自注意力权重辅助模块的人脸表情识别方法。

背景技术

面部表情包含着丰富的情感信息，是我们在日常沟通交流手段中最自然，语义最丰富的方式之一。现有技术中，通过多任务卷积神经网络(MTCNN，Zhang K,Zhang Z,Li Z,et al.Joint face detection and alignment using multitask cascadedconvolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.)不仅可以识别出图片的人脸部分，还可以检测出鼻尖的位置坐标。在此基础上，进行进一步的人脸表情识别在很多领域都有很高的潜在应用价值，例如医学治疗、监控驾驶员疲劳驾驶、智能服务机器人、心理健康评估等，所以人脸表情识别作为计算机视觉中重要且难以攻克的分支领域，一直受到很多研究者的关注。

但是现有的公开数据集中存在着大量的姿势变化，并且姿势变化是在现实条件下无法避免的：我们不能让被观察者以固定的姿势对着图像采集器，这使得表情识别的发展遇到了瓶颈。姿势变化首先会导致面部信息出现不同程度的缺失,其次左右旋转的姿势会使得模型学习到的特征出现各种变形，这使我们的网络每次面对的都是不可控的异样数据，同时有限的数据集不能覆盖庞大的可变姿势，这就使得网络学习有效特征的难度大大增加，同时也加剧了在最后的分类过程中模糊性。对于姿势变化大多数常规方法要么在非正面的面部图像上执行人脸正面化，要么为每个姿势学习单独的分类器。同时一些研究采用了姿势归一化技术来产生正面脸部视图来扩充数据集。最新的研究提出了将一幅图像切分为若干个区域的方法，然后经过自注意力模块和关系注意力模块整合各个区域来进一步提高表情判别的能力。此外由于给表情标注的成本很高，想获取大量正面人脸图像十分困难，于是一些研究提出了一系列基于GAN的深度模型用于正面视图合成来增强训练数据集。由于GAN采用的是一种无监督的学习方式训练，相比其他所有模型,GAN可以产生更加清晰、真实的样本。

但是上述这些方法由于自身的局限性，要么效果不太理想，要么模型过于复杂难以优化，经常陷于局部最优点，不能很好地缓解多姿势带来的干扰。因此找到一个有效且抗姿势干扰的方法具有重要的研究意义。

发明内容

基于此，本发明提出了一种基于自注意力权重辅助模块的人脸表情识别方法，提高在多姿势干扰下的人脸表情识别精度。

本发明中的基于自注意力权重辅助模块的人脸表情识别方法，包括以下步骤：

步骤1：获取完整人脸图片I_all以及人脸图片中鼻尖的位置；

步骤2：将人脸图片以经过鼻尖的直线划分为两半，得到第一半脸图片I_l和第二半脸图片I_r；

步骤3：获取完整人脸图片I_all的全局特征向量F_all、第一脸图片I_l的局部特征向量F_l以及，第二半脸图片I_r的局部特征向量F_r；

步骤4：将全局特征向量F_all、局部特征向量I_l及局部特征向量F_r分别送入人脸表情识别神经网络中；

所述人脸表情识别神经网络包括自注意力权重辅助模块和分类子网络；

所述分类子网络用于分别根据全局特征向量F_all、局部特征向量F_l及局部特征向量F_r进行表情分类识别,得到相应的全局预测向量P_all、第一半脸局部预测向量P_l和第二半脸局部预测向量P_r；

所述自注意力权重辅助模块根据局部特征向量F_r和F_l，得到第一脸图片I_l和第二半脸图片I_r各自在辅佐预测中的权重值w_l和w_r；

步骤5：依照全局预测向量P_all、第一半脸局部预测向量P_l和第二半脸局部预测向量P_r以及权重值w_l和w_r得出最终的表情识别结果。

进一步的，所述自注意力权重辅助模块包括一含两个隐藏层的子网络，所述隐藏层间为全连接关系，自注意力权重辅助模块根据特征向量提取各半脸图片在辅佐预测中所占权重w_l和w_r的计算公式如下：

w_i＝σ[W₂(W₁F_i)]；

其中，i∈{l，r},W₁、W₂分别为第一个和第二个隐藏层的参数，σ为Sigmoid函数。

进一步的，所述分类子网络根据特征向量得到预测向量P_j的计算公式如下：

P_j＝W₃F_j，

式中：j∈{all，l，r},P_j的大小均为N×1，N为人脸表情类别数，即预测向量的每一元素各自对应一种表情类别；

该分类子网络只包含一层全连接层，W₃为分类子网络的参数。

进一步的，步骤3中，由一用于人脸特征提取的特征提取模块根据完整人脸图片I_all获取全局特征向量F_all，

根据第一脸图片I_l获取局部特征向量F_l，

以及根据第二半脸图片I_r获得局部特征向量F_r。

进一步的，所述特征提取模块为一用于人脸特征提取的残差神经网络。

进一步的，所述残差神经网络为一ResNet18残差神经网络。

进一步的，步骤5中，按照如下算式的得到用于人脸表情识别的预测向量P：

P＝w_l×P_l+w_r×P_r+P_all。

进一步的，步骤5中，选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果。

进一步的，所述残差神经网络的参数获得包括如下内容：

获取用于特征提取的训练样本，通过该训练样本对残差神经网络进行预训练直至参数收敛，所得的残差神经网络初始参数作为后续训练的起点。

进一步的，所述残差神经网络、自注意力权重辅助模块和分类自网络的参数获得包括如下内容：

获取适用于上述网络/模块进行表情识别训练的人脸图片训练样本集，并建立的总损失函数，通过该人脸图片训练样本集对自注意力权重辅助模块、分类子网络以及残差神经网络共同进行用于表情识别的训练，每次训练中，皆通过求取最小化总损失函数的最优解对自注意力权重辅助模块、分类子网络以及经过训练残差神经网络的参数进行优化更新。

进一步的，所述总损失函数为：

式中：

P_aux为辅助预测向量，具体为：P_aux＝w_l×P_l+w_r×P_r；

w＝w_l+w_r；

P_gt为人脸图片训练样本集中的样本图片的标签向量，该标签向量与预测向量P具有相同的形式且指向正确的表情识别结果。

本发明的有益效果在于：现实情况下，人脸跟随头部姿势变化，会呈现不定规律的旋转，导致特征偏移或损失，这也使得脸部各部分的信息完整性具有不同。本方法中对两个半脸(如左右半脸)进行加权处理，增加较完整的半张脸对于结果的影响，减少残缺半张脸对于结果的影响。利用脸的局部信息作为辅助判断依据，不仅可以帮助模型提取鲁棒特征，而且可以修正网络输出，以此来对抗真实情况下的多姿势干扰。此外本发明只需要两个半脸的信息，这大大减少了模型的复杂度。方法在现有的公开数据集上都取得了比较好的结果，在RAF-DB数据集上可以取得87.44％的准确率，在AffectNet数据集上取得60.53％的准确率，这已经领先当前最先进的模型结果。

附图说明

图1是本发明实施例中的基于注意力权重辅助模块的人脸表情识别方法的基本流程图。

图2是本发明实施例中的注意力权重辅助模块的示意性逻辑框图。

图3是本发明实施例中的分类子网络的示意性逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例中基于注意力权重辅助模块的人脸表情识别方法基本如图1所示，首先，对于每一张表情图片I，首先在利用背景技术中提到的多任务卷积神经网(MTCNN)来检测出图片中的人脸部分，将人脸以外的部分剔除得到表情图片I_all，除此以外，MTCNN还会给出五个坐标点(分别为左眼中心、右眼中心、鼻尖、左嘴角和右嘴角)，于是，本实施例中，选取第三个坐标点(鼻尖)，引垂线垂直裁剪图I_all得到左脸图片I_l和右脸图片I_r，此处左脸图片I_l和右脸图片I_r对应本发明的第一半脸图片和第二半脸图片，本实施例后续的命名也将沿用左脸和右脸作为区分性的前缀；事实上本发明的方法允许经鼻尖点任意引支线划分图I_all，但考虑到人脸在图片中最常见的旋转是跟随人的头部左右旋转，且脸部表情具有一定的左右对成型，因此引垂线垂直裁剪图I_all是为本发明一个较优的实施选择，其他的划分方式，如依照左眼中心、右眼中心的连线的中心点与鼻尖形成的直线，可以带来更为准确的左右脸划分，但也带来了计算量的增加、实现复杂度上等升成本付出，另外也带来了要求左眼中心、右眼中心必须同时出现在图片上这类的前提条件。其他划分方式也各优缺点，在此不按，本领域技术人员可根据需要自行选择需要的划分方式。

本是实施例中，为了固化网络结构，对于包含完整人脸图像I_all、左脸图像I_l和右脸图像I_r首先经过缩放操作统一至非限定性的224×224像素尺寸，作为残差神经网络的输入。本实施例中的残差神经网络，选择但不限于基于经典的ResNet18残差神经网络(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016:770-778.)搭建，它包含三部分：第一部分由一个卷积层和一个批量归一化层组成，卷积层中包含了64个7×7大小的卷积核组成，其步长为2，最大池化层的窗口大小为3×3,步长为2，卷积层的输入大小为3×224×224，输出大小为64×112×112，池化层的输入大小为64×112×112，输出大小为64×56×56，第二部分包含了四层残差块，其基本结构为卷积层——批量归一化——Relu函数——卷积层——批量归一化依次相连，其输入大小均为64×56×56，输出大小为512×7×7，第三部分为一个全局池化层，它的窗口大小为7×7。缩放后的完整人脸图像I_all、左脸图像I_l和右脸图像I_r经过残差神经网络后会得到全局特征向量F_all、左脸特征向量F_l和右脸特征向量F_r，各特征向量的尺寸均为512×1。事实上，获得图片本身的特征向量的方法并不限于此，在本发明的其他实施例中，本领域技术人员可以依照本发明的技术思想根据需要自行选择其他方式获取。

随即，全局特征向量F_all、局部特征向量I_l及局部特征向量F_r分别被送入人脸表情识别神经网络中；人脸表情识别神经网络包括自注意力权重辅助模块和分类子网络；

包含局部信息的F_l和F_r被送入如图2所示的自注意力权重辅助模块，进而提取出这两个特征向量在辅助预测中所占的权重值w_l和w_r，如图2所示，自注意力权重辅助模块包含具有两个隐藏层的全连接神经网络，该神经网络输出作为Sigmoid函数的输入，于是权重值w_l和w_r的计算公式如下：

w_i＝σ[W₂(W₁F_i)]，

式中：i∈{l，r},W₁(大小为256×512)、W₂(大小为1×256)分别为第一个和第二个隐藏层的参数向量，σ为Sigmoid函数。

而后，本实施例中，利用如图3所示的分类子网络计算出每一个特征向量F_all、F_l和F_r的预测向量P_all、P_l和P_r，其中向量P_all、P_l和P_r的大小均为N×1，N为表情类别数，即预测向量的每一元素各自对应一种表情类别，各预测向量计算公式如下：

P_j＝W₃F_j

式中：j∈{all，l，r},分类子网络只包含一层全连接层，W₃(大小为N×512)为分类子网络的参数矩阵，

获得局部特征的权重和预测值以后，结合全局特征预测，可以得到模型最后的预测向量P，计算公式如下：

P＝w_l×P_l+w_r×P_r+P_all

最终，选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果，为此预测向量P被送入SoftMAX函数分类器，并被归一化为个元素取值均在(0，1)之间的向量，便于最后的识别输出。

以上，是本实施例中根据本发明的技术思想所建立起来的一个具体的、分限制性的人脸表情识别模型，在实际工作中，本领域技术人员可根据需要，在不脱离本发明的技术思想的基础上，对模型中的一些量化的细节进行调整，如各子网络/模块中神经元节点的数量、输入图片的大小，甚至于网络的部分具体的结构。

为了更好地训练模型，针对多姿势下的任务，本发明还设计了三个损失函数一起优化网络，首先对于局部信息来说，局部特征只有辅助作用，用以纠正模型最后的输出类别，因此用权重损失函数来约束优化最重要的自注意力权重模块，公式如下：

式中，w＝w_l+w_r。

其次为了降低多姿势下特征变形对识别精度的影响，强制全局特征的预测值要向局部特征的预测值靠拢，因此用特征损失函数来优化模型，公式如下：

式中，P_all为全局特征图的预测向量，P_aux为模型的辅助预测，其值为：

P_aux＝w_ll×P_ll+w_r×P_r

最后设计了交叉熵损失函数来优化模型的最终输出，公式如下：

式中，P_gt为训练样本集中的样本图片的标签向量，该标签向量与预测向量P具有相同的形式且指向正确的表情识别结果。

于是模型的总损失函数为：

对本实施例中对模型进行训练时，首先获取用于特征提取的训练样本，通过该训练样本对残差神经网络进行预训练直至参数收敛，所得的残差神经网络初始参数作为后续训练的起点。本实施例中，特征提取的训练样本选自ImageNet。

而后，获取适用于进行表情识别训练的人脸图片训练样本集，基于上述的总损失函数，通过该人脸图片训练样本集对自注意力权重辅助模块、分类子网络以及残差神经网络共同进行用于表情识别的训练，每次训练中，皆通过求取最小化总损失函数的最优解对自注意力权重辅助模块、分类子网络以及经过训练残差神经网络的参数进行优化更新。此处最优解的求取(如梯度下降法)以及利用损失函数进行神经网络参数更新的具体技术细节为本领域技术人员熟知，在此不做赘述。

本实施例中用于表情识别训练和测试的图像数据来源于两部分：

RAF-DB(LiS,Deng W,Du J P.Reliable Crowdsourcing and Deep Locality-Preserving Learning for Expression Recognition in the Wild[C]//2017 IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017.)是一个大规模的面部表情数据库，包含从Internet下载的大约3万张多样的面部图像。基于众包注释，每个图像已由约40个注释器独立标记。该数据库中的图像在受试者的年龄，性别，种族，头部姿势，光照条件，遮挡(例如眼镜，面部毛发或自我遮挡)和后处理操作(例如各种滤镜和特殊效果)方面变化很大。

AffectNet(Ali Mollahosseini,Behzad Hasani,and Mohammad H.Mahoor,“AffectNet:A New Database for Facial Expression,Valence,and ArousalComputation in the Wild”,IEEE Transactions on Affective Computing,2017.)收集了100多万张面部图像。手动注释了大约一半图像(约440K)，用七个离散的面部表情来标注这些图像。AffectNet是迄今为止最大的野外面部表情数据库，可用于在两种不同情感模型中进行自动面部表情识别的研究。

基于上述的数据集，本实施例中公开的方法与当前较先进IPA2LT方法(Zeng J,Shan S,Chen X.Facial expression recognition with inconsistently annotateddatasets[C]//Proceedings of the European conference on computer vision(ECCV).2018:222-237.)、RAN方法(Wang K,Peng X,YangJ,et al.Region attention networksfor pose and occlusion robust facial expression recognition[J].IEEETransactions on Image Processing,2020,29:4057-4069.，以及SCN方法(Wang K,PengX,Yang J,et al.Suppressing uncertainties for large-scale facial expressionrecognition[C]//Proceedings of theIEEE/CVF Conference on Computer Vision andPattern Recognition.2020:6897-6906.)的结果比较如表1和表2所示。

表1RAF-DB测试集的准确率对比：

方法	准确率
		IPA2LT	86.77％
RAN	86.90％
		SCN	87.03％
本申请方法	87.44％

表二AffectNet测试集的平均准确率对比

方法	平均准确率
		IPA2LT	55.71％
RAN	59.50％
		SCN	60.23％
本申请方法	60.53％

本实施例中公开的方法对两个半脸(如左右半脸)进行加权处理，增加较完整的半张脸对于结果的影响，减少残缺半张脸对于结果的影响。利用脸的局部信息作为辅助判断依据，不仅可以帮助模型提取鲁棒特征，而且可以修正网络输出，以此来对抗真实情况下的多姿势干扰。此外该只需要两个半脸的信息，这大大减少了模型的复杂度。从对比表格中可以看出，该方法在现有的公开数据集上都取得了比较好的结果，在RAF-DB数据集上可以取得87.44％的准确率，在AffectNet数据集上取得60.53％的准确率，已经领先当前最先进的模型结果。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，包括以下步骤：

步骤1：获取完整人脸图片I_all以及人脸图片中鼻尖的位置；

步骤3：获取完整人脸图片I_all的全局特征向量F_all、第一半脸图片I_l的局部特征向量F_l以及，第二半脸图片I_r的局部特征向量F_r；

所述分类子网络用于分别根据全局特征向量F_all、局部特征向量F_l及局部特征向量F_r进行表情分类识别，得到相应的全局预测向量P_all、第一半脸局部预测向量P_l和第二半脸局部预测向量P_r；

所述自注意力权重辅助模块根据局部特征向量F_r和F_l，得到第一半脸图片I_l和第二半脸图片I_r各自在辅佐预测中的权重值w_l和w_r；

2.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述自注意力权重辅助模块包括一含两个隐藏层的子网络，所述隐藏层间为全连接关系，自注意力权重辅助模块根据特征向量提取各半脸图片在辅佐预测中所占权重w_l和w_r的计算公式如下：

w_i＝σ[W₂(W₁F_i)]；

其中，i∈{l，r}，W₁、W₂分别为第一个和第二个隐藏层的参数，σ为Sigmoid函数。

3.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述分类子网络根据特征向量得到预测向量P_j的计算公式如下：

P_j＝W₃F_j，

式中：j∈{all，l，r}，P_j的大小均为N×1，N为人脸表情类别数，即预测向量的每一元素各自对应一种表情类别；

4.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，步骤3中，由一用于人脸特征提取的特征提取模块根据完整人脸图片I_all获取全局特征向量F_all，

根据第一半脸图片I_l获取局部特征向量F_l，

以及根据第二半脸图片I_r获得局部特征向量F_r。

5.根据权利要求4所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述特征提取模块为一用于人脸特征提取的残差神经网络。

6.根据权利要求5所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，步骤5中，按照如下算式的得到用于人脸表情识别的预测向量P：

P＝w_l×P_l+w_r×P_r+P_all。

7.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，步骤5中，选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果。

8.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述残差神经网络的参数获得包括如下内容：

9.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述残差神经网络、自注意力权重辅助模块和分类自网络的参数获得包括如下内容：

10.根据权利要求9所述的基于自注意力权重辅助模块的人脸表情识别方法，其特征在于，所述总损失函数为：

式中：

P_aux为辅助预测向量，具体为：P_aux＝w_l×P_l+w_r×P_r；

w＝w_l+w_r；