CN114170659A

CN114170659A - 一种基于注意力机制的面部情感识别方法

Info

Publication number: CN114170659A
Application number: CN202111445644.8A
Authority: CN
Inventors: 孙强; 梁乐; 党鑫豪
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-11

Abstract

本发明公开了一种基于注意力机制的面部情感识别方法，首先采集图像，并将图像分为训练样本集和测试样本集；然后读取训练样本集中每个样本图像原始情感标注值，并将训练样本集中每个样本图像送入多任务卷积神经网络中，得到输出特征；将预处理后得到的输出特征输入到残差注意力网络中得到注意力输出特征图；将输出特征图分别送入转换器Transformer和非局部神经网络中学习，从而得到输出特征；采用两阶段多任务学习网络训练一个分类器，从而可以将测试样本的深度特征通过分类器产生维度空间的情感状态值。本发明解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。

Description

一种基于注意力机制的面部情感识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于注意力机制的面部情感识别方法。

背景技术

近些年随着社会的不断发展以及各方面对于快速有效的自动情感识别的迫切需要，生物特征识别技术在近十几年中得到了飞速的发展。在现实生活中，为了正常的社会交流和需求，人们之间需要进行必要的情感识别，以判断对方的情绪做出正确的行为回应。

早在1981年，Aaron Sloman就提出了关于人工智能情感的研究。1985年，人工智能的奠基人之一Marvin Minsky提出计算机和情感的问题。1995年，MIT媒体实验室的Rosalind W.Picard正式提出情感计算的概念，并于1997年在《情感计算》中定义“情感计算”为“与情感有关、由情感引发或者能够影响情感因素的计算”。

情感识别作为识别领域的重要分支之一，近些年一直是广大学者的重点研究对象。对于静态人脸图像，在传统的识别方法中，研究者通常人为地提取情感特征(例如基于Dlib的68特征点)，然后送入预先设计好的分类器进行分类(SVM、决策树、随机森林等)，得到最终的情感预测结果。然而，这种方法在实际操作中，需要利用丰厚的经验去人工地选择合适的情感特征，并且往往需要耗费大量的时间和精力。而且，不同的特征对最终的结果贡献度不同，传统的方法并没有对其进行很好的区分。

近些年，随着计算机能力的不断提升，深度学习被重新提出。因其强大的特征学习能力和高性能，逐渐取代传统的机器学习成为识别领域的主流方法。目前基于深度学习的情感分析方法中，大多方法会结合注意力机制对有效特征进行筛选，但缺少对特征图之间依赖关系的学习能力进行建模，以及特征图中空间位置特征之间依赖关系的考虑。并且，传统的方法针对不同的任务会训练不同的模型，没有利用到相关任务之间的相似性。

发明内容

本发明的目的是提供一种基于注意力机制的面部情感识别方法，解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。

本发明所采用的技术方案是，基于注意力机制的面部情感识别方法，具体按照以下步骤实施：

步骤1、采集图像，并将图像分为训练样本集x_train和测试样本集x_test；

步骤2、读取训练样本集x_train中每个样本图像原始情感标注值，并将训练样本集x_train中每个样本图像送入多任务卷积神经网络MTCNN中，根据人脸检测和5个关键特征点，完成人脸对齐，得到输出特征x_input＝[x₁，x₂，...，x_n]；

步骤3、将预处理后得到的输出特征x_input输入到残差注意力网络中，然后通过主干分支提取不同感受野的特征M_i，c(x)、掩码分支学习注意力权重T_i，c(x)；最后，将主干分支的输出和掩码分支的输出进行点积运算，得到注意力输出特征图H_i，c(x)；

步骤4、将步骤3中得到的注意力输出特征图H_i，c(x)分别送入转换器Transformer和非局部神经网络学习，Transformer输出特征图之间的依赖关系Z_trans，非局部神经网络输出特征图中空间位置之间的依赖关系Z_non-local；

步骤5、将特征图之间的依赖关系Z_trans和特征图中空间位置之间的依赖关系Z_non-local进行融合，得到输出特征Z_fusion；

步骤6、采用两阶段多任务学习网络训练一个分类器，将步骤5得到的输出特征Z_fusion送入分类器，得到情感状态值：Arousal和Valence。

本发明的特点还在于，

步骤1具体按照以下步骤实施：

对于训练样本集x_train，样本图片为n×h×w维的张量x_train＝[(h₁，w₁)，(h₂，w₂)，...，(h_n，w_n)]，其中n表示训练样本集的样本总数目，h表示每个样本图片的长度，w表示每个样本图片的宽度，样本的原始情感标注值为n×2维的向量y_a，v＝[(a₁，v₁)，(a₂，v₂)，...，(a_n，v_n)]，其中(a_n，v_n)分别表示训练样本集x_train中第n个样本图片的Arousal和Valence标签；

对于测试样本集x_test，样本图片为m×h×w维的张量x_test＝[(h₁，w₁)，(h₂，w₂)，...，(h_m，w_m)]，其中m表示测试样本集的样本总数目，h表示每个样本图片的长度，w表示每个样本图片的宽度，样本的原始情感标注值为m×2维的向量y_a，u＝[(a₁，v₁)，(a₂，v₂)，...，(a_m，v_m)]，其中(a_m，v_m)分别表示测试样本集x_test中第m个样本图片的Arousal和Valence标签。

步骤2具体按照以下步骤实施：

步骤2.1、读取训练样本集x_train中每个样本图片(h_l，w_l)，其中l＝1，2，...，n，h_l表示第l个样本图片的长度，w_l表示第l个样本图片的宽度。然后将输入样本图片进行不同尺度的变换，得到一系列不同大小的图片，用来构建图片特征

其中x_k表示第k个图片的特征；

步骤2.2、然后将步骤2.1得到的图片特征

送入多任务卷积神经网络MTCNN，多任务卷积神经网络MTCNN由三个子网络组成，分别是Proposal Network、RefineNetwork和Output Network，其中Proposal Network由四层卷积神经网络构成，RefineNetwork由三层卷积神经网络和两层全连接层构成，Output Network由四层卷积神经网络和两层全连接层构成，之后得到MTCNN的输出特征x_input＝[x₁，x₂，...，x_n]，其中x_n表示第n个图片的特征。

步骤3具体按照以下步骤实施：

步骤3.1、对整体网络架构参数即权重、偏置初始化，包括网络中所有卷积层、池化层、全连接层；

步骤3.2、将输出特征x_input分别送入主干分支和掩码分支，得到主干分支的输出结果M_i，c(x)和掩码分支的输出结果T_i，c(x)，具体过程如下所描述：

主干分支：输出特征x_input经过两个卷积核大小为3×3的卷积层，并对每个卷积层输出结果进行批量正则化BN和ReLU函数激活，得到主干分支的输出结果M_i，c(x)，该输出结果M_i，c(x)为输出特征x_input不同感受野的特征；

假设第l层的卷积层输出为z^l，然后经过批量正则化BN和ReLU激活函数得到最终输出o^l，其具体计算公式如下：

o^l＝ReLU(BN(z^l))＝ReLU(BN(Wo^l-1+b)) (1)

W和b分别代表权重值与偏置，l＝1，2；

其中，BN为批量归一化，是一种对数据概率分布进行归一化处理的方法，计算公式如下：

公式(2)中，x_i表示输出特征x_input中的任一单个样本图像特征，x_BN为经过批量归一化后的输出特征，σ_l为第l层图像特征的标准差图像，μ_l为第l层图像特征的均值图像；

公式(2)中σ_l和μ_l的定义如下所示：

公式(3)和(4)中，x_k图像特征x_input中的任一单个样本图像特征，k表示每个小批次的样本数量个数，k≥1；

掩码分支：输出特征x_input经过两个池化操作和两个上采样操作，再使用sigmoid函数将输出调整至0到1的范围内，得到掩码分支的输出结果T_i，c(x)，该输出结果T_i，c(x)表示特征M_i，c(x)的注意力权重；

步骤3.3、将主干分支输出M_i，c(x)和掩码分支输出T_i，c(x)进行点积，并在此过程中引入残差机制，得到残差注意力特征H_i，c(x)，计算公式为：

H_i，c(x)＝(1+M_i，c(x))*T_i，c(x) (5)

其中H_i，c(x)为残差注意力特征，M_i，c(x)为主干分支的输出特征，T_i，c(x)为掩码分支的输出特征。

步骤4具体按照以下步骤实施：

步骤4.1、首先将步骤3得到的残差注意力特征H_i，c(x)送入Transformer学习特征图之间的依赖关系Z_trans；

由于残差注意力特征H_i，c(x)有z个通道，所以残差注意力特征H_i，c(x)表示为w×h×z，其中w表示残差注意力特征的长度，h表示残差注意力特征的宽度，z表示残差注意力特征的通道个数，然后将图像特征H_i，c(x)的维度变为z×wh方便送入Transformer；

Transformer是由有多个自注意力网络组成，每个自注意力网络首先通过权重矩阵W和输入特征X计算查询向量Q和键值对向量K-V，计算公式为：

Q＝XW^Q，K＝XW^K，V＝XW^V (6)

其中W^Q表示查询向量Q的权重矩阵，W^K表示键向量K的权重矩阵，W^V表示值向量V的权重矩阵。

然后采用点积模型QK^T得到注意力打分函数S(Q，K)，通过softmax函数将得分归一化至0到1之间，得到注意力权重值α：

α＝softmax(QK^T) (7)

其中α注意力权重值为要求的，K^T表示键向量K的转置向量。

最后将注意力权重值α与键向量V加权求和，得到输出特征，计算公式为：

Attention(Q，K，V)＝softmax(QK^T)V (8)

其中Attention(Q，K，V)表示要求的输出特征，softmax为激活函数，Q为查询向量，K^T表示键向量K的转置向量，V为值向量。

为了得到多个自注意力网络，根据(8)中所示计算步骤，采用h个查询向量Q＝[q₁，q₂，...，q_h]分别与输入特征X进行计算，其中h表示有h个自注意力网络，q_h表示第h个自注意力网络的查询向量，然后将h个自注意力网络的输出进行合并，称这种由多个自注意力网络组成的网络为多头注意力网络，其计算公式如下所示：

其中，att((K，V)，Q)为多头注意力网络的输出特征，att((K，V)，q_h)表示第h个自注意力网络的输出特征，

表示向量逐点相加；

最后通过一个全连接层完成输出，得到特征图之间的依赖关系Z_trans；

步骤4.2、然后将步骤3得到的残差注意力特征H_i，c(x)送入局部神经网络学习特征图中空间位置之间的依赖关系Z_non-local，

对残差注意力特征H_i，c(x)进行1×1卷积，将H_i，c(x)映射到三个不同的向量空间，分别用θ，

g表示这三个空间，得到对应向量空间的权重矩阵W_θ，

W_g，然后对特征图空间两不同像素位置之间相关性得分进行计算，计算公式为：

其中f(x_i，x_j)表示相关性得分，x_i为特征图中第i个像素点，x_j为特征图中第j个像素点，W_θ和

为向量空间θ和

的权重矩阵，角标T表示该矩阵的转置；

将x_i、x_j两点相关性得分与位置j的特征表征函数g(x_j)加权求和，得到针对位置i的位置依赖关系y_i，计算公式为：

其中，y_i是针对位置i计算得到的输出，x是输入特征，C(x)是归一化因子，g(x_j)是计算位置j的输入表征；

根据(11)中所示计算步骤，计算特征图中所有位置的依赖关系y_i，并组合在一起得到特征图中空间位置之间的依赖关系Z_non-local。

步骤6具体按照以下步骤实施：

步骤6.1、在第一阶段多任务学习中，使用两个分支分别学习步骤5得到的输出特征Z_fusion的分类表征Z_class和维度表征Z_dim，其中每个分支由一层全连接层组成，然后再将学习到的分类表征和维度表征这两类输出特征级联为一个特征Z_mtl-1；

步骤6.2、在第二阶段多任务学习中，使用一个线性回归器对特征Z_mtl-1进行线性回归，得到输出值：Arousal和Valence；

其中，线性回归器采用的损失函数为Tukey’s双权损失函数，具体已定义式如下所示：

公式(14)中Loss代表损失值，c＝4.685是一个超参数，y_i代表真实标签值，

代表预测的标签值。

本发明的有益效果是，本发明是一种基于注意力机制的面部情感识别方法，解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。

附图说明

图1是本发明的一种基于注意力机制的面部情感识别方法的整体网络模型架构。

图2是残差注意力网络模型结构。

图3是Transformer模型结构。

图4是残差注意力网络输出特征图转换为序列过程。

图5是多头注意力网络。

图6是非局部神经网络模块。

图7是集成深度表征的情感状态值预测模块。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于注意力机制的面部情感识别方法，结合图1～图7，具体按照以下步骤实施：

步骤1具体按照以下步骤实施：

每个训练样本和测试样本均有其对应的原始情感标志值。

对于训练样本集x_train，样本图片为n×h×w维的张量x_train＝[(h₁，W₁)，(h₂，w₂)，...，(h_n，w_n)]，其中n表示训练样本集的样本总数目，h表示每个样本图片的长度，w表示每个样本图片的宽度，样本的原始情感标注值为n×2维的向量y_a，v＝[(a₁，v₁)(a₂，v₂)，...，(a_n，v_n)]，其中(a_n，v_n)分别表示训练样本集x_train中第n个样本图片的Arousal和Valence标签；

对于测试样本集x_test，样本图片为m×h×W维的张量x_test＝[(h₁，w₁)，(h₂，w₂)，...，(h_m，w_m)]，其中m表示测试样本集的样本总数目，h表示每个样本图片的长度，w表示每个样本图片的宽度，样本的原始情感标注值为m×2维的向量y_a，v＝[(a₁，v₁)，(a₂，v₂)，...，(a_m，v_m)]，其中(a_m，v_m)分别表示测试样本集x_test中第m个样本图片的Arousal和Valence标签。

步骤2具体按照以下步骤实施：

其中x_k表示第k个图片的特征；

步骤2.2、然后将步骤2.1得到的图片特征

步骤3、将预处理后得到的输出特征x_input输入到残差注意力网络中，然后通过主干分支提取不同感受野的特征M_i，c(x)、掩码分支学习注意力权重T_i，c(x)；最后，将主干分支的输出和掩码分支的输出进行点积运算，得到注意力输出特征图H_i，c(x)；网络结构如图2所示，网络架构参数如下表1所示。

表1残差注意力网络模型参数表

步骤3具体按照以下步骤实施：

o^l＝ReLU(BN(z^l))＝ReLU(BN(Wo^l-1+b)) (1)

W和b分别代表权重值与偏置，l＝1，2；

公式(2)中σ_l和μ_l的定义如下所示：

H_i，c(x)＝(1+M_i，c(x))*T_i，c(x) (5)

步骤4具体按照以下步骤实施：

步骤4.1、首先将步骤3得到的残差注意力特征H_i，c(x)送入Transformer学习特征图之间的依赖关系Z_trans，网络结构如图3所示。

由于残差注意力特征H_i，c(x)有z个通道，所以残差注意力特征H_i，c(x)表示为w×h×z，其中w表示残差注意力特征的长度，h表示残差注意力特征的宽度，z表示残差注意力特征的通道个数，然后将图像特征H_i，c(x)的维度变为z×wh方便送入Transformer，转换过程如图4所示。

Q＝XW^Q，K＝XW^K，V＝XW^V (6)

α＝softmax(QK^T) (7)

其中α注意力权重值为要求的，K^T表示键向量K的转置向量。

Attention(Q，K，V)＝softmax(QK^T)V (8)

为了得到多个自注意力网络，根据(8)中所示计算步骤，采用h个查询向量Q＝[q₁，q₂，...，q_h]分别与输入特征X进行计算，其中h表示有h个自注意力网络，q_h表示第h个自注意力网络的查询向量，然后将h个自注意力网络的输出进行合并，称这种由多个自注意力网络组成的网络为多头注意力网络，网络结构如图5所示。其计算公式如下所示：

其中att((K，V)，Q)为多头注意力网络的输出特征，att((K，V)，q_h)表示第h个自注意力网络的输出特征，

表示向量逐点相加；

步骤4.2、然后将步骤3得到的残差注意力特征H_i，c(x)送入局部神经网络学习特征图中空间位置之间的依赖关系Z_non-local，网络结构如图6所示。

g表示这三个空间，得到对应向量空间的权重矩阵W_θ，

为向量空间θ和

的权重矩阵，角标T表示该矩阵的转置；

步骤6、采用两阶段多任务学习网络训练一个分类器，将步骤5得到的输出特征Z_fusion送入分类器，得到情感状态值：Arousal和Valence，多任务学习结构图如图7所示。

步骤6具体按照以下步骤实施：

代表预测的标签值。

实施例

本发明的实验基于AffectNet数据集进行，然后对本发明的性能进行评估与分析。

实验结果对比如下：

针对模型预测的标签值与原始标签值，分别计算均方根误差(RMSE)和一致性相关系数(CCC)，然后与已有的方法进行比较。针对不同的情感识别模型进行性能对比，结果如表2所示：

表2不同网络模型的性能对比

由表中数据可知，本发明设计的基于注意力机制的面部表情识别方法要优于传统方法。这验证了本发明针对残差注意力网络的输出特征通道之间的依赖关系，以及输出特征图中空间位置之间的依赖关系进行建模的有效性。

Claims

1.基于注意力机制的面部情感识别方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的基于注意力机制的面部情感识别方法，其特征在于，所述步骤1具体按照以下步骤实施：

3.根据权利要求2所述的基于注意力机制的面部情感识别方法，其特征在于，所述步骤2具体按照以下步骤实施：

步骤2.1、读取训练样本集x_train中每个样本图片(h_l，w_l)，其中l＝1，2，...，n，h_l表示第l个样本图片的长度，w_l表示第l个样本图片的宽度；然后将输入样本图片进行不同尺度的变换，得到一系列不同大小的图片，用来构建图片特征

其中x_k表示第k个图片的特征；

步骤2.2、然后将步骤2.1得到的图片特征

送入多任务卷积神经网络MTCNN，多任务卷积神经网络MTCNN由三个子网络组成，分别是Proposal Network、Refine Network和Output Network，其中Proposal Network由四层卷积神经网络构成，Refine Network由三层卷积神经网络和两层全连接层构成，Output Network由四层卷积神经网络和两层全连接层构成，之后得到MTCNN的输出特征x_input＝[x₁，x₂，...，x_n]，其中x_n表示第n个图片的特征。

4.根据权利要求3所述的基于注意力机制的面部情感识别方法，其特征在于，所述步骤3具体按照以下步骤实施：