CN116129507A

CN116129507A - 一种面部表情识别方法及装置、电子设备、存储介质

Info

Publication number: CN116129507A
Application number: CN202310138881.2A
Authority: CN
Inventors: 张登辉; 黄伟铠
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-16

Abstract

本发明公开了一种面部表情识别方法及装置、电子设备、存储介质，该方法包括：获取用于训练和测试的人脸面部表情图像样本；构建并训练深度神经网络模型，所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络，所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块，所述双分支注意力通道模块包括局部注意力通道和全局注意力通道，所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器；优化保存的多组深度神经网络模型权重，所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块；采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

Description

一种面部表情识别方法及装置、电子设备、存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种面部表情识别方法及装置、电子设备、存储介质。

背景技术

人脸面部表情是人类表达情感状态和意图最有力、最自然和最普遍的信号之一。面部表情识别技术在社交机器人、医疗诊断、疲劳监测等人机交互领域中有着非常广泛的应用图像。目前独居人口日益增多，如何给予其情感藉慰成为社会重点关注的问题。许多研究者将重心倾注于情感交互机器人，其原因为情感机器人能够从文字、语音、人脸面部特征等多方面理解人类情感状态并与之交互，从而能在人们独居生活中给予他们贴心的互动交流。然而在真实的人机交互过程中，人们通常会进行一系列动态行为(转头、行走、拿取物品等)，这可能会导致机器人通过摄像头捕捉到的面部图像受到遮挡、姿态变化等因素影响，进而降低表情识别的准确率。

随着面部表情识别方法的深入研究，许多研究人员引入注意力机制来感知遮挡和姿态变化，设计了抑制标签注释歧义的方法。此外，视觉转化器(ViT)也被应用于面部表情识别，以加强细节特征之间的关联性，并实现了最先进的面部表情识别性能。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

1、对具有鉴别性面部特征的筛选能力不足以及对面部特征之间关联性的学习能力不足。2、仅采用表现最优越的单个模型的识别性能已接近瓶颈，且剩余的花费大量时间和资源得到的次优模型无法发挥其价值。

发明内容

本申请实施例的目的是提供一种面部表情识别方法及装置、电子设备、存储介质，以克服在面部表情识别时，面部遮挡和姿态变化导致的准确率降低的问题，同时充分挖掘次优模型的价值，以克服在训练深度神经网络模型时，浪费的大量时间成本和资源成本的问题。

根据本申请实施例的第一方面，提供一种面部表情识别方法，其特征在于，包括：

获取用于训练和测试的人脸面部表情图像样本；

构建并训练深度神经网络模型，所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络，所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块，所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块，所述双分支注意力通道模块包括局部注意力通道和全局注意力通道，所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络，所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器，所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器，所述多层Transformer编码器的输出输入到分类器中进行分类，输出图像的分类结果，保存每轮训练的模型权重；

优化保存的多组深度神经网络模型权重，所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块，所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块，所述全局贪心策略模块优化模型权重后输出图像的分类结果，保存优化模型权重；

采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

2.根据权利要求1所述的方法，其特征在于，所述双分支注意力通道模块用于执行如下操作：

将原始特征图经过双通道注意力计算得到局部注意力权重和全局注意力权重；

将所述局部注意力权重与全局注意力权重经过广播相加得到局部-全局注意力权重；

将原始特征图经过所述局部-全局注意力权重筛选后得到显著特征图。

3.根据权利要求1所述的方法，其特征在于，所述面部特征重构模块用于执行如下操作：

采用切片操作将显著特征图分成多个二维面部特征块；

将所述多个二维面部特征块经过线性投影映射为一维特征向量；

在所述一维特征向量头部嵌入可学习的情感分类编码，再在特征向量的每个特征单词中添加可学习的位置编码，生成输出的面部特征序列。

4.根据权利要求1所述的方法，其特征在于，所述多层Transformer编码器用于执行如下操作：

将面部特征序列依次输入到多头自注意模块和多层感知器模块，得到新的面部特征序列；

重复上述步骤多次，以得到具有强关联性的面部特征序列。

5.根据权利要求1所述的方法，其特征在于，所述局部贪心策略模块用于执行如下操作：

在保存的每个深度神经网络模型中挑选性能最佳的轮次区间权重组；

将所述轮次区间权重组经过贪心策略计算后输出局部权重最优解；

验证并保存所述局部权重最优解。

6.根据权利要求1所述的方法，其特征在于，所述全局贪心策略模块用于执行如下操作：

输入经过局部贪心策略模块计算得到的多组局部权重最优解；

将所述多组局部权重组经过贪心策略计算后输出全局权重最优解；

验证并保存所述全局权重最优解。

7.根据权利要求5或6所述的方法，其特征在于，所述贪心策略包括：

将模型权重组按照在测试集上的性能降序排序；

按顺序添加到贪心权重组；

只保留对识别性能有正向提升的模型权重。

根据本申请实施例的第二方面，提供一种面部表情识别装置，包括：

获取模块，用于获取用于训练和测试的人脸面部表情图像样本；

模型构建及训练模块，用于构建并训练深度神经网络模型，所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络，所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块，所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块，所述双分支注意力通道模块包括局部注意力通道和全局注意力通道，所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络，所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器，所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器，所述多层Transformer编码器的输出输入到分类器中进行分类，输出图像的分类结果，保存每轮训练的模型权重；

优化模块，用于优化保存的多组深度神经网络模型权重，所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块，所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块，所述全局贪心策略模块优化模型权重后输出图像的分类结果，保存优化模型权重；

识别模块，用于采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请因为采用显著特征筛选网络，具体包括双分支注意力通道模块(局部注意力通道和全局注意力通道)，克服了遮挡、姿态变化等因素引起的面部特征缺失问题，进而达到了聚焦并筛选具有鉴别性特征的效果。本申请因为采用视觉转化器网络，具体包括面部特征重构模块和多层Transformer编码器，克服了特征间关联性学习能力不足问题，进而达到了提升面部表情识别性能的效果。本申请因为采用多组深度神经网络模型权重的优化方法，具体包括局部贪心策略模块和全局贪心策略模块，克服了单个模型的识别性能瓶颈和次优模型资源浪费问题，进一步优化了面部表情识别的性能以及对模型权重资源的充分利用。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种面部表情识别方法的流程图。

图2是根据一示例性实施例示出的深度神经网络模型结构示意图；

图3是根据一示例性实施例示出的双分支注意力通道模块结构示意图；

图4是根据一示例性实施例示出的面部特征重构模块结构示意图；

图5是根据一示例性实施例示出的多层Transformer编码器结构示意图；

图6是根据一示例性实施例示出的多权重寻优方法结构示意图。

图7是根据一示例性实施例示出的一种面部表情识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1是根据一示例性实施例示出的一种面部表情识别方法的流程图，如图1所示，该方法应用于终端中，可以包括以下步骤：

步骤S1、获取用于训练和测试的人脸面部表情图像样本，以更好地训练深度神经网络模型以及评估其性能。

本申请构建了用于人脸面部图像情感分类的深度神经网络模型，然后对构建的深度神经网络模型进行训练、评估及优化，采用优化好的深度神经网络模型来对人脸面部图像进行情感分类。

为了训练构建的深度神经网络模型，首先需要采集人脸面部图像，并对采集到的人脸面部图像进行预处理，生成用于训练和测试的人脸面部表情图像样本。

本实施例使用MTCNN网络定位面部图像中的人脸位置并裁剪。对裁剪得到的人脸面部图像进行预处理，包括对图像进行平移、翻转、旋转变换、光照归一化等数据增强预处理，以增强网络的泛化能力。

在实际的应用中，将生成的人脸面部表情图像样本分为训练集和测试集，训练集用于对构建的深度神经网络模型进行训练，而测试集用于评估训练好的深度神经网络模型的性能。

步骤S2、构建并训练深度神经网络模型。

本申请构建的深度神经网络模型如图2所示，所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络，所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块，所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块，所述双分支注意力通道模块包括局部注意力通道和全局注意力通道，所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络，所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器，所述面部特征重构模块将显著特征图重构为一维特征序列后输入到多层Transformer编码器，所述多层Transformer编码器的输出输入到分类器中进行分类，输出图像的分类结果，保存每轮训练的模型权重。

训练的过程如下：

将大小为3×H×W的人脸面部表情图像Img_ori输入到经过MS-Celeb-1M人脸数据集预训练的ResNet18特征提取主干网络，以此提取大小为

的特征图X_ILL，其中C_out为输出的通道数，DS为下采样的倍率，为了简化描述，定义

将输出的特征图送入到双分支注意力通道模块，以聚焦具有鉴别性的面部特征，并过滤无关特征信息。

本实施例双分支注意力通道模块的结构示意图如图3所示，双分支注意力通道模块进行如下操作：

A1：将原始特征图经过双分支通道注意力计算得到局部注意力权重和全局注意力权重；

A2：将所述局部注意力权重与全局注意力权重经过广播相加得到局部-全局注意力权重；

A3：将原始特征图经过所述局部-全局注意力权重筛选后得到显著特征图。

具体的，双分支注意力通道模块通过局部注意力通道和全局注意力通道，计算原始特征图的局部注意力权重

和全局注意力权重

具体计算公式如下：

其中，AP表示全局自适应平均池化，用于过滤无效面部信息，Conv₁和Conv₂表示逐点卷积(卷积核大小为1*1)，以提取细节特征。BN表示批归一化处理，D表示Dropout层，用于抑制过拟合。

表示LeakyRelu激活函数，σ表示Sigmoid函数。将双分支注意力权重通过广播加法进行融合，得到局部-全局注意力权重

使用残差连接，筛选出显著特征

具体可表示为：

X_F＝X_ILL×LG(X)

将输出的显著特征X_F送入到面部特征重构模块，重构成一维的面部特征序列，使其符合多层Transformer编码器的输入要求。

本实施例面部特征重构模块的结构示意图如图4所示，面部特征重构模块进行如下操作：

B1：采用切片操作将显著特征图分成多个二维面部特征块；

B2：将所述多个二维面部特征块经过线性投影映射为一维特征向量；

B3：在所述一维特征向量头部嵌入可学习的情感分类编码，再在特征向量的每个特征单词中添加可学习的位置编码，生成输出的面部特征序列。

具体的，将二维的面部显著特征

按补丁大小(P,P)分割成M个二维面部特征块

其中

设置P＝1。接着将M个二维面部特征块线性映射并展平为特征序列

其中C_f为特征序列的通道数，具体可表示为：

Z₀＝Flatten(Conv(X_P))

其中，Conv表示输入通道为C_out，输出通道为C_f，卷积核与步长为(P,P)的卷积层，用于分割显著特征并进行可学习的线性映射，Flatten表示展平操作。在特征序列头部嵌入可学习的情感分类编码[class]，同时为该序列中的每个特征单词添加可学习的位置编码

以保留其位置信息，该面部特征序列可表示为：

Z₀＝[class；Z₀]+Pos

将面部特征序列馈送到多层Transformer编码器，以加强面部特征之间的联系。

本实施例多层Transformer编码器的结构示意图如图5所示，多层Transformer编码器进行如下操作：

C1：将面部特征序列依次输入到多头自注意模块和多层感知器模块，得到新的面部特征序列；

C2：重复上述步骤多次，以得到具有强关联性的面部特征序列。

具体的，每层Transformer编码器由多头自注意模块(Multi-Head Attention,MHA)和多层感知器模块(Multi-layer Perceptron,MLP)组成，在每个模块之前应用归一化，在每个模块之后加入残差连接，具体可表示为：

Z_k′＝MHA(LN(Z_k-1))+Z_k-1

Z_k＝MLP(LN(Z′_k))+Z′_k

y＝LN(Z_N)

其中，k＝1,…,N，Z′_k表示在第k层经过MHA模块和残差连接后得到的面部特征序列，Z_k表示在第k层经过MLP模块和残差连接后得到的面部特征序列，LN表示归一化，Z_N表示经过N层Transformer编码器后得到的面部特征序列，设置多头数L＝12，层数N＝12。

最终，得到经过多层Transformer编码器处理后的面部特征序列y，使用其头部的情感分类编码[class]以预测面部表情结果，保存每轮训练的模型权重。

步骤S3、优化保存的多组深度神经网络模型权重，以进一步提升深度神经网络模型的识别性能。

本申请所采用的多组深度神经网络模型权重的优化方法如图6所示，所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块，所述局部贪心策略模块优化模型权重后连接到全局贪心策略模块，所述全局贪心策略模块优化模型权重后输出图像的分类结果，保存优化模型权重。

优化的过程如下：

输入多个已训练完成的深度神经网络模型{W₁,…,W_n}，其中单个深度神经网络模型包含训练过程中所有轮次的权重{W_i1,,…,W_iep}，其中ep为总训练轮次。采用局部贪心策略模块，以获取每个深度神经网络模型的局部模型权重最优解。

本实施例局部贪心策略模块进行如下操作：

D1：在保存的每个深度神经网络模型中挑选性能最佳的轮次区间权重组；

D2：所述轮次区间权重组经过贪心策略计算后输出局部权重最优解；

D3：验证并保存局部权重最优解。

具体的，选取单个深度神经网络模型中的一组模型权重W_mBEI＝{W_m(best-k),…,W_mbest,…,W_m(best+k)}，其中W_mbest表示训练过程中的性能最佳轮次的模型权重，[best-k,best+k]表示区间上下限，设置k＝4。通过贪心算法计算得到局部贪心权重组W_mg：

W_mg＝Greedy Strategy(W_mBEI)

其中，Greedy Strategy表示贪心策略，以挖掘模型权重组的最优解。

本实施例贪心策略进行如下操作：

E1：将模型权重组按照在测试集上的性能降序排序；

E2：按顺序添加到贪心权重组；

E3：只保留对识别性能有正向提升的模型权重。

具体的，输入单个模型的权重组{W_m(best-k),…,W_mbest,…,W_m(best+k)}和面部表情测试样本。评估每个权重在测试样本上的识别性能，并按性能进行降序排序。设置一个贪心权重组Greedy Wights＝{}，用于保存能够正向提升识别性能的模型权重，设置一个最优性能值Best ValAcc＝0，用于评估贪心权重组的识别性能。按性能排序的顺序依次进行以下操作：将模型权重临时添加到贪心权重组中，如果新贪心权重组的平均权值的识别性能高于最优性能值，即ValAcc(avg(Greedy Wights∪{W_m}))>Best ValAcc，则将该模型权重添加到贪心权重组Greedy Weights＝Greedy Wights∪{W_m}，否则将其过滤。重复数次，直到执行到排序序列的最后一名。输出结果得到局部贪心权重组W_mg。

取局部贪心权重组W_mg的平均值以确定局部权重最优解W_m，具体计算公式如下：

保存局部权重最优解W_m，并将其送入全局贪心策略模块，以获取全局模型权重最优解。

本实施例全局贪心策略模块进行如下操作：

F1：输入经过局部贪心策略模块计算得到的多组局部权重最优解；

F2：所述多组局部权重组经过贪心策略计算后输出全局权重最优解；

F3：验证并保存全局权重最优解。

具体的，将n组深度神经网络模型经过局部贪心策略模块，得到n组局部权重最优解W＝{W₁,…,W_n}，设置n＝15。接着，继续利用贪心策略寻找对识别性能有积极效果的全局贪心权重组W_g：

W_g＝Greedy Strategy(W)

最后，与局部贪心策略做法相同，对全局贪心权重组Wg取平均以获取局部-全局最优解W_best：

评估局部-全局最优解W_best的识别性能，保存优化模型权重。

步骤S4、采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

在优化好深度神经网络模型之后，对于待分类的面部表情图像，将待分类的面部表情图像输入到优化好的深度神经网络模型，得到图像分类结果。

本申请在获取训练样本时，同时生成测试样本，使用优化好的深度神经网络模型对测试样本进行识别并得到评估数据，来验证深度神经网络模型的效果。

本申请针对面部遮挡和姿态变化引起的识别准确率下降的问题，引入了显著特征筛选网络和视觉转化器网络来聚焦具有鉴别性的面部特征，并加强特征之间的关联性，更大程度增强了模型的特征学习能力；针对在训练深度神经网络模型时，造成的大量时间和资源成本浪费问题，引入了多权重寻优方法，根据局部-全局贪心策略，可以充分挖掘次优模型的价值。

与前述的面部表情识别方法的实施例相对应，本申请还提供了面部表情识别装置的实施例。

图7是根据一示例性实施例示出的一种面部表情识别装置框图。参照图7，该装置包括：

获取模块1，用于获取用于训练和测试的人脸面部表情图像样本；

模型构建及训练模块2，用于构建并训练深度神经网络模型，所述深度神经网络模型包括显著特征筛选网络和视觉转化器网络，所述显著特征筛选网络包括一个特征提取主干网络和一个双分支注意力通道模块，所述特征提取主干网络用于提取样本的特征图后输入到双分支注意力通道模块，所述双分支注意力通道模块包括局部注意力通道和全局注意力通道，所述局部注意力通道和全局注意力通道的输出经过加权融合后输入到所述视觉转化器网络，所述视觉转化器网络包括面部特征重构模块、多层Transformer编码器和分类器，所述面部特征重构模块用于将显著特征图重构为一维特征序列后输入到多层Transformer编码器，所述多层Transformer编码器的输出输入到分类器中进行分类，输出图像的分类结果，保存每轮训练的模型权重；

优化模块3，用于优化保存的多组深度神经网络模型权重，所述多组深度神经网络模型权重的优化方法包括局部贪心策略模块和全局贪心策略模块，所述局部贪心策略模块用于优化模型权重后连接到全局贪心策略模块，所述全局贪心策略模块优化模型权重后输出图像的分类结果，保存优化模型权重；

识别模块4，用于采用优化好的深度神经网络模型对人脸面部图像进行表情识别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的面部表情识别方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的面部表情识别方法。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的网络拓扑布局方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种面部表情识别方法，其特征在于，包括：