CN113936317A

CN113936317A - 一种基于先验知识的人脸表情识别方法

Info

Publication number: CN113936317A
Application number: CN202111202128.2A
Authority: CN
Inventors: 林泽昊; 沈秋; 曹汛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-14

Abstract

本发明公开了一种基于先验知识的人脸表情识别方法。该方法具体步骤为：(1)对图像数据集进行预处理；(2)将预处理后的图像的先验分布转化为类别的平均分布，再将对应的独热标签作为索引从中提取先验知识，然后将先验知识转化为特定于每个数据集的后验概率，并将标签分布和后验概率加权求和得到混合分布；(3)将经预处理后的人脸表情图像输入至预训练好的学生模型网络中，进行特征提取；(4)将提取到的与表情高相关的特征通过全连接层输出预测分布，再经平滑处理后通过分类器最终得到分类结果。本发明利用了预先得到的先验知识，能在一定程度上解决人脸表情识别中常见的表情模糊性问题，得到更趋于现实的预测。

Description

一种基于先验知识的人脸表情识别方法

技术领域

本发明涉及人脸表情识别技术领域，特别涉及一种基于先验知识的人脸表情识别方法。

背景技术

根据调查显示，语言成分传达了人类交流的三分之一信息量，而非语言成分传达了人类交流的三分之二。在几种非语言成分中，表情是最主要的交流形式。因此在过去的几十年中，面部表情的研究不仅在感知科学和认知科学上，而且在情感计算和计算机动画中得到了广泛的关注。因此解读人脸所蕴含的视觉信息，识别人脸表情成为了热门的研究话题。人脸表情识别是从输入的图片或视频中识别表情的过程，其中主要步骤包含人脸检测、特征提取(提取人脸全局或局部特征)和表情分类。

二十世纪六十年代末期，Ekman和Friesen对比分析人群的表情差异之后，将人类表情概括以下几种基本类型，分别为伤心、惊讶、高兴、厌恶、生气和恐惧。后来Matsumoto又将蔑视加入到基本表情中，形成了七种基本表情。人脸表情识别是极具挑战性和创新性的研究课题，它是由心理学、计算机视觉、深度学习等领域的相关知识结合所形成的。根据人脸表情识别的性质，目前有几个重要的应用场景(1)智能机器人：赋予人机交互能力来更好的感知人们的情感；(2)辅助医疗：通过表情协助医生更好地感知患者在诊断过程中的心理状态；(3)课堂教学：通过学生的表情及时将学生情绪反馈给教师以提高教学质量。

考虑到人脸表情识别框架以及各类应用场景中各种不可预测的因素，目前人脸表情识别仍存在以下的挑战：(1)表情的模糊性：人脸表情具有复杂性，往往表情都是由不同程度的基本表情组合而成的，但是目前主要公开的人脸表情识别数据集的标签往往是独热的，并且表情的标注受标注者的性别、心理等诸多主观因素的影响，因此表情的独热标签存在模糊性；(2)遮挡和姿态问题：从人脸检测方面来说，在现实应用场景中表情识别易受到脸部遮挡、姿态和光照的影响，从输入的图片或视频中准确地检测和定位人脸位置，并提取到有效且重要的特征是一项有待探索和解决的任务。综上所述，人脸表情识别还是一个开放性的问题需要人们不断探索。

对于表情的模糊性问题，研究的重点在于如何通过权重来定义样本的模糊程度，而如何定义模糊性程度往往是复杂且多阶段的。Zeng J(Zeng J,Shan S,Chen X.Facialexpression recognition with inconsistently annotated datasets[C]//Proceedingsof the European conference on computer vision(ECCV).2018:222-237.)通过从伪标签和输入的人脸图像中提取潜在分布来解决人脸表情识别标签模糊性的问题。文献1WangK(Wang K,Peng X,Yang J,et al.Suppressing uncertainties for large-scale facialexpression recognition[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2020:6897-6906.)设计了一个自愈网络，其中由自注意力模块划分的低重要性表情组的表情图像会被重新标定为最大预测概率的类。Vo TH(VoT H,Lee G S,Yang H J,et al.Pyramid with super resolution for In-the-Wildfacial expression recognition[J].IEEE Access,2020,8:131988-132001.)将数据集标定过程中的投票结果作为先验知识，将其与标签平滑损失函数结合，从而得到更符合人类直觉的预测分布。在这个问题上，Shen J(She J,Hu Y,Shi H,et al.Dive intoAmbiguity:Latent Distribution Mining and Pairwise Uncertainty Estimation forFacial Expression Recognition[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:6248-6257.)目前取得了最好的表现，提出的方法在辅助多分支的框架帮助下，在标签维度中充分利用了潜在分布来提升性能，而在样本维度中，通过学习语义特征之间的关系来估计样本的模糊性程度。同时表情中的先验知识如动作单元也能作为先验知识来提升表情识别的性能。

对于遮挡和姿态问题，往往会引入注意力模块，将注意力专注于未遮挡的部分，从而减小遮挡对性能的影响，但是该类算法因为基于裁剪区域和裁剪块，在模型训练上需要花费大量的时间。Li Y(Li Y,Zeng J,Shan S,et al.Occlusion aware facialexpression recognition using cnn with attention mechanism[J].IEEETransactions on Image Processing,2018,28(5):2439-2450.)考虑到不同的感兴趣区域，提出了基于块的注意力网络和基于全局和局部的注意力网络，前者只专注于局部的面部块，而后者将局部表示和全局表示融合以提升性能。文献2 Wang K(Wang K,Peng X,YangJ,et al.Region attention networks for pose and occlusion robust facialexpression recognition[J].IEEE Transactions on Image Processing,2020,29:4057-4069.)提出了区域自注意力网络，可以自适应地捕获各个区域的重要性，并且定义了区域偏差损失函数，以鼓励关注更重要的人脸区域。

发明内容

针对人脸表情识别领域中的表情模糊性问题，目前的研究在如何定义模糊性程度上存在复杂且多阶段的缺陷。本发明的目的是提出一种基于先验知识的人脸表情识别方法，利用更简单、更高效的框架来降低表情模糊性问题带来的影响，从而实现更好的分类结果。

为达上述目的，本发明采用的技术方案如下：

一种基于先验知识的人脸表情识别方法，具体步骤包括：

步骤1，对图像数据集进行预处理，所述图像数据集中包括对应的真实标签数据；

步骤2，将预处理后的图像的先验分布转化为类别的平均分布，再将对应的独热标签作为索引从中提取先验知识，然后将先验知识转化为特定于每个数据集的后验概率，并将标签分布和后验概率加权求和得到混合分布，以用于后续步骤指导学生模型更好地预测与人类直觉更一致的结果；

步骤3，将经预处理后的人脸表情图像输入至预训练好的学生模型网络中，进行特征提取；

步骤4，将提取到的与表情高相关的特征通过全连接层输出预测分布，再经平滑处理后通过分类器最终得到表情分类结果。

进一步地，所述步骤1中，预处理具体为：通过旋转和缩放的方法扩充图像数据集，并对数值归一化。

进一步地，所述步骤2中，提取先验知识的方法为：

步骤21，预处理后的图像数据集

中每张图像x的先验分布为

其中

代表 v_x为C×1阶矩阵，C为图像数据集的类别数，且∑v_x＝1；

代表图像集，

代表图像集对应的独热标签；

步骤22，对于每个独热标签y的平均分布为：

其中，

是指图像集

中独热标签y的样本子集，

为子集

的样本数；

步骤23，将独热标签y作为索引，将每个独热标签y的平均分布转化为先验知识 p_o(k|x)＝d_yk，其中x代表图像，

为当独热标签为y时，被分类为类别k的概率。

进一步地，所述步骤2中，采用朴素贝叶斯公式将先验知识转化为特定于每个数据集的后验概率：

其中A事件代表图像的独热标签为y，B事件代表图像被预测为类别k，P(A)为数据集的分布，P(B_k|A)代表已知图像的独热标签为y且图像被预测为类别k的概率，即先验知识p_o(k|x)，P(A|B_k)为推理过程中模型的预测结果，即后验概率p_e(k|x)。

进一步地，所述步骤2中，混合分布的计算方法为：

p_f(k|x)＝(1-α)p_e(k|x)+αq(k|x)

其中α控制分布之间的权重，p_e(k|x)为后验概率，q(k|x)为真实标签分布。

进一步地，所述步骤3中，学生模型网络的训练步骤包括：步骤31，将训练集输入学生模型网络中，获取学生模型网络的输出结果；步骤32，基于学生模型网络的输出结果和真实标签数据确定交叉熵损失函数，损失函数中包括步骤2得到的混合分布；步骤33，利用所述交叉熵损失函数对学生模型网络进行迭代训练。

进一步地，所述步骤4中，将预测分布p(k|x)，经过温度系数T平滑处理后得到

进一步地，所述步骤4中，学生模型网络的损失函数为：

L＝(1-β)L_CE+βL_f

其中L_CE为交叉熵函数，β控制损失函数之间的权重，L_f为教师-学生模型损失函数：

其中，KL为相对熵，p_f(k|x)为混合分布，

为混合分布p_f(k|x)经过温度系数T平滑处理后得到的，x为图像，

代表图像集。

本发明提出的一种基于先验知识的人脸表情识别方法，利用了预先得到的先验知识，以更简单高效且不用预训练的虚拟教师指导学生模型，在几乎不增加模型训练成本的情况下，进一步提升了人脸表情识别的性能，同时在一定程度上解决了人脸表情识别中常见的表情模糊性问题，得到了更趋于现实的预测。本发明能够在有效压缩学生模型的同时，也能让学生模型在低复杂度的情况下在方面的性能获得进一步提升。

附图说明

图1为本发明方法的流程图；

图2为本发明与现有方法的性能对比，(a)RAF-DB数据集，(b)FERPlus数据集，(c)AffectNet 数据集。

图3为统计分布、对照组分布和本发明分布的对比图。

图4为三个人脸表情识别数据集上的2D特征可视化图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方案做进一步地详细描述。

人脸表情的模糊性问题可归咎于人类注释者的强主观性和表情之间固有的强关联性。对于前者，可以通过独热标签分布代替独热标签或是通过学习的方式赋予不同样本特定的权重来减弱强主观性的影响；对于后者，可以通过现有的动作单元等先验知识来挖掘表情之间的关联性和不同点，从而更好地提取到表情图像后的真实情感。

本实施例提供了一种基于先验知识的人脸表情识别方法，如图1所示，具体步骤为：

对原始人脸表情数据集通过改变尺寸、随机裁剪、随机水平翻转和随机擦除、数值归一化等进行预处理，将输入图像尺寸统一为224×224×3。将预处理后的人脸图像数据集定义为

其中

代表图像集，

代表图像集对应的独热标签，输入图像x的独热标签

的分布为

其中C为类别的数量，类别包含惊讶、害怕、厌恶、高兴、伤心、生气、中立和蔑视八类基本表情。

为了得到更趋于现实的分布，本实施例利用FERPlus数据集

的先验知识，人脸图像 x的先验表情分布

是由数据集官方训练的注释者的投票结果计算得到的，其中

代表 v_x为C×1阶矩阵，并且∑v_x＝1。

对于每个表情类别y的平均分布为：

其中，

是指图像集

中独热标签为y的样本子集，

为子集

的样本数。

将预处理后的人脸表情数据集的独热标签y作为索引，向通过以上步骤计算得到的统计数据中提取到先验知识p_o(k|x)＝d_yk，其中x代表图像，

为当独热标签为y时，被分类为表情k的概率，如表1所示。

表1 FERPLUS数据集的统计数据

	惊讶	害怕	厌恶	高兴	伤心	生气	中立	蔑视
									惊讶	0.788	0.089	0.003	0.036	0.010	0.014	0.058	0.002
害怕	0.169	0.659	0.013	0.012	0.073	0.027	0.043	0.004
									厌恶	0.017	0.008	0.621	0.017	0.089	0.125	0.090	0.033
高兴	0.023	0.002	0.002	0.918	0.005	0.004	0.043	0.003
									伤心	0.009	0.016	0.011	0.013	0.748	0.023	0.170	0.010
生气	0.060	0.023	0.035	0.025	0.032	0.741	0.075	0.009
									中立	0.017	0.004	0.007	0.033	0.114	0.026	0.778	0.021
蔑视	0.010	0.006	0.060	0.021	0.043	0.034	0.148	0.678

为了将先验知识应用到不同的人脸表情识别数据集中，将先验知识转化为特定于每个数据集的后验概率p_e(k|x)，采用了朴素贝叶斯公式：

其中A事件代表图像的独热标签为y，B事件代表图像被预测为类别k，P(A)为数据集的分布，P(B_k|A)代表已知图像的独热标签为y且图像被预测为类别k的概率，即先验知识 p_o(k|x)，P(A|B_k)为推理过程中模型的预测结果，即后验概率p_e(k|x)。

考虑到独热标签中的信息，将独热标签和后验概率加权求和得到混合分布：

p_f(k|x)＝(1-α)p_e(k|x)+αq(k|x)

将ResNet-18、ResNet50-IBN、ShuffleNetV1和MobileNetV2四个骨干网络在大型人脸数据集MS-Celeb-1M数据集进行预训练，指导的损失函数为交叉熵损失函数；

将预处理好的人脸表情图像输入至预训练好的骨干网络中，进行特征提取。

将提取到的与表情高相关的特征通过全连接层输出预测分布p(k|x)，经过温度系数T平滑处理后得到

定义教师-学生损失函数：

其中KL为相对熵，也即Kullback-Leibler散度，

为p_f(k|x)经过温度系数T平滑处理后得到的，x为图像，

代表图像集。

学生模型中的总损失函数为：

L＝(1-β)L_CE+βL_f

其中L_CE为交叉熵函数，β控制损失函数之间的权重。

在教师模型的指导下，教师-学生损失函数可以减弱交叉熵函数易导致的过度自信的预测结果，因此学生模型的预测分布经过分类器输出更趋于真实情感的分类结果。

本实施例的有益效果可以通过如下实验来验证：

一、模型精度

1、不同骨干网络的对比

根据本实施例提出的教师-学生框架，将使用ResNet-18、ResNet-50IBN、ShuffleNetV1和 MobileNetV2四种骨干网络训练后的模型与基准模型进行对比，如表2所示，在RAF-DB、 FERPlus和AffectNet这三个人脸图像数据集均得到可观的提升，分别平均提升了3.10％、2.76％和3.62％的准确率。

表2不同骨干网络准确率的对比

2、与现有方法的对比

根据本实施例提出的教师-学生框架，训练后的模型在RAF-DB、FERPlus和AffectNet这三个人脸图像数据集均得到可观的结果，并与现有的人脸表情识别方法进行了对比。

图2给出了本发明与背景技术中提到的现有方法的性能对比。为了对比的公平性，除Vo TH 提出的方法的骨干网络为VGG16以外，其余的方法的骨干网络都为ResNet-18。本发明是用在MS-Celeb-1M人脸识别数据集上进行预训练的，在超参数T＝5,α＝0.50,β＝0.55的设定下，达到最好的结果。如图2中的(a)图所示，本发明在RAF-DB数据集上达到89.90％的准确率，相比提升1％以上；(b)图显示本发明在FERPlus数据集上以相比于VGG16更轻量的ResNet-18 得到了更高的准确率；而(c)图则说明本发明在AffectNet数据集上得到了将近2％准确率的提升。由此可看出本发明在模型精度上的优越性。

二、可视化结果

1、预测分布和相关性

根据以上具体方案训练后，得到的模型可以输出更趋于真实的预测分布。统计分布为注释者的投票结果，对照组为只用交叉熵损失函数训练的基准模型，以KL散度作为相似度的度量标准。

如图3所示，在RAF-DB随机采样两张人脸表情图像，可以得到其统计分布、对照组和本发明的预测分布。计算得到的统计分布和本发明输出的预测分布的KL散度相对于统计分布和对照组的KL散度明显降低，可看出本发明可以得到更真实的预测分布，且能够解决基准模型过度自信预测的问题。

2、2D特征的可视化

通过强迫模型输出分布与实际分布一致，可以减小类内的差异。

本实施例利用t-SNE算法分析了本发明在RAF-DB、FERPlus和AffectNet三个数据集上训练后的ResNet-18的特征嵌入。

如图4所示，可看到与基准模型相比，本发明显著地降低了类内的差异。此外，在教师模型的指导下，类间的距离也进一步扩大，更好地区分了表情之间的差异。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之中。