CN116311454A

CN116311454A - 一种多线索关联学习的面部表情识别方法及系统

Info

Publication number: CN116311454A
Application number: CN202310288548.XA
Authority: CN
Inventors: 陈靓影; 徐如意; 马朝阳; 杨宗凯
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-23

Abstract

本发明提供了一种多线索关联学习的面部表情识别方法及系统，属于计算机视觉技术领域，方法为：将预识别的面部图像输入至学生模型或/和教师模型中进行面部表情识别；训练方法为：对全局脸样本图像裁剪为上下半张脸样本图像；提取线索特征；获取上半张脸样本图像、下半张脸样本图像和全局脸样本图像对应的邻接矩阵；采用特征级的注意力机制将关联语义融合获取教师模型；采用交叉熵损失监督训练教师模型；采用标签蒸馏，利用KL散度和交叉熵损失以监督学生模型训练。本发明利用关联线索增强模型的学习能力，用于解决自然场景下的表情识别问题。

Description

一种多线索关联学习的面部表情识别方法及系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种多线索关联学习的面部表情识别方法及系统。

背景技术

自动面部表情识别，旨在从人脸图像中根据面部肌肉的运动推断其内在的情感状态，是一个充满挑战性的计算机视觉任务。心理学家指出，面部表情的相关语义信息散落分布于各个面部器官周围，其上下半张脸所携带的语义信息量不尽相同，不同的语义信息的组合所代表的情感含义也完全不同。更为重要的是，这些语义信息敏感而又脆弱，容易受到光照变化、局部遮挡、头部姿态乃至身份或妆容等特征的干扰。因此，迫切需要设计优秀的面部表情识别模型以综合地解决上述所有问题。

图卷积神经网络，是一种在图数据结构上进行卷积操作的神经网络，它的提出源于深度学习中的卷积神经网络，但它可以用于卷积神经网络不擅长的非欧几里德域。图卷积神经网络，继承了深度学习的大部分优点，对图的节点、边或子图表现出很强的流形表示能力。

关联学习，是一个可行而又有前景的解决方案。关联学习，源自心理学家对动物和人类学习过程的观察。著名的巴普洛夫实验表明动物在学习过程中具有关联不同刺激信号的能力。关联主义认为人的学习能力来自于各种连接的建立。在模式识别任务中，人类具备将线索和标签关联的能力，亦存在将具有相似线索的个体关联起来的能力。人类有目的地挖掘自身的关联学习潜力，常常能获得更好的学习效果。受关联学习的启发，一些现有的面部表情识别工作通过图神经网络让不同的训练样本之间通过指定的线索建立起关联关系，使得模型能够学习到符合这些关联规则的潜在语义特征，进而提升模型的表征能力。

现有的工作忽视了人类在进行关联学习的一些关键特性，包括：1.人类的关联学习往往是多线索的，不会仅使用单一的线索来建立关联规则；2.人类的关联学习具有特定的注意力机制，会根据学习经验对不同关联规则学习的语义进行有注意力机制的知识整合。这些问题导致现有的方法在应用时都存在局限性，识别精度低。利用关联学习和图社交网络的优点有利于解决以上问题，而现有技术上尚无公开的方法如何进一步优化关联学习和图神经网络用于多线索的面部表情识别。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种多线索关联学习的面部表情识别方法及系统，旨在解决现有的面部表情识别方法存在局限性，识别精度较低的问题。

为实现上述目的，一方面，本发明提供了一种多线索关联学习的面部表情识别方法，包括以下步骤：

将预识别的面部图像输入至学生模型或/和教师模型中，对面部表情识别；

其中，学生模型和教师模型的训练方法，包括以下步骤：

D1：对全局脸样本图像沿水平方向裁剪为上半张脸样本图像和下半张脸样本图像；

D2：提取全局脸样本图像以及上半张脸、下半张脸样本图像的线索特征；

D3：分别计算上半张脸样本图像、下半张脸样本图像和全局脸样本图像对应线索特征之间的关联关系，获取对应的邻接矩阵；

D4：以线索特征和邻接矩阵为输入，采用三个图卷积神经网络输出关联语义，并采用特征级的注意力机制将关联语义进行融合，获取教师模型；

D5：将教师模型中融合后的关联语义输入至分类层，采用交叉熵损失监督训练教师模型；同时采用标签蒸馏，利用KL散度和交叉熵损失以监督学生模型训练；

其中，学生模型为线索特征经瓶颈层后输入的全连接层构建。

进一步优选地，教师模型的构建方法包括两种方式；

其中，第一种方式为：

以全局脸样本图像的线索特征作为三个图卷积神经网络的第一输入，以全局脸样本图像、上半张脸样本图像和下半张脸样本图像对应的邻接矩阵分别作为第一个、第二个和第三个图卷积神经网络的第二输入，输出全局关联语义，并采用特征级的注意力机制将全局关联语义融合，获取教师模型；

第二种方式为：以全局脸样本图像、上半张脸样本图像和下半张脸样本图像对应的线索特征分别作为第一个、第二个和第三个图卷积神经网络的第一输入，以全局脸样本图像、上半张脸样本图像和下半张脸样本图像对应的邻接矩阵分别作为第一个、第二个和第三个图卷积神经网络的第二输入，分别输出全局关联语义、上半张脸样本关联语义和下半张脸样本关联语义，并采用特征级的注意力机制将全局关联语义、上半张脸样本关联语义和下半张脸样本关联语义融合，获取教师模型。

进一步优选地，提取线索特征的方法为：利用LBP算子进行特征提取；或利用公开且已训练好的人脸模型直接提取深度特征；或利用有标签样本对预先训练好的人脸模型进行微调获取深度模型，再利用深度模型提取深度嵌入特征。

进一步优选地，教师模型的交叉熵损失函数为：

其中，

表示教师模型中融合后的关联语义F(x_i)经全连接层预测的样本标签分布；y_i表示样本的真实分布。

进一步优选地，学生模型的总损失函数，包括蒸馏损失函数和学生模型交叉熵损失函数，具体为：

其中，

表示学生模型的交叉熵损失，/>

表示学生模型预测的概率分布；/>

为蒸馏损失；f(·)表示softmax激活函数，T表示蒸馏温度；/>

表示教师模型中融合后的关联语义F(x_i)经全连接层预测的样本标签分布。

另一方面，本发明提供了一种多线索关联学习的面部表情识别系统，包括：

学生模式的表情识别模块，用于将预识别的面部图像输入至学生模型存储模块中对面部表情进行识别；

教师模式的表情识别模块，用于将预识别的面部图像输入至教师模型存储模块中对面部表情进行识别；

全局脸样本图像预处理模块，用于对采集到的全局脸样本图像沿水平方向裁剪为上半张脸样本图像和下半张脸样本图像；

特征提取模块，用于提取全局脸样本图像以及上半张脸、下半张脸样本图像的线索特征；

邻接矩阵获取模块，用于分别计算上半张脸样本图像、下半张脸样本图像和全局脸样本图像对应线索特征之间的关联关系，获取上半张脸样本图像、下半张脸样本图像和全局脸样本图像对应的邻接矩阵；

教师模型构建模块，用于以线索特征和邻接矩阵为输入，采用三个图卷积神经网络输出关联语义，并采用特征级的注意力机制将关联语义进行融合，获取教师模型；

模型训练模块，用于将教师模型中融合后的语义关联输入至分类层，采用教师模型的交叉熵损失函数监督训练教师模型；同时采用标签蒸馏，利用KL散度和学生模型交叉熵损失以监督学生模型训练；

进一步优选地，教师模型的构建方法包括两种方式；

其中，第一种方式为：

进一步优选地，教师模型的交叉熵损失函数为：

其中，

进一步优选地，学生模型的总损失函数包括蒸馏损失函数和学生模型的交叉熵损失函数，具体为：

其中，

表示学生模型的交叉熵损失，/>

表示学生模型预测的概率分布；/>

为蒸馏损失；f(·)表示softmax激活函数，T表示蒸馏温度；/>

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下

有益效果：

本发明提供了一种多线索关联学习的面部表情识别方法及系统，将面部表情分为上下半张脸用于引导基于局部线索的关联学习，在有效应对局部遮挡问题的同时，更好地利用不同的关联线索增强模型的学习能力，提出基于图神经网络的多线索关联学习方法用于解决自然场景下的表情识别问题。

本发明提供了一种多线索关联学习的面部表情识别方法及系统，其中，特征级的注意力机制对多线索关联学习的知识进行有效整合，使得模型更符合人类的关联学习机制，从而更好地应对自然场景下复杂多变的挑战。

本发明提供了一种多线索关联学习的面部表情识别方法及系统，其中采用知识蒸馏对学生模型和教师模型进一步优化，一方面，知识蒸馏可以将关联学习视为传统卷积神经网络的正则化峰值，在测试阶段减少模型需要消耗的运算资源；另一方面，教师模型和学生模型的协同训练可以进一步优化模型的主干网，使得教师模型的性能得到进一步的提升。

附图说明

图1是本发明实施例提供的多线索关联学习的面部表情识别方法流程图；

图2是本发明实施例提供的面部表情数据预处理后的示意图；

图3是本发明实施例提供的教师模型和学生模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一方面，本发明实施例提供了一种多线索关联的面部表情识别方法，包括步骤：

S101：全局脸样本图像预处理

由于人的上下半张脸所携带的语义信息具有各自的关联特性(不同表情在上半张脸上的AU(Action unit)相互重叠，特别是AU1，AU4和AU5，在下半张脸上则多相互排斥)，以及上下半张脸遮挡所具有的不用应用场景(例如，上半脸遮挡可用于佩戴VR眼镜时的情绪识别，下半张脸遮挡可用于戴口罩时的情绪识别)，本发明采用上半张脸，下半张脸和全局脸分别作为关联线索，引导多线索的关联学习；

进一步地，将全局脸样本图像输入到下一步进行特征提取前，先对样本进行预处理；即，如图2所示将全局脸样本图像沿水平方向平均裁剪为上下两个部分，上部分为上半张脸，下部分为下半张脸，原图为全局脸；

S102：特征提取，用于提取全局脸样本图像集中每个样本的全局脸，及其上下半张脸的三种线索；

进一步，样本的特征提取优选采用以下三种方式中的一种；

a.利用LBP算子的特征提取方法

LBP是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点；LBP算子的计算具体为：在3*3的窗口内，以窗口中心像素点的灰度值为阈值，再将周围的八个像素点的灰度值与其进行比较，若大于中心像素点的灰度值则被标记为1，否则为0；这样，3*3邻域内的8个像素点经过比较后，可以产生8位二进制数；通常会将其转换成十进制数，即LBP码，共256种；最终得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息；用公式表示就是：

其中，I(p)表示窗口中除了中心像素之外的第p个像素点的灰度值，I(c)表示中心像素点的灰度值，s(·)为门限函数，公式表示如下：

由于LBP记录的是邻域像素点和中心像素点的差值，因此当光照变化引起窗口内的像素点的灰度值同步增大或者减小时，LBP值变化不明显，故而LBP对光照变化不敏感；

b.利用公开且已训练好的人脸模型直接提取全局脸样本图像特征的深度特征提取法；

在本实施例的这种特征提取方法中，使用ResNet18网络模型读取预先训练好的人脸模型Ms-Celeb-1M中的网络参数，将所有的全局脸样本图像直接输入到ResNet18网络中，输出ResNet18网络中的最后一层全连接层前的512维向量，作为本实施例中数据样本的深度特征；

c.利用有标签样本对预先训练好的人脸模型Ms-Celeb-1M进行微调，得到深度模型，最后利用得到的深度模型提取所有全局脸样本图像的深度嵌入特征；

在本实施例的这种特征提取方法中，同样使用了ResNet18网络模型读取预先训练好的人脸模型Ms-Celeb-1M中的网络参数，将所有有标签的样本作为ResNet18模型的训练集数据，对人脸模型中的网络的参数进行微调，得到本实施例中使用的数据样本的微调深度模型；再将所有的数据样本直接输入到本特征提取方法的微调深度模型中，输出整个网络中的最后一层全连接层前的512维向量，作为当前数据样本的深度嵌入特征；

以上三种特征提取方法，得到的特征均可作为本实施例中样本的特征向量；

S103：关联学习，用于提取出基于上半张脸的关联语义、基于下半张脸的关联语义以及基于全局脸的关联语义；

在关联学习中，样本和样本之间的关联性可以通过图模型

来表示；每个样本/>

视为图上的一个结点，任意两个样本之间的边a_ij∈ε代表样本之间的关联性；a_ij的权值越大，说明样本之间的关联性越大；如果a_ij的权值为0,则认为两个样本之间没有关联；

如图3所示，在图卷积神经网络中，教师模型根据结点提供的语义特征以及表示结点之间关联关系的邻接矩阵

来训练网络参数W，图卷积神经网络按批训练时，n表示mini-batch的大小；邻接矩阵中每个元素可以用a_ij来表示；给定一种线索c，第i个样本对应的特征表示为/>

邻接矩阵的计算公式表达如下：

其中，κ为经验参数用于控制具有关联关系的样本对数量；当存在不同的关联线索时，就可以得到多个邻接矩阵；本发明采用上半张脸、下半张脸和全局脸三种线索来构建邻接矩阵；x_i和x_j代表一个训练批中的任意两个样本，

表示全局人脸经过主干网提取的线索特征；/>

和/>

分别表示上半张脸和下半张脸经过主干网提取的线索特征；

根据不同线索构建的邻接矩阵，可以采用独立的图卷积神经网络学习其引导的关联知识；因此，本发明配置了三个GCN网络；其中，图卷积神经网络中有两个输入，每个网络含有两个图卷积层，一个输入是线索特征，另一个输入邻接矩阵；其中，邻接矩阵的计算公式表达如下：

其中，

表示归一化的邻接矩阵，其计算方法为/>

表示单位矩阵；W为图卷积网络的可训练参数；σ((x)＝Relu(x)＝max(0,x)；H^(h)表示第h层卷积神经网络的输入；H⁽¹⁾为卷积神经网络主干网瓶颈层提供的样本线索特征；

进一步地，计算样本和其他样本之间的距离优选采用欧氏距离；但也可采用其他表示差异性的距离计算公式来实现；

H^(h)存在两种构建方法，具体为：

在一个实施例中，在三个图卷积神经网络中均输入全局脸样本图像对应的线索特征，即

其中，

表示全局人脸经过主干网提取的特征；基于这种方法，三个图卷积神经网络输出的也是全局关联语义；

在另一个实施例中，三个图卷积神经网络分别输入与邻接矩阵构建对应的线索特征，即：

和/>

分别表示从上半张脸和下半张脸提取的线索特征；在这种方法中，三个图卷积神经网络分别输出一种全局关联语义和上下半张脸样本关联语义；

在以上两个实施例中，对应GCN用到的邻接矩阵都是一样的，即第c个GCN无论采用何种方式生成H(h)，其邻接矩阵均为Ac；

无论采用以上实施方法，都采用下一步介绍的注意力机制进行特征融合，使得不同线索引导的关联知识整合在一起；

S104：关联语义融合，用于将三种线索所学习到的关联语义进行融合，完成教师模型的构建；

本发明利用特征级的注意力机制对不同图神经网络输出的特征

进行自适应的融合，以模拟人类的注意力学习机制；

具体地，注意力机制可以用一个可训练的全连接层表示，该全连接层将

映射为一个注意力权重α_c，所有的特征根据注意力权重聚合得到最后的样本特征：

其中，α_c＝G(F(x_i)^Tq)，G(·)为sigmoid函数，q为全连接层可训练网络参数；融合后的关联语义可以输入分类层，并采用交叉熵损失进行监督训练：

其中，

表示特征F(x_i)经全连接层预测的样本标签分布；y_i表示样本的真实分布；通过注意力机制，利用不同关联线索得到的知识被有机整合在一起，使得模型更够应对不同的挑战，例如当上半张脸存在遮挡或较大混淆时，基于下半张脸的线索将通过注意力机制获得更大的融合权重，从而在识别过程中发挥主要作用，反之亦然；

S105：使用知识蒸馏对模型做进一步优化；

在本发明提出的框架中，如图3所示，主干网引出的两个分支分别对应教师模型和学生模型；教师模型是多线索引导的关联学习，而学生模型是传统的无关联学习；知识蒸馏旨在将教师模型的知识迁移到学生模型上；其中，学生模型为主干网所用卷积神经网络瓶颈层后连接的全连接层；

具体地，本发明采用标签蒸馏，利用KL散度和交叉熵损失来监督学生模型的训练：

其中，

表示学生模型的交叉熵损失，/>

表示学生模型预测的概率分布；/>

为蒸馏损失；f(·)表示softmax激活函数，T表示蒸馏温度；

需要强调的是，虽然学生模型仅使用了全局特征这一种线索，且没有进行关联学习，其性能不及教师模型；但是，二者作为主干网的两个分支，即使在未加入蒸馏损失的情况下，二者对主干网的优化也具有协同作用；因此，学生模型的引入可以起到优化主干网的作用，进而提升教师模型的性能；而伴随着蒸馏损失的加入，教师模型又能进一步促进学生模型的性能提升，从而达到相互促进的作用；

综上所述，本发明在训练过程中需要同时优化教师模型和学生模型，因此，模型的总损失

具体可表示为：

而在测试阶段，则可根据实际情况选择不同的分支用于预测结果；对于计算资源受限的环境，可以选择移除教师模型，单独使用学生模型的预测结果；对于追求极限性能的应用场合，则可选择教师模型的预测结果用于表情分类的决策，本发明将在实验部分详细比较两个分支预测性能的差异；

在一个实施例中，采用了RAF-DB(Real-world Affective Faces Database)表情库；该表情库包含了从互联网收集到的29672张面部图像，由315名工作人员(大学的学生和教职员工)对表情进行标注；一共包含7种表情，分别是：愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性；

本发明选取了所有的面部表情图片，按照表情库划分好的训练集和测试集进行实验；在采用将全局特征输入三个图神经网络的方法中，得到的表情识别精度为88.43％；采用将全局特征、上下半张脸的特征分别输入三个图神经网络的方法中，得到的表情识别精度为89.62％。而在使用知识蒸馏的方法对模型做进一步优化后，得到最好的表情识别精度为90.66％。

在另一个实施例中，采用了FER+(Hard-Label)表情库；该表情库是原始FER数据集的扩展，其中面部表情图像被重新标记为8中情绪类型之一：中性、快乐、惊讶、悲伤、愤怒、厌恶、恐惧和轻蔑；

本发明选取了数据集中所有的面部表情图片进行了训练；在采用将全局特征输入三个图神经网络的方法中，得到的表情识别精度为87.68％；采用将全局特征、上下半张脸的特征分别输入三个图神经网络的方法中，得到的表情识别精度为88.48％；而在使用知识蒸馏的方法对模型做进一步优化后，得到最好的表情识别精度为89.48％。

模型训练模块，用于将教师模型中融合后的语义关联输入至分类层，采用教师模型的交叉熵损失函数监督训练教师模型；同时采用标签蒸馏，利用KL散度和学生模型交叉熵损失以监督学生模型训练。

进一步优选地，教师模型的构建方法包括两种方式；

其中，第一种方式为：

进一步优选地，教师模型的交叉熵损失函数为：

其中，

其中，

表示学生模型的交叉熵损失，/>

表示学生模型预测的概率分布；/>

为蒸馏损失；f(·)表示softmax激活函数，T表示蒸馏温度；/>

更为具体地，知识蒸馏包括：

主干网引出的两个分支分别对应教师模型和学生模型；教师模型是多线索引导的关联学习，而学生模型是传统的无关联学习；知识蒸馏旨在将教师模型的知识迁移到学生模型上；

进一步优选地，在训练过程中需要同时优化教师模型和学生模型；而在测试阶段，则可根据实际情况选择不同的分支用于预测结果；对于计算资源受限的环境，可以选择移除教师模型，单独使用学生模型的预测结果；对于追求极限性能的应用场合，则可选择教师模型的预测结果用于表情分类的决策。

系统的实现原理、技术效果与上述方法类似，此处不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一表情强度变化的人脸表情识别方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

综上所述，本发明与现有技术相比，存在以下优势：

本发明提供了一种多线索关联学习的面部表情识别方法及系统，其中特征级的注意力机制对多线索关联学习的知识进行有效整合，使得模型更符合人类的关联学习机制，从而更好地应对自然场景下复杂多变的挑战。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。