CN116721457A

CN116721457A - 一种情感先验拓扑图指导的多任务人脸表情识别方法

Info

Publication number: CN116721457A
Application number: CN202310996375.7A
Authority: CN
Inventors: 王若彤; 孙晓; 汪萌
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-08
Anticipated expiration: 2043-08-09
Also published as: CN116721457B

Abstract

本发明涉及计算机视觉领域，具体涉及一种情感先验拓扑图指导的多任务人脸表情识别方法。该方法构建人脸表情识别模型，使用含标签数据作为训练数据输入到特征提取器得到图像特征表示；构建拓扑关系图表示分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的拓扑关系，对拓扑关系进行情感关系建模得到情感特征表示，将图像特征表示与情感特征表示进行融合后，对融合后的特征进行预测，得到输入图像的情感分类、效价值和唤醒值的预测。本发明利用情感多标签之间潜在的依赖关系，设计一种多层次融合算法在网络的浅层和深层进行特征融合，丰富了融合特征的信息，进而提高了人脸表情识别的准确度。

Description

一种情感先验拓扑图指导的多任务人脸表情识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种情感先验拓扑图指导的多任务人脸表情识别方法。

背景技术

人脸表情识别是一种基于计算机视觉技术的人工智能应用，旨在从人脸图像或视频中自动检测和识别出人脸表情，例如开心、生气、惊讶等。人脸表情识别在情感分析、安全监控、游戏、虚拟现实以及交互式体验领域均已开始应用，以帮助企业更好地了解消费者的需求和情感状态，提高产品的质量和市场竞争力。此外，在安全监控领域，人脸表情识别可以帮助提高公共安全和防止犯罪。

现有的人脸表情识别通常使用深度学习算法实现：对人脸图像进行预处理，包括对齐人脸以减少由于尺度和平面类旋转引起的变化，数据增强以增大数据量并避免模型过拟合，以及归一化以消除光照和头部姿态的影响。之后借助深度学习网络，如卷积神经网络、深度置信网络、循环神经网络等，从预处理过的人脸图像中提取特征，将这些特征输入到一个分类器或回归器以识别人脸的表情。

然而，现有的研究忽略了情感信息内部的隐形关联，在进行人脸表情识别时没有充分利用数据集的标签，局限在单一的情感数据集标签空间内，忽略了多数据集的连续标签和离散标签之间固有的依赖关系，造成了信息缺失，进而导致模型预测的准确度不高。

发明内容

为解决上述问题，本发明提供一种情感先验拓扑图指导的多任务人脸表情识别方法。

该方法将待识别图像输入构建的人脸表情识别模型，得到待识别图像的情感分类、效价值和唤醒值的预测，人脸表情识别模型的训练，包括以下步骤：

步骤一，准备具有情感分类标签、效价标签和唤醒标签/>的/>个人脸表情图像作为样本组成训练数据集；

步骤二，将训练数据集输入特征提取器，获得图像特征表示，/>为1到/>的整数；

步骤三，为训练数据集构建拓扑关系图表示训练数据集在分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的拓扑关系，并用拓扑关系邻接矩阵表示拓扑关系图/>；

步骤四，将拓扑关系邻接矩阵输入情感关系建模模块，获得情感特征表示/>；

步骤五，将图像特征表示与情感特征表示/>输入融合模块得到聚合特征/>；

步骤六，将聚合特征输入分类器得到样本的情感分类预测结果/>，将聚合特征/>输入回归器，得到样本的效价值的预测结果/>和唤醒值的预测结果/>；

步骤七，定义人脸表情识别模型的总损失函数；

步骤八，基于总损失函数训练人脸表情识别模型。

进一步的，步骤二中所述特征提取器，为残差神经网络、改进残差神经网络、密集连接卷积网络、移动网络中的任意一个。

进一步的，步骤三具体包括：

构建心理学理论矩阵A，心理学理论矩阵A的行表示分类标签空间的不同维度，心理学理论矩阵A的列表示效价唤醒标签空间的不同维度，心理学理论矩阵A的元素表示分类标签空间的某一维度与效价唤醒标签空间的某一维度的关联度；

构建情感拓扑关系图，情感拓扑关系图/>的每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间与效价唤醒标签空间两个标签空间之间的节点关系，用情感关系邻接矩阵/>表示情感拓扑关系图/>，情感关系邻接矩阵/>中第/>行第/>列的元素/>为：

；

其中，表示逻辑与计算，/>表示逻辑或计算，/>表示认知心理学理论矩阵A的第/>行第/>列的绝对值，Cat和Dim分别代表分类标签空间的维度索引和效价唤醒标签空间的维度索引；

构建先验拓扑关系图，先验拓扑关系图/>的每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间与效价唤醒标签空间两个标签空间的空间内部的节点关系，用先验关系邻接矩阵/>表示先验拓扑关系图/>，先验关系邻接矩阵/>中第/>行第/>列的元素/>为：

；

拓扑关系图由情感拓扑关系图/>和先验拓扑关系图/>两部分组成；拓扑关系图/>中每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的节点关系；，其中/>表示节点的集合，/>是预先设定的分类任务的维度个数，/>是预先设定的回归任务的维度个数；/>表示节点之间的边的集合；

用拓扑关系邻接矩阵表示拓扑关系图/>，拓扑关系邻接矩阵/>的维度为，拓扑关系邻接矩阵/>中每一个元素都表示其对应的边的权重值，拓扑关系邻接矩阵/>中第/>行第/>列的元素/>为：

。

进一步的，步骤五具体包括：

融合模块共分为层，第/>层融合模块的输出/>为：

；

其中，表示/>的卷积神经网络，/>和/>表示的是重塑操作，/>表示训练数据集中所有标签的数量，/>表示样本的高，/>表示样本的宽，/>表示样本的通道数，表示矩阵乘法，/>表示线性激活函数，/>表示矩阵转置，/>是图像特征表示/>经过第/>层融合模块处理后的中间值，/>是情感特征表示/>经过第/>层融合模块处理后的中间值。

进一步的，步骤七具体包括：

人脸表情识别模型的总损失函数为：

；

其中，为分类损失函数，/>为回归损失函数。

进一步的，所述分类损失函数为

；

其中，为表示样本是否属于类别/>的指示函数，如果样本的类别是/>，则/>=1，否则=0；/>是情感分类预测结果/>中对于第/>个类别的预测值。

进一步的，回归损失函数为：

；

其中，是评估效价指标的损失函数，/>是评估唤醒指标的损失函数。

进一步的，评估效价指标的损失函数为：

；

其中，是效价标签/>和效价值的预测结果/>之间的皮尔森相关系数，是效价标签/>的方差，/>是效价值的预测结果/>的方差，/>是效价值的预测结果/>的均值，/>是效价标签/>的均值。

进一步的，评估唤醒指标的损失函数为：

；

其中，是唤醒标签/>和唤醒值的预测结果/>之间的皮尔森相关系数，是唤醒标签/>的方差，/>是唤醒值的预测结果/>的方差，/>是唤醒值的预测结果/>的均值，/>是唤醒标签/>的均值。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明利用情感多标签之间潜在的依赖关系，并设计一种多层次融合算法在网络的浅层和深层进行特征融合，丰富了融合特征的信息，进而提高了人脸表情识别的准确度。

附图说明

图1为本发明实施例提供的一种情感先验拓扑图指导的多任务人脸表情识别方法示意图；

图2为本发明实施例提供的图注意力网络的个数与识别准确度的关系图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明，在详细说明本发明各实施例的技术方案前，对所涉及的名词和术语进行解释说明，在本说明书中，名称相同或标号相同的部件代表相似或相同的结构，且仅限于示意的目的。

本发明提出了一种情感先验拓扑图指导的多任务人脸表情识别方法，明确地对标签内和标签间的拓扑关系建模，同时预测情感类别和情感效价唤醒度，实现人脸表情的鲁棒联合学习，用一种轻量且普适的方法提高人脸表情识别的准确度。

本发明构建一个人脸表情识别模型，使用含标签数据作为训练数据集输入到特征提取器得到图像特征表示；构建拓扑关系图表示分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的拓扑关系，对拓扑关系进行情感关系建模得到情感特征表示，将图像特征表示与情感特征表示进行融合后，对融合后的特征进行预测，得到输入图像的效价值和唤醒值的预测以及情感分类的预测。

本发明的整体方案如图1所示，图1中，个拓扑关系图指导下的图注意力网络组成情感关系建模模块；融合模块共分为/>层。

本发明的具体步骤如下：

1.数据准备

准备包括离散的情感分类标签、效价标签和唤醒标签/>的/>个人脸表情图像作为样本，/>个样本组成人脸表情识别模型的训练数据集。

2.获取样本的特征表示

2.1.获取样本的图像特征表示

将训练数据集输入特征提取器，获得训练数据集中每个样本的图像特征表示，图像特征表示/>的维度为/>，/>为1到/>的整数。

选用一个预训练的深度学习模型作为特征提取器，如残差神经网络（ResNet50）、改进残差神经网络（IR50）、密集连接卷积网络（DenseNet121）、移动网络（MobileNetv2）等。

2.2.构建拓扑关系图

拓扑关系图表示分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的拓扑关系，拓扑关系图/>中每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的关系。将拓扑关系图表示为/>，其中/>表示节点的集合，/>是预先设定的分类任务的维度个数，/>是预先设定的回归任务的维度个数。表示节点之间的边的集合。用拓扑关系邻接矩阵/>表示拓扑关系图/>，拓扑关系邻接矩阵/>的维度为/>，拓扑关系邻接矩阵/>中的每一个元素都表示其对应的边的权重值。

具体来说，拓扑关系图由情感拓扑关系图/>和先验拓扑关系图/>两部分组成。先验拓扑关系图/>和情感拓扑关系图/>中，每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的节点关系。先验拓扑关系图/>仅仅关注分类标签空间和效价唤醒标签空间内部的节点关系，情感拓扑关系图/>仅仅关注分类标签空间和效价唤醒标签空间之间的节点关系。拓扑关系图/>实现先验拓扑关系图/>和情感拓扑关系图/>的信息互补。

先验拓扑关系图由节点自身包含的信息构成，用先验关系邻接矩阵/>表示先验拓扑关系图/>，先验关系邻接矩阵/>中第/>行第/>列的元素/>为：

。

情感拓扑关系图由认知心理学理论知识建模构造得出，用情感关系邻接矩阵表示情感拓扑关系图/>，情感关系邻接矩阵/>中第/>行第/>列的元素/>为：

；

其中，表示逻辑与计算，/>表示逻辑或计算，/>表示认知心理学理论矩阵A的第/>行第/>列的绝对值，取绝对值操作可以忽略数值的极性，防止学习到嘈杂的信息。Cat和Dim分别代表分类标签空间的维度索引和效价唤醒标签空间的维度索引。

认知心理学理论矩阵A的构造原理来自心理学情感分层模型，加入了部分统计学知识，其中，心理学理论矩阵A的行表示分类标签空间的某一维度，心理学理论矩阵A的列表示效价唤醒标签空间的某一维度，心理学理论矩阵A的元素表示分类标签空间的某一维度与效价唤醒标签空间的某一维度的关联度，取值在-1到1，值越大则关联度越高。心理学理论矩阵A的元素取值来自于认知心理学实验范式。基于认知心理学实验范式构建心理学理论矩阵A为本领域公知常识，本发明不再赘述。

拓扑关系邻接矩阵中第/>行第/>列的元素/>为：

。

2.3.获取样本的情感特征表示

图注意力网络是一种使用自注意力机制的图神经网络，图注意力网络将节点本身的特征和相邻节点的注意力特征拼接起来作为该节点的特征，在此基础上进行节点的分类和回归等任务。个图注意力网络构建出一个用于建模情感空间内部和情感空间之间的关系的情感关系建模模块。

将拓扑关系邻接矩阵输入情感关系建模模块，获得训练数据集中每个样本的情感特征表示/>，情感特征表示/>的维度为/>，/>为1到/>的整数。

2.4.获取样本的聚合特征表示

融合模块共分为层，作用于情感特征表示/>和图像特征表示/>上。融合模块的作用是将不同情感空间的拓扑关系信息注入不同阶段的图像特征提取网络，而不是简单地在最终输出上进行叠加操作。这种策略的优点在于：（1）在定位细节的浅层和丰富语义特征的深层都完成了特征的融合，使得模型对嵌入信息的理解更细致和深入；（2）来自融合机制的额外梯度可以看作一种特殊的正则化，它在一定程度上克服了图注意力网络中的过度平滑问题。

将图像特征表示与情感特征表示/>输入融合模块进行融合得到训练数据集中每个样本的聚合特征/>。图像特征表示/>包括对样本的具体视觉特征的抽象化描述，更直接反映面部肌肉的活动情况；情感特征表示/>反映面部表情与特定情感状态之间的关系，提供更深层次的语义和上下文信息；将两者融合能够提供更多元、更丰富的信息，帮助人脸表情识别模型更改好地理解面部表情与特定情感状态之间的复杂关系。

第层融合模块的输出/>为：

；

其中，表示/>的卷积神经网络，/>和/>表示的是Reshape操作，/>表示标签的个数，/>表示样本的高，/>表示样本的宽，/>表示样本的通道数，/>表示矩阵乘法，/>表示线性激活函数，/>是矩阵转置，/>是图像特征表示/>经过第/>层融合模块处理后的中间值，/>是情感特征表示/>经过第/>层融合模块处理后的中间值。

以最后一层融合模块的输出作为每个样本的聚合特征。

3.分类和回归预测

将聚合特征输入分类器，将样本分配到预定义的情感类别中，得到对于样本的情感分类预测结果/>。

将聚合特征输入回归器，预测样本对应的情感的程度，该强度由效价值与唤醒值共同定义，其中效价值描述情感的性质，如正面情感或负面情感，唤醒值描述情感的强度，如强烈、弱等。回归器输出样本的效价值的预测结果/>和唤醒值的预测结果。通过预测效价值和唤醒值，可以得到对情感的更全面的理解，提供更详细的情感识别结果。

4.定义模型损失

分类损失函数为：

；

回归损失函数为：

；

其中，是评估效价指标的损失函数，/>是评估唤醒指标的损失函数。评估效价指标的损失函数/>被定义为：

；

评估唤醒指标的损失函数被定义为：

；

则人脸表情识别模型的总损失函数为：

；

根据人脸表情识别模型的总损失函数对人脸表情识别模型进行训练，直到达到预设的训练停止条件，得到完成训练的人脸表情识别模型。

本发明采用训练停止的条件是总损失函数小于阈值。

5.模型的应用

将待识别的人脸表情图像输入完成训练的人脸表情识别模型得到待识别的人脸表情图像对于情感分类、效价值、唤醒值的预测结果。

本发明基于轻量的卷积神经网络构建的人脸表情识别模型体量小（参数量约8M），在识别准确度上，人脸表情识别模型实现了与基于Transformer的人脸表情识别模型（参数量约65M）同等的效果，降低了计算成本和推理成本。

本发明利用了情感多标签之间潜在的依赖关系，充分利用了标签信息，提高了识别结果的准确度。图2示出了图注意力网络的个数与人脸表情识别模型识别准确度的关系，图2的横轴表示拓扑关系图指导下的图注意力网络的个数，纵轴表示人脸表情识别模型的识别准确度，由图2可以观察到：当图注意力网络的个数等于5时，识别准确度最高；只要图注意力网络的个数大于0，人脸表情识别模型的识别准确度就始终高于没有图注意力网络的情况。这证明了本发明的有效性。

表1对比了面部相关任务分析法(Face-SSD)、残差神经网络(ResNet-18)、情感人脸对齐网络(EmoFAN)、自愈网络(SCN)、知识型教师网络(KTN)、情感图神经网络(EmotionGCN)、局部表征变换器(TransFER)、遮罩视觉转换器(MViT)、注意力池化视觉转换器(APViT)和本发明的准确性。

表1 本发明与其他人脸表情识别模型的准确度比较

表1中，准确度是评估情感分类结果准确度的指标，最大值为1，最小值为0，值越大表示准确度越高。一致性相关系数、皮尔逊相关系数、均方根误差、标签一致性是评估回归结果准确度的指标，一致性相关系数、皮尔逊相关系数、标签一致性的值越大准确度越高，最大值为1。均方根误差的值越小准确度越高，最小值为0。带*的模型表示基于转换器Transformer的模型。/表示没有数据。表1中基线表示不包括情感建模模块和融合模块的人脸表情识别模型。

由表1可知，本发明在各个指标维度都不低于或者超过现有的模型。

将情绪网数据集（AffectNet）和自然情绪野生数据集（Aff-Wild2）输入到人脸表情识别模型，统计融合模块在不同数据集上的准确度影响，如表2所示。

表2 融合模块在不同数据集上的准确度影响

表2中的基线表示包括融合模块的人脸表情识别模型，不含融合模块表示不包括融合模块的人脸表情识别模型。△表示方法的准确度相对于基线的变化数值，-表示数值下降。/表示没有数据。

由表2可知，对于两个数据集，人脸表情识别模型包括融合模块的准确度均高于人脸表情识别模型不包括融合模块的准确度。

表3总结了基于不同的模型作特征提取器时，人脸表情识别模型与特征提取器对应的模型的识别准确度比较。

表3 本发明与不同的特征提取器对应的模型的准确度比较

表3中的数值部分，每个括号中逗号之前的数字表示特征提取器对应的模型对人脸表情预测的准确度，每个括号中逗号之后的数字表示人脸表情识别模型对人脸表情预测的准确度。△表示人脸表情识别模型的准确度相对于特征提取器对应的模型的准确度的变化数值，+表示数值上升。

由表3可知，人脸表情识别模型与特征提取器对应的模型相比，人脸表情识别准确度更高。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种情感先验拓扑图指导的多任务人脸表情识别方法，将待识别图像输入构建的人脸表情识别模型，得到待识别图像的情感分类、效价值和唤醒值的预测，人脸表情识别模型的训练，包括以下步骤：

步骤三，为训练数据集构建拓扑关系图表示训练数据集在分类标签空间和效价唤醒标签空间两个标签空间的空间内部和空间之间的拓扑关系，并用拓扑关系邻接矩阵/>表示拓扑关系图/>；

步骤七，定义人脸表情识别模型的总损失函数；

步骤八，基于总损失函数训练人脸表情识别模型。

2.根据权利要求1所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，步骤二中所述特征提取器，为残差神经网络、改进残差神经网络、密集连接卷积网络、移动网络中的任意一个。

3.根据权利要求1所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，步骤三具体包括：

构建情感拓扑关系图，情感拓扑关系图/>的每个节点代表分类标签空间或效价唤醒标签空间的某一维度，每条边代表分类标签空间与效价唤醒标签空间两个标签空间之间的节点关系，用情感关系邻接矩阵/>表示情感拓扑关系图/>，情感关系邻接矩阵中第/>行第/>列的元素/>为：

；

。

4.根据权利要求1所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，步骤五具体包括：

融合模块共分为层，第/>层融合模块的输出/>为：

；

其中，表示/>的卷积神经网络，/>和/>表示的是重塑操作，/>表示训练数据集中所有标签的数量，/>表示样本的高，/>表示样本的宽，/>表示样本的通道数，/>表示矩阵乘法，/>表示线性激活函数，/>表示矩阵转置，/>是图像特征表示/>经过第/>层融合模块处理后的中间值，/>是情感特征表示/>经过第/>层融合模块处理后的中间值。

5.根据权利要求1所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，步骤七具体包括：

人脸表情识别模型的总损失函数为：

；

其中，为分类损失函数，/>为回归损失函数。

6.根据权利要求5所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，所述分类损失函数为

；

其中，为表示样本是否属于类别/>的指示函数，如果样本的类别是/>，则/>=1，否则/>=0；/>是情感分类预测结果/>中对于第/>个类别的预测值。

7.根据权利要求5所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，回归损失函数为：

；

8.根据权利要求7所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，评估效价指标的损失函数为：

；

其中，是效价标签/>和效价值的预测结果/>之间的皮尔森相关系数，/>是效价标签/>的方差，/>是效价值的预测结果/>的方差，/>是效价值的预测结果的均值，/>是效价标签/>的均值。

9.根据权利要求7所述一种情感先验拓扑图指导的多任务人脸表情识别方法，其特征在于，评估唤醒指标的损失函数为：

；

其中，是唤醒标签/>和唤醒值的预测结果/>之间的皮尔森相关系数，/>是唤醒标签/>的方差，/>是唤醒值的预测结果/>的方差，/>是唤醒值的预测结果的均值，/>是唤醒标签/>的均值。