CN114648803B

CN114648803B - 自然场景下人脸表情识别方法、系统、设备及存储介质

Info

Publication number: CN114648803B
Application number: CN202210546946.2A
Authority: CN
Inventors: 陈恩红; 徐童; 赵思蕊; 李弘毅
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-09-06
Anticipated expiration: 2042-05-20
Also published as: CN114648803A

Abstract

本发明公开了一种自然场景下人脸表情识别方法、系统、设备及存储介质，一方面，使用面部对比区域裁剪方法生成难正样本对以获得更好的表示性；另一方面，通过产生注意权重来增强模型，以学习更多用于情感分类的鉴别特征，能够有效解决少样本情况下的人脸表情识别的问题；结合以上两方面可提升自然场景下人脸表情的识别准确率。

Description

自然场景下人脸表情识别方法、系统、设备及存储介质

技术领域

本发明涉及人脸表情识别技术领域，尤其涉及一种自然场景下人脸表情识别方法、系统、设备及存储介质。

背景技术

情感识别在情感计算、人机交互和认知计算等领域有所运用，并在生活中的方方面面有重要运用。然而，面部表情作为人类在交流过程中传达其情感状态和意图最有力、最自然、最普遍的一种非语言手段，计算机科学家在过去提出了各种方法来自动化识别过程。

自1978年埃克曼和弗里森提出面部行为编码系统后，通过计算进行自动人脸表情识别的工作逐步发展起来。然而，与其它一些生物识别技术相比，人脸表情识别相关研究的发展一直较为缓慢。这主要由于面部表情识别其实是个多学科交叉问题，它同时涉及到生理、心理、神经、计算机等多门学科。因此，问题的复杂性，内容的多样性以及研究的难度都远远大于其他生物特征识别技术。但是，由于表情识别对于科学发展、生活运用等多方面具有重要的价值，因此一大批国内外研究机构和学者参与到了人脸表情识别的研究中去，并积累了丰厚的研究成果和经验。

在基于传统机器学习算法的人脸表情识别研究中，特征的设计与选取往往很大程度上决定了人脸表情的识别结果。时至今日，研究者们已经提出多种编码低级或高级信息的外观表示形式，包括：（1）低层直方图、Gabor特征和数据驱动特征等进行编码的低级信息，获得低级表示；其中，低层直方图包括：HOG（方向梯度直方图）、LBP（局部二值模式）直方图、LPQ（局部相位量化）直方图；Gabor特征是一种可以用来描述图像纹理信息的特征；数据驱动特征包括：SIFT特征（尺度不变特征）。（2）使用稀疏编码或非负矩阵分解（NMF）进行编码的高级信息，获得高级表示。低级表示对光照变化和配准误差具有鲁棒性，而高级表示则可以处理诸如身份偏差等问题，并生成语义上可解释的特征。

不同于传统机器学习算法，利用深度学习进行表情识别最大的优势是充分整合了表情特征提取和分类识别过程，并且能提取更高层次的表情特征。然而，深度学习方法是一种数据驱动型的方法，往往需要依赖大规模的数据样本进行训练，在少样本的情况上表现不如人意，往往面临严重的过拟合问题，此外在数据存在类样本不均衡问题时，也让深度神经网络模型更难训练，因此，避免上述问题，从有限的标签数据中提取人脸表情的鉴别特征是一个亟待解决的问题。

发明内容

本发明的目的是提供一种自然场景下人脸表情识别方法、系统、设备及存储介质，能够有效的提升少样本和样本不均衡情况下自然场景下的人脸表情识别的准确率。

本发明的目的是通过以下技术方案实现的：

一种自然场景下人脸表情识别方法，包括：

构造包含卷积神经网络、注意力权重模块与分类识别模块的人脸表情识别模型；

使用面部对比区域裁剪方法，从每一张人脸表情图像中裁剪出两张部分人脸表情图像，构造训练数据集，所述训练数据集中属于同一张人脸表情图像的两张部分人脸表情图像构成难正样本对；

训练阶段，对于每一难正样本对中的两张部分人脸表情图像，均通过所述卷积神经网络进行特征提取，将提取出的特征向量输入至注意力权重模块进行特征映射与注意力权重计算；利用特征映射后难正样本对之间的特征差异，以及不属于难正样本对的两张部分人脸表情图像之间的特征差异计算对比学习损失；对难正样本对中一张部分人脸表情图像，利用相应的注意力权重与对应特征向量生成最终的特征，由所述分类识别模块进行分类预测，根据分类预测结果计算分类损失；构造包含对比学习损失与分类损失的融合损失函数优化所述人脸表情识别模型的参数；

测试阶段，将待识别的人脸表情图像输入至训练后的人脸表情识别模型，通过卷积神经网络进行特征提取，通过注意力权重模块进行特征映射与注意力权重计算，结合注意力权重生成最终的特征，再由分类识别模块进行分类。

一种自然场景下人脸表情识别统，该系统包括：

模型构造单元，用于构造包含卷积神经网络、注意力权重模块与分类识别模块的人脸表情识别模型；

面部对比区域裁剪与数据集构造单元，用于使用面部对比区域裁剪方法，从每一张人脸表情图像中裁剪出两张部分人脸表情图像，构造训练数据集，所述训练数据集中属于同一张人脸表情图像的两张部分人脸表情图像构成难正样本对；

训练单元，应用于训练阶段，对于每一难正样本对中的两张部分人脸表情图像，均通过所述卷积神经网络进行特征提取，将提取出的特征向量输入至注意力权重模块进行特征映射与注意力权重计算；利用特征映射后难正样本对之间的特征差异，以及不属于难正样本对的两张部分人脸表情图像之间的特征差异计算对比学习损失；对难正样本对中一张部分人脸表情图像，利用相应的注意力权重与对应特征向量生成最终的特征，由所述分类识别模块进行分类预测，根据分类预测结果计算分类损失；构造包含对比学习损失与分类损失的融合损失函数优化所述人脸表情识别模型的参数；

测试单元，应用于测试阶段，将待识别的人脸表情图像输入至训练后的人脸表情识别模型，通过卷积神经网络进行特征提取，通过注意力权重模块进行特征映射与注意力权重计算，结合注意力权重生成最终的特征，再由分类识别模块进行分类。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，一方面，使用面部对比区域裁剪方法生成难正样本对以获得更好的表示性；另一方面，通过产生注意权重来增强模型，以学习更多用于情感分类的鉴别特征，能够有效解决少样本情况下的人脸表情识别的问题；结合以上两方面可提升自然场景下人脸表情的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种自然场景下人脸表情识别方法的流程图；

图2为本发明实施例提供的面部对比区域裁剪方法的原理图；

图3为本发明实施例提供的人脸表情识别的有监督对比注意学习方法的示意图；

图4为本发明实施例提供的注意力权重模块的处理流程图；

图5为本发明实施例提供的一种自然场景下人脸表情识别系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种自然场景下人脸表情识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种自然场景下人脸表情识别方法，提出了一种面部对比区域裁剪方法来代替随机裁剪策略（对应步骤2），该策略有助于训练数据集的扩展和生成对比训练的难正样本对；并且，还提出了一种新的用于自然场景下的人脸表情识别的有监督对比注意学习方法（对应步骤3），能够有效解决少样本情况下的人脸表情识别的问题。图1展示本发明提供的一种自然场景下人脸表情识别方法的流程，其主要包括如下步骤：

步骤1、构造包含卷积神经网络、注意力权重模块与分类识别模块的人脸表情识别模型。

步骤2、使用面部对比区域裁剪方法，从每一张人脸表情图像中裁剪出两张部分人脸表情图像，构造训练数据集。

本发明实施例中，所述训练数据集中属于同一张人脸表情图像的两张部分人脸表情图像构成难正样本对。

步骤3、训练阶段，对于每一难正样本对中的两张部分人脸表情图像，均通过所述卷积神经网络进行特征提取，将提取出的特征向量输入至注意力权重模块进行特征映射与注意力权重计算；利用特征映射后难正样本对之间的特征差异，以及不属于难正样本对的两张部分人脸表情图像之间的特征差异计算对比学习损失；对难正样本对中一张部分人脸表情图像，利用相应的注意力权重与对应特征向量生成最终的特征，由所述分类识别模块进行分类预测，根据分类预测结果计算分类损失；构造包含对比学习损失与分类损失的融合损失函数优化所述人脸表情识别模型的参数。

步骤4、测试阶段，将待识别的人脸表情图像输入至训练后的人脸表情识别模型，通过卷积神经网络进行特征提取，通过注意力权重模块依次进行特征映射与注意力权重计算，结合注意力权重生成最终的特征，再由分类识别模块进行分类。

为了便于理解，下面针对面部对比区域裁剪方法，以及模型结构及训练阶段的主要过程分别进行详细的介绍。

一、面部对比区域裁剪方法。

本发明实施例提出的面部对比区域裁剪方法，可以将每一张人脸表情图像裁剪出两个面部区域图像（即部分人脸表情图像），这两个面部区域均包含用于面部表情识别的有效表情相关信息；主要流程如下：

（1）对于每一张人脸表情图像，计算给定的中心点P到图像边缘的距离，通过选择两个随机前进方向然后基于卡方分布的概率密度曲线，计算出两个裁剪中心点。

本发明实施例中，由于人脸表情图像是从原始图像中裁剪得到的图像，因此，中心点P可以为图像的中心位置，当然，也可以根据情况设定关键点（例如选择鼻子作为关键点）作为中心点P。

如图2左侧部分所示，设置中心点P为图像的中心位置，标记1与2代表两个裁剪中心点位置。

如图2右侧部分所示，展示了两组曲线，上方曲线为概率密度曲线，当裁剪中心点偏离给定中心的距离d时，概率开始增加，当裁剪中心点靠近图像边缘时，概率降低。为了便于计算，可以使用了离散随机变量的概率密度，如下方曲线所示，给定中心点和图像边缘的选择概率为零。

（2）根据设定的缩放比例，计算裁剪区域的大小，并根据两个裁剪中心点分别进行裁剪，获得两张部分人脸表情图像。

本发明实施例中，记裁剪区域的大小为Scale×Picture_size；其中，Scale表示设定的缩放比例，Picture_size表示人脸表情图像的尺寸（例如，三通道224*224的图像）。

本发明实施例中，两个裁剪中心点的距离位于设置的最小与最大距离范围内，通过调整两个裁剪中心点的距离，来调整两张部分人脸表情图像的重叠区域大小，通过这种方式，可以获得两个有效的人脸信息，并且两张部分人脸表情图像不会过度重叠和分散。

图2中间部分给出了从一张人脸表情图像裁剪出的两张部分人脸表情图像的示例，这两张图像构成难正样本对；两张图像不会过度重叠和分散但都包含了用于面部表情识别的有效人脸信息。

二、模型结构及训练阶段的主要过程。

1、模型结构。

本发明实施例提供的人脸表情识别模型主要包括：卷积神经网络（CNN）、注意力权重模块与分类识别模块。

（1）卷积神经网络。

所述卷积神经网络主要包括：结构相同的上层卷积神经网络与下层卷积神经网络；上层卷积神经网络与下层卷积神经网络单独对难正样本对中的一张部分人脸表情图像进行特征提取，一般来说，裁剪出的两张部分人脸表情图像中随机一张输入上层卷积神经网络，另一张输入下层卷积神经网络。训练阶段，通过融合损失函数对所述上层卷积神经网络的参数进行优化，下层卷积神经网络基于优化的上层卷积神经网络的参数使用动量更新策略来维护参数。

示例性的，上下层卷积神经网络均可以使用具有18层卷积网络的ResNet网络。

（2）注意力权重模块。

所述注意力权重模块包括：多层神经网络（MLPhead），以及与所述多层神经网络结构相反的全连接网络（FC）。其中，所述多层神经网络用于对输入的特征向量进行特征映射，产生低维空间特征，称为特征映射后的特征向量，用于对比学习损失计算；所述全连接网络的输入为特征映射后的特征向量，输出注意力权重，用于生成最终的特征进行后续的分类。

（3）分类识别模块。

本发明实施例中，分类识别模块的输入为最终的特征，也就是，融合注意力权重与卷积神经网络提取的特征向量后获取的特征，通过分类识别模块进行表情分类，完成人脸表情识别。

示例性的，本发明所包含的人脸表情类别可以包括：Happiness（高兴）、Sadness（难过）、Anger（愤怒）、Surprise（惊讶）、Disgust（反感）、Fear（害怕）、Neutral（中立）。

本发明实施例中，分类识别模块可采用单层的神经网络或本领域已有的分类模型，故不做赘述。

2、训练阶段的主要过程。

图3展示了训练阶段的主要过程，采用了一种人脸表情识别的有监督对比注意学习方法，主要包括：一张人脸表情图像裁剪出的两张部分人脸表情图像首先通过卷积神经网络进行特征提取，获得相应的特征向量；特征向量经注意力权重模块进行特征映射，获得特征映射的特征向量用于对比学习（Contrastive），如之前的说明，下层卷积神经网络的参数由上层卷积神经网络进行动量更新，因此对比学习部分不需要计算梯度；同时，难正样本对中一张部分人脸表情图像，还需要通过注意力权重模块进行注意力权重的计算，用以增强模型对情感相关特征的关注，利用相应的注意力权重与对应特征向量生成最终的特征，由所述分类识别模块进行分类（Classifiction）预测。

将一张部分人脸表情图像通过卷积神经网络提取的特征向量记为V，将多层神经网络记为MLPhead，全连接层记为f，注意力权重记为W，最终的特征记为V’，则处理过程表示为：

W=f(MLPhead(V),θ’)

V’=V*W

其中，*表示元素相乘，θ’表示全连接层的参数。

图4展示了注意力权重模块的对于一张部分人脸表情图像的处理流程，图4中带有圆圈的X符号表示元素相乘；该部分人脸表情图像为输入至上层卷积网络的一张部分人脸表情图像；输入至下层卷积网络的一张部分人脸表情图像只需要进行特征映射，无需计算注意力权重。

为了充分利用标记样本（即训练数据集中的图像）的信息进行人脸表情识别，设计了融合损失函数作为优化目标，其包含分类损失与对比学习损失，可以从有限的标记人脸表情中提取有用的表情相关特征。

从数学上来说，整个模型使以下融合损失函数最小化：

L _total=L _sup+L _con+L _clu

其中，L _sup为分类损失，它是完全监督下表情识别的损失，其根据分类预测结果计算，表示分类预测结果与真实标签之间的差异。L _con与L _clu均为对比学习损失，其中，L _con为第一对比学习损失，利用特征映射后难正样本对之间的特征差异，以及难正样本对中一张部分人脸表情图像与负样本之间的特征差异计算，用于拉近难正样本对特征之间的距离，并推开与负样本特征之间的距离，所述负样本为内存库（Memory Bank）中部分人脸表情图像。L _clu为第二对比学习损失，利用特征映射后难正样本对之间的特征差异，以及难正样本对中一张部分人脸表情图像与内存库相同标签图像之间的特征差异计算，目的是拉近难正样本对的图像特征和存储在内存库中具有相同标签的图像特征之间的距离。

本发明实施例中，分类损失L _sup使用交叉熵损失，表示为：

其中，

表示模型参数为

的c分类数据x _i的预测概率（即分类预测结果），x _i表示第i个难正样本对输入至上层卷积网络的部分人脸表情图像，y _i是对应的One-Hot标签，N _s表示训练数据集中难正样本对的数目。这一损失用于衡量Ground Truth（真实标签，即y _i）与分类预测结果之间的差距。

两部分对比学习损失计算方式类似；其中：

第一对比学习损失L _con，表示为：

其中，

与

表示第i个难正样本对中两张部分人脸表情图像特征映射后的特征向量，N _s表示训练数据集中难正样本对的数目，

表示内存库的第k张部分人脸表情图像特征映射后的特征向量，K表示内存库集合，s(.)表示相似性计算函数，

为温度参数，是一个可调节的系数。

第二对比学习损失L _clu，表示为：

其中，

与

表示内存库的第k张部分人脸表情图像特征映射后的特征向量，K表示内存库集合，

为温度参数，s(.)表示相似性计算函数；L表示在内存库中与难正样本对具有相同标签图像构成的图像集合，

表示内存库中对应第i个难正样本对的相同标签图像特征映射后的特征向量，N _L表示图像集合L中图像对的数目。

如之前所述，每一张人脸表情图像会被裁剪为两张部分人脸表情图像，内存库集合中的部分人脸表情图像是之前训练时裁剪出并保留的图像。为了区分两张部分人脸表情图像，它们对应的特征映射后的特征向量采用了符号

与符号

进行区分，符号

对应的部分人脸表情图像是指训练阶段输入至上层卷积神经网络处理并进行对比学习与分类预测的部分人脸表情图像，符号

对应的部分人脸表情图像是指训练阶段输入至下层卷积神经网络处理用于后续对比学习的部分人脸表情图像。以上两部分对比学习损失计算中所述的难正样本对中一张部分人脸表情图像可以固定为输入至上层卷积神经网络的图像，也可以固定为输入至下层卷积神经网络的图像。

本发明实施例中，以上两部分对比学习损失计算时使用的均为特征映射后的特征向量，它们都是标准化的特征向量，因此，可以通过余弦相似性函数s(.)计算图像样本之间的距离，公式为：

其中，(e _a,e _b)即为上述第一对比学习损失L _con与第二对比学习损失L _clu计算中所涉及的各图像的特征映射后的特征向量，T为转置符号。

此外，需要说明的是，考虑到可能涉及人脸隐私的问题，因此，对图2与图3中的人脸中的关键区域（例如，眼睛区域，嘴唇区域与鼻子区域等）施加马赛克效果，但实际应用中，并不会对人脸区域施加马赛克效果。

为了直观的体现本发明上述方案的识别效果，在公开数据集RAF-DB、FERPlus和AffectNet数据集上进行了七分类实验，实验结果如表1所示：

表1 实验结果

通过表1所示实验结果可知，本发明的识别平均准确率高于目前的识别方案。因为本发明基于小样本下的人脸表情识别，仅用到数据集的部分标签数据，因此使用百分号（%）表示所用训练数据占原始训练数据集的百分比。

实施例二

本发明还提供一种自然场景下人脸表情识别统，其主要基于前述实施例提供的方法实现，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

需要说明的是，上述系统中各个部分的实现方式在之前的实施例一中已经做了详细的介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种自然场景下人脸表情识别方法，其特征在于，包括：

测试阶段，将待识别的人脸表情图像输入至训练后的人脸表情识别模型，通过卷积神经网络进行特征提取，通过注意力权重模块依次进行特征映射与注意力权重计算，结合注意力权重生成最终的特征，再由分类识别模块进行分类。

2.根据权利要求1所述的一种自然场景下人脸表情识别方法，其特征在于，使用面部对比区域裁剪方法，从每一张人脸表情图像中裁剪出两张部分人脸表情图像的步骤包括：

对于每一张人脸表情图像，计算给定的中心点P到图像边缘的距离，通过选择两个随机前进方向再基于卡方分布的概率密度曲线，计算出两个裁剪中心点；其中，两个裁剪中心点的距离位于设置的最小与最大距离范围内；

根据设定的缩放比例，计算裁剪区域的大小，并根据两个裁剪中心点分别进行裁剪，获得两张部分人脸表情图像；

其中，通过调整两个裁剪中心点的距离，来调整两张部分人脸表情图像的重叠区域大小。

3.根据权利要求1所述的一种自然场景下人脸表情识别方法，其特征在于，所述卷积神经网络包括：上层卷积神经网络与下层卷积神经网络；上层卷积神经网络与下层卷积神经网络单独对难正样本对中的一张部分人脸表情图像进行特征提取；训练阶段，通过融合损失函数对所述上层卷积神经网络的参数进行优化，下层卷积神经网络基于优化的上层卷积神经网络的参数使用动量更新策略来维护参数。

4.根据权利要求1所述的一种自然场景下人脸表情识别方法，其特征在于，所述注意力权重模块包括：多层神经网络，以及与所述多层神经网络结构相反的全连接网络；

其中，所述多层神经网络用于对输入的特征向量进行特征映射，输出特征映射后的特征向量，用于对比学习损失计算；所述全连接网络的输入为特征映射后的特征向量，输出注意力权重。

5.根据权利要求1所述的一种自然场景下人脸表情识别方法，其特征在于，所述融合损失函数表示为：

L _total=L _sup+L _con+L _clu

其中，L _sup为分类损失，其根据分类预测结果计算，表示分类预测结果与真实标签之间的差异；L _con与L _clu均为对比学习损失，其中，L _con为第一对比学习损失，利用特征映射后难正样本对之间的特征差异，以及难正样本对中一张部分人脸表情图像与负样本之间的特征差异计算，所述负样本为内存库中部分人脸表情图像；L _clu为第二对比学习损失，利用特征映射后难正样本对之间的特征差异，以及难正样本对中一张部分人脸表情图像与内存库相同标签图像之间的特征差异计算。

6.根据权利要求5所述的一种自然场景下人脸表情识别方法，其特征在于，计算第一对比学习损失L _con的公式为：