CN117351550A

CN117351550A - 基于有监督对比学习的网格自注意力人脸表情识别方法

Info

Publication number: CN117351550A
Application number: CN202311413509.4A
Authority: CN
Inventors: 蔡苏; 刘紫凤; 张钰华; 周海涛
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-05

Abstract

本发明涉及基于有监督对比学习的网格自注意力人脸表情识别方法，创建包含多类别的人脸表情图像数据集，构建具有多层级注意力网络的特征提取模型，包括：网格自注意力模块和高级特征编码模块；构建基于有监督对比学习的混合损失函数约束构建的特征提取模型学习到更具有判别力的表示；将训练集中的图像输入具有多层级注意力网络的特征提取模型中进行训练，根据输入图像对应的标签类别数据和构建基于有监督对比学习的损失函数，判断具有多层级注意力网络的特征提取模型的有效性，得到训练好的具有多层级注意力网络的特征提取模型；将测试集中的图像输入至训练好的具有多层级注意力网络的特征提取模型中进行人脸表情的识别，得到表情识别后结果。

Description

基于有监督对比学习的网格自注意力人脸表情识别方法

技术领域

本发明涉及一种基于有监督对比学习的网格自注意力人脸表情识别方法，属于计算机视觉技术领域，特别是人脸表情识别技术。

背景技术

在表情识别任务中，表情特征提取是关键步骤之一。传统人脸表情识别算法一般都是通过人工方式来选择并提取人脸表情特征，受某些人为因素的干扰，从而使得训练得到的模型无法对表情信息进行良好的诠释，模型泛化能力不强，识别准确率不高。大数据时代，计算资源快速发展与升级，使深度学习取得了突破性的进展，卷积神经网络在人脸表情识别任务上表现出了一定的优越性，但是仍然受高质量样本有限的制约，同时复杂的背景环境和不均匀的光线等也会产生影响，使得模型训练易产生过拟合，难以提取有效表情特征，最终模型的准确率和鲁棒性需要进一步提升，具体为：

(1)人脸表情数据类别不均衡和数据不足问题。由于人更容易出现开心或者惊讶等表情而不是其他类别表情，大部分人脸表情数据集中存在表情类别不均衡的问题，即开心或惊讶等常见表情的样本数量会远多于厌恶等其他表情类别。进而导致所训练的模型更加偏向于常见的表情类型，对于罕见的表情无法识别准确。

(2)深度DCNN模型过拟合问题。为了保证模型能够模拟复杂的人脸表情特征，网络通常需要具有很深的层次结构。然而，对DCNN模型的网络结构加深或扩展，会导致模型结构复杂，容易引发模型过拟合。数据不足可能进一步导致深度表情识别模型训练过拟合问题。

(3)人脸表情特征提取困难问题。基于DCNN的表情识别模型的关键在于从人脸图像中发现和学习到具有判别性作用的关键特征，然后进行类别匹配。在无约束的自然场景中，人脸图像是在背景和光线强度等因素之间的共同影响下产生的，图像中除了人脸可能还包含许多不相关的信息。因此，图像的复杂性很高，可能存在很多噪音，使得学习表达性特征变得非常困难。

(4)人脸表情特征权重关注不足。在使用DCNN进行表情识别时，各个特征通道和空间信息权重是固定的，无法自适应地进行调整，从而导致一些重要的通道或者空间特征被忽略，而一些不重要的特征通道对表情识别起到负面作用。为了结合表情图像的全局和局部细节，在CNN直接使用大的卷积核来充分捕捉数据中的关键信息会导致模型需要学习和更新大量的网络参数，导致更长的模型学习时间。

现有的人脸表情识别方法主要采用深度学习模型对人脸图像进行特征提取和分类。然而，由于人脸表情具有多样性和变化性，传统的深度学习模型往往难以准确地识别不同的表情。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于有监督对比学习的网格自注意力人脸表情识别方法，精准地识别人脸的不同表情，提升表情识别的性能。

本发明技术解决方案：

第一方面，本发明提供一种基于有监督对比学习的网格自注意力人脸表情识别方法，其特点在于：采用一种有监督对比学习的方法建立具有多层级自注意力网络的特征提取模型，具体包括以下步骤：

步骤1：创新一个包含多类别的人脸表情图像数据集，数据集包括人脸表情图像及对应的标签类别数据，将所有人脸表情图像作为训练样本进行预处理，裁剪成为大小相同的图像，并剔除非人脸表情图像和错误标签类别数据；将预处理后的人脸表情图像按照比例分为训练集、验证集和测试集，对训练集中的人脸表情图像即数据进行逐一数据增强，从而得到最终训练集；

步骤2：构建一种具有多层级注意力网络的特征提取模型，所述具有多层级注意力网络的特征提取模型包括：网格自注意力模块和高级特征编码模块；

所述网格自注意力模块，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算，得到网格注意力特征图，从而完成人脸表情图像中的低级特征的提取；

所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对人脸表情图像的分类；

步骤3：构建一种基于有监督对比学习的混合损失函数，约束步骤2中所构建的特征提取模型学习到更具有判别力的表示，从而提高任务性能；

步骤4：将步骤1所得训练集图像数据输入到步骤2所构建的具有多层级注意力网络的特征提取模型中进行训练，根据所输入图像数据的标签类别数据和步骤3所构建基于有监督对比学习的损失函数判断具有多层级注意力网络的特征提取模型的有效性，采用验证集最优准确率评测结果选择训练参数，得到训练好的具有多层级注意力网络的特征提取模型；

步骤5：将步骤1测试集中的人脸表情图像输入到训练好的具有多层级注意力网络的特征提取模型中，进行人脸表情的识别，验证所训练模型表情识别结果的准确性。

可选地，所述步骤3中，基于有监督对比学习的混合损失函数L包括基于数据增强的多分类交叉熵损失数L^cls和有监督对比学习损失数L^sup，如下式所示：

L＝λ*L^cls+(1-λ)*L^sup

所述基于数据增强的多分类交叉熵损失函数L^cls为其中λ表示基于数据增强的多分类交叉熵损失函数L^cls在基于有监督对比学习的混合损失函数L中的权重，λ(范围0.05-1)根据训练样本进行选择，需要多次试验确定。m表示基本数据增强策略的种类，/>表示对训练样本标签类别的预测值，/>表示正则化后的特征输出，N表示从训练集中抽取的训练样本数量。

所述有监督对比学习损失函数L^sup为：

其中，i表示任意训练样本，E表示所有训练样本的集合，P(i)表示训练样本i的正样本集合，p表示与i互为正样本对的任意样本，log表示对数函数，exp表示指数函数，z_i，z_p和z_a表示训练样本i，p，a经过多层级注意力网络的特征提取模型的特征输出，τ表示有监督对比学习损失函数L^sup的温度系数(范围0.5-20)，τ根据训练样本进行选择，需要多次试验确定。；A(i)表示训练样本的负样本集合。

可选地，所述步骤1中，对训练集中的图像进行逐一数据增强的方法实现如下：

(1)将训练集中的图像裁剪为统一大小，进行灰度化，然后按顺序进行随机裁剪、随机颜色抖动、仿射变换、水平翻转和随机旋转基本数据增强操作；

(2)对经过步骤(1)中基本数据增强后的图像进行多倍裁剪，将处理的后的图像进行one-hot(独热)编码并随机添加噪音，得到编码后的图像；

(3)对编码后的图像照一定比例(融合比例系数小于0.15)进行随机融合，同时输入图像的标签类别数据对应的向量进行所述一定比例处理，得到最终图像。

可选地，所述步骤2中，所述网格自注意力模块中，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算的过程包括三个部分：低级特征提取、网格注意力计算和残差特征融合，具体为：

(1)低级特征提取：将输入图像I通过卷积计算进行分割，描述为函数G，得到分割后网格图像：

其中i，j表示分割后网格图像的行和列，C表示输入图像的通道数，H表示输入图像I的高度，W表示输入图像I的宽度，h为分割后网格图像的高度，w为分割后网格图像的宽度；

对每个分割后网络图像进行低级特征(低级特征包括纹理和边缘)提取，采用卷积计算完成对输入图像I不同空间位置的特征提取：

其中为经过低级特征提取后的位于i行j列的网格图像的低级特征，LFN表示低级特征提取函数，通过卷积实现；

最终得到所有分割后网格图像的低级特征集合即作为网格注意力计算的输入；

(2)网格注意力计算：基于提取的所有网格图像的低级特征，采用点积相似度函数计算不同网格图像特征之间的相似性，得到基于自注意力的加权网格特征图集合

其注意力计算方式为：

即：

其中网格注意力计算中查询Query和键Key值均为得到的网格图像的低级特征集合键的维度为/>

再进一步将加权特征图集合进行去网格化，得到和输入图像大小相同的具有自注意力的加权特征图/>

(3)特征融合：采用残差网络技术，将输入图像I与所述加权特征图之间的特征通过骨干融合网络进行融合；所述骨干融合网络包括两个特征转换网络FT₁和FT₂及一个特征融合网络RFN；所述两个特征转换网络FT₁，FT₂共享结构但参数不同，将输入图像I和加权特征图/>各自输入到特征变换网络FT₁和FT₂中，再将两个输出通过特征融合网络RFN完成残差特征融合，得到最终的网格注意力特征图/>

可选地，所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对图像的分类的过程如下：

将网格自注意力模块的网格注意力特征图分别输入至经过预训练和微调的ResNet18模型和预训练的视觉Transformer模型中；所述ResNet18模型首先采用步骤1中所述训练集进行全连接层微调；所述预训练的视觉Transformer模型包括Transformer编码网络和一个全连接层网络；网格注意力特征图经过所述ResNet18模型后得到基于卷积的语义特征，同时经过所述视觉Transformer模型得到基于自注意力的语义特征，对所述ResNet18模型和所述视觉Transformer模型所输出的高级语义特征进行加权，并在决策层对所述两个模型的输出结果进行分类预测，最终得到图像的预测输出类别，完成分类。所述高级特征编码模块同时融合高级空间和序列信息，能够兼顾全局和局部特征的建模。

第二方面，本发明提供一种电子设备，包括处理器、存储器，其中：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序，执行时实现前述基于有监督对比学习的网格自注意力人脸表情识别方法。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行时实现前述基于有监督对比学习的网格自注意力人脸表情识别方法。

本发明与现有技术相比的优点在于：

(1)本发明提出的技术方案能够克服卷积神经网络在人脸表情识别任务上受高质量样本有限、杂的背景环境、模型训练易产生过拟合及难以提取有效表情特征等困难，结合有监督对比学习和基于网格的自注意力网络，通过使用数据增强生成正负样本对，最大限度地利用有限的标签类别数据进行特征学习，同时在特征学习过程中关注不同层次的表情特征，自我注意力机制引入让网络更多的关注图像空间中重要的特征，从而减少特征冗余和提高模型的准确性。这种改进的技术方案使得模型能够同时融合低级和高级空间信息以及序列信息，更全面地建模表情特征。通过这种方式，模型在处理表情图像时能够更好地理解不同位置上的特征，并更精准地识别不同表情，提升表情识别的性能。

(2)本发明构建一种基于有监督对比学习的混合损失函数，将多分类交叉熵损失函数和有监督的对比学习结合起来，关注分类的同时进行不同图像的对比学习，能够缓解数据不均衡问题，提高模型的泛化能力和鲁棒性，采用本发明构建的损失函数约束所构建的特征提取模型可以使模型学习到更具有判别力的特征表示，从而提高任务性能；

(3)本发明所采用多种基本数据增强方法结合多倍裁剪和融合图像的方式对训练图像进行数据增强，一是增加了数据集的多样性，二是有助于提高模型对于各种噪声和干扰的鲁棒性。通过训练模型来区分相似和不相似的图像，它可以更好地应对输入数据的变化。

(4)本发明采用基于网格的自注意力机制来提高对不同位置的表情信息的建模能力，可以帮助模型更好地理解图像中的局部特征，提高对不同位置表情信息的建模能力，从而提高了模型的鲁棒性和可解释性。

(5)本发明将基于自注意力机制的时序相关高级表情特征和基于CNN的空间相关高级表情特征进行有效融合，采用决策层特征加权融合方法，将Transformer模型和ResNet18模型在决策层的输出进行合并，从而使得模型能够兼顾全局和局部空间特征的建模能力，更好地捕捉表情图像中的细节和上下文信息。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模块结构和数据流示意图，其中网格注意力模块用于提取表情图像低级特征，G表示将输入图像进行网格拆分，拆分后输入到低级特征提取的卷积块LFN中，进一步在完成网格注意力计算后，采用UnG将将加权特征图集合去网格化，将输入和加权特征图分别经过两个特征转换网络FT₁和FT₂及一个特征融合网络RFN得到网格自注意模块的输出；。高级特征编码模块包含基于自注意力的模型Vision Transformer和ResNet18，分别用于提取不同类型的表情特征，两个高级特征编码模块中的模型在决策层进行信息融合；

图2为本发明的使用有监督的对比学习的原理示意图主要思想，其中类别1和类别2是数据集所包含的样本信息，两侧的图像属于不同的样本类别，在特征映射中，相同类别的图像特征在特征超球面中距离更接近，否则距离更远；

图3为本发明所采用的数据增强过程示意图，在随机基本变换过程中，所有图像变换按照一定概率执行，完成多倍裁剪后从随机选择数据集中另一张图像进行按比例融合；

图4为本发明所用的Vision Transformer的主要结构示意图，输入图像大小为224*224，分块编码和位置编码被用于和线性映射后的网格图像特征组合生成transformer编码器的输入序列，最后采用多层感知头完成分类；

图5为本发明的实时表情识别的实现流程；在进行人脸表情的实时识别时，系统首先会判断摄像头是否打开，若摄像头打开则对视频帧进行选取，然后通过人脸检测将人脸框进行标定，将人脸框中的包含表情的图像输入到所构建的模型中，得到表情分类的结果和概率。

图6为本发明的识别图像结果示例，表情图像被分为七类；结果显示对示例人脸表情进行实时识别时的各类表情的识别情况，对伤心、平静、开心和惊讶的识别效果均较好，且当人脸存在一定程度遮挡时，也能够准确识别人脸的表情类别。

图7为本发明的数据结果显示示例，左侧是实时视频的显示区域，通过选取实时视频的一帧图像，经过人脸检测得到人脸后，在原视频的图像帧上标注了人脸表情的具体位置，该人脸表情框中的图像被输入到模型中，得到分类为各类表情的概率，显示在右侧。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本发明实施例提供一种基于有监督对比学习的网格自注意力人脸表情识别方法，包括以下步骤：

步骤1：首先，创建一个包含多类别的人脸表情图像数据集，数据集包括图像及对应的标签类别，将所有图像作为训练样本进行预处理，裁剪成为大小相同的图像，并剔除非图像和错误标签类别；将预处理后的图像按照比例8:1:1分为训练集、验证集和测试集，对训练集中的图像即数据进行逐一数据增强，增加训练样本数量的基础上，增加输入图像数据的多样性，从而得到最终训练集；在训练集中，将同一表情的图像作为训练样本中的正样本，将不同表情的图像作为训练样本中的负样本；

如图2所示，为本发明的使用有监督的对比学习的原理示意图，其中类别1和类别2是训练数据集所包含的样本信息，两侧的图像属于不同的样本类别，在特征映射中，相同类别的图像特征在特征超球面中距离更接近，否则距离更远。

其中类别1和类别2是训练数据集所包含的样本信息，属于不同的样本类别，在特征映射中，相同类别的特征在特征超球面中距离更接近，否则距离更远。

在一些实施例中，对训练数据集中的图像进行逐一数据增强的方法实现如图3，在随机基本变换过程中，所有图像变换按照一定概率执行，完成多倍裁剪后从随机选择数据集中另一张图像进行按比例融合；

具体实现描述为：

(1)将训练集中的图像裁剪为统一大小，进行灰度化，然后按顺序进行随机裁剪、随机颜色抖动、仿射变换、水平翻转和随机旋转基本数据增强操作，随机基本变换中每一项变换按照0.5的概率随机实现；

(2)对经过步骤(1)中基本数据增强后的图像进行5倍裁剪，将处理的后的图像进行one-hot(独热)编码并随机添加噪音，得到编码后的图像；

(3)随机选择数据库中一张其他类别的图像进行随机融合对编码后的图像照一定比例(融合比例系数小于0.15)进行随机融合，同时输入图像的标签类别对应的向量进行所述一定比例处理，得到最终图像。

为了应对训练集样本数量不足和确保构建足够的正负样本进行对比特征学习，本发明采用了m种基本数据增强策略来增加训练数据的多样性，以提高模型的泛化能力。数据增强模块会将输入图像转换为随机增强的图像，以表示原始数据的不同视图。对于每一张图片，相当于在进行对比学习时新增m个正样本，其余标签与该图片属于同类的也作为正样本对，否则为负样本对。

从实验训练数据中随机采样N个样本，记为{[x₁，y₁]，[x₂，y₂]，...，[x_N，y_N]}，其中y是人脸表情图像x的标签信息，通过数据增强后获得该过程描述为：

其中，Aug函数表示数据增强模块，数据增强时人脸表情图像的标签信息保持不变，即扩展了原数据集同类样本数量。对于增强后的样本集合中任意一张图x_i，相似样本数为自身增强的四张图片和其他同类别标签的图像，其余为不相似样本。

为了防止模型受到非预期样本干扰导致过拟合，对所有样本的标签的one-hot分布增加噪音，并将两张图片随机按一定比例进行融合，同时对它们的one-hot标签也进行同比例的融合，构造新的训练样本和对应的标签，以提高模型的泛化能力。

在一些实施例中，所述网格自注意力模块中，按照网格的方式对不同空间位置的图像进行注意力计算的过程包括三个部分：低级特征提取、网格注意力计算和残差特征融合，具体为如图1所示：

(1)低级特征提取：将输入图像I通过卷积计算进行分割，描述为函数G，得到分割后的多个网格图像：

对每个分割后网络图像进行低级特征提取，采用卷积计算完成对输入图像I不同空间位置的特征提取：

其中为经过低级特征提取后的网格图像特征，LFN表示低级特征提取函数，通过卷积实现；

得到所有分割后网格图像的低级特征集合即作为网格注意力计算的输入；

(2)网格注意力计算：基于提取的所有网络图像的低级特征，采用点积相似度函数计算不同网格图像特征之间的相似性，得到加权特征图集合该过程表述为：

其中表示经过自注意力计算的网格特征图集合，该注意力计算中查询和键均为上一步得到的加权特征图集合/>键的维度为/>

将加权特征图集合进行去网格化，得到和输入图像大小相同的自注意力特征图

(3)残差特征融合：采用残差网络技术，将输入图像I与加权特征图之间的特征通过骨干融合网络进行融合；所述骨干融合网络包括两个特征转换网络FT₁和FT₂及一个特征融合网络RFN；所述两个特征转换网络FT₁，FT₂共享结构但参数不同，将输入图像I和加权特征图/>分别被转换到输入图像I和加权特征图/>的特征变换网络中，再通过特征融合网络RFN完成残差特征融合，得到最终的网格注意力特征图/>

如图1所示，高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对人脸表情图像的分类；

在一些实施例中，所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对人脸表情图像的分类的过程如下：

将网格自注意力模块的网格注意力特征图分别输入至经过预训练和微调ResNet18模型和预训练的视觉Transformer模型中；ResNet18模型首先采用步骤1中所述训练集进行全连接层微调，微调时设定除全连接层外其他网络层参数不变；预训练的视觉Transformer模型包括Transformer编码网络和一个全连接层网络；网格注意力特征图经过ResNet18模型后得到基于卷积的语义特征，同时经过Transformer模型得到基于自注意力的语义特征，对两个预训练模型所输出的高级语义特征进行加权，按照相同权重系数进行结果预测，最终得到图像的预测输出类别，完成分类。

在一些实施例中其中，针对每个输入图像，首先提取低级表情特征和高级表情特征。其中，低级表情特征采用基于网格的自注意力机制来提高对不同位置的表情信息的建模能力，如图1。高级表情特征则采用特征融合方法结合两个高级编码网络的结果，使得所提架构同时融合高级空间和序列信息，能够兼顾全局和局部特征的建模。其中高级特征提取部分由Vision Transformer(如图3)和ResNet18完成。

采用Vision transformer将输入图像划分为一组图像块，并将它们编码为特征向量。这些特征向量随后被送入一个全连接层进行嵌入，然后添加位置信息编码。接下来，这些特征向量和它们的位置信息编码被送入Transformer编码器，用于学习图像的表示。最后，从Transformer编码器的输出特征向量序列中提取出包含图像全局信息的CLS token的特征向量，并将其输入到多层感知器头部进行分类。

Vision Transformer包含多头注意力感知模块和多层感知机模块，每个模块前有归一化层，每个模块后包含残差连接。对于多层感知机模块包含两层网络，使用高斯误差线性单元激活函数，整个过程定义为：

z′_l＝MSA(LN(z_l-1))+z_l-1，l＝1，2，3，...，S

z_l＝MLP(LN(z′_l))+z′_l，l＝1，2，3，...，S

其中z₀表示编码器的输入，是一个长度为D的特征向量，由每个小图像块的编码x_p和类别编码x_class加上位置编码E_pos得到，MSA代表多头注意力计算函数，MLP代表多层注意力网络函数，LN代表归一化层，z_l代表第l个编码器的输出，p表示网格图像在原图的位置，N表示网格图像块的总个数，y表示编码器最终输出的结果，S表示总的编码器个数。

在一些实施例中，基于有监督对比学习的混合损失函数L包括基于数据增强的多分类交叉熵损失数L^cls和有监督对比学习损失数L^sup，如下式所示：

L＝λ*L^cls+(1-λ)*L^sup

在一些实施例中，所述基于数据增强的多分类交叉熵损失函数L^cls为其中λ表示基于数据增强的多分类交叉熵损失函数L^cls在基于有监督对比学习的混合损失函数L中的权重，λ(范围0.05-1)根据训练样本进行选择，需要多次试验确定。m表示基本数据增强策略的种类，/>表示对训练样本标签类别的预测值，/>表示正则化后的特征输出，N表示从训练集中抽取的训练样本数量。

在一些实施例中，所述有监督对比学习损失函数L^sup为：

其中，i表示任意训练样本，E表示所有训练样本的集合，P(i)表示训练样本i的正样本集合，p表示与i互为正样本对的任意样本，log表示对数函数，exp表示指数函数，z_i，z_p和z_a表示训练样本i，p，a经过多层级注意力网络的特征提取模型的特征输出，τ表示有监督对比学习损失函数L^sup的温度系数(范围0.5-20)，根据训练样本进行选择，需要多次试验确定。

将多分类交叉熵损失函数和有监督的对比学习损失函数相加的设计目的在于综合考虑这两种学习信号，使模型能够在训练过程中同时学习到更好的分类能力和更好的特征表示能力。通过综合考虑多分类交叉熵损失函数和有监督的对比学习损失函数，可以在训练过程中引导模型学习更加鲁棒和有意义的特征表示，从而提高模型在复杂任务中的性能。

在一些实施例中，有监督对比学习损失函数约束具有多层级注意力网络的特征提取模型。多层级注意力网络的特征提取模型的作用是作为编码网络，将经过增强的图像映射到特征空间，以便进行对比特征学习。将数据增强完成后得到的mN个数据样本送入编码网络进行特征提取，得到/>该过程描述为：

其中Encoder表示编码函数。

每一个图像都会输入到同一个编码器中，从而获得一对表征向量。在训练过程中，经过编码器的图像会得到其特征向量，该特征向量将用于后续的对比学习任务。为了确保表征向量的一致性和可比性，表征层采用了单位超球面进行正则化。该正则化方法能够保证表征向量的范数为1，从而消除特征向量之间的缩放不一致性，使得它们可以更加准确地表示图像特征，该过程描述为：

其中NormE表示正则化函数，表示正则化后的特征输出。

在实施例中，投影网络在本研究中的作用是将编码器得到的特征向量映射成一个最终向量，以便进行后续的loss计算。在本发明中，投影网络采用了一个隐藏层，并采用了与编码器相同的单位超球面正则化方法：

其中z_i表示经过正则化后用于对比学习loss计算的特征，MLP表示投影网络层。

在训练完成后，该投影网络会被一个单一的线性层所取代，以便在测试阶段更加高效地进行特征向量的映射。通过这种方式，投影网络可以有效地提取出图像的关键空间特征，并将其转化为一个更加具有判别性的特征向量，从而提高对比学习的效果。

步骤4：将步骤1所得训练集图像数据输入到步骤2所构建的具有多层级注意力网络的特征提取模型中进行训练，根据所输入图像数据的标签类别和步骤3所构建基于有监督对比学习的损失函数判断具有多层级注意力网络的特征提取模型的有效性，采用验证集最优准确率评测结果选择训练参数，得到训练好的具有多层级注意力网络的特征提取模型；

在一些实施例中，对编码网络进行有监督的对比学习训练的主要过程描述为：

a)初始化编码网络的模型参数。

b)读取训练集样本及标签对；

c)针对训练集的任意样本，采用以上数据增强模块所提到的方法来增加数据的多样性，同时为对比学习生成更多的正样本对；

d)通过编码网络将输入图像映射到低维特征空间；

e)通过投影网络将编码后的特征映射到对比学习空间；

f)计算同类别样本的相似度，不同类别样本的距离，并定义损失函数；

g)使用随机梯度下降法最小化损失函数；

h)对验证集数据进行预测，并计算准确率和错误率指标；

i)调整模型参数或优化算法；

重复步骤(f)至(i)直到模型收敛。在训练过程中，可以采用交叉验证等方法来进一步提高模型的泛化能力和稳定性。使用验证集对模型进行评估。

步骤5：将步骤1测试集中的人脸表情图像输入到训练好的具有多层级注意力网络的特征提取模型中，进行人脸表情的识别，验证所训练模型表情识别结果的准确性和高效性。在实时表情识别任务中，输入摄像头捕捉的人脸图像或视频，并使用训练好的模型对其进行表情识别，实现流程图如图4所示图4，输入图像大小为224*224，分块编码和位置编码被用于和线性映射后的网格图像特征组合生成transformer编码器的输入序列，最后采用多层感知头完成分类，可以采用GPU等加速设备来提高识别速度和效率。完成输入图像的识别和分析后可得到对应的情绪类别的概率输出，如图5和图6所示。

如图5所示，在进行人脸表情的实时识别时，系统首先会判断摄像头是否打开，若摄像头打开则对视频帧进行选取，然后通过人脸检测将人脸框进行标定，将人脸框中的包含表情的图像输入到所构建的模型中，得到表情分类的结果和概率。该流程减少了不必要的错误和资源浪费，有助于提高实时人脸表情识别的效率和应用价值。

如图6所示，是对示例人脸表情进行实时识别时的各类表情的识别情况，对伤心、平静、开心和惊讶的识别效果均较好，且当人脸存在一定程度遮挡时，也能够准确识别人脸的表情类别。即使人脸部分遮挡，模型依然能够准确识别表情类别，这增加了系统在不完美条件下的鲁棒性，提高了实用性。

如图7所示，为本发明的数据结果显示示例，左侧是实时视频的显示区域，通过选取实时视频的一帧图像，经过人脸检测得到人脸后，在原视频的图像帧上标注了人脸表情的具体位置，该人脸表情框中的图像被输入到模型中，得到分类为各类表情的概率，显示在右侧。可以看到，该图像帧以89.31％的概率被分类到生气类别(即angry)，说明本发明的实施方式具有较高的实用性和可操作性，可以在不同环境下实现高效、准确的人脸表情识别。

在一些实施例中，上述技术方案涉及的设备包括：

摄像头：用于捕捉人脸图像或视频；计算机或移动设备：用于运行表情识别算法和实时处理摄像头捕捉的图像或视频；显示器：用于显示识别结果或交互界面；数据库或存储设备：用于存储训练数据集、模型、参数等信息；网络连接：用于实时传输图像或视频流和交互信息。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：包括以下步骤：

步骤1：创建一个包含多类别的人脸表情图像数据集，以下人脸表情图像简称为图像；所述数据集包括图像及对应的标签类别数据，将所有图像作为训练样本进行预处理，裁剪成为大小相同的图像，并剔除非图像和错误标签类别数据；将预处理后的图像按照比例分为训练集、验证集和测试集，对训练集中的图像进行逐一数据增强，从而得到最终训练集；

所述网格自注意力模块，按照网格的方式对不同空间位置的图像进行注意力计算，得到网格注意力特征图，从而完成图像中的低级特征的提取；

所述高级特征编码模块根据网格注意力特征图，提取图像的高级特征即语义特征，再对语义特征进行分类，从而完成图像的分类；

步骤4：将步骤1所得训练集中的图像输入到步骤2所构建的具有多层级注意力网络的特征提取模型中进行训练，根据所输入图像对应的标签类别数据和步骤3所构建基于有监督对比学习的损失函数，判断具有多层级注意力网络的特征提取模型的有效性，采用验证集最优准确率评测结果选择训练参数，得到训练好的具有多层级注意力网络的特征提取模型；

步骤5：将步骤1测试集中的图像输入至所述训练好的具有多层级注意力网络的特征提取模型中，进行人脸表情的识别，得到表情识别后结果，再利用验证集验证所表情识别结果的准确性。

2.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤3中，基于有监督对比学习的混合损失函数L包括：基于数据增强的多分类交叉熵损失数L^cls和有监督对比学习损失数L^sup，即：

L＝λ*L^cls+(1-λ)*L^sup

L^cls为基于数据增强的多分类交叉熵损失函数，其中λ表示基于数据增强的多分类交叉熵损失函数L^cls在基于有监督对比学习的混合损失函数L中的权重，λ根据训练样本进行选择，需要多次试验确定；m表示基本数据增强策略的种类，/>表示对训练样本标签类别的预测值，N表示从训练集中抽取的训练样本数量；

所述有监督对比学习损失函数L^sup：

其中，i表示任意训练样本，E表示所有训练样本的集合，P(i)表示训练样本i的正样本集合，p表示与i互为正样本对的任意训练样本，log表示对数函数，exp表示指数函数，z_i，z_p和z_a表示训练样本i，p，a经过多层级注意力网络的特征提取模型的特征输出，τ表示有监督对比学习损失函数L^sup的温度系数，A(i)表示训练样本的负样本集合。

3.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤1中，对训练集中的图像进行逐一数据增强的方法，实现如下：

(1)将训练集中的图像裁剪为统一大小，进行灰度化；再按顺序进行基本数据增强操作，所述基本数据增强操作包括随机裁剪、随机颜色抖动、仿射变换、水平翻转和随机旋转；

(2)对经过步骤(1)中基本数据增强后的图像进行多倍裁剪，将处理的后的图像进行one-hot编码并随机添加噪音，得到编码后的图像；

(3)对编码后的图像照一定比例进行随机融合，同时对输入图像对应的标签类别数据所对应的向量进行一定比例处理，得到最终图像。

4.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述步骤2，网格自注意力模块中，按照网格的方式对不同空间位置的人脸表情图像进行注意力计算的过程包括三个部分：低级特征提取、网格注意力计算和残差特征融合，具体为：

(1)低级特征提取：将输入图像I通过卷积计算进行分割，得到分割后网格图像：

最终得到所有分割后网格图像的低级特征集合作为网格注意力计算的输入；

(2)网格注意力计算：基于提取的所有网格图像的低级特征，采用点积相似度函数计算不同网格图像特征之间的相似性，得到基于自注意力的加权网格特征图集合为:

即：

(3)特征融合：采用残差网络技术，将输入图像I与所述加权特征图之间的特征通过骨干融合网络进行融合；所述骨干融合网络包括两个特征转换网络FT₁和FT₂及一个特征融合网络RFN；所述两个特征转换网络FT₁，FT₂共享结构但参数不同，将输入图像I和加权特征图各自输入到特征变换网络FT₁和FT₂中，再将两个输出通过特征融合网络RFN完成残差特征融合，得到最终的网格注意力特征图/>

5.根据权利要求1所述的基于有监督对比学习的网格自注意力人脸表情识别方法，其特征在于：所述高级特征编码模块根据网格注意力特征图，提取人脸表情图像的高级特征即语义特征，再对语义特征进行分类，从而完成对图像的分类的过程如下：

将网格自注意力模块的网格注意力特征图分别输入至经过预训练和微调的ResNet18模型和预训练的视觉Transformer模型中；所述ResNet18模型首先采用步骤1中所述训练集进行全连接层微调；所述预训练的视觉Transformer模型包括Transformer编码网络和一个全连接层网络；网格注意力特征图经过所述ResNet18模型后得到基于卷积的语义特征，同时经过所述视觉Transformer模型得到基于自注意力的语义特征，对所述ResNet18模型和所述视觉Transformer模型所输出的高级语义特征进行加权，并在决策层对所述两个模型的输出结果进行分类预测，最终得到图像的预测输出类别，完成分类。

6.一种电子设备，其特征在于，包括处理器、存储器，其中：

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序，执行时实现权利要求1-5中任意之一所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行时实现权利要求1-5中任意之一所述的方法。