CN115578770A

CN115578770A - 基于自监督的小样本面部表情识别方法及系统

Info

Publication number: CN115578770A
Application number: CN202211302076.0A
Authority: CN
Inventors: 郑向伟; 陈宣池; 任秀秀; 李甜甜; 张宇昂
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-06

Abstract

本公开提供了基于自监督视觉的小样本面部表情识别方法及系统，涉及情绪识别技术领域，包括针对无标签人脸表情图像，对每个原始图像进行四个前置任务，通过ViT模型产生四组损失函数；从实验室面部表情图像中获取表情序列和峰值表情图像并提取时空特征，利用时空特征进行表情分类，并对ViT模型的所有参数进行微调；将自然环境面部表情图像划分支持样本和查询样本，然后分别输入至微调后的ViT模型中计算特征向量，基于支持样本的特征向量计算每个表情类别的原型向量，计算每个原型向量和查询样本的特征向量之间的欧式距离，利用欧式距离确定查询集样本的表情分类结果；有效降低小样本面部表情识别任务的训练成本，提高分类准确率。

Description

基于自监督的小样本面部表情识别方法及系统

技术领域

本公开涉及情绪识别技术领域，具体涉及一种基于自监督的小样本面部表情识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

面部表情是人类表达内心情感的最主要、最自然和最直接的通道，心理学家Mehrabian通过研究发现，人类的情绪表达＝7％的言词+38％的语音表情+55％的面部表情。近年来，面部表情识别(Facial Expression Recognition，FER)已经引起了计算机视觉界的广泛关注，在在线教育、医疗健康和公共安全等领域中具备广泛的应用前景。

为了使FER模型能够从图像或视频数据中获得更好的视觉特征学习能力，通常的做法是遵循有监督学习的思想，使用大规模标记数据和多次迭代来训练模型的大量参数。尽管基于这种模式，FER模型在“实验室采集”的面部表情数据集上取得了显著进展，但是在自然环境下实施时，其识别性能往往会大幅下降。如今，Vision Transformer(ViT)已在计算机视觉领域取得了巨大的成功，在使用大规模监督数据或与某种形式的共同监督下进行预训练时，其性能突出，相关研究表明，充分训练的ViT能够有效适用于面部表情识别任务，并能够提升自然环境下面部表情识别准确率。

然而，现有技术中存在以下技术问题：

面部表情数据需要由心理学专业人员进行标注，昂贵又费时，同时由于头部姿势或注释者的主观性等因素，数据标注不准确，导致FER数据集中有效标注的数据量很小，这在很大程度上限制了ViT模型的性能。有些研究者提出，基于自监督学习(Self-supervisedLearning，SSL)方法对模型进行预训练，可以使模型从未标记的图像或视频中学习视觉特征。然而，现有的自监督预训练技术中，前置任务缺乏针对性，导致模型在下游任务中的泛化能力差；前置任务数量偏少，导致模型预训练不充分。因此，如何有针对性的设置多组前置任务，并联合多尺度的损失函数对ViT模型进行预训练，成为了一个亟待解决的问题。

另一方面，由于人类表情的个体差异性，FER数据集通常是类不均衡的，使得深度学习模型在训练中容易出现严重的过拟合，对样本数较少的表情类别识别精度较低。有研究者提出，小样本学习(Few-Shot Learning，FSL)技术可以通过少量的标记样本来训练模型识别从未见过的类别。Ciubotaru和Zou等人的研究表明FSL技术可以有效解决小样本面部表情分类问题。然而，现有的FSL模型通常是使用其他领域预训练的深度学习模型作为特征提取器，直接迁移到小样本FER任务时会出现一定的语义鸿沟，导致模型的分类准确率不高。因此，如何找到一种有效的FSL模型迁移方法，并降低小样本面部表情识别任务的训练成本，是当前需要解决的一个技术问题。

发明内容

本公开为了解决上述问题，提出了基于自监督的小样本面部表情识别方法及系统，采用自监督预训练方法保障训练样本的多样性，通过阶段性参数微调的方法使得模型获取一定的先验知识，加速模型调参和迁移的过程，小样本面部表情识别方法识别数据分布不均衡的面部表情类别，提升自然环境下FER任务的准确率。

根据一些实施例，本公开采用如下技术方案：

基于自监督的小样本面部表情识别方法，包括：

构建无标签人脸数据图像集、实验室采集的面部表情图像集以及自然环境采集的面部表情图像集；

针对无标签人脸表情图像，对每个原始图像进行四种方式的变换构成四个前置任务，通过ViT模型解决前置任务产生四组损失函数；

从实验室面部表情图像中获取表情序列和峰值表情图像进行时间特征和空间特征的提取，将时间特征和空间特征进行融合得到时空特征进行表情分类，在此过程中对ViT模型的所有参数进行微调；

将自然环境面部表情图像划分支持样本和查询样本，将支持样本和查询样本分别输入至微调后的ViT模型中计算输出特征向量，基于支持样本的特征向量计算每个表情类别的原型向量，计算每个表情类别的原型向量和查询样本的特征向量之间的欧式距离，利用欧式距离确定查询集样本的表情分类结果。

根据一些实施例，本公开采用如下技术方案：

基于自监督的小样本面部表情识别系统，包括：

数据预处理模块，被配置为构建无标签人脸数据图像集、实验室采集的面部表情图像集以及自然环境采集的面部表情图像集；

自监督预训练模块，被配置为针对无标签人脸表情图像，对每个原始图像进行四种方式的变换构成四个前置任务，通过ViT模型解决前置任务产生四组损失函数；

参数微调模块，被配置为从实验室面部表情图像中获取表情序列和峰值表情图像进行时间特征和空间特征的提取，将时间特征和空间特征进行融合得到时空特征进行表情分类，在此过程中对ViT模型的所有参数进行微调；

小样本表情分类模块，被配置为将自然环境面部表情图像划分支持样本和查询样本，将支持样本和查询样本分别输入至微调后的ViT模型中计算输出特征向量，基于支持样本的特征向量计算每个表情类别的原型向量，计算每个表情类别的原型向量和查询样本的特征向量之间的欧式距离，利用欧式距离确定查询集样本的表情分类结果。

根据一些实施例，本公开采用如下技术方案：

一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于自监督的小样本面部表情识别方法。

根据一些实施例，本公开采用如下技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于自监督的小样本面部表情识别方法。

与现有技术相比，本公开的有益效果为：

第一，通过分析发现，基于监督学习思想训练Vision Transformer模型时不仅依赖于大量的手工标注数据，还存在泛化错误、虚假关联和对抗性攻击等问题，为了避免耗时且昂贵的数据标记，所以本公开利用无标签人脸数据集构建前置任务对ViT模型进行预训练。解决了以往自然环境下实现FER任务时，因有效标记的数据量不足所导致的模型训练不充分，模型分类准确率低下的问题。

第二，针对以往的自监督预训练技术中，前置任务的设计缺乏针对性导致模型在下游任务中泛化能力差；前置任务设置数量偏少导致模型预训练不充分，在下游任务中分类准确率不高的问题。本公开有针对性的设置了图像去噪重建、旋转角度预测、图像分块拼图和遮挡图像还原四种前置任务，构建一个自适应加权损失函数整合四种前置任务产生的损失，对ViT模型进行联合预训练，使预训练的模型具备提取面部表情的纹理特征、姿态特征、空间特征和上下文特征的能力。

第三，针对以往的参数微调技术中，预训练模型迁移至下游任务时容易产生语义鸿沟，导致微调后的模型性能下降的问题。本公开设计了一种参数微调的方法，预训练的ViT被用于实验室采集的FER数据集中提取面部表情的时空特征，并计算表情分类结果，在此过程中微调ViT模型全部层的参数。微调后的模型具备FER任务的先验知识，在小样本分类任务中只需微调模型分类层的参数，即可实现准确分类，能够有效降低小样本面部表情识别任务的训练成本，提高分类准确率。

第四，自然环境下人类产生各种表情的概率是不均等的，因此采集的面部表情数据集是样本不均衡的，导致模型训练过程中出现过拟合，对某些面部表情类别的分类准确率很低。为了使模型能够准确识别这类小样本的表情，本公开设计了一种小样本表情分类方法，使用微调后的ViT模型提取样本的特征，构建原型网络计算小样本表情分类结果。提高了FER任务中对于那些样本数量较少的特定类别的识别准确率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例一中的基于自监督视觉Transformer的小样本面部表情识别方法流程图；

图2是本公开实施例一中的基于自监督Transformer的小样本面部表情识别方法实例图；

图3是本公开实施例一中的自监督预训练方法设计图；

图4是本公开实施例一中的参数微调方法设计图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于自监督的小样本面部表情识别方法，包括以下步骤：

步骤S101：构建无标签人脸数据图像集、实验室采集的面部表情图像集以及自然环境采集的面部表情图像集；

具体的，初始化输入原始的无标签人脸数据集D^*、实验室采集的面部表情数据集

和自然环境采集的面部表情数据集

对三个数据集的每张图像进行数据预处理后得到三个新数据集为无标签人脸数据图像集D、实验室采集的面部表情图像集D_fer和自然环境采集的面部表情图像集D_fsl；

步骤S102：对每个原始图像进行四种方式的变换构成四个前置任务，通过ViT模型解决前置任务产生四组损失函数；

具体的，在预处理后的无标签人脸数据图像集D上，对每个原始图像进行四种方式的变换处理，构造图像去噪重建、旋转角度预测、图像分块拼图和遮挡图像还原四个前置任务。使用ViT模型同时解决四个前置任务并产生四组损失函数，利用一种自适应加权损失函数整合四个前置任务的损失，得到自监督预训练阶段总的损失函数

用以优化并更新ViT模型参数；

步骤S103：从实验室面部表情图像中获取表情序列和峰值表情图像进行时间特征和空间特征的提取，将时间特征和空间特征进行融合得到时空特征进行表情分类，在此过程重对ViT模型的所有参数进行微调；

具体的，在预处理后的实验室采集的面部表情图像集D_fer上，从每条表情序列中选出峰值表情图像组成峰值表情图像集。对于第j个样本，将其表情序列和峰值表情图像同时送入预训练的ViT中提取时间特征和空间特征，对二者进行融合得到时空特征

将时空特征送入分类层计算表情分类结果。在此过程中计算并优化微调阶段的损失

同时对预训练ViT模型的所有参数进行微调；

步骤S104：将自然环境面部表情图像划分支持样本和查询样本，将支持样本和查询样本分别输入至微调后的ViT模型中计算输出特征向量，基于支持样本的特征向量计算每个表情类别的原型向量，计算每个表情类别的原型向量和查询样本的特征向量之间的欧式距离，利用欧式距离确定查询集样本的表情分类结果。

具体的，在预处理后的自然环境采集的面部表情图像集D_fsl上，按照表情类别将其划分为支持集S_train和查询集Q_train，将支持集和查询集中的支持样本以及查询样本分别送入微调后的ViT模型中计算得到特征向量，然后基于支持样本的特征向量计算每个表情类别的原型向量，计算每个表情类别的原型向量和查询样本的特征向量之间的欧式距离，利用欧式距离确定查询集样本的表情分类结果。

作为一种实施例，在步骤S101中，本公开对于无标签人脸数据集D^*和自然环境下采集的FER数据集

的数据预处理操作相同，均为将原始数据集的每张图像使用Dlib工具包进行人脸裁剪操作，裁剪的图像大小被设置为224×224像素，其目是去除图像中与表情不相干的信息；对于实验室采集的FER数据集

的数据预处理操作包括人脸裁剪和数据增强两个步骤，人脸裁剪操作同样使用Dlib工具包实现，而数据增强操作则采取了一种离线增强的方法，即将每张训练图像按照{-15°,-10°,-5°,0°,15°,10°,15°}的角度旋转，并将旋转后的图像在X轴上翻转，以此将数据集扩充14倍，其目的是增加实验室采集的FER数据集的数据量，保证ViT模型微调时其训练数据的多样性。经过预处理操作后，得到三个新数据集D、D_fer和D_fsl。

作为一种实施例，在步骤S102中，如图3所示，本公开在预处理后的无标签人脸数据图像集D上同时定义图像去噪重建、旋转角度预测、图像分块拼图和遮挡图像还原四个自监督前置任务用于预训练ViT模型，其中：

S1021：图像去噪重建任务的设计动机是希望模型能够从图像中提取颜色、纹理和结构信息。如图3(a)所示，首先，对于每张原始图像D⁽ⁱ⁾引入随机噪声得到噪声图像

然后，使用ViT编码器提取噪声图像的特征，使用线性投影层作为解码器将图像特征重构为图像R⁽ⁱ⁾。最后，计算原始图像的像素D⁽ⁱ⁾和去噪后的重建图像R⁽ⁱ⁾的均方误差作为图像去噪重建任务的损失函数

定义如下：

其中，I为图像个数，

表示ViT编码器中的参数，W和H是图像的宽度和高度，(w,h)表示图像的像素点坐标。

S1022：旋转角度预测任务的设计动机是希望ViT编码器能够学习人脸的概念，以防止面部表情识别过程中头部姿势的扰动。如图3(b)所示，图像旋转预测任务是训练ViT来预测输入图像的旋转角度。首先，对于每张原始图像进行{0°,90°,180°,270°}的旋转，并标注每张图像的旋转角度，得到旋转图像集合

然后，使用ViT编码器提取旋转图像的特征，将特征送入MLP层预测图像的旋转角度

最后，使用交叉熵计算其损失，旋转角度预测任务的损失函数

定义如下：

其中，每个图像对应一个旋转标签a，P_rot表示所有旋转图像的预测集合，I为图像个数，

表示ViT编码器中的参数。

S1023：图像分块拼图任务的设计动机是使模型理解面部的组成部分，这有利于模型提取有关面部表情的空间特征。如图3(c)所示，首先，对于每张原始图像将其切分成图像块。第二，将图像块的排列顺序打乱并给每个图像块贴上相对位置标签,得到M种不同排列方式的图像块序列集合

同时，M种排列顺序被标记成顺序集合O_T。第三，将ViT编码器作为具有共享参数的特征提取器，每个图像块的特征被单独提取并串联起来，采用MLP层来预测图像块的排列方式O_P。最后，采用交叉熵计算其训练过程中产生的损失，图像分块拼图任务损失函数定义如下：

其中，I为图像个数，

表示ViT编码器中的参数。

S1024：遮挡图像还原任务的设计动机是训练模型捕捉面部表情的高级语义特征和上下文特征。如图3(d)所示，首先，对于D中的第i张原始人脸图像D⁽⁾，将其切分成N个图像块构成一个图像块序列

第二，从

中按照75％的采样率随机采样图像块，标记它们在原始序列中的位置，并抹去它们的像素值，得到遮挡图像块集合

和未被遮挡图像块集合

第三，将两个非对称ViT模块设计为编码器和解码器，ViT编码器负责提取未被遮挡的图像块的特征，而解码器负责重建被遮挡的图像块的像素，将输出重构成被遮挡的图像块。最后，计算预测的图像块和原始图像块之间的均方误差用以更新模型参数，因此遮挡图像还原任务损失函数

定义如下：

其中，

表示ViT编码器中的参数，w,h表示图像像素的坐标。

在实施例的步骤S102中，ViT模型结构的灵活性使它可以结合多种损失函数来共同训练。然而，本公开中设计的四种前置任务产生的损失是多尺度的，并且在数量级上有所不同。因此，需要设置超参数来约束不同任务产生的损失函数，以避免由于一个任务产生的过度损失而导致其他任务梯度的消失。本公开构建了一种自适应加权损失函数整合四个前置任务的损失，通过设置四个可学习的超参数

和

对四种损失函数

和

进行加权融合，并利用同方差不确定性法同时学习四组不同尺度的损失，得到自监督预训练阶段总的损失函数

作为一种实施例，在步骤S103中，如图4所示，本公开设计一种参数微调的方法，让预训练的模型在实验室控制的FER数据集上执行表情分类任务，用以微调ViT编码器。在模型微调的过程中为更复杂的自然环境下识别面部表情任务建立了先验知识。微调后的模型参数被固定，在下游的小样本表情分类任务中只更新分类层的参数，能够有效降低小样本面部表情识别任务的训练成本，提高分类准确率。详细步骤包括：

S1031：在预处理后的实验室采集的面部表情数据集

上，从每条表情序列

中选出峰值表情图像组成峰值表情图像集

其中J为数据集中的表情序列数。

S1032：将峰值表情图像

划分为N个小图像块，并通过一个线性投影层计算其嵌入表示

一个可学习的类别标记

被预置添加到图像块的嵌入表示序列中，同时生成一个位置嵌入矩阵

并将其添加到每个图像块的嵌入表示前，得到向量矩阵

输入ViT编码器中提取空间特征

S1033：对于数据集中任一表情序列

将其序列长度归一化为N，即包含N张图像，每张图像送入一个最大池化层进行下采样至16×16像素大小的图像，以解决整个图像送入变换器时向量长度过大的问题。然后，通过一个线性投影层计算其嵌入表示

按照图像序列中帧的顺序生成位置嵌入矩阵

并将其添加到每张图像的嵌入表示前，添加可学习的类别标记

得到向量矩阵

输入ViT编码器中提取时间特征

S1034：将面部表情的空间特征

和时间特征

连接，形成时空特征

然后将时空特征送入一个MLP层，实现面部表情分类，其计算过程如下：

其中，

为第j个面部表情序列的表情分类结果。

S1035：计算面部表情分类任务的损失

利用损失函数进一步优化预训练后的ViT模型参数，以实现参数微调。损失函数

被定义如下：

其中，Y_fer是面部表情的真实标签集，P_fer是表情预测结果集，

表示ViT编码器的预训练参数。

作为一种实施例，在步骤S104中，为了应对FER数据集中类别分布不均造成的模型过拟合，本公开设计了一种小样本表情分类方法，使用微调后的ViT模型提取样本的特征，使用样本特征构建原型网络，并利用原型网络计算小样本表情分类结果。提高了FER任务中对于那些样本数量较少的特定类别的识别准确率。详细步骤包括：

S1041：针对预处理后的自然环境采集的FER数据集D_fsl，将其划分为训练集Train_fsl和测试集Test_fsl。其中，x和y分别表示图像和标签，C_train和C_test表示训练集和测试集中的图像数，Z_train表示训练集中的类别数，Z_test表示测试集中的类别数。

S1042：随机设置500组小样本分类场景用于训练模型，每个场景包含一个支持集

和一个查询集

其中支持集包含从Z_train中随机选择K个类，每个类从C_train中选择C_trainsup份样本，而查询集包含Z_train中剩余的类，每个类有C_trainque样本。

S1043：微调后的ViT编码器被用作特征提取模块，对于查询集Q_train，ViT编码器被用于提取其中所有样本的特征，而对于支持集S_train，ViT编码器将其中所有属于同一类别的样本映射到一个嵌入空间，并形成一个平均向量作为类别原型，则支持集中第ks个类的原型计算如下：

其中，f_encoder(·)是ViT编码器，

表示训练集第ks类中的第cs个样本。

S1044：使用支持集的原型计算查询集中的样本属于每个类的概率。对于来自Q_train的样本

计算它到每个查询集类别原型的欧式距离，然后进行归一化操作得到分类概率。

被预测为第ks个类的概率可以表示为：

其中，ed(·)表示欧几里得距离计算函数。

S1045：计算小样本表情分类阶段产生损失函数

在优化损失函数过程中仅对ViT模型的最后一层参数更新，损失函数计算公式为：

其中，

表示微调后的ViT模型参数。

实施例2

本公开的一种实施例中提供了一种基于自监督的小样本面部表情识别系统，包括：

此处需要说明的是，上述数据预处理模块、自监督预训练模块、参数微调模块和小样本分类模块对应于实施例一中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例3

本公开的一种实施例中提供了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于自监督的小样本面部表情识别方法中的步骤。

实施例4

本公开的一种实施例中提供了一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于自监督的小样本面部表情识别方法中的步骤。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于自监督的小样本面部表情识别方法，其特征在于，包括：

2.如权利要求1所述的基于自监督的小样本面部表情识别方法，其特征在于，所述构建构建无标签人脸数据图像集、实验室采集的面部表情图像集以及自然环境采集的面部表情图像集的步骤包括：

获取无标签人脸数据集、自然环境下采集的FER数据集以及实验室采集的FER数据集，提取各个数据集中的图像进行预处理，所述无标签人脸数据集以及自然环境下采集的FER数据集中的每张图像进行人脸裁剪操作，所述实验室采集的FER数据集中的每张图像进行人脸裁剪和数据增强操作，将预处理操作后的图像构建无标签人脸数据图像集、实验室采集的面部表情图像集以及自然环境采集的面部表情图像集。

3.如权利要求1所述的基于自监督的小样本面部表情识别方法，其特征在于，所述对于预处理后的无标签人脸数据集，构造图像去噪重建、旋转角度预测、图像分块拼图和遮挡图像还原四个前置任务，利用一种自适应加权损失函数整合四个前置任务的损失，优化并更新ViT模型参数，具体为：

对每个原始图像进行四种方式的变换处理，以构造图像去噪重建、旋转角度预测、图像分块拼图和遮挡图像还原四个前置任务；使用ViT模型同时解决四个前置任务并产生四组损失

和

利用自适应加权损失函数整合四个前置任务的损失，得到自监督预训练阶段总的损失函数

计算并优化损失函数

更新ViT模型参数。

4.如权利要求1所述的基于自监督的小样本面部表情识别方法，其特征在于，所述对于预处理后的实验室采集的FER数据集，使用预训练的ViT模型提取图像的时空特征，使用时空特征计算表情分类结果，对预训练ViT模型的所有参数进行微调，具体为：

从每条表情序列中选出峰值表情图像组成峰值表情图像集；将表情序列和峰值表情图像同时送入预训练的ViT中提取时间特征和空间特征，对二者进行融合得到时空特征；将时空特征送入分类层计算表情分类结果并产生损失函数

计算并优化损失函数

在此过程中对ViT模型的所有参数进行微调。

5.如权利要求1所述的基于自监督的小样本面部表情识别方法，其特征在于，所述预处理后的自然环境采集的面部表情数据集，划分支持集和查询集，使用微调后的ViT模型提取支持集和查询集样本的特征，基于支持集样本的特征构建原型网络，使用原型网络计算小样本人脸表情分类结果，具体为：

将自然环境采集的FER数据集划分训练集和测试集，并利用训练集和测试集构建小样本分类场景，其中每个场景包含一个支持集和查询集；对于查询集，使用微调后的ViT编码器提取查询集中所有样本的特征；对于支持集，微调后的ViT编码器将其中所有属于同一类别的样本映射到同一个嵌入空间，计算平均向量得到类别原型；计算查询集样本到每个查询集类别原型的欧式距离，然后进行归一化操作得到小样本表情分类概率，产生损失函数

优化损失函数

在优化损失函数过程中仅对ViT模型的最后一层参数更新。

6.如权利要求3所述的基于自监督的小样本面部表情识别方法，其特征在于，所述遮挡图像还原任务是训练模型捕捉面部表情的高级语义特征和上下文特征，包括：首先，对于原始人脸图像，将其切分成N个图像块构成一个图像块序列；从中按照75％的采样率随机采样图像块，标记它们在原始序列中的位置，并抹去它们的像素值，得到遮挡图像块集合和未被遮挡图像块集合；将两个非对称ViT模块设计为编码器和解码器，ViT编码器负责提取未被遮挡的图像块的特征，而解码器负责重建被遮挡的图像块的像素，将输出重构成被遮挡的图像块。

7.如权利要求2所述的基于自监督的小样本面部表情识别方法，其特征在于，所述数据增强的方式为将每张训练图像按照{-15°,-10°,-5°,0°,15°,10°,15°}的角度旋转，并将旋转后的图像在X轴上翻转，以此将数据集扩充14倍。

8.基于自监督的小样本面部表情识别系统，其特征在于，包括：

自监督预训练模块，被配置为针对无标签人脸表情图像，对每个原始图像进行四个前置任务，通过ViT模型产生四组损失函数；

参数微调模块，被配置为从实验室面部表情图像中获取表情序列和峰值表情图像进行时间特征和空间特征的提取，将时间特征和空间特征进行融合得到时空特征进行表情分类，同时对ViT模型的所有参数进行微调；

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的基于自监督的小样本面部表情识别方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-7中任一项所述的基于自监督的小样本面部表情识别方法。