CN116311483A

CN116311483A - 基于局部面部区域重构和记忆对比学习的微表情识别方法

Info

Publication number: CN116311483A
Application number: CN202310588032.7A
Authority: CN
Inventors: 张鹏; 武晨曦; 包永堂; 单彩峰
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-06-23
Anticipated expiration: 2043-05-24
Also published as: CN116311483B

Abstract

本发明公开了一种基于局部面部区域重构和记忆对比学习的微表情识别方法，属于计算机视觉领域，包括如下步骤：步骤1、获取现有的公开数据集的微表情视频序列，并进行处理得到起始帧和顶点帧图像对序列；步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型；步骤3、对微表情识别模型进行预训练进行微调，同时构建总体损失函数来约束识别模型，进而训练优化模型，得到训练完成的微表情识别模型；步骤4、获取当前人的面部表情样本，基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。本发明通过局部面部区域重构和记忆对比学习提高了微表情识别模型的分类准确率。

Description

基于局部面部区域重构和记忆对比学习的微表情识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于局部面部区域重构和记忆对比学习的微表情识别方法。

背景技术

面部表情在推断情绪方面发挥着至关重要的作用，这有助于理解他人的意图。面部表情分为宏表情和微表情。从时间和空间上看，宏表情持续时间更长，涉及的面部区域更大，人们可以主观上控制宏表情，因此宏表情传递的不一定是真实的情感。然而，微表情是潜意识和不自主的，它的最短持续时间是1/25秒。这些特点使得微表情所传达的信息比宏表情更准确、真实。因此，微表情识别在心理分析和人际交往等领域中有重要的应用前景。

目前，大多数关于微表情识别的研究和方法通过增加训练数据来减少过拟合现象的发生，但是这种方式需要采集和标注大量微表情数据，造成严重的人力和时间成本浪费，且分类准确率低。为了学习微表情相关特征，一部分微表情识别研究根据先验知识获取感兴趣区域，一部分研究通过使用注意力机制让网络自动学习感兴趣区域，但是忽略了样本之间的差异和过度关注相似性区域。已有的基于对比学习的微表情识别工作都是从小批量样本特征的角度进行对比学习，没有考虑数据集的全局有效类别特征方面的有用信息。

发明内容

为了解决上述问题，本发明提出了一种基于局部面部区域重构和记忆对比学习的微表情识别方法，利用局部面部区域重构缓解模型过拟合现象和捕捉面部表情的局部区域关系，并与有监督的记忆对比学习一起训练模型提高微表情识别模型的判别性，从而增强微表情识别模型的性能，使模型在有限的微表情数据下提取具有判别性的特征，提高分类准确率。

本发明的技术方案如下：

一种基于局部面部区域重构和记忆对比学习的微表情识别方法，包括如下步骤：

步骤1、获取现有的公开数据集的微表情视频序列，并进行处理得到起始帧和顶点帧图像对序列；

步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型；

步骤3、对微表情识别模型进行预训练进行微调，同时构建总体损失函数来约束识别模型，进而训练优化模型，得到训练完成的微表情识别模型；

步骤4、获取当前人的面部表情样本，基于训练完成的微表情识别模型直接识别得到当前人的面部微表情。

进一步地，微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块；数据预处理模块提取处理后图像对序列的光流，构建光流输入序列并进行格式转换；局部面部区域重构模块包括编码器、使用Mask Token替换Patch Token的随机掩蔽操作、单独的Transformer块和解码器；记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典；分类模块包括由全连接层组成的多层感知机；其中，Patch Token 表示图像的小块转化的向量，Mask Token是可学习的零向量。

进一步地，步骤1的具体过程如下：

步骤1.1、首先在人脸定位的基础上，利用Dlib视觉库确定面部68个关键特征点，进行人脸裁剪和人脸矫正，实现人脸对齐；

步骤1.2、然后采用旋转、翻转、亮度变化、随机裁剪的方式进行数据增强；

步骤1.3、最后根据数据集的标注文件找到数据集中每个样本的起始帧和顶点帧，并存放在列表中，进而构建得到起始帧和顶点帧图像对序列。

进一步地，步骤2中，微表情识别模型的具体工作流程为：

步骤2.1、由微表情视频序列中的起始帧和顶点帧经过全变分光流估计算法得到光流输入序列，并进行格式转换；

步骤2.2、将转换后的序列作为局部面部区域重构模块的输入，转换后的序列首先经过编码器进行特征提取，提取得到特征嵌入，对特征嵌入进行随机掩蔽操作，得到包含Mask Token和Patch Token的特征嵌入组合序列；特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列，进行重构的同时，特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征；

步骤2.3、分类特征经过记忆对比学习模块约束网络提取区分性的特征，并经过分类模块进行微表情类别的预测。

进一步地，步骤2.1的具体过程为：

步骤2.1.1、采用全变分光流估计算法获取起始帧和顶点帧之间的光流估计

，其中，/>

表示图像的横坐标，/>

表示图像的宽，/>

表示图像的纵坐标，/>

表示图像的高度，/>

表示水平光流场，

，/>

表示垂直光流场，/>

，/>

表示时间；将光流幅值/>

表示为：

；

步骤2.1.2、将水平光流场

、垂直光流场/>

和光流幅度/>

进行级联生成光流输入图像/>

；

步骤2.1.3、将光流输入图像划分为

个/>

尺寸的Patch拉平的/>

的序列，/>

表示Patch的个数，Patch是将输入图像划分为固定大小的小块，/>

表示Patch的尺寸，

，/>

经过可训练的线性层投影到/>

维嵌入空间转变成向量格式，/>

表示通道数；然后在每个Patch嵌入的基础上加上位置嵌入；使用一个随机初始化的ClassToken总结其他Token上的信息；最终得到所需的光流输入图像序列/>

表示为：

(1)；

其中，

是Class Token，Class Token表示图像类别语义信息的向量；/>

表示第/>

个Patch的嵌入，/>

是Patch嵌入投影，/>

是位置嵌入；Token表示将文本和图像中每个单词和Patch转化为一个唯一的标识符。

进一步地，步骤2.2中，编码器包含三个串联的Transformer块，每个Transformer块均由多头自注意力和多层感知机交替组成，第

个Transformer块的输出/>

表示为：

(2)；

(3)；

其中，

表示输入和经过层归一化和多头自注意力操作后的残差连接输出，

表示多头自注意力机制，/>

表示层归一化，/>

表示第/>

个Transformer块的输出，/>

表示Transformer块的总个数，/>

表示多层感知机；

将编码器输出的特征嵌入记作：

(4)；

其中，

代表编码器输出的特征嵌入的第/>

个Patch的特征嵌入；

然后，按一定的概率

选择随机噪声值较大的位置记作随机掩蔽的索引，索引记作/>

，其中/>

，/>

表示第/>

个索引，/>

表示被掩蔽的特征嵌入的总个数，/>

表示随机掩蔽的概率；

接下来，用基于这些索引的可学习的零向量Mask Token替换相应位置的PatchToken，其中Mask Token记作

；

最后，将所有特征嵌入进行连接，得到特征嵌入组合序列

，将/>

作为解码器和单独的Transformer块的输入：

(5)；

其中，

表示编码器输出的特征嵌入的Class Token特征嵌入；/>

表示编码器输出的特征嵌入的第1个Patch的特征嵌入；/>

表示/>

位置的Mask Token；/>

表示/>

位置的Mask Token；/>

代表编码器输出的特征嵌入的第/>

个Patch的特征嵌入；

解码器由三个Transformer块串联组成；使用特征嵌入组合序列

作为解码器和单独的Transformer块的输入，经过解码器进行局部面部区域的重构任务得到重构后的光流序列，同时经过单独的Transformer块获得分类特征，分类特征一方面用于计算存储在记忆字典中的类中心，另一方面直接传入全连接层组成的多层感知机进行微表情分类预测。

进一步地，步骤2.3中，在模型的训练中引入了记忆对比学习，在历史记忆字典中存储每个类别的类中心

，类别/>

的类中心/>

是每一个周期此类别的所有训练样本得到的特征集合/>

的平均值，其中/>

，/>

表示类别/>

的特征，/>

表示类别/>

的样本个数；/>

表示为：

(6)；

其中，

是单独的Transformer块输出的分类特征。

进一步地，步骤3的具体过程如下：

步骤3.1、使用海量人脸数据集CelebA进行重建任务预训练，然后采用微表情光流数据序列进行微调；根据留一验证法划分微表情识别模型训练的训练集和测试模型效果的测试集，也就是根据数据集标注文件中受试者标记选择一个受试者的样本作为测试集，其他的受试者的样本作为训练集；

步骤3.2、在训练期间，固定解码器参数以约束网络以提取有价值的特征；在随机掩蔽操作之后，解码器促进剩余特征学习与掩蔽特征的关系，使得网络模型具有对局部面部区域关系建模的能力；

步骤3.3、构建总体损失函数，约束识别模型；其中重建任务受均方误差损失的约束，记忆对比学习模块受聚类对比损失的约束，分类模块受交叉熵损失的约束。

进一步地，步骤3.3的具体过程如下：

步骤3.3.1、在模型的预训练和表情分类阶段，采用均方误差损失作为特征嵌入组合序列中Mask Token的像素重建目标函数，均方误差损失

的目标函数表示为：

(7)；

其中，

是Mask Token重建后得到的重构后的光流序列中的特征嵌入，/>

是Mask Token对应光流输入图像区域的特征嵌入，/>

表示第/>

个Mask Token的索引，/>

表示Mask Token的总个数；

步骤3.3.2、聚类对比损失

表示为：

(8)；

其中，

表示指数函数，/>

是温度超参数，/>

是单独的Transformer块输出的分类特征/>

对应样本的真值，/>

表示类别/>

的样本个数；通过历史记忆字典中的类中心和每次迭代的批量样本每类特征的平均值能够计算得到动态更新后的记忆字典，动态更新后的记忆字典的类中心/>

为：

(9)；

其中，

表示特征更新的动量参数，/>

表示批量中和第/>

个样本对应的类别相同的样本特征的均值，/>

表示更新；

步骤3.3.3、用于表情分类的交叉熵损失函数

定义为：

(10)；

其中，

为第/>

个样本对应的真实标签，/>

为预测的微表情类别，/>

表示样本个数

的索引；

步骤3.3.4、最后将

、/>

和/>

的和作为网络训练的总体损失函数

：

(11)；

其中，

表示均方误差损失/>

权重系数，/>

表示聚类对比损失/>

的权重系数；

通过总体损失函数对微表情识别模型进行约束，训练优化获得有效和鲁棒的微表情识别模型。

本发明所带来的有益技术效果如下。

本发明提出一个新颖的基于Transformer结构的微表情深度学习识别方法，进一步挖掘Transformer结构在微表情识别方面的潜能；将局部面部区域重构模块作为辅助任务和正则化方法，能有效防止模型过拟合和探索表情的局部区域之间的关系，节省人力和时间成本；本发明在微表情识别中引入有监督的记忆对比学习算法，利用存储在记忆中的所有训练数据特征计算得到类中心，以提供历史的全局信息来促进网络优化，进一步提升最终的分类效果。

附图说明

图1为本发明基于局部面部区域重构和记忆对比学习的微表情识别方法的流程图。

图2为本发明基于局部面部区域重构和记忆对比学习的微表情识别模型的网络结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

首先给出如下术语的解释：

起始帧：微表情视频序列以起始帧为开始，通常表现中性表情。

顶点帧：微表情视频序列中变化强度最大的一帧。

Transformer：Transformer是一种基于自注意力机制的序列到序列模型，用于处理序列数据。在处理输入图像时，先将其分成一个个固定大小的图像块，并将每个图像块看作是序列中的一个词，然后利用Transformer进行特征提取和分类。

全变分光流估计算法：全变分光流估计是由Zach、Pock和Bischof在2007年提出的，它通过最小化全变分正则化项和数据项之和的能量函数来求解光流场。全变分正则化项利用了图像中像素之间的空间关系，可以有效地平滑光流场并减少噪声。

Dlib视觉库：Dlib是一个开源的C++计算机视觉库，旨在提供各种用于图像处理和机器学习应用的算法和工具。它包括用于人脸检测、人脸关键点定位、对象跟踪、姿态估计和图像分类等任务的模块和函数。

68个关键特征点：68个关键特征点分布在眉毛、眼睛、鼻子、嘴巴、下巴、脸颊，可以准确描述人脸的各个部位。

Token：Token表示将文本和图像中每个单词和Patch（Patch是将输入图像划分为固定大小的小块）转化为一个唯一的标识符。Patch Token 表示图像的小块转化的向量，Class Token表示图像类别语义信息的向量，Mask Token是可学习的零向量。

温度超参数

：用来调整Softmax函数的平滑程度。温度系数越大，概率分布曲线越平滑；反之，曲线越尖锐。

CelebA：CelebA是一个大规模的人脸数据集，包含约20万个名人和非名人的人脸图像。每张图像都有40个属性注释，例如年龄、性别、眼镜和面部表情等。CelebA被广泛用于人脸识别、属性识别、人脸合成和其他计算机视觉任务的训练和测试。

留一验证：全称Leave-One-Subject-Out（LOSO），在微表情识别方向LOSO表示每次取一个受试者的样本进行测试，而其余的受试者样本进行训练。

聚类对比损失：聚类对比损失属于对比损失。对比损失是指通过最大化同类别样本之间的相似性，并将不同类别样本之间的相似性最小化来学习嵌入空间。聚类对比损失通过最大化相同类别样本之间的相似性，并将不同类别样本之间的相似性最小化，促进了聚类。

如图1所示，一种基于局部面部区域重构和记忆对比学习的微表情识别方法，包括步骤如下：

步骤1、获取现有的公开数据集的微表情视频序列，并进行处理得到起始帧和顶点帧图像对序列。

步骤1的具体过程如下：

步骤2、构建基于局部面部区域重构和记忆对比学习的微表情识别模型。具体过程如下：

如图2所示，构建的基于局部面部区域重构和记忆对比学习的微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块。

其中，数据预处理模块主要用于提取预处理后图像对序列的光流，构建光流输入序列并进行格式转换；局部面部区域重构模块包括编码器、使用Mask Token替换PatchToken的随机掩蔽操作、单独的Transformer块和解码器；记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典；分类模块包括由全连接层实现的多层感知机。

该微表情识别模型的具体工作流程为：

步骤2.1、由微表情视频序列中的起始帧和顶点帧经过全变分光流估计算法得到光流，并进行格式转换。具体过程为：

，其中，/>

表示图像的横坐标，/>

表示图像的宽，/>

表示图像的纵坐标，/>

表示图像的高度，/>

表示水平光流场，

，/>

表示垂直光流场，/>

，/>

表示时间；将光流幅值/>

表示为：

；

步骤2.1.2、将水平光流场

、垂直光流场/>

和光流幅度/>

进行级联生成光流输入图像/>

；

步骤2.1.3、将光流输入图像划分为

个/>

尺寸的Patch拉平的/>

的序列，/>

表示Patch块的个数，/>

表示Patch的尺寸，/>

，/>

经过可训练的线性层投影到/>

维嵌入空间转变成向量格式，/>

表示通道数。然后在每个Patch向量的基础上加上位置向量，以保留住原始图像中Patch的位置信息。使用一个随机初始化的Class Token总结其他Token上的信息，以免偏向某个Patch Token信息。最终得到的网络所需的光流输入图像序列/>

被表示为：

(1)；

其中，

是Class Token，/>

表示第/>

个Patch的嵌入，/>

是Patch嵌入投影，/>

是位置嵌入。

步骤2.2、将转换后的序列作为局部面部区域重构模块的输入，转换后的序列首先经过编码器进行特征提取，提取得到特征嵌入，对特征嵌入进行随机掩蔽操作，得到包含Mask Token和Patch Token的特征嵌入组合序列；特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列，进行重构的同时，特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征。

由于微表情数据少，浅层网络表现出更优的识别性能，因此编码器包含三个串联的Transformer块，每个Transformer块均由多头自注意力和多层感知机交替组成，第

个Transformer块的输出/>

表示为：

(2)；

(3)；

其中，

表示多头自注意力，/>

表示层归一化，/>

表示第/>

个Transformer块的输出，/>

表示Transformer块的总个数，/>

表示多层感知机；

Transformer的结构使得随机掩蔽操作比较容易实现。

为了让模型学习更丰富的语义信息，将编码器输出的特征嵌入记作：

(4)；

其中，

代表编码器输出的特征嵌入的第/>

个Patch的特征嵌入；

然后，按一定的概率

，其中/>

，/>

表示第/>

个索引，/>

表示被掩蔽的特征嵌入的总个数，/>

表示随机掩蔽的概率。

。

最后，将所有特征嵌入进行连接，得到特征嵌入组合序列

，将/>

作为解码器和单独的Transformer块的输入：

(5)；

其中，

表示编码器输出的特征嵌入的Class Token特征嵌入；/>

表示编码器输出的特征嵌入的第1个Patch的特征嵌入；/>

表示/>

位置的Mask Token；/>

表示/>

位置的Mask Token；/>

代表编码器输出的特征嵌入的第/>

个Patch的特征嵌入。

在现有的丢弃结构下，添加由三个Transformer块串联组成的解码器，用于构建预训练的自监督重建任务。当重建时，解码器更关注小范围相邻区域中的特征信息。出于这个原因，使用特征嵌入组合序列

步骤2.3、分类的特征经过记忆对比学习模块约束网络提取区分性的特征，并经过多层感知机组成的分类模块进行微表情类别的预测。

为了充分利用样本信息得到具有区分性的特征，在模型的训练中引入了记忆对比学习。在历史记忆字典中存储每个类别的类中心

，类别/>

的类中心/>

是每个周期此类别的所有训练样本得到的特征集合/>

的平均值，其中/>

，/>

表示类别/>

的特征，/>

表示类别/>

的样本个数；/>

表示为：

(6)；

其中，

是单独的Transformer块输出的分类特征。

步骤3、对微表情识别模型进行预训练，对模型进行微调，并构建总体损失函数来约束识别模型，进而训练优化模型，得到训练完成的微表情识别模型。具体过程如下：

步骤3.1、使用海量人脸数据集CelebA进行重建任务预训练，然后采用微表情光流数据序列进行微调。根据留一验证法划分微表情识别模型训练的训练集和测试模型效果的测试集，也就是根据数据集标注文件中受试者标记选择一个受试者的样本作为测试集，其他的受试者的样本作为训练集；

步骤3.2、在训练期间，固定解码器参数以约束网络以提取有价值的特征。在随机掩蔽操作之后，解码器促进剩余特征学习与掩蔽特征的关系，使得网络模型具有对局部面部区域关系建模的能力。

步骤3.3、构建总体损失函数，约束识别模型；其中重建任务受均方误差损失的约束，记忆对比学习模块受聚类对比损失的约束，分类模块受交叉熵损失的约束。具体过程如下：

的目标函数表示为：

(7)；

其中，

是Mask Token重建后得到的重构后的光流序列中的特征嵌入，/>

是Mask Token对应光流输入图像区域的特征嵌入，/>

表示第/>

个Mask Token的索引，/>

表示Mask Token的总个数。

步骤3.3.2、聚类对比损失用于引导网络优化，旨在让单独的Transformer块输出的分类特征

与其类别的类中心更加相似，与其他类别的类中心差异更大。聚类对比损失

可表示为：

(8)；

其中，

表示指数函数，/>

是温度超参数，/>

是/>

对应样本的真值。同时，通过历史记忆字典中的类中心和每次迭代的批量样本每类特征的平均值能够计算得到动态更新后的记忆字典，动态更新后的记忆字典的类中心/>

为：

(9)；

其中，

表示特征更新的动量参数，/>

表示批量中和第/>

个样本对应的类别相同的样本特征均值，/>

表示更新。

步骤3.3.3、用于表情分类的交叉熵损失函数

定义为：

(10)；

其中，

为第/>

个样本对应的真实标签，/>

为预测的微表情类别，/>

表示样本个数

的索引。

步骤3.3.4、最后将

、/>

和/>

的和作为网络训练的总体损失函数

：

(11)；

其中，

表示/>

权重系数，/>

表示/>

的权重系数。

通过总体损失函数对微表情识别模型进行约束，可以训练优化获得有效和鲁棒的微表情识别模型。

本发明实施例中，步骤1获得的光流输入图像大小设置为224

224，将图片分割成不重叠的16/>

16大小的Patch，则微表情识别模型的输入大小为/>

196/>

784，经过局部面部区域重构模块后用于分类和参与对比学习的特征大小为25/>

784，其中25为批量大小，196为不重叠的Patch 分别放入196个通道，784是每个Patch转化为特征嵌入的大小。本发明是在PyTorch框架下实现的，使用Adam算法对模型进行优化，学习率设置为3.5e-4，最大迭代次数为60。

为了验证本发明的可行性与优越性，进行了如下对比实验。对比实验均选取CASMEII、SAMM和SMIC三个微表情数据集。

对比实验1：复合数据评估。

选取LBP-TOP、CapsuleNet、Dual Inception、FeatRef、BDCNN和SLSTT五个方法进行复合数据评估标准下的比较。LBP-TOP方法的内容为：使用局部二值模式提取特征，并进行微表情识别。CapsuleNet方法的内容为：使用胶囊网学习图像部分和整体之间的关系，并进行微表情识别。Dual Inception方法的内容为：将光流特征的水平和垂直分量经过双流的以Inception块组成的网络提取特征，并进行微表情识别。FeatRef方法是一种新的基于表情特征学习和融合的微表情识别特征细化方法，由一个具有注意力机制的表情特定特征学习模块和一个分类特征模块组成。BDCNN方法提出一种新的具有隐式深度特征增强的分块卷积网络，主要是在模型中将每个图像划分为不重叠小块，然后依次对这些小块进行卷积和池化操作。SLSTT方法提出了一种基于Transformer结构的捕捉局部和全局时空特征的网络结构，第一次将Transformer结构用于微表情识别。表1为本发明方法与其他五个方法在复合数据评估标准下的比较结果。复合数据集是CASMEII、SAMM和SMIC三个微表情数据集将原始表情重新划分为消极、积极、惊讶三种表情得到的集合。

表1 本发明方法与其他五个方法在复合数据评估标准下的比较结果；

。

F1指F1分数（F1 Score），是统计学中用来衡量二分类（或多任务二分类）模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0，值越大意味着模型越好。从表1可以看出，本发明方法具有很高的识别率，与其他方法相比具有显著优势，其中在CASMEII数据集上的识别准确率达到了96.49%。

对比实验2：单数据集评估。

选取LBP-TOP、DSSN、KFC、FeatRef、SLSTT五个方法进行单数据集评估标准下的比较。DSSN方法通过不同形式的光流作为轻量级的双流浅层网络的输入提取微表情相关特征。KFC方法是将由光流计算得到的一阶和二阶运动特征作为并行浅层网络的输入，并提出了组成感知模块引导网络学习表情相关特征。表2为本发明方法与其他五个方法在单数据集评估标准下的比较。

表2 本发明方法与其他五个方法在单数据集评估标准下的比较结果；

。

从表2可以看出，本发明提出的微表情自动识别方法与现有的光流为输入的深度学习方法进行比较时，在CASMEII数据集和SMIC数据集上取得了最好的结果，SAMM取得了次优结果。

实验3：分类准确率实验。

本发明方法在单数据集评估标准下最优参数得到了混淆矩阵，混淆矩阵展示了使用本发明的微表情自动识别方法的每个类别的分类情况。混淆矩阵的具体内容如下：

CASMEII数据集中，矩阵对角线位置的数据结果为：真实标签为高兴，预测标签为高兴的准确率为80.65%；真实标签为厌恶，预测标签为厌恶的准确率为83.87%；真实标签为压抑，预测标签为压抑的准确率为74.08%；真实标签为惊喜，预测标签为惊喜的准确率为96%；真实标签为其他，预测标签为其他的准确率为82.83%。

SAMM数据集中，矩阵对角线位置的数据结果为：真实标签为生气，预测标签为生气的准确率为96.43%；真实标签为蔑视，预测标签为蔑视的准确率为45.45%；真实标签为高兴，预测标签为高兴的准确率为53.85%；真实标签为惊喜，预测标签为惊喜的准确率为86.67%；真实标签为其他，预测标签为其他的准确率为53.85%。

SMIC数据集中，矩阵对角线位置的数据结果为：真实标签为消极，预测标签为消极的准确率为72.73%；真实标签为积极，预测标签为积极的准确率为84.31%；真实标签为惊讶，预测标签为惊讶的准确率为82.5%。

由上述数据可以看出，矩阵对角线位置的准确率是最高的，说明本发明提出的微表情自动识别方法能提取到区分性的特征，实现较为准确的分类。

本发明提出的方法，采用了局部面部区域重构缓解了模型过拟合和强制模型学习局部区域面部组合关系，同时使用有监督的记忆对比学习利用历史的全局的数据集类别特征和提取的特征进行对比，增加了类间特征距离，缩小类内特征距离，使得模型提取的特征更具有判别性，上述实验数据结果可以有效证明本发明的可行性和优越性。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于局部面部区域重构和记忆对比学习的微表情识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法，其特征在于，所述微表情识别模型包括数据预处理模块、局部面部区域重构模块、记忆对比学习模块和分类模块；数据预处理模块提取处理后图像对序列的光流，构建光流输入序列并进行格式转换；局部面部区域重构模块包括编码器、使用Mask Token替换Patch Token的随机掩蔽操作、单独的Transformer块和解码器；记忆对比学习模块包括暂存训练样本特征的列表、存储类中心的历史记忆字典、暂存批量样本每类特征平均值的列表和动态更新后的记忆字典；分类模块包括由全连接层组成的多层感知机；其中，Patch Token 表示图像的小块转化的向量，Mask Token是可学习的零向量。

3.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法，其特征在于，所述步骤1的具体过程如下：

4.根据权利要求1所述基于局部面部区域重构和记忆对比学习的微表情识别方法，其特征在于，所述步骤2中，微表情识别模型的具体工作流程为：

步骤2.2、将转换后的序列作为局部面部区域重构模块的输入，转换后的序列首先经过编码器进行特征提取，提取得到特征嵌入，对特征嵌入进行随机掩蔽操作，得到包含MaskToken和Patch Token的特征嵌入组合序列；特征嵌入组合序列经过解码器进行局部面部区域的重构任务得到重构后的光流序列，进行重构的同时，特征嵌入组合序列同步经过单独的Transformer块提取得到分类特征；

5.根据权利要求4所述基于局部面部区域重构和记忆对比学习的微表情识别方法，其特征在于，所述步骤2.1的具体过程为：