CN116071810A

CN116071810A - 微表情检测方法、系统、设备及存储介质

Info

Publication number: CN116071810A
Application number: CN202310345351.5A
Authority: CN
Inventors: 陈恩红; 徐童; 殷述康; 赵思蕊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-05-05

Abstract

本发明公开了一种微表情检测方法、系统、设备及存储介质，它们是一一对应的技术方案，方案中：融入先验知识，使网络更容易在小样本数据集中学到相应关系和有利于检测的特征，从而减小了过拟合的可能性，提高了网络的泛化性能，可以有效建模面部兴趣区域之间的关系，获得更好的特征表示，有助于提升微表情检测效果；在此基础上，进一步使用焦点损失函数可以减缓样本不均衡问题，利用软标签可以使模型在相同的数据量下学习到更丰富、更细粒度的识别特征，有助于提高最终检测表现；总体来说，上述方案可以大幅度的提高网络的泛化能力，进而提升微表情检测的准确率与F1值。

Description

微表情检测方法、系统、设备及存储介质

技术领域

本发明涉及微表情检测技术领域，尤其涉及一种微表情检测方法、系统、设备及存储介质。

背景技术

微表情是一种能够反映人的情感和心理状态的非语言表达方式，其特点是运动强度低、持续时间短（一般不超过0.5s），因此微表情用肉眼难以察觉。但由于微表情不可伪造，是人的真实情感的外在表现，所以微表情检测在多个领域都具有广泛的应用场景。

早期的微表情检测研究主要基于传统的机器学习方法，包括手工设计的特征工程和信号处理方式。常见的特征描述子有LBP（局部二值模式），HOG（方向梯度直方图）等。而信号处理方式又包括特征差值分析和阈值策略。这类方法的主要问题是依赖于繁琐的特征设计，且泛化性能不佳，导致难以推广到多个场景。

随着深度学习领域的发展，越来越多的工作转向基于深度学习的方法。该类方法的最大优势是以数据驱动的方式进行端到端学习，从而避免了繁琐的特征工程。然而基于深度学习的方法一般需要较大的数据量，否则容易发生过拟合问题。而由于微表情的诱发条件较严苛，样本较难采集，目前的微表情数据集都较小，所以利用深度学习的方法进行微表情检测工作仍具有很大挑战。

发明内容

本发明的目的是提供一种微表情检测方法、系统、设备及存储介质，能够有效的提升微表情检测的准确率以及F1值。

本发明的目的是通过以下技术方案实现的：

一种微表情检测方法，包括：

构造动作单元感知的图卷积神经网络并进行训练；训练阶段，获取原始数据集中关于面部动作单元的先验知识，并以邻接矩阵的形式融入动作单元感知的图卷积神经网络中，再将预处理后的原始数据集输入至动作单元感知的图卷积神经网络中，对微表情帧进行分类，以反向传播的方式更新网络参数；其中，预处理后的原始数据集中的每一个样本均为一个视频对应的用于描述微表情的光流特征序列；

预测阶段，利用训练得到的动作单元感知的图卷积神经网络对预处理后的待检测视频数据进行微表情检测。

一种微表情检测系统，包括：

网络构建与训练单元，用于构造动作单元感知的图卷积神经网络并进行训练；训练阶段，获取原始数据集中关于面部动作单元的先验知识，并以邻接矩阵的形式融入动作单元感知的图卷积神经网络中，再将预处理后的原始数据集输入至动作单元感知的图卷积神经网络中，对微表情帧进行分类，以反向传播的方式更新网络参数；其中，预处理后的原始数据集中的每一个样本均为一个视频对应的用于描述微表情的光流特征序列；

微表情检测单元，用于在预测阶段，利用训练得到的动作单元感知的图卷积神经网络对预处理后的待检测视频数据进行微表情检测。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过融入与面部动作单元相关的先验知识，并设计与之对应的图卷积神经网络模型，可以使网络在小样本的微表情数据集上得到充分的训练，从而大幅度的提高网络的泛化能力，进而提升微表情检测的准确率与F1值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种微表情检测方法的流程图；

图2为本发明实施例提供的数据预处理的流程图；

图3为本发明实施例提供的面部兴趣区域的示意图；

图4为本发明实施例提供的动作单元感知的图卷积神经网络的示意图；

图5为本发明实施例提供的一种微表情检测系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种微表情检测方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种微表情检测方法，如图1所示，主要包括：

步骤1、构造动作单元感知的图卷积神经网络并进行训练；训练阶段分为两步：第一步获取原始数据集中关于面部动作单元的先验知识，并以邻接矩阵的形式融入动作单元感知的图卷积神经网络中；第二步将预处理后的原始数据集输入至动作单元感知的图卷积神经网络中，对微表情帧进行分类，以反向传播的方式更新网络参数；其中，原始数据集中的每一个样本均为一个视频，预处理后的原始数据集中的每一个样本均为一个视频对应的用于描述微表情的光流特征序列。

步骤2、训练完毕后（预测阶段），利用训练得到的动作单元感知的图卷积神经网络对预处理后的待检测视频数据进行微表情检测。

本发明实施例上述方案通过融入与面部动作单元相关的先验知识，并设计与之对应的图卷积神经网络模型，可以使网络在小样本的微表情数据集上得到充分的训练，从而大幅度的提高深度模型的泛化能力，进而提升微表情检测的准确率与F1值。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、数据预处理。

本发明实施例中，数据预处理主要针对原始数据集进行预处理，原始数据集中样本均为长视频样本（称为原始视频），预处理后得到对应光流特征序列，如图2所示，预处理的优选实施方式如下：

1、对于原始数据集中的每一视频，使用Retinaface（单步推理人脸检测器）进行面部框检测并进行面部区域裁剪，得到裁剪后的图片帧序列。

2、根据裁剪后的图片帧序列，使用TV-L1（总变差正则化）算法计算光流图像帧序列。

3、使用SAN（Style Aggregated Network for Facial Landmark Detection，基于面部聚合网络的面部关键点检测器）进行面部关键点检测，对光流图像帧序列进行兴趣区域选取，并通过光流图计算更细粒度的MDMO（光学流动）特征，获得原始数据集中一个视频对应的用于描述微表情的光流特征序列；图2中，T1为帧数，C1为光流特征序列长度。

如图3所示，提供了面部兴趣区域的设定示例，其中，AU1表示抬起眉毛内角；AU2表示抬起眉毛外角；AU4表示皱眉（眉毛降低）；AU6表示脸颊提升；AU11表示唇皱纹加深；AU12表示拉动嘴角向上；AU14表示收紧嘴角。

二、网络构建与学习。

1、网络结构。

本发明实施例中，构建了动作单元感知的图卷积神经网络，如图4所示为动作单元感知的图卷积神经网络（AUW-GCN）的主要结构及工作原理；其主要包括：空间特征交互模块、时间特征交互模块以及提议生成模块。其中：空间特征交互模块包括：图卷积网络层与展平层；所述图卷积网络层负责对预处理后的原始数据集中的每一样本进行图卷积处理；展平层负责将图卷积处理后的特征数据展平为一维特征序列（优化的视频特征序列）；时间特征交互模块包括：一维卷积层和分类输出层；所述一维卷积层负责对展平层输出的一维特征序列进行卷积处理；分类输出层负责对卷积处理的一维特征序列进行分类，预测每一视频帧的分类概率；所述提议生成模块，负责在预测阶段将每一视频帧的分类概率转化为微表情检测结果。

其中，分类输出层包括二分类与多分类，分类输出层包含了Sigmoid和Softmax激活函数，分别用于二分类输出和多分类的概率输出，所有视频帧的分类概率形成概率序列；其中，二分类输出视频帧为表情帧与非表情帧的概率，多分类输出视频帧为表情开始帧、峰值帧和结束帧的概率。视频帧需要进行二分类和三分类，但是二分类是正则化项，只有训练时使用；具体的：训练阶段，每一视频帧都进行分别进行二分类与三分类，预测阶段，每一视频帧都进行三分类，也就是说：训练阶段，每一视频帧的分类概率包括：通过二分类获得的属于微表情帧与非表情帧的概率，以及通过三分类获得的属于表情开始帧、峰值帧和结束帧的概率；预测阶段，每一视频帧的分类概率包括：通过三分类获得的属于表情开始帧、峰值帧和结束帧的概率。

2、网络训练。

本发明实施例中，网络训练包含两步，第一步获取原始数据集中关于面部动作单元的先验知识，并以邻接矩阵的形式融入动作单元感知的图卷积神经网络中；第二步将预处理后的原始数据集输入至动作单元感知的图卷积神经网络中，对微表情帧进行分类，以反向传播的方式更新网络参数；具体的：

（1）第一步属于先验学习阶段，可通过统计学方式获得原始数据集中的关于面部动作单元的先验知识，并以邻接矩阵的形式融入到图卷积神经网络中，即，利用面部动作单元计算邻接矩阵，将计算得到的邻接矩阵作为图卷积神经网络的邻接矩阵。

所述邻接矩阵计算方法包括：

；

其中，表示邻接矩阵，f(.)为将面部动作单元映射为相应面部区域集合的函数，动作单元是面部表情涉及的一组或多组肌肉单元，一个面部动作单元对应一个或多个面部区域；表示原始数据集中第k个视频，每个视频对应一组面部动作单元；{U_k}为第k个视频的面部动作单元集合，p∈f(U_p)表示面部区域p属于面部动作单元U_p，q∈f(U_q)表示面部区域q属于面部动作单元U_q，U_p与U_q均为面部动作单元集合{U_k}中动作单元，为指示函数。

（2）第二步是更新网络参数阶段，结合分类输出层预测的每一视频帧的分类概率与给定的真实标签构建总损失函数，更新空间特征交互模块与时间特征交互模块的参数；提议生成模块在训练阶段不起作用，也不参与训练，在预测阶段根据分类概率生成检测提议，进而得到微表情检测结果。利用总损失函数更新空间特征交互模块与时间特征交互模块的参数的具体流程可参照常规技术，本发明不做赘述。

本发明实施例中，将视频中的检测定位问题转化为帧级别的分类问题，输入预处理得到的光流特征序列，通过空间特征交互模块处理后，通过时间特征交互模块进行二分类和三分类，获得每一视频帧属于表情帧与非表情帧的概率，以及属于表情开始帧、峰值帧和结束帧的概率，最终整合为如下分类概率P：

；

其中，分别是视频帧属于开始帧、峰值帧、结束帧、表情帧的概率。由于二分类中非表情帧的概率即为，因此，上式中省去了非表情帧的概率。

本发明实施例中，为了缓解微表情数据集中数据不平衡问题，使用Focal Loss（焦点损失函数）作为损失函数，损失函数计算方式包括：

；

其中，为损失函数，表示分类输出层预测的视频帧的分类概率，y表示真实概率，l_w表示视频帧数目，C表示类别数目；表示分类输出层预测的第i个视频帧属于第c个类别的概率，y_i,c表示第i个视频帧属于第c个类别的真实概率，属于第i个视频帧对应的真实标签；为平衡样本不均衡的参数，为平衡样本难度的参数。

每一视频帧的二分类与三分类获得的分类概率都需要代入上述式子进行损失函数的计算，利用二分类获得的分类概率计算出第一损失函数，利用三分类获得的分类概率计算出第二损失函数，两部分损失函数都相加作为总损失函数；其中，对于二分类，C=2，即表情帧与非表情帧两类，此情况下，第c个类别为表情帧或非表情帧类别，为或；对于三分类，C=3，即表情开始帧、峰值帧和结束帧三类，此情况下，第c个类别为表情开始帧、峰值帧或结束帧类别，为、或。

优选的，为了使网络能够在相同的数据下学习到更多的知识以及更细粒度的特征，对真实标签还使用了软标签技术优化视频帧属于峰值帧的真实概率，具体来说，是以1维高斯形式将离散的[0,1]标签映射为连续的目标值，即：

；

其中，y_ap,n(i)表示优化后的第i个视频帧属于第n个微表情的峰值帧这一类别的真实概率，将y_ap,n(i)带入损失函数公式计算第二损失函数，t_ap,n表示第n个微表情的峰值帧的视频帧索引，i表示第i个视频帧；t_s,n、t_e,n分别是真实标签的开始帧和结束帧的视频帧索引，exp表示自然常数e为底的指数函数。是衡量曲线分散程度的尺度值，示例性的，可以设置为，即真实表情时长的一半。

本发明实施例中，软标签技术是要是针对三分类中峰值帧而言，通常来说，三分类的真实标签是一个三元组，即（开始帧的视频帧索引t_s,n，峰值帧的视频帧索引t_ap,n，结束帧的视频帧索引t_e,n），由于一个视频里可能有若干段表情，那么会包含若干个样本标签，因此，对峰值帧的真实概率进行优化。

本领域技术人员可以理解，真实标签给定了开始帧、峰值帧与结束帧的视频帧索引，那么，自然表示：开始帧的视频帧索引t_s,n对应的视频帧属于开始帧这一类别的概率为100%，其余视频帧属于开始帧这一类别的概率为0%；同理，峰值帧的视频帧索引t_ap,n对应的视频帧属于峰值帧这一类别的概率为100%，其余视频帧属于峰值帧这一类别的概率为0%；结束帧的视频帧索引t_e,n对应的视频帧属于结束帧这一类别的概率为100%，其余视频帧属于结束帧这一类别的概率为0%。

三、微表情检测。

通过前述第二部分提供的损失函数不断更新网络参数，直至满足停止条件（例如损失函数收敛，或达到设定的训练次数等），完成网络训练。

对于待检测的视频数据，同样采用前文介绍的方式进行预处理，获得待检测的视频数据对应的用于描述微表情的光流特征序列，然后通过空间特征交互模块与时间特征交互模块预测出每一视频帧的分类概率P，再通过提议生成模块使用由概率序列生成提议集合方法将视频帧的分类概率转化为微表情检测结果。

提议生成模块的转换流程包括：

（1）使用预设置的阈值筛选出候选的峰值帧，即选出峰值帧概率大于等于阈值的视频帧，此处的阈值大小可根据实际情况或者经验进行设定，例如，可设置阈值为0.5。

（2）对每个候选峰值帧，在它的左侧（时间更早）s帧长度范围内找出开始帧概率最高的视频帧作为开始帧；在它的右侧s帧长度范围内找出结束帧概率最高的视频帧作为结束帧。例: 第m帧是候选峰值帧，在m-s到m-1范围内找一个开始帧概率最大的作为开始帧；在m+1到m+s范围内找一个结束帧概率最大的视频帧作为结束帧。其中，s为设定的正整数，其大小可根据实际情况或者经验进行设定，例如，可以设置为表情平均时长的一半，此处的表情平均时长是指微表情片段的帧数，对于微表情而言，s可以设置为7。

（3）对每个候选峰值帧，利用找出的开始帧与结束帧组合为一个提议，并计算提议分数（即置信度），即每个候选峰值帧对应的开始帧的概率、峰值帧的概率与结束帧的概率的乘积，将提议与提议分数加入至提议集合。以上（1）~（3）可以理解为提议生成算法，所有候选峰值帧都会通过提议生成算法生成相应的提议并计算提议分数。

（4）对提议集合中的提议按照提议分数进行排序，选择排名靠前的K个提议作为微表情检测结果，K个微表情检测结果即为视频中的K个微表情片段，此处的K为正整数，其大小可根据实际情况或者经验进行设定，例如，设置K=5。

本发明实施例上述方案，主要获得如下有益效果：

（1）可以有效建模面部兴趣区域之间的关系，获得更好的特征表示，并最终提升检测效果。

（2）可以融入先验知识，使网络更容易在小样本数据集中学到相应关系和有利于检测的特征，从而减小了过拟合的可能性，提高了网络的泛化性能。

（3）在训练阶段进行帧级别分类时，使用Focal Loss（焦点损失函数）可以减缓样本不均衡问题；利用软标签可以使模型在相同的数据量下学习到更丰富、更细粒度的识别特征，有助于提高最终检测表现。

表1：实验结果

验证数据集	识别准确率(%)	识别F1值
			CAS(ME)^2	18.75	0.0822
SAMM-LV	25.42	0.2166

本领域技术人员可以理解， F1值能够同时兼顾准确率和召回率，如准确率高而召回率低，F1值不一定高，F1值越大，表示准确率与召回率都较高。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种微表情检测系统，其主要基于前述实施例提供的方法实现，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种微表情检测方法，其特征在于，包括：

2.根据权利要求1所述的一种微表情检测方法，其特征在于，原始数据集的预处理方式包括：

对于原始数据集中的每一视频，使用单步推理人脸检测器进行面部框检测并进行面部区域裁剪，得到裁剪后的图片帧序列；

根据裁剪后的图片帧序列，使用总变差正则化算法计算光流图像帧序列；

使用基于面部聚合网络的面部关键点检测器进行面部关键点检测，对光流图像帧序列进行兴趣区域选取，并通过光流图计算光学流动特征，获得一个视频对应的用于描述微表情的光流特征序列。

3.根据权利要求1所述的一种微表情检测方法，其特征在于，所述获取原始数据集中关于面部动作单元的先验知识，并以邻接矩阵的形式融入动作单元感知的图卷积神经网络中包括：

通过统计学方式获得原始数据集中的关于面部动作单元的先验知识，利用面部动作单元计算邻接矩阵，将计算得到的邻接矩阵作为图卷积神经网络的邻接矩阵；

邻接矩阵计算方法包括：

；

其中，表示邻接矩阵，f(.)为将面部动作单元映射为相应面部区域集合的函数，动作单元是面部表情涉及的一组或多组肌肉单元，一个面部动作单元对应一个或多个面部区域；表示原始数据集中第k个视频，每个视频对应一组面部动作单元；{U_k}为第k个视频的面部动作单元集合，p∈f(U_p)表示面部区域p属于动作单元U_p，q∈f(U_q)表示面部区域q属于面部动作单元U_q，U_p与U_q均为面部动作单元集合{U_k}中动作单元，为指示函数。

4.根据权利要求1所述的一种微表情检测方法，其特征在于，所述动作单元感知的图卷积神经网络包括：空间特征交互模块、时间特征交互模块以及提议生成模块；其中：

空间特征交互模块包括：图卷积网络层与展平层；所述图卷积网络层负责对预处理后的原始数据集中的每一样本进行图卷积处理；展平层负责将图卷积处理后的特征数据展平为一维特征序列；

时间特征交互模块包括：一维卷积层和分类输出层；所述一维卷积层负责对展平层输出的一维特征序列进行卷积处理；分类输出层负责对卷积处理的一维特征序列进行分类，预测每一视频帧的分类概率；

所述提议生成模块，负责在预测阶段将每一视频帧的分类概率转化为微表情检测结果；

其中，训练阶段，结合分类输出层预测的每一视频帧的分类概率与给定的真实标签构建总损失函数，更新空间特征交互模块与时间特征交互模块的参数；所述提议生成模块应用于预测阶段，不参与网络训练；训练阶段，每一视频帧的分类概率包括：通过二分类获得的属于微表情帧与非表情帧的概率，以及通过三分类获得的属于表情开始帧、峰值帧和结束帧的概率；预测阶段，每一视频帧的分类概率包括：通过三分类获得的属于表情开始帧、峰值帧和结束帧的概率。

5.根据权利要求4所述的一种微表情检测方法，其特征在于，所述训练阶段，结合分类输出层预测的每一视频帧的分类概率与给定的真实标签构建总损失函数包括：

每一视频帧的二分类与三分类获得的分类概率都分别计算损失函数，利用二分类获得的分类概率计算出第一损失函数，利用三分类获得的分类概率计算出第二损失函数，两部分损失函数都相加作为总损失函数；

两部分损失函数计算公式相同，表示为：

；

其中，为损失函数，表示分类输出层预测的每一视频帧的分类概率，y表示真实概率，l_w表示视频帧数目，C表示类别数目；表示分类输出层预测的第i个视频帧属于第c个类别的概率，y_i,c表示第i个视频帧属于第c个类别的真实概率，属于第i个视频帧对应的真实标签；为平衡样本不均衡的参数，为平衡样本难度的参数；

对于二分类，C=2，即表情帧与非表情帧两类，此情况下，第c个类别为表情帧或非表情帧类别；对于三分类，C=3，即表情开始帧、峰值帧和结束帧三类，此情况下，第c个类别为表情开始帧、峰值帧或结束帧类别。

6.根据权利要求5所述的一种微表情检测方法，其特征在于，该方法还包括：使用软标签技术优化视频帧属于峰值帧的真实概率，表示为：

；

其中，y_ap,n(i)表示优化后的第i个视频帧属于第n个微表情的峰值帧这一类别的真实概率，将y_ap,n(i)带入损失函数公式计算第二损失函数，t_ap,n表示第n个微表情的峰值帧的视频帧索引，i表示第i个视频帧，t_s,n、t_e,n分别是真实标签的开始帧和结束帧的视频帧索引，是衡量曲线分散程度的尺度值，exp表示自然常数e为底的指数函数。

7.根据权利要求4所述的一种微表情检测方法，其特征在于，所述将每一视频帧的分类概率转化为微表情检测结果包括：

使用预设置的阈值筛选出候选的峰值帧，即选出峰值帧概率大于等于阈值的视频帧；

对每个候选峰值帧，在左侧s帧长度范围内找到开始帧概率最高的视频帧作为开始帧；在右侧s帧长度范围内找到结束帧概率最高的视频帧作为结束帧；其中，s为设定的正整数；

对每个候选峰值帧，利用找出的开始帧与结束帧组合为一个提议，并计算提议分数，即每个候选峰值帧对应的开始帧的概率、峰值帧的概率与结束帧的概率的乘积，将提议与提议分数加入至提议集合；

对提议集合中的提议按照提议分数进行排序，选择排名靠前的K个提议作为微表情检测结果，其中，K为设定的正整数。

8.一种微表情检测系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。