CN111652159B

CN111652159B - 基于多层次特征联合的微表情识别方法及系统

Info

Publication number: CN111652159B
Application number: CN202010504263.1A
Authority: CN
Inventors: 周元峰; 李新雨; 王杰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-04-14
Anticipated expiration: 2040-06-05
Also published as: CN111652159A

Abstract

本公开公开了基于多层次特征联合的微表情识别方法及系统，包括：获取待识别的微表情视频，从待识别的微表情视频中提取起始帧和峰值帧；对起始帧和峰值帧分别提取面部区域图像；基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果。

Description

基于多层次特征联合的微表情识别方法及系统

技术领域

本公开涉及计算机视觉技术领域，特别是涉及基于多层次特征联合的微表情识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

微表情是人们在试图隐藏真实情感时无意识地做出的一种短暂的面部表情，它通常出现在人们处于危急的情况下。微表情和宏表情不同的是，微表情发生时间短而迅速，面部部位变化不明显，但它通常能够反映人们内心的真实情感。因此，微表情识别在心理和临床诊断、情绪分析、刑事侦查、国防安全等领域有着广泛的应用。

微表情识别是一项非常困难的工作，原因如下：从微表情的持续时间分析，持续时间很短，一个标准的微表情持续时间最短1/25秒最长不超过1/5秒；在空间场中，它只出现在人脸的特定部位，且变化强度十分微弱；现有的特征检测方法只对变化明显的部分敏感，对局部变化较轻微的部位检测存在一定的困难；对于现有的自发的微表情数据集而言，样本数量少且不同类别样本的数目相差较大，存在分类任务中的类别不均衡问题。因此，微表情识别是一项非常具有挑战性的工作。发明人发现目前，微表情识别方法主要分为传统方法和深度学习方法。

在传统方法中，特征提取和分类是分开操作的，先进行特征提取，再进行分类操作。特征提取常用的方法包括：基于梯度特征的提取方法、基于运动特征的提取方法以及基于纹理特征的提取方法。分类常用的方法包括：SVM分类器、随机森林以及隐马尔科夫模型等。传统方法提取特征方式复杂，需要手动设计特征描述子，由于微表情的运动是局部性的，因此传统特征提取方法也很难完全捕捉面部的微弱变化，同时，特征的计算量较大，而且分类器的选择对分类性能的影响很大。

在深度学习方法中，研究者们设计各种基于卷积运算的网络模型，可以分为2D卷积神经网络和3D卷积神经网络。深度学习方法通过交替的卷积、池化等操作自动提取特征，不需要手动设计特征描述子，而且特征提取和分类是不需要分开操作的。虽然深度学习方法在人脸识别、表情识别等众多领域表现出强大的优越性。但是，深度学习的方法往往需要大量的训练数据来学习优化分类模型，对于微表情分析领域中现存的小规模数据集来说，使用深度学习进行微表情识别仍具有很大的挑战性。

发明内容

为了解决现有技术的不足，本公开提供了基于多层次特征联合的微表情识别方法及系统；解决传统方法中提取特征过程过于繁琐、效率低下的问题和深度学习方法中由于数据集样本数目少导致网络过拟合以及随着网络加深微弱特征信息损失导致微表情识别精度不高的问题。

第一方面，本公开提供了基于多层次特征联合的微表情识别方法；

基于多层次特征联合的微表情识别方法，包括：

获取待识别的微表情视频，从待识别的微表情视频中提取起始帧和峰值帧；

对起始帧和峰值帧分别提取面部区域图像；

基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；

将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果。

第二方面，本公开提供了基于多层次特征联合的微表情识别系统；

基于多层次特征联合的微表情识别系统，包括：

获取模块，其被配置为：获取待识别的微表情视频，从待识别的微表情视频中提取起始帧和峰值帧；

面部区域提取模块，其被配置为：对起始帧和峰值帧分别提取面部区域图像；

光流分量提取模块，其被配置为：基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；

分类模块，其被配置为：将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果。

第三方面，本公开还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本公开还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本公开的有益效果是：

本公开提出了一种多层次特征联合的微表情识别算法，提高了微表情识别的准确率以及F₁结果。

本公开提出了一种特征联合模块，对主干网络中不同层次的特征进行融合，充分利用浅层网络信息，减少网络层数加深导致的特征信息的损失。

本公开提出了一种新颖的网络结构，通过将基于AlexNet的主干网络与特征联合模块的结合，可以使这两部分联合学习，共同优化网络参数。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1中本公开实施例一的方法流程图；

图2为本公开实施例一的方法架构图；

图3为本公开实施例一的网络结构图；

图4(a)-图4(p)为本公开实施例一的每一行分别为不同微表情的起始帧、峰值帧、光流水平分量图以及光流垂直分量图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

术语解释部分：

起始帧，指被观察者开始出现微表情的那一帧。

峰值帧，指被观察者的微表情表现最显著的那一帧。

终止帧，指被观察者的微表情消失的那一帧。

光流，指空间运动物体在观察成像平面上的像素运动的瞬时速度。

光流法，指利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

实施例一

本实施例提供了基于多层次特征联合的微表情识别方法；

如图1和图2所示，基于多层次特征联合的微表情识别方法，包括：

S101：获取待识别的微表情视频，从待识别的微表情视频中提取起始帧和峰值帧；

S102：对起始帧和峰值帧分别提取面部区域图像；

S103：基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；

S104：将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果。

作为一个或多个实施例，所述S101中，起始帧，是指微表情视频中的微表情出现的第一帧；所述峰值帧，是指微表情视频中相对起始帧光流强度总和最大的一帧。

作为一个或多个实施例，所述S101中，从待识别的微表情视频中提取起始帧和峰值帧；具体步骤包括：

S1011：对提供已标注好峰值帧的数据集直接使用；

S1012：对未标注峰值帧的数据集，先进行光流计算，计算出每一帧相对起始帧的光流并求出每一帧光流强度总和，最大强度总和所对应的那一帧即为峰值帧。

示例性的，对于一个微表情数据集，其所包含的视频集为

第i个视频可表示为c_i＝{f_i,j|i∈[1,n]；j∈[1,N]}，n为视频的数目，N为视频帧数，f_i,j表示第i个视频的第j帧，f_i,a为已标注好的峰值帧，若未标注，则a＝arg max_iS(i)，S(i)为第i帧相对于起始帧的光流强度总和。

应理解的，考虑到微表情序列中从起始帧到终止帧的每一帧都具有相似的特征，因此，本公开获取每个微表情序列中的起始帧与峰值帧，通过仅使用这两帧的数据来避免特征信息的冗余，同时可以降低网络输入的维度。

作为一个或多个实施例，如图4(a)-图4(p)，所述S102中，对起始帧和峰值帧分别提取面部区域图像；具体步骤包括：

S1021：对起始帧和峰值帧分别检测人脸面部关键点；

S1022：根据人脸面部关键点，获取裁剪区域的位置及裁剪区域的大小；

S1023：根据裁剪区域的位置及裁剪区域的大小，对每个样本的起始帧和峰值帧的面部区域图像进行裁剪，获取只包含面部区域的图像。

示例性的，所述获取裁剪区域的位置及裁剪区域的大小：

width＝δ₂d

height＝δ₃d

其中，

分别为第i个样本第j帧的左眼和右眼关键点的坐标，δ₁＝1.6，δ₂＝3.4，δ₃＝4.4。

示例性的，对起始帧和峰值帧分别检测人脸面部关键点，包括以下关键点的一种或多种：眼睛、眉毛或嘴巴的位置。

应理解的，通过提取面部区域图像可以减少背景区域的干扰并降低数据的维度。

作为一个或多个实施例，所述S103中，基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；具体步骤包括：

基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流水平分量和光流垂直分量；

对峰值帧相对起始帧的光流水平分量和光流垂直分量，均进行线性变换；

对线性变换后的光流水平分量和光流垂直分量，均进行范围约束。

示例性的，所述光流法采用TV-L1光流法。

示例性的，基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流水平分量和光流垂直分量，是指：

示例性的，对峰值帧相对起始帧的光流水平分量和光流垂直分量，均进行线性变换，具体步骤包括：

u′_o＝α*u_o+β

其中，u_o表示光流的水平或垂直分量,α＝16指的是缩放因子，β＝128表示平衡因子。

示例性的，所述对线性变换后的光流水平分量和光流垂直分量，均进行范围约束；具体步骤包括：

u″_o＝min{max{0,u′_o},255}。

进一步地，所述基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流水平分量和光流垂直分量；步骤之前还包括：

将基于起始帧和峰值帧各自对应的面部区域图像的尺寸均调整为设定尺寸；

根据光流法的灰度不变性约束条件，将调整尺寸后的起始帧和峰值帧各自对应的面部区域图像进行灰度化处理。

示例性的，根据光流法的灰度不变性约束条件，将调整尺寸后的起始帧和峰值帧各自对应的面部区域图像进行灰度化处理，具体步骤包括：

对于灰度图中任意一点(x,y)，其在t时刻对应的灰度值为G(x,y,t)，经过Δt时间之后可以得到：

G(x,y,t)＝G(x+Δx,y+Δy,t+Δt) (1)

等式右边根据一阶泰勒公式展开可得：

ε表示高阶无穷小，可忽略不计。

通过将式(2)代入式(1)，两边同除Δt并进行化简可得：

其中，

和

是像素点沿x轴及y轴的变化量。

应理解的，捕捉面部动态信息，利用光流法计算起始帧与峰值帧这两帧之间的光流，并对光流的水平和垂直分量进行线性变换，避免由数据采集环境中的光照变化引起的虚假光流。利用光流法可以逐像素地捕捉微表情在时间维度上的变化信息，能够解决微表情变化微弱肉眼难以发觉的问题。

作为一个或多个实施例，如图3所示，所述S104中，多层次特征联合网络，具体结构包括：主干分类网络AlexNet和特征联合模块；

所述主干分类网络AlexNet，包括：依次连接的第一卷积层、第一归一化层、第一池化层、第二卷积层、第二归一化层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层和第二全连接层；

所述特征联合模块，包括：第六卷积层、第七卷积层、第八卷积层、第四池化层和第三全连接层；

其中，第六卷积层的输入端与第三卷积层的输出端连接，第七卷积层的输入端与第四卷积层的输出端连接；第六卷积层的输出端和第七卷积层的输出端均与加法器连接；加法器与ReLU函数层输入端连接，ReLU函数层输出端与第八卷积层的输入端连接；第八卷积层的输出端与sigmoid函数层输入端连接，sigmoid函数层的输出端和第五卷积层的输出端均与乘法器的输入端连接；所述乘法器的输出端与第四池化层的输入端连接，第四池化层的输出端与第三全连接层的输入端连接；

第三全连接层的输出端和第二全连接层的输出端均与特征融合模块输入端连接，特征融合模块的输出端与分类器连接。

应理解的，利用所提出的网络，对微表情特征进行学习并完成分类任务。其中，所提出的特征联合模块结合了网络中不同层的特征，在反向传播过程中与主干网络联合学习，共同优化网络参数。

应理解的，在本公开中，所提出的多层次特征联合网络主要由两部分构成，一部分是基于AlexNet的主干分类网络，用于对光流分量进行特征提取；另一部分是特征联合模块，该部分是对来自主干网络不同卷积层输出的特征进行融合。

应理解的，本公开所使用的主干网络AlexNet，包含5个卷积层和2个全连接层，在每个全连接层中都采用了激活函数ReLU，另外，对前两个卷积层的输出做局部响应归一化处理。

进一步地，本公开所提出的特征联合模块是对主干分类网络AlexNet中的第三、四、五层的卷积的输出进行融合，其中，层数的计算只包括卷积层。具体包括：

S1031：定义

是主干网络中间层s输出的特征图，其中，

表示通道i的特征图；

S1032：对网络中第三卷积层和第四卷积层的输出分别进行卷积，采用的卷积核大小为1×1，步长为1，得到：

其中，c和c′代表通道数，w_i,j和b_j分别表示权重和偏置值且均为网络中的可学习参数；

S1033：对S1032得到的特征图进行融合操作，得到：

其中，

指的是不同卷积输出的特征图对应通道相加，这是因为不同特征图中对应通道的特征信息具有相似性；

S1034：对融合后的特征图使用激活函数ReLU：

来降低参数之间的依赖性以及避免出现过拟合问题；

S1035：对激活后的特征图使用1×1卷积来实现不同通道间特征信息的线性组合，另外，对组合后的特征信息采用非线性激活函数sigmoid，将每个通道的值压缩到(0，1)之间，得到决策因子群

其中，每个决策因子定义如下：

S1036：利用α为特征图X⁵(即：AlexNet网络中最后一个卷积层的输出)的每个像素设置权重，得到特征图

其定义如下：

F＝f_channel(α,X⁵)＝α·X⁵

其中，f_channel函数代表X⁵中不同的通道的不同像素乘以不同的权重，这有利于网络学习更加重要的特征，同时，充分利用了网络的浅层信息，减少因网络层数的加深所导致的部分特征信息的丢失；

S1037：对S1036得到的特征图F利用最大池化进行下采样，并将池化后的结果输入到第三全连接层。

作为一个或多个实施例，所述S104中，将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果，具体步骤包括：

S1041：将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中；

S1042：预先训练好的多层次特征联合网络对峰值帧相对起始帧的光流分量进行特征提取；

S1043：预先训练好的多层次特征联合网络的特征联合模块中的第三全连接层输出的特征向量与主干分类网络AlexNet中第二全连接层输出的特征向量进行拼接，完成特征向量融合操作；

示例性的，所述拼接采用concat的形式进行拼接；

S1044：将融合操作后的特征向量输入到分类器中，利用分类器中的softmax函数进行预测，从而完成微表情的分类识别。

作为一个或多个实施例，所述S1044的具体步骤包括：

对特征提取部分的输出以及特征融合模块部分的输出进行融合，并通过softmax函数对预测的结果进行归一化，得到：

其中，c和N分别对应的是类别的索引和类别的总数，X和Y分别表示主干网络部分和多层特征联合模块部分的特征向量。

作为一个或多个实施例，所述S104中，预先训练好的多层次特征联合网络，具体训练步骤包括：

构建多层次特征联合网络；

构建训练集，所述训练集，包括：已知微表情分类标签的微表情视频；

将训练集输入到多层次特征联合网络中进行训练，当损失函数达到最小值时，停止训练，得到训练好的多层次特征联合网络。

在训练阶段，本公开使用的是Adam优化器以及交叉熵损失函数：

其中，y_k指的是第k个样本的真实标签，S_k指的是softmax函数对第k个样本预测的结果。

在训练阶段，通过反向传播使得主干网络和特征联合模块这两个不同部分可以进行联合学习来共同优化网络模型以便提高网络的整体性能。

应理解的，本公开设计了一种包括预处理、动态信息捕捉和多层次特征联合网络的架构。通过预处理来减少背景噪声，在动态信息捕捉部分，本公开采用光流法来得到微表情序列在时间维度上的变化信息。多层次特征联合网络一共包含两个部分，一部分是基于AlexNet的主干分类网络，另一个部分是本公开所提出的特征联合模块，该模块融合了网络中的多层次的特征，充分利用浅层特征信息，以减少随着网络加深所造成的特征信息损失。在反向传播过程中，这两部分可以联合学习，从而提高微表情识别的精度。

根据本公开实施例的基于深度学习多层级特征联合的微表情识别方法，在公开数据集SMIC及CASMEII上进行实验，采用的是留一人交叉验证的方式。实验结果如下表所示：

表1实验结果

可见AlexNet作为特征提取主干网络可以获得较好的性能，在AlexNet基础上加入本公开提出的特征联合模块，模型识别微表情的性能有了显著地提升。

本公开实施例公开了一种基于深度学习多层次特征联合的微表情识别方法，包括获取微表情序列中的起始帧与峰值帧，通过仅使用这两帧的数据来避免特征信息的冗余，同时可以降低网络输入的维度；对起始帧与峰值帧进行数据预处理，获取只包含面部区域的图像，避免背景区域的干扰；捕捉面部动态信息，利用光流法计算起始帧与峰值帧这两帧之间的光流，并对光流的水平和垂直分量进行线性变换，避免由数据采集环境中的光照变化引起的虚假光流；将映射后的光流分量输入到多层特征联合网络进行特征提取；将基于AlexNet的主干网络与特征联合模块输出的特征向量进行融合；对融合后的特征向量进行微表情识别。根据本公开的微表情识别方法，通过计算两帧之间的光流可以获取微表情的运动信息，利用本公开提出的特征联合模块来充分利用不同层的特征信息，同时，可以减少随着网络加深而导致的浅层特征信息的丢失，有效提高了微表情识别的精确性。

实施例二

本实施例提供了基于多层次特征联合的微表情识别系统；

基于多层次特征联合的微表情识别系统，包括：

此处需要说明的是，上述获取模块、面部区域提取模块、光流分量提取模块和分类模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于多层次特征联合的微表情识别方法，其特征是，包括：

对起始帧和峰值帧分别提取面部区域图像；基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；

将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果；

多层次特征联合网络，具体结构包括：主干分类网络AlexNet和特征联合模块；

2.如权利要求1所述的方法，其特征是，从待识别的微表情视频中提取起始帧和峰值帧；具体步骤包括：

对提供已标注好峰值帧的数据集直接使用；或者，

对未标注峰值帧的数据集，先进行光流计算，计算出每一帧相对起始帧的光流并求出每一帧光流强度总和，最大强度总和所对应的那一帧即为峰值帧。

3.如权利要求1所述的方法，其特征是，对起始帧和峰值帧分别提取面部区域图像；具体步骤包括：

对起始帧和峰值帧分别检测人脸面部关键点；

根据人脸面部关键点，获取裁剪区域的位置及裁剪区域的大小；

根据裁剪区域的位置及裁剪区域的大小，对每个样本的起始帧和峰值帧的面部区域图像进行裁剪，获取只包含面部区域的图像。

4.如权利要求1所述的方法，其特征是，基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流分量；具体步骤包括：

5.如权利要求4所述的方法，其特征是，所述基于起始帧和峰值帧各自对应的面部区域图像，利用光流法提取峰值帧相对起始帧的光流水平分量和光流垂直分量；步骤之前还包括：

6.如权利要求1所述的方法，其特征是，将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果，具体步骤包括：

将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中；

预先训练好的多层次特征联合网络对峰值帧相对起始帧的光流分量进行特征提取；

预先训练好的多层次特征联合网络的特征联合模块中的第三全连接层输出的特征向量与主干分类网络AlexNet中第二全连接层输出的特征向量进行拼接，完成特征向量融合操作；

将融合操作后的特征向量输入到分类器中，利用分类器中的softmax函数进行预测，从而完成微表情的分类识别。

7.基于多层次特征联合的微表情识别系统，其特征是，包括：

分类模块，其被配置为：将峰值帧相对起始帧的光流分量，输入到预先训练好的多层次特征联合网络中，依次进行多层次特征提取和多层次特征融合，最后输出当前关联所对应的微表情分类结果；

8.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。