CN117456576A

CN117456576A - 基于时空特征和注意力机制的微表情识别方法

Info

Publication number: CN117456576A
Application number: CN202311411574.3A
Authority: CN
Inventors: 王璐; 马冰阳; 王庆粉; 杨婷婷; 李若琳; 童心; 魏宏超; 王治博; 苗秀丽
Original assignee: Shenyang Contain Electronic Technology Co ltd
Current assignee: Shenyang Contain Electronic Technology Co ltd
Priority date: 2023-10-28
Filing date: 2023-10-28
Publication date: 2024-01-26

Abstract

本发明提供一种基于时空特征和注意力机制的微表情识别方法，包括：对微表情视频进行空间归一化处理，得到第一视频；对第一视频进行时间归一化处理，得到第二视频；构建基于层次化视觉自注意力和标记选择的骨干网络；将第二视频输入骨干网络，输出分类标记；采用分类器模块对分类标记进行分类识别。通过构建基于层次化视觉自注意力和标记选择的骨干网络，在每个阶段持续进行加权操作，显式要求网络对人脸不同区域给予不同程度的关注；提取对微表情识别具有重要贡献的标记，并突出这些标记的特征表示，从而提高分类任务的准确性和鲁棒性，从而改进了微表情识别方法的性能。

Description

基于时空特征和注意力机制的微表情识别方法

技术领域

本发明涉及计算机视觉技术领域，具体而言，尤其涉及一种基于时空特征和注意力机制的微表情识别方法。

背景技术

面部表情通常可以划分为宏表情和微表情两类。宏表情是日常生活中最为常见和熟知的表情，当一个宏表情发生时，人们一般能够明显地观察到并分辨出其对应的情感类型。这是因为宏表情持续时间较长(0.5秒到2秒)，脸部运动区域覆盖范围较大(下巴、嘴、鼻子、脸颊、眼部、眉毛等)，肌肉运动也较为强烈。相比而言，微表情是一种短暂的、自发的面部表情，通常出现在人们试图隐藏真实感受的时候，尤其是在高压、紧张、焦虑的情况下。微表情持续周期短，一般认为不超过0.5秒，一些研究也将0.2秒作为阈值。此外，微表情动作在面部运动区域覆盖范围小，主要集中在嘴部和眼部周围，且肌肉运动幅度小。微表情这些特点使它难以被伪装，因此微表情被认为可以表达人类真实情感，其情感表达比宏表情可信度要高，可用于国家安全、司法审讯、临床医疗、公共服务等领域。

微表情识别是通过对微表情序列中人脸肌肉动作进行特征提取来完成分类(如积极、消极、惊讶)的过程。传统微表情识别方法通常先对人脸进行细致的处理，如人脸检测、人脸对齐、光照矫正、感兴趣区域剪裁；再进行特征提取，包括形状特征、纹理特征(如局部二值模式)和动态特征(如三维空间的局部二值模式、光流)等，这些特征用于表示微表情的关键信息。最后，利用分类器进行微表情的识别，常用的分类器包括支持向量机、K近邻和决策树等。然而，传统方法存在一些缺点：首先，传统方法对于微表情的细微变化和动态特征的捕捉能力较弱，无法充分利用深层次的信息；其次，特征选择和提取的过程通常需要手工设计和调整，依赖于领域专家的知识和经验，效果受限。近年来，基于深度学习的方法在微表情识别得到广泛应用，它们能够直接从原始数据中学习到更抽象、更高级的特征表示，无需手动设计特征提取方法，从而减少了人工特征工程的复杂性。

一些深度学习方法基于单帧人脸图像，通过卷积和全连接网络进行空间特征提取与分类，能取得一定的效果，但这些方法没有充分利用微表情在时间上的运动信息。为了充分利用微表情时间和空间特征，一些基于微表情视频帧序列的工作，使用3D卷积网络和长短期记忆网络进行微表情时空特征的提取，能取得更佳的结果。然而，现有的基于对微表情帧序列进行时空特征提取的方法存在一个共性问题，即它们仍然依赖于手工设计的光流特征。光流计算复杂度很高，需要对每两帧之间的像素变化进行计算，并进行匹配和插值来确定光流的方向和速度，这种复杂性使得基于光流的方法难以满足实时性的要求。

专利文献CN105913038A公开了一种基于视频的动态微表情识别方法，其不足之处是在进行特征提取时，存在大量手工方法，如视频分块、提取光流和提取HOG3D(Histogramof Oriented 3D Gradients)特征，这些都依赖专家经验。专利文献CN106570474A公开了一种基于3D卷积神经网络进行微表情识别的方法，专利文献CN113496217 A公开了一种基于面部运动单元和光流的微表情识别方法，这些基于深度学习方法假设可以获取光流或动作单元等局部几何信息，然而，在实际情况中，我们可能因为数据质量和计算资源的限制，无法获得额外的局部几何信息，而且面部动作单元检测本身也是一个具有挑战性的任务。

因此，寻找一种更有效的方法来提取微表情的时空特征是一个重要方向。该方法应当减少对手工方法的依赖，并能够从原始数据中自动学习到更抽象、更高级的特征表示，以提高微表情识别的性能和实用性，本发明提供一种基于时空特征和注意力机制的微表情识别方法。

发明内容

根据上述提出不足，而提供一种基于时空特征和注意力机制的微表情识别方法。本发明主要利用对微表情视频进行空间归一化处理，得到第一视频；对第一视频进行时间归一化处理，得到第二视频；构建基于层次化视觉自注意力和标记选择的骨干网络；将第二视频输入骨干网络，输出分类标记；采用分类器模块对分类标记进行分类识别，从而避免了对手工光流特征、面部动作单元检测任务的依赖。

本发明采用的技术手段如下：

本发明提供了一种基于时空特征和注意力机制的微表情识别方法，包括：

对微表情视频进行空间归一化处理，得到第一视频；

对所述第一视频进行时间归一化处理，得到第二视频；

构建基于层次化视觉自注意力和标记选择的骨干网络；

将所述第二视频输入所述骨干网络，输出分类标记；

采用分类器模块对所述分类标记进行分类识别。

进一步地，所述对微表情视频进行空间归一化处理，包括：

所述微表情视频包括M帧图像，对每帧所述图像进行人脸对齐后进行自然人脸裁剪得到微表情图像，将所述微表情图像调整为预设尺寸。

进一步地，所述对所述第一视频进行时间归一化处理，包括：

设定所述第一视频的归一化值为预设值；

所述第一视频包括M帧微表情图像，判断M是否等于所述预设值；

若M等于所述预设值，无需处理；

若M小于所述预设值，对所述第一视频进行3D线性插值上采样操作，使所述第二视频具有所述预设值帧的所述微表情图像；

若M大于所述预设值，将所述第一视频划分为S个语义段，S为所述预设值的Z倍，0＜Z≤1，从每个所述语义段取连续的Q帧所述微表情图像形成所述第二视频，Q×S等于所述预设值。

进一步地，所述构建基于层次化视觉自注意力和标记选择的骨干网络，包括：

将时空块模块、第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块顺次连接；

所述时空块模块将第二视频划分为G个时空块。所述第一阶段模块包括顺次连接的线性变换层、第一层次化视觉注意力模块、第二层次化视觉注意力模块和第一标记注意力模块，所述线性变换层与所述时空块连接；

所述第二阶段模块包括顺次连接的第一标记合并模块、第三层次化视觉注意力模块、第四层次化视觉注意力模块和第二标记注意力模块，所述第一标记合并模块与所述第一标记注意力模块连接；

所述第三阶段模块包括顺次连接的第二标记合并模块、第五层次化视觉注意力模块、第六层次化视觉注意力模块、第七层次化视觉注意力模块、第八层次化视觉注意力模块、第九层次化视觉注意力模块、第十层次化视觉注意力模块和第三标记注意力模块，所述第二标记合并模块与所述第二标记注意力模块连接；

所述第四阶段模块包括顺次连接的第三标记合并模块、第十一层次化视觉注意力模块、第十二层次化视觉注意力模块和第四标记注意力模块，所述第三标记合并模块与所述第三标记注意力模块连接，所述第四标记注意力模块与所述标记选择模块连接。

进一步地，所述将所述第二视频输入所述骨干网络，输出分类标记，包括：

所述第二视频输入所述骨干网络，经过所述将时空块模块、所述第一阶段模块、所述第二阶段模块、所述第三阶段模块和所述第四阶段模块，输出分类标记；

所述标记选择模块根据第四阶段模块输出的多个所述标记得到所述分类标记，包括：

计算多个所述标记的平均值得到第一平均值；

对多个所述标记分别计算L2范数，将得到的多个所述L2范数由大到小排序，根据超参数提取前K个所述L2范数；

计算K个所述L2范数的平均值得到第二平均值；

将所述第一平均值和所述第二平均值在特征维度上进行拼接得到所述分类标记。

进一步地，所述分类器模块的分类损失函数，按照以下方式计算：

其中，为分类损失函数值，p_t为属于类别t的概率，α_t为第一参数，用于调整类别t的损失函数权重，γ为第二参数，用于控制焦点损失函数的形状。

进一步地，所述分类器模块的对比损失函数，按照以下方式计算：

其中，为对比损失函数值，B为批处理大小，z_i和z_j是不同样本对应的特征表示，y_i和y_j是不同样本对应的标签，Sim(z_i，z_j)是z_i和z_j点积。

较现有技术相比，本发明具有以下优点：

1、本发明提供的基于时空特征和注意力机制的微表情识别方法，通过使用纯粹的RGB帧序列进行微表情识别，摆脱了依赖光流等手工特征的限制。

2、本发明提供的基于时空特征和注意力机制的微表情识别方法，通过采用非刚性变换的人脸对齐方法，可以更好地校正人脸图像中的姿态和表情变化，使得不同帧之间的人脸更加一致，有助于减少因头部姿态和表情变化引起的变形，从而提供更清晰、更可比较的人脸特征。

3、本发明提供的基于时空特征和注意力机制的微表情识别方法，通过时间归一化策略，不仅可以减少帧插值带来的伪影、误差，提高算法准确度，而且加快了预处理速度。

4、本发明提供的基于时空特征和注意力机制的微表情识别方法，通过构建基于层次化视觉自注意力和标记选择的骨干网络，其标记注意力模块，在每个阶段持续进行加权操作，显式要求网络对人脸不同区域给予不同程度的关注。

5、本发明提供的基于时空特征和注意力机制的微表情识别方法，标记选择模块能够提取对微表情识别具有重要贡献的标记，并突出这些标记的特征表示，从而提高分类任务的准确性和鲁棒性，从而改进了微表情识别方法的性能。

6、本发明提供的基于时空特征和注意力机制的微表情识别方法，进行基于对比特征学习和分类学习的联合训练，实现了底层特征的有效利用，从而提高了骨干网络的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于时空特征和注意力机制的微表情识别方法的一种流程示意图。

图2为空间归一化的一种流程示意图。

图3为时间归一化的一种流程示意图。

图4为网络骨干的一种结构示意图。

图5为标记注意力模块的一种结构示意图。

图6为一帧微表情图像的标记划分图。

图7为本发明提供的基于时空特征和注意力机制的微表情识别进行模型训练的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

结合图1，图1为本发明提供的基于时空特征和注意力机制的微表情识别方法的一种流程示意图，来说明本发明提供的基于时空特征和注意力机制的微表情识别方法的一种具体的实施例，包括：

S1：对微表情视频进行空间归一化处理，得到第一视频；

S2：对第一视频进行时间归一化处理，得到第二视频；

S3：构建基于层次化视觉自注意力和标记选择的骨干网络；

S4：将第二视频输入骨干网络，输出分类标记；

S5：采用分类器模块对分类标记进行分类识别。

在一些可选的实施例中，参照图2，图2为空间归一化的一种流程示意图，对微表情视频进行空间归一化处理，包括：

微表情视频包括M帧图像，对每帧图像进行人脸对齐后进行自然人脸裁剪得到微表情图像，将微表情图像调整为预设尺寸。

可以理解的是，微表情视频可以看作一个图像序列，人脸对齐采用非刚性变换人脸对齐，包括：

对微表情视频中的每一帧使用面部关键点检测算法定位面部关键点坐标。

选择首帧的Left Outer Eye、Right Outer Eye、Nose Tip对应的关键点坐标作为对齐参考点。

将选择的关键点与标准模板脸上的对应点进行匹配，并计算得到仿射变换矩阵。

利用计算得到的仿射变换矩阵，分别对每帧图像进行非刚性变换，这个变换将使得图像中的关键点(如眼睛和鼻子)与标准模板脸的对应点位置一致，从而实现人脸的对齐。

具体的，自然人脸裁剪，包括：

对微表情视频的第一帧人脸，使用面部关键点检测算法确定关键点坐标。关键点的集合可以表示为Landmarks＝[(x₀，y₀)，(x₁，y₁)，...，(x₆₇，y₆₇)]，其中，(x_i，y_i)表示第i个面部关键点的二维坐标。

通过两个坐标点确定一个矩形区域。根据x_l和y_t确定左上坐标，为了获取更多眉毛上方的区域，将y_t减去α，α＝(y₃₆-y₁₈)/2，即第36和第18个关键点距离的一半。因此获得的左上坐标A(x_l，y_t-α)。根据x_r和y_b确定右下坐标B(x_r，y_b)。其中，x_l＝min(x₀，x₁，...，x₆₇)，yt＝min(y₀，y₁，...，y₆₇)，x_r＝max(x₀，x₁，…，x₆₇)，y_b＝max(y₀，y₁，…，y₆₇)。

对整个微表情视频每帧图像，都通过坐标点A和B确定的矩形框进行剪裁。

具体的，尺度的选择与骨干网络结构和数据集中人脸分辨率相关，公开的微表情数据集中面部尺寸大小存在限制，通常最短边在230像素左右。本实施例中，将对齐、剪裁后的人脸缩放到224×224，即令H＝W＝224，满足骨干网络输入要求的同时，可以提供更多的细节信息。

在一些可选的实施中，参照图3，图3为时间归一化的一种流程示意图，对第一视频进行时间归一化处理，包括：

设定第一视频的归一化值为预设值；

第一视频包括M帧微表情图像，判断M是否等于预设值；

若M等于预设值，无需处理；

若M小于预设值，对第一视频进行3D线性插值上采样操作，使第二视频具有预设值帧的微表情图像；

若M大于预设值，将第一视频划分为S个语义段，S为预设值的Z倍，0＜Z≤1，从每个语义段取连续的Q帧微表情图像形成第二视频，Q×S等于预设值。

可以理解的是，参照图3，在本实施例中，预设值取16，当然，并不限于此，预设值的数值可根据实际需求进行调整，本实施例对此并不作具体的限制。将第一视频划分为S个连续的语义段，S的取值可以考虑16的1倍、1/2倍、1/4倍等，如16、8、4等，S的取值具体可以根据实际需求或是预设值的数值进行修改，本实施例对此并不做具体的限制。具体的，当骨干网络进行训练时，从每个语义段随机取连续的Q帧微表情图像形成第二视频；当骨干网络进行测试时，Q帧微表情图像包括对应语义段的中心位置对应的微表情图像。经过空间归一化和时间归一化的微表情视频具有统一的空间和时间特征，便于骨干网络对微表情进行特征提取和分析。

在一些可选的实施例中，参照图4和图5，图4为网络骨干的一种结构示意图，图5为标记注意力模块的一种结构示意图，构建基于层次化视觉自注意力和标记选择的骨干网络，包括：

所述时空块模块将第二视频划分为G个时空块。

第一阶段模块包括顺次连接的线性变换层、第一层次化视觉注意力模块、第二层次化视觉注意力模块和第一标记注意力模块，线性变换层与时空块连接；

第二阶段模块包括顺次连接的第一标记合并模块、第三层次化视觉注意力模块、第四层次化视觉注意力模块和第二标记注意力模块，第一标记合并模块与第一标记注意力模块连接；

第三阶段模块包括顺次连接的第二标记合并模块、第五层次化视觉注意力模块、第六层次化视觉注意力模块、第七层次化视觉注意力模块、第八层次化视觉注意力模块、第九层次化视觉注意力模块、第十层次化视觉注意力模块和第三标记注意力模块，第二标记合并模块与第二标记注意力模块连接；

第四阶段模块包括顺次连接的第三标记合并模块、第十一层次化视觉注意力模块、第十二层次化视觉注意力模块和第四标记注意力模块，第三标记合并模块与第三标记注意力模块连接，第四标记注意力模块与标记选择模块连接。

可以理解的是，第二视频的大小为T×H×W×3，其中，T为第二视频的微表情图像的帧数量，H为第二视频的高度维度，W为第二视频的宽度维度，3代表颜色通道数量(R、G、B)，以第二视频大小为16×224×224×3，设置时空块(3D patch)大小为2×4×4×3，则能够产生16/2×224/4×224/4＝25088个时空块。每个时空块展平后是维度为2×4×4×3＝96的向量。

标记是由时空块经过线性变换后得到，标记注意力模块对每个标记添加一个显式注意力权重，实现对标记的加权，参照图5，设T是输入标记，T_max表示T在通道维度上的最大值，T_avg表示T在通道维度上的平均值。FC表示全连接层的矩阵乘法，Sig表示sigmoid函数，标记的注意力权重T_atten，按照以下方式计算：

T_atten＝Sig(FC([T_max；T_avg]))；

其中，符号“；”表示在通道维度上的拼接操作。

最后，通过标记的注意力权重T_atten和输入标记进行元素级的乘法运算，得到输出标记T’：

T’＝T⊙T_atten

其中，符号“⊙”表示元素级的乘法运算。

具体的，骨干网络的输入是25088个时空块，每个时空块维度是2×4×4×3，一共通过四阶段不同尺度的建模，每一阶段具有不同的配置，如图4示。标记合并模块通过下采样帧，实现多尺度建模，四个阶段分别对应4×，8×，16×，32×的下采样。

最后，通过第四阶段模块输出的维度为392×768，表示输出392个标记，每个标记维度是768。

在一些可选的实施例中，继续参照图4、图5和图6，图6为一帧微表情图像的标记划分图，将第二视频输入骨干网络，输出多个分类标记，包括：

第二视频输入骨干网络，经过将时空块模块、第一阶段模块、第二阶段模块、第三阶段模块和第四阶段模块，输出多个标记；

标记选择模块根据多个标记得到所述分类标记，包括：

计算多个标记的平均值得到第一平均值；

对多个标记分别计算L2范数，将得到的多个L2范数由大到小排序，根据超参数提取前K个L2范数；

计算K个L2范数的平均值得到第二平均值；

将第一平均值和第二平均值在特征维度上进行拼接得到分类标记。

需要说明的是，通过标记选择模块，可以提取具有较大L2范数的标记，这些标记往往对应重要的特征信息，并进一步生成分类标记，这样做的目的是突出对微表情分类有益的特征，从而提高模型的精度和鲁棒性。

可以理解的是，将第四阶段模块输出的所有标记作为标记选择模块的输入，计算392个标记的均值，记作T_{all_avg}，T_{all_avg}包含了全局信息。对392个标记计算L2范数，每个标记的L2范数为||t_i||₂＝sqrt(∑(t_i[j])²)，并基于L2范数对标记进行排序。可令超参数K＝196，取L2范数较大的前196个标记。将选定的196个标记在特征维度计算均值，记作T_{selected_avg}。将T_{all_avg}和T_{selected_avg}在特征维度上进行拼接得到分类标记，其维度是768+768＝1536。

对一个微表情视频，骨干网络输出维度为1536的特征向量。

对于标记选择模块中超参数K的选择，可依据人脸中微表情高频动作区域所占的标记数量确定。骨干网络对标记进行四个阶段的分层下采样，实现在空间上进行32倍下采样，具体划分情况如图6所示。每帧中，眼部、眉毛、嘴巴等微表情发生部位大约占据23个标记。因为在时间上2倍下采样，输入的16帧被下采样到8帧，那么8帧中一共有184个标记对应微表情高频动作区域。为了增加算法的容错性，将超参数K的取值扩大为196，总标记数量的一半。这样做的目的是确保能够包含微表情高频动作区域所占据的所有标记，并提供额外的一些标记以应对可能的变化或误差。

在一些可选的实施例中，参照图7，图7为本发明提供的基于时空特征和注意力机制的微表情识别进行模型训练的示意图，预处理后的微表情视频通过基于层次化视觉自注意力和标记选择的骨干网络进行时空建模，进一步生成分类标记。分类标记一边用于对比特征学习，一边用于分类学习。

训练使用的损失函数为L＝L_focal(y，y′)+L_con，它们拥有平等的权重系数。其中，L_focal表示焦点损失，L_focal(y，y′)是预测标签和真实标签之间的焦点损失，L_con表示对比损失函数。验证采用leave-one-subject-out(LOSO)交叉验证方法，可以避免分类模块对人的依赖，准确地评估分类模块的泛化能力，提高模型的准确性和可靠性。LOSO交叉验证是一种特殊的交叉验证技术，其中，数据集中每个受试者(Subject)的所有面部表情样本都将作为测试集，而其他受试者的样本将组成训练集。

在评价指标上，因为当前微表情数据库存在严重样本类别不平衡问题，需要引入未加权的平均召回率(Unweighted Average Recall，UAR)，未加权F1-score(UnweightedF1-score，UF1)对算法性能进行综合评价。

其中，C是微表情类别数目，c≤C，N_c表示真实微表情类别为第c类的样本总数目，N表示所有样本的总数目。TP_c表示被正确分类的正例(True Positive，即真实标签与预测标签类别均为第c类的样本)，FP_c表示被错误分类的正例(False Positive，即真实标签类别为第c类，预测标签类别为其余类别的样本)，FN_c表示被错误分类的负例(False Negative，即真实标签类别为非第c类，预测表情为第c类)。

本发明在公开的微表情数据集上进行了三分类(惊讶、积极、消极)实验，能取得UF1为0.84，UAR为0.86的较佳结果。

综上，本发明提供一种基于时空特征和注意力机制的微表情识别方法，避免了对手工光流特征的依赖，实现了高效、简化的微表情识别，在微表情数据集上验证了本发明提供方法的有效性。

在一些可选的实施例中，分类器模块的分类损失函数，按照以下方式计算：

可以理解的是，分类学习的目标是将输入样本分为不同的预定义类别，通过学习一个分类器来实现分类。分类器模块由一个全连接层和一个Softmax层组成。全连接层的输入维度C_in由分类标记的维度决定，输出维度C_out由分类的数量确定。全连接层对输入特征进行线性映射和维度变换，而Softmax层将映射后的特征通过softmax函数转化为各个类别的概率分布，用于进行分类决策。

分类损失函数也是分类任务重要的组成部分，本发明使用焦点损失函数。相比交叉熵损失，它可以应对数据集中存在的类别不平衡问题，提高对少数类别样本的分类准确性，其中，当Y＝0，退化为交叉熵损失函数。

在一些可选的实施例中，分类器模块的对比损失函数，按照以下方式计算：

可以理解的是，对比特征学习的目标是通过最大化正样本对的相似度和最小化负样本对的相似度，来学习到更具判别性的特征表示，以提高分类任务的性能。在每个批次的训练数据中，需要选择正样本和负样本。正样本是同一类别内的不同样本，负样本是不同类别之间的样本。每个样本的特征使用步骤四输出的分类标记表示。通过计算正样本和负样本之间的特征相似度，可以定义对比学习的损失函数。

通过本发明提供的基于时空特征和注意力机制的微表情识别方法，通过使用纯粹的RGB帧序列进行微表情识别，摆脱了依赖光流等手工特征的限制；通过采用非刚性变换的人脸对齐方法，可以更好地校正人脸图像中的姿态和表情变化，使得不同帧之间的人脸更加一致，有助于减少因头部姿态和表情变化引起的变形，从而提供更清晰、更可比较的人脸特征；通过时间归一化策略，不仅可以减少帧插值带来的伪影、误差，提高算法准确度，而且加快了预处理速度；通过构建基于层次化视觉自注意力和标记选择的骨干网络，其标记注意力模块，在每个阶段持续进行加权操作，显式要求网络对人脸不同区域给予不同程度的关注；标记选择模块能够提取对微表情识别具有重要贡献的标记，并突出这些标记的特征表示，从而提高分类任务的准确性和鲁棒性，从而改进了微表情识别方法的性能；进行基于对比特征学习和分类学习的联合训练，实现了底层特征的有效利用，从而提高了骨干网络的性能。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于时空特征和注意力机制的微表情识别方法，其特征在于，包括：

对微表情视频进行空间归一化处理，得到第一视频；

对所述第一视频进行时间归一化处理，得到第二视频；

构建基于层次化视觉自注意力和标记选择的骨干网络；

将所述第二视频输入所述骨干网络，输出分类标记；

采用分类器模块对所述分类标记进行分类识别。

2.根据权利要求1所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述对微表情视频进行空间归一化处理，包括：

3.根据权利要求1所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述对所述第一视频进行时间归一化处理，包括：

设定所述第一视频的归一化值为预设值；

若M等于所述预设值，无需处理；

4.根据权利要求1所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述构建基于层次化视觉自注意力和标记选择的骨干网络，包括：

所述时空块模块将第二视频划分为G个时空块。

所述第一阶段模块包括顺次连接的线性变换层、第一层次化视觉注意力模块、第二层次化视觉注意力模块和第一标记注意力模块，所述线性变换层与所述时空块连接；

5.根据权利要求4所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述将所述第二视频输入所述骨干网络，输出分类标记，包括：

所述标记选择模块根据所述第四阶段模块输出的多个所述标记得到所述分类标记，包括：

计算多个所述标记的平均值得到第一平均值；

计算K个所述L2范数的平均值得到第二平均值；

6.根据权利要求1所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述分类器模块的分类损失函数，按照以下方式计算：

7.根据权利要求1所述的基于时空特征和注意力机制的微表情识别方法，其特征在于，所述分类器模块的对比损失函数，按照以下方式计算：