CN116030516A

CN116030516A - 基于多任务学习与全局循环卷积的微表情识别方法及装置

Info

Publication number: CN116030516A
Application number: CN202211618464.XA
Authority: CN
Inventors: 邵志文; 程依凡; 马利庄; 周勇; 祝汉城
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-28

Abstract

本发明公开了一种基于多任务学习与全局循环卷积的微表情识别方法及装置，先对训练数据集进行预处理，得到固定长度的扩增帧序列，计算相邻帧间光流得到光流序列，标注人脸五官的五点特征点坐标；再构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数；再构建全局循环卷积模块II提取全局特征；再构建包括光流估计、人脸特征点回归与三维卷积神经网络微表情分类预测在内的多任务学习模块III，进行预测。本发明采用端到端的深度学习框架联合学习人脸微表情识别、光流估计和特征点回归，利用任务间的关联性促进微表情识别，能够有效识别人脸微表情在三维时空中的运动变化情况，实现人脸微表情识别系统构建。

Description

基于多任务学习与全局循环卷积的微表情识别方法及装置

技术领域

本发明涉及一种基于多任务学习与全局循环卷积的微表情识别方法及装置，属于计算机视觉技术。

背景技术

微表情是一种特殊的面部表情，与普通的表情相比，微表情主要有持续时间短(通常只有1/25s～1/3s)、动作强度低、难以察觉、在无意识状态下产生、难以掩饰或伪装的特点，对微表情的分析通常需要在视频中进行，而普通表情在图像中就可以分析。由于微表情在无意识状态下自发产生、难以掩饰或伪装、通常与真实情感直接相关，所以微表情在情感分析中较为可靠，应用前景广阔；另一方面，由于人为识别微表情比较困难，训练难度大且成功率不高，因此需要计算机进行微表情自动识别。

目前微表情识别的工作难点主要有两方面：第一，微表情的持续时间短、动作强度低、特征难以提取，因此需要进行合适的数据预处理与特征提取；第二，由于微表情的数据采集与鉴定存在困难，现有的微表情数据集较少，这使得深度学习在微表情识别中的应用存在困难。

现有的微表情识别方法通常基于传统机器学习，设计一种手工特征(HandcraftedFeature)来提取微表情片段中的特征，依照数据预处理——特征提取——特征分类的框架进行微表情分类。随着近年来深度学习在计算机视觉中的发展，使用深度学习方法进行微表情识别的尝试也逐渐增多。然而，现有的基于深度学习的微表情识别方法通常因为微表情动作微小且持续时间短，其识别准确率还不高，有进一步提升的空间，此外，由于微表情数据集较少，现有的微表情识别方法的模型泛化能力也有待提升。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于多任务学习与全局循环卷积的微表情识别方法及装置，通过全局循环卷积以有效提取微表情视频数据的全局特征，采用多任务学习方法同时训练人脸微表情的光流估计任务、人脸五点特征点回归任务与微表情分类预测任务，以提升模型的鲁棒性与泛化能力。

技术方案：针对现有微表情识别工作中存在的难点以及现有技术中的不足，本发明采用多任务学习与全局循环卷积的思路来解决。首先，由于微表情的持续时间短、动作强度低、特征难以提取，本发明在微表情分类预测任务的基础上，加入了光流估计任务，因为光流表达了图像的变化，包含了目标运动的信息，故加入光流估计任务可以在时间域上增强对人脸面部动作变化的捕获，从而促进微表情识别。其次，本发明在微表情分类预测任务与光流估计任务的基础上，继续加入了人脸五点特征点回归任务，因为微表情发生时所动用的面部肌肉主要分布在眼睛、鼻子以及嘴角附近，故加入人脸五点特征点回归任务可以在空间域上增强对人脸面部动作变化的捕获，从而促进微表情识别。同时，由于多任务学习中各个任务对输入的需求各不相同，如光流估计任务需要以整个微表情视频对应的时空信息做为输入，而人脸五点特征点回归任务需要分别以微表情视频中各帧对应的空间信息做为输入，因而本发明首先采用全局循环卷积提取每一条微表情视频数据的全局特征，然后将全局特征分别以满足各任务输入需求的形式输入各个任务；本发明提取全局特征而非局部特征，是因为全局特征具有良好的不变性，能够更好地保留原数据的时空信息，有利于提升多任务学习效果。此外，针对微表情数据集较少的问题，本发明联合采用多个微表情数据集组建训练数据集，并对每条数据进行随机平移、随机旋转、随机缩放、随机水平翻转、随机裁剪等图像增强操作，可以扩充训练数据集的大小，以提升模型的泛化能力。本发明的具体方案如下。

一种基于多任务学习与全局循环卷积的微表情识别方法，包括如下步骤：

S01：从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集，原始视频数据包括微表情视频及其对应的微表情分类标签；

S02：对训练数据集进行预处理，得到固定长度的扩增帧序列，采用光流法计算相邻帧间光流，标注人脸五官的五点特征点坐标；其中人脸五官的五点特征点指左眼中心、右眼中心、鼻子、左嘴角、右嘴角；

S03：构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数；

S04：构建全局循环卷积模块II进行全局特征提取；

S05：利用步骤S04得到的全局特征、步骤S01中的微表情分类标签、步骤S02得到的相邻帧间光流和五点特征点坐标，构建多任务学习模块III，进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测，实现微表情识别；

S06：使用训练数据集对主要由卷积神经网络模块I、全局循环卷积模块II和多任务学习模块III构成的网络模型进行训练，以基于梯度的优化方法对各个模块的参数进行更新；

S07：将给定的视频输入到训练好的网络模型，预测微表情分类结果。

具体的，所述步骤S02中，对训练数据集进行预处理，得到固定长度的扩增帧序列，具体为：对于任意长度的微表情视频数据(通常为50-100帧)，从第一帧开始，到最后一帧结束，等间隔地取24帧，并将取出的每帧图片进行灰度化处理，通过最近邻插值法将每帧图片的尺寸缩小至128×128，得到长度为24帧的扩增帧序列。

具体的，所述步骤S02中，采用光流法计算相邻帧间光流，所述光流法为TV-L1光流算法，TV-L1光流算法是一种基于全变分的两帧估量算法，采用两帧图像来估计物体的光流矢量。

具体的，所述步骤S03中，构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数，所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层，卷积神经网络模块I的输入作为第一个二维卷积层的输入，最后一个二维卷积层的输出作为卷积神经网络模块I的输出；将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入，每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列；所述卷积神经网络模块I包括二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV，在二维卷积层I-I内，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-I的输出；将二维卷积层I-I的输出作为二维卷积层I-II的输入，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-II的输出；将二维卷积层I-II的输出作为二维卷积层I-III的输入，对输入整体进行零填充并进行一次卷积，将卷积结果作为二维卷积层I-III的输出；将二维卷积层I-III的输出作为二维卷积层I-IV的输入，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-IV的输出。

具体的，所述步骤S04中，构建全局循环卷积模块II进行全局特征提取，所述全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II，全局循环卷积模块II的输入作为位置嵌入模块II-I的输入，位置嵌入模块II-I的输出作为循环卷积模块II-II的输入，循环卷积模块II-II的输出作为全局循环卷积模块II的输出；将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入，每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列；所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II，在水平位置嵌入模块II-I-I内，将输入按照水平方向拆分成为行向量，并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量，将该位置行向量与原行向量相加，得到位置嵌入行向量，将所有的位置嵌入行向量按照水平方向依次合并，得到水平位置嵌入图；在竖直位置嵌入模块II-I-II内，将输入按照竖直方向拆分成为列向量，并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量，将该位置列向量与原列向量相加，得到位置嵌入列向量，将所有的位置嵌入列向量按照竖直方向依次合并，得到竖直位置嵌入图；水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出；所述循环卷积模块II-II包括水平卷积模块II-II-I和竖直卷积模块II-II-II，在水平卷积模块II-II-I内，先将输入的水平位置嵌入图复制一份，并与原水平位置嵌入图按照水平方向拼接，对于拼接的结果采用尺寸为1×W的非对称卷积核进行卷积，得到水平卷积特征图，其中W为水平位置嵌入图的宽度；在竖直卷积模块II-II-II内，先将输入的竖直位置嵌入图复制一份，并与原竖直位置嵌入图按照竖直方向拼接，对于拼接的结果采用尺寸为H×1的非对称卷积核进行卷积，得到竖直卷积特征图，其中H为竖直位置嵌入图的高度；将水平卷积特征图与竖直卷积特征图进行加和，结果作为循环卷积模块II-II的输出。

具体的，所述步骤S05中，构建多任务学习模块III，进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测；其中，多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III，多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入，光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出；将步骤S04得到全局特征图序列作为多任务学习模块III的输入，光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出。

在光流估计模块III-I的有监督学习过程中提取包含动态时序信息的光流特征，采用RAFT(Recurrent All-Pairs Field Transforms)作为光流估计模块III-I的主干网络，并按照如下损失函数进行光流估计：

其中：E_of表示光流估计的均方差损失函数；y表示基准图像与目标图像之间的真值光流矢量，即通过步骤S02计算得到的相邻帧间光流；

表示基准图像与目标图像之间的预测光流矢量，即通过光流估计模块III-I提取到的相邻帧间光流估计结果。

在人脸特征点回归模块III-II中输入的为人脸图像的形状特征，将输入特征展平，并通过连续的两个全连接层，获得输出结果，输出为预测的特征点位置

并按照如下损失函数进行特征点回归预测：

其中：E_ldm表示特征点回归预测的损失函数；

和

分别表示第i个特征点的x坐标和y坐标，i＝1,2,…,n，n＝5为人脸图像上的五点特征点(特征点数量)；||·||₂表示L2范数；d₀表示真实的双眼瞳孔之间的距离；q表示真实的特征点坐标，即步骤S02中标注的人脸五官的五点特征点坐标；

表示特征点回归预测坐标，即通过人脸特征点回归模块III-II提取到的人脸五官的五点特征点回归预测结果。

在三维卷积神经网络微表情分类预测模块III-III的有监督学习过程中提取包含时空信息的人脸特征向量，并按照如下损失函数进行微表情预测：

其中：E_mer表示微表情分类预测的交叉熵损失函数；y⁽ⁱ⁾表示微表情分类的真值，即通过步骤S01获取到的微表情分类标签；

表示微表情分类预测值，即通过三维卷积神经网络微表情分类预测模块III-III提取到的微表情分类预测结果，N表示微表情总类别数。

具体的，所述步骤S06中，使用训练数据集对网络模型进行训练，以基于梯度的优化方法对各个模块的参数进行更新，按照如下损失函数对网络模型进行更新：

E_mt＝E_mer+λ₁E_of+λ₂E_ldm (4)

其中：E_mt表示多任务损失函数，λ₁和λ₂为常数。

一种基于上述多任务学习与全局循环卷积的微表情识别方法的装置，包括图像获取单元、输入适应单元、特征提取单元、多任务输出单元；

所述图像获取单元，用于从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集，并对原始视频数据进行预处理，得到固定长度的扩增帧序列，采用光流法计算相邻帧间光流，标注人脸五官的五点特征点坐标；

所述输入适应单元，包括卷积神经网络模块I，调整扩增帧序列的帧尺寸及通道数；

所述特征提取单元，包括全局循环卷积模块II，对输出帧序列进行全局特征提取；

所述多任务输出单元，包括多任务学习模块III，对特征提取单元的结果进行多任务学习，输出得到最终的帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测结果。

有益效果：本发明提供的基于多任务学习与全局循环卷积的微表情识别方法及装置，相对于现有技术，具有如下优势：1、采用端到端的深度学习框架联合学习人脸微表情识别、光流估计和特征点回归，利用任务间的关联性促进微表情识别，能够有效识别人脸微表情在三维时空中的运动变化情况，实现人脸微表情识别系统构建；2、通过全局循环卷积，能够有效提取微表情视频数据的全局特征3、采用多任务学习方法同时训练人脸微表情的光流估计任务、人脸五点特征点回归任务与微表情分类预测任务，能够有效完成微表情识别任务，并且提升了模型的鲁棒性与泛化能力。

附图说明

图1为本发明方法的实施流程示意图；

图2为卷积神经网络模块I的结构示意图；

图3为全局循环卷积模块II的结构示意图；

图4为多任务学习模块III的结构示意图；

图5为微表情分类预测模块III-III的结构示意图；

图6为整个微表情识别系统的流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

如图1所示为一种基于多任务学习与全局循环卷积的微表情识别方法的流程示意图，该方法包括如下步骤：

S01：从公开的人脸微表情数据集中抽取原始视频数据组成训练数据集，原始视频数据包括微表情视频及其对应的微表情分类标签。

为了使模型拥有较好的泛化能力，原始视频数据从多个公开的人脸微表情数据集中均匀地抽取数据，公开的人脸微表情数据集包括SMIC数据集、CASME II数据集以及SAMM数据集。

S02：对训练数据集进行预处理，得到固定长度的扩增帧序列，采用光流法计算相邻帧间光流，标注人脸五官的五点特征点坐标；其中人脸五官的五点特征点指左眼中心、右眼中心、鼻子、左嘴角、右嘴角。

对训练数据集进行预处理，得到固定长度的扩增帧序列，具体为：对于任意长度的微表情视频数据(通常为50-100帧)，从第一帧开始，到最后一帧结束，等间隔地取24帧，并将取出的每帧图片进行灰度化处理，通过最近邻插值法将每帧图片的尺寸缩小至128×128，得到长度为24帧的扩增帧序列。所述光流法为TV-L1光流算法，TV-L1光流算法是一种基于全变分的两帧估量算法，采用两帧图像来估计物体的光流矢量。

S03：构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数。

如图2所示，构建卷积神经网络模块I，调整帧序列的帧尺寸及通道数。所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层，卷积神经网络模块I的输入作为第一个二维卷积层的输入，最后一个二维卷积层的输出作为卷积神经网络模块I的输出；将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入，每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列。

所述卷积神经网络模块I包括二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV，在二维卷积层I-I内，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-I的输出；将二维卷积层I-I的输出作为二维卷积层I-II的输入，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-II的输出；将二维卷积层I-II的输出作为二维卷积层I-III的输入，对输入整体进行零填充并进行一次卷积，将卷积结果作为二维卷积层I-III的输出；将二维卷积层I-III的输出作为二维卷积层I-IV的输入，对输入整体进行一次卷积，将卷积结果作为二维卷积层I-IV的输出。

本例中，二维卷积层I-I、二维卷积层I-II、二维卷积层I-III、二维卷积层I-IV的输出通道数分别为8、32、64、128，滤波器大小分别为4×4、3×3、2×2、1×1，步长分别为2×2、2×2、2×2、1×1。

S04：构建全局循环卷积模块II进行全局特征提取。

如图3所示，全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II。全局循环卷积模块II的输入作为位置嵌入模块II-I的输入，位置嵌入模块II-I的输出作为循环卷积模块II-II的输入，循环卷积模块II-II的输出作为全局循环卷积模块II的输出；将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入，每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列。

所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II，在水平位置嵌入模块II-I-I内，将输入按照水平方向拆分成为行向量，并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量，将该位置行向量与原行向量相加，得到位置嵌入行向量，将所有的位置嵌入行向量按照水平方向依次合并，得到水平位置嵌入图；在竖直位置嵌入模块II-I-II内，将输入按照竖直方向拆分成为列向量，并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量，将该位置列向量与原列向量相加，得到位置嵌入列向量，将所有的位置嵌入列向量按照竖直方向依次合并，得到竖直位置嵌入图；水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出。

所述循环卷积模块II-II包括水平卷积模块II-II-I和竖直卷积模块II-II-II，在水平卷积模块II-II-I内，先将输入的水平位置嵌入图复制一份，并与原水平位置嵌入图按照水平方向拼接，对于拼接的结果采用尺寸为1×W的非对称卷积核进行卷积，得到水平卷积特征图，其中W为水平位置嵌入图的宽度；在竖直卷积模块II-II-II内，先将输入的竖直位置嵌入图复制一份，并与原竖直位置嵌入图按照竖直方向拼接，对于拼接的结果采用尺寸为H×1的非对称卷积核进行卷积，得到竖直卷积特征图，其中H为竖直位置嵌入图的高度；将水平卷积特征图与竖直卷积特征图进行加和，结果作为循环卷积模块II-II的输出。

本例中，步骤S03得到的输出帧序列中每一帧的图像尺寸均为16×16，对应水平位置嵌入图与竖直位置嵌入图的尺寸也为16×16，故H和W的值均为16。

S05：利用步骤S04得到的全局特征、步骤S01中的微表情分类标签、步骤S02得到的相邻帧间光流和五点特征点坐标，构建多任务学习模块III，进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测，实现微表情识别。

如图4所示构建多任务学习模块III，进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测；其中，多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III，多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入，光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出；将步骤S04得到全局特征图序列作为多任务学习模块III的输入，光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出。

并按照如下损失函数进行特征点回归预测：

其中：E_ldm表示特征点回归预测的损失函数；

和

如图5所示，在三维卷积神经网络微表情分类预测模块III-III的有监督学习过程中提取包含时空信息的人脸特征向量，并按照如下损失函数进行微表情预测：

S06：使用训练数据集对主要由卷积神经网络模块I、全局循环卷积模块II和多任务学习模块III构成的网络模型进行训练，以基于梯度的优化方法对各个模块的参数进行更新。

通过端到端的方法训练整个网络模型(如图6所示)，每次训练均包括光流估计、特征点回归预测和微表情分类预测三个任务，在多任务学习的框架中利用三个任务之间的关联性促进微表情识别。使用训练数据集对网络模型进行训练，以基于梯度的优化方法对各个模块的参数进行更新，按照如下损失函数对网络模型进行更新：

E_mt＝E_mer+λ₁E_of+λ₂E_ldm (4)

其中：E_mt表示多任务损失函数，λ₁和λ₂为常数，本例中，取λ₁＝10，λ₂＝5。

进行预测时只需要输入待测微表情视频，即可输出帧间光流估计、人脸五官五点特征点回归预测与微表情分类预测结果。

如图6所示，为一种基于上述多任务学习与全局循环卷积的微表情识别方法的装置，包括图像获取单元、输入适应单元、特征提取单元、多任务输出单元；

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：包括如下步骤：

S02：对训练数据集进行预处理，得到固定长度的扩增帧序列，采用光流法计算相邻帧间光流，标注人脸五官的五点特征点坐标；其中人脸五官的五点特征点指左眼中心、右眼中心、鼻尖、左嘴角、右嘴角；

S04：构建全局循环卷积模块II进行全局特征提取；

2.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：所述步骤S02中，对训练数据集进行预处理，得到固定长度的扩增帧序列，具体为：对于任意长度的微表情视频数据，从第一帧开始，到最后一帧结束，等间隔地取24帧，并将取出的每帧图片进行灰度化处理，通过最近邻插值法将每帧图片的尺寸缩小至128×128，得到长度为24帧的扩增帧序列。

3.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：所述步骤S02中，采用光流法计算相邻帧间光流，所述光流法为TV-L1光流算法，TV-L1光流算法是一种基于全变分的两帧估量算法，采用两帧图像来估计物体的光流矢量。

4.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：所述步骤S03中，构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数，所述卷积神经网络模块I包括四个串联的、通道数依次递增的二维卷积层，卷积神经网络模块I的输入作为第一个二维卷积层的输入，最后一个二维卷积层的输出作为卷积神经网络模块I的输出；将步骤S02得到的扩增帧序列中的每一帧依次作为卷积神经网络模块I的输入，每一帧对应的卷积神经网络模块I的输出组成的序列即为调整帧尺寸及通道数后的输出帧序列；

5.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：所述步骤S04中，构建全局循环卷积模块II进行全局特征提取，所述全局循环卷积模块II包括位置嵌入模块II-I、循环卷积模块II-II，全局循环卷积模块II的输入作为位置嵌入模块II-I的输入，位置嵌入模块II-I的输出作为循环卷积模块II-II的输入，循环卷积模块II-II的输出作为全局循环卷积模块II的输出；将步骤S03得到的输出帧序列中的每一帧依次作为全局循环卷积模块II的输入，每一帧对应的全局循环网络模块II的输出组成的序列即为输出帧序列的全局特征图序列；

所述位置嵌入模块II-I包括水平位置嵌入模块II-I-I和竖直位置嵌入模块II-I-II，在水平位置嵌入模块II-I-I内，将输入按照水平方向拆分成为行向量，并为每个行向量生成一个与其尺寸相同的表征该行向量位置信息的位置行向量，将该位置行向量与原行向量相加，得到位置嵌入行向量，将所有的位置嵌入行向量按照水平方向依次合并，得到水平位置嵌入图；在竖直位置嵌入模块II-I-II内，将输入按照竖直方向拆分成为列向量，并为每个列向量生成一个与其尺寸相同的表征该列向量位置信息的位置列向量，将该位置列向量与原列向量相加，得到位置嵌入列向量，将所有的位置嵌入列向量按照竖直方向依次合并，得到竖直位置嵌入图；水平位置嵌入图和竖直位置嵌入图作为位置嵌入模块II-I的输出；

6.根据权利要求1所述的基于多任务学习与全局循环卷积的微表情识别方法，其特征在于：所述步骤S05中，构建多任务学习模块III，进行相邻帧间光流估计、人脸五官的五点特征点回归预测与微表情分类预测；其中，多任务学习模块III包括光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III，多任务学习模块III的输入同时作为光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输入，光流估计模块III-I、人脸特征点回归模块III-II和三维卷积神经网络微表情分类预测模块III-III的输出共同构成多任务学习模块III的输出；将步骤S04得到全局特征图序列作为多任务学习模块III的输入，光流估计模块III-I输出的相邻帧间光流估计结果、人脸特征点回归模块III-II输出的人脸五官的五点特征点回归预测结果与三维卷积神经网络微表情分类预测模块III-III输出的微表情分类预测结果共同构成为多任务学习模块III的输出；

在光流估计模块III-I的有监督学习过程中提取包含动态时序信息的光流特征，并按照如下损失函数进行光流估计：