CN113496217B

CN113496217B - 视频图像序列中人脸微表情识别方法

Info

Publication number: CN113496217B
Application number: CN202110773121.XA
Authority: CN
Inventors: 于洋; 孔艳蕾; 郭迎春; 师硕; 郝小可; 朱叶; 于明; 阎刚; 刘依; 吕华
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2022-06-21
Anticipated expiration: 2041-07-08
Also published as: CN113496217A

Abstract

本发明为视频图像序列中人脸微表情识别方法，该识别方法包括以下内容：在微表情视频图像序列预处理之后，根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征，通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A，以分块为节点、以邻接矩阵为边，构建自注意力图卷积网络，最后利用自注意力图卷积网络完成微表情的分类识别。本方法克服了现有微表情识别方法对光照噪声的鲁棒性差，特征信息提取的不充分，对微表情实际发生机理研究不深入而导致的微表情识别率低的缺陷。

Description

视频图像序列中人脸微表情识别方法

技术领域

本发明涉及用于识别图形的记录载体的处理技术领域，具体地说是视频图像序列中人脸微表情识别方法。

背景技术

人脸微表情识别属于情感识别的一类，是一种能够映射人类真实情感以及内在心理活动的非自发面部表情，持续时间仅为1/25秒至1/3秒，表达人试图隐藏和压抑的情感。微表情的情绪分类包括开心、悲伤、恐惧、惊讶、愤怒或厌恶等。微表情在情感分析、测谎、抑郁症辅助诊断等领域具有广泛应用，是计算机视觉领域研究的热点问题。

微表情识别方法分为三步：面部裁剪和预处理、特征提取和表情分类。第一步，通过去除背景噪声提取感兴趣的人脸区域。第二步，从预处理后的图像中提取特征。第三步，利用分类器进行分类。特征在任何分类系统中都具有重要作用，即使在最好的分类器下，不合格的特征同样会降低系统分类的性能，因此微表情识别的研究主要集中于如何构建具有判别性的特征。目前微表情识别研究主要集中于基于手工特征和深度特征。手工特征包括纹理和形状，纹理特征例如时空局部二值模式(以下简称LBP-TOP)方法及其变体等，应用于整个面部或特定的面部区域获得丰富的面部纹理信息以提取面部的外观变化，这些方法的缺点是受光照因素影响较大，只能提取微表情变化的浅层纹理信息。形状特征如主方向平均光流法(以下简称MDMO)等，可以获得丰富的像素运动信息，但是无法获得深层的语义信息。近年来，基于深度学习的方法，如卷积神经网络，已经用于微表情的识别问题。CNN和LSTM提取微表情的深度时空特征，可以获得微表情的深层语义信息且受光照等噪声影响较少，但是深度学习方法的研究仍然集中于特征的构建，忽略了面部表情的实际发生机理。CN105930878A公布了一种基于差分切片能量和稀疏编码的微表情识别方法，可以获得较详细的微表情运动特征，但是手工编码会带来计算复杂度和繁琐的过程。CN110348271A公开了一种基于长短时记忆网络提取微表情序列的特征，但提取到的特征具有单一性，都只考虑与微表情相关的一种特征，特征的判别性不足，特征提取不充分，丢失了一些重要的识别和分类信息。CN09034143A公开了基于视频放大和深度学习的微表情识别方法，放大了微表情的运动幅度但会引入噪声，影响微表情细微的运动变化。现有的微表情识别方法存在对光照鲁棒性差，局部信息提取的不充分，特征提取计算复杂，对微表情的实际发生机理不明确进而导致微表情的识别率低的缺陷。

发明内容：

本发明所要解决的技术问题是：提供视频图像序列中人脸微表情识别方法，是在微表情视频图像序列预处理之后，构建微表情的浅层运动信息和深层形状信息融合特征，结合AU建立图结构邻接矩阵，最后利用自注意力图卷积网络完成微表情的分类识别。本方法克服了现有微表情识别方法对光照噪声的鲁棒性差，特征信息提取的不充分，对微表情实际发生机理研究不深入而导致的微表情识别率低的缺陷。

本发明解决该技术问题所采用的技术方案是：

一种视频图像序列中人脸微表情识别方法，该识别方法包括以下内容：在微表情视频图像序列预处理之后，根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征，通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A，以分块为节点、以邻接矩阵为边，构建自注意力图卷积网络，最后利用自注意力图卷积网络完成微表情的分类识别。

所述融合特征的获得过程是：

基于预处理后的微表情视频图像序列的光流信息，获得光流信息序列，对光流信息序列的每一帧进行图像分块，每个分块采用光流信息统计直方图来表征时域动作信息，根据角度值将光流信息ρ_i,j投影到对应分块的直方图区域中，最后经归一化获得浅层运动信息；

基于预处理后的微表情视频图像序列通过时域插值模型获得深度神经网络模型所需输入的深度微表情视频图像序列，该深度微表情视频图像序列的帧数与上述光流信息序列的帧数相同，对深度微表情视频图像序列的每一帧进行图像分块，通过深度神经网络模型获得深度微表情视频图像序列中所有图像分块的深层形状信息；两处分块的划分规则相同；

将浅层运动信息与深层形状信息进行级联获得融合特征。

所述自注意力图卷积网络的邻接矩阵A为特征增强邻接矩阵A_e、根据AU关系构建的邻接矩阵A_AU、光流共现邻接矩阵A_flow三者的加和。

具体地，本发明视频图像序列中人脸微表情识别方法，是一种在微表情视频序列预处理基础上，结合融合特征和自注意力图卷积网络的微表情识别方法，具体步骤如下：

第一步，微表情视频图像序列预处理：

通过开源包dlib对微表情视频图像序列数据集完成人脸定位，裁剪出人脸区域，并通过时域插值模型(Temporal Interpolation Model，TIM)对数据集中每组微表情视频图像序列进行帧插值处理，使得微表情视频序列的帧长一致，获得预处理后的微表情视频图像序列集合，简称数据集。预处理后数据集中每组微表情视频图像序列长度为21帧、每帧图像大小为M×N；该数据集中已经标定了出现的AU单元。

第二步，构建微表情的浅层运动信息和深层形状信息融合特征：

根据上述第一步得到的微表情视频图像序列集合，根据微表情的实际发生机理对集合中每个序列的每帧图像进行6×5的规则分块，提取每帧图像各分块的浅层运动信息和深层形状信息，构建微表情分块的融合特征：

本申请提出的分块方法是根据面部的实际情况和微表情发生时面部肌肉运动情况而考虑，例如纵向分为6个分块可以将面部区域的眉毛、眼睛、鼻子、脸颊、下巴等区域分开，横向划分为5个分块是考虑人脸的对称性。当微表情发生时，面部只有小区域肌肉发生运动(例如：眉毛上挑，嘴角有弧度)。这样的分块方法考虑了微表情的实际发生机理。分块的数量决定图结构的构造，具体分块数量根据微表情的发生机理设置。

第2.1步，计算浅层运动信息：

浅层运动信息的提取利用光流计算结合图像分块获得，计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρ_i，θ_i)，21帧的微表情视频图像序列获得20帧的光流信息序列，将光流信息序列每帧进行6×5的规则分块，每个分块采用光流信息统计直方图来表征时域动作信息，根据角度值将其投影到对应分块的直方图区域中，如公式(1)所示：

公式(1)中，

表示微表情光流信息序列中第i帧光流图的第j个分块中第b个区域的光流幅值累计值，

为初始值，初始化为0，θ_i,j和ρ_i,j为第i帧光流图的第j个分块中每个像素点光流信息的极坐标，共将光流方向分为B个区域；最后，将光流信息统计直方图进行归一化

如公式(2)所示：

本公式的作用是对第i帧各分块的光流信息统计直方图进行归一化。Max{}函数是选择第i帧光流图的第j分块中区域的最大值，然后

除以这个最大值，从而达到归一化的作用。

由此获得微表情图像序列第i帧光流图中第j个分块浅层运动信息S^i,j，即：

第2.2步，计算深层形状信息：

数据集通过时域插值模型获得20帧的深度微表情视频图像序列，和光流处理帧数保持一致，利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息，深度神经网络模型采用改进的ResNet18网络模型，通过训练获得深度微表情视频图像序列的深层形状信息，改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作以获得深度微表情视频图像序列的深层形状信息。考虑微表情样本较少的限制，本文采用的ResNet18属于浅层网络，门控机制主要用来过滤与微表情识别无关的冗余信息，公式如(4)所示：

公式(4)中，Pⁱ表示第i帧深度微表情图像前一层的输入特征，Conv_1和Conv_2表示卷积核为3×3的卷积操作，Sigmoid函数是用来生成门的激活函数，符号

表示元素级点乘，最终的输出用Gⁱ来表示，

将门控机制的输出Gⁱ作为卷积计算的输入，卷积计算包括三个卷积块，每个卷积块由一个卷积层、一个批标准化(Batch Normalization，BN)层组成，卷积层均使用3×3的卷积核，使用BN层加快模型的训练速度，经过卷积计算后输出特征为

在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息，有效注意力模块包含一个通道注意力和一个空间注意力，如公式(5)-(6)所示，通道注意力在ECA注意力基础上增加了最大池化，同时学习全局和局部信息：

其中，公式(5)中

作为输入，AGP()和MAP()表示平均池化和最大池化操作,

表示元素级相加，符号

表示元素级点乘，经过transpose和squeeze(简称ts)操作后特征转化为(1，C)，Conv₁表示卷积核为1的一维卷积操作，经过Sigmoid激活函数和expand()操作与输入Fⁱ相乘得到有效通道注意后的特征

公式(6)中Mean()和Max()表示按通道维度计算平均值和最大值，Conv₂表示7×7的卷积操作，σ为Softmax激活函数，

表示经过空间注意力后的特征，

经过一系列门控机制、卷积计算、有效注意力、池化操作，获得第i帧深度微表情视频图像序列中的深层形状信息

经过变形、归一化后获得最终的深层形状信息Dⁱ，

公式(7)中，shape()函数将矩阵转化为二维矩阵，normalize为按照最大值进行的归一化操作，

为深度神经网络模型的输出，再对输出特征改变形状以区分各分块的深层形状特征，获得最终深层形状信息Dⁱ；

第i帧第j分块的深层形状信息为：

其中，M表示第i帧图像的深层形状信息维数；

第2.3步，构建融合特征：

将浅层运动信息与深层形状信息进行级联构建融合特征，作为后续自注意力图卷积网络的输入特征，融合特征兼顾视频序列中可以描述微表情的浅层运动信息和深层形状信息，如公式(9)所示：

公式(9)中，S^i,j代表第i帧第j个分块的浅层运动信息，D^i,j代表深度神经网络模型输出的第i帧第j分块深层形状信息，

表示第i帧第j分块的融合特征，由此获得自注意力图卷积网络的输入特征F_G如公式(10)：

第三步，结合AU建立自注意力图卷积网络邻接矩阵：

通过光流的共现关系和AU的发生机制构建邻接矩阵，相邻两帧的节点相连接表示自注意力图卷积网络的时间结构，自注意力图卷积网络指本申请的第四步，包括第三步的邻接矩阵的构建。图卷积的空间卷积过程是根据邻接矩阵获得的(空间卷积过程如步骤4.3步)

具体步骤如下：

第3.1步，根据分块运动计算光流共现邻接矩阵：

对光流信息序列的各分块的光流进行累计，计算各分块累计光流的累计值，如公式(11)所示：

公式(11)中，w、h分别为各分块的宽度和高度，ρ(x,y)表示位置(x,y)像素点的光流大小，进而获得所有分块累计光流的平均值；

计算光流信息序列的任意两分块间的共现次数N_m∩n，当某块的光流累计值大于平均值时，则认为此块运动幅度剧烈，即此块出现，同一张光流图中同时出现的块具有共现关系，如公式(12)所示：

公式(12)中，以N_m∩n表示第m，n块共现的次数，N_n表示第n块出现的次数，通过条件概率P(U_m|U_n)来建模共现，U_m表示第m个分块出现的几率，U_n表示第n个分块出现的几率，为了尽量降低由噪声产生的影响，对面部共现的概率设置一个面部出现阈值τ，面部出现阈值的选择首先是考虑微表情面部运动的幅度确定一个范围，然后经过实验选择一个效果最好的值，最终确定CASMEII数据集的面部出现阈值为τ＝0.025，CASMEI和SAMM数据集的面部出现阈值τ＝0.02。

如公式(13)所示：

由此获得光流共现邻接矩阵

第3.2步，根据AU关系构建邻接矩阵：

将面部划分为若干既相互独立又相互联系的AU，面部运动编码系统(FacialAction Coding System，FACS)表明不同的AU组合和不同的表情之间有对应关系，它是面部表情肌肉运动的权威标准，根据这一先验知识，将面部等分为上中下三个区域(分别用up、mid、down表示)，根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系，具体来说，数据集标定的AU单元出现的分块之间会发生邻接关系，发生邻接关系的相应位置赋值为1，其他位置为0，获得三个子邻接矩阵

根据公式(14)构建AU关系邻接矩阵

第3.3步，构建特征增强邻接矩阵：

在等分为三部分的面部区域后，选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵(根据公式(15)构建，即主对角线部分为1，其他位置为0的矩阵。)，通过原始的输入特征辅助微表情识别分类，如公式(15)-(16)所示：

由此构建出特征增强邻接矩阵

自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵A_e、根据AU关系构建的邻接矩阵A_AU、光流共现邻接矩阵A_flow三者的加和，由此完成自注意力图卷积网络邻接矩阵的构建A∈

A＝A_flow+AA_u+A_e (17)，

第四步，构建自注意力图卷积网络：

分块之间得到邻接关系转化为边，分块是自注意力图卷积网络的节点，邻接矩阵即为边，输入到网络，构建自注意力图卷积网络发现不同面部分块之间的联系，

所述自注意力图卷积网络包含四个相同的自选择时空图卷积块，融合特征F_G为节点特征，

自选择的含义为网络根据反向传播自动学习有利于分类的空间信息、时间信息。即动态选择时间信息(第4.5步)和网络自选择具有鉴别性的信息(第4.1，4.2步，4.4步)，具体如下：

第4.1步，学习节点注意力：

节点注意力通过卷积层实现，学习上述第2.3步输入特征的节点内部关系，减小特征的复杂度，如公式(18)所示：

公式(18)中，

表示第二步获得的输入节点特征，MAP()和AGP()分别为最大池化和平均池化操作表示学习到的重要内部信息和全局信息，

表示元素级相加，经过transpose和squeeze(简称ts)操作后特征转化为(1，C)，Conv₁表示卷积核为1的一维卷积操作，经过Sigmoid激活函数和expand()操作和输入F_G相乘得到节点注意力特征X_NA；

第4.2步，学习结构重要度：

通过自注意力图卷积网络反向传播学习到边的重要性来缩放节点的贡献，如公式(19)所示：

公式(19)中，加权后的邻接矩阵表示为A_w,W_A是自注意力图卷积网络通过前向传播学习到的参数，A是上一个自选择时空图卷积块得到的邻接矩阵，初始值为第三步得到的自注意力图卷积网络邻接矩阵A；

第4.3步，空间卷积：

通过空间卷积学习同一帧不同节点特征之间的关系，卷积过程根据第4.2步的加权后的邻接矩阵A_w关系得到，如公式(20)：

公式(20)中，A_w为上一步学习到的邻接矩阵，也就是加权后的邻接矩阵，

表示第i帧经过节点注意力后的特征，W表示网络学习到的权重矩阵，σ表示非线性激活函数，

表示元素级点乘，经过空间卷积后的特征为

其中C'表示经过空间卷积后每个节点的特征数，V表示节点个数，T表示序列帧数；

第4.4步，学习位置重要度：

通过公式(21)辅助学习面部重要的分块和选择利于分类功能的帧：

公式(21)中，

为经过空间卷积后的特征，其中C'表示每个节点的特征数，V表示节点个数，T表示序列帧数。Mean()和Max()为按照特征数C'计算的平均值和最大值，选择以利于分类的重要的节点数和帧数，Conv_1×7表示1×7的二维卷积操作，其中输入特征数2C'，输出特征数C'，b为偏置项，Sigmoid激活函数用来选择节点和关键帧；

第4.5步，构建自选择时间核模块：

通过自选择时间核模块进行时间卷积找到微表情的时序特征，动态选择时间核以获得不同尺度的时间信息，动态含义指的是网络根据特征选择相应的时间信息，每个自选择时间核模块选择的具体时间尺度信息可能不同，由公式(25)的注意力向量决定，注意力向量在网络中是动态变化的。

自选择时间核模块的过程是：首先融合不同尺度的时间信息如公式(22)所示：

公式(22)中，三种不同的卷积核分别为1×5、1×7、1×9获得三种不同的变换F₁：

F₂：

F₃：

通过元素级相加融合不同尺度的信息为U，

通过全局平均池化GAP生成全局信息

具体如公式(23)：

公式(23)中，V'表示节点数，C'表示特征数，U(v，c)表示第v个节点的第c个特征，

通过一个全连接层来加强特征的引导和自适应选择，公式如(24)：

z＝FC(s) (24)，

公式(24)中，FC()为全连接层，

FC层的输入参数的维度是T'，输出参数的维度是d；

通过Softmax自适应地选择不同的时间尺度信息，如公式(25)所示：

公式(25)中，

分别为三种不同尺度卷积核经全连接层后的输出向量，代表U₁，U₂，U₃的注意力向量，

表示向量H₁第t列，

表示h₁的第t个元素，同理

且

第t帧的多尺度时间信息表示为Q_t，最终的特征映射表示为Q，其中，Q＝[Q₁,Q₂,…,Q_T']，

第4.6步，自注意残差特征选择：

将第2、3层自选择时空图卷积块的输出特征通过自注意残差选择，即输入特征经过自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘过滤输入特征的冗余部分，经过2,3层的输出特征分别通过两个二维卷积(Conv_K、Conv_R)和Softmax计算注意力图S₃，S₄；S₃，S₄与第2,3层的输入特征分别相乘，起到自注意残差选择的作用。

加强特征的传播，具体公式如(27)所示：

公式(27)中，K_k、R_r分别为两个二维卷积第k行、第r列的输出向量，S_kr为第k行第r列的特征映射值，其中N＝T’×V’，S∈R^N×N表示所有特征映射的集合，构成注意力图；输入特征，即上一层的输出特征，经过两个卷积层分别进行特征映射，并改变形状后为

其中N＝T’×V’取决于自选择时间核模块中的步长，通过Softmax计算注意力图S∈R^N ^×N，a为网络学习到的每个位置点的参数，用来平衡节点特征；

经过自注意力图卷积网络的输出特征为公式(28)所示：

公式(28)中，S₃、S₄为第3、4层的自注意残差映射，

为后三层自选择时空图卷积块的输出，

表示元素级点乘，

表示元素级相加，F_out为最终的输出特征；

第4.7步，识别分类：

将上一步得到的输出特征F_out通过全局平均池化GAP()和全连接层FC()进行识别分类：

class＝FC(GAP(F_out)) (29)，

class表示经过自注意力图卷积网络识别得到的最终分类结果；

第4.8步：通过自注意力图卷积网络进行人脸微表情的训练和预测，实现人脸微表情自动识别：

将上述第二步中的全部微表情预处理序列按照留一验证法(Leave One SubjectOut Cross Validation，LOSOCV)划分为训练集和测试集两部分，将训练集获得的融合特征送入到构建好的自注意力图卷积网络根据标签和损失函数自动更新网络的参数，获得优化后的自注意力图卷积网络模型，再用测试集获得的融合特征进行测试，完成视频图像序列中人脸微表情的识别。

上述微表情自动识别方法，其中LBP-TOP、MDMO、CNN、LSTM都是本领域公知的；上述AU是Action Unit的缩写，中文意思是面部动作单元。

与现有技术相比，本发明的有益效果是：

本发明的显著进步如下：

本发明采用图卷积的方式通过构造的邻接矩阵卷积微表情发生区域(远距离进行卷积学习，例如眉毛和嘴巴)的像素点，即根据微表情的实际发生机理进行网络的训练，融合浅层运动信息(光流)和深层形状信息(深度神经网络模型)，加强了微表情特征的判别性。克服了现有技术中基于深度卷积网络(CNN+LSTM等)的方法直接将整个面部区域送到网络中去训练，且传统二维卷积的卷积操作只能学习近距离像素点的信息(例如眉毛与眉毛周围像素点卷积，嘴唇与嘴唇周围像素点卷积)的不足，本发明从微表情的发生机理来看，面部的肌肉运动情况与AU是密切联系的，通过建立邻接矩阵并使用图卷积，同时融入运动信息，将AU与微表情的时间信息(浅层运动信息)结合学习不同类别微表情的差异进行分类，从时空角度建立不同面部区域与微表情的关联信息。

本发明突出的实质性特点是：

(1)本发明方法对微表情视频图像序列分别进行光流和深度神经网络模型处理，获得光流信息序列和深度微表情视频序列，再对各自序列的每一帧进行面部分块，二者分块规则相同，所分分块相互对应，计算各个分块的浅层运动信息和深层形状信息，并将二者融合，再通过自注意力图卷积网络学习获取更加细节、详细的能够表示微表情发生机理的特征，解决了微表情运动强度低导致的特征不明显问题。与现有的MDMO、LBP-TOP等方法相比，本方法中光流信息采用统计直方图的方式进行时域特征的表征，并引入光流的出现关系的邻接矩阵，实现对光照的鲁棒性高、特征明显、特征冗余性较低等优点。本文中对微表情序列进行分块只是获得一个最初始的融合特征，再将融合特征送到自注意力图卷积网络根据微表情的发生机理进行学习分类。

(2)本发明将面部分块转化为节点，分块之间得到关系转化为边，通过构建的光流共现邻接矩阵、AU关系邻接矩阵、特征增强邻接矩阵捕捉到不同类别微表情产生时的差异。相比于其他深度神经网络方法，本方法通过构建邻接矩阵学习到复杂的面部关系，可以更好分析面部不同区域的肌肉运动信息与微表情产生的相关性，有效阐述微表情发生机理。

(3)本发明通过自注意力图卷积网络(通过网络自适应选择特征)自适应学习节点和边的特征放大不同类别微表情的差异性，能充分提取人脸微表情的局部信息，因此能更好地对不同的面部微表情加以区分，提高了视频图像序列中人脸微表情的识别率。

(4)本发明与CN112183419A相比：CN112183419A中通过提取微表情的起始帧和峰值帧训练生成网络，根据所有的起始帧和峰值帧生成其光流特征，在缺失峰值帧情况下无法使用，而且，直接将光流图片作为输入特征会引入很多噪声。本方法通过引入光流直方图降低了噪声的影响，在缺失峰值帧等先验知识的情况下仍能取得较好的实验结果，利用累计光流计算邻接矩阵，通过深度神经网络模型学习到微表情的语义特征丰富了微表情的有益特征，同时通过网络自适应学习节点权重加强了特征的选择，降低了计算复杂度，对于噪声较大的场景也具有较好的效果。

(5)本方法与CN110852271A相比：CN110852271A是一种基于峰值帧和深度森林的微表情识别方法，主要涉及微表情峰值帧的定位和使用峰值帧训练深度森林模型进行微表情识别，使用VGG-Face网络对特征进行提取、对深度森林模型进行微表情分类训练和测试，有效避免了面部动作强度过低的微表情一般带来的冗余，结合深度森林在少量数据样本的情况下也有优异表现的特点，但是采用传统深度神经网络忽略了微表情的实际发生机理，无法表示复杂的面部分块之间的联系。本方法通过采用自注意力图卷积网络构建微表情各分块之间的复杂联系，通过微表情的实际发生机理学习不同类别微表情的特征，放大微表情之间的差异性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明视频图像序列中人脸微表情识别方法的流程示意图。

图2是本发明方法中人脸微表情序列融合特征提取过程的示意图。

图3是本发明方法中自选择时空图卷积块的示意图。

图4是本发明方法中自选择时间核模块的示意图。

图5为本发明方法中自注意力图卷积网络示意图。

具体实施方式

图1所示实施例表明，本发明方法的流程为：微表情视频图像序列预处理→构建微表情的浅层运动信息和深层形状信息融合特征→结合AU建立图结构邻接矩阵→构建自注意力图卷积网络实现视频图像序列人脸微表情自动识别。

图2所示实施例表明，本发明方法中构造融合特征的过程是：通过光流结合图像分块提取微表情视频图像序列各分块的浅层运动信息，通过改进的ResNet18网络结构提取面部各分块的深层形状信息，最后级联两种特征组成微表情的融合特征F_G。ResNet-18是一个基础的网络，其中包含四个bottleneck模块，本申请只用了其中两个，并添加有效注意力模块和门控机制，避免了过拟合现象，更有益于获得微表情的深层形状信息。

本发明中以各分块作为节点，以各分块之间的关系(邻接矩阵)为边，利用自注意力图卷积网络发现不同区域之间的联系，通过学习图结构的节点和边的重要度(步骤4.1和4.2)以及空间(步骤4.3)、时间卷积(步骤4.5)学习不同微表情的重要特征。图5所示实施例表明，本发明通过自注意力图卷积网络放大不同类别微表情特征的差异性，所述自注意力图卷积网络包含四层相同的自选择时空图卷积块SSTGCM，将第三、四层自选择时空图卷积块SSTGCM的输出特征通过两个卷积层Conv_K、Conv_R和一个Softmax函数进行自注意残差选择得到该层的自注意残差映射S₃、S₄，将S₃、S₄与相应的SSTGCM的输入特征

分别相乘得到的特征与最后一层SSTGCM(即第四层)的输出特征

相加得到的最终特征映射F_out(即公式(28))，通过全局平均池化GAP()和全连接层FC()进行微表情的自动识别。所述自注意力图卷积网络的输入为步骤2.3获得的融合特征F_G，自注意力图卷积网络包括四层自选择时空图卷积块SSTGCM，四层依次连接，第二层的自选择时空图卷积块SSTGCM的输入为第一层自选择时空图卷积块SSTGCM的输出与融合特征F_G的加和；第三层的自选择时空图卷积块SSTGCM的输入为第二层自选择时空图卷积块SSTGCM的输出和输入的加和；将第三层和第四层的自选择时空图卷积块SSTGCM的各自的输出特征通过卷积层Conv_K、卷积层Conv_R、Softmax函数进行自注意残差选择分别得到S₃、S₄，S₃、S₄再分别与该层自选择时空图卷积块SSTGCM的输入特征

相乘，之后再与各自的自选择时空图卷积块SSTGCM的输出特征

相加；第三层自选择时空图卷积块SSTGCM相加后的结果作为第四层自选择时空图卷积块SSTGCM的输入，第四层自选择时空图卷积块相加后的结果和第三层自选择时空图卷积块的相加后的结果与第四层自选择时空图卷积块的输出特征

最后相加，即为最终特征映射F_out，最后再经过全局平均池化GAP()和全连接层FC()获得最终的分类结果class。

图3所示实施例表明，所述自选择时空图卷积块首先通过最大池化MAP()和平均池化AGP()、ts()操作、卷积层Conv₁、Sigmoid函数、expand()操作学习输入特征(第一层SSTGCM的输入为融合特征F_G，第二层SSTGCM的输入为第一层SSTGCM的输出和融合特征F_G的加和，第三层SSTGCM的输入为第二层SSTGCM的输出和输入之和)重要内部信息，其次将第3步获得的邻接矩阵A通过自注意力图卷积网络反向传播学习到边的重要性A_w来缩放节点的贡献，通过空间卷积学习节点的空间特征X，通过Max()、Mean()计算特征数维度的最大值和平均值、Conv_1×7卷积及Sigmoid函数学习位置重要度得到特征F，再通过自选择时间核模块得到输出特征Q。输入特征分别经过最大池化MAP()、平均池化AGP()获得的特征相加，再通过ts操作、卷积层Conv₁、Sigmoid函数、expand操作学习节点注意力，再与输入特征相乘得到经过节点注意力后的特征X_NA，第3.3步获得的邻接矩阵A通过自注意力图卷积网络的反向传播学习结构重要度得到加权后的邻接矩阵A_w，特征X_NA与A_w相乘获得经过空间卷积后的特征X，再经过Mean()、Max()、卷积层Conv_1×7、Sigmoid得到的位置重要度与X相乘得到特征F，再经过自选择时间核模块得到自选择时空图卷积块的输出特征Q。

图4所示实施例表明，本发明通过自选择时间核模块动态选择时间核以获得不同尺度的时间信息，经过学习位置重要度后的特征F首先通过1×5、1×7、1×9三种卷积核融合不同尺度时间信息，再通过全局平均池化GAP()、全连接层FC()、激活函数Softmax选择不同尺度时间信息得到的输出特征为Q。所述自选择时间核模块包括三个不同尺度的卷积核、全局平均池化GAP()、全连接层FC()和激活函数Softmax，三个不同尺度的卷积核的输入均为学习位置重要度后的特征F，输出经过融合后依次经全局平均池化GAP()、全连接层FC()和激活函数Softmax获得自选择时间核模块的输出Q。

实施例1

本发明解决该技术问题所采用的技术方案是：视频图像序列中人脸微表情识别方法，是一种在微表情视频序列预处理基础上，结合融合特征和自注意力图卷积网络的微表情识别方法，具体步骤如下：

第一步，微表情视频图像序列预处理：

通过开源包dlib对微表情视频图像序列人脸定位，裁剪出人脸区域，并通过时域插值模型(Temporal Interpolation Model，TIM)对微表情视频图像序列进行帧插值处理，使得微表情视频序列的帧长一致，得到长度为21帧、图像大小为282×230的用于微表情识别的原始视频图像序列集合；

第2.1步，计算浅层运动信息：

浅层运动信息的提取利用光流计算结合图像分块获得，计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρ_i，θ_i)，21帧的微表情视频图像序列获得20帧的光流信息序列。将光流信息序列每帧进行6×5的规则分块，每个分块采用光流信息统计直方图来表征时域动作信息，根据角度值将其投影到对应分块的直方图区域中，如公式(1)所示：

1≤i≤20，1≤j≤30，b＝1，2，…B (I)，

公式(1)中，

表示光流信息序列中第i帧光流图的第j个分块中第b个区域的光流幅值累计值，

初始化为0，θ_i,j和ρ_i,j为第i帧第j个分块中每个像素点光流信息的极坐标表示，共将光流方向分为B个区域；最后，将光流信息统计直方图进行归一化，如公式(2)所示：

由此获得光流信息序列第i帧中第j个分块浅层运动信息S^i,j，即

第2.2步，计算深层形状信息：

数据集通过时域插值模型获得20帧的深度微表情视频图像序列，和光流处理帧数保持一致，利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息，深度神经网络模型采用改进的ResNet18网络模型，通过训练获得微表情图像序列的深层形状信息，改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作，门控机制主要用来过滤与微表情识别无关的冗余信息，公式如(4)所示：

表示元素级点乘，最终的输出用Gⁱ来表示，

将门控机制的输出Gⁱ作为卷积计算的输入，卷积计算包括三个卷积块，每个卷积块由一个卷积层、一个批标准化(Batch Normalization，BN)层组成，卷积层均使用3×3的卷积核，使用BN层加快模型的训练速度，经过卷积计算后输出特征矩阵为

在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息，有效注意力模块包含一个有效通道注意力和一个空间注意力如公式(5)-(6)所示，深度微表情视频图像序列中每帧图像的深层信息表示为Dⁱ：

其中，公式(5)中

作为输入，AGP()和MAP()表示平均池化和最大池化操作,

表示元素级相加，符号

表示经过空间注意力后的特征，

经过变形、归一化后获得最终的深层形状信息Dⁱ，

第i帧第j分块的深层形状信息为：

其中，M表示第i帧图像的深层形状信息维数，实际取M为1920；

第2.3步，构建融合特征：

表示第i帧第j分块的融合特征，由此获得自注意力图卷积网络的输入特征F_G如公式(10)

第三步，结合AU建立图结构邻接矩阵：

通过光流的共现关系和AU的发生机制构建邻接矩阵，相邻两帧的节点相连接表示自注意力图卷积网络的时间结构，具体步骤如下：

第3.1步，根据分块运动计算光流共现邻接矩阵：

对数据集中每组微表情光流信息序列各分块的光流进行累计，计算所有分块累计光流的累计值，如公式(11)所示：

公式(11)中，w、h分别为各分块的宽度和高度，ρ(x,y)表示位置(x,y)像素点的光流大小；

计算数据集中每组微表情光流信息序列任意两分块间的共现次数，即当某块的光流累计值大于平均值时，则认为此块运动幅度剧烈，即此块出现，同一个光流信息序列中同时出现的块具有共现关系，如公式(12)所示：

公式(12)中，以N_m∩n表示第m，n块共现的次数，N_n表示第n块出现的次数，通过条件概率P(U_m|U_n)来建模共现，U_m表示第m个分块出现的几率，U_n表示第n个分块出现的几率，

为了尽量降低由噪声产生的影响，对面部共现的概率设置一个阈值τ，如公式(13)所示：

经过消融实验的研究确定CASMEII数据集的τ取值为0.025，CASMEI和SAMM数据集的τ取值为0.02，由此获得光流共现邻接矩阵

第3.2步，根据AU关系构建邻接矩阵：

将面部划分为若干既相互独立又相互联系的AU，面部运动编码系统(FacialAction Coding System，FACS)表明不同的AU组合和不同的表情之间有对应关系，它是面部表情肌肉运动的权威标准，根据这一先验知识，将面部等分为上中下三个区域(分别用up、mid、down表示)，根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系，具体来说，数据集标定的AU单元出现的分块之间发生邻接关系，发生邻接关系的相应位置赋值为1，其他位置为0，由此获得根据AU关系构建的邻接矩阵

如公式(14)所示：

第3.3步，构建特征增强邻接矩阵：

在等分为三部分的面部区域后，选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵，通过原始的输入特征辅助微表情识别分类，如公式(15)-(16)所示：

由此构建出特征增强邻接矩阵

自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵A_e、根据AU关系构建的邻接矩阵A_AU、光流共现邻接矩阵A_flo_w三者的加和，由此完成自注意力图卷积网络邻接矩阵的构建

A＝A_flow+A_Au+A_e (17),

第四步，构建自注意力图卷积网络：

构建自注意力图卷积网络发现不同面部分块之间的联系，所述自注意力图卷积网络包含四个相同的自选择时空图卷积块，具体如下：

第4.1步，学习节点注意力：

公式(18)中，

表示元素级相加，

表示元素级点乘，经过transpose和squeeze(简称ts)操作后特征转化为(1，C)，Conv₁表示卷积核为1的一维卷积操作，经过Sigmoid激活函数和expand()操作和输入F_G相乘得到节点注意力特征X_NA；

第4.2步，学习结构重要度：

第4.3步，空间卷积：

公式(20)中，A_w为上一步学习到的邻接矩阵，

表示元素级点乘，经过空间卷积后的特征为

第4.4步，学习位置重要度：

公式(21)中，

第4.5步，构建自选择时间核模块：

通过自选择时间核模块进行时间卷积找到微表情的时序特征，动态选择时间核以获得不同尺度的时间信息,

首先融合不同尺度的时间信息如公式(22)所示：

F₂：

F₃：

通过元素级相加融合不同尺度的信息为U：

通过全局平均池化GAP生成全局信息

具体如公式(23)：

公式(23)中，V'表示节点数，C'表示特征数，U(v,c)表示第v个节点的第c个特征，通过一个全连接层来加强特征的引导和自适应选择，公式如(24)：

z＝FC(s) (24),

公式(24)中，FC()为全连接层，

FC层的输入参数是T'，输出参数是d；

公式(25)中，

代表U₁，U₂，U₃的注意力向量，

表示向量H₁第t列，

表示h₁的第t个元素，同理

且

第4.6步，自注意残差特征选择：

将第2、3层的输出特征通过自注意残差选择，自注意残差特征选择即输入特征经过自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘达到过滤输入特征冗余部分的作用，加强特征的传播，具体公式如(27)所示：

公式(27)中，输入特征，即上一层的输出特征，经过两个卷积层分别进行特征映射，并改变形状后为

其中N＝T’×V‘，通过Softmax计算注意力图S∈R^N×N，a为网络学习到的每个位置点的参数，用来平衡节点特征，

经过自注意力图卷积网络的输出特征为公式(28)所示：

公式(28)中，S₃、S₄为第3、4层的自注意残差映射，

为后三层自选择时空图卷积块的输出，

表示元素级相加，

表示元素级点乘，F_out为最终的输出特征；

第4.7步，识别分类：

class＝FC(GAP(F_out)) (29)，

本实施实例分别在CASMEI、CASMEII和SAMM数据库上进行了实验。从CASMEI库选择171个图像序列，将人脸微表情分为紧张、厌恶、压抑和惊讶四类；从CASMEII库中选择246个图像序列，包含厌恶、压抑、惊讶、幸福和其他；从SAMM库中选择136个图像序列包括幸福、惊讶、愤怒、厌恶和其他。本发明是在Linux环境下Pycharm2019.3平台上运行完成。

实验中识别准确率的公式为：

将本实施例的方法与经典的LBP-TOP、MDMO、VGGMag、LGCcon等方法的实验结果进行比较，其中LBP-TOP是基于纹理的特征提取方法；MDMO是基于运动的特征提取方法；VGGMag、LGCcon是基于深度学习的方法，表1列出了本发明方法即该表中的基于自注意力图卷积网络的微表情识别方法SA-RESGCN与现有技术中的人脸微表情自动识别的特征提取方法在人脸微表情图像上的识别率。

表1不同特征提取方法在CASMEI、CASMEII、SAMM数据库上的测试结果

从表1可以看出，本发明方法即SA-RESGCN在CASMEI、CASMEII、SAMM数据库中的识别率都高于其他几种方法，可见本发明方法在视频图像序列中人脸微表情自动识别上的效果显著。

上述实施例中所述SA-RESGCN方法的英文为Self Attention Residual GraphConventional Network，中文译为自注意力图卷积网络；其中LBP-TOP、MDMO、VGGMag、LGCcon都是本领域公知的。

本申请构建的融合特征能获得更加丰富的微表情信息，并充分考虑浅层运动信息和深层形状信息，三种类型邻接矩阵的引入构建图结构邻接矩阵能够建立不同面部区域在微表情发生时的关联信息，最后利用自注意力图卷积网络根据微表情的实际发生机理学习放大不同类别微表情特征的差异性，实现微表情的高精度自动识别。

本发明未述及之处适用于现有技术。

Claims

1.一种视频图像序列中人脸微表情识别方法，其特征在于，该识别方法包括以下内容：在微表情视频图像序列预处理之后，根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征，通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A，以分块为节点、以邻接矩阵为边，构建自注意力图卷积网络，最后利用自注意力图卷积网络完成微表情的分类识别；

所述自注意力图卷积网络的邻接矩阵A为特征增强邻接矩阵A_e、根据AU关系构建的邻接矩阵A_AU、光流共现邻接矩阵A_flow三者的加和；

所述光流共现邻接矩阵A_flow的获得过程是：对光流信息序列的各分块的光流进行累计，用公式(11)计算各分块累计光流的累计值Sum，进而获得所有分块累计光流的平均值：

当某块的光流累计值大于平均值时，则认为此块运动幅度剧烈，即此块出现，同一个光流信息序列中同时出现的块具有共现关系；根据光流信息序列的任意m、n两分块间的共现次数与第n块出现的次数的比值表示共现关系

对面部共现的概率设置面部共现阈值τ，若共现关系不小于面部共现阈值τ，则该共现关系

置为1，否则

置为0，所有分块的共现关系组成光流共现邻接矩阵A_flow；

根据AU关系构建的邻接矩阵A_AU的过程是：将面部划分为若干既相互独立又相互联系的AU，将面部等分为上中下三个区域，分别用up、mid、down表示，根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系，发生邻接关系的位置赋值为1，其他位置为0，由此获得根据AU关系构建的邻接矩阵A_AU；

特征增强邻接矩阵A_e的获得过程是：在根据AU关系将面部等分为三个区域后，选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵

即主对角线部分为1，其他位置为0的矩阵，由此构建出特征增强邻接矩阵

2.根据权利要求1所述的识别方法，其特征在于，所述融合特征的获得过程是：

将浅层运动信息与深层形状信息进行级联获得融合特征。

3.根据权利要求1所述的识别方法，其特征在于，所述分块划分规则为：纵向分为6个分块，将面部区域的眉毛、眼睛、鼻子、脸颊、下巴区域分开，考虑人脸的对称性横向划分为5个分块。

4.根据权利要求1所述的识别方法，其特征在于，所述自注意力图卷积网络用于学习节点注意力、学习边结构重要度、通过空间卷积学习同一帧不同节点特征之间的关系、辅助学习面部重要的分块和选择利于分类功能的帧，通过微表情的实际发生机理学习不同类别微表情的特征，放大微表情之间的差异性，自适应选择特征，实现人脸微表情自动识别。

5.根据权利要求1所述的识别方法，其特征在于，所述自注意力图卷积网络包括四层相同的自选择时空图卷积块SSTGCM，输入为融合特征F_G；

四层自选择时空图卷积块SSTGCM依次连接，第二层的自选择时空图卷积块SSTGCM的输入为第一层自选择时空图卷积块SSTGCM的输出与融合特征F_G的加和；第三层的自选择时空图卷积块SSTGCM的输入为第二层自选择时空图卷积块SSTGCM的输出和输入的加和；将第三层和第四层的自选择时空图卷积块SSTGCM的各自的输出特征通过卷积层Conv_K、卷积层Conv_R、Softmax函数进行自注意残差选择分别得到S₃、S₄，S₃、S₄再分别与该层自选择时空图卷积块SSTGCM的输入特征

相乘，之后再与各自的自选择时空图卷积块SSTGCM的输出特征

最后相加，即为最终特征映射F_out，最后再经过全局平均池化GAP()和全连接层FC()获得最终的分类结果class；

所述自选择时空图卷积块SSTGCM的过程是：输入特征分别经过最大池化MAP()、平均池化AGP()获得的特征相加，再通过ts操作、卷积层Conv₁、Sigmoid函数、expand操作学习节点注意力，再与输入特征相乘得到经过节点注意力后的特征X_NA，自注意力图卷积网络的邻接矩阵A通过自注意力图卷积网络反向传播学习结构重要度得到加权后的邻接矩阵A_w，特征X_NA与A_w相乘获得经过空间卷积后的特征X，再经过Mean()、Max()、卷积层Conv_1×7、Sigmoid得到的位置重要度与X相乘得到特征F，再经过自选择时间核模块得到自选择时空图卷积块的输出特征Q。

6.根据权利要求5所述的识别方法，其特征在于，所述自选择时间核模块包括三个不同尺度的卷积核、全局平均池化GAP()、全连接层FC()和激活函数Softmax，三个不同尺度的卷积核的输入均为学习位置重要度后的特征F，输出经过融合后依次经全局平均池化GAP()、全连接层FC()和激活函数Softmax获得自选择时间核模块的输出Q。

7.一种视频图像序列中人脸微表情识别方法，是一种在微表情视频序列预处理基础上，结合融合特征和自注意力图卷积网络的微表情识别方法，具体步骤是：

第一步，微表情视频图像序列预处理：

通过开源包dlib对微表情视频图像序列数据集完成人脸定位，裁剪出人脸区域，并通过时域插值模型(Temporal Interpolation Model，TIM)对数据集中每组微表情视频图像序列进行帧插值处理，使得微表情视频序列的帧长一致，获得预处理后的微表情视频图像序列集合；预处理后数据集中每组微表情视频图像序列长度为21帧、每帧图像大小为M×N；

第2.1步，计算浅层运动信息：

浅层运动信息的提取利用光流计算结合图像分块获得，计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρ_i，θ_i)，21帧的微表情视频图像序列获得20帧的光流信息序列，将光流信息序列每帧进行6×5的规则分块，每个分块采用光流信息统计直方图来表征时域动作信息，根据角度值将光流信息ρ_i投影到对应分块的直方图区域中，用公式(1)表示：

公式(1)中，

为初始值，初始化为0；θ_i,j和ρ_i,j为第i帧第j个分块中每个像素点光流信息的极坐标表示，共将光流方向分为B个区域；最后，通过公式(2)将光流信息统计直方图进行归一化

由此获得光流信息序列第i帧中第j个分块浅层运动信息S^i,j，即：

第2.2步，计算深层形状信息：

数据集通过时域插值模型获得20帧的深度微表情视频图像序列，和光流处理帧数保持一致，利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息，深度神经网络模型采用改进的ResNet18网络模型，通过训练获得微表情图像序列的深层形状信息，改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作；

第2.3步，构建融合特征：

将浅层运动信息与深层形状信息进行级联构建融合特征，作为后续自注意力图卷积网络的输入特征，融合特征用公式(9)表示：

第三步，结合AU建立自注意力图卷积网络邻接矩阵：

通过光流的共现关系和AU的发生机制构建邻接矩阵，相邻两帧的节点相连接表示自注意力图卷积网络的时间结构，具体步骤是：

第3.1步，根据分块运动计算光流共现邻接矩阵：

对数据集中每组微表情光流信息序列各分块的光流进行累计，通过公式(11)计算所有分块累计光流的累计值Sum：

公式(11)中，w、h分别为各分块的宽度和高度，ρ(x,y)表示位置(x,y)像素点的光流大小，

计算光流信息序列任意两分块间的共现次数，即当某块的光流累计值大于平均值时，则认为此块运动幅度剧烈，即此块出现，同一个光流信息序列中同时出现的块具有共现关系

用公式(12)表示：

为了尽量降低由噪声产生的影响，对面部共现的概率设置一个面部共现阈值τ：

通过公式(13)获得光流共现邻接矩阵

第3.2步，根据AU关系构建邻接矩阵：

将面部划分为若干既相互独立又相互联系的AU，面部运动编码系统表明不同的AU组合和不同的表情之间有对应关系，将面部等分为上中下三个区域，分别用up、mid、down表示，根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系，发生邻接关系的相应位置赋值为1，其他位置为0，获得三个子邻接矩阵

根据公式(14)获得AU关系构建的邻接矩阵

第3.3步，构建特征增强邻接矩阵：

在等分为三部分的面部区域后，选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵，用公式(15)-(16)表示，通过原始的输入特征辅助微表情识别分类：

由此构建出特征增强邻接矩阵

自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵A_e、根据AU关系构建的邻接矩阵A_AU、光流共现邻接矩阵A_flow三者的加和，由此完成自注意力图卷积网络邻接矩阵的构建

A＝A_flow+A_AU+A_e (17)，

第四步，构建自注意力图卷积网络：

构建自注意力图卷积网络发现不同面部分块之间的联系，所述自注意力图卷积网络包含四个相同的自选择时空图卷积块，具体是：

第4.1步，学习节点注意力：

公式(18)中，

表示第二步获得的输入特征，MAP()和AGP()分别为最大池化和平均池化操作表示学习到的重要内部信息和全局信息，

第4.2步，学习结构重要度：

通过自注意力图卷积网络反向传播学习到边的重要性来缩放节点的贡献，用公式(19)表示：

公式(19)中，A_w为加权后的邻接矩阵,W_A是自注意力图卷积网络通过前向传播学习到的参数，A是上一个自选择时空图卷积块得到的邻接矩阵，初始值为第三步得到的自注意力图卷积网络邻接矩阵A；

第4.3步，空间卷积：

公式(20)中，

表示元素级点乘，经过空间卷积后的特征为

其中C′表示经过空间卷积后每个节点的特征数，V表示节点个数，T表示序列帧数；

第4.4步，学习位置重要度：

公式(21)中，Mean()和Max()为按照特征数C′计算的平均值和最大值，选择以利于分类的重要的节点数和帧数，Conv_1×7表示1×7的二维卷积操作，其中输入特征数2C′，输出特征数C′，b为偏置项，Sigmoid激活函数用来选择节点和关键帧；

第4.5步，构建自选择时间核模块：

通过自选择时间核模块进行时间卷积找到微表情的时序特征，动态选择时间核以获得不同尺度的时间信息：

三种不同的卷积核分别为1×5、1×7、1×9，对应获得三种不同的变换，三种不同的卷积核的输入均为F，即F₁：

F₂：

F₃：

通过元素级相加融合不同尺度的信息为U，

通过全局平均池化GAP生成全局信息

具体公式为公式(23)：

公式(23)中，V′表示节点数，C′表示特征数，U(v,c)表示第v个节点的第c个特征，

通过一个全连接层来加强特征的引导和自适应选择，用公式(24)表示：

z＝FC(s) (24)，

公式(24)中，FC()为全连接层，

FC层的输入参数的维度是T′，输出参数的维度是d；

通过Softmax自适应地选择不同的时间尺度信息，用公式(25)表示：

公式(25)中，

代表U₁，U₂，U₃的注意力向量，

表示向量H₁第t列，

表示h₁的第t个元素，同理

且

第t帧的多尺度时间信息表示为Q_t，最终的特征映射表示为Q，其中，Q＝[Q₁,Q₂,…,Q_T′]，

第4.6步，自注意残差特征选择：

将第2、3层自选择时空图卷积块的输出特征通过自注意残差选择，即输入特征经过一个自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘过滤输入特征的冗余部分，加强特征的传播，具体公式为公式(27)：

公式(27)中，K_k、R_r分别为两个二维卷积第k行、第r列的输出向量，S_kr为第k行第r列的特征映射值，其中N＝T’×V’，S∈R^N×N表示所有特征映射的集合，构成注意力图，a为网络学习到的每个位置点的参数，用来平衡节点特征；

经过自注意力图卷积网络的输出特征为公式(28)所示：

公式(28)中，S₃、S₄为第3、4层的自注意残差映射，

为后三层自选择时空图卷积块的输出，

表示元素级点乘，⊕表示元素级相加，F_out为最终的输出特征；

第4.7步，识别分类：

class＝FC(GAP(F_out)) (29)，

第4.8步：通过自注意力图卷积网络进行人脸微表情的训练和预测，实现人脸微表情自动识别。

8.根据权利要求7所述的识别方法，其特征在于，门控机制主要用来过滤与微表情识别无关的冗余信息，公式如(4)所示：

表示元素级点乘，最终的输出用Gⁱ来表示，

将门控机制的输出Gⁱ作为卷积计算的输入，卷积计算包括三个卷积块，每个卷积块由一个卷积层、一个批标准化BN层组成，卷积层均使用3×3的卷积核，经过卷积计算后输出特征为

在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息，有效注意力模块包含一个通道注意力和一个空间注意力如公式(5)-(6)所示：

其中，公式(5)中

作为输入，AGP()和MAP()表示平均池化和最大池化操作,

表示元素级相加，符号

表示经过空间注意力后的特征，

经过变形、归一化后获得最终的深层形状信息Dⁱ，

公式(7)中，shape()函数将矩阵转化为二维矩阵，normalize为按照最大值进行的归一化操作,

第i帧第j分块的深层形状信息为：

其中，M表示第i帧图像的深层形状信息维数。