CN112307958B

CN112307958B - 基于时空外观运动注意力网络的微表情识别方法

Info

Publication number: CN112307958B
Application number: CN202011186780.5A
Authority: CN
Inventors: 刘教民; 刘灿; 王岩; 王建春; 李扬; 孟庆鲁; 李若曦
Original assignee: Information Research Institute Of Tianjin Academy Of Agricultural Sciences; Hebei University of Technology; Tianjin University of Commerce
Current assignee: Information Research Institute Of Tianjin Academy Of Agricultural Sciences; Hebei University of Technology; Tianjin University of Commerce
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2023-06-23
Anticipated expiration: 2040-10-30
Also published as: CN112307958A

Abstract

本发明为基于时空外观运动注意力网络的微表情识别方法，该方法包括以下内容：对微表情样本进行预处理，得到固定帧数的原始图像序列和光流序列；构建时空外观运动网络，它包括时空外观网络STAN和时空运动网络STMN，STAN和STMN都采用CNN‑LSTM的结构进行设计，先用CNN模型学习微表情的空间特征，再用LSTM模型学习微表情的时间特征；在STAN和STMN的CNN模型中均引入分层卷积注意力机制，在低层网络上应用多尺度核空间注意力机制，在高层网络上应用全局双池化通道注意力机制，分别获得添加注意力机制的STAN网络和添加注意力机制的STMN网络；将原始图像序列输入到添加注意力机制的STAN网络中进行训练，将光流序列输入到添加注意力机制的STMN网络中进行训练，将二者的输出结果通过特征级联‑SVM进行集成实现微表情识别任务，提高微表情识别的准确率。

Description

基于时空外观运动注意力网络的微表情识别方法

技术领域

本发明的技术方案涉及微表情识别图像数据处理，具体地说是基于时空外观运动注意力网络的微表情识别方法。

背景技术

微表情是一个人试图隐藏自己内心真实情感却不由自主流露出的难以察觉的面部表情，具有快速、自发、无意识的特点。微表情的持续时间短、强度低，通常持续1/25s-1/5s，并且微表情引起的肌肉运动只出现在面部很小的区域，因此正确理解并识别微表情有着一定的难度，这在一定程度上限制了微表情识别的性能。近年来涌现出大量利用计算机视觉技术的算法进行微表情自动识别，极大地提高了微表情的应用可行性。微表情识别在警察讯问、临床诊断、抑郁分析、测谎、商务谈判、教学辅助、刑事侦查等领域有着广泛的应用前景。

设计一个健壮的特征描述符有效提取特征是微表情识别的关键所在。LBP-TOP(Local Binary Pattern with Three Orthogonal Planes)是一种经典的纹理特征提取方法，但还存在敏感性和稀疏采样的问题，因此出现了它的多种改进方法，如LBP-SIP(LocalBinary Pattern with Six Intersection Points)、STLBP-IP(Spitiotemporal LocalBinary Pattern with Integral Projection)、STCLQP(Spitiotemporal CompletedLocal Quantized Patterns)等，这些方法一定程度上提高了特征描述符的鲁棒性。基于光流的方法也常用于微表情识别，MDMO(Main directional mean optical flow feature)、FDM(Facial Dynamics Map)、Sparse MDMO、Bi-WOOF(Bi-Weighted Oriented OpticalFlow)等方法用光流场描述微表情的运动变化信息。这些传统的微表情识别方法过分依赖于繁琐的手工特征设计，自动的从细微的变化中提取有用的信息并进行高质量的特征描述仍然具有挑战性。近年来，深度卷积神经网络(Convolutional Neural Networks，CNNs)，长短期记忆网络(Long Short-Term Memory，LSTM)在很多领域显示出强大的能力。基于深度学习的微表情识别方法主要有两种基本结构，第一种是两步顺序模型，典型方法如CNN-LSTM，先用CNN模型提取所有帧的空间特征，再将其输入到LSTM模型中提取微表情序列时域上的动态信息，第二种是同时提取微表情序列时空特征信息的模型，如经典模型3DConvNets。

文献“OFF-ApexNet on micro-expression recognition system”将手工特征和完全数据驱动的CNN架构进行结合，提出基于光流特性的顶点帧网络，但仅利用微表情序列的顶点帧作为输入数据会损失微表情的很多有效信息。CN111353390A公开了一种基于深度学习的微表情识别方法，该方法采用3DCNN与ConvLSTM的网络结构，避免了因人为故意掩饰情绪或人脸无明显表情变化导致的识别精度低的问题，但该方法将微表情帧的每个像素点等同处理，忽略了不同像素点或通道对于微表情识别的贡献程度。CN110348271A公开了一种基于长短时记忆网络的微表情识别方法，该方法采用卷积神经网络和长短时记忆网络提取微表情序列的特征，但提取到的特征具有单一性，并且忽略了不同网络层特征的互补性。CN109034143A公开了基于视频放大和深度学习的人脸微表情识别方法，该方法利用视频放大技术放大微表情视频数据的动作幅度，但不可避免的会引入一些噪声，影响微表情细微的运动变化。CN108629314A公开了一种基于主动迁移学习的微表情识别方法，该方法实现了从表情数据到微表情数据的迁移，但相似任务进行迁移需要找到与目标域相似的高质量、大规模的源域数据，并且需要更高的技术要求。

发明内容

本发明所要解决的技术问题是：提供基于时空外观运动注意力网络的微表情识别方法，设计一个时空外观运动网络，并在网络模型中引入分层卷积注意力机制，使模型能够学习到更丰富、更有效、更有代表性的特征信息，从而提高微表情识别的准确率。

本发明解决该技术问题所采用的技术方案是：基于时空外观运动注意力网络的微表情识别方法，设计一个时空外观运动网络，由时空外观网络(SpatiotemporalAppearance Network，STAN)和时空运动网络(Spatiotemporal Motion Network，STMN)两个单流网络构成，并在这两个网络中引入分层卷积注意力机制，通过模型集成实现微表情识别任务，该方法包括以下内容：

对微表情样本进行预处理，得到固定帧数的原始图像序列和光流序列；

构建时空外观运动网络，它包括时空外观网络STAN和时空运动网络STMN，STAN和STMN都采用CNN-LSTM的结构进行设计，先用CNN模型学习微表情的空间特征，再用LSTM模型学习微表情的时间特征；

STAN的CNN模型包括卷积计算、池化操作、高低层特征融合三部分，卷积计算包括多个卷积块，每个卷积块包括一个卷积层、一个批标准化BN层和一个ReLU激活函数；在每个卷积块之后连接一个最大池化层；高低层特征融合是在第一个池化层和最后一个池化层之后分别通过一个1×1卷积核的卷积层和一个全局平均池化(Global Average Pooling，GAP)层，分别获得全局的低层特征和高层语义特征，最后将全局的低层特征和高层语义特征通过级联的方式实现融合，得到描述微表情序列帧的外观信息的空间特征向量；

STMN的CNN模型包括卷积计算、池化操作和GAP三部分，卷积计算包括多个卷积块，每个卷积块由一个卷积层、一个批标准化层和一个ReLU激活函数构成，在每个卷积块之后连接一个最大池化层，进行下采样，经过卷积计算和池化操作后，提取到微表情不同的局部特征，最后，通过GAP整合这些特征，得到描述微表情序列帧的运动信息的空间特征向量；

将描述微表情序列帧的外观信息的空间特征向量和描述微表情序列帧的运动信息的空间特征向量输入到各自的单层的LSTM(长短期记忆网络)中，学习帧与帧之间的相关性，得到描述微表情序列外观信息的时空特征向量和描述微表情序列运动信息的时空特征向量，之后，通过一个全连接层，将特征空间通过线性变换映射到样本标记空间，最后使用Softmax函数将多个神经元的输出，映射到(0,1)区间，分别得到属于每个微表情类别的概率值组成的特征向量；

在STAN和STMN的CNN模型中均引入分层卷积注意力机制，STAN和STMN的CNN模型的低层网络均提取包含微表情的纹理、边缘、轮廓的低层视觉信息，高层网络均提取抽象的高层语义特征信息，根据高低层网络特征之间的差异性，在低层网络上应用多尺度核空间注意力机制应用不同的注意力机制，有效差异化空间维度的每个像素点，在高层网络上应用全局双池化通道注意力机制，模型自动获取每个特征通道的贡献度，按贡献度提升有效特征同时抑制对微表情识别贡献小的特征，进行自适应的特征细化；

至此，分别获得添加注意力机制的STAN网络和添加注意力机制的STMN网络；

将原始图像序列输入到添加注意力机制的STAN网络中进行训练，将光流序列输入到添加注意力机制的STMN网络中进行训练，将添加注意力机制的STAN网络和添加注意力机制的STMN网络的输出结果通过特征级联-SVM进行集成实现微表情识别任务，至此获得时空外观运动注意力网络；

将训练好的时空外观运动注意力网络用于微表情识别。

所述分层卷积注意力机制为在STAN和STMN的CNN模型的低层网络上应用多尺度核空间注意力机制，高层网络上应用全局双池化通道注意力机制：

多尺度核空间注意力机制是指对输入的特征图用不同尺度的卷积核分别进行卷积操作，在不同的感受野下提取多尺度特征，获得不同尺度的空间特征矩阵，再通过级联的方式对不同尺度的空间特征矩阵进行融合，再通过卷积操作获得有效空间特征信息，用Sigmoid函数进行归一化后得到空间注意力权重值，空间注意力权重值是模型自适应学习到的空间中每个像素点的权重值，将空间注意力权重值与输入的特征图相乘，获得细化的空间注意力特征图；

全局双池化通道注意力机制是指对输入的特征图先在空间维度上使用GAP和全局最大池化(Global Max Pooling，GMP)聚合特征图的空间信息，获得全局平均池化特征向量和全局最大池化特征向量，之后，应用两个连续的全连接层，进行自适应的参数调整，学习不同通道之间的相关性和依赖关系，经过全连接层之后，获得两个有效的通道特征向量，再通过元素相加的方式将两个有效的通道特征向量进行合并，用Sigmoid函数进行归一化处理后得到通道注意力权重值，通道注意力权重值是模型自适应学习到的每个特征通道的权重值，将通道注意力权重值和输入特征图相乘，得到细化的通道注意力特征图。

与现有技术相比，本发明的有益效果是：

本发明的显著进步如下：

(1)本发明方法与CN111353390A相比，本发明方法所具有的优点是根据高低层网络特征之间的差异性，引入分层卷积注意力机制，模型自动获取每个像素点和每个特征通道的贡献度，按贡献度提升有效特征同时抑制对微表情识别贡献小的特征，使模型重点关注微表情显著运动区域。

(2)本发明方法与CN110348271A相比，本发明方法所具有的优点是将低层特征和高层语义进行融合，充分利用不同层次特征的互补性。

(3)本发明方法与CN109034143A相比，本发明方法所具有的优点是减少了微表情图像数据中不必要的干扰信息，能够更加精确的识别微表情的运动变化。

(4)本发明方法与CN108629314A相比，本发明方法所具有的优点是减少了模型对数据的高质量和大规模的要求，技术要求较低，更容易得到实际应用。

(5)本发明方法采用深度学习技术设计了一个互补的时空外观网络和时空运动网络，旨在得到微表情序列的外观特征和运动特征，使模型能够学习到更丰富的特征信息。

本发明的突出的实质性特点是：

(1)本发明方法针对微表情识别这一任务充分考虑时空网络模型结构的设计及设计的意图、注意力机制的结构及添加位置，将时空外观运动网络模型与注意力机制有机结合，通过在时空外观运动网络的CNN模型中引入分层卷积注意力机制，进行自适应的特征细化，使模型可以学习到更有效、更精确的特征，从而有效提升微表情识别的准确率，并且设计的分层卷积注意力机制是一个轻量级的通用模块，它可以无缝地集成到网络架构中，开销可以忽略不计，可以与基础神经网络一起进行端到端地训练。

(2)本发明方法考虑到不同层的特征是互补的，模型同时学习深层和浅层特征，能够使网络对特征的学习能力更强，将STAN的CNN模型设计为高低层特征融合网络，同时提取浅层的纹理等特征和深层的语义特征，获取更加丰富的空间信息。本申请的输入数据均为序列数据，包括RGB图像序列和彩色光流序列，而非单帧数据，它们均包含时间和空间信息，添加注意力机制的两个时空网络模型分别对各自的序列数据进行处理，提取微表情序列的外观特征和运动特征，最后通过特征级联-SVM方式进行模型集成，而非采用加权方式，提高了微表情识别精度。

(3)本申请考虑到并不是所有的像素点都对微表情识别具有相同的贡献，微表情主要出现在人脸的眼睛，眉毛，嘴巴等区域，为了使模型能够重点关注这些显著运动区域，在两个时空网络模型中均引入了分层卷积注意力机制，根据不同层次特征的特点，在CNN模型的低层网络上应用多尺度核空间注意力机制，在高层网络上应用全局双池化通道注意力机制，充分考虑了高低层特征的差异性，使网络的注意力集中在这些显著运动区域，如眼睛、眉毛、嘴巴等区域。

(4)微表情序列的纹理等外观信息和微表情细微的运动变化对于微表情识别任务来说都非常重要，本发明为同时获取这两种特征，构建了时空外观运动网络，由时空外观网络STAN和时空运动网络STMN构成，分别学习微表情序列的外观特征和运动特征。由于微表情数据集很小，所以将整体的模型设计为一个浅层的网络，将CNN模型的卷积层的层数设计为5层，LSTM的层数设计为一层，使用GAP代替FC层，在整个网络结构上进行正则化，有效防止过拟合，增强了模型的泛化能力。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明基于时空外观运动注意力网络的微表情识别方法的流程示意框图。

图2为本发明方法多尺度核空间注意力机制的流程示意框图。

图3为本发明方法全局双池化通道注意力机制的流程示意框图。

图4为本发明方法在CASME、CASME II数据集上的识别效果对比图。

图5为本发明方法添加和未添加注意力机制的识别效果对比图。

具体实施方式

图1所示实施例表明，本发明基于时空外观运动注意力网络的微表情识别方法的流程如下：

对微表情样本进行预处理，得到固定帧数的原始图像序列和光流序列作为输入数据→分别构建时空外观网络STAN和时空运动网络STMN→在STAN和STMN的CNN模型的低层网络上应用多尺度核空间注意力机制，高层网络上应用全局双池化通道注意力机制→将原始图像序列输入到添加注意力机制的STAN网络中进行训练，将光流序列输入到添加注意力机制的STMN网络中进行训练→将添加注意力机制的STAN网络和添加注意力机制的STMN网络的输出结果通过特征级联-SVM进行集成实现微表情识别任务。

实施例1

第一部分：实施方法

本实施例的基于时空外观运动注意力网络的微表情识别方法，具体步骤如下：

第一步，对微表情样本进行预处理，得到固定帧数的原始图像序列和光流序列作为输入数据：

首先，对微表情序列中的每一帧图像，定位面部关键特征点，以得到的特征点为基础，裁剪出人脸区域，然后，使用局部加权平均算法(Local weighted mean,LWM)进行人脸对齐，进一步将对齐后的人脸微表情序列中的每一帧图像的尺寸归一化为224×224像素，一般来说，微表情序列的长度是不统一的，但网络模型在训练时通常需要固定长度的输入维度，因此，需要对微表情序列进行时间归一化，采用时域插值模型(TemporalInterpolation Model，TIM)，即使用图像嵌入的方式在微表情序列的任意位置插入图像，将微表情序列统一为固定的长度，得到9帧的原始图像序列，作为STAN的输入数据，在原始图像序列的基础上，计算相邻两帧之间的光流信息，得到9帧的光流序列作为STMN的输入数据；

第二步，分别构建时空外观网络STAN和时空运动网络STMN：

STAN和STMN都采用CNN-LSTM的结构进行设计，考虑到网络不同层的特征是互补的，低层网络提取微表情的纹理、边缘、轮廓等低层视觉信息，高层网络提取微表情更加抽象的高层语义特征信息，模型同时学习深层和浅层特征，能够使网络对微表情特征的学习能力更强，故本申请将STAN的CNN模型设计为高低层特征融合网络，将原始图像输入到该网络中，同时提取浅层的纹理等特征和深层的语义特征，获取更加丰富的空间信息；将STMN网络设计为浅层网络结构，用光流场描述微表情细微的运动变化，从光流序列中提取时空运动特征；

第2.1步，将STAN的CNN模型设计为高低层特征融合网络，具体步骤如下：

STAN的CNN模型包括卷积计算、池化操作、高低层特征融合三部分，卷积计算包括5个卷积块，每个卷积块由一个卷积层、一个批标准化(Batch Normalization，BN)层和一个ReLU激活函数f(x)＝max(0,x)构成，卷积层均使用3×3的卷积核，使用BN层加快模型的训练速度，使用ReLU激活函数增强网络的非线性表达能力，在每个卷积块之后连接一个最大池化层，在2×2的邻域范围，步长为2的条件下，进行下采样，高低层特征融合是在第一个池化层和最后一个池化层之后分别通过一个1×1卷积核的卷积层和一个全局平均池化(Global Average Pooling，GAP)层，分别获得全局的低层特征和高层语义特征，最后将高低层特征通过级联的方式实现融合，得到描述微表情序列帧的外观信息的空间特征向量，上述过程为高低层特征融合网络；

第2.2步，将STMN的CNN模型设计为浅层的网络结构，具体步骤如下：

STMN的CNN模型包括卷积计算、池化操作和GAP三部分，卷积计算包括5个卷积块，每个卷积块由一个卷积层、一个批标准化层和一个ReLU激活函数构成，卷积层均使用3×3的卷积核，使用BN层加快模型的训练速度，使用ReLU激活函数增强网络的非线性表达能力，在每个卷积块之后连接一个最大池化层，在2×2的邻域范围，步长为2的条件下，进行下采样，经过卷积计算和池化操作后，提取到微表情不同的局部特征，最后，通过GAP整合这些特征，得到描述微表情序列帧的运动信息的空间特征向量；

第2.3步，将上述第2.1步得到的描述微表情序列帧的外观信息的空间特征向量和上述第2.2步得到的描述微表情序列帧的运动信息的空间特征向量输入到单层的LSTM(长短期记忆网络)中，学习帧与帧之间的相关性，得到描述微表情序列外观信息的时空特征向量和描述微表情序列运动信息的时空特征向量，之后，通过一个全连接层，将特征空间通过线性变换映射到样本标记空间，最后使用Softmax函数将多个神经元的输出，映射到(0,1)区间，分别得到属于每个微表情类别的概率值组成的特征向量，Softmax函数的公式如(1)所示，

其中，P(i)表示属于第i类的概率值，n表示微表情总类别数，z_i和z_j分别表示最后一个全连接层的第i和第j个微表情类别的输出值；i是当前的微表情类别序号，j＝1,2…n，用来遍历微表情类别序号；

第三步，在STAN和STMN的CNN模型的低层网络上应用多尺度核空间注意力机制，高层网络上应用全局双池化通道注意力机制：

本申请根据高低层网络特征之间的差异性，在STAN和STMN的CNN模型中引入分层卷积注意力机制，分层卷积注意力机制相对于分层注意力机制来说，强调对卷积进行分层，第一层卷积层为低层网络，最后一层卷积层为高层网络，低层网络提取微表情的纹理、边缘、轮廓等低层视觉信息，这些信息在不同通道之间几乎没有差异，故在低层网络上应用多尺度核空间注意力机制，有效差异化空间维度的每个像素点，高层网络提取更加抽象的高层语义特征信息，不同特征通道对不同的语义产生不同的响应，故在高层网络上应用全局双池化通道注意力机制，自动获取每个特征通道的贡献度，按贡献度提升有效特征同时抑制对微表情识别贡献小的特征，通过引入注意力机制，进行自适应的特征细化，使模型能够学习到更精确、更具代表性的特征信息，该方法避免了对微表情图像每个像素点的贡献等同处理，和现有基于注意力的微表情识别方法对多层次特征进行无区别处理的问题，具体过程是：

第3.1步，在STAN和STMN的CNN模型的低层网络上应用多尺度核空间注意力机制，具体步骤如下：

在STAN和STMN的CNN模型的低层网络，即第一个卷积层之后应用多尺度核空间注意力机制，给定输入的低层特征图

其中C表示特征通道总数，H和W分别表示特征图的高度和宽度，借鉴多尺度核理论，先对特征图F^l采用1×1、3×3和5×5的卷积核进行卷积操作，在不同的感受野下提取多尺度特征，获得不同尺度的空间特征矩阵/>

和/>

如公式(2)-(4)所示，

其中，

分别代表使用1×1、3×3和5×5卷积核的卷积操作，

通过级联的方式将三个特征矩阵S₁、S₂和S₃进行融合，然后，使用1×1的卷积操作获得有效的空间特征信息，用Sigmoid函数进行归一化处理，得到空间注意力权重值

如公式(5)所示，

其中,

表示使用1×1卷积核的卷积操作，σ表示Sigmoid函数，若输入的特征向量为z，则归一化后的向量σ(z)用公式(6)表示，

将空间注意力权重值SA和输入特征图F^l相乘，得到最终细化的空间注意力特征图

如公式(7)所示，

其中,

表示向量按元素相乘；

第3.2步，在STAN和STMN的CNN模型的高层网络上应用全局双池化通道注意力机制，具体步骤如下：

在STAN和STMN的CNN模型的高层网络，即第五个卷积层之后应用全局双池化通道注意力机制，给定输入的高层特征图

其中C表示特征通道总数，H和W分别表示特征图的高度和宽度，先在空间维度上对F^h使用GAP和全局最大池化(Global MaxPooling，GMP)聚合特征图的空间信息，获得全局平均池化特征向量/>

和全局最大池化特征向量/>

之后，应用两个连续的全连接层FC₁和FC₂，进行自适应的参数调整，学习不同通道之间的相关性和依赖关系，为限制模型的复杂度，将FC₁层的单元数设为C/r，r为压缩比率，FC₂层将单元数还原为C，经过全连接层之后，获得两个有效的通道特征向量/>

和/>

如公式(8)-(9)所示，

其中,w₁和w₂为FC层的权重值，b₁和b₂为偏置项，δ表示ReLU激活函数，如图3所示，应用GAP和GMP之后得到全局平均池化特征向量

和全局最大池化特征向量

然后将这两个特征向量描述符都输入到一个共享网络中，这个共享网络由两个连续的FC层表示，FC层的参数是共享的，

通过元素相加的方式将两个通道特征向量C₁和C₂进行合并，之后，用Sigmoid函数进行归一化处理，得到通道注意力权重值

如公式(10)所示，

其中，σ表示Sigmoid函数，

表示向量按元素相加，

将通道注意力权重值CA和输入特征图F^h相乘，得到最终细化的通道注意力特征图

如公式(11)所示，

其中，

表示向量按元素相乘；

第四步，将原始图像序列输入到添加注意力机制的STAN网络中进行训练，将光流序列输入到添加注意力机制的STMN网络中进行训练：

将添加注意力机制的STAN网络和添加注意力机制的STMN网络结构搭建完成后，使用交叉熵损失函数，Adam优化器对两个网络模型进行编译，采用留一法交叉验证(LeaveOne Subject Out Cross Validation，LOSOCV)将微表情原始图像序列和光流序列划分为训练集和测试集，由于每个数据集都包含许多个实验参与者(Subject)，每次将其中一个Subject的所有样本作为测试集，其余样本作为训练集，将训练集中的原始图像序列输入到添加注意力机制的STAN网络中进行训练，得到描述微表情序列外观信息的特征向量，将训练集中的光流序列输入到添加注意力机制的STMN网络中进行训练，得到描述微表情序列运动信息的特征向量；

第五步，将添加注意力机制的STAN网络和添加注意力机制的STMN网络的输出结果通过特征级联-SVM进行集成实现微表情识别任务：

首先用线性核函数初始化SVM对象定义分类器，用p_i表示上述第四步得到的描述微表情序列外观信息的特征向量，用q_i表示上述第四步得到的描述微表情序列运动信息的特征向量，将它们进行级联得到f(p_i,q_i)，将其作为分类器的特征X，将微表情的类别向量转换为独热编码的类别矩阵后作为特征对应的标签Y，用X和Y对SVM进行训练，实现过程如公式(12)所示，

||X:f(p_i,q_i)，Y||→SVM (12)，

将测试集中的微表情数据输入到训练好的添加注意力机制的STAN和添加注意力机制的STMN网络中，得到两个描述微表情序列外观特征和运动特征的输出向量，将他们进行级联后输入到训练好的SVM分类器对微表情进行识别；

至此，完成基于时空外观运动注意力网络的微表情识别。

本申请提出一种决策级融合方式，特征级联-SVM方式将融合注意力机制的两个单流网络模型进行集成，即将融合注意力机制的两个单流网络的输出结果作为特征向量，将它们进行级联，然后输入到SVM分类器中进行分类，从而实现微表情识别任务。

第二部分：实施方法的效果

利用本实施例基于时空外观运动注意力网络的微表情识别方法在CASME、CASMEII两个基准微表情数据集上进行实验，采用识别准确率作为评价模型性能的指标，识别准确率的公式为：

将本实施例方法与经典的LBP-TOP、FDM、MDMO、3DFCNN方法的实验结果进行比较，其中LBP-TOP是局部二值模式(Local Binary Pattern，LBP)的时空扩展符，是基于纹理的特征提取方法；FDM、MDMO用光流场描述微表情细微的运动变化，是基于光流的特征提取方法；3DFCNN是基于深度学习的方法。从图4可以看出，在两个数据集上，本实施例的准确率高于其他经典的微表情识别方法，准确率达到65％左右，验证了基于时空外观运动注意力网络的微表情识别方法的有效性。

此外，为验证添加的注意力机制是否能够提升微表情识别的性能，将模型添加和未添加注意力机制的实验结果进行了对比，从图5可以看出，在CASME、CASME II两个数据集上，模型添加注意力机制(Attention)之后获得的准确率高于未添加注意力机制(No-Attention)的结果，说明添加的注意力机制能够提升人脸微表情识别的效果，验证了注意力机制的有效性。

本发明未述及之处适用于现有技术。

Claims

1.一种基于时空外观运动注意力网络的微表情识别方法，该方法包括以下内容：

将训练好的时空外观运动注意力网络用于微表情识别。

2.根据权利要求1所述的识别方法，其特征在于，所述分层卷积注意力机制为在STAN和STMN的CNN模型的低层网络上应用多尺度核空间注意力机制，高层网络上应用全局双池化通道注意力机制：

3.一种基于时空外观运动注意力网络的微表情识别方法，其特征在于，该方法的具体步骤是：

首先，对微表情序列中的每一帧图像，定位面部关键特征点，以得到的特征点为基础，裁剪出人脸区域，然后，使用局部加权平均算法进行人脸对齐，进一步将对齐后的人脸微表情序列中的每一帧图像的尺寸归一化为r×r像素；采用时域插值模型对微表情序列进行时间归一化，即使用图像嵌入的方式在微表情序列的任意位置插入图像，将微表情序列统一为固定的长度，得到n帧的原始图像序列；n帧的原始图像序列作为STAN的输入数据，在原始图像序列的基础上，计算相邻两帧之间的光流信息，得到n帧的光流序列作为STMN的输入数据；

第二步，分别构建时空外观网络STAN和时空运动网络STMN：

STAN和STMN都采用CNN-LSTM的结构进行设计；

STAN的CNN模型包括卷积计算、池化操作、高低层特征融合三部分，卷积计算包括5个卷积块，每个卷积块由一个卷积层、一个批标准化BN层和一个ReLU激活函数f(x)＝max(0,x)构成，卷积层均使用3×3的卷积核，使用BN层加快模型的训练速度，使用ReLU激活函数增强网络的非线性表达能力，在每个卷积块之后连接一个最大池化层，在2×2的邻域范围，步长为2的条件下，进行下采样，高低层特征融合是在第一个池化层和最后一个池化层之后分别通过一个1×1卷积核的卷积层和一个全局平均池化GAP层，分别获得全局的低层特征和高层语义特征，最后将全局的低层特征和高层语义特征通过级联的方式实现融合，得到描述微表情序列帧的外观信息的空间特征向量；

第2.2步，将STMN的CNN模型设计为浅层的网络结构，具体步骤是：

第2.3步，将上述第2.1步得到的描述微表情序列帧的外观信息的空间特征向量和上述第2.2步得到的描述微表情序列帧的运动信息的空间特征向量输入到单层的LSTM中，学习帧与帧之间的相关性，得到描述微表情序列外观信息的时空特征向量和描述微表情序列运动信息的时空特征向量，之后，通过一个全连接层，将特征空间通过线性变换映射到样本标记空间，最后使用Softmax函数将多个神经元的输出，映射到(0,1)区间，分别得到属于每个微表情类别的概率值组成的特征向量；

在STAN和STMN的CNN模型的低层网络，即第一个卷积层之后应用多尺度核空间注意力机制，

多尺度核空间注意力机制为：给定输入的低层特征图

其中C表示特征通道总数，H和W分别表示特征图的高度和宽度，l表示低层；借鉴多尺度核理论，先对特征图F^l采用1×1、3×3和5×5的卷积核进行卷积操作，在不同的感受野下提取多尺度特征，获得不同尺度的空间特征矩阵/>

和/>

将空间注意力权重值SA和输入特征图F^l相乘，得到最终细化的空间注意力特征图/>

在STAN和STMN的CNN模型的高层网络，即第五个卷积层之后应用全局双池化通道注意力机制，

全局双池化通道注意力机制为：给定输入的高层特征图

其中C表示特征通道总数，H和W分别表示特征图的高度和宽度，h表示高层，先在空间维度上对F^h使用GAP和全局最大池化GMP聚合特征图的空间信息，获得全局平均池化特征向量/>

和全局最大池化特征向量/>

和/>

将添加注意力机制的STAN网络和添加注意力机制的STMN网络结构搭建完成后，使用交叉熵损失函数，Adam优化器对两个网络模型进行编译，采用留一法交叉验证将微表情原始图像序列和光流序列划分为训练集和测试集，由于每个数据集都包含许多个实验参与者，每次将其中一个实验参与者的所有样本作为测试集，其余样本作为训练集，将训练集中的原始图像序列输入到添加注意力机制的STAN网络中进行训练，得到描述微表情序列外观信息的特征向量，将训练集中的光流序列输入到添加注意力机制的STMN网络中进行训练，得到描述微表情序列运动信息的特征向量；

首先用线性核函数初始化SVM对象定义分类器，用p_i表示上述第四步得到的描述微表情序列外观信息的特征向量，用q_i表示上述第四步得到的描述微表情序列运动信息的特征向量，将它们进行级联得到f(p_i,q_i)，将其作为分类器的特征X，将微表情的类别向量转换为独热编码的类别矩阵后作为特征对应的标签Y，用X和Y对SVM进行训练，

将测试集中的微表情数据输入到训练好的添加注意力机制的STAN和添加注意力机制的STMN网络中，得到两个描述微表情序列外观特征和运动特征的输出向量，将它们进行级联后输入到训练好的SVM分类器对微表情进行识别；

至此，完成基于时空外观运动注意力网络的微表情识别。

4.根据权利要求3所述的识别方法，其特征在于，所述第一步中微表情序列中每帧的尺寸归一化为r×r像素，其中r为224，将输入的原始图像序列和光流序列的帧数n设定为9。