CN115359534A

CN115359534A - 基于多特征融合和双流网络的微表情识别方法

Info

Publication number: CN115359534A
Application number: CN202211023519.2A
Authority: CN
Inventors: 岳希; 王文鑫; 何磊; 唐聃; 刘敦龙
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-18
Anticipated expiration: 2042-08-25
Also published as: CN115359534B

Abstract

本发明公开了基于多特征融合和双流网络的微表情识别方法，涉及图像处理领域，包括：获取预设视频中微表情起始帧到结束帧的帧数据；对帧数据进行峰值帧采集获得第一图像并进行人脸裁剪获得第二图像，添加掩膜获得第三图像，提取获得第三图像的水平和垂直光流特征图；提取获得帧数据第一面部动作特征图；构建微表情识别网络；利用第三图像、水平和垂直光流特征图以及第一面部动作特征图构建训练集，利用训练集训练微表情识别网络，训练时，第三图像、第一水平光流特征图和第一垂直光流特征图输入网络的第一网络通道，第一面部动作特征图输入网络的第二网络通道；利用训练后的微表情识别网络识别微表情，本方法具有良好的微表情识别效果。

Description

基于多特征融合和双流网络的微表情识别方法

技术领域

本发明涉及图像处理领域，具体地，涉及基于多特征融合和双流网络的微表情识别方法。

背景技术

微表情是一种人类在试图隐藏某种情感时无意识做出的、短暂的面部表情。微表情通常发生在高压力的情况下，例如司法审讯、政治谈判和心理咨询。虽然微表情背后隐藏着巨大的价值，但遗憾的是即使研究了人脸表情多年的专家在微表情的识别率上也不尽人意，这是因为人眼难以通过短暂的0.5s捕获到低强度的微表情信息。

近年来，微表情识别成为了一个活跃的研究领域，如何从微表情视频帧序列中有效地提取微表情特征成为了热点问题。目前，微表情识别方法主要包括特征提取和分类识别。特征提取主要是提取微表情在时间和空间上的变化特征，这一结论已许多方法中广泛使用。基于传统手工特征提取的方法，如三个正交平面-局部二值模式(local binarypatterns from three orthogonal planes，LBP-TOP)及其改良的方法和基于光流场特征及其改良的方法，这些方法对过多冗余信息进行编码，导致计算成本高且泛化能力较弱。也有如主方向平均光流(MDMO)、双向加权定向光流(Bi-WOOF)和STRCN-G等方法减少了对冗余信息进行编码来提高性能，它们考虑了峰值帧与结束帧之间的光流信息，但是却忽略了被试者自带表情所带来的影响。传统方法受人的主观意识影响较大，在识别性能上还有很大的提升空间。随着研究的不断深入，深度学习开始应用于微表情识别领域，并且在识别性能上展现出了显著的优势。尽管如此，基于数据驱动的深度学习由于训练数据不足，导致它们的性能在微表情识别中也受到了影响。

微表情识别方法最开始是从局部二进制模式(local binary pattern，LBP)开始的，随后Zhao等人通过引入时间维度建立三个正交平面(XY，XT，YT)，得到三个正交平面-局部二值模式(LBP-TOP)，并使用多核学习对微表情进行分类。此后，又在LBP-TOP的基础上提出了时空完整局部量化模式(STCLQP)和被扩展到张量独立的色彩空间中以获得更鲁棒的子空间。

随着深度学习在微表情识别领域的发展，微表情识别方法从单流网络过渡到了多流网络进行识别。GAN等人提出了名为OFF-ApexNet的双流网络，通过计算起始帧和峰值帧水平和垂直光流特征分别输入到双流网络进行识别。GAN等人在原有双流模型上提出浅层三流CNN模型(STSTNET)，该模型通过增加光学应变通路，弥补了水平光流和竖直光流中丢失的细节信息。Zhou等人提出的双流Inception网络，2个流的输入分别是峰值帧光流的水平、垂直分量图，在全连接层以特征融合的方式将2个流提取到的特征连接起来，利用Softmax层进行分类。Song等人提出了一种三流卷积神经网络(TSCNN)，其中第一个流对峰值帧的灰度图学习静态空间特征；第二个流对通过放大和分割视频帧学习局部空间特征；第三个流对起始帧和峰值帧之间的光流场学习时间特征。Liu等人认为微表情起始帧到结束帧中含有很多潜在信息，分别提取了起始帧与峰值帧和峰值帧与结束帧的水平和垂直光流特征。将这4张光流特征图和峰值帧的灰度图分别传入五流的CNN模型中进行识别。以上这些网络大都是对微表情的起始帧、峰值帧和结束帧三者之间进行水平和垂直光流提取，但是却忽略了其它偏移帧的信息。更重要的是，他们都没有考虑到被试者自带表情的所带来的影响，从而影响了他们方法的识别性能。

当微表情识别性能在空间维度难以进一步提升后，许多研究者将思路转变成了结合空间维度和时间维度对微表情进行识别。常见的对微表情视频帧序列的时间维度特征提取分为3种，从光流、3D-CNN和CNN+长短时记忆网络(long short-term memory networks，LSTM)的混合模型提取时间维度特征。其中，光流的计算虽然比较费时也需要额外存储空间，但是以目前的硬件水平是完全可以做到快速且高效；而对于3D-CNN和CNN+LSTM需要增加大量网络的参数量，对于微表情这样的小样本数据集很容易造成过拟合。

发明内容

针对以上问题，本发明提出了一种基于多特征融合和双流网络的微表情识别方法，所述方法包括：

获取预设视频中微表情起始帧到结束帧的帧数据；

对所述帧数据进行峰值帧采集获得若干第一图像，对若干所述第一图像进行人脸裁剪获得若干第二图像；

对所述若干第二图像添加掩膜，获得若干第三图像；

对所述若干第三图像分别进行水平和垂直光流特征提取，获得若干第一水平光流特征图和若干第一垂直光流特征图；

利用面部动作算法对所述帧数据进行面部动作特征提取，对提取获得的面部动作特征进行归一化处理，获得若干第一面部动作特征图；

构建微表情识别网络，所述微表情识别网络包括输入层、第一网络通道、第二网络通道、融合层、分类层和输出层，所述输入层和所述输出层分别用于获得输入数据和输出分类结果，所述第一网络通道包括依次连接的子网络和第一全连接层，所述第一网络通道用于对第一输入数据进行处理获得第一处理结果；所述第二网络通道包括依次连接的第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、扁平化层和第二全连接层，所述第二网络通道用于对第二输入数据进行处理获得第二处理结果；所述融合单元用于所述第一处理结果和所述第二处理结果进行拼接融合获得融合结果，并将融合结果输入第三全连接层处理后输入分类层进行分类处理；

利用所述若干第三图像、所述若干第一水平光流特征图、所述若干第一垂直光流特征图和所述若干第一面部动作特征图构建训练集，利用所述训练集训练所述微表情识别网络获得训练后的微表情识别网络，其中，训练微表情识别网络时，所述若干第三图像、所述若干第一水平光流特征图和所述若干第一垂直光流特征图输入所述第一网络通道，所述第一面部动作特征图输入所述第二网络通道；

获得待处理图像，将所述待处理图像输入训练后的微表情识别网络，获得所述待处理图像中的微表情识别结果。

其中，首先，本方法为微表情视频帧序列添加人脸掩膜，保留感兴趣区域，并且缓解被试者自带表情的影响。其次，对添加掩膜的视频帧序列提取出光流的水平、垂直分量图；按照添加了掩膜的峰值帧、水平和垂直光流分量图的顺序叠加起来组成网络的第一个通道的特征图；再次，对微表情视频帧序列提取出面部动作特征，并对面部动作特征进行归一化，进一步缓解被试者自带表情所带来的影响，将归一化后的面部动作特征按照视频帧序列的顺序组成网络的第二个通道的特征图，最后，通过微表情识别网络分别学习不同层次的特征，最终融合特征推断结果。

优选的，所述子网络为残差网络。由于resnet18的模型相对简单，并且在图像分类上的效果好，对于微表情这样数据缺乏的数据集来说不容易过拟合，因此，本发明的子网络优选为resnet18。

优选的，在采集微表情视频数据时由于被试者的头部会有一定的摇晃，所以每一帧图像里的人脸坐标都会相应地发生偏移。如果直接对视频的每一帧进行人脸坐标定位裁剪，会导致裁剪后的图像抖动性较大，不利于后续添加掩膜以及提取光流。因此，为了避免裁剪后图像抖动所带来的影响，本发明对图像的正方形裁剪框坐标进行了归一化处理。优选的，本方法中对裁剪框的坐标进行归一化处理，具体包括：

累加帧数据中每个图像对应初始裁剪框的左上顶点坐标和宽度，获得累加结果；

基于所述累加结果分别计算左上顶点坐标和宽度的均值，获得第一均值和第二均值；

基于第一均值获得最终裁剪框的左上顶点坐标，基于第二均值获得最终裁剪框的宽度；

基于最终裁剪框的顶点坐标和宽度获得最终裁剪框。

优选的，由于当前主流的微表情数据集采用的是视频集诱导微表情的方式，被试者被要求尽可能抑制他们的表情流露，因此在被试者刻意抑制他们的表情时往往会出现一些与直觉相反的表情。例如，被试者一开始就保持微笑，尽管这次播放的是消极的视频集，又或者被试者一直保持眉头紧锁或者保持无表情的状态，这显然不是自然状态下的微表情，因此，为了缓解被试者自带的表情而非诱导的微表情所带来的影响并且保留下被试者自发的微表情感兴趣区域，本发明采用人脸掩膜的方向进行相应的处理，本方法中的掩膜添加方式为：

选取预设视频中微表情的起始帧作为基线帧；

依次计算基线帧与基线帧的下一帧至峰值帧之间的各个像素值差值的绝对值，累加计算获得的绝对值获得总差值矩阵；

将所述总差值矩阵进行二值化处理获得二值化结果；

对所述二值化结果进行滤波处理，获得第一滤波结果；

将第一滤波结果中离散的微表情感兴趣区域进行融合获得融合结果；

对所述融合结果进行滤波处理，获得掩膜；

将掩膜与对应的原始图像进行融合获得掩膜后的图像。

优选的，本方法中的光流特征提取方式为：

将已添加掩膜的视频帧序列的第一帧作为基线帧；

通过基线帧对已添加掩膜的起始帧到结束帧依次计算光流信息，获得光流特征提取结果，其中，光流特征提取结果为二维矢量场，分别表示每个像素运动的水平和垂直分量。

优选的，由于被试者产存在自带表情的现象，为微表情引入了新的中性人脸归一化方法，能够更加进一步的缓解被试者自带表情所带来的干扰，此外，通过提出的面部动作特征归一化方法，还能有效地提取到被试者全脸的运动变化信息，所述对提取获得的面部动作特征进行归一化处理包括：

将视频帧序列第一帧的面部动作特征作为基线面部动作特征；

将起始帧到结束帧的面部动作特征依次与基线帧的面部动作特征进行差值计算，得到归一化后的面部动作特征。

优选的，由于现有的微表情数据集存在类别样本不平衡的问题，甚至有的类别样本数量极少，容易导致网络过拟合问题。为了缓解这个问题，本方法在获得第一图像前还包括样本扩充步骤，所述样本扩充步骤包括：

对预设视频峰值帧的前后两帧进行采样；

对微表情分类中样本数量最少类别的峰值帧进行多倍扩充。

将微表情分类中非最少类别样本的峰值帧数量向最少类别扩充后的数量通过随机采样方式进行靠拢。

优选的，本方法中的人脸裁剪方式为：

计算获得裁剪框的顶点坐标和宽度；

基于裁剪框的顶点坐标和宽度获得裁剪框；

利用裁剪框对若干所述第一图像进行人脸裁剪获得若干第二图像。

优选的，裁剪框的顶点坐标和宽度的计算方式为：

计算出第一图像中人脸的左右内眼角坐标和左右眉尾坐标；

通过左右内眼角坐标计算出正方形裁剪框的中心坐标；

通过左右眉尾的横坐标之差计算出正方形裁剪框的宽度；

根据正方形裁剪框的中心坐标和宽度确定正方形裁剪框的左上顶点坐标。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本方法将微表情峰值帧的空间特征、微表情峰值帧前后最大5个偏移帧的时间特征和归一化的面部动作单元(AUs)特征有效地进行了融合，并且通过实验证明了所提出的双流网络对该特征能够有效地学习。

本方法能够有效地去掉无关背景以及保留微表情感兴趣区域，有效地提高了网络的识别性能。

本方法能够有效地提取出被试者微表情的感兴趣区域，并且还能缓解由于被试者自带表情所带来的干扰。

本方法为微表情引入了新的中性人脸归一化方法，能够更加进一步的缓解被试者自带表情所带来的干扰。此外，通过提出的面部动作特征归一化方法，还能有效地提取到被试者全脸的运动变化信息，并且通过实验证明了结合人脸掩膜和面部动作特征的方法能够非常显著地提高网络的识别性能。

本方法通过对三类情绪当中样本数量最少的类别的峰值帧进行4倍扩充和设置超参数f为3的方法，使得本发明提出的网络最大能够考虑到峰值帧及其前后最大5个偏移帧的信息，既能充分利于到微表情视频帧序列的信息，又不会导致冗余的信息。此外，重采样后一来可以缓解样本分类不平衡的问题，二来可以缓解样本数量不足的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1是本发明实施例中人脸裁剪示意图；

图2是本发明实施例中被试者自带表情示意图；

图3是本发明实施例中图像添加掩膜示意图；

图4是本发明实施例中添加了人脸掩膜的峰值帧光流示意图；

图5是本发明实施例中微表情识别网络的架构示意图；

图6是本发明实施例中的混淆矩阵示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一

本发明实施例一提供了基于多特征融合和双流网络的微表情识别方法，所述方法包括：

获取预设视频中微表情起始帧到结束帧的帧数据；

对所述若干第二图像添加掩膜，获得若干第三图像；

具体实施方式包括：

数据预处理：

数据预处理是为了神经网络更好地学习，它主要包括人脸裁剪、添加掩膜、提取光流和提取面部动作单元(AUs)特征等，其中，面部动作单元(facial action units，AUs)是面部表情的重要客观描述，面部动作单元(AUs)的特征提取也是自动识别情感表情和认知状态的基本步骤之一，AUs对于理解和描述人脸表情有着重要的意义。

其中，面部动作算法可以是OpenFace算法，也可以是Kinect算法，或dlib算法等等，本发明实施例不进行具体的限定。

人脸裁剪：

人脸裁剪的目的尽可能多地去掉无关背景以及保留微表情感兴趣区域便于深度学习网络学习，本发明提出了一种自适应的人脸裁剪方法。

在采集微表情视频数据时由于被试者的头部会有一定的摇晃，所以每一帧图像里的人脸坐标都会相应地发生偏移。如果直接对视频的每一帧进行人脸坐标定位裁剪，会导致裁剪后的图像抖动性较大，不利于后续添加掩膜以及提取光流。因此，为了避免裁剪后图像抖动所带来的影响，本发明对图像的正方形裁剪框坐标进行了归一化处理。首先累加微表情视频中每帧裁剪框的左上顶点坐标和宽度，然后分别计算左上顶点坐标和宽度均值作为该样本裁剪框的最终顶点坐标和宽度，最后将裁剪的图像调整为224×224大小。图1中的video frame image是本发明实施例中人脸裁剪前的视频帧图像，图1中的cropped是裁剪后的人脸图像，图1中X和Y为顶点坐标，left eyebrow tail为左眉尾坐标，left medialcanthus为左内眼角坐标，width为裁剪框的宽度，center为裁剪框的中心坐标，righteyebrow tail为右眉尾坐标，right medial canthus为右内眼角坐标。

添加掩膜：

由于当前主流的微表情数据集采用的是视频集诱导微表情的方式，被试者被要求尽可能抑制他们的表情流露，因此在被试者刻意抑制他们的表情时往往会出现一些与直觉相反的表情。例如，被试者一开始就保持微笑，尽管这次播放的是消极的视频集，又或者被试者一直保持眉头紧锁或者保持无表情的状态，这显然不是自然状态下的微表情，如图2所示，图2中origimal image为原始图像，mask image为添加掩膜后的图像。因此，为了缓解被试者自带的表情而非诱导的微表情所带来的影响并且保留下被试者自发的微表情感兴趣区域，本发明提出了一种基于帧差法的自适应人脸掩膜方法。

如图2所示，a.是来自CASMEII的EP02_04f样本的起始帧，标签为repression，可以很明显地看出被试者的AU12被激活了，嘴角轻微上扬带有微笑。由于被试者的峰值帧的AU15被激活了，即嘴部发生了向下拉动，因此掩膜捕捉到了嘴部的变化；b.和c.分别是来自SAMM的006_1_6和011_2_3样本，标签分别为anger和disgust。b.中被试者始终保存AU15被激活状态，即嘴部发生了向下拉动。因此掩膜捕捉到的是被试者头部的运动带来的变化。从c.中可以很明显地看出被试者的起始帧的AU12被激活了，嘴角轻微上扬带有微笑，且AU12在整个视频中都处于被激活状态，与标签disgust不符。由于被试者的峰值帧的AU4被激活了，即发生了皱眉动作，因此掩膜捕捉到了眼部的变化而忽略了嘴部的干扰；d.中被试者的起始帧也是激活了AU12，随后被试者的峰值帧的AU17被激活，即推动下嘴唇向上运动，因此掩膜捕捉到了嘴部的变化而忽略了眼部的干扰。其中，本实施例中的AU数字编号为面部动作单元中对应的编号。

光流提取：

Liong等人对5种光流法进行了比较，结果表明TV-L1光流法在提取微表情光流特征中有更好的表现，因此本发明采用TV-L1光流法对微表情进行光流特征提取。具体地，将已添加掩膜的微表情视频帧序列的第一帧作为基线帧，然后通过基线帧对已添加掩膜的起始帧与结束帧依次计算光流信息。计算结果是一个二维矢量场，分别表示每个像素运动的水平和垂直分量。添加了人脸掩膜提取的光流特征如图4所示，图4中apex frame为峰值帧，horizontal optical flow为水平光流，vertical optical flow为垂直光流optical flowvisualization为光流可视化。

提取面部动作单元：

面部动作编码系统(Facial Action Coding System，FACS)从人脸解剖学的角度定义了一组面部动作单元(AUs)，用于描述人脸表情变化。AUs被广泛用于人脸宏表情识别，但相比之下，AUs在微表情识别中并没有得到很好的研究。由于被试者产存在自带表情的现象，因此本发明也将AUs运用于缓解被试者自带表情所带来的干扰。具体地，首先通过面部动作算法，计算出微表情视频帧序列的第一帧到结束帧的AUs：1，2，4，5，6，7，9，10，12，14，15，17，20，23，25，26和45的强度。其次，对AUs进行归一化。将微表情视频帧序列第一帧的AUs作为基线AUs，然后将起始帧到结束帧的AUs依次与基线帧的AUs计算差值，最终得到归一化后的AUs。

微表情识别网络：

本发明用于微表情识别的分类网络是受到了ResNet18、VGG-16和双流网络等模型的启发而提出的双流CNN网络。微表情识别网络的架构如图5所示。图5中apex frame andoptical flows为峰值帧及其光流图，FC为全连接层，Conv2d为卷积层，ReLU为激活函数，MaxPool2d为池化层，Flatten为扁平化层，connection为融合，Softmax为分类器，classificationprobability为分类概率，negative、positive和surprise分别为消极、积极和惊讶。网络的输入分为两个部分，第一部分是添加了掩膜的峰值帧及其水平和垂直光流特征图；第二部分是该峰值帧的AUs特征图。将两个输入的全连接层进行拼接融合，最后经过Sotfmax层输出三类情绪的概率，其中最大概率为预测结果。

网络训练：

本发明根据国际微表情识别大赛(facial Micro-Expression Grand Challenge，MEGC 2019)的标准，将微表情类别划分为消极、积极和惊讶三个类别。从CASMEII，SAMM和SMIC-HS三个自发式微表情集进行数据融合。融合后的复合数据集(FULL)共包含68名受试者的442个样本，其中来自CASMEII，SAMM和SMIC-HS的样本数量分别为145，133和164。具体的划分方式如表1所示。由于CASMEII和SAMM数据集与SMIC-HS数据集的微表情类别划分不相同，为避免数据融合导致问题复杂化，所以根据SMIC-HS标签重新分类。具体地，分别将CASMEII和SAMM数据集中厌恶、压抑、愤怒、轻蔑、悲伤和恐惧等标签划分为消极类别；高兴标签划分为积极类别；惊讶类别保持不变；其他微表情标签不作为实验样本。

此外，由于现有的微表情数据集存在类别样本不平衡的问题，甚至有的类别样本数量极少，容易导致网络过拟合问题。为了缓解这个问题，本发明首先对所有样本的峰值帧的前后各两帧进行采样，然后对三类情绪当中样本数量最少的类别(surprise)的峰值帧进行4倍扩充，加上峰值帧最终达到5倍扩充的效果。其余两类样本的峰值帧数量通过对扩充数据的随机采样方法向最少分类样本扩充5倍后的样本数量靠拢。通过这样的数据扩充后，一来可以缓解样本分类不平衡的问题，二来可以缓解样本数量不足的问题。

此外，本发明没有采用人脸对齐、裁剪、缩放、反转和颜色抖动等常见的图像数据增强方式。所提出的网络采用的是Adam优化器来更新神经网络的权重，其中学习率(lr)和权重衰减(weight_decay)分别设置为0.001和0.0005，其他的参数均采用默认值，损失函数采用的是交叉熵损失函数，学习率调整策略采用的是余弦退火学习率衰减策略。这个网络模型采用PyTorch1.7.1框架搭建，编程语言为Python3.7，批大小(batch_size)设置为32，训练次数(epochs)设置为100。模型训练的主要硬件设备为NVIDIA GeForce RTX 3080Ti和32G内存。

表格1微表情复合数据集

本发明中网络性能的评估方式为：

为了验证本发明提出方法的有效性，本发明实验采用MEGC 2019复合数据集(FULL)进行验证。为了避免实验的偶然性及网络在学习中可能存在的偏差，本发明将复合数据集(FULL)的样本一起执行留一法(leave one subject out，LOSO)验证。具体地，每轮的LOSO验证从68名被试者的微表情样本中依次选择1名作为测试集，其余被试者的样本作为训练集，一共需要执行68次LOSO验证。这种评估方法适用于微表情这类小样本的数据集，既考虑到了数据集之间的内在联系，又考虑到了不同微表情、种族和性别之间的区别。

由于复合数据集仍然存在类别的样本数量不均衡的问题，因此为了保证实验的评估结果更有参考意义，采用了未加权F1得分(unweighted F1-score，UF1)和未加权平均召回率(unweighted average recall，UAR)2个指标来评估所提出模型的识别性能。UF1和UAR的计算公式分别为：

其中，C表示类别数量，本发明将微表情分为消极、积极和惊讶3个类别，因此C＝3；TP_c、FP_c、FN_c分别别为分类结果的真正例(true positive，TP)、假正例(false positive，FP)和假负例(false negative，FN)。对C个类别的比值求平均得到UF1。

其中，C表示类别数量；TP_c为样本c中预测正确的数量。N_c为样本c的数量；对C个类别的比值求平均得到UAR。

本发明的实验结果：

下面将本发明方法与基于手工特征的方法和一些众所周知的深度学习方法进行了比较，在CASME II、SAMM和SMIC-HS和复合数据集(FULL)上评估了本发明方法。不同方法的UF1和UAR结果如表2所示。实验中涉及的比较方法均使用原论文中的实验结果。

表2本发明方法与前沿微表情识别方法的性能比较

表2可以看出，基于深度学习的方法优于传统的方法(LBP-TOP和Bi-WOOF)。本发明提出的方法在复合数据集上获得的UF1和UAR性能最好，分别为0.829和0.837。本发明方法在CASMEII数据集上的UF1和UAR表现最好，主要原因是该数据集中被试者的人种一致、年龄分布集中、性别分布适中以及实验环境的光照变化不大。本发明方法不同于表中其他深度学习方法仅使用起始帧和峰值帧或中间帧来提取特征，而是考虑了输入帧及其前后最大5帧的信息，既能避免过多帧数而导致冗余信息，也能考虑微表情帧序列的时间信息。

图6所示为本发明方法在4个数据集上识别的混淆矩阵，图6中的a-d分别对应数据集FULL、CASMELL、SAMM和SMIC的混淆矩阵，图6中的a-d的纵轴是truth label真实标签，横轴是predicted label预测标签。可以看出，在错误的预测样本中，大部分都被识别为消极类别，这主要是由于样本类别不平衡，消极类别在数据集中占主导地位。尽管如此，4个数据集的所有类别的正确预测数量都大于错误预测数量，这证实了本发明方法的有效性。

实验结果表明，本发明提出方法在国际微表情识别大赛(MEGC 2019)数据集(包含CASME II，SAMM和SMIC)上，未加权F1得分和未加权平均召回率的结果分别为82.9％和83.7％，与MEGC 2019最好的方法(EMRNet)相比分别提高了4.1％和5.5％，证明了该方法具有更好的识别性能。

请参考图1，其中，人脸裁剪的具体实现方式为：

为了尽可能多地去掉无关背景以及保留微表情感兴趣区域。具体地，首先通过face_recognition人脸识别库计算出人脸的左右内眼角(left and right medialcanthus)坐标和左右眉尾(left and right eyebrow tail)坐标。其次，通过左右内眼角坐标计算出中心(center)坐标，并将该中心坐标作为图像的正方形裁剪框的中心坐标。再次，以左右眉尾的横坐标之差确定裁剪框的宽度(width)。最后，根据裁剪框的中心坐标和宽度确定该正方形的左上顶点坐标(X,Y)。中心坐标的计算公式：

X_center＝X_LMC+(X_RMC-X_LMC)÷2

Y_center＝Y_LMC+(X_RMC-X_LMC)÷2

其中，X_center和Y_center表示中心点的横纵坐标；X_LMC和Y_LMC表示左内眼角的横纵坐标；X_RMC表示右内眼角的横坐标。裁剪框左上顶点的计算公式：

X＝X_LET

Y＝Y_center-(X_center-X)

其中，X和Y表示裁剪框左上顶点的横纵坐标；X_LET表示左眉尾的横纵坐标。

为了避免裁剪后图像抖动所带来的影响，本发明对图像的正方形裁剪框坐标进行了归一化处理。具体地，首先累加微表情视频中每帧裁剪框的左上顶点坐标和宽度，然后分别计算左上顶点坐标和宽度均值作为该样本裁剪框的最终顶点坐标和宽度，最后将裁剪的图像调整为224×224大小。人脸裁剪方式如图1所示。

本实施例中添加掩膜方法的具体方式为：

第一步，选取微表情的起始帧作为基线帧；第二步，依次按照矩阵减法运算规则计算基线帧与基线帧的下一帧到峰值帧的各个像素值差值的绝对值并累加，最终得到总差值矩阵(其尺寸为224×224)；第三步，将第二步得到的总差值矩阵进行二值化，像素值大于127的像素点设置为255，小于127的像素点设置为0；第四步，为了消除掩膜中的白点噪声并使掩膜的边缘更加平滑，本发明设计了一种3×3的滤波器对第三步的输出进行处理。关于滤波算法，本发明的详细设计如下，3×3滤波器的中心点像素值取决于它周围像素值的数量，若中心点周围的255像素值点的数量大于等于0像素值点的数量，则中心点的像素值为255，反之为0；第五步，融合离散的微表情感兴趣区域。具体地，获取第四步输出矩阵的每一行中255像素值点的起始和终止位置，如果起始和终止位置中255像素值点的数量大于等于0像素值点的数量的一半，则将起始到终止位置的全部像素点的像素值设置为255，反之全部设置为0。然后，对于每一行中255像素值点的数量小于0像素值点的数量的四分之一的行，将该行的像素点的像素值全部设置为0，反之不变；第六步，采用11×11的滤波进一步平滑掩膜中的微表情感兴趣区域；第七步，根据每一位被试者的不同微表情生成的掩膜和他对应的微表情原始帧图片相融合。融合图片时，掩膜中0像素值点呈现黑色，255像素值点呈现透明色，原始帧图片不做改变。对于255像素值点的数量小于图片尺寸224×224的八分之一即6272时，此时掩膜遮盖过大，则舍弃该掩膜，只保留原始帧图片。处理流程如图3所示，图3中frame difference为帧差法，difference accumulation为差值累加，binarization为二值化，3×3filter为3×3过滤器，fusion RoI为融合感兴趣区域，11×11filter为11×11过滤器，fusion mask为融合掩膜，baseline frame为基线帧，apex frame mask为峰值帧掩膜。

微表情识别网络：

如图5所示，本发明提出的微表情识别网络为一种双流网络，该双流网络的第一个网络通道是采用的ResNet18作为骨架网络，输入维度是224×224×(2f+3)，其中峰值帧的维度是224×224×3，水平和垂直光流特征图的维度是224×224×2f，f表示当前峰值帧的光流特征图与其前f帧光流特征图的叠加。第一个网络通道输出的维度是512×1的全连接层(FC)；第二个网络通道的输入维度17×f×1，其中峰值帧的AUs维度是17×1，f表示当前峰值帧的AUs特征图与其前f帧AUs特征图的叠加。第二个网络通道的第一层是一个卷积层和一个通道为16的ReLU激活函数，然后接一个最大池化层减少计算。第二层是一个32个滤波器的卷积层和一个ReLU激活函数。第三层是一个64个滤波器的卷积层和一个ReLU激活函数以及一个最大池化层减少计算。其中所有卷积层的卷积核大小都为3×3，步长都为1，边缘填充方式为零填充一层。所有的最大池化层的核大小为2×2，步长为2。第三层的输出结果是一个4×(f÷4)×1张量，其中÷表示整除，输出经过Flatten后维度为256×(f÷4)。最后将第一个网络通道的输出和第二个网络通道的输出进行拼接融合后的结果是一个(512+256×(f÷4))×1张量，将该结果传入到全连接层(FC)后得到一个1×3张量，然后将结果传给Softmax层进行归一化，最终得到三类情绪的分类概率。需要注意的是，选取的f值不一样，则网络也应该发生相应的变化。本发明f为超参数，选取的值为3。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于多特征融合和双流网络的微表情识别方法，其特征在于，所述方法包括：

获取预设视频中微表情起始帧到结束帧的帧数据；

对所述若干第二图像添加掩膜，获得若干第三图像；

2.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，所述子网络为残差网络。

3.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法利用裁剪框对所述第一图像进行人脸裁剪，在裁剪前，本方法还包括对裁剪框的坐标进行归一化处理。

4.根据权利要求3所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法中对裁剪框的坐标进行归一化处理，具体包括：

基于最终裁剪框的顶点坐标和宽度获得最终裁剪框。

5.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法中的掩膜添加方式为：

选取预设视频中微表情的起始帧作为基线帧；

将所述总差值矩阵进行二值化处理获得二值化结果；

对所述二值化结果进行滤波处理，获得第一滤波结果；

对所述融合结果进行滤波处理，获得掩膜；

将掩膜与对应的原始图像进行融合获得掩膜后的图像。

6.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法中的光流特征提取方式为：

将已添加掩膜的视频帧序列的第一帧作为基线帧；

7.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，所述对提取获得的面部动作特征进行归一化处理包括：

8.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法在获得第一图像前还包括样本扩充步骤，所述样本扩充步骤包括：

对预设视频峰值帧的前后两帧进行采样；

对微表情分类中样本数量最少类别的峰值帧进行多倍扩充；

9.根据权利要求1所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，本方法中的人脸裁剪方式为：

计算获得裁剪框的顶点坐标和宽度；

基于裁剪框的顶点坐标和宽度获得裁剪框；

10.根据权利要求9所述的基于多特征融合和双流网络的微表情识别方法，其特征在于，裁剪框的顶点坐标和宽度的计算方式为：

计算出第一图像中人脸的左右内眼角坐标和左右眉尾坐标；

通过左右内眼角坐标计算出正方形裁剪框的中心坐标；

通过左右眉尾的横坐标之差计算出正方形裁剪框的宽度；