CN113537008A

CN113537008A - 基于自适应运动放大和卷积神经网络的微表情识别方法

Info

Publication number: CN113537008A
Application number: CN202110754233.0A
Authority: CN
Inventors: 高美凤; 陈汤慧; 于力革
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-22
Anticipated expiration: 2041-07-02
Also published as: CN113537008B

Abstract

本发明公开了基于自适应运动放大和卷积神经网络的微表情识别方法，包括：步骤一：将微表情视频某一样本转化为图像序列，并进行人脸裁剪和对齐；步骤二：读取图像序列的起始帧，并使用顶点帧定位算法计算得到顶点帧图片；步骤三：采用自适应运动放大方法，确定合适的放大倍数，并根据确定的放大倍数对顶点帧进行运动放大以增强微表情的特征；步骤四：根据起始帧和放大后的顶点帧获取微表情视频的光流特征，得到水平光流、垂直光流和光学应变；步骤五：建立用于微表情识别的卷积神经网络模型，并使用该模型进行从宏表情到微表情的迁移学习；步骤六，将光流特征输入迁移学习之后的模型，输出为时间空间特征，对模型进行训练后实现微表情识别。

Description

基于自适应运动放大和卷积神经网络的微表情识别方法

技术领域

本发明涉及基于自适应运动放大和卷积神经网络的微表情识别方法，属于图像处理技术领域。

背景技术

人脸的微表情(Micro Expression，ME)是一种持续时间短、肌肉运动幅度小且无法自主控制的面部表情，它通常发生在人类试图隐藏自己内心真实情绪的时候，具有不可欺骗性。微表情的产生是无意识的，但往往能够有效表达一个人的真实情感，因此，微表情作为一种识别谎言的线索，在心理学研究、刑侦领域及安全领域等都有广泛的研究与应用。与宏表情相比，微表情往往发生迅速且持续时间短，相关研究表明其持续时间通常在1/25～1/5秒；并且微表情产生时牵扯到的面部肌肉少、幅度小，一般只会出现在人脸运动单元中的1～4个小区域。因此，依靠肉眼很难发现微表情，基于计算机视觉的微表情识别技术应运而生。

微表情的识别技术大致包括三个步骤：预处理、特征提取和分类，其中特征表示方法已成为关于微表情识别研究的重点之一。微表情特征提取的主流方法是基于局部二值模式或光流的特征表示方法，光流特征虽然可以捕获面部细节以描述相邻帧之间的运动信息，但会受到光照敏感性的限制，因此，研究人员开始尝试将深度学习技术应用于微表情识别，但深度学习的训练过程需要大量的样本数据才能达到最好的模型效果。由于微表情是自发的，很难通过实验手段诱导自发进行收集和标记，从而缺乏大型基准数据集，这限制了网络模型的性能。因此，针对微表情的复杂情况进行合适的预处理，以及设计更适合小样本数据库使用的网络模型变得十分重要。

在基于深度学习技术的微表情识别领域，刘汝涵等人(刘汝涵，徐丹.视频放大和深度学习在微表情识别任务上的应用[J].计算机辅助设计与图形学学报，2019，031(009)：1535-1541.)采用基于相位的视频放大技术对微表情视频数据进行放大，利用特征点定位获取眼部坐标，并将原始眼部视频替换到放大视频中进行图像融合，以实现对眼部干扰的消除。Xia等人(Xia Zhaoqiang，Hong Xiaopeng，et al.Spatiotemporal RecurrentConvolutional Networks for Recognizing Spontaneous Micro-Expressions[J].IEEETransactions on Multimedia，2020，22(3)：626-640.)提出了一种基于深度递归卷积网络的微表情识别方法，捕捉使用欧拉视频放大方法进行放大的微表情序列的时空变形。但是，上述方法采用运动放大技术对所有样本进行了无区别放大，尽管放大后的微表情特征更明显，却忽略了每个微表情样本强度不同的情况。并且现有基于视频运动放大技术的微表情识别方法大部分都采用欧拉视频放大(Eulerian Video Magnification，EVM)技术，需要手工设计参数，过程复杂，并且因为微表情的运动很小，所以放大结果容易产生噪音或过度模糊。

相较于EVM，基于学习的视频运动放大(Learning-based Video MotionMagnification，LVMM)方法可以在真实视频上获得更高质量的结果，不需要手工设计参数，只需输入想要放大的倍数。但不同样本的微表情强度不同，因此，所需要的放大的倍数也不同。除此之外，微表情面部肌肉运动幅度小，如何让网络在训练过程中关注微小但却重要的特征是非常值得重视的问题。

发明内容

针对现有技术在微表情特征提取时存在的不足，本发明提供了基于自适应运动放大和卷积神经网络的微表情识别方法，能够更好地增强微表情特征，准确率更高。

本发明提供了基于自适应运动放大和卷积神经网络的微表情识别方法，采用自适应运动放大方法，针对不同强度的微表情样本计算相对合适的放大倍数，以保证放大后的微表情图像不失真，并且能达到较好的放大效果。

进一步，本发明的微表情识别方法提供了一种用于微表情识别的卷积神经网络模型，改进用于宏表情识别的卷积神经网络模型(mini-Xception网络模型)，并加入投影层以进一步修改光流特征，在网络模型中添加通道注意力机制以增强微表情特征，改进后得到用于微表情识别的卷积神经网络模型(ME-Xception网络模型)能够实现较好的微表情识别性能。

本发明提供的微表情识别方法，其具体技术方案如下：

根据本发明的基于自适应运动放大和卷积神经网络的微表情识别方法，包括如下步骤：

步骤一：将微表情视频某一样本转化为图像序列，并进行人脸裁剪和对齐；本发明采用OpenCV中的Dlib人脸检测器从上述图像序列中检测人脸，并且仅使用第一帧检测到的面部关键点对图像序列所有帧进行人脸裁剪和对齐；

步骤二：读取图像序列的起始帧，使用顶点帧定位算法计算得到顶点帧；

步骤三：采用自适应运动放大方法确定合适的放大倍数m，通过对顶点帧进行运动放大以增强微表情的特征；

本发明针对微表情肌肉运动幅度小的问题，提供了一种自适应运动放大方法对顶点帧进行运动放大，以保证放大后的微表情图像不失真，并且能达到较好的放大效果；本发明提供的自适应运动放大方法基于余弦相似度的如下公式计算放大倍数m，并且针对不同的微表情视频样本能够选取相应的放大倍数m：

其中，

表示向下取整；cos(θ_me)表示使用微表情视频某一样本的起始帧和顶点帧计算得到的余弦相似度；α为微表情的强度变化因子，值为0.002，由如下公式计算得到：

其中，M＝1，表示放大一倍可以达到预期的强度变化效果；

表示使用所有宏表情视频起始帧和顶点帧计算得到的余弦相似度平均值，宏表情视频由CK+宏表情数据集提供，该数据集常用于宏表情识别领域，并使用视频的1/3帧作为顶点帧；α保留小数点后3位。

根据本发明的微表情识别方法，余弦相似度的计算公式如下：

其中，F_onset表示视频样本起始帧的像素矩阵，F_apex表示视频样本顶点帧的像素矩阵；

根据本发明的微表情识别方法，将计算得到的放大倍数m和微表情视频某一样本的起始帧、顶点帧输入基于学习的视频运动放大网络(LVMM网络)，得到放大后的顶点帧。

步骤四：根据起始帧和放大后的顶点帧获取微表情视频某一样本的光流特征，得到水平光流、垂直光流和光学应变；

步骤五：建立用于微表情识别的卷积神经网络模型，并使用该模型进行从宏表情到微表情的迁移学习；

根据本发明的微表情识别方法，步骤五的具体过程如下：

A1：在用于宏表情识别的卷积神经网络模型的输入层中添加左乘投影变换和右乘投影变换，以增强输入特征；

由于微表情动作幅度小，难以辨别，因此，需要对原型网络进行改进以整合与选择更具有区分性的微表情特征，使得样本的类内间距越小越好，类间间距越大越好，从而提高分类的准确率。本发明针对Octavio Arriaga等人(Octavio Arriaga，Paul G.Ploger，Matias Valdenegro.Real-Time Convolutional Neural Networks for Emotion andGender Classification[C].ESANN，2017.)提出的用于宏表情识别的卷积神经网络模型(mini-Xception网络模型)进行改进，并将其应用在微表情识别领域，在网络的输入层加入两个投影层，以神经网络驱动特征学习，重新整合面部特征，以产生更具有区分性的特征；具体操作如下：以步骤四得到的水平光流、垂直光流和光学应变归一化尺寸为48×48的输入为例，在输入层两边添加大小分别为30×48和48×30的左乘、右乘矩阵，矩阵的值由可训练权重组成。投影层实际上就是将经典二维卷积矩阵分解，将输入的48×48大小图像重整为具有高信息含量的30×30大小图像，以此来增强光流特征，并且减少网络的连接数量，缓解过拟合现象。

A2：在mini-Xception网络模型中添加通道注意力机制以增强网络模型的特征提取能力；

本发明提供的方法在mini-Xception网络模型的四个由深度可分离卷积层和批归一化层组成的循环模块中都加入一个SE模块，具体模型如图3所示。mini-Xception网络模型经过上述步骤A1和A2改进后得到用于微表情识别的卷积神经网络模型(ME-Xception网络模型)，能够有选择性地增强信息量大的特征，使得后续处理可以充分利用这些特征，并对无用特征进行抑制。

A3：使用ME-Xception网络模型进行从宏表情到微表情的迁移学习；

由于微表情数据库的样本数量少，因此，采用从宏表情到微表情的迁移学习可以根据宏表情和微表情之间的语义相关性，从宏表情中学习有用的知识，帮助在微表情识别时选择高质量的样本，训练更为有效的分类器，以提高微表情的识别效果。

步骤六：将步骤四中得到的光流特征输入步骤五中迁移学习之后的ME-Xception网络模型，输出为时间空间特征，对网络进行训练后最终实现微表情的识别。

本发明的有益效果：

本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法，在提取图像序列时，仅仅检测图像序列第一帧的面部关键点，原因在于对每一帧进行关键点检测会产生一定的误差，从而导致人为的头部移动，而微表情持续时间短，在此过程中产生的头部刚性运动往往可以忽略不计。

本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法，针对微表情肌肉运动幅度小的问题，提出一种自适应运动放大方法，基于余弦相似度计算放大倍数，由于余弦相似度的值越大，则说明两张图片越相似；本发明的方法中，微表情的强度越小，则图像序列的起始帧和顶点帧越相似，求得的余弦相似度就越大，根据余弦相似度求得的放大倍数也越大，能够保证放大后的微表情图像不失真，并且能达到较好的放大效果，从而增强微表情特征以保证微表情的识别精度。

本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法，通过添加投影层以进一步修改光流特征，以及在网络原型中添加通道注意力机制以选择微表情特征，改进后的ME-Xception网络模型能够进一步提取信息量大的微表情特征，更加适应微表情识别任务，从而实现较好的识别性能。

本发明采用自适应运动放大方法对微表情视频进行运动放大，从而实现微表情强度放大。人为选取CK+宏表情视频的1/3帧作为顶点帧，从而实现宏表情强度缩小。进一步，通过微表情强度放大和宏表情强度缩小可以提高宏表情识别和微表情识别两个域之间的适应性，进而充分使用宏表情转微表情识别模型完成微表情识别任务，提高微表情识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法的流程图；

图2是使用EVM、LVMM以及本发明提供的自适应运动放大方法的放大效果对比图；

图3是本发明的方法中，用于微表情的卷积神经网络ME-Xception模型结构示意图；

图4是使用本发明提及的不同改进方法在CASME II数据集上的识别精度对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

实施例一：

根据本实施例的基于自适应运动放大和卷积神经网络的微表情识别方法，具体包括如下步骤：

步骤一：将微表情视频转化为图像序列样本，并进行人脸裁剪和对齐；本实施例采用OpenCV中的Dlib人脸检测器从图像序列中检测人脸，仅使用图像序列第一帧检测到的面部关键点对图像序列所有帧进行人脸裁剪和放大；

步骤二：读取微表情图像序列的起始帧，使用顶点帧定位算法计算得到顶点帧；

根据本实施例，起始帧是微表情图像序列开始的图像帧，顶点帧是微表情图像序列中强度最高的图像帧，本发明仅使用起始帧和顶点帧的图片提取微特征，并且顶点帧定位具体过程如下：

S1：使用局部二值模式计算得到微表情视频帧的纹理图，将面部区域划分为6×6个块，计算每个块上的频率值从而得到大量的时域像素变化信息。通过滑动窗口三维快速傅里叶变换分别计算在36个块上第i个帧间隔的频率值，对于第i个帧间隔的第k个块(即b_ik)，其频率值为：

其中，(u，v，q)为频域中的位置坐标，N为当前帧滑动窗口的长度，L_b为b_ik的高度，W_b为b_ik的宽度，且k＝{1，2，…，36}。

S2：使用高通滤波器过滤与顶点帧定位无关的低频信息，高通滤波器

由式(2)定义：

其中，D₀为阈值。根据式(3)过滤视频块：

S3：为第i个间隔累加所有36个视频块的频率幅度：

其中，A_i为第i个间隔的频率振幅，表示面部快速移动的范围。频率振幅最大的间隔为峰值间隔，表示快速面部移动的高强度帧，因此，选择间隔的中间帧作为顶点帧。

针对微表情肌肉运动幅度小的问题，本实施例提供了一种自适应运动放大方法，以保证放大后的微表情图像不失真，并且能达到较好的放大效果。本实施例提供的方法基于余弦相似度的如下公式计算放大倍数m，并且针对不同的微表情视频样本能够选取相应的放大倍数m：

其中，

其中，M＝1，表示放大一倍可以达到预期的强度变化效果；

根据本实施例的方法，余弦相似度的计算公式如下：

其中，F_onset表示视频样本起始帧的像素矩阵，F_apex表示视频样本顶点帧的像素矩阵。

根据本实施例的方法，将根据公式(5)计算得到的放大倍数m和微表情视频样本的起始帧、顶点帧输入LVMM网络，得到放大后的顶点帧。

为了验证本实施例提供的自适应运动放大方法的合理性，记录微表情视频样本起始帧与顶点帧之间的余弦相似度以及计算得到的放大倍数如表1所示。由表1可知，两张图片的余弦相似度越小，微表情强度越大，所需的放大倍数越小，反之亦然。因此，该算法符合预期想要达到的效果。其中，样本Sub01_EP02_01f和Sub19_EP01_01f的原始图片(顶点帧)、EVM放大结果、LVMM放大结果及自适应放大结果如图2所示。由图2可知，本实施例提供的自适应运动放大方法可以在不失真的情况下得到较好的放大效果。

步骤四：根据起始帧和放大后的顶点帧获取每个微表情视频的光流特征，得到水平光流、垂直光流和光学应变；

由于卷积神经网络(Convolutional Neural Networks，CNN)本身是空间的，而光流特征是时间特征，因此，可以将二者结合起来得到时间空间特征。本方法采用TV-L1光流预测算法(C.Zach，T.Pock2，H.Bischof.A Duality Based Approach for Realtime TV-L1Optical Flow.Pattern Recognition，2007：214-223.)计算微表情视频起始帧和顶点帧之间的光流特征，包含水平光流、垂直光流和光学应变。TV-L1计算得到的光流场可以表示为：

o＝{(u(x，y)，v(x，y))|x＝1，2，...，X，y＝1，2，...，Y} (8)；

其中，X和Y分别表示视频帧的宽度和高度，u(x，y))和v(x，y)分别表示水平光流和垂直光流。

光学应变是光流的导数，能够近似面部变形的强度，用Hessian矩阵表示为：

每个像素的光学应变大小可通过取各分量的平方和来计算，即：

把光学应变加到光流场O上，构成一个三元组{u，ν，ε}，作为CNN的输入。因此，每个微表情视频都可以导出以下三种光流特征的表示：(1)u：水平光流；(2)v：垂直光流；(3)ε：光学应变。

根据本实施例的微表情识别方法，步骤五的具体过程如下：

A1：在用于识别宏表情的卷积神经网络模型的输入层中添加左乘投影变换和右乘投影变换，以增强输入特征；

由于微表情动作幅度小，难以辨别，因此，需要对原型网络进行改进以整合与选择更具有区分性的微表情特征，使得样本的类内间距越小越好，类间间距越大越好，从而提高分类的准确率。本发明针对Octavio Arriaga等人(Octavio Arriaga，Paul G.Ploger，Matias Valdenegro.Real-Time Convolutional Neural Networks for Emotion andGender Classification[C].ESANN，2017.)提出的用于宏表情识别的卷积神经网络模型(mini-Xception网络模型)进行改进，并将其应用在微表情识别领域，在网络的输入层加入两个投影层，以神经网络驱动特征学习，重新整合面部特征，以产生更具有区分性的特征。具体操作如下：以步骤四得到的水平光流、垂直光流和光学应变归一化尺寸为48x48的输入为例，在输入层两边添加大小分别为30×48和48×30的左乘、右乘矩阵，矩阵的值由可训练权重组成。投影层实际上就是将经典二维卷积矩阵分解，将输入的48×48大小图像重整为具有高信息含量的30×30大小图像，以此来增强光流特征，并且减少网络的连接数量，缓解过拟合现象。

A2：在用于识别宏表情的卷积神经网络模型中添加通道注意力机制以增强网络模型的特征提取能力；

本实施例提供的微表情识别方法在mini-Xception网络模型的四个由深度可分离卷积层和批归一化层组成的循环模块中都加入一个SE模块，具体模型如图3所示，改进后得到用于微表情识别的卷积神经网络模型(ME-Xception网络模型)可以有选择性地增强信息量大的特征，使得后续处理可以充分利用这些特征，并对无用特征进行抑制。

由于微表情数据库的样本数量少，因此，采用从宏表情到微表情的迁移学习可以根据宏表情和微表情之间的语义相关性，从宏表情中学习有用的知识，帮助在微表情识别时选择高质量的样本，训练更为有效的分类器，以提高识别效果。

步骤六：将步骤四中得到的光流特征输入步骤五中迁移学习之后的ME-Xception网络模型，输出为时间空间特征，对网络进行训练后最终实现微表情识别。

本实施例采用自适应运动放大方法对微表情视频进行运动放大，从而实现微表情强度放大。人为选取CK+宏表情视频的1/3帧作为顶点帧，从而实现宏表情强度缩小。通过微表情强度放大和宏表情强度缩小可以提高宏表情识别和微表情识别两个域之间的适应性，进而充分使用宏表情转微表情识别模型完成微表情识别任务，提高微表情识别准确率。

实施例二

为了验证本发明提供的微表情识别方法的有效性，本实施例采用CK+宏表情数据集对ME-Xception网络模型进行预训练，然后分别在CASME II数据集、SAMM数据集、SMIC数据集上进行留一交叉验证(Leave One Subject Out，LOSO)实验。其中，CASME II数据集是由中国科学院心理学研究所傅小兰团队于2014年提出的自发式微表情数据集，SMIC自发式微表情数据集由芬兰奥卢大学的赵国英团队于2012年设计采集得到，SAMM自发式微表情数据集由英国曼彻斯特大学Moi Hoon Yap研究团队于2018年提出。

本实施例将微表情视频样本分为消极、积极和惊讶三大类，其中，消极的微表情标签包括厌恶、压抑、蔑视、愤怒、恐惧和伤心，积极的微表情标签为开心，惊讶的微表情标签为惊讶。实验参数设置如下，学习率为0.0001，衰减率为0.00001，使用Adam优化器。一般情况下，损失函数通常使用交叉熵损失函数，即：

其中，y为真实概率分布，

为预测概率分布。但针对微表情数据集的特殊性，选用聚焦损失函数可以解决样本类别不平衡以及样本分类难度不平衡等问题，该函数定义为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) (12)；

其中，(1-p_t)^γ是调节因子，γ≥0是可调节的聚焦参数。

进一步，加入L2正则化，以加快网络收敛和防止网络过拟合，在使用微表情数据集进行网络微调的过程中加入早停机制以得到最佳的训练模型。实验结果如图4和表3所示，图4中的准确率(Accuracy)为LOSO实验k折准确率的平均值，但由于样本类别不平衡，应该使用更加公平的平衡指标报告性能。未加权F1分数(Unweighted F1-score，UF1)在不平衡的多类环境中，提供了对稀有类的同等重视。为了计算UF1，首先要获得第i类(共C类)的LOSO实验k折上的所有真阳性(True Positives，TP)、假阳性(False Positives，FP)和假阴性(False Negatives，FN)样本个数，然后计算它们各自的F1分数。UF1通过平均每类F1分数确定：

未加权平均召回率(Unweighted Average Recall，UAR)指标也被称为系统的平衡精度，以类似的方式，首先计算每个类的准确度分数，然后按类数取平均值：

其中，n_i是第i类的样本个数。UF1和UAR指标都提供了一个平衡的判断，即一种方法是否能够同样好地预测所有类，从而降低了一种方法只适合于某些类的可能性。

根据本发明的微表情识别方法，主要有三处改进：顶点帧的自适应运动放大、在用于宏表情的卷积神经网络模型的输入层添加投影层、及在该网络模型中添加注意力机制。为了验证改进后的用于微表情识别的卷积神经网络模型的识别性能，在CASME II数据集上进行消融实验，图4示出了根据本发明的方法从不作改进到一步步改进之后的微表情识别效果对比，改进过程中各方法的详细说明如表2所示，实验结果如图4所示。由图4可知，ME-Xception模型在CASME II数据集上的UF1、UAR和Accuracy分别是88.58％、89.19％和90.62％，相较于mini-Xception模型分别提高了53.89％、56.69％和58.40％，可以说明通过自适应运动放大增强微表情识别和宏表情识别两个领域之间的相似性，极大地提高了算法的识别精度。此外，提出的两种改进方式也能够有效地选择微表情特征中的关键信息，从而在一定程度上提高网络模型的识别精度。

表1示出了CASME II数据集样本的余弦相似度及使用本发明提供的自适应运动放大方法计算得到的放大倍数；表2示出了图4中实验所用方法的详细说明；表3示出了本发明提供的微表情识别方法与其他基于深度学习的微表情识别方法在CASME II、SAMM、SMIC数据集上的识别精度对比。

表1

样本	余弦相似度	放大倍数
			Sub19_EP01_01f	0.998147722	2
Sub04_EP19_01f	0.999823365	11
			Sub01_EP02_01f	0.999893476	18
Sub01_EP04_03	0.999929765	28

表2

方法	网络模型	是否进行自适应运动放大	是否加入投影层	是否加入注意力机制
					方法1	mini-Xception	×	×	×
方法2	mini-Xception	√	×	×
					方法3	改进mini-Xception	√	√	×
方法4	ME-Xception	√	√	√

表3

如表3所示的结果可知，根据本发明的微表情识别方法在CASME II、SMIC数据集上都取得了最好的识别效果。

本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法，针对微表情肌肉运动幅度小的问题，提出一种自适应运动放大方法，基于余弦相似度计算放大倍数，由于余弦相似度的值越大，则说明两张图片越相似；本发明的方法中，微表情的强度越小，则图像序列的起始帧和顶点帧越相似，求得的余弦相似度就越大，根据余弦相似度求得的放大倍数也越大，能够保证放大后的微表情图像不失真，并且能达到较好的放大效果，从而保证微表情特征的提取精度。

本发明提供的基于自适应运动放大和卷积神经网络的微表情识别方法，通过添加投影层以进一步修改光流特征，以及在网络原型中添加通道注意力机制以增强微表情特征，改进后的ME-Xception网络模型能够进一步提取信息量大的微表情特征，更加适应微表情识别任务，从而实现更好的识别性能。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自适应运动放大和卷积神经网络的微表情识别方法，其特征在于，所述方法包括如下步骤：

步骤一：将微表情视频某一样本转化为图像序列，并进行人脸裁剪和对齐；

步骤二：读取所述图像序列的起始帧，并使用顶点帧定位算法计算得到顶点帧图片；

步骤三：采用自适应运动放大方法确定合适的放大倍数m，并根据确定的放大倍数m对所述顶点帧进行运动放大以增强微表情的特征；

步骤四：根据起始帧和放大后的顶点帧获取所述微表情视频某一样本的光流特征，得到水平光流、垂直光流和光学应变；

步骤六，将所述步骤四中得到的光流特征输入所述步骤五中迁移学习之后的模型，输出为时间空间特征，对模型进行训练后实现微表情识别。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

所述步骤一中，采用人脸检测器从所述图像序列中检测人脸，并且使用第一帧检测到的面部关键点对所述图像序列所有帧进行人脸裁剪和对齐。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

所述步骤三中，所述自适应运动放大方法基于余弦相似度的如下公式计算所述放大倍数m：

其中，

表示向下取整；cos(θ_me)表示从所述微表情视频某一样本中获得的起始帧和顶点帧计算得到的余弦相似度；α为微表情的强度变化因子。

4.根据权利要求3所述的方法，其特征在于，所述微表情的强度变化因子α的取值为0.002，由如下公式计算得到：

其中，M＝1；

表示使用宏表情视频中所有样本的起始帧和顶点帧计算得到的余弦相似度的平均值，所述宏表情视频来自CK+宏表情数据集；并且采用所述数据集中视频样本的1/3帧作为顶点帧。

5.根据权利要求3或4的任一项所述的方法，其特征在于，余弦相似度的计算公式如下：

6.根据权利要求3所述的方法，其特征在于，所述步骤三中，

将计算得到的放大倍数m和所述微表情视频某一样本的起始帧、顶点帧输入LVMM网络，得到放大后的顶点帧。

7.根据权利要求1所述的方法，其特征在于，所述步骤五中包括如下步骤：

A2：在所述用于宏表情识别的卷积神经网络模型中添加通道注意力机制，以增强网络模型的特征提取能力。

8.根据权利要求7所述的方法，其特征在于，所述步骤五中还包括如下步骤：

A3：由所述用于宏表情识别的卷积神经网络模型经过所述步骤A1和A2的改进，建立用于微表情识别的卷积神经网络模型；并且使用所述用于微表情识别的卷积神经网络模型进行从宏表情到微表情的迁移学习。

9.根据权利要求1所述的方法，其特征在于，所述方法采用自适应运动放大方法对微表情视频进行运动放大，实现微表情强度放大；并且选取CK+宏表情视频的1/3帧作为顶点帧，实现宏表情强度缩小。

10.根据权利要求9所述的方法，其特征在于，所述方法通过微表情强度放大和宏表情强度缩小，能够提高宏表情识别和微表情识别两个域之间的适应性，进而使用宏表情转微表情识别模型完成微表情识别，提高微表情识别准确率。