CN112560810A

CN112560810A - 基于多尺度时空特征神经网络的微表情识别方法

Info

Publication number: CN112560810A
Application number: CN202110188615.1A
Authority: CN
Inventors: 陶建华; 张昊; 刘斌; 佘文祥
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-03-26
Anticipated expiration: 2041-02-19
Also published as: US11908240B2; CN112560810B; US20220269881A1

Abstract

本申请涉及基于多尺度时空特征神经网络的微表情识别方法，可以从微表情视频帧中学习到微表情的空间域与时间域的特征，将两者特征结合形成更加鲁棒的微表情特征。同时针对微表情发生在面部局部区域，将微表情产生的活跃的局部地区与全局区域相结合用于微表情识别。解决了微表情连续帧之间特征提取不足，以及微表情在局部区域较为活跃的问题。本发明对自发式微表情的准确率，相比于其它方法，具有一定的优势，78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

Description

基于多尺度时空特征神经网络的微表情识别方法

技术领域

本申请涉及图像处理技术领域，尤其涉及基于多尺度时空特征神经网络的微表情识别方法。

背景技术

微表情（Micro-expression）是一种自发式的表情，在人试图掩盖内在情绪时产生，既无法伪造也无法抑制。当人的心里隐藏某种真实的情绪时，会发生微表情，通常微表情的持续时间在1/25-1/3秒。微表情较小的动作幅度以及短暂的持续时间对人的肉眼识别是一个巨大的挑战。由于微表情不能伪造和抑制，可以作为判断人主观情绪的重要依据。通过对人脸微表情识别技术的开发，可以有效识别人脸微表情，并对微表情进行解读。捕捉人们面部的微表情，经过数据库的处理和分析可在反恐、安检和刑讯，人际交往，教学评价反馈等领域中发挥重要的作用。

微表情识别任务是指将给定的微表情样本识别为某一具体的情感类别，是微表情自动识别的核心任务。传统的手工特征分析微表达式的方法包括时空局部二元模式(LBP)、LBP-TOP、定向平均光流特征等。这些方法的主要缺点是从视频中提取大部分肤浅的信息，缺乏抽象特征表示所需的信息。最近，基于深度学习的方法，如卷积神经网络(CNN)，已经越来越流行，并被广泛应用于解决各种计算机视觉问题，并取得优于传统方法的结果。因此,本专利主要结合深度学习对微表情进行识别。

专利申请公布号CN 110008841 A涉及一种表情识别模型构建方法及系统，涉及数据处理领域。该方法包括S1：获取源图像并进行预处理，得到预处理图像；S2：根据所述源图像和所述预处理图像构建深度学习模型，引入迁移学习对所述深度学习模型进行权重训练，得到图像预训练模型；S3：根据所述图像预训练模型得到微调模型；S4：利用所述微调模型对所述预处理图像进行微调模型训练，得到表情识别模型本方案解决了如何提高表情识别模型的准确率的技术问题，适用于表情识别。

专利申请公布号CN 110705430 A公开了一种基于深度学习的多人面部表情识别方法和识别系统，其中识别方法包括步骤：1、建立表情识别模型；2、构建训练样本集，对表情识别模型中的参数进行训练；3、待识别图像采用MTCNN网络检测图中的人脸，得到待识别图像中人脸窗口；将检测出的人脸区域输入训练好的表情识别模型中进行识别，得到待识别图像中每个人脸的表情分类结果。该识别方法将深度学习应用到表情识别，能快速完成多人面部表情识任务，且识别率高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了基于多尺度时空特征神经网络的微表情识别方法，包括：

S1：获取微表情视频集合，将所述微表情视频集合述转化为微表情图像序列样本集合；

S2：从所述微表情图像序列样本集合提取人脸图像集合，并对所述人脸图像集合进行灰度化处理，形成人脸图像序列样本集合；

S3：提取人脸图像序列样本集合中的感兴趣的局部区域，作为提取局部特征的样本，并形成局部特征样本集合；

S4：将人脸图像序列样本集合和局部特征样本集合的时间尺度归一化，得到人脸图像序列样本归一化集合和局部特征样本归一化集合；

S5：建立有提取空间特征和时间特征的神经网络合并而成的时空特征神经网络，将所述人脸图像序列样本归一化集合和所述局部特征样本归一化集合作为输入，对所述时空特征神经网络进行训练；

S6：将待识别的微表情视频输入到训练好的时空特征神经网络，得到识别出的微表情。

优选地，所述从所述微表情图像序列样本集合提取人脸图像集合的方法为：

S21：对微表情图像序列进行人脸检测，裁剪出矩形人脸图像并进行缩放；

S22：将裁剪的人脸图像序列进行灰度归一化处理，具体处理为：

和

分别表示人脸图像序列和灰度归一化后的图像，max和min表示人脸图像序列的最大值与最小值。

优选地，所述提取人脸图像序列样本集合中的感兴趣的局部区域，作为提取局部特征的样本的方法为，

S31：根据人脸运动单元和人脸图像序列样本集合中情感的运动单元标注，选择微表情发生时动作幅度较大的局部区域作为感兴趣区域；

S32：将人脸图像序列样本裁剪出感兴趣区域，作为微表情的局部特征的样本。

优选地，所述情感的运动单元标注为，预先对人脸图像序列样本进行微表情标注。

优选地，所述时间尺度归一化的方法为，时间插值算法。

优选地，所述建立有提取空间特征和时间特征的神经网络为，建立由全局特征即面部区域和局部特征即感兴趣的局部区域组成的时空特征神经网络。

优选地，所述时空特征神经网络包括，

全局特征提取层、局部特征提取层、连接层、全连接层和输出层；所述全局特征提取层和局部特征提取层分别与所述连接层连接，所述连接层与所述全连接层连接，所述全连接层与所述输出层连接；所述全局特征提取层包括，输入层、三维卷积层、三维最大值池化层、重塑层、长短期记忆模型循环神经网络；所述输入层与所述三维卷积层连接，所述三维卷积层与所述三维最大值池化层连接，所述三维最大值池化层与所述重塑层连接，所述重塑层与所述长短期记忆模型循环神经网络连接；所述局部特征提取层与所述全局特征提取层结构相同，数据的输入格式不同。

优选地，所述三维卷积层和所述全连接层都使用激活函数，所述激活函数的具体形式为，

x为所述激活函数的输入变量。

优选地，对所述时空特征神经网络进行训练采用的损失函数为交叉熵损失函数，具体形式为，

其中，M是类别的数量；y _ic指指示变量,如果该类别和样本i的类别相同就是1，否则是0；P _ic对于观测样本i属于类别的预测概率；N是样本数量；

所述时空特征神经网络进行训练采用随机梯度下降法计算损失函数。

优选地，所述时空特征神经网络进行训练采用批量归一化算法；在数据预处理中，使用近似白化处理，其公式具体为，

其中

是神经网络层中某个神经元的输入，

=Wh+b, W是该层的权重，h为上一层的输出，b为不确定常数，

是对该层神经元在随机梯度下降法中一个批次所有输入数据的均值，

是该神经元一个批次所有输入数据的标准差。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，对自发式微表情的准确率，相比于其它方法，具有一定的优势，78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的基于多尺度时空特征神经网络的微表情识别方法流程图；

图2是根据一示例性实施例示出的局部区域裁剪示意图；

图3是根据一示例性实施例示出的时空特征神经网络的网络结构框图。

图中：1—全局特征提取层，11—输入层，12—三维卷积层，13—三维最大值池化层，14—重塑层，15—长短期记忆模型循环神经网络，2—局部特征提取层，21—输入层，22—三维卷积层，23—三维最大值池化层，24—重塑层，25—长短期记忆模型循环神经网络，3—连接层，4—全连接层，5—输出层。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

图1，为本申请实施例提供的基于多尺度时空特征神经网络的微表情识别方法，包括：

S1：获取微表情视频集合，将所述微表情视频集合述转化为微表情图像帧序列样本集合；

和

人脸检测借助Python中的Dilb库进行人脸检测，再使用dilb_cut_faces.py将检测到的人脸剪切下来。Dlib库相比于其它检测人脸方法模型较小，运行速度快，将得到的人脸尺寸归一化到140*120像素。

S3：提取人脸图像序列样本中的感兴趣的局部区域，作为提取局部特征的样本，并形成局部特征样本集合；

S31：根据人脸运动单元和人脸图像序列样本集合中不同情感的人脸运动单元的标注，选择微表情发生时动作幅度较大的局部区域作为感兴趣区域；所述情感的运动单元标注为，预先对人脸图像序列样本进行微表情标注；

S32：将人脸图像序列样本裁剪出感兴趣区域，作为微表情的局部特征的样本；获得划分好的感兴趣区域（眼睛，嘴巴）一个划分感兴趣区域的实例如图2所示。其中眼部区域的像素大小为50*40，嘴巴的区域大小为30*80。

S4：将人脸图像序列样本集合和局部特征样本集合的时间尺度归一化，得到人脸图像序列样本归一化集合和局部特征样本归一化集合采用时间插值算法。

S5：建立有提取空间特征和时间特征的神经网络合并而成的时空特征神经网络，，建立由全局特征即面部区域和局部特征即感兴趣的局部区域组成的时空特征神经网络，将所述人脸图像序列样本归一化集合和所述局部特征样本归一化集合作为输入，对所述时空特征神经网络进行训练；

所述时空特征神经网络包括，

全局特征提取层1、局部特征提取层2、连接层3、全连接层4和输出层5；所述全局特征提取层1和局部特征提取层2分别与所述连接层3连接，所述连接层3与所述全连接层4连接，所述全连接层4连接与所述输出层5连接；所述全局特征提取层1包括，输入层11、三维卷积层12、三维最大值池化层13、重塑层14、长短期记忆模型循环神经网络15；所述输入层11与所述三维卷积层12连接，所述三维卷积层12连接与所述三维最大值池化层13连接，所述三维最大值池化层13与所述重塑层14连接，所述重塑层14与所述长短期记忆模型循环神经网络15连接；所述局部特征提取层2与所述全局特征提取层1结构相同，数据的输入格式不同。

所述三维卷积层12和所述全连接层4都使用激活函数，提高模型的表达能力，所述激活函数的具体形式为，

x为所述激活函数的输入变量。

使用三维卷积对所述多个微表情视频帧序列进行空间特征提取，得到微表情的空间特征，与传统的识别相比，CNN没有复杂的特征提取以及数据重建的过程。

长短期记忆模型循环神经网络(LSTM)对提取到的每个视频帧提取其相关的时间维度的特征，LSTM是一种基于循环神经网络改进的网络（Recurrent Neural Network，RNN）改进的网络，其出现使得学习序列的特征有了突破性的发展。

将每个通道提取到的时空特征聚合，形成微表情的时空特征。

对所述时空特征神经网络进行训练采用的损失函数为交叉熵损失函数，具体形式为，

将每个通道对应的特征作为输入，训练神经网络，训练时采用随机梯度下降法（Stochastic gradient descent）计算损失函数。随机梯度下降正利用每个样本的损失函数对求偏导得到对应的梯度，随机梯度下降是通过每个样本来迭代更新一次。

训练神经网络时，网络参数值设置如下：所有卷积层的卷积核大小为3*3*3，一共设置16个卷积核；对于最大池化层，其最大池化层窗口大小为3*3*3；LSTM层的参数为512，学习率设置为0.01，batch_size为16。

在训练神经网络模型时，由于微表情数据集较小，容易产生过拟合的现象。为了防止过拟合，采用Dropout算法。在每个训练的批次中，适当的忽略一些参数，减小其相互作用，能够显著的的降低过拟合的现象，可以使模型拥有更好的泛化能力，将Dropout的参数设置为0.5。

所述训练采用批量归一化算法；在数据预处理中，使用近似白化处理，其公式具体为，

其中

是神经网络层中某个神经元的输入，

=Wh+b, W是该层的权重，h为上一层的输出，b为不确定常数，

是该神经元一个批次所有输入数据的标准差。

以上描述的具体实施例采用CASMEII数据库，为中国科学院发布的关于自发式微表情的公开数据集，本实施例在CASMEII数据库上进行实验，该自发式微表情数据集被广泛用于自发式微表情的分类任务中。该数据集总共包括26位受试者共255个微表情序列，采集数据集的摄像机帧率是200frame/s，图像分辨率是280像素*340像素，所有的样本都是自发的，该数据集一共包括7种类别，分别是厌恶（Disgust），高兴（Happiness），惊讶（Surprise），抑郁（Repression），悲伤（Sadness），害怕（Fear），其它（Others），为验证本发明对微表情的识别具有有效性，随机选取其中80%的视频进行实验。

本发明对自发式微表情的准确率，相比于其它方法，具有一定的优势，78.7%的准确率充分说明本发明对微表情的识别取得良好的成效。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。