CN110348271A

CN110348271A - 一种基于长短时记忆网络的微表情识别方法

Info

Publication number: CN110348271A
Application number: CN201810295901.6A
Authority: CN
Inventors: 贲晛烨; 庞建华; 任亿; 翟鑫亮; 陈瑞敏; 张鑫
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-18

Abstract

本发明提供了一种基于长短时记忆网络的微表情识别方法，包括：A、微表情样本处理：1)处理微表情数据集的样本数据和标签数据；2)构建分层数据格式hdf5训练和测试文件；B、长短时记忆网络训练：3)构建卷积神经网络模型，为所构建的卷积神经网络模型微调参数，并训练一个柔性最大值损失函数，使其参数最佳；4)固定训练好的卷积神经网络模型的参数，训练长短时记忆网络模型，使得特定维的损失函数降到最低；C、微表情识别：根据训练好的长短时记忆网络模型，初始化测试参数，将用于测试的样本送入训练好的长短时记忆网络模型中，经过网络前向传播之后输出识别率。本发明提取的特征较已有方法更具有鲁棒性。

Description

一种基于长短时记忆网络的微表情识别方法

技术领域

本发明涉及一种基于长短时记忆网络的微表情识别方法，属于深度学习和模式识别的技术领域。

背景技术

微表情是一种表达人隐藏情感的情绪，通常发生在250ms～500ms的周期中，其在犯罪学、心理学、教育学等领域应用前景广泛。不同于微表情识别的是，表情识别通过检测人的面部表情变化来反映其情绪状态，这种识别技术虽然能从表面判定人的心理情绪，但是无法揭露其试图掩盖的情绪，例如，“强颜欢笑”对人表情和心理情绪不对照的描述，在这种情况下如果将其作为表情识别，虽然能识别出表面的表情却无法反应人内心的心理活动变化，因此，微表情识别作为逐渐兴起的一种面部识别技术在揭露人试图掩盖与隐藏的真实情感方面有很大的优势，然而，由于微表情较表情识别研究起步晚，因此仍面临诸多挑战。

目前，微表情识别主要通过机器学习算法实现，由于特征提取方式固定，现有主流微表情识别方法的识别率普遍不高，无法满足其在多种领域的应用需求，从特征提取方面着手来提高微表情识别率势在必行。

微表情的特征提取主要围绕时间和空间三个平面下各自的特征提取来进行，例如，对一副平面图像(X、Y两个轴)可以提取局部二元模式(LBP)的特征，而在提取微表情这种图像序列的特征时则将LBP应用到X、Y、Z三个轴上，对X-Y、X-Z、Y-Z三个平面分别提取LBP特征，这种方式是目前比较常见的微表情特征提取方式，即将二维下的提取算法拓展到三维领域，然后再将提取的特征划分成训练样本和测试样本用分类器进行训练和测试，这样做虽然能提取时间的特征，但是并不能反映图像帧与帧之间的细微变化，并且先提取特征再训练测试的方式繁琐。近年来，随着大数据的出现，为传统的模式识别增添活力，使得基于大数据的深度学习方式在行为识别、人脸识别、语义分割等领域有了新的突破，如何将深度学习应用于微表情识别，提取三维特征和反映帧之间细微变化微表情识别亟待解决的问题。

发明内容

针对现有技术的不足，本发明提供了一种基于长短时记忆网络的微表情识别方法。

发明概述：

一种基于长短时记忆网络的微表情识别方法，包括微表情样本处理、长短时记忆网络训练和微表情识别。

为了应对长短时记忆网络双标签的问题，将微表情样本以及标签加以处理组成训练样本。为了使提取的特征更具有鲁棒性，采用了卷积神经网络和长短时记忆网络结合的训练方式，将卷积神经网络的输出作为长短时记忆网络的输入。为了使卷积神经网络更快收敛，训练卷积神经网络时通过微调已有的卷积神经网路模型来训练本模型。

术语解释：

hdf5，是指Hierarchical Data Format第五版本，是一种分层数据格式，通常用于多层次数据格式的存储。类似于字典模型，在hdf5中可以定义多种不同数据格式，并分别命名，例如可以在一个hdf5文件中，定义一个data层并存储其data对应的数据，再定义一个label层并存储label对应的数据。

本发明的技术方案如下：

一种基于长短时记忆网络的微表情识别方法，包括：

A、微表情样本处理

1)处理微表情数据集的样本数据和标签数据；

2)构建分层数据格式hdf5训练和测试文件；

B、长短时记忆网络训练

3)构建卷积神经网络模型，通过利用训练好的网络模型为所构建的卷积神经网络模型微调参数，并训练一个柔性最大值损失函数，使得所构建的卷积神经网络模型的参数最佳；

4)固定训练好的卷积神经网络模型的参数，训练长短时记忆网络模型，使得特定维的损失函数降到最低；

C、微表情识别

根据训练好的长短时记忆网络模型，初始化测试参数，将用于测试的样本送入训练好的长短时记忆网络模型中，经过网络前向传播之后输出识别率。

本发明长短时记忆网络模型包含卷积神经网络和长短时记忆网络两个部分，其中第一部分将微表情分成单幅图像进行二维空间图像下的特征提取，第二部分将第一部分的参数固定并通过长短时记忆网络训练时间下的特征提取参数。最后，在识别阶段，本发明将测试样本送入训练好的长短时记忆网络，经过前向传播后在网络的一个准确度层中输出识别率。

根据本发明优选的，所述步骤A，微表情样本处理，微表情数据集的样本数据和标签数据包括每个微表情样本的图像序列、对应标签、连续标志位；图像序列记录当前图像的文件路径；连续标志位代表当前图像是否为一段序列的一张，连续标志位是0，则代表当前图像是当前序列的起始帧，连续标志位是1，则代表当前图像是当前序列的连续帧；设置连续标志位的目的在于判断如果在每个最小批量中依次输入多段图像序列时，当前图像属于哪一段序列。在本发明中，将连续标志位看作微表情的另一标签，因此这是一个双标签识别问题；包括：

a、将每个微表情样本的对应标签、连续标志位分别以数字的形式记录，将文件路径和两个数字分别写入一行文本，对于所有的微表情样本及其图像，保存为一个以行区分的文本；

b、按行读取文本，对于每一行，读取其第一个空格前内容所对应的图像数据，并保存为三维矩阵H×W×C，H、W、C分别代表图像的高、宽、通道数，并将三维矩阵H×W×C的高H、宽W调整到固定大小S×S，S的取值范围是100～300；通道数C保持不变；

c、将步骤b得到的调整后的矩阵转置为C×H×W，即调整大小和维数方向；

d、将步骤c得到的调整后的矩阵归一化处理后保存到hdf5的data中，每一行的剩余两个文字分别保存成数字后写入到hdf5的label中。

根据本发明优选的，所述步骤3)，构建卷积神经网络模型，通过利用训练好的网络模型为所构建的卷积神经网络模型微调参数，并训练一个柔性最大值损失函数，使得所构建的卷积神经网络模型的参数最佳；包括：

e、构建卷积神经网络结构：构建的卷积神经网络包括数据输入、卷积计算、全连接层和损失函数四部分，数据输入为图像数据层；卷积计算包括5层卷积层，每一层卷积层后接一个池化层和一个RELU激活函数，RELU激活函数为f(x)＝max(0,x)；5层卷积层后为三个全连接层，前两个全连接层将5层卷积层CNN输出特征规整维数为1024、2048或4096的特征，最后一个全连接层输出维数与微表情类别数相同。

卷积神经网络的输入为数据层的图像数据，假设数据的输入大小为T×N×C×H×W，T代表长短时记忆网络层处理的时间步的数量，在本发明中T代表一段图像序列的帧数，N代表一个最小批量里同时处理的序列个数，经过卷积神经网络后，输出大小为(T×N)×1×4096；

f、训练卷积神经网络：以行为识别中训练好的卷积网络为参数模板，通过共享其参数模型对卷积神经网络进行微调，即保留网络中的卷积层名称不变，改变全连接层的名称；这样做的目的是在微调过程中，名称不变的网络层参数不再更新，通过前向传播和后向传播来更新名称不同的网络层参数。使网络利用已有的参数微调，训练一个柔性最大值损失函数，以达到迅速收敛的目的，柔性最大值损失函数L_CNN如式(Ⅰ)所示：

式(Ⅰ)中，σ_h,w(a_i)为h、w对应的柔性最大值函数，M为微表情标签个数，a_i和a_j分别为送入柔性最大值损失函数之前在i和j处的网络输出，i代表M个标签中当前的标签，j代表将exp(a_j)所有M个加和中的第j个；

微调过程中的最大迭代次数为30000次，经过12000次迭代后柔性最大值损失函数基本降到0，初始学习率为0.01，每经过10000次学习率降到原来的0.1。

根据本发明优选的，所述步骤4)，固定训练好的卷积神经网络模型的参数，训练长短时记忆网络模型，使得特定维的损失函数降到最低，包括步骤如下：

长短时记忆网络向前传播：一个长短时记忆单元包含输入门、遗忘门、输出门三个门开关，输入门负责控制是否继续保持长期状态，遗忘门负责控制是否把即时状态输出到长期状态，输出门负责控制是否把长期状态作为输出，不同于普通的神经元单元只有一个状态，长短时记忆单元包括用于保存长期状态的单元状态，保存长期状态，即在当前时刻的单元状态中存储着前面所有时刻的状态单元的状态输出；

输入门接受当前时刻的输入x^t和上一时刻所有长短时记忆单元两个参数，代表第c个单元的状态，输入门的输出b_l ^t如式(Ⅱ)所示：

式(Ⅱ)中，I是指输入的个数，C是指用来保存长期状态的单元个数，H是泛指连接到当前门的其他门的个数，f是指激活函数，代表连接到当前门的其他门的输出，ω_il、ω_hl、ω_cl分别对应输入门门计算时的权值；

遗忘门接受当前时刻的输入x^t和上一时刻所有长短时记忆单元两个参数，遗忘门的输出如式(Ⅲ)所示：

式(Ⅲ)中，ω_iφ、ω_hφ、ω_cφ分别对应遗忘门计算时的权值；

对于当前时刻的长短时记忆单元，其接受输入门和输入的乘积，以及遗忘门和上一时刻长短时记忆单元输出的乘积两个参数作为输入，当前时刻的长短时记忆单元的计算如式(Ⅳ)、式(Ⅴ)所示：

式(Ⅳ)、式(Ⅴ)中，是指当前时刻的长短时记忆单元的输出，是指当前时刻所有长短时记忆单元的输出，是指上一时刻所有长短时记忆单元的输出，g是指另一个激活函数，为激活后的输入门，ω_ic、ω_hc分别是指对应单元输出计算时的权值；

输出门接受当前时刻的输入x^t和当前时刻所有长短时记忆单元的输出两个参数，输出门的输出如式(Ⅵ)所示：

式(Ⅵ)中，ω_iω、ω_hω、ω_cω分别是指对应输出门计算时的权值；

计算了输出门之后，最后长短时记忆单元的输出通过输出门与单元的值相乘得到，结果如式(Ⅶ)所示：

式(Ⅶ)中，h是指另一个激活函数，是指激活后的单元输出；

h、长短时记忆网络反向传播，在长短时记忆网络的反向传播过程中，同时计算输入门、遗忘门、输出门以及各个输出以及单元的梯度，各梯度公式如以下所示：

单元输出的梯度如式(Ⅷ)所示：

式(Ⅷ)中，K是指标签类别个数，是指每一个输出类别k的梯度，ω_ck是指对应输出类别当前单元c和输出类别k的权值；

输出门的梯度如式(Ⅸ)所示：

式(Ⅸ)中，是指通过激活函数f前的输出门的输出，见式(Ⅵ)括号内的部分，是指激活后的输出门梯度，是指激活后的单元输出；

单元梯度如式(X)所示：

式(X)中，是指激活后的单元输出梯度，是指所有单元输出的梯度；

遗忘门如式(Ⅺ)所示：

式(Ⅺ)中，代表激活后的遗忘门输出梯度；

输入门如式(Ⅻ)所示：

式(Ⅻ)中，代表激活后的输入门输出梯度。

本发明提供的长短时记忆网络结构包含卷积神经网络和长短时记忆网络两个结构，卷积神经网络基于AlexNet构建，长短时记忆网络包含数据输入层、分割层、长短时记忆网络层、重整维度层、全连接层和柔性最大值损失函数等部分，分割层将数据输入层的标签按维度分割成标签和连续标志位两部分，长短时记忆网络层将数据和连续标志位作为输入计算特征，柔性最大值损失函数将全连接层的输出和标签作为输入计算损失大小；

长短时记忆网络内部结构：长短时记忆网络内部接受数据和连续标志位为输入后，两者分别进行各自的处理。整体框架是基于循环神经网络层所实现的功能，其中多个时间步数之间的全连接层共享参数，这样做既保证每个时间步权重可以处理同一件时间序列，又可以节约计算时间提高计算效率，因此，整个网络只包含三个权重，即第一个全连接层的权重和偏置以及剩下所有子框内全连接层的权重。

根据本发明优选的，所述步骤C，根据训练好的长短时记忆网络模型，初始化测试参数，将用于测试的样本送入训练好的长短时记忆网络模型中，经过网络前向传播之后输出识别率，包括：

为了确保每段图像序列的长度相同，将所有的微表情样本通过时间插值模型(Temporal Interpolation Model，TIM)插值成T帧,T的取值范围为16～64，同时在为了保证训练效果的同时提高训练效率，训练和验证的最小批量均应为16的整数倍，处理的序列数目N为该整数倍。网络的初始学习率为0.001，每经过10000次迭代后学习率降为原来的10％，最大迭代次数设定为50000次，权重衰减项设为0.0005以防止过拟合现象。

本发明的有益效果为：

1、本发明长短时记忆网络将之前的计算结果保留并应用在当前计算结果中，这样在训练时能学习微表情帧与帧之间的细微变化，提取的特征较已有方法更具有鲁棒性。

2、本发明卷积神经网络的加入能够充分计算出微表情图像本身的特有特征。

3、本发明长短时记忆网络训练速度快，在识别过程中不需要构建类似于支持向量机等分类器，直接用训练好的模型通过向前传播测试剩余样本的识别率，识别速度同样迅速。

附图说明

图1为本发明基于长短时记忆网络的微表情识别网络整体流程图；

图2为LSTM内部结构图；

图3为训练数据生成示意图；

图4为测试识别率随迭代次数变化图；

图5为两种长短时记忆网络在CASMEⅠ、CASMEⅡ数据库的识别效果对比图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于长短时记忆网络的微表情识别方法，如图1所示，包括：

A、微表情样本处理

1)处理微表情数据集的样本数据和标签数据；

2)构建分层数据格式hdf5训练和测试文件；

B、长短时记忆网络训练

C、微表情识别

实施例2

根据实施例1所述的一种基于长短时记忆网络的微表情识别方法，其区别在于，

所述步骤A，微表情样本处理，如图2所示，微表情数据集的样本数据和标签数据包括每个微表情样本的图像序列、对应标签、连续标志位；图像序列记录当前图像的文件路径；连续标志位代表当前图像是否为一段序列的一张，连续标志位是0，则代表当前图像是当前序列的起始帧，连续标志位是1，则代表当前图像是当前序列的连续帧；设置连续标志位的目的在于判断如果在每个最小批量中依次输入多段图像序列时，当前图像属于哪一段序列。在本发明中，将连续标志位看作微表情的另一标签，因此这是一个双标签识别问题；包括：

b、按行读取文本，对于每一行，读取其第一个空格前内容所对应的图像数据，并保存为三维矩阵H×W×C，H、W、C分别代表图像的高、宽、通道数，并将三维矩阵H×W×C的高H、宽W调整到固定大小227×227。通道数C保持不变；

所述步骤3)，构建卷积神经网络模型，通过利用训练好的网络模型为所构建的卷积神经网络模型微调参数，并训练一个柔性最大值损失函数，使得所构建的卷积神经网络模型的参数最佳；包括：

e、构建卷积神经网络结构：构建的卷积神经网络包括数据输入、卷积计算、全连接层和损失函数四部分，数据输入为图像数据层；卷积计算包括5层卷积层，每一层卷积层后接一个池化层和一个RELU激活函数，RELU激活函数为f(x)＝max(0,x)；5层卷积层后为三个全连接层，前两个全连接层将5层卷积层CNN输出特征规整维数为4096的特征，最后一个全连接层输出维数与微表情类别数相同；在本实施例中为7。

所述步骤4)，固定训练好的卷积神经网络模型的参数，训练长短时记忆网络模型，使得特定维的损失函数降到最低，包括步骤如下：

输入门接受当前时刻的输入x^t和上一时刻所有长短时记忆单元两个参数，代表第c个单元的状态，输入门的输出如式(Ⅱ)所示：

式(Ⅶ)中，h是指另一个激活函数，是指激活后的单元输出；

单元输出的梯度如式(Ⅷ)所示：

输出门的梯度如式(Ⅸ)所示：

单元梯度如式(X)所示：

遗忘门如式(Ⅺ)所示：

式(Ⅺ)中，代表激活后的遗忘门输出梯度；

输入门如式(Ⅻ)所示：

式(Ⅻ)中，代表激活后的输入门输出梯度。

长短时记忆网络内部结构，如图3所示，长短时记忆网络内部接受数据和连续标志位为输入后，两者分别进行各自的处理。整体框架是基于循环神经网络层所实现的功能，其中多个时间步数之间的全连接层共享参数，这样做既保证每个时间步权重可以处理同一件时间序列，又可以节约计算时间提高计算效率，因此，整个网络只包含三个权重，即第一个全连接层的权重和偏置以及剩下所有子框内全连接层的权重。

所述步骤C，根据训练好的长短时记忆网络模型，初始化测试参数，将用于测试的样本送入训练好的长短时记忆网络模型中，经过网络前向传播之后输出识别率，包括：

为了确保每段图像序列的长度相同，将所有的微表情样本通过时间插值模型(Temporal Interpolation Model，TIM)插值成16帧；同时在为了保证训练效果的同时提高训练效率，本实施例将训练和验证最小批量分别设置为48和16，因此同时处理的序列数目N分别是3和1。网络的初始学习率为0.001，每经过10000次迭代后学习率降为原来的10％，最大迭代次数设定为50000次，权重衰减项设为0.0005以防止过拟合现象。

利用本实施例一种基于长短时记忆网络的微表情识别方法在中科院自动化的两个微表情数据库CASMEI和CASMEII上进行实验，实验过程中将数据库随机平均分成五份，每次实验过程中一份中取一半分别留作验证和测试，剩余四份用于训练，最后将实验结果取平均。

为了观察本实施例提供的微表情识别方法在训练CNN+LSTM网络过程中的测试识别率变化过程，图4给出了在CASMEⅡ库中的测试识别率随迭代次数的变化图，从图4中可以看出测试识别率在3300次迭代以后就基本稳定，这说明训练进入此阶段之后基本完成训练，这主要是由于数据库的量不足，因此训练在相对不多的迭代次数中就进入了饱和状态，而在此之前，在前面的训练迭代中测试的识别率一直处于上下浮动的状态，这也说明深度学习在此阶段一直处于不断学习的状态。

从图5可以看出，在CASMEⅠ的实验中，本实施例提供的基于长短时记忆网络(CNN+LSTM)方法高于面部动态图(FDM)、主方向平均光流特性(MDMO)以及LBP-TOP，另外在CASMEⅠ的实验结果也高于前两种方法，这说明卷积神经网络结合长短时记忆网络的方法优势得以体现。长短时记忆网络具有将之前的结果保留并应用在当前计算的特点，这种特点与微表情通过对比前后帧细微变化来决定标签的思想相符合，验证了基于长短时记忆网络的微表情识别方法的有效性与优越性。

Claims

1.一种基于长短时记忆网络的微表情识别方法，其特征在于，包括：

A、微表情样本处理

1)处理微表情数据集的样本数据和标签数据；

2)构建分层数据格式hdf5训练和测试文件；

B、长短时记忆网络训练

C、微表情识别

2.根据权利要求1所述的一种基于长短时记忆网络的微表情识别方法，其特征在于，所述步骤A，微表情样本处理，微表情数据集的样本数据和标签数据包括每个微表情样本的图像序列、对应标签、连续标志位；图像序列记录当前图像的文件路径；连续标志位代表当前图像是否为一段序列的一张，连续标志位是0，则代表当前图像是当前序列的起始帧，连续标志位是1，则代表当前图像是当前序列的连续帧；包括：

3.根据权利要求1所述的一种基于长短时记忆网络的微表情识别方法，其特征在于，所述步骤3)，构建卷积神经网络模型，通过利用训练好的网络模型为所构建的卷积神经网络模型微调参数，并训练一个柔性最大值损失函数，使得所构建的卷积神经网络模型的参数最佳；包括：

e、构建卷积神经网络结构：构建的卷积神经网络包括数据输入、卷积计算、全连接层和损失函数四部分，数据输入为图像数据层；卷积计算包括5层卷积层，每一层卷积层后接一个池化层和一个RELU激活函数，RELU激活函数为f(x)＝max(0,x)；5层卷积层后为三个全连接层，前两个全连接层将5层卷积层CNN输出特征规整维数为1024、2048或4096的特征，最后一个全连接层输出维数与微表情类别数相同；

f、训练卷积神经网络：以行为识别中训练好的卷积网络为参数模板，通过共享其参数模型对卷积神经网络进行微调，即保留网络中的卷积层名称不变，改变全连接层的名称；使网络利用已有的参数微调，训练一个柔性最大值损失函数，柔性最大值损失函数L_CNN如式(Ⅰ)所示：

式(Ⅰ)中，σ_h,w(a_i)为h、w对应的柔性最大值函数，i＝0,1,...,M，M为微表情标签个数，a_i和a_j分别为送入柔性最大值损失函数之前在i和j处的网络输出，i代表M个标签中当前的标签，j代表将exp(a_j)所有M个加和中的第j个。

4.根据权利要求1所述的一种基于长短时记忆网络的微表情识别方法，其特征在于，所述步骤4)，固定训练好的卷积神经网络模型的参数，训练长短时记忆网络模型，使得特定维的损失函数降到最低，包括步骤如下：

长短时记忆网络向前传播：一个长短时记忆单元包含输入门、遗忘门、输出门三个门开关，输入门负责控制是否继续保持长期状态，遗忘门负责控制是否把即时状态输出到长期状态，输出门负责控制是否把长期状态作为输出，长短时记忆单元包括用于保存长期状态的单元状态，保存长期状态，即在当前时刻的单元状态中存储着前面所有时刻的状态单元的状态输出；

式(Ⅶ)中，h是指另一个激活函数，是指激活后的单元输出；

单元输出的梯度如式(Ⅷ)所示：

输出门的梯度如式(Ⅸ)所示：

单元梯度如式(X)所示：

遗忘门如式(Ⅺ)所示：

式(Ⅺ)中，代表激活后的遗忘门输出梯度；

输入门如式(Ⅻ)所示：

式(Ⅻ)中，代表激活后的输入门输出梯度。

5.根据权利要求1-4任一所述的一种基于长短时记忆网络的微表情识别方法，其特征在于，所述步骤C，根据训练好的长短时记忆网络模型，初始化测试参数，将用于测试的样本送入训练好的长短时记忆网络模型中，经过网络前向传播之后输出识别率，包括：将所有的微表情样本通过时间插值模型插值成T帧,T的取值范围为16～64，训练和验证的最小批量均应为16的整数倍，处理的序列数目N为该整数倍。