CN112580555A

CN112580555A - 一种自发微表情识别方法

Info

Publication number: CN112580555A
Application number: CN202011559343.3A
Authority: CN
Inventors: 陈恩红; 徐童; 赵思蕊; 冷文昊; 李弘毅
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30
Anticipated expiration: 2040-12-25
Also published as: CN112580555B

Abstract

本发明公开了一种自发微表情识别方法，通过将微表情的特征学习过程分解成先验学习和目标学习两个阶段，并设计与之对应的孪生三维卷积神经网络模型，可以充分的让网络模型在小样本的微表情数据集上得到充分的训练，从而大幅度的提高深度模型的泛化能力，并最终提升网络模型的识别效果。

Description

一种自发微表情识别方法

技术领域

本发明涉及自发微表情识别领域，尤其涉及一种自发微表情识别方法。

背景技术

微表情是一种自发地、不受个体意识所控制的面部微弱反应，其往往发生在有压力的或者高风险的环境下，伴随着个体尝试压制或者隐藏其真实情感时产生。与常规表情不同，微表情运动强度极弱、持续时间极短(低于500ms)，不易被察觉，但微表情不可伪造，是人心理情感变化在面部的真实反应，所以微表情识别可用于非接触无感知的欺骗检测和情感分析，在司法审讯、抑郁症治疗、商业洽谈、国家安全等方面都有广泛的应用。

早期的微表情识别分析主要在心理学领域展开，通常依靠繁杂的人工分析以及通过一些专业的培训工具来训练人来识别微表情，这种依靠人力的方法不仅受限于专业培训和时间成本，而且识别准确率很低，据相关文献报到只有47％的识别准确率。因此利用机器进行自动微表情分析越来越成为主流，近年来，在计算机视觉和情感计算领域，也出现了许多的基于传统机器学习以及先进深度学习的微表情识别工作。

基于传统机器学习的微表情识别方法主要包括两步：首先设计特定的视觉特征描述算子提取微表情特征，如LBP-TOP，3DHOG等，然后利用各种分类器，包括：SVM，随机树森林等进行分类识别。这类方法最大的问题就是需要依赖先验知识和启发式的特征工程，从而限定了其使用场景。

相比于基于传统机器学习的微表情识别方法，利用深度学习进行微表情识别最大的优势就是充分整合了微表情特征提取和分类识别过程，并且能提取更高层次的微表情特征，目前研究者们也提出了各种基于卷积神经网络的微表情识别模型，在识别性能上也取得了一定的突破，然而，深度学习方法是一种数据驱动型的方法，往往需要依赖大规模的数据样本进行训练，在现有的小规模微表情数据集上表现也不如人意，往往面临严重的过拟合问题，此外更糟的是，现有微表情数据存在严重的类样本不均衡问题，这也让深度神经网络模型更难训练，所以利用深度学习进行微表情识别仍然具有很大的挑战。

发明内容

本发明的目的是提供一种自发微表情识别方法，能够有效的提升自发微表情识别的准确率。

本发明的目的是通过以下技术方案实现的：

一种自发微表情识别方法，包括：

构建孪生三维卷积神经网络，对其进行两阶段的训练：第一阶段训练为先验学习阶段，孪生三维卷积神经网络的输入为预处理后的原始数据集通过类别标签异同划分得到的若干微表情样本对，通过孪生三维卷积神经网络来判断微表情样本对是否为同类的微表情，从而反向更新孪生三维卷积神经网络的参数；第二阶段训练为目标学习阶段，孪生三维卷积神经网络的输入为预处理后的原始数据集，通过第一阶段训练后的孪生三维卷积神经网络对输入微表情样本进行分类，固定孪生三维卷积神经网络前端特征提取层中靠前的若干卷积单元的参数，更新特征提取层其余卷积单元以及末端推理层的参数；其中，预处理后的原始数据集中的每一微表情样本均为用于描述自发微表情的光流图像帧序列；

之后，通过训练得到的孪生三维卷积神经网络对待识别的微表情样本进行分类。

由上述本发明提供的技术方案可以看出，通过将微表情的特征学习过程分解成先验学习和目标学习两个阶段，并设计与之对应的孪生三维卷积神经网络模型，可以充分的让网络模型在小样本的微表情数据集上得到充分的训练，从而大幅度的提高深度模型的泛化能力，并最终提升网络模型的识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种自发微表情识别方法的流程图；

图2为本发明实施例提供的训练数据准备工作以及网络训练的流程图；

图3为本发明实施例提供的原始微表情样本预处理的示意图；

图4为本发明实施例提供的原始微表情样本预处理的效果；

图5为本发明实施例提供的基于孪生三维卷积神经网络和两阶段学习的自发微表情识别方法的模型图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种自发微表情识别方法，如图1所示，其主要包括：

构建孪生三维卷积神经网络，对其进行两阶段的训练：第一阶段训练为先验学习阶段，孪生三维卷积神经网络的输入为预处理后的原始数据集通过类别标签异同划分得到的若干微表情样本对，通过孪生三维卷积神经网络来判断微表情样本对是否为同类的微表情，从而反向更新孪生三维卷积神经网络的参数；第二阶段训练为目标学习阶段，孪生三维卷积神经网络的输入为预处理后的原始数据集，通过第一阶段训练后的孪生三维卷积神经网络对输入微表情样本进行分类，固定孪生三维卷积神经网络前端特征提取层中靠前的若干卷积单元的参数，更新末端推理层的参数；其中，预处理后的原始数据集中的每一微表情样本均为用于描述自发微表情的光流图像帧序列；

为了便于理解，下面结合图2对训练之前的数据准备工作以及训练过程做详细的介绍。

一、数据样本预处理。

本发明实施例中，对原始数据集中每一原始微表情样本均进行如下处理，得到对应的光流图像帧序列，预处理的优选实施方式如下：

1)确定每一原始微表情样本中的三个基本关键帧，分别为起始帧、峰值帧以及结束帧，通过三个基本关键帧将原始微表情样本分为：起始帧至峰值帧、峰值帧至结束帧的两个片段。

通常来说，原始微表情样本是一个微表情序列，已经标定了三个基本关键帧。

2)通过自适应关键帧构造方法产生一个由3+S个RGB图像帧构成的关键帧序列，自适应关键帧构造方法包括时间自适应与空间自适应。

在时间自适应层面，需要在起始帧至峰值帧、峰值帧至结束帧的两个片段中间生成过渡帧来构成最后的关键帧序列，由于每个微表情运动的规律不一致，这也将导致起始帧至峰值帧和峰值帧至结束帧两个片段的时间长度不同，所以为了保障最后的关键帧序列在时序空间上与原始微表情高度一致。

本发明实施例中，计算在两个片段中分别插入的中间过渡帧数目N_sp和N_pe，中间过渡帧的数目N_sp和N_pe由原始微表情样本的长度N以及两个片段的时间间隔(t_p-t_s+1)和(t_e-t_p+1)共同决定，表示为：

N_sp＝(t_p-t_s+1)*S/N

N_pe＝(t_e-t_p+1)*S/N

N_sp+N_pe＝S

其中，S为偶数，表示插入的中间过渡帧总数，t_s代表起始(start)帧的时间索引，t_p代表峰值(peak)帧的时间索引，t_e代表结束(end)帧的时间索引。

示例性的，可以设置S＝8。

在空间自适应层面，当给定两个不同时序位置的图像帧I_t1和I_t2时，使用自适应卷积神经网络(AdConv)生成它们的中间帧I_t，其中t₁、t₂和t为对应关键帧的时间索引，且t＝(t₁+t₂)/2。

本发明实施例中，时间自适应主要用来确定两个片段各自需要插入的中间过渡帧数目，空间自适应则是通过自适应卷积神经网络在两个片段的相应时序位置生成相应数目的中间过渡帧。具体地，自适应卷积神经网络是给定序列中的两帧，生成中间的一帧。例如，对于Start-Peak片段，生成的第一个中间过渡帧I_m＝Adconv(I_s，I_p)，I_m代表的I_s和I_p的中间帧，它们的时间索引是t_s，t_p和t_m，且t_m＝(t_s+t_p)/2。如此Start-Peak片段的其他N_sp-1个中间过渡帧依次生成：I_m1＝Adconv(I_s，I_m)，I_m2＝Adconv(I_s，I_m1)，I_m3＝Adconv(I_s，I_m2)......。对于Peak-End片段，使用同样的方法生成中间过渡帧。

本发明实施例提供的自适应关键帧构造方法可以描述为表1所示过程：

表1自适应关键帧构造方法

3)利用光流法得到与关键帧序列对应的光流图像帧序列。

图3示例性的给出了针对一个原始微表情样本进行预处理的过程，该示例中，S＝8，两个片段各插入4个(此处，N_sp和N_pe都等于4)中间过渡帧，得到11个RGB图像帧构成的关键帧序列，通过光流法得到与之对应的10个光流图像帧序列对原始微表情序列进行动态信息描述，即一个原始微表情样本，利用10个光流关键帧图像进行描述。图4给出了预处理的效果图。

本发明实施例提供上述自适应关键帧构造方法，最终构造微表情光流关键帧对原始微表情训练进行摘要描述，可以有效的消除原始序列中的冗余信息，进而能让模型的特征学习更有针对性，间接的也可以减少模型的参数，从而大幅度的缓解了模型过拟合问题。

二、构造数据集。

对于预处理后的原始数据集D_ori，按照其类别标签的异同进行重组得到新的数据集D_rec，具体地，将两个不同微表情样本划分为一组，构成一个微表情样本对，根据两个微表情样本是否属于同一种类来给定真实标签，如果是同一类则真实标签记为1，否则记为0。

对于一个拥有K类以及总数量为Q的原始数据集，假设类i的微表情样本个数为Q_i，则将获得M个样本对，M的计算如下

其中，C为数学排列组合符号，下标表示相应类别的微表情样本个数样本总数，上标1表示从样本总取出的样本数目。例如，

表示类i的Q_i个微表情样本中取出一个样本，

表示从类i的Q_i-1个微表情样本中取出一个样本，

表示的是从同类微表情样本中取出不同微表情样本构成一个微表情样本对；类似的

表示的是从不同类微表情样本中取出不同微表情样本构成一个微表情样本对。

三、网络训练(即两阶段特征学习)。

如图5所示，提供了本发明构造的孪生三维卷积神经网络(SiamC3D)的主要结构，以及两阶段训练的过程。

1、网络结构。

本发明实施例中，构造的孪生三维卷积神经网络(SiamC3D)主要包括两个结构完全相同的子网络，两个子网络的参数是完全共享的；每一个子网络包括：前端的特征提取层(SinC3D层)、以及末端的推理层。

具体来说：所述特征提取层包括多个卷积单元，每一卷积单元包含依次设置的三维卷积层与最大池化层；所述推理层包括：依次设置的拉伸层、全连接层、相似度度量层和分类输出层；分类输出层包含了Sigmoid与Softmax两类激活函数，分别用于第一阶段训练的输出与第二阶段训练的输出，两个子网络共用同一个相似度度量层和分类输出层。

示例性的，特征提取层可以包括5个卷积单元，如图5的(C)部分所示。每个卷积单元由一个三维卷积层和一个最大池化层组成，5个卷积层的卷积核个数分别设为[32,64,128,128,256]，卷积核的filter参数都为3x3x3，5个最大池化层除了第一个的filter参数为2x2x1之外，其他的都为2x2x2。

示例性的，推理层中全连接层的节点数可以为4096个，Dropout率(随机关闭结点的连接率)为0.5。

2、先验学习。

本发明实施例中，第一阶段训练为先验学习阶段，训练数据为前述步骤二构造的数据集D_rec，每一次输入一个微表情样本对至网络中，经过先验学习后是的网络能够获得提取基本微表情特征的能力。

如图5的(A)部分所示，每一次学习过程中，通过网络判断输入的微表情样本是否是同一种类的微表情，输出相应的概率，具体来说：将单次输入的微表情样本对记为[I₁,I₂]，经过特征提取层后，将微表情样本对的特征向量[F₁,F₂]，通过推理层度量两个特征向量的L1距离并利用Sigmoid函数映射到[0,1]空间，得到微表情样本对是否为同一类微表情的概率P(I₁,I₂)：

其中，D是特征向量F₁和F₂的维度，F₁＝[f₁₁,f₁₂,…,f_1D]，F₂＝[f₂₁,f₂₂,…,f_2D]；

根据概率P(I₁,I₂)与微表情样本对是否为同类的真实标签，利用神经网络反向传播算法更新孪生三维卷积神经网络的参数，包含特征提取层与推理层的参数。

3、目标学习阶段。

第二阶段训练为目标学习阶段，针对第一阶段训练后的孪生三维卷积神经网络做进一步调整。训练数据为预处理后的原始数据集D_ori，该阶段固定住网络特征提取层的前两个卷积单元的参数，并调整特征提取层后三个卷积单元以及推理层的参数并使用Softmax函数进行目标任务分类。

如图5的(B)部分所示，考虑到孪生三维卷积神经网络中两个子网络的结构完全相同，且共享参数，因此，第二阶段训练时选择任一子网络进行训练即可，此外，第二阶段训练也无需使用相似度度量层。

每一次学习过程中，对于输入微表情样本，通过孪生三维卷积神经网络预测其属于第k类的概率：

其中，P(y＝k/v_i)表示v_i属于第k类的概率；v_i是特征提取层输出的微表情样本特征再经过全连接层之后得到的输出V中的元素，且V＝[v₁,v₂,…,v_n]，n为元素数目；K为总类别数，这里K＝n；a_i和γ均为超参数。

此外，考虑到现有微表情数据集存在的类样本不均衡所导致的模型训练退化问题，本发明提出使用焦点损失(Focal loss)作为目标分类损失函数，表示为：

其中，y表示输入微表情样本的真实类别标签，y＝(y₁、y₂,…,y_K)，真实类别对应的值为1，其余值为0；

表示孪生三维卷积神经网络预测的输入微表情样本属于各类的概率，

K为总类别数。

示例性的，可以利用随机梯度下降(SGD)进行优化，总的轮训次数为100，初始学习率在先验学习阶段设定为0.004，在目标学习阶段设定为0.0004，并且每10个步长下降为原来的0.1,当目标loss连续15次迭代都不下降后，停止训练。此处所涉及的具体数值均为举例。

完成以上训练后，保留所训练的子网络，利用该子网络作为最终的识别网络，用于自发微表情识别任务，具体的，依次通过特征提取层与推理层，预测出待识别的微表情样本属于各个类别的概率，将概率值最高的类别作为识别结果。此外，待识别的微表情样本同样为按照前文提供的预处理方案得到的光流图像帧序列。

本发明实施例上述方案，主要获得如下有益效果：

1)通过将微表情的特征学习过程分解成先验学习和目标学习两个阶段，并设计与之对应的孪生三维卷积神经网络模型，可以充分的让模型在小样本的微表情数据集上得到充分的训练，从而大幅度的提高深度模型的泛化能力。

2)使用本发明提出的自适应关键帧构造算法，最终构造微表情光流关键帧对原始微表情训练进行摘要描述，可以有效的消除原始序列中的冗余信息，进而能让模型的特征学习更有针对性，间接的也可以减少模型的参数，从而大幅度的缓解了模型过拟合问题。

3)在训练模型进行目标分类时，使用Focal Loss作为损失函数能消除由微表情数据集类样本不均衡所导致的模型训练退化问题，从而是的最终的识别准确率更高。

为了直观的体现本发明上述方案的识别效果，在公开数据集CASME II、SAMM数据集和SMIC-HS数据集上进行了三分类实验，实验结果如表2所示，识别准确率与F1值都远高于目前的识别方案。

验证数据集	识别准确率(％)	识别F1值
			CASME II	87.63	0.8818
SAMM	72.80	0.8068
			SMIC	75.98	0.7356

表2实验结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种自发微表情识别方法，其特征在于，包括：

2.根据权利要求1所述的一种自发微表情识别方法，其特征在于，所述孪生三维卷积神经网络包括两个结构完全相同的子网络，两个子网络的参数是完全共享的；每一个子网络包括：前端的特征提取层、以及末端的推理层；

第一阶段训练中，微表情样本对中的微表情样本各自输入至一个子网络；第二阶段训练中，任选一个子网络进行训练；最终保留第二阶段训练后的子网络对待识别的微表情样本进行分类。

3.根据权利要求2所述的一种自发微表情识别方法，其特征在于，

所述特征提取层包括多个卷积单元，每一卷积单元包含依次设置的三维卷积层与最大池化层；

所述推理层包括：依次设置的拉伸层、全连接层、相似度度量层和分类输出层；分类输出层包含了Sigmoid与Softmax两类激活函数，分别用于第一阶段训练的输出与第二阶段训练的输出，两个子网络共用同一个相似度度量层和分类输出层。

4.根据权利要求1所述的一种自发微表情识别方法，其特征在于，第一阶段训练时，将单次输入的微表情样本对记为[I₁，I₂]，经过特征提取层后，将微表情样本对的特征向量[F₁，F₂]，通过推理层度量两个特征向量的L1距离并映射到[0，1]空间，得到微表情样本对是否为同一类微表情的概率P(I₁，I₂)：

其中，D是特征向量F₁和F₂的维度，F₁＝[f₁₁，f₁₂，...，f_1D]，F₂＝[f₂₁，f₂₂，...，f_2D]；

根据概率P(I₁，I₂)与微表情样本对是否为同类的真实标签，利用神经网络反向传播算法更新孪生三维卷积神经网络的参数。

5.根据权利要求3所述的一种自发微表情识别方法，其特征在于，第二阶段训练时，对于输入微表情样本，通过孪生三维卷积神经网络预测其属于第k类的概率：

其中，P(y＝k/v_i)表示v_i属于第k类的概率；v_i是特征提取层输出的微表情样本特征再经过全连接层之后得到的输出V中的元素，且V＝[v₁，v₂，...，v_n]，n为元素数目；K为总类别数，K＝n。

6.根据权利要求1或5所述的一种自发微表情识别方法，其特征在于，第二阶段训练时，使用Focal loss作为目标分类损失函数，表示为：

其中，y表示输入微表情样本的真实类别标签，y＝(y₁、y₂，...，y_K)，真实类别对应的值为1，其余值为0；

表示孪生三维卷积神经网络预测的输入微表情样本属于第k类的概率，

K为总类别数；a_i和γ均为超参数。

7.根据权利要求1所述的一种自发微表情识别方法，其特征在于，对预处理后的原始数据集通过异同划分包括：

将两个不同微表情样本划分为一组，构成一个微表情样本对，根据两个微表情样本是否属于同一种类来给定真实标签，如果是同一类则真实标签记为1，否则记为0；

其中，C为数学排列组合符号，下标表示相应类别的微表情样本个数，上标1表示取出的样本数目。

8.根据权利要求1所述的一种自发微表情识别方法，其特征在于，对原始数据集进行预处理的方式包括：

确定每一原始微表情样本中的三个基本关键帧，分别为起始帧、峰值帧以及结束帧，通过三个基本关键帧将原始微表情样本分为：起始帧至峰值帧、峰值帧至结束帧的两个片段；

通过自适应关键帧构造方法产生一个由3+S个RGB图像帧构成的关键帧序列，自适应关键帧构造方法包括时间自适应与空间自适应；

在时间自适应层面，计算在两个片段中分别插入中间过渡帧数目N_sp和N_pe，中间过渡帧的数目N_sp和N_pe由原始微表情样本的长度N以及两个片段的时间间隔t_s和t_p共同决定，表示为：

Ns_p＝(t_p-t_s+1)*S/N

N_pe＝(t_e-t_p+1)*S/N

N_sp与N_pe＝S

其中，S为偶数，表示插入的中间过渡帧总数；t_s代表起始帧的时间索引，t_p代表峰值帧的时间索引，t_e代表结束帧的时间索引；

在空间自适应层面，对于任意片段，当给定两个不同时序位置的图像帧I_t1和I_t2时，使用自适应卷积神经网络生成它们的中间帧I_t，其中t₁、t₂和t为对应关键帧的时间索引，且t＝(t₁+t₂)/2；从而为两个片段生成相应时序位置处相应数目的中间过渡帧；

之后，并利用光流法得到与关键帧序列对应的光流图像帧序列；

对所有原始微表情样本进行处理得到相应的光流图像帧序列，完成原始数据集的预处理。