CN112784804A

CN112784804A - 基于神经网络敏感性分析的微表情识别方法

Info

Publication number: CN112784804A
Application number: CN202110149925.2A
Authority: CN
Inventors: 付晓峰; 胡卓群; 付晓鹃
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-11
Anticipated expiration: 2041-02-03
Also published as: CN112784804B

Abstract

本发明公开了一种基于神经网络敏感性分析的微表情识别方法。本发明首先构造一个基础的深度神经网络并在ImageNet数据集上进行预训练，再在宏表情数据集CK+上进行微调。接着，使用神经网络敏感性分析工具TCAV量化地分析该模型在表情判别过程时，人脸感兴趣区域在各层的敏感性。本发明提取TCAV分数最高层的输出，采用特征融合技术设计新的网络结构，并在微表情数据集上进行迁移学习，得到针对微表情识别的网络模型。本发明能有效提高微表情种类识别的性能。

Description

基于神经网络敏感性分析的微表情识别方法

技术领域

本发明属于计算机图像处理技术领域，涉及一种基于神经网络敏感性分析的微表情识别方法。

背景技术

微表情是人类面部肌肉的细微而短暂的动作，当一个人试图隐藏他或她的真实情绪时，这些微表情会不由自主地发生。与传统的宏表情相比，微表情识别在刑事审讯、国土安全和心理治疗等领域存在着巨大的潜力。因此，近年来科研人员对微表情的研究兴趣迅速增加。然而，无论是人工识别微表情还是自动识别微表情，微表情低强度和短持续时间的特性仍然是微表情识别面临的主要挑战。

在当前的机器学习方法中，视频中微表情判别方法多基于连续帧的微表情，根据其变化幅度提取相应特征并进行判别，比如光流法和局部二值模式法。其中，光流法通过检测帧与帧之间像素的变化来测量亮度的变化，进而对微表情进行辨别。

使用神经网络对微表情进行判别的过程中，在每一层都会提取到不同层次的人脸特征。然而，在之前的基于深度学习的微表情识别方法中，很少有将低层次的有效特征和高层次的特征进行结合并进行综合判别。

发明内容

本发明针对现有技术的不足，提供了一种基于神经网络敏感性分析的微表情识别方法，该方法在微表情识别应用上具有高精度的特点。

本发明具体是：

步骤S1：设计一个常规的包含9层卷积层以及1层全连接层(FC1)和1层logit层(全连接层FC2)的卷积神经网络结构(详见表1)。

表1步骤S1中基础网络结构及参数设置

阶段	层	输入格式	步长	通道数
					1	Conv 4×4	224×224	2	32
2	Conv 3×3	112×112	1	64
					3	Conv 3×3&Pooling	110×110	1	128
4	Conv 3×3	55×55	1	256
					5	Conv 3×3	55×55	2	256
6	Conv 3×3&Pooling	28×28	1	256
					7	Conv 3×3	14×14	1	512
8	Conv 3×3	14×14	1	512
					9	Conv 3×3&Pooling	14×14	1	512
10	FC1&dropout	7×7×512	-	1024
					11	FC2	1024	-	N classes

步骤S2：选择ImageNet数据库中的前200类事物在步骤S1中的卷积神经网络进行训练，得到网络模型。

步骤S3：选择宏表情数据集CK+对由步骤S2得到的网络模型进行迁移学习，并得到相应的网络模型。

具体地，本发明在步骤S3中的迁移学习时，冻结了步骤S2得到的网络模型前6层的参数。同时，由于步骤S2中需要分成200类，而步骤S3中CK+仅有7类，步骤S3中卷积神经网络最后一层的全连接层神经元个数也由200个修改为7个。

步骤S4：使用神经网络敏感性分析工具Testing with Concept ActivationVectors(TCAV)对步骤S3得到的网络模型每一层进行敏感性测试。

具体地，本发明在步骤S4中根据人脸肌肉将人脸分成数个感兴趣区域，并将这些区域作为测试样例对神经网络模型进行敏感性测试。

步骤S5：根据步骤S4中得到的敏感性测试结果，对步骤S3中的神经网络进行修改。

具体地，将对人脸感兴趣区域敏感性评分最高的层的输出结果分流到一个新的分支中。该分支包含一层卷积层以及一层全连接层。并将该分支的全连接层与原本网络结构的全连接层进行拼接，并在其后添加一个分类器(logit层，图5的FC2)。即，将神经网络浅层的低级特征与深层的高级特征进行融合，联合判别微表情。这个添加了分支的网络结构即为最终的神经网络结构。

具体地，浅层的低级特征指神经网络前几层提取到的图像信息，通常为点、线、纹理以及颜色等信息。深层高级特征指神经网络后几层提取到的信息。在步骤S5中，高级特征为嘴角、鼻翼等高阶的概念。

步骤S6：根据步骤S5中得到的最终神经网络结构在微表情数据库上进行迁移学习，得到最终的网络模型。

具体地，步骤S6中使用的数据库是由CASME Ⅱ、SMIC、SAMM数据库中选择68个测试人员的微表情图片组成的联合数据库。该联合数据库的所有微表情被明确地分成3种类别，分别是积极的、消极的以及惊讶的。

具体地，本发明在步骤S6中进行迁移学习时，锁定了由步骤S3中得到的前10层的参数(详见表1)，仅对步骤S5中添加的分支以及全连接层进行训练。

具体地，本发明在步骤S6中进行训练时使用了留一验证法准则(LOSO)进行试验。对于联合数据库中68个测试人员，每次选择1位测试人员所有的微表情图片作为测试集，其他67个测试人员所有的微表情图片作为训练集进行训练。如此操作分别进行68次，即每位测试人员的微表情图片都作为测试集并得到一个独立的网络模型。最终得到68个网络模型以及对应的68个测试结果。

具体地，对于68个测试结果，分别统计其UAR值和UF1值，得到最终结果。

本发明的有益效果：本发明运用神经网络敏感性分析技术对训练好的神经网络模型进行量化分析，并根据结果对神经网络结构进行修改，运用特征融合技术将敏感性高即作用大的浅层的低级特征与深层的高级特征进行融合，提高了微表情识别准确率。

附图说明

图1表示步骤S1中的神经网络结构。

图2表示人脸感兴趣区域划分。

图3表示使用敏感性分析工具TCAV计算原理。

图4表示使用敏感性分析工具TCAV得到的结果。

图5表示步骤S5中得到的神经网络的结构。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图1表示步骤S1中的神经网络结构。首先，设计了一个常规的9层神经网络结构。本发明在第一阶段使用ImageNet数据集进行训练及测试。由于第一阶段的训练只需关注纹理特征、颜色特征等浅层特征，本发明中选取ImageNet的前200个类进行训练和测试。训练时采用了初始学习率为3e-4的Adam优化器进行优化。优化时使用的损失函数公式为：

其中，L表示损失值，N表示类别总数，y_ic表示样本i的指示变量，如果类别c和样本i的类别相同就是1，否则是0，p_ic表示预测样本i属于类别c的概率。

经过100个迭代的训练，Top-1和Top-5的错误率分别为32.50％和12.35％。

具体地，Top-1和Top-5为ImageNet大赛的评价指标。其中，Top-1表示样本实际标签与神经网络预测结果相同，Top-5表示样本实际标签在神经网络预测概率最高的前5个结果之中。

由于宏表情比微表情更容易识别，因此本发明中首先使用扩展的Cohn-Kanade数据库(CK+)对模型进行微调。CK+数据库包括了123个对象的593个图像序列，其中327个序列用情感标签标记。除了中性标签外，CK+还有7种情绪类别：生气、蔑视、厌恶、害怕、快乐、伤心和惊讶。本发明中将每个有表情标签的序列的最后4帧提取出来，并按照9:1的比例划分为训练集和测试集。此外，训练集中的受试者将不会被选入到测试集中，即，避免相似人脸存在的干扰。对于训练集，使用诸如旋转和翻转之类的数据增强技术获得总共4113张图片。然后，锁定步骤S2得到的网络模型的前6层参数，并从第7层卷积层开始进行微调。在此步骤中，Adam优化器的初始学习率被设置为3e-4，批大小(batch size)为16。准确率最终达到100％。

图2表示人脸感兴趣区域的划分情况，这些感兴趣区域被手工从与表情无关的IMDB-WIKI数据库中截取出来。在步骤S4中，这些感兴趣区域的图片被输入到TCAV中以进行敏感性分析。根据相关文献所示，以人脸动作单元为基础的人脸感兴趣区域在人脸表情识别中起到重要作用。因此，量化地研究人脸感兴趣区域在神经网络中的敏感度对于研究如何使用神经网络进行微表情判别有重要作用。如图2所示，人脸感兴趣区域分为6组：R1-R6。

需要注意的是，由于部分人脸动作单元有重叠区域，所以本发明中截取的人脸感兴趣区域并不严格地对应于相应的人脸动作单元。在截取人脸感兴趣区域图像时基于人脸感兴趣区域的中心近似裁剪，最后将截取到的人脸感兴趣区域图片缩放到神经网络输入层的大小，在本发明中即为224×224。

需要注意的是，本发明讲的“并不严格对应”指：当人脸表情动作幅度大或者人脸有点倾斜时，由于感兴趣区域使用矩形框截取，因此人脸感兴趣区域之间可能存在重叠关系。

具体地，在从数据库中截取人脸感兴趣区域时，为保证TCAV测试的准确性，本发明只选择高分辨率的原始图片，同时均匀多样地选择样本。例如，选择的样本有不同的肤色以及感兴趣区域有不同的角度等。

图3表示使用敏感性分析工具TCAV计算原理。在本发明中，TCAV被用来检测感兴趣区域在神经网络每一层中的敏感性。当卷积神经网络模型对不同的输入样本进行分类时，在该模型内部的隐藏层中会产生不同的激活向量，即每个神经元有不同的激活值。TCAV中，CAV表示一个隐藏层激活值超平面的法向量。此激活空间是通过输入一组特定感兴趣区域图片和随机概念的图片，并分别收集某一特定隐藏层的激活值获得的。这个超平面的法向量将目标概念的激活向量和随机概念的激活向量(如图3中的鸟、灯和鳄鱼等)分开。对于某一类人脸表情的识别，人脸感兴趣区域概念的敏感性可以通过计算在特定隐藏层激活空间内法向量方向上的变化来获得，其公式如下所示：

其中S_C,k,l(x)表示样本x被网络模型判定为类别k时，概念C在模型第l层的方向导数，即CAV，由支持向量机(SVM)得到。

表示概念C在模型第l层的激活向量，f_l(x)表示输入样本x在第l层的激活值，h_l,k(f_l(x))表示输入样本x在神经网络logit层的激活值。

最后，TCAV计算全部的CAV值，并通过以下公式计算TCAV分数：

其中，X_k表示标签为k的所有输入样本的集合。TCAV_C,k,l范围为0-1，且TCAV_C,k,l值越大，敏感性越高。值得注意的是，如果目标概念与随机概念的TCAV_C,k,l的方差齐性p-value大于0.05，则认为在判断类别为k的样本时概念C在网络模型第l层并不敏感，则此时TCAV_C,k,l＝0。

具体地，在本发明中，TCAV分数越高代表在该层激活空间中，输入的概念对该类别的人脸表情的判断起较重要的作用。

图4表示使用敏感性分析工具TCAV得到的结果。在图4中一共有8个柱形图，其中前7个柱形图中的每一张柱形图分别对应于CK+中的一个特定情绪。在每个柱形图中，水平坐标有6组(R1-R6，代表第1-6个人脸感兴趣区域)，每组中的7列表示感兴趣区域对于此柱状图代表的表情在卷积层Conv2-Conv8(对应表1中的第2卷积层至第8卷积层)的TCAV分数。最后一张柱形图显示了TCAV的平均得分。从结果可以看出，大多数CAV测试在第3卷积层(Conv3)上得到高分。例如，在“厌恶”(Disgust)子图中，所有的人脸感兴趣区域概念都返回相当高的TCAV分数，表示在判断“厌恶”这个概念时，在神经网络第3卷积层(Conv3)对人脸感兴趣区域的敏感性很高。从最后一个柱状图可以看到，对于全部感兴趣区域，第3卷积层(Conv3)的TCAV平均分数最高，为0.60，而第8卷积层(Conv8)的TCAV平均分数仅为0.06。因此，可以推断第3卷积层是神经网络在判断人脸表情时，对人脸感兴趣区域最敏感的层。换句话说，第3卷积层的激活空间中包含了最丰富的人脸感兴趣区域的信息。根据此结果，本发明通过提取第3卷积层的激活值并与原神经网络的高级特征融合来提高人脸感兴趣区域的作用，进而提高微表情识别准确率。特征融合的公式如下：

y^cat＝concatenate(y^FC-1,y^FC-FE) (4)

其中，y^cat∈R^1024+32表示特征融合拼接的全连接层，R^1024+32表示该层神经元个数，y^FC-1∈R¹⁰²⁴表示步骤S3中神经网络第1层全连接层的输出，R¹⁰²⁴表示该全连接层的神经元个数，y^FC-FE∈R³²表示步骤S5提出的特征提取分支的全连接层输出，R³²表示该部分的神经元个数。

图5表示步骤S5中得到的神经网络的结构，在神经网络训练中，融合不同尺度的特征是一个有用的手段。低层的特征分辨率较高，包含更多位置、纹理等信息。但由于经过的卷积更少，低层的特征表达的语义信息更少，噪声更多。相比之下，高层特征具有更多的语义信息。因此，将低层特征和高层特征进行高效的融合能有效地改善神经网络识别性能。

本发明使用该神经网络在联合数据库上进行LOSO训练得到68个测试对象的结果。在本发明中，使用UF1和UAR来评价神经网络模型。UF1被广泛用于评估不平衡的多类模型，因为它为所有类提供了相等的权重。为了计算UF1，首先应该获得68次测试中每个类的真阳性(TP_c)、假阳性(FP_c)和假阴性(FN_c)。其中，真阳性表示神经网络预测结果与测试集实际标签相同，都为某一类c。假阳性表示神经网络预测结果为某一类c，而实际标签为其他类。假阴性表示神经网络预测结果不为某一类c而实际标签为该类。每个类的F1分数(F1_c)和UF1可以通过以下公式计算：

其中，N为类别总数。

UAR分数也被称为平均准确度，它可以通过以下公式计算：

其中，N为类别总数，n_c表示真实标签第c类的样本总数。

实验结果

为表明本发明方法具有更高的微表情识别准确率，特将本发明与其他方法在由CASMEⅡ、SMIC、SAMM数据集组成的联合数据集上进行测试比较，比较结果如表2所示。表中的其他方法引用文献如下：

[1]Zhao,G.,Pietikainen,M.:Dynamic texture recognition using localbinary patterns with an application to facial expressions.IEEE Transactionson Pattern Analysis and Machine Intelligence.29(6),915–928(2007)

[2]Liong,S.T.,See,J.,Wong,K.,Phan,R.C.W.:Less is more:Micro-expression recognition from video using apex frame.Signal Processing:ImageCommunication.62,82-92(2018)

[3]Gan,Y.S.,Liong,S.T.,Yau,W.C.,Huang,Y.C.,Tan,L.K.:Off-apexnet onmicro-expression recognition system.Signal Processing:Image Communication.74,129-139(2019)

[4]Van Quang,N.,Chun,J.,Tokuyama,T.:Capsulenet for micro-expressionrecognition.In:IEEE International Conference on Automatic Face&GestureRecognition(FG 2019),pp.1-7(2019)

[5]Zhou,L.,Mao,Q.,Xue,L.:Dual-inception network for cross-databasemicro-expression recognition.In:IEEE International Conference on AutomaticFace&Gesture Recognition(FG 2019),pp.1-5(2019)

[6]Liong,S.T.,Gan,Y.S.,See,J.,Khor,H.Q.,Huang,Y.C.:Shallow triplestream three-dimensional cnn(ststnet)for micro-expression recognition.In:IEEEInternational Conference on Automatic Face&Gesture Recognition(FG 2019),pp.1-5(2019)

[7]Liu,Y.,Du,H.,Zheng,L.,Gedeon,T.:A neural micro-expressionrecognizer.In:IEEE International Conference on Automatic Face&GestureRecognition(FG 2019),pp.1-4(2019)

表2联合数据集上各种方法结果比较

从表中可以看到，采用本发明提出的方法，在由CASMEⅡ、SMIC、SAMM数据集组成的联合数据集上均有效地提高了微表情识别的UF1值和UAR值，达到当前最佳识别结果。

综上，本发明使用迁移学习技术进行预训练，并利用TCAV工具对神经网络进行敏感性分析，根据敏感性分析结果进行特征融合的迁移学习。上述的实验结果表明，本发明提出的方法能提高特征融合的效率并能较大地提高微表情识别的准确率。

前面已经具体描述了本发明的实施方案，应当理解，对于一个具有本技术领域的普通技能的人，不在背离本发明的范围的情况下，在上述的和在附加的权利要求中特别提出的本发明的范围内进行变化和调整能同样达到本发明的目的。

Claims

1.基于神经网络敏感性分析的微表情识别方法，其特征在于该方法具体是：

步骤S1：设计一个常规无分支的卷积神经网络结构，包含卷积层、全连接层和logit层；

步骤S2：选择ImageNet数据库中的前200类事物在步骤S1中的卷积神经网络进行训练，得到网络模型；

步骤S3：选择宏表情数据集CK+对由步骤S2得到的网络模型进行迁移学习，并得到相应的网络模型；

步骤S4：使用神经网络敏感性分析工具对步骤S3得到的网络模型每一层进行敏感性测试；

步骤S5：根据步骤S4中得到的敏感性测试结果，对步骤S3中的神经网络进行修改，具体是：将对人脸感兴趣区域敏感性评分最高的层的输出结果分流到一个新的分支中；该分支包含一层卷积层以及一层全连接层；并将该分支的全连接层与原网络结构的全连接层进行拼接，在其后添加一个分类器；即将神经网络浅层的低级特征与深层的高级特征进行融合，联合判别微表情；这个添加了分支的网络结构即为最终的神经网络结构；

2.根据权利要求1所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：在步骤S3中的迁移学习时，冻结步骤S2得到的网络模型前6层的参数；步骤S3中卷积神经网络最后一层的全连接层神经元个数由200个修改为7个。

3.根据权利要求1所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：在步骤S4中根据人脸肌肉将人脸分成数个感兴趣区域，并将这些感兴趣区域作为测试样例对神经网络模型进行敏感性测试。

4.根据权利要求1所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：步骤S6中使用的数据库是由CASMEⅡ、SMIC、SAMM数据库中选择68个测试人员的微表情图片组成的联合数据库；该联合数据库的所有微表情被明确地分成3种类别，分别是积极的、消极的以及惊讶的。

5.根据权利要求1所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：在步骤S6中进行迁移学习时，锁定由步骤S3中得到的前10层的参数，仅对步骤S5中添加的分支以及全连接层进行训练。

6.根据权利要求4所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：在步骤S6中进行训练时使用留一验证法准则进行试验。

7.根据权利要求6所述的基于神经网络敏感性分析的微表情识别方法，其特征在于：对于68个测试结果，分别统计其UAR值和UF1值，得到最终结果。