CN111767842B

CN111767842B - 基于迁移学习和自编码器数据增强的微表情种类判别方法

Info

Publication number: CN111767842B
Application number: CN202010604155.1A
Authority: CN
Inventors: 付晓峰; 牛力; 付晓鹃
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-02-06
Anticipated expiration: 2040-06-29
Also published as: CN111767842A

Abstract

本发明公开了一种基于迁移学习和自编码器数据增强的微表情种类判别方法。本发明首先构造MecNet微表情种类判别网络：选取在ImageNet上预训练好的CNN模型，保留卷积层及预训练参数，在其后添加全连接层和softmax分类器。其次构造MegNet微表情生成网络：MegNet使用亚洲人微表情样本生成欧美人微表情样本。MegNet的下采样模块、上采样模块和损失函数分别基于卷积、子像素卷积和图像结构相似性设计。将生成的微表情样本加入MecNet训练集进行数据增强，训练MecNet。最后使用MecNet判别微表情种类。本发明使用MegNet进行数据增强能够有效提高MecNet微表情种类判别性能。

Description

基于迁移学习和自编码器数据增强的微表情种类判别方法

技术领域

本发明属于计算机图像处理技术领域，涉及一种基于迁移学习和自编码器数据增强的微表情种类判别方法。

背景技术

与持续时间为0.5s～4s的传统面部表情不同，持续时间为1/25s～1/5s的面部微表情是一种瞬时、无意识的反应，揭示人的真实情感。自动微表情识别可以应用在金融安全、临床诊断、谎言检测、情感监测等诸多领域。相比宏表情，微表情所特有的持续时间短和肌肉运动幅度小的性质，使得微表情种类判别准确率远远低于宏表情。

微表情具有诱导困难，数据难以采集，样本规模较小，人眼难以识别等特殊性，最初的微表情识别主要是由心理学家等专业人士人工识别的，近年来计算机硬件的进步使得利用计算机视觉方法和机器学习方法自动识别微表情成为可能。

目前的微表情种类判别已经向多人种、多数据库方向发展。单个微表情数据库样本数量较少，不利于深度卷积神经网络的训练和性能评估。因此，第二届国际微表情识别大赛(MEGC 2019)同时使用了CASME II数据库、SMIC数据库和SAMM数据库，组成一个微表情联合数据库来训练和评估模型性能。然而，使用CASME II训练模型，在SAMM上测试性能很差，造成此种现象的原因为CASME II数据库受试者全部为亚洲人，SAMM数据库受试者全部为欧美人，亚洲人和欧美人存在较大的人脸结构差异。

发明内容

本发明针对现有技术的不足，提供了一种基于迁移学习和自编码器数据增强的微表情种类判别方法，该方法在微表情种类判别应用上具有高精度的特点。

本发明采用基于迁移学习的微表情种类判别方法，同时采用基于自编码器的方法生成微表情样本，对训练集进行数据增强。

所述的基于迁移学习的微表情种类判别方法具体是：

步骤S1：选取在ImageNet数据库上预训练好的CNN模型，保留卷积层及预训练参数。

步骤S2：在上述CNN模型后添加全连接层。

步骤S3：在全连接层后添加输出层和softmax分类器。构造完成的网络命名为MecNet网络。

步骤S4：使用MegNet微表情生成网络生成的微表情样本扩充训练集，达到数据增强的目的。

步骤S5：训练MecNet网络。

步骤S6：使用MecNet网络进行微表情种类判别。

具体地，所选取的预训练CNN模型为Inception-ResNet V2。

具体地，全连接层含有1024个神经元。

具体地，MecNet为三分类网络，输出层含有3个神经元。

所述的基于自编码器的数据增强方法具体是：

步骤S1：构造MegNet微表情生成网络，MegNet网络分为三部分:编码器Encoder、解码器Decoder A和解码器Decoder B。

步骤S2：训练MegNet网络。

步骤S3：使用MegNet网络生成欧美人微表情样本。

步骤S4：将生成的欧美人的微表情样本加入MecNet训练集。

本发明相对于现有方法具有以下有益效果：

使用MegNet扩充训练集能够有效提高MecNet微表情种类判别性能，结合MegNet，MecNet在CASME II、SMIC和SAMM组成的联合数据库上的表现优于大部分现有方法。

附图说明

图1为MecNet微表情种类判别网络结构图。

图2为MegNet微表情生成网络流程图。

图3为MegNet编码器结构图。

图4为MegNet解码器结构图。

图5为MegNet特征图上采样模块的结构图。

图6为图像结构相似度测量系统图。

图7(a)为微表情生成实验所用CASME II数据库人脸展示。

图7(b)为微表情生成实验所用欧美人脸展示。

图8为A1B1实验组训练过程预览图。

图9为训练预览图详解图。

图10为MegNet生成的微表情样本示例图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

迁移学习是指调整某个问题上训练好的模型，使其适用于相近领域新问题的方法。本发明通过迁移学习方法将深度卷积神经网络应用于微表情种类判别问题，提出一种微表情种类判别网络。

如图1所示为微表情种类判别网络结构图，采用CASME II、SMIC和SAMM数据库。步骤1表示将联合数据库的微表情样本放入MecNet网络进行训练；MecNet第一部分为在ImageNet图像分类数据库上预训练好的CNN模型，具体为Inception-ResNet V2；MecNet第二部分为全连接层，含有1024个神经元；步骤2表示使用预训练模型从图像中提取形状和纹理特征，并将此特征作为全连接层的输入；步骤3表示在全连接层之后连接网络输出层，因为MecNet为三分类网络，因此输出层含有3个神经元；步骤4表示MecNet采用Softmax分类器，损失函数为

式中m表示参与一次迭代的样本数，k表示类别数，MecNet为三分类网络，因此k的值为3；第i个训练样本的真实标签值表示为[y₀ ⁽¹⁾,y₀ ⁽²⁾,y₀ ⁽³⁾]，标签为[1,0,0]表示Negative类，[0,1,0]表示Positive类，[0,0,1]表示Surprise类；j表示三个类别中的第j类，y₀ ^(j)表示第i个训练样本真实标签值中第j类的值，y^(j)表示MecNet预测此样本为第j类的概率值。MecNet网络优化采用学习率自适应的Adam算法，MecNet网络优化停止准则为：当损失(Loss)值在1000次循环内没有进一步改善时终止训练。

如图2所示为MegNet微表情生成网络流程图，分为训练和生成两个阶段。MegNet网络分为三部分:编码器Encoder、解码器Decoder A和解码器Decoder B。MegNet使用CASMEII亚洲人的微表情样本生成欧美人的微表情样本。MegNet设计卷积结构实现图像编码，设计基于子像素卷积的特征图上采样模块实现图像解码，设计基于图像结构相似性的损失函数用于网络优化。图2(a)为微表情图片，来自CASME II数据库编号为17的个体，共2200张，此个体以A1表示；图2(d)为欧美人脸图片，来自于欧美人脸数据库1号个体，共2956张，此个体以B1表示。所用到的CASME II数据库人脸样本和欧美人脸样本会在后文介绍。

MegNet的目标是生成新的B1人脸，新的B1人脸拥有与A1人脸一致的微表情。在训练阶段，Encoder将图2(a)编码为隐藏层向量a，Decoder A将其重建为图2(b)和图2(c)，图2(b)为训练过程中的生成图片，图2(c)为训练完成后的生成图片。类似地，Encoder将图2(d)编码为隐藏层向量d，Decoder B将其重建为图2(e)和图2(f)，图2(e)为训练过程中的一些生成图片，图2(f)为训练完成后的生成图片。MegNet有两个训练目标：1)最小化图2(c)与图2(a)的误差；2)最小化图2(f)与图2(d)的误差。MegNet网络损失函数会在后文介绍。

训练完成之后，在生成阶段，Encoder将图2(a)编码为隐藏层向量a，再通过Decoder B解码，得到如图2(g)所示微表情样本。图2(g)的微表情与A1一致，图2(g)的人脸与B1一致。

A1和B1共用一个编码器Encoder的目的是使Encoder学习A1和B1的人脸公共特征，人脸公共特征中包含人脸面部表情特征。Encoder将A1的表情特征编码进隐藏层向量a，将B1的表情特征编码进隐藏层向量d。A1和B1分用两个解码器的目的是，通过使用不同的解码器，以不同的方法重建隐藏层向量：Decoder A将隐藏层向量(a或d)重建为A1的人脸，Decoder B将隐藏层向量(a或d)重建为B1的人脸。综上，MegNet网络包含三个模型：A1和B1共用的Encoder、用于重建A1人脸的Decoder A和用于重建B1人脸的Decoder B。

如图3所示为MegNet编码器结构图，输入图片尺寸为128×128，图像通道数为3。MegNet特征图下采样模块基于卷积结构设计。第1、2、3、4卷积层均使用5×5大小的卷积核，步长为2，卷积模式为“same”。第5卷积层使用3×3大小的卷积核，步长为1，卷积模式为“same”。在第1、2、3、4、5层每层卷积运算之后均使用LeakyReLU激活函数。图3中第4卷积层之后的Flatten步骤表示将卷积之后的多维的数据扁平化为一维数据，以便接下来放入全连接层。第1全连接层含有512个神经元，第2全连接层含有32768个神经元。全连接层之后再经过Reshape操作，特征图(Feature Map)尺寸变为8×8×512。如图3输出层之前的虚线框所示，第5卷积层与之后的LeakyReLU激活层、像素重组(PixelShuffle)步骤共同构成了一个“卷积-激活-像素重组”的特征图上采样模块。特征图上采样是指将较小尺寸特征图放大为较大尺寸特征图。8×8×512大小的特征图经过此模块的运算，尺寸变为16×16×512，即为编码器输出层。

如图4所示为MegNet解码器Decoder A和Decoder B的结构图，Decoder A与Decoder B二者结构相同，输入样本不同，因而模型参数不同。图3编码器的输出作为图4解码器的输入，输入特征图尺寸为16×16×512。如图4中虚线框所示，与输入层相连接的是3个结构相同的“卷积-激活-像素重组”特征图上采样模块。在每个特征图上采样模块中，卷积层使用3×3大小的卷积核，步长为1，卷积模式为“same”，卷积之后使用LeakyReLU激活函数，最后是像素重组层。在3个“卷积-激活-像素重组”模块后连接的是第4卷积层，第4卷积层使用5×5大小的卷积核，步长为1，通道数为3，卷积模式为“same”，卷积之后使用Sigmoid激活函数。解码器输出特征图尺寸为128×128×3，与图3所示编码器的输入图片尺寸及通道数相同。表1列出了128×128×3大小的输入图片经过MegNet编码器和解码器各层运算之后的特征图尺寸。例如，编码器输入层特征图尺寸为128×128×3，经过5×5×128的卷积层运算之后，尺寸变为64×64×128。

表1 MegNet编码器和解码器各层运算之后的特征图尺寸

卷积神经网络中，特征图经过卷积运算之后，尺寸会变小或者保持不变；自编码器网络中，存在需要放大特征图尺寸的情形，因此设计了“卷积-激活-像素重组”特征图上采样模块。下面以编码器的“卷积-激活-像素重组”模块的结构为例描述MegNet放大特征图尺寸的原理。如图5所示，输入特征图尺寸为8×8×512，放入通道数为2048的卷积层，放大倍数r取值为2。卷积层使用3×3大小的卷积核，步长为1，卷积模式为“same”，卷积后尺寸为8×8×4×512。接下来通过像素重组将每4个8×8的特征图重组为1个16×16的特征图，总尺寸为16×16×512，达到了将特征图尺寸放大为原尺寸2倍的目的。解码器的特征图上采样模块与此类似。

训练微表情生成网络，需要设计相应的损失函数。MegNet基于图像结构相似度(Structural Similarity,SSIM)设计损失函数,SSIM值越大代表图像越相似，当两幅图像完全相同时,SSIM的值为1。

如图6所示,假设两张输入的图片分别为x和y,其中一张为原图,另一张为MegNet生成的图。图像结构相似性度量分为三个部分：亮度对比、对比度对比、结构对比。

首先对比两张图片的亮度,图片x所有像素的平均亮度为

亮度对比函数lu(x,y)是μ_x和μ_y的函数。使用图片所有像素的标准差作为对图像对比度的估计：

那么对比度对比函数c(x,y)是关于σ_x和σ_y的函数。图片x和y减去各自平均亮度之后再除以各自的标准差,得到的单位向量(x-μ_x)/σ_x和(y-μ_y)/σ_y表示x和y各自的图像结构,则结构对比函数s(x,y)是关于(x-μ_x)/σ_x和(y-μ_y)/σ_y的函数。最终,将三个部分组合起来,图像结构相似性度量函数表示为

SSIM(x,y)＝g(lu(x,y),c(x,y),s(x,y)). (4)

亮度对比函数具体表达式为

式中分子分母同时加了一个常数C₁,C₁用来在μ_x ²+μ_y ²非常接近于0的时候保持函数的稳定性,C₁取值如下：

C₁＝(K₁D)², (6)

式中D为图片像素取值范围的最大值,三通道图片深度为8位，因此D的值为255；K₁是一个小常数：K₁＜＜1。相似地，对比度对比函数为

式中C₂＝(K₂D)²,K₂＜＜1。结构对比函数表达式如下：

式中C₃＝(K₃D)²,K₃＜＜1。σ_xy的表达式为

最后,把式(5)、式(7)和式(8)三个部分组合起来,得到图像x和y结构相似性度量函数为

SSIM(x,y)＝[lu(x,y)]^α·[c(x,y)]^β·[s(x,y)]^γ, (10)

式中α>0,β>0,γ>0为亮度对比、对比度对比和结构对比三个组成部分的权重参数。本发明设置α＝β＝γ＝1,C₃＝C₂/2,则

MegNet微表情生成网络损失函数设计为

L(x,y)＝K(1-SSIM(x,y)). (12)

式中K为常数,实验中，取K＝5。如图2所示,以x_A和x_B分别代表图2(a)和图2(d),E代表Encoder,D_A代表Decoder A,D_B代表Decoder B,则从图2(a)到图2(c)的损失函数为

L_A＝K(1-SSIM(x_A,D_A(E(x_A))), (13)

从图2(d)到图2(f)的损失函数为

L_B＝K(1-SSIM(x_B,D_B(E(x_B))). (14)

如图7(a)所示，依据受试者的微表情帧数量对CASME II数据库中26个受试者降序排列，选出排名靠前的8个受试者，编号为1到8，以集合A表示。如图7(b)所示，从网络搜集10个欧美名人的面部视频素材，编号为1到10，以集合B表示。欧美名人素材来自脱口秀节目HOWARD STERN，使用BANDICAM屏幕录制软件制作高清晰度的视频素材，格式为H264-NVIDIA@NVENC(VBR)(High 4:4:4无损)Full Size，29.97fps，100q。对于集合A的每一个受试者，将其作为图2(a)，从集合B中随机选取5个个体分别作为图2(d)进行微表情样本生成实验。集合A中的8个人各自进行5次实验，共40次实验。如表2所示为集合A和集合B中每个个体的样本数量以及具体的40组实验组合。每组实验以“A”+个体在A中编号+“B”+个体在B中编号命名，例如，A1B1表示集合A编号为1的个体和集合B编号为1的个体的实验组合。

表2 集合A和B的个体样本数量及实验组合

本发明在windows10下配置GPU深度学习环境，GPU型号为NVIDIA Titan XP；CUDA版本为10.1，cuDNN版本为v7.6.0.64；深度学习框架为tensorflow，版本为tensorflow-gpu-1.9.0；编程语言为python，版本为3.6。在NVIDIA Titan XP显卡12GB显存的配置下，输入MegNet网络的样本批次大小设置为50，即可占满全部显存。40个组合实验，每个实验平均约需迭代60000次，用时平均约为36小时，微表情样本生成实验总用时约60天。平均终止训练的损失值约为0.07。40次实验一共生成微表情图片样本数为48335。

如图8所示为A1B1实验组训练过程预览图。一共取16次过程图，按照左栏从上到下，再右栏从上到下的顺序排列，编号为1到16。如图9横向所示为图8中第1张、第5张和第16张训练预览图详解，分别对应训练过程中的第1次、第20次和第40000次迭代。如图9纵向所示，图9(a)为B1个体原图，图9(b)为MegNet重建图9(a)的生成图；图9(c)为A1个体原图，图9(d)为MegNet重建图9(c)的生成图；图9(e)为生成的微表情样本。从图9可以看到，图9(b)、图9(d)和图9(e)等生成图初始为单一像素值。随着训练过程的进行，MegNet逐渐学习到人脸和五官的轮廓以及微表情特征。A集合1号个体即CASME II数据库sub17个体共包含36段微表情视频，因此A1B1实验组共生成36段微表情视频，如图10所示为生成的微表情样本示例，取自其中10段微表情视频。第1、3行代表每段视频的顶点帧(Apex Frame)，第2、4行代表对应顶点帧生成的微表情样本。

MEGC 2019将微表情种类统一划分为三类：Negative、Positive、Surprise。SMIC数据库自身已划分好Negative、Positive、Surprise三类。根据MEGC 2019的方法，CASME II数据库和SAMM数据库中原始的情感类别划分如下：Negative(包含‘Repression’、‘Anger’、‘Contempt’、‘Disgust’、‘Fear’和‘Sadness’)、Positive(包含‘Happiness’)和Surprise(包含‘Surprise’)。其中CASME II数据库的Negative类选取‘Disgust’和‘Repression’，SAMM数据库的Negative类选取‘Anger’、‘Contempt’、‘Disgust’、‘Fear’和‘Sadness’。完成三分类划分后，来自三个数据库的微表情样本即可组合为一个跨人种跨地域的微表情联合数据库。联合数据库共包含68个个体，其中16个来自SMIC数据库，24个来自CASME II数据库，28个来自SAMM数据库。表3总结了联合数据库中所有样本的分布，展示了各数据库各类别所包含的微表情视频数量。

表3 联合数据库的样本分布

在微表情联合数据库上，使用Leave-one-subject-out(LOSO)交叉验证法来确保实验结果的个体独立性。因此，一共进行68次实验，68个个体依次作为测试集。每次实验中有1个个体作为测试集，其余67个个体作为训练集。从表3中可以看到，联合数据库中三类微表情样本数量较为不均衡。为了避免微表情种类判别模型过度拟合某一特定的类，采用Unweighted F1-score(UF1)和Unweighted Average Recall(UAR)作为模型性能评价指标。为了计算联合数据库的UF1和UAR，首先需要计算联合数据库中每个类别k(一共3个类别)的True Positives(TP_k)、False Positives(FP_k)和False Negatives(FN_k)。联合数据库UF1计算方法如下：

式中UF1_k表示类别k的UF1，计算方法如下：

联合数据库UAR计算方法如下：

式中ACC_k表示类别k的准确率，计算方法如下：

式中n_k表示第k个类别的微表情帧样本数量。

实验结果

为表明本发明方法具有更高的UF1和UAR值，特将本发明与其他方法进行比较，结果如表4所示。表中的其他方法引用文献如下：

[1]Zhao G,Pietikainen M.Dynamic texture recognition using localbinary patterns with an application to facial expressions[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2007,29(6):915–928

[2]Liong S T,See J,Wong K,et al.Less is more:micro-expressionrecognition from video using apex frame[J].Signal Processing:ImageCommunication,2018,62:82–92

[3]Liong S T,Gan Y,Yau W C,et al.OFF-ApexNet on micro-expressionrecognition system[J].Signal Processing:Image Communication,2019.arXiv:1805.08699

[4]Quang N V,Chun J,Tokuyama T.CapsuleNet for micro-expressionrecognition[C]//14th IEEE International Conference on Automatic Face&GestureRecognition(FG 2019).Lille,France:IEEE,2019.DOI:10.1109/FG.2019.8756544

[5]Zhou L,Mao Q,Xue L.Dual-inception network for cross-databasemicro-expression recognition[C]//14th IEEE International Conference onAutomatic Face&Gesture Recognition(FG 2019).Lille,France:IEEE,2019.DOI:10.1109/FG.2019.8756579

[6]Liong S T,Gan Y,See J,et al.Shallow triple stream three-dimensional CNN(STSTNet)for micro-expression recognition[C]//14th IEEEInternational Conference on Automatic Face&Gesture Recognition(FG 2019).Lille,France:IEEE,2019.DOI:10.1109/FG.2019.8756567

[7]Liu Y,Du H,Zheng L,et al.A neural micro-expression recognizer[C]//14th IEEE International Conference on Automatic Face&Gesture Recognition(FG2019).Lille,France:IEEE,2019.DOI:10.1109/FG.2019.8756583

表4 本发明方法与现有方法的性能对比

表4中MecNet一行表示不使用微表情数据增强方法，仅使用MecNet微表情种类判别网络的实验结果；MegNet+MecNet表示使用MegNet生成的微表情样本扩充训练集，再使用MecNet的实验结果。从表中可以看到，仅使用MecNet，实验结果优于部分现有方法。使用MegNet扩充训练集后，MecNet性能得到显著提高。MegNet+MecNet在SMIC、CASME II和SAMM组成的联合数据库上的UF1和UAR优于现有的其他方法。

前面已经具体描述了本发明的实施方案，应当理解，对于一个具有本技术领域的普通技能的人，不在背离本发明的范围的情况下，在上述的和在附加的权利要求中特别提出的本发明的范围内进行变化和调整能同样达到本发明的目的。

Claims

1.基于迁移学习和自编码器数据增强的微表情种类判别方法，其特征在于：

步骤S1：选取在ImageNet数据库上预训练好的CNN模型，保留卷积层及预训练参数；

步骤S2：在上述CNN模型后添加全连接层；

步骤S3：在全连接层后添加输出层和softmax分类器，构造完成的网络命名为MecNet网络；

步骤S4：使用MegNet微表情生成网络生成的微表情样本扩充训练集，达到数据增强的目的；所述的MegNet网络包括编码器Encoder、解码器Decoder A和解码器Decoder B三个部分；

在MegNet网络训练阶段，编码器Encoder将微表情图片编码为隐藏层向量a，解码器Decoder A将其重建为训练过程中的生成图片和训练完成后的生成图片，编码器Encoder将欧美人脸图片编码为隐藏层向量d，解码器Decoder B将其重建为训练过程中的生成图片和训练完成后的生成图片；

训练完成之后，在生成阶段，编码器Encoder将微表情图片编码为隐藏层向量a，再通过解码器Decoder B解码，得到微表情样本；

步骤S5：训练MecNet网络；

步骤S6：使用MecNet网络进行微表情种类判别。

2.根据权利要求1所述的基于迁移学习和自编码器数据增强的微表情种类判别方法，其特征在于：

MecNet网络构造过程中，使用预训练的Inception-ResNet-V2模型为基础，添加含1024个神经元的全连接层和含3个神经元的输出层，构造微表情三分类网络，用于判别微表情种类；

MecNet网络完成训练之后，将测试集样本输入，可得到每个样本的预测标签值；标签为[1,0,0]表示Negative类，[0,1,0]表示Positive类，[0,0,1]表示Surprise类。

3.根据权利要求1所述的基于迁移学习和自编码器数据增强的微表情种类判别方法，其特征在于：

MegNet使用CASME II亚洲人的微表情样本生成欧美人的微表情样本；在MegNet编码器和解码器中，基于卷积结构设计特征图下采样模块，基于子像素卷积设计特征图上采样模块；解码器Decoder A和解码器Decoder B网络结构相同，模型参数不同；MegNet损失函数基于图像结构相似性设计。