CN109635712A

CN109635712A - 基于同构网络的自发微表情种类判别方法

Info

Publication number: CN109635712A
Application number: CN201811492660.0A
Authority: CN
Inventors: 付晓峰; 吴俊�; 付晓鹃; 徐岗; 李建军; 吴卿; 崔扬; 柯进华; 翁乔昱
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2019-04-16
Anticipated expiration: 2038-12-07
Also published as: CN109635712B

Abstract

本发明公开一种基于同构网络的自发微表情种类判别方法。本发明首先进行样本制作，包括RGB样本与光流差值样本的制作。然后将将不同样本分别置入网络中进行训练，训练方式为微调。最后将经过不同训练样本训练后的网络，同构合成所述的同构网络，利用同构网络产生判别结果。本发明中的光流差值样本既包含自发微表情变化的形变信息，又通过求差值去除了非自发微表情变化的环境干扰。结合样本的空间信息与时序变化的时间信息，组成具有时空特征的光流差值样本。对于本发明中的RGB样本以及光流差值样本，利用经过微调的网络对其提取特征，不仅充分结合颜色信息与时空信息，得到的特征更能表示当前样本类别，而且解决自发微表情数据样本少的难题。

Description

基于同构网络的自发微表情种类判别方法

技术领域

本发明属于计算机图像处理技术领域，涉及自发微表情的种类判别方法。

背景技术

国家安全、精神医疗等与人们的日常生活息息相关，随着科学技术的发展，人们发现自发微表情的特殊性质有助于确认身份、检测谎言、认知状态等。自发微表情相较于普通表情的最大区别是其发生时不受人控制，因此其能表示人的真实情感。而自发微表情由于机制抑制的特点，发生时面部肌肉运动模块可能只包含部分的普通表情全部肌肉模块，因此其幅度弱、不同类别易混淆，导致很多时候肉眼无法观察到自发微表情的发生。正因为自发微表情发生幅度小、持续时间短，现有的基于自发微表情种类判别的方法正确率不高。

近年来，基于自发微表情特征提取并实现其分类的方法主要是两方面。一方面，基于传统的分类方法——支持向量机，对自发微表情特征进行分类，该方法分类精度低，对特征质量要求高，难以解决自发微表情强度弱的难题。另一方面，通过构建单个网络直接对样本进行训练得到网络模型，这种方法未充分利用样本中包含的信息，而且单个网络输出也不具备多个网络输出特征融合的容错能力。同时，因自发微表情数据库样本少，更适用于迁移学习进行种类判别。

发明内容

本发明主要针对当前自发微表情种类判别正确率不高，特征提取不完全等问题，提出了高正确率的自发微表情种类判别方法。

本发明的同构网络包含样本制作的技术与网络训练、网络生成的方法。

1)样本制作包括RGB样本与光流差值样本的制作。

本发明的样本制作过程如下：

步骤S1：输入带有标签的图像序列，随机选取一张图像作为基准图像。

步骤S2：将S1中除基准图像外的其他图像与基准图像做差值，得到差值图像后将其灰度化。

步骤S3：将S1中除基准图像外其他图像与基准图像计算光流位移，得到两张基于X轴、Y轴的灰度图像。

步骤S4：将步骤S2与步骤S3的图像合成三维图像，即构成光流差值样本。

步骤S5：与步骤S4中光流差值样本一一对应的图像，即为RGB样本。

具体地，带有标签的图像序列是指图像序列取自于自发微表情数据库，而数据库中的自发微表情已经通过标签标记其正确的类别。

具体地，随机选取是指从自发微表情序列的起始图像到终点图像随便选取一张图像作为基准。

具体地，光流位移为其他图像与基准图像的所有像素点用光流法进行比较，在X方向、Y方向上分别得到的偏移量，这些偏移量分别构成两张一维的灰度图像。

2)网络训练为将不同样本分别置入网络中进行训练。

具体地，网络为Inception-Resnet-V2网络，训练方式为微调。Inception-Resnet-V2网络训练时收敛快，其中Inception结构中引入了残差模块。Inception结构使用小卷积核代替大的卷积核，同时利用1×n与n×1的卷积核替代n×n的卷积核，如此不仅保证了感受野，而且减少了参数规模。残差模块解决了网络过深而导致梯度消失、难以收敛的问题，并重用低层特征，使得网络具有更高的参数使用效率。

在Inception-Resnet-V2网络中，多核的卷积与残差模块提取得到的特征映射，其反应了某些特殊的空间结构，学习到一些与空间结构有关的信息用于识别，即不同重叠程度的人脸肌肉单元。通过学习与比对找出那些发生改变的肌肉单元从而记住自发微表情的人脸肌肉运动模式，包含同一类自发微表情的多种肌肉运动模式。

这里不再赘述网络是如何训练的，需要注意的是，只对最后一层输入神经元个数进行修改并只训练最后一层参数，即其他层完全不做改变也不参与任何训练。更改网络最后一层神经元的个数使其对应于自发微表情种类数，使其能直接通过与标签进行比较得到分类结果。同时，其他层的个数不进行更改可以充分利用该网络已训练最优的性能，即输出的特征适用于自发微表情种类判别。训练用的GPU是NVIDIA公司提供的TITAN Xp显卡。

3)将经过不同训练样本训练后的网络，同构合成本发明的同构网络。

具体地，分别将测试用的RGB样本、光流差值样本放入对应的网络中，可以得到两组输出值，即两组输出特征。采用简单的特征融合方式将两组特征融合成一组特征，即求取对应特征的最大值，如式F＝Max(F₁,F₂)所示，其中F、F₁、F₂分别表示融合后的特征、输入样本为RGB样本时的输出特征、输入样本为光流差值样本时的输出特征。Max为求取对应输出矩阵的最大值。求取融合后特征的最大值对应的表情种类，并与标签(数据库中自发微表情的正确类别)进行比较，确定输出结果是否与标签相符合，若相符则代表判断正确。

本发明的有益效果：光流差值样本既包含自发微表情变化的形变信息，又通过求差值去除了非自发微表情变化的环境干扰。结合样本的空间信息与时序变化的时间信息，组成具有时空特征的光流差值样本。对于本发明中的RGB样本以及光流差值样本，利用经过微调的Inception-Resnet-V2网络对其提取特征，不仅充分结合颜色信息与时空信息，得到的特征更能表示当前样本类别，而且解决自发微表情数据样本少的难题。

附图说明

图1表示本发明同构网络的网络结构图。

图2表示本发明光流差值样本生成示意图。

图3表示测试实验结果的混淆矩阵。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

下面将参考附图详细介绍本发明的实施例。

图1是网络结构示意图，展示了整个网络框架以及对应的输入输出。

1.图1中的RGB样本

具体技术方案是：取视频中某一片段的自发微表情图像，随机选取一张图像作为基准图像，该基准图像只用于比较而不参与后续的训练与测试。剩下的图像即为RGB样本，这些样本都表示同一类自发微表情，具有同样的标签。

2.图1中的光流差值样本

如图2所示，光流差值样本是由三个灰度图像拼接而成，分别为X轴的光流灰度图像、Y轴的光流灰度图像、差值灰度图像。

具体技术方案是：取与方案1中一样的图像作为基准图像，将剩下图像与基准图像分别完成光流法比较以及差值灰度化的计算。将得到的相同大小的三张图像叠加，即将三张一维的灰度图像拼成一张三维的样本，该样本即为光流差值样本。

光流法比较的具体流程如下：

光流法假设前提：目标物体的灰度值不变。

其中，如式I(x₁,y₁,t₁)＝I(x₁+Δx,y₁+Δy,t₁+Δt)所示。I(x,y,t)表示目标在时间为t、坐标为[x,y]的像素值，[x₁,y₁]表示目标在t₁时刻的位置。Δx、Δy则分别表示目标在X轴、Y轴方向上的位移，Δt表示目标运动的时间。该式表示在Δt时间内目标的像素灰度值不发生改变，通过不同的光流计算方法——基于梯度的方法、基于匹配的方法、基于能量的方法、基于相位的方法——可以求出Δx与Δy。计算整张图像各个像素点的Δx与Δy，并分别替代该像素点的灰度值，即可得关于Δx与Δy的两张光流灰度图像。

将剩下图像分别与基准图像做差值，得到差值RGB图像，再通过合并颜色通道的方式将其转变为灰度图像，即得到差值灰度图像。

合并颜色方式如式Gray＝R*0.299+G*0.587+B*0.114，其中R、G、B分别为图像中三个通道(红色通道、绿色通道、蓝色通道)的像素值，Gray表示转化后的灰度像素值。

3.图1中所示的样本训练框架(虚线框)

将Inception-Resnet-V2网络的最后一层神经元数量改为需要预测的自发微表情种类数，例如自发微表情种类有7种，则最后一层神经元数量为7。固定除了最后一层的其余所有层神经元的参数，使其无论如何都不会改变，并开放最后一层的参数参与训练。

输入网络中的样本大小应为299*299*3，若不满足条件，需用双线性插值法对其进行缩放处理。分别将RGB样本与光流差值样本置入网络中训练，直至参数不再发生变化，即得到训练好的两个网络，如图1所示对应放置训练好的网络。

4.图1中所示的最大结果值(图1整体)

测试时，根据图1，随机选取未经过训练的自发微表情RGB样本与其对应的光流差值样本置入网络，可得两组输出结果。取两组输出结果的最大值作为最终输出值，标定其位置，对应位置的表情种类即为该自发微表情种类。例如，最大值为该层神经元从上往下数的第四位，而对应的自发微表情种类从上往下数的第四位为“高兴”，则该自发微表情种类为“高兴”。

5.实验结果

为表明本发明方法具有更高的准确率，特将本发明与其他方法进行比较，比较结果如图3和下表所示。([1]Takalkar M A,Xu M.Image based facial micro-expressionrecognition using deep learning on small datasets[C]//InternationalConference on Digital Image Computing:Techniques and Applications.IEEE,2017.[2]Peng X,Xia Z,Li L,et al.Towards facial expression recognition in the wild:a new database and deep recognition system[C]//Computer Vision and PatternRecognition Workshops.IEEE,2016:1544-1550.[3]He K,Zhang X,Ren S,et al.Deepresidual learning for image recognition[C]//IEEE Conference on ComputerVision and Pattern Recognition.IEEE Computer Society,2016:770-778.[4]XianlinPeng,Lei Li,Xiaoyi Feng,et al.Spontaneous facial expression recognition byheterogeneous convolutional networks[C]//International Conference on theFrontiers and Advances in Data Science.IEEE,2017.)

从图3中可以清楚得观察到本发明对不同自发微表情的分类准确率以及被误判的自发微表情种类和误判率。对易误判的自发微表情进行观察，可以发现相似自发微表情被误判的概率很高。例如图3中的“恐惧”有31％被误判成“生气”。但是，本发明除了“恐惧”之外其余所有的自发微表情识别率都很高，85％以上的各类准确率以及96％的平均分类准确率充分说明本发明对自发微表情种类判别取得良好成效。

前面已经具体描述了本发明的实施方案，应当理解，对于一个具有本技术领域的普通技能的人，不在背离本发明的范围的情况下，在上述的和在附加的权利要求中特别提出的本发明的范围内进行变化和调整能同样达到本发明的目的。

Claims

1.基于同构网络的自发微表情种类判别方法，其特征在于该方法具体是：

1）样本制作，包括RGB样本与光流差值样本的制作；

步骤S1：输入带有标签的图像序列，随机选取一张图像作为基准图像；

步骤S2：将S1中除基准图像外的其他图像与基准图像做差值，得到差值图像后将其灰度化；

步骤S3：将S1中除基准图像外其他图像与基准图像计算光流位移，得到两张基于X轴、Y轴的灰度图像；

步骤S4：将步骤S2与步骤S3的图像合成三维图像，即构成光流差值样本；

步骤S5：与步骤S4中光流差值样本一一对应的图像，即为RGB样本；

2）将不同样本分别置入网络中进行训练；

所述网络为Inception-Resnet-V2网络，训练方式为微调，其中网络中的最后一层输入神经元个数进行了修改，修改后的个数对应于自发微表情种类数，并只训练最后一层参数，即其他层完全不做改变也不参与任何训练；

3）将经过不同训练样本训练后的网络，同构合成所述的同构网络，利用同构网络产生判别结果，具体是：

分别将测试用的RGB样本、光流差值样本放入对应的网络中，得到两组输出值，即两组输出特征；采用特征融合方式将两组特征融合成一组特征，即求取对应特征的最大值；

求取融合后特征的最大值对应的表情种类，并与标签进行比较，确定输出结果是否与标签相符合，若相符则代表判断正确。

2.根据权利要求1所述的基于同构网络的自发微表情种类判别方法，其特征在于，步骤S1中带有标签的图像序列是指图像序列取自于自发微表情数据库，而数据库中的自发微表情已经通过标签标记其正确的类别。

3.根据权利要求1所述的基于同构网络的自发微表情种类判别方法，其特征在于，步骤S1中随机选取是指从自发微表情序列的起始图像到终点图像随便选取一张图像作为基准。

4.根据权利要求1所述的基于同构网络的自发微表情种类判别方法，其特征在于，步骤S3中光流位移为其他图像与基准图像的所有像素点用光流法进行比较，在X方向、Y方向上分别得到的偏移量，这些偏移量分别构成两张一维的灰度图像。