CN107273876B - 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 - Google Patents
一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 Download PDFInfo
- Publication number
- CN107273876B CN107273876B CN201710587663.1A CN201710587663A CN107273876B CN 107273876 B CN107273876 B CN 107273876B CN 201710587663 A CN201710587663 A CN 201710587663A CN 107273876 B CN107273876 B CN 107273876B
- Authority
- CN
- China
- Prior art keywords
- micro
- sample
- expression
- macro
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,包括:A、微表情样本处理:1)对微表情数据集样本和宏表情数据集样本进行预处理;2)构建跨模态元组损失函数的样本对;B、跨模态‘宏to微’转换模型训练:3)训练AU检测网络,初始化AU检测网络参数,训练一个柔性最大值损失函数;4)固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型;C、微表情识别:根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率。本发明较已有方法更具有鲁棒性。
Description
技术领域
本发明涉及一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,属于深度学习和模式识别的技术领域。
背景技术
微表情表达了人试图掩盖与隐藏的真实情感,是一组时间连续的图像序列,持续周期一般在250ms~500ms之间,对微表情的研究能帮助揭露特征场景下人的心理变化,例如,揭露犯人谎言,评估人的内心情绪状态,进而促进犯罪学、心理学等方面的发展。与表情相比,微表情识别更加具有挑战性。首先,不同于表情,微表情用一段图像序列共同代表一个情绪标签,但持续时间较短(通常小于500ms),如果采用60帧相机录制微表情片段,一段有效的微表情片段最多为30帧。其次,微表情变化细微,在一段微表情中很难用肉眼观察到帧与帧之间的区别,因此对微表情的特征提取不但需要考虑时间和空间三个维度的信息,还要使所提取特征对微表情的细微变化具有鲁棒性。最后,目前用于微表情识别研究的数据集数量匮乏,与表情数以万计的数据量相比,微表情仅有为数不多的样本数量,这其中包含CASME1、CASME2、SMIC等已有的数据集,这显然不足以支持后续微表情识别的研究验证。
目前,微表情识别研究方法主要集中在传统的机器学习领域中,但已有的微表情识别方法与表情识别相比,识别率普遍不高而不能达到实际的应用要求,提高微表情识别率是一项非常具有挑战性且具有非凡意义的任务。
如何提取时空三维的特征描述子,以及寻找帧与帧之间的细微变化是微表情识别的所面临的主要困难,常见的提取时空特征的方法主要是将传统的二维特征提取算法拓展到三维领域,例如三正交平面局部二值模式(LBP-TOP)、3D方向梯度直方图(3DHOG)等就是在三个维度分别提取LBP或者HOG特征,然后用支持向量机(SVM)或者k-means进行分类,这样做虽然可以提取时间信息,但是,所提取的特征并不能很好地代表帧之间的细微变化,另一种方法便是提取光流特征,具体的就是将一段微表情的每一帧都与第一帧计算光流变化,所得到的特征能反映帧与帧之间的差距,但是由于计算量偏大等问题不够实用。近几年卷积神经网络的出现,为计算机视觉领域带来新的活力,实际上卷积神经网络已经使行为识别、人脸识别、语义分割等研究进入新的阶段,并且取得了非常显著的效果。为了解决微表情识别的问题,卷积神经网络似乎是一个很好的工具,然而,卷积神经网络需要用较高数量的数据集进行训练,才能获取具有代表性的特征,否则就会造成过拟合等问题,而微表情数据集仅有少于1000左右的样本,不足以进行卷积神经网络训练。
发明内容
针对现有技术的不足,本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法。
发明概述:
一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,包括微表情样本处理、跨模态‘宏to微’(CM-M2M)转换模型训练和微表情识别。
本发明提供了一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,为了增加可训练样本的数量,本发明根据微表情和宏表情的关联,将宏表情作为正负样本与微表情组成元组对来训练微表情。为了在提取全局特征的同时保留微表情局部信息,本发明提供了CM-M2M的卷积神经网络模型,并用时空全卷积网络提取人脸重要AU的位置并将其输出作为局部信息,来增强特征对AU的鲁棒性。最后,为了将微表情和宏表情区分开以提取微表情特有的特征,本发明提供了跨模态元组损失函数。
本发明的技术方案如下:
一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,包括:
A、微表情样本处理
1)对微表情数据集样本和宏表情数据集样本进行预处理;
2)构建跨模态元组损失函数的样本对;
为了增加可训练样本的数量,本发明根据微表情和宏表情的关联,将宏表情作为正负样本与微表情组成元组对来训练微表情。
B、跨模态‘宏to微’转换模型训练
3)训练AU检测网络,初始化AU检测网络参数,以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数Softmax Loss Function;
4)固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型,通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值;
C、微表情识别
根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率。
本发明宏to微转换模型的第一个和第二个分支将微表情和宏表情分开训练并通过共享两者的权值提高训练效率,而第三个动作单元(AU)的分支用时空全卷积网络提取人脸重要AU的位置。本发明还提供了跨模态元组损失函数将并AU的位置作为局部信息,来增强特征对AU的鲁棒性,并提取微表情特有的特征。最后,在识别阶段,本发明将测试样本送入训练好的‘宏to微转换模型’网络,经过前向传播后在网络的一个准确度层中输出识别率。
根据本发明优选的,所述步骤1),对微表情数据集样本和宏表情数据集样本进行预处理,包括步骤如下:
a、通过时间插值模型插值(Temporal Interpolation Model,TIM)的方法,分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧,F的取值范围为[10,32]且F为整数;F的取值范围为[10,32]是为了提高训练效率的同时保证训练效果;
b、根据回归局部二值特征(Regressing local binary features,RLBF)算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点,包括两眉毛边缘两点,两眼睛四角及中心五个点,鼻子上中下各左右两点以及鼻尖一点,和嘴角两点和两嘴唇上下中心的两点,共计27个特征点,设定两眼中心的目标距离D为[100,150]之间的整数大小的像素值,将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放,使两眼中心的距离为D,并将图像旋转使两眼中心处于水平位置,相应27个特征点的位置也进行了变换;
c、假设以D的S倍切割微表情数据集样本每一个图像及宏表情数据集样本每一个图像,S的取值范围为[2,3],根据步骤b变换后的特征点中鼻尖的位置,向其上下左右四个方向分别延伸个像素值来切割图像,使得微表情数据集样本每一个图像及宏表情数据集样本每一个图像的分辨率均为231×231像素。
根据本发明优选的,F=16,D为100像素值,S=2.3。
根据本发明优选的,所述步骤2),构建跨模态元组损失函数的样本对,具体构建如下:以微表情为参考样本(即训练目标),在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本,例如同为“高兴”标签的微表情样本和宏表情样本,即一个微表情正样本、一个宏表情正样本;在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本,一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。本发明选取了M组标签不同的宏表情为负样本对,这样不仅能增强训练损失函数的鲁棒性,还能有助于其稳定收敛,这里M代表负样本的个数。
根据本发明优选的,所述步骤3),训练AU检测网络,初始化AU检测网络参数,以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数;包括步骤如下:
d、构建所述基于时空全卷积层的AU检测网络:以基于原始AlexNet的全卷积网络为原型,将其拓展为基于时空全卷积层的AU检测网络:将全卷积层拓展到3维空间构成时空全卷积层;通过时空全卷积层3D卷积后的特征图大小为K×H×W×L,K、H、W、L分别代表卷积核数量、长、宽、高,再将其通过一个卷积核大小为1×1×1的3D卷积层,即生成一个4维的热度图,用来描述AU特征点,所述全卷积层是将传统的卷积神经网络最后的全连接层替换为卷积核大小为1×1的卷积层,这样经过一个反卷积层输出生成一个和原图一样大小的热度图;
e、通过区分性响应图拟合(Discriminative Response Map Fitting,DRMF)算法识别出人脸的66个特征点,根据人脸的66个特征点将人脸图像划分为36个AU块,划分方法参见Y.-J.Liu,J.-K.Zhang,W.-J.Yan,S.-J.Wang,G.Zhao,and X.Fu,“A maindirectional mean optical flow feature for spontaneous micro-expressionrecognition,”IEEE Transactions on Affective Computing,vol.7,no.4,pp.299-310,2016.
其中有22个AU块存在于所有的微表情标签,将此22个AU块突出显示,其它AU块以及不相关的部分都定义为背景,训练AU检测网络,柔性最大值损失函数LAU如式(Ⅰ)所示:
式(Ⅰ)中,σh,w,l(ai)为h、w、l对应的柔性最大值函数(SoftmaxFunction), P为AU块个数,代表将人脸分成P个部分,i=0时表示背景,ai和aj分别为送入柔性最大值损失函数之前在i和j处的网络输出;
f、根据构建的所述基于时空全卷积层的AU检测网络进行样本训练,每一个迭代的最小批量为1,初始学习率为0.001,设置为每30000次迭代后学习率降为原来的0.1倍。但是在经过10000次迭代后损失函数趋于稳定,因此最终学习率维持初始值不变。
根据本发明优选的,所述步骤4),固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型,通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值,包括步骤如下:
g、构建跨模态‘宏to微’转换模型,跨模态‘宏to微’转换模型的第一个分支包括参考样本和微表情正样本,第二个分支包括宏表情正样本和M个宏表情负样本,第一个分支和第二个分支采用相同的网络结构,其以谷歌FaceNet的NN1网络为基础并通过替换二维的卷积层和池化层为三维的方式构成可用于训练图像序列的网络;第三个分支即训练好的AU检测网络;在训练跨模态‘宏to微’转换模型的第一个和第二个分支时,将训练好的AU检测网络参数进行固定,以输出AU特征点,并将其与第一个和第二个分支输出的全局特征进行拼接,再通过4096维第一个全连接层、4096维第二个全连接层;
h、构建跨模态元组损失函数,将第二个全连接层输出的4096维向量经过一个L2归一化后的输出作为跨模态元组损失函数的输入,使所述一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本之间满足如式(Ⅱ)、式(Ⅲ)所示的关系式:
式(Ⅱ)、式(Ⅲ)中,f(xa),为跨模态元组损失函数的输入,即分别为一个参考样本、一个微表情正样本、一个宏表情正样本、M个宏表情负样本的4096维的表情表达特征,α1、α2分别为(0,1)区间内平衡正样本、负样本关系的两个边缘值,k=1,2,3,...M,经过变化得到式(Ⅳ):
式(Ⅳ)中,j=1,2,j=1代表微表情正样本,j=2代表宏表情正样本;
设定式(Ⅳ)为跨模态元组损失函数,经过训练后,使得参考样本a与微表情正样本p1、宏表情正样本p2的距离都小于参考样本a与宏表情负样本nk的距离;
通过式(Ⅴ)约束,使得微表情与微表情之间的关系要近于微表情和宏表情,式(Ⅴ)如下所示:
式(Ⅴ)中,β为(0,1)区间内平衡微表情和宏表情关系的边缘值;微表情和宏表情毕竟作为两种不同的表情,属于两种模态,在这两种模态之间,我们通过添加另一个约束式(Ⅴ)将两种模态加以区分得到最后的目的,既然微表情作为参考,于是希望微表情与微表情之间的关系要近于微表情和宏表情;
在式(Ⅳ)和式(Ⅴ)的约束下,经过训练之后,微表情与相同标签微表情的距离小于与相同标签宏表情的距离,更小于微表情与不同标签宏表情的距离,跨模态元组损失函数如式(Ⅵ)所示:
式(Ⅵ)中,
而为跨模态的损失函数,t代表第t个批量,t=1,2,3,...,N,N代表批量的个数;
在训练模型时,反向传播需要同时传递四个的梯度,引入一个1/2,将所有公式归一化,得到:
i、使第二个全连接层的输出经过第三个C维的全连接层后送入一个用于分类的柔性最大值函数中,C代表类别数;
j、初始化跨模态‘宏to微’转换网络模型参数,最小批量应为3+M的倍数,为了保证训练速度,M=3,即选用3组宏表情负样本,最小批量设为6,初始学习率为0.001,在经过50000次迭代后降为原来的0.1倍,最大迭代次数为100000,训练经过60000次迭代后基本收敛,两个损失函数的和在0左右稳定,最终的学习率为0.0001。
根据本发明优选的,所述步骤C,根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率,包括步骤如下:
k、固定训练好的跨模态‘宏to微’转换模型,以测试网络为原型,去除第二个分支,并在第三个全连接层后面增加一个准确度层,形成测试网络;
l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中,这里由于是以测试网络进行测试,因此在前向传播时会忽略掉模型中测试网络不存在的部分,即宏表情分支不参与前向传播的过程,在测试网络的准确度层输出识别率。
本发明的有益效果为:
1、卷积神经网络能充分地利用微表情的时空特点提取3维特征,并且卷积神经网络本身就能训练时学习微表情帧之间的细微变化,因此提取的特征较已有方法更具有鲁棒性。
2、使用宏表情来训练微表情,用这种跨模态的方法,不仅能通过两者组合来增加训练的样本数量,还能通过学习将微表情与宏表情区分开。
3、CM-M2M网络提取全局特征的同时还与AU局部信息结合起来构成总体特征,能够反映每段微表情的AU特征变化。
附图说明
图1为本发明基于深度学习的‘宏to微转换模型’的微表情自动识别方法整体流程图;
图2(a)为DRMF算法定位的66个人脸特征点的示意图;
图2(b)为根据66个人脸特征点划分的36个AU块的示意图;
图3为AU检测模型的结构图;
图4为CASMEI和CASMEII在四种方法的对比效果图;
具体实施方式
下面结合说明书附图和实施例对本发明进行详细的描述,但不限于此。
实施例
一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,如图1所示,包括:
A、微表情样本处理
1)对微表情数据集样本和宏表情数据集样本进行预处理;包括步骤如下:
a、通过时间插值模型插值(Temporal Interpolation Model,TIM)的方法,分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧,F的取值范围为[10,32]
b、根据回归局部二值特征(Regressing local binary features,RLBF)算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点,包括两眉毛边缘两点,两眼睛四角及中心五个点,鼻子上中下各左右两点以及鼻尖一点,和嘴角两点和两嘴唇上下中心的两点,共计27个特征点,设定两眼中心的目标距离D为100像素值,将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放,使两眼中心的距离为D,并将图像旋转使两眼中心处于水平位置,相应且F为整数;F=16,是为了提高训练效率的同时保证训练效果;27个特征点的位置也进行了变换;
c、假设以D的S倍切割微表情数据集样本每一个图像及宏表情数据集样本每一个图像,S=2.3,根据步骤b变换后的特征点中鼻尖的位置,向其上下左右四个方向分别延伸个像素值来切割图像,使得微表情数据集样本每一个图像及宏表情数据集样本每一个图像的分辨率均为231×231像素。
2)构建跨模态元组损失函数的样本对;具体构建如下:
以微表情为参考样本(即训练目标),在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本,例如同为“高兴”标签的微表情样本和宏表情样本,即一个微表情正样本、一个宏表情正样本;在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本,一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。本实施例选取了M组标签不同的宏表情为负样本对,这样不仅能增强训练损失函数的鲁棒性,还能有助于其稳定收敛,这里M代表负样本的个数。
为了增加可训练样本的数量,本发明根据微表情和宏表情的关联,将宏表情作为正负样本与微表情组成元组对来训练微表情。
B、跨模态‘宏to微’转换模型训练
3)训练AU检测网络,初始化AU检测网络参数,以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数Softmax Loss Function;包括步骤如下:
d、构建所述基于时空全卷积层的AU检测网络,如图3所示:以基于原始AlexNet的全卷积网络为原型,将其拓展为基于时空全卷积层的AU检测网络:将全卷积层拓展到3维空间构成时空全卷积层;通过时空全卷积层3D卷积后的特征图大小为K×H×W×L,K、H、W、L分别代表卷积核数量、长、宽、高,再将其通过一个卷积核大小为1×1×1的3D卷积层,即生成一个4维的热度图,用来描述AU特征点,所述全卷积层是将传统的卷积神经网络最后的全连接层替换为卷积核大小为1×1的卷积层,这样经过一个反卷积层输出生成一个和原图一样大小的热度图;
e、通过区分性响应图拟合(Discriminative Response Map Fitting,DRMF)算法识别出人脸的66个特征点,如图2(a)所示,根据人脸的66个特征点将人脸图像划分为36个AU块,如图2(b)所示,划分方法参见Y.-J.Liu,J.-K.Zhang,W.-J.Yan,S.-J.Wang,G.Zhao,and X.Fu,“A main directional mean optical flow feature for spontaneous micro-expression recognition,”IEEE Transactions on Affective Computing,vol.7,no.4,pp.299-310,2016.
其中有22个AU块存在于所有的微表情标签,将此22个AU块突出显示,其它AU块以及不相关的部分都定义为背景,训练AU检测网络,柔性最大值损失函数LAU如式(Ⅰ)所示:
式(Ⅰ)中,σh,w,l(ai)为h、w、l对应的柔性最大值函数(SoftmaxFunction), P为AU块个数,代表将人脸分成P个部分,i=0时表示背景,ai和aj分别为送入柔性最大值损失函数之前在i和j处的网络输出;
f、根据构建的所述基于时空全卷积层的AU检测网络进行样本训练,每一个迭代的最小批量为1,初始学习率为0.001,设置为每30000次迭代后学习率降为原来的0.1倍。但是在经过10000次迭代后损失函数趋于稳定,因此最终学习率维持初始值不变。
4)固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型,通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值;包括步骤如下:
g、构建跨模态‘宏to微’转换模型,跨模态‘宏to微’转换模型的第一个分支包括参考样本和微表情正样本,第二个分支包括宏表情正样本和M个宏表情负样本,第一个分支和第二个分支采用相同的网络结构,其以谷歌FaceNet的NN1网络为基础并通过替换二维的卷积层和池化层为三维的方式构成可用于训练图像序列的网络;第三个分支即训练好的AU检测网络;在训练跨模态‘宏to微’转换模型的第一个和第二个分支时,将训练好的AU检测网络参数进行固定,以输出AU特征点,并将其与第一个和第二个分支输出的全局特征进行拼接,再通过4096维第一个全连接层、4096维第二个全连接层;
h、构建跨模态元组损失函数,将第二个全连接层输出的4096维向量经过一个L2归一化后的输出作为跨模态元组损失函数的输入,使所述一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本之间满足如式(Ⅱ)、式(Ⅲ)所示的关系式:
式(Ⅱ)、式(Ⅲ)中,f(xa),为跨模态元组损失函数的输入,即分别为一个参考样本、一个微表情正样本、一个宏表情正样本、M个宏表情负样本的4096维的表情表达特征,α1、α2分别为(0,1)区间内平衡正样本、负样本关系的两个边缘值,k=1,2,3,...M,经过变化得到式(Ⅳ):
式(Ⅳ)中,j=1,2,j=1代表微表情正样本,j=2代表宏表情正样本;
设定式(Ⅳ)为跨模态元组损失函数,经过训练后,使得参考样本a与微表情正样本p1、宏表情正样本p2的距离都小于参考样本a与宏表情负样本nk的距离;
通过式(Ⅴ)约束,使得微表情与微表情之间的关系要近于微表情和宏表情,式(Ⅴ)如下所示:
式(Ⅴ)中,β为(0,1)区间内平衡微表情和宏表情关系的边缘值;微表情和宏表情毕竟作为两种不同的表情,属于两种模态,在这两种模态之间,我们通过添加另一个约束式(Ⅴ)将两种模态加以区分得到最后的目的,既然微表情作为参考,于是希望微表情与微表情之间的关系要近于微表情和宏表情;
在式(Ⅳ)和式(Ⅴ)的约束下,经过训练之后,微表情与相同标签微表情的距离小于与相同标签宏表情的距离,更小于微表情与不同标签宏表情的距离,跨模态元组损失函数如式(Ⅵ)所示:
式(Ⅵ)中,
而为跨模态的损失函数,t代表第t个批量,t=1,2,3,...,N,N代表批量的个数;
在训练模型时,反向传播需要同时传递四个的梯度,引入一个1/2,将所有公式归一化,得到:
i、使第二个全连接层的输出经过第三个C维的全连接层后送入一个用于分类的柔性最大值函数中,C代表类别数;
j、初始化跨模态‘宏to微’转换网络模型参数,最小批量应为3+M的倍数,为了保证训练速度,M=3,即选用3组宏表情负样本,最小批量设为6,初始学习率为0.001,在经过50000次迭代后降为原来的0.1倍,最大迭代次数为100000,训练经过60000次迭代后基本收敛,两个损失函数的和在0左右稳定,最终的学习率为0.0001。
C、微表情识别
根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率。包括步骤如下:
k、固定训练好的跨模态‘宏to微’转换模型,以测试网络为原型,去除第二
l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中,这个分支,并在第三个全连接层后面增加一个准确度层,形成测试网络;里由于是以测试网络进行测试,因此在前向传播时会忽略掉模型中测试网络不存在的部分,即宏表情分支不参与前向传播的过程,在测试网络的准确度层输出识别率。
本实施例宏to微转换模型的第一个和第二个分支将微表情和宏表情分开训练并通过共享两者的权值提高训练效率,而第三个动作单元(AU)的分支用时空全卷积网络提取人脸重要AU的位置。本发明还提供了跨模态元组损失函数将并AU的位置作为局部信息,来增强特征对AU的鲁棒性,并提取微表情特有的特征。最后,在识别阶段,本发明将测试样本送入训练好的‘宏to微转换模型’网络,经过前向传播后在网络的一个准确度层中输出识别率。
利用本实施例一种基于深度学习的‘宏to微转换模型’的微表情识别方法在中科院自动化的两个微表情数据集上进行实验CASMEI和CASMEII,本实施例的CM-M2M方法的宏表情选用CK+数据集,分别与CASMEI和CASMEII构成样本对,为了保证对比实验的公平性,CM-M2M在这两个数据集上训练和测试的样本划分同样应用在这些方法中,即将数据集分成五组,每次取一组测试剩下的四组进行训练,最后的结果取平均值。
从图4可以看出,本实施例提供的微表情识别方法在两个数据集上都达到了最高的识别率,其中CASMEII的识别率最高为90.3%,比LBP-TOP的最好效果高出26.8%,是面部动态图(FDM)识别率的两倍多,并且比主定向平均光流特性(MDMO)方法分别高出33.5%,另外在CASMEI上的实验效果也都高于其他三种方法,这说明本实施例提供的微表情识别模型比特征提取方法获得了质的跨越,识别效果高出传统方法20%以上。
Claims (7)
1.一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,包括:
A、微表情样本处理
1)对微表情数据集样本和宏表情数据集样本进行预处理;
2)构建跨模态元组损失函数的样本对;
B、跨模态‘宏to微’转换模型训练
3)训练AU检测网络,初始化AU检测网络参数,以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数Softmax Loss Function;
4)固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型,通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值;
C、微表情识别
根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率。
2.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,所述步骤1),对微表情数据集样本和宏表情数据集样本进行预处理,包括步骤如下:
a、通过时间插值模型插值的方法,分别将微表情数据集样本每一个图像序列、宏表情数据集样本每一个图像序列插值为F帧,F的取值范围为[10,32]且F为整数;
b、根据回归局部二值特征算法检测出微表情数据集样本每一个图像及宏表情数据集样本每一个图像中人脸的27个特征点,设定两眼中心的目标距离D为[100,150]之间的整数大小的像素值,将微表情数据集样本每一个图像及宏表情数据集样本每一个图像进行等比缩放,使两眼中心的距离为D,并将图像旋转使两眼中心处于水平位置,相应27个特征点的位置也进行了变换;
c、假设以D的S倍切割微表情数据集样本每一个图像及宏表情数据集样本每一个图像,S的取值范围为[2,3],根据步骤b变换后的特征点中鼻尖的位置,向其上下左右四个方向分别延伸个像素值来切割图像,使得微表情数据集样本每一个图像及宏表情数据集样本每一个图像的分辨率均为231×231像素。
3.根据权利要求2所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,F=16,D为100像素值,S=2.3。
4.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,所述步骤2),构建跨模态元组损失函数的样本对,具体构建如下:
以微表情为参考样本,在微表情数据集样本和宏表情数据集样本中分别选取一个相同标签的样本作为正样本,即一个微表情正样本、一个宏表情正样本;在宏表情数据集样本中选取M个不同标签的样本作为宏表情负样本,一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本共同组成跨模态元组损失函数样本的一个大小为3+M的批量。
5.根据权利要求1所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,所述步骤3),训练AU检测网络,初始化AU检测网络参数,以基于时空全卷积层的AU检测网络训练一个柔性最大值损失函数;包括步骤如下:
d、构建所述基于时空全卷积层的AU检测网络:以基于原始AlexNet的全卷积网络为原型,将其拓展为基于时空全卷积层的AU检测网络:将全卷积层拓展到3维空间构成时空全卷积层;通过时空全卷积层3D卷积后的特征图大小为K×H×W×L,K、H、W、L分别代表卷积核数量、长、宽、高,再将其通过一个卷积核大小为1×1×1的3D卷积层,即生成一个4维的热度图,用来描述AU特征点,所述全卷积层是将传统的卷积神经网络最后的全连接层替换为卷积核大小为1×1的卷积层,这样经过一个反卷积层输出生成一个和原图一样大小的热度图;
e、通过区分性响应图拟合算法识别出人脸的66个特征点,根据人脸的66个特征点将人脸图像划分为36个AU块,其中有22个AU块存在于所有的微表情标签,将此22个AU块突出显示,其它AU块以及不相关的部分都定义为背景,训练AU检测网络,柔性最大值损失函数LAU如式(I)所示:
式(I)中,σh,w,l(ai)为h、w、l对应的柔性最大值函数,P为AU块个数,代表将人脸分成P个部分,i=0时表示背景,ai和aj分别为送入柔性最大值损失函数之前在i和j处的网络输出;
f、根据构建的所述基于时空全卷积层的AU检测网络进行样本训练,每一个迭代的最小批量为1,初始学习率为0.001,设置为每30000次迭代后学习率降为原来的0.1倍。
6.根据权利要求4所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,所述步骤4),固定AU检测网络参数,初始化跨模态‘宏to微’转换模型参数,训练跨模态‘宏to微’转换模型,通过训练同时减少一个跨模态元组损失函数和一个柔性最大值损失函数的值,包括步骤如下:
g、构建跨模态‘宏to微’转换模型,跨模态‘宏to微’转换模型的第一个分支包括参考样本和微表情正样本,第二个分支包括宏表情正样本和M个宏表情负样本,第一个分支和第二个分支采用相同的网络结构,其以谷歌FaceNet的NN1网络为基础并通过替换二维的卷积层和池化层为三维的方式构成可用于训练图像序列的网络;第三个分支即训练好的AU检测网络;在训练跨模态‘宏to微’转换模型的第一个和第二个分支时,将训练好的AU检测网络参数进行固定,以输出AU特征点,并将其与第一个和第二个分支输出的全局特征进行拼接,再通过4096维第一个全连接层、4096维第二个全连接层;
h、构建跨模态元组损失函数,将第二个全连接层输出的4096维向量经过一个L2归一化后的输出作为跨模态元组损失函数的输入,使所述一个参考样本、一个微表情正样本、一个宏表情正样本和M个宏表情负样本之间满足如式(Ⅱ)、式(Ⅲ)所示的关系式:
式(Ⅱ)、式(Ⅲ)中,f(xa),为跨模态元组损失函数的输入,即分别为一个参考样本、一个微表情正样本、一个宏表情正样本、M个宏表情负样本的4096维的表情表达特征,α1、α2分别为(0,1)区间内平衡正样本、负样本关系的两个边缘值,k=1,2,3,...M,经过变化得到式(Ⅳ):
式(Ⅳ)中,j=1,2,j=1代表微表情正样本,j=2代表宏表情正样本;
设定式(Ⅳ)为跨模态元组损失函数,经过训练后,使得参考样本a与微表情正样本p1、宏表情正样本p2的距离都小于参考样本a与M个宏表情负样本nk的距离;
通过式(Ⅴ)约束,使得微表情与微表情之间的关系要近于微表情和宏表情,式(Ⅴ)如下所示:
式(Ⅴ)中,β为(0,1)区间内平衡微表情和宏表情关系的边缘值;
在式(Ⅳ)和式(Ⅴ)的约束下,经过训练之后,微表情与相同标签微表情的距离小于与相同标签宏表情的距离,更小于微表情与不同标签宏表情的距离,跨模态元组损失函数如式(Ⅵ)所示:
式(Ⅵ)中,而为跨模态的损失函数,t代表第t个批量,t=1,2,3,...,N,N代表批量的个数;
在训练模型时,反向传播需要同时传递四个的梯度,引入一个1/2,将所有公式归一化,得到:
i、使第二个全连接层的输出经过第三个C维的全连接层后送入一个用于分类的柔性最大值函数中,C代表类别数;
j、初始化跨模态‘宏to微’转换网络模型参数,最小批量应为3+M的倍数,M=3,即选用3组宏表情负样本,最小批量设为6,初始学习率为0.001,在经过50000次迭代后降为原来的0.1倍,最大迭代次数为100000,训练经过60000次迭代后基本收敛,两个损失函数的和在0左右稳定,最终的学习率为0.0001。
7.根据权利要求6所述的一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法,其特征在于,所述步骤C,根据训练好的卷积神经网络模型,初始化测试参数,将用于测试的样本送入训练好的卷积神经网络模型中,经过网络前向传播之后输出识别率,包括步骤如下:
k、固定训练好的跨模态‘宏to微’转换模型,以测试网络为原型,去除第二个分支,并在第三个全连接层后面增加一个准确度层,形成测试网络;
l、将用于测试的微表情样本送入训练好的跨模态‘宏to微’转换模型中,在测试网络的准确度层输出识别率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710587663.1A CN107273876B (zh) | 2017-07-18 | 2017-07-18 | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710587663.1A CN107273876B (zh) | 2017-07-18 | 2017-07-18 | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273876A CN107273876A (zh) | 2017-10-20 |
CN107273876B true CN107273876B (zh) | 2019-09-10 |
Family
ID=60079254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710587663.1A Active CN107273876B (zh) | 2017-07-18 | 2017-07-18 | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273876B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832691B (zh) * | 2017-10-30 | 2021-10-26 | 北京小米移动软件有限公司 | 微表情识别方法及装置 |
CN107679526B (zh) * | 2017-11-14 | 2020-06-12 | 北京科技大学 | 一种人脸微表情识别方法 |
CN107808146B (zh) * | 2017-11-17 | 2020-05-05 | 北京师范大学 | 一种多模态情感识别分类方法 |
CN108416295B (zh) * | 2018-03-08 | 2021-10-15 | 天津师范大学 | 一种基于局部嵌入深度特征的行人再识别方法 |
CN110348271A (zh) * | 2018-04-04 | 2019-10-18 | 山东大学 | 一种基于长短时记忆网络的微表情识别方法 |
CN108629314B (zh) * | 2018-05-07 | 2021-08-10 | 山东大学 | 一种基于主动迁移学习的微表情识别方法 |
CN110457975B (zh) * | 2018-05-07 | 2022-12-27 | 山东大学 | 一种基于宏信息知识迁移的微表情识别方法 |
CN108830222A (zh) * | 2018-06-19 | 2018-11-16 | 山东大学 | 一种基于信息性和代表性主动学习的微表情识别方法 |
CN109344720B (zh) * | 2018-09-04 | 2022-03-15 | 电子科技大学 | 一种基于自适应特征选择的情感状态检测方法 |
CN109344744B (zh) * | 2018-09-14 | 2021-10-29 | 北京师范大学 | 基于深度卷积神经网络的人脸微表情动作单元检测方法 |
CN109409503B (zh) * | 2018-09-27 | 2020-07-24 | 深圳市铱硙医疗科技有限公司 | 神经网络的训练方法、图像转换方法、装置、设备及介质 |
CN109409287B (zh) * | 2018-10-25 | 2021-05-14 | 山东大学 | 一种由宏表情到微表情的迁移学习方法 |
CN109508660A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于视频的au检测方法 |
CN109657554B (zh) * | 2018-11-21 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 一种基于微表情的图像识别方法、装置以及相关设备 |
CN109543603B (zh) * | 2018-11-21 | 2021-05-11 | 山东大学 | 一种基于宏表情知识迁移的微表情识别方法 |
CN109522861A (zh) * | 2018-11-28 | 2019-03-26 | 西南石油大学 | 一种人脸多类微表情识别方法 |
CN109815801A (zh) * | 2018-12-18 | 2019-05-28 | 北京英索科技发展有限公司 | 基于深度学习的人脸识别方法及装置 |
CN109840512A (zh) * | 2019-02-28 | 2019-06-04 | 北京科技大学 | 一种面部动作单元识别方法及识别装置 |
CN110135497B (zh) * | 2019-05-16 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 模型训练的方法、面部动作单元强度估计的方法及装置 |
CN110516608B (zh) * | 2019-08-28 | 2023-04-07 | 南京大学 | 一种基于多模态数据异常检测的微表情识别方法 |
CN111368734B (zh) * | 2020-03-04 | 2022-09-06 | 中国科学技术大学 | 一种基于正常表情辅助的微表情识别方法 |
CN111401292B (zh) * | 2020-03-25 | 2023-05-26 | 成都东方天呈智能科技有限公司 | 一种融合红外图像训练的人脸识别网络构建方法 |
CN111460981B (zh) * | 2020-03-30 | 2022-04-01 | 山东大学 | 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 |
CN111767842B (zh) * | 2020-06-29 | 2024-02-06 | 杭州电子科技大学 | 基于迁移学习和自编码器数据增强的微表情种类判别方法 |
CN112348640B (zh) * | 2020-11-12 | 2021-08-13 | 北京科技大学 | 一种基于面部情感状态分析的在线购物系统及方法 |
CN112381036B (zh) * | 2020-11-26 | 2024-10-15 | 厦门大学 | 一种应用于刑侦的微表情与宏表情片段识别方法 |
CN113221639B (zh) * | 2021-04-01 | 2022-07-29 | 山东大学 | 一种基于多任务学习的代表性au区域提取的微表情识别方法 |
CN113449070A (zh) * | 2021-05-25 | 2021-09-28 | 北京有竹居网络技术有限公司 | 多模态数据检索方法、装置、介质及电子设备 |
CN113343949B (zh) * | 2021-08-03 | 2021-10-29 | 中国航空油料集团有限公司 | 一种通用的嵌入式平台的行人检测模型训练方法 |
CN113486867B (zh) * | 2021-09-07 | 2021-12-14 | 北京世纪好未来教育科技有限公司 | 人脸微表情识别方法、装置、电子设备及存储介质 |
CN115050081B (zh) * | 2022-08-12 | 2022-11-25 | 平安银行股份有限公司 | 表情样本生成方法、表情识别方法、装置及终端设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258204A (zh) * | 2012-02-21 | 2013-08-21 | 中国科学院心理研究所 | 一种基于Gabor和EOH特征的自动微表情识别方法 |
CN103426005A (zh) * | 2013-08-06 | 2013-12-04 | 山东大学 | 微表情自动识别的建库视频自动切段方法 |
CN103440509A (zh) * | 2013-08-28 | 2013-12-11 | 山东大学 | 一种有效的微表情自动识别方法 |
CN104881660A (zh) * | 2015-06-17 | 2015-09-02 | 吉林纪元时空动漫游戏科技股份有限公司 | 基于gpu加速的人脸表情识别及互动方法 |
CN106096557A (zh) * | 2016-06-15 | 2016-11-09 | 浙江大学 | 一种基于模糊训练样本的半监督学习人脸表情识别方法 |
CN106570474A (zh) * | 2016-10-27 | 2017-04-19 | 南京邮电大学 | 一种基于3d卷积神经网络的微表情识别方法 |
CN106599800A (zh) * | 2016-11-25 | 2017-04-26 | 哈尔滨工程大学 | 一种基于深度学习的人脸微表情识别方法 |
-
2017
- 2017-07-18 CN CN201710587663.1A patent/CN107273876B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258204A (zh) * | 2012-02-21 | 2013-08-21 | 中国科学院心理研究所 | 一种基于Gabor和EOH特征的自动微表情识别方法 |
CN103426005A (zh) * | 2013-08-06 | 2013-12-04 | 山东大学 | 微表情自动识别的建库视频自动切段方法 |
CN103440509A (zh) * | 2013-08-28 | 2013-12-11 | 山东大学 | 一种有效的微表情自动识别方法 |
CN104881660A (zh) * | 2015-06-17 | 2015-09-02 | 吉林纪元时空动漫游戏科技股份有限公司 | 基于gpu加速的人脸表情识别及互动方法 |
CN106096557A (zh) * | 2016-06-15 | 2016-11-09 | 浙江大学 | 一种基于模糊训练样本的半监督学习人脸表情识别方法 |
CN106570474A (zh) * | 2016-10-27 | 2017-04-19 | 南京邮电大学 | 一种基于3d卷积神经网络的微表情识别方法 |
CN106599800A (zh) * | 2016-11-25 | 2017-04-26 | 哈尔滨工程大学 | 一种基于深度学习的人脸微表情识别方法 |
Non-Patent Citations (3)
Title |
---|
Veena Mayya等.《Combining temporal interpolation and DCNN for faster recognition of micro-expressions in video sequences》.《2016 Intl. Conference on Advances in Computing, Communications and Informatics (ICACCI)》.2016,第699-703页. * |
Xiaohong Li等.《Spontaneous facial micro-expression detection based on deep learning》.《2016 IEEE 13th International Conference on Signal Processing (ICSP)》.2016,第1130-1134页. * |
贲晛烨等.《微表情自动识别综述》.《计算机辅助设计与图形学学报》.2014,第26卷(第9期),第1385-1395页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107273876A (zh) | 2017-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273876B (zh) | 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法 | |
Han et al. | Heterogeneous face attribute estimation: A deep multi-task learning approach | |
Liu et al. | Adversarial learning for constrained image splicing detection and localization based on atrous convolution | |
Othmani et al. | Age estimation from faces using deep learning: A comparative analysis | |
Cheng et al. | Exploiting effective facial patches for robust gender recognition | |
Bai et al. | Subset based deep learning for RGB-D object recognition | |
Atallah et al. | Face recognition and age estimation implications of changes in facial features: A critical review study | |
Tian et al. | Ear recognition based on deep convolutional network | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
CN105389548A (zh) | 基于人脸识别的婚恋评价系统和方法 | |
CN109389045A (zh) | 基于混合时空卷积模型的微表情识别方法与装置 | |
Hassanat et al. | Colour-based lips segmentation method using artificial neural networks | |
CN113947814A (zh) | 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法 | |
Liang et al. | A convolution-transformer dual branch network for head-pose and occlusion facial expression recognition | |
CN109255289A (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN104966075B (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
Dogar et al. | Attention augmented distance regression and classification network for nuclei instance segmentation and type classification in histology images | |
CN110096991A (zh) | 一种基于卷积神经网络的手语识别方法 | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
Agbo-Ajala et al. | A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images | |
Zhang et al. | Cross-dataset learning for age estimation | |
Chalup et al. | Simulating pareidolia of faces for architectural image analysis | |
Du et al. | Boundary-sensitive network for portrait segmentation | |
Zhong et al. | Exploring features and attributes in deep face recognition using visualization techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |