CN111160189B - 一种基于动态目标训练的深度神经网络人脸表情识别方法 - Google Patents

一种基于动态目标训练的深度神经网络人脸表情识别方法 Download PDF

Info

Publication number
CN111160189B
CN111160189B CN201911331871.0A CN201911331871A CN111160189B CN 111160189 B CN111160189 B CN 111160189B CN 201911331871 A CN201911331871 A CN 201911331871A CN 111160189 B CN111160189 B CN 111160189B
Authority
CN
China
Prior art keywords
training
loss function
loss
neural network
expression recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911331871.0A
Other languages
English (en)
Other versions
CN111160189A (zh
Inventor
文贵华
常天元
诸俊浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911331871.0A priority Critical patent/CN111160189B/zh
Publication of CN111160189A publication Critical patent/CN111160189A/zh
Application granted granted Critical
Publication of CN111160189B publication Critical patent/CN111160189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于目标动态训练的深度神经网络人脸表情识别方法。所述方法包括以下步骤:输入训练样本集和测试样本集;采用多个损失函数作为训练的目标函数;将损失函数排序;根据排序后的损失函数依次在训练样本集上重复训练深度神经网络,获得表情识别模型;根据表情识别模型对输入的测试样本进行表情分类。本发明让模型在初期能尽快拟合训练数据,在后期通过多个损失的动态权重变化拉大不同类别的特征空间距离以达到更好的泛化性能。本发明能够有效地提升神经网络在多个人脸表情识别数据集上的准确率。

Description

一种基于动态目标训练的深度神经网络人脸表情识别方法
技术领域
本发明涉及深度学习机器视觉领域,具体涉及一种基于动态目标训练的深度神经网络人脸表情识别方法。
背景技术
人脸表情是人们用来表达情绪的最主要的一种方式,研究表明:人与人之间的交流仅有7%的信息是靠言语来传达的,38%的信息是靠声音来传递的,剩余的55%均是靠人脸的面部表情来进行传达。由此结论可以看出人脸表情在人与人交流过程中的重要性,因此人脸面部表情识别有着重要的研究价值和意义。
人脸表情识别目前在社会生活中有着广泛的应用场景,比如在智能安防、测谎、智慧医疗、互联网教育等方面。在智能安防领域中,人脸表情识别技术可以实时监测路人的情绪状态,识别可疑人物等潜在风险并提前采取必要的防护措施,在银行、商城、小区等公共场所有着很大的用途。在智慧医疗领域中,人脸表情识别技术可以24小时无间断的获取病人的面部表情图像进而判断病人当前的状态,当病人出现紧急危险情况时可以第一时间反馈给医生做好及时治疗。在远程互联网教育中,人脸表情识别对于老师在线及时了解学习的听课状态并根据学生当前的情绪状态来动态调整授课的形式和内容,进而提升教学质量。
由于表情具有复杂性和多变性的特点,加上不同种族,年龄,周围环境等因素的干扰(Li,S.;Deng,W.Deep Facial Expression Recognition:A Survey.In Proceedings ofthe International Conference on Computer Vision and Pattern Recognition,SaltLake City,UT,USA,18–22June 2018.),很难针对数据集去明确的划分每一个表情的特征空间,表情类别中的大部分样本的面部特征在特征空间中距离同类样本的可能比较近,而某些表情类别中的样本特征空间距离同类样本比较远,仅仅使用图像分类中具有普适性的分类损失函数引导网络学习使得网络泛化性能不足。虽然有一些先进的方法提出来解决这个问题,比如Jie Cai et al提出的概率属性树方法(Cai J,Meng Z,Khan AS,etal.Probabilistic Attribute Tree in Convolutional Neural Networks for FacialExpression Recognition[J].Computer Vision and Pattern Recognition,2018,1(c):10-24.)和Yong Li et al提出的注意力方法(Li Y,Zeng J,Shan S,et al.Occlusionaware facial expression recognition using CNN with attention mechanism[J].IEEE Transactions on Image Processing,IEEE,2018,28(5):2439–2450.),但它们更为复杂且精度较低。
发明内容
本发明为了解决现有技术的不足,提出了一种基于动态目标训练的深度神经网络人脸表情识别方法,有效提高对人脸表情识别分类的能力,同时具备较强的鲁棒性。
本发明的目的至少通过如下技术方案之一实现。
一种基于动态目标训练的深度神经网络人脸表情识别方法,包括以下步骤:
S1、输入训练样本集和测试样本集;
S2、采用多个损失函数作为训练的目标函数;
S3、将损失函数排序;
S4、根据排序后的损失函数依次在训练样本集上重复对深度神经网络进行动态目标训练,获得表情识别模型;
S5、根据表情识别模型对输入的测试样本进行表情分类。
进一步地,步骤S1中,对输入的任何人脸图像,属于三通道的彩色图像,通过双线性插值的方式进行放缩,每张图像进行随机的水平翻转、随机平移、随机图像旋转、随机图像缩放。
进一步地,步骤S2中损失函数包括最大间隔高斯混合损失函数L-GM、似然正则化损失函数、基于表情分类领域知识的损失函数和L2正则项损失函数。
进一步地,L-GM损失函数在训练集上提取的深度特征x遵循高斯混合概率分布,其中p(k)代表深度特征x的第k类的先验概率,μk和∑k分别表示类别k的均值和协方差,公式如下:
Figure BDA0002329834610000031
其中N表示高斯分布函数,K表示分类的总类别个数;
基于上述约束,训练集上提取的深度特征xi在给定的类别标签zi∈[1,K]下的条件概率的计算如下所示:
p(xi|zi)=N(xi;μzi,∑zi);
相应的后验概率分布的计算如下所示:
Figure BDA0002329834610000032
混合高斯分布的类别损失函数Lcls通过后验概率分布与类别标签的交叉熵来计算,公式如下:
Figure BDA0002329834610000033
转换用距离来度量后的混合高斯分布的类别损失函数Lcls,其中dk的计算采用马氏距离来衡量相关特征间的距离,具体公式如下:
Figure BDA0002329834610000034
Figure BDA0002329834610000035
其中,T表示矩阵转置,e为自然常数,Lcls,i表示第i个样本的类别损失函数的大小。
进一步地,似然正则化损失函数用于测量训练样本在何种程度上符合假设的混合高斯分布,通过对最大似然估计取负来进行计算,公式如下:
Figure BDA0002329834610000041
进一步地,基于表情识别领域知识的损失函数的目标是在人脸表情样本在距离自身类中心距离尽可能小的同时引入先验领域信息知识拉大其与易混分表情类中心的距离;领域损失函数公式如下:
Figure BDA0002329834610000042
其中参数α的作用是在网络模型的学习中加入强约束用来定义训练样本特征与同类中心特征间距离和对应易混分类中心特征间距离的一个最小间隔;f(xi)代表训练样本xi的特征表示,
Figure BDA0002329834610000043
代表训练样本xi的同类表情类别中心的特征表示,/>
Figure BDA0002329834610000044
表示训练样本xi对应易混分表情标签类别中心的特征表示;+代表中括号内的值大于0时取该值作为损失值,当中括号内的值小于0时损失值为0。
进一步地,正则项就是稀疏性,以保证抽取的特征尽可能简单;L2正则项损失函数的公式如下:
Figure BDA0002329834610000045
其中M代表神经网络的参数个数,wi是模型用于更新的第i个参数。
进一步地,步骤S3中,依据损失函数对模型的作用将四个损失函数排序分为三个等级,第一等级:分类损失函数;第二等级:似然正则化损失函数,基于表情识别领域知识的损失函数;第三等级:L2正则项损失函数。
进一步地,步骤S4中,搭建深度神经网络模型,依次设置为卷积层,池化层,3层残差模块,协方差层和全连接层;其中卷积层采用卷积核大小为3*3,步长为1的卷积,池化层卷积核大小为2*2,步长为2,残差模块包括两层卷积核大小为3*3,步长为1的卷积层和一个卷积核大小为2*2,步长为2的池化层;其中全连接层由两层线性连接层组成,第一层线性层输入维度为2000,输出维度为512,第二层线性层输入维度为512,输出维度为7;每一层卷积层后面都使用Leaky Relu作为激活函数,并接上BN层。
进一步地,步骤S4中,根据损失函数的等级类别分阶段训练搭建的深度神经网络;深度神经网络的损失函数为:
L=LclslkdLlkddiLdiL2L2
其中,λlkd、λdi、λL2分别为似然正则化损失函数、基于表情识别领域知识的损失函数、L2正则项损失函数的权重;Ldi为基于表情识别领域知识的损失函数Ldomain_information
然后通过权重来实现三个训练阶段,而每个训练阶段损失函数与步骤S3中损失函数的排序一致;
整个网络模型训练过程划分为三个不同的阶段,每个阶段损失项的加权系数都会随着训练过程动态上升,通过动态调整加权系数的值在不同阶段达到峰值,使得每一个训练阶段都有网络模型要重点关注的损失项;
在第一阶段中,给λlkd,λdi以及λL2很小的初始值,λlkd取[0.001,0.005],λdi取[0.01,0.05],λL2取[0.00001,0.00005],使得网络模型首先着重训练Lcls确保网络模型尽快的拟合数据的真实分布提高网络模型的分类准确率;
在第二阶段中,通过动态调整λlkd和λdi加权系数的值达到预设最大值,使网络模型在这一阶段着重训练似然正则损失项和领域信息损失项,目标是使得类内的样本更加紧凑的同时拉大易混分类别特征空间的距离;
三个损失项的动态加权系数λdynamic的通用公式化形式如下:
λdynamic=min(λinitial103·epoch/max_epoch,max_value)
其中λinitial为不同损失项的初始权重系数,epoch是当前迭代轮数,max_epoch是总迭代轮数,max_value为损失项加权系数的预设最大值;训练完成后,得到表情识别模型。
本发明相对于现有技术具有如下的优点及效果:
1.本发明更有机会避免模型的参数陷入局部最优(请说明此处是避免什么陷入局部最优),提高了模型的表情识别泛化性能。
2.本发明提高了表情识别的准确率,有更广泛的应用。
附图说明
图1是本发明实施例中一种基于动态目标训练的深度神经网络人脸表情识别方法的流程图;
图2是本发明实施例中一种基于动态目标训练的深度神经网络人脸表情识别方法的深度神经网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例以及附图,对本发明的具体实施进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例:
一种基于动态目标训练的深度神经网络人脸表情识别方法,如图1所示,包括以下步骤:
S1、输入训练样本集和测试样本集。
本实施例中,对输入的任何人脸图像,属于三通道的彩色图像,通过双线性插值的方式放缩到100*100尺寸大小的图片,每张图像随机的水平翻转、随机平移正负0.1的宽度或正负0.1的高度、随机图像旋转正负30度、随机图像缩放0.2的比例。
S2、采用多个损失函数作为训练的目标函数,包括最大间隔高斯混合损失函数L-GM、似然正则化损失函数、基于表情分类领域知识的损失函数和L2正则项损失函数。
L-GM损失函数在训练集上提取的深度特征x遵循高斯混合概率分布,其中p(k)代表深度特征x的第k类的先验概率,μk和∑k分别表示类别k的均值和协方差,公式如下:
Figure BDA0002329834610000071
其中N表示高斯分布函数,K表示分类的总类别个数。
基于上述约束,训练集上提取的深度特征xi在给定的类别标签zi∈[1,K]下的条件概率的计算如下所示:
p(xi|zi)=N(xi;μzi,∑zi);
相应的后验概率分布的计算如下所示:
Figure BDA0002329834610000072
混合高斯分布的类别损失函数Lcls通过后验概率分布与类别标签的交叉熵来计算,公式如下:
Figure BDA0002329834610000073
转换用距离来度量后的混合高斯分布的类别损失函数Lcls,其中dk的计算采用马氏距离来衡量相关特征间的距离,具体公式如下:
Figure BDA0002329834610000074
Figure BDA0002329834610000075
其中,T表示矩阵转置,e为自然常数;Lcls,i表示第i个样本的类别损失函数的大小。
似然正则化损失函数用于测量训练样本在何种程度上符合假设的混合高斯分布,通过对最大似然估计取负来进行计算,公式如下:
Figure BDA0002329834610000081
基于表情识别领域知识的损失函数的目标是在人脸表情样本在距离自身类中心距离尽可能小的同时引入先验领域信息知识拉大其与易混分表情类中心的距离;领域损失函数公式如下:
Figure BDA0002329834610000082
其中参数α的作用是在网络模型的学习中加入强约束用来定义训练样本特征与同类中心特征间距离和对应易混分类中心特征间距离的一个最小间隔;f(xi)代表训练样本xi的特征表示,
Figure BDA0002329834610000083
代表训练样本xi的同类表情类别中心的特征表示,/>
Figure BDA0002329834610000084
表示训练样本xi对应易混分表情标签类别中心的特征表示;+代表中括号内的值大于0时取该值作为损失值,当中括号内的值小于0时损失值为0。
正则项就是稀疏性,以保证抽取的特征尽可能简单;L2正则项损失函数的公式如下:
Figure BDA0002329834610000085
其中M代表神经网络的参数个数,wi是模型用于更新的第i个参数。
S3、将损失函数排序。本实施例中,将损失函数分成三个等级,从第一个等级开始训练。
第一等级:分类损失函数;
第二等级:似然正则化损失函数,基于表情识别领域知识的损失函数;
第三等级:L2正则项损失函数。
S4、根据排序后的损失函数依次在训练样本集上重复对深度神经网络进行动态目标训练,获得表情识别模型。
首先搭建深度神经网络模型,如图2所示,依次设置为卷积层,池化层,3层残差模块,协方差层和全连接层;其中卷积层采用卷积核大小为3*3,步长为1的卷积,池化层卷积核大小为2*2,步长为2,残差模块包括两层卷积核大小为3*3,步长为1的卷积层和一个卷积核大小为2*2,步长为2的池化层。其中全连接层由两层线性连接层组成,第一层线性层输入维度为2000,输出维度为512,第二层线性层输入维度为512,输出维度为7;每一层卷积层后面都使用Leaky Relu作为激活函数,并接上BN层。
每一层的具体参数配置如表1所示。
表1.深度神经网络结构参数表
Figure BDA0002329834610000091
Figure BDA0002329834610000101
然后根据损失函数的等级类别分阶段训练搭建的深度神经网络;深度神经网络的损失函数为:
L=LclslkdLlkddiLdiL2L2
其中,λlkd、λdi、λL2分别为似然正则化损失函数、基于表情识别领域知识的损失函数、L2正则项损失函数的权重;Ldi为基于表情识别领域知识的损失函数Ldomain_information
然后通过权重来实现三个训练阶段,而每个训练阶段损失函数与步骤S3中损失函数的排序一致;
整个网络模型训练过程划分为三个不同的阶段,每个阶段损失项的加权系数都会随着训练过程动态上升,通过动态调整加权系数的值在不同阶段达到峰值,使得每一个训练阶段都有网络模型要重点关注的损失项;
在第一阶段中,给λlkd,λdi以及λL2很小的初始值,本实施例中,λlkd取0.003,λdi取0.03,λL2取0.00003,使得网络模型首先着重训练Lcls确保网络模型尽快的拟合数据的真实分布提高网络模型的分类准确率;
在第二阶段中,通过动态调整λlkd和λdi加权系数的值达到预设最大值,使网络模型在这一阶段着重训练似然正则损失项和领域信息损失项,目标是使得类内的样本更加紧凑的同时拉大易混分类别特征空间的距离;
在第三阶段中,通过动态调整λl2加权系数值到预设最大值,使网络模型在这一阶段着重训练L2损失项,让模型更简单泛化能力更强;
三个损失项的动态加权系数λdynamic的通用公式化形式如下:
λdynamic=min(λinitial103·epoch/max_epoch,max_value)
其中λinitial为不同损失项的初始权重系数,epoch是当前迭代轮数,max_epoch是总迭代轮数,max_value为损失项加权系数的预设最大值;
本实施例中,训练过程中总迭代轮数为600轮,第一阶段(0-200轮)网络训练的注意力集中在分类损失函数Lcls上,其余损失函数的加权系数初始化值均很小,将损失项加权系数的初始值设置为λinitial_lkd=0.003,λinitial_di=0.03,λinitial_L2=3e-5,。第二阶段(200-400轮)动态调整加权系数使λlkd和λdi加权系数大约在300轮时达到预设最大值,其中似然正则项加权系数λlkd的最大值为0.1,领域信息损失项加权系数λdi的最大值为1.0,这一阶段网络模型特征学习的注意力集中在使类内的样本更加紧凑同时拉大易混分类别间的距离。第三个阶段(400-600轮)使λL2加权系数大约在500轮时达到最大值,L2正则项加权系数的预设最大值为1e-2;
训练完成后,得到表情识别模型。
S5、根据表情识别模型对输入的测试样本进行表情分类。
依据本发明的实现在RAF-DB(Li S,Deng W,Du J.Reliable Crowdsourcing andDeep Locality-Preserving Learning for Expression Recognition in the Wild[J].2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:2852–2861.)测试集上与其他方法比较,如表2所示,本发明优于本领域其他方法,包括概率属性树方法(Cai J,Meng Z,Khan AS,et al.Probabilistic Attribute Tree inConvolutional Neural Networks for Facial Expression Recognition[J].ComputerVision and Pattern Recognition,2018,1(c):10-24.)以及注意力机制方法(Li Y,ZengJ,Shan S,et al.Occlusion aware facial expression recognition using CNN withattention mechanism[J].IEEE Transactions on Image Processing,IEEE,2018,28(5):2439–2450.)。
表2.RAF-DB测试集上不同先进方法平均识别准确率比较
Figure BDA0002329834610000111
Figure BDA0002329834610000121
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,包括以下步骤:
S1、输入训练样本集和测试样本集;
S2、采用多个损失函数作为训练的目标函数;
S3、将损失函数排序;
S4、根据排序后的损失函数依次在训练样本集上重复对深度神经网络进行动态目标训练,获得表情识别模型;根据损失函数的等级类别分阶段训练搭建的深度神经网络;深度神经网络的损失函数为:
L=LclslkdLlkddiLdiL2L2
其中,λlkd、λdi、λL2分别为似然正则化损失函数、基于表情识别领域知识的损失函数、L2正则项损失函数的权重;Ldi为基于表情识别领域知识的损失函数Ldomain_information
然后通过权重来实现三个训练阶段,而每个训练阶段损失函数与步骤S3中损失函数的排序一致;
整个网络模型训练过程划分为三个不同的阶段,每个阶段损失项的加权系数都会随着训练过程动态上升,通过动态调整加权系数的值在不同阶段达到峰值,使得每一个训练阶段都有网络模型要重点关注的损失项;
在第一阶段中,给λlkd,λdi以及λL2很小的初始值,λlkd取[0.001,0.005],λdi取[0.01,0.05],λL2取[0.00001,0.00005],使得网络模型首先着重训练Lcls确保网络模型尽快的拟合数据的真实分布提高网络模型的分类准确率;
在第二阶段中,通过动态调整λlkd和λdi加权系数的值达到预设最大值,使网络模型在这一阶段着重训练似然正则损失项和领域信息损失项,目标是使得类内的样本更加紧凑的同时拉大易混分类别特征空间的距离;
在第三阶段中,通过动态调整λl2加权系数值到预设最大值,使网络模型在这一阶段着重训练L2损失项,让模型更简单泛化能力更强;
三个损失项的动态加权系数λdynamic的通用公式化形式如下:
λdynamic=min(λinitial103·epoch/max_epoch,max_value)
其中λinitial为不同损失项的初始权重系数,epoch是当前迭代轮数,max_epoch是总迭代轮数,max_value为损失项加权系数的预设最大值;训练完成后,得到表情识别模型
S5、根据表情识别模型对输入的测试样本进行表情分类。
2.根据权利要求1所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,步骤S1中,对输入的任何人脸图像,属于三通道的彩色图像,通过双线性插值的方式进行放缩,每张图像进行随机的水平翻转、随机平移、随机图像旋转、随机图像缩放。
3.根据权利要求1所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,步骤S2中损失函数包括最大间隔高斯混合损失函数L-GM、似然正则化损失函数、基于表情分类领域知识的损失函数和L2正则项损失函数。
4.根据权利要求3所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,L-GM损失函数在训练集上提取的深度特征x遵循高斯混合概率分布,其中p(k)代表深度特征x的第k类的先验概率,μk和∑k分别表示类别k的均值和协方差,公式如下:
Figure FDA0004108437540000021
其中N表示高斯分布函数,K表示分类的总类别个数;
基于上述约束,训练集上提取的深度特征xi在给定的类别标签zi∈[1,K]下的条件概率的计算如下所示:
p(xi|zi)=N(xi;μzi,∑zi);
相应的后验概率分布的计算如下所示:
Figure FDA0004108437540000031
混合高斯分布的类别损失函数Lcls通过后验概率分布与类别标签的交叉熵来计算,公式如下:
Figure FDA0004108437540000032
转换用距离来度量后的混合高斯分布的类别损失函数Lcls,其中dk的计算采用马氏距离来衡量相关特征间的距离,具体公式如下:
Figure FDA0004108437540000033
其中,T表示矩阵转置,e为自然常数,Lcls,i表示第i个样本的类别损失函数的大小。
5.根据权利要求3所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,似然正则化损失函数用于测量训练样本在何种程度上符合假设的混合高斯分布,通过对最大似然估计取负来进行计算,公式如下:
Figure FDA0004108437540000041
6.根据权利要求3所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,基于表情识别领域知识的损失函数的目标是在人脸表情样本在距离自身类中心距离小的同时引入先验领域信息知识拉大其与易混分表情类中心的距离;领域损失函数公式如下:
Figure FDA0004108437540000042
其中参数α的作用是在网络模型的学习中加入强约束用来定义训练样本特征与同类中心特征间距离和对应易混分类中心特征间距离的一个最小间隔;f(xi)代表训练样本xi的特征表示,
Figure FDA0004108437540000043
代表训练样本xi的同类表情类别中心的特征表示,/>
Figure FDA0004108437540000044
表示训练样本xi对应易混分表情标签类别中心的特征表示;+代表中括号内的值大于0时取该值作为损失值,当中括号内的值小于0时损失值为0。
7.根据权利要求3所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,正则项就是稀疏性,以保证抽取的特征尽可能简单;L2正则项损失函数的公式如下:
Figure FDA0004108437540000045
其中M代表神经网络的参数个数,wi是模型用于更新的第i个参数。
8.根据权利要求1所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,步骤S3中,依据损失函数对模型的作用将四个损失函数排序分为三个等级,第一等级:分类损失函数;第二等级:似然正则化损失函数,基于表情识别领域知识的损失函数;第三等级:L2正则项损失函数。
9.根据权利要求1所述的一种基于动态目标训练的深度神经网络人脸表情识别方法,其特征在于,步骤S4中,搭建深度神经网络模型,依次设置为卷积层,池化层,3层残差模块,协方差层和全连接层;其中卷积层采用卷积核大小为3*3,步长为1的卷积,池化层卷积核大小为2*2,步长为2,残差模块包括两层卷积核大小为3*3,步长为1的卷积层和一个卷积核大小为2*2,步长为2的池化层;其中全连接层由两层线性连接层组成,第一层线性层输入维度为2000,输出维度为512,第二层线性层输入维度为512,输出维度为7;每一层卷积层后面都使用Leaky Relu作为激活函数,并接上BN层。
CN201911331871.0A 2019-12-21 2019-12-21 一种基于动态目标训练的深度神经网络人脸表情识别方法 Active CN111160189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911331871.0A CN111160189B (zh) 2019-12-21 2019-12-21 一种基于动态目标训练的深度神经网络人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911331871.0A CN111160189B (zh) 2019-12-21 2019-12-21 一种基于动态目标训练的深度神经网络人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN111160189A CN111160189A (zh) 2020-05-15
CN111160189B true CN111160189B (zh) 2023-05-26

Family

ID=70557737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911331871.0A Active CN111160189B (zh) 2019-12-21 2019-12-21 一种基于动态目标训练的深度神经网络人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN111160189B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914761A (zh) * 2020-08-04 2020-11-10 南京华图信息技术有限公司 一种热红外人脸识别的方法及系统
CN112052681A (zh) * 2020-08-20 2020-12-08 中国建设银行股份有限公司 信息抽取模型训练方法、信息抽取方法、装置及电子设备
CN112097126B (zh) * 2020-09-18 2021-07-20 同济大学 一种基于深度神经网络的供水管网爆管管道精确识别方法
CN112766355B (zh) * 2021-01-13 2022-08-05 合肥工业大学 一种标签噪声下的脑电信号情绪识别方法
CN112766134A (zh) * 2021-01-14 2021-05-07 江南大学 一种强化类间区分的表情识别方法
CN112819665A (zh) * 2021-01-29 2021-05-18 上海商汤科技开发有限公司 课堂状态的评估方法和相关装置、设备
CN113239833B (zh) * 2021-05-20 2023-08-29 厦门大学 一种基于双分支干扰分离网络的人脸表情识别方法
CN113705647B (zh) * 2021-08-19 2023-04-28 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN115410265B (zh) * 2022-11-01 2023-01-31 合肥的卢深视科技有限公司 模型训练方法、人脸识别方法、电子设备及存储介质
CN116665282A (zh) * 2023-07-26 2023-08-29 苏州浪潮智能科技有限公司 人脸识别模型训练方法、人脸识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN110532900A (zh) * 2019-08-09 2019-12-03 西安电子科技大学 基于U-Net和LS-CNN的人脸表情识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN110532900A (zh) * 2019-08-09 2019-12-03 西安电子科技大学 基于U-Net和LS-CNN的人脸表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tianyuan Chang 等.Facial expression recognition sensing the complexity of testing samples.《Applied Intelligence》.第4319-4334页. *

Also Published As

Publication number Publication date
CN111160189A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111160189B (zh) 一种基于动态目标训练的深度神经网络人脸表情识别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
Jin et al. Deep learning for underwater image recognition in small sample size situations
Rahman et al. Face recognition using gabor filters
CN109637522B (zh) 一种基于语谱图提取深度空间注意特征的语音情感识别方法
Zhou et al. A method of improved CNN traffic classification
CN112949647A (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109978021A (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN110717423A (zh) 一种老人面部表情的情感识别模型的训练方法及装置
CN111160130A (zh) 一种多平台虚拟身份账号的多维碰撞识别方法
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Sharif et al. Segmentation of Images Using Deep Learning: A Survey
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN111325162A (zh) 基于虚拟样本和残差融合的权重稀疏表示的人脸识别方法
CN116580708A (zh) 一种智能语音处理方法和系统
Gao et al. Chinese fingerspelling sign language recognition using a nine-layer convolutional neural network
He et al. Image captioning algorithm based on multi-branch cnn and bi-lstm
Yao A compressed deep convolutional neural networks for face recognition
Yang et al. Multi-intent text classification using dual channel convolutional neural network
Yu et al. Prototypical network based on Manhattan distance
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
Viswanathan et al. Text to image translation using generative adversarial networks
Zhang et al. Multi-modal Data Transfer Learning-based LSTM Method for Speech Emotion Recognition
CN110795563A (zh) 文本分类模型训练方法、事件检测方法及对应的装置
Htet et al. Real-Time Myanmar Sign Language Recognition Using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant