CN114694219A - 改进胶囊网络的人脸表情识别方法及装置 - Google Patents
改进胶囊网络的人脸表情识别方法及装置 Download PDFInfo
- Publication number
- CN114694219A CN114694219A CN202210295485.6A CN202210295485A CN114694219A CN 114694219 A CN114694219 A CN 114694219A CN 202210295485 A CN202210295485 A CN 202210295485A CN 114694219 A CN114694219 A CN 114694219A
- Authority
- CN
- China
- Prior art keywords
- face image
- recognized
- capsule
- module
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008921 facial expression Effects 0.000 title claims abstract description 49
- 230000014509 gene expression Effects 0.000 claims abstract description 116
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 56
- 230000001815 facial effect Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 5
- 241000820057 Ithone Species 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 67
- 230000004913 activation Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 101150094768 Mcam gene Proteins 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- YCKRFDGAMUMZLT-UHFFFAOYSA-N Fluorine atom Chemical compound [F] YCKRFDGAMUMZLT-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 229910052731 fluorine Inorganic materials 0.000 description 1
- 239000011737 fluorine Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种改进胶囊网络的人脸表情识别方法,包括步骤:获取待识别人脸图像;将所述待识别人脸图像输入MFFAM‑CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别。相对于现有技术,本发明提供一种改进胶囊网络的人脸表情识别方法,其中MFFAM‑CapsNet网络的MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征,能够放大其中对人脸表情识别贡献大的胶囊特征的权重,缩小贡献小的胶囊特征的权重,从而增大人脸表情的类间差异,缩小人脸表情的类内差异,有效提高人脸表情识别准确率。
Description
技术领域
本发明涉及人脸表情识别技术领域,尤其是涉及一种改进胶囊网络的人脸表情识别方法及装置。
背景技术
人脸表情识别具有以下显著的特点:人脸表情具有细微的类间差异和强烈的类内变化。目前的人脸表情识别的算法主要依赖于深度卷积神经神经网络的框架,但是深度卷积神经网络在全连接层分类的时候,会丢失输入图像脸部各部位特征之间的相对关系,如脸部各部位特征之间的相对位置信息、相对大小关系和特征的方向信息等等,导致网络无法有效区分不同类别表情之间的差异以及相同类别表情内的不同变化,也就是无法有效地区分人脸表情细微的类间差异和类内变化。
为了解决这一问题,一种胶囊网络算法利用其动态路由算法,可以把所提取人脸各部位特征之间的相对关系反应在耦合系数更新上,保存了人脸各部位特征之间的相对关系,从而能够区分人脸表情细微的类间差异和类内变化。然而,由于传统的胶囊网络仅能提取单一层次的人脸图像特征,人脸图像特征提取不充分,导致人脸表情识别准确率低下。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种改进胶囊网络的人脸表情识别方法,能够区分人脸表情细微的类间差异和强烈的类内变化,能够充分提取人脸图像特征,从而使人脸表情识别准确率高。
本发明是通过以下技术方案实现的:一种改进胶囊网络的人脸表情识别方法,包括步骤:
获取待识别人脸图像;
将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别;
其中,所述MFFAM-CapsNet网络包括MFEM模块、MCAFM模块和分类预测模块,所述MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取;
所述MCAFM模块包括空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块,所述空间注意力子模块用于根据所述人脸图像特征获得基于空间域的空间特征图;所述通道注意力子模块用于根据所述空间特征图获得基于通道域的通道特征图;所述主胶囊子模块用于根据所述通道特征图获得初步胶囊特征;所述动态路由子模块用于根据所述初步胶囊特征通过动态路由算法获得预测胶囊特征;所述加权融合子模块用于根据所述预测胶囊特征通过自注意力机制计算预测胶囊特征的权重,同时将获得的权重与对应的预测胶囊特征相乘,并将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加,获得总胶囊特征;
所述分类预测模块用于根据所述总输出胶囊特征获得所述待识别人脸图像所属的表情类别。
相对于现有技术,本发明提供一种改进胶囊网络的人脸表情识别方法,其中MFFAM-CapsNet网络的MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征,能够放大其中对人脸表情识别贡献大的胶囊特征的权重,缩小贡献小的胶囊特征的权重,从而增大人脸表情的类间差异,缩小人脸表情的类内差异,有效提高人脸表情识别准确率。
进一步地,所述预测胶囊特征的权重的表达式为:
式中,Wj为所述预测胶囊特征中的第j个特征向量的权重,vj为所述预测胶囊特征中的第j个特征向量。
进一步地,所述MFFAM-CapsNet网络还包括参数调整模块,所述参数调整模块包括损失反馈子模块,所述损失反馈子模块用于建立损失函数,并通过所述损失函数反馈到所述MFFAM-CapsNet网络的反向传播的网络参数更新中;
所述损失函数包括改进的亲和损失函数Liaf,改进的亲和损失函数Liaf的表达式为:
式中,M为所述待识别人脸图像的数量;为第yi个表情类别的类中心,yi∈{1,2,...,K},K为表情类别总数,类中心从d维高斯分布中随机抽样;xi为M个待识别人脸图像中的第i个深层人脸图像特征;σc为K种不同表情类别的类中心之间的标准差。
进一步地,所述分类预测模块用于根据所述总输出胶囊特征获得每一表情类别的预测结果向量,确定模最长的所述预测结果向量对应的表情类别为所述待识别人脸图像所属的表情类别;
所述参数调整模块还包括解码器,所述解码器用于根据所述预测结果向量进行所述待识别人脸图像的重建,获得重建人脸图像;
所述损失函数的表达式为:
L=0.95*Lc+0.05*Lr+Liaf
其中,L为损失函数;Lc为边际损失函数,所述边际损失函数Lc的表达式为:
Lc=Tc max(0,m+-||vc||)+λ(1-Tc)max(0,||vc||-m-)2
式中,c为表情类别;Tc为表情类别c的指示函数,当c不为空时Tc为1,当c为空时Tc为0;m+为上边界;m-为下边界;vc为表情类别c的预测结果向量;λ为用于调整权重的超参数;
Lr为重建损失函数,所述重建损失函数Lr的表达式为:
进一步地,所述MFEM模块包括多个不同通道数的MFEM卷积层;
所述将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别,包括步骤:
将所述待识别人脸图像输入所述MFEM模块,获得不同所述MFEM卷积层输出的浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征;
将所述浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征输入MCAFM模块,获得总胶囊特征;
将所述总胶囊特征输入所述分类预测模块,获得所述待识别人脸图像所属的表情类别。
进一步地,获取待识别人脸图像后,包括步骤:
以一预设概率对所述待识别人脸图像进行水平翻转;
和/或以一预设概率对所述待识别人脸图像旋转一定角度范围;
和/或以一预设概率在所述待识别人脸图像的边界向外填充预设数量的像素,并于所述待识别人脸图像的随机区域进行裁剪,以将所述待识别人脸图像调整为同一尺寸大小;
和/或通过遮挡块对所述待识别人脸图像进行随机遮挡。
进一步地,获取待识别人脸图像后,还包括步骤:
将所述待识别人脸图像调整为同一尺寸大小;
对所述待识别人脸图像的像素值进行归一化操作。
基于同一发明构思,本发明还提供一种改进胶囊网络的人脸表情识别装置,包括:
图像获取模块,用于获取待识别人脸图像;
图像识别模块,用于将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别;
其中,所述MFFAM-CapsNet网络包括MFEM模块、MCAFM模块和分类预测模块,所述MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取;
所述MCAFM模块包括空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块,所述空间注意力子模块用于根据所述人脸图像特征获得基于空间域的空间特征图;所述通道注意力子模块用于根据所述空间特征图获得基于通道域的通道特征图;所述主胶囊子模块用于根据所述通道特征图获得初步胶囊特征;所述动态路由子模块用于根据所述初步胶囊特征通过动态路由算法获得预测胶囊特征;所述加权融合子模块用于根据所述预测胶囊特征通过自注意力机制计算预测胶囊特征的权重,同时将获得的权重与对应的预测胶囊特征相乘,并将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加,获得总胶囊特征;
所述分类预测模块用于根据所述总输出胶囊特征获得所述待识别人脸图像所属的表情类别。
进一步地,所述预测胶囊特征的权重的表达式为:
式中,Wj为所述预测胶囊特征中的第j个特征向量的权重,vj为所述预测胶囊特征中的第j个特征向量。
进一步地,所述分类预测模块用于根据所述总输出胶囊特征获得每一表情类别的预测结果向量,确定模最长的所述预测结果向量对应的表情类别为所述待识别人脸图像所属的表情类别;
所述MFFAM-CapsNet网络还包括参数调整模块,所述参数调整模块包括解码器和损失反馈子模块,所述解码器用于根据所述预测结果向量进行待识别人脸图像的重建,获得重建人脸图像;所述损失反馈子模块用于建立损失函数,并通过所述损失函数反馈到所述MFFAM-CapsNet网络的反向传播的网络参数更新中;所述损失函数的表达式为:
L=0.95*Lc+0.05*Lr+Liaf
其中,L为损失函数;Lc为边际损失函数,所述边际损失函数Lc的表达式为:
Lc=Tc max(0,m+-||vc||)+λ(1-Tc)max(0,||vc||-m-)2
式中,c为表情类别;Tc为表情类别c的指示函数,当c不为空时Tc为1,当c为空时Tc为0;m+为上边界;m-为下边界;vc为表情类别c的预测结果向量;λ为用于调整权重的超参数;
Lr为重建损失函数,所述重建损失函数Lr的表达式为:
Liaf为改进的亲和损失函数,改进的亲和损失函数Liaf的表达式为:
式中,M为所述待识别人脸图像的数量;为第yi个表情类别的类中心,yi∈{1,2,...,K},K为表情类别总数,类中心从d维高斯分布中随机抽样;xi为M个待识别人脸图像中的第i个深层人脸图像特征;σc为K种不同表情类别的类中心之间的标准差。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为实施例的改进胶囊网络的人脸表情识别方法的流程示意图;
图2为实施例的MFFAM-CapsNet网络的结构示意图;
图3为一具体实施例的空间注意力子模块的结构示意图;
图4为一具体实施例的通道注意力子模块的结构示意图;
图5为动态路由子模块的一示例性流程示意图;
图6为实施例的改进胶囊网络的人脸表情识别装置的结构示意图;
图7为本发明的方法的t-SNE可视化效果示意图;
图8为未使用本发明的改进的亲和损失函数的人脸表情识别方法的t-SNE可视化效果示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本发明通过提取人脸表情图像的浅层、中层和深层等多层次的图像特征以使人脸表情图像的图像特征得到充分提取,并采用注意力机制放大能够区分不同类别表情的关键特征的权重,从而解决类间差异小和类内变化大导致的人脸表情识别准确率低的问题。同时,通过包括改进的亲和损失函数的损失函数来调整整个网络的参数,以最大化类间特征的间距和最小化类内特征的间距,从而提高人脸识别准确率。具体通过以下实施例进行说明。
请参阅图1,其为本实施例的改进胶囊网络的人脸表情识别方法的流程示意图,该方法包括步骤:
S1:获取待识别人脸图像。
所述待识别人脸图像为实体拍摄的包含了人脸主体的图像。在一具体实施中,可以通过与摄像头具有数据传输关系的手机终端、平板电脑终端、PC终端采集待识别人脸图像,并传输至处理器中,该处理器执行计算机程序时能够实现本发明的方法,该计算机程序可以存储于存储器或计算机可读存储介质中。
S2:对获取的所述待识别人脸图像进行预处理。
对所述待识别人脸图像的预处理具体包括:将待识别人脸图像调整为同一尺寸大小,在本实施例中,将待识别人脸图像同一调整为224×224;对所有待识别人脸图像的像素值进行归一化操作,归一化的表达式为channel=(channel-mean)/std,式中channel为通道,channel-mean为每个通道的均值,std为方差,在本实施例中归一化操作包括3个通道,每个通道的均值channel-mean设置为(0.485,0456,0.406),方差std设置为(0.229,0.224,0.225),则经过归一化的待识别人脸图像尺寸为224×224×3。
为了进一步增加训练模型的泛化性能,在一优选实施例中,对用于训练模型的待识别人脸图像的预处理还包括以一预设概率对待识别人脸图像进行水平翻转,在本实施例中,该预设概率设置为0.5;以一预设概率对待识别人脸图像旋转一定角度范围,在本实施例中,该预设概率设置为0.2,旋转角度范围设置为-45°~45°;以一预设概率在待识别人脸图像的边界向外填充预设数量的像素,并在填充后的图像的随机区域进行裁剪,裁剪尺寸与填充前的图像一致,以将所述待识别人脸图像调整为同一尺寸大小;通过遮挡块对待识别人脸图像进行随机遮挡。
S3:将预处理后的待识别人脸图像输入MFFAM-CapsNet网络(Capsule NetworkBased On Multi-level Feature Fusion Attention Mechanism,基于多层次特征融合注意力机制的胶囊网络)进行表情识别,获得所述待识别人脸图像所属的表情类别。
请参阅图2,其为所述MFFAM-CapsNet网络的结构示意图,该MFFAM-CapsNet网络包括MFEM(Multi-level Feature Extraction Module,多层次特征提取)模块、MCAFM(Multi-level Capsule Attention Fusion Module,多层次胶囊注意力)模块、分类预测模块和参数调整模块,其中MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取;MCAFM模块用于根据所述MFEM模块所提取的多层次的人脸图像特征分别进行基于注意力机制的胶囊处理,得到胶囊特征;分类预测模块用于根据所述MCAFM模块所得到的胶囊特征进行分类概率预测,得到各表情类别的预测结果向量;参数调整模块用于调整MFFAM-CapsNet网络反向传播的网络参数。
具体地,MFEM模块包括多个不同通道数的MFEM卷积层。将待识别人脸图像输入MFEM模块,依次通过多个不同通道数的MFEM卷积层对待识别人脸图像进行卷积,获得其中若干MFEM卷积层输出的人脸图像特征,并输入MCAFM模块。在一优选实施例中,通过所述MFEM模块获得的人脸图像特征包括浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。更具体地,本实施例采用Resnet18网络进行待识别人脸图像的多层次的人脸图像特征提取,该Resnet18网络的MFEM卷积层具体包括Conv1层、Layer1层、Layer2层、Layer3层和Layer4层,其中Conv1层包括一个通道数为64,卷积核大小为7×7的卷积层;Layer1层包括两个BasicBlock(基本块),每一BasicBlock包含两个通道数为64,卷积核大小为3×3的卷积层和一个shortcut连接层;Layer2层包括两个BasicBlock,每一BasicBlock包含两个通道数为128,卷积核大小为3×3的卷积层和一个shortcut连接层;Layer3层包括两个BasicBlock,每一BasicBlock包含两个通道数为256,卷积核大小为3×3的卷积层和一个shortcut连接;Layer4层包括两个BasicBlock,每一BasicBlock包含两个通道数为512,卷积核大小为3×3的卷积层和一个shortcut连接。其中Layer2层、Layer3层和Layer4层输出的人脸图像特征分别为浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。
将待识别人脸图像输入MFEM模块,依次通过Conv1层、Layer1层、Layer2层、Layer3层和Layer4层对待识别人脸图像进行卷积,对于输入尺寸为224×224×3的待识别人脸图像,Conv1层输出的特征维度分别为64×112×112,Layer1层输出的特征维度为64×56×56,Layer2层输出特征维度为128×28×28,Layer3层输出特征维度为256×14×14,Layer4层输出特征维度为512×7×7。
MCAFM模块包括多个空间注意力(Spatial attention)子模块、多个通道注意力(Channel Attention)子模块、多个主胶囊(PrimaryCaps)子模块、多个动态路由(Dynamicrouting)子模块和向量加权(Weight)子模块,将同一待识别人脸图像的多个层次的人脸图像特征输入MCAFM模块,依次通过空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块分别对同一待识别人脸图像的多个层次的人脸图像特征进行处理,获得总输出胶囊特征。其中,空间注意力子模块用于根据人脸图像特征获得基于空间域的空间特征图;通道注意力子模块用于根据空间特征图获得基于通道域的通道特征图;主胶囊子模块用于根据通道特征图获得初步胶囊特征;动态路由子模块用于根据初步胶囊特征通过动态路由算法获得预测胶囊特征;加权融合子模块用于对预测胶囊特征进行加权操作,并将同一待识别人脸图像对应的多个具有权重的预测胶囊特征求和,获得总输出胶囊特征。在一优选实施例中,MCAFM模块包括三个空间注意力子模块、三个通道注意力子模块、三个主胶囊子模块、三个动态路由子模块和一个加权融合子模块。
请参阅图3,其为一具体实施例的空间注意力子模块的结构示意图,该空间注意力子模块包括第一卷积层(Conv2)、第二卷积层(Conv3)、第三卷积层(Conv4)、第四卷积层(Conv5)和激活函数(Activation),其中第一卷积层的卷积核大小为1×1,第二卷积层的卷积核大小为3×3,第三卷积层的卷积核大小为1×3,第四卷积层卷积核大小为3×1。
将人脸图像特征输入空间注意力模块,首先通过第一卷积层对人脸图像特征进行卷积,以降低一半的通道数从而降低计算量;再分别通过第二卷积层、第三卷积层和第四卷积层对第一卷积层输出的特征进行卷积后求和;通过激活函数对求和结果特征进行处理;将激活函数的输出特征与输入的人脸图像特征进行点积运算,获得基于空间域的空间特征图。
请参阅图4,其为一具体实施例的通道注意力子模块的结构示意图,该通道注意力子模块包括全局平均池化层(Pooling)、第五卷积层(Conv6)和激活函数(Activation)。将空间特征图输入通道注意力子模块,通过全局平均池化层将空间特征图的每一通道压缩为1个权值;再依次经过卷积层和激活函数的处理后,将激活函数的输出特征与输入的空间特征图进行点积运算,获得基于通道域的通道特征图。在一具体实施中,通道特征图的特征维度为512×7×7。
主胶囊子模块包括卷积核大小为2×2,步长为1,填充为0的卷积层,将通道特征图输入主胶囊子模块,通过该卷积层对通道特征图进行预设次数的卷积操作,获得初步胶囊特征。在一优选实施例中,卷积操作的预设次数设置为8次,则对应得到8个初步胶囊特征。对于特征维度为512×7×7的通道特征图,经过主胶囊子模块的卷积层卷积后的特征维度为6×6×32,将8次卷积的卷积结果特征向量进行拼接,得到特征维度为6×6×32×8的初步胶囊特征,即初步胶囊特征包括6×6×32个8维的特征向量,即1152个8维的特征向量。
请参阅图5,其为动态路由子模块的一示例性流程示意图,该动态路由子模块对初步胶囊特征通过动态路由算法进行计算获得预测胶囊特征。其中,动态路由算法对初步胶囊特征进行计算得到的第j个父节点输出向量Sj表达式为:
式中,ui为初步胶囊特征的第i个特征向量,wij为权重矩阵。
通过挤压函数(squashing)对父节点输出向量Sj进行计算获得预测胶囊特征vj,预测胶囊特征vj的表达式为:
在具体实施中,将包括1152个8维的特征向量的初步胶囊特征输入动态路由子模块,动态路由子模块输出的预测胶囊特征的特征维度为1152×8。
加权融合子模块根据预测胶囊特征通过自注意力机制计算其对应的权重,并将获得的权重与该预测胶囊特征相乘;将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加,获得总胶囊特征。其中,预测胶囊特征的权重Wj的表达式为:
在一具体实施中,将特征维度为1152×8的预测胶囊特征输入加权融合子模块,加权融合子模块输出的总胶囊特征的特征维度为1152×8。
分类预测模块根据总胶囊特征计算待识别人脸图像对于每一表情类别的预测概率,确定预测概率最高的表情类别为该待识别人脸图像所属的表情类别。将总胶囊特征输入分类预测模块,得到对应每一表情类别的预测结果向量,每一表情类别的预测结果向量的模为待识别人脸图像对于该表情类别的预测概率,模最长的预测结果向量对应的表情类别即为预测概率最高的表情类别。
在一具体实施中,将特征维度为1152×8的总胶囊特征输入分类预测模块,分类预测模块输出7×16的预测结果向量,即7个表情类别的16维的预测结果向量,其中表情类别可以包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和自然状态。
参数调整模块包括解码器和损失反馈子模块,解码器用于根据预测结果向量进行待识别人脸图像的重建,获得重建人脸图像。解码器包括FCl全连接层、FC2全连接层和FC3全连接层,其中FCl全连接层和FC2全连接层的激活函数为ReLU函数,FC3全连接层的激活函数为Sigmoid函数。将预测结果向量依次输入FC1全连接层、FC2全连接层和FC3全连接层,对于7×16的预测结果向量,FC1全连接层输出的向量特征维度为512,FC2全连接层输出的向量特征维度为1024,FC3全连接层输出的向量特征维度为150528(3×224×224)。
损失反馈子模块用于建立损失函数,通过损失函数反馈到MFFAM-CapsNet网络反向传播的网络参数更新当中。损失函数L的表达式为:
L=0.95*Lc+0.05*Lr+Liaf
其中,Lc为边际损失函数,其表达式为:
Lc=Tc max(0,m+-||vc||)+λ(1-Tc)max(0,||vc||-m-)2
式中,c为表情类别;Tc为表情类别c的指示函数,当c不为空时Tc为1,当c为空时Tc为0;m+为上边界,取值为0.9;m-为下边界,取值为0.1;vc为表情类别c的预测结果向量;λ为用于调整权重的超参数,取值为0.5。
Lr为重建损失函数,重建损失函数Lr根据重建人脸图像和经过预处理的待识别人脸图像像素间的欧式距离获得,重建损失函数Lr的表达式为:
Liaf为改进的亲和损失函数,改进的亲和损失函数Liaf用于计算并最小化人脸图像特征xi与其所属的表情类别的类中心的距离,以最小化类内距离;计算所有表情类别的类中心的标准差σc,并最小化1/σc,由于所有表情类别的类中心的标准差可以描述所有类别的离散程度,通过最大化该标准差,可以使得所有类中心的分布更加的离散,从而扩大类间的距离;计算并扩大每一个类中心与其他所有类中心平均值的距离,以进一步扩大类间的差距。
改进的亲和损失函数Liaf的表达式为:
式中,M为待识别人脸图像的数量,即batchsize;为第yi个表情类别的类中心,yi∈{1,2,...,K},K为表情类别总数,类中心从d维高斯分布中随机抽样;xi为M个待识别人脸图像中的第i个MFEM模块的Layer4层输出的人脸图像特征;σc为K种不同表情类别的类中心之间的标准差。
此外,类中心是随着深层特征的改变而更新的,由于训练集数据的庞大,难以一次性加载所有训练集中的待识别人脸图像,因此在一具体实施中,对训练集的数据进行分批,根据每一批的待识别人脸图像的数量来分批次更新类中心则重建损失函数Lr中的m及改进的亲和损失函数Liaf中的M为每批待识别人脸图像的数量。
基于同一发明构思,本发明还提供一种改进胶囊网络的人脸表情识别装置,请参阅图6,该装置包括图像获取模块10、图像预处理模块20和图像识别模块30,所述图像获取模块10用于获取待识别人脸图像;所述图像预处理模块20用于对所述图像获取模块获取的所述待识别人脸图像进行预处理;所述图像识别模块30用于将所述图像预处理模块预处理后的待识别人脸图像输入MFFAM-CapsNet网络进行表情识别,获得所述待识别人脸图像所属的表情类别,该MFFAM-CapsNet网络与上述改进胶囊网络的人脸表情识别方法实施例中的MFFAM-CapsNet网络相同。
更具体地,所述图像识别模块30包括特征提取模块31、特征融合模块32和预测类别获取模块33,所述特征提取模块31用于将待识别人脸图像输入MFFAM-CapsNet网络的MFEM模块,依次通过多个不同通道数的MFEM卷积层对待识别人脸图像进行卷积,获得其中若干MFEM卷积层输出的人脸图像特征,并输入MFFAM-CapsNet网络的MCAFM模块。在一优选实施例中,通过所述MFEM模块获得的人脸图像特征包括浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。
所述特征融合模块32用于将同一待识别人脸图像的多个层次的人脸图像特征输入MFFAM-CapsNet网络的MCAFM模块,依次通过MCAFM模块的空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块分别对同一待识别人脸图像的多个层次的人脸图像特征进行处理,获得总输出胶囊特征。
所述预测类别获取模块33用于将总胶囊特征输入MFFAM-CapsNet网络的分类预测模块,得到对应每一表情类别的预测结果向量,每一表情类别的预测结果向量的模为待识别人脸图像对于该表情类别的预测概率,模最长的预测结果向量对应的表情类别即为预测概率最高的表情类别。
对于装置实施例而言,由于其基本对应于方法实施例,所有相关细节之处请参见方法实施例的说明,在此不再赘述。
以下通过三个实验来说明本发明的技术效果:
实验1:使用本发明的改进胶囊网络的人脸表情识别方法和现有流行的人脸表情识别方法对公开的RAF-DB(Real-world Affective Faces Database)数据集进行处理,RAF-DB数据集是一个真实世界的面部表情数据集,包含从互联网上下载的29672张高度多样化的面部图像,本实验采用其中7类基本情感的单标签子集,共包含15339张图像,其中12271张训练样本,3068张测试样本;将处理结果的准确率进行比较,如表1所示,本发明的方法的准确率达到89.13%,均高于其他人脸表情识别方法,尤其比2017年Hinton所提出的基于Capsnet(胶囊网络)的人脸识别方法高出了13.01%的准确率。
表1
由此可见,相对于现有技术,本发明的MFEM模块提取待识别人脸图像的浅层胶囊特征、中层胶囊特征和深层胶囊特征等多层次胶囊特征,充分提取了待识别人脸图像的特征,提高了模型对图像多层次特征的提取能力。由于人脸表情识别具有细微的类间差异,也就是不同表情之间通常共用大部分相同的脸部特征,所以只有通过关键部位的脸部特征的差异才能判断待识别人脸图像所属表情类别,因此MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征,能够放大其中对人脸表情识别贡献大的胶囊特征的权重,缩小贡献小的胶囊特征的权重,从而增大人脸表情的类间差异,缩小人脸表情的类内差异,有效提高人脸表情识别准确率。
实验2:使用本发明的使用了改进亲和损失函数的方法和未使用本发明的改进的亲和损失函数的人脸表情识别方法分别对RAF-DB数据集进行处理,将处理结果通过t-SNE可视化算法对各表情类别的成员进行颜色编码。请参阅图7和图8,其中图7为本发明的方法的t-SNE可视化效果示意图;图8为未使用本发明的改进的亲和损失函数的人脸表情识别方法的t-SNE可视化效果示意图。可见,本发明的方法通过改进的亲和损失函数进行参数调整,可以有效地扩大不同表情类别之间的间距,同时聚合同表情类别的不同成员。
实验3:将本发明的方法中的损失函数替换为不使用损失函数、center loss、现有的亲和损失函数,并对RAF-DB数据集进行处理;使用本发明使用了改进的亲和损失函数的方法对RAF-DB数据集进行处理;将处理结果的准确率进行比较,如表2所示,本发明使用了改进的亲和损失函数的方法比本发明的方法中的损失函数替换为不使用损失函数、centerloss、现有的亲和损失函数的准确率分别高1.01%、0.62%、0.51%。
表2
损失函数 | 准确率 |
不使用损失函数 | 88.12% |
center loss | 88.51% |
现有的亲和损失函数 | 88.62% |
改进的亲和损失函数 | 89.13% |
由此可见,相对于现有技术,本发明结合改进的亲和损失函数能够更好地最大化不同表情类别的类间间距以及最小化相同表情类别的类内间距,进一步提高人脸表情识别准确率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种改进胶囊网络的人脸表情识别方法,其特征在于,包括步骤:
获取待识别人脸图像;
将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别;
其中,所述MFFAM-CapsNet网络包括MFEM模块、MCAFM模块和分类预测模块,所述MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取;
所述MCAFM模块包括空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块,所述空间注意力子模块用于根据所述人脸图像特征获得基于空间域的空间特征图;所述通道注意力子模块用于根据所述空间特征图获得基于通道域的通道特征图;所述主胶囊子模块用于根据所述通道特征图获得初步胶囊特征;所述动态路由子模块用于根据所述初步胶囊特征通过动态路由算法获得预测胶囊特征;所述加权融合子模块用于根据所述预测胶囊特征通过自注意力机制计算预测胶囊特征的权重,同时将获得的权重与对应的预测胶囊特征相乘,并将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加,获得总胶囊特征;
所述分类预测模块用于根据所述总输出胶囊特征获得所述待识别人脸图像所属的表情类别。
4.根据权利要求3所述的方法,其特征在于:
所述分类预测模块用于根据所述总输出胶囊特征获得每一表情类别的预测结果向量,确定模最长的所述预测结果向量对应的表情类别为所述待识别人脸图像所属的表情类别;
所述参数调整模块还包括解码器,所述解码器用于根据所述预测结果向量进行所述待识别人脸图像的重建,获得重建人脸图像;
所述损失函数的表达式为:
L=0.95*Lc+0.05*Lr+Liaf
其中,L为损失函数;Lc为边际损失函数,所述边际损失函数Lc的表达式为:
Lc=Tcmax(0,m+-||vc||)+λ(1-Tc)max(0,||vc||-m-)2
式中,c为表情类别;Tc为表情类别c的指示函数,当c不为空时Tc为1,当c为空时Tc为0;m+为上边界;m-为下边界;vc为表情类别c的预测结果向量;λ为用于调整权重的超参数;
Lr为重建损失函数,所述重建损失函数Lr的表达式为:
5.根据权利要求1-4中任一项所述的方法,其特征在于:所述MFEM模块包括多个不同通道数的MFEM卷积层;
所述将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别,包括步骤:
将所述待识别人脸图像输入所述MFEM模块,获得不同所述MFEM卷积层输出的浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征;
将所述浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征输入MCAFM模块,获得总胶囊特征;
将所述总胶囊特征输入所述分类预测模块,获得所述待识别人脸图像所属的表情类别。
6.根据权利要求1-4中任一项所述的方法,其特征在于,获取待识别人脸图像后,包括步骤:
以一预设概率对所述待识别人脸图像进行水平翻转;
和/或以一预设概率对所述待识别人脸图像旋转一定角度范围;
和/或以一预设概率在所述待识别人脸图像的边界向外填充预设数量的像素,并于所述待识别人脸图像的随机区域进行裁剪,以将所述待识别人脸图像调整为同一尺寸大小;
和/或通过遮挡块对所述待识别人脸图像进行随机遮挡。
7.根据权利要求6所述的方法,其特征在于:获取待识别人脸图像后,还包括步骤:
将所述待识别人脸图像调整为同一尺寸大小;
对所述待识别人脸图像的像素值进行归一化操作。
8.一种改进胶囊网络的人脸表情识别装置,其特征在于,包括:
图像获取模块,用于获取待识别人脸图像;
图像识别模块,用于将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别,获得所述待识别人脸图像所属的表情类别;
其中,所述MFFAM-CapsNet网络包括MFEM模块、MCAFM模块和分类预测模块,所述MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取;
所述MCAFM模块包括空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块,所述空间注意力子模块用于根据所述人脸图像特征获得基于空间域的空间特征图;所述通道注意力子模块用于根据所述空间特征图获得基于通道域的通道特征图;所述主胶囊子模块用于根据所述通道特征图获得初步胶囊特征;所述动态路由子模块用于根据所述初步胶囊特征通过动态路由算法获得预测胶囊特征;所述加权融合子模块用于根据所述预测胶囊特征通过自注意力机制计算预测胶囊特征的权重,同时将获得的权重与对应的预测胶囊特征相乘,并将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加,获得总胶囊特征;
所述分类预测模块用于根据所述总输出胶囊特征获得所述待识别人脸图像所属的表情类别。
10.根据权利要求8所述的装置,其特征在于:
所述分类预测模块用于根据所述总输出胶囊特征获得每一表情类别的预测结果向量,确定模最长的所述预测结果向量对应的表情类别为所述待识别人脸图像所属的表情类别;
所述MFFAM-CapsNet网络还包括参数调整模块,所述参数调整模块包括解码器和损失反馈子模块,所述解码器用于根据所述预测结果向量进行待识别人脸图像的重建,获得重建人脸图像;所述损失反馈子模块用于建立损失函数,并通过所述损失函数反馈到所述MFFAM-CapsNet网络的反向传播的网络参数更新中;所述损失函数的表达式为:
L=0.95*Lc+0.05*Lr+Liaf
其中,L为损失函数;Lc为边际损失函数,所述边际损失函数Lc的表达式为:
Lc=Tcmax(0,m+-||vc||)+λ(1-Tc)max(0,||vc||-m-)2
式中,c为表情类别;Tc为表情类别c的指示函数,当c不为空时Tc为1,当c为空时Tc为0;m+为上边界;m-为下边界;vc为表情类别c的预测结果向量;λ为用于调整权重的超参数;
Lr为重建损失函数,所述重建损失函数Lr的表达式为:
Liaf为改进的亲和损失函数,改进的亲和损失函数Liaf的表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210295485.6A CN114694219B (zh) | 2022-03-24 | 改进胶囊网络的人脸表情识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210295485.6A CN114694219B (zh) | 2022-03-24 | 改进胶囊网络的人脸表情识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114694219A true CN114694219A (zh) | 2022-07-01 |
CN114694219B CN114694219B (zh) | 2024-09-27 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746191A (zh) * | 2024-02-07 | 2024-03-22 | 浙江啄云智能科技有限公司 | 以图搜图模型训练方法和以图搜图方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200010680A (ko) * | 2018-07-11 | 2020-01-31 | 한국과학기술원 | 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체 |
CN112487989A (zh) * | 2020-12-01 | 2021-03-12 | 重庆邮电大学 | 一种基于胶囊-长短时记忆神经网络的视频表情识别方法 |
CN113642540A (zh) * | 2021-10-14 | 2021-11-12 | 中国科学院自动化研究所 | 一种基于胶囊网络的人脸表情识别方法及装置 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200010680A (ko) * | 2018-07-11 | 2020-01-31 | 한국과학기술원 | 기계학습 모델을 이용하여 n개의 프레임에 기초하여 대상의 감정인식을 수행하는 감정인식 시스템, 방법, 및 컴퓨터-판독가능매체 |
CN112487989A (zh) * | 2020-12-01 | 2021-03-12 | 重庆邮电大学 | 一种基于胶囊-长短时记忆神经网络的视频表情识别方法 |
CN113642540A (zh) * | 2021-10-14 | 2021-11-12 | 中国科学院自动化研究所 | 一种基于胶囊网络的人脸表情识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
ZHIJI HUANG 等: "Multi-level feature fusion capsule network with self-attention for facial expression recognition", JOURNAL OF ELECTRONIC IMAGING, vol. 32, no. 2, 20 April 2023 (2023-04-20), pages 1 - 23 * |
邹建成 等: "一种基于改进的卷积神经网络的人脸表情识别方法", 北方工业大学学报, vol. 32, no. 02, 15 April 2020 (2020-04-15), pages 39 - 44 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117746191A (zh) * | 2024-02-07 | 2024-03-22 | 浙江啄云智能科技有限公司 | 以图搜图模型训练方法和以图搜图方法 |
CN117746191B (zh) * | 2024-02-07 | 2024-05-10 | 浙江啄云智能科技有限公司 | 以图搜图模型训练方法和以图搜图方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN107633513B (zh) | 基于深度学习的3d图像质量的度量方法 | |
CN110263863B (zh) | 基于迁移学习与双线性InceptionResNetV2的细粒度菌类表型识别方法 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN113554599B (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
EP4290448A1 (en) | Image generation model training method, generation method, apparatus, and device | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN112330684B (zh) | 对象分割方法、装置、计算机设备及存储介质 | |
CN111553438A (zh) | 一种基于卷积神经网络的图像识别方法 | |
CN112927209A (zh) | 一种基于cnn的显著性检测系统和方法 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
US20230351566A1 (en) | Exemplar-based object appearance transfer driven by correspondence | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 | |
CN116503895A (zh) | 一种基于视觉Transformer的多细粒度遮挡行人重识别方法 | |
CN115063847A (zh) | 一种面部图像获取模型的训练方法及装置 | |
CN114241234A (zh) | 细粒度图像分类方法、装置、设备及介质 | |
CN112487996A (zh) | 基于DenseNet121网络的驾驶行为识别方法 | |
CN114694219A (zh) | 改进胶囊网络的人脸表情识别方法及装置 | |
CN111126177A (zh) | 人数统计的方法及装置 | |
CN117036765A (zh) | 图像分类模型处理及图像分类方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |