CN114783034A - 基于局部敏感特征与全局特征融合的人脸表情识别方法 - Google Patents
基于局部敏感特征与全局特征融合的人脸表情识别方法 Download PDFInfo
- Publication number
- CN114783034A CN114783034A CN202210515089.XA CN202210515089A CN114783034A CN 114783034 A CN114783034 A CN 114783034A CN 202210515089 A CN202210515089 A CN 202210515089A CN 114783034 A CN114783034 A CN 114783034A
- Authority
- CN
- China
- Prior art keywords
- global
- local
- features
- feature
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 title claims abstract description 37
- 230000008921 facial expression Effects 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000014509 gene expression Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 230000035945 sensitivity Effects 0.000 claims description 9
- 210000000697 sensory organ Anatomy 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000001537 neural effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法,步骤如下:对公开表情数据集进行预处理;构建基于局部特征与全局特征的神经网络结构,该结构由全局特征提取分支和局部敏感特征提取分支构成;在局部敏感特征提取分支中添加敏感损失,与交叉熵损失一起作为联合损失来监督网络学习;将预处理过的样本图像输入到网络模型中进行训练;将待测试的人脸图像送入训练好的神经网模型中进行表情识别;本发明通过捕获全局和局部敏感特征,从而有效提升了人脸表情分类效果。
Description
技术领域
本发明属于人脸表情识别技术领域,具体涉及一种基于局部敏感特征与全局特征融合的人脸表情识别方法。
背景技术
心理学家研究指出,在人与人的沟通中,面部表情所传递的信息占有非常大的比重,高达55%,38%的情感信息来源于说话的音调,而谈话内容所传递的情感信息仅占7%。人脸表情识别对实现和谐有效的人机交互具有重要意义和潜在价值,逐渐成为机器视觉领域的一项研究热点,受到了越来越多的关注。
人脸表情的判别性特征都位于几个关键区域。从图像局部特征域的角度提取特征成为研究人脸表情识别的一个突破口。现有的采用局部特征进行表情识别的算法主要存在一下两个问题。首先在局部区域的获取上,大多数方法采用随机框选或按照面部关键点划分对图像进行分块。前者会导致提取出的局部区域并不能准确包含面部五官信息,后者会在大大提升模型计算量。其次,在全局特征和局部特征的融合方式上,大部分方法采用的是直接将元素对应位置相加或者特征向量拼接,这种较为简单的操作方法有可能会降低特征的表征能力,不能充分发挥每个特征的优势。
发明内容
为解决上述问题,本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法,对面部局部表情特征和全局特征进行综合分析与非线性加权融合,采用局部敏感损失函数和交叉熵损失函数的结合来进行网络参数的优化,
一种基于局部敏感特征与全局特征融合的人脸表情识别方法,包括以下步骤:
步骤1:从网络上获取公开数据集或从真实环境中采集人脸表情图像,并对数据集进行预处理;
步骤2:设计基于局部敏感特征与全局特征融合的网络结构,全局分支用于从完整人脸图像中提取全局语义特征,局部分支用于从局部特征图中提取细粒度表情特征;
步骤3:将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合,并将融合后的特征送入Softmax分类器中预测人脸表情类别;
步骤4:在局部分支中添加局部敏感损失,与交叉熵损失加权组合构成联合损失共同监督网络训练;
步骤5:使用步骤1中预处理过的样本数据输入到网络中训练并测试。
进一步的,所述步骤1的具体方法为:
所述人脸表情公开数据集为FER2013、RAF-DB、CK+和Oulu-CASIA数据集,本方法首先对数据集进行预处理;利用Dlib人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机水平翻转、随机裁剪的方法进行数据增强。
进一步的,所述步骤2的具体方法为:
所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块,其中具体的构建网络结构的方法为:
步骤2.1:ResNet34网络中前三个block分别包含3,4,6个残差结构,所述全局分支网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal;
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21];
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α1-α9的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)
进一步的,所述步骤3的具体方法为:
将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobal+αFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积;
进一步的,所述步骤4的具体方法为:
在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax-α0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重。
进一步的,所述步骤5的具体方法为:
将经过预处理之后的图片数据送入网络中训练,得到网络模型,将待测试图片经过同样的预处理步骤后送入模型中预测表情类别,最后计算预测准确度作为识别结果。
本发明的有益效果:
本发明设计双分支的网络架构,同时兼顾对全局表情特征和局部敏感特征的提取,充分发挥不同尺寸与抽象程度的表情特征的表征优势;
1)提取局部细粒度特征的同时获取每个局部patch的重要性程度,并在局部敏感分支的输出端对每个patch进行按照重要性权重进行加权融合,凸显信息丰富局部区域在特征融合中的占比,有效降低面部冗余信息对人脸表情识别的影响;
2)对全局特征和局部敏感特征进行非线性的特征融合与强化,生成更具鲁棒的整体特征;
3)设计局部敏感损失函数,增大不同局部面部区域的注意力权值差异,在空间维度上凸显信息丰富的局部面部区域,实现更好的分类效果。
附图说明
图1是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的整体流程图;
图2是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的网络结构图;
图3是空间注意力模块Spatial Attention Module(SAM)网络结构图;
图4是特征图分割对应面部位置展示图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
本实施案例采用Python3.7及Pytorch深度学习框架作为实验平台,使用显存为8G的GeForce RTX 3070显卡作为训练工具。针对FER2013数据集,使用Training作为训练集(样本数为28709),PrivateTest作为测试集(样本数为3589),PublicTest作为验证集(样本数为3589)。针对CK+数据集(样本数为981)和Oulu-CASIA数据集(样本数为1440),使用10折交叉验证的方式划分为10等分,分别取其中9份作为训练集,剩余1份作为测试集,一共进行10次训练,并取所有结果的平均值。针对RAF-DB数据集,使用原始数据对训练集(样本数为12271)和测试集(样本数为3068)的初始划分作为本实例的划分依据。
本实施案例不采用任何数据集来预训练模型。每种数据集的训练过程采用相同的超参数设置:训练最大迭代次数为200轮;batch_size为128;使用RAdam优化器;plateau_patience设置为5;初始学习率为0.001;weight_decay为1e-6。测试指标为准确率(Accuracy)。以下针对上述实例对本发明作进一步的阐述,如图1所示,本发明的流程包括:
步骤1:将FER2013.csv拆分为三个csv文件,分别命名为:Train.csv,Test.csv,Val.csv,分别在模型训练,测试,验证的时候喂入网络。对RAF-DB数据集,首先将图片按照标签,分别放入Train文件夹和Test文件夹中对应的表情类别文件夹中,再将训练图片和测试图片分别转为csv文件形式,命名为Train.csv和Test.csv,分别在模型训练和测试的时候送入网络。对于、CK+数据集和Oulu-CASIA数据集,分别将测试图片转为csv文件形式,并分别命名为CK+.csv和Oulu-CASIA.csv,将每一个csv文件划分为10等分,每次取其中9份作为训练集,剩余数据作为测试集,分别在模型训练和测试的时候送入网络,因此针对CK+数据集和Oulu-CASIA数据集,需要做10次实验,并取结果的平均值作为最终的结果。利用Torch.Dataset读取批量数据时,首先通过复制法将FER2013数据集和CK+数据集的单通道图片转化为三通道图片,RAF-DB数据集和Oulu-CASIA数据集保留原始三通道格式。接着利用torchvision中的transforms工具对训练数据依次进行角度范围为[-45°~45°]的随机旋转和概率为50%的随机水平翻转,对测试数据进行角度范围为[-45°~45°]的随机旋转。
如图2所示,步骤2:所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块。其中具体的构建神经网络方法为:
步骤2.1:所述主干网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;附图2中共标注了4个空间注意力模块,从左到右的输入特征图尺寸分别为64×56×56,128×28×28,256×14×14,512×7×7。
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
FGlobal的尺寸为512×7×7;
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal;
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21],具体的分块形式如附图4所示;
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α1-α9的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)
FLocal的尺寸为512×7×7。
步骤4:将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobal+αFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积;
步骤5:在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax-α0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重,在训练和测试时取值为0.75;
步骤6:根据步骤1的预处理方式对FER2013、RAFDB、CK+、Oulu-CASIA数据集分别送入网络中进行训练,并加载模型对各自的测试集进行测试,得到最终的分类结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (6)
1.一种基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:从网络上获取公开数据集或从真实环境中采集人脸表情图像,并对数据集进行预处理;
步骤2:设计基于局部敏感特征与全局特征融合的网络结构,全局分支用于从完整人脸图像中提取全局语义特征,局部分支用于从局部特征图中提取细粒度表情特征;
步骤3:将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合,并将融合后的特征送入Softmax分类器中预测人脸表情类别;
步骤4:在局部分支中添加局部敏感损失,与交叉熵损失加权组合构成联合损失共同监督网络训练;
步骤5:使用步骤1中预处理过的样本数据输入到网络中训练并测试。
2.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤1的具体方法为:
所述人脸表情公开数据集为FER2013、RAF-DB、CK+和Oulu-CASIA数据集,本方法首先对数据集进行预处理;利用Dlib人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机水平翻转、随机裁剪的方法进行数据增强。
3.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤2的具体方法为:
所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块,其中具体的构建网络结构的方法为:
步骤2.1:ResNet34网络中前三个block分别包含3,4,6个残差结构,所述全局分支网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal;
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21];
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α1-α9的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)。
4.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤3的具体方法为:
将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobal+αFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积。
5.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤4的具体方法为:
在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax-α0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重。
6.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤5的具体方法为:
将经过预处理之后的图片数据送入网络中训练,得到网络模型,将待测试图片经过同样的预处理步骤后送入模型中预测表情类别,最后计算预测准确度作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210515089.XA CN114783034A (zh) | 2022-05-12 | 2022-05-12 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210515089.XA CN114783034A (zh) | 2022-05-12 | 2022-05-12 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114783034A true CN114783034A (zh) | 2022-07-22 |
Family
ID=82437613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210515089.XA Pending CN114783034A (zh) | 2022-05-12 | 2022-05-12 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783034A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546878A (zh) * | 2022-11-23 | 2022-12-30 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN115631530A (zh) * | 2022-12-22 | 2023-01-20 | 暨南大学 | 一种基于人脸动作单元的公平人脸表情识别方法 |
CN116645716A (zh) * | 2023-05-31 | 2023-08-25 | 南京林业大学 | 基于局部特征和全局特征的表情识别方法 |
CN116894802A (zh) * | 2023-09-11 | 2023-10-17 | 苏州思谋智能科技有限公司 | 图像增强方法、装置、计算机设备和存储介质 |
-
2022
- 2022-05-12 CN CN202210515089.XA patent/CN114783034A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546878A (zh) * | 2022-11-23 | 2022-12-30 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN115546878B (zh) * | 2022-11-23 | 2023-02-03 | 华中科技大学 | 基于注意力机制的面部au检测模型建立方法及其应用 |
CN115631530A (zh) * | 2022-12-22 | 2023-01-20 | 暨南大学 | 一种基于人脸动作单元的公平人脸表情识别方法 |
CN116645716A (zh) * | 2023-05-31 | 2023-08-25 | 南京林业大学 | 基于局部特征和全局特征的表情识别方法 |
CN116645716B (zh) * | 2023-05-31 | 2024-01-19 | 南京林业大学 | 基于局部特征和全局特征的表情识别方法 |
CN116894802A (zh) * | 2023-09-11 | 2023-10-17 | 苏州思谋智能科技有限公司 | 图像增强方法、装置、计算机设备和存储介质 |
CN116894802B (zh) * | 2023-09-11 | 2023-12-15 | 苏州思谋智能科技有限公司 | 图像增强方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
CN111080629B (zh) | 一种图像拼接篡改的检测方法 | |
CN114783034A (zh) | 基于局部敏感特征与全局特征融合的人脸表情识别方法 | |
Liu et al. | The research of virtual face based on Deep Convolutional Generative Adversarial Networks using TensorFlow | |
CN110866471A (zh) | 人脸图像质量评价方法及装置、计算机可读介质、通信终端 | |
CN112801169B (zh) | 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质 | |
CN111860235A (zh) | 高低层特征融合的注意力遥感图像描述的生成方法及系统 | |
CN110414344A (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN105989336A (zh) | 基于带权重的解卷积深度网络学习的场景识别方法 | |
CN114329034A (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN114037699B (zh) | 一种病理图像分类方法、设备、系统及存储介质 | |
CN112800851B (zh) | 基于全卷积神经元网络的水体轮廓自动提取方法及系统 | |
Rauf et al. | Lymphocyte detection for cancer analysis using a novel fusion block based channel boosted CNN | |
CN115953330B (zh) | 虚拟场景图像的纹理优化方法、装置、设备和存储介质 | |
CN111582057A (zh) | 一种基于局部感受野的人脸验证方法 | |
CN114998647B (zh) | 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法 | |
CN116030341A (zh) | 基于深度学习的植物叶片病害检测方法、计算机设备和存储介质 | |
CN113111906B (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
CN115375596A (zh) | 一种基于双路条件归一化的人脸照片-素描画像合成方法 | |
CN115346259A (zh) | 一种结合上下文信息的多粒度学业情绪识别方法 | |
CN114220145A (zh) | 人脸检测模型生成方法和装置、伪造人脸检测方法和装置 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
Wang et al. | Multispectral pan-sharpening via dual-channel convolutional network with convolutional lstm based hierarchical spatial-spectral feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |