CN114783034A - 基于局部敏感特征与全局特征融合的人脸表情识别方法 - Google Patents

基于局部敏感特征与全局特征融合的人脸表情识别方法 Download PDF

Info

Publication number
CN114783034A
CN114783034A CN202210515089.XA CN202210515089A CN114783034A CN 114783034 A CN114783034 A CN 114783034A CN 202210515089 A CN202210515089 A CN 202210515089A CN 114783034 A CN114783034 A CN 114783034A
Authority
CN
China
Prior art keywords
global
local
features
feature
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210515089.XA
Other languages
English (en)
Inventor
达飞鹏
蒋倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210515089.XA priority Critical patent/CN114783034A/zh
Publication of CN114783034A publication Critical patent/CN114783034A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法,步骤如下:对公开表情数据集进行预处理;构建基于局部特征与全局特征的神经网络结构,该结构由全局特征提取分支和局部敏感特征提取分支构成;在局部敏感特征提取分支中添加敏感损失,与交叉熵损失一起作为联合损失来监督网络学习;将预处理过的样本图像输入到网络模型中进行训练;将待测试的人脸图像送入训练好的神经网模型中进行表情识别;本发明通过捕获全局和局部敏感特征,从而有效提升了人脸表情分类效果。

Description

基于局部敏感特征与全局特征融合的人脸表情识别方法
技术领域
本发明属于人脸表情识别技术领域,具体涉及一种基于局部敏感特征与全局特征融合的人脸表情识别方法。
背景技术
心理学家研究指出,在人与人的沟通中,面部表情所传递的信息占有非常大的比重,高达55%,38%的情感信息来源于说话的音调,而谈话内容所传递的情感信息仅占7%。人脸表情识别对实现和谐有效的人机交互具有重要意义和潜在价值,逐渐成为机器视觉领域的一项研究热点,受到了越来越多的关注。
人脸表情的判别性特征都位于几个关键区域。从图像局部特征域的角度提取特征成为研究人脸表情识别的一个突破口。现有的采用局部特征进行表情识别的算法主要存在一下两个问题。首先在局部区域的获取上,大多数方法采用随机框选或按照面部关键点划分对图像进行分块。前者会导致提取出的局部区域并不能准确包含面部五官信息,后者会在大大提升模型计算量。其次,在全局特征和局部特征的融合方式上,大部分方法采用的是直接将元素对应位置相加或者特征向量拼接,这种较为简单的操作方法有可能会降低特征的表征能力,不能充分发挥每个特征的优势。
发明内容
为解决上述问题,本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法,对面部局部表情特征和全局特征进行综合分析与非线性加权融合,采用局部敏感损失函数和交叉熵损失函数的结合来进行网络参数的优化,
一种基于局部敏感特征与全局特征融合的人脸表情识别方法,包括以下步骤:
步骤1:从网络上获取公开数据集或从真实环境中采集人脸表情图像,并对数据集进行预处理;
步骤2:设计基于局部敏感特征与全局特征融合的网络结构,全局分支用于从完整人脸图像中提取全局语义特征,局部分支用于从局部特征图中提取细粒度表情特征;
步骤3:将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合,并将融合后的特征送入Softmax分类器中预测人脸表情类别;
步骤4:在局部分支中添加局部敏感损失,与交叉熵损失加权组合构成联合损失共同监督网络训练;
步骤5:使用步骤1中预处理过的样本数据输入到网络中训练并测试。
进一步的,所述步骤1的具体方法为:
所述人脸表情公开数据集为FER2013、RAF-DB、CK+和Oulu-CASIA数据集,本方法首先对数据集进行预处理;利用Dlib人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机水平翻转、随机裁剪的方法进行数据增强。
进一步的,所述步骤2的具体方法为:
所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块,其中具体的构建网络结构的方法为:
步骤2.1:ResNet34网络中前三个block分别包含3,4,6个残差结构,所述全局分支网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21];
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α19的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)
进一步的,所述步骤3的具体方法为:
将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobalFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积;
进一步的,所述步骤4的具体方法为:
在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重。
进一步的,所述步骤5的具体方法为:
将经过预处理之后的图片数据送入网络中训练,得到网络模型,将待测试图片经过同样的预处理步骤后送入模型中预测表情类别,最后计算预测准确度作为识别结果。
本发明的有益效果:
本发明设计双分支的网络架构,同时兼顾对全局表情特征和局部敏感特征的提取,充分发挥不同尺寸与抽象程度的表情特征的表征优势;
1)提取局部细粒度特征的同时获取每个局部patch的重要性程度,并在局部敏感分支的输出端对每个patch进行按照重要性权重进行加权融合,凸显信息丰富局部区域在特征融合中的占比,有效降低面部冗余信息对人脸表情识别的影响;
2)对全局特征和局部敏感特征进行非线性的特征融合与强化,生成更具鲁棒的整体特征;
3)设计局部敏感损失函数,增大不同局部面部区域的注意力权值差异,在空间维度上凸显信息丰富的局部面部区域,实现更好的分类效果。
附图说明
图1是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的整体流程图;
图2是本发明提供的基于局部敏感特征与全局特征融合的人脸表情识别方法的网络结构图;
图3是空间注意力模块Spatial Attention Module(SAM)网络结构图;
图4是特征图分割对应面部位置展示图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
本实施案例采用Python3.7及Pytorch深度学习框架作为实验平台,使用显存为8G的GeForce RTX 3070显卡作为训练工具。针对FER2013数据集,使用Training作为训练集(样本数为28709),PrivateTest作为测试集(样本数为3589),PublicTest作为验证集(样本数为3589)。针对CK+数据集(样本数为981)和Oulu-CASIA数据集(样本数为1440),使用10折交叉验证的方式划分为10等分,分别取其中9份作为训练集,剩余1份作为测试集,一共进行10次训练,并取所有结果的平均值。针对RAF-DB数据集,使用原始数据对训练集(样本数为12271)和测试集(样本数为3068)的初始划分作为本实例的划分依据。
本实施案例不采用任何数据集来预训练模型。每种数据集的训练过程采用相同的超参数设置:训练最大迭代次数为200轮;batch_size为128;使用RAdam优化器;plateau_patience设置为5;初始学习率为0.001;weight_decay为1e-6。测试指标为准确率(Accuracy)。以下针对上述实例对本发明作进一步的阐述,如图1所示,本发明的流程包括:
步骤1:将FER2013.csv拆分为三个csv文件,分别命名为:Train.csv,Test.csv,Val.csv,分别在模型训练,测试,验证的时候喂入网络。对RAF-DB数据集,首先将图片按照标签,分别放入Train文件夹和Test文件夹中对应的表情类别文件夹中,再将训练图片和测试图片分别转为csv文件形式,命名为Train.csv和Test.csv,分别在模型训练和测试的时候送入网络。对于、CK+数据集和Oulu-CASIA数据集,分别将测试图片转为csv文件形式,并分别命名为CK+.csv和Oulu-CASIA.csv,将每一个csv文件划分为10等分,每次取其中9份作为训练集,剩余数据作为测试集,分别在模型训练和测试的时候送入网络,因此针对CK+数据集和Oulu-CASIA数据集,需要做10次实验,并取结果的平均值作为最终的结果。利用Torch.Dataset读取批量数据时,首先通过复制法将FER2013数据集和CK+数据集的单通道图片转化为三通道图片,RAF-DB数据集和Oulu-CASIA数据集保留原始三通道格式。接着利用torchvision中的transforms工具对训练数据依次进行角度范围为[-45°~45°]的随机旋转和概率为50%的随机水平翻转,对测试数据进行角度范围为[-45°~45°]的随机旋转。
如图2所示,步骤2:所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块。其中具体的构建神经网络方法为:
步骤2.1:所述主干网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;附图2中共标注了4个空间注意力模块,从左到右的输入特征图尺寸分别为64×56×56,128×28×28,256×14×14,512×7×7。
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
FGlobal的尺寸为512×7×7;
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21],具体的分块形式如附图4所示;
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α19的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)
FLocal的尺寸为512×7×7。
步骤4:将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobalFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积;
步骤5:在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重,在训练和测试时取值为0.75;
步骤6:根据步骤1的预处理方式对FER2013、RAFDB、CK+、Oulu-CASIA数据集分别送入网络中进行训练,并加载模型对各自的测试集进行测试,得到最终的分类结果。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (6)

1.一种基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:从网络上获取公开数据集或从真实环境中采集人脸表情图像,并对数据集进行预处理;
步骤2:设计基于局部敏感特征与全局特征融合的网络结构,全局分支用于从完整人脸图像中提取全局语义特征,局部分支用于从局部特征图中提取细粒度表情特征;
步骤3:将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合,并将融合后的特征送入Softmax分类器中预测人脸表情类别;
步骤4:在局部分支中添加局部敏感损失,与交叉熵损失加权组合构成联合损失共同监督网络训练;
步骤5:使用步骤1中预处理过的样本数据输入到网络中训练并测试。
2.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤1的具体方法为:
所述人脸表情公开数据集为FER2013、RAF-DB、CK+和Oulu-CASIA数据集,本方法首先对数据集进行预处理;利用Dlib人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机水平翻转、随机裁剪的方法进行数据增强。
3.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤2的具体方法为:
所述网络结构以残差结构为基础,全局分支由ResNet34的block1-block3组成,每个Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块,全局分支的前两个block构成预处理模块,用于从输入图像中提取浅层特征,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块,其中具体的构建网络结构的方法为:
步骤2.1:ResNet34网络中前三个block分别包含3,4,6个残差结构,所述全局分支网络将尺寸为224×224×3的原始图像作为输入,依次经过三个block进行全局特征提取,在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸,并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合,得到最终的全局高层语义特征;
步骤2.2:步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩,得到两个尺寸为1×h×w的空间维度全局特征MAvg和MMax,为减少输入信息丢失,对输入特征图F进行1×1卷积,得到尺寸为c×h×w的特征块M1×1conv,将MAvg和MMax进行逐元素相加后,经Sigmoid激活,得到尺寸为1×h×w的空间注意力图MSA,将MSA与M1×1conv进行逐元素相乘后送入1×1卷积,并与原始的输入特征图F进行逐元素相加,生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为:
FSA=F+f1×1conv(δ(MAvg+MMax)×M1×1conv) (1)
MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中:f1×1conv表示1×1卷积,MaxPool表示最大池化,AvgPool表示平均池化,δ表示Sigmoid激活操作;
步骤2.3:步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,下采样模块采用池化和3×3卷积操作串联构成,由于每一个FSA的尺寸不同,因此将其细化分别命名为FSA1、FSA2和FSA3,其中,FSA1的尺寸为64×56×56,FSA2的尺寸为128×28×28,FSA3的尺寸为256×14×14,将FSA1、FSA2和FSA3分别输入下采样模块,生成尺寸为512×14×14的FDS1、FDS2和FDS3,可以分别表示为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中:f3×3conv1、f3×3conv2和f3×3conv3表示3×3卷积,各自的卷积参数不同,MaxPool_1、MaxPool_2和MaxPool_3表示最大池化,各自的池化参数不同;
步骤2.4:步骤2.1中所述在全局分支输出端的位置对FDS1、FDS2和FDS3进行特征融合,融合方式采用逐元素相加,得到最终的全局高层语义特征FGlobal可以表示为:
FGlobal=FDS1+FDS2+FDS3 (8)
步骤2.5:输入图像经全局分支的前两个block,提取到浅层特征FShallow,FShallow包含纹理,线条等基本的图像信息以及一些浅层的面部信息,将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个patch的重要性权重,在靠近局部分支输出端的位置,将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal
步骤2.6:步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch,FShallow的尺寸为128×28×28,空间维度的尺寸可以表示为FShallow[0:28,0:28],每个patch的尺寸为128×14×14,具体的提取坐标范围为:Patch1=FShallow[0:14,0:14],Patch2=FShallow[0:14,14:28],Patch3=FShallow[4:18,0:14],Patch4=FShallow[0:14,7:21],Patch5=FShallow[4:18,14:28],Patch6=FShallow[10:24,0:14],Patch7=FShallow[7:21,7:21],Patch8=FShallow[10:24,14:28],Patch9=FShallow[14:28,7:21];
步骤2.7:步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中,特征提取单元由3×3卷积操作构成,权值估计单元由基本的卷积操作,全局池化,全连接层依次串联组成,Patch1-Patch9经过特征提取模块提取细粒度特征后,经权值估计单元计算该patch内包含表情特征的丰富度,输出各自对应的重要性权重α,α1可以表示为:
α1=δ(FC(AvgPool(f3×3conv(f5×5conv(f3×3conv(Patch1)))))) (9)
其中,f3×3conv表示3×3卷积,f5×5conv表示5×5卷积,AvgPool表示平均池化,δ表示Sigmoid激活操作,α19的计算方式相同;
每个patch最终得到的局部敏感特征块FPatch,可以表示为:
FPatch1=α1·f3×3conv(Patch1) (10)
将9个局部敏感特征块以逐元素相加的方式融合,得到最终的局部特征块FLocal,可以表示为:
FLocal=FPatch1+FPatch2+……+FPatch9 (11)。
4.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤3的具体方法为:
将全局特征FGlobal和局部敏感特征FLocal分别经双层卷积后得到FGlobal1和FLocal1,将FGlobal1和FLocal1分别经Sigmoid激活后再次逐元素相加融合,生成FFusion,对FFusion进行Sigmoid激活后生成激活值αFusion,将αFusion分别与FGlobal和相乘后逐元素相加,得到最终的FOutput,可以表示为:
FOutput=αFusion·FGlobalFusion·FLocal (12)
αFusion=δ(FGlobal+FGlobal1)+δ(FGlobal+FGlobal1) (13)
FGlobal1=BN(f3×3conv(BN(ReLU(f3×3conv(FGlobal))))) (14)
FLocal1=BN(f3×3conv(BN(ReLU(f3×3conv(FLocal))))) (15)
其中,δ表示Sigmoid激活操作,ReLU表示ReLU激活函数,BN表示归一化层,f3×3conv表示3×3卷积。
5.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤4的具体方法为:
在局部敏感分支中设计的权值估计单元会生成每个patch的重要性权重,一方面,为了保证计算得到各个权值在数量级上不能有太大差异,另一方面要保证各局部敏感单元支路信息的完整性,各个权值不能完全相同,要尽量凸显信息丰富局部区域在特征融合中的占比,设计了一种局部敏感损失RP Loss,当9个重要性权重中的最大值αmax和其他权重差异不大时,损失值会增大,当αmax与其他权重值之间的差距很大时,损失值很小,局部敏感损失函数的具体的定义方式为:
LRP=-(1-σ)γlog(σ) (11)
σ=αmax0 (12)
其中,σ是权重最大值αmax与权重平均值α0之间的插值,γ表示可调因子。
最终的损失函数定义为:
L=βLCE+(1-β)LRP (13)
其中,β表示两种loss之间的比重。
6.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法,其特征在于,所述步骤5的具体方法为:
将经过预处理之后的图片数据送入网络中训练,得到网络模型,将待测试图片经过同样的预处理步骤后送入模型中预测表情类别,最后计算预测准确度作为识别结果。
CN202210515089.XA 2022-05-12 2022-05-12 基于局部敏感特征与全局特征融合的人脸表情识别方法 Pending CN114783034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210515089.XA CN114783034A (zh) 2022-05-12 2022-05-12 基于局部敏感特征与全局特征融合的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515089.XA CN114783034A (zh) 2022-05-12 2022-05-12 基于局部敏感特征与全局特征融合的人脸表情识别方法

Publications (1)

Publication Number Publication Date
CN114783034A true CN114783034A (zh) 2022-07-22

Family

ID=82437613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515089.XA Pending CN114783034A (zh) 2022-05-12 2022-05-12 基于局部敏感特征与全局特征融合的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN114783034A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN115631530A (zh) * 2022-12-22 2023-01-20 暨南大学 一种基于人脸动作单元的公平人脸表情识别方法
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116894802A (zh) * 2023-09-11 2023-10-17 苏州思谋智能科技有限公司 图像增强方法、装置、计算机设备和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN115546878B (zh) * 2022-11-23 2023-02-03 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN115631530A (zh) * 2022-12-22 2023-01-20 暨南大学 一种基于人脸动作单元的公平人脸表情识别方法
CN116645716A (zh) * 2023-05-31 2023-08-25 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116645716B (zh) * 2023-05-31 2024-01-19 南京林业大学 基于局部特征和全局特征的表情识别方法
CN116894802A (zh) * 2023-09-11 2023-10-17 苏州思谋智能科技有限公司 图像增强方法、装置、计算机设备和存储介质
CN116894802B (zh) * 2023-09-11 2023-12-15 苏州思谋智能科技有限公司 图像增强方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
CN111080629B (zh) 一种图像拼接篡改的检测方法
CN114783034A (zh) 基于局部敏感特征与全局特征融合的人脸表情识别方法
Liu et al. The research of virtual face based on Deep Convolutional Generative Adversarial Networks using TensorFlow
CN110866471A (zh) 人脸图像质量评价方法及装置、计算机可读介质、通信终端
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN111860235A (zh) 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN110414344A (zh) 一种基于视频的人物分类方法、智能终端及存储介质
CN105989336A (zh) 基于带权重的解卷积深度网络学习的场景识别方法
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN114037699B (zh) 一种病理图像分类方法、设备、系统及存储介质
CN112800851B (zh) 基于全卷积神经元网络的水体轮廓自动提取方法及系统
Rauf et al. Lymphocyte detection for cancer analysis using a novel fusion block based channel boosted CNN
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN114998647B (zh) 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法
CN116030341A (zh) 基于深度学习的植物叶片病害检测方法、计算机设备和存储介质
CN113111906B (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN115375596A (zh) 一种基于双路条件归一化的人脸照片-素描画像合成方法
CN115346259A (zh) 一种结合上下文信息的多粒度学业情绪识别方法
CN114220145A (zh) 人脸检测模型生成方法和装置、伪造人脸检测方法和装置
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
Wang et al. Multispectral pan-sharpening via dual-channel convolutional network with convolutional lstm based hierarchical spatial-spectral feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination