CN114241564A - 一种基于类间差异强化网络的人脸表情识别方法 - Google Patents
一种基于类间差异强化网络的人脸表情识别方法 Download PDFInfo
- Publication number
- CN114241564A CN114241564A CN202111555614.2A CN202111555614A CN114241564A CN 114241564 A CN114241564 A CN 114241564A CN 202111555614 A CN202111555614 A CN 202111555614A CN 114241564 A CN114241564 A CN 114241564A
- Authority
- CN
- China
- Prior art keywords
- expression
- network
- class
- balance
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008921 facial expression Effects 0.000 title claims abstract description 28
- 238000005728 strengthening Methods 0.000 title claims abstract description 13
- 230000014509 gene expression Effects 0.000 claims abstract description 126
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 36
- 239000010410 layer Substances 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 9
- 239000002356 single layer Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于类间差异强化网络的人脸表情识别方法,步骤如下:收集数据集,对数据集进行预处理;分析表情相似度关系;利用相似度信息构建并行分支网络分别提取全局特征和同于区分相似表情的细粒度特征;将提取的特征分别送入全连接层降维,并进行特征融合,经分类器输出表情类别;添加类平衡加权损失函数,以此扩大类间距。本方法充分利用表情相似度信息,提取细粒度特征,有效地提高了人脸表情分类效果。
Description
技术领域
本发明属于人脸表情识别技术领域,具体涉及一种基于双分支注意力机制的人脸表情识别方法。
背景技术
表情包含丰富的人类情感信息,是人类相互交流的主要方式之一。人脸表情识别旨在从人脸图像中挖掘潜在的情感特征并进行分类,是计算机视觉领域的研究热点,在自动驾驶、课堂教学、临床心理学和智能交通等多个领域都显示出了广泛的应用前景。
当前基于深度学习的表情识别研究已经取得了很大的进展,研究人员们提出了各种有效的算法来提升网络的特征学习能力,其中包括:提取面部关键点坐标等辅助输入信号、对各个面部活动单元赋予不同的权重、提取人脸外观身份信息、设计新颖的损失函数优化网络参数等等。但这些方法忽略了不同表情类别间存在高相似度这一特性。例如张嘴是害怕、开心和惊讶的公共面部特征;皱眉是伤心、厌恶,生气的公共面部特征。因此,如何学习有判别性的细粒度人脸表情特征进而对表情间的细微差异进行区分,对提升人脸表情识别模型性能来说是至关重要的。
发明内容
发明目的:本发明的目的在于针对现有技术存在的不足,提供一种基于类间差异强化网络的人脸表情识别方法,设计一种并行的网络结构,对表情类别间的细微差异特征进行强化,提高表情网络识别效果。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于类间差异强化网络的人脸表情识别方法,包括以下步骤:
步骤1:从网络上获取公开数据集并进行图像预处理以及样本增强;
步骤2:进行先验实验对表情相似度关系进行分析,将7类基本表情划分到两个强关联集;
步骤3:设计并行网络结构,网络由主干网络BBN和强化分支DRN组成,将步骤1中得到的数据送入并行网络中,主干网络用于提取全局高层语义特征,强化分支用于提取相似表情细粒度特征;
步骤4:将步骤3中得到的高层语义特征和相似表情细粒度特征经全连接层降维后进行特征融合,经分类器输出人脸表情类别;
步骤5:基于有效样本数理论,设计类平衡加权损失函数。通过在Cross-EntropyLoss的基础上对多数类和稀有类赋予不同的权重,抑制类间竞争,缓解多数类作用于稀有类的负样本监督信号,扩大表情特征的类间距;
进一步的,所述步骤1具体包括以下步骤:
所述人脸表情数据集为FER2013数据集和RAF-DB数据集,本方法首先对数据集进行预处理。利用MTCNN人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机裁剪、随机水平翻转的方法进行数据增强。
进一步的,所述步骤2具体包括以下步骤:
基于预处理后的FER2013和RAF-DB表情数据集,分别构造各表情类别样本数相等的平衡集。将两个平衡集分别送入三种经典卷积神经网络(ResNet18,ResNet34,ResNet50)中训练并测试得到相应的混淆矩阵,并从混淆矩阵中分析出表情间的相似度关系。其中具体的相似度分析方法为:
步骤2.1:为了减少数据的长尾问题带来的影响,分别对FER2013数据集和RAFDB数据集做随机欠采样实现数据平均,以最短类的数据量为基准,在其他类别中随机选择相同数量的图片,构成平衡集分别记做:FER2013Balance,RAFDBBalance;
步骤2.2:使用ResNet18,ResNet34,ResNet50作为先验实验的网络模型,将步骤2.1中得到的:FER2013Balance和RAFDBBalance分别送入三个网络中训练并测试,得到6个混淆矩阵;
步骤2.3:混淆矩阵主对角线上的元素表示正确分类结果,其余位置为错误分类结果。针对每个混淆矩阵,将每种表情被错分的概率由大到小排列,保留前三个概率值对应的表情类别,记做该真值类别的强关联表情。统计6个混淆矩阵中的强关联表情并绘制相似度关系矩阵。矩阵中主对角线以外的元素表示各种表情的相似度值;
步骤2.4:将相似度值大于等于4的两种表情类别划分到一组强关联集,由此可将7类表情划分到两个强关联集,分别记做:GroupSL1={Angry,Fearful,Surprised},GroupSL2={Happy,Disgusted,Sad,Neutral}。
进一步的,所述步骤3具体包括以下步骤:
所述网络结构以ResNet34网络模型为基础,在网络中嵌入多个轻量级的注意力机制模块,构建主干网络。主干网络BBN以原始图片作为输入,学习全局高层语义特征。强化分支放置在主干网络的第二个残差块和第三个残差块之间并分化为两个分支,分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取。其中具体的构建并行神经网络的方法为:
步骤3.1:ResNet34网络中部由4个残差Block串联而成,每个Block分别包含3,4,6,3个残差结构。所述主干网络将尺寸为224×224×3的原始图像作为输入,在每两个Block之间嵌入轻量的联合注意力模块Lightweight Multi Attention Module(LMAM),提取得到全局高层语义特征;
步骤3.2:步骤3.1中所述LMAM由Spatial Attention Module(SAM)和ChannelAttention Module(CAM)组成。尺寸为c×h×w的特征图F输入到LMAM中,经SAM学习各个空间位置间的关系,再经CAM获取不同通道的权重,得到最终特征图;
SAM首先利用AvgPool对输入特征图F进行压缩,得到尺寸为1×h×w的空间维度全局特征,再依次经过5×5卷积,MaxPool,3×3卷积后缩小特征尺寸,经上采样处理后恢复原尺寸,最后经Sigmoid激活,得到尺寸为1×h×w的空间注意图MSA。将MSA和F进行逐元素相乘,得到被空间注意图优化过的特征图FSA可以表示为:
MSA=SAM(F)=δ(Upsample(fconv-pool(AvgPool(x)))) (1)
其中:fconv-pool表示5×5卷积,MaxPool,3×3卷积串联结构。δ表示Sigmoid激活操作;
步骤3.3:将FSA输入到CAM中进一步获取不同channel的权重信息。首先利用AvgPool和MaxPool分别对FSA进行压缩,再分别经双层全连接层处理后,得到两个尺寸为c×1×1的通道特征MCA_Avg和MCA_Max,将MCA_Avg和MCA_Max进行逐元素相加后,经Sigmoid激活,得到空间注意力图MCA。将MCA和F进行逐元素相乘,生成被空间注意图和通道注意图双重优化过的特征图FLMAM可以表示为:
MCA=CAM(F)=(δ(fFC1(AvgPool(FSA)))+δ(fFC2(MaxPool(FSA)))) (3)
其中:fFC1和fFC2表示双层全连接层,δ表示Sigmoid激活操作;
步骤3.4:强化分支网络DRN由两个结构相同的小分支并联组成,分别对不同强关联集内的表情类别进行强化处理。每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元,提取到的相似表情差异细粒度特征可以表示为:
其中:FDRN1和FDRN2分别表示分支1和分支2提取到的相似表情细粒度特征。
进一步的,所述步骤4具体包括以下步骤:
将高层语义特征FBBN和相似表情细粒度特征FDRN1和FDRN2分别经全连接层进行降维,再经特征融合得到最终输出特征FALL,经分类器输出人脸表情类别。其中具体的特征融合方法为:
步骤4.1:将FBBN送入AvgPool和单层全连接层进行降维,得到7维输出向量可以表示为:
VBBN=[cAN,cDI,cFE,cHA,cSA,cSU,cNE] (6)
其中:ci,i∈{AN,DI,FE,HA,SA,SU,NE}表示各类表情的输出值,下标表示该值对应的表情类别信息;
步骤4.2:将FDRN1和FDRN2分别经AvgPool和单层全连接层降维后得到7维的输出特征向量,特征向量的每一个元素都对应一种表情的输出特征:
其中:VDRN1表示分支1的输出特征向量,VDRN2表示分支2的输出特征向量;
ai,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN1中的各类表情对应的输出值,下标表示该值对应的表情类别。bi,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN2中的各类表情对应的输出值,下标表示该值对应的表情类别信息。为了达到强化效果,VDRN1只保留GroupSL1中所包含的三种表情类别对应的输出值,其余位置的元素置零。VDRN2只保留强GroupSL2中所包含的四种表情类别对应的输出值,其余位置的元素置零。根据步骤二中划分的强关联集,修正后的输出向量可以表示为:
将修正后的两个特征向量在对应位置相加得到强化分支的最终输出向量ECV,可以表示为:
VDRN=[aAN,bDI,aFE,bHA,bSA,aSU,bNE] (9)
其中,ai,i∈{AN,FE,SU}是向量VDRN1中的各类表情对应的输出值,下标表示各自对应的表情类别bj,j∈{DI,HA,SA,NE}是向量VDRN2中的各类表情对应的输出值,下标表示各自对应的表情类别;
步骤4.3:将VBBN和VDRN以一定比例进行逐元素相加,在训练过程中通过控制动态平衡系数α来不断调整融合比例,使得网络的注意力在主干网络和强化分支之间迁移,在测试过程中α设置为常数值0.9。特征融合的平衡参数α和迭代次数之间的函数关系可以表示为:
其中:EpochCurrent和EpochMax分别表示当前迭代次数和最大迭代次数,EpochCurrent≥1。融合后得到的最终特征可以表示为:
VALL=αVBBN+(1-α)VDRN (11)
进一步的,所述步骤5具体包括以下步骤:
从类平衡组合加权的角度,在交叉熵损失函数的基础上对稀有类进行保护,强化类间差异,增大类间距离。其中具体的类平衡组合加权的方式为:
步骤5.1:首先给出有效样本数F(n)的一个启发式定义:
其中:k是一个系数,n表示实际样本数,F(n)表示有效样本数。该启发式定义可以较好的刻画边际递减效应,当n足够大时,进一步增大n并不能满足有效样本容量。
基于此定义来对各个表情类别的加权权重进行重新定义:
其中:wc,c∈[1,7]表示各表情类别的加权权重,c表示第c类,nc表示第c类实际样本数目。
步骤5.2:基于步骤5.1中对各个表情类别加权权重的定义,构建Weighted Cross-Entropy Loss:
有益效果:本发明提供的一种基于类间差异强化网络的人脸表情识别方法,对表情相似度进行分析,利用嵌入轻量级注意力机制模块的并行分支同时提取全局高层语义特征以及用于区分相似表情的细粒度特征,采用类平衡加权损失函数来进行网络参数的优化,该方法有如下几个优点。
1)根据表情相似度关系,设计并行分支的网络架构,同时兼顾对全局语义特征和相似表情细粒度特征的提取,提升了对相似表情类别的分类效果;
2)轻量级的注意力模块先后对输入特征图进行空间维度和通道维度上的特征提取,使神经网络更加关注与表情形成高度相关的面部区域,有效降低面部冗余信息对人脸表情识别的影响;
3)动态的特征融合方式,不断调整网络的特征学习注意力,生成更具鲁棒的整体特征;
4)结合有效样本数原理,设计类平衡加权损失函数,一定程度上抑制了样本数较多类别作用于样本数较少类别的负样本监督信号,增大表情特征的类间距,实现更好的分类效果。
附图说明
图1是本发明提供的基于类间差异强化网络的人脸表情识别方法的整体流程图;
图2是本发明提供的基于类间差异强化网络的人脸表情识别方法的网络结构图;
图3是注意力模块Lightweight Multi Attention Module(LMAM)网络结构图;
图4是通道注意力模块Channel Attention Module(CAM)网络结构图;
图5是空间注意力模块Spatial Attention Module(SAM)网络结构图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
实施案例
本实施案例采用Python3.7及Pytorch深度学习框架作为实验平台,使用显存为8G的GeForce RTX 3070显卡作为训练工具。针对FER2013数据集,使用Training作为训练集(样本数为28709),PrivateTest作为测试集(样本数为3589),PublicTest作为验证集(样本数为3589)。针对RAF-DB数据集,使用原始数据对训练集(样本数为12271)和测试集(样本数为3068)的初始划分作为本实例的划分依据。本实施案例不采用任何数据集来预训练模型。两种数据集的训练过程采用相同的超参数设置:训练最大迭代次数为150;batch_size为48;使用RAdam优化器;plateau_patience设置为2;初始学习率为0.01;weight_decay为0.0001。测试指标为准确率(Accuracy)。以下针对上述实例对本发明作进一步的阐述,本发明的流程包括:
步骤1:本实施案例使用FER2013数据集(FER2013.csv)和RAF-DB数据集中经过人脸对齐后的图片(aligned文件夹),不再使用MTCNN进行人脸对齐。将FER2013.csv拆分为三个csv文件,分别命名为:Train.csv,Test.csv,Val.csv,分别在模型训练,测试,验证的时候喂入网络。对RAF-DB数据集,首先将图片按照标签,分别放入Train文件夹和Test文件夹中对应的表情类别文件夹中,再将训练图片和测试图片分别转为csv文件形式,命名为Train.csv和Test.csv,分别在模型训练和测试的时候送入网络。利用Torch.Dataset读取批量数据时,首先通过复制法将FER2013数据集的单通道图片转化为三通道图片,RAF-DB数据集保留原始三通道格式。接着利用torchvision中的transforms工具对训练数据依次进行角度范围为[-30°~30°]的随机旋转和概率为50%的随机水平翻转,对测试数据进行角度范围为[-30°~30°]的随机旋转。
步骤2:基于预处理后的FER2013和RAF-DB表情数据集,分别构造各表情类别样本数相等的平衡集。将两个平衡集分别送入三种经典卷积神经网络(ResNet18,ResNet34,ResNet50)中训练并测试得到相应的混淆矩阵,并从混淆矩阵中分析出表情间的相似度关系。其中具体的相似度分析方法为:
步骤2.1:为了减少数据的长尾问题带来的影响,分别对FER2013数据集和RAF-DB数据集做随机欠采样实现数据平均,以最短类的数据量为基准,在其他类别中随机选择相同数量的图片,构成平衡集分别记做:FER2013Balance,RAFDBBalance,其中FER2013Balance训练集、测试集、验证集中每类表情的样本数分别为436,55,56,RAFDBBalance训练集和测试集中每类表情的样本数分别为281,74;
步骤2.2:使用在ImageNet数据集上预训练过的ResNet18,ResNet34,ResNet50作为先验实验的网络模型,将步骤2.1中得到的FER2013Balance和RAFDBBalance分别送入三个网络中训练。对所有训练过程使用RAdam优化器优化参数,并采用相同的超参数设置:最大迭代次数为100次;初始学习率为0.001;weight_decay设置为0.0001;batch_size为48。训练后调用模型在相应的测试集上测试,得到6个混淆矩阵;
步骤2.3:混淆矩阵纵轴表示各个表情类别的Ture Label,横轴表示各个表情类别的Predict Label。记录矩阵的每一行中除纵轴对应自身表情类别之外,识别概率最高的三类表情类别,记做该纵轴对应的真值类别的强关联表情,统计6个混淆矩阵中的各类表情对应的强关联表情及其出现的频次,绘制相似度关系矩阵;
步骤2.4:将相似度值大于等于4的两种表情类别划分到一组强关联集,将7类表情划分到两个强关联集,分别记做:GroupSL1={Angry,Fearful,Surprised},GroupSL2={Happy,Disgusted,Sad,Neutral}。
步骤3:所述网络结构以ResNet34网络模型为基础,ResNet34网络由一个7×7卷积层、16个残差模块、单层AvgPool和单层的全连接层组成。网络中部的残差模块被划分为4个Block,每个Block中分别包含3、4、6、3个残差模块。主干网络保留ResNet34靠近输入层的7×7卷积和靠近输出层的AvgPool以及单层全连接层,并在网络中嵌入3个轻量级的注意力机制模块。强化分支放置在从主干网络的第二个Block和第三个Block之间并分化为两个分支,分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取。其中具体的构建并行神经网络的方法为:
步骤3.1:所述主干网络将尺寸为224×224×3的原始图像作为输入,在每两个Block之间嵌入轻量的联合注意力模块Lightweight Multi Attention Module(LMAM),提取得到全局高层语义特征;
步骤3.2:步骤3.1中所述LMAM由Spatial Attention Module(SAM)和ChannelAttention Module(CAM)组成。尺寸为c×h×w的特征图F输入到LMAM中,经SAM学习各个空间位置间的关系,再经CAM获取不同通道的权重,得到最终特征图;
SAM首先利用Torch中的nn.AdaptiveAvgPool3d函数对输入特征图F进行压缩,得到尺寸为1×h×w的空间维度全局特征,再依次经过5×5卷积,MaxPool,3×3卷积后缩小特征尺寸,经上采样处理后恢复原尺寸,最后经Sigmoid激活,得到尺寸为1×h×w的空间注意图MSA。其中5×5卷积和3×3卷积的kernel_size=1,stride=1,padding=1;MaxPool操作的kernel_size=3,stride=2,padding=1;采用转置卷积实现上采样。将MSA和F进行逐元素相乘,得到被空间注意图优化过的特征图FSA可以表示为:
MSA=SAM(F)=δ(Upsample(fconv-pool(AvgPool(x)))) (1)
其中:fconv-pool表示依次经过5×5卷积,MaxPool,3×3卷积处理。δ表示Sigmoid激活操作;
步骤3.3:将FSA输入到CAM中进一步获取不同channel的权重信息。首先利用AvgPool和MaxPool分别对FSA进行压缩,再分别经双层全连接层处理后,得到两个尺寸为c×1×1的通道特征MCA_Avg和MCA_Max,将MCA_Avg和MCA_Max进行逐元素相加后,经Sigmoid激活,得到空间注意力图MCA。将MCA和F进行逐元素相乘,生成被空间注意图和通道注意图双重优化过的特征图FLMAM可以表示为:
MCA=CAM(F)=(δ(fFC1(AvgPool(FSA)))+δ(fFC2(MaxPool(FSA)))) (3)
其中:fFC1和fFC2表示双层全连接层,δ表示Sigmoid激活操作;
步骤3.4:强化分支网络DRN由两个结构相同的小分支并联组成,分别对不同强关联集内的表情类别进行强化处理。每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元,具体的操作步骤以及提取到的相似表情差异细粒度特征可以表示为:
其中:FDRN1和FDRN2分别表示分支1和分支2提取到的相似表情细粒度特征。
步骤4:将高层语义特征FBBN和相似表情细粒度特征FDRN1和FDRN2分别经全连接层进行降维,再经特征融合得到最终输出特征FALL,经SoftMax分类器输出人脸表情类别。其中具体的特征融合方法为:
步骤4.1:将FBBN送入AvgPool和单层全连接层进行降维,得到7维输出向量可以表示为:
VBBN=[cAN,cDI,cFE,cHA,cSA,cSU,cNE] (6)
其中:ci,i∈{AN,DI,FE,HA,SA,SU,NE}表示各类表情的输出值,下标表示该元素对应的表情类别信息;
步骤4.2:将FDRN1和FDRN2分别经AvgPool和单层全连接层降维后得到7维的输出特征向量,特征向量的每一个元素都对应一种表情的输出特征:
其中:VDRN1表示分支1的输出特征向量,VDRN2表示分支2的输出特征向量;
ai,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN1中输出各类表情的输出值,下标表示该元素对应的表情类别信息。bi,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN2中的元素,下标表示该元素对应的表情类别信息。为了达到强化效果,VDRN1只保留GroupSL1中所包含的三种表情类别对应的元素信息,其余位置的元素置零。VDRN2只保留GroupSL2中所包含的四种表情类别对应的元素信息,其余元素置零。根据步骤二中划分的强关联集,修正后的输出向量可以表示为:
将修正后的两个特征向量在对应位置相加得到强化分支的最终输出向量ECV,可以表示为:
VDRN=[aAN,bDI,aFE,bHA,bSA,aSU,bNE] (9)
其中,ai,i∈{AN,FE,SU}是向量VDRN1中的元素,bj,j∈{DI,HA,SA,NE}是向量VDRN2中的元素,下标表示各自对应的表情类别;
步骤4.3:将VBBN和VDRN以一定比例进行逐元素相加,在训练过程中通过控制动态平衡系数α来不断调整融合比例,使得网络的注意力在主干网络和强化分支之间迁移,在测试过程中α设置为常数值0.9。特征融合的平衡参数α和迭代次数之间的函数关系可以表示为:
其中:EpochCurrent和EpochMax分别表示当前迭代次数和最大迭代次数,EpochCurrent≥1。融合后得到的最终特征可以表示为:
VALL=αVBBN+(1-α)VDRN (11)
步骤5:从类平衡组合加权的角度,在交叉熵损失函数的基础上对稀有类进行保护,强化类间差异,增大类间距离。其中具体的类平衡组合加权的方式为:
步骤5.1:首先给出有效样本数F(n)的一个启发式定义:
其中:k是一个系数,n表示实际样本数,F(n)表示有效样本数。该启发式定义可以较好的刻画边际递减效应,当n足够大时,进一步增大n并不能满足有效样本容量。
基于此定义来对各个表情类别的加权权重进行重新定义:
其中:wc,c∈[1,7]表示各表情类别的加权权重,c表示第c类,nc表示第c类实际样本数目。
实施案例中,FER2013数据集和RAF-DB数据集根据wc计算得到各类表情类平衡加权权重值列表分别为:wFER2013=[0.0158,0.0478,0.0156,0.0118,0.0144,0.0178,0.0142],wRAF-DB=[0.0376,0.0373,0.0595,0.0145,0.0225,0.0278,0.0199]。列表中各数值对应的表情类别依次为{Angry,Disgusted,Fearful,Happy,Sad,Surprised,Neutral}。
步骤5.2:基于步骤5.1中对各个表情类别加权权重的定义,构建Weighted Cross-Entropy Loss:
应当指出,以上所述实施案例仅是本发明的优选实施方式,而非对实施方式的限定,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于类间差异强化网络的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:从网络上获取公开数据集并进行图像预处理以及样本增强;
步骤2:进行先验实验分析表情相似度关系,将7类基本表情划分到两个强关联集;
步骤3:设计并行网络结构,网络由主干网络BBN和强化分支DRN组成,将步骤1中得到的数据送入并行网络中,主干网络用于提取全局高层语义特征,强化分支用于提取相似表情细粒度特征;
步骤4:将步骤3中得到的高层语义特征和相似表情细粒度特征经全连接层降维后进行特征融合,经分类器输出人脸表情类别;
步骤5:基于有效样本数理论,设计类平衡加权损失函数,通过在Cross-Entropy Loss的基础上对多数类和稀有类赋予不同的权重,抑制类间竞争,缓解多数类作用于稀有类的负样本监督信号,扩大表情特征的类间距。
2.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法,其特征在于,所述步骤1的具体方法为:
所述人脸表情数据集为FER2013数据集和RAF-DB数据集,本方法首先对数据集进行预处理,利用MTCNN人脸检测算法检测出图像中的人脸区域,将其从原始图像中裁剪出来,缩放到统一尺寸224×224,针对单通道图像,通过复制法将单通道图片转化为三通道图片,并采用随机裁剪、随机水平翻转的方法进行数据增强。
3.根据权利要求2所述的基于类间差异强化网络的人脸表情识别方法,其特征在于,所述步骤2的具体方法为:
基于预处理后的FER2013和RAF-DB表情数据集,分别构造各表情类别样本数相等的平衡集,将两个平衡集分别送入三种经典卷积神经网络中训练并测试得到相应的混淆矩阵,并从混淆矩阵中分析出表情相似度关系,其中,三种经典卷积神经网络包括ResNet18,ResNet34,ResNet50,具体的相似度分析方法为:
步骤2.1:为了减少数据的长尾问题带来的影响,分别对FER2013数据集和RAFDB数据集做随机欠采样实现数据平均,以最短类的数据量为基准,在其他类别中随机选择相同数量的图片,构成平衡集分别记做:FER2013Balance,RAFDBBalance;
步骤2.2:使用ResNet18,ResNet34,ResNet50作为先验实验的网络模型,将步骤2.1中得到的:FER2013Balance和RAFDBBalance分别送入三个网络中训练并测试,得到6个混淆矩阵;
步骤2.3:混淆矩阵主对角线上的元素表示正确分类结果,其余位置为错误分类结果,针对每个混淆矩阵,将每种表情被错分的概率由大到小排列,保留前三个概率值对应的表情类别,记做该真值类别的强关联表情,统计6个混淆矩阵中的强关联表情并绘制相似度关系矩阵,矩阵中主对角线以外的元素表示各种表情间的相似度值;
步骤2.4:将相似度值大于等于4的两种表情类别划分到一组强关联集,由此可将7类表情划分到两个强关联集,分别记做:GroupSL1={Angry,Fearful,Surprised},GroupSL2={Happy,Disgusted,Sad,Neutral}。
4.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法,其特征在于,所述步骤3的具体方法为:
所述网络结构以ResNet34网络模型为基础,在网络中嵌入多个轻量级的注意力机制模块,构建主干网络,主干网络BBN以原始图片作为输入,学习全局高层语义特征,强化分支放置在主干网络的第二个残差块和第三个残差块之间并分化为两个分支,分别对不同强关联组包含的表情类别进行进一步地细粒度特征提取,其中具体的构建并行神经网络的方法为:
步骤3.1:ResNet34网络中部由4个残差Block串联而成,每个Block分别包含3,4,6,3个残差结构,所述主干网络将尺寸为224×224×3的原始图像作为输入,在每两个Block之间嵌入轻量的联合注意力模块LMAM,提取得到全局高层语义特征;
步骤3.2:步骤3.1中所述LMAM由SAM和CAM组成,尺寸为c×h×w的特征图F输入到LMAM中,经SAM学习各个空间位置间的关系,再经CAM获取不同通道的权重,得到最终特征图;
SAM首先利用AvgPool对输入特征图F进行压缩,得到尺寸为1×h×w的空间维度全局特征,再依次经过5×5卷积,MaxPool,3×3卷积后缩小特征尺寸,经上采样处理后恢复原尺寸,最后经Sigmoid激活,得到尺寸为1×h×w的空间注意图MSA,将MSA和F进行逐元素相乘,得到被空间注意图优化过的特征图FSA可以表示为:
MSA=SAM(F)=δ(Upsample(fconv-pool(AvgPool(x)))) (1)
其中:fconv-pool表示5×5卷积,MaxPool,3×3卷积串联结构,δ表示Sigmoid激活操作;
步骤3.3:将FSA输入到CAM中进一步获取不同channel的权重信息,首先利用AvgPool和MaxPool分别对FSA进行压缩,再分别经双层全连接层处理后,得到两个尺寸为c×1×1的通道特征MCA_Avg和MCA_Max,将MCA_Avg和MCA_Max进行逐元素相加后,经Sigmoid激活,得到空间注意力图MCA,将MCA和F进行逐元素相乘,生成被空间注意图和通道注意图双重优化过的特征图FLMAM可以表示为:
MCA=CAM(F)=(δ(fFC1(AvgPool(FSA)))+δ(fFC2(MaxPool(FSA)))) (3)
其中:fFC1和fFC2表示双层全连接层,δ表示Sigmoid激活操作;
步骤3.4:强化分支网络DRN由两个结构相同的小分支并联组成,分别对不同强关联集内的表情类别进行强化处理,每个分支由ResNet34中第三个残差Block和一个CAM构成细粒度特征提取单元,提取到的相似表情差异细粒度特征可以表示为:
其中:FDRN1和FDRN2分别表示分支1和分支2提取到的相似表情细粒度特征。
5.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法,其特征在于,所述步骤4的具体方法为:
将高层语义特征FBBN和相似表情细粒度特征FDRN1和FDRN2分别经全连接层进行降维,再经特征融合得到最终输出特征FALL,经分类器输出人脸表情类别,其中具体的特征融合方法为:
步骤4.1:将FBBN送入AvgPool和单层全连接层进行降维,得到7维输出向量可以表示为:
VBBN=[cAN,cDI,cFE,cHA,cSA,cSU,cNE] (6)
其中:ci,i∈{AN,DI,FE,HA,SA,SU,NE}表示各类表情的输出值,下标表示该值对应的表情类别信息;
步骤4.2:将FDRN1和FDRN2分别经AvgPool和单层全连接层降维后得到7维的输出特征向量,特征向量的每一个元素都对应一种表情的输出值:
其中:VDRN1表示分支1的输出特征向量,VDRN2表示分支2的输出特征向量;
ai,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN1中的各类表情的输出值,下标表示该值对应的表情类别信息。,bi,i∈{AN,DI,FE,HA,SA,SU,NE}表示向量VDRN2中的各类表情的输出值,下标表示该值对应的表情类别信息;为了达到强化效果,VDRN1只保留GroupSL1中所包含的三种表情类别对应的数值信息,其余位置的元素置零,VDRN2只保留GroupSL2中所包含的四种表情类别对应的数值信息,其余位置的元素置零,根据步骤二中划分的强关联集,修正后的输出向量可以表示为:
将修正后的两个特征向量在对应位置相加得到强化分支的最终输出向量ECV,可以表示为:
VDRN=[aAN,bDI,aFE,bHA,bSA,aSU,bNE] (9)
其中,ai,i∈{AN,FE,SU}是向量VDRN1中的各类表情对应的输出值,下标表示该值对应的表情类别,bj,j∈{DI,HA,SA,NE}是向量VDRN2中的各类表情对应的输出值,下标表示该值对应的表情类别;
步骤4.3:将VBBN和VDRN以一定比例进行逐元素相加,在训练过程中通过控制动态平衡系数α来不断调整融合比例,使得网络的注意力在主干网络和强化分支之间迁移,在测试过程中α设置为常数值0.9,特征融合的平衡参数α和迭代次数之间的函数关系可以表示为:
其中:EpochCurrent和EpochMax分别表示当前迭代次数和最大迭代次数,EpochCurrent≥1,融合后得到的最终特征可以表示为:
VALL=αVBBN+(1-α)VDRN (11)
6.根据权利要求1所述的基于类间差异强化网络的人脸表情识别方法,其特征在于,所述步骤5的具体方法为:
从类平衡组合加权的角度,在交叉熵损失函数的基础上对稀有类进行保护,强化类间差异,增大类间距离,其中具体的类平衡组合加权的方式为:
步骤5.1:首先给出有效样本数F(n)的一个启发式定义:
其中:k是一个系数,n表示实际样本数,F(n)表示有效样本数,该启发式定义可以较好的刻画边际递减效应,当n足够大时,进一步增大n并不能满足有效样本容量;
基于此定义来对各个表情类别的加权权重进行重新定义:
其中:wc,c∈[1,7]表示各表情类别的加权权重,c表示第c类,nc表示第c类实际样本数目;
步骤5.2:基于步骤5.1中对各个表情类别加权权重的定义,构建Weighted Cross-Entropy Loss:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555614.2A CN114241564A (zh) | 2021-12-17 | 2021-12-17 | 一种基于类间差异强化网络的人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555614.2A CN114241564A (zh) | 2021-12-17 | 2021-12-17 | 一种基于类间差异强化网络的人脸表情识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241564A true CN114241564A (zh) | 2022-03-25 |
Family
ID=80758417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111555614.2A Pending CN114241564A (zh) | 2021-12-17 | 2021-12-17 | 一种基于类间差异强化网络的人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241564A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783034A (zh) * | 2022-05-12 | 2022-07-22 | 东南大学 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
CN115457643A (zh) * | 2022-11-09 | 2022-12-09 | 暨南大学 | 一种基于增量技术和注意力机制的公平人脸表情识别方法 |
CN115908949A (zh) * | 2023-01-06 | 2023-04-04 | 南京理工大学 | 基于类平衡编码器的长尾图像识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020125386A1 (zh) * | 2018-12-18 | 2020-06-25 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN112990097A (zh) * | 2021-04-13 | 2021-06-18 | 电子科技大学 | 一种基于对抗消除的人脸表情识别方法 |
-
2021
- 2021-12-17 CN CN202111555614.2A patent/CN114241564A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020125386A1 (zh) * | 2018-12-18 | 2020-06-25 | 深圳壹账通智能科技有限公司 | 表情识别方法、装置、计算机设备和存储介质 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN112990097A (zh) * | 2021-04-13 | 2021-06-18 | 电子科技大学 | 一种基于对抗消除的人脸表情识别方法 |
Non-Patent Citations (1)
Title |
---|
余璟 等: "结合加权局部旋度模式的3 维人脸表情识别", 《中国图象图形学报》, 16 July 2019 (2019-07-16), pages 1076 - 1085 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783034A (zh) * | 2022-05-12 | 2022-07-22 | 东南大学 | 基于局部敏感特征与全局特征融合的人脸表情识别方法 |
CN115457643A (zh) * | 2022-11-09 | 2022-12-09 | 暨南大学 | 一种基于增量技术和注意力机制的公平人脸表情识别方法 |
CN115908949A (zh) * | 2023-01-06 | 2023-04-04 | 南京理工大学 | 基于类平衡编码器的长尾图像识别方法 |
CN115908949B (zh) * | 2023-01-06 | 2023-11-17 | 南京理工大学 | 基于类平衡编码器的长尾图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985317B (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN113239784B (zh) | 一种基于空间序列特征学习的行人重识别系统及方法 | |
CN114241564A (zh) | 一种基于类间差异强化网络的人脸表情识别方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN111582225A (zh) | 一种遥感图像场景分类方法及装置 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113221655B (zh) | 基于特征空间约束的人脸欺骗检测方法 | |
CN112395442A (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN113628297A (zh) | 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统 | |
CN106203373A (zh) | 一种基于深度视觉词袋模型的人脸活体检测方法 | |
CN114937298A (zh) | 一种基于特征解耦的微表情识别方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
CN103207993B (zh) | 基于核的判别随机近邻嵌入分析的人脸识别方法 | |
CN117373111A (zh) | 一种基于AutoHOINet的人-物交互检测方法 | |
CN113205044B (zh) | 一种基于表征对比预测学习的深度伪造视频检测方法 | |
CN115830401A (zh) | 一种小样本图像分类方法 | |
CN111553202B (zh) | 进行活体检测的神经网络的训练方法、检测方法及装置 | |
CN113887504A (zh) | 强泛化性的遥感图像目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |