CN113128369A - 一种融合均衡损失的轻量级网络人脸表情识别方法 - Google Patents
一种融合均衡损失的轻量级网络人脸表情识别方法 Download PDFInfo
- Publication number
- CN113128369A CN113128369A CN202110357123.0A CN202110357123A CN113128369A CN 113128369 A CN113128369 A CN 113128369A CN 202110357123 A CN202110357123 A CN 202110357123A CN 113128369 A CN113128369 A CN 113128369A
- Authority
- CN
- China
- Prior art keywords
- loss
- network
- sample
- weight
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明请求保护一种融合均衡损失的轻量级网络人脸表情识别方法,属于模式识别技术领域。包括以下步骤:首先,提出了样本类别损失函数,利用class_weight设置权重,将样本类别损失融入网络训练之中;其次,提出了样本质量损失函数,利用表情区域关键点定位的方法,筛选出表情质量好坏的图像样本,并通过权重影响的方式融入损失函数之中;然后,利用网络注意力机制,设计了多维注意力损失函数,将两种网络注意力机制形成的特征作为鉴别标签与预测值的度量指标,从而提高网络模型分类准确度;最后,将上述所提三种损失在基于Keras框架的网络模型中进行级联融合形成EQ‑loss,并将其添加到轻量级网络框架中,实现端到端的人脸表情识别。
Description
技术领域
本发明属于计算机模式识别技术领域,具体地说,是一种人脸表情识别方法。
背景技术
人脸表情识别技术作为人脸识别的一个重要分支,兼顾了多种学科知识在其中,已然成为了较新颖、有前景的研究方向。人脸表情识别技术具有无干扰、操作成本低和交互性强的特点,使其可应用于人机交互、精神病患者的治疗、情感计算以及远程教育等领域。以往的人脸表情识研究主要集中在静态正面人脸上,但随着科技的发展和应用的普及,对非可控条件下变化的人脸表情识别的需求日益增加。由于摄像机角度、机位方向的变化,所成像的人脸表情会存在拉伸、压缩以及遮挡等问题,这对人脸表情识别带来了极大挑战;并且,当今的大数据时代,以传统的识别技术很难满足市场应用的需求。基于深度学习的方法,通过大数据学习的模式,将成千上万张图像进行拟合,因此可以学习到各种状态下的面部表情特征(包含上述说的发生变化的图像),增强了模型的泛化性和鲁棒性。
要实现精准高效地人脸表情识别,除了需要有深度网络模型作为网络框架外,还需要充足、高质量和面部纹理特征丰富的表情数据作为支撑。然而,在目前的研究中,表情库都是小样本数据,很难达到大数据表达多特征的效果。进一步的说,由于表情库中样本图像的质量参差不一(存在遮挡、姿态和光照等环境因素)、样本类别间的数量差距各异(某一类样本的数量远远低于其它类样本的数量),这些因素往往会导致网络学习到某一类的特征信息较少或学习到的特征干扰信息增多,造成网络的识别精度下降。因此,如何均衡表情库中样本的质量和样本的数量成为了提高网络模型识别性能的重要研究思路。
卷积神经网络作为深度学习中解决人脸表情识别任务的经典网络框架之一,在拥有充足的、高质量的图像数据的前提下,卷积神经网络可以从海量数据中提取丰富的、多维的深度特征,从而实现更加精准的分类任务。目前用于人脸表情识别任务的卷积神经网络主要有表情峰值监督网络PPDN、通过Island损失函数扩大类间差异度的IL-CNN、通过人脸认证到表情识别两阶段的网络FaceNet2ExpNet和利用人脸局部区域注意力来提升任务精度的DAM-CNN等,这些网络通过设计深层的网络结构、优化损失函数等方法取得了较好的精度,但同时也因网络层数、模型复杂度和参数量不断增加,使得计算条件受限,无法应用于便携式设备。如何设计“又快又好”的轻量型网络,成为了基于深度的人脸表情识别研究的重点。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种融合均衡损失的轻量级网络人脸表情识别方法。本发明的技术方案如下:
一种融合均衡损失的轻量级网络人脸表情识别方法,其包括以下步骤:
101、利用Keras框架中的sklearn库函数进行网络的训练和调参,并通过自定义的划分样本数量权重的方法,使得每个类别都对应一个权重,将类别与权重一一对应,形成字典索引,再调用sklearn函数库中的class_weight方法,将权重字典融入网络模型之中;①sklearn方法指的是Keras框架中的一种库函数,其数学方法用于深度学习的训练和调参、②class_weight指的是sklearn方法里的一种可调用的函数,用于网络训练中调整损失函数的值;
102、利用表情区域关键点定位的方法,筛选出表情质量好坏的图像样本,以关键点缺失程度定义了一种样本质量损失函数,并将该质量损失函数融入网络末端的softmax层中,通过softmax+损失函数的方式来影响样本的特征学习;
103、基于网络注意力机制设计了多维注意力损失函数,在网络末端的分类层前添加通道域注意力机制和空间域注意力机制,将两种注意力机制形成的特征提取出来作为损失函数鉴别标签与预测值的度量指标;
104、将样本类别损失、样本质量损失和多维注意力损失在基于Keras框架的网络模型中进行级联融合,形成了新的损失函数—融合均衡损失;
105、利用ResNet网络层的残差特性和Inception网络层的通道退耦合特性,构建了一套轻量深层的网络框架——深度可分离残差卷积网络框架SRNet,利用1x1的通道分离卷积和残差结构实现减少网络参数的优化,将步骤104得到的EQ-loss融入SRNet网络末端,实现损失的优化;然后,将得到的特征信息输入特征分类卷积层后,得到网络输出的分类概率,求最大概率值对应的分类结果,得到最终的识别结果;
106、为了验证SRNet网络对人脸表情识别的有效性,将SRNet网络模型导入到自建的人脸表情识别平台中(为了验证网络模型的有效性,自行构建的一个人脸表情识别平台),实现在线和离线的人脸表情识别。
进一步的,所述步骤101自定义的样本权重划分流程为:
式中n为表情库的类别数量,i=[1,2,…,n],Samplei/j为第i/j类样本的数量,通过公式(1)的if语句判定,如果第i类的样本数量小于平均样本量,就参与的计算,m为小于平均样本量的类的总数,通过计算少样本类与表情库平均样本之间的差异度,得到权重力度因子并由公式(2)得到每个类的样本权重:
B1、根据公式(2),每个类得到对应的权重weighti,可以计算出少样本类的log值反而大,多样本类的log值基本保持不变,为使得样本损失在注意少样本类时保持多样本类的平衡,weighti值小于1的都取1平衡处理:
式(3)中class_weighti表示第i类表情的weighti权重,因此,可以组成长度为n的权重矩阵;
C1、将得到的权重矩阵作为参数,带入到Keras框架中的class_weight权重损失度量函数中,将参数以类别字典的方法融入网络训练的损失之中,当网络损失为交叉熵损失时,融合公式为:
式中β为超参数因子,yi为标签值,hθ(xi)为预测值,通过对交叉熵损失叠加一个class_weight权重,使得损失值变大,网络对该类的训练收敛时,就会分更多的“精力”,从而达到权重注意的目的。
进一步的,步骤102中自定义样本质量损失函数来影响样本的特征学习,其方法为:
A2、让网络通过损失去均衡其他类的分布,同时从图像质量方面考虑该样本损失的价值,则将loss改为:
式中ε为人为设计的超参数,γ为样本质量权重,由人脸标定点表情区域的回归所决定,zi为第i个样本的网络输出,总样本数量为n,则样本的所有输出为Z=[z1,z2,...,zn];
B2、通过定义损失函数,在损失中加上了γ权重,γ表示为:
γ=1/m·∑length(markfer) (6)
将样本图像经过MTCNN方法进行人脸标定后,关键点数小于5的都标记为质量缺失的表情图像,总个数为m;markfer为缺失度,缺失一个关键点记为缺失度0.2,两个记为0.4,以此类推;length(markfer)表示m个人脸表情图像质量缺失程度的总和,由此计算出的平均质量即为样本的质量权重。
进一步的,步骤103中在网络末端的分类层前添加通道域和空间域注意力机制的流程表示如下:
A3、利用注意力机制形成的特征+softmax loss+center loss的方式学习特征的描述,使之拉近了类内距离又离远了类间距离,其中center loss的定义如下:
式中c为类中心,xi为另一个样本的特征向量,N为batchsize批处理样本的数量;
B3、先随机初始化,再在每次网络批处理时更新c,其更新方法如公式(8)所示,在每个批样本里计算当前样本与的距离,然后将偏导更新的距离添加到c上:
公式(8)可以看做网络参数权重的更新,类似于BP算法的反向传播过程;
C3、将网络末端分类卷积层分别上下两部分操作,得到基于通道域的注意力机制特征1和基于空间域的注意力机制特征2,将两个特征通过中心损失的设计方法融合centerloss之中。
进一步的,所述步骤C3将两个特征通过中心损失的设计方法融合center loss之中,实现方式由公式(9)得到:
式中为超参数,其目的是控制注意力机制特征的影响范围,F1和F2分别为通道域注意力特征1和空间域注意力特征2,Z由公式(5)而来,b为一个batchsize批处理样本的大小,网络通过对每个batchsize内的特征进行注意力机制特征+softmax loss+centerloss的训练学习,使得网络特征的描述在类内联系更紧,在类间联系更加稀疏。
进一步的,步骤104中融合均衡损失函数定义如下:
式中参数由上述公式(5)~(9)而来,通过softmax loss+center loss+注意力机制特征+样本质量损失形式进行级联融合,其中,样本类别损失以字典权重的形式传参到Keras框架的class_weight中。
进一步的,所述步骤105中SRNet网络框架的设计和表情识别流程表示如下:
A4、利用ResNet网络的恒等映射方式,将Inception网络中的深度可分离卷积融入其中,实现深度可分离残差卷积层的搭建;
D4、通过n层网络后,在网络末端加入标准3x3的卷积层作为表情特征分类层,输出为Ffer-class,Ffer-class的通道数为表情类别的总数,即每个通道代表一类表情的特征;
E4、将Ffer-class特征输入到通道注意力机制和空间注意力机制中,得到步骤104中的F1和F2特征,并将其融入到EQ-loss;同时,将Ffer-class特征通过Softmax函数得到分类目标的概率值矩阵S,其中S={S1,S2,...,Sc},表情类别总个数为c,通过one-hot编码的最大值求解,得到该输出的最大概率类:
Outb=(max(S,c))one-hot,(b∈g) (11)
其中g为输入图像的数量,求得S概率矩阵中的最大概率值,将该值对应的序列位置用one-hot编码表示;
F4、将Outb与真实标签类别labelb进行比对,如果一样则记录为识别正确;记录对比正确的次数acc_true和对比的总次数acc_total,利用正确次数除总次数,即可得到分类结果的识别率。
将输入x经过两层3x3的DSC后,得到特征矩阵DSC(x),将输入x与DSC(x)做空间的特征恒等映射,得到x->FDSC(x),将DSC(x)与FDSC(x)进行特征融合得到输出然后,再将输入x与做通道间的特征恒等映射,得到输出
进一步的,步骤106中将SRNet网络模型导入到人脸表情识别系统实现人脸表情识别的流程如下:
A5、首先,利用python语言和js框架搭建一个人脸表情识别系统界面,然后在系统界面中创建“加载模型”、“打开摄像头”、“选择图像”和“退出”在内的界面控件;
B5、在控件对应的响应函数中添加相应的方法,使系统能正常运作;
C5、首先选择加载模型选项,然后将保存好的SRNet模型加入其中,然后可以选择打开摄像头进行实时的人脸表情识别,或者选择打开图片选项,加载本地的人脸表情图像;识别人脸表情图像时,显示出人脸框,并对一幅图像的多张人脸进行检测和表情识别;在人脸检测框的上方会显示该人脸对应的最大概率的表情。
本发明的优点及有益效果如下:
本发明主要针对目前主流的基于卷积神经网络的人脸表情识别视觉任务中,训练样本类别数量不平衡、样本质量参差不齐、网络训练收敛速度慢、计算资源占用高和人脸表情纹理特征表达不充分的问题;设计了一种网络结构轻量、融合样本数量、质量均衡损失的人脸表情别方法。均衡损失由三种自定义的损失函数融合而成,分别为:
样本类别损失,根据表情库各类样本数量的差异,定义了一种类别均衡损失函数,并通过sklearn中的class_weight方式,融入网络训练之中,使得网络能根据损失权重的大小给予数量差异的类别样本不同的“关注”。
样本质量损失,由于表情库中样本图像的质量参差不一(存在遮挡、姿态和光照等环境因素),根据人脸表情关键区域(例如:眼睛、嘴角等)进行判定,关键区域完整则为优质表情图像,缺失则为缺损表情图像,通过对每张样本图像进行缺损判定,可以得到整个表情库的缺损因子,将缺损因子通过权值损失的方式融入交叉熵损失中,利用损失函数反向优化网络特征的提取。
多维注意力损失,不同于手工设计的特征,深层网络特征中有更丰富的、多维的局部语义特征信息,利用其特征信息能更好地鉴别出类内与类间的距离;而网络的注意力机制能将这些特征进行加权“筛选”,留下更具鉴别力的特征。因此,设计多维注意力损失函数,将两种注意力机制形成的特征作为损失函数鉴别标签与预测值的度量指标,提高了网络模型分类的准确性。
同时,本发明设计了一个轻量高效的卷积网络来执行均衡损失的效果。利用ResNet网络的恒等映射方法解决深层网络退化问题;利用Inception网络的深度可分离特性实现网络的退耦合;利用1x1卷积、3x3卷积和深度可分离卷积细化网络通道特征、空间特征,并在一定程度是节省了网络参数,达到了轻量的模型效果。
附图说明
图1是常用的几种表情库中每个类的样本数量;
图2是Fer2013表情库中存在挑战的表情图像示例;
图3是使用MTCNN标定正脸与非正脸的示例;
图4是各种损失函数学习到的特征描述示例;
图5是多维注意力损失函数的设计流程示例;
图6是深度可分离残差卷积网络SRNet的框架结构图;
图7是人脸表情识别系统效果展示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
下面结合附图,对本发明实施例中的方法作进一步说明,其中所述与附图仅为本发明的一部分实施例。
如附图1所示,是人脸表情识别常用的训练数据集,不难发现,图中用矩形框标记的类样本数量相对较少。这使得网络学习到该类的特征相对较少,在分类时对于该类特征的聚类就变的模糊,进而降低了分类精准度。本发明利用Keras框架中的sklearn方法,通过自定义的划分样本数量权重的方法,使得每个类别都对应一个权重并形成字典索引,通过sklearn中的class_weight方式,融入网络模型之中,其样本权重划分方式步骤如下:
式中n为表情库的类别数量,i=[1,2,…,n],Samplei/j为第i/j类样本的数量,通过公式(1)的if语句判定,如果第i类的样本数量小于平均样本量,就参与的计算,m为小于平均样本量的类的总数,通过计算少样本类与表情库平均样本之间的差异度,得到权重力度因子并由公式(2)得到每个类的样本权重:
2)、根据公式(3),每个类可以得到对应的权重,可以看出少样本类的log值反而大,多样本类的权重值基本保持不变,为使得样本损失在注意少样本类时保持多样本类的平衡,weighti值小于1的都取1平衡处理:
3)、利用Keras框架中的class_weight权重损失度量函数,将得到的权重值以类别字典的方法融入训练的损失之中。以交叉熵损失为例,其融合公式为:
式中β为超参数因子,yi为标签值,hθ(xi)为预测值,通过对交叉熵损失叠加一个class_weight权重,使得损失值变大,网络对该类的训练收敛时,就会分更多的“精力”,从而达到权重注意的目的。
进一步的,对于人脸表情识别任务来说,除了需要均衡充足的训练样本作为大数据驱动外,还需要优秀的训练图像。附图2所示,如果人脸表情图像的质量不高,存在遮挡、旋转、姿态和模糊等问题,那么将这些质量不高的图像输入到网络中去,网络会学习到许多非表情相关的特征信息。当此模型进行测试时,这部分特征就会干扰网络的正常识别,使得识别精度降低。针对这一问题,本发明自定义了样本质量损失函数(Quality loss),并将其通过网络末端的softmax层融入到交叉熵损失之中,利用损失函数来影响该样本的特征学习:
1)、Quality loss的目标是融入交叉熵损失之中,则常规的交叉熵损失函数可表示为:
其中zi为第i个样本的网络输出,总样本数量为n,则样本的所有输出为Z=[z1,z2,...,zn]。若zi是Z中的最大值,那么通过增大训练参数,使得zi增加足够大的比例,从而足够接近1,那么loss就可以逼近于零,这就是常说的过拟合现象。为了使得分类不因为某一类样本导致过拟合,让网络通过损失去均衡其他类的分布,同时从图像质量方面考虑该样本损失的价值,则可将loss改为:
这样,盲目地增大比例使得接近于最大概率值1,就不再是最优解了,从而可以缓解过拟合的情况,还可以增加测试准确率。式(6)中ε为超参数,γ为样本质量权重,由人脸标定点表情区域的回归所决定,判定依据如附图3所示;
2)、如附图3的图(a)和图(b)所示,一个质量高的正脸表情图像可以用MTCNN标定出五个关键点,若存在姿态、旋转和遮挡等挑战的人脸则无法将五官关键点标定完全。因此,可以通过定义损失函数,使得网络在学习过程中减弱对某类的质量较差的人脸表情图像的学习。由公式(6)可知,在损失中加上了γ权重,实则是减小了损失与零之间的差距,使得网络在训练时不会花更多的“精力”去优化这些图像提取的特征信息,通过这样的方式减弱质量较差的图像对网络的影响。其中,γ可表示为:
γ=1/m·∑length(markfer) (7)
式中length(markfer)表示人脸表情图像质量缺失程度,由附图3的标准进行定义,将样本图像经过MTCNN方法进行人脸标定后,关键点数小于5的都标记为质量缺失的表情图像,总个数为m,markfer为缺失度,缺失一个关键点记为缺失度0.2,两个记为0.4,以此类推,计算出每种缺失度的个数进行求和取平均即为样本的质量权重;
3)、如果该类样本全是高质量表情图像,那么γ为0,否则低质量样本越多,γ值越大,对于公式(6)中的loss影响就越大,从而减小低质量图像对网络的影响。
进一步的,本发明设计了多维注意力损失。通过网络注意力机制产生的特征具有丰富的、关注力强的局部信息,可以将这种特征作为区分类内与类间的鉴别手段;若在网络末端的分类层前添加通道域和空间域注意力机制,将两种注意力机制形成的特征提取出来作为损失函数鉴别标签与预测值的度量指标,可以有效地提升网络模型的分类精度,该损失函数设计如下:
1)、如附图4所示,图中(a)展示了网络模型采用了softmax损失产生的分类效果,图中(b)展示了网络模型使用softmax loss与center loss联合的损失函数产生的分类效果,图中(c)展示了网络模型使用softmax loss与islandloss联合的损失函数产生的分类效果。可利用注意力机制形成的特征+softmax loss+center loss的方式学习特征的描述,使之具有图中(b)和图中(c)的共同优势,既拉近了类内距离又离远了类间距离;
2)、利用注意力机制特征+softmax loss+center loss形成多维注意力损失,其设计流程如图附5所示,将网络末端分类卷积层分别上下两部分操作,得到基于通道域的注意力机制特征1和基于空间域的注意力机制特征2,将两个特征通过中心损失的设计方法融合center loss之中,实现方式由公式(8)得到:
式中c为类中心,xi为另一个样本的特征向量,N为该batch中的样本数量,为超参数,其目的是控制注意力机制特征的影响范围。F1和F2分别为通道域注意力特征1和空间域注意力特征2,Z由公式(5)而来。网络通过对每个batch内的特征进行注意力机制特征+softmax loss+center loss的训练学习,使得网络特征的描述在类内联系更紧,在类间联系更加稀疏,如附图4(c)所示。
进一步的,将上述所提的样本类别损失、样本质量损失和多维注意力损失在基于Keras框架的网络模型中进行级联融合,形成了新的损失函数—融合均衡损失(Equalization loss,EQ-loss),其定义如下:
式中n为一个batchsize的大小,其余参数由上述公式(6)~(8)而来。通过softmaxloss+center loss+注意力机制特征+样本质量损失形式进行级联融合,其中,样本类别损失以字典权重的形式传参到Keras框架的class_weight中。
进一步的,将本发明所提的融合均衡损失EQ-loss融入到本发明构建的一套轻量深层网络框架中,该网络框架利用ResNet网络层的残差特性和Inception网络层的通道退耦合特性,构建深度可分离残差卷积网络框架(Deep Separable ResidualsConvolutional Network,SRNet),框架结构如附图6所示:
1)、首先,在网络输入端设置一个循环增长因子,值为12通道数,然后将图像输入进网络,经过两层3x3的标准卷积层,其通道数变为增长因子的两倍;
2)、其次,将池化后的特征输入本发明构建的残差循环结构中,在循环中,使用了2次深度可分离卷积层作退耦合处理,在循环末端利用残差结构基于1x1的卷积进行通道间的恒等映射,实现特征的融合和通道的级联,并在每次循环结束后使用可分离卷积层和池化层进行特征降采样;
3)、然后,将此循环结构分别执行6次、12次和16次得到特征输出,将最后次循环得到的特征设为在该特征末端加入标准3x3的卷积层作为表情特征分类层,输出为Ffer-class,Ffer-class的通道数为表情类别的总数,即每个通道代表一类表情的特征;
4)、最后,将Ffer-class特征输入到通道注意力机制和空间注意力机制中,得到公式(8)中的F1和F2特征,并将其融入到EQ-loss;同时,将Ffer-class特征通过Softmax函数得到分类目标的概率值矩阵S,其中S={S1,S2,...,Sc},表情类别总个数为c,通过one-hot编码的最大值求解,得到该输出的最大概率类:
Outb=(max(S,c))one-hot,(b∈g)(10)
其中g为输入图像的数量,求得S概率矩阵中的最大概率值,将该值对应的序列位置用one-hot编码表示;
5)、原始输入图像对应的类别标签集合为labelall,其中labelall={l1,l2,...,lg},通过将标签lb(b∈g)与对应的网络输出Outb之间的one-hot编码对比,即可确认预测分类是否正确;记录对比正确的次数acc_true和对比的总次数acc_total,利用正确次数除总次数,即可得到分类结果的识别率。
进一步的,为验证模型的有效性,将在Fer2013表情库上训练好的网络模型植入人脸表情识别系统中,实现基于静态图像和视频的人脸表情识别任务,其效果展示如附图7所示:
1)、主界面主要包含了网络模型选择与加载、开启摄像头实时监测和选择人脸表情图像三个功能。通过选择模型按钮,选择本章所保存的网络模型,网络模型加载完成后,选择开启实时摄像或者打开图片功能,使系统获取人脸表情图像。
2)、首先选择加载模型选项,然后将保存好的模型加入其中;然后可以选择打开摄像头进行实时的人脸表情识别;也可以选择打开图片选项,加载本地的人脸表情图像。识别人脸表情图像时,可以显示出人脸框,并可以对一幅图像的多张人脸进行检测和表情识别,在人脸检测框的上方会显示该人脸对应的最大概率的表情。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (9)
1.一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,包括以下步骤:
101、利用Keras框架中的sklearn库函数进行网络的训练和调参,并通过自定义的划分样本数量权重的方法,使得每个类别都对应一个权重,将类别与权重一一对应,形成字典索引,再调用sklearn函数库中的class_weight方法,将权重字典融入网络模型之中;(①sklearn方法指的是Keras框架中的一种库函数,其数学方法用于深度学习的训练和调参、②class_weight指的是sklearn方法里的一种可调用的函数,用于网络训练中调整损失函数的值;
102、利用表情区域关键点定位的方法,筛选出表情质量好坏的图像样本,以关键点缺失程度定义了一种样本质量损失函数,并将该质量损失函数融入网络末端的softmax层中,通过softmax+损失函数的方式来影响样本的特征学习;
103、基于网络注意力机制设计了多维注意力损失函数,在网络末端的分类层前添加通道域注意力机制和空间域注意力机制,将两种注意力机制形成的特征提取出来作为损失函数鉴别标签与预测值的度量指标;
104、将样本类别损失、样本质量损失和多维注意力损失在基于Keras框架的网络模型中进行级联融合,形成了新的损失函数—融合均衡损失;
105、利用ResNet网络层的残差特性和Inception网络层的通道退耦合特性,构建了一套轻量深层的网络框架——深度可分离残差卷积网络框架SRNet,利用1x1的通道分离卷积和残差结构实现减少网络参数的优化,将步骤104得到的EQ-loss融入SRNet网络末端,实现损失的优化;然后,将得到的特征信息输入特征分类卷积层后,得到网络输出的分类概率,求最大概率值对应的分类结果,得到最终的识别结果;
106、为了验证SRNet网络对人脸表情识别的有效性,将SRNet网络模型导入到自建的人脸表情识别平台中,实现在线和离线的人脸表情识别。
2.根据权利要求1所述的一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,所述步骤101自定义的样本权重划分流程为:
式中n为表情库的类别数量,i=[1,2,…,n],Samplei/j为第i/j类样本的数量,通过公式(1)的if语句判定,如果第i类的样本数量小于平均样本量,就参与的计算,m为小于平均样本量的类的总数,通过计算少样本类与表情库平均样本之间的差异度,得到权重力度因子并由公式(2)得到每个类的样本权重:
B1、根据公式(2),每个类得到对应的权重weighti,可以计算出少样本类的log值反而大,多样本类的log值基本保持不变,为使得样本损失在注意少样本类时保持多样本类的平衡,weighti值小于1的都取1平衡处理:
式(3)中class_weighti表示第i类表情的weighti权重,因此,可以组成长度为n的权重矩阵;
C1、将得到的权重矩阵作为参数,带入到Keras框架中的class_weight权重损失度量函数中,将参数以类别字典的方法融入网络训练的损失之中,当网络损失为交叉熵损失时,融合公式为:
式中β为超参数因子,yi为标签值,hθ(xi)为预测值,通过对交叉熵损失叠加一个class_weight权重,使得损失值变大,网络对该类的训练收敛时,就会分更多的“精力”,从而达到权重注意的目的。
3.根据权利要求2所述的一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,步骤102中自定义样本质量损失函数来影响样本的特征学习,其方法为:
A2、让网络通过损失去均衡其他类的分布,同时从图像质量方面考虑该样本损失的价值,则将loss改为:
式中ε为人为设计的超参数,γ为样本质量权重,由人脸标定点表情区域的回归所决定,zi为第i个样本的网络输出,总样本数量为n,则样本的所有输出为Z=[z1,z2,...,zn];
B2、通过定义损失函数,在损失中加上了γ权重,γ表示为:
γ=1/m·∑length(markfer) (6)
将样本图像经过MTCNN方法进行人脸标定后,关键点数小于5的都标记为质量缺失的表情图像,总个数为m;markfer为缺失度,缺失一个关键点记为缺失度0.2,两个记为0.4,以此类推;length(markfer)表示m个人脸表情图像质量缺失程度的总和,由此计算出的平均质量即为样本的质量权重。
4.根据权利要求3所述的一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,步骤103中在网络末端的分类层前添加通道域和空间域注意力机制的流程表示如下:
A3、利用注意力机制形成的特征+softmax loss+center loss的方式学习特征的描述,使之拉近了类内距离又离远了类间距离,其中center loss的定义如下:
式中c为类中心,xi为另一个样本的特征向量,N为batchsize批处理样本的数量;
B3、先随机初始化,再在每次网络批处理时更新c,其更新方法如公式(8)所示,在每个批样本里计算当前样本与的距离,然后将偏导更新的距离添加到c上:
公式(8)可以看做网络参数权重的更新,类似于BP算法的反向传播过程;
C3、将网络末端分类卷积层分别上下两部分操作,得到基于通道域的注意力机制特征1和基于空间域的注意力机制特征2,将两个特征通过中心损失的设计方法融合center loss之中。
7.根据权利要求5所述的一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,所述步骤105中SRNet网络框架的设计和表情识别流程表示如下:
A4、利用ResNet网络的恒等映射方式,将Inception网络中的深度可分离卷积融入其中,实现深度可分离残差卷积层的搭建;
D4、通过n层网络后,在网络末端加入标准3x3的卷积层作为表情特征分类层,输出为Ffer-class,Ffer-class的通道数为表情类别的总数,即每个通道代表一类表情的特征;
E4、将Ffer-class特征输入到通道注意力机制和空间注意力机制中,得到步骤104中的F1和F2特征,并将其融入到EQ-loss;同时,将Ffer-class特征通过Softmax函数得到分类目标的概率值矩阵S,其中S={S1,S2,...,Sc},表情类别总个数为c,通过one-hot编码的最大值求解,得到该输出的最大概率类:
Outb=(max(S,c))one-hot,(b∈g) (11)
其中g为输入图像的数量,求得S概率矩阵中的最大概率值,将该值对应的序列位置用one-hot编码表示;
F4、将Outb与真实标签类别labelb进行比对,如果一样则记录为识别正确;记录对比正确的次数acc_true和对比的总次数acc_total,利用正确次数除总次数,即可得到分类结果的识别率。
9.根据权利要求7所述的一种融合均衡损失的轻量级网络人脸表情识别方法,其特征在于,步骤106中将SRNet网络模型导入到人脸表情识别系统实现人脸表情识别的流程如下:
A5、首先,利用python语言和js框架搭建一个人脸表情识别系统界面,然后在系统界面中创建“加载模型”、“打开摄像头”、“选择图像”和“退出”在内的界面控件;
B5、在控件对应的响应函数中添加相应的方法,使系统能正常运作;
C5、首先选择加载模型选项,然后将保存好的SRNet模型加入其中,然后可以选择打开摄像头进行实时的人脸表情识别,或者选择打开图片选项,加载本地的人脸表情图像;识别人脸表情图像时,显示出人脸框,并对一幅图像的多张人脸进行检测和表情识别;在人脸检测框的上方会显示该人脸对应的最大概率的表情。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357123.0A CN113128369B (zh) | 2021-04-01 | 2021-04-01 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110357123.0A CN113128369B (zh) | 2021-04-01 | 2021-04-01 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128369A true CN113128369A (zh) | 2021-07-16 |
CN113128369B CN113128369B (zh) | 2022-07-01 |
Family
ID=76774667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110357123.0A Active CN113128369B (zh) | 2021-04-01 | 2021-04-01 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128369B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113456031A (zh) * | 2021-08-09 | 2021-10-01 | 首都医科大学附属北京天坛医院 | 一种脑状态预测模型的训练装置、预测装置及电子设备 |
CN113782190A (zh) * | 2021-09-22 | 2021-12-10 | 河北工业大学 | 基于多级时空特征和混合注意力网络的抑郁症诊断方法 |
CN113887538A (zh) * | 2021-11-30 | 2022-01-04 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
CN114038037A (zh) * | 2021-11-09 | 2022-02-11 | 合肥工业大学 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
CN114092496A (zh) * | 2021-11-30 | 2022-02-25 | 西安邮电大学 | 一种基于空间加权的唇部分割方法及系统 |
CN114220142A (zh) * | 2021-11-24 | 2022-03-22 | 慧之安信息技术股份有限公司 | 一种深度学习算法的人脸特征识别方法 |
CN114648803A (zh) * | 2022-05-20 | 2022-06-21 | 中国科学技术大学 | 自然场景下人脸表情识别方法、系统、设备及存储介质 |
CN114998972A (zh) * | 2022-06-29 | 2022-09-02 | 厦门市美亚柏科信息股份有限公司 | 一种轻量级的人脸过滤方法和系统 |
CN116563909A (zh) * | 2023-03-15 | 2023-08-08 | 包头市易慧信息科技有限公司 | 基于融合注意力机制的视觉语义交互模块的人脸识别方法 |
CN118506110A (zh) * | 2024-07-18 | 2024-08-16 | 天津市农业发展服务中心 | 一种基于深度学习模型的作物识别和分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111950389A (zh) * | 2020-07-22 | 2020-11-17 | 重庆邮电大学 | 一种基于轻量级网络的深度二值特征人脸表情识别方法 |
CN112101241A (zh) * | 2020-09-17 | 2020-12-18 | 西南科技大学 | 一种基于深度学习的轻量级表情识别方法 |
CN112115796A (zh) * | 2020-08-21 | 2020-12-22 | 西北大学 | 一种基于注意力机制的三维卷积微表情识别算法 |
-
2021
- 2021-04-01 CN CN202110357123.0A patent/CN113128369B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
CN111414862A (zh) * | 2020-03-22 | 2020-07-14 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111950389A (zh) * | 2020-07-22 | 2020-11-17 | 重庆邮电大学 | 一种基于轻量级网络的深度二值特征人脸表情识别方法 |
CN112115796A (zh) * | 2020-08-21 | 2020-12-22 | 西北大学 | 一种基于注意力机制的三维卷积微表情识别算法 |
CN112101241A (zh) * | 2020-09-17 | 2020-12-18 | 西南科技大学 | 一种基于深度学习的轻量级表情识别方法 |
Non-Patent Citations (5)
Title |
---|
JIASHU LIAO: ""Attention Selective Network For Face Synthesis And Pose-Invariant Face Recognition"", 《2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
LIFANG ZHOU: ""Improved active shape model for facial feature localization using poem descriptor"", 《2013 INTERNATIONAL CONFERENCE ON WAVELET ANALYSIS AND PATTERN RECOGNITION》 * |
SHAUN ZHENG: ""Face recognition loss function attention mechanism"", 《IEEE ACCESS》 * |
周丽芳: ""一种基于姿态先验的鲁棒的人脸对齐方法"", 《小型微型计算机系统》 * |
周光亮: ""基于融合方法的人脸识别算法研究"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113456031A (zh) * | 2021-08-09 | 2021-10-01 | 首都医科大学附属北京天坛医院 | 一种脑状态预测模型的训练装置、预测装置及电子设备 |
CN113782190B (zh) * | 2021-09-22 | 2023-12-15 | 河北工业大学 | 基于多级时空特征和混合注意力网络的图像处理方法 |
CN113782190A (zh) * | 2021-09-22 | 2021-12-10 | 河北工业大学 | 基于多级时空特征和混合注意力网络的抑郁症诊断方法 |
CN114038037A (zh) * | 2021-11-09 | 2022-02-11 | 合肥工业大学 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
CN114038037B (zh) * | 2021-11-09 | 2024-02-13 | 合肥工业大学 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
CN114220142A (zh) * | 2021-11-24 | 2022-03-22 | 慧之安信息技术股份有限公司 | 一种深度学习算法的人脸特征识别方法 |
CN114220142B (zh) * | 2021-11-24 | 2022-08-23 | 慧之安信息技术股份有限公司 | 一种深度学习算法的人脸特征识别方法 |
CN113887538A (zh) * | 2021-11-30 | 2022-01-04 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
CN114092496A (zh) * | 2021-11-30 | 2022-02-25 | 西安邮电大学 | 一种基于空间加权的唇部分割方法及系统 |
CN114648803A (zh) * | 2022-05-20 | 2022-06-21 | 中国科学技术大学 | 自然场景下人脸表情识别方法、系统、设备及存储介质 |
CN114648803B (zh) * | 2022-05-20 | 2022-09-06 | 中国科学技术大学 | 自然场景下人脸表情识别方法、系统、设备及存储介质 |
CN114998972A (zh) * | 2022-06-29 | 2022-09-02 | 厦门市美亚柏科信息股份有限公司 | 一种轻量级的人脸过滤方法和系统 |
CN116563909A (zh) * | 2023-03-15 | 2023-08-08 | 包头市易慧信息科技有限公司 | 基于融合注意力机制的视觉语义交互模块的人脸识别方法 |
CN118506110A (zh) * | 2024-07-18 | 2024-08-16 | 天津市农业发展服务中心 | 一种基于深度学习模型的作物识别和分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113128369B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128369B (zh) | 一种融合均衡损失的轻量级网络人脸表情识别方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN109344288A (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
Yang et al. | TTL-IQA: Transitive transfer learning based no-reference image quality assessment | |
Wang et al. | Automatic generation of sentimental texts via mixture adversarial networks | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
CN113065520B (zh) | 一种面向多模态数据的遥感图像分类方法 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN113011487B (zh) | 一种基于联合学习与知识迁移的开放集图像分类方法 | |
CN117690178B (zh) | 一种基于计算机视觉的人脸图像识别方法与系统 | |
Gu et al. | Unsupervised and semi-supervised robust spherical space domain adaptation | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN110363830A (zh) | 元素图像生成方法、装置及系统 | |
Liu et al. | Attentive semantic and perceptual faces completion using self-attention generative adversarial networks | |
CN113255701B (zh) | 一种基于绝对-相对学习架构的小样本学习方法和系统 | |
Jin et al. | Pseudo-labeling and meta reweighting learning for image aesthetic quality assessment | |
WO2011096010A1 (ja) | パターン認識装置 | |
Gong et al. | KDCTime: Knowledge distillation with calibration on InceptionTime for time-series classification | |
CN110415261A (zh) | 一种分区域训练的表情动画转换方法及系统 | |
Ni et al. | Composition-guided neural network for image cropping aesthetic assessment | |
CN116824237A (zh) | 一种基于两阶段主动学习的图像识别分类方法 | |
CN112434734A (zh) | 基于动态分类器序列组合的选择性集成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |