CN114038037A - 基于可分离残差注意力网络的表情标签修正和识别方法 - Google Patents

基于可分离残差注意力网络的表情标签修正和识别方法 Download PDF

Info

Publication number
CN114038037A
CN114038037A CN202111318610.2A CN202111318610A CN114038037A CN 114038037 A CN114038037 A CN 114038037A CN 202111318610 A CN202111318610 A CN 202111318610A CN 114038037 A CN114038037 A CN 114038037A
Authority
CN
China
Prior art keywords
attention
expression
module
processing
separable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111318610.2A
Other languages
English (en)
Other versions
CN114038037B (zh
Inventor
师飘
胡敏
任福继
李星达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111318610.2A priority Critical patent/CN114038037B/zh
Publication of CN114038037A publication Critical patent/CN114038037A/zh
Application granted granted Critical
Publication of CN114038037B publication Critical patent/CN114038037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可分离残差注意力网络的表情标签修正和识别方法,其步骤包括:1人脸表情数据的收集和MERC方法的预处理;2建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模块,可分离残差注意力模块DSA以及权重输出模块;3使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正;4结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练。本发明能够对人脸表情数据样本进行干扰去除,对不确定性样本进行标签修正,并解决类别不均衡问题,最后使用深度可分离残差注意模块,在降低网络参数的同时,能提高人脸表情的识别精度。

Description

基于可分离残差注意力网络的表情标签修正和识别方法
技术领域
本发明涉及到卷积神经网络、深度可分离网络、残差网络、注意力模块和最终的人脸情 感计算的分类判别,属于计算机视觉领域,具体的说是一种融合了多种技术的鲁棒的人脸表 情识别方法。
背景技术
根据心理学家A.Mehrabia的研究表明,在人类的日常交流中,通过语言传递的信息仅占 信息总量的7%,而通过人脸表情传递的信息却达到信息总量的55%,因此我们每天都在对 外展示自己的表情,也在接收别人的表情。随着社会的快节奏发展,越来越多的心理疾病出 现,如失眠、焦虑、抑郁症等。无接触的人脸表情分析在日常生活、人机交互、智能服务型 机器人研发等领域,扮演着愈发重要的角色。可以说,“无情感不智能”逐步成为众多研究 者的共识。
传统的人脸表情识别方法可以分为两大类,基于传统的机器学习方法和基于深度学习的 方法。随着大数据时代的到来,数据量之多也同样要求我们对数据的处理效率更高,因此深 度学习的方法成为了主流。深度学习方法主要包含以下三个步骤:
(1)人脸图像的截取。该步骤可以使用Dlib或者MTCNN工具进行人脸68个特征点定位,后根据特征点进行截取,或者将区域进行随机扩充截取。
(2)情感特征的提取。通常使用ResNet和VGG等现有的大型网络架构进行迭代训练, 或者使用GAN的方法进行数据的扩充。网络设计前端或后端,会涉及到一些经典注意力机 制的嵌入,使得网络学习到更加有效的特征。
(3)未知情感的判别。目前较为常用的分类方法是在神经网络的末端加入Softmax层来 对未知样本进行类别概率计算,并最终映射到所属类别。
然而研究表明,常见的人脸68个特征点截取包括人脸的眉毛及以下区域,或者再进行区 域的随机扩展后截取。这并不能很好的去除干扰和保留最大表情区域。对于注意力模型的嵌 入,若在网络前端,则对深层语义特征不能很好的捕获,反义,在网络后端,则对丢失浅层 语义特征。且现有的网络模型层数过多,很容易造成网络的过拟合现象。对于GAN网络的 使用,在不确定性比较高的数据集中,对抗生成的图像样本可能更加的不确定。网络在训练 期间,相关研究很少考虑到样本不同类别的不均衡问题和不确定性标签问题。上述问题会严 重影响网络的学习效果以及对于未知样本的判别。
发明内容
本发明为克服现有技术的不足之处,提出一种基于可分离残差注意力网络的表情标签修 正和识别方法,以期能更加准确地识别出人脸面部表情,降低不确定性标签样本和干扰样本 对网络训练的影响,并提高网络特征提取的准确性,从而显著提高人脸情感识别率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于可分离残差注意力网络的表情标签修正和识别方法的特点是按如下步骤 进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集进行人脸定位并获取每 张图像人脸的p个特征点,其中,第n张人脸图像的第i个特征点记为pi=(xi,yi),xi表示 第i个特征点的横坐标,yi表示第i个特征点的纵坐标,i=1,2,…,p,且第n张人脸图像的 标签为flagn,且flagn∈{1,2,…,k,…,K},其中,K表示标签的种类数,标签为k类的人脸 图像数量记作nk
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC计算第n张人脸图像的p个特 征点的最大外接矩形s′n并进行归一化,得到第n个人脸图像的最大表情区域sn,并作为第n 个表情样本数据,从而得到表情样本数据集S={s1,…,sn,…,sN},N为表情样本总数:
Figure BDA0003344658300000021
式(1)中,xmax表示所有p个特征点横坐标的最大值,xmin表示所有特征点横坐标的最小 值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模 块,可分离残差注意力模块DSA以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激 活函数层DReLU以及二维卷积Conv2D依次构成;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得 到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意 力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块 依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力 单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处 理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单 元中CSE注意模块的输入;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支 路;
通道注意力特征提取支路使用全局平均池化GAP对所述处理结果CSEin进行处理,得到 全局平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最 大池化YGMP对所述处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层 Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意 力权值分别为
Figure BDA0003344658300000031
Figure BDA0003344658300000032
最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout
Figure BDA0003344658300000033
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、 可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理 结果sasResult;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征 处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结 果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经 过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv和全局平均池化 层AavgPool的处理,第n张表情样本数据sn的特征处理结果为fn,最后由激活函数Sigmod 输出第n张表情样本数据sn的重要性权重αn
步骤3、使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正:
步骤3.1、将表情样本数据集S的权重按照
Figure BDA0003344658300000044
比例划分两组,并将较高比例的权重作为高 重要性权重,其对应的表情样本数量记作
Figure BDA0003344658300000041
另一组则作为低重要性权重,其对应的 表情样本数量为N-M;
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL
步骤3.3、利用式(3)得到第n个表情样本数据sn的新标签y′n
Figure BDA0003344658300000042
式(3)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本 数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签 和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失 LCCE对网络进行迭代训练:
步骤4.1、利用式(4)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE
Figure BDA0003344658300000043
式(4)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(5)构建排序正则化损失LRR
LRR=max{0,β2-(αHL)} (5)
式(5)中,β2作为高重要性组和低重要性组之间的超参数;
步骤4.3、利用式(6)构建类别权重损失LCCE
Figure BDA0003344658300000051
式(6)中,αn,k表示第n张表情样本数据sn所属的类别k的权重,且
Figure BDA0003344658300000052
步骤4.4、利用式(7)构建总体损失函数Ltotal
Ltotal=LSCE+LCCE+LRR (7)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸 表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时, 训练停止,从而得到最优的人脸表情特征提取网络,用于对人脸表情图像的类别进行识别。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用最大表情区域截取MERC方法,定位人脸81个特征点,对非人脸表情区 域和非人脸干扰样本进行过滤,最大限度保留了对网络学习有用的图像区域。
2、本发明结合SENet和CBAM注意力模块的优点,设计CSE注意力模块,能够同时关注到通道特征和空间特征。由于CSE是一个轻量级的通用模块,可以无缝集成到任何CNN 架构的不同位置,并能够获取浅层语义特征和深层语义特征,最终有助于重要信息的提取。
3、本发明改进原始的网络模块“Conv-BN-ReLU”处理次序,将权重层置后,即 “BN-DReLU-Conv”,这种组合方式比原始组合次序更容易训练和泛化,且DReLU相比ReLU, 可根据输入数值的不同,提供一种动态的激活映射,进而显著增强网络的表征能力。
4、本发明结合ResNet和Xception网络的优点,并融合新颖的CSE注意力模块,设计深 度可分离残差注意力模块DSA,降低了网络参数的同时,提高了网络对有用特征的提取效果, 并解决了深层网络学习过程中梯度易消失的问题。
5、本发明对训练数据中出现的表情标签不确定问题,提出基于自注意力权重的标签修正 LA模块,对不确定性标记的样本标签进行修正,使得网络学习到正确的类别特征。
6、本发明提出类别权重交叉熵损失(CCE-Loss),并结合排序正则化损失(RR-Loss) 和自注意力权重交叉熵损失(SCE-Loss)对网络进行迭代训练,指导网络进行训练的同时, 有效解决了数据中出现的表情类别不均衡问题,并缓和了训练的过拟合现象。
7、本发明能够实现端到端的训练和测试,与传统的情绪识别技术相比,端到端的结构能 够同时实现情感相关特征的提取和分类,不需要手工设计复杂的情绪相关特征,通过训练使 网络具有特征的选择和提取能力。
附图说明
图1为本发明方法整体的流程图;
图2为本发明中人脸的68个和81个特征点区域的对比图;
图3为本发明MERC方法的具体步骤图;
图4为本发明可分离残差注意力的人脸表情特征提取网络DSA-CNN;
图5为本发明CSE注意力模块结构图;
图6为本发明自注意力权重的标签修正模块LA结构图;
图7为本发明68个和81个特征点所获人脸表情区域的emoji表情检测对比图;
图8是本发明emoji表情可视化结果图。
具体实施方式
本实施例中,一种基于可分离残差注意力网络的表情标签修正和识别方法,如图1所示, 整体包含三大步骤,预处理后特征提取,最后是标签修正;具体步骤包括:首先收集人脸表 情数据并使用MERC方法进行预处理,如图3所示;然后建立基于可分离残差注意力的人脸 表情特征提取网络,如图4所示,依次包括:浅层网络模块,可分离残差注意力模块DSA, 如图5所示,以及权重输出模块;接着使用标签修正模块LA,如图6所示,对较低权重的不 确定性表情样本标签进行修正;最后结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练。具体说,是按如下步骤进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
本实例中,使用的是实验室数据集CK+,以及野外真实环境数据集FER2013和RAF-DB, 研究包含两大类数据,也是为了更充分全面地验证本发明;
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集CK+、FER2013和RAF-DB进行人脸定位并获取每张图像人脸的p个特征点,其中,第n张人脸图像的第i个 特征点记为pi=(xi,yi),xi表示第i个特征点的横坐标,yi表示第i个特征点的纵坐标, i=1,2,…,p,且第n张人脸图像的标签为flagn,且flagn∈{1,2,…,k,…,K},其中K表示标 签的种类数,标签为k类的人脸图像数量记作nk;本实例中,标签种类数K=7,代表Angry 生气、Disgust厌恶、Fear害怕、Happy开心、Sad伤心、Surprise惊讶、Neutral中性;p=81, 相比于传统方法的68个人脸表情特征点,如图2所示,拓展的81个特征点包含了眉毛以上 的额头区域,这部分的纹理对于表情的判别同样重要;
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC,如图3所示,可以最大限度 保留有用表情区域,并去除非人脸干扰,进而为网络训练提供有用的训练样本;计算第n张 人脸图像的p个特征点的最大外接矩形s′n并进行归一化尺寸为48*48,得到第n个人脸图像 的最大表情区域sn,并作为第n个表情样本数据,从而得到表情样本数据集 S={s1,…,sn,…,sN},N为表情样本总数:
Figure BDA0003344658300000071
式(1)中,xmax表示所有p=81个特征点横坐标的最大值,xmin表示所有特征点横坐标的最 小值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,提取人脸表情图像特征, 获得图像重要性权重,如图4所示,依次包括:浅层网络模块,可分离残差注意力模块DSA 以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激 活函数层DReLU以及二维卷积Conv2D依次构成,本实例中,q=2,卷积核为3,步长为1,且改进网络模块“Conv-BN-ReLU”,将权重层置后,即“BN-DReLU-Conv”,这种组合方式 比原始的方式更容易训练和泛化;且DReLU相比ReLU,可根据输入数值的不同,提供一种 动态的激活映射;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得 到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意 力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路,本 实例中,c=6,随着残差注意力模块的堆叠,网络可以获取底层语义特征和高层语义特征;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块 依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力 单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处 理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单 元中CSE注意模块的输入,本实例中,可分离卷积SepConv操作中,先经过核为3,步长为 1,填充为1的深度卷积,然后经过一个核为1,步长也为1的点卷积操作,可分离卷积相比与传统的Conv2D卷积,可以极大降低网络参数量;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支 路,如图5所示,通道注意力权值和空间上两个方向的注意力权值,均作用到原始数据上。 且通道和空间特征并行处理,这充分增强了网络对重要性目标的特征提取效果,也提高网络 的拟合能力和最终的判别效果;
通道注意力特征提取支路使用全局平均池化GAP对处理结果CSEin进行处理,得到全局 平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最 大池化YGMP对处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层 Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意 力权值分别为
Figure BDA0003344658300000081
Figure BDA0003344658300000082
最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout:
Figure BDA0003344658300000083
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、 可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理 结果sasResult;本步骤中,Conv1核Conv2的核均为1步长也为1;可分离卷积SepConv操 作中,先经过核为3,步长为1,填充为1的深度卷积,然后经过一个核为1,步长也为1的点卷积操作;MaxPool最大池化操作的核为3,步长为1,填充为1;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征 处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1,步长也为1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结 果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经 过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv,卷积核为3, 步长为1,填充为1,和全局平均池化层AavgPool的处理,第n张表情样本数据sn的特征处 理结果为fn,最后由激活函数Sigmod输出第n张表情样本数据sn的重要性权重αn
步骤3、使用标签修正模块LA,如图6所示,对较低权重的不确定性表情样本标签进行修正:
步骤3.1、将表情样本数据集S的权重按照
Figure BDA0003344658300000091
比例划分两组,并将较高比例的权重作 为高重要性权重,其对应的表情样本数量记作
Figure BDA0003344658300000092
另一组则作为低重要性权重,其对 应的表情样本数量为N-M;
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL;具体计算公式如式(3)所示:
Figure BDA0003344658300000093
步骤3.3、基于经验发现,低重要性权重的样本标签通常具有很高的不确定性,对于这些 低重要性样本的标签进行修正,利用式(4)得到第n个表情样本数据sn的新标签y′n
Figure BDA0003344658300000094
式(4)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本 数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签 和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失 LCCE对网络进行迭代训练:
步骤4.1、利用式(5)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE
Figure BDA0003344658300000095
式(5)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(6)构建排序正则化损失LRR
LRR=max{0,β2-(αHL)} (6)
式(6)中,β2作为高重要性组和低重要性组之间的超参数,经验设置为0.15;
步骤4.3、利用式(7)构建类别权重损失LCCE
Figure BDA0003344658300000101
式(7)中,αn,k表示第n张表情样本sn所属的类别k的权重,且
Figure BDA0003344658300000102
步骤4.4、利用式(8)构建总体损失函数Ltotal
Ltotal=LSCE+LCCE+LRR (8)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸 表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时, 本实例中采用Adam优化器,迭代训练300次,训练停止,从而得到最优的人脸表情特征提 取网络,用于对人脸表情图像的类别进行识别。
为进一步验证本发明的有效性,对测试样本进行分类判别和emoji表情输出,如图7所 示,验证人脸68个特征点获得的图像和81个特征点图像检测的可视化对比结果,第一行使 用81特征点的MERC方法,输入网络后成功输出了真实标签对应的emoji表情,“Surprise 惊讶”。而第二行是截去了眉毛之上的区域,使用68特征点获取的人脸图像输入到表情识别 的网络中,得到错误标签的表情结果为“Fear害怕”。这验证了本发明MERC方法的有效性; 进一步,对模糊图像,使用本发明进行验证,如图8所示,同样输出了真实标签所对应的emoji 表情,“Happy开心”和“Disgust厌恶”,这验证了本发明方法的鲁棒性。
综上所述,本发明能够对人脸表情数据样本进行干扰去除,对不确定性样本进行标签修 正,并解决了类别不均衡问题,最后使用深度可分离残差注意模块,降低了网络参数的同时, 提高了人脸表情的识别精度。本发明能够对实验数据样本进行干扰去除,并对不确定性样本 进行标签修正,最后使用深度可分离残差注意模块,降低了网络参数的同时,提高了网络训 练的效果以及最终的识别精度。

Claims (1)

1.一种基于可分离残差注意力网络的表情标签修正和识别方法,其特征是按如下步骤进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集进行人脸定位并获取每张图像人脸的p个特征点,其中,第n张人脸图像的第i个特征点记为pi=(xi,yi),xi表示第i个特征点的横坐标,yi表示第i个特征点的纵坐标,i=1,2,…,p,且第n张人脸图像的标签为flagn,且flagn∈{1,2,…,k,…,K},其中,K表示标签的种类数,标签为k类的人脸图像数量记作nk
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC计算第n张人脸图像的p个特征点的最大外接矩形s′n并进行归一化,得到第n个人脸图像的最大表情区域sn,并作为第n个表情样本数据,从而得到表情样本数据集S={s1,…,sn,…,sN},N为表情样本总数:
Figure FDA0003344658290000011
式(1)中,xmax表示所有p个特征点横坐标的最大值,xmin表示所有特征点横坐标的最小值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模块,可分离残差注意力模块DSA以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激活函数层DReLU以及二维卷积Conv2D依次构成;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单元中CSE注意模块的输入;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支路;
通道注意力特征提取支路使用全局平均池化GAP对所述处理结果CSEin进行处理,得到全局平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最大池化YGMP对所述处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意力权值分别为
Figure FDA0003344658290000021
Figure FDA0003344658290000022
最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout
Figure FDA0003344658290000023
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理结果sasResult;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层BN的处理和卷积核为1×1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv和全局平均池化层AavgPool的处理,第n张表情样本数据sn的特征处理结果为fn,最后由激活函数Sigmod输出第n张表情样本数据sn的重要性权重αn
步骤3、使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正:
步骤3.1、将表情样本数据集S的权重按照
Figure FDA0003344658290000024
比例划分两组,并将较高比例的权重作为高重要性权重,其对应的表情样本数量记作
Figure FDA0003344658290000031
另一组则作为低重要性权重,其对应的表情样本数量为N-M;
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL
步骤3.3、利用式(3)得到第n个表情样本数据sn的新标签y′n
Figure FDA0003344658290000032
式(3)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练:
步骤4.1、利用式(4)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE
Figure FDA0003344658290000033
式(4)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(5)构建排序正则化损失LRR
LRR=max{0,β2-(αHL)} (5)
式(5)中,β2作为高重要性组和低重要性组之间的超参数;
步骤4.3、利用式(6)构建类别权重损失LCCE
Figure FDA0003344658290000034
式(6)中,αn,k表示第n张表情样本数据sn所属的类别k的权重,且
Figure FDA0003344658290000041
步骤4.4、利用式(7)构建总体损失函数Ltotal
Ltotal=LSCE+LCCE+LRR (7)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时,训练停止,从而得到最优的人脸表情特征提取网络,用于对人脸表情图像的类别进行识别。
CN202111318610.2A 2021-11-09 2021-11-09 基于可分离残差注意力网络的表情标签修正和识别方法 Active CN114038037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111318610.2A CN114038037B (zh) 2021-11-09 2021-11-09 基于可分离残差注意力网络的表情标签修正和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111318610.2A CN114038037B (zh) 2021-11-09 2021-11-09 基于可分离残差注意力网络的表情标签修正和识别方法

Publications (2)

Publication Number Publication Date
CN114038037A true CN114038037A (zh) 2022-02-11
CN114038037B CN114038037B (zh) 2024-02-13

Family

ID=80143509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111318610.2A Active CN114038037B (zh) 2021-11-09 2021-11-09 基于可分离残差注意力网络的表情标签修正和识别方法

Country Status (1)

Country Link
CN (1) CN114038037B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912919A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种图像识别模型的训练方法及装置
CN117391746A (zh) * 2023-10-25 2024-01-12 上海瀚泰智能科技有限公司 一种基于置信网络的智慧酒店顾客感知分析方法和系统
CN117542105A (zh) * 2024-01-09 2024-02-09 江西师范大学 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN117689998A (zh) * 2024-01-31 2024-03-12 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
US20200372246A1 (en) * 2019-05-21 2020-11-26 Magic Leap, Inc. Hand pose estimation
CN112801040A (zh) * 2021-03-08 2021-05-14 重庆邮电大学 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统
CN113128369A (zh) * 2021-04-01 2021-07-16 重庆邮电大学 一种融合均衡损失的轻量级网络人脸表情识别方法
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372246A1 (en) * 2019-05-21 2020-11-26 Magic Leap, Inc. Hand pose estimation
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN112801040A (zh) * 2021-03-08 2021-05-14 重庆邮电大学 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统
CN113128369A (zh) * 2021-04-01 2021-07-16 重庆邮电大学 一种融合均衡损失的轻量级网络人脸表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
亢洁;李思禹;: "基于注意力机制的卷积神经网络人脸表情识别", 陕西科技大学学报, no. 04, 28 July 2020 (2020-07-28) *
高健;林志贤;郭太良;: "基于混合注意力机制的表情识别研究", 信息技术与网络安全, no. 01, 10 January 2020 (2020-01-10) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912919A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 一种图像识别模型的训练方法及装置
CN116912919B (zh) * 2023-09-12 2024-03-15 深圳须弥云图空间科技有限公司 一种图像识别模型的训练方法及装置
CN117391746A (zh) * 2023-10-25 2024-01-12 上海瀚泰智能科技有限公司 一种基于置信网络的智慧酒店顾客感知分析方法和系统
CN117542105A (zh) * 2024-01-09 2024-02-09 江西师范大学 一种课堂教学下低分辨率图像的人脸超分与表情识别方法
CN117689998A (zh) * 2024-01-31 2024-03-12 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质
CN117689998B (zh) * 2024-01-31 2024-05-03 数据空间研究院 非参数自适应的情绪识别模型、方法、系统和存储介质

Also Published As

Publication number Publication date
CN114038037B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN114038037A (zh) 基于可分离残差注意力网络的表情标签修正和识别方法
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN109815785A (zh) 一种基于双流卷积神经网络的人脸情绪识别方法
CN107506722A (zh) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN104361313B (zh) 一种基于多核学习异构特征融合的手势识别方法
CN111523462A (zh) 基于自注意增强cnn的视频序列表情识别系统及方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN112052772A (zh) 一种人脸遮挡检测算法
CN111666845A (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN110929762A (zh) 一种基于深度学习的肢体语言检测与行为分析方法及系统
CN112651301A (zh) 一种整合人脸全局和局部特征的表情识别方法
CN112364705A (zh) 基于多层次特征融合的轻量型cnn的表情识别方法
CN114625908A (zh) 基于多通道注意力机制的文本表情包情感分析方法及系统
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
CN110334584A (zh) 一种基于区域全卷积网络的手势识别方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN116311472B (zh) 基于多层次图卷积网络的微表情识别方法及装置
CN112419332A (zh) 一种面向厚层mri影像的头骨剥离方法及装置
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant