CN114038037A - 基于可分离残差注意力网络的表情标签修正和识别方法 - Google Patents
基于可分离残差注意力网络的表情标签修正和识别方法 Download PDFInfo
- Publication number
- CN114038037A CN114038037A CN202111318610.2A CN202111318610A CN114038037A CN 114038037 A CN114038037 A CN 114038037A CN 202111318610 A CN202111318610 A CN 202111318610A CN 114038037 A CN114038037 A CN 114038037A
- Authority
- CN
- China
- Prior art keywords
- attention
- expression
- module
- processing
- separable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 title claims abstract description 12
- 230000008921 facial expression Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 81
- 238000011176 pooling Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004580 weight loss Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000004709 eyebrow Anatomy 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可分离残差注意力网络的表情标签修正和识别方法,其步骤包括:1人脸表情数据的收集和MERC方法的预处理;2建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模块,可分离残差注意力模块DSA以及权重输出模块;3使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正;4结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练。本发明能够对人脸表情数据样本进行干扰去除,对不确定性样本进行标签修正,并解决类别不均衡问题,最后使用深度可分离残差注意模块,在降低网络参数的同时,能提高人脸表情的识别精度。
Description
技术领域
本发明涉及到卷积神经网络、深度可分离网络、残差网络、注意力模块和最终的人脸情 感计算的分类判别,属于计算机视觉领域,具体的说是一种融合了多种技术的鲁棒的人脸表 情识别方法。
背景技术
根据心理学家A.Mehrabia的研究表明,在人类的日常交流中,通过语言传递的信息仅占 信息总量的7%,而通过人脸表情传递的信息却达到信息总量的55%,因此我们每天都在对 外展示自己的表情,也在接收别人的表情。随着社会的快节奏发展,越来越多的心理疾病出 现,如失眠、焦虑、抑郁症等。无接触的人脸表情分析在日常生活、人机交互、智能服务型 机器人研发等领域,扮演着愈发重要的角色。可以说,“无情感不智能”逐步成为众多研究 者的共识。
传统的人脸表情识别方法可以分为两大类,基于传统的机器学习方法和基于深度学习的 方法。随着大数据时代的到来,数据量之多也同样要求我们对数据的处理效率更高,因此深 度学习的方法成为了主流。深度学习方法主要包含以下三个步骤:
(1)人脸图像的截取。该步骤可以使用Dlib或者MTCNN工具进行人脸68个特征点定位,后根据特征点进行截取,或者将区域进行随机扩充截取。
(2)情感特征的提取。通常使用ResNet和VGG等现有的大型网络架构进行迭代训练, 或者使用GAN的方法进行数据的扩充。网络设计前端或后端,会涉及到一些经典注意力机 制的嵌入,使得网络学习到更加有效的特征。
(3)未知情感的判别。目前较为常用的分类方法是在神经网络的末端加入Softmax层来 对未知样本进行类别概率计算,并最终映射到所属类别。
然而研究表明,常见的人脸68个特征点截取包括人脸的眉毛及以下区域,或者再进行区 域的随机扩展后截取。这并不能很好的去除干扰和保留最大表情区域。对于注意力模型的嵌 入,若在网络前端,则对深层语义特征不能很好的捕获,反义,在网络后端,则对丢失浅层 语义特征。且现有的网络模型层数过多,很容易造成网络的过拟合现象。对于GAN网络的 使用,在不确定性比较高的数据集中,对抗生成的图像样本可能更加的不确定。网络在训练 期间,相关研究很少考虑到样本不同类别的不均衡问题和不确定性标签问题。上述问题会严 重影响网络的学习效果以及对于未知样本的判别。
发明内容
本发明为克服现有技术的不足之处,提出一种基于可分离残差注意力网络的表情标签修 正和识别方法,以期能更加准确地识别出人脸面部表情,降低不确定性标签样本和干扰样本 对网络训练的影响,并提高网络特征提取的准确性,从而显著提高人脸情感识别率。
本发明为解决技术问题采用如下技术方案:
本发明一种基于可分离残差注意力网络的表情标签修正和识别方法的特点是按如下步骤 进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集进行人脸定位并获取每 张图像人脸的p个特征点,其中,第n张人脸图像的第i个特征点记为pi=(xi,yi),xi表示 第i个特征点的横坐标,yi表示第i个特征点的纵坐标,i=1,2,…,p,且第n张人脸图像的 标签为flagn,且flagn∈{1,2,…,k,…,K},其中,K表示标签的种类数,标签为k类的人脸 图像数量记作nk;
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC计算第n张人脸图像的p个特 征点的最大外接矩形s′n并进行归一化,得到第n个人脸图像的最大表情区域sn,并作为第n 个表情样本数据,从而得到表情样本数据集S={s1,…,sn,…,sN},N为表情样本总数:
式(1)中,xmax表示所有p个特征点横坐标的最大值,xmin表示所有特征点横坐标的最小 值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模 块,可分离残差注意力模块DSA以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激 活函数层DReLU以及二维卷积Conv2D依次构成;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得 到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意 力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块 依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力 单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处 理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单 元中CSE注意模块的输入;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支 路;
通道注意力特征提取支路使用全局平均池化GAP对所述处理结果CSEin进行处理,得到 全局平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最 大池化YGMP对所述处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层 Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意 力权值分别为和最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout:
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、 可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理 结果sasResult;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征 处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结 果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经 过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv和全局平均池化 层AavgPool的处理,第n张表情样本数据sn的特征处理结果为fn,最后由激活函数Sigmod 输出第n张表情样本数据sn的重要性权重αn;
步骤3、使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正:
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL;
步骤3.3、利用式(3)得到第n个表情样本数据sn的新标签y′n:
式(3)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本 数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签 和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失 LCCE对网络进行迭代训练:
步骤4.1、利用式(4)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE:
式(4)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(5)构建排序正则化损失LRR:
LRR=max{0,β2-(αH-αL)} (5)
式(5)中,β2作为高重要性组和低重要性组之间的超参数;
步骤4.3、利用式(6)构建类别权重损失LCCE:
步骤4.4、利用式(7)构建总体损失函数Ltotal:
Ltotal=LSCE+LCCE+LRR (7)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸 表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时, 训练停止,从而得到最优的人脸表情特征提取网络,用于对人脸表情图像的类别进行识别。
与已有技术相比,本发明的有益效果体现在:
1、本发明利用最大表情区域截取MERC方法,定位人脸81个特征点,对非人脸表情区 域和非人脸干扰样本进行过滤,最大限度保留了对网络学习有用的图像区域。
2、本发明结合SENet和CBAM注意力模块的优点,设计CSE注意力模块,能够同时关注到通道特征和空间特征。由于CSE是一个轻量级的通用模块,可以无缝集成到任何CNN 架构的不同位置,并能够获取浅层语义特征和深层语义特征,最终有助于重要信息的提取。
3、本发明改进原始的网络模块“Conv-BN-ReLU”处理次序,将权重层置后,即 “BN-DReLU-Conv”,这种组合方式比原始组合次序更容易训练和泛化,且DReLU相比ReLU, 可根据输入数值的不同,提供一种动态的激活映射,进而显著增强网络的表征能力。
4、本发明结合ResNet和Xception网络的优点,并融合新颖的CSE注意力模块,设计深 度可分离残差注意力模块DSA,降低了网络参数的同时,提高了网络对有用特征的提取效果, 并解决了深层网络学习过程中梯度易消失的问题。
5、本发明对训练数据中出现的表情标签不确定问题,提出基于自注意力权重的标签修正 LA模块,对不确定性标记的样本标签进行修正,使得网络学习到正确的类别特征。
6、本发明提出类别权重交叉熵损失(CCE-Loss),并结合排序正则化损失(RR-Loss) 和自注意力权重交叉熵损失(SCE-Loss)对网络进行迭代训练,指导网络进行训练的同时, 有效解决了数据中出现的表情类别不均衡问题,并缓和了训练的过拟合现象。
7、本发明能够实现端到端的训练和测试,与传统的情绪识别技术相比,端到端的结构能 够同时实现情感相关特征的提取和分类,不需要手工设计复杂的情绪相关特征,通过训练使 网络具有特征的选择和提取能力。
附图说明
图1为本发明方法整体的流程图;
图2为本发明中人脸的68个和81个特征点区域的对比图;
图3为本发明MERC方法的具体步骤图;
图4为本发明可分离残差注意力的人脸表情特征提取网络DSA-CNN;
图5为本发明CSE注意力模块结构图;
图6为本发明自注意力权重的标签修正模块LA结构图;
图7为本发明68个和81个特征点所获人脸表情区域的emoji表情检测对比图;
图8是本发明emoji表情可视化结果图。
具体实施方式
本实施例中,一种基于可分离残差注意力网络的表情标签修正和识别方法,如图1所示, 整体包含三大步骤,预处理后特征提取,最后是标签修正;具体步骤包括:首先收集人脸表 情数据并使用MERC方法进行预处理,如图3所示;然后建立基于可分离残差注意力的人脸 表情特征提取网络,如图4所示,依次包括:浅层网络模块,可分离残差注意力模块DSA, 如图5所示,以及权重输出模块;接着使用标签修正模块LA,如图6所示,对较低权重的不 确定性表情样本标签进行修正;最后结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练。具体说,是按如下步骤进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
本实例中,使用的是实验室数据集CK+,以及野外真实环境数据集FER2013和RAF-DB, 研究包含两大类数据,也是为了更充分全面地验证本发明;
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集CK+、FER2013和RAF-DB进行人脸定位并获取每张图像人脸的p个特征点,其中,第n张人脸图像的第i个 特征点记为pi=(xi,yi),xi表示第i个特征点的横坐标,yi表示第i个特征点的纵坐标, i=1,2,…,p,且第n张人脸图像的标签为flagn,且flagn∈{1,2,…,k,…,K},其中K表示标 签的种类数,标签为k类的人脸图像数量记作nk;本实例中,标签种类数K=7,代表Angry 生气、Disgust厌恶、Fear害怕、Happy开心、Sad伤心、Surprise惊讶、Neutral中性;p=81, 相比于传统方法的68个人脸表情特征点,如图2所示,拓展的81个特征点包含了眉毛以上 的额头区域,这部分的纹理对于表情的判别同样重要;
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC,如图3所示,可以最大限度 保留有用表情区域,并去除非人脸干扰,进而为网络训练提供有用的训练样本;计算第n张 人脸图像的p个特征点的最大外接矩形s′n并进行归一化尺寸为48*48,得到第n个人脸图像 的最大表情区域sn,并作为第n个表情样本数据,从而得到表情样本数据集 S={s1,…,sn,…,sN},N为表情样本总数:
式(1)中,xmax表示所有p=81个特征点横坐标的最大值,xmin表示所有特征点横坐标的最 小值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,提取人脸表情图像特征, 获得图像重要性权重,如图4所示,依次包括:浅层网络模块,可分离残差注意力模块DSA 以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激 活函数层DReLU以及二维卷积Conv2D依次构成,本实例中,q=2,卷积核为3,步长为1,且改进网络模块“Conv-BN-ReLU”,将权重层置后,即“BN-DReLU-Conv”,这种组合方式 比原始的方式更容易训练和泛化;且DReLU相比ReLU,可根据输入数值的不同,提供一种 动态的激活映射;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得 到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意 力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路,本 实例中,c=6,随着残差注意力模块的堆叠,网络可以获取底层语义特征和高层语义特征;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块 依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力 单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处 理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单 元中CSE注意模块的输入,本实例中,可分离卷积SepConv操作中,先经过核为3,步长为 1,填充为1的深度卷积,然后经过一个核为1,步长也为1的点卷积操作,可分离卷积相比与传统的Conv2D卷积,可以极大降低网络参数量;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支 路,如图5所示,通道注意力权值和空间上两个方向的注意力权值,均作用到原始数据上。 且通道和空间特征并行处理,这充分增强了网络对重要性目标的特征提取效果,也提高网络 的拟合能力和最终的判别效果;
通道注意力特征提取支路使用全局平均池化GAP对处理结果CSEin进行处理,得到全局 平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最 大池化YGMP对处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层 Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意 力权值分别为和最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout:
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、 可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理 结果sasResult;本步骤中,Conv1核Conv2的核均为1步长也为1;可分离卷积SepConv操 作中,先经过核为3,步长为1,填充为1的深度卷积,然后经过一个核为1,步长也为1的点卷积操作;MaxPool最大池化操作的核为3,步长为1,填充为1;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征 处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层 BN的处理和卷积核为1×1,步长也为1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结 果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经 过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv,卷积核为3, 步长为1,填充为1,和全局平均池化层AavgPool的处理,第n张表情样本数据sn的特征处 理结果为fn,最后由激活函数Sigmod输出第n张表情样本数据sn的重要性权重αn;
步骤3、使用标签修正模块LA,如图6所示,对较低权重的不确定性表情样本标签进行修正:
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL;具体计算公式如式(3)所示:
步骤3.3、基于经验发现,低重要性权重的样本标签通常具有很高的不确定性,对于这些 低重要性样本的标签进行修正,利用式(4)得到第n个表情样本数据sn的新标签y′n:
式(4)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本 数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签 和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失 LCCE对网络进行迭代训练:
步骤4.1、利用式(5)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE:
式(5)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(6)构建排序正则化损失LRR:
LRR=max{0,β2-(αH-αL)} (6)
式(6)中,β2作为高重要性组和低重要性组之间的超参数,经验设置为0.15;
步骤4.3、利用式(7)构建类别权重损失LCCE:
步骤4.4、利用式(8)构建总体损失函数Ltotal:
Ltotal=LSCE+LCCE+LRR (8)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸 表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时, 本实例中采用Adam优化器,迭代训练300次,训练停止,从而得到最优的人脸表情特征提 取网络,用于对人脸表情图像的类别进行识别。
为进一步验证本发明的有效性,对测试样本进行分类判别和emoji表情输出,如图7所 示,验证人脸68个特征点获得的图像和81个特征点图像检测的可视化对比结果,第一行使 用81特征点的MERC方法,输入网络后成功输出了真实标签对应的emoji表情,“Surprise 惊讶”。而第二行是截去了眉毛之上的区域,使用68特征点获取的人脸图像输入到表情识别 的网络中,得到错误标签的表情结果为“Fear害怕”。这验证了本发明MERC方法的有效性; 进一步,对模糊图像,使用本发明进行验证,如图8所示,同样输出了真实标签所对应的emoji 表情,“Happy开心”和“Disgust厌恶”,这验证了本发明方法的鲁棒性。
综上所述,本发明能够对人脸表情数据样本进行干扰去除,对不确定性样本进行标签修 正,并解决了类别不均衡问题,最后使用深度可分离残差注意模块,降低了网络参数的同时, 提高了人脸表情的识别精度。本发明能够对实验数据样本进行干扰去除,并对不确定性样本 进行标签修正,最后使用深度可分离残差注意模块,降低了网络参数的同时,提高了网络训 练的效果以及最终的识别精度。
Claims (1)
1.一种基于可分离残差注意力网络的表情标签修正和识别方法,其特征是按如下步骤进行:
步骤1、人脸表情数据的收集和MERC方法的预处理:
步骤1.1、使用拓展的Dlib-DNN工具包对获取的人脸表情数据集进行人脸定位并获取每张图像人脸的p个特征点,其中,第n张人脸图像的第i个特征点记为pi=(xi,yi),xi表示第i个特征点的横坐标,yi表示第i个特征点的纵坐标,i=1,2,…,p,且第n张人脸图像的标签为flagn,且flagn∈{1,2,…,k,…,K},其中,K表示标签的种类数,标签为k类的人脸图像数量记作nk;
步骤1.2、利用式(1)所示的最大表情区域截取方法MERC计算第n张人脸图像的p个特征点的最大外接矩形s′n并进行归一化,得到第n个人脸图像的最大表情区域sn,并作为第n个表情样本数据,从而得到表情样本数据集S={s1,…,sn,…,sN},N为表情样本总数:
式(1)中,xmax表示所有p个特征点横坐标的最大值,xmin表示所有特征点横坐标的最小值;ymax表示所有特征点纵坐标的最大值,ymin表示所有特征点纵坐标的最小值;
步骤2、建立基于可分离残差注意力的人脸表情特征提取网络,依次包括:浅层网络模块,可分离残差注意力模块DSA以及权重输出模块:
步骤2.1、所述浅层网络模块由q个浅层单元构成,每个浅层单元是由归一化层BN、激活函数层DReLU以及二维卷积Conv2D依次构成;
将所述表情区域数据集S输入浅层网络模块中,并依次经过q个浅层单元的处理后,得到浅层网络模块特征处理结果supResult;
步骤2.2、所述可分离残差注意力模块DSA由c个残差注意力单元构成,每个残差注意力单元包括三条并行支路:可分离注意力支路、残差支路以及卷积核为1×1的卷积支路;
步骤2.2.1、所述可分离注意力支路由可分离卷积、CSE注意力模块以及可分离卷积模块依次构成;
所述特征处理结果supResult输入到第1个残差注意力单元中,并经过第1个残差注意力单元的可分离注意力支路的处理,依次包括:归一化层BN的处理,激活函数层DReLU的处理最后是可分离卷积层SepConv的处理后,输出处理结果CSEin并作为第1个残差注意力单元中CSE注意模块的输入;
所述CSE注意力模块包含:通道注意力特征提取支路和两个垂直方向的空间特征提取支路;
通道注意力特征提取支路使用全局平均池化GAP对所述处理结果CSEin进行处理,得到全局平均池化结果;
两个垂直方向空间特征提取支路分别使用X方向全局最大池化XGMP和Y方向全局最大池化YGMP对所述处理结果CSEin进行处理,相应得到X方向池化结果和Y方向池化结果;
三个池化结果分别依次通过各自支路中的卷积层Conv1、激活函数层DReLU、卷积层Conv2以及激活函数Sigmoid后,相应得到通道注意力权值achannel,两个空间垂直方向的注意力权值分别为和最终利用式(2)得到注意力模块CSE的注意力输出结果CSEout:
所述注意力输出结果CSEout再经过可分离卷积模块的处理,包括:归一化层BN的处理、可分离卷积层SepConv、MaxPool最大池化层的处理后,得到可分离注意力支路的特征处理结果sasResult;
步骤2.2.2、所述残差支路对特征处理结果supResult进行直接跳跃输出处理,并得到特征处理结果resResult;
步骤2.2.3、所述卷积核为1×1的卷积支路将特征处理结果supResult依次经过归一化层BN的处理和卷积核为1×1的Conv层的处理后,得到特征处理结果conResult;
步骤2.2.4、第1个残差注意力单元将三个支路的特征处理结果相加后,得到特征处理结果dsaResult1=sasResult+resResult+conResult并作为第2个残差注意力单元的输入,从而经过c个残差注意力单元的处理后,最终由第c个残差注意力单元输出特征处理结果dsaResult;
步骤2.3、所述权重输出模块对特征处理结果dsaResult进行卷积层Conv和全局平均池化层AavgPool的处理,第n张表情样本数据sn的特征处理结果为fn,最后由激活函数Sigmod输出第n张表情样本数据sn的重要性权重αn;
步骤3、使用标签修正模块LA,对较低权重的不确定性表情样本标签进行修正:
步骤3.2、分别求取两组表情样本的平均重要性权重,其中,高重要性权重的均值记为αH和低重要性权重的均值记为αL;
步骤3.3、利用式(3)得到第n个表情样本数据sn的新标签y′n:
式(3)中,Pn,max表示第n个表情样本数据sn的最大预测概率,Pn,gtInd表示第n个表情样本数据sn的标签flagn的最大预测概率,ln,org和ln,max分别表示样本数据sn的原始给定的标签和预测后概率最大的标签;
步骤4、结合自注意力权重交叉熵损失LSCE、排序正则化损失LRR和类别权重交叉熵损失LCCE对网络进行迭代训练:
步骤4.1、利用式(4)构建第n个表情样本数据的自注意力权重交叉熵损失LSCE:
式(4)中,k表示第n张表情样本sn的标签flagn所属的类别,Wk表示权重矩阵W的第k列参数,Wj表示权重矩阵W的第j列参数,j=1,2,...,K;
步骤4.2、利用式(5)构建排序正则化损失LRR:
LRR=max{0,β2-(αH-αL)} (5)
式(5)中,β2作为高重要性组和低重要性组之间的超参数;
步骤4.3、利用式(6)构建类别权重损失LCCE:
步骤4.4、利用式(7)构建总体损失函数Ltotal:
Ltotal=LSCE+LCCE+LRR (7)
步骤4.5、将表情样本数据集S={s1,…,sn,…,sN}输入人脸表情特征提取网络中进行人脸表情特征提取网络的训练,并计算总体损失函数Ltotal,当训练迭代次数达到设定的次数时,训练停止,从而得到最优的人脸表情特征提取网络,用于对人脸表情图像的类别进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318610.2A CN114038037B (zh) | 2021-11-09 | 2021-11-09 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318610.2A CN114038037B (zh) | 2021-11-09 | 2021-11-09 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114038037A true CN114038037A (zh) | 2022-02-11 |
CN114038037B CN114038037B (zh) | 2024-02-13 |
Family
ID=80143509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111318610.2A Active CN114038037B (zh) | 2021-11-09 | 2021-11-09 | 基于可分离残差注意力网络的表情标签修正和识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038037B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912919A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN117391746A (zh) * | 2023-10-25 | 2024-01-12 | 上海瀚泰智能科技有限公司 | 一种基于置信网络的智慧酒店顾客感知分析方法和系统 |
CN117542105A (zh) * | 2024-01-09 | 2024-02-09 | 江西师范大学 | 一种课堂教学下低分辨率图像的人脸超分与表情识别方法 |
CN117689998A (zh) * | 2024-01-31 | 2024-03-12 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
CN112801040A (zh) * | 2021-03-08 | 2021-05-14 | 重庆邮电大学 | 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统 |
CN113128369A (zh) * | 2021-04-01 | 2021-07-16 | 重庆邮电大学 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
-
2021
- 2021-11-09 CN CN202111318610.2A patent/CN114038037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
CN110427867A (zh) * | 2019-07-30 | 2019-11-08 | 华中科技大学 | 基于残差注意力机制的面部表情识别方法及系统 |
US20210232813A1 (en) * | 2020-01-23 | 2021-07-29 | Tongji University | Person re-identification method combining reverse attention and multi-scale deep supervision |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111797683A (zh) * | 2020-05-21 | 2020-10-20 | 台州学院 | 一种基于深度残差注意力网络的视频表情识别方法 |
CN112801040A (zh) * | 2021-03-08 | 2021-05-14 | 重庆邮电大学 | 嵌入高阶信息的轻量级无约束人脸表情识别方法及系统 |
CN113128369A (zh) * | 2021-04-01 | 2021-07-16 | 重庆邮电大学 | 一种融合均衡损失的轻量级网络人脸表情识别方法 |
Non-Patent Citations (2)
Title |
---|
亢洁;李思禹;: "基于注意力机制的卷积神经网络人脸表情识别", 陕西科技大学学报, no. 04, 28 July 2020 (2020-07-28) * |
高健;林志贤;郭太良;: "基于混合注意力机制的表情识别研究", 信息技术与网络安全, no. 01, 10 January 2020 (2020-01-10) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912919A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN116912919B (zh) * | 2023-09-12 | 2024-03-15 | 深圳须弥云图空间科技有限公司 | 一种图像识别模型的训练方法及装置 |
CN117391746A (zh) * | 2023-10-25 | 2024-01-12 | 上海瀚泰智能科技有限公司 | 一种基于置信网络的智慧酒店顾客感知分析方法和系统 |
CN117542105A (zh) * | 2024-01-09 | 2024-02-09 | 江西师范大学 | 一种课堂教学下低分辨率图像的人脸超分与表情识别方法 |
CN117689998A (zh) * | 2024-01-31 | 2024-03-12 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
CN117689998B (zh) * | 2024-01-31 | 2024-05-03 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114038037B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN108615010B (zh) | 基于平行卷积神经网络特征图融合的人脸表情识别方法 | |
CN114038037A (zh) | 基于可分离残差注意力网络的表情标签修正和识别方法 | |
CN111242288B (zh) | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 | |
CN108256482B (zh) | 一种基于卷积神经网络进行分布学习的人脸年龄估计方法 | |
CN109815785A (zh) | 一种基于双流卷积神经网络的人脸情绪识别方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN104361313B (zh) | 一种基于多核学习异构特征融合的手势识别方法 | |
CN111523462A (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN112052772A (zh) | 一种人脸遮挡检测算法 | |
CN111666845A (zh) | 基于关键帧采样的小样本深度学习多模态手语识别方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN113011243A (zh) | 基于胶囊网络的面部表情分析方法 | |
CN110929762A (zh) | 一种基于深度学习的肢体语言检测与行为分析方法及系统 | |
CN112651301A (zh) | 一种整合人脸全局和局部特征的表情识别方法 | |
CN112364705A (zh) | 基于多层次特征融合的轻量型cnn的表情识别方法 | |
CN114625908A (zh) | 基于多通道注意力机制的文本表情包情感分析方法及系统 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN110334584A (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN116311472B (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
CN112419332A (zh) | 一种面向厚层mri影像的头骨剥离方法及装置 | |
Chen et al. | Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |