CN114170659A - 一种基于注意力机制的面部情感识别方法 - Google Patents

一种基于注意力机制的面部情感识别方法 Download PDF

Info

Publication number
CN114170659A
CN114170659A CN202111445644.8A CN202111445644A CN114170659A CN 114170659 A CN114170659 A CN 114170659A CN 202111445644 A CN202111445644 A CN 202111445644A CN 114170659 A CN114170659 A CN 114170659A
Authority
CN
China
Prior art keywords
attention
output
network
feature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111445644.8A
Other languages
English (en)
Inventor
孙强
梁乐
党鑫豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111445644.8A priority Critical patent/CN114170659A/zh
Publication of CN114170659A publication Critical patent/CN114170659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的面部情感识别方法,首先采集图像,并将图像分为训练样本集和测试样本集;然后读取训练样本集中每个样本图像原始情感标注值,并将训练样本集中每个样本图像送入多任务卷积神经网络中,得到输出特征;将预处理后得到的输出特征输入到残差注意力网络中得到注意力输出特征图;将输出特征图分别送入转换器Transformer和非局部神经网络中学习,从而得到输出特征;采用两阶段多任务学习网络训练一个分类器,从而可以将测试样本的深度特征通过分类器产生维度空间的情感状态值。本发明解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。

Description

一种基于注意力机制的面部情感识别方法
技术领域
本发明属于模式识别技术领域,具体涉及一种基于注意力机制的面部情感识别方法。
背景技术
近些年随着社会的不断发展以及各方面对于快速有效的自动情感识别的迫切需要,生物特征识别技术在近十几年中得到了飞速的发展。在现实生活中,为了正常的社会交流和需求,人们之间需要进行必要的情感识别,以判断对方的情绪做出正确的行为回应。
早在1981年,Aaron Sloman就提出了关于人工智能情感的研究。1985年,人工智能的奠基人之一Marvin Minsky提出计算机和情感的问题。1995年,MIT媒体实验室的Rosalind W.Picard正式提出情感计算的概念,并于1997年在《情感计算》中定义“情感计算”为“与情感有关、由情感引发或者能够影响情感因素的计算”。
情感识别作为识别领域的重要分支之一,近些年一直是广大学者的重点研究对象。对于静态人脸图像,在传统的识别方法中,研究者通常人为地提取情感特征(例如基于Dlib的68特征点),然后送入预先设计好的分类器进行分类(SVM、决策树、随机森林等),得到最终的情感预测结果。然而,这种方法在实际操作中,需要利用丰厚的经验去人工地选择合适的情感特征,并且往往需要耗费大量的时间和精力。而且,不同的特征对最终的结果贡献度不同,传统的方法并没有对其进行很好的区分。
近些年,随着计算机能力的不断提升,深度学习被重新提出。因其强大的特征学习能力和高性能,逐渐取代传统的机器学习成为识别领域的主流方法。目前基于深度学习的情感分析方法中,大多方法会结合注意力机制对有效特征进行筛选,但缺少对特征图之间依赖关系的学习能力进行建模,以及特征图中空间位置特征之间依赖关系的考虑。并且,传统的方法针对不同的任务会训练不同的模型,没有利用到相关任务之间的相似性。
发明内容
本发明的目的是提供一种基于注意力机制的面部情感识别方法,解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。
本发明所采用的技术方案是,基于注意力机制的面部情感识别方法,具体按照以下步骤实施:
步骤1、采集图像,并将图像分为训练样本集xtrain和测试样本集xtest
步骤2、读取训练样本集xtrain中每个样本图像原始情感标注值,并将训练样本集xtrain中每个样本图像送入多任务卷积神经网络MTCNN中,根据人脸检测和5个关键特征点,完成人脸对齐,得到输出特征xinput=[x1,x2,...,xn];
步骤3、将预处理后得到的输出特征xinput输入到残差注意力网络中,然后通过主干分支提取不同感受野的特征Mi,c(x)、掩码分支学习注意力权重Ti,c(x);最后,将主干分支的输出和掩码分支的输出进行点积运算,得到注意力输出特征图Hi,c(x);
步骤4、将步骤3中得到的注意力输出特征图Hi,c(x)分别送入转换器Transformer和非局部神经网络学习,Transformer输出特征图之间的依赖关系Ztrans,非局部神经网络输出特征图中空间位置之间的依赖关系Znon-local
步骤5、将特征图之间的依赖关系Ztrans和特征图中空间位置之间的依赖关系Znon-local进行融合,得到输出特征Zfusion
步骤6、采用两阶段多任务学习网络训练一个分类器,将步骤5得到的输出特征Zfusion送入分类器,得到情感状态值:Arousal和Valence。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
对于训练样本集xtrain,样本图片为n×h×w维的张量xtrain=[(h1,w1),(h2,w2),...,(hn,wn)],其中n表示训练样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为n×2维的向量ya,v=[(a1,v1),(a2,v2),...,(an,vn)],其中(an,vn)分别表示训练样本集xtrain中第n个样本图片的Arousal和Valence标签;
对于测试样本集xtest,样本图片为m×h×w维的张量xtest=[(h1,w1),(h2,w2),...,(hm,wm)],其中m表示测试样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为m×2维的向量ya,u=[(a1,v1),(a2,v2),...,(am,vm)],其中(am,vm)分别表示测试样本集xtest中第m个样本图片的Arousal和Valence标签。
步骤2具体按照以下步骤实施:
步骤2.1、读取训练样本集xtrain中每个样本图片(hl,wl),其中l=1,2,...,n,hl表示第l个样本图片的长度,wl表示第l个样本图片的宽度。然后将输入样本图片进行不同尺度的变换,得到一系列不同大小的图片,用来构建图片特征
Figure BDA0003384059110000041
其中xk表示第k个图片的特征;
步骤2.2、然后将步骤2.1得到的图片特征
Figure BDA0003384059110000042
送入多任务卷积神经网络MTCNN,多任务卷积神经网络MTCNN由三个子网络组成,分别是Proposal Network、RefineNetwork和Output Network,其中Proposal Network由四层卷积神经网络构成,RefineNetwork由三层卷积神经网络和两层全连接层构成,Output Network由四层卷积神经网络和两层全连接层构成,之后得到MTCNN的输出特征xinput=[x1,x2,...,xn],其中xn表示第n个图片的特征。
步骤3具体按照以下步骤实施:
步骤3.1、对整体网络架构参数即权重、偏置初始化,包括网络中所有卷积层、池化层、全连接层;
步骤3.2、将输出特征xinput分别送入主干分支和掩码分支,得到主干分支的输出结果Mi,c(x)和掩码分支的输出结果Ti,c(x),具体过程如下所描述:
主干分支:输出特征xinput经过两个卷积核大小为3×3的卷积层,并对每个卷积层输出结果进行批量正则化BN和ReLU函数激活,得到主干分支的输出结果Mi,c(x),该输出结果Mi,c(x)为输出特征xinput不同感受野的特征;
假设第l层的卷积层输出为zl,然后经过批量正则化BN和ReLU激活函数得到最终输出ol,其具体计算公式如下:
ol=ReLU(BN(zl))=ReLU(BN(Wol-1+b)) (1)
W和b分别代表权重值与偏置,l=1,2;
其中,BN为批量归一化,是一种对数据概率分布进行归一化处理的方法,计算公式如下:
Figure BDA0003384059110000051
公式(2)中,xi表示输出特征xinput中的任一单个样本图像特征,xBN为经过批量归一化后的输出特征,σl为第l层图像特征的标准差图像,μl为第l层图像特征的均值图像;
公式(2)中σl和μl的定义如下所示:
Figure BDA0003384059110000061
Figure BDA0003384059110000062
公式(3)和(4)中,xk图像特征xinput中的任一单个样本图像特征,k表示每个小批次的样本数量个数,k≥1;
掩码分支:输出特征xinput经过两个池化操作和两个上采样操作,再使用sigmoid函数将输出调整至0到1的范围内,得到掩码分支的输出结果Ti,c(x),该输出结果Ti,c(x)表示特征Mi,c(x)的注意力权重;
步骤3.3、将主干分支输出Mi,c(x)和掩码分支输出Ti,c(x)进行点积,并在此过程中引入残差机制,得到残差注意力特征Hi,c(x),计算公式为:
Hi,c(x)=(1+Mi,c(x))*Ti,c(x) (5)
其中Hi,c(x)为残差注意力特征,Mi,c(x)为主干分支的输出特征,Ti,c(x)为掩码分支的输出特征。
步骤4具体按照以下步骤实施:
步骤4.1、首先将步骤3得到的残差注意力特征Hi,c(x)送入Transformer学习特征图之间的依赖关系Ztrans
由于残差注意力特征Hi,c(x)有z个通道,所以残差注意力特征Hi,c(x)表示为w×h×z,其中w表示残差注意力特征的长度,h表示残差注意力特征的宽度,z表示残差注意力特征的通道个数,然后将图像特征Hi,c(x)的维度变为z×wh方便送入Transformer;
Transformer是由有多个自注意力网络组成,每个自注意力网络首先通过权重矩阵W和输入特征X计算查询向量Q和键值对向量K-V,计算公式为:
Q=XWQ,K=XWK,V=XWV (6)
其中WQ表示查询向量Q的权重矩阵,WK表示键向量K的权重矩阵,WV表示值向量V的权重矩阵。
然后采用点积模型QKT得到注意力打分函数S(Q,K),通过softmax函数将得分归一化至0到1之间,得到注意力权重值α:
α=softmax(QKT) (7)
其中α注意力权重值为要求的,KT表示键向量K的转置向量。
最后将注意力权重值α与键向量V加权求和,得到输出特征,计算公式为:
Attention(Q,K,V)=softmax(QKT)V (8)
其中Attention(Q,K,V)表示要求的输出特征,softmax为激活函数,Q为查询向量,KT表示键向量K的转置向量,V为值向量。
为了得到多个自注意力网络,根据(8)中所示计算步骤,采用h个查询向量Q=[q1,q2,...,qh]分别与输入特征X进行计算,其中h表示有h个自注意力网络,qh表示第h个自注意力网络的查询向量,然后将h个自注意力网络的输出进行合并,称这种由多个自注意力网络组成的网络为多头注意力网络,其计算公式如下所示:
Figure BDA0003384059110000081
其中,att((K,V),Q)为多头注意力网络的输出特征,att((K,V),qh)表示第h个自注意力网络的输出特征,
Figure BDA0003384059110000082
表示向量逐点相加;
最后通过一个全连接层完成输出,得到特征图之间的依赖关系Ztrans
步骤4.2、然后将步骤3得到的残差注意力特征Hi,c(x)送入局部神经网络学习特征图中空间位置之间的依赖关系Znon-local
对残差注意力特征Hi,c(x)进行1×1卷积,将Hi,c(x)映射到三个不同的向量空间,分别用θ,
Figure BDA0003384059110000083
g表示这三个空间,得到对应向量空间的权重矩阵Wθ
Figure BDA0003384059110000084
Wg,然后对特征图空间两不同像素位置之间相关性得分进行计算,计算公式为:
Figure BDA0003384059110000091
其中f(xi,xj)表示相关性得分,xi为特征图中第i个像素点,xj为特征图中第j个像素点,Wθ
Figure BDA0003384059110000094
为向量空间θ和
Figure BDA0003384059110000092
的权重矩阵,角标T表示该矩阵的转置;
将xi、xj两点相关性得分与位置j的特征表征函数g(xj)加权求和,得到针对位置i的位置依赖关系yi,计算公式为:
Figure BDA0003384059110000093
其中,yi是针对位置i计算得到的输出,x是输入特征,C(x)是归一化因子,g(xj)是计算位置j的输入表征;
根据(11)中所示计算步骤,计算特征图中所有位置的依赖关系yi,并组合在一起得到特征图中空间位置之间的依赖关系Znon-local
步骤6具体按照以下步骤实施:
步骤6.1、在第一阶段多任务学习中,使用两个分支分别学习步骤5得到的输出特征Zfusion的分类表征Zclass和维度表征Zdim,其中每个分支由一层全连接层组成,然后再将学习到的分类表征和维度表征这两类输出特征级联为一个特征Zmtl-1
步骤6.2、在第二阶段多任务学习中,使用一个线性回归器对特征Zmtl-1进行线性回归,得到输出值:Arousal和Valence;
其中,线性回归器采用的损失函数为Tukey’s双权损失函数,具体已定义式如下所示:
Figure BDA0003384059110000101
公式(14)中Loss代表损失值,c=4.685是一个超参数,yi代表真实标签值,
Figure BDA0003384059110000102
代表预测的标签值。
本发明的有益效果是,本发明是一种基于注意力机制的面部情感识别方法,解决了现有的基于注意力机制的面部情感识别方法缺乏对特征图之间依赖关系和特征图内特征的空间位置依赖关系同时进行建模学习的问题。
附图说明
图1是本发明的一种基于注意力机制的面部情感识别方法的整体网络模型架构。
图2是残差注意力网络模型结构。
图3是Transformer模型结构。
图4是残差注意力网络输出特征图转换为序列过程。
图5是多头注意力网络。
图6是非局部神经网络模块。
图7是集成深度表征的情感状态值预测模块。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于注意力机制的面部情感识别方法,结合图1~图7,具体按照以下步骤实施:
步骤1、采集图像,并将图像分为训练样本集xtrain和测试样本集xtest
步骤1具体按照以下步骤实施:
每个训练样本和测试样本均有其对应的原始情感标志值。
对于训练样本集xtrain,样本图片为n×h×w维的张量xtrain=[(h1,W1),(h2,w2),...,(hn,wn)],其中n表示训练样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为n×2维的向量ya,v=[(a1,v1)(a2,v2),...,(an,vn)],其中(an,vn)分别表示训练样本集xtrain中第n个样本图片的Arousal和Valence标签;
对于测试样本集xtest,样本图片为m×h×W维的张量xtest=[(h1,w1),(h2,w2),...,(hm,wm)],其中m表示测试样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为m×2维的向量ya,v=[(a1,v1),(a2,v2),...,(am,vm)],其中(am,vm)分别表示测试样本集xtest中第m个样本图片的Arousal和Valence标签。
步骤2、读取训练样本集xtrain中每个样本图像原始情感标注值,并将训练样本集xtrain中每个样本图像送入多任务卷积神经网络MTCNN中,根据人脸检测和5个关键特征点,完成人脸对齐,得到输出特征xinput=[x1,x2,...,xn];
步骤2具体按照以下步骤实施:
步骤2.1、读取训练样本集xtrain中每个样本图片(hl,wl),其中l=1,2,...,n,hl表示第l个样本图片的长度,wl表示第l个样本图片的宽度。然后将输入样本图片进行不同尺度的变换,得到一系列不同大小的图片,用来构建图片特征
Figure BDA0003384059110000121
其中xk表示第k个图片的特征;
步骤2.2、然后将步骤2.1得到的图片特征
Figure BDA0003384059110000122
送入多任务卷积神经网络MTCNN,多任务卷积神经网络MTCNN由三个子网络组成,分别是Proposal Network、RefineNetwork和Output Network,其中Proposal Network由四层卷积神经网络构成,RefineNetwork由三层卷积神经网络和两层全连接层构成,Output Network由四层卷积神经网络和两层全连接层构成,之后得到MTCNN的输出特征xinput=[x1,x2,...,xn],其中xn表示第n个图片的特征。
步骤3、将预处理后得到的输出特征xinput输入到残差注意力网络中,然后通过主干分支提取不同感受野的特征Mi,c(x)、掩码分支学习注意力权重Ti,c(x);最后,将主干分支的输出和掩码分支的输出进行点积运算,得到注意力输出特征图Hi,c(x);网络结构如图2所示,网络架构参数如下表1所示。
表1残差注意力网络模型参数表
Figure BDA0003384059110000131
步骤3具体按照以下步骤实施:
步骤3.1、对整体网络架构参数即权重、偏置初始化,包括网络中所有卷积层、池化层、全连接层;
步骤3.2、将输出特征xinput分别送入主干分支和掩码分支,得到主干分支的输出结果Mi,c(x)和掩码分支的输出结果Ti,c(x),具体过程如下所描述:
主干分支:输出特征xinput经过两个卷积核大小为3×3的卷积层,并对每个卷积层输出结果进行批量正则化BN和ReLU函数激活,得到主干分支的输出结果Mi,c(x),该输出结果Mi,c(x)为输出特征xinput不同感受野的特征;
假设第l层的卷积层输出为zl,然后经过批量正则化BN和ReLU激活函数得到最终输出ol,其具体计算公式如下:
ol=ReLU(BN(zl))=ReLU(BN(Wol-1+b)) (1)
W和b分别代表权重值与偏置,l=1,2;
其中,BN为批量归一化,是一种对数据概率分布进行归一化处理的方法,计算公式如下:
Figure BDA0003384059110000141
公式(2)中,xi表示输出特征xinput中的任一单个样本图像特征,xBN为经过批量归一化后的输出特征,σl为第l层图像特征的标准差图像,μl为第l层图像特征的均值图像;
公式(2)中σl和μl的定义如下所示:
Figure BDA0003384059110000142
Figure BDA0003384059110000143
公式(3)和(4)中,xk图像特征xinput中的任一单个样本图像特征,k表示每个小批次的样本数量个数,k≥1;
掩码分支:输出特征xinput经过两个池化操作和两个上采样操作,再使用sigmoid函数将输出调整至0到1的范围内,得到掩码分支的输出结果Ti,c(x),该输出结果Ti,c(x)表示特征Mi,c(x)的注意力权重;
步骤3.3、将主干分支输出Mi,c(x)和掩码分支输出Ti,c(x)进行点积,并在此过程中引入残差机制,得到残差注意力特征Hi,c(x),计算公式为:
Hi,c(x)=(1+Mi,c(x))*Ti,c(x) (5)
其中Hi,c(x)为残差注意力特征,Mi,c(x)为主干分支的输出特征,Ti,c(x)为掩码分支的输出特征。
步骤4、将步骤3中得到的注意力输出特征图Hi,c(x)分别送入转换器Transformer和非局部神经网络学习,Transformer输出特征图之间的依赖关系Ztrans,非局部神经网络输出特征图中空间位置之间的依赖关系Znon-local
步骤4具体按照以下步骤实施:
步骤4.1、首先将步骤3得到的残差注意力特征Hi,c(x)送入Transformer学习特征图之间的依赖关系Ztrans,网络结构如图3所示。
由于残差注意力特征Hi,c(x)有z个通道,所以残差注意力特征Hi,c(x)表示为w×h×z,其中w表示残差注意力特征的长度,h表示残差注意力特征的宽度,z表示残差注意力特征的通道个数,然后将图像特征Hi,c(x)的维度变为z×wh方便送入Transformer,转换过程如图4所示。
Transformer是由有多个自注意力网络组成,每个自注意力网络首先通过权重矩阵W和输入特征X计算查询向量Q和键值对向量K-V,计算公式为:
Q=XWQ,K=XWK,V=XWV (6)
其中WQ表示查询向量Q的权重矩阵,WK表示键向量K的权重矩阵,WV表示值向量V的权重矩阵。
然后采用点积模型QKT得到注意力打分函数S(Q,K),通过softmax函数将得分归一化至0到1之间,得到注意力权重值α:
α=softmax(QKT) (7)
其中α注意力权重值为要求的,KT表示键向量K的转置向量。
最后将注意力权重值α与键向量V加权求和,得到输出特征,计算公式为:
Attention(Q,K,V)=softmax(QKT)V (8)
其中Attention(Q,K,V)表示要求的输出特征,softmax为激活函数,Q为查询向量,KT表示键向量K的转置向量,V为值向量。
为了得到多个自注意力网络,根据(8)中所示计算步骤,采用h个查询向量Q=[q1,q2,...,qh]分别与输入特征X进行计算,其中h表示有h个自注意力网络,qh表示第h个自注意力网络的查询向量,然后将h个自注意力网络的输出进行合并,称这种由多个自注意力网络组成的网络为多头注意力网络,网络结构如图5所示。其计算公式如下所示:
Figure BDA0003384059110000171
其中att((K,V),Q)为多头注意力网络的输出特征,att((K,V),qh)表示第h个自注意力网络的输出特征,
Figure BDA0003384059110000172
表示向量逐点相加;
最后通过一个全连接层完成输出,得到特征图之间的依赖关系Ztrans
步骤4.2、然后将步骤3得到的残差注意力特征Hi,c(x)送入局部神经网络学习特征图中空间位置之间的依赖关系Znon-local,网络结构如图6所示。
对残差注意力特征Hi,c(x)进行1×1卷积,将Hi,c(x)映射到三个不同的向量空间,分别用θ,
Figure BDA0003384059110000173
g表示这三个空间,得到对应向量空间的权重矩阵Wθ
Figure BDA0003384059110000174
Wg,然后对特征图空间两不同像素位置之间相关性得分进行计算,计算公式为:
Figure BDA0003384059110000175
其中f(xi,xj)表示相关性得分,xi为特征图中第i个像素点,xj为特征图中第j个像素点,Wθ
Figure BDA0003384059110000176
为向量空间θ和
Figure BDA0003384059110000177
的权重矩阵,角标T表示该矩阵的转置;
将xi、xj两点相关性得分与位置j的特征表征函数g(xj)加权求和,得到针对位置i的位置依赖关系yi,计算公式为:
Figure BDA0003384059110000181
其中,yi是针对位置i计算得到的输出,x是输入特征,C(x)是归一化因子,g(xj)是计算位置j的输入表征;
根据(11)中所示计算步骤,计算特征图中所有位置的依赖关系yi,并组合在一起得到特征图中空间位置之间的依赖关系Znon-local
步骤5、将特征图之间的依赖关系Ztrans和特征图中空间位置之间的依赖关系Znon-local进行融合,得到输出特征Zfusion
步骤6、采用两阶段多任务学习网络训练一个分类器,将步骤5得到的输出特征Zfusion送入分类器,得到情感状态值:Arousal和Valence,多任务学习结构图如图7所示。
步骤6具体按照以下步骤实施:
步骤6.1、在第一阶段多任务学习中,使用两个分支分别学习步骤5得到的输出特征Zfusion的分类表征Zclass和维度表征Zdim,其中每个分支由一层全连接层组成,然后再将学习到的分类表征和维度表征这两类输出特征级联为一个特征Zmtl-1
步骤6.2、在第二阶段多任务学习中,使用一个线性回归器对特征Zmtl-1进行线性回归,得到输出值:Arousal和Valence;
其中,线性回归器采用的损失函数为Tukey’s双权损失函数,具体已定义式如下所示:
Figure BDA0003384059110000191
公式(14)中Loss代表损失值,c=4.685是一个超参数,yi代表真实标签值,
Figure BDA0003384059110000192
代表预测的标签值。
实施例
本发明的实验基于AffectNet数据集进行,然后对本发明的性能进行评估与分析。
实验结果对比如下:
针对模型预测的标签值与原始标签值,分别计算均方根误差(RMSE)和一致性相关系数(CCC),然后与已有的方法进行比较。针对不同的情感识别模型进行性能对比,结果如表2所示:
表2不同网络模型的性能对比
Figure BDA0003384059110000193
由表中数据可知,本发明设计的基于注意力机制的面部表情识别方法要优于传统方法。这验证了本发明针对残差注意力网络的输出特征通道之间的依赖关系,以及输出特征图中空间位置之间的依赖关系进行建模的有效性。

Claims (6)

1.基于注意力机制的面部情感识别方法,其特征在于,具体按照以下步骤实施:
步骤1、采集图像,并将图像分为训练样本集xtrain和测试样本集xtest
步骤2、读取训练样本集xtrain中每个样本图像原始情感标注值,并将训练样本集xtrain中每个样本图像送入多任务卷积神经网络MTCNN中,根据人脸检测和5个关键特征点,完成人脸对齐,得到输出特征xinput=[x1,x2,...,xn];
步骤3、将预处理后得到的输出特征xinput输入到残差注意力网络中,然后通过主干分支提取不同感受野的特征Mi,c(x)、掩码分支学习注意力权重Ti,c(x);最后,将主干分支的输出和掩码分支的输出进行点积运算,得到注意力输出特征图Hi,c(x);
步骤4、将步骤3中得到的注意力输出特征图Hi,c(x)分别送入转换器Transformer和非局部神经网络学习,Transformer输出特征图之间的依赖关系Ztrans,非局部神经网络输出特征图中空间位置之间的依赖关系Znon-local
步骤5、将特征图之间的依赖关系Ztrans和特征图中空间位置之间的依赖关系Znon-local进行融合,得到输出特征Zfusion
步骤6、采用两阶段多任务学习网络训练一个分类器,将步骤5得到的输出特征Zfusion送入分类器,得到情感状态值:Arousal和Valence。
2.根据权利要求1所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤1具体按照以下步骤实施:
对于训练样本集xtrain,样本图片为n×h×w维的张量xtrain=[(h1,W1),(h2,w2),...,(hn,wn)],其中n表示训练样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为n×2维的向量ya,v=[(a1,v1),(a2,v2),...,(an,vn)],其中(an,vn)分别表示训练样本集xtrain中第n个样本图片的Arousal和Valence标签;
对于测试样本集xtest,样本图片为m×h×W维的张量xtest=[(h1,w1),(h2,w2),...,(hm,wm)],其中m表示测试样本集的样本总数目,h表示每个样本图片的长度,w表示每个样本图片的宽度,样本的原始情感标注值为m×2维的向量ya,v=[(a1,v1),(a2,v2),...,(am,vm)],其中(am,vm)分别表示测试样本集xtest中第m个样本图片的Arousal和Valence标签。
3.根据权利要求2所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、读取训练样本集xtrain中每个样本图片(hl,wl),其中l=1,2,...,n,hl表示第l个样本图片的长度,wl表示第l个样本图片的宽度;然后将输入样本图片进行不同尺度的变换,得到一系列不同大小的图片,用来构建图片特征
Figure FDA0003384059100000032
其中xk表示第k个图片的特征;
步骤2.2、然后将步骤2.1得到的图片特征
Figure FDA0003384059100000031
送入多任务卷积神经网络MTCNN,多任务卷积神经网络MTCNN由三个子网络组成,分别是Proposal Network、Refine Network和Output Network,其中Proposal Network由四层卷积神经网络构成,Refine Network由三层卷积神经网络和两层全连接层构成,Output Network由四层卷积神经网络和两层全连接层构成,之后得到MTCNN的输出特征xinput=[x1,x2,...,xn],其中xn表示第n个图片的特征。
4.根据权利要求3所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、对整体网络架构参数即权重、偏置初始化,包括网络中所有卷积层、池化层、全连接层;
步骤3.2、将输出特征xinput分别送入主干分支和掩码分支,得到主干分支的输出结果Mi,c(x)和掩码分支的输出结果Ti,c(x),具体过程如下所描述:
主干分支:输出特征xinput经过两个卷积核大小为3×3的卷积层,并对每个卷积层输出结果进行批量正则化BN和ReLU函数激活,得到主干分支的输出结果Mi,c(x),该输出结果Mi,c(x)为输出特征xinput不同感受野的特征;
假设第l层的卷积层输出为zl,然后经过批量正则化BN和ReLU激活函数得到最终输出ol,其具体计算公式如下:
ol=ReLU(BN(zl))=ReLU(BN(Wol-1+b)) (1)
W和b分别代表权重值与偏置,l=1,2;
其中,BN为批量归一化,是一种对数据概率分布进行归一化处理的方法,计算公式如下:
Figure FDA0003384059100000041
公式(2)中,xi表示输出特征xinput中的任一单个样本图像特征,xBN为经过批量归一化后的输出特征,σl为第l层图像特征的标准差图像,μl为第l层图像特征的均值图像;
公式(2)中σl和μl的定义如下所示:
Figure FDA0003384059100000042
Figure FDA0003384059100000043
公式(3)和(4)中,xk图像特征xinput中的任一单个样本图像特征,k表示每个小批次的样本数量个数,k≥1;
掩码分支:输出特征xinput经过两个池化操作和两个上采样操作,再使用sigmoid函数将输出调整至0到1的范围内,得到掩码分支的输出结果Ti,c(x),该输出结果Ti,c(x)表示特征Mi,c(x)的注意力权重;
步骤3.3、将主干分支输出Mi,c(x)和掩码分支输出Ti,c(x)进行点积,并在此过程中引入残差机制,得到残差注意力特征Hi,c(x),计算公式为:
Hi,c(x)=(1+Mi,c(x))*Ti,c(x) (5)
其中Hi,c(x)为残差注意力特征,Mi,c(x)为主干分支的输出特征,Ti,c(x)为掩码分支的输出特征。
5.根据权利要求4所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤4具体按照以下步骤实施:
步骤4.1、首先将步骤3得到的残差注意力特征Hi,c(x)送入Transformer学习特征图之间的依赖关系Ztrans
由于残差注意力特征Hi,c(x)有z个通道,所以残差注意力特征Hi,c(x)表示为w×h×z,其中w表示残差注意力特征的长度,h表示残差注意力特征的宽度,z表示残差注意力特征的通道个数,然后将图像特征Hi,c(x)的维度变为z×wh方便送入Transformer;
Transformer是由有多个自注意力网络组成,每个自注意力网络首先通过权重矩阵W和输入特征X计算查询向量Q和键值对向量K-V,计算公式为:
Q=XWQ,K=XWK,V=XWV (6)
其中WQ表示查询向量Q的权重矩阵,WK表示键向量K的权重矩阵,WV表示值向量V的权重矩阵;
然后采用点积模型QKT得到注意力打分函数S(Q,K),通过softmax函数将得分归一化至0到1之间,得到注意力权重值α:
α=softmax(QKT) (7)
其中α注意力权重值为要求的,KT表示键向量K的转置向量;
最后将注意力权重值α与键向量V加权求和,得到输出特征,计算公式为:
Attention(Q,K,V)=softmax(QKT)V (8)
其中Attention(Q,K,V)表示要求的输出特征,softmax为激活函数,Q为查询向量,KT表示键向量K的转置向量,V为值向量;
为了得到多个自注意力网络,根据(8)中所示计算步骤,采用h个查询向量Q=[q1,q2,...,qh]分别与输入特征X进行计算,其中h表示有h个自注意力网络,qh表示第h个自注意力网络的查询向量,然后将h个自注意力网络的输出进行合并,称这种由多个自注意力网络组成的网络为多头注意力网络,其计算公式如下所示:
Figure FDA0003384059100000071
其中att((K,V),Q)为多头注意力网络的输出特征,att((K,V),qh)表示第h个自注意力网络的输出特征,
Figure FDA0003384059100000072
表示向量逐点相加;
最后通过一个全连接层完成输出,得到特征图之间的依赖关系Ztrans
步骤4.2、然后将步骤3得到的残差注意力特征Hi,c(x)送入局部神经网络学习特征图中空间位置之间的依赖关系Znon-local
对残差注意力特征Hi,c(x)进行1×1卷积,将Hi,c(x)映射到三个不同的向量空间,分别用θ,
Figure FDA0003384059100000073
g表示这三个空间,得到对应向量空间的权重矩阵Wθ
Figure FDA0003384059100000074
Wg,然后对特征图空间两不同像素位置之间相关性得分进行计算,计算公式为:
Figure FDA0003384059100000075
其中f(xi,xj)表示相关性得分,xi为特征图中第i个像素点,xj为特征图中第j个像素点,Wθ
Figure FDA0003384059100000077
为向量空间θ和
Figure FDA0003384059100000076
的权重矩阵,角标T表示该矩阵的转置;
将xi、xj两点相关性得分与位置j的特征表征函数g(xj)加权求和,得到针对位置i的位置依赖关系yi,计算公式为:
Figure FDA0003384059100000081
其中,yi是针对位置i计算得到的输出,x是输入特征,C(x)是归一化因子,g(xj)是计算位置j的输入表征;
根据(11)中所示计算步骤,计算特征图中所有位置的依赖关系yi,并组合在一起得到特征图中空间位置之间的依赖关系Znon-local
6.根据权利要求5所述的基于注意力机制的面部情感识别方法,其特征在于,所述步骤6具体按照以下步骤实施:
步骤6.1、在第一阶段多任务学习中,使用两个分支分别学习步骤5得到的输出特征Zfusion的分类表征Zclass和维度表征Zdim,其中每个分支由一层全连接层组成,然后再将学习到的分类表征和维度表征这两类输出特征级联为一个特征Zmtl-1
步骤6.2、在第二阶段多任务学习中,使用一个线性回归器对特征Zmtl-1进行线性回归,得到输出值:Arousal和Valence;
其中,线性回归器采用的损失函数为Tukey’s双权损失函数,具体已定义式如下所示:
Figure FDA0003384059100000082
公式(14)中Loss代表损失值,c=4.685是一个超参数,yi代表真实标签值,
Figure FDA0003384059100000091
代表预测的标签值。
CN202111445644.8A 2021-11-30 2021-11-30 一种基于注意力机制的面部情感识别方法 Pending CN114170659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111445644.8A CN114170659A (zh) 2021-11-30 2021-11-30 一种基于注意力机制的面部情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111445644.8A CN114170659A (zh) 2021-11-30 2021-11-30 一种基于注意力机制的面部情感识别方法

Publications (1)

Publication Number Publication Date
CN114170659A true CN114170659A (zh) 2022-03-11

Family

ID=80482088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111445644.8A Pending CN114170659A (zh) 2021-11-30 2021-11-30 一种基于注意力机制的面部情感识别方法

Country Status (1)

Country Link
CN (1) CN114170659A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661751A (zh) * 2022-11-02 2023-01-31 山东高速集团有限公司创新研究院 一种基于注意力变换网络的公路低能见度检测方法和系统
CN116012930A (zh) * 2023-03-28 2023-04-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于深度学习卷积神经网络的维度表情识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661751A (zh) * 2022-11-02 2023-01-31 山东高速集团有限公司创新研究院 一种基于注意力变换网络的公路低能见度检测方法和系统
CN116012930A (zh) * 2023-03-28 2023-04-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于深度学习卷积神经网络的维度表情识别方法

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN114170659A (zh) 一种基于注意力机制的面部情感识别方法
CN112800891B (zh) 一种用于微表情识别的鉴别性特征学习方法与系统
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
Xu et al. Face expression recognition based on convolutional neural network
CN110334584A (zh) 一种基于区域全卷积网络的手势识别方法
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
Borgalli et al. Deep learning for facial emotion recognition using custom CNN architecture
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Li A discriminative learning convolutional neural network for facial expression recognition
Nie Research on facial expression recognition of robot based on CNN convolution neural network
Bodavarapu et al. An optimized neural network model for facial expression recognition over traditional deep neural networks
Zeng et al. Flower image classification based on an improved lightweight neural network with multi-scale feature fusion and attention mechanism
Luqin A survey of facial expression recognition based on convolutional neural network
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN113469116A (zh) 一种结合lbp特征和轻量级神经网络的人脸表情识别方法
CN107085700A (zh) 一种基于稀疏表示与单隐层神经网络技术相结合的人脸识别方法
CN113379655A (zh) 一种基于动态自注意力生成对抗网络的图像合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination