CN113159002B - 一种基于自注意力权重辅助模块的人脸表情识别方法 - Google Patents

一种基于自注意力权重辅助模块的人脸表情识别方法 Download PDF

Info

Publication number
CN113159002B
CN113159002B CN202110580434.3A CN202110580434A CN113159002B CN 113159002 B CN113159002 B CN 113159002B CN 202110580434 A CN202110580434 A CN 202110580434A CN 113159002 B CN113159002 B CN 113159002B
Authority
CN
China
Prior art keywords
expression recognition
self
face picture
face
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110580434.3A
Other languages
English (en)
Other versions
CN113159002A (zh
Inventor
黎勇
汪榕涛
刘锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110580434.3A priority Critical patent/CN113159002B/zh
Publication of CN113159002A publication Critical patent/CN113159002A/zh
Application granted granted Critical
Publication of CN113159002B publication Critical patent/CN113159002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及人脸表情识别技术领域,具体公开了一种基于自注意力权重辅助模块的人脸表情识别方法,包括步骤1:获取完整人脸图片以及人脸图片中鼻尖的位置;步骤2:将人脸图片以经过鼻尖的直线划分为两半,得到第一半脸图片和第二半脸图片;步骤3:获取完整人脸图片的全局特征向量、第一脸图片的局部特征向量以及第二半脸图片的局部特征向量;步骤4:将全局特征向量、局部特征向量及局部特征向量分别送入人脸表情识别神经网络中得到第一脸图片和第二半脸图片各自在辅佐预测中的权重值、全局预测向量、第一半脸局部预测向量和第二半脸局部预测向量;依照各预测向量权及其权重值得出最终的表情识别结果。本方法能有效识别人脸表情且抗姿势干扰。

Description

一种基于自注意力权重辅助模块的人脸表情识别方法
技术领域
本发明属于人脸表情识别技术领域,具体涉及一种基于自注意力权重辅助模块的人脸表情识别方法。
背景技术
面部表情包含着丰富的情感信息,是我们在日常沟通交流手段中最自然,语义最丰富的方式之一。现有技术中,通过多任务卷积神经网络(MTCNN,Zhang K,Zhang Z,Li Z,et al.Joint face detection and alignment using multitask cascadedconvolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.)不仅可以识别出图片的人脸部分,还可以检测出鼻尖的位置坐标。在此基础上,进行进一步的人脸表情识别在很多领域都有很高的潜在应用价值,例如医学治疗、监控驾驶员疲劳驾驶、智能服务机器人、心理健康评估等,所以人脸表情识别作为计算机视觉中重要且难以攻克的分支领域,一直受到很多研究者的关注。
但是现有的公开数据集中存在着大量的姿势变化,并且姿势变化是在现实条件下无法避免的:我们不能让被观察者以固定的姿势对着图像采集器,这使得表情识别的发展遇到了瓶颈。姿势变化首先会导致面部信息出现不同程度的缺失,其次左右旋转的姿势会使得模型学习到的特征出现各种变形,这使我们的网络每次面对的都是不可控的异样数据,同时有限的数据集不能覆盖庞大的可变姿势,这就使得网络学习有效特征的难度大大增加,同时也加剧了在最后的分类过程中模糊性。对于姿势变化大多数常规方法要么在非正面的面部图像上执行人脸正面化,要么为每个姿势学习单独的分类器。同时一些研究采用了姿势归一化技术来产生正面脸部视图来扩充数据集。最新的研究提出了将一幅图像切分为若干个区域的方法,然后经过自注意力模块和关系注意力模块整合各个区域来进一步提高表情判别的能力。此外由于给表情标注的成本很高,想获取大量正面人脸图像十分困难,于是一些研究提出了一系列基于GAN的深度模型用于正面视图合成来增强训练数据集。由于GAN采用的是一种无监督的学习方式训练,相比其他所有模型,GAN可以产生更加清晰、真实的样本。
但是上述这些方法由于自身的局限性,要么效果不太理想,要么模型过于复杂难以优化,经常陷于局部最优点,不能很好地缓解多姿势带来的干扰。因此找到一个有效且抗姿势干扰的方法具有重要的研究意义。
发明内容
基于此,本发明提出了一种基于自注意力权重辅助模块的人脸表情识别方法,提高在多姿势干扰下的人脸表情识别精度。
本发明中的基于自注意力权重辅助模块的人脸表情识别方法,包括以下步骤:
步骤1:获取完整人脸图片Iall以及人脸图片中鼻尖的位置;
步骤2:将人脸图片以经过鼻尖的直线划分为两半,得到第一半脸图片Il和第二半脸图片Ir
步骤3:获取完整人脸图片Iall的全局特征向量Fall、第一脸图片Il的局部特征向量Fl以及,第二半脸图片Ir的局部特征向量Fr
步骤4:将全局特征向量Fall、局部特征向量Il及局部特征向量Fr分别送入人脸表情识别神经网络中;
所述人脸表情识别神经网络包括自注意力权重辅助模块和分类子网络;
所述分类子网络用于分别根据全局特征向量Fall、局部特征向量Fl及局部特征向量Fr进行表情分类识别,得到相应的全局预测向量Pall、第一半脸局部预测向量Pl和第二半脸局部预测向量Pr
所述自注意力权重辅助模块根据局部特征向量Fr和Fl,得到第一脸图片Il和第二半脸图片Ir各自在辅佐预测中的权重值wl和wr
步骤5:依照全局预测向量Pall、第一半脸局部预测向量Pl和第二半脸局部预测向量Pr以及权重值wl和wr得出最终的表情识别结果。
进一步的,所述自注意力权重辅助模块包括一含两个隐藏层的子网络,所述隐藏层间为全连接关系,自注意力权重辅助模块根据特征向量提取各半脸图片在辅佐预测中所占权重wl和wr的计算公式如下:
wi=σ[W2(W1Fi)];
其中,i∈{l,r},W1、W2分别为第一个和第二个隐藏层的参数,σ为Sigmoid函数。
进一步的,所述分类子网络根据特征向量得到预测向量Pj的计算公式如下:
Pj=W3Fj
式中:j∈{all,l,r},Pj的大小均为N×1,N为人脸表情类别数,即预测向量的每一元素各自对应一种表情类别;
该分类子网络只包含一层全连接层,W3为分类子网络的参数。
进一步的,步骤3中,由一用于人脸特征提取的特征提取模块根据完整人脸图片Iall获取全局特征向量Fall
根据第一脸图片Il获取局部特征向量Fl
以及根据第二半脸图片Ir获得局部特征向量Fr
进一步的,所述特征提取模块为一用于人脸特征提取的残差神经网络。
进一步的,所述残差神经网络为一ResNet18残差神经网络。
进一步的,步骤5中,按照如下算式的得到用于人脸表情识别的预测向量P:
P=wl×Pl+wr×Pr+Pall
进一步的,步骤5中,选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果。
进一步的,所述残差神经网络的参数获得包括如下内容:
获取用于特征提取的训练样本,通过该训练样本对残差神经网络进行预训练直至参数收敛,所得的残差神经网络初始参数作为后续训练的起点。
进一步的,所述残差神经网络、自注意力权重辅助模块和分类自网络的参数获得包括如下内容:
获取适用于上述网络/模块进行表情识别训练的人脸图片训练样本集,并建立的总损失函数,通过该人脸图片训练样本集对自注意力权重辅助模块、分类子网络以及残差神经网络共同进行用于表情识别的训练,每次训练中,皆通过求取最小化总损失函数的最优解对自注意力权重辅助模块、分类子网络以及经过训练残差神经网络的参数进行优化更新。
进一步的,所述总损失函数为:
Figure BDA0003085855490000031
式中:
Figure BDA0003085855490000032
Paux为辅助预测向量,具体为:Paux=wl×Pl+wr×Pr
Figure BDA0003085855490000033
w=wl+wr
Figure BDA0003085855490000041
Pgt为人脸图片训练样本集中的样本图片的标签向量,该标签向量与预测向量P具有相同的形式且指向正确的表情识别结果。
本发明的有益效果在于:现实情况下,人脸跟随头部姿势变化,会呈现不定规律的旋转,导致特征偏移或损失,这也使得脸部各部分的信息完整性具有不同。本方法中对两个半脸(如左右半脸)进行加权处理,增加较完整的半张脸对于结果的影响,减少残缺半张脸对于结果的影响。利用脸的局部信息作为辅助判断依据,不仅可以帮助模型提取鲁棒特征,而且可以修正网络输出,以此来对抗真实情况下的多姿势干扰。此外本发明只需要两个半脸的信息,这大大减少了模型的复杂度。方法在现有的公开数据集上都取得了比较好的结果,在RAF-DB数据集上可以取得87.44%的准确率,在AffectNet数据集上取得60.53%的准确率,这已经领先当前最先进的模型结果。
附图说明
图1是本发明实施例中的基于注意力权重辅助模块的人脸表情识别方法的基本流程图。
图2是本发明实施例中的注意力权重辅助模块的示意性逻辑框图。
图3是本发明实施例中的分类子网络的示意性逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中基于注意力权重辅助模块的人脸表情识别方法基本如图1所示,首先,对于每一张表情图片I,首先在利用背景技术中提到的多任务卷积神经网(MTCNN)来检测出图片中的人脸部分,将人脸以外的部分剔除得到表情图片Iall,除此以外,MTCNN还会给出五个坐标点(分别为左眼中心、右眼中心、鼻尖、左嘴角和右嘴角),于是,本实施例中,选取第三个坐标点(鼻尖),引垂线垂直裁剪图Iall得到左脸图片Il和右脸图片Ir,此处左脸图片Il和右脸图片Ir对应本发明的第一半脸图片和第二半脸图片,本实施例后续的命名也将沿用左脸和右脸作为区分性的前缀;事实上本发明的方法允许经鼻尖点任意引支线划分图Iall,但考虑到人脸在图片中最常见的旋转是跟随人的头部左右旋转,且脸部表情具有一定的左右对成型,因此引垂线垂直裁剪图Iall是为本发明一个较优的实施选择,其他的划分方式,如依照左眼中心、右眼中心的连线的中心点与鼻尖形成的直线,可以带来更为准确的左右脸划分,但也带来了计算量的增加、实现复杂度上等升成本付出,另外也带来了要求左眼中心、右眼中心必须同时出现在图片上这类的前提条件。其他划分方式也各优缺点,在此不按,本领域技术人员可根据需要自行选择需要的划分方式。
本是实施例中,为了固化网络结构,对于包含完整人脸图像Iall、左脸图像Il和右脸图像Ir首先经过缩放操作统一至非限定性的224×224像素尺寸,作为残差神经网络的输入。本实施例中的残差神经网络,选择但不限于基于经典的ResNet18残差神经网络(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2016:770-778.)搭建,它包含三部分:第一部分由一个卷积层和一个批量归一化层组成,卷积层中包含了64个7×7大小的卷积核组成,其步长为2,最大池化层的窗口大小为3×3,步长为2,卷积层的输入大小为3×224×224,输出大小为64×112×112,池化层的输入大小为64×112×112,输出大小为64×56×56,第二部分包含了四层残差块,其基本结构为卷积层——批量归一化——Relu函数——卷积层——批量归一化依次相连,其输入大小均为64×56×56,输出大小为512×7×7,第三部分为一个全局池化层,它的窗口大小为7×7。缩放后的完整人脸图像Iall、左脸图像Il和右脸图像Ir经过残差神经网络后会得到全局特征向量Fall、左脸特征向量Fl和右脸特征向量Fr,各特征向量的尺寸均为512×1。事实上,获得图片本身的特征向量的方法并不限于此,在本发明的其他实施例中,本领域技术人员可以依照本发明的技术思想根据需要自行选择其他方式获取。
随即,全局特征向量Fall、局部特征向量Il及局部特征向量Fr分别被送入人脸表情识别神经网络中;人脸表情识别神经网络包括自注意力权重辅助模块和分类子网络;
包含局部信息的Fl和Fr被送入如图2所示的自注意力权重辅助模块,进而提取出这两个特征向量在辅助预测中所占的权重值wl和wr,如图2所示,自注意力权重辅助模块包含具有两个隐藏层的全连接神经网络,该神经网络输出作为Sigmoid函数的输入,于是权重值wl和wr的计算公式如下:
wi=σ[W2(W1Fi)],
式中:i∈{l,r},W1(大小为256×512)、W2(大小为1×256)分别为第一个和第二个隐藏层的参数向量,σ为Sigmoid函数。
而后,本实施例中,利用如图3所示的分类子网络计算出每一个特征向量Fall、Fl和Fr的预测向量Pall、Pl和Pr,其中向量Pall、Pl和Pr的大小均为N×1,N为表情类别数,即预测向量的每一元素各自对应一种表情类别,各预测向量计算公式如下:
Pj=W3Fj
式中:j∈{all,l,r},分类子网络只包含一层全连接层,W3(大小为N×512)为分类子网络的参数矩阵,
获得局部特征的权重和预测值以后,结合全局特征预测,可以得到模型最后的预测向量P,计算公式如下:
P=wl×Pl+wr×Pr+Pall
最终,选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果,为此预测向量P被送入SoftMAX函数分类器,并被归一化为个元素取值均在(0,1)之间的向量,便于最后的识别输出。
以上,是本实施例中根据本发明的技术思想所建立起来的一个具体的、分限制性的人脸表情识别模型,在实际工作中,本领域技术人员可根据需要,在不脱离本发明的技术思想的基础上,对模型中的一些量化的细节进行调整,如各子网络/模块中神经元节点的数量、输入图片的大小,甚至于网络的部分具体的结构。
为了更好地训练模型,针对多姿势下的任务,本发明还设计了三个损失函数一起优化网络,首先对于局部信息来说,局部特征只有辅助作用,用以纠正模型最后的输出类别,因此用权重损失函数来约束优化最重要的自注意力权重模块,公式如下:
Figure BDA0003085855490000061
式中,w=wl+wr
其次为了降低多姿势下特征变形对识别精度的影响,强制全局特征的预测值要向局部特征的预测值靠拢,因此用特征损失函数来优化模型,公式如下:
Figure BDA0003085855490000062
式中,Pall为全局特征图的预测向量,Paux为模型的辅助预测,其值为:
Paux=wll×Pll+wr×Pr
最后设计了交叉熵损失函数来优化模型的最终输出,公式如下:
Figure BDA0003085855490000063
式中,Pgt为训练样本集中的样本图片的标签向量,该标签向量与预测向量P具有相同的形式且指向正确的表情识别结果。
于是模型的总损失函数为:
Figure BDA0003085855490000064
对本实施例中对模型进行训练时,首先获取用于特征提取的训练样本,通过该训练样本对残差神经网络进行预训练直至参数收敛,所得的残差神经网络初始参数作为后续训练的起点。本实施例中,特征提取的训练样本选自ImageNet。
而后,获取适用于进行表情识别训练的人脸图片训练样本集,基于上述的总损失函数,通过该人脸图片训练样本集对自注意力权重辅助模块、分类子网络以及残差神经网络共同进行用于表情识别的训练,每次训练中,皆通过求取最小化总损失函数的最优解对自注意力权重辅助模块、分类子网络以及经过训练残差神经网络的参数进行优化更新。此处最优解的求取(如梯度下降法)以及利用损失函数进行神经网络参数更新的具体技术细节为本领域技术人员熟知,在此不做赘述。
本实施例中用于表情识别训练和测试的图像数据来源于两部分:
RAF-DB(LiS,Deng W,Du J P.Reliable Crowdsourcing and Deep Locality-Preserving Learning for Expression Recognition in the Wild[C]//2017 IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017.)是一个大规模的面部表情数据库,包含从Internet下载的大约3万张多样的面部图像。基于众包注释,每个图像已由约40个注释器独立标记。该数据库中的图像在受试者的年龄,性别,种族,头部姿势,光照条件,遮挡(例如眼镜,面部毛发或自我遮挡)和后处理操作(例如各种滤镜和特殊效果)方面变化很大。
AffectNet(Ali Mollahosseini,Behzad Hasani,and Mohammad H.Mahoor,“AffectNet:A New Database for Facial Expression,Valence,and ArousalComputation in the Wild”,IEEE Transactions on Affective Computing,2017.)收集了100多万张面部图像。手动注释了大约一半图像(约440K),用七个离散的面部表情来标注这些图像。AffectNet是迄今为止最大的野外面部表情数据库,可用于在两种不同情感模型中进行自动面部表情识别的研究。
基于上述的数据集,本实施例中公开的方法与当前较先进IPA2LT方法(Zeng J,Shan S,Chen X.Facial expression recognition with inconsistently annotateddatasets[C]//Proceedings of the European conference on computer vision(ECCV).2018:222-237.)、RAN方法(Wang K,Peng X,YangJ,et al.Region attention networksfor pose and occlusion robust facial expression recognition[J].IEEETransactions on Image Processing,2020,29:4057-4069.,以及SCN方法(Wang K,PengX,Yang J,et al.Suppressing uncertainties for large-scale facial expressionrecognition[C]//Proceedings of theIEEE/CVF Conference on Computer Vision andPattern Recognition.2020:6897-6906.)的结果比较如表1和表2所示。
表1RAF-DB测试集的准确率对比:
方法 准确率
IPA2LT 86.77%
RAN 86.90%
SCN 87.03%
本申请方法 87.44%
表二AffectNet测试集的平均准确率对比
方法 平均准确率
IPA2LT 55.71%
RAN 59.50%
SCN 60.23%
本申请方法 60.53%
本实施例中公开的方法对两个半脸(如左右半脸)进行加权处理,增加较完整的半张脸对于结果的影响,减少残缺半张脸对于结果的影响。利用脸的局部信息作为辅助判断依据,不仅可以帮助模型提取鲁棒特征,而且可以修正网络输出,以此来对抗真实情况下的多姿势干扰。此外该只需要两个半脸的信息,这大大减少了模型的复杂度。从对比表格中可以看出,该方法在现有的公开数据集上都取得了比较好的结果,在RAF-DB数据集上可以取得87.44%的准确率,在AffectNet数据集上取得60.53%的准确率,已经领先当前最先进的模型结果。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:获取完整人脸图片Iall以及人脸图片中鼻尖的位置;
步骤2:将人脸图片以经过鼻尖的直线划分为两半,得到第一半脸图片Il和第二半脸图片Ir
步骤3:获取完整人脸图片Iall的全局特征向量Fall、第一半脸图片Il的局部特征向量Fl以及,第二半脸图片Ir的局部特征向量Fr
步骤4:将全局特征向量Fall、局部特征向量Il及局部特征向量Fr分别送入人脸表情识别神经网络中;
所述人脸表情识别神经网络包括自注意力权重辅助模块和分类子网络;
所述分类子网络用于分别根据全局特征向量Fall、局部特征向量Fl及局部特征向量Fr进行表情分类识别,得到相应的全局预测向量Pall、第一半脸局部预测向量Pl和第二半脸局部预测向量Pr
所述自注意力权重辅助模块根据局部特征向量Fr和Fl,得到第一半脸图片Il和第二半脸图片Ir各自在辅佐预测中的权重值wl和wr
步骤5:依照全局预测向量Pall、第一半脸局部预测向量Pl和第二半脸局部预测向量Pr以及权重值wl和wr得出最终的表情识别结果。
2.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述自注意力权重辅助模块包括一含两个隐藏层的子网络,所述隐藏层间为全连接关系,自注意力权重辅助模块根据特征向量提取各半脸图片在辅佐预测中所占权重wl和wr的计算公式如下:
wi=σ[W2(W1Fi)];
其中,i∈{l,r},W1、W2分别为第一个和第二个隐藏层的参数,σ为Sigmoid函数。
3.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述分类子网络根据特征向量得到预测向量Pj的计算公式如下:
Pj=W3Fj
式中:j∈{all,l,r},Pj的大小均为N×1,N为人脸表情类别数,即预测向量的每一元素各自对应一种表情类别;
该分类子网络只包含一层全连接层,W3为分类子网络的参数。
4.根据权利要求1所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,步骤3中,由一用于人脸特征提取的特征提取模块根据完整人脸图片Iall获取全局特征向量Fall
根据第一半脸图片Il获取局部特征向量Fl
以及根据第二半脸图片Ir获得局部特征向量Fr
5.根据权利要求4所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述特征提取模块为一用于人脸特征提取的残差神经网络。
6.根据权利要求5所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,步骤5中,按照如下算式的得到用于人脸表情识别的预测向量P:
P=wl×Pl+wr×Pr+Pall
7.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,步骤5中,选取预测向量P的各元素中值最大的元素所对应的表情分类作为最后的表情识别结果。
8.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述残差神经网络的参数获得包括如下内容:
获取用于特征提取的训练样本,通过该训练样本对残差神经网络进行预训练直至参数收敛,所得的残差神经网络初始参数作为后续训练的起点。
9.根据权利要求6所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述残差神经网络、自注意力权重辅助模块和分类自网络的参数获得包括如下内容:
获取适用于上述网络/模块进行表情识别训练的人脸图片训练样本集,并建立的总损失函数,通过该人脸图片训练样本集对自注意力权重辅助模块、分类子网络以及残差神经网络共同进行用于表情识别的训练,每次训练中,皆通过求取最小化总损失函数的最优解对自注意力权重辅助模块、分类子网络以及经过训练残差神经网络的参数进行优化更新。
10.根据权利要求9所述的基于自注意力权重辅助模块的人脸表情识别方法,其特征在于,所述总损失函数为:
Figure FDA0003844058300000021
式中:
Figure FDA0003844058300000022
Paux为辅助预测向量,具体为:Paux=wl×Pl+wr×Pr
Figure FDA0003844058300000023
w=wl+wr
Figure FDA0003844058300000031
Pgt为人脸图片训练样本集中的样本图片的标签向量,该标签向量与预测向量P具有相同的形式且指向正确的表情识别结果。
CN202110580434.3A 2021-05-26 2021-05-26 一种基于自注意力权重辅助模块的人脸表情识别方法 Active CN113159002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580434.3A CN113159002B (zh) 2021-05-26 2021-05-26 一种基于自注意力权重辅助模块的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580434.3A CN113159002B (zh) 2021-05-26 2021-05-26 一种基于自注意力权重辅助模块的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN113159002A CN113159002A (zh) 2021-07-23
CN113159002B true CN113159002B (zh) 2023-04-07

Family

ID=76877773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580434.3A Active CN113159002B (zh) 2021-05-26 2021-05-26 一种基于自注意力权重辅助模块的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN113159002B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439915A (zh) * 2022-10-12 2022-12-06 首都师范大学 区域编码和样本平衡优化的课堂参与度识别方法和装置
CN117351432B (zh) * 2023-12-04 2024-02-23 环球数科集团有限公司 一种用于景区游客的多目标识别模型的训练系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948569A (zh) * 2019-03-26 2019-06-28 重庆理工大学 一种利用粒子滤波框架的三维混合表情识别方法
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN112200110A (zh) * 2020-10-19 2021-01-08 厦门大学 一种基于深度干扰分离学习的人脸表情识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102564855B1 (ko) * 2018-01-08 2023-08-08 삼성전자주식회사 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
CN109815924B (zh) * 2019-01-29 2021-05-04 成都旷视金智科技有限公司 表情识别方法、装置及系统
CN110263673B (zh) * 2019-05-31 2022-10-14 合肥工业大学 面部表情识别方法、装置、计算机设备及存储介质
CN110321872B (zh) * 2019-07-11 2021-03-16 京东方科技集团股份有限公司 人脸表情识别方法及装置、计算机设备、可读存储介质
CN112287891B (zh) * 2020-11-23 2022-06-10 福州大学 基于表情行为特征提取的通过视频评估学习专注力的方法
CN112651301A (zh) * 2020-12-08 2021-04-13 浙江工业大学 一种整合人脸全局和局部特征的表情识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948569A (zh) * 2019-03-26 2019-06-28 重庆理工大学 一种利用粒子滤波框架的三维混合表情识别方法
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN112200110A (zh) * 2020-10-19 2021-01-08 厦门大学 一种基于深度干扰分离学习的人脸表情识别方法

Also Published As

Publication number Publication date
CN113159002A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
CN107679526B (zh) 一种人脸微表情识别方法
Mohan et al. Facial expression recognition using local gravitational force descriptor-based deep convolution neural networks
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN108052896B (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
Konstantinidis et al. A deep learning approach for analyzing video and skeletal features in sign language recognition
CN110633624B (zh) 一种基于多特征融合的机器视觉人体异常行为识别方法
CN112036276B (zh) 一种人工智能视频问答方法
CN106503687A (zh) 融合人脸多角度特征的监控视频人物身份识别系统及其方法
CN113159002B (zh) 一种基于自注意力权重辅助模块的人脸表情识别方法
Barros et al. Real-time gesture recognition using a humanoid robot with a deep neural architecture
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN110046656A (zh) 基于深度学习的多模态场景识别方法
CN107092894A (zh) 一种基于lstm模型的运动行为识别方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN107463917B (zh) 一种基于改进的ltp与二维双向pca融合的人脸特征提取方法
CN111666845B (zh) 基于关键帧采样的小样本深度学习多模态手语识别方法
CN104915658B (zh) 一种基于情感分布学习的情感成分分析方法及其系统
CN104408470A (zh) 基于平均脸预学习的性别检测方法
CN111401116A (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
Karayılan et al. Sign language recognition
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
Garg et al. Facial expression recognition & classification using hybridization of ICA, GA, and neural network for human-computer interaction
Guo et al. Facial expression recognition: a review
Rajan et al. Gesture recognition of RGB-D and RGB static images using ensemble-based CNN architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant