CN111339847B - 一种基于图卷积神经网络的人脸情绪识别方法 - Google Patents

一种基于图卷积神经网络的人脸情绪识别方法 Download PDF

Info

Publication number
CN111339847B
CN111339847B CN202010091759.0A CN202010091759A CN111339847B CN 111339847 B CN111339847 B CN 111339847B CN 202010091759 A CN202010091759 A CN 202010091759A CN 111339847 B CN111339847 B CN 111339847B
Authority
CN
China
Prior art keywords
stage
face
convolution
background
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010091759.0A
Other languages
English (en)
Other versions
CN111339847A (zh
Inventor
曾翰新
李�根
童同
罗鸣
高钦泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Imperial Vision Information Technology Co ltd
Original Assignee
Fujian Imperial Vision Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Imperial Vision Information Technology Co ltd filed Critical Fujian Imperial Vision Information Technology Co ltd
Priority to CN202010091759.0A priority Critical patent/CN111339847B/zh
Publication of CN111339847A publication Critical patent/CN111339847A/zh
Application granted granted Critical
Publication of CN111339847B publication Critical patent/CN111339847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图卷积神经网络的人脸情绪识别方法。本发明在图像数据库中,利用非人脸区域的图卷积神经网络提取背景图,并将把图片的欧式结构转换成图结构,通过提取图结构中节点和边的空间特征信息分析背景中人物的情绪状态进行人脸情绪分类,最终极大地提高了人脸情绪识别率;对于视频序列的数据,图卷积神经网络不仅对于空间域上的特征信息提取也有所提高,而且对于视频序列中的背景变化信息进行了推理,从而极大地提高了人脸情绪识别率。

Description

一种基于图卷积神经网络的人脸情绪识别方法
技术领域
本发明属于表情识别领域,具体涉及一种基于图卷积神经网络的人脸情绪识别方法。
背景技术
人脸表情识别是指从给定的静态图像或动态视频序列中分离出特定的表情状态,从而确定被识别对象的心理情绪。实现计算机对人脸表情的理解与识别,从根本上改变人与计算机的关系,从而达到更好的人机交互。因此人脸表情识别在心理学、智能机器人、智能监控、虚拟现实及合成动画等领域有很大的潜在应用价值。
人脸表情识别技术是近几十年来才逐渐发展起来的,由于面部表情的多样性和复杂性,并且涉及生理学及心理学,表情识别具有较大的难度,因此,与其它生物识别技术如指纹识别、虹膜识别、人脸识别等相比,发展相对较慢,应用还不广泛。(但是表情识别对于人机交互却有重要的价值,因此国内外很多研究机构及学者致力于这方面的研究,并己经取得了一定的成果。)
传统的解决方案是通过定义人类的6种基本表情,建立面部动作编码系统(FacialAction Coding System,FACS),按照系统划分的一系列人脸动作单元(Action Unit,AU)来描述人脸面部动作,通过人脸运动和表情的关系,进而检测人脸面部细微表情。Yingli等人通过分析图像序列的固定人脸特征(眉毛、眼睛和嘴巴等)以及瞬时人脸特征(皱纹的深浅等)中的细微动态变化,从而根据FACS和AUs的方法自动识别出人脸表情[1]。但是,以上方法对不同人脸部分的权重设定是人为的,这种方法缺少了缺乏对权重设定的统计支持。Lin等人为了更深层的挖掘出脸部肌肉中的情感信息以及利用AU提取出脸部表情中区别最大的区域,分别提取了不同表情中人脸特征上相似的图块与相异的图块,然后通过SupportVector Machine(SVM)进行人脸表情分类[2]。虽然,以上的方法都取得了一定的成果,但是,它们都只能局限于正面无遮挡的人脸表情,对复杂环境中的人脸情绪识别表现不佳。
为了提高情绪识别算法的应用能力,近年来,学术界开始利用深度学习的方法解决更加复杂环境下的人脸表情。目前基于深度学习的表情识别有以下较具代表性的方法:Fan等人提出基于卷积神经网络(CNN:Convolutional Neural Network)改进的深层监督卷积神经网络(DSN:Deeply Supervised CNN)[3],从不同的卷积层中提取多层次和多尺度的特征信息,从而整个网络更加深层更加充分的学习了环境复杂变化的图片中人脸表情信息。Li等人将注意力机制(Attention mechanism)[4]加入卷积神经网络中,使得图片人脸部分遮挡情况下,将网络的权重集中在最突出且无遮挡的人脸部分,该算法不论人脸是否遮挡都识别良好。Lee等人发现识别人脸情绪过程中[5],人物当下的相处环境以及人物的肢体动作都可以帮助卷积神经网络更好的识别人物表情。该卷积网络中有两条网络分支组成:一条是处理从图片或视频序列中提取的人脸信息;另一条网络处理将人脸遮挡住的图片或视频序列,并且利用注意力机制提取出环境或者肢体动作特征信息。
虽然相关研究已经取得了较好的人脸表情识别效果,但有些时候由于图片或视频内容中背景多变、人脸姿态多样,使得数据特征提取困难,人脸表情识别率不够理想。
发明内容
本发明的目的在于克服现有技术的缺点和不足,提供一种基于图卷积神经网络的人脸情绪识别方法,利用图卷积网络的技术将图片或者视频序列中的人脸与环境信息充分提取分析,显著提高了复杂环境中人脸表情识别的准确率。
为实现上述目的,本发明的技术方案是:一种基于图卷积神经网络的人脸情绪识别方法,包括如下步骤:
步骤1、将训练的视频序列按10帧每秒的采样速度,连续抽取4帧图片,即网络输入一组图片Ii包含4帧,索引i∈{0,1,2,3};
步骤2、将通过步骤1所获得的一组图片Ii利用多任务卷积神经网络MTCNN人脸检测模型将图片Ii中的人脸分割生成人脸图片组Fi以及去除人脸的背景图片Bi,索引i∈{0,1,2,3};
步骤3、利用FasterR-CNN模型算法检测图片中存在的各种物体类别,将背景图像Bi从欧式结构转换成非欧式结构的拓扑图Vi,Vi={v1,v2,...,vt}包含36个节点,索引t∈{0,1,2,...,35}和i∈{0,1,2,3};
步骤4、利用步骤2中生成的人脸图片组Fi分别执行串联卷积层阶段、平均池化阶段和注意力机制阶段;最终,获得人脸图片的特征信息Xface
步骤5、利用步骤3中生成的拓扑图Vi分别执行初始阶段、图卷积阶段和注意力机制阶段;最终,获得拓扑图的特征信息Ybackground
步骤6、利用步骤4和步骤5中生成的Xface和Ybackground分别执行融合阶段和分类阶段,最终得到视频或者图片的分类结果Cls(Xface,Ybackground);
步骤7、选出步骤6分类概率输出中与视频或图片标注类别相对应的概率值;
步骤8、基于步骤7得出的分类概率值,不断更新并优化获得最优的卷积权值参数和偏置参数。
在本发明一实施例中,所述步骤4具体实现如下:
步骤4.1、串联卷积阶段:该阶段由5个卷积运行块组成,每个卷积运行块是由卷积运算、批量归一化、激活函数和池化运算得到,其计算公式是:
X1=max(σr(bn(W1*Fi+B1)),0),i∈{0,1,2,3}   (1)
其中W1和B1分别是卷积权值参数和偏置参数,bn是批量归一化函数,σr是Relu激活函数;
步骤4.2、平均池化阶段:该阶段将X1特征信息在时空维度上取平均,其计算公式是:
X2=aver(X1)   (2)
步骤4.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure GDA0003981975200000031
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000032
Figure GDA0003981975200000033
分别是第一层和第二层偏置参数,Xface是从人脸图片提取出来的特征信息。
在本发明一实施例中,所述步骤5具体实现如下:
步骤5.1、初始阶段:将拓扑图Vi进行全连接运算得到其输出Y1,其计算公式是:
Y1=W1*Vi+B1,i∈{0,1,2,3}   (4)
其中W1和B1分别是全连接层权值参数和偏置参数;
步骤5.2、图卷积阶段:该阶段由4个图卷积运算块组成,一个图卷积运算块包括4次卷积运算,一个残差运算,得到其输出Y2,其计算公式是:
Y2=Wr*(R*Y1*Wg)+Y1   (5)
R=(Wi*Y1(Vi)T*(Wj*Y1(Vj))),i∈{0,1,2,3},j∈{0,1,2,3}
其中Wi和Wj分别是相关系数卷积层的权重参数,Wr和Wg分别是图卷积残差运算和图卷积运算的权重参数;
步骤5.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure GDA0003981975200000034
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000035
Figure GDA0003981975200000036
分别是第一层和第二层偏置参数,σr是Relu激活函数,Ybackground是从背景图片提取出来的特征信息。
在本发明一实施例中,所述步骤6具体实现如下:
步骤6.1、融合阶段:该阶段将步骤4和步骤5生成的Xface和Ybackground执行softmax逻辑回归运算再按通道维度连接,其计算公式是:
F1={Xfaceface,Ybackgroundbackground}{λfacebackgrou nd}=soft max(Xface,Ybackground)   (7)
步骤6.2、分类阶段:该阶段包括2次卷积运算、丢失函数、激活函数和分类函数,其计算公式是:
Figure GDA0003981975200000041
其中W2 1和W2 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000042
Figure GDA0003981975200000043
分别是第一层和第二层偏置参数,drop是丢失函数,Logsoftmax是最后的分类函数,σr是Relu激活函数。
在本发明一实施例中,所述步骤8中,若分类概率值没有达到预先设定的分类识别率,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤4;若分类概率值已经获得预先设定的分类识别率时,则停止反向传播,并最终求得步骤4、5和6所获得的卷积权值参数和偏置参数。
相较于现有技术,本发明具有以下有益效果:
第一,本发明在图像数据库中,利用非人脸区域的图卷积神经网络提取背景图,并将把图片的欧式结构转换成图结构,通过提取图结构中节点和边的空间特征信息分析背景中人物的情绪状态进行人脸情绪分类。与基于深度学习的技术相比,本发明对空间信息的提取更加高效,最终极大地提高了人脸情绪识别率;
第二,对于视频序列的数据,图卷积神经网络不仅对于空间域上的特征信息提取也有所提高,而且对于视频序列中的背景变化信息进行了推理,从而极大地提高了人脸情绪识别率。
附图说明
图1是本发明基于图卷积神经网络的人脸情绪识别方法的原理示意图;
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,本发明提供了一种基于图卷积神经网络的人脸情绪识别方法,包括如下步骤:
步骤1、将训练的视频序列按10帧每秒的采样速度,连续抽取4帧图片,即网络输入一组图片Ii包含4帧,索引i∈{0,1,2,3};
步骤2、将通过步骤1所获得的一组图片Ii利用多任务卷积神经网络MTCNN人脸检测模型将图片Ii中的人脸分割生成人脸图片组Fi以及去除人脸的背景图片Bi,索引i∈{0,1,2,3};
步骤3、利用FasterR-CNN模型算法检测图片中存在的各种物体类别,将背景图像Bi从欧式结构转换成非欧式结构的拓扑图Vi,Vi={v1,v2,...,vt}包含36个节点,索引t∈{0,1,2,...,35}和i∈{0,1,2,3};
步骤4、利用步骤2中生成的人脸图片组Fi分别执行串联卷积层阶段、平均池化阶段和注意力机制阶段;最终,获得人脸图片的特征信息Xface
所述步骤4具体包括以下步骤:
步骤4.1、串联卷积阶段:该阶段由5个卷积运行块组成,每个卷积运行块是由卷积运算、批量归一化、激活函数和池化运算得到,其计算公式是:
X1=max(σr(bn(W1*Fi+B1)),0),i∈{0,1,2,3}   (1)
其中W1和B1分别是卷积权值参数和偏置参数,bn是批量归一化函数,σr是Relu激活函数;
步骤4.2、平均池化阶段:该阶段将X1特征信息在时空维度上取平均,其计算公式是:
X2=aver(X1)   (2)
步骤4.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure GDA0003981975200000051
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000052
Figure GDA0003981975200000053
分别是第一层和第二层偏置参数,Xface是从人脸图片提取出来的特征信息;
步骤5、利用步骤3中生成的拓扑图Vi分别执行初始阶段、图卷积阶段和注意力机制阶段;最终,获得拓扑图的特征信息Ybackground
所述步骤5具体包括以下步骤:
步骤5.1、初始阶段:将拓扑图Vi进行全连接运算得到其输出Y1,其计算公式是:
Y1=W1*Vi+B1,i∈{0,1,2,3}   (4)
其中W1和B1分别是全连接层权值参数和偏置参数;
步骤5.2、图卷积阶段:该阶段由4个图卷积运算块组成,一个图卷积运算块包括4次卷积运算,一个残差运算,得到其输出Y2,其计算公式是:
Y2=Wr*(R*Y1*Wg)+Y1   (5)
R=(Wi*Y1(Vi)T*(Wj*Y1(Vj))),i∈{0,1,2,3},j∈{0,1,2,3}
其中Wi和Wj分别是相关系数卷积层的权重参数,Wr和Wg分别是图卷积残差运算和图卷积运算的权重参数;
步骤5.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure GDA0003981975200000061
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000062
Figure GDA0003981975200000063
分别是第一层和第二层偏置参数,σr是Relu激活函数,Ybackground是从背景图片提取出来的特征信息;
步骤6、利用步骤4和步骤5中生成的Xface和Ybackground分别执行融合阶段和分类阶段,最终得到视频或者图片的分类结果Cls(Xface,Ybackground);
所述步骤6具体包括以下步骤:
步骤6.1、融合阶段:该阶段将步骤4和步骤5生成的Xface和Ybackground执行softmax逻辑回归运算再按通道维度连接,其计算公式是:
F1={Xfaceface,Ybackgroundbackground}{λfacebackground}=soft max(Xface,Ybackground)   (7)
步骤6.2、分类阶段:该阶段包括2次卷积运算、丢失函数、激活函数和分类函数,其计算公式是:
Figure GDA0003981975200000064
其中W2 1和W2 2分别是第一层和第二层卷积权值参数,
Figure GDA0003981975200000065
Figure GDA0003981975200000066
分别是第一层和第二层偏置参数,drop是丢失函数,Logsoftmax是最后的分类函数,σr是Relu激活函数;
步骤7、选出步骤6分类概率输出中与视频或图片标注类别相对应的概率值;
步骤8、基于步骤7得出的分类概率值,不断更新并优化获得最优的卷积权值参数和偏置参数。
若分类概率值没有达到预先设定的分类识别率,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤4;若分类概率值已经获得预先设定的分类识别率时,则停止反向传播,并最终求得步骤4、5和6所获得的卷积权值参数和偏置参数。
为了验证本发明的有效性,采用CAER-S(Context-Aware Emotion Recogntion-Static)[5]公开图片数据库进行实验,该数据库的图片分辨率为712*400(像素),共有79个场景。本发明把图像数据集分为训练集和测试集,并且分割的人脸分辨率降为96*96,背景的图结构大小为36*2048。本发明的识别技术在图片数据库上与一些现有技术进行比较,例如Fine-tuned ResNet,Fine-tuned VGGNet和CAER-Net-S[5]等。
表1本发明与现有技术对于CAER-S图片数据库的平均人脸情绪识别率
Figure GDA0003981975200000071
从表1中可以看出,与现有经典人脸情绪识别算法相比,本发明在图片人脸情绪识别率分别提高了13%到22%左右。由此可见,本发明采用以上技术方案,较现有其他技术相比,对于图片中人脸情绪识别有更好的识别效果。
为了进一步验证人脸情绪识别效果,本发明也在公开视频数据库CAER(Context-Aware Emotion Recogntion)[5]上进行了性能评估。本发明将视频数据库中每个视频序列以10帧每秒的采样速率随机采样4帧图片作为输入,提取出人脸和背景在时间域中的变化信息,因此得到更好的识别效果。本发明的识别技术在视频数据库上与一些现有技术进行比较,例如Sports-1M-C3D,Fine-tuned C3D和CAER-Net[5]等。
表2本发明与现有技术对于CAER视频数据库的平均表情识别率
识别算法 Sports-1M-C3D Fine-tuned C3D CAER-Net 本发明
识别率(%) 66.38 71.02 77.04 91.32
从表2中可以看出,与现有经典人脸情绪识别算法相比,本发明在视频序列人脸情绪识别率分别提高了14%到25%左右。由此可见,本发明采用以上技术方案,较现有其他技术相比,对于视频序列中人脸表情有更好的识别效果。
表3本发明在CAER-S图片数据库中人脸情绪识别率的混淆矩阵
Figure GDA0003981975200000072
Figure GDA0003981975200000081
表3中的混淆矩阵展示的是对于数据库中的记录按照真实的类别与本发明的识别技术预测的类别判断的数据汇总,其中表格的行表示真实类别,表格的列表示预测类别。可以从表格中得出,本发明对于厌恶,恐惧和伤心表情的识别率都在90%以上,在其余表情识别率也大幅提升。
表4本发明在CAER视频数据库中人脸情绪识别率的混淆矩阵
Figure GDA0003981975200000082
从表4中得出,本发明在视频序列识别中对于开心,中立和伤心表情的识别率提高极大,其余表情识别率也比现有经典技术提高许多。不论在视频序列还是图片数据库上,与现有技术相比,本发明的人脸情绪识别率有大幅提升。
本发明提出的人脸表情识别算法的创新性主要体现在两个方面:第一,本发明在图像数据库中,利用非人脸区域的图卷积神经网络提取背景图,并将把图片的欧式结构转换成图结构,通过提取图结构中节点和边的空间特征信息分析背景中人物的情绪状态进行人脸情绪分类。与基于深度学习的技术相比,本发明对空间信息的提取更加高效,最终极大地提高了人脸情绪识别率。第二,对于视频序列的数据,图卷积神经网络不仅对于空间域上的特征信息提取也有所提高,而且对于视频序列中的背景变化信息进行了推理,从而极大地提高了人脸情绪识别率。
参考文献:
[1]Ying-Li Tian,T.Kanada and J.F.Cohn,"Recognizing upper face actionunits for facial expression analysis,"Proceedings IEEE Conference on ComputerVision and Pattern Recognition.CVPR 2000(Cat.No.PR00662),Hilton Head Island,SC,2000,pp.294-301 vol.1.doi:10.1109/CVPR.2000.855832
[2]Zhong L,Liu Q,Yang P,et al.Learning Multiscale Active FacialPatches for Expression Analysis[C]//Computer Vision and Pattern Recognition(CVPR),2012IEEE Conference on.IEEE,2012.
[3]Fan Y,Lam J C K,Li V O K.Video-based emotion recognition usingdeeply-supervised neural networks[C]//Proceedings ofthe 2018on InternationalConference on Multimodal Interaction.ACM,2018:584-588.
[4]Li Y,Zeng J,Shan S,et al.Occlusion aware facial expressionrecognition using cnn with attention mechanism[J].IEEE Transactions on ImageProcessing,2018,28(5):2439-2450.
[5]Lee J,Kim S,Kim S,et al.Context-Aware Emotion Recognition Networks[C]//Proceedings of the IEEE International Conference on ComputerVision.2019:10143-10152.
[6]Zhang K,Zhang Z,Li Z,et al.Joint face detection and alignmentusing multitask cascaded convolutional networks[J].IEEE Signal ProcessingLetters,2016,23(10):1499-1503.
[7]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种基于图卷积神经网络的人脸情绪识别方法,其特征在于,包括如下步骤:
步骤1、将训练的视频序列按10帧每秒的采样速度,连续抽取4帧图片,即网络输入一组图片Ii包含4帧,索引i∈{0,1,2,3};
步骤2、将通过步骤1所获得的一组图片Ii利用多任务卷积神经网络MTCNN人脸检测模型将图片Ii中的人脸分割生成人脸图片组Fi以及去除人脸的背景图片Bi,索引i∈{0,1,2,3};
步骤3、利用FasterR-CNN模型算法检测图片中存在的各种物体类别,将背景图像Bi从欧式结构转换成非欧式结构的拓扑图Vi,Vi={v1,v2,...,vt}包含36个节点,索引t∈{0,1,2,...,35}和i∈{0,1,2,3};
步骤4、利用步骤2中生成的人脸图片组Fi分别执行串联卷积层阶段、平均池化阶段和注意力机制阶段;最终,获得人脸图片的特征信息Xface
步骤5、利用步骤3中生成的拓扑图Vi分别执行初始阶段、图卷积阶段和注意力机制阶段;最终,获得拓扑图的特征信息Ybackground
步骤6、利用步骤4和步骤5中生成的Xface和Ybackground分别执行融合阶段和分类阶段,最终得到视频或者图片的分类结果Cls(Xface,Ybackground);
步骤7、选出步骤6分类概率输出中与视频或图片标注类别相对应的概率值;
步骤8、基于步骤7得出的分类概率值,不断更新并优化获得最优的卷积权值参数和偏置参数;
所述步骤4具体实现如下:
步骤4.1、串联卷积阶段:该阶段由5个卷积运行块组成,每个卷积运行块是由卷积运算、批量归一化、激活函数和池化运算得到,其计算公式是:
X1=max(σr(bn(W1*Fi+B1)),0),i∈{0,1,2,3}    (1)
其中W1和B1分别是卷积权值参数和偏置参数,bn是批量归一化函数,σr是Relu激活函数;
步骤4.2、平均池化阶段:该阶段将X1特征信息在时空维度上取平均,其计算公式是:
X2=aver(X1)    (2)
步骤4.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure FDA0003981975190000021
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure FDA0003981975190000022
Figure FDA0003981975190000023
分别是第一层和第二层偏置参数,Xface是从人脸图片提取出来的特征信息;
所述步骤5具体实现如下:
步骤5.1、初始阶段:将拓扑图Vi进行全连接运算得到其输出Y1,其计算公式是:
Y1=W1*Vi+B1,i∈{0,1,2,3}    (4)
其中W1和B1分别是全连接层权值参数和偏置参数;
步骤5.2、图卷积阶段:该阶段由4个图卷积运算块组成,一个图卷积运算块包括4次卷积运算,一个残差运算,得到其输出Y2,其计算公式是:
Y2=Wr*(R*Y1*Wg)+Y1    (5)
R=(Wi*Y1(Vi)T*(Wj*Y1(Vj))),i∈{0,1,2,3},j∈{0,1,2,3}
其中Wi和Wj分别是相关系数卷积层的权重参数,Wr和Wg分别是图卷积残差运算和图卷积运算的权重参数;
步骤5.3、注意力机制阶段:该阶段包括卷积运算、激活函数和卷积运算,其计算公式是:
Figure FDA0003981975190000024
其中W3 1和W3 2分别是第一层和第二层卷积权值参数,
Figure FDA0003981975190000025
Figure FDA0003981975190000026
分别是第一层和第二层偏置参数,σr是Relu激活函数,Ybackground是从背景图片提取出来的特征信息;
所述步骤6具体实现如下:
步骤6.1、融合阶段:该阶段将步骤4和步骤5生成的Xface和Ybackground执行softmax逻辑回归运算再按通道维度连接,其计算公式是:
F1={Xfaceface,Ybackgroundbackground}{λfacebackground}=softmax(Xface,Ybackground)                                                                          (7)
步骤6.2、分类阶段:该阶段包括2次卷积运算、丢失函数、激活函数和分类函数,其计算公式是:
Figure FDA0003981975190000027
其中W2 1和W2 2分别是第一层和第二层卷积权值参数,
Figure FDA0003981975190000031
Figure FDA0003981975190000032
分别是第一层和第二层偏置参数,drop是丢失函数,Logsoftmax是最后的分类函数,σr是Relu激活函数;
所述步骤8中,若分类概率值没有达到预先设定的分类识别率,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数,再执行步骤4;若分类概率值已经获得预先设定的分类识别率时,则停止反向传播,并最终求得步骤4、5和6所获得的卷积权值参数和偏置参数。
CN202010091759.0A 2020-02-14 2020-02-14 一种基于图卷积神经网络的人脸情绪识别方法 Active CN111339847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010091759.0A CN111339847B (zh) 2020-02-14 2020-02-14 一种基于图卷积神经网络的人脸情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010091759.0A CN111339847B (zh) 2020-02-14 2020-02-14 一种基于图卷积神经网络的人脸情绪识别方法

Publications (2)

Publication Number Publication Date
CN111339847A CN111339847A (zh) 2020-06-26
CN111339847B true CN111339847B (zh) 2023-04-14

Family

ID=71180375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010091759.0A Active CN111339847B (zh) 2020-02-14 2020-02-14 一种基于图卷积神经网络的人脸情绪识别方法

Country Status (1)

Country Link
CN (1) CN111339847B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183314B (zh) * 2020-09-27 2023-12-12 哈尔滨工业大学(深圳) 一种表情信息采集装置和表情识别方法及系统
CN112257517B (zh) * 2020-09-30 2023-04-21 中国地质大学(武汉) 一种基于景点聚类和群体情感识别的旅游景点推荐系统
CN114511895B (zh) * 2020-11-16 2024-02-02 四川大学 一种基于注意力机制多尺度网络的自然场景情绪识别方法
CN112529068B (zh) * 2020-12-08 2023-11-28 广州大学华软软件学院 一种多视图图像分类方法、系统、计算机设备和存储介质
CN112699774B (zh) * 2020-12-28 2024-05-24 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112733764A (zh) * 2021-01-15 2021-04-30 天津大学 一种基于多模态识别视频情感信息的方法
CN112885432A (zh) * 2021-02-06 2021-06-01 北京色彩情绪健康科技发展有限公司 一种情绪分析管理系统
CN113255543B (zh) * 2021-06-02 2023-04-07 西安电子科技大学 基于图卷积网络的面部表情识别方法
CN113598774B (zh) * 2021-07-16 2022-07-15 中国科学院软件研究所 基于多通道脑电数据的积极情绪多标签分类方法及装置
CN115052193B (zh) * 2022-05-25 2023-07-18 天翼爱音乐文化科技有限公司 视频推荐方法、系统、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921042A (zh) * 2018-06-06 2018-11-30 四川大学 一种基于深度学习的人脸序列表情识别方法
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN110464366A (zh) * 2019-07-01 2019-11-19 华南师范大学 一种情绪识别方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921042A (zh) * 2018-06-06 2018-11-30 四川大学 一种基于深度学习的人脸序列表情识别方法
CN109815785A (zh) * 2018-12-05 2019-05-28 四川大学 一种基于双流卷积神经网络的人脸情绪识别方法
CN110464366A (zh) * 2019-07-01 2019-11-19 华南师范大学 一种情绪识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN111339847A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339847B (zh) 一种基于图卷积神经网络的人脸情绪识别方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN109522853B (zh) 面向监控视频的人脸检测与搜索方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN110084156A (zh) 一种步态特征提取方法及基于步态特征的行人身份识别方法
Chaudhari et al. Face detection using viola jones algorithm and neural networks
CN110084266B (zh) 一种基于视听特征深度融合的动态情感识别方法
CN109472198A (zh) 一种姿态鲁棒的视频笑脸识别方法
CN110458235B (zh) 一种视频中运动姿势相似度比对方法
Rao et al. Sign Language Recognition System Simulated for Video Captured with Smart Phone Front Camera.
CN106529504B (zh) 一种复合时空特征的双模态视频情感识别方法
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
Al-Nima et al. Regenerating face images from multi-spectral palm images using multiple fusion methods
CN111401211A (zh) 一种采用图像增广和小样本学习的虹膜识别方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
Bukht et al. A novel framework for human action recognition based on features fusion and decision tree
Mohamed Automatic system for Arabic sign language recognition and translation to spoken one
Wei et al. A survey of facial expression recognition based on deep learning
CN113705384A (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
Mohandas et al. On the use of deep learning enabled face mask detection for access/egress control using TensorFlow Lite based edge deployment on a Raspberry Pi
Elmezain et al. Vision-based human activity recognition using ldcrfs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant