CN116311472B - 基于多层次图卷积网络的微表情识别方法及装置 - Google Patents
基于多层次图卷积网络的微表情识别方法及装置 Download PDFInfo
- Publication number
- CN116311472B CN116311472B CN202310367105.XA CN202310367105A CN116311472B CN 116311472 B CN116311472 B CN 116311472B CN 202310367105 A CN202310367105 A CN 202310367105A CN 116311472 B CN116311472 B CN 116311472B
- Authority
- CN
- China
- Prior art keywords
- micro
- expression
- data
- optical flow
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003287 optical effect Effects 0.000 claims abstract description 62
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 36
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000005096 rolling process Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 210000004709 eyebrow Anatomy 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008909 emotion recognition Effects 0.000 claims 1
- 210000001097 facial muscle Anatomy 0.000 description 12
- 230000001815 facial effect Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多层次图卷积网络的微表情识别方法及装置,该方法步骤包括:S01.获取不同类别的微表情数据构成微表情数据集并进行数据预处理;S02.从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征,得到微表情特征数据;S03.将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练,得到训练后的微表情识别模型,基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块;S04.将待识别的微表情视频数据进行预处理后输入至训练后的微表情识别模型中,得到识别结果。本发明具有实现方法简单、计算量小、识别精度以及效率高等优点。
Description
技术领域
本发明涉及微表情识别技术领域,尤其涉及一种基于多层次图卷积网络的微表情识别方法及装置。
背景技术
面部表情通常可以分为宏观表情和微观表情两类,其中面部的宏观表情很长,意图明显,很容易被人类和机器识别。面部微表情能够表现出一个人真实的情感,无法被伪造、隐藏或用来欺骗个人的真实感受或心理状态,因而微表情在测谎、在线学习、安全、医疗保健(抑郁症康复、治疗等)和在线游戏等各个领域有着广泛的应用。但是面部微表情由于是皮肤下短暂、微小、快速和不自主的面部肌肉运动,这些表情的持续时间往往很短(通常不到一秒钟),难以直接被精准的识别出。
由于微表情的人为识别特别困难,训练难度大且准确率不高,因而需要借助于计算机对微表情进行自动识别。目前微表情的自动识别技术主要分两种:基于手工特征的识别方法以及基于深度学习的识别方法,其中手工特征提取方法是采用手动计算的方式,因而自适应性较差;基于深度学习的识别方法则是使用各种新型的神经网络结构来提取用于微表情分类的特征,例如CNN(卷积神经网络)、RNN(循环神经网络)、GCN(图神经网络)以及GAT(图注意力网络)等,同时辅以光流法,动作单元(AU)等表示的面部肌肉运动的方法,对微表情进一步分类。但是由于面部微表情强度低、变化短暂且持续时间短,现有技术中动态特征提取方法仍然会存在大量信息缺失,导致目前基于卷积神经网络的微表情识别准确率仍然不高。
微表情本质是一种面部肌肉细微的动态变化,通过人脸关键点构造图结构的方法可以很好地提取面部运动信息,因而利用该方式得到的图卷积网络实现微表情识别,可以有效提高微表情识别的性能。但是传统简单的基于人脸关键点构造图结构的方式实现微表情识别会存在以下问题:一方面,由于每个关键点只关注对应的局部变化而忽略整体信息,这会导致过度关注人脸细节,而这些细节不同的人脸很可能具有相同的微表情,导致影响识别精度;另一方面,传统方案针对不同部位的特征点关注程度是相同的,而面部肌肉在不同的特征点处运动幅度是不一样的,例如一个表示压抑的微表情其眉头变化幅度是要大于嘴部的,即不同的微表情对不同部位的特征点关注程度应当是不同的,因而若对不同部位的特征点采用相同的关注程度,无法充分捕获面部肌肉的细微变化,导致微表情识别精度仍然不高。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、计算量小、识别精度以及效率高的基于多层次图卷积网络的微表情识别方法及装置。
为解决上述技术问题,本发明提出的技术方案为:
一种基于多层次图卷积网络的微表情识别方法,步骤包括:
S01.获取不同类别的微表情数据构成微表情数据集并进行数据预处理;
S02.从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征,得到微表情特征数据;
S03. 将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练,得到训练后的微表情识别模型,所述基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块;所述时空卷积模块输入所述光流特征进行逐元素的卷积操作,输出第一特征向量,所述自注意力模块输入所述人脸关键点特征,输出第二特征向量/>,所述双重图卷积模块输入所述人脸关键点特征并计算得到对应人脸不同部位的特征矩阵,经过图卷积网络得到第三特征向量/>,由所述第一特征向量/>、第二特征向量/>以及第三特征向量/>拼接构成最终的特征向量;
S04.将待识别的微表情视频数据进行预处理后输入至所述训练后的微表情识别模型中,得到识别结果输出。
进一步的,所述步骤S01中进行数据预处理的步骤包括:
S101.获取微表情数据的起始帧、顶点帧、结束帧;
S102.对步骤S101得到的三帧图像分别进行人脸关键点检测与定位,获取多个关键点的坐标;
S103.根据步骤S012获取的各个关键点对各图像进行裁剪,使得裁剪后的图像仅包含人脸面部区域;
S104.将裁剪后的各图像进行统一标准化和灰度归一化,得到预处理后的微表情数据。
进一步的,所述步骤S02中提取各微表情数据的光流特征包括:
将预处理后的微表情数据中起始帧、顶点帧、结束帧分为两组,采用LK光流法分别计算每组数据的水平光流数据和垂直光流数据;
将所述水平光流数据和垂直光流数据拼接后进行标准化操作,得到每组的光流数据;
将得到的两组光流数据逐元素取统计值,得到光流特征。
进一步的,按照下式计算光流数据:
其中,表示/>处的像素点在/>时刻的强度,/>表示该点在/>时间移动的横坐标距离,/>表示该点在/>时间移动的纵坐标距离,/>表示该点的光流水平分量,/>表示该点的光流垂直分量。
进一步的,所述步骤S02中提取人脸关键点特征包括:
分别获取预处理后微表情数据中顶点帧的各个关键点的坐标;
根据获取的关键点的坐标,划定以坐标点为中心的固定大小的区块,得到对应区块的灰度图像素表示,即得到所述人脸关键点特征。
进一步的,所述时空卷积模块通过先对每个输入的光流特征进行三个逐元素的卷积操作,然后将得到的结果按行拼接在一起,最后经过一个最大池化层后得到所述第一特征向量,即:
其中,为卷积操作,/>表示按行拼接操作,/>表示最大池化。
进一步的,所述关键点注意力模块通过将每个关键点特征展平为一维后按行合并,然后依次经过自注意力层、残差连接层、全局平均池化层后得到所述第二特征向量;所述自注意力层包括三个可学习的参数矩阵/>以控制输入特征做线性变化,分别得到对应的键矩阵K、值矩阵V和查询矩阵Q;将所述查询矩阵Q和键矩阵K的转置相乘,再经过softmax函数,得到包含各个关键点特征权重的权重矩阵,再将权重矩阵乘以值矩阵得到自注意力层的输出;所述残差连接层用于将所述自注意力层的输出加上输入,所述全局平均池化层将输入分成若干个通道,对每个通道计算一个平均值;
所述第二特征向量的具体计算表达式为:
其中,表示全局平均池化,/>,/>的维度。
进一步的,所述双重图卷积模块得到所述第三特征向量的步骤包括:
将各个人脸关键点按照所在位置划分为对应眉毛、眼睛、鼻子、嘴巴和下巴轮廓的各个部位;
将属于同一部位的关键点特征矩阵经过一个卷积操作后相加,得到对应各个部位的特征矩阵;
将各个部位的特征矩阵展平为一维后按行合并,得到总的部位特征矩阵,然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量/>,其中图卷积网络的逐层传播公式如下:
其中,是/>的度矩阵,/>,/>是可学习的参数矩阵,/>表示用于描述各个部位之间连接关系的邻接矩阵,元素值0表示没有连接,1表示有连接。
进一步的,所述步骤S03中微表情识别模型进行训练时,使用预设的损失函数计算微表情识别模型的损失值,并通过反向传播算法调整模型参数;当损失最小时,得到训练后的微表情识别模型,使用的所述损失函数为交叉熵损失函数,计算表达式为:
其中,表示训练样本数,/>表示第/>个样本的真实概率分布,/>表示第/>个样本的预测概率分布。
一种基于多层次图卷积网络的微表情识别装置,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以执行如上述方法。
与现有技术相比,本发明的优点在于:本发明通过采用端到端的特征提取方法,分别提取光流特征以及人脸的关键点特征,使得可以同时关注面部的局部信息以及整体信息,同时构建基于多层次图卷积网络的微表情识别模型,以采用多层次图卷积网络结合自注意力机制的方法对微表情进行识别,利用多层级的图结构使得可以学习面部肌肉运动的局部特征和整体特征,同时通过人脸关键点结合图卷积神经网络学习节点特征和边特征,可以从多个层次捕获面部肌肉的细微变化,不同的微表情对不同部位的特征点关注程度也不同,从而丰富微表情特征的表达,充分表征不同面部微表情的动态变化特性,有效地提高了微表情识别的准确率,且不需要依赖手工设计特征,计算量更小,泛化能力和自适应能力也更好。
附图说明
图1是本实施例基于多层次图卷积网络的微表情识别方法的实现流程示意图。
图2是本实施例中时空卷积模块的结构原理示意图。
图3是本实施例中关键点注意力模块的结构原理示意图。
图4是本实施例中通过关键点特征提取部位特征的原理示意图。
图5是本实施例中双重图卷积模块的结构原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1~5所示,本实施例基于多层次图卷积网络的微表情识别方法的步骤包括:
S01.数据获取与预处理:获取不同类别的微表情数据构成微表情数据集并进行数据预处理。
微表情类别可以包括惊讶、开心、生气等,具体类别设置可以根据实际需求设置。将大量不同类别的微表情数据构成微表情数据集以用于进行模型训练,在模型训练前需要对微表情数据进行数据预处理。在本实施例中,进行数据预处理的具体步骤包括:
S101.获取微表情数据的起始帧、顶点帧、结束帧三帧图像;
S102.对步骤S101得到的三帧图像分别进行人脸关键点检测与定位,获取多个关键点的坐标;
S103.根据步骤S012获取的各个关键点对各图像进行裁剪,使得裁剪后的图像仅包含人脸面部区域;
S104.将裁剪后的各图像进行统一标准化和灰度归一化,得到预处理后的微表情数据。
在具体应用实施例中,数据预处理时首先获取微表情数据集,数据集中包括表情标签信息和视频流序列的起始帧、顶点帧、结束帧索引,根据索引得到所需的三帧图像,其中,起始帧微视频中的人脸开始出现微表情的那一帧,顶点帧微人脸的微表情动作幅度最大最强烈的那一帧,结束帧微微表情序列的最后一帧,如果没有顶点帧索引,则使用中间位置的帧代替。然后,通过OpenCV的dlib库对得到的三帧图像分别进行人脸关键点检测与定位,可以获取68个关键点的坐标;再根据该68个坐标进行裁剪,使得裁剪后的图像仅包含人脸面部区域。最后,将裁剪后的图像统一标准化和灰度归一化,将最后的图像大小统一为128*128像素(通道数为1),即得到预处理后的微表情数据。
S02.特征提取:从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征,得到微表情特征数据。
在本实施例中,微表情特征数据包括光流特征与人脸关键点特征两种类型,使得可以同时学习面部肌肉运动的局部特征和整体特征,即既能够关注局部变化,又能够关注整体信息,避免过度关注人脸细节。
在本实施例中,光流特征具体包括水平分量和垂直分量,提取各微表情数据的光流特征的具体步骤包括:
S201.将预处理后的微表情数据中起始帧、顶点帧、结束帧分为两组(例如起始帧和顶点帧分为一组,顶点帧和结束帧分为另一组),采用LK(Lucas–Kanade)光流法分别计算每组数据的水平光流数据和垂直光流数据;
S202.将水平光流数据和垂直光流数据拼接后进行标准化操作,得到每组的光流数据;
S203.将得到的两组光流数据逐元素取统计值(例如均值等),得到光流特征。
在具体应用实施例中,步骤S201中按照下式计算光流数据:
(1)
(2)
(3)
其中,表示/>处的像素点在/>时刻的强度,/>表示该点在/>时间移动的横坐标距离,/>表示该点在/>时间移动的纵坐标距离,/>表示该点的光流水平分量,/>表示该点的光流垂直分量。
在具体应用实施例中,对微表情数据中划分每组数据,通过水平分量u、垂直分量v的计算,可以分别得到大小为128*128的水平光流数据和垂直光流数据,进行拼接(例如水平分量u在上、垂直分量v在下)后得到256*128的光流数据,然后进行标准化操作,使其大小变为64*32;再将得到的两组光流数据逐元素取均值,即可得到光流特征。
在本实施例中,提取人脸关键点所在区块的灰度图特征,得到对应的关键点特征,步骤包括:
分别获取预处理后微表情数据中顶点帧的各个关键点的坐标;
根据获取的关键点的坐标,划定以坐标点为中心的固定大小的区块,得到对应区块的灰度图像素表示,即得到所述人脸关键点特征。
在具体应用实施例中,可以通过dlib库得到预处理后的顶点帧的68个关键点的坐标,然后根据坐标位置定位划定以坐标点为中心的大小为10*10的区块,得到上述区块的灰度图像素表示即作为关键点特征,共得到68个大小为10*10的关键点特征。
S03.模型训练:将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练,得到训练后的微表情识别模型,基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块。其中,时空卷积模块输入光流特征进行逐元素的卷积操作,输出第一特征向量,自注意力模块输入人脸关键点特征,输出第二特征向量/>,双重图卷积模块输入人脸关键点特征并计算得到对应人脸不同部位的特征矩阵,经过图卷积网络得到第三特征向量/>,由第一特征向量/>、第二特征向量/>以及第三特征向量/>拼接构成最终的特征向量。
如图1所示,本实施例将光流特征输入时空卷积模块,得到特征向量;将关键点特征输入节点自注意力模块,得到特征向量/>;将关键点特征输入双重图卷积模块,得到特征向量/>;然后将特征向量/>、/>、/>按行拼接在一起,得到最终的特征向量/>,通过全连接层和softmax函数后得到最后的分类结果,由于分别利用时空卷积模块、自注意力模块对光流特征、关键点特征进行处理,可以同时关注面部的局部信息以及整体信息,同时利用双重图卷积模块计算人脸不同部位的特征矩阵,再利用不同部位的特征矩阵经过图卷积网络得到对应的特征向量,使得不同的微表情对不同部位的特征点关注程度不同,从而综合三种特征向量最终形成的特征向量可以充分表征面部微表情的动态变化,有效提高微表情识别的精度,还可以降低微表情识别的处理量。
在本实施例中,时空卷积模块具体通过先对每个输入的光流特征进行三个逐元素的卷积操作,然后将得到的结果按行拼接在一起,最后经过一个最大池化层后得到所述第一特征向量,即:
(4)
其中,为卷积操作,/>表示按行拼接操作,/>表示最大池化。
在具体应用实施例中,如图2所示,首先对输入的光流特征进行三个逐元素的卷积操作,卷积核分别为62*24,63*24,64*24;将得到的结果按行拼接在一起,得到大小为6*9的向量;再经过一个最大池化层后,得到最终的特征向量,即为:
。
在本实施例中,关键点注意力模块具体通过将每个关键点特征展平为一维后按行合并,得到,然后依次经过自注意力层、残差连接层、全局平均池化层后得到第二特征向量/>);自注意力层包括三个可学习的参数矩阵/>(维度具体均为100*100)以控制输入特征做线性变化,即输入特征通过它们做线性变化,分别得到对应的键矩阵K、值矩阵V和查询矩阵Q;将查询矩阵Q和键矩阵K的转置相乘,再经过softmax函数,得到包含各个关键点特征权重的权重矩阵,再将权重矩阵乘以值矩阵得到自注意力层的输出;残差连接层用于将所述自注意力层的输出加上输入,即残差连接层通过将自注意力层的输出加上输入来实现。全局平均池化层将输入分成若干个通道,对每个通道计算一个平均值。
第二特征向量的具体计算表达式为:
(5)
其中,表示全局平均池化,/>,/>的维度,具体取/>。
在本实施例中,双重图卷积模块得到第三特征向量的具体步骤包括:
将各个人脸关键点按照所在位置划分为对应眉毛、眼睛、鼻子、嘴巴和下巴轮廓的各个部位;
将属于同一部位的关键点特征矩阵经过一个卷积操作后相加,得到对应各个部位的特征矩阵;
将各个部位的特征矩阵展平为一维后按行合并,得到总的部位特征矩阵,然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量/>。
上述图卷积网络的逐层传播公式如下:
(6)
其中,是/>的度矩阵,/>,/>是可学习的参数矩阵,/>表示用于描述各个部位之间连接关系的邻接矩阵,元素值0表示没有连接,1表示有连接。
在具体应用实施例中,先将人脸的68个关键点按照所在位置分成7个部位,分别代表眉毛、眼睛、鼻子、嘴巴和下巴轮廓(其中眉毛和眼睛各2个,分为左边和右边);将该7个部位之间的连接关系用邻接矩阵表示,元素值0表示没有连接,1表示有连接;划定所属部位后,如图5所示,属于同一部位的关键点特征矩阵经过一个卷积核为7*7的卷积操作后相加,分别得到7个部位特征矩阵;将各部位特征矩阵展平为一维后按行合并,得到总的部位特征矩阵,用特征矩阵/>表示;然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到最终的特征向量/>。
通过本实施例上述微表情识别模型,结合人脸关键点与图卷积神经网络有效学习节点特征和边特征,可以从多个层次捕获面部肌肉的细微变化,从而丰富微表情特征的表达,有效提高微表情识别的准确率。
在本实施例中,对微表情识别模型进行训练时,使用预设的损失函数计算微表情识别模型的损失值,并通过反向传播算法调整模型参数;当损失最小时,得到训练后的微表情识别模型并进行保存。训练时采用的优化器为Adam优化器,Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点,损失函数则设定为交叉熵损失函数,表达式具体为:
(7)
其中,表示训练样本数,/>表示第/>个样本的真实概率分布,/>表示第/>个样本的预测概率分布。
S04.微表情识别:将待识别的微表情视频数据进行预处理后输入至训练后的微表情识别模型中,得到识别结果输出。
获取到待识别的微表情视频数据后先进行预处理,预处理可以采用与步骤S01中相同的预处理方式,即可以得到预处理后的待识别微表情数据,按照与步骤S02相同的方式提取出光流特征以及人脸关键点特征以后,输入至训练好的微表情识别模型中,即可得到微表情的分类结果。
考虑到微表情是一种面部肌肉动态的变化,本发明通过采用端到端的特征提取方法,分别提取光流特征以及人脸的关键点特征,使得可以同时关注面部的局部信息以及整体信息,同时构建基于多层次图卷积网络的微表情识别模型,以采用多层次图卷积网络结合自注意力机制的方法对微表情进行识别,利用多层级的图结构使得可以学习面部肌肉运动的局部特征和整体特征,同时通过人脸关键点结合图卷积神经网络学习节点特征和边特征,可以从多个层次捕获面部肌肉的细微变化,不同的微表情对不同部位的特征点关注程度也不同,从而丰富微表情特征的表达,充分表征不同面部微表情的动态变化特性,有效地提高了微表情识别的准确率,且不需要依赖手工设计特征,计算量更小,泛化能力和自适应能力也更好。
本实施例还提供基于多层次图卷积网络的微表情识别装置,包括处理器以及存储器,存储器用于存储计算机程序,处理器用于执行所述计算机程序以执行如上述方法。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (9)
1.一种基于多层次图卷积网络的微表情识别方法,其特征在于,步骤包括:
S01.获取不同类别的微表情数据构成微表情数据集并进行数据预处理;
S02.从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征,得到微表情特征数据;
S03.将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练,得到训练后的微表情识别模型,所述基于多层次图卷积网络的微表情识别模型包括时空卷积模块、关键点注意力模块和双重图卷积模块;所述时空卷积模块输入所述光流特征进行逐元素的卷积操作,输出第一特征向量Pflow,所述关键点注意力模块输入所述人脸关键点特征,输出第二特征向量Plocsl,所述双重图卷积模块输入所述人脸关键点特征并计算得到对应人脸不同部位的特征矩阵,经过图卷积网络得到第三特征向量Pglobal,由所述第一特征向量Pflow、第二特征向量Plocal以及第三特征向量Pglobal拼接构成最终的特征向量;
S04.将待识别的微表情视频数据进行预处理后输入至所述训练后的微表情识别模型中,得到识别结果输出;
所述关键点注意力模块通过将每个关键点特征展平为一维后按行合并,然后依次经过自注意力层、残差连接层、全局平均池化层后得到所述第二特征向量Plocal;所述自注意力层包括三个可学习的参数矩阵Wq、Wk、Wv以控制输入特征做线性变化,分别得到对应的键矩阵K、值矩阵V和查询矩阵Q;将所述查询矩阵Q和键矩阵K的转置相乘,再经过softmax函数,得到包含各个关键点特征权重的权重矩阵,再将权重矩阵乘以值矩阵得到自注意力层的输出;所述残差连接层用于将所述自注意力层的输出加上输入,所述全局平均池化层将输入分成若干个通道,对每个通道计算一个平均值;
所述第二特征向量Plocal的具体计算表达式为:
其中,GAP表示全局平均池化,Q=Pnode·Wq,K=Pnode·Wk,V=Pnode·Wv,dk表示K的维度。
2.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述步骤S01中进行数据预处理的步骤包括:
S101.获取微表情数据的起始帧、顶点帧、结束帧;
S102.对步骤S101得到的三帧图像分别进行人脸关键点检测与定位,获取多个关键点的坐标;
S103.根据步骤S012获取的各个关键点对各图像进行裁剪,使得裁剪后的图像仅包含人脸面部区域;
S104.将裁剪后的各图像进行统一标准化和灰度归一化,得到预处理后的微表情数据。
3.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述步骤S02中提取各微表情数据的光流特征包括:
将预处理后的微表情数据中起始帧、顶点帧、结束帧分为两组,采用LK光流法分别计算每组数据的水平光流数据和垂直光流数据;
将所述水平光流数据和垂直光流数据拼接后进行标准化操作,得到每组的光流数据;
将得到的两组光流数据逐元素取统计值,得到光流特征。
4.根据权利要求3所述的基于多层次图卷积网络的微表情识别方法,其特征在于,按照下式计算光流数据:
I(x,y,t)=I(x+Δx,y+Δy,t+Δt)
Δx=ux,yΔt
Δy=vx,yΔt
其中,I(x,y,t)表示(x,y)处的像素点在t时刻的强度,Δx表示该点在Δt时间移动的横坐标距离,Δy表示该点在Δt时间移动的纵坐标距离,ux,y表示该点的光流水平分量,vx,y表示该点的光流垂直分量。
5.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述步骤S02中提取人脸关键点特征包括:
分别获取预处理后微表情数据中顶点帧的各个关键点的坐标;
根据获取的关键点的坐标,划定以坐标点为中心的固定大小的区块,得到对应区块的灰度图像素表示,即得到所述人脸关键点特征。
6.根据权利要求1~5中任意一项所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述时空卷积模块通过先对每个输入的光流特征进行三个逐元素的卷积操作,然后将得到的结果按行拼接在一起,最后经过一个最大池化层后得到所述第一特征向量Pflow,即:
其中,Convi为卷积操作,表示按行拼接操作,MaxPooling表示最大池化。
7.根据权利要求1~5中任意一项所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述双重图卷积模块得到所述第三特征向量Pglobal的步骤包括:
将各个人脸关键点按照所在位置划分为对应眉毛、眼睛、鼻子、嘴巴和下巴轮廓的各个部位;
将属于同一部位的关键点特征矩阵经过一个卷积操作后相加,得到对应各个部位的特征矩阵;
将各个部位的特征矩阵展平为一维后按行合并,得到总的部位特征矩阵X,然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量Pglobal,其中图卷积网络的逐层传播公式如下:
其中,是A+I的度矩阵,H(0)=X,w(l)是可学习的参数矩阵,A表示用于描述各个部位之间连接关系的邻接矩阵,元素值0表示没有连接,1表示有连接。
8.根据权利要求1~5中任意一项所述的基于多层次图卷积网络的微表情识别方法,其特征在于,所述步骤S03中微表情识别模型进行训练时,使用预设的损失函数计算微表情识别模型的损失值,并通过反向传播算法调整模型参数;当损失最小时,,得到训练后的微表情识别模型,使用的所述损失函数为交叉熵损失函数,计算表达式为:
其中,N表示训练样本数,yk表示第个样本的真实概率分布,表示第个样本的预测概率分布。
9.一种基于多层次图卷积网络的微表情识别装置,包括处理器以及存储器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序以执行如权利要求1~8中任意一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367105.XA CN116311472B (zh) | 2023-04-07 | 2023-04-07 | 基于多层次图卷积网络的微表情识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367105.XA CN116311472B (zh) | 2023-04-07 | 2023-04-07 | 基于多层次图卷积网络的微表情识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311472A CN116311472A (zh) | 2023-06-23 |
CN116311472B true CN116311472B (zh) | 2023-10-31 |
Family
ID=86792590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310367105.XA Active CN116311472B (zh) | 2023-04-07 | 2023-04-07 | 基于多层次图卷积网络的微表情识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311472B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456590B (zh) * | 2023-12-25 | 2024-04-02 | 天津生联智慧科技发展有限公司 | 一种针对智能城市应用的视觉转换的人脸识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766159A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于多特征融合的跨数据库微表情识别方法 |
CN112800891A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种用于微表情识别的鉴别性特征学习方法与系统 |
CN112800903A (zh) * | 2021-01-19 | 2021-05-14 | 南京邮电大学 | 一种基于时空图卷积神经网络的动态表情识别方法及系统 |
CN113496217A (zh) * | 2021-07-08 | 2021-10-12 | 河北工业大学 | 视频图像序列中人脸微表情识别方法 |
CN114550270A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于双注意力机制的微表情识别方法 |
-
2023
- 2023-04-07 CN CN202310367105.XA patent/CN116311472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800891A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种用于微表情识别的鉴别性特征学习方法与系统 |
CN112800903A (zh) * | 2021-01-19 | 2021-05-14 | 南京邮电大学 | 一种基于时空图卷积神经网络的动态表情识别方法及系统 |
CN112766159A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于多特征融合的跨数据库微表情识别方法 |
CN113496217A (zh) * | 2021-07-08 | 2021-10-12 | 河北工业大学 | 视频图像序列中人脸微表情识别方法 |
CN114550270A (zh) * | 2022-03-03 | 2022-05-27 | 重庆邮电大学 | 一种基于双注意力机制的微表情识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116311472A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
Littlewort et al. | Dynamics of facial expression extracted automatically from video | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
Chin et al. | Incremental kernel principal component analysis | |
CN111797683A (zh) | 一种基于深度残差注意力网络的视频表情识别方法 | |
CN109886225A (zh) | 一种基于深度学习的图像手势动作在线检测与识别方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113221639A (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
CN108830237B (zh) | 一种人脸表情的识别方法 | |
CN113392766A (zh) | 一种基于注意力机制的人脸表情识别方法 | |
Luo et al. | Shape constrained network for eye segmentation in the wild | |
Dudul et al. | Emotion recognition from facial expression using neural networks | |
CN110598638A (zh) | 模型训练方法、人脸性别预测方法、设备及存储介质 | |
CN110909680A (zh) | 人脸图像的表情识别方法、装置、电子设备及存储介质 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN116311472B (zh) | 基于多层次图卷积网络的微表情识别方法及装置 | |
Wang et al. | Light attention embedding for facial expression recognition | |
KR20190061538A (ko) | 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치 | |
CN116311483A (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
Arnaud et al. | Tree-gated deep mixture-of-experts for pose-robust face alignment | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Oliveira et al. | A comparison between end-to-end approaches and feature extraction based approaches for sign language recognition | |
Elbarawy et al. | Facial expressions recognition in thermal images based on deep learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |