CN116311472B

CN116311472B - 基于多层次图卷积网络的微表情识别方法及装置

Info

Publication number: CN116311472B
Application number: CN202310367105.XA
Authority: CN
Inventors: 陈妍; 吴乐晨; 陈晓红; 周国庆; 张小威
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-10-31
Anticipated expiration: 2043-04-07
Also published as: CN116311472A

Abstract

本发明公开一种基于多层次图卷积网络的微表情识别方法及装置，该方法步骤包括：S01.获取不同类别的微表情数据构成微表情数据集并进行数据预处理；S02.从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征，得到微表情特征数据；S03.将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练，得到训练后的微表情识别模型，基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块；S04.将待识别的微表情视频数据进行预处理后输入至训练后的微表情识别模型中，得到识别结果。本发明具有实现方法简单、计算量小、识别精度以及效率高等优点。

Description

基于多层次图卷积网络的微表情识别方法及装置

技术领域

本发明涉及微表情识别技术领域，尤其涉及一种基于多层次图卷积网络的微表情识别方法及装置。

背景技术

面部表情通常可以分为宏观表情和微观表情两类，其中面部的宏观表情很长，意图明显，很容易被人类和机器识别。面部微表情能够表现出一个人真实的情感，无法被伪造、隐藏或用来欺骗个人的真实感受或心理状态，因而微表情在测谎、在线学习、安全、医疗保健（抑郁症康复、治疗等）和在线游戏等各个领域有着广泛的应用。但是面部微表情由于是皮肤下短暂、微小、快速和不自主的面部肌肉运动，这些表情的持续时间往往很短（通常不到一秒钟），难以直接被精准的识别出。

由于微表情的人为识别特别困难，训练难度大且准确率不高，因而需要借助于计算机对微表情进行自动识别。目前微表情的自动识别技术主要分两种：基于手工特征的识别方法以及基于深度学习的识别方法，其中手工特征提取方法是采用手动计算的方式，因而自适应性较差；基于深度学习的识别方法则是使用各种新型的神经网络结构来提取用于微表情分类的特征，例如CNN（卷积神经网络）、RNN（循环神经网络）、GCN（图神经网络）以及GAT（图注意力网络）等，同时辅以光流法，动作单元（AU）等表示的面部肌肉运动的方法，对微表情进一步分类。但是由于面部微表情强度低、变化短暂且持续时间短，现有技术中动态特征提取方法仍然会存在大量信息缺失，导致目前基于卷积神经网络的微表情识别准确率仍然不高。

微表情本质是一种面部肌肉细微的动态变化，通过人脸关键点构造图结构的方法可以很好地提取面部运动信息，因而利用该方式得到的图卷积网络实现微表情识别，可以有效提高微表情识别的性能。但是传统简单的基于人脸关键点构造图结构的方式实现微表情识别会存在以下问题：一方面，由于每个关键点只关注对应的局部变化而忽略整体信息，这会导致过度关注人脸细节，而这些细节不同的人脸很可能具有相同的微表情，导致影响识别精度；另一方面，传统方案针对不同部位的特征点关注程度是相同的，而面部肌肉在不同的特征点处运动幅度是不一样的，例如一个表示压抑的微表情其眉头变化幅度是要大于嘴部的，即不同的微表情对不同部位的特征点关注程度应当是不同的，因而若对不同部位的特征点采用相同的关注程度，无法充分捕获面部肌肉的细微变化，导致微表情识别精度仍然不高。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、计算量小、识别精度以及效率高的基于多层次图卷积网络的微表情识别方法及装置。

为解决上述技术问题，本发明提出的技术方案为：

一种基于多层次图卷积网络的微表情识别方法，步骤包括：

S01.获取不同类别的微表情数据构成微表情数据集并进行数据预处理；

S02.从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征，得到微表情特征数据；

S03. 将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练，得到训练后的微表情识别模型，所述基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块；所述时空卷积模块输入所述光流特征进行逐元素的卷积操作，输出第一特征向量，所述自注意力模块输入所述人脸关键点特征，输出第二特征向量/>，所述双重图卷积模块输入所述人脸关键点特征并计算得到对应人脸不同部位的特征矩阵，经过图卷积网络得到第三特征向量/>，由所述第一特征向量/>、第二特征向量/>以及第三特征向量/>拼接构成最终的特征向量；

S04.将待识别的微表情视频数据进行预处理后输入至所述训练后的微表情识别模型中，得到识别结果输出。

进一步的，所述步骤S01中进行数据预处理的步骤包括：

S101.获取微表情数据的起始帧、顶点帧、结束帧；

S102.对步骤S101得到的三帧图像分别进行人脸关键点检测与定位，获取多个关键点的坐标；

S103.根据步骤S012获取的各个关键点对各图像进行裁剪，使得裁剪后的图像仅包含人脸面部区域；

S104.将裁剪后的各图像进行统一标准化和灰度归一化，得到预处理后的微表情数据。

进一步的，所述步骤S02中提取各微表情数据的光流特征包括：

将预处理后的微表情数据中起始帧、顶点帧、结束帧分为两组，采用LK光流法分别计算每组数据的水平光流数据和垂直光流数据；

将所述水平光流数据和垂直光流数据拼接后进行标准化操作，得到每组的光流数据；

将得到的两组光流数据逐元素取统计值，得到光流特征。

进一步的，按照下式计算光流数据：

其中，表示/>处的像素点在/>时刻的强度，/>表示该点在/>时间移动的横坐标距离，/>表示该点在/>时间移动的纵坐标距离，/>表示该点的光流水平分量，/>表示该点的光流垂直分量。

进一步的，所述步骤S02中提取人脸关键点特征包括：

分别获取预处理后微表情数据中顶点帧的各个关键点的坐标；

根据获取的关键点的坐标，划定以坐标点为中心的固定大小的区块，得到对应区块的灰度图像素表示，即得到所述人脸关键点特征。

进一步的，所述时空卷积模块通过先对每个输入的光流特征进行三个逐元素的卷积操作，然后将得到的结果按行拼接在一起，最后经过一个最大池化层后得到所述第一特征向量，即：

其中，为卷积操作，/>表示按行拼接操作，/>表示最大池化。

进一步的，所述关键点注意力模块通过将每个关键点特征展平为一维后按行合并，然后依次经过自注意力层、残差连接层、全局平均池化层后得到所述第二特征向量；所述自注意力层包括三个可学习的参数矩阵/>以控制输入特征做线性变化，分别得到对应的键矩阵K、值矩阵V和查询矩阵Q；将所述查询矩阵Q和键矩阵K的转置相乘，再经过softmax函数，得到包含各个关键点特征权重的权重矩阵，再将权重矩阵乘以值矩阵得到自注意力层的输出；所述残差连接层用于将所述自注意力层的输出加上输入，所述全局平均池化层将输入分成若干个通道，对每个通道计算一个平均值；

所述第二特征向量的具体计算表达式为：

其中，表示全局平均池化，/>，/>的维度。

进一步的，所述双重图卷积模块得到所述第三特征向量的步骤包括：

将各个人脸关键点按照所在位置划分为对应眉毛、眼睛、鼻子、嘴巴和下巴轮廓的各个部位；

将属于同一部位的关键点特征矩阵经过一个卷积操作后相加，得到对应各个部位的特征矩阵；

将各个部位的特征矩阵展平为一维后按行合并，得到总的部位特征矩阵，然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量/>，其中图卷积网络的逐层传播公式如下：

其中，是/>的度矩阵，/>，/>是可学习的参数矩阵，/>表示用于描述各个部位之间连接关系的邻接矩阵，元素值0表示没有连接，1表示有连接。

进一步的，所述步骤S03中微表情识别模型进行训练时，使用预设的损失函数计算微表情识别模型的损失值，并通过反向传播算法调整模型参数;当损失最小时，得到训练后的微表情识别模型，使用的所述损失函数为交叉熵损失函数，计算表达式为：

其中，表示训练样本数，/>表示第/>个样本的真实概率分布，/>表示第/>个样本的预测概率分布。

一种基于多层次图卷积网络的微表情识别装置，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序以执行如上述方法。

与现有技术相比，本发明的优点在于：本发明通过采用端到端的特征提取方法，分别提取光流特征以及人脸的关键点特征，使得可以同时关注面部的局部信息以及整体信息，同时构建基于多层次图卷积网络的微表情识别模型，以采用多层次图卷积网络结合自注意力机制的方法对微表情进行识别，利用多层级的图结构使得可以学习面部肌肉运动的局部特征和整体特征，同时通过人脸关键点结合图卷积神经网络学习节点特征和边特征，可以从多个层次捕获面部肌肉的细微变化，不同的微表情对不同部位的特征点关注程度也不同，从而丰富微表情特征的表达，充分表征不同面部微表情的动态变化特性，有效地提高了微表情识别的准确率，且不需要依赖手工设计特征，计算量更小，泛化能力和自适应能力也更好。

附图说明

图1是本实施例基于多层次图卷积网络的微表情识别方法的实现流程示意图。

图2是本实施例中时空卷积模块的结构原理示意图。

图3是本实施例中关键点注意力模块的结构原理示意图。

图4是本实施例中通过关键点特征提取部位特征的原理示意图。

图5是本实施例中双重图卷积模块的结构原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1～5所示，本实施例基于多层次图卷积网络的微表情识别方法的步骤包括：

S01.数据获取与预处理：获取不同类别的微表情数据构成微表情数据集并进行数据预处理。

微表情类别可以包括惊讶、开心、生气等，具体类别设置可以根据实际需求设置。将大量不同类别的微表情数据构成微表情数据集以用于进行模型训练，在模型训练前需要对微表情数据进行数据预处理。在本实施例中，进行数据预处理的具体步骤包括：

S101.获取微表情数据的起始帧、顶点帧、结束帧三帧图像；

在具体应用实施例中，数据预处理时首先获取微表情数据集，数据集中包括表情标签信息和视频流序列的起始帧、顶点帧、结束帧索引，根据索引得到所需的三帧图像，其中，起始帧微视频中的人脸开始出现微表情的那一帧，顶点帧微人脸的微表情动作幅度最大最强烈的那一帧，结束帧微微表情序列的最后一帧，如果没有顶点帧索引，则使用中间位置的帧代替。然后，通过OpenCV的dlib库对得到的三帧图像分别进行人脸关键点检测与定位，可以获取68个关键点的坐标；再根据该68个坐标进行裁剪，使得裁剪后的图像仅包含人脸面部区域。最后，将裁剪后的图像统一标准化和灰度归一化，将最后的图像大小统一为128*128像素（通道数为1），即得到预处理后的微表情数据。

S02.特征提取：从预处理后的微表情数据集中提取各微表情数据的光流特征和人脸关键点特征，得到微表情特征数据。

在本实施例中，微表情特征数据包括光流特征与人脸关键点特征两种类型，使得可以同时学习面部肌肉运动的局部特征和整体特征，即既能够关注局部变化，又能够关注整体信息，避免过度关注人脸细节。

在本实施例中，光流特征具体包括水平分量和垂直分量，提取各微表情数据的光流特征的具体步骤包括：

S201.将预处理后的微表情数据中起始帧、顶点帧、结束帧分为两组（例如起始帧和顶点帧分为一组，顶点帧和结束帧分为另一组），采用LK（Lucas–Kanade）光流法分别计算每组数据的水平光流数据和垂直光流数据；

S202.将水平光流数据和垂直光流数据拼接后进行标准化操作，得到每组的光流数据；

S203.将得到的两组光流数据逐元素取统计值（例如均值等），得到光流特征。

在具体应用实施例中，步骤S201中按照下式计算光流数据：

（1）

（2）

（3）

在具体应用实施例中，对微表情数据中划分每组数据，通过水平分量u、垂直分量v的计算，可以分别得到大小为128*128的水平光流数据和垂直光流数据，进行拼接（例如水平分量u在上、垂直分量v在下）后得到256*128的光流数据，然后进行标准化操作，使其大小变为64*32；再将得到的两组光流数据逐元素取均值，即可得到光流特征。

在本实施例中，提取人脸关键点所在区块的灰度图特征，得到对应的关键点特征，步骤包括：

在具体应用实施例中，可以通过dlib库得到预处理后的顶点帧的68个关键点的坐标，然后根据坐标位置定位划定以坐标点为中心的大小为10*10的区块，得到上述区块的灰度图像素表示即作为关键点特征，共得到68个大小为10*10的关键点特征。

S03.模型训练：将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练，得到训练后的微表情识别模型，基于多层次图卷积网络的微表情识别模型包括时空卷积模块、自注意力模块和双重图卷积模块。其中，时空卷积模块输入光流特征进行逐元素的卷积操作，输出第一特征向量，自注意力模块输入人脸关键点特征，输出第二特征向量/>，双重图卷积模块输入人脸关键点特征并计算得到对应人脸不同部位的特征矩阵，经过图卷积网络得到第三特征向量/>，由第一特征向量/>、第二特征向量/>以及第三特征向量/>拼接构成最终的特征向量。

如图1所示，本实施例将光流特征输入时空卷积模块，得到特征向量；将关键点特征输入节点自注意力模块，得到特征向量/>；将关键点特征输入双重图卷积模块，得到特征向量/>；然后将特征向量/>、/>、/>按行拼接在一起,得到最终的特征向量/>，通过全连接层和softmax函数后得到最后的分类结果，由于分别利用时空卷积模块、自注意力模块对光流特征、关键点特征进行处理，可以同时关注面部的局部信息以及整体信息，同时利用双重图卷积模块计算人脸不同部位的特征矩阵，再利用不同部位的特征矩阵经过图卷积网络得到对应的特征向量，使得不同的微表情对不同部位的特征点关注程度不同，从而综合三种特征向量最终形成的特征向量可以充分表征面部微表情的动态变化，有效提高微表情识别的精度，还可以降低微表情识别的处理量。

在本实施例中，时空卷积模块具体通过先对每个输入的光流特征进行三个逐元素的卷积操作，然后将得到的结果按行拼接在一起，最后经过一个最大池化层后得到所述第一特征向量，即：

（4）

其中，为卷积操作，/>表示按行拼接操作，/>表示最大池化。

在具体应用实施例中，如图2所示，首先对输入的光流特征进行三个逐元素的卷积操作，卷积核分别为62*24，63*24，64*24；将得到的结果按行拼接在一起，得到大小为6*9的向量；再经过一个最大池化层后，得到最终的特征向量，即为：

。

在本实施例中，关键点注意力模块具体通过将每个关键点特征展平为一维后按行合并，得到，然后依次经过自注意力层、残差连接层、全局平均池化层后得到第二特征向量/>）；自注意力层包括三个可学习的参数矩阵/>（维度具体均为100*100）以控制输入特征做线性变化，即输入特征通过它们做线性变化，分别得到对应的键矩阵K、值矩阵V和查询矩阵Q；将查询矩阵Q和键矩阵K的转置相乘，再经过softmax函数，得到包含各个关键点特征权重的权重矩阵，再将权重矩阵乘以值矩阵得到自注意力层的输出；残差连接层用于将所述自注意力层的输出加上输入，即残差连接层通过将自注意力层的输出加上输入来实现。全局平均池化层将输入分成若干个通道，对每个通道计算一个平均值。

第二特征向量的具体计算表达式为：

（5）

其中，表示全局平均池化，/>，/>的维度，具体取/>。

在本实施例中，双重图卷积模块得到第三特征向量的具体步骤包括：

将各个部位的特征矩阵展平为一维后按行合并，得到总的部位特征矩阵，然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量/>。

上述图卷积网络的逐层传播公式如下：

（6）

在具体应用实施例中，先将人脸的68个关键点按照所在位置分成7个部位，分别代表眉毛、眼睛、鼻子、嘴巴和下巴轮廓（其中眉毛和眼睛各2个，分为左边和右边）；将该7个部位之间的连接关系用邻接矩阵表示，元素值0表示没有连接，1表示有连接；划定所属部位后，如图5所示，属于同一部位的关键点特征矩阵经过一个卷积核为7*7的卷积操作后相加，分别得到7个部位特征矩阵；将各部位特征矩阵展平为一维后按行合并，得到总的部位特征矩阵，用特征矩阵/>表示；然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到最终的特征向量/>。

通过本实施例上述微表情识别模型，结合人脸关键点与图卷积神经网络有效学习节点特征和边特征，可以从多个层次捕获面部肌肉的细微变化，从而丰富微表情特征的表达，有效提高微表情识别的准确率。

在本实施例中，对微表情识别模型进行训练时，使用预设的损失函数计算微表情识别模型的损失值，并通过反向传播算法调整模型参数;当损失最小时，得到训练后的微表情识别模型并进行保存。训练时采用的优化器为Adam优化器，Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点，损失函数则设定为交叉熵损失函数，表达式具体为：

（7）

S04.微表情识别：将待识别的微表情视频数据进行预处理后输入至训练后的微表情识别模型中，得到识别结果输出。

获取到待识别的微表情视频数据后先进行预处理，预处理可以采用与步骤S01中相同的预处理方式，即可以得到预处理后的待识别微表情数据，按照与步骤S02相同的方式提取出光流特征以及人脸关键点特征以后，输入至训练好的微表情识别模型中，即可得到微表情的分类结果。

考虑到微表情是一种面部肌肉动态的变化，本发明通过采用端到端的特征提取方法，分别提取光流特征以及人脸的关键点特征，使得可以同时关注面部的局部信息以及整体信息，同时构建基于多层次图卷积网络的微表情识别模型，以采用多层次图卷积网络结合自注意力机制的方法对微表情进行识别，利用多层级的图结构使得可以学习面部肌肉运动的局部特征和整体特征，同时通过人脸关键点结合图卷积神经网络学习节点特征和边特征，可以从多个层次捕获面部肌肉的细微变化，不同的微表情对不同部位的特征点关注程度也不同，从而丰富微表情特征的表达，充分表征不同面部微表情的动态变化特性，有效地提高了微表情识别的准确率，且不需要依赖手工设计特征，计算量更小，泛化能力和自适应能力也更好。

本实施例还提供基于多层次图卷积网络的微表情识别装置，包括处理器以及存储器，存储器用于存储计算机程序，处理器用于执行所述计算机程序以执行如上述方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于多层次图卷积网络的微表情识别方法，其特征在于，步骤包括：

S03.将提取的微表情特征数据输入至基于多层次图卷积网络的微表情识别模型中进行训练，得到训练后的微表情识别模型，所述基于多层次图卷积网络的微表情识别模型包括时空卷积模块、关键点注意力模块和双重图卷积模块；所述时空卷积模块输入所述光流特征进行逐元素的卷积操作，输出第一特征向量P^flow，所述关键点注意力模块输入所述人脸关键点特征，输出第二特征向量P^locsl，所述双重图卷积模块输入所述人脸关键点特征并计算得到对应人脸不同部位的特征矩阵，经过图卷积网络得到第三特征向量P^global，由所述第一特征向量P^flow、第二特征向量P^local以及第三特征向量P^global拼接构成最终的特征向量；

S04.将待识别的微表情视频数据进行预处理后输入至所述训练后的微表情识别模型中，得到识别结果输出；

所述关键点注意力模块通过将每个关键点特征展平为一维后按行合并，然后依次经过自注意力层、残差连接层、全局平均池化层后得到所述第二特征向量P^local；所述自注意力层包括三个可学习的参数矩阵W_q、W_k、W_v以控制输入特征做线性变化，分别得到对应的键矩阵K、值矩阵V和查询矩阵Q；将所述查询矩阵Q和键矩阵K的转置相乘，再经过softmax函数，得到包含各个关键点特征权重的权重矩阵，再将权重矩阵乘以值矩阵得到自注意力层的输出；所述残差连接层用于将所述自注意力层的输出加上输入，所述全局平均池化层将输入分成若干个通道，对每个通道计算一个平均值；

所述第二特征向量P^local的具体计算表达式为：

其中，GAP表示全局平均池化，Q＝P^node·W_q，K＝P^node·W_k，V＝P^node·W_v，d_k表示K的维度。

2.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述步骤S01中进行数据预处理的步骤包括：

S101.获取微表情数据的起始帧、顶点帧、结束帧；

3.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述步骤S02中提取各微表情数据的光流特征包括：

将得到的两组光流数据逐元素取统计值，得到光流特征。

4.根据权利要求3所述的基于多层次图卷积网络的微表情识别方法，其特征在于，按照下式计算光流数据：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt)

Δx＝u_x,yΔt

Δy＝v_x,yΔt

其中，I(x,y,t)表示(x,y)处的像素点在t时刻的强度，Δx表示该点在Δt时间移动的横坐标距离，Δy表示该点在Δt时间移动的纵坐标距离，u_x,y表示该点的光流水平分量，v_x,y表示该点的光流垂直分量。

5.根据权利要求1所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述步骤S02中提取人脸关键点特征包括：

6.根据权利要求1～5中任意一项所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述时空卷积模块通过先对每个输入的光流特征进行三个逐元素的卷积操作，然后将得到的结果按行拼接在一起，最后经过一个最大池化层后得到所述第一特征向量P^flow，即：

其中，Conv_i为卷积操作，表示按行拼接操作，MaxPooling表示最大池化。

7.根据权利要求1～5中任意一项所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述双重图卷积模块得到所述第三特征向量P^global的步骤包括：

将各个部位的特征矩阵展平为一维后按行合并，得到总的部位特征矩阵X，然后依次经过三层图卷积网络和Relu激活函数、一层平均池化层后得到所述第三特征向量P^global，其中图卷积网络的逐层传播公式如下：

其中，是A+I的度矩阵，H⁽⁰⁾＝X，w^(l)是可学习的参数矩阵，A表示用于描述各个部位之间连接关系的邻接矩阵，元素值0表示没有连接，1表示有连接。

8.根据权利要求1～5中任意一项所述的基于多层次图卷积网络的微表情识别方法，其特征在于，所述步骤S03中微表情识别模型进行训练时，使用预设的损失函数计算微表情识别模型的损失值，并通过反向传播算法调整模型参数；当损失最小时，，得到训练后的微表情识别模型，使用的所述损失函数为交叉熵损失函数，计算表达式为：

其中，N表示训练样本数，y_k表示第个样本的真实概率分布，表示第个样本的预测概率分布。

9.一种基于多层次图卷积网络的微表情识别装置，包括处理器以及存储器，所述存储器用于存储计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～8中任意一项所述方法。