CN113255543A

CN113255543A - 基于图卷积网络的面部表情识别方法

Info

Publication number: CN113255543A
Application number: CN202110613562.3A
Authority: CN
Inventors: 同鸣; 尹应增; 边放; 常笑瑜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-13
Anticipated expiration: 2041-06-02
Also published as: CN113255543B

Abstract

本发明公开了一种基于图卷积网络的面部表情识别方法，用于解决由于预处理后的人脸区域图像会损失部分图像信息，导致影响预处理后的人脸区域图像对应的表情识别准确率以及由于图卷积网络无法根据不同节点的权重来选择鉴别信息更丰富的节点，导致影响表情的分类准确率的问题。本发明的步骤为：(1)生成训练集；(2)构造图卷积网络；(3)训练图卷积网络；(4)对面部表情进行识别。本发明基于每张图片的所有人脸关键点，生成该图片对应的拓扑图，搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组使得本发明在进行面部表情识别时有较高的面部表情分类准确率。

Description

基于图卷积网络的面部表情识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像识别技术领域中一种基于图卷积网络的面部表情识别方法。本发明可应用于从人脸图像中识别与该人脸对应的愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性表情信息。

背景技术

面部表情是人类交流和传递情感的信号之一，直观地表达出了人类对外界事物的情绪反馈。面部表情识别因其在图像处理、图像识别领域中的潜在应用而受到广泛关注。传统的卷积神经网络通常使用二维图像的整个对齐人脸作为网络的输入，以学习特征表示。但是这些图像原始像素容易受到各种干扰，从而直接影响到二维图像的表情信息。图卷积网络将卷积运算从规则数据推广到不规则图数据，提取到的图卷积特征具有丰富的几何结构信息。这些图卷积特征可能会促进面部表情识别方法的发展，从而进一步提高面部表情识别的性能。

北方工业大学在其申请的专利文献“基于深度学习的人脸表情识别方法及装置”(申请号：201711067390.4，申请公布号：CN 107729872 A)中公开了一种人脸表情识别方法。该方法首先从输入图像中识别出人脸区域图像，并利用仿射变换方法矫正为相似的正面人脸姿态的人脸区域图像，然后将预处理后的人脸区域图像输入卷积神经网络模型，最后输出人脸表情识别结果。该方法可以达到较高的识别效率，但是，该方法仍然存在的不足之处是，由于遮挡、头部姿态变化对输入图像的不良影响，导致预处理后的人脸区域图像会损失部分图像信息，影响预处理后的人脸区域图像对应的表情识别准确率。

Ling Lo等人在其发表的论文“MER-GCN：Micro-Expression Recognition Basedon Relation Modeling with Graph Convolutional Networks”(IEEE Conference onMultimedia Information Processing and Retrieval，pp 79-84，2020)中提出了一种基于图卷积网络关系建模的微表情识别方法。该方法是第一个结合人脸动作单元和图卷积网络做微表情识别的方法，其中的特征提取网络包括两部分：其一是利用三维卷积网络提取空时特征，其二是将人脸动作单元作为节点来构建图，利用图卷积网络提取图卷积特征，然后通过点乘操作合并两个特征，利用合并后的特征进行微表情的分类。该方法可以达到较好的识别效果，但是，该方法仍然存在的不足之处是，由于从动作单元到表情的映射是通过一个简单的线性层进行的，导致图卷积网络无法根据不同节点的权重来选择鉴别信息更丰富的节点，影响表情的分类准确率。

发明内容

本发明的目的在于针对上述已有技术的不足，提供一种基于图卷积网络的面部表情识别方法。用于解决由于预处理后的人脸区域图像会损失部分图像信息，导致影响预处理后的人脸区域图像对应的表情识别准确率以及由于图卷积网络无法根据不同节点的权重来选择鉴别信息更丰富的节点，导致影响表情的分类准确率。

实现本发明目的的思路是，基于每张图片的所有人脸关键点，生成该图片对应的拓扑图，用来解决由于预处理后的人脸区域图像会损失部分图像信息，导致影响预处理后的人脸区域图像对应的表情识别准确率的问题。搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组，用来解决由于图卷积网络无法根据不同节点的权重来选择鉴别信息更丰富的节点，导致影响表情的分类准确率的问题。

本发明实现的具体步骤如下：

(1)生成训练集：

(1a)采集至少5000张人脸图片，每个人脸图片包含1个人脸表情及对应的表情标签，每个人至少采集7种表情，每种表情至少2张图片；

(1b)使用68人脸关键点检测算法，检测每张图片中每个人脸关键点，得到每张图片包含每个人脸关键点的坐标信息的人脸关键点；

(1c)基于每张图片的所有人脸关键点，生成该图片对应的拓扑图；

(1d)将属于同一种表情的所有图片对应的拓扑图组成一类，将所有类的拓扑图及其对应的表情标签组成训练集；

(2)构造图卷积网络：

(2a)搭建一个由三个图卷积层串联组成的图卷积模块，其中每个图卷积层均由图卷积函数实现；

(2b)搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组，其中每个人脸五官池化模块由图注意力层和图池化层串联组成，所述图注意力层通过图注意力函数实现，图池化层通过图平均池化函数实现；

(2c)搭建一个由级联层和全连接层串联组成的表情特征提取模块，其中，全连接层中神经元个数为7；

(2d)将图卷积模块、人脸五官池化模块组、表情特征提取模块依次串联组成图卷积网络；

(3)训练图卷积网络：

将训练集输入到图卷积网络中，利用小批量随机梯度下降算法，依次按照设置的批量值从训练集中提取对应数量的小批量拓扑图进行迭代训练，直至交叉熵损失函数收敛为止，得到训练好的图卷积网络，保存训练好的图卷积网络的权重；

(4)对面部表情进行识别：

采用与步骤(1b)和步骤(1c)相同的方法，将待识别面部表情的每张人脸图片进行预处理，生成与该张人脸图片对应的拓扑图，将每个拓扑图依次输入到训练好的图卷积网络中，将该训练好的图卷积网络的输出确定为与每个拓扑图对应的表情类别。

与现有技术相比，本发明具有以下优点：

第一，本发明基于每张图片的所有人脸关键点，生成该图片对应的拓扑图，使用68人脸关键点检测算法，检测每张图片中每个人脸关键点，将同一张图片每个人脸关键点作为一个节点，连接所有位于相同人脸五官内的节点或者位于不同人脸五官内但是距离最近的节点。克服了现有技术中由于预处理后的人脸区域图像会损失部分图像信息，导致影响预处理后的人脸区域图像对应的表情识别准确率的问题，使得本发明以预处理后的人脸区域图像对应的拓扑图为训练数据，对于图像遮挡、头部姿态变化更加鲁棒，提高了预处理后的人脸区域图像对应的表情识别准确率。

第二，本发明搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组，由图注意力层和图池化层串联组成人脸五官池化模块。克服了现有技术中由于图卷积网络无法根据不同节点的权重来选择鉴别信息更丰富的节点，导致影响表情的分类准确率的问题，使得本发明通过图注意力层和图池化层来选择鉴别信息更丰富的节点，提高了面部表情分类的准确率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合图1，对本发明的具体步骤做进一步的详细描述。

步骤1，生成训练集。

第一步，采集至少5000张人脸图片，每个人脸图片包含1个人脸表情及对应的表情标签，每个人至少采集7种表情，每种表情至少2张图片。

第二步，使用68人脸关键点检测算法，检测每张图片中每个人脸关键点，得到每张图片包含每个人脸关键点的坐标信息的人脸关键点。

所述的68人脸关键点检测算法是指，在输入的每张图片中定位人脸区域；利用训练好的68人脸关键点特征检测器，提取人脸区域内68个人脸关键点的横、纵坐标值。

第三步，基于每张图片的所有人脸关键点，生成该图片对应的拓扑图。

所述的基于每张图片的所有人脸关键点，生成该图片对应的拓扑图指的是：将同一张图片每个人脸中的每个关键点作为一个节点；连接所有位于相同人脸五官内的节点或者位于不同人脸五官内且距离最近的节点，得到该张图片对应的拓扑图；所述人脸五官是左眉毛、右眉毛、左眼睛、右眼睛、鼻子、外嘴唇、内嘴唇。

第四步，将属于同一种表情的所有图片对应的拓扑图组成一类，将所有类的拓扑图及其对应的表情标签组成训练集。

步骤2，构造图卷积网络。

搭建一个由三个图卷积层串联组成的图卷积模块，其中每个图卷积层均由图卷积函数实现。

所述的图卷积函数如下：

其中，f₁(·)表示图卷积函数，

表示训练集中第i个拓扑图的输入到第j个图卷积层中所有节点的特征组成的特征矩阵，j＝1,2,3，

表示根据与

对应的拓扑图中节点的连接关系生成的邻接矩阵，当该拓扑图的第m个节点与第n个节点之间有边或当m＝n时，其对应的邻接矩阵

的第p行和第q列的值为1，否则为0，m和n的取值与p和q的取值对应相等；σ(·)表示激活函数，

表示中间矩阵

的度矩阵，

I_N表示单位矩阵，W^j表示第j个图卷积层的权重矩阵。

搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组，其中每个人脸五官池化模块由图注意力层和图池化层串联组成，所述图注意力层通过图注意力函数实现，图池化层通过图平均池化函数实现。

所述的图注意力函数如下：

其中，f₂(·)表示图注意力函数，

表示输入训练集中第i个拓扑图的经过图卷积模块后输出的特征矩阵，

表示训练集中第i个拓扑图的经过图卷积模块后输出的邻接矩阵，softmax(·)表示softmax函数，(·)^T表示转置操作，

表示逐元素相乘操作。

所述的图平均池化函数如下：

其中，f₃(·)表示图平均池化函数，

表示输入到训练集中第i个拓扑图经过图注意力层后输出的特征矩阵，n_Pool表示输入到训练集中第i个拓扑图经过图注意力层后输出的拓扑图的节点总数，

表示输入到训练集中第i个拓扑图经过图注意力层后输出的拓扑图中第r个节点的特征。

搭建一个由级联层和全连接层串联组成的表情特征提取模块，其中，全连接层中神经元个数为7。

将图卷积模块、人脸五官池化模块组、表情特征提取模块依次串联组成图卷积网络。

步骤3，训练图卷积网络。

将训练集输入到图卷积网络中，利用小批量随机梯度下降算法，依次按照设置的批量值从训练集中提取对应数量的小批量拓扑图进行迭代训练，直至交叉熵损失函数收敛为止，得到训练好的图卷积网络，保存训练好的图卷积网络的权重。

所述的交叉熵损失函数如下：

其中，L表示交叉熵损失函数，N_L表示从训练集中提取的每个批次小批量拓扑图的批量值，1＜N_L＜N_T，N_T表示训练集中拓扑图的总数，C_L表示训练集中表情标签的类别总数，y_ab表示指示变量，当每个批次的小批量拓扑图中第a个拓扑图的表情类别与第b个表情标签相同时，y_ab＝1，否则y_ab＝0，log(·)表示以e为底的对数操作，p_ab表示第a个拓扑图经图卷积网络输出的属于第b个表情标签的预测概率。

步骤4，对面部表情进行识别。

采用与步骤1中的第二步和第三步相同的方法，将待识别面部表情的每张人脸图片进行预处理，生成与该张人脸图片对应的拓扑图，将每个拓扑图依次输入到训练好的图卷积网络中，将该训练好的图卷积网络的输出确定为与每个拓扑图对应的表情类别。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)CPU E5-2640v3，主频为2.60GHz，内存128GB。

本发明的仿真实验的软件平台为：Ubuntu 18.04操作系统和python 3.6。

本发明仿真实验中使用FER2013面部表情数据集，该数据集是由谷歌图像搜索API自动采集的一个大型无约束数据集，该数据集是由35886张面部表情图片组成，包含着28708张训练图片、3589张验证图片及3589张测试图片。该数据集是由I.J.Goodfellow等人在“Challenges in representation learning：A report on three machine learningcontests[C]//International conference on neural informationprocessing.Springer，Berlin，Heidelberg，2013：117-124”公开的文献中所披露的数据集。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和五个现有技术的分类方法(The pre-trainedCNN，Fa-Net，Deep-Emotion，MBCC-CNN，DAF-CNN)分别对FER2013数据集的所有测试图片进行分类，得到每个测试图片的预测概率特征向量，将每个预测概率特征向量中的最大概率值对应的类别作为该测试图片的预测类别。

现有技术The pre-trained CNN分类方法指的是，J.Shao等人在“Threeconvolutional neural network models for facial expression recognition in thewild[J].Neurocomputing，2019，355：82-92”中提出的野外面部表情识别的三种卷积神经网络模型方法，简称The pre-trained CNN。

现有技术Fa-Net分类方法指的是，W.Wang等人在“A fine-grained facialexpression database for end-to-end multi-pose facial expression recognition[J].arXiv preprint arXiv：1907.10838，2019”中提出的一种面向端到端多姿态面部表情识别的细粒度面部表情数据库方法，简称Fa-Net。

现有技术Deep-Emotion分类方法指的是，S.Minaee等人在“Deep-emotion:Facialexpression recognition using attentional convolutional network[J].Sensors，2021，21(9)：3046”中提出的深层情感：基于注意力卷积网络的面部表情识别方法，简称Deep-Emotion。

现有技术MBCC-CNN类方法指的是，C.Shi等人在“A Facial ExpressionRecognition Method Based on a Multibranch Cross-Connection ConvolutionalNeural Network[J].IEEE Access，2021，9：39255-39274”中提出的基于多分支交叉连接卷积神经网络的面部表情识别方法，简称MBCC-CNN。

现有技术DAF-CNN分类方法指的是，L.Zhou等人在“Discriminative attention-augmented feature learning for facial expression recognition in the wild[J].Neural Computing and Applications，2021：1-12”中提出的基于鉴别性注意力增强的特征学习在野外面部表情识别中的应用方法，简称DAF-CNN。

为了验证本发明的效果，利用下述分类准确率公式，计算本发明仿真实验所采用的方法和五种不同的分类方法，分别对FER2013数据集的所有测试图片的进行分类后得到的分类结果的准确率，分类正确的测试图片数是指所有测试图片中预测类别与标签类别相同的测试图片的数量，用于分类的测试图片总数为3589张，将所有计算结果绘制成表1，表1中的Ours表示本发明的仿真实验结果。

表1本发明和五种方法的分类结果评价一览表

识别方法	准确率(％)
		The pre-trained CNN	71.14
Fa-Net	71.10
		Deep-Emotion	70.02
MBCC-CNN	71.52
		DAF-CNN	72.39
Ours	72.49

结合表1可以看出，本发明的分类准确率在FER2013数据集上超过了现有技术的分类准确率，证明本发明可以得到更高的面部表情分类准确率。

Claims

1.一种基于图卷积网络的面部表情识别方法，其特征在于，基于每张图片的所有人脸关键点，生成该图片对应的拓扑图，搭建一个由七个人脸五官池化模块并联组成的人脸五官池化模块组；该方法的步骤包括如下：

(1)生成训练集：

(2)构造图卷积网络：

(3)训练图卷积网络：

(4)对面部表情进行识别：

2.根据权利要求1所述的基于图卷积网络的面部表情识别方法，其特征在于：步骤(1b)中所述的68人脸关键点检测算法是指，在输入的每张图片中定位人脸区域；利用训练好的68人脸关键点特征检测器，提取人脸区域内68个人脸关键点的横、纵坐标值。

3.根据权利要求1所述的基于图卷积网络的面部表情识别方法，其特征在于：步骤(1c)中所述的基于每张图片的所有人脸关键点，生成该图片对应的拓扑图指的是：将同一张图片每个人脸中的每个关键点作为一个节点；连接所有位于相同人脸五官内的节点或者位于不同人脸五官内且距离最近的节点，得到该张图片对应的拓扑图；所述人脸五官是左眉毛、右眉毛、左眼睛、右眼睛、鼻子、外嘴唇、内嘴唇。

4.根据权利要求1所述的基于图卷积网络的面部表情识别方法，其特征在于：步骤(2a)中所述的图卷积函数如下：