CN114187632B

CN114187632B - 一种基于图卷积神经网络的人脸表情识别方法及装置

Info

Publication number: CN114187632B
Application number: CN202111472952.XA
Authority: CN
Inventors: 李辉辉; 肖湘玲; 赵慧民; 刘晓勇; 王朋
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2024-09-06
Anticipated expiration: 2041-12-03
Also published as: CN114187632A

Abstract

本发明公开了一种基于图卷积神经网络的人脸表情识别方法及装置，其中，所述方法包括：接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。在本发明实施例中，可以提高表情识别准确率，减少重复性工作问题。

Description

一种基于图卷积神经网络的人脸表情识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于图卷积神经网络的人脸表情识别方法及装置。

背景技术

在人类的日常交流中，表情是传递信息最多的方式，占比达到55％，远高于声音(38％)和语言(7％)。尽管大脑控制表情产生的内在机理尚未清楚，但表情是大脑状态表现出来的特征，其在诱发表情的刺激消失后还能持续一段时间，因此表情是可识别的。目前，人脸表情识别已是人机交互的核心，应用广泛，例如智能陪伴机器人，实现人机情感交流；智慧教室，判定学生的学习情绪状态；智能驾驶，判定驾驶员的情绪状态等，因此人脸表情识别是目前的研究热点。

人脸表情识别涉及人工智能、心理学、生物学、认知科学等多学科交叉，尽管已取得一定进展，但还存在很多困难。首先，表情识别缺乏大规模的高质量表情数据集，因为大规模表情样本的标注是很困难的，部分表情如厌恶、恐惧、伤心又难以激发，表情数据集的非平衡状态严重。其次，现有表情类别之间存在相互作用，如恐惧容易让人愤怒，但其抑制高兴，说明恐惧和愤怒、高兴之间有不同的相互作用，容易导致表情类别之间的定向误分问题。第三，人脸表情因采集个体人脸图像时可能受光照、遮挡、姿态等的影响，还与个体的年龄、性别、种族等不同而表现出较大差异，增加了准确识别表情的难度。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于图卷积神经网络的人脸表情识别方法及装置，可以提高表情识别准确率，减少重复性工作问题。

为了解决上述技术问题，本发明实施例提供了一种基于图卷积神经网络的人脸表情识别方法，所述方法包括：

接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；

基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；

基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；

将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；

将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。

可选的，所述接收输入的人脸图像，包括：

接收图像采集设备采集的采集图像，将所述采集图像输入目标检测网络模型中进行人脸目标检测处理，并裁剪出所述采集图像中的人脸区域图像，所述人脸区域图像大小为224*224；

对所述人脸区域图像进行图像颜色归一化处理，形成输入的人脸图像。

可选的，所述第一深度神经网络为以残差网络模型为主干网络搭建18层的网络模型；其中，所述第一深度神经网络的全连接层的输入维度为512，输出维度为512；所述第一深度神经网络的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。

可选的，所述基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元，包括：

基于所述图像特征利用领域知识对所述人脸图像划分出面部图像的FACS区域；

基于Scikit-multilearn库对所述FACS区域进行多AU检测处理，获得面部动作单元。

可选的，所述基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理，包括：

获得每个面部动作单元对应的图像区域；

将每个面部动作单元对应的图像区域输入第二深度神经网络中进行视觉特征提取处理。

可选的，所述将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征，包括：

基于FACS理论构造动作单元与面部表情相互作用的动作单元互作用网络；

将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征。

可选的，所述图卷积神经网络为神经网络层，其中所述神经网络层具有N个节点，每个节点具有自己的特征，N个节点的特征组成一个N*D维的矩阵X，各个节点之间的关系则形成一个N*N维的矩阵A；矩阵X和矩阵A为图卷积神经网络的输入。

可选的，所述图卷积神经网络的层与层之间的传播方式表示如下：

其中，A为各个节点之间的关系则形成一个N*N维的矩阵，也称为邻接矩阵；I表示单位矩阵；是的度矩阵，H表示每一层的特征，对于输入层，H即是N个节点的特征组成一个N*D维的矩阵X；σ表示非线性激活函数。

可选的，所述将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果，包括：

将所述人脸表情特征输入图卷积神经网络模型中进行人脸表情特征重构处理，获得重构人脸表情特征；

所述图卷积神经网络模型基于全连接层将所述重构人脸表情特征输入softmax层进行人脸表情识别处理，获得人脸表情识别结果。

另外，本发明实施例还提供了一种基于图卷积神经网络的人脸表情识别装置，所述装置包括：

第一提取模块：用于接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；

划分模块：用于基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；

第二提取模块：用于基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；

第三提取模块：用于将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；

表情识别模块：用于将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。

在本发明实施例中，接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。可以实现对人脸表情的识别，并提高人脸表情识别准确率，减少重复性工作的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于图卷积神经网络的人脸表情识别方法的流程示意图；

图2是本发明实施例中的基于图卷积神经网络的人脸表情识别装置的结构组成示意图；

图3是本发明实施例中的动作单元互作用网络的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，图1是本发明实施例中的基于图卷积神经网络的人脸表情识别方法的流程示意图。

如图1所示，一种基于图卷积神经网络的人脸表情识别方法，所述方法包括：

S11：接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；

在本发明具体实施过程中，所述接收输入的人脸图像，包括：接收图像采集设备采集的采集图像，将所述采集图像输入目标检测网络模型中进行人脸目标检测处理，并裁剪出所述采集图像中的人脸区域图像，所述人脸区域图像大小为224*224；对所述人脸区域图像进行图像颜色归一化处理，形成输入的人脸图像。

进一步的，所述第一深度神经网络为以残差网络模型为主干网络搭建18层的网络模型；其中，所述第一深度神经网络的全连接层的输入维度为512，输出维度为512；所述第一深度神经网络的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512。

具体的，通过图像采集设备采集图像，让后将该采集图像输入，然后接收到图像采集设备采集的采集图像，并将该采集图像输入目标检测网络模型(Faster R-CNN)中进行人脸检测并裁剪出采集图像中的人脸区域图像，所述人脸区域图像大小为224*224，通过裁剪，可以得到采集图像中更加精确的人脸图像区域；然后需要对裁剪的人脸图像进行图像颜色归一化处理，即所有图像的每个颜色通道的各个像素减去该通道的像素平均值然后除以该通道的像素标准差；将归一化的人脸图像作为输入人脸图像。

第一深度神经网络采用残差网络模型ResNet，它是2015年提出的深度卷积神经网络，获得过ILSVRC图像识别竞的赛冠军；在本申请中，使用ResNet模型作为模型的主干网络，搭建18层的残差网络ResNet18，θ(x)表示图片经过神经网络提取出的d维特征向量，位于图中的倒数第二层(FC,512),表示全连接层，输出的特征向量为512，即d＝512。本发明搭建的深度神经网络按顺序排列每一层的参数配置如表1所示。

表1.深度神经网络结构参数表

其中“3x3 conv,64”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，具体参数如上表所示；其中“3x3 conv,128,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是64，同时步长为2，具体参数如上表所示；其中“3x3 conv,128”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是128，具体参数如上表所示；其中“3x3 conv,256,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，同时步长为2，具体参数如上表所示；其中“3x3 conv,256”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是256，具体参数如上表所示；其中“3x3 conv,512,/2”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，同时步长为2，具体参数如上表所示；其中“3x3 conv,512”表示的是卷积层，它的卷积核大小是3x3，卷积核个数是512，具体参数如上表所示；其中“Avg pool”表示的是平均池化层，具体的参数如上表所示；其中“FC，512”表示的是全连接层，输出的维度是512；其中“FC，7”表示的是全连接层，输出的维度是7。

然后将该人脸图像输入该第一深度神经网络模型进行图像特征提取处理，输出该人脸图像的图像特征。

S12：基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；

在本发明具体实施过程中，所述基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元，包括：基于所述图像特征利用领域知识对所述人脸图像划分出面部图像的FACS区域；基于Scikit-multilearn库对所述FACS区域进行多AU检测处理，获得面部动作单元。

具体的，FACS(面部动作编码系统)，是一种基于最初由瑞典解剖学家Carl-HermanHjortsj联开发的系统，通过面部外观对人类面部动作进行分类。后来由Paul Ekman和Wallace V.Friesen采用，并作了深入的研究，通过观察和生物反馈，描绘出不同的脸部肌肉动作和不同表情的对应关系，并于1978年出版。面部动作编码系统(FACS)，根据人脸的解剖学特点，可将其划分成若干既相互独立又相互联系的动作单元(Actionunits，AU)，这些面部动作单元的运动特征及其所控制的主要区域可以反映出面部表情。

AU单元分类器是一个多标签的分类器，多标签分类器不同于多分类。Scikit-learn提供了一个独立的库用于多种标签分类。经过卷积神经网络对人脸图像的特征提取后，调用Scikit-multilearn库进行多AU检测，识别出动作单元。

S13：基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；

在本发明具体实施过程中，所述基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理，包括：获得每个面部动作单元对应的图像区域；将每个面部动作单元对应的图像区域输入第二深度神经网络中进行视觉特征提取处理。

具体的，通过获得每个面部动作单元对应的图像区域；然后利用第二深度神经网络进行对应部分图像区域的视觉特征提取处理，即将每个面部动作单元对应的图像区域输入第二深度神经网络中进行视觉特征提取处理。

S14：将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；

在本发明具体实施过程中，所述将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征，包括：基于FACS理论构造动作单元与面部表情相互作用的动作单元互作用网络；将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征。

具体的，动作单元互作用网络的结构参详图3，根据FACS理论构造的动作单元与面部表情互作用的动作单元互作用网络，将得到的视觉特征作为动作单元互作用网络结构的节点特征，输入到动作单元互作用网络的相应节点中进行人脸表情特征提取处理，从而获得人脸表情特征。

S15：将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。

在本发明具体实施过程中，所述图卷积神经网络为神经网络层，其中所述神经网络层具有N个节点，每个节点具有自己的特征，N个节点的特征组成一个N*D维的矩阵X，各个节点之间的关系则形成一个N*N维的矩阵A；矩阵X和矩阵A为图卷积神经网络的输入。

进一步的，所述图卷积神经网络的层与层之间的传播方式表示如下：

进一步的，所述将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果，包括：将所述人脸表情特征输入图卷积神经网络模型中进行人脸表情特征重构处理，获得重构人脸表情特征；所述图卷积神经网络模型基于全连接层将所述重构人脸表情特征输入softmax层进行人脸表情识别处理，获得人脸表情识别结果。

具体的，图卷积神经网络(GCN)，实际上跟CNN的作用一样，原理也是作为一个特征提取器，而区别在于它的对象是图数据。GCN精妙地设计了一种从图数据中提取特征的方法，从而让我们可以使用这些特征去对图数据进行节点分类(node classification)、图分类(graph classification)、边预测(link prediction)，还可以得到图的嵌入表示(graphembedding)。

图卷积神经网络(GCN)是一个神经网络层，假设有一批图数据，其中有N个节点(node)，每个节点都有自己的特征，设这些节点的特征组成一个N×D维的矩阵X，各个节点之间的关系则会形成一个N×N维的矩阵A，也称为邻接矩阵(adjacency matrix)。X和A便是网络模型的输入。而层与层之间的传播方式表示如下：

图卷积神经网络是利用其他结点的信息来推导该结点的信息。在半监督学习中，图卷积神经网络本质不是传播标签，而是特征的传播。图卷积神经网络将不知道标签的特征，传播到已知标签的特征节点上，利用已知标签节点的分类器推测其属性特征。图网络中的每个结点无时无刻不因为邻居和更远的点的影响而在改变着自己的状态直到最终的平衡，关系越亲近的邻居影响则越大。

图数据中的空间特征具有以下特点：1)节点特征：每个节点有自己的特征(体现在点上)；2)结构特征：图数据中的每个节点具有结构特征，即节点与节点存在一定的联系(体现在边上)。将图卷积神经网络层嵌入到用于表情识别深度卷积神经网络的每一层中来，利用动作单元与表情类别之间的高级语义关系可以提高表情识别深度卷积神经网络每层的语义特征提取能力。

根据表情领域知识相互关系的性质定义的图卷积神经网络，包括图卷积操作和节点的更新策略，然后通过图卷积神经网络的学习和推理实现表情识别。其中，对于每个节点，从它的所有邻居节点处获取其特征信息，包括其自身的特征。假设使用average()函数进行更新操作，对其中每一个节点，取其所有邻居节点的平均值，包括自身节点；在GCN中仅仅使用一个全连接层，然后通过softmax层实现分类结果。

即，将人脸表情特征输入图卷积神经网络模型中进行人脸表情特征重构处理，获得重构人脸表情特征；然后将该重构人脸表情特征通过全连接层输入softmax层进行人脸表情识别处理，获得人脸表情识别结果。

实施例二

请参阅图2，图2是本发明实施例中的基于图卷积神经网络的人脸表情识别装置的结构组成示意图。

如图2所示，一种基于图卷积神经网络的人脸表情识别装置，所述装置包括：

第一提取模块21：用于接收输入的人脸图像，并基于第一深度神经网络提取所述人脸图像中的图像特征；

表1.深度神经网络结构参数表

划分模块22：用于基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元；

第二提取模块23：用于基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理；

第三提取模块24：用于将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征；

表情识别模块25：用于将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于图卷积神经网络的人脸表情识别方法及装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图卷积神经网络的人脸表情识别方法，其特征在于，所述方法包括：

将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果；

所述接收输入的人脸图像，包括：

对所述人脸区域图像进行图像颜色归一化处理，形成输入的人脸图像；

所述第一深度神经网络为以残差网络模型为主干网络搭建18层的网络模型；其中，所述第一深度神经网络的全连接层的输入维度为512，输出维度为512；所述第一深度神经网络的平均池化层的卷积核大小为7*7、步长为1、卷积核数目为512；

所述基于所述图像特征对所述人脸图像划分出面部图像的FACS区域，获得面部动作单元，包括：

基于Scikit-multilearn 库对所述FACS区域进行多AU检测处理，获得面部动作单元；

所述基于第二深度神经网络对每个面部动作单元对应图像区域进行视觉特征提取处理，包括：

获得每个面部动作单元对应的图像区域；

将每个面部动作单元对应的图像区域输入第二深度神经网络中进行视觉特征提取处理；

所述将提取的视觉特征输入到动作单元互作用网络的相应节点进行人脸表情特征提取处理，获得人脸表情特征，包括：

所述图卷积神经网络为神经网络层，其中所述神经网络层具有N个节点，每个节点具有自己的特征，N个节点的特征组成一个N*D维的矩阵X，各个节点之间的关系则形成一个N*N维的矩阵A；矩阵X和矩阵A为图卷积神经网络的输入。

2.根据权利要求1所述的人脸表情识别方法，其特征在于，所述图卷积神经网络的层与层之间的传播方式表示如下：

；

其中，，A为各个节点之间的关系则形成一个N*N维的矩阵，也称为邻接矩阵；表示单位矩阵；是的度矩阵，；表示每一层的特征，对于输入层，即是N个节点的特征组成一个N*D维的矩阵X；表示非线性激活函数。

3.根据权利要求1所述的人脸表情识别方法，其特征在于，所述将所述人脸表情特征输入图卷积神经网络中进行人脸表情识别处理，获得人脸表情识别结果，包括：

4.一种基于图卷积神经网络的人脸表情识别装置，用于实现权利要求1所述的人脸表情识别方法，其特征在于，所述装置包括：