CN113989911A

CN113989911A - 一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法

Info

Publication number: CN113989911A
Application number: CN202111483036.6A
Authority: CN
Inventors: 孙宁; 陶江龙; 季丰达
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-01-28

Abstract

一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，通过建立的三维密集人脸重建网络以及端到端的可训练三维人脸特征重建与学习网络模型3DF‑RLN，由单独的2D人脸图像重构得到面部外观和面部几何特征，有效表征了面部表情信息。由面部几何特征得到基于人脸关键点的面部拓扑图，可以反映面部几何特征间的相关性，对面部表情识别及相关研究有重大意义。CNN网络有效提取面部外观特征中包含的表情信息，GCN网络有效提取面部几何特征中包含的信息。由通道注意和softmax构成的融合识别模块有效融合面部外观特征和面部几何特征中包含的互补信息，提高表情识别准确率。总体而言，本方法提高了面部表情识别的准确率，提高真实环境面部表情识别效果。

Description

一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法。

背景技术

现有技术中，面部表情识别作为计算机视觉领域的重要分支之一，已成功应用于远程医疗、疲劳驾驶监测、以及许多人机交互系统。现有的许多表情识别方法在实验室环境下的表情数据库上已经取得了显著的成功。但是，真实环境面部表情图像由于受到任意光照、遮挡以及姿态变化等问题的影响，对现有的面部表情识别方法依然提出了巨大的挑战。

近年来，随着人脸三维重建技术的进步，在保证速度、精度和稳定性的前提下，已经实现由单张二维面部图像到对应的三维面部数据的转换。现有技术不仅能提供富有纹理信息的面部外观特征，还能生成可靠、高精度的面部几何特征。面部外观特征可以保存为平滑的二维图像。研究人员使用卷积神经网络在以图像为基础的识别领域中已经取得了巨大的成功。对于面部几何特征，指一组固定数目的面部关键点序列，与二维图像序列相比，具有数据量小，不易受干扰的优点。面部关键点序列已经被验证可以有效表征面部表情变化。目前，图神经网络在基于骨骼序列的行为识别中已经取得了成功的应用。面部关键点具有和人体骨骼序列相似的空间特征和数据形式，可以将图神经网络应用于提取面部关键点中包含的面部表情信息。面部外观特征和面部几何特征是两种不同模态的特征，其分别体现了面部图像的密集表征和稀疏表征，在一定程度上可以起到优势互补的作用。此外，研究合适的面部拓扑图编码方式可以更有效的将图神经网络应用于表情识别领域，为真实环境面部表情识别带来新的解决方案。

发明内容

本发明的目的是提供一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，该方法通过三维密集人脸重建技术生成面部外观特征和面部几何特征，并利用卷积神经网络和图神经网络分别提取两种特征中包含的表情信息，再经过通道注意力机制对两种特征信息进行融合，提高了真实环境面部表情识别的识别率和鲁棒性。此外，由若干人脸关键点的三维坐标信息表征的面部几何特征，通过学习可以得到基于人脸关键点的面部拓扑图，该拓扑图可以反映面部几何特征间的相关性。

一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，包括如下步骤：

步骤1：将真实环境面部人脸表情图像输入三维密集人脸重建网络，输出面部外观特征和面部几何特征；其中，面部外观特征将多姿态人脸图像进行正脸化后得到的重建外观特征；面部几何特征为若干人脸关键点的三维坐标信息，该特征之后通过学习得到基于人脸关键点的面部拓扑图；

步骤2：构建端到端的可训练三维人脸特征重建与学习网络模型3DF-RLN，3DF-RLN包括基于卷积神经网络的外观通道、基于图神经网络的几何通道和融合识别模块；

步骤3：利用步骤1中得到的面部外观特征和面部几何特征，对3DF-RLN模型进行训练；

步骤4：识别一张新的人脸图像的表情类别时，首先经过步骤1得到的相应的面部外观特征和面部几何特征，再输入到3DF-RLN网络模型中最终得到该人脸图像的表情识别结果。

进一步地，步骤1中的三维密集人脸重建网络是利用卷积神经网络求解姿态、形状、表情参数来渲染平均三维人脸模型，并在过程中得到面部外观特征和面部几何特征；其中姿态、形状、表情参数分别为12维、40维、10维的向量。

进一步地，步骤1中的面部外观特征和面部几何特征；其中，面部外观特征是三维人脸特征重建过程中得到的姿态自适应特征，可视为拟正脸化特征；面部几何特征指68个面部关键点的三维坐标信息。

进一步地，所述的步骤2中的外观通道和几何通道；外观通道由卷积神经网络构成，由4个残差卷积块、4个通道注意力块、4个空间注意力块堆叠而成，连接顺序为每个残差卷积块后紧跟着一个通道注意力块和一个空间注意力块；几何通道由图神经网络构成，由7个图残差块、7个通道注意力块、7个空间注意力块堆叠而成，连接顺序为每个图残差块后紧跟着一个通道注意力块和一个空间注意力块；其中，为了适应表情识别任务，在两个通道最后加入了2个全连接层、1个归一化层和1个激活层，输出维度为256。

进一步地，所述的步骤2中的融合识别模块；融合识别模块由通道注意力块和softmax两部分构成，其中通道注意力块用于对外观通道和几何通道的输出分配合适的权重，softmax用于输出表情识别结果；融合识别模块中的通道注意力块结构与外观通道或几何通道中使用的通道注意力块结构一致。

进一步地，所述的步骤1中的三维密集人脸重建网络中使用的卷积神经网络的结构和外观通道中使用的卷积神经网络一致，但是最后的输出维度为62。

进一步地，残差卷积块包含2个卷积层、2个归一化层、2个激活层、1个残差连接，；图残差块包含3个卷积层、1个归一化层、1个激活层、1个残差连接；残差卷积块和图残差块的内部连接顺序为每个卷积层后紧跟一个归一化层和一个激活层，最后再跟一个残差连接；通道注意力块包含2个卷积层，1个平均池化层、1个最大池化层、2个全连接层，内部连接顺序为一个卷积层后紧跟一个最大池化层和一个全连接层，另一个卷积层后紧跟一个一个平均池化层和一个全连接层，之后两个全连接层输出相加；空间注意力块包含1个卷积层、1个sigmoid层，内部连接顺序为卷积层后紧跟sigmoid层。

本发明的有益效果是：3DF-RLN可以由单独的2D人脸图像重构得到面部外观和面部几何特征，这两种异质特征有效表征了面部表情信息。面部几何特征经过学习还可以得到基于人脸关键点的面部拓扑图，该拓扑图可以反映面部几何特征间的相关性，对面部表情识别及相关研究有重大意义。卷积神经网络可以有效提取面部外观特征中包含的表情信息，图神经网络可以有效提取面部几何特征中包含的信息。由通道注意和softmax构成的融合识别模块可以有效融合面部外观特征和面部几何特征中包含的互补信息，提高表情识别准确率。总体而言，本发明提出的3DF-RLN提高了面部表情识别的准确率，在RAF-DB和AffectNet这两个真实环境表情数据集上得到的分类准确率比目前最先进的水平要高2%；改善了真实环境面部表情识别现状。

附图说明

图1是本发明实施例中的面部表情识别方法流程图。

图2是本发明实施例中的面部外观特征示意图。

图3是本发明实施例中的面部几何特征示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

步骤1：将真实环境面部人脸表情图像输入三维密集人脸重建网络，输出面部外观特征和面部几何特征，面部外观特征如图2所示，本发明将其保存成平滑的二维图像，面部几何特征如图3所示，由68个面部关键点的三维坐标信息组成；其中，面部外观特征将多姿态人脸图像进行正脸化后得到的重建外观特征，为了便于特征提取，本发明将其处理为平滑的二维图像；面部几何特征为若干人脸关键点的三维坐标信息，该特征之后通过学习可以得到基于人脸关键点的面部拓扑图；

步骤2：构建端到端可训练三维人脸特征重建与学习网络（以下称为3DF-RLN），3DF-RLN分别由外观通道、几何通道和融合识别等模块组成。

步骤3：利用步骤1中得到的面部外观特征和面部几何特征，对3DF-RLN模型进行训练。

步骤4：识别一张新的人脸图像的表情类别时，首先经过步骤1得到的相应的面部外观特征和面部几何特征，在输入到3DF-RLN网络模型中最终得到该人脸图像的表情识别结果。

如图1所示，本发明提出的方法由三维密集人脸重建、基于卷积神经网络的外观通道、基于图神经网络的几何通道以及融合识别四个模块构成。其中三维密集人脸重建是利用卷积神经网络求解姿态、形状、表情参数来渲染平均三维人脸模型，并在过程中得到面部外观特征和面部几何特征。基于卷积神经网络的外观通道用于提取面部外观特征中包含的表情信息。基于图神经网络的几何通道用于提取面部几何特征中包含的表情信息。为了强化卷积神经网络和图神经网络的特征提取能力，本发明在网络中引入了通道和空间注意力机制。基于人脸关键点的面部几何特征作为可学习参数输入图卷积网络，可以学习得到面部拓扑图，该拓扑图可以反映面部几何特征间的相关性。融合识别模块利用通道注意力机制对外观通道和几何通道输出的表情类别向量进行有效融合，加强了对两种异质特征的提取和整合。最后输入softmax得到表情识别结果。

外观通道的输入是处理为二维图像的面部外观特征，其可视为真实环境面部表情图像的拟正脸化特征，其恢复了真实环境面部表情图像中丢失的信息，同时保留了丰富的面部细节特征。基于卷积神经网络的外观通道由4个残差卷积块构成，为了提高模型的空间特征提取能力，本发明在每个残差卷积块中引入了通道和空间注意力块。其中，残差卷积块包含2个卷积层、2个归一化层、2个激活层、1个残差连接；通道注意力层包含2个卷积层，1个平均池化层、1个最大池化层、2个全连接层；空间注意力层包含1个卷积层、1个sigmoid层。通道注意力块沿着通道维度对卷积层的输出特征取平均池化和最大池化后相加，经过非线性层后得到注意力得分乘到原特征上；空间注意力块沿着空间维度对卷积层的输出特征取平均值和最大值后拼接，经过非线性层后得到注意力得分乘到原特征上；残差连接可以在尽可能保留有效信息地情况下加深网络层数并防止梯度爆炸。为了使卷积神经网络适用于表情识别任务，本发明在网络之后加入了2个全连接层，2个全连接层之间加入了1个归一化层和1个激活层。卷积神经网络输出为1000维的向量，其中加入的第一个全连接层的输入输出为（1000，512），第二个全连接层的输入输出为（512，256）。因此，外观通道的输出为256维的表情类别向量。

几何通道的输入特征是基于面部关键点的面部几何特征，本发明将反映面部几何特征的邻接矩阵作为可训练参数，在训练过程中对其迭代更新。同时，本发明引入了相似矩阵，其是由面部关键点特征乘以它的转置得到的。在训练过程中，将可训练的邻接矩阵特征加上相似矩阵可以更准确地优化面部几何特征间的邻接关系。

基于图神经网络的几何通道由7个图残差块构成，每个图残差块中加入了通道和空间注意力块。其中，图残差块包含3个卷积层、1个归一化层、1个激活层、1个残差连接；通道和空间注意力块结构和卷积神经网络中的相同。为了使图神经网络适用于表情识别任务，在7个图卷积单元之后加入了2个全连接层，2个全连接层之间加入了1个归一化层和1个激活层。卷积神经网络输出为512维的向量，其中加入的第一个全连接层的输入输出为（512，256），第二个全连接层的输入输出为（256，256）。因此，几何通道的输出为256维的表情类别向量。

融合识别模块包含通道注意力和softmax两部分。将外观通道和几何通道提取得到的表情类别向量拼接后接入通道注意力机制，通道注意力机制的具体方法是把拼接后的特征经过非线性层后得到注意力得分乘到原特征，来加强对两路网络时空特征的提取与整合。最后再通过softmax得到表情识别结果。3DF-RLN模型在RAF-DB和AffectNet这两个真实环境表情数据集上得到的分类准确率比目前最先进的水平要高2%，这也验证了本发明提出方法的有效性。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：步骤1中的三维密集人脸重建网络是利用卷积神经网络求解姿态、形状、表情参数来渲染平均三维人脸模型，并在过程中得到面部外观特征和面部几何特征；其中姿态、形状、表情参数分别为12维、40维、10维的向量。

3.根据权利要求1所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：步骤1中的面部外观特征和面部几何特征；其中，面部外观特征是三维人脸特征重建过程中得到的姿态自适应特征，视为拟正脸化特征；面部几何特征指68个面部关键点的三维坐标信息。

4.根据权利要求1所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：所述的步骤2中的外观通道和几何通道；外观通道由卷积神经网络构成，由4个残差卷积块、4个通道注意力块、4个空间注意力块堆叠而成，连接顺序为每个残差卷积块后紧跟着一个通道注意力块和一个空间注意力块；几何通道由图神经网络构成，由7个图残差块、7个通道注意力块、7个空间注意力块堆叠而成，连接顺序为每个图残差块后紧跟着一个通道注意力块和一个空间注意力块；其中，为了适应表情识别任务，在两个通道最后加入了2个全连接层、1个归一化层和1个激活层，输出维度为256。

5.根据权利要求1所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：所述的步骤2中的融合识别模块；融合识别模块由通道注意力块和softmax两部分构成，其中通道注意力块用于对外观通道和几何通道的输出分配合适的权重，softmax用于输出表情识别结果；融合识别模块中的通道注意力块结构与外观通道或几何通道中使用的通道注意力块结构一致。

6.根据权利要求2所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：三维密集人脸重建网络中使用的卷积神经网络的结构和外观通道中使用的卷积神经网络一致，但是最后的输出维度为62。

7.根据权利要求3所述的一种基于三维人脸特征重建和图深度学习的真实环境面部表情识别方法，其特征在于：残差卷积块包含2个卷积层、2个归一化层、2个激活层、1个残差连接；图残差块包含3个卷积层、1个归一化层、1个激活层、1个残差连接；残差卷积块和图残差块的内部连接顺序为每个卷积层后紧跟一个归一化层和一个激活层，最后再跟一个残差连接；通道注意力块包含2个卷积层，1个平均池化层、1个最大池化层、2个全连接层，内部连接顺序为一个卷积层后紧跟一个最大池化层和一个全连接层，另一个卷积层后紧跟一个平均池化层和一个全连接层，之后两个全连接层输出相加；空间注意力块包含1个卷积层、1个sigmoid层，内部连接顺序为卷积层后紧跟sigmoid层。