CN114333002A

CN114333002A - 基于图深度学习和人脸三维重建的微表情识别方法

Info

Publication number: CN114333002A
Application number: CN202111610586.XA
Authority: CN
Inventors: 孙宁; 季丰达; 陶江龙
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-12

Abstract

本发明是一种基于图深度学习和人脸三维重建的微表情识别方法，包括如下步骤：构建图特征学习模块，进行图特征分析获得一维特征向量；构建光流特征学习模块，通过光流特征提取获得一维特征向量；构建三维细节重建模块，得到一维特征向量；构建多流OGC‑FL网络模型结构，通过多流融合得到微表情识别分类结果。与单一策略相比，本发明多策略生成光流特征可以筛选出对微表情识别任务最为有利的生成策略；本发明的多流OGC‑FL网络模型结构，找到了人脸关键点信息和密集图像信息在识别微表情上的一致性，关键点稀疏空间信息可以通过GFL判断微表情大致的状态，而密集图像信息则凸显了面部细微的肌肉运动，为MER提取更加细节的信息。

Description

基于图深度学习和人脸三维重建的微表情识别方法

技术领域

本发明图像处理技术领域，具体的说是涉及一种基于图深度学习和人脸三维重建的微表情识别方法。

背景技术

微表情识别具有发掘人类真实情绪的潜在可能。微表情往往只持续十分短暂的一段时间，大约在面部停留1/25到1/3秒之间，并且只发生局部肌肉运动，所以正确观测与识别有着很大的难度。此外，微表情作为一种自发式的面部特征，难以伪造或者抑制。由于微表情识别能够揭露一个人的真情实感，它可以广泛被应用于需要准确识别人类情绪的诸多领域，例如国防安全、案件刑侦、心理病理、社会交际等。

近年来，微表情识别在信息社会中的潜在效益越来越大。研究人员们注意到了微表情识别的研究价值，公开发表了多样的微表情数据集(例如SMIC、CASMEⅡ、SAMM)，微表情识别逐渐成为研究热点。微表情识别方法大致可以分为两大部分，一是传统机器学习，二是深度学习模型。一些传统的机器学习方式聚焦于使用手工制作的时空特征来辨别面部细微肌肉运动，它们都用来捕捉面部微表情的细微特征，在某些情况下，这些时空特征对微表情的识别水平甚至超过了训练有素的专家。深度学习是一个热门的研究话题，在深度学习在目标检测和人脸识别的巨大成功的激励下，研究人员开始尝试使用神经网络来自动生成可靠的微表情特征描述符。传统的CNN网络(例如AlexNet、VGGNet、ResNet)由一定顺序的卷积层构成，卷积层内含固定大小的过滤器。这些卷积神经网络的扩展方法已经在微表情识别领域获得了喜人的成绩。随着GCN的成熟，视觉任务的关系建模和图深度学习受到了越来越多的关注。将设计好的面部表情的稀疏信息用于图深度学习的表情识别，可以使识别结果有较强的鲁棒性。在二维图像上提取微表情细微和短暂的肌肉运动特征对于单一深度学习网络来说是一个困难的任务。从现有的提取特征方式来看，微表情识别主要是依靠一些手工制作的二维时空间特征描述来解释人脸面部表情的时空变化趋势的。

发明内容

为了解决上述问题，本发明提供了一种基于图深度学习和人脸三维重建的微表情识别方法，着手于探索三维人脸重建对于微表情二维图像特征信息中的丢失内容的补充描述，能够改善自发微表情的识别精度，开发了时空特征的多流OGC-FL网络模型结构，关键点稀疏空间信息可以通过GFL判断微表情大致的状态，而密集图像信息则凸显了面部细微的肌肉运动，为MER提取更加细节的信息。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于图深度学习和人脸三维重建的微表情识别方法，该方法包括如下步骤：

步骤1：构建图特征学习模块，以下称GFL)模块。基于人脸三维重建从二维人脸图像中得到三维面部关键点坐标，以此构建人脸关键点图结构，并用人脸关键点图结构构建了自适应图卷积网络的邻接矩阵，将人脸关键点图结构输入自适应图卷积网络，进行图特征分析获得一维特征向量；

步骤2：构建光流特征学习模块，以下称OFL)模块。首先是光流特征提取，OFL模块从微表情视频序列中选择顶点帧，将其与视频序列中的初始帧进行光流估计，得到水平光流特征和垂直光流特征，并以双通道的方式接收水平和垂直光流信息，在分别经过两个小卷积核的卷积神经网络之后，将输出结果连接为一个向量，通过一层全连接层，最终得到一维特征向量。小卷积核的卷积神经网络是Inception网络模块的一种改进形式。

步骤3：构建三维细节重建模块，以下称DCL)模块。通过细节表情捕捉和动画化技术分别生成微表情起始帧和顶点帧的人脸部法向量特征，通过法向量绝对值差建立起始帧和顶点帧的时空间联系，

I_d＝|I_A-I_O|

其中，I_A表示顶点帧法向量矩阵，I_O表示起始帧法向量矩阵，I_d表示时空间联系矩阵；

将时空间的联系作为时空特征输入MobileNet网络进行特征的提取和分析，得到一维特征向量。

步骤4：将步骤1图特征学习模块得到的特征向量、步骤2光流特征学习模块得到的特征向量与步骤3三维细节重建模块得到的特征向量依次相加，通过全连接层和softmax层得到分数，最终组成多流OGC-FL网络模型结构，得到微表情识别分类结果。

本发明的进一步改进在于：小卷积核的卷积神经网络由三个分支组成，第一个分支以1x1的卷积核依次连接两个3×3的卷积核，第二个分支是两个1×1和3×3的卷积核组成，第三个分支是单独的一个1×1的卷积核，第三个分支采用了Maxpool层对原始的光流特征进行了下采样。

本发明的进一步改进在于：所述步骤1中的人脸关键点图结构是指68个面部关键点的三维坐标信息以及其邻接关系。本发明定义了一种有效的人脸关键点图结构，这样做符合人脸部表情肌运动的典型特征，能够较好地表征微表情的空间特征。

本发明的有益效果是：本发明方法拓展图深度学习至微表情识别领域，适应的GFL网络结构的邻接矩阵是在人脸对齐生成的人脸关键点的基础上构建的；另一方面，本发明使用了多种策略来生成光流图片，与单一策略相比，多策略生成光流特征可以筛选出对微表情识别任务最为有利的生成策略；本发明选择了中间帧和起始帧来让光流场有更大的瞬时变化速率，有助于凸显不同类别的微表情的肌肉运动特质；本发明采用小卷积核的卷积神经网络模块构建OFL模块，将水平光流和垂直光流分成两路输入小卷积核的卷积神经网络模块，并和GFL、DCL一起组成多流OGC-FL网络模型结构，找到了人脸关键点信息和密集图像信息在识别微表情上的一致性，关键点稀疏空间信息可以通过GFL判断微表情大致的状态，而密集图像信息则凸显了面部细微的肌肉运动，为MER提取更加细节的信息。

附图说明

图1是本发明人脸关键点以及邻接矩阵图。

图2是本发明TVL1水平光流和垂直光流图。

图3是本发明起始帧和顶点帧的人脸时空间差异图。

图4是本发明多流OGC-FL网络模型结构图。

图5是本发明小卷积核的神经网络模块。

图6是本发明OFL模块以及其中的双流网络结构。

图7是本发明DCL模块结构图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1-7所示，本发明是一种基于图深度学习和人脸三维重建的微表情识别方法，包括以下步骤：

步骤1：构建图特征学习(以下称为GFL)模块。图深度学习技术近来在动作识别领域取得了巨大的突破，本发明将其拓展到了表情识别领域。如图1所示，本发明基于人脸重建得到的68个关键点坐标，构建了适应人脸特征提取的面部图结构以及GFL的邻接矩阵。将人脸关键点信息输入GFL模块，进行图特征分析获得稀疏空间特征。

步骤2：构建光流特征学习(以下称为OFL)模块。光流特征提取，从微表情视频序列中选择能够凸显微表情特征的顶点帧，将其与视频序列中展示平静脸的初始帧进行光流估计。光流基础表达式如下:

f_xu+f_yv+f_t＝0

其中，

针对光流估计策略的不同，对多种光流算法进行评估，并选择TV-L1光流方法，它的优化方程为：

时空表达信息富集于光流特征之中，OFL可以用来重建和细化光流中的运动信息，改善特征信息对识别结果的有效性。光流特征如图2所示，OFL双流网络通过水平和垂直光流特征将微表情的深层时空信息较好地展现了出来，并具有相比于OFL单流网络来说更好的鲁棒识别能力。

步骤3：构建三维细节重建(以下称为DCL)模块，如图3所示，我们通过细节表情捕捉技术生成的人脸部法向量矩阵，建立起始帧和顶点帧的时空间联系。

I_d＝|I_A-I_O|

其中，I_A表示顶点帧法向量矩阵，I_O表示起始帧法向量矩阵，I_d表示时空间联系矩阵。

将时空间的联系作为时空特征输入MobileNet网络进行特征的提取和分析，并和GFL模块、OFL模块一起组成多流网络结构。

步骤4：通过多流融合，最终得到微表情识别分类结果。

如图4所示，本发明提出的方法由基于OFL的光流特征提取、基于GFL的人脸几何特征提取、人脸三维重建以及多流融合四个模块构成。其中人脸三维重建用于生成面部密集几何特征。光流特征提取用来提取出微表情的水平光流分量和垂直光流分量，基于OFL的光流特征提取可以用来重建和细化光流中的运动信息，改善特征信息对识别结果的有效性。基于GFL的人脸几何特征提取用于提取人脸关键点包含的稀疏空间信息。人脸三维重建模块将人脸原始图像通过细节表情捕捉过程之后生成了高精度面部展开图像，分别生成了微表情起始帧和顶点帧的细节表情展开图像，获取两者的时空间联系，将生成的图片输入卷积神经网络，得到输出层的特征向量。

如图5所示，光流特征提取模块由小卷积核的卷积神经网络模块组成，它是一种Inception网络模块的改进形式，本发明采用1×1,3×3的卷积层来降低计算的复杂度。小卷积核的卷积神经网络由三个分支组成，第一个分支以1x1的卷积核依次连接两个3×3的卷积核，第二个分支是两个1×1和3×3的卷积核组成，第三个分支是单独的一个1×1的卷积核，第三个分支采用了Maxpool层对原始的光流特征进行了下采样，这样可以更多地保留微表情的纹理信息，选出了分类辨识度更好的特征，以获取更好的结果，以双通道的方式接收水平和垂直光流信息，在分别经过两个卷积神经网络模块之后，将输出结果连接为一个向量。

GFL的人脸几何特征提取模块包含10个图卷积单元，每个图卷积单元由图卷积结构，残差结构组成。图卷积结构的卷积核尺寸前三个单元为12，中间四个单元为24，后三个单元为48；残差结构是由残差块构成，残差块可以在尽可能保留有效信息地情况下加深网络层数并防止梯度爆炸。为了使GFL适用于微表情识别任务，在10个图卷积单元之后，加入了全局平局池化层和全连接层。其中全连接层的输出为256维向量。因此，几何特征提取模块的输出为256维的表情类别向量。

DCL模块特征向量与GFL的人脸几何特征和OFL的光流特征相加，得到多流网络的最终特征结果，并通过最后的softmax层获得微表情识别结果。

整个训练过程采用了SGD优化方法，采用交叉熵损失函数，初始学习率设置为了0.1，在50，100，150epochs时，自动下降十倍，经过200epochs的训练。

本发明开发了端到端的时空特征多流OGC-FL网络模型结构，旨在能够改善自发微表情的识别精度。该网络通过人脸关键点组成的拓扑图结构来提取稀疏空间特征。微表情视频序列的光流用以提取序列中的时间特征，两者相互结合可以进一步提高对微表情序列中面部表情时空特征的特征提取质量。除了学习上述时空特征以外，网络重建了三维人脸，并放大了精细纹理特征的时空差异，最终形成了能够提取时空特征的多流结构。我们在CASME2、SMIC和SAMM微表情联合数据库进行了大量实验，结果表明本发明提出的混合神经网络结构对实验室场景下的微表情识别是有效的，具有较好的识别率和鲁棒性。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述微表情识别方法包括如下步骤：

步骤1：构建图特征学习模块：基于人脸三维重建从二维人脸图像中得到三维面部关键点坐标，以此构建人脸关键点图结构，并用人脸关键点图结构构建了自适应图卷积网络的邻接矩阵，将人脸关键点图结构输入自适应图卷积网络，进行图特征分析获得一维特征向量；

步骤2：构建光流特征学习模块，通过光流特征提取获得一维特征向量；

步骤3：构建三维细节重建模块，得到一维特征向量；

步骤4：构建多流OGC-FL网络模型结构，通过多流融合得到微表情识别分类结果。

2.根据权利要求1所述基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述步骤光流特征学习模块构建具体包括：

步骤2-1：光流特征提取：光流特征学习模块从微表情视频序列中选择顶点帧；

步骤2-2：将顶点帧与视频序列中的初始帧进行光流估计，得到包括水平光流特征和垂直光流特征的双流网络结构；

步骤2-3：所述双流网络结构以双通道的方式接收水平和垂直光流信息，在分别经过两个小卷积核的卷积神经网络之后，将输出结果连接为一个向量；

步骤2-4：通过一层全连接层，最终得到一维特征向量。

3.根据权利要求2所述基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述步骤2-3中的小卷积核的卷积神经网络由三个分支组成，第一个分支以1x1的卷积核依次连接两个3×3的卷积核，第二个分支是两个1×1和3×3的卷积核组成，第三个分支是单独的一个1×1的卷积核，第三个分支采用了Maxpool层对原始的光流特征进行了下采样。

4.根据权利要求1所述基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述步骤4具体为：将步骤1图特征学习模块得到的特征向量、步骤2光流特征学习模块得到的特征向量与步骤3三维细节重建模块得到的特征向量依次相加，通过全连接层和softmax层得到分数，最终组成多流OGC-FL网络模型结构，得到微表情识别分类结果。

5.根据权利要求1所述基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述步骤3具体为：通过细节表情捕捉和动画化技术分别生成微表情起始帧和顶点帧的人脸部法向量特征，通过法向量绝对值差建立起始帧和顶点帧的时空间联系，

I_d＝|I_A-I_O|

6.根据权利要求1所述基于图深度学习和人脸三维重建的微表情识别方法，其特征在于：所述步骤1中的人脸关键点图结构是指68个面部关键点的三维坐标信息以及其邻接关系。