CN113705384A

CN113705384A - 一种考虑局部时空特性和全局时序线索的面部表情识别方法

Info

Publication number: CN113705384A
Application number: CN202110925608.5A
Authority: CN
Inventors: 杨新宇; 魏洁; 胡冠宇; 张与弛; 陈航; 郭靖宜; 梁策
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-26
Anticipated expiration: 2041-08-12
Also published as: CN113705384B

Abstract

本发明公开了一种考虑局部时空特性和全局时序线索的面部表情识别方法，包括：首先，基于人脸识别技术处理原始视频得到只包含面部区域的视频，并将视频平均分为一定数量的片段；其次，提出一个基于超级图像的时空卷积模型，以采样每个片段的视频帧为输入，利用2D卷积实现视频片段的局部时空特征提取，同时获取不同时刻片段的情感状态向量，有效降低模型训练参数，提升训练速度；最后，提出一个双流长短时记忆模型，考虑了情感表达的时序变化关系和片段级局部时空特征的时序关系，二者相融合提高面部表情识别性能。本发明简单且易于实现，与目前普遍存在的识别模型结构相比，模型参数量降低，同时保证了面部表情识别的有效性。

Description

一种考虑局部时空特性和全局时序线索的面部表情识别方法

技术领域

本发明属于人工智能、情感计算领域，具体涉及一种考虑局部时空特性和全局时序线索的面部表情识别方法。

背景技术

近年来，视频社交逐渐取代图文成为了人们沟通交流的新方式。人们倾向于通过视频分享生活琐事、时事热点和新型产品等。智能的分析视频传递的情感信息有利于了解用户主观感受，进而改善服务达到营销目的。此外，自动视频情感识别研究在人机交互、教学实践、汽车安全驾驶等领域同样发挥着重要作用。

面部表情作为人们表达情感的主要方式，包含判断情感状态十分有效的模态信息，因此，基于面部表情的情感识别已成为情感识别任务中最流行的方法。面部表情序列数据不同于静态图片，除了包含空间信息，还包含丰富的时序信息。尽管深度学习在视频情感识别领域已经取得了一定的成功，但仍不清楚什么是视频时空建模最有效的网络架构。现有的面部表情识别的深层神经网络模型主要分为两类：1)使用CNN+RNN架构，其中CNN用于空间关系建模，RNN进行时间关系建模。然而独立地学习空间和时间特征会丢失部分信息，得到的集成式时空特征对于情感识别并不具有最佳优势。2)使用3D卷积将空间和时间特征紧密地联系在一起并共同学习时空特征。考虑到2D卷积在图像识别上出色的特征学习能力，理想情况下3D卷积在学习视频时空特征方面应该也具备足够优势，然而大量的模型参数和较慢的计算效率限制了其有效性和实用性。

发明内容

为了克服现有技术的不足，本发明提供了一种考虑局部时空特性和全局时序线索的面部表情识别方法，通过将面部表情视频序列划分为多个片段，分别考虑局部的时空特性和全局的时序信息提取情感相关特征，解决现有技术在特征提取方面的不充分，进一步提高面部表情识别准确率。

为达到上述目的，本发明采用如下的技术方案来实现的：

一种考虑局部时空特性和全局时序线索的面部表情识别方法，该方法首先基于人脸检测技术处理原始视频得到只包含面部区域的视频，并将视频平均分为一定数量的片段；其次提出一个基于超级图像的时空卷积模型，以采样每个片段的视频帧为输入，提取局部时空特征同时获取不同时刻片段的情感状态向量；最后提出一个双流长短时记忆模型，充分学习面部表情变化的全局时序关系来进行情感识别。

本发明进一步的改进在于，具体包括以下步骤：

1)视频预处理：提取视频的所有帧，基于DBFace模型执行人脸检测和定位，去掉背景和无关区域返回只包含面部区域的视频，并将视频平均分为设定数量的片段用于后续处理；

2)局部时空特征提取：以采样每个片段的视频帧为输入，构建基于超级图像的时空卷积模型，并嵌入在深度神经网络模型中，同时学习局部时空特征和片段级情感表示；

3)情感识别：以获得的局部时空特征和片段级情感表示为输入，构建双流长短时记忆模型学习全局时序关系，进行情感识别。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

2-1)超级图像：每个片段采样T个视频帧，将T个视频帧分别沿着X轴和Y轴进行堆叠，得到两个超级图像X×YT和XT×Y；

2-2)基于超级图像的时空卷积模型：以上述的两个超级图像为输入，分别执行3×3的2维卷积，得到两个特征图F_X和F_Y，再将其转变为视频最初形式的T个视频帧，进行加权融合作为最终的结果；

2-3)局部时空特征提取和片段级情感表示：结合ResNet18模型结构和基于超级图像的时空卷积模型，构建深层卷积神经网络进行局部时空特征提取和片段级情感表示。

本发明进一步的改进在于，步骤2-2)提出的基于超级图像的时空卷积模型，将视频帧转化为两个超级图像作为输入，执行2D卷积获取到时空特征；具体的，在两个超级图像上分别执行3×3的2D卷积，并通过实现卷积核参数共享，降低模型整体的参数量，得到两个特征图F_X和F_Y，再将其转变为视频最初形式T个视频帧，进行加权融合作为最终的结果；权重系数通过注意力机制进行学习，两个特征图连接后使用一个全连接层和softmax层计算：α＝Softmax[W_α(X_H,X_W)]，W_α是一个可学习的参数。

本发明进一步的改进在于，步骤2-3)进行局部时空特征提取和片段级情感表示的具体模型结构为：首先，所有视频帧经过3×3 2D卷积层和maxpool层；其次，将原始ResNet18原来的BasicBlock替换为基于超级图像的时空卷积模型；然后，将2D全局平均池化层调整为3D全局平均池化层，此时获得局部时空特征表示；最后，紧跟一个全连接层获得片段级情感表示向量。

本发明进一步的改进在于，步骤3)的具体实现方法如下：

3-1)全局时序线索学习：情感的表达在时间上存在递进关系，前一段时刻的状态信息会对后续时刻产生影响，构建的双流长短时记忆模型包含两条处理流，分别对局部时空特征和片段级情感进行时序建模，获得视频级情感理解；

3-2)多阶段监督情感识别：学习局部时空特性和全局时序线索的两个模型共同学习，提出使用多阶段监督学习方法，不只是对最终输出监督，而在模型各个输出端都提供监督，使得整体模型更好的训练，最终获得情感识别结果。

本发明进一步的改进在于，步骤3-1)构建的用于情感识别的双流长短时记忆模型具体结构：输入为片段级的局部时空特征序列和情感状态序列，其中特征流从局部时空特征进一步识别情感向量E₁，情感流从片段级情感状态向量序列捕获视频的全局情感向量E₂，将不同通路获得的情感状态融合得到最终的视频情感状态E。

本发明进一步的改进在于，步骤3-2)涉及的多阶段监督包含三个损失的联合模型训练：首先，在获得片段级情感向量时，使用交叉熵损失计算其与真实标签之间的距离，记为L₁损失；其次，在情感识别阶段特征流和情感流同样会获得情感向量，分别使用交叉熵损失计算其与真实标签之间的距离，记为L₂和L₃损失；最后，整个模型的损失函数定义为L＝L₁+λL₂+μL₃，其中，λ和μ为平衡系数。

本发明至少具有如下有益的技术效果：

本发明提供一种考虑局部时空特性和全局时序线索的面部表情识别方法，该方法提出基于超级图像的时空特征提取模型，利用2D卷积实现视频片段的局部时空特征提取，有效降低模型训练参数，提升训练速度；该方法提出的包含局部情感表达向量和局部时空特征的双流长短时记忆模型，考虑了情感表达的时序变化关系和片段级局部时空特征的时序关系，二者相融合可以有效提高面部表情识别性能。此外，该方法是一个端到端的网络结构，采用多阶段阶段的模型训练方式，使得整体模型得到很好的训练。通过理论分析和实验分析，进一步证实了本发明在视频情感识别上的有效性和准确性。

附图说明

图1是本发明中考虑局部时空特性和全局时序线索的面部表情识别方法的流程图；

图2是本发明中基于超级图像的时空卷积模型与C3D和C2D模型结构对比图；

图3是本发明中双流长短时记忆模型的结构图；

图4是本发明方法在CK+数据集各类情感识别的混淆矩阵图。

具体实施方式

下面结合附图对本发明作进一步详细描述，但不以任何方式限制本发明的范围。

本发明提供的一种考虑局部时空特性和全局时序线索的面部表情识别方法，包括以下步骤：

1.视频预处理

背景、发型、衣着等与面部表情无关的变化在原始视频中是非常普遍存在，在训练深度神经网络来学习视觉特征和识别情感状态之前，需要进行视频预处理以增强面部传达的视觉语义信息，参考图1，具体包括以下步骤：

Step1视频帧提取：将每个视频的所有帧进行提取，用于后续研究。

Step2人脸检测和定位：基于深兰科技提出的DBFace模型执行人脸检测和定位，返回包含人脸的视频帧，同时将人脸部分进行裁剪并去掉背景和无关区域，避免无关信息的干扰。

Step3视频分割：考虑到视频数据时长的不一致性和情感表达的逻辑递进关系，将每个视频平均分为C个片段，而每个片段包含相同数量的视频帧用于后续处理。

2.局部时空特性学习

以采样每个片段的视频帧为输入，构建基于超级图像的时空卷积模型，并嵌入在深度神经网络模型中，同时学习局部时空特征和片段级情感表示，具体包括以下步骤：

Step1超级图像：每个片段采样T个视频帧，将T个视频帧分别沿着X轴和Y轴进行堆叠，得到两个超级图像X×YT和XT×Y，通过该处理，获得的超级图像不仅包含由单个帧表示的局部空间外观信息，而且还包含连续视频帧之间的局部时间依赖性。

Step2基于超级图像的时空卷积模型(Super image-based spatio-temporalconvolution model,SISTCM)：参照图2，C3D模型利用3×3×3的3D卷积联合提取空间和时间特征，C2D模型先利用1×3×3的2D卷积提取空间特征，然后利用3×1×1的2D卷积提取时间特征；本发明提出的基于超级图像的时空卷积模型以超级图像为输入，分别执行3×3的2维卷积，得到两个特征图F_X和F_Y，再将其转变为视频最初形式的T个视频帧，进行加权融合作为最终的结果；权重系数通过注意力机制进行学习，两个特征图连接后使用一个全连接层和softmax层计算：α＝Softmax[W_α(X_H,X_W)],W_α是一个可学习的参数。

Step3局部时空特征提取和片段级情感表示：结合ResNet18模型结构和基于超级图像的时空卷积模型，构建深层卷积神经网络进行局部时空特征提取和片段级情感表示；参照表1，模型的具体结构为：首先，所有视频帧经过3×32D卷积层和maxpool层；其次，将原始ResNet18原来的BasicBlock替换为基于超级图像的时空卷积模型；然后，将2D全局平均池化层调整为3D全局平均池化层，此时可以获得局部时空特征表示；最后，紧跟一个全连接层获得片段级情感表示向量。

3.构建情感识别模型

情感的表达在时间上有一定的递进关系，前一段时刻的状态信息会对后续时刻产生影响，参照图3，构建的双流长短时记忆模型(Long short-term memory,LSTM)包含两条处理流，分别对局部时空特征和片段级情感进行时序建模，获得视频级情感理解；模型的输入为片段级的局部时空特征序列和情感状态序列，其中特征流从局部时空特征进一步识别情感向量E₁，情感流从片段级情感状态向量序列捕获视频的全局情感向量E₂，我们将不同通路获得的情感状态融合得到最终的视频情感状态E。

表1：本发明中用于局部时空特性学习的模型结构。

为了验证本发明面部表情识别框架的时空特征学习模块和多阶段监督学习有效性，本发明在ESVG数据集上进行了相应的实验，结果参照表2所示。首先，相比于ResNet18只提取了空间特征，本发明的基于超级图像的时空卷积模型提取了视频的时空特征获得了更好的情感识别性能，说明了对于视频数据而言时序关系的挖掘是非常重要的。其次，从实验结果观察，与只使用单个LSTM进一步学习片段级特征的全局时序关系相比，双流LSTM的识别性能更好，说明了考虑片段级情感变化过程有利于对整个情感状态的判断。最后，使用多阶段监督的可以使各个模块都学习到更有效的情感线索，因此相比于只对最终结果监督其获得了更高的识别准确率。

表2：本发明中不同时空特征学习模型和监督学习方式的识别准确率对比结果。

为了验证本发明提出的考虑局部时空特性和全局时序线索的面部表情识别方法的有效性，本发明进一步在公共数据集CK+上进行了相应的实验。参照表3，与同样只使用视频序列不使用面部关键特征点的Sanin、Liu和Kumawat等人的工作相比，本发明提出的方法实现了最好的准确性；使用面部关键特征点增加了几何外观特征的提取，但同时会增加计算量，本发明在降低计算的情况下识别性能与Zhang和Kulkarni的工作有可比性，且优于其他同样使用了面部关键特征点的模型，一定程度表明了本发明的有效性。参照图4，从实验结果观察到，‘伤心’情感的识别表现不太理想，主要原因可能是该情感类别的数据量较少，模型没有很好学习到情感特征线索。而其他情感类别的识别准确性很高，其中‘生气’和‘害怕’准确率达到100％，这可能是因为在该类别具有比较明显的情感表现线索，同时样本的数量也比较多。

表3：本发明方法与目前最优方法在CK+数据集上的性能对比。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，该方法首先基于人脸检测技术处理原始视频得到只包含面部区域的视频，并将视频平均分为一定数量的片段；其次提出一个基于超级图像的时空卷积模型，以采样每个片段的视频帧为输入，提取局部时空特征同时获取不同时刻片段的情感状态向量；最后提出一个双流长短时记忆模型，充分学习面部表情变化的全局时序关系来进行情感识别。

2.根据权利要求1所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，具体包括以下步骤：

3.根据权利要求2所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤2)的具体实现方法如下：

4.根据权利要求3所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤2-2)提出的基于超级图像的时空卷积模型，将视频帧转化为两个超级图像作为输入，执行2D卷积获取到时空特征；具体的，在两个超级图像上分别执行3×3的2D卷积，并通过实现卷积核参数共享，降低模型整体的参数量，得到两个特征图F_X和F_Y，再将其转变为视频最初形式T个视频帧，进行加权融合作为最终的结果；权重系数通过注意力机制进行学习，两个特征图连接后使用一个全连接层和softmax层计算：α＝Softmax[W_α(X_H,X_W)]，W_α是一个可学习的参数。

5.根据权利要求4所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤2-3)进行局部时空特征提取和片段级情感表示的具体模型结构为：首先，所有视频帧经过3×3 2D卷积层和maxpool层；其次，将原始ResNet18原来的BasicBlock替换为基于超级图像的时空卷积模型；然后，将2D全局平均池化层调整为3D全局平均池化层，此时获得局部时空特征表示；最后，紧跟一个全连接层获得片段级情感表示向量。

6.根据权利要求2所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤3)的具体实现方法如下：

7.根据权利要求6所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤3-1)构建的用于情感识别的双流长短时记忆模型具体结构：输入为片段级的局部时空特征序列和情感状态序列，其中特征流从局部时空特征进一步识别情感向量E₁，情感流从片段级情感状态向量序列捕获视频的全局情感向量E₂，将不同通路获得的情感状态融合得到最终的视频情感状态E。

8.根据权利要求7所述的一种考虑局部时空特性和全局时序线索的面部表情识别方法，其特征在于，步骤3-2)涉及的多阶段监督包含三个损失的联合模型训练：首先，在获得片段级情感向量时，使用交叉熵损失计算其与真实标签之间的距离，记为L₁损失；其次，在情感识别阶段特征流和情感流同样会获得情感向量，分别使用交叉熵损失计算其与真实标签之间的距离，记为L₂和L₃损失；最后，整个模型的损失函数定义为L＝L₁+λL₂+μL₃，其中，λ和μ为平衡系数。