CN113420703B

CN113420703B - 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

Info

Publication number: CN113420703B
Application number: CN202110752977.9A
Authority: CN
Inventors: 夏小涵; 蒋冬梅
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-07-03
Filing date: 2021-07-03
Publication date: 2023-04-18
Anticipated expiration: 2041-07-03
Also published as: CN113420703A

Abstract

本发明主要设计了一种基于多尺度特征提取和多注意力机制建模的面部表情识别方法。该方法能够从局部和全局上同时考虑情感相关的面部特征，以最大程度地挖掘表情显著的面部视觉信息；与此同时，考虑了多注意力机制的策略，以在时序上突显关键帧的重要作用，并在空间维度上给予包含丰富表情信息的区域块更高的权重，从而增加关键帧和关键块对表情识别的贡献，实现更好的表情识别效果。经过对本发明的实验验证，在Aff‑Wild2数据库上的七类情感识别的准确率可以达到50.3％，F1分值可以达到49.5％，在RML数据库上的六类情感识别的准确率可以达到78.32％，在AFEW数据库上的七类表情识别的准确率可以达到59.79％，均已达到或领先世界先进水平。

Description

基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法

技术领域

本发明采用二维卷积神经网络(2D CNN)、三维卷积神经网络(3D CNN)，以及时间和空间维度上的注意力机制，设计了一种基于多尺度特征提取和多注意力机制建模对面部视频进行帧级别表情识别的方法。

背景技术

近年来，自动表情识别受到越来越多研究者的关注，以使计算机能够自动识别并理解被观测者的面部表情并作出下一步反应，从而促进更为和谐的人机交互。目前最为流行的是基于基本情感类别假设的离散表情识别，即把表情分为诸如高兴、悲伤、生气等等某一特定类别的情感状态。传统的动态表情数据库是为每一个视频标注一个唯一的情感类别，从而在每个视频中只存在一种情感状态。然而，同一种情感状态下可能存在从中性演进成丰富的感情状态再回落到中性状态的过程，因此把同一视频中的所有帧都视为相同的表情是不够合理的。在2020年举办的自然场景下的情感行为分析竞赛(ABAW2020)中，组织者发布了一个全新的数据库Aff-Wild2。该数据库包含五百多个从互联网上收集的视频，其中每个视频中的每一帧都被标注为七类表情中的一种，因此一个视频中可能包含了多种不同类型的表情，比如从中性到惊讶再到恐惧。这个竞赛的举办带来了新的研究课题，即动态视频中帧级别的离散表情识别。

对于面部视频中的动态表情识别研究来说，主要存在两个难点：一是如何提取有效的面部特征，并对情感表现显著的面部区域给予更多关注；二是如何建模视频中的动态时序性，同时最大化关键帧起到的全局作用。

传统的空间特征大多是手工特征，比如方向梯度直方图、局部二值模式、面部特征点等等。但是这种手工设计的特征往往依赖于较强的领域知识。随着深度学习技术的不断发展，CNN表现出极强的深度特征学习能力，并在计算机视觉领域取得了很好的效果。借助于ResNet和VGGFace2之类大规模的预训练模型，很多研究者基于迁移学习的方法，在这些预训练模型的基础上用情感数据进行模型的微调，进而实现情感相关的深度特征提取。随后一些研究还将注意力机制应用到CNN模型中，进一步提高了CNN的深度特征学习能力。另一方面，还有一些工作借鉴面部特征点或者面部动作单元的知识，把人脸分成若干面部区域，然后在每个局部块上进行特征提取，实现了更好的表情识别效果。

对于面部视频中的动态特征建模，早期的方法通常利用统计函数把帧级别的特征汇总成视频级别的全局特征表示，然后用支持向量机等机器学习模型进行表情识别。但是，这种方法没有考虑视频中的时序依赖性。为了解决这个问题，循环神经网络被用于时序建模并取得了很好的效果。然而，时序演进过程中的不同帧被模型赋予了相同的重要性，没有考虑到关键帧的问题。为此，一些研究者引入了注意力机制来突显关键帧对模型的贡献和影响。比如，在循环神经网络模型的上层加入一个注意力层，或者通过额外的帧注意力模型来适应性地聚合帧级别的特征，很多研究表明时间维度上的注意力机制对动态表情识别的效果有很大提升。近来，三维卷积神经网络(3DCNN)也被用于短时的时空特征提取或者直接用于表情分类。由于3D CNN能够把空间和时间维度上的信息同时紧密的考虑并进行建模，因此提高了针对面部视频的动态表情识别效果。

面部表情和面部动作单元(AU)密切相关。根据面部运动编码系统的领域知识，AU对应于面部肌肉的运动，而这些AU本身或者一些特定的组合几乎可以形成任何的面部表情。比如，AU6(脸颊上扬)和AU12(嘴角上扬)的同时出现表示一种高兴的表情。受人类AU专家标注过程的启发，文献“L.Yang,et al.,FACS3D-Net:3d convolution based spatio-temporal representation for action unit detection,in:2019 ACII,IEEE,pp.538–544.”通过集成2D CNN和3D CNN来同时考虑空间和时间维度上的深度特征编码，并通过实验证明该方法与人类标注过程中的动态注意力一致。随后，该研究团队又提出了区域注意力的动态深度模型，通过在面部局部区域上进行特征提取并引入空间注意力机制，取得了更好的AU识别结果。

发明内容

当我们判断一个视频中的某一帧的表情时，不仅会关注当前帧，还会受到相邻帧的影响来做出判断，尤其是那些情感状态比较显著的帧。与此同时，当我们观察整个面部区域时，还会更关注那些局部区域中的细节，比如眼眶和嘴巴。受到这种现象的启发，本发明设计了一种基于多尺度特征提取和多注意力机制的动态面部表情识别方法。该方法在全脸和面部区域块两个尺度上同时进行深度时空特征的提取，并同时考虑了时间和空间维度上的注意力机制。本发明的创新点如下：

1)提出了一种多尺度特征编码方法，以同时学习基于整张人脸的全局特征和基于面部区域块的局部特征，然后进行串接作为学到的多尺度深度特征。其中，每种特征都采用了2D和3D CNN结合的方法来联合学习深度时空特征。对于全局特征提取，我们采用了ResNet50和R(2+1)D两个预训练模型来提高卷积神经网络的特征提取能力。

2)设计了一种时空多注意力机制，通过对时序上的不同帧进行重要性判断，来突显时间序列上情感状态较为显著的关键帧，并自动对这些帧赋予更高的权重。同时，对于局部特征提取，考虑了空间注意力机制，通过对情感表现明显的区域块给予更高的权重来强化相关面部区域的作用。

3)在三个公开情感数据集上验证了所提出建模方法的效果，均达到了该研究领域内的最高发展水平。可视化分析也证明了所提时空多注意力机制的有效性。

本发明解决其技术问题所采用的技术方案：基于二维卷积神经网络(2D CNN)，三维卷积神经网络(3D CNN)、时间注意力机制和空间注意机制的多尺度多注意力机制的动态面部表情识别模型，其特点如图1所示。下面从输入、模型和输出等三个方面来顺序描述：

输入：本发明首先从人脸视频中进行人脸图片的提取和矫正。虽然本发明的目标是进行视频中的帧级别表情识别，但为了利用视频中的动态信息，我们将目标帧与其前序若干帧一起作为图片序列输入模型，即动态的面部表情识别。

模型：对于输入模型的图片序列，首先应用时间维度上的注意力机制，以自适应的对每一帧赋予不同的权重，使得情感相关的关键帧对应更好的权重，从而对后面的结果产生更大的影响。然后，将这些加权后的帧输入模型进行全局的时空深度特征提取。与此同时，我们基于AU相关知识将人脸划分成九个相互重叠的局部块。这些局部块作为九个互相独立的流分别输入模型进行局部时空特征的提取。另外，这些基于人脸分块的局部特征又被加以空间注意力，从而对每个分块赋予不同的权重，即对不同的局部特征赋予不同的权重。最后，加权后的局部特征与全局特征进行串接，一同输入全连接层进行表情分类。

输出：模型将输出目标帧所对应的情感类别，即高兴、悲伤、生气、惊讶、厌恶、恐惧和中性等七种表情类别之一。

本发明的技术方案是：基于多尺度特征提取和多注意力机制的动态面部表情识别方法，包括如下步骤：

1、对输入原始视频进行预处理

首先，从二维视频中进行人脸图片的提取。针对动态面部表情进行实时的人脸追踪与对齐，在二维视频中实现三维人脸配准，从而实现精准的人脸提取与对齐。然后将提取到的人脸图像进行旋转、缩放和标准化。值得一提的是，虽然本发明的目标是进行视频中的帧级别表情识别，但我们充分考虑了视频中的动态信息，将目标帧与其前序若干帧一起作为图片序列输入模型，以实现动态的面部表情识别。

为了最大程度地挖掘面部与情感相关的信息，本发明依据面部动作单元编码系统的相关知识，将人脸划分为九个互相重叠的区域。分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3)；两眼之间和鼻根的区域(P4)；左眼区域(P5)；右脸颊和右嘴角区域(P6)；鼻子和嘴巴上部区域(P7)；左脸颊和左嘴角区域(P8)；嘴巴和下巴区域(P9)。然后这些切分的区域块被归一化为统一尺寸。随后，将这九个区域块与全脸一起，作为十个互相独立的流，输入模型进行多尺度时空特征的提取。

2、对预处理后的人脸图片序列进行多尺度时空特征提取

a)局部时空特征提取

该子模型基于两流的CNN架构，能够从一个区域块序列中提取局部时空信息。其中一个分支是一个2D CNN，包含3个卷积层和1个全连接层，以对目标帧(即该序列的最后一帧)进行该区域块上的空间特征提取。基于此分支，可以从一个特定的区域块得到一个维度为N_{p_2d}的特征向量，表示该区域块中包含的空间信息。另一个分支是一个3D CNN，用来对输入的序列进行局部的动态时序信息提取。该3D CNN的结构和2D CNN分支的结构相同，唯一的区别是用三维卷积替代二维卷积，从而实现时序上的信息编码。基于该分支，我们将得到一个维度为N_{p_3d}的特征向量，表示该区域块中包含的时序信息。然后，将上述两个分支得到的特征进行串接，表示该区域块对应的局部时空特征，记为V_p。

需要注意的是，本发明设计的模型共包含九个互相独立的上述子模型，分别对应于切分出来的九个区域块。

b)全局时空特征提取

类似地，我们也采用两流的CNN架构来对全脸的图像序列进行时空特征的提取。在2D CNN分支中，我们借鉴在人脸数据库上预训练好的ResNet50模型。在此预训练模型的基础上，我们使用公开的AffectNet表情数据库进行微调，使模型学习到的深度特征更符合带有情感的表情信息。从微调后的ResNet50所提取的特征维度为N_{f_2d}，表示在整张人脸上所提取的全局空间特征。在3D CNN分支中，我们同样借鉴预训练好的R(2+1)D模型。该模型是三维卷积神经网络的变种，通过将三维卷积分解为二维卷积加一维卷积，增加了额外的非线性变化，因此提高了特征的表征能力。我们采用的是在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型，对应的特征维度为N_{f_3d}，表示在整张人脸上学习到的全局时间特征。最后，将这两个分支的输出进行串接，即提取的全局时空特征，记为V_f。

3、利用时空多注意力机制方法进行建模

a)通过空间注意力实现的局部特征加权建模

对于某一类特定的表情来说，人脸上的某些区域对该表情的判断要比其他区域更为重要；另一方面，在一段图片序列中，不同帧所包含的信息量也不尽相同。为了对九个区域块所提取的局部时空特征进行加权，并且考虑时序上不同帧之间的重要性差异，本发明同时从空间和时间维度上考虑注意力机制。

对于空间注意力的实现，我们首先将CNN学到的局部时空特征表示V_p输入一个单层感知机，以得到其对应的隐层表示H^s：

H^s＝tanh(W^sV_p+b^s)

其中，W^s和b^s分别表示感知机的权重和偏置参数，tanh是激活函数。为了衡量九个区域块的重要性程度，我们定义一个上下文向量C^s。该向量可以理解为在模型训练过程中，每个区域块所能提供的有效信息量，也就是对表情识别结果的影响力。然后，计算H^s和C^s的内积来衡量两者之间的相似度。如果内积值越大，则说明该区域块与上下文向量C^s非常相似，即其所包含的空间信息对情感的识别很重要；相反，如果内积值越小，则说明该区域块对表情识别的作用很小。为了得到[0，1]范围内的重要性系数，我们使用Sigmoid函数来激活H^s和C^s的相似度，从而获得空间注意力权重α^s _p：

在计算每个区域块对应的空间注意力权重之后，就可以得到加权后的局部特征SPA_atted：

b)通过时间注意力实现的时序帧加权建模

另一方面，为了判断输入的帧序列上不同帧的重要程度，本发明考虑时间上的注意力机制，以实现对时序帧进行加权。与空间上注意力的实现方法类似，我们首先定义每一帧图像为I_f，以及时序上的上下文向量C^t。此处，C^t的含义可以解释对每一帧的重要性进行衡量，即每一帧图片所包含的重要信息量。然后，计算每一帧图片在RGB三个通道上的均值M_f，得到其对应的隐层表示H^t：

H^t＝tanh(W^tM_f+b^t)

其中，W^t和b^t分别表示该感知机的权重和偏置参数，tanh是激活函数。然后，每帧图片对应的时间注意力权重α^t _f可以通过Sigmoid激活函数得到：

因此，每个图像帧可以编码为TEM_atted：

加权后的RGB图像序列被输入模型中的2D/3D CNN进行多尺度的时空特征提取。

4、识别视频中每一帧图片中的面部表情

经过上述多尺度特征提取和多注意力机制作用后，模型将输出基于整张人脸的全局特征V_f以及基于人脸分块的加权局部特征SPA_atted，两者进行串接后用来表示目标帧。然后，用一个单层感知机和softmax对该帧的表情类别进行预测。最终，模型将输入该视频的每一帧图片中的面部表情类别。

本发明的有益效果是：通过考虑动态视频中连续帧之间的动态信息，本发明提出了一种面向动态视频的帧级别表情识别方法。此方法通过使用多尺度特征学习，即基于全脸的全局特征提取和基于人脸分块的局部特征提取，能够在最大程度上挖掘面部相关的表情信息，提高动态视频中的表情识别效果。同时，该发明提出了一种新的时间注意力方法，在动态时间序列上挖掘每一时刻下不同帧的关键信息，并对情感信息更为显著的帧赋予更好的权重，从而加强其对最终识别结果的影响力。另一方面，本发明在人脸分块化学习中集成了空间注意力机制，通过对面部不同区域的重要性进行判断，对表情贡献较大的区域块赋予较高的权重，从而在最后决策中起到更为关键的作用。

附图说明

图1是本发明提出模型结构框图。

具体实施方式

以下通过具体的实例对本发明的技术实施流程做进一步说明。

1、对输入视频进行预处理

首先，从视频中进行人脸图片的提取。我们进行实时的人脸追踪与对齐，能够在二维视频中实现三维人脸配准，从而实现更精准的人脸提取与对齐。然后将提取到的人脸图像进行旋转、缩放和标准化。最终输入模型的人脸图片大小为512x512像素。值得一提的是，虽然本发明的目标是进行视频中的帧级别表情识别，但我们充分考虑了视频中的动态信息，将目标帧与其前序若干帧一起作为图片序列输入模型，以实现动态的面部表情识别。

为了最大程度地挖掘面部与情感相关的信息，本发明依据面部动作单元编码系统的相关知识，将人脸划分为九个互相重叠的区域。分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3)；两眼之间和鼻根的区域(P4)；左眼区域(P5)；右脸颊和右嘴角区域(P6)；鼻子和嘴巴上部区域(P7)；左脸颊和左嘴角区域(P8)；嘴巴和下巴区域(P9)。然后这些切分的区域块被归一化为100×100像素大小的统一尺寸。随后，将这九个区域块与全脸一起，作为十个互相独立的流，输入模型进行多尺度时空特征的提取。

2、对预处理后的人脸图片序列进行多尺度时空特征提取

a)局部时空特征提取

b)全局时空特征提取

3、利用注意力机制分别进行空间和时间上的加权

a)通过空间注意力实现的局部特征加权

H^s＝tanh(W^sV_p+b^s)

其中，W^s和b^s分别表示感知机的权重和偏置参数，tanh是激活函数。为了衡量九个区域块的重要性程度，我们定义一个上下文向量C^s。该向量可以理解为在模型训练过程中，每个区域块所能提供的有效信息量，也就是对表情识别结果的影响力。然后，计算H^s和C^s的内积来衡量两者之间的相似度。如果内积值越大，则说明该区域块与上下文向量C^s非常相似，即其所包含的空间信息对情感的识别很重要；相反，如果内积值越小，则说明该区域块对表情识别的作用很小。为了得到[0，1]范围内的重要性系数，我们使用Sigmoid函数来激活H^s和C^s的相似度，从而获得空间注意力权重α_p：

b)通过时间注意力实现的时序帧加权

H^t＝tanh(W^tM_f+b^t)

因此，每个图像帧可以编码为TEM_atted：

4、识别输入视频中每一帧图片中的面部表情

经过上述多尺度特征提取和多注意力机制作用后，模型将输出基于整张人脸的全局特征V_f以及基于人脸分块的加权局部特征SPA_atted，两者进行串接后用来表示目标帧。然后，用一个单层的感知机和softmax输出对该帧的表情预测。

最后，针对所输入的面部视频，识别其中每一帧图片中的面部表情，即七类表情(开心、悲伤、生气、惊讶、厌恶、恐惧和中性)中的某一种。

图1实例了所提模型的具体使用方法。首先，给定一个带表情的人脸视频，我们先对视频进行预处理，以得到经过校正和对齐的人脸图片序列。然后将目标帧和其前序19帧图片一起，作为图片序列输入到模型中。模型经过特征提取和分类，输出目标帧中的表情类别。经过实验验证，我们所建立的模型在Aff-Wild2数据库上的七类情感识别任务的准确率可以达到50.3％，F1评价指标可以达到49.5％，在RML数据库上的六类情感识别的准确率可以达到78.32％，在AFEW数据库上的七类表情识别的准确率可以达到59.79％，均已达到或领先世界先进水平。

Claims

1.基于多尺度特征提取和多注意力机制的动态面部表情识别方法，其特征在于，包括如下步骤：

1、对输入原始视频进行预处理

首先，从二维视频中进行人脸图片的提取；针对动态面部表情进行实时的人脸追踪与对齐，在二维视频中实现三维人脸配准，从而实现精准的人脸提取与对齐；然后将提取到的人脸图像进行旋转、缩放和标准化；将人脸划分为九个互相重叠的区域；分别是右眉毛区域(P1)、左眉毛区域(P2)、右眼区域(P3)；两眼之间和鼻根的区域(P4)；左眼区域(P5)；右脸颊和右嘴角区域(P6)；鼻子和嘴巴上部区域(P7)；左脸颊和左嘴角区域(P8)；嘴巴和下巴区域(P9)；然后这些切分的区域块被归一化为统一尺寸；随后，将这九个区域块与全脸一起，作为十个互相独立的流，输入模型进行多尺度时空特征的提取；

2、对预处理后的人脸图片序列进行多尺度时空特征提取

a)局部时空特征提取

基于两流的CNN架构，能够从一个区域块序列中提取局部时空信息；其中一个分支是一个2DCNN，包含3个卷积层和1个全连接层，以对目标帧进行该区域块上的空间特征提取，所述目标帧即该序列的最后一帧；基于此分支，可以从一个特定的区域块得到一个维度为N_{p_2d}的特征向量，表示该区域块中包含的空间信息；另一个分支是一个3DCNN，用来对输入的序列进行局部的动态时序信息提取；该3DCNN的结构和2DCNN分支的结构相同，唯一的区别是用三维卷积替代二维卷积，从而实现时序上的信息编码；基于该分支，将得到一个维度为N_{p_3d}的特征向量，表示该区域块中包含的时序信息；然后，将上述两个分支得到的特征进行串接，表示该区域块对应的局部时空特征，记为V_p；

b)全局时空特征提取

采用两流的CNN架构来对全脸的图像序列进行时空特征的提取，在2DCNN分支中，在ResNet50预训练模型的基础上，使用公开的AffectNet表情数据库进行微调，使模型学习到的深度特征更符合带有情感的表情信息；从微调后的ResNet50所提取的特征维度为N_{f_2d},表示在整张人脸上所提取的全局空间特征；在3DCNN分支中，借鉴预训练好的R(2+1)D模型，在动作识别数据库Kinetics-400上预训练好的R(2+1)D模型，对应的特征维度为N_{f_3d},表示在整张人脸上学习到的全局时间特征；最后，将这两个分支的输出进行串接，即提取的全局时空特征，记为V_f；

3、利用时空多注意力机制方法进行建模

a)通过空间注意力实现的局部特征加权建模

对于空间注意力的实现，首先将CNN学到的局部时空特征表示V_p输入一个单层感知机，以得到其对应的隐层表示H^s:

H^s＝tanh(W^sV_p+b^s)

其中，W^s和b^s分别表示该感知机的权重和偏置参数，tanh是激活函数；为了衡量九个区域块的重要性程度，我们定义一个上下文向量C^s；计算H^s和C^s的内积来衡量两者之间的相似度；使用Sigmoid函数来激活H^s和C^s的相似度，从而获得空间注意力权重

在计算每个区域块对应的空间注意力权重之后，就可以得到加权后的局部特征：

b)通过时间注意力实现的时序帧加权建模

首先定义每一帧图像为I_f，以及时序上的上下文向量C^t；然后，计算每一帧图片在RGB三个通道上的均值M_f，得到其对应的隐层表示H^t：

H^t＝tanh(W^tM_f+b^t)

其中，W^t和b^t分别表示该感知机的权重和偏置参数，tanh是激活函数；然后，每帧图片对应的时间注意力权重α^t _f可以通过Sigmoid激活函数得到：

因此，每个图像帧可以编码为TEM_atted：

加权后的RGB图像序列被输入模型中的2D/3DCNN进行多尺度的时空特征提取；

4、识别视频中每一帧图片中的面部表情

经过上述多尺度特征提取和多注意力机制作用后，模型将输出基于整张人脸的全局特征V_f以及基于人脸分块的加权局部特征SPA_atted，两者进行串接后用来表示目标帧；然后，用一个单层感知机和softmax对该帧的表情类别进行预测；最终，模型将输入该视频的每一帧图片中的面部表情类别。