CN112766172B

CN112766172B - 一种基于时序注意力机制的人脸连续表情识别方法

Info

Publication number: CN112766172B
Application number: CN202110083484.0A
Authority: CN
Inventors: 樊亚春; 程厚森; 税午阳
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2024-02-02
Anticipated expiration: 2041-01-21
Also published as: CN112766172A

Abstract

本发明涉及一种基于时序注意力机制的人脸连续表情识别方法，在通过深度卷积神经网络进行视频帧的特征提取同时，结合时空注意力机制，增强特征在空间域的描述能力，以及增加特征在时间域的描述，在连续维度情感空间中，进行时空上下文相关的情感预测。情感的变化是一个渐进的过程，仅通过单帧空间域的表情特征，难以取得很好的连续情感识别精度。而临近时间域的图像帧通常具有规律性，时间域特征计算能够为基于学习的多帧融合特征提供可靠的数据支撑。本发明基于愉悦度‑激活度情感空间，基于时空注意力机制提取视频中连续多帧表情的上下文依赖关系，学习表情发生过程中面部肌肉运动规律；建立了连续表情识别模型。发明可应用于刑侦、民航安全检测等领域。

Description

一种基于时序注意力机制的人脸连续表情识别方法

技术领域

本发明涉及人工智能及计算机人机交互领域，具体是一种基于视频的连续维度情感识别方法。

背景技术

随着人工智能及情绪心理学研究的深入，利用计算机自动识别监测视频中人脸微表情，分析情感状态的行为成为可能，而且针对视频中人脸的情感分析在刑侦、民航安全检测、教育培训、特殊医学治疗以及电子商务方面都具有很高的应用价值。对于嫌疑人或被监视人的情感分析，有利于辅助刑侦人员正确甄别行为和心理情绪之间的关联，为判断提供依据。在民航危险品运输的问询中或疑似恐怖分子侦察中，利用自动情感分析，亦可协助人力解决漏判误判问题。自动人脸情感分析也可以用于课堂教学质量评估，辅助抑郁症和自闭症及特殊患者治疗等领域，推进计算机智能化应用发展。而传统方法通常只提取单帧图像特征用于预测，准确率不高。人脸的情感变化是一个渐进的过程，仅通过一瞬间的表情难以准确估计真实情感，尤其是在维度情感预测问题下，预测的目标不是离散的类别，而是一个值域为-1到1的连续值，这就更需要考虑时间上下文信息。近年来，随着计算机算力的不断增长，基于时序特征的算法被提出，用于学习相邻时间段内的表情线索，帮助更好地预测某一瞬间的情感。但是，已有方法仍存在问题，对于帧与帧之间的依赖关系无法准确表达、训练不稳定且输出值抖动大，

发明内容

针对此问题，本发明提出基于时序注意力机制的人脸连续表情识别方法，提取人脸时空显著特征，提高识别准确率，解决了帧与帧之间的依赖关系无法准确表达、训练不稳定且输出值抖动大的问题，本发明还提供一种改进的3D卷积神经网络模型，该模型加入了时间和空间注意力层，目的是更好地表示时空位置之间的依赖关系；该模型用期望回归层替代了传统的单神经元回归层，目的是解决训练过程中梯度不稳定和输出结果抖动大的问题。

本发明解决其技术问题所采用的技术方案是：一种基于时序注意力机制的人脸连续表情识别方法，包括以下步骤：

步骤1，输入视频中的帧序列，从视频帧序列中提取一段子序列，长度为T，帧步长为D，假设第i帧为要进行情感识别的目标帧，那么第到第i-1帧，以及第i+1帧到第帧，用于提供上下文信息；

步骤2，对子序列中每一帧图像进行人脸对齐，并且进行图像归一化；

步骤3，将该子序列输入到三维卷积神经网络(3DCNN)中，并引入时间注意力层和空间注意力层，学习时空上下文之间的依赖关系，提取人脸图像的时空显著特征，并与第i帧特征共同合成该帧的时空特征图；

步骤4，将提取到的时空特征图，输入到由Softmax分类层和情感分段间隔预测层组成的“期望回归层”，Softmax分类层用于将取值范围为[-1,1]的连续值，离散化为21个类别的分数段，从而将愉悦度和激活度的回归问题，转化为分数段的分类问题，输出分数段的概率分布；期望回归层中引入情感分段间隔预测层的作用是，使用带有可学习参数的多层感知机(MLP)，来预测分数段的分段间隔，生成更符合原始数据分布的非均匀分段；

步骤5，将Softmax分类层输出的概率分布，与分段间隔预测层输出的分段值向量，进行内积运算，输出愉悦度和激活度的期望值。

进一步的，所述步骤1中，选取时间长度为T的帧序列来提取特征，提取单帧图像中所含的空间视觉特征，同时提取到时间维度上的关联信息。

进一步的，所述步骤2中，采用多任务卷积神经网络(MTCNN)算法进行快速人脸对齐，并且将人脸缩放到预定尺寸。

进一步的，所述步骤3中，使用基于三维残差网络(Resnet3D)的骨干网络，并且加入时间注意力层和空间注意力层，时间注意力层用于捕捉帧与帧之间的依赖关系，对于关键帧给予更高的权重；空间注意力层用于捕捉空间位置之间的依赖关系，对于对表情贡献更大的区域给予更高的权重，两者结合后，帮助三维卷积操作更好地提取时空特征。

进一步的，所述步骤4中，Softmax分类层是一个含有21个单元的全连接层，输出是愉悦度或激活度落在各个分数段内的概率，使用Softmax函数进行归一化，分数段划分为-1.0,-0.9，-0.8,…,0.8,0.9，1.0，共21段。

进一步的，所述步骤4中，情感分段间隔预测层是一个含21个单元的全连接层，输出的是21个分段关于其中心的偏移量，使用Tanh函数缩放到[-0.1,0.1]的范围内；偏移后的分数段中心为-1.0±0.1，-0.9±0.1，-0.8±0.1，…，0.8±0.1，0.9±0.1，1.0±0.1。

进一步的，所述步骤5中，将Softmax分类层输出的概率向量与偏移后的分段值向量进行内积，得到愉悦度或激活度期望值。

进一步的，所述步骤3中，使用Resnet3D网络作为骨干网络，输入张量首先经过一次3D卷积操作，得到特征图F₁；将特征图F₁输入到时间注意力层，计算帧与帧之间的依赖关系，得到注意力强化后的特征图F′₁；将特征图F′₁进行池化操作，然后输入到连续三层3D卷积层，得到特征图F₂；将特征图F₂输入到空间注意力层，计算每个空间位置之间的依赖关系，得到注意力强化后的特征图F′₂；将特征图F′₂再进行一次3D卷积操作，并进行时间维度的全局平均池化，得到维度为特征图F₃，至此，特征提取步骤完成。

进一步的，所述时间注意力层的具体操作为：将输入的特征图F₁做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(T，64×112×112)尺寸，其每一个行向量表示一个“时间位置特征”；将K变形为(64×112×112，T)尺寸，其每一个列向量K_j也表示一个“时间位置特征”，将V变形为(T，64×112×112)尺寸，其每一个行向量V_i ^T表示一个“时间位置特征”；计算：

D为向量维数＝64×112×112，则Attn_ij表示时间位置i与时间位置j之间的相似度，为i与j之间依赖关系强弱，将矩阵Attn左乘到矩阵V，得到特征表示V′＝Attn·V，再将V′变形为原始尺寸(batch，T，64，112，112)，得到注意力强化后的特征图F′₁。

进一步的，所述空间注意力层的具体操作为：将输入的特征图F₂做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(7×7，512×T/16)尺寸，其每一个行向量表示一个“空间位置特征”；将K变形为(512×T/16,7×1127尺寸，其每一个列向量K_j也表示一个“空间位置特征”，将V变形为(7×7，512×T/16)尺寸，其每一个行向量V_i ^T表示一个“空间位置特征”；计算：

D为向量维数＝64×T，则Attn_ij表示空间位置i与空间位置j之间的相似度，为i与j之间依赖关系强弱，将矩阵Attn左乘到矩阵V，得到特征表示V′＝Attn·V，再将V′变形为原始尺寸(batch，T/16，512，7，7)，得到注意力强化后的特征图F′₂。

有益效果：

本发明的有益效果是，提出时间注意力层和空间注意力层，分别对时空依赖关系进行建模，可以更有效地提取时空特征；提出用期望回归层替代传统的单神经元回归层，避免了训练过程中梯度不稳定，从而使得训练更容易收敛。另外，输出情感期望值时，将概率分布与分数段向量进行内积，本质上是一种加权平均方式，一定程度上可以弱化误差，从而减轻输出结果的抖动现象。

附图说明

图1是本发明时空特征提取器结构图；

图2是本发明时间注意力层结构图；

图3是本发明空间注意力层结构图；

图4是本发明期望回归层结构图；

图5是本发明的一种基于时序注意力机制的人脸连续表情识别方法总体框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的实施例，如图5所示，提出一种基于时序注意力机制的人脸连续表情识别方法，包括如下步骤：

1)图像序列的时空特征提取：

步骤1-1)，需要确定输入的序列长度T和帧步长D。然后，假设第i帧为情感识别的目标帧，那么，取第到第i-1帧，以及第i+1帧到第/>帧，作为目标帧的上下文信息，组合成一个连续的帧序列。

步骤1-2)，对视频子序列中每一帧图像进行人脸对齐，并缩放为112×112尺寸，再进行图像归一化。

步骤1-3)，将该视频子序列输入到本发明提出的3D卷积神经网络中，提取时空特征。具体操作为：

使用Resnet3D网络作为骨干网络，输入张量维度为(batch，T，3，112，112)，其中batch表示网络一次训练的帧图像数量，T表示选取的帧序列长度首先经过一次3D卷积操作，得到维度为(batch，T，64，56，56)的特征图F₁；将特征图F₁输入到时间注意力层，计算帧与帧之间的依赖关系，得到注意力强化后的特征图F′₁；将特征图F′₁进行池化操作，然后输入到连续三层3D卷积层，得到维度为(batch，T/16，512，7，7)的特征图F₂；将特征图F₂输入到空间注意力层，计算每个空间位置之间的依赖关系，得到注意力强化后的特征图F′₂；将特征图F′₂再进行一次3D卷积操作，并进行时间维度的全局平均池化，得到维度为(batch，1，512，4，4)的特征图F₃。至此，特征提取步骤完成。

根据本发明的实施例，如图1中，输入为T帧112×112的人脸RGB图像，经过人脸对齐后，输入到3D卷积特征提取器中，输出前对时间维度进行全局平均池化，最终输出尺寸为(batch，1，512，4，4)的特征图F₃。

2)学习时空位置之间的依赖关系：

上述步骤1-3)中，时间注意力层的具体操作为：将输入的特征图F₁做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(T，64×112×112)尺寸，其每一个行向量表示一个“时间位置特征”；将K变形为(64×112×112，T)尺寸，其每一个列向量K_j也表示一个“时间位置特征”。将V变形为(T，64×112×112)尺寸，其每一个行向量V_i ^T表示一个“时间位置特征”；计算/>(D为向量维数＝64×112×112)，则Attn_ij表示时间位置i与时间位置j之间的相似度，可以理解为i与j之间依赖关系强弱。将矩阵Attn左乘到矩阵V，得到特征表示V′＝Attn·V，再将V′变形为原始尺寸(batch，T，64，112，112)，得到注意力强化后的特征图F₁′。

根据本发明的实施例，如图2所示，在时间注意力层中，输入为前一层3D卷积输出的的特征图F₁，输出特征图F′₁，其尺寸未发生变化。

上述步骤1-3)中，空间注意力层的具体操作为：将输入的特征图F₂做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(7×7，512×T/16)尺寸，其每一个行向量表示一个“空间位置特征”；将K变形为(512×T/16,7×1127尺寸，其每一个列向量K_j也表示一个“空间位置特征”。将V变形为(7×7，512×T/16)尺寸，其每一个行向量V_i ^T表示一个“空间位置特征”；计算/>(D为向量维数＝64×T)，则Attn_ij表示空间位置i与空间位置j之间的相似度，可以理解为i与j之间依赖关系强弱。将矩阵Attn左乘到矩阵V，得到特征表示V′＝Attn·V，再将V′变形为原始尺寸(batch，T/16，512，7，7)，得到注意力强化后的特征图F₂′。

如图3所示，在空间注意力层中，输入为前一层3D卷积输出的特征图F₂，输出特征图F′₂，其尺寸未发生变化。

3)使用期望回归层计算并输出愉悦度和激活度的预测值：

在图4所示的期望回归层中，将图3输出的特征图F′₂分别输入到Softmax分类器和分段间隔预测层中，将Softmax分类层输出的概率分布，与分数段向量进行内积操作，得到情感期望值。

将特征图F′₂再进行一次3D卷积操作，并进行时间维度的全局平均池化，得到维度为(batch，1，512，4，4)的特征图F₃，首先，将特征图F₃变形为(batch，512×4×4)尺寸的特征向量F₄；将F₄同时输入Softmax分类层和分段间隔预测层；

Softmax分类层使用含21个单元的全连接层实现，将愉悦度(或激活度)的值域[-1,1]划分为21个片段，并预测属于每一段的概率分布P；使用Softmax函数进行概率归一化。

分段间隔预测层使用含21个单元的全连接层实现，用于预测可变长的分段间隔，我们希望分段间隔不总是均匀的，应当能够对实际数据分布进行自适应学习。该层的输出是每一段的偏移量O_i，使用Tanh函数将偏移量的值域缩放为[-0.1,0.1]。假设原始分段值向量为S＝[-1.0,-0.9,-0.8,...,0.8,0.9,1.0],则自适应的分段值向量为S′＝S+O；

最后，将概率分布P与分段值向量S′进行内积运算，得到愉悦度(或激活度)的期望值。

训练过程中，采用交叉熵作为损失函数，由于标签是值域为[-1,1]的实数，需要对其进行离散化操作，转换为onehot编码。具体操作为：建立连续实数区间与下标的映射，[-1,-0.95)对应下标0，[-0.95,-0.85)对应下标1，以此类推，[0.95,1.0)对应下标20。

期望回归层的好处在于，传统回归方法使用单个神经元和线性激活函数，在整个实数域上预测回归结果，这会导致某些离群点产生非常大的梯度，进而导致训练过程不稳定，难以收敛。然而，在期望回归层中，Softmax函数限制了反向传播时的梯度，使其绝对值恒小于等于1，这也就避免了训练过程中梯度不稳定，从而使得训练更容易收敛。另外，输出情感期望值时，将概率分布与分数段向量进行内积，本质上是一种加权平均方式，一定程度上可以弱化误差，从而减轻输出结果的抖动现象。

4)对整个视频重复执行上述步骤，得到连续多个情感识别结果

上述步骤仅针对某一个目标帧i进行情感识别，如果需要获得整段视频的预测结果，需要对多个目标帧重复执行上述步骤。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于时序注意力机制的人脸连续表情识别方法，其特征在于，包括以下步骤：

步骤1，输入视频中的帧序列，从视频帧序列中提取一段子序列，长度为T，帧步长为D，假设第i帧为要进行情感识别的目标帧，那么第到第i-1帧，以及第i+1帧到第/>帧，用于提供上下文信息；

分段间隔预测层使用全连接层实现，用于预测可变长的分段间隔，该分段间隔预测层的输出是每一段的偏移量，使用Tanh函数将偏移量的值域缩放为[-0.1,0.1]，最终的分段值向量S′是由原始分段值向量S加上各段的偏移量得到；

步骤5，将Softmax分类层输出的概率分布，与偏移后的分段值向量，进行内积运算，输出愉悦度和激活度的期望值。

2.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：

所述步骤2中，采用多任务卷积神经网络(MTCNN)算法进行快速人脸对齐，并且将人脸缩放到预定尺寸。

3.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：

所述步骤3中，使用基于三维残差网络(Resnet3D)的骨干网络，并且加入时间注意力层和空间注意力层，时间注意力层用于捕捉帧与帧之间的依赖关系，对于关键帧给予更高的权重；空间注意力层用于捕捉空间位置之间的依赖关系，对于对表情贡献更大的区域给予更高的权重，两者结合后，帮助三维卷积操作更好地提取时空特征。

4.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：所述步骤4中，Softmax分类层是一个含有21个单元的全连接层，输出是愉悦度或激活度落在各个分数段内的概率，使用Softmax函数进行归一化，分数段划分为-1.0,-0.9，-0.8,…,0.8,0.9，1.0，共21段。

5.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：所述步骤4中，情感分段间隔预测层是一个含21个单元的全连接层，输出的是21个分段关于其中心的偏移量，使用Tanh函数缩放到[-0.1,0.1]的范围内；偏移后的分数段中心为-1.0±0.1，-0.9±0.1，-0.8±0.1，…，0.8±0.1，0.9±0.1，1.0±0.1。

6.根据权利要求1所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于，所述步骤3中，使用Resnet3D网络作为骨干网络，输入张量首先经过一次3D卷积操作，得到特征图F₁；将特征图F₁输入到时间注意力层，计算帧与帧之间的依赖关系，得到注意力强化后的特征图F'₁；将特征图F'₁进行池化操作，然后输入到连续三层3D卷积层，得到特征图F₂；将特征图F₂输入到空间注意力层，计算每个空间位置之间的依赖关系，得到注意力强化后的特征图F'₂；将特征图F'₂再进行一次3D卷积操作，并进行时间维度的全局平均池化，得到特征图F₃，至此，特征提取步骤完成。

7.根据权利要求6所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：

所述时间注意力层的具体操作为：将输入的特征图F₁做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(T，64×112×112)尺寸，其每一个行向量表示一个“时间位置特征”；将K变形为(64×112×112，T)尺寸，其每一个列向量K_j也表示一个“时间位置特征”，将V变形为(T，64×112×112)尺寸，其每一个行向量/>表示一个“时间位置特征”；计算：

D为向量维数＝64×112×112，则Attn_ij表示时间位置i与时间位置j之间的相似度，为i与j之间依赖关系强弱，将矩阵Attn左乘到矩阵V，得到特征表示V'＝Attn·V，再将V'变形为原始尺寸(batch，T，64，112，112)，得到注意力强化后的特征图F'₁，其中batch表示网络一次训练的帧图像数量，T表示选取的帧序列长度。

8.根据权利要求6所述的一种基于时序注意力机制的人脸连续表情识别方法，其特征在于：所述空间注意力层的具体操作为：将输入的特征图F₂做三次1×1×1卷积，得到Q、K、V三个新的张量；将Q变形为(7×7，512×T/16)尺寸，其每一个行向量表示一个“空间位置特征”；将K变形为(512×T/16,7×7)尺寸，其每一个列向量K_j也表示一个“空间位置特征”，将V变形为(7×7，512×T/16)尺寸，其每一个行向量/>表示一个“空间位置特征”；计算：

D为向量维数＝64×T，则Attn_ij表示空间位置i与空间位置j之间的相似度，为i与j之间依赖关系强弱，将矩阵Attn左乘到矩阵V，得到特征表示V'＝Attn·V，再将V'变形为原始尺寸(batch，T/16，512，7，7)，得到注意力强化后的特征图F'₂。