CN117456581A

CN117456581A - 一种图像预训练模型到视频人脸表情识别的方法

Info

Publication number: CN117456581A
Application number: CN202311453207.XA
Authority: CN
Inventors: 李佳; 陈银; 洪日昌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-26

Abstract

本发明提供一种图像预训练模型到视频人脸表情识别的方法，在Vision Transformer模型的基础上插入模态互补模块和时间建模模块，基于人脸表情的图片数据集和视频数据集，提取并引入人脸关键点辅助引导模型关注人脸上与表情更加相关的区域；首先训练出具有图像表征能力的图像预训练模型再扩展到视频模型，训练出具有动态识别能力的人脸表情识别模型。本发明采用了预先在静态表情数据集上训练然后在动态视频数据集上微调的方法，通过静态数据弥补了视频数据集在数量上的不足；通过模态互补模块对人脸表情特征和人脸关键点做模态融合，并通过时间建模模块学习时间维度信息；同时在视频模型训练阶段基于表情锚的自蒸馏损失提高监督信号，减少了噪声样本的干扰。

Description

一种图像预训练模型到视频人脸表情识别的方法

技术领域

本发明涉及深度学习、计算机视觉技术领域，具体涉及一种图像预训练模型到视频人脸表情识别的方法。

背景技术

面部表情往往能够反映一个人的情感状态，在人际互动中发挥着至关重要的作用。由于其在应用中的重要性不断增加，如人机交互、医疗辅助和疲劳驾驶检测等，因此理解面部表情中的情感状态变得越来越关键，自动且准确地识别面部表情已经成为计算机视觉领域中的一项重要且备受欢迎的任务。

目前，面部表情识别可以大致分为两种类型：静态面部表情识别(SFER)和动态面部表情识别(DFER)。其中，SFER主要集中在从静态图像中识别表情，而DFER集中在从动态图像序列(或视频)中识别表情。本领域技术人员在这一领域已经进行了大量的研究工作，以推动SFER和DFER的发展。

在深度学习时代之前，本领域技术人员主要依赖于浅层学习方法和手工特征提取方法来进行FER，例如局部二进制(LBP)、梯度直方图(HOG)、非负矩阵分解(NMF)和稀疏表示等。尽管这些方法在实验室环境中的数据集上表现出有希望的性能，但在处理真实世界的人脸时，它们的性能急剧下降。

随着深度学习的兴起，FER采用了数据驱动方法，受益于卷积神经网络(CNN)和视觉变换器(Vision Transformer)等强大的表示能力。FER在真实世界的SFER数据集上取得了显著进展，如RAF-DB、AffectNet、FERPlus等，但在DFER数据集上的性能(例如DFEW、FERV39K、MAFW等)仍然不尽如人意。这主要是由于DFER数据集的收集困难、数据中的限制(例如姿势、遮挡、光照)、模糊的标注(即嘈杂的标签)以及有关时间信息的不足学习所致。

发明内容

本发明的目的提供一种图像预训练模型到视频人脸表情识别的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明采用如下技术方案：

一种图像预训练模型到视频人脸表情识别的方法，包括以下步骤：

S1、基于人脸表情图片数据集，提取并引入人脸关键点，训练出具有图像表征能力的图像预训练模型；

S2、将该图像预训练模型扩展到视频模型，基于人脸表情视频数据集，再次提取并引入人脸关键点，训练出具有动态识别能力的人脸表情识别模型。

进一步地，所述步骤S1具体包括以下操作：

S11、在标准的Vision Transformer模型的基础上插入模态互补模块，得到初始图像训练模型；

S12、基于人脸表情图片数据集提取人脸关键点，通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合；

S13、基于初始图像训练模型，对经过模态融合后的人脸表情的特征进行学习优化，得到具有图像表征能力的图像预训练模型。

进一步地，所述步骤S2具体包括以下操作：

S21、在图像预训练模型的基础上插入时间建模模块，得到初始视频训练模型；

S22、基于人脸表情视频数据集提取人脸关键点，通过模态互补模块对人脸表情的特征和人脸关键点的特征进行模态融合，人脸表情的特征同时通过时间建模模块学习时间维度信息；

S23、基于初始视频训练模型，对经过模态融合和学习时间维度信息后的人脸表情的特征进行学习优化，得到人脸表情识别模型。

进一步地，所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的；所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入；所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入；所述人脸表情和人脸关键点的图像序列或视频片段分别表示为：

式中：表示数据集；X_F表示人脸表情的图像序列或视频片段；X_L表示人脸关键点的图像序列或视频片段；T表示帧数；C表示通道数；H表示高；W表示宽。

进一步地，所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作：

首先将X_F、X_L分别通过一个patch embedding层分成N个块，并变换到D维空间，得到：

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

然后将和/>输入到模态互补模块中进行模态融合生成引导prompt：/> 生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程；

为每个模态融合的人脸表情的token及其块的类别x_class附上位置信息positionembedding；同时将x_class以及position embedding输入到初始图像训练模型的transformer层/>中进行学习优化；

所述模态融合和学习优化的过程通过公式(1)和公式(2)表示：

公式(1)、(2)中：l表示模态融合以及学习优化的次数；L表示transformer层的层数；表示第l次模态融合前的人脸表情的tokens，/>表示第l次模态融合后的人脸表情的tokens；/>表示第l+1次模态融合生成的引导prompt；/>表示第l+1次学习优化后的人脸表情的tokens。

进一步地，所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作：

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

然后将和/>输入到模态互补模块中进行模态融合并生成引导prompt：同时将/>输入到时间建模模块中学习时间维度信息：/> 生成的引导prompt和学习到的时间维度信息以残差的形式加到此次模态融合和学习时间维度信息前人脸表情的tokens中，并重复所述模态融合和学习时间维度信息的过程；

为每个模态融合的人脸表情的token及其块的类别x_class附上位置信息positionembedding；同时将x_class以及position embedding输入到初始视频训练模型的transformer层/>中进行学习优化；

所述模态融合、学习时间维度信息以及学习优化的过程通过公式(3)和公式(4)表示：

公式(3)、(4)中：l表示模态融合、学习时间维度信息以及学习优化的次数；L表示transformer层的层数；表示第l次模态融合和学习时间维度信息前的人脸表情的tokens，/>表示第l次模态融合和学习时间维度信息后的人脸表情的tokens；/>表示第l+1次模态融合生成的引导prompt；/>表示第l+1次学习到的时间维度信息；/>表示第l+1次学习优化后的人脸表情的tokens。

进一步地，将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现：

首先模态互补模块接收人脸表情特征和人脸关键点特征/>作为输入；

然后将和/>通过1x1卷积层分别投影到一个低纬度的空间：

公式(5)、(6)中：和/>表示/>和/>低维度空间上的投影；g₁和g₂均是1×1卷积层；

再对做类似注意力度操作：

公式(7)、(8)中：表示mask信息；/>表示选择的人脸表情特征；[:,i,j]表示三维数组中第一维全取、第二位取i、第三维取j，i和j均大于等于零且小于图像或视频的patch大小；λ表示一个随机初始化的可学习的变量；

学习到的引导prompt通过公式(9)表示：

公式(9)中：g₂是1×1卷积层。

进一步地，所述时间建模模块包括Temporal Adapter模块、Layer Norm层和Simple Adapter模块；其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块；所述时间建模模块以人脸表情特征作为输入，人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现：

首先将输入形状变换到/>并通过一层线性层投影到一个更低的维度，然后通过多头自注意力模块捕获时间信息：

公式(10)、(11)、(12)中：f₁、f₂表示线性层；GELU表示GELU激活函数；T-MSA表示时间维度的多头自注意力机制；表示被形状变换回T×N×D的捕获了时间信息后的人脸表情特征；

再经过Layer Nrom层和Simple Adapter模块后输出：

公式(13)、(14)中：LN表示LayerNorm层；GELU表示GRLU激活函数；f₃和f₄表示线性层；表示第l+1次学习到的时间维度信息。

进一步地，在所述初始视频训练模型的训练过程中，通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰，具体通过以下方法实现：

首先在初始视频训练模型的训练过程中为每一个人脸表情的类别维护两个队列P_c和Q_c，分别用于保存模型的输出特征v和输出概率p，且‖p‖＝1；队列P_c和Q_c表示为：

将训练过程中输入的视频片段及其标签记作样本(X_i,Y_i)，每一个输入的样本(X_i,Y_i)的输出特征和输出概率记作v_i和p_i；

首先计算输出特征v_i和队列Q_c中每一个向量的余弦相似度，得到相似度分数α＝{α¹,α²,…,α^C}，其中/>相似度分数/>由公式(15)计算得到：

公式(15)中：表示对输出特征v_i进行转置；

再从每一个人脸表情的类别中挑选出分数最高的样本，得到最后的分数σ：

公式(16)中：K表示分数最高的样本的数量；

通过以下公式得到最后估计的伪标签Y_soft：

然后采用真实标签Y_i和伪标签Y_soft进行监督，损失的计算公式如下：

公式(18)、(19)中：表示目标损失函数；/>表示辅助损失函数；BCE表示二值交叉熵损失函数；

最后结合式目标损失函数和辅助损失函数，得到监督损失函数：

公式(20)中：表示监督损失函数；γ₁表示表示目标损失的权重；γ₂表示辅助损失函数的权重。

由以上技术方案可知，本发明具有以下技术优势：

1、本发明采用了先在静态表情数据集上训练然后再动态视频数据集上微调的方法，通过静态数据弥补视频数据集数量上的不足；

2、本发明通过时间建模模块，有效地在时间维度学习动态时间信息，将图像模型方便的扩展到视频模型；

3、本发明设通过基于表情锚的自蒸馏损失，利用其他表情来估计噪声样本的标签分布，为模型提供了一份辅助监督信号，减少了噪声样本的干扰，且只需要在训练阶段使用，不会在推理阶段带来额外的计算开销，能够有效提高模型的性能；

4、本方法将图像模型扩展到视频模型时，只需要训练很小部分参数(<模型参数的10％)，既高效又有效。

附图说明

图1为本发明方法的步骤流程示意图；

图2为本发明的网络框架示意图；

图3为本发明模态互补模块的原理示意图；

图4为本发明的时间建模模块的原理示意图；

图5为本发明基于表情锚的自蒸馏损失的原理示意图；

图6为本发明对比实验中所有模型在DFEW、FERV39K和MAFW数据集上的准确度数据；

图7为本发明对比实验中所有模型在DFEW数据集上每个表情类别的细粒度性能。

具体实施方式

下面结合附图对本发明的一种优选实施方式做详细的说明。

如图1和2所示的图像预训练模型到视频人脸表情识别的方法，包括以下步骤：

S13、基于初始图像训练模型，对经过模态融合后的人脸表情的特征进行学习优化，得到具有图像表征能力的图像预训练模型；

S2、将该图像预训练模型扩展到视频模型，基于人脸表情视频数据集，提取并引入人脸关键点，训练出具有动态识别能力的人脸表情识别模型；

本优选实施例所述的人脸表情图片数据集采用数据集AffectNet，数据集AffectNet约有40万张标注的人脸表情图片，是现有的最大的SFER数据集；所述的人脸表情视频数据集采用DFEW、FERV39K或AFEW数据集。

为了获得一个更好的图像表征能力，本发明在人脸表情图片数据集和人脸表情视频数据集的基础上引入了人脸关键点作为辅助信息；本优选实施例所述的人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型MobileFaceNe获得的。具体的，所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入；所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入；所述人脸表情和人脸关键点的图像序列或视频片段分别表示为：

式中：X_F表示人脸表情的图像序列；X_L表示人脸关键点的图像序列；T表示帧数；X表示通道数；H表示高；W表示宽。

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

所述模态融合和学习优化的过程通过公式(1)和公式(2)表示：

相似的，所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作：

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

为了更好的融合人脸表情特征和人脸关键点特征，本发明通过模态互补模块将人脸表情特征和人脸关键点进行融合，如图3所示，将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现：

然后将和/>通过1x1卷积层分别投影到一个低纬度的空间：

再对做类似注意力度操作：

学习到的引导prompt通过公式(9)表示：

公式(9)中：g₃是1×1卷积层。

在静态图像数据集上训练过后，图像模型已经具备了鲁棒的图像表征能力，但是还不能捕捉时序信息。如图4所示，为了将图像模型扩展到视频模型上面，本发明采用了时间建模模块(TMA)，本优选实施例所述时间建模模块包括Temporal Adapter模块、LayerNorm层和Simple Adapter模块；其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块；所述时间建模模块以人脸表情特征作为输入，人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现：

再经过Layer Nrom层和Simple Adapter模块后输出：

公式(13)、(14)中：LN表示LayerNorm层；GELU表示GELU激活函数；f₃和f₄表示线性层；表示第l+1次学习到的时间维度信息。

具体的，本优选实施例所述的多头自注意力模块在时间维度上具体操作机制通过以下公式进行描述：

式中：W_q,W_k,W_v,W^O都是可学习的权重；Q表示查询向量；K表示键向量；V表示值向量；d_k表示维度；/>表示对K_i进行转置；MultiHead多头自注意力机制；Concat表示concatenate操作。

如图5所示，本优选实施例在所述初始视频训练模型的训练过程中，通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰，具体通过以下方法实现：

首先计算输出特征v_i和队列Q_c中每一个向量的余弦相似度，得到相似度分数其中/>相似度分数/>由公式(15)计算得到：

公式(15)中：表示对输出特征v_i进行转置；

公式(16)中：K表示分数最高的样本的数量；

通过以下公式得到最后估计的伪标签Y_soft：

公式(18)、(19)中：表示目标损失函数；/>表示辅助损失函数；BCE表示二值交叉熵损失函数；/>

公式(20)中：表示监督损失；γ₁表示表示目标损失的权重；γ₂表示辅助损失函数的权重；权重γ₁和γ₂可以根据实际需要进行选择。

下面通过一组对比实验对本发明所述的图像预训练模型到视频人脸表情识别的方法的先进性能进行阐述：

首先将本优选实施例所述的人脸识别模型(S2D)与采用现有技术下常用的模型构建方法得到的模型分别在DFEW、FERV39K和MAFW三个数据集上进行了识别准确率的对比实验，具体实验数据如图6和7所示。

由图6中的实验数据可知，所述人脸识别模型在DFEW、FERV39K和MAFW三个数据集上的性能均明显优于采用现有技术下最佳的建模方法(即IAL，M3DFEL)得到的模型，所述人脸识别模型在平均准确率(UAR)方面分别取得了6.47％、5.05％、6.59％的显著提升，并在总的准确率(WAR)方面分别取得了6.73％、4.16％、9.19％的显著提升。这些显著的提升表明本发明所述的图像预训练模型到视频人脸表情识别的方法可以通过在大规模SFER(静态表情识别)数据集上进行预训练来学习强大的DFER(动态表情识别)表示。

同时，还将所述人脸识别模型与采用了自监督方法MAE-DFER得到的模型进行了比较，该方法使用自监督方法在大规模视频数据集上进行了预训练。实验结果表明，所述人脸识别模型在DFEW、FERV39K和MAFW数据集上的平均准确率(UAR)方面分别提高了2.04％、0.85％、1.54％，在总的准确率(WAR)方面分别提高了1.6％、0.49％和3.06％。

此外，图7还展示了上述实验中所有模型在DFEW数据集上每个表情类别的细粒度性能，所述人脸识别模型在所有表情类别的细粒度性能上都展现出了显著的改进，表明本优选实施例所述人脸识别模型在实际场景中具有强大的泛化能力。且值得注意的是，本发明所述的图像预训练模型到视频人脸表情识别的方法不需要在DFER(静态表情识别)数据集上重新训练所有模型参数，而只需微调少量参数(不到可调参数的10％)，使其更具参数效率和实用性。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种图像预训练模型到视频人脸表情识别的方法，其特征在于，包括以下步骤：

S2、将该图像预训练模型扩展到视频模型，基于人脸表情视频数据集，提取并引入人脸关键点，训练出具有动态识别能力的人脸表情识别模型。

2.根据权利要求1所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤S1具体包括以下操作：

3.根据权利要求2所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述步骤S2具体包括以下操作：

4.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述人脸关键点是基于人脸表情图片数据集或人脸表情视频数据集通过人脸关键点提取模型获得的；所述初始图像训练模型以人脸表情的图像序列和人脸关键点的图像序列作为输入；所述初始视频训练模型以人脸表情的视频片段和人脸关键点的视频片段作为输入；所述人脸表情和人脸关键点的图像序列或视频片段分别表示为：

5.根据权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述初始图像训练模型在接收人脸表情和人脸关键点的图像序列后具体执行以下操作：

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

然后将和/>输入到模态互补模块中进行模态融合生成引导prompt：生成的引导prompt以残差的形式加到此次模态融合前的人脸表情的tokens中并重复所述模态融合的过程；

为每个模态融合后的人脸表情的token及其块的类别x_class附上位置信息positionembedding；同时将x_class以及position embedding输入到初始图像训练模型的transformer层/>中进行学习优化；

所述模态融合和学习优化的过程通过公式(1)和公式(2)表示：

6.权利要求4所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述初始视频训练模型在接收人脸表情和人脸关键点的视频片段后具体执行以下操作：

式中：表示人脸表情的tokens；/>表示人脸关键点的tokens；

为每个模态融合后的人脸表情的token及其块的类别x_class附上位置信息positionembedding；同时将x_class以及position embedding输入到初始视频训练模型的transformer层/>中进行学习优化；

7.根据权利要求5或6所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，将每次模态融合前的人脸表情特征和人脸关键点特征记作和/>所述通过模态互补模块对人脸表情特征和人脸关键点进行模态融合具体通过以下方法实现：

然后将和/>通过1x1卷积层分别投影到一个低纬度的空间：

再对做类似注意力度操作：

学习到的引导prompt通过公式(9)表示：

公式(9)中：g₃是1×1卷积层。

8.根据权利要求7所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，所述时间建模模块包括Temporal Adapter模块、Layer Norm层和Simple Adapter模块；其中所述Temporary Adapter模块包括用于捕捉时间信息的多头自注意力模块；所述时间建模模块以人脸表情特征作为输入，人脸表情特征/>通过时间建模模块学习时间维度信息具体通过以下方法实现：

再经过Layer Nrom层和Simple Adapter模块后输出：

9.根据权利要求3所述的一种图像预训练模型到视频人脸表情识别的方法，其特征在于，在所述初始视频训练模型的训练过程中，通过表情锚的自蒸馏损失提供辅助监督信号以减少噪声标签的干扰，具体通过以下方法实现：

公式(15)中：表示对输出特征v_i进行转置；

公式(16)中：K表示分数最高的样本的数量；

通过以下公式得到最后估计的伪标签Y_soft：