CN116416667A

CN116416667A - 基于动态关联信息嵌入的面部动作单元检测方法

Info

Publication number: CN116416667A
Application number: CN202310452017.XA
Authority: CN
Inventors: 刘鑫; 苑凯深; 岳焕景; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-11
Anticipated expiration: 2043-04-25
Also published as: CN116416667B

Abstract

本发明公开了基于动态关联信息嵌入的面部动作单元检测方法，属于面部AU检测方法技术领域；本发明不同于采用固定的AU关联图谱或全连接图进行AU关联信息学习的方法，引入了一个动态更新的AU关联图谱，利用不同阶段得到的表意不同的特征，自适应地更新AU关联图谱，以挖掘更抽象的AU关联信息。具体来说，浅层特征包含丰富的纹理信息，其可以反应肌肉的细粒度变化，通过肌肉运动的相似性可以推断出AU之间的部分关联信息。随着网络层的加深，节点的特征趋于抽象，表征了各个AU的语义信息，通过语义信息的相似性则可以补充纹理信息中无法捕获的隐式的AU关联信息。本发明的动态更新的AU关联图谱并非全连接图，因此更简洁也更加节省算力。

Description

基于动态关联信息嵌入的面部动作单元检测方法

技术领域

本发明涉及面部AU检测方法技术领域，特别是涉及基于动态关联信息嵌入的面部动作单元检测方法。

背景技术

随着计算机视觉的进步，对于人体微姿态识别的研究发展迅速。人体微姿态识别指的是从图像或视频中提取相关特征，识别人体的微小姿势变化，进而进行情感分析的技术。其中，面部表情中微姿态的检测与识别是一个十分重要的环节。面部表情是肢体语言的一种形式，在人与人之间的情感交流中起重要作用。面部皮肤下肌肉的微姿态运动可以产生各种丰富的表情，传达个体的意图和心理状态。为了更全面地研究面部肌肉运动，Ekman和Friesen 建立了面部动作编码系统(FACS)，该系统基于观察到的肌肉或肌肉群的激活，描述了一种用于编码面部表情的面部动作单元(AU)分类方法。面部 AU 检测是描述面部表情微姿态的基础，其具有广大的应用前景，如情感分析、心理健康评估和人机交互等。因此，如何对面部AU进行有效地检测具有重大研究意义。

在早期，大多数方法尝试设计基于机器学习的模型，但这些模型往往依赖于手工制作的特征，十分脆弱。随着深度学习的快速发展，出现了大量基于卷积神经网络(CNN)和Transformer的强大的面部AU检测方法。其中一些方法专注于区域特征学习，他们设计了各式各样的网络结构，以对面部数据的局部区域进行有效的特征提取。然而，这些方法并没有考虑AU之间存在的可能的相关性。根据解剖学的知识，某个AU并不独立于其他AU而存在，AU之间有着千丝万缕的相关性。学习AU之间的相关性对于AU检测至关重要。

因此，有一些研究对AU之间的相关信息进行了探究，以提高AU检测的性能。这些研究往往基于动态贝叶斯网络(DBN)、限制波尔兹曼机(RBM)、长短期记忆递归神经网络(LSTM)和图卷积网络(GCN)等。与其他相关信息学习方式相比，GCN具有更高的灵活性且建模能力更强。现有的基于GCN的面部AU检测方法往往根据FACS的理论总结或特定数据集上的统计规则建立固定的AU关联图谱，来进行信息的交流和特征的提取。然而，固定的AU关联图谱是有缺陷的。具体来说，基于FACS理论总结的AU关联图谱不可避免地引入了研究者的主观判断，从而会忽略大量AU之间的相关信息；而基于数据集统计规的AU关联图谱则会由于数据集中存在的类不平衡问题趋于偏倚，导致对AU之间真实的相关性的表征能力相对有限。总之，固定的AU关联图谱结构无法动态地探索AU之间的潜在相关性，这限制了AU检测方法的能力。最近，有研究者建立了一个两阶段网络，并使用门控图卷积网络(GGCN)学习每对AU的多维边缘特征，取得了良好的AU检测效果。然而，建模所有AU对的相关性是十分冗余的，且计算成本昂贵。

为了解决上述问题，本发明提出了一种基于动态关联信息嵌入的面部动作单元检测方法。

发明内容

本发明的目的在于提出一种基于动态关联信息嵌入的面部动作单元检测方法以解决现有技术中存在的如下问题：

（1）无法有效且高效地探索AU之间潜在的关联信息；

（2）没有探索多尺度区域特征学习与AU关联信息学习之间的有效融合。

为了实现上述目的，本发明采用了如下技术方案：

基于动态关联信息嵌入的面部动作单元检测方法，具体包括以下内容：

步骤1：利用关键点(Landmark)对每张原始人脸图像进行相似度变换，并将变换后的人脸图像调整为相同大小；

步骤2：对人脸图像进行数据增广，增加数据的多样性；

步骤3：将步骤2中处理后的人脸图像输入到茎网络中，提取基础特征；

步骤4：将步骤3中所得的基础特征输入到多尺度特征学习模块，获得面部的多尺度全局特征；

步骤5：将步骤3中所得的基础特征输入到关键点(Landmark)预测器，获得具体的关键点(Landmark)位置坐标预测值；

步骤6：根据步骤5中的关键点(Landmark)位置坐标预测值计算人脸对齐损失函数；

步骤7：根据关键位置坐标计算特定于各个AU的中心，并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征，进行动态AU关联性学习；

步骤8：将步骤7中所得的动态AU关联学习与步骤4中所得的多尺度特征学习得到的特征进行结合，并送入全连接层，实现最终的AU检测；

步骤9：根据步骤8中全连接层的输出计算带权重的非对称损失函数和带权重的多标签骰子损失函数；

步骤10：对步骤6和步骤9中的损失函数进行联合优化，梯度回传更新模型参数。

优选地，步骤1所述的相似度变换包括平面内旋转、均匀缩放和平移，其在保留面部形状和表情信息的同时去除了头部姿势的干扰。经过变换后，图像大小被调整为256×256。

优选地，步骤2所述的数据增广的方法包括将人脸图像随机裁剪、随机水平翻转和随机颜色抖动（对比度、亮度）。

优选地，步骤3所述的茎网格的结构由若干个连续的卷积层构成，其与所选择的Transformer主干网络的茎网络结构保持一致；所述茎网格的输入为大小为H×W×3的人脸图像，经特征提取操作后，得到大小为

的输出作为基础特征，供模型后续处理。

优选地，步骤4中所述的多尺度特征学习模块整合了不同阶段输出的特征，以实现多尺度特征的提取，具体包括以下内容：Transformer主干网络在进行特征提取时可大致划分为四个阶段，其中每个阶段均由一个嵌入层和若干个连续的Transformer块组成，Transformer块中主要包含多头自注意力模块和线性层；所述多尺度特征学习模块将Transformer主干网络后三个阶段提取的特征进行插值，使它们的空间大小与第一阶段提取的特征保持一致，然后将对齐的特征在通道维度上进行连接，从而得到多尺度特征

；多尺度特征包含了更为丰富的面部特征，对于区域大小并不一致的各个AU具有更强的表征能力。

优选地，步骤5中所述的关键点(Landmark)预测器用于提取面部的形状信息，并预测关键点(Landmark)的具体位置坐标；所述关键点(Landmark)预测器包含三个连续的块，每个块由两个卷积层和一个最大池化层组成；所述卷积层每次卷积操作后，对特征进行批归一化处理，并采用ReLU激活函数进行非线性转换；将最后一个最大池化层获得的特征拉平输入到全连接层中，进行关键点(Landmark)预测；所述全连接层的输出维度为N _land，即Landmark坐标的个数。

优选地，步骤6中所述的人脸对齐损失函数具体计算公式如下：

其中，d _2i-1和d _2i分别表示第i个关键点(Landmark)的x轴坐标和y轴坐标的真值；

和/>

表示第i个关键点(Landmark)的x轴坐标和y轴坐标的预测值；d _o表示对真值进行归一化后的眼间距离。

优选地，所述步骤7具体包括以下内容：

首先根据预测得到的关键点(Landmark)位置坐标计算得出特定于各个AU的中心的位置坐标，将关键点(Landmark)的坐标乘以η因子进行缩放；然后，根据AU的中心从基础特征中裁剪出相应的ROI局部特征，其中ROI局部特征与基础特征的空间大小比为

，每个ROI局部特征的大小为/>

；

将ROI局部特征拉平，并将每个ROI特征作为一个图节点

，其中

；因此，节点集合可以表示为/>

，其中，N _ROI为ROI的个数；在特征域中，节点之间的相关性与特征之间距离呈负相关，即特征之间的距离越小，相关性则越大，反之亦然；基于上述的特征，通过KNN算法计算每个节点的K近邻，得到边集合E；至此构造出AU关联图谱G=（V，E）；

已知图结构数据

，应用图卷积操作对相邻节点之间的信息进行聚合和交流，构建动态AU关联学习模块，学习AU之间的关联信息；在图卷积操作前后引入全连接层，应用激活函数进行非线性映射；此外，为了避免梯度消失，引入了残差连接；该过程可以被公式化为：

其中，

；/>

表示GeLU激活函数；W _before和W _after分别表示图卷积操作前后的全连接层的可学习权重；

在动态AU关联学习模块中引入一个具有两层全连接层的前馈网络，以缓解图卷积过程中出现的过度平滑问题；所述前馈网络采用残差连接；该过程可以被公式化：

其中，

,W ₁和W ₂为全连接层的可学习权值；在经过几次图卷积操作和前馈网络后，引入全连接层对特征进行维度扩展并利用得到的特征重新计算K近邻，更新图的结构，实现动态AU关联学习；

所述动态AU关联学习模块包含S个阶段，每个阶段包括图结构的初始化或更新以及L _i个图结构数据处理块；最后，第S个阶段的输出特征为

。动态AU关联学习通过在每个阶段结束后更新图结构，充分利用了浅层特征的纹理信息和深层特征的语义信息的异同之处，构建出不同的图结构，以充分交流和聚合相关AU之间的信息，提取更有效、更隐式的关联信息。

优选地，所述步骤8具体包括以下内容：

步骤8.1、将多尺度特征A进行学习得到的特征记作A，对A进行变换，将A在空间维度上展开，得到

，其中，/>

；

步骤8.2、将动态AU关联学习得到的特征记作B，将步骤8.1中所得的A’与B进行连接，得到具有全面有效的信息的特征

；

步骤8.3、将步骤8.2中所得的特征C输入到由全连接层构成的分类器中，进行最终的AU检测。

优选地，AU检测被视为一个二进制多标签分类问题，以往许多方法常常采用带权重的多标签交叉熵损失函数进行监督。但是，对于不同AU的检测的难度是不同的，上述的损失函数并没有将难度的差异考虑在内。因此，引入带权重的非对称损失函数来重点关注难以被正确识别的激活的AU和未激活的AU，具体计算公式为：

其中，y _i表示第i个AU的真值；p _i表示第i个AU的预测概率N _AU表示AU的个数；

表示缓解数据集存在的类不平衡问题的权重，可表示为/>

，其中r _i为第i个AU的出现的频率；

此外，考虑到AU检测强烈地偏向于未发生，引入带权重的多标签骰子损失函数具体计算公式为：

其中，

表示一个平滑项。

优选地，步骤10中所述的联合优化后的损失函数为：

其中，L _wa表示带权重的非对称损失函数；L _dice表示带权重的多标签骰子损失函数；L _land表示人脸对齐损失函数。

与现有技术相比，本发明提供了基于动态关联信息嵌入的面部动作单元检测方法，具备以下有益效果：

（1）本发明区别于之前应用固定的AU关联图谱进行AU关联信息学习的方法，打破了固定关联图谱的束缚，随着网络的深入不断更新图谱结构，充分利用了浅层特征的纹理信息和深层特征的语义关系。相较于以往的研究，本发明捕捉的AU关联信息更加全面，也更为准确。

（2）本发明区别于之前的应用全连接图进行AU关联信息学习的方法，采用更为简洁的动态更新的图谱结构，用更少的边捕捉到了更准确的AU关联信息。相较于以往研究，本发明更加节省算力，效率更高，便于实际应用。

（3）本发明探究了AU关联信息学习和多尺度特征学习的有效融合，并探讨了多尺度特征学习对于AU关联信息学习的促进作用。相较于之前的方法，本发明得到的融合后的AU特征表示更为鲁棒。

（4）考虑到收集和标注AU相关的数据耗时耗力，本发明采用随机裁剪、随机水平翻转和随机颜色抖动的数据增广方法，有效地扩充了数据集，缓解了该问题，有助于网络模型的训练，进一步提高了模型的检测性能。

附图说明

图1为本发明提出的基于动态关联信息嵌入的面部动作单元检测方法的设计框架流程图；

图2为本发明实施例1中不同类型的AU关联图谱结构的对比示意图；其中，（a）表示固定的AU关联图谱；（b）表示全连接的AU关联图谱；（c）表示本发明提出的动态AU关联图谱；

图3为本发明实施例1中得到的AU关联图谱与之前方法得到的AU关联图谱的对比示意图；其中，（a）表示基于FACS理论总结的固定的AU关联图谱；（b）表示基于数据集统计的固定的AU关联图谱；（c）表示本发明提出的动态AU关联图谱的浅层图谱；（d）表示本发明提出的动态AU关联图谱的深层图谱。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提出一种基于动态关联信息嵌入的面部动作单元检测方法，该发明受到“国家自然科学基金-基于自监督学习的人体微姿态识别和情感分析项目62171309”的资助，主要目的在于解决现有AU检测方法存在的以下问题：

1）不能有效且高效地探索AU之间潜在的关联信息。以前的方法通常通过固定的AU关联图谱对AU之间的关联信息进行聚合和传递，这种固定的AU关联图谱包含的关联信息往往是不全面的，且不够准确，这限制了AU检测方法的性能。最新的方法构建了一个全连接图，进而对所有的AU对进行了多维边缘特征的学习以提取关联信息，理论上，该方法得到的AU关联信息是全面的，但是全连接图的引入带来了关联信息冗余、计算成本昂贵的问题，使得该方法效率较低。

2）没有探索多尺度区域特征学习与AU关联信息学习之间的有效融合。众所周知，不同的AU在面部的不同区域被激活，且每个AU对应的感兴趣区域(ROI)大小是不同的。因此，之前的一些方法尝试对人脸图像进行多尺度特征学习，以获得更丰富人脸特征。然而，现有的方法并没有探究将多尺度特征学习与AU关联信息学习进行有效地融合以及两者融合后产生的相互影响。

针对上述问题，本发明不同于采用固定的AU关联图谱或全连接图进行AU关联信息学习的方法，打破了这种固有的思维，引入了一个动态更新的AU关联图谱，该图谱旨在利用不同阶段得到的表意不同的特征，自适应地更新AU关联图谱，以挖掘更抽象的AU关联信息。具体来说，浅层特征包含丰富的纹理信息，其可以反应肌肉的细粒度变化，通过肌肉运动的相似性可以推断出AU之间的部分关联信息。随着网络层的加深，节点的特征趋于抽象，这些特征主要表征了各个AU的语义信息，通过语义信息的相似性则可以补充纹理信息中无法捕获的隐式的AU关联信息。本发明的动态更新的AU关联图谱并非全连接图，因此更简洁也更加节省算力。除此之外，本发明还探究了AU关联信息学习和多尺度特征学习的有效融合，得到了更为鲁棒的AU特征表示。

基于上述描述，本发明所提出的基于动态关联信息嵌入的面部动作单元检测方法具体包括如下内容：

实施例1：

本发明提出一种基于动态关联信息嵌入的面部动作单元检测方法，请参阅图1，其整体流程可以分为四大模块：

1）茎网络模块：对于输入的预处理后的人脸图像利用多层卷积层进行特征提取，得到基础特征，方便用于后续的处理。

2）多尺度特征学习模块：考虑到不同的AU对应着各种各样的大小的区域，因此引入多尺度特征学习模块来捕捉面部的多尺度全局特征。该模块将Transformer主干网络后三个阶段提取的特征进行插值，使它们的空间大小与第一阶段提取的特征保持一致，然后将这些对齐的特征在通道维度上进行连接，从而整合了不同阶段输出的特征，得到了包含更为丰富的面部特征的多尺度特征，其对于区域大小并不一致的各个AU具有更强的表征能力。

3）Landmark预测器：Landmark预测器主要用于提取面部的形状信息，并预测Landmark的具体位置坐标，以用于后续的ROI的裁剪。

4）动态AU关联学习模块：该模块主要用于提取不同AU之间的关联信息。与之前存在的固定的和全连接的AU关联图谱（如图2（a）、（b）所示）不同，该模块充分利用了浅层的纹理信息和深层的语义关系，在各个阶段不断地重新计算K近邻并更新图结构，以挖掘更为全面和隐式的AU关联信息，如图2（c）所示。该模块捕捉到的AU关联图谱与固定的AU关联图谱的对比详见图3。与全连接的AU关联图谱对比，该模块的动态AU关联图谱更简洁且更加节省计算量，便于应用。

针对每一模块中的细节部分，详细介绍具体实施步骤如下：

步骤1：利用关键点(Landmark)对每张原始人脸图像进行相似度变换，相似度变换包括平面内旋转、均匀缩放和平移，其在保留面部形状和表情信息的同时去除了头部姿势的干扰。然后将变换后的人脸图像调整为256×256。

步骤2：为了增加数据的多样性，对人脸图像进行数据增广。数据增广方法包括将人脸图像随机裁剪为224×224、随机水平翻转和随机颜色抖动(对比度、亮度)。

步骤3：将预处理后的人脸图像输入到茎网络中，以提取基础的特征，方便后续操作，如图1左侧内容所示。茎网格的结构与由若干个连续的卷积层构成，其与所选择的Transformer主干网络的茎网络结构保持一致；所述茎网格的输入为大小为H×W×3的人脸图像，经特征提取操作后，得到大小为

的输出作为基础特征，供模型后续处理。

步骤4：将茎网络提取的基础特征输入到多尺度特征学习模块，以获得面部的多尺度全局特征，如图1底部内容所示。Transformer主干网络在进行特征提取时可大致划分为四个阶段，其中每个阶段均由一个嵌入层和若干个连续的Transformer块组成，Transformer块中主要包含多头自注意力模块和线性层。多尺度特征学习模块整合了不同阶段输出的特征，以进行多尺度特征的提取。具体来说，所述多尺度特征学习模块将Transformer主干网络后三个阶段提取的特征进行插值，使它们的空间大小与第一阶段提取的特征保持一致，然后将对齐的特征在通道维度上进行连接，从而得到多尺度特征

。多尺度特征包含了更为丰富的面部特征，对于区域大小并不一致的各个AU具有更强的表征能力。

步骤5：将茎网络提取的基础特征输入到Landmark预测器，以获得具体的Landmark位置坐标，如图1顶部内容所示。Landmark预测器用于提取面部的形状信息，并预测Landmark的具体位置坐标。Landmark预测器包含三个连续的块，每个块主要由两个卷积层和一个最大池化层组成。每次卷积操作后，都对特征进行批归一化处理，并采用ReLU激活函数进行非线性转换。将最后一个最大池化层获得的特征拉平并输入到全连接层中，进行Landmark预测。全连接层的输出维度为N _land，即Landmark坐标的个数。

步骤6：根据步骤5中的Landmark预测值计算人脸对齐损失函数。人脸对齐损失函数的公式如下

和/>

表示第i个Landmark的x轴坐标和y轴坐标的预测值；d _o表示对真值进行归一化后的眼间距离。

步骤7：根据Landmark位置坐标计算特定于各个AU的中心，并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征，进行动态AU关联性学习，如图二中部。首先根据预测得到的Landmark位置坐标计算得出特定于各个AU的中心的位置坐标。由于茎网络输出的特征的空间大小与输入图像的并不相同，因此需要将Landmark的坐标乘以η因子进行缩放。然后，根据AU的中心从基础特征中裁剪出相应的ROI局部特征，其中ROI局部特征与基础特征的空间大小比

。每个ROI局部特征的大小为/>

。

将ROI局部特征拉平，并将每个ROI特征作为一个图节点

，其中

。因此，节点集合可以表示为/>

，其中，N _ROI为ROI的个数。在特征域中，节点之间的相关性与特征之间距离呈负相关，即特征之间的距离越小，相关性则越大，反之亦然。基于上述的特征，通过KNN算法计算每个节点的K近邻，得到边集合E。至此构造出AU关联图谱G=（V，E）。

已知图结构数据

，应用图卷积操作对相邻节点之间的信息进行聚合和交流，从而学习AU之间的关联信息。为了增加特征的多样性，在图卷积操作前后引入全连接层，并应用激活函数进行非线性映射。此外，为了避免梯度消失，引入了残差连接。该过程可以被公式化为

其中

，/>

为GeLU激活函数，W _before和W _after分别为图卷积操作前后的全连接层的可学习权重。

该模块还引入了一个具有两层全连接层的前馈网络，以缓解图卷积过程中出现的过度平滑问题。前馈网络中同样采用了残差连接。该过程可以被公式化为

其中，

,W ₁和W ₂为全连接层的可学习权值。在经过几次图卷积操作和前馈网络后，引入全连接层对特征进行维度扩展并利用得到的特征重新计算K近邻，更新图的结构，从而实现动态学习。

动态AU关联学习模块包含S个阶段，每个阶段包括图结构的初始化或更新以及L _i个图结构数据处理块。最后，第S个阶段的输出特征为

步骤8：将动态AU关联学习与多尺度特征学习得到的特征进行结合，并送入全连接层，实现最终的AU检测，如图1右侧部分所示。考虑到多尺度特征A和AU关联特征B的大小不一致，因此对A进行变换，以将两个模块的特征整合。将A在空间维度上展开，得到

，其中/>

。然后，将A’和B进行连接，得到具有全面有效的信息的特征/>

，最后将C输入到由全连接层构成的分类器中，进行最终的AU检测。

步骤9：根据步骤8中全连接层的输出计算带权重的非对称损失函数和带权重的多标签骰子损失函数。AU检测被视为一个二进制多标签分类问题，以往许多方法常常采用带权重的多标签交叉熵损失函数进行监督。但是，对于不同AU的检测的难度是不同的，上述的损失函数并没有将难度的差异考虑在内。因此，引入带权重的非对称损失函数来重点关注难以被正确识别的激活的AU和未激活的AU，其公式如下

表示缓解数据集存在的类不平衡问题的权重，可表示为/>

，其中r _i为第i个AU的出现的频率。

此外，考虑到AU检测强烈地偏向于未发生，引入带权重的多标签骰子损失，其公式如下

其中，

是一个平滑项。

步骤10：对步骤6和步骤9中的损失函数进行联合优化，梯度回传更新模型参数。联合优化的公式如下

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，具体包括以下内容：

步骤1：利用关键点对每张原始人脸图像进行相似度变换，并将变换后的人脸图像调整为相同大小；

步骤2：对人脸图像进行数据增广，增加数据的多样性；

步骤5：将步骤3中所得的基础特征输入到关键点预测器，获得具体的关键点位置坐标预测值；

步骤6：根据步骤5中的关键点位置坐标预测值计算人脸对齐损失函数；

步骤7：根据关键点位置坐标计算特定于各个AU的中心，并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征，进行动态AU关联性学习；

2.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤1所述的相似度变换包括平面内旋转、均匀缩放和平移。

3.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤2所述的数据增广的方法包括将人脸图像随机裁剪、随机水平翻转和随机颜色抖动。

4.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤3所述的茎网格的结构由若干个连续的卷积层构成，所述茎网格的输入为大小为H×W×3的人脸图像，经特征提取操作后，得到大小为

的输出作为基础特征。

5.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤4中所述的多尺度特征学习模块整合了网络不同阶段输出的特征，实现多尺度特征的提取，具体包括以下内容：Transformer主干网络在进行特征提取时划分为四个阶段，其中每个阶段均由一个嵌入层和若干个连续的Transformer块组成，Transformer块中包含多头自注意力模块和线性层；所述多尺度特征学习模块将Transformer主干网络后三个阶段提取的特征进行插值，使它们的空间大小与第一阶段提取的特征保持一致，然后将对齐的特征在通道维度上进行连接，从而得到多尺度特征

。

6.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤5中所述的关键点预测器用于提取面部的形状信息，并预测关键点的具体位置坐标；所述关键点预测器包含三个连续的块，每个块由两个卷积层和一个最大池化层组成；所述卷积层每次卷积操作后，对特征进行批归一化处理，并采用ReLU激活函数进行非线性转换；将最后一个最大池化层获得的特征拉平输入到全连接层中，进行关键点预测；所述全连接层的输出维度为N _land。

7.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法，其特征在于，步骤6中所述的人脸对齐损失函数具体计算公式如下：