CN117746503A

CN117746503A - 一种面部动作单元检测方法、电子设备及存储介质

Info

Publication number: CN117746503A
Application number: CN202311767620.3A
Authority: CN
Inventors: 余梓彤; 苑凯深; 郝超; 叶启朗; 刘鑫
Original assignee: Greater Bay Area University In Preparation
Current assignee: Greater Bay Area University In Preparation
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本申请涉及面部表情分析和情感计算技术领域，公开了一种面部动作单元检测方法、电子设备及存储介质，其方法包括：通过将位置编码后的图像特征输入至连续的多个Transformer块中进行特征变换，其中，特征变换包括：基于多个包括多感受野算子及上下文感知算子的混合知识专家构成混合知识专家组，混合知识专家组通过学习所述面部动作单元的个性化特征得到全面的专家知识，将全面的专家知识输入多个所述Transformer块中，得到了更为鲁棒且有效的混合知识特征，通过提取最后一个混合知识专家组和最后一个Transformer块输出的特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行辅助预测及最终预测，进一步提高了面部动作单元检测的鲁棒性和有效性。

Description

一种面部动作单元检测方法、电子设备及存储介质

技术领域

本申请涉及面部表情分析和情感计算技术领域，特别涉及一种面部动作单元检测方法、电子设备及存储介质。

背景技术

随着计算机视觉技术的不断进步，面部表情分析和情感计算领域的研究取得了快速发展。其中，面部动作单元(Action Unit，AU)是面部表情分析和情感计算领域中的一个基础概念。

现有技术中，传统的AU检测方法基于机器学习设计模型，但这些模型往往依赖于手工制作的特征，从而限制了模型的性能，目前有基于深度神经网络的AU检测方法及基于Transformer的AU检测方法，然而，两者对AU的检测均受到一定的局限，检测效果并不好，针对Transformer的AU检测方法中的过拟合问题，本申请的发明人通过理论研究及实验验证，将参数高效迁移学习方法引入计算机视觉技术领域以缓解在下游任务中由于数据集有限，对预训练模型进行完全微调导致的过拟合或灾难性遗忘问题，然而，发明人发现当将参数高效迁移学习方法直接引入面部动作单元检测中时，其检测效果并不理想，相关技术中存在的技术问题还需要进一步解决。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种面部动作单元检测方法，能够提高面部动作单元检测的鲁棒性和有效性。

本申请还提出一种具有上述面部动作单元检测方法的电子设备。

本申请还提出一种具有上述面部动作单元检测方法的计算机可读存储介质。

根据本申请的第一方面实施例的面部动作单元检测方法，所述方法包括：

获取原始人脸图像，对所述原始人脸图像进行预处理，将预处理之后的人脸图像分割为多个图像块，将多个所述图像块通过线性映射层得到第一图像特征；

基于所述第一图像特征引入类令牌，并对所述第一图像特征及所述类令牌进行位置编码得到第二图像特征；

将所述第二图像特征输入至连续的多个Transformer块中进行第一特征变换，得到第三图像特征，其中，所述第一特征变换包括：基于多个混合知识专家构成混合知识专家组，所述混合知识专家组通过学习所述面部动作单元的个性化特征得到全面的专家知识，将所述全面的专家知识输入多个所述Transformer块中，其中，所述混合知识专家包括多感受野算子及上下文感知算子；

提取最后一个所述混合知识专家组输出的所述第三图像特征中的所述类令牌，并将所述类令牌输入线性层，对所述面部动作单元进行辅助预测；

提取最后一个所述Transformer块输出的所述第三图像特征中的所述类令牌，并将所述类令牌输入线性层，对所述面部动作单元进行预测。

根据本申请的一些实施例，所述对所述原始人脸图像进行预处理，包括：

通过多个面部关键点对所述原始人脸图像进行相似性变换，得到第一人脸图像；

将所述第一人脸图像设置为预设大小；

对所述第一人脸图像进行数据增广；

其中，所述相似性变换包括平面内旋转、均匀缩放和/或平移。

根据本申请的一些实施例，所述基于多个混合知识专家构成混合知识专家组，包括：

将预设数量的所述混合知识专家引入所述Transformer块中的每个多头自注意力层及每个多层感知机层，基于预设数量的所述混合知识专家构建所述混合知识专家组；

其中，所述预设数量为所述面部动作单元的数量，所述混合知识专家与所述面部动作单元一一对应。

根据本申请的一些实施例，所述所述混合知识专家组通过学习所述面部动作单元的个性化特征得到全面的专家知识，包括：

所述混合知识专家学习与其对应的所述面部动作单元的所述个性化特征，得到第一个性化特征；

将所述第一个性化特征传递至与所述混合知识专家所在层连接的下一层中的所述混合知识专家中；

对预设数量的所述第一个性化特征取平均，得到所述全面的专家知识；

其中，所述混合知识专家所在层为多头自注意力层或多层感知机层，所述预设数量为所述面部动作单元的数量。

根据本申请的一些实施例，所述所述混合知识专家学习与其对应的所述面部动作单元的所述个性化特征，得到第一个性化特征，包括：

对所述第一图像特征或所述类令牌进行整形；

将整形后的所述第一图像特征或整形后的所述类令牌进行通道压缩及第二特征变换，得到基础特征；

将所述基础特征输入所述多感受野算子，获得多尺度特征；

将所述基础特征输入所述上下文感知算子，获得关联特征；

将所述基础特征、所述多尺度特征及所述关联特征相加，并进行通道压缩得到所述第一个性化特征。

根据本申请的一些实施例，所述将所述基础特征输入所述多感受野算子，获得多尺度特征，包括：

将所述基础特征输入多个并行的空洞卷积层；

将所述空洞卷积层的输出特征进行连接并经过通道压缩得到所述多尺度特征。

根据本申请的一些实施例，所述将所述基础特征输入所述上下文感知算子，获得关联特征，包括：

将所述基础特征通过三个并行的卷积层映射成Q矩阵、K矩阵及V矩阵；

所述Q矩阵、K矩阵及V矩阵通过第一算式进行变换，得到所述关联特征，所述第一算式表示为：

其中，⊙表示Hadamard乘积，x是Q_x的空间索引，R_(x)是Q_x的邻域向量的空间索引的集合，d为特征的通道数量，K^CA为关联特征。

根据本申请的一些实施例，所述对所述面部动作单元进行辅助预测，还包括：

根据所述线性层的输出，计算第一带权重的非对称损失函数，所述第一带权重的非对称损失函数表示为：

其中，y_i是第i个面部动作单元的真值，p_i ⁰是第i个面部动作单元的辅助预测的激活概率，N是面部动作单元的个数，ω_i是为缓解数据集存在的类不平衡问题的权重，表示为：

其中，r_i为第i个面部动作单元的出现的频率；

所述对所述面部动作单元进行预测，还包括：

根据所述线性层的输出，计算第二带权重的非对称损失函数和带权重的多标签骰子损失函数，所述第二带权重的非对称损失函数表示为：

所述带权重的多标签骰子损失函数表示为：

其中，y_i是第i个面部动作单元的真值，p_i ¹是第i个面部动作单元的最终预测的激活概率，N是面部动作单元的个数，ω_i是为缓解数据集存在的类不平衡问题的所述权重，ε是一个平滑项；

冻结所述线性映射层、归一化层、多头自注意力层及多层感知机层中的预训练参数，对总损失函数进行联合优化，将优化后的所述总损失函数梯度回传并更新所述混合知识专家的参数；

其中，所述总损失函数表示为：

根据本申请的第二方面实施例的一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面实施例的方法的步骤。

根据本申请的第三方面实施例的一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被一个或多个处理器执行时能够实现如上述第一方面实施例的方法的步骤。

根据本申请的第四方面实施例的一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时能够实现如上述第一方面实施例的方法的步骤。

根据本申请实施例的面部动作单元检测方法，至少具有如下有益效果：为了解决现有技术中对面部动作单元的检测效果不理想的技术问题，本申请对面部动作单元检测方法做出以下优化：通过将位置编码后的图像特征输入至连续的多个Transformer块中进行特征变换，其中，特征变换包括：基于多个包括多感受野算子及上下文感知算子的混合知识专家构成混合知识专家组，混合知识专家组通过学习所述面部动作单元的个性化特征得到全面的专家知识，将全面的专家知识输入多个所述Transformer块中，得到了更为鲁棒且有效的混合知识特征，通过提取最后一个混合知识专家组和最后一个Transformer块输出的特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行辅助预测及最终预测，进一步提高了面部动作单元检测的鲁棒性和有效性。

可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的方法的流程示意图；

图2为本申请实施例提供的ViT框架示意图；

图3为本申请实施例提供的ViT框架中的Transformer块框架示意图；

图4为本申请实施例提供的Transformer块中的混合知识专家框架示意图；

图5为本申请实施例提供的对应于激活的面部动作单元的混合知识专家的热力图；

图6为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如，在不脱离本申请实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了使本申请内容及技术方案更加清楚明白，对相关术语及含义进行说明：

面部动作单元(Action Unit,AU)：是表情识别和分析领域中一种常见的术语，它描述了人类面部表情中不同部位的活动程度。这些单元被认为是可以独立地进行分析和识别的，并且通常被用作面部表情识别系统的基本组成部分。AU可以用来描述面部表情的不同方面，例如眼睛张开程度，眉毛挑起程度以及嘴巴张开程度等。每个AU都有一个编号，表示其在面部表情分析中的重要性，并且还有一个对应的数字评分，表示其在当前表情中的活动程度。AU是由Ekman和Friesen构建的面部动作编码系统(Facial Action CodingSystem,FACS)定义，从解剖学的角度描述了特定的面部肌肉或肌肉群的运动或变形，这些运动或变形有助于人类表现出各种面部表情；AU在理解人类情感和行为中起着至关重要的作用，通过对AU进行分析，研究人员可以解码、分类和分析面部表情的复杂性，为情绪状态，意图和非语言交流线索提供有价值的见解，进而实际应用到人机交互、反欺诈检测等多个领域。因此，AU检测成为了近年来一个炙手可热的研究课题。总的来说，Action Units是用来描述人类面部表情的有效工具，对于表情识别和分析系统的研究和开发非常重要。它们为表情识别系统提供了一种标准化的方法来识别和分析面部表情。

Action Units(AU)共有17个，以下是详细的描述：

AU1：Inner Brow Raiser(内眉毛提起)，描述眉毛向上移动的程度；

AU2：Outer Brow Raiser(外眉毛提起)，描述眉毛向上移动的程度；

AU4：Brow Lowerer(眉毛下垂)，描述眉毛向下移动的程度；

AU5：Upper Lid Raiser(上眼皮提起)，描述上眼皮向上移动的程度；

AU6：Cheek Raiser(颧骨提起)，描述颧骨向上移动的程度；

AU7：Lid Tightener(眼皮紧缩)，描述眼皮紧缩的程度；

AU9：Nose Wrinkler(鼻子皱纹)，描述鼻子皱缩的程度；

AU10：Upper Lip Raiser(上唇提起)，描述上唇向上移动的程度；

AU12：Lip Corner Puller(嘴角拉动)，描述嘴角向上移动的程度；

AU14：Dimpler(颊骨凹陷)，描述颊骨凹陷的程度；

AU15：Lip Corner Depressor(嘴角下垂)，描述嘴角向下移动的程度；

AU17：Chin Raiser(下巴提起)，描述下巴向上移动的程度；

AU20：Lip Stretcher(嘴唇伸展)，描述嘴唇横向拉动并变得平扁；

AU23：Lip Tightener(嘴唇紧缩)，描述嘴唇紧缩的程度；

AU25：Lips Part(嘴唇分开)，描述嘴唇分开的程度；

AU26：Jaw Drop(下巴下垂)，描述下巴向下移动的程度；

AU45：Blink(眨眼)，描述眨眼的次数。

参数高效迁移学习(Parameter-Efficient Transfer Learning,PETL)，PETL范式最初起源于自然语言处理领域，其展现了高效微调在大规模数据集上预训练的模型的强大能力，并于近年来逐渐在计算机视觉领域得到应用。具体而言，PETL方法通常在预训练模型中插入若干个具有少量的可学习参数的适应模块，在训练过程中，其将预训练模型的参数冻结住，只端到端地微调这些引入的轻量的适应模块的参数，进而使预训练的模型适应下游任务。

在研究的早期阶段，大多数传统的AU检测方法基于机器学习设计模型，但这些模型往往依赖于手工制作的特征，从而限制了模型的性能。随着深度学习的飞速发展，涌现出了一系列基于深度神经网络的AU检测方法。为了提高模型的检测性能，一些方法着重考虑不同AU对应的面部区域大小不一的问题，并通过设计多种形式的多尺度特征来应对。另一方面，为了充分利用AU之间潜在的解剖学上的共生或互斥关系，也有一些方法尝试通过建模AU之间的关联信息来提高模型的检测水平。然而，这些方法通常以卷积神经网络(Convolutional Neural Network,CNN)或图神经网络(Graph Neural Network,GNN)为基础，因而其模型的视野受限于局部的区域。因此，一些新兴的方法引入了Transformer，借助其强大的长距离依赖建模能力，以从人脸输入中提取更为丰富的全局上下文信息。但是，目前存在的方法普遍面临着一个共同的问题，即在有限的AU标注的数据集上完全微调具有大量的可学习参数的模型所带来的过拟合问题。一些方法通过利用自监督学习策略或引入辅助信息(如文本、生物力学或面部关键点)来缓解过拟合问题，但是这无疑会依赖于大量的额外的相关数据。因此，如何在有限的AU标注数据集上高效学习有效的AU表征仍然是一个亟待解决的重要问题。

参数高效迁移学习(Parameter-Efficient Transfer Learning,PETL)因为其优秀的高效微调在大规模数据集上预训练模型的强大能力，有望将其应用于AU检测以解决由于数据集有限，对预训练模型进行完全微调导致的过拟合或灾难性遗忘问题。然而，一方面是因为技术上还有一些难以攻克的问题，使得目前还没有人将PETL用于AU检测中，另外一方面，尽管PETL范式对于AU检测可能是有帮助的，但是鉴于AU的特殊性，将其直接用于现有的适应模块会将会导致次优的检测性能，致使AU检测效果不佳。

有鉴于此，本申请实施例中提供一种AU检测方法，电子设备及存储介质，在设计之初充分考虑了AU的特殊性，可以专用于AU检测，本申请实施例提供的方法仅通过有限的AU标注的数据集高效地微调预训练模型，克服过拟合问题，学习有效的AU表征。具体的，采用了基于参数高效的混合知识专家合作的AU的检测方法。不同于之前通过完全微调具有大量可训练参数的预训练模型以使其适应AU检测的方法，本发明打破了这种固有的思维，首次探究了PETL范式在AU检测中的应用，将一种参数高效的混合知识专家(Mixture ofKnowledge Expert)合作机制引入到视觉Transformer(Vision Transformer,ViT)中，以实现高效的AU检测。具体来说，本发明在训练的过程中，冻结住预训练的ViT模型参数，并为每一个AU引入一组具有很少的可学习参数的混合知识专家来学习该AU的个性化特征。混合知识专家集成了多感受野算子和上下文感知算子以获得对于AU检测至关重要的多尺度知识和关联信息知识。在每一层中，学习到AU个性化知识的各个混合知识专家在专家组内进行合作得到全面的专家知识，并将其注入回ViT以使其适应AU检测任务。本申请实施例提供的AU检测方法能够对AU进行高效及可靠的检测，可以广泛的用于面部表情分析和情感计算技术领域，使得研究人员可以解码、分类和分析面部表情的复杂性，为情绪状态，意图和非语言交流线索提供有价值的见解，进而实际应用到人机交互、反欺诈检测等多个领域。

本申请实施例提供的AU检测方法，涉及面部表情分析和情感计算技术领域。本申请实施例提供的AU检测方法可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等，但并不局限于此；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器，服务器还可以是区块链网络中的一个节点服务器；软件可以是实现AU检测方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

参照图1，图1为本申请实施例提供的方法的流程示意图，图1中的方法可以包括但不限于包括以下步骤：

获取原始人脸图像，对原始人脸图像进行预处理，将预处理之后的人脸图像分割为多个图像块，将多个图像块通过线性映射层得到第一图像特征；

基于第一图像特征引入类令牌，并对第一图像特征及类令牌进行位置编码得到第二图像特征；

将第二图像特征输入至连续的多个Transformer块中进行第一特征变换，得到第三图像特征，其中，第一特征变换包括：基于多个混合知识专家构成混合知识专家组，混合知识专家组通过学习面部动作单元的个性化特征得到全面的专家知识，将全面的专家知识输入多个Transformer块中，其中，混合知识专家包括多感受野算子及上下文感知算子；

提取最后一个混合知识专家组输出的第三图像特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行辅助预测；

提取最后一个Transformer块输出的第三图像特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行预测。

一方面，由于混合知识专家集成了多感受野算子和上下文感知算子能够获得对于AU检测至关重要的多尺度知识和关联信息知识，另一方面，在每一层中，学习到AU个性化知识的各个混合知识专家在专家组内进行合作得到全面的专家知识，并将其注入回多个Transformer块中，能够得到更为鲁棒且有效的混合知识特征，提高了面部动作单元检测的鲁棒性和有效性。

在本申请的一些实施例中，可以通过计算机附属设备，手机终端，摄像头等电子设备获取原始的人脸图像，进一步对获取的原始人脸图像进行预处理。

具体的，可以通过49个面部关键点(Landmark)对每个原始人脸图像进行相似性变换，并将经过变换的人脸图像调整为相同的尺寸，上述的相似度变换包括平面内旋转、均匀缩放和平移，其在保留面部形状和表情信息的同时去除了头部姿势的干扰。经过变换后，图像大小可以被调整为256×256。

应理解，对于面部关键点的选取和图像大小的设置，均可以根据实际的应用场景和检测需要进行灵活设置，本申请提供的49个面部关键点和256×256的图像大小均只是一个示例，在此说明，本申请中所有提供的具体的数值均代表其中一个实施例中根据应用场景选取的数值，随着应用场景的变换和检测要求的不同，数值选取可以不同，因此，关于数值的选取均可以根据实际的使用场景和检测要求等灵活设置，其不对本申请的保护范围进行限制。

进一步的，为了丰富数据的多样性，还可以对变换后的人脸图像进行数据增广，数据增广方法包括将人脸图像随机裁剪为224×224的像素大小、随机水平翻转、随机颜色抖动、随机对比度设置及随机亮度设置等。

将经过上述处理之后的人脸图像剪裁为多个图像块，将多个图像块通过线性映射层得到第一图像特征。具体的，首先将经过上述处理后的大小为224×224×3(其中3代表RGB三个色彩通道)的人脸图像划分为196(14×14)个大小为16×16×3的小块，然后将这些小块拉平得到196个长度为768的向量，并利用线性映射层对这些向量进行映射处理，得到第一图像特征。

在本申请的一些实施例中，根据第一图像特征加入类令牌，并对第一图像特征及类令牌进行位置编码得到第二图像特征。

具体的，在映射好的第一图像特征中引入类令牌，并对它们进行位置编码，包括，首先引入一个长度为768的参数可学习的向量作为类令牌来提炼拉平映射得到的196个向量的第一图像整体特征用于最终的分类，然后，在这197个长度为768的向量中引入可学习的位置编码标记每个向量的位置信息，得到第二图像特征。

在本申请的一些实施例中，将第二图像特征输入至连续的多个Transformer块中进行第一特征变换，得到第三图像特征，其中，第一特征变换包括：基于多个混合知识专家构成混合知识专家组，混合知识专家组通过学习面部动作单元的个性化特征得到全面的专家知识，将全面的专家知识输入多个Transformer块中，其中，混合知识专家包括多感受野算子及上下文感知算子。

具体的，将编码好的第二图像特征输入到ViT中的连续12个Transformer块中进行特征变换，利用其中的对应于各个AU的混合知识专家捕捉AU的个性化特征，并整各专家提取的特征得到全面的专家知识注入回ViT中连续12个Transformer块中，使其适应于AU的检测任务。关于该部分的详细实施例在本申请的后面部分将会有详细介绍。

在本申请的一些实施例中，提取最后一个混合知识专家组输出的第三图像特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行辅助预测。

具体的，通过线性层将最后一组的N个混合知识专家输出特征的类令牌的长度均映射为1，并通过Sigmoid激活函数得到各个AU的激活概率进行辅助预测。

在本申请的一些实施例中，提取最后一个Transformer块输出的第三图像特征中的类令牌，并将类令牌输入线性层，对面部动作单元进行预测。

具体的，通过线性层将最后一个Transformer块输出的第三图像特征的类令牌的长度映射为N，N对应AU的个数，并通过Sigmoid激活函数得到各个AU的激活概率进行最终预测。

请参考图2，图2为本申请实施例提供的ViT框架示意图；仅作为示例，图2中，将左侧的人脸图像经过分割，分割成3×3个大小相同的图像块，将3×3个图像块由左向右，从上到下依次排序，并并行的送入线性映射层进行映射，在映射输出的序列的最左侧，加入类令牌，图中*代表类令牌，并对类令牌及映射输出的序列进行了位置编码，从左到右位置编码依次为0-9；将位置编码后的序列输入Transformer模块中，其中，Transformer模块中可以包括多个连续的Transformer块，将Transformer块输出的图像特征送入线性分类层实现最终的AU检测。图2中，线性映射层用实线框描绘，代表在预训练时，其预训练参数需要被冻结，Transformer模块及线性分类模块通过虚线框描绘，代表在预训练时，其预训练参数需要进行更新。

在本申请的一些实施例中，将编码好的第二图像特征输入到ViT中的连续12个Transformer块中进行特征变换，利用其中的对应于各个AU的混合知识专家捕捉AU的个性化特征，并整各专家提取的特征得到全面的知识注入回ViT中连续12个Transformer块中，使其适应于AU的检测任务，包括：

将编码好的第二图像特征输入到ViT中的连续12个Transformer块中进行特征变换，每个原始的Transformer块中主要包含多头自注意力(MHSA)层和多层感知机(MLP)层，每个Transformer块的特征变换过程可表示为：

X′_l＝X_l-1+MHSA(X_l-1),

X_l＝X′_l+MLP(X′_l)，

其中，X_l-1和X_l’分别为第l个Transformer块的MHSA和MLP层的输入，X_l是第l个Transformer块的输出。

为了提取各个AU的个性化特征，使得ViT适应于AU检测任务，在原始的Transformer块中的每个MHSA层和MLP层中均引入N个混合知识专家来构建专家组，每个混合知识专家对应于一个AU，N为AU的数量，即混合知识专家和AU一一对应，每个混合知识专家可以学习其对应的AU的个性化特征。

其中，每个混合知识专家从两方面接收信息，分别是将要输入到MHSA层或者MLP层中的全局信息和上一个对应于相同的AU混合知识专家传承下来的个性化知识。以第l个Transformer块的MHSA层的混合知识专家组为例，每个混合知识专家首先学习其对应的AU的个性化特征，该过程可表示为：

其中，是MHSA的混合知识专家组中对应于第i个AU的混合知识专家，X_l-1是MHSA的输入，/>是上一代混合知识专家的输出，/>是当前的/>学习到的第i个AU的个性化特征。

然后，对应于各个AU的混合知识专家将学习到的个性化知识传递给下一代，并在当前组内进行合作以获得全面的专家知识，该过程可表示为:

其中，表示第l个Transformer块中对应于MHSA层的混合知识专家组组内合作得到的全面的专家知识。

随后，将得到的全面的专家知识注入回Transformer块中，因此第l个Transformer块的MLP层的输入可以表示为

Transformer块中的MLP层的混合知识专家组的处理流程与以上类似，在此不再赘述。

请参考图3，图3为本申请实施例提供的ViT框架中的Transformer块框架示意图，图3中仅示出了一个Transformer块的框架结构，本申请中涉及的多个Transformer块的框架结构均与此相同，且本申请中涉及的多个Transformer块依次连接，如图3，Transformer块中主要包括归一化模块，多头注意力模块，及多层感知机模块，信息先输入归一化模块，从归一化模块输出的信息分别输入多头注意力模块或多层感知机模块和混合知识专家组模块，混合知识专家组包括N个混合知识专家模块，分别是到/>或者/>到/>其中，/>到/>和/>到/>是上一代混合知识专家的输出，上一代混合知识专家的输出和从归一化模块输出的信息进行相加操作，之后输入对应的混合知识专家模块中进行学习，混合知识专家组学习之后的输出表示为/>到/>和/>到/>将混合知识专家学习之后的输出一方面再输入至与其连接的下一层对应的混合知识专家中，另一方面将混合知识专家组的输出进行取平均的操作，取平均之后可以获得全面的专家知识，该全面的专家知识，表示为/>或者/>将全面的专家知识再和归一化层的输入与多头注意力模块或多层感知机模块的输出进行相加，相加的结果输入至与其连接的下一层的归一化层，图3中，归一化模块、多头注意力模块及多层感知机模块用实线框描绘，代表在预训练时，其预训练参数需要被冻结，混合知识专家组模块及混合知识专家模块通过虚线框描绘，代表在预训练时，其预训练参数需要进行更新，整个Transformer块用虚线框描绘，代表其包括在预训练时，预训练参数需要进行更新的模块。

在本申请的一些实施例中，为了确保各个混合知识专家能够捕捉到考虑了AU特性的知识，混合知识专家中集成了多感受野算子(Multi-Receptive Field,MRF)和上下文感知(Context-Aware,CA)算子以获得对AU检测有帮助的多尺度知识和关联知识。

混合知识专家学习与其对应的面部动作单元的个性化特征，得到第一个性化特征，包括：

对第一图像特征或类令牌进行整形；

将整形后的第一图像特征或整形后的类令牌进行通道压缩及第二特征变换，得到基础特征；

将基础特征输入多感受野算子，获得多尺度特征；

将基础特征输入上下文感知算子，获得关联特征；

将基础特征、多尺度特征及关联特征相加，并进行通道压缩得到第一个性化特征。

具体的，请参考图4，图4为本申请实施例提供的Transformer块中的混合知识专家框架示意图，图4中，首先将第一图像特征整形还原成14×14的空间结构，得到大小为14×14×768的特征图(图中示意性的画出一个3×3的特征结构)，然后通过一个1×1卷积层和GELU(此处，GELU用于提供非线性激活的能力，加快模型收敛)对其进行通道压缩并经过一个3×3卷积层进一步特征变换得到大小为14×14×4的基础特征，此处该基础特征表示为M”；随后基础特征被输入到多感受野算子和上下文感知算子中去，图4中，1×1卷积层和GELU、3×3卷积层、1×1卷积、多感受野算子、上下文感知算子等通过虚线框描绘，代表在预训练时，其预训练参数需要进行更新，整个混合知识专家框架用虚线框描绘，代表其包括在预训练时，预训练参数需要进行更新的模块。

多感受野算子用于提取不同尺度的特征，来适应不同的AU对应的面部肌肉大小不一这一特性。其由三个并行的、卷积核大小为3×3、空洞率逐渐递增(分别为1、3、5)的空洞卷积层构成，三个空洞卷积层的输出被连接到一起并通过1×1卷积进行通道压缩得到多尺度特征K^MRF。

上下文感知算子专注于感知特征的上下文信息，从而隐式地建模肌肉之间潜在的相关知识。具体来说，输入的基础特征首先经由三个并行的1×1卷积映射成Q，K和V。然后，Q与在其S×S大小邻域内的K的向量进行Hadamard乘积和Softmax得到关联矩阵。最后，利用得到的关联知识，在Q的邻域内聚合V(图中为经过Hadamard乘积和求和操作)以将其更新为K^CA，该过程可表示为：

其中，q表示Hadamard乘积，x是Q_x的空间索引，R(x)是Q_x的邻域向量的空间索引的集合，d为特征的通道数量，K^CA为关联特征。

将基础特征、多尺度知识K^MRF和关联知识K^CA相加，并通过一个1×1卷积层和GELU(此处，GELU用于提供非线性激活的能力，加快模型收敛)拓展特征通道，经过拉平后得到混合知识特征。

类令牌被视为一个独立的图像，其特征变换过程与以上类似，因此在此不再赘述。

在本申请的一些实施例中，对面部动作单元进行辅助预测，还包括：

根据线性层的输出，计算第一带权重的非对称损失函数。

具体的，AU检测被视为一个二进制多标签分类问题，以往许多方法常常采用带权重的多标签交叉熵损失函数进行监督。但是，对于不同AU的检测的难度是不同的，上述的损失函数并没有将难度的差异考虑在内。因此，引入带权重的非对称损失函数来重点关注难以被正确识别的激活的AU和未激活的AU，通过带权重的非对称损失函数监督辅助预测，确保各个混合知识专家可以捕捉到自身对应的AU的个性化特征。

第一带权重的非对称损失函数表示为：

其中，r_i为第i个面部动作单元的出现的频率。

对面部动作单元进行预测，还包括：

根据线性层的输出，计算第二带权重的非对称损失函数和带权重的多标签骰子损失函数，第二带权重的非对称损失函数表示为：

带权重的多标签骰子损失函数表示为：

其中，y_i是第i个面部动作单元的真值，p_i ¹是第i个面部动作单元的最终预测的激活概率，N是面部动作单元的个数，ω_i是为缓解数据集存在的类不平衡问题的权重，ε是一个平滑项；

冻结线性映射层、归一化层、多头自注意力层及多层感知机层中的预训练参数，对总损失函数进行联合优化，将优化后的总损失函数梯度回传并更新混合知识专家的参数；

其中，总损失函数表示为：

本发明区别于之前在有限的AU标注的数据集上完全微调具有大量的可学习参数的模型的方法，缓解了过拟合的问题，通过引入具有很少的可学习参数的混合知识专家，并利用混合知识专家合作机制，实现了参数高效可靠的AU检测。

本发明区别于之前的通过利用自监督学习策略或引入辅助信息(如文本、生物力学或面部关键点)来缓解过拟合问题的方法，打破了对于大量的额外的相关数据的依赖，通过应用参数高效迁移学习范式，仅依靠有限的AU标注的数据就实现了强大的AU检测性能。

本发明区别于现有的参数高效迁移学习方法，考虑了AU的特性，在混合知识专家中引入了多感受野算子和上下文感知算子来提取有助于AU检测的多尺度知识和关联知识，得到了更为鲁棒且有效的混合知识特征。

考虑到收集和标注AU相关的数据耗时耗力，本发明采用随机裁剪、随机水平翻转和随机颜色抖动的数据增广方法，有效地扩充了数据集，缓解了该问题，有助于网络模型的训练，进一步提高了模型的检测性能。

请参考图5，图5为本申请实施例提供的对应于激活的面部动作单元的混合知识专家的热力图，图5中提供了两幅原始人脸图像，分别对两幅人脸图像的AU进行检测，可以看到，不同的混合知识专家均将注意力放在了自己对应的AU的相关面部区域上，如对应于AU1(眉毛内侧抬起)和AU6(脸颊提起)的混合知识专家分别将关注点放在了眉毛内侧和脸颊的位置；对应于AU2(眉毛外侧抬起)和AU10(上唇提起)的混合知识专家分别将关注点放在了眉毛外侧和唇部周围的位置；对应于AU17(下巴抬起)和AU12(拉动嘴角)的混合知识专家分别将关注点放在了下巴位置和嘴角的位置；对应于AU23(收紧嘴唇)和AU14(挤出酒窝，也可以称为颊骨凹陷)的混合知识专家分别将关注点放在了嘴唇周边和脸颊的位置，可以看出，通过本申请实施例的AU检测方法检测的AU，其均能够将关注点聚焦在AU关注的面部区域，提高了AU检测的鲁棒性和有效性。

对于上文所提供的AU检测方法，本申请实施例还提供了一种电子设备，如图6所示，图6为本申请实施例提供的电子设备的硬件结构示意图。本申请实施例中的电子设备包括：存储器，一个或多个处理器(图6中仅示出一个)及存储在存储器上并可在处理器上运行的计算机程序。其中：存储器用于存储软件程序以及单元，处理器通过运行存储在存储器的软件程序以及单元，从而执行各种功能应用以及数据处理，以获取上述预设事件对应的资源。具体地，处理器通过运行存储在存储器的上述计算机程序时实现AU检测方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现AU检测方法的步骤。

可以理解的是，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

应当理解，在本申请实施例中，上述处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类别的信息。

尽管本文描述了具体实施方案，但是本领域中的普通技术人员将认识到，许多其它修改或另选的实施方案同样处于本公开的范围内。例如，结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外，虽然已根据本公开的实施方案描述了各种例示性具体实施和架构，但是本领域中的普通技术人员将认识到，对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。

上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解，框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样，根据一些实施方案，框图和流程图中的一些块可能无需按示出的顺序执行，或者可以无需全部执行。另外，超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。

因此，框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。

本文所述的程序模块、应用程序等可包括一个或多个软件组件，包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令，所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如，本文所述的例示性方法的一种或多种操作)被执行。

软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言，诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言，其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中，包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行，而无需首先转换成另一种形式。

软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如，预设的或固定的)或动态的(例如，在执行时创建或修改的)。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。

Claims

1.一种面部动作单元检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始人脸图像进行预处理，包括：

将所述第一人脸图像设置为预设大小；

对所述第一人脸图像进行数据增广；

3.根据权利要求1所述的方法，其特征在于，所述基于多个混合知识专家构成混合知识专家组，包括：

4.根据权利要求1所述的方法，其特征在于，所述所述混合知识专家组通过学习所述面部动作单元的个性化特征得到全面的专家知识，包括：

5.根据权利要求4所述的方法，其特征在于，所述所述混合知识专家学习与其对应的所述面部动作单元的所述个性化特征，得到第一个性化特征，包括：

对所述第一图像特征或所述类令牌进行整形；

将所述基础特征输入所述多感受野算子，获得多尺度特征；

将所述基础特征输入所述上下文感知算子，获得关联特征；

6.根据权利要求5所述的方法，其特征在于，所述将所述基础特征输入所述多感受野算子，获得多尺度特征，包括：

将所述基础特征输入多个并行的空洞卷积层；

7.根据权利要求5所述的方法，其特征在于，所述将所述基础特征输入所述上下文感知算子，获得关联特征，包括：

8.根据权利要求1所述的方法，其特征在于，

所述对所述面部动作单元进行辅助预测，还包括：

其中，r_i为第i个面部动作单元的出现的频率；

所述对所述面部动作单元进行预测，还包括：

所述带权重的多标签骰子损失函数表示为：

其中，所述总损失函数表示为：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质包括存储的计算机程序；所述计算机程序在运行时控制所述计算机存储介质所在的设备执行如权利要求1至8中任一项所述的方法。