CN115546878A

CN115546878A - 基于注意力机制的面部au检测模型建立方法及其应用

Info

Publication number: CN115546878A
Application number: CN202211471437.4A
Authority: CN
Inventors: 喻莉; 尚子桥
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2022-12-30
Anticipated expiration: 2042-11-23
Also published as: CN115546878B

Abstract

本发明公开了基于注意力机制的面部AU检测模型建立方法及其应用，属于计算机视觉技术领域，包括：建立面部AU检测模型并训练；模型包括：多尺度特征提取网络，用于从人脸图像中提取全局人脸特征图；多尺度注意力图生成网络，用于生成AU特征；以及AU检测网络，用于根据AU特征预测各AU出现的概率；多尺度注意力图生成网络中，三个分支分别用于生成局部AU尺度、时间关联尺度和人脸ROI尺度的注意力图并作用于全局人脸特征图，得到对应特征图后进行特征提取并融合，最后一个分支对全局尺度人脸特征图进行特征提取，特征级联模块用于将各分支生成的特征图按通道级联为AU特征。本发明能够准确利用AU间的相关性，提高AU检测精度。

Description

基于注意力机制的面部AU检测模型建立方法及其应用

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及基于注意力机制的面部AU检测模型建立方法及其应用。

背景技术

面部动作编码系统（Facial Action Coding System, FACS）定义了44个面部动作单元（Action Unit, AU），以模拟面部肌肉运动与面部表情之间的相关性。AU检测是指确定给定的人脸图像中各类AU是否出现，是一项重要的人脸分析任务。最近，AU检测是分析人面部行为的重要技术，例如人类计算机的相互作用，情绪分析和汽车驾驶监测。

近年来，深度学习的方法已经用于AU检测方法中并取得了巨大成功，但是将未经预处理的整张人脸图像作为输入的方法效果并不好。因此，大多数方法都利用人脸关键点对脸部进行对齐，以便于对面部形状和表情外观特征的提取。另外，多尺度特征提取也常用作AU检测网络的特征提取手段，但是大多数网络多尺度划分方式单一，并没有注意到重点的AU信息。由于人脸关键点还可以提供精确的AU位置，许多研究更关注于从以相关关键点为中心的ROI（region of interest，感兴趣区域）中提取AU相关特征。除了以固定的大小预定义每个AU或区域的ROI外，也有部分方法采用了注意力机制，对AU所在区域附近特征添加权重以提取重要信息。但是，以上方法不能适应各种形状不规则，变换不规则的AU，而且也没有利用AU之间的相关信息。

目前利用AU之间关系提升模型效果的方法有很多，在申请公布号为CN114758382A的专利文件中，公开了一种基于自适应补丁学习的面部AU检测模型建立方法及应用，其所建立的面部AU检测模型中，提出了自适应补丁提案方法，首先利用先验知识确定人脸关键点与AU中心的位置关系，然后使用预测的与AU中心有关的人脸关键点坐标依据自适应多尺度补丁提案自适应生成AU级、关联级、人脸级三个尺度的补丁区域，使网络可以同时学习图像的AU标签特征、AU之间的关联特征以及人脸情绪特征，提高面部AU检测模型的预测精度，进而提高面部AU检测的精度。

上述专利文件所建立的面部AU检测模型通过生成AU级、关联级、人脸级三个尺度的补丁区域，能够有效利用AU之间的相关信息，但是，其预测精度仍有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了基于注意力机制的面部AU检测模型建立方法及其应用，其目的在于，准确地利用AU之间的相关性，提高面部AU检测模型的预测精度，从而提高面部AU检测的精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于注意力机制的面部AU检测模型建立方法，包括：建立端到端的初始神经网络模型并对其进行训练，得到面部AU检测模型；训练数据由已标注AU标签和人脸关键点标签的人脸图像构成；

初始神经网络模型包括：

多尺度特征提取网络，用于从包含人脸的输入图像中提取全局人脸特征图；全局人脸特征图包含全局人脸结构和上下文特征；

多尺度注意力图生成网络，包括：局部AU分支，时间关联尺度分支、全局分支以及特征级联模块；局部AU分支，用于获得全局人脸特征图中每一个像素对于每一个AU的注意力权重，并融合到全局人脸特征图中，得到局部AU尺度特征图；时间关联尺度分支，用于检测共同出现或共同不出现的频率最高的部分AU对，作为关联AU对，并获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，融合到全局人脸特征图中，得到时间关联尺度局部特征图；全局分支，用于对全局人脸特征图进行特征学习，得到全局尺度特征图；特征级联模块，用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联，得到AU特征；

以及AU检测网络，用于根据AU特征预测各AU出现的概率。

本发明所提供的以上技术方案，对面部AU检测模型进行改进，建立了一个由多尺度特征提取网络、多尺度注意力图生成网络以及AU检测网络依次连接构成的端到端的面部AU检测模型，其中的多尺度注意力图生成网络包含多个分支，多个分支基于注意力机制，生成多个不同尺度的注意力图后，分别作用于全局人脸特征图，可以生成多个不同尺度的局部特征图，实现了局部注意力机制；本发明基于局部注意力机制所生成的多尺度局部特征图具体包括局部AU尺度特征图、时间关联尺度局部特征图和全局尺度特征图，最终由这些局部特征图共同构成AU特征，完成面部AU检测；一方面，本发明所构建的面部AU检测模型中，多尺度注意力图生成网络所输出的AU特征，能够充分考虑每一个像素对于AU检测结果的重要性，并避免遗漏AU区域附近的重要信息，从而提高面部AU检测模型的预测精度，另一方面，本发明在模型中引入时间关联尺度分支，可由多尺度注意力图生成网络根据两个AU共同出现或共同不出现的频率识别其中的关联AU对，并获取相应尺度的局部特征图从而能够准确地考虑AU在时间上的关联性，进一步提高面部AU检测模型的预测精度。总体而言，本发明所建立的面部AU检测模型具有较高的检测精度，有利于提高面部AU检测的精度。

进一步地，检测共同出现或共同不出现的频率最高的部分AU对，作为关联AU对，包括：

建立AU之间的相关矩阵A，其中第i行第j列的元素A_ij表示第i个AU与第j个AU之间的关系系数；

按照R_i,j=A_ij+A_ji计算第i个AU与第j个AU之间的时间关联系数R_i,j，i≠j；按照时间关联系数从大到小的顺序对AU对排序，并遍历排序后的AU对，若所遍历到的AU对中的两个AU均未与其他AU构成关联AU对，则将当前所遍历到的AU对作为关联AU对；

第i个AU与第j个AU之间的关系系数A_ij的计算式为：

其中，a_i=1表示第i个AU出现，a_i=0表示第i个AU不出现；a_j=1表示第j个AU出现，a_j= 0表示第j个AU不出现；

表示第j个AU出现时，第i个AU出现的概率；

表示第j个AU不出现时，第i个AU不出现的概率。

本发明所建立的面部AU检测模型中，时间关联尺度分支基于上述计算方式，能够根据两个AU共同出现或共同不出现的频率准确计算两个AU之间的时间关联系数以反映二者在时间上的关联性，并且在按照时间关联系数由大到小的顺序确定关联AU对时，限定每个AU只能出现一次，由此能够避免因一个AU同时和多个AU有高关联性且被多次选择，而导致特征预测结果在不同AU对中不相同，并避免造成AU数量权重之间的不平衡，保证了所识别的关联AU对在时间上具有关联性且用于AU检测时不会影响检测结果。

进一步地，获得全局人脸特征图中每一个像素对于每一个AU的注意力权重，包括：

根据全局人脸特征图的人脸关键点坐标预定义各AU的中心位置；

按照如下公式计算第k个像素对于第i个AU的注意力权重v _ik：

其中，d _ik表示第k个像素相对于第i个AU中心的曼哈顿距离，l_map表示预先定义的区域边长；N _au表示AU总数。

本发明所建立的面部AU检测模型中，局部AU分支首先基于预测的人脸关键点确定AU中心位置，再基于AU中心位置与像素间的距离进行局部注意力图的生成，能够准确计算每一个像素对于AU检测结果的注意力权重。

进一步地，获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，包括：

对于第p个关联AU对，分别获得第k个像素相对于第p个关联AU对中的两个AU的的注意力权重，将其中的最大值作为第k个像素相对于第p个关联AU对的注意力权重v _pk；

其中，p=1, 2…, N _tem，N _tem表示关联AU对总数。

进一步地，多尺度注意力图生成网络还包括：

人脸ROI尺度分支，用于检测位于同一个感兴趣区域的AU，并获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，融合到全局注意力图中，得到人脸ROI尺度注意力图；

获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，包括：

对于第q个感兴趣区域，分别获得第k个像素相对于第q个感兴趣区域中的每一个AU的注意力权重，将其中的最大值作为第k个像素相对于第q个感兴趣区域的注意力权重v _qk；

其中，q=1, 2…, N _roi，N _roi表示感兴趣区域总数。

本发明在多尺度注意力图生成网络中还引入了人脸ROI尺度分支，进一步将感兴趣区域内的AU生成的注意图用于后续的AU预测，使得模型在进行AU检测时，能够基于AU之前的空间关联性，在更大尺度上学习面部特征，在这些信息的辅助下，进一步提高面部AU检测模型的预测精度。

进一步地，局部AU分支包括：

局部AU尺度注意力图生成模块，用于识别N _au个AU，并生成与N _au个AU一一对应的N _au个局部AU尺度注意力图后，分别作用于全局人脸特征图，得到N _au个第一局部特征图；每个局部AU尺度注意力图由全局人脸特征图中每一个像素对于AU的注意力权重构成；

第一编码器，用于对N _au个第一局部特征图进行特征提取；

第一投影模块，用于将第一编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到局部AU尺度特征图；

时间关联尺度分支包括：

时间关联尺度注意力图生成模块，用于识别N _tem个关联AU对，并生成与N _tem个关联AU对一一对应的N _tem个时间关联尺度注意力图后，分别作用于全局人脸特征图，得到N _tem个第二局部特征图；每个时间关联尺度注意力图由全局人脸特征图中每一个像素对于关联AU对的注意力权重构成；

第二编码器，用于对N _tem个第二局部特征图进行特征提取；

第二投影模块，用于将第二编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到时间关联尺度局部特征图；

人脸ROI尺度分支包括：

人脸ROI尺度注意力图生成模块，用于识别位于同一个感兴趣区域的AU，并生成与N _roi个感兴趣区域一一对应的N _roi个人脸ROI尺度注意力图后，分别作用于全局人脸特征图，得到N _roi个第三局部特征图；每个人脸ROI尺度注意力图由全局人脸特征图中每一个像素对于感兴趣区域的注意力权重构成；

第三编码器，用于对N _roi个第三局部特征图进行特征提取；

第三投影仪，用于将第三编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到人脸ROI尺度局部特征图；

全局分支包括：

第四编码器，用于对全局人脸特征图进行特征提取，得到全局尺度注意力图；

其中，局部AU尺度特征图、时间关联尺度局部特征图、人脸ROI尺度局部特征图和全局尺度特征图大小相等。

本发明所建立的面部AU检测模型中，多尺度注意力图生成网络的局部AU分支、时间关联尺度分支和人脸ROI尺度分支中，在生成相应的注意力图后，会由编码器进行进一步的特征提取，并由投影模块（projector）以较低的成本实现不同尺度之间的特征对齐，并实现特征的像素级放大，不仅起到了降维和特征融合的作用，还解决了不同尺度特征之间维度不匹配的问题。

进一步地，多尺度注意力图生成网络的各分支中的编码器，在进行特征提取时，结合了通道注意力机制和空间注意力机制。

本发明所建立的面部AU检测模型中，多尺度注意力图生成网络的各分支中的编码器在进行特征提取时，结合了通道注意力机制和空间注意力机制，在局部注意力机制的基础上，实现了混合注意力机制。其中：局部注意力机制可以对AU所在区域附近特征添加权重以提取重要信息；通道注意力机制既可以得到每个通道对于每个AU特征提取的重要性权重，又可以起到对不同维度通道之间的筛选作用，学习了每个尺度对于检测结果的重要性信息；空间注意力可以学习特征图中每个像素的重要性。

进一步地，对初始神经网络模型进行训练，得到面部AU检测模型，包括：

第一阶段：利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的训练数据集对所述初始神经网络模型进行端到端训练；

第二阶段：改变部分超参数后，利用训练数据集对经过第一阶段训练之后的初始神经网络模型进行端到端训练，以对模型进行微调，得到面部AU检测模型。

本发明采用两阶段的训练方式对模型进行训练，第一阶段通过完整的端到端的训练，可以得到检测精度较高的面部AU检测模型；第二阶段在第一阶段的基础上，通过改变超参数的方式对模型进行微调，可以避免初始时刻因超参数设置不准确而影响模型的检测精度。

进一步地，训练损失函数为：

其中，L表示总体损失；L _au表示AU检测结果损失；L _mid表示第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失；L _con表示像素级对比损失，

、

和

分别表示局部AU尺度特征图、时间关联尺度局部特征图和人脸ROI尺度局部特征图，h和w分别表示这些注意力图的高和宽，m表示预设的距离，

表示二范数；λ _mid和λ _con表示权衡参数。

本发明所设计的损失函数，在AU检测结果损失L _au的基础之上，进一步考虑了AU检测中间监督损失L _mid和像素级对比损失L _con，AU检测中间监督损失即为第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失；其中，AU检测中间监督损失L _mid可以保证多尺度注意力图生成网络中，各分支可准确提取到对应的注意力图；像素级对比损失L _con则在投影模块的基础上，可以使不同分支所获取到的不同尺度的特征之间具有一定的距离，实现不同尺度特征之间的多视角化。

进一步地，AU检测结果损失L _au为：

其中，y _i表示第i个AU标签，

表示第i个AU的预测结果，ε为损失函数的平滑系数；

，r _n表示训练数据集中第n个AU出现的概率。

进一步地，第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失L _mid为：

其中，n _maps表示生成的注意力图的总数，

表示第i个注意力图中包含的AU数量，

表示第i张注意力图中第j个AU的标签，

表示第i张注意力图中第j个AU的预测结果，ε为损失函数的平滑系数；

，r _ij表示第 i张注意力图中第j个AU出现的概率。

本发明在计算AU检测结果损失L _au和AU检测中间监督损失L _mid时，引入了权重w _i和w _ij，AU实际出现的概率越小，这两个权重的的值就越大，该AU分配的损失权重也就越大，使得网络增加对出现频次低的AU标签的关注，同时减少出现频次高的AU标签的关注，从而缓解因AU标签出现的频次差异而导致的数据不平衡问题。

按照本发明的另一个方面，提供了一种基于注意力机制的面部AU检测方法，包括：将待检测的人脸图像输入至由本发明提供的上述基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型，从面部AU检测模型的输出中提取出现概率最大的AU标签，作为AU检测结果。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行权利要求执行本发明提供的上述基于注意力机制的面部AU检测模型建立方法，和/或，本发明提供的上述面部动作单元检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：（1）本发明建立了一个由多尺度特征提取网络、多尺度注意力图生成网络以及AU检测网络依次连接构成的端到端的面部AU检测模型，其中的多尺度注意力图生成网络包含多个分支，多个分支基于局部注意力机制生成多个不同尺度的注意力图，并分别作用于全局人脸特征图，生成多个不同尺度的局部特征图，并由这些特征图共同构成用于AU检测的AU特征，由此能够充分考虑每一个像素对于AU检测结果的重要性，并避免遗漏AU区域附近的重要信息，并准确地考虑AU在时间上的关联性，有效提高面部AU检测模型的预测精度，从而有利于提高面部AU检测的精度。

（2）在本发明的优选方案中，本发明所建立的面部AU检测模型中，时间关联尺度分支根据两个AU共同出现或共同不出现的频率准确计算两个AU之间的时间关联系数以反映二者在时间上的关联性，按照时间关联系数由大到小的顺序确定关联AU对，并限定每个AU只能出现一次，保证了所识别的关联AU对在时间上具有关联性且用于AU检测时不会影响检测结果。

（3）在本发明的优选方案中，本发明所建立的面部AU检测模型中，局部AU分支基于AU中心位置与像素间的距离生成相应的注意力图，能够准确计算每一个像素对于AU检测结果的注意力权重。

（4）在本发明的优选方案中，进一步通过在模型中引入人脸ROI尺度分支，能够基于AU之间的空间关联性，在更大尺度上学习面部特征，在这些信息的辅助下，进一步提高面部AU检测模型的预测精度。

（5）在本发明的优选方案中，多尺度注意力图生成网络中的各分支在生成注意力图并作用于全局人脸特征图后，会由编码器进行特征提取，并且在提取特征的过程中，会结合通道注意力机制和空间注意力机制，由此在局部注意力机制的基础上，实现了混合注意力机制，由此能够充分挖掘出每个像素对于AU检测结果的重要性。

（6）在本发明的优选方案中，多尺度注意力图生成网络的各分支在利用投影模块不同尺度之间的特征对齐并实现像素级放大的基础上，在模型的训练损失函数中，会设计像素级对比损失，以确保多尺度注意力图生成网络中各分支提取的特征之间具有一定的距离，实现多视角化；同时，通过在训练损失函数中设计AU检测中间监督损失，能够保证多尺度注意力图生成网络准确提取到注意力信息。

附图说明

图 1 为本发明实施例提供的面部 AU 检测模型示意图。

图 2为本发明实施例提供的 DISFA 数据集上 AU 相互之间的关联性。

图 3 为本发明实施例提供的 BP4D 数据集上 AU 相互之间的关联性。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

考虑到现有的利用AU之间的关联性进行面部AU检测的方法对于所生成的补丁区域，区域内的像素将具有相同的权重，区域外的像素也将具有相同的权重，这将导致在AU检测过程中，无法充分考虑不同像素的重要性，并且会遗漏AU区域附近的重要信息，此外，面部AU在时间上的关联性对于AU检测而言，是十分重要的信息，而现有的方法对于AU之间的时间关联信息，虽然有所考虑，但仍不够准确，因此，检测精度仍有待进一步提高。为了进一步提高面部AU检测的精度，本发明提供了一种基于注意力机制的面部AU检测模型建立方法及其应用，其整体思路在于：对面部AU检测模型的结构进行改进，将单一的全局尺度分为多个不同尺度的并行分支，其中包括时间关联尺度分支，这些分支分别通过面部关键点定位，生成不同尺度的局部注意力图，并分别作用于全局人脸特征图，生成不同尺度的局部特征图，由这些局部特征图和全局尺度特征图共同构成用于AU检测的AU特征，完成最终的面部AU检测，由此能够充分利用AU之间的关联性，尤其是时间关联性，并充分考虑各像素对于面部AU检测结果的重要性，有效提高面部AU检测模型的预测精度，从而提高面部AU检测的精度。

以下为实施例。

实施例1：一种基于注意力机制的面部AU检测模型建立方法，包括：建立端到端的初始神经网络模型并对其进行训练，得到面部AU检测模型；训练数据由已标注AU标签和人脸关键点标签的人脸图像构成。

本实施例可选取BP4D和DISFA构建用于训练模型的数据集，这两个数据集包括15个AU标签（AU 1, 2, 4, 6, 7, 9, 10, 12, 14, 15, 17, 23, 24, 25, 26）的注释和68个人脸关键点坐标。本实施例首先将68个面部关键点转换成49个面部内部关键点(去掉与AU检测无关的面部轮廓关键点)。然后，为了提取高度相关的AU特征，本实施例通过这49个关键点来预定义AU中心的位置。AU中心位置描述可参考“Eac-net: Deep nets withenhancing and cropping for facial action unit detection[J]”（Li W, Abtahi F,Zhu Z, et al. IEEE transactions on pattern analysis and machine intelligence,2018, 40(11): 2583-2596.）中的描述；具体地，可根据FACS的先验知识得到AU定义及对应的AU中心位置描述，如表1所示，其中尺度定义为人的两眼内角间距。

本实施例中，所建立的初始神经网络模型如图1所示，包括：多尺度特征提取网络，多尺度注意力图生成网络以及AU检测网络。

本实施例中，多尺度特征提取网络，用于从包含人脸的输入图像中提取全局人脸特征图；全局人脸特征图包含全局人脸结构和上下文特征；

可选地，本实施例中，多尺度特征提取网络由三个卷积核大小为3×3、步长为1，填充为1的普通卷积层串联构成，其中，第一个划分的卷积层的特征图被均匀划分成8×8个块，每个块在第一个划分的卷积层独立进行卷积处理；同理，第二层和第三层分割后的卷积层分别对前一层均匀分割的4×4和2×2 特征图中的块独立进行卷积处理；通过将第一、第二、第三分层卷积层的特征映射进行拼接，可以提取出与普通卷积层特征映射相同通道数的分层多尺度特征映射；然后利用残差结构对两个特征映射进行元素求和，以学习过完备特征，避免消失梯度问题；每个卷积层都使用Batch Normalization (BN)和修正线性单元(ReLU)操作，对应的输出规模分别为D×D×C、D×D×C、D×D×2C；其中，D表示特征图的长或宽大小，C表示特征图通道数量，可选地，本实施例中，D=44，C=8。

参阅图1，本实施例中，多尺度注意力图生成网络包括四个并行分支以及特征级联模块，四个并行分支分别是局部AU分支，时间关联尺度分支、人脸ROI尺度分支和全局分支，前三个分支用于根据不同尺度的AU划分规则生成不同尺度的注意力图，并分别作用于人脸全局特征图，得到相应的局部特征图，特征级联模块会将各分支生成的特征图按通道级联，得到AU特征，该AU特征将被输入至AU检测网络，完成面部AU检测；考虑到AU之间具有对称性，因此本实施例所关注的不同尺度的注意力包括局部AU尺度、时间关联尺度和人脸ROI尺度；各分支的功能及结构分别如下：

局部AU分支，用于获得全局人脸特征图中每一个像素对于每一个AU的注意力权重，并融合到全局人脸特征图中，得到局部AU尺度特征图；

如图1所示，本实施中，局部AU分支包括：

第一编码器，用于对N _au个第一局部特征图进行特征提取；

其中，局部AU尺度注意力图生成模块，生成局部AU尺度注意力图的方式为：

按照如下公式计算第k个像素对于第i个AU的注意力权重v _ik：

其中，d _ik表示第k个像素相对于第i个AU中心的曼哈顿距离，l _map表示预先定义的区域边长，本实施例中，其值为11；N _au表示AU总数，可选地，本实施例中，N _au=12。

时间关联尺度分支，用于识别共同出现或共同不出现的频率最高的部分AU对，作为关联AU对，并获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，融合到全局人脸特征图中，得到时间关联尺度局部特征图；

如图1所示，本实施中，时间关联尺度分支包括：

第二编码器，用于对N _tem个第二局部特征图进行特征提取；

其中，时间关联尺度注意力图生成模块，识别关联AU对的方式包括：

第i个AU与第j个AU之间的关系系数A_ij的计算式为：

表示第j个AU出现时，第i个AU出现的概率；

表示第j个AU不出现时，第i个AU不出现的概率。

按照上述计算方式，A_ij的值可以反映AU之间的时间关联性，范围在[0,1]区间，本实施例中，时间关联尺度分支在DISFA数据集和BP4D数据集上所建立的相关矩阵A分别如图2和图3所示；

本实施例中，时间关联尺度分支在按照R_i,j，即A_ij+A_ji的值从大到小依次进行排列。对AU进行分组时，有高关联性的AU，即A_ij+A_ji的值高的AU对，优先选择。选择时每个AU只能出现一次，因为如果一个AU同时和多个AU有高关联性且被多次选择，特征预测的结果在不同的AU对中有可能不相同，而且会造成AU数量权重之间的不平衡。基于上述提案，本实施例中，时间关联尺度的AU划分规则描述如表2所示，其中，位于同一行的两个AU构成一个关联AU对，

时间关联尺度注意力图生成模块，获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，包括：

其中，p=1,2…,N _tem，N _tem表示关联AU对总数，可选地，本实施例中，N _tem=6。

人脸ROI尺度分支，用于识别位于同一个感兴趣区域的AU，并获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，融合到全局注意力图中，得到人脸ROI尺度注意力图；

可选地，本实施例中，所考虑的感兴趣区域，具体是指面部的感官区域；局部AU特征和时间关联特征将AU活动约束在人脸的特定区域，在此基础上，本实施例中通过引入人脸ROI尺度分支，将AU按照AU在面部感官区域中的分布进行分组，可以充分考虑面部中同一感官区域中AU之间存在的空间关联性信息，便于AU之间空间关联性特征的提取，并且，在AU相关的ROI级空间约束下，提取的特征相较于全局特征是细粒度的，能够使用正确的图像上下文进行预测。

本实施例中，人脸ROI尺度AU划分规则如表3所示，

参阅图1，本实施例中，人脸ROI尺度分支包括：

第三编码器，用于对N _roi个第三局部特征图进行特征提取；

其中，人脸ROI尺度注意力图生成模块，获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，包括：

其中，q=1,2…,N _roi，N _roi表示感兴趣区域总数，可选地，本实施例中，N _roi=5。

全局分支，用于对全局人脸特征图进行特征学习，得到全局尺度特征图；特征级联模块，用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联，得到AU特征；

参阅图1，本实施例中，全局分支包括：

如图1所示，本实施例中，多尺度注意力图生成网络中，所生成的不同尺度的特征图会输入到对应的编码器中，做进一步的特征提取；可选地，本实施例中，各编码器的结构相同，均由三组卷积核大小为3×3、步长为1，填充为1的卷积层加上2×2的池化层串联构成，可以将64×44×44的特征映射空间大小减少到160×5×5；然后，对新特征添加通道注意力机制和空间注意力机制得到混合注意力机制，从而在局部注意力机制的基础上实现混合注意力机制；混合注意力机制中，局部注意力机制可以对AU所在区域附近特征添加权重以提取重要信息；通道注意力机制既可以得到每个通道对于每个AU特征提取的重要性权重，又可以起到对不同维度通道之间的筛选作用，学习了每个尺度对于检测结果的重要性信息；空间注意力可以学习特征图中每个像素的重要性。

如图1所示，为了实现不同尺度之间的像素对齐，本实施例在局部AU分支、时间关联尺度分支和人脸ROI尺度分支后分别添加了一个非线性的投影模块（Projector），以较低的成本实现不同尺度之间的特征对齐，并实现特征的像素级放大；可选地，本实施例中，三个投影模块结构相同，均由两个卷积核为1×1的卷积层和一个卷积核为3×3，步长为1，填充为1的卷积层组成，不仅起到了降维和特征融合的作用，还解决了不同尺度特征之间维度不匹配的问题。经过投影模块的特征对齐和像素级放大后，即可得到局部AU尺度特征图、时间关联尺度局部特征图和人脸ROI尺度局部特征图，本实施例中，分别以符号

、

和

表示，维度均为160×5×5。

AU检测网络，用于根据AU特征预测各AU出现的概率；可选地，本实施例中，AU检测网络由两个全连接层串联构成，各尺度特征图通道级联为AU特征图后，得到的AU特征的规模为16000，后跟两个全连接层，两个全连接层的维度分别为N _f和2N _au，其中N _f=512，N _au=12；第二个全连接层的输出，即为每个AU标签出现的概率

。

对于所建立的上述模型，为了避免多尺度注意力图生成网络的各分支学习到不合理的特征，本实施例中，对初始神经网络模型进行训练，采用了两阶段训练方式，两个阶段具体包括：

第二阶段：改变部分超参数后，利用训练数据集对经过第一阶段训练之后的初始神经网络模型进行端到端训练，以对模型进行微调，得到面部AU检测模型；

上述两阶段训练方式中，第一阶段通过完整的端到端的训练，可以得到检测精度较高的面部AU检测模型；第二阶段在第一阶段的基础上，通过改变超参数的方式对模型进行微调，可以避免初始时刻因超参数设置不准确而影响模型的检测精度。

由于四个尺度分支生成的特征在级联之后用同样的AU标签进行监督，因此每个分支生成的特征将逐渐趋于一致，为了使四个分支的生成的特征彼此有一定区别，本实施例在训练损失函数中除了包括AU检测结果损失L _au外，还设计了像素级对比损失，其表达式为：

其中，L _con表示像素级对比损失，h和w分别表示这些注意力图的高和宽，m表示预设的距离，

表示二范数；

由于本实施例将不同尺度之间的特征看做不同类的样本，所以仅保留了原对比损失的距离增加部分；m是超参数，表示两个像素之间需要达到的距离，基于上述表达式，当像素距离的平均值小于m时，会增大两者的距离到m，当像素距离的平均值大于m时，则减小两者的距离到m；

由于关联AU对包含两个AU，而感兴趣区域包含多个AU，上述像素级对比损失通过对局部AU尺度特征图

和时间关联尺度局部特征图

间像素距离的平均值，以及对局部AU尺度特征图

和人脸ROI尺度局部特征图

间像素距离的平均值进行限定，即可保证四个分支生成的特征彼此有一定区别，并减少计算量。

该像素级对比损失可以让不同尺度的特征之间多视角化，同时，在同一AU标签的约束下，不同视角特征之间预测结果也具有一致性。像素级对比损失仅用于更新特征编码器和投影仪部分的参数。

为了使各分支生成的注意力图尽可能准确，本实施例在训练损失函数中还设计了AU检测中间监督损失L _mid，具体为第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失，其计算公式为：

其中，n _maps表示生成的注意力图的总数，

表示第i个注意力图中包含的AU数量，

表示第i张注意力图中第j个AU的标签，

，r _ij表示第i 张注意力图中第j个AU出现的概率。

本实施例在计算AU检测中间监督损失L _mid时，引入了权重w _ij，AU实际出现的概率越小，该权重的的值就越大，该AU分配的损失权重也就越大，使得网络增加对出现频次低的AU 标签的关注，同时减少出现频次高的AU标签的关注，从而缓解因AU标签出现的频次差异而导致的数据不平衡问题。出于同样的考虑，本实施例在计算AU检测结果损失L _au时，引入了权重w _i，其计算表达式为：

，r _n表示训练数据集中第n个AU出现的概率，相应地，AU检测结果损失L _au的表达式为：

其中，y _i表示第i个AU标签，

表示第i个AU的预测结果，ε表示为损失函数的平滑系数；L _mid和L _au均由交叉熵损失函数和dice loss构成，可同时优化AU检测的F1分数和准确率。

本实施例中，训练损失函数为：

其中，L表示总体损失，λ _mid和λ _con表示权衡参数，λ _mid≥0，λ _con≥0；在实际应用中，权衡参数的具体取值可根据具体应用需求相应设定，在保证模型检测精度满足要求的情况下，λ _mid和λ _con的值也可以相应设置为0。

总的来说，本实施例将单一的全局尺度分为四个尺度的并行分支：局部AU尺度分支、时间关联尺度分支、人脸ROI尺度分支和全局尺度分支。前三个分支由五个部分组成：多尺度特征提取模块、注意力图生成模块、编码器、投影仪和AU检测网络。最后一个分支仅包含多尺度特征提取模块、编码器和AU检测网络三个部分，组成了整个网络的backbone。首先，网络通过backbone捕捉整个人脸的结构和纹理特征F _global。其次，局部AU尺度分支、时间关联尺度分支和人脸ROI尺度分支分别通过面部关键点定位，生成不同尺度的局部注意力图，并将局部注意力图与原图逐像素相加，分别生成局部AU特征F _au、时间关联特征F _tem和人脸ROI特征F _roi。再者，三个级别的特征分别用不同级别的标签进行监督，并添加了通道和空间注意力机制，自适应学习到多尺度的AU特征。在每个分支的局部特征提取模块后，本发明添加了投影仪，在对每个尺度的特征进行对齐后将特征放大到像素级别，并通过像素级将不同尺度AU特征逐像素拉开一定距离，使网络尽可能生成多视角特征。最后，将多视角的特征进行通道级联，作为AU检测网络的输入，输出即为AU检测结果。整个过程不同尺度的四个分支共同优化，网络端到端可训练。

需要说明的是，在本发明其他的一些实施例中，在保证AU检测精度可满足具体需求的情况下，多尺度注意力图生成网络也可仅包括局部AU分支、时间关联尺度分支、全局分支，而不包括人脸ROI尺度分支，此时，像素级对比损失仅对局部AU尺度特征图

和时间关联尺度局部特征图

间像素距离的平均值进行限定即可。

实施例2：一种基于注意力机制的面部AU检测方法，包括：将待检测的人脸图像输入至由上述实施例1提供的基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型，从面部AU检测模型的输出中提取出现概率最大的AU标签，作为AU检测结果。

实施例3：一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行权利要求执行上述实施例1提供的基于注意力机制的面部AU检测模型建立方法，和/或，上述实施例2提供的面部动作单元检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的面部AU检测模型建立方法，其特征在于，包括：建立端到端的初始神经网络模型并对其进行训练，得到所述面部AU检测模型；训练数据由已标注AU标签和人脸关键点标签的人脸图像构成；

所述初始神经网络模型包括：

多尺度特征提取网络，用于从包含人脸的输入图像中提取全局人脸特征图；所述全局人脸特征图包含全局人脸结构和上下文特征；

多尺度注意力图生成网络，包括：局部AU分支、时间关联尺度分支、全局分支以及特征级联模块；所述局部AU分支，用于获得所述全局人脸特征图中每一个像素对于每一个AU的注意力权重，并融合到所述全局人脸特征图中，得到局部AU尺度特征图；所述时间关联尺度分支，用于检测共同出现或共同不出现的频率最高的部分AU对，作为关联AU对，并获得所述全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，融合到所述全局人脸特征图中，得到时间关联尺度局部特征图；所述全局分支，用于对所述全局人脸特征图进行特征学习，得到全局尺度特征图；所述特征级联模块，用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联，得到AU特征；

以及AU检测网络，用于根据所述AU特征预测各AU出现的概率。

2.如权利要求1所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，检测共同出现或共同不出现的频率最高的部分AU对，作为关联AU对，包括：

按照R_i,j=A_ij+A_ji计算第i个AU与第j个AU之间的时间关联系数R_i,j，i≠j；按照时间关联系数从大到小的顺序对AU对排序，并遍历排序后的AU对，若所遍历到的AU对中的两个AU均未与其它AU构成关联AU对，则将当前所遍历到的AU对作为关联AU对；

第i个AU与第j个AU之间的关系系数A_ij的计算式为：

其中，a_i=1表示第i个AU出现，a_i=0表示第i个AU不出现；a_j=1表示第j个AU出现，a_j=0表示第j个AU不出现；

表示第j个AU出现时，第i个AU出现的概率；

表示第j个AU不出现时，第i个AU不出现的概率。

3.如权利要求1或2所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，获得所述全局人脸特征图中每一个像素对于每一个AU的注意力权重，包括：

根据所述全局人脸特征图中的人脸关键点坐标预定义各AU的中心位置；

按照如下公式计算第k个像素对于第i个AU的注意力权重v _ik：

4.如权利要求3所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，获得所述全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重，包括：

对于第p个关联AU对，分别获得第k个像素相对于第p个关联AU对中的两个AU的注意力权重，将其中的最大值作为第k个像素相对于第p个关联AU对的注意力权重v _pk；

其中，p=1,2…,N _tem，N _tem表示关联AU对总数。

5.如权利要求4所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，所述多尺度注意力图生成网络还包括：

人脸ROI尺度分支，用于检测位于同一个感兴趣区域的AU，并获得所述全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，融合到所述全局注意力图中，得到人脸ROI尺度局部特征图；

获得所述全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重，包括：

其中，q=1,2…,N _roi，N _roi表示感兴趣区域总数。

6.如权利要求5所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，所述局部AU分支包括：

局部AU尺度注意力图生成模块，用于识别N _au个AU，并生成与N _au个AU一一对应的N _au个局部AU尺度注意力图后，分别作用于所述全局人脸特征图，得到N _au个第一局部特征图；每个局部AU尺度注意力图由所述全局人脸特征图中每一个像素对于AU的注意力权重构成；

第一编码器，用于对所述N _au个第一局部特征图进行特征提取；

第一投影模块，用于将所述第一编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到局部AU尺度特征图；

所述时间关联尺度分支包括：

时间关联尺度注意力图生成模块，用于检测N _tem个关联AU对，生成与N _tem个关联AU对一一对应的N _tem个时间关联尺度注意力图后，分别作用于所述全局人脸特征图，得到N _tem个第二局部特征图；每个时间关联尺度注意力图由所述全局人脸特征图中每一个像素对于关联AU对的注意力权重构成；

第二编码器，用于对所述N _tem个第二局部特征图进行特征提取；

第二投影模块，用于将所述第二编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到时间关联尺度局部特征图；

所述人脸ROI尺度分支包括：

人脸ROI尺度注意力图生成模块，用于检测位于同一个感兴趣区域的AU，并生成与N _roi个感兴趣区域一一对应的人脸ROI尺度注意力图后，分别作用于所述全局人脸特征图，得到N _roi个第三局部特征图；每个人脸ROI尺度注意力图由所述全局人脸特征图中每一个像素对于感兴趣区域的注意力权重构成；

第三编码器，用于对所述N _roi个第三局部特征图进行特征提取；

第三投影仪，用于将所述第三编码器提取到的特征融合到一张特征图中，并进行像素级放大，得到人脸ROI尺度局部特征图；

所述全局分支包括：

第四编码器，用于对所述全局人脸特征图进行特征提取，得到全局尺度注意力图；

7.如权利要求6所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，所述多尺度注意力图生成网络的各分支中的编码器，在进行特征提取时，结合了通道注意力机制和空间注意力机制。

8.如权利要求6或7所述的基于注意力机制的面部AU检测模型建立方法，其特征在于，训练损失函数为：

、

和

表示二范数；λ _mid和λ _con表示权衡参数。

9.一种基于注意力机制的面部AU检测方法，其特征在于，包括：将待检测的人脸图像输入至由权利要求1~8任一项所述的基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型，从所述面部AU检测模型的输出中提取出现概率最大的AU标签，作为AU检测结果。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求执行权利要求1~8任一项所述的基于注意力机制的面部AU检测模型建立方法，和/或，权利要求9所述的面部动作单元检测方法。