CN114758382A

CN114758382A - 基于自适应补丁学习的面部au检测模型建立方法及应用

Info

Publication number: CN114758382A
Application number: CN202210315936.8A
Authority: CN
Inventors: 喻莉; 杜聪炬
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-15
Anticipated expiration: 2042-03-28
Also published as: CN114758382B

Abstract

本发明公开了一种基于自适应补丁学习的面部AU检测模型建立方法及应用，属于计算机视觉技术领域，包括：建立初始神经网络模型并训练，得到面部AU检测模型；模型包括：全局特征学习模块，用于从人脸图像中提取全局人脸特征F_global；人脸关键点位置学习模块，用于从F_global中学习得到人脸关键点位置P_align；自适应多尺度补丁学习模块，包括：自适应补丁提案子模块，用于根据P_align从F_global中划分出多种尺度的补丁区域；多尺度补丁学习子模块，用于通过补丁学习得到各尺度补丁区域的特征后级联为AU特征；以及AU预测模块，用于根据AU特征预测各AU标签出现的概率；补丁区域包括AU级尺度区域、关联级尺度区域和人脸级尺度区域。本发明能够减少头部姿态影响，提高AU检测精度。

Description

基于自适应补丁学习的面部AU检测模型建立方法及应用

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于自适应补丁学习的面部AU检测模型建立方法及应用。

背景技术

面部动作单元(Action Unit,AU)是人脸动作编码系统(Facial Action CodingSystem,FACS)定义的局部面部区域中的基本面部运动，它描述了面部表情的细粒度变化。人脸运动单元检测是指确定给定的人脸图像中各类AU是否出现。AU检测是一项重要的人脸分析任务，通过计算机自动检测AU及其组合，有助于准确分析面部表情和理解个体情绪，应用于健康、娱乐、公共安全等各个领域。

AU本质是人脸局部区域的肌肉激活模式，每个AU标签对应了一些特定肌肉运动，不同的AU具有不同的结构和纹理信息，因此显式的局部特征学习有助于提升AU检测的精度。传统的局部区域划分方法将输入的卷积特征图均匀划分为若干个补丁区域，并对每个补丁区域采用不同的卷积核进行局部特征学习。这类方法无法在不同头部姿态下裁剪出语义对齐的补丁区域，使得AU检测的精度受到了一定的限制。

此外，AU往往以组合的方式被激活，如高兴表情一般包含了AU6和AU12的组合，因此AU之间具有时间相关性，这种相关信息可以辅助提高AU检测精度，为了利用AU之间的时间相关性，传统的AU关系建模方法多采用玻尔兹曼机或贝叶斯网络，但没有考虑AU的空间相关性，限制了相关方法的检测精度。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于自适应补丁学习的面部AU检测模型建立方法及应用，其目的在于，减少头部姿态影响，捕获不同尺度下的AU特征，提高AU检测精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于自适应补丁学习的面部AU检测模型建立方法，包括：建立初始神经网络模型并对其进行训练，得到面部AU检测模型；

初始神经网络模型包括：

全局特征学习模块，用于对包含人脸的输入图像进行特征提取，得到包含了全局人脸结构和上下文特征的全局人脸特征；

人脸关键点位置学习模块，用于从全局人脸特征中学习得到人脸关键点位置；

自适应多尺度补丁学习模块，包括：自适应补丁提案子模块，用于根据人脸关键点位置从全局人脸特征中划分出多种尺度的补丁区域；多尺度补丁学习子模块，用于对多种尺度的补丁区域进行补丁学习，得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征；多种尺度的补丁区域包括AU级尺度区域；AU级尺度区域为以AU中心位置为中心的正方形区域；

以及，AU预测模块，用于根据AU特征预测各AU标签出现的概率。

本发明所建立的面部AU检测模型，引入了AU检测和人脸对齐两个高度相关任务的联合学习框架，在进行AU检测时，先基于预测的人脸关键点确定AU中心位置，再基于AU中心位置进行局部区域划分，然后在指定区域内进行AU检测，由于区域划分的结果是与输入图像的人脸关键点位置自适应的，因此，有效减弱了头部姿态变化对于AU检测结果的影响，提高了AU检测的精度。

在一些可选的实施例中，多种尺度的补丁区域还包括：关联级尺度区域；关联级尺度区域为依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域。

由于AU往往以组合的方式被激活，本发明将具有依赖性，且满足一定空间关系的两个AU级尺度区域组合到一起，并将这两个AU级尺度区域的最小外接矩形也作为一种补丁区域，即关联级尺度区域，用于后续的AU预测，这使得模型在进行AU检测时，能够在更大的尺度上学习AU之间的时间依赖性和空间依赖性，在这些信息的辅助下，进一步提高AU检测的精度。

在一些可选的实施例中，多种尺度的补丁区域还包括：人脸级尺度区域；人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。

本发明进一步将位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域也作为一种补丁区域，即人脸级补丁区域，用于后续的AU预测，这使得模型在进行AU检测时，能够在更大尺度上学习人脸的情绪特征，在这些信息的辅助下，进一步提高AU检测的精度。

进一步地，空间关联性满足预设条件是指：同一个关联级尺度区域中，两个AU级尺度区域的AU中心位置之间的距离小于预设阈值。

本发明通过设置空间关联性条件，使得划分得到的同一关联级尺度区域内的AU级尺度区域距离较近，避免了关联级尺度区域相互干扰而影响AU检测精度；并且，在划分得到的多种尺度的补丁区域同时包含关联级尺度区域和人脸级尺度区域时，能够避免关联级尺度区域大于人脸级尺度区域。

进一步地，初始神经网络模型的训练包括：

第一阶段：冻结自适应多尺度补丁学习模块的所有参数，利用由已标注人脸关键点位置标签的人脸图像所构成的第一数据集对初始神经网络模型进行训练，得到中间模型；

第二阶段：不冻结参数，利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的第二数据集对中间模型整体进行训练，得到面部AU检测模型。

本发明分两个阶段进行模型训练，在第一阶段，冻结自适应多尺度补丁学习模块的所有参数，只计算人脸对齐损失，这使得经过第一阶段的训练后，模型能够准确预测人脸关键点位置；在第二阶段，则在第一阶训练的基础上，进行完整的模型训练，使得自适应补丁提案在训练之初就尽可能准确，引导补丁学习中的不同分支专注于学习各自AU划分区域的局部特征，避免网络学习到不合理的特征；在第二阶段训练中，人脸关键点检测可以为提供精确的AU中心位置，激活的AU引起的表观变化将显著影响人脸关键点的位置分布，两个任务在训练过程中相互促进，可以有效提升训练所得模型的AU检测精度。

进一步地，在利用第一数据集对初始神经网络模型进行训练之前，还包括：对第一数据集进行数据增强操作；

并且，在利用第二数据集对中间模型整体进行训练之前，还包括：对第二数据集进行数据增强操作；

数据增强操作包括：通过旋转、缩放、平移中的一种或多种操作获得图像规模为D_in×D_in×3的第一RGB人脸图像；将第一RGB人脸图像随机裁剪为规模为D×D×3的第二RGB人脸图像并进行水平翻转；

其中，D_in和D均为正整数，且D_in>D。

本发明在进行模型训练之前，先对获取到的训练数据集进行数据增强，能够有效扩展数据集，进一步提高模型的训练效果。

进一步地，第一阶段的训练损失函数为：

第二阶段的训练损失函数为：

其中，L_align表示人脸关键点学习的L2损失，N_align表示预测的人脸关键点个数，x_n和y_n表示第n个人脸关键点的地面真值x坐标和y坐标，

和

表示对应的预测坐标，d表示归一化真值瞳距；L_au表示AU检测的加权多标签交叉熵损失，N_au表示预测的AU标签个数，p_n表示第n个AU实际出现的概率，

表示预测第n个AU出现的概率，

r_n表示第二数据集中第n个AU实际出现的概率；L_total表示第二阶段训练的总损失，λ_align表示权衡参数。

按照本发明的另一个方面，提供了一种面部动作单元检测方法，包括：

将待检测的人脸图像输入至由本发明提供的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型，从面部AU检测模型的输出中提取出现概率最大的AU标签，作为面对动作单元检测结果。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于自适应补丁学习的面部AU检测模型建立方法，和/或，本发明提供的面部动作单元检测方法。

总体而言，通过本发明所构思的以上技术方案，在模型中引入了AU检测和人脸对齐两个高度相关任务的联合学习框架，基于检测的人脸关键点进行局部区域划分，再在指定区域内进行AU检测，减弱头部姿态晃动影响，两个任务在训练过程中相互促进，可以有效提升AU检测精度；提出了自适应补丁提案方法，首先利用先验知识确定人脸关键点与AU中心的位置关系，然后使用预测的与AU中心有关的人脸关键点坐标依据自适应多尺度补丁提案自适应生成AU级、关联级、人脸级三个尺度的补丁区域，使网络可以同时学习图像的AU标签特征、AU之间的关联特征以及人脸情绪特征，进一步提高AU检测的精度。

附图说明

图1为本发明实施例提供的面部AU检测模型示意图；

图2为本发明实施例提供的AU中心位置与人脸关键点位置对应关系示意图；

图3为本发明实施例划分得到的多尺度补丁区域示意图；其中，(a)为AU级尺度区域，(b)为关联级尺度区域，(c)为人脸级尺度区域；

图4为本发明实施例提供的自适应多尺度补丁学习模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了解决现有的面部动作单元检测方法检测精度不高的技术问题，本发明提供了一种基于自适应补丁学习的面部AU检测模型建立方法及应用，其整体思路在于：引入了人脸对齐任务得到人脸关键点位置，然后依据这些关键点裁剪出与AU语义相关的补丁区域，通过联合学习人脸对齐和AU检测来提高AU检测的精度；在此基础上，提出了自适应多尺度补丁提案以得到包含AU空间相关性的关联级补丁区域和包含情绪特征的人脸级补丁区域，让模型学习不同尺度下AU的特征表达与空间关联，进一步提高AU检测的精度。

以下为实施例。

实施例1：

一种基于自适应补丁学习的面部AU检测模型建立方法，包括：建立初始神经网络模型并对其进行训练，得到面部AU检测模型。

参阅图1，本实施例所建立的初始神经网络模型包括：全局特征学习模块(GlobalFeature Learning,GFL)，人脸关键点位置学习模块(Facial Landmark LocationLearning,FLLL)，以及自适应多尺度补丁学习(Adaptive Multi-scale Patch Learning,AMPL)三个模块；其中：

全局特征学习模块，用于对包含人脸的输入图像进行特征提取，得到包含了全局人脸结构和上下文特征的全局人脸特征F_global；

人脸关键点位置学习模块，用于从全局人脸特征中学习得到人脸关键点位置

N_align表示预测的人脸关键点个数，

和

表示预测的第n个人脸关键点的x坐标和y坐标；

自适应多尺度补丁学习模块，包括：自适应补丁提案子模块，用于根据人脸关键点位置从全局人脸特征中划分出多种尺度的补丁区域；多尺度补丁学习子模块，用于对多种尺度的补丁区域进行补丁学习，得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征；

可选地，本实施例中，选取BP4D和DISFA构建用于训练模型的数据集，这两个数据集包括12个AU标签(AU 1,2,4,6,7,10,12,14,15,17,23,24)的注释和49个人脸关键点坐标，其中，部分人脸关键点位置及对应的序号如表1所示，选取标记方案参考BioID人脸数据库。本实施例在对模型进行训练之前，会先进行数据增强操作，具体包括：通过旋转、缩放、平移中的一种或多种操作获得图像规模(高度、宽度、通道数)为D_in×D_in×3的RGB人脸图像；然后将这些RGB人脸图像随机裁剪到D×D×3并进行水平翻转，以消除因图像旋转出现的零值影响，并防止网络陷入过拟合；本实施例中，D_in＝200，D＝160，相应地，模型的输入图像是规模(高度、宽度、通道数)为D×D×3的RGB人脸图像。

表1人脸关键点标记方案

人脸关键点序号	人脸关键点位置
		0	右眼瞳孔
1	左眼瞳孔
		2	右嘴角
3	左嘴角
		4	右眼眉毛外端
5	右眼眉毛内端
		6	左眼眉毛内端
7	左眼眉毛外端
		8	右太阳穴
9	右眼外角
		10	右眼内角
11	左眼内角
		12	左眼外角
13	左太阳穴
		14	鼻尖
15	右鼻孔
		16	左鼻孔
17	上唇外缘的中心点
		18	下唇外缘的中心点
19	下巴尖端

参阅图1，全局特征学习模块为人脸对齐任务和AU检测任务所共享，作为一种可选的实施方式，全局特征学习模块的网络结构具体由三个卷积核大小为3×3、步长为1的卷积层串联构成，每个卷积层对应的输出规模分别为D×D×C、D×D×2C、D×D×2C；可选地，本实施例中，C＝4。

作为一种可选的实施方式，本实施例中，人脸关键点位置学习模块的网络结构是由三个连续卷积层与最大池化层串联构成，每个池化层后对应的输出规模分别为D/2×D/2×6C、D/4×D/4×8C、D/8×D/8×10C，后跟两个全连接层，两个全连接层的维度分别为N_f和2N_align；可选地，本实施例中，N_f＝512，N_align＝49。

作为一种优选的实施方式，本实施例中，自适应补丁提案子模块所提取的多种尺度的补丁区域包括AU级尺度区域，即以AU中心位置为中心的正方形区域，其提取过程如下：

以人脸关键点位置学习模块预测的人脸关键点位置P_align作为基准，确定AU中心位置；AU中心位置描述可参考“Eac-net:Deep nets with enhancing and cropping forfacial action unit detection[J]”(Li W,Abtahi F,Zhu Z,et al.IEEE transactionson pattern analysis and machine intelligence,2018,40(11):2583-2596.)中的描述；具体地，可根据FACS的先验知识得到AU定义及对应的AU中心位置描述，如表2所示；表2中，尺度指代左眼内角与右眼内角之间的距离；基于表2，可以得到AU中心位置与人脸关键点位置的对应关系，如图2所示，因此，可使用预测的人脸关键点坐标P_align，依据AU中心位置描述确定AU中心位置P_au的坐标，完成AU中心位置与人脸关键点位置进行匹配。

表2AU定义及对应的中心位置描述

AU序号	AU描述	肌肉基础	AU中心位置
				1	眉毛内角提升	额肌(内侧肌)	左/右眼眉毛内端向上1/2尺度
2	眉毛外角提升	额肌(外侧肌)	左/右眼眉毛外端向上1/3尺度
				4	眉毛聚拢并下压	眉间降肌，降眉肌，皱眉肌	眉毛中心向下1/3尺度
6	脸颊提升	眼轮匝肌(眼眶部位)	眼睛底部向下1尺度
				7	眼睑收紧	眼轮匝肌(眼睑部位)	眼睛中心
10	上嘴唇提升	上唇方肌	上嘴唇中心
				12	嘴角拉升	颧大肌	左/右嘴角
14	酒窝	颊肌	左/右嘴角
				15	嘴角下拉	降口角肌	左/右嘴角
17	下巴提升	颏肌	嘴唇向下1尺度
				23	嘴唇收紧	口轮匝肌	嘴唇中心
24	嘴唇压紧	口轮匝肌	嘴唇中心

确定AU中心位置后，以AU中心位置P_au为中心生成规模为D_au×D_au的正方形区域，得到18个AU级尺度区域；为了避免因AU级尺度区域过小而无法包含完整的AU信息，或者因AU级尺度区域过大而导致一个AU级尺度区域包含了其他AU级尺度区域的信息，影响AU检测的准确率，优选地，本实施例中，D_au＝16；基于上述提案，本实施例所提取的AU级尺度区域如图3中的(a)所示。

考虑到AU往往以组合的方式被激活，为了促使网络学习AU之间的共生关系，本实施例中，在提取到AU级尺度区域的基础上，补丁区域还包括关联级尺度区域，即依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域；AU级尺度区域之间的关联性度量方式可参考“Classifier learning with prior probabilities for facialaction unit recognition[C]”(Zhang Y,Dong W,Hu B G,et al.Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:5108-5116.)和“Semantic relationships guided representation learning for facial action unitrecognition[C]”(2.Li G,Zhu X,Zeng Y,et al.Proceedings of the AAAI Conferenceon Artificial Intelligence.2019,33(01):8594-8601.)中的描述；

本实施例中，空间关联性满足预设条件是指：两个AU级尺度区域的AU中心位置之间的距离小于预设阈值，空间关联性条件的设置，使得划分得到的同一关联级尺度区域内的AU级尺度区域距离较近，避免了关联级尺度区域相互干扰而影响AU检测精度。基于上述提案，本实施例中，关联级尺度区域的划分规则描述如表3所示，由于区域重叠，忽略了AU14,AU15,AU24的关联；同时，为了避免关联级尺度区域大于人脸级尺度，在本实施例中，空间关联性预设阈值为4D_au。基于表3所示的划分规则，一种关联级尺度划分结果如图3中的(b)所示，此时共划分出了11个关联级尺度区域。

表3关联级尺度区域的划分规则描述

区域A	区域B
		AU1	AU2
AU4	AU7
		AU6	AU12
AU12	AU17
		AU12	AU23

为了让网络在更大的尺度上学习情绪特征，本实施例在提取到AU级尺度区域的基础上，补丁区域还包括人脸级尺度区域，即位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域；为了尽可能覆盖人脸情绪表达的主要区域，可参考“Deep structureinference network for facial action unit recognition[C]”(Corneanu C,Madadi M,EscaleraS.Proceedings of the European Conference on Computer Vision(ECCV).2018:298-313.)中的区域划分方法。基于上述提案，本实施例中，人脸级尺度区域的划分规则如表4所示，基于该规则，本实施例共得到6个人脸级尺度区域，如图3中的(c)所示。

表4人脸级尺度区域的划分规则描述

人脸区域描述	包含的AU区域
		左眼	AU1左，AU2左，AU4左，AU7左
右眼	AU1右，AU2右，AU4右，AU7右
		左脸颊	AU6左，AU7左，AU10左
右脸颊	AU6右，AU7右，AU10右
		鼻	AU7，AU10
嘴	AU10，AU12，AU14，AU15，AU17，AU23，AU24

参阅图4，与多尺度补丁区域相对应地，多尺度补丁学习子模块中包括三个分支，分别用于对AU级尺度区域、关联级尺度区域和人脸级尺度区域进行补丁学习，得到各自的特征图F_au、F_rel、F_face；

可选地，本实施例中，AU级尺度分支的网络结构由三个卷积层串联构成，输入特征的规模为D_au×D_au×2C，每个卷积层的输出特征规模均为D_au×D_au×18；关联级尺度分支的网络结构由三个卷积层串联构成，输入特征的规模为2D_au×2D_au×2C，每个卷积层对应的输出规模均为2D_au×2D_au×11；人脸级尺度分支的网络结构由三个卷积层串联构成，输入特征的规模为4D_au×4D_au×2C，每个卷积层对应的输出规模均为4D_au×4D_au×6。

由于关联级尺度区域得到的补丁规模大于输入特征的规模，并且不是标准的正方形，为了保证关联级尺度的补丁区域可以作为该分支网络的输入特征，本实施例中，使用Faster RCNN中提出的RoI Pooling方法将11个关联级补丁区域都分块池化为固定的2D_au×2D_au的大小，从而得到规模为2D_au×2D_au×2C的输入特征；同理，使用RoI Pooling将人脸级尺度的6个人脸级补丁区域都分块池化为固定的4D_au×4D_au的大小，从而得到规模为4D_au×4D_au×2C的输入特征。

参阅图4，各补丁区域的特征图级联为AU特征的具体方式是将特征图F_au上采样至与F_rel相同规模，特征图F_face下采样至与F_rel相同规模，级联所有特征图后，得到的AU特征的规模为2D_au×2D_au×35，后跟两个全连接层，两个全连接层的维度分别为N_f和2N_au，其中N_au＝12；第二个全连接层的输出，即为每个AU标签出现的概率P_r＝{p_n|n＝1,2,…,N_au}。

为了让自适应补丁提案在训练之初就尽可能准确，引导补丁学习中的不同分支专注于学习各自AU划分区域的局部特征，避免网络学习到不合理的特征，本实施例中，具体采用了两阶段训练的方式对上述模型进行训练，具体地：

第一阶段，冻结自适应多尺度补丁学习模块的所有参数，只计算人脸对齐损失，相应的损失函数采用L2损失：

和

表示对应的预测坐标，d表示归一化真值瞳距；经过第一阶段的训练，网络能够准确预测人脸关键点位置；

第二阶段：在第一阶段训练的基础上，进行完整训练，计算的损失函数同时包括人脸对齐损失，AU检测损失；AU检测损失采用加权的多标签交叉熵损失：

其中，L_au表示AU检测的加权多标签交叉熵损失，N_au表示预测的AU标签个数，p_n表示第n个AU实际出现的概率，

表示预测第n个AU出现的概率，1代表出现，0代表不出现；

r_n表示第二数据集中第n个AU实际出现的概率；AU实际出现的概率越小，对应的w_n值就越大，为该AU分配的损失权重也就越大，意味着引入w_n后网络会增加对AU标签出现频次低的关注，同时减少高频出现的AU标签的关注；因此，引入的w_n可以缓解因AU标签出现的频次差异而导致的数据不平衡问题；

第二阶段训练的总体损失为：

L_total＝L_au+λ_alignL_align；

其中，λ_align表示权衡参数，本实施例中，λ_align＝0.5。

训练结束后，得到用于根据输入的人脸图像进行AU检测的面部AU检测模型。本实施例引入了AU检测和人脸对齐两个高度相关任务的联合学习框架，在进行AU检测时，先基于预测的人脸关键点确定AU中心位置，再基于AU中心位置进行局部区域划分，然后在指定区域内进行AU检测，由于区域划分的结果是与输入图像的人脸关键点位置自适应的，因此，有效减弱了头部姿态变化对于AU检测结果的影响，并使模型在更大尺度上学习了AU之间的关联特征以及人脸情绪特征，提高了AU检测的精度。

实施例2：

一种面部动作单元检测方法，包括：

将待检测的人脸图像输入至由上述实施例1提供的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型，从面部AU检测模型的输出中提取出现概率最大的AU标签，作为面对动作单元检测结果。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于自适应补丁学习的面部AU检测模型建立方法，和/或，上述实施例2提供的面部动作单元检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，包括：建立初始神经网络模型并对其进行训练，得到所述面部AU检测模型；

所述初始神经网络模型包括：

人脸关键点位置学习模块，用于从所述全局人脸特征中学习得到人脸关键点位置；

自适应多尺度补丁学习模块，包括：自适应补丁提案子模块，用于根据所述人脸关键点位置从所述全局人脸特征中划分出多种尺度的补丁区域；多尺度补丁学习子模块，用于对所述多种尺度的补丁区域进行补丁学习，得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征；所述多种尺度的补丁区域包括AU级尺度区域；所述AU级尺度区域为以AU中心位置为中心的正方形区域；

以及，AU预测模块，用于根据所述AU特征预测各AU标签出现的概率。

2.如权利要求1所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，所述多种尺度的补丁区域还包括：关联级尺度区域；所述关联级尺度区域为依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域。

3.如权利要求2所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，所述多种尺度的补丁区域还包括：人脸级尺度区域；所述人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。

4.如权利要求2所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，空间关联性满足预设条件是指：同一个关联级尺度区域中，两个AU级尺度区域的AU中心位置之间的距离小于预设阈值。

5.如权利要求1所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，所述多种尺度的补丁区域还包括：人脸级尺度区域；所述人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。

6.如权利要求1～5任一项所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，所述初始神经网络模型的训练包括：

第一阶段：冻结所述自适应多尺度补丁学习模块的所有参数，利用由已标注人脸关键点位置标签的人脸图像所构成的第一数据集对所述初始神经网络模型进行训练，得到中间模型；

第二阶段：不冻结参数，利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的第二数据集对所述中间模型整体进行训练，得到所述面部AU检测模型。

7.如权利要求6所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，在利用所述第一数据集对所述初始神经网络模型进行训练之前，还包括：对所述第一数据集进行数据增强操作；

并且，在利用所述第二数据集对所述中间模型整体进行训练之前，还包括：对所述第二数据集进行数据增强操作；

所述数据增强操作包括：通过旋转、缩放、平移中的一种或多种操作获得图像规模为D_in×D_in×3的第一RGB人脸图像；将所述第一RGB人脸图像随机裁剪为规模为D×D×3的第二RGB人脸图像并进行水平翻转；

其中，D_in和D均为正整数，且D_in>D。

8.如权利要求6或7所述的基于自适应补丁学习的面部AU检测模型建立方法，其特征在于，所述第一阶段的训练损失函数为：

所述第二阶段的训练损失函数为：

和

表示预测第n个AU出现的概率，

r_n表示所述第二数据集中第n个AU实际出现的概率；L_total表示第二阶段训练的总损失，λ_align表示权衡参数。

9.一种面部动作单元检测方法，其特征在于，包括：

将待检测的人脸图像输入至由权利要求1～8任一项所述的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型，从所述面部AU检测模型的输出中提取出现概率最大的AU标签，作为面对动作单元检测结果。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1～8任一项所述的基于自适应补丁学习的面部AU检测模型建立方法，和/或，权利要求9所述的面部动作单元检测方法。