CN114708637A - 一种基于元学习的人脸动作单元检测方法 - Google Patents
一种基于元学习的人脸动作单元检测方法 Download PDFInfo
- Publication number
- CN114708637A CN114708637A CN202210340972.XA CN202210340972A CN114708637A CN 114708637 A CN114708637 A CN 114708637A CN 202210340972 A CN202210340972 A CN 202210340972A CN 114708637 A CN114708637 A CN 114708637A
- Authority
- CN
- China
- Prior art keywords
- meta
- learning
- task
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于元学习的人脸动作单元检测方法,包括如下步骤:1)数据集构建,采用任务集的方式采样数据。其中,每组任务集包含支持集数据和查询集数据,支持集数据将用做元训练,查询集数据将用作元测试;2)动作检测单元(AU)模型构建,使用基于区域关系学习的AU检测模型。其中区域特征使用人脸关键点landmarks提取AU中心,然后等比例映射到特征图提取AU区域特征;关系模型采用transformer,学习AU之间的关系参数;3)基于MAML的元学习训练策略构建,将元学习训练策略下的模型称为元学习器,首先初始化元学习器的模型结构参数,然后结合元学习数据集以及AU检测模型,采用基于梯度下降的元学习方法MAML对模型进行训练和测试。
Description
技术领域
本发明涉及面部表情识别领域,特别涉及一种基于元学习训练的人脸运动单元检测方法。
背景技术
面部表情能够揭示人的内心活动、精神状态以及向外传达的社交行为。随着人工智能的发展,以人为中心的面部表情识别已逐渐受到业界和学术界的普遍关注。面部表情动作单元(Facial Action Units,AUs)是面部表情的重要客观描述,人脸动作单元(AU)的检测也是自动识别情感表情和认知状态的基本步骤之一,AU的检测与识别对于理解和描述人脸表情有着重要的意义。基于此,面部的AU检测与分析已逐渐成为计算机视觉领域和情感计算领域的热门研究课题之一。
然而,AUs的手工标注是一项困难、耗时、繁琐的工作。此外,要对AUs进行客观一致的标注,需要对AUs有全面了解的人类专家,这是代价高昂的。因此,通过提出新的方法,解决AU检测数据集标注不足的问题,是目前需要解决的任务。
目前的AU检测模型主要有以下几种:
1.基于区域学习的模型,如Wei等人引入了增强和裁剪网络(EAC-Net),E-net通过注意力映射与C-net,增强了facial landmark特征的ROI。这些设计通过对检测到的landmarks周围的面部区域的裁剪,使用独立的CNNs提取更深层次的特征。
2.基于关系学习的模型,如AU-GCN模型,首先提取AU区域特征,再将特征视为图结点,引入GCN模型里,学习AU之间的关系。
3.基于注意力机制的模型,如Shao等人提出了JAA-Net,不再将人脸对齐作为一种预处理方式,而是将AU检测与人脸对齐,以及人脸对齐形成的注意力模块进行联合学习。
现有的AU检测模型通常使用含有大量AU标签的基准数据集训练,例如DISFA,BP4D,CK+和MMI。然而,当在新的AU或新的身份数据集上测试时,这些模型并没有表现出良好的泛化性能。
元学习是近两年提出的一种深度学习方法,与传统的监督学习不同,传统的监督学习需要大量的数据集作为输入,训练后得到一个模型,能用于预测相应的同一分布的数据。然而,元学习的目标是以任务作为输入,通过训练多种学习任务以获得一个具有多任务先验知识的元算法,该元算法可以只使用少量的新的训练样本就能解决新的学习任务,因此元学习能够很好的提高模型的泛化能力同时解决少样本学习任务。
由Chelsea Finn等人提出了一种用于深度网络快速适应的模型无关的元学习的方法,简称为MAML。该方法的基本思想是训练模型的初始参数,以便在通过一个或多个梯度步骤更新参数后,该模型对新任务具有最佳性能,而该梯度步骤是根据该新任务中的少量数据计算得出的。由于该方法主要基于梯度更新参数,因此不会对模型架构施加约束,同时还可以与各种损失函数相结合做反向传播,因此是一种模型无关的元学习方法,可以与不同的模型相结合,完成不同的深度学习任务。
根据以上调查与分析,拟使用基于梯度下降的元学习方法MAML,结合现有的AU检测的特点提出一种基于区域关系学习的AU检测模型,再配合现有的基准表情数据集(BP4D,DISFA),提出一种基于元学习的人脸运动单元检测研究方法。
发明内容
本发明的目的是为了克服现有技术中的不足,提出一种基于元学习的AU检测方法,能够解决以下问题:
1.不仅是针对于特定的身份数据集,而是能够适应不同的身份数据集,具有很强的泛化能力,解决现有AU检测模型泛化能力弱的问题;
2.对于少样本数据集,在只经过少量数据的几步梯度下降的快速训练后,能够快速适应新的AU检测任务,并达到很好的检测效果,以解决AU数据集标注困难的问题;
3.与现有的主流的AU检测方法相比,检测效果能达到最好。
本发明的目的是通过以下技术方案实现的:
一种基于元学习的人脸动作单元检测方法,包括如下步骤:
步骤1,采用任务集的方式采样数据构建元数据集;
其中,每组任务集包含支持集数据Ds和查询集数据Dq,支持集数据将用做元训练,查询集数据将用作元测试;
步骤2,结合AU检测的特性构建基于区域关系学习的AU检测模型;
步骤3,使用基于梯度下降的模型无关元学习方法MAML作为训练框架,以元数据集为输入,对AU检测模型进行训练和测试;其中:元学习训练策略下的AU检测模型称为元学习器。元学习训练包括如下步骤:
301,初始化元学习参数,将初始化参数记为Θ0,作为元学习内循环更新阶段的初始传入参数,即θ=Θ0;
302,内循环训练更新:
303,外循环训练更新:
将查询集数据Dq作为输入,在模型参数θ′上进行前向传播,计算前向传播的预测结果和训练标签之间的损失差异Lq;
将步骤302的内循环损失Ls与当前外循环损失Lq的加权和作为元学习器的优化目标,实现对元学习器初始化模型参数Θ0的优化更新,用数学式表示为:
其中:β是外循环梯度更新的学习率,wa与wb是损失权重;
304,将步骤303更新后的模型参数Θ0作为新的初始化参数组,重新进行任务批次采样,重复步骤301到303若干次,直至模型收敛,完成训练;
进一步,步骤1中所述元数据集的生成过程:
101、将数据集以任务集的方式分组,以不同个体在不同时段的一系列人脸表情组作为任务,每次输入按照任务集的方式进行采样,任务集又分为支持集Ds和查询集Dq,用数学式表示为:
102、训练时,采用任务批次采样的方式,即每个任务批次,采样K个任务集,每个任务集里采样(S+Q)个样本,其中S是训练集样本,Q是测试集样本。
进一步,步骤2中所述AU检测模型生成过程:
201、输入骨干网络VGG16,实现特征提取获得特征图;
202、采用人脸关键点landmarks以等比映射的方式在特征图上定位人脸AU中心,提取AU区域,AU区域经过卷积操作后获得AU特征;
203、采用transformer作为关系学习模块,首先对输入的AU特征做归一化处理,然后送入transformer进行关系学习,得到具有关系信息的AU特征;
204、通过分类器对AU特征进行分类,得到各个AU的预测概率。
有益效果
1.使用元学习的训练方式训练AU检测模型,将数据集按照身份分类,学习到的模型能适应不同的身份数据集。在遇到新的身份数据集时,只需要少量样本的快速训练,就能够快速适应,模型具有很强的泛化能力。
2.根据AU检测的特性设计的区域关系网络,适用于AU检测任务,模型能够学习到AU区域特征以及AU之间的依赖关系,检测性能好。
附图说明
图1为网络模型框架图,(a)为模型框架图,(b)为具体模块图;
图2为元学习训练总体框架图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
以人脸表情数据集BP4D数据集为例给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括元数据集构建,AU检测模型构建,以及MAML元学习框架构建这三个步骤。
具体步骤如下:
1.以原始数据集BP4D为基础,构建元数据集:
首先,对于BP4D数据集中的数据进行预处理。BP4D数据集包括了共41个不同身份在实验室环境下,每个身份有8个时段,每个时段包括了从中性表情下到其它表情的变化的一系列二维人脸图像,同时数据集中包括了部分人脸图像中运动单元的状态标签,实验中使用到的运动单元有12个,分别是AU1,AU2,AU4,AU7,AU10,AU12,AU14,AU15,AU17,AU23,AU24。然后将每一个图像的大小利用线性插值算法调整到224*224大小。
将数据集以任务集的方式分组,以不同个体在不同时段的一系列人脸表情组作为任务,BP4D数据集可以分为41*8=328个任务。每次输入按照任务集的方式进行采样,任务集又分为支持集Ds和查询集Dq,用数学式表示为其中和分别表示某一个任务集的支持集和任务集,M是任务总数。
训练时,采用任务批次采样的方式,即每个任务批次,采样K个身份集,每个身份集里随机采样(S+Q)个样本,其中S是训练集样本,Q是测试集样本。即每个任务批次可以表示为其中有K*S个数据样本,有K*Q个数据样本。数据采样时,令K=5,S=5,Q=15。
2.结合AU检测的特性,构建一个基于区域关系学习的AU检测模型:
具体实施步骤如下:
步骤1,特征提取。输入224*224*3的RGB人脸图像到骨干网络VGG16做特征提取,得到512*14*14的特征图;
步骤2,AU区域特征学习。由于AU检测的区域性,即AU只存在于人脸特定的区域,不同人脸的AU分布位置是相似的,因此只需提取人脸特定位置的AU区域特征学习。使用landmarks定位原图的AU中心点,然后等比映射到相应的特征图,定位特征图上的AU中心点,总共定位18个AU中心点,每个AU中心点取3*3的矩形区域作为AU区域,每个AU区域在做上采样到6*6,然后经过两层kernel=3,padding=1,stride=1的卷积层,得到512*6*6的AU区域特征。由于AU的对称性,将对称的AU区域相加合并为一个AU特征,由于某些AU区域可能共存几个AU,如AU12,AU14,AU15共存于一个AU区域,因此需要将该区域分离为单独的AU区域,通过相加分离等操作,最后留下12个AU区域,即为最终的AU区域特征。每个AU区域特征通过平均池化操作得到512*1*1,再通过展平全连接操作得到150维的AU区域特征,此时共有12个150维的AU区域特征。
步骤3,AU关系学习。AU并不是单独存在的,而是具有共生或互斥的关系,因此加入关系学习模块,去学习AU关系特征是必要的。将步骤2的12个AU区域特征作为输入,送入transformer中学习AU之间的关系参数,再做MLP,得到512维的AU关系特征。
步骤4,AU分类器。步骤3得到的AU特征送入AU分类器,经过两层全连接层后,得到12维的向量,即为预测结果。
3.MAML元学习框架构建:
利用步骤1的元数据集,步骤2的AU检测模型,基于MAML构建元学习训练框架,
其中,步骤2的AU检测模型在训练框架里称为元学习器。框架的训练流程如下:
步骤1,初始化元学习器参数,将初始化参数记为Θ0,作为元学习内循环更新阶段的初始传入参数,即θ=Θ0;
步骤2,内循环训练更新,导入任务批次数据,每个任务批次可以表示为:
将支持集数据Ds输入元学习器中,在当前模型参数θ上进行前向传播,计算前向传播的预测结果与训练标签之间的损失Ls,求解当前损失Ls相对模型参数θ的梯度,根据求得的梯度值更新模型参数θ;
步骤3,外循环训练更新,将查询集数据Dq作为输入,在模型参数θ上进行前向传播,计算前向传播的预测结果和训练标签之间的损失差异Lq,将步骤2的内循环损失Ls与当前外循环损失Lq的加权和作为元学习器的优化目标,实现对元学习器初始化模型参数Θ0的优化更新。
步骤4,将步骤3更新后的模型参数Θ0作为新的初始化参数组,重新进行任务批次采样,重复步骤1到3若干次,直至模型收敛,完成训练。
步骤5,对测试任务进行结果与测试时,将测试集分为适应集与查询集,即testbatch={Da,Dq},使用Da做输入,重复步骤1到步骤2,目的是使模型能够经过几步梯度下降后快速适应新的任务,然后直接利用步骤2输出的模型参数测试Dq,做前向传播得到测试结果,完成结果预测。
整个实验在BP4D数据集中以task batch的方式训练,batch-size是4,内层循环学习率是0.1,外层循环学习率是0.001,采用Adam优化器训练。每个轮次采样100个taskbatch训练,共训练100个轮次,直至模型完成收敛后测试。
以F1-score为度量标准,基于元学习的AU检测结果与现有的AU检测模型结果对比如下表所示:
由结果可知,本发明结果在大部分AU上都达到最优,具体包括AU6,AU7,AU10,AU12,AU14,AU23,并且平均结果也达到最好,相比之前最好的模型有提升了1.3个百分点,证明我们的基于元学习的AU检测模型泛化能力更强。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (4)
1.一种基于元学习的人脸动作单元检测方法,包括如下步骤:
步骤1,采用任务集的方式采样数据,构建元数据集;
其中,每组任务集包含支持集数据Ds和查询集数据Dq,支持集数据将用做元训练,查询集数据将用作元测试;
步骤2,结合AU检测的特性构建基于区域关系学习的AU检测模型;
步骤3,使用基于梯度下降的模型无关元学习方法MAML作为训练框架,以元数据集为输入,对AU检测模型进行训练和测试;其中:元学习训练策略下的AU检测模型称为元学习器。元学习训练包括如下步骤:
301,初始化元学习参数,将初始化参数记为Θ0,作为元学习内循环更新阶段的初始传入参数,即θ=Θ0;
302,内循环训练更新:
303,外循环训练更新:
将查询集数据Dq作为输入,在模型参数θ′上进行前向传播,计算前向传播的预测结果和训练标签之间的损失差异Lq;
将步骤302的内循环损失Ls与当前外循环损失Lq的加权和作为元学习器的优化目标,实现对元学习器初始化模型参数Θ0的优化更新,用数学式表示为:
其中:β是外循环梯度更新的学习率,wa与wb是损失权重;
304,将步骤303更新后的模型参数Θ0作为新的初始化参数组,重新进行任务批次采样,重复步骤301到303若干次,直至模型收敛,完成训练。
3.如权利要求1所述的一种基于元学习的人脸动作单元检测方法,其特征在于,步骤2中所述AU检测模型生成过程:
201、输入骨干网络VGG16,实现特征提取获得特征图;
202、采用人脸关键点landmarks以等比映射的方式在特征图上定位人脸AU中心,提取AU区域,AU区域经过卷积操作后获得AU特征;
203、采用transformer作为关系学习模块,首先对输入的AU特征做归一化处理,然后送入transformer进行关系学习,得到具有关系信息的AU特征;
204、通过分类器对AU特征进行分类,得到各个AU的预测概率。
4.如权利要求1所述的一种基于元学习的人脸动作单元检测方法,其特征在于,步骤2和步骤3中损失函数计算方式具体实现如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210340972.XA CN114708637A (zh) | 2022-04-02 | 2022-04-02 | 一种基于元学习的人脸动作单元检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210340972.XA CN114708637A (zh) | 2022-04-02 | 2022-04-02 | 一种基于元学习的人脸动作单元检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708637A true CN114708637A (zh) | 2022-07-05 |
Family
ID=82173334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210340972.XA Pending CN114708637A (zh) | 2022-04-02 | 2022-04-02 | 一种基于元学习的人脸动作单元检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708637A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257455A (zh) * | 2023-05-10 | 2023-06-13 | 长江三峡集团实业发展(北京)有限公司 | 一种模糊测试用例的生成方法、装置、设备及存储介质 |
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
-
2022
- 2022-04-02 CN CN202210340972.XA patent/CN114708637A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116257455A (zh) * | 2023-05-10 | 2023-06-13 | 长江三峡集团实业发展(北京)有限公司 | 一种模糊测试用例的生成方法、装置、设备及存储介质 |
CN117274732A (zh) * | 2023-09-18 | 2023-12-22 | 广东石油化工学院 | 一种基于情景记忆驱动构建优化扩散模型的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | A hierarchical image matting model for blood vessel segmentation in fundus images | |
Ali et al. | Boosted NNE collections for multicultural facial expression recognition | |
CN111783831B (zh) | 基于多源多标签共享子空间学习的复杂图像精确分类方法 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN111339818B (zh) | 一种人脸多属性识别系统 | |
CN110189305B (zh) | 一种多任务舌象自动分析方法 | |
CN114708637A (zh) | 一种基于元学习的人脸动作单元检测方法 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
CN111090764A (zh) | 基于多任务学习和图卷积神经网络的影像分类方法及装置 | |
Jiang et al. | A CNN model for semantic person part segmentation with capacity optimization | |
CN111968124B (zh) | 基于半监督语义分割的肩部肌骨超声结构分割方法 | |
Zhang et al. | Joint discriminative representation learning for end-to-end person search | |
Yu et al. | Exemplar-based recursive instance segmentation with application to plant image analysis | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
Dhawan et al. | Deep Learning Based Sugarcane Downy Mildew Disease Detection Using CNN-LSTM Ensemble Model for Severity Level Classification | |
Soleimani et al. | Generic semi-supervised adversarial subject translation for sensor-based activity recognition | |
Zhao et al. | Single-branch self-supervised learning with hybrid tasks | |
Yang et al. | GGAC: Multi-relational image gated GCN with attention convolutional binary neural tree for identifying disease with chest X-rays | |
Geng et al. | Hatching egg classification based on CNN with channel weighting and joint supervision | |
Dhanalakshmi et al. | Tomato leaf disease identification by modified inception based sequential convolution neural networks | |
Zou et al. | Fuzzy broad learning system based on accelerating amount | |
Langenkämper et al. | COATL-a learning architecture for online real-time detection and classification assistance for environmental data | |
Biswas et al. | Large scale image clustering with active pairwise constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |