CN114758382A - 基于自适应补丁学习的面部au检测模型建立方法及应用 - Google Patents

基于自适应补丁学习的面部au检测模型建立方法及应用 Download PDF

Info

Publication number
CN114758382A
CN114758382A CN202210315936.8A CN202210315936A CN114758382A CN 114758382 A CN114758382 A CN 114758382A CN 202210315936 A CN202210315936 A CN 202210315936A CN 114758382 A CN114758382 A CN 114758382A
Authority
CN
China
Prior art keywords
face
patch
learning
scale
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210315936.8A
Other languages
English (en)
Other versions
CN114758382B (zh
Inventor
喻莉
杜聪炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210315936.8A priority Critical patent/CN114758382B/zh
Publication of CN114758382A publication Critical patent/CN114758382A/zh
Application granted granted Critical
Publication of CN114758382B publication Critical patent/CN114758382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于自适应补丁学习的面部AU检测模型建立方法及应用,属于计算机视觉技术领域,包括:建立初始神经网络模型并训练,得到面部AU检测模型;模型包括:全局特征学习模块,用于从人脸图像中提取全局人脸特征Fglobal;人脸关键点位置学习模块,用于从Fglobal中学习得到人脸关键点位置Palign;自适应多尺度补丁学习模块,包括:自适应补丁提案子模块,用于根据Palign从Fglobal中划分出多种尺度的补丁区域;多尺度补丁学习子模块,用于通过补丁学习得到各尺度补丁区域的特征后级联为AU特征;以及AU预测模块,用于根据AU特征预测各AU标签出现的概率;补丁区域包括AU级尺度区域、关联级尺度区域和人脸级尺度区域。本发明能够减少头部姿态影响,提高AU检测精度。

Description

基于自适应补丁学习的面部AU检测模型建立方法及应用
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于自适应补丁学习的面部AU检测模型建立方法及应用。
背景技术
面部动作单元(Action Unit,AU)是人脸动作编码系统(Facial Action CodingSystem,FACS)定义的局部面部区域中的基本面部运动,它描述了面部表情的细粒度变化。人脸运动单元检测是指确定给定的人脸图像中各类AU是否出现。AU检测是一项重要的人脸分析任务,通过计算机自动检测AU及其组合,有助于准确分析面部表情和理解个体情绪,应用于健康、娱乐、公共安全等各个领域。
AU本质是人脸局部区域的肌肉激活模式,每个AU标签对应了一些特定肌肉运动,不同的AU具有不同的结构和纹理信息,因此显式的局部特征学习有助于提升AU检测的精度。传统的局部区域划分方法将输入的卷积特征图均匀划分为若干个补丁区域,并对每个补丁区域采用不同的卷积核进行局部特征学习。这类方法无法在不同头部姿态下裁剪出语义对齐的补丁区域,使得AU检测的精度受到了一定的限制。
此外,AU往往以组合的方式被激活,如高兴表情一般包含了AU6和AU12的组合,因此AU之间具有时间相关性,这种相关信息可以辅助提高AU检测精度,为了利用AU之间的时间相关性,传统的AU关系建模方法多采用玻尔兹曼机或贝叶斯网络,但没有考虑AU的空间相关性,限制了相关方法的检测精度。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于自适应补丁学习的面部AU检测模型建立方法及应用,其目的在于,减少头部姿态影响,捕获不同尺度下的AU特征,提高AU检测精度。
为实现上述目的,按照本发明的一个方面,提供了一种基于自适应补丁学习的面部AU检测模型建立方法,包括:建立初始神经网络模型并对其进行训练,得到面部AU检测模型;
初始神经网络模型包括:
全局特征学习模块,用于对包含人脸的输入图像进行特征提取,得到包含了全局人脸结构和上下文特征的全局人脸特征;
人脸关键点位置学习模块,用于从全局人脸特征中学习得到人脸关键点位置;
自适应多尺度补丁学习模块,包括:自适应补丁提案子模块,用于根据人脸关键点位置从全局人脸特征中划分出多种尺度的补丁区域;多尺度补丁学习子模块,用于对多种尺度的补丁区域进行补丁学习,得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征;多种尺度的补丁区域包括AU级尺度区域;AU级尺度区域为以AU中心位置为中心的正方形区域;
以及,AU预测模块,用于根据AU特征预测各AU标签出现的概率。
本发明所建立的面部AU检测模型,引入了AU检测和人脸对齐两个高度相关任务的联合学习框架,在进行AU检测时,先基于预测的人脸关键点确定AU中心位置,再基于AU中心位置进行局部区域划分,然后在指定区域内进行AU检测,由于区域划分的结果是与输入图像的人脸关键点位置自适应的,因此,有效减弱了头部姿态变化对于AU检测结果的影响,提高了AU检测的精度。
在一些可选的实施例中,多种尺度的补丁区域还包括:关联级尺度区域;关联级尺度区域为依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域。
由于AU往往以组合的方式被激活,本发明将具有依赖性,且满足一定空间关系的两个AU级尺度区域组合到一起,并将这两个AU级尺度区域的最小外接矩形也作为一种补丁区域,即关联级尺度区域,用于后续的AU预测,这使得模型在进行AU检测时,能够在更大的尺度上学习AU之间的时间依赖性和空间依赖性,在这些信息的辅助下,进一步提高AU检测的精度。
在一些可选的实施例中,多种尺度的补丁区域还包括:人脸级尺度区域;人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。
本发明进一步将位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域也作为一种补丁区域,即人脸级补丁区域,用于后续的AU预测,这使得模型在进行AU检测时,能够在更大尺度上学习人脸的情绪特征,在这些信息的辅助下,进一步提高AU检测的精度。
进一步地,空间关联性满足预设条件是指:同一个关联级尺度区域中,两个AU级尺度区域的AU中心位置之间的距离小于预设阈值。
本发明通过设置空间关联性条件,使得划分得到的同一关联级尺度区域内的AU级尺度区域距离较近,避免了关联级尺度区域相互干扰而影响AU检测精度;并且,在划分得到的多种尺度的补丁区域同时包含关联级尺度区域和人脸级尺度区域时,能够避免关联级尺度区域大于人脸级尺度区域。
进一步地,初始神经网络模型的训练包括:
第一阶段:冻结自适应多尺度补丁学习模块的所有参数,利用由已标注人脸关键点位置标签的人脸图像所构成的第一数据集对初始神经网络模型进行训练,得到中间模型;
第二阶段:不冻结参数,利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的第二数据集对中间模型整体进行训练,得到面部AU检测模型。
本发明分两个阶段进行模型训练,在第一阶段,冻结自适应多尺度补丁学习模块的所有参数,只计算人脸对齐损失,这使得经过第一阶段的训练后,模型能够准确预测人脸关键点位置;在第二阶段,则在第一阶训练的基础上,进行完整的模型训练,使得自适应补丁提案在训练之初就尽可能准确,引导补丁学习中的不同分支专注于学习各自AU划分区域的局部特征,避免网络学习到不合理的特征;在第二阶段训练中,人脸关键点检测可以为提供精确的AU中心位置,激活的AU引起的表观变化将显著影响人脸关键点的位置分布,两个任务在训练过程中相互促进,可以有效提升训练所得模型的AU检测精度。
进一步地,在利用第一数据集对初始神经网络模型进行训练之前,还包括:对第一数据集进行数据增强操作;
并且,在利用第二数据集对中间模型整体进行训练之前,还包括:对第二数据集进行数据增强操作;
数据增强操作包括:通过旋转、缩放、平移中的一种或多种操作获得图像规模为Din×Din×3的第一RGB人脸图像;将第一RGB人脸图像随机裁剪为规模为D×D×3的第二RGB人脸图像并进行水平翻转;
其中,Din和D均为正整数,且Din>D。
本发明在进行模型训练之前,先对获取到的训练数据集进行数据增强,能够有效扩展数据集,进一步提高模型的训练效果。
进一步地,第一阶段的训练损失函数为:
Figure BDA0003569010660000041
第二阶段的训练损失函数为:
Figure BDA0003569010660000051
其中,Lalign表示人脸关键点学习的L2损失,Nalign表示预测的人脸关键点个数,xn和yn表示第n个人脸关键点的地面真值x坐标和y坐标,
Figure BDA0003569010660000052
Figure BDA0003569010660000053
表示对应的预测坐标,d表示归一化真值瞳距;Lau表示AU检测的加权多标签交叉熵损失,Nau表示预测的AU标签个数,pn表示第n个AU实际出现的概率,
Figure BDA0003569010660000054
表示预测第n个AU出现的概率,
Figure BDA0003569010660000055
rn表示第二数据集中第n个AU实际出现的概率;Ltotal表示第二阶段训练的总损失,λalign表示权衡参数。
按照本发明的另一个方面,提供了一种面部动作单元检测方法,包括:
将待检测的人脸图像输入至由本发明提供的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型,从面部AU检测模型的输出中提取出现概率最大的AU标签,作为面对动作单元检测结果。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的基于自适应补丁学习的面部AU检测模型建立方法,和/或,本发明提供的面部动作单元检测方法。
总体而言,通过本发明所构思的以上技术方案,在模型中引入了AU检测和人脸对齐两个高度相关任务的联合学习框架,基于检测的人脸关键点进行局部区域划分,再在指定区域内进行AU检测,减弱头部姿态晃动影响,两个任务在训练过程中相互促进,可以有效提升AU检测精度;提出了自适应补丁提案方法,首先利用先验知识确定人脸关键点与AU中心的位置关系,然后使用预测的与AU中心有关的人脸关键点坐标依据自适应多尺度补丁提案自适应生成AU级、关联级、人脸级三个尺度的补丁区域,使网络可以同时学习图像的AU标签特征、AU之间的关联特征以及人脸情绪特征,进一步提高AU检测的精度。
附图说明
图1为本发明实施例提供的面部AU检测模型示意图;
图2为本发明实施例提供的AU中心位置与人脸关键点位置对应关系示意图;
图3为本发明实施例划分得到的多尺度补丁区域示意图;其中,(a)为AU级尺度区域,(b)为关联级尺度区域,(c)为人脸级尺度区域;
图4为本发明实施例提供的自适应多尺度补丁学习模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了解决现有的面部动作单元检测方法检测精度不高的技术问题,本发明提供了一种基于自适应补丁学习的面部AU检测模型建立方法及应用,其整体思路在于:引入了人脸对齐任务得到人脸关键点位置,然后依据这些关键点裁剪出与AU语义相关的补丁区域,通过联合学习人脸对齐和AU检测来提高AU检测的精度;在此基础上,提出了自适应多尺度补丁提案以得到包含AU空间相关性的关联级补丁区域和包含情绪特征的人脸级补丁区域,让模型学习不同尺度下AU的特征表达与空间关联,进一步提高AU检测的精度。
以下为实施例。
实施例1:
一种基于自适应补丁学习的面部AU检测模型建立方法,包括:建立初始神经网络模型并对其进行训练,得到面部AU检测模型。
参阅图1,本实施例所建立的初始神经网络模型包括:全局特征学习模块(GlobalFeature Learning,GFL),人脸关键点位置学习模块(Facial Landmark LocationLearning,FLLL),以及自适应多尺度补丁学习(Adaptive Multi-scale Patch Learning,AMPL)三个模块;其中:
全局特征学习模块,用于对包含人脸的输入图像进行特征提取,得到包含了全局人脸结构和上下文特征的全局人脸特征Fglobal
人脸关键点位置学习模块,用于从全局人脸特征中学习得到人脸关键点位置
Figure BDA0003569010660000071
Nalign表示预测的人脸关键点个数,
Figure BDA0003569010660000072
Figure BDA0003569010660000073
表示预测的第n个人脸关键点的x坐标和y坐标;
自适应多尺度补丁学习模块,包括:自适应补丁提案子模块,用于根据人脸关键点位置从全局人脸特征中划分出多种尺度的补丁区域;多尺度补丁学习子模块,用于对多种尺度的补丁区域进行补丁学习,得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征;
以及,AU预测模块,用于根据AU特征预测各AU标签出现的概率。
可选地,本实施例中,选取BP4D和DISFA构建用于训练模型的数据集,这两个数据集包括12个AU标签(AU 1,2,4,6,7,10,12,14,15,17,23,24)的注释和49个人脸关键点坐标,其中,部分人脸关键点位置及对应的序号如表1所示,选取标记方案参考BioID人脸数据库。本实施例在对模型进行训练之前,会先进行数据增强操作,具体包括:通过旋转、缩放、平移中的一种或多种操作获得图像规模(高度、宽度、通道数)为Din×Din×3的RGB人脸图像;然后将这些RGB人脸图像随机裁剪到D×D×3并进行水平翻转,以消除因图像旋转出现的零值影响,并防止网络陷入过拟合;本实施例中,Din=200,D=160,相应地,模型的输入图像是规模(高度、宽度、通道数)为D×D×3的RGB人脸图像。
表1人脸关键点标记方案
人脸关键点序号 人脸关键点位置
0 右眼瞳孔
1 左眼瞳孔
2 右嘴角
3 左嘴角
4 右眼眉毛外端
5 右眼眉毛内端
6 左眼眉毛内端
7 左眼眉毛外端
8 右太阳穴
9 右眼外角
10 右眼内角
11 左眼内角
12 左眼外角
13 左太阳穴
14 鼻尖
15 右鼻孔
16 左鼻孔
17 上唇外缘的中心点
18 下唇外缘的中心点
19 下巴尖端
参阅图1,全局特征学习模块为人脸对齐任务和AU检测任务所共享,作为一种可选的实施方式,全局特征学习模块的网络结构具体由三个卷积核大小为3×3、步长为1的卷积层串联构成,每个卷积层对应的输出规模分别为D×D×C、D×D×2C、D×D×2C;可选地,本实施例中,C=4。
作为一种可选的实施方式,本实施例中,人脸关键点位置学习模块的网络结构是由三个连续卷积层与最大池化层串联构成,每个池化层后对应的输出规模分别为D/2×D/2×6C、D/4×D/4×8C、D/8×D/8×10C,后跟两个全连接层,两个全连接层的维度分别为Nf和2Nalign;可选地,本实施例中,Nf=512,Nalign=49。
作为一种优选的实施方式,本实施例中,自适应补丁提案子模块所提取的多种尺度的补丁区域包括AU级尺度区域,即以AU中心位置为中心的正方形区域,其提取过程如下:
以人脸关键点位置学习模块预测的人脸关键点位置Palign作为基准,确定AU中心位置;AU中心位置描述可参考“Eac-net:Deep nets with enhancing and cropping forfacial action unit detection[J]”(Li W,Abtahi F,Zhu Z,et al.IEEE transactionson pattern analysis and machine intelligence,2018,40(11):2583-2596.)中的描述;具体地,可根据FACS的先验知识得到AU定义及对应的AU中心位置描述,如表2所示;表2中,尺度指代左眼内角与右眼内角之间的距离;基于表2,可以得到AU中心位置与人脸关键点位置的对应关系,如图2所示,因此,可使用预测的人脸关键点坐标Palign,依据AU中心位置描述确定AU中心位置Pau的坐标,完成AU中心位置与人脸关键点位置进行匹配。
表2AU定义及对应的中心位置描述
AU序号 AU描述 肌肉基础 AU中心位置
1 眉毛内角提升 额肌(内侧肌) 左/右眼眉毛内端向上1/2尺度
2 眉毛外角提升 额肌(外侧肌) 左/右眼眉毛外端向上1/3尺度
4 眉毛聚拢并下压 眉间降肌,降眉肌,皱眉肌 眉毛中心向下1/3尺度
6 脸颊提升 眼轮匝肌(眼眶部位) 眼睛底部向下1尺度
7 眼睑收紧 眼轮匝肌(眼睑部位) 眼睛中心
10 上嘴唇提升 上唇方肌 上嘴唇中心
12 嘴角拉升 颧大肌 左/右嘴角
14 酒窝 颊肌 左/右嘴角
15 嘴角下拉 降口角肌 左/右嘴角
17 下巴提升 颏肌 嘴唇向下1尺度
23 嘴唇收紧 口轮匝肌 嘴唇中心
24 嘴唇压紧 口轮匝肌 嘴唇中心
确定AU中心位置后,以AU中心位置Pau为中心生成规模为Dau×Dau的正方形区域,得到18个AU级尺度区域;为了避免因AU级尺度区域过小而无法包含完整的AU信息,或者因AU级尺度区域过大而导致一个AU级尺度区域包含了其他AU级尺度区域的信息,影响AU检测的准确率,优选地,本实施例中,Dau=16;基于上述提案,本实施例所提取的AU级尺度区域如图3中的(a)所示。
考虑到AU往往以组合的方式被激活,为了促使网络学习AU之间的共生关系,本实施例中,在提取到AU级尺度区域的基础上,补丁区域还包括关联级尺度区域,即依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域;AU级尺度区域之间的关联性度量方式可参考“Classifier learning with prior probabilities for facialaction unit recognition[C]”(Zhang Y,Dong W,Hu B G,et al.Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:5108-5116.)和“Semantic relationships guided representation learning for facial action unitrecognition[C]”(2.Li G,Zhu X,Zeng Y,et al.Proceedings of the AAAI Conferenceon Artificial Intelligence.2019,33(01):8594-8601.)中的描述;
本实施例中,空间关联性满足预设条件是指:两个AU级尺度区域的AU中心位置之间的距离小于预设阈值,空间关联性条件的设置,使得划分得到的同一关联级尺度区域内的AU级尺度区域距离较近,避免了关联级尺度区域相互干扰而影响AU检测精度。基于上述提案,本实施例中,关联级尺度区域的划分规则描述如表3所示,由于区域重叠,忽略了AU14,AU15,AU24的关联;同时,为了避免关联级尺度区域大于人脸级尺度,在本实施例中,空间关联性预设阈值为4Dau。基于表3所示的划分规则,一种关联级尺度划分结果如图3中的(b)所示,此时共划分出了11个关联级尺度区域。
表3关联级尺度区域的划分规则描述
区域A 区域B
AU1 AU2
AU4 AU7
AU6 AU12
AU12 AU17
AU12 AU23
为了让网络在更大的尺度上学习情绪特征,本实施例在提取到AU级尺度区域的基础上,补丁区域还包括人脸级尺度区域,即位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域;为了尽可能覆盖人脸情绪表达的主要区域,可参考“Deep structureinference network for facial action unit recognition[C]”(Corneanu C,Madadi M,EscaleraS.Proceedings of the European Conference on Computer Vision(ECCV).2018:298-313.)中的区域划分方法。基于上述提案,本实施例中,人脸级尺度区域的划分规则如表4所示,基于该规则,本实施例共得到6个人脸级尺度区域,如图3中的(c)所示。
表4人脸级尺度区域的划分规则描述
人脸区域描述 包含的AU区域
左眼 AU1左,AU2左,AU4左,AU7左
右眼 AU1右,AU2右,AU4右,AU7右
左脸颊 AU6左,AU7左,AU10左
右脸颊 AU6右,AU7右,AU10右
AU7,AU10
AU10,AU12,AU14,AU15,AU17,AU23,AU24
参阅图4,与多尺度补丁区域相对应地,多尺度补丁学习子模块中包括三个分支,分别用于对AU级尺度区域、关联级尺度区域和人脸级尺度区域进行补丁学习,得到各自的特征图Fau、Frel、Fface
可选地,本实施例中,AU级尺度分支的网络结构由三个卷积层串联构成,输入特征的规模为Dau×Dau×2C,每个卷积层的输出特征规模均为Dau×Dau×18;关联级尺度分支的网络结构由三个卷积层串联构成,输入特征的规模为2Dau×2Dau×2C,每个卷积层对应的输出规模均为2Dau×2Dau×11;人脸级尺度分支的网络结构由三个卷积层串联构成,输入特征的规模为4Dau×4Dau×2C,每个卷积层对应的输出规模均为4Dau×4Dau×6。
由于关联级尺度区域得到的补丁规模大于输入特征的规模,并且不是标准的正方形,为了保证关联级尺度的补丁区域可以作为该分支网络的输入特征,本实施例中,使用Faster RCNN中提出的RoI Pooling方法将11个关联级补丁区域都分块池化为固定的2Dau×2Dau的大小,从而得到规模为2Dau×2Dau×2C的输入特征;同理,使用RoI Pooling将人脸级尺度的6个人脸级补丁区域都分块池化为固定的4Dau×4Dau的大小,从而得到规模为4Dau×4Dau×2C的输入特征。
参阅图4,各补丁区域的特征图级联为AU特征的具体方式是将特征图Fau上采样至与Frel相同规模,特征图Fface下采样至与Frel相同规模,级联所有特征图后,得到的AU特征的规模为2Dau×2Dau×35,后跟两个全连接层,两个全连接层的维度分别为Nf和2Nau,其中Nau=12;第二个全连接层的输出,即为每个AU标签出现的概率Pr={pn|n=1,2,…,Nau}。
为了让自适应补丁提案在训练之初就尽可能准确,引导补丁学习中的不同分支专注于学习各自AU划分区域的局部特征,避免网络学习到不合理的特征,本实施例中,具体采用了两阶段训练的方式对上述模型进行训练,具体地:
第一阶段,冻结自适应多尺度补丁学习模块的所有参数,只计算人脸对齐损失,相应的损失函数采用L2损失:
Figure BDA0003569010660000121
其中,Lalign表示人脸关键点学习的L2损失,Nalign表示预测的人脸关键点个数,xn和yn表示第n个人脸关键点的地面真值x坐标和y坐标,
Figure BDA0003569010660000122
Figure BDA0003569010660000123
表示对应的预测坐标,d表示归一化真值瞳距;经过第一阶段的训练,网络能够准确预测人脸关键点位置;
第二阶段:在第一阶段训练的基础上,进行完整训练,计算的损失函数同时包括人脸对齐损失,AU检测损失;AU检测损失采用加权的多标签交叉熵损失:
Figure BDA0003569010660000131
其中,Lau表示AU检测的加权多标签交叉熵损失,Nau表示预测的AU标签个数,pn表示第n个AU实际出现的概率,
Figure BDA0003569010660000132
表示预测第n个AU出现的概率,1代表出现,0代表不出现;
Figure BDA0003569010660000133
rn表示第二数据集中第n个AU实际出现的概率;AU实际出现的概率越小,对应的wn值就越大,为该AU分配的损失权重也就越大,意味着引入wn后网络会增加对AU标签出现频次低的关注,同时减少高频出现的AU标签的关注;因此,引入的wn可以缓解因AU标签出现的频次差异而导致的数据不平衡问题;
第二阶段训练的总体损失为:
Ltotal=LaualignLalign
其中,λalign表示权衡参数,本实施例中,λalign=0.5。
训练结束后,得到用于根据输入的人脸图像进行AU检测的面部AU检测模型。本实施例引入了AU检测和人脸对齐两个高度相关任务的联合学习框架,在进行AU检测时,先基于预测的人脸关键点确定AU中心位置,再基于AU中心位置进行局部区域划分,然后在指定区域内进行AU检测,由于区域划分的结果是与输入图像的人脸关键点位置自适应的,因此,有效减弱了头部姿态变化对于AU检测结果的影响,并使模型在更大尺度上学习了AU之间的关联特征以及人脸情绪特征,提高了AU检测的精度。
实施例2:
一种面部动作单元检测方法,包括:
将待检测的人脸图像输入至由上述实施例1提供的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型,从面部AU检测模型的输出中提取出现概率最大的AU标签,作为面对动作单元检测结果。
实施例3:
一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1提供的基于自适应补丁学习的面部AU检测模型建立方法,和/或,上述实施例2提供的面部动作单元检测方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,包括:建立初始神经网络模型并对其进行训练,得到所述面部AU检测模型;
所述初始神经网络模型包括:
全局特征学习模块,用于对包含人脸的输入图像进行特征提取,得到包含了全局人脸结构和上下文特征的全局人脸特征;
人脸关键点位置学习模块,用于从所述全局人脸特征中学习得到人脸关键点位置;
自适应多尺度补丁学习模块,包括:自适应补丁提案子模块,用于根据所述人脸关键点位置从所述全局人脸特征中划分出多种尺度的补丁区域;多尺度补丁学习子模块,用于对所述多种尺度的补丁区域进行补丁学习,得到各补丁区域的特征后将所得到的补丁区域特征级联为AU特征;所述多种尺度的补丁区域包括AU级尺度区域;所述AU级尺度区域为以AU中心位置为中心的正方形区域;
以及,AU预测模块,用于根据所述AU特征预测各AU标签出现的概率。
2.如权利要求1所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,所述多种尺度的补丁区域还包括:关联级尺度区域;所述关联级尺度区域为依赖性和空间关联性均满足预设条件的两个AU级尺度区域的最小外接矩形区域。
3.如权利要求2所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,所述多种尺度的补丁区域还包括:人脸级尺度区域;所述人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。
4.如权利要求2所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,空间关联性满足预设条件是指:同一个关联级尺度区域中,两个AU级尺度区域的AU中心位置之间的距离小于预设阈值。
5.如权利要求1所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,所述多种尺度的补丁区域还包括:人脸级尺度区域;所述人脸级尺度区域为位于同一人脸情绪表达区域内的AU级尺度区域的最小外接矩形区域。
6.如权利要求1~5任一项所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,所述初始神经网络模型的训练包括:
第一阶段:冻结所述自适应多尺度补丁学习模块的所有参数,利用由已标注人脸关键点位置标签的人脸图像所构成的第一数据集对所述初始神经网络模型进行训练,得到中间模型;
第二阶段:不冻结参数,利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的第二数据集对所述中间模型整体进行训练,得到所述面部AU检测模型。
7.如权利要求6所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,在利用所述第一数据集对所述初始神经网络模型进行训练之前,还包括:对所述第一数据集进行数据增强操作;
并且,在利用所述第二数据集对所述中间模型整体进行训练之前,还包括:对所述第二数据集进行数据增强操作;
所述数据增强操作包括:通过旋转、缩放、平移中的一种或多种操作获得图像规模为Din×Din×3的第一RGB人脸图像;将所述第一RGB人脸图像随机裁剪为规模为D×D×3的第二RGB人脸图像并进行水平翻转;
其中,Din和D均为正整数,且Din>D。
8.如权利要求6或7所述的基于自适应补丁学习的面部AU检测模型建立方法,其特征在于,所述第一阶段的训练损失函数为:
Figure FDA0003569010650000031
所述第二阶段的训练损失函数为:
Figure FDA0003569010650000032
其中,Lalign表示人脸关键点学习的L2损失,Nalign表示预测的人脸关键点个数,xn和yn表示第n个人脸关键点的地面真值x坐标和y坐标,
Figure FDA0003569010650000033
Figure FDA0003569010650000034
表示对应的预测坐标,d表示归一化真值瞳距;Lau表示AU检测的加权多标签交叉熵损失,Nau表示预测的AU标签个数,pn表示第n个AU实际出现的概率,
Figure FDA0003569010650000035
表示预测第n个AU出现的概率,
Figure FDA0003569010650000036
rn表示所述第二数据集中第n个AU实际出现的概率;Ltotal表示第二阶段训练的总损失,λalign表示权衡参数。
9.一种面部动作单元检测方法,其特征在于,包括:
将待检测的人脸图像输入至由权利要求1~8任一项所述的基于自适应补丁学习的面部AU检测模型建立方法所建立的面部AU检测模型,从所述面部AU检测模型的输出中提取出现概率最大的AU标签,作为面对动作单元检测结果。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~8任一项所述的基于自适应补丁学习的面部AU检测模型建立方法,和/或,权利要求9所述的面部动作单元检测方法。
CN202210315936.8A 2022-03-28 2022-03-28 基于自适应补丁学习的面部au检测模型建立方法及应用 Active CN114758382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210315936.8A CN114758382B (zh) 2022-03-28 2022-03-28 基于自适应补丁学习的面部au检测模型建立方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210315936.8A CN114758382B (zh) 2022-03-28 2022-03-28 基于自适应补丁学习的面部au检测模型建立方法及应用

Publications (2)

Publication Number Publication Date
CN114758382A true CN114758382A (zh) 2022-07-15
CN114758382B CN114758382B (zh) 2024-09-10

Family

ID=82327641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210315936.8A Active CN114758382B (zh) 2022-03-28 2022-03-28 基于自适应补丁学习的面部au检测模型建立方法及应用

Country Status (1)

Country Link
CN (1) CN114758382B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310755A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Capturing long-range correlations in patch models
US20170076474A1 (en) * 2014-02-23 2017-03-16 Northeastern University System for Beauty, Cosmetic, and Fashion Analysis
US20210056293A1 (en) * 2019-08-19 2021-02-25 Zhuhai Eeasy Technology Co., Ltd. Face detection method
CN113537173A (zh) * 2021-09-16 2021-10-22 中国人民解放军国防科技大学 一种基于面部补丁映射的人脸图像真伪识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310755A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Capturing long-range correlations in patch models
US20170076474A1 (en) * 2014-02-23 2017-03-16 Northeastern University System for Beauty, Cosmetic, and Fashion Analysis
US20210056293A1 (en) * 2019-08-19 2021-02-25 Zhuhai Eeasy Technology Co., Ltd. Face detection method
CN113537173A (zh) * 2021-09-16 2021-10-22 中国人民解放军国防科技大学 一种基于面部补丁映射的人脸图像真伪识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546878A (zh) * 2022-11-23 2022-12-30 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN115546878B (zh) * 2022-11-23 2023-02-03 华中科技大学 基于注意力机制的面部au检测模型建立方法及其应用
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法
CN116416667B (zh) * 2023-04-25 2023-10-24 天津大学 基于动态关联信息嵌入的面部动作单元检测方法

Also Published As

Publication number Publication date
CN114758382B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
Wadhawan et al. Deep learning-based sign language recognition system for static signs
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN107679526B (zh) 一种人脸微表情识别方法
Yang et al. Layered object models for image segmentation
CN108830237B (zh) 一种人脸表情的识别方法
CN107748858A (zh) 一种基于级联卷积神经网络的多姿态眼睛定位方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN114758382B (zh) 基于自适应补丁学习的面部au检测模型建立方法及应用
CN111353445A (zh) 一种基于深度学习的患者援助智能审核系统
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN113435335B (zh) 微观表情识别方法、装置、电子设备及存储介质
Kaluri et al. Sign gesture recognition using modified region growing algorithm and adaptive genetic fuzzy classifier
CN111783543B (zh) 一种基于多任务学习的面部活动单元检测方法
Chen et al. A multi-scale fusion convolutional neural network for face detection
Lu et al. Pose-guided model for driving behavior recognition using keypoint action learning
CN115205933A (zh) 面部表情识别方法、装置、设备及可读存储介质
Kwaghe et al. A deep learning approach for detecting face mask using an improved Yolo-V2 with Squeezenet
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
Srininvas et al. A framework to recognize the sign language system for deaf and dumb using mining techniques
CN112580527A (zh) 一种基于卷积长短期记忆网络的人脸表情识别方法
Wang et al. Optic disc detection based on fully convolutional neural network and structured matrix decomposition
Li et al. A novel art gesture recognition model based on two channel region-based convolution neural network for explainable human-computer interaction understanding
Anggoro et al. Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm
WO2023082196A1 (zh) 行人属性识别系统及其训练方法、行人属性识别方法
CN112597842B (zh) 基于人工智能的运动检测面瘫程度评估系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant