CN115546878A - 基于注意力机制的面部au检测模型建立方法及其应用 - Google Patents

基于注意力机制的面部au检测模型建立方法及其应用 Download PDF

Info

Publication number
CN115546878A
CN115546878A CN202211471437.4A CN202211471437A CN115546878A CN 115546878 A CN115546878 A CN 115546878A CN 202211471437 A CN202211471437 A CN 202211471437A CN 115546878 A CN115546878 A CN 115546878A
Authority
CN
China
Prior art keywords
attention
scale
face
global
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211471437.4A
Other languages
English (en)
Other versions
CN115546878B (zh
Inventor
喻莉
尚子桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211471437.4A priority Critical patent/CN115546878B/zh
Publication of CN115546878A publication Critical patent/CN115546878A/zh
Application granted granted Critical
Publication of CN115546878B publication Critical patent/CN115546878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于注意力机制的面部AU检测模型建立方法及其应用,属于计算机视觉技术领域,包括:建立面部AU检测模型并训练;模型包括:多尺度特征提取网络,用于从人脸图像中提取全局人脸特征图;多尺度注意力图生成网络,用于生成AU特征;以及AU检测网络,用于根据AU特征预测各AU出现的概率;多尺度注意力图生成网络中,三个分支分别用于生成局部AU尺度、时间关联尺度和人脸ROI尺度的注意力图并作用于全局人脸特征图,得到对应特征图后进行特征提取并融合,最后一个分支对全局尺度人脸特征图进行特征提取,特征级联模块用于将各分支生成的特征图按通道级联为AU特征。本发明能够准确利用AU间的相关性,提高AU检测精度。

Description

基于注意力机制的面部AU检测模型建立方法及其应用
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及基于注意力机制的面部AU检测模型建立方法及其应用。
背景技术
面部动作编码系统(Facial Action Coding System, FACS)定义了44个面部动作单元(Action Unit, AU),以模拟面部肌肉运动与面部表情之间的相关性。AU检测是指确定给定的人脸图像中各类AU是否出现,是一项重要的人脸分析任务。最近,AU检测是分析人面部行为的重要技术,例如人类计算机的相互作用,情绪分析和汽车驾驶监测。
近年来,深度学习的方法已经用于AU检测方法中并取得了巨大成功,但是将未经预处理的整张人脸图像作为输入的方法效果并不好。因此,大多数方法都利用人脸关键点对脸部进行对齐,以便于对面部形状和表情外观特征的提取。另外,多尺度特征提取也常用作AU检测网络的特征提取手段,但是大多数网络多尺度划分方式单一,并没有注意到重点的AU信息。由于人脸关键点还可以提供精确的AU位置,许多研究更关注于从以相关关键点为中心的ROI(region of interest,感兴趣区域)中提取AU相关特征。除了以固定的大小预定义每个AU或区域的ROI外,也有部分方法采用了注意力机制,对AU所在区域附近特征添加权重以提取重要信息。但是,以上方法不能适应各种形状不规则,变换不规则的AU,而且也没有利用AU之间的相关信息。
目前利用AU之间关系提升模型效果的方法有很多,在申请公布号为CN114758382A的专利文件中,公开了一种基于自适应补丁学习的面部AU检测模型建立方法及应用,其所建立的面部AU检测模型中,提出了自适应补丁提案方法,首先利用先验知识确定人脸关键点与AU中心的位置关系,然后使用预测的与AU中心有关的人脸关键点坐标依据自适应多尺度补丁提案自适应生成AU级、关联级、人脸级三个尺度的补丁区域,使网络可以同时学习图像的AU标签特征、AU之间的关联特征以及人脸情绪特征,提高面部AU检测模型的预测精度,进而提高面部AU检测的精度。
上述专利文件所建立的面部AU检测模型通过生成AU级、关联级、人脸级三个尺度的补丁区域,能够有效利用AU之间的相关信息,但是,其预测精度仍有待进一步提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于注意力机制的面部AU检测模型建立方法及其应用,其目的在于,准确地利用AU之间的相关性,提高面部AU检测模型的预测精度,从而提高面部AU检测的精度。
为实现上述目的,按照本发明的一个方面,提供了一种基于注意力机制的面部AU检测模型建立方法,包括:建立端到端的初始神经网络模型并对其进行训练,得到面部AU检测模型;训练数据由已标注AU标签和人脸关键点标签的人脸图像构成;
初始神经网络模型包括:
多尺度特征提取网络,用于从包含人脸的输入图像中提取全局人脸特征图;全局人脸特征图包含全局人脸结构和上下文特征;
多尺度注意力图生成网络,包括:局部AU分支,时间关联尺度分支、全局分支以及特征级联模块;局部AU分支,用于获得全局人脸特征图中每一个像素对于每一个AU的注意力权重,并融合到全局人脸特征图中,得到局部AU尺度特征图;时间关联尺度分支,用于检测共同出现或共同不出现的频率最高的部分AU对,作为关联AU对,并获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,融合到全局人脸特征图中,得到时间关联尺度局部特征图;全局分支,用于对全局人脸特征图进行特征学习,得到全局尺度特征图;特征级联模块,用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联,得到AU特征;
以及AU检测网络,用于根据AU特征预测各AU出现的概率。
本发明所提供的以上技术方案,对面部AU检测模型进行改进,建立了一个由多尺度特征提取网络、多尺度注意力图生成网络以及AU检测网络依次连接构成的端到端的面部AU检测模型,其中的多尺度注意力图生成网络包含多个分支,多个分支基于注意力机制,生成多个不同尺度的注意力图后,分别作用于全局人脸特征图,可以生成多个不同尺度的局部特征图,实现了局部注意力机制;本发明基于局部注意力机制所生成的多尺度局部特征图具体包括局部AU尺度特征图、时间关联尺度局部特征图和全局尺度特征图,最终由这些局部特征图共同构成AU特征,完成面部AU检测;一方面,本发明所构建的面部AU检测模型中,多尺度注意力图生成网络所输出的AU特征,能够充分考虑每一个像素对于AU检测结果的重要性,并避免遗漏AU区域附近的重要信息,从而提高面部AU检测模型的预测精度,另一方面,本发明在模型中引入时间关联尺度分支,可由多尺度注意力图生成网络根据两个AU共同出现或共同不出现的频率识别其中的关联AU对,并获取相应尺度的局部特征图从而能够准确地考虑AU在时间上的关联性,进一步提高面部AU检测模型的预测精度。总体而言,本发明所建立的面部AU检测模型具有较高的检测精度,有利于提高面部AU检测的精度。
进一步地,检测共同出现或共同不出现的频率最高的部分AU对,作为关联AU对,包括:
建立AU之间的相关矩阵A,其中第i行第j列的元素Aij表示第i个AU与第j个AU之间的关系系数;
按照Ri,j=Aij+Aji计算第i个AU与第j个AU之间的时间关联系数Ri,j,i≠j;按照时间关联系数从大到小的顺序对AU对排序,并遍历排序后的AU对,若所遍历到的AU对中的两个AU均未与其他AU构成关联AU对,则将当前所遍历到的AU对作为关联AU对;
第i个AU与第j个AU之间的关系系数Aij的计算式为:
Figure 664780DEST_PATH_IMAGE001
其中,ai=1表示第i个AU出现,ai=0表示第i个AU不出现;aj=1表示第j个AU出现,aj= 0表示第j个AU不出现;
Figure 804774DEST_PATH_IMAGE002
表示第j个AU出现时,第i个AU出现的概率;
Figure 509425DEST_PATH_IMAGE003
表示第j个AU不出现时,第i个AU不出现的概率。
本发明所建立的面部AU检测模型中,时间关联尺度分支基于上述计算方式,能够根据两个AU共同出现或共同不出现的频率准确计算两个AU之间的时间关联系数以反映二者在时间上的关联性,并且在按照时间关联系数由大到小的顺序确定关联AU对时,限定每个AU只能出现一次,由此能够避免因一个AU同时和多个AU有高关联性且被多次选择,而导致特征预测结果在不同AU对中不相同,并避免造成AU数量权重之间的不平衡,保证了所识别的关联AU对在时间上具有关联性且用于AU检测时不会影响检测结果。
进一步地,获得全局人脸特征图中每一个像素对于每一个AU的注意力权重,包括:
根据全局人脸特征图的人脸关键点坐标预定义各AU的中心位置;
按照如下公式计算第k个像素对于第i个AU的注意力权重v ik
Figure 254527DEST_PATH_IMAGE004
其中,d ik 表示第k个像素相对于第i个AU中心的曼哈顿距离,lmap表示预先定义的区域边长;N au 表示AU总数。
本发明所建立的面部AU检测模型中,局部AU分支首先基于预测的人脸关键点确定AU中心位置,再基于AU中心位置与像素间的距离进行局部注意力图的生成,能够准确计算每一个像素对于AU检测结果的注意力权重。
进一步地,获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,包括:
对于第p个关联AU对,分别获得第k个像素相对于第p个关联AU对中的两个AU的的注意力权重,将其中的最大值作为第k个像素相对于第p个关联AU对的注意力权重v pk
其中,p=1, 2…, N tem N tem 表示关联AU对总数。
进一步地,多尺度注意力图生成网络还包括:
人脸ROI尺度分支,用于检测位于同一个感兴趣区域的AU,并获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,融合到全局注意力图中,得到人脸ROI尺度注意力图;
获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,包括:
对于第q个感兴趣区域,分别获得第k个像素相对于第q个感兴趣区域中的每一个AU的注意力权重,将其中的最大值作为第k个像素相对于第q个感兴趣区域的注意力权重v qk
其中,q=1, 2…, N roi N roi 表示感兴趣区域总数。
本发明在多尺度注意力图生成网络中还引入了人脸ROI尺度分支,进一步将感兴趣区域内的AU生成的注意图用于后续的AU预测,使得模型在进行AU检测时,能够基于AU之前的空间关联性,在更大尺度上学习面部特征,在这些信息的辅助下,进一步提高面部AU检测模型的预测精度。
进一步地,局部AU分支包括:
局部AU尺度注意力图生成模块,用于识别N au 个AU,并生成与N au 个AU一一对应的N au 个局部AU尺度注意力图后,分别作用于全局人脸特征图,得到N au 个第一局部特征图;每个局部AU尺度注意力图由全局人脸特征图中每一个像素对于AU的注意力权重构成;
第一编码器,用于对N au 个第一局部特征图进行特征提取;
第一投影模块,用于将第一编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到局部AU尺度特征图;
时间关联尺度分支包括:
时间关联尺度注意力图生成模块,用于识别N tem 个关联AU对,并生成与N tem 个关联AU对一一对应的N tem 个时间关联尺度注意力图后,分别作用于全局人脸特征图,得到N tem 个第二局部特征图;每个时间关联尺度注意力图由全局人脸特征图中每一个像素对于关联AU对的注意力权重构成;
第二编码器,用于对N tem 个第二局部特征图进行特征提取;
第二投影模块,用于将第二编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到时间关联尺度局部特征图;
人脸ROI尺度分支包括:
人脸ROI尺度注意力图生成模块,用于识别位于同一个感兴趣区域的AU,并生成与N roi 个感兴趣区域一一对应的N roi 个人脸ROI尺度注意力图后,分别作用于全局人脸特征图,得到N roi 个第三局部特征图;每个人脸ROI尺度注意力图由全局人脸特征图中每一个像素对于感兴趣区域的注意力权重构成;
第三编码器,用于对N roi 个第三局部特征图进行特征提取;
第三投影仪,用于将第三编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到人脸ROI尺度局部特征图;
全局分支包括:
第四编码器,用于对全局人脸特征图进行特征提取,得到全局尺度注意力图;
其中,局部AU尺度特征图、时间关联尺度局部特征图、人脸ROI尺度局部特征图和全局尺度特征图大小相等。
本发明所建立的面部AU检测模型中,多尺度注意力图生成网络的局部AU分支、时间关联尺度分支和人脸ROI尺度分支中,在生成相应的注意力图后,会由编码器进行进一步的特征提取,并由投影模块(projector)以较低的成本实现不同尺度之间的特征对齐,并实现特征的像素级放大,不仅起到了降维和特征融合的作用,还解决了不同尺度特征之间维度不匹配的问题。
进一步地,多尺度注意力图生成网络的各分支中的编码器,在进行特征提取时,结合了通道注意力机制和空间注意力机制。
本发明所建立的面部AU检测模型中,多尺度注意力图生成网络的各分支中的编码器在进行特征提取时,结合了通道注意力机制和空间注意力机制,在局部注意力机制的基础上,实现了混合注意力机制。其中:局部注意力机制可以对AU所在区域附近特征添加权重以提取重要信息;通道注意力机制既可以得到每个通道对于每个AU特征提取的重要性权重,又可以起到对不同维度通道之间的筛选作用,学习了每个尺度对于检测结果的重要性信息;空间注意力可以学习特征图中每个像素的重要性。
进一步地,对初始神经网络模型进行训练,得到面部AU检测模型,包括:
第一阶段:利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的训练数据集对所述初始神经网络模型进行端到端训练;
第二阶段:改变部分超参数后,利用训练数据集对经过第一阶段训练之后的初始神经网络模型进行端到端训练,以对模型进行微调,得到面部AU检测模型。
本发明采用两阶段的训练方式对模型进行训练,第一阶段通过完整的端到端的训练,可以得到检测精度较高的面部AU检测模型;第二阶段在第一阶段的基础上,通过改变超参数的方式对模型进行微调,可以避免初始时刻因超参数设置不准确而影响模型的检测精度。
进一步地,训练损失函数为:
Figure 753642DEST_PATH_IMAGE005
其中,L表示总体损失;L au 表示AU检测结果损失;L mid 表示第一编码器、第二编码器、 第三编码器及第四编码器所提取特征的损失;L con 表示像素级对比损失,
Figure 397244DEST_PATH_IMAGE006
Figure 640006DEST_PATH_IMAGE007
Figure 239615DEST_PATH_IMAGE008
分别表示局部AU尺度特征图、时间关联尺度局部特征图和人脸ROI尺度局部特征图,hw分 别表示这些注意力图的高和宽,m表示预设的距离,
Figure 909631DEST_PATH_IMAGE009
表示二范数;λ mid λ con 表示权衡参 数。
本发明所设计的损失函数,在AU检测结果损失L au 的基础之上,进一步考虑了AU检测中间监督损失L mid 和像素级对比损失L con ,AU检测中间监督损失即为第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失;其中,AU检测中间监督损失L mid 可以保证多尺度注意力图生成网络中,各分支可准确提取到对应的注意力图;像素级对比损失L con 则在投影模块的基础上,可以使不同分支所获取到的不同尺度的特征之间具有一定的距离,实现不同尺度特征之间的多视角化。
进一步地,AU检测结果损失L au 为:
Figure 24217DEST_PATH_IMAGE010
其中,y i 表示第i个AU标签,
Figure 54359DEST_PATH_IMAGE011
表示第i个AU的预测结果,ε为损失函数的平滑系 数;
Figure 836370DEST_PATH_IMAGE012
r n 表示训练数据集中第n个AU出现的概率。
进一步地,第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失L mid 为:
Figure 677287DEST_PATH_IMAGE013
其中,n maps 表示生成的注意力图的总数,
Figure 482432DEST_PATH_IMAGE014
表示第i个注意力图中包含的AU数 量,
Figure 66997DEST_PATH_IMAGE015
表示第i张注意力图中第j个AU的标签,
Figure 188668DEST_PATH_IMAGE016
表示第i张注意力图中第j个AU的预测 结果,ε为损失函数的平滑系数;
Figure 466066DEST_PATH_IMAGE017
r ij 表示第 i张注意力图中第j个AU出现的概率。
本发明在计算AU检测结果损失L au 和AU检测中间监督损失L mid 时,引入了权重w i w ij ,AU实际出现的概率越小,这两个权重的的值就越大,该AU分配的损失权重也就越大,使得网络增加对出现频次低的AU标签的关注,同时减少出现频次高的AU标签的关注,从而缓解因AU标签出现的频次差异而导致的数据不平衡问题。
按照本发明的另一个方面,提供了一种基于注意力机制的面部AU检测方法,包括:将待检测的人脸图像输入至由本发明提供的上述基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型,从面部AU检测模型的输出中提取出现概率最大的AU标签,作为AU检测结果。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行权利要求执行本发明提供的上述基于注意力机制的面部AU检测模型建立方法,和/或,本发明提供的上述面部动作单元检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:(1)本发明建立了一个由多尺度特征提取网络、多尺度注意力图生成网络以及AU检测网络依次连接构成的端到端的面部AU检测模型,其中的多尺度注意力图生成网络包含多个分支,多个分支基于局部注意力机制生成多个不同尺度的注意力图,并分别作用于全局人脸特征图,生成多个不同尺度的局部特征图,并由这些特征图共同构成用于AU检测的AU特征,由此能够充分考虑每一个像素对于AU检测结果的重要性,并避免遗漏AU区域附近的重要信息,并准确地考虑AU在时间上的关联性,有效提高面部AU检测模型的预测精度,从而有利于提高面部AU检测的精度。
(2)在本发明的优选方案中,本发明所建立的面部AU检测模型中,时间关联尺度分支根据两个AU共同出现或共同不出现的频率准确计算两个AU之间的时间关联系数以反映二者在时间上的关联性,按照时间关联系数由大到小的顺序确定关联AU对,并限定每个AU只能出现一次,保证了所识别的关联AU对在时间上具有关联性且用于AU检测时不会影响检测结果。
(3)在本发明的优选方案中,本发明所建立的面部AU检测模型中,局部AU分支基于AU中心位置与像素间的距离生成相应的注意力图,能够准确计算每一个像素对于AU检测结果的注意力权重。
(4)在本发明的优选方案中,进一步通过在模型中引入人脸ROI尺度分支,能够基于AU之间的空间关联性,在更大尺度上学习面部特征,在这些信息的辅助下,进一步提高面部AU检测模型的预测精度。
(5)在本发明的优选方案中,多尺度注意力图生成网络中的各分支在生成注意力图并作用于全局人脸特征图后,会由编码器进行特征提取,并且在提取特征的过程中,会结合通道注意力机制和空间注意力机制,由此在局部注意力机制的基础上,实现了混合注意力机制,由此能够充分挖掘出每个像素对于AU检测结果的重要性。
(6)在本发明的优选方案中,多尺度注意力图生成网络的各分支在利用投影模块不同尺度之间的特征对齐并实现像素级放大的基础上,在模型的训练损失函数中,会设计像素级对比损失,以确保多尺度注意力图生成网络中各分支提取的特征之间具有一定的距离,实现多视角化;同时,通过在训练损失函数中设计AU检测中间监督损失,能够保证多尺度注意力图生成网络准确提取到注意力信息。
附图说明
图 1 为本发明实施例提供的面部 AU 检测模型示意图。
图 2为本发明实施例提供的 DISFA 数据集上 AU 相互之间的关联性。
图 3 为本发明实施例提供的 BP4D 数据集上 AU 相互之间的关联性。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
考虑到现有的利用AU之间的关联性进行面部AU检测的方法对于所生成的补丁区域,区域内的像素将具有相同的权重,区域外的像素也将具有相同的权重,这将导致在AU检测过程中,无法充分考虑不同像素的重要性,并且会遗漏AU区域附近的重要信息,此外,面部AU在时间上的关联性对于AU检测而言,是十分重要的信息,而现有的方法对于AU之间的时间关联信息,虽然有所考虑,但仍不够准确,因此,检测精度仍有待进一步提高。为了进一步提高面部AU检测的精度,本发明提供了一种基于注意力机制的面部AU检测模型建立方法及其应用,其整体思路在于:对面部AU检测模型的结构进行改进,将单一的全局尺度分为多个不同尺度的并行分支,其中包括时间关联尺度分支,这些分支分别通过面部关键点定位,生成不同尺度的局部注意力图,并分别作用于全局人脸特征图,生成不同尺度的局部特征图,由这些局部特征图和全局尺度特征图共同构成用于AU检测的AU特征,完成最终的面部AU检测,由此能够充分利用AU之间的关联性,尤其是时间关联性,并充分考虑各像素对于面部AU检测结果的重要性,有效提高面部AU检测模型的预测精度,从而提高面部AU检测的精度。
以下为实施例。
实施例1:一种基于注意力机制的面部AU检测模型建立方法,包括:建立端到端的初始神经网络模型并对其进行训练,得到面部AU检测模型;训练数据由已标注AU标签和人脸关键点标签的人脸图像构成。
本实施例可选取BP4D和DISFA构建用于训练模型的数据集,这两个数据集包括15个AU标签(AU 1, 2, 4, 6, 7, 9, 10, 12, 14, 15, 17, 23, 24, 25, 26)的注释和68个人脸关键点坐标。本实施例首先将68个面部关键点转换成49个面部内部关键点(去掉与AU检测无关的面部轮廓关键点)。然后,为了提取高度相关的AU特征,本实施例通过这49个关键点来预定义AU中心的位置。AU中心位置描述可参考“Eac-net: Deep nets withenhancing and cropping for facial action unit detection[J]”(Li W, Abtahi F,Zhu Z, et al. IEEE transactions on pattern analysis and machine intelligence,2018, 40(11): 2583-2596.)中的描述;具体地,可根据FACS的先验知识得到AU定义及对应的AU中心位置描述,如表1所示,其中尺度定义为人的两眼内角间距。
Figure 289665DEST_PATH_IMAGE018
本实施例中,所建立的初始神经网络模型如图1所示,包括:多尺度特征提取网络,多尺度注意力图生成网络以及AU检测网络。
本实施例中,多尺度特征提取网络,用于从包含人脸的输入图像中提取全局人脸特征图;全局人脸特征图包含全局人脸结构和上下文特征;
可选地,本实施例中,多尺度特征提取网络由三个卷积核大小为3×3、步长为1,填充为1的普通卷积层串联构成,其中,第一个划分的卷积层的特征图被均匀划分成8×8个块,每个块在第一个划分的卷积层独立进行卷积处理;同理,第二层和第三层分割后的卷积层分别对前一层均匀分割的4×4和2×2 特征图中的块独立进行卷积处理;通过将第一、第二、第三分层卷积层的特征映射进行拼接,可以提取出与普通卷积层特征映射相同通道数的分层多尺度特征映射;然后利用残差结构对两个特征映射进行元素求和,以学习过完备特征,避免消失梯度问题;每个卷积层都使用Batch Normalization (BN)和修正线性单元(ReLU)操作,对应的输出规模分别为D×D×CD×D×CD×D×2C;其中,D表示特征图的长或宽大小,C表示特征图通道数量,可选地,本实施例中,D=44,C=8。
参阅图1,本实施例中,多尺度注意力图生成网络包括四个并行分支以及特征级联模块,四个并行分支分别是局部AU分支,时间关联尺度分支、人脸ROI尺度分支和全局分支,前三个分支用于根据不同尺度的AU划分规则生成不同尺度的注意力图,并分别作用于人脸全局特征图,得到相应的局部特征图,特征级联模块会将各分支生成的特征图按通道级联,得到AU特征,该AU特征将被输入至AU检测网络,完成面部AU检测;考虑到AU之间具有对称性,因此本实施例所关注的不同尺度的注意力包括局部AU尺度、时间关联尺度和人脸ROI尺度;各分支的功能及结构分别如下:
局部AU分支,用于获得全局人脸特征图中每一个像素对于每一个AU的注意力权重,并融合到全局人脸特征图中,得到局部AU尺度特征图;
如图1所示,本实施中,局部AU分支包括:
局部AU尺度注意力图生成模块,用于识别N au 个AU,并生成与N au 个AU一一对应的N au 个局部AU尺度注意力图后,分别作用于全局人脸特征图,得到N au 个第一局部特征图;每个局部AU尺度注意力图由全局人脸特征图中每一个像素对于AU的注意力权重构成;
第一编码器,用于对N au 个第一局部特征图进行特征提取;
第一投影模块,用于将第一编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到局部AU尺度特征图;
其中,局部AU尺度注意力图生成模块,生成局部AU尺度注意力图的方式为:
按照如下公式计算第k个像素对于第i个AU的注意力权重v ik
Figure 677921DEST_PATH_IMAGE019
其中,d ik 表示第k个像素相对于第i个AU中心的曼哈顿距离,l map 表示预先定义的区域边长,本实施例中,其值为11;N au 表示AU总数,可选地,本实施例中,N au =12。
时间关联尺度分支,用于识别共同出现或共同不出现的频率最高的部分AU对,作为关联AU对,并获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,融合到全局人脸特征图中,得到时间关联尺度局部特征图;
如图1所示,本实施中,时间关联尺度分支包括:
时间关联尺度注意力图生成模块,用于识别N tem 个关联AU对,并生成与N tem 个关联AU对一一对应的N tem 个时间关联尺度注意力图后,分别作用于全局人脸特征图,得到N tem 个第二局部特征图;每个时间关联尺度注意力图由全局人脸特征图中每一个像素对于关联AU对的注意力权重构成;
第二编码器,用于对N tem 个第二局部特征图进行特征提取;
第二投影模块,用于将第二编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到时间关联尺度局部特征图;
其中,时间关联尺度注意力图生成模块,识别关联AU对的方式包括:
建立AU之间的相关矩阵A,其中第i行第j列的元素Aij表示第i个AU与第j个AU之间的关系系数;
按照Ri,j=Aij+Aji计算第i个AU与第j个AU之间的时间关联系数Ri,j,i≠j;按照时间关联系数从大到小的顺序对AU对排序,并遍历排序后的AU对,若所遍历到的AU对中的两个AU均未与其他AU构成关联AU对,则将当前所遍历到的AU对作为关联AU对;
第i个AU与第j个AU之间的关系系数Aij的计算式为:
Figure 106629DEST_PATH_IMAGE020
其中,ai=1表示第i个AU出现,ai=0表示第i个AU不出现;aj=1表示第j个AU出现,aj= 0表示第j个AU不出现;
Figure 538616DEST_PATH_IMAGE021
表示第j个AU出现时,第i个AU出现的概率;
Figure 115091DEST_PATH_IMAGE022
表示第j个AU不出现时,第i个AU不出现的概率。
按照上述计算方式,Aij的值可以反映AU之间的时间关联性,范围在[0,1]区间,本实施例中,时间关联尺度分支在DISFA数据集和BP4D数据集上所建立的相关矩阵A分别如图2和图3所示;
本实施例中,时间关联尺度分支在按照Ri,j,即Aij+Aji的值从大到小依次进行排列。对AU进行分组时,有高关联性的AU,即Aij+Aji的值高的AU对,优先选择。选择时每个AU只能出现一次,因为如果一个AU同时和多个AU有高关联性且被多次选择,特征预测的结果在不同的AU对中有可能不相同,而且会造成AU数量权重之间的不平衡。基于上述提案,本实施例中,时间关联尺度的AU划分规则描述如表2所示,其中,位于同一行的两个AU构成一个关联AU对,
Figure 307038DEST_PATH_IMAGE023
时间关联尺度注意力图生成模块,获得全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,包括:
对于第p个关联AU对,分别获得第k个像素相对于第p个关联AU对中的两个AU的的注意力权重,将其中的最大值作为第k个像素相对于第p个关联AU对的注意力权重v pk
其中,p=1,2…,N tem N tem 表示关联AU对总数,可选地,本实施例中,N tem =6。
人脸ROI尺度分支,用于识别位于同一个感兴趣区域的AU,并获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,融合到全局注意力图中,得到人脸ROI尺度注意力图;
可选地,本实施例中,所考虑的感兴趣区域,具体是指面部的感官区域;局部AU特征和时间关联特征将AU活动约束在人脸的特定区域,在此基础上,本实施例中通过引入人脸ROI尺度分支,将AU按照AU在面部感官区域中的分布进行分组,可以充分考虑面部中同一感官区域中AU之间存在的空间关联性信息,便于AU之间空间关联性特征的提取,并且,在AU相关的ROI级空间约束下,提取的特征相较于全局特征是细粒度的,能够使用正确的图像上下文进行预测。
本实施例中,人脸ROI尺度AU划分规则如表3所示,
Figure 386989DEST_PATH_IMAGE024
参阅图1,本实施例中,人脸ROI尺度分支包括:
人脸ROI尺度注意力图生成模块,用于识别位于同一个感兴趣区域的AU,并生成与N roi 个感兴趣区域一一对应的N roi 个人脸ROI尺度注意力图后,分别作用于全局人脸特征图,得到N roi 个第三局部特征图;每个人脸ROI尺度注意力图由全局人脸特征图中每一个像素对于感兴趣区域的注意力权重构成;
第三编码器,用于对N roi 个第三局部特征图进行特征提取;
第三投影仪,用于将第三编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到人脸ROI尺度局部特征图;
其中,人脸ROI尺度注意力图生成模块,获得全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,包括:
对于第q个感兴趣区域,分别获得第k个像素相对于第q个感兴趣区域中的每一个AU的注意力权重,将其中的最大值作为第k个像素相对于第q个感兴趣区域的注意力权重v qk
其中,q=1,2…,N roi N roi 表示感兴趣区域总数,可选地,本实施例中,N roi =5。
全局分支,用于对全局人脸特征图进行特征学习,得到全局尺度特征图;特征级联模块,用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联,得到AU特征;
参阅图1,本实施例中,全局分支包括:
第四编码器,用于对全局人脸特征图进行特征提取,得到全局尺度注意力图;
其中,局部AU尺度特征图、时间关联尺度局部特征图、人脸ROI尺度局部特征图和全局尺度特征图大小相等。
如图1所示,本实施例中,多尺度注意力图生成网络中,所生成的不同尺度的特征图会输入到对应的编码器中,做进一步的特征提取;可选地,本实施例中,各编码器的结构相同,均由三组卷积核大小为3×3、步长为1,填充为1的卷积层加上2×2的池化层串联构成,可以将64×44×44的特征映射空间大小减少到160×5×5;然后,对新特征添加通道注意力机制和空间注意力机制得到混合注意力机制,从而在局部注意力机制的基础上实现混合注意力机制;混合注意力机制中,局部注意力机制可以对AU所在区域附近特征添加权重以提取重要信息;通道注意力机制既可以得到每个通道对于每个AU特征提取的重要性权重,又可以起到对不同维度通道之间的筛选作用,学习了每个尺度对于检测结果的重要性信息;空间注意力可以学习特征图中每个像素的重要性。
如图1所示,为了实现不同尺度之间的像素对齐,本实施例在局部AU分支、时间关 联尺度分支和人脸ROI尺度分支后分别添加了一个非线性的投影模块(Projector),以较低 的成本实现不同尺度之间的特征对齐,并实现特征的像素级放大;可选地,本实施例中,三 个投影模块结构相同,均由两个卷积核为1×1的卷积层和一个卷积核为3×3,步长为1,填 充为1的卷积层组成,不仅起到了降维和特征融合的作用,还解决了不同尺度特征之间维度 不匹配的问题。经过投影模块的特征对齐和像素级放大后,即可得到局部AU尺度特征图、时 间关联尺度局部特征图和人脸ROI尺度局部特征图,本实施例中,分别以符号
Figure 756922DEST_PATH_IMAGE025
Figure 555113DEST_PATH_IMAGE026
Figure 488434DEST_PATH_IMAGE027
表示,维度均为160×5×5。
AU检测网络,用于根据AU特征预测各AU出现的概率;可选地,本实施例中,AU检测 网络由两个全连接层串联构成,各尺度特征图通道级联为AU特征图后,得到的AU特征的规 模为16000,后跟两个全连接层,两个全连接层的维度分别为N f 2N au ,其中N f =512,N au =12; 第二个全连接层的输出,即为每个AU标签出现的概率
Figure 688471DEST_PATH_IMAGE028
对于所建立的上述模型,为了避免多尺度注意力图生成网络的各分支学习到不合理的特征,本实施例中,对初始神经网络模型进行训练,采用了两阶段训练方式,两个阶段具体包括:
第一阶段:利用由已标注人脸关键点位置标签和AU标签的人脸图像所构成的训练数据集对所述初始神经网络模型进行端到端训练;
第二阶段:改变部分超参数后,利用训练数据集对经过第一阶段训练之后的初始神经网络模型进行端到端训练,以对模型进行微调,得到面部AU检测模型;
上述两阶段训练方式中,第一阶段通过完整的端到端的训练,可以得到检测精度较高的面部AU检测模型;第二阶段在第一阶段的基础上,通过改变超参数的方式对模型进行微调,可以避免初始时刻因超参数设置不准确而影响模型的检测精度。
由于四个尺度分支生成的特征在级联之后用同样的AU标签进行监督,因此每个分支生成的特征将逐渐趋于一致,为了使四个分支的生成的特征彼此有一定区别,本实施例在训练损失函数中除了包括AU检测结果损失L au 外,还设计了像素级对比损失,其表达式为:
Figure 478573DEST_PATH_IMAGE030
其中,L con 表示像素级对比损失,hw分别表示这些注意力图的高和宽,m表示预设 的距离,
Figure 967323DEST_PATH_IMAGE031
表示二范数;
由于本实施例将不同尺度之间的特征看做不同类的样本,所以仅保留了原对比损失的距离增加部分;m是超参数,表示两个像素之间需要达到的距离,基于上述表达式,当像素距离的平均值小于m时,会增大两者的距离到m,当像素距离的平均值大于m时,则减小两者的距离到m
由于关联AU对包含两个AU,而感兴趣区域包含多个AU,上述像素级对比损失通过 对局部AU尺度特征图
Figure 484761DEST_PATH_IMAGE032
和时间关联尺度局部特征图
Figure 539305DEST_PATH_IMAGE033
间像素距离的平均值,以及对 局部AU尺度特征图
Figure 765887DEST_PATH_IMAGE034
和人脸ROI尺度局部特征图
Figure 273091DEST_PATH_IMAGE035
间像素距离的平均值进行限定,即 可保证四个分支生成的特征彼此有一定区别,并减少计算量。
该像素级对比损失可以让不同尺度的特征之间多视角化,同时,在同一AU标签的约束下,不同视角特征之间预测结果也具有一致性。像素级对比损失仅用于更新特征编码器和投影仪部分的参数。
为了使各分支生成的注意力图尽可能准确,本实施例在训练损失函数中还设计了AU检测中间监督损失L mid ,具体为第一编码器、第二编码器、第三编码器及第四编码器所提取特征的损失,其计算公式为:
Figure 548215DEST_PATH_IMAGE036
其中,n maps 表示生成的注意力图的总数,
Figure 473577DEST_PATH_IMAGE037
表示第i个注意力图中包含的AU数 量,
Figure 605481DEST_PATH_IMAGE038
表示第i张注意力图中第j个AU的标签,
Figure 865561DEST_PATH_IMAGE039
表示第i张注意力图中第j个AU的预测结 果,ε为损失函数的平滑系数;
Figure 678796DEST_PATH_IMAGE040
r ij 表示第i 张注意力图中第j个AU出现的概率。
本实施例在计算AU检测中间监督损失L mid 时,引入了权重w ij ,AU实际出现的概率越 小,该权重的的值就越大,该AU分配的损失权重也就越大,使得网络增加对出现频次低的AU 标签的关注,同时减少出现频次高的AU标签的关注,从而缓解因AU标签出现的频次差异而 导致的数据不平衡问题。出于同样的考虑,本实施例在计算AU检测结果损失L au 时,引入了权 重w i ,其计算表达式为:
Figure 973511DEST_PATH_IMAGE041
r n 表示训练数据集中第n个AU出 现的概率,相应地,AU检测结果损失L au 的表达式为:
Figure 260005DEST_PATH_IMAGE042
其中,y i 表示第i个AU标签,
Figure 210643DEST_PATH_IMAGE043
表示第i个AU的预测结果,ε表示为损失函数的平滑 系数;L mid L au 均由交叉熵损失函数和dice loss构成,可同时优化AU检测的F1分数和准确 率。
本实施例中,训练损失函数为:
Figure 889886DEST_PATH_IMAGE044
其中,L表示总体损失,λ mid λ con 表示权衡参数,λ mid ≥0,λ con ≥0;在实际应用中,权衡参数的具体取值可根据具体应用需求相应设定,在保证模型检测精度满足要求的情况下,λ mid λ con 的值也可以相应设置为0。
总的来说,本实施例将单一的全局尺度分为四个尺度的并行分支:局部AU尺度分支、时间关联尺度分支、人脸ROI尺度分支和全局尺度分支。前三个分支由五个部分组成:多尺度特征提取模块、注意力图生成模块、编码器、投影仪和AU检测网络。最后一个分支仅包含多尺度特征提取模块、编码器和AU检测网络三个部分,组成了整个网络的backbone。首先,网络通过backbone捕捉整个人脸的结构和纹理特征F global 。其次,局部AU尺度分支、时间关联尺度分支和人脸ROI尺度分支分别通过面部关键点定位,生成不同尺度的局部注意力图,并将局部注意力图与原图逐像素相加,分别生成局部AU特征F au 、时间关联特征F tem 和人脸ROI特征F roi 。再者,三个级别的特征分别用不同级别的标签进行监督,并添加了通道和空间注意力机制,自适应学习到多尺度的AU特征。在每个分支的局部特征提取模块后,本发明添加了投影仪,在对每个尺度的特征进行对齐后将特征放大到像素级别,并通过像素级将不同尺度AU特征逐像素拉开一定距离,使网络尽可能生成多视角特征。最后,将多视角的特征进行通道级联,作为AU检测网络的输入,输出即为AU检测结果。整个过程不同尺度的四个分支共同优化,网络端到端可训练。
需要说明的是,在本发明其他的一些实施例中,在保证AU检测精度可满足具体需 求的情况下,多尺度注意力图生成网络也可仅包括局部AU分支、时间关联尺度分支、全局分 支,而不包括人脸ROI尺度分支,此时,像素级对比损失仅对局部AU尺度特征图
Figure 773529DEST_PATH_IMAGE045
和时间 关联尺度局部特征图
Figure 450498DEST_PATH_IMAGE046
间像素距离的平均值进行限定即可。
实施例2:一种基于注意力机制的面部AU检测方法,包括:将待检测的人脸图像输入至由上述实施例1提供的基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型,从面部AU检测模型的输出中提取出现概率最大的AU标签,作为AU检测结果。
实施例3:一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行权利要求执行上述实施例1提供的基于注意力机制的面部AU检测模型建立方法,和/或,上述实施例2提供的面部动作单元检测方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于注意力机制的面部AU检测模型建立方法,其特征在于,包括:建立端到端的初始神经网络模型并对其进行训练,得到所述面部AU检测模型;训练数据由已标注AU标签和人脸关键点标签的人脸图像构成;
所述初始神经网络模型包括:
多尺度特征提取网络,用于从包含人脸的输入图像中提取全局人脸特征图;所述全局人脸特征图包含全局人脸结构和上下文特征;
多尺度注意力图生成网络,包括:局部AU分支、时间关联尺度分支、全局分支以及特征级联模块;所述局部AU分支,用于获得所述全局人脸特征图中每一个像素对于每一个AU的注意力权重,并融合到所述全局人脸特征图中,得到局部AU尺度特征图;所述时间关联尺度分支,用于检测共同出现或共同不出现的频率最高的部分AU对,作为关联AU对,并获得所述全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,融合到所述全局人脸特征图中,得到时间关联尺度局部特征图;所述全局分支,用于对所述全局人脸特征图进行特征学习,得到全局尺度特征图;所述特征级联模块,用于将多尺度注意力图生成网络中各分支生成的注意力图按通道级联,得到AU特征;
以及AU检测网络,用于根据所述AU特征预测各AU出现的概率。
2.如权利要求1所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,检测共同出现或共同不出现的频率最高的部分AU对,作为关联AU对,包括:
建立AU之间的相关矩阵A,其中第i行第j列的元素Aij表示第i个AU与第j个AU之间的关系系数;
按照Ri,j=Aij+Aji计算第i个AU与第j个AU之间的时间关联系数Ri,j,i≠j;按照时间关联系数从大到小的顺序对AU对排序,并遍历排序后的AU对,若所遍历到的AU对中的两个AU均未与其它AU构成关联AU对,则将当前所遍历到的AU对作为关联AU对;
第i个AU与第j个AU之间的关系系数Aij的计算式为:
Figure 20600DEST_PATH_IMAGE001
其中,ai=1表示第i个AU出现,ai=0表示第i个AU不出现;aj=1表示第j个AU出现,aj=0表示 第j个AU不出现;
Figure 973643DEST_PATH_IMAGE002
表示第j个AU出现时,第i个AU出现的概率;
Figure 412715DEST_PATH_IMAGE003
表示第j个AU不出现时,第i个AU不出现的概率。
3.如权利要求1或2所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,获得所述全局人脸特征图中每一个像素对于每一个AU的注意力权重,包括:
根据所述全局人脸特征图中的人脸关键点坐标预定义各AU的中心位置;
按照如下公式计算第k个像素对于第i个AU的注意力权重v ik
Figure 626659DEST_PATH_IMAGE004
其中,d ik 表示第k个像素相对于第i个AU中心的曼哈顿距离,lmap表示预先定义的区域边长;N au 表示AU总数。
4.如权利要求3所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,获得所述全局人脸特征图中每一个像素对于每一个关联AU对的注意力权重,包括:
对于第p个关联AU对,分别获得第k个像素相对于第p个关联AU对中的两个AU的注意力权重,将其中的最大值作为第k个像素相对于第p个关联AU对的注意力权重v pk
其中,p=1,2…,N tem N tem 表示关联AU对总数。
5.如权利要求4所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,所述多尺度注意力图生成网络还包括:
人脸ROI尺度分支,用于检测位于同一个感兴趣区域的AU,并获得所述全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,融合到所述全局注意力图中,得到人脸ROI尺度局部特征图;
获得所述全局人脸特征图中每一个像素对于每一个感兴趣区域的注意力权重,包括:
对于第q个感兴趣区域,分别获得第k个像素相对于第q个感兴趣区域中的每一个AU的注意力权重,将其中的最大值作为第k个像素相对于第q个感兴趣区域的注意力权重v qk
其中,q=1,2…,N roi N roi 表示感兴趣区域总数。
6.如权利要求5所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,所述局部AU分支包括:
局部AU尺度注意力图生成模块,用于识别N au 个AU,并生成与N au 个AU一一对应的N au 个局部AU尺度注意力图后,分别作用于所述全局人脸特征图,得到N au 个第一局部特征图;每个局部AU尺度注意力图由所述全局人脸特征图中每一个像素对于AU的注意力权重构成;
第一编码器,用于对所述N au 个第一局部特征图进行特征提取;
第一投影模块,用于将所述第一编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到局部AU尺度特征图;
所述时间关联尺度分支包括:
时间关联尺度注意力图生成模块,用于检测N tem 个关联AU对,生成与N tem 个关联AU对一一对应的N tem 个时间关联尺度注意力图后,分别作用于所述全局人脸特征图,得到N tem 个第二局部特征图;每个时间关联尺度注意力图由所述全局人脸特征图中每一个像素对于关联AU对的注意力权重构成;
第二编码器,用于对所述N tem 个第二局部特征图进行特征提取;
第二投影模块,用于将所述第二编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到时间关联尺度局部特征图;
所述人脸ROI尺度分支包括:
人脸ROI尺度注意力图生成模块,用于检测位于同一个感兴趣区域的AU,并生成与N roi 个感兴趣区域一一对应的人脸ROI尺度注意力图后,分别作用于所述全局人脸特征图,得到N roi 个第三局部特征图;每个人脸ROI尺度注意力图由所述全局人脸特征图中每一个像素对于感兴趣区域的注意力权重构成;
第三编码器,用于对所述N roi 个第三局部特征图进行特征提取;
第三投影仪,用于将所述第三编码器提取到的特征融合到一张特征图中,并进行像素级放大,得到人脸ROI尺度局部特征图;
所述全局分支包括:
第四编码器,用于对所述全局人脸特征图进行特征提取,得到全局尺度注意力图;
其中,局部AU尺度特征图、时间关联尺度局部特征图、人脸ROI尺度局部特征图和全局尺度特征图大小相等。
7.如权利要求6所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,所述多尺度注意力图生成网络的各分支中的编码器,在进行特征提取时,结合了通道注意力机制和空间注意力机制。
8.如权利要求6或7所述的基于注意力机制的面部AU检测模型建立方法,其特征在于,训练损失函数为:
Figure 860194DEST_PATH_IMAGE005
其中,L表示总体损失;L au 表示AU检测结果损失;L mid 表示第一编码器、第二编码器、第三 编码器及第四编码器所提取特征的损失;L con 表示像素级对比损失,
Figure 284222DEST_PATH_IMAGE006
Figure 464668DEST_PATH_IMAGE007
Figure 595435DEST_PATH_IMAGE008
分别 表示局部AU尺度特征图、时间关联尺度局部特征图和人脸ROI尺度局部特征图,hw分别表 示这些注意力图的高和宽,m表示预设的距离,
Figure 314385DEST_PATH_IMAGE009
表示二范数;λ mid λ con 表示权衡参数。
9.一种基于注意力机制的面部AU检测方法,其特征在于,包括:将待检测的人脸图像输入至由权利要求1~8任一项所述的基于注意力机制的面部AU检测模型建立方法所建立的面部AU检测模型,从所述面部AU检测模型的输出中提取出现概率最大的AU标签,作为AU检测结果。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求执行权利要求1~8任一项所述的基于注意力机制的面部AU检测模型建立方法,和/或,权利要求9所述的面部动作单元检测方法。
CN202211471437.4A 2022-11-23 2022-11-23 基于注意力机制的面部au检测模型建立方法及其应用 Active CN115546878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211471437.4A CN115546878B (zh) 2022-11-23 2022-11-23 基于注意力机制的面部au检测模型建立方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211471437.4A CN115546878B (zh) 2022-11-23 2022-11-23 基于注意力机制的面部au检测模型建立方法及其应用

Publications (2)

Publication Number Publication Date
CN115546878A true CN115546878A (zh) 2022-12-30
CN115546878B CN115546878B (zh) 2023-02-03

Family

ID=84721486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211471437.4A Active CN115546878B (zh) 2022-11-23 2022-11-23 基于注意力机制的面部au检测模型建立方法及其应用

Country Status (1)

Country Link
CN (1) CN115546878B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210462A1 (en) * 2016-06-01 2017-12-07 Ohio State Innovation Foundation System and method for recognition and annotation of facial expressions
CN110738102A (zh) * 2019-09-04 2020-01-31 暗物质(香港)智能科技有限公司 一种人脸识别方法及系统
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN114743241A (zh) * 2022-03-31 2022-07-12 网易(杭州)网络有限公司 一种人脸表情识别方法、装置、电子设备及存储介质
CN114758382A (zh) * 2022-03-28 2022-07-15 华中科技大学 基于自适应补丁学习的面部au检测模型建立方法及应用
WO2022151535A1 (zh) * 2021-01-15 2022-07-21 苏州大学 基于深度学习的人脸特征点检测方法
CN114783034A (zh) * 2022-05-12 2022-07-22 东南大学 基于局部敏感特征与全局特征融合的人脸表情识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017210462A1 (en) * 2016-06-01 2017-12-07 Ohio State Innovation Foundation System and method for recognition and annotation of facial expressions
CN110738102A (zh) * 2019-09-04 2020-01-31 暗物质(香港)智能科技有限公司 一种人脸识别方法及系统
WO2022151535A1 (zh) * 2021-01-15 2022-07-21 苏州大学 基于深度学习的人脸特征点检测方法
CN113420703A (zh) * 2021-07-03 2021-09-21 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN114758382A (zh) * 2022-03-28 2022-07-15 华中科技大学 基于自适应补丁学习的面部au检测模型建立方法及应用
CN114743241A (zh) * 2022-03-31 2022-07-12 网易(杭州)网络有限公司 一种人脸表情识别方法、装置、电子设备及存储介质
CN114783034A (zh) * 2022-05-12 2022-07-22 东南大学 基于局部敏感特征与全局特征融合的人脸表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUANGJIANG HE等: "Compound Facial Expression Recognition with Multi-Domain Fusion Expression based on Adversarial Learning", 《2022 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS (SMC)》 *

Also Published As

Publication number Publication date
CN115546878B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN109558902A (zh) 一种快速目标检测方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN110414432A (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN111738124A (zh) 基于Gabor变换和注意力的遥感图像云检测方法
CN114937151A (zh) 基于多感受野和注意力特征金字塔的轻量级目标检测方法
CN109493346A (zh) 一种基于多损失的胃癌病理切片图像分割方法和装置
CN111681178B (zh) 一种基于知识蒸馏的图像去雾方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN106909901A (zh) 从图像中检测物体的方法及装置
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN106600595A (zh) 一种基于人工智能算法的人体特征尺寸自动测量方法
CN109977834A (zh) 从深度图像中分割人手与交互物体的方法和装置
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及系统
CN115471885A (zh) 动作单元相关性学习方法、装置、电子设备及存储介质
CN109255382A (zh) 用于图片匹配定位的神经网络系统,方法及装置
CN106203373A (zh) 一种基于深度视觉词袋模型的人脸活体检测方法
CN113012811A (zh) 一种结合深度卷积网络和图神经网络的中医证候诊断和健康评价方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN114743010A (zh) 基于深度学习的超高压输电线路点云数据语义分割方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN109064511B (zh) 一种人体重心高度测量方法、装置及相关设备
CN115546878B (zh) 基于注意力机制的面部au检测模型建立方法及其应用
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
CN114898464B (zh) 一种基于机器视觉的轻量化精准手指语智能算法识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant