CN116416667A - 基于动态关联信息嵌入的面部动作单元检测方法 - Google Patents
基于动态关联信息嵌入的面部动作单元检测方法 Download PDFInfo
- Publication number
- CN116416667A CN116416667A CN202310452017.XA CN202310452017A CN116416667A CN 116416667 A CN116416667 A CN 116416667A CN 202310452017 A CN202310452017 A CN 202310452017A CN 116416667 A CN116416667 A CN 116416667A
- Authority
- CN
- China
- Prior art keywords
- features
- dynamic
- learning
- association
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000001815 facial effect Effects 0.000 title claims description 25
- 230000013016 learning Effects 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 40
- 230000009466 transformation Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000005096 rolling process Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000000547 structure data Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013434 data augmentation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 210000000130 stem cell Anatomy 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 210000003205 muscle Anatomy 0.000 abstract description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000035045 associative learning Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- FESBVLZDDCQLFY-UHFFFAOYSA-N sete Chemical compound [Te]=[Se] FESBVLZDDCQLFY-UHFFFAOYSA-N 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于动态关联信息嵌入的面部动作单元检测方法,属于面部AU检测方法技术领域;本发明不同于采用固定的AU关联图谱或全连接图进行AU关联信息学习的方法,引入了一个动态更新的AU关联图谱,利用不同阶段得到的表意不同的特征,自适应地更新AU关联图谱,以挖掘更抽象的AU关联信息。具体来说,浅层特征包含丰富的纹理信息,其可以反应肌肉的细粒度变化,通过肌肉运动的相似性可以推断出AU之间的部分关联信息。随着网络层的加深,节点的特征趋于抽象,表征了各个AU的语义信息,通过语义信息的相似性则可以补充纹理信息中无法捕获的隐式的AU关联信息。本发明的动态更新的AU关联图谱并非全连接图,因此更简洁也更加节省算力。
Description
技术领域
本发明涉及面部AU检测方法技术领域,特别是涉及基于动态关联信息嵌入的面部动作单元检测方法。
背景技术
随着计算机视觉的进步,对于人体微姿态识别的研究发展迅速。人体微姿态识别指的是从图像或视频中提取相关特征,识别人体的微小姿势变化,进而进行情感分析的技术。其中,面部表情中微姿态的检测与识别是一个十分重要的环节。面部表情是肢体语言的一种形式,在人与人之间的情感交流中起重要作用。面部皮肤下肌肉的微姿态运动可以产生各种丰富的表情,传达个体的意图和心理状态。为了更全面地研究面部肌肉运动,Ekman和Friesen 建立了面部动作编码系统(FACS),该系统基于观察到的肌肉或肌肉群的激活,描述了一种用于编码面部表情的面部动作单元(AU)分类方法。面部 AU 检测是描述面部表情微姿态的基础,其具有广大的应用前景,如情感分析、心理健康评估和人机交互等。因此,如何对面部AU进行有效地检测具有重大研究意义。
在早期,大多数方法尝试设计基于机器学习的模型,但这些模型往往依赖于手工制作的特征,十分脆弱。随着深度学习的快速发展,出现了大量基于卷积神经网络(CNN)和Transformer的强大的面部AU检测方法。其中一些方法专注于区域特征学习,他们设计了各式各样的网络结构,以对面部数据的局部区域进行有效的特征提取。然而,这些方法并没有考虑AU之间存在的可能的相关性。根据解剖学的知识,某个AU并不独立于其他AU而存在,AU之间有着千丝万缕的相关性。学习AU之间的相关性对于AU检测至关重要。
因此,有一些研究对AU之间的相关信息进行了探究,以提高AU检测的性能。这些研究往往基于动态贝叶斯网络(DBN)、限制波尔兹曼机(RBM)、长短期记忆递归神经网络(LSTM)和图卷积网络(GCN)等。与其他相关信息学习方式相比,GCN具有更高的灵活性且建模能力更强。现有的基于GCN的面部AU检测方法往往根据FACS的理论总结或特定数据集上的统计规则建立固定的AU关联图谱,来进行信息的交流和特征的提取。然而,固定的AU关联图谱是有缺陷的。具体来说,基于FACS理论总结的AU关联图谱不可避免地引入了研究者的主观判断,从而会忽略大量AU之间的相关信息;而基于数据集统计规的AU关联图谱则会由于数据集中存在的类不平衡问题趋于偏倚,导致对AU之间真实的相关性的表征能力相对有限。总之,固定的AU关联图谱结构无法动态地探索AU之间的潜在相关性,这限制了AU检测方法的能力。最近,有研究者建立了一个两阶段网络,并使用门控图卷积网络(GGCN)学习每对AU的多维边缘特征,取得了良好的AU检测效果。然而,建模所有AU对的相关性是十分冗余的,且计算成本昂贵。
为了解决上述问题,本发明提出了一种基于动态关联信息嵌入的面部动作单元检测方法。
发明内容
本发明的目的在于提出一种基于动态关联信息嵌入的面部动作单元检测方法以解决现有技术中存在的如下问题:
(1)无法有效且高效地探索AU之间潜在的关联信息;
(2)没有探索多尺度区域特征学习与AU关联信息学习之间的有效融合。
为了实现上述目的,本发明采用了如下技术方案:
基于动态关联信息嵌入的面部动作单元检测方法,具体包括以下内容:
步骤1:利用关键点(Landmark)对每张原始人脸图像进行相似度变换,并将变换后的人脸图像调整为相同大小;
步骤2:对人脸图像进行数据增广,增加数据的多样性;
步骤3:将步骤2中处理后的人脸图像输入到茎网络中,提取基础特征;
步骤4:将步骤3中所得的基础特征输入到多尺度特征学习模块,获得面部的多尺度全局特征;
步骤5:将步骤3中所得的基础特征输入到关键点(Landmark)预测器,获得具体的关键点(Landmark)位置坐标预测值;
步骤6:根据步骤5中的关键点(Landmark)位置坐标预测值计算人脸对齐损失函数;
步骤7:根据关键位置坐标计算特定于各个AU的中心,并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征,进行动态AU关联性学习;
步骤8:将步骤7中所得的动态AU关联学习与步骤4中所得的多尺度特征学习得到的特征进行结合,并送入全连接层,实现最终的AU检测;
步骤9:根据步骤8中全连接层的输出计算带权重的非对称损失函数和带权重的多标签骰子损失函数;
步骤10:对步骤6和步骤9中的损失函数进行联合优化,梯度回传更新模型参数。
优选地,步骤1所述的相似度变换包括平面内旋转、均匀缩放和平移,其在保留面部形状和表情信息的同时去除了头部姿势的干扰。经过变换后,图像大小被调整为256×256。
优选地,步骤2所述的数据增广的方法包括将人脸图像随机裁剪、随机水平翻转和随机颜色抖动(对比度、亮度)。
优选地,步骤3所述的茎网格的结构由若干个连续的卷积层构成,其与所选择的Transformer主干网络的茎网络结构保持一致;所述茎网格的输入为大小为H×W×3的人脸图像,经特征提取操作后,得到大小为的输出作为基础特征,供模型后续处理。
优选地,步骤4中所述的多尺度特征学习模块整合了不同阶段输出的特征,以实现多尺度特征的提取,具体包括以下内容:Transformer主干网络在进行特征提取时可大致划分为四个阶段,其中每个阶段均由一个嵌入层和若干个连续的Transformer块组成,Transformer块中主要包含多头自注意力模块和线性层;所述多尺度特征学习模块将Transformer主干网络后三个阶段提取的特征进行插值,使它们的空间大小与第一阶段提取的特征保持一致,然后将对齐的特征在通道维度上进行连接,从而得到多尺度特征;多尺度特征包含了更为丰富的面部特征,对于区域大小并不一致的各个AU具有更强的表征能力。
优选地,步骤5中所述的关键点(Landmark)预测器用于提取面部的形状信息,并预测关键点(Landmark)的具体位置坐标;所述关键点(Landmark)预测器包含三个连续的块,每个块由两个卷积层和一个最大池化层组成;所述卷积层每次卷积操作后,对特征进行批归一化处理,并采用ReLU激活函数进行非线性转换;将最后一个最大池化层获得的特征拉平输入到全连接层中,进行关键点(Landmark)预测;所述全连接层的输出维度为N land ,即Landmark坐标的个数。
优选地,步骤6中所述的人脸对齐损失函数具体计算公式如下:
其中,d 2i-1和d 2i 分别表示第i个关键点(Landmark)的x轴坐标和y轴坐标的真值;和/>表示第i个关键点(Landmark)的x轴坐标和y轴坐标的预测值;d o 表示对真值进行归一化后的眼间距离。
优选地,所述步骤7具体包括以下内容:
首先根据预测得到的关键点(Landmark)位置坐标计算得出特定于各个AU的中心的位置坐标,将关键点(Landmark)的坐标乘以η因子进行缩放;然后,根据AU的中心从基础特征中裁剪出相应的ROI局部特征,其中ROI局部特征与基础特征的空间大小比为,每个ROI局部特征的大小为/>;
将ROI局部特征拉平,并将每个ROI特征作为一个图节点,其中;因此,节点集合可以表示为/>,其中,N ROI 为ROI的个数;在特征域中,节点之间的相关性与特征之间距离呈负相关,即特征之间的距离越小,相关性则越大,反之亦然;基于上述的特征,通过KNN算法计算每个节点的K近邻,得到边集合E;至此构造出AU关联图谱G=(V,E);
已知图结构数据,应用图卷积操作对相邻节点之间的信息进行聚合和交流,构建动态AU关联学习模块,学习AU之间的关联信息;在图卷积操作前后引入全连接层,应用激活函数进行非线性映射;此外,为了避免梯度消失,引入了残差连接;该过程可以被公式化为:
在动态AU关联学习模块中引入一个具有两层全连接层的前馈网络,以缓解图卷积过程中出现的过度平滑问题;所述前馈网络采用残差连接;该过程可以被公式化:
所述动态AU关联学习模块包含S个阶段,每个阶段包括图结构的初始化或更新以及L i 个图结构数据处理块;最后,第S个阶段的输出特征为。动态AU关联学习通过在每个阶段结束后更新图结构,充分利用了浅层特征的纹理信息和深层特征的语义信息的异同之处,构建出不同的图结构,以充分交流和聚合相关AU之间的信息,提取更有效、更隐式的关联信息。
优选地,所述步骤8具体包括以下内容:
步骤8.3、将步骤8.2中所得的特征C输入到由全连接层构成的分类器中,进行最终的AU检测。
优选地,AU检测被视为一个二进制多标签分类问题,以往许多方法常常采用带权重的多标签交叉熵损失函数进行监督。但是,对于不同AU的检测的难度是不同的,上述的损失函数并没有将难度的差异考虑在内。因此,引入带权重的非对称损失函数来重点关注难以被正确识别的激活的AU和未激活的AU,具体计算公式为:
此外,考虑到AU检测强烈地偏向于未发生,引入带权重的多标签骰子损失函数具体计算公式为:
优选地,步骤10中所述的联合优化后的损失函数为:
其中,L wa 表示带权重的非对称损失函数;L dice 表示带权重的多标签骰子损失函数;L land 表示人脸对齐损失函数。
与现有技术相比,本发明提供了基于动态关联信息嵌入的面部动作单元检测方法,具备以下有益效果:
(1)本发明区别于之前应用固定的AU关联图谱进行AU关联信息学习的方法,打破了固定关联图谱的束缚,随着网络的深入不断更新图谱结构,充分利用了浅层特征的纹理信息和深层特征的语义关系。相较于以往的研究,本发明捕捉的AU关联信息更加全面,也更为准确。
(2)本发明区别于之前的应用全连接图进行AU关联信息学习的方法,采用更为简洁的动态更新的图谱结构,用更少的边捕捉到了更准确的AU关联信息。相较于以往研究,本发明更加节省算力,效率更高,便于实际应用。
(3)本发明探究了AU关联信息学习和多尺度特征学习的有效融合,并探讨了多尺度特征学习对于AU关联信息学习的促进作用。相较于之前的方法,本发明得到的融合后的AU特征表示更为鲁棒。
(4)考虑到收集和标注AU相关的数据耗时耗力,本发明采用随机裁剪、随机水平翻转和随机颜色抖动的数据增广方法,有效地扩充了数据集,缓解了该问题,有助于网络模型的训练,进一步提高了模型的检测性能。
附图说明
图1为本发明提出的基于动态关联信息嵌入的面部动作单元检测方法的设计框架流程图;
图2为本发明实施例1中不同类型的AU关联图谱结构的对比示意图;其中,(a)表示固定的AU关联图谱;(b)表示全连接的AU关联图谱;(c)表示本发明提出的动态AU关联图谱;
图3为本发明实施例1中得到的AU关联图谱与之前方法得到的AU关联图谱的对比示意图;其中,(a)表示基于FACS理论总结的固定的AU关联图谱;(b)表示基于数据集统计的固定的AU关联图谱;(c)表示本发明提出的动态AU关联图谱的浅层图谱;(d)表示本发明提出的动态AU关联图谱的深层图谱。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明提出一种基于动态关联信息嵌入的面部动作单元检测方法,该发明受到“国家自然科学基金-基于自监督学习的人体微姿态识别和情感分析项目62171309”的资助,主要目的在于解决现有AU检测方法存在的以下问题:
1)不能有效且高效地探索AU之间潜在的关联信息。以前的方法通常通过固定的AU关联图谱对AU之间的关联信息进行聚合和传递,这种固定的AU关联图谱包含的关联信息往往是不全面的,且不够准确,这限制了AU检测方法的性能。最新的方法构建了一个全连接图,进而对所有的AU对进行了多维边缘特征的学习以提取关联信息,理论上,该方法得到的AU关联信息是全面的,但是全连接图的引入带来了关联信息冗余、计算成本昂贵的问题,使得该方法效率较低。
2)没有探索多尺度区域特征学习与AU关联信息学习之间的有效融合。众所周知,不同的AU在面部的不同区域被激活,且每个AU对应的感兴趣区域(ROI)大小是不同的。因此,之前的一些方法尝试对人脸图像进行多尺度特征学习,以获得更丰富人脸特征。然而,现有的方法并没有探究将多尺度特征学习与AU关联信息学习进行有效地融合以及两者融合后产生的相互影响。
针对上述问题,本发明不同于采用固定的AU关联图谱或全连接图进行AU关联信息学习的方法,打破了这种固有的思维,引入了一个动态更新的AU关联图谱,该图谱旨在利用不同阶段得到的表意不同的特征,自适应地更新AU关联图谱,以挖掘更抽象的AU关联信息。具体来说,浅层特征包含丰富的纹理信息,其可以反应肌肉的细粒度变化,通过肌肉运动的相似性可以推断出AU之间的部分关联信息。随着网络层的加深,节点的特征趋于抽象,这些特征主要表征了各个AU的语义信息,通过语义信息的相似性则可以补充纹理信息中无法捕获的隐式的AU关联信息。本发明的动态更新的AU关联图谱并非全连接图,因此更简洁也更加节省算力。除此之外,本发明还探究了AU关联信息学习和多尺度特征学习的有效融合,得到了更为鲁棒的AU特征表示。
基于上述描述,本发明所提出的基于动态关联信息嵌入的面部动作单元检测方法具体包括如下内容:
实施例1:
本发明提出一种基于动态关联信息嵌入的面部动作单元检测方法,请参阅图1,其整体流程可以分为四大模块:
1)茎网络模块:对于输入的预处理后的人脸图像利用多层卷积层进行特征提取,得到基础特征,方便用于后续的处理。
2)多尺度特征学习模块:考虑到不同的AU对应着各种各样的大小的区域,因此引入多尺度特征学习模块来捕捉面部的多尺度全局特征。该模块将Transformer主干网络后三个阶段提取的特征进行插值,使它们的空间大小与第一阶段提取的特征保持一致,然后将这些对齐的特征在通道维度上进行连接,从而整合了不同阶段输出的特征,得到了包含更为丰富的面部特征的多尺度特征,其对于区域大小并不一致的各个AU具有更强的表征能力。
3)Landmark预测器:Landmark预测器主要用于提取面部的形状信息,并预测Landmark的具体位置坐标,以用于后续的ROI的裁剪。
4)动态AU关联学习模块:该模块主要用于提取不同AU之间的关联信息。与之前存在的固定的和全连接的AU关联图谱(如图2(a)、(b)所示)不同,该模块充分利用了浅层的纹理信息和深层的语义关系,在各个阶段不断地重新计算K近邻并更新图结构,以挖掘更为全面和隐式的AU关联信息,如图2(c)所示。该模块捕捉到的AU关联图谱与固定的AU关联图谱的对比详见图3。与全连接的AU关联图谱对比,该模块的动态AU关联图谱更简洁且更加节省计算量,便于应用。
针对每一模块中的细节部分,详细介绍具体实施步骤如下:
步骤1:利用关键点(Landmark)对每张原始人脸图像进行相似度变换,相似度变换包括平面内旋转、均匀缩放和平移,其在保留面部形状和表情信息的同时去除了头部姿势的干扰。然后将变换后的人脸图像调整为256×256。
步骤2:为了增加数据的多样性,对人脸图像进行数据增广。数据增广方法包括将人脸图像随机裁剪为224×224、随机水平翻转和随机颜色抖动(对比度、亮度)。
步骤3:将预处理后的人脸图像输入到茎网络中,以提取基础的特征,方便后续操作,如图1左侧内容所示。茎网格的结构与由若干个连续的卷积层构成,其与所选择的Transformer主干网络的茎网络结构保持一致;所述茎网格的输入为大小为H×W×3的人脸图像,经特征提取操作后,得到大小为的输出作为基础特征,供模型后续处理。
步骤4:将茎网络提取的基础特征输入到多尺度特征学习模块,以获得面部的多尺度全局特征,如图1底部内容所示。Transformer主干网络在进行特征提取时可大致划分为四个阶段,其中每个阶段均由一个嵌入层和若干个连续的Transformer块组成,Transformer块中主要包含多头自注意力模块和线性层。多尺度特征学习模块整合了不同阶段输出的特征,以进行多尺度特征的提取。具体来说,所述多尺度特征学习模块将Transformer主干网络后三个阶段提取的特征进行插值,使它们的空间大小与第一阶段提取的特征保持一致,然后将对齐的特征在通道维度上进行连接,从而得到多尺度特征。多尺度特征包含了更为丰富的面部特征,对于区域大小并不一致的各个AU具有更强的表征能力。
步骤5:将茎网络提取的基础特征输入到Landmark预测器,以获得具体的Landmark位置坐标,如图1顶部内容所示。Landmark预测器用于提取面部的形状信息,并预测Landmark的具体位置坐标。Landmark预测器包含三个连续的块,每个块主要由两个卷积层和一个最大池化层组成。每次卷积操作后,都对特征进行批归一化处理,并采用ReLU激活函数进行非线性转换。将最后一个最大池化层获得的特征拉平并输入到全连接层中,进行Landmark预测。全连接层的输出维度为N land ,即Landmark坐标的个数。
步骤6:根据步骤5中的Landmark预测值计算人脸对齐损失函数。人脸对齐损失函数的公式如下
其中,d 2i-1和d 2i 分别表示第i个关键点(Landmark)的x轴坐标和y轴坐标的真值;和/>表示第i个Landmark的x轴坐标和y轴坐标的预测值;d o 表示对真值进行归一化后的眼间距离。
步骤7:根据Landmark位置坐标计算特定于各个AU的中心,并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征,进行动态AU关联性学习,如图二中部。首先根据预测得到的Landmark位置坐标计算得出特定于各个AU的中心的位置坐标。由于茎网络输出的特征的空间大小与输入图像的并不相同,因此需要将Landmark的坐标乘以η因子进行缩放。然后,根据AU的中心从基础特征中裁剪出相应的ROI局部特征,其中ROI局部特征与基础特征的空间大小比。每个ROI局部特征的大小为/>。
将ROI局部特征拉平,并将每个ROI特征作为一个图节点,其中。因此,节点集合可以表示为/>,其中,N ROI 为ROI的个数。在特征域中,节点之间的相关性与特征之间距离呈负相关,即特征之间的距离越小,相关性则越大,反之亦然。基于上述的特征,通过KNN算法计算每个节点的K近邻,得到边集合E。至此构造出AU关联图谱G=(V,E)。
已知图结构数据,应用图卷积操作对相邻节点之间的信息进行聚合和交流,从而学习AU之间的关联信息。为了增加特征的多样性,在图卷积操作前后引入全连接层,并应用激活函数进行非线性映射。此外,为了避免梯度消失,引入了残差连接。该过程可以被公式化为
该模块还引入了一个具有两层全连接层的前馈网络,以缓解图卷积过程中出现的过度平滑问题。前馈网络中同样采用了残差连接。该过程可以被公式化为
动态AU关联学习模块包含S个阶段,每个阶段包括图结构的初始化或更新以及L i 个图结构数据处理块。最后,第S个阶段的输出特征为。动态AU关联学习通过在每个阶段结束后更新图结构,充分利用了浅层特征的纹理信息和深层特征的语义信息的异同之处,构建出不同的图结构,以充分交流和聚合相关AU之间的信息,提取更有效、更隐式的关联信息。
步骤8:将动态AU关联学习与多尺度特征学习得到的特征进行结合,并送入全连接层,实现最终的AU检测,如图1右侧部分所示。考虑到多尺度特征A和AU关联特征B的大小不一致,因此对A进行变换,以将两个模块的特征整合。将A在空间维度上展开,得到,其中/>。然后,将A’和B进行连接,得到具有全面有效的信息的特征/>,最后将C输入到由全连接层构成的分类器中,进行最终的AU检测。
步骤9:根据步骤8中全连接层的输出计算带权重的非对称损失函数和带权重的多标签骰子损失函数。AU检测被视为一个二进制多标签分类问题,以往许多方法常常采用带权重的多标签交叉熵损失函数进行监督。但是,对于不同AU的检测的难度是不同的,上述的损失函数并没有将难度的差异考虑在内。因此,引入带权重的非对称损失函数来重点关注难以被正确识别的激活的AU和未激活的AU,其公式如下
此外,考虑到AU检测强烈地偏向于未发生,引入带权重的多标签骰子损失,其公式如下
步骤10:对步骤6和步骤9中的损失函数进行联合优化,梯度回传更新模型参数。联合优化的公式如下
其中,L wa 表示带权重的非对称损失函数;L dice 表示带权重的多标签骰子损失函数;L land 表示人脸对齐损失函数。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.基于动态关联信息嵌入的面部动作单元检测方法,其特征在于,具体包括以下内容:
步骤1:利用关键点对每张原始人脸图像进行相似度变换,并将变换后的人脸图像调整为相同大小;
步骤2:对人脸图像进行数据增广,增加数据的多样性;
步骤3:将步骤2中处理后的人脸图像输入到茎网络中,提取基础特征;
步骤4:将步骤3中所得的基础特征输入到多尺度特征学习模块,获得面部的多尺度全局特征;
步骤5:将步骤3中所得的基础特征输入到关键点预测器,获得具体的关键点位置坐标预测值;
步骤6:根据步骤5中的关键点位置坐标预测值计算人脸对齐损失函数;
步骤7:根据关键点位置坐标计算特定于各个AU的中心,并进一步从茎网络提取的基础特征中裁剪出相应的ROI局部特征,进行动态AU关联性学习;
步骤8:将步骤7中所得的动态AU关联学习与步骤4中所得的多尺度特征学习得到的特征进行结合,并送入全连接层,实现最终的AU检测;
步骤9:根据步骤8中全连接层的输出计算带权重的非对称损失函数和带权重的多标签骰子损失函数;
步骤10:对步骤6和步骤9中的损失函数进行联合优化,梯度回传更新模型参数。
2.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法,其特征在于,步骤1所述的相似度变换包括平面内旋转、均匀缩放和平移。
3.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法,其特征在于,步骤2所述的数据增广的方法包括将人脸图像随机裁剪、随机水平翻转和随机颜色抖动。
6.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法,其特征在于,步骤5中所述的关键点预测器用于提取面部的形状信息,并预测关键点的具体位置坐标;所述关键点预测器包含三个连续的块,每个块由两个卷积层和一个最大池化层组成;所述卷积层每次卷积操作后,对特征进行批归一化处理,并采用ReLU激活函数进行非线性转换;将最后一个最大池化层获得的特征拉平输入到全连接层中,进行关键点预测;所述全连接层的输出维度为N land 。
8.根据权利要求1所述的基于动态关联信息嵌入的面部动作单元检测方法,其特征在于,所述步骤7具体包括以下内容:
首先根据预测得到的关键点位置坐标计算得出特定于各个AU的中心的位置坐标,将关键点的坐标乘以η因子进行缩放;然后,根据AU的中心从基础特征中裁剪出相应的ROI局部特征,其中ROI局部特征与基础特征的空间大小比为,每个ROI局部特征的大小为;
将ROI局部特征拉平,并将每个ROI特征作为一个图节点,其中;节点集合表示为/>,其中,N ROI 为ROI的个数;在特征域中,节点之间的相关性与特征之间距离呈负相关,即特征之间的距离越小,相关性则越大,反之亦然;基于上述的特征,通过KNN算法计算每个节点的K近邻,得到边集合E;至此构造出AU关联图谱G=(V,E);
已知图结构数据,应用图卷积操作对相邻节点之间的信息进行聚合和交流,构建动态AU关联学习模块,学习AU之间的关联信息;在图卷积操作前后引入全连接层,应用激活函数进行非线性映射,并引入残差连接;该过程公式化表示为:
在动态AU关联学习模块中引入一个具有两层全连接层的前馈网络,所述前馈网络采用残差连接;该过程公式化表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310452017.XA CN116416667B (zh) | 2023-04-25 | 2023-04-25 | 基于动态关联信息嵌入的面部动作单元检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310452017.XA CN116416667B (zh) | 2023-04-25 | 2023-04-25 | 基于动态关联信息嵌入的面部动作单元检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116416667A true CN116416667A (zh) | 2023-07-11 |
CN116416667B CN116416667B (zh) | 2023-10-24 |
Family
ID=87049382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310452017.XA Active CN116416667B (zh) | 2023-04-25 | 2023-04-25 | 基于动态关联信息嵌入的面部动作单元检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416667B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814611A (zh) * | 2020-06-24 | 2020-10-23 | 重庆邮电大学 | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 |
WO2020248841A1 (zh) * | 2019-06-13 | 2020-12-17 | 平安科技(深圳)有限公司 | 图像的au检测方法、装置、电子设备及存储介质 |
CN112990077A (zh) * | 2021-04-02 | 2021-06-18 | 中国矿业大学 | 基于联合学习与光流估计的面部动作单元识别方法及装置 |
CN114758382A (zh) * | 2022-03-28 | 2022-07-15 | 华中科技大学 | 基于自适应补丁学习的面部au检测模型建立方法及应用 |
CN114780748A (zh) * | 2022-04-25 | 2022-07-22 | 天津大学 | 基于先验权重增强的知识图谱的补全方法 |
CN114842542A (zh) * | 2022-05-31 | 2022-08-02 | 中国矿业大学 | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 |
CN115223190A (zh) * | 2022-02-09 | 2022-10-21 | 华侨大学 | 一种基于人体结构引导学习网络的姿态估计方法及系统 |
CN115471885A (zh) * | 2022-08-24 | 2022-12-13 | 深圳市海清视讯科技有限公司 | 动作单元相关性学习方法、装置、电子设备及存储介质 |
-
2023
- 2023-04-25 CN CN202310452017.XA patent/CN116416667B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020248841A1 (zh) * | 2019-06-13 | 2020-12-17 | 平安科技(深圳)有限公司 | 图像的au检测方法、装置、电子设备及存储介质 |
CN111814611A (zh) * | 2020-06-24 | 2020-10-23 | 重庆邮电大学 | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 |
CN112990077A (zh) * | 2021-04-02 | 2021-06-18 | 中国矿业大学 | 基于联合学习与光流估计的面部动作单元识别方法及装置 |
CN115223190A (zh) * | 2022-02-09 | 2022-10-21 | 华侨大学 | 一种基于人体结构引导学习网络的姿态估计方法及系统 |
CN114758382A (zh) * | 2022-03-28 | 2022-07-15 | 华中科技大学 | 基于自适应补丁学习的面部au检测模型建立方法及应用 |
CN114780748A (zh) * | 2022-04-25 | 2022-07-22 | 天津大学 | 基于先验权重增强的知识图谱的补全方法 |
CN114842542A (zh) * | 2022-05-31 | 2022-08-02 | 中国矿业大学 | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 |
CN115471885A (zh) * | 2022-08-24 | 2022-12-13 | 深圳市海清视讯科技有限公司 | 动作单元相关性学习方法、装置、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
YINGRUO FAN.ET AL: "Facial Action Unit Intensity Estimation via Semantic Correspondence Learning with Dynamic Graph Convolution", 《ARXIV》 * |
ZHIWEN SHAO.ET AL: "Facial action unit Stem Network Multi scale Landmark Deep Adaptive Attention for Joint Facial Action Unit Detection and Face Alignment", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
季丰达: "基于异构数据与多特征融合的微表情识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02 * |
胡博阳: "基于面部关键点标准化与图神经网络的微表情识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116416667B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131985B (zh) | 一种基于OpenPose改进的实时轻量人体姿态估计方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN106355248A (zh) | 一种深度卷积神经网络训练方法及装置 | |
Aghamaleki et al. | Multi-stream CNN for facial expression recognition in limited training data | |
CN107729993A (zh) | 利用训练样本及折中度量的3d卷积神经网络构建方法 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN116645716B (zh) | 基于局部特征和全局特征的表情识别方法 | |
CN114494195A (zh) | 用于眼底图像分类的小样本注意力机制并行孪生方法 | |
WO2023226186A1 (zh) | 神经网络训练方法、人体运动识别方法及设备、存储介质 | |
Xu et al. | Face expression recognition based on convolutional neural network | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN111612046B (zh) | 特征金字塔图卷积神经网络及其在3d点云分类中的应用 | |
CN113344077A (zh) | 一种基于卷积胶囊网络结构的抗噪茄科病害识别方法 | |
CN115546888A (zh) | 一种基于身体部位分组的对称语义图卷积姿态估计方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN107292821B (zh) | 一种超分辨率图像重建方法及系统 | |
CN114764941A (zh) | 一种表情识别方法、装置以及电子设备 | |
CN114495211A (zh) | 基于图卷积网路的微表情识别方法、系统及计算机介质 | |
CN117576753A (zh) | 基于面部关键点的注意力特征融合的微表情识别方法 | |
CN113435315A (zh) | 一种基于双路神经网络特征聚合的表情识别方法 | |
CN116416667B (zh) | 基于动态关联信息嵌入的面部动作单元检测方法 | |
Sun et al. | A three-dimensional human motion pose recognition algorithm based on graph convolutional networks | |
CN116758621A (zh) | 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法 | |
CN113159007B (zh) | 一种基于自适应图卷积的步态情感识别方法 | |
CN113076890B (zh) | 基于改进的通道注意力机制的人脸表情识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |