CN116167426A - 人脸关键点定位模型的训练方法及人脸关键点定位方法 - Google Patents
人脸关键点定位模型的训练方法及人脸关键点定位方法 Download PDFInfo
- Publication number
- CN116167426A CN116167426A CN202211573929.4A CN202211573929A CN116167426A CN 116167426 A CN116167426 A CN 116167426A CN 202211573929 A CN202211573929 A CN 202211573929A CN 116167426 A CN116167426 A CN 116167426A
- Authority
- CN
- China
- Prior art keywords
- key point
- heat map
- face
- model
- point positioning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012549 training Methods 0.000 title claims abstract description 85
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 230000015654 memory Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000001815 facial effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000004807 localization Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种人脸关键点定位模型的训练方法及人脸关键点定位方法,涉及深度学习技术领域。该方法包括:获取样本图像,并获取样本图像之中人脸的关键点热图标签和人脸的关键点坐标真实值;将样本图像输入至热图特征提取模块,获得热图特征提取模块输出的关键点热图;将关键点热图输入至坐标回归模块,获得坐标回归模块输出的关键点坐标预测值;根据关键点热图标签和关键点热图,生成第一损失值;根据关键点坐标真实值和关键点坐标预测值,生成第二损失值;根据第一损失值和第二损失值,训练人脸关键点定位模型。本申请的训练方法可提升模型的训练效率,优化计算资源的合理分配。此外,训练获得的模型可提高关键点定位结果的准确度和稳定性。
Description
技术领域
本申请涉及深度学习领域,尤其涉及一种人脸关键点定位模型的训练方法及人脸关键点定位方法。
背景技术
人脸关键点定位技术旨在从人脸图片中,识别出一些具有特殊语义信息的点,例如嘴角、鼻尖、眉梢等,后续以基于相应算法对识别出的人脸关键点进行进一步处理。人脸关键点定位技术作为一种非常重要的计算机视觉算法,在图像分析、医疗诊断、人脸建模中被广泛应用。因此,如何训练一种人脸关键点定位模型,使其既能保证关键点识别精度、运行速度的同时,识别结果还能具有较好的稳定性,成为本领域重点研究方向之一。
发明内容
本申请提供了一种人脸关键点定位模型的训练方法及人脸关键点定位方法。
根据本申请的第一方面,提供了一种人脸关键点定位模型的训练方法,包括:
获取样本图像,并获取所述样本图像之中人脸的关键点热图标签和所述人脸的关键点坐标真实值;
将所述样本图像输入至所述热图特征提取模块,获得所述热图特征提取模块输出的关键点热图;
将所述关键点热图输入至所述坐标回归模块,获得所述坐标回归模块输出的关键点坐标预测值;
根据所述关键点热图标签和所述关键点热图,生成第一损失值;
根据所述关键点坐标真实值和所述关键点坐标预测值,生成第二损失值;
根据所述第一损失值和所述第二损失值,训练所述人脸关键点定位模型。
根据本申请的第二方面,提供了一种人脸关键点定位方法,包括:
获取待检测图像;
将所述待检测图像输入至预设的人脸关键点定位模型,获得所述待检测图像中人脸关键点定位信息;
其中,所述人脸关键点定位模型为基于前述第一方面所述的训练方法训练得到的模型。
根据本申请的第三方面,提供了一种人脸关键点定位模型的训练装置,包括:
第一获取模块,用于获取样本图像,并获取所述样本图像之中人脸的关键点热图标签和所述人脸的关键点坐标真实值;
第二获取模块,用于将所述样本图像输入至所述热图特征提取模块,获得所述热图特征提取模块输出的关键点热图;
第三获取模块,将所述关键点热图输入至所述坐标回归模块,获得所述坐标回归模块输出的关键点坐标预测值;
第一生成模块,用于根据所述关键点热图标签和所述关键点热图,生成第一损失值;
第二生成模块,用于根据所述关键点坐标真实值和所述关键点坐标预测值,生成第二损失值;
训练模块,用于根据所述第一损失值和所述第二损失值,训练所述人脸关键点定位模型。
根据本申请的第四方面,提供了一种人脸关键点定位装置,包括:
第一获取模块,用于获取待检测图像;
第二获取模块,用于将所述待检测图像输入至预设的人脸关键点定位模型,获得所述待检测图像中人脸关键点定位信息;
其中,所述人脸关键点定位模型为基于前述第一方面所述的训练方法训练得到的模型。
根据本申请的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法,或者能够执行前述第二方面所述的方法。
根据本申请的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行前述第一方面所述的方法,或者使所述计算机执行前述第二方面所述的方法。
根据本申请实施例的人脸关键点定位模型的训练方法,通过热图特征提取模块提取关键点热图,可以提高人脸关键点定位模型定位结果的准确度。进而基于关键点热图回归出关键点坐标,使得定位结果具有较好的稳定性,因此可将该模型应用于视频数据,以提升现有方法在视频中差生的帧间抖动问题。通过本申请的训练方法训练的人脸关键点定位模型具有良好鲁棒性和泛化性,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的一种人脸关键点定位模型的训练方法的流程示意图;
图2是根据本申请实施例提供的另一种人脸关键点定位模型的训练方法的流程示意图;
图3是根据本申请实施例提供的一种人脸关键点定位模型的示意图;
图4是根据本申请实施例提供的一种人脸关键点定位方法的流程示意图;
图5是根据本申请实施例提供的一种人脸关键点定位模型的训练装置的结构框图;
图6是根据本申请实施例提供的一种人脸关键点定位装置的结构框图;
图7是根据本申请实施例提供的人脸关键点定位模型在300W、COFW、WFLW和AFLW数据集上的性能对比示意图;
图8是根据本申请实施例提供的人脸关键点定位模型在WFLW数据集上的性能对比示意图;
图9是根据本申请实施例提供的人脸关键点定位模型在300VW数据集上的性能对比示意图;
图10是根据本申请实施例提供的人脸关键点定位模型训练效率对比示意图;
图11是根据本申请实施例提供的人脸关键点定位模型运行效率对比示意图;
图12是用以实现本申请实施例的人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供了一种人脸关键点定位模型的训练方法及人脸关键点定位方法。具体地,下面参考附图描述本申请实施例的人脸关键点定位模型的训练方法及人脸关键点定位方法。
图1是根据本申请实施例提供的一种人脸关键点定位模型的训练方法的流程示意图。需要说明的是,人脸关键点定位模型包括热图特征提取模块和坐标回归模块。还需要说明的是,本申请实施例的人脸关键点定位模型的训练方法可应用于本申请实施例的人脸关键点定位模型的训练装置,该人脸关键点定位模型的训练装置可被配置于电子设备上。如图1所述,该人脸关键点定位模型的训练方法可以包括如下步骤:
步骤101,获取样本图像,并获取样本图像之中人脸的关键点热图标签和人脸的关键点坐标真实值。
作为一种可能的实现方式,在本申请一些实施例中,可确定样本图像中标注的人脸关键点。根据标注的人脸关键点的坐标信息,生成标注的人脸关键点的高斯热图。进而将标注的人脸关键点的高斯热图作为样本图像之中人脸的关键点热图标签。
步骤102,将样本图像输入至热图特征提取模块,获得热图特征提取模块输出的关键点热图。
作为一种示例,热图特征提取模块可以是ResNet、VGG、MobileNet等特征提取模块,上述的这些特征提取模型是由卷积层、BatchNorm层、激活函数等根据不同的连接方式组合而成。
可选地,在本申请一些实施例中,热图特征提取模块可实现高倍的降采样率,以缩小样本图像的特征尺度,提高训练速度的同时。以32倍降采样率作为测试,模型的精度几乎没有收到负面影响,但是在速度上有了明显的提升。
步骤103,将关键点热图输入至坐标回归模块,获得坐标回归模块输出的关键点坐标预测值。
在本申请一些实施例中,坐标回归模块可由多个全连接层(Fully ConnectedLayer)组成。全连接层可根据特征之间的关系,直接回归出坐标的准确结果。对关键点热图进行坐标回归,可提升定位结果的稳定性。因此,将该模型应用于视频数据,可以维持帧间结果的稳定和平滑。
步骤104,根据关键点热图标签和关键点热图,生成第一损失值。
作为一种示例,可根据关键点热图标签和关键点热图,通过公式(1),获得第一损失值。
其中,n为关键点数量,Yi为关键点i热图标签,Yi ′为模型所预测的关键点i的热图。
步骤105,根据关键点坐标真实值和关键点坐标预测值,生成第二损失值。
作为一种示例,在本申请一些实施例中,可确定关键点坐标预测值与关键点坐标真实值之间的差值,进而根据差值和预设的损失函数,计算第二损失值。其中,预设的损失函数如公式(2)所示。
Wing为一种分段函数,其中,ω用于约束非线性部分的范围,ε用于控制非线性函数的曲率,x为关键点坐标预测值与关键点坐标真实值之间的差值,c是一个常量。需要说明的是,当关键点为多个时,该差值为所有关键点的坐标预测值与对应的坐标真实值之间的差值总和。
步骤106,根据第一损失值和第二损失值,训练人脸关键点定位模型。
作为一种可能的实现方式,在本申请一些实施例中,根据所述第一损失值和所述第二损失值,计算模型总损失值。根据该模型总损失值在人脸关键点定位模型中进行反向传播,并在反向传播的过程中,更新人脸关键点定位模型的参数。作为一种示例,可将第一损失值与第二损失值直接相加求和,将获得的和值作为模型总损失值。作为又一种示例,可将第一损失值与第二损失值进行加权求和,将获得的和值作为模型总损失值。或者其他实现方式,本申请对此不作具体限定,也不再赘述。
根据本申请实施例的人脸关键点定位模型的训练方法,通过热图特征提取模块提取关键点热图,可以提高人脸关键点定位模型定位结果的准确度。进而基于关键点热图回归出关键点坐标,使得定位结果具有较好的稳定性,因此可将该模型应用于视频数据,以提升现有方法在视频中差生的帧间抖动问题。通过本申请的训练方法训练的人脸关键点定位模型具有良好鲁棒性和泛化性,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。此外,本申请的训练方法可提升模型的训练效率,优化计算资源的合理分配,并且能够在定位速度与精度之间取得较好平衡。
图2是根据本申请实施例提供的另一种人脸关键点定位模型的训练方法的流程示意图。如图2所述,该人脸关键点定位模型的训练方法可以包括如下步骤:
步骤201,获取样本图像,并获取样本图像之中人脸的关键点热图标签和人脸的关键点坐标真实值。
步骤202,将样本图像输入至热图特征提取模块。其中,热图特征提取模块包括卷积神经网络单元和Transformer单元。
作为一种示例,如图3所示,热图特征提取模块包括卷积神经网络单元和Transformer单元。其中,热图特征提取模块可以包括多组卷积神经网络单元和Transformer-Encoder组成。
步骤203,基于卷积神经网络单元对样本图像进行特征提取,获得局部特征。
作为一种示例,如图3所示,在本申请一些实施例中,卷积神经网络单元模型结构可以是Conv+BN+ReLU。
步骤204,基于Transformer单元对局部特征进行编码,从而提取全局特征。
作为一种示例,局部特征的尺寸为B×C×H×W,其中B表示模型在训练时的BatchSize大小,C用于表示该局部特征通道Channel数量,H表示局部特征的高,W表示局部特征的宽。将局部特征输入至Transformer单元,基于Transformer单元对局部特征进行全局特征编码,从而对局部和全局特征进行关联和建模,进一步提升热图特征提取模块的鲁棒性。在本申请一些实施例中,Transformer单元输出的特征中通道Channel数量与所需定位的人脸关键点的数量相同,因此,每一层通道Channel代表一个所需要回归的关键点具体位置的概率图。
步骤205,将提取的全局特征与局部特征进行融合,将融合后得到的特征确定为热图特征提取模块输出的关键点热图。
作为一种示例,可将提取的全局特征与局部特征进行融合处理,从而确定热图特征提取模块输出的关键点热图。
步骤206,将关键点热图输入至坐标回归模块,获得坐标回归模块输出的关键点坐标预测值。
步骤207,根据关键点热图标签和关键点热图,生成第一损失值。
步骤208,根据关键点坐标真实值和关键点坐标预测值,生成第二损失值。
步骤209,根据第一损失值和第二损失值,训练人脸关键点定位模型。
在本申请实施例中,步骤201、步骤206-步骤209可以分别采用本申请的各实施例中的任一种方式实现,对此本申请不作具体限定,也不再赘述。
根据本申请实施例的人脸关键点定位模型的训练方法,通过热图特征提取模块中的卷积神经网络单元进行局部特征提取,进而基于Transformer单元对局部特征进行全局特征提取,考虑到局部特征与全局特征之间的相关性,进一步提升了热图特征提取模块提取特征的鲁棒性,提高人脸关键点定位模型定位结果的准确度。基于关键点热图回归出关键点坐标,使得定位结果具有较好的稳定性,可将该模型应用于视频数据,以维持帧间结果的稳定。通过本申请通过结合热图回归与坐标回归方式对人脸关键点进行定位,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。
图4是根据本申请实施例提供的一种人脸关键点定位方法的流程示意图。如图4所示,该人脸关键点定位方法可以包括如下步骤:
步骤401,获取待检测图像。
步骤402,将该待检测图像输入至预设的人脸关键点定位模型,获得待检测图像中人脸关键点定位信息。
需要说明的是,本步骤中的人脸关键点定位模型为基于上述任一实施例所述的人脸关键点定位模型的训练方法训练得到的模型,在此不再赘述。
根据本申请实施例的人脸关键点定位方法,通过预先训练的人脸关键点定位模型,获得待检测图像中人脸关键点定位信息,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。
图5是根据本申请实施例提供的一种人脸关键点定位模型的训练装置的结构框图。如图5所示,该人脸关键点定位模型的训练装置包括第一获取模块501、第二获取模块502、第三获取模块503、第一生成模块504、第二生成模块505和训练模块506。其中,
第一获取模块501,用于获取样本图像,并获取样本图像之中人脸的关键点热图标签和人脸的关键点坐标真实值。
在本申请一些实施例中,第一获取模块501具体用于:确定样本图像中标注的人脸关键点;根据标注的人脸关键点的坐标信息,生成标注的人脸关键点的高斯热图;将标注的人脸关键点的高斯热图作为样本图像之中人脸的关键点热图标签。
第二获取模块502,用于将样本图像输入至热图特征提取模块,获得热图特征提取模块输出的关键点热图。
在本申请一些实施例中,热图特征提取模块包括卷积神经网络单元和Transformer单元。第二获取模块502具体用于将样本图像输入至热图特征提取模块;基于卷积神经网络单元对样本图像进行特征提取,获得局部特征;基于Transformer单元对局部特征进行全局特征提取;将提取的全局特征与局部特征进行融合,将融合后得到的特征确定为热图特征提取模块输出的关键点热图。
在本申请一些实施例中,Transformer单元输出的特征中通道Channel数量与所需定位的人脸关键点的数量相同。
在本申请一些实施例中,热图特征提取模块实现大于或等于32倍降采样率。比如,在视线中,可以进行32倍、48,或者64倍降采样。
第三获取模块503,将关键点热图输入至坐标回归模块,获得坐标回归模块输出的关键点坐标预测值。
第一生成模块504,用于根据关键点热图标签和关键点热图,生成第一损失值。
作为一种示例,可根据关键点热图标签和关键点热图,通过公式(3),获得第一损失值。
其中,n为关键点数量,Yi为关键点i热图标签,Yi ′为模型所预测的关键点i的热图。
第二生成模块505,用于根据关键点坐标真实值和关键点坐标预测值,生成第二损失值。
在本申请一些实施例中,第二生成模块505具体用于确定关键点坐标预测值与关键点坐标真实值之间的差值;根据差值和预设的损失函数,计算第二损失值;其中,预设的损失函数的公式表示如下:
Wing为一种分段函数,其中,ω用于约束非线性部分的范围,ε用于控制非线性函数的曲率,x为关键点坐标预测值与关键点坐标真实值之间的差值,c是一个常量。
训练模块506,用于根据第一损失值和第二损失值,训练人脸关键点定位模型。
在本申请一些实施例中,训练模块506具体用于:根据第一损失值和第二损失值,计算模型总损失值;根据模型总损失值在人脸关键点定位模型中进行反向传播,并在反向传播的过程中,更新人脸关键点定位模型的参数。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请实施例的人脸关键点定位模型的训练装置,通过热图特征提取模块提取关键点热图,可以提高人脸关键点定位模型定位结果的准确度。进而基于关键点热图回归出关键点坐标,使得定位结果具有较好的稳定性,可将该模型应用于视频数据,以维持帧间结果的稳定。通过本申请的训练方法训练的人脸关键点定位模型具有良好鲁棒性和泛化性,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。
图6是根据本申请实施例提供的一种人脸关键点定位装置的结构框图。如图6所示,该人脸关键点定位装置包括第一获取模块601和第二获取模块602。其中,
第一获取模块601,用于获取待检测图像。
第二获取模块602,用于将待检测图像输入至预设的人脸关键点定位模型,获得待检测图像中人脸关键点定位信息。
需要说明的是,本步骤中的人脸关键点定位模型为基于上述任一实施例所述的人脸关键点定位模型的训练方法训练得到的模型,在此不再赘述。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请实施例的人脸关键点定位装置,通过预先训练的人脸关键点定位模型,获得待检测图像中人脸关键点定位信息,既可以提高人脸关键点定位结果的准确度,同时定位结果还能具有较好稳定性。
本公开提出的人脸关键点定位模型的训练方法及人脸关键点定位方法,在精度、运行速度、训练效率中具有明显的优势。接下来通过多组对比实验来对模型的性能进行分析。
(1)模型精度分析
为了测试人脸关键点定位模型的性能,使用目前常用的五组公开数据集分别进行模型训练和对比。其中,300W、COFW、WFLW和AFLW是图像的形式,能够测试模型在图片中的性能。300VW数据集是一种视频数据,能够说明关键点定位模型在连续帧之间性能的差异。选择归一化平均误差(Normalized Mean Error,NME)作为度量指标评价所开发的方法的性能,具体计算公式如下:
其中,N是所需检测点的数量,L是归一化距离,S和S*分别表示关键点的标注结果和模型的预测结果,在该任务中本部分使用图像的对角线长度作来对结果进行归一化。NME越小,表明算法精度越高。
实验结果如图7所示。从结果可以看出,本公开提出的人脸关键点定位模型在精度上具有明显的优势。
WFLW数据集中包含了大量的极端姿态、夸张表情、模糊等复杂模态,对于算法的鲁棒性和泛化性具有极高的要求,本公开提出的人脸关键点定位模型在该数据上取得了较好的效果,更进一步说明了本方法的优势,具体结果参考图8。
300VW数据集是一种视频数据,能够说明关键点定位模型在连续帧之间性能的差异。算法在300VW数据集的性能表明,本公开提出的人脸关键点定位模型能够在视频数据中保持较好的精度和稳定性,结果如图9所示。
(2)模型训练速度比较
模型的训练速度是在实际任务中需要重点考虑的一个问题,当模型的训练速度比较快时,有限的计算资源可以用来训练更多的模型。在本公开中的人脸关键点定位模型的训练方法可以看作是一种基于热图回归和坐标回归的混合方法,并且通过模型设计和优化,极大的提升了算法的训练效率。模型在训练过程中,Backbone会提输出一组与人脸关键点的分布高度相关的特征,该特征可以看作热图回归方法中模型输出的高斯热图。然后将上述特征送到Head模块,进行坐标回归并且获取最终的准确结果。在一般的热图回归方法中,为了维持关键点模型的精度,输出的特征不能太小,一般是进行四次降采样,例如一张256×256的人脸图片经过降采样后,特征尺度变为64×64;模型训练的速度与特征尺度密切相关,同样条件下特征尺度越小,训练速度越快。本公开将特征尺度进一步缩小,并且能够维持模型的精度基本不会受到影响,Backbone输出的特征可以进行32倍降采样,因此输送到Head模块中的特征从原来的64×64缩小为8×8。本部分使用同样的实验条件,与基于热图回归的方法(HRNet)和基于坐标回归的方法(Wing)进行了训练效率的对比,如图10所示。分析发现,本公开提出的人脸关键点定位模型的训练方法能够极大地降低算法的训练时间,提升运算资源的使用效率。
(3)模型效率分析
人脸关键点定位模型是多种视觉算法的基础,因此被广泛的应用于各种不同的实际任务中。在一些任务中,人脸关键点定位模型会被部署到云端,完成高精度的人脸关键点定位任务;一些模型则会被部署到设备端,快速输出人脸关键点坐标。因此在进行模型设计和训练时,需要根据模型部署和使用的平台来进行设计,但是会极大的增加设计人员的工作量。此外,模型的推理速度、计算量等也需要在设计时重点考虑。为了解决这些问题,本公开中的人脸关键点定位模型可以兼容目前大部分常用的深度学习模型。本部分使用常用的模型作为Backbone来提取特征,并与常用的人脸关键点定位模型在参数量(Parameters)和计算量(GFLOPs)和速度(FPS)进行了对比,结果如图11所示。其中,测试平台为Intel-i7-9700。
从结果中可以看出,本公开中提出的方法能够兼容大部分常用的模型。对于云端的高精度模型和移动端的小模型都能够较好的支持。既保证了算法的精度,还能维持较小的模型参数量和计算量,并且运行速度也优于现有的方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,图12是用以实现本申请实施例的人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的人脸关键点定位模型的训练方法或者人脸关键点定位方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的人脸关键点定位模型的训练方法或者人脸关键点定位方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的人脸关键点定位模型的训练方法或者人脸关键点定位方法对应的程序指令/模块(例如,附图5所示的第一获取模块501、第二获取模块502、第三获取模块503、第一生成模块504、第二生成模块505和训练模块506,以及附图6所示的第一获取模块601和第二获取模块602)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的人脸关键点定位模型的训练方法或者人脸关键点定位方法。
存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至用以实现人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1203可接收输入的数字或字符信息,以及产生与人脸关键点定位模型的训练方法或者人脸关键点定位方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,即本申请还提出了一种计算机程序,该计算机程序在被处理器执行时,实现上述实施例所描述的人脸关键点定位模型的训练方法或者人脸关键点定位方法,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种人脸关键点定位模型的训练方法,其特征在于,所述人脸关键点定位模型包括热图特征提取模块和坐标回归模块,所述训练方法包括:
获取样本图像,并获取所述样本图像之中人脸的关键点热图标签和所述人脸的关键点坐标真实值;
将所述样本图像输入至所述热图特征提取模块,获得所述热图特征提取模块输出的关键点热图;
将所述关键点热图输入至所述坐标回归模块,获得所述坐标回归模块输出的关键点坐标预测值;
根据所述关键点热图标签和所述关键点热图,生成第一损失值;
根据所述关键点坐标真实值和所述关键点坐标预测值,生成第二损失值;
根据所述第一损失值和所述第二损失值,训练所述人脸关键点定位模型。
2.如权利要求1所述的方法,其特征在于,所述热图特征提取模块包括卷积神经网络单元和Transformer单元;所述将所述样本图像输入至所述热图特征提取模块,获得所述热图特征提取模块输出的关键点热图,包括:
将所述样本图像输入至所述热图特征提取模块;
基于所述卷积神经网络单元对所述样本图像进行特征提取,获得局部特征;
基于所述Transformer单元对所述局部特征进行编码,从而提取全局特征;
将所述提取的全局特征与所述局部特征进行融合,将所述融合后得到的特征确定为所述热图特征提取模块输出的关键点热图。
3.如权利要求2所述的方法,其特征在于,所述Transformer单元输出的特征中通道Channel数量与所需定位的人脸关键点的数量相同。
4.如权利要求1所述的方法,其特征在于,所述获取所述样本图像之中人脸的关键点热图标签,包括:
确定所述样本图像中标注的人脸关键点;
根据所述标注的人脸关键点的坐标信息,生成所述标注的人脸关键点的高斯热图;
将所述标注的人脸关键点的高斯热图作为所述样本图像之中人脸的关键点热图标签。
6.如权利要求1所述的方法,其特征在于,所述根据所述第一损失值和所述第二损失值,训练所述人脸关键点定位模型,包括:
根据所述第一损失值和所述第二损失值,计算模型总损失值;
根据所述模型总损失值在所述人脸关键点定位模型中进行反向传播,并在反向传播的过程中,更新所述人脸关键点定位模型的参数。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述热图特征提取模块实现大于或等于32倍降采样率。
8.一种人脸关键点定位方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入至预设的人脸关键点定位模型,获得所述待检测图像中人脸关键点定位信息;
其中,所述人脸关键点定位模型为基于如权利要求1至7中任一项所述的训练方法训练得到的模型。
9.一种人脸关键点定位模型的训练装置,其特征在于,包括:
第一获取模块,用于获取样本图像,并获取所述样本图像之中人脸的关键点热图标签和所述人脸的关键点坐标真实值;
第二获取模块,用于将所述样本图像输入至所述热图特征提取模块,获得所述热图特征提取模块输出的关键点热图;
第三获取模块,将所述关键点热图输入至所述坐标回归模块,获得所述坐标回归模块输出的关键点坐标预测值;
第一生成模块,用于根据所述关键点热图标签和所述关键点热图,生成第一损失值;
第二生成模块,用于根据所述关键点坐标真实值和所述关键点坐标预测值,生成第二损失值;
训练模块,用于根据所述第一损失值和所述第二损失值,训练所述人脸关键点定位模型。
10.一种人脸关键点定位装置,其特征在于,包括:
第一获取模块,用于获取待检测图像;
第二获取模块,用于将所述待检测图像输入至预设的人脸关键点定位模型,获得所述待检测图像中人脸关键点定位信息;
其中,所述人脸关键点定位模型为基于如权利要求1至7中任一项所述的训练方法训练得到的模型。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的方法,或者能够执行如权利要求8所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1至7中任一项所述的方法,或者使所述计算机执行如权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211573929.4A CN116167426A (zh) | 2022-12-08 | 2022-12-08 | 人脸关键点定位模型的训练方法及人脸关键点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211573929.4A CN116167426A (zh) | 2022-12-08 | 2022-12-08 | 人脸关键点定位模型的训练方法及人脸关键点定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116167426A true CN116167426A (zh) | 2023-05-26 |
Family
ID=86420912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211573929.4A Pending CN116167426A (zh) | 2022-12-08 | 2022-12-08 | 人脸关键点定位模型的训练方法及人脸关键点定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116167426A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958584A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
-
2022
- 2022-12-08 CN CN202211573929.4A patent/CN116167426A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958584A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
CN116958584B (zh) * | 2023-09-21 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11841921B2 (en) | Model training method and apparatus, and prediction method and apparatus | |
CN111968203B (zh) | 动画驱动方法、装置、电子设备及存储介质 | |
CN111860167B (zh) | 人脸融合模型获取及人脸融合方法、装置及存储介质 | |
CN112270669B (zh) | 人体3d关键点检测方法、模型训练方法及相关装置 | |
CN113963087A (zh) | 图像处理方法、图像处理模型训练方法、装置及存储介质 | |
CN111611990B (zh) | 用于识别图像中表格的方法和装置 | |
CN112270711B (zh) | 模型训练以及姿态预测方法、装置、设备以及存储介质 | |
US20210312172A1 (en) | Human body identification method, electronic device and storage medium | |
CN111783605A (zh) | 一种人脸图像识别方法、装置、设备及存储介质 | |
CN111695519B (zh) | 关键点定位方法、装置、设备以及存储介质 | |
CN110659600A (zh) | 物体检测方法、装置及设备 | |
US20220027854A1 (en) | Data processing method and apparatus, electronic device and storage medium | |
CN111967297A (zh) | 图像的语义分割方法、装置、电子设备及介质 | |
CN111523467B (zh) | 人脸跟踪方法和装置 | |
CN114202074A (zh) | 用于目标检测任务的预训练模型生成方法、装置及设备 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
KR20220014865A (ko) | 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체 | |
CN112241716A (zh) | 训练样本的生成方法和装置 | |
JP7267379B2 (ja) | 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器 | |
CN111862031A (zh) | 一种人脸合成图检测方法、装置、电子设备及存储介质 | |
CN116167426A (zh) | 人脸关键点定位模型的训练方法及人脸关键点定位方法 | |
CN112508964B (zh) | 图像分割方法、装置、电子设备和存储介质 | |
CN112508027B (zh) | 用于实例分割的头部模型、实例分割模型、图像分割方法及装置 | |
CN111833391B (zh) | 图像深度信息的估计方法及装置 | |
WO2021227333A1 (zh) | 人脸关键点检测方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |