CN112733700A

CN112733700A - 人脸关键点检测方法、装置、计算机设备和存储介质

Info

Publication number: CN112733700A
Application number: CN202110009926.7A
Authority: CN
Inventors: 丘延君; 问倩
Original assignee: Forchange Technology Shenzhen Co ltd
Current assignee: Forchange Technology Shenzhen Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-04-30
Anticipated expiration: 2041-01-05
Also published as: CN112733700B

Abstract

本申请涉及计算机技术领域，特别是涉及一种人脸关键点检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测人脸图像；对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据；获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点；基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。采用本方法能够降低人脸关键点检测的复杂度。

Description

人脸关键点检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种人脸关键点检测方法、装置、计算机设备和存储介质。

背景技术

面部关键点检测即人脸对齐是指给定人脸图像上，定位出面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。作为其它相关人脸问题的基础，如人脸识别和验证、面部变形、表情分析、三维人脸重建等，在过去的几年里取得了很大的进步，引起了计算机视觉界的广泛关注。

在传统方式中，人脸对齐网络先将不同姿态的人脸规范化到一张标准人脸，然后进行后续的处理。

但是，由于需要对人脸进行标准化，需要在检测模型内部加入了一个人脸对齐网络，使得模型结构复杂，从而使得人脸关键点检测的流程较为复杂。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低人脸关键点检测的复杂度的人脸关键点检测方法、装置、计算机设备和存储介质。

一种人脸关键点检测方法，所述方法包括：

获取待检测人脸图像；

对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据；

获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点；

基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

一种人脸关键点检测装置，所述装置包括：

待检测人脸图像获取模块，用于获取待检测人脸图像；

预处理模块，用于对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据；

先验关键点集合获取模块，用于获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点；

分类检测模块，用于基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述人脸关键点检测方法、装置、计算机设备和存储介质，通过获取待检测人脸图像，并对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据，然后获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点，进一步基于先验关键点集合以及特征数据，对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。从而，根据获取到的先验关键点对采集的待检测人脸图像对应的特征数据进行分类预测，即可确定待检测人脸图像中待检测人脸的检测结果，相比于传统方式中进行人脸标准化的处理，可以降低人脸关键点检测流程的复杂度，进而可以提升速度和检测效率。

附图说明

图1为一个实施例中人脸关键点检测方法的应用场景图；

图2为一个实施例中人脸关键点检测方法的流程示意图；

图3为一个实施例中检测模型的示意图；

图4为另一个实施例中检测模型的示意图；

图5为一个实施例中WFLW对应的16种不同姿态和形状的先验关键点的示意图；

图6为一个实施例中300W对应的16种不同姿态和形状的先验关键点的示意图；

图7为一个实施例中在300W训练集上聚类先验关键点的示意图；

图8为一个实施例中在不同数量先验关键点上模型评估结果的示意图；

图9为一个实施例中分类准确率的示意图；

图10为另一个实施例中分类准确率的示意图；

图11为一个实施例中WFLW和300W测试集上检测效果示意图；

图12为一个实施例中人脸关键点检测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人脸关键点检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102可以采集用户的人脸图像，并作为待检测图像通过网络发送至服务器104。服务器104在获取待检测人脸图像后，可以对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据。进一步，服务器104可以获取先验关键点集合，先验关键点集合中可以包括多个人脸分类的先验关键点，然后基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。其中，终端102可以各种具备图像采集功能的设备，例如照相机、摄像机、录像机等，或者也可以是携带有摄像头的各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种人脸关键点检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待检测人脸图像。

其中，待检测人脸图像可以包括待检测的人脸，待检测人脸图像具体可以是包含单个人脸的图像，也可以是包括多个人脸的图像，本申请对此不作限制。

在本实施例中，用户可以通过终端采集到待检测人脸图像，然后发送至服务器，并进行后续的处理。

步骤S204，对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据。

其中，预处理是对待检测人脸图像进行预先处理，得到特征数据的过程，可以包括图像尺寸归一化处理，亮度调节处理，以及特征提取处理等。

在本实施例中，服务器在获取到待检测人脸图像后，可以对待检测人脸图像进行人脸特征的特征数据提取，以得到对应待检测人脸图像的特征数据。

在本实施例中，服务器可以以并行处理的方式，对多个待检测人脸图像同时进行预处理，以得到对应的特征数据。

步骤S206，获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点。

其中，先验关键点集合是指包括多个人脸分类的先验关键点的结合，例如，包括16类人脸的人脸关键点，各先验关键点指示了不同的人脸状态。

在本实施例中，服务器可以预先获取到先验关键点集合，并存储指数据库中，并在后续需要使用时，直接获取并使用。

步骤S208，基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

具体地，服务器可以根据先验关键点结合，对特征数据进行人脸关键点的预测以及分类，以得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

在本实施例中，服务器可以通过构建的检测模型，例如，基于先验关键点的检测模型PLA，根据获取的先验关键点集合，对采集的数据进行预处理，并对得到的特征数据进行分类检测，以输出对应的人脸关键点检测结果。具体模型结构可以参考图3所示。

在本实施例中，模型可以基于先验关键点集合，设定不同的先验框，然后基于对应不同先验关键点的先验框，对特征数据进行回归预测，以得到最终的人脸关键点的预测结果。

上述人脸关键点检测方法中，通过获取待检测人脸图像，并对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据，然后获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点，进一步基于先验关键点集合以及特征数据，对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。从而，根据获取到的先验关键点对采集的待检测人脸图像对应的特征数据进行分类预测，即可确定待检测人脸图像中待检测人脸的人脸关键点检测结果，相比于传统方式中进行人脸标准化的处理，可以降低人脸关键点检测流程的复杂度，进而可以提升速度和检测效率。

在其中一个实施例中，基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果，可以包括：根据特征数据，预测待检测人脸图像中待检测人脸的待检测关键点与各分类对应的各先验关键点之间的偏移量；根据各偏移量，确定对应待检测人脸的目标先验关键点；基于目标先验关键点以及对应的偏移量，确定待检测人脸图像中待检测人脸的目标关键点，作为待检测人脸图像中待检测人脸的人脸关键点检测结果。

在本实施例中，是在先验关键点基础上提出了单阶段回归的卷积神经网络，即检测模型PLA。

在本实施例中，参考图4所示，检测模型PLA的网络结构由三个模块组成，即主干网络模块、分类模块以及回归模块。

其中，主干网络选择轻量级的网络结构MobileNetV2，其深度可分离卷积、linearbottlenecks和反向残差等操作可以提升网络的性能，通过MobileNetV2代替传统的卷积网络，可以降低主干网络的计算复杂度，进而以提升主干网络的处理速度。

在本实施例中，分类模块采用卷积层和池化层。传统方式中大多数分类网络最后几层选用全联接层，模型参数量会增加，可能占整个网络参数80％左右。本申请方案使用全局平均池化GAP(global average pooling)取代FC，可以提升网络的预测性能。

进一步，回归模块采用一层卷积层。传统方式中许多检测网络选用多层特征融合，考虑不同尺度特征，在复杂任务上带来一定性能提升，其主要影响小物体和超大尺度物体的检测和识别，关注一张图片中多个物体。但是，由于关键点检测是在一张固定大小的人脸图像上，仅围绕一个物体，因此，多尺度特征融合不会产生明显效果，本申请方案采用一层卷积层，可以在不影响模型精度的情况下，达到简化模型结构的效果。检测模型PLA具体的模型结构如表1所示。

表1 PLA具体的模型结构

在本实施例中，服务器在通过主干网络进行特征提取，得到对应的特生数据后，可以根据得到的特征数据，以及模型中基于各先验关键点确定的先验框，对待检测人脸图像中待检测人脸的待检测关键点与各分类对应的各先验关键点之间的偏移量进行预测。

在其中一个实施例中，根据各偏移量，确定对应待检测人脸的目标先验关键点，可以包括：基于预设条件，从多个分类的先验关键点对应的偏移量中确定目标偏移量，并根据目标偏移量，确定对应待检测人脸的目标分类；根据目标分类，确定对应待检测人脸的目标先验关键点。

在本实施例中，服务器根据预测得到的各偏移量，确定对应待检测人脸的目标先验关键点。例如，服务器可以根据对偏移量进行比较，并从中确定目标偏移量，如，确定偏移量最小的一个为目标偏移量，然后基于确定的目标偏移量，从先验关键点结合中确定目标先验关键点。

具体地，服务器可以先根据目标偏移量，确定对应的目标分类，即对应于前文中16个分类中的哪一类。然后再基于确定的目标分类，从先验关键点集合中确定对应的目标先验关键点。

在本实施例中，服务器在确定目标先验关键点后，可以基于目标先验关键点以及对应的偏移量，确定待检测人脸图像中待检测人脸的各目标关键点，并将目标关键点与对应的分类结果作为待检测人脸图像中待检测人脸的人脸关键点检测结果输出。

上述实施例中，通过根据特征数据，预测待检测人脸图像中待检测人脸的待检测关键点与各分类对应的各先验关键点之间的偏移量，然后根据各偏移量，确定对应待检测人脸的目标先验关键点，并基于目标先验关键点以及对应的偏移量，确定待检测人脸图像中待检测人脸的目标关键点，作为待检测人脸图像中待检测人脸的人脸关键点检测结果，相比于传统方式中的人脸检测，可以无需对人脸进行标准化，从而降低了模型的复杂程度，进而可以提升人脸检测的效率。

在其中一个实施例中，基于先验关键点集合以及特征数据，对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果是通过预先训练完成的检测模型进行的。

在本实施例中，服务器可以通过获取到的训练集数据，对构建的检测模型进行训练，并进行测试，以得到训练完成的检测模型。

在本实施例中，检测模型的训练方式可以包括：获取训练集数据；对训练集数据中各训练图像进行人脸关键点的标定，得到标定后的训练集数据；基于标定后的训练集数据，生成对应的先验关键点集合，先验关键点集合包括对应多个人脸分类的先验关键点；基于标定后的训练集数据中各训练图像的人脸关键点以及各先验关键点，确定各人脸关键点与对应的先验关键点之间的各真实偏移量；将标定后的训练集数据以及先验关键点集合输入构建的初始检测模型，进行特征提取以及偏移量的预测，得到各标定的人脸关键点与对应的先验关键点之间的预测偏移量；根据各真实偏移量以及对应的各预测偏移量，确定初始检测模型的模型损失；通过模型损失对初始检测模型进行迭代训练，得到训练后的检测模型。

在本实施例中，训练集数据可以是300W数据集或者是WFLW(Wider FacialLandmarks in-the-wild)数据集。

在本实施例中，服务器在获取到训练集数据后，可以对训练集数据中各训练图像进行人脸关键点的标注，得到标注后的训练集数据。

进一步，服务器可以基于标定后的训练集数据，生成对应的先验关键点集合，先验关键点集合可以包括对应多个人脸分类的先验关键点。

具体地，服务器可以对训练集数据中标定的人脸关键点进行关键点聚类，以生成对应的先验关键点集合。

进一步，服务器可以根据训练集数据中各标定的人脸关键点以及对应的先验关键点，确定标定的各人脸关键点与对应的先验关键点之间的各真实偏移量，即关键点偏移量。

在本实施例中，服务器可以将标定后的训练集数据以及先验关键点集合输入构建的初始检测模型中，通过初始检测模型对训练集数据中各训练图像进行特征提取，得到对应的特征数据。

进一步，服务器可以基于提取的特征数据，对标定的训练集数据中各标定的人脸关键点以及对应的先验关键点之间的偏移量进行预测，即预测得到预测偏移量。

进一步，服务器可以通过得到的预测偏移量以及对应的先验关键点，得到各训练图像中标定的人脸关键点对应的预测关键点。

同时，服务器可以通过对预测偏移量预计对应先验关键点与标定的人脸关键点之间的真实偏移量进行损失计算，以确定模型的损失，并通过模型损失对初始检测模型进行迭代训练，得到训练后的检测模型。

在其中一个实施例中，根据各真实偏移量以及对应的各预测偏移量，确定初始检测模型的模型损失，可以包括：根据各真实偏移量以及对应的各预测偏移量，计算对应各先验关键点的损失值；确定先验关键点集合中各先验关键点的损失权重；基于各先验关键点，确定各先验关键点中各子关键点的损失权重；基于各先验关键点中各子关键点的损失权重、各先验关键点的损失权重以及各先验关键点的损失值，确定初始检测模型的模型损失。

在其中一个实施例中，确定先验关键点集合中各先验关键点的损失权重，可以包括：确定标定的人脸关键点与各先验关键点之间的欧氏距离；对各欧氏距离进行归一化处理，得到归一化后的各欧氏距离；根据归一化后的各欧氏距离，计算对应先验关键点集合中各先验关键点的损失权重。

以下结合对模型损失进行详细说明。

在本实施例中，模型损失可以包括分类器的损失以及回归器的损失。

其中，分类器的类别标签界定方式为计算训练图像中真实人脸关键点gt_landmarks与16个先验关键点landmarks-anchor的距离，将距离最近的landmarks-anchor标记为1其余为0。对于分类器，采用softmax_cross_entropy作为损失函数，其计算方式如下公式(1)所示：

L_cls＝-log(p_t) (1)

在本实施例中，通用的检测任务均采用L2损失函数，对于检测模型PLA的回归器，考虑小误差带来的影响，wing loss作为损失函数，其具体计算方式可以参考下述公司(2)所示：

在其中一个实施例中，有16组先验关键点prior-landmarks，与此对应也存在16组预测的预测关键点landmarks，但是真实的人脸关键点gt_landmarks只会与其中一个先验关键点prior-landmarks最接近，若仅考虑距离最近的先验关键点prior-landmarks，前期分类错误率很高，从而会导致网络回归不好收敛。因此，本申请方案中通过设置不同的权重，以进行模型的训练。

具体地，设置真实的人脸关键点gt_landmarks与最接近的先验关键点prior-landmarks产生的loss权重较大，距离越远的权重越小。考虑到不同分类边界会存在模糊样本的问题，不能完全忽略到距离较远的先验关键点prior-landmarks与真实的人脸关键点gt_landmarks产生的loss，因此，可以根据loss设计了一种权重计算方式，具体如下进行说明。

首先，计算距离误差。对于16个先验关键点prior landmarks，记回归器产生的16个loss分别为l_i,i＝0,1,...,15，真实的人脸关键点gt_landmarks标记为

16个先验关键点prior landmarks标记为pt_i,i＝0,1,...,15，以L2损失函数作为参考，可以通过如下公式(3)计算

与pt_i的欧氏距离:

其中d_i也可以根据公式(2)进行计算，

m表示训练集数据中关键点的个数，即标注的人脸关键点的数量。

进一步，对计算得到的欧氏距离进行归一化。

在本实施例中，由于不同的距离可能存在量纲差异，要保证loss的量纲不变，先对d_i进行归一化，如下公式(4)所示。

进一步，计算对应各先验关键点的权重。

在本实施例中，根据公式(4)可以得到对应各先验关键点的归一化后的欧式距离，然后通过设置各个loss的扩张系数α，并进行后续的护理。其中，可以设置α＝2，表示第I个loss的扩展系数为2,。I的计算方法为I＝argmin_{i∈(0,...,15)}(normd_i)或者：I＝argmax_{i∈(0,...,15)}(ωl_i)。

进一步，服务器可以根据下述公式(5)～(7)相结合，计算权重。

其中，ε表示常数，取无穷小，θ用于控制权重的膨胀程度，一般地，θ＝2。因此，16个权重的加权公式可以表示为公式(8):

在本实施例中，对于一个关键点中的各子关键点，例如，对应眼睛、鼻子、嘴巴、眉毛或者是脸部边缘的各子关键点，为了对困难的子关键点添加更多的关注，可以按照以下公式对每一个子关键点的loss进行加权。例如，假设

表示对应于第i个先验关键点prior-landmarks计算的m个子关键点的error，则每个关键点的权重如下公式(9)和(10)所示：

在本实施例中，公式(10)乘以一个因子m是为了保证最终得到的l_i的量纲不变。

因此，可以得到分类器的损失函数计算公式如下公式(11)所示。

在本实施例中，分类器并不是直接计算预测值与真实人脸关键点gt_landmarks之间的偏误作为回归误差，而是通过检测模型PLA预测真实人脸关键点gt_landmarks与先验关键点prior-landmarks之间的预测偏移量t，并根据预测偏移量t与真实偏移量，计算损失。

在本实施例中，(x_pt,y_pt)表示一个先验的人脸关键点，

表示真实的关键点，(x,y)表示预测的人脸关键点，(t_x,t_y)表示预测的偏移量，

表示真实的偏移量，用d_iod表示先验关键点landmarks的inter-ocular-distance，则回归的预测偏移量可以通过如下公式(12)确定：

进一步，考虑坐标x和y采用不同的规范化，设d_x表示两眼内间距，d_y表示脸长内间距，上述公式(12)可以变为下述公式(13)：

在本实施例中，当d_x＝d_y＝d_iod时，公式(3)退化为公式(14)。则每个关键点的误差为：

综上所述，可以得到回归器的最终损失为如下公式(15)所示。

在本实施例中，根据上述公式(1)和公式(15)，可以得到检测模型的总的损失，即如下公式(16)所示。

在本发明中

λ＝2。

最后在训练时采取在线困难样本挖掘方式，根据计算得到的损失给每个关键点的loss按照降序排序，选取loss最大的30个关键点，并扩大这些关键点的loss的权重。具体地，可以选择扩张因子为2。

在其中一个实施例中，基于标定后的训练集数据，生成对应的先验关键点结合，可以包括：对训练集数据中的各人脸图像分别进行人脸关键点的提取，得到人脸关键点集合；对人脸关键点集合进行聚类，生成对应各不同人脸状态的先验关键点集合。

在本实施例中，服务器可以通过K Means算法对提取得到的人脸关键点结合进行聚类。其中，K Means算法是一种无监督的聚类算法，其核心思想是，选取N个初始聚类中心，计算剩余样本离中心点的距离用作分类，根据每个簇的均值更新聚类中心，并迭代执行，最后使类内对象相似性最大，类间对象相似性最小。

在本实施例中，服务器可以使用K Means对不同数据集中所有训练样本的人脸关键点进行聚类，得到对应各不同人脸状态的先验关键点集合。例如，训练样本中含有16种不同姿态、尺度等的参考人脸，将聚类中心个数N设为16，服务器进行聚类分析后会得到16种先验关键点和各先验关键点对应的类别信息。

上述实施例中，通过对训练集数据进行人脸关键提取，并进行聚类，得到先验关键点，从而，使得得到的各先验关键点集合结合了训练集数据中各人脸关键点的信息，在基于先验关键点进行后续处理的时候，可以提升后续处理的准确性。

以下对于本申请发明的试验效果进行详细分析说明。

对于数据集及评估指标的设定，本申请方案在两个通用的面部关键点检测数据集WFLW(Wider Facial Landmarks in-the-wild)和300W上进行实验，以测试和评估本申请方案的PLA方法。

首先，对于WLFW数据集，WFLW包含10000张人脸(7500张用于训练，2500张用于测试)，有98个手动标注的面部关键点。此数据集还包含了包括了丰富的属性标注，例如，遮挡、姿势、化妆、光照、模糊和表情等。在这些不同属性标注的数据集上简单评估模型的鲁棒性。

对于300W数据集，300W包含3148张训练图像，来自不同数据集。其中，人脸图像数据集AFW(Annotated Faces in the Wild)337张图片，海伦(helen人脸图像数据集，包括训练集2000张图片，测试集330张图片，ibug数据集135张图片，室外标记的人脸面部数据集LFPW训练集811张图片，测试集224张图片。300W数据集有四种不同设置的测试集：CommonSubset(helen和lfpw的测试集)、Challenging Subset(ibug)、Fullset(Common和Challenging共689张图片)、Private(600张图片，包括300张室内图片和300张室外图片)。所有的图像都被手动标注了68个面部关键点。

在本实施例中，可以使用归一化平均误差(the normalized mean error，NME)作为评估方法，其计算公式为参考公式(17)所示：

其中，d表示规范化后的距离。一般在面部关键点检测数据集上d表示inter-pupilDistance(眼睛中心之间的距离)和inter-ocular distance(眼睛外眼角之间的距离)，用于评估模型的性能。

在本实施例中，服务器获取数据集以及确定评估指标后，可以先对先验关键点类别数分析。具体地，选择不同数量的初始化聚类中心，KMeans算法会给出不同数量的先验关键点。假定数据集中含有16种不同姿态、尺度等的参考人脸，分别对WFLW和300W训练集上所有关键点进行聚类，得到16种不同姿态和形状的先验关键点，结果可以参考图5和图6所示，图5为WFLW对应的16种不同姿态和形状的先验关键点的示意图，图6为300W对应的16种不同姿态和形状的先验关键点的示意图。

在本实施例中，考虑不同数量的先验关键点会影响模型最终的收敛程度。从图6可以看出，在300W数据集上16种先验关键点存在冗余，即有相近的先验关键点，会增加弱分类器的学习难度。应该从训练集大小、样本多样性、标注的关键点数等方面考虑，为不同数据集设置不同的初始化聚类中心。

在本实施例中，可以通过在WFLW和300W训练集上聚类4和9种先验关键点，以300W数据集为例，聚类结果可以参见图7所示。其中，图7(a)为300W训练集上聚类4种先验关键点的示意图，图7(b)为300W训练集上聚类4种先验关键点的示意图。相比图6的16种先验关键点，图7给出的4和9种先验关键点从头部偏转、脸部形状、表情等方面，能观察出明显的差异，使分类器容易区分不同类别，从而提高模型的收敛程度。

图8示出了在不同数量的先验关键点上训练的模型评估结果。根据图8可以确定，对于WFLW数据集，16种先验关键点效果最佳，而300W数据集上，人的头部姿态、表情等相对变化小，设置9种先验关键点最合适。

进一步，可以对显眼关键点的损失PL-Loss的有效性进行分析。

在本申请方案中，为验证回归损失函数中权重设置的合理性，可以以6个先验关键点为例，对权重计算做一些测试。例如，设置α＝2，λ＝2。权重计算结果可以如表2所示。

表1权重计算结果

d<sub>i</sub>	7	8	13	12	17	23
							normd<sub>i</sub>	0.0875	0.10	0.1625	0.15	0.2125	0.2875
ωl<sub>i</sub>	130.6122	100.0	37.8698	44.4444	22.1453	12.0982
							ωf<sub>i</sub>	261.2244	100.0\|	37.8698	44.4444	22.1453	12.0982
ω<sub>i</sub>	0.2093	0.0792	0.0792	0.0930	0.0463	0.0253

从表2可以看到，按照以上计算方式，距离越近则权重越大。并且，对于该模糊样本，例如，距离非常接近的距离样本7和样本8，将会赋予距离最近的先验关键点prior-landmarks对应的loss更大的权重0.5467，同时也会在某种程度上关注距离排序第二的权重。

在本实施例中，由于真实的人脸关键点gt_landmarks与距离越远的先验货关键点prior-landmarks产生的loss会越大，这有可能会抵消掉上述加权的效果。在本实施例中，可以通过设置观察值，来初略验证加权公式的有效性，如表3所示。

表2权重计算验证

序号	0	1	2	3	4	5
							l<sub>i</sub>	10	12	17	14	25	37
ω<sub>i</sub>	0.5467	0.2093	0.0792	0.0930	0.0463	0.0253
							ω<sub>i</sub>l<sub>i</sub>	5.467	2.4180	1.343	1.302	1.1575	0.9360

进一步，可以对模型准确度进行分析。

首先，对关键点回归准确度分析。每个真实关键点可能对应不止一种先验关键点，PLA_top3考虑将分类前3的检测结果取平均作为最终预测结果，确保关键点位置的稳定性。检测模型PLA默认为16种先验关键点上获取的模型。PLA_Prior4_top3代表基于4种先验关键点训练的模型。PLA_Prior9_top3代表基于9种先验关键点训练的模型。采用NME评估指标，对WFLW数据集采用Inter-ocular规范化因子，而对300W数据集同时采用inter-pupil和Inter-ocular两种规范化因子。PLA与其他模型对比结果参见表4和表5所示。

表3模型在WFLW数据集上的对比结果

表4模型在300W数据集上的对比结果

其次，对于先验关键点分类准确度的分析。在不同数量的先验关键点上，弱分类器在WFLW和300W数据集上的top1和top3准确率分别参见图9和图10所示。模型在两个数据集上的top3准确率分别达到99％和93％。从分类结果中也可以发现，在300W数据集上16种先验关键点分类效果最差，结合PLA_Prior9_top3模型的回归效果，在本申请方案的网络结构上，9种先验关键点是最佳的。与此类似，在WFLW数据集上，适合设置16种先验关键点，模型会很好收敛。

进一步，对于模型性能与内存的分析。检测模型PLA在模型大小及处理速度方面也占据优势。

在本实施例中，本申请方案在CPU上评估算法的运行性能，与其他模型对比结果见表6。

表5模型大小及处理速度对比结果

在本实施例中，参考图11，图11(a)和图11(b)分别显示了来自WFLW和300W测试集上的效果示例，从图11中可以看出，本申请方案检测模型PLA可以处理一些头部偏转和部分遮挡的图像，从而可以使得检测的人脸图像更加准确。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种人脸关键点检测装置，包括：待检测人脸图像获取模块100、预处理模块200、先验关键点集合获取模块300以及分类检测模块400，其中：

待检测人脸图像获取模块100，用于获取待检测人脸图像。

预处理模块200，用于对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据。

先验关键点集合获取模块300，用于获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点。

分类检测模块400，用于基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

在其中一个实施例中，分类检测模块400可以包括：

偏移量预测子模块，用于根据特征数据，预测待检测人脸图像中待检测人脸的待检测关键点与各分类对应的各先验关键点之间的偏移量。

目标先验关键点确定子模块，用于根据各偏移量，确定对应待检测人脸的目标先验关键点。

目标关键点预测子模块，用于基于目标先验关键点以及对应的偏移量，确定待检测人脸图像中待检测人脸的各目标关键点，作为待检测人脸图像中待检测人脸的人脸关键点检测结果。

在其中一个实施例中，目标先验关键点确定子模块可以包括：

目标分类确定单元，用于基于预设条件，从多个分类的先验关键点对应的偏移量中确定目标偏移量，并根据目标偏移量，确定对应待检测人脸的目标分类。

目标先验关键点确定单元，用于根据目标分类，确定对应待检测人脸的目标先验关键点。

在本实施例中，上述装置还可以包括：

训练集数据获取模块，用于获取训练集数据。

对训练集数据中各训练图像进行人脸关键点的标定，得到标定后的训练集数据。

先验点集合生成模块，用于基于标定后的训练集数据，生成对应的先验关键点集合，先验关键点集合包括对应多个人脸分类的先验关键点。

真实偏移量确定模块，用于基于标定后的训练集数据中各训练图像的人脸关键点以及各先验关键点，确定各人脸关键点与对应的先验关键点之间的各真实偏移量。

预测偏移量确定模块，用于将标定后的训练集数据以及先验关键点集合输入构建的初始检测模型，进行特征提取以及偏移量的预测，得到各标定的人脸关键点与对应的先验关键点之间的预测偏移量。

模型损失确定模块，根据各真实偏移量以及对应的各预测偏移量，确定初始检测模型的模型损失。

迭代训练模块，用于通过模型损失对初始检测模型进行迭代训练，得到训练后的检测模型。

在其中一个实施例中，模型损失确定模块可以包括：

先验损失值确定子模块，用于根据各真实偏移量以及对应的各预测偏移量，计算对应各先验关键点的损失值。

第一损失权重确定子模块，用于确定先验关键点集合中各先验关键点的损失权重。

第二损失权重确定子模块，用于模块基于各先验关键点，确定各先验关键点中各子关键点的损失权重。

模型损失确定子模块，用于基于各先验关键点中各子关键点的损失权重、各先验关键点的损失权重以及各先验关键点的损失值，确定检测模型的模型损失。

在其中一个实施例中，第一损失权重确定子模块可以包括：

欧氏距离确定单元，用于确定标定的人脸关键点与各先验关键点之间的欧氏距离。

归一化单元，用于对各欧氏距离进行归一化处理，得到归一化后的各欧氏距离。

损失权重确定单元，用于根据归一化后的各欧氏距离，计算对应先验关键点集合中各先验关键点的损失权重。

在其中一个实施例中，先验关键点结合生成模块可以包括：

关键点提取子模块，用于对训练集数据中的各人脸图像分别进行人脸关键点的提取，得到人脸关键点集合。

聚类子模块，用于对人脸关键点集合进行聚类，生成对应各不同人脸状态的先验关键点集合。

关于人脸关键点检测装置的具体限定可以参见上文中对于人脸关键点检测方法的限定，在此不再赘述。上述人脸关键点检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测人脸图像、特征数据、先验关键点集合以及人脸关键点检测结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸关键点检测方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待检测人脸图像；对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据；获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点；基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待检测人脸图像；对检测人脸图像进行预处理，得到对应待检测人脸图像的特征数据；获取先验关键点集合，先验关键点集合中包括多个人脸分类的先验关键点；基于先验关键点集合对特征数据进行分类检测，得到待检测人脸图像中待检测人脸的人脸关键点检测结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人脸关键点检测方法，其特征在于，所述方法包括：

获取待检测人脸图像；

对所述检测人脸图像进行预处理，得到对应所述待检测人脸图像的特征数据；

获取先验关键点集合，所述先验关键点集合中包括多个人脸分类的先验关键点；

基于所述先验关键点集合对所述特征数据进行分类检测，得到所述待检测人脸图像中待检测人脸的人脸关键点检测结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述先验关键点集合对所述特征数据进行分类检测，得到所述待检测人脸图像中待检测人脸的人脸关键点检测结果，包括：

根据所述特征数据，预测所述待检测人脸图像中待检测人脸的待检测关键点与各分类对应的各先验关键点之间的偏移量；

根据各所述偏移量，确定对应所述待检测人脸的目标先验关键点；

基于所述目标先验关键点以及对应的偏移量，确定所述待检测人脸图像中待检测人脸的各目标关键点，作为所述待检测人脸图像中待检测人脸的人脸关键点检测结果。

3.根据权利要求2所述的方法，其特征在于，所述根据各所述偏移量，确定对应所述待检测人脸的目标先验关键点，包括：

基于预设条件，从多个分类的先验关键点对应的偏移量中确定目标偏移量，并根据所述目标偏移量，确定对应所述待检测人脸的目标分类；

根据所述目标分类，确定对应所述待检测人脸的目标先验关键点。

4.根据权利要求1所述的方法，其特征在于，所述基于所述先验关键点集合以及所述特征数据，对所述特征数据进行分类检测，得到所述待检测人脸图像中待检测人脸的人脸关键点检测结果是通过预先训练完成的检测模型进行的；

所述检测模型的训练方式包括：

获取训练集数据；

对所述训练集数据中各训练图像进行人脸关键点的标定，得到标定后的训练集数据；

基于标定后的训练集数据，生成对应的先验关键点集合，所述先验关键点集合包括对应多个人脸分类的先验关键点；

基于标定后的训练集数据中各训练图像的人脸关键点以及各所述先验关键点，确定标定的各所述人脸关键点与对应的先验关键点之间的各真实偏移量；

将所述标定后的训练集数据以及先验关键点集合输入构建的初始检测模型，进行特征提取以及偏移量的预测，得到各标定的人脸关键点与对应的先验关键点之间的预测偏移量；

根据各所述真实偏移量以及对应的各所述预测偏移量，确定所述初始检测模型的模型损失；

通过所述模型损失对所述初始检测模型进行迭代训练，得到训练后的检测模型。

5.根据权利要求4所述的方法，其特征在于，所述根据各所述真实偏移量以及对应的各所述预测偏移量，确定所述初始检测模型的模型损失，包括：

根据各所述真实偏移量以及对应的各所述预测偏移量，计算对应各所述先验关键点的损失值；

确定所述先验关键点集合中各所述先验关键点的损失权重；

基于各所述先验关键点，确定各所述先验关键点中各子关键点的损失权重；

基于各所述先验关键点中各子关键点的损失权重、各所述先验关键点的损失权重以及各所述先验关键点的损失值，确定所述初始检测模型的模型损失。

6.根据权利要求5所述的方法，其特征在于，所述确定所述先验关键点集合中各所述先验关键点的损失权重，包括：

确定标定的所述人脸关键点与各所述先验关键点之间的欧氏距离；

对各所述欧氏距离进行归一化处理，得到归一化后的各欧氏距离；

根据归一化后的各欧氏距离，计算对应所述先验关键点集合中各所述先验关键点的损失权重。

7.根据权利要求4所述的方法，其特征在于，所述基于标定后的训练集数据，生成对应的先验关键点结合，包括：

对所述训练集数据中的各人脸图像分别进行人脸关键点的提取，得到人脸关键点集合；

对所述人脸关键点集合进行聚类，生成对应各不同人脸状态的先验关键点集合。

8.一种人脸关键点检测装置，其特征在于，所述装置包括：

待检测人脸图像获取模块，用于获取待检测人脸图像；

预处理模块，用于对所述检测人脸图像进行预处理，得到对应所述待检测人脸图像的特征数据；

先验关键点集合获取模块，用于获取先验关键点集合，所述先验关键点集合中包括多个人脸分类的先验关键点；

分类检测模块，用于基于所述先验关键点集合对所述特征数据进行分类检测，得到所述待检测人脸图像中待检测人脸的人脸关键点检测结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。