CN112464809A

CN112464809A - 一种人脸关键点检测方法、装置、电子设备及存储介质

Info

Publication number: CN112464809A
Application number: CN202011353305.2A
Authority: CN
Inventors: 朱子魁
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112464809B

Abstract

本发明实施例提供了一种人脸关键点检测方法、装置、电子设备及存储介质，应用于图像处理技术领域，该检测方法包括：获取待检测人脸关键点的目标图像；将目标图像输入至预设的关键点检测模型，以使关键点检测模型提取目标图像的第一类特征图和第二类特征图，融合第一类特征图和第二类特征图，并基于融合后的特征图，确定目标图像中各个人脸关键点的坐标信息所述关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，所述各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。可以解决人脸关键点检测的准确度不高。

Description

一种人脸关键点检测方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种人脸关键点检测方法、装置、电子设备及存储介质。

背景技术

人脸关键点检测是人脸识别中重要的基础环节。

现有技术中，在识别人脸关键点时，将待进行人脸关键点检测的目标图像输入至关键点检测模型中，通过关键点检测模型中的多层子网络结构的处理，最终得到人脸关键点的检测结果。

发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

现有技术中，关键点检测网络的训练过程中存在模型过拟合的问题，导致模型精度受到影响，从而导致人脸关键点检测的准确度不高。

发明内容

本发明实施例的目的在于提供一种人脸关键点检测方法、装置、电子设备及存储介质，以解决人脸关键点检测的准确度不高的技术问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种人脸关键点检测方法，应用于电子设备，所述方法包括：

获取待检测人脸关键点的目标图像；

将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；

其中，所述关键点检测模型是基于样本图像，以及所述样本图像中各个人脸关键点的真实坐标信息，训练得到的模型；

所述关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，所述各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。

可选地，所述关键点检测模型的训练过程包括：

将所述样本图像输入至所述关键点检测模型，以使所述关键点检测模型提取所述样本图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述样本图像中各个人脸关键点的坐标信息；

基于所述样本图像中的各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标；

利用各个目标坐标的预测坐标值和相应真实坐标值的差异，调整所述关键点检测模型的模型参数；

判断当前的训练次数是否达到预设训练次数，如果是，结束训练，并基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，得到训练完成的关键点检测模型；否则，返回所述将所述样本图像输入至所述关键点检测模型的步骤。

可选地，所述基于所述样本图像中各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标，包括：

基于所述样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值；

从各个人脸关键点的横坐标和纵坐标中，确定预测坐标值和相应真实坐标值的差值大于所述目标误差值的坐标，作为未满足预定收敛条件的目标坐标。

可选地，所述基于所述样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值，包括：

利用预设的误差计算公式，基于所述样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值；

其中，所述预设的误差计算公式包括：

其中，ε₁为该目标误差值，

为各个人脸关键点的每种坐标的预测坐标值和真实坐标值的差值的均值，α为超参数，

为各个人脸关键点的每种坐标的预测坐标值和真实坐标值的差值的方差值。

可选地，所述基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，包括：

针对在指定训练次数范围内所得到的每一组模型参数，确定应用该组模型参数时，基于所述关键点检测模型所得到的各个人脸关键点的预测坐标信息，利用所确定出的各个人脸关键点的预测坐标信息和真实坐标信息的差异，计算损失值，作为该组模型参数对应的参考损失值；

从所计算出的参考损失值中，确定最小值，并将所述最小值对应的模型参数作为训练完成的关键点检测模型的模型参数。

可选地，所述关键点检测模型中包含有串联相接的多个特征提取网络，以及与最后一个特征提取网络连接的识别网络，所述特征提取网络为包含深度可分离卷积的网络；

所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息，包括：

每个特征提取网络，提取该网络的输入图像的第一类特征图和第二类特征图，融合所提取的第一类特征图和第二类特征图，并将融合后的特征图作为相连接的下一网络的输入图像，输入至相连接的下一个网络；其中，所述多个特征提取网络中的第一个网络的输入图像为所述目标图像；

所述识别网络基于相连接的特征提取网络所输入的特征图，识别所述目标图像中各个人脸关键点的坐标信息。

可选地，所述特征提取网络包括：第一卷积子网络、第二卷积子网络和特征融合子网络；其中，所述第一卷积子网络为设有1*1卷积核的卷积网络，所述第二卷积子网络为包含深度可分离卷积的卷积网络；

每个特征提取网络，提取该网络的输入图像的第一类特征图和第二类特征图，融合所提取的第一类特征图和第二类特征图，并将融合后的特征图作为相连接的下一网络的输入图像，输入至相连接的下一个网络，包括：

每个特征提取网络中的第一卷积子网络，提取该网络的输入图像的第一类特征图；

每个特征提取网络中的第二卷积子网络，提取该网络的输入图像的第二类特征图；

每个特征提取网络中的特征融合子网络，对该网络的输入的第一类特征图和第二类特征图进行融合，并将融合后的特征图作为相连接的下一网络的输入图像，输入至相连接的下一个网络。

可选地，所述第二卷积子网络包括：顺次连接的Depthwise卷积子网络、Pointwise卷积子网络和插值子网络；

每个特征提取网络中的第二卷积子网络，提取该网络的输入图像的第二类特征图，包括：

每个特征提取网络中的第二卷积子网络所包括的Depthwise卷积子网络，按照预设卷积步长，对输入图像进行下采样，得到第一初始特征图，并将所述第一初始特征图输入至所述Pointwise卷积子网络，所述预设卷积步长为2；

每个特征提取网络中的第二卷积子网络所包括的Pointwise卷积子网络，将所述第一初始特征图的维度提升至预设维度，得到第二初始特征图，并将所述第二初始特征图输入至所述插值子网络，所述预设维度为4/3；

每个特征提取网络中的第二卷积子网络所包括的插值子网络，对所述第二初始特征图进行插值处理，得到输入图像的预设图像尺寸的第二类特征图。

在本发明实施的第二方面，还提供了一种人脸关键点检测装置，应用于电子设备，所述装置包括：

图像获取模块，用于获取待检测人脸关键点的目标图像；

信息确定模块，用于将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；

可选地，所述关键点检测模型的训练过程包括：

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一所述的人脸关键点检测方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的人脸关键点检测方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的人脸关键点检测方法。

本发明实施例提供的方案中，获取待检测人脸关键点的目标图像；将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；其中，所述关键点检测模型是基于样本图像，以及所述样本图像中各个人脸关键点的真实坐标信息，训练得到的模型；所述关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，所述各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。由于本方案在模型训练过程中，利用的是各个目标坐标的预测坐标值与相应真实坐标值的差异对模型参数进行的调整，而满足收敛条件的关键点的坐标差值并不参与模型参数的调整，进而避免了模型过拟合的问题，提高模型精度，从而可以解决人脸关键点检测的准确度不高。

另外，关键点检测模型在识别目标图像中各个人脸关键点的坐标信息时，依赖含有像素点的位置信息的特征图，这样可以保留对提升关键点检测精度有益的位置信息，从而，可以进一步有效保证关键点的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种人脸关键点检测方法的流程图；

图2为本发明实施例中一种人脸关键点检测方法的另一流程图；

图3为本发明实施例中关键点检测模型的结构示意图；

图4为本发明实施例中特征提取网络的结构示意图；

图5为本发明实施例中一种人脸关键点检测装置的结构示意图；

图6为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决人脸关键点检测的准确度不高的问题，本发明实施例提供了一种人脸关键点检测方法、装置、电子设备及存储介质。

需要说明的是，本发明实施例所提供的一种人脸关键点检测方法应用于电子设备，在实际应用中，该电子设备可以为终端设备或者服务器。具体而言，本发明实施例提供的一种人脸关键点检测方法的执行主体可以为运行于电子设备中的一种人脸关键点检测装置。

其中，本发明实施例所涉及的人脸关键点用于定位人脸的关键部位，该关键部位可以包括：眼睛、鼻子、眉毛、耳朵、脸部等；并且，针对任一关键部位，在定位该关键部位时，所需要的人脸关键点可以为一个或多个。针对不同角度的待检测人脸关键点的图像，例如：正脸图像或者侧脸图像，由于需要定位的关键部位不同，因此，人脸关键点检测出的具体位置可以不同，本发明实施例对此不做限定。并且，本发明实施例所提供的一种人脸关键点检测方法用于确定人脸关键点的坐标信息，包括横坐标的坐标值和纵坐标的坐标值。

其中，本发明实施例提供了一种人脸关键点检测方法，可以包括如下步骤：

获取待检测人脸关键点的目标图像；

下面结合附图对本发明实施例所提供的一种人脸关键点检测方法进行介绍。

如图1所示，本发明实施例提供了一种人脸关键点检测方法，可以包括：

S101，获取待检测人脸关键点的目标图像；

其中，待检测人脸关键点的目标图像可以为任一包含有人脸区域的图像。为了方便得到目标图像中各个人脸关键点的坐标信息，可以在将目标图像输入至预设的关键点检测模型之前，将目标图像的尺寸调整为预设尺寸，例如64*64，进而在模型训练过程中，无需再对目标图像的尺寸进行调整，从而可以缩减模型训练所需的时间。

可以理解的是，获取待检测人脸关键点的目标图像的实现方式可以存在多种。示例性的，在一种实现方式中，获取待检测人脸关键点的目标图像可以包括：

获取原始图像；其中，该原始图像可以为执行主体的本地存储图像，或者，视频的视频帧，或者，通过网络下载的的图像，或者，电子设备采集的图像等；

确定该原始图像的人脸区域，并将所确定出的人脸区域调整为预设尺寸，得到待检测人脸关键点的目标图像。

其中，确定该原始图像的人脸区域的实现方式可以为任一种能够从图像中识别人脸区域的方式。示例性的，利用预设的人脸区域识别模型，从该原始图像中确定人脸区域，当然并不局限于此。

可以理解的是，由于原始图像的尺寸可以为任一尺寸，并且，从原始图像中所确定出的人脸区域的大小，与关键点检测模型的输入图像的尺寸大小可能存在差异，因此，为了作为关键点检测模型的有效输入，在从原始图像中所确定出的人脸区域后，可以对所确定出的人脸区域进行尺寸调整。并且，尺寸调整的具体实现方式可以为现有技术中的任一种能够实现对图像尺寸进行调整的方式，在此不做限定。

S102，将该目标图像输入至预设的关键点检测模型，以使该关键点检测模型提取该目标图像的第一类特征图和第二类特征图，融合该第一类特征图和第二类特征图，并基于融合后的特征图，确定该目标图像中各个人脸关键点的坐标信息；

所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；

其中，该关键点检测模型是基于样本图像，以及该样本图像中各个人脸关键点的真实坐标信息，训练得到的模型；其中，任一人脸关键点的真实坐标信息包括该人脸关键点的横坐标的真实坐标值和真实纵坐标的坐标值；

该关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，该各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。

可以理解的是，为了实现对目标图像的人脸关键点检测，可以将目标图像输入至预设的关键点检测模型中，以使该关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合该第一类特征图和第二类特征图，并基于融合后的特征图，确定该目标图像中各个人脸关键点的坐标信息；其中，所得到的每一人脸关键点的坐标信息可以包括横坐标的坐标值和纵坐标的坐标值，即横坐标的预测坐标值和纵坐标的预测坐标值。并且，该第一类特征图所含有语义信息可以包括多种，例如该目标图像的人脸中瞳孔的颜色、眉毛的纹路、嘴唇的颜色或轮廓结构等等。该第二类特征图所含有像素点的位置信息可以包括：各个像素点位于该目标图像中的位置的信息。

另外，样本图像的数量可以为多张，每一样本图像可以为任一包含有人脸区域的图像。并且，为了保证关键点检测模型可以有足够的样本图像参与到模型训练过程，可以获取少量的包含人脸区域的图像，然后对该少量的包含人脸区域的图像进行预定的图像处理，从而得到用于模型训练的多张样本图像。该预定的图像处理可以为现有技术中的任一种能够实现图像数据增强的方式，例如：图像的旋转、镜像翻转以及平移和缩放等等。并且，为了作为关键点检测模型的有效输入，可以将数据增强处理后得到的图像的尺寸，在输入至关键点检测模型之前，调整为预设尺寸。

为了提高该关键点检测模型的精度，避免模型的过拟合，对该关键点检测模型进行训练的过程中，每次调整模型参数时，可以从模型输出的人脸关键点中，舍弃部分已满足预定收敛条件的横坐标数据或者纵坐标数据，从而，可以基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行模型参数调整。其中，该各个目标坐标可以为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标，并且，该预定收敛条件可以为预测坐标值与相应真实坐标值的差异小于预设阈值，也就是说，该预定收敛条件可以包括：预测横坐标值与真实横坐标值的差异小于预设阈值，或者，预测纵坐标值与真实纵坐标值的差异小于预设阈值。示例性的，该预设阈值可以为损失值、坐标差异值的均值，或者坐标差异值的方差值等等。

此外，该关键点检测模型在训练过程中，所调整的模型参数的可以包括但不局限于：卷积核权重、该关键点检测模型所包括的各结构网络的权重等等。此外，模型参数的调节方式可以为现有技术中的任一种能够实现对模型参数进行调整的方式，例如梯度下降方式等。

示例性的，在一种实现方式中，基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行模型参数调整的方式可以包括：采用反向传播方式，根据各个目标坐标的预测坐标值与相应真实坐标值的差异，对模型参数进行调整。

为了方案清楚和布局清晰，后续结合另一具体实施例，对未满足预定收敛条件的各个目标坐标的确定方式进行介绍。

本发明实施例提供的获取待检测人脸关键点的目标图像；将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；其中，所述关键点检测模型是基于样本图像，以及所述样本图像中各个人脸关键点的真实坐标信息，训练得到的模型；所述关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，所述各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。由于本方案在模型训练过程中，利用的是各个目标坐标的预测坐标值与相应真实坐标值的差异对模型参数进行的调整，而满足收敛条件的关键点的坐标差值并不参与模型参数的调整，进而避免了模型过拟合的问题，提高模型精度，从而可以解决人脸关键点检测的准确度不高。

为了方案清楚，下述对本发明实施例所提供的关键点检测模型的训练过程进行举例介绍。

可选地，如图2所示，本发明实施例所提供的关键点检测模型的训练过程包括：

S201，将该样本图像输入至该关键点检测模型，以使该关键点检测模型提取该样本图像的第一类特征图和第二类特征图，融合该第一类特征图和第二类特征图，并基于融合后的特征图，确定该样本图像中各个人脸关键点的坐标信息；

该第一类特征图为含有语义信息的特征图，该第二类特征图为含有像素点的位置信息的特征图；

其中，样本图像的尺寸可以为预设尺寸，例如：64*64。并且，样本图像可以为：对人脸图进行尺寸调整后所得到的图像，该人脸图可以为从任一图像中提取的人脸图像区域，该任一图像可以为经过数据增强处理后得到的一图像。并且，样本图像的数量可以为多张。

为了方案清楚和布局清晰，后续结合另一具体实施例，对关键点检测模型所包含的各网络结构进行介绍。

S202，基于该样本图像中的各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标；

其中，为了提高模型精度，在进行模型参数调整之前，可以从各个人脸关键点的横坐标和纵坐标中，舍弃满足预定收敛条件的坐标数据不参与模型参数的调整。也就是说，可以基于各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标。

示例性的，在一种实现方式中，基于该样本图像中的各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标，可以包括如下步骤(1)-(2)：

步骤(1)，根据该样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算差值的方差值，作为目标误差值；

步骤(2)，从各个人脸关键点的横坐标和纵坐标中，确定预测坐标值和相应真实坐标值的差值大于该目标误差值的坐标，作为未满足预定收敛条件的目标坐标。

可以理解的是，每次模型训练输出的各个人脸关键点中，若各个人脸关键点的横坐标和纵坐标中，预测坐标值和相应真实坐标值的差值小于目标误差值，那么，该小于目标误差值的差值所对应的人脸关键点的横坐标或纵坐标，预测坐标值与相应的真实坐标较为接近，从而，该小于目标误差值的差值所对应的人脸关键点的横坐标或纵坐标，可以不参与模型参数的调整，避免模型过拟合。

示例性的，在另一种实现方式中，基于该样本图像中的各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标，可以包括如下步骤A-B：

步骤A，基于该样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值；

示例性的，基于该样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值可以包括：

利用预设的误差计算公式，基于该样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值；

其中，所述预设的误差计算公式包括：

其中，ε₁为该目标误差值，

步骤B，从各个人脸关键点的横坐标和纵坐标中，确定预测坐标值和相应真实坐标值的差值大于该目标误差值的坐标，作为未满足预定收敛条件的目标坐标。

上述的基于该样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，确定该目标误差值的具体实现方式仅仅作为示例，并不应该构成对本发明实施例的限定。

S203，利用各个目标坐标的预测坐标值和相应真实坐标值的差异，调整该关键点检测模型的模型参数；

可以理解的是，针对未满足预定收敛条件的各个目标坐标，可以根据各个目标坐标的预测坐标值和相应真实坐标值的差异，对该关键点检测模型的模型参数进行调整，并且，该模型参数的调整方式，可以为现有技术中的任一种参数调整方式，在此不做限定。

S204，判断当前的训练次数是否达到预设训练次数，如果是，结束训练，并基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，得到训练完成的关键点检测模型；否则，返回将样本图像输入至关键点检测模型的步骤。

其中，该预设训练次数为该关键点检测模型待进行的训练次数，例如：200次、300次等等。该当前的训练次数为该关键点检测模型当前已完成的训练次数。示例性的，假设预设训练次数为300次，若当前训练次数为300次，则判定训练结束。

另外，基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数的实现方式可以存在多种。示例性的，在一种实现方式中，针对模型训练过程中所得到的每一组模型参数，确定应用该组模型参数时，基于该关键点检测模型所得到的各个人脸关键点的预测坐标信息；利用所确定出的各个人脸关键点的预测坐标信息和真实坐标信息的差值，计算该差值的均值，作为该组模型参数对应的参考损失值；从所对应参考损失值小于预定阈值的各组模型参数，选取一组模型参数，得到用于作为训练完成的关键点检测模型的模型参数。

示例性的，在另一种实现方式中，随着模型训练次数的增多，模型参数的不断调整，该关键点检测模型所预测出的人脸关键点的坐标信息可以与真实坐标信息逐渐接近。也就是说，模型训练次数接近预设训练次数时，该关键点检测模型的精度可以高于该关键点检测模型在训练初期时的精度。那么，基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，可以包括如下步骤1-2：

步骤1，针对在指定训练次数范围内所得到的每一组模型参数，确定应用该组模型参数时，基于所述关键点检测模型所得到的各个人脸关键点的预测坐标信息，利用所确定出的各个人脸关键点的预测坐标信息和真实坐标信息的差异，计算损失值，作为该组模型参数对应的参考损失值；

其中，该指定训练次数范围可以为接近预设训练次数的范围，例如：假设预设训练次数为300次，则指定训练次数范围可以为200-300次、260-300次等等。

示例性的，利用所确定出的各个人脸关键点的预测坐标信息和真实坐标信息的差异，计算损失值，可以包括：采用预设的损失公式，根据所确定出的各个人脸关键点的预测坐标信息和真实坐标信息的差异，计算损失值；

该预设的损失公式可以包括：

其中，ε₂为该损失值，i表示人脸关键点中的第i个关键点，N表示为人脸上的所有关键点，x_i为人脸关键点的横坐标的预测坐标值，x_ti为人脸关键点的横坐标的真实横坐标，y_i为人脸关键点的纵坐标的预测坐标值，y_ti为人脸关键点的纵坐标的真实坐标值。

步骤2，从所计算出的参考损失值中，确定最小值，并将所述最小值对应的模型参数作为训练完成的关键点检测模型的模型参数。

可以理解的是，该关键点检测模型在训练过程中可以得到多组模型参数，那么，可以从该多组模型参数中确定一组模型参数，作为训练完成的关键点检测模型的模型参数时，示例性的，从所计算出的参考损失值中，确定最小值，并将所述最小值对应的模型参数作为训练完成的关键点检测模型的模型参数。

可见，本实施例中，在模型训练过程中，利用的是各个目标坐标的预测坐标值与相应真实坐标值的差异对模型参数进行的调整，而满足收敛条件的关键点的坐标差值并不参与模型参数的调整，进而避免了模型过拟合的问题，提高模型精度，从而可以解决人脸关键点检测的准确度不高。

为了方便理解方案，下面对该预设的关键点检测模型中包含的各网络结构进行示例性介绍。

可选地，本发明实施例中，该关键点检测模型中包含有串联相接的多个特征提取网络，以及与最后一个特征提取网络连接的识别网络，该特征提取网络为包含深度可分离卷积的网络；

该关键点检测模型提取目标图像的第一类特征图和第二类特征图，融合该第一类特征图和第二类特征图，并基于融合后的特征图，确定该目标图像中各个人脸关键点的坐标信息，包括：

每个特征提取网络，提取该网络的输入图像的第一类特征图和第二类特征图，融合所提取的第一类特征图和第二类特征图，并将融合后的特征图作为相连接的下一网络的输入图像，输入至相连接的下一个网络；其中，该多个特征提取网络中的第一个网络的输入图像为该目标图像；

该识别网络基于相连接的特征提取网络所输入的特征图，识别该目标图像中各个人脸关键点的坐标信息。

相应的，上述模型的训练过程中，关键点检测模型提取样本图像的第一类特征图和第二类特征图，融合该第一类特征图和第二类特征图，并基于融合后的特征图，确定该样本图像中各个人脸关键点的坐标信息，可以包括：

每个特征提取网络，提取该网络的输入图像的第一类特征图和第二类特征图，融合所提取的第一类特征图和第二类特征图，并将融合后的特征图作为相连接的下一网络的输入图像，输入至相连接的下一个网络；其中，该多个特征提取网络中的第一个网络的输入图像为该样本图像；

该识别网络基于相连接的特征提取网络所输入的特征图，识别该样本图像中各个人脸关键点的坐标信息。

此外，模型训练过程中对样本图像的处理过程的具体实现，可以参见对目标图像的具体实现。

其中，包含深度可分离卷积的网络，可以在提取特征图时，精简特征图的维度以及卷积步长的增加，从而可以降低该预设的关键点检测模型的复杂度，并且，该包含深度可分离卷积的网络，通过不断整合人脸关键点检测所需的位置信息可以保证该预设的关键点检测模型最终的精度。

示例性的，如图3所示，该多个特征提取网络可以包括顺次连接的特征提取网络1……特征提取网络n，其中，n表征该多个特征提取网络的数目，并且，该n的数量可以需求进行设置，例如20或者30等等。

可以理解的是，该关键点检测模型中包含有串联相接的多个特征提取网络，以及与最后一个特征提取网络连接的识别网络，该识别网络可以识别该特征图中人脸关键点的坐标信息。也就是说，在进行人脸关键点检测时，当将输入图像输入至该关键点检测模型中后，该关键点检测模型所包括的多个特征提取网络中的第一个网络对该输入图像进行第一类特征图和第二类特征图的提取，并可以将融合后的特征图输入至与该第一个特征网络连接的下一网络，该下一网络可以再次提取该融合后的特征图的第一类特征图和第二类特征图，并将再次融合后的特征图输入至与该下一网络相连接的另一网络，直至该多个特征提取网络中的最后一个网络输出最终融合后的特征图。那么，该识别网络基于该最后一个网络输出的最终融合后的特征图，识别该目标图像中各个人脸关键点的坐标信息。

此外，该识别网络识别特征图中人脸关键点的坐标信息的实现方式可以为现有技术中的任一种从特征图中识别人脸关键点的坐标信息的方式，在此不做限定。此外，该识别网络可以包括多种网络，例如：该识别网络可以包括顺次相接的多个全连接层等。

针对该特征提取网络而言，示例性的，如图4所示，该特征提取网络可以包括：第一卷积子网络、第二卷积子网络和特征融合子网络；其中，该第一卷积子网络为设有1*1卷积核的卷积网络，该第二卷积子网络为包含深度可分离卷积的卷积网络；

其中，该第二卷积子网络是一种可以将一个核分裂成两个独立的核，分别做两个卷积:深度卷积和点向卷积的，以降低计算量的网络。

该第一卷积子网络的输入内容为输入图像，且输出内容，即第一类特征图，与第二类特征图相融合，从而得到融合后的特征图，可见，该特征提取网络存在有捷径连接(shortcut connection)结构，该shortcut connection结构在控制计算复杂度以及网络参数的同时可以缓解梯度消失现象，也可以进行不同网络层间的信息交流，通过引入shortcut connection结构，可以让不同层的网络信息更有效的传播，整个网络结构可以通过端到端的反向传播进行更优化的梯度更新。

基于该预设的关键点检测模型的网络结构可知，将待检测人脸关键点的图像输入至预设的关键点检测模型之后，该关键点检测模型提取输入图像的第一类特征图和第二类特征图，并对该第一类特征图和该第二类特征图进行融合，得到融合后的特征图，并基于该融合后的特征图识别该融合后的特征图中人脸关键点的坐标信息。

可选地，在本发明实施例中，该第二子网络包括：顺次连接的逐通道卷积(Depthwise Convolution，Depthwise卷积)子网络、逐点卷积(Pointwise Convolution，Pointwise卷积)子网络和插值子网络；

示例性的，该插值子网络可以为双线性插值子网络，采用双线性插值子网络对该第二初始特征图进行双线性插值处理，得到图像尺寸为所述输入图像的尺寸2倍的第二类特征图，且双线性插值处理后，该第二类特征图可以维持整体特征尺寸的不变性。

示例性的，基于该预设的关键点检测模型的网络结构可知，将待检测人脸关键点的图像输入至该关键点检测模型之后，该关键点检测模型中的第一卷积子网络提取输入图像的第一类特征图，Depthwise卷积子网络按照步长为2，对输入图像进行下采样，得到第一初始特征图，Pointwise卷积子网络将该第一初始特征图的维度提升4/3倍，得到第二初始特征图，插值子网络对该第二初始特征图进行插值处理，得到第二类特征图，特征融合子网络对该第一类特征图和该第二类特征图进行融合，得到融合后的特征图，该识别网络基于该融合后的特征图识别该融合后的特征图中人脸关键点的坐标信息。

其中，Depthwise卷积子网络按照stride为2，对输入图像进行下采样时，可以保证下采样能够获得足够的感受野，同时，也降低了后续操作的计算量。例如：假设输入图像的尺寸为64*64，则当输入图像尺寸经过stride为2的卷积处理后，可以得到尺寸为32*32的图像。此外，Pointwise卷积子网络将该第一初始特征图的维度提升至4/3倍，与现有技术的2倍维度提升相比，可以进一步降低模型的复杂度。

其中，输入图像中包含有对关键点检测有益的位置信息，为了更好的保留输入图像中的位置信息，可以采用带有1*1卷积操作的shortcut connection进行位置信息的传递，通过1*1卷积操作可以提升输入图像的维度以此丰富位置信息并维持特征图尺度不变。

上述的对关键点检测模型的结构的说明仅仅作为示例，并不应该构成对本发明实施例的限定。

为了方案清楚，下面对预设的误差计算公式的推理过程进行示例介绍。

传统关键点检测的损失函数一般为以下形式：

其中，x表示输入图像，L₁表示公式(1)计算出的损失值，

为手工标记的人脸关键点的坐标信息，xⁱ为第i张输入图像，

为手工标记的xⁱ中的人脸关键点的坐标信息，θ表示需要更新的网络参数，l表示损失函数，该损失函数可以为现有损失函数中的任一种，例如：平均绝对误差(Mean Absolute Error，MAE)函数或者均方误差(Mean Square Error，MSE)函数等等，f表示回归网络，N为输入图像的图像数量，输入图像即为样本图像，f_θ(xⁱ)为第i张输入图像的人脸关键点的预测坐标信息。

假设预测值f_θ(x)与y之间的误差遵循高斯分布,则有：

p(l(f_θ(x),y|x)＝N(l(f_θ(x),y；μ,σ²) (2)

其中，y为人脸关键点的真实坐标信息，并且上述公式(1)中的

可以与y相同，也可以与y存在差异，μ为人脸关键点的预测坐标信息和对应的真实坐标信息的差值的均值，σ为人脸关键点的预测坐标信息和对应的真是坐标信息的差值的方差值，N表示高斯分布，p表征概率分布。

考虑到建模系统的不确定性，提出一个联合目标函数，如下：

其中，L₂表示公式(3)计算出的损失值。可以发现，在没有

的情况下很难去测试(3)中的最后一项误差，方便起见，基于L1提出如下方法：

其中，L₃表示损失值，L₃更接近于L₂，并且如果给定一个合适的参数ε，对于噪声的鲁棒性会更强于L₁。为了验证上述想法，基于将数据集划分两部分，其中第一份部分样本量记为M，并且这M个样本满足预测值f_θ(x)与真实值y之间的误差小于ε，另一部分则相反。考虑到经验风险

其中i＝{1,2,3},那么则去满足：

E[(R1-R2)²—(R3—R2)²]>0 (5)

推导可以发现，公式(5)在如下条件(6)下可以被实现：

其中，yⁱ表示第i张图像的人脸关键点的真实坐标信息。由于这M个样本满足预测值f_θ(x)与真实值y之间的误差小于ε，那么如果ε满足公式(7)可以得到公式(5)：

换句话说，如果ε满足公式(7)，可以得到E[(R1-R2)²—(R3—R2)²]>0。由于在实际应用中，ε是不能够被提前获取的，类似于公式(2)，假定预测值f_θ(x)与真实值y之间的误差遵循高斯分布，通过引入一个超参数α来更加灵活的控制ε值的选择，如下公式(8)所示：

公式(8)中的

和σ可以在每次训练被计算出来，而超参数α则可以控制训练中误差点的舍弃率。将公式(8)作为误差计算公式，可以很好地提高很好的提高了人脸关键点的检测精度。

相对于上述方法实施例，本发明实施例还提供了一种人脸关键点检测装置，如图5所示，应用于电子设备，可以包括：

图像获取模块510，用于获取待检测人脸关键点的目标图像；

信息确定模块520，用于将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；

本发明实施例提供的获取待检测人脸关键点的目标图像；将所述目标图像输入至预设的关键点检测模型，以使所述关键点检测模型提取所述目标图像的第一类特征图和第二类特征图，融合所述第一类特征图和第二类特征图，并基于融合后的特征图，确定所述目标图像中各个人脸关键点的坐标信息；所述第一类特征图为含有语义信息的特征图，所述第二类特征图为含有像素点的位置信息的特征图；其中，所述关键点检测模型是基于样本图像，以及所述样本图像中各个人脸关键点的真实坐标信息，训练得到的模型；所述关键点检测模型训练过程中，每次调整模型参数时基于各个目标坐标的预测坐标值与相应真实坐标值的差异进行调整，所述各个目标坐标为各个人脸关键点的横坐标和纵坐标中、未满足预定收敛条件的坐标。由于本方案在模型训练过程中，利用的是各个目标坐标的预测坐标值与相应真实坐标值的差异对模型参数进行的调整，而满足收敛条件的关键点的坐标差值并不参与模型参数的调整，进而避免了模型过拟合的问题，提高模型精度，从而可以解决人脸关键点检测的准确度不高。

可选地，在一种实现方式中，所述关键点检测模型的训练过程包括：

可选地，在一种实现方式中，所述基于所述样本图像中各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标，包括：

可选地，在一种实现方式中，所述基于所述样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值，包括：

其中，所述预设的误差计算公式包括：

其中，ε₁为所述目标误差值，

可选地，在一种实现方式中，所述基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，包括：

可选地，在一种实现方式中，所述关键点检测模型中包含有串联相接的多个特征提取网络，以及与最后一个特征提取网络连接的识别网络，所述特征提取网络为包含深度可分离卷积的网络；

可选地，在一种实现方式中，所述特征提取网络包括：第一卷积子网络、第二卷积子网络和特征融合子网络；其中，所述第一卷积子网络为设有1*1卷积核的卷积网络，所述第二卷积子网络为包含深度可分离卷积的卷积网络；

可选地，在一种实现方式中，所述第二卷积子网络包括：顺次连接的Depthwise卷积子网络、Pointwise卷积子网络和插值子网络；

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现任一所述的人脸关键点检测方法。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的人脸关键点检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人脸关键点检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备即存储介质等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人脸关键点检测方法，其特征在于，应用于电子设备，所述方法包括：

获取待检测人脸关键点的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述关键点检测模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本图像中各个人脸关键点的真实坐标信息和预测坐标信息，从各个人脸关键点的横坐标和纵坐标中，确定未满足预定收敛条件的各个目标坐标，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述样本图像中各个人脸关键点的每种坐标的真实坐标值与预测坐标值的差值，计算目标误差值，包括：

其中，所述预设的误差计算公式包括：

其中，ε₁为该目标误差值，

5.根据权利要求2所述的方法，其特征在于，所述基于训练得到的模型参数，确定用于作为训练完成的关键点检测模型的模型参数，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述关键点检测模型中包含有串联相接的多个特征提取网络，以及与最后一个特征提取网络连接的识别网络，所述特征提取网络为包含深度可分离卷积的网络；

7.根据权利要求6所述的方法，其特征在于，所述特征提取网络包括：第一卷积子网络、第二卷积子网络和特征融合子网络；其中，所述第一卷积子网络为设有1*1卷积核的卷积网络，所述第二卷积子网络为包含深度可分离卷积的卷积网络；

8.根据权利要求7所述的方法，其特征在于，所述第二卷积子网络包括：顺次连接的Depthwise卷积子网络、Pointwise卷积子网络和插值子网络；

9.一种人脸关键点检测装置，其特征在于，应用于电子设备，所述装置包括：

图像获取模块，用于获取待检测人脸关键点的目标图像；

10.根据权利要求9所述的装置，其特征在于，所述关键点检测模型的训练过程包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。