CN112329598B

CN112329598B - 人脸关键点定位的方法、系统、电子装置和存储介质

Info

Publication number: CN112329598B
Application number: CN202011204939.1A
Authority: CN
Inventors: 谢衍涛; 王鼎; 陈继; 梅启鹏
Original assignee: Hangzhou Gexiang Technology Co ltd
Current assignee: Hangzhou Gexiang Technology Co ltd
Filing date: 2020-11-02
Publication date: 2024-05-31
Anticipated expiration: 2040-11-02

Abstract

本申请涉及一种人脸关键点定位的方法、系统、电子装置和存储介质，其中，通过获取待检测图像，使用定位网络获取该待检测图像的第一特征点集的热力图和实例标签图，其中，该待检测图像的分辨率为第一分辨率，根据该实例标签图，将该第一特征点集进行分组，并从该热力图中提取该第一特征点集中的第一特征点集坐标，根据该第一特征点集坐标，获取第二特征点集坐标，根据该第二特征点集坐标截取该待检测图像中对应的关键点图像块，将该关键点图像块输入到提升网络中，该提升网络输出偏移坐标，根据该偏移坐标更新该第二特征点集坐标，其中，该待检测图像的分辨率为第二分辨率，解决了在移动终端进行人脸特征点定位时，容量不够和精度低的问题。

Description

人脸关键点定位的方法、系统、电子装置和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及人脸关键点定位的方法、系统、电子装置和存储介质。

背景技术

在现有的基于深度学习的人体特征点检测方法中，人脸特征点检测是手机人像美颜领域的特征性的基础技术。由于是手机端，算力和容量有限，所以既要实时性高，还要网络容量足够小，而且因为要对人像进行修饰，所以对特征点的位置精度要求也很高，因此，手机端的实时人脸特征点定位技术即要求模型小，速度快，还必须精度高，当前深度学习中主要采用卷积网络对人脸特征点进行检测，但主流的卷积网络往往比较庞大，部署在手机端不太现实。

中国发明专利CN201811581382.6中，公开了一种人体关键点检测方法装置电子设备及存储介质，将人体检测和关键点定位融合在一个网络里，使得人体检测网络提取的特征能够被关键点定位使用，达到了子网络共享的目的，即减少了网络规模，又减少了计算量，但该专利申请对人脸关键点定位的精度较低。

目前针对相关技术中在移动终端进行人脸关键点定位时，容量不够和精度低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种人脸关键点定位的方法、系统、电子装置和存储介质，以至少解决相关技术中在移动终端进行人脸特征点检测时，容量不够和精度低的问题。

第一方面，本申请实施例提供了一种人脸特征点定位的方法，所述方法包括：

获取待检测图像，使用定位网络获取所述待检测图像的第一特征点集的热力图和实例标签图，其中，所述待检测图像的分辨率为第一分辨率；

根据所述实例标签图，将所述第一特征点集进行分组，并从所述热力图中提取所述第一特征点集中的第一特征点集坐标；

获取第二特征点集坐标，根据所述第二特征点集坐标截取所述待检测图像中对应的关键点图像块，将所述关键点图像块输入到提升网络中，所述提升网络输出偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标，其中，所述待检测图像的分辨率为第二分辨率。

在其中一些实施例中，根据所述偏移坐标更新所述第二特征点集坐标包括：

将多个所述关键点图像块分别经过多个第一卷积计算块，提取出多个特征张量；

将多个所述特征张量经过连接层连接为一个总的第一特征张量，所述总的第一特征张量经过第二卷积计算块，获得总的第二特征张量；

将所述总的第二特征张量输入到SENET模块中，输出第二特征点集的偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标。

在其中一些实施例中，根据所述实例标签图，将所述第一特征点集进行分组包括：在所述第一特征点集中，属于同一个实例的特征点标签相同，不属于同一个实例的特征点标签不相同，按所述标签是否相同对第一特征点集进行分组。

按所述标签聚类后是否相同对所述第一特征点集进行分组包括：设计所述实例标签图的学习目标函数为Lt，其中，所述目标函数表达了当前实例标签图的分类结果和实际结果的误差，又称为损失函数，定义如下：

其中，I是实例个数，i，j是实例索引，k是特征点索引，x_ik是第i个实例的特征点k的位置，t_k(x)表示对应特征点k的实例标签图上的标签值，是第i个实例所有特征点的标签值的均值。

在其中一些实施例中，从所述热力图中提取所述第一特征点集中的第一特征点集坐标包括：若所述第一特征点集的个数小于全部关键点的个数，则根据所述第一特征点集坐标推断其余关键点的坐标。

在其中一些实施例中，根据所述偏移坐标更新所述第二特征点集坐标之后，所述方法还包含：若所述第二特征点集的个数小于全部关键点的个数，则根据更新后的所述第二特征点集坐标推断其余关键点的坐标。

第二方面，本申请实施例提供了一种人脸关键点定位的系统，所述系统包括定位模块、分组模块和提升模块：

所述定位模块，用于获取待检测图像，使用定位网络获取所述待检测图像的第一特征点集的热力图和实例标签图，其中，所述待检测图像的分辨率为第一分辨率；

所述分组模块，用于根据所述实例标签图，将所述第一特征点集进行分组，并从所述热力图中提取所述第一特征点集中的第一特征点集坐标；

所述提升模块，用于获取第二特征点集坐标，根据所述第二特征点集坐标截取所述待检测图像中对应的关键点图像块，将所述关键点图像块输入到提升网络中，所述提升网络输出偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标，其中，所述待检测图像的分辨率为第二分辨率。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的人脸关键点定位的方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的人脸关键点定位的方法。

相比于相关技术，本申请实施例提供的人脸特征点定位的方法，通过获取待检测图像，使用定位网络获取该待检测图像的第一特征点集的热力图和实例标签图，其中，该待检测图像的分辨率为第一分辨率，根据该实例标签图，将该第一特征点集进行分组，并从该热力图中提取该第一特征点集中的第一特征点集坐标，获取第二特征点集坐标，根据该第二特征点集坐标截取该待检测图像中对应的关键点图像块，将该关键点图像块输入到提升网络中，该提升网络输出偏移坐标，根据该偏移坐标更新该第二特征点集坐标，其中，该待检测图像的分辨率为第二分辨率，解决了在移动终端进行人脸关键点定位时，容量不够和精度低的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的人脸关键点定位的方法的流程图；

图2是根据本申请实施例的定位网络的流程示意图；

图3是根据本申请实施例的提升网络进行特征点精度提升的流程示意图；

图4是根据本申请实施例的人脸关键点定位的系统的结构框图；

图5是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种人脸关键点定位的方法，图1是根据本申请实施例的人脸关键点定位的方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取待检测图像，使用定位网络获取该待检测图像的第一特征点集的热力图和实例标签图，其中，该待检测图像的分辨率为第一分辨率；其中，对定位网络，特征点还可以分成若干类，例如所有的眼角点(左眼左眼角点、左眼右眼角点、右眼左眼角点和右眼右眼角点)可以算一类，也可以各个角点自成一类，这些都是由开发者自行处理，后面提到定位网时说到的特征点都是指特征点类，行文不再区分，对于同一类的特征点，出现在定位网络输出张量的同一个通道里；定位网络为卷积神经网络，卷积神经网络(Convolutional Neural Network，简称CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于图像处理有出色表现，因而，可以利用卷积神经网络进行样本图像的特征的提取，CNN的计算复杂度除了和网络的容量、参数的数据类型、卷积核的大小等因素有关，还和图像分辨率有关，出于实时性的考虑，多人脸特征点定位一般在较低分辨率图像上进行，故在该步骤中，待检测图像的第一分辨率为较低的分辨率，减少定位网络的计算复杂度。

图2是根据本申请实施例的定位网络的流程示意图，如图2所示，图像为较低分辨率的待检测图像，主干网由开发者自行选择，不同的选择，在计算复杂度和效果精度上面各有优劣，可以考虑Resnet、DLA和Hourglass等网络，主干网后面的卷积层CONV是用来生成结果张量，即若干热力图和实例标签图，假设当前的第一特征点集的个数是M，则张量的通道数是2M，即每个特征点对应一张热力图和一张实例标签图；在对定位网络进行训练时，对于每个训练样本，其对应的训练目标为M张热力图，某个特征点的热力图表征了图中某个点(x，y)属于该特征点的概率，对于每一张热力图，在特征点位置(x，y)处设为1，在该点的局部区域，响应值逐渐降低并衰减为零；对于这些逐渐衰减的值的具体计算，既可以假设其为高斯分布，通过对训练样本的估算特征点分布的方差，从而完成指定，也可以根据训练样本的实际分布选择更真实的分布，从而完成指定。如果多个特征点位置比较接近，可以使用Voronoi算法对每个特征点划定区域，解决交叠的问题。热力图的损失函数，有多种定义方法，可以定义为目标热力图和估算热力图之间的均方差，也可以参考Focal Loss函数进行定义；

步骤S102，根据该实例标签图，将该第一特征点集进行分组，并从该热力图中提取该第一特征点集中的第一特征点集坐标；相关技术中，对基于卷积神经网络的人脸关键点检测一般需要先通过一个卷积神经网络进行人脸检测得到人脸框，然后再用另一个卷积神经网络对每张人脸进行关键点定位，本实施例中，第一特征点集可以是待检测图像中多张人脸的关键点，采用实例标签图对第一特征点集进行分组，每一个分组就代表一张人脸，直接进行多人脸关键点定位，避免了人脸检测的过程，减少了一些重复的计算和冗余的存储开销；

步骤S103，获取第二特征点集坐标，根据该第二特征点集坐标截取该待检测图像中对应的关键点图像块，将该关键点图像块输入到提升网络中，该提升网络输出偏移坐标，根据该偏移坐标更新该第二特征点集坐标，其中，该待检测图像的分辨率为第二分辨率。第二特征点集坐标为需要提升精度的特征点坐标，可以从热力图中获取到第二特征点集坐标，也可以从第一特征点集坐标中推断出第二特征点集坐标，应用在美颜中的人脸关键点，对关键点的精度要求还因为关键点的不同而不同，例如，眼睛和嘴巴上的特征点精度比眉毛、鼻翼和脸部外轮廓上的特征点精度要求高，本实施例中，输入定位网络的待检测图像为低分辨率图像，输出的第一特征点集的精度并不满足要求，故对要进行精度提升的关键点称为第二特征点集，根据第二特征点集坐标截取分辨率较高的待检测图像中对应的关键点图像块，提升网络也为卷积神经网络，提升网络通过关键点图像块得到偏移坐标，根据偏移坐标更新第二特征点集坐标，使得第二特征点集中的特征点精度更高，若此时特征点精度还不满足要求，可以再次对更新后的第二特征点集坐标通过提升网络进行精度提升，提升网络是步进式的，可以迭代多次，以求更高的精度，迭代次数由开发者控制，之所以是步进的，因为定位网络获得的精度有误差，表现为总体存在一定误差和个别关键点的误差，如果误差较大，偏离真实位置较远，就很难在单步中恢复，必须考虑步进，不过根据实践，一般迭代两次就可以满足几乎所有常见场景了。

通过上述步骤S101至步骤S103，相对于相关技术中，对基于卷积网络的人脸关键点检测一般需要先通过一个卷积网络进行人脸检测得到人脸框，然后再用另一个卷积网络对每张人脸进行关键点定位，导致重复的计算和冗余的存储开销，且多人脸关键点定位一般在较低分辨率图像上进行，使关键点精度低，若在较高分辨率图像上进行，则容量不够的问题，该系统直接进行多人脸关键点定位得到第一特征点集，避免了人脸检测的过程，再通过实例标签图对第一特征点集进行分组，区分出不同的人脸，再对需要提升精度的特征点从较高分辨率的待检测图像中截取出对应的关键点图像块，将关键点图像块输入到提升网络中，使得这些特征点的精度得到提升，降低了人脸关键点定位时的计算复杂度，也提高了关键点精度，

在其中一些实施例中，在根据该偏移坐标更新该第二特征点集坐标的过程中，将多个关键点图像块分别经过多个第一卷积计算块，提取出多个特征张量；将多个该特征张量经过连接层连接为一个总的第一特征张量，该总的第一特征张量经过第二卷积计算块，获得总的第二特征张量；将该总的第二特征张量输入到SENET模块中，输出第二特征点集的偏移坐标，根据该偏移坐标更新该第二特征点集坐标。其中，网络结构中的卷积计算块，可以使用MobileNet v1,MobileNet v2和Xception等常见的以卷积计算为主的网络块，SENET模块可以替换为SKNet和scSE等一些注意力机制模块。图3是根据本申请实施例的提升网络进行特征点精度提升的流程示意图，如图3所示，流程包括如下步骤：

1.构建关键点图像块，其中，基于定位网络的结果，获取第二特征点集坐标，根据该第二特征点集坐标从第二分辨率的待检测图像中截取对应的关键点图像块作为提升网络的输入；

2.独立地提取关键点特征，通过各特征点相互独立的卷积计算块(第一卷积计算块)从各自的关键点图像块中提取特征张量，并将该特征张量经过连接层连接为一个总的第一特征张量；

3.空间关系与压缩，该总的第一特征张量通过一个卷积计算块(第二卷积计算块)的计算获得总的第二特征张量，这一步使得提升网络可以学习到各个特征点之间的空间约束关系，并且起到压缩特征维度的作用，从而减少计算量；

4.将总的第二特征张量再输入到各特征点相互独立的SENET注意力机制模块，得到通道加权后的特征张量；

5.输出对应特征点(x，y)的偏移(dx，dy)，这样，通过x←x+dx，y←y+dy就可以更新第二特征点集的坐标，提升其精度。

在其中一些实施例中，根据该实例标签图，将该第一特征点集进行分组包括：在该第一特征点集中，属于同一个实例的特征点标签相同，不属于同一个实例的特征点标签不相同，按该标签是否相同对第一特征点集进行分组。本实施例中，同一个实例的特征点为同一张人脸上的特征点，当图像存在多个目标实例的情况下，需要对这些特征点进行分组，以确认这些特征点属于哪个目标实例，实例标签图借鉴了自然语言处理中的向量内嵌的思想，实例标签图中相应于热力图中高响应的地方会被赋值，对于属于同一个实例的特征点，赋值会非常接近，则标签相同，对不属于同一个实例的特征点，赋值会尽可能有较大的差值，则标签不同，相当于给不同的实例以不同的标签。

在其中一些实施例中，按标签聚类后是否相同对第一特征点集进行分组的过程为：设计实例标签图的学习目标函数为Lt，其中，该目标函数表达了当前实例标签图的分类结果和实际结果的误差，又称为损失函数，定义如下：

学习目标函数的核心是尽可能增大类间距离，尽可能减小类内距离，因此也可以定义为：

其中I是实例个数，i，j是实例索引，k是特征点索引，x_ik是第i个实例的特征点k的位置，t_k(x)表示对应特征点k的实例标签图上的标签值，是第i个实例所有特征点的标签值的均值，λ是一个训练超参数，协调类内方差和类间方差之间的权重。本实施例中，实例标签图不需要指定具体的值，而是让属于不同实例的特征点标签值差距尽可能的大，让属于同一个实例的特征点标签值差距尽可能的小，L_t既度量当前分组和实际分组的偏差，又称为损失函数，在网络训练过程中，这个函数值可以学习到足够小。

在其中一些实施例中，从热力图中提取该第一特征点集中的第一特征点集坐标时，若该第一特征点集的个数小于全部特征点的个数，则根据该第一特征点集坐标推断其余特征点坐标。本实施例中，从热力图中提取第一特征点集坐标时，提取到的特征点的个数可以小于全部特征点的个数，再根据已有的特征点坐标推断其他特征点的坐标，例如，可以使用多层感知器根据已有的特征点坐标推断其他特征点的坐标，多层感知器(MultilayerPerceptron，简称MLP)是一种前馈人工神经网络模型，MLP其将输入的多个数据集映射到单一的输出的数据集上。

在其中一些实施例中，根据该偏移坐标更新该第二特征点集坐标之后，该方法还包含：若该第二特征点集的个数小于全部特征点的个数，则根据更新后的该第二特征点集坐标推断其余特征点坐标。本实施例中，更新后的第二特征点集为使用提升网络进行过精度提升的特征点，当第二特征点集的个数小于全部特征点的个数，可以根据精度提升后的第二特征点集推断出其余特征点的坐标，使其余特征点的坐标精度更高。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种人脸关键点定位的系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本申请实施例的人脸关键点定位的系统的结构框图，如图4所示，该系统包括定位模块51、分组模块52和提升模块53：

定位模块51，用于获取待检测图像，使用定位网络获取待检测图像的第一特征点集的热力图和实例标签图，其中，该待检测图像的分辨率为第一分辨率；分组模块52，用于根据实例标签图，将第一特征点集进行分组，并从热力图中提取第一特征点集中的第一特征点集坐标；提升模块53，用于获取第二特征点集坐标，根据第二特征点集坐标截取待检测图像中对应的关键点图像块，将关键点图像块输入到提升网络中，提升网络输出偏移坐标，根据偏移坐标更新第二特征点集坐标，其中，待检测图像的分辨率为第二分辨率。

本实施例通过定位模块51获取待检测图像的热力图和实例标签图，对待检测图像的关键点进行定位，且输入到定位模块51的待检测图像的分辨率为较低的分辨率，提高了定位的实时性，分组模块52再根据实例标签图对待检测图像的第一特征点集进行分组，区分不同的人脸，直接进行多人脸关键点定位，避免了人脸检测的过程，减少了一些重复的计算和冗余的存储开销，提升模块53再获取第二特征点集坐标，该第二特征点集为需要提升精度的特征点，根据第二特征点集坐标截取待检测图像中对应的关键点图像块，再将关键点图像块输入到提升网络中，而不是将整张待检测图像输入到提升网络中，因为第二分辨率一般比较大，会造成计算量大幅上升，故只对关键点图像块进行计算，可减少需要计算的信息，又可以通过降低学习难度减少了学习网络的容量，从而进一步降低了计算量，在减少计算量和网络容量的同时还能提高特征点精度。

在其中一些实施例中，在根据偏移坐标更新第二特征点集坐标的过程中，将多个关键点图像块分别经过多个第一卷积计算块，提取出多个特征张量；将多个特征张量经过连接层连接为一个总的第一特征张量，总的第一特征张量经过第二卷积计算块，获得总的第二特征张量；将总的第二特征张量输入到SENET模块中，输出第二特征点集的偏移坐标，根据偏移坐标更新第二特征点集坐标。本实施例中，通过运用注意力机制，提升网络的设计在速度和精度，抗噪和精度方面都可以取得很好的平衡，使用了两种注意力机制，分别是硬性注意力机制和软性注意力机制，前者帮助减少计算量，后者帮助提升精度和抗噪能力，对关键点图像块进行独立的卷积运算，这是运用硬性注意力机制，因为第二分辨率一般比较大，造成计算量大幅上升，而提升特征点位置的精度，所需要的信息仅仅来自其局部区域纹理信息和其他特征点的位置信息，因此只需要对关键点图像块进行计算即可，这样即直接减少了需要计算的信息，又可以通过降低学习难度减少了学习网络的容量，从而进一步降低了计算量。软性注意力机制模块则体现在SENET模块，因为一个特征点的位置由局部和全局两个因素制约，局部因素就是前面所谓的局部区域纹理特征，全局因素则是全体特征点之间的空间约束关系。这两个因素会相互制约，如果过于考虑全局因素，就可能伤害精确度，过于考虑局部因素，就容易受到噪声的干扰；并且就计算某个特征点的位置来说，其他特征点的位置对它的空间约束重要性也是不同的，例如知道了嘴巴、右眼左眼角点和左眼的右眼角点的位置，鼻梁的位置就大体确定了，因此对于鼻梁来说，这三类特征点信息的权重就比较大，其他的就比较小。通过引入SENET模块，为不同的特征点信息分配不同的权重，即可以较准确地编码特征点空间关系的语义信息，提升抗噪能力，又可以降低全局因素对局部因素的制约，提升精度，达到一个合理的平衡。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待检测图像，使用定位网络获取该待检测图像的第一特征点集的热力图和实例标签图，其中，该待检测图像的分辨率为第一分辨率。

S2，根据该实例标签图，将该第一特征点集进行分组，并从该热力图中提取该第一特征点集中的第一特征点集坐标。

S3，获取第二特征点集坐标，根据该第二特征点集坐标截取该待检测图像中对应的关键点图像块，将该关键点图像块输入到提升网络中，该提升网络输出偏移坐标，根据该偏移坐标更新该第二特征点集坐标，其中，该待检测图像的分辨率为第二分辨率。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的人脸关键点定位的方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种人脸关键点定位的方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸特征点定位的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图5是根据本申请实施例的电子设备的内部结构示意图，如图5所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图5所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸特征点定位的方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上该实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上该实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人脸关键点定位的方法，其特征在于，所述方法包括：

获取待检测图像，使用定位网络获取第一分辨率的所述待检测图像的第一特征点集的热力图和实例标签图；

根据所述实例标签图，将所述第一特征点集按照不同的人脸进行分组，并从所述热力图中提取所述第一特征点集中的第一特征点集坐标，其中，所述根据所述实例标签图，将所述第一特征点集进行分组包括：在所述第一特征点集中，属于同一个实例的特征点标签相同，不属于同一个实例的特征点标签不相同，按所述标签是否相同对第一特征点集进行分组，同一个实例的特征点为同一张人脸上的特征点；

根据所述热力图或所述第一特征点集坐标获取第二特征点集坐标，根据所述第二特征点集坐标截取第二分辨率的所述待检测图像中对应的关键点图像块，将所述关键点图像块输入到提升网络中，所述提升网络输出偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标，其中，所述第二特征点集坐标为需要提升精度的特征点坐标，所述第二分辨率高于所述第一分辨率，所述提升网络包括注意力机制模块。

2.根据权利要求1所述的方法，其特征在于，根据所述偏移坐标更新所述第二特征点集坐标包括：

将所述总的第二特征张量输入到SENET模块中，再通过线性层输出第二特征点集的偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标。

3.根据权利要求1所述的方法，其特征在于，按所述标签聚类后是否相同对所述第一特征点集进行分组包括：设计所述实例标签图的学习目标函数为Lt，其中，所述目标函数表达了当前实例标签图的分类结果和实际结果的误差，又称为损失函数，定义如下：

4.根据权利要求1所述的方法，其特征在于，从所述热力图中提取所述第一特征点集中的第一特征点集坐标包括：若所述第一特征点集的个数小于全部关键点的个数，则根据所述第一特征点集坐标推断其余关键点的坐标。

5.根据权利要求1所述的方法，其特征在于，根据所述偏移坐标更新所述第二特征点集坐标之后，所述方法还包含：若所述第二特征点集的个数小于全部关键点的个数，则根据更新后的所述第二特征点集坐标推断其余关键点的坐标。

6.一种人脸关键点定位的系统，其特征在于，所述系统包括定位模块、分组模块和提升模块，

所述定位模块，用于获取待检测图像，使用定位网络获取第一分辨率的所述待检测图像的第一特征点集的热力图和实例标签图；

所述分组模块，用于根据所述实例标签图，将所述第一特征点集按照不同的人脸进行分组，并从所述热力图中提取所述第一特征点集中的第一特征点集坐标，其中，所述根据所述实例标签图，将所述第一特征点集进行分组包括：在所述第一特征点集中，属于同一个实例的特征点标签相同，不属于同一个实例的特征点标签不相同，按所述标签是否相同对第一特征点集进行分组，同一个实例的特征点为同一张人脸上的特征点；

所述提升模块，用于根据所述热力图或所述第一特征点集坐标获取第二特征点集坐标，根据所述第二特征点集坐标截取第二分辨率的所述待检测图像中对应的关键点图像块，将所述关键点图像块输入到提升网络中，所述提升网络输出偏移坐标，根据所述偏移坐标更新所述第二特征点集坐标，其中，所述第二特征点集坐标为需要提升精度的特征点坐标，所述第二分辨率高于所述第一分辨率，所述提升网络包括注意力机制模块。

7.根据权利要求6所述的系统，其特征在于，根据所述偏移坐标更新所述第二特征点集坐标包括：

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至5中任一项所述的人脸关键点定位的方法。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至5中任一项所述的人脸关键点定位的方法。