CN112418195B

CN112418195B - 一种人脸关键点检测方法、装置、电子设备及存储介质

Info

Publication number: CN112418195B
Application number: CN202110085462.8A
Authority: CN
Inventors: 黄燕挺; 冯子钜; 叶润源; 毛永雄; 董帅; 邹昆
Original assignee: Zhongshan Xidao Technology Co ltd; University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Zhongshan Xidao Technology Co ltd; University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-04-09
Anticipated expiration: 2041-01-22
Also published as: CN112418195A

Abstract

本申请提供一种人脸关键点检测方法、装置、电子设备及存储介质，用于改善对人脸图像进行关键点检测的准确率较低的问题。该方法包括：获得多个人脸图像及每个人脸图像的图像标注，图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点；根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签，遮罩标签表征人脸图像中的关键点被遮挡的概率；以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，关键点检测模型用于检测出图像中的人脸关键点。

Description

一种人脸关键点检测方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习、计算机视觉和图像识别的技术领域，具体而言，涉及一种人脸关键点检测方法、装置、电子设备及存储介质。

背景技术

人脸关键点检测，是一种在任意图像中自动搜索定义好的人脸特征点位置的技术，这里的人脸关键点具体例如：瞳孔、鼻子和嘴角等；人脸关键点检测在计算机视觉和模式识别应用中占有很重要的地位，人脸关键点检测是人脸识别和分析领域中的关键一步。

目前，在人脸图像质量非常好的情况下，使用目前的人脸关键点检测算法对待检测图像中的人脸关键点进行检测，可以获得理想的效果。然而，在具体的实践过程中发现，收集到的待检测图像中存在不同的程度遮挡的情况，特别是在很多场景中存在图像质量差的情况，这些情况具体例如：左眼睛和鼻子被树叶或者广告遮挡的图像等等。在待检测图像中关键的感觉器官被遮挡的情况下，使用目前的人脸关键点检测算法检测人脸关键点有很多错误的情况，这些错误具体例如：将人脸上的皱纹或者酒窝识别为关键点等等。因此，使用目前的人脸关键点检测算法检测出人脸关键点的准确率距离实际应用要求还有较大差距，也就是说，使用目前的人脸关键点检测算法对人脸图像进行关键点检测的准确率较低。

发明内容

本申请实施例的目的在于提供一种人脸关键点检测方法、装置、电子设备及存储介质，用于改善对人脸图像进行关键点检测的准确率较低的问题。

本申请实施例提供了一种人脸关键点检测方法，包括：获得多个人脸图像及每个人脸图像的图像标注，图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点；根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签，遮罩标签表征人脸图像中的关键点被遮挡的概率；以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，关键点检测模型用于检测出图像中的人脸关键点。在上述的实现过程中，先根据人脸图像对应的每个图像标注中的关键点生成遮罩标签，再使用人脸图像和遮罩标签对关键点检测网络中的遮罩分支进行训练，并使用所述人脸图像和所述人脸图像对应的图像标注对该关键点检测网络中的关键点分支进行训练，从而获得可以有效地检测出图像中的人脸关键点的关键点检测模型；也就是说，通过在关键点检测网络中加入遮罩分支，有效地让关键点检测网络更加关注人脸图像中被遮挡的感觉器官，从而提高了检测出人脸关键点的准确率。

可选地，在本申请实施例中，在获得训练后的关键点检测模型之后，还包括：对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，蒸馏后的关键点检测模型用于检测出图像中的人脸关键点。在上述的实现过程中，通过对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，蒸馏后的关键点检测模型用于检测出图像中的人脸关键点；从而有效地通过知识蒸馏将从大网络模型蒸馏转化成一个小网络模型，即将潜在的知识从一个预先训练好的较大的教师模型转移到构建好的轻量级的学生模型中，在保证检测出人脸关键点的准确率基本不变的情况下，提高了检测出人脸关键点的速度，减小了对计算性能和内存资源的要求，使得蒸馏后的关键点检测模型也可以在手机和其它嵌入式设备上运行，提高了检测人脸关键点的实时性。

可选地，在本申请实施例中，根据每个图像标注中的关键点生成遮罩标签，包括：连接图像标注中的关键点形成表征感觉器官的多边形；对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签。在上述的实现过程中，通过连接图像标注中的关键点形成表征感觉器官的多边形；对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签；从而减小了人工标注人脸图像中的感觉器官的工作量，有效地生成遮罩标签的效率和速度。

可选地，在本申请实施例中，对关键点检测网络中的遮罩分支和关键点分支进行训练，包括：使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点；计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值；对第一损失值和第二损失值进行加权融合，获得总损失值；根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练。在上述的实现过程中，通过使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点；计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值；对第一损失值和第二损失值进行加权融合，获得总损失值；根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练，从而获得包括遮罩分支的关键点检测模型，使用包括遮罩分支的关键点检测模型可以提高检测出人脸关键点的准确率。

可选地，在本申请实施例中，使用遮罩分支预测人脸图像对应的遮罩图像，包括：使用遮罩分支针对人脸图像中的感觉器官进行特征提取和语义分割，获得多个感官区域；使用遮罩分支计算多个感官区域的每个感官区域的平均置信度值；以预设数值为背景区域生成人脸图像对应的遮罩图像，并使用每个感官区域的平均置信度值填充遮罩图像的前景区域。

可选地，在本申请实施例中，在对关键点检测网络中的遮罩分支和关键点分支进行训练之前，还包括：在关键点检测网络中添加遮罩分支；在对关键点检测网络中的遮罩分支和关键点分支进行训练之后，还包括：从关键点检测网络中裁剪掉遮罩分支。在上述的实现过程中，通过在关键点检测网络中添加遮罩分支；在对关键点检测网络中的遮罩分支和关键点分支进行训练之后，从关键点检测网络中裁剪掉遮罩分支，有效地减小了模型的运算量以及对计算性能和内存资源的要求，使得蒸馏后的关键点检测模型也可以在手机和其它嵌入式设备上运行，提高了检测人脸关键点的实时性。

可选地，在本申请实施例中，还包括：获得待检测图像；使用关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点。在上述的实现过程中，通过获得待检测图像；使用关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点；通过使用包括遮罩分支的关键点检测模型对待检测图像进行检测，有效地提高了检测出人脸关键点的准确率。

本申请实施例还提供了一种人脸关键点检测装置，包括：图像标注获得模块，用于获得多个人脸图像及每个人脸图像的图像标注，图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点；遮罩标签生成模块，用于根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签，遮罩标签表征人脸图像中的关键点被遮挡的概率；检测模型训练模块，用于以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，关键点检测模型用于检测出图像中的人脸关键点。

可选地，在本申请实施例中，人脸关键点检测装置，还包括：模型蒸馏训练模块，用于对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，蒸馏后的关键点检测模型用于检测出图像中的人脸关键点。

可选地，在本申请实施例中，遮罩标签生成模块，包括：感官形状形成模块，用于连接图像标注中的关键点形成表征感觉器官的多边形；图像插值处理模块，用于对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签。

可选地，在本申请实施例中，检测模型训练模块，包括：遮罩图像预测模块，用于使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点；图像损失计算模块，用于计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值；总损失值获得模块，用于对第一损失值和第二损失值进行加权融合，获得总损失值；遮罩分支训练模块，用于根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练。

可选地，在本申请实施例中，遮罩图像预测模块，包括：感官区域获得模块，用于使用遮罩分支针对人脸图像中的感觉器官进行特征提取和语义分割，获得多个感官区域；置信度值计算模块，用于使用遮罩分支计算多个感官区域的每个感官区域的平均置信度值；遮罩图像生成模块，用于以预设数值为背景区域生成人脸图像对应的遮罩图像，并使用每个感官区域的平均置信度值填充遮罩图像的前景区域。

可选地，在本申请实施例中，人脸关键点检测装置，包括：遮罩分支添加模块，用于在关键点检测网络中添加遮罩分支；遮罩分支裁剪模块，用于从关键点检测网络中裁剪掉遮罩分支。

可选地，在本申请实施例中，人脸关键点检测装置，包括：检测图像获得模块，用于获得待检测图像；脸关键点获得模块，用于使用关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的人脸关键点检测方法的流程示意图；

图2示出的本申请实施例提供的人脸图像的图像标注的示意图；

图3示出的本申请实施例提供的遮罩标签生成的结果示意图；

图4示出的本申请实施例提供的关键点检测模型的网络结构示意图；

图5示出的本申请实施例提供的遮罩分支的网络结构示意图；

图6示出的本申请实施例提供的人脸关键点检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的人脸关键点检测方法之前，先介绍本申请实施例中所涉及的一些概念：

机器学习（Machine Learning，ML），是指人工智能领域中研究人类学习行为的一个分支；通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程，建立各种能通过经验自动改进的算法，使计算机系统能够具有自动学习特定知识和技能的能力。

知识蒸馏（Knowledge Distillation），又被称为模型蒸馏、暗知识提取、蒸馏训练或蒸馏学习，是指将知识从一个复杂的机器学习模型迁移到另一个简化的机器学习模型，从而在保持原复杂的机器学习模型的计算准确率基本不变的情况下，简化机器学习模型的网络结构，以减小机器学习模型在实际应用中的运算量，从而提高机器学习模型的运算速度，让简化后的机器学习模型能够运行在更多计算性能不强的终端设备上。

注意力机制（Attention Mechanism）源于对人类视觉的研究；在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息；上述机制通常被称为注意力机制。

需要说明的是，本申请实施例提供的人脸关键点检测方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑（personal computer，PC）、平板电脑、个人数字助理（personal digitalassistant，PDA）、移动上网设备（mobile Internet device，MID）、网络交换机或网络路由器等。

在介绍本申请实施例提供的人脸关键点检测方法之前，先介绍该人脸关键点检测方法适用的应用场景，这里的应用场景包括但不限于：使用该人脸关键点检测方法对待检测图像进行检测，获得待检测图像中的人脸关键点，或者获得待检测图像中的人脸感觉器官所在该待检查图像中的区域等。具体地，可以将该人脸关键点检测方法使用在监控系统或者支付认证系统中，以增强系统对人脸关键点进行检测的准确率，以及使用在手机等嵌入式终端中，从而有效地增强手机等嵌入式终端对人脸关键点进行识别的准确率等等。

请参见图1示出的本申请实施例提供的人脸关键点检测方法的流程示意图；该人脸关键点检测方法的主要思路是，通过在关键点检测网络中加入遮罩分支，有效地让关键点检测网络更加关注人脸图像中被遮挡的感觉器官，从而提高了检测出人脸关键点的准确率；上述的人脸关键点检测方法可以包括：

步骤S110：获得多个人脸图像及每个人脸图像的图像标注。

请参见图2示出的本申请实施例提供的人脸图像的图像标注的示意图；图像标注是指针对人脸图像中感觉器官的轮廓形状所标注的关键点，此处的关键点可以是标注的基本5点，分别为左右两个嘴角，两个眼的中心和鼻子这5个关键点属于人脸内部关键点，此处的基本5点可以用于计算人脸的姿态；此处的关键点也可以是非常密集地标注超过90个点，可以用于计算三维图像。在实施过程中，图像标注还可以包括：每个关键点的编号和关键点连接起来组成的多边形；具体例如：通过五官各自的外围关键点组成的多边形，关键点构成的感觉器官的轮廓形状请参照图2，对多边形填充不同的值表示不同的感觉器官，上述的感觉器官可以包括：左眉、右眉、左脸、右脸、下巴、左眼、右眼、嘴巴和鼻子等等。

上述步骤S110中的多个人脸图像的获得方式包括：第一种方式，使用普通的摄像机、录像机或彩色照相机采集目标人脸的图像，获得目标人脸的彩色图像；第二种方式，获取预先存储的针对目标人脸采集的彩色图像，从文件系统中获取针对目标人脸采集的彩色图像，或者从数据库中获取彩色图像；第三种方式，从其他终端设备接收获得彩色图像，或者使用浏览器等软件获取互联网上的彩色图像，或者使用其它应用程序访问互联网获得彩色图像。

上述步骤S110中人脸图像的图像标注的获得方式包括：第一种方式，从已经获得的人脸图像进行人工标注，人工地查看并标记出人脸图像中的关键点，并将关键点在人脸图像中的位置坐标确定为该人脸图像对应人脸标注；第二种实施方式，使用机器学习算法自动计算出人脸图像中的关键点，并将关键点在人脸图像中的位置坐标确定为该人脸图像对应人脸标注；其中，此处的机器学习算法包括但不限于：卡尔曼滤波算法、基于深度学习模型的算法和目标检测算法等等。

在具体的实施过程中，上述的人脸图像和图像标注可以分开获取，具体例如：人工的搜集人脸图像，并人工地识别人脸图像的图像标注；当然，也可以将人脸图像和图像标注打包为训练数据集获取，此处的训练数据集可以包括：ImageNet数据集、COCO数据集和AFLW数据集等等。

在步骤S110之后，执行步骤S120：根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签。

请参见图3示出的本申请实施例提供的遮罩标签生成的结果示意图；遮罩标签（Mask Label）是指表征人脸图像中的关键点被遮挡的概率图像标签；遮罩标签的作用是利用神经网络的注意力机制，来让检测人脸图像关键点的神经网络模型重点注意这些被遮罩的区域部分，而不是别的地方，从而有效地提高神经网络模型检测出关键点的准确率。

上述步骤S120的实施方式也有很多种，包括但不限于如下几种：

第一种实施方式，采用人工地方式对人脸图像进行标注获得遮罩标签，具体例如：人工的观察和识别出人脸图像中的感觉器官区域，并对人脸图像中的感觉器官区域打标签获得人工标注的遮罩标签；当然也可以人工的观察人脸朝向角度，从多个遮罩模板图像筛选出适合该人脸朝向角度的遮罩模板图像，然后将遮罩模板图像放大处理，直到遮罩模板图像的遮罩区域覆盖大部分感觉器官，即可获得人工处理的遮罩标签。

第二种实施方式，利用遮罩模板图像进行插值，直到覆盖关键点组成的多边形时获得遮罩标签，该实施方式包括：检测出人脸图像的人脸朝向角度，从多个遮罩模板图像筛选出适合该人脸朝向角度的遮罩模板图像，然后分别连接五个感觉器官各自的外围关键点组成的多边形，即连接图像标注中的关键点形成表征感觉器官的多边形；最后，使用插值算法对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签；其中，可以使用的插值算法包括但不限于：最近邻插值算法、双线性插值算法和双三次插值算法等。在上述的实现过程中，通过连接图像标注中的关键点形成表征感觉器官的多边形；对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签；从而减小了人工标注人脸图像中的感觉器官的工作量，有效地生成遮罩标签的效率和速度。

第三种实施方式，利用遮罩模板图像进行插值，直到覆盖人脸图像中的所有关键点时获得遮罩标签，该实施方式与第二种实施方式是类似的，仅仅是覆盖对象和停止条件不同，具体可以包括：检测出人脸图像的人脸朝向角度，从多个遮罩模板图像筛选出适合该人脸朝向角度的遮罩模板图像，并使用插值算法对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖人脸图像中的所有关键点时，获得遮罩标签。

在步骤S120之后，执行步骤S130：以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型。

请参见图4示出的本申请实施例提供的关键点检测模型的网络结构示意图；关键点检测模型是指用于检测出图像中的人脸关键点的神经网络模型，此处的关键点模型可以包括：遮罩分支和关键点分支；遮罩分支和关键点分支的具体网络结构有很多实现方式，为了便于理解和说明，下面分别用其中的一种实现方式来说明遮罩分支和关键点分支的具体网络结构，因此，遮罩分支和关键点分支的具体网络结构不应理解为对本申请实施例的限制。

上述的关键点分支可以包括：用于特征提取的主网络、注意力层、多个卷积层和多个全连接层；此处的注意力层可以采用SENET神经网络模型。此处的主网络由四个主干层（Back Bone Layer）构成，此处的四个主干层包括：第一主干层、第二主干层、第三主干层和第四主干层。其中，第一主干层包括三个模块，每个模块中包括三个卷积层，因此，第一主干层共包括九个卷积层，这九个卷积层的步长均为1，也就是说，这九个卷积层均不会改变输入的特征（feature）图的尺寸大小。第二主干层包括四个模块，每个模块中包括三个卷积层，因此，第二主干层共包括十二个卷积层，其中，第一个模块中的第二个卷积层步长可以不为1，第一个模块中的第二个卷积层可能会改变输入的特征图的尺寸大小，其余卷积层的补充均为1。第三主干层包括六个模块，每个模块中包括三个卷积层，因此，第三主干层共包括十八个卷积层，其中，其中，第一个模块中的第二个卷积层步长可以不为1，其余卷积层的补充均为1。第四主干层和第三主干层是相同的，因此，这里就不再赘述。

请参见图5示出的本申请实施例提供的遮罩分支的网络结构示意图；遮罩分支可以是由多个尺寸不同的反卷积层（Deconvolution Layer）和卷积层（Convolution Layer）构成，遮罩分支的作用是监督和辅助关键点检测模型训练至收敛，遮罩分支的输入数据不是输入的人脸图像，而是主干层输出的图像特征。可以理解的是，上述遮罩分支的损失函数可以采用二进制交叉熵（binarycrossentropywithlogits）函数来计算，遮罩分支中的反卷积层和卷积层的通道数目、卷积核尺寸、填充、步长和激活函数等等可以根据具体情况进行设置，最后通过Sigmoid函数计算遮罩（mask）特征图对应的类型感觉器官（例如眼睛或者鼻子等等）的概率，因此，遮罩分支中的反卷积层和卷积层的网络结构不应理解为本申请实施例的限制。

上述步骤S130中的对关键点检测网络中的遮罩分支和关键点分支进行训练的实施方式可以包括：

步骤S131：使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点。

上述步骤S131中的使用遮罩分支预测人脸图像对应的遮罩图像的实施方式例如：使用遮罩分支针对人脸图像中的感觉器官进行特征提取和语义分割，获得多个感官区域，并使用遮罩分支计算多个感官区域的每个感官区域的平均置信度值；然后以预设数值为背景区域生成人脸图像对应的遮罩图像，并使用每个感官区域的平均置信度值填充遮罩图像的前景区域，从而获得人脸图像对应的遮罩图像。

上述步骤S131中的使用关键点分支预测人脸图像中的人脸关键点的实施方式例如：使用残差网络模型、VGG系列网络模型或者MobileNet系列网络模型作为关键点分支，来预测人脸图像中的人脸关键点；其中，残差网络模型具体例如：ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等。

步骤S132：计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值，然后根据第一损失值和第二损失值对关键点检测网络中的遮罩分支和关键点分支进行训练。

上述步骤S132的实施方式例如：使用交叉熵损失函数计算遮罩图像与遮罩标签之间的第一损失值，并使用交叉熵损失函数计算人脸关键点与图像标注之间的第二损失值，然后对第一损失值和第二损失值进行加权融合，获得总损失值，根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练。在上述的实现过程中，通过使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点；计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值；对第一损失值和第二损失值进行加权融合，获得总损失值；根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练，从而获得包括遮罩分支的关键点检测模型，使用包括遮罩分支的关键点检测模型可以提高检测出人脸关键点的准确率。

在上述的实现过程中，先根据人脸图像对应的每个图像标注中的关键点生成遮罩标签，再使用人脸图像和遮罩标签对关键点检测网络中的遮罩分支进行训练，并使用人脸图像和人脸图像对应的图像标注对该关键点检测网络中的关键点分支进行训练，从而获得可以有效地检测出图像中的人脸关键点的关键点检测模型；也就是说，通过在关键点检测网络中加入遮罩分支，有效地让关键点检测网络更加关注人脸图像中被遮挡的感觉器官，从而提高了检测出人脸关键点的准确率。

可选地，在本申请实施例中，在获得训练后的关键点检测模型之后，可以有两种实施方式使用关键点检测模型来检测图像，这两种实施方式包括：

第一种实施方式，直接使用训练后的关键点检测模型进行检测，该实施方式可以包括：

步骤S210：获得待检测图像。

上述步骤S210的实施方式包括：第一种获得方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待检测图像；然后该终端设备向电子设备发送待检测图像，然后电子设备接收终端设备发送的待检测图像，电子设备可以将待检测图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的待检测图像，具体例如：从文件系统中获取待检测图像，或者从数据库中获取待检测图像，或者从移动存储设备中获取待检测图像；第三种获得方式，使用浏览器等软件获取互联网上的待检测图像，或者使用其它应用程序访问互联网获得待检测图像。

步骤S220：使用关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点。

上述步骤S220的实施方式例如：接收终端设备发送的待检测图像，使用上述训练后的关键点检测模型对待检测图像进行检测，获得包括待检测图像中的人脸关键点的检测结果，并向终端设备发送该人脸关键点的检测结果。

第二种实施方式，进一步对关键点检测模型进行蒸馏训练后，再使用蒸馏训练后的关键点检测模型进行检测，该实施方式包括：

步骤S230：对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型。

步骤S240：使用蒸馏后的关键点检测模型检测出待检测图像中的人脸关键点。

上述步骤S230至步骤S240的实施方式例如：为了更有效地训练获得较小的目标网络模型，首先，构建并训练一个高性价比的人脸关键点估计模型作为教师模型，其中，教师模型的主干网络具体可以采用Hourglass模型或者HRnet模型等；然后，根据

使用该教师模型对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，其中，L是蒸馏训练过程中的总损失函数，L _mse是蒸馏训练过程中学生模型输出的人脸关键点与教师模型输出的人脸关键点之间的均方误差损失函数，可以简称为关键点损失，L _st是蒸馏训练过程中学生模型输出的遮罩图像和教师模型输出的遮罩图像之间的损失函数，可以简称为遮罩损失，α是关键点损失与遮罩损失之间的权重参数，K代表遮罩分支中神经网络的个数，

和

分别代表学生模型输出的遮罩图像和教师模型输出的遮罩图像；最后，使用蒸馏后的关键点检测模型检测出待检测图像中的人脸关键点。

在上述的实现过程中，通过对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，蒸馏后的关键点检测模型用于检测出图像中的人脸关键点；从而有效地通过知识蒸馏将从大网络模型蒸馏转化成一个小网络模型，即将潜在的知识从一个预先训练好的较大的教师模型转移到构建好的轻量级的学生模型中，在保证检测出人脸关键点的准确率基本不变的情况下，提高了检测出人脸关键点的速度，减小了对计算性能和内存资源的要求，使得蒸馏后的关键点检测模型也可以在手机和其它嵌入式设备上运行，提高了检测人脸关键点的实时性。

可选地，上述的遮罩分支在模型训练时使用，在模型应用推断时可以将遮罩分支裁剪掉，这种实施方式可以包括：

步骤S310：获得多个人脸图像及每个人脸图像的图像标注。

步骤S320：根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签。

其中，该步骤S310至步骤S320的实施原理和实施方式与步骤S110的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S110的描述。

步骤S330：在关键点检测网络中添加遮罩分支。

上述步骤S330的实施方式例如：将关键点检测网络中的主网络输出的图像特征接入遮罩分支，使用遮罩分支对主网络输出的图像特征进行计算，获得遮罩图像；也就是说，将遮罩分支与关键点检测网络中的主网络进行连接，从而获得遮罩分支输出的遮罩图像。

步骤S340：以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型。

其中，该步骤S340的实施原理和实施方式与步骤S130的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S130的描述。

步骤S350：从关键点检测网络中裁剪掉遮罩分支，获得裁剪后的关键点检测模型。

其中，该步骤S350的实施原理和实施方式与步骤S330的实施原理和实施方式是类似的，区别仅在于，步骤S330是添加遮罩分支，而步骤S350是裁剪遮罩分支，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S330的描述。

步骤S360：使用裁剪后的关键点检测模型对待检测图像进行检测，或者使用裁剪并蒸馏后的关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点。

其中，该步骤S360的实施原理和实施方式与步骤S210至步骤S240的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S210至步骤S240的描述。

请参见图6示出的本申请实施例提供的人脸关键点检测装置的结构示意图。本申请实施例还提供了一种人脸关键点检测装置200，包括：

图像标注获得模块210，用于获得多个人脸图像及每个人脸图像的图像标注，图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点。

遮罩标签生成模块220，用于根据每个图像标注中的关键点生成遮罩标签，获得多个遮罩标签，遮罩标签表征人脸图像中的关键点被遮挡的概率。

检测模型训练模块230，用于以多个人脸图像为训练数据，以多个遮罩标签和多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，关键点检测模型用于检测出图像中的人脸关键点。

可选地，在本申请实施例中，人脸关键点检测装置，还包括：

模型蒸馏训练模块，用于对训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，蒸馏后的关键点检测模型用于检测出图像中的人脸关键点。

可选地，在本申请实施例中，遮罩标签生成模块，包括：

感官形状形成模块，用于连接图像标注中的关键点形成表征感觉器官的多边形。

图像插值处理模块，用于对预先设置的遮罩模板图像进行插值处理，直到遮罩模板图像的遮罩区域覆盖多边形时，获得遮罩标签。

可选地，在本申请实施例中，检测模型训练模块，包括：

遮罩图像预测模块，用于使用遮罩分支预测人脸图像对应的遮罩图像，并使用关键点分支预测人脸图像中的人脸关键点。

图像损失计算模块，用于计算遮罩图像与遮罩标签之间的第一损失值，并计算人脸关键点与图像标注之间的第二损失值。

总损失值获得模块，用于对第一损失值和第二损失值进行加权融合，获得总损失值。

遮罩分支训练模块，用于根据总损失值对关键点检测网络中的遮罩分支和关键点分支进行训练。

可选地，在本申请实施例中，遮罩图像预测模块，包括：

感官区域获得模块，用于使用遮罩分支针对人脸图像中的感觉器官进行特征提取和语义分割，获得多个感官区域。

置信度值计算模块，用于使用遮罩分支计算多个感官区域的每个感官区域的平均置信度值。

遮罩图像生成模块，用于以预设数值为背景区域生成人脸图像对应的遮罩图像，并使用每个感官区域的平均置信度值填充遮罩图像的前景区域。

可选地，在本申请实施例中，人脸关键点检测装置，可以包括：

遮罩分支添加模块，用于在关键点检测网络中添加遮罩分支。

遮罩分支裁剪模块，用于从关键点检测网络中裁剪掉遮罩分支。

可选地，在本申请实施例中，人脸关键点检测装置，还可以包括：

检测图像获得模块，用于获得待检测图像。

脸关键点获得模块，用于使用关键点检测模型对待检测图像进行检测，获得待检测图像中的人脸关键点。

应理解的是，该装置与上述的人脸关键点检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-OnlyMemory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种人脸关键点检测方法，其特征在于，包括：

获得多个人脸图像及每个人脸图像的图像标注，所述图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点；

根据每个所述图像标注中的关键点生成遮罩标签，获得多个遮罩标签，所述遮罩标签表征人脸图像中的关键点被遮挡的概率；

以所述多个人脸图像为训练数据，以所述多个遮罩标签和所述多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，所述关键点检测模型用于检测出图像中的人脸关键点；

其中，所述根据每个所述图像标注中的关键点生成遮罩标签，包括：检测出人脸图像的人脸朝向角度，从多个遮罩模板图像筛选出适合所述人脸朝向角度的遮罩模板图像，并连接所述图像标注中的关键点形成表征感觉器官的多边形；对所述遮罩模板图像进行插值处理，直到所述遮罩模板图像的遮罩区域覆盖所述多边形时，获得所述遮罩标签。

2.根据权利要求1所述的方法，其特征在于，在所述获得训练后的关键点检测模型之后，还包括：

对所述训练后的关键点检测模型进行蒸馏训练，获得蒸馏后的关键点检测模型，所述蒸馏后的关键点检测模型用于检测出图像中的人脸关键点。

3.根据权利要求1所述的方法，其特征在于，所述对关键点检测网络中的遮罩分支和关键点分支进行训练，包括：

使用所述遮罩分支预测所述人脸图像对应的遮罩图像，并使用所述关键点分支预测所述人脸图像中的人脸关键点；

计算所述遮罩图像与所述遮罩标签之间的第一损失值，并计算所述人脸关键点与所述图像标注之间的第二损失值；

对所述第一损失值和所述第二损失值进行加权融合，获得总损失值；

根据所述总损失值对所述遮罩分支和所述关键点分支进行训练。

4.根据权利要求3所述的方法，其特征在于，所述使用所述遮罩分支预测所述人脸图像对应的遮罩图像，包括：

使用所述遮罩分支针对所述人脸图像中的感觉器官进行特征提取和语义分割，获得多个感官区域；

使用所述遮罩分支计算所述多个感官区域的每个感官区域的平均置信度值；

以预设数值为背景区域生成所述人脸图像对应的遮罩图像，并使用所述每个感官区域的平均置信度值填充所述遮罩图像的前景区域。

5.根据权利要求1所述的方法，其特征在于，在所述对关键点检测网络中的遮罩分支和关键点分支进行训练之前，还包括：

在所述关键点检测网络中添加所述遮罩分支；

在所述对关键点检测网络中的遮罩分支和关键点分支进行训练之后，还包括：

从所述关键点检测网络中裁剪掉所述遮罩分支。

6.根据权利要求1-5任一所述的方法，其特征在于，还包括：

获得待检测图像；

使用所述关键点检测模型对所述待检测图像进行检测，获得所述待检测图像中的人脸关键点。

7.一种人脸关键点检测装置，其特征在于，包括：

图像标注获得模块，用于获得多个人脸图像及每个人脸图像的图像标注，所述图像标注为针对人脸图像中感觉器官的轮廓形状所标注的关键点；

遮罩标签生成模块，用于根据每个所述图像标注中的关键点生成遮罩标签，获得多个遮罩标签，所述遮罩标签表征人脸图像中的关键点被遮挡的概率；

检测模型训练模块，用于以所述多个人脸图像为训练数据，以所述多个遮罩标签和所述多个人脸图像的图像标注为训练标签，对关键点检测网络中的遮罩分支和关键点分支进行训练，获得训练后的关键点检测模型，所述关键点检测模型用于检测出图像中的人脸关键点；

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。

9.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。