CN113688664A

CN113688664A - 人脸关键点检测方法和人脸关键点检测装置

Info

Publication number: CN113688664A
Application number: CN202110773124.3A
Authority: CN
Inventors: 赵健; 徐晗; 杨敏; 朱峰; 韩晶晶; 韩承周
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-23
Anticipated expiration: 2041-07-08
Also published as: KR20230009289A; CN113688664B

Abstract

提供一种人脸关键点检测方法和人脸关键点检测装置。所述人脸关键点检测方法包括：基于人脸图像提取热力图特征和坐标值特征；基于热力图特征和坐标值特征来检测人脸关键点。根据本发明的人脸关键点检测方法，相比于现有的人脸关键点检测方法，由于同时利用了基于人脸图像提取的热力图特征和坐标值特征来检测人脸关键点，因此，可以兼顾检测精度和实时性。

Description

人脸关键点检测方法和人脸关键点检测装置

技术领域

本发明涉及人脸检测，更具体地，涉及一种人脸关键点检测方法和人脸关键点检测装置。

背景技术

与需要用户执行特定运动或动作的识别技术(例如，指纹识别和虹膜识别)不同，人脸检测技术被视为可在不与目标接触的情况下验证目标的方便且有竞争力的生物识别技术。由于这种人脸检测技术的便利性和有效性，因此，人脸检测技术已被广泛用于各种应用领域(例如，安全系统、移动认证和多媒体搜索)中。

作为人脸检测技术的关键一环，人脸关键点检测至关重要。然而，随着不同条件下的人脸图像的复杂化和人脸检测的应用场景的多样化，人脸关键点检测的精度和实时性往往难以满足实际需要。

因此，存在对能兼顾人脸关键点检测的精度和实时性的需求。

发明内容

本发明的目的在于提供一种人脸关键点检测方法和人脸关键点检测装置。

根据本公开的一方面，提供一种人脸关键点检测方法，所述人脸关键点检测方法包括：基于人脸图像提取热力图特征和坐标值特征；基于热力图特征和坐标值特征来检测人脸关键点。

可选地，基于热力图特征和坐标值特征来检测人脸关键点的步骤还包括：通过对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，来生成第一融合热力图特征；通过对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合，来生成第一融合坐标值特征；基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点。

可选地，基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的步骤包括：基于第一融合热力图特征预测人脸关键点的热力图；基于第一融合坐标值特征预测人脸关键点的坐标值信息；通过对人脸关键点的热力图和人脸关键点的坐标值信息执行融合，来输出人脸关键点的坐标，以检测人脸关键点。

可选地，采用择优输出、算术平均和加权平均三种方式中的任一方式来对人脸关键点的热力图和人脸关键点的坐标值信息执行融合。

可选地，通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合。

可选地，基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点包括：从第一融合热力图特征提取第一热力图特征；从第一融合坐标值特征提取第一坐标值特征；通过对第一热力图特征和通过将第一坐标值特征转换为热力图格式而得到的第二转换热力图特征执行融合，来生成第二融合热力图特征；通过对第一坐标值特征和通过将第一热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合，来生成第二融合坐标值特征，其中，基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的步骤包括：基于第二融合热力图特征和第二融合坐标值特征，来检测人脸关键点。

可选地，基于人脸图像提取热力图特征和坐标值特征的步骤包括：从人脸图像提取所述人脸的通用特征；将所述人脸的通用特征分离为第一特征和第二特征；从第一特征提取热力图特征；从第二特征提取坐标值特征。

可选地，使用分辨率切分、按通道切分和复制三种方式中的任一方式将通用特征分离为第一特征和第二特征。

可选地，基于热力图特征和坐标值特征来检测人脸关键点的步骤包括：使用轻量级的热力图网络和轻量级的坐标值网络基于热力图特征和坐标值特征来检测人脸关键点。

根据本公开的一方面，提供一种人脸关键点检测装置，所述人脸关键点检测装置包括：特征提取器，基于人脸图像提取热力图特征和坐标值特征；人脸关键点检测器，基于热力图特征和坐标值特征来检测人脸关键点。

可选地，人脸关键点检测装置包括：第一特征融合器；第一特征融合器包括第一热力图特征融合器和第一坐标值特征融合器，其中，第一热力图特征融合器通过对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，来生成第一融合热力图特征，其中，第一坐标值特征融合器通过对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合，来生成第一融合坐标值特征；人脸关键点检测器，基于第一融合热力图特征和第一融合坐标值特征，来检测人脸关键点。

可选地，人脸关键点检测器还包括：热力图输出头，基于第一融合热力图特征预测人脸关键点的热力图；坐标值输出头，基于第一融合坐标值特征预测人脸关键点的坐标值信息；结果融合器，通过对人脸关键点的热力图和人脸关键点的坐标值信息执行融合，来输出人脸关键点的坐标，以检测人脸关键点。

可选地，结果融合器采用择优输出、算术平均和加权平均三种方式中的任一方式来对人脸关键点的热力图和人脸关键点的坐标值信息执行融合。

可选地，第一热力图特征融合器通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来执行融合，第一坐标值特征融合器通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来执行融合。

可选地，所述人脸关键点检测装置还包括第一特征提取器和第二特征融合器：其中，第一特征提取器包括第一热力图特征提取器和第一坐标值特征提取器，第一热力图特征提取器，从第一融合热力图特征提取第一热力图特征；第一坐标值特征提取器，从第一融合坐标值特征提取第一坐标值特征；第二特征融合器，包括第二热力图特征融合器和第二坐标值特征融合器，其中，第二热力图特征融合器通过对第一热力图特征和通过将第一坐标值特征转换为热力图格式而得到的第二转换热力图特征执行融合，来生成第二融合热力图特征，其中，第二坐标值特征融合器通过对第一坐标值特征和通过将第一热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合，来生成第二融合坐标值特征，其中，人脸关键点检测器还基于第二融合热力图特征和第二融合坐标值特征，来检测人脸关键点。

可选地，所述人脸关键点检测装置还包括：通用特征提取器，从人脸图像提取所述人脸的通用特征；特征分离器，将所述人脸的通用特征分离为第一特征和第二特征，其中，特征提取器包括：热力图特征提取器，从第一特征提取热力图特征；坐标值特提取征器，从第二特征提取坐标值特征。

可选地，特征分离器使用分辨率切分、按通道切分和复制三种方式中的任一方式将通用特征分离为第一特征和第二特征。

可选地，人脸关键点检测器包括轻量级的热力图网络和轻量级的坐标值网络。

根据本公开的一方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被一个或多个计算装置执行时使得所述一个或多个计算装置实现如上所述的任一人脸关键点检测方法。

根据本公开的一方面，提供一种包括一个或多个计算装置和一个或多个存储装置的人脸关键点检测系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如上所述的任一人脸关键点检测方法。

根据本发明的人脸关键点检测方法，相比于现有的人脸关键点检测方法，由于同时利用了基于人脸图像提取的热力图特征和坐标值特征来检测人脸关键点，因此，可以兼顾检测精度和实时性。

此外，根据本发明的人脸关键点检测方法，由于可使用多种特征分离方法来分离特征，因此，可以满足不同条件下的特征分离需要。

此外，由于可以基于通过同一通用特征提取器基于人脸图像提取的特征来生成热力图特征和坐标值特征，因此可以减少提取热力图特征和坐标值特征所需要的运算量并确保好的实时性。

此外，根据本发明的人脸关键点检测方法，基于第一融合热力图特征和第一融合坐标值特征二者来检测人脸关键点，从而可以实现高的检测精度和/或好的实时性。

此外，在本发明中，通过融合操作，预测人脸关键点的热力图和预测人脸关键点的坐标值信息可各自具体或者体现不同尺度、多模的特征信息，并且实现快速的特征提取，因此，基于预测人脸关键点的热力图和预测人脸关键点的坐标值信息二者来检测人脸关键点，从而可以更一步提高检测精度并确保实时性。

此外，在本发明中，可由对多次提取热力图特征和坐标值特征并多次对热力图特征和坐标值特征进行融合，从而提取有效反映人脸关键点的不同尺度和多模的特征信息，因此，基于上述多次融合特征检测人脸关键点，从而可以更一步提高检测精度并确保实时性。

在本发明中，由于使用了如上所述的特征多模多尺度融合方法，因此可以解决单一分支检测精度差的问题。

此外，在本发明中，在使用了特征多模多尺度融合方法和坐标值回归分支，保证了充足的全局特征的使用，从而提高了模型的鲁棒性。

另外，在本发明中，可采用网络中采用了轻量级的热力图网络和轻量级的坐标值网络，因此在牺牲精度的基础上提高网络的推理速度。从而避免了热力图回归技术推理速度慢的问题，提高了整个网络的运行速度。

附图说明

通过下面结合示例性地示出一例的附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的人脸关键点检测方法的流程图；

图2示出根据本发明的示例性实施例的基于热力图特征和坐标值特征来检测人脸关键点的方法的流程图。

图3示出根据本发明的示例性实施例的基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的方法的流程图；

图4示出根据本发明的示例性实施例的人脸关键点检测装置的示意图；

图5示出根据本发明的示例性实施例的实现人脸关键点检测方法的网络的示意图；

图6示出根据本发明的示例性实施例的特征多模多尺度融合器内的特征融合器的示意图。

图7示出根据本发明的示例性实施例的人脸关键点检测系统的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面了解。然而，在了解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在了解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式，所述许多可行方式在了解本申请的公开之后将是清楚的。

如在此使用的，术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。

尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此，在不脱离示例的教导的情况下，在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在说明书中，当元件(诸如，层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时，该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件，或者可存在介于其间的一个或多个其他元件。相反，当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时，可不存在介于其间的其他元件。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在了解本公开之后通常了解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

在下文中，将参照附图详细描述实施例。然而，实施例可以以各种形式实现，并且不限于在此描述的实施例。

为了便于理解本公开，首先对现有的人脸关键点检测技术进行描述。

人脸关键点检测技术的转折点在2013年，2013年之前人脸关键点检测技术基于传统图像处理技术，2013年开始深度学习技术被引入人脸关键点检测领域，使得人脸关键点检测的性能得到了飞速发展。

传统的人脸关键点检测技术主要包括主动形状模型(Active shape model)、主动外观模型(Active appearance model)、级联姿态回归(Cascaded pose regression)等。这些技术在特定条件下的人脸关键点检测上取得较好效果，但对无限制图片(in-the-wild,在没有环境限制的条件下拍摄的照片)的检测表现出了较差的鲁棒性。

基于深度学习的新型检测技术主要可以分为坐标回归和热力图回归两大类。在坐标回归技术中，网络输入人脸图片后直接输出关键点的坐标，具有推理时间快的优势。在热力图回归技术中，网络输入人脸图片后输出多张热力图，每张热力图对应一个关键点，关键点位置即为热力图中最“热”点的位置，具有检测精度高的优势。

人脸关键点检测实际应用具有高精度、推理快和鲁棒性好的要求，但现有坐标回归技术和热力图回归技术均不能较好的满足该需求。更具体地讲，坐标回归技术具有鲁棒性好，推理快，可用于实时应用的优势，但具有检测精度差的问题。通常其速度可以达到实时级(>30fps)，精度在300W数据集验证集上>3.40％(越低越好)。热力图回归技术具有检测精度高的优势，但具有鲁棒性差、推理慢的问题，无法达到实时级，难以用于实际应用。通常其精度可以达到较高水平，速度<20fps。

为了解决上述现在技术存在的问题中的一个或多个，兼顾检测精度和实时性，本公开提供一种人脸关键点检测方法和人脸关键点检测装置。根据本发明的人脸关键点检测方法，相比于现有的人脸关键点检测方法，由于同时利用了基于人脸图像提取的热力图特征和坐标值特征来检测人脸关键点，因此，可以兼顾检测精度和实时性。

图1示出根据本公开的示例性实施例的人脸关键点检测方法的流程图。

参照图1，在步骤S110中，基于人脸图像提取热力图特征和坐标值特征。

人脸图像可以是包含人脸的全部或者一个或多个部分(例如，作为非限制性的示例，眼睛、鼻子、眉毛、嘴和/或脸部等)的图像。这里，人脸图像可以通过各种各样的方式来获取。例如，人脸图像可以通过相机或者预先存储在存储器中的数据来获取。然而，本发明不限于此，人脸图像可以通过其他各种方式来获得。

在本发明的一个实施例中，可首先基于人脸图像提取人脸的通用特征。这里，通用特征可以理解为采用各种现有神经网络提取的人脸特征，例如使用通用特征提取器从人脸图像提取人脸的通用特征。

通用特征可用于提取热力图特征和坐标值特征。具体地，可将人脸的通用特征分离为第一特征和第二特征。其中，第一特征可以是用于生成热力图特征的特征，第二特征可以是用于生成坐标值特征的特征。

在一个示例实施例中，可使用分辨率切分、按通道切分和复制三种方式中的任一方式将通用特征分离为第一特征和第二特征。在复制的情况下，第一特征可与第二特征相同。例如，可使用特征分离器将通用特征分离为第一特征和第二特征。由于可使用多种特征分离方法来分离特征，因此，可以满足不同条件下的特征分离需要。然而，本发明不限于此，第一特征和第二特征也可根据实际需要进行分离。

然后，可从第一特征提取热力图特征，并可从第二特征提取坐标值特征。例如，可使用热力图特征提取器从第一特征提取热力图特征，并可使用坐标值特征提取器从第二特征提取坐标值特征。这里，热力图特征提取器可以是使用热力图回归技术实现的特征提取器，坐标值特征提取器可以是使用坐标回归技术实现的特征提取器。在一个示例中，热力图特征提取器可由按照特定规律组合的利于热力图特征提取的神经网络基本模块组成，坐标值特征提取器可由按照特定规律组合的利于坐标值特征提取的神经网络基本模块组成。

在本发明中，由于可以基于通过同一通用特征提取器基于人脸图像提取的特征来生成热力图特征和坐标值特征，因此可以减少提取热力图特征和坐标值特征所需要的运算量并确保好的实时性。

在操作S120中，可基于热力图特征和坐标值特征来检测人脸关键点。

这里，人脸关键点可由人脸关键点检测器检测。例如，人脸关键点检测器可通过神经网络来实现。

通常，热力图特征可具有检测精度高的优点，而坐标值特征具有推理时间快的优点。因此，根据本发明，基于热力图特征和坐标值特征二者来检测人脸关键点，从而可以兼顾检测精度和实时性。

在一个实施例中，可使用轻量级的热力图网络和轻量级的坐标值网络基于热力图特征和坐标值特征来检测人脸关键点，其中，轻量级的热力图网络通过对热力图网络进行轻量化而得到，轻量级的坐标值网络通过对坐标值网络进行轻量化而得到。这里，轻量化是指用于降低神经网络的参数规模从而减少运算量的技术。由于网络中采用了轻量级的热力图网络和坐标值网络，因此在牺牲精度的基础上提高网络的推理速度。从而避免了热力图回归技术推理速度慢的问题，提高了整个网路的运行速度。

下面将结合图2对操作S120进行更具体地描述。

参照图2，在操作S210中，可通过对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，来生成第一融合热力图特征。

这里，热力图格式可表示与热力图特征对应的数据格式。因此，通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征可与热力图特征具有匹配的数据格式。在这种情况下，生成的第一融合热力图特征可包括与热力图特征对应的特征信息和与转换格式的坐标值特征对应的特征信息。此外，第一融合热力图特征的融合可由第一热力图特征融合器执行。

在本发明的一个实施例中，可通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合。

在操作S220中，可通过对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合，来生成第一融合坐标值特征。

这里，特征值格式可表示与坐标值特征对应的数据格式。因此，通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征可与坐标值特征具有匹配的数据格式。在这种情况下，生成的第一融合坐标值特征可包括与坐标值特征对应的特征信息和与转换格式的热力图特征对应的特征信息。此外，第一融合坐标值特征的融合可由第一坐标值特征融合器执行。例如，第一热力图特征融合器和第一坐标值特征融合器可包括在第一特征融合器中。

在本发明的一个实施例中，可通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的一个来对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合。

以通道拼接为例，本发明的融合(例如，操作S210的融合和操作S220的融合)可如下所示：

其中F_hi∈F_h

其中F_ci∈F_c

其中F_h，F_c分别为热力图特征提取器和坐标值特征提取器提取到的热力图特征和坐标值特征，

为F_h的第i个特征，分辨率为m_hi×n_hi,

为F_c的第i个特征，F_{h_c}，F_{c_h}分别为第一融合热力图特征和第一融合坐标值特征,g_hc为从F_hi到F_{h_c}的用于将热力图特征转换为特征值格式的映射，g_ch为从F_ci到F_{c_h}的用于将坐标值特征转换为热力图格式的映射，F_{fused_h}和F_{fused_c}分别为融合后的热力图特征和坐标值特征，

为特征拼接融合算子。

然而，上述示例仅是示例性，本发明不限于通道拼接。

在操作S230中，可基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点。

这里，第一融合热力图特征可包括与热力图特征对应的特征信息和与转换格式的坐标值特征对应的特征信息，第一融合坐标值特征可包括与坐标值特征对应的特征信息和与转换格式的热力图特征对应的特征信息。在这种情况下，第一融合热力图特征和第一融合坐标值特征可有效反映与人脸关键点对应的特征信息，并且提取速度快。因此，根据本发明，基于第一融合热力图特征和第一融合坐标值特征二者来检测人脸关键点，从而可以实现高的检测精度和/或好的实时性。此外，这里的检测人脸关键点可由人脸关键点检测器执行。

在一个实施例中，第一融合热力图特征可用于预测人脸关键点的热力图。换言之，可基于第一融合热力图特征预测人脸关键点的热力图。在一个示例中，人脸关键点的热力图的预测可由通过热力图回归技术实现的热力图输出头来执行。

第一融合坐标值特征可用于预测人脸关键点的坐标值信息。换言之，可基于第一融合坐标值特征预测人脸关键点的坐标值信息。在一个示例中，人脸关键点的坐标值信息的预测可由通过坐标回归技术实现的坐标值输出头来执行。

之后，可通过对人脸关键点的热力图和人脸关键点的坐标值信息执行融合，来输出人脸关键点的坐标，以检测人脸关键点。例如，人脸关键点的坐标的输出可由结果融合器来执行。

在一个实施例中，通过使用择优输出、算术平均和加权平均三种方式中的任一方式来对人脸关键点的热力图和人脸关键点的坐标值信息执行融合。这里，择优输出可指示择优选择与人脸关键点的热力图对应的关键点坐标和与人脸关键点的坐标值信息对应的关键点坐标中的一个作为输出人脸关键点的坐标。算术平均可指示对与人脸关键点的热力图对应的关键点坐标和与人脸关键点的坐标值信息对应的关键点坐标进行算术平均运算。加权平均可表示对与人脸关键点的热力图对应的关键点坐标和与人脸关键点的坐标值信息对应的关键点坐标进行加权平均运算。下面以加权平均为例进行说明，然而本发明的加权平均不限于下面的描述。

pf_i(x，y)＝ωh_i×Ph_i(x，y)+ωc_i×pc_i(x，y)

其中，ph_ix，ph_iy为与人脸关键点的热力图对应的第i个关键点的x，y坐标，pc_ix，Pc_iy为与人脸关键点的坐标值信息对应的第i个关键点的x，y坐标，g_ix，g_iy为第i个关键点的x，y坐标，d_interOcular为人脸左右眼睛外眼角的欧氏距离，eh_i，ec_i分别为输出与人脸关键点的热力图对应的第i个关键点的误差和输出与人脸关键点的坐标值信息对应的第i个关键点的误差，ωc_i，wh_i分别为与人脸关键点的坐标值信息对应的第i个关键点的权重和与人脸关键点的热力图对应的第i个关键点的权重，ph_i(x，y)，pc_i(x，y)分别为关于与人脸关键点的热力图对应的第i个关键点的输出结果和关于与人脸关键点的坐标值信息对应的第i个关键点的输出结果，pf_i(x，y)为关于关键点i的输出结果，也是网络的最终输出。

在本发明中，通过上述融合操作，预测人脸关键点的热力图和预测人脸关键点的坐标值信息可各自具体或者体现不同尺度、多模的特征信息，并且实现快速的特征提取。因此，根据本发明，基于预测人脸关键点的热力图和预测人脸关键点的坐标值信息二者来检测人脸关键点，从而可以更一步提高检测精度并确保实时性。

下面结合图3对基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的方法进行进一步的描述。

图3示出根据本发明的示例性实施例的基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的方法的流程图。

在步骤S310中，从第一融合热力图特征提取第一热力图特征。

这里，可通过第一热力图特征提取器从第一融合热力图特征提取第一热力图特征。例如。第一热力图特征提取器可以由按照特定规律组合的利于热力图特征提取的神经网络基本模块组成。

在步骤S320中，从第一融合坐标值特征提取第一坐标值特征。

这里，可通过第一坐标值特征提取器从第一融合坐标值特征提取第一坐标值特征。例如，第一坐标值特征提取器由按照特定规律组合的利于坐标值特征提取的神经网络基本模块组成。

在步骤S330中，通过对第一热力图特征和通过将第一坐标值特征转换为热力图格式而得到的第二转换热力图特征执行融合，来生成第二融合热力图特征。

这里，第二融合热力图特征的生成可由第二热力图特征融合器执行。

此外，生成第二融合热力图特征的方法可与生成第一融合热力图特征的方法类似。上面参照图2具体描述了生成第一融合热力图特征的方法，因此，为了简洁，这里将省略对生成第二融合热力图特征的方法的具体描述。

在步骤S340中，通过对第一坐标值特征和通过将第一热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合，来生成第二融合坐标值特征。

这里，第二融合坐标值特征的生成可由第二坐标值特征融合器执行。例如，第二热力图特征融合器和第二坐标值特征融合器可包括在第二特征融合器中。

此外，生成第二融合坐标值特征的方法可与生成第一融合坐标值特征的方法类似。上面参照图2具体描述了生成第一融合坐标值特征的方法，因此，为了简洁，这里将省略对生成第二融合坐标值特征的方法的具体描述。

在步骤S350中，基于第二融合热力图特征和第二融合坐标值特征，来检测人脸关键点。

这里，基于第二融合热力图特征和第二融合坐标值特征来检测人脸关键点的方法可与基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的方法类似。上面参照图2具体描述了基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的方法，因此，为了简洁，这里将省略对基于第二融合热力图特征和第二融合坐标值特征来检测人脸关键点的方法的具体描述。

作为一种可实现的实施例，在本发明中，根据实际情况可基于第n热力图特征和第n坐标值特征获得第n+1融合热力图特征和第n+1融合坐标值特征，再基于第n融合热力图特征和第n融合坐标值特征检测人脸关键点。其中第n热力图特征是从第n融合热力图特征提取，第n坐标值特征是从第n融合坐标值特征提取，n为大于等于2的整数。即进行人脸检测，也可以多次提取热力图特征和坐标值特征进而进行融合获得最终的融合热力图特征和融合坐标值特征，从而提取有效反映人脸关键点的不同尺度和多模的特征信息。因此，基于上述多次融合特征检测人脸关键点，从而可以更一步提高检测精度并确保实时性。

图4示出根据本发明的示例性实施例的人脸关键点检测装置的示意图。

参照图4，人脸关键点检测装置400可包括特征提取器410和人脸关键点检测器420。人脸关键点检测装置400可被配置为执行本申请描述的任一方法。

上面已经结合图1至图3中的至少一个描述了由特征提取器410执行的基于人脸图像提取热力图特征和坐标值特征的方法和由人脸关键点检测器420执行的基于热力图特征和坐标值特征来检测人脸关键点的方法。因此，上面描述的一个或多个方法也可适用于特征提取器410和人脸关键点检测器420所执行的方法，因此，为了避免冗余，下面将简洁地描述特征提取器410和人脸关键点检测器420。这里，特征提取器410可基于人脸图像提取热力图特征和坐标值特征。

在一个示例实施例中，人脸关键点检测装置400还可包括通用特征提取器和特征分离器(未示出)。通用特征提取器可从人脸的人脸图像提取通用特征。特征分离器可将人脸的通用特征分离为第一特征和第二特征。在一个示例中，特征分离器可使用分辨率切分、按通道切分和复制三种方式中的任一方式将通用特征分离为第一特征和第二特征。

在这种情况下，特征提取器410可包括热力图特征提取器和坐标值特提取征器。热力图特征提取器可从第一特征提取热力图特征。坐标值特提取征器可从第二特征提取坐标值特征。

人脸关键点检测器420可基于热力图特征和坐标值特征来检测人脸关键点。

在一个示例实施例中，人脸关键点检测装置400还可包括第一特征融合器。第一特征融合器可包括第一热力图特征融合器和第一坐标值特征融合器。第一热力图特征融合器可通过对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，来生成第一融合热力图特征。例如，第一热力图特征融合器通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来执行融合。第一坐标值特征融合器可通过对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合，来生成第一融合坐标值特征。例如，第一坐标值特征融合器通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式来执行融合。人脸关键点检测器还可基于第一融合热力图特征和第一融合坐标值特征，来检测人脸关键点。

此外，可选地，人脸关键点检测装置400还可包括第一特征提取器和第二特征融合器；其中，第一特征提取器包括第一热力图特征提取器和第一坐标值特征提取器。

第一热力图特征提取器、第一坐标值特征提取器和第二特征融合器(未示出)。第一热力图特征提取器可从第一融合热力图特征提取第一热力图特征。第一坐标值特征提取器可从第一融合坐标值特征提取第一坐标值特征。

第二特征融合器可包括第二热力图特征融合器和第二坐标值特征融合器。这里，第二热力图特征融合器可通过对第一热力图特征和通过将第一坐标值特征转换为热力图格式而得到的第二转换热力图特征执行融合，来生成第二融合热力图特征。第二坐标值特征融合器通过对第一坐标值特征和通过将第一热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合，来生成第二融合坐标值特征。此时，人脸关键点检测器还可基于第二融合热力图特征和第二融合坐标值特征，来检测人脸关键点。

在一个可选的实施例中，人脸关键点检测器还可包括热力图输出头、坐标值输出头和结果融合器。这里，热力图输出头可基于第一融合热力图特征预测人脸关键点的热力图。坐标值输出头可基于第一融合坐标值特征预测人脸关键点的坐标值信息。结果融合器可通过对人脸关键点的热力图和人脸关键点的坐标值信息执行融合，来输出人脸关键点的坐标，以检测人脸关键点。在一个示例中，结果融合器可采用择优输出、算术平均和加权平均三种方式中的任一方式来对人脸关键点的热力图和人脸关键点的坐标值信息执行融合。

根据本发明的一个实施例，人脸关键点检测器420可包括轻量级的热力图网络和轻量级的坐标值网络。

此外，下面的描述也可适用于特征提取器510和人脸关键点检测器520。此外，特征提取器410和人脸关键点检测器420可包括参照图1至图3中描述的至少一个组件和/或下面描述的至少一个组件。图5示出根据本发明的示例性实施例的实现人脸关键点检测方法的网络的示意图。

虽然图5示出了包括三个热力图特征提取器、三个坐标值特征提取器和两个特征多模多尺度融合器的网络示意图，但是本发明不限于此。在本发明中，热力图特征提取器、坐标值特征提取器和特征多模多尺度融合器的组合的数量可以根据实际使用情况调整。

参照图5，示出了通用特征提取器501、特征分离器502、热力图特征提取器5031、5032和5033(可对应理解为上述的热力图特征提取器，第一热力图特征提取器，第二热力图特征提取器)、坐标值特征提取器5041、5042和5043(可分别对应理解为上述的坐标值特征提取器，第一坐标值特征提取器，第二坐标值特征提取器)、特征多模多尺度融合器5051和5052(可分别对应理解为上述的第一特征融合器，第二特征融合器)以及关键点位置多模融合器506(可对应人脸关键点检测器420的说明)。然而，上述示出仅是说明性的，本发明可不包括上述组件中的至少一个或者可包括其他额外的组件。

这里，热力图回归分支主要由热力图特征提取器5031、5032和5033组成，热力图特征提取器由按照特定规律组合的利于热力图特征提取的神经网络基本模块组成，坐标值回归分支主要由坐标值特征提取器5041、5042和5043组成，坐标值特征提取器由按照特定规律组合的利于坐标值特征提取的神经网络基本模块组成，特征多模多尺度融合器5051和5052主要由特征融合器5051a和5051b组成，关键点位置多模融合器506主要由热力图输出头5061、结果融合器5062和坐标值输出头5063组成。

此外，参照图5，通用特征提取器501的作用是提取输入图片(即，人脸图像)的通用特征，输出给特征分离器502。特征分离器502可将特征分离为两组，分别传给热力图回归支路和坐标回归支路。热力图回归支路可使用热力图回归技术输出基于热力图信息表达的关键点坐标。热力图输出头5061可根据热力图特征提取器5033提取到的特征预测出关键点的热力图。坐标值输出头5063可根据坐标值特征提取器5043提取到的特征预测出关键点的坐标值信息。坐标回归网络可使用坐标回归技术输出基于坐标值信息表达的关键点坐标。

另外，特征多模多尺度融合器5031、5032和5033可将不同尺度的热力图特征(在热力图回归支路中用于预测关键点热力图的特征)融合给坐标值分支，使坐标值分支具有不同尺度、多模的特征信息，同时，特征多模多尺度融合器5031、5032和5033也会将坐标值特征(在坐标回归支路中用于预测坐标值的特征)融合给热力图分支，使热力图分支具有不同尺度、多模的特征信息。后面结合图6对特征多模多尺度融合器进行更具体地描述。

参照图5，热力图特征提取器5031、5032和5033可提取用于预测关键点热力图的特征。坐标值特征提取器5041、5042和5043可提取用于预测关键点坐标值的特征。关键点位置多模融合器506可将热力图分支和坐标值分支输出的关键点位置通过某种方法融合在一起从而得到更精确更鲁棒的输出结果。关键点位置多模融合器506内的结果融合器5062可完成结果融合的具体操作。

在本发明的一个示例实施例中，本发明实施过程中，数据流可如下所示：给本发明的网络输入一张包含人脸的图片(即，人脸图像)，通用特征提取器501接收到该图片后，会提取用于关键点检测的通用特征并传送给特征分离器502，特征分离器502接收到通用特征后通过特定操作将将通用特征分为两组分别传递给坐标值回归支路和热力图回归支路(实施过程中两条支路是同时运行的，特征融合器5051a和5051b会同时接收到热力图特征和坐标值特征，结果融合器5062会同时接受到接收到热力图结果和坐标值结果，为描述方便，对热力图支路和坐标值支路的数据流依次进行描述)，热力图回归支路接收到通用特征后，会将通用特征送入热力图提取器5031，热力图提取器5031接收到通用特征后，会提取多尺度的特征，并且将多尺度信息传递给特征多模多尺度融合器5051，特征多模多尺度融合器5051同时接收到来自热力图支路和坐标值支路的多尺度特征后，对该特征做特定融合操作并将融合后的特征分别传递给热力图支路和坐标值支路做下一级的特征提取，该特征提取和多模多尺度融合的操作根据需求可以进行多次，最后一个多模多尺度融合器5052输出的多模多尺度热力图特征传递给热力图输出头5061，热力图输出头5061会据此生成人脸关键点的热力图并将其传递给结果融合器5062；坐标回归分支接收到通用特征后将其传递给坐标值特征提取器5041，坐标值特征提取器5041接收到通用特征后会提取多尺度的坐标值特征并传递给多模多尺度融合器5051，多模多尺度融合器5051将融合后的多模多尺度特征传递给下一级的坐标值特征提取器5042，类似的坐标值支路也可以根据需要做多次提取与融合操作，最后一级多模多尺度融合器5052输出的多模多尺度坐标值特征传递给坐标值输出头5063，坐标值输出头5063输出人脸关键点的坐标值信息并将其传递给结果融合器5062；结果融合器5062接受到来自热力图分支和坐标值分支的结果后，对两组结果做特定的多模融合，输出最终的人脸关键点坐标。

这里，结果融合器5062可使用各种融合方法(例如，择优输出，算术平均、加权平均等)。作为非限制性的示例，以关键点级精度加权平均法为例，具体操作如下式所示。

pf_i(x，y)＝ωh_i×ph_i(x，y)+ωc_i×pc_i(x，y)

其中ph_ix，ph_iy为热力图分支预测出的第i个关键点的x，y坐标，pc_ix，pc_iy为坐标值分支预测出的第i个关键点的x，y坐标，g_ix，g_iy为第i个关键点的x，y坐标，d_interOcular为人脸左右眼睛外眼角的欧氏距离，eh_i，ec_i分别为热力图分支和关键点分支所输出的关键点i的误差，ωc_i，wh_i分别为坐标值分支结果和热力图分支结果的权重，ph_i(x，y)，pc_i(x，y)分别为热力图分支和坐标值分支关于第i个关键点的输出结果，pf_i(x，y)为两分支结果多模融合后关于关键点i的输出结果，也是网络的最终输出。

另外，在一个实施例中，可采用网络中采用了轻量级的热力图分支和坐标值分支，因此在牺牲精度的基础上提高分支的推理速度。从而避免了热力图回归技术推理速度慢的问题，提高了整个网路的运行速度。

参照图6，特征1输入可指示坐标值特征和热力图特征中的一个，特征2输入可指示坐标值特征和热力图特征中的另一个。

格式匹配器可接收特征1输入，并生成特征1和特征2格式的特征1。类似地，格式匹配器可接收特征2输入，并生成特征2和特征1格式的特征2。之后，特征组合器可实现具有相同或者类似格式的特征的组合，从而生成融合后的特征。具体地，特征组合器可对特征1和特征1格式的特征2进行组合(或融合)来生成多模多尺度融合的特征1。类似地，特征组合器可对特征2和特征2格式的特征1进行组合(或融合)来生成多模多尺度融合的特征2。

融合的方法可以是各种融合方法。在一个示例中，融合的方法可包括元素级相乘，元素级相加，通道拼接，像素拼接等。作为非限制性的示例，以通道拼接融合法为例，具体操作如下式所示。

其中F_hi∈F_h

其中F_ci∈F_c

为F_h的第i个特征，分辨率为m_hi×n_hi,

为F_c的第i个特征，F_{h_c}，F_{c_h}分别为热力图分支共享给坐标值分支和坐标值分支共享给热力图分支的特征,g_hc为从F_hi到F_{h_c}的映射，用于将热力图特征转换为特征值格式，g_ch为从F_ci到F_{c_h}的映射，用于将坐标值特征转换为热力图格式，F_{fused_h}和F_{fused_c}分别为融合后的热力图特征和坐标值特征，

为特征拼接融合算子。

下面将描述本发明的人脸关键点检测方法与现有方法在性能上的区别。

在一个示例实施例中，可以选择任何轻量化的热力图网络作为热力图支路的backbone(主干网络)。由于可采用网络中采用了轻量级的热力图网络(或分支)和坐标值网络(或分支)，因此在牺牲精度的基础上提高分支的推理速度。从而避免了热力图回归技术推理速度慢的问题，提高了整个网路的运行速度。

另外，在本发明的人脸关键点检测方法中，坐标值支路的backbone(主干支路)可以是任何坐标值回归网络(例如，仅作为示例，mobileNetV2)。

参照图7，根据本发明的实施例的人脸关键点检测系统700可包括一个或多个计算装置(例如，处理器)710和一个或多个存储装置720。这里，一个或多个存储装置720存储有计算机程序，其中，该计算机程序在被一个或多个计算装置710执行时实现参照图1至图6描述的任意方法。为了简明，这里不再重复描述由一个或多个计算装置710执行的参照图1至图6描述的任意方法。

此外，根据本发明示例性实施例的方法可以被实现为计算机可读记录介质中的计算机程序。本领域技术人员可以根据对上述方法的描述来实现所述计算机程序。当所述计算机程序在计算机中被执行时实现本发明的任意人脸关键点检测方法。

根据本发明的示例性实施例，可提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时使得处理器实现本申请中所公开的任一方法。例如，在所述计算机程序被处理器执行时使得处理器执行以下步骤：基于人脸图像提取热力图特征和坐标值特征；基于热力图特征和坐标值特征来检测人脸关键点。

此外，应该理解，根据本发明示例性实施例的设备中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

此外，根据本发明的人脸关键点检测方法，基于包括与热力图特征对应的特征信息和与转换格式的坐标值特征对应的特征信息的第一融合热力图特征和包括与坐标值特征对应的特征信息和与转换格式的热力图特征对应的特征信息第一融合坐标值特征二者来检测人脸关键点，从而可以实现高的检测精度和/或好的实时性。

另外，在本发明中，可采用网络中采用了轻量级的热力图网络(或分支)和坐标值网络(或分支)，因此在牺牲精度的基础上提高分支的推理速度。从而避免了热力图回归技术推理速度慢的问题，提高了整个网路的运行速度。

虽然本公开包括特定的示例，但是对于本领域普通技术人员来说将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合，和/或由其他组件或它们的等同物替换或补充，则可实现合适的结果。因此，公开的范围不是由具体实施方式限定，而是由权利要求及它们的等同物限定，并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims

1.一种人脸关键点检测方法，所述人脸关键点检测方法包括：

基于人脸图像提取热力图特征和坐标值特征；

基于热力图特征和坐标值特征来检测人脸关键点。

2.如权利要求1所述的人脸关键点检测方法，其中，基于热力图特征和坐标值特征来检测人脸关键点的步骤包括：

通过对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合，来生成第一融合热力图特征；

通过对坐标值特征和通过将热力图特征转换为特征值格式而得到的第一转换坐标值特征执行融合，来生成第一融合坐标值特征；

基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点。

3.如权利要求2所述的人脸关键点检测方法，其中，基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点的步骤包括：

基于第一融合热力图特征预测人脸关键点的热力图；

基于第一融合坐标值特征预测人脸关键点的坐标值信息；

通过对人脸关键点的热力图和人脸关键点的坐标值信息执行融合，来输出人脸关键点的坐标，以检测人脸关键点。

4.如权利要求3所述的人脸关键点检测方法，其中，采用择优输出、算术平均和加权平均三种方式中的任一方式对人脸关键点的热力图和人脸关键点的坐标值信息执行融合。

5.如权利要求2所述的人脸关键点检测方法，其中，

通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式对热力图特征和通过将坐标值特征转换为热力图格式而得到的第一转换热力图特征执行融合；

通过使用元素级相乘、元素级相加、通道拼接和像素拼接四种方式中的任一方式对坐标值特征和通过将热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合。

6.如权利要求2所述的人脸关键点检测方法，其中，基于第一融合热力图特征和第一融合坐标值特征来检测人脸关键点包括：

从第一融合热力图特征提取第一热力图特征；

从第一融合坐标值特征提取第一坐标值特征；

通过对第一热力图特征和通过将第一坐标值特征转换为热力图格式而得到的第二转换热力图特征执行融合，来生成第二融合热力图特征；

通过对第一坐标值特征和通过将第一热力图特征转换为特征值格式而得到的第二转换坐标值特征执行融合，来生成第二融合坐标值特征；

基于第二融合热力图特征和第二融合坐标值特征，来检测人脸关键点。

7.如权利要求1所述的人脸关键点检测方法，其中，基于人脸图像提取热力图特征和坐标值特征的步骤包括：

从人脸图像提取所述人脸的通用特征；

将所述的人脸的通用特征分离为第一特征和第二特征；

从第一特征提取热力图特征；

从第二特征提取坐标值特征。

8.如权利要求7所述的人脸关键点检测方法，其中，使用分辨率切分、按通道切分和复制三种方式中的任一方式将通用特征分离为第一特征和第二特征。

9.如权利要求1所述的人脸关键点检测方法，其中，基于热力图特征和坐标值特征来检测人脸关键点的步骤包括：

使用轻量级的热力图网络和轻量级的坐标值网络基于热力图特征和坐标值特征来检测人脸关键点。

10.一种人脸关键点检测装置，所述人脸关键点检测装置包括：

特征提取器，基于人脸图像提取热力图特征和坐标值特征；

人脸关键点检测器，基于热力图特征和坐标值特征来检测人脸关键点。

11.一种包括一个或多个计算装置和一个或多个存储装置的人脸关键点检测系统，所述一个或多个存储装置上记录有计算机程序，所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现如权利要求1-9中任一项所述的人脸关键点检测方法。