CN116110102A

CN116110102A - 基于辅助热力图的人脸关键点检测方法及系统

Info

Publication number: CN116110102A
Application number: CN202310109424.0A
Authority: CN
Inventors: 鲁芹; 陈士栋
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-12

Abstract

本发明涉及基于辅助热力图的人脸关键点检测方法及系统，其中的基于辅助热力图的人脸关键点检测方法包括以下步骤：获取原始图像经网络模型处理，在网络模型的不同层中得到基于该原始图像的特征；特征经融合后得到主要热力图和辅助热力图；基于主要热力图得到关键点坐标的整数部分，基于辅助热力图得到关键点坐标的小数部分，两部分数值归一化后相加得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。选择ShuffleNetV2作为主干网络同时并对其进行了缩放，原始图像经过主干网络各层获取的特征经融合得到主要热力图和辅助热力图，主要热力图与辅助热力图联合表示人脸关键点解决量化误差问题。

Description

基于辅助热力图的人脸关键点检测方法及系统

技术领域

本发明涉及图像数据处理技术领域，具体为基于辅助热力图的人脸关键点检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

人脸关键点检测可以为其它人脸视觉任务提供基础数据，例如，人脸姿态矫正、姿态识别、表情识别、疲劳监测、嘴型识别等。因此需要获取高精度的人脸关键点，从而满足计算机视觉、模式识别、图像处理等领域的特定作业任务。

现有技术中基于热力图的人脸关键点检测模型采用参数量和FL OPs(浮点运算量)比较大的网络作为主干网络，例如Hourglass和HRNet等；并且现有轻量级模型没有考虑到不同层之间的特征信息融合问题，而在热力图模型中，模型对特征非常敏感；同时现有的热力图方法在将热力图映射回关键点坐标时，会引入量化误差问题，尽管通过一些后处理方法能够缓解量化误差，但很难解决此问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于辅助热力图的人脸关键点检测方法及系统，选择ShuffleNetV2作为主干网络同时并对其进行了缩放，原始图像经过主干网络各层获取的特征经融合得到主要热力图和辅助热力图，主要热力图与辅助热力图联合表示人脸关键点解决量化误差问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于辅助热力图的人脸关键点检测方法，包括以下步骤：

基于训练完毕的网络模型提取原始图像中的特征信息；

在网络模型的不同层中得到基于该原始图像的特征，经融合后得到主要热力图和辅助热力图；

基于主要热力图得到关键点坐标的整数部分，基于辅助热力图得到关键点坐标的小数部分，两部分数值归一化后放大处理得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。

放大处理，具体为：两部分数值归一化后分别乘以对应的倍率并相加，得到关键点坐标的最终数值。

网络模型包括依次连接的第一卷积层、最大池化层和设定数量的重组通道单元，最大池化层和重组通道单元分别与融合层连接用于输出拼接主要热力图与辅助热力图的特征，融合层输出的特征经拼接后输入第二卷积层处理得到主要热力图与辅助热力图。

融合层具有设定数量的BottleNeck层，并分别与最大池化层和重组通道单元对应连接；BottleNeck层包括连接在两组第一卷积层之间的深度可分离卷积块。

第一卷积层包括依次连接的二维卷积块、批归一化处理层和RELU激活函数。

第二卷积层包括依次连接的二维卷积块、批归一化处理层、RELU激活函数和二维卷积块。

重组通道单元包括依次连接的第一卷积层、深度可分离卷积块、第一卷积层和通道重组层；其中的深度可分离卷积块包括，依次连接的二维深度可分离卷积层、批归一化处理层和RELU激活函数。

在网络模型的不同层中得到基于该原始图像的特征，经融合后得到主要热力图和辅助热力图，具体为：

1)原始图像中经过最大池化层和重组通道单元的特征经融合层处理，并将处理后的特征相加；

2)根据模型规模的不同，步骤1)执行设定次数；

3)将经过步骤2)处理特征进行concatenate拼接，得到主要热力图和辅助热力图；

其中，主要热力图通过argmax函数得到关键点坐标整数部分对应的归一化数值；辅助热力图通过argmax函数得到关键点坐标小数部分对应的归一化数值；两部分数值相加得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。

本发明的第二个方面提供实现上述方法所需的系统，包括：

特征提取模块，被配置为：基于训练完毕的网络模型提取原始图像中的特征信息；

热力图模块，被配置为：在网络模型的不同层中得到基于该原始图像的特征，经融合后得到主要热力图和辅助热力图；

关键点检测模块，被配置为：基于主要热力图得到关键点坐标的整数部分，基于辅助热力图得到关键点坐标的小数部分，两部分数值归一化后相加得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于辅助热力图的人脸关键点检测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于辅助热力图的人脸关键点检测方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、针对热力图模型中的量化误差问题，除了生成一个主要热力图以外，还生成一个辅助热力图，使用辅助热力图来帮助主要热力图进行坐标回归，来解决热力图坐标还原成真实坐标之间的量化误差问题。与传统的基于热力图回归的人脸关键点检测方法相对比，该方法使得网络模型参数量相对于复杂网络大幅度减小，并且检测精度仍能媲美大型网络，有效的避免了现有方法中网络模型参数量过大，有利于在移动设备部署的问题。

2、针对当前热力图模型采用Hourglass网络作为主干，综合多种轻量化网络，选择ShuffleNetV2作为主干网络同时并对其进行了缩放，该网络设计符合4条轻量化网络设计原则，而且精度并未下降很多。

3、针对现有轻量级模型未能考虑不同层之间特征融合问题，设计了多尺度的特征信息交互块，在使用高分辨率特征分支的同时，又并行执行多个低分辨率分支，加上不断进行不同分支之间的特征融合和信息交互，最后得到的热力图具有强语义信息与精准的位置信息。弥补了传统神经网络中的特征图通道数减少带来的信息损耗，使网络对关键点位置更加敏感。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的人脸关键点检测过程中的网络结构示意图；

图2是本发明一个或多个实施例提供的人脸关键点检测过程中由原始图像得到主要热力图中数值最高位置的示意图；

图3是本发明一个或多个实施例提供的人脸关键点检测过程中由原始图像得到辅助热力图中数值最高位置的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术中所描述的，基于热力图的回归模型尽管精度较高，但仍存在以下问题：

(1)热力图模型的主干网络大多采用参数量和FLOPs都较高的模型，如Hourglass等，导致运行速度慢内存消耗高。

(2)现有轻量级模型没有考虑到不同层之间的特征信息融合问题，而在热力图模型中，模型对特征非常敏感。

(3)现有的热力图方法在将热力图映射回关键点坐标时，都会引入量化误差问题，尽管通过一些后处理方法能缓解量化误差，但很难解决此问题。

因此以下实施例给出基于辅助热力图的人脸关键点检测方法及系统，对基于热力图回归的模型进行改进：

(1)针对当前热力图模型采用Hourglass网络作为主干，综合多种轻量化网络，选择ShuffleNetV2作为主干网络同时并对其进行了缩放，该网络设计符合4条轻量化网络设计原则，而且精度并未下降很多。

(2)针对现有轻量级模型未能考虑不同层之间特征融合问题，设计了多尺度的特征信息交互块，在使用高分辨率特征分支的同时，又并行执行多个低分辨率分支，加上不断进行不同分支之间的特征融合和信息交互，最后得到的热力图具有强语义信息与精准的位置信息。弥补了传统神经网络中的特征图通道数减少带来的信息损耗，使网络对关键点位置更加敏感。

(3)针对热力图模型中的量化误差问题，设计除了像之前网络生成一个主要热力图以外，再生成一个辅助热力图，使用辅助热力图来帮助主要热力图进行坐标回归，这样来解决热力图坐标还原成真实坐标之间的量化误差问题。与传统的基于热力图回归的人脸关键点检测方法相对比，该方法使得了网络模型参数量相对于复杂网络大幅度减小，并且检测精度仍能媲美大型网络，有效的避免了现有方法中网络模型参数量过大，不利于在移动设备部署的问题。

实施例一：

如图1-3所示，基于辅助热力图的人脸关键点检测方法，包括以下步骤：

基于训练完毕的网络模型提取原始图像中的特征信息；

基于主要热力图得到关键点坐标的整数部分，基于辅助热力图得到关键点坐标的小数部分，两部分数值归一化后经放大处理得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。

本实施例给出以下内容：

1)轻量级模型，采用缩放的ShuffleNetV2作为主干网络，使得模型参数量和FLOPs(浮点运算的数量)更少。

2)多尺度融合方法，将主干网络中的特征进行特征融合和信息交互。

3)辅助热力图方法，将主要热力图与辅助热力图联合表示人脸关键点解决量化误差问题。

具体的：

模型结构如图1所示，包括依次连接的第一卷积层(Conv Block1，256×256×3)、最大池化层(MaxPool，128×128×18)和设定数量的重组通道单元(Shuffle Unit)，本实施例中的重组通道单元为三组；最大池化层(MaxPool，128×128×18)和三组重组通道单元(Shuffle Unit)分别与融合层连接用于输出拼接主要热力图与辅助热力图的特征，融合层输出的特征经拼接后输入第二卷积层(Conv Block2)处理得到主要热力图与辅助热力图。

其中，三组重组通道单元(Shuffle Unit)，分别为64×64×18(4组)、32×32×36(8组)和16×16×72(4组)。

其中，融合层具有设定数量的BottleNeck层，本实施例为4组，分别与最大池化层(MaxPool)和三组重组通道单元(Shuffle Unit)对应连接。

其中的BottleNeck层包括连接在两组第一卷积层(Conv Block1)之间的深度可分离卷积块(DWConv Block)。

其中，第一卷积层(Conv Block1)包括依次连接的二维卷积块(conv2d)、批归一化处理层(BN，即BatchNorm)和RELU激活函数。

其中，第二卷积层(Conv Block2)的结构与第一卷积层类似，区别在于，在RELU激活函数后增加一组二维卷积块(conv2d)；即，包括依次连接的二维卷积块、批归一化处理层、RELU激活函数和二维卷积块。

其中，重组通道单元(Shuffle Unit)包括依次连接的第一卷积层(Conv Block1)、深度可分离卷积块(DWConv Block)、第一卷积层(Conv Block1)和通道重组(ChannelShuffle)。

其中的深度可分离卷积块(DWConv Block)包括，依次连接的二维深度可分离卷积层(DWConv2d)、批归一化处理层(BN，即BatchNorm)和RELU激活函数。

该模型通过如下步骤实现：

步骤1，构建模型主干网络。选用ShuffleNetV2作为主干网络，为了进一步减少参数量和FLOPs，将其缩放为原来的1/2。

步骤2，根据特征融合方法，将主干网络不同层的特征进行融合处理。

融合处理的具体过程为：

1)将图1中左侧主干网络中经过MaxPool(最大池化层)和之后的三个ShuffleUnit的特征分别通过4个BottleNeck层进行处理，然后将处理完的特征进行相加。BottleNeck层(BottleNeck block)是ResNet网络中的一种处理方式。

2)根据模型规模的不同，上述步骤执行多次，本实施例中最多执行4次。

3)将经过步骤2)的特征进行concatenate拼接，进一步生成主要热力图(PromaryHeatmap)和辅助热力图(Auxiliary Heatmap)。

本实施例先生成主要热力图，然后再生成辅助热力图；拼接的过程做了上采样和下采样，以主要热力图为例，图1中由上至下具有4个BottleNeck层，第一个的特征图大小是64*64，将第二至第四组经过Bottleneck层的特征(即32*32,16*16,8*8)全部上采样到64*64，然后在channel方向上直接进行拼接，也就是相加18+36+72+144＝270。同理辅助热力图是全部下采样到8*8，然后再进行拼接。

通过步骤2，模型参数量和FLOPs都降低了很多，同时还保证了模型的特征学习能力，解决了轻量化模型特征学习能力不足的问题。

步骤3，根据辅助热力图方法，网络生成主要热力图和辅助热力图。本实施例中，生成的主要热力图是64×64大小，然后通过argmax函数得到坐标的整数部分对应的归一化数值，辅助热力图大小是8×8，通过argmax函数得到坐标的小数部分对应的归一化数值，最后将这两部分数值分别乘以对应的倍率并进行相加得到坐标的最终数值。具体效果如图2和图3所示，图中的(x_p,y_p)是主要热力图中数值最高的位置坐标，(x′_p,y′_p)是映射回原图像后坐标的整数部分，同理(x_a,y_a)是辅助热力图中数值最高的位置坐标，(x′_a,y′_a)是映射回原图像后坐标的小数部分，将(x′_p,y′_p)和(x′_a,y′_a)相加得到最后的精准坐标。

模型利用已有的关键点照片进行训练，训练完毕后执行检测(训练过程为现有技术)，与传统的深度学习网络相对比，本实施例的网络模型能在保证精度媲美基于热力图回归的人脸关键点检测方法，同时本实施例的模型参数量却又小于它们。并且本实施例的网络模拟为了解决人脸关键点中的量化误差问题，提出了辅助热力图，联合主要热力图共同表示人脸关键点坐标。

测试：

表1各个模型在WFLW测试集上的错误率对比

WFLW测试集划分为六个子集，分别是Pose，Expression，Illumination，Make-up，Occlusion，Blur。Full是六个子集的合集。NME为标准均方误差，NME越小代表模型的精准度越高，其中LFLD是本实施例提出的模型，后边的数字代表了特征融合阶段重复的次数，通过表1可以看出本实施例提出的模型的检测精度媲美大型网络，同时参数量和FLOPs低于它们，实现了精度与模型参数量的权衡。

实施例二：

实现上述方法的系统，包括：

关键点检测模块，被配置为：基于主要热力图得到关键点坐标的整数部分，基于辅助热力图得到关键点坐标的小数部分，两部分数值归一化后经放大处理得到关键点坐标的最终数值并映射给原始图像，得到最终的关键点坐标。

系统选择ShuffleNetV2作为主干网络同时并对其进行了缩放，该网络设计符合4条轻量化网络设计原则，而且精度并未下降很多。

设计了多尺度的特征信息交互块，在使用高分辨率特征分支的同时，又并行执行多个低分辨率分支，加上不断进行不同分支之间的特征融合和信息交互，最后得到的热力图具有强语义信息与精准的位置信息。弥补了传统神经网络中的特征图通道数减少带来的信息损耗，使网络对关键点位置更加敏感。

除了生成一个主要热力图以外，再生成一个辅助热力图，使用辅助热力图来帮助主要热力图进行坐标回归，来解决热力图坐标还原成真实坐标之间的量化误差问题。

实施例三：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于辅助热力图的人脸关键点检测方法中的步骤。

实施例四：

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于辅助热力图的人脸关键点检测方法中的步骤。

以上实施例二至四中涉及的各步骤或模块与实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于辅助热力图的人脸关键点检测方法，其特征在于，包括以下步骤：

基于训练完毕的网络模型提取原始图像中的特征信息；

2.如权利要求1所述的基于辅助热力图的人脸关键点检测方法，其特征在于，所述放大处理，具体为：两部分数值归一化后分别乘以对应的倍率并相加，得到关键点坐标的最终数值。

3.如权利要求1所述的基于辅助热力图的人脸关键点检测方法，其特征在于，在网络模型的不同层中得到基于该原始图像的特征，经融合后得到主要热力图和辅助热力图，具体为：

2)根据模型规模的不同，步骤1)执行设定次数；

4.如权利要求1所述的基于辅助热力图的人脸关键点检测方法，其特征在于，所述网络模型包括依次连接的第一卷积层、最大池化层和设定数量的重组通道单元，最大池化层和重组通道单元分别与融合层连接用于输出拼接主要热力图与辅助热力图的特征，融合层输出的特征经拼接后输入第二卷积层处理得到主要热力图与辅助热力图。

5.如权利要求4所述的基于辅助热力图的人脸关键点检测方法，其特征在于，所述融合层具有设定数量的BottleNeck层，并分别与最大池化层和重组通道单元对应连接；BottleNeck层包括连接在两组第一卷积层之间的深度可分离卷积块。

6.如权利要求4所述的基于辅助热力图的人脸关键点检测方法，其特征在于，第一卷积层包括依次连接的二维卷积块、批归一化处理层和RELU激活函数；第二卷积层包括依次连接的二维卷积块、批归一化处理层、RELU激活函数和二维卷积块。

7.如权利要求4所述的基于辅助热力图的人脸关键点检测方法，其特征在于，重组通道单元包括依次连接的第一卷积层、深度可分离卷积块、第一卷积层和通道重组层；其中的深度可分离卷积块包括，依次连接的二维深度可分离卷积层、批归一化处理层和RELU激活函数。

8.基于辅助热力图的人脸关键点检测系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如上述权利要求1-7任一项所述的基于辅助热力图的人脸关键点检测方法中的步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于辅助热力图的人脸关键点检测方法中的步骤。