CN115223220A

CN115223220A - 一种基于关键点回归的人脸检测方法

Info

Publication number: CN115223220A
Application number: CN202210719383.2A
Authority: CN
Inventors: 明悦; 吴硕; 张润清; 吕柏阳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-21
Anticipated expiration: 2042-06-23
Also published as: CN115223220B

Abstract

本发明提供了一种基于关键点回归的人脸检测方法。该方法包括：通过多任务头网络提取待识别图像的特征图，输出训练图像的预测框；利用关键点回归对预测框和真实框进行训练样本匹配，获取预测框与真实框的匹配关系，选取传输损耗最小的候选框；利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差，根据学习误差反向传播，得到更新后的多任务特征提取网络；将待识别图像输入到训练好的多任务特征提取网络，多任务特征提取网络输出待识别图像的人脸识别结果。本发明设计了多任务最优传输匹配算法，改进了训练样本匹配的评价指标，匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。

Description

一种基于关键点回归的人脸检测方法

技术领域

本发明涉及人脸检测技术领域，尤其涉及一种基于关键点回归的人脸检测方法。

背景技术

人脸检测作为人脸信息处理的一项关键技术，已经成为模式识别与计算机视觉领域内受到重视的课题。人脸检测常与其它人脸分析技术，如识别、情感分析等结合使用，构成完整的人脸系统。经过几十年的曲折发展，人脸检测算法日趋成熟。由于后续的人脸分析算法对姿态的鲁棒性不足，因而需要对输入图像进行姿态矫正后进行识别。为了提升预处理操作的效率，产生了包含点回归的多任务人脸检测算法，作为对单任务人脸检测算法的补充。

单任务人脸检测算法沿用通用的目标检测框架，按照网络模型的步骤可分为两阶段和单阶段算法，按照是否使用锚可分为基于锚的方法和不基于锚的方法。多阶段人脸检测算法模型复杂度高、推理速度慢，在实时性要求高或低算力场景下难以满足需求。单阶段人脸检测算法用密集采样替代区域推荐网络，在推理速度方面优于多阶段算法。不基于锚的单阶段人脸检测算法通过复用特征图中心点的方式替代手工设计锚点，在改变数据集分布时不需要对锚的尺寸重新调整，更加方便、快捷。

人脸检测算法为后续研究定位人脸区域，稀疏关键点回归算法为后续研究中图像的对齐提供关键点坐标。将人脸检测任务与关键点回归任务组成多任务框架，可以降低预处理阶段的模型复杂度，从而提升整体的效率。然而人脸检测与关键点回归多任务算法中存在训练不对齐问题。训练不对齐是指多任务学习中存在偏向性，由于某个任务收敛情况差导致算法整体性能下降。在人脸检测与关键点回归算法中，现有的训练样本匹配方法以人脸检测任务的学习情况为匹配标准。这会造成训练样本匹配向人脸检测任务偏移，导致关键点回归任务收敛差，造成关键点损失数值大，进而导致反向传递时学习重心向关键点任务偏移。直接在现有的人脸检测算法中引入关键点回归任务，往往由于训练不对齐导致人脸检测的准确率出现明显的降低。

现有技术中的一种基于深度学习的人脸检测和人脸对齐方法采用多任务级联卷积神经网络(Multi-task Cascaded Convolutional Networks， MTCNN)，它可以同时完成人脸检测和人脸对齐的任务。该网络为三阶段网络，包含图像金字塔(Image Pyramid)、P网络(P-Net)、R网络(R-Net) 和O网络(O-Net)三部分，由粗到精生成精确的人脸检测框坐标，并最终获得五个人脸关键点坐标。

该方法的具体步骤为：

输入图像，将包含人脸的图像输入系统。

构造多尺度输入，将图像输入特征金字塔，得到多尺度的输入图像送入P 网络。

候选框初次生成，P网络根据多尺度输入，生成多个候选框。

候选框筛选，R网络对候选框进行筛选，渐少其个数，生成更精确的候选框。

输出检测结果及关键的坐标，O网络根据更精确的候选框，输出人脸检测结果及关键的回归的坐标。

上述现有技术中的一种基于深度学习的人脸检测和人脸对齐方法的缺点为：该方法针对人脸检测和关键点两个任务，但是匹配策略倾向于人脸检测，导致匹配时忽略关键点信息，此外，由于偏向人脸检测，该网络需要对输入图像构造图像金字塔，会加大方法的复杂度，增加计算开销。

发明内容

本发明的实施例提供了一种基于关键点回归的人脸检测方法，以实现有效地对图像进行人脸检测。

为了实现上述目的，本发明采取了如下技术方案。

一种基于关键点回归的人脸检测方法，包括：

将训练图像输入到多任务特征提取网络，通过多任务头网络提取待识别图像的特征图，通过多尺度特征融合输出训练图像的预测框；

利用关键点回归对训练图像的预测框和真实框进行训练样本匹配，获取预测框与真实框的匹配关系，选取传输损耗最小的候选框；

利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差，根据学习误差反向传播，得到更新后的多任务特征提取网络；

将待识别图像输入到训练好的多任务特征提取网络，多任务特征提取网络输出待识别图像的人脸识别结果。

优选地，所述的将训练图像输入到多任务特征提取网络，通过多任务头网络提取待识别图像的特征图，通过多尺度特征融合输出训练图像的预测框，包括：

将训练图像输入到多任务特征提取网络，多任务特征提取网络包含主干网络、特征金字塔和多任务头网络了，通过多任务头网络提取待识别图像的特征图，再通过多尺度特征融合输出训练图像的预测框，该预测框包含框的坐标和类别，根据预测框的类别获取训练图像的人脸识别结果。

优选地，所述的利用关键点回归对训练图像的预测框和真实框进行训练样本匹配，获取预测框与真实框的匹配关系，选取传输损耗最小的候选框，包括：

利用关键点回归对预测框和真实框进行训练样本匹配，利用关键点回归计算所有预测框和真实框之间的传输损耗，该传输损耗通过匹配得分值来度量；

第i个真实样本与第j个预测样本的匹配得分c_ij的计算公式如式(1)所示：

其中，

和

是第j个预测样本的分类置信度、框坐标和关键点坐标，

和

是第i个真实样本的分类置信度、框坐标和关键点坐标， L_cls、L_reg和L_ldm是分类、框回归和关键点回归的评价指标；

关键点回归损失L_ldm的计算公式如下：

其中，

和

是第j个预测样本的分类置信度、框坐标和关键点坐标，

和

是第i个真实样本的分类置信度、框坐标和关键点坐标，min是取最小值，max是取最大值，L₁是平滑的L1损失。

给每个真实框选择k个传输损耗最低的预测框作为匹配关系，k是与真实框交并比最大的10个预测框的交并比之和的向上取整数的数值，并选取传输损耗最小的候选框。

优选地，所述的利用多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差，根据学习误差反向传播，得到更新后的多任务特征提取网络，包括：

利用带归一化系数的多任务损失函数计算传输损耗最小的预测框与真实框之间的学习误差L；

其中L_cls、L_obj、L_reg和L_ldm分别为传输损耗最小的预测框与真实框之间的分类损失、前背景损失、框回归损失和关键点回归损失，λ₁、λ₂是两个常系数，s是输入图像的分辨率；

根据学习误差L反向传播，对多任务特征提取网络进行参数学习和更新，得到训练好的多任务特征提取网络。

由上述本发明的实施例提供的技术方案可以看出，本发明设计了多任务最优传输匹配算法，改进了训练样本匹配的评价指标，匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。本发明设计了多任务损失函数监督多个任务分支，保证各任务在训练精度上对齐。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于关键点回归的人脸检测方法的实现原理图；

图2为本发明实施例提供的一种卷积神经网络的主干网络结构示意图；

图3为本发明实施例提供的一种多任务头网络的结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

现有的多任务人脸检测算法，仅是在原有单任务网络的输出端增加一个关键点回归输出分支。这种多任务的扩展方式简单但不具备良好的普适性。本发明选取单阶段不基于锚的人脸检测算法为基础，将其扩展为多任务人脸检测算法。

本发明围绕平衡人脸检测与人脸关键点任务的学习，提出了训练对齐的人脸检测及关键点回归算法，设计了兼顾检测和关键点学习情况的训练样本匹配评分机制、带正则化系数的多任务损失函数。

本发明实施例提供的一种基于关键点回归的人脸检测方法的实现原理图如图1所示，包括如下的处理步骤：

步骤S10：将训练图像输入到多任务特征提取网络，多任务特征提取网络包含主干网络、特征金字塔和多任务头网络了。通过多任务头网络提取待识别图像的特征图，再通过多尺度特征融合输出训练图像的预测框，该预测框包含框的坐标和类别，根据预测框的类别可以获取训练图像的人脸识别结果。

步骤S20、根据数据集对待识别图像进行数据标注，得到训练图像的真实框。

利用关键点回归对预测框和真实框进行训练样本匹配，获取预测框与真实框的匹配关系，计算候选框样本和真实框样本之间的传输损耗，选取传输损耗最小的候选框。

步骤S30、利用多任务损失函数计算预测框与真实框之间的学习误差，根据学习误差反向传播，得到更新后的多任务特征提取网络。

将传输损耗最小的候选框坐标与真实框坐标输入到多任务损失函数，多任务损失函数输出传输损耗最小的候选框与真实框之间的学习误差，根据学习误差反向传播，对多任务特征提取网络进行参数学习和更新，得到训练好的多任务特征提取网络。

步骤S40、将待识别图像输入到训练好的多任务特征提取网络，多任务特征提取网络输出待识别图像的人脸识别结果。

具体的，上述步骤S10包括：

人脸检测是检测输入图像中人脸框坐标的方法，根据是否包含关键点回归任务可分为两类：不包含关键点任务，仅实现检测功能的单任务算法 (Single Task)；包含关键点任务，同时实现检测和关键点回归的多任务算法(Multi Task)。人脸关键点回归是回归输入图像中人脸关键点的方法，输出关键点坐标。

本发明采用卷积神经网络作为多任务特征提取网络。使用特征金字塔和多任务头网络进行人脸特征的提取，卷积神经网络的主干网络结构如图2所示，分为4个阶段，对应下采样尺度为4、8、16、32。

卷积神经网络包含很多计算的黑盒，输入是待识别图像，输出是个w*h*c 的三维矩阵。每个w*h都是一张特征图，共有c张，具体是什么不知道。

具体的，上述步骤S20包括：

计算所有预测框和真实框之间的传输损耗，然后给每个真实框选择k个损耗最低的预测框作为匹配关系，来计算损失。其中，k是与真实框交并比最大的10个预测框的交并比之和的向上取整数的数值。传输损耗就是匹配得分。

计算候选框样本和真实框样本间的传输损耗，其中第i个真实样本与第j 个预测样本的匹配得分c_ij的计算公式如式(1)所示：

其中

和

是第j个预测样本的分类置信度、框坐标和关键点坐标，

和

是第i个真实样本的分类置信度、框坐标和关键点坐标， L_cls、L_reg和L_ldm是分类、框回归和关键点回归的评价指标。本发明采用Focal Loss(焦点损失)作为分类评价指标。

为了更直观地描述检测框学习的准确度，本发明采用IoU Loss(交并比损失)作为框回归的评价指标。为了保证在数值上与前两项指标相匹配并描述关键点学习的准确度，本发明设计了归一化的Smooth L1 Loss(平滑的L1损失)作为关键点回归评价指标，计算如式(2)所示：

其中

和

是第j个预测样本的分类置信度、框坐标和关键点坐标，

和

是第i个真实样本的分类置信度、框坐标和关键点坐标。min是取最小值，max是取最大值。L₁是Smooth L1 Loss(平滑的L1损失)。

根据传输损耗计算最优传输方案，即优化目标，使其传输损耗最小：

其中π_i，j是第i个真实样本和第j个预测样本之间的匹配关系，c_ij为其对应的传输损耗。

具体的，上述步骤S30包括：

为了同时实现人脸检测和人脸关键点任务，本发明提供的一种多任务头网络的结构示意图如图3所示。

训练初始阶段，关键点损失数值上高于其他损失2个数量级。为了降低其对整体学习的影响，本发明采用多尺度输入进行训练，并使用输入分辨率的倒数作为归一化因子。带归一化系数的多任务损失如式(4)所示：

其中L_cls、L_obj、L_reg和L_ldm分别为分类损失、前背景损失、框回归损失和关键点回归损失，λ₁、λ₂是两个常系数，s是输入图像的分辨率。约束后的多任务损失函数比约束前收敛程度更深。

多任务损失L的作用就是指导网络学习。

综上所述，本发明实施例改进了人脸检测和人脸关键点的多任务训练策略，并设计了多任务框架同时训练人脸检测和人脸关键点回归任务。使用本发明训练得到的人脸检测及关键点回归模型，任务收敛程度更深，检测的精度更高。

本发明设计了多任务最优传输匹配算法，改进了训练样本匹配的评价指标，匹配对检测和关键点任务学习整体最好的样本参与损失计算与梯度反传。本发明设计了多任务损失函数监督多个任务分支，保证各任务在训练精度上对齐。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。