CN109902631B

CN109902631B - 一种基于图像金字塔的快速人脸检测方法

Info

Publication number: CN109902631B
Application number: CN201910157381.7A
Authority: CN
Inventors: 安玉山
Original assignee: Beijing Shizhen Intelligent Technology Co ltd
Current assignee: Beijing Yunhe Interactive Information Technology Co ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-02-26
Anticipated expiration: 2039-03-01
Also published as: CN109902631A

Abstract

本发明实施例公开了一种基于图像金字塔的快速人脸检测方法，所述方法包括：将待检测图片构建图像金字塔；选取图像金字塔中子图像输入至预设的尺度感知预测网络；根据人脸关键点信息生成尺度预测特征图F_i；对尺度预测特征图进行最大池化操作生成尺度预测向量S_i；对尺度预测向量F_i进行非极大值抑制操作获取目标概率值，根据预设定的概率阈值，选择目标概率值高于概率阈值的相应尺度的子图像进行人脸检测操作，实现在人脸检测时无需对全部尺寸范围的图像进行检测，只需要从图像金字塔中挑选有效尺度范围的图像进行检测即可，极大的减少了需要进行人脸检测处理的图像的数量，有效地降低了计算量，提高了检测速度和准确度。

Description

一种基于图像金字塔的快速人脸检测方法

技术领域

本发明实施例涉及计算机视觉处理技术领域，具体涉及一种基于图像金字塔的快速人脸检测方法。

背景技术

随着人脸对齐、人脸识别以及人脸跟踪技术的发展，人脸检测技术也受到广泛关注，人脸检测技术是指对于任意一幅给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，如果是则返回一脸的位置、大小和姿态的技术。在实际应用时，要求人脸检测器能够实时的应对人脸不同尺度、姿态与外形的变化，但是一般的基于神经网络的人脸检测方法缺乏应对大尺度人脸变化的内在处理机制。

受通用物体检测领域的影响，一些基于特征金字塔的诸如SSD、RetinaNet等方法被提出以应对检测目标大尺度的变化，金字塔的每一层特征包含了不同的语义特征与尺度特征，可以方便的应用于人脸检测，这种特征金字塔的机制在人脸检测中取得了较大的突破，其在参数充足的情况下能够较好的应对尺度变化。SNIP方法已经验证，卷积神经网络对于尺度的变化是不具有鲁棒性的，检测器需要对不同尺度的目标都要训练一个滤波器，因此同时应对所有目标尺度的检测器是较为困难的。在实际应用中，有限的计算量极大地限制了检测器的检测能力和速度，因此多尺度检测器在处理大规模尺度变化时由于参数不足而更加困难。

发明内容

为此，本发明实施例提供一种基于图像金字塔的快速人脸检测方法，以解决现有的人脸检测方法在对多尺度目标检测时任务计算量大、耗时大、准确度有限、检测速度慢的问题。

为了实现上述目的，本发明实施例提供如下技术方案：一种基于图像金字塔的快速人脸检测方法，所述方法包括：

将待检测图片构建图像金字塔，所述图像金字塔中包含不同尺度子图像；

选取所述图像金字塔中子图像输入至预设的尺度感知预测网络；

根据人脸关键点信息生成尺度预测特征图F_i；

对所述尺度预测特征图F_i进行最大池化操作生成尺度预测向量S_i，所述尺度预测向量S_i中的值表示相应尺度下目标的存在概率；

对所述尺度预测向量S_i进行非极大值抑制操作获取目标概率值，根据预设定的概率阈值，选择目标概率值高于所述概率阈值的相应尺度的子图像进行人脸检测操作。

优选的，所述方法还包括：

选取所述图像金字塔中中间尺度子图像输入至所述尺度感知预测网络；

根据人脸关键点信息生成中间尺度的尺度预测特征图；

根据中间尺度的尺度预测特征图通过预设的语义信息转化网络生成不同尺度的尺度预测特征图。

优选的，所述根据人脸关键点信息生成尺度预测特征图包括：

通过P_i(t)＝{p₁(t)＝(x_t1，y_t1)，p₂(t)＝(x_t2，y_t2)，p₃(t)＝(x_t3，y_t3)}表示人脸关键点坐标信息集合，其中p₁(t)、p₂(t)、p₃(t)分别表示人脸的左眼、右眼和鼻子三个关键点的坐标，对于左眼和右眼关键点，尺度预测特征图F_i上的每个点都通过如下原则分配数值大小：

其中N_s表示网络的步长；

对于鼻子关键点p₃(t)，采用曼哈顿距离d_m对尺度预测特征图F_i上的数值进行分配：

N_t(t)＝{(x，y)|d_m((x，y)，(x_l3，x_l3))≤r}；

优选的，所述对所述尺度预测特征图进行最大池化操作生成尺度预测向量包括：

当输入子图像大小为224×224，尺度感知预测网络通过1x1的卷积生成60张尺度预测特征图F_i，对尺度预测特征图的每个通道上做最大池化生成含有60个值的尺度预测向量S_i，尺度预测向量S_i中的每个值均表示相应尺度下目标的存在概率；

尺度预测向量S_i和所输入图像的目标框位置信息的映射关系表示为：

S_i(k(t))＝1；

其中t∈[0，T]，T表示输入子图像中目标的数量，(x_lt，y_lt)、(x_rd，y_rd)分别为所输入图像的目标框的左上角和右下角的坐标，当输入子图像的长边为2048时，将(32，2048]范围内的目标尺度编码生成尺度预测向量S_i。

优选的，所述图像金字塔表示为：

其中N表示图像金字塔的尺度等级，I₁是金字塔中尺度最大的子图像，长边大小为2048，

是I₁经一系列降采样生成的不同尺度的子图像，不同尺度子图像集合共同组成了图像金字塔。

优选的，所述根据所述中间尺度的尺度预测特征图通过预设的语义信息转化网络生成不同尺度的尺度预测特征图包括：

所述语义信息转化网络包括上采样模块U(·)和下采样模块D(·)，所述上采样模块U(·)和下采样模块D(·)均为一系列带批量归一化的卷积，卷积步长均为2，所述上采样模块U(.)用于估计图像金字塔中尺度为所输入子图像尺度的2倍的子图像的尺度预测特征图，所述下采样模块D(·)用于估计图像金字塔中尺度为所输入子图像尺度的

的子图像的尺度预测特征图；

f_s4(·)，f_s8(·)，f_s16(·)分别表示在步长N_s为4、8、16时网络中间输出的尺度预测特征图，图像金字塔中尺度为所输入图像尺度的

的图像的尺度预测特征图表示为：

由此，所述上采样模块和下采样模块表示为：

其中M∈[1，N]，表示语义信息转化网络选用的中间尺度等级，w_U和w_D分别表示上采样模块和下采样模块中的参数。

优选的，所述方法还包括：

通过交叉熵损失函数对尺度感知预测网络对尺度预测特征图和尺度预测向量的学习进行训练，定义如下：

其中F_n表示网络的监督样本，

表示网络的输出。

优选的，所述方法还包括：

采用L2 loss作为损失函数对所述语义信息转化网络进行训练优化，定义如下：

其中N为尺度预测特征图F中的像素数量，F是输入图像通过前向网络生成的尺度预测特征图，

是经语义信息转化网络生成的相应尺度的尺度预测特征图。

本发明实施例具有如下优点：

本发明实施例提出的一种基于图像金字塔的快速人脸检测方法，采用图像金字塔和卷积神经网络技术，通过将不同尺度图像的尺度信息编码生成尺度预测特征向量，得到不同尺度图像中目标存在的概率分布，根据目标概率值选取一定尺度范围的图像进行人脸检测，由此实现在人脸检测时无需对全部尺寸范围的图像进行检测，只需要从图像金字塔中挑选有效尺度范围的图像进行检测即可，极大的减少了需要进行人脸检测处理的图像的数量，有效地降低了计算量，提高了检测速度和准确度。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能生成的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的一种基于图像金字塔的快速人脸检测方法的流程示意图。

图2为本发明实施例1提供的一种基于图像金字塔的快速人脸检测方法的语义信息转化流程示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种基于图像金字塔的快速人脸检测方法，该方法包括：

S100、将待检测图片构建图像金字塔，图像金字塔中包含不同尺度子图像。

图像金字塔表示为：

其中N表示图像金字塔的尺度等级，本实施例中，N默认为4，I₁是金字塔中尺度最大的子图像，长边大小为2048，

S200、选取图像金字塔中子图像输入至预设的尺度感知预测网络。本实施例的尺度感知预测网络基于卷积神经网络，通过一定的网络设计来让网络学习到目标尺度的信息。

S300、根据人脸关键点信息生成尺度预测特征图F_i。为了使尺度感知预测网络对不同尺度范围的目标更加鲁棒，本实施例使用人脸关键点信息去引导网络学习尺度对应的尺度预测特征图F_i。

具体的，根据人脸关键点信息生成尺度预测特征图包括：

其中N_s表示网络的步长；

N_t(t)＝{(x，y)|d_m((x，y)，(x_l3，x_l3))≤r}；

S400、对尺度预测特征图进行最大池化操作生成尺度预测向量S_i，尺度预测向量中的值表示相应尺度下目标的存在概率。

具体的，对尺度预测特征图进行最大池化操作生成尺度预测向量包括：

输入子图像大小为224×224，尺度感知预测网络在最后通过1x1的卷积生成60张尺度预测特征图F_i，对尺度预测特征图的每个通道上做最大池化生成含有60个值的尺度预测向量S_i，尺度预测向量S_i中的每个值均表示相应尺度下目标的存在概率；

S_i(k(t))＝1；

在训练过程，通过交叉熵损失函数对尺度感知预测网络对尺度预测特征图和尺度预测向量的学习进行训练，定义如下：

其中F_n表示网络的监督样本，

表示网络的输出。

S500、对尺度预测向量进行非极大值抑制操作获取目标概率值，根据预设定的概率阈值，选择目标概率值高于概率阈值的相应尺度的子图像进行人脸检测操作。由此，尺度感知预测网络可以从图像金字塔中挑选有效尺度的图像进行人脸检测，而无需对全部尺度图片进行检测，极大地减少了需要人脸检测处理的图片的数量。

虽然尺度感知预测网络可以从图像金字塔中挑选有效尺度范围的图像进行人脸检测，但是网络仍然需要重复处理一张待检测图片多次，即需要对图像金字塔中不同尺度的图像进行处理以生成不同尺度的尺度预测特征图，为了进一步加快检测速度，本实施例还设置了语义信息转化网络，可以通过语义信息转化网络将中间尺度的尺度预测特征图转化为其他不同尺度的图像的尺度预测特征图，从而避免了网络对图像金字塔中所有尺度图像进行处理，进一步极大的加快了网络检测速度，如图2所示，具体包括：

S600、选取图像金字塔中中间尺度子图像输入至尺度感知预测网络。

S700、根据人脸关键点信息生成中间尺度的尺度预测特征图。

S800、根据中间尺度的尺度预测特征图通过预设的语义信息转化网络生成不同尺度的尺度预测特征图。

具体的，根据中间尺度的尺度预测特征图通过预设的语义信息转化网络生成不同尺度的尺度预测特征图包括：

语义信息转化网络包括上采样模块U(·)和下采样模块D(·)，上采样模块U(·)和下采样模块D(·)均为一系列带批量归一化的卷积，卷积步长均为2，上采样模块U(·)用于估计图像金字塔中尺度为所输入子图像尺度的2倍的子图像的尺度预测特征图，下采样模块D(·)用于估计图像金字塔中尺度为所输入子图像尺度的

的子图像的尺度预测特征图。

优选的，采用L2loss作为损失函数对语义信息转化网络进行训练优化，定义如下：

是经语义信息转化网络生成的相应尺度的尺度预测特征图。

的图像的尺度预测特征图表示为：

由此，上采样模块和下采样模块表示为：

在检测阶段，图像金字塔中中间尺度的图像

被用于计算前向特征图，然后通过下采样模块D(·)和上采样模U(·)生成

和

最后这些特征图可以用于检测不同尺度范围的图像。

通过语义信息转化网络的设置，基于语义信息流，可以将中间尺度的尺度预测特征图转化为其他不同尺度的图像对应的尺度预测特征图，通过单一尺度语义信息预测其他尺度语义信息，只需要基于中间尺度的尺度预测特征图即可，相比于一般的需要对图像金字塔中所有尺度图像进行处理得到特征图，进一步大大减少了网络处理过程中的图像处理量，避免了检测器反复输入图像带来的计算损失，有效减少了计算消耗，加快了检测速度，提高了准确度。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于图像金字塔的快速人脸检测方法，其特征在于，所述方法包括：

根据人脸关键点信息生成尺度预测特征图F_i；

对所述尺度预测向量S_i进行非极大值抑制操作获取目标概率值，根据预设定的概率阈值，选择目标概率值高于所述概率阈值的相应尺度的子图像进行人脸检测操作；

所述根据人脸关键点信息生成尺度预测特征图包括：

其中N_s表示网络的步长，k(t)表示尺度预测特征图F_i的通道序号；

N_i(t)＝{(x，y)|d_m((x，y)，(x_t3，x_t3))≤r}；

其中，N_i(t)表示满足与鼻子关键点曼哈顿距离d_m≤预设半径r的临近坐标点集合。

2.根据权利要求1所述的一种基于图像金字塔的快速人脸检测方法，其特征在于，所述方法还包括：

根据人脸关键点信息生成中间尺度的尺度预测特征图；

3.根据权利要求1所述的一种基于图像金字塔的快速人脸检测方法，其特征在于，所述对所述尺度预测特征图进行最大池化操作生成尺度预测向量包括：

S_i(k(t))＝1；

其中t∈[0，T]，T表示输入子图像中目标的数量，(x_lt,y_lt)、(x_rd,y_rd)分别为所输入图像的目标框的左上角和右下角的坐标，k(t)表示尺度预测特征图的通道序号，L_max代表输入子图像的长边像素，当输入子图像的长边为2048时，将(32，2048]范围内的目标尺度编码生成尺度预测向量S_i。

4.根据权利要求1所述的一种基于图像金字塔的快速人脸检测方法，其特征在于，所述图像金字塔表示为：

5.根据权利要求2所述的一种基于图像金字塔的快速人脸检测方法，其特征在于，所述根据所述中间尺度的尺度预测特征图通过预设的语义信息转化网络生成不同尺度的尺度预测特征图包括：

所述语义信息转化网络包括上采样模块U(·)和下采样模块D(·)，所述上采样模块U(·)和下采样模块D(·)均为一系列带批量归一化的卷积，卷积步长均为2，所述上采样模块U(·)用于估计图像金字塔中尺度为所输入子图像尺度的2倍的子图像的尺度预测特征图，所述下采样模块D(·)用于估计图像金字塔中尺度为所输入子图像尺度的