CN109543545A

CN109543545A - 快速人脸检测方法及装置

Info

Publication number: CN109543545A
Application number: CN201811252945.7A
Authority: CN
Inventors: 王宝明; 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-29
Anticipated expiration: 2038-10-25
Also published as: CN109543545B

Abstract

本申请公开了一种快速人脸检测方法及装置。该方法包括在MTCNN算法模型中采用预设P‑Net级联网络并输出候选窗和边界回归向量；以及将上述输出结果输入R‑Net级联网络去除重叠窗并在O‑Net级联网络输出显示目标窗和人脸关键点。本申请解决了人脸检测效率较低的技术问题。通过本申请的方法，加速了MTCNN算法模型的人脸检测速度。此外，通过将SSD人脸检测方法与Viola‑Jones级联结构相融合，既在整体框架上保持了Viola‑Jones级联结构的优越性，又在细节上进一步加快了传统结构的运算速度。

Description

快速人脸检测方法及装置

技术领域

本申请涉及人脸识别领域，具体而言，涉及一种人脸检测方法及装置。

背景技术

随着人脸识别应用市场的逐步扩大，人脸检测作为人脸识别的前序工作起着至关重要的作用，市场需求催生着人脸检测算法在适应复杂网络的同时提高运算速度快。

发明人发现，常见的人脸检测方法运算速度和运算量由于受到设备和网络复杂程度的影响。

针对相关技术中人脸检测效率较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种人脸检测方法及装置，以解决人脸检测效率较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种人脸检测方法。

根据本申请的快速人脸检测方法包括：在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；以及将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

进一步地，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：在所述预设P-Net级联网络中增设锚点框，所述锚点框为多尺度。

进一步地，所述预设P-Net级联网络依次包括：一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将kk设置为1时为正方形。

进一步地，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框。

进一步地，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量之前还包括：将原图输入所述预设P-Net级联网络。

为了实现上述目的，根据本申请的另一方面，提供了一种快速人脸检测装置。

根据本申请的快速人脸检测装置包括：级联模块，用于在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；以及输出模块，用于将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

进一步地，所述级联模块还用于，在所述预设P-Net级联网络中增设锚点框，所述锚点框为多尺度。

进一步地，所述级联模块还用于在所述预设P-Net级联网络依次设置，一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将k设置为1时为正方形。

进一步地，所述级联模块还用于，在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框。

进一步地，还包括：图像输入模块，用于将原图输入所述预设P-Net级联网络。

在本申请实施例中，采用在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量的方式，通过将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点，达到了避免重复计算的目的，从而实现了加速MTCNN算法模型的人脸检测速度的技术效果，进而解决了人脸检测效率较低的的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的快速人脸检测方法示意图；

图2是根据本申请实施例的快速人脸检测装置示意图；

图3是现有技术中的MTCNN算法模型结构示意图(包括：P-Net、O-Net、R-Net)；以及

图4是根据本申请实施例的预设P-Net级联网结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S104：

步骤S102，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；

在MTCNN算法模型中，处于最前端的Proposal Network(P-Net)负责寻找被选框，然后将其送到后面的Refine Network(R-Net)和Output Network(O-Net)，继而产生最后的人脸框。通过采用预设P-Net级联网络中不采用图像金字塔，同时不采用滑窗采样模型，而选用anchor box锚点框减少了重复计算和运行时间。

步骤S104，将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

将预设P-Net级联网络的输出结果作为R-Net的输入，通过R-Net中通过全连接的方式进行训练，最后通过在O-Net中在去除重叠候选窗口的同时，显示五个人脸关键点定位。

从以上的描述中，可以看出，本申请实现了如下技术效果：

通常现有的人脸检测算法主要是分为两类，第一类是基于传统的Viola-Jones(VJ)的逐级渐进式人脸检测技术，以MTCNN为代表的基于卷积神经网络和VJ结构的算法优点在其运算量较小以及运算速度较快，而且精度能够达到实用的要求，但是由于实际应用时搭载该算法的设备多变，在算力紧张的设备上，由于其采用了滑窗和图像金字塔的方式来寻找目标人脸的位置，速度还是不够理想。

另外一类是基于通用物体检测模型，通过anchor而不是滑窗来确定人脸的位置，节省了大部分计算量，代表作为SSD算法，但是由于该结构是基于比较复杂的卷积神经网络，如VGG19，Resnet50等，所以尽管采取了anchor的策略，但是运行速度和运算量还是很大。

本申请从上述人脸检测模型和物体检测模型的角度出发，既没有使用图像金字塔、也没有采用滑窗采样模型，很大程度上能够减少重复计算和运行时间。通过全新设计的预设P-Net网络模型，通过加入anchor锚点策略以减少原有MTCNN算法模型中重复计算量。

具体地，从图3中可知，最前端的P-Net相当于以步长为1的滑窗滑过数张在原图基础上放大和缩小的一系列图片，以保证所有的人脸都尽量多的被找到。然而，这种方式做了大量的重复运算，导致运行时间的增加。基于anchor box的P-Net则最大化的结合了通用物体检测算法和传统人脸检测算法的优点，避免了重复计算。

根据本申请实施例，作为本实施例中的优选，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：在所述预设P-Net级联网络中增设锚点框，所述锚点框为多尺度。通过在所述预设P-Net级联网络中增设锚点框相比于原MTCNN中采用图像金字塔来获得尺度不变性。

根据本申请实施例，作为本实施例中的优选，所述预设P-Net级联网络依次包括：一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将k设置为1时为正方形。

具体地，如图4所示，以64*64*3的图片输入为例，后面逐级经过3*3的卷积层和步长为2的max pooling层，在8*8*32层开始，每一层后面接着3*3*k*(2+4)的卷积层，其中k为该位置设置的anchor种类数量，由于绝大部分人脸都可近似为1:1的正方形，此处设置k为1，2和4分别对应着是不是人脸框的概率和框位置的修正值，其输出就是该位置对应于MTCNN中P-Net输出的face classification候选窗和bounding box regression边界回归向量。

根据本申请实施例，作为本实施例中的优选，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框。

具体地与传统SSD检测算法相比，在本申请实施例中通过在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框，考虑到检测种类只有人脸，故增设了一个位置只有一种长宽比1:1的anchor锚点框，可以减少运算量。此外，由于在预设P-Net级联网络中的的作用是大体区分出哪些框可能是人脸，所以采用上述结构的位置的长宽比为1:1的锚点框得极度简化，比原SSD运行时间缩短几十倍。

根据本申请实施例，作为本实施例中的优选，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量之前还包括：将原图输入所述预设P-Net级联网络。由于不采用MTCNN中步长为1的滑窗采样，anchor的使用可以成倍的减少计算量。采用了多尺度anchor，所以只需要将原图作为输入即可。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的快速人脸检测装置，如图2所示，该快速人脸检测装置包括：级联模块10，用于在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；以及输出模块20，用于将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

本申请实施例的级联模块10中在MTCNN算法模型中，处于最前端的ProposalNetwork(P-Net)负责寻找被选框，然后将其送到后面的Refine Network(R-Net)和OutputNetwork(O-Net)，继而产生最后的人脸框。通过采用预设P-Net级联网络中不采用图像金字塔，同时不采用滑窗采样模型，而选用anchor box锚点框减少了重复计算和运行时间。

本申请实施例的输出模块20中将预设P-Net级联网络的输出结果作为R-Net的输入，通过R-Net中通过全连接的方式进行训练，最后通过在O-Net中在去除重叠候选窗口的同时，显示五个人脸关键点定位。

根据本申请实施例，作为本实施例中的优选，所述级联模块10还用于，在所述预设P-Net级联网络中增设锚点框，所述锚点框为多尺度。通过在所述预设P-Net级联网络中增设锚点框相比于原MTCNN中采用图像金字塔来获得尺度不变性。

根据本申请实施例，作为本实施例中的优选，所述级联模块还用于在所述预设P-Net级联网络依次设置，一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将k设置为1时为正方形。

根据本申请实施例，作为本实施例中的优选，所述级联模块还用于，在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框。

根据本申请实施例，作为本实施例中的优选，装置还包括：图像输入模块，用于将原图输入所述预设P-Net级联网络。由于不采用MTCNN中步长为1的滑窗采样，anchor的使用可以成倍的减少计算量。采用了多尺度anchor，所以只需要将原图作为输入即可。

本申请的实现原理如下，如图3所示，在原来的MTCNN模型中，处于最前端的Proposal Network负责寻找被选框，然后将其送到后面的Refine Network和OutputNetwork，继而产生最后的人脸框。从图中可知，最前端的P-Net相当于以步长为1的滑窗滑过数张在原图基础上放大和缩小的一系列图片，以保证所有的人脸都尽量多的被找到。然而，这种方式做了大量的重复运算，导致运行时间的增加。本申请提出的基于anchor box的P-Net则最大化的结合了通用物体检测算法和传统人脸检测算法的优点，避免了重复计算。

如图4所示，本申请提出的快速人脸检测方法中提出的新的P-Net整体结构与传统SSD人脸检测方法相似，但是主体结构只有四层卷积神经网络，以64*64*3的图片输入为例，后面逐级经过3*3的卷积层和步长为2的max pooling层，在8*8*32层开始，每一层后面接着3*3*k*(2+4)的卷积层，其中k为该位置设置的anchor种类数量，由于绝大部分人脸都可近似为1:1的正方形，此处设置k为1，2和4分别对应着是不是人脸框的概率和框位置的修正值，其输出就是该位置对应于MTCNN中P-Net输出的face classification候选窗和bounding box regression边界回归向量。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种快速人脸检测方法，其特征在于，包括：

在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；以及

将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

2.根据权利要求1所述的快速人脸检测方法，其特征在于，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：

在所述预设P-Net级联网络中增设锚点框，所述锚点框为多尺度。

3.根据权利要求2所述的快速人脸检测方法，其特征在于，所述预设P-Net级联网络依次包括：

一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将k设置为1时为正方形。

4.根据权利要求1所述的快速人脸检测方法，其特征在于，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量包括：

在所述预设P-Net级联网络中增设一个位置的长宽比为1:1的锚点框。

5.根据权利要求1所述的快速人脸检测方法，其特征在于，在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量之前还包括：将原图输入所述预设P-Net级联网络。

6.一种快速人脸检测装置，其特征在于，包括：

级联模块，用于在MTCNN算法模型中采用预设P-Net级联网络并输出候选窗和边界回归向量；以及

输出模块，用于将上述输出结果输入R-Net级联网络去除重叠窗并在O-Net级联网络输出显示目标窗和人脸关键点。

7.根据权利要求6所述的快速人脸检测装置，其特征在于，所述级联模块还用于，

8.根据权利要求7所述的快速人脸检测装置，其特征在于，所述级联模块还用于在所述预设P-Net级联网络依次设置，

一3*3的卷积层、一步长为2的池化层以及至少三个3*3*k*(2+4)的卷积层，其中，k为该位置设置的锚点框种类，参数2为是不是人脸框的概率，参数4为框位置的修正值，将kk设置为1时为正方形。

9.根据权利要求6所述的快速人脸检测装置，其特征在于，所述级联模块还用于，

10.根据权利要求6所述的快速人脸检测装置，其特征在于，还包括：图像输入模块，用于将原图输入所述预设P-Net级联网络。