CN110175504A

CN110175504A - 一种基于多任务级联卷积网络的目标检测和对齐方法

Info

Publication number: CN110175504A
Application number: CN201910276011.5A
Authority: CN
Inventors: 颜成钢; 谢益峰; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-08-27

Abstract

本发明公开了一种基于多任务级联卷积网络的目标检测和对齐方法。本发明步骤如下：1、构建数据集，生成图像金字塔；2、构建P‑Net网络快速产生候选窗体，获得候选窗体和边界回归向量；同时候选窗体根据边界框进行校准；然后利用非极大值抑制方法去除重叠窗体；3、通过R‑Net网络对步骤2产生的候选窗体进一步打分筛选；4、使用O‑Net网络实现候选窗体的去留，同时定位面部五个关键点的定位；O‑Net网络结构比R‑Net多一层卷积，在去除重叠候选窗口的同时，显示五个人脸关键点定位，分别为左眼睛、右眼睛、鼻子以及嘴巴的左嘴角、右嘴角。本发明将人脸检测和对齐的相关性考虑进去，提升了人脸检测和对齐的精度。

Description

一种基于多任务级联卷积网络的目标检测和对齐方法

技术领域

本发明涉及多人脸检测，目标检测领域，尤其涉及一种基于多任务级联卷积网络的目标检测和对齐方法。

背景技术

目前，随着手持移动设备的剧增以及AI时代的来临，目标检测因有着其在机器视觉领域独特的基础性研究价值以及人类对其迫切的需求，已经成为热门呢的研究领域。由于目标检测领域涉及到非常广泛的研究内容，例如车牌检测，特定对象检测等等。而在其之中，人脸方面的检测和对齐具有不可磨灭的地位，因此本发明将目标检测首先锁定在多人脸的检测方面。

车牌检测和对齐是很多基于人脸应用的方面必要环节例如后续的人脸识别以及人脸行为分析等等，而人脸检测和对齐的准确度和精度直接影响了后续基于人脸方面的操作。此外，由于人脸对于视觉变化的极度敏感性，以及人的姿势变化和极端光照条件等等的影响，使得在真实场景下对于人脸检测和对齐的任务极具挑战。目前人脸检测主要分为两个方向，其一是Viola和Jones提出的级联人脸检测器，利用Harr-Like特征结合AdaBoost去实现高性能的实时训练。然而，此算法只能针对理想情况下即没有太多干扰的条件下的人脸检测。另一种研究方向是利用CNN用于人脸检测和对齐。但是目前的算法都忽略了脸部检测和脸部对齐两者是具有相关性的，此外，有些算法已经开始对于相关性这方面的学习研究，但是仍具有其极限性，此外，目前的训练样本对分类器的性能提升已经达到了饱和。

发明内容

本发明的目的是利用级联网络与CNN相结合，提供一种基于多任务级联卷积网络的目标检测和对齐方法，一种新型的级联架构来实现多人脸检测的目的。

为达到上述目的，本发明所采用的技术方案包括如下步骤：

步骤1、构建数据集，生成图像金字塔；

步骤2、构建浅层的CNN，记为P-Net网络，P-Net快速产生候选窗体，获得候选窗体和边界回归向量。同时候选窗体根据边界框进行校准。然后利用非极大值抑制(NMS)方法去除重叠窗体。

步骤3、通过更复杂的CNN网络，记为R-Net网络，对步骤2产生的候选窗体进一步打分筛选，对步骤2产生的大量的重叠窗体进行丢弃，从而一方面节省计算机资源，利用一方面对于减少后续由于重叠窗体的存在对权重更新所产生的影响。网络最后选用全连接的方式进行训练。利用边界框向量微调候选窗体，再利用NMS去除重叠窗体。

步骤4、使用更加强大的CNN，记为O-Net网络，实现候选窗体的去留，同时定位面部五个关键点的定位。网络结构比R-Net多一层卷积，功能与R-Net作用一样，只是在去除重叠候选窗口的同时，显示五个人脸关键点定位，分别为左眼睛、右眼睛、鼻子以及嘴巴的左嘴角、右嘴角。

进一步地，步骤1所述的图像金字塔即为对输入图像进行预处理，对图片进行缩放，缩放后的图片尺寸为：

其中，minsize和factor为控制图像金字塔阶层数的参数，即能够决定生成多少张图去定位图片中人脸，检测到不同scale的人脸。org_L表示输入图像；其中minsize表示最小可以检测到的图像，minsize的值的大小为控制图像金字塔的阶层数的参数之一，minsize的值越小阶层数越多；factor为图像金字塔的缩放系数，范围为(0,1)，越大阶层数越多。同时构建图像金字塔所产生的不同scale的图像需要作为之后步骤的输入进行训练。

更进一步地，对步骤1中构建的图像金字塔，通过3层卷积层(convolution)进行初步特征提取以及边框的标定，并利用候选框回归(Bounding box regression)来调整窗口的大小，并NMS进行大部分重叠以及非人脸窗口的过滤。其中，NMS为非极大值抑制，用来丢弃重合度很高且标定相对不准确的预测框。

同时每个网络都会输出得分(score)，其中P-Net输出得分I(scoreI)，R-Net输出得分II(scoreII)，O-Net输出得分III(scroeIII)，score可以看作分类的输出即是人脸概率。

进一步地，score是两个通道的三维矩阵m*m*2，根据其对应在网络原始输入图片中m*m个12*12的滑框，并且结合当前图片在图像金字塔中的缩放尺寸(scale)，就可以推算出每个滑框在原始图像中的具体坐标即4个坐标信息。

更进一步地，首先根据score对滑框进行筛选，低于阈值的滑框进行丢弃。然后利用NMS极大值抑制的方法对剩下画框进行合并。当将图像金字塔中的所有图像都进行处理完之后，再利用NMS对汇总的滑框进行合并，最后利用剩余的滑框转换成原始图像中的像素坐标，即得到了人脸框的坐标信息。

进一步地，步骤2中所述网络为P-Net，主要用来生成一些候选框(Bounding box)，目的为人脸检测和人脸框回归任务。基本构造为全连接网络。

进一步地，步骤3中所述网络为R-Net，主要用来去除大量的非人脸框，同时丢弃大量的重叠Bounding box，目的为人脸检测和人脸框回归任务。其中R-Net输入为步骤2中生成的Bounding box，并且采用调整大小(resize)操作对Bounding box大小归一化成24*24。同样在测试的时候输出M个Bounding box的坐标信息和scoreII，此外，4个坐标信息也同样用回归支路的输出进行了修正，4个坐标信息分别为Bounding box的4个角的坐标，即对应每个Bounding box左上角、右上角、左下角和右下角。

进一步地，步骤4所述网络为O-Net，与步骤3相比增加了landmark位置的回归，目的为人脸检测，人脸框回归以及面部5个关键点的定位。输入为步骤3中的Bounding box的信息，同时resize输入大小调整为48*48，输出为P个Bounding box的4个坐标信息，scoreIII以及五个面部关键点。

本发明有益效果如下：

本发明不仅将人脸检测和对齐的相关性考虑进去，提升了人脸检测和对齐的精度，同时在外界具有较复杂干扰的情况下比如极端光照，遮挡物的干扰等，都具有较好的表现。

附图说明

图1是本发明基于多任务级联卷积神经网络的目标检测和对齐的流程图。

图2是本发明的P-Net网络的结构示意图。

图3是本发明的R-Net网络的结构示意图。

图4是本发明的O-Net网络的结构示意图。

其中输入层和卷积层括号内数字分别表示输入维数，卷积核大小；max-pooling括号内数字为步长。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种基于多任务级联卷积神经网络的目标检测和对齐，如图1所示，该方法包括训练阶段和识别阶段；所示训练阶段包括如下步骤：

第一步，获取图片的原始信息，其中本发明获取了7000张人脸图片作为人脸识别的初期数据库。且通过对图像预处理来对输入信息进行修正，包括minsize和factor来对图像进行缩放，通过图像金字塔即为对输入图像进行预处理，缩放后的图片尺寸为：

此外，缩放后的图像就是图像金字塔的图像。

第二步，将第一步resize后12*12*3的图像喂给P-Net网络进行前向传播，得到的结果为1*1*2和1*1*4，再根据结果进行回推来得到每个结果中所对应的12*12的图在原始图像的什么位置即针对金字塔中的每张图，P-Net网络前向传播后计算都可以得到scoreI以及图像中人脸框定的结果。请参考图2，该图为本发明的P-Net网络的结构示意图。在输入特征为12*12*3，首先经过3*3的卷积以及步长为2的max-pooling的操作，得到5*5*10，再经过2层3*3的卷积操作得到1*1*32，卷积操作得到1*1*32的输出结果分别用做人脸分类(1*1*2)、人脸框的回归(1*1*4)和人脸关键点定位(1*1*10)；

训练阶段这一步输出N个Bounding box的4个坐标信息和scoreI，当然这4个坐标信息已经用回归支路的输出进行修正了，scoreI可以看做是分类的输出即是人脸概率。在P-Net网络中存在一个max-pooling操作，用于压缩维度，减小卷积层数误差造成估计均值的偏移，更多的保留纹理信息，提高模型的泛化能力。

进一步地，人脸分类使用交叉熵:

其中，p_i为人脸的概率，为原始图像的真实标签，为计算所得的人脸概率。

Bounding box Regression使用：

通过对欧氏距离计算回归的损失，即其中，为通过网络预测得到人脸坐标信息，为实际的原始图像坐标。

第三步，将第二步中生成的Bounding box从原始图像中进行截取，并且进行图片预处理，resize图片大小到24*24*3，作为R-Net的输入。输出与第二步类似，结果仍然是Bounding box Regression结果和scoreⅡ，请参考图3，该图为本发明的R-Net网络的结构示意图。在输入特征为24*24*3，首先经过2层3*3的卷积以及步长为3的max-pooling的操作，得到4*4*48，再经过2*2的卷积操作得到3*3*64，之后再经过一层全连接层，得到128特征图，之后网络存在的3条支路用来分别做人脸分类(2)、人脸框的回归(4)和人脸关键点定位(10)。

进一步地，对得分低于阈值的候选框进行丢弃，剩下候选框利用NMS进行合并，最后得到的Bounding box Regression映射到原始图像中，得到4个坐标信息。且最终的得到的结果是在P-Net的基础上进行精选所得到的人脸框。

第四步，将第三步中精炼得到的Bounding box从原始图像上进行截取，并且对得到的图像进行预处理，resize图片大小到48*48*3，作为O-Net的输入。输出为scoreIII，Bounding box以及landmark的位置数据。请参考图4，该图为本发明的O-Net网络的结构示意图。在输入特征为10*10*64，首先经过2层3*3的卷积以及步长为3的max-pooling的操作，得到4*4*64，再经过3*3的卷积和步长为2的max-pooling操作得到3*3*128，之后在经过一层全连接层，得到256特征图，之后网络存在的3条支路用来分别做人脸分类(2)、人脸框的回归(4)和人脸关键点定位(10)。

进一步地，score超过阈值的候选框所对应的Bounding box以及landmark进行保存，并且将Bounding box以及landmark映射到原始图像坐标上。再次实施NMS对人脸框进行合并，最终剩下的Bounding box以及对应的landmark即为结果。

更进一步地，landmark定位:

为计算网络预测的地标坐标和实际真实地标的欧式距离，并最小化该距离。其中通过网络预测得到地标坐标，表示实际的真实的地标坐标。

训练P-Net，R-Net，O-net网络时都采用自下上升的监督学习方式，即先用预处理的图片和数据作为输入训练第一隐含层(即将其输入到初始卷积层)，训练时先学习第一隐含层的参数；进一步，由于网络的限制、稀疏性约束以及先验条件的约束，使网络结构得到比数据本身更有表征能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数，以分别得到各隐含层的相应参数。

第五步，保存调整后的参数，得到识别模型。

继续参考图1，所述识别阶段包括如下步骤：

⑴待识别数据或者测试数据(1000张人脸图片)作为testing来测试上述训练阶段得到的人脸识别模型的准确率。

⑵上述待识别人脸数据或者测试数据及标签数据进行预处理操作，包括图像正则化、先验条件约束、数据格式及对应图像转换等操作，以提升之后的深度残差网络的拟合精度；进一步说明需要对人脸图片进行预处理，即利用minsize和factor构建图像金字塔，从而使之能够作为输入而输入到上述人脸识别模型中进行识别；

⑶将上述预处理后的人脸数据或者测试数据及标签数据输入到上述得到的人脸识别模型中进行识别，得到识别结果。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于多任务级联卷积网络的目标检测和对齐方法，其特征在于包括如下步骤：

步骤1、构建数据集，生成图像金字塔；

步骤2、构建浅层的CNN，记为P-Net网络，P-Net快速产生候选窗体，获得候选窗体和边界回归向量；同时候选窗体根据边界框进行校准；然后利用非极大值抑制方法去除重叠窗体；

步骤3、通过更复杂的CNN网络，记为R-Net网络，R-Net对步骤2产生的候选窗体进一步打分筛选，对步骤2产生的大量的重叠窗体进行丢弃，R-Net网络最后选用全连接的方式进行训练；利用边界框向量微调候选窗体，再利用NMS去除重叠窗体；

步骤4、使用更加强大的CNN，记为O-Net网络，O-Net实现候选窗体的去留，同时定位面部五个关键点的定位；O-Net网络结构比R-Net多一层卷积，功能与R-Net作用一样，只是在去除重叠候选窗口的同时，显示五个人脸关键点定位，分别为左眼睛、右眼睛、鼻子以及嘴巴的左嘴角、右嘴角；

每个网络都会输出得分score，其中P-Net输出scoreI，R-Net输出scoreII，O-Net输出scroeIII，score看作分类的输出即是人脸概率。

2.根据权利要求1所述的一种基于多任务级联卷积网络的目标检测和对齐方法，其特征在于步骤1所述的图像金字塔即为对输入图像进行预处理，对图片进行缩放，缩放后的图片尺寸为：

其中，minsize和factor为控制图像金字塔阶层数的参数，org_L表示输入图像；其中minsize表示最小可以检测到的图像，minsize的值的大小为控制图像金字塔的阶层数的参数之一，minsize的值越小阶层数越多；factor为图像金字塔的缩放系数，范围为(0,1)；

所述的步骤1中构建的图像金字塔，通过3层卷积层(convolution)进行初步特征提取以及边框的标定，并利用候选框回归(Bounding box regression)来调整窗口的大小，并NMS进行大部分重叠以及非人脸窗口的过滤；

所述的score是两个通道的三维矩阵m*m*2，根据其对应在网络原始输入图片中m*m个12*12的滑框，并且结合当前图片在图像金字塔中的缩放尺寸(scale)，推算出每个滑框在原始图像中的具体坐标即4个坐标信息；

首先根据score对滑框进行筛选，低于阈值的滑框进行丢弃；然后利用NMS极大值抑制的方法对剩下画框进行合并；当将图像金字塔中的所有图像都进行处理完之后，再利用NMS对汇总的滑框进行合并，最后利用剩余的滑框转换成原始图像中的像素坐标，即得到了人脸框的坐标信息。

3.根据权利要求2所述的一种基于多任务级联卷积网络的目标检测和对齐方法，其特征在于步骤2中所述网络为P-Net，主要用来生成一些候选框(Bounding box)，目的为人脸检测和人脸框回归任务；基本构造为全连接网络，具体的：

将第一步调整大小(resize)后12*12*3的图像喂给P-Net网络进行前向传播，得到的结果为1*1*2和1*1*4，再根据结果进行回推得到每个结果中所对应的12*12的图在原始图像的位置，即针对金字塔中的每张图；P-Net网络前向传播后计算都能够得到scoreI以及图像中人脸框定的结果；

训练阶段的P-Net网络将输出N个Bounding box的4个坐标信息和scoreI，且这4个坐标信息已经用回归支路的输出进行修正，scoreI看做是分类的输出即是人脸概率；在P-Net网络中存在一个max-pooling操作，用于压缩维度，减小卷积层数误差造成估计均值的偏移；

进一步地，人脸分类使用交叉熵:

其中，p_i为人脸的概率，为原始图像的真实标签，为计算所得的人脸概率；

Bounding box Regression使用：

通过对欧氏距离计算回归的损失，即其中，为通过网络预测得到人脸坐标信息，为实际的原始图像坐标信息。

4.根据权利要求3所述的一种基于多任务级联卷积网络的目标检测和对齐方法，其特征在于步骤3中所述网络为R-Net，以步骤2中生成的Bounding box为输入，并且采用调整大小(resize)操作对Bounding box大小归一化成24*24；同样在测试的时候输出M个Boundingbox的坐标信息和scoreII，此外，4个坐标信息也同样用回归支路的输出进行了修正；

若输入特征为24*24*3，首先经过2层3*3的卷积以及步长为3的max-pooling的操作，得到4*4*48，再经过2*2的卷积操作得到3*3*64，之后再经过一层全连接层，得到128特征图，之后网络存在的3条支路用来分别做人脸分类、人脸框的回归和人脸关键点定位；

对scoreII低于阈值的候选框进行丢弃，剩下候选框利用NMS进行合并，最后得到的Bounding box Regression映射到原始图像中，得到4个坐标信息，4个坐标信息分别为Bounding box的4个角的坐标，即对应每个Bounding box左上角、右上角、左下角和右下角；且最终的得到的结果是在P-Net的基础上进行精选所得到的人脸框。

5.根据权利要求4所述的一种基于多任务级联卷积网络的目标检测和对齐方法，其特征在于步骤4所述网络为O-Net，与步骤3相比增加了landmark位置的回归，用于人脸检测、人脸框回归以及面部5个关键点的定位；输入为步骤3中的Bounding box的信息，同时resize输入大小调整为48*48，输出为P个Bounding box的4个坐标信息，scoreIII以及五个面部关键点；

若输入特征为10*10*64，首先经过2层3*3的卷积以及步长为3的max-pooling的操作，得到4*4*64，再经过3*3的卷积和步长为2的max-pooling操作得到3*3*128，之后在经过一层全连接层，得到256特征图，之后网络存在的3条支路用来分别做人脸分类、人脸框的回归和人脸关键点定位；

scoreIII超过阈值的候选框所对应的Bounding box以及landmark进行保存，并且将Bounding box以及landmark映射到原始图像坐标上；再次实施NMS对人脸框进行合并，最终剩下的Bounding box以及对应的landmark即为结果；

更进一步地，landmark定位:

为计算网络预测的地标坐标和实际真实地标的欧式距离，并最小化该距离；其中通过网络预测得到地标坐标，表示实际的真实的地标坐标。