CN107851192B

CN107851192B - 用于检测人脸部分及人脸的设备和方法

Info

Publication number: CN107851192B
Application number: CN201580079964.2A
Authority: CN
Inventors: 汤晓鸥; 杨硕; 罗平; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2023-04-14
Anticipated expiration: 2035-05-13
Also published as: CN107851192A; WO2016179808A1

Abstract

公开了一种用于人脸部分及人脸检测的设备(1000)，其包括：人脸提议单元(100)，其实现对输入图像的人脸部分的精确定位、利用空间结构来推断每个部分的人脸可能性、和基于这些人脸可能性来生成输入图像的边界框提议，其中所生成的边界框提议包括人脸和背景中的至少之一；以及人脸检测单元(200)，其与人脸提议单元电通信并验证所生成的边界框提议是包括真实的人脸还是只是背景。

Description

用于检测人脸部分及人脸的设备和方法

技术领域

本公开涉及用于检测人脸部分及人脸的设备和方法。

背景技术

将神经网络用于人脸检测任务由来已久。例如，Rowley等人利用一组基于神经网络的滤波器来以多个尺度形式检测人脸的存在，并且合并来自个别滤波器的检测。Osadchy 等人证明，对人脸检测和姿势估计的联合学习显着地改进了人脸检测的性能。Vaillant等人的开创性工作采用二阶段由粗到细检测。具体地，第一阶段近似定位人脸区域，而第二阶段提供更精确的定位。虽然已投入了巨大的努力来解决在遮挡下进行人脸检测，但这些方法都只限于正面人脸，而未在姿势与遮挡两者有变化时发现人脸。

近几十年来，基于级联和可变形部件模型(DPM)的检测器在人脸检测方法中占主要地位。Viola和Jones介绍了经由积分图像和叠加式(boosted)级联分类器进行的快速类Haar特征计算。此后的各种研究都遵循类似的渠道。在这些变体中，SURF级联是其中一个出色的执行者。后来，Chen等人证明通过在同一个级联框架中联合学习人脸检测和人脸对齐达到了目前发展水平的人脸检测性能。可变形部件模型将人脸定义为多个部分的集合。潜在支持向量机通常用来寻找这些部分及它们的关系。DPM被示为比基于级联的方法对遮挡的鲁棒性更强。最近的研究还验证了使用vanilla的DPM的现有性能，实现了比更复杂的DPM变体更好的结果。

最近的研究表明，可以通过使用深度学习来进一步改进人脸检测，从而杠杆化深度卷积网络的高容量。然而，现有技术中所提议的网络不具有明确的机构来处理遮挡，并且人脸检测器因此未能检测具有重度遮挡的人脸。

发明内容

本发明在于解决在严重遮挡和姿势变化下进行人脸检测的问题。然后，可以将检测到的人脸用于各种应用，诸如人脸对齐、人脸跟踪或人脸辨识。

本申请训练属性感知的深度卷积网络(亦称人脸提议单元(face proposalunit))，以实现对人脸部分的精确定位并利用它们的空间结构来推断人脸可能性。然后，基于这些人脸可能性来生成边界框提议(bounding box proposals)。这些提议可包含人脸与背景，边界框也并非足够精确。因此然后使用人脸检测单元来验证这些提议是真实的人脸还是只是背景。也采用该人脸检测单元来获得具有更精确的位置的边界框。

在一个方面中，公开了一种用于人脸部分及人脸检测的设备。所述设备可包括：

人脸提议单元，其用于利用(exploiting)空间结构来推断(inferring)输入图像的每个人脸部分的人脸可能性，并基于这些人脸可能性来生成输入图像的边界框提议；以及

人脸检测单元，其与人脸提议单元电通信并验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景。

在本申请的一个实施方案中，如果所生成的边界框提议中的至少一者包括真实的人脸，则人脸检测单元进一步确定人脸在所生成的边界框提议中的位置。

在本申请的一个实施方案中，人脸提议单元可进一步包括：

神经网络单元，其中神经网络单元接收输入图像，并预测输入图像的目标人脸或人脸部分以确定输入图像的每个像素属于每个预定的人脸部分的概率；

人脸度(faceness)测量单元，其基于所确定的概率来生成多个预先提议的边界框以及每个人脸部分位于预先提议的边界框中的概率；以及

边界框提议单元，其将具有高于预定阈值的概率的预先提议的边界框确定为针对所述人脸部分的人脸提议。

在另外的方面中，公开了一种用于人脸部分及人脸检测的方法，其包括：

实现对输入图像中的人脸部分的定位化；

基于定位化利用空间结构来推断每个部分的人脸可能性；

基于这些人脸可能性来生成针对输入图像的边界框提议，其中所生成的边界框提议包括人脸和背景中的至少之一；以及

验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景，如果是，则所述方法可进一步包括：

确定人脸在所生成的边界框提议中的位置。

预测输入图像的目标人脸或目标人脸部分，以确定输入图像的每个像素属于输入图像的每个预定的人脸部分的概率；

基于所确定的概率来生成多个预先提议的边界框以及每个人脸部分位于预先提议的边界框中的概率，

将具有最高概率(其中该概率高于预定阈值)的预先提议的边界框确定为针对所述人脸部分的人脸提议；以及

验证所生成的边界框提议是包括真实的人脸还是只是背景。所述方法可进一步包括：

如果验证所生成的边界框提议包括真实的人脸，则确定人脸在所生成的边界框提议中的位置。

在另外的方面中，公开了一种用于人脸部分及人脸检测的系统，其包括：

存储器，其存储可执行部件；以及

处理器，其电联接到存储器来执行可执行部件以执行系统的操作，其中，所述可执行部件包括：

人脸提议部件，其用于利用空间结构来推断输入图像的每个人脸部分的人脸可能性并基于人脸可能性来生成输入图像的边界框提议；以及

人脸检测部件，其用于验证所生成的边界框提议是包括真实的人脸还是只是背景。

用于实现对输入图像中的人脸部分的定位化的部件；

用于基于定位化利用空间结构来推断每个部分的人脸可能性的部件；

用于基于这些人脸可能性来生成输入图像的边界框提议的部件，其中所生成的边界框提议包括人脸和背景中的至少之一；以及

用于验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景的部件，如果是，则所述方法可进一步包括：

用于确定人脸在所生成的边界框提议中的位置的部件。

用于预测输入图像的目标人脸或人脸部分以确定输入图像的每个像素属于输入图像的每个预定的人脸部分的概率的部件；

用于基于所确定的概率来生成多个预先提议的边界框以及每个人脸部分位于预先提议的边界框中的概率的部件；

用于将具有最高概率(其中该概率高于预定阈值)的预先提议的边界框确定为针对所述人脸部分的人脸提议的部件；以及

用于验证所生成的边界框提议是包括真实的人脸还是只是背景的部件。所述方法可进一步包括：

用于在验证所生成的边界框提议包括真实的人脸的情况下确定人脸在所生成的边界框提议中的位置的部件。

附图说明

下文参考附图来描述本发明的例示性非限制性实施方案。附图是说明性的，并且一般不按确切的比例绘制。用相同的参考数字来引用不同图上的相同或类似组件。

图1说明了根据本申请的一个实施方案的用于人脸部分及人脸检测的设备1000。

图2说明了根据本申请的实施方案的人脸提议单元的示意性框图。

图3是说明根据本申请的一个实施方案的训练单元训练多个或单个神经网络模型的流程过程的示意图。

图4说明了根据本申请的一个实施方案的神经网络单元101预测目标人脸或人脸部分的过程。

图5说明了根据本申请的一个实施方案的在设有多个CNN的神经网络单元中的预测过程。

图6是说明根据本申请的一个实施方案的人脸度测量单元102生成预先提议的边界框和每个预先提议的边界框的人脸度得分的过程的示意图。

图7是说明根据本申请的一个实施方案的针对边界框的人脸度测量的示例的示意图。

图8是说明根据本申请的一个实施方案的针对头发部分的人脸度测量的示例的示意图。

图9是说明根据本申请的一个实施方案的边界框提议单元的流程图的示意图。

图10说明了根据本申请的一个实施方案的用于人脸部分及人脸检测的方法。

图11说明了根据本申请的另外的实施方案的用于人脸部分及人脸检测的方法。

图12说明了根据本申请的一个实施方案的用于人脸部分及人脸检测的系统，其中通过软件来实施本发明的功能。

具体实施方式

现将详细参考本发明的一些特定实施方案，包括由发明人预期用于实施本发明的最佳模式。附图中说明了这些特定实施方案的示例。虽然结合这些特定实施方案描述了本发明，但将理解，其并不旨在将本发明限制到所描述的实施方案。相反，其旨在涵盖如可包括在如由所附权利要求定义的本发明的精神和范围内的替代例、修改和等效物。在以下描述中，阐述了众多特定细节以便提供对本发明的透彻理解。可在没有这些特定细节中的一些或全部的情况下实践本发明。在其他例子中，未详细描述众所周知的过程操作以便不必要地模糊本发明。

本文中所使用的术语仅用于描述特定实施方案的目的而非旨在限制本发明。如本文中所使用，除非上下文另有明确指示，否则单数形式“一”和“所述/该”也旨在包含复数形式。将进一步理解，当用于本说明书中时，术语“包括”规定所陈述的特征、整数、步骤、操作、组件和/或部件的存在，但并不排除一个或多个其他特征、整数、步骤、操作、组件、部件和/或其群组的存在或添加。

图1说明了根据本申请的一个实施方案的用于人脸部分及人脸检测的设备1000。如所示，设备1000包括人脸提议单元100和人脸检测单元200。

I人脸提议单元100

人脸提议单元100用于自动生成人脸提议边界框、人脸度得分和人脸部分的响应图，并且其输出将被馈送入与人脸提议单元100电通信的人脸检测单元200中。具体地说，人脸提议单元100用于接收图像数据，诸如RGB图像或RGBD图像。图像数据可以是任何形式的RGB图像或RGBD图像。RGBD图像由正常RGB图像和深度图像组成。深度图像是指这样的图像，即其中每个像素表示从摄像头传感器到图像中的对象的距离。基于所接收的图像数据，人脸提议单元100操作以输出人脸提议边界框、每个所提议的边界框的人脸度得分和人脸部分的响应图。边界框由其左上点和右下点的坐标(x_l,y_l,x_r,y_r)来定义。

图2说明了根据本申请的实施方案的人脸提议单元100的示意性框图。如所示，人脸提议单元100包括神经网络单元101、人脸度测量单元102和边界框提议单元103。

1.1)神经网络单元101

神经网络单元101可设有用不同的监督信息训练的多个或单个神经网络模型。

实现方式1：

给定n个人脸部分，例如眼睛、鼻子、嘴巴、头发和胡须。其他部分定义是有可能的，可以针对每个人脸部分通过将对应于特定人脸部分的人脸属性用作指定的输出来训练卷积神经网络(CNN)。因此，神经网络系统由n个卷积神经网络(CNN)组成。

实现方式2：

给定n个人脸部分，即左眼、右眼、鼻子、嘴巴、左耳、右耳。其他部分定义是有可能的，训练一个卷积神经网络(CNN)以预测输入图像中心是否落入人脸部分的具有某个尺度的所限定的人脸部分区域中。在这种情况下，神经网络系统仅具有一个卷积神经网络(CNN)。

可由训练单元300来训练神经网络单元101中的多个或单个神经网络模型。通过输入一组预定的训练数据(其每一者用对应于指定的输出的对应实际情况标签来标记)，可以通过使用不同的指定的输出(或其组合)来训练(多个)网络。这些包括但不限于我们在下文提到的示例：

a.人脸属性，诸如年轻、年老、大眼睛、小眼睛、尖鼻子、大嘴巴和黑头发。实际情况是其中每个维数表示一种人脸属性的程度的向量。这些向量的值可以是离散的或连续的。

b.人脸特征部位(landmark)，即人脸关键点的坐标。通常，人脸关键点包括左眼中心、右眼中心、鼻子中心和嘴角。

c.人脸部分的实际情况标签是指示预定的人脸部分是否出现在输入图像中的二进制向量。

图3是说明根据本申请的一个实施方案的训练单元300训练多个或单个神经网络模型的流程过程3000的示意图。如所示，过程3000以步骤s301开始，在该步骤中，训练单元30从预定的训练集中得到数据样本以及对应于指定的目标输出的对应实际情况标签，然后将数据样本和对应实际情况标签馈送到神经网络系统。在步骤s302处，基于数据样本和对应实际情况标签，神经网络生成针对数据样本的目标预测。在步骤s303处，训练单元300操作以计算目标预测与实际情况标签之间的误差。在一个示例中，可使用交叉熵损失：

其中|D|是训练样本的数目，x_i是训练样本，y_i是实际情况标签。p(y_i|x_i)是S型函数，即

其指示第j个属性或人脸部分在每个预定义尺度中的存在概率。f(x_i)是由训练样本x_i的神经网络生成的特征表示。

应了解，可使用其他损失函数来训练此神经网络单元。

在步骤s304，训练单元300操作以将误差反向传播通过神经网络系统，以调整神经网络系统的神经元之间的连接的权重。然后，在步骤处，确定误差是否小于预定值(即，过程是否收敛)。如果不，则将重复步骤s301到s305，直到过程收敛。

如上文中所论述，神经网络单元101接收图像数据(即，输入图像)并生成预定的人脸部分的响应图。图4说明了根据本申请的一个实施方案的神经网络单元101预测目标人脸或人脸部分的过程。

在步骤s401中，对于所接收的图像数据(即，给定看不到的数据样本)，具有经过训练的神经网络的神经网络单元101操作以为所接收的图像数据生成目标预测。给定的训练过的神经网络可具有许多目标预测。例如，训练过的神经网络可操作以预测一组人脸部分属性，诸如大眼睛、小眼睛、眯着的眼睛和自信的眼睛。对于输入图像而言，需要预测出目标预测中所包括的属性存在于输入图像中的概率是什么。然后，在步骤s402，神经网络单元101操作以基于所生成的目标预测来计算输入图像中的每个像素属于每个预定人脸部分的概率。替代性地，可从提取自神经网络的特征图中获得概率。例如，可从卷积神经网络的最后一个卷积层中提取特征图。

在步骤s403中，神经网络单元101操作以基于步骤s401和s402的结果来生成预定的人脸部分的响应图。对于每个预定的人脸部分而言，在步骤s401生成的目标预测以及输入图像中的每个像素将位于预定的人脸部分中的概率(如步骤s402中所论述)构成了响应图。

在实现方式1中：

在实现方式1中(其中定义了n个人脸部分，例如眼睛、鼻子、嘴巴、头发和胡须(出于论述的目的，设定n＝5))，针对每个人脸部分，通过将人脸属性用作监督信息来训练卷积神经网络(CNN)。在预测期间，将每个测试图像馈送入5个训练过的卷积神经网络(CNN)中，如图5中所示。

一般而言，每个卷积神经网络(CNN)生成对应于特定人脸部分的m个响应图，神经网络单元101通过取m个响应图的每个像素的平均值或最大值来组合m个响应图，并在步骤s403处为每个人脸部分生成一个响应图。

针对每个卷积神经网络，其输出可以用公式表示为：

h^v(l)＝relu(b^(v(l))+∑_uK^vu(l)*h^u(l-¹⁾) 2)

其中relu(x)＝max(0,x)是修正线性激活函数，可以使用其他激活函数(诸如S型函数)。*表示卷积算子。k^vu(l)和b^v(l)表示滤波器和偏误。h^v(l)表示第l层处的第v个输出通道。

因此，可以将每个卷积神经网络的输出表达为h^l，即像素(i,j)属于输入图像的每个预定的人脸部分的概率。可以通过以下等式从h^l中生成针对像素(i,j)所获得的响应图：

其中，(i,j)是供输出的像素的坐标，且m是输出通道的数目。

表示像素(i,j)属于输入图像的每个预定的人脸部分的概率。

在实现方式2中：

在这个实现方式中，也定义了n个人脸部分，即左眼、右眼、鼻子、嘴巴、左耳、右耳。其他部分的定义也是有可能的。使用一个训练过的卷积神经网络来预测输入图像中心是否落入通过预定义尺度限定的人脸部分区域中。在预测期间，将每个测试图像馈送入1个训练过的卷积神经网络中。此卷积神经网络输出对应于6个人脸部分的6个响应图。此处。

表示像素(i,j)属于输入图像的、具有预定义尺度的每个预定人脸部分的概率。对于实现方式2而言，计算类似于实现方式1，其中m＝1。

返回到图2，人脸提议单元100进一步包括：人脸度测量单元102，其用于生成每个预先提议的边界框的人脸度得分；以及边界框提议单元103，其用于提议候选人脸的边界框。人脸度测量单元102基于所确定的概率来生成多个预先提议的边界框以及每个人脸部分位于预先提议的边界框中的概率。边界框提议单元103将具有最高概率(其中该概率高于预定阈值)的预先提议的边界框确定为所述人脸部分的人脸提议。

1.2)人脸度测量单元102

人脸度测量单元102接收由神经元网络预测单元101针对每个数据样本生成的、预定人脸部分的响应图，并在输入图像中输出预先提议的边界框和每个预先提议的边界框的人脸度得分。这个单元利用部分信息来处理遮挡。

图6是说明根据本申请的一个实施方案的人脸度测量单元102生成预先提议的边界框和每个预先提议的边界框的人脸度得分的流程过程6000的示意图。如所示，过程6000以步骤s601开始，在该步骤中，定义针对每个预定的人脸部分的人脸度测量。例如，在这个步骤中，其定义如何在预先提议的边界框中划分人脸部分，如下文所论述。

在步骤s602处，给定预定的人脸部分的响应图和预先提议的边界框，人脸度测量单元102基于这些预先提议的每个边界框来裁剪预定人脸部分的响应图。

可以通过一些方法来生成预先提议的边界框。这些包括但不限于如下的示例。

a.一般对象提议方法，即选择性搜索、MCG、边缘盒(Edgebox)和滑动窗口。

b.神经元网络的输出，其首先对人脸度图实施非极大值抑制(NMS)和取阈值以得到每个人脸部分的一些关键点。针对每个关键点，提议了以关键点为中心的具有预定义尺度的边界框。

对于每个预先提议的边界框而言，其将具有对应于n个所定义的人脸部分的n个人脸度得分，如图7中所示。

在步骤s603，人脸度测量单元102操作以使用在步骤s601中为特定人脸部分限定的人脸度测量来计算在步骤s602中生成的每个人脸部分的经裁剪的响应图的人脸度得分。

具体地说，给定在实现方式1中的从神经网络单元101中生成的头发的响应图h^a。如下计算头发部分的人脸度得分。

将

表示为人脸部分的窗口w的人脸度得分。给定预先提议的边界框ABCD，我们首先基于预先提议的边界框ABCD来裁剪人脸部分响应图。然后，我们将边界框ABCD划分成两个部分ABEF和EFCD。由针对每个人脸部分的人脸度测量来定义如何在预先提议的边界框中划分这些部分。在这种情况下，我们定义BE/CE＝1/3。替代性地，可以从训练数据中学习此比率。

其中在上文的预测单元中定义

一般地，通过将ABEF(红色)中的值的和除以来自响应图的FECD(白色)中的值的和来获得

可以使用积分图像来有效地计算这个值。

1.3)边界框提议单元103

边界框提议单元103将预先提议的边界框和每个预先提议的边界框的人脸度得分看作输入，并输出边界框以及每个边界框的人脸度得分。

给定多个预先提议的边界框，其每一个均具有人脸度得分以指示该预先提议的边界框包括预定人脸部分的概率。在步骤s901，边界框提议单元操作103操作以针对每个人脸部分基于此人脸部分的人脸度得分来实施边界框非极大值抑制。边界框非极大值抑制的程序是通过以下步骤实现的：找到具有最大人脸度得分的窗口，然后移除具有大于预定义的重叠阈值的IOU(交集)的所有其他边界框。在边界框非极大值抑制之后，仅保留其人脸度得分高于预定义阈值的边界框。

然后，在步骤s902中，边界框提议单元103操作，以联合在步骤s901中所提议的所有边界框并将针对每个边界框的每个人脸部分的人脸度得分相加以获得最终的人脸度得分(即，每个人脸部分位于预先提议的边界框中的概率)。例如，针对每个所定义的人脸部分，边界框提议单元103实施非极大值抑制和取阈值，然后得到人脸部分的所提议的边界框。该过程将被应用于所有人脸部分。最终所提议的边界框是由所有人脸部分提议的边界框的联合体。

II人脸检测单元200

如上文中所论述，人脸提议单元100设计成实现对输入图像的人脸部分的精确定位，并利用它们的空间结构来推断人脸可能性。然后，基于这些人脸可能性来生成边界框提议。这些提议可包含人脸与背景，并且边界框也并非足够精确。因此，然后使用人脸检测单元200来验证这些提议是真实的人脸还是只是背景。也采用人脸检测单元200来获得具有更精确的位置(即，人脸或人脸部分在所生成的边界框提议中的精确位置)的边界框。

换句话说，人脸检测单元200与人脸提议单元100电通信或电联接到后者，并且设计成基于边界框和由边界框提议单元103生成的针对每个边界框的人脸度得分来给出对类别标签和其他指定的目标信息的预测。特别地，人脸检测单元200将基于由人脸提议单元100提议的边界框的经裁剪的RGB图像或RGBD图像看作其输入，并输出类别标签和其他指定的目标信息。

应注意，人脸检测单元200必须预测类别标签(即，人脸和非人脸)。就其他目标信息而言，其可以是人脸属性、人脸边界框坐标、人脸特征部位和其他目标信息。人脸检测单元200可以设有(例如)神经网络、支持向量机、随机森林、叠加和其他机制。

也应训练设在人脸检测单元200中的神经网络。为此，将输入一组预定的训练数据，每个训练数据用对应于指定的输出的对应实际情况标签进行了标记。如果使用网络来预测类别标签(即，人脸和非人脸)，则实际情况标签是指示输入图像中是否出现人脸的二进制向量；如果使用网络来预测类别标签和人脸边界框坐标，则实际情况标签是类别标签和人脸边界框坐标的集合。用于训练设在人脸检测单元200中的神经网络的过程可以与图3中所说明的过程相同。

一旦训练完成，人脸检测单元200就能够预测给定的数据样本的类别标签和其他指定的输出。例如，我们将由人脸提议单元100提议的边界框馈送入人脸检测预测单元200中。针对每个所提议的边界框，人脸检测单元200预测所提议的边界框是否包含人脸的置信度和在所提议的边界框中的人脸位置。人脸检测单元200首先移除具有低于阈值的置信度的一些所提议的边界框。然后，其在所提议的边界框中基于对人脸位置的预测来生成人脸检测预测，并通过以下步骤基于所提议的边界框的置信度来实施边界框非极大值抑制：找到具有最大相应置信度的窗口，然后移除具有大于预定义的重叠阈值的IOU(交集)的所有其他边界框。换句话说，所提议的边界框将根据它们相应的置信度降序布置，然后将移除其置信度与预定阈值重叠的这些所提议的边界框。

根据一个方面，还提供一种用于人脸部分及人脸检测的方法。如图10中所示，在步骤s1001，可实现对输入图像中的人脸部分的定位，并且在步骤s1002处可利用空间结构来推断每个部分的人脸可能性。在步骤s1003处，可基于这些人脸可能性来生成用于输入图像的边界框提议，其中所生成的边界框提议包括人脸和背景中的至少一者。步骤1001到1003可(例如)由如上文中所论述的人脸提议单元100来实施，且因此针对人脸提议单元100的详细论述也适用于这些步骤。

在步骤s1004处，验证所生成的边界框提议是包括真实的人脸还是只是背景，如果是，则步骤s1005可确定人脸在所生成的边界框提议中的位置。应注意，步骤s1004和1005可与如上文中所论述的用于人脸检测单元200的程序相同，且因此本文中省略其详细描述。

图11是说明根据本申请的另外的实施方案的用于人脸部分及人脸检测的方法的流程过程的示意图。如所示，在步骤s1101中，预测输入图像的目标人脸或目标人脸部分，以确定输入图像的每个像素属于输入图像的每个预定人脸部分的概率。在步骤s1102处，基于所确定的概率来生成多个预先提议的边界框、以及每个人脸部分位于预先提议的边界框中的概率。在步骤s1103处，将具有最高概率的预先提议的边界框确定为所述人脸部分的人脸提议；然后，在步骤s1104处，验证所生成的边界框提议是包括真实的人脸还是只是背景。如果是，则在步骤s1105处，确定人脸在所生成的边界框提议中的位置。由于用于人脸提议单元100的程序适用于步骤s1101到s1103并且用于人脸提议单元200的程序适用于步骤s1104到s1105，所以本文中省略这些步骤的详细描述。

如由本领域技术人员将了解，可将本发明体现为系统、方法或计算机程序产品。因此，本发明可采用完全硬件实施方案和硬件方面(本文中可将其一般都称为“单元”、“电路”、“模块”或“系统”)。发明性功能的大部分和许多发明性原理在实现时最佳由集成电路(IC)支持，诸如数字信号处理器及因此软件或专用IC。尽管有可能付出巨大努力并且许多设计选择受(例如)可用的时间、当前的技术和经济考虑因素的驱使，但仍期待普通技术人员在本文中公开的概念和原理的引导下将容易能够用最少的实验生成IC。因此，为了简洁性并将模糊根据本发明的原理和概念的任何风险降到最低，对此类软件和IC(如果有的话)的进一步论述将限于就由优选实施方案所使用的原理和概念而言的要素。

另外，本发明可采用完全软件实施方案(包括固件、常驻软件、微码等)或结合软件的实施方案。此外，本发明可采用体现在任何有形的表现媒体中的计算机程序产品的形式，所述表现媒体具有体现在该媒体中的计算机可用程序代码。图12说明了根据本申请的一个实施方案的用于人脸部分及人脸检测的系统3000，其中通过软件来实施本发明的功能。参考图12，系统3000包括：存储器3001，其存储可执行部件；以及处理器3002，其电联接到存储器3001来执行可执行部件，以执行系统3000的操作。这些可执行部件可包括：人脸提议部件3003，其用于实现对输入图像的人脸部分的精确定位、利用空间结构来推断每个部分的人脸可能性和基于这些人脸可能性来生成输入图像的边界框提议，其中所生成的边界框提议包括人脸和背景中的至少一者；以及人脸检测部件3004，其用于验证所生成的边界框提议是包括真实的人脸还是只是背景。如果所生成的边界框提议包括真实的人脸，则人脸检测部件3004进一步确定人脸在所生成的边界框提议中的位置。部件3003和3004的功能分别类似于单元100和200的功能，且因此本文中省略其详细描述。

虽然已描述了本发明的优选示例，但是本领域技术人员可以在知道基本发明性概念后即刻对这些示例作出变化或修改。所附权利要求旨在被视为包括优选示例并且所有变化或修改都落在本发明的范围内。

显然，本领域技术人员可以在不背离本发明的精神和范围的情况下对本发明作出变化或修改。因而，如果这些变化或修改属于权利要求和等效技术的范围，则它们也可落入本发明的范围中。

Claims

1.一种用于检测人脸及人脸部分的设备(1000)，包括：

人脸提议单元(100)，其利用人脸部分的空间结构来推断输入图像中的每个人脸部分的人脸可能性、并基于所述人脸可能性来生成所述输入图像的边界框提议；其中，所述输入图像的边界框提议为各个人脸部分提议的边界框的联合体；所述各个人脸部分提议的边界框由对应的所述各个人脸部分的具有最高概率的预先提议的边界框确定；所述概率为所述人脸部分位于预先提议的边界框中的概率；以及

人脸检测单元(200)，其与所述人脸提议单元电通信、并验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景；

其中所述人脸提议单元(100)进一步包括：

神经网络单元(101)，其接收所述输入图像并预测所述输入图像的目标人脸或人脸部分，以确定所述输入图像的每个像素属于相应预定人脸部分的概率；

人脸度测量单元(102)，其中所述人脸度测量单元(102)生成多个预先提议的边界框并划分所生成的预先提议的边界框，以及基于所划分的预先提议的边界框和所确定的概率来生成所述人脸部分位于预先提议的对应边界框中的概率；以及

边界框提议单元(103)，其将所述预先提议的边界框中的具有高于预定阈值的概率的边界框确定为用于所述人脸部分的人脸提议。

2.根据权利要求1所述的设备，其中如果验证出所生成的边界框提议中的至少一个包括真实的人脸，则所述人脸检测单元进一步确定所述人脸在所生成的每个边界框提议中的位置。

3.根据权利要求1所述的设备，其中所述神经网络单元(101)进一步用于：

生成目标预测，所述目标预测包括所述输入图像的所述预定人脸部分的一组人脸部分属性；以及

计算所述人脸部分属性中的至少之一存在于所述预定人脸部分中的概率。

4.根据权利要求1至3中任一项所述的设备，其中所述神经网络单元(101)设有多个卷积神经网络，以及

其中，对于每个所述预定人脸部分，所述多个卷积神经网络中的一个网络是通过将一组人脸属性用作监督信息来训练的。

5.根据权利要求4所述的设备，其中，所述输入图像被馈送入所述多个卷积神经网络中，并且每个所述卷积神经网络生成对应于特定人脸部分的响应图，以及

其中，所述神经网络单元(101)利用所述输入图像的所有响应图的每个像素的平均值或最大值生成每个人脸部分的响应图，以指示所述像素属于所述输入图像的每个预定人脸部分的概率。

6.根据权利要求1至3中任一项所述的设备，其中所述神经网络单元(101)设有一个卷积神经网络，所述卷积神经网络是经过预训练以预测所述输入图像是否落入以预定义尺度限定的人脸部分区域中。

7.根据权利要求1所述的设备，其中所述人脸检测单元(200)用于：

接收由所述人脸提议单元(100)提议的边界框；以及

针对所提议的每个边界框，预测所提议的边界框是否包含人脸的置信度以及预测所述人脸在所提议的边界框中的位置。

8.根据权利要求7所述的设备，其中所述人脸检测单元(200)进一步用于：

移除具有低于预定阈值的置信度的至少一个所提议的边界框；以及

在所提议的边界框中生成人脸检测预测，并基于剩余的所提议的边界框的置信度来实施边界框非极大值抑制。

9.根据权利要求1所述的设备，其中所述人脸度测量单元(102)进一步用于：

基于给定的预先提议的边界框，从预定人脸部分的给定相应图中裁剪出预定人脸部分的响应图；以及

计算为每个所述预定人脸部分裁剪出的每个所述响应图的人脸度得分。

10.根据权利要求9所述的设备，其中所述边界框提议单元(103)进一步用于：

从所计算的人脸度得分中找到具有最大人脸度得分的窗口；

移除具有大于预定义的重叠阈值的IOU的所有其他边界框；

联合所有被保留的边界框，并将被保留的每个边界框的每个人脸部分的人脸度得分相加以获得最终的人脸度得分，所述最终的人脸度得分指示每个人脸部分位于预先提议的对应边界框中的概率。

11.一种用于检测人脸部分及人脸的方法，包括：

获得人脸部分在输入图像中的位置；

基于所述位置，利用人脸部分的空间结构来推断每个所述人脸部分的人脸可能性；基于所述人脸可能性来生成所述输入图像的边界框提议；其中，所述输入图像的边界框提议为各个人脸部分提议的边界框的联合体；所述各个人脸部分提议的边界框由对应的所述各个人脸部分的具有最高概率的预先提议的边界框确定；所述概率为所述人脸部分位于预先提议的边界框中的概率；以及

验证所生成的边界框提议中的任一个提议是包括真实的人脸还是只是背景；

其中，所述基于所述位置，利用人脸部分的空间结构来推断每个所述人脸部分的人脸可能性；基于所述人脸可能性来生成所述输入图像的边界框提议，包括：

接收所述输入图像并预测所述输入图像的目标人脸或人脸部分，以确定所述输入图像的每个像素属于相应预定人脸部分的概率；生成多个预先提议的边界框并划分所生成的预先提议的边界框，以及基于所划分的预先提议的边界框和所确定的概率来生成所述人脸部分位于预先提议的对应边界框中的概率；将所述预先提议的边界框中的具有高于预定阈值的概率的边界框确定为用于所述人脸部分的人脸提议。

12.根据权利要求11所述的方法，其进一步包括：

如果验证出所生成的边界框提议的至少一个中包括所述真实的人脸，则确定所述人脸在所生成的边界框提议中的位置。

13.一种用于检测人脸部分及人脸的方法，包括：

预测输入图像的目标人脸或人脸部分，以确定所述输入图像的每个像素属于所述输入图像的每个预定人脸部分的概率；

生成多个预先提议的边界框并划分所生成的预先提议的边界框，以及基于所划分的预先提议的边界框和所确定的概率来生成每个所述预定人脸部分位于预先提议的对应边界框中的概率；

将具有高于所述预定阈值的概率的、预先提议的边界框确定为所述人脸部分的人脸提议；以及

验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景。

14.根据权利要求13所述的方法，其进一步包括：

如果验证出所生成的边界框提议中的至少一个包括所述真实的人脸，则确定所述人脸在所生成的边界框提议中的位置。

15.根据权利要求13到14中任一项所述的方法，在多个卷积神经网络中实施所述预测，

其中，所述输入图像被馈送入所述多个卷积神经网络中，并且每个所述卷积神经网络生成对应于特定人脸部分的响应图，并且

其中，利用所述输入图像的所有响应图的每个像素的平均值或最大值为每个人脸部分生成一个响应图，以指示所述像素属于所述输入图像的每个预定人脸部分的概率。

16.根据权利要求13到14中任一项所述的方法，在一个预训练过的卷积神经网络中实施所述预测，以预测所述输入图像是否落入以预定尺度限定的人脸部分区域中。

17.根据权利要求11到14中任一项所述的方法，其中所述生成进一步包括：

基于在所提议的边界框中对人脸位置的预测来生成人脸检测预测，并基于所提议的边界框的所述置信度来实施边界框非极大值抑制。

18.根据权利要求11到14中任一项所述的方法，其中所述生成进一步包括：

给定预定人脸部分的响应图和预先提议的边界框，基于每个预先提议的边界框来裁剪出所述预定人脸部分的响应图；以及

计算为每个人脸部分的裁剪出的每个响应图的人脸度得分。

19.根据权利要求18所述的方法，其进一步包括：

从所计算的人脸度得分中找到具有最大人脸度得分的窗口；

移除具有大于预定义的重叠阈值的IOU的所有其他边界框；以及

20.一种用于检测人脸部分及人脸的系统，包括：

存储器，其存储可执行部件；以及

处理器，其电联接到所述存储器来执行所述可执行部件以执行所述系统的操作，其中，所述可执行部件包括：

人脸提议部件，其用于利用人脸部分的空间结构来推断输入图像中的每个人脸部分的人脸可能性、并基于所述人脸可能性来生成所述输入图像的边界框提议；其中，所述输入图像的边界框提议为各个人脸部分提议的边界框的联合体；所述各个人脸部分提议的边界框由对应的所述各个人脸部分的具有最高概率的预先提议的边界框确定；所述概率为所述人脸部分位于预先提议的边界框中的概率；以及

人脸检测部件，其用于验证所生成的边界框提议中的任一提议是包括真实的人脸还是只是背景；

其中所述人脸提议部件进一步包括：

神经网络部件，其接收所述输入图像并预测所述输入图像的目标人脸或人脸部分，以确定所述输入图像的每个像素属于相应预定人脸部分的概率；

人脸度测量部件，其中所述人脸度测量部件生成多个预先提议的边界框并划分所生成的预先提议的边界框，以及基于所划分的预先提议的边界框和所确定的概率来生成所述人脸部分位于预先提议的对应边界框中的概率；以及

边界框提议部件，其将所述预先提议的边界框中的具有高于预定阈值的概率的边界框确定为用于所述人脸部分的人脸提议。

21.根据权利要求20所述的系统，其中，如果所生成的边界框提议中的至少之一包括所述真实的人脸，则所述人脸检测部件进一步确定所述人脸在所生成的边界框提议中的位置。