CN112613401A

CN112613401A - 一种人脸检测的方法、装置、电子设备及存储介质

Info

Publication number: CN112613401A
Application number: CN202011533108.9A
Authority: CN
Inventors: 杨帆; 马英楠
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-06

Abstract

本申请公开了一种人脸检测的方法、装置、电子设备及存储介质，具体包括：根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，第一特征图为单尺度的人脸分类概率特征图，第二特征图为单尺度的偏移量特征图；根据第一特征图从待检测人脸图像中确定出预测人脸框；根据第二特征图对预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。由于采用单尺度的卷积神经网络，其输出层仅输出单尺度的人脸分类概率特征图和单尺度的偏移量特征图，无需对多个尺度的特征进行融合，大大减少了计算量，从而加快人脸检测的效率。

Description

一种人脸检测的方法、装置、电子设备及存储介质

技术领域

本申请涉及人脸识别技术领域，尤其涉及一种人脸检测的方法、装置、电子设备及存储介质。

背景技术

在目前的人脸识别技术中，经常采用卷积神经网络(CNN，Convolutional NeuralNetworks)进行人脸检测。CNN是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。虽然CNN算法的具有非常稳定的检测效果，但是其计算量大，占有内存多。而在硬件条件有限的情况下，比如在移动端，采用普通的CNN算法就难以满足快速检测的需求。

发明内容

针对上述现有技术，本发明实施例公开一种人脸检测的方法，可以克服现有人脸检测技术计算量大，难以满足快速检测的需求。

鉴于此，本申请实施例提出一种人脸检测的方法，该方法包括：

根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图；

根据所述第一特征图从所述待检测人脸图像中确定出预测人脸框；

根据所述第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

进一步地，

所述根据单尺度卷积神经网络对待检测人脸图像进行处理的步骤之前，该方法进一步包括：

确定所述单尺度卷积神经网络，所述单尺度卷积神经网络包括五个卷积层和一个池化层，其中五个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，且由第三卷积层输出结果分别输入到第四卷积层和第五卷积层，由第四卷积层输出单尺度的人脸分类概率特征图，由第五卷积层输出单尺度的偏移量特征图。

进一步地，

所述根据第一特征图从所述待检测人脸图像中确定出预测人脸框的步骤包括：

根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图；

利用两次遍历连通成分标记算法(SAUF)对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，所述包围矩形框为包围所述连通子图的矩形框，并从中确定最大的包围矩形框；

将所述最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框。

进一步地，

所述根据第二特征图对所述预测人脸框进行修正处理的步骤包括：

确定所述预测人脸框左上角坐标为(x1，y1)，所述x1为预测人脸框左上角横坐标，所述y1为预测人脸框左上角纵坐标；

确定所述预测人脸框右下角坐标为(x2，y2)，所述x2为预测人脸框右下角横坐标，所述y2为预测人脸框右下角纵坐标；

计算所述预测人脸框左上角横坐标x1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角横坐标x1′；

计算所述预测人脸框左上角纵坐标y1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角纵坐标y1′；

计算所述预测人脸框右下角横坐标x2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角横坐标x2′；

计算所述预测人脸框右下角纵坐标y2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角纵坐标y2′；

确定所述修正后的人脸框左上角坐标为(x1′，y1′)，确定所述预测人脸框右下角坐标为(x2′，y2′)。

针对上述现有技术，本发明实施例公开一种人脸检测的装置，可以克服现有人脸检测技术计算量大，难以满足快速检测的需求。

一种人脸检测的装置，该装置包括：卷积处理单元、人脸框预测单元、人脸框修正单元；其中，

所述卷积处理单元，用于根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图；

所述人脸框预测单元，用于根据所述第一特征图从所述待检测人脸图像中确定出预测人脸框；

所述人脸框修正单元，用于根据所述第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

进一步地，

该装置进一步包括：训练单元；

所述训练单元，用于确定所述单尺度卷积神经网络，所述单尺度卷积神经网络包括五个卷积层和一个池化层，其中五个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，且由第三卷积层输出结果分别输入到第四卷积层和第五卷积层，由第四卷积层输出单尺度的人脸分类概率特征图，由第五卷积层输出单尺度的偏移量特征图。

进一步地，

所述人脸框预测单元包括：二值化处理单元、连通处理单元、映射单元；

所述二值化处理单元，用于根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图；

所述连通处理单元，利用两次遍历连通成分标记算法(SAUF)对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，所述包围矩形框为包围所述连通子图的矩形框，并从中确定最大的包围矩形框；

所述映射单元，用于将所述最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框。

进一步地，

所述人脸框修正单元包括：第一确定单元、修正计算单元、第二确定单元；其中，

第一确定单元，用于确定所述预测人脸框左上角坐标为(x1，y1)，所述x1为预测人脸框左上角横坐标，所述y1为预测人脸框左上角纵坐标；确定所述预测人脸框右下角坐标为(x2，y2)，所述x2为预测人脸框右下角横坐标，所述y2为预测人脸框右下角纵坐标；

修正计算单元，用于计算所述预测人脸框左上角横坐标x1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角横坐标x1′；计算所述预测人脸框左上角纵坐标y1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角纵坐标y1′；计算所述预测人脸框右下角横坐标x2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角横坐标x2′；计算所述预测人脸框右下角纵坐标y2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角纵坐标y2′；

第二确定单元，用于确定所述修正后的人脸框左上角坐标为(x1′，y1′)，确定所述预测人脸框右下角坐标为(x2′，y2′)，将修正后的人脸框作为人脸检测的结果。

本申请实施例还公开一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现上述实施例中人脸检测的方法的步骤。

本申请实施例还公开一种人脸检测的电子设备，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述方法实施例中人脸检测的方法。

综上所述，本申请实施例提供一种单尺度卷积神经网络，在对待检测人脸图像进行处理时可以仅输出单尺度的特征图，其包括单尺度的人脸分类概率特征图以及单尺度的偏移量特征图。由于本申请实施例中单尺度卷积神经网络无需针对多个尺度的特征进行融合等计算，因此可以大大减少计算量，提高人脸检测的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的实现人脸检测的方法实施例一的流程图。

图2是本申请提供的实现人脸检测的方法实施例二的流程图。

图3是本申请方法实施例二中卷积神经网络结构示例图。

图4是本申请提供的实现人脸检测的方法实施例三的流程图。

图5是本申请实施例三采用单尺度卷积神经网络对待检测人脸图像处理的过程示意图。

图6是本申请方法实施例三确定包围矩形框的示意图。

图7是本申请方法实施例三将最大的包围矩形框映射到待检测人脸图像中的示意图。

图8是本申请提供的实现人脸检测的装置实施例一的结构示意图。

图9是本申请提供的实现人脸检测的装置实施例二的结构示意图。

图10是本申请实施例提供了的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本申请实施例设计一种单尺度卷积神经网络，利用单尺度卷积神经网络对待检测人脸图像进行卷积处理，获得单尺度的人脸分类概率特征图和单尺度的偏移量特征图，此后利用单尺度的人脸分类概率特征图和单尺度的偏移量特征图进行处理，获得人脸检测结果。由于单尺度的计算量小，从而可以大大降低人脸检测的复杂度，提高检测效率。

图1是本申请提供的实现人脸检测的方法实施例一的流程图。如图1所示，该方法包括：

步骤101：根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图。

卷积神经网络(CNN，Convolutional Neural Networks)分为输入层、隐藏层和输出层。其中，输入层用于接收待检测人脸图像；隐藏层用于具体的卷积处理，通常包括卷积层和池化层等；输出层用于输出针对待检测人脸图像相关的分类概率、坐标或者大小等信息。通常而言，用于人脸检测的卷积神经网络在输出层会输出多个尺度的人脸分类概率特征图，并将多个不同尺度的人脸分类概率特征图全部串联起来，获得最终的多尺度融合特征，其计算量比较大。本申请实施例为了减少计算量，在本步骤使用了单尺度卷积神经网络。所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，即在输出层仅输出一个尺度的人脸分类概率特征图的卷积神经网络。为了进一步准确地检测出人脸框，输出层还同时输出单尺度的偏移量特征图。其中，单尺度的人脸分类概率特征图中的值表示待测人脸图像相应位置为人脸的概率，单尺度的偏移量特征图中的值表示待测人脸图像相应位置需要修正的偏移量。另外，由于本申请实施例的人脸分类概率特征图是单尺度的，如果没有特殊说明，本申请方案以下各实施例中描述的“人脸分类概率特征图”可以理解为单尺度的，其含义与“单尺度的人脸分类概率特征图”相同。同样，“偏移量特征图”的含义与“单尺度的偏移量特征图”相同。

需要说明的是，由于本申请实施例中的卷积神经网络在输出层仅输出一个尺度的人脸分类概率特征图，以及输出一个尺度的偏移量特征图，为了与现有技术中其他用于人脸检测的卷积神经网络区分，本申请实施例中的卷积神经网络称为“单尺度卷积神经网络”。

步骤102：根据第一特征图从所述待检测人脸图像中确定出预测人脸框。

由于第一特征图为单尺度的人脸分类概率特征图，其特征图中的值是待测人脸图像相应位置处人脸的概率，因此可以利用第一特征图中的值与预设的人脸分类概率阈值比较，在待检测人脸图像中确定出预测人脸框。预测人脸框是一种包围人脸部分的矩形框，为了与后续的修正后的人脸框区分，此处称为“预测人脸框”。

步骤103：根据第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

如前所述，本申请实施例中的单尺度卷积神经网络不但可以输出单尺度的人脸分类概率特征图，还输出了单尺度的偏移量特征图。其中，偏移量特征图中的值表示待测人脸图像相应位置需要修正的偏移量，那么在本步骤103根据偏移量特征图中的偏移量值，可以将步骤102中待检测人脸图像中的预测人脸框进行偏移处理，达到修正的目的。修正后的人脸框就是本申请方法实施例一检测到人脸的结果。

应用本申请方法实施例一，由于采用单尺度的卷积神经网络，其输出层仅输出单尺度的人脸分类概率特征图和单尺度的偏移量特征图，无需对多个尺度的特征进行融合，大大减少了计算量，从而加快人脸检测的效率。

为了更好地说明本申请方案，下面再对较佳的实施例进行详细描述。

图2是本申请提供的实现人脸检测的方法实施例二的流程图。如图2所示，该方法包括：

步骤201：确定所述单尺度卷积神经网络，所述单尺度卷积神经网络包括五个卷积层和一个池化层，其中五个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，且由第三卷积层输出结果分别输入到第四卷积层和第五卷积层，由第四卷积层输出单尺度的人脸分类概率特征图，由第五卷积层输出单尺度的偏移量特征图。

实际应用中，在利用单尺度卷积神经网络对待检测人脸图像进行处理之前，通常需要设计和训练该单尺度卷积神经网络。图3是本申请方法实施例二设计的单尺度卷积神经网络结构示意图。如图3所示，本申请实施例二中的单尺度卷积神经网络包括五个卷积层和一个池化层。其中，第一卷积层Conv1进行卷积之后传输给池化层Max-pooling1，第一池化层Max-pooling1进行特征选择等处理后传输给第二卷积层Conv2，第二卷积层Conv2进行卷积之后传输给第三卷积层Conv3，第三卷积层Conv3进行卷积之后分别传输给第四卷积层Conv4和第五卷积层Conv5。第四卷积层Conv4输出人脸分类概率特征图，包含2个通道，其中一个通道C[0]为不属于人脸的分类概率，另外一个通道C[1]为属于人脸分类概率。第五卷积层Conv5包含4个通道，分别标记为B[0]、B[1]、B[2]、B[3]，表示输出的偏移量特征图。其中，偏移量特征图B[0]中每个特征值表示待检测人脸图像相应位置对于人脸框左上角横坐标的偏移量；偏移量特征图B[1]中每个特征值表示待检测人脸图像相应位置对于人脸框左上角纵坐标的偏移量；偏移量特征图B[2]中每个特征值表示待检测人脸图像相应位置对于人脸框右下角横坐标的偏移量；偏移量特征图B[3]中每个特征值表示待检测人脸图像相应位置对于人脸框右下角纵坐标的偏移量。

实际应用中，也可以采用其他结构的卷积神经网络，只要输出层输出单尺度的单尺度的人脸分类概率特征图以及单尺度的偏移量特征图即可。图3所示的卷积神经网络结构仅用于便于理解的示例，并不作为本申请方案的保护范围的限定。

步骤202：根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图。

本步骤与方法实施例一的步骤101相同。

假设仍然以图3所示的单尺度卷积神经网络为例，本步骤将待检测人脸图像输入该神经网络，将获得从第四卷积层Conv4的通道C[0]和C[1]输出的人脸分类概率特征图(即第一特征图)，同时获得第五卷积层Conv5的通道B[0]～B[3]输出的偏移量特征图(即第二特征图)。

本申请实施例二下述的步骤203～步骤205是在待检测人脸图像中确定出预测人脸框的方法。具体地：

步骤203：根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图。

由于第一特征图是第四卷积层Conv4通道输出的人脸分类概率特征图，其中C[1]的每一个值是待测人脸图像相应位置处人脸的概率。假设待检测人脸图像中坐标为(m1,n1)、(m2,n2)、(m3,n3)、(m3,n3)的区域K1对应第一特征图中坐标为(a1,b1)位置，那么，第一特征图中坐标为(a1,b1)位置处的值r1就表示待检测人脸图像中区域K1属于人脸的概率。将概率r1与预设的人脸分类概率阈值R进行比较，如果大于或等于R，标记为1；否则标记为0。按照这种方式对第一特征图中所有的概率值进行处理后，可以得到一幅仅包含0和1两种值的人脸概率二值图。可以理解，如果显示该人脸概率二值图，该人脸概率二值图中判断为属于人脸部位将呈现白色，不属于人脸部位将呈现黑色。

步骤204：利用两次遍历连通成分标记算法(SAUF)对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，所述包围矩形框为包围所述连通子图的矩形框，并从中确定最大的包围矩形框。

上述步骤203生成的人脸概率二值图仅仅确定出每一个对应位置处属于人脸或不属于人脸，未能确定人脸区域，因此本步骤204采用SAUF算法从中确定连通子图，连通子图可以认为是人脸区域。SAUF算法是图像处理技术中搜索连通区域的一种方法，通常用于图像分割。本申请方法实施例二中，将SAUF算法应用于人脸概率二值图中，检测出连通子图以及对应的包围矩形框。

实际应用中，由于待检测人脸图像本身的特点，比如被检测人脸的背景中可能存在其他人脸或者类似人脸的物体等干扰信息，因此这些干扰信息在步骤203中有可能被判断为属于人脸，从而得到多个连通子图以及对应的包围矩形框。为排除干扰信息，本步骤从多个包围矩形框中仅取其中最大的包围矩形框。

步骤205：将所述最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框。

实际应用中，可以根据最大包围矩形框对应的坐标位置，在待检测人脸图像中确定相应的坐标位置，从而在待检测人脸图像中确定出预测人脸框。

另外，现有的人脸检测方法中，通常是将第一特征图中所有概率值全部映射到待检测人脸图像中，生成若干人脸框，其计算量比较大。而本实施例中，步骤203～步骤205先后采用了二值化、SAUF算法以及最大包围矩形框映射等方式，直接在人脸概率二值图上生成最大的包围矩形框，且仅在待检测人脸图像中映射一次，从而进一步减少人脸检测的计算量。

步骤206：根据所述第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

本步骤与方法实施例中的步骤103相同。

仍然以图3所示的单尺度卷积神经网络为例，假设步骤205确定出的人脸框F的左上角坐标为(x1,y1)，右下角坐标为(x2,y2)，第五卷积层Conv5的4个通道输出偏移量特征图为B[0]～B[3]。作为一种示例，本申请实施例的修正方式表示为：

a、确定所述预测人脸框左上角坐标为(x1，y1)，所述x1为预测人脸框左上角横坐标，所述y1为预测人脸框左上角纵坐标；确定所述预测人脸框右下角坐标为(x2，y2)，所述x2为预测人脸框右下角横坐标，所述y2为预测人脸框右下角纵坐标。

b、计算所述预测人脸框左上角横坐标x1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角横坐标x1′。

c、计算所述预测人脸框左上角纵坐标y1与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角纵坐标y1′。

d、计算所述预测人脸框右下角横坐标x2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角横坐标x2′。

e、计算所述预测人脸框右下角纵坐标y2与所述第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角纵坐标y2′。

f、确定所述修正后的人脸框左上角坐标为(x1′，y1′)，确定所述预测人脸框右下角坐标为(x2′，y2′)。

上述修改方法可以采用如下公式表示：

F′＝[x1+B[0][x1,y1],y1+B[1][x1,y1],x2+B[2][x2,y2],x1+B[3][x2,y2]] 公式1

其中，x1表示预测人脸框左上角横坐标，y1表示预测人脸框左上角纵坐标，x2表示预测人脸框右下角横坐标，y2表示预测人脸框右下角纵坐标。B[0][x1,y1]表示偏移量特征图B[0]中坐标[x1,y1]处的值，B[1][x1,y1]表示偏移量特征图B[1]中坐标[x1,y1]处的值，B[2][x2,y2]表示偏移量特征图B[2]中坐标[x2,y2]处的值，B[3][x2,y2]表示偏移量特征图B[3]中坐标[x2,y2]处的值。经过上述公式的计算，可以获得修正后的人脸框F′的左上角和右下角的坐标，从而确定人脸框F′。

下面再利用本申请方法实施例三进一步说明。图4是本申请提供的实现人脸检测的方法实施例三的流程图。如图4所示，该方法包括：

步骤401：确定所述单尺度卷积神经网络，所述单尺度卷积神经网络包括五个卷积层和一个池化层，其中五个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，且由第三卷积层输出结果分别输入到第四卷积层和第五卷积层，由第四卷积层输出单尺度的人脸分类概率特征图，由第五卷积层输出单尺度的偏移量特征图。

本步骤与方法实施例二中的步骤201相同。在本申请方法实施例三中，仍然利用图3所示的单尺度卷积神经网络。其中，第一卷积层Conv1采用3*3的卷积核，滑动窗口为1，通道数为10；第一池化层Max-pooling1采用2*2的卷积核，滑动窗口为2；第二卷积层Conv2采用3*3的卷积核，滑动窗口为1，通道数为16；第三卷积层Conv3采用3*3的卷积核，滑动窗口为1，通道数为32；第四卷积层Conv4采用1*1的卷积核，滑动窗口为1，通道数为2；第五卷积层Conv5采用1*1的卷积核，滑动窗口为1，通道数为4。输出层包括第四卷积层Conv4和第五卷积层Conv5。其中，第四卷积层Conv4的通道数为2，其中一个为属于人脸分类概率，另外一个为不属于人脸分类概率。实际应用中，可以仅采用C[1]实现人脸检测，另一个不属于人脸分类概率特征图C[0]可以不输出或者丢弃。由于本申请实施例设计的卷积神经网络仅在第四卷积层Conv4输出一个尺度的人脸分类概率特征图，没有其他尺度的人脸分类概率特征图，因此为单尺度的人脸分类概率特征图。另外，第五卷积层Conv5的通道数为4，分别为B[0]、B[1]、B[2]、B[3]，也是单尺度的偏移量特征图。实际应用中，卷积核、滑动窗口以及通道数也可以采用其他大小，由应用本申请实施例方案的用户根据情况自行确定。

本申请方法实施例三中的单尺度卷积神经网络CNN还可以采用如下公式表示：

C＝CNN1(x) 公式2

B＝CNN2(x) 公式3

其中，x表示待检测人脸图像的像素值数组，数组大小为(H，W，3)，H表示图像的高度，W表示图像宽度，3表示像素RGB的3个分量，C表示输出的单尺度的人脸分类概率特征图，B表示单尺度的偏移量特征图。

具体的：

CNN1(x)＝Conv4(Conv3(Conv2(MP1(Conv1(x))))) 公式4

CNN1(x)＝Conv5(Conv3(Conv2(MP1(Conv1(x))))) 公式5

其中，公式4表示待检测人脸图像依次经过第一卷积层Conv1、第一池化层Max-pooling1、第二卷积层Conv2、第三卷积层Conv3和第四卷积层Conv4，输出单尺度的人脸分类概率特征图C。公式5表示待检测人脸图像依次经过第一卷积层Conv1、第一池化层Max-pooling1、第二卷积层Conv2、第三卷积层Conv3和第四卷积层Conv5，输出单尺度的偏移量特征图B。

作为本方法实施例三的比较示例，一个包括n个尺度的卷积神经网络CNN的公式6可以表示为：

C′＝D(Conv4(Conv3(Conv2(MP1(Conv1(x))))),U(Conv4-1(Conv4(Conv3(Conv2(MP1(Conv1(x))))))),U(Conv4-2(Conv4-1(Conv4(Conv3(Conv2(MP1(Conv1(x)))))))),…U(Conv4-n-1(Conv4-1(Conv4(Conv3(Conv2(MP1(Conv1(x))))))))

其中，第一卷积层Conv1、第一池化层Max-pooling1、第二卷积层Conv2、第三卷积层Conv3和第四卷积层Conv4与本申请实施例中的相同，Conv4-1、Conv4-2…Conv4-n-1表示其他n-1个尺度的卷积层，U表示上采样，n为自然数，D为多个尺度的人脸分类概率特征图。可见，本申请方法实施例三中的单尺度卷积神经网络CNN将大大减少计算量。

步骤402：根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图。

本步骤与方法实施例二中的步骤202相同。

图5是本申请实施例三采用单尺度卷积神经网络对待检测人脸图像处理的过程示意图。如图5所示，假设待检测人脸图像为150*150像素图像，将其输入设计的单尺度卷积神经网络之后，输出两个单尺度特征图。其中，一个尺寸为70*70*2的单尺度的人脸分类概率特征图C[0]和C[1](即第一特征图)，另一个尺寸为70*70*4的单尺度的偏移量特征图B[0]～B[3](即第二特征图)。

步骤403：根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图。

本步骤与方法实施例二中的步骤203相同。

步骤404：利用SAUF对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，所述包围矩形框为包围所述连通子图的矩形框，并从中确定最大的包围矩形框。

本步骤与方法实施例二中的步骤404相同。

图6是本申请方法实施例三确定包围矩形框的示意图。如图6所示，第一特征图进行二值化和SAUF算法处理后，将获得若干包围矩形框G₁、G₂…G_N等，并确定其中最大的包围矩形框G1。

步骤405：将所述最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框。

本步骤与方法实施例二中的步骤205相同。图7是本申请方法实施例三将最大的包围矩形框映射到待检测人脸图像中的示意图。如图7所示，由于步骤404已经在人脸概率二值图中确定出最大的包围矩形框G1，将G1映射到待检测人脸图像中，从而确定出预测人脸框。

步骤406：根据所述第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

本步骤与方法实施例二中的步骤206相同。

应用本申请方法实施例三，由于采用单尺度卷积神经网络输出单尺度的人脸分类概率特征图以及单尺度的偏移量特征图，并不输出多尺度特征图，可以大大减少计算量。另外，由于采用了二值化、SAUF算法以及最大包围矩形框映射等方式，直接在人脸概率二值图上生成最大的包围矩形框，且仅在待检测人脸图像中映射一次，从而进一步减少人脸检测的计算量，本申请实施例方案尤其适合在硬件条件限制的情况下(比如移动端)使用。

本申请还提供一种人脸检测的装置。图8是本申请装置实施例一的结构示意图。如图8所示，该装置包括卷积处理单元801、人脸框预测单元802、人脸框修正单元803。其中：

卷积处理单元801，用于根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图，所述单尺度卷积神经网络是输出单尺度特征图的卷积神经网络，所述第一特征图为单尺度的人脸分类概率特征图，所述第二特征图为单尺度的偏移量特征图；

人脸框预测单元802，用于根据所述第一特征图从所述待检测人脸图像中确定出预测人脸框；

人脸框修正单元803，用于根据所述第二特征图对所述预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

也就是说，卷积处理单元801根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图；人脸框预测单元802根据第一特征图从待检测人脸图像中确定出预测人脸框；人脸框修正单元803根据第二特征图对预测人脸框进行修正处理，将修正后的人脸框作为人脸检测的结果。

应用本申请装置实施例一，由于采用单尺度的卷积神经网络，其输出层仅输出单尺度的人脸分类概率特征图和单尺度的偏移量特征图，无需对多个尺度的特征进行融合，大大减少了计算量，从而加快人脸检测的效率。

图9是本申请装置实施例二的结构示意图。如图9所示，该装置包括：卷积处理单元801、人脸框预测单元802、人脸框修正单元803，还包括训练单元804。

训练单元804，用于确定所述单尺度卷积神经网络，所述单尺度卷积神经网络包括五个卷积层和一个池化层，其中五个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层，且由第三卷积层输出结果分别输入到第四卷积层和第五卷积层，由第四卷积层输出单尺度的人脸分类概率特征图，由第五卷积层输出单尺度的偏移量特征图。

在另一较佳实施例中，在图9所示的装置结构基础上，人脸框预测单元802包括：二值化处理单元8021、连通处理单元8022、映射单元8023；其中：

二值化处理单元8021，用于根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图。

连通处理单元8022，利用SAUF算法对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，所述包围矩形框为包围所述连通子图的矩形框，并从中确定最大的包围矩形框。

映射单元8023，用于将最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框。

由于二值化处理单元8021、连通处理单元8022和映射单元8023先后采用了二值化、SAUF算法以及最大包围矩形框映射等方式，直接在人脸概率二值图上生成最大的包围矩形框，且仅在待检测人脸图像中映射一次，从而进一步减少人脸检测的计算量。

在另一较佳实施例中，在图9所示的装置结构基础上，人脸框修正单元803包括：第一确定单元8031、修正计算单元8032、第二确定单元8033；其中：

第一确定单元8031，用于确定预测人脸框左上角坐标为(x1，y1)，所述x1为预测人脸框左上角横坐标，所述y1为预测人脸框左上角纵坐标；确定所述预测人脸框右下角坐标为(x2，y2)，所述x2为预测人脸框右下角横坐标，所述y2为预测人脸框右下角纵坐标。

修正计算单元8032，用于计算预测人脸框左上角横坐标x1与第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角横坐标x1′；计算预测人脸框左上角纵坐标y1与第二特征图相应位置上的偏移量之和，作为修正后的人脸框左上角纵坐标y1′；计算预测人脸框右下角横坐标x2与第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角横坐标x2′；计算预测人脸框右下角纵坐标y2与第二特征图相应位置上的偏移量之和，作为修正后的人脸框右下角纵坐标y2′。

第二确定单元8033，用于确定修正后的人脸框左上角坐标为(x1′，y1′)，确定预测人脸框右下角坐标为(x2′，y2′)，将修正后的人脸框作为人脸检测的结果。

也就是说，训练单元804确定单尺度卷积神经网络；卷积处理单元801根据单尺度卷积神经网络对待检测人脸图像进行处理，获得第一特征图和第二特征图；二值化处理单元8021根据预设的人脸分类概率阈值对所述第一特征图进行二值化处理，获得人脸概率二值图；连通处理单元8022利用SAUF算法对所述人脸概率二值图进行处理，获得全部连通子图以及对应的包围矩形框，并从中确定最大的包围矩形框；映射单元8023将最大的包围矩形框映射到所述待检测人脸图像中，确定出所述预测人脸框；第一确定单元8031确定预测人脸框左上角和右下角坐标；修正计算单元8032利用第二特征图对预测人脸框进行修正；第二确定单元8033将修正后的人脸框作为人脸检测的结果。

申请实施例还提供一种计算机可读介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述的人脸检测的方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施例描述的人脸检测的方法。根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图10所示，本发明实施例还提供一种电子设备，其中可以集成本申请实施例实现方法的装置。如图10所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器1002的程序时，可以实现上述各人脸检测方法实施例中的步骤。

具体的，实际应用中，该电子设备还可以包括电源1003、输入单元1004、以及输出单元1005等部件。本领域技术人员可以理解，图10中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器1002可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

该电子设备还包括给各个部件供电的电源1003，可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可以包括输出单元1005，该输出单元1005可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种人脸检测的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据单尺度卷积神经网络对待检测人脸图像进行处理的步骤之前，该方法进一步包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据第一特征图从所述待检测人脸图像中确定出预测人脸框的步骤包括：

4.根据权利要求1或2所述的方法，其特征在于，所述根据第二特征图对所述预测人脸框进行修正处理的步骤包括：

5.一种人脸检测的装置，其特征在于，该装置包括：卷积处理单元、人脸框预测单元、人脸框修正单元；其中，

6.根据权利要求5所述的装置，其特征在于，该装置进一步包括：训练单元；

7.根据权利要求5或6所述的装置，其特征在于，所述人脸框预测单元包括：二值化处理单元、连通处理单元、映射单元；

8.根据权利要求5或6所述的装置，其特征在于，所述人脸框修正单元包括：第一确定单元、修正计算单元、第二确定单元；其中，

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1～4任一项所述的人脸检测的方法的步骤。

10.一种人脸检测的电子设备，其特征在于，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1～4任一项所述的人脸检测的方法。