CN108537208A

CN108537208A - 一种多尺度的人脸检测方法及计算设备

Info

Publication number: CN108537208A
Application number: CN201810375293.XA
Authority: CN
Inventors: 刘志辉; 许清泉; 洪炜冬; 王喆; 关明鑫
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-09-14

Abstract

本发明公开了一种多尺度的人脸检测方法以及用于执行该方法的计算设备。其中，方法包括步骤：将第一尺度的图像输入预设卷积网络，经卷积处理后生成第一尺度的人脸预测区域和第二尺度的待检测区域；从第二尺度的图像中裁剪出第二尺度的待检测区域的图像，并将该裁剪出的图像输入预设卷积网络，经卷积处理后生成第二尺度的人脸预测区域和第三尺度的待检测区域；从第三尺度的图像中裁剪出第三尺度的待检测区域的图像，并将该裁剪出的图像输入预设卷积网络，经卷积处理后生成第三尺度的人脸预测区域；结合第一尺度的人脸预测区域、第二尺度的人脸预测区域和第三尺度的人脸预测区域得到人脸检测结果。

Description

一种多尺度的人脸检测方法及计算设备

技术领域

本发明涉及图像处理技术领域，尤其是一种多尺度的人脸检测方法及计算设备。

背景技术

人脸检测是指对于任意一帧给定的图像，采用一定的策略对其进行搜索以确定其中是否含有人脸，若含有人脸则返回人脸的位置、大小和姿态，一般地，以一个矩形框来框住人脸以表征检测到的人脸。然而，在实际应用中，常常要面临不同的场景变化、遮挡、光照变化以及人脸尺度变化等诸多复杂条件，使得人脸检测的速度相对较慢。尤其是当需要在移动终端上实现实时检测时，人脸检测的难度很大。

为检测不同尺度下的人脸，通常采用将图像进行多个尺度的缩放，在每个尺度下单独检测人脸得到该尺度下的检测结果，最终融合不同尺度下的检测结果。这种多个尺度的计算量是很大的，尤其是针对图像中人脸很小的情况(简称“小人脸”)，需要将输入图像的尺寸设置得大一些，但这会增加计算耗时。随着神经网络技术的发展，越来越多的算法利用卷积神经网络来进行人脸检测，在这种情况下，将上述人脸检测方案应用到卷积神经网络时，随着输入图像的增加，检测时间会呈指数增长，计算相当耗时。同时，在很多应用场景中，实际上图像包含的小人脸较少，为了检测可能不存在的小人脸，对全图进行检测，为此消耗计算量是非常不可取的。

鉴于此，需要一种快速的人脸检测方案。

发明内容

为此，本发明提供了一种多尺度的人脸检测方法及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种多尺度的人脸检测方法，该方法适于在计算设备中执行，包括步骤：将第一尺度的图像输入预设卷积网络，经卷积处理后生成第一尺度的人脸预测区域和第二尺度的待检测区域；从第二尺度的图像中裁剪出所述第二尺度的待检测区域的图像，并将该裁剪出的图像输入预设卷积网络，经卷积处理后生成第二尺度的人脸预测区域和第三尺度的待检测区域；从第三尺度的图像中裁剪出第三尺度的待检测区域的图像，并将该裁剪出的图像输入预设卷积网络，经卷积处理后生成第三尺度的人脸预测区域；以及结合第一尺度的人脸预测区域、第二尺度的人脸预测区域和第三尺度的人脸预测区域得到人脸检测结果。

可选地，在根据本发明的方法中，在将第一图像输入预设卷积网络的步骤之前，还包括步骤：对待检测人脸的图像进行不同比例的缩放处理，以分别生成第一尺度的图像、第二尺度的图像和第三尺度的图像，其中，第一尺度的图像的分辨率小于第二尺度的图像的分辨率，且第二尺度的图像的分辨率小于第三尺度的图像的分辨率。

可选地，在根据本发明的方法中，预设卷积网络包括：至少一个第一卷积层、第二卷积层和第三卷积层，其中第二卷积层适于通过多个不同尺度的卷积核进行卷积处理，并将多个卷积核的卷积结果相连接，作为该第二卷积层的输出结果。

可选地，在根据本发明的方法中，预设卷积网络适于对当前尺度的图像做卷积处理，输出三个预测响应图，预测响应图中每个像素点的响应值指示该像素点属于人脸的概率。

可选地，在根据本发明的方法中，预设卷积网络还适于根据第一个预测响应图上的响应值输出当前尺度的人脸预测区域的坐标，得到当前尺度的人脸预测区域，以及根据第二个预测响应图和第三个预测响应图上的响应值输出当前尺度的下一尺度的待检测区域的坐标，得到下一尺度的待检测区域。

可选地，在根据本发明的方法中，根据第一个预测响应图上的响应值输出当前尺度的人脸预测区域的坐标、得到当前尺度的人脸预测区域的步骤包括：当第一个预测响应图上的响应值大于0.5时，计算该响应值对应像素点的人脸预测框的坐标，得到至少一个当前尺度的人脸预测区域。

可选地，在根据本发明的方法中，根据第二个预测响应图和第三个预测响应图上的响应值输出当前尺度的下一尺度的待检测区域的坐标、得到下一尺度的待检测区域的步骤包括：当第二个预测响应图上的响应值大于0.3时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；当第三个预测响应图上的响应值大于0.1时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；以及对所有的有效输出区域进行非极大值抑制，得到下一尺度的待检测区域。

可选地，在根据本发明的方法中，预设卷积网络还适于在第二个预测响应图或第三个预测响应图上的响应值大于0.9时，计算该响应值对应像素点的人脸预测框的坐标，得到当前尺度的人脸预测区域。

可选地，在根据本发明的方法中，预设卷积网络包括一个第一卷积层、四个第二卷积层和一个第三卷积层。

可选地，在根据本发明的方法中，还包括通过训练图像训练得到预设卷积网络的步骤。

可选地，在根据本发明的方法中，通过训练图像训练得到预设卷积网络的步骤还包括生成训练图像的步骤：将采集的图像分别缩放成对应第一尺度、第二尺度和第三尺度的图像分辨率的图像，作为训练样本；标注出训练样本中的人脸区域；根据人脸区域的大小将人脸区域分为大人脸、中人脸和小人脸；以及按照大人脸、中人脸和小人脸的样本数量比例对训练样本进行切割、增益处理，生成训练图像。

可选地，在根据本发明的方法中，大人脸、中人脸和小人脸的样本数量比例为2:2:1。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的方案，分三个尺度对待检测人脸的图像进行人脸检测，三个尺度对应不同的图像分辨率大小，分别用来检测图像中不同大小的人脸。具体地，在第一尺度下检测出大人脸区域和可能存在的中人脸区域；再将可能存在的中人脸区域放大，以在第二尺度下检测出中人脸区域、以及可能存在的小人脸区域；再将可能存在的小人脸区域放大，以在第三尺度下检测出小人脸区域。通过多层的重复操作，可以得到由粗到精的检测结果。

另外，由于中人脸和小人脸对应的图像尺度比较大，检测比较耗时，因此在第二尺度和第三尺度的图像的检测中，只检测图像中可能存在人脸的区域，即只对通过上一尺度的检测得到的待检测区域进行检测，这就极大地提升了检测效率。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的多尺度的人脸检测方法200的流程图；

图3示出了根据本发明一个实施例的预设卷积网络300的结构示意图；

图4示出了根据本发明一个实施例的第二卷积层320的结构示意图；

图5示出了根据本发明一个实施例的有效输出区域的示意图；以及

图6示出了根据本发明一个实施例的多尺度的人脸检测方法200的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行多尺度的人脸检测方法200，程序数据124中就包含了用于执行该方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本方案中，可以通过摄像头之类的图像输入设备实时获取待检测人脸的图像，当然，也可以通过通信设备146获取待检测人脸的图像，本发明的实施例对此不作限制。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令，如根据本发明的实施例，计算设备100通过所述指令来执行多尺度的人脸检测方法。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。根据本发明的一种实现方式，计算设备100布置为具有上述配置和功能的移动设备。

图2示出了根据本发明一个实施例的多尺度的人脸检测方法200的流程图。以下将结合图2，详细阐述根据本发明实施例的多尺度的人脸检测方法200的流程。概括来说，方法200将待检测人脸的图像缩放到不同的尺度，然后对不同尺度的图像分别进行检测，再将检测结果结合得到最终的人脸检测结果。

如图2所示，方法200始于步骤S210。在步骤S210之前，方法200还包括对待检测人脸的图像进行预处理的步骤。具体地，对待检测人脸的图像进行不同比例的缩放处理，以分别生成第一尺度的图像、第二尺度的图像和第三尺度的图像。其中，第一尺度的图像的分辨率小于第二尺度的图像的分辨率，且第二尺度的图像的分辨率小于第三尺度的图像的分辨率。第一尺度的图像、第二尺度的图像和第三尺度的图像分别用于检测图像中较大的人脸(简称“大人脸”)、一般大小的人脸(简称“中人脸”)和较小的人脸(简称“小人脸”)。

根据本发明的一个实施例，第一尺度的图像的分辨率设为80×120，第二尺度的图像的分辨率设为160×240，第三尺度的图像的分辨率设为320×480。

然后在步骤S210中，将第一尺度的图像输入预设卷积网络，经卷积处理后生成该尺度的人脸预测区域和第二尺度的待检测区域。

根据一种实现方式，预设卷积网络包括：至少一个第一卷积层、第二卷积层和第三卷积层。图3示出了根据本发明一个实施例的预设卷积网络300的结构示意图，如图3所示，预设卷积网络300共5层，依次是：1个第一卷积层310、4个第二卷积层320和1个第三卷积层330。其中，第一卷积层310中采用3×3的卷积核；每个第二卷积层320中，通过多个不同尺度的卷积核进行卷积处理，并将多个卷积核的卷积结果相连接，作为该第二卷积层320的输出结果；第三卷积层330中采用1×1的卷积核，连接经第四个第二卷积层320输出的结果。可选地，卷积层之间通过一个卷积核为3×3，卷积步长(stride)为2的卷积核进行降尺度。需要说明的是，预设卷积网络200中的卷积层还可以包含池化步骤(如采用最大值池化的方式)、还可以在卷积操作后加入激活函数(如采用ReLU激活函数)，由于池化、激活均属于神经网络的常见处理，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

图4示出了根据本发明一个实施例的第二卷积层320的一个结构示意图。如图4所示，第二卷积层320分为3个分支，自左向右依次为：

第一个分支：conv1×1，

第二个分支：conv1×1、conv3×3，

第三个分支：conv1×1、conv3×3、conv3×3，

最后，3个分支的卷积结果经连接后再通过一个conv1×1的卷积进行信息融合。

其中，conv1×1表示1×1的卷积核，conv3×3表示3×3的卷积核。3×3的卷积层采用分组卷积来进行加速，每个组的特征图(feature map)数目为4。同样，在每个卷积处理中，还包括激活函数(在根据本发明的一个实施例中，采用ReLU激活函数)，此处不作赘述。如表1示出了根据本发明一个实施例的每个第二卷积层320中3个分支卷积后输出的特征图(feature map)的数目，其中，以Block1、Block2、Block3和Block4分别表示预设卷积网络300中依次连接的4个第二卷积层320。

表1各第二卷积层中的feature map数目

采用本发明的第二卷积层320的预设卷积网络300既提高了网络性能又不大量增加计算量。当然，根据本发明的另一些实施例，第二卷积层320也可以采用其他Inceptionmodule结构，以降低卷积计算量，本发明的实施例仅是示出了第二卷积层的一种形式，所有这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内。

根据本发明的实施方式，将第一尺度的图像输入预设卷积网络300，预设卷积网络300对第一尺度的图像做卷积处理，最后输出三个预测响应图。预测响应图是一张和原图输入位置对应的概率图，其中每个像素点的响应值指示该像素点是人脸点的概率，响应值的范围是[0.0,1.0]，响应值越低，说明该位置上是人脸的概率越低，反之则表示该位置是人脸的概率越高。

预设卷积网络300根据第一个预测响应图上的响应值输出第一尺度的人脸预测区域的坐标，得到第一尺度的人脸预测区域(在根据本发明的实施例中，第一尺度的人脸预测区域代表的是待检测人脸的图像中的大人脸)；根据第二个预测响应图和第三个预测响应图上的响应值输出第二尺度的待检测区域的坐标，得到第二尺度的待检测区域。当然，若是第二个预测响应图和第三个预测响应图中响应值均不满足预定条件，不存在下一尺度的待检测区域，则只需输出第一尺度的人脸预测区域，也不用进行后续步骤。

以下将对根据3个预测响应图分别生成当前尺度的人脸预测区域和下一尺度的待检测区域的过程分别进行阐述。

一方面，当第一个预测响应图上的响应值大于0.5时，计算该响应值对应像素点的人脸预测框的坐标，得到至少一个第一尺度的人脸预测区域。可选地，第一个预测响应图上的人脸预测框的分辨率设为64×96。

另一方面，当第二个预测响应图上的响应值大于0.3时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；同样地，当第三个预测响应图上的响应值大于0.1时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；特别地，当满足上述条件的响应值对应的像素点的人脸预测框有多个时，有效输出区域就有多个；最后，对所有的有效输出区域进行非极大值抑制，得到第二尺度的待检测区域。可选地，第二个预测响应图上的人脸预测框的分辨率设为32×48，第三个预测响应图上的人脸预测框的分辨率设为16×24。

如图5示出了根据本发明一个实施例的有效输出区域的示意图，为便于区分，无填充的矩形框表示的是通过第二个预测响应图得到的有效输出区域，用斜线填充的矩形框表示的是通过第三个预测响应图得到的有效输出区域，对上述有效输出区域进行非极大值抑制，消除多余(交叉重复)的输出区域，最终得到能够包含所有有效输出区域的最小矩形框，如图5中加粗表示的矩形框，就是第二尺度的待检测区域。需要说明的是，图5仅为示例说明如何根据有效输出区域计算出下一尺度的待检测区域，其中有效输出区域的数目和大小仅做示例，本发明的实施例对此并不限制。

特别地，在根据本发明的另一些实施例中，在第二个预测响应图或第三个预测响应图上的响应值大于0.9时，预设卷积网络300计算该响应值对应像素点的人脸预测框的坐标，直接作为第一尺度的人脸预测区域。

随后在步骤S220中，从第二尺度的图像中裁剪出经步骤S210得到的第二尺度的待检测区域的图像，再将该裁剪出的图像输入预设卷积网络300，经卷积处理后生成第二尺度的人脸预测区域和第三尺度的待检测区域。

关于预设卷积网络300的描述可参见前文关于图3、图4的描述，此处不予赘述。根据本发明的实施方式，将从第二尺度的图像中裁剪出的图像输入预设卷积网络300，预设卷积网络300对该输入图像做卷积处理，最后输出三个预测响应图。预测响应图是一张和原图输入位置对应的概率图，其中每个像素点的响应值指示该像素点是人脸点的概率，响应值的范围是[0.0,1.0]，响应值越低，说明该位置上是人脸的概率越低，反之则表示是人脸的概率越高。

预设卷积网络300根据第一个预测响应图上的响应值输出第二尺度的人脸预测区域的坐标，得到第二尺度的人脸预测区域(在根据本发明的实施例中，第二尺度的人脸预测区域代表的是待检测人脸的图像中的中人脸)；根据第二个预测响应图和第三个预测响应图上的响应值输出第三尺度的待检测区域的坐标，得到第三尺度的待检测区域。当然，若是第二个预测响应图和第三个预测响应图中响应值均不满足预定条件，不存在下一尺度的待检测区域，则只需输出第二尺度的人脸预测区域，也不用进行后续步骤。

以下将对根据三个预测响应图分别生成当前尺度的人脸预测区域和下一尺度的待检测区域的过程分别进行阐述。一方面，当第一个预测响应图上的响应值大于0.5时，计算该响应值对应像素点的人脸预测框的坐标，得到至少一个第二尺度的人脸预测区域。另一方面，当第二个预测响应图上的响应值大于0.3时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；同样地，当第三个预测响应图上的响应值大于0.1时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；特别地，当满足上述条件的响应值对应的像素点的人脸预测框有多个时，有效输出区域就有多个；最后，对所有的有效输出区域进行非极大值抑制，得到第三尺度的待检测区域。关于不同预测响应图上人脸预测框的分辨率大小设置、及根据有效输出区域生成第三尺度的待检测区域的详细描述，可参照前文中的相关描述及图5，此处不作过多展开。

另外需要说明的是，在根据本发明的另一些实施例中，在第二个预测响应图或第三个预测响应图上的响应值大于0.9时，预设卷积网络300计算该响应值对应像素点的人脸预测框的坐标，直接作为第二尺度的人脸预测区域。

随后在步骤S230中，从第三尺度的图像中裁剪出经步骤S220得到的第三尺度的待检测区域的图像，再将该裁剪出的图像输入预设卷积网络300，经卷积处理后生成第三尺度的人脸预测区域。

关于预设卷积网络300的描述可参见前文关于图3、图4的描述，此处不予赘述。将从第三尺度的图像中裁剪出的图像输入预设卷积网络300，预设卷积网络300对该输入图像做卷积处理，最后输出三个预测响应图。根据本发明的实施方式，预设卷积网络300只根据第一个预测响应图上的响应值输出第三尺度的人脸预测区域的坐标，得到第三尺度的人脸预测区域(在根据本发明的实施例中，第三尺度的人脸预测区域代表的是待检测人脸的图像中的小人脸)。

同时，在根据本发明的另一些实施例中，在第二个预测响应图或第三个预测响应图上的响应值大于0.9时，预设卷积网络300计算该响应值对应像素点的人脸预测框的坐标，直接作为第三尺度的人脸预测区域。

需要说明的是，本发明的实施例将人脸分为大人脸、中人脸和小人脸，在这三种尺度下对待检测人脸的图像进行人脸检测处理，可以想见的是，本发明方案的技术人员可以想到对人脸进行更细地划分，如划分为5种尺寸，然后在五种尺度下重复上述人脸检测处理；也可以想到只将人脸分为大人脸和小人脸，在两种尺度下重复上述人脸检测处理，这些均在本发明方案的保护范围内，此处不予赘述。

随后在步骤S240中，结合第一尺度的人脸预测区域、第二尺度的人脸预测区域和第三尺度的人脸预测区域得到人脸检测结果。

如图6示出了根据本发明一个实施例的多尺度的人脸检测方法200的流程示意图。待检测人脸的图像610经缩放处理后生成第一尺度的图像620、第二尺度的图像630和第三尺度的图像640。将第一尺度的图像620输入预设卷积网络300，在输出的图像中，用实线框标出的是第一尺度的人脸预测区域622，用虚线框标出的是第二尺度的待检测区域624。然后，从第二尺度的图像630中裁取出第二尺度的待检测区域624，并输入到预设卷积网络300，在输出的图像中，用实线框标出的是第二尺度的人脸预测区域632，用虚线框标出的是第三尺度的待检测区域634。接着，从第三尺度的图像640中裁取出第三尺度的待检测区域634，并输入到预设卷积网络300，在输出的图像中，用实线框标出的是第三尺度的人脸预测区域642。最后，综合第一尺度的人脸预测区域622、第二尺度的人脸预测区域632、以及第三尺度的人脸预测区域642，就得到了最终的人脸检测结果图650。需要说明的是，图6仅作为示例，说明根据本发明的方法200的执行过程，图6中关于各图像大小、尺寸、数量、以及人脸预测区域和待检测区域等的描述仅为示意，是为了便于区分和表述，事实上并不做限制。

结合上述描述可以看出，根据本发明的方法200分三个尺度进行人脸检测，三个尺度对应不同的图像分辨率大小，分别用来检测图像中的大人脸、中人脸和小人脸。由于中人脸和小人脸对应的图像尺度比较大，检测比较耗时，因此在第二尺度和第三尺度的图像的检测中，只检测图像中可能存在人脸的区域(即，待检测区域)，这个待检测区域从上一尺度的图像检测的结果中得到。

根据本发明的一些实施方式，方法200还包括通过训练图像训练得到预设卷积网络300的步骤。具体地，训练图像通过以下方法来生成。

首先，将采集的图像分别缩放成对应第一尺度、第二尺度和第三尺度的图像分辨率的图像，作为训练样本。在根据本发明的一个实施例中，将采集的图像缩放到80×120、160×240和320×480的分辨率大小，作为训练样本。在根据本发明的另一些实施例中，将采集的图像分别缩放到最小边为80、160、240(像素)大小。

其次，标注出训练样本中的人脸区域，并根据所标注的人脸区域的大小将人脸区域分为大人脸、中人脸和小人脸。根据本发明的实施例，利用矩形框标注人脸区域，根据矩形框的高度区分人脸大小，例如，当矩形框高大于96(像素)时，该人脸区域视为大人脸，当矩形框高小于24(像素)时，该人脸区域视为小人脸，其它情况下将人脸区域视为中人脸。又如，若矩形框高很小(小于16(像素))，则将该矩形框按中心点放大到框高16(像素)，以保证能够检测出可能含有更小人脸的区域。

最后，按照大人脸、中人脸和小人脸的样本数量比例对训练样本进行切割、增益处理，生成训练图像。可选地，保证训练图像中大人脸、中人脸和小人脸的样本数量比例为2:2:1。

根据本发明的多尺度的人脸检测方案，通过预设卷积网络输出目标预测区域和待放大检测的区域。在第一尺度下检测出大人脸区域和可能存在的中人脸区域；再将可能存在的中人脸区域放大，以在第二尺度下检测出中人脸区域、以及可能存在的小人脸区域；再将可能存在的小人脸区域放大，以在第三尺度下检测出小人脸区域。通过多层的重复操作，可以得到由粗到精的检测结果。同时，当待检测人脸的图像背景比较简单时，检测过程在完成第一尺度(小尺度)的检测后就会停止，后面的两个尺度不再进行，极大地提升了检测效率。

综上，根据本发明的多尺度的人脸检测方案同时保证了检测的速度和检测的准确度。尤其适用计算设备100计算资源有限的情况，如移动终端，能够大大地缩短检测时间，又可以准确检测出不同大小的人脸。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明一并公开了：

A9、如A3所述的方法，其中，预设卷积网络包括一个第一卷积层、四个第二卷积层和一个第三卷积层。

A10、如A1-9中任一项所述的方法，其中，还包括通过训练图像训练得到预设卷积网络的步骤。

A11、如A10所述的方法，其中，通过训练图像训练得到预设卷积网络的步骤还包括生成训练图像的步骤：将采集的图像分别缩放成对应第一尺度、第二尺度和第三尺度的图像分辨率的图像，作为训练样本；标注出训练样本中的人脸区域；根据人脸区域的大小将人脸区域分为大人脸、中人脸和小人脸；以及按照大人脸、中人脸和小人脸的样本数量比例对训练样本进行切割、增益处理，生成训练图像。

A12、如A11所述的方法，其中，大人脸、中人脸和小人脸的样本数量比例为2:2:1。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种多尺度的人脸检测方法，所述方法适于在计算设备中执行，所述方法包括步骤：

将第一尺度的图像输入预设卷积网络，经卷积处理后生成第一尺度的人脸预测区域和第二尺度的待检测区域；

从第二尺度的图像中裁剪出所述第二尺度的待检测区域的图像，并将该裁剪出的图像输入所述预设卷积网络，经卷积处理后生成第二尺度的人脸预测区域和第三尺度的待检测区域；

从第三尺度的图像中裁剪出所述第三尺度的待检测区域的图像，并将该裁剪出的图像输入所述预设卷积网络，经卷积处理后生成第三尺度的人脸预测区域；以及

结合所述第一尺度的人脸预测区域、所述第二尺度的人脸预测区域和所述第三尺度的人脸预测区域得到人脸检测结果。

2.如权利要求1所述的方法，其中，在将第一图像输入预设卷积网络的步骤之前，还包括步骤：

对待检测人脸的图像进行不同比例的缩放处理，以分别生成第一尺度的图像、第二尺度的图像和第三尺度的图像，

其中，所述第一尺度的图像的分辨率小于所述第二尺度的图像的分辨率，且所述第二尺度的图像的分辨率小于所述第三尺度的图像的分辨率。

3.如权利要求1或2所述的方法，其中，所述预设卷积网络包括：至少一个第一卷积层、第二卷积层和第三卷积层，

其中，所述第二卷积层适于通过多个不同尺度的卷积核进行卷积处理，并将多个卷积核的卷积结果相连接，作为该第二卷积层的输出结果。

4.如权利要求3所述的方法，其中，

所述预设卷积网络适于对当前尺度的图像做卷积处理，输出三个预测响应图，所述预测响应图中每个像素点的响应值指示该像素点是人脸点的概率。

5.如权利要求4所述的方法，其中，

所述预设卷积网络还适于根据第一个预测响应图上的响应值输出当前尺度的人脸预测区域的坐标，得到当前尺度的人脸预测区域，以及根据第二个预测响应图和第三个预测响应图上的响应值输出当前尺度的下一尺度的待检测区域的坐标，得到下一尺度的待检测区域。

6.如权利要求5所述的方法，其中，根据第一个预测响应图上的响应值输出当前尺度的人脸预测区域的坐标、得到当前尺度的人脸预测区域的步骤包括：

当第一个预测响应图上的响应值大于0.5时，计算该响应值对应像素点的人脸预测框的坐标，得到至少一个当前尺度的人脸预测区域。

7.如权利要求5或6所述的方法，其中，根据第二个预测响应图和第三个预测响应图上的响应值输出当前尺度的下一尺度的待检测区域的坐标、得到下一尺度的待检测区域的步骤包括：

当第二个预测响应图上的响应值大于0.3时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；

当第三个预测响应图上的响应值大于0.1时，计算该响应值对应像素点的人脸预测框的坐标，作为有效输出区域；以及

对所有的有效输出区域进行非极大值抑制，得到下一尺度的待检测区域。

8.如权利要求5-7中任一项所述的方法，其中，所述预设卷积网络还适于在第二个预测响应图或第三个预测响应图上的响应值大于0.9时，计算该响应值对应像素点的人脸预测框的坐标，得到当前尺度的人脸预测区域。

9.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。