CN101344922B

CN101344922B - 一种人脸检测方法及其装置

Info

Publication number: CN101344922B
Application number: CN2008101980478A
Authority: CN
Inventors: 左坤隆; 王蕴红; 张永平
Original assignee: Huawei Technologies Co Ltd; Beihang University
Current assignee: Huawei Technologies Co Ltd; Beihang University
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2011-11-02
Anticipated expiration: 2028-08-27
Also published as: CN101344922A

Abstract

本发明实施例公开了一种人脸检测方法，包括：基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域；基于单通道肤色模型对所述候选人脸区域进行肤色过滤，获得人脸检测结果。同时，本发明实施例还公开了一种人脸检测装置。采用上述技术方案，由于人脸的灰度结构本身存在与其它事物相区分的特殊性，利用灰度信息进行人脸检测较为可靠；采用基于单通道肤色模型对候选人脸区域进行肤色过滤，去掉非肤色区域的假正样本，可排除大部分假正人脸。

Description

一种人脸检测方法及其装置

技术领域

本发明涉及数字媒体技术领域，具体地涉及一种人脸检测方法及其装置。

背景技术

视频监控技术的发展为解决社会安全问题带来了契机。视频监控利用图像和摄像头记录场景数据，以便于在线监控，并为事后事件处理提供了凭证。随着监控设备成本的下降，装备视频监控系统已经成为了预防犯罪和保障生命财产安全的重要手段，因而在金融机构、政府部门、重要交通、边检防卫和门禁小区中得到了广泛应用。

在监控场景中，能统计确认目标人员的存在，并揭示其身份的方法包括行走姿态和人脸。通过人们走路的姿态，可以非接触和远距离对人进行识别，但其身份判别性不足。与行走姿态相比，人脸是人类视觉中最为普遍的模式，人的面部所体现的视觉信息在社会交流和交往中有着重要的作用和意义，具有更直观和更准确的优点。

现有的监控视频人脸检测方法集成多种信息，这种方法集成了肤色信息、运动信息和人脸灰度信息进行人脸检测。整个人脸检测流程由背景剪除、肤色过滤、特征提取和支持向量机(Support Vector Machine，SVM)分类步骤组成。具体而言，该方法主要采用了如下的技术手段：基于视频相邻图像的灰度差分图和颜色差分图，确定可能包含人脸的前景区域；利用肤色信息寻找前景区域可能包含人脸的候选人脸区域；对候选人脸提取独立成分分析(IndependentComponent Analysis，ICA)特征，基于SVM对候选人脸进行验证；基于Kalman滤波器对通过验证的人脸进行跟踪。在综合利用多种先验信息的基础上，这种方法在实验室环境下采集的简单视频上获得了较好的人脸检测效果。

但是，发明人在实现本发明的过程中发现，现有技术至少存在如下缺陷：该技术利用背景剪除技术获取人脸候选区域，背景剪除技术中采用时域差分法，而时域差分法一般用连续的两到三帧图象相减实现时域微分，一般不能很好地提取出运动目标的所有特征像素，在运动实体内部容易产生空洞现象，可能从开始就会漏检人脸；同时，经过发明人验证表明，该技术基于HS色彩空间建立肤色模型，此色彩空间的肤色判决性并非最佳，容易误检，将不是人脸的肤色区域判定为人脸区域。

发明内容

本发明实施例提供一种人脸检测方法及其装置，提高了人脸检测的准确性。

本发明实施例提出了一种人脸检测方法，所述方法包括：

基于Fisher准则的评价函数确定一个色彩通道作为单通道，该步骤包括：获取肤色样本集和非肤色样本集，基于Fisher准则的评价函数计算肤色样本集与非肤色样本集在各色彩通道的可分性，选择可分性较优的色彩通道作为所述单通道；

根据选定的单通道建立肤色模型，该步骤包括：

设肤色样本x∈Rⁿ服从高斯分布x～N(μ，∑)，概率密度函数如下：

p (x) = \frac{1}{{(2 π)}^{\frac{n}{2}} \cdot {| Σ |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

其中，μ，∑分别为高斯分布的均值和方差，T表示矩阵的转置，n为空间的维数；

基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域；

根据单通道肤色模型判断所述候选人脸区域是否为肤色区域，如果判断结果为是，则获取该候选人脸区域，获得人脸检测结果。

相应地，本发明实施例还提供了一种人脸检测装置，所述装置包括：

肤色模型建立模块，用于基于Fisher准则的评价函数确定一个色彩通道作为单通道，并根据选定的色彩通道建立肤色模型；

人脸区域检测模块，用于基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域；

肤色过滤模块，用于基于单通道肤色模型对所述人脸区域检测模块所获得的候选人脸区域进行肤色过滤，获得人脸检测结果；

所述肤色过滤模块包括：

判断单元，用于根据所述单通道肤色模型判断所述候选人脸区域是否为肤色区域；

人脸区域获取单元，用于当所述判断单元的判断结果为是时获取该候选人脸区域，获得人脸检测结果；

所述肤色模型建立模块包括：

样本集获取单元，用于获取肤色样本集和非肤色样本集；

计算单元，用于基于Fisher准则的评价函数计算所述样本集获取单元所获取的肤色样本集与非肤色样本集在各色彩通道的可分性；

选择单元，用于根据所述计算子单元所计算的可分性选择可分性较优的色彩通道作为所述单通道；

建立单元，用于根据所述选择单元所确定的色彩通道建立肤色模型；

所述肤色模型为高斯肤色模型；设肤色样本x∈Rⁿ服从高斯分布x～N(μ，∑)，概率密度函数如下：

p (x) = \frac{1}{{(2 π)}^{\frac{n}{2}} \cdot {| Σ |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

其中，μ，∑分别为高斯分布的均值和方差，T表示矩阵的转置，n为空间的维数。

采用上述技术方案，由于人脸的灰度结构本身存在与其它事物相区分的特殊性，利用灰度信息进行人脸检测较为可靠；采用基于单通道肤色模型对候选人脸区域进行肤色过滤，去掉非肤色区域的假正样本，可排除大部分假正人脸。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的人脸检测方法的流程示意图；

图2a、图2b、图2c、图2d、图2e、图2f是本发明实施例的各色彩通道肤色与非肤色样本归一化的分布直方图；

图3是本发明实施例的肤色过滤的流程示意图；

图4是本发明实施例的使用基于二阶自回归的运动模型的流程示意图；

图5是本发明的人脸检测方法的一个具体实施例的流程示意图；

图6是本发明的人脸检测方法的另一个具体实施例的流程示意图；

图7是本发明实施例的人脸检测装置的结构示意图；

图8是本发明实施例的肤色过滤模块的结构示意图；

图9是本发明实施例的肤色模型建立模块的结构示意图；

图10是本发明的人脸检测装置的一个具体实施例的结构示意图；

图11是本发明实施例的预测定位模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在监控视频中，序列中的人脸清晰度和分辨率比静态人脸图像低，可以采用先验知识和目标跟踪算法弥补这些不足，以提高人脸检测的准确率。基于多源信息融合的人脸检测算法充分利用先验知识，结合灰度信息、肤色信息进行视频中的人脸检测。利用灰度信息进行人脸检测最为可靠，因为人脸的灰度结构本身存在与其它事物相区分的特殊性，对于肤色信息，由于自然界很多事物都拥有与肤色相近的颜色，因此可以利用肤色信息对人脸检测结果的进行肤色过滤。

图1是本发明实施例的人脸检测方法的流程示意图，如图1所示，该方法包括：

101，基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域；

基于灰度统计模型的人脸检测器有很多种算法，其中Boosting算法是目前最成功的人脸检测算法，且Boosting人脸检测器基于大规模的人脸与非人脸数据库训练获得，能较为准确地定位存在人脸灰度结构分布的图像区域。从应用角度说，采用Boosting算法可以满足要求，但其它各种基于统计学习的方法，如SVM，Bayes决策，二叉树或者神经网络都可以替代。Adaboost是Boosting方法的一个典型特例。鉴于Adaboost方法的高效性和准确性，本发明采用了Adaboost算法作为初级的人脸检测器。

102，基于单通道肤色模型对所述候选人脸区域进行肤色过滤，获得人脸检测结果。

基于Boosting分类器原理，其收集能反映人脸结构的灰度特征作为人脸弱分类器，致使其检测结果可能包含与人脸结构分布类似的假正样本，这些假正样本会为后续的分析工作带来困难，特别是在人脸聚类分析中，由于假正样本不具备规则性特征，导致假正样本在空间中的分布较为零散，这些样本成为影响聚类性能的噪声“Outlier”(特异点)，根据指定优化规则，聚类中心和聚类样本分布可能与理想情况相差较大。除了人脸的灰度结构分布外，颜色是人脸表面最为显著的特征之一，与灰度特征形成互补特征，可作为假正检测样本的过滤器。

所述单通道肤色模型的预先建立包括：

1、基于Fisher准则的评价函数确定一个色彩通道作为所述单通道；

具体包括：获取肤色样本集和非肤色样本集；基于Fisher准则的评价函数计算肤色样本集与非肤色样本集在各色彩通道的可分性；选择可分性较优的色彩通道作为所述单通道。下面加以详细介绍：

在肤色模型建立时，首选需要选择适当的颜色表示方式，作为图像处理任务，选择适当的颜色表示方式决定了肤色区域检测的结果。而目前色彩表示方式的选择目标和依据多种多样，可首先通过结合直观方法和量化方法比较了多种通用色彩空间，以获得最优肤色表示方法用于肤色区域检测。为了获得肤色样本的先验信息指导肤色区域检测，本发明实施例建立了基于直方图的概率密度模型表示肤色样本和非肤色样本的分布。在非限定条件下采集的大样本库上进行了实验。该样本库由多于300万的正样本(肤色样本)和多于900万的负样本(非肤色样本)组成，来自于150幅从互联网收集的图像。

本发明实施例主要从肤色在色彩空间中的分布状况、肤色与非肤色的可分性分析和基于模型的肤色区域分类三方面进行了比较。首先采用直方图技术来可视化肤色样本在4个色彩空间中的分布形状，从而进行直观比较。这些色彩空间包括：XYZ、YIQ、YUV和HSV。为了衡量肤色与非肤色在各色彩空间中是否具有可分性，且为了观察色彩空间各通道是否对肤色判决具有不同的贡献，可通过描绘肤色与非肤色样本在色彩空间不同通道中的分布直方图来进行比较。图2a、图2b、图2c、图2d、图2e、图2f显示了各色彩通道肤色与非肤色样本归一化的分布直方图，skin曲线表示肤色分布，bgd曲线表示非肤色分布。

结合图2a-图2f中的图像，可发现肤色与非肤色样本在各色彩通道中呈现出不同的分布形状。样本在色彩空间中均呈现出了一定程度的集中性。直方图反映了色彩空间中样本分布的情况，但是仅仅依靠直观比较并不足以选择适应于对候选人脸区域进行肤色过滤的表示方式。

为了更好地实现肤色过滤，比较肤色样本和非肤色样本在各通道的可分性具有重要价值。本发明实施例利用基于Fisher准则的评价函数来衡量肤色与非肤色在各色彩通道的可分性。令A和B分别代表训练集中的肤色和非肤色样本集，基于Fisher准则的评价函数定义如下：

E (A, B) = \frac{{| m (A) - m (B) |}^{2}}{σ^{2} (A) + σ^{2} (B)} - - - (1)

其中m(A)和m(B)分别代表A和B的均值，σ(A)和σ(B)分别是A和B的方差。可以观察到，式(1)的分子代表了A和B之间的色彩差异，分母代表了集合A和B内的色彩差异，与Fisher准则的思想相符。

表1

色彩空间	通道1	通道2	通道3
				XYZ	X：0.6227	Y：0.3704	Z：0.0218
YIQ	Y：0.3704	I：1.7527	Q：0.0710
				YUV	Y：0.3704	U：0.7540	V：1.8973
HSV	H：0.8012	S：0.0031	V：0.5712

各色彩通道的可分性评价函数值如表1所示。表1是色彩通道的可分性评价函数值，从表1可以看出，由于XYZ、YIQ和YUV通道中的Y分量主要对应亮度信息，具有与RGB空间相同的映射模式，因而其可分性评价函数值相同。另外，结合图2a-图2f和表1，在所有色彩空间的单色通道中，可发现YUV色彩空间的V通道和YIQ色彩空间的I通道肤色与非肤色的可分性最优，其可分性评价函数值分别为1.8973和1.7527。YUV色彩空间与RGB通道的映射矩阵为：

[\begin{matrix} Y \\ U \\ V \end{matrix}] = [\begin{matrix} 0.2990 & 0.5870 & 0.1140 \\ - 0.1471 & - 0.2888 & 0.4359 \\ 0.6148 & - 0.5148 & - 0.1000 \end{matrix}] [\begin{matrix} R \\ G \\ B \end{matrix}] - - - (2)

由于具有良好判决性的通道所属的色彩空间中的其它通道的判决性较弱，因此，现有技术中引入其它相关通道与当前通道组合为更高维空间进行肤色和非肤色判决，可能会引起判决性能下降。本发明实施例使用单通道来建立模型，比使用双通道或者多通道可提高肤色检测速度。由于在YIQ-I和YUV-V空间中，肤色直方图呈现近似的单峰特性，可分性较优，因此可以选取YIQ色彩空间中的I通道或YUV色彩空间中的V通道来建立肤色模型。

2、根据选定的色彩通道建立肤色模型。

本发明实施例采用高斯模型作为一种参数化肤色模型。设肤色样本x∈Rⁿ服从高斯分布x～N(μ，∑)，概率密度函数如下：

p (x) = \frac{1}{{(2 π)}^{\frac{n}{2}} \cdot {| Σ |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)] - - - (3)

其中，μ，∑分别为高斯分布的均值和方差。T表示矩阵的转置，n为空间的维数。与高维的肤色模型相比较，此模型形式简单，具有肤色分割快速准确的优点。基于Fisher准则理论分析，YUV-V单通道模型比高维肤色模型更具判决性。

102具体包括：根据所述单通道肤色模型判断所述候选人脸区域是否为肤色区域，如果判断结果为是，则获取该候选人脸区域，获得人脸检测结果。

其中，上述肤色过滤模型可以是预先建立好。

下面结合图3对上述实施例的102进行进一步的说明。

图3是本发明实施例的肤色过滤的流程示意图，如图3所示，包括：

301，选择颜色表示方式；如果肤色模型是基于YUV-V通道，这这里可以选取YUV色彩空间表示当前处理图像。

302，根据肤色模型判断人脸区域是否为肤色区域，如是，则执行303，如否，则执行304；具体地，计算人脸区域属于肤色和非肤色的概率。

303，获取该人脸区域；

304，丢弃该人脸区域。

选择适当的颜色表示方式，颜色表示方式的选择决定了肤色区域检测的结果，计算当前检测到的人脸区域属于肤色和非肤色的概率从而得出当前人脸区域是肤色区域还是非肤色区域。

本发明实施例采用了YUV-V肤色模型的判决性，如式(3)所示，可将肤色和非肤色在YUV-V(该通道上的色彩可分性最优)通道上的分布建模为高斯函数。对于肤色样本，其高斯均值和方差(高斯均值为某类所有样本的统计均值，方差为样本的统计方差)分别为m＝0.1119，σ＝0.0047；对于非肤色样本，其高斯均值和方差分别为m＝-0.0144，σ＝0.0037。对于图像上任意一点的YUV-V值，基于式(3)计算其属于肤色和非肤色的概率，并按后验概率值将其划分为肤色或非肤色。基于YUV-V通道的肤色模型对图像的肤色区域和非肤色区域的分割可达到较为满意的效果，与高维的肤色模型相比较，此模型形式简单，具有肤色分割快速准确的优点。如果候选区域内肤色象素所占比例低于阈值50％，则该区域被当成非肤色区域予以丢弃。

视频由动态场景下的多帧时间序列图像组成，视频中包含了丰富的时间和空间信息，对这些信息的合理利用可以提高人脸检测效率。在视频中，人脸的位置和姿态等状态信息动态连续，合理利用运动信息和目标跟踪算法，可以提高人脸检测算法的速度和准确率为了提高检测效率，因此本发明还可以结合运动信息进行人脸检测。运动模型能以简单、快速和可靠的机制保持对目标位置的有效锁定和预测，为后续的人脸检测器提供目标区域，以减小人脸检测误差和运算代价。本发明采用基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，得到预测的人脸区域，供后续人脸检测用。

因此，若当前帧不是视频的第一帧或者第二帧，则在101之前，还包括：

基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域；

则所述基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域，具体包括：在所述预测人脸区域内对人脸进行检测，获得所述候选人脸区域。在这里可以采用Boosting算法对人脸进行检测。

其中，上述基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域，具体包括：

获取所述视频当前帧的前一帧和前二帧的人脸区域；

根据所述前一帧和前二帧的人脸区域通过二阶自回归运动模型预测当前帧的人脸区域，获得预测人脸区域。下面本发明实施例提供的二阶自回归运动模型进行详细介绍：

在监控视频中，由于不像新闻视频有人工剪辑和存在镜头切换，其动态连续运动信息较新闻类视频更为可靠。运动物体的动态信息可以用于建立运动模型，根据当前人脸在图像中所处的位置，预测下一帧人脸可能存在的预测人脸区域即感兴趣区域(Region ofInterest，ROI)。假设上一帧人脸状态变量为S_t-1(用S_t-1便可以表示上一帧中的人脸可能存在ROI)，状态变量包括人脸二维位置和人脸尺度信息，当前人脸状态变量(用S_t便可以表示当前帧中的人脸可能存在ROI)S_t与S_t-1之间的关系可以拟合为二阶自回归过程：

S_t-S_t-1＝S_t-1-S_t-2+V_t (4)

\overset{\cdot}{S_{t - 1}} = S_{t - 1} - S_{t - 2} - - - (5)

其中，

为状态变量改变速率，V_t为均值0，方差σ_t的高斯噪声。其方差σ_t是一个经验值，其大小与状态变量改变速率

成正比，这个运动模型本质上是含有高斯噪声的匀速模型，能满足大部分视频人脸的运动跟踪。基于此运动模型，ROI(即S_t)的范围可基于下面的概率密度函数确定：

p (S_{t} | S_{t - 1}) = N (S_{t}; S_{t - 1} + {\overset{\cdot}{S}}_{t - 1}, σ_{t}) - - - (6)

式(6)中，N(x；m，σ)为均值m，方差σ的高斯函数。基于式(6)，可依据上帧的状态变量，获取当前帧的ROI，在ROI内进行人脸检测，以减小人脸检测的运算代价和提高人脸检测的正确率。

当使用基于二阶自回归的运动模型时，可采用图4的基于二阶自回归的运动模型的流程示意图，图4是本发明实施例的使用基于二阶自回归的运动模型的流程示意图，如图4所示，根据本帧的人脸区域和上帧的人脸区域来预测下一帧的人脸可能出现的区域，在可能出现的区域使用Boosting算法检测人脸，减少人脸检测的代价和提高人脸检测的准确率。本发明实施例提出的二阶自回归的运动模型性能，将其应用到监控视频的检测中。基于上面提到的公式(6)，可依据上帧的状态变量，获取当前帧的ROI区域(即S_t)，ROI区域选取使条件概率最大的状态变量为ROI区域，根据公式(4)，(5)，(6)和经验值，取

其中V_t是一个均值为0，方差为σ_t的高斯噪声，σ_t为经验值，其大小同人脸的运动速度成正比，例如人脸的运动速度为10pix/t，则方差可为1，如果人脸的运动速度为20pix/t，则方差可为2。因此可以根据前一帧的ROI区域和状态变量改变速率很快求出当前帧的ROI区域。在ROI区域内进行人脸检测，这样便会减小人脸检测的运算代价和提高人脸检测的正确率。在基于Boosting人脸检测器的方法中，Boosting人脸检测器检测到了一些人脸假正样本，具有与人脸相类似的结构，这是仅仅依靠Boosting人脸检测器所无法解决的问题，且这些假正样本具有肤色信息，依靠肤色过滤也无法消除这些假正样本。

本发明实施例提供的融合Boosting人脸检测器和运动模型的方法，结合运动信息的人脸检测器获得了令人满意的结果。基于二阶自回归的运动模型可以较好预测下一帧人脸的位置和尺度范围，因此可以消除不满足预测信息的人脸假正样本。

某些场合下二阶自回归运动模型不太适用的时候，如监控视频采用快速球摄像机监控时，可能采用在各预置位置巡视的监控方式，这样会形成连续两帧画面之间有切换，此时运动模型便不适用。实际应用时，因此可以加上转换开关，镜头切换时二阶自回归运动模型不可用，对监控视频直接检测人脸区域和对人脸区域进行肤色过滤；当视频场景又连续时，继续适用二阶自回归运动模型。

图5是本发明的人脸检测方法的一个具体实施例的流程示意图，该实施例中，没有对人脸进行基于二阶自回归运动模型的预测。如图5所示，该方法包括：

501，获取当前帧；

502，对当前帧中的人脸进行检测，获得人脸区域；

503，判断人脸区域是否为肤色区域；如是，则执行504，如否，则执行505；

504，获取该人脸区域；

505，丢弃该人脸区域；

506，判断当前帧是否是最后一帧，如果是，则结束检测；如果否，则返回501。

获取监控视频的当前帧，利用Boosting算法在当前帧中检测人脸区域，随后对于检测到的人脸区域根据肤色模型进行肤色过滤，如果经肤色模型过滤后得到其不是肤色区域，则将其归入非人脸区域并抛弃。如果检测到的人脸区域是肤色区域，则获取该候选人脸区域，获得人脸检测结果，并将获取的正确的人脸区域放入到人脸数据集中，以便日后对需要的人脸检测结果进行调用。判断当前帧是否为该段监控视频的最后一帧，如果是，则结束检测，如果不是，循环以上的条件直至当前帧是该段视频的最后一帧。

本实施例中采用Boosting算法检测出候选人脸区域，该方法基于灰度统计模型，检测更可靠；基于单通道的肤色模型对检测到的候选人脸区域进行肤色过滤，可靠性高，排除了大部分假正人脸。

图6是本发明的人脸检测方法的另一个具体实施例的流程示意图，结合了运动模型进行人脸检测，如图6所示，该方法包括：

601，获取当前帧；

602，判断当前帧是否为第一帧或者第二帧；如果判断结果为是，则执行609；如为否，则执行603；

603，获取当前帧的前一帧和前二帧的人脸区域；

604，根据当前帧的人脸区域及上帧的人脸区域通过运动模型预测下一帧的人脸区域；

605，对预测的人脸区域进行检测，获得人脸区域；

606，判断预测到的人脸区域是否为肤色区域；如果是，则执行607；如果否，则执行608；

607，获取该人脸区域；

608，丢弃该人脸区域；

609，对监控视频中的人脸进行检测，获得人脸区域；

610，判断所检测到的人脸区域是否为肤色区域；如果是，则执行607；如果否，则执行608；

611，将获取的正确人脸区域放入到人脸数据集，用于605预测时使用；

612，判断当前帧是否是最后一帧，如果是，则结束检测；如果否，则返回601。

获取当前监控视频的当前帧，判断所获取的当前帧是否是该段视频的第一帧或者第二帧，若是则利用Boosting在当前帧中检测人脸区域，对检测到的人脸区域根据肤色模型进行肤色过滤，如果经肤色模型过滤后得到其不是肤色区域，则将其归入非人脸区域并抛弃。如果检测到的人脸区域是肤色区域，则获取该候选人脸区域，获得人脸检测结果，并将获取的正确的人脸区域放入到人脸数据集中，以便日后对需要的人脸检测结果进行调用；如果当前帧不是该段视频的第一帧或者第二帧，则通过二阶自回归运动模型使用前一帧的人脸区域与前两帧的人脸区域来预测当前帧的人脸区域，在预测的人脸区域中使用Boosting算法来检测人脸区域，对检测到的人脸区域根据肤色模型进行肤色过滤，如果检测到的人脸区域不是肤色区域，则将其归入非人脸区域并抛弃。如果检测到的人脸区域是肤色区域，则获取该候选人脸区域，获得人脸检测结果，并将获取的正确的人脸区域放入到人脸数据集中，以便日后对需要的人脸检测结果进行调用。循环以上的条件直至当前帧是该段视频的最后一帧。

本实施例中采用Boosting算法检测出候选人脸区域，该方法基于灰度统计模型，检测更可靠；基于单通道的肤色模型对检测到的候选人脸区域进行肤色过滤，可靠性高，排除了大部分假正人脸；采用二阶自回归模型对人脸区域进行预测，缩小了Boosting检测范围，提高了检测效率。

图7是本发明实施例的人脸检测装置的结构示意图，如图7所示，该装置包括：

人脸区域检测模块1，用于基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域；

基于灰度统计模型的人脸检测器有很多种算法，其中Boosting算法是目前最成功的人脸检测算法，且Boosting人脸检测器基于大规模的人脸与非人脸数据库训练获得，能较为准确地定位存在人脸灰度结构分布的图像区域。从应用角度说，采用Boosting算法可以满足要求，但其它各种基于统计学习的方法，如SVM，Bayes决策，二叉树或者神经网络都可以替代。Adaboost是Boosting方法的一个典型特例。鉴于Adaboost方法的高效性和准确性，本发明实施例采用了Adaboost算法作为初级的人脸检测器。

肤色过滤模块2，用于基于单通道肤色模型对所述人脸区域检测模块1所获得的候选人脸区域进行肤色过滤，获得人脸检测结果。

肤色过滤模块2如图8所示，具体包括：

判断单元20，用于根据所述单通道肤色模型判断所述候选人脸区域是否为肤色区域；

人脸区域获取单元21，用于当所述判断单元20的判断结果为是时获取该候选人脸区域，获得人脸检测结果。

上述单通道肤色模型可通过如图9所示的肤色模型建立模块预先建立，该肤色模型建立模块用于基于Fisher准则的评价函数确定一个色彩通道作为所述单通道，并根据选定的色彩通道建立肤色模型。

如图9所示，该肤色模型建立模块包括：

样本集获取单元41，用于获取肤色样本集和非肤色样本集；

计算单元42，用于基于Fisher准则的评价函数计算所述样本集获取单元41所获取的肤色样本集与非肤色样本集在各色彩通道的可分性；

选择单元43，用于根据所述计算单元42所计算的可分性选择可分性较优的色彩通道作为所述单通道；

建立单元44，用于根据所述选择单元43所确定的色彩通道建立肤色模型。

其中，上述肤色过滤模型可以是预先建立的，不需要每次都执行建立肤色过滤模型的步骤。当肤色过滤模型是预先建立的，则人脸检测装置在检测人脸过程中可以不需要肤色建立模块。肤色过滤模型的预先建立过程可参见前面人脸检测方法中所述及的详细过程，这里不再赘述。

若图7对应的实施例中所述视频的当前帧不是第一帧或者第二帧，该人脸检测装置还可以包括预测定位模块，如图10所示，图10是本发明的人脸检测装置的一个具体实施例的结构示意图，该人脸检测装置包括图7所示的人脸区域检测模块1和肤色过滤模块2外，还包括预测定位模块3和肤色模型建立模块4。预测定位模块3，用于基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域；当通过预测定位模块3获得预测人脸区域时，人脸区域检测模块1在所述预测定位模块3所获得的预测人脸区域内对人脸进行检测，获得所述候选人脸区域，具体地，可以采用Boosting算法进行人脸检测。

预测定位模块3如图11所示，包括：

获取单元30，用于获取所述视频当前帧的前一帧和前二帧的人脸区域；

预测单元31，用于根据所述前一帧和前二帧的人脸区域通过二阶自回归运动模型预测当前帧的人脸区域，获得预测人脸区域。

其中，上述二阶自回归运动模型可以是预先建立的，如二阶自回归运动模型是预先建立的，则在执行基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域之前，不需要每次都执行建立二阶自回归运动模型的步骤。建立二阶自回归运动模型的具体过程如上述人脸检测方法的实施例如述，这里不再赘述。

其中，肤色模型建立模块4如图9所示，这里不再解释说明。

本发明实施例的人脸检测装置对应的方法，通过肤色模型进行肤色区域检测的过程，使用二阶自回归运动模型进行预测的过程以及其它对应的过程与前述实施例的人脸检测方法的具体过程相似，这里不再赘述。

实施本发明实施例，可提高肤色样本和非肤色样本的判决能力，可将大部分假正人脸排除出后续处理流程，为后续的监控视频人脸识别或聚类检索提供可靠的人脸样本。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所揭露的仅为本发明的较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种人脸检测方法，其特征在于，所述方法包括：

根据选定的单通道建立肤色模型，该步骤包括：

p (x) = \frac{1}{{(2 π)}^{\frac{n}{2}} \cdot {| Σ |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

2.如权利要求1所述的方法，其特征在于，若所述当前帧不是所述视频的第一帧或者第二帧，则在所述基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域之前，还包括：

则所述基于灰度统计模型对视频当前帧中的人脸进行检测，获得候选人脸区域，具体包括：

在所述预测人脸区域内对人脸进行检测，获得所述候选人脸区域。

3.如权利要求1所述的方法，其特征在于，所述单通道是YUV色彩空间中的V通道或YIQ色彩空间中的I通道。

4.如权利要求2所述的方法，其特征在于，所述基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域，包括：

获取所述视频当前帧的前一帧和前二帧的人脸区域；

根据所述前一帧和前二帧的人脸区域通过二阶自回归运动模型预测当前帧的人脸区域，获得预测人脸区域。

5.一种人脸检测装置，其特征在于，所述装置包括：

所述肤色过滤模块包括：

所述肤色模型建立模块包括：

样本集获取单元，用于获取肤色样本集和非肤色样本集；

p (x) = \frac{1}{{(2 π)}^{\frac{n}{2}} \cdot {| Σ |}^{\frac{1}{2}}} \exp [- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)]

6.如权利要求5所述的装置，其特征在于，所述装置还包括：

预测定位模块，用于基于二阶自回归运动模型对所述当前帧中的人脸进行预测定位，获得预测人脸区域；

所述人脸区域检测模块具体用于在所述预测定位模块所获得的预测人脸区域内对人脸进行检测，获得所述候选人脸区域。

7.如权利要求6所述的装置，其特征在于，所述预测定位模块包括：

获取单元，用于获取所述视频当前帧的前一帧和前二帧的人脸区域；

预测单元，用于根据所述前一帧和前二帧的人脸区域通过二阶自回归运动模型预测当前帧的人脸区域，获得预测人脸区域。

8.如权利要求5至7任意一项所述的装置，其特征在于，所述单通道是YUV色彩空间中的V通道或YIQ色彩空间中的I通道。