CN103198330A

CN103198330A - 基于深度视频流的实时人脸姿态估计方法

Info

Publication number: CN103198330A
Application number: CN2013100867765A
Authority: CN
Inventors: 姚莉; 肖阳
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-03-19
Filing date: 2013-03-19
Publication date: 2013-07-10
Anticipated expiration: 2033-03-19
Also published as: CN103198330B

Abstract

本发明公开了一种基于深度视频流的实时人脸姿态估计方法，其步骤包括抽样及训练和实时估计两个阶段，在抽样及训练阶段，获取各个脸部角度的景深图；然后对各个角度的景深图做随机取样，得到训练样本集；再采用监督学习方法做训练，得到分类器，在实时估计阶段，首先提取采集设备输出的深度视频流中的实时人脸景深图并转化为积分图；再对积分图进行随机切片抽样，并利用训练得到的分类器对样本进行分类，得到若干个估计结果；对这些结果剔除异常结果并进行加权平均，得到最终的人脸姿态结果。本发明提供的基于深度视频流的实时人脸姿态估计方法，避免了光照等因素对最终结果的影响，并且拥有良好的实时性和准确性。

Description

基于深度视频流的实时人脸姿态估计方法

技术领域

本发明涉及了一种识别方法，特别是涉及了一种基于深度视频流的实时人脸姿态估计方法。

背景技术

目前用户与计算机的交互方式主要通过键盘、鼠标和触摸屏，这种交互方式都要借助于特定的硬件输入设备。自然人机交互方式成为目前研究的重点，例如：人体姿态、人脸姿态、人脸表情分析等。另外，在人脸识别中，人脸姿态估计也有着很重要的应用。通过人脸姿态估计后，可以在识别之前根据人脸姿态先对照片做变形处理，然后再进行识别，可大大提高人脸识别的准确率。

现有的人脸姿态估计方法都是基于二维图像和视频的，此类方法还存在如下的问题：

1) 采集数据易受到噪声干扰。传统的二维图像和视频易受到光照影响，光照会完全改变图片中某些区域的灰度值和纹理信息，使得训练阶段样本集不可能照顾到所有可能的情况，从而在泛化阶段准确率直线下降。

2) 特征缺失条件下准确率下降严重。这类方法通过某个脸部特征（鼻子、眼睛等）去估计脸部姿态。该类方法首先将需要的特征从整个人脸中提取出来，然后根据该特征的几何形状去判断实际脸部姿态。但是，在该特征无法辨认或遮挡的情况下，该类方法就无法判断人脸姿态或给出一个及其不准确的结果。

3) 系统运行过程中需要人工干预。这类方法将物体跟踪的思想应用于人脸姿态估计。该类方法需要在系统开始运行时初始化人脸位置，并且，当人脸快速移动或遇到遮挡物时容易丢失目标。

近年来，随着深度视频流采集设备（例如微软的kinect、爱动体感设备、CyWee、绿动体感运动机iSec等）逐步进入普通消费群体，深度视频流所提供的时间轴上的三维景深数据为人脸姿态估计提供了新的参考信息，同时也为新方法的提供了基础。

发明内容

本发明主要是针对现在市场的要求，提供了一种具有及时性高、准确性强的基于深度视频流的实时人脸姿态估计方法。

为了实现上述目的，本发明提供以下技术方案：

本发明提供了一种基于深度视频流的实时人脸姿态估计方法，其步骤包括：抽样及训练阶段和实时估计阶段；在抽样及训练阶段，其步骤包括：获取头部各个角度的人脸景深图，并标注其鼻尖位置和偏转角度；将人脸景深图转换为人脸积分图；在人脸积分图中随机抽样得到训练样本集；采用监督学习方法进行训练，得到分类器；在实时估计阶段，其步骤包括：实时采集得到景深图视频流和普通视频流；获取景深图视频流和普通视频流的视频帧中的脸部位置；针对视频帧中的脸部位置进行随机取样得到待分类样本集；将待分类样本集中所有样本输入分类器，得到姿态估计结果；剔除异常的姿态估计结果；采用加权平均法处理剩下的姿态估计结果，得到最终姿态结果。

在本发明一个较佳实施例中，所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。

在本发明一个较佳实施例中，所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括：从人脸积分图中随机抽取一定规格的切片样本；去除删除空白区域过多的切片样本和深度值过于平缓的切片样本；在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态，得到训练样本集。

在本发明一个较佳实施例中，所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。

在本发明一个较佳实施例中，所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括：利用景深图视频流中的深度信息过滤背景；利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。

在本发明一个较佳实施例中，所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括：在视频帧中的脸部位置上抽取一定规格的切片样本；抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本；利用切片样本得到待分类样本集。

在本发明一个较佳实施例中，所述的剔除异常的姿态估计结果具体步骤包括：采用均值漂移算法找到最密集的姿态估计结果的中心；抛弃离最密集的姿态估计结果的中心相差较远的结果。

本发明的有益效果是：本发明所述的基于深度视频流的实时人脸姿态估计

方法，这种景深数据较二维照片而言，不受光照等噪声的影响，增加了估计结果的准确性，并使得实时姿态估计成为可能；本发明采不会出现丢失目标的情况，本发明可以作为自然人机交互的有效途径，还可以为人脸相关的模式识别问题提供预处理。

附图说明

图1是本发明基于深度视频流的实时人脸姿态估计方法一较佳实施例的流程示意图；

图2是切片样本和测试选取示意图；

图3是空白区域过多的切片示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1至图3，图1是本发明基于深度视频流的实时人脸姿态估计方法一较佳实施例的结构示意图；图2是切片样本和测试选取示意图；图3是空白区域过多的切片示意图。

本发明能直接从脸部全局入手估计脸部姿态，计算量较低；以三维景深图为估计依据，利用随机森林作为学习模型构建分类器，训练时间和泛化时间都较快；对各种脸部情况都能保持一定的鲁棒性和完全的实时性。

所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。

所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括：从人脸积分图中随机抽取一定规格的切片样本；去除删除空白区域过多的切片样本和深度值过于平缓的切片样本；在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态，得到训练样本集。

所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。

以随机森林作为模型进行学习时，首先采用bootstrap方法为森林中各颗树抽取样本集。树中的每个节点，都代表一个样本测试。测试选取的特征为切片样本中任意两个不相交的一定规格的矩形块的景深均值的差值。到达节点的样本集经过测试之后会被分为2部分。选取具有最佳区分度的测试。最佳区分度是指进入左右节点的样本子集对应的脸部姿态和鼻尖位置差异最大。当到达节点的样本集数量过少或生成新节点将超过可允许的树最大深度时，就不再为该节点安排测试生成子节点。

重复以上步骤可以得到一个完整的随机森林模型。

采用随机森林作为基本学习模型，该模型在训练时间和泛化时间上都有较为满意的表现，所以使得实时姿态估计成为可能。

下面结合附图说明随机森林训练和泛化过程，对本发明做进一步阐述：

切片样本：

在切片样本和测试选取示意图中，虚线矩形框部分为实际采用的切片样本；在空白区域过多的切片示意图中，虚线框部分是需要抛弃的切片样本。实际训练时，样本集由若干的切片样本和测试选取示意图中的虚线矩形切片组成。

测试特征选取：

在切片样本和测试选取示意图中，在虚线矩形框中包含有2个小矩形。这两个小矩形就代表了测试时一种可能的矩形区域选取情况。计算时，将矩形1中的所有深度值的均值减去矩形2中的所有深度值的均值得到差值，然后与一个阈值比较，决定该切片样本的去向（进入左子节点还是右子节点）。公式如下：

①

最佳样本区分度定义：

对于每个树节点，需要找到具有最佳区分度的测试。如前面所示，每个切片样本都标注了其距离鼻尖的偏移量和对应的人脸偏转角度。在下式中，ρ表示到达当前节点的切片样本集合，ρi经过某个测试后左或右子节点中的切片样本集合。Σ表示切片样本集合中距离鼻尖偏移量和脸部偏转角度的方差。

②

③

一次比较优秀的测试应该使子节点中的样本相似度更高。所以，始终应该选取使②式最大的测试。

在训练阶段，针对不同脸部姿态抽取若干所述切片样本和测试选取示意图中的切片样本，将这些样本利用以上说的测试选择方法不断为树生成子节点，直到节点中样本数不足或节点深度超过上限。

本发明巧妙的利用了深度视频流中的三维景深数据作为估计基础，这种景深数据较二维照片而言，不受光照等噪声的影响，增加了估计结果的准确性，而且，本发明采用的是逐帧估计的思路，因此，该方法在实际应用中，不需要人工初始化，并且不会出现丢失目标的情况。

在泛化阶段，从实际采集的脸部景深图中，按照与训练抽样相同的方式抽样，然后将待测试样本输入随机森林，得到大量结果并保存。然后剔除远离估计中心的结果，将剩下的结果做加权平均得到最终结果。

所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括：利用景深图视频流中的深度信息过滤背景；利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。

所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括：在视频帧中的脸部位置上抽取一定规格的切片样本；抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本；利用切片样本得到待分类样本集。

所述的剔除异常的姿态估计结果具体步骤包括：采用均值漂移算法找到最密集的姿态估计结果的中心；抛弃离最密集的姿态估计结果的中心相差较远的结果。

本发明所述的基于深度视频流的实时人脸姿态估计方法，这种景深数据较

二维照片而言，不受光照等噪声的影响，增加了估计结果的准确性，并使得实时姿态估计成为可能；本发明采不会出现丢失目标的情况，本发明可以作为自然人机交互的有效途径，还可以为人脸相关的模式识别问题提供预处理。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度视频流的实时人脸姿态估计方法，其特征在于：步骤包括：抽样及训练阶段和实时估计阶段；

在抽样及训练阶段，其步骤包括：

获取头部各个角度的人脸景深图，并标注其鼻尖位置和偏转角度；

将人脸景深图转换为人脸积分图；

在人脸积分图中随机抽样得到训练样本集；

采用监督学习方法进行训练，得到分类器；

在实时估计阶段，其步骤包括：

实时采集得到景深图视频流和普通视频流；

获取景深图视频流和普通视频流的视频帧中的脸部位置；

针对视频帧中的脸部位置进行随机取样得到待分类样本集；

将待分类样本集中所有样本输入分类器，得到姿态估计结果；

剔除异常的姿态估计结果；

采用加权平均法处理剩下的姿态估计结果，得到最终姿态结果。

2.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述的获取头部各个角度的人脸景深图的方法具体为利用三维人脸模型重新渲染生成人脸景深图或利用实际采集的方式获取人脸景深图。

3.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述在人脸积分图中随机抽样得到训练样本集的具体步骤包括：

从人脸积分图中随机抽取一定规格的切片样本；

去除删除空白区域过多的切片样本和深度值过于平缓的切片样本；

在每个切片样本上标记其中心点与鼻尖位置的偏移量和对应的脸部姿态，得到训练样本集。

4.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述的监督学习方法所采用的学习模型包括随机森林、决策树、神经网络和贝叶斯网络。

5.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述的获取景深图视频流和普通视频流的视频帧中的脸部位置的具体步骤包括：

利用景深图视频流中的深度信息过滤背景；

利用普通视频流的图像帧中的肤色和纹理信息找到脸部位置。

6.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述的针对视频帧中的脸部位置进行随机取样得到待分类样本集的具体步骤包括：

在视频帧中的脸部位置上抽取一定规格的切片样本；

抛弃空白区域过多的切片样本和深度值过于平缓的的切片样本；

利用切片样本得到待分类样本集。

7.根据权利要求1所述的基于深度视频流的人脸姿态估计方法，其特征在于，所述的剔除异常的姿态估计结果具体步骤包括：

采用均值漂移算法找到最密集的姿态估计结果的中心；

抛弃离最密集的姿态估计结果中心相差较远的结果。