CN103608841A

CN103608841A - 使用rgbd相机的头部姿势估计

Info

Publication number: CN103608841A
Application number: CN201280029547.3A
Authority: CN
Inventors: 皮尤诗·夏尔马; 阿许温·史汪明纳桑; 拉明·礼萨伊法尔; 薛琦
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-05-17
Filing date: 2012-05-03
Publication date: 2014-02-26
Anticipated expiration: 2032-05-03
Also published as: EP2710554B1; KR20140009585A; KR20160028510A; JP2016035775A; CN103608841B; WO2012158361A1; JP6043856B2; EP3627445A1; US20120293635A1; US9582707B2; JP2014517392A; EP2710554A1; EP3627445B1

Abstract

基于在多个图像中俘获的深度数据来确定主体的头部的三维姿势。例如通过RGBD相机来俘获所述头部的所述多个图像。使用所述深度数据来确定相对于参考姿势的所述头部的所述姿势的旋转矩阵和平移向量。举例来说，可在所述多个图像中的每一者中提取所述头部上的任意特征点，且连同对应的深度数据以及包含与所述头部的所述参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态一起提供给扩展卡尔曼滤波器。随后基于所述旋转矩阵和所述平移向量来确定相对于所述参考姿势的所述头部的所述三维姿势。

Description

使用RGBD相机的头部姿势估计

相关申请案的交叉参考

本申请案主张2012年4月25日申请的且标题为“使用RGBD相机的头部姿势估计(Head Pose Estimation Using RGBD Camera)”的第13/456,061号美国申请案的优先权，所述申请案又根据35USC119规定主张2011年5月17日申请的且标题为“通过整合光学和范围数据的过滤方法进行映射、定位和姿势估计(Mapping，Localization and PoseEstimation by a Filtering Method Integrating Optical and Range Data)”的第61/487，170号美国临时申请案以及2011年11月22日申请的且标题为“使用RGBD相机的头部姿势估计(Head Pose Estimation Using RGBD Camera)”的第61/562,959号美国临时申请案的优先权，所有上述申请案均转让给本案受让人，且其以引用的方式并入本文中。

技术领域

本文中所描述的标的物的实施例一般涉及图像中的主体的姿势确定，且更特定来说，涉及使用具有深度数据的图像来估计主体的头部的三维姿势。

背景技术

许多计算装置包含能够在例如视频帧流中俘获多个图像的相机。举例来说，许多个人计算机包含能够俘获用户的图像的相机，例如网络摄像头。另外，例如蜂窝式电话、智能手机和平板计算机等装置通常包含若干主体相机，例如用于用户的前置相机，或用于其他人的后置相机。

识别主体的位置，且更特定来说，识别图像中的主体的头对于许多应用来说是有用的，所述应用例如为远程出席和游戏。然而，识别并跟踪一系列图像中的主体的头的位置对于常规系统来说是个问题。

发明内容

基于在多个图像中俘获的深度数据来确定主体的头部的三维姿势，即具有6个自由度的姿势。例如通过RGBD相机来俘获所述头部的所述多个图像。使用所述深度数据来确定相对于参考姿势的所述头部的所述姿势的旋转矩阵和平移向量。举例来说，可在多个图像中的每一者中提取头部上的任意特征点，且连同对应的深度数据以及包含与所述头部的所述参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态一起提供给扩展卡尔曼滤波器。随后基于所述旋转矩阵和所述平移向量来确定相对于所述参考姿势的所述头部的所述三维姿势。

在一个实施方案中，一种方法包含俘获具有主体的头部的深度数据的多个图像，且使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。

在一个实施方案中，一种设备包含：RGBD相机，其用以俘获具有主体的头部的深度数据的图像；以及处理器，其耦合到所述RGBD相机以接收具有所述主体的所述头部的所述深度数据的多个图像，所述处理器经配置以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。

在一个实施方案中，一种设备包含用于俘获具有主体的头部的深度数据的多个图像的装置，以及用于使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的装置。

在一个实施方案中，一种非暂时性计算机可读媒体包含用以接收具有主体的头部的所述深度数据的多个图像的程序代码，以及用以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的程序代码。

附图说明

图1说明能够使用具有深度数据的图像来估计头部的三维(3D)姿势(定向和位置)的装置。

图2说明使用具有深度数据的图像来估计头部姿势的方法的流程图。

图3说明包含参考图像的具有不同姿势的主体的头部的图像。

图4说明用于使用具有深度数据的图像来估计主体的头部的三维姿势的系统图。

图5说明来自图4的二维面部跟踪器的实施例。

图6说明再填充良好隅角的列表以在面部上跟踪的实施例。

图7说明图4中所示的系统中所使用的扩展卡尔曼滤波器270。

图8是能够基于具有深度数据的所俘获图像来确定主体的头部的3D姿势的装置的框图。

具体实施方式

图1说明能够使用具有深度数据的所俘获图像来估计主体的头部的三维(3D)姿势(定向和位置)的装置100，所述图像例如是从具有红、绿、蓝、距离(RGBD)传感器的相机110或其它类似的3D成像装置获得，所述相机110在本文中被称作RGBD相机110。3D姿势有时被称作具有6个自由度的姿势。RGBD相机110是经校准的多模态传感器，其提供相互对准的图像(电-光、红外线，或在其它电磁频带中)和范围图，因此RGB值对场景的光亮度取样，且D值对沿着同一投影线的深度取样。

图1说明作为移动平台的装置100，例如蜂窝式电话，其包含外壳101、可为触摸屏的显示器102，以及扬声器104和麦克风106。显示器102说明由RGBD相机110俘获的头部120的图像。装置100包含用于处理由RGBD相机110俘获的图像的图像处理单元112以及在确定头部姿势的估计中有用的扩展卡尔曼滤波器270，如下文更详细地论述。以虚线说明RGBD相机110以指示RGBD相机110位于装置100的背侧上，但RGBD相机110或额外的相机可位于装置100的前侧上。例如，在装置100是移动平台的情况下，装置100可进一步包含运动传感器108。传感器108可为加速度计、磁力计和/或陀螺仪中的一者或一者以上。

如本文中所使用，移动平台是指任何便携式电子装置，例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型或其它合适的移动平台。所述移动平台可能够接收无线通信和/或导航信号，例如导航定位信号。术语“移动平台”还既定包含例如通过短程无线、红外、有线连接或其它连接而与个人导航装置(PND)通信的装置，而不管在所述装置处或在所述PND处是否发生卫星信号接收、辅助数据接收，和/或位置相关处理。而且，“移动平台”既定包含能够俘获具有主体的深度数据的图像的所有电子装置，包含无线通信装置、计算机、膝上型计算机、平板计算机、智能电话等。

然而，应理解，虽然装置100有时在本文中被描述为移动平台，但装置100可为固定装置或可包含一个或一个以上固定组件，例如图像处理单元112和/或扩展卡尔曼滤波器270可为固定的，而RGBD相机110在连接到图像处理单元112和扩展卡尔曼滤波器时自身为可移动的。

图2说明使用具有深度数据的所俘获图像来估计头部姿势的方法的流程图。如可看到，例如使用RGBD相机110来俘获具有主体的头部的深度数据的多个图像(152)。可将所述图像俘获为(例如)一系列视频帧。主体在俘获图像时自由移动他的/她的头部。主体的头部的参考姿势是从所俘获图像中的一者获得，且界定参考坐标框架。使用深度数据相对于参考坐标框架来确定与多个图像中的头部的姿势相关联的旋转矩阵和平移向量(154)。举例来说，可通过从头部(例如，在面部上)的图像提取特征点而在二维中确定旋转矩阵和平移向量。与所跟踪的特征点相关联的深度数据可随后用于在三维中确定头部的旋转矩阵和平移向量。所提取的特征点可为任意的。基于所述旋转矩阵和所述平移向量相对于参考姿势来确定所述头部的三维姿势。举例来说，可将特征点的图像坐标和对应的深度数据以及包含与主体的头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和位置的状态提供给扩展卡尔曼滤波器270。扩展卡尔曼滤波器270可用于相对于参考姿势确定多个图像中的每一者的旋转矩阵和平移向量的估计，可从所述估计确定所述主体的头部相对于参考姿势的三维姿势。

图3说明包含参考图像180的具有不同姿势的主体的头部的图像。通过确定使任何给定图像183和185中的头部分别与参考图像180相关的变换(即，由箭头182和184说明的旋转矩阵和平移向量)，可确定头部相对于参考姿势的三维姿势。可例如在面部分析、压缩中以及在游戏中((例如)用于视觉上控制化身)使用任何图像中的头部的三维姿势。

图4说明用于使用具有深度数据的图像来估计主体的头部的三维姿势的系统图。将例如从RGBD相机110获得的具有对准的深度数据的图像提供给二维(2D)面部跟踪器210，二维面部跟踪器210在当前图像中产生主体面部的关注区(ROI)。2D面部跟踪器210在RGB图像中定位面部。2D面部跟踪器210可基于(例如)OpenCV哈尔级联分类器(OpenCV Haar Cascade Classifier)或其它适当的面部检测过程。例如由OpenCV面部检测执行的面部跟踪操作需要资源密集计算，且在偏航和俯仰方面也无效。因此，可能需要避免对每个帧运行面部检测。举例来说，可将所检测的面部的关注区(ROI)保存为面部模板，且使用所述面部模板使用(例如)标准化交叉相关(NCC)来检测输入图像的面部区。与面部检测过程相比，使用NCC和先前已知的面部模板来更新位置(和模板本身)是计算上高效的。

图5说明来自图4的2D面部跟踪器210的实施例，其中使用面部模板来检测面部区以避免针对每个帧运行计算密集的面部检测过程。2D面部跟踪器210接收输入的RGB图像且确定面部模板是否可用(212)。如果没有面部模板可用，那么运行面部检测过程(214)。如上文所论述，所述面部检测过程可为OpenCV哈尔级联分类器或其它适当的面部检测过程。将所检测的面部的关注区(ROI)保存为面部模板(216)，且作为当前帧面部ROI而输出。如果面部模板可用(212)，那么使输入图像与面部模板匹配以使用NCC来检测面部区(218)。如果确定输入图像与面部模板良好匹配(220)，那么将最佳匹配面部ROI保存为面部模板(216)，且作为当前帧面部ROI从2D面部跟踪器210输出。NCC基于在所述位置处相对于模板的匹配的良好度而返回对应于查询图像中的每一像素的在-1与1之间的值。选择具有最高NCC值的位置，且如果最高值大于阈值(例如，0.7)，那么确定所述位置是良好匹配。因此，2D面部跟踪器210在每个帧之后更新面部模板，使得面部模板是基于主体的头部的最近的姿势。如果确定输入图像不与面部模板良好匹配(220)，那么删除模板(222)且过程返回到步骤212。

返回到图4，例如如果前一帧面部ROI中的特征点的数目大于所要阈值，那么确定是否存在充足的隅角来跟踪当前帧中的面部(230)。如果在面部上存在充足的隅角进行跟踪，那么对当前帧面部ROI执行光流(240)过程。所述光流过程可为(例如)所属领域的技术人员众所周知的卢卡斯-立华奏光流。然而，在需要时，可使用其它光流过程，例如标准化交叉相关。系统产生参考帧，所述参考帧包含主体的头部的参考姿势。光流将每一后续帧中的隅角与前一帧进行比较。通过以参考帧开始且对后续帧对执行光流，可确定相对于参考姿势的头部姿势的旋转矩阵和平移向量。

如果确定在面部上存在不充足的隅角进行跟踪(230)，那么再填充面部上的待跟踪的隅角列表(250)。然而，面部实质上是“没有纹理的”。因此，可使用FAST(来自经加速片段测试的特征)隅角的隅角检测器或来自OpenCV的特征检测器将一般识别图像的背景区域中的隅角，且因此，需要在检测待跟踪的隅角之前从背景分割面部。此外，需要避免可能出现在面部图像中的T接合处。另外，如上文所论述，头部姿势估计使用扩展卡尔曼滤波器，扩展卡尔曼滤波器跟踪来自良好隅角列表的隅角。因此，当再填充隅角列表时，需要保留正被跟踪的隅角，使得仅添加新的隅角，同时避免重复。

图6说明再填充良好隅角的列表(250)以在面部上进行跟踪的实施例。如所说明，基于来自当前RBGD图像的深度数据以及由2D面部跟踪器提供的当前图像的面部ROI(210)来计算(252)面部的深度。例如基于每一像素面部ROI或ROI内的区的平均深度来计算面部的深度。使用面部的深度以及来自当前RGBD图像的深度数据使用深度阈值划定来从背景(254)分割面部。举例来说，不位于面部的深度的预定阈值(例如，±4英寸)内的RGBD图像中的任何像素可被分割出图像以产生面部图。随后基于面部图在RBGD图像中的面部上运行隅角检测器(256)。隅角检测器可使用OpenCV功能“goodfeaturestotrack()”，其使用“梯度的最小特征值”来找出隅角。或者，隅角检测器可使用哈里斯隅角(Harris corner)、FAST隅角或SURF(加速稳健特征(Speeded UpRobust Feature))。另外，使用来自RGBD图像的深度数据运行边缘检测器(258)(例如，卡尼边缘检测器)以产生深度图像边缘图。来自隅角检测器(256)的所检测的隅角的列表中的隅角在其位于深度图像边缘图中的边缘上的情况下会被丢弃(260)，从而避免T接合处。因此，所得的隅角列表包含面部上的不位于深度图像边缘图中的边缘上的所有隅角。将所得的隅角列表与现有的隅角进行比较，且排除重复者(262)，使得识别面部上的新隅角。可基于阈值划定来识别重复的隅角。举例来说，对于每一所识别的隅角(例如，由步骤260提供)，找出与最近的现有隅角相距的距离，且将所述距离与预定阈值(例如，10个像素)进行比较。如果所述距离小于阈值，那么将所述阈值作为重复者进行排除。因此，产生不具有重复者的新隅角列表，且将所述列表提供给光流(240)。因此，深度数据用于再填充隅角，光流(240)从所述隅角确定点对应性，所述点对应性随后由扩展卡尔曼滤波器(270)用来估计相对于参考姿势的头部姿势的旋转矩阵和平移向量。

返回参看图4，光流(240)过程将点跟踪信息提供给扩展卡尔曼滤波器(270)。图7说明在图4中所示的系统中使用的扩展卡尔曼滤波器270。到扩展卡尔曼滤波器(270)的输入包含特征点的图像坐标(x,y)和特征点的深度数据(z)。与扩展卡尔曼滤波器(270)一起使用的状态是以下各者：

运动等式

ρ^{i} (t + 1) = ρ^{i} (t), i = 1 . . . N ρ^{i} (0) = ρ_{0}^{i}

T (t + 1) = \exp (\hat{ω} (t)) T (t) + v (t) T (0) = T_{0}

等式1

Ω (t + 1) = {Log}_{SO (3)} (\exp (\hat{ω} (t)) \exp (\hat{Ω} (t))) Ω (0) = Ω_{0}

v(t+1)＝v(t)+α_v(t)v(0)＝v₀

ω(t+1)＝w(t)+α_ω(t)ω(0)＝ω₀

测量值

y^{i} (t) = π (\exp (\hat{Ω} (t))) y_{0}^{i} (t) \exp (ρ^{i} (t)) + T (t)) + n^{i} (t) i = 1 . . . N

等式2

\log z^{i} (t) = \log ([\begin{matrix} 0 & 0 & 1 \end{matrix}] (\exp (\hat{Ω} (t))) y_{0}^{i} (t) \exp (ρ^{i} (t)) + T (t))) + n_{z}^{i} (t) i = 1 . . . N

其中：

大致在其变得可见的第一时刻被测量，出于简单起见，这里假设为时间t＝0(将描述如何处理消失的点，以及出现在时间t＞0之后的点特征)。

ρⁱ(t)∈R是表示时间t处的第i个特征点的深度的对数的状态变量。选择对数坐标以实现以下两者：加强可见点的深度exp(ρ)必须为正的事实，且从装置的范围部分矫正范围深度测量值不定性的分布。

T(t)∈R³是表示从时间t处的相机帧到世界帧的平移向量的状态变量。

Ω(t)∈SO(3)是表示从时间t处的相机帧到世界帧的旋转的状态变量。

v(t)∈R³是时间t处的相机的线性速度。

ω(t)∈R³是时间t处的相机的角速度。

α_v和α_ω被假设为零均值高斯噪声过程。

yⁱ(t)∈R²是在时间t处在第i个特征点的相机坐标框架中的所测得的图像坐标。

logzⁱ(t)∈R是在时间t处在第i个特征点的相机坐标框架中的所测得的深度的对数。实际上，范围数据经预处理以产生对数深度，且假定噪声在对数尺度中是加性的。

扩展卡尔曼滤波器(270)产生从当前相机位置到世界坐标的平移向量(T)和旋转矩阵(R)。如图4中所说明，来自扩展卡尔曼滤波器(270)的主体的头部的所得的三维姿势可用于组合来自主体的多个视图的点云(例如来自RGBD图像)和当前帧的面部ROI以产生对准的面部点云。姿势经校正的对准的面部点云可提供更平滑和完整的面部模型，所述面部模型具有许多应用，例如在远程出席和游戏中。

图8是能够基于具有深度数据的所俘获图像来确定主体的头部的3D姿势(定向和位置)的装置100的框图。装置100包含用于俘获具有深度数据的装置，例如RGBD相机110。装置100可进一步包含用户接口150，用户接口150包含用于显示图像的装置，例如显示器102。用户接口150还可包含用户可通过其将信息输入到装置100中的小键盘152或其它输入装置。在需要时，可通过将虚拟小键盘集成到具有触摸传感器(或手势控制件)的显示器102中而消除小键盘152。例如，在装置100是蜂窝式电话或类似物的情况下，用户接口150还可包含麦克风106和扬声器104。当然，装置100可包含不与本发明相关的其它元件。举例来说，装置100可包含运动传感器，例如加速度计、磁力计和/或陀螺仪中的一者或一者以上，其在确定装置的移动的过程中可为有用的。

装置100还包含控制单元160，控制单元160连接到RGBD相机110且与RGBD相机110通信。控制单元160接受且处理由RGBD相机110俘获的图像和深度数据且控制显示器102。控制单元160可由处理器161和相关联的存储器164、硬件162、软件165、固件163和总线160b提供。控制单元160可包含图像处理单元112，图像处理单元112执行上文所描述的过程的各种方面，例如2D面部跟踪器(210)、再填充隅角(250)和光流(240)，如图4、5和6中所描述。控制单元160进一步包含扩展卡尔曼滤波器270以使用深度数据来确定主体的头部的三维姿势，如图4和7中所描述。可将主体的头部的三维姿势存储在存储器164或其它存储单元中，且将其用于确定头部的姿势。

出于清楚起见，图像处理单元112和扩展卡尔曼滤波器270是与处理器161分开地说明的，但是可为处理器161的一部分或者基于在处理器161中运行的软件165中的指令而实施于处理器中。将理解，如本文中所使用，处理器161可(但不需要一定)包含一个或一个以上微处理器、嵌入式处理器、控制器、专用集成电路(ASIC)、数字信号处理器(DSP)等。术语处理器意在描述由除了特定硬件之外的系统实施的功能。如本文中所使用，术语“存储器”指代任何类型的计算机存储媒体，包含与装置100相关联的长期、短期或其它存储器，且不限于任何特定类型的存储器或存储器的数目，或上面存储存储器的媒体的类型。

取决于应用，本文中所描述的方法可由各种装置实施。举例来说，可在硬件162、固件163、软件165或其任何组合中来实施这些方法。对于硬件实施方案，可在一个或一个以上专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元或其组合内实施处理单元。

对于固件及/或软件实施方案，可用执行本文所描述的功能的模块(例如，程序、功能等)来实施所述技术。有形地体现指令的任何机器可读媒体可用于实施本文中所描述的方法中。举例来说，软件代码可存储于存储器164中且由处理器161执行。存储器可实施于处理器161内或处理器161外部。如果实施于固件和/或软件中，则可将功能作为一个或一个以上指令或代码而存储在计算机可读媒体上。实例包含编码有数据结构的非暂时性计算机可读媒体和编码有计算机程序的计算机可读媒体。计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制，此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体；如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。

虽然为了说明目的而结合特定实施例说明了本发明，但本发明不限于其。在不脱离本发明的范围的情况下，可作出各种调适和修改。因此，所附权利要求书的精神和范围不应被限制于前述描述。

Claims

1.一种方法，其包括：

俘获具有主体的头部的深度数据的多个图像；以及

使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。

2.根据权利要求1所述的方法，其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括：

提取所述多个图像中的每一者中的所述头部上的任意特征点；以及

使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量。

3.根据权利要求2所述的方法，其进一步包括：

使用所述深度数据产生所述头部的边缘图；以及

丢弃所述边缘图的边缘上的所述任意特征点。

4.根据权利要求2所述的方法，其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括：

将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器；以及

使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量。

5.根据权利要求1所述的方法，其进一步包括：

使用所述深度数据从所述多个图像中的背景提取所述头部上的面部；以及

在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部。

6.根据权利要求5所述的方法，其中从所述背景提取所述面部包括：

使用所述深度数据来计算每一图像中的所述面部的深度；以及

使用阈值和所述面部的所述深度从所述背景分割出所述面部。

7.一种设备，其包括：

红、绿、蓝、距离RGBD相机，其用以俘获具有主体的头部的深度数据的图像；以及

处理器，其耦合到所述RGBD相机以接收具有所述主体的所述头部的所述深度数据的多个图像，所述处理器经配置以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量。

8.根据权利要求7所述的设备，其中所述处理器经配置以通过经配置以进行以下操作来确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量：

9.根据权利要求8所述的设备，其中所述处理器进一步经配置以：

使用所述深度数据产生所述头部的边缘图；以及

丢弃所述边缘图的边缘上的任意特征点。

10.根据权利要求8所述的设备，其中所述处理器经配置以通过经配置以进行以下操作来确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量：

11.根据权利要求7所述的设备，其中所述处理器进一步经配置以：

12.根据权利要求11所述的设备，其中所述处理器经配置以通过经配置以进行以下操作来从所述背景提取所述面部：

13.一种设备，其包括：

用于俘获具有主体的头部的深度数据的多个图像的装置；以及

用于使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的装置。

14.根据权利要求13所述的设备，其中所述用于确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的装置包括：

用于提取所述多个图像中的每一者中的所述头部上的任意特征点的装置；以及

用于使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量的装置。

15.根据权利要求14所述的设备，其进一步包括：

用于使用所述深度数据产生所述头部的边缘图的装置；以及

用于丢弃所述边缘图的边缘上的任意特征点的装置。

16.根据权利要求14所述的设备，其中确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量包括：

用于将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器的装置；以及

用于使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量的装置。

17.根据权利要求13所述的设备，其进一步包括：

用于使用所述深度数据从所述多个图像中的背景提取所述头部上的面部的装置；以及

用于在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部的装置。

18.根据权利要求17所述的设备，其中所述用于从所述背景提取所述面部的装置包括：

用于使用所述深度数据来计算每一图像中的所述面部的深度的装置；以及

用于使用阈值和所述面部的所述深度从所述背景分割出所述面部的装置。

19.一种包含存储在上面的程序代码的非暂时性计算机可读媒体，其包括：

用以接收具有主体的头部的所述深度数据的多个图像的程序代码；

用以使用所述深度数据相对于参考坐标框架来确定与所述多个图像中的所述头部的姿势相关联的旋转矩阵和平移向量的程序代码。

20.根据权利要求19所述的非暂时性计算机可读媒体，其中所述用以确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的程序代码包括：

用以提取所述多个图像中的每一者中的所述头部上的任意特征点的程序代码；以及

用以使用与所述任意特征点相关联的所述深度数据来确定所述头部的所述姿势的所述旋转矩阵和所述平移向量的程序代码。

21.根据权利要求20所述的非暂时性计算机可读媒体，其进一步包括：

用以使用所述深度数据产生所述头部的边缘图的程序代码；以及

用以丢弃所述边缘图的边缘上的任意特征点的程序代码。

22.根据权利要求20所述的非暂时性计算机可读媒体，其中所述用以确定与所述头部的所述姿势相关联的所述旋转矩阵和所述平移向量的程序代码进一步包括：

用以将所述任意特征点的图像坐标和对应的任意特征点的所述深度数据以及包含与所述头部的参考姿势相关联的旋转矩阵和平移向量以及当前定向和当前位置的状态提供给扩展卡尔曼滤波器的程序代码；以及

用以使用所述扩展卡尔曼滤波器来确定所述旋转矩阵和所述平移向量的程序代码。

23.根据权利要求19所述的非暂时性计算机可读媒体，其进一步包括：

用以使用所述深度数据从所述多个图像中的背景提取所述头部上的面部的程序代码；以及

用以在从所述背景提取所述面部之后跟踪所述多个图像中的所述面部的程序代码。

24.根据权利要求23所述的非暂时性计算机可读媒体，其中所述用以从所述背景提取所述面部的程序代码包括：

用以使用所述深度数据来计算每一图像中的所述面部的深度的程序代码；以及

用以使用阈值和所述面部的所述深度从所述背景分割出所述面部的程序代码。