CN104115192B

CN104115192B - 三维近距离交互的改进或与其有关的改进

Info

Publication number: CN104115192B
Application number: CN201380004669.1A
Authority: CN
Inventors: 劳伦特·季格斯; 奥利维尔·菲斯; 凯文·西蒙斯; 云苏·胡; 阿历山大·卡莫维彻
Original assignee: Softkinetic Software SA
Current assignee: Sony Depthsensing Solutions NV SA
Priority date: 2012-06-25
Filing date: 2013-06-06
Publication date: 2017-06-30
Anticipated expiration: 2033-06-06
Also published as: US9189855B2; WO2014001058A1; KR101588254B1; KR20140119038A; CN104115192A; JP5845365B2; EP2680228B1; EP2680228A1; US20150117708A1; JP2015510203A

Abstract

本文描述了一种用于检测、识别和跟踪三维场景的深度图像内使用者的手、手的部分和手(500)上的手指的方法。检测、识别并从深度图像的背景中分割使用者的臂部，并随着时间来跟踪。识别和跟踪使用者的手，并确定和跟踪手的部分的位置和方向，手的部分包括手掌和手指(510,520,530,540,550)，以生成能进行手势交互的输出信息。

Description

三维近距离交互的改进或与其有关的改进

技术领域

本发明涉及三维(3D)近距离交互的改进或与其有关的改进，更特别地，但非排他性地，涉及靠近深度感应成像装置的使用者的手和/或手的主要部分的检测和跟踪，由此确定实现基于手和/或手指的手势交互的信息。

背景技术

利用手势和运动识别的人机交互系统和方法是计算机视觉领域中已知的技术。已知的是，目前基于测距照相机装置的交互系统，例如，使用3D结构光照相机的系统，也能实现使用者在特定成像装置的视场内进行的3D手势和运动识别。在这种系统中，使用者一般站立于距照相机至少1m的距离处，他的运动和/或手势需要清晰突出，即，足够大，以便预定和限制了分辨率的3D照相机进行检测。例如，典型的3D照相机分辨率是基于四分之一视频图形阵列(QVGA)，即，320*240像素，因此，限制了可检测运动的精度或检测距3D成像装置过远的较小对象(例如，手指)的能力。在这种系统中，一般无法可靠地检测和跟踪使用者的手，更特别地，无法在这种距离下检测手的手指。更确切地说，大多数现有3D成像装置用于对距照相机1m至5m的范围内的使用者进行全骨骼跟踪。另外，大多数这种3D成像装置的技术规格使其无法在距照相机传感器0m至1.5m的范围内进行测量。

但是，随着某些新技术的发展，例如，3D飞行时间(ToF)照相机，可检测和跟踪处于照相机传感器不同距离处的特征，例如，距照相机传感器1m以内，特别是0.5m以内的使用者的手和/或手指。这被称作“近距离交互”，特别适用于桌面环境或其它环境，例如，汽车环境中实现基于非接触式手部和手指手势的交互。

已知的是，通过肤色检测在内嵌了每个像素的颜色通道的图像内检测人体的多个部位是否存在。这种方法在A.A.Argyros和M.I.A.Lourakis的标题为“使用可运动相机对多肤色对象进行实时跟踪”的文章(欧洲计算机视觉会议(ECCV’04)记录，施普林格出版社，第3卷，第368至379页，2004年5月11日至14日，捷克共和国，布拉格)中有所描述。在本文中，基于贝叶斯分类器检测团块，贝叶斯分类器用小的数据训练集引导，包括肤色概率，以使分类器解决环境照度可能干扰肤色检测时出现的照度变化问题。该检测方法基本上能在近距离交互环境中检测使用者的手和脸，可与这些被检测肤色团块的某些跟踪功能相结合，由此提供图像中团块的位置信息。这种信息随后可用于对手势识别系统提供输入，例如，以在没有身体接触的情况下简单地控制计算机鼠标。

在另一项公开中，S.E.Ghobadi、O.E.Loepprich、K.Hartmann和O.Loffeld在标题为“使用2D/3D图像进行手势分割”的文章(2007年新西兰图像与视觉计算会议记录，第64至69页，新西兰，哈密尔顿，2007年12月)中对基于2D/3D图像融合进行手势识别的快速鲁棒分割技术进行了描述。3D ToF照相机用于针对光子混合器件(PMD)传感器的每个像素生成强度图像和距离信息。将强度和距离数据融合，以向分割算法提供输入信息，而分割算法依赖于与期望最大化技术(KEM)相结合的K-Means。KEM将K-Means群集技术与期望最大化技术相结合，由此在第一步中利用K-means定位自然群集的中心，在第二步中采用期望最大化技术的软概率分配以迭代方式找到局部最大值，由此对找到的群集的位置和边界进行精化。在背景均匀的简单环境中，在与待分割对象相距足够距离的情况下，在具有任何照明条件的场景中，通过融合数据，可将使用者的手与其身体、脸、臂部或其它对象实时正确分割。这种环境下这种方法的鲁棒性可以说满足了作为处理技术的第一步在2D/3D手势跟踪和手势识别中的用途。在另一篇I.Oikonomidis、N.Kyriazis和A.A.Argyros的标题为“强交互双手的关节运动跟踪”的文章中(http://www.ics.forth.gr/～argyros/mypapers/2012_06_cvpr_twohands.pdf)，采用粒子群优化算法(PSO)处理RGB-D传感器，即，还提供深度信息的颜色传感器发出的信号。该方法进行无标记视觉观察，以跟踪互相进行复杂无约束交互的双手的全部关节。所述方法通过直接对已知尺寸和运动学特征的两个合成对称3D手模型的关节确定感觉信息而实现了交互双手的完全检测和跟踪。对于双手的指定关节，可通过模拟图像获取过程，例如，通过生成用于进行特定照相机场景校准的合成深度图而预测RGB-D传感器的感知内容。在建立参量过程，以生成实际输入的可比数据之后，通过搜索与实际输入最相似的，能生成深度图的参数而进行跟踪。跟踪是以在线方式进行的，在每个步骤中，对于每个新输入，都执行优化步骤，并利用PSO变量，将实际RGB-D输入与根据假定关节生成的模拟深度图之间的偏差最小化，得分最高的假设则构成当前输入的解。仔细制定偏差度量，以通过每个优化步骤中利用的计算效率和时间连续性达到鲁棒性。

M.K.Bhuyan等人在“手势识别的指尖检测”(国际计算机科学与工程杂志(ISCSE)，第4卷，第3期，2012年3月)中还对前臂和手部的分割进行了描述。本文提出了指尖检测和手指类型识别方法，在该方法中，利用基于贝叶斯规则的肤色分割将指尖定位在手区域内。随后通过观测某些几何特征在分割的手部区域中进行形态学运算。随后进行手指运动的几何特征的最终概率建模，使手指类型识别过程的鲁棒性大大提高，特别在为手势语言识别和手势动画中的手语提供有价值信息的场境下。

S.Malassiotis和M.G.Strintzis的标题为“利用距离数据进行实时手形识别”的文章(图像与视觉计算，26(2008)，第1027至1037页)对进行臂部分割、手-前臂分割、手形估算和手势分类，以识别复杂手形，例如，手语字母表中遇到的手形的方法进行了描述。根据该方法，利用手的三维几何特征识别手语手形和/或手势，从而捕捉和处理三维图像数据。

WO-A-03/071410对使人利用手势和手形与电子装置交互的另一种方法进行了说明。所述方法包括：获取人的身体部位的多个离散区域的位置信息。位置信息包括身体部位的每个离散区域相对于参考位置的深度值。利用3D传感器系统捕捉3D场景的深度图像，并对其进行处理，以从场景的背景中分割一个或多个感兴趣区，每个感兴趣区包括将进行手势检测的手。将每个手势分类，并与一组不同手势进行比较。

尽管手部检测和建模在文献中有广泛讨论，但上述文件均没有提供在不使用任何颜色信息，也不使用任何手模型或具有关节的骨架表示的情况下，采用3D成像传感器生成的深度图作为输入信息，对靠近成像装置的手的部分及其参数(包括手指、手掌和方向)进行检测和跟踪的方法。

发明内容

因此，本发明的一个目的在于提供在3D传感装置(例如，具有适当分辨率的飞行时间(ToF)照相机)的截头锥体限定的预定体积中检测、定位和分割使用者的手，特别是手指、指尖、手掌和手的参数的方法。

本发明的另一个目的在于提供在不使用与输入的深度图配合或匹配的任何模型或骨架表示的情况下检测、定位和分割使用者的手，特别是手指、指尖、手掌和手的参数的方法。

本发明的另一个目的在于提供无论手在空间中的手形如何都能检测、定位和分割使用者的手，特别是手指、指尖、手掌和手的参数的方法。

本发明的一个进一步目的在于提供使用具有近距离模式检测功能的3D传感装置提供的输入信息检测、定位和分割站立于场景中的至少一个使用者的多个手的方法。

本发明的另一个进一步目的在于对利用手和手指的手势和/或手形通过3D传感装置进行近距离交互的人机界面提供输入数据。

本发明的一个进一步目的在于仅利用在与计算机化系统关联的3D传感系统的截头锥体内操作的手对计算机化系统提供控制。

根据本发明的第一个方面，提供了一种利用场景的深度图像检测和跟踪与三维场景中的使用者的肢端关联的至少一个特征的方法，所述方法包括以下步骤：

a)分割每个深度图像内的至少一个感兴趣区；

b)确定与分割的深度图像内的使用者的肢体对应的至少一个感兴趣对象；

c)随着时间跟踪每个肢体；

d)识别与每个肢体关联的肢端；

e)随着时间跟踪识别的每个肢端；

f)将识别的每个肢端与其关联肢体隔离；

g)确定与每个隔离肢端有关的参数；

h)识别每个隔离肢端中的至少一个特征；并且

i)随着时间跟踪识别的每个特征。

步骤a)可包括：使用至少一个结构元素，该至少一个结构元素为深度图像中的每个像素的深度的函数。

步骤c)可包括：确定每个肢体的时态关联。这种情况下，步骤e)可包括：基于对每个肢体估算的时态关联跟踪每个肢端。

在一个实施例中，步骤d)可进一步包括：使用深度图像中的每个肢体的点的加权平均值识别每个肢端。

在另一个实施例中，步骤f)可包括以下步骤：

f1)确定与使用者的每个肢体相关联的每个肢端的中心；并且

f2)确定从肢端中心到肢端边界的距离。

另外，步骤f)可进一步包括：采用切割方法将肢端与肢体隔离，所述切割方法的中心为确定的肢端的中心。

可替代地，或附加地，步骤d)可进一步包括：采用生长方法将肢端与肢体隔离。

步骤g)可包括：确定与肢端关联的至少一个参数。确定的与肢端关联的每个这种参数可用于识别与肢端关联的至少一个特征。在一个实施例中，与肢端关联的至少一个特征可包括深度图像内肢端的方向。

在一个实施例中，步骤g)可进一步包括：利用确定的每个参数确定肢端的末端位置。

在一个实施例中，肢体包括臂部，肢端包括手，其中，与肢端关联的每个特征包括手的至少一个手指。这种情况下，步骤h)包括：识别手的轮廓内的剪影手指和指向手指。在另一个实施例中，步骤h)包括：识别每个指尖。这可通过将识别的剪影手指和指向手指合并在一起，构成唯一的一组手指而实现。

根据本发明的另一个方面，提供了一种手势识别方法，其用于识别至少一只手做出的手势，该手势识别方法包括上文所述的利用场景的深度图像来检测和跟踪与三维场景中的使用者的肢端相关联的至少一个特征的方法。

根据本发明的进一步方面，提供了一种计算机程序，其用于进行上文所述的利用场景的深度图像来检测和跟踪与三维场景中的使用者的肢端相关联的至少一个特征的方法的步骤。

附图说明

为了更好理解本发明，将仅以示例的方式参考以下附图，在附图中：

图1示出了根据本发明的方法步骤的流程图；

图2示出了代表近距离模式测距照相机装置捕捉的3D场景的深度图的背景中的使用者的部分的灰阶表示；

图3示出了根据本发明的代表近距离模式测距照相机装置捕捉的3D场景的深度图中的肢体部分的灰阶表示；

图4和图5分别示出了根据本发明的肢体合并时分割肢体的跟踪步骤；

图6和图7分别示出了根据本发明“切割”肢端，以隔离手部的各个步骤；

图8和图9示出了确定隔离的手部的中心的各个步骤；

图10和图11示出了根据本发明在测距测量的3D点云表示中进行手部建模的各个步骤；并且

图12至图14示出了根据本发明的手指检测和跟踪的各个步骤。

具体实施方式

下文将根据特定实施例，参照特定附图对本发明进行说明，但本发明并不限于此。所述附图仅为示意图，并不具有限制性。在附图中，为了直观起见，某些单元的尺寸可能会放大，并非按比例绘制。

应理解的是，本文使用的术语“垂直”和“水平”指附图的特定方向，这些术语并不限制本文所述的特定实施例。

本发明涉及场景内至少一个使用者的至少一只手的至少一个部分的检测和跟踪，用于使人在近距离交互场境下进行计算机交互。检测和跟踪的目的在于确定将随着时间进行交互的手或手的一部分的各个位置，以在进一步步骤中检测和识别这只手或这只手的一部分，特别是这只手的手指做出的静态手形和动态手势。利用深度相关信息，在捕捉的不同图像中确定和分割场景中的多个感兴趣对象。深度相关信息是利用具有近距离交互功能，即，距离为1m以下，优选为0.5m以下的ToF照相机获得的。如果照相机或成像装置的传感器具有适合远距离手指检测和跟踪的分辨率，则该方法适用于使用者站立于远离照相机或成像装置，即，距照相机1m以上的位置的情况。

本文使用的术语“手形”指代表特定瞬间的手部的一组关键点的排列。本文使用的术语“手势”指手部的关键点随着时间产生的排列变化。附加地，或可替代地，术语“手势”还可指关键点的不变排列在空间中的位置随着时间产生的变化。

如果手形不会随着时间变化，即，关键点的排列及其在空间内的位置保持不变，称为静态手形。如果关键点的排列保持不变，排列位置随着时间在空间内变化，这可称为具有静态手形的手势。如果关键点的排列随着时间变化，称为具有不同手形的手势。

根据本发明，对基于3D传感装置获取的深度图像的实时流对使用者的手部(特别包括手指和手掌)进行检测、跟踪和建模的方法进行了说明。特别地，ToF3D照相机可用于以3D点云或深度图的形式提供深度图像。另外，本发明的方法可用于对一个以上的手进行检测、跟踪和建模，利用智能分割法隔离场景中的感兴趣对象，即，本发明的优选实施例中的手部。但是，所述方法并不限于手部，可用于跟踪其它肢端或其它已知形式的可交互对象。

图1示出了本发明的方法步骤的流程图。第一步骤，步骤105，是获取可为上述3D点云或深度图形式的深度图像。下一步骤，步骤110，是将使用者的肢体与深度图像的其它部分分割。在步骤115中，跟踪经分割的肢体，并在步骤120中确定被跟踪肢体的肢端。随后在步骤125中跟踪这些肢端，并在步骤130中对这些肢端进行建模。建模之后，在步骤135中进行用于识别手部的识别过程，随后在步骤140中对手部进行几何建模。随后在步骤145中检测和跟踪手的手指，并可在步骤150中进一步计算手的开度。步骤150中的输出例如用于对与计算机化系统的交互进行控制，所述计算机化系统包括用于捕捉输入的3D电源或深度图的3D成像系统。现在将对过程的每个步骤进行更详细说明。

可在步骤105中采用任何已知合适技术，例如，使用直接提供深度图像，或以确定的坐标系中的3D点云的形式提供深度图像的3D成像系统或其它测距照相机或成像装置获取深度图像。深度图像在步骤110中构成肢体分割过程的输入。

3D成像系统包括具有已知物理参数，例如，焦距、视场、透镜畸变等的照相机或成像传感器。由此，捕捉的图像中与成像系统的截头锥体内的对象对应的2D点及其深度值可易于转换成照相机参考系中的3D坐标。这意味着空间中指定点上的真实坐标可转换成图像空间中的坐标，例如，深度图中的像素单元。真实公制系统中提供的下文详细说明的形态学开运算过程中使用的侵蚀/膨胀球体的半径独立转换成每个像素在深度图像中的半径(在其深度已知的情况下)。

在肢体分割过程中，在步骤110中，深度图像构成输入，并勾画与3D空间中尺寸小于预定值或阈值的对象对应的当前深度图像的特定区域。将最大尺寸值设为大于人的肢体和头部的宽度，但小于人的胸部宽度的值。这可使将通过肢体分割过程勾画的区域包括图像中可见的人的肢体和头部，但不包括躯干和背景。

可在特别用于实施本发明，要求使用深度图信息的区域生长和合并方法之后，采用基本图像过滤算法的特定自适应算法进行肢体分割步骤。对实值图像进行的形态学开运算包括：利用构成‘侵蚀图像’的预定尺寸的结构元素计算图像的侵蚀，并用另一个结构元素计算侵蚀图像的膨胀。

侵蚀是形态学图像处理中的两种基本运算的其中之一，所有其它形态学运算都基于这两种基本运算。二值形态学的基本概念是探测具有简单预定形状的图像，并确定这种预定形状是否符合被处理图像中的形状。这种简单的“探测”被称为结构元素，本身是一种二值图像，即，空间或网格或像素的子集。

形态学图像处理中的另一种基本运算是膨胀。此处，该算子对二值图像的基本作用是逐渐放大前景像素的区域边界，例如，一般为2D图像中的白色像素，或者深度图中靠近预定距离的像素，使前景像素的区域的尺寸增大，同时这些区域内的孔变小。膨胀算子采用两种数据作为输入，即，待膨胀图像和一组坐标点，一般为一小组坐标点，称为结构元素(也称为核心)。确定膨胀对输入图像的精确效果的则是该结构元素。

形态学开运算的使用具有两种优点：可使用两种不同结构元素进行侵蚀和膨胀步骤，结构元素的尺寸可根据图像包含的深度值适应图像中的每个像素，而不是对像标准2D图像处理技术那样对整个图像采用固定尺寸。在特定有利实施例中，结构元素(例如，半径为r的球体)的尺寸，可作为每个像素的深度函数，即，像素与照相机或3D成像系统的距离，因此，如果元素位于与照相机坐标系对应的点的真实3D位置，则其具有恒定尺寸。这提供了‘视角不变量’开口。这意味着，对象视角的变化不影响开口的尺寸。

作为肢体分割步骤，步骤110的一部分，可将参数，例如，单位为米的侵蚀半径re和单位为米的膨胀半径rd作为形态学开运算的一部分而确定。另外，作为肢体分割步骤的一部分，将参数，例如，差阈t和最大深度变化Δd应用于输入深度图像中。虽然在肢体分割步骤中导出了这些参数，但其并不用于后续处理步骤。

肢体分割步骤，步骤110的输出包括从侵蚀图像(侵蚀)、开运算图像(膨胀)、输出的差值图像(差值)和输出的区域标记图像(连接区域的标记)中导出的标记图像。

对于深度为d的图像的每个像素，通过在图像空间中投影半径为re，中心为与该像素对应的3D点的球体，从球体中确定侵蚀图像；计算图像在该圆上的最大深度值，并将其分配给侵蚀图像的对应像素。

对于侵蚀图像的每个像素，通过在图像空间中投影半径为rd，中心为与该像素对应的3D点的球体，从圆中确定输出的开运算图像；计算图像在该圆上的最大值，并将其分配给开运算图像的对应像素。

对于深度图像的每个像素，将输出的差值图像确定为其深度与其在开运算图像中的值之间的差。如果像素的输出差值大于差阈t，则该像素被视为属于‘肢体’。

如果图像的每对相邻像素的深度值的绝对差小于最大深度变化Δd，则将其标记为连接状态，并根据先前确定的‘连接’关系对每个连通分量作不同标记，从而确定输出的区域标记图像(连接区域标记)。

随后将小的区域合并成较大的相邻区域，以从‘肢体’分割测定过程中去除假性小区域。区域标记图像的剩余未标记区域基于连接度的分割使人能将‘身体’隔离。相邻肢体与身体之间的连接度分析能估算出哪个肢体与哪个身体连接。

图2示出了近距离交互场境下3D场景内使用者210的图像200。如图所示，使用者210具有一对臂部220,230、头部240和身体250。每个臂部220,230具有关联的手部260,270。在上文所述的肢体分割步骤，步骤110之后，使用者200的臂部220,230以及手部260,270和头部240可按图3所示进行隔离。身体250不属于感兴趣对象，因此不构成肢体分割输出的一部分。被分割对象中感兴趣对象的分类可利用与场景中的对象的统计矩解析相关的深度测量而完成。例如，可去除距离照相机较远的过大对象，而靠近照相机的同一对象将作为距离标准，因为感兴趣对象的定义可以这些对象为优先。一般来说，在近距离交互场境下，仅靠近照相机的一个或两个对象可被视为感兴趣对象。

在步骤110中进行了肢体分割之后，下一步骤是进行肢体跟踪，步骤115(图1)。在该步骤中，在跟踪过程中将当前深度图像，t上的图像的‘肢体’区域与前一深度图像，t-1上的图像的‘肢体’区域相关联。这种成对关联是通过计算t-1上的图像中的肢体与t上的图像中的同一肢体的匹配分数而进行的。匹配分数可以是表面，或者匹配表面比率。在一个优选实施例中，可利用最新运动估计算法对当前帧估算前一帧的每个区域的像素的位置。还可利用统计值，例如，运动平均值或运动中值在区域级对运动进行补偿。

运动估计指确定运动向量的过程，运动向量描述了从一个图像到另一个图像，例如，从一个捕捉图像到另一个捕捉图像的变化，可用模拟在X-、Y-和Z-轴的旋转和平移的模型表示。运动向量可用基于像素的技术(也称为直接法)确定，例如，块匹配、相位相关和/或频域法，以及像素递归算法。在基于像素的方法中，估算指标可为以下项目的一个或多个：最小方差(MSE)、绝对误差和(SAD)、平均绝对差(MAD)和误差平方和(SSE)。还可采用间接法，在间接法中，特征利用应用于局部区域或整体区域的统计函数，例如，随机抽样一致性(RANSAC)算法进行匹配。

随后计算所有可能关联的子集，用于验证保留的关联集仅可模拟‘分割’(1-n)或‘合并’(m-1)关系的约束条件。这在L.Guigues的“使用层次模型进行n-m区域匹配的图像分割的比较”(第二届IAPR-TC15“基于图形的表示”专题讨论会记录，奥地利，Haindorf，1999年)中作为一个图形优化问题进行了说明。定义了一个加权二分图，其中，前一个图像和当前图像的每个区域与图中的节点对应，并在属于不同帧，即，前一帧和当前帧的每对节点之间设置边缘。用匹配分数对所述边缘进行加权。通过确定直径最大为2的该关联图的最大权重子图，可获得最佳匹配结果。提出了一个双步骤最佳程序。在一个优选实施例中，可使用贪婪优化算法。贪婪算法是根据启发式求解在每个阶段做出局部最优选择，以获得全局最优解的算法。在某些情况下，贪婪策略不需要生成最优解，但启发式贪婪算法可生成近似于全局最优解的局部最优解。

利用贪婪优化算法，可从空解开始，可以分数降序对关系进行分类并对分类的关系进行扫描，使当前解中包括的关系不会生成违反最大图直径约束的新解。可用相同方法对身体进行跟踪，随后仅可将与被跟踪身体连接的肢体之间的关联用于进一步处理。

在步骤120(图1)中，检测和跟踪肢体的肢端，这种情况下为手部。在该步骤中，每个肢体的特定部分被识别为肢体的优选肢端。在一个特定实施例中，对于在步骤110(图1)中分割的每个肢体，使用肢体的3D点的加权平均值确定优选肢端。由于确定肢端位于远离肢体重心的位置，与肢体的每个3D点关联的权重可取决于肢端到肢体重心的距离。该距离可为3D空间中的欧几里德距离或肢体表面上的测地距离。

可替代地，与肢体的每个3D点关联的权重可取决于到空间中的特定点的距离，所述特定点模拟空间中特定方向上的肢端的偏好，可称为‘定位点’。定位点可选择位于某些绝对或参考位置，例如，照相机位置，或相对于肢体重心的某些位置。例如，如果将定位点置于照相机位置，用该方法选择的优选肢端则为距离照相机最近的肢端。如果将定位点置于重心上方或前面，用该方法选择的优选肢端则为肢体中心上前方的肢端。定位点可与前一帧中肢端的相对位置相关。一个帧中确定的肢端取决于肢端在前一帧中的位置时，该方法则变成跟踪方法。这防止(例如)肘部看起来比手部更靠近照相机或成像装置时使用者的肢体的肢端从手部偏移到肘部。由于跟踪方法基于加权平均值，相对于与被跟踪肢体对应的3D点的位置，肢端的位置为连续状。因此，针对输入数据，即，输入深度图像中的噪点，跟踪过程的输出很稳定，能承受小的扰动。

检测到肢端之后，基于在肢体跟踪步骤(步骤125)中对肢体估算的时态关联对其进行跟踪。还可利用运动估计算法提高肢体肢端跟踪的鲁棒性。对每个肢体确定的每个新肢端通过肢体关联与零个、一个或多个先前肢端相关联。在前一帧中识别的同一肢端可与零个、一个或多个新肢端相关联。随着时间对肢体的跟踪仅保留1-m(分割)或n-1(合并)关联，丢弃n-m关联。

‘分割’和‘合并’情况是唯一的模糊情况，在这两种情况下，需要从多个可能性中选择一个特定关联，以跟踪具有唯一时间路径的肢端。图4和图5对其进行了显示。此处，显示使用者的两个臂部220,230位于头部240的前面。图4显示了在手部260,270附近互相分离的臂部220,230，图5显示了臂部220的手部260与臂部230的手部270合并的情况。应理解的是，由此开始分割情况，如图5所示，臂部220的手部260与臂部230的手部270分割(图中未显示)。

对于‘分割’情况，可利用(例如)，距离、2D或3D中的重叠等确定新帧中的不同可能性中对肢端的选择(跟踪前一帧中检测的肢端)。对于‘合并’情况，可利用(例如)距离、重叠或与前一帧中的肢端关联的特定标准，例如，其‘年龄’参数(检测之后的时间)或对之前被检测为手部的肢端的偏好完成前一帧中的不同可能性中对肢端的选择(跟踪当前帧中检测的肢端)。

计算了肢端的位置和肢端的跟踪数据之后，在肢端建模步骤，步骤130中，对中心的位置进行精化，以与具有特定形态或几何特性的肢体的特定点匹配。图6示出了臂部220,230，中心应用于其关联手部260,270和头部240；图7示出了应用于头部240的中心340和应用于各个臂部220,230(图6)上的每个手部260,270的中心360,370。在一个优选实施例中，可将形状的中心点的位置选择为应用中心，形状的中心点为距肢体轮廓最远的点。可通过计算该点到肢体轮廓的距离有效地确定该点。在精化过程中，可采用跟踪法匹配属于靠近肢端的前一个精化位置的距离函数的局部最大值的点，而不是肢体的绝对中心点。另外，如果将距离函数视为密度，则可采用鲁棒性更高的模式估算法，例如，均值偏移估算。随后可采用专用于跟踪肢体中心点的均值偏移状跟踪法。

选择可构成相关肢端区域的点的分割肢体点子集。该选择可通过‘切割’法或‘生长’法完成。

在‘切割’法中，从肢端区域中排除在肢端精化中心周围限定的特定区域外部的点。所述特定区域可为以肢端中心为中心的球体；半空间，即，3D空间被一个平面分离的两个部分的其中之一，由位于肢端中心与肢体中心之间的平面限定；或者，与将肢端中心(即，手部和肢体，即，前臂的中心)的对应点连接起来的向量正交的区域。切割区域的几何特性可来自于肢端的某些特性的持续学习机制，例如，在3D照相机坐标中计算的精化肢端中心到肢体轮廓的最大距离，在肢端为人手的情况下，则为手掌半径的估值。

在‘生长’法中，识别将从肢端区域中排除的肢体的一组‘安全’点。这组点可包括距肢端中心最远的点。识别的这组点构成‘种子’点，‘种子’点随后生长，直到生长点进入‘确定’的包含区域，其可以与上述‘切割’法相似的方式进行定义。

图8示出了没有应用中心的分割臂部220,230以及手部260,270和头部240，图9示出了手部260,270与臂部220,230(图8)的隔离效果。

在步骤135中，进行手部识别过程。可采用最新方法识别手部的已知特征，例如，Y.Bulalov、S.Jambawalikar、P.Kumar和S.Sethia在互联网上(地址：http://www.ams.sunysb.edu/～saurabh/research/hand_workshop.pdf)公布的“使用几何分类器进行手部识别”和A.Kirillov的“手势识别”(2008年5月，见：http://www.codeproject.com/Articles/26280/Hands-Gesture-Recognition.)该步骤的输出可反馈到肢体跟踪步骤，步骤115，并用于对该步骤中的任何假设进行验证。

在步骤140中，进行手部建模。这至少包括手部方向的确定和手部末端位置的确定。对于手部方向，对与上述步骤135中确定的手部对应的3D点进行主成分分析(PCA)。这有效地解出了协方差矩阵的特征系统。为了对确定的手部主轴进行时间滤波，可在对特征系统求解之前根据以下方程进行协方差矩阵的一阶自回归时间平滑：

Cov(t)＝RawCov(t)*α+Cov(t-1)*(1-α)

其中，cov(t-1)和cov(t)分别为时间t-1和t下的平滑协方差矩阵；RawCov(t)为在时间t下计算的原始协方差矩阵；alpha为调谐平滑程度的参数。

第一个确定的特征向量提供了手部的主方向或主轴的估值，第三个确定的特征向量提供了手掌法线的估值。第二个确定的特征向量与第一个和第三个确定的特征向量正交。这些特征向量如图10所示。

在图10中，显示手部400的中心点410位于手掌的中心。三个轴420,430,440以中心轴410为中心，轴430为手掌的法线，轴440显示手部400的主方向，轴420与轴430和440正交。这些轴与上述特征向量对应。

确定手部方向之后，确定最大手部末端位置450，即，距中心点410最远的位置，如图11所示。确定手部主方向上的3D点的直方图，并对最远点进行平均。一般来说，可确定这些最远点处于(例如)直方图的95％至99％的范围内。随后随着时间将手部末端位置350稳定化。可替代地，先前的最大手部末端位置可单独使用，或可与手部主方向混合使用，如轴440所示(图10)，而不是手部主方向单独使用。

手部末端的精确位置随后可用于校正上述步骤135中PCA分析提供的手掌法线方向的估值，特别是在第三个特征向量不明确的情况下对其进行更好的确定。这与(例如)手部呈拳头的形式或捏紧手指时手部不够平坦，无法利用平面模型获得明确方向的情况对应。平坦度信息由系统的特征值提供。更准确地说，平坦度信息用第二特征值与第三特征值的比表示。手部伸展时，可通过测量手部末端到手掌中心的距离(标准化为手掌半径)而提供进一步信息。随后用取决于手部平坦度和伸展度的权重将手掌法线方向与手部末端方向混合，从而将手掌法线方向的估值精化。

在步骤145中，单独检测和跟踪手部的手指。本文使用的术语“手指”也包括拇指。首先，检测手部500中的‘剪影’手指510,520,530,540,550，如图12所示。‘剪影’手指是所示手部轮廓中可见的手指。检测‘指向’手指，即，指向成像装置或照相机的手指，如图13中的手指560所示。检测的‘剪影’手指和‘指向’手指合并成一组唯一的手指，避免剪影配置和指向配置中检测的手指重复。可通过检查每个‘指向’手指是否与和‘剪影’手指相同的手指对应而实现这种合并。如果是这样，将该手指丢弃。检查可基于检测的两个手指之间的距离进行，这是使用测地距离的最可靠标准。随后可跟踪这组唯一的手指，如图14所示。

可使用形态学骨架的肢端，或确定手部轮廓的最小曲率而实现‘剪影’手指510,520,530,540,550的检测。Thiago R.Trigo和Sergio Roberto M.Pellegrino在“手势分类特征分析”(IWSSIP2010，第17届国际系统、信号与图像处理会议)中对检测‘剪影’手指的一种方法进行了说明。在该文中，将纵横比、圆度和分散度等形状描述符与圆度、实度、手指数量和“距离-半径”关系等其它特征一起使用。

可通过在平滑深度图像中识别局部最小值而实现‘指向’手指560的检测。为了仅保留与指尖的局部形状对应的最小值，在预定数量的方向上检验局部最小值的多个一维轮廓。对照每个所述一维轮廓对各个标准进行检查。对于步骤145的跟踪部分，在前一帧的手指510,520,530,540,550与当前帧的手指510,520,530,540,550之间进行映射，包括无匹配的可能性。对于每个可能映射，计算前一帧的手指与当前帧的关联手指之间的最优刚体变换。利用最小平方确定法计算最优刚体变换，即，3D平移和旋转。可通过包括指根位置与手掌位置之间的映射而获得变换的更佳确定结果。对每个可能手指关联计算误差值，误差值包括当前帧中的手指到前一帧中的刚体变换手指的距离的加权和(测量手部变形)；刚体变换的平移和旋转的范数(测量手部全局运动)；以及，未匹配手指的数量(出现的和消失的手指的固定成本)。将产生最小误差的关联保留。

对于额外的手部开度参数计算，在步骤150中，利用不同测量结果的组合对连续“开度”变量进行计算。这些测量结果可为手指之间的最大距离；手指与手掌之间，或手部末端与手掌之间的最大距离。所述组合可为线性组合或最大值组合。随后，通过先进行时间滤波，以去除噪点，然后用检测到手部之后观测到的最大值进行二值化，将该连续“开度”变量二值化到布尔状态，即，手部张开或手部闭合。随后应用滞后阈值，以获得预期二值化状态。

完成参照图1所述的步骤之后，可将输出数据和参数用于计算机化系统，计算机化系统利用手指跟踪应用进行人机交互，特别是通过测距成像装置及其处理装置进行基于手部和手指的近距离交互。

Claims

1.一种利用场景的深度图像来检测和跟踪与三维场景中的使用者(210)的肢端相关联的至少一个特征的方法，所述方法包括以下步骤：

a)分割每个深度图像(200)内的至少一个感兴趣区；

b)确定与经分割的深度图像内的所述使用者(210)的肢体相对应的至少一个感兴趣对象(220,230)；

c)随着时间跟踪每个肢体(220,230)；

d)识别与每个肢体(220,230)相关联的肢端(260,270)；

e)随着时间跟踪经识别的每个肢端(260,270；400；500)；

f)将经识别的每个肢端(260,270；400；500)与其相关联肢体(220,230)隔离；

g)确定与每个经隔离的肢端(260,270；400；500)有关的参数(410,420,430,440,450)；

h)识别每个经隔离的肢端(260,270；400；500)中的至少一个特征(510,520,530,540,550,560)；并且

i)随着时间跟踪每个经识别的特征(510,520,530,540,550,560)。

2.根据权利要求1所述的方法，其特征在于，步骤a)包括：使用至少一个结构元素以执行所述分割，所述至少一个结构元素为深度图像(200)中的每个像素的深度的函数。

3.根据权利要求1或2所述的方法，其特征在于，步骤c)包括：确定每个肢体(220,230)的时态关联。

4.根据权利要求3所述的方法，其特征在于，步骤e)包括：基于对每个肢体(220,230)估算的时态关联来跟踪每个肢端(260,270；400；500)。

5.根据权利要求1所述的方法，其特征在于，步骤d)进一步包括：使用深度图像(200)中的每个肢体(220,230)的点的加权平均值来识别每个肢端(260,270；400；500)。

6.根据权利要求1所述的方法，其特征在于，步骤f)包括以下步骤：

f1)确定与使用者的每个肢体相关联的每个肢端(400)的中心(410)；并且

f2)确定从所述肢端的所述中心(410)到所述肢端的边界(450)的距离。

7.根据权利要求1所述的方法，其特征在于，步骤f)进一步包括：采用切割方法将所述肢端(260,270；400；500)与所述肢体(220,230)隔离，所述切割方法的中心为确定的肢端(260,270；400；500)的中心(410)。

8.根据权利要求6所述的方法，其特征在于，步骤f)进一步包括：采用生长方法将所述肢端(260,270；400；500)与所述肢体(220,230)隔离。

9.根据权利要求6所述的方法，其特征在于，步骤g)包括：确定与所述肢端(400；500)相关联的至少一个参数(410,420,430,440,450)。

10.根据权利要求9所述的方法，其特征在于，步骤g)进一步包括：利用经确定的与所述肢端(400；500)相关联的每个参数(410,420,430,440,450)来识别与所述肢端(400；500)相关联的至少一个特征(510,520,530,540,550,560)。

11.根据权利要求9所述的方法，其特征在于，与所述肢端(400；500)相关联的所述至少一个参数包括深度图像(200)内肢端的方向。

12.根据权利要求9所述的方法，其特征在于，步骤g)进一步包括：利用经确定的每个参数(410,420,430,440)来确定所述肢端(400)的末端位置(450)。

13.根据权利要求9所述的方法，其特征在于，所述肢体包括臂部，所述肢端包括手(500)，其中，与所述肢端相关联的每个特征包括所述手(500)的至少一个手指(510,520,530,540,550,560)。

14.根据权利要求13所述的方法，其特征在于，步骤h)包括：识别手的轮廓内的剪影手指(510,520,530,540,550)和指向手指(560)。

15.根据权利要求14所述的方法，其特征在于，步骤h)包括：将经识别的剪影手指(510,520,530,540,550)和指向手指(560)合并，以形成唯一的一组手指。

16.一种手势识别方法，其用于识别由至少一只手(400；500)做出的手势，所述手势识别方法包括根据权利要求13至15任一项所述的利用场景的深度图像来检测和跟踪与三维场景中的使用者的肢端相关联的至少一个特征的方法。

17.一种利用场景的深度图像来检测和跟踪与三维场景中的使用者(210)的肢端相关联的至少一个特征的设备，该设备包括：

a)用于分割每个深度图像(200)内的至少一个感兴趣区的装置；

b)用于确定与经分割的深度图像内的所述使用者(210)的肢体相对应的至少一个感兴趣对象(220,230)的装置；

c)用于随着时间跟踪每个肢体(220,230)的装置；

d)用于识别与每个肢体(220,230)相关联的肢端(260,270)的装置；

e)用于随着时间跟踪经识别的每个肢端(260,270；400；500)的装置；

f)用于将经识别的每个肢端(260,270；400；500)与其相关联肢体(220,230)隔离的装置；

g)用于确定与每个经隔离的肢端(260,270；400；500)有关的参数(410,420,430,440,450)的装置；

h)用于识别每个经隔离的肢端(260,270；400；500)中的至少一个特征(510,520,530,540,550,560)的装置；并且

i)用于随着时间跟踪每个经识别的特征(510,520,530,540,550,560)的装置。