CN101622630B

CN101622630B - 检测和跟踪图像中的物体

Info

Publication number: CN101622630B
Application number: CN200680007568XA
Authority: CN
Inventors: 阿提德·沙梅
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-01-07
Filing date: 2006-01-06
Publication date: 2012-07-04
Anticipated expiration: 2026-01-06
Also published as: US20080187178A1; US7853041B2; JP2008527541A; ES2791718T3; US20120176344A1; EP2487624A1; WO2006074289A2; US8483437B2; JP2013050949A; US20060188849A1; US8170281B2; EP1856470A2; HUE049974T2; US20090295756A1; JP5160235B2; EP2487624B1; US7574020B2; CN102831387B; CN102831387A; CN101622630A

Abstract

根据公开的一种方法，相应于表征特定物体的图像点确定多维空间中的坐标。提供描述该空间中的模型的方程式。该模型表现一个或多个其它物体的一组训练图像的特征。所述坐标被代入所述方程式以确定图像点与模型之间的距离。基于所确定的距离，确定特定物体是否匹配所述一个或多个其它物体。可以接收一组训练图像。基于该组训练图像可以确定一多维空间(例如，特征空间)。通过将该组训练图像投影到所述空间可以生成一组训练点。可以确定描述表现所述一组训练点的特征的所述空间中的一模型的方程式。

Description

检测和跟踪图像中的物体

技术领域

本发明涉及图像处理，更具体地涉及检测图像中的物体。

背景技术

对图像中的物体进行的检测和识别通常涉及图像滤波和图形识别技术。检测和识别包含成百上千或者成千上百的像素的图像中的物体需要很强的处理能力，并且可能很费时间。因此，在处理图像以检测和识别图像中的物体之前减少图像的维数会有帮助。一种已知的减少数据维数的技术是主成分分析法(PCA)。PCA记载在例如Joliffe I.T.，Principal Componnet Analysis，Springer-Verlag，New York(1986)中。

PCA利用数据组的协方差矩阵的特征值和特征向量作为数据组的可求值(valueable)特征的代表。

已有很多种方法和机制使得人类能够与计算机交互。计算机图像技术可以允许计算机检测由照相机捕捉到的图像中的物体。能够检测和识别图像中的物体的计算机为用户提供了通过用户的手势与计算机交互的能力。

计算机-用户界面可以显示在表面或屏幕上。一个或多个照相机可以监视该表面或屏幕附近的活动并且捕捉屏幕附近的活动的图像。计算机然后可以处理这些图像，检测图像中的一个或者多个物体，并发觉用户正在使用手势与显示在表面或屏幕上的计算机-用户界面交互。

一些系统试图发觉用户在使用手势与显示在表面或屏幕上的计算机-用户界面交互。这些系统中的一些仅发觉图像中亮度最大的物体，并将该物体作为手或手指。因此，即使在所述物体既非手也非手指的情况下，这些系统可能将该物体认作手或手指。

发明内容

为了更为准确地标识图像中的手或手指，从而提高人机交互的能力和效率，若干公开的系统(1)识别触摸表面或屏幕或在表面或屏幕附近移动的作为手或手指的物体，并(2)排除未被识别为手或手指的物体。

本发明提供了用于检测和识别触摸表面或屏幕或在表面或屏幕附近移动的手指的方法和装置。图像被处理以检测手指的出现并跟踪检测到的手指的位置。手指的位置可被计算机用于例如控制计算机鼠标指示器。所提供的方法可允许以比使用传统的鼠标及/或键盘更自然的方式进行人机交互。

在一种实现方式中，创建沿一个或多个取向定位的一个或多个手指的模型。具体而言，利用照相机捕捉一个或多个手指的一组训练图像。应用PCA技术，创建该组训练图像的模型。确定该组训练图像的协方差矩阵并选择该协方差矩阵的一定数量的特征向量来定义所述一组训练图像的特征空间。所述一组训练图像中的每个图像被投影到由选定的协方差矩阵的特征向量定义的特征空间中。在特征空间中，每个训练图像由单个训练点表示。因此，将每个训练图像投影到特征空间中可以在特征空间中生成训练点云团。然后在特征空间中用几何模型(例如表面或线)对训练点云团建模。

然后利用模型来检测、识别和跟踪图像中的手指。在一种系统中，在表面或屏幕的后方设置照相机和红外(IR)照明器。触摸表面或屏幕或在表面或屏幕附近移动的手指反射IR照明器投射的部分IR辐射。部分被反射的IR辐射被照相机捕捉在图像中。然后对该图像进行如下所述的处理，以检测和识别图像中手指的存在与否及其位置。

所述处理包括从图像中抽取可能是手指的一个或多个物体。每个抽取的物体被投影到为所述一组训练图像所定义的特征空间中。在特征空间中，所抽取物体的投影由单个图像点表示。将单个图像点的坐标与训练点云团的模型比较，以确定该单个图像点是否匹配或接近匹配所述模型。如果单个图像点匹配或接近匹配模型，则确定该物体是手指。如果确定该物体是手指，则计算手指相对于屏幕或表面的位置(例如(x，y)坐标)并将其输入例如计算机和/或软件应用程序。

根据一个概括的方面，确定相应于多维空间中图像点的坐标，该图像点表征一特定物体。提供描述多维空间中的模型的方程式，该模型表现一个或多个其它物体的一组训练图像的特征。将所述坐标代入所述方程式以确定图像点与模型之间的距离，并且基于所确定的距离，确定所述特定物体是否匹配所述一个或多个其它物体。

上述概括的方面的实现方式可以包括一个或多个其它特征。例如，可以接收特定物体的图像。该图像可以具有若干数据元素，而所述多维空间的维数可以小于该数据元素的数量。确定图像点坐标的步骤可以包括将图像投影到所述多维空间以产生相应于多维空间中的图像点的坐标。

所述模型可以是多维空间中一组训练点的模型，所述组中的每个训练点对应于所述一系列训练图像中的一个或多个图像。

所述特定物体的图像可以在被接收之前被归一化。归一化特定物体的图像的步骤可以解决亮度变化的问题。归一化物体的图像的步骤可以包括对特定物体的图像应用直方图均衡化技术。

所述方程式可以描述双曲面、圆锥、线或圆锥和线的组合。特定物体可以包括从由手指、笔和基本上柱形的物体构成的组中选出的一个物体。

提供所述方程式的步骤可以包括从第一方程式和第二方程式中选择所述方程式，所述第一方程式描述表现第一组训练图像的特征的第一模型，第二方程式描述表现第二组训练图像的特征的第二模型。

根据另一个概括的方面，接收特定物体的图像，该图像具有若干数据点。将该图像投影到维数小于所述数据点数量的多维空间中，以产生相应于所述多维空间中的图像点的坐标，其中图像点表征所述特定物体。提供描述多维空间中的一模型的方程式，该模型是多维空间中一组训练点的模型，并且所述组中的每个训练点对应于一个或多个其它物体的一组训练图像中的一个或多个图像。将所述坐标代入所述方程式以确定图像点与模型之间的距离，并基于所确定的距离，确定所述特定物体是否匹配所述其它物体。

上述概括方面的实现方式可以包括以下的一个或多个特征。例如，提供所述方程式的步骤可以包括从第一方程式和第二方程式中选择所述方程式，所述第一方程式描述表现第一组训练图像的特征的第一模型，第二方程式描述表现第二组训练图像的特征的第二模型。

根据另一个概括的方面，一种系统包括照相机和耦接至照相机的处理装置。该处理装置构造成确定相应于多维空间中图像点的坐标，所述图像点表征特定物体。所述处理装置还构造成提供描述所述多维空间中的一模型的方程式，所述模型表现一个或多个其它物体的一组训练图像的特征。所述处理装置还构造成将所述坐标代入所述方程式以确定图像点与模型之间的距离，并基于所确定的距离，确定所述特定物体是否匹配所述一个或多个其它物体。

上述概括的方面的实现方式可以包括以下的一个或多个特征。例如，所述照相机可以是IR照相机。所述系统可以包括IR源。该系统可以包括设置在照相机前方的屏幕。该屏幕可以至少是半透明的，使得位于与照相机相反的屏幕的一侧的物体所反射的光能够透过屏幕并被照相机所接收。

根据另一个概括的方面，提供了一种工具，用于确定相应于多维空间中特定图像点的坐标，所述特定图像点表征一特定物体。所述工具还提供描述多维空间中的一模型的方程式，该模型表现一个或多个其它物体的一组训练图像的特征。所述工具还用于将所述坐标代入所述方程式以确定所述特定图像点与模型之间的距离，并基于所确定的距离，确定特定物体是否匹配所述一个或多个其它物体。

上述概括的方面的实现方式可以包括以下的一个或多个特征。例如，所述一组训练图像可以被接收，所述组中的每个图像具有若干数据元素。所述多维空间可以基于所述一组训练图像来确定，并且所述多维空间的维数可以小于所述数据元素的数量。通过将所述一组训练图像中的每个图像投影到所述多维空间中可以生成一组训练点，从而产生相应于多维空间中的对应训练点的坐标。所述一组训练点中的每个训练点可以对应于所述一组训练图像中的至少一个图像。可以确定描述多维空间中表现所述一组训练图像的特征的模型的方程式。

所述一组训练图像中的每个图像可以在被接收之前被归一化。归一化所述一组训练图像中的每个图像可以解决亮度变化的问题。归一化所述一组训练图像中的每个图像的步骤可以包括对所述一组训练图像中的每个图像应用直方图均衡化技术。

各个方面、实现方式和特征可以利用例如方法、装置、用于执行方法、程序或其它指令集的装置或工具或处理装置、包括程序或指令集的装置、以及计算机可读介质中的一个或多个来实现。计算机可读介质可以包括例如指令、软件、图像和其它数据。

附图和以下描述中详细说明了一个或多个实现方式。其它特征将从说明书和附图，以及从权利要求中显见。

附图说明

本专利或申请文件包含至少一幅彩色图片。在提出请求并交纳必要的费用的情况下，官方将提供带有彩色图片的本专利或申请公报的副本。

图1是用于识别和跟踪手指的一个系统的图解。

图2(a)为一示样图像，示出图像的两个物体。

图2(b)为示样阴影矩阵，显示了从图2(a)的图像中抽取的两个物体。

图3示出了确定从图像中抽取的物体是否太大而不会是感兴趣的物体的示图。

图4(a)是示出用于训练手指识别和跟踪系统的第一处理的处理流程图。

图4(b)是示出用于执行图4(a)中操作410的处理的处理流程图。

图5是手指的示样图像。

图6是三维特征空间(eigenspace)中的训练点云团的图示。

图7(a)是手指的另一个示样图像。

图7(b)是与图7(a)中的手指相同但方向不同的手指的示样图像。

图8(a)是手指的另一个示样图像。

图8(b)是与图8(a)中的手指相同但方向不同的手指的示样图像。

图9(a)是三维特征空间中的训练点云团的图示。

图9(b)是图9(a)的三维特征空间中图8(a)和8(b)所示的示样图像的投影的图示。

图10(a)是图9(a)的训练点云团和对应于图像点云团的三维模型的图示。

图10(b)是图10(a)的彩色版。

图11(a)是对应于图9(a)的训练点云团的截头模型的图示。

图11(b)是图11(a)的截头模型和对应于该模型的训练点云团的图示。

图11(c)是图11(b)的彩色版。

图12是使用利用图4(a)所示处理训练的系统识别图像中的手指的处理的处理流程图。

图13是示出用于训练手指识别和跟踪系统的第二处理的处理流程图。

图14是三维特征空间中的另一训练点云团的图示。

图15是形成圆锥形状的图14所示训练点云团的第一子组的图示。

图16是形成线形形状的图14所示训练点云团的第二子组的图示。

图17(a)是图15所示训练点的第一子组以及对应于训练点的第一子组的垂直圆锥模型的图示。

图17(b)是图15所示训练点的第一子组以及对应于训练点的第一子组的截头垂直圆锥模型的图示。

图17(c)是图17(a)的彩色版。

图17(d)是图17(b)的彩色版。

图18(a)是图16所示训练点的第二子组以及对应于训练点的第二子组的线形模型的图示。

图18(b)是图18(a)的彩色版。

图19是图示使用通过图13所示处理训练的系统来识别图像中的手指的处理的处理流程图。

图20是图示识别图像中的物体的另一处理的处理流程图。

具体实施方式

本发明公开了用于检测和识别触摸表面或者在表面附近移动的手指的系统和方法。这些系统和方法还可以用来检测和识别触摸表面或者在表面附近移动的其他物体。此外，这些系统和方法还可以用来在没有表面的情况下，检测和识别视场中的物体。更广泛地说，这些系统和方法可以用来检测和识别图像中的物体。

图1是用于识别和跟踪一个或者多个手指的示例性系统100的图示。设置在表面104后方的红外(IR)照明器102照亮延伸于表面104的后方和前方的区域106。装备有红外滤波器110的照相机108设置在表面104的后方并捕捉例如表面104及其附近的图像。照相机108所捕捉的图像可以通过数据元素(例如，像素)以数码方式显示。设置在表面104后方的投影器112可以将计算机-用户界面投射在表面104上。投射在表面104上的计算机-用户界面可以是传统的计算机显示。投影器112除了可见光之外还可以投射IR光。因此，投影器112可以装备有可选的IR滤波器120以减少或消除投影器112所投射的IR光。

所公开的技术和装置可以允许用户利用手势与计算机-用户界面交互。

例如，可以对用户手指114的位置进行跟踪，允许用户通过用其手指114触摸表面104或者通过将其手指114在表面104附近移动来控制鼠标指示器在计算机-用户界面上的位置。用户手指114的位置可以用来例如表示鼠标指示器的希望位置。在一些实现方式中，为了准确确定用户手指114的位置，希望区分用户的手指114与用户的手掌118。

图1所示系统100仅仅是一种实现方式的示例，其他的构造也是可能的。照相机108所捕捉的图像是通过捕捉物体所反射的光而产生的。光可以包括IR光、可见光、紫外光或任何其他形式的电磁辐射。因此，可以不需要IR照明器102。其他光源可以用来替代IR照明器。在一种替代的实现方式中，可以不需要光源。作为替代，系统100可以仅仅依靠所反射的周围的光。此外，照相机108不需要设置在表面104的后面。例如，照相机108可以设置在系统100中的认为有利的其他任何位置。另外，系统100不需要被实现为有利于人机交互。作为替代，在某一实现方式中，系统100可以用来检测照相机108所捕捉的图像中的物体。在这种实现方式中，可以不需要表面104。

总的来说，在检测和识别图像中作为手指的物体的过程中会涉及很多处理操作。例如，系统100首先经过训练，以识别作为手指的物体。该训练阶段可以涉及捕捉以一个或多个取向定位的一个或多个手指的一组训练图像，以及建立该组训练图像的模型。在识别阶段，系统100可以捕捉图像，从捕捉的图像中抽取物体，并将所抽取的物体与在训练阶段生成的一组训练图像的模型比较，从而确定所抽取的物体是否是手指。以下将更加详细地描述在检测和识别图像中的作为手指的物体的过程中可能涉及的处理。

图像中感兴趣的区域(ROI)116可以定义为包括表面104的图像的一部分。可以对图像的ROI116进行检查以检测和识别一个或多个手指114。照相机108捕捉的图像可以包括由IR照明器102产生并被ROI116中的一个或多个手指反射的IR映像，或者所述IR可被ROI116中的一个或多个其他物体反射。例如，表面104可以反射IR。

为了说明表面104或ROI116中的其他物体始终反射的IR，可以创建表面104或ROI116中的其他物体始终反射的IR的背景模型(BGM)，并从照相机108捕捉的每一图像中减去该背景模型。从照相机108捕捉的每一图像中减去BGM可以有效排除或至少减少从所捕捉的图像中处理得到的由于背景物体造成的IR。因此，从每一图像中减去BGM可以提高ROI116中感兴趣的物体与表面104及/或ROI116中一直存在的其他物体之间的对比度。

BGM的创建可以通过捕捉若干没有出现感兴趣物体的ROI116的图像，然后逐像素地对捕捉的图像进行平均化，从而建立新的平均的图像或BGM。这样，可以从照相机108捕捉的每一图像中减去BGM。该处理可以通过以下方程式来描述：

其中，I是图像，B是BGM，ε是可调节阈值(例如，可调节常数)，J是得到的图像。BGM可以例如随机地、周期地或根据触发事件的发生而更新。

参照图2(a)、2(b)和3，其中示出用于检测图像中是否存在物体和初始确定该物体是否是感兴趣的物体的处理的示例。

具体而言，图2(a)示出示样图像200(a)中的两个物体202(a)、204(a)。如图2(a)所示，物体202(a)和204(a)被示为比背景206(a)更暗。但是，在由两个物体202(a)、204(a)反射的光形成的图像200(a)中，两个物体202(a)、204(a)有可能比背景206(a)更亮。因此，可以理解，图2(a)中的图像200(a)仅仅是图像200(a)中的两个物体202(a)、204(a)的示例，图像200(a)并不意图表示图像中的物体会比图像的背景更暗。

为了从图像200(a)中抽取物体202(a)、204(a)，可以采用斑点分析(blob-analysis)算法，例如Grassfire算法。在例如文献Pitas I.，Digital Image Processing Algorithms，Prentice-Hall，New York(1993)中描述了Grassfire算法。也可以使用用于检测图像中是否存在物体并从图像中抽取该物体的其他算法。

Grassfire算法可以在图像中搜索物体并用共同的标记表示其所检测到的每一物体中的每一像素。具体而言，在物体比背景更亮的、通过物体反射光形成的图像中，Grassfire算法可以确定图像中最亮的像素。例如，图像可以是灰度图像，每个像素具有256个可能的值。也就是说，每个像素可以被分配0-255中的一个值，其中零表示可能的亮度最小的像素(例如，完全黑的)，而255表示可能的最亮的像素(例如，完全白的)。图像中的最亮的像素可以具有值220。Grassfire算法可以将图像中的每个像素与相对于图像中最亮像素的可调阈值常数比较，从而确定该像素是否对应于物体。例如，可调阈值可以为50。因此，Grassfire算法可以将图像中比最亮像素暗50级以内的所有像素视为表示一个物体。也就是说，具有可接受范围170-220内的值的所有像素可以视为表示一个物体。这样，Grassfire算法可以将落入所述可接受范围内的任何一组相邻像素视为构成一个物体。

Grassfire算法可以产生被称为阴影矩阵的矩阵，其大小与原始图像相同。阴影矩阵中对应于被标识为表示原始图像中的一个物体的像素的元素可以用共同的标记标识。图2(b)示出对应于图2(a)中所示示样图像200(a)的阴影矩阵200(b)。示样图像200(a)中的物体202(a)用阴影矩阵200(b)中的物体202(b)表示，物体202(b)的每个元素用共同的标记“1”标识。类似地，示样图像200(a)中的物体204(a)用阴影矩阵200(b)中的物体204(b)表示，并且物体204(b)的每个元素用共同的标记“2”标识。如图2(b)所示，Grassfire算法可以有效地从示样图像200(a)中抽取物体202(a)和204(a)。

再次参照图1，理想情况下，如果手指114触摸表面104或在表面104附近移动，则手指114会在图像中产生最亮物体。然而，触摸表面104或在表面104附近移动的手指114并不总是产生图像中最亮的物体。例如，当用户用其手指114触摸表面104时，用户的手掌118可能反射足够多的IR辐射，从而在图像中表现为一个亮的物体。例如长袖之类的其他物体也会反射足够多的IR辐射从而在图像中表现为亮的物体。一些物体会比用户的手指114反射更多的IR辐射，从而在图像中表现为比用户手指114更亮的物体。

因此，在一种实现方式中，可从图像中抽取到图像中的若干物体，并非仅仅是最亮物体。但是，处理图像中的很多物体以进行识别会需要很强的处理能力，并且会很费时。因此，会采取一些技术来减少所抽取的用于识别的物体的数量。所抽取的物体可能表现出一些特征，表示它不可能是手指并因此可以被放弃。用于挑选所抽取的物体的一种标准是尺寸。例如，所抽取的物体可能太大而不会是手指。类似地，所抽取的物体可能太小而不会是手指。

图3是示图301，示出用于确定从图像中抽取的物体300是否太大而不会是手指的处理的一个示例。可以在所抽取物体300中心302周围的四个采样区304、306、308、310中采样一个或多个像素。所抽取物体300的中心302与采样区304、306、308、310之间的距离可以是例如可调常数。如图3所示，所抽取物体300的中心302周围的两个采样区304、308可以位于经过所抽取物体300的中心302的垂直线312上。类似地，所抽取物体300的中心302周围的两个采样区306、310可以位于经过所抽取物体的中心302的水平线上。

由于手指114的图像有时会包括一尾部(例如参见图5)，采样区304、306、308、310可以成对考虑。例如，位于经过所抽取物体300的中心302的水平线上的两个采样区306、310可以作为第一对进行考虑。类似地，位于经过所抽取物体300的中心的垂直线312上的两个采样区304、308可以作为第二对进行考虑。

如果第一对采样区306、310中的像素值总和超出可接受阈值水平，则可以确定采样区306、310是所抽取物体300的一部分。如果第一对采样区306、310中的像素值总和超出可接受阈值水平，则可以将第二对采样区304、308中的像素值总和与可接受阈值水平比较。

如果第二对采样区304、308中的像素值总和超出可接受阈值水平，可以确定采样区304、308是所抽取物体300的一部分。如果第一对采样区306、310中的像素值总和超出可接受阈值水平并且第二对采样区304、308中的像素值总和超出可接受阈值水平，则可以确定所述物体太大而不会是手指，从而可以放弃该物体。

类似地，从图像中抽取的物体可能太小而不会是手指。可以对表示每个被抽取物体的像素的数量计数。如果表示一个物体的像素数量小于阈值常数，则该物体可以确定为噪声或其他一些物体，从而可以放弃该物体。

识别图像中作为手指的物体可能涉及训练阶段和识别阶段。在训练阶段，可以通过使系统100接触一大组要识别的物体的训练图像，以训练系统100识别物体。所述一组训练图像可以包括各种不同取向的被识别物体的图像。在识别阶段，系统100可以检测图像中的物体，并将该物体与所述一组训练图像比较，或与所述一组训练图像的模型比较，从而确定该物体是否是所要识别的物体。

在一种实现方式中，在训练阶段，捕捉各种不同取向的一个或多个手指的大量图像。确定所述一组训练图像的协方差矩阵，并使用协方差矩阵的选定的一组特征向量来定义特征空间。可以选择任意数量的特征向量来定义特征空间。特征空间的维数由被选来定义特征空间的特征向量的数量决定。例如，三维特征空间通过选择三个特征向量来定义，所述三个特征向量例如为对应于三个最大特征值的特征向量。来自所述一组训练图像的每个训练图像被投影到三维特征空间中，在该特征空间中生成三维点的集合。特征空间中三维点的集合利用能够用多项式解析表达的三维集合模型(例如，二次表面或线)来建模。例如，所述一组训练图像的投影可以形成双曲面形或圆锥形表面。另外或者作为替代，所述一组训练图像的投影可以在特征空间中形成线形几何形式。在三维空间中，双曲面、圆锥和线可以用多项式解析表达。因此，几何形式(也称为几何模型)可以用来在特征空间中对这样的一组训练图像进行建模。

在该实现方式的识别阶段，从图像中抽取的物体被投影到训练阶段定义的特征空间中。特征空间中标识对应于被投影图像的三维点的三坐标被代入在特征空间中定义所述一组训练图像的模型的多项式中，从而确定特征空间中被投影图像与模型之间的距离。如果被投影物体位于例如所述模型的界定距离之内，则被投影物体可以确定为手指。

现参照图5-20更详细地描述训练和识别阶段的实现方式。

图4(a)是一处理流程图，示出了用于训练系统100识别图像中作为手指的物体的示例性处理400。处理400从创建被表面104或ROI116中的其他物体始终反射的IR的BGM(操作402)开始。然后通过照相机108捕捉各种不同取向的手指114的大量输入图像(操作404)。然后，从每个输入图像减去BGM(操作406)。然后，每个图像的表示手指114的部分被从图像中抽取出来，并转换成标准的n×n图像尺寸(操作408)。每个图像中表示手指114的部分可以利用斑点分析算法，如Grassfire算法来抽取，或者每个图像中表示手指114的部分可以根据图像的视觉表现手动抽取。所抽取的图像中表示手指的部分可以包括大量像素。为了降低处理图像中表示手指的该部分所需的计算能力，可能希望减少用来表示手指的像素的数量。因此，所抽取的图像中表示手指的部分的分辨率可以降低。例如，原始图像中表示手指的部分可以是64×64像素的。在图像中表示手指的该64×64的部分从图像中被抽取之后，所抽取的手指的分辨率可以降低至该手指用16×16的图像表示。

图5示出手指502的示例性的n×n图像500。

然后定义一组n×n训练图像的特征空间(操作410)。图4(b)中更详细地示出了操作410。首先，确定所述一组训练图像的协方差矩阵C(操作410(a))。如果整形之后的n×n图像I_(n×n)用向量V_(m)表示，其中m＝n²，则所述一组t个训练图像{I₁，I₂，...，I_t}的协方差矩阵C可以定义为：

C＝G^TG (2)

其中G是具有元素G_i，j＝(V_i，j-μ_i)的t×m的矩阵，其中V_i，j是向量V_i的第j个元素，V_i是所述训练组的整形之后的图像I_i的向量，μ_i是向量V_i的中值。因此，协方差矩阵C是m×m矩阵。然后，可以确定协方差矩阵的特征值和特征向量(操作410(b))。协方差矩阵的特征值和特征向量可以通过解以下方程而获得：

Δ＝Φ^TCΦ (3)

其中Δ是协方差矩阵C的一组特征值，Φ是协方差矩阵C的一组特征向量。美国专利No.5710833中描述这种处理。m×m的协方差矩阵可以具有m个特征值和m个特征向量，每个特征向量对应于一个特征值。因此，用于一组16×16的训练图像的256×256的协方差矩阵会具有256个特征值和256个对应的特征向量。另外，每个特征向量会是长度256的列向量。

协方差矩阵C的所有特征向量彼此垂直。因此，通过选择协方差矩阵C的一组特征向量并利用每个所选择的特征向量定义空间中的一个方向(即，维度)，可以定义一组训练图像的特征空间(操作410(c))。对应于协方差矩阵C的最大特征值的特征向量指示所述一组图像表现出最大变化的方向。因此，所述一组训练图像中包含的数据的大部分可以通过选择协方差矩阵C的对应于若干最大特征向量的一组特征向量来表征。在一种实现方式中，协方差矩阵C的对应于三个最大特征值的特征向量被选择用于定义三维特征空间。

在定义了特征空间之后，将来自所述一组训练图像的每个训练图像投影到特征空间中(操作410(d))。每个n×n的图像I_(n×n)被转换成向量V_(m)，其中m＝n²。例如，如果图像I_(n×n)是16×16的图像，则向量V_(m)是长度为256(m＝n²＝16×16＝256)的行向量。特征空间可由一个m×q的矩阵来定义，其中，q是被选择用来定义特征空间的特征向量的数量，矩阵的q列中的每一个表示被选来定义特征空间的特征向量中的一个。然后向量V_(m)可以乘以定义特征空间的m×q矩阵，得到一个1×q的矩阵或行向量，其中该行向量的每个元素标识特征空间中的一个对应坐标。例如，16×16的图像I_(16×16)可以用256×1的列向量V_(256×1)表示。如果所述一组训练图像的特征空间用三个特征向量定义，则图像向量V_(256×1)的转置可以乘以定义特征空间的256×3的矩阵，以得到定义被投影图像在所述三维特征空间中的三坐标的1×3的行向量。

这样，图像在特征空间中的投影可以有效减少图像的维数。图像在特征空间中的投影是有着与特征空间的维数相同多的坐标的单个点。例如，图像在三维特征空间中的投影是一个三维点(即，该点由三个坐标定义)。因此，当n×n的图像投影到三维特征空间中时，图像从由n²个像素定义转变为由三个坐标标识的单个点。

图6示出用于各种取向的一个或多个手指的所述一组训练图像的三维特征空间600的示例。所述一组训练图像中的每一图像的投影用特征空间600中的一个三维点表示。因此，如图6所示，将所述一组训练图像投影到特征空间600中可以在特征空间600中生成训练点云团602。该片训练点602可以表现出可识别的几何形状。例如，图6中的训练点云团602表现出双曲面形或圆锥形形状。

所述训练点云团602的形状可以是手指的特定特征的函数。

当手指114垂至于表面104时，手指114可以在照相机108捕捉的图像中表现为基本上圆形的物体。即使用户旋转他/她的手，手指114可以在照相机108捕捉的图像中继续表现为基本上圆形的物体，只要手指114保持垂至于表面104。换句话说，如果手指114保持垂至于表面104，则即使手发生旋转，手指114在照相机108捕捉的一系列图像中的形状也可仅有略微变化。无论相对于照相机108手指114指在表面104上的什么位置上，都可以保持仅有略微变化。

然而，如果用户的手指114不垂至于表面104，手指114在照相机108捕捉的图像中会表现为带有尾部的亮点。尾部可以是被手指114的主体反射的IR。因此，如果手发生旋转，则尾部的角度旋转。

图7(a)和7(b)是说明性的。图7(a)是带有尾部702(a)的手指114的n×n图像700(a)。在图7(a)中，尾部702(a)朝向图像700(a)的左上角。图7(b)是带有尾部702(b)的同一手指114的n×n图像。在图7(b)中，尾部702(b)朝向图像700(b)的右上角。尾部702(a)、702(b)的不同取向可以解释为在两个图像700(a)、700(b)中手指114相对于照相机108的方向不同。图像700(a)中的手指114和图像700(b)中的手指114与表面104形成相同的非垂直角度。但是，图像700(b)中的手指相对于图像700(a)中的手指114的位置发生了旋转，使得图像700(a)中的手指114和图像700(b)中的手指114相对于垂直于表面104的表面(未示出)具有形成不同角度。

由于两个图像700(a)、700(b)不同的事实，它们可由特征空间600中的训练点云团602中的不同点来表示。但是，因为将图像投影到特征空间600的处理是线性处理，所以带有长度基本上相同但旋转角度不同的尾部的捕捉手指114的一组图像的投影可以在特征空间600中得到排列成基本上圆形图形(未示出)的一组点。因此，尽管两个图像700(a)、700(b)在特征空间600中的训练点云团602中会以不同的点表示，但是它们在特征空间中会沿基本上圆形的图形排列。

图像中手指的尾部的长度也会影响图像在特征空间600中的投影位置。如以上就图7(a)和7(b)所示，尾部长度基本上相同但旋转角度不同的手指的图像的投影在特征空间600中会排列成基本上圆形的图形。相比于尾部同样长但旋转角度不同的手指114的一组图像的投影，尾部同样短但旋转角度不同的手指114的一组图像的投影可以排列成具有相对较小半径的基本上圆形的图形。

图6、8(a)、8(b)、9(a)和9(b)是说明性的。图6中形成训练点云团602的顶点604的训练点可以与其中手指114表现为尾部很小或没有的基本上圆形形状的训练图像相关联。相反，图6中形成训练点云团602的基部606的训练点可以与其中手指114跟有一较长尾部的训练图像相关联。

图8(a)示出手指114的训练图像800(a)，其具有由于手指114与表面104之间的相对较小的角度引起的相对较长的尾部802(a)。图8(b)示出手指114的训练图像800(b)，其具有由于手指114与表面104之间的较大的角度而引起的相对较短的尾部802(b)。

图9(a)和9(b)示出两个图像800(a)、800(b)在三维特征空间600中的投影800(a)’、800(b)’。如图9(a)所示，具有较长尾部802(a)的手指114的图像800(a)投影到所述训练点云团602的基部附近的点800(a)’，因为其具有相对较长的尾部802(a)。相反，具有较短尾部802(b)的手指114的图像800(b)被投影到所述训练点云团602的顶点604附近的点800(b)’上，因为其具有相对较短的尾部802(b)。

图9(b)示出从所述训练点云团602隔离出来的两个图像800(a)、800(b)在三维特征空间600中的投影800(a)’、800(b)’。如图9(b)所示，投影800(a)’与表现出同样的相对较长尾部但是旋转角度不同的手指图像的投影一起排列成基本上圆形的图形902。类似地，投影800(b)’与表现出同样的相对较短尾部但是旋转角度不同的手指图像的投影一起排列成基本上圆形的图形904。

所述训练点云团602可以表现出可识别的几何形状，因此训练点云团602可被修改以由能够用多项式解析表达的几何模型建模。为了方便用几何模型拟合训练点云团602，可以对每个训练点应用被称为“转移至中心(TTC，Transfer-to-Centre)”的技术(操作412)。在例如文献Shamaie A.et.al.，“International Journal of Scientia Iranica”，6(1)，(1999)中描述了TTC技术。TTC技术将数据组转移至特征空间的中心。换句话说，数据组的中心被移到特征空间的原点。

在对一组训练点应用TTC技术之后，用模型拟合训练点云团602(操作414)。三维二次表面的通用方程式为：

F(x，y，z)＝ax²+by²+cz²+dxy+exz+fyz+gz+hy+iz+1 (4)

如果训练点云团602定义了一个理想的二次表面，则可以对云团602中的每个点成立以下方程式：

F(x，y，z)＝0 (5)

其中x，y和z是训练点云团602中的每个点的坐标。方程式4中的未知参数为ψ＝(a，b，c，d，e，f，g，h，i)。为了将训练点云团602拟合为二次表面，确定方程式4中的未知参数的值，使得对于训练点云团602中的一组点，误差函数被最小化。误差函数由以下方程式定义：

E = \underset{(x, y, z) &Element; TS}{Σ} F^{2} (x, y, z) - - - (6)

其中TS是所述一组被投影训练点。误差函数可以展开为：

∑F²(x，y，z)＝a²∑x⁴+2ab∑x²y²+2ac∑x²z²+2ad∑x³y+2ae∑x³z+

2af∑x²yz+2ag∑x³+2ah∑x²y+2ai∑x²z+2a∑x²+b²∑y⁴+2bc∑y²z²+

2bd∑xy³+2be∑xy²z+2bf∑y³z+2bg∑xy²+2bh∑y³+2bi∑y²z+

2b∑y²+c²∑z⁴+2cd∑xyz²+2ce∑xz³+2cf∑yz³+2cg∑xz²+2ch∑yz²+

2ci∑z³+2c∑z²+d²∑x²y²+2de∑x²yz+2df∑xy²z+2dg∑x²y+

2dh∑xy²+2di∑xyz+2d∑xy+e²∑x²z²+2ef∑xyz²+2eg∑x²z+2eh∑xyz+

2ei∑xz²+2e∑xz+f²∑y²z²+2fg∑xyz+2fh∑y²z+2fi∑yz²+

2f∑yz+g²∑x²+2gh∑xy+2gi∑xz+2g∑x+h²∑y²+2hi∑yz+2h∑y+

i²∑z²+2i∑z+∑1 (7)

误差函数可以利用准牛顿(quasi-Newtonian)方法最小化。但是，线性优化方法，如准牛顿方法，可能停留在局部的最小值，原因是误差函数是二次的。但是，在最小化误差函数之前对所述一组训练点应用TTC技术可以减少准牛顿最小化方法停留在局部最小值的风险。因此，如果在利用准牛顿方法最小化误差函数之前对所述一组训练点应用TTC技术，误差函数可以更快地收敛。最小化误差函数产生所述一组未知参数ψ的值。通过最小化误差函数确定的ψ的值被代入方程式4以定义训练点云团602的模型。

图10(a)示出与训练点云团602的示例性模型(空心圆)重叠的训练点(黑色点)云团602。图10(b)是图10(a)的彩色版。模型1000可以通过将由最小化误差函数确定的一组参数ψ的值代入方程式4而定义得到。如图10(a)和10(b)所示，该模型具有第一表面1002和第二表面1004，两个表面都表现为双曲面形形状，分别具有顶点1002(a)和1004(a)，两顶点彼此面对，同时两个表面位于同一轴(未示出)上。在一种实现方式中，仅第一表面1002被用来对训练点云团602建模。如图10(a)-10(b)所示，训练点云团602并不完全覆盖第一表面1002，而且根本不覆盖第二表面1004。

图11(a)是用于对特征空间600中的训练点云团602建模的模型1000的第一表面1002的图示。图11(a)-(c)没有包括第二表面1004。图11(b)示出与模型(空心圆)1000的第一表面1002重叠的训练点(黑色点)云团602。图11(c)是图11(b)的彩色版。

图12是流程图，示出利用通过处理400训练的系统识别图像中作为手指的物体的示例性处理1200。处理1200从创建被表面104或ROI116中的其他物体始终反射的IR的BGM开始(操作1202)。然后用照相机108捕捉表面104及其附近的输入图像(操作1204)，并从该输入图像中减去BGM(操作1206)。

如以上就图2(a)和2(b)详细描述的，斑点分析算法，如Grassfire算法，被用来从输入图像中抽取物体(操作1208)。如以上就图3详细描述的，从输入图像抽取的每个物体被处理，以标识和放弃那些要么太大要么太小而不会是手指的物体(操作1210)。剩余的物体经排序而形成按总面积的降序排列的列表(操作1212)。

然后，列表中的第一物体被转换成n×n的图像，并且改变大小之后的n×n图像被投影到一组训练数据的特征空间600中，以获得图像点(操作1214)。模仿在训练阶段400对训练点云团602中的点应用TTC技术，对图像点应用TTC技术(操作1216)。可以在操作1216中使用与操作412中所用相同的TTC转换值。

利用图像点的坐标计算定义训练点云团602的模型1000的二次多项式的值(操作1218)。如果图像点位于模型1000中，则图像点的坐标代入多项式会得到零值。相反，如果图像点不位于模型1000中，将图像点的坐标代入多项式中会得到非零的实数。通过将图像点的坐标代入多项式而得到的值表示图像点与模型1000之间的距离。

对应于特征空间600中靠近模型1000的图像点的图像会表现出与包括所述一组训练点的图像相似的特征。因此，图像点越靠近模型1000，则对应于图像点的图像越可能是手指。所以，对应于被发现位于模型1000上的图像点或落入模型1000的最大阈值距离之内的图像点的图像可被确定是手指。

因此，计算通过将图像点的坐标代入二次多项式而得到的值，以确定其是否小于所限定的阈值距离(操作1220)。如果通过将图像点的坐标代入二次多项式而得到的值小于该阈值距离，则对应于该图像点的物体被视为手指(操作1222)。如果通过将图象点的坐标代入二次多项式而得到的值大于最大阈值距离，则对应于该图像点的图像被放弃，并前进到操作1214以处理列表中的下一个物体(操作1224)。

通过将物体投影到特征空间而减小图像中捕捉的物体的维数使得可以在不用比较所捕捉图像的每个像素与模型的每个像素的情况下将物体与训练物体的图像的模型比较。从而，可以节省处理能力和资源以及/或者提高比较速度。

现在参照图13-19描述训练和识别阶段的其他实现方式。

图13是流程图，示出训练手指识别和跟踪系统100识别作为手指的物体的处理1300的示例。处理1300包括对各个训练图像应用直方图均衡化(histogram equalization)技术的操作。

处理1300从创建被表面104或ROI116中的其他物体始终反射的IR的BGM开始(操作1302)。利用照相机108捕捉各种不同取向的一个或多个手指的大量输入图像(操作1304)，并从每个输入图像中减去BGM(操作1306)。图像中表示手指的部分被从图像中抽取出来并转换成标准的n×n的图像尺寸(操作1308)。对每个n×n图像应用直方图均衡化技术(操作1310)。

直方图均衡化技术被应用于n×n的图像，以解决照明条件变化的问题。对n×n图像应用直方图均衡化技术涉及生成n×n图像中像素光强的直方图，对n×n图像的直方图进行归一化以及基于归一化的图像直方图对n×n图像中的像素重新赋值。因此，个体的像素保持了它们的亮度序位(例如，它们保持比其他像素更亮或更暗)。

创建对应于所述一组n×n的手指训练图像的特征空间，并将每个训练图像投影到特征空间中(操作1312)。

如图14所示，被投影的训练图像在特征空间1400中形成训练点云团1402。对训练点云团1402应用TTC技术，以便将训练点云团1402的中心转移到特征空间1400的原点(操作1314)。图14所示训练点云团1402的形状表现为不同于图6所示训练点云团602的形状。具体而言，图14所示训练点云团1402在圆锥形形状1404的顶点1408处带有一尾部1406。两个训练点云团1402、602在形状上的差异可以归因于对训练点图像组应用了直方图均衡化技术(操作1310)，因为直方图均衡化技术减小了由于照明条件变化造成的所述一组训练图像中的变化。因此，当训练图像被投影到特征空间1400中时，获得更为统一的形状。图6中的训练点云团602的形状反映了训练图像组中照明条件的变化以及手指形状和取向的变化。相反，图14所示训练点云团1402的形状主要反应的是训练图像组中手指形状和取向的变化。

处理1300包括用一个或多个模型拟合转移之后的训练点云团1402(操作1316)。为了对训练点云团1402建模，形成圆锥形形状1404的训练点子组和形成尾部1406的训练点子组被分开考虑。图15示出形成没有尾部1406的圆锥形形状1404的训练点子组。图16示出没有圆锥形形状1404的形成尾部1406的训练点子组。

可以为形成圆锥形形状1404的训练点子组创建一模型，并为形成尾部1406的训练点子组创建第二模型。如上所述，方程式4给出了三维二次表面的通用公式。因此，通过首先确定方程式4中的未知参数ψ，可以确定形成圆锥形形状1404的一组训练点的模型，所述参数使方程式7相对于形成圆锥形形状1404的训练点子组中的一组点的误差函数被最小化。通过最小化误差函数确定的ψ的值被插入方程式4中以定义训练点云团1402的模型。

或者，可以用垂直圆锥来对形成圆锥形形状1404的训练图像的子组进行建模。如图15所示，圆锥形训练点云团1404表现出沿垂直轴1500的最大变化量，所述垂直轴1500表示特征空间1400的第一主分量。换句话说，圆锥形云团1404的高度维度平行于特征空间1400的第一主分量。所观察到的圆锥形训练点云团1404沿特征空间1400的第一主分量方向表现出最大变化量的情况与对应于第一主分量的协方差矩阵的特征向量代表一组训练图像显示出最大变化的方向的事实相符。因此，可以使用垂直圆锥来对形成圆锥形形状1404的训练点子组进行建模。一般垂直圆锥用以下方程式描述：

H (x, y, z) = \frac{{(x - a)}^{2}}{d^{2}} + \frac{{(y - b)}^{2}}{e^{2}} - \frac{{(z - c)}^{2}}{f^{2}} - - - (8)

其中x和y表示特征空间1400的水平轴1502、1504，z表示垂直轴1500。方程式8中的未知参数为Ω＝(a，b，c，d，e，f)。为了用垂直圆锥拟合形成圆锥形形状1404的训练图像的子组，确定使方程式8相对于形成圆锥形形状1404的训练点子组中的一组点被最小化的未知参数Ω的值。方程式8所示误差函数可以通过以下方程式定义：

E = \underset{(x, y, z) &Element; TS}{Σ} H^{2} (x, y, z) - - - (9)

可以使用准牛顿方法来最小化方程式9所示误差函数。对方程式9所示误差函数的最小化产生所述一组未知参数Ω的值。这些值被插入方程式8以定义形成圆锥形形状1404的训练点子组的垂直圆锥模型。

图17(a)示出与圆锥形形状1404的训练点云团的示例性垂直圆锥模型(空心圆)1700重叠的圆锥形形状的训练点(黑色菱形)云团。图17(c)是图17(a)的彩色版。如图17(a)和17(c)所示，垂直圆锥模型1700既有底表面1702又有顶表面1704。每个表面1702和1704形成的两个圆锥形状在共同的顶点1706处相遇。两个圆锥形状位于同一轴(未示出)上。形成圆锥形形状1404的训练点云团不完全覆盖表面1702，同时根本不覆盖表面1704。在一种实现方式中，仅圆锥1700的下表面1702被用来对圆锥形形状1404的训练点云团建模。图17(b)示出与圆锥形形状1404的训练点云团的示例性垂直圆锥模型(空心圆)1700的下表面1702重叠的圆锥形形状(黑色菱形)1404的训练点云团。图17(d)是图17(b)的彩色版。

尾部1406的一种模型是垂直线。尾部1406的垂直线模型通过计算尾部1406的训练点沿水平轴1602、1604的中值来确定。图18(a)示出与形成尾部1406的训练点云团的示例性垂直线模型(黑线)1800重叠的尾部(黑点)1406的训练点云团。形成尾部1406的训练点云团在线1800的底部1810周围密集成群，并在更靠近线1800顶部1820处逐渐采用基本上线形的形状。图18(b)是图18(a)的彩色版。在一种可替代的实现方式中，线1800可以不是垂直的。作为替代，线1800可以具有最好地匹配形成尾部1406的一组训练点的方向。

图19是流程图，示出了识别图像中手指的处理1900的一个示例。处理1900使用由处理1300训练的系统。

处理1900从创建被表面104或ROI116中的其它物体所始终反射的IR的BGM(操作1902)开始。利用照相机108捕捉表面104及其附近的输入图像(操作1904)，从输入图像中减去BGM(操作1906)。如以上就图2(a)和2(b)详细描述的，斑点分析算法，如Grassfire算法，被用来从输入图像中抽取物体(操作1908)。如以上就图3所讨论的，从输入图像抽取的每一物体被处理以标识并放弃要么太小要么太大而不会是手指的物体(操作1910)。剩余的物体被排序成按照总面积的升序排列的列表(操作1912)。然后将列表中的第一个物体转换成n×n的图像(操作1914)并对改变大小之后的图像应用与处理1300所应用的相同的直方图均衡化技术(操作1916)。在对图像应用直方图均衡化技术之后，将图像投影到一组训练图像的特征空间中，并模仿训练阶段1300中对训练点云团1402应用TTC技术，对图像点应用TTC技术(操作1918)。

如上所述，两个模型，即垂直线1800和垂直圆锥1700的下表面1702构成，被用来对训练点云团1402建模。因此，可以确定图像点的垂直坐标是在垂直圆锥模型1700的下表面1702的定点1706的上方还是下方(操作1920)。

如果图像点的垂直坐标位于垂直圆锥模型1700的顶点1706的下方，则由操作1920进入“否”分支。利用图像点的坐标计算定义圆锥形训练点云团1404的垂直圆锥模型1700的方程式8(操作1922)。如果投影点位于垂直圆锥模型1700的表面，则将投影点的坐标代入方程式8会得到零值。相反，如果图像点不位于垂直圆锥模型1700的表面上，则通过将图像点的坐标代入方程式8会得到非零的实数值。通过将图像点坐标代入方程式8得到的值代表图像点与垂直圆锥模型1700之间的距离。

对应于特征空间1400中邻近垂直圆锥模型1700的下表面1702的图像点的图像会表现出与包括所述一组训练点的图像类似的特征。因此，有可能图像点越靠近垂直圆锥模型1700的下表面1702，则对应于图像点的图像越有可能是手指。对应于位于垂直圆锥模型1700的下表面1702上的图像点或落入垂直圆锥模型1700的下表面的最大阈值距离之内的图像点的图像可以被确定是手指。

因此，计算通过将图像点坐标代入方程式8得到的值来确定该值是否小于限定的阈值距离(操作1924)。如果通过将图像点坐标代入方程式8得到的值小于该阈值距离(操作1924的“是”分支)，则对应于该图像点的图像被视为手指(操作1926)。如果通过将图像点坐标代入方程式8得到的值大于阈值距离(操作1924的“否”分支)，则放弃对应于该图像点的图像，并可进入操作1914以处理列表中下一个物体(操作1928)。

如果图像点的垂直坐标位于垂直圆锥模型1700的顶点1706上方，则由操作1920进入“是”分支。利用图像点的坐标来评价定义垂直线模型1800的方程式(操作1930)。如果图像点位于线1800上，则将图像点坐标代入定义所述线的方程式中会得到零值。相反，如果图像点不位于线1800上，通过将图像点坐标代入定义线1800的方程式中会得到非零的实数值。通过将图像点坐标代入定义线1800的方程式而得到的值代表图像点与线1800之间的距离。

对应于特征空间1400中邻近垂直线模型1800的图像点的图像会表现出与包括一组训练点的图像相似的特征。因此，有可能图像点越靠近垂直线模型1800，对应于图像点的图像越可能是手指。对应于位于垂直线模型1800上的图像点或落入垂直线模型1800的最大阈值距离之内的图像点的图像可以确定是手指。

因此，计算通过将图像点坐标代入定义所述线的方程式而得到的值，以确定该值是否小于阈值距离(操作1932)。如果通过将图像点坐标代入定义所述线的方程式而得到的值小于阈值距离(操作1932的“是”分支)，则对应于该图象点的图像被视为手指(操作1926)。如果通过将图像点坐标代入定义所述线的方程式而得到的值大于阈值距离(操作1932的“否”分支)，则放弃对应于该图像点的图像，并可进入操作1914而处理列表中下一个物体(操作1928)。

存在各种技术可用于调节阈值距离。例如，一种用于调节阈值距离的技术涉及将训练点坐标代入训练点模型。在一种实现方式中，包纳90％的训练点的阈值距离被认为是阈值距离的合理选择。当然，也可以选择其它的阈值距离或百分比。

图20是流程图，示出用于识别图像中的物体的处理2000的一个示例。该处理从确定多维空间中表征物体的图像点的坐标(操作2002)开始。在一种实现方式中，利用照相机捕捉特定物体的图像，该图像由计算机或软件应用接收作为输入。所述图像点表征图像中所捕捉的该特定物体。

提供描述表现训练图像特征的多维空间中的几何模型的方程式(操作2004)。将图像点的坐标代入描述几何模型的方程式中，以确定图像点与几何模型之间的距离(操作2006)。

基于所确定的图像点与几何模型之间的距离，确定图像点所表征的物体是否匹配训练图像(操作2008)。具体而言，无论训练图像所捕捉的物体类型如何，确定该物体是否匹配。

在一种实现方式中，确定图像点坐标涉及将图像投影到不同的多维空间中。该多维空间可以是例如特征空间。在这种实现方式中，表现训练图像特征的几何模型也在该多维空间中。

以上已经描述了实现方式。但是，应该理解，可以做出各种变型。例如，光盘(CD)、处理装置或其它计算机可读介质可以包含用于实现这里所公开的任何一种方法的程序、指令或代码段。此外，可以提供用于实现所公开任何一种方法的工具。该工具可以包括例如计算机可读介质、处理装置、照相机、投影仪或它们的组合以及其它可能的部件。处理设备可以包括例如处理器、计算机、可编程逻辑装置或集成电路。

设备和特征至少可以部分实现为各种装置。例子包括如上所述的计算机，包括便携式计算机或其它处理装置。例子还包括便携式电话、个人数字助理、诸如例如传真机或便携式e-mail装置(如Blackberry

)之类的消息接发装置、例如iPod之类的便携式音乐播放器、或其它电子便携式消息接发、娱乐、组织或游戏装置。

另外，尽管已经就识别图像中作为手指的物体的情况描述了所一般性公开的系统和方法，但是识别其它图像中其它物体的能力也已在考虑之内。这里描述的系统和方法可以用来识别可以用空间(例如特征空间)中的几何模型建模的任何物体。例如，所描述的系统和方法可以用来识别图像中作为笔或罐的物体。另外，可以组合、替换、改变或去除不同实现方式中的元素以获得其它的实现方式。

尽管方法被描述为包括多个操作，但是也可以在所公开的方法中添加其它操作。此外，并不是每个操作必须执行，因此可以跳过一些操作。另外，所公开的操作并不必须按照描述的顺序来执行。

最后，可以使用、组合和改变不同的技术来得到一种实现方式，所述技术包括例如各种硬件、软件、固件、集成部件、独立部件、处理装置、存储器或存储装置、通信装置、滤波器、显示装置和投影装置。因此，其它实现方式落入所附权利要求的范围内。

Claims

1.一种用于识别图像中的物体的方法，其包括：

利用一个或多个处理装置确定多维空间中的图像点的坐标，所述多维空间中的图像点表征所述物体的图像，所述多维空间根据一个或多个手指的一组训练图像来定义；

利用所述一个或多个处理装置形成描述所述多维空间中的一几何模型的方程式，所述模型表现一个或多个手指的一组训练图像的特征，描述所述几何模型的所述方程式包括描述多维空间中的圆锥的方程式；

利用所述一个或多个处理装置将所确定的多维空间中的图像点的所述坐标代入描述多维空间中的几何模型的所述方程式以确定多维空间中的所述图像点与所述几何模型之间的距离；以及

基于所确定的多维空间中的所述图像点和所述几何模型之间的距离，利用所述一个或多个处理装置确定所述图像中的物体是否包括手指。

2.如权利要求1所述的用于识别图像中的物体的方法，其中，还包括：

接收所述物体的图像，所述图像具有多个数据元素，所述多维空间的维数低于所述数据元素的数量；并且

其中确定多维空间中的图像点的坐标的步骤包括将所述图像投影到所述多维空间以产生所述多维空间中的所述图像点的坐标。

3.如权利要求2所述的用于识别图像中的物体的方法，其中，形成描述多维空间中的几何模型的方程式的步骤包括形成描述多维空间中的一组训练点的几何模型的方程式，所述一组训练点中的每个训练点对应于所述一组训练图像中的一个或多个图像。

4.如权利要求2所述的用于识别图像中的物体的方法，进一步包括，在将所述物体的图像投影到多维空间之前，将所述物体的图像归一化。

5.如权利要求4所述的用于识别图像中的物体的方法，其中，归一化所述物体的图像的步骤包括归一化所述物体的图像以处理亮度变化。

6.如权利要求4所述的用于识别图像中的物体的方法，其中，归一化所述物体的图像的步骤包括对所述物体的图像应用直方图均衡化技术。

7.如权利要求1所述的用于识别图像中的物体的方法，其中，形成描述多维空间中的几何模型的方程式的步骤包括形成描述多维空间中的几何模型的方程式并且所述方程式包括描述多维空间中的圆锥的方程式以及描述多维空间中的线的方程式。

8.如权利要求1所述的用于识别图像中的物体的方法，其中，将所确定的多维空间中的图像点的所述坐标代入描述多维空间中的几何模型的方程式的步骤包括：

从描述多维空间中的圆锥的方程式和描述多维空间中的线的方程式中选择方程式；和

将所确定的多维空间中的图像点的坐标代入所选的方程式。

9.如权利要求1所述的用于识别图像中的物体的方法，其中，形成描述多维空间中的几何模型的方程式并且所述方程式包括描述多维空间中的圆锥的方程式，包括形成以下形式的方程式：

H (x, y, z) = \frac{{(x - a)}^{2}}{d^{2}} + \frac{{(y - b)}^{2}}{e^{2}} - \frac{{(z - c)}^{2}}{f^{2}},

其中a、b、c、d、e和f表示常数。

10.一种用于识别图像中的物体的方法，其包括下述步骤：

在包括一个或多个处理装置的计算机系统中接收所述物体的图像，所述图像具有若干数据点；

利用所述一个或多个处理装置将所述图像投影到维数小于所述数据点数量的多维空间中，以产生所述多维空间中的图像点的坐标，所述多维空间中的所述图像点表征所述特定物体，所述多维空间根据一个或多个手指的一组训练图像来定义；

利用所述一个或多个处理装置形成描述多维空间中的几何模型的方程式，所述几何模型是所述多维空间中一组训练点的模型，所述一组训练点中的每个训练点对应于一个或多个手指的一组训练图像中的一个或多个图像，并且描述所述几何模型的方程式包括描述多维空间中的圆锥的方程式；

利用所述一个或多个处理装置将所述图像的坐标代入描述多维空间中

的所述一组训练点的几何模型的所述方程式以确定所述多维空间中的所述

图像点与所述模型之间的距离；以及

基于所确定的所述多维空间中的所述图像点与所述模型之间的距离，利用所述一个或多个处理装置确定所述图像中的物体是否包括手指。

11.如权利要求10所述的用于识别图像中的物体的方法，其中，将所述图像点的所述坐标代入描述多维空间中的一组训练点的几何模型的方程式的步骤包括：

从描述多维空间中的圆锥的方程式和描述不同几何形式的不同方程式中选择方程式；和

将所确定的多维空间中的图像点的坐标代入所选的方程式。

12.一种用于识别图像中的物体的系统，其包括：

照相机；和

耦接到所述照相机的处理装置，该处理装置被构造成：

确定多维空间中的图像点的坐标，所述多维空间中的图像点表征所述物体的图像，并且所述多维空间根据一个或多个手指的一组训练图像来定义；

形成描述多维空间中的几何模型的方程式，所述几何模型表征一个或多个手指的一组训练图像，并且描述所述几何模型的方程式包括描述多维空间中的圆锥的方程式；

将所确定的多维空间中的图像点的坐标代入描述多维空间中的所述几何模型的所述方程式以确定所述多维空间中的所述图像点与所述几何模型之间的距离；以及

基于所确定的所述多维空间中的所述图像点与所述模型之间的距离，确定所述图像中的物体是否包括手指。

13.如权利要求12所述的用于识别图像中的物体的系统，其中，所述照相机包括IR照相机。

14.如权利要求13所述的用于识别图像中的物体的系统，其中，还包括IR源。

15.如权利要求12所述的用于识别图像中的物体的系统，其中，还包括设置在所述照相机前方的屏幕。

16.如权利要求15所述的用于识别图像中的物体的系统，其中，所述屏幕至少是半透明的，使得位于与照相机相反的所述屏幕的一侧上的物体所反射的光透过屏幕并被所述照相机所接收。

17.如权利要求12所述的用于识别图像中的物体的系统，其中，所述处理装置配置成确定多维空间中的图像点的坐标，所述多维空间的维数小于所述物体的图像中的数据点数量。

18.一种用于识别图像中的物体的方法，其包括：

利用所述一个或多个处理装置形成描述所述多维空间中的一几何模型的方程式，所述模型表现一个或多个手指的一组训练图像的特征，描述所述几何模型的所述方程式包括描述多维空间中的双曲面的至少一部分的方程式；

利用所述一个或多个处理装置将所确定的多维空间中的图像点的所述坐标代入描述多维空间中的几何模型的所述方程式以确定多维空间中的所述图像点与所述几何模型之间的距离；以及基于所确定的多维空间中的所述图像点和所述几何模型之间的距离，利用所述一个或多个处理装置确定所述图像中的物体是否包括手指。

19.如权利要求18所述的用于识别图像中的物体的方法，其中，

所述物体的所述图像具有若干数据点；和

确定多维空间中的图像点的坐标的步骤包括在具有小于所述数据点数量的维数的多维空间中确定所述图像点的坐标。

20.一种用于识别物体的方法，包括：

利用投射到表面附近的电磁辐射来检测接触所述表面的所述物体；

确定表征多维空间中的所述物体的图像点的坐标；

利用实施在处理装置中的受训练几何模型确定检测到的物体是否为一种物体类型，所述几何模型用于根据图像点与几何模型之间的距离来确定检测到的物体是否为所述物体类型；和

如果确定检测到的物体是所述物体类型，则根据检测到的物体，利用处理装置向计算机应用程序生成用户输入。

21.一种包括一个或多个处理装置的用于识别图像中的物体的系统，所述系统配置成：

确定表征多维空间中的所述物体的图像点的坐标；

利用受训练几何模型确定检测到的物体是否为一种物体类型，所述几何模型用于根据所述图像点与所述几何模型之间的距离来确定检测到的物体是否为所述物体类型；和

22.一种用于识别物体的方法，包括：

利用投射到表面附近的电磁辐射检测靠近所述表面的至少第一和第二物体；

利用实施在处理装置中的受训练模型来识别所述第一和第二物体，所述模型用于确定第一和第二图像点的每个与所述模型之间的距离；

根据识别出的所述第一和第二物体，利用处理装置将所述至少第一和第二物体中的其中之一指定为控制物体；和

根据所述控制物体，利用处理装置向计算机应用程序生成用户输入。

23.一种包括一个或多个处理装置的用于识别物体的系统，所述系统配置成：

利用受训练模型来识别所述第一和第二物体，所述模型用于确定第一和第二图像点的每个与所述受训练模型之间的距离；

根据识别出的所述第一和第二物体，将所述至少第一和第二物体中的其中之一指定为控制物体；和

利用所述控制物体，向计算机应用程序生成用户输入。

24.一种用于识别物体的方法，包括：

利用实施在处理装置中的受训练模型来识别所述第一和第二物体，所述模型用于确定第一图像点和第二图像点的每个与受训练模型之间的距离；和

根据识别出的所述第一和第二物体，利用处理装置向计算机应用程序生成用户输入。

25.一种包括一个或多个处理装置的用于识别物体的系统，所述系统包括：

利用受训练模型来识别所述第一和第二物体，所述模型用于确定第一图像点和第二图像点的每个与几何模型之间的距离；和

根据识别出的所述第一和第二物体，向计算机应用程序生成用户输入。

26.一种用于识别物体的方法，包括：

利用投射到表面附近的电磁辐射检测接触所述表面的至少第一和第二物体；

利用实施在处理装置中的受训练模型来识别所述至少第一和第二物体作为控制用户界面的物体，所述模型用于识别所述物体；和

27.一种包括一个或多个处理装置的用于识别物体的系统，所述系统配置成：

利用受训练模型来识别所述至少第一和第二物体作为控制用户界面的物体，所述模型接受训练以识别物体；和

利用所述控制物体向计算机应用程序生成用户输入。

28.一种用于识别物体的方法，包括：

利用投射到表面附近的电磁辐射来检测接触所述表面的物体；

确定表征多维空间中的所述物体的图像点的坐标；

利用处理装置，将所述图像点与一组训练图像的至少圆锥形特性进行比较；

根据从所述图像点到圆锥的距离，利用处理装置确定所述物体是否为一种物体类型；和

如果确定所述物体是所述类型物体，则根据所述物体，利用处理装置向计算机应用程序生成用户输入。

29.一种包括一个或多个处理装置的用于识别物体的系统，所述系统配置成：

确定表征多维空间中的所述物体的图像点的坐标；

将所述图像点与一组训练图像的至少锥形特性进行比较；

根据从所述图像点到所述锥形的距离，确定所述物体是否为一种类型物体；和

如果确定所述物体是所述类型物体，则根据检测到的物体，向计算机应用程序生成用户输入。

30.一种用于识别物体的方法，包括：

利用处理装置，将所述物体与一组训练图像进行比较，所述一组训练图像利用三维二次曲面一般方程式模型化到空间中；

根据输入物体与所述一组训练图像的比较结果，利用处理装置确定所述物体是否为由所述一组训练图像捕捉到的一种类型物体；和

如果确定检测到的物体是所述控制物体，则根据检测到的物体，利用处理装置向计算机应用程序生成用户输入。

31.一种包括一个或多个处理装置的用于识别物体的系统，所述系统配置成：

将所述物体与一组训练图像进行比较，所述一组训练图像利用三维二次曲面一般方程式模型化到空间中；

根据输入物体与所述一组训练图像的比较，确定所述物体是否为由所述一组训练图像捕捉的一种类型物体；和

如果确定检测到的物体是所述控制物体，则根据检测到的物体，向计算机应用程序生成用户输入。