CN102047203B

CN102047203B - 使用在扩展的景深内提取的三维信息进行的基于姿态的控制

Info

Publication number: CN102047203B
Application number: CN200980120542.XA
Authority: CN
Inventors: 皮埃尔·St·希莱尔; 约翰·S·昂德科夫勒
Original assignee: Oblong Industries Inc
Current assignee: Oblong Industries Inc
Priority date: 2008-04-02
Filing date: 2009-04-02
Publication date: 2016-08-17
Anticipated expiration: 2029-04-02
Also published as: CN102047203A; JP5697590B2; KR20100136993A; WO2009124181A2; EP2266016A2; KR101550478B1; EP2266016A4; WO2009124181A3; JP2011523112A

Abstract

描述了使用在扩展的景深内提取的三维信息进行基于姿态的控制的系统和方法。该系统包括与至少一个处理器耦合的多个光学检测器。该多个光学检测器对身体成像。该多个光学检测器中的至少两个光学检测器包括波前编码相机。该处理器自动检测身体的姿态，其中该姿态包括身体的瞬时状态。该检测包括仅聚集一瞬间的该姿态的姿态数据并且在对该姿态的检测中排除对背景数据的使用。该姿态数据包括身体相对于作为空间中的绝对位置和取向的中性位置的焦点分辨位置数据，其中该位置数据是三维信息。该处理器将该姿态翻译成姿态信号，并使用该姿态信号来控制与该处理器耦合的部件。

Description

使用在扩展的景深内提取的三维信息进行的基于姿态的控制

相关申请

本申请是2006年2月8日提交的美国专利申请号11/350,697的部分继续申请。

本申请要求2008年4月2日提交的美国专利申请号61/041,892的优先权。

本申请是2008年4月24日提交的美国专利申请号12/109,263的部分继续申请。

本申请要求2008年10月14日提交的美国专利申请号61/105,243的优先权。

本申请要求2008年10月14日提交的美国专利申请号61/105,253的优先权。

技术领域

本发明概括地说涉及计算机系统领域，具体地说涉及通过在扩展的景深内提取三维信息来进行基于姿态的控制的系统和方法。

背景技术

当在成像系统中在扩展的景深内提取三维信息时，距场景中一点的距离可根据它在被同时捕捉到的两个或更多图像中的位置来估算出。当图像之间的三维(3D)关系已知时，该点的3D位置可根据基本几何关系来计算出。根据多个图像计算空间位置所面临的挑战(常称为立体相关或立体深度计算)是将一点在一个图像中的映射与它在另一个图像中的映射自动和准确地相关联。这最通常是通过使从一个图像到一个或多个其他图像的图像特征相关来完成的。然而，所有立体匹配方法中的基本假设是：图像中必须存在某个可标识的局部对比度或特征，以便将该点与它在另一个图像中的位置相匹配。因此，当由于散焦而在图像中没有局部对比度或特征时，会产生问题——立体匹配在图像的焦点没对准的区域内不产生准确的结果。

用于扩展图像焦深的常规手段是减小相机镜头光瞳的直径(“缩小”)。然而，两个副作用限制了该技术的实用性。首先，成像系统的灵敏度降低了与光瞳内外径比的平方相等的倍数。其次，最大空间频率响应降低了与光瞳内外径比相等的倍数，这限制了图像中的分辨率和对比度。因此，在常规成像系统中存在景深、曝光时间和总体对比度之间的权衡。在多相机测距系统的情况下，净效应将是立体深度准确度与工作范围之间的折衷。

通过引用的合并

将本说明书中提到的每个专利、专利申请和/或出版物通过引用而整体合并于此，就如同特意地且单独地表明将每个专利、专利申请和/或出版物通过引用而合并一样。

附图说明

图1是本发明的系统的一个实施例的图；

图2是本发明的标记标签的一个实施例的图；

图3是本发明的一个实施例中的姿态词汇中的姿势的图；

图4是本发明的一个实施例中的姿态词汇中的取向的图；

图5是本发明的一个实施例中的姿态词汇中的双手组合的图；

图6是本发明的一个实施例中的姿态词汇中的取向混合的图；

图7是图示了本发明的系统的一个实施例中的操作的流程图；

图8是该系统的一个实施例中的命令的例子；

图9是一个实施例下的、在扩展的景深内提取三维信息的基于姿态的控制系统的框图；

图10是一个实施例下的、在基于姿态的控制系统中使用的波前编码成像系统的框图；

图11是一个实施例下的基于姿态的控制系统的框图，该系统采用包括两个波前编码相机的波前编码成像系统在扩展的景深内提取三维信息；

图12是一个实施例下的、使用在扩展的景深内提取的三维信息进行的基于姿态的控制的流程图；

图13是一个实施例下的、在基于姿态的控制系统中使用的波前编码设计过程的框图。

发明内容

下面描述使用在扩展的景深内提取的三维信息进行基于姿态的控制的系统和方法。一种系统包括与至少一个处理器耦合的多个光学检测器。该多个光学检测器对身体成像。该多个光学检测器中的至少两个光学检测器包括波前编码相机。该处理器自动检测身体的姿态，其中该姿态包括身体的瞬时状态。该检测包括仅聚集一瞬间的该姿态的姿态数据并且在对该姿态的检测中排除对背景数据的使用。该姿态数据包括身体相对于作为空间中的绝对位置和取向的中性位置的焦点分辨位置数据，其中该位置数据是三维信息。该处理器将该姿态翻译成姿态信号，并使用该姿态信号来控制与该处理器耦合的部件。

一个种方法包括利用成像系统对身体成像，其中该成像包括产生身体的波前编码图像。该方法自动检测身体的姿态，其中该姿态包括身体的瞬时状态。该检测包括仅聚集一瞬间的该姿态的姿态数据并且在对该姿态的检测中排除对背景数据的使用。该姿态数据包括身体相对于作为空间中的绝对位置和取向的中性位置的焦点分辨位置数据，其中该位置数据是三维信息。该方法包括将该姿态翻译成姿态信号，并响应于该姿态信号而控制与计算机耦合的部件。

在下面的描述中，详细描述了多个特征，以便提供对这里描述的实施例的更彻底的理解。显然，本发明可以在没有这些具体细节的情况下实施。

具体实施方式

系统

在图1中示出了本发明的一个实施例的框图。用户将手101和102放在相机阵列104A-104D的观察区域内。相机检测手指及手101和102的定位、取向和移动，并产生输出信号给预处理器105。预处理器105将相机输出翻译成姿态信号，姿态信号被提供给系统的计算机处理单元 107。计算机107使用输入信息来产生命令以控制一个或多个屏上光标，并将视频输出提供给显示器103。

尽管系统是以单个用户的手作为输入而示出的，本发明也可采用多个用户来实现。另外，代替手或除了手以外，系统可跟踪用户身体的任何一个或多个部分，包括头、脚、腿、臂、肘、膝等。

在所示实施例中，采用四个相机来检测用户的手101和102的定位、取向和移动。应该理解，在不脱离本发明的范围或精神的情况下，本发明对更多或更少的相机同样适用。另外，尽管在示例实施例中相机是对称布置的，但在本发明中这种对称不是必需的。在本发明中，可以使用允许用户的手的定位、取向和移动的任何数目或定位的相机。

在本发明的一个实施例中，所用相机是能够捕捉灰阶图像的运动捕捉相机。在一个实施例中，所用相机是由Vicon制造的相机，如Vicon MX40相机。此相机包括相机上处理并且能够进行每秒1000帧的图像捕捉。运动捕捉相机能够检测并定位标记。

在所描述的实施例中，相机用于光检测。在其他实施例中，相机或其他检测器可用于电磁的、静磁的、RFID或任何其他合适类型的检测。

预处理器105用来产生三维空间点重构和骨点标签设定。姿态翻译器106用来将3D空间信息和标记运动信息翻译成命令语言，该命令语言可由计算机处理器解释以更新显示器上光标的位置、形状和动作。在本发明的一个可替选实施例中，预处理器105和姿态翻译器106可组合成单个装置。

计算机107可以是比如由苹果、戴尔或任何合适的制造商制造的任何通用计算机。计算机107运行应用并提供显示输出。原本来自鼠标或其他现有技术的输入装置的光标信息现在来自姿态系统。

标记标签

本发明考虑在用户的一个或多个手指上使用标记标签，以使得系统可定位用户的手，标识其正在观察左手还是右手以及哪些手指是可视的。这允许系统检测用户的手的定位、取向和移动。此信息允许多个姿态被系统识别并被用户用作命令。

一个实施例中的标记标签是物理标签，该物理标签包括衬底(在本实施例中适合于贴附到人手上的各个位置)和以唯一标识图案布置在衬底表面上的离散标记。

标记和相关联的外部感测系统可以在允许准确、精确、迅速且持续地获取其三维空间位置的任何域(光域、电磁域、静磁域等)中工作。标记本身可主动地(例如，通过发射结构化电磁脉冲)工作或被动地(例如，通过如本实施例中的光学回射标记)工作。

在每个获取帧，检测系统接收由恢复后的三维空间位置构成的聚集“云”，其包括目前在仪器化工作空间体积内(在相机或其他检测器的可视范围内)的标签上的所有标记。每个标签上的标记具有足够的多样性，并且被布置成唯一的图案，从而检测系统可执行以下任务：(1)分割，其中每个恢复后的标记位置被分配给构成单个标签的点的一个且仅一个子集；(2)标签设定，其中点的每个分割后的子集被标识为特定标签；(3)定位，其中被标识的标签的三维空间位置被恢复；以及(4)取向，其中被标识的标签的三维空间取向被恢复。如下面所述和如图2中的一个实施例所示的那样，通过标记图案的特定性质，使得任务(1)和(2)成为可能。

一个实施例中的标签上的标记被贴附于规则网格位置的子集。此基本网格如本实施例中那样可以是传统笛卡尔类型的；或者代之以可以是某种其他的规则平面棋盘形布置(例如，三角形/六边形平铺布置)。鉴于标记感测系统的已知空间分辨率而确立网格的比例和间距，使得相邻网格位置不大可能被混淆。所有标签的标记图案的选择应满足以下约束：标签的图案不应通过旋转、平移或镜像的任意组合而与任何其他标签的图案相一致，标记的多样性和布置可进一步选择为使得容许某个规定数目的分量标记的损失(或遮蔽(occlusion))。在任何任意变换之后，应仍然不大可能将受损的模块与任何其他模块混淆。

现在参考图2，示出了多个标签201A-201E(左手)和202A-202E(右手)。每个标签都是矩形的，并且在本实施例中由5×7网格阵列构成。选择矩形形状来帮助确定标签的取向以及降低镜像重复的可能性。在所示的实施例中，每个手上的每个指头都有标签。在一些实施例中，每个手使用一个、两个、三个或四个标签可能是足够的。每个标签具有不同灰阶或色彩明暗的边界。此边界内是3×5网格阵列。标记(由图2中的黑点表示)被布置在该网格阵列的某些点处以提供信息。

通过将每个图案分割成“共同的”和“唯一的”子图案，鉴定信息可以用标签的标记图案进行编码。例如，本实施例规定了两种可能的“边界图案”(标记围绕矩形边界的分布)。由此建立了标签“族”——意图用于左手的标签由此可能都使用如标签201A-201E中所示的相同边界图案，而附着到右手手指的标签可能被分配如标签202A-202E中所示的不同图案。此子图案被选择为使得在标签的所有取向上都可区分左图案与右图案。在所示的例子中，左手图案在每个角落都包括标记，并且在从角落起第二个网格位置包括标记。右手图案在仅两个角落有标记，并且在非角落网格位置有两个标记。从该图案可以看出：只要四个标记中的任何三个是可视的，就能明确区分左手图案与右手图案。在一个实施例中，边界的色彩或阴影也可用作手型性的指示。

每个标签当然必须仍采用唯一的内部图案，标记分布在其族的共同边界内。在所示的实施例中，已发现，内部网格阵列中的两个标记足以唯一地标识十个手指中的每个，而不会因手指的旋转或取向而发生重复。即使标记中有一个被遮蔽，标签的手型性和图案的组合也产生唯一的标识符。

在本实施例中，网格位置可视地存在于刚性衬底上，来帮助执行将每个回射标记贴附于其预期位置的人工任务。借助彩色喷墨打印机将这些网格和预期标记位置精确地打印到衬底上，这里衬底是由初始时为挠性的“收缩膜”构成的片。将每个模块从该片切下，然后用炉烘烤，在该热处理过程中每个模块经历精确和可重复的收缩。在此过程后的短暂间隔内，冷却标签可略微变形——以模仿例如手指的纵向弯曲；此后，衬底是适当刚性的，标记可被粘附于所指示的网格点。

在一个实施例中，标记本身是三维的，比如借助粘合剂或其他合适的装置贴附到衬底的小反射球。标记的三维性可帮助对二维标记的检测和定位。然而，在不脱离本发明的精神和范围的情况下，可使用任一个。

目前，标签借助Velcro或其他合适的装置贴附到操作者佩戴的手套，或者可替选地使用双面胶带直接贴附到操作者的手指。在第三实施例中，可以完全省去刚性衬底，而将各个标记贴附(或“涂”)在操作者的手指和手上。

姿态词汇

本发明考虑由手姿势、取向、手组合和取向混合组成的姿态词汇。还实施记号语言来设计和传达本发明的姿态词汇中的姿势和姿态。姿态词汇是以紧凑的文本形式来表示运动学联动机构的瞬时‘姿势状态’的系统。所讨论的联动机构可以是生物的(例如人手；或整个人体；或蚱蜢腿；或狐猴的具关节的脊柱)或者代之以可以是非生物的(例如机器臂)。在任何情况下，该联动机构可以是简单的(脊柱)或有分支的(手)。本发明的姿态词汇系统为任何具体联动机构建立恒定长度的串；于是，占据该串的‘字符位置’的具体ASCII字符集是联动机构的瞬时状态或‘姿势’的唯一描述。

手姿势

图3图示了使用本发明的姿态词汇的一个实施例中的手姿势。本发明假设手上的五个手指中的每个都被使用。这些手指是诸如p-小指、r-无名指、m-中指、i-食指和t-拇指的码。图3中定义并示出了手指和拇指的多个姿势。姿态词汇串为联动机构(在此情况下为手指)中的每个可表达的自由度确立单个字符位置。此外，每个这样的自由度被理解为离散化的(或 ‘量子化的’)，从而可通过在该串位置分配有限数目的标准ASCII字符之一来表达其全程运动。这些自由度是相对于身体特有的原点和坐标系(手的背面，蚱蜢身体的中心；机器臂的底座等)而表达的。因此，使用小数目的额外姿态词汇字符位置来表达联动机构‘作为整体’在更全局的坐标系中的位置和取向。

仍参考图3，使用ASCII字符定义和标识多个姿势。其中一些姿势在拇指和非拇指之间加以划分。本发明在此实施例中使用编码，从而ASCII字符本身就暗示着姿势。然而，无论暗示与否，任何字符都可用来表示姿势。另外，在本发明中不必须为记号串使用ASCII字符。在不脱离本发明的范围和精神的情况下，可以使用任何合适的符号、数字或其他表示法。例如，如果需要，记号可采用每手指两位或某个其他位数。

弯曲的手指由字符“^”表示，而弯曲的拇指由“>”表示。指向上方的直的手指或拇指由“1”表示，指向某个角度的直的手指或拇指由“\”或“/”表示。“-”表示指向正侧方的拇指，“x”表示指向平面内的拇指。

采用这些单独的手指和拇指描述，可观数目的手姿势可使用本发明的方案来限定和书写。每个姿势由如上所述顺序为p-r-m-i-t的五个字符表示。图3图示了多个姿势，并且在此通过图示和举例对少数姿势进行了描述。保持平坦且平行于地面的手由“11111”表示。拳头由“^^^^>”表示。“OK”符号由“111^>”表示。

字符串当使用暗示性字符时提供了浅显“易读”的机会。着眼于快速的识别和直白的模拟，通常可选择描述每个自由度的可能字符的集合。例如，竖条(‘|’)意在表明联动机构元件是‘直的’，L形(‘L’)可表示九十度弯曲，抑扬符(‘^’)可表示锐角弯曲。如上所述，可按照需要使用任何字符或编码。

采用如这里所述的姿态词汇串的任何系统都受益于串比较的高计算效率——标识或搜索任何规定的姿势事实上变成期望姿势串与瞬时实际串之间的‘串比较’(例如UNIX的‘strcmp()’函数)。此外，‘通配符’的使用为程序员或系统设计者提供了额外的常见效能和功效：可将其瞬时状态对于匹配不相关的自由度规定为问号(‘？’)；可赋予额外的通配符含义。

取向

除了手指和拇指的姿势以外，手的取向也可表示信息。显然，亦可选择描述全局空间取向的字符：字符‘<’、‘>’、‘^’和‘v’当以取向字符位置出现时可用来表示左、右、上和下的概念。图4图示了组合了姿势和取向的编码的例子以及手取向描述符。在本发明的一个实施例中，两个字符位置首先规定手掌的方向，然后规定手指的方向(如果手指是直的，不管手指的实际弯曲)。这两个位置的可能字符表达取向的‘身体中心’记号：‘-、‘+’、‘x’、‘*’、‘^’和‘v’描述中间的、侧面的、前面的(向前的，离开身体)、后面的(向后的，离开身体)、头部的(向上的)和尾部的(向下的)。

在本发明的一个实施例的记号方案中，表示五个手指姿势的字符的后面是冒号和两个取向字符，以定义完整的命令姿势。在一个实施例中，起始位置被称为“xyz”姿势，其中拇指指向正上方，食指指向前方，中指垂直于食指，当姿势用右手作出时指向左方。这由串“^^x1-:-X”表示。

“XYZ-手”是利用人手的几何结构来允许对视觉上呈现的三维结构进行全部六个自由度的导航的技术。尽管该技术仅依赖于操作者的手的整体平移和旋转——从而其手指原则上可保持在任何期望姿势——在本实施例中更可取的是静态配置，其中食指指向远离身体的方向；拇指指向天花板；中指指向左-右。这三个手指由此描述(粗略但意图明晰地描述)了三维空间坐标系的三个互相正交的轴：由此‘XYZ-手’。

于是，进行XYZ-手导航，其中手、手指呈如上所述的姿势并保持在操作者身体之前、预定的‘中性位置’。以下面的自然方式实现对三维空间物体(或相机)的三个平移和三个旋转自由度的理解：手的左右移动(相对于身体的自然坐标系)导致沿着计算环境的x轴的移动；手的上下移动导致沿着受控环境的y轴的移动；手的前后移动(朝着或远离操作者的身体)导致该环境内的z轴运动。类似地，操作者的手围绕食指的旋转导致计算环境的取向的‘滚动’变化；类似地，分别通过使操作者的手围绕中指和拇指的旋转来实现‘俯仰’和‘摇摆’的变化。

注意，尽管‘计算环境’这里用来指代由XYZ-手方法控制的实体——并且似乎暗示合成的三维空间物体或者相机，但应理解该技术同样可用于控制真实世界物体的各种自由度：例如配备有适当旋转致动器的摄像机或摄影机的摇摄/倾斜/滚动控制。此外，由XYZ-手姿势提供的物理自由度可能稍微有些不精确地映射在虚拟域中：在本实施例中，XYZ-手还用来提供对大的全景显示图像的导航访问，从而操作者的手的左右和上下运动导致围绕图像的预期左右或上下‘摇摄’，而操作者的手的前后运动映射到‘变焦’控制。

在所有情况下，手的运动与所引起的计算平移/旋转之间的耦合可以是直接的(即，操作者的手的位置或旋转偏移借助某个线性或非线性函数而一一映射到在计算环境内物体或相机的位置或旋转偏移)或间接的(即，操作者的手的位置或旋转偏移借助某个线性或非线性函数而一一映射到在计算环境内位置/取向的一阶或更高阶导数；正在进行的积分于是实现计算环境的实际零阶位置/取向的非静态变化)。此后一控制手段类似于汽车的‘气动踏板’的使用，其中该踏板的恒定偏移或多或少导致恒定的车速。

担当真实世界XYZ-手的局部六自由度坐标原点的‘中性位置’可以(1)被确立为空间中的绝对位置和取向(相对于比如封闭室)；(2)被确立为相对于操作者自身的固定位置和取向(例如，在身体前方八英寸、在下巴下方十英寸、以及在侧面与肩膀平面成一直线)，而无论操作者的总体位置和‘朝向’如何；或者(3)通过操作者的有意的副动作(例如采用由操作者的‘另一只’手作出的姿态命令，所述命令表明XYZ-手的当前位置和取向自此以后应当被用作平移和旋转原点)来被交互式地确立。

此外，方便的是，提供围绕XYZ-手的中性位置的‘封锁’区(或‘死区’)，使得该体积内的移动不映射到受控环境内的移动。

可包括其他姿势：

[| | | | |：vx]是手掌面朝下方且手指朝前方的扁平手(拇指平行于手指)。

[| | | | |：x^]是手掌面朝前方且手指朝天花板的扁平手。

[| | | | |：-x]是手掌面朝身体中心(左手情况下为右，右手情况下为左)且手指朝前方的扁平手。

[^^^^-：-x]是单手竖起大拇指(拇指指向天花板)

[^^^|-：-x]是模仿枪指向前方

双手组合

本发明考虑单手命令和姿势，同样也考虑双手命令和姿势。图5示出了本发明的一个实施例中的双手组合和相关联的记号的例子。观察第一个例子的记号，“完全停止”表明其包括两个合上的拳头。“快照”例子的每个手的拇指和食指伸展，各拇指指向彼此，从而定义球门柱形状的框架。“方向舵和油门起始位置”是手指和拇指指向上方，手掌面朝屏幕。

取向混合

图6图示了本发明的一个实施例中的取向混合的例子。在所示的例子中，通过在手指姿势串之后将成对的取向记号括在括号内来表示该混合。例如，第一个命令示出了全部直指的手指位置。第一对取向命令将导致手掌平坦地朝着显示器，第二对使手旋转到斜向显示器45度的斜度。尽管本例子中示出了成对的混合，但在本发明中可考虑任何数目的混合。

示例命令

图8示出了适用于本发明的多个可能的命令。尽管这里的讨论有一些是关于控制显示器上的光标的，但本发明不限于该工作。实际上，本发明在操纵屏幕上的任何和所有数据及部分数据、以及显示器的状态时有大的应用。例如，这些命令可用于在视频媒体的回放过程中取代视频控制。这些命令可用来暂停、快进、倒回等。另外，可执行命令来缩小或放大图像、改变图像的取向、在任何方向上摇摄等。本发明还可代替诸如打开、关闭、保存等的菜单命令而使用。换句话说，任何可想象的命令或工作都可用姿态实现。

操作

图7是图示了一个实施例中的本发明的操作的流程图。在步骤701，检测系统检测标记和标签。在判定块702，确定是否检测到标签和标记。如果未检测到，系统返回到步骤701。如果在步骤702检测到标签和标记，系统进入步骤703。在步骤703，系统根据检测到的标签和标记标识手、手指和姿势。在步骤704，系统标识姿势的取向。在步骤705，系统标识检测到的一个或多个手的三维空间位置。(请注意步骤703、704和705中的任何或全部步骤可组合为单个步骤)。

在步骤706，信息被翻译成上面描述的姿态记号。在判定块707，确定姿势是否有效。这可以通过使用所产生的记号串进行简单的串比较来实现。如果姿势无效，系统返回到步骤701。如果姿势有效，系统在步骤708将记号和位置信息发送给计算机。计算机在步骤709确定为响应于姿态而要采取的合适动作，并相应地在步骤710更新显示器。

在本发明的一个实施例中，步骤701-705是通过相机上处理器实现的。在其他实施例中，如果需要，该处理可由系统计算机实现。

分析和翻译

系统能够“分析”和“翻译”被底层系统恢复的低级姿态所构成的流，并将那些经分析和翻译的姿态变成可用于控制大范围的计算机应用和系统的命令或事件数据所构成的流。这些技术和算法可包含在由计算机代码构成的系统中，该系统既提供实施这些技术的引擎也提供构建对该引擎的能力进行利用的计算机应用的平台。

一个实施例致力于在计算机接口中实现人手的丰富姿态使用，但也能够识别由其他身体部分(包括但不限于臂、躯干、腿和头)以及各种各样的非手的物理工具(静态的有关节的)作出的姿态，所述非手的物理工具包括但不限于卡钳、两角规、挠性弯曲合拢器以及各种形状的指点装置。可按照需要将标记和标签施加于可由操作者携带和使用的物品和工具。

这里所述的系统合并了使得构建在可被识别和作用于的姿态的范围方面丰富的姿态系统成为可能的多个创新，同时提供向应用中的简单集成。

一个实施例中的姿态分析和翻译系统的组成如下：

1)规定(为用在计算机程序中而编码)如下几个不同聚集水平的姿态的简洁有效的方式：

a.单只手的“姿势”(手的各部分相对于彼此的配置和取向)单只手在三维空间中的取向和位置。

b.双手组合，对于任一只手，考虑姿势、位置或两者。

c.多人组合；系统可跟踪多于两只的手，因此多于一个的人可协同地(或竞争地，在游戏应用的情况下)控制目标系统。

d.按顺序的姿态，其中姿势被组合成一系列；我们称它们为“活动的”姿态。

e.“语义图”姿态，其中操作者在空间中描绘形状。

2)用于注册与给定应用环境相关的上述每个种类中的具体姿态的编程技术。

3)用于分析姿态流以使得经注册的姿态可被标识且封装了这些姿态的事件可被传送给相关应用环境的算法。

具有组成要素(1a)到(1f)的规定系统(1)为利用这里所述的系统的姿态分析和翻译能力提供了基础。

单手“姿势”被表示为

i)手指与手背之间的相对取向所构成的串，

ii)被量子化成小数目的离散状态。

使用相对联接取向使得这里所述的系统可避免与不同的手大小和几何结构相关联的问题。本系统不要求“操作者校准”。另外，将姿势规定为相对取向的串或集合使得可通过将姿势表示法与另外的滤波器和规定相结合而容易地创建更复杂的姿态规定。

使用小数目的用于姿势规定的离散状态使得简洁地规定姿势以及使用多种基本跟踪技术(例如，使用相机的被动光学跟踪、使用发光点和相机的主动跟踪、电磁场跟踪等)来确保准确的姿势识别成为可能。

可部分(或最小限度地)规定(1a)到(1f)的每个种类中的姿态，以使得非关键的数据被忽略。例如，其中两个手指的位置明确且其他手指位置不重要的姿态可由这样的单个规定来表示：其中给出两个相关手指的操作位置，且在同一个串内，为其他手指列出“通配符”或一般的“忽略这些”指示。

这里所述的用于姿态识别的所有创新(包括但不限于多层化规定技术、相对取向的使用、数据的量子化以及对每一级的部分或最小规定的允许)超越人的姿态的规定而推广到使用其他身体部分和“人造”工具和物体作出的姿态的规定。

用于“注册姿态”(2)的编程技术由限定的一组应用编程接口调用组成，其允许程序员限定引擎应使哪些姿态可为运行的系统的其他部分所用。

这些API例程可以在应用建立时间使用，从而创建在运行的应用的整个生命期使用的静态接口定义。它们还可以在运行的过程中使用，从而允许接口特性在运行中改变。接口的该实时变更使得可以：

i)构建复杂的环境和条件控制状态，

ii)向控制环境动态地添加滞后，和

iii)创建使得用户能够变更或扩展运行的系统本身的接口词汇的应用。

用于分析姿态流(3)的算法将在(1)中规定并在(2)中注册的姿态与输入的低级姿态数据相比较。当经注册的姿态的匹配被识别出时，表示匹配的姿态的事件数据被堆栈上传到运行的应用。

在本系统的设计中期望高效的实时匹配，将规定的姿态处理为被尽可能快地处理的可能性的树。

另外，在内部使用以识别规定的姿态的简单比较操作符也被暴露以供应用程序员使用，使得进一步的比较(例如，复杂或复合姿态中的灵活的状态检查)甚至可以从应用环境内发生。

识别“锁定”语义是这里所述系统的创新。这些语义由注册API(2)暗示(并且，对于较小的范围，嵌入在规定词汇(1)内)。注册API调用包括，

i)“进入”状态通知符和“持续”状态通知符，和

ii)姿态优先级说明符。

如果姿态已被识别出，则其“持续”状态优先于相同或较低优先级的姿态的所有“进入”状态。进入和持续状态之间的这种区别显著增大了感知到的系统可用性。

这里所述的系统包括用于面对真实世界数据误差和不确定性的鲁棒操作的算法。来自低级跟踪系统的数据可能是不完整的(由于多种原因，包括光学跟踪中的标记遮蔽、网络掉线或处理滞后等)。

取决于丢失数据的量和上下文，丢失数据由分析系统标记，并被插入到“最后已知的”或“很可能的”状态中。

如果关于特定姿态成分(例如，特定关节的取向)的数据丢失，但该特定成分的“最后已知的”状态可被分析为在物理上是可能的，则系统在其实时匹配时使用此最后已知的状态。

相反，如果最后已知的状态被分析为在物理上是不可能的，则系统后退到该成分的“最佳猜测范围”，并在其实时匹配时使用此合成数据。

仔细地设计了这里所述的规定和分析系统以支持“手型性不可知论”，从而对于多手姿态，任一只手都被允许满足姿态要求。

一致的虚拟/显示和物理空间

系统可提供这样的环境，其中描绘在一个或多个显示装置(“屏幕”)上的虚拟空间被处理为与系统的一个或多个操作者所处的物理空间相一致。这里描述了这种环境的一个实施例。该当前实施例包括固定位置处的三个由投影仪驱动的屏幕，由单个台式计算机驱动，并使用这里所述的姿态词汇和接口系统来控制。然而，请注意：所描述的技术支持任何数目的屏幕；这些屏幕可以是移动的(而非固定的)；这些屏幕可由很多独立的计算机同时驱动；且整个系统可通过任何输入装置或技术来控制。

本公开中描述的接口系统应具有确定屏幕在物理空间中的尺度、取向和位置的方法。给定此信息，系统能够将这些屏幕所处(且系统的操作者所处)的物理空间作为投影动态地映射到在系统上运行的计算机应用的虚拟空间中。作为该自动映射的一部分，系统还根据由系统掌管的应用的需要、以多种方式翻译这两个空间的比例、角度、深度、尺度和其他空间特性。

物理和虚拟空间之间的这种连续翻译使得多种接口技术的一致和普遍使用成为可能，这些接口技术在现有的应用平台上难以实现或者必须针对在现有平台上运行的每个应用个别地实施。这些技术包括(但不限于)：

1)使用“精确指点”——在姿态接口环境中使用手，或使用物理指点工具或装置——作为普遍和自然的接口技术。

2)对屏幕的移动或重新定位的自动补偿。

3)图形渲染，其依操作者位置而变，例如模拟视差位移以增强深度感。

4)在屏幕显示中包括物理物体——考虑真实世界位置、取向、状态等。例如，站在大的不透明屏幕前方的操作者既能看到应用图形也能看到在屏幕后方(并且可能正在移动或改变取向)的比例模型的真实位置的表示。

重要的是，注意精确指点不同于在基于鼠标的窗口接口和大多数其他现代系统中使用的抽象指点。在那些系统中，操作者必须学习管理虚拟指点器和物理指点装置之间的翻译，并且必须在这两者之间有认知力地映射。

通过比较，在本公开中所述的系统中，无论从应用还是用户角度，虚拟和物理空间之间没有差异(除了虚拟空间更适合于数学变换)，因此操作者不需要有认知力的翻译。

由这里所述的实施例提供的精确指点的最接近模拟是触摸屏(例如，可在很多ATM机上看到)。触摸屏提供了屏幕上的二维显示空间与屏幕表面的二维输入空间之间的一一映射。以类似的方式，这里所述的系统提供了显示在一个或多个屏幕上的虚拟空间与操作者所处的物理空间之间的灵活映射(可能但不必须是一一映射)。不管模拟的实用性如何，都值得理解该“映射方法”扩展到三维、任意大的架构环境以及多个屏幕不是无关紧要的。

除了这里所述的部件，系统还可执行实现环境的物理空间与每个屏幕上的显示空间之间的连续的系统级映射(可能已通过旋转、平移、比例缩放或其他几何变换加以修改)的算法。

渲染堆栈，其获取计算对象和映射，并输出虚拟空间的图形表示。

输入事件处理堆栈，其获取来自控制系统的事件数据(在本实施例中，是来自系统和鼠标输入的姿态和指点数据)，并将来自输入事件的空间数据映射到虚拟空间中的坐标。然后，经翻译的事件被传送到运行的应用。

“胶层”，其允许系统掌管在局域网上的若干计算机之间运行的应用。使用在扩展的景深内提取的三维信息进行的基于姿态的控制

图9是一个实施例下的、包括在扩展的景深内提取三维信息的成像系统的基于姿态的控制系统900的框图。用户将手101和102放在相机阵列904A-904D的观察区域内。阵列904A-904D中的至少两个相机是波前编码相机，其中每个都包含包括波前编码掩模(这里也称为“非球面光学元件”或“光学元件”)的波前编码成像系统元件，如下面详细所述。用户的手和/或手指可能包括或可能不包括上述标记标签。

相机904A-904D检测或捕捉包括手指和手101和102的定位、取向和移动的手指和手101和102的图像，并产生输出信号给预处理器905。预处理器905可包括或耦合到波前编码数字信号处理908，如下所述。可替选地，波前编码数字信号处理可包含在系统900的一个或多个其他部件中、耦合到该一个或多个其他部件或者分布在该一个或多个其他部件当中。波前编码数字信号处理908被配置成极大地扩展成像系统的景深。

预处理器905将相机输出翻译成姿态信号，姿态信号被提供给系统的计算机处理单元907。在这样做时，预处理器905产生三维空间点重构和骨点标签设定。姿态翻译器906将3D空间信息和标记运动信息翻译成命令语言，命令语言可由计算机处理器解释以更新显示器上光标的位置、形状和动作。计算机907使用输入信息来产生命令以控制一个或多个屏上光标，并将视频输出提供给显示器903。

一个可替选实施例的预处理器905、姿态翻译器906和计算机907中的一个或多个可组合成单个装置。无论系统配置如何，预处理器905、姿态翻译器906和计算机907中的每个的功能和/或功能性都是如上面参照图1-8和其他地方所描述的。

此外，尽管本例子示出了用于检测用户的手101和102的定位、取向和移动的四个相机，但本实施例不限于此。系统配置可根据系统或工作站配置的需要而包括两个或更多相机。另外，尽管在示例实施例中相机是对称布置的，但在本发明中这种对称不是必需的。因此，在下文中可以使用允许用户的手的定位、取向和移动的任何定位的至少两个相机。

尽管系统是以单个用户的手作为输入而示出的，系统也可跟踪任何数目的多个用户的手。另外，代替手或除了手以外，系统可跟踪用户身体的任何一个或多个部分，包括头、脚、腿、臂、肘、膝等。此外，系统可跟踪任何数目的有生命的或无生命的物体，而不限于跟踪身体的部分。

特别而言，对于定位光学传感器使之蓄意地或潜在地接近操作者的手(或被等效地跟踪的器具)的姿态分析系统，由此察觉到的要素通常将涵盖整个自然顺序的操作者运动、相对距离的几个或许多量级。持续焦点分辨地记录横越这一范围的距离的事件超出了传统光学成像系统的能力。然而，这些接近中距离的几何在为了宏观装置和产品设计的目的而跟踪物体或操作者的情况下常常是所期望的。因此，值得提供在预期的操作者活动范围内确保局部对比度或突出特征稳定性的技术(为此目的，传统光学是不够的)。

当描述在这里的系统中在扩展的景深内提取三维信息时，距场景中一点的距离可根据它在被同时捕捉到的两个或更多图像中的位置来估算出。当图像之间的三维(3D)关系已知时，该点的3D位置可根据基本几何关系来计算出。根据多个图像计算空间位置所面临的挑战(常称为立体相关或立体深度计算)是将一点在一个图像中的映射与它在另一个图像中的映射自动和准确地相关联。这最通常是通过使从一个图像到一个或多个其他图像的图像特征相关来完成的。然而，所有立体匹配方法中的基本假设是：图像中必须存在某个可标识的局部对比度或特征，以便将该点与它在另一个图像中的位置相匹配。因此，当由于散焦而在图像中没有局部对比度或特征时，会产生问题——立体匹配在图像的焦点没对准的区域内不产生准确的结果。

用于扩展图像焦深的常规方法是减小相机镜头光瞳的直径(“缩小”)。然而，两个副作用限制了该技术的实用性。首先，成像系统的灵敏度降低了与光瞳内外径比的平方相等的倍数。其次，最大空间频率响应降低了与光瞳内外径比相等的倍数，这限制了图像中的分辨率和对比度。因此，在常规成像系统中存在景深、曝光时间和总体对比度之间的权衡。在多相机测距系统的情况下，净效应将是立体深度准确度与工作范围之间的折衷。

增大景深而不缩小镜头的一种替代方法是：在相机镜头的光瞳中引入规定要求的相位掩模。利用恰当选择的相位函数，可通过对在传感器上捕捉到的图像进行后续电子处理来恢复扩展的景深。这种被称作波前编码的技术通常提供景深、相机动态范围和信噪比之间的权衡。波前编码使得针对具体应用优化相机参数成为可能。不需要很高的动态范围且照明在用户控制之下的应用(比如这里所述的姿态识别)可大大受益于波前编码，从而在指定的空间体积内实现高的准确度。

如上所述，一个实施例的系统包括使用多个波前编码相机的经处理的输出来确定场景内选定物体的范围和位置的技术。由波前编码产生的扩展的景深可用于多种应用，包括姿态识别和一大批其他基于任务的成像工作，以显著提高它们的性能。尽管要求最少两个相机，但在该实施例中可使用的相机的数目没有上限。场景提取可包括用于通过两个或更多相机进行范围提取的多种处理技术(比如相关)中的任一种。这里所述的实施例包括在处理后产生扩展的景深的所有波前编码相位函数及其对应的解码内核。

在波前编码成像系统中使用的波前编码是使用广义非球面光学(装置)和数字信号处理来大大提高成像系统的性能和/或降低成像系统的成本的一般技术。所采用的该类非球面光学(装置)产生对散焦相关偏差很不敏感的光学成像特性。锐利和清晰的图像不直接从该光学(装置)产生，然而，施加于采样图像的数字信号处理产生锐利和清晰的、同样对散焦相关偏差不敏感的最终图像。

波前编码用来大大提高图像系统的性能，同时还减小成像系统的大小、重量和成本。波前编码将非旋转对称的非球面光学元件与数字信号处理以基本的方式相结合，来极大地扩展成像系统的景深。利用波前编码，例如对于给定的孔径大小或F#，成像系统的景深或焦深可相对于传统成像系统增大十倍或更多。一个实施例的波前编码光学元件是相位面，因而不吸收光或增加曝光或照明要求。传统成像技术在不产生极大光功率损耗(比如缩小孔径时必产生极大光功率损耗)的情况下不可能实现这种扩展景深的性能。增大的景深/焦深还通过控制散焦相关偏差来使得成像系统能够在物理上更便宜、更小或更轻，而散焦相关偏差传统上是通过添加透镜元件或提高透镜复杂性来控制的。可利用波前编码控制的散焦相关偏差包括色差、Petzval曲率、散光、球差以及温度相关散焦。

作为混合成像方法的波前编码将光学和电子学相结合来增大景深并减少光学部件的数目、制造公差和整个系统成本。图10是一个实施例下的、在基于姿态的控制系统中使用的波前编码成像系统1000的框图。波前编码成像系统1000的光学部分1001是常规光学系统或相机，但被修改为在孔径光阑附近放置波前编码光学元件1002。添加该编码光学元件导致图像具有对散焦不敏感的、专门化的鲜明的模糊或点扩散函数(point spreadfunction)。施加于采样图像的数字处理1003产生对散焦效应很不敏感的、锐利的和清晰的图像1004。

图11是一个实施例下的基于姿态的控制系统1100的框图，控制系统1100采用包括两个波前编码相机的波前编码成像系统在扩展的景深内提取三维信息。如上面参照图10所述，系统1100包括至少两个波前编码相机1101和1102。处理器被耦合以接收波前编码相机1101和1102的输出并对相机输出执行数据处理。数据处理包括例如去卷积1120和范围提取1130，并产生扩展的焦点范围图1140。

在波前编码系统1100中，系统的光学部分(例如波前编码相机1101和1102)对所得到的图像进行“编码”以产生中间图像1110。由于波前编码元件(例如图10中的元件1002)有目的地模糊了任何图像中的所有点，所以中间图像1110呈现散焦。在这种中间图像1110中，视野内几乎所有的物体都是模糊的，但它们是同等模糊的。相比之下，传统光学(装置)通常形成具有依赖于距场景中每个物体的距离的可变模糊函数的图像。

为了从中间波前编码图像1110产生锐利和清晰的图像，使用电子学(例如，波前编码数字信号处理)、通过去除依赖于系统的图像模糊来对模糊的中间图像进行处理或“解码”1120和1130。可通过软件或利用专门化的硬件方案来实时地执行数字滤波。

如上面参照图10所述，一个实施例的系统光学(装置)包括：具有执行波前编码功能的至少一个额外光学元件的常规部件。该元件被放置在光路中，通常在系统的孔径光阑附近以最小化渐晕。对检测到的图像执行的信号处理依赖于光学(装置)、波前编码元件以及数字检测器的一阶特性。

尽管也可使用衍射表面，一般的波前编码元件是非旋转对称的和光滑的。该元件可以是单独的部件，或者它可通过添加广义非球面表面而被集成到传统透镜元件上。所有编码元件都使光改变方向，从而除了轴上光线以外，没有光线射向传统几何焦点。实际上，没有两个光线沿着光轴射向同一点。系统在任何像平面都不会形成清晰的图像。

波前编码成像系统的光学部分的主要作用是使得所得到的图像对焦点相关偏差(如散焦、球差、散光或场曲)不敏感。中间模糊图像对物体或成像系统的包含散焦偏差的变化不敏感或不随之变化。从系统分析的观点来看，波前编码系统的调制传递函数(modulation transfer function)(MTF)和点扩散函数(PSF)不关于散焦而变化。

尽管来自波前编码系统的中间图像的MTF表现出随散焦变化很少，但是相对于焦点对准的传统系统而言，该MTF的确具有降低的功率。由于未使用变迹法(apodization)，所以保持了总的光功率。采用数字滤波或图像重构处理来形成清晰的图像。这些最终MTF对散焦很不敏感--因此，波前编码成像系统具有很大的景深。类似地，来自波前编码系统的中间PSF不同于传统系统PSF，但它们随散焦的变化而变化非常少。

再次参考图10，专用非球面光学元件被放置在常规成像系统的孔径光阑处或其附近，以形成波前编码成像系统。此光学元件以这样的方式修改成像系统：即，使得所得到的PSF和光学传递函数(OTF)对一定范围的散焦或散焦相关偏差不敏感。然而，该PSF和OTF与利用高质量的焦点对准的成像系统获得的PSF和OTF不相同。使得成像系统对散焦偏差不敏感的过程产生具有专门化的鲜明的模糊的图像；该模糊利用波前编码数字信号处理来去除。

例如来自常规成像系统的PSF随散焦急剧地变化，而来自波前编码成像系统的PSF表现出随散焦几乎没有明显变化。施加于散焦的传统成像系统用以去除散焦模糊的数字处理依赖于图像的不同区域中存在的散焦的量而进行处理。在很多情况下，散焦的量是未知的并且难以计算。另外，散焦的传统成像系统的MTF常常可能包含零或空值，这进一步增大了数字处理的难度。相比之下，来自波前编码系统的PSF随散焦的恒定性质正是消除数字处理对散焦的依赖性所需要的。施加于电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)检测到的图像的数字处理独立于散焦和被成像的实际场景。另外，焦点对准和焦点没对准的波前编码成像系统的MTF都不包含零或空值，从而允许高质量的最终图像。

用于扩展景深的波前编码能够使通常无法接受传统方法(即，缩小孔径)的成像应用增值。对照明水平、曝光时间或空间分辨率的约束常常限制了现有光学方法的应用。通过使用波前编码，在不牺牲曝光时间或要求大量照明的情况下，应用可受益于散焦相关问题的减少。

如上所述，波前编码成像系统包括对所得到的图像的数字信号处理和非常规光学设计。所使用的信号处理依赖于具体光学系统。波前编码光学(装置)依赖于待使用的信号处理的类型和量。由于光学(装置)和信号处理是紧密耦合的，所以其中光学和数字部件在设计过程中被联合优化的系统自然预期会有最佳的性能。光学部件被配置成使光学(装置)随散焦效应的变化或对散焦效应的敏感度最小化以及实现高效的信号处理。数字部件被设计成使算法复杂性、处理时间以及数字处理对图像噪声的影响最小化。

图12是一个实施例下的、使用在扩展的景深内提取的三维信息进行的基于姿态的控制的流程图。一个实施例的基于姿态的控制包括利用成像系统对身体成像1202。成像1202包括产生身体的波前编码图像。一个实施例的基于姿态的控制包括自动检测1204身体的姿态，该姿态包括身体的瞬时状态。检测1204包括聚集一瞬间的该姿态的姿态数据。该姿态数据包括成像系统的景深内的身体的焦点分辨数据。一个实施例的基于姿态的控制包括将姿态翻译1206成姿态信号。一个实施例的基于姿态的控制包括响应于姿态信号而控制1208与计算机耦合的部件。

用于一个实施例的波前编码的基本例程可包括对通过典型球面和非球面表面以及一般波前编码表面形式的光线进行追踪的光线追踪程序。光线追踪程序用来计算出射光瞳和优化给定的一组光学和数字品质(merit)函数或操作数。图13是一个实施例下的、在基于姿态的控制系统中使用的波前编码设计过程1300的框图。该设计的输出包括但不限于：传统光学表面、材料、厚度和间距；波前编码表面的参数；和数字滤波器系数。

现在参照图13描述一般的光学/数字设计环路。光线追踪程序1302时通过光学表面的光线进行追踪，以计算出射光瞳光程差(OPD)1304并优化给定的一组光学和数字品质函数或操作数。至光线追踪程序1302的输入包括例如光学表面、厚度和工作条件(波长、视野、温度范围、样本物体图像等)。在1306计算或产生OTF，并在1308添加与检测器几何结构相关的像素OTF。在1310计算采样OTF和PSF。针对基于采样PSF选择的处理算法，产生1312数字滤波器系数。该处理接下来形成用于滤波器的品质因数(例如，波前编码操作数)，该品质因数是基于最小化以下二者的：采样PSF和MTF因混叠、因温度变化、随色彩、随场角、通过焦点等的变化；诸如处理量、处理形式、处理相关图像噪声、数字滤波器噪声增益等的数字处理参数。通过优化例程将波前编码操作数与传统光学操作数(Seidel波前偏差、RMS波前误差等)相结合以修改光学表面。操作返回到通过传统光线追踪来产生1302出射光瞳光程差(OPD)。

使用理论计算出的波前编码表面形式作为光学优化的出发点。在归一化坐标中给出可矩形分离的表面形式的一个一般族：

S(x)＝|β|sign(x)|x|^α

其中对于x＞0，sign(x)＝+1；对于x≤0，sign(x)＝-1。

指数参数α控制散焦范围内的MTF的高度，参数β控制对散焦的敏感度。通常，增大参数β降低了对散焦的敏感度，同时降低了MTF的高度并增大了所得到的PSF的长度。

用于重构中间图像并产生最终图像的滤波处理可能施加计算负担。取决于由编码处理引入的景深增强以及光学系统，图像重构所需的滤波器内核的大小可多达70×70个系数。通常，景深扩展越大，则滤波器内核就越大，噪声特性恶化或噪声增益也越大。此外，由于图像中的每个像素因波前编码而模糊，所以每个像素需要被滤波；因此，较大的图像相对于较小的图像可能需要较多的计算。对于接近千万像素的图像大小，高效的计算方案被用于实际的和经济的系统。计算实施(比如可矩形分离的滤波器近似)可帮助减小内核尺度。例如所使用的波前编码元件可具有如下式所述的可矩形分离的立方相形式：

S(x，y)＝a(x³+y³)

对模糊图像滤波以去除模糊实质上是根据空间频率施加放大和相移。该放大既增大了最终图像中的信号也增大了最终图像中的噪声。对于很大(例如超过10倍)的景深增强，波前编码系统中的噪声增益可为四倍或五倍。对于二到四倍的较适中的景深增强，噪声增益通常为二倍或更小。

对于不相关的高斯噪声(对于大多数图像的良好假设)，噪声增益为滤波器系数的RMS值。对于景深扩展太大以至于不能产生适当小的噪声增益值的系统，减小数字滤波器的分辨率或空间带宽可降低噪声增益。降低最终图像的对比度也能减小增大的噪声的总体影响。专门化的非线性滤波是去除波前编码图像中的噪声的最佳方案。

由于一个实施例中用于形成MTF和PSF的波前编码光学元件是可矩形分离的，所以所使用的信号处理也可以是可矩形分离的。可矩形分离的处理可以使所需计算量降低一个或多个量级。由于数字滤波是利用空间卷积进行的，所以一个实施例的计算方法包括：用滤波器系数对数据进行比例缩放的一系列乘法；以及遍及整个内核将所有经比例缩放的数据值相加的求和。该计算的基本单元是乘-累加运算。用于大的景深增大的典型2D波前编码滤波器内核可为30×30个系数。该滤波器的可矩形分离的版本包含长度为30个系数的行滤波器和高度为30个系数的列滤波器，或者包含60个总系数。尽管波前编码元件在设计上可以是可矩形分离的，但它们不限于此，高度偏差的系统可使用不可分离的滤波。

通过将光学成像技术与电子滤波相结合，波前编码技术可改善各种各样的成像系统的性能。高性能成像系统的性能提升可包括在不牺牲光收集或空间分辨率的情况下实现很大的景深。较低成本成像系统的性能提升可包括在比传统上所需的更少的物理部件的情况下实现良好的图像质量。

这里所述的实施例包括一种系统，该系统包括：多个光学检测器，其中该多个光学检测器中的至少两个光学检测器包括波前编码相机，其中该多个光学检测器对身体成像；与该多个光学检测器耦合的处理器，该处理器自动检测身体的姿态，其中该姿态包括身体的瞬时状态，其中该检测包括聚集一瞬间的该姿态的姿态数据，该姿态数据包括成像系统的景深内的身体的焦点分辨数据，该处理器将姿态翻译成姿态信号并使用该姿态信号来控制与该处理器耦合的部件。

一个实施例的波前编码相机包括波前编码光学元件。

一个实施例的成像包括产生身体的波前编码图像。

一个实施例的波前编码相机包括增大成像的焦深的相位掩模。

一个实施例的姿态数据包括景深内的身体的焦点分辨范围数据。

一个实施例的景深内的身体的焦点分辨范围数据来自于波前编码相机的输出。

一个实施例的姿态数据包括景深内的身体的焦点分辨位置数据。

一个实施例的景深内的身体的焦点分辨位置数据来自于波前编码相机的输出。

一个实施例的系统包括不随身体与成像系统之间的距离而变化的调制传递函数和点扩散函数。

一个实施例的系统包括不关于散焦而变化的调制传递函数和点扩散函数。

一个实施例的处理器通过对由波前编码相机收集到的图像进行编码来产生中间图像。

一个实施例的中间图像是模糊的。

一个实施例的中间图像对包含散焦偏差的多个光学检测器或者身体的变化不敏感。

一个实施例的姿态数据是表示姿态的三维空间位置数据。

一个实施例的检测包括检测身体的位置、检测身体的取向中的至少一种，且检测包括检测身体的运动。

一个实施例的检测包括标识姿态，其中标识包括标识身体的一部分的姿势和取向。

一个实施例的检测包括检测身体的第一组附属物和第二组附属物中的至少一种。

一个实施例的检测包括动态检测至少一个标签的位置。

一个实施例的检测包括检测与身体的一部分耦合的一组标签的位置。

一个实施例的该组标签中的每个标签包括图案，其中该组标签中的每个标签的每个图案不同于多个标签中的任何剩余标签的任何图案。

一个实施例的检测包括动态检测和定位身体上的标记。

一个实施例的检测包括检测与身体的一部分耦合的一组标记的位置。

一个实施例的该组标记形成身体上的多个图案。

一个实施例的检测包括使用与每个附属物耦合的一组标记来检测身体的多个附属物的位置。

一个实施例的翻译包括将姿态的信息翻译成姿态记号。

一个实施例的姿态记号表示姿态词汇，且姿态信号包括姿态词汇的传达。

一个实施例的姿态词汇以文本形式表示身体的运动学联动机构的瞬时姿势状态。

一个实施例的姿态词汇以文本形式表示身体的运动学联动机构的取向。

一个实施例的姿态词汇以文本形式表示身体的运动学联动机构的取向的组合。

一个实施例的姿态词汇包括表示身体的运动学联动机构的状态的字符串。

一个实施例的运动学联动机构是身体的至少一个第一附属物。

一个实施例的系统包括将该串中的每个位置分配给第二附属物，第二附属物连接到第一附属物。

一个实施例的系统包括将多个字符中的字符分配给第二附属物的多个位置中的每个。

一个实施例的该多个位置是相对于坐标原点而确立的。

一个实施例的系统包括：使用空间中的绝对位置和取向来确立坐标原点；使用相对于身体的固定位置和取向来确立坐标原点，而无论身体的总体位置和朝向如何；或者响应于身体的动作而交互式地确立坐标原点。

一个实施例的系统包括将多个字符中的字符分配给第一附属物的多个取向中的每个。

一个实施例的检测包括检测身体的推断位置何时与虚拟空间相交，其中虚拟空间包括描绘在与计算机耦合的显示装置上的空间。

一个实施例的控制该部件包括：当推断位置与虚拟空间中的虚拟物体相交时控制虚拟物体。

一个实施例的控制该部件包括：响应于虚拟空间中的推断位置而控制虚拟空间中的虚拟物体的位置。

一个实施例的控制该部件包括：响应于姿态而控制虚拟空间中的虚拟物体的姿态。

一个实施例的系统包括对检测和控制进行比例控制以产生虚拟空间与物理空间之间的一致，其中虚拟空间包括描绘在与处理器耦合的显示装置上的空间，其中物理空间包括身体所处的空间。

一个实施例的系统包括响应于物理空间中的至少一个物理物体的移动而控制虚拟空间中的至少一个虚拟物体。

一个实施例的控制包括以下控制中的至少一个：控制处理器上掌管的应用的运行；和控制处理器上显示的部件。

这里所述的实施例包括一种方法，该方法包括：利用成像系统对身体成像，该成像包括产生身体的波前编码图像；自动检测身体的姿态，其中该姿态包括身体的瞬时状态，其中该检测包括聚集一瞬间的该姿态的姿态数据，该姿态数据包括成像系统的景深内的身体的焦点分辨数据；将该姿态翻译成姿态信号；或者响应于该姿态信号而控制与计算机耦合的部件。

一个实施例的成像系统包括多个光学检测器，其中光学检测器中的至少两个是包括波前编码光学元件的波前编码相机。

一个实施例的成像包括产生身体的波前编码图像。

一个实施例的成像系统包括多个光学检测器，其中光学检测器中的至少两个是包括增大成像的焦深的相位掩模的波前编码相机。

一个实施例的景深内的身体的焦点分辨范围数据来自于成像系统的输出。

一个实施例的景深内的身体的焦点分辨位置数据来自于成像系统的输出。

一个实施例的方法包括产生不随身体与成像系统之间的距离而变化的调制传递函数和点扩散函数。

一个实施例的方法包括产生不关于散焦而变化的调制传递函数和点扩散函数。

一个实施例的方法包括通过对由波前编码相机收集到的图像进行编码来产生中间图像。

一个实施例的中间图像是模糊的。

一个实施例的中间图像对包含散焦偏差的成像系统的多个光学检测器或者身体的变化不敏感。

一个实施例的姿态数据是表示姿态的三维空间位置数据。

一个实施例的检测包括检测身体的位置。

一个实施例的检测包括检测身体的取向。

一个实施例的检测包括检测身体的运动。

一个实施例的检测包括动态检测至少一个标签的位置。

一个实施例的检测包括动态检测和定位身体上的标记。

一个实施例的该组标记形成身体上的多个图案。

一个实施例的翻译包括将姿态的信息翻译成姿态记号。

一个实施例的方法包括将该串中的每个位置分配给第二附属物，第二附属物连接到第一附属物。

一个实施例的方法包括将多个字符中的字符分配给第二附属物的多个位置中的每个。

一个实施例的该多个位置是相对于坐标原点而确立的。

一个实施例的方法包括：使用空间中的绝对位置和取向来确立坐标原点；使用相对于身体的固定位置和取向来确立坐标原点，而无论身体的总体位置和朝向如何；或者响应于身体的动作而交互式地确立坐标原点。

一个实施例的方法包括将多个字符中的字符分配给第一附属物的多个取向中的每个。

一个实施例的方法包括：对检测和控制进行比例控制以产生虚拟空间与物理空间之间的一致，其中虚拟空间包括描绘在与处理器耦合的显示装置上的空间，其中物理空间包括身体所处的空间。

一个实施例的方法包括：根据与处理器耦合的至少一个应用的需要、在虚拟空间与物理空间之间翻译比例、角度、深度和尺度。

一个实施例的方法包括：响应于物理空间中的至少一个物理物体的移动而控制虚拟空间中的至少一个虚拟物体。

一个实施例的控制包括控制处理器上掌管的应用的运行。

一个实施例的控制包括控制处理器上显示的部件。

这里所述的系统和方法包括处理系统，并且/或者在处理系统下运行和/或与处理系统相关联地运行。在本领域中已知，处理系统包括处理系统或装置的部件、或者一起工作的计算装置或基于处理器的装置的任何集合。例如，处理系统可包括便携式计算机、在通信网络中工作的便携式通信装置和/或网络服务器中的一个或多个。便携式计算机可以是从个人计算机、移动电话、个人数字助理、便携式计算装置和便携式通信装置中选择的任何多个装置和/或装置组合，但不限于此。处理系统可包括更大的计算机系统内的部件。

一个实施例的处理系统包括至少一个处理器和至少一个存储器件或子系统。处理系统还可包括或耦合到至少一个数据库。这里广泛使用的术语“处理器”指的是任何逻辑处理单元，比如一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)等。处理器和存储器可单片地集成到单个芯片上，分布在主机系统的多个芯片或部件当中，和/或由某个算法组合提供。这里所述的方法可以用软件算法、程序、固件、硬件、部件、电路中的一个或多个以任意组合加以实现。

体现这里所述的系统和方法的系统部件可放置在一起或者放置在分开的位置。因此，体现这里所述的系统和方法的系统部件可以是单个系统、多个系统和/或地理上分开的系统的部件。这些部件也可以是单个系统、多个系统和/或地理上分开的系统的子部件或子系统。这些部件可耦合到主机系统或与主机系统耦合的系统的一个或多个其他部件。

通信路径将系统部件耦合，并包括用于在部件之间通信或传递文件的介质。通信路径包括无线连接、有线连接和混合无线/有线连接。通信路径还包括：与包括局域网(LAN)、城域网(MAN)、万维网(WAN)、专用网络、办公网络或后端网络以及因特网在内的网络的耦合或连接。此外，通信路径包括可拆卸的固定介质，如软盘、硬盘驱动器和CD-ROM盘、以及闪存RAM、通用串行总线(USB)连接、RS-232连接、电话线、总线和电子邮件消息。

除了上下文另有明确要求，在整个描述中，词语“包括(comprise)”、“包括(comprising)”等应以与排他性或穷举性含义相反的包括性含义加以解释；也就是说，应以“包括但不限于”的含义加以解释。同样，使用单数或复数的词语分别包括复数或单数。另外，词语“这里”、“下文中”、“上面”、“下面”和意思类似的词语是指本申请的整体，而不是指本申请的任何特定部分。当针对两个或更多项目的列表而使用词语“或”时，该词语涵盖该词语的所有以下解释：该列表中的任何项目、该列表中的所有项目以及该列表中的项目的任何组合。

对处理环境的实施例的以上描述不意在是排他性的，所描述的系统和方法不限于所公开的精确形式。尽管这里为说明的目的描述了处理环境的具体实施例和例子，但本领域的技术人员应认识到，在其他系统和方法的范围内可以进行各种等效修改。这里提供的处理环境的教导可应用于其他处理系统和方法，而不仅是上面描述的系统和方法。

可将上面描述的各种实施例的要素和操作相组合以提供更多的实施例。可根据上面的详细描述对处理环境进行这些和其他改变。

Claims

1.一种使用在扩展的景深内提取的三维信息来进行基于姿态的控制的系统，包括：

多个光学检测器，其中所述多个光学检测器中的至少两个光学检测器包括波前编码相机，其中所述多个光学检测器对身体成像；以及

与所述多个光学检测器耦合的处理器，所述处理器自动检测身体的姿态，其中所述姿态包括所述身体的瞬时状态，其中所述检测包括仅聚集一瞬间的所述姿态的姿态数据并且在对所述姿态的检测中排除对背景数据的使用，所述姿态数据包括所述身体相对于作为空间中的绝对位置和取向的中性位置的焦点分辨位置数据，其中所述位置数据是三维信息，所述处理器将所述姿态翻译成姿态信号并使用所述姿态信号来控制与所述处理器耦合的部件。

2.根据权利要求1所述的系统，其中所述波前编码相机包括波前编码光学元件。

3.根据权利要求1所述的系统，其中所述成像包括产生所述身体的波前编码图像。

4.根据权利要求1所述的系统，其中所述波前编码相机包括增大所述成像的焦深的相位掩模。

5.根据权利要求1所述的系统，其中所述姿态数据包括景深内的所述身体的焦点分辨范围数据。

6.根据权利要求5所述的系统，其中所述景深内的所述身体的所述焦点分辨范围数据来自于所述波前编码相机的输出。

7.根据权利要求1所述的系统，其中所述姿态数据包括景深内的所述身体的焦点分辨位置数据。

8.根据权利要求7所述的系统，其中所述景深内的所述身体的所述焦点分辨位置数据来自于所述波前编码相机的输出。

9.根据权利要求1所述的系统，包括不随所述身体与所述多个光学检测器之间的距离而变化的调制传递函数和点扩散函数。

10.根据权利要求1所述的系统，包括不关于散焦而变化的调制传递函数和点扩散函数。

11.根据权利要求1所述的系统，其中所述处理器通过对由所述波前编码相机收集到的图像进行编码来产生中间图像。

12.根据权利要求11所述的系统，其中所述中间图像是模糊的。

13.根据权利要求11所述的系统，其中所述中间图像对包含散焦偏差的所述多个光学检测器或者所述身体的变化不敏感。

14.根据权利要求1所述的系统，其中所述姿态数据是表示所述姿态的三维空间位置数据。

15.根据权利要求1所述的系统，其中所述检测包括检测所述身体的位置、检测所述身体的取向中的至少一种，且检测包括检测所述身体的运动。

16.根据权利要求1所述的系统，其中所述检测包括标识所述姿态，其中所述标识包括标识所述身体的一部分的姿势和取向。

17.根据权利要求1所述的系统，其中所述检测包括检测所述身体的第一组附属物和第二组附属物中的至少一种。

18.根据权利要求1所述的系统，其中所述检测包括动态检测至少一个标签的位置。

19.根据权利要求18所述的系统，其中所述检测包括检测与所述身体的一部分耦合的一组标签的位置。

20.根据权利要求19所述的系统，其中该组标签中的每个标签包括图案，其中该组标签中的每个标签的每个图案不同于该组标签中的任何剩余标签的任何图案。

21.根据权利要求1所述的系统，其中所述检测包括动态检测和定位所述身体上的标记。

22.根据权利要求21所述的系统，其中所述检测包括检测与所述身体的一部分耦合的一组标记的位置。

23.根据权利要求22所述的系统，其中该组标记形成所述身体上的多个图案。

24.根据权利要求21所述的系统，其中所述检测包括使用与所述身体的多个附属物中的每个附属物耦合的一组标记来检测所述多个附属物的位置。

25.根据权利要求1所述的系统，其中所述翻译包括将所述姿态的信息翻译成姿态记号。

26.根据权利要求25所述的系统，其中所述姿态记号表示姿态词汇，且所述姿态信号包括所述姿态词汇的传达。

27.根据权利要求26所述的系统，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的瞬时姿势状态。

28.根据权利要求26所述的系统，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的取向。

29.根据权利要求26所述的系统，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的取向的组合。

30.根据权利要求26所述的系统，其中所述姿态词汇包括表示所述身体的运动学联动机构的状态的字符串。

31.根据权利要求30所述的系统，其中所述运动学联动机构是所述身体的至少一个第一附属物。

32.根据权利要求31所述的系统，包括将所述字符串中的每个位置分配给第二附属物，所述第二附属物连接到所述第一附属物。

33.根据权利要求32所述的系统，包括将所述字符串中的多个字符中的字符分配给所述第二附属物的多个位置中的每个。

34.根据权利要求33所述的系统，其中所述多个位置是相对于坐标原点而确立的。

35.根据权利要求34所述的系统，包括：使用空间中的绝对位置和取向来确立所述坐标原点；使用相对于所述身体的固定位置和取向来确立所述坐标原点，而无论所述身体的总体位置和朝向如何；或者响应于所述身体的动作而交互式地确立所述坐标原点。

36.根据权利要求33所述的系统，包括将所述字符串中的所述多个字符中的字符分配给所述第一附属物的多个取向中的每个。

37.根据权利要求31所述的系统，其中所述检测包括检测所述身体的推断位置何时与虚拟空间相交，其中所述虚拟空间包括描绘在与所述处理器耦合的显示装置上的空间。

38.根据权利要求37所述的系统，其中控制所述部件包括：当所述推断位置与所述虚拟空间中的虚拟物体相交时控制所述虚拟物体。

39.根据权利要求38所述的系统，其中控制所述部件包括：响应于所述虚拟空间中的所述推断位置而控制所述虚拟空间中的所述虚拟物体的位置。

40.根据权利要求38所述的系统，其中控制所述部件包括：响应于所述姿态而控制所述虚拟空间中的所述虚拟物体的姿态。

41.根据权利要求1所述的系统，包括对所述检测和控制进行比例控制以产生虚拟空间与物理空间之间的一致，其中所述虚拟空间包括描绘在与所述处理器耦合的显示装置上的空间，其中所述物理空间包括所述身体所处的空间。

42.根据权利要求41所述的系统，包括响应于所述物理空间中的至少一个物理物体的移动而控制所述虚拟空间中的至少一个虚拟物体。

43.根据权利要求1所述的系统，其中所述控制包括以下控制中的至少一个：控制所述处理器上掌管的应用的运行；和控制所述处理器上显示的部件。

44.一种使用在扩展的景深内提取的三维信息来进行基于姿态的控制的方法，包括：

利用成像系统对身体成像，所述成像包括产生所述身体的波前编码图像；

自动检测身体的姿态，其中所述姿态包括所述身体的瞬时状态，其中所述检测包括仅聚集一瞬间的所述姿态的姿态数据并且在对所述姿态的检测中排除对背景数据的使用，所述姿态数据包括所述身体相对于作为空间中的绝对位置和取向的中性位置的焦点分辨位置数据，其中所述位置数据是三维信息；

将所述姿态翻译成姿态信号；以及

响应于所述姿态信号而控制与计算机耦合的部件。

45.根据权利要求44所述的方法，其中所述成像系统包括多个光学检测器，其中所述光学检测器中的至少两个是包括波前编码光学元件的波前编码相机。

46.根据权利要求44所述的方法，其中所述成像包括产生所述身体的波前编码图像。

47.根据权利要求44所述的方法，其中所述成像系统包括多个光学检测器，其中所述光学检测器中的至少两个是包括增大所述成像的焦深的相位掩模的波前编码相机。

48.根据权利要求44所述的方法，其中所述姿态数据包括景深内的所述身体的焦点分辨范围数据。

49.根据权利要求48所述的方法，其中所述景深内的所述身体的所述焦点分辨范围数据来自于所述成像系统的输出。

50.根据权利要求44所述的方法，其中所述姿态数据包括景深内的所述身体的焦点分辨位置数据。

51.根据权利要求50所述的方法，其中所述景深内的所述身体的所述焦点分辨位置数据来自于所述成像系统的输出。

52.根据权利要求44所述的方法，包括产生不随所述身体与所述成像系统之间的距离而变化的调制传递函数和点扩散函数。

53.根据权利要求44所述的方法，包括产生不关于散焦而变化的调制传递函数和点扩散函数。

54.根据权利要求44所述的方法，包括通过对由所述波前编码相机收集到的图像进行编码来产生中间图像。

55.根据权利要求54所述的方法，其中所述中间图像是模糊的。

56.根据权利要求54所述的方法，其中所述中间图像对包含散焦偏差的所述成像系统的多个光学检测器或者所述身体的变化不敏感。

57.根据权利要求44所述的方法，其中所述姿态数据是表示所述姿态的三维空间位置数据。

58.根据权利要求44所述的方法，其中所述检测包括检测所述身体的位置。

59.根据权利要求44所述的方法，其中所述检测包括检测所述身体的取向。

60.根据权利要求44所述的方法，其中所述检测包括检测所述身体的运动。

61.根据权利要求44所述的方法，其中所述检测包括标识所述姿态，其中所述标识包括标识所述身体的一部分的姿势和取向。

62.根据权利要求44所述的方法，其中所述检测包括检测所述身体的第一组附属物和第二组附属物中的至少一种。

63.根据权利要求44所述的方法，其中所述检测包括动态检测至少一个标签的位置。

64.根据权利要求63所述的方法，其中所述检测包括检测与所述身体的一部分耦合的一组标签的位置。

65.根据权利要求64所述的方法，其中该组标签中的每个标签包括图案，其中该组标签中的每个标签的每个图案不同于该组标签中的任何剩余标签的任何图案。

66.根据权利要求44所述的方法，其中所述检测包括动态检测和定位所述身体上的标记。

67.根据权利要求66所述的方法，其中所述检测包括检测与所述身体的一部分耦合的一组标记的位置。

68.根据权利要求67所述的方法，其中该组标记形成所述身体上的多个图案。

69.根据权利要求66所述的方法，其中所述检测包括使用与所述身体的多个附属物中的每个附属物耦合的一组标记来检测所述多个附属物的位置。

70.根据权利要求44所述的方法，其中所述翻译包括将所述姿态的信息翻译成姿态记号。

71.根据权利要求70所述的方法，其中所述姿态记号表示姿态词汇，且所述姿态信号包括所述姿态词汇的传达。

72.根据权利要求71所述的方法，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的瞬时姿势状态。

73.根据权利要求71所述的方法，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的取向。

74.根据权利要求71所述的方法，其中所述姿态词汇以文本形式表示所述身体的运动学联动机构的取向的组合。

75.根据权利要求71所述的方法，其中所述姿态词汇包括表示所述身体的运动学联动机构的状态的字符串。

76.根据权利要求75所述的方法，其中所述运动学联动机构是所述身体的至少一个第一附属物。

77.根据权利要求76所述的方法，包括将所述字符串中的每个位置分配给第二附属物，所述第二附属物连接到所述第一附属物。

78.根据权利要求77所述的方法，包括将所述字符串中的多个字符中的字符分配给所述第二附属物的多个位置中的每个。

79.根据权利要求78所述的方法，其中所述多个位置是相对于坐标原点而确立的。

80.根据权利要求79所述的方法，包括：使用空间中的绝对位置和取向来确立所述坐标原点；使用相对于所述身体的固定位置和取向来确立所述坐标原点，而无论所述身体的总体位置和朝向如何；或者响应于所述身体的动作而交互式地确立所述坐标原点。

81.根据权利要求78所述的方法，包括将所述字符串中的所述多个字符中的字符分配给所述第一附属物的多个取向中的每个。

82.根据权利要求76所述的方法，其中所述检测包括检测所述身体的推断位置何时与虚拟空间相交，其中所述虚拟空间包括描绘在与所述计算机耦合的显示装置上的空间。

83.根据权利要求82所述的方法，其中控制所述部件包括：当所述推断位置与所述虚拟空间中的虚拟物体相交时控制所述虚拟物体。

84.根据权利要求83所述的方法，其中控制所述部件包括：响应于所述虚拟空间中的所述推断位置而控制所述虚拟空间中的所述虚拟物体的位置。

85.根据权利要求83所述的方法，其中控制所述部件包括：响应于所述姿态而控制所述虚拟空间中的所述虚拟物体的姿态。

86.根据权利要求44所述的方法，包括对所述检测和控制进行比例控制以产生虚拟空间与物理空间之间的一致，其中所述虚拟空间包括描绘在与所述计算机耦合的显示装置上的空间，其中所述物理空间包括所述身体所处的空间。

87.根据权利要求86所述的方法，包括根据与所述计算机耦合的至少一个应用的需要、在所述虚拟空间与所述物理空间之间翻译比例、角度、深度和尺度。

88.根据权利要求86所述的方法，包括响应于所述物理空间中的至少一个物理物体的移动而控制所述虚拟空间中的至少一个虚拟物体。

89.根据权利要求44所述的方法，其中所述控制包括控制所述计算机上掌管的应用的运行。

90.根据权利要求44所述的方法，其中所述控制包括控制所述计算机上显示的部件。