CN104102343A

CN104102343A - 交互式输入系统和方法

Info

Publication number: CN104102343A
Application number: CN201410144223.5A
Authority: CN
Inventors: 何安莉; 费越
Original assignee: Individual
Current assignee: Play Out Dreams Shanghai Technology Co ltd
Priority date: 2013-04-12
Filing date: 2014-04-11
Publication date: 2014-10-15
Anticipated expiration: 2034-04-11
Also published as: US9323338B2; CN104102343B; US20140306875A1; US10620712B2; US20160202844A1; US10203765B2; US20190179419A1

Abstract

本发明公开了一种交互式输入系统和方法，尤其公开了一种对三维对象的3D运动的感测的输入系统和方法。所述三维(3D)感测方法方法包括获得一对象的第一二维(2D)骨架，获得所述对象的不同于第一2D骨架的第二2D骨架，在所述第一和第二2D骨架的基础上计算出所述对象的3D骨架。

Description

交互式输入系统和方法

相关申请的交叉参引

本申请以2013年4月12日提交的临时申请No.61/811,680、2013年7月1日提交的临时申请No.61/841,864以及2013年9月23日提交的非临时申请No.14/034,286作为基础并享有其优先权，在此三者以全文援引方式合并入本文。

技术领域

本公开涉及输入系统和方法，尤其涉及基于一种对三维（3D）对象的3D运动的感测的输入系统和方法。

背景技术

计算机用户经常需要与计算机进行交互，这可以通过使用交互式输入设备（如键盘、鼠标或触屏）来实现。然而，使用这些设备会存在一些限制。例如，常规的触屏通常基于像电容感应或电场感应这样的技术。这样的技术只可以追踪靠近屏幕的对象，例如用户的手指（即短操作范围），而且不能识别对象的3D结构。此外，触屏经常用于小型计算机，如平板电脑。对于大型计算机，如台式机或者工作站，用户通常不方便接触到屏幕。

因此，需要一种具有更大的操作范围的人机交互式输入系统，此系统能准确并快速分辨精细对象，例如用户的手指，而且能够追踪对象的3D运动及其与表面的交互。

发明内容

根据本公开，提供了一种三维(3D)感测方法。所述方法包括获得对象的第一二维(2D)骨架，获得不同于第一2D骨架的所述对象的第二2D的骨架，在所述第一和第二2D骨架的基础上计算出所述对象的3D骨架。

本公开还提供了一种非易失性计算机可读存储介质，存储用于三维（3D）感测的程序，该程序当由计算机执行时，指示计算机获得对象的第一二维（2D）骨架；获得与所述第一2D骨架不同的所述对象的第二2D骨架；以及在所述第一和第二2D骨架的基础上计算所述对象的3D骨架。

本公开还提供了一种用于三维（3D）感测的设备。所述设备包括：第一摄像机，从第一视角拍摄对象的第一2D图像；第二摄像机，从不同于所述第一视角的第二视角拍摄所述对象的第二2D图像；以及处理器，配置为：从所述第一2D图像中提取所述对象的第一二维（2D）骨架；从所述第二2D图像中提取所述对象的第二2D骨架；以及在所述第一和第二2D骨架的基础上计算所述对象的3D骨架。

本公开的特点和优点部分将在下面说明书中阐明、部分从说明书中显而易见可知或者通过对本公开的实践习得。这些特点和优点将通过附属的权利要求所特别指出的要素和组合方式来实现并获得。

可以理解的是，上述一般性描述和随后的具体实施方式仅是示例性的和解释性的，并不用来限制如权利要求所保护的本发明。

附图包含在说明书中并组成说明书的一部分，与说明书一起描述本发明的几个实施例，用于解释本发明的原理。

附图说明

图1示意性示出了根据一示例性实施例的交互式系统。

图2是显示根据一示例性实施例的过程的流程图。

图3A和3B示意性示出了根据一示例性实施例的感测装置。

图4A-4C示意性示出了根据一示例性实施例的感测装置。

图5示意性示出了根据一示例性实施例的感测装置。

图6A和6B示意性示出了根据一示例性实施例的感测单元和计算机的连接。

图7A和7B示意性示出了感测单元相对于显示器的示例性布置。

图8A和8B示意性示出了根据一示例性实施例的背景表面涂层。

图9示意性示出了根据一示例性实施例的感测装置。

图10A和10B分别示出了成像传感器和人类裸眼观测到的带有标记的背景表面。

图11A和11B显示了根据一示例性实施例的使用不同类型的墨来创建带有标记的背景表面的模式。

图12是根据一示例性实施例的显示感测过程的高级流程示意图。

图13显示了根据一示例性实施例的用于调整照明源和成像传感器并估算背景的过程。

图14示意性示出了根据一示例性实施例的用于分析和记录背景模型的过程。

图15示意性示出了根据一示例性实施例的用于基于多个成像传感器识别和追踪前景对象的过程。

图16示意性示出了根据一示例性实施例的用于对于每一个成像传感器寻找前景对象和识别前景对象的二维结构的过程。

图17显示了一示例性的背景模型图像。

图18显示一示例性的在手追踪过程中拍摄到的输入图像。

图19显示了一示例性的前景区域。

图20显示了根据一示例性实施例的示例性的概率计算结果。

图21显示了根据一示例性实施例的分割的结果。

图22示意性示出了手的子部分的二维边界。

图23示意性示出了手指的中心线。

图24示意性示出了手指尖。

图25是根据一示例性实施例的用于计算前景对象和前景对象的子部分的的三维信息的过程的高级流程图。

图26显示了根据一示例性实施例的各个手指之间的关联。

图27显示了关联两个骨架线的一个实施例。

图28显示了根据一示例性实施例获得的3D骨架。

图29显示了基于由两个不同的成像传感器拍到的两个2D图像中的手掌的2D边界所进行的对手掌的3D边界的计算。

图30显示了手骨架计算的示例性输出。

图31示意性示出了根据一示例性实施例计算的手掌3D中心。

图32显示了一基于模型的架构。

图33A和33B示意性示出根据示例性实施例的系统的示例性设置以及不同类型的接触交互式表面。

图34显示了根据一示例性实施例的实现2.5D接触交互的过程的高级流程图。

图35显示了根据一示例性实施例的手动校准接触交互表面的过程的高级流程图。

图36显示了根据一示例性实施例的用于限定有效交互区域的过程。

图37显示了根据一示例性实施例的限定接触交互表面的角点的结果。

图38A和38B分别显示了当手指在空中移动及手指点击固体表面时手指的三维速度。

图39显示了根据一示例性实施例的通过检测标记来自动检测接触交互表面的过程的流程图。

图40显示了根据一示例性实施例的用于自动检测和校准显示屏的过程的流程图。

图41示意性示出了显示在显示屏上的二维代码。

图42显示了根据一示例性实施例限定虚拟接触表面的过程的流程图。

图43示意性示出了所期望的虚拟接触表面的角点。

图44显示了根据一示例性实施例的用于将前景对象的3D信息转换成2.5D信息的过程的流程图。

图45是用于确定前景对象和接触交互表面之间的距离d的过程的流程图。

图46是根据一示例性实施例得到z’的过程的流程图。

图47是根据一示例性实施例得到z’的过程的流程图。

图48是根据一示例性实施例得到z’的过程的流程图。

图49显示了使用接触交互表面的手写过程。

图50显示了显示前景对象悬停的过程。

图51示意性示出了根据一示例性实施例的交互式系统的设置。

图52示意性示出了用户与2D物理屏幕上的内容交互的情形。

图53示意性示出了用户通过虚拟接触表面与2D物理屏幕上的内容交互的情形。

图54示意性示出了用户与3D显示屏展现的3D内容进行交互的情形。

图55显示了根据一示例性实施例的头戴式3D显示(HMD)系统。

图56显示了用户与虚拟接触表面交互的情形。

图57显示了用户与HMD系统呈现的虚拟3D对象进行交互的情形。

图58显示了根据一示例性实施例的HMD系统。

图59显示了根据一示例性实施例的HMD系统。

具体实施方式

本公开的实施方式包括交互式输入系统和交互式输入方法。

下面将参照附图来描述本公开的具体实施方式。在附图中通篇将尽可能使用相同的参考标记来指代相同或相似的部分。

图1示意性示出了依据本公开具体实施方式的交互式系统100。交互式系统100包括感测装置102和计算机104。感测装置102被配置为感测对象运动，并通过安装在计算机104上的感测装置驱动器106将感测到的信息传输给计算机104。对象可以是，例如，用户的手或手指。感测信息可包括，例如，对象的三维(3D)位置、取向、或移动方向，或关于对象接触或悬停在另一个对象（如一表面）上的信息。感测装置驱动器106读取感测装置102的输出，即所检测的信息，处理所检测的信息，并输出追踪结果，例如3D追踪结果。感测装置驱动器106还控制感测装置102的操作。

计算机104可以包括其他组件，如CPU108和内存110。其他应用，例如应用112，也可以安装在计算机104上。计算机104还连接到显示器114，这可以用来图形化地显示感测装置102输出的追踪结果。

图2显示了依据本公开具体实施方式的一个示例过程的流程图。在图2所示的示例过程中，被感测装置102检测的对象是用户的手。

在201，用户将感测装置102放到某个位置。例如，感测装置102可放置在桌面上并且面朝上。或者，感测装置102可以安装在计算机104或显示器114的顶部。

在202，感测装置102放置好后，交互式系统100开始环境校准过程。在一些实施方式中的环境校准过程中，交互式系统100检测背景环境信息并校准接触交互表面。接触交互表面的更多细节稍后将在本公开中描述。环境校准过程可以完全自动化检测某些已知环境对象，例如像显示器114、键盘或具有光学标志的接触板。另外，环境校准过程可以是手动的。例如，用户可以定义一个环境对象作为接触交互表面，或定义一个虚拟平面，即不是位于任何实际环境对象上的假想平面，作为接触交互表面。如果环境校准过程是手动的，指令可显示在例如显示器114上，或可通过例如扬声器(未显示)以音频方式传递给用户。

在203，在正常使用期间，交互式系统100连续检测前景对象，如用户的手或手指，并识别前景对象的3D结构以及相关的3D运动。交互式系统100还检测背景环境的变化并在需要时重校准背景。

在204，感测装置驱动器106将感测到的信息转化为“3D交互事件”并将事件发送给安装在计算机104上的应用以及计算机104的操作系统(OS)。例如，3D交互事件可能是3D位置、3D取向、尺寸(如长度或宽度)、以及前景对象（如用户的手或手指）的细节。应用和OS根据接收到的事件可以改变状态，并且可据此更新在显示器114上显示的图形用户界面(GUI)。

在205，感测装置驱动器106比较感测到的前景对象的3D位置与接触交互表面，并确定“对象到表面”的信息，例如，前景对象与表面之间的距离、表面上前景的二维(2D)投影位置。然后，感测装置驱动器106将“对象到表面”信息转换成接触事件、多点接触事件、或鼠标事件(206)。

在207，感测装置驱动器106将事件发送到应用程序或OS，并将接触事件转换成手写过程。由于交互式系统100可以在前景对象实际接触到接触交互表面之前感测出前景对象与接触交互表面的距离和前景对象在接触交互表面上的投影位置，因此交互式系统100能在发生真实接触前预测到接触，例如接触何时会发生以及在接触交互表面会发生接触的位置。交互式系统100还可以确定并在显示器114上显示“悬停”反馈。

在208，感测装置驱动器106将前景对象的位置与环境对象（如键盘的键的位置）的位置进行比较。交互式系统100可在用户实际按下键之前生成关于用户将要按下哪些键的悬停反馈。在一些实施方式中，交互式系统100可以在显示器114的GUI上显示虚拟键盘和这种悬停反馈。

根据本公开的具体实施方式，感测装置102可以是与计算机104分离的独立的设备，但可以通过有线连接(如USB线)或无线连接(如蓝牙或无线网络)连接到计算机104。在一些实施方式中，感测装置102被集成到计算机104中，即可以是计算机104的一部分。

根据本公开的具体实施方式，感测装置102可以包括多个成像传感器，如摄像头。成像传感器可以是可见光成像传感器，其对可见光响应更灵敏，或红外(IR)成像传感器，其对红外光线更灵敏。感测装置102还可以包括一个或多个照明源，根据成像传感器的类型提供各种波长的照明。照明源可以是，例如发光二极管(LED)或配置有散射器的激光器。在一些实施方式中，可以省略照明源并且成像传感器感测被对象反射的环境光或对象发出的光。

图3A和3B示意性示出了依据本公开具体实施方式的示例性感测装置300。感测装置300包括外壳302、多个成像传感器304、一个或多个照明源306。成像传感器304和一个或多个照明源306都形成于外壳302内或外壳302上。这样的设计在本公开中也称为一体化设计。

图3A中所示的感测装置300有一个照明源306，而图3B所示的感测设备300有六个照明源306。在图3A所示的示例中，照明源306被布置在成像传感器304之间，而在图3B所示的例子中，照明源306是均匀分布在外壳302上以提供更好的照明效果等，例如更广的覆盖范围或更均匀的照明。例如，如图3B所示，两个照明源306位于两个成像传感器304之间，两个照明源306位于外壳302的左半边，以及两个照明源306位于外壳302的右半边。

在本公开的附图中，照明源以LED为例来说明，正如上面所讨论的，也可以使用其他光源，如配置了散射器的激光器。

在一些实施方式中，需要红外光谱带宽内的照明。人裸眼可能看不到这种照明。在这些实施方式中，照明源306可以包括，例如发射红外光的LED。或者，照明源306可以包括发射包括可见光在内的更广频带的光的LED。在这样的情况下，每个照明源306可以例如在相应的照明源306前配置红外透射滤光器(图中未显示)。

在一些实施方式中，感测装置300可以还包括放置在成像传感器304前方的红外透射滤光器(图中未显示)，以过滤掉可见光。在一些实施方式中，感测装置300可以还包括放置在成像传感器304前面的镜头(图中未显示)，用来聚焦光。红外透射滤光器可放置在镜头前，或在镜头和成像传感器304之间。

根据本公开的具体实施方式，感测装置300可以还包括控制电路(图中未显示)。控制电路可以控制成像传感器304的操作参数，例如快门持续时间或增益。控制电路也可以控制两个或多个成像传感器304之间的同步。此外，控制电路可以控制照明源306的照明亮度，照明源306的开/关或照明持续时间，或照明源306和成像传感器304之间的同步。控制电路也可以执行其他功能，例如，电源管理、图像数据获取和处理、数据到其他设备（如计算机104）的输出，或来自其他设备（如计算机104）的命令的接收。

在一些实施方式中，感测装置300可以还包括配置为开/关或重置感测装置300或强制进行环境重校准的一个或多个按钮。例如一个按钮可以被配置为允许用户强行启动手动校准过程，以校准接触交互表面。

在一些实施方式中，感测装置300可以还包括显示感测装置300状态的一个或多个指示灯，例如显示出感测装置300是否打开或关闭，是否在执行环境校准，还是执行触交互表面校准。

图3A和3B所示的实施例中。感测装置300在外壳302中形成为一体。成像传感器304之间的距离是固定的。但是这样的距离是可调的。图4A-4C显示一示例性的感测装置400，它具有一体化设计，但具有可移动的成像传感器304。各个成像传感器304之间的距离可以通过某种机制进行调整。例如在感测装置400中，成像传感器304置于配置为允许成像传感器304在其上移动的引导件404上，从而各个成像传感器304之间的距离可以调整。这样的设计也称为可调的一体化设计。

图4A-4C显示了成像传感器304的不同状态，其中成像传感器304之间的距离是不同的。为简单起见，其他组件如照明源，没有显示在图4A-4C中。

在一些实施方式中，感测装置102可以具有多个分离单元，每个分离单元各有一个成像传感器。以下，这样的设计也称为分体设计。图5显示了根据本公开具体实施方式的示例性的具有分体设计的感测装置500。感测装置500包括两个感测单元502和504，每个感测单元具有一个成像传感器304和一个或多个照明源306。在图5所示的实施例中，感测单元502具有一个照明源304，而感测单元504具有两个照明源306。感测单元502和504可以都具有控制电路，用来控制相应的感测单元的操作。

感测单元502和504可各自包括一个或多个连接端口510，以便通过有线或无线连接到其他感测单元或直接连接到计算机104。图6A和6B示意性示出了感测单元502和504连接到计算机104的两个不同方案。图6显示了感测单元502和504直接连接到计算机104的并联连接。图6B显示了感测单元502连接至感测单元504且感测单元504进一步连接到计算机104的串联连接。在图6A所示设置中，感测单元502和504都是由计算机104控制和同步的。在图6B所示设置中，同步化可以从感测单元504传送到感测单元502，这样两个感测单元502和504被同步。

图7A和7B示意性示出了感测单元相对于显示器114的示例性布置。图7A和7B各自显示了三个感测单元702。

根据本公开的具体实施方式，为了感测、识别以及跟踪前景对象，如用户的手或手指，背景的亮度可能需要降低。也就是说可能需要创建一个暗的背景。

在一些实施方式中，暗的背景可以使用偏振光来创建。根据这些实施方式，背景表面可以涂有具有“非去偏振化”性质的反光材料，如图8A所示。从这样的材料反射的光可保持圆偏振入射光的性质。这样的材料可以是例如着银色的。在一些实施方式中，其他颜色的染料或颗粒可以与反光材料混合以创建所需的颜色、纹理、或图案，如图8B所示。在一些实施方式中，如图8A和图8B所示，可以在背景表面和非去偏振化材料涂层之间形成另一种涂层。

图9显示了根据本公开实施方式的感测装置900，具有第一偏振方向的第一偏振器902放置在照明源306的前面，具有第二偏振方向的第二偏振器906放置在每个成像传感器304的前面。第一和第二偏振方向可以彼此不一致。第一和第二偏振器902和906可以是圆偏振器。

照明源306发出的光经过第一偏振器902的偏振以具有第一偏振方向。当此偏振光被背景表面上涂覆有非去偏振化材料所反射时，偏振方向被保留。由于第二偏振器906的偏振方向与第一圆偏振器902不一致，反射光具有不改变的偏振方向，反射光或至少大部分反射光不能通过圆偏振器906到达成像传感器304。从而，对成像传感器304而言，背景表面表现为深色或黑色。

另一方面，当偏振光被前景对象，例如用户的手或手指，所反射时，偏振光将会去偏振化。这种去偏振化反射光可以通过第二偏振器906并由成像传感器304接收。也就是说，前景对象对成像传感器304表现为明亮的，因此成像传感器304可以“看见”前景对象。

根据本公开具体实施方式的另一个用来创建一个暗背景的方法是使用“隐形”标记。这种“隐形”标记可以是人裸眼不可见的，但可以被本公开具体实施方式的成像传感器感测到。图10A和10B显示了带有标记1004的背景表面1002。成像传感器拍摄到的背景1002的图像将显示标记1004，如图10A所示。另一方面，用户将只能看到一个正常的、没有标记的均匀表面，如图10B所示。

下面参考图11A和图11B描述根据本公开具体实施方式的用来创建具有“隐形”标记的背景表面的方法。所述方法包括使用两种类型的墨，即第一种墨和第二种墨，这两种墨对人裸眼来说都表现为某种颜色，例如黑色的。然而，第一种墨吸收或至少吸收大部分红外光线，而第二种墨不吸收而可以反射红外光线。因此，第一种墨对红外成像传感器而言表现为例如黑色，而第二种墨对红外成像传感器而言表现为例如白色。

根据本公开的具体实施方式，印在背景表面（例如织物）的第一图案使用第一种墨。第一图案可以是，例如图11A所示的图案，黑暗部分代表第一种墨覆盖的部分。在一些实施方式中，第一图案可以使用激光打印机打印，这是由于激光打印机的碳粉是以吸收红外光线的碳粒子为基质。然后第二图案是使用第二种墨印在相同的背景表面。第二图案可以是例如图11B所示的图案，黑暗的部分代表被第二种墨覆盖的部分。在一些实施方式中，第二图案可以使用喷墨打印机印制，由于喷墨打印机使用的黑色墨是基于非红外吸收的黑色染料。在一些实施方式中，第一和第二图案可以都使用铜版印刷印制。

在一些实施方式中，第一图案和第二图案基本是互相颠倒的。也就是说，在第一图案的一个点是暗的，第二图案中对应的点是明亮的。因此，对于人裸眼，背景表面展现出了均匀的没有图案的颜色，如图10B所示的背景表面1002。另一方面，如图10A所示，成像传感器可以感测背景表面上的图案。

在一些实施方式中，上述的印刷还可以是一个使用包含两种类型墨（即碳基墨和非碳基墨）的喷墨打印机的单阶段印刷过程。

下面描述根据本公开具体实施方式的交互式系统100的使用方法及相关算法。在一些实施方式中，成像传感器304可在使用前被校准。如果感测装置102采用一体化设计，如图3A或3B所示，则成像传感器304的校准可以在感测装置102的生产过程中执行。另一方面，如果感测装置102使用了可调一体化设计（如图4A、4B或4C所示）或分体设计（如图5所示），则用户可以定制每个成像传感器304的位置。在这样的情况下，每次感测装置102的位置发生变化时，可以执行成像传感器304的校准。

图12是概要示出根据本公开具体实施方式的感测过程的高级工艺流程图。在1202，校准环境，调整感测装置参数，并分析和记录背景。在1204，执行前景对象追踪。前景对象（如用户的手或手指）被持续地感测，并且感测到的信息被输出到计算机104，例如输出到计算机104上已安装的应用。在1206，交互式系统100连续监测在前景对象跟踪期间是否需要重校正环境。或者，用户可以手动强制重新启动校准过程。

根据本公开的具体实施方式，校准过程可以产生多传感器校准数据。多传感器校准数据可用于消除如从成像传感器中输出的图像的畸变，所述畸变可能由如有缺陷的镜头所导致。这可以使计算机视觉计算和图像处理更简单、更精确。多感测装置校准数据也可以用于通过使用成像传感器输出的图像中的点或对象的像素位置来计算该点或对象的3D位置。

在一些实施方式中，交互式系统100在使用之前可能会执行一个静态校准。静态校准使用校验板，并在用户移动校验板到不同位置/取向时，允许成像传感器304拍摄同步图像。交互式系统100分析拍摄的图像，并生成摄像头校准数据包括：例如，成像传感器304的固有信息，成像传感器304的畸变，多个成像传感器304的校正。

在一些实施方式中，在交互式系统100使用期间中可以使用自动校准。自动校准不需要校验板，也不需要在使用交互式系统100之前进行专门的校准过程。自动校准适用于在例如分体设计或可调一体设计中用户频繁改变成像传感器304的相对位置、或者用户添加定制透镜或定制的成像传感器304到交互式系统100中的情况。根据自动校准，当用户开始使用交互式系统100时，成像传感器304各自拍摄同步快照。交互式系统100在不同的成像传感器拍摄的快照之间发现匹配特性（如指尖），并记录出现在不同快照中的相同特征（例如相同的指尖）的成对像素坐标。重复此过程，以收集一组成对像素坐标，并且将这组成对像素坐标用于依据本公开具体实施方式的成像传感器校准算法。

图13显示了根据本公开具体实施方式的用于调整照明源306和成像传感器304并且估算背景的过程。

在1302，成像传感器304拍摄背景图像的视频或图像。

在1304，观测到环境光的亮度。照明源306的光照强度是可根据观察到的环境亮度调整的。在一些实施方式中，光照强度调整到足够低以节能但又足够高以从背景中区分出前景对象，如手或手指。

在1306，调整成像传感器的增益水平和快门持续时间，以便使最终的图像足够亮。更高的增益水平使得图像更亮但噪点多。长快门时间使得图像更亮，但前景对象移动时，图像可能模糊。在一些实施方式中，循环执行1302和1304，以找到照明源306的最佳照明强度和成像传感器304的参数。

在1308，分析并估算背景模型。在1310，记录背景模型。当追踪前景对象时，将新图像与所述背景模型进行比较，以将前景对象从背景中区分出来。

图14示意性示出了依据本公开具体实施方式的分析和记录背景模型的过程。可对每个成像传感器304执行所述过程。如图14所示，在1402，拍摄并累积多幅图像。累积图像的数量可以是预设的固定数量，例如100。或者，累积图像的数量可以是变量，取决于背景模型分析何时收敛。

在1404，基于累积图像，分析背景模型。在一些实施方式中，背景模型可以包括，例如每个像素的平均亮度和最大亮度，每个像素的亮度差异（即噪度），或每个像素的局部纹理性质和局部颜色性质。

在1406，存储背景模型，并且过程结束。

图15示意性示出了基于多个(2个或更多)成像传感器304识别和追踪前景对象（如手或手指）的过程。对于每个成像传感器304，拍摄图像(1502)。拍摄的图像与存储的背景模型相比较，以获得前景图像(1504)。在1506，分析前景图像并获得对象的2D结构。

然后，在1508，组合并处理来自每个成像传感器304的分析结果，以获得前景对象的3D结构。

图16示意性示出了根据本公开具体实施方式的用于每个成像传感器304的找到前景对象并识别前景对象的2D结构的过程。在图16中所示的实施例和相关图像中，讨论的是前景对象是用户的手的情形。

在1602，载入预先获得的背景模型。背景模型可以是，例如基于亮度的背景模型，其中存储了例如100幅初始帧中的每个像素的最大亮度。图17显示了示例性的背景模型图像。

再次参考图16，执行循环来拍摄新的图像，并分析前景对象的2D结构。在一些实施方式中，在1604，成像传感器304拍摄到新的2D输入图像。图18显示了在手追踪过程中拍摄的示例性的输入图像。

再次参考图16，获得输入图像之后，执行以下：1)找到前景对象(1606)，2)分析前景对象的子结构(1608和1610)，3)分析前景对象(1612和1614)的详细性质。如下描述该过程的细节。

在1606，比较来自成像传感器304的新的输入图像与背景模型，以提取前景区域。在背景模型中，每个像素位置(x,y)可以具有特征向量B(x,y)。例如，如果背景模型是基于强度/亮度的，则B是标量，且B(x,y)的值是位置(x,y)处的像素的亮度。如果背景模型是基于噪声度的，则B是标量，且B(x,y)的值是位置(x,y)处的方差。在一些实施方式中，对于新的输入图像，计算每个像素的特征向量——ln(x,y)。类似于B(x,y)，ln(x,y)的值可能是亮度或方差，这取决于使用的背景模型。计算每个像素位置的ln(x,y)和B(x,y)的差值。如果在某个像素位置的差值大于某个阈值，则确定像素属于前景区域。否则，确定像素属于背景。

图19显示了示例性的前景区域，其中白色像素代表前景对象。

再次参考图16，在1608，在前景区域内，在每个像素位置(x,y)处计算：像素是指尖一部分的概率P_tip(x,y)，像素是手指主体（finger trunk）一部分的概率P_finger(x,y)，以及像素是手掌一部分的概率P_palm(x,y)。

在一些实施方式中，概率P_tip(x,y)，P_finger(x,y)和P_palm(x,y)可以通过将在像素位置(x,y)周围的相邻区域内的亮度分布与一组预定义模板（如指尖模板、手指主体模板或手掌模板）进行比较来计算。像素是指尖、手指主体或手掌一部分的概率，即P_tip(x,y)、P_finger(x,y)或P_palm(x,y)，可以由相邻区域多大程度上适合各自的模板（即手指指尖模板、手指主体模板或手掌模板）来定义。

在一些实施方式中，概率P_tip(x,y)、P_finger(x,y)和P_palm(x,y)可以通过在像素位置(x,y)的相邻区域执行函数/算子F来计算。函数/算子将相邻区域的亮度与手指或指尖的光反射模型进行拟合，如果分布接近手指主体的反射(柱形反射)或指尖的反射（半圆顶形反射），将会返回高值。

图20显示了以上讨论的概率计算的示例性结果。在图20，例如，有黑白马赛克的区域为指尖的概率很高，有竖直填充线的区域为手指主体的概率很高，白色区域很可能是手掌区域。

再次参考图16，在1610，概率P_tip(x,y)、P_finger(x,y)和P_palm(x,y)的计算用于划分前景对象，例如用户的手分为手指和手掌。图21显示了划分的结果。在图21中，阴影的区域是手指，而白色区域是手掌。

概率P_tip(x,y)、P_finger(x,y)和P_palm(x,y)以及划分结果可以用来计算手的结构，包括手指骨架信息。如在本公开中所用，手指骨架是对手指结构的抽象。在一些实施方式中，手指骨架信息可以包括，例如手指的中心线(也称为骨架线)、指尖的位置和手指的边界。

在一些实施方式，用户的手被分成手指和手掌后，可以获得手的子部分（例如手指或手掌）的2D边界。图22示意性示出了手的子部分的2D边界。正如上面所讨论的，手指的边界可是手指骨架信息的一部分。

再次参考图16，在1612，手指的中心线通过寻找和连接横跨整个手指的扫描线上的中心位置来计算。正如在此使用的，扫描线指在执行寻找中心位置过程中顺沿的那条线。扫描线可以是例如水平线。在一些实施方式中，对于手指中的扫描线L(y)，使用概率P_finger(x,y)作为权重因子来计算水平线L(y)上的每个像素(x,y)的位置x的加权平均值。在扫描线L(y)上，所述位置x的加权平均值是中心位置，x_center=C(y)，

当手指上所有的扫描线被处理后，得到扫描线L(y)上一系列中心位置C(y)。连接这些中心位置提供了手指中心线，即手指骨架的中心线。图23示意性示出了手指的中心线。

再次参考图16，同样在1612，计算指尖的位置(Tx,Ty)。指尖的位置可以限定为与指尖的形状和阴影相匹配的手指顶部区域的位置。在一些实施方式中，指尖的位置可以通过使用概率P_tip(x,y)作为权重因子来平均指尖中所有像素的位置来计算得到。例如

在其他实施例中，指尖的位置可以通过使用的概率P_finger(x,y)作为权重因子来平均手指顶部区域的像素的位置来计算。在生成的指尖位置(Tx,Ty)中，例如图24所示的结果，Tx和Ty都是浮点数字，具有亚像素分辨率。

图25显示了根据本公开具体实施方式的计算前景对象和前景对象子部分的3D信息的过程的高阶流程图。类似于图16，在图25所示的过程中，用户的手作为前景对象的实例。

在2502，比较来自不同成像传感器304的2D子结构结果（如手指或手掌），并且创建由不同的成像传感器304观测到的各前景对象的子部分之间的关联。例如，由成像传感器A观测到的手指A可与由成像传感器B观测到的手指C有关。在一些实施方式中，关联可以基于最小化所有手指对之间的总指尖距离做出，如图26所示。如图26所示的实施例，左半部分和右半部分分别显示被两个不同的成像传感器304拍摄到的手（即前景对象）的2D图像。

再次参考图25，在2504，已关联子部分的特性（如2D指尖、2D骨架线和2D边界点）进一步关联，以分别获得指尖对、骨架线对和边界点对。图27示意性示出了将第一成像传感器304拍摄的在第一2D图像（左上图像）中的第一手指的2D骨架线以及第二成像传感器304拍摄的在第二2D图像（右上图像）中的第二手指的2D骨架线关联起来的实施例。关联的结果是得到了骨架线对的图像（底部图像）。

再次参考图25，在2506、2508和2510中，计算3D骨架线、3D指尖和3D边界点(如手、手指或手掌的3D形状)，更多细节分别在下面详述。

在2506，处理一指尖对T1(Tx1，Ty1)和T2(Tx2，Ty1)来获得3D信息，如相应指尖的3D位置T(Tx,Ty,Tz)。在一些实施方式中，3D再投影（reprojection）函数可用于计算3D指尖位置T(Tx,Ty,Tz)。3D再投影函数可使用指尖的2D位置(Tx1，Ty1)和(Tx2，Ty1)，以及成像传感器304和透镜的信息，例如焦距、感测装置的间距(如每毫米像素数)、两个成像传感器304的距离(基线)。在一些实施方式中，算出间距d=Tx1–Tx2作为3D再投影函数的输入来使用。3D再投影函数的输出是指尖的3D位置(Tx,Ty,Tz)。3D位置(Tx,Ty,Tz)可以有物理单位，从而也可以表示为(fx,fy,fz)。

在一些实施方式中，3D再投影函数可以使用在成像传感器校准过程中获得的4×4透视变换矩阵来表示。这个矩阵可是间距对深度（disparity-to-depth）的映射矩阵。

在2508，使用如上所述获得的骨架线对，计算对应的手指的3D骨架线。在一些实施方式中，对于骨架线对，两个二维骨架线上的各像素根据其y方向匹配，以获得像素对。像素对可以类似上面描述的对指尖对的处理方式来处理，以获得对应像素对的点的3D位置，如图28所示。在处理完所有像素对后，由此产生的点连接起来以获取3D骨架线，如图28所示。

回到图25，在2510，基于两个不同的成像传感器304拍摄的图像上的边界点的2D位置，计算例如手指或手掌的边界点的3D位置。在一些实施方式，边界点的3D位置的计算方式可以类似于指尖的3D位置的计算方式。在计算边界点的3D位置后，3D空间中的对应点可以连接起来以获得3D边界。

图29显示了基于由两个不同的成像传感器304拍摄的两个2D图像中的手掌的2D边界的手掌的3D边界的计算。

如上所述获得的信息可以组合，以生成输出，例如图30所示的示例性输出，它显示了手指的3D指尖(图30中的圆圈)、手指的3D骨架线(图30中的线)以及手的3D形状。

对于某些应用程序，如绘画和雕塑，用户可能需要使用手指或钢笔作为工具。在这样的情况下，手指或钢笔可能需要被抽象为圆柱形，而且可能需要计算它的方向和长度。再次参考图25，在2512，计算手指的方向和长度。

在一些实施方式中，将手指抽象为圆柱形，而且它的长度定义为圆柱形的长度，这也可以称为手指圆柱长度。手指圆柱长度可被限定为手指骨架线的顶端点或指尖位置P0(x,y,z)与停止点P1(x,y,z)之间的距离。在一些实施方式中，停止点P1是骨架线的终点或骨架线从直线偏离的位置处（例如骨架线与直线的差值大于阈值的位置处）的点。同样，手指的方向可被定义为连接两点P1和P0的线的方向。

在2514，计算手掌的3D位置和取向。手掌的3D位置也可以被称为手掌的3D中心，这可通过例如平均化边界点（如图29所示）的3D位置来获得。图31示意性示出了计算出的手掌的3D中心。

手掌的尺寸和取向可以通过比较手掌3D的中心、手掌的边界点的3D位置、指尖的3D位置以及手指的方向获得。

上面讨论的实施方式是基于直接匹配由不同成像传感器304拍摄的多个视图(图像)做出的。以下讨论的具体实施方式涉及一种基于模型的架构。基于模型的架构可以提高手识别的可靠性。例如，基于模型的架构可在单个成像传感器304的情况下工作。也就是说，即使只使用一个成像传感器304，仍然可以实现手的3D识别，这是因为来自单个图像的手指的亮度和宽度可以用来获得3D手指位置的估算。此外，当手或手指在一个视图中仅部分可见，但在另一个视图中完全可见时，借助于基于模型的架构，交互式系统100可以可靠地产生3D手追踪结果。即使手指被遮住，例如一手指和另一手指合并在一起或弯曲到手掌区域中，而在所有视图中均不可见时，仍然可以连续预测该手指的位置。

根据本公开的具体实施方式，当前景对象只能被单一的成像传感器304观测到时，前景对象到成像传感器304的距离可以基于前景对象的亮度或前景对象的尺寸来估算。然后，这样的距离可以与在成像传感器304的视图中的前景对象的位置(即2D坐标)结合，以计算前景对象的3D位置(x,y,z)。

假设其他参数（如照明光强度和前景对象的反射比）都是一样的，前景对象的亮度B与对象到照明光的距离的平方成反比。在一些实施方式中，因为照明光接近成像传感器304，对象到照明光的距离约等于对象到成像传感器304的距离，即，D_obj-sensor。这种关系可以用下面的方程表示:

B = \frac{1}{D_{obj - sensor}^{2}} \times K - - - (2)

在上面的方程中，系数K结合有其他参数（如照明光的强度和前景对象的反射比）的效果，而且可为常数。上述方程可以改写为:

D_{obj - sensor} = \sqrt{\frac{K}{B}} - - - (3)

系数K可以在前景对象能够被两个或更多成像传感器304观测到时计算出来。在这种情况下，正如上面所讨论的，可以计算前景对象的3D位置，因此可以获得D_obj-sensor。可以持续监测距离D_obj-sensor，以记录在时间t时的D_obj-sensor，即D_obj-sensor(t)。与此同时，在时间t时的前景对象的亮度B(t)可以从由两个或多个成像传感器304拍摄到的图像中获得。将D_obj-sensor(t)和B(t)代入公式(2)或公式(3)，可以计算出系数K。

然后，如果在时间t’，只有单个成像传感器304可以感测到前景对象，则前景对象在t’的亮度，即B(t’)以及系数K可以代入公式(3)，以计算D_obj-sensor(t’)。

类似地，由成像传感器304拍摄的图像中的前景对象的尺寸也可以用来估算D_obj-sensor。由成像传感器304拍摄的图像中的前景对象的尺寸可以表示如下:

L = \frac{1}{D_{obj - sensor}} \times K^{'} - - - (4)

在此，系数K’综合了其他参数（如前景对象的实际尺寸）的效果。公式(4)可以改写为:

D_{obj - sensor} = \frac{1}{L} \times K^{'} - - - (5)

类似于使用前景对象的亮度来估算D_obj-sensor的实施方式，在使用成像传感器304拍摄的图像中的前景对象的尺寸来估算D_obj-sensor的实施方式中，系数K’可以在前景对象能够被两个或多个成像传感器304观测到计算，此时可以持续计算并监测距离D_obj-sensor以记录在时间t时的D_obj-sensor(t)。同时，在时间t被成像传感器304拍摄到的图像中的前景对象的尺寸L(t)可以从拍摄到的图像中获得。将D_obj-sensor(t)和L(t)代入到上面公式(5)或公式(6)，可以计算出系数K’。

然后，如果在时间t’，只有单一成像传感器304可以感测到前景对象，拍摄的图像中的前景对象在t’时的尺寸即L(t’)和系数K’可以代入公式(5)来计算D_obj-sensor(t)。

在一些实施方式，上述用于估算D_obj-sensor的方法可以结合起来以提供更准确的结果。即分别基于亮度和大小得到的估算值D_{obj-sensor_}1和D_{obj-sensor_}2。然后，使用传感器融合（sensor fusion）方法，例如使用扩展卡尔曼滤波器的传感器融合，来结合D_{obj-sensor_}1和D_{obj-sensor_}2以获得D_obj-sensor。

根据本公开的具体实施方式，基于模型的架构可以适用于任意数量的视图，无论是一个视图、两个视图或更多的视图。图32显示了两个视图的情形。如下对根据一些具体实施方式的基于模型的框架的细节进行描述。

对于每个视图，执行2D手结构分析(在以前的架构中描述过)。2D手结构分析产生2D手结构(也称为新的2D手结构)，包括2D手骨架。类似于手指骨架，手骨架是指对手的结构的抽象。

然后通过结合上次的2D手结构(在上一次更新获得的)和新的2D手结构(在如上所述的当前更新获得的)来实施追踪。追踪过程包括：1)对之前的结果应用过滤器，以“预测”预测的2D手结构；2)使用关联方法，以结合新的2D手结构与预测的2D手结构；3)使用结合得到的新结果，更新过滤器。这种跟踪过程可生成平滑的骨架位置，不会受视图中突然失去手指的影响，并可以提供一致的手指ID。正如本公开中所使用的，手指ID是指分配给感测到的手指的ID。手指一旦分配到手指ID，即使在更新后不可见，那只手指将仍携带相同的手指ID。例如在一次更新中，中指和食指被感测到。中指被分配到手指ID“手指#1”而食指被分配手指ID“手指#2”。在整个过程中，两者都带着分配到的手指ID，即使当其中一个或两个在之后的更新中不可见。

在一些实施方式中，对3D手模型执行过滤，产生平滑的3D的效果，包括3D手骨架，这会被重投射以在每个视图上创建投射的2D的手骨架。

然后，对于每个视图，新的2D手骨架和投射的2D骨架组合来获得各个手指ID之间的关联。

然后，两个视图的2D结果结合起来以计算手的新的3D位置和新的3D手指骨架。最终结果用作新的3D手模型，这可用于下次更新。

如上所述，交互式系统100可用于识别和追踪前景对象(如手或手指)的3D位置和取向等。使用该特征，用户可以与计算机104交互。例如用户可以在办公桌表面或桌子的表面点击并移动手指来控制光标移动和点击显示器114，好像用户在使用鼠标，但实际上不使用真实的鼠标，从而使用这样的表面作为物理接触表面。有了交互式系统100，用户也可以使用显示器114作为触摸屏幕，即使显示器114的屏幕不是真实的触摸屏。此外，用户可以在开放的空间(如空气中)指定虚拟表面作为虚拟触摸表面，即假想的接触表面。通过相对于虚拟触摸表面移动手指，用户可以与计算机104交互，就像在虚拟接触表面的位置有真实的接触表面一样。另外，通过结合眼睛位置跟踪(使用例如头追踪技术感测用户眼睛的3D的位置)，可以创建用户感知的手指位置与在显示器114屏幕上的位置的直接关联。以下，这样的交互也称为2.5D接触交互，上面提到的用于实现交互的表面，无论是物理接触表面，还是虚拟的接触表面，或显示屏，也称为接触交互表面。根据本公开的具体实施方式，2.5D接触交互可以包括例如前景对象（如指尖）在接触交互表面上的2D投影位置、前景对象（如指尖）与接触交互表面之间的距离、前景对象（如手指）相对于接触交互表面的法线方向的3D取向等信息。

图33A和33B示意性示出了示例性的系统设置和不同类型的接触交互表面。在图33A所示的实施例中，感测装置102定位在桌子上方，例如在显示器114上面，并且面朝下。在一些实施方式中，感测装置102可能夹在显示器114顶部。例如感测装置102可以夹在显示器114顶端的中心、左边或右边。在一些实施方式中，感测装置102可以放置在独立的支架上，以支持感测装置102并使其位于桌子上面。在图33B所示的实施例中，感测装置102放在桌上并面朝上。除了通过与接触交互表面的交互而与计算机104交互以外，用户也可以通过图33A、33B所示的3D交互空间内的交互而与计算机104交互。这样的交互也可被称为3D交互。

根据本公开的具体实施方式，2.5D接触交互可以基于上述获得的前景对象的3D信息，以及通过将前景对象的悬停状态添加到标准的接触交互中来实现。根据本公开具体实施方式的2.5D接触交互可以提供前景对象（例如手指）在接触交互表面的投影(x,y)位置，以及前景对象和接触交互表面之间的距离。

图34显示了根据本公开的具体实施方式的用于实现一个使用例如手的2.5D接触交互的过程的高级流程图。在3402，定义环境以提供环境信息，包括自动或手动定义环境中的接触交互表面。在3404，执行3D手追踪来获取指尖的3D信息，如本公开前面描述的方法。在3406，3D信息被转换为2.5D接触信息。在3408，确定是否需要重新校准。如果是，进入3402。如果校准不需要重置，进入3410，在此确定是否校准需要改进。如果是这样，进入3412以改进校准。如果校准不需要改进，则进入3404。在一些实施方式中，当检测到表面的变化时，校准可以自动重置或改进。在一些实施方式中，用户可以手动强制重置或改进校准。

图35显示了根据本公开的具体实施方式的手动校准接触交互表面的过程的高级流程图。在3502，交互式系统100指导用户如何手动校准接触交互表面。可例如通过显示在显示器114屏幕上的GUI或通过音频设备(如扬声器)来发送指示。指示会让用户将手指移动到表面的特定位置，并且保持一段时间的稳定。然后检测用户手指或指尖的3D位置(3504)并且记录(3506)。然后流程返回3502来指导用户将手指移到另一表面位置上。重复这个过程，直到完成校准过程。然后所有记录下的校准触点的3D位置被用来限定接触交互表面。

在一些实施方式中，三个校准接触点足以限定接触交互表面。在一些实施方式中，四个或更多接触点可以用来限定接触交互表面。当用户试图限定一物理表面作为接触交互表面时，使用四个或多个接触点可以提高准确性。此外，使用四个或多个接触点也可以允许用户限定非平面的表面作为接触交互表面。

由于所限定的接触交互表面可以很大，交互式系统100还允许用户限定有效的交互区域，然后该区域可被映射到显示器114屏幕的尺寸。这个过程如图36所示。在3602，环境校准数据，包括校准接触点的3D位置，被输入和分析，以找到左上角(TL)、右上角(TR)、左下角(BL)和右下角(BR)的点，如图37示意性显示。在3604，通过计算区域中心和平面大小，获得接触交互表面的尺寸以及接触交互表面的中心位置。

根据本公开的具体实施方式，可以通过检测用户手指触及表面的行为自动的并逐步的检测接触交互表面。即交互式系统100检测用户手指敲击坚硬表面的事件，并自动登记这些敲击事件。当敲击事件发生时，交互式系统100在接触表面校准数据库储存指尖的3D位置。在一些实施方式中，交互式系统100可以动态重复校准过程，以提高对环境中表面的认定。使用这种方法，用户可以简单地多次在不同的地方敲击表面，交互式系统100将自动校准。因此，交互式系统100不需要显示指示来指导用户，用户不需要等待交互式系统100来告诉他何时把手指放到表面上或何时将手指转移到表面的另一地方。此外，在校准阶段后，当用户正常使用输入设备时，交互式系统100会继续监测敲击事件并在需要时更新表面校准。因此，接触交互表面的识别在用户的持续使用中变得越来越精确。此外，当环境变化时(如，现有表面的移除，或放置了新的表面)，交互式系统100通过合并新的敲击事件与现有的数据库来自动更新接触交互表面。

下面描述了检测敲击事件的一种方法。根据本公开的具体实施方式，用户手指的3D位置被追踪，记录依赖时间的位置值。为了检测敲击事件，时间相关性位置值通过求导被转换为速度值。图38A和38B分别显示了当手指在空中移动及当手指点击固体表面时手指的3D速度。在图38A和38B中，只显示了y轴方向的速度分量。x和z方向的速度分量也可以以类似的方式来绘出。

在一些实施方式中，使用移动的窗口来检测下列条件：1)在非常短的时间内(短于第一时间阈值)，速度从高值(高于第一速度阈值)下降到非常小的值(低于第二速度阈值，接近于零)，2)速度保持在非常小的值的时间超过一段时间(超过第二时间阈值)。如果两个条件都满足，则确定敲击事件发生了。

当用户的手指撞击坚硬的表面，有时手指可能在表面上继续滑动而不是完全停止。在这样的情况下，如果满足以下两个条件，敲击事件被确定为已经发生：1)检测到在原来的移动方向上手指突然改变速度，2)手指随后的运动被限制在2D平面内。这可以这样计算：通过对在一时间窗口内的手指的3D位置数据应用降维计算方法（例如主成分分析(PCA)），将轨迹从物理3D坐标映射到新的3D坐标。PCA算法通过分析手指的3D位置数据产生新的3D坐标系统。新的3D坐标系统是由三个轴定义的。新的3D坐标系统中的每个轴都有特征值，与数据点沿着该轴的变化量相关。在三轴中，有最小的特征值的称为“最小轴”。如果最小轴的速度值保持相对较长时间(超过一段时间阈值)的低值(低于一定的速度阈值)，那么手指速度突然发生改变的时间被记录为敲击事件发生的时间。

当检测到新的敲击事件时，新敲击发生的位置(称为新敲击位置)用于更新现有的接触敏感表面。根据本公开的具体实施方式，如果新敲击的位置与现有的接触交互表面是一致的，新敲击位置可用来增加现有的接触交互的分辨率和精度。如果新敲击位置与现有的接触交互表面冲突(这可能意味着用户稍微移动了表面)，使用新敲击位置更新现有的接触交互表面或现有的接触交互表面被删除。如果新敲击位置不与现有的接触交互表面有关联，新的接触交互表面会被创建。

图39显示了根据本公开具体实施方式用于通过检测标记自动检测接触交互表面的过程的流程图。使用本公开上面描述的方法创建标记。如图39所示，在3902，用户在环境中如在一张桌子上放置了带有这样标记的一张纸。在3904，交互式系统100使用成像传感器304拍摄纸的图像并识别标记。在一些实施方式，交互式系统100记录图像中标记的3D位置。在3906，交互式系统100基于标记的3D位置计算纸的3D位置、取向、大小。计算结果保存为接触交互表面校准数据。

图40显示了根据本公开具体实施方式的用于自动检测和校准显示屏—例如显示器114—的屏幕并使用显示屏表面作为接触互动表面的过程的流程图。如图40所示，在4002，交互式系统100在显示屏幕上显示2D代码，如校验板，如图41所示。在4004，交互式系统100使用不同的成像传感器304拍摄图像。在4006，交互式系统100识别2D代码中的标记，并记录在每一图像中的标记的2D位置。在4008，交互式系统100计算标记的3D位置、取向和大小，并导出和记录显示屏的尺寸、3D位置和3D取向。在4010，交互式系统100显示表面的位置、方向和大小。之后，交互式系统100可以检测用户在显示屏上的接触交互。

图42显示了根据本公开具体实施方式的定义虚拟接触表面的过程流程图。虚拟接触表面可限定为在键盘上方、并在用户和显示屏之间，并且用户可以在空中与虚拟的接触表面交互作用，以控制计算机104。如图42所示，在4202，交互式系统100指示用户“接触”所限定的虚拟接触表面的四个角点，如示意图43所示。在4204，交互式系统100检测到用户手的3D位置。在4206，交互式系统100记录四个角点的位置。在4208，交互式系统100计算和记录虚拟接触表面的尺寸、3D位置和3D取向。

相比电脑显示器的物理触摸屏，虚拟接触表面具有一定优点。例如对于笔记本电脑和台式电脑用户来说，与触摸屏的距离远，并且角度接近垂直(70度～80度)。在这样的距离和角度，这种屏幕不适合接触——很难够到，并容易引起疲劳。相反，根据本公开具体实施方式的虚拟接触表面可以限定为更贴近用户，并且倾斜成更容易操作的角度。

正如上面所讨论的，根据本公开具体实施方式的交互式系统可以用来实现2.5D接触交互。2.5D接触交互的细节描述如下。

在一些实施方式中，用户的手作为前景对象。交互式系统100使用手的3D追踪信息(例如，指尖的3D位置和手指的3D圆柱方向和长度信息)和环境校准数据执行3D到2.5D的转换，以便获得2D信息，例如根据上面描述的方法限定的从指尖到接触交互表面的距离、以及手指垂直于接触交互表面的方向。

图44显示了根据本公开具体实施方式的用于将前景对象（如手或手指）的3D信息转换为2.5D信息的过程流程图，在4402，基于接触交互表面的位置和方向计算接触交互表面的3D信息。接触交互表面的3D信息可以包括，例如接触交互表面的中心及垂直于接触交互表面的方向。在4404，前景对象的3D位置(x,y,z)投射到接触交互表面上，其中包括如从前景对象到接触交互表面的距离d以及接触交互表面上的投射点的2D位置的计算。接触交互表面上的投射点的2D位置可以使用定义在接触交互表面的2D坐标系统上的x’和y’坐标表示。在4406，接触交互表面上的投影点的2D位置(x’,y’)和接触交互表面的尺寸，用于将接触交互表面上的投影点的2D位置(x’,y’)换算到定义在显示器114屏幕上的2D坐标系的2D位置(x’’,y’’)。由于上述过程，前景对象的3D位置(x,y,z)转换为在显示器114屏幕上的2D位置(x’’,y’’)以及前景对象和接触交互表面之间的距离d。

图45显示了根据本公开具体实施方式的用于确定前景对象和接触交互表面之间的距离d的过程的流程图。如上所述，在环境校正阶段，环境校准数据被记录下来，包括用来定义接触交互表面的校准点的位置，即，P1(x1,y1,z1)，P2(x2,y2,z2)，等等。在4502，这种环境校准数据和前景对象的3D位置(x,y,z)被用来寻找在接触交互表面上最接近前景对象的位置为(x’,y’,z’)的点。然后将位置(x’,y’,z’)与位置(x,y,z)比较来确定距离d(4504)。

图46是根据本公开具体实施方式的用于寻找z’的过程的流程图。在图46所示的实施例中，接触交互表面可以使用多项式曲面拟合方程来估算:

a*x+b*y+c*z+d+e*x^2+f*y^2+…=0 (4)

在4602，所有的校准点的位置代入以下误差函数来获取误差值:

err=sum[sqr(a*x+b*y+c*z+d+e*x^2+f*y^2+…)] (5)

在一些实施方式，用回归方法找到使误差值“err”最小化的最佳参数值a，b，c，d，e，f…。在4604，前景对象的x,y坐标(具有(x,y,z)的3D位置)代入到多项式曲面拟合方程，在给定的x和y的情况下，计算z’。

图47显示了根据本公开具体实施方式的用于获得z’的过程的流程图。图47所示的实施例中，使用高斯过程回归的机器学习方法。如图47所示，在4702，使用所有校准点的3D位置计算协方差矩阵。在4704，回归用于在接触交互表面上投射问询点（即前景对象）并且获得z’。图47所示的方法适合接触交互表面不规则的情形，即接触交互表面不是平面或不接近平面，或者其环境测量数据不是很统一。

图48显示了根据本公开具体实施方式的用于寻找z’的过程的流程图。图48所示的实施例中，使用表面点云（surface point cloud）的方法。在4802，根据环境校准数据从点云重建3D接触交互表面。在4804，基于重建表面，计算在位置(x,y)处的表面z’值。

根据本公开具体实施方式获得的2.5D信息，如前所述，可用于各种应用程序。例如图49显示了使用接触交互表面进行手写的过程。在4902，指尖的3D位置被跟踪。在4904，获得的指尖的3D位置(x,y,z)被转换为2.5D信息x’，y’和d。在4906，确定d是否小于阈值距离。如果是，接触/拖动事件被记录(4908)。如果d不小于阈值距离，事件被释放(4910)。

图50显示了前景对象如用户的手指在键盘上的键的上方悬停的过程。在5002，键盘上的键被识别，并且每个键的3D位置被感测和记录。在5004，用户手指的3D位置与键的位置相比较，确定手指悬停在哪个键上方以及手指和那个键之间的距离。在5006，UI显示在显示器114的屏幕上，以表示手指悬停在那个键上方以及手指和那个键有多远的距离。

如上所述，交互式系统100可以追踪用户手或手指的位置。在一些实施方式中，交互式系统100还追踪用户眼睛的位置，并结合眼睛的位置信息及手或手指的位置信息，用于3D/2D输入。

根据本公开的具体实施方式，交互式系统100可以感测用户的眼睛的3D位置，类似于上面所述的用户的手或手指的3D位置的感测。眼睛、手或手指、以及显示器114屏幕的信息被关联起来，以创建“3D和2D直接操控”的互动方式。在本公开中，“直接操控”是指允许用户直接操控呈现给他们的对象。在用户的眼睛的看来，手或手指的位置和显示在屏幕上的被操纵对象的位置，如由常规的显示设备呈现的对象的2D位置或3D显示器呈现的对象3D位置，是一样的。

图51示意性显示了根据本公开具体实施方式的设置。如图51所示，感测装置102被放置成面对用户，并可以拍摄包括用户的头5102和手5104的图像。

结合头部追踪和手追踪，用户可以与2D屏幕上的内容交互、或通过虚拟接触表面与2D屏幕上的内容交互。用户还可以与3D显示器所呈现的3D内容交互。此外，可以实现头戴式3D显示(HMD)。

图52示意性示出了用户与2D物理屏幕5202上的内容交互的情形。在一些实施方式中，人脸识别和追踪方法用于识别眼睛5204在感测装置102坐标系中的3D位置E(x,y,z)。手追踪方法，如上面描述之一的，用于识别手5104在感测装置102的坐标系中的3D位置T(x,y,z)和手5104的动作。如上所述，在校正阶段，交互式系统100感测并记录屏幕5202在感测装置102坐标系的3D信息。这些信息可包括，例如屏幕5202的3D位置和3D取向、屏幕5202的尺寸(如宽度和高度)。这些信息可以替代的或另外的包括，例如屏幕5202的四个角的3D位置：左上(x,y,z)，右上(x,y,z)，左下(x,y,z)和右下(x,y,z)。利用眼睛5204的3D位置E(x,y,z)和手5104的3D位置T(x,y,z)，创建从眼睛5204的3D位置延伸到手5104的3D位置的线。计算这条线与屏幕5202相交的交点I(x,y,z)。交点的坐标I(x,y,z)可以被转换成屏幕5202的2D坐标。如此获得使用屏幕5202的2D坐标表示的2D交点位置P(x’’，y’’)。用户在位置P(x’’，y’’)的动作信息被发送到操作系统或应用。

图53示意性示出了用户通过如上述的本公开具体实施方式的方法所定义的虚拟触摸表面5302与2D物理屏幕5202上的内容交互的情形。该情形中的计算类似于依据图52描述的情形，只不过是计算和记录连接眼睛5204和手5104的线与虚拟接触表面5302交叉的2D交点位置P(x’，y’)，该位置使用虚拟接触表面5302的2D坐标表示。此外，手5104和虚拟接触表面5302之间的距离D被计算并报告给操作系统或应用。

图54示意性示出了用户与3D显示屏5402所呈现的3D内容(如虚拟3D对象5404)交互的情形。在一些实施方式中，交互式系统100使用面部识别和追踪算法来识别眼睛在感测装置102的坐标系中的3D位置E(x,y,z)。手追踪方法，如上面描述的方法之一，用于识别手5104在感测装置102的坐标系中的3D位置T(x,y,z)及手5104的动作。在校正阶段，交互式系统100感测并记录屏幕5402在感测装置102的坐标系中的3D信息。这些信息可以包括例如屏幕5402的3D位置和3D取向、屏幕5402的尺寸(如宽度和高度)。交互式系统100将眼睛5204的3D位置从感测装置102的坐标系中转换到屏幕5402所使用的坐标系，以呈现虚拟3D对象5404，Es(x,y,z)，并将这些信息发送给操作系统和3D交互应用。3D交互式应用根据用户的眼睛5204的3D位置Es(x,y,z)呈现该虚拟3D对象5404。此外，交互式系统100将手5104的3D位置从感测装置102的坐标系转换到屏幕5402所使用的坐标系，以呈现虚拟3D对象5404，Ts(x,y,z)，并将这些信息发送给操作系统和3D交互应用。3D交互应用使用Ts(x,y,z)信息，以允许用户与虚拟3D对象5404进行交互。

根据本公开具体实施方式的系统可以还包括头戴式3D显示器(HMD)，实现虚拟现实交互，例如与虚拟接触表面的交互，与虚拟3D对象的交互，或与物理3D对象的虚拟交互。图55显示了根据本公开具体实施方式的HMD系统5500。HMD系统5500包括一副HMD眼镜5502和与HMD眼镜5502耦接的感测装置5504。感测装置5504可以安装在HMD眼镜5502的顶部、底部、左边或右边。在一些实施方式中，感测装置5504具有分体设计，并且感测装置5504的成像传感器安装在HMD眼镜5502的不同的地方。

利用HMD系统5500，用户可以与固定的2D显示器交互，类似于上述那些不使用HMD的情形。

图56和57分别显示了用户与虚拟接触表面交互的情形和用户与虚拟HMD系统5500所呈现的3D对象交互的情形。有关这些情形的方法与上面结合，例如图53和54，所描述的方法类似。

图58显示了HMD系统5800，用户可以用它与距离用户较远的物理对象5802进行交互。HMD系统5800包括HMD眼镜5502、感测装置5504和全球定位系统(GPS)5804。在一些实施方式，HMD系统5800在世界坐标系统中的3D位置被例如GPS5804感测到。计算世界坐标系统中用户眼睛的3D位置Ew(x,y,z)。感测装置102感测手5104在感测装置102坐标系的3D位置T(x,y,z)，然后其由HMD系统5800转换为世界坐标系的3D位置Tw(x,y,z)。在世界坐标系统中计算从用户眼睛延伸到手的3D位置的线。该线与物理对象5802之间的交点(HMD系统5800记录了物理对象5802在世界坐标系的3D位置)被感测，并且获得交点的位置信息，发送给操作系统或应用程序。

图59显示了HMD系统5900，用户可以用它与物理对象5902交互。HMD系统5900包括HMD眼镜5502、感测装置5504和摄像头5904。根据本公开具体实施方式，HMD系统5900使用摄像头5904或其他设备感测物理对象5902，并计算物理对象5902在HMD系统5900的坐标系的3D位置。HMD系统5900还感测手5104的3D位置T(x,y,z)，并在HMD系统5900的坐标系统中计算从用户的眼睛延伸到手5104的线。HMD系统5900感测及计算该线与物理对象5902之间的交点在HMD系统5900坐标系的3D位置P(x,y,z)，并且计算手的3D位置到交点的3D位置之间的距离D。获得的信息发送给操作系统或应用。

结合这里披露的本发明的说明和实践，本公开的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本公开的真正范围和主旨均由权利要求所限定。

Claims

1.一种三维感测方法包括：

获得对象的第一二维骨架；

获得所述对象的不同于所述第一二维骨架的第二二维骨架；

在所述第一和第二二维骨架的基础上计算出所述对象的三维骨架。

2.根据权利要求1所述的方法，还包括：

获得从第一视角拍摄的所述对象的第一二维图像；以及

获得从不同于所述第一视角的第二视角拍摄的所述对象的第二二维图像，

其中，获得所述第一二维骨架包括从所述第一二维图像中提取出所述第一二维骨架，

其中，获得所述第二二维骨架包括从所述第二二维图像中提取出所述第二二维骨架。

3.根据权利要求2所述的方法，其中：

获得所述第一二维骨架包括获得代表所述对象的一部分的第一二维中心线，

获得所述第二二维骨架包括获得代表所述对象的所述部分的第二二维中心线，以及

计算所述对象的三维骨架包括计算代表所述对象的所述部分的三维中心线。

4.根据权利要求3所述的方法，其中获得所述第一二维中心线包括：

计算所述第一二维图像中的像素的参数，所述参数表示所述像素对于所述对象的所述部分的中心线的接近程度；

根据所述计算的参数定位所述对象的所述部分；

对于所述部分中相同扫描线上的像素，通过使用在所述扫描线上的所述像素的所述计算参数作为加权系数来将所述扫描线上的像素位置做平均，从而计算所述扫描线的中心位置；以及

通过连接不同的扫描线的中心位置获得所述第一二维中心线。

5.根据权利要求4所述的方法，其中计算像素的参数包括：

将所述像素的邻域的亮度分布和所述部分的预定义模板进行比较；以及

根据所述邻域的亮度分布与所述模板的匹配程度来计算所述参数。

6.根据权利要求4所述的方法，其中计算像素的参数包括：

将所述像素的邻域的亮度分布与所述部分的光反射模型进行匹配；以及

返回匹配分数作为概率。

7.根据权利要求3所述的方法，其中所述对象是手，所述部分是手的手指主体。

8.根据权利要求7所述的方法，还包括：

计算所述手指主体的手指柱体长度。

9.根据权利要求8所述的方法，其中计算所述手指柱体长度包括：

从所述三维中心线的顶点，沿着所述三维中心线向下移动至移动终点；以及

计算所述顶点和所述移动终点之间的距离作为所述手指柱体长度。

10.根据权利要求9所述的方法，其中移动至所述移动终点包括移动至所述三维中心线的终点。

11.根据权利要求9所述的方法，其中移动至所述移动终点包括移动至所述三维中心线和一直线之间的差距大于一阈值的点处。

12.根据权利要求9所述的方法，还包括：

通过计算连接所述顶点和所述移动终点的线的方向来计算所述手指主体的手指方向。

13.根据权利要求2所述的方法，其中：

获得所述第一二维骨架包括获得表示所述对象的一部分的第一中心位置，

获得所述第二二维骨架包括获得表示所述对象的所述部分的第二中心位置，以及

计算所述对象的三维骨架包括计算表示所述对象的所述部分的三维中心位置。

14.根据权利要求13所述的方法，其中所述对象是手，所述部分是手的指尖。

15.根据权利要求13所述的方法，其中获得所述第一二维中心位置包括：

计算所述第一二维图像中的像素的参数，所述参数代表所述像素对于所述对象的所述部分的接近程度；

根据计算出的参数定位所述对象的所述部分；以及

通过使用所述部分中所述像素的所述计算参数作为加权系数来对所述部分中的所述像素的二维位置做平均，从而计算所述中心位置。

16.根据权利要求1所述的方法，还包括：

将所述第一二维骨架的第一二维片段与所述第二二维骨架的第二二维片段相关联，所述第一和第二二维片段表示所述对象的一部分；以及

比较所述第一二维片段的二维位置和所述第二二维片段的二维位置以计算所述部分的三维位置。

17.根据权利要求1所述的方法，还包括：

将所述对象的预先计算的三维骨架投射至第一视角以创建第一投射二维骨架，所述第一二维骨架是从所述第一视角中从所述对象的第一二维图像中提取的；

将所述预先计算的三维骨架投射至第二视角来创建第二投射二维骨架，所述第二二维骨架是从所述第二视角中从所述对象的第二二维图像中提取的；

其中，计算所述三维骨架包括基于所述第一二维骨架、所述第二二维骨架、所述第一投射二维骨架和所述第二投射二维骨架来计算所述三维骨架。

18.根据权利要求1所述的方法，其中：

获得所述第一二维骨架包括从摄像头拍摄的二维图像中提取所述第一二维骨架，

所述第一二维骨架包括表示所述对象的一部分的二维片段；以及计算所述三维骨架包括：

基于所述二维片段的宽度或亮度中至少一个来计算所述二维片段到所述摄像头的距离；以及

基于所述距离来计算所述部分的三维位置。

19.一种非易失性性计算机可读存储介质，存储用于三维感测的程序，该程序当由计算机执行时，指示计算机：

获得对象的第一二维骨架；

获得与所述第一二维骨架不同的所述对象的第二二维骨架；以及

在所述第一和第二二维骨架的基础上计算所述对象的三维骨架。

20.一种用于三维感测的设备，包括：

第一摄像机，从第一视角拍摄对象的第一二维图像；

第二摄像机，从不同于所述第一视角的第二视角拍摄所述对象的第二二维图像；以及

处理器，配置为：

从所述第一二维图像中提取所述对象的第一二维骨架；

从所述第二二维图像中提取所述对象的第二二维骨架；以及