CN102572505B

CN102572505B - 用于校准深度图像传感器的方法和系统

Info

Publication number: CN102572505B
Application number: CN201110364401.1A
Authority: CN
Inventors: P·J·玛萨尔卡; S·P·斯塔赫尼亚克; T·拉万德; Z·张; L·D·卡斯蒂略; Z·马特
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-11-03
Filing date: 2011-11-02
Publication date: 2014-11-05
Anticipated expiration: 2031-11-02
Also published as: WO2012061493A3; TW201233144A; EP2636223A4; US8866889B2; CN102572505A; AR083709A1; EP2636223A2; WO2012061493A2; US20120105585A1; EP2636223B1

Abstract

本发明涉及家中深度相机校准。公开了用于在自然用户接口中校准深度相机的系统和方法。该系统大体而言获取捕捉设备和场景中的一个或多个对象之间的真实距离的客观测量。然后该系统在一个或多个点处将该真实深度测量与由深度相机提供的深度测量进行比较，并确定描述深度相机测量中的误差的误差函数。然后该深度相机可被重新校准以纠正该误差。场景中的一个或多个对象的距离的客观测量可以通过各种系统和方法实现。

Description

用于校准深度图像传感器的方法和系统

技术领域

本发明涉及深度相机，尤其涉及家中深度相机校准。

背景技术

在过去，诸如计算机游戏和多媒体应用等计算应用使用控制器、遥控器、键盘、鼠标等来允许用户操纵游戏人物或应用的其他方面。近来，计算机游戏和多媒体应用已开始使用相机和软件姿势识别引擎来提供自然用户接口(“NUI”)。使用NUI，检测、解释用户姿势和语音并将其用于控制游戏人物或应用的其他方面。

NUI系统使用三维(3-D)深度相机来捕捉场景的三维数据。深度相机要求若干组件被精确对准以正确地测量深度。即便微小的未对准也可能导致显著的深度测量误差。未对准可能由于各种状况而发生，包括例如不恰当的制造、极端温度或其他环境因素、掉落相机或其他物理损坏等。一旦对准被改变，深度可能以多种方式被不正确地报告。这种失真的结果可能导致相机的深度范围的漂移、对象尺寸的变形，或者多种其他失真可能发生。因此期望提供一种用于校准深度相机以捕捉精确的深度图像的系统，优选地对用户体验带来最小的影响。

发明内容

粗略言之，本技术涉及对NUI系统中使用的深度传感器进行重新校准。NUI系统一般包括捕捉设备，捕捉设备包括深度传感器和RGB传感器。深度投影仪可将光发射到场景上，所述光被反射回来并被深度传感器和RGB传感器感测。深度传感器使用反射的光来确定场景内的对象的深度。本技术涉及用于重新校准深度传感器以纠正深度传感器的工厂校准之后可能出现的任何深度测量误差。

大体而言，本系统获取对视野中的对象的真实深度测量。然后该系统将真实深度测量与由深度传感器提供的深度测量进行比较，以定义偏差的误差模型。本系统提供用于确定场景中的一个或多个对象的真实深度测量的各种方法，而独立于从深度传感器获得的深度测量。在直接的实施例中，可简单地将深度传感器调整到真实深度。在进一步的实施例中，可开发更复杂的数学模式来对深度误差进行建模。然后可通过最小化深度误差来补偿该深度误差。

本技术的一个示例涉及对自然用户接口的深度传感器进行重新校准的方法，该深度传感器从三维空间捕捉图像数据。该方法包括以下步骤：(a)使用深度传感器测量该三维空间中至少一个样本点的深度值；(b)独立于所述步骤(a)的测量，确定该至少一个样本点的真实深度值；(c)对在所述步骤(b)中确定的真实深度和在所述步骤(a)中测量的深度中的偏差导致的深度误差进行建模；以及(d)使用在所述步骤(c)中建模的深度误差纠正深度传感器做出的深度测量。

本技术的进一步示例涉及包括用于对处理器编程以执行对自然用户接口的深度传感器进行重新校准的方法的指令的计算机可读存储介质，该深度传感器捕捉来自三维空间的图像数据。该方法包括以下步骤：(a)使用深度传感器测量该三维空间内的校准对象上的两个或更多个点的深度；(b)独立于深度传感器，确定该校准对象上的该两个或更多个点的真实深度；(c)对在所述步骤(b)中确定的真实深度和在所述步骤(a)中测量的深度中的偏差导致的深度误差进行建模；以及(d)使用在所述步骤(c)中建模的深度误差补偿深度传感器所做的深度测量。

在另一示例中，本技术涉及对自然用户接口的深度传感器进行重新校准的系统，该深度传感器捕捉来自三维空间的图像数据，该系统包括：位于该三维空间内的校准对象；以及与深度传感器相关联的计算设备，该计算设备包括用于将该三维空间中该校准对象上的点的真实深度值与该深度传感器测量的深度值进行比较、以及推导出描述真实深度值和由深度传感器测量的深度值之间的偏差的误差模型的重新校准引擎。

提供本发明内容以便以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提及的任何或所有缺点的实现。

附图说明

图1示出了目标识别、分析和跟踪系统的示例实施例。

图2示出了目标识别、分析和跟踪系统的进一步的示例实施例。

图3示出了可以在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。

图4是根据本技术的第一实施例校准深度传感器的流程图。

图5是捕捉设备的视野中的用户的图示。

图6是图5的用户的深度图像。

图7是根据本技术的第二实施例校准深度传感器的高级流程图。

图8是由深度传感器测量的样本点和相同样本点的真实确定深度的图。

图9是位于捕捉设备的视野中用户拿着校准对象的图示。

图10是校准对象的放大视图。

图11是校准对象的放大视图，示出了可由捕捉设备标识的参考点。

图12是显示给用户的校准对象的视图，具有用于在离该捕捉设备的特定深度处定位校准对象的目标。

图13是用于检测校准对象中的点的流程图。

图14是校准对象相对于深度相机的坐标系并相对于RGB相机的坐标系的平面的图示。

图15是用于将校准对象的平面中的点转换到RGB相机的参考帧，然后基于RGB相机测量的样本点来确定误差函数的流程图。

图16是从投影仪投影的光线的俯视图，该光线从样本点反射并入射到深度传感器上。

图17是如图16的俯视图，示出了深度光学器件中的误差和用于根据本技术的第三实施例确定该误差的方法。

图18是误差角度E的范围上的深度误差的图。

图19是跨视野的深度误差的图。

图20是由用于确定对象的点的真实深度的操作所测量的点，以及由深度传感器测量且以深度误差失真的相同点的图。

图21是示出图20的图中的失真的程度和位置的图。

图22示出包括从深度相机空间到世界空间的一般转换的视野，其中对未对准角度E进行了纠正。

图23示出根据本技术的第四实施例在两个不同位置处测量的刚性体上的两组点。

图24A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算设备的示例实施例。

图24B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算设备的另一示例实施例。

具体实施方式

现在将参考附图1-24B来描述本发明的技术的一般涉及用于校准深度相机的系统的各实施例。该系统一般获取深度相机和场景中的一个或多个对象之间的距离的客观测量，在本文中称为真实深度。然后该系统在一个或多个点处将真实深度测量与由深度相机提供的深度测量进行比较，并确定描述深度相机测量中的误差的误差函数。然后重新校准该深度相机以纠正该误差。到场景中的一个或多个对象的距离的客观测量可以通过各种系统和方法实现。下面描述这些系统和方法。

首先参考图1-3，用于实现本技术的硬件包括目标识别、分析，及跟踪系统10，该系统10可以被用来识别、分析和/或跟踪诸如用户18之类的人类目标。目标识别、分析和跟踪系统10的实施例包括用于执行游戏应用或其他应用的计算环境12。计算环境12可以包括硬件组件和/或软件组件，使得计算系统12可以用于执行诸如游戏应用和非游戏应用之类的应用。在一个实施例中，计算环境12可以包括诸如标准化处理器、专用处理器、微处理器等之类的处理器，该处理器可以执行存储在处理器可读存储设备上的用于执行在此所述的过程的指令。

系统10还包括捕捉设备20，该捕捉设备20用于捕捉与由捕捉设备所感测到的一个或多个用户和/或对象有关的图像和音频数据。在实施例中，捕捉设备20可以用于捕获与一个或多个用户的移动、姿势和话音相关的信息，所述信息被计算环境接收并且被用于呈现游戏应用或其他应用的各方面、与所述方面交互和/或控制所述方面。下面更详细地解释计算环境12和捕捉设备20的示例。

目标识别、分析和跟踪系统10的实施例可以连接到具有显示器14的音频/视觉设备16。设备16例如可以是可以向用户提供游戏或应用视觉和/或音频的电视机、监视器、高清晰度电视机(HDTV)等。例如，计算环境12可以包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，适配器可提供与游戏或其他应用相关联的音频/视觉信号。音频/视觉设备16可以从计算环境12接收音频/视觉信号，并且然后可以向用户18输出与该音频/视觉信号相关联的游戏或应用视觉和/或音频。根据一个实施例，音频/视觉设备16可以通过例如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等等连接到计算环境12。

在各实施例中，计算环境12、A/V设备16和捕捉设备20可以协作以在显示器14上呈现化身或屏幕上人物19。在各实施例中，化身19模仿用户18在现实世界空间中的移动，以使得用户18可以执行控制化身19在显示器14上的移动和动作的移动和姿势。

如图1和2所示，在一示例实施例中，在计算环境12上执行的应用可以是用户18可能正在玩的足球游戏。例如，计算环境12可以使用视听显示器14来提供采用由该用户控制的足球运动员形式的化身19的视觉表示。图1的实施例是根据本技术的可以在计算环境12上运行的许多不同应用中的一个。运行在计算环境12上的应用可以是各种其他游戏应用和非游戏应用。此外，系统10还可以用于将用户18移动解释成处于运行在计算环境12上的游戏或特定应用的领域之外的操作系统和/或应用控制。作为图2中示出的一个示例，用户可以滚动通过并且控制与呈现在显示器14上的各种菜单选项的交互。事实上，操作系统和/或应用的任何可控方面都可以由用户18的移动来控制。

系统10及其组件的适合的示例在以下共同待决的专利申请中找到，所有这些专利申请都特此通过引用并入本申请：于2009年5月29日提交的名称为“Environment And/Or Target Segmentation(环境和/或目标分割)”的美国专利申请序列号12/475,094；于2009年7月29日提交的名称为“Auto Generating a Visual Representation(自动生成视觉表示)”的美国专利申请序列号12/511,850；于2009年5月29日提交的名称为“Gesture Tool(姿势工具)”的美国专利申请序列号12/474,655；于2009年10月21日提交的名称为“Pose Tracking Pipeline(姿态跟踪流水线)”的美国专利申请序列号12/603,437；于2009年5月29日提交的名称为“Device for Identifying and Tracking Multiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”的美国专利申请序列号12/475,308；于2009年10月7日提交的名称为“Human Tracking System(人类跟踪系统)”的美国专利申请序列号12/575,388；于2009年4月13日提交的名称为“Gesture Recognizer System Architecture(姿势识别器系统架构)”的美国专利申请序列号12/422,661；于2009年2月23日提交的名称为“Standard Gestures(标准姿势)”的美国专利申请序列号12/391,150；以及于2009年5月29日提交的名称为“Gesture Tool(姿势工具)”的美国专利申请序列号12/474,655。

图3示出了可以在目标识别、分析和跟踪系统10中使用的捕捉设备20的示例实施例。在一个示例性实施例中，捕捉设备20可以被配置为经由任何合适的技术来捕捉具有可以包括深度值的深度图像的视频，这些技术包括例如飞行时间、结构化光、立体图像等等。根据一个实施例，捕捉设备20可将所计算的深度信息组织为“Z层”，即与从深度相机沿其视线延伸的Z轴垂直的层。

如图3所示，捕捉设备20可以包括图像相机组件22。根据一个示例实施例，图像相机组件22可以是可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的、所捕捉的场景中的对象距相机的长度或距离。

如图3所示，根据一示例实施例，图像相机组件22可包括可用于捕捉场景的深度图像的IR光组件24、三维深度相机26、和RGB相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件24可以将红外光发射到场景上，然后，可以使用传感器(未示出)，用例如三维相机26和/或RGB相机28，来检测从场景中的一个或多个目标和物体的表面反向散射的光。

在某些实施例中，可以使用脉冲红外光，使得可以测量出射光脉冲和相应的入射光脉冲之间的时间差并将其用于确定从捕捉设备20到场景中的目标或物体上的特定位置的物理距离。附加地，在其他示例性实施例中，可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用该相移来确定从捕捉设备20到目标或物体上特定位置的物理距离。

根据另一示例实施例，可使用飞行时间分析，通过经由包括例如快门式光脉冲成像在内的各种技术来随时间分析反射光束的强度以间接地确定从捕捉设备20到目标或物体上的特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即被显示成诸如网格图案或条纹图案的已知图案的光)可以通过例如IR光组件24被投影到场景上。在落到场景中的一个或多个目标或物体的表面上时，作为响应，图案可变形。图案的这样的变形可以被例如三维相机26和/或RGB相机28捕捉，然后可以被分析以确定从捕捉设备20到目标或物体上的特定位置的物理距离。

根据另一实施例，捕捉设备20可包括可以从不同的角度观察场景的两个或更多个在物理上分开的相机，以获取可以被解析以生成深度信息的视觉立体数据。在另一示例实施例中，捕捉设备20可使用点云数据(point cloud data)和目标数字化技术来检测用户的特征。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的换能器或传感器。根据一个实施例，话筒30可以被用来减少目标识别、分析及跟踪系统10中的捕捉设备20和计算环境12之间的反馈。另外，话筒30可用于接收也可由用户提供的音频信号，以控制可由计算环境12执行的诸如游戏应用、非游戏应用等应用。

在一示例实施例中，捕捉设备20还可以包括可与图像相机组件22进行可操作的通信的处理器32。处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令可包括用于接收深度图像的指令、用于确定合适的目标是否可被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。

捕捉设备20还可以包括存储器组件34，该存储器组件34可以存储可以由处理器32执行的指令，由三维相机或RGB相机捕捉到的图像或图像的帧，或任何其他合适的信息、图像等等。根据一个示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图3所示，在一个实施例中，存储器组件34可以是与图像相机组件22和处理器32通信的单独的组件。根据另一实施例，存储器组件34可以集成到处理器32和/或图像相机组件22中。

如图3所示，捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网线缆连接之类的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接之类的无线连接。根据一个实施例，计算环境12可以经由通信链路36向捕捉设备20提供时钟，可以使用该时钟来确定何时捕捉例如场景。

另外，捕捉设备20可以通过通信链路36向计算环境12提供深度信息和由例如三维相机26和/或RGB相机28捕捉到的图像，以及可以由捕捉设备20生成的骨架模型。存在用于判断由捕捉设备20检测到的目标或对象是否与人类目标相对应的各种已知技术。骨架映射技术因而可用于确定该用户的骨架上的各个点，手、腕、肘、膝、鼻、踝、肩的关节，以及骨盆与脊椎相交之处。其他技术包括将图像转换为人的人体模型表示以及将图像转换为人的网格模型表示。

然后，可以将骨架模型提供给计算环境12，使得计算环境可以执行各种动作。计算环境还可基于例如从骨架模型中识别出的用户的姿势来确定在计算机环境上执行的应用中要执行哪些控制。例如，如图3所示，计算环境12可包括用于确定用户何时执行了预定义姿势的姿势识别引擎190。在上面并入的申请中描述了姿势识别引擎190的各种实施例。依照本系统，计算设备12还可包括深度重新校准引擎194，用于独立于深度相机26提供的深度值来确定视野(FOV)中的一个或多个对象的深度的真实度量，然后重新校准深度相机26以补偿任何偏差。下面描述深度重新校准引擎194的各种实施例。

如在背景技术部分提到的，三维深度相机26可能失去其校准从而该相机所进行的深度测量不精确的情况可能发生。不精确的深度测量可能有几种影响。在用于游戏系统的深度相机的情况中，这样的误差可能使得用户看上去比他真正所在的更近或更远。或者，用户可看上去比他的实际高度更矮或更高。或者，该深度可使用户在任一轴上变宽，以及使用户在任一轴上倾斜和变形。类似这种的情况可能很容易使软件达到其极限。例如，如果软件限于支持至少特定高度的用户，则被不恰当地确定为比该高度更矮的用户将不会被软件识别出。同样的情况可能在软件能力的相反极限处对高用户发生。深度相机26的不恰当的校准可能导致各种其他误差、失真和复杂化。

大体而言，本系统因此包括用于为FOV中的一个或多个对象确定真实深度测量的深度重新校准引擎194。然后深度重新校准引擎194可重新校准深度相机26(也称为深度传感器)以补偿任何深度失真。在直接的实施例中，可简单地将深度传感器调整到由深度重新校准引擎194确定的真实深度。在进一步的实施例中，可开发更复杂的数学模式来对深度误差进行建模。然后由重新校准引擎194执行的重新校准可通过最小化深度误差来纠正所测量的深度。下面阐述深度重新校准引擎194的操作的各种实施例。

在参考图4-6描述的第一实施例中，深度重新校准引擎通过用户输入他或她的高度，然后确定所测量的像素高度(或臂展)是否与这个高度相关来操作。首先参考图4的流程图，在步骤200中，重新校准引擎194检测不正确的深度数据可能导致的问题。如果引擎194没有检测到这样的问题，则该系统接下来在步骤204中检查用户是否指示执行重新校准操作的愿望。如果在步骤200中检测到问题，或者如果在步骤204中用户请求进入重新校准模式，则重新校准引擎194执行深度相机26的重新校准操作。

在步骤208中，重新校准引擎194基于深度相机26的深度测量和所测量的深度图像中的像素数来计算用户的高度。具体而言，提示用户站到捕捉设备20的前面，如例如图5中所示。然后可通过阈值处理来从11位灰度级VGA深度图确定沿y轴的像素数。然后在多个帧上取该数据，并将其平均以确定在沿y轴的用户高度中的正确的像素数。在一些实施例中，还可提示用户向外伸开他们的手臂，如图5所示并如下面所解释的。

在从相机26测量的每个距离处，在深度图像(在图6中示出)中沿着y轴中的像素数和用户的高度之间存在已知相关。例如，在2.5m处，该系统预计175cm的人沿着y轴占据411个像素。因此，步骤208基于所测量的深度和用户的深度图像中沿y轴的像素数来计算用户的预计高度。如同下面所解释的，该系统可替代地或附加地测量用户的“臂展”，即在用户伸展开的两臂的指尖之间沿x轴的所测量的距离。

在步骤210中，然后重新校准引擎194可提示用户输入他或她的高度。在进一步实施例中，提示用户输入高度的步骤可在步骤208之前进行。该系统可经由NUI系统10通过各种方法提示用户输入他的高度。例如，显示器14可具有带有高度显示范围的虚拟轮或其他虚拟指示器。用户可挥动他或她的手或执行姿势识别引擎190识别出的某种其他预定姿势，直到适当的高度被显示。然后用户可经由另一姿势选择那个高度。或者，用户可口头输入他们的高度。

在步骤214中，重新校准引擎确定在步骤208中测量的传感器高度与用户在步骤210中输入的真实高度相匹配。如果高度在一定容差内相匹配，则不需要重新校准(步骤218)，且重新校准引擎194结束。另一方面，如果存在高于某个预定容差的差别，则重新校准引擎基于所输入的高度以及深度图像中沿y轴的像素数来确定用户会站立的距离。然后可在步骤224中将像素和高度之间的已知关系纠正为新的关系以重新校准相机26的深度测量。在实施例中，可以使用单个样本来执行步骤208到220。或者，可提示用户站立在多种不同距离处，以便该系统可具有更多用来调整y轴像素和高度之间的关系的数据。

可能发生捕捉设备难以确定图像中用户的脚的位置(这是确定图像中的最低像素和沿y轴的总像素数所必需的)。即便在沿y轴的像素数清楚时，可能期望提供对所测量的值的确认。相应地，附加于或替代于使用图6的深度图像中沿y轴的像素数，重新校准引擎194可使用在用户伸展开的两臂的指尖之间的沿x轴的像素数。使用所测量的臂展，以及臂展和在每个深度距离处对臂展所测量的像素数之间的已知相关，该系统可确定深度距离，如上面步骤208中所描述的。在步骤210中可以通过用户提供其高度来确定真实臂展。使用高度和臂展之间的已知相关，然后可确定用户的臂展。例如，一个已知相关可以是：臂展＝0.95(高度)。然后如上所述在步骤214中该系统可将所测量的距离与确定的距离进行比较。

在上面描述的实施例中，用于校准深度相机26的对象是用户自己的身体。在进一步的实施例中，为了重新校准的目的，可以使用除了用户的身体之外的对象来执行步骤208到224。只要该对象是固定尺度(该尺度对于计算设备12是已知的)的，该系统就能确定在每个距离处在对象尺度和该对象在深度图中沿x轴和/或y轴应当占据的像素数之间的已知关系。该对象可以例如是一张81/2×11的纸。或者，该对象可以是装备有系统10的特定校准对象。下面描述这样的校准对象的示例。

如所指出的，重新校准引擎194可以通过各种不同方法工作。在一组实施例中，重新校准引擎194依赖对深度相机误差进行建模，然后使用对象来推断由深度相机测量的深度特性和由各种方法和系统中之一测量的真实深度特性之间的关系。本文所使用的“传感器深度”是指由深度相机(该深度相机可能需要校准)测量的深度特性，而“真实深度”是指由客观标准测量和/或计算的正确深度。取决于深度相机误差的性质和复杂度，以及实现给定技术的可行性，存在各种可用于解决该问题并对深度误差建模的技术。

一组技术利用获得固定大小对象的多个传感器深度读数，其中通过某种方法，在查询该传感器深度的同时，能够获得该对象的真实深度测量。然后通过将这些点拟合到对该相机已知的误差模型来将该传感器深度与真实深度相关，由重新校准引擎194实现校准。本技术不限制此模型的复杂度；它仅要求获取足够多的样本来通过所收集的点拟合该模型。存在多种计算真实深度的方式。下面解释的一些示例使用固定大小对象用于校准，其中该对象的大小是已知的。下面解释的另一示例使用固定大小对象用于校准，其中该固定对象的大小不是已知的。

重新校准引擎194的一种用于建模和补偿相机误差的技术使用已知大小的固定对象和RGB单应性。参考图7的流程图，一般而言，本技术开始于在步骤230中对深度相机的误差进行数学建模。在步骤234中，然后本技术检测已知大小的固定校准对象上的特征点，该对象可以例如是在本文中被称为“校准卡”的卡。然后本技术在步骤236中使用单应性计算该校准卡的真实深度。然后在步骤238中将该真实深度与由该深度相机获取的传感器深度读数相关。下面提供这些步骤的进一步的细节。

在本示例中，该过程开始于在步骤230中对误差进行数学建模。对于给定捕捉设备20，使用用两个变量alpha(α)和beta(β)来描述误差的线性模型来估算该误差是可能的，其中：

Z_{传感器深度}＝α(Z_真实深度)-β。 (1)

图8展示了线性误差读数，其中在各种距离处测量该传感器深度并将其与真实深度相比较。β分量表示传感器深度和真实深度相等处的深度(相交点)，而α表示线的斜率。通过计算这两个值，通过逆转该误差，传入的传感器深度可被转换成真实深度。

所示示例使用线性误差函数，因为线性误差函数减少了用户获取不同点处的深度测量所需的工作量，并将深度相机26校准到可接受的水平。然而，要理解，可替代地使用更复杂的且非线性的误差函数。

关于在步骤234中对校准卡中的特征点的检测，RGB单应性方法需要一组图像特征点，其中可对所述图像特征点获取真实世界测量。在图9中示出用户18拿着校准卡150形式的校准对象的示例，而在图10中示出了校准对象150的放大视图。如图11中所示，校准卡150具有16个特征点152，每个特征点在卡150中不同着色的区域的边界的交叉点处。校准卡150也可具有用户引导图像154，在所示示例中图像154是脸的形状。下面解释用户引导图像154的用途。这些图中示出的校准卡150仅仅是可使用的校准对象的一个示例。在进一步的实施例中，校准对象可以是具有用于下面描述的用途的各种其他特征点的卡或其他对象。卡的大小和特征点之间的距离可以是已知的。用户引导图像156可以是其他图像对象，或者可以被省略。

尽管存在用于使用捕捉设备20寻找特征点152的已知技术，可以使用样本特征点算法来标识在不同深度测量处的特征点。参考图13的流程图描述了样本特征点算法的操作的示例。样本特征点算法的一个好处是使用户很容易提供样本，以及它的稳健性。在步骤250中，提示用户在离捕捉设备20给定距离处拿着校准卡150。在一个示例中，计算设备12可在显示器14上显示一副眼镜156，如图12中所示。眼镜156可包括一对间隔开给定距离的圆形目标158。

在屏幕上显示了包括用户引导图像154的校准卡150的图像。用户引导图像154的大小将取决于卡150被放置得离捕捉设备20有多远。在用户离得远的情况下，所显示的卡将相对较小，而用户引导图像154的双眼将相对更靠近。相反，在用户离得近的情况下，所显示的卡将相对较大，而用户引导图像154的双眼将相对更远离。用户被要求将来自用户引导图像154的双眼粗略地适合于两个目标158中，如图12中所示。基于对给定样本该卡离该捕捉设备的所需距离，对于不同样本，显示器14上显示的眼镜156的大小将变化。因此，目标158之间的间隔将大体指定将卡150拿得离捕捉设备20多近或多远。

通过调整该目标的大小，迫使用户在不同“距离桶”处拿着该卡。用户被要求在若干大致距离处拿着该卡，例如，在1.4m、1.7m、2.1m和2.5m处(如果用户有那么大的房间的话)。具有更多的桶产生更准确的校准，但不是强制性的。用户引导图像154和目标158仅仅是用于简单地提示用户将该校准卡放置在离捕捉设备20大致的距离处的方法的一个示例。应当理解，可以使用各种各样的提示用户18将校准卡150放置在离捕捉设备20的不同距离处的其他方法。不严格要求距离是精确的。该方法仅提供不同距离测量。

对于一采样，一旦校准卡被放置在给定距离处，在步骤254中，由RGB相机28捕捉的校准卡的图像被转换成亮度图像以进行处理。然后在步骤258中可对该亮度图像进行取阈处理以在步骤258中将白色与黑色分离。在Nobuyuki Otsu的名称为“A threshold selection method from gray-level histograms(从灰度级直方图的阈值选择方法)”IEEE Trans.Sys.，Man.，Cyber.(IEEE系统、人、控制论会刊)9：62-66.(1979)的出版物中公开了一种对黑色和白色进行阈值处理的方法，该公开物通过被引用而整体上合并于此。本技术允许该算法更独立于光照，具体而言是边缘检测的行为，但是也可以使用其他算法将转换后的RGB亮度图像中的白色与黑色分开。

在来自用户引导图像154的眼睛在目标158内对准的情况下，在步骤262中在该眼镜内部的区域上运行圆形寻找算法以确定目标158内眼睛的位置。可以使用圆形寻找算法，诸如Hough变换，诸如在Hough的名称为“Method And Means For Recognizing Complex Patterns(识别复杂图案的方法和手段)”的美国专利3,069,654中所描述的，该专利通过被引用而整体上结合于此。可使用其他圆形寻找算法。当在用户引导图像154中使用其他图像时，可以类似地用已知算法标识出这些形状。眼睛在亮度图空间中的位置提供了对校准卡150的位置和距离的估算。这允许对特征检测的引导，使其更稳健。具体而言，给定了眼睛方案，在亮度图像空间中估算该卡的大小和位置。

对于每个校准卡边界边缘，在步骤264中可以检测线，例如通过在预计这些边缘所在的窗口中运行线检测器算法。在本示例的校准卡150中，这一步骤生成8条线。该算法确认所找到的8条线包含4条水平线和4条竖直线。接下来在步骤268中该算法使4条水平线和4条竖直线彼此相交以生成16个点。

对这16个点的标识生成该卡所在位置的估算。在步骤270中该算法可使用模板匹配来复核以寻找假肯定。通过卡的位置/大小的估算，执行检查以确认这些像素在它们预计所在的地方是黑色/白色的。如果这超过了阈值，这些特征点被认为有效并被传递到单应性算法，从该单应性算法可以计算出该卡的中心的真实深度值，以及误差值。下面描述单应性算法。

使用上述技术以及单应性算法，可以计算出alpha和beta以执行深度纠正。图13的步骤250到270提供一定数量的深度桶，每个深度桶包含一小组真实/传感器深度对。如下面所解释的，可使这些点集合通过最小平方线拟合(least square line fit)以生成对误差的线性估算。从此线中提取alpha和beta分量，并使用该alpha和beta分量来将传感器深度转换为真实深度，从而校准该相机。

一般而言，单应性算法执行从校准卡150的点所在的参考平面到深度相机26和RGB相机28的参考系的变换。图14中示出了这些不同的几何关系。假定该平面坐标系的z平面与校准卡150的平面重合。用M＝[X；Y；0]^T表示该平面上的点，其中z分量等于0。该平面坐标系通过旋转R和平移t而与RGB相机坐标系相关，而RGB相机坐标系中的点M由下式给出：

点M被投影到m＝[u；v]^T处的图像平面。RGB相机28坐标系通过旋转R_D和平移t_D与深度相机26坐标系相关，而RGB相机坐标系中的点M由下式给出：

这里，R_D和t_D是在捕捉设备20的制造时确定的，并假定它们不变。

给出了这些定义，就可以遵循图15中所示的各步骤来执行深度相机26的重新校准。具体而言，给定校准卡150的平面上的一组已知点{M_i}(至少4个)，以及由深度相机26提供的它们的所测量的深度值其中“ˇ”用于表示测量传感器深度值，通过检测校准卡150的图像平面中的相应点(用{mi}表示) 的步骤276可以执行重新校准。在步骤280中，该单应性算法确定{M_i}和{m_i}之间的单应性矩阵H。在步骤282中，该单应性算法从H确定旋转和平移(R，t)。在步骤286中，该算法使用等式(3)计算深度相机28坐标系中的坐标{M_i}(用{M_Di}表示)。并且在步骤288中，从{Z_Di}和确定α和β以用于等式(1)的误差函数({Z_Di}是M_Di的z分量)。下面阐述这些校准步骤的数学支持。

可以关于单个平面(例如，校准卡150的平面)检验对深度相机的固有参数的约束。该平面上的2D点由m＝[u；v]^T表示。该平面上的3D点由M＝[X；Y；Z]^T表示。通过添加1作为最后一个元素，可使用来表示扩充的向量：以及通过常见的针孔对相机建模：3D点M和它的图像投影m之间的关系由下式给出：

其中s是任意缩放因子；(R，t)(称为非固有参数)是使世界坐标系与相机坐标系相关的旋转和平移；而A(称为相机固有矩阵)由下式给出：

A = [\begin{matrix} α_{u} & α_{u} \cot θ & u_{0} \\ 0 & α_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}]

其中(u₀；v₀)是主点(principal point)的坐标，α_u和α_v是图像u和v轴的缩放因子，而θ是描述这两个图像轴的角度的参数(通常非常接近90)。用缩写A^-T表示(A^-1)^T或(A^T)^-1。

至于模型平面及其图像之间的单应性，可以假定该模型平面在世界坐标系的Z＝0上。旋转矩阵R的第i列可以由r₁表示。因此从(4)得出：

s [\begin{matrix} u \\ v \\ 1 \end{matrix}] = A [\begin{matrix} r_{1} & r_{2} & r_{3} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 0 \\ 1 \end{matrix}]

= A [\begin{matrix} r_{1} & r_{2} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}]

M仍被用于表示该模型平面上的点，而M＝[X，Y]^T，因为Z总是等于0。进而，因此，单应性H使模型点M和它的图像m相关：

s \tilde{m} = H \tilde{M},

其中H＝A[r₁r₂t] (5)

该3×3矩阵H被定义为相当于一缩放因子。

使用以上方法，可以以各种方式估算模型平面和它的图像之间的单应性。一种技术可以基于最大似然性标准。令M_i和m_i分别为模型点和图像点。理想情况下，它们应当满足(5)。在实践中，由于所提取的图像点中的噪声，它们可能不满足(5)。如果假定m_i被具有平均值0和协方差矩阵Λm_i的高斯噪声破坏。那么，通过最小化以下函数来获得H的最大似然性估算

Σ_{i} {(m_{i} - {\hat{m}}_{i})}^{T} Λ_{m_{i}}^{- 1} (m_{i} - {\hat{m}}_{i}),

其中

{\hat{m}}_{i} = \frac{1}{{\overset{&OverBar;}{h}}_{3}^{T} M_{i}} [\begin{matrix} {\overset{&OverBar;}{h}}_{1}^{T} M_{i} \\ {\overset{&OverBar;}{h}}_{2}^{T} M_{i} \end{matrix}]

其中是H的第i行。

在实践中，假定对于所有的i，Λm_i＝σ²l。如果用相同的过程独立地提取点，那么这是合理的。在此情况下，上面的问题变成非线性最小二乘问题，即用如在Minpack中实现的Levenberg-Marquardt算法进行非线性最小化。例如，参考J.More的出版物“The Levenberg-Marquardt Algorithm，Implementation and Theory(Levenberg-Marquardt算法，实现和理论)”，Numerical Analysis(数字分析)，数学讲稿第630页，Springer-Verlag(1977)，该出版物通过被引用而被完全合并于此。

这种非线性最小化需要初始猜测，可以以如下方式获得该初始猜测。令

x = {[{\overset{&OverBar;}{h}}_{1}^{T}, {\overset{&OverBar;}{h}}_{2}^{T}, {\overset{&OverBar;}{h}}_{3}^{T}]}^{T} .

则等式(5)可被重写成：

[\begin{matrix} {\tilde{M}}^{T} & O^{T} & - u {\tilde{M}}^{T} \\ O^{T} & {\tilde{M}}^{T} & - v {\tilde{M}}^{T} \end{matrix}] x = 0

在存在n个点的情况下，存在n个上述等式，它们可以以矩阵等式写成Lx＝0，其中L是2n×9的矩阵。因为x被定义为相当于一缩放因子，众所周知，解是与最小奇异值相关联的L的右奇异向量(或相等地，与最小本征值相关联的L^TL的本征向量)。

在L中，某些元素是常数1，某些是按像素计算的，某些是按世界坐标计算的，而某些是两者的相乘。这使得L在数字上状况不好。通过执行简单的数据规格化，可以获得替代结果，例如，可将图像坐标规格化到范围(-1，1)，而使用与平面大小可比的适当单位，该平面上的点的坐标也可以在范围(-1，1)中。

上述方法可用来从单应性确定旋转和平移。一旦获得H，因为相机A的固有参数是已知的，所以从(5)得到的结果为：

r₁＝λA^-1h₁ (6)

r₂＝λA^-1h₂ (7)

r₃＝r₁×r₂ (8)

t＝λA^-1h₃ (9)

其中λ＝1/||A^-1h₁||＝1/||A^-1h₂||。由于该数据中的噪声，如此计算出的矩阵Q＝[r₁，r₂，r₃]一般而言不满足旋转矩阵的特性。

下面考虑的问题是求解最佳旋转矩阵R来近似给定的3×3矩阵Q。这里，“最佳”是在差R-Q的最小Frobenius范数的意义上的。即，解决的是以下问题：

\min_{R} {| | R - Q | |}_{F}^{2}

服从于R^TR＝I (10)

因为

{| | R - Q | |}_{F}^{2} = trace ({(R - Q)}^{T} (R - Q))

= 3 + trace (Q^{T} Q) - 2 trace (R^{T} Q),

问题(10)等于最大化trace(R^TQ)的问题。

令Q的奇异值分解为USV^T，其中S＝diag(σ₁，σ₂，σ₃)。如果Z＝V^TR^TU的正交矩阵Z被定义，则

trace (R^{T} Q) = trace (R^{T} {USV}^{T}) = trace (V^{T} R^{T} US)

= trace (ZS) = Σ_{i = 1}^{3} z_{ii} σ_{i} \leq Σ_{i = 1}^{3} σ_{i} .

通过设定R＝UV^T实现最大值，因为那时Z＝I。这给出了(10)的解。

在以上各段中，通过对单应性矩阵的估算对旋转和平移进行了估算。通过最大似然性推断可以精炼这种估算。假定图像点m_i被具有平均值0和协方差矩阵Λm_i的高斯噪声破坏。那么，通过最小化以下函数能够获得(R，t)的最大似然性估算

Σ_{i} {(m_{i} - \hat{m} (R, t, M_{i}))}^{T} Λ_{m_{i}}^{- 1} (m_{i} - \hat{m} (R, t, M_{i})) - - - (11)

其中根据等式(5)，是点M_i在该图像平面上的投影。旋转R是由3个参数的向量(用r表示)来参数化的，其中r平行于旋转轴且其大小等于旋转角。通过Rodrigues形式(Rodrigues formal)使R和r相关。例如，参考Z.Zhang等人的出版物“3D Dynamic Scene Analysis：A Stereo Based Approach(3D动态场景分析：基于立体的方法)”Springer，Berlin，Heidelberg(1992)”。最小化(11)是非线性最小化问题，用如在Minpack中实现的Levenberg-Marquardt算法解决，如同上面所描述的。

由重新校准引擎194所执行的另一种为重新校准目的而确定误差模型的方法被称为“屏幕空间测量”，现在参考图16-22对其进行描述。一般而言，屏幕空间测量观看对象(诸如上面讨论的校准对象150)上的点，并确定所测量的深度值从真实深度值偏差的程度。然后本技术试图定义解释该偏差的误差模型。这种技术将测量误差的两种影响纳入考量：缩放，其等同地影响所有维度并且与空间中的位置无关，以及空间失真，其是描绘对空间坐标中的一个或多个坐标的依赖性的缩放。理想的系统的缩放因子为1且没有空间失真。在实践中，深度测量误差导致该系统不同于理想系统。

图16是示出投影仪和成像设备的俯视图，该投影仪可以例如是IR光组件24，该成像设备可以例如是深度相机26。像素(P)的深度(Z)由投影仪24和成像设备26之间的距离S以及角度A和B确定。图16是从相机视野上方的平面视图。来自该投影仪的光在点P被对象反射，然后入射到该成像设备上。基于图案识别和该视野中像素的位置，角度A和B可以与所投影的图像和该成像设备相关。对于该深度成像设备，距离S是常数。从图16可以得出以下三角关系：

\tan (A) = \frac{Z}{X + S}

\tan (B) = \frac{Z}{X}

\frac{Z}{\tan (B)} = \frac{Z}{\tan (A)} - S

S = \frac{Z}{\tan (A)} - \frac{Z}{\tan (B)}

Z = \frac{S}{[\frac{1}{\tan (A)} - \frac{1}{\tan (B)}]}

如所指出的，在从上到下的平面视图中，相对于系统被校准时它的位置，可能由于该投影仪的角度漂移将深度误差引入系统。这种漂移会导致该投影仪和该成像设备的光学轴相对于它们的校准后的位置的未对准。在图16中，校准后的深度成像设备将点P处的对象的深度报告为传感器深度。

如果在校准之后，该投影仪偏移角度E，则入射到点P’上的所投影的图案的同一光线会沿着与之前校准的情况相同的路径返回，导致所报告的深度等于校准的情况中的点P。因此，在校准后漂移之后，位于真实深度等于Zactual且水平方向上在维度Xactual处的点P’的深度被报告为Zreported和Xreported。P和P’之间的差是所得到的报告误差。

使用两个角度(B和A-E)之间的之前的关系以及深度Z，可以证明下式：

\frac{Z}{\tan (B)} = \frac{Z}{\tan (A)} - S

\tan (A) = \frac{Zreported}{\frac{Zreported}{\tan (B)} + S}

\tan (A) = \frac{Zreported \tan (B)}{Zreported + S \tan (B)}

Zactual = \frac{S}{\frac{1}{\tan (A - E)} - \frac{1}{\tan (B)}}

为两个角度的差的正切和代数应用三角恒等式，则此公式简化为：

\tan (A - E) = \frac{\tan (A) \tan (E)}{1 + \tan (A) \tan (E)}

Zactual = S \frac{[Zreported * (\tan (B) - \tan (E)) - S \tan (B) \tan (E)]}{Zreported [(\tan (B) \tan (E) + \frac{\tan (E)}{\tan (B)}] + S [\tan (B) + \tan (E)]}

Zactual = \frac{ZreportedS [1 - \tan (E) \cot an (B)] - S^{2} \tan (E)}{Zreported \tan (E) [1 + {\cot an}^{2} (B)] + S [1 + \tan (E) \cot an (B)]}

对Zreported求解并将tan(B)因子移到每一项的分母：

Zreported = \frac{[Zactual [\tan (B) + \tan (E)] + S [\tan (B) \tan (E)]]}{\tan (B) - \tan (E) - \frac{Zactual}{S} [\tan (B) \tan (E) + \frac{\tan (E)}{\tan (B)}]}

Zreported = \frac{Zactual [1 + \tan (E) \cot an (B)] + S \tan (E)}{1 - \tan (E) \cot an (B) - \frac{Zactual \tan (E)}{S} [1 + {\cot an}^{2} (B)]}

从成像设备上的像素位置得出角度B，其是真实世界坐标系中的X和Z的函数。在捕捉设备20的一个示例中，S是75mm的常数，而E是校准后该成像设备和投影仪之间的相对角度偏移。正的E值对应于该投影仪朝着该成像设备“前束(toe-in)”，负的E值对应于“后束(toe-out)”。

当针对各种状况检查深度误差测量的行为时，报告深度中的误差按相同比例影响从深度图空间到世界空间的X和Y变换。可以观察到，深度中的误差跨越范围(Zactual)或FOV(B)不是恒定的，而实际上是一种非线性关系。然而，对于非常小的角度偏移，即，一度的几分之一，所得到的误差作为范围的函数是非常接近线性的。图18的图表描绘了对于从0.02°到0.12°的角度E的各种值，在捕捉设备20的指定范围内的中心片范围误差(center-tile range error)中的变化。

图19展示了在固定距离为3.5m、误差角度E＝0.12°处，深度误差跨该成像设备的FOV的变化。该误差在该FOV的中心最小，并且在极端边缘处增大近50％。还要注意的是由于该投影仪位于该成像设备的一侧的偏置而导致的跨该FOV的不对称性，这在数学中表现为角度A的不对称范围。

深度为Z的成像设备像素(Px，Py)到世界坐标(X，Y，Z)的一般化变换是如下形式的：

X (Px, Z) = Z [\frac{2 Px}{Nx} - 1] \tan (\frac{FOVx}{2})

Y (Py, Z) = Z [\frac{2 Py}{Ny} - 1] \tan (\frac{FOVy}{2})

在这些变换式中Nx是定义横跨该FOV的像素数的常数，而FOVx是Z-X平面中的角度视野；类似的定义适用于Ny和FOVy。如果深度测量误差独立于真实世界空间坐标，则X、Y和Z的灵敏度将都相等，且因此在该变换中没有空间失真，只有缩放。如同早先示出的，对于测量误差是由于光学元件的未对准而导致的情况，该深度误差是Z和X坐标两者的函数，且因此可以预计因而会有一定量的空间失真。

使用未对准对深度测量的影响的一般化表示，可对所得到的空间失真进行建模。图20将在Z-X平面旋转后的对象的实际位置和所报告的位置进行了比较，该图表是Z轴(深度)和X轴(水平维度)的图。实际路径是围绕离深度传感器26的距离为2m的点的500mm半径；传感器26具有建模后的误差角度E＝0.12°。在此情况下在3.5m处的深度误差大约为10.8％。该圆看上去略微更宽，并且更远离传感器，略呈椭圆形而非圆形，而且还在一定程度上不对称。

在本示例中该圆的平均的报告的半径是545mm，所报告的圆的不圆度 (out-of-roundness)范围是+4.5％到-2.6％，然而，值得注意，更大的失真位于该圆的最后部范围。如果只对该圆的朝前的部分进行评估，则失真的范围被减少到+1.4％和-2.6％。这可以在下面的图21的图中看到。应当理解，图16-21的图示、图和图表仅仅作为示例，且在进一步的实施例中可以变化。

如果能够在工厂处将传感器校准到最小失真水平，而且如果能够假定现场中失真的主要原因是来自环境和使用因素(诸如温度、掉落产生的震动、以及老化)的光学未对准，那么有可能通过注记贯穿整个游戏空间对象的所测量的大小如何变化来实现现场(in-field)补偿。

在图20中示出的前一空间失真示例中，在更大深度处与在更近深度处相比圆的大小显得更大。在对固定对象的长度执行骨架跟踪的过程中，如果观察到例如前臂在近距离处缩短而在较远距离处变长，则可向该深度信息添加补偿计算步骤以抵消前束(toe-in)状况的影响。如果这一步骤是用对E具有全局参数值的一般化形式实现的，该算法可响应于对象在前景中是显得相对较大还是较小来依次地尝试E的更大或更小的值。可限制可能的E值的范围以表示在该现场中可预计的。例如，步进为0.02°、从-0.12°到+0.12°的范围将足以覆盖正常情况下我们会与在3.5m处的、±10％误差的相机相关联的误差范围。

以此方式，现场内补偿可以被实时执行并针对可能影响绝对准确度以及相对失真的各种状况进行修改。如果成功，相对失真和绝对准确度都改善。

参考图22和上面描述的图17，下文阐述了从深度相机空间到世界空间的一般化变换，其中对未对准角度E进行了纠正，基于如下定义：

·点(Px，Py，Zr)表示由该深度相机报告的深度像素

·像素空间的原点是对齐的(justified)左下角

·点(Xw，Yw，Zw)表示世界空间坐标中的深度像素

·E表示要补偿的未对准角度，是相对于光学轴测量的

·FOVx和FOVy是分别在ZX和ZY平面中的角度视野，其中Px和Py被投影在ZX和ZY平面中

·Nx和Ny分别是X和Y像素空间中的像素数

·S是将投影仪光学轴和成像设备光学轴分开的间距，在深度相机20的一个示例中该间距可以例如是75mm。

对于所报告的像素(Px，Py，Zr)，从像素空间到对象空间的变换是基于图22的几何形状的。对称性允许通过代入适当的常数来针对Yw推导出相同的表达式。

\frac{1}{2} Wx = Zr \tan (\frac{FOVx}{2})

\frac{Xw}{Wx} = \frac{Px - \frac{Nx}{2}}{Nx}

Xw = Zr [\frac{2 Px}{Nx} - 1] \tan (\frac{FOVx}{2})

为了将该变换表述为输入向量(Px，Py和Z)的函数，并注意到X轴的方向与用于得出三角函数中的角度B的方向相反，可以首先使用以下恒等式来重新表述角度B：

\cot an (B) = \frac{- Xr}{Zr} = \frac{- Zr [\frac{2 Px}{Nx} - 1] \tan (\frac{FOVx}{2})}{Zr}

\cot an (B) = [1 - \frac{2 Px}{Nx}] \tan (\frac{FOVx}{2})

从Zreported代入Zactual的一般变换：

Za (Px, Zr, E)

= \frac{ZrS [1 - \tan (E) [1 - \frac{2 Px}{Nx}] \tan (\frac{FOVx}{2})] - S^{2} \tan (E)}{Zr \tan (E) [1 + {[1 - \frac{2 Px}{Nx}]}^{2} \tan^{2} (\frac{FOVx}{2})] + S [1 + \tan (E) [1 - \frac{2 Px}{Nx}] \tan (\frac{FOVx}{2})]}

Xa (Px, Zr) = Za [\frac{2 Px}{Nx} - 1] \tan (\frac{FOVx}{2})

Ya (Py, Zr) = Za [\frac{2 Py}{Ny} - 1] \tan (\frac{FOVy}{2})

表1是在图22的示例中可用于捕捉设备20的参数的非限制性示例。

像素源	Nx	Ny	FOVx	FOVy
					IR	1280	960	57.796	45.053
IR	640	480	57.796	45.053
					IR	320	240	57.796	45.053
RGB	1280	1024	61.033	50.593

表1

在上面描述的实施例中，假定FOV中校准对象的大小是已知的。然而，在由重新校准引擎194执行的进一步的实施例中，该对象只需要是固定大小的，但是它的大小不需要是已知的。现在将参考图23描述一个这样的示例。此示例最小化真实世界距离变化，并通过观察相机深度中刚性物体的所报告的测量来操作。本方法仅依赖于深度测量，而不需要匹配已知的、校准后的图像(诸如RGB图像)中的测量。此对象可以是用户必须拿着的物品，诸如球、书等。或者，它可以是身体部位，诸如用户的肩、臂等。

大体而言，本方法基于如下事实：x，y，z空间中的刚性物体上的一对点之间的距离将是相同的，不管在视野内的什么地方测量这一对点。因此，可以在第一位置处测量固定对象上的一对点之间的距离，而可以在第二位置处测量该对象上的同一对点之间的距离。就距离在在第一位置处测量的点以及在第二位置处测量的相同的点之间变化而言，偏差可用于定义误差模型。

在本技术中，该对象必需具有可被测量的刚性特性(例如，球的半径、对象的长度等)，而样本是仅在物体移动穿过FOV时从深度图获取的。在不同深度和定向获取刚性对象的真实深度样本和传感器深度屏幕空间(x，y)样本对，以计算深度误差偏移。为了稳健性，可使用多对样本。而且当误差函数未知时，可以通过用如上所述的这种技术来确定视截锥体中的多个区域中的深度误差偏移来近似它。

使用这种技术，深度误差函数可被表征为：

Z_cam＝Z_real+a

其中a是在z_cam(Z_相机)采样深度处的深度误差偏移。现在参考图23，示出了两组样本(x1，y1，z1)/(x2，y1，z2)和(x3，y3，z3)/(x4，y4，z4)，其中(x，y)是深度图中的屏幕空间坐标而z是在(x，y)处的采样深度。如所指出的，每个样本可表示诸如球或身体部位的刚性对象上的两个点。这些样本可描述深度误差等式：

\begin{matrix} f^{2} {(z 2 - z 1)}^{2} + {(x 2 (z 2 - a) - x 1 (z 1 - a))}^{2} + \\ {(y 2 (z 2 - a) - y 1 (z 1 - a))}^{2} \end{matrix} = \begin{matrix} f^{2} {(z 4 - z 3)}^{2} + {(x 4 (z 4 - a) - x 3 (z 3 - a))}^{2} + \\ {(y 4 (z 4 - q) - y 3 (z 3 - a))}^{2} \end{matrix}

其中f是该深度图的以像素为单位的焦距，而a是误差系数。

上述二次等式的两个解是：

(2z1x1²-2x2z1x1-2x2z2x1+

2y1²z1-2y1y2z1+2x2²z2+2y2²z2-

2y1y2z2-2x3²z3-2y3²z3+2x3x4z3+

2y3y4z3-2x4²z4-2y4²z4+2x3x4z4+

2y3y4z4-√((-2z1x1²+2x2z1x1+

2x2z2x1-2y1²z1+2y1y2z1-

2x2²z2-2y2²z2+2y1y2z2+

2x3²z3+2y3²z3-2x3x4z3-

2y3y4z3+2x4²z4+2y4²z4-

2x3x4z4-2y3y4z4)²-

4(x1²-2x2x1+x2²-x3²-x4²+

a＝y1²+y2²-y3²-y4²+

2x3x4-2y1y2+2y3y4)

(z1²f²+z2²f²-z3²f²-z4²f²-

2z1z2f²+2z3z4f²+x1²z1²+

y1²z1²+x2²z2²+y2²z2²-

x3²z3²-y3²z3²-x4²z4²-y4²

z4²-2x1x2z1z2-2y1y2z1z2+

2x3x4z3z4+2y3y4z3z4)))/

(2(x1²-2x2x1+x2²-x3²-x4²+

y1²+y2²-y3²-

y4²+2x3x4-

2y1y2+2y3y4))

(2z1x1²-2x2z1x1-2x2z2x1+

2y1²z1-2y1y2z1+2x2²z2+2y2²z2-

2y1y2z2-2x3²z3-2y3²z3+2x3x4z3+

2y3y4z3-2x4²z4-2y4²z4+2x3x4z4+

2y3y4z4+√((--2z1x1²+2x2z1x1+

2x2z2x1-2y1²z1+2y1y2z1-

2x2²z2-2y2²z2+2y1y2z2+

2x3²z3+2y3²z3-2x3x4z3-

2y3y4z3+2x4²z4+2y4²z4-

2x3x4z4-2y3y4z4)²-

4(x1²-2x2x1+x2²-x3²-x4²+

a＝y1²+y2²-y3²-y4²+

2x3x4-2y1y2+2y3y4)

(z1²f²+z2²f²-z3²f²-z4²f²-

2z1z2f²+2z3z4f²+x1²z1²+

y1²z1²+x2²z2²+y2²z2²-

x3²z3²-y3²z3²-x4²z4²-y4²

z4²-2x1x2z1z2-2y1y2z1z2+

2x3x4z3z4+2y3y4z3z4)))/

(2(x1²-2x2x1+x2²-x3²-x4²+

y1²+y2²-y3²-

y4²+2x3x4-

2y1y2+2y3y4))

这些解中只有一个解，即第一个解，是有效的。在其中假定在FOV上误差是线性的的实施例中，可使用两条线，然后得出的误差系数a可以用于跨整个FOV对误差建模。在进一步实施例中，在跨越该视野的不同位置处使用刚性对象上的相同的两个点可定义任何数量的线。一旦获取了足够多的样本，通过搜索误差模型的系数的最优值来执行校准。被最小化的是某种可测量的刚性特性，诸如最小化所有这些样本的计算出的长度/半径和所有样本的平均长度/半径之间的方差。因为方差的最小化正比于深度失真，那么找到的值就被用于误差纠正函数以对深度进行去失真(un-distort)。

在其中误差函数太复杂而无法测量的情况下，使用上面参考图23所描述的技术可能不足够可行/准确。一种近似未定义的误差函数的方式是使用一组紧密邻近的样本对，并用具有单个项的函数来近似该误差。在本方法中，以与上面相同的方式对对象进行采样，并且对于彼此靠近的每对样本，执行对误差的简单近似。当从相机读取深度点时，选择并应用空间上最接近的纠正。

现在解释使用固定但是大小未知的校准对象来确定误差模型的一种进一步的方法。为了一般化，给定3D点，假定它的真实坐标x＝[x，y，z]^T和它的所测量的坐标x’＝[x’，y’，z’]^T通过具有参数p的函数g()而相关，即

x＝g(x’，p)

例如，如果我们使用简化模型z’＝α(z-β)，则p＝[α，β]^T，而上述向量等式变成：

\{\begin{matrix} x = x^{'} \\ y = y^{'} \\ z = \frac{x^{'}}{α} + β \end{matrix}

而且，可以假定点x’的不确定性(或不精确度)由3×3协方差矩阵Λ建模。现在，考虑由深度相机观察到的一对点，用(x′₁，x′₂)表示，具有协方差矩阵(Λ₁，Λ₂)。平方距离由下式给出：

L_{12}^{2} = {(x_{1} - x_{2})}^{T} (x_{1} - x_{2}) = {(g (x_{1}^{'}, p) - g (x_{2}^{'}, p))}^{T} (g (x_{1}^{'}, p) - g (x_{2}^{'}, p))

的方差可以由下式计算：

σ_{12}^{2} = \frac{{dL}_{12}^{2}^{T}}{d x_{1}^{'}} Λ_{1} \frac{{dL}_{12}^{2}}{d x_{1}^{'}} + \frac{{dL}_{12}^{2}^{T}}{d x_{2}^{'}} Λ_{2} \frac{{dL}_{12}^{2}}{d x_{2}^{'}}

其中

\frac{d L_{12}^{2}}{d x_{1}^{'}} = 2 \frac{dg (x_{1}^{'}, p)}{d x_{1}^{'}} (g (x_{1}^{'}, p) - g (x_{2}^{'}, p))

\frac{d L_{12}^{2}}{d x_{2}^{'}} = - 2 \frac{dg (x_{2}^{'}, p)}{d x_{2}^{'}} (g (x_{1}^{'}, p) - g (x_{2}^{'}, p)) - - - 30

通过深度相机在另一时间观察同一对点，用(x′₃，x′₄)表示，具有协方差矩阵(Λ₃，Λ₄)。和可以用与上面相同的方式计算。因为这是对同一对点的两个观察：

e = L_{12}^{2} - L_{34}^{2} = 0

在实践中，e不等于0，所以可以通过最小化e²来估算它的参数p。注意，一对点只提供一个约束，且只可估算一个参数。

对于运动之前和之后的N对点，通过最小化下述目标函数可以估算参数向量p：

\min_{p} Σ_{i = 1}^{N} e_{i}^{2} / v_{i}

其中 v_i是e_i的方差，由给出。这是非线性优化，可以使用例如Levenberg-Marquardt算法来完成。如果失真不大的化，初始猜测准备好可用了。使用简化模型z’＝α(z-β)，初始猜测将是α＝1和β＝0。

在上面的实施例中，真实深度和传感器深度之间的偏差是在若干个点处获取的，以定义模型，然后该模型可用于提供在由该捕捉设备捕捉的三维世界空间内的所有位置处的误差的度量。在实施例中，用于确定真实深度和传感器深度之间的偏差的样本点越多，该深度模型就可以越准确，即便对于高度非线性的误差模型也是如此。

而且，上面的实施例关注不使用附加装备或使用最少的附加装备来确定真实深度和传感器深度之间的偏差的解决方案。这简化了解决方案并且降低了商业实施例的成本。然而，应当理解，可使用各种装备来确定真实深度，诸如激光器、附加的深度相机和其他深度寻找设备等。

图24A示出了可用于执行上面描述的各种技术的计算环境(诸如例如计算系统12)的示例实施例。计算设备12可以是诸如游戏控制台的多媒体控制台300。如图24A所示，多媒体控制台300具有中央处理单元(CPU)301，所述CPU具有一级高速缓存302、二级高速缓存304，以及闪存ROM 306。一级高速缓存302和二级高速缓存304临时存储数据并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU 301可以设置成具有一个以上的内核，以及由此的附加的一级高速缓存302和二级高速缓存304。闪存ROM 306可存储在多媒体控制台300通电时引导过程的初始阶段期间加载的可执行代码。

图形处理单元(GPU)308和视频编码器/视频编解码器(编码器/解码器)314形成用于高速、高分辨率图形处理的视频处理流水线。经由总线从GPU 308向视频编码器/视频编解码器314运送数据。视频处理流水线向A/V(音频/视频)端口340输出数据，用于传输至电视机或其他显示器。存储器控制器310连接到GPU 308，以便于处理器对各种类型的存储器312，诸如但不限于RAM，的访问。

多媒体控制台300包括优选地在模块318上实现的I/O控制器320、系统管理控制器322、音频处理单元323、网络接口控制器324、第一USB主控制器326、第二USB主控制器328以及前面板I/O子部件330。USB控制器326和328用作外围控制器342(1)-342(2)、无线适配器348、和外置存储器设备346(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口324和/或无线适配器348提供对网络(例如，因特网、家庭网络等)的访问，并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线或无线适配器组件中任何一种。

提供系统存储器343来存储在引导过程期间加载的应用数据。提供介质驱动器344，该介质驱动器可以包括DVD/CD驱动器、硬盘驱动器，或其他可移动介质驱动器等。介质驱动器344可以内置或外置于多媒体控制台300。应用数据可经由介质驱动器344访问，以由多媒体控制台300执行、回放等。介质驱动器344经由诸如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接到I/O控制器320。

系统管理控制器322提供涉及确保多媒体控制台300的可用性的各种服务功能。音频处理单元323和音频编解码器332形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元323与音频编解码器332之间传输。音频处理流水线将数据输出到A/V端口340以供外置音频播放器或具有音频能力的设备再现。

前面板I/O子部件330支持暴露在多媒体控制台300的外表面上的电源按钮350和弹出按钮352以及任何LED(发光二极管)或其他指示器的功能。系统供电模块336向多媒体控制台300的组件供电。风扇338冷却多媒体控制台300内的电路。

CPU 301、GPU 308、存储器控制器310、和多媒体控制台300内的各种其他组件经由一条或多条总线互连，总线包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台300通电时，应用数据可从系统存储器343加载到存储器312和/或高速缓存302、304中并在CPU 301上执行。应用可呈现在导航到多媒体控制台300上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，介质驱动器344中包含的应用和/或其他媒体可从介质驱动器344启动或播放，以向多媒体控制台300提供附加功能。

多媒体控制台300可通过将该系统简单地连接到电视机或其他显示器而作为独立系统来操作。在该独立模式中，多媒体控制台300允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口324或无线适配器348可用的宽带连接的集成，多媒体控制台300还可作为更大网络社区中的参与者来操作。

当多媒体控制台300通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括存储器的保留量(诸如，16MB)、CPU和GPU周期的保留量(诸如，5％)、网络带宽的保留量(诸如，8kbs)，等等。因为这些资源是在系统引导时间保留的，所保留的资源对于应用视角而言是不存在的。

具体而言，存储器保留优选地足够大，以包含启动内核、并发系统应用和驱动程序。CPU保留优选地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来调度代码来将弹出窗口呈现为覆盖图以显示由系统应用生成的轻量消息(例如，弹出窗口)。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图优选地与屏幕分辨率成比例缩放。在完整的用户界面被并发系统应用使用的情况下，优选地使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率并引起TV重新同步。

在多媒体控制台300引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在上述所保留的系统资源中执行的一组系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 301上运行，以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。

当并发系统应用需要音频时，则由于时间敏感性而将音频处理异步地调度给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如，静音、衰减)。

输入设备(例如，控制器342(1)和342(2))由游戏应用和系统应用共享。输入设备不是保留资源，而是在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用管理器优选地控制输入流的切换，而无需知道游戏应用的知识，并且驱动程序维护关于焦点切换的状态信息。相机26、28和捕捉设备20可为控制台300定义额外的输入设备。

图24B示出了计算环境420的另一示例实施例，它可以是用来在目标识别、分析和跟踪系统中解释一个或多个位置和运动的图1A-2中示出的计算环境12。计算系统环境420只是合适的计算环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境420解释为对示例性操作环境420中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，各个所描绘的计算元素可包括被配置成实例化本公开的具体方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。在其他示例实施例中，术语“电路”可包括通过体现可操作以执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择并留给实现者。

在图24B中，计算环境420包括通常包括各种计算机可读介质的计算机441。计算机可读介质可以是能由计算机441访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器422包括诸如ROM 423和RAM 460等易失性和/或非易失性存储器形式的计算机存储介质。包含诸如在启动期间帮助在计算机441内的元件之间传输信息的基本例程的基本输入/输出系统424(BIOS)通常储存储在ROM 423中。RAM 460通常包含处理单元459可立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图24B示出了操作系统425、应用程序426、其他程序模块427，以及程序数据428。图24B还包括具有用于高速和高分辨率的图形处理和存储的相关联的视频存储器430的图形处理器单元(GPU)429。GPU 429可通过图形接口431连接到系统总线421。

计算机441也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。只作为示例，图24B示出了读写不可移动非易失性磁性介质的硬盘驱动器438、读写可移动非易失性磁盘454的磁盘驱动器439、以及读写诸如CD ROM或其他光学介质之类的可移动的非易失性光盘453的光盘驱动器440。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器438通常由诸如接口434等不可移动存储器接口连接至系统总线421，并且磁盘驱动器439和光盘驱动器440通常由诸如接口435等可移动存储器接口连接至系统总线421。

上面所讨论的并且在图24B中所示出的驱动器以及它们的相关联的计算机存储介质，为计算机441提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，在图24B中，硬盘驱动器438被示为存储了操作系统458、应用程序457，其他程序模块456，以及程序数据455。注意，这些组件可以与操作系统425、应用程序426、其他程序模块427和程序数据428相同或不同。在此操作系统458、应用程序457、其他程序模块456以及程序数据455被给予了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，如键盘451和定点设备452(通常指鼠标、跟踪球或触摸垫)向计算机441输入命令和信息。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口436连接至处理单元459，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。相机26、28和捕捉设备20可为控制台400定义额外的输入设备。监视器442或其他类型的显示设备也通过诸如视频接口432之类的接口连接至系统总线421。除监视器之外，计算机也可包括诸如扬声器444和打印机443之类的其他外围输出设备，它们可以通过输出外围接口433来连接。

计算机441可以使用到一个或多个远程计算机(如远程计算机446)的逻辑连接，以在联网环境中操作。远程计算机446可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，通常包括上文参考计算机441所描述的许多或全部元件，但是图24B中只示出了存储器存储设备447。图24B中所描绘的逻辑连接包括局域网(LAN)445和广域网(WAN)449，但是也可以包括其他网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当用于LAN联网环境中时，计算机441通过网络接口或适配器437连接到LAN 445。当在WAN联网环境中使用时，计算机441通常包括调制解调器450或用于通过诸如因特网等WAN 449建立通信的其他手段。调制解调器450，可以是内置的或外置的，可以经由用户输入接口436或其他适当的机制，连接到系统总线421。在联网环境中，相对于计算机441所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制，图24B示出了驻留在存储器设备447上的远程应用程序448。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

本发明系统的前述详细描述是出于说明和描述的目的而提供的。这并不旨在穷举本发明系统或将本发明系统限于所公开的精确形式。鉴于上述教导，许多修改和变型都是可能的。选择所述实施例以最好地解释本发明系统的原理及其实践应用，从而允许本领域技术人员能够在各种实施例中并采用各种适于所构想的特定用途的修改来最好地利用本发明系统。本发明系统的范围旨在由所附权利要求书来定义。

Claims

1.一种重新校准深度图像传感器(20)的方法，所述深度图像传感器从三维空间捕捉图像数据，所述方法包括：

(a)使用所述深度图像传感器(20)测量(步骤208)所述三维空间中的至少一个样本点的深度值；

(b)独立于所述步骤(a)的测量，确定(步骤210)所述至少一个样本点的真实深度值；

(c)对从在所述步骤(b)中确定的真实深度和在所述步骤(a)中测量的深度的偏差导致的深度误差进行建模(步骤220)；以及

(d)使用在所述步骤(c)中建模的所述深度误差来纠正(步骤224)由所述深度图像传感器所做的深度测量。

2.如权利要求1所述的方法，其特征在于，所述步骤(b)包括对呈现给所述深度图像传感器的刚性校准对象成像的步骤，所述校准对象的大小对执行所述步骤(b)的计算设备是已知的。

3.如权利要求2所述的方法，其特征在于，还包括使用单应性将所述校准对象的位置平移到与所述深度图像传感器相关联的RGB传感器的参考坐标系的步骤(e)。

4.如权利要求1所述的方法，其特征在于，所述步骤(b)包括接收对象的x轴或y轴维度大小的用户指示的步骤，以及基于对象的大小与描绘在所述对象和所述深度图像传感器之间的给定距离处的所述对象的像素数之间的已知相关来将所输入的大小与离所述深度图像传感器的距离相关的步骤。

5.如权利要求4所述的方法，其特征在于，所述对象的大小是用户的高度。

6.如权利要求1所述的方法，其特征在于，所述步骤(a)和(b)包括在所述三维空间中的至少两个不同位置处测量校准对象上的至少两个样本点的步骤。

7.一种执行重新校准自然用户接口的深度图像传感器(20)的方法，所述深度图像传感器从三维空间捕捉图像数据，所述方法包括：

(a)使用所述深度图像传感器测量(步骤276)所述三维空间内的校准对象(150)上的两个或更多个点(24，26)的深度；

(b)独立于所述深度图像传感器，确定(步骤280，282，286)所述校准对象(150)上的所述两个或更多个点(24，26)的真实深度；

(c)对从在所述步骤(b)中确定的所述真实深度和在所述步骤(a)中测量的所述深度的偏差导致的深度误差进行建模(步骤288)；以及

(d)使用在所述步骤(c)中建模的所述深度误差来补偿(步骤224)由所述深度图像传感器所做的深度测量。

8.如权利要求7所述的方法，其特征在于，对于线性深度误差，所述步骤(c)包括对所述误差以所述步骤(a)的所测量的深度＝α(所述步骤(b)的真实深度)–β的形式进行建模，其中β分量表示所述深度图像传感器的深度和所述真实深度彼此相等处的深度，而α表示定义在所述真实深度和由所述深度图像传感器测量的深度之间的线的斜率。

9.一种用于重新校准自然用户接口的深度图像传感器(20)的系统，所述深度图像传感器(20)从三维空间捕捉图像数据，所述系统包括：

位于所述三维空间内的校准对象(150)；以及

与所述深度图像传感器(20)相关联的计算设备(12)，所述计算设备(12)包括用于将所述三维空间中的所述校准对象上的点的真实深度值与由所述深度图像传感器测量的深度值进行比较，并推导出描述所述真实深度值和由所述深度图像传感器测量的所述深度值之间的偏差的误差模型的重新校准引擎(194)。

10.如权利要求9所述的系统，其特征在于，所述校准对象是具有不同区域的校准卡，所述区域具有水平分量和竖直分量，所述区域在所述水平分量和竖直分量的交叉点处定义了多个点。