CN102332090A

CN102332090A - 划分在视野内的焦点区域

Info

Publication number: CN102332090A
Application number: CN2011101790441A
Authority: CN
Inventors: S·麦克尔道尼; J·A·塔迪夫; J·克拉维恩; D·科恩; G·叶海弗
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-06-21
Filing date: 2011-06-20
Publication date: 2012-01-25
Anticipated expiration: 2031-06-20
Also published as: US8654152B2; CN102332090B; US20110310125A1

Abstract

本发明公开用于有选择地聚焦于在成像场景内的感兴趣的某些区域以便获得在那些区域内的更多图像细节的系统和方法。一般地，本系统从所接收的图像数据标识感兴趣的区域，这些区域可以例如是在场景内的所探测的移动区域。然后，该系统通过提供感兴趣的区域中的更多细节来聚焦于那些区域。这可以通过许多方法来完成，这些方法包括放大图像、增加图像的像素密度和增加入射到图像中的物体上的光的量。

Description

划分在视野内的焦点区域

技术领域

本申请涉及聚焦技术，特别是一种划分在视野内的焦点区域的技术。

背景技术

过去，诸如计算机游戏和多媒体应用程序等的计算应用程序使用控制器、遥控器、键盘、鼠标等等来允许用户操作游戏人物或应用程序的其他方面。最近，计算机游戏和多媒体应用程序已经开始使用照相机和软件姿势识别引擎来提供自然用户界面(“NUI”)。借助于NUI，用户姿势被探测、被解释且被用来控制游戏人物或应用程序的其他方面。

有时，活动可以发生在整个视野的小的部分内。例如，单个用户可以站在固定物体的大的房间中。或者，用户可以仅使用他的手来做出手势，例如控制用户界面或执行手语。然而，常规的NUI系统以相同的方式处理来自场景的所有信息，不考虑它静态的是还是动态的。因此，需要有对视野的动态区域比对视野的静态区域聚焦更多的注意力的系统。

发明内容

在此公开的是用于有选择地聚焦于在成像场景内的感兴趣的某些区域以便获得在那些区域内的更多图像细节的系统和方法。一般地，本系统从所接收的图像数据标识感兴趣的区域，这些区域可以例如是在场景内所探测的移动区域。然后，该系统通过提供感兴趣的区域中的更多细节来聚焦于那些区域。这可以通过许多方法来完成，诸如例如对该区域的机械变焦或数字变焦、增加区域中的像素密度、降低该区域外的像素密度和增加入射到该区域上的光的量。为了处理在给定的帧率内的图像数据，在感兴趣的区域外的图像的区域可以与来自感兴趣的区域的图像数据一起被存储在缓冲器且在需要时再次使用，以便呈现(render)场景的图像。

在一实施例中，本技术涉及增加在由捕捉设备捕捉的场景中的一个或多个感兴趣的区域中的图像细节的方法。该方法包括以下步骤：a)接收来自场景的信息；b)标识在该场景内的一个或多个感兴趣的区域；c)获得关于在该场景内的一个或多个感兴趣的区域的、相对于在该景物中在所述一个或多个感兴趣的区域外的区域更多的图像细节；和d)至少周期性地监视在该场景中在一个或多个感兴趣的区域外的信息以便判断是否重新定义一个或多个感兴趣的区域。

在进一步的实施例中，本技术涉及增加在由捕捉设备捕捉的场景中的一个或多个感兴趣的区域中的图像细节的方法，包括以下步骤：a)定义在场景内的焦点区域，该焦点区域被定义为与在该场景内的一个或多个所预期的感兴趣的区域对应；和b)获得关于在该场景内的焦点区域的、相对于在该场景中在一个或多个感兴趣的区域外的区域更多的图像细节。

在进一步的实施例中，本技术涉及增加在由捕捉设备捕捉的场景中的一个或多个感兴趣的区域中的图像细节的方法。该方法包括以下步骤：a)接收来自场景的信息；b)标识在该场景内的一个或多个用户；c)获得关于在该场景内的一个或多个用户的至少一身体部分的、相对于该场景中的除所述一个或多个用户之外的区域的更多的图像细节；d)使用在所述步骤c)中所获得的关于在该场景内的一个或多个用户的至少所述身体部分的更多的图像细节来标识由一个或多个用户执行的姿势；和e)至少周期性地监视在该场景中的一个或多个用户之外的信息，以便判断是否向在步骤c)中获得关于其的更多的图像细节的一个或多个用户的所述组中添加或减去一用户。

提供本概述以便以简化形式介绍下面在详细描述中进一步描述的概念的选集。本概述不旨在标识所要求保护的本主题的关键特征或必要特征，也不它旨在用来帮助确定所要求保护的本主题的范围。此外，所要求保护的本主题不限于解决本公开内容中提到的任何或所有缺点的实现。

附图说明

图1A阐释目标识别、分析和跟踪系统的示例实施例。

图1B阐释目标识别、分析和跟踪系统的进一步的示例实施例。

图2阐释可以在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。

图3A阐释可以被用来在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。

图3B阐释可以被用来在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例实施例。

图4阐释已经从图1A-图2的目标识别、分析和跟踪系统生成的用户的骨骼映射。

图5是由捕捉设备捕捉的场景的像素化图像的阐释。

图6是示出在由捕捉设备捕捉的场景中的感兴趣的区域上的更多的焦点的像素化图像的阐释。

图6A是示出在由捕捉设备捕捉的场景中的感兴趣的区域上的更多的焦点的替代的像素化图像的阐释

图7是示出在由捕捉设备捕捉的场景中的替代的感兴趣的区域上的更多的焦点的像素化图像的阐释。

图8是示出来自由捕捉设备捕捉的场景的两个感兴趣的区域的一对像素化图像的阐释。

图9是示出在由捕捉设备捕捉的场景中的感兴趣的区域中具有增加的像素密度的像素化图像的阐释。

图10是示出在由捕捉设备捕捉的场景的图像内的焦点区域的阐释。

图11是用于将图像聚焦于在场景内的感兴趣的区域上的本技术的一种实施例的操作的流程图。

图12是用于通过增加区域中的像素密度将图像聚集于在场景内的感兴趣的区域的本技术的进一步的实施例的操作的流程图。

图13是本技术用于在场景中的感兴趣的区域上的焦点区域中被动地增加焦点的本技术的另一实施例的操作的流程图。

图14是用于增加入射到在场景中在感兴趣的区域内的物体上的光的量的本技术的进一步的实施例的操作的流程图。

图15是用于被动地增加入射到在场景中在感兴趣的区域内的物体上的光的量的本技术的另一实施例的操作的流程图。

图16是示出用于识别姿势的姿势识别引擎的框图。

图17是图16的姿势识别引擎的操作的流程图。

具体实施方式

现在将参考图1A-图17描述本技术的各实施例，这些实施例一般地涉及用于有选择地聚焦于在成像场景内的感兴趣的某些区域以便获得在那些区域内的更多图像细节的系统和方法。一般地，本系统从所接收的图像数据标识感兴趣的区域，这些区域可以例如在该场景内的所探测的移动区域。然后，该系统通过提供在感兴趣的区域中的更多细节来聚焦于那些区域。这可以通过许多方法来完成，这些方法包括在图像上缩放、增加图像的像素密度和增加入射到图像中的物体上的光的量。

最初参见图1A-图2，用于实现本技术的硬件包括目标识别、分析和跟踪系统10，该系统可以被用来识别、分析和/或跟踪诸如用户18等的人类目标。目标识别、分析和跟踪系统10的各实施例包括用于执行游戏或其他应用程序的计算环境12。计算环境12可以包括使得计算环境12可以被用来执行诸如游戏和非游戏应用程序等的应用程序的硬件组件和/或软件组件。在一种实施例中，计算环境12可以包括诸如标准处理器、专用处理器、微处理器等等处理器，该处理器可以执行被存储在处理器可读的存储设备上的指令以便执行在此描述的进程。

系统10还包括用于捕捉涉及由捕捉设备感知的一个或多个用户和/或物体的图像和音频数据的捕捉设备20。在各实施例中，捕捉设备20可以被用来捕捉涉及一个或多个用户的移动、姿势和言语的信息，该信息由计算环境接收并被用来呈现、与之交互和/或控制游戏或其他应用程序的各方面。示例计算环境12和捕捉设备20将在下面被更详细解释。

目标识别、分析和跟踪系统10的各实施例可以被连接到具有显示器14的音频/视频设备16。设备16可以例如是可以向用户提供游戏或应用程序视频和/或音频的电视、监视器、高清晰度电视(HDTV)等等。例如，计算环境12可以包括可以提供与游戏或其他应用程序相关联的音频/视频信号的诸如显卡等的图形适配器和/或诸如声卡等的音频适配器。音频/视频设备16可以接收来自计算环境12的音频/视频信号，且然后可以向用户18输出与音频/视频信号相关联的游戏或应用程序视频和/或音频。根据一种实施例，音频/视频设备16可以经由例如S视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等等而被连接到计算环境12。

在各实施例中，计算环境12、A/V设备16和捕捉设备20可以协作在显示器14上呈现化身或屏幕人物19。在各实施例中，化身19模拟用户18在真实世界空间中的移动，使得用户18可以执行控制显示器14上的化身19的移动和动作的移动和姿势。

在图1A中，捕捉设备20被用于其中例如一对用户18正玩耍英式足球游戏的NUI系统。在这一示例中，计算环境12可以使用视听显示器14来提供以由各个用户18控制的英式足球运动员形式的两个化身19的可视表示。用户18可以在物理空间中移动或执行踢动作以便引起他们的关联运动员化身19在游戏空间中移动或踢英式足球。因而，根据示例实施例，计算环境12和捕捉设备20可以被用来识别和分析用户18在物理空间中的移动和姿势，且这样的移动和姿势可以被解释为用户的关联化身19在游戏空间中的游戏控制或动作。

图1A的实施例是可以在计算环境12上运行的许多不同的应用程序中的一个，且在计算环境12上运行的应用程序可以是多种其他游戏和非游戏应用程序。此外，还可以将系统10作为在计算环境12上运行的游戏领域或具体的应用程序之外的操作系统(OS)和/或应用程序控件用来解释用户18移动。图1B示出一个示例，其中用户18滚动和控制带有被呈现在显示器14上的各种菜单选项的用户界面21。实际上操作系统和/或应用程序的任何可控制的方面可以由用户18的移动来控制。

图1A和1B两者还示出静态物体23，例如椅子和植物。这些是在该场景(即，由捕捉设备20捕捉的区域)内的物体，但是在帧与帧之间不会改变。除了所示出的椅子和植物之外，静态物体可以是由捕捉设备20中的图像照相机拾取的任何物体。在该场景内的附加静态物体可以包括任何墙壁、地板、天花板、窗户、门、墙壁装饰物等等

系统10及其组件的合适的示例见于下列共同待决的专利申请，所有这些共同待决的专利申请都通过引用明确地合并于此：于2009年5月29日提交的标题为“Environment And/Or Target Segmentation(环境和/或目标分割)”的美国专利申请第12/475,094号；于2009年7月29日提交的标题为“Auto Generatinga Visual Representation(自动生成可视的表示)”的美国专利申请第号12/511,850号；于2009年5月29日提交的标题为“Gesture Tool(姿势工具)”的美国专利申请第12/474,655号；于2009年10月21日提交的标题为“Pose Tracking Pipeline(姿态跟踪管线)”的美国专利申请第12/603,437号；于2009年5月29日提交的标题为“Device for Identifying and Tracking Multiple Humans Over Time(用于随时间标识和跟踪多个人的设备)”的美国专利申请第12/475,308号；于2009年10月7日提交的标题为“Human Tracking System(人类跟踪系统)”的美国专利申请第12/575,388号；于2009年4月13日提交的标题为“Gesture RecognizerSystem Architecture(姿势识别器系统体系结构)”的美国专利申请第12/422,661号；于2009年2月23日提交的标题为“Standard Gestures(标准姿势)”的美国专利申请第12/391,150号；以及于2009年5月29日提交的标题为“Gesture Tool(姿势工具)”的美国专利申请第12/474,655号。

图2阐释可以被用于目标识别、分析和跟踪系统10的捕捉设备20的示例实施例。在一示例实施例中，捕捉设备20可以被配置为捕捉具有深度图像的视频，深度图像可以包括经由任何合适的技术的深度值，这些技术包括例如渡越时间、结构化光、立体声图像等等。根据一种实施例，捕捉设备20可以将所计算的深度信息组织为“Z层”或可以垂直于Z轴从深度照相机沿着其光线扩展的各层。

如在图2中示出，捕捉设备20可以包括图像照相机组件22。根据一示例实施例，图像照相机组件22可以是可以捕捉场景的深度图像的深度照相机。深度图像可以包括所捕捉的场景的二维(2-D)像素区域，其中该2-D像素区域中的每一像素可以表示深度值，深度值为诸如来自该照相机的所捕捉的场景中的物体的以例如厘米、毫米等等的长度或距离。

如在图2中示出，根据一示例实施例，图像照相机组件22可以包括可以被用来捕捉场景的深度图像的IR光组件24、三维(3D)照相机26和RGB照相机28。例如，渡越时间分析中，捕捉设备20的IR光组件24可以将红外光发射到场景上且然后可以使用传感器(未示出)来使用例如3D照相机26和/或RGB照相机28探测从场景中一个或多个目标和物体的表面后向散射的光。

在一些实施例中，可以使用脉冲红外光以使得可以测量在输出光脉冲和对应于输入光脉冲之间的时间并将其用来确定从捕捉设备20到场景中的目标或物体上的特定位置的物理距离。另外，在其他示例各实施例中，可以将输出光波的相位与输入光波的相位进行比较，以便确定相移。然后，相移可以被用来确定从捕捉设备20到目标或物体的特定位置的物理距离。

根据另一示例实施例，通过经由包括例如快门光脉冲成像在内的各种技术分析随时间变化的所反射的光束亮度，可以使用渡越时间分析来间接地确定从捕捉设备20到目标或物体上的特定位置的物理距离。

在另一示例实施例中，捕捉设备20可以使用结构化光来捕捉深度信息。在这样的分析中，可以经由例如IR光组件24将图案化光(即，被显示为诸如网格图案或条纹图案等的已知图案的光)投射到场景上。一旦碰到场景中的一个或多个目标或物体的表面，作为响应，该图案可以变形。可以由例如3D照相机26和/或RGB照相机28捕捉这样的图案变形，且然后可以分析图案变形以判断从捕捉设备20到目标或物体上的特定位置的物理距离。

根据另一实施例，捕捉设备20可以包括可以从不同的角度查看场景以便获得可视的立体声数据的两个或更多个物理上分离的照相机，可以解析可视的立体声数据以生成深度信息。在另一示例实施例中，捕捉设备20可以使用点云数据和目标数字化技术来探测用户18的特征。

捕捉设备20还可以包括话筒30。话筒30可以包括可以接收声音并将声音转换成电信号的转换器或传感器。根据一种实施例，话筒30可以被用来在目标识别、分析和跟踪系统10中减少在捕捉设备20和计算环境12之间的反馈。另外，话筒30可以被用来接收音频信号，用户也可以提供音频信号以便控制诸如可以由计算环境12执行的游戏应用程序，非游戏应用程序等等的应用程序。

在一示例实施例中，捕捉设备20还可以包括操作上与图像照相机组件22通信的处理器32。处理器32可以包括可以执行指令的标准化处理器、专用处理器、微处理器等等，这些指令可以包括用于接收深度图像、判断在深度图像是否包括合适的目标，将该合适的目标转换成骨骼表示或目标模型的指令或任何其他合适的指令。

捕捉设备20还可以包括存储器组件34，存储器组件34可以存储可以由处理器32执行的指令、由3D照相机或RGB照相机捕捉的图像或图像的帧或任何其他合适的信息、图像等等。根据一示例实施例，存储器组件34可以包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪速存储器、硬盘或任何其他合适的存储组件。如在图2中示出，在一种实施例中，存储器组件34可以是与图像照相机组件22和处理器32通信的分离的组件。根据另一实施例，存储器组件34可以被集成到处理器32和/或图像照相机组件22中。

如在图2中示出，捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等等在内的有线连接和/或诸如无线802.11b，g，a或n连接等的无线连接。根据一种实施例，计算环境12可以经由通信链路36向捕捉设备20提供可以被用来确定何时捕捉例如场景的时钟。

另外，捕捉设备20可以经由通信链路36向计算环境12提供由例如3D照相机26和/或RGB照相机28捕捉的深度信息和图像以及可以由捕捉设备20生成的骨骼模型。存在用于判断捕捉设备20所探测到的目标或物体是否对应于人类目标的各种已知技术。然后，可以使用骨骼映射技术来确定用户的手、腕、肘、膝、鼻、踝、肩的骨骼、关节以及骨盆与脊骨接触的地方的各种位置。其他技术包括将图像变换为个人的体模型表示和将图像变换成个人的网格模型表示。

然后，可以将骨骼模型提供给计算环境12，以使得计算环境可以执行各种动作。计算环境还可以基于例如已经从骨骼模型识别的用户的姿势确定执行在计算机环境上执行的应用程序中的哪些控件。例如，如所示出的，在图2中，计算环境12可以包括用于确定用户何时执行预定义姿势的姿势识别器引擎190。计算环境12还可以包括用于从场景中聚焦于感兴趣的区域的焦点引擎192，如下面所解释。焦点引擎192的部分或全部可以驻留在捕捉设备20上且由处理器32执行。

图3A阐释可以被用来在目标识别、分析和跟踪系统中解释用户的一个或多个位置和动作的计算环境的示例实施例。诸如以上相对于图1A-图2所描述的计算环境12等的计算环境可以是多媒体控制台100，例如游戏控制台。如图3A中示出的，多媒体控制台100具有中央处理单元(CPU)101，中央处理单元(CPU)101具有1级高速缓存102、2级高速缓存104和闪速ROM 106。1级高速缓存102和2级高速缓存104临时地存储数据且因此减少存储器访问周期的数量，由此改善处理速度和吞吐量。CPU 101可以被提供为具有多于一个的核心且因而具有附加的1级和2级高速缓存102和104。闪速ROM 106可以存储在多媒体控制台100上电时在引导过程的初始阶段期间加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速和高分辨率图形处理的视频处理管线。经由总线将数据从GPU 108运送到视频编码器/视频编解码器114。视频处理管线向A/V(音频/视频)端口140输出数据以便传送给电视或其他显示器。存储器控制器110被连接到GPU 108以便促进处理器访问各种类型的存储器112，例如但不限于RAM。

多媒体控制台100包括优选地被实现在模块118上的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB宿主控制器126、第二USB宿主控制器128和前面板I/O装配件130。USB控制器126和128充当用于外围控制器142(1)-142(2)、无线适配器148和外部存储器设备146(例如，闪速存储器、外置CD/DVD ROM驱动器、可移动介质等等)的宿主。网络接口124和/或无线适配器148提供对网络(例如，因特网、家庭网络等等)的接入且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等等在内的各种各样的有线或无线适配器组件中的任何。

提供系统存储器143以便存储在引导过程期间加载的应用程序数据。提供介质驱动器144，且其可以包括DVD/CD驱动器、硬盘驱动器或其他可移动介质驱动器等等。介质驱动器144可以内置或外置于多媒体控制台100。可以经由介质驱动器144访问应用程序数据以便由多媒体控制台100执行、播放等等。介质驱动器144经由诸如串行ATA总线或其他高速连接(例如，IEEE 1394)等的总线连接到I/O控制器120。

系统管理控制器122提供与确保多媒体控制台100的可用性相关的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理管线。经由通信链路在音频处理单元123和音频编解码器132之间运载音频数据。音频处理管线向A/V端口140输出数据，以供具有音频能力的外置音频播放器或设备再现。

前面板I/O装配件130支持被暴露在多媒体控制台100的外表面的功率按钮150和弹出按钮152以及任何LED(发光二极管)或其他指示器的功能。系统电源模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

在多媒体控制台100内的CPU 101、GPU 108、存储器控制器110和多种其他组件经由一个或多个总线而互连，这些总线包括使用各种总线体系结构中的任何的串行总线和并行总线、存储器总线、外围总线和处理器总线或局部总线。作为示例，这样的体系结构可以包括外围组件互连(PCI)总线、PCI-Express总线等等。

在多媒体控制台100上电时，可以从系统存储器143将应用程序数据加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用程序可以呈现在导航到多媒体控制台100上可用的不同的媒体类型时提供一致的用户体验的图形用户界面。在操作中，可以从介质驱动器144启动或播放被包含在介质驱动器144内的应用程序和/或其他介质，以便向多媒体控制台100提供附加的功能。

通过简单地将系统连接到电视或其他显示器，多媒体控制台100可以作为单机系统而操作。在这一单机模式中，多媒体控制台100允许一个或多个用户与系统交互、观看电影或欣赏音乐。然而，借助于通过网络接口124或无线适配器148而提供的宽带连接性的集成，多媒体控制台100还可以作为更大的网络社区中的参与者而操作。

在多媒体控制台100上电时，设定量的硬件资源被系统保留以供多媒体控制台操作系统使用。这些资源可以包括预留存储器(例如，16MB)、CPU和GPU周期(例如，5％)、联网带宽(例如，8kbs)、等等。因为在系统引导时保留这些资源，从应用程序的角度来看不存在所保留的资源。

尤其，存储器保留优选地大到足以包含启动内核、并发系统应用程序和驱动器。CPU保留优选地是常量，以使得如果所保留的CPU用途不被系统应用程序使用，则空闲的线程将消耗任何未使用的周期。

关于GPU保留，通过使用GPU中断以便调度代码来将弹出窗呈现成覆盖图，显示由系统应用程序生成的轻量级消息(例如，弹出窗)。覆盖图所要求的存储器的量取决于覆盖区域大小，且覆盖图优选地随屏幕分辨率缩放。在并发系统应用程序使用完全用户界面时，优选使用独立于应用程序分辨率的分辨率。缩放器可以被用来设置这一分辨率以消除改变频率和引起TV再同步的需要。

在多媒体控制台100引导且系统资源被保留之后，并发系统应用程序执行以提供系统功能。系统功能被封装在在以上所描述的所保留的系统资源内执行的一组系统应用程序中。操作系统内核标识是系统应用程序线程而非游戏应用程序线程的线程。系统应用程序优选地被调度为在预先确定的时刻和间隔在CPU 101上运行，以便向应用程序提供一致的的系统资源视图。调度是为了最小化在控制台上运行的游戏应用程序的高速缓存中断。

在并发系统应用程序要求音频时，由于时间敏感性，异步地将音频处理调度给游戏应用程序。在系统应用程序是活动的时，多媒体控制台应用程序管理器(在下面描述)控制游戏应用程序音频级别(例如，静音、衰减)。

游戏应用程序和系统应用程序共享输入设备(例如，控制器142(1)和142(2))。输入设备不是所保留的资源，但应在系统应用程序和游戏应用程序之间切换，以使得每一个都将拥有设备的焦点。应用程序管理器优选地无需游戏应用程序的知识就控制输入流的切换，且驱动器维持关于焦点切换的状态信息。照相机26、28和捕捉设备20可以定义用于控制台100的附加输入设备。

图3B阐释可以是图1A-图2中示出的被用来在目标识别、分析和跟踪系统中解释一个或多个位置和动作的计算环境12的计算环境220的另一示例实施例。计算系统环境220仅是合适的计算环境的一个示例，且不旨在暗示对目前公开的本主题的使用范围或功能的任何限制。计算环境220也不应被解释为具有与在示例操作环境220中所阐释的组件中的任何一个或组合相关的任何依赖或要求。在一些实施例中，各种所叙述的计算元件可以包括被配置为实例化本公开内容的具体方面的电路。例如，被用于本公开内容的术语电路可以包括配置为由固件或开关执行功能的专用硬件组件。在其他示例实施例中，术语电路可以包括由实现可操作为执行功能的逻辑的软件指令配置的通用处理单元、存储器等等。在其中电路包括硬件和软件的组合的示例实施例中，实施者可以编写实现逻辑的源代码，且源代码可以被编译成可以由通用处理单元处理的机器可读代码。由于本领域中的技术人员可以明白，本领域的状态已经进化到其中在硬件、软件或硬件/软件的组合之间存在很少差异的点，选择硬件还是软件来实施具体功能是留给实施者的设计选择。更具体地，本领域中的技术人员可以明白，软件过程可以被变换成等效的硬件结构，且硬件结构本身可以被变换成等效的软件过程。因而，选择硬件实现还是软件实现是一个设计选择且留给实施者。

在图3B中，计算环境220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是可以由计算机241访问的任何可用的介质，且包括易失性和非易失性介质、可移动和不可移动介质两者。系统存储器222包括以诸如ROM 223和RAM 260等的易失性和/或非易失性存储器形式的计算机存储介质。包含例如在启动期间帮助在计算机241内的各元件之间传递信息的基本例程的基本输入/输出系统224(BIOS)通常被存储ROM 223中。RAM 260通常包含立即可访问的和/或目前由处理单元259操作的数据和/或程序模块。作为示例而非限制，图3B阐释操作系统225、应用程序226、其他程序模块227和程序数据228。图3B还包括用于高速和高分辨率图形处理和存储的具有关联的视频存储器230的图形处理器单元(GPU)229。GPU 229可以通过图形接口231连接到系统总线221。

计算机241也可以包括其他可移动/不可移、易失性/非易失性计算机存储介质。仅作为示例，图3B阐释从不可移动的非易失性磁介质读取或向其写入的硬盘驱动器238、从可移动的非易失性磁盘254读取或向其写入的磁盘驱动器239以及从诸如CD ROM或其他光学介质等的可移动的非易失性光盘253读取或向其写入的光盘驱动器240。可以用于示例操作环境的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪速存储器卡、数字多用盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常通过诸如接口234等的不可移动存储器接口连接到系统总线221，且磁盘驱动器239和光盘驱动器240通常由诸如接口235等的可移动存储器接口连接到系统总线221。

在上面讨论并在图3B中阐释的各驱动器和它们所关联的计算机存储介质为计算机241提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图3B中，例如，硬盘驱动器238被阐释为存储操作系统258、应用程序257、其他程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同或不同。操作系统258、应用程序257、其他程序模块256和程序数据255在这里被给予不同的数字，以便阐释至少他们是不同的副本。用户可以通过诸如键盘251和通常被称为鼠标、跟踪球或触控板的指点设备252等的输入设备将命令和信息输入到计算机241。其他输入设备(未示出)可以包括话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其他输入设备常常通过被耦合到系统总线的用户输入接口236连接到处理单元259，但是可以由诸如并行端口、游戏端口或通用串行总线(USB)等的其他接口和总线结构连接。照相机26、28和捕捉设备20可以用于定义控制台100的附加输入设备。监视器242或其他类型的显示设备也经由诸如视频接口232等的接口连接到系统总线221。除了监视器之外，计算机也可以包括可以通过输出外围接口233连接的诸如扬声器244和打印机243等的其他外围输出设备。

计算机241可以使用到诸如远程计算机246等的一个或多个远程计算机的逻辑连接来在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他普通网络节点，且通常包括以上相对于计算机241描述的元件中的许多或全部，尽管在图3B中仅已经阐释存储器存储设备247。在图3B中叙述的逻辑连接包括局域网(LAN)245和广域网(WAN)249，但是也可以包括其他网络。这样的联网环境是在办公室、企业范围的计算机网络、内联网和因特网中是普遍的。

在被用于LAN联网环境时，计算机241通过网络接口或适配器237连接到LAN 245。在被用于WAN联网环境时，计算机241通常包括调制解调器250或用于在诸如因特网等的WAN 249上建立通信的其他装置。可以内置或外置的调制解调器250可以经由用户输入接口236或其他适当的机制连接到系统总线221。在联网环境中，相对于计算机241叙述的程序模块或其部分可以被存储在远程存储器存储设备中。作为示例而非限制，图3B将远程应用程序248阐释为驻留在存储器设备247上。应明白，所示出的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其他装置。

图4叙述可以从捕捉设备20生成的用户的示例骨骼映射。在这一实施例中，标识各种关节和骨骼：每一手302、每一前臂304、每一肘306、每一二头肌308、每一肩310、每一髋312、每一大腿314、每一膝316、每一前足318、每一脚320、头322、躯干324、脊骨的顶326和底328以及腰330。在跟踪更多点的场合，可以标识附加的特征，例如手指或脚趾的骨骼和关节，或者脸的个体特征，例如鼻和眼。

如背景部分中所指示，有时希望无需将等待时间引入到图像的呈现就从场景中的某些物体获得详细的图像数据。根据本技术的各方面，可以在场景内标识感兴趣的区域，且可以聚焦于那些区域以便从中获得更多的图像细节。

图5示出由捕捉设备20的图像照相机组件22的传感器探测的图像。它可以例如是如图1B中所示出的与屏上用户界面交互的用户。该图像被分割成水平行和垂直列的像素350的点阵(其中的一些在附图中被编号)。在图像照相机组件22是深度照相机26的场合，点阵中的每一像素捕捉场景中的物体的x、y和z位置，其中z轴被定义为从照相机透镜直接出来，且x轴和y轴分别是离开z轴的水平偏移和垂直偏移。在照相机组件22是RGB照相机28的场合，点阵中的每一像素捕捉场景中的物体的RGB值。RGB照相机被登记到深度照相机，使得由照相机24和26所捕捉的每一帧时间上相互同步。图5的场景示出由像素350捕捉的用户18和诸如椅子和植物等的固定物体23。场景中的图像细节跨越所有像素350而均匀地分布。

现在参考图6到图10的阐释以及图11到图15的流程图来解释的本技术的实施例的细节。图11示出在此被称为来自场景的感兴趣的区域上的主动焦点(区别于下面相对于图13解释的被动焦点)的第一实施例。在图11中，步骤400中可以启动系统10。此后，在步骤402中，系统可以捕捉和呈现来自深度照相机26和RGB照相机28的图像数据中的许多帧n(在下面解释)。捕捉来自深度照相机26和RGB照相机28两者的所有像素350的数据并将其发送给计算环境以供处理。在各实施例中，处理器可以分析数据并从骨骼图案的识别确定用户的存在。系统也可以基于步骤402中所探测的图像数据将图像呈现在显示器上。在图6的示例中，图像数据被用来探测与用于控制计算环境12或在计算环境12上运行的应用程序的用户界面的交互。

在各实施例中，在步骤404中焦点引擎192分析n帧数据，并标识在该场景内的一个或多个感兴趣的区域。在不同的实施例中可以以不同的方式定义感兴趣的区域。在一种实施例中，感兴趣的区域可以是在该场景内探测到诸如例如在该场景内用户18的移动等的移动的一个或多个区域。代替为整个用户的感兴趣的区域，在各实施例中感兴趣的区域可以限于用户的特定的身体部分，例如他们的头、手、脚或其中对获得身体部分的详尽图像数据感兴趣的其他身体部分。

在进一步的实施例中，感兴趣的区域可以由在计算环境12上运行的应用程序定义。例如，在应用程序是手势语言应用程序的场合，感兴趣的区域可以是在用户的左手和/或右手周围，无论那些手是否在移动。在进一步的实施例中，场景的某些特征可以总是被看作是感兴趣的区域，而不考虑应用程序或所探测的移动。例如，一种实施例可以总是将用户的头看作是感兴趣的区域，以便可以探测面部的表情和/或言语的细节。

在各实施例中，场景中的静态物体，诸如椅子和植物23等以及任何所捕捉墙、地板、天花板、窗、门和墙壁装饰物，将不被考虑为感兴趣的区域。场景的不被包括在感兴趣的区域内的区域在此被称为静态区域。除用户之外的物体也可以被包括在来自场景的感兴趣的区域内。例如，用户持有的或以另外方式由用户在真实世界空间中四处移动的物体可以是感兴趣的区域(或被包括在感兴趣的区域内)。此外，在各实施例中，用户不移动的静态物体也可以被包括在感兴趣的区域中，其中该物体以某种方式涉及在计算环境12上运行的应用程序，且具有需要由照相机组件22感知以供应用程序使用的细节或信息。

如所指示的，在步骤402中，帧的数量n可以为在步骤404中焦点引擎192分析图像数据并识别场景中的感兴趣的区域所需要的帧的数量。焦点引擎192可以按各种方法执行此动作。在以上所描述的一种实施例中，计算环境从捕捉设备20接收图像数据且可以从用户的骨骼结构识别他或她，以及他在场景中的位置。一旦计算环境12识别用户和他的位置，焦点引擎192可以将该位置定义为该场景内的感兴趣的区域。在此类实施例中，焦点引擎192可以从一个或两个数据帧做出这一判断。在这样的示例中，在步骤402中，n可以等于一个或两个数据帧。

在计算环境可以从n帧数据判断除了一个或多个身体部分之外，人在坐下或以另外方式不移动的场合，系统判断哪些身体部分在移动且焦点引擎192将那些一个或多个身体部分定义为场景中的感兴趣的区域。计算环境可以以各种方式做出这一判断，包括例如将第一帧的图像数据与第二帧的图像数据进行比较。在此类实施例中，在步骤402中，n可以等于两个或三帧的数据。应明白，n可以是焦点引擎192在场景中将移动物体(或身体部分)与非移动物体(或身体部分)区分开来所需要的帧的任何数量。

在步骤404中，焦点引擎192标识场景中的感兴趣的区域。在步骤406中，焦点引擎可以将场景的静态区域存储在缓冲器或其他存储器中，以供如以下解释而使用。

在步骤410中，焦点引擎聚焦于所定义的感兴趣的区域。聚集在这里意味着提供关于感兴趣的区域的更多的图像细节。在一种实施例中，这可以意指放大感兴趣的区域，同时将静态区域排除在视图之外。焦点引擎192可以聚焦于感兴趣的区域以便获得感兴趣的区域的完全填充照相机组件22的视野的高度和/或宽度的最大变焦。在进一步的实施例中，焦点引擎可以将感兴趣的区域放大为少于可能的最大变焦。

图6是与图5相同的场景的图像，但在图6中，焦点引擎已经引起照相机组件22放大感兴趣的区域360，在图5和图6中感兴趣的区域360是用户18。如图6中所示出，一旦放大，与图5相比使用更多像素350来表示用户18，因而提供用户18的更多图像细节。图6示出一实施例，其中整个像素点阵被用来捕捉感兴趣的区域360。在进一步的实施例中，仅在感兴趣的区域360周围的像素350的部分被用来捕捉感兴趣的区域。焦点引擎192可以判断在图6和6A中哪些像素350被用来捕捉感兴趣的区域，且焦点引擎可以忽略来自不被用来捕捉感兴趣的区域的像素的数据。这可以进一步减少处理速度并避免呈现帧时的等待时间。

在各实施例中，深度照相机26和RGB照相机28一致地操作以便放大相同的物体到相同的程度。如下面所解释，在进一步的实施例中，它们不需要一起变焦。图7类似于图6，但是感兴趣的区域是用户的头。在图7的实施例中，相比于图5的全景视图大得多的数量的像素被用于图像数据以便捕捉用户的脸和头，以便提供用户的面部表情以及在用户说话时用户的唇和舌如何移动的多得多的细节。

以上所描述的照相机组件22变焦可以是照相机透镜的光学(机械)变焦，或者它可以是其中以软件完成的数字变焦。照相机的机械变焦系统和数字变焦系统两者是已知的，且操作为改变焦距(可以是表面上或实际上改变焦距)以便增加照相机透镜的视野中的图像的大小。例如在于2009年1月13日发布的标题为“Combined Optical And Digital Zoom(组合的光学变焦和数字变焦)”的美国专利第7,477,297号中公开了数字变焦系统的示例，该专利以其整体通过引用合并于此。

在步骤412中，照相机组件22可以捕捉下一帧图像数据。图像数据被聚焦于感兴趣的区域，例如图6和图7所示出。可以从在步骤412中捕捉的图像数据中大部分或全部忽略视图中的静态区域。

代替以上所描述的一个或两个照相机组件22中的变焦或除此之外，在步骤416中，由焦点引擎192在图像数据上执行各种已知的算法以便增强感兴趣的区域的图像数据。在使用这些图像增强算法的各实施例中，可以对来自深度照相机和RGB照相机两者的感兴趣的区域的图像数据上执行各算法。替代地，第一图像增强算法可以对深度照相机数据执行，且第二不同图像增强算法可以对RGB照相机数据执行。在进一步的实施例中，深度照相机和RGB照相机中的一个可以如上所述是光学变焦或数字变焦，同时用图像增强算法增强来自深度照相机和RGB照相机中的另一个的图像数据，且结果被匹配以提供感兴趣的区域的经聚焦的数据。本技术的各实施例中可以忽略步骤416(且因此在图11中以虚线示出)。

图8示出其中场景包括两个感兴趣的区域即用户和用户的手的实施例。使用例如数字变焦技术且可能地使用图像增强算法，焦点引擎192可以独立地聚焦于这两个区域。左边的用户的经聚焦的图像提供与全景视图相比更多的用户细节，且右边的经聚焦的图像提供与全景视图或左边的经聚焦的视图相比甚至更多的用户的手的细节。应理解，在进一步的实施例中，在给定的时刻，可以从单个场景生成多于两个的活动的视图。

从感兴趣的区域获得的经聚焦的图像数据可以被用于各种目的。在步骤418中，经聚焦的图像数据可以被用来控制应用程序或操作系统功能。替代地或另外，经聚焦的图像数据可以被下面所解释的姿势识别引擎190用于姿势识别。尤其是，经聚焦的图像数据允许识别更精细和更细微的姿势，这要求关于用户如何执行姿势的高度细节。

例如，在手势应用程序中，手位置的细微差异可以意指不同的事物且对应于不同的预定义姿势。在此类实施例中，感兴趣的区域可以是用户的手，且经聚焦的图像数据提供允许姿势识别引擎190区分不同的手势的细节级别。进一步的示例中，应用程序可以解释面部表情，且基于不同的所探测的面部表情执行不同的动作。在此类实施例中，感兴趣的区域可以是用户的头或脸，且经聚焦的图像数据提供允许姿势识别引擎190区分不同的面部表情的细节级别。

另一应用程序可以寻求通过分析和解析嘴和舌在形成字和声音时的移动来实现或增强语音识别。在此类实施例中，感兴趣的区域可以是用户的头或脸或具体地是用户的嘴，且经聚焦的图像数据提供允许姿势识别引擎190区分在形成字和声音时的不同的嘴/舌头位置的细节级别。仅作为示例提供经聚焦的图像数据的这些上面的用途。应理解，可由将根据本技术的经聚焦的图像数据用于其中用户移动(细微的或以另外方式)被用于姿势识别或应用程序/OS控制的任何其他目的。

在步骤424中，除了姿势识别和应用程序/OS控制之外，经聚焦的图像数据可以被用来呈现图像。在许多情况中，经聚焦的图像数据将被用来以有样学样的(monkey see monkey do)的方式在显示器14上制作用户的化身19的动画。经聚焦的图像数据可以尤其被用来提供由经聚焦的图像数据覆盖的感兴趣的区域中的用户移动的精确重现。

如果在呈现步骤中需要来自场景中的静态区域的任何元素，则在呈现步骤424之前的步骤422中，计算环境可以从存储器检索那些元素。如上所述在步骤406中将静态区域图像数据存储在存储器中。本技术利用场景中的诸如例如椅子和植物19等的某些物体的不会改变且不需要每一帧都成像的事实。因而本技术的另一特征是在不对每一帧重新采样和处理场景的静态图像以节省处理时间。

不需要重新捕捉静态区域允许焦点引擎192具体地聚焦于感兴趣的区域。然而，可能发生场景在感兴趣的区域外的区域不时改变的情况。例如，其他用户可以进来或退出场景。因此，焦点引擎192可以周期性地拉回以便获取整个场景的当前的图像数据。在步骤426中，焦点引擎检查它是否已经聚焦于感兴趣的区域达到某一数量m的帧。如果不是，则焦点引擎192可以返回到步骤412以便从聚焦于感兴趣的区域的捕捉设备20获取下一帧图像数据。

另一方面，如果焦点引擎192已经聚焦于感兴趣的区域有m个帧了，则焦点引擎返回到步骤402以便获取整个场景的实况图像数据。可以基于不同的竞争因素选择帧的数量m。m的值越大，在采样和处理来自场景的静态区域的图像数据上就浪费越少的时间。然而，m的值越大，已经进入场景的诸如另一用户等的另一物体就越有可能不被捕捉设备20捕捉。在各实施例中，m可以是在2个帧和300个或更多的帧之间。

对于更大的m值，如果在返回到步骤402时就在场景中发现新用户，则需要将新用户与现有用户一起呈现在显示器上。在这一实例中，新用户的化身可以简单地出现在显示器上。替代地，新用户的化身可以与场景合成一体，或者计算环境12可以将新化身示出为从一侧移动到场景中(这种移动将不基于新用户的实际图像数据)。

在进一步的实施例中，系统10可以采用两个捕捉设备20。第一捕捉设备操作为如上所述聚焦于感兴趣的区域。第二捕捉设备20可以保持对准整个场景。在这样的实施例中，焦点引擎不需要在每m帧返回到步骤402，而是可以保持聚焦于感兴趣的区域，直到第二捕捉设备20探测到新物体进入场景的时刻。如果第二捕捉设备探测到场景中的改变，则第一捕捉设备可以返回到步骤402以便捕捉来自整个场景的图像数据。替代地，可以使用来自第二捕捉设备的来自整个场景图像数据，并将其与来自第一捕捉设备的经聚焦的图像数据组合。只要两个捕捉设备的位置是彼此已知的，使用已知的变换矩阵来将来自不同的捕捉设备的两个视图解析为相同的视角(例如来自第一捕捉设备的视图)。

在上面的使用两个不同的捕捉设备的实施例中，出于呈现目的，可能希望可以将来自一个捕捉设备的视图的元素缝合到其他捕捉设备的视图。这样的缝合可以以平滑和无缝的方式来完成，例如在以下专利中公开：于2007年5月17公布的标题为“Navigating Images Using Image Based Geometric Alignmentand Object Based Controls(使用基于图像的几何对齐和基于对象的控件来导航图像”的美国专利公布第2007/0110338号，该公布被用于微软公司推出的Photosynth^TM图像识别软件的技术，且该公布通过引用以其整体合并于此。

在到目前为止所描述的各实施例中，像素密度已经保持为恒定，且所增加的细节是通过放大感兴趣的区域来获得的。在进一步的实施例中，捕捉在场景中的感兴趣的区域的像素的像素密度可以相对于图像周围的静态区域而增加。下面参考图12的流程图和图9的阐释来解释这样的实施例的一个示例。在步骤430中，启动系统10，且在步骤434中，捕捉设备20获取如上所述呈现的n帧图像数据。在步骤438中，焦点引擎192如上所述标识场景中感兴趣的区域。如所指示的，这样的区域可以是其中探测到场景中的移动的区域。

一旦在步骤438中探测到一个或多个感兴趣的区域，捕捉场景中的一个或多个感兴趣的区域的像素的像素密度相对于图像周围的静态区域而增加。这可以以许多方式来完成。在一种实施例中，照相机本身可以拥有在一个区域中相对于另一区域有选择地增加像素密度的能力。在此类实施例中，在步骤434中，照相机(深度和/或RGB)将捕捉图像数据，焦点引擎192将标识感兴趣的区域，且然后焦点引擎将该信息转播回给照相机以供照相机增加在一个或多个所标识的感兴趣的区域周围的像素密度。图9示出包括如上所述的像素350以及在感兴趣的区域周围的第二组更高密度像素352在内的图像。

在进一步的实施例中，来自照相机的像素化保持恒定，但焦点引擎192或捕捉设备20或计算环境12中的其他处理算法可以一旦接收就处理在一个或多个感兴趣的区域中的图像数据以便增加那些区域中的像素密度。子像素化技术可以被用来将感兴趣的区域中的像素分成较小的单元。在进一步的实施例中，可以以相对高的像素密度获得所有图像数据。一旦获得图像数据，可以例如通过像素组合(pixel binning)技术来处理图像的静态区域的图像数据以便将临近的像素组合在一起。在这样的示例中，可以在计算环境的帧率(例如30Hz)内处理场景的静态区域的经组合的像素以及场景的感兴趣的区域的更高密度像素而没有等待时间。

在进一步的实施例中，如上所述可以使用两个不同的捕捉设备20；一个以相对高的分辨率捕捉图像数据，且第二个以第二较低分辨率捕捉数据。一旦从两个捕捉设备获得图像数据，来自第一照相机的更高分辨率的数据就可以被用作感兴趣的区域的图像数据。来自第二照相机的较低分辨率的数据可以被用于场景的静态区域的图像数据。如上面所指示的，来自各照相机的不同视图可以被变换成公共视图(例如第一照相机的视图)并被呈现。如果必要的话，两个视图可以出于呈现目的而被缝合在一起，诸如例如在上面公开的所合并的美国专利公布第2007/0110338号。

然后在步骤442中可以获得包括感兴趣的区域的更高密度的图像数据的下一帧数据。在步骤444中，可以如上所述使用该图像数据来识别用户姿势、控制在计算环境上运行的应用程序的各方面和/或控制计算环境12上的操作系统的各方面。在步骤446中，如上面所解释，也可以使用包括感兴趣的区域的更高密度的图像数据在内的图像数据用来呈现图像。

在其中在感兴趣的区域和静态区域之间的相对像素密度变化的这一实施例中，如上面在经变焦的实施例中所描述，不需要周期性地返回到场景的全视图。这是因为捕捉设备20捕捉所有帧中的全景。因而，在物体进入或离开时焦点引擎192可以探测到。在步骤448中，焦点引擎192从新的数据帧检查进入或离开场景的任何物体。如果没有探测到进入或离开场景的物体，则感兴趣的区域保持不变。该系统返回到步骤440，增加(或保持所述增加)在感兴趣的区域周围的像素密度并捕捉下一帧数据。另一方面，如果探测到进入或离开场景的物体，则焦点引擎返回到步骤434，使得可以再次标识感兴趣的区域。

以上所描述的示例中，感兴趣的区域是主动标识的，且感兴趣的区域可以随新的帧数据改变。在本技术的进一步的实施例中，可以被动地设置感兴趣的区域。即是说，可以在场景内设置一个或多个预定义的焦点区域，且为那些区域内的图像数据提供更多的焦点。这些区域不随移动到场景中或者离开场景的用户或其他物体而改变。下面参考图13的流程图和图10的阐释来解释这样的实施例。

在图10和图13的实施例中，一个或多个预定义的焦点区域可以位于场景的任意选择的位置。图10示出沿着y轴并沿着整个x轴的中间高度的焦点区域356。尽管在图10中不指示，但焦点区域可以沿着整个z轴扩展。这一焦点区域356是作为示例的，且被建立为将在场景中的任何3D区域定义成焦点区域。在各实施例中，对给定的捕捉设备20，这一区域可以是固定的和持久的，而不考虑在计算环境12上运行的应用程序。

在进一步的实施例中，代替是持久的情况，在计算环境12上运行的应用程序可以基于该应用程序设置焦点区域356。在此类实施例中，在应用程序运行的持续时间内，焦点区域将是固定的。例如，如果应用程序是英式足球游戏，则焦点区域可以沿着y轴的底部，以便捕捉运动员的脚的详尽的移动，也可以是在y轴的顶部，以便捕捉运动员的头的详尽的移动。对于读唇应用程序，焦点区域可以是沿着y轴的顶部和沿着x轴的部分，以便捕捉用户的脸的更多的细节。如图10中示出的，焦点区域356也可以被设置在沿着y轴的中间部分，以便在与应用程序或操作系统的用户菜单或其他控制功能交互时捕捉用户的手的更多细节。本领域中的技术人员应明白，焦点区域356的各种各样的其他位置取决于正在执行的应用程序或操作。

在上面的实施例中，在应用程序运行的持续时间内，焦点区域356可以位于单个位置。在进一步的实施例中，可以想象，焦点区域356在应用程序的控制下移动。例如，应用程序的第一时间周期可能需要与用户的脚相关的详尽的图像数据，且应用程序的第二时间周期可能需要与用户的手相关的详尽的图像数据。在这样的示例中，在应用程序从第一时间周期转换到第二时间周期时，应用程序可以移动焦点区域。

在图10和图13的被动焦点实施例中，焦点区域中的焦点可以比焦点区域外的场景的区域大。因而，在焦点区域356内的用户或物体图像数据将比在焦点区域外的图像数据大。可以通过以上相对于主动标识的感兴趣的区域所描述的任何方法来增加焦点区域中的图像数据的细节。这样的方法包括但不限于光学变焦和数字变焦、增强算法、增加焦点区域中的像素密度以及降低焦点区域外的区域中的像素密度(例如通过像素组合)。也可以使用以不同的解析度捕捉图像数据的两个分离的捕捉设备20来定义场景内的焦点区域。

另外，对于其中给定的捕捉设备的焦点区域是持久的实施例，可以通过整形捕捉设备中的照相机的透镜或以另外方式控制透镜特性来创建焦点区域。例如，透镜可以被形成为创建鱼眼效果，其中图像的中心的物体比侧边的物体更大。这样的效果导致在图像中图像的中心中的物体比侧边的物体具有更多像素和更多细节的图像。可以通过其他方法来改变照相机透镜，以便将焦点区域移动到在场景内的任何所期望的区域。

图13示出被动焦点区域的实施例的操作。在步骤450中，可以启动系统10。在步骤454中，可以通过以上所描述的任何方法来相对于焦点区域外的区域增加焦点区域中的焦点。在其中作为透镜特性的结果自动创建增加焦点区域的实施例中，步骤454将被跳过(这是因为所增加的聚焦对该系统来说将是固有的，且不需要主动执行分离的步骤)。因而在图13中用虚线示出步骤454。

此后，被动焦点实施例的操作像在正常图像捕捉操作那样进行。在步骤465中捕捉图像数据。在步骤460中，该图像数据可以被用于姿势识别、应用程序控制和/或操作系统控制。如上所述，给定来自焦点区域的图像数据的经增加的细节，来自这一区域内的数据可以被用于辨别细微的移动和姿势。在步骤462中，包括感兴趣的区域的更高密度的图像数据在内的图像数据也可以被用来呈现图像，且然后，对随后的数据帧重复步骤456到步骤462。

到目前为止所描述的各实施例中，已经在照相机内或者通过处理来自照相机的图像数据来完成来自场景的所增加的细节。然而，场景的照明也可以对从受照射的区域导出多少细节具有显著效果。通常，NUI系统采用尝试均匀照射场景的所有区域的照明系统。然而，如上面所解释，从场景的一些区域获取更多细节是有用的，且从其他区域获取细节是较不重要的。因而，IR光源24可以被主动地或被动地控制为较好照射在该场景内的某些感兴趣的区域。下面参考图14和15解释主动照明和被动照明实施例。

最初参见图14，在步骤470到步骤478，启动系统10、获取n帧图像数据和标识场景中的感兴趣的区域，如上所述。在步骤480中，IR光源24可以聚焦于该区域。这可以以许多方式来完成。在一种实施例中，可以由机械装置来聚焦光源，诸如例如使得发射光变窄和将光源24支撑在诸如2轴万向节等的支架上，该2轴万向节允许在场景的x-y平面中光源的受控绕轴选准。其他机械系统是已知的。

在进一步的实施例中，可以过滤来自源24的光，以便相对于其他波长强调一个或多个波长。基于感兴趣的区域中的物体的性质选择这些波长。尤其，基于哪些波长将在感兴趣的区域中的物体具有最大反射率来选择一个或多个波长。

在任一实施例中，通过聚焦光源的感兴趣的区域的较好照明将增加接收从感兴趣的区域反射的光的像素中的信息和细节。此外，从场景的静态区域反射的光中的任何减少将减少感兴趣的区域的像素中的光噪声。

经聚焦的光的实施例可以与以上所描述的用于IR光源24的任何光系统一起操作，包括例如脉冲光、相位测量、渡越时间和结构化光。可能希望为这些光系统中的一个或多个调整从IR光源24发出的光的脉冲频率、光图案和相位中的一个，这取决于光被定向到场景中的何处。

在步骤482中，捕捉到下一帧数据。如上所述，在步骤484中，该图像数据可以被用于姿势识别、应用程序控制和/或操作系统控制。如上面所解释，在步骤486中，图像数据也可以被用来呈现图像。在步骤488中，焦点引擎192检查从新的数据帧进入或离开场景的任何物体。如果没有探测到进入或离开场景的物体，则感兴趣的区域保持不变。该系统返回到步骤482并使用相同的经聚焦的光来捕捉下一帧数据。另一方面，如果探测到进入或离开场景的物体，则焦点引擎192返回到步骤474，以便可以再次标识感兴趣的区域。

图15示出其中来自光源的光可以被定向到被动焦点区域的实施例。在这样的实施例中，光源保持对准特定区域，而不考虑从移动到场景中或离开场景。在步骤490中可以启动系统10，且在步骤492中光源被聚焦于特定的任意选择的区域。借助于被聚焦于特定区域的光源，在步骤494中获取下一帧数据。然后，在步骤496中，来自图像的图像数据可以被用来识别用户姿势、控制在计算环境上运行的应用程序的各方面和/或控制计算环境12上的操作系统的各方面。在步骤498中可以呈现图像，且然后，对随后的数据帧重复步骤494到498。

代替上面相对于图11到图13所描述的图像细节上的主动聚焦和被动聚焦，或者与之结合，可以使用上面相对于图14到15所描述的光源的主动聚焦和被动聚焦。

如上所述，提供在图像数据内的更多的细节可以促进较好的姿势探测以及更精细、更细微的姿势的探测。图15示出姿势识别引擎190的框图，且图16示出图15的姿势识别引擎190的操作的框图。在步骤550中，姿势识别引擎190接收姿态信息500。姿态信息可以包括与在图像数据中所探测的用户的身体部分和关节的位置和/或运动相关的各种参数。

在步骤554中，姿势识别引擎190分析所接收的姿态信息500，以便了解该姿态信息是否匹配被存储在姿势库540内的任何预定义的规则542。所存储的规则542描述由姿态信息500指示的特定位置和/或动作何时应被解释为预定义的姿势。在各实施例中，每一姿势可以具有不同的、唯一的规则或规则集542。每一规则可以具有图4中所示出的身体部分中的一个或多个的许多参数(关节位置向量、最大值/最小值位置、位置的改变等等)。对于每一参数和图4中所示出的每一身体部分302到330，所存储的规则可以定义单个值、值域、最大值、最小值、或者该身体部分的参数与判断由该规则覆盖的姿势不相关的指示。各规则可以由游戏作者、游戏平台的宿主或用户自己创建。

姿势识别引擎190可以输出经标识的姿势和置信度水平两者，置信度水平对应于用户的位置/移动对应于该姿势的可能性。尤其，除了定义姿势所要求的参数之外，规则还可以包括在姿态信息500被解释为姿势之前所要求的阀值置信度水平。一些姿势可以具有比系统命令或游戏指令更多的影响力，且因而在姿态被解释该姿势之前要求更高的置信度水平。姿态信息与所存储的规则的参数的比较得到关于该姿态信息是否指示姿势的累积置信度水平。

一旦已经确定关于给定的姿态或运动是否满足给定的姿势规则的置信度水平，然后，在步骤556中，姿势识别引擎190就判断置信度水平是否高于所考虑的规则的预先确定的阀值。阀值置信度水平可以与所考虑的规则关联存储。如果置信度水平低于阀值，则没有探测到姿势(步骤560)且不采取动作。另一方面，如果置信度水平高于阀值，则判断用户的运动满足所考虑的姿势规则，且在步骤564中姿势识别引擎190返回所标识的姿势。

给定本技术的系统所提供的更多的图像细节，姿势库540可以包括比常规系统中更细微和更精细的姿势定义，且所接收的姿态信息500可以包括更详尽的信息，使得该系统可以确定是否已经执行这些更细微和更精细的姿势。

已经处于阐释和描述的目的呈现了本发明系统的前述的详细描述。它不旨在是详尽的，也不旨在将本发明系统限制为所公开的精确形式。按照上面的教导，许多修改和变更是可能的。选择所描述的实施例是为了最好地解释本发明系统的原理及其实际应用，由此允许本领域中的其他在各种实施例中以适于所预期的特定用途的各种修改来最好地利用本发明系统。规定本发明系统的范围由所附权利要求定义。

Claims

1.在一个包括被耦合到用于捕捉运动的捕捉设备(20)的计算环境(12)的系统(10)中，一种增加在由捕捉设备(20)捕捉的场景中的一个或多个感兴趣的区域(360)中的图像细节的方法，包括：

a)从所述场景接收(步骤402)信息；

b)标识在所述场景内(步骤404)的所述一个或多个感兴趣的区域(360)；

c)获得(步骤410)关于在所述场景内的所述一个或多个感兴趣的区域(360)的、相对于在所述场景中在所述一个或多个感兴趣的区域外的区域更多的图像细节；以及

d)至少周期性地监视(步骤402)在所述场景中的在所述一个或多个感兴趣的区域(360)外的信息，以便判断是否重新定义所述一个或多个感兴趣的区域(360)。

2.如权利要求1所述的方法，所述标识在所述场景内的所述一个或多个感兴趣的区域的步骤b)包括标识在所述场景内的移动区域的步骤。

3.如权利要求1所述的方法，所述获得关于在所述场景内的所述一个或多个感兴趣的区域的更多的图像细节的步骤c)包括执行机械变焦或数字变焦的其中之一以便聚焦于在所述一个或多个感兴趣的区域中的至少一个感兴趣的区域的步骤。

4.如权利要求1所述的方法，所述获得关于在所述场景内的所述一个或多个感兴趣的区域的更多的图像细节的步骤c)包括通过对图像数据执行图像增强算法来增强图像数据的步骤。

5.如权利要求1所述的方法，所述获得关于在所述场景内的所述一个或多个感兴趣的区域的更多的图像细节的步骤c)包括增加在所述一个或多个感兴趣的区域周围的像素密度的步骤。

6.如权利要求1所述的方法，所述获得关于在所述场景内的所述一个或多个感兴趣的区域的更多的图像细节的步骤c)包括变更所应用的光源以便将所述光源聚焦于所述一个或多个感兴趣的区域的至少一个感兴趣的区域的步骤。

7.如权利要求1所述的方法，所述获得关于在所述场景内的所述一个或多个感兴趣的区域的更多的图像细节的步骤c)包括将在所述一个或多个感兴趣的区域外的区域的图像数据的像素组合在一起的步骤。

8.如权利要求1所述的方法，所述标识在所述场景内的所述一个或多个感兴趣的区域的步骤b)包括标识在所述场景内的感兴趣的三维区域的步骤。

9.在一个包括被耦合到用于捕捉运动的捕捉设备(20)的计算环境(12)的系统(10)中，一种增加在由捕捉设备(20)捕捉的场景中的一个或多个感兴趣的区域(360)中的图像细节的方法，包括：：

a)定义在所述场景内的焦点区域(356)，所述焦点区域(356)被定义为与在所述场景内的一个或多个所预期的感兴趣的区域(360)对应；以及

b)获得关于在所述场景内的焦点区域(356)的、相对于在所述场景中在所述一个或多个感兴趣的区域(360)外的区域更多的图像细节。

10.如权利要求9所述的方法，所述定义在所述场景内的焦点区域的步骤a)包括定义应用程序特定的焦点区域的步骤，其中所述应用程序将所述焦点区域定义为与在所述应用程序中所预期的一个或多个感兴趣的区域对应。

11.如权利要求9所述的方法，所述定义在所述场景内的焦点区域的步骤a)包括在所述场景内定义永久焦点区域的步骤。

12.如权利要求9所述的方法，所述获得关于所述焦点区域的更多的图像细节的步骤b)包括通过像素组合来扩大在所述焦点区域外的像素的步骤。

13.在一个包括被耦合到用于捕捉运动的捕捉设备(20)的计算环境(12)的游戏系统(10)中，一种增加在由捕捉设备(20)捕捉的场景中的一个或多个感兴趣的区域(360)中的图像细节的方法，包括：

a)从所述场景接收(步骤402)信息；

b)标识(步骤404)在所述场景内的一个或多个用户(360)；

c)获得(步骤410)关于在所述场景内的一个或多个用户的至少一身体部分的、相对于在所述场景中除所述一个或多个用户之外的区域更多的图像细节；

d)使用(418)在所述步骤c)中所获得的关于在所述场景内的所述一个或多个用户的至少所述身体部分的所述更多的图像细节来标识由所述一个或多个用户执行的姿势；以及

e)至少周期性地监视(步骤402)在所述场景中在所述一个或多个用户(360)外的信息，以便判断是否向在所述步骤c)中获得关于其的更多的图像细节的一个或多个用户的所述组添加或减去一用户。

14.如权利要求13所述的方法，所述获得关于所述一个或多个用户的至少一身体部分的更多的图像细节的步骤c)包括获得关于两个不同的物体的更多的图像细节的步骤。

15.如权利要求13所述的方法，所述使用所述更多的图像细节来标识姿势的步骤d)包括使用所述更多的图像细节来标识由所述用户的足、手、脸或嘴执行的姿势。