CN105051755A

CN105051755A - 用于姿势识别的部位和状态检测

Info

Publication number: CN105051755A
Application number: CN201480005256.XA
Authority: CN
Inventors: C·J·欧佩瑞; P·J·安塞尔; J·D·J·肖顿
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-01-18
Filing date: 2014-01-14
Publication date: 2015-11-11
Also published as: KR20150108888A; WO2014113346A1; EP2946335A1; US20140204013A1; JP2016503220A

Abstract

用于姿势识别的部位和状态检测对人机交互、计算机游戏，和实时识别姿势的其它应用是有用的。在各种实施例中，使用决策森林分类器以部位和状态标记两者来给输入图像的图像元素加标记，其中部位标记标识可变形对象的组件(诸如指尖、手掌、手腕、唇、笔记本电脑盖)，并且其中状态标记标识可变形对象的配置(诸如打开、关闭、上、下、张开、握紧)。在各实施例中，部位标记被用于计算身体各部位的重心，且部位标记、重心和状态标记被用于实时或接近实时地识别姿势。

Description

用于姿势识别的部位和状态检测

背景

用于人机交互、计算机游戏和其它应用的姿势识别难以达到准确和实时。许多姿势，诸如那些用人手作出的，是细节的并且难以互相区分。同样，用于捕捉姿势的图像的设备可能是嘈杂和易于出错的。

一些先前的方法已经在游戏玩家的图像中标识了身体各部位并随后，在分开的阶段，使用身体各部位计算身体各部位的3D空间坐标以形成玩家的骨架模型。该方法可能是计算密集的并且可能易于出错，其中身体部位标识不稳健。例如，当发生身体部位遮挡时，其中非寻常的关节角发生或归因于身体大小和形状改变。

其它先前的方法通过缩放和旋转图像来匹配所存储的对象模板来使用模板匹配。这些类型的方法涉及大的计算能力和存储容量。

以下描述的各实施例不限于解决已知姿势识别系统的缺点中的任一个或全部的实现。

发明内容

下面呈现了本发明的简要概述，以便向读者提供基本理解。本概述不是本公开的穷尽概览，并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是以简化形式呈现此处所公开的精选概念，作为稍后呈现的更详细的描述的序言。

通过结合附图参考以下详细描述，可易于领会并更好地理解许多附带特征。

附图简述

根据附图阅读以下具体实施方式，将更好地理解本发明，在附图中：

图1是使用传统键盘输入、空中姿势和键盘上姿势来操作桌面计算系统的用户的示意图；

图2是图1的捕捉系统和计算设备的示意图；

图3是姿势识别的方法的流程图；

图4是生成训练数据的装置的示意图；

图5是随机决策森林的示意图；

图6是存储在随机决策树的叶节点处的概率分布的示意图；

图7是存储在随机决策树的叶节点处的两个概率分布的示意图；

图8是用于分类部位和状态的第一第二阶段随机决策森林的示意图；

图9是在测试时使用经训练的随机决策森林的方法的流程图；

图10是训练随机决策森林的方法的流程图；

图11示出可在其中实现姿势识别系统的实施例的示例性的基于计算的设备。

在各个附图中使用相同的附图标记来指代相同的部件。

具体实施方式

下面结合附图提供的详细描述旨在作为本发明示例的描述，并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能，以及用于构建和操作本发明示例的步骤的序列。然而，可以通过不同的示例来实现相同或等效功能和序列。

虽然在本文中将本发明的示例描述并示出为用于人手的部位和状态识别系统中实现，但所描述的系统只是作为示例而非限制来提供的。本领域的技术人员将会理解，本示例适于应用于各种不同类型的部位和状态识别系统，包括但不限于完全身体姿势识别系统、手和臂姿势识别系统、面部姿势识别系统和用于识别关节连接的对象、可变形对象或静态对象的部位和状态的系统。做出要被识别的姿势的实体可以是人、动物、植物或其它对象(可以是或者不是活的)，诸如膝上计算机。

描述了部位和状态识别系统，其包括被训练来针对部位和状态两者分类图像的图像元素的随机决策森林。例如，人手和前臂的深度图像的实况视频馈送被实时处理，以检测诸如指尖、手掌、手腕、前臂的各部位，并且还检测诸如握紧、张开、上、下的状态。在一些示例中，部位和状态标记被经训练的森林同时分派。这可被用作姿势识别系统的一部分，用于控制基于计算的设备，如现在参照图1描述的。然而，这是一个示例；部位和状态识别功能可被用于其它类型的姿势识别或者用于识别可改变配置的对象(诸如膝上计算机)或静态对象(可改变它们相对于视点的朝向)的部位和状态。

首先参考图1，图1示出了用于控制基于计算的设备102的示例控制系统100。在此示例中，控制系统100允许基于计算的设备102由传统输入设备(例如鼠标和键盘)和手部姿势控制。所支持的手部姿势可以是触摸手部姿势、空中姿势或其组合。“触摸手部姿势”可以是一只或多只手在与表面接触时的任何预定义的移动。表面可以包括或不包括触摸传感器。“空中姿势”可以是一只或多只手在空中时(一只或多只手没有接触表面)的任何预定义的移动。

通过整合控制的两个模式，用户以便于使用的方式体验了每种控制模式的益处。具体而言，许多基于计算的设备102的行为被调整到传统输入(例如，鼠标和键盘)，特别是那些需要广泛的创作、编辑或细化的操纵，诸如文档撰写、编码、创建演示或图形设计任务。然而，存在这些任务的各元素，诸如模式转换、窗口和任务管理、菜单选择和特定类型的导航，它们被卸载到快捷方式和辅助按键或上下文菜单(可使用诸如触摸手部姿势和/或空中手部姿势的其它控制方式更容易地实现)。

图1所示的基于计算的设备102是传统的桌面计算机，具有分开的处理器组件104和显示屏106；然而，在此描述的方法和系统同样可以应用到处理器组件104和显示屏106为集成的(诸如膝上计算机或平板计算机)基于计算的设备102。

控制系统100还包括诸如键盘的输入设备108，其与基于计算的设备通信以允许用户通过传统方式控制基于计算的设备102；捕捉设备110(例如，输入设备108)，用于检测用户手部相对于环境中的参照物的位置和移动；以及用于解释从捕捉设备110获得的信息以控制基于计算的设备102的软件(未示出)。在一些示例中，用于解释来自捕捉设备110的信息的软件的至少一部分被集成到捕捉设备110。在其它示例中，软件被集成或加载到基于计算的设备102。在其它示例中，软件位于与基于计算的设备102诸如通过因特网进行通信的另一个实体处。

在图1中，捕捉设备110安装在上方并向下指着用户的工作表面112。然而，在其它示例中，捕捉设备110可被安装在参照物(例如，键盘)或环境中的另一个合适的对象之中或之上。

在操作中，可以使用捕捉设备110相对于参照物(例如，键盘)跟踪用户的手，以使得用户手的位置和移动可以被基于计算的设备102(和/或捕捉设备110)解释为可用于控制由基于计算的设备102执行的应用的触摸手部姿势和/或空中手部姿势。结果，除了能够通过传统的输入(例如，键盘和鼠标)来控制基于计算的设备102之外，用户可通过以预定义的方式或模式在参照物(例如，键盘)上或上方移动他或她的手来控制基于计算的设备102。

因此，图1的控制系统100能够识别在参照物(例如，键盘)上和围绕参照物的触摸以及在参照物上方的空中姿势。

现在参考图2，示出了可在图1的控制系统100中使用的捕捉设备110的示意图。图2中的捕捉设备110的位置只是一个示例。可使用捕捉设备的其它位置，诸如在桌面上向上看或其它位置。捕捉设备110包括至少一个用于捕捉用户的手的图像流的成像传感器202。成像传感器202可以是任何深度相机、RGB相机、捕捉或产生轮廓图像的成像传感器中的一个或多个，其中轮廓图像描绘对象的外形。成像传感器202可以是被安排成捕捉场景的深度信息的深度相机。深度信息可以是包括深度值的深度图像的形式，即深度值是与深度图像的每个图像元素相关联的值，该值和该深度相机和由该图像元素描绘的项目或物体之间的距离有关。

深度信息可以使用任何合适的技术获得，包括例如飞行时间、结构化光、立体图像等。

所捕捉的深度图像可包括所捕捉的场景的两维(2-D)区域，其中该2-D区域中的每个图像元素表示一深度值，诸如所捕捉的场景中的物体离成像传感器202的长度或距离。

在一些情况中，成像传感器202可以是从不同角度查看场景的两个或更多个物理上分开的相机的形式，以便获得能被解析以生成深度信息的视觉立体数据。

该捕捉设备110还可包括被安排为以可由成像传感器202查明深度信息的方式来照亮该场景的发射器204。

捕捉设备110还可包括至少一个处理器206，处理器206与成像传感器202(例如，深度相机)和发射器204(如果存在的话)进行通信。处理器206可以是通用微处理器、或专用信号/图像处理器。处理器206被安排来执行指令以控制成像传感器202和发射器204(如果存在的话)来捕捉深度图像。处理器206可以可任选地被安排为对这些图像和信号执行处理，如以下更详细地概述的。

捕捉设备110还可以包括存储器208，该存储器被安排来存储由处理器206执行的指令、由成像传感器202捕捉到的图像或帧、或任何其他合适的信息、图像等。在一些示例中，存储器208可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。存储器208可以是与处理器206通信的分开的组件，或者可被集成到处理器206中。

捕捉设备110还可包括与处理器206通信的输出接口210。输出接口210被安排来经由通信链路向基于计算的设备102提供数据。该通信链路可以是，例如，有线连接(诸如USB^TM、火线^TM、以太网^TM或类似连接)和/或无线连接(诸如WiFi^TM、蓝牙^TM或类似连接)。在其他示例中，输出接口210可与一个或多个通信网络(例如，因特网)接口并经由这些网络向基于计算的设备102提供数据。

基于计算的设备102可包括被配置来执行与姿势识别相关的一个或多个功能的姿势识别引擎212。可由姿势识别引擎执行的示例功能参照图3来描述。例如，姿势识别引擎212可被配置来把由捕捉设备110捕捉的图像的每个图像元素(例如像素)分类为可显著变形对象部位(例如指尖、手腕、手掌)和状态(例如，向上、向下、打开、关闭、指向)。状态、部位和可选的各部位的重心可被姿势识别引擎212使用作为语义姿势识别的基础。该分类方法导致大量简化的姿势识别引擎212。例如，它允许通过查找预定数量的图像的特定对象状态或对象状态之间的转移来识别一些姿势。

应用软件214也可执行在基于计算的设备102上，并使用从输入设备108(例如，键盘)接收到的输入以及姿势识别引擎212的输出(例如，所检测的触摸和空中手部姿势)来控制。

图3是姿势识别的方法的流程图。该方法的至少一部分可在图2的姿势识别引擎212处执行。至少一个经训练的随机决策森林304(或其它分类器)对姿势识别引擎212是可访问的。随机决策森林304可在离线进程302中被创建并被训练，并且被存储在基于计算的设备102处或在云中或以其他方式与基于计算的设备102通信的任何其它实体处。随机决策森林304被训练以用部位和状态标记两者310来标记输入图像308的图形元素，其中部位标记标识可变形对象的各组件(诸如指尖、手掌、手腕、嘴唇、膝上电脑盖子)，其中状态标记标识对象的配置(诸如打开、关闭、张开、握紧)或对象的朝向(诸如向上、向下)。图像元素可以是图像中的像素、像素组、体素、体素组、团块、补丁或其他分量。随机决策森林304以快捷、简单的方式提供部位和状态标记两者，它不是计算昂贵的并且可实时或接近实时地在来自图1的捕捉设备110的实况视频馈送上执行，即使在单线程化的实现中使用传统计算硬件。同样，部位标记可在快捷且准确的进程中使用以计算每个部位的重心。这允许获得对象部位的3D位置。

状态和部位标记和重心可被输入到姿势检测系统312，相比于先前的姿势检测系统而言其因它使用的输入的特性而被极大地简化。例如，输入允许通过查找预定数量的图像的特定对象状态或对象状态之间的转移来识别一些姿势。

如上所述，随机决策森林304可在离线进程中被训练302。训练图像300被使用，且关于训练图像如何被获得的更多细节现在参照图4给出。关于训练随机决策森林的方法的细节稍后在本文中参照图10给出。

计算机实现的训练数据生成器414生成地面实况标记的图像400(亦称训练图像)并对其打分。地面实况标记的图像400可包括许多对图像，每对422包括对象424的图像和那个图像的经标记的版本426，其中相关图像元素(诸如前景图像元素)包括部位标记并且至少一些图像元素还包括状态标记。一对图像402的示例在图4中示意性地示出。该对图像402包括手404的图像和那个图像的经标记的版本406，其中指尖408取一个标记值，手腕412取第二标记值，而手的其余部分取第三标记值410。在训练图像中描绘的对象和使用的标记可根据应用领域而变化。训练各对象的图像及那些对象的配置和朝向的各示例根据应用领域、存储和可用计算资源尽可能宽。

各训练图像对可使用计算机图形技术合成地生成。例如，计算机系统416可访问对对象的虚拟3D模型418和渲染工具420。使用虚拟3D模型，渲染工具420可被安排来生成虚拟3D模型在不同状态的多个图像并且还产生各版本的经渲染的图像，其针对状态和部位做标记。例如，人手的虚拟3D模型被放置在随机决策森林要分类的不同离散状态，并在连接角度配置和外观上具有轻微的随机变换，如骨骼长度和周长来适应不同用户和摆姿势的样式。3D模型的2D渲染可从许多不同的看似真实的视点自动生成。在所捕捉的图像是深度图像的情况下，一组渲染可以是合成深度图像。另一组渲染可用3D模型来生成，该3D模型用已标记数据加纹理，其中手指、前臂和手掌被上色且其中手掌区域的颜色基于当前手的状态来确定。这导致具有已标记的手的各部分的多个深度图像，并且其中描绘手掌的图像元素也针对状态被标记。不同于手掌的其它区域针对状态来被使用，诸如整个手或手掌和手指；在此讨论的描绘手掌的图像元素也针对状态来做标记的示例只是一个示例。

各训练图像对可包括来自计算机实现的图像捕捉和标记组件428的实时图像。例如，对象上的传感器可被用来跟踪其配置和朝向并对其各部位做标记。在手部姿势的情况中，数字手套430可被移动他或她的手做姿势供系统检测的用户穿戴。由数字手套430感测的数据可被用来标记相机捕捉的各图像。

在一些示例中，运动捕捉设备432被用来记录对象的移动。例如，声学、惯性、磁性、发光、反射或其它标志被人或其它可变形对象穿戴，并被用来跟踪对象的配置和朝向的改变。

当合成图像的使用对于经精确注释的图像有用，确保合成图像接近地匹配实际手的真实图像是困难的。因此，在一些示例中，除了使用合成图像，实际对象的图像的使用可增强系统的精确度。另一个选择是将合成噪声添加到合成的经渲染的图像。

图5是包括三个随机决策树500、502、504的随机决策森林的示意图。可使用两个或更多个随机决策树。为清楚起见在此示例中示出三个随机决策树是用于存储在训练阶段期间累积的数据以使得该数据可用于做出关于随机决策树先前未看见的示例的预测的一种类型的数据结构。随机决策树通常被用作所有随机决策树(称为森林)的一部分，针对特定应用领域训练所有随机决策树中的这部分随机决策树以实现泛化(即，能够做出关于不像用于训练森林的那些示例的示例的良好预测)。随机决策树具有根节点506、多个分割节点508以及多个叶节点510。在训练期间，学习树结构(节点数量和节点如何连接)以及将在每一个分割节点处使用的分割函数。另外，在训练期间在叶节点处累积数据。关于这一训练过程的更多细节在下文参考图10给出。

在此处描述的各示例中，随机决策森林被训练来以部位和状态标记两者对图像的图像元素加标记(或分类)。先前随机决策森林已经被使用来以部位标记(但没有以部位和状态标记两者)分类图像的图像元素。根据诸多原因，修改现有随机决策森林系统以通过部位和状态两者分类图像元素不是直接的。例如，部位和状态的可能的组合的数量对于大多数应用领域(存在实时处理约束)来说是通常昂贵的。其中存在大量可能的状态和部位组合，那么将状态和部位的交叉产品用作类来训练随机决策森林是计算上昂贵的。

在此描述的各示例中，单个像素级标记(部位标记)和整个图像级标记(状态标记)在单个框架中的混合使用允许对图像的快捷且高效的部位和状态标记用于姿势识别。

在用于在每一个分割节点处做出决定的过程中，图像中的图像元素可从根到叶节点地被推动通过随机决策森林中的各个树。根据图像元素的特性以及测试图像元素的特性来做出该决定，测试图像元素从图像元素位移达分割节点处的参数所指定的空间偏移。在分割节点处，图像元素沿着根据决定的结果来选择的分支向下前进至树的下一层。随机决策森林可使用如下文更详细地描述的递归或归类。在训练期间，学习参数值(也被称为特征)以供在分割节点处使用，并且在叶节点处累积包括部位和状态标记表决的数据。

在训练期间在叶节点处存储所有累积数据可以是非常存储器密集的，因为通常使用大量训练数据来用于实际应用。在一些实施例中，数据被聚集以使其可以按紧凑方式存储。可使用各种不同聚集过程。

决策树t的每个叶节点可存储经学习的跨各部位和各状态c的概率分布P_t(c|u)。这些分布可接着跨树(例如通过平均)被聚集，以到达如以下等式所示的最终分布

P (c | u) = \frac{1}{T} Σ_{t = 1}^{T} P_{t} (c | u)

其中P(c|u)被解释为逐个图像元素表决，其手部为图像元素所属的并且手状态被编码。T是森林中的树的总数量。

在测试时间，将先前未看见的图像输入到经训练的森林以使其图像元素被加标记。输入图像中的每一个图像元素可通过经训练的随机决策森林中的每一颗树以及从叶获取的数据来发送。以此方式，部位和状态标记表决可通过将每一个图像元素与从该图像元素位移达所习得的空间偏移的测试图像元素进行比较来做出。每一个图像元素可以作出多个部位和状态标记表决。这些表决可根据各种不同的合计方法来合计以给出所预测的部位和状态标记。测试时间过程因此可以是将输入图像应用于经训练的随机决策森林以直接获得所预测的部位和状态标记的单阶段过程。该单阶段过程可以按快速且有效的方式执行以便实时给出高质量结果。

如上所述，在训练期间在叶节点处存储累积数据可以是非常存储器密集的，因为通常使用大量训练数据来用于实际应用。这特别是部位和状态标记两者都要被预测的情况，因为部位和状态标记的可能组合的数量可能是高的。因此在一些实施例中，针对可能部位的子集来预测状态标记，如现在参考图6描述的。

图6是图5的随机决策森林之一的示意图，示出在叶节点510处累积的数据600，其中数据600以直方图形式存储。该直方图包括多个柱并示出了柱计数或每个柱的频率。在这个示例中，随机决策树将图像元素分类到三个可能的部位和四个可能的状态标记。三个可能的部位是手腕、指尖和手掌。四个可能的状态是：上、下、打开和闭合。在此示例中，状态标记对手掌图像元素而不是其它部位的图像元素可用。例如，这是因为训练数据包括手部图像，其中手指、前臂和手掌被上色且其中手掌的颜色基于当前手状态来改变。因为状态标记对至少一个但不是全部部位可用，可能的组合的数量被减少，并且数据可被比以其他方式可能的形式更紧凑的形式存储。

图7是图5的随机决策森林之一的示意图，示出在叶节点510处累积的数据700，其中数据700以两个直方图形式存储。一个直方图存储状态标记频率且其它直方图存储部位标记频率。这允许相比于图6的示例而言更多的组合被呈现，但不会不恰当地增加存储容量的要求。在该情况中，训练数据可包括针对每个部位的状态标记。另一选项是在每个叶处使用单个直方图来代表状态和部位标记的全部可能的组合。再次，训练数据可包括针对每个部位的状态标记。

图8是另一个实施例的示意图，其中第一阶段随机决策森林800被用来将图像元素分类到各部位并给出部位分类802。部位分类802被用来选择多个第二阶段随机决策森林804、806、808之一。可存在针对每个可能的部位分类(诸如图8的示例中的手腕、手掌、指尖)的第二阶段随机决策森林。一旦第二阶段随机决策森林被选择，那么测试图像元素可被输入到所选第二阶段森林以获得测试图像的状态810分类。尽管标记不同，第一和第二阶段森林可使用相同图像来训练，以反映第一和第二阶段的标记方案。

图9示出了用于使用已用针对部位和状态两者标记的训练图像进行训练过的决策森林来预测先前未见的图像中的部位和状态标记的过程的流程图。参考以下图10描述的训练过程是示例性的。首先，接收未见图像900。图像被称作“未见”以将其与部位和状态标记已指定的训练图像相区分。注意未见图像可用被预处理到一程度，例如以标识前景区域，其减少了要被决策森林处理的图像元素的数量。然而，预处理以标识前景区域是不必要的。在一些示例中，未见图像是轮廓图像、深度图像或彩色图像。

来自未见图像的图像元素被选择902。来自决策森林的经训练的决策树也被选择904。通过所选择的决策树推动所选图像元素906，以使得在一节点处对照经训练的参数进行测试，然后取决于该测试的结果而将其传递到适当的子，并且该过程重复直到该图像元素到达叶节点。一旦图像元素到达叶节点，(来自训练阶段的)与这个叶节点相关联的累积的部位和状态标记表决针对该图像元素被存储908。部位和状态标记表决可以具有如参考图6和7描述的直方图的形式，或可以具有另一个形式。

如果确定910该森林中存在更多决策树，则新决策树被选择904，推动906图像元素通过该树并存储累积的表决908。重复此过程，直到对于该森林中的所有决策树都执行了该过程。注意，用于推动图像元素通过决策树林中的多个树的过程还可以并行执行，而不是如图9所示按序列执行。

接着确定912未见图像中是否存在其他未分析的图像元素，并且如果存在则选择另一图像元素并且重复该过程。一旦未见图像中的全部图像元素已被分析，那么针对全部图像元素的部位和状态标记表决被获得。

当图像元素被推动通过决策森林中的树时，表决累积。针对给定图像元素，累积的表决跨森林中的树聚集914，以形成针对每个图像元素的总的表决聚集。可选地，可以采用表决的采样用于聚集。例如，随机选取N个表决，或通过采用最高的N个加权了的表决，并且接着聚集过程仅仅应用到那些N个表决。这允许针对速度来权衡准确度。

至少一组部位和状态标记可接着被输出916，其中标记可被置信加权。这帮助任何随后的姿势识别算法(或其它过程)评估提议是否是好的。一组以上的部位和状态标记可被输出，例如，其中存在不确定性。

每个部位的重心可被计算918。例如，这可通过使用均值移位过程来计算每个部位的重心来获得。也可使用其他方法来计算重心。逐图像元素状态分类也可跨全部相关图像元素来聚集。例如，相关图像元素可以是在上面描述的示例中描绘手掌的那些。逐图像元素状态分类的聚集可以以各种方式实现，包括手掌(或其它相关区域)中的每个图像元素作出针对全局状态的表决，或每个图像元素基于概率作出软(概率)表决，或仅仅一些图像元素作出表决(如果它们对它们的表决足够自信)。

图10是用于训练决策森林以向图像的图像元素分配部位和状态标记的过程的流程图。这也可被认为是生成图像的图像元素的部位和状态标记表决。决策森林使用训练图像集来训练，如上参考图4所描述的。

参考图10，为了训练决策树，首先接收1000上述训练集合。选择1002将在随机决策森林中使用的决策树的数量。随机决策森林是决定性决策树的集合。决策树可以在归类或递归算法中使用，但是可能遭受过拟合，即糟糕的泛化。然而，许多经随机训练的决策树的全体(随机森林)产生改进的泛化。在训练过程期间，树的数量是固定的。

下面的注释被用于描述训练过程。图像I中的图像元素由其坐标x＝(x,y)限定。森林由被标记为Ψ₁,K,Ψ_t,K,Ψ_T的T个树构成，其中t索引每个树。

在操作中，每个树的每个根和分割节点对输入数据执行二元测试并基于其结果来将数据导向左侧或右侧的子节点。叶节点不执行任何动作；它们存储累积的部位和状态标记表决(以及可任选的其他信息)。例如，可存储表示所累积的表决的概率分布。

现在描述选择每个分割节点所使用的参数的方式以及可如何计算叶节点概率。从该决策森林中选择1004决策树(例如，第一决策树)，并且根节点1006被选择1006。然后选择1008来自每一个训练图像的至少一个图像元素子集。例如，图像可被分割，以使得前景区域内的图像元素被选择。

然后生成测试参数的随机集合以供在根节点处作为候选特征执行的二元测试使用1010。在一个示例中，该二元测试的形式是：ξ>f(x；θ)>τ，以使得f(x；θ)是被应用到图像元素x的函数，该函数具有参数θ，并且将该函数的输出与阈值ξ和τ进行比较。如果f(x；θ)的结果在ξ和τ之间的范围内，则该二元测试的结果为真。否则，该二元测试的结果为假。在其他示例中，可以只使用阈值ξ和τ中的一个，以使得如果f(x；θ)的结果大于(或可另选地，小于)阈值则该二元测试的结果为真。在此处描述的示例中，参数θ限定图像的特征。

候选函数f(x；θ)可仅利用在测试时可用的图像信息。函数f(x；θ)的参数θ在训练期间随机生成。用于生成参数θ的过程可包括生成二维或三维位移形式的随机空间偏移值。函数f(x；θ)的结果接着通过观察测试图像元素的图像元素值(如深度图像情况中的深度、强度或另一数量，取决于正在使用的图像的类型)来计算，其偏离图像中的感兴趣的图像元素x达到该空间偏移。通过缩放达1/感兴趣的图像元素的数量，空间偏移来任选地变得对被评估的数量不可变。阈值ξ和τ可用于决定测试图像元素是否具有部位和状态标记的特定组合。

在根节点或分割节点处执行的二元测试的结果确定图像元素被传递到哪个子节点。例如，如果二元测试的结果为真，则该图像元素被传递到第一子节点，而如果结果为假，则该图像元素被传递到第二子节点。

所生成的测试参数的随机集合包括函数参数θ的多个随机值以及阈值ξ和τ。为了将随机性注入到决策树中，仅对所有可能的参数的随机采样的子集Θ来优化每个分割节点的函数参数θ。这是将随机性注入树中的有效且简单的方式，并且增加泛化。

接着，可将测试参数的每个组合应用1012到训练图像集中的每个图像元素。换言之，对于每个训练图像中的每个图像元素，与ξ和τ的可用值相组合，一个接一个地尝试θ的可用值(即，θ_i∈Θ)。对于每个组合，准则(亦称目标)被计算1014。在一示例中，所计算的准则包括部位和状态上的单个或多个直方图的信息增益(也被称为相对熵)。优化准则(诸如最大化信息增益(被表示为θ^*、ξ^*和τ^*))的参数的组合被选择1014，并被存储在当前节点以供以后使用。作为对信息增益的另选，可以使用其他准则，诸如Gini熵，或“双ing(two-ing)”准则或其它。

然后确定1016所计算的准则的值是否小于(或大于)阈值。如果所计算的准则的值小于阈值，则这指示该树的进一步扩展不提供显著的益处。这引起了异步树，异步树在附加节点不是有益的时候自然停止生长。在此情况下，将当前节点设置1018为叶节点。类似地，确定该树的当前深度(即，在根节点和当前节点之间有多少层节点)。如果此值大于预定义的最大值，则将当前节点设置1018为叶节点。每一个叶节点都具有在如下所述的训练过程期间在该叶节点处累积的部位和状态标记表决。

与已经提及的那些停止准则相结合地使用另一停止准则也是可能的。例如，用于评估到达叶的示例图像元素的数量。如果存在太少的示例(与例如阈值相比)，则该过程可被安排成停止以避免过拟合。然而，不一定使用该停止准则。

如果所计算的准则的值大于或等于阈值且树深度小于最大值，则将当前节点设置1020为分割节点。在当前节点是分割节点时，它具有子节点，并且该过程随后移至训练这些子节点。在当前节点处使用训练图像元素的子集来训练每个子节点。使用优化准则的参数来确定被发送至子节点的图像元素的子集。在二元测试中使用这些参数并且对当前节点处的所有图像元素执行1022该二元测试。通过该二元测试的图像元素形成被发送至第一子节点的第一子集，而没有通过该二元测试的图像元素形成被发送至第二子节点的第二子集。

对于子节点中的每一个，对被定向至相应子节点的图像元素的子集递归地执行1022图10的框1010到1024中所概述的过程。换言之，对于每一个子节点，生成1010新的随机测试参数并将其应用1012于图像元素的相应子集，选择1014优化准则的参数，并确定1016节点的类型(分割节点还是叶节点)。如果它是叶节点，则当前递归分支停止。如果它是分割节点，则执行1022二元测试以确定图像元素的附加子集并且另一递归分支开始。因此，这个过程以递归方式遍历树，从而训练每个节点，直到在每个分支到达叶节点。当到达叶节点时，该过程等待1026，直到所有分支中的节点已被训练。注意，在其他示例中，可使用可另选的递归技术来获得相同的功能。

一旦该树中的所有节点被训练以便在每一个分割节点处确定优化准则的二元测试的参数，并且叶节点已被选择以终止每个分支，则可以在该树的各个叶节点处累积1028表决。表决包括部位和状态上的一个或多个直方图中的部位和状态的附加计数。这是训练阶段，并因此到达给定叶节点的特定图像元素具有从地面实况训练数据中知晓的所指定的部位和状态标记表决。所累积的表决的表示可使用各种不同方法来存储1030。直方图可以是小的固定维度使得用小的存储器占用量存储直方图是可能的。

一旦已存储所累积的表决，就确定1032决策森林中是否存在更多树。如果存在，则选择该决策森林中的下一个树，并且该过程重复。如果该森林中的所有树均已被训练，而没有其他树剩下，则该训练过程完成且该过程终止1034。

因此，作为训练过程的结果，使用合成或经验训练图像来训练一个或多个决策树。每一颗树都包括存储经优化的测试参数的多个分割节点以及存储相关联的部位和状态标记表决或合计的部位和状态标记表决的表示的叶节点。由于参数是从在每个节点处使用的有限子集中随机生成的，森林中的树彼此有区分(即，不同)。

作为替换或补充，本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如，但非限制，可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)，图形处理单元(GPU)。

图11示出示例性的基于计算的设备102的各个组件，设备102可以被实现为任何形式的计算和/或电子设备，其中能实现此处描述的系统和方法的实施例。

基于计算的设备102包括一个或多个处理器1102，这些处理器可以是微处理器、控制器或用于处理计算机可执行指令以控制设备的操作来为状态和部位两者给图像元素加标记以允许简化了的姿势识别的任何其他合适类型的处理器。在一些示例中，例如在使用片上系统架构的示例中，处理器1102可以包括一个或多个固定功能块(亦称加速器)，这些块以硬件(而非软件或固件)来实现控制基于计算的设备的方法的一部分。可以在基于计算的设备处提供包括操作系统1104或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件214。

可以使用可由基于计算的设备102访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器1106等计算机存储介质和通信介质。诸如存储器1106等计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可用于存储信息以供计算设备访问的任何其他非传输介质。相反，通信介质可以以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质不应被解释为本质上是传播信号。传播信号可存在于计算机存储介质中，但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备102中示出了计算机存储介质(存储器1106)，然而应当理解，该存储可以是分布式的或位于远处并经由网络或其他通信链路(例如，使用通信接口1108)来访问。

基于计算的设备102还包括输入/输出控制器1110，该输入/输出控制器被布置成向显示设备106(图1)输出显示信息，该显示设备可与基于计算的设备102分开或集成。该显示信息可以提供图形用户界面。输入/输出控制器1110还被安排成接收并处理来自一个或多个设备的输入，如用户输入设备108(图1)(例如，鼠标、键盘、相机、话筒、或其他传感器)。在一些示例中，用户输入设备108可以检测语音输入、用户姿势或其他用户动作，并且可以提供自然用户界面(NUI)。在一实施例中，如果显示设备106是触敏显示设备，那么它还可担当用户输入设备108。输入/输出控制器1110还向除显示设备之外的设备输出数据，例如，本地连接的打印设备(图11中未示出)。

输入/输出控制器1110、显示设备106以及可任选地用户输入设备108可包括使用户能够按自然的、免受诸如鼠标、键盘、遥控器等输入设备所施加的人工约束的方式与基于计算的设备交互的NUI技术。可以提供的NUI技术的示例包括但不限于依赖于语音和/或话音识别、触摸和/或指示笔识别(触敏显示器)、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和话音、视觉、触摸、姿势、以及机器智能的那些技术。可被使用NUI技术的其他示例包括意图和目的理解系统，使用深度相机(如立体相机系统、红外相机系统、RGB相机系统、以及这些的组合)的运动姿势检测系统，使用加速度计/陀螺仪的运动姿势检测，面部识别，3D显示，头部、眼睛和注视跟踪，沉浸式增强现实和虚拟现实系统，以及用于使用电场传感电极(EEG和相关方法)的感测大脑活动的技术。

此处所使用的术语“计算机”或“基于计算的设备”是指带有处理能力以便它可以执行指令的任何设备。本领域技术人员可以理解，这样的处理能力被结合到许多不同设备，并且因此术语每个“计算机”和“基于计算的设备”包括个人电脑、服务器、移动电话(包括智能电话)、平板电脑、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其它设备。

本文描述的方法可由有形存储介质上的机器可读形式的软件来执行，例如计算机程序的形式，该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备，计算机存储设备包括计算机可读介质，诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中，但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。

这承认，软件可以是有价值的，单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片，或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。

本领域技术人员会认识到，用于存储程序指令的存储设备可分布在网络上。例如，远程计算机可以存储被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地，本地计算机可以根据需要下载软件的片段，或在本地终端上执行一些软件指令，并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到，通过利用本领域的技术人员已知的传统技术，软件指令的全部，或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。

对精通本技术的人显而易见的是，此处给出的任何范围或设备值可以被扩展或改变，而不会丢失寻求的效果。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

可以理解，上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解，对“一个”项目的引用是指那些项目中的一个或多个。

此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序，或同时实现。另外，在不偏离此处所描述的主题的精神和范围的情况下，可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合，以构成进一步的示例，而不会丢失寻求的效果。

此处使用了术语“包括”旨在包括已标识的方法的框或元件，但是这样的框或元件不包括排它性的列表，方法或设备可以包含额外的框或元件。

可以理解，上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例，但是，在不偏离本说明书的精神或范围的情况下，本领域的技术人员可以对所公开的实施例作出很多更改。

Claims

1.一种方法，包括：

在处理器处接收描绘至少一个对象的图像；

将所接收到的图像应用到经训练的随机决策森林以识别在所述图像中描绘的对象的多个部位和所述对象的状态两者，其中状态是朝向或配置。

2.如权利要求1所述的方法，其特征在于，包括接收描绘所述对象的图像流并将所述图像流应用到所述经训练的随机决策森林以实时地跟踪部位和状态两者的识别；并使用所跟踪的经识别的部位和状态来识别至少一个姿势。

3.如权利要求1所述的方法，其特征在于，所述经训练的随机决策森林同时识别所述多个部位和状态。

4.如权利要求1所述的方法，其特征在于，所述经训练的随机决策森林将部位和状态标记分派给所接收到的图像的图像元素。

5.如权利要求1所述的方法，其特征在于，包括计算每个已识别的部位的重心。

6.如权利要求1所述的方法，其特征在于，将所接收到的图像应用到所述经训练的随机决策森林导致所接收到的图像的多个图像元素的状态标记，且所述方法包括聚集所述状态标记。

7.如权利要求1所述的方法，其特征在于，所述随机决策森林已经被训练以将部位和状态标记上的联合概率分布存储在所述随机决策森林的叶节点处。

8.如权利要求1所述的方法，其特征在于，包括将所接收到的图像应用到第一阶段随机决策森林以获得部位分类，并将所接收到的图像的图像元素应用到多个第二阶段随机决策森林中的数个以获得状态分类。

9.一种方法，包括：

在处理器处访问对象的多个训练图像，每个训练图像包括部位和状态标记，所述部位和状态标记将所述训练图像的图像元素分类为所述对象的多个可能部位并分类为多个状态之一，所述状态是所述对象的朝向或配置；

使用所访问的训练图像来训练随机决策森林，以将图像的图像元素分类为部位和状态两者。

10.一种装置，包括：

安排成接收描绘至少一个对象的图像的接口；

安排成将所接收到的图像应用到经训练的随机决策森林以识别在所述图像中描绘的对象的多个部位和所述对象的状态两者的姿势识别引擎，其中状态是朝向或配置。