CN103827891A

CN103827891A - 使用全球生成的多维姿势数据检测身体运动的系统和方法

Info

Publication number: CN103827891A
Application number: CN201280047348.5A
Authority: CN
Inventors: A·布尔扎奇
Original assignee: ARB Labs Inc
Current assignee: ARB Labs Inc
Priority date: 2011-07-28
Filing date: 2012-04-18
Publication date: 2014-05-28
Anticipated expiration: 2032-04-18
Also published as: WO2013027091A1; EP2737436A1; CN103827891B; CA2843343A1; US20140198954A1; EP2737436A4; US9639746B2; CA2843343C

Abstract

本发明公开内容描述使用姿势数据检测身体运动的系统和方法。姿势数据可以被自引用并且可以被帧包括，这些帧可以标识对象的身体部位相对于在帧内的特定参照点的位置或者定位。分类器可以处理帧以学习身体运动并且在数据库中存储姿势数据帧。包括自引用姿势数据帧的数据可以由识别器接收，该识别器通过将传入帧的姿势数据与在数据库中存储的分类的自引用姿势数据进行匹配来识别由帧标识的对象的运动。

Description

使用全球生成的多维姿势数据检测身体运动的系统和方法

相关申请的交叉引用

本申请要求于2011年8月12日提交的、标题为“CrowdSourcing Gesture Recognition System”的第61/512,528号美国临时专利申请和于2011年11月16日提交的、标题为“Crowd SourcingGesture Recognition System”的第61/628,468号美国临时专利申请的优先权，二者通过引用的方式完整并入于此。

技术领域

本发明涉及基于多维姿势数据的众包（crowd sourcing）。更具体而言，本发明涉及用于使用多维姿势数据的众包的系统和方法。

背景技术

姿势可以视为身体语言的重要方面，并且可以每天在人们之间的沟通中使用。对于许多人，在与另一人面对面沟通时可能难以避免做出某种姿势。姿势可以容易地并看来无言地传达消息。能够一致地并且迅速地评估和执行姿势可以形成许多娱乐形式的基础，这些娱乐形式包括可以在实质上为协作或者竞争的游戏。姿势可以代表多种不同事物，包括表情或者更具体事物、比如意图、人物、地点或者物品的代表。出于多种目的，设法在这些沟通形式之间进行准确区分可以是有益的。

在行业中通常而言，将通过与如在Ling Guan教授和MathewKyan教授的工作以及A.Bulzacki、L.Zhao,L.Guan和K.Raahemifar的发表论文"Computerized Recognition of Human Gestures"以及A.Bulzacki,L.Guan和L.Zhao的发表论文"An Introduction to GestureRecognition Through Conversion to a Vector Based Medium"中证实的各种过程组合使用形状描述符来克服实施姿势识别系统的挑战。然而尽管这些领导者在领域中占有大方向并且他们建议在这一途径上继续，但是发明人采用一种如以下公开的用于解决姿势识别问题的不同方式。

发明内容

机器可以有潜力通过过程（比如机器学习）比人类更快速并且更高效地对姿势成功进行分类。在过程（比如机器学习）中，机器可以被教导以识别姿势。基于机器的智能对不同类型的姿势进行分类和检测的潜力可以用来扩展电子通信、交互式娱乐和安全系统世界。

实际上定义姿势的内容和该姿势意味着的内容可以是主观视图。姿势可以包括人体在时间范围内的一个或者多个运动序列。姿势也可以包括人体在特定时间点的配置或者定位的集合。在一些实例中，姿势包括人体在特定时刻或者具体时间点的特定定位。在时间上的众多这样的特定定位可以组成运动序列，这也可以用来定义姿势。在一些实施例中，人体的一个或者多个身体部位在特定时间的定向或者定位以及这些一个或者多个身体部位（比如关节）随时间的运动可以定义姿势。

在一个实施例中，可以在姿势识别研究领域中使用硬件部件，并且可以使应用的技术可用于一般大众用于家庭使用和企业以用于行业或者专业使用。可以存储包括关于关节的定位和/或运动的信息的数据用于由识别系统使用。包括关于定位和/或运动的信息的数据可以包括数据的自引用特征，其中对象的身体部位的定位或者对象的关节的位置关于对象的身体上的特定定位进行引用。在一个实例中，数据包括如下特征，这些特征标识对象的身体部位和/或关节关于、或者相对于对象的腰部的位置或者定位。在一些实例中，自引用数据可以关于在对象的身体上的任何其它身体部位或者位置进行引用。这一自引用数据可以被学习算法使用，从而学习算法可以分析数据并且标识自引用数据的针对特定身体运动的一些关键特征，这些关键特征可以从对象的所有其它运动中唯一地标识出这一特定身体运动。由于自引用数据被提供给在系统上操作的人工智能装置或者算法，该自引用数据标识身体部位相对于在数据本身内的参照点的定位和位置，所以这一算法可以使用数据学习以基于包括这样的不同标识运动特征的一个或者多个连续姿势数据帧来检测和识别人的姿势。

在一些实施例中，相同的装置或者算法可以用来基于人的当前姿势和运动解释或者检测人的将来姿势或者意图。在一个示例中，系统可以将传入的新数据流的包括自引用数据特征的一个或者多个姿势数据帧与“学习”系统先前处理的并且在数据库中存储的一个或者多个姿势数据帧进行比较。在比较时，系统可以标识在存储的帧中的姿势数据的一个或者多个不同自引用特征与传入流的姿势数据的一个或者多个自引用特征十分类似。在比较之后，系统可以确定两个帧集合匹配。响应于标识在数据库中存储的一个或者多个数据帧对应于对象投篮的运动，系统可以确定身体运动被传入流的自引用姿势数据引用的对象也在投篮。相似地，响应于包括自引用姿势数据的传入数据的帧序列与标识挥手人的、经处理的自引用姿势数据的存储的帧集合匹配，如下帧序列可以被检测为挥手人，在该帧序列中，标识人的身体部位的自引用姿势数据在“挥手”人的类别中。

本公开内容的方法和系统的实施例可以在任何类型的设置中并且向任何类型和形式的客户、包括终端用户、企业和第三方分发。在一个示例中，这里描述的系统和方法可以向企业（比如机场安全机构）部署以用于监视在机场的人们的行为并且监视任何威胁运动或者麻烦标志。在这样的实施例中，企业可以在机场安装包括检测装置（比如相机）的系统，这些检测装置记录供应的数据帧用于由识别系统处理，该识别系统将这样的传入数据与用于检测运动的姿势数据进行比较。用于检测运动的姿势数据可以由同一或者另一企业供应作为产品。在一些实施例中，用于系统学习运动的姿势数据可以由经由网络、由提供标识运动的姿势数据的任何数目的用户供应，其中在用户玩视频游戏（比如其中玩家进行运动的Charades游戏）的过程期间生成数据。在一些实施例中，用于学习的姿势数据可以由记录人群的企业（如比如其中聚集数千人的棒球馆或者足球馆）提供。数据可以由第三方、终端用户或者提供系统的企业的任何混合提供。一旦提供数据并且系统已经学习运动，学习的系统可以被部署到任何数目的企业、体育赛事场所、机场、音乐会场所或者可以被部署到终端用户以用于在玩视频游戏的过程期间使用或者用于任何其它类型和形式的个人使用。

姿势识别过程可以由机器执行的构思可以不仅赋予自动化和速度的方便而且开发用于人工系统参与基于姿势的沟通和娱乐的潜力。朝着这一目标，某种形式的人工智能可以用来检测、学习或者识别存在哪些类别的姿势或者存在那些人体运动。如更早指示的那样，使用这些学习到的类别或者运动，这里描述的系统和方法可以检测到将来的特定运动之后，根据（例如可视）情境线索预测系统先前已经学习的运动。可以使用从全世界各种人类执行者收集和观测的全球收集的运动数据向这里描述的系统传授运动。例如可以经由因特网从社交和协作（或者竞争）游戏的各种玩家收集姿势数据，这些玩家可以使用电子装置、比如Microsoft公司的Xbox、SonyComputer Entertainment的Playstation视频控制台或者Nintendo公司的Wii视频控制台或者任何其它游戏系统或者设备来玩这些游戏。在一些实施例中，从参加基于姿势的游戏的玩家收集姿势数据，在这样的游戏中，玩家尝试执行姿势或者识别其他人正在执行哪些姿势；由此尝试最大化他们在两个任务中的准确度。如更早指示的那样，数据可以由采用记录人们的数十个相机的娱乐或者体育场所提供，因此提供未排练过和自然的姿势数据，可以处理这些姿势数据用于向系统传授如何识别真实的身体运动。根据关于在这些执行期间的身体的关节、四肢或者其它部位的定位和定向的收集的信息，可以为人工智能系统创建数据以学习这些运动或者姿势类别，这些运动或者姿势类别随后用于检测并识别将来的人运动。

在一些方面，本公开内容涉及一种基于经由网络接收的数据来标识对象的运动的方法。该方法可以包括由系统经由网络接收帧。帧可以包括姿势数据的一个或者多个特征，这些特征标识对象的一个、两个或者更多个身体部位相对于对象的身体上的参照点的一个或者多个定位或者位置。在一些实施例中，参照点是对象的身体的腰部。分类器可以处理帧并且向第一运动分配帧。可以向数据库中存储帧。系统的识别器可以接收新的帧，该新的帧可以包括新的姿势数据，该新的姿势数据标识新的对象的一个、两个或者更多身体部位相对于在新的对象的身体上的参照点的定位。用于新的姿势数据的参照点可以是新的对象的身体的腰部。识别器可以响应于将新的姿势数据的至少一部分与帧或者帧的一个或者多个姿势数据进行比较来确定新的对象的运动对应于第一运动。在一些实施例中，识别器基于标识新的姿势数据的一个或者多个特征与帧的姿势数据的一个或者多个特征匹配来做出确定。

在一些实施例中，识别器在准确度的第一阈值内标识新的姿势数据的至少部分与姿势数据的至少部分匹配。识别器还可以基于在第一阈值内的标识来确定新的对象的运动是第一运动。在一些实施例中，识别器还在比确信度的第一阈值更大的确信度的第二阈值内标识新的姿势数据的至少第二部分与姿势数据的至少第二部分匹配。识别器基于在第二阈值内的标识以更大确信度确定新的对象的运动对应于第一运动。在一些实施例中，响应于将帧的姿势数据的一个或者多个特征与新的姿势数据的一个或者多个特征进行比较来做出新的对象的运动对应于第一运动的确定。

在一些实施例中，系统在数据库中存储帧，并且在对新的姿势数据的一个或者多个特征与在数据库中的帧的一个或者多个特征进行比较之后确定新的对象的运动对应于第一运动。在进一步的实施例中，经由网络从在不同地理位置的多个用户接收包括姿势数据的多个帧。可以经由网络从多个用户中的用户接收帧。可以在数据库中存储包括帧的姿势数据。可以在检测到在帧中的姿势数据与新的姿势数据基本上匹配之后从数据库取回帧。

在一些实施例中，识别器将标识新的对象的肩膀相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的肩膀相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在进一步的实施例中，识别器将标识新的对象的髋部相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的髋部相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在一些实施例中，识别器将标识新的对象的肘部相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的肘部相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在进一步的实施例中，识别器将标识新的对象的手掌相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的手掌相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在又进一步的实施例中，识别器将标识新的对象的一个或者多个手指相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的一个或者多个手指相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。

在一些实施例中，识别器将标识新的对象的膝盖相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的膝盖相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在进一步的实施例中，识别器将标识新的对象的足跟相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的足跟相对于对象的腰部的定位的姿势数据的特征进行比较。在又进一步的实施例中，识别器将标识新的对象的脚趾相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的脚趾相对于对象的腰部的定位的姿势数据的特征进行比较。在一些实施例中，识别器将标识新的对象的头部的一部分相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的头部的一部分相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在一些实施例中，识别器将标识新的对象的骨盆相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的骨盆相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在又进一步的实施例中，识别器将标识新的对象的腹部相对于新的对象的腰部的定位的新的姿势数据的特征与标识对象的腹部相对于对象的腰部的定位的在帧中的姿势数据的特征进行比较。在一些实施例中，识别器比较相对于新的对象的腰部标识新的对象的腹部的定位的新的姿势数据的特征与相对于对象的腰部标识对象的腹部的定位的在帧中的姿势数据的特征。在进一步的实施例中，其中将一个或者多个身体部位的定位表达为对象的一个或者多个身体部位与对象的腰部之间的一个或者多个距离，并且其中将指示一个或者多个距离的值缩放和归一化为0和1之间的值。

在一些实施例中，系统从检测器接收包括姿势数据的帧。检测器可以包括相机，该相机包括用于推测（extrapolate）自引用姿势数据的功能。在进一步的实施例中，识别器从不同的检测器接收新的姿势数据，该不同的检测器包括不同的相机，该不同的相机包括用于推测自引用姿势数据的功能。在一些实施例中，相机是MicrosoftKinect相机。

在一些方面，本公开内容涉及一种用于基于数据标识对象的运动的系统。该系统可以包括存储经由网络接收的帧的数据库，该帧包括标识对象的一个或者多个身体部位相对于对象的身体的腰部的定位的姿势数据。该系统还可以包括向第一运动分配帧的分类器。识别器可以接收新的姿势数据，该新的姿势数据标识新的对象的一个或者多个身体部位相对于新的对象的身体的腰部的定位，其中识别器响应于对新的姿势数据的至少一部分与在数据库中存储的帧中的姿势数据的至少一部分进行比较来确定新的对象的运动对应于第一运动。

在一些实施例中，识别器在确信度的第一阈值内确定新的对象的运动对应于第一运动。在一些实施例中，识别器还响应于将新的姿势数据与向第一运动分配的第二帧进行比较来在比第一阈值更大的确信度的第二阈值内确定新的对象的运动对应于第一运动。在进一步的实施例中，该系统响应于将帧的一个或者多个定位与新的姿势数据的一个或者多个定位来确定新的对象的运动对应于第一运动。在又进一步的实施例中，该系统在对新的姿势数据标识的一个或者多个定位与在帧中的姿势数据标识的一个或者多个定位进行比较之后确定新的对象的运动对应于第一运动。在再进一步的实施例中，包括姿势数据的多个帧经由网络从在不同地理位置的多个用户被接收，并且其中经由网络从多个用户中的用户接收帧。

附图说明

图1图示其中执行并实施本发明的特征的计算环境的一个实施例的框图。

图2图示用于使用多维姿势数据来检测对象的运动的系统的一个实施例的框图。

图3图示用于使用多维姿势数据来检测对象的运动的系统的另一实施例的框图。

图4图示概述使用多维姿势数据来检测对象的运动的方法的步骤的流程图。

图5图示对象以及由姿势数据标识、表示在对象的身体上的位置的特征点的一个实施例。

图6A、6B和6C图示帧中包括的各种数据点的类别和图示的示例。

图7图示其中姿势数据与在对象的身体上的参照点结合图示的对象的一个实施例。

图8A图示如下帧汇集的一个实施例，在该帧汇集中，姿势数据标识对象的身体部位在帧随时间运动时的定位。

图8B图示在如下帧内的姿势数据点汇集的一个实施例，在该帧内对象以特定定位描绘。

图9图示在实验中收集的数据的一个实施例。

具体实施方式

现在参照图1，图示计算环境50的一个实施例，可以在该计算环境中实施本发明的特征。简而言之，这里描述的设备或者系统可以包括可以在任何类型和形式的计算设备、比如计算机、移动设备、视频游戏设备或者能够在任何类型和形式的网络上通信并且执行这里描述的操作的任何其它类型和形式的网络设备上实施或者执行的功能、算法或者方法。图1描绘可以在任何设备或者系统、比如稍后描述的远程聚众（crowding）设备或者众包系统上存在的计算环境50的框图。计算环境50可以包括在其上实现本公开内容的实施例的计算设备上提供该结构的硬件以及硬件与软件的组合。每个计算设备或者系统包括的中央处理单元、也称为主处理器11，该主处理器包括一个或者多个存储器端口20和一个或者多个输入输出端口、也称为I/O端口15、比如I/O端口15A和15B。计算环境50还可以包括主存储器单元12，该主存储器单元可以经由总线5连接到计算环境50的部件中的其余部件和/或可以经由存储器端口20直接连接到主处理器11。计算设备的计算环境500也可以包括经由I/O控制器22与设备的其余部件集成的可视显示设备21（比如监视器、投影仪或者眼镜）、键盘23和/或指向设备24（比如鼠标）。每个计算设备100也可以包括附加可选单元、比如一个或者多个输入/输出设备13。主处理器11可以包括高速缓存存储器14或者与高速缓存存储器14集成。存储装置125可以包括存储器，该存储器提供操作系统、也称为OS17、在OS17上操作的附加软件18和其中可以存储附加数据或者信息的数据空间19。备选存储器设备16可以经由总线5连接到计算环境的其余部件。网络接口25也可以与总线5对接并且用来经由外部网络与外部计算设备通信。

主处理器11包括对从主存储器单元122取读的指令做出响应并且处理这些指令的任何逻辑电路装置。主处理器11也可以包括用于实施和执行逻辑功能或者算法的硬件与软件的任何组合。主处理器11可以包括单芯或者多芯处理器。主存储器11可以包括用于加载操作系统17并且在其上操作任何软件18的任何功能。在许多实施例中，中央处理单元由微处理器单元提供、比如：Mountain View,Calif.的Intel公司制造的微处理器单元；Schaumburg,Ill.的Motorola公司制造的微处理器单元；Santa Clara,Calif.的Transmeta公司制造的微处理器单元；RS/6000处理器，White Plains,N.Y.的InternationalBusiness Machines制造的微处理器单元；Sunnyvale,California的Advanced Micro Devices制造的微处理器单元或者用于执行相似功能的任何计算单元。计算设备可以基于这些处理器中的任何处理器或者能够如这里描述的那样操作的任何其它处理器。

主存储器单元12可以包括能够存储数据并且允许微处理器101直接访问任何存储位置的一个或者多个存储器芯片、比如静态随机存取存储器（SRAM）、闪速存储器、突发SRAM或者同步突发SRAM（BSRAM）、动态随机存取存储器（DRAM）、快速页面模式DRAM（FPM DRAM）、增强DRAM（EDRAM）、扩展数据输出RAM（EDO RAM）、扩展数据输出DRAM（EDO DRAM）、突发扩展数据输出DRAM（BEDO DRAM）、增强DRAM（EDRAM）、同步DRAM（SDRAM）、JEDEC SRAM、PC100SDRAM、双数据速率SDRAM（DDR SDRAM）、增强SDRAM（ESDRAM）、SyncLinkDRAM（SLDRAM）、Direct Rambus DRAM（DRDRAM）或者铁电RAM（FRAM）。主存储器12可以基于以上描述的存储器芯片中的任何存储器芯片或者能够如这里描述的那样操作的任何其它可用存储器芯片。在一些实施例中，主处理器11经由系统总线5与主存储器12通信。在包括计算环境150的计算设备的一些实施例中，处理器经由存储器端口20与主存储器12直接通信。

图1描绘如下实施例，在该实施例中，主处理器11经由连接装置（比如有时也可以称为背侧总线的次总线）与高速缓存存储器14直接通信。在其它实施例中，主处理器11使用系统总线5来与高速缓存存储器14通信。包括计算环境50的计算设备的主存储器、I/O设备13或者任何其它部件可以根据设计而经由相似次总线与计算环境的任何其它部件连接。然而高速缓存存储器14可以通常具有比主存储器12更快的响应时间并且可以包括可以视为比主存储器12更快的存储器类型（如比如SRAM、BSRAM或者EDRAM）。高速缓存存储器可以包括任何结构（比如多级高速缓存）。在一些实施例中，主存储器11经由本地系统总线5与一个或者多个I/O设备13通信。各种总线可以将主处理器11连接到I/O设备13中的任何I//O设备、比如VESA VL总线、ISA总线、EISA总线、微通道架构（MCA）总线、PCI总线、PCI-X总线、PCI-快速总线或者NuBus。对于其中I/O设备是视频显示器21的实施例，主处理器11可以使用高级图形端口（AGP）以与显示器21通信。在一些实施例中，主处理器11经由超传输、迅速I/O或者InfiniBand与I/O设备13直接通信。在进一步的实施例中，本地总线和直接通信被混合。例如主处理器11在与I/O设备13直接通信之时使用本地互连总线来与I/O设备13通信。相似配置可以用于这里描述的任何其它部件。

计算设备的计算环境50还可以包括备选存储器、比如用于接收软盘、比如3.5英寸、5.25英寸盘或者ZIP盘的软盘驱动、CD-ROM驱动、CD-R/RW驱动、DVD-ROM驱动、蓝光盘、任何格式的带驱动、USB设备、硬驱动或者适合于存储数据或者安装软件和程序的任何其它设备。计算环境50还可以包括存储设备125，该存储设备可以包括一个或者多个硬盘驱动或者独立盘冗余阵列，该存储设备用于存储操作系统（比如OS17）软件18和/或提供用于存储附加数据或者信息的数据空间19。在一些实施例中，备选存储器16可以用作存储设备125。此外，可以从可引导介质、例如可引导CD、比如KNOPPIX.RTM、用于可用作来自knoppix.net的GNU/Linux分发的GNU/Linux的可引导CD运行OS17和/或软件18。

计算环境50可以包括用于通过多种连接、包括但不限于标准电话线、有线或者无线连接、LAN或者WAN链路（例如802.11、T1、T3、56kb、X.25）、宽带连接（例如ISDN、帧中继、ATM）或者以上各项中的任一项或者所有项的某个组合对接到局域网（LAN）、广域网（WAN）或者因特网的网络接口25。网络接口25可以包括内置网络适配器、网络接口卡、PCMCIA网络卡、卡总线网络适配器、无线网络适配器、USB网络适配器、调制解调器或者适合于将计算设备对接到能够通信并且执行这里描述的操作的任何类型的网络的任何其它设备。

仍然参照图1，I/O设备13可以在计算环境50中以各种形式和形式存在。输入设备可以包括操纵杆、键盘、鼠标、跟踪板、跟踪球、麦克风、绘图写字板、手套、用于输入视频游戏数据的视频游戏部件或者视频相机。输出设备可以包括视频显示器、扬声器、用于发送和接收数据的收发器。I/O设备13可以由I/O控制22控制。I/O控制22可以控制一个或者多个I/O设备（比如键盘23）和指向设备24、例如操纵杆、鼠标或者光笔。I/O控制22也可以包括在外部检测器（比如视频相机或者麦克风）与计算设备之间的接口。I/O控制22可以使任何类型和形式的检测设备（比如视频相机）能够与计算环境50的其它部件对接。另外，I/O设备13也可以提供用于计算设备的存储装置125和/或备选存储器16。在进一步的其它实施例中，计算设备可以提供用于接收手持USB存储设备的USB连接、比如Los Alamitos,Calif.的Twintech Industry公司制造的设备的USB闪存驱动线。

在一些实施例中，计算环境可以包括或者连接到多个显示设备21。显示设备21可以各自是相同或者不同类型和/或形式。I/O设备13和/或I/O控制22可以包括任何类型和/或形式的适当硬件、软件或者硬件与软件的组合以支持、实现或者提供连接和使用多个显示设备21或者多个检测设备、比如以下描述的检测器105。

在一个示例中，计算设备包括用于对接、通信、连接或者另外使用显示设备21或者任何I/O设备13的任何类型和/或形式的视频适配器、视频卡、驱动器和/或库、比如视频相机设备。在一个实施例中，视频适配器可以包括用于对接到多个显示设备21的多个连接器。在其它实施例中，计算设备可以包括多个视频适配器而每个视频适配器连接到显示设备21中的一个或者多个显示设备。在一些实施例中，计算设备的操作系统的任何部分可以被配置用于使用多个显示器21。在其它实施例中，显示设备21中的一个或者多个显示设备可以由一个或者多个其它计算设备（比如经由网络连接到远程计算设备的计算设备）提供。

在进一步的实施例中，I/O设备13可以是在系统总线5与外部通信总线、比如USB总线、Apple桌面总线、RS-232串行连接、SCSI总线、火线总线、火线800总线、以太网总线、AppleTalk总线、吉比特以太网总线、异步传输模式总线、HIPPI总线、超级HIPPI总线、SerialPlus总线、SCI/LAMP总线、光纤通道总线或者串行附着小型计算机系统接口总线之间的桥路。

计算环境可以在操作系统（比如OS17）的控制之下操作，这些操作系统可以控制调度任务和访问系统资源。计算设备可以运行任何操作系统、比如Microsoft.RTM.Windows操作系统的版本、Unix和Linux操作系统的不同发布、用于Macintosh计算机的MacOS.RTM的任何版本、任何嵌入式操作系统、任何实时操作系统、任何开源操作系统、任何视频游戏操作系统、任何专有操作系统、用于运动计算设备的任何操作系统或者能够在计算设备上运行并且执行这里描述的操作的任何其它操作系统中的任何操作系统。典型操作系统包括：由Redmond,Wash.的Microsoft公司制造的WINDOWS3.x、WINDOWS95、WINDOWS98、WINDOWS2000、WINDOWS NT3.51、WINDOWS NT4.0、WINDOWS CE、WINDOWSXP、WINDOWS7；Cupertino,Calif.的Apple Computer制造的MacOS；Armonk,N.Y.的International Business Machines制造的OS/2；以及Linux，Salt Lake City,Utah的Caldera Corp.分发的自由可用操作系统或者任何类型和/或形式的Unix操作系统以及其它操作系统。

在其它实施例中，具有计算环境50的计算设备可以具有与设备的目的和结构一致的处理器、操作系统和输入设备的任何不同组合。例如在一个实施例中，计算设备包括Palm公司制造的Treo180、270、1060、600或者650。在这一实施例中，Treo智能电话可以在PalmOS操作系统的控制之下被操作被请求包括触笔输入设备以及五通导航器设备。在另一示例中，计算设备包括Nintendo公司发布的作为OS操作系统操作的Wii视频游戏控制台。在这一实施例中，I/O设备可以包括用于记录或者跟踪Wii视频游戏的玩家或者参与者的运动的视频相机或者红外线相机。其它I/O设备13可以包括操纵杆、键盘或者RF无线远程控制设备。

相似地，计算环境50可以被定制用于能够通信并且具有充分处理器能力和存储器容量以执行这里描述的操作的任何工作站、桌面型计算机、膝上型或者笔记本计算机、服务器、手持计算机、移动电话、游戏设备、任何其它计算机或者计算产品或者其它类型和形式的计算或者电信设备。

现在参照图2，显示用于基于众包数据标识对象的运动的系统的一个实施例。图2A图示远程客户端设备100A，该远程客户端设备包括检测器105、用户接口110、众包系统通信器115、运动获取设备120和存储装置125，该存储装置还包括姿势数据10A和/或帧20A。图2A也图示经由网络99与众包系统服务器200通信的附加远程客户端设备100B和设备100C。众包系统服务器200包括数据库220，该数据库包括经由网络从远程客户端设备100A-N接收的姿势数据10A-N和帧10A-N。众包系统服务器200还包括检测器105、识别器210、分类器215和众包系统通信器115。

简言之，众包系统服务器200从多个远程客户端设备100A-N接收远程客户端设备100A-N经由它们自己的检测器105（比如视频相机）收集的姿势数据10和/或帧20。组织成帧20的姿势数据10可以包括如下信息，该信息标识执行具身体运动作或者身体运动的人的身体部位的运动。组织成帧20的姿势数据10可以包括人的某些身体部位（例如肩膀、胸部、膝部、手指尖、手掌、脚踝、头部等）相对于特定参照点（例如描绘的人的腰部）的具体定位。帧20可以包括姿势数据10点的汇集，这些点描述多个特定身体部位相对于参照点的位置。在服务器200上的分类器215可以使用一个或者多个帧20的姿势数据10以处理和“学习”以检测特定身体运动。分类器215可以向特定身体运动分配每个特定帧以用于将来检测和识别。由于帧20可以包括系列姿势数据10，这些姿势数据标识人的身体部位中的每个身体部位在特定时间点的定位，所以帧汇集因此可以包括和描述对象的整个运动。姿势数据10点中的每个点可以由系统使用，该系统将学习以对身体运动进行分类和标识。在由分类器215处理之后，一旦检测器105将来检测到相同或者相似运动，识别器210可以使用与人的特定运动关联的分类的帧20来标识这一特定运动。由于众包系统服务器200的数据库220由帧20填充，这些帧包括从各种远程客户端设备100A-N收集的姿势数据10，所以分类器215可以对增加数目的身体运动进行分类并且在这些身体运动之间进行区别。作为结果，随着分类器215对每个附加数据进行处理和分类，系统的用于识别附加运动的容量增长。使用来自大量远程客户端100的众包数据因此可以向系统快速提供必需姿势数据10和帧20以用有效数据快速和高效填充数据库220，这些有效数据将用于检测和预测各种对象的将来身体运动。

更具体而言并且仍然参照图2，网络99可以包括任何类型和形式的介质，在设备100与系统服务器200之间的通信可以通过该介质出现。网络99可以是局域网（LAN）（比如公司内部网、城域网）或者广域网（WAN）（比如因特网或者万维网）。在一个实施例中，网络99是专有网络。在另一实施例中，网络99是公共网络。网络99可以是指单个网络或者多个网络。例如网络99可以包括LAN、WAN或者另一LAN网络。网络99可以包括任何数目的受到任何配置的网络、虚拟专有网络或者公共网络。网络99包括相互对接的专有网络和公共网络。在另一实施例中，网络99可以包括多个公共和专有网络，信息通过这些网络穿越在设备100与服务器200之间的路由。在一些实施例中，设备100可以位于安全家庭网络或者内部公司企业网络中的LAN之内并且经由通过网络99与位于公司数据中心的服务器200的WAN连接通信。

网络99可以是任何类型和/或形式的网络并且可以包括以下网络中的任意网络：点到点网络、广播网络、广域网、局域网、电信网络、数据通信、计算机网络、ATM（异步传输模式）网络、SONET（同步光网络）网络、SDH（同步数字分级）网络、无线网络和有线网络。在一些实施例中，网络99可以包括无线链路（比如红外线信道或者卫星频带）。网络99的拓扑可以是总线、星型或者环形网络拓扑。网络99和网络拓扑可以是如本领域普通技术人员已知的能够支持这里描述的操作的任何这样的网络或者网络拓扑。

远程客户端设备100、比如设备100A、100B、100C至100N包括任何类型和形式的计算设备，该计算设备包括计算环境50的功能。远程客户端设备100可以包括用于收集数据、处理数据、存储数据并且向和从众包系统服务器200发送和接收数据的硬件、软件或者硬件与软件的组合。远程客户端设备100可以包括用于从检测器105收集、构造和/或处理数据的应用、功能或者算法。远程客户端设备100可以包括视频游戏系统（比如Nintendo Wii、SonyPlaystation或者Microsoft Xbox）。远程客户端设备100可以包括膝上型计算机或者桌面型计算机。远程客户端设备100可以包括能够实施这里描述的功能和/或经由网络通信的智能电话或者任何其它类型和形式的移动设备或者任何其它类型和形式的设备。

远程客户端设备100可以包括检测器105、用户接口110、运动获取设备120、众包系统通信器115、识别器210和/或这里描述的任何其它部件或者设备。远程客户端设备100和设备100的任何部件可以包括计算环境50或者计算环境50的用于实施这里描述的功能的任何功能。

检测器105可以包括用于检测或者记录信息或者数据的任何硬件、软件或者硬件与软件的组合，该信息或者数据标识、描述或者描绘人的运动。检测器105可以包括用于检测可视数据的任何类型或者形式的设备或者功能，该可视数据可以标识或者描述人、人的位置或者人的运动。检测器105可以包括视频相机或者可携式摄像机。检测器105可以是向远程客户端设备100A输出数字视频流的流相机。检测器105可以设备100的集成部分或者在设备100外部并且经由电缆、线缆或者网络99与设备100对接的独立设备。检测器105也可以在服务器200内部或者外部。检测器105可以包括红外线相机。检测器105可以包括高清晰度或者高分辨率数字相机或者可携式摄像机。检测器105可以包括运动检测器或者运动检测器阵列。检测器105可以包括麦克风。检测器105可以包括各项中的任何一项或者多项：声传感器、光传感器、红外线传感器、视频图像传感器和/或处理器、磁传感器、磁力计或者可以用来检测、记录或者标识人的运动的任何其它类型和形式的检测器或者系统。

检测器105可以包括用于记录身体部位相对于参照点、如比如记录的对象的腰部的运动的任何功能。在一些实施例中，检测器105包括用于记录人的手部的手指尖相对于参照点的距离或者定位的功能。在一些实施例中，检测器105包括用于记录人的肩膀相对于参照点的距离或者定位的功能。在进一步的实施例中，检测器105包括用于记录人的髋部相对于参照点的距离或者定位的功能。在某些实施例中，检测器105包括用于记录人的肘部相对于参照点的距离或者定位的功能。在一些实施例中，检测器105包括用于记录人的手部的手掌相对于参照点的距离或者定位的功能。在进一步的实施例中，检测器105包括用于记录人的膝部相对于参照点的距离或者定位的功能。在一些实施例中，检测器105包括用于记录人的足跟相对于参照点的距离或者定位的功能。在某些实施例中，检测器105包括用于记录人的脚趾相对于参照点的距离或者定位的功能。在一些实施例中，检测器105包括用于记录人的头部相对于参照点的距离或者定位的功能。在一些实施例中，检测器105包括用于记录人的颈部相对于参照点的距离或者定位的功能。在进一步的实施例中，检测器105包括用于记录人的骨盆相对于参照点的距离或者定位的功能。在某些实施例中，检测器105包括用于记录人的腹部相对于参照点的距离或者定位的功能。

参照点可以是记录的对象的任何给定的部分或者位置。在一些实施例中，参照点包括人的腰部的正中部，相对于该参照点标识或者测量所有其它身体部位。在一些实施例中，参照点是人的腰部的背中部。参照点可以根据人相对于检测器105的定向而为人的腰部的中心点。在其它实施例中，参照点可以是人的头部或者人的胸部或者人的肚脐。参照点可以是这里参照的人体的任何部分。根据设计，可以选择参照点为挑选的人体的任何部分，从而这一位置最小化一些身体部位相对于参照点的定位的距离或者关系的检测误差。

用户接口110可以包括在远程客户端设备100的用户与设备100本身之间的任何类型和形式的接口。在一些实施例中，用户接口110包括鼠标和/或键盘。用户接口可以包括用于向用户显示信息并且用于实现用户与设备交互的显示监视器或者触屏。在进一步的实施例中，用户接口110包括操纵杆。在某些实施例中，用户接口110包括允许用户控制向视频游戏的数据输入或者参与视频游戏的游戏定制视频游戏工具。用户接口110可以包括用于用户控制远程客户端设备100的功能的功能。用户接口110可以包括用于控制姿势数据10或者数据帧20获取和/存储的功能。用户接口110可以包括用于用户发起经由检测器105记录用户的运动的过程的控制。

运动获取设备120可以包括用于获取运动数据的任何硬件、软件或者硬件与软件的组合。运动获取设备120可以包括用于与检测器105对接并且用于处理从检测器105收集的输出数据的功能、驱动器和/或算法。运动获取设备120可以包括用于从任何类型和形式的检测器105接收数据的功能和结构。例如，运动获取设备120可以包括用于从检测器105接收和处理视频流的功能。运动获取设备120可以包括用于处理输出并且在输出数据内标识任何姿势数据10的功能。运动获取设备120可以与检测器105对接、可以集成到检测器105中或者可以与远程客户端设备100或者众包系统服务器200中的任一项对接或者被该任一项所包括。运动获取设备120可以与分类器215或者识别器210中的任一项集成或者被该任一项包括。

运动获取设备120可以包括用于根据视频数据流输出推测姿势数据10并且用于形成帧20的任何功能。运动获取设备120可以使用根据数字相机或者数字视频相机的特定图像推测的姿势数据10并且形成或者创建帧20，该帧包括姿势数据10的汇集。在一些实施例中，运动获取设备120接收人的运动的视频并且根据接收的数据提取姿势数据10。另外，运动获取设备120从接收的数据提取描绘或者标识特定身体运动的一个或者多个帧20。运动获取设备120可以包括用于向存储装置125中或者向数据库220中存储姿势数据10和/或帧20的功能。由于运动获取设备120可以存在于远程客户端设备100或者服务器200上，所以可以通过网络99向和从客户端100和200发送运动由获取设备120推测或者创建的姿势数据10和/或帧20。

众包系统通信器115可以包括用于实现和/或实施在远程客户端设备110与众包系统服务器200之间通信的任何硬件、软件或者硬件与软件的组合。众包系统通信器115可以包括网络接口25和/或网络接口25的任何功能。众包系统通信器115可以包括用于建立用于在设备110与服务器200之间通信的连接和/或会话的功能。众包系统通信器115可以包括用于利用安全协议用于发送保护的信息的功能。众包系统通信器115可以建立在设备100与服务器200之间的网络连接并且通过建立的连接交换姿势数据10和/或帧20。众包系统通信器115可以包括用于跨越网络99发送检测器105数据（比如视频流数据）或者检测器输出数据的功能。众包系统通信器115可以包括用于使这里描述的功能和过程能够执行描述的功能的任何功能。

除了前述特征之外，存储装置125可以包括用于存储、写入、读取和/或修改姿势数据10和/或帧20的任何硬件、软件或者硬件与软件的组合。存储装置125可以包括用于存储和/或处理姿势数据10和帧20的任何功能。存储装置125可以包括用于与运动获取设备120、识别器210和/或分类器215交互以允许这些部件中的每个部件处理存储装置125中存储的数据的功能。

姿势数据10可以是标识或者描述人运动的一个或者多个特征的任何类型和形式的数据信息。人的运动的一个或者多个特征可以包括人体或者人体的一部分的定位或者位置。可以在坐标方面表达运动的特征（比如特定身体部位的定位或者位置）。也可以相对于特定具体参照点表达运动的特征。例如，姿势数据10可以描述或者标识对象的特定身体部位相对于参照点的定位或者位置，其中参照点可以是相同对象的具体身体部位。在一些实施例中，姿势数据10包括标识或者描述人体或者人体的部分的运动的数据或者信息。姿势数据10可以包括关于人体的特定点相对于参照点的位置的信息。在一些实施例中，姿势数据10标识人体的特定点与参照点之间的距离，该参照点是在记录的对象的身体上的点。姿势数据10可以包括以下各项中的任一项或者任何组合：在X、Y和/或Z坐标或者极坐标中描述定位的标量数、矢量、函数。检测器105可以记录或者检测在任何数目的维度中标识自引用姿势数据的帧。在一些实施例中，在二维格式中在帧中表示姿势数据。在一些实施例中，在三维格式中表示姿势数据。在一些实例中，姿势数据包括在x和y坐标系中的矢量。在其它实施例中，姿势数据包括在x、y和z坐标系中的矢量。可以在极坐标或者球坐标或者任何其它类型和形式的数学表示中表示姿势数据。可以表示姿势数据为在矢量集合方面在参照点与在帧中表示的每个特定特征之间的距离或者在x、y和/或z坐标的任何组合方面表示的距离。可以归一化姿势数据10，从而每个姿势数据点10点范围在0和1之间。

姿势数据10可以包括描述人体的特定点相对于同一人体的腰部的位置或者定位的函数。例如姿势数据10可以包括标识在人的手部的手指尖与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的髋部与参照点之间的位置或者距离的信息。在某些实施例中，姿势数据10包括标识人的肘部与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的手掌与参照点之间的位置或者距离的信息。在进一步的实施例中，姿势数据10包括标识人的手指与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的膝盖与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的足跟与参照点之间的位置或者距离的信息。在某些实施例中，姿势数据10包括标识人的脚趾与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的头部与参照点之间的位置或者距离的信息。在进一步的实施例中，姿势数据10包括标识人的颈部与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的骨盆与参照点之间的位置或者距离的信息。在一些实施例中，姿势数据10包括标识人的腹部与参照点之间的位置或者距离的信息。

帧20可以包括来自单个图像、单个数字视频帧或者来自检测器105在单个实例中检测或者收集的数据的一个或者多个姿势数据10点的任何汇集或者编辑。帧20可以包括如下文件，该文件包含标识姿势数据10值的数和值。帧20可以包括如下信息的编辑，该信息标识对象的身体部位相对于参照点的一个或者多个位置。帧20可以包括人的头部与参照点之间的位置或者距离和标识人的足跟与相同参照点之间的位置或者距离的信息。帧20可以包括关于参照点测量、标识或者检测的人体部位中的任一部分或者组合的任何数目的条目和任何条目组合。在一些实施例中，单个帧20包括关于以下各项中的每项的数据：肩膀、左髋、右髋、左肘、右肘、左手掌、右手掌、左手上的手指、右手上的手指、左膝盖、右膝盖、左足跟、右足跟、左脚趾、右脚趾、头部、颈部、骨盆和腹部。可以在它们从相同参照点的距离或者参考方面描述这些数据点的任何组合或者编辑。在一些实施例中，参照点是人的腰部、在进一步的实施例中，参照点是正腰部中心点。在其它实施例中，参照点是正腰部后点。然而参照点也可以根据系统设计而为人体的任何其它部分。帧20因此可以包括任何数目的分离姿势数据10点。在一些实施例中，仅左足跟、头部和右膝盖可以用于帧20描述人的特定运动，而在一个单独实施例中，右肩膀、左髋、右足跟和左脚趾可以足以准确描述人体的另一运动。根据分类器215进行的决策，用于标识不同运动的帧20可以包括不同姿势数据10点。相似地。对于一些运动，仅单个帧20就可以足够，而对于其它运动，两个或者更多帧20可以用来对运动间隙分类或者标识。

分类器215包括用于基于姿势数据10和/或帧20学习或者区分人体的一些运动与人体的其它运动的任何算法、程序、逻辑电路或者功能。分类器215可以包括用于从检测器105接收输出数据并且推测用于标识运动的相关信息的功能。例如分类器215可以包括用于如下方式推测姿势数据10和/或帧20的装置，在该方式中可以使用它们以被分析并且与其它姿势数据10和/或帧20比较。分类器215可以包括用于对姿势数据10和/或帧20进行分析和分类的硬件、软件或者硬件与软件的组合。分类器可以包括运动获取设备120或者运动获取设备120的任何实施例。分类器215可以包括用于分析、研究和解释在姿势数据10中的信息并且在姿势数据10点中的涉及到第一身体运动的信息与在姿势数据10点中的涉及到第二身体运动的信息之间区分的功能。分类器215可以包括用于在涉及到分离身体运动的姿势数据10之间的差值的逻辑和/或功能。分类器215可以包括用于基于在一个帧20中的姿势数据10与在另一帧20中的姿势数据10的差值在两个分离身体运动之间区分或者区别的逻辑和/或功能。

分类器215可以开发、创建和存储可以用来区别第一身体运动与第二身体运动的指令文件或者算法。区别可以以后基于在与第一运动对应的一个帧20中的姿势数据10与在与第二运动对应的另一帧20中的姿势数据10之间的差值由识别器210实现。分类器215可以遍历搜索与第一运动对应的帧20和/或姿势数据10并且将第一运动的帧20和/或姿势数据10与不同于第一运动的第二运动的帧20和/或姿势数据进行比较。分类器215可以用在第一运动与第二运动之间区分时最相关的帧20中的每个帧标识具体姿势数据10。分类器215可以选择特定运动的最相关帧20用于最准确区分这一特定运动和与其它运动关联的所有其它帧20。可以与运动关联地向识别器提供标识运动的如下一个或者多个帧20，分类器215标识该一个或者多个帧为用于标识给定的运动的最适合一个或者多个帧20，从而识别器210可以使用这些一个或者多个帧20用于将来标识相同运动。

识别器210可以包括用于标识或者区分人的身体运动的任何硬件、软件或者硬件与软件的组合。识别器210可以包括用于使用分类器215分类或者处理的姿势数据10和/或帧20以标识人的特定运动的算法、程序、逻辑电路或者功能。在一些实施例中，识别器210利用分类器215创建或者开发的文件、功能或者逻辑单元以从其它运动标识特定运动。识别器210可以包括用于从检测器105接收和读取传入视频流数据或者任何其它类型和形式的输出的任何功能。识别器210还可以包括用于分析和/或解释来自检测器105的传入数据并且根据检测器105输出数据标识和推测姿势数据10的任何功能。识别器210还可以包括用于将来自从检测器105接收的数据的姿势数据10或者帧20与从接收器105接收的数据进行比较、并且基于来自检测器的新的接收的姿势数据10与由分类器215先前分类的姿势数据10和/或帧20的比较来标识人的运动的任何功能。

识别器210可以包括用于以如下方式与检测器105对接的功能，该方式用于从检测器105接收数据、推测任何姿势数据10并且将姿势数据处理成帧20并且将推测的姿势数据10和/或帧20与在数据库220中存储的姿势数据和/或帧20进行比较。在数据库220中存储的帧20可以包括由分类器215先前处理和分析的姿势数据10。分类器215分类的帧20可以由识别器210用来识别根据来自检测器105的数据推测的帧20匹配于与人的特定运动关联的存储的帧20。

数据库220可以包括用于对姿势数据10和/或帧20进行排序、组织和存储的任何类型和形式的数据库。数据库220可以包括存储装置125和存储装置125的任何功能。数据库220还可以包括用于将姿势数据10组织或者排序成帧20的任何功能或者算法。数据库220还可以包括用于根据用于特定运动的一个或者多个姿势数据10点创建帧20的功能。数据库220可以包括用于与分类器215、识别器215、检测器105和众包系统通信器115交互的功能。数据库220可以根据布置和配置而包括用于与系统服务器220或者任何远程客户端设备100共享在数据库220中存储的数据的功能。

现在参照图3，显示用于基于众包数据标识对象的运动的系统的另一实施例。图3图示如下系统，在该系统中，除了远程客户端设备100可以在图2中包括的部件之外，远程客户端设备100也可以包括识别器210和数据库220。在这一实施例中，远程客户端设备100A具有用于识别和/或标识经由检测器105记录或者检测的身体运动的功能。例如远程客户端100可以使用检测器105、如比如数字相机以记录移动的人。远程客户端设备100的识别器210可以单独或者与运动获取设备120配合推测包括姿势数据10的一个或者多个帧20。识别器210然后可以将推测的一个或者多个帧20与在数据库220中存储的帧20进行比较。在其中远程客户端设备100未包括整个数据库的实施例中，远程客户端设备可以通过网络99向服务器200发送推测的帧20以让在服务器200的识别器210识别与数据库220的如下帧对应的匹配，该帧与特定运动对应。在其它实施例中，客户端设备100的数据库220可以与服务器200的数据库220同步以使客户端设备100能够独立地并且在与服务器200无交互时标识经由检测器105记录或者检测的对象的运动。

现在参照图4，图示基于数据标识对象的运动的方法步骤的一个实施例。简言之，在步骤405，检测器105记录或者提供描绘对象的第一身体运动的数据输出。在步骤410，系统的部件根据输出数据推测包括姿势数据的一个或者多个帧，该姿势数据标识对象的第一身体运动的一个或者多个特征。在步骤415，系统的分类器向第一身体运动分配一个或者多个帧。在步骤420，与第一身体运动一起向数据库存储一个或者多个帧。在步骤425，检测器记录描绘第二对象的身体运动的第二数据输出。在步骤430，系统的部件根据第二输出数据推测包括如下姿势数据的一个或者多个新的帧，该姿势数据标识第二对象的身体运动的一个或者多个特征。在步骤435，系统的识别器基于与第一身体运动关联的一个或者多个帧的姿势数据确定第二对象的身体运动是第一身体运动。

更具体而言，在步骤405，检测器105记录对象的运动并且提供描绘或者描述对象的第一身体运动的数据输出。检测器105可以是远程客户端设备100中的任何远程客户端设备的检测器105或者服务器200的检测器105。在某些实施例中，客户端设备100向服务器200发送来自它们的检测器105的数据输出。检测器可以包括数字视频相机，该数字视频相机记录人在系列数字图像或者数字帧中的运动。检测器可以记录和提供数字视频流。在一些实施例中，检测器记录如下数据，该数据使用坐标和值来标识人的运动。在进一步的实施例中，检测器记录对象的特定身体点相对于参照点的定位。参照点可以是在对象的身体上的指明的点。在一些实施例中，检测器向系统提供原始图像、如比如数字图像。在其它实施例中，检测器根据图像推测相关姿势数据并且向系统提供来自每帧的推测的姿势数据。根据系统设计和偏好，检测器可以向系统提供数字图像帧或者推测的姿势数据帧以用于进一步处理。

检测器105可以是可以记录自引用姿势数据帧的相机（比如Microsoft Kinect相机）。检测器105可以是在足球馆、棒球馆、英式足球馆、机场或者任何其它拥挤场所上部署的相机并且可以记录路过的人群。检测器105可以提供如下帧流，该帧流可以包括在帧中记录的一个或者多个对象的自引用姿势数据。自引用姿势数据可以包括如下姿势数据，该姿势数据标识对象的各种身体部位参考于对象本身的身体点的位置或者定位。

在一些实施例中，检测器记录或者检测投掷球的人。在一些实施例中，检测器记录或者检测步行的人。在一些实施例中，检测器记录或者检测奔跑的人。在一些实施例中，检测器记录或者检测尝试打击某人或者某物的人。在一些实施例中，检测器记录或者检测拉取、携带或者举起物体的人。在一些实施例中，检测器记录或者检测具有异常紧张举止的步行的人。在进一步的实施例中，检测器记录或者检测呼喊的人。检测器可以记录人可以在任何给定的情形中和在任何境况之下可能做出的任何运动或者动作。

在步骤410，根据由检测器提供的输出数据推测一个或者多个帧，该一个或者多个帧包括描述对象的运动的姿势数据。根据系统设计，检测器105、运动获取设备120或者分类器215中的任一项可以执行这一任务。在一些实施例中，Microsoft Kinect相机记录对象并且包括用于根据帧推测姿势数据的功能（比如在本身内的运动获取设备120功能）。来自所推测的一个或者多个帧的姿势数据可以标识对象的第一身体运动的一个或者多个特征。在一些实施例中，姿势数据的特征标识对象的左和/或右肩膀的定位或者位置。在进一步的实施例中，特征标识对象的左和/或右髋的定位或者位置。在进一步的实施例中，特征标识对象的左和/或右肘的定位或者位置。在进一步的实施例中，特征标识对象的手部的左和/或右手掌的定位或者位置。在进一步的实施例中，特征标识在对象的左和/或右手上的手指的定位或者位置。在一些实施例中，位置可以是手指集合之一，而在其它实施例中，可以单独地标识手指中的每个手指的位置。在进一步的实施例中，特征标识对象的左和/或右膝盖的定位或者位置。在进一步的实施例中，特征标识对象的左和/或右足跟的定位或者位置。在进一步的实施例中，特征标识在对象的左和/或右腿上的脚趾的定位或者位置。在进一步的实施例中，特征标识对象的头部的定位或者位置。在进一步的实施例中，特征标识对象的颈部的定位或者位置。在进一步的实施例中，特征标识对象的盆骨的定位或者位置。在进一步的实施例中，特征标识对象的腹部的定位或者位置。在进一步的实施例中，特征标识对象的腰部的定位或者位置。

可以自引用标识的姿势数据10的特征中的每个特征以比如标识标识的对象相对于在帧内的特定参照点的位置或者定位。在一些实施例中，相对于人的腰部的定位或者位置标识特征。在其它实施例中，相对于人的左肩或者右肩的定位或者位置标识特征。在更多其它实施例中，用人的左髋或者右髋的定位或者位置标识特征。在更多其它实施例中，用人的左或右手掌中的任何手掌的定位或者位置标识特征。在更多其它实施例中，用人在手部中的任一只手上的手指中的任一手指的定位或者位置标识特征。在更多其它实施例中，用人在腿部中的任一条腿上的膝盖中的任一膝盖的定位或者位置标识特征。在更多其它实施例中，用人在腿部中的任一条腿上的足跟中的任一足跟的定位或者位置标识特征。在更多其它实施例中，用人的脚趾中的任一脚趾的定位或者位置标识特征。在更多其它实施例中，用人的头部的定位或者位置标识特征。在更多其它实施例中，用人的颈部的定位或者位置标识特征。在更多其它实施例中，用人的髋部的骨盆的定位或者位置标识特征。在更多其它实施例中，用人的腹部的定位或者位置标识特征。在更多其它实施例中，用人的胸部的定位标识特征。

仍然与步骤415结合，一个或者多个帧的推测可以包括将姿势数据10存储、格式化或者组织成帧20。在一些实施例中，通过将姿势数据10编辑成文件来创建帧20。在进一步的实施例中，一个或者多个帧的推测包括根据每个数字图像帧创建帧20，其中帧20包括从数字图像帧收集的姿势数据10。在进一步的实施例中，帧20包括姿势数据10的文件，其中姿势数据10条目包括如下数和值，这些数和值标识给定的身体部位中的每个身体部位相对于预定参照点的位置。

在步骤415，分类器215处理一个或者多个帧并且向特定身体运动分配一个或者多个帧。分类器215可以使用这里描述的任何学习功能和/或算法以处理一个或者多个帧、学习运动、标识与运动对应的从任何其它运动标识出运动的帧的姿势数据的特征并且向区别的运动分配帧和/或姿势数据。在一些实施例中，分类器确定一个或者多个帧标识以前从未标识的运动。分类器可以向新的运动分配一个或者多个帧、由此向数据库添加这一新的运动。在一些实施例中，分类器确定已经标识并且在数据库220中存储相同或者基本上相似运动。如果分类器标识相同或者相似运动已经被表示，则分类器可以用来自可以更适合并且更准确表示运动的新的帧的一些姿势数据修改存储的一个或者多个帧。在一些实施例中，分类器通过在数据库中关联一个或者多个帧与运动来向特定运动分配包括标识特定运动的姿势数据的一个或者多个组装的帧。

在步骤420，数据库220与特定运动关联地存储与的特定身体运动关联的一个或者多个帧。在一些实施例中，数据库220标记一个或者多个帧以标识特定身体运动。在一些实施例中，数据库220根据存储的帧20标识的运动对它们进行排序。在进一步的实施例中，数据库220包括名称-值对集合，其中向帧分配与特定运动对应的特定值。在进一步的实施例中，数据库与特定运动关联地存储单个帧。在又进一步的实施例中，数据库与特定运动关联地存储两个、三个、四个、五个、六个、七个、八个、九个或者十个帧。在又进一步的实施例中，数据库与特定运动关联地存储任何数目的帧、如比如数以百计的帧。在又进一步的实施例中，数据库220可以存储分类器鉴于分类器确定应当在与特定运动关联的现有的存储的帧中包括的新的姿势数据而修改的一个或者多个帧。

在步骤425，检测器记录和提供描绘第二对象的身体运动的第二数据输出。在一些实施例中，检测器是远程客户端100的检测器。在其它实施例中，检测器是服务器200的检测器。检测器可以包括在系列数字图像或者数字帧中记录人的运动的数字视频相机。检测器可以记录和提供数字视频流。在一些实施例中，检测器向识别器210提供数据输出。在其它实施例中，检测器向运动获取设备120提供数据输出。检测器可以记录或者检测任何运动（比如在步骤405描述的运动）。

在步骤430，根据第二输出数据推测来自第二输出数据的一个或者多个新的帧，该一个或者多个新的帧包括标识第二对象的运动的新的姿势数据。除了在步骤410执行的所有步骤之外，在步骤430，运动获取设备120或者识别器210中的任一项可以执行推测。与在步骤410描述的实施例一样，来自所推测的一个或者多个新的帧的新的姿势数据可以标识第二对象的新的身体运动的一个或者多个特征。第二对象的新的身体运动可以包括在步骤410的第一运动的实施例或者特征中的任何一个或者多个实施例或者特征。在一些实施例中，新的运动与第一运动相同。在其它实例中，新的运动是在步骤410的第一运动不同的运动。与在步骤410的姿势数据的特征一样，新的姿势数据可以标识人的肩膀、髋部、肘部、手掌、手指、膝盖、足跟、脚趾、头部、颈部、骨盆、腹部、胸部和/或腰部的位置或者定位。也与在步骤410的姿势数据一样，可以相对于参照点（比如人的肩膀、髋部、肘部、手掌、手指、膝盖、足跟、脚趾、头部、颈部、骨盆、腹部、胸部和/或腰部中的任一项）标识新的一个或者多个帧的新的姿势数据。可以根据记录运动的数字视频相机的一个或者多个数字图像或者数字帧推测新的一个或者多个帧。

在步骤435，系统的识别器确定第二对象的身体运动是分类器215在步骤415先前标识的并且在步骤420在数据库中存储的特定第一身体运动。在一些实施例中，识别器确定第二对象的身体运动与第一身体运动相同或者基本上相似。在进一步的实施例中，识别器基于确定来自第二运动的一个或者多个新的帧的姿势数据与在数据库中存储的第一运动的姿势数据相同或者基本上相似来做出确定。在一些实施例中，识别器确定一个或者多个新的帧的新的姿势数据的特征中的一个或者多个特征与在特定阈值内与数据库中存储的第一运动的姿势数据的一个或者多个特征匹配。在一些实施例中，新的姿势数据的特征在标识特征的值的加或者减特定百分比的阈值内与存储的第一身体运动的姿势数据的特征匹配。例如新的姿势数据的特征可以在0与99%之间的任何误差范围内与在数据库中存储的姿势数据的特征匹配。例如新的姿势数据的特征可以在0.1%、0.2%、0.5%、0.8%、1%、1.5%、2%、2.5%、4%、5%、6%.7%、8%、9%、10%、12%、14%、16%、20%、25%、30%、40%或者50%内与在数据库中存储的姿势数据的特征匹配。在一些实施例中，在其内标识匹配的阈值对于姿势数据的所有特征相同。在其它实施例中，在其内标识匹配的阈值对于姿势数据的不同特征不同。

仍然与步骤435结合，在一个示例中，基于确定在两个帧集合之间手指、足跟、膝盖和肘部的位置在2.5%内匹配来标识在第二对象的运动的新的一个或者多个帧与在数据库中存储的一个或者多个帧之间的匹配。在另一示例中，基于确定在两个帧集合之间头部、髋部和足跟的位置在1%内匹配并且手掌、肘部和膝盖的位置在3.8%内匹配来标识在第二对象的运动的新的一个或者多个帧与在数据库中存储的一个或者多个帧之间的匹配。在一些实施例中，响应于确定发现在两个一个或者多个帧的姿势数据之间的匹配，识别器确定第二对象的身体运动是第一身体。识别器由此基于在数据库中存储的数据识别第二对象的运动。

B.系统和方法的更多实施例

在一些方面，本公开内容涉及如下特定具体实施例的集合，可以组合这些实施例与任何前述实施例以创建这里公开的系统和方法。在一个方面，公开内容解决围绕人类姿势条件的习性的全球带宽、复杂性和多样性的实际限制而作为基础的实验集合。提出的搜索可以使用部件、比如PrimeSense开发的Microsoft Kinect相机。在一些测试方面，20个复杂姿势可以被训练、编程到系统并且由系统识别，其基于607220个样本具有均值98.58%。

姿势可以视为重要身体语言方面并且可以每天在人们之间的沟通中使用。对于许多人，可能难以在与另一人面对面沟通时避免做出某种姿势。姿势可以容易并且看来无言地传达消息。能够一致地并且迅速地评估并且执行姿势可以形成许多娱乐形式的基础，这些娱乐形式包括可以在性质上为协作或者竞争的游戏。姿势可以代表多种不同事物、从抽象思想和情绪到更具体事物、比如意图、人物、地点或者物品的代表。发现一种用于使用基于检测的系统来在这些沟通形式之间准确区分的方式以往一直相当困难。

机器可以有潜能通过过程（比如机器学习）比人类更快速并且更高效地对姿势成功进行分类。在过程（比如机器学习）中，机器被教导用于识别姿势的方式。用于基于机器的智能对不同类型的姿势进行分类和检测的潜能可以用来扩展电子通信、交互式娱乐和安全系统世界。

实际上定义姿势的内容和该姿势可以意味着的内容可以很主观。姿势可以包括人体的运动序列以及人体在特定时间的物理配置或者位置。在一些实例中，姿势包括人体在特定时刻或者具体时间点的特定定位。在时间上的众多这样的特定定位可以组成运动序列。具体而言，人体的一个或者多个身体部位在特定时间的定向或者定位以及人体的某些身体部位或者关节随时间的运动可以定义姿势。

根据关于关节在人们动作的姿势期间的定位和运动的取回的数据，有可能使用人工智能装置以从这一信息学习以预测姿势的连续帧并且解释将来姿势可以可能代表什么。姿势识别过程可以由机器执行的思想可以不仅赋予自动化和速度的方便而且打开用于人工系统参与基于姿势的沟通和娱乐的潜能。朝着这一目标，需要某个形式的人工智能以知道存在什么类别的姿势并且着手根据从人类执行者观测的情境（例如可视）线索预测它们。

可以向社交和协作（或者竞争）游戏中实现能够在许多情况下快速地并且简洁地解释和执行姿势。在一个这样的游戏中，玩家通过尝试执行姿势或者识别其他人执行哪些姿势；尝试最大化他们在两个任务中的准确度来参加基于姿势的游戏。根据关于关节在人类执行的姿势期间的定位和定向的收集的信息，有可能运用人工智能系统以从这一数据学习并且进行关于将来未见过的关节信息和它最可能表示的姿势类型的预测。使用这样的游戏，在这些游戏中，多个玩家做出不同的身体运动，可以生成并且向后端众包服务器发送姿势数据以由分类器处理并且用于快速和高效填充和精化姿势运动数据库。

在本实施例中，特别聚焦于关于涉及到分类的机器学习算法的测试和实验。

原有的搜索问题在于将开始测试可以理解复杂姿势动作的动态姿势识别系统。原先对于我们的目标，许多技术障碍自身呈现出来：1）选择用于分割手部姿势的方式。2）提出描述符以向智能系统高效传递分割的数据用于分类。3）一旦分类，识别系统无论实时或者超出实时都需要通过智能系统示出可测量识别的标志。

在这一研究中的挑战之一一直是比较结果与其它研究者在现场中的结果由于相似测试条件的不可重复性而很困难，该不可重复性是在获取硬件和环境条件时的多变产生的。进入Microsoft Kinect相机，该相机当前是销售最快的消费者电子设备并且包含RGB相机、IR深度相机和机载分割。这一相机可以是我们的检测的一个实施例。

我们可以基于若干不同分类算法构建姿势预测模型。这一过程可以首先始于收集姿势的示例用于训练每个分类器。这一数据集合可以称为训练数据并且可以包括如专门化立体相机（Kinect设备）捕获和记录的形式为关节的姿势数据。然后可以在构建并且对收集的数据的子集测试分类器模型之前聚合和变换这一数据用于最优分类。

现在参照图5，图示具有两臂、两条腿和头部的对象或者用户的图示。图5包括将跟踪或者监视的身体点的圆圈。处于我们的实验的目的，可以在XNA4.0环境中使用Microsoft Kinect SDK Beta1、1.1和1.2。原有骨架算法可以用作起点。以后呈现的数据可以不是以Kinect硬件为条件；描述的所有算法可以适用于任何相机或者任何其它类型和形式的检测器。相机可以包括与在身体（人类或者动物）内的骨架近似的分割算法，该身体是整个身体或者更具体地是某部位（比如手部）。在一些实施例中，可以从相机去除并且在更早描述的系统的其它部件中包括这样的能力。

在一个实施例中，呈现一种分级3D形状骨架建模技术，该技术对于学习许多3D对象、包括人、手部、马、八足动物和飞机的骨架很有前途。在分段测地时，分段边界平滑并且非扭曲。可以在如下不同实施例中实现相似结果，在该实施例中，该方法基于弯曲骨架，该弯曲骨架表示物体的内部，这产生表面分割和对应体积分割二者。图5图示单个用户的体型的近似。Kinect相机可以被设计用于分割诸如此类的用户而无需任何类型的校准姿势。

在另一实施例中使用的方式可以使用该过程作为姿态识别，这可以仅利用单个帧深度图像。这样的实施例的技术可以如下：第一，训练深度随机化决策森林分类器以避免通过使用数十万训练图像的过度拟合。第二，辨别深度比较图像特征产生3D平移不变形。第三，使用均值移位来计算推断的每像素分布的空间模式。结果是3D关节点。均值移位基于多变量内核密度估计器用于特征空间分析。

普通Kinect相机本来可以在30fps采样、但是可以被修改用于在60fps或者任何其它速率操作。在一个实施例中，完全分割可以在200fps操作。在又一实施例中，技术可以用来在上至600fps识别姿势数据。在进一步的实施例中，可以使用如下方式，该方式使复杂姿势的准确度、识别速度和压缩要求优先。补充数据可以始于分配15个变化的基本字符，但是这一技术可能添加关联性。在又一实施例中，我们的起点可以是首先以不变方式、通过以简单常数，即腰部开始采样。可以计算对象的所有点为从这一点的特殊参考。可以归一化每个关节的定位以最小化用户的大小变化和/或减少误差。

在一些实施例中，在尝试识别复杂姿势时，可以使用描述符、包括运动描述符和形状描述符、比如扩展高斯图像、形状直方图、D2形状分布和谐波。在一个实施例中，可以使用从中心质量开始的谐波形状描述符。在其它实施例中，可以使用通过取在3D形状的两个连续同心圆的高度求和的差值的高度描述符。

现在参照图6A、6B和6C，图示系统和系统数据的一个实施例。简言之，图6A图示身体组成对于各种不同运动类别相对于参照点的位置。图6B图示与图6A中所示实施例对应的在3D空间中的表示。图6C图示用于3D的人体的各点的姿势数据的数据点。

免费公共数据库可能起初不可用并且可能需要被构建并且用姿势数据填充，该数据库包括在完全身体姿势或者手部姿势之间的足够多样性，这些姿势包括预先分割的数据。可能需要创建定制完全身体姿势数据库以开展研究。游戏Charades的虚拟版本可以用来收集姿势数据。可以经由网络99从操作设备100并且全球玩这一游戏的数百或者数千玩家收集数据。出于实验的目的，从Charades的经典商业版本之中主要随机选择二十个姿势的集合。可以用如下方式格式化游戏，该方式为通过监督学习来修整姿势的长度，这意味着另一用户可以用来玩游戏。在第二用户通过口头命名姿势（使用语音识别）来准确猜测它时，这意味着姿势的结束点。以下所示表1按字母顺序列举在数据库中使用的20个姿势用于测试系统。在一些实施例中，可以是姿势可以随意解释。在20个单独的姿势（即类）之中，出于实验的目的，可以对每个姿势的至少50个完全样本进行采样。

空气吉他	哭泣	大笑
			射箭	驾驶	猴子
棒球	大象	跳绳
			拳击	姿势	睡觉
庆祝	钓鱼	游泳
			鸡	足球	泰坦尼克
拍手	心脏病发作	僵尸

表1收集的用于训练、测试、实时识别和预测的姿势数据

Kinect检测器可以对来自IR深度相机的用户“姿势”信息进行采样。来自相机的数据可以相对于它从Kinect的距离而定向。这一定向可能在搜寻对在姿势中的通用真值（universal truth）的求解时变成有问题。可以开发和使用归一化技术，该归一化技术将所有深度和定位数据转换成相对于假设最中性的单个关节的矢量。可以选择对象（比如图5中的对象）的腰围作为参照点。

现在参照图7，图示研究出对象的图示。简言之，相对于对象的腰部指示对象的肩膀、髋部、肘部、手掌、手指、膝盖、足跟、脚趾、头部、颈部和骨盆。在这一实施例中，结果包括正和负x、y和z轴值。数据缩放稍后加以描述并且可以用来消除负数。在一些实施例中，数据缩放用来消除负数。此外，归一化用来将所有值归一化成0和1之间的值。

在一些实施例中，通过内部开发的中间件对需要从Kinect采样出的数据进行采样。在一些实施例中，完全姿势由1200至2000个帧组成。这可以视为过采样。在一些实施例中，使用从一个或者多个帧（比如1200-2000帧）消除冗余帧的方式以便使用更小数目的帧。在一些实施例中，消除任何冗余帧是安全的，因为检测器（比如Kinect相机）数据采样到在每个关节上的第8个小数位。在这样的实施例中，对两个相同帧接连进行采样可能对于相机并不常见，因为仅电路噪声就会阻止这出现。在一些实施例中，数据库中的每个姿势的平均时间长度是200-300个帧。

现在参照图8A，图示单个姿势的帧集合的3D绘图的俯视图的一个实施例，该俯视图描绘随时间改变的帧。图8A因此描绘姿势数据的特征、包括：人的右脚、右脚踝、右膝、右髋、左脚、左脚踝、左膝、左髋、右手、右手腕、右肘、右肩、左手、左手腕、左肘、左肩、头部、肩膀中心、脊柱和髋部中心。图8A图示这些姿势数据点在近似300个帧内移动。如图8A中所示，图示数据为在帧0至290内、如例如在帧0-10、20-30、40-50、60-70、80-90、100-110、120-130、140-150、160-170、180-190、200-210、220-230、240-250、260-270和280-290中移动。图8A可以表示在0-290之间的帧中的每个帧或者在0-290之间的帧的选集而省去一些帧。

在参考与图8A中描绘的数据集相似的数据集时，出于实验目的，浮点数的大小为N行和60列的矩阵可以用作输入。输出可以包括表示类ID的整数列矢量。可以跨越所有采样缩放每个输入列（60个特征中的每个特征）以落在范围中。图8B图示系列帧的缩放绘图，这些帧用归一化矢量描绘图7中的对象的运动。可以应用数据缩放以多样化学习算法测试并且提高姿势压缩用于通过网络的传输。除去负值的数据缩放和/或在0-1之间归一化值可以实现使用专门化压缩技术用于通过网络99传输这一特定类型的数据、由此实现在设备100与服务器200之间的更高效通信和数据交换。

可以用于数据缩放的等式之一可以是归一化矢量等式如下：

学习和识别可以协同工作。识别系统可以使用若干类型的智能系统以在类（在我们的情况下为姿势类）之间识别模式。在一个示例中，可以使用Nintendo的Wii远程控制。该方式可以涉及到使用手持设备的两个3D加速度计以学习随时间运动的两个不同姿势（我们的实验使用20个3D点）。在这样的示例中，自组织映射（SOM）可以用来将采样数据划分成阶段和SVM以学习在节点之间的转换条件。在这样的实施例中，监督系统可以对于第一类打分百分之100的准确度并且对于第二类打分百分之84的准确度。无监督系统可以对于第一类打分百分之98的准确度并且对于第二类打分百分之80的准确度。

在另一实施例中，实验也可以涉及到Wii，但是姿势类可以增加至12个而具有3360个样本。在这样的实施例中的依赖于用户的实验可以对于4个方向姿势打分99.38%的准确度并且对于所有12个姿势打分95.21%的准确度。依赖于用户的实验可以对于4个方向姿势打分99.93%的准确度并且对于12个姿势打分89.29%的准确度。

在一些实施例中，使用用于小样本大小的姿势识别方式。对于一些实验，可以使用9个姿势类的900个图像序列的集合。每个类可以包括100个图像序列。在一些实施例中，可以利用更多类和更少完整采样。比例不变特征变换（SIFT）可以用作描述符，而标量矢量机（SVM）可以用于学习。可以示出多个其它方式，并且准确度可以在9个不同实验之中为85%。

在一些实施例中，SVM径向基函数分类器用作系统的分类器。径向基函数（RBF）SVM分类器可以是非线性的，并且对应的特征空间可以称为如下定义的Hilbert无穷维度空间：

k(x_i，x_j)=exp(-γ||x_i-x_j||²) 等式2

对于

等式1高斯径向基函数

用于参数的RBF内核、网格搜索可以包括：

A.可以在允许训练误差与强制硬裕度之间具有折衷的成本控制。成本可以在0.1与7812.5之间变化、每次按照5缩放。可以有可以准许一些错误分类的软裕度。增加成本可以增加对点错误分类的成本并且可以强制创建可能未良好一般化的更准确模型。

B.伽马可以在1e-5与113之间变化、每次按照15缩放。伽马参数可以确定RBF宽度。

在一个实施例中，可以对于在200与500之间任何处的成本之间（比如约312.5）和在0.2与0.8之间约任何处的伽马值（比如约.50625）获得预测。

以下所示表2呈现使用RBF的本公开内容的一个实施例的性能表。

表2用于伽马和成本的RBF内核性能表

在一些实施例中，可以使用SMV Poly设置。Poly或者多项式SVM分类器可以是在可以定义如下的高维特征空间中的非线性和超平面的：

k(x_i.x_j)=(x_i.x_j)d 等式3

等式2齐次多项式

k(x_i.x_j)=(x_i.x_j+1)^d 等式4

等式3非齐次多项式

在这样的实施例中，多项式内核网格搜索参数值可以包括：

A.成本，在.1与7812.5之间变化、按照5缩放。

B.可以在多项式中用作内积系数的伽马。伽马可以在1e-5与113.90625之间变化、按照15缩放。

C.多项式的次数（degree）在.01与4之间变化、按照7缩放。

D.Coeff0，在.1与274.4之间变化、按照3缩放。

在一个实施例中，可以用在0.3与0.7之间（如比如0.5）的成本值、在0.3与0.7之间（如比如0.50625）的伽马值、在3.0与4.0之间（如比如3.43）的次数和在0.05与0.3之间（如比如0.1）的coeff0获得97.64%的预测。

随机树参数选择可以包括：

A.树高度在2与64之间变化、按照2缩放。

B.考虑的特征在4与12之间变化而倍数步进为2。

在一个实施例中，可以对于最大树高度32和10个随机特征获得98.13%的预测。

表3（上）举例说明最大树高度比对特征的性能表的实施例

现在参照表4（下）中的结果，举例说明如下实施例，在该实施例中，系统使用70%随机训练和30%测试。在一个实施例中，对完全数据集用10倍交叉验证测试更早描述的各种实施例的设置、包括RBF内核、多项式内核和随机树。这一测试的结果如以下呈现的那样。

表4：RBF、多项式和随机树的实施例的比较结果

识别结果基于70%随机训练和30%随机测试

由于可以在对象执行的各种运动或者姿势和用于给定的实施例的正确预测率方面呈现结果，所以表5（以下示出）呈现对于以上讨论的实施例收集的数据，其中将缩放（和/或归一化）的数据与非缩放（和/或非归一化）的数据进行比较。

表5用于有和无缩放的RBF的比较结果

现在参照图9，图示对于其中使用RBF SVM的一个实施例收集的数据。图9描绘前4个字母顺序类的绘图。使用来自脊柱的z轴和左脚的y轴的值在两个维度中绘制这些结果。选择这些轴是因为识别系统使这些点优先用于准确标识。图9因此示出在特征空间中的支持矢量。在这一具体测试中并且对于本发明的这一具体实施例，发现左脚的Y坐标和脊柱的Z坐标在对各种身体部位的姿势进行分类之时是最有用的特征。

在一些实施例中，为了在实时识别实现方式方面加速系统，可以使用如下技术，在该技术中，使用用于20个姿势中的仅五个姿势的显示识别结果，而将其它15个一起分组为“空闲”姿势。在进一步的实施例中，可以在提供识别值之前使用一次在若干帧（比如10帧）内对姿势进行平均、创建固定最小阈值、重复这一过程2-3次并且对在另一最小阈值以下的那些结果进行平均。

以上讨论的系统和方法实施例呈现用于复杂实时姿势识别的系列方式。这些方式可以与任何类型和形式的检测器（比如深度相机、RGB相机）或者基于标记的跟踪使用。测试的结果在一些实施例中示出大于百分之98的准确度。实施例可以包括多个不同学习算法（即三个不同分类器和/或识别器）。

Claims

1.一种基于数据标识对象的运动的方法，所述方法包括：

由系统经由网络接收包括姿势数据的帧，所述姿势数据标识对象的一个或者多个身体部位相对于所述对象的身体的腰部的定位；

由所述系统的分类器向第一运动分配所述帧；

由所述系统的识别器接收新的姿势数据，所述新的姿势数据标识新的对象的一个或者多个身体部位相对于所述新的对象的身体的腰部的定位；

由所述识别器响应于将所述新的姿势数据的至少部分与所述帧的所述姿势数据的至少部分进行比较来确定所述新的对象的运动对应于所述第一运动。

2.根据权利要求1所述的方法，还包括：由所述识别器在准确度的第一阈值内标识所述新的姿势数据的所述至少部分与所述姿势数据的所述至少部分匹配，以及

基于在所述第一阈值内的所述标识来进一步确定所述新的对象的所述运动是所述第一运动。

3.根据权利要求2所述的方法，还包括：

由所述识别器还在比确信度的所述第一阈值更大的确信度的第二阈值内标识所述新的姿势数据的至少第二部分与所述姿势数据的至少第二部分匹配，以及

还基于在所述第二阈值内的所述标识以更大的确信度确定所述新的对象的所述运动对应于所述第一运动。

4.根据权利要求1所述的方法，还包括：响应于将所述帧的所述姿势数据的一个或者多个特征与所述新的姿势数据的所述一个或者多个特征进行比较来确定所述新的对象的所述运动对应于所述第一运动。

5.根据权利要求1所述的方法，还包括：由所述系统在数据库中存储所述帧，并且在将所述新的姿势数据的所述一个或者多个特征与在所述数据库中的所述帧的所述一个或者多个特征进行比较之后确定所述新的对象的所述运动对应于所述第一运动。

6.根据权利要求1所述的方法，还包括：

经由所述网络从在不同的地理位置的多个用户接收包括姿势数据的多个帧，

经由所述网络从所述多个用户中的用户接收所述帧，

在数据库中存储包括所述帧的所述姿势数据，以及

在检测到在所述帧中的姿势数据与所述新的姿势数据匹配之后从所述数据库取回所述帧。

7.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的肩膀相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的肩膀相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

8.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的髋部相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的髋部相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

9.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的肘部相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的肘部相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

10.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的手掌相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的手掌相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

11.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的一个或者多个手指相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的一个或者多个手指相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

12.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的膝盖相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的膝盖相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

13.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的足跟相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的足跟相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

14.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的脚趾相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的脚趾相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

15.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的头部相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的头部相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

16.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的颈部相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的颈部相对于所述对象的腰部的定位的在所述帧中的所述姿势数据的特征进行比较。

17.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的骨盆相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的骨盆相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

18.根据权利要求1所述的方法，还包括：由所述识别器将标识所述新的对象的腹部相对于所述新的对象的腰部的定位的所述新的姿势数据的特征与标识所述对象的腹部相对于所述对象的腰部的所述定位的在所述帧中的所述姿势数据的特征进行比较。

19.根据权利要求1所述的方法，其中将一个或者多个身体部位的所述定位表达为所述对象的所述一个或者多个身体部位与所述对象的腰部之间的一个或者多个距离，并且其中将指示所述一个或者多个距离的值缩放和归一化为0和1之间的值。

20.根据权利要求1所述的方法，还包括：由所述系统从检测器接收包括姿势数据的所述帧，所述检测器包括相机，所述相机包括用于推测自引用姿势数据的功能，并且

所述识别器从不同的检测器接收所述新的姿势数据，所述不同检测器包括不同的相机，所述不同的相机包括用于推测自引用姿势数据的所述功能。

21.一种用于基于数据标识对象的运动的系统，所述系统包括：

数据库，存储经由网络接收的帧，所述帧包括标识对象的一个或者多个身体部位相对于所述对象的身体的腰部的定位的姿势数据；

分类器，向第一运动分配所述帧；

识别器，接收标识新的对象的一个或者多个身体部位相对于所述新的对象的身体的腰部的定位的新的姿势数据，其中所述识别器响应于将所述新的姿势数据的至少部分与在所述数据库中存储的所述帧中的所述姿势数据的至少部分进行比较来确定所述新的对象的运动对应于所述第一运动。

22.根据权利要求21所述的系统，其中所述识别器在确信度的第一阈值内确定所述新的对象的所述运动对应于所述第一运动。

23.根据权利要求22所述的系统，还包括：

所述识别器，还响应于将所述新的姿势数据与被分配给所述第一运动的第二帧进行比较而在比所述第一阈值更大的确信度的第二阈值内确定所述新的对象的所述运动对应于所述第一运动。

24.根据权利要求21所述的系统，其中所述系统响应于比较所述帧的所述一个或者多个定位与所述新的姿势数据的所述一个或者多个定位进行比较来确定所述新的对象的所述运动对应于所述第一运动。

25.根据权利要求21所述的系统，其中所述系统在将由所述新的姿势数据标识的所述一个或者多个定位与由在所述帧中的所述姿势数据标识的所述一个或者多个定位进行比较之后确定所述新的对象的所述运动对应于所述第一运动。

26.根据权利要求21所述的系统，其中包括所述姿势数据的多个帧经由所述网络从在不同的地理位置的多个用户被接收，并且其中所述帧经由所述网络从所述多个用户中的用户被接收。

27.根据权利要求21所述的系统，其中所述系统从检测器接收包括姿势数据的所述帧，所述检测器包括相机，所述相机包括用于推测自引用姿势数据的功能，并且其中所述识别器从不同的检测器接收所述新的姿势数据，所述不同的检测器包括不同的相机，所述不同的相机包括用于推测自引用姿势数据的所述功能。

28.根据权利要求27所述的系统，其中所述相机是MicrosoftKinect相机。