CN102681657A

CN102681657A - 交互式内容创建

Info

Publication number: CN102681657A
Application number: CN2011104429879A
Authority: CN
Inventors: J·弗莱克斯; R·J·波特; A·A-A·基普曼; C·迈尔斯; A·J·福勒; J·N·马尔戈利斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-12-27
Filing date: 2011-12-26
Publication date: 2012-09-19
Anticipated expiration: 2031-12-26
Also published as: US20120165964A1; US20150370528A1; HK1174112A1; CN102681657B; US9123316B2; US9529566B2

Abstract

本发明涉及交互式内容创建。音频/视觉系统(例如，诸如娱乐控制台或其他计算设备)播放低音音轨，诸如预先录制的歌曲的一部分或来自一个或多个乐器的音符。系统使用深度相机或其他传感器来自动地检测用户(或用户的一部分)进入多个碰撞体中的第一碰撞体。多个碰撞体中的每个碰撞体与不同的音频支干相关联。在一个示例中，音频支干是来自演奏歌曲的乐器的子集的声音、歌曲的声音音轨的一部分、或来自一个或多个乐器的音符。响应于自动地检测用户(或用户的一部分)进入第一碰撞体，与第一碰撞体相关联的适合的音频支干被添加到低音音轨或从低音音轨移除。

Description

交互式内容创建

技术领域

本发明涉及内容创建，尤其是交互式内容创建。

背景技术

对于大多数人来说，音乐主要是消费艺术形式。除了具有与音乐创建相关联的天才、创造力、教育和手段的选择的极少数人，音乐的创建真正是禁止入内(off limits)的。这使音乐成为最不容易接近的艺术形式之一。

为了使音乐创建更为广泛和/或更容易实现，已经开发了允许用户在不演奏乐器的情况下制作音乐的软件。作为替代，用户将操作计算机的用户界面以生成各种乐器的声音。然而，某些以前的艺术音乐创建软件是难于使用的。在某些情形中，即时一个人知道如何使用软件，创建听起来愉悦的音乐也是困难的。

发明内容

音频/视觉系统(例如，诸如娱乐控制台)使用户能够使用移动来创建音乐，而不需要如何作曲的任何知识。系统播放低音音轨，诸如预先录制的歌曲或来自一个或多个乐器的音符的一部分。系统使用深度相机或其他传感器来自动地检测一个用户或多个用户的移动，并且通过更改基于所检测的移动而播放的音乐来创建新音乐。例如，对用户位置的检测可导致特定的低音音轨开始播放，并且对移入碰撞体或位于碰撞体内的用户(或用户身体的一部分)的检测可以触发附加音频样本以及各种音频效果的加或减。此处描述的技术还可被应用于其他形式的内容。

一个实施例包括播放音频内容，自动地跟踪用户的移动包括自动地检测用户的预定义动作，以及自动地改变作为响应而播放的音频内容。在一个示例实现中，响应于进入第一碰撞体的用户的部分，自动地调整正被播放的音频内容。在其他示例中，用户的预定义动作包括一个或多个姿势、对象的质心(或其他部分)的动作、肢体的移动等。

一个实施例包括创建音频内容的装置，该装置包括深度相机，显示接口，音频接口以及与深度相机、显示接口和音频接口通信的处理器。处理器播放第一低音音轨。处理器被编程为基于来自深度相机的数据，自动地检测来自多个预定义移动的用户的第一预定义移动。每个预定义移动与不同的音频支干相关联。处理器响应于检测到用户执行了第一预定义移动，将第一音频支干添加到低音音轨(并同步到低音音轨)。第一音频支干与第一预定义移动相对应。

一个实施例包括其上存储有处理器可读代码的一个或多个处理器可读存储设备。处理器可读代码是用于对一个或多个处理器编程以执行一种方法，该方法包括定义用于多个移动区的一个或多个低音音轨，为每个区标识一碰撞体的音频支干集，以及基于用于多个移动区和所标识的音频支干的已定义的一个或多个低音音轨来创建代码。所创建的代码能够依赖于用户被定位在哪个区内来配置计算设备播放一个或多个低音音轨。所创建的代码还能够配置计算设备基于用户与对应的碰撞体的相交或交互来对音频支干进行加或减。

提供本发明内容以便以简化形式介绍在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1示出娱乐系统的示例实施例。

图2是描绘娱乐系统的各部分的框图。

图3描绘了被跟踪的骨架的示例。

图4示出计算系统的示例实施例。

图5示出计算系统的另一示例实施例。

图6是用于实现此处所描述的技术的各个组件的框图。

图7是创作系统上的软件组件的框图。

图8是娱乐系统上的软件组件的框图。

图9图示地描绘了示例碰撞体。

图10描绘了创作系统的用户界面。

图11是描述用于创作交互式内容生成体验的过程的一个实施例的流程图。

图12是描述用于执行交互式内容生成体验的过程的一个实施例的流程图。

具体实施方式

此处描述了使用户能够使用移动来创建音乐(或其他内容)的音频/视觉系统。例如，音频/视觉系统可以播放音频(或其它类型的)内容，并且在播放音频(或其它类型的)内容时自动地跟踪音频/视觉系统附近的一个用户(或多个用户)的移动。系统使用一个或多个传感器(例如，深度相机和/或视觉相机)来自动地检测用户的一部分进入碰撞体、在碰撞体内正在执行预定义的移动、或者正在执行另一个预定义的移动。响应于检测到用户进入碰撞区、在碰撞体内正在执行预定义的移动、和/或正在执行(一组多个预定义移动中的)另一个预定义的移动，随后自动地改变正被播放的音频(或其它类型的)内容。对正被播放的内容的改变创建新的内容。

在一个示例实现中，音频/视觉系统的附近被划分为区。每个区可以与一低音音轨相关联。系统将自动地检测用户被定位在哪个区中，并且作为其响应来播放相关联的音轨。基于检测到用户进入碰撞体或在碰撞体内执行预定义的移动，可对各种音频支干和音频效果进行加和/或减。在某些实施例中，基于检测到用户进入碰撞体和/或在碰撞体内执行预定义的移动，更改与区相关联的基底视频(或其他视觉内容)。

在其他实施例中，系统可使用预定义姿势(即，保持一只或两只手臂在头上以启动音轨)、或使用像跟踪质心或基于其作出音乐的决定的更抽象的东西，而不是检测用户进入碰撞体。姿势还可包括使声音失真以及创建具体的音符。其他姿势可包括触发循环(例如，一个姿势导致最后两个块重复)。另一个实现允许用户将移动更多地作为乐器。例如，系统可将手臂移动与钢琴发声的C音阶相关联，因此，当用户将手臂从左向右划过时，他们生在生成钢琴发声中的C音阶。用户可在不同的移动中移动手臂以生成更复杂的旋律。在另一个示例中，姿势或移动可用于创建打击乐器的发声，诸如跺脚来创建低音鼓的节奏、用于脚踏的在空中的轻击等。这种类型的乐器控制可在其自身或位于此处描述的音频支干解决方案之上来使用。

系统还可包括音乐可视化器，其中用户的移动和/或对音乐自身的分析二者同时生成视觉。

提供交互式、基于移动的音乐(或其他内容)生成体验的音频/视觉系统可以是台式计算机、便携式计算机、娱乐系统、机顶盒、或其他计算设备。出于示例目的，图1描绘了娱乐系统10的一个实施例，该娱乐系统10可用于基于此处描述的技术来生成音乐或其他内容。娱乐系统10包括可以是计算机、游戏系统或控制台等的计算系统12。根据一个示例实施例，计算系统12可包括硬件组件和/或软件组件，以使计算系统12可用于执行例如游戏应用、非游戏应用等的应用。在一个实施例中，计算系统12可包括可执行存储在处理器可读存储设备上的用于执行此处描述的过程的指令的处理器，如标准化处理器、专用处理器、微处理器等。娱乐系统10还可包括捕捉设备20，该捕捉设备320可以是，例如可在视觉上监视一个或多个用户从而可以捕捉、分析并跟踪一个或多个用户所执行的姿势和/或移动，来执行应用内的一个或多个控制或动作和/或动画化化身或屏上其他角色的相机。另外，如以下所描述的，捕捉设备20可与计算系统12一同使用以自动地确定用户是否位于区Z0、Z1、Z2、Z3或Z4之一，从而定制与用户的交互。

根据一个实施例，计算系统12可连接到可向用户提供电视、电影、视频、游戏或应用视觉和/或音频的音频/视觉设备16，诸如电视机、监视器、高清电视机(HDTV)等。例如，计算系统12可包括例如图形卡的视频适配器和/或例如声卡的音频适配器，这些适配器可提供与游戏应用、非游戏应用等相关联的音频/视觉信号。音频/视觉输出设备16可从计算系统12接收音频/视觉信号，然后可向用户输出电视、电影、视频、游戏或应用的视觉和/或音频。根据一个实施例，音频/视觉输出设备16可通过例如，S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等连接到计算系统12。出于本文的目的，术语“音频/视觉”指仅音频、仅视觉、或音频和视觉的组合。

图2示出捕捉设备20的一示例实施例和计算系统12。根据一示例实施例，捕捉设备20可被配置成经由任何合适的技术，包括例如飞行时间、结构化光、立体图像等来捕捉包括深度图像的带有深度信息的视频，该深度信息可包括深度值。根据一实施例，捕捉设备20可将深度信息组织为“Z层”或者可与从深度相机沿其视线延伸的Z轴垂直的层。

如图2所示，捕捉设备20可包括相机组件23。根据一示例实施例，相机组件23可以是可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每个像素都可以表示深度值，比如所捕捉的场景中的物体与相机相距的例如以厘米、毫米等为单位的距离。

如图2所示，根据一示例实施例，图像相机组件23可包括可用于捕捉场景的深度图像的红外(IR)光组件25、三维(3-D)相机26、和RGB(视觉图像)相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件25可将红外光发射到场景上，并且随后可使用传感器(未示出)、用例如3-D相机26和/或RGB相机28来检测从场景中的一个或多个目标和物体的表面反向散射的光。在一些实施例中，可使用脉冲红外光，从而可测量出射光脉冲和相应入射光脉冲之间的时间差，并且将其用于确定从捕捉设备20到场景中的目标或物体上的特定位置的物理距离。另外，在其他示例实施例中，可将出射光波的相位与入射光波的相位作比较来确定相移。然后可以使用该相移来确定从捕捉设备到目标或物体上的特定位置的物理距离。

根据另一示例实施例，飞行时间分析可用于通过经由包括例如快门式光脉冲成像在内的各种技术来随时间分析反射光束的强度来间接地确定从捕捉设备20到目标或物体上的特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即，被显示为诸如网格图案、条纹图案、或不同图案之类的已知图案的光)可经由例如IR光组件24被投影到场景上。在落到场景中的一个或多个目标或物体的表面时，作为响应，图案可变形。图案的这种变形可由例如3-D相机26和/或RGB相机28(和/或其他传感器)来捕捉，然后可被分析以确定从捕捉设备到目标或物体上的特定位置的物理距离。在一些实施方式中，IR光组件25与相机25和26分开，使得可以使用三角测量来确定与相机25和26相距的距离。在一些实现中，捕捉设备20将包括感测IR光的专用IR传感器或具有IR滤波器的传感器。

根据另一实施例，捕捉设备20可包括两个或更多物理上分开的相机，这些相机可从不同角度查看场景以获得视觉立体数据，该视觉立体数据可被解析以生成深度信息。也可使用其他类型的深度图像传感器来创建深度图像。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的变换器或传感器。根据一个实施例，话筒30可用于减少目标识别、分析和跟踪系统10中的捕捉设备20与计算系统12之间的反馈。另外，话筒30可用于接收也可被提供给计算系统12的音频信号。

在一示例实施例中，捕捉设备20还可包括可与图像相机组件22进行通信的处理器32。处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令包括用于接收深度图像、生成适当的数据格式(例如，帧)并将该数据传送到计算系统12的指令。

捕捉设备20还可包括存储器组件34，存储器组件34可存储由处理器32执行的指令、3-D相机和/或RGB相机所捕捉的图像或图像的帧、或任何其他合适的信息、图像等等。根据一示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一个实施例中，存储器组件34可以是与图像捕捉组件22和处理器32进行通信的单独的组件。根据另一实施例，存储器组件34可被集成到处理器32和/或图像捕捉组件22中。

如图2所示，捕捉设备20可经由通信链路36与计算系统12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。根据一个实施例，计算系统12可经由通信链路36向捕捉设备20提供可用于确定何时捕捉例如场景的时钟。另外，捕捉设备20将由例如3-D相机26和/或RGB相机28捕捉的深度信息和视觉(例如，RGB)图像经由通信链路36提供给计算系统12。在一个实施例中，深度图像和视觉图像以30帧每秒的速率传送。计算系统12然后可使用该模型、深度信息和捕捉的图像来例如控制诸如内容生成系统等应用。

计算系统12包括深度图像处理和骨架跟踪模块50，该模块使用深度图像来跟踪可由深度相机检测的一个或多个人。深度图像处理和骨架跟踪模块50是向应用52提供跟踪信息的软件，该应用可以是视频游戏、生产力应用、通信应用或其他软件应用等。还可将音频数据和视觉图像数据提供给应用52以及深度图像处理和骨架跟踪模块50。应用52将跟踪信息、音频数据和视觉图像数据提供给识别器引擎54。在另一实施例中，识别器引擎54从深度图像处理和骨架跟踪模块50直接接收跟踪信息，并从捕捉设备20直接接收音频数据和视觉图像数据。

识别器引擎54与过滤器60、62、64、...、66的集合相关联，每个过滤器包括关于可由捕捉设备20检测的任何人或对象执行的姿势、动作或状况的信息。例如，过滤器60、62、64、...、66可处理来自捕捉设备20的数据，以标识一个用户或一组用户何时执行了一个或多个姿势或其他动作。这些姿势可与应用52的各种控制、对象或状况相关联。由此，计算环境12可借助过滤器使用识别器引擎54来解释移动。

图2的捕捉设备20向计算系统12提供RGB图像(或其他格式或色彩空间的视觉图像)和深度图像。深度图像可以是多个观测到的像素，其中每个观测到的像素具有观测到的深度值。例如，深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中该2-D像素区域中的每个像素都可具有深度值，诸如所捕捉的场景中的物体与捕捉设备相距的距离。

系统将使用RGB图像和深度图像来跟踪用户的移动。例如，系统将使用深度图像来跟踪人的骨架。可以使用许多方法以通过使用深度图像来跟踪人的骨架。使用深度图像来跟踪骨架的一个合适的示例在Craig等人2009年10月21日提交的美国专利申请12/603,437“Pose Tracking Pipeline(姿态跟踪流水线)”(以下称为’437申请)中提供，该申请的全部内容通过引用结合于此。‘437申请的过程包括：获得深度图像；对数据进行降采样；移除和/或平滑化高方差噪声数据；标识并移除背景；以及将前景像素中的每个分配给身体的不同部位。基于这些步骤，系统将使一模型拟合到该数据并创建骨架。该骨架将包括一组关节和这些关节之间的连接。图3示出了具有15个关节(j0、j1、j2、j3、j4、j5、j6、j7、j8、j9、j10、j11、j12、j13和j14)的示例骨架。这些关节中的每一个表示骨架中该骨架可以在x、y、z方向上枢转的位置或身体上关注的位置。也可使用用于跟踪的其他方法。在下列四个美国专利申请中还公开了合适的跟踪技术，所述专利的全部内容都通过引用并入本文：于2009年5月29日提交的美国专利申请12/475,308“Device for Identifying and TrackingMultiple Humans Over Time(用于随时间标识和跟踪多个人类的设备)”；于2010年1月29日提交的美国专利申请12/696,282“Visual Based IdentityTracking(基于视觉的身份跟踪)”；于2009年12月18日提交的美国专利申请12/641,788“Motion Detection Using Depth Images(使用深度图像的运动检测)”；以及于2009年10月7日提交的美国专利申请12/575,388“Human TrackingSystem(人类跟踪系统)”。

(图2所示的计算系统12的)识别器引擎54包括多个过滤器60、62、64、……、66来确定姿势或动作。过滤器包括定义姿势、动作或状况以及该姿势、动作或状况的参数或元数据的信息。例如，将手臂上下移动可被实现为包括表示垂直方向上用户手臂之一的移动的信息的姿势，因为该移动将被深度相机捕捉。随后可为该姿势设定参数。当姿势是手臂的上下移动时，参数可以是该手必须达到的阈值速度、该手臂必须行进的距离(绝对的或相对于用户的整体大小)、以及识别器引擎对发生了该姿势的置信评级。用于姿势的这些参数可随时间在各应用之间、在单个应用的各个上下文之间、或在一个应用的一个上下文内变化。

过滤器可以是模块化的或是可互换的。在一个实施例中，过滤器具有多个输入(这些输入中的每一个具有一类型)以及多个输出(这些输出中的每一个具有一类型)。第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎架构的任何其他方面。例如，可能具有用于驱动的第一过滤器，该第一过滤器将骨架数据作为输入并输出与该过滤器相关联的姿势正在发生的置信度和转向角。在希望用第二驱动过滤器来替换该第一驱动过滤器的情况下(这可能是因为第二驱动过滤器更高效且需要更少的处理资源)，可以通过简单地用第二过滤器替换第一过滤器来这样做，只要第二过滤器具有同样的输入和输出——骨架数据类型的一个输入、以及置信度类型和角度类型的两个输出。

过滤器不需要具有参数。例如，返回用户的高度的“用户高度”过滤器可能不允许可被调节的任何参数。备选的“用户高度”过滤器可具有可调节参数，比如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。

对过滤器的输入可包括诸如关于用户的关节位置的关节数据、在关节处相交的骨骼所形成的角度、来自场景的RGB色彩数据、以及用户的某一方面的变化速率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。

识别器引擎54可以具有向过滤器提供功能的基本识别器引擎。在一实施例中，识别器引擎54实现的功能包括跟踪所识别的姿势和其他输入的随时间输入(input-over-time)存档、隐马尔可夫模型实现(其中模型化系统被假定为马尔可夫过程-其中当前状态封装了确定将来状态所需的任何过去状态信息，因此不必为此目的而维护任何其他过去状态信息的过程-该过程具有未知参数，并且隐藏参数是从可观察数据来确定的)、以及求解姿势识别的特定实例所需的其他功能。

过滤器60、62、64、……、66在识别器引擎54之上加载并实现，并且可利用识别器引擎54提供给所有过滤器60、62、64、……、66的服务。在一个实施例中，识别器引擎54接收数据来确定该数据是否满足任何过滤器60、62、64、……、66的要求。由于这些所提供的诸如解析输入等服务是由识别器引擎54一次性提供而非由每一过滤器60、62、64、……、66提供的，因此这一服务在一段时间内只需被处理一次而不是在该时间段对每一过滤器处理一次，因此减少了确定姿势所需的处理。

应用52可使用识别器引擎54所提供的过滤器60、62、64、……、66，或者它可提供其自己的、插入到识别器引擎54中的过滤器。在一个实施例中，所有过滤器具有启用该插入特性的通用接口。此外，所有过滤器可利用参数，因此可使用以下单个姿势工具来诊断并调节整个过滤器系统。

关于识别器引擎54的更多信息可在2009年4月13日提交的美国专利申请12/422,661“Gesture Recognizer System Architecture(姿势识别器系统体系结构)”中找到，该申请的全部内容通过引用结合于此。关于识别姿势的更多信息可在2009年2月23日提交的美国专利申请12/391,150“Standard Gestures(标准姿势)”；以及2009年5月29日提交的美国专利申请12/474,655“GestureTool(姿势工具)”中找到，这些申请的全部内容都通过引用结合于此。

图4示出了计算系统的一示例实施例，该计算系统可用于实现图1和2所示的用于跟踪动作和/或动画化(或以其他方式更新)应用所显示的化身或其他屏幕上对象的计算系统12。诸如上面参考图1-2所描述的诸如计算系统12等计算系统可以是诸如游戏控制台等的多媒体控制台100。如图4所示，多媒体控制台100具有含有一级高速缓存101、二级高速缓存102和闪速ROM(只读存储器)104的中央处理单元(CPU)106。一级高速缓存102和二级高速缓存104临时存储数据，并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU 101可以设置成具有一个以上的内核，以及由此的附加的一级和二级高速缓存102和104。闪速ROM 106可存储在多媒体控制台100通电时在引导过程初始化阶段加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速和高分辨率图形处理的视频处理流水线。经由总线从图形处理单元108向视频编码器/视频编解码器114运送数据。视频处理流水线向A/V(音频/视频)端口140输出数据，用于传输至电视或其他显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112，诸如但不局限于RAM(随机存取存储器)。

多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外围控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中的任何一种。

提供系统存储器143来存储在引导过程期间加载的应用数据。提供介质驱动器144，且其可包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器、或其他可移动介质驱动器等。介质驱动器144可位于多媒体控制台100的内部或外部。应用数据可经由媒体驱动器144访问，以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接到I/O控制器120。

系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外部音频用户或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其他指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其他组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台100通电时，应用数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器144中包含的应用和/或其他媒体可从媒体驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可通过将该系统简单地连接到电视机或其他显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括存储器的保留量(诸如，16MB)、CPU和GPU周期的保留量(诸如，5％)、网络带宽的保留量(诸如，8kbs)，等等。因为这些资源是在系统引导时间保留的，所保留的资源对于应用视角而言是不存在的。

具体而言，存储器保留优选地足够大，以包含启动内核、并发系统应用程序和驱动程序。CPU保留优选地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，显示由系统应用程序生成的轻量消息(例如，弹出窗口)，所述显示是通过使用GPU中断来调度代码以将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图优选地与屏幕分辨率成比例缩放。在并发系统应用使用完整用户界面的情况下，优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率并引起TV重新同步。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在上述所保留的系统资源中执行的一组系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行，以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存中断最小化。

当并发系统应用需要音频时，则由于时间敏感性而将音频处理异步地调度给游戏应用。多媒体控制台应用程序管理器(如下所述)在系统应用程序活动时控制游戏应用程序的音频水平(例如，静音、衰减)。

输入设备(例如，控制器142(1)和142(2))由游戏应用程序和系统应用程序共享。输入设备不是保留资源，而是在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用管理器优选地控制输入流的切换，而无需知晓游戏应用的知识，并且驱动程序维护有关焦点切换的状态信息。相机26、28和捕捉设备20可经由USB控制器126或其他接口来定义控制台100的附加输入设备。

图5示出了计算系统220的另一示例实施例，该计算系统可用于实现图1-2所示的用于跟踪运动和/或动画化(或以其他方式更新)应用所显示的化身或其他屏幕上对象的计算系统12。计算系统环境220只是合适的计算系统的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算系统220解释为对示例性操作系统220中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，所描绘的各种计算元素可包括被配置成实例化本发明的各具体方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。其他示例中，术语电路可包括由实施可用于执行功能的逻辑的软件指令配置的通用处理单元、存储器等。在电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择并留给实现者。

计算系统220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包含诸如在启动期间帮助在计算机241内的元件之间传输信息的基本例程，基本输入/输出系统223(BIOS)通常储存储在ROM 531中。RAM 260通常包含处理单元259可立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图4示出了操作系统225、应用程序226、其他程序模块227，以及程序数据228。

计算机241也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238，对可移动、非易失性磁盘239进行读写的磁盘驱动器254，以及对诸如CD ROM或其它光学介质等可移动、非易失性光盘240进行读写的光盘驱动器253。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器238通常由例如接口234等不可移动存储器接口连接至系统总线221，而磁盘驱动器239和光盘驱动器240通常由例如接口235等可移动存储器接口连接至系统总线221。GPU 299通过图形接口231连接至系统总线221。视频存储器230(它连接至GPU 229)通过视频接口232连接至系统总线221。

上文所讨论的并且在图5中示出的驱动器及其它们相关联的计算机存储介质为计算机241提供了对计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，图5中，硬盘驱动器238被示为存储操作系统258、应用程序257、其它程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。在此操作系统258、应用程序257、其他程序模块256以及程序数据255被给予了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，例如键盘251和定点设备252——通常是指鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。相机26、28和捕捉设备20可经由用户输入接口236来定义控制台100的附加输入设备。监视器242或其他类型的显示设备也通过诸如视频接口232之类的接口连接至系统总线221。除监视器之外，计算机还可以包括可以通过输出外围接口233连接的诸如扬声器244和打印机243之类的其他外围输出设备。捕捉设备20可经由输出外围接口233、网络接口237或其他接口连接到计算系统220。

计算机241可以使用到一个或多个远程计算机(如远程计算机246)的逻辑连接，以在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括上文参考计算机241所描述的许多或全部元件，虽然图5中只示出了存储器设备247。图中所示逻辑连接包括局域网(LAN)245和广域网(WAN)249，但也可以包括其它网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当用于LAN网络环境中时，计算机241通过网络接口或适配器245连接到LAN 237。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他手段。调制解调器250可以是内置的或外置的，可以经由用户输入接口236或其他适当的机制连接到系统总线221。在联网环境中，相对于计算机241所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非局限，图5示出应用程序248驻留在存储器设备247上。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

图4或5的系统中的任一个或不同计算系统可用于实现图2的娱乐系统12。

图6是描绘用于实现此处所描述的技术的各个组件的框图。也可使用其他计算系统。图6示出两个娱乐系统10；然而，可以使用多于或少于2个娱乐系统。娱乐系统10可以经由因特网或其他网络与一个或多个创作系统290通信。如下面将解释的，娱乐系统10为一个或多个用户提供交互式内容生成体验。创作系统290允许一个或多个艺术家、生产商或其他实体来创建交互式内容生成体验。

图7是描绘安装在创作系统290上可用于创建交互式内容生成体验的软件的一个实施例的框图。图7示出包括GUI工具302和脚本构建器304的创作系统290。GUI工具302用于创建图形用户界面(″GUI″)并且允许艺术家或内容提供方创建/配置交互式内容生成体验。GUI工具302将提供用于标识用于创建交互式内容生成体验的各个内容单元、移动和位置的一组选项。一旦作者定义了体验，则脚本构建器304将用于创建将使用GUI工具302对娱乐系统10进行配置或编程以提供所创作的交互式内容生成体验的代码。

图8是描绘驻留在娱乐系统10中作为应用52的一部分(参加图2)的软件模块的框图。图8中所描绘的软件被分为四层(加上一个或多个脚本352)。底层包括主视觉效果引擎320和音频效果引擎322。主视觉效果引擎320用于创建由娱乐系统10可视地描绘的视觉效果。音频效果引擎322将创建音频效果，如下面讨论的。上面的主视觉效果引擎320是3D呈现引擎332、视觉效果引擎334、和视频混搭引擎336。3D呈现引擎332用于呈现三维图像。视觉效果引擎334创建娱乐系统10所显示的视觉效果。如果与娱乐系统10交互的人正在生成视频内容，则视频混搭引擎336可用于混合视频。音频引擎334用于播放、编辑和/或以其他方式更改各种音频内容。

姿势输入模块340接收对用户的姿势或移动的指示，并且将该信息提供给其他软件组件。音频分析342可用于标识正被播放的音频的特征，从而表演效果、对音频进行同步等。应用52还包括应用逻辑350，该应用逻辑350是用于控制交互式内容生成体验的操作的主逻辑。脚本352包括从一个或多个创作系统290的脚本构建器304接收的一个或多个脚本。脚本包括对特定的内容生成体验进行配置和/或编程的代码(例如，软件指令)。脚本可经由网络被下载到应用52，经由介质(例如，CD-ROM、DVD、闪存驱动器等)被加载，或由用户来编程(如果用户与应用52分开地或组合地可访问创作系统290)。

在交互式内容生成体验的作者创建脚本并且该脚本被加载到娱乐系统10中以后，该脚本将用于(使用图8所描绘的软件)配置娱乐系统10播放内容(例如，音频内容)，自动地跟踪用户的移动(包括自动地检测用户(或用户的一部分)已经进入或正在碰撞体中交互或与碰撞体交互)，并且响应于检测到用户(或用户的一部分)已经进入或正在碰撞体中交互或与碰撞体交互，自动地改变正被播放的内容。碰撞体是实际上由娱乐系统10创建的位于正被跟踪的每个用户旁边或附近的三维结构(例如，立方体、矩形体、或其他三维结构)。该碰撞体在用户所站的房间中无法被看到。然而，在某些实施例中，娱乐系统10可在显示设备(例如，图1的音频/视觉输出设备16)上显示该碰撞体的视觉表示。例如，图9示出表示娱乐系统10的用户400的线条画。围绕用户400的是碰撞体402、404、406、408、410和412。碰撞体402在用户400的右臂旁边。碰撞体400位于用户400的左臂旁边。在其他实施例中，附加的碰撞体可以位于手臂的前面或后面。或者，一个或多个碰撞体可以围绕一只或多只手臂。碰撞体406位于用户400双腿的前面。在其他实施例中，附加碰撞体可以位于双腿的后面，或者一个或多个碰撞体可以围绕一条或多条腿。碰撞体408位于用户408的头部之上。在其他实施例中，附加的碰撞体可以位于用户头部的前面、后面或侧面。碰撞体410位于用户400的左肩上方。碰撞体412位于用户400的右肩上方。附加的碰撞体可被置于用户400的躯干的前面或后面。碰撞体还可被放置在其他的位置。当用户被检测到已经进入碰撞体(用户身体的适合部分进入相关的碰撞体)时，各个片的内容可被切换打开、切换关闭、开始、中断等。在某些实施例中，系统可以跟踪用户在碰撞体中的移动，使得系统可以标识用户在碰撞体内的预定义移动。该预定义移动可用于触发、切换或控制一个或多个效果，如下面讨论的。

图10提供创作系统290的GUI工具302所实现的图形用户界面的一个示例，使得人可以创建交互式内容生成体验。出于示例的目的，图10的讨论将假设被生成的内容是音乐内容。然而，也可以生成其他内容。

图10的图形用户界面包括用于输入数据的多个界面项。所描绘的顶部输入项是用于指示一个单元。在交互式体验中，体验可被划分为时间单元或交互段。例如，一首歌曲可被分解为十个(或其他数量的)单元。体验中单元的数量是作者完全可以配置的。由此，作者可以输入该作者在特定时间配置其单元的用户界面420。用户界面项422用于指示该单元应被体验多久。

在用户界面项424中，作者将指示哪个区目前正被作者配置。回头看图1，娱乐系统10所位于的房间将被分解为一组区。图1示出五个区(Z0、Z1、Z2、Z3和Z4)。在其他实施例中，系统可包括多于或少于五个区。在图1中，区是椭圆形的；然而，还可使用其他形状。在实际房间中，可以不对这些区进行标记。然而，在一个实施例中，娱乐系统10可在音频/视觉输出设备16(参加图1)上显示这些区的图形表示。系统可跟踪用户是否在这些区之一中。在一个实施例中，如果用户不在区中，则用户没有参与内容生成过程。如果用户在这些区之一中，则用户可参与内容生成过程。在一个示例实现中，内容生成过程依赖于用户在哪个区中将有所不同。因此，作者将通过指示哪个区目前正被图10的用户界面项424配置来为每个区配置独立的编程。

用户界面项426用于配置背景图像和/或背景视觉程序以便与当前单元(或整个体验)一同使用。用用户界面项428来指示特定区的低音音轨。低音音轨是在系统自动地确定用户位于对应区中时所播放的内容。如果系统具有五个区，则存在五个独立的低音音轨，每个区一个。在其他实施例中，一个以上的区可以共享低音音轨。在音频的情形中，低音音轨可以是歌曲的一部分(包括演奏该歌曲的乐器的子集)、歌曲的声音音轨、预定义声音或来自一个乐器(或多个乐器)的一音符集、或来自合成器的一个或多个声音。如果低音音轨比单元的时间(见422)短，则低音音轨将被重复。注意，用户界面项420-428可以是下拉菜单、文本框等。

在对单元、时间、区、背景和低音音轨进行配置之后，作者将标识与每个碰撞体相关联的动作。图10的GUI示出N个碰撞体。此处描述的技术可与任何合适数量的碰撞体一同使用。对于每个碰撞体，作者可以定义(或以其他方式添加)对支干的指示，开始情况，对用户与碰撞体的交互是否应该切换打开/关闭正被循环播放的支干、或者触发播放一次的支干的指示，在碰撞体内要采取的向上/下运动的动作，以及在碰撞体内要采取的向左/右运动的动作。对于碰撞体的每个数据项输入，GUI可以提供下拉菜单、文本框、或其他用户界面项。

音乐内容支干的一个示例可包括歌曲的一部分(包括演奏该歌曲的乐器的子集)、歌曲的声音音轨、预定义声音或来自一个乐器(或一组乐器)的一个或多个音符的集合、和/或来自合成器的一个或多个声音。

开始情况可包括使支干在低音音轨开始播放时开始播放。在该开始情况中，当检测到用户已经进入对应的碰撞体时，支干可被关闭。另一个开始情况可包括支干在用户被跟踪进入区并且播放低音音轨时处于休眠(未被播放)。在该情况中，当确定用户已经进入对应的碰撞体时，支干可在该点开始播放。

向上/下运动和向左/右运动是碰撞体内的预定义运动的两个示例。例如，如果用户被跟踪到将其手臂置于碰撞体内并在碰撞体内向上或向下移动，则该向上或向下移动可用于导致要表演的效果和/或控制该效果。类似地，如果用户被跟踪到将其手臂在碰撞体内向左或向右移动，则该运动可用于导致要表演的效果和/或控制该效果。在任一碰撞体中，如使用图10的GUI所配置的，这些预定义的运动可与用户的任何肢体或用户的任何身体部分一同使用。

可在用户于碰撞体内执行预定义运动时采取的动作的一个示例(例如，上/下、左/右……)包括改变支干的音量。例如，如果用户在碰撞体中举起他的手，则音量可被提高，并且如果用户将手放下，则音量可被降低。类似地，如果用户将手向左移动，则音量可被提高；并且如果用户将手向右移动，则音量可被降低。可表演的其他效果包括打开或关闭回声、改变听到的回声的数量(例如，将手向上移动导致更多的回声，将手向下移动降低回声的数量)、控制音乐内容的频率过滤器的通带、改变节拍、改变节奏、添加/改变混响效果、改变音调等。

图11是描述使用图10的GUI来创作交互式内容生成体验的过程的一个实施例的流程图。在步骤450，作者可以提供内容，包括用于低音音轨支干和音频效果的各个文件。在步骤452，作者可以定义或提供将在娱乐系统10上呈现的一个或多个化身。在一个实施例中，化身将执行与用户相同的移动。由于系统正在跟踪用户，该系统可配置该化身以复制用户的移动。在步骤454，作者将通过配置用户界面项420来添加用于交互的新单元。在步骤456，作者将使用户界面项422来定义持续时间。在步骤458，作者可以通过使用用户界面项426来添加背景图像或视觉系统以体验该单元。

在一个实施例中，背景图像可以是静止图像。在另一个实施例中，背景图像可以是视频。在另一个实施例中，背景可以是可视系统。例如，可以使用频率分析器来将视觉系统绑定到正被播放的音乐。亮度可被绑定到音乐，可将无线电模糊效果与被绑定到节拍的聚焦一同提供，可对改变音乐的用户或用户的化身执行多色调分色印刷等。各种各样的频率分析器可用于确定多个频带的每个中有多少能量。每个频带可被绑定到特定的视觉效果。在一个实施例中，可以实现颗粒系统。颗粒系统可被配置为遵守物理定律(或不同的规则集)，并被配置为被用户身体的一部分或房间中其他位置或对象吸引或推开。如果颗粒系统被配置为被用户的手部吸引或推开，则例如当用户的手部移动时，颗粒将不同地移动，从而改变娱乐系统10的音频/视觉输出设备16上的视觉表示。

回头看步骤460，作者将定义正被配置的区。如参考图1所讨论的，房间可包括多个区。作者将指示哪个区目前正被配置。在步骤462，作者将使用用户界面项428来指示哪个低音音轨将用于该区。在步骤464，作者将为每个正被配置的区添加用于每个碰撞体的内容指令。例如，作者将为区的每个碰撞体标识支干、开始情况、支干是否应被切换或触发、响应于向上/下运动而执行的功能、以及响应于向左/右运动而执行的功能。如果存在要配置的另一个区(步骤466)，则过程将循环回到步骤460以定义下一个区。在步骤466，当确定已为当前考虑的单元配置了全部区的时候，随后确定是否还有需要被配置的任何更多的单元(步骤468)。如果存在要配置的更多单元，则过程将循环回到步骤454以配置下一个单元。如果全部单元已被配置，则在步骤470中，脚本构建器304将自动地创建用于交互式内容生成体验的脚本(例如，软件代码)。在步骤470中生成的脚本的形式或格式可以是适于特定实现的本领域中已知的任何形式。不存在此处需要利用的脚本的特定形式或结构。

步骤460-466和步骤454-468的循环允许多个单元被配置以及每个单元的多个区被配置，使得内容生成体验将具有多个单元。这样，作者将定义用于多个区(也称为移动区)的一个或多个低音音轨，标识用于每个区的一组碰撞体的音频支干，并且基于多个区的已定义的一个或多个低音音轨以及每个区的该组碰撞体的已标识的音频支干来创建代码。取决于用户所位于的区，该代码能够配置计算设备(例如，娱乐系统10)以播放一个或多个低音音轨。该代码还能够配置计算设备(例如，娱乐系统10)基于用户与对应的碰撞体的交互来对音频支干进行加或减。

图12是描述使用从图11的过程生成的脚本来执行内容生成的过程的一个实施例的流程图。在步骤500，用户将调用脚本。例如，脚本可以是包括用于交互式体验的整个软件的CD-ROM或DVD的一部分。将磁盘置于娱乐系统10中将导致软件(包括脚本)运行。在其他实施例中，脚本可以经由网络、便携式存储介质等被传输到娱乐系统10。用户可以具有从中进行选择的多个脚本，并将选择适合的脚本，使得该脚本将开始在步骤500中运行。在步骤502，实现下一个单元。如上面讨论的，交互式体验可以具有多个单元(多个段)。当脚本被启动时，加载第一单元。如上面讨论的，该单元将包括用于每个区和每个碰撞体的指令。在步骤504，系统自动地确定用户所位于的区并且开始为该区播放适合的低音音轨。如上面讨论的，系统将使用捕捉设备20来自动地跟踪用户的移动和位置并且确定用户在哪个区中。在步骤506，系统将开始播放那些包括开始情况的支干，该开始情况指示支干初始情况为将要开始播放。在步骤508，将实现(在步骤458中配置的)视觉背景。步骤508可包括实现将通过执行图12的过程来操作的背景过程(例如，颗粒系统)，使得响应于检测到用户的一部分进入第一碰撞体而将改变所显示的视觉内容。在步骤510，系统将继续跟踪用户的位置和移动。在一个实施例中，系统将通过图12的过程来跟踪用户的位置和移动。在步骤512，将显示用户的化身。在一个实施例中，该化身将基于跟踪用户移动的系统来模仿用户的移动。在步骤514，确定单元的时间段是否结束。如果分配给该单元的时间已经结束，则在步骤516，确定是否存在要执行的另一个单元。如果不存在要执行的更多单元，则交互式体验已经完成(步骤518)。如果存在要执行的另一个单元，则过程循环回到步骤502并开始下一个单元。

在步骤514，如果确定该单元没有结束，则在步骤520，系统确定用户是否已经进入碰撞体之一。如果否，则系统将继续跟踪用户的位置和移动(步骤510)。

如果确定用户(或诸如用户的手臂、腿等的用户的一部分)已经进入一个或多个碰撞体，则响应于用户进入碰撞体，确定支干是否已被配置为被切换打开/关闭或触发用于一次播放。如果支干已被配置为切换打开/关闭，则在步骤524，如果目前支干未在播放，则将切换打开该支干。如果目前支干正被播放，则将切换关闭该支干。在一个实施例中，在音符边界(例如，1/4音符边界、1/8音符边界等)对支干进行切换打开或关闭，以便使支干与低音音轨的节拍相协调。如果支干已被配置为被触发，则在步骤526，在音符边界(例如，1/4音符边界、1/8音符边界等)启动该支干，以便使该支干与低音音轨的节拍相协调。步骤524和526二者均是基于与碰撞体相关联的支干而自动地改变正被播放的内容(例如，低音音轨和目前正被播放的任何支干)的示例，该碰撞体在用户所站的当前区中进行交互。对正被播放的内容的自动改变带来正被生成的新内容。

在步骤524或526之后，过程在步骤528继续，在该过程期间系统将检测用户是否在碰撞体内执行了任何预定义运动。如果用户未在执行任何预定义运动，则过程循环回到步骤510并继续跟踪用户。如果用户正在执行预定义运动之一，则在步骤530，将执行与预定义运动相关联的动作。例如，如果用户正在执行向上或向下运动，则如使用图10的GUI所配置的，将执行适合的功能。类似地，如果用户正在执行向左或向右运动，则将执行适合的功能。也可利用其他预定义动作。在一个替换方案中，可在图12的过程期间的任何时间执行步骤530中所实现的测试528和功能。在执行步骤530的动作之后，过程循环回到步骤510。

在上面的示例中，讨论构想了一个用户使用移动来改变正被播放的音频，从而创建新的音频。在其他实施例中，多个用户可并发地使用移动从而生成新的音频(或其他内容)。在一个示例中，一个用户将被指定为主用户。用于主用户所站的区的低音音轨将是所播放的低音音轨。基于进入碰撞体的那些其他用户，站在其他区中的每个其他用户将具有被添加或减去的支干。基于在其碰撞体中执行预定义运动的每个用户，可以执行各种效果。在一个示例中，全部用户将基于与类似的碰撞体的交互而打开或关闭相同的支干。在其他实施例中，每个区将与不同的支干集相关联，使得每个用户响应于与碰撞体的交互而打开或关闭不同的支干。在一个实施例中，响应于预定义运动、姿势或命令，对主用户的指定将改变。

在另一个实施例中，可以同时播放每个用户每个区的每个低音音轨。在另一个实施例中，只有主用户需要在区中，而其他用户可在用户不在该区中的情况下通过与每个用户的碰撞体进行交互来影响正被生成的音频。

在某些实现中，系统可以跟踪房间中的多个用户的位置移动，并且显示正被跟踪的每个用户的化身。每个化身将与正被跟踪的对应用户协同地移动。由此，系统将自动地跟踪多个用户的移动和位置，对正被播放的音频内容的自动改变包括响应于和基于多个用户的被跟踪的移动，自动地改变正被播放的音频内容，使得不同用户的不同移动改变以不同方式播放的音频内容。例如，图12的步骤510将包括跟踪多个用户的位置移动。步骤512将包括为多个用户显示多个化身。可以为多个用户并发地执行步骤520、522、524，526、528和530。

当交互式内容生成过程结束时(步骤518)，系统可以录制所创建的内容。例如，将以本领域已知的任何形式录制音频并将其保存作为音频文件。另外，可以通过适于存储视频的任何形式来保存相关联的视频(例如，在步骤508中实现的视觉背景)。该经保存的内容随后可以是分布式的。例如，其可被提供到社交网站上，或被发布到用于类似的内容生成的站点(或频道)上。例如，可以创建对使用图12的过程从多个源生成的内容进行聚集并且允许用户查看其他人已经生成的内容的服务。

在另一个替换方案中，可以使用因特网(或其他网络)，使得多个娱乐控制台10可以共同工作以生成单个内容集。即，可以为多个用户执行图12的过程；然而，使用经由网络(例如，因特网和/或局域网)彼此通信的不同的娱乐系统10的多个用户可以位于不同的位置。每个娱乐系统将包括用于确定对应的用户位于哪个区中以及用户是否正与碰撞体进行交互的其自身的捕捉设备20。娱乐系统10之一可被标识为主机，并且将接收全部数据，从而创建新内容、向本地用户显示新内容、并将该新内容传输到远程的娱乐系统用于向远程用户呈现。

注意，图12中所描绘的步骤的顺序不是必须的。可以按照其他顺序来执行各个步骤。可以并发地执行图12的许多步骤。另外，在图12的过程的操作中，很多步骤可以连续地执行。

在另一个实施例中，系统允许一个或多个用户在捕捉设备20前面跟随给定的音乐来跳舞(或执行其他移动)。在一个或多个用户在跳舞时，系统捕捉并分析移动(与上面所描述的骨架跟踪相类似)。响应于跟踪并理解用户的移动，系统将构建最佳适于再次驱动给定音乐的控制方案。系统可使用相同的方法来分析视频剪辑等。例如，系统可基于音乐视频来训练数据，因此需要用户像音乐视频中的舞蹈那样移动以创建适合的输出。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明的范围由所附的权利要求进行定义。

Claims

1.一种用于音频内容创建的方法，包括：

播放音频内容(506)；

自动地跟踪用户的移动(510)，包括自动地检测所述用户的预定义运动；以及

响应于检测所述用户的所述预定义运动，自动地改变正被播放的所述音频内容(524、526)。

2.如权利要求1所述的方法，其特征在于：

所述用户的所述预定义运动包括所述用户的一部分进入第一碰撞体；

所述自动地改变所述音频内容包括，响应于检测到所述用户的一部分进入所述第一碰撞体自动地改变正被播放的所述音频内容；

所述播放音频内容包括播放低音音轨；以及

所述自动地改变正被播放的所述音频内容包括，响应于检测到所述用户的一部分进入所述第一碰撞体将第一音频支干添加到所述低音音轨并与所述低音音轨同步，所述第一音频支干与所述第一碰撞体相关联。

3.如权利要求2所述的方法，其特征在于，还包括：

自动地检测所述用户的一部分进入不同于所述第一碰撞体的第二碰撞体，所述第一碰撞体和所述第二碰撞体是多个碰撞体的一部分，所述多个中的每个碰撞体与不同的音频支干相关联，第二音频支干与所述第二碰撞体相关联；以及

响应于检测到所述用户的一部分进入所述第二碰撞体，通过将所述第二音频支干添加到所述低音音轨来自动地改变正被播放的所述音频内容。

4.如权利要求3所述的方法，其特征在于，还包括：

在通过将所述第二音频支干添加到所述低音音轨来自动地改变正被播放的所述音频内容之后，自动地检测所述用户的一部分进入所述第二碰撞体；以及

在通过将所述第二音频支干添加到所述低音音轨来自动地改变正被播放的所述音频内容之后，响应于检测所述用户的一部分进入所述第二碰撞体，通过将所述第二音频支干从所述低音音轨移除来自动地改变正被播放的所述音频内容。

5.如权利要求2-4所述的方法，其特征在于，还包括

检测所述第一碰撞体内的预定义移动；以及

响应于检测到所述预定义移动，在正被播放的所述音频内容上表演效果。

6.如权利要求2-5所述的方法，其特征在于，还包括

自动地检测所述用户的位置，基于所检测的所述用户的位置，从多个音轨中选择所述低音音轨。

7.如权利要求2-7所述的方法，其特征在于：

所述低音音轨是歌曲的一部分；以及

所述第一音频支干是来自演奏所述歌曲的乐器的子集的声音。

8.如权利要求2-7所述的方法，其特征在于：

所述低音音轨是来自第一乐器的预先录制的声音；以及

所述第一音频是来自第二乐器的预先录制的声音。

9.如权利要求2-8所述的方法，其特征在于，还包括

自动地检测所述用户位于多个区中的哪个区，每个区与不同的低音音轨相对应，响应于自动地检测所述用户位于哪个区而执行播放所述低音音轨。

10.如权利要求1-9所述的方法，其特征在于，还包括

显示视觉内容并响应于检测到所述用户的所述预定义移动而改变所述视觉内容，所述视觉内容是由所述用户的移动和所述音乐自身的分析二者同时生成的。

11.如权利要求1-11所述的方法，其特征在于：

使用深度相机来执行对所述用户的移动的自动跟踪；

自动地跟踪所述用户的移动包括自动地跟踪多个用户的移动；以及

自动地改变正被播放的所述音频内容包括，响应于并且基于多个用户的被跟踪的移动自动地改变正被播放的所述音频内容，使得不同的移动以不同的方式来改变正被播放的所述音频内容。

12.一种创建音频内容的装置，包括：

深度相机(20)；

显示接口(140、232)；

音频接口(140、233)；以及

与所述深度相机、显示接口和音频接口通信的处理器(101、259)，所述处理器播放第一低音音轨，所述处理器被编程为，基于来自所述深度相机的数据从多个预定义移动中自动地检测用户的第一预定义移动，每个预定义移动与不同的音频支干相关联，所述处理器响应于检测到所述用户执行了所述第一预定义移动将第一音频支干添加到所述低音音轨，所述第一音频支干与所述第一预定义移动相对应。

13.如权利要求13所述的装置，其特征在于：

所述处理器被编程为，基于来自所述深度相机的数据自动地检测用户的一部分执行了第二预定义移动，所述处理器响应于检测到所述用户执行了所述第二预定义移动将第二音频支干添加到所述低音音轨，所述第二低音音轨与所述第二碰撞体相对应。

14.如权利要求12或13所述的装置，其特征在于：

所述第一预定义移动包括所述用户的一部分进入多个碰撞区中的第一碰撞体；以及

所述处理器使用来自所述深度相机的数据来检测碰撞体中的预定义运动，并且响应于对所述碰撞体中所述预定义运动的检测，在正被播放的音频上表演音频效果。

15.如权利要求12、13或14所述的装置，其特征在于：

所述预定义移动包括肢体的姿势、运动或质心、移动中的任一个。