CN102411783B

CN102411783B - 在视频聊天应用中自动跟踪用户移动

Info

Publication number: CN102411783B
Application number: CN201110321959.1A
Authority: CN
Inventors: B·麦克道尔; D·阿普费尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-10-14
Filing date: 2011-10-13
Publication date: 2016-07-06
Anticipated expiration: 2031-10-13
Also published as: US20120092445A1; CN102411783A; US9628755B2

Abstract

本发明涉及在视频聊天应用中自动跟踪用户移动。公开了一种通过在计算设备中执行的视频聊天应用自动跟踪用户的移动的系统。连接于该计算设备的捕捉设备捕捉其视野中的用户并标识出标识捕捉区域的捕捉帧中的用户的头部、颈部和肩部的位置的像素子帧。该像素子帧被显示给远程计算设备处正在参与同用户的视频聊天的远程用户。当用户移动到捕捉区域内的下一位置时，该捕捉设备自动跟踪用户的头部、颈部和肩部的位置。标识在下一位置的用户的头部、颈部和肩部的下一像素子帧被标识并显示给远程计算设备处的远程用户。

Description

在视频聊天应用中自动跟踪用户移动

技术领域

本发明涉及视频聊天应用，尤其涉及在视频聊天应用中自动跟踪用户移动。

背景技术

诸如视频会议系统和视频聊天系统等视频通信系统为位于不同地点的多个参加者提供了与彼此通信的能力。视频通信系统可利用web相机和话筒来捕捉音频/视频内容并通过网络实时向其他用户传送所述内容。然而，视频通信通常需要用户在与远程计算设备处的远程用户通信时在相机前静止。用户的任何移动通常使得用户不再被相机和远程计算设备处的远程用户最佳地查看。

发明内容

本文公开一种方法和系统，参与同远程计算设备处的远程用户的视频聊天应用的用户通过该方法和系统能够在连接于该用户的计算设备的相机的视野内移动且仍然能够被该相机和该远程用户最佳地观看。在一个实施例中，当用户移动到视野内的不同位置时，该相机自动跟踪该用户的头部、颈部和肩部的位置，由此消除该用户在与该视频聊天应用交互时静止且在相机前方的必要性。含有在该视野内的第一位置的该用户的头部、颈部和肩部的像素子帧(sub-frameofpixels)被标识并向远程计算设备处的远程用户显示。通过自动跟踪该视野内的用户的头部、颈部和肩部的位置，检测该用户向该视野内的下一位置的移动。标识下一位置的用户的头部、颈部和肩部的位置的下一像素子帧被标识并向远程计算设备处的远程用户显示。

在一个实施例中，公开了一种自动跟踪参与在计算设备中执行的视频聊天应用的用户的移动的方法。该方法包括从连接到计算设备的深度相机接收包括捕捉区域的一个或多个深度图像的捕捉帧并确定该捕捉帧是否包括在该捕捉区域中的第一位置的用户。该方法包括标识该捕捉帧中的像素子帧并将该像素子帧显示给远程计算设备处的远程用户。该像素子帧含有第一捕捉帧中的用户的头部、颈部和肩部的位置。然后该方法包括自动跟踪第一像素子帧中用户的头部、颈部和肩部的位置到该捕捉区域内的下一位置。该方法还包括标识下一像素子帧并将该下一像素子帧向显示给该远程计算系统中的该远程用户。该下一像素子帧含有在该捕捉区域的下一位置的用户的头部、颈部和肩部的位置。

提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提及的任何或所有缺点的实现。

附图说明

图1示出了用于执行所公开技术的各操作的目标识别、分析和跟踪系统的一个实施例。

图2示出了可用作跟踪系统的一部分的捕捉设备的一个实施例。

图3示出了可用来实现图1-2的计算设备的计算设备的示例。

图4示出了可被用于实现计算设备的另一实施例的通用计算设备。

图5是描述当用户在与计算设备中执行的视频聊天应用交互的同时在捕捉设备的视野内移动时自动跟踪用户的头部、颈部和肩部的位置的过程的一个实施例的流程图。

图6是描述当在捕捉区域中检测到多于一个用户时执行图5中描述的过程的一个实施例的流程图。

图7是描述用于执行所公开的技术的各操作的过程的另一实施例的流程图，其中标识了含有一个或多个用户的像素子帧，所述一个或多个用户在与视频聊天应用交互的同时提供声音输入。

图8示出了可在图5中生成的、表示所扫描的人类目标的骨架模型或映射的示例。

图9A到10C示出了用户移动到捕捉设备的视野内的不同位置以及向在远程计算系统处的远程用户显示的视频馈送(videofeed)的所得输出的屏幕截图。

图9A是在捕捉帧中标识的像素子帧的示例描绘。

图9B是向远程用户显示的视频馈送的输出的示例描绘。

图9C是用户移动到捕捉区域内的下一位置的示例描绘。

图9D是向远程用户显示的下一像素子帧的示例描绘。

图10A示出了捕捉区域的捕捉帧中的像素子帧中多于一个用户的检测和标识。

图10B是经由远程计算设备处的显示屏幕向远程用户显示的视频馈送的输出的示例描绘。

图10C是将各个子帧中显示的用户合成到经由远程计算设备处的显示屏幕向远程用户显示的单个输出子帧中的示例描绘。

具体实施方式

公开一种自动跟踪参与视频聊天应用的用户的移动并显示用户的连续帧图像的方法。连接于计算设备的捕捉设备捕捉捕捉设备的视野内的用户。在捕捉设备捕捉的捕捉区域的捕捉帧中标识含有用户的头部、颈部和肩部的像素子帧。该像素子帧向远程计算设备处正在参与同用户的视频聊天应用的远程用户显示。在一个实施例中，该捕捉设备还检测捕捉区域中的多于一个用户并自动调整像素子帧来包括所有用户。标识用户的头部、颈部和肩部的像素子帧被显示给远程计算系统处的远程用户。用这种方式，在视频聊天应用的用户间提供更好的用户体验，此时每个用户的头部、颈部和肩部被一致地显示给远程用户，而不管用户相对于捕捉帧的移动。

在一个实施例中，通过自动跟踪捕捉区域中的用户的头部、颈部和肩部的位置而检测用户向捕捉区域中的下一位置的移动。含有在捕捉区域中的下一位置的用户的下一像素子帧被显示给远程用户。在一个实施例中，为了最好地将该用户显示给远程用户，在将像素子帧显示给远程用户之前，该用户的头部、颈部和肩部的位置被自动定位在该像素子帧的中心。

图1示出了用于执行所公开技术的各操作的目标识别、分析和跟踪系统10(下文中统称为跟踪系统)的一个实施例。目标识别、分析和跟踪系统10可用来识别、分析和/或跟踪诸如用户18和19之类的一个或多个人类目标。如图1所示，跟踪系统10可包括计算设备12。在一个实施例中，计算设备12可被实现为有线和/或无线设备、个人计算机、便携式计算机设备、移动计算设备、媒体设备、通信设备、视频处理和/或呈现设备、游戏设备、电子设备和/或可被实现为以音频、视频和/或图像数据中的任何形式接收媒体内容的任何其他类型的设备中的任何一个或其组合。根据一个实施例，计算设备12可以包括硬件组件和/或软件组件，以使得计算设备12可用来执行游戏应用或其它非游戏应用。在一个实施例中，计算设备12可包括可执行在处理器可读存储设备上存储的、用于执行在此描述的过程的指令的处理器，诸如标准化处理器、专用处理器、微处理器等。

如图1所示，跟踪系统10还可包括捕捉设备20。捕捉设备20例如可以是相机，该相机可以用于视觉地监控诸如用户18和19等一个或多个用户，使得来自该用户的移动、姿势以及音频响应可以被捕捉设备20捕捉和跟踪。

根据一个实施例，计算设备12可以连接到诸如电视机、监视器、高清电视机(HDTV)等可向用户18和19提供视觉和/或音频的视听设备16。例如，计算设备12可以包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，这些适配器可以向输出设备提供视听信号。视听设备16可从计算设备12接收视听信号，并且然后可向用户18和19输出与视听信号相关联的视觉和/或音频。根据一个实施例，视听设备16可经由例如，S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆等连接到计算设备12。

在一个实施例中，在用户与在计算设备12中执行的视频聊天应用交互时，捕捉设备20检测捕捉设备的视野6内的一个或多个用户(诸如用户18、19)并跟踪视野6内的用户的移动。线2和4表示视野6的边界。下面详细讨论由计算设备12和捕捉设备20执行的操作。

图2示出了捕捉设备20和计算设备12的一个实施例，它们可以在目标识别、分析和跟踪系统10中使用，以便识别捕捉区域中的人类或非人类目标，并在三维空间中唯一地标识并跟踪他们。捕捉设备20可被配置成经由任何合适的技术，包括例如飞行时间、结构化光、立体图像等，来捕捉带有包括深度图像的深度信息的视频，该深度图像可包括深度值。根据一个实施例，捕捉设备20可将所计算的深度信息组织为“Z层”或可垂直于从深度相机沿其视线延伸的Z轴的层。

如图2所示，捕捉设备20可以包括图像相机组件32。根据一个实施例，图像相机组件32可以是可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的三维(3-D)像素区域，其中3-D像素区域中的每一像素可表示深度值，诸如所捕捉的场景中的对象离相机的距离(例如以厘米、毫米等计)。

如图2所示，图像相机组件32可包括可被用来捕捉捕捉区域的深度图像的IR光组件34、三维(3-D)相机36、以及RGB相机38。例如，在飞行时间分析中，捕捉设备20的IR光组件34可以将红外光发射到捕捉区域上，然后可以使用传感器，用例如3-D相机36和/或RGB相机38来检测从捕捉区域中的一个或多个目标和对象的表面反向散射的光。在某些实施例中，可以使用脉冲式红外光从而可以测量出射光脉冲和相应的入射光脉冲之间的时间差并将其用于确定从捕捉设备20到捕捉区域中的目标或对象上的特定位置的物理距离。此外，可将出射光波的相位与入射光波的相位进行比较来确定相移。然后可以使用该相移来确定从捕捉设备到目标或对象上的特定位置的物理距离。

根据一个实施例，可使用飞行时间分析，通过经由包括例如快门式光脉冲成像的各种技术来分析反射光束随时间的强度变化以间接地确定从捕捉设备20到目标或对象上的特定位置的物理距离。

在另一示例中，捕捉设备20可使用结构化光来捕捉深度信息。在该分析中，图案化光(即，被显示为诸如网格图案或条纹图案等已知图案的光)可经由例如IR光组件34被投影到捕捉区域上。在撞击到捕捉区域中的一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这种变形可由例如3-D相机36和/或RGB相机38来捕捉，然后可被分析来确定从捕捉设备到目标或对象上的特定位置的物理距离。在一个实施例中，IR光组件34还可以包括可见光传感器以感测可见光。

根据一个实施例，捕捉设备20可包括可以从不同的角度观察捕捉区域的两个或更多个在物理上分离的相机，以获取可以被解析以生成深度信息的视觉立体数据。也可使用其他类型的深度图像传感器来创建深度图像。

捕捉设备20还可包括话筒40。话筒40可包括可接收声音并将其转换成电信号的换能器或传感器。根据一个实施例，话筒40可用来减少在目标识别、分析和跟踪系统10中的捕捉设备20与计算设备12之间的反馈。另外，话筒40可用于接收也可由用户提供的音频信号，以控制可由计算设备12执行的诸如游戏应用、非游戏应用等等之类的应用190。

在一个实施例中，捕捉设备20还可以包括可与图像相机组件32进行可操作的通信的处理器42。处理器42可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令可包括用于存储简档的指令、用于接收深度图像的指令、用于确定合适的目标是否被包括在深度图像中的指令、用于将合适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。

捕捉设备20还可包括存储器组件44，存储器组件44可存储可由处理器42执行的指令、由3-D相机或RGB相机所捕捉的图像或图像的帧、用户简档、或任何其他合适的信息、图像等等。根据一个示例，存储器组件44可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘或任何其他合适的存储组件。如图2所示，存储器组件44可以是与图像捕捉组件32和处理器42进行通信的分离的组件。在另一实施例中，存储器组件44可被集成到处理器42和/或图像捕捉组件32中。在一个实施例中，图2中示出的捕捉设备20的组件32、34、36、38、40、42和44中的一些或全部被容纳在单一壳体中。

捕捉设备20可以经由通信链路46来与计算设备12进行通信。通信链路46可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。计算设备12可以经由通信链路46向捕捉设备20提供时钟，该时钟可以用来确定何时捕捉例如场景。

捕捉设备20可将由例如3-D(或深度)相机36和/或RGB相机38捕捉的深度信息和图像经由通信链路46提供给计算设备12。然后计算设备12可使用该深度信息和捕捉的图像来控制可由计算设备12执行的一个或多个游戏或非游戏应用194和视频聊天应用190。

在一个实施例中，捕捉设备20最初捕捉捕捉设备的视野6内的一个或多个用户18、19。捕捉设备20向计算设备12提供所捕捉到的用户的视觉图像。计算设备12执行由捕捉设备20捕捉的用户的标识。在一个实施例中，计算设备12包括面部识别引擎192来执行捕捉设备20的视野6内的用户的唯一标识。在一个示例中，面部识别引擎192可以将来自从捕捉设备20接收到的视觉图像的用户的面部与参考视觉图像进行相关以确定用户的身份。在另一示例中，还可以通过从用户接收标识他们身份的输入来确定用户的身份。在一个实施例中，可以要求用户通过站在计算系统12之前以便捕捉设备20可以捕捉每个用户的深度图像和视觉图像来标识出他们自己。例如，可以要求用户站在捕捉设备20之前，转身，并且摆出各种姿势。在计算设备12获得标识用户所必需的数据以后，向用户提供标识该用户的唯一的标识符以及口令。关于标识用户的更多信息可在美国专利申请序列号12/696,282“VisualBasedIdentityTracking(基于视觉的身份跟踪)”，以及美国专利申请序列号12/475,308“DeviceforIdentifyingandTrackingMultipleHumansoverTime(用于随时间标识和跟踪多个人类的设备)”中找到，这两个申请的全部内容通过引用并入本申请。在另一实施例中，在用户登入到计算设备时(诸如：例如，当该计算设备是诸如用户的手机之类的移动计算设备时)，用户的身份可以已经为该计算设备所知。

在本技术的一个实施例中，计算设备12包括使得用户18、19能够与远程计算系统198处的远程用户17在视觉和听觉上通信的视频聊天应用190。远程用户17经由驻留在远程计算系统198中的远程捕捉设备204和视频聊天应用190与用户18、19通信。服务器200中的聊天服务202建立用户17、18和19之间的通信并且在用户经由视频聊天应用190彼此通信时维持各用户之间的连接。在一个示例中，视频聊天应用190还允许一组用户(其中每个用户具有他们自己的计算设备和捕捉设备)经由聊天服务202参与彼此的小组聊天或小组讨论。

在一个实施例中，一旦检测并标识视野6中的一个或多个用户18、19(如上面讨论的)之后，当用户在与视频聊天应用交互时移动到视野6内的不同位置时，捕捉设备20自动跟踪用户的头部、颈部和肩部的位置。下面在图5-7中详细讨论由捕捉设备12和计算设备20执行的操作。

图3示出了可用来实现图1-2的计算设备12的计算设备100的示例。在一个实施例中，图3的计算设备100可以是诸如游戏控制台之类的多媒体控制台100。如图3所示，多媒体控制台100具有中央处理单元(CPU)200以及便于处理器访问各种类型存储器的存储器控制器202，各种类型存储器包括闪速只读存储器(ROM)204、随机存取存储器(RAM)206、硬盘驱动器208、以及便携式媒体驱动器106。在一种实现中，CPU200包括1级高速缓存210和2级高速缓存212，用于临时存储数据，并且因此减少对硬盘驱动器208进行的存储器访问周期的数量，从而提高处理速度和吞吐量。

CPU200、存储器控制器202、以及各种存储器设备经由一个或多个总线(未示出)互连在一起。在此实现中所使用的总线的细节对理解此处所讨论的主题不是特别相关。然而，应该理解，这样的总线可以包括串行和并行总线、存储器总线、外围总线、使用各种总线体系结构中的任何一种的处理器或局部总线中的一个或多个。作为示例，这样的体系结构可以包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为夹层总线的外围部件互连(PCI)总线。

在一种实现中，CPU200、存储器控制器202、ROM204、以及RAM206被集成到公用模块214上。在此实现中，ROM204被配置为通过PCI总线和ROM总线(两者都没有示出)连接到存储器控制器202的闪速ROM。RAM206被配置为多个双倍数据速率同步动态RAM(DDRSDRAM)模块，它们被存储器控制器202通过分开的总线(未示出)独立地进行控制。硬盘驱动器208和便携式媒体驱动器106被示为通过PCI总线和AT附加(ATA)总线216连接到存储器控制器202。然而，在其他实现中，也可以备选地应用不同类型的专用数据总线结构。

图形处理单元220和视频编码器222构成了用于进行高速度和高分辨率(例如，高清晰度)的图形处理的视频处理流水线。数据通过数字视频总线(未示出)从图形处理单元220传输到视频编码器222。音频处理单元224和音频编码解码器(编码器/解码器)226构成了对应的音频处理流水线，用于对各种数字音频格式进行多通道音频处理。通过通信链路(未示出)在音频处理单元224和音频编码解码器226之间传输音频数据。视频和音频处理流水线向A/V(音频/视频)端口228输出数据，以便传输到电视机或其他显示器。在所示出的实现中，视频和音频处理组件220-228安装在模块214上。

图3示出了包括USB主控制器230和网络接口232的模块214。USB主控制器230被示为通过总线(例如，PCI总线)与CPU200和存储器控制器202进行通信，并作为外围控制器104(1)-104(4)的主机。网络接口232提供对网络(例如因特网、家庭网络等)的访问，并且可以是包括以太网卡、调制解调器、无线接入卡、蓝牙模块、电缆调制解调器等各种有线或无线接口组件中的任一种。

在图3中所描绘的实现中，控制台102包括用于支持四个控制器104(1)-104(4)的控制器支持子组件240。控制器支持子组件240包括支持与诸如，例如，媒体和游戏控制器之类的外部控制设备的有线和无线操作所需的任何硬件和软件组件。前面板I/O子部件242支持电源按钮112、弹出按钮114，以及任何LED(发光二极管)或暴露在控制台102的外表面上的其他指示灯等多个功能。子部件240和242通过一个或多个电缆部件244与模块214进行通信。在其他实现中，控制台102可以包括另外的控制器子部件。所示出的实现还示出了被配置成发送和接收可以传递到模块214的信号的光学I/O接口235。

MU140(1)和140(2)被示为可以分别连接到MU端口“A”130(1)和“B”130(2)。附加MU(例如，MU140(3)-140(6))被示为可连接到控制器104(1)和104(3)，即每一个控制器两个MU。控制器104(2)和104(4)也可以被配置成接纳MU(未示出)。每一个MU140都提供附加存储器，在其上面可以存储游戏、游戏参数、及其他数据。在一些实现中，其他数据可以包括数字游戏组件、可执行的游戏应用，用于扩展游戏应用的指令集、以及媒体文件中的任何一种。当被插入到控制台102或控制器中时，MU140可以被存储器控制器202访问。系统供电模块250向游戏系统100的组件供电。风扇252冷却控制台102内的电路。

包括机器指令的应用260被存储在硬盘驱动器208上。当控制台102被接通电源时，应用260的各个部分被加载到RAM206，和/或高速缓存210以及212中以在CPU200上执行，其中应用260是一个这样的示例。各种应用可以存储在硬盘驱动器208上以用于在CPU200上执行。

可通过简单地将系统连接到视听设备16(图1)、电视机、视频投影仪、或其他显示设备来将游戏和媒体系统100用作独立系统。在此独立模式下，游戏和媒体系统100允许一个或多个玩家玩游戏或欣赏数字媒体，例如观看电影或欣赏音乐。然而，随着宽带连接的集成通过网络接口232而成为可能，游戏和媒体系统100还可以作为较大的网络游戏社区的参与者来操作。

图4示出了可被用于实现计算设备12的另一实施例的通用计算设备。参考图4，用于实现所公开的技术的示例性系统包括以计算机310的形式呈现的通用计算设备。计算机310的组件可以包括，但不仅限于，处理单元320、系统存储器330，以及将包括系统存储器的各种系统组件耦合到处理单元320的系统总线321。系统总线321可以是若干类型的总线结构中的任一种，包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线，以及局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线，以及也称为夹层总线的外围部件互连(PCI)总线。

计算机310通常包括各种计算机可读介质。计算机可读介质可以是能由计算机310访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字多功能盘(DVD)或其他光盘存储设备，磁带盒、磁带、磁盘存储设备或其他磁存储设备，或者能用于存储所需信息且可以由计算机310访问的任何其他介质。通信介质通常以诸如载波或其他传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并包括任意信息传送介质。术语“已调制数据信号”是指一个或多个特征以在信号中编码信息的方式被设定或改变的信号。作为示例而非限制，通信介质包括如有线网络或直接线连接之类的有线介质，以及如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在计算机可读介质的范围之内。

系统存储器330包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)331和随机存取存储器(RAM)332。基本输入/输出系统333(BIOS)包括如在启动时帮助在计算机310内的元件之间传输信息的基本例程，它通常储存在ROM331中。RAM332通常包含处理单元320可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图5示出了操作系统334、应用程序335、其他程序模块336，以及程序数据337。

计算机310也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器340，对可移动、非易失性磁盘352进行读写的磁盘驱动器351，以及对例如CDROM或其它光学介质等可移动、非易失性光盘356进行读写的光盘驱动器355。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器341通常由诸如接口340的不可移动存储器接口连接至系统总线321，并且磁盘驱动器351和光盘驱动器355通常由诸如接口350的可移动存储器接口连接至系统总线321。

上文所讨论的并且在图4中示出的驱动器及其相关联的计算机存储介质为计算机310提供了对计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，图4中，硬盘驱动器341被示为存储操作系统344、应用程序345、其它程序模块346和程序数据347。注意，这些组件可以与操作系统334、应用程序335、其他程序模块336和程序数据337相同，也可以与它们不同。在此操作系统344、应用程序345、其他程序模块346以及程序数据347被给予了不同的编号，以说明至少它们是不同的副本。用户可以通过诸如键盘362和定点设备361(通常被称为鼠标、跟踪球或触摸垫)之类的输入设备向计算机20输入命令和信息。其他输入设备(未示出)可包括话筒、游戏杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其他输入设备通常由耦合至系统总线的用户输入接口360连接至处理单元320，但也可以由诸如并行端口、游戏端口或通用串行总线(USB)等其他接口和总线结构来进行连接。监视器391或其他类型的显示设备也通过诸如视频接口390的接口连接至系统总线321。除监视器之外，计算机也可以包括诸如扬声器397和打印机396之类的其他外围输出设备，它们可以通过输出外围接口390来连接。

计算机310可使用至诸如远程计算机380之类的一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机380可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括上文参考计算机310所描述的许多或全部元件，虽然图4中只示出了存储器设备381。图4中所描述的逻辑连接包括局域网(LAN)371和广域网(WAN)373，但是，也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机310通过网络接口或适配器370连接至LAN371。当在WAN联网环境中使用时，计算机310通常包括调制解调器372或用于通过诸如因特网等WAN373建立通信的其他手段。调制解调器372可以是内置或外置的，它可以经由用户输入接口360或其他适当的机制连接至系统总线321。在网络化环境中，相对于计算机310所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制，图4示出了驻留在存储器设备381上的远程应用程序385。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他手段。

图5是描述当用户在与计算设备中执行的视频聊天应用交互的同时在捕捉设备的视野内移动时自动跟踪用户的头部、颈部和肩部的位置的过程的一个实施例的流程图。该示例方法可以使用例如图像相机组件32和/或计算设备12、100或300来实现，如参考图2-4所讨论的。

在步骤500，捕捉设备20的处理器42从图像相机组件32接收一个或多个深度图像。在一个示例中，深度图像和红绿蓝(RGB)图像均可在步骤500接收。深度图像和RGB图像可由图像相机组件32中的任何传感器或本领域中已知的其他适合的传感器来捕捉。在一个实施例中，深度图像与RGB图像是分开捕捉的。在某些实现中，深度图像和RGB图像是同时被捕捉的，而在其他实现中，它们是顺序地或在不同时刻被捕捉的。在其他实施例中，深度图像是与RGB图像一起被捕捉的，或者与RGB图像组合成一个图像文件，使得每个像素具有R值、G值、B值和Z值(表示距离)。在步骤500，还确定与RGB图像和深度图像相对应的深度信息。深度信息可包括该图像内的一个或多个目标的多个观察到的像素，其中每个所观察的像素具有观察到的深度值。在一个示例中，图像相机组件32可以使用诸如飞行时间分析、结构化光分析、立体视觉分析之类的任何合适的技术，获取与捕捉区域中的一个或多个目标相关联的深度信息，如所讨论的。

在步骤502，接收捕捉区域的捕捉帧。捕捉区域可包括例如捕捉设备20的视野6。捕捉帧可包括由图像相机组件32捕捉的深度图像和RGB图像。在一个示例中，捕捉帧具有1024x1024像素的分辨率。图9A是由捕捉设备20捕捉的捕捉区域6中的捕捉帧的示例描绘。

在步骤504，针对捕捉帧是否包括在捕捉区域的第一位置中的人类目标(诸如用户18或19)作出判断。在一个实施例中，可对捕捉帧中的每一目标进行泛色填充并将其与一模式进行比较来确定该捕捉帧是否包括人类目标。在一个示例中，可确定捕捉帧中的每个目标的边缘。捕捉帧可包括所捕捉的场景的三维像素区域。3D像素区域中的每个像素可表示诸如例如可测量到的离图像相机组件32的长度或距离等的深度值。可以通过将与捕捉帧的相邻或邻近的像素相关联的各深度值进行比较来确定边缘。如果被比较的各深度值大于预定边缘容差，则这些像素可定义边缘。捕捉设备可将包括深度图像的所计算的深度信息组织成“Z层”或可垂直于沿着其视线从相机延伸到观察者的Z轴的各层。可基于所确定的边缘来对Z层的可能Z值进行泛色填充。例如，可将与所确定的边缘相关联的像素和在所确定的边缘内的区域中的像素互相关联，以限定捕捉区域中的目标或对象。

在步骤506，确定该捕捉帧内是否包括多于一个用户。如果确定捕捉帧内包括多于一个用户，则在步骤508执行图6中描述的过程的步骤(540-550)。一旦完成图6的步骤(540-550)之后，该过程在图5中的步骤514继续以接收下一捕捉帧。在步骤504和506，还可执行对捕捉帧中的用户的标识。在一个实施例中，计算设备12可执行对由捕捉设备捕捉的用户的标识。如上面讨论的，计算设备12中的面部识别引擎192可执行对该用户的标识。

在步骤506，如果确定捕捉帧只包括一个用户，那么在步骤510，标识捕捉帧中含有该用户的头部、颈部和肩部的位置的RGB图像的像素子帧。图9A是在捕捉帧中标识的像素子帧的示例描绘。在一个实施例中，标识像素子帧包括基于在步骤500中由图像相机组件32捕捉的深度图像和视觉图像而生成用户的骨架模型。在一个示例中，用户的骨架模型可以通过扫描诸如与该用户相关联的位或像素等信息来确定与该用户相关联的一个或多个身体部位来生成。在一个示例中，用户可被隔离，并创建位掩模来扫描与该用户相关联的一个或多个身体部位。例如可通过对用户进行泛色填充，从而使得该用户与捕捉区域中的其他用户或对象分离，来创建该位掩模。然后，可以针对一个或多个身体部位分析位掩模，以生成用户的骨架模型、网格人类模型等等。例如，可使用由所扫描的位掩模确定的度量值来限定骨架模型中的一个或多个关节。该位掩模可包括人类目标沿X、Y和Z轴的值。关节可用于限定可对应于人类的身体部位的一根或多根骨头。图8示出了可在步骤506中生成的、表示所扫描的人类目标的骨架模型或映射840的示例。

根据一个实施例，为了标识与用户的头部、颈部和肩部相对应的像素子帧，可将该位掩模的宽度(例如，在被扫描的位置处的)同与头部、颈部和肩部相关联的典型宽度的阈值相比较。在一替代实施例中，离位掩模中所扫描的并与身体部位相关联的前一位置的距离可用来确定头部、颈部和肩部的位置。例如，为了确定肩部的位置，可将肩部位置处的位掩模的宽度与阈值肩部值进行比较。例如，可以将肩部位置处的位掩模的X值处的两个最靠外的Y值之间的距离与例如人类肩部之间的典型距离的阈值肩部值进行比较。由此，根据一示例实施例，该阈值肩部值可以是与人类的身体模型的肩部相关联的典型宽度或宽度范围。在一个实施例中，诸如腿、脚等的某些身体部位也可基于例如其他身体部位的位置来计算。例如，如上所述，可以扫描与人类目标相关联的诸如位、像素等信息，以确定人类目标的各个身体部位的位置。基于这些位置，然后可以为人类目标计算诸如腿、脚等的后续身体部位。

在步骤512，含有用户的头部、颈部和肩部的像素子帧被显示给远程计算系统198处的远程用户17。在一个示例中，该像素子帧具有640x480像素的分辨率。在一个实施例中，在将像素子帧显示给远程用户17之前，该用户的头部、颈部和肩部的位置被自动定位在像素子帧的中心。计算设备12将像素子帧编码为视频数据通信数据流。经编码的像素子帧被显示给远程计算系统198处也正在参与同该用户(诸如用户18或19)的视频聊天应用190的远程用户17。注意，在远程计算系统198的像素分辨率与该用户的计算系统的像素分辨率不匹配的情形中，在将该像素子帧显示给该远程用户之前，该像素子帧的分辨率可以被缩放以与该远程计算系统的像素分辨率相匹配。图9B是向远程用户17显示的视频馈送的输出的示例描绘。

在步骤514，确定是否从深度相机接收到另一捕捉帧。如果在步骤514没有接收到另一捕捉帧，则该过程在步骤516终止。在步骤518，接收来自深度相机的下一捕捉帧。在步骤520，确定在该下一捕捉帧中是否检测到一个或多个另外的用户。如果检测到一个或多个另外的用户，则在步骤508执行在图6中描述的过程的步骤(540-550)。一旦完成图6的步骤(540-550)之后，该过程在步骤514继续以接收该下一捕捉帧。

如果在该下一捕捉帧中没有检测到一个或多个另外的用户，则在步骤522，确定是否检测到捕捉区域内的一个或多个用户的移动。如果没有检测到该一个或多个用户的移动，则在步骤524将前一像素子帧显示给远程用户，且该过程继续到步骤514以确定是否接收到下一捕捉帧。如果检测到一个或多个用户的移动，则使用在步骤504中获得的用户的骨架模型跟踪该捕捉区域内的一个或多个用户的移动。在一个示例中，通过确定该下一捕捉帧是否在该捕捉区域中的下一位置包括该一个或多个用户来检测该一个或多个用户的移动。图9C是用户移动到捕捉区域内的下一位置的示例描绘。

在一个示例中，跟踪捕捉区域内一个或多个用户的横向移动。在另一示例中，还跟踪一个或多个用户离深度相机的不同距离的移动(例如，远离或朝着深度相机的移动)。例如，可通过每秒更新几次捕捉区域内的一个或多个用户的位置，通过在一个或多个用户在捕捉区域6内在深度相机前方的物理空间中移动时调整并更新骨架模型，来跟踪一个或多个用户的移动。来自深度相机的信息可用于调整模型，以使得骨架模型准确地表示一个或多个用户。在一个示例中，这是通过向该骨架模型的一个或多个受力方面施加一个或多个力，以将该骨架模型调整成更接近地对应于人类目标和物理空间的姿态的姿态来实现的。有关移动检测和跟踪的更多信息可以在申请日为2009年12月18日、名称为“MotionDetectionUsingDepthImages(使用深度图像的移动检测)”的美国专利申请12/641,788中找到，通过引用将该申请的全部内容并入本文。

在步骤526，标识下一捕捉帧中含有一个或多个用户的头部、颈部和肩部的下一像素子帧。下一像素子帧可以是以与在步骤510中讨论的对第一像素子帧类似的方式标识的。

在步骤528，该下一像素子帧被显示给远程计算系统198中的远程用户17。图9D是向远程用户显示的下一像素子帧的示例描绘。在一个实施例中，该捕捉帧(在步骤510中获得的)中的像素子帧的大小不同于该下一捕捉帧(在步骤526中获得的)中的下一像素子帧的大小。在一个实施例中，为了最好地将该一个或多个用户显示给远程用户17，在将下一像素子帧显示给该远程用户之前，该一个或多个用户的头部、颈部和肩部的位置被自动定位在该下一像素子帧的中心。在另一实施例中，为了在用户在离捕捉设备的不同距离处时最好地将该一个或多个用户显示给远程用户17，该像素子帧和该下一像素子帧中的该一个或多个用户的头部、颈部和肩部的大小被自动改变，从而在显示之前该像素子帧和该下一像素子帧中的该一个或多个用户的头部、颈部和肩部的位置大致不变。该过程继续到步骤514以确定是否从深度相机接收到另一捕捉帧。

图6是描述当在捕捉区域中检测到多于一个用户时执行图5中描述的过程的一个实施例的流程图。如果确定在图5的步骤506中在捕捉帧中检测到多于一个用户，则在步骤540标识该捕捉帧中含有用户的头部、颈部和肩部的像素子帧。图10A示出了捕捉区域的捕捉帧中的像素子帧中多于一个用户的检测和标识。在步骤542，确定该像素子帧是否能包括所有的用户。如果该像素子帧不能包括所有的用户，则在步骤544标识含有每个用户的各个像素子帧。在步骤546，将各个像素子帧显示给远程用户。在一个示例中，在远程计算系统198的像素分辨率与该用户的计算系统的像素分辨率不匹配的情形中，在向远程用户显示各个像素子帧之前，该各个像素子帧的分辨率可以被缩放以与远程计算系统的像素分辨率相匹配。

在步骤542，如果确定该像素子帧能包括所有的用户，则在步骤548该像素子帧被自动调整成包括所有的用户。在一个示例中，在将该像素子帧显示给远程用户之前，该像素子帧被自动调整成将该用户的头部、颈部和肩部的位置自动定位在该像素子帧的中心。在步骤550，该像素子帧被显示给远程用户。在另一示例中，可对多个用户创建各个像素子帧，并将其合成为单个的输出的像素子帧并显示给在远程计算系统处的远程用户，如图10C中所示。在步骤552中，该过程继续到图5的步骤514以确定是否从深度相机接收到另一捕捉帧。

在一个实施例中，在最小时间段内，当各用户足够靠近时，计算设备12可将所述用户标识为该像素子帧中的一组用户。在另一实施例中，在最小时间段内，当各用户不再足够靠近时，计算系统12可标识含有每个用户的各个像素子帧(如在步骤544中讨论的)。该各个像素子帧被显示给远程计算系统198处的远程用户17。在一个实施例中，所述最小时间段可以由计算设备12预定。然后，如上面讨论的，通过确定该捕捉帧内该组用户的头部、颈部和肩部的位置，可跟踪该组用户向捕捉帧内的下一位置的移动。有关标识和跟踪一组用户的更多信息可以在申请日为2010年1月15日、名称为“TrackingGroupsofUsersinMotionCaptureSystem(在移动捕捉系统中跟踪用户组)”的美国专利申请12/688,793中找到，通过引用将该申请的全部内容并入本文。

图7是描述用于执行所公开的技术的各操作的过程的另一实施例的流程图，其中标识了含有一个或多个用户的像素子帧，所述一个或多个用户在与视频聊天应用交互的同时提供声音输入。在一个实施例中，一旦标识了捕捉帧中含有多于一个用户的像素子帧(如在图6的步骤540中讨论的)之后，可执行图7的步骤。在步骤552，确定是否检测到来自该像素子帧中的至少一个用户的语音输入。在一个示例中，捕捉设备20中的话筒40可用于检测来自用户的音频或语音输入。如果没有检测到来自用户的语音输入，则在步骤554中，该像素子帧被显示给远程用户，如在图6的步骤546或步骤550中讨论的。

如果检测到来自至少一个用户的语音输入，则在步骤556中确定所述用户是否显示在给远程用户的各个子帧中。如果所述用户被显示在各个子帧中，则在步骤558中将仅含有提供该语音输入的所述用户的各个子帧被显示给远程用户。如果所述用户没有显示在各个子帧中，则在步骤560中自动调整该像素子帧以只包括提供语音输入的用户。在一个示例中，该像素子帧被自动调整成在将该像素子帧显示给远程用户17之前，将提供语音输入的用户的头部、颈部和肩部的位置自动定位在该像素子帧的中心。在步骤562中，含有提供语音输入的用户的像素子帧被显示给远程用户。

图8示出了可在图5的步骤504中生成的、表示所扫描的人类目标的骨架模型或映射840的示例。根据一个实施例，骨架模型840可包括可将人类目标表示为三维模型的一个或多个数据结构。每个身体部位可被表征为定义骨架模型840的关节和骨骼的数学矢量。

骨架模型840包括关节n1-n18。关节n1-n18中的每一个可使得在这些关节之间定义的一个或多个身体部位能相对于一个或多个其他身体部位移动。表示人类目标的模型可包括多个刚性和/或可变形身体部位，这些身体部位可由诸如“骨骼”等的一个或多个结构件来定义，而关节n1-n18位于相邻骨骼的交叉点处。关节n1-n18可使得与骨骼和关节n1-n18相关联的各个身体部位能够彼此独立地或彼此相对地移动。例如，在关节n7与n11之间定义的骨骼对应于前臂，该前臂可独立于例如在关节n15与n17之间定义的对应于小腿的骨骼而移动。可以理解，某些骨骼可对应于人类目标中的解剖学骨骼，和/或某些骨骼在人类目标中可能不具有对应的解剖学骨骼。

骨骼和关节可共同构成骨架模型，它们可以是该模型的构成元素。轴向滚动角可用于定义肢相对于其父肢和/或躯干的旋转定向。例如，如果骨架模型正示出手臂的轴向旋转，则滚动关节可用来指示相关联的腕所指的方向(例如，手掌向上)。通过检查肢相对于其父肢和/或躯干的定向，可确定轴向滚动角。例如，如果正在检查小腿，则可检查小腿相对于相关联的大腿和髋部的定向以便确定轴向滚动角。

图9-10示出了当用户与在连接于捕捉设备的计算设备中执行的视频聊天应用交互时用户向捕捉设备的视野内的不同位置的移动以及显示给远程计算系统处的远程用户的视频馈送的所得输出的屏幕截图。图9A是由捕捉设备捕捉的捕捉区域中的捕捉帧的示例描绘。捕捉帧902包括在捕捉设备的捕捉区域6中的第一位置的人类目标(诸如用户18)和对象(诸如表906)。图9A还示出了捕捉帧902中含有用户18的头部、颈部和肩部的位置的像素子帧904。图9B是经由远程计算设备处的显示屏幕显示给远程用户的视频馈送的输出的示例描绘。如图9B所示，像素子帧904经由远程计算设备198的显示屏幕912显示给远程用户17。

图9C是用户移动到捕捉区域内的下一位置的示例描绘。图9C示出了标识用户18向捕捉区域6内的下一位置的移动的下一捕捉帧908。下一像素子帧910含有下一捕捉帧908中的头部、颈部和肩部的位置。图9D是经由远程计算设备处的显示屏幕显示给远程用户的视频馈送的输出的示例描绘。如图9D所示，下一像素子帧910经由远程计算设备198中的显示屏幕912显示给远程用户17。

图10A是在捕捉区域6的捕捉帧902中检测的多于一个用户的示例描绘。如图10A所示，第一捕捉帧902中的像素子帧904被自动调整成在像素子帧904中包括用户18、19。图10B是经由远程计算设备处的显示屏幕显示给远程用户的视频馈送的输出的示例描绘。如图10B所示，像素子帧904经由远程计算设备198中的显示屏幕912显示给远程用户17。在另一示例中，用户18、19还可以显示在对远程计算系统处的远程用户17的各个子帧914、916中，如图10C所示。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但是可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明的范围由所附的权利要求进行定义。

Claims

1.一种用于自动跟踪参与在计算设备(12)中执行的视频聊天应用(190)的用户(18，19)的移动的方法，所述方法包括：

接收捕捉帧(906)，所述捕捉帧(906)包括来自连接到计算设备(12)的深度相机(32)的捕捉区域(6)的一个或多个深度图像，所述一个或多个深度图像包括一个或多个对象的像素，每个像素具有代表从深度相机到一个或多个对象的距离的深度值；

通过比较与所述捕捉帧的邻近像素相关联的深度值以分析所述捕捉帧的边缘来确定所述捕捉帧(906)是否包括在所述捕捉区域(6)的第一位置的用户(18，19)；

标识所述捕捉帧(906)中的像素子帧(904)，所述像素子帧(904)标识所述捕捉帧(906)中所述用户(18，19)的头部、颈部和肩部的位置；

自动将所述用户(18，19)的头部、颈部和肩部的位置定位在所述像素子帧的中心；

将包括所述用户(18，19)的头部、颈部和肩部的所述位置的所述像素子帧(904)显示给远程计算系统(198)处的远程用户(17)；

自动跟踪所述用户(18，19)的所述头部、颈部和肩部的所述位置到所述捕捉区域(6)内的下一位置；

标识下一像素子帧(910)，所述下一像素子帧(910)标识在所述下一位置的所述用户(18，19)的所述头部、颈部和肩部的位置，其中所述下一像素子帧(910)包括在所述捕捉区域(6)的下一捕捉帧(908)中；

自动将所述用户(18，19)的头部、颈部和肩部的位置定位在所述下一像素子帧的中心；

在所述像素子帧和所述下一像素子帧中自动改变所述用户(18，19)的头部、颈部和肩部大小，使得所述用户(18，19)的头部、颈部和肩部在所述像素子帧中和在所述下一像素子帧中大小不变；以及

将所述下一像素子帧(910)显示给所述远程计算系统(198)中的所述远程用户(17)。

2.如权利要求1所述的方法，其特征在于，将所述像素子帧和所述下一像素子帧显示给所述远程用户还包括：

将所述像素子帧和所述下一像素子帧编码为到所述远程计算设备处的所述远程用户的视频通信数据流。

3.如权利要求1所述的方法，其特征在于：

所述捕捉帧中所述像素子帧的大小不同于所述下一捕捉帧中所述下一像素子帧的大小。

4.如权利要求1所述的方法，其特征在于，自动跟踪所述用户的所述头部、颈部和肩部的所述位置到所述捕捉区域内的下一位置还包括：

自动跟踪所述用户到所述捕捉区域中的所述下一位置的横向移动。

5.如权利要求1所述的方法，其特征在于，自动跟踪所述用户的所述头部、颈部和肩部的所述位置到所述捕捉区域内的下一位置还包括：

自动跟踪所述用户到离所述捕捉设备的不同距离的移动。

6.如权利要求1所述的方法，其特征在于，还包括：

基于所述一个或多个深度图像生成所述用户的骨架模型，其中使用所述骨架模型标识所述用户的所述头部、颈部和肩部。

7.如权利要求1所述的方法，其特征在于，还包括：

检测并标识所述捕捉区域中的多于一个用户，确定所述像素子帧或所述下一像素子帧的至少一个子帧是否能够包括所述用户中的每个用户，自动调整所述像素子帧或所述下一像素子帧以包括所述用户中的每个用户的所述头部、颈部和肩部以及将所述像素子帧和所述下一像素子帧显示给所述远程用户。

8.如权利要求1所述的方法，其特征在于，还包括：

检测并标识所述捕捉区域中的多于一个用户，标识各个像素子帧以包括所述用户中的每个用户以及将所述各个像素子帧显示给所述远程用户。

9.一种用于自动跟踪参与在视频聊天应用的用户的移动的方法，所述方法包括：

将包括所述用户(18，19)的头部、颈部和肩部的位置的所述像素子帧(904)显示给远程计算系统(198)处的远程用户(17)；

接收下一捕捉帧(908)，所述下一捕捉帧(908)包括来自深度相机(32)的所述捕捉区域(6)的一个或多个深度图像；

自动跟踪所述捕捉区域(6)内一个或多个用户(18，19)的移动；

基于所述跟踪确定所述下一捕捉帧(908)是否包括在所述捕捉区域(6)中的下一位置的所述一个或多个用户(18，19)；

标识含有所述下一捕捉帧(908)中含有所述一个或多个用户(18，19)的所述头部、颈部和肩部的所述下一像素子帧(910)；

将所述下一像素子帧(910)显示给所述远程计算系统(198)处的所述远程用户(17)。

10.如权利要求9所述的方法，其特征在于，进一步包括：

当在最小时间段内所述一个或多个用户足够靠近时，将所述一个或多个用户标识为所述下一像素子帧中的一组用户。

11.如权利要求10所述的方法，其特征在于，进一步包括：

通过确定所述捕捉帧中所述一组用户的所述头部、颈部和肩部的所述位置，自动跟踪所述一组用户向所述捕捉帧内的下一位置的移动。