CN102577368B

CN102577368B - 在虚拟协同系统中传送视觉表示

Info

Publication number: CN102577368B
Application number: CN200980158725.0A
Authority: CN
Inventors: I.N.罗宾逊; D.G.格尔布; K-H.谭
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2009-04-16
Filing date: 2009-04-16
Publication date: 2016-01-06
Anticipated expiration: 2029-04-16
Also published as: US8902280B2; EP2441254A4; EP2441254A2; WO2010120304A3; CN102577368A; WO2010120304A2; US20120026275A1

Abstract

公开了在媒体流（24）的内容中在视觉上指示节点（22）的用户的一个或多个手势的系统和方法。被配置为向一个或多个其它节点（22）传送具有内容的媒体流（24）的节点（22）包括被配置为显示所述媒体流的内容的屏幕，被配置为捕捉节点（22）的用户的一个或多个手势的图像的媒体设备（36），其中所述一个或多个手势邻近于所述屏幕并且所述媒体设备（36）被定位成捕捉所述图像而在该图像中不超出该屏幕的周边视图地进行捕捉；被配置为生成所捕捉的一个或多个手势的视觉表示的媒体分析器（38）；以及被配置为将所捕捉的一个或多个手势的视觉表示与所述媒体流（24）的内容进行合成的合成器（40）。

Description

在虚拟协同系统中传送视觉表示

背景技术

视频会议以及其它形式的虚拟协同允许在处于远程位置的系统之中实时交换或共享视频、音频和/或其它内容或数据。数据的这种实时交换可以以流送视频和/或音频数据的形式在计算机网络上发生。

在许多视频会议系统中，包括参与者的视频和/或音频的媒体流与包括诸如电子文档、对象的视觉表示和/或其它音视觉数据之类的共享内容的媒体流分开地显示。参与者通过使用诸如鼠标、键盘等的外围设备与共享内容进行交互。典型地，参与者不借助外围设备所做出的使共享内容的一个或多个部分突出显示的任何手势都是不可见的。

附图说明

图1是依据本公开内容的实施例的视觉协同系统的框图。

图2是依据本公开内容的实施例的节点的框图。

图3是依据本公开内容的实施例的示例性第一节点以及第一用户在该第一节点处向共享内容的一部分做出手势。

图4是依据本公开内容的实施例的示例性第二节点以及第二用户观看第一用户、共享内容以及图3中第一用户朝着共享内容的该部分的手势的视觉表示。

图5是依据本公开内容的实施例的另一示例性第二节点以及第二用户观看共享内容以及图3中第一用户朝着共享内容的该部分的手势的视觉表示。

图6是示出依据本公开内容的实施例的在媒体流的内容中在视觉上指示节点的用户的一个或多个手势的方法的流程图。

具体实施方式

本说明性方法和系统可以适配成管理虚拟协同系统中的共享内容。具体地，本说明性系统和方法除其它事情之外还可以允许那些系统的用户在一个或多个媒体流的内容中在视觉上指示他们的手势中的一个或多个手势。下面将提供本说明性协同系统和方法的进一步细节。

如在本公开内容中和所附权利要求中所使用的，术语“媒体”和“内容”被定义为包括文本、视频、声音、图像、数据和/或可以通过计算机网络传送的任何其它信息。

另外，如本公开内容中和所附权利要求中所使用的，术语“节点”被定义为包括具有被配置为直接和/或通过网络与远程系统进行接收、呈现和/或传送媒体的一个或多个组件的任何系统。合适的节点系统可以包括（一个或多个）视频会议工作室、（一个或多个）计算机系统、（一台或多台）个人计算机、（一台或多台）笔记本或膝上型计算机、（一个或多个）个人数字助理（PDA），或者能够连接到网络和/或通过网络传送数据的先前所提及或类似设备的任何组合。

类似地，如本公开内容中和所附权利要求中所使用的，术语“事件”被定义为包括为系统提供用来交换信息的框架的任何指定时间和/或虚拟会面场所。事件允许至少一个节点传送和接收媒体信息和/或媒体流。事件也可以被称作“会话”。

此外，如本说明性公开内容中所使用的，术语“子系统”和“模块”可以包括任何数目的硬件、软件、固件组件、或者其任何组合。如本公开内容中所使用的，子系统和模块可以是一个或多个计算设备的一部分和/或被一个或多个计算设备宿留，所述一个或多个计算设备包括（一台或多台）服务器、（一台或多台）个人计算机、（一个或多个）个人数字助理，和/或任何其它包含装置的处理器。各种子系统和模块可以执行不同的功能和/或角色，并且合起来可以保持是单个单元、程序、设备和/或系统。

图1示出了虚拟协同系统20。该虚拟协同系统可以包括连接到一个或多个通信网络100以及管理子系统或事件管理器系统102的多个节点22。事件管理器系统可以包括用于在经由一个或多个通信网络通信地耦合到该事件管理器系统的节点之中提供和/或管理一个或多个协同“交叉连接的”事件的任何合适结构。虽然虚拟协同系统20被示为包括事件管理器系统102，但是在一些实施例中，诸如在对等虚拟协同系统中，所述虚拟协同系统可以不包括事件管理器系统。在那些实施例中，一个或多个节点22可以包括事件管理器系统的（一个或多个）组件和/或（一个或多个）功能。

图2示出了节点22的组件以及该节点到事件管理系统102的连接。如通常所图示的，节点22是可以通过接收、呈现和/或传送媒体数据而参与到协同事件中的系统。因此，节点22可以被配置为从一个或多个其它节点22接收和/或向一个或多个其它节点22传送媒体信息或媒体流24，生成本地媒体输出26，从一个或多个其它节点22和/或事件管理器系统接收本地媒体输入28、本地参加者输入30和/或系统指示，和/或向一个或多个其它节点和/或事件管理器系统传送节点请求34。例如，节点22可以被配置为向一个或多个其它节点22传送一个或多个媒体流24，和/或从一个或多个其它节点接收一个或多个媒体流24。

所述（一个或多个）媒体流可以包括可以被节点中的一个或多个节点修改的内容（或共享内容）。该内容可以包括可由一个或多个节点修改的任何数据。例如，内容可以包括电子文档、视频、对象的视觉表示，等等。

如所示出的，节点22可以包括任何合适数目的媒体设备36，所述媒体设备36可以包括被配置为接收媒体流24、显示和/或呈现所接收的媒体流（诸如媒体输出26）、生成或形成媒体流24（诸如从媒体输入28）、和/或传送所生成的媒体流的任何合适结构。在一些实施例中，媒体流24可以从一个或多个其它节点22接收，和/或被传送到一个或多个其它节点22。

媒体设备36可以包括能够与一个或多个其它节点22和/或一个或多个网络100相接口的任何（一个或多个）硬件和/或软件元素。所述媒体设备中的一个或多个可以被配置为接收媒体流24，和/或以参加者可辨识的方式再现和/或呈现所接收的媒体流。例如节点22可以为膝上型或台式计算机的形式，其可以包括作为媒体设备36的摄像机、视频屏幕、扬声器和麦克风。可替换地或另外，媒体设备可以包括（一个或多个）麦克风、（一个或多个）摄像机、（一个或多个）视频屏幕、（一个或多个）键盘、（一个或多个）扫描仪、（一个或多个）运动传感器，和/或（一个或多个）其它输入和/或输出设备。

媒体设备36可以包括一个或多个视频摄像机，其被配置为捕捉该节点的用户的视频，并且传送包括所捕捉视频的媒体流24。媒体设备36还可以包括一个或多个屏幕，其被配置为向该节点的（一个或多个）用户显示该媒体流的共享内容。另外或可替换地，媒体设备36可以包括计算机视觉子系统，其被配置为捕捉一幅或多幅图像，诸如一幅或多幅三维图像。例如，计算机视觉子系统可以包括（诸如以立体摄像机阵列布置的）一个或多个立体摄像机，和/或一个或多个具有主动深度传感器的摄像机。可替换地或另外，计算机视觉子系统可以包括一个或多个视频摄像机。

计算机视觉子系统可以被配置为捕捉该节点的（一个或多个）用户的一幅或多幅图像。例如，计算机视觉子系统可以被配置为捕捉该节点的用户的一个或多个手势（诸如可能与显示媒体流内容的屏幕相邻近的手部手势）的图像。所述图像可以是二维或三维图像。

计算机视觉子系统可以被定位成捕捉任何（一个或多个）合适位置的图像。例如，计算机视觉子系统可以被定位成邻近屏幕以捕捉与该节点的屏幕间隔开的一个或多个交互区域内的图像，所述交互区域诸如在该节点的（一个或多个）用户前面的空间区域。计算机视觉子系统可以被定位成使得该节点的屏幕不处于交互区域内。另外，计算机视觉子系统可以被定位成捕捉（一个或多个）手势的图像而不把该屏幕捕捉到该图像中，或者而不在该图像中超出该屏幕的周边视图（peripheral view）地进行捕捉。如这里关于计算机视觉子系统所使用的“周边视图”是指在其中计算机视觉子系统的视线以一角度与屏幕（或者屏幕的平面）相交的视图，该角度近似为30度或更小，或者优选为近似15度或更小，或者甚至优选为近似10度或更小。

例如，计算机视觉子系统可以被定位成沿着朝着屏幕和用户之间的空间指向的该屏幕的相同平面。可替换地或另外，计算机视觉子系统可以被定位成沿着与朝着屏幕和用户之间的空间指向的该屏幕的平面不平行（诸如垂直或倾斜于该屏幕的平面）的平面。

节点22还可以包括至少一个媒体分析器或媒体分析器模块38，其可以包括被配置为生成来自（一个或多个）媒体设备中的一个或多个媒体设备的（一个或多个）输出的视觉表示的任何合适结构。该媒体分析器还可以包括被配置为对那些（一个或多个）输出进行分析并且标识来自那些（一个或多个）输出的任何指令或命令的任何合适结构。例如，媒体分析器38可以包括一个或多个视觉表示生成器、媒体流捕捉机构以及一个或多个信号处理器，它们可以为硬件和/或软件/固件的形式。

媒体分析器38可以被配置为根据来自媒体设备中的一个或多个媒体设备的（一副或多幅）捕捉图像生成（一个或多个）手势的至少一个视觉表示，诸如用户指向所显示内容的一部分的手部的视觉表示。可以生成任何合适的视觉表示。例如，视觉表示可以是手势的视频图像。可替换地或另外，视觉表示可以是被成形为和/或定大小为与所标识手势相类似的图形。例如，可以通过突出或使用元球从（一台或多台）摄像机所捕捉的一个或多个表面模拟固体对象来生成该图形。

媒体分析器可以生成具有任何合适（一个或多个）方位或（一个或多个）视图的（一个或多个）手势的（一个或多个）视觉表示。例如，指点手势的视觉表示可以被定向为从远程用户（其在概念上将处于屏幕的另一侧）的视角创建手势的视图。因此，当在一个或多个其它节点22处显示所传送的媒体流时，用户的手部的视觉表示指向那些节点的用户。媒体分析器所生成的视觉表示还可以以任何合适的颜色生成或渲染。例如，可以以自然色来渲染该视觉表示，其可以被以深度图式地进行（诸如越近的部分渲染得越暗）或者实际上被再加亮（re-light）以帮助消除形状的歧义。可替换地或另外，视觉表示可以为阴影和/或剪影，其可以将视觉表示与共享内容区分开。

媒体分析器还可以被配置为基于来自（一台或多台）摄像机的（一幅或多幅）捕捉图像确定（一个或多个）手势相对于屏幕的位置，和/或诸如以媒体分析器输入46的形式向节点管理器提供与该所确定位置有关的信息。例如，当手势为指点手势时，媒体分析器可以被配置为基于来自（一台或多台）摄像机的（一幅或多幅）捕捉图像确定该指点手势相对于屏幕的位置，并且可以生成关于用户利用该指点手势指向内容的什么部分的信息。例如，如果该内容包括电子文档并且用户正使用指点手势指向特定词（或者词的特定字母），则所生成的信息可以包括被指向的该特定词（或词的特定字母）。另外，如果内容包括对象的视觉表示，诸如立方体，并且用户正指向该立方体的特定角，则所生成的信息可以包括被指向的该特定角。

另外，当手势是框架手势（framing gesture）时，则媒体分析器可以被配置为基于来自（一台或多台）摄像机的（一幅或多幅）捕捉图像确定该框架手势相对于屏幕的位置，并且可以生成关于所确定位置的信息。该信息可以包括用户利用该框架手势框住了内容的什么部分。例如，如果内容是图片并且用户框住了该图片的任何百分比（例如，5%、1%、0.5%、0.1%、0.01%等），则所生成的信息包括该框架手势所框住的图片部分。

媒体分析器还可以被配置为标识来自媒体设备中的一个或多个媒体设备的（一幅或多幅）捕捉图像的一个或多个手势。包括单手或双手手势（诸如不涉及任何外围设备的操控的手部手势）在内的任何合适手势都可以由媒体分析器来标识。例如，可以通过用户伸出他或她的指点手指来执行的指点手势可以被标识为指示该用户想要指向或者突出显示所显示内容的一个或多个部分。用户的手部在进行指点手势时可以与屏幕间隔开或者可以触碰到屏幕。另外或可替换地，可以由媒体分析器来标识其它手势，其包括触及手势、锁定手势、转向手势等。

媒体分析器可以包括任何合适的软件和/或硬件/固件。例如，除其它结构之外，媒体分析器还可以包括视觉识别软件和关系数据库。该视觉识别软件可以使用用于标识（一个或多个）手势的逻辑过程。例如，该视觉识别软件可以将用户的手势与背景分离开。另外，该软件可以在捕捉图像中集中于用户的手部（诸如手部姿势、手部运动和/或手部的方位）和/或用户的身体的其它相关部分。该视觉识别软件还可以使用任何合适的（一种或多种）算法，其包括处理像素数据、阻碍运动向量等的算法。

如下面进一步讨论的，该关系数据库可以存储所识别的手势以及那些手势的视觉表示以作为到节点管理器和/或合成器的输入。该关系数据库可以被配置为存储在媒体分析器的操作期间所学习到的附加识别手势。可替换地或另外，媒体分析器可以在手势被捕捉和/或标识时生成新的视觉表示。该媒体分析器可以被配置成为任何合适数目的手势生成视觉表示。媒体分析器的示例包括来自GestureTek®的手势控制产品，诸如GestPoint®、GestureXtreme®和GestureTek Mobile^TM；来自Softkinetic的自然接口产品，诸如iisu^TM中间件；以及来自Mgestyk Technologies的基于手势的控制产品，诸如Mgestyk Kit。

该计算机视觉子系统和/或媒体分析器可以在节点22的操作期间以任何合适的（一种或多种）方式予以激活。例如，计算机视觉子系统和/或媒体分析器可以通过用户将诸如用户的手部之类的某物放置于该计算机视觉系统的交互区域内予以激活。虽然把媒体分析器38示出为被配置成在本地节点22生成（一个或多个）手势的视觉表示，但是另外或可替换地，媒体分析器可以被配置为生成来自其它节点22的（一个或多个）手势的视觉表示。例如，来自远程节点的用户的一个或多个手势的图像可以被传送到本地节点22，并且由媒体分析器38分析以便将该手势的视觉表示添加到共享内容。

节点22还可以包括至少一个合成器或合成器模块40，其可以包括被配置为对来自媒体设备的两个或更多媒体流进行合成的任何合适结构。在一些实施例中，合成器可以被配置为将所捕捉的节点用户的视频与一个或多个媒体流24中的其它内容进行合成。该内容和视频的合成可以在传送节点和/或（一个或多个）接收节点处发生。另外或可替换地，该合成器可以将来自媒体分析器的（一个或多个）手势的（一个或多个）视觉表示与共享内容进行合成或相加。

节点22还可以包括一个或多个环境设备42，其可以包括被配置为调节该节点的环境和/或支持一个或多个其它节点22的一个或多个功能的任何合适结构。所述环境设备可以包括不直接与媒体流连接相关的参与能力。例如，环境设备42可以改变一个或多个摄像机的（一种或多种）变焦设置，控制一个或多个视频投影仪（诸如主动，投射内容回到用户和/或场景上），改变音频系统的音量、高音和/或低音设置，和/或调节照明。

如图2中所示，节点22还包括节点管理器44，其可以包括适配成处理（一个或多个）参加者输入30、（一个或多个）系统指示32和/或（一个或多个）媒体分析器输入46，以及至少部分地基于所接收的指示和/或所接收的媒体分析器输入对各种媒体设备36和/或合成器40中的一个或多个进行配置的任何合适结构。该节点管理器可以对从媒体分析器、一个或多个其它节点22和/或事件管理器系统所接收的输入和/或指示进行解释，并且例如可以至少部分地基于所接收的指示生成针对媒体设备36、合成器40和/或环境设备42的特定于设备的指示。

例如，节点管理器44可以被配置为接收与用户的手部正指向的所显示内容的该部分相关的媒体分析器输入46。该节点管理器可以向合成器发送指令和/或指示以使得其将用户的手部的视觉表示与所传送的媒体流的内容进行合成，因此，当在一个或多个其它节点22处显示所传送的媒体流时，该用户的手部的视觉表示正指向在那些节点处所显示的内容的相同部分，以及在一些实施例中指向那些节点的（一个或多个）用户。如果存在多个内容和/或用户的手部的多个视觉表示，则该节点管理器可以向合成器发送多个指令。

另外或可替换地，节点管理器可以被配置为从一个或多个其它节点22接收指令，所述指令可以被节点管理器用来指引媒体分析器生成来自一个或多个其它节点22的捕捉手势的视觉表示，和/或指引合成器以使得其将所捕捉手势的视觉表示与所接收媒体流的内容进行合成，因此，当在该节点处显示所接收媒体流时，来自另一节点的用户的手部的视觉表示指向该节点处所显示的内容的该部分，在一些实施例中指向该节点的用户。

虽然节点22已经被示出并论述为能够生成一个或多个手势的视觉表示和/或识别那些手势，但是另外或可替换地，该节点可以被配置为识别其它用户输入，诸如可以被放置于（或保留）在计算机视觉系统的交互区域内的物理对象。例如，可以将三维对象放置于该交互范围内长达数秒。即使在该对象已经从交互区域移开之后，该节点也可以生成该对象的视觉表示，然后将该视觉表示与所传送媒体流的其它视频和/或内容进行合成。

图3示出了节点22的示例并且通常以222来指示。除非另外指明，否则节点222可以具有节点22的（一种或多种）功能和/或（一个或多个）组件中的至少一些。节点222为膝上型计算机的形式，并且除其它媒体设备之外，其还包括至少一个屏幕224以及摄像机226和228。在该屏幕上所显示的是共享内容234。摄像机226被配置为捕捉第一用户232的（一幅或多幅）图像。摄像机228被配置为捕捉第一用户232在交互区域230内的（一幅或多幅）图像，交互区域230由虚线231和233限定。该摄像机处于与屏幕224的平面倾斜的平面中，并且被定位成捕捉（一个或多个）手势的图像而不捕捉该屏幕上的图像。因此，屏幕224并不处于交互区域230内。第一用户232在图3中被示为在交互区域230内做出手势236（诸如指点手势237）。

图4中示出了节点22的另一示例并且通常以238来指示。除非另外指明，否则节点238可以具有节点22和222的（一种或多种）功能和/或（一个或多个）组件中的至少一些。节点238是以第二用户242所使用的膝上型计算机的形式。除其它媒体设备之外，该膝上型计算机还包括至少一个屏幕240。在屏幕240上示出了第一用户232的视频和共享内容234。另外，示出了第一用户的指点手势的视觉表示246以向第二用户242指示图3中的第一用户232指向哪里。虽然图4示出了第一用户232的视频、共享内容234和视觉表示246，但是如图5中所示，节点238可以在屏幕240上仅示出共享内容234和视觉表示246。

虽然示出了具体手势，但是节点222可以被配置为生成其它手势的视觉表示。另外，虽然节点222被示为包括向不同节点的单个用户显示共享内容的屏幕，但是该屏幕可以向处于一个或多个不同节点的多个用户显示该共享内容。此外，虽然节点222被示为包括单个屏幕，但是该节点可以包括多个屏幕，其中一些屏幕显示来自一个或多个不同节点的用户和共享内容。

另外，虽然示出了指向单个共享内容的手部手势的单个视觉表示，但是可以存在指向单个共享内容的不同部分的多个视觉表示，和/或可以存在多个共享内容（无论是在单个屏幕上还是在多个屏幕上），其中一些共享内容包括所述视觉表示。此外，虽然摄像机228被示为被定位成捕捉（一个或多个）手势的图像而不捕捉处于该屏幕上的图像，但是摄像机228可以被定位成捕捉（一个或多个）手势的图像以及至多处于该屏幕上的该图像的周边视图。例如，可替换地，摄像机228可以具有由点划线235和虚线231（或者点划线235和虚线233）限定的交互区域，如图4中所示。点划线可以以相交角239与该屏幕相交，该相交角239为30度或更小，以使得该摄像机至多具有该屏幕的周边视图。

图6示出了在媒体流的内容中在视觉上指示节点的用户手势的方法的示例，该方法通常以400来指示。虽然图6示出了根据一个示例的方法的说明性步骤，但是其它示例可以省略、添加和/或修改图6中所示出的步骤中的任何步骤。

如图6中所示，该方法可以包括在402显示媒体流的内容。该方法还可以包括在404捕捉该节点用户的用户手势的图像。该用户手势可以邻近于所显示的内容和/或该图像可以免于超出所显示内容的周边视图。在406，可以由诸如媒体分析器生成所捕捉的用户手势的视觉表示。在408可以将所捕捉的用户手势的视觉表示与媒体流的内容进行合成。

在一些实施例中，方法400可以包括在410标识或识别所捕捉图像中的用户手势和/或在414确定用户打手势所针对的所显示内容的（一个或多个）部分。例如，当用户手势是对准该内容的（一个或多个）部分的指点手势时，所生成的视觉表示可以包括用户指向那些（一个或多个）部分的手部的视觉表示，其可以是用户的手部的剪影或视频图像。合成可以包括将该视觉表示与媒体流的内容进行合成，以使得当所传送的媒体流在（一个或多个）其它节点进行显示时，所述视觉表示正指向在那些（一个或多个）节点处所显示的内容的该部分和/或那些节点的用户。

节点22还可以包括计算机可读媒体，所述计算机可读媒体包括用于在媒体流的内容中在视觉上指示节点的用户手势的计算机可执行指令，所述计算机可执行指令被配置为执行上面所论述的方法400的一个或多个步骤。

Claims

1.一种被配置为向一个或多个其它节点（22）传送具有内容的媒体流（24）的节点（22），其包括：

屏幕，其被配置为向与所述屏幕相对定位的节点的用户显示所述媒体流（24）的内容；

媒体设备（36），其指向从所述屏幕到所述用户向外的方向并且被配置为捕捉所述节点（22）的用户的一个或多个手势的图像，其中所述一个或多个手势邻近于所述屏幕并且在其前面，并且所述媒体设备（36）被定位成捕捉所述图像而在该图像中不捕捉超出所述屏幕的周边视图；

媒体分析器（38），其被配置为生成所捕捉的一个或多个手势的视觉表示；和

合成器（40），其被配置为将所捕捉的一个或多个手势的视觉表示与所述媒体流（24）的内容进行合成，使得捕捉的一个或多个手势的视觉表示表现为已在所述屏幕的后面做出，即使所述一个或多个手势是在所述屏幕的前面做出的也是如此；

其中所述一个或多个手势包括用户指向所显示内容的一部分的手部，并且所述视觉表示包括用户指向所显示内容的一部分的手部的视觉表示；

其中用户指向所显示内容的一部分的手部的所述视觉表示包括用户的手部的视频图像。

2.如权利要求1所述的节点（22），其中当所述用户的手部正指向所显示内容的一部分时所述用户的手部与所述屏幕间隔开。

3.如权利要求1所述的节点（22），其中所述媒体分析器（38）进一步被配置为确定用户的手部正指向的所显示内容的所述部分，并且其中所述合成器（40）被配置为将用户的手部的所述视觉表示与所述媒体流（24）的内容进行合成，以使得当所述媒体流（24）在一个或多个其它节点（22）处进行显示时，用户的手部的所述视觉表示正指向在所述一个或多个其它节点（22）处所显示的内容的所述部分。

4.如权利要求3所述的节点（22），其中用户指向所显示内容的一部分的手部的所述视觉表示被定向成使得当所述媒体流（24）在所述一个或多个其它节点（22）处进行显示时，用户的手部的所述视觉表示正指向在所述一个或多个其它节点（22）处所显示的内容的所述部分以及所述一个或多个其它节点（22）的用户。

5.如权利要求3所述的节点（22），其中所述内容包括具有多个词的电子文档，并且所述内容的所述部分是所述多个词中的特定词。

6.如权利要求1所述的节点（22），其中所述媒体流（24）包括所述节点（22）的用户的视频以及在所述节点的用户的视频内所合成的内容，其中所述合成器（40）进一步被配置为将指向所显示内容的一部分的用户的所述视觉表示与所述节点的所述用户的视频和所述内容添加在一起。

7.一种在媒体流（24）的内容中在视觉上指示节点（22）的用户手势的方法（400），其包括：

在与节点的用户相对定位的屏幕上显示（402）所述媒体流的内容；

由指向从所述屏幕到所述用户向外的方向的媒体设备捕捉（404）在所述屏幕的前面做出的所述节点（22）的用户手势的图像，所述用户手势邻近于所显示内容并且所述图像不超出所显示内容的周边视图；

生成（406）所捕捉的用户手势的视觉表示；和

将所捕捉的用户手势的所述视觉表示与所述媒体流（24）的内容进行合成（408），使得所述手势的视觉表示表现为已在所述屏幕的后面做出，即使所述手势是在所述屏幕的前面做出的也是如此；

其中所述用户手势包括用户指向所显示内容（402）的一部分的手部，并且进一步包括确定（414）用户的手部正指向的所显示内容的所述部分，其中生成（406）视觉表示包括生成（406）用户指向所显示内容（402）的一部分的手部的视觉表示；

8.如权利要求7所述的方法（400），其中合成（408）所述视觉表示包括将用户指向所显示内容（402）的一部分的手部的视觉表示与所述媒体流（24）的内容进行合成（408），以使得当所述媒体流（24）在一个或多个其它节点（22）处进行显示时，用户的手部的所述视觉表示正指向在所述一个或多个其它节点（22）处显示的内容的所述部分。

9.如权利要求8所述的方法（400），其中生成（406）视觉表示包括生成（406）用户的手部的视觉表示，以使得当所述媒体流（24）在一个或多个其它节点（22）处进行显示时，用户的手部的所述视觉表示正指向在所述一个或多个其它节点（22）处显示的内容的所述部分以及所述一个或多个其它节点（22）的用户。

10.一种用于在媒体流（24）的内容中在视觉上指示节点（22）的用户手势的设备，所述设备包括：

用于在与节点的用户相对定位的屏幕上显示（402）所述媒体流的内容的装置；

用于由指向从所述屏幕到所述用户向外的方向的媒体设备捕捉（404）在所述屏幕的前面做出的所述节点（22）的用户手势的图像的装置，所述用户手势邻近于所显示内容并且所述图像不超出所显示内容的周边视图；

用于生成（406）所捕捉的用户手势的视觉表示的装置；和

用于将所捕捉的用户手势的视觉表示与所述内容进行合成（408）以使得所述手势的视觉表示表现为已在所述屏幕的后面做出即使所述手势是在所述屏幕的前面做出的也是如此的装置；

其中所述用户手势包括用户指向所显示内容的一部分的手部，并且所述设备还包括用于确定（414）用户的手部正指向的所显示内容的所述部分的装置，其中用于生成视觉表示的装置包括用于生成用户指向所显示内容的一部分的手部的视觉表示的装置；