CN104782122B

CN104782122B - 受控三维通信端点系统和方法

Info

Publication number: CN104782122B
Application number: CN201380053160.6A
Authority: CN
Inventors: Y·C·史密斯; E·G·朗; C·F·惠特玛; Z·张
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-10-10
Filing date: 2013-10-09
Publication date: 2018-01-19
Anticipated expiration: 2033-10-09
Also published as: WO2014058931A2; US9332222B2; US8976224B2; KR102108596B1; KR20150067194A; US20150163454A1; EP2907302A2; EP3651454A1; WO2014058931A3; JP6285941B2; JP2016500954A; US20140098183A1; CN104782122A

Abstract

一种用于仿真在线会面或会议中的各参与者之间的亲临通信并在附加参与者加入时提供虚拟环境的容易伸缩的受控三维(3D)通信端点系统和方法。这向参与者给出了其他参与者与观看者处于同一房间且绕同一桌而坐的假象。受控通信端点包括绕参与者360度来捕捉参与者的视频的多个相机群。受控通信端点还包括包含被放置成绕参与者至少180度且显示包含其他参与者的几何代理的虚拟环境的显示设备的显示设备配置。将参与者置于虚拟圆桌处并在附加参与者被添加时增加虚拟桌的直径容易地实现了可伸缩性。

Description

受控三维通信端点系统和方法

背景

当前视频会议技术通常使用单个相机来捕捉本地场景的RGB数据(来自红、蓝以及绿(RGB)色彩模型)。这一本地场景通常包括参与视频会议的人，称为会议参与者。数据随后被实时传送到远程位置并随后显示给处于与其他会议参与者不同的位置处的另一会议参与者。

尽管在视频会议技术中已取得了帮助提供更高分辨率捕捉、压缩、以及传输的进步，但该体验通常达不到重建亲临会议的面对面体验。这一点的一个原因是典型的视频会议体验缺少眼睛注视以及其他纠正对话几何。例如，通常，被远程捕捉的人没有像在面对面对话中体验到的那样看向你的眼睛。此外，缺少像运动视差和图像深度以及改变场景中的视角的自由度等三维(3D)元素，因为只存在捕捉该场景以及会议参与者的单个固定摄像机。

发明内容

提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

受控三维(3D)通信端点系统和方法的各实施例对在线会面或会议中的参与者之间的亲临通信进行仿真。另外，受控3D通信端点系统和方法的各实施例允许容易地伸缩包含参与者的虚拟环境，使得附加参与者可通过仅仅增加虚拟环境中包含的虚拟桌的大小而被添加。此外，受控端点允许观看者感觉如同其他参与者与他在同一房间中一样。

具体而言，受控3D通信端点系统和方法的各实施例使用端点处的多个相机群来捕捉参与者的3D视频图像。受控端点中的多个相机群被安排成使得它们允许绕参与者360度来捕捉该参与者。根据视频所捕捉的数据，为参与者创建几何代理。使用来自捕捉的视频的RGB数据和深度信息，为每一参与者创建几何代理。

场景几何由该系统和方法的各实施例根据亲临通信中会存在的眼睛注视和对话几何来创建。场景几何的一般概念是创建参与者之间的相对几何。场景被实际上对齐以模拟现实生活场景，如同参与者在同一物理位置且参与亲临通信。

场景几何使用虚拟框来保持参与者之间的相对、一致的几何。具有两个参与者的会议(或一对一(1:1)场景几何)包括占据两个参与者的相应监视器(未示出)前方的空间的两个框。在存在三个参与者时，场景几何包括按等距的方式绕虚拟圆桌放置的三个虚拟框。

场景几何还包括虚拟相机。虚拟相机是来自多个相机群中的两者或更多者的图像的合成，以获得没有被任何一个相机群单独捕捉的相机视图。这允许该系统和方法的各实施例获得人们之间的自然眼睛注视以及联系。脸部跟踪技术可被用来通过帮助虚拟相机保持与观看者的眼睛注视对齐来改进性能。这意味着虚拟相机保持水平且在垂直和水平两个方向上与观看者的眼睛对齐。虚拟相机与脸部跟踪交互，以创建具有用户看向该用户的眼睛正在看向的位置的虚拟视点。因而，如果用户正看向远方，则虚拟视点始自用户看向远方的角度。如果用户正在看另一参与者，则虚拟视点始自用户正在看该另一参与者的角度。这不是通过人工使其看起来像用户正在看另一参与者来完成的，而是通过创建正确地表示用户正在看何处的虚拟几何来完成的。

几何代理被相对于彼此渲染且与场景几何一起被放置到虚拟环境中。所渲染的几何代理和场景几何被传送给参与者中的每一个。虚拟环境被显示给端点的受控环境中的观看者(他也是参与者之一)。具体而言，每一端点包含使用虚拟视点向观看者显示虚拟环境的显示设备配置。虚拟视点依赖于观看者的眼睛的位置和定向。取决于眼睛的位置和定向，观看者看到会议中的其他参与者的不同角度以及虚拟环境的其他方面。

现实空间与虚拟空间的配准确保所显示的图像是观看者在她正在察看虚拟环境中其他参与者的情况下会看到的。另外，脸部跟踪技术可被用来跟踪观看者的眼睛以知晓虚拟视点应当显示什么。为了以高效的方式大规模地为参与者创建真实几何且为了帮助维护参与者全部都在一个物理位置的假象，控制端点的大小和布局使得更易于构建解决方案。

显示设备配置包含多个显示设备(如监视器或屏幕)。显示设备配置控制端点环境，使得显示设备被安排成绕观看者至少180度。这确保观看者具有沉浸式体验并且感觉如同他实际上与其他参与者在同一物理空间。

该系统和方法的各实施例还允许容易的可扩展性。具体而言，在一些实施例中，虚拟桌是具有第一直径的圆形(或环形)虚拟桌。参与者中的每一个的几何代理被绕该虚拟桌置于虚拟环境中。这确保观看者可以看到围绕虚拟桌的参与者中的每一个。如果更多参与者被添加到在线会议中，则虚拟圆桌的大小被扩展到大于第一直径的第二直径。第二直径可以是大于第一直径的任何直径。这一扩展将参与者中的每一个仍然保持在视野中以供观看，且给出了与其他参与者一起绕桌处于同一房间的假象。

该系统和方法的各实施例还包括促进在单个端点处的多个参与者。在一些实施例中，脸部跟踪技术跟踪两个不同的脸并随后向不同的观看者提供不同视图。在其他实施例中，端点处的多个参与者中的每一个佩戴眼镜，并且在一些实施例中，该眼镜上具有快门，快门向每一佩戴者示出由监视器显示的被调谐到每一对眼镜的交替帧。其他实施例使用具有多个观看角度的监视器，使得正在从右侧观看监视器的观看者看到一个场景且正在从左侧观看监视器的另一观看者看到不同场景。

应当注意，替换实施例也是可能的，并且此处所讨论的步骤和元素可取决于特定实施例而改变、添加或消除。这些替换实施例包括可使用的替换步骤和替换元素，以及可做出的结构上的改变，而不脱离本发明的范围。

附图简述

现在参考附图，在全部附图中，相同的附图标记表示相应的部分：

图1是示出在计算环境中实现的受控三维(3D)通信端点系统和方法的各实施例的一般概览的框图。

图2是示出图1所示的3D通信处理系统的系统细节的框图。

图3是示出图1所示的受控3D通信端点和方法的各实施例的相机群的示例性实施例的细节的框图。

图4示出使用四个相机群的相机群布局(诸如图2所示)的示例性实施例。

图5示出使用三个显示设备的显示设备配置(诸如图1所示)的示例性实施例。

图6示出其上可实现此处描述且在图1-5和7-15中所示的3D通信窗口系统和方法的各实施例和元素的通用计算机系统的简化示例。

图7是示出图1所示的受控3D通信端点系统的总体操作的流程图。

图8是示出图1所示的3D通信处理系统的总体操作的流程图。

图9示出扩展该系统和方法的各实施例以容纳附加端点的示例性实施例。

图10示出创建单个会议参与者的几何代理的示例性概览。

图11示出当在线会议中存在两个参与者(在两个不同的端点处)时参与者之间的场景几何的示例性实施例。

图12示出当在线会议中存在处于三个不同端点处的三个参与者时参与者之间的场景几何的示例性实施例。

图13示出基于参与者正在看的位置的虚拟相机的示例性实施例。

图14示出通过基于观看者所面向的位置的运动视差来提供深度的示例性实施例。

图15示出使用具有多个观看角度的监视器处理单个端点处的多个参与者的技术的示例性实施例。

详细描述

在以下对受控三维(3D)通信端点系统和方法的描述中，对附图进行了参考，附图形成了该描述的一部分，并且其中作为说明示出了可实践3D通信端点系统和方法的各实施例的一个具体示例。可以理解，可以利用其他实施例，并且可以作出结构上的改变而不背离所要求保护的主题的范围。

I.系统概览

受控3D通信端点系统和方法的各实施例创建用于沉浸式在线会议和会面的受控捕捉和观看空间。该系统和方法的各实施例确保在参与者加入在线会议或会面时各端点处的一致性。各端点在在线会议期间是完全受控的，包括光照、房间设计、以及几何形状。此外，端点包括用于捕捉和观看3D沉浸式会议的装备，使得对观看者而言，其他参与者看起来实际上与该参与者处于同一房间(或同一物理空间)。

端点是包含在线会议或会面的各参与者中的至少一者的物理位置，如房间或其他类型的环境。每一在线会议具有至少两个端点，其中每一端点具有至少一个参与者。每一端点可具有两个或更多个参与者。下文详细讨论处理具有两个或更多个参与者的端点的方式。

图1是示出在计算环境中实现的受控三维(3D)通信端点系统100和方法的各实施例的一般概览的框图。系统100和方法的各实施例包括一起工作来为在线会面或会议的参与者创建沉浸式体验的各种组件和系统。

如图1所示，系统100和方法包括促进参与者的沉浸式体验的3D通信处理系统105。3D通信处理系统105被实现在计算设备110上。这一计算设备可以是单个计算设备或可以分布在多个设备上。此外，计算设备110实际上可以是具有处理器的任何设备，包括台式计算机、平板计算设备以及嵌入式计算设备。

系统100和方法的各实施例包括至少两个端点。出于教学和易于解释的目的，图1只示出了两个端点。然而，应当注意，系统100和方法的各实施例可包括若干更多端点。此外，虽然图1中的每一端点仅示出了单个参与者，但应当注意，任何数量的参与者可被包括在任何端点处。

系统100和方法的各实施例包括第一端点115和第二端点120。在图1中，第一端点115和第二端点120被示出在平面图中。换言之，如果第一和第二端点115、120是房间，则图1是房间的平面图。

第一端点115包括其中包含的第一参与者125。第一端点115还包含多个捕捉和观看设备。第一端点115处的观看设备包括第一监视器130、第二监视器135、以及第三监视器140。观看设备向第一参与者125提供在线会议中的沉浸式体验，使得第一参与者125感觉好像他与其他参与者一起在该房间中。

系统100和方法的各实施例包括具有被安排成使得它们至少绕参与者180度的监视器或屏幕的监视器配置。监视器的配置可实际上是任何安排，只要它们绕参与者至少180度来放置。如下文详细解释的，这确保参与者的体验是完全沉浸式的且使得能够取决于在线会议参与者的数量而伸缩。

图1中的监视器配置示出了第一端点115中的与第一监视器130成直角的第二和第三监视器135、140。此外，第一端点115中的监视器130、135、140绕第一参与者125至少180度。在替换实施例中，监视器配置可以是曲线形的，诸如半圆、或彼此之间的角度可以小于直角。

系统100和方法的各实施例还包括用于捕捉第一端点115内的第一参与者125的至少一部分的捕捉设备。系统100和方法的各实施例使用多个相机群作为捕捉设备。应当注意，虽然图1中示出了六个相机群，但可以使用更少或更多相机群。

如图1所示，第一端点115包括位于第一参与者125前方的第一多个相机群145以及位于第一参与者125后方的第二多个相机群150。每一相机群的细节在下文详细解释。图1示出了附连到第一监视器130的第一多个相机群145以及附连到第一端点115的支撑结构(如房间中的墙或房间的地板上)的第二多个相机群150。然而，应当注意，在替换实施例中，第一和第二多个相机群145、150可被安装在某一其他结构上，或者一些相机群可被安装在第一监视器130上且其他相机群被安装在其他结构上。

第二端点120包括其中包含的第二参与者155。与第一端点115类似，第二端点120也包含多个捕捉和观看设备。第二端点120处的观看设备包括第四监视器160、第五监视器165、以及第六监视器170。这些监视器160、165、170向第二参与者155提供在线会议中的沉浸式体验，使得第一参与者125感觉好像他与其他参与者一起在该房间中。

图1中的监视器配置示出了第二端点120中的与第四监视器160之间的角度小于90度的第五和第六监视器165、170。此外，第二端点120中的监视器160、165、170绕第二参与者155至少180度。在替换实施例中，监视器配置也可以是曲线形的，如半圆。

系统100和方法的各实施例还包括用于捕捉第二端点120内的第二参与者155的至少一部分的捕捉设备。系统100和方法的各实施例使用多个相机群作为捕捉设备。应当注意，虽然在图1中的第二端点120中示出了十个相机群，但可以使用更少或更多相机群。

如图1所示，第二端点120包括位于第二参与者155前方的第三多个相机群175以及位于第二参与者155后方的第四多个相机群180。每一相机群的细节在下文详细解释。此外，第五多个相机群185位于第二参与者155左侧且第六多个相机群190位于第二参与者155右侧。

图1示出了第三多个相机群175附连到第四监视器160，第五多个相机群185附连到第五监视器165，且第六多个相机群190附连到第六监视器170。第四多个相机群180附连到第二端点120的支撑结构(如房间中的墙或房间的地板上)。然而，应当注意，在替换实施例中，第三、第四、第五、以及第六多个相机群175、180、185、190可被安装在某一其他结构上，或者一些相机群安装在第二端点120内的其他结构上。

第一参与者125被第一端点115中的相机群捕捉，且第二参与者被第二端点120中的相机群捕捉。这一捕捉到的信息随后被传送给3D通信处理系统105的各实施例，如下文详细解释的。第一端点115的捕捉设备通过网络195与3D 通信处理系统105通信。网络195与第一端点115之间的通信是使用第一通信链路来促进的。类似地，网络195与第二端点120之间的通信由第二通信链路198来促进。在图1中，3D通信处理系统105的各实施例被示为驻留在网络195上。然而，应当注意，这只是3D通信处理系统105可被实现在系统100和方法的各实施例内的一种方式。

捕捉到的信息被处理且发送给各端点以供在监视器上观看。系统100和方法的各实施例向各端点处的每一参与者提供虚拟视点。如下文详细解释的，虚拟视点允许观看者从依赖于观看者的脸的位置和定向的可变视角来观看在线会议。在一些实施例中，脸部跟踪被用来跟踪观看者的眼睛注视并确定经处理的信息应当如何被呈现给观看者。

II.系统细节

系统100和方法的各实施例包括被一起用来向参与者提供在线会议中的沉浸式体验的各种组件和设备。现在将讨论这些组件和设备。应当注意，其它实施例是可能的，并且其它设备可被用于或替换来实现所讨论的组件和设备的目的和功能。

系统100和方法的各实施例包括一起工作以创建“亲临”通信体验的三个主要组件。第一组件是捕捉并创建参与会议的每一个人的3D视频图像。第二组件是基于会议中的参与者的数量来创建相关场景几何。并且，第三组件是渲染并提供虚拟视图，如同相机被放置在观看者正在看的位置的视角，从而重新创建参与者在亲临交谈时将具有的相同场景几何。

II.A. 3D通信处理系统

图2是示出图1所示的3D通信处理系统105的系统细节的框图。如图2所示，3D通信处理系统105包括捕捉和创建组件200、场景几何组件210、以及虚拟视点组件220。捕捉和创建组件200被用于捕捉和创建端点处的参与者的3D视频图像。

具体而言，捕捉和创建组件200包括包含多个相机群的相机群布局230。相机群布局230被用来从多个视角来捕捉参与者。计算机视觉方法被用来创建每一会议参与者的高保真度几何代理。如下文详细解释的，这通过取得从RGB数据收集模块235获得的RGB数据以及深度信息计算模块240获得并计算得到的深度信息来实现。根据这一信息，几何代理创建模块245创建每一参与者的几何代理250。基于图像的渲染方法被用来创建几何代理250的逼真纹理，诸如与视点相关纹理映射一样。

场景几何组件210被用来创建正确场景几何以模拟各参与者在一起进行真实对话。这一场景几何依赖于会议中参与者的数量。3D配准模块260被用来获得显示设备或监视器与相机群的精确配准。此外，空间对齐模块265将相机群的定向与真实世界对齐。对于1:1会议(具有两个端点)，这是在虚拟环境中将这两个物理空间简单地彼此面对面排成列。为每一参与者重新创建的捕捉区域是监视器前方的区域。

一旦为每一会议参与者创建了纹理化的几何代理250并且参与者被表示在与会议中的其他参与者相关的3D虚拟空间中，几何代理就按与对话几何相一致的方式来向彼此渲染。此外，这一渲染是基于会议中的参与者的数量来完成的。

几何代理(且在一些情况下是配准和对齐信息)被传输模块270传送给远程参与者。虚拟视点组件220被用来增强渲染给远程参与者的虚拟视点。‘在现场’的体验是通过使用将运动视差和深度添加到参与者身后的场景的运动视差模块280来增强的。任一参与者的水平和横向移动改变他们本地显示器上示出的视点，且参与者从不同的视角看到他们正在看的场景以及其中的人。这极大地增强了会议参与者的体验。

II.B.相机群

如上所述，系统100和方法的捕捉和创建组件200包括被用来捕捉端点中的参与者和场景的多个相机群。每一相机群具有多个传感器。图3是示出图1所示的受控3D通信端点系统100和方法的各实施例的相机群300的示例性实施例的细节的框图。如图1所示，系统100和方法的各实施例通常包括一个以上相机群300。然而，仅出于教学目的，将描述单个相机群。此外，应当注意，多个相机群不一定必须包括相同传感器。系统100和方法的一些实施例可包括包含彼此不同的传感器的多个相机群。

如图3所示，相机群300包括多个相机传感器。这些传感器包括立体传感器红外(IR)相机310、RGB相机320、以及IR发射器330。为了捕捉参与者和端点的3D图像，相机群300捕捉RGB数据和深度坐标，以计算深度图。图3示出了IR立体IR相机310和IR发射器330被用来捕捉深度计算。RGB相机320被用于纹理获取以及使用深度分割来加强深度线索。在计算机视觉领域中公知的深度分割寻求使用背景移除来将图像中的对象与背景分开。

在替换实施例中，代替IR结构光方法，相机群300使用飞行时间传感器或超声来实现立体感测。飞行时间相机是基于光速并通过测量光信号在相机与对象之间的飞行时间来计算图像中每一点的距离的距离成像相机系统。超声技术可被用来通过生成某一方向上的超声脉冲来计算距离。如果脉冲的路径中存在对象，则该脉冲的一部分或全部将作为回声被反射回发射机。可通过测量发射的脉冲与接收到的回声之差来得出距离。在其他实施例中，距离可通过使用RGB相机的立体对执行RGB深度计算来得出。

II.C.相机群布局

一个或多个相机群被配置成特定布局，以捕捉端点的包括参与者中的一者或多者的3D图像。相机群的数量直接影响捕捉到的图像的质量以及遮挡的数量。随着相机群的数量增加，有更多的RGB数据可用且这改进了图像质量。此外，遮挡的数量将随着相机群数量的增加而减少。

如图1所示，第一端点115包含6个相机群且第二端点120包含10个相机群。在替换实施例中，可以使用任何数量的相机。事实上，可存在使用单个相机群的较低端版本。例如，单个相机群可被安装在监视器顶部并使用图像失真校正技术来校正任何成像误差。标准是相机群布局应当具有足够相机群以提供包含参与者的端点的3D视图。

图4示出使用四个相机群的相机群布局(诸如图2所示那样)的示例性实施例。如图4所示，四个相机群300被嵌入在监视器400的边框中。监视器400实际上可以是任何大小，但较大监视器提供更多与实物大小一样的重新投影。这通常向用户提供更真实的体验。显示在监视器400上的是参与在线会议或会面的远程参与者410。

如图4所示，四个相机群300被安排成菱形配置。这允许系统100和方法的各实施例从上至下以及从一侧到另一侧来捕捉用户。此外，两个中间顶部和底部相机群可被用来无缝地获得用户的脸上的真实纹理。注意，角落中的相机将通常造成接缝问题。在其他实施例中，四个相机群300的实际上任何配置和安排可被使用且可被安装在监视器400上的任何位置。在又一些其他实施例中，四个相机群300中的一者或多者被安装在监视器400以外的位置。

在替换实施例中，三个相机群被使用且位于监视器400顶部或底部。一些实施例使用位于监视器400的顶部和底部角落的两个相机群。在又一些其他实施例中，N个相机群被使用，其中N大于四(N>4)。在这一实施例中，N个相机群被围绕监视器400的外边缘来放置。在又一些实施例中，有多个相机群位于监视器400之后，以捕捉包含参与者的端点的3D场景。

II.D.显示设备配置

若干显示设备(诸如监视器和屏幕)被配置成特定布局，以向每一参与者显示并呈现其他参与者中的至少一些的捕捉到的图像。系统100和方法的各实施例将显示设备配置成使得该安排绕端点中的参与者至少180度。这确保系统100和方法的各实施例可以伸缩并向参与者提供沉浸式体验。换言之，向端点中的参与者提供至少180度显示设备使他们能够同时看到虚拟桌处的每一个人。使用至少180度显示设备，在观看者绕虚拟圆桌向右看和向左看时，她将能够看到该桌处的每一人。

图5示出使用三个显示设备的显示设备配置(诸如图1所示那样)的示例性实施例。如图5所示，显示设备配置500被部署在端点环境510中。显示设备配置500包括被定位成使得它处于端点环境510中的参与者(未示出)前方的监视器#1520。显示设备配置还包括位于监视器#1520两侧的监视器#2530和监视器#3540。如图5所示，监视器#2530和监视器#3540各自以45度角连接到监视器#1520或与其接触。

系统100和方法的各实施例使用端点环境510来进行捕捉和显示。在一些实施例中，显示设备配置500可以是360度配置。换言之，可存在完全围绕端点环境510中的参与者的显示设备。在其他实施例中，显示设备可包括被安排成围绕端点环境510的、范围从包括180度到360度的任何度数的显示设备。在又一些其他实施例中，显示设备配置500，其中端点环境510的所有墙和天花板都是显示设备。这一类型的显示设备配置可使参与者完全沉浸在纯虚拟环境中。

III.示例性操作环境

在进一步继续受控3D通信端点系统100和方法的各实施例的操作概览和细节之前，现在将给出该受控3D通信端点系统100和方法的各实施例可在其中操作的示例性操作环境的讨论。受控3D通信端点系统100和方法的各实施例可在众多类型的通用或专用计算系统环境或配置内操作。

图6示出其上可实现此处描述且在图1-5和7-15中所示的3D通信端点系统100和方法的各实施例和元素的通用计算机系统的简化示例。应当注意，图6中由折线或虚线所表示的任何框表示简化计算设备的替换实施方式，并且以下描述的这些替换实施方式中的任一个或全部可以结合贯穿本文所描述的其他替换实施方式来使用。

例如，图6示出了总系统图，其示出简化计算设备10。该简化计算设备10可以是图1中所示的计算设备110的简化版本。这样的计算设备通常可以在具有至少一些最小计算能力的设备中找到，这些设备包括但不限于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如蜂窝电话和PDA等通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、音频或视频媒体播放器等。

为允许设备实现此处描述的受控3D通信端点系统100和方法的各实施例，该设备应具有足够的计算能力和系统存储器以启用基本的计算操作。具体而言，如图6所示，计算能力一般由一个或多个处理单元12示出，并且还可包括一个或多个GPU 14，处理单元与GPU中的任一者或两者均与系统存储器16通信。注意，通用计算设备的处理单元12可以是专用微处理器，如DSP、VLIW、或其他微控制器，或可以是具有一个或多个处理核的常规CPU，包括多核CPU中的基于GPU的专用核。

另外，图6的简化计算设备10还可包括其他组件，诸如通信接口18等。图6的简化计算设备10还可包括一个或多个常规计算机输入设备20(诸如，指示笔、定点设备、键盘、音频输入设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等)。图6的简化计算设备10还可包括其他可任选组件，诸如例如一个或多个常规计算机输出设备22(例如，显示设备24、音频输出设备、视频输出设备、用于传送有线或无线数据传输的设备等)。注意，通用计算机的典型的通信接口18、输入设备20、输出设备22、以及存储设备26对本领域技术人员而言是公知的，并且在此不会详细描述。

图6的简化计算设备10还可包括各种计算机可读介质。计算机可读介质可以是可由简化计算设备10经由存储设备26访问的任何可用介质，并且包括是可移动28和/或不可移动30的易失性和非易失性介质，用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据等信息。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括但不限于：计算机或机器可读介质或存储设备，诸如DVD、CD、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器设备、RAM、ROM、EEPROM、闪存或其他存储器技术、磁带盒、磁带、磁盘存储或其他磁存储设备、或可用于存储所需信息并且可由一个或多个计算设备访问的任何其他设备。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的保留还可通过使用各种上述通信介质中的任一种来编码一个或多个已调制数据信号或载波或其他传输机制或通信协议来实现，并且包括任何有线或无线信息传递机制。注意，术语“已调制数据信号”或“载波”一般指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如，通信介质包括诸如有线网络或直接线连接等携带一个或多个已调制数据信号的有线介质，以及诸如声学、RF、红外线、激光和其他无线介质等用于传送和/或接收一个或多个已调制数据信号或载波的无线介质。上述通信介质的任一组合也应包括在通信介质的范围之内。

此外，可以按计算机可执行指令或其他数据结构的形式存储、接收、传送或者从计算机或机器可读介质或存储设备和通信介质的任何所需组合中读取具体化此处所描述的受控3D通信端点系统100和方法的各种实施方式中的部分或全部的软件、程序和/或计算机程序产品或其各部分。

最终，此处所描述的受控3D通信端点系统100和方法的各实施例还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本文描述的各实施例还可以在其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备执行或者在该一个或多个设备的云中执行的分布式计算环境中实现。在分布式计算环境中，程序模块可以位于包括媒体存储设备在内的本地和远程计算机存储介质中。此外，上述指令可以部分地或整体地作为可以包括或不包括处理器的硬件逻辑电路来实现。

IV.操作概览

图7是示出图1所示的受控3D通信端点系统100的总体操作的流程图。如图7所示，系统100的操作通过捕捉本地端点处的本地参与者的3D视频来开始(框700)。作为示例，本地端点可以是办公建筑中的房间。捕捉到的视频是使用捕捉RGB数据和深度信息两者的多个相机群来获得的(框705)。该多个相机群被定位成绕本地参与者360度。换言之，捕捉到的视频包含一直围绕本地参与者的视图。

该方法的各实施例随后使用捕捉到的3D视频来创建本地参与者的本地几何代理(框710)。接着，该方法生成与亲临通信相一致的场景几何(框715)。一般概念是创建模仿亲临通信的动态性的虚拟环境。该方法随后将本地几何代理置于场景几何中以创建虚拟环境(框720)。本地几何代理和场景几何被传送给远程端点处的远程参与者(框725)。

类似地，使用多个相机群来捕捉参与在线会议或会面的远程参与者和任何其他参与者且为他们中的每一个创建几何代理。这些几何代理中的每一个被渲染并置于虚拟环境的场景几何中。这些经渲染的几何代理和场景几何随后被传送给其他参与者。

接收到的虚拟环境在端点中的占据绕远程参与者至少180度的空间的显示设备上被显示给观看者(如远程参与者)(框730)。这向远程参与者提供了进入虚拟环境的虚拟视点。如下文详细解释的，在观看者看虚拟视点时看到的事物部分依赖于观看者的头部的位置和定向。

该方法的各实施例定义虚拟环境内的虚拟桌。所渲染的参与者中的每一个随后被围绕虚拟环境中的虚拟桌放置。在一些实施例中，虚拟桌具有带第一直径的圆形(框735)。这允许容易地发生伸缩。具体而言，虚拟环境可通过将参与者的数量增加到超过当前两个参与者(本地参与者和远程参与者)来扩展(框740)。为了容纳参与者的这一增加，该方法随后将虚拟桌的大小从第一直径增加到第二直径，其中第二直径大于第一直径(框745)。参与者的几何代理被放置在具有增加的大小的虚拟桌处，使得远程参与者可以看到虚拟环境中虚拟桌处的每一参与者(框750)。

系统100和方法的各实施例包括3D通信处理系统105。图8是示出图1所示的3D通信处理系统105的总体操作的流程图。如图8所示，3D通信处理系统105的操作通过捕捉在线会议或会面中的各参与者中的每一者的图像来开始(框800)。参与者中的至少一者是远程参与者，这意味着该远程参与者与其他参与者不处于同一物理位置或端点。对每一参与者的捕捉是通过使用相机群来实现的。

接着，该方法的各实施例使用来自捕捉到的图像的数据来为每一参与者创建几何代理(框810)。参与者的数量随后被确定(框820)。这一确定可以脱序执行，使得参与者的数量被预先确定或已知。该方法的各实施例随后基于在线会议中参与者的数量来生成场景几何(框830)。这一场景几何生成帮助模拟与远程参与者进行亲临对话或会议的体验。

特定参与者的每一几何代理随后被渲染给场景几何内的其他参与者的其他几何代理(框840)。这一渲染被执行，使得几何代理被按与亲临对话一致的方式来安排。这些经渲染的几何代理和场景几何随后被传送给各参与者(框850)。变化的虚拟视点被显示给参与者中的每一个，使得虚拟视点依赖于观看者的脸部的位置和定向(框860)。出于附加的真实性，运动视差和深度被添加，以增强参与者的观看体验(框870)。如下文详细解释的，运动视差和深度依赖于观看者相对于该观看者在其上观看会议或会面的显示设备或监视器的眼睛注视。

V.操作细节

现在将讨论受控3D通信端点系统100和方法的各实施例的操作细节。这包括系统100的可伸缩性、几何代理创建、以及场景几何的创建的细节。此外，还讨论了虚拟相机的概念、将运动视差和深度添加到几何代理和场景几何、以及处理同一环境中的一个以上参与者并观看同一显示设备或监视器。

V.A.可伸缩性

受控3D通信端点系统100和方法的各实施例是可伸缩的。这意味着每当附加端点被添加到在线会议时，系统100和方法的各实施例可容易地扩展以容纳该附加端点。图9示出扩展系统100和方法的各实施例以容纳附加端点的示例性实施例。

因为至少180度的显示设备配置，可伸缩性被增强。例如，如果单个平面屏幕在墙上且存在两个端点，每一端点具有一参与者，则这两个参与者可被置于虚拟环境中的圆桌处。每一参与者将能够看到另一参与者。如果这被扩展且如果10个端点处的10个参与者尝试加入在线会议，则观看者可从他跨桌看到人，但每一其他人将迷失在人群中。然而，使用至少180度显示设备配置，只要屏幕上的参与者在虚拟环境中围成一圈，则该圈可被做得如需要的那样大，并且观看者将仍然能够看到每一参与者。

当然，这意味着越多参与者被添加，虚拟桌就必须越大。在某一时刻，参与者的数量变得如此之大，以致于该桌的最远端的参与者太小，使得观看者不能识别他们。此外，尽管虚拟桌不需要是圆形的，但使用其他形状会存在遮挡且人们开始彼此阻挡。

如图9所示，虚拟环境900示出了系统100和方法的各实施例如何将参与者几何代理相对于彼此进行安排。在图9的左侧，三个参与者905、906、907 被安排成围绕第一虚拟圆桌910。在这一虚拟环境中，参与者905、906、907中的每一个通过虚拟窗口观看在线会议。具体而言，虚拟窗口920、925、930被分别定位在三个参与者905、906、907中的每一个的前方。这些虚拟窗口920、925、930向三个参与者905、906、907给出了绕第一虚拟圆桌910的虚拟视点。这允许每一参与者感觉好像他实际上与其他参与者一起在房间中。

箭头935指示附加端点已被添加到虚拟环境900。在添加了附加参与者的情况下，第一虚拟圆桌910已被扩张成第二虚拟圆桌940。八个参与者950、951、952、953、954、955、956、957被安排成围绕第二虚拟圆桌940。此外，多个虚拟窗口960被定位在八个参与者950、951、952、953、954、955、956、957中的每一个的前方。多个虚拟窗口960中的每一个向参与者950、951、952、953、954、955、956、957给出绕第二虚拟圆桌940的虚拟视点。这向每一参与者给出参与者中的每一个一起在一个大虚拟房间中的假象。

V.B.几何代理创建

捕捉和创建组件200的另一部分是几何代理创建模块245。模块245为会议或会面中的各参与者中的每一个创建几何代理。根据相机群300捕捉到的距离数据来计算深度信息。一旦获得了深度信息，就根据捕捉到的深度信息中包含的深度点来创建稀疏点云。随后使用已知方法和捕捉到的深度信息来生成密集深度点云。在一些实施例中，根据密集点云来构建网格并根据该网格生成几何代理。在替换实施例中，密集点云被纹理化以生成几何代理。

图10示出创建单个会议参与者的几何代理的示例性概览。如图10所示，从相机群300的RGB相机捕捉RGB数据1000。另外，根据相机群300获得的深度数据来计算深度信息1010。RGB数据1000和深度信息1010被加在一起以创建单个会议参与者的几何代理250。这一几何代理创建是针对参与者中的每一个来执行的，使得每一参与者具有对应的几何代理。

V.C. 3D体积的配准以及3D空间的对齐

受控3D通信端点系统100和方法的各实施例的第二组件是场景几何组件210。这包括相机群300捕捉的3D体积的配准和3D空间的对齐两者。场景几何组件210的一般概念是创建会议参与者之间的相对几何。需要将场景确切地对齐，如同参与者在同一物理位置且参与亲临通信一样。

系统100和方法的各实施例创建作为锚定在端点(或捕捉环境)处的3D场景的场景几何。为了实现这一点，具有对包含参与者中的每一个的环境的精确估计是合乎需要的。一旦获得了这一点，则系统100和方法的各实施例计算显示设备(或监视器)与相机的精确配准。这产生了与真实世界对齐的虚拟空间中的定向。换言之，虚拟空间与真实空间对齐。这一配准和对齐是使用已知方法来实现的。在系统100和方法的优选实施例中，在制造时执行校准。在其他实施例中，使用环境中的参考对象来执行校准。

场景几何寻求创建本地参与者与远程参与者之间的相对几何。这包括创建眼睛注视和对话几何，如同参与者处于亲临会议中一样。使眼睛注视和对话几何正确的一种方式是具有参与者之间的相对、一致的几何。在一些实施例中，这通过使用虚拟框来实现。具体而言，如果在参与者一起处于房间中时，围绕真实空间中的参与者来绘制框，则这些虚拟框按照虚拟布局被重新创建来创建场景几何。几何的形状不像它在参与者之间的一致性那样要紧。

某些输入形状因子(像单个监视器或多个监视器)将影响最优布局以及解决方案的可伸缩性。场景几何还依赖于参与者的数量。具有两个参与者(本地参与者和远程参与者)的会议是与存在三个或更多个参与者的情况下的场景几何不同的一对一(1:1)场景几何。此外，如将从以下示例看到的，场景几何包括参与者之间的眼睛注视。

图11示出当在线会议中存在两个参与者(在两个不同的端点处)时参与者之间的场景几何的示例性实施例。如图11所示，1:1会议的这一场景几何1100包括第三参与者1110以及第四参与者1120。这些参与者不在同一物理位置。换言之，他们在不同的端点处。

在1:1会议的这一场景几何1100中，该几何包括占据参与者1100、1120的相应显示设备或监视器(未示出)的前方空间的两个框。第一虚拟框1130被绘制成围绕第三参与者1110且第二虚拟框1140被绘制成围绕第四参与者1120。假定同样大小的监视器和一致的设置允许系统100和方法的各实施例知晓场景几何是正确的，而无需对捕捉到的数据的任何操纵。

在系统100和方法的替换实施例中，存在多个远程参与者，且几何与1:1会议的场景几何1100不同。图12示出当在线会议中存在处于三个不同端点处的三个参与者时参与者之间的场景几何的示例性实施例。这是3端点会议的场景几何1200。如上所述，端点是包含会议或会面的参与者的环境。在3端点会议中，存在处于三个不同物理位置的参与者。

在图12中，3端点会议的场景几何1200包括围绕虚拟圆桌1235的参与者 #11210、参与者#21220、以及参与者#31230。虚拟框#11240被绘制成围绕参与者#11210，虚拟框#21250被绘制成围绕参与者#21220，且虚拟框#31260被绘制成围绕参与者#31230。虚拟框1240、1250、1260中的每一个被放置成以等距的方式围绕虚拟圆桌1235。这创建了3端点会议的场景几何1200。注意，这一场景几何可针对附加端点来被扩展，如以上相关于可伸缩性来讨论的。

V.D.虚拟相机

场景几何组件210还包括虚拟相机。虚拟相机定义透视投影，根据该透视投影，将渲染3D几何代理的新颖视图。这允许系统100和方法的各实施例获得人们之间的自然眼睛注视以及联系。当前视频会议中的一个故障因人们没有看向相机所处的位置而发生，使得该会议中的远程参与者感觉如同另一人没有看他们。这是不自然的并且通常不会发生在亲临对话中。

系统100和方法的各实施例中的虚拟相机是使用来自场景几何的虚拟空间和每一参与者的3D几何代理(具有详细纹理信息)创建的。这一虚拟相机没有绑定到被用于捕捉图像的真实相机群的位置。此外，系统100和方法的一些实施例使用脸部跟踪(包括眼睛注视跟踪)来确定各参与者位于何处以及他们在他们的虚拟空间中看向何处。这允许基于参与者在看向场景中的何处来创建虚拟相机。这用于准确地传达参与者对其他参与者的正确注视并向他们提供正确视图。因而，虚拟相机促进了会议参与者之间的交互的自然眼睛注视和对话几何。

这些虚拟相机是通过创建场景几何并在该几何中放入额外的人或物来创建的。根据相机群获得的多个视角，虚拟相机能够在场景几何中四处移动。例如，如果头部被认为是气球，则该气球的前方将被该气球前方的相机群捕捉，且该气球的一侧将被该气球的该侧上的相机群捕捉。通过合成来自这两个相机群的图像，虚拟相机可被创建在正前方和该侧之间的任何位置。换言之，虚拟相机视图被创建成来自覆盖特定空间的不同相机的图像的合成。

图13示出基于参与者正在看的位置的虚拟相机的示例性实施例。这也可被认为是使用虚拟注视来获得自然眼睛注视。如图13所示，监视器400将远程参与者410显示给本地参与者1300。监视器400包括四个相机群300。虚拟眼睛注视框1310被绘制成围绕远程参与者1320的眼睛和本地参与者1330的眼睛。虚拟眼睛注视框1310是水平的，使得在虚拟空间中，远程参与者1320的眼睛和本地参与者1330的眼睛正在互相看。

虚拟相机的一些实施例使用脸部跟踪来提高性能。脸部跟踪帮助系统100和方法的各实施例改变视角，使得各参与者面向彼此。脸部跟踪帮助虚拟相机与观看者的眼睛注视保持水平。这模仿人眼在亲临对话期间的工作方式。虚拟相机与脸部跟踪交互，以创建用户直接看向另一参与者的情况下的虚拟视点。换言之，脸部跟踪被用来改变虚拟相机的虚拟视点。

V.E.通过运动视差的深度

系统100和方法的第三组件是虚拟视点组件220。一旦经渲染的几何代理和场景几何被传送给各参与者，它被渲染在参与者的监视器上。为了增加显示在监视器上的场景的真实性，使用运动视差的深度被添加，以提供在观看某事物的某人的位置改变时发生的、视图中的有细微差别的改变。

运动视差是使用在观看者的头部移动时使相机视图改变的高速头部跟踪来添加的。这创建了深度的假象。图14示出通过基于观看者所面向的位置的运动视差来提供深度的示例性实施例。如图14所示，具有四个相机群300的监视器400显示远程参与者410的图像。注意到，在图14中，远程参与者410被示为虚线人物1400和实现人物1410。虚线人物1410示出了远程参与者410正看向其左侧并且因而具有包括虚线参与者1430的第一视野1420。实线人物1410示出了远程参与者410正看向其右侧并且因而具有包括实线参与者1450的第二视野1440。

在远程参与者410的视点从一侧移至另一侧时，他对其他空间的视角变化。这向远程参与者410给出了其他参与者和其他参与者所处的房间(或环境)的不同视图。因而，如果远程参与者向左、右、上、或下移动，则他将看到该远程参与者410正与其交互的参与者的稍微不同的视图，并且该人之后的背景也改变。这向场景给出了深度的感觉，并且向场景中的人给出了在他们亲身与某人交谈时得到的体积的感觉。远程参与者的视点是使用头部跟踪或低等待时间脸部跟踪技术来跟踪的。通过运动视差的深度动态地增强了体积感，同时提供移动的完全自由度，因为观看者不被锁定到一个相机视角。

V.F.单个端点处的多个参与者

系统100和方法的各实施例还包括一端点处存在一个以上参与者的情况。用于通过运动视差的深度的以上技术对单个观看者而言由于跟踪该观看者以及基于他们的观看角度和位置在监视器上提供适当视图的能力而工作良好。然而，在同一端点处存在第二人并观看同一监视器的情况下，这不能工作，因为监视器一次只能提供一个场景并且它将锁定到一个人。这使得视图脱离了没有被跟踪的另一观看者。

系统100和方法的各实施例有若干方式来解决这一问题。在一些实施例中，使用向不同观看者提供不同图像的监视器。在这些实施例中，脸部跟踪技术跟踪两个不同的脸并随后向不同的观看者提供不同视图。在其他实施例中，运动视差被移除且固定虚拟相机被锁定在监视器的中心。在一个以上参与者处于一端点处时，这创建了未达标准的体验。在又一些其他实施例中，在端点处的多个参与者中的每一个都佩戴眼镜。每一副眼镜被用来提供不同视图。在又一些其他实施例中，眼镜上具有向每一佩戴者示出与监视器不同的帧的快门。监视器所显示的交替帧被调谐到每一副眼镜，并且基于每一观看者的位置向该观看者提供正确图像。

另一实施例使用具有多个观看角度的监视器。图15示出使用具有多个观看角度的监视器处理单个端点处的多个参与者的技术的示例性实施例。这向监视器前方的每一观看者提供了远程参与者410以及远程参与者410之后的房间的不同视图。

如图15所示，具有透镜显示器(这允许多个观看角度)且具有四个相机群300的监视器1500正在显示远程参与者410。第一观看者1510正在从监视器1500的左侧看监视器1500。第一观看者1520的眼睛正在从左侧看监视器1500且具有监视器1500的左视野1530。第二观看者1540正在从监视器1500的右侧看监视器1500。第二观看者1550的眼睛正在从右侧看监视器1500且具有右视野1560。因为监视器1500上的透镜显示，左视野1530和右视野1560是不同的。换言之，向第一观看者1510和第二观看者1540提供了远程参与者410以及远程参与者410之后的房间的不同视图。因而，即使第一观看者1510和第二观看者1541并排，他们也会基于他们的视点而在监视器1500上看到不同事物。

此外，尽管用专门描述结构特征和/或方法动作的语言描述了主题，但是应当理解，在后附权利要求书中限定的主题并不一定局限于上述特定的特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种用于仿真亲临通信的方法，包括：

捕捉本地端点处的本地参与者的三维视频；

使用捕捉到的三维视频为所述本地参与者创建本地几何代理,还包括添加来自所述三维视频的捕捉到的RGB数据和捕捉到的深度信息来创建所述本地几何代理；

生成与亲临通信一致的具有正确眼睛注视的场景几何和对话几何；

将所述本地几何代理置于所述场景几何中以创建虚拟环境；以及

将所述本地几何代理和所述场景几何传送给远程端点处的远程参与者，其中所述本地端点和所述远程端点处于不同物理位置，以仿真所述本地参与者与所述远程参与者之间的亲临通信。

2.如权利要求1所述的方法，其特征在于，还包括使用多个相机群以受控的方式捕捉所述本地端点处的所述三维视频，所述多个相机群绕所述本地参与者360度捕捉与所述本地参与者有关的RGB数据和深度信息两者。

3.如权利要求1所述的方法，其特征在于，还包括：

捕捉所述远程端点处的所述远程参与者的三维视频；

为所述远程参与者创建远程几何代理；

将所述远程几何代理置于所述场景几何和虚拟环境中；以及

在所述场景几何和虚拟环境中，将所述本地几何代理和所述远程几何代理两者向彼此渲染。

4.如权利要求3所述的方法，其特征在于，还包括将经渲染的本地几何代理、经渲染的远程几何代理、以及所述场景几何传送给所述本地端点和所述远程端点。

5.如权利要求1所述的方法，其特征在于，还包括在占据绕所述远程参与者至少180度的空间的显示设备上将所述虚拟环境显示给所述远程端点处的所述远程参与者，以向所述远程参与者提供所述虚拟环境的虚拟视点。

6.如权利要求5所述的方法，其特征在于，所述显示设备包括布置在所述远程参与者前方的第一显示设备、在所述第一显示设备的一侧的第二显示设备、以及在所述第一显示设备的另一侧的第三显示设备。

7.如权利要求6所述的方法，其特征在于，进一步包括：

将所述第二显示设备定位成与所述第一显示设备呈直角；以及

将所述第三显示设备定位成与所述第一显示设备呈直角。

8.如权利要求6所述的方法，其特征在于，进一步包括：

将所述第二显示设备定位成与所述第一显示设备呈小于90度的第一角度；以及

将所述第三显示设备定位成与所述第一显示设备呈小于90度的第二角度。

9.如权利要求8所述的方法，其特征在于，还包括将所述第一角度和所述第二角度设置成彼此相等。

10.如权利要求3所述的方法，其特征在于，进一步包括：

在所述虚拟环境中定义虚拟桌；以及

将所述本地几何代理和所述远程几何代理围绕所述虚拟桌放置，以在所述虚拟环境中仿真所述亲临通信。

11.如权利要求10所述的方法，其特征在于，还包括将所述虚拟桌定义成具有带第一直径的圆形。

12.如权利要求11所述的方法，其特征在于，进一步包括：

通过将参与者的数量从两个参与者增加到两个以上参与者来扩展虚拟环境；

将所述虚拟桌的大小从第一直径增加到第二直径，其中所述第二直径大于所述第一直径；以及

将所述参与者中的每一个的几何代理置于所述虚拟桌处。

13.如权利要求5所述的方法，其特征在于，还包括使用运动视差将深度添加到所述虚拟视点。

14.如权利要求13所述的方法，其特征在于，进一步包括：

跟踪所述远程参与者的头部；以及

基于所述远程参与者的头部的位置和定向通过所述虚拟视点改变显示给所述远程参与者的事物。

15.一种受控三维3D端点系统，包括：

多个相机群，所述多个相机群布置在第一端点四周以捕捉所述第一端点处的参与者的3D视频，使得绕所述参与者360度被所述多个相机群捕捉；

通过添加来自所述3D视频的捕捉到的RGB数据和捕捉到的深度信息来获得的所述参与者的几何代理；

与亲临通信一致以用于创建虚拟环境的具有正确眼睛注视的场景几何和对话几何；以及

显示设备配置，所述显示设备配置具有位于第二端点处的的多个显示设备，使得所述显示设备绕所述第二端点处的观看者至少180度来放置，以使所述观看者能够通过虚拟视点来观看所述参与者，其中在所述虚拟环境中所述观看者对所述参与者的视角基于所述观看者的头部的位置和定向而变化。

16.如权利要求15所述的受控三维3D端点系统，其特征在于，还包括：

位于在所述虚拟环境中的虚拟圆桌；以及

围绕所述虚拟圆桌放置的所述参与者的经渲染的几何代理，连同在线会议的其他端点处的其他参与者。

17.一种用于伸缩在线会议中的参与者的数量的方法，包括：

在端点处组织受控捕捉环境，所述端点具有绕所述端点中的每一个布置的多个相机群；

使用所述多个相机群捕捉所述每一端点处的每一参与者的三维视频；

为所述参与者中的每一个创建几何代理，还包括添加来自所述三维视频的捕捉到的RGB数据和捕捉到的深度信息来创建所述几何代理；

基于参与者的数量来生成场景几何，所述场景几何包括虚拟桌；

在与亲临通信相一致的所述场景几何中将所述几何代理中的每一个向彼此进行渲染；

将经渲染的几何代理围绕所述虚拟桌置于所述场景几何中，以创建虚拟环境；

组织所述端点处的受控观看环境，所述端点具有围绕所述端点处的参与者至少180度来缠绕的显示设备；

使用所述显示设备向所述受控观看环境中的所述参与者显示所述虚拟环境；

基于每一参与者的头部的位置和定向来改变观看所述显示设备的参与者的虚拟视点；

增加参与者的数量，使得附加参与者被添加；以及

增加所述虚拟桌的大小以容纳所述附加参与者。

18.如权利要求17所述的方法，其特征在于，还包括将所述虚拟桌定义成具有直径的虚拟圆桌。

19.如权利要求18所述的方法，其特征在于，增加所述虚拟桌的大小还包括增加所述虚拟圆桌的直径以容纳所述附加参与者。