CN116249953A

CN116249953A - 跨多个位置的混合现实电话会议

Info

Publication number: CN116249953A
Application number: CN202180061131.9A
Authority: CN
Inventors: 石本健也
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-23
Filing date: 2021-07-19
Publication date: 2023-06-09
Also published as: GB2612543A; JP2023535169A; US11233973B1; DE112021003160T5; US20220030197A1; WO2022017305A1; GB202302478D0

Abstract

本公开包括将第一用户的图形表示叠加在第一位置的真实世界图像上，其中第一用户物理上位于不同于第一位置的第二位置。检测所述第一用户与第二用户之间的交互，其中所述第二用户物理上位于所述第一位置处。确定所述第二用户在所述第一位置内的当前定位。使所述第一用户的所述图形表示面向所述第二用户的所述当前定位的方向。

Description

跨多个位置的混合现实电话会议

背景技术

本发明总体上涉及计算机处理系统，并且更具体地涉及实现跨多个位置的混合现实电话会议的计算处理系统。

计算机系统可通过将数字创建的对象叠加在用户的计算机显示器上的现实世界环境上来生成混合现实用户体验。混合现实体验使得用户能够与数字创建的对象和现实世界对象交互。混合现实和虚拟现实和增强现实的不同主要基于用户与所显示环境之间可用的交互水平。虚拟现实是显示技术，其中计算系统创建完全模拟的环境。用户可与模拟环境中的对象交互，但不与现实世界对象交互。增强现实是显示技术，其中计算机系统通过将计算机生成的感知信息叠加在真实世界环境上来创建增强的环境。用户可与现实世界对象交互，但不能与计算机生成的感知信息交互。

发明内容

本发明的实施例涉及跨多个位置的混合现实电话会议。一种非限制性示例计算机实现的方法包括将第一用户的图形表示叠加到第一位置的真实世界图像上，其中第一用户物理上位于不同于第一位置的第二位置处。检测所述第一用户与第二用户之间的交互，其中所述第二用户物理上位于所述第一位置处。确定所述第二用户在所述第一位置内的当前定位。使所述第一用户的所述图形表示面向所述第二用户的所述当前定位的方向。

本发明的其他实施例在计算机系统和计算机程序产品中实现上述方法的特征。

通过本发明的技术实现了附加技术特征和优点。在本文中详细描述了本发明的实施例和方面，并且这些实施例和方面被认为是所要求保护的主题的一部分。为了更好的理解，参考详细说明和附图。

附图说明

在说明书结尾处的权利要求中特别指出并明确要求保护本文所述的独占权利的细节。从以下结合附图进行的详细描述中，本发明的实施例的前述和其他特征和优点将变得显而易见，在附图中：

图1示出根据本发明的一个或多个实施例的用于生成混合现实电话会议的系统的部件的框图；

图2示出了根据本发明的一个或多个实施例的用于生成混合现实电话会议的系统的部件的框图；

图3示出了根据本发明的一个或多个实施例的用于发起混合现实电话会议的过程的流程图；

图4示出了根据本发明的一个或多个实施例的用于发起混合现实电话会议的过程的流程图；

图5示出了根据本发明的一个或多个实施例的用于生成混合现实电话会议的过程的流程图；

图6示出了根据本发明的一个或多个实施例的混合现实电话会议的过程的流程图；

图7描绘了根据本发明的一个或多个实施例的云计算环境；

图8描述了根据本发明的一个或多个实施方式的抽象模型层；以及

图9示出了用于实施本发明的一个或多个实施方式的计算机系统的框图。

此处所描绘的图是说明性的。在不背离本发明的范围的情况下，可以对这里所描述的图或操作进行许多变化。例如，可以以不同的顺序执行动作，或者可以添加、删除或修改动作。而且，术语“耦接”及其变形描述了在两个元件之间具有通信路径，并且不暗示元件之间的直接连接而在它们之间没有介入元件/连接。所有这些变型被认为是说明书的一部分。

具体实施方式

本发明的一个或多个实施例提供了一种为在多个位置处的参加者生成混合现实电话会议的计算系统。参加者可以使用计算设备来查看未物理上存在的其他参加者的三维图形表示(例如，化身)。该系统考虑了每个参加者在每个位置处的定位，并且因此，如果一位置处的参加者与另一个位置处的参加者交互，则计算机系统控制其对应的化身彼此面对，而不管参加者的实际物理定位如何。

常规的基于计算机的电话会议系统可以生成电话会议空间，其中不是物理出现的远程参加者的三维表示(例如，化身)叠加在真实世界电话会议位置的图像上。参加者可以通过移动计算设备的混合现实显示器(例如，头戴式显示器(HMD)、平板计算机显示器、或智能电话显示器)来查看此混合现实图像。不幸的是，常规的混合现实系统仅仅使得化身直接模仿参加者的实际移动，而不考虑其他参加者的定位。常规混合现实系统不考虑化身的运动是否符合两个电话会议参加者之间的自然交互。

例如，第一位置处的第一参加者可以与第二位置处的第二参加者交互。每个参加者由他们物理上出席的其他位置处的化身来表示。在这种情况下，第一参加者可以向右转动他们的身体以旋转他们的设备并且看向第二参加者的化身。在常规系统中，如果第一参加者向右转以看到第二参加者的化身的显示器，则使用其移动计算设备的第二参加者将看到第一参加者的化身向右转。不幸的是，如果在第二位置处，第二参加者实际上在第一参加者的化身的左侧，则第一参加者的化身将面对错误的方向，并且交互将不会看起来自然。

本发明的一个或多个实施例通过提供一种基于计算机的电话会议系统来解决一个或多个上述缺点，所述基于计算机的电话会议系统映射远程参加者的定位而不限制每个位置处的混合现实空间的物理布局。基于计算机的系统将虚拟与实际参加者之间的交互转换成交互以模拟如同每个参加者出现在每个位置处一样，而不管参加者的定位关系如何。基于计算机的电话会议系统允许每个位置处的高效的空间使用，同时保持自然的交互。

现在转到图1，一般地示出了根据本发明的一个或多个实施例的用于生成混合现实电话会议的系统100。一般而言，系统100操作用于为远程位置处的参加者创建混合现实电话会议。系统100包括第一位置空间单元102和第二位置空间单元104。第一位置空间单元102和第二位置空间单元104中的每一者可操作以接收相应位置的拓扑、几何或地理特征以识别每一位置的对象之间的维度和空间关系。第一位置空间单元102和第二位置空间单元104中的每一者进一步可操作以将参加者的计算机生成的图形表示(化身)叠加在每一真实世界位置的视觉显示器上。真实世界位置包括由固体、液体和气体对象填充的空间。例如，在办公室大楼中的会议室，参加者物理上出现在该会议室中。系统100还包括用于接收和分析数据以确定哪个(哪些)参加者与哪个(哪些)参加者交互的交互转化器106。系统100还包括化身模型更新器108，用于从交互转化器106接收数据并且生成输入数据以使化身的移动符合交互期间的自然移动。相对于以下描述，图1描绘了与在第一位置处的第一和第二参加者设备110、112和在第二位置处的第三和第四参加者设备114、116可操作地通信的系统100。然而，系统100可以容纳与参与电话会议一样多的远程位置。以下参考图2更详细地描述系统100和第一参加者设备110。第一参加者设备110的描述适用于第二、第三和第四参加者设备112、114、1116中的任何一个。

参照图2，系统100包括第一位置空间单元102，所述第一位置空间单元可操作用于从多个参加者设备110、112接收和聚合数据。第一位置空间单元102进一步可操作以对聚合的数据采用计算机视觉技术以用于对象检测。对象检测包括图像分类和对象定位两者。图像分类包括预测图像中的一个或多个对象的类别。为了执行图像分类，第一位置空间单元102接收图像作为输入，并以映射到类别值的一个或多个整数值的形式输出类别标签。对象定位包括识别一个或多个所识别的对象在图像中的位置。为了执行对象定位，第一位置空间单元102可处理所接收的图像，且输出界定图像中的对象的空间关系的一个或一个以上边界框。通过对象检测，第一位置空间单元102建立三维空间模型以识别电话会议位置处的对象。例如，第一位置空间单元102可以使用模型来标识参加者、家具和视觉辅助。

在本发明的一些实施例中，第一位置空间单元102可以应用机器学习技术来执行对象检测。在示例性实施方式中，第一位置空间单元102采用训练的人工神经网络，例如，基于区域的卷积神经网络(R-CNN)。R-CNN通常在三个阶段中操作。首先，R-CNN分析图像并提取图像中的独立区域并且将区域描绘为候选边界框。第二，R-CNN例如使用深度卷积神经网络从每个区域提取特征。第三，分类器(例如，支持向量机(SVM))用于分析特征并预测区域中的一个或多个对象的类别。在其他实施例中，第一位置空间单元102是R-CNN之外的另一种形式的神经网络。

如本文所使用的，“机器学习”广泛地描述了从数据学习的电子系统的功能。机器学习系统、引擎或模块可包括机器学习算法，所述机器学习算法可例如在外部云环境(例如，云计算环境50)中被训练以学习当前未知的输入与输出之间的函数关系。在一个或多个实施例中，可以使用具有被训练成执行当前未知功能的能力的人工神经网络(ANN)来实现机器学习功能。在机器学习和认知科学中，ANN是由动物(特别是大脑)的生物神经网络启发的统计学学习模型的家族。ANN可用于估计或近似取决于大量输入的系统和函数。

ANN可以体现为充当仿真的“神经元”并且在彼此之间以电子信号的形式交换“消息”的互连处理器元件的所谓的“神经元形态”系统。类似于在生物神经元之间传递消息的突触神经递质连接的所谓的“可塑性”，ANN中在模拟神经元之间传递电子消息的连接被提供有对应于给定连接的强度或弱点的数字权重。权重可基于经验来调整和调谐，从而使得ANN适应输入并且能够学习。例如，用于手写识别的ANN由可由输入图像的像素激活的一组输入神经元来定义。在通过由网络的设计者确定的函数进行加权和转换之后，然后将这些输入神经元的激活传递至其他下游神经元，这些下游神经元通常被称为“隐藏”神经元。重复该过程，直到输出神经元被激活。激活的输出神经元确定读取了哪个字符。

第一位置空间单元102还可操作用于接收每个参加者的化身模型并且将该模型与局部空间模型合并。第一位置空间单元102将位置的特征输入到化身模型中。从来自每个参加者的设备的图像以及每个参加者的设备的定位和视角中提取特征。第一位置空间单元102输入此数据以将化身与真实世界图像中检测到的对象合成以将化身叠加在真实世界图像上。每个化身的外观至少部分地基于每个参加者的设备的定位和视角。例如，基于参加者设备的视角，可以显示化身的顶视图，可以显示底视图，或者可以显示侧视图。

第一位置空间单元102还至少部分基于化身将被显示的真实世界位置的物理布局来确定每个化身的定位。例如，第一位置处的第一和第二参加者位于第一方桌处彼此横跨。第三参加者和第四参加者在第二位置处，并且还位于第二方桌处，但是坐在桌子的相邻侧。在第一位置处，第一位置单元将第三和第四参加者的化身彼此相对地叠加在方桌的空边处。在第二位置，第二位置空间单元104将第一和第二参加者的化身叠加在桌子的空的相邻边。因此，不管参加者的实际定位如何，在电话会议期间化身定位都被转换成自然定位。

交互转化器106可操作用于从第一参加者设备110接收交互数据。交互数据用于确定哪个参加者与哪个参加者交互。所述交互数据可以包括描述在第二参加者设备的显示器上可见的第一参加者的化身的数据。所述交互数据可以进一步包括描述在所述第一参加者设备的显示器上可见的所述第二参加者的化身的数据。基于每一化身保持在另一参加者显示器上的时间间隔超过阈值时间的确定，交互转化器106可推断这两个参加者正在交互。该确定还可以基于单个参加者的化身在另一参加者的设备上显示的时间间隔超过阈值时间。

所述交互数据可以包括所述第一参加者设备的定位和方向。所述定位和方向数据可以包括描述所述第一参加者设备的x、y和z方向的数据。交互转化器106分析定位和方向数据以及来自其他参加者设备的数据以确定第一参加者设备110的用户正在与哪个参加者交互以及用户的定位。例如，第一参加者设备110可以包括磁和重力场传感器，该磁和重力场传感器可以计算第一参加者设备的位置处的磁北的方向和向下方向。交互转化器106可以使用第一参加者设备110的位置的全球定位系统(GPS)坐标和真北与磁北之间的角度的全局地图，交互转化器106计算针对真北的所需校正角度。交互转化器106使用该计算来确定第一参加者设备110的定位，并且结果是第一参加者设备110所面向的方向。基于第一参加者设备面对的方向，交互转化器106应用三维空间模型以确定哪个参加者的化身将位于第一参加者设备110的方向上。

化身模型更新器108可操作来转换对交互参加者的确定并且生成用于交互参加者的化身模型的输入。化身模型更新器108将输入传送到第一和第二位置空间单元102、104，所述第一和第二位置空间单元102、104分别更新用于交互参加者的化身模型。作为响应，化身模型提供输出以将输入转换成相应化身的运动。

第一参加者设备110是移动计算设备并且能够由第一参加者物理上引导。第一参加者设备110可以包括头戴式显示器(HMD)。HMD是可安装在参加者的头部上的显示设备。第一参加者设备110还可以包括智能电话、平板、或其他计算设备。第一参加者设备110包括本地空间单元200。本地空间单元200可操作用于从多个传感器206接收捕获的数据并且采用计算机视觉技术来进行物体检测。本地空间单元200类似于第一位置空间单元102。然而，本地空间单元200从多个传感器206而不是多个参加者设备110、112接收数据。此外，本地空间单元200可聚集来自传感器206的数据以生成电话会议位置的三维空间模型。而第一位置空间单元102可以聚合来自多个参加者设备110、112的数据以生成电话会议位置的共享三维空间模型。

第一参加者设备110包括显示器202。显示器202是小型化显示设备，其可操作以显示与真实世界影像组合的计算机生成的影像，例如电话会议位置。在显示器202上显示的图像基于第一参加者设备110的图像捕捉传感器206的视场。视场是通过第一参加者设备110的显示器可观察到的真实世界的范围。在操作期间，显示器202示出物理位置，该物理位置包括物理上存在于该位置处的任何参加者以及在其他位置处的参加者的化身。当用户操纵第一参加者设备110的定位时，所显示的图像改变。电话会议参加者通过显示器202查看混合现实电话会议。

第一参加者设备110包括检测单元204.检测单元204可操作用于接收定位和运动数据以确定所述位置或运动数据是否表明(suggest)参加者与另一参加者交互。检测单元204进一步可操作用于确定运动不指示与另一参加者的交互。例如，参加者的打喷嚏或拉伸是生成运动数据的临时运动，然而其并不表明与另一参加者的交互。检测单元204可被训练来识别与这些临时运动相关联的运动。检测单元204进一步可操作用于接收音频数据以确定参加者是否与另一参加者交互。检测单元204可以采用自然语言处理技术来分析音频以确定参加者是否正在与另一参加者进行对话。例如，检测单元204可将参加者说出的名字与参加者在进入电话会议时提供的名字进行比较。通过比较名字，检测单元204可确定哪个参加者与哪个参加者讲话。音频数据可以与运动和定位数据耦合以确定参加者是否与另一参加者交互。如果检测单元204确定发生了参加者之间的交互，则检测单元204将数据传输到交互转化器106。

传感器206包括图像、运动、深度、惯性、磁性、重力场、位置和音频捕捉传感器。传感器206包括但不限于相机、陀螺仪、加速度计、用于与全球定位系统接口连接的基于位置的电路。传感器206可操作来从环境收集数据以用于三维分析，包括确定物体的定位和尺寸。为了实现三维分析，传感器可操作以捕捉物体的表面的阴影、照明和反射率。传感器206在电话会议期间连续地收集数据以通过显示器202和参加者的定位来确定参加者的视场。

参考图3-图6，描述了根据本发明的一个或多个实施例的用于创建混合现实电话会议的各个阶段的方法。出于说明性目的，参考在第一位置处的参加者A和B以及在第二相异位置处的参加者C和D来描述这些方法。参考图3，用于从相同位置参加者的视角和服务器的视角发起混合现实电话会议会话的方法300。在框302处，参加者A使用他们的设备来连接到服务器。参加者A例如可以使用他们的设备来访问电话会议网站以连接到服务器。在框304，参加者A请求混合现实电话会议S。一旦参加者A访问网站，参加者A就可以输入他们的标识信息和密码以请求服务器发起混合现实电话会议。

在框306处，参加者A上载化身到服务器或使其上载化身到服务器。化身是参加者A的三维图形表示。化身可以是三维类人类表示，并且类似于参加者A。化身可以预先构造或者从可用化身模型的套件中选择。

在框308，由参加者A的设备注册参加者A所在的第一位置。注册包括使用本地计算设备来生成第一位置的三维空间模型。服务器收集基于传感器的数据以不仅映射电话会议位置的结构(例如，房间的尺寸)，而且映射家具、视觉辅助和任何参加者。可经由参加者佩戴的HMD或诸如围绕电话会议室布置的传感器之类的远程设备来收集基于传感器的数据。在框310处，参加者A的设备将第一位置的三维空间模型上载到服务器。

在框312处，参加者B使用计算设备来连接到服务器。参加者B可以例如使用他们的设备来访问与参加者A相同的电话会议网站以连接到服务器。参加者B可以输入识别信息并请求访问服务器。服务器可认证参加者B的凭证并准许或不允许访问服务器。

在框314处，参加者B加入电话会议S，并且在框316处，参加者B将化身模型上载到服务器。此时，系统可以比较由参加者A和参加者B上载的化身模型并且确定它们是否是相同的化身模型。如果在该实例中，两个化身模型相同，则服务器可向参加者A和B发出具有所提议修改(诸如颜色变化、虚拟姓名标签等)的警报。参加者A和B可以修改他们的化身，使得参加者A不与参加者B混淆。

在框318，参加者B加入电话会议S，并且在框320，参加者B将第一位置的三维空间模型下载到他们的计算设备。参加者B的计算设备现在可以将基于传感器的数据传输至服务器。例如，将椅子移动到由参加者A的设备捕捉的图像之外，然而，参加者B的设备捕捉正在移动的椅子。该数据可以被传输到服务器以更新模型。从服务器的角度来看，响应于来自参加者A的请求，服务器在框322处发起混合现实电话会议。

在框324，服务器接收来自参加者A的三维空间模型并初始化针对第一位置的共享三维空间模型。在本发明的一些实施例中，参加者的设备可以生成空间模型。例如，HMD可使用图像传感器和深度传感器来收集数据，并使用该数据来生成参加者A所位于的电话会议位置的本地空间模型。

在框326，服务器将参加者A的化身模型引入到第一位置的共享三维空间模型中。化身模型是参加者A的三维图示的数学描述。由模型生成的化身可包括卡通人物、现实描绘、动物或其他描绘。化身的运动基于将描述参加者A的运动的传感器数据输入到模型中并且输出化身的运动方向。例如，HMD可以使用头部跟踪传感器检测用户的位置和取向，通过手部跟踪传感器检测手，通过眼睛跟踪传感器检测眼睛移动，使用面部跟踪传感器的面部表情，以及使用附加传感器的腿和身体。这些检测到的运动可以被映射到化身模型并且被输入到化身模型中。化身模型可进而输出关于化身的位置的对应运动。在框328，响应于参加者B加入电话会议，服务器将参加者B的化身模型引入到第一位置的共享三维空间模型。

参照图4，示出了用于从相同位置参加者的视角和服务器的视角发起混合现实电话会议会话的方法400。在框402，参加者C使用计算设备来连接到服务器，并且在框404，参加者C加入混合现实电话会议。参加者C可以例如使用他们的设备来访问与参加者A和参加者B相同的电话会议网站以连接到服务器。参加者C可以通过电话会议网站输入识别凭证，并且服务器可以准许或不允许加入混合现实电话会议的许可。

在框406，参加者C将化身模型上载到服务器。由模型生成的化身可以是参加者C的三维表示。化身可以预先构造或者从可用化身模型的套件中选择。化身可存储在参加者C的计算设备、远程设备或服务器上。

在框408，参加者C注册第二位置，这包括使用本地计算设备来生成第二位置的三维空间模型。当参加者C加入电话会议时，参加者C的化身在参加者A和参加者B的设备上可见。化身在位置上叠加在参加者A和参加者B的显示器上的同一现实世界位置上。例如，参加者A和参加者B两者都可以看到在他们坐在同一椅子上的相应设备上显示的化身。然而，基于参加者的设备的角度和距椅子的距离，化身对于每个参加者将看起来不同。

在框410，将第二位置的三维空间模型上载到服务器。在框412处，参加者D使用计算设备来连接至服务器。参加者D例如可以使用他们的设备来访问与参加者A、参加者B和参加者C相同的电话会议网站以连接到服务器。参加者D可类似地通过电话会议网站验证其身份并加入混合现实电话会议。

在框414，参加者D加入电话会议S，并且在框416，参加者D将化身模型上载到服务器。由参加者D的模型生成的化身可预先构造或者从可用化身模型的套件中选择。化身可存储在参加者D的计算设备、远程设备或服务器上。

在框418，参加者D加入电话会议S，并且在框420，参加者D下载第一位置的三维空间模型。参加者D的化身通过参加者A和B的相应设备对于参加者A和B是可见的。当参加者A和B看向现实世界的第一位置时，看到参加者D的化身被施加在第一位置处。

从服务器的角度来看，响应于来自参加者A的请求，在框422，服务器创建用于第二位置的共享位置模型。在本发明的一些实施例中，参加者的设备可以生成空间模型。例如，HMD可通过使用图像传感器和深度传感器并使用数据来生成参加者所位于的电话会议位置的本地空间模型来生成本地空间模型。

在框424，服务器将参加者A的化身模型设置到第二位置的三维空间模型。参加者A的化身模型现在可以接收与第二位置的物理布局有关的输入。在这个意义上，参加者A的化身响应于第二位置的物理布局。例如，通过参加者C和D的设备，参加者A的化身将被视为不同于第二位置处的物理对象。

在框426，服务器将参加者C的化身标识为交互目标。通过将参加者C设置为交互目标，不基于参加者与无生命对象之间的交互来更新化身模型。相反，每个化身模型将基于与另一参加者的交互来更新。

在框428，服务器将参加者B的化身模型设置到第二位置的共享三维空间模型中。参加者B的化身模型现在可以接收与第二位置的物理布局有关的输入。参加者B的化身响应于第二位置的物理布局。例如，通过参加者C和D的设备，参加者B的化身将被视为不同于第二位置处的物理对象。

在框430，服务器将参加者D的化身标识为交互目标。这可以通过对从参加者D的化身模型输出的化身进行编码以反映化身是交互目标来执行。将参加者D设置为交互目标提供焦点以指引另一参加者的化身的面部的朝向。

参考图5，示出了用于生成共享混合现实电话会议会话的方法500。在框502处，服务器将参加者C和参加者D的相应化身模型添加到共享的第一位置模型。参加者C和D的化身模型现在可以接收与第一位置的物理布局有关的输入。在这个意义上，参加者A的化身响应于第二位置的物理布局。

在框504处，服务器调整化身的布置以符合第一位置的布置。例如，在实例中，参加者C和D并排坐在第二位置处，但在第一位置处仅存在相对座位，则服务器确定参加者C和D的化身将在第一位置处彼此相对地显示。

在框506处，服务器为参加者C和D设置化身并将化身C和D的定位固定在用于第一位置的三维空间模型中。使用以上示例，服务器将参加者C和D的化身设置为在第一位置处彼此相对显示。

在框508，服务器将参加者A和参加者B的相应化身模型添加到第二位置的三维空间模型。参加者A和B的化身模型现在可接收与第二位置的物理布局有关的输入。在框510处，服务器调整参加者A和B的化身的布置以符合第二位置的布置。类似于上文，服务器确定要显示的参加者A和B的化身在第二位置处的定位。在框512处，服务器将参加者A和B的化身的位置固定在第二位置的三维空间模型中。

参考图6，示出了用于在混合现实电话会议期间生成交互的方法600。在框602处，运动检测器检测参加者A的运动。例如，参加者A可以将他们的身体向左转动30度，并且该系统可以检测该移动。在框604处，更新存储在参加者A的计算设备上的本地空间模型以反映这一移动。

在框606处，服务器更新共享位置模型以反映参加者A的运动。例如，布置在参加者A上的传感器、布置在参加者B上的传感器或者布置在电话会议位置处的传感器检测参加者A在参加者C的方向上将其头部旋转15度。服务器可以将该数据输入到参加者A的化身模型中以使得化身朝向参加者C旋转适当数量的度数。

在框608处，参加者A的计算设备基于参加者A的运动确定参加者A正在看向交互目标——参加者C。作为对以上示例的延续，随着参加者A的旋转，参加者C的化身在参加者A的设备中变得可见，并且进而在参加者C和D的设备的显示中显示参加者A的化身转向参加者C。

在框610处，参加者A的计算设备向服务器传输参加者A正在看向参加者C的数据。参加者C已经被识别为交互目标。因此，即使参与者C被布置在无生命物体(例如，橱柜)附近，服务器也会使参与者A的化身看起来看向参与者C。

在框614处，服务器更新共享三维空间模型以反映参加者A正在看向参加者C。因此，当参加者C通过参加者C的设备看向参加者A时，将显示出参加者A的化身正在看向参加者C。在框616，存储在参加者B的计算设备上的位置模型与存储在服务器上的更新的三维空间模型同步。同步将数据输入到位置模型中以反映参加者A正在看向参加者C。

在框618和620，分别存储在参加者C和D设备上的本地空间模型被同步以显示面向参加者C的参加者A的化身。换言之，在参加者C和D的每一个设备上上，参加者A的化身将看起来面对参加者C。

在一些实施例中，化身可进一步看起来对电话会议位置处的环境刺激做出响应。每个参加者设备可以配备有音频、温度和其他适当的传感器。传感器可操作以感测电话会议位置处的环境刺激，并且在该位置处可见的化身可对刺激作出反应。例如，参加者A可以在第一位置并且参加者A的化身在位于第二位置处的参加者B的设备上可见。参加者B的设备可被配置为感测环境刺激，例如，突然的温降、突然的噪音、突然增加的阳光。来自一个位置的环境刺激数据可以被传输到服务器，当参加者在另一位置并且不知道环境刺激时，服务器可以更新化身模型。例如，在第一位置处的参加者的化身可以响应于在第二位置处的阳光的增加而斜视他们的眼睛。化身可以转向大声的声音，即使实际参加者不能听到声音。

应当理解，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网部件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图7，描述了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理上或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图7中所示的计算装置54A-54N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。

现在参见图8，示出了由云计算环境50(图7)提供的一组功能抽象层。应提前理解，图7中所示的部件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件部件。硬件部件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网部件66。在一些实施例中，软件部件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；交易处理95；以及创建混合现实电话会议环境96。

应当理解，本公开能够结合现在已知或以后开发的任何其他类型的计算环境来实现。例如，图9描绘了用于实施本文所描述的技术的处理系统900的框图。在实例中，处理系统900具有一个或多个中央处理单元(处理器)921a、921b、921c等(统称为或一般地称为(一个或多个)处理器921和/或(一个或多个)处理设备)。在本公开的各方面中，每个处理器921可包括精简指令集计算机(RISC)微处理器。处理器921经由系统总线933耦合到系统存储器(例如，随机存取存储器(RAM)924)和不同其他部件。只读存储器(ROM)922耦合到系统总线933并且可以包括基本输入/输出系统(BIOS)，其控制处理系统900的某些基本功能。

进一步描绘的是耦合到系统总线933的输入/输出(I/O)适配器927和网络适配器926。I/O适配器927可以是与硬盘923和/或存储设备925或任何其他类似部件通信的小型计算机系统接口(SCSI)适配器。I/O适配器927、硬盘923和存储设备925在本文中统称为大容量存储装置934。用于在处理系统900上执行的操作系统940可存储在大容量存储装置934中。网络适配器926将系统总线933与外部网络936互连，从而使得处理系统900能够与其他此类系统通信。

显示器(例如，显示监视器)935通过显示适配器932连接到系统总线933，所述显示适配器932可包含用以改进图形密集型应用的性能的图形适配器和视频控制器。在本公开的一个方面中，适配器926、927和/或932可以连接到经由中间总线桥(未示出)连接到系统总线933的一个或多个I/O总线。用于连接诸如硬盘控制器、网络适配器和图形适配器之类的外围设备的合适的I/O总线通常包括诸如外围部件互连(PCI)之类的公共协议。附加输入/输出设备被示为经由用户接口适配器928和显示适配器932连接到系统总线933。输入设备929(例如，键盘、麦克风、触摸屏等)、输入指针930(例如，鼠标、触控板、触摸屏等)和/或扬声器931可以经由用户接口适配器928互连到系统总线933，用户接口适配器928可以包括例如将多个设备适配器集成到单个集成电路中的超级I/O芯片。

在本公开的一些方面，处理系统900包括图形处理单元937。图形处理单元937是经设计以操纵和改变存储器以加速既定用于输出到显示器的帧缓冲器中的图像的创建的专用电子电路。一般来说，图形处理单元937在操纵计算机图形和图像处理方面非常有效，且具有高度并行结构，其使得对于并行完成大数据块的处理的算法，图形处理单元937比通用CPU更有效。

由此，如本文配置的，处理系统900包含呈处理器921形式的处理能力、包含系统存储器(例如，RAM924)和大容量存储装置934的存储能力、例如键盘929和鼠标930等输入装置，以及包含扬声器931和显示器935的输出能力。在本公开的一些方面，系统存储器(例如，RAM924)和大容量存储器934的一部分共同存储操作系统940以协调处理系统900中示出的不同部件的功能。

本文参考相关附图描述了本发明的各种实施例。在不脱离本发明的范围的情况下，可设计本发明的替代实施例。在以下描述和附图中，在元件之间阐述了各种连接和位置关系(例如，上方、下方、相邻等)。除非另有规定，否则这些连接和/或位置关系可以是直接或间接的，并且本发明在此方面并示意图是限制性的。因此，实体的连接可以指直接的或间接的连接，并且实体之间的位置关系可以是直接的或间接的位置关系。此外，本文描述的各种任务和过程步骤可以并入具有本文未详细描述的附加步骤或功能的更全面的程序或过程中。

本文描述的一种或多种方法可以用任何以下技术或以下技术的组合来实现，每个技术都是本领域公知的：具有用于对数据信号实现逻辑功能的逻辑门的分立逻辑电路、具有适当组合逻辑门的专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。

为了简洁起见，涉及制造和使用本发明的方面的常规技术可以或可以不在本文中详细描述。具体地，用于实现本文所描述的不同技术特征的计算系统和特定计算机程序的各个方面是众所周知的。因而，为了简洁起见，许多常规实施细节在本文中仅简要提到或完全省略，而不提供众所周知的系统和/或过程细节。

在一些实施例中，各种功能或动作可以在给定位置处发生和/或与一个或多个装置或系统的操作结合发生。在一些实施例中，可以在第一设备或位置处执行给定功能或动作的一部分，并且可以在一个或多个附加设备或位置处执行该功能或动作的剩余部分。

本文中使用的术语仅用于描述具体实施方式的目的，而并非旨在进行限制。如本文中使用的，除非上下文另有明确指示，否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应当理解，当在本说明书中使用术语“包括(comprises)”和/或“包含(comprising)”时，其指定所述特征、整体、步骤、操作、元件和/或部件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件部件和/或其组合的存在或添加。

以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行所述功能的任何结构、材料或动作。本公开已出于说明和描述的目的而呈现，但并不旨在是详尽的或限于所公开的形式。在不背离本公开的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择和描述这些实施例以便最好地解释本披露的原理和实际应用，并且使本领域的其他普通技术人员能够针对具有适合于所预期的特定用途的不同修改的不同实施例来理解本披露。

此处所描绘的图是说明性的。在不背离本公开的范围的情况下，可以对本文所述的图或步骤(或操作)进行许多变化。例如，可以以不同的顺序执行动作，或者可以添加、删除或修改动作。而且，术语“耦接”描述了在两个元件之间具有信号路径，并且不暗示元件之间的直接连接，其间没有中间元件/连接。所有这些变型被认为是本公开的一部分。

以下定义和缩写将用于解释权利要求书和说明书。如在此使用的，术语“包括”(comprises)、“包含”(comprising)、“包括”(includes)、“包括”(including)、“具有”(has)、“具有”(having)、“含有”(contains)或“含有”(containing)或其任何其他变体旨在涵盖非排他性的包括。例如，包含一系列要素的组合物、混合物、工艺、方法、物品或设备不必仅限于那些要素，而是可以包括未明确列出的或这种组合物、混合物、工艺、方法、物品或设备固有的其他要素。

此外，术语“示例性的”在本文中用于表示“用作实例、例子或例证”。本文中描述为“示例性”的任何实施方式或设计不一定被解释为优于或优于其他实施方式或设计。术语“至少一个”和“一个或多个”应理解为包括大于或等于一的任何整数，即。一个、两个、三个、四个等。术语“多个”应理解为包括大于或等于二的任何整数，即。两个、三个、四个、五个等。术语“连接”可包括间接“连接”和直接“连接”。

术语“约”、“基本上”、“大致”及其变型旨在包括与基于提交申请时可用的设备的特定量的测量相关联的误差程度。例如，“约”可以包括给定值的±8％或5％、或2％的范围。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。本文使用的术语被选择来最好地解释实施例的原理、实际应用或优于市场中发现的技术的技术改进，或者使得本领域普通技术人员能够理解本文描述的实施例。

Claims

1.一种计算机实现的方法，包括：

由处理器将第一用户的图形表示叠加到第一位置的真实世界图像上，其中所述第一用户物理上位于不同于所述第一位置的第二位置处；

由所述处理器检测所述第一用户与第二用户之间的交互，其中所述第二用户物理上位于所述第一位置处；

由所述处理器确定所述第二用户在所述第一位置处的当前定位；以及

由所述处理器使所述第一用户的所述图形表示面对所述第二用户的所述当前定位的方向。

2.根据权利要求1所述的计算机实现的方法，进一步包括：

将所述第二用户的图形表示叠加在所述第二位置的真实世界图像上；

确定所述第一用户在所述第二位置内的当前定位；以及

使所述第二用户的所述图形表示面向所述第一用户的所述当前定位的方向。

3.根据权利要求1所述的计算机实现的方法，进一步包括：

至少部分基于所述第一位置的物理布局将所述第一用户的所述图形表示定位在所述第一位置的所述真实世界图像上。

4.根据权利要求3所述的计算机实现的方法，进一步包括：

至少部分基于所述第二位置的物理布局将所述第二用户的所述图形表示定位在所述第二位置的所述真实世界图像上，其中所述第一位置的所述物理布局不同于所述第二位置的所述物理布局。

5.根据权利要求1所述的计算机实现的方法，其中检测所述第一用户与所述第二用户之间的交互包括：

计算所述第一用户的计算装置的定位和视场；

检测所述第二用户的计算设备的定位；以及

将所述第一用户的计算设备的所述定位和视场与所述第二用户的计算设备的所述定位进行比较。

6.根据权利要求1所述的计算机实现的方法，其中检测所述第一用户与所述第二用户之间的交互包括：

在所述第二用户的计算设备的显示器上检测所述第一用户的所述图形表示；

确定所述第一用户的所述图形表示的时间间隔是否超过阈值时间。

7.根据权利要求1所述的计算机实现的方法，进一步包括：

与第三用户的计算设备共享所述第二位置的模型，其中所述第三用户物理上位于所述第二位置处。

8.一种系统，包括：

存储器，具有计算机可读指令；以及

用于执行所述计算机可读指令的一个或多个处理器，所述计算机可读指令控制所述一个或多个处理器执行操作，所述操作包括：

将第一用户的图形表示叠加到第一位置的真实世界图像上，其中所述第一用户物理上位于不同于所述第一位置的第二位置处；

检测所述第一用户和第二用户之间的交互，其中所述第二用户物理上位于所述第一位置处；

确定所述第二用户在所述第一位置处的当前定位；以及

使所述第一用户的所述图形表示面向所述第二用户的所述当前定位的方向。

9.根据权利要求8所述的系统，所述操作进一步包括：

确定所述第一用户在所述第二位置内的当前定位；以及

10.根据权利要求8所述的系统，所述操作进一步包括：

11.根据权利要求10所述的系统，所述操作进一步包括：

12.根据权利要求8所述的系统，其中检测所述第一用户与所述第二用户之间的交互包括：

计算所述第一用户的计算装置的定位和视场；

检测所述第二用户的计算设备的定位；以及

13.根据权利要求8所述的系统，其中检测所述第一用户与所述第二用户之间的交互包括：

14.根据权利要求8所述的系统，所述操作进一步包括：

15.一种计算机程序产品，包括具有包含在其中的程序指令的计算机可读存储介质，所述程序指令可由处理器执行以使所述处理器执行包括以下各项的操作：

将第一用户的图形表示叠加到第一位置的真实世界图像上，其中所述第一用户物理上位于与所述第一位置不同的第二位置内；

确定所述第二用户在所述第一位置处的当前定位；以及

16.根据权利要求15所述的计算机程序产品，所述操作进一步包括：

确定所述第一用户在所述第二位置处的当前定位；以及

17.根据权利要求15所述的计算机程序产品，所述操作进一步包括：

18.根据权利要求17所述的计算机程序产品，所述操作进一步包括：

19.根据权利要求15所述的计算机程序产品，其中检测所述第一用户与所述第二用户之间的交互包括：

计算所述第一用户的计算装置的定位和视场；

检测所述第二用户的计算设备的定位；以及

20.根据权利要求15所述的计算机程序产品，其中检测所述第一用户与所述第二用户之间的交互包括：