CN117597916A

CN117597916A - 保护虚拟会议中的私人音频和其应用

Info

Publication number: CN117597916A
Application number: CN202280047831.7A
Authority: CN
Inventors: G·C·克罗尔; E·S·布朗德
Original assignee: Caterpillar Technologies
Current assignee: Caterpillar Technologies
Priority date: 2021-05-06
Filing date: 2022-05-05
Publication date: 2024-02-23
Also published as: US20230353710A1; US11743430B2; US20220360742A1

Abstract

本申请公开了一种用于保护虚拟会议中的私人音频的计算机实施的方法、系统、设备和计算机程序产品。对于所述虚拟会议中的每个用户，讲话用户的设备或服务器基于相应用户能够听到所述讲话用户的声音时的相应音量是否超过阈值量来确定所述相应用户是否能够听到所述讲话用户的声音。所述讲话用户的设备或所述服务器阻止将音频流传输到被确定为不能听到所述讲话用户的声音的用户的设备。

Description

保护虚拟会议中的私人音频和其应用

相关申请的交叉引用

本申请要求于2021年5月6日提交的申请号为17/313,279的美国专利申请和于2021年5月6日提交的申请号为17/313,338的美国专利申请的优先权，并且上述每个专利申请的全部内容特此通过引用并入本申请。

技术领域

该领域大体上涉及视频会议。

背景技术

视频会议涉及不同位置处的用户接收和传输音频-视频信号，用于人们之间进行实时通信。视频会议在许多计算设备上可广泛地从各种不同的服务获得，包括可从加利福尼亚州圣何塞市(San Jose,CA)的Zoom通信公司(Zoom Communications Inc.)获得的ZOOM服务。一些视频会议软件，如可从加利福尼亚州库比蒂诺市(Cupertino,CA)的苹果公司(Apple Inc.)获得的FaceTime应用程序是移动设备的标配。

通常，这些应用程序通过显示和输出其它会议参与者的视频和音频来运行。当有多个参与者时，屏幕可以被分成多个矩形框，每个框显示一个参与者的视频。有时，这些服务运行使得呈现讲话者的视频具有更大的框。当不同的个体讲话时，该框将在讲话者之间切换。应用程序从与用户的设备集成的相机捕获视频并从与用户的设备集成的麦克风捕获音频。然后，应用程序将该音频和视频传输到在其它用户的设备上运行的其它应用程序。

最近，视频会议技术变得越来越重要。许多工作场所、贸易展览、会议、大会、学校和宗教场所已经关闭或呼吁人们不要参加，因为害怕传播疾病，特别是COVID-19。使用视频会议技术的虚拟会议正在逐渐取代实体会议。另外，这项技术提供了优于实体会议的优势，以避免旅行和通勤。

通常，使用这种视频会议技术会使人失去场所意识。在同一个场所面对面进行会议会有体验方面的感受，当会议以虚拟方式进行时，这一点就消失了。具体地，在社交方面的感受是能够摆好自己的姿势并看着自己的同行。这种体验方面的感受对于建立人际关系和社会联系非常重要。然而，这种感觉在传统的视频会议中是缺乏的。

当视频会议开始涉及几个参与者时，这些视频会议技术会出现另外的问题。在实体会议上，人们可以进行旁侧谈话。人们可以投射和调整他们的声音，这样只有靠近他们的人才能听到他们在说什么。在一些情况下，人们甚至可以在大型会议的背景下进行私人谈话。然而，在虚拟会议中，当多人同时讲话时，软件会将两个音频流基本同等地混合在一起，导致参与者打断彼此的讲话。因此，当多个人参与虚拟会议时，私人谈话是不可能的，并且对话更倾向于以一对多的讲话形式进行。在这里，虚拟会议也没有为参与者提供建立社会联系并有效沟通和建立联系的机会。

大型多人在线游戏(MMOG或MMO)为用户提供了虚拟互动的替代性方式。MMO通常允许玩家在虚拟世界中操纵虚拟形象(avatar)。有时，这些MMO允许用户相互交谈或发送消息。实例包括可从加利福尼亚州圣马特奥市(San Mateo,CA)的Roblox公司(RobloxCorporation)获得的ROBLOX游戏，以及可从瑞典斯德哥尔摩(Stockholm,Sweden)的Mojang工作室(Mojang Studios)获得的MINECRAFT游戏。

在社交互动方面，让裸虚拟形象相互互动也有局限性。这些虚拟形象通常无法交流人们经常不经意间做出的面部表情。这些面部表情在视频会议上是可以观察到的。一些出版物可能描述了将视频放置在虚拟世界中的虚拟形象上。然而，这些系统通常需要专门的软件并且具有限制其有用性的其它限制。

三维环境中的虚拟会议会引入隐私问题。在现实世界情况中，讲话者可以感觉到可以听到他们说话的人。讲话者使用周边视觉、声音提示(例如，脚步声)、非语言提示、以及甚至来自他人的表情和反应来感觉人何时从后面接近她。然而，当多个人参与虚拟会议时，讲话者可能难以确定其它会议参与者是否可以听到他们的声音。进一步地，讲话者的有利位置可能受到虚拟相机的限制，并且因此讲话者可能无法感觉到在虚拟相机的视点之外的用户的存在。这是因为虚拟会议通常也缺乏非语言提示、周边视觉和声音提示。这可能使其它用户能够秘密地监听对话。

此外，现有的视频会议系统可以向虚拟会议的所有参与者的设备广播讲话者的音频流。客户端设备决定将哪些接收到的音频流混合在一起并最终输出给参与者。这种方法可能存在安全漏洞。例如，如果黑客能够截取音频流或欺骗客户端应用程序，则黑客可能能够访问黑客以其它方式不可能听到的音频流。此外，向从未实际使用的客户端传输音频流可能会导致带宽浪费。

因此，视频会议需要改进的方法。

发明内容

在一实施例中，一种计算机实施的方法、系统、设备和计算机程序产品提供用于保护虚拟会议中的私人音频。讲话用户的设备接收从所述讲话用户的设备的麦克风捕获的音频流。所述麦克风被位置成捕获所述讲话用户的语音。所述讲话用户的设备或与所述讲话用户的设备通信的服务器从讲话用户的虚拟相机的角度为所述讲话用户渲染(render)三维虚拟空间。所述三维虚拟空间包括多个虚拟形象。多个用户中的每个用户由所述多个虚拟形象中的一个相应虚拟形象表示。对于所述多个用户中的每个用户，所述讲话用户的设备或所述服务器基于所述用户的相应虚拟形象在所述三维虚拟空间中相对于所述虚拟相机在所述三维虚拟空间中的位置的相对位置来确定相应的音量。对于每个用户，所述讲话用户的设备或所述服务器基于所述相应音量是否超过阈值量来确定所述用户是否能够听到所述讲话用户的声音。所述讲话用户的设备或服务器阻止将音频流传输到不能听到所述讲话用户的声音的用户的设备。这允许所述讲话用户与能够听到所述讲话用户的声音的用户私下通信。

下面参考附图详细描述本发明的另外的实施例、特征和优点，以及各个实施例的结构和操作。

附图说明

并入在本申请中并形成本说明书的一部分的附图展示了本公开并且与本说明书一起进一步用于解释本公开的原理并使相关领域的技术人员能够制造和使用本公开。

图1是展示在虚拟环境中提供视频会议的示例界面的示意图，其中视频流映射到虚拟形象上。

图2是展示三维模型的示意图，该三维模型被用于渲染具有用于视频会议的虚拟形象的虚拟环境。

图3是展示在虚拟环境中提供视频会议的系统的示意图。

图4A至图4D是展示了如何在图3中的系统的各个组件之间传送数据以提供视频会议的示意图。

图5是展示了用于向能够在虚拟环境中的视频会议中听到给定用户的声音的其它用户选择性地传输给定用户的音频流的方法的流程图。

图6是展示了音量如何随着虚拟形象之间的距离增加而滚降(roll off)的图表。

图7是展示了用于向讲话用户通知能够在虚拟环境中的视频会议中听到讲话用户的声音的其它用户的方法的流程图。

图8A至图8B是展示了在视频会议期间虚拟环境中的不同音量区域的示意图。

图9A至图9C是展示了在视频会议期间遍历虚拟环境中的音量区域的层次结构的示意图。

图10A至10C是展示了为虚拟环境中的讲话用户渲染的其它用户的通知的示意图，该其他用户能够听到讲话用户的声音。

图11是展示了用于在视频会议期间调整相对左右音量以在虚拟环境中提供位置感的方法的流程图。

图12是展示了用于在视频会议期间调整相对音量以在虚拟环境中提供不同音量区域的方法的流程图。

图13是展示了用于在虚拟环境中提供视频会议的设备的组件的示意图。

元件首次出现的附图通常由对应的附图标记中最左边的一个或多个数字表示。在附图中，相似的附图标记可以表示相同或功能类似的元件。

具体实施方式

虚拟环境中具有虚拟形象的视频会议

图1展示了在虚拟环境中提供视频会议的界面100的实例，其中视频流映射到虚拟形象上。

可以向视频会议的参与者显示界面100。例如，界面100可以被渲染以向参与者显示，并且可以随着视频会议的进行而不断更新。用户可以使用例如键盘输入来控制其虚拟相机的方向。以这种方式，用户可以在虚拟环境中巡览。在一个实施例中，不同的输入可以改变虚拟相机在虚拟环境中的X位置和Y位置以及平移角度和倾斜角度。在另外的实施例中，用户可以使用输入来改变虚拟相机的高度(Z坐标)或偏转。在另外的实施例中，用户可以提供输入以使虚拟相机“跳(hop)”起来，同时返回到其原始位置，模拟跳跃。可用于操纵虚拟相机的输入可以包括例如键盘和鼠标输入，例如用于在X-Y平面上向前、向后、向左或向右移动虚拟相机的WASD键盘键，用于使虚拟相机“跳”的空格键，以及指定平移角度和倾斜角度变化的鼠标移动。

界面100包括虚拟形象102A和102B，每个虚拟形象表示视频会议的不同参与者。虚拟形象102A和102B分别具有来自第一参与者和第二参与者的设备的纹理映射的视频流104A和104B。纹理映射(texture map)是应用(映射)到形状或多边形的表面的图像。在这里，所述图像是从相机设备捕获的视频的相应帧。捕获视频流104A和104B的相机设备被定位以捕获相应参与者的面部。以这种方式，当会议参与者谈话和倾听时，虚拟形象具有纹理映射在其上的面部移动的图像。

类似于观看界面100的用户如何控制虚拟相机，虚拟形象102A和102B的位置和方向由其所表示的相应参与者控制。虚拟形象102A和102B是由网格表示的三维模型。每个虚拟形象102A和102B可以在虚拟形象下面具有参与者的名字。

虚拟形象102A和102B由相应用户控制。它们各自可以定位在与其自身虚拟相机在虚拟环境中所处的位置相对应的点处。正如查看界面100的用户可以在虚拟相机周围移动，各个用户可以在其相应虚拟形象102A和102B周围移动。

界面100中渲染的虚拟环境包括舞台的背景图像120和三维模型118。舞台可以是视频会议应该发生的场所或建筑物。舞台可以包括由墙壁界定的地板区域。三维模型118可以包括网格和纹理。数学上表示三维模型118的表面的其它方式也是可行的。例如，多边形建模、曲线建模和数字雕刻是可行的。例如，三维模型118可以由三维空间中的体素、样条曲线、几何图元、多边形或任何其它可能的表示来表示。三维模型118还可以包括光源的规格。光源可以包括例如点光源、定向光源、聚光灯光源和环境光源。对象也可能具有描述其如何反射光的某些性质。在一实例中，性质可以包括漫反射、环境和光谱照明交互。

除了舞台之外，虚拟环境可以包括展示了环境的不同组件的各种其它三维模型。例如，三维环境可以包括装饰模型114、扬声器模型116和演示屏幕模型122。正如模型118，这些模型可以使用任何数学方式来表示，以表示三维空间中的几何表面。这些模型可以与模型118分开，或者组合成虚拟环境的单个表示。

诸如模型114的装饰模型用于增强舞台的真实感以及增加美学吸引力。扬声器模型116可以虚拟地发出声音，如演示和背景音乐，这将在下面参考图5和图7更详细地描述。演示屏幕模型122可以用于提供展示演示的出口。展示者的视频或演示屏幕的共享可以被纹理映射到演示屏幕模型122上。

按钮108可以向用户提供参与者列表。在一个实例中，在用户选择按钮108之后，用户可以通过单独地或作为一组发送文本消息与其它参与者聊天。

按钮110可以使用户能够改变用于渲染界面100的虚拟相机的属性。例如，虚拟相机可以具有指定数据被渲染用于显示的角度的视场。相机视场内的建模数据被渲染，而相机的视场外的建模数据可能不被渲染。默认情况下，虚拟相机的视场可以设置在60°与110°之间，这与广角镜头和人类的视觉相当。然而，选择按钮110可以使虚拟相机将视场增大到超过170°，与鱼眼镜头相当。这可以使用户在虚拟环境中对其周围环境有更广阔的周边意识。

最后，按钮112使得用户退出虚拟环境。选择按钮112可以使得通知被发送到属于其它参与者的设备，对其设备进行信号传导以停止显示与先前观看界面100的用户相对应的虚拟形象。

以这种方式，虚拟三维空间的界面100用于进行视频会议。每个用户控制一个虚拟形象，所述用户可以控制所述虚拟形象四处移动、环顾四周、跳跃或做其它改变位置或定向的事情。虚拟相机向用户显示虚拟三维环境和其它虚拟形象。其它用户的虚拟形象具有作为必要部分的显示用户的网络相机图像的虚拟显示器。

通过给予用户空间感并允许用户看到彼此的面部，本申请描述的各种实施例提供了比传统的网络会议或传统的MMO游戏更多的社交体验。更多的社交体验具有各种各样的应用场景。例如，这可以在网上购物中使用。例如，界面100具有实施以下各项中的应用场景：虚拟杂货店、礼拜场所、贸易展览、B2B销售、B2C销售、学校教育、餐馆或餐厅、产品发布、建筑工地参观(例如，对于建筑师、工程师、承包商)、办公空间(例如，人们虚拟地“在其办公桌前”工作)、交通工具和机械(船、飞机、潜艇、无人机、钻探设备等)的远程控制、工厂(plant/factory)控制室、医疗程序、花园设计、有向导的虚拟巴士游览、音乐活动(例如，音乐会)、讲座(例如，TED演讲)、政党会议、董事会会议、水下研究、难以到达的地方的研究、用于紧急情况(例如，火灾)的训练、烹饪、购物(具有结账和送货)、虚拟艺术和工艺品(例如，绘画和陶器)、婚礼、葬礼、洗礼、远程体育训练、咨询、治疗恐惧(例如，对抗疗法)、时装表演、游乐园、家庭装饰、观看体育和电子竞技、观看使用三维相机捕捉的表演、玩棋盘和角色扮演游戏、走过/穿过医学影像、观看地质数据、学习语言、视觉或听觉受损的人在空间中会面、通常不走动的人参与活动、呈现新闻或天气、脱口秀、签名售书、投票、大型多人在线游戏(MMO)、购买/出售虚拟地点(如在一些MMO中可获得的虚拟地点，如从加利福尼亚州旧金山(San Francisco,CA)的Linden研究公司(Linden Research,Inc.)可获得的第二人生(SECOND LIFE)游戏)、跳蚤市场、车库销售、旅行社、银行、档案馆、计算机处理管理、剑术/击剑/武术、重演(例如，重演犯罪现场和/或事故)、排练真实事件(例如，婚礼、演示、表演、太空行走)、评估或观看用三维相机捕获的真实事件、牲畜表演、动物园、体验作为高/矮/盲/聋/白/黑人的生活(例如，虚拟世界的经修改的视频流或静止图像，以模拟用户希望体验反应的视角)、工作面试、游戏节目、互动小说(例如，谋杀疑案)、虚拟钓鱼、虚拟航海、心理研究、行为分析、虚拟运动(例如，爬山/抱石)、控制家中或其它位置的灯和其它设备(智能家居技术(domotics))、记忆宫殿、考古、礼品店、虚拟参观以便客户在其真实参观中能够更舒适、能够解释手术并使人们感觉更舒适的虚拟医疗程序、以及虚拟交易大厅/金融市场/股票市场(例如，将实时数据和视频馈送集成到虚拟世界、实时交易和分析)、人们将其作为工作的一部分必须要去的虚拟位置，这样人们将实际上有组织地相遇(例如，如果人们想要创建发票，只有在虚拟位置内才有可能)和增强现实，其中，将人的面部投影到其AR耳机(或头盔)上，以便可以看到其面部表情(例如，可用于军事、执法、消防队员、特种部队)、以及进行预订(例如，对于某个度假屋/汽车/等)。

图2展示了用于渲染虚拟环境的三维模型200，虚拟环境可以是例如图1中描述的虚拟环境，其具有用于视频会议的虚拟形象。正如图1所展示的，这里的虚拟环境包括三维舞台118和包括三维模型114和122的各种三维模型。同样如图1所展示的，图200包括在虚拟环境中巡览的虚拟形象102A和102B。

如上文所描述的，图1中的界面100是从虚拟相机的视角渲染的。该虚拟相机在图200中被展示为虚拟相机204。如上所述，图1中的查看界面100的用户可以控制虚拟相机204并在三维空间中操纵虚拟相机。界面100根据虚拟相机204的新位置以及虚拟相机204的视场内的模型的任何变化而不断更新。如上文所描述的，虚拟相机204的视场可以是至少部分由水平和垂直视场角度定义的截头锥体。

如上文结合图1所描述的，背景图像或纹理可以定义虚拟环境的至少一部分。背景图像可以捕获意图在某一距离处出现的虚拟环境的方面。背景图像可以被纹理映射到球体202上。虚拟相机204可以位于球体202的原点处。以这种方式，可以有效地渲染虚拟环境的远处特征。

在其它实施例中，可以使用其它形状代替球体202来纹理映射背景图像。在各种替代性实施例中，该形状可以是圆柱体、立方体、矩形棱柱或任何其它三维形状。

图3展示了在诸如图1的虚拟环境的虚拟环境中提供视频会议的系统300。系统300包括通过一个或多个网络304耦合到设备306A和306B的服务器302。

服务器302提供连接设备306A与306B之间的视频会议会话的服务。如下文将更详细描述的，当新的参与者加入会议时以及当现有参与者离开会议时，服务器302向会议参与者的设备(例如，设备306A和306B)传送通知。服务器302传送描述三维虚拟空间中相应参与者的虚拟相机在三维虚拟空间内的位置和方向的消息。服务器302还在参与者的相应设备(例如，设备306A和306B)之间传送视频和音频流。最后，服务器302存储数据并将其传输到相应设备306A和306B，这些数据描述了具体说明三维虚拟空间的数据设备。

除了提供虚拟会议所需的数据之外，服务器302可以提供可执行信息，所述可执行信息指示设备306A和306B如何渲染数据以提供交互式会议。

服务器302用响应来响应请求。服务器302可以是网络服务器。网络服务器是使用HTTP(超文本传输协议)和其它协议来响应万维网上的客户请求的软件和硬件。网络服务器的主要工作是通过存储、处理和向用户递送网页来显示网站内容。

在替代性实施例中，设备306A与306B之间的通信不通过服务器302而是在点对点的基础上发生。在该实施例中，描述相应参与者的位置和方向的数据、关于新的和退出的参与者的通知、以及相应参与者的视频和音频流中的一者或多者不通过服务器302而是直接在设备306A与306B之间传送。

网络304能够实现各种设备306A和306B与服务器302之间的通信。网络304可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网络、无线网络、WiFi网络、WiMax网络、任何其它类型的网络、或者两个或更多个此类网络的任何组合。

设备306A和306B各自是虚拟会议的相应参与者的设备。设备306A和306B各自接收进行虚拟会议所需的数据，并渲染提供虚拟会议所需的数据。如将在下面更详细描述的，设备306A和306B包括呈现所渲染的会议信息的显示器、允许用户控制虚拟相机的输入、为会议向用户提供音频的扬声器(如耳机)、捕获用户的语音输入的麦克风、以及被定位成捕捉用户的面部的视频的相机。

设备306A和306B可以是任何类型的计算设备，包括膝上型计算机、台式计算机、智能手机、平板计算机、或可穿戴计算机(如智能手表或增强现实或虚拟现实耳机)。

网络浏览器308A和308B可以检索由链接标识符(如统一资源定位符或URL)寻址的网络资源(如网页)并呈现所述网络资源以供显示。具体地，网络浏览器308A和308B是用于访问万维网上的信息的软件应用程序。通常，网络浏览器308A和308B使用超文本传输协议(HTTP或HTTPS)来做出这种请求。当用户从特定网站请求网页时，网络浏览器从网络服务器检索必要的内容，解释并执行所述内容，并且然后在设备306A和306B上的显示器上显示所述页面，所述页面被显示为客户端/对方会议应用程序308A和308B。例如，内容可以包括HTML和客户端脚本，如JavaScript。一旦显示，用户可以在页面上输入信息并做出选择，这可以使得网络浏览器308A和308B做出另外的请求。

会议应用程序310A和310B可以是从服务器302下载的网络应用程序，并且被配置成由相应网络浏览器308A和308B执行。在一实施例中，会议应用程序310A和310B可以是JavaScript应用程序。在一个实例中，会议应用程序310A和310B可以用如Typescript语言等高级语言来编写，并被翻译或编译成JavaScript。会议应用程序310A和310B被配置成与WebGL JavaScript应用程序编程接口(API)交互。其可以具有用JavaScript指定的控制代码和用OpenGL ES着色语言(GLSL ES)编写的着色器代码。使用WebGL API，会议应用程序310A和310B可以能够利用设备306A和306B的图形处理单元(未示出)。此外，会议应用程序310A和310B可以能够在不使用插件的情况下利用交互式二维和三维图形的OpenGL渲染。

会议应用程序310A和310B从服务器302接收描述其它虚拟形象的位置和方向的数据以及描述虚拟环境的三维建模信息。另外，会议应用程序310A和310B从服务器302接收其它会议参与者的视频和音频流。

会议应用程序310A和310B渲染三维建模数据，包括描述三维环境的数据和表示相应参与者虚拟形象的数据。这种渲染可能涉及光栅化、纹理映射、光线追踪、着色、或其它渲染技术。在一实施例中，渲染可以涉及基于虚拟相机的特性的光线追踪。光线追踪涉及通过在图像平面中以像素为单位追踪光的路径并模拟用户与虚拟对象相遇的效果来生成图像。在一些实施例中，为了增强真实感，光线追踪可以模拟光学效果，如反射、折射、散射、和色散。

以这种方式，用户使用网络浏览器308A和308B进入虚拟空间。场景显示在用户的屏幕上。将用户的网络相机视频流和麦克风音频流发送到服务器302。当其它用户进入虚拟空间时，会为其创建虚拟形象模型。这个虚拟形象的位置被发送到服务器并由其它用户接收。其它用户也从服务器302获得音频/视频流可用的通知。用户的视频流被放置在为该用户创建的虚拟形象上。音频流被回放，就像从虚拟形象的位置传来。

图4A至图4D展示了如何在图3中的系统300的各种组件之间传送数据以在如图1的虚拟环境等虚拟环境中提供视频会议。如图3，图4A至图4C中的每个图描绘了服务器302与设备306A和306B之间的连接。具体地，图4A至图4C展示了这些设备之间的示例数据流。

图4A展示了示意图400，示意图400用于描述服务器302如何向设备306A和306B传输描述虚拟环境的数据。具体地，设备306A和306B两者从服务器302接收三维舞台404、背景纹理402、空间层次结构408、和任何其它三维建模信息406。

如上文所描述的，背景纹理402是展示了虚拟环境的远处特征的图像。该图像可以是规则的(如砖墙)或不规则的。背景纹理402可以以任何常见的图像文件格式(如位图、JPEG、GIF、或其它文件图像格式等)编码。例如，其描述了要相对一定距离外的球体渲染的背景图像。

三维舞台404是会议将要发生的空间的三维模型。如上文所描述的，所述三维舞台可以包括例如网格，并且可能包括要映射到其所描述的三维图元上的其自身的纹理信息。所述三维舞台可以定义虚拟相机和相应虚拟形象可以在虚拟环境内巡览的空间。因此，所述三维舞台可以由边缘(如墙壁或栅栏)来界定，所述边缘向用户展示可巡览的虚拟环境的周界。

空间层次结构408是指定虚拟环境中的分区的数据。这些分区用于确定声音在参与者之间传送之前如何被处理。如下文将描述的，该分区数据可以是分层的，并且可以描述声音处理，以允许虚拟会议的参与者可以进行私人谈话或旁侧谈话的区域。

三维模型406是进行会议所需的任何其它三维建模信息。在一个实施例中，这可以包括描述相应虚拟形象的信息。可替代地或另外地，该信息可以包括产品演示。

在将进行会议所需的信息发送给参与者的情况下，图4B至图4C展示了服务器302如何将信息从一个设备转发到另一个设备。图4B展示了示意图440，示意图440示出了服务器302如何从相应设备306A和306B接收信息，并且图4C展示了示意图460，示意图460示出了服务器302如何向相应设备306B和306A传输信息。具体地，设备306A向服务器302传输位置和方向422A、视频流424A、音频流426A、和用户列表428A。用户列表428A可以是能够在三维虚拟空间内听到设备306A的用户的声音的用户列表。服务器302基于用户列表428A确定设备306B的用户可能能够听到设备306A的用户的声音。结果，服务器302可以向设备306B传输位置和方向422A、视频流424A和音频流426A。

设备306B向服务器302传输位置和方向422B、视频流424B、音频流426B、和用户列表428B。用户列表428B可以是能够在三维虚拟空间内听到设备306B的用户的声音的用户列表。服务器302基于用户列表428B确定设备306A的用户可能能够听到设备306B的用户的声音。结果，服务器302可以向设备306A传输位置和方向422B、视频流424B、和音频流426B。

位置和方向422A和422B描述了使用设备306A的用户的虚拟相机的位置和方向。如上文所描述的，位置可以是三维空间中的坐标(例如，x、y、z坐标)，并且方向可以是三维空间中的方向(例如，平移、倾斜、滚动)。在一些实施例中，用户可能无法控制虚拟相机的滚动，因此方向可能仅指定平移角度和倾斜角度。类似地，在一些实施例中，用户可能无法改变虚拟形象的z坐标(因为虚拟形象由虚拟重力限制)，因此z坐标可能是不必要的。以这种方式，位置和方向422A和422B各自可以至少包括三维虚拟空间中的水平平面上的坐标以及平移数值和倾斜数值。可替代地或另外地，用户可能能够使用户的虚拟形象“跳跃”，因此Z位置可以仅由用户是否正在使虚拟形象跳跃的指示来指定。

在不同的实例中，位置和方向422A和422B可以使用HTTP请求响应或使用套接字消息来传输和接收。

视频流424A和424B包括从相应设备306A和306B的相机捕获的视频数据。视频可以被压缩。例如，视频可以使用任何公知的视频编解码器，包括MPEG-4、VP8、或H.264。可以实时捕获和传输视频。

类似地，音频流426A和426B是从参与者的相应设备的麦克风捕获的音频数据。音频可以被压缩。例如，音频可以使用任何公知的音频编解码器，包括MPEG-4或vorbis。可以实时捕获和传输音频。视频流424A和音频流426A彼此同步地被捕获、传输和呈现。类似地，视频流424B和音频流426B彼此同步地被捕获、传输和呈现。

视频流424A和424B以及音频流426A和426B可以使用如WebRTC(网络实时通信)API等API来传输。WebRTC是JavaScript中可用的API。如上文所描述的，设备306A和306B下载并运行网络应用程序，如会议应用程序310A和310B，并且会议应用程序310A和310B可以用JavaScript实施。会议应用程序310A和310B可以使用WebRTC通过从其JavaScript进行API调用来接收和传输视频流424A和424B以及音频流426A和426B。

用户列表428A和428B可以是被配置用于用户标识信息的数据结构。数据结构可以包括列表、队列、架构、索引等。例如，用户列表428A和428B可以包括用户名、用户ID、电子邮件地址、或其它用户信息。用户列表428A和428B指示在虚拟会议期间虚拟环境(例如，三维虚拟空间)中的哪些用户可以听到设备306A或306B的相应用户的声音。服务器302将相应音频流426A或426B传输到与相应用户列表428A或428B上的用户的设备相对应的设备。服务器302阻止将从相应设备306A或306B接收的音频流426A或426B传输到不在相应用户列表428A或428B上的用户的设备。

用户列表428A和428B包括能够以高于阈值量的音量听到给定用户的声音的用户。可以基于该用户的相应虚拟形象在虚拟环境中相对于给定用户的虚拟相机在虚拟环境中的位置的相应位置来确定该用户能够听到给定用户的声音的音量。例如，可以基于相应虚拟形象离给定用户的虚拟相机的距离、三维虚拟空间中的区域的墙壁传输因子、以及三维虚拟空间中的区域的距离传输因子来确定音量。该用户能够听到给定用户的声音的音量也可以基于虚拟形象在三维虚拟空间中的位置和方向、预定用户组、用户角色、用户重要性、用户选择等来确定。将参考图5至图10B进一步描述音量的计算。

在一些实施例中，服务器302通过计算哪些用户能够以超过阈值量的音量听到给定用户的声音来生成用户列表428A和428B。服务器302基于虚拟形象在三维虚拟空间中的位置和方向、预定用户组、用户角色、用户重要性、用户选择等来计算音量。服务器302可以将相应音频流426A或426B传输到相应用户列表428A或428B上的用户的设备。服务器302可以阻止将从相应设备306A或306B接收的音频流426A或426B传输到不在相应用户列表428A或428B上的用户的设备。

在一些实施例中，在设备306A和306B在点对点的基础上彼此通信的情况下，设备306A和306B可以将相应音频流426A或426B传输到相应用户列表428A或428B上的用户的设备。类似地，设备306A和306B可以阻止将相应音频流426A或426B传输到不在相应用户列表428A或428B上的用户的设备。

如上所述，当用户离开虚拟会议时，这种离开被传达给所有其它用户。例如，如果设备306A退出(断开)虚拟会议，则服务器302会将该离开传送给设备306B。因此，设备306B将停止渲染与设备306A相对应的虚拟形象，从虚拟空间中去除该虚拟形象。另外地，设备306B将停止接收视频流424A和音频流426A。

如上文所描述的，会议应用程序310A和310B可以基于来自相应视频流424A和424B的新信息、位置和方向422A和422B、以及与三维环境相关的新信息，周期性地或间歇性地重新渲染虚拟空间。为了简单起见，现在从设备306A的角度来描述这些更新中的每个更新。然而，本领域技术人员将理解，在给定类似变化的情况下，设备306B将表现类似行为。

当设备306A接收到视频流424B时，设备306A将来自视频流424B的帧纹理映射到与设备306B相对应的虚拟形象上。该纹理映射的虚拟形象在三维虚拟空间内被重新渲染并呈现给设备306A的用户。

当设备306A接收到新位置和方向422B时，设备306A生成与定位在新位置处并在新方向上定向的与设备306B相对应的虚拟形象。生成的虚拟形象在三维虚拟空间内被重新渲染并呈现给设备306A的用户。

在一些实施例中，服务器302可以发送描述三维虚拟环境的更新的模型信息。例如，服务器302可以发送更新的信息402、404、406或408。当这种情况发生时，设备306A将基于更新的信息重新渲染虚拟环境。当环境随时间变化时，这可能是有用的。例如，随着事件的进展，户外事件可能从白天变为黄昏。

再次，当设备306B退出虚拟会议时，服务器302向设备306A发送指示设备306B不再参与会议的通知。在这种情况下，设备306A将在没有设备306B的虚拟形象的情况下重新渲染虚拟环境。

图4D展示了示意图480，示意图480用于描述服务器302如何选择性地将音频流从一个设备传输到另一个设备。作为非限制性实例，提供视频会议的系统可以包括服务器302、设备306A、设备306B-1、设备306B-2、和设备306B-3。设备306B-1、306B-2和306B-3中的每个设备可以类似于设备306B，如图3和图4A至图4C所描述的。设备306A可以与用户438A(例如，讲话用户)相对应，设备306B-1可以与用户438B-1相对应，设备306B-2可以与用户438B-2相对应，并且设备306B-3可以与用户438B-3相对应。

设备306A或服务器302可以确定用户438B-1和用户438B-3能够在虚拟环境中听到用户438A的声音的音量超过阈值量。此外，设备306A或服务器302可以确定用户438B-2能够在虚拟环境中听到用户438A的声音的音量低于阈值量。因此，设备306A或服务器302可以确定用户438B-1和用户438B-3能够在三维虚拟空间中听到用户438A的声音，而用户438B-2不能听到用户438A的声音。设备306A或服务器302可以生成用户列表428A。用户列表428A可以包括用户438B-1和用户438B-3的用户标识信息。如上文所描述的，设备306A可以向服务器302传输位置和方向422A、视频流424A、音频流426A、和用户列表428A。如上文所描述的，在一些实施例中，服务器302可以生成用户列表428A。

服务器302可以接收位置和方向422A、视频流424A、音频流426A、和用户列表428A。服务器302可以将包括在用户列表428A上的用户标识信息与对应的设备相关联。例如，服务器302可以确定用户438B-1与设备306B-1相对应，并且用户438B-3与设备306B-3相对应。基于用户438B-1和用户438B-3被包括在用户列表428A中，服务器302可以将位置和方向422A、视频流424A、和音频流426A传输到设备306B-1和306B-3。服务器302可以将位置和方向422A以及视频流424A传输到设备306B-2，然而，由于用户438B-2在虚拟环境中不能听到用户438A的声音，服务器302可以不将音频流传输到设备306B-2。

虽然为了简单起见，如图4A至图4D中所描述的图3的系统300的实例被展示为具有两个设备，但是本领域技术人员将理解，本申请所描述的技术可以扩展到任何数量的设备。此外，虽然如图4A至图4D中所描述的图3的系统300的实例被展示为具有单个服务器302，但是本领域技术人员将理解，服务器302的功能可以分散在多个计算设备中。在一实施例中，在图4A中传送的数据可以来自服务器302的一个网络地址，而在图4B至图4D中传送的数据可以传送到/来自服务器302的另一个网络地址。

在一个实施例中，参与者可以在进入虚拟会议之前设置其网络相机、麦克风、扬声器和图形设置。在替代性实施例中，在启动应用程序之后，用户可以进入虚拟大厅，在所述虚拟大厅处，所述用户会受到由真人控制的虚拟形象的问候，该虚拟形象被称为服务人员。服务人员能够查看和修改用户的网络相机、麦克风、扬声器和图形设置。服务人员还可以指导用户如何使用虚拟环境，例如通过教所述用户如何在虚拟环境中查看、四处移动以及与各种元素交互。当用户准备就绪，用户自动离开虚拟等候房间并加入真实的虚拟环境。

标识能够在虚拟环境中听到视频会议中的讲话者的声音的用户并保护虚拟环境中的私人通信

本申请所描述的实施例还标识能够在视频会议期间在虚拟环境中听到给定用户的声音的用户，并且选择性地向能够在虚拟环境中的视频会议中听到给定用户的声音的用户传输给定用户的音频流。这在例如图5至图7、图8A至图8B、图9A至图9C和图10A至图10C中展示，上述图中的每个图在下文中描述。

用户可能希望在视频会议期间在虚拟环境中进行私人谈话。然而，给定用户的音频流可能被传输到与多个用户对应的多个设备，这些用户可能是不被希望作为私人谈话的一部分的用户设备。即使对于不在私人谈话中的用户，音频流的音量被削弱，这些用户中的一个或多个用户也可以增加其扬声器的应用程序音量来收听私人谈话。因此，给定用户可能希望选择性地将音频流仅传输给希望作为私人谈话的一部分的用户。这在图5中展示。

图5是展示了用于向能够在虚拟环境中的视频会议中听到给定用户的声音的用户选择性地传输给定用户的音频流的方法500的流程图。方法500将参考图4D描述。然而，方法500不限于该示例实施例。

在步骤502处，设备306A从用户438A的设备的麦克风接收音频流426A，在图4D的实例中，用户438A正在讲话。例如，麦克风可以被定位成捕获用户438A的语音。音频流包括捕获的语音的声音信号和相关联的声音信号水平数据。在一些实施例中，设备306A将音频流426A传输到服务器302。

在步骤504处，从参与者的虚拟相机的视角，为如用户438A等参与者渲染在虚拟会议期间的虚拟环境(例如，三维虚拟空间)的显示。虚拟环境包括多个虚拟形象。每个用户由多个虚拟形象中的相应虚拟形象表示。例如，虚拟环境可以包括用户438B-1、用户438B-2和用户438B-3的虚拟形象。用户438A可以与设备306A相对应，用户438B-1可以与设备306B-1相对应，用户438B-2可以与设备306B-2相对应，并且用户438B-3可以与设备306B-3相对应。

在步骤506处，确定会议的其它参与者中的每个参与者(图4D的实例中的设备306B-1、306B-2和306B-3的用户)能够听到虚拟环境中的讲话用户的声音的音量。如本申请中进一步描述的，术语“音量”表示为如来自用户438A的音频流426A等音频流的接收者再现声音的声音水平。如本申请所描述的，音量可能导致再现的声音的削弱或放大，或者保持其不变。基于每个参与者的虚拟形象相对于讲话用户的虚拟相机的位置的位置来确定音量。在一些实施例中，设备306A可以确定相应音量。在其它实施例中，服务器302可以确定相应音量。从以上实例继续，设备306A或服务器302确定用户438B-1能够在虚拟环境中听到用户438A的声音的音量、用户438B-2能够在虚拟环境中听到用户438A的声音的音量、以及用户438B-3能够在虚拟环境中听到用户438A的声音的音量。

可以基于多个因素的组合来确定相应用户能够听到讲话用户的声音的音量。例如，设备306A或服务器302可以接收和与用户438B-1、438B-2和438B-3相对应的虚拟形象相关联的位置和方向信息。如上文所描述的，位置可以是虚拟环境中的坐标(例如，x、y、z坐标)，并且方向可以是虚拟环境中的方向(例如，平移、倾斜、滚动)。设备306A或服务器302可以使用每个虚拟形象的位置和方向信息来确定用户438A的虚拟相机与虚拟环境中的每个相应虚拟形象之间的距离。随着虚拟相机与虚拟形象之间的距离增加，音量可以滚降(roll-off)。这在图6中展示。

图6示出了图表600，图表600展示了随着特定虚拟形象与用户438A的虚拟相机之间的距离增加，音量如何下降或劣化。图表600包括作为其y轴的音量轴602和作为其x轴的距离轴604。在一个实施例中，随着虚拟形象与虚拟相机之间的距离增加，音量保持恒定，直到达到参考距离606为止。此时，音量开始下降。换句话说，一旦特定虚拟形象与虚拟相机之间的距离增加超过参考距离606，则对应该特定虚拟形象的音量将下降。以这种方式，在所有其它事情都相等的情况下，并且假设已经到达了参考距离606，从正在收听另一用户的虚拟形象的用户的角度,“更近”的虚拟形象通常会比更远的虚拟形象听起来“更响”。

音量下降的速度取决于滚降因子(roll-off factor)。在图表600的线608和线610所展示的实例中，其每一者表示一种特定的滚降因子的方案，较大的滚降因子将比较小的滚降因子更快地导致音量下降或劣化。滚降因子可以基于模拟“真实世界”中的讲话者与收听者之间的距离如何影响声音的公式。滚降因子也可以基于一组规则。滚降因子也可以被组合。可以在视频会议系统或客户端设备的设置中构建也预定滚降因子或一组滚降因子，其也可以被称为(一个或多个)滚降因子简档。本申请描述了可以如何应用一个或多个滚降因子的多个实例。

虚拟环境可以被划分成被称为音量区域的多个不同的区域，所述多个区域中的每个区域可以影响音量。设备306A(或服务器302)确定相应虚拟形象和虚拟相机所在的音量区域。因此，相应用户能够听到用户438A的声音的音量也可以基于虚拟环境中存在的音量区域来确定。多个音量区域中的每个音量区域可以具有不同的滚降因子。方法600中所示的基于距离的计算可以基于其相应滚降因子应用于各个音量区域。以这种方式，虚拟环境的不同音量区域以不同方式影响音量，其效果的结果可以是累积的。

例如，图8A至图8B展示了在视频会议期间虚拟环境中的不同音量区域。图8A展示了显示具有会议桌810的音量区域802的界面800，所述音量区域802允许控制虚拟形象806的用户(例如，用户438B-1，但也可以是用户438B-2或用户438B-3)与控制虚拟相机的用户(例如，用户438A)之间的半私人或旁侧谈话。如这里所描述的，界面800还显示用于提供私人谈话的音量区域852。

用户坐在会议桌810周围，并且被认为是在音量区域802中。音量区域802可以被设置为具有相对较高的滚降因子和相对较短的参考距离，以增加音量的下降。以这种方式，会议桌810周围的用户可以在不打扰房间中的其他人的情况下进行谈话，因为表面上地，坐在会议桌810周围的用户将在缩短的参考距离内。然而，音量区域802的音量可以被配置成对于音量区域802之外(但是离所述音量区域802的距离仍在某个距离内)的虚拟形象不完全下降，以允许这些路人加入谈话。例如，位于音量区域802a中的虚拟形象可能仍然具有足够高的音量来听到坐在会议桌810周围的用户的声音。

界面800还包括按钮804、806和808，这将在下文描述。

图8B展示了显示音量区域852的界面850，所述音量区域852允许控制虚拟形象808的用户(例如，用户438B-2，但也可以是用户438B-1或用户438B-3)与控制虚拟相机的用户(例如，用户438A)之间的私人谈话。音量区域852可以在墙壁852a的后面。一旦在音量区域852内，来自控制虚拟形象808的用户的音频和控制虚拟相机的用户的音频可以仅被输出到音量区域852内的那些用户。因为在视频会议中根本没有从这些用户向其它用户播放音频，所以在各个实施方案中，其音频流没有被传输到其它用户设备。换句话说，只有与在音量区域852内具有虚拟形象的用户相关联的设备才需要共享音频流。在不同的实施例中，即使他们的谈话是私人的，其虚拟形象在音量区域852中的用户仍然可以听到音量区域852之外的虚拟形象的声音。

墙壁传输因子可以用于完全隔离音频。在一个实施例中，这可以用于创建虚拟办公室。例如，每个用户可能在其实体(可能是家庭)办公室中具有监视器，所述监视器显示持续开启并登录到虚拟办公室的会议应用程序。本发明的各个方面允许用户指示用户是否“在办公室”或者不应该被打扰(例如，用户可以设置请勿打扰指示器)。如果请勿打扰指示器熄灭，如同事或经理等访问者可以进入该虚拟空间，或者在进入之前敲门，或者像在实体办公室中一样简单地走进去。如果用户不在其办公室，访问者可以能够留下便条。当用户返回时，其将能够阅读访问者留下的便条。虚拟办公室可以具有白板和/或为用户显示消息的界面。消息可以是电子邮件和/或从消息应用程序创建，所述消息应用程序例如可从加利福尼亚州旧金山(San Francisco,CA)的Slack技术公司(Slack Technologies,Inc.)获得的SLACK应用程序。

音量空间可以是分层的，如图9A和图9B所展示的，其中图9B示出了示意图930，示意图930示出了具有以层次结构排列的不同音量区域的布局。音量区域934和935在音量区域933内，并且音量区域933和932在音量区域931内。如图9A的示意图900所展示的，这些音量区域在分层树中表示，如本申请进一步描述的。

在示意图900中，节点901表示音量区域931并且节点901是树的根。节点902和903是节点901的子节点，并且分别表示音量区域932和933。节点904和906是节点903的子节点，并且表示音量区域934和935。

如果位于区域934的用户试图收听位于区域932的用户讲话，音频流必须穿过多个不同的虚拟“墙壁”，每个虚拟“墙壁”削弱音量。具体地，声音必须穿过区域932的墙壁、区域933的墙壁和区域934的墙壁。每个墙壁以特定系数削弱音量。

例如，设备306A或服务器302可以基于虚拟相机与虚拟环境中的虚拟形象之间的区域的墙壁传输因子来确定不同用户可以在虚拟环境中听到用户438A的声音的音量。

例如，这在图9C中展示。从与讲话语音的虚拟区域相对应的节点(在这种情况下是节点904)开始到接收用户的节点(在这种情况下是节点902)的路径被确定。为了确定路径，节点之间的链路952被确定。以这种方式，确定包括虚拟形象的区域与包括虚拟相机的区域之间的区域子集。用户能够听到讲话用户的声音的音量基于每个区域子集的相应墙壁传输因子而削弱。每个相应墙壁传输因子指定音量削弱多少。

返回图5，在步骤508处，对于多个用户中的每个用户，基于相应音量是否超过阈值量来确定用户是否能够听到用户438A的声音。继续先前的实例，设备306A或服务器302可以确定用户438B-1和438B-3能够听到用户438A的声音的音量可能高于阈值量。此外，设备306A或服务器302可以确定用户438B-2能够听到用户438A的声音的音量低于阈值量。因此，设备306A或服务器302可以确定用户438B-1和用户438B-3能够听到用户438A的声音，并且用户438B-2不能听到用户438A的声音。作为非限制性实例，阈值量可以是10％。

在一个实例中，设备306A或服务器302生成包括用户438B-1和用户438B-3但不包括用户438-B2的用户列表428A。用户列表428A指示能够在虚拟环境中听到用户438A的声音的用户。用户列表428A可以包括关于用户438B-1和用户438B-3的标识信息。

在一些实施例中，可以基于以下各项中的一者或多者来确定其它用户能够听到用户438A的声音的音量：视线、用户组、用户角色、用户重要性。例如，用户438A直接面向另一用户并且接近另一用户，设备306A或服务器302可以确定用户438A正试图与另一用户进行私人谈话。结果，设备306A或服务器302可以确定所述另一用户能够听到用户438A的声音的音量高于阈值量，并且此外的其余每个人能够听到用户438A的声音的音量低于阈值量。

在一实例中，设备306A或服务器302可以确定用户438A正试图与一组用户进行私人谈话(例如，会议)。所述组可以是预定义的(例如，俱乐部、委员会、董事会、内阁等)。在这点上，用户438A可能只希望组内的用户听到自己的声音。因此，设备306A可以基于关于组内的用户的信息来确定组内用户能够听到用户438A的声音的音量高于阈值量，其中关于组内的用户的信息指示所述用户是所述组的一部分。音频立体声可能对于组外的人是被阻截的。该信息可以是用户的简档信息。这样，设备306A或服务器302可以阻截或防止音频流426A向不在组中的用户的传输。

在另一实例中，用户438A可以主动阻截虚拟环境中的一个或多个用户接收音频流426A。因此，设备306A或服务器302可以基于关于一个或多个用户的信息来确定虚拟环境中除了该一个或多个用户之外的用户能够听到用户438A的声音，其中，关于一个或多个用户的信息指示其已经被用户438A主动阻截。设备306A或服务器302可以阻截或防止音频流426A向该一个或多个用户的传输。

在又另一实例中，设备306A或服务器302可以确定用户438A正试图与预定用户角色的用户进行私人谈话。例如，该预定用户角色的用户可以具有预定安全许可(或凭证)或者可以被授权讨论机密信息。作为非限制性实例，用户角色可以是首席执行官(CEO)、总法律顾问、董事等。设备306A或服务器302可以基于关于预定用户角色的用户的信息来确定该预定用户角色的用户能够听到用户438A的声音的音量高于阈值量，其中，关于预定用户角色的用户的信息指示所述用户具有所述预定用户角色。该信息可以是用户的简档信息。

在一些实施例中，新用户的虚拟形象可以在虚拟会议期间移动到虚拟环境中的一个位置，使得设备306A或服务器302可以确定该新用户能够听到用户438A的声音的音量高于阈值量。作为结果，该新用户能够听到用户438A的声音。新用户的设备可以为新用户渲染指示该新用户能够听到用户438A的声音的通知。

在步骤510处，基于用户列表428A，音频流426A被防止传输到不能听到用户438A的声音的每个用户的相应设备。基于用户列表428A，音频流426可以被传输到能够听到用户438A的声音的每个用户的相应设备。例如，服务器302可以从设备306A接收音频流426A和用户列表428A。

继续上文的实例，服务器302可以将包括在用户列表428A中的关于用户438B-1和用户438B-3的标识信息与对应的设备相关联。例如，服务器302可以确定用户438B-1与设备306B-1相对应，并且用户438B-3与306B-3相对应。服务器302可以向设备306B-1和设备306B-3传输音频流426A。服务器302可以不将音频流传输到与用户438B-2相对应的设备306B-2，因为用户438B-2不包括在用户列表428A中。在一些实施例中，设备306A可以基于用户列表428A将音频流426A传输到能够听到用户438A的声音的每个用户的相应设备。此外，设备306A可以基于用户列表428A，阻止音频流426A传输到不能听到用户438A的声音的每个用户的相应设备。

在一些实施例中，服务器302可以将消音的(高度削弱的)和/或难以理解的音频流传输到不能听到用户438A的声音的用户的设备。例如，服务器302可以将消音的和/或难以理解的音频流传输到设备306B-2。

由于虚拟形象可以在虚拟会议期间在虚拟环境中四处移动，一些用户能够听到用户438A的声音的音量可能下降到低于阈值量，而一些用户能够听到用户438A的声音的音量可能增加到超过阈值量。因此，方法500的步骤502至步骤510可能需要连续执行，使得服务器302可以将用户438A的音频流传输到能够听到用户438A的声音的用户的设备，并且防止将用户438A的音频流传输到不能听到用户438A的声音的用户。

在视频会议期间，虚拟环境中的给定用户可能不知道能够听到给定用户的声音的其它用户，这是由于缺少有利位置、外围视觉、非语言提示、声音等。作为结果，给定用户可能需要被通知能够听到该给定用户的声音的其它用户。图7展示了向用户(如给定用户)通知能够听到该用户的声音的其它用户的过程。

图7是展示了用于向讲话用户通知能够在虚拟环境中的视频会议中听到该讲话用户的声音的其它用户的方法700的流程图。方法700将参考图4D描述。然而，方法700不限于该示例实施例。

在步骤702处，为用户438A渲染在虚拟会议期间的虚拟环境(例如，三维虚拟空间)。如上文所描述的，设备306A或服务器302可以渲染虚拟环境。虚拟环境可以包括多个虚拟形象。每个相应虚拟形象可以与多个用户中的一个用户相对应。例如，虚拟环境可以包括用户438B-1、用户438B-2和用户438B-3的虚拟形象。用户438B-1可以与设备306B-1相对应，用户438B-2可以与设备306B-2相对应，并且用户438B-3可以与设备306B-3相对应。

在步骤704处，基于每个用户能够听到用户438A的声音时的相应音量超过阈值量来确定虚拟环境中能够听到用户438A的声音的用户。如上文所描述的，设备306A或服务器302可以确定能够听到用户438A的声音的用户。设备306A或服务器302标识能够听到用户438A的声音的用户，如参考图5的方法500中所描述的。

在步骤706处，为用户438A渲染通知，所述通知指示能够在虚拟环境中听到用户438A的声音的用户。设备306A或服务器302可以为用户438A渲染通知。这在图10A至图10C中展示。

图10A至图10C展示了为虚拟环境中的讲话用户渲染的关于其他用户的通知，所述其他用户能够听到所述讲话用户的声音。

参考图10A，图10A展示了为用户436A渲染的虚拟环境1000。虚拟环境1000可以包括表示用户438B-1的虚拟形象1002。用户438B-1的用户名可以是“用户2”。用户438A的虚拟相机和虚拟形象1002可以定位在虚拟环境1000的第一区域1006中。

设备306A或服务器302可以基于用户438A的虚拟相机与虚拟形象1002之间的距离、用户438A的虚拟相机与虚拟形象1002之间的任何音量区域的距离传输因子、以及用户438A的虚拟相机与虚拟形象1002之间的任何音量区域的墙壁传输因子中的一者或多者来确定用户438B-1可以听到用户438A的声音的音量超过阈值量。在该实例中，设备306A可以确定用户438A的虚拟相机与虚拟形象1002在同一区域(即，第一区域1006)中，并且基于其彼此的最近距离，用户438B-1能够听到用户438A的声音的音量大于阈值量。设备306A在虚拟环境1000中为用户438A渲染通知1008。通知1008指示用户438B-1能够听到用户438A的声音。

参考图10B，图10B展示了通知1008。通知1008可以包括消息1010，消息1010指示能够听到用户438A的声音的用户的总计数。例如，消息1010叙述道，“一个人可以听到你的声音：”。此外，通知1008可以包括用户438B-1的标识信息1012。在该实例中，标识信息1012是用户438B-1的用户名“用户2”。识别信息1012可以包括昵称、全名、电子邮件地址、照片、视频、实况网络相机图像、三维模型、或图形效果。

参考图10C，图10C展示了为用户438A渲染的虚拟环境1000。设备306A可以连续地确定哪些用户在虚拟环境1000中。因此，方法700的步骤702至步骤706可能需要连续执行。由于虚拟环境1000中的虚拟形象可以四处移动，能够听到用户438A的声音的某些用户可以移动到其不再能够听到用户438A的声音的位置。可替代地，不能听到用户438A的声音的新用户可以移动到其可以听到用户438A的声音的位置。通知1008可以被更新以反映虚拟环境1000中的哪些用户能够(接近)实时听到用户438A的声音。

例如，虚拟形象1002可以从第一区域1006移动到第二区域1014，而用户438A保持在第一区域中。第二区域1014可以是会议室。设备306A可以基于用户438A的虚拟相机与虚拟形象1002之间的距离、用户438A的虚拟相机与虚拟形象1002之间的任何音量区域的距离传输因子、以及用户438A的虚拟相机与虚拟形象1002之间的任何音量区域的墙壁传输因子中的一者或多者来确定用户438B-1能够听到用户438A的声音的音量低于阈值量。作为结果，设备306A可以确定用户438B-1不再能够听到用户438A的声音。设备306A可以去除为用户438A显示的通知1008。

在多个用户能够听到用户438A的声音的情况下，设备306A可以从通知1008中去除与用户438B-1相对应的标识信息1012。此外，在设备306A确定一个或多个用户能够以大于阈值量的音量听到用户438A的声音的情况下，设备306A可以更新通知1008以包括该一个或多个用户的标识信息，以及能够听到用户438A的声音的用户的总计数。

在一些实施例中，能够在虚拟环境1010中听到用户438A的声音的给定用户可能对用户438A不可见。例如，该给定用户的虚拟形象可能在用户438A 1004的虚拟相机的视野之外。

在一些实施例中，虚拟环境中的不同区域可以具有不同的功能。例如，音量区域可以是讲台区域。如果用户438A位于讲台区域，多个用户中的一些或所有用户可以以高于阈值量的音量听到用户438A的声音。因此，音量可能被放大而不是被削弱。

出于示例性目的，图5、图7和图10A至图10C描述了来自具有对应的虚拟形象的用户的音频流。然而，相同的方法可以应用于除了用于虚拟形象之外的其它声源。例如，虚拟环境可以具有扬声器的三维模型。声音可以以与上文所描述的虚拟形象模型相同的方式从扬声器发出，可以是因为演示或者仅仅是为了提供背景音乐。

在虚拟环境中调整视频会议的音量

实施例还调整音量以提供虚拟会议内的位置和空间感。这例如在图11和图12中展示，参考图8A至图8B和图9A至图9C，所述图中的每个图在下文中描述。

图11是展示了用于在视频会议期间调整相对左右音量(relative left-rightvolume)以在虚拟环境中提供位置感的方法1100的流程图。

如上文所描述的，可以将讲话用户的音频流传输到能够听到讲话用户的声音的一个或多个其它用户的设备。然而，该一个或多个用户中的每个用户的虚拟形象的位置可能不同。作为结果，可能需要调整相对左右音量，以在视频会议期间提供虚拟环境中的位置感。

在步骤1102处，基于虚拟形象之间的距离来调整音量。如上文所描述的，接收来自另一用户的设备的麦克风的音频流。基于第二位置到第一位置之间的距离来调整第一音频流和第二音频流两者的音量。如上文所描述的，这在图6中展示。

在步骤1104处，基于虚拟形象所在的方向来调整相对左右音频。也就是说，要在用户的扬声器(例如，耳机)上输出的音频的音量将变化，以提供讲话用户的虚拟形象所在的位置的感觉。基于生成音频流的用户所处的位置(例如，讲话用户的虚拟形象的位置)相对于接收音频的用户所处的位置(例如，虚拟相机的位置)的方向来调整左和右音频流的相对音量。这些位置可以在虚拟环境内的水平平面上。左和右音频流的相对音量提供虚拟环境中的第二位置相对于第一位置的位置感。

例如，在步骤1104处，将调整与虚拟相机左侧的虚拟形象相对应的音频，使得所述音频在接收用户的左耳上以比在右耳上更高的音量输出。类似地，将调整与虚拟相机右侧的虚拟形象相对应的音频，使得所述音频在接收用户的右耳上以比在左耳上更高的音量输出。

在步骤1106处，基于一个虚拟形象相对于另一个虚拟形象定向的方向来调整相对左右音频。基于虚拟相机面向的方向与虚拟形象面向的方向之间的角度来调整左和右音频流的相对音量，使得在越垂直的角度下，左和右音频流之间的音量差异越大。

例如，当虚拟形象直接面向虚拟相机时，在步骤1106中，可以根本不调整虚拟形象的对应音频流的相对左右音量。当虚拟形象面向虚拟相机的左侧时，可以调整虚拟形象的对应音频流的相对左右音量，使得左音量比右音量更响。并且，当虚拟形象面向虚拟相机的右侧时，可以调整虚拟形象的对应音频流的相对左右音量，使得右音量比左音量更响。

在一个实例中，步骤1106中的计算可以涉及取虚拟相机面向的角度和虚拟形象面向的角度的向量积。这些角度可以是其在水平平面上面向的方向。

在一个实施例中，可以进行检查以确定用户正在使用的音频输出设备。如果音频输出设备不是一组耳机或提供立体声效果的另一种类型的扬声器，则步骤1104和1106中的调整可能不会发生。

对于从每个其它参与者接收的每个音频流，重复步骤1102至步骤1206。基于步骤1102至步骤1106中的计算，为每个其它参与者计算左和右音频增益。

以这种方式，调整每个参与者的音频流以提供参与者的虚拟形象在三维虚拟环境中所处的位置的感觉。

调整音频流不仅可以提供虚拟形象所处的位置的感觉，而且在某些实施例中，可以调整音频流以提供私人或半私人音量区域。以这种方式，虚拟环境使用户能够进行私人谈话。此外，所述虚拟环境使用户能够相互交流，并允许进行单独的旁侧谈话，这是传统视频会议软件所无法实现的。这例如参考图12展示。

图12是展示了用于在视频会议期间调整相对音量以在虚拟环境中提供不同音量区域的方法1200的流程图。

如上文所描述的，可以将讲话用户的音频流传输到能够听到该讲话用户的声音的一个或多个其它用户的设备。然而，一个或多个用户中的每个用户的虚拟形象的位置可以不同。作为结果，该一个或多个用户可能需要被调整的音量基于其虚拟形象在视频会议期间在虚拟环境中相对于用户438A的虚拟相机的位置来确定。

服务器可以向客户端设备提供声音或音量区域的规格。虚拟环境可以被划分成不同的音量区域。在步骤1202处，设备确定相应虚拟形象和虚拟相机所在的音量区域，如上文参考图8A至图9C所描述的。

在步骤1204处，遍历层次结构以确定虚拟形象之间的各个声音区域。这例如在图9C中展示。从与讲话语音的虚拟区域相对应的节点(在这种情况下是节点904)开始到接收用户的节点(在这种情况下是节点902)的路径被确定。为了确定路径，节点之间的链路952被确定。以这种方式，确定包括虚拟形象的区域与包括虚拟相机的区域之间的区域子集。

在步骤1206处，来自讲话用户的音频流基于区域子集的相应墙壁传输因子而被削弱。每个相应墙壁传输因子指定音频流被削弱多少。

如上文所描述的，不同区域具有不同滚降因子。在这种情况下，方法600中所示的基于距离的计算可以基于相应滚降因子应用于各个区域。以这种方式，虚拟环境的不同区域以不同的速率影响音量。在如上文参考图11描述的方法中确定的音频增益可以应用于音频流，以相应地确定左和右音频。以这种方式，墙壁传输因子、滚降因子、和为声音提供方向感的左右调整可以一起应用，来提供全面的音频体验。

不同的音频区域可能具有不同的功能。例如，音量区域可以是讲台区域。如果用户位于讲台区域，参考图11或12描述的削弱中的一些或全部削弱可能不会发生。例如，由于滚降因子或墙壁传输因子导致的削弱可能不会发生。在一些实施例中，仍然可以调整相对左右音频以提供方向感。

出于示例性目的，参考图11和图12描述的方法描述了来自具有对应的虚拟形象的用户的音频流。然而，相同的方法可以应用于除了虚拟形象之外的其它声源。例如，虚拟环境可以具有扬声器的三维模型，如立体声或多扬声器设置。声音可以以与上文所描述的虚拟形象模型相同的方式从扬声器发出，可以是因为演示或者仅仅是为了提供背景音乐。

如上所述，每个用户可能在其实体(可能是家庭)办公室中具有监视器，所述监视器显示持续开启并登录到虚拟办公室的会议应用程序。用户可以能够定制或个性化其虚拟办公室。例如，所述用户可以搭建张贴海报的模型或其它墙壁装饰品的模型。所述用户可以能够改变桌子或如植物等装饰品的模型或定向。所述用户可以改变照明或者窗外的风景。

参考图8A，界面800包括不同的按钮804、806和808。当用户按下按钮804时，上文参考图11和图12中的方法描述的削弱可能不会发生，或者可能仅以较小的量发生。在这种情况下，用户的语音被均匀地输出给其它用户，从而允许用户向会议中的所有参与者提供讲话。用户视频也可以在虚拟环境内的演示屏幕上输出，如下文将描述的。当用户按下按钮806时，启用扬声器模式。在这种情况下，音频从虚拟环境内的声源输出，如播放背景音乐。当用户按下按钮808时，可以启用屏幕共享模式，使得用户能够与其它用户共享其设备上的屏幕或窗口的内容。该内容可以在演示模型上呈现。

图13是展示了用于在虚拟环境中提供视频会议的设备的组件的系统1300的示意图。在各个实施例中，系统1300能够根据上文所描述的方法操作。

设备306A是用户计算设备。设备306A可以是台式计算机或膝上型计算机、智能手机、平板计算机或可穿戴设备(例如，手表或头戴式设备)。设备306A包括麦克风1302、相机1304、立体声扬声器1306、输入设备1312。未示出的是，设备306A还包括处理器和永久性、非暂时性和易失性存储器。处理器可以包括一个或多个中央处理单元、图形处理单元或其任何组合。

麦克风1302将声音转换成电信号。麦克风1302被定位成捕获设备306A的用户的语音。在不同的实例中，麦克风1302可以是电容麦克风、驻极体麦克风、动圈麦克风、带式麦克风、碳麦克风、压电麦克风、光纤麦克风、激光麦克风、水麦克风或MEM麦克风。

相机1304通过捕获光来捕获图像数据，通常通过一个或多个透镜。相机1304被定位成捕获设备306A的用户的摄影图像。相机1304包括图像传感器(未示出)。例如，图像传感器可以是电荷耦合设备(CCD)传感器或互补金属氧化物半导体(CMOS)传感器。图像传感器可以包括一个或多个检测光并转换成电信号的光电检测器。在类似的时间帧内一起捕获的这些电信号构成静态摄影图像。以固定间隔捕获的一系列静态摄影图像一起构成视频。以这种方式，相机1304捕获图像和视频。

立体声扬声器1306是将电子音频信号转换成对应的左右声音的设备。立体声扬声器1306输出由(下方的)音频处理器1320生成的左音频流和右音频流，以立体声向设备306A的用户播放。立体声扬声器1306包括被设计成直接向用户的左耳和右耳播放声音的环境扬声器和耳机两者。示例扬声器包括动铁扬声器、压电扬声器、静磁扬声器、静电扬声器、带式和平面磁性扬声器、弯曲波扬声器、平板扬声器、高空空气运动换能器(heil air motiontransducer)、透明离子传导扬声器、等离子弧扬声器、热声扬声器、旋转低音扬声器、动圈、静电、驻极体、平面磁性和平衡电枢。

网络接口1308是计算机网络中的两件设备或协议层之间的软件或硬件接口。网络接口1308从服务器302接收会议的相应参与者的视频流。视频流是从视频会议的另一个参与者的设备上的相机捕获的。网络接口1308还从服务器302接收指定三维虚拟空间和其中的任何模型的数据。对于其它参与者中的每个参与者，网络接口1308接收三维虚拟空间中的位置和方向。该位置和方向由相应其它参与者中的每个参与者输入。

网络接口1308也将数据传输到服务器302。所述网络接口传输渲染器1318使用的设备306A的用户的虚拟相机的位置，并且所述网络接口传输来自相机1304和麦克风1302的视频和音频流。

显示器1310是用于以视觉或触觉形式演示电子信息的输出设备(后者例如用于盲人的触觉电子显示器)。显示器1310可以是电视机、计算机监视器、头戴式显示器、平视显示器、增强现实或虚拟现实头戴设备的输出、广播参考监视器、医疗监视器移动显示器(用于移动设备)、智能手机显示器(用于智能手机)。为了呈现信息，显示器1310可以包括电致发光(ELD)显示器、液晶显示器(LCD)、发光二极管(LED)背光LCD、薄膜晶体管(TFT)LCD、发光二极管(LED)显示器、OLED显示器、AMOLED显示、等离子体(PDP)显示、量子点(QLED)显示器。

输入设备1312是一件用于向如计算机或信息设备等信息处理系统提供数据和控制信号的设备。输入设备1312允许用户输入渲染器1318所使用的虚拟相机的新的期望位置，由此实现三维环境中的操纵。输入设备的实例包括键盘、鼠标、扫描仪、操纵杆和触摸屏。

网络浏览器308A和网络应用程序310A已经在上文参考图3进行描述。网络应用程序310A包括屏幕捕获器1314、纹理映射器1316、渲染器1318和音频处理器1320。

屏幕捕获器1314捕获演示流，更具体地，捕获屏幕共享。屏幕捕获器1314可以与网络浏览器308A提供的API交互。通过调用API中可用的功能，屏幕捕获器1314可以使网络浏览器308A询问用户想要共享哪个窗口或屏幕。基于对该查询的回答，网络浏览器308A可以将与屏幕共享相对应的视频流返回给屏幕捕获器1314，再将所述视频流传递给网络接口1308以传输给服务器302并最终传输给其它参与者的设备。

纹理映射器1316将视频流纹理映射到与虚拟形象相对应的三维模型上。纹理映射器1316可以将来自视频的相应帧纹理映射到虚拟形象上。另外，纹理映射器1316可以将演示流纹理映射到演示屏幕的三维模型上。

渲染器1318从设备306A的用户的虚拟相机的视角渲染三维虚拟空间，以输出到显示器1310，所述三维虚拟空间包括位于所接收的相应位置处并在某个方向上定向的相应参与者的虚拟形象的纹理映射的三维模型。渲染器1318还渲染包括例如演示屏幕的任何其它三维模型。

音频处理器1320调整接收到的音频流的音量，以确定左音频流和右音频流，从而提供第二位置在三维虚拟空间中相对于第一位置的位置的感觉。在一个实施例中，音频处理器1320基于第二位置到第一位置之间的距离来调整音量。在另一个实施例中，音频处理器1320基于第二位置到第一位置的方向来调整音量。在又另一实施例中，音频处理器1320基于三维虚拟空间内水平平面上第二位置相对于第一位置的方向来调整音量。在又另一实施例中，音频处理器1320基于虚拟相机在三维虚拟空间中面向的方向来调整音量，使得当虚拟形象位于虚拟相机的左侧时，左音频流倾向于具有较高的音量，并且当虚拟形象位于虚拟相机的右侧时，右音频流倾向于具有较高的音量。最后，在又另一实施例中，音频处理器1320基于虚拟相机面向的方向与虚拟形象面向的方向之间的角度来调整音量，使得距离虚拟形象面向的方向的所述角度越接近垂直，左和右音频流之间的音量差异越大。

音频处理器1320还能够基于扬声器所处的区域相对于虚拟相机所处的区域来调整音频流的音量。在该实施例中，三维虚拟空间被分割成多个区域。这些区域可以是分层的。当扬声器和虚拟相机位于不同的区域时，可以应用墙壁传输因子来削弱讲话音频流的音量。

音频处理器1320还能够基于其它用户中的每个用户能够听到用户的声音时的相应音量来确定三维空间中的所述其它用户是否能够听到设备306A的用户的声音。对于所述其它用户中的每个用户，音频处理器1320能够基于用户的虚拟形象在三维虚拟空间中相对于用户的虚拟相机在三维虚拟空间中的位置的相应位置来确定音量。音频处理器1320能够基于相应用户的音量超过阈值量来确定用户是否能够听到用户的声音。音频处理器1320能够生成用户列表，所述用户列表包括能够在三维虚拟空间中听到用户的声音的用户。音频处理器1320能够基于用户列表来防止将用户的音频流传输到在三维虚拟空间中不能听到用户的声音的用户的设备。音频处理器1320能够基于用户列表将用户的音频流传输到能够在三维虚拟空间中听到用户的声音的用户的设备。

渲染器1318能够基于音频处理器1320确定哪些用户能够在三维虚拟空间中听到用户的声音来为设备306A的用户渲染指示能够听到用户的声音的用户的通知。通知可以包括用户的标识信息和能够在三维虚拟空间中听到用户的声音的用户的总计数。渲染器1318能够基于音频处理器1320确定能够听到用户的声音的另外或更少的用户来持续更新对用户的通知。例如，渲染器1318能够添加关于被确定为能够听到用户的声音的新用户的标识信息。渲染器1318能够去除关于被确定为不能听到用户的声音的用户的标识信息。渲染器1318也能够更新总计数。

服务器302包括出席通知器1322、流调整器1324和流转发器1326。

出席通知器1322在参与者加入和离开会议时通知会议参与者。当新参与者加入会议时，出席通知器1322向会议的其它参与者的设备发送指示新参与者已经加入的消息。出席通知器1322通知流转发器1326开始向其它参与者传送视频、音频和位置/方向信息。

流调整器1324接收从第一用户的设备上的相机捕获的视频流。流调整器1324确定向用户438B-1传输虚拟会议的数据的可用带宽。流调整器1324确定虚拟会议空间中的第一用户与第二用户之间的距离。并且，流调整器1324基于相对距离在第一视频流与第二视频流之间分配可用带宽。以这种方式，流调整器1324使较近用户的视频流优先于来自较远用户的视频流。另外地或可替代地，流调整器1324可以位于设备306A上，可能作为会议应用程序310A的一部分。

流转发器1326广播接收到的位置/方向信息、视频、音频和屏幕共享屏幕(由流调整器1324进行调整)。流转发器1326可以响应于来自会议应用程序310A的请求向设备306A发送信息。会议应用程序310A可以响应于来自出席通知器1322的通知来发送该请求。

流转发器1326还能够基于其它用户中的每个用户能够听到用户的声音时的相应音量来确定三维空间中的所述其它用户是否能够听到设备306A的用户的声音。对于所述其它用户中的每个用户，流转发器1326能够基于用户的虚拟形象在三维虚拟空间中相对于用户的虚拟相机在三维虚拟空间中的位置的相应位置来确定音量。流转发器1326能够基于相应用户的音量超过阈值量来确定用户是否能够听到用户的声音。流转发器1326能够生成包括能够在三维虚拟空间中听到用户的声音的用户的用户列表。流转发器1326能够基于用户列表来防止将用户的音频流传输到在三维虚拟空间中不能听到用户的声音的用户的设备。流转发器1326能够基于用户列表将用户的音频流传输到能够在三维虚拟空间中听到用户的声音的设备。

出席通知器1322能够基于流转发器1326确定的哪些用户能够在三维虚拟空间中听到用户的声音来为设备306A的用户渲染指示能够听到用户的声音的用户的通知。通知可以包括用户的标识信息和能够在三维虚拟空间中听到用户的声音的用户的总计数。出席通知器1322能够基于流转发器1326确定的能够听到用户的声音的另外或更少的用户来持续更新对用户的通知。例如，出席通知器1322能够添加关于被确定为能够听到用户的声音的新用户的标识信息。出席通知器1322能够去除关于被确定为不能听到用户的声音的用户的标识信息。出席通知器1322也能够更新总计数。

网络接口1328是计算机网络中的两件设备或协议层之间的软件或硬件接口。网络接口1328将模型信息传输到各个参与者的设备。网络接口1328从各个参与者接收视频、音频和屏幕共享屏幕。

屏幕捕获器1314、纹理映射器1316、渲染器1318、音频处理器1320、出席通知器1322、流调整器1324和流转发器1326各自能够以硬件、软件、固件或其任何组合来实施。

上文已经借助功能构建块描述了本发明，所述功能构建块展示了指定功能的实施方案和其关系。为便于描述，本申请已任意定义了这些功能构建块的边界。只要适当地执行所述指定的功能和其关系，就可以定义替代边界。

具体实施例的前述描述将如此完全地揭示本发明的一般性质，使得在不需要过度实验、并且不背离本发明的一般概念的情况下，通过应用本领域技术内的知识，其他人可以容易地对此类具体实施例的各种应用进行修改和/或改变。因此，基于本申请给出的教导和指导，此类改变和修改旨在处于所公开实施例的等效物的含义和范围内。应该理解，本申请中的措辞或术语是出于描述而非限制性目的，使得本说明书的术语或措辞将由技术人员鉴于教导和指导来解释。

本发明的广度和范围不应当受限于任何上文描述的示例性实施例，而是应当仅根据以下权利要求及其等效物来限定。

Claims

1.一种用于保护虚拟会议的私人音频的计算机实施的方法，其特征在于，所述方法包括：

(a)接收从讲话用户的设备的麦克风捕获的音频流，所述麦克风被定位成捕获所述讲话用户的语音；

(b)从所述讲话用户的虚拟相机的视角，渲染包括多个虚拟形象的三维虚拟空间以向所述讲话用户显示，其中多个用户中的每个用户由所述多个虚拟形象中的一个相应虚拟形象表示；

对于所述多个用户中的每个用户：

(c)基于所述相应虚拟形象在所述三维虚拟空间中相对于所述虚拟相机在所述三维虚拟空间中的位置的位置来确定音量；

(d)基于所述音量是否超过阈值量来确定所述用户是否能够听到所述讲话用户的声音；以及

(e)阻止向所述多个用户中的在(d)中确定的不能听到所述讲话用户的声音的每个用户的设备传输所述音频流。

2.根据权利要求1所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(f)生成所述多个用户中的在(d)中确定的能够听到所述讲话用户的声音的每个用户的列表；以及

(g)将在(f)中生成的列表和所述音频流传输到服务器，其中所述服务器选择性地将所述音频流传输到在(f)中生成的用户列表中的用户的设备。

3.根据权利要求1所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(f)向所述多个用户中的在(d)中确定的不能听到所述讲话用户的声音的每个用户的所述设备传输所述音频流的消音版本。

4.根据权利要求1所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(f)接收所述多个用户中的至少一个用户在所述三维虚拟空间中的位置和方向信息；

(g)接收从所述至少一个用户的设备的相机捕获的视频流，所述相机被定位成捕获所述至少一个用户的摄影图像；

(h)将所述视频流纹理映射到所述至少一个用户的虚拟形象的三维模型上；以及

(i)基于所述至少一个用户的所述位置和方向信息，从所述讲话用户的所述虚拟相机的视角渲染所述三维虚拟空间以向所述讲话用户显示，所述三维虚拟空间包括位于一个位置处并在一个方向上定向的所述虚拟形象的纹理映射的三维模型。

5.根据权利要求1所述的计算机实施的方法，其特征在于，在网络浏览器上下载的应用程序在(b)中渲染所述三维虚拟空间。

6.根据权利要求1所述的计算机实施的方法，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域包括墙壁传输因子和距离传输因子。

7.根据权利要求6所述的计算机实施的方法，其特征在于，基于以下项目中的一项或多项在(c)中确定所述音量：

i)所述虚拟相机与所述相应虚拟形象之间的距离，以及所述虚拟相机与所述相应虚拟形象之间的所有区域的墙壁传输因子；或者

ii)所述虚拟相机与所述相应虚拟形象之间的所有区域的距离传输因子。

8.一种非暂时性有形计算机可读设备，其特征在于，所述非暂时性有形计算机可读设备上存储有指令，所述指令在由至少一个计算设备执行时使所述至少一个计算设备执行用于保护虚拟会议的私人音频的操作，所述操作包括：

对于所述多个用户中的每个用户：

(d)基于所述音量是否超过阈值量来确定用户是否能够听到所述讲话用户的声音；以及

9.根据权利要求8所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

10.根据权利要求8所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

11.根据权利要求8所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

12.根据权利要求8所述的非暂时性有形计算机可读设备，其特征在于，在网络浏览器上下载的网络应用程序在(b)中渲染所述三维虚拟空间。

13.根据权利要求8所述的非暂时性有形计算机可读设备，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域包括墙壁传输因子和距离传输因子。

14.根据权利要求13所述的非暂时性有形计算机可读设备，其特征在于，基于以下项目中的一项或多项在(c)中确定所述音量：

15.一种用于保护虚拟会议的私人音频的系统，其特征在于，所述系统包括：

存储器；

处理器，所述处理器耦接到所述存储器，所述处理器被配置成：

(b)从所述讲话用户的虚拟相机的视角，使用在网络浏览器上下载的网络应用程序渲染包括多个虚拟形象的三维虚拟空间以向所述讲话用户显示，其中多个用户中的每个用户由所述多个虚拟形象中的一个相应虚拟形象表示；

对于所述多个用户中的每个用户：

(d)基于所述音量是否超过阈值量来确定所述用户是否能够听到所述讲话用户的声音；并且

16.根据权利要求15所述的系统，其特征在于，所述处理器被进一步配置成：

(f)生成所述多个用户中的在(d)中确定的能够听到所述讲话用户的声音的每个用户的列表；并且

17.根据权利要求15所述的系统，其特征在于，所述处理器被进一步配置成：

(h)将所述视频流纹理映射到所述至少一个用户的虚拟形象的三维模型上；并且

(i)基于所述至少一个用户的所述位置和方向信息，使用在所述网络浏览器上下载的所述网络应用程序从所述讲话用户的所述虚拟相机的视角渲染所述三维虚拟空间以向所述讲话用户显示，所述三维虚拟空间包括位于一个位置处并在一个方向上定向的所述虚拟形象的纹理映射的三维模型。

18.根据权利要求15所述的系统，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域包括墙壁传输因子和距离传输因子，并且

其中，基于以下项目中的一项或多项在(c)中确定所述音量：

19.一种用于保护虚拟会议的私人音频的计算机实施的方法，其特征在于，所述方法包括：

对于所述多个用户中的每个用户：

(c)基于与所述用户相关联的信息来确定所述用户是否能够听到所述讲话用户的声音；以及

(d)阻止向所述多个用户中的在(c)中确定的不能听到所述讲话用户的声音的每个用户的设备传输所述音频流。

20.根据权利要求19所述的计算机实施的方法，其特征在于，在(c)中基于与所述用户相关联的所述信息来确定所述用户能够听到所述讲话用户的声音表示：

所述用户在能够听到所述讲话用户的声音的预定用户组中；

所述用户具有预定用户角色；或者

所述用户具有预定安全凭证。

21.根据权利要求19所述的计算机实施的方法，其特征在于，在(c)中基于与所述用户相关联的所述信息来确定所述用户不能听到所述讲话用户的声音表示所述讲话用户主动阻截所述用户接收所述音频流。

22.一种用于在虚拟会议中便于了解谁能够听到音频的计算机实施的方法，其特征在于，所述方法包括：

(a)从讲话用户的虚拟相机的视角，渲染包括多个虚拟形象的三维虚拟空间以向所述讲话用户显示，其中多个用户中的每个用户由所述多个虚拟形象中的一个相应虚拟形象表示；

对于所述多个用户中的每个用户：

(b)基于所述相应虚拟形象在所述三维虚拟空间中相对于所述虚拟相机在所述三维虚拟空间中的位置的位置来确定音量；

(c)基于所述音量是否超过阈值量来确定用户是否能够听到所述讲话用户的声音；以及

(d)输出可视通知以向所述讲话用户显示，其中所述可视通知表示在(c)中确定的能够听到所述讲话用户的声音的用户列表。

23.根据权利要求22所述的计算机实施的方法，其特征在于，所述可视通知包括在(c)中确定的能够听到所述讲话用户的声音的所述用户列表的用户的总计数。

24.根据权利要求22所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(e)接收所述多个用户中的至少一个用户在所述三维虚拟空间中的位置和方向信息；

(f)接收从所述至少一个用户的设备的相机捕获的视频流，所述相机被定位成捕获所述至少一个用户的摄影图像；

(g)将所述视频流纹理映射到所述至少一个用户的虚拟形象的三维模型上；以及

(h)基于所述至少一个用户的所述位置和方向信息，从所述讲话用户的所述虚拟相机的视角渲染所述三维虚拟空间以向所述讲话用户显示，所述三维虚拟空间包括位于一个位置处并在一个方向上定向的所述虚拟形象的纹理映射的三维模型。

25.根据权利要求22所述的计算机实施的方法，其特征在于，在网络浏览器上下载的应用程序在(a)中渲染所述三维虚拟空间。

26.根据权利要求22所述的计算机实施的方法，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域包括墙壁传输因子和距离传输因子。

27.根据权利要求26所述的计算机实施的方法，其特征在于，基于以下项目中的一项或多项在(b)中确定所述音量：

28.根据权利要求22所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(e)基于新用户的新音量超过所述阈值量来确定所述新用户是否能够听到所述讲话用户的声音；以及

(f)在所述可视通知中添加关于所述新用户的信息。

29.根据权利要求22所述的计算机实施的方法，其特征在于，所述方法进一步包括：

(e)确定与所述多个用户中的至少一个用户相关联的至少一个音量已经下降到低于所述阈值量；以及

(f)对所述可视通知更新关于所述至少一个用户的信息。

30.一种非暂时性有形计算机可读设备，其特征在于，所述非暂时性有形计算机可读设备上存储有指令，所述指令在由至少一个计算设备执行时使所述至少一个计算设备执行用于在虚拟会议中便于了解谁能够听到音频的操作，所述操作包括：

对于所述多个用户中的每个用户：

31.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，所述可视通知包括在(c)中确定的能够听到所述讲话用户的声音的所述用户列表的用户的总计数。

32.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

33.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，在网络浏览器上下载的应用程序在(a)中渲染所述三维虚拟空间。

34.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域包括墙壁传输因子和距离传输因子。

35.根据权利要求34所述的非暂时性有形计算机可读设备，其特征在于，基于以下项目中的一项或多项在(b)中确定所述音量：

36.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

(f)在所述可视通知中添加关于所述新用户的信息。

37.根据权利要求30所述的非暂时性有形计算机可读设备，其特征在于，所述操作进一步包括：

(f)对所述可视通知更新关于所述至少一个用户的信息。

38.一种用于在虚拟会议中便于了解谁能够听到音频的系统，其特征在于，所述系统包括：

存储器；以及

对于所述多个用户中的每个用户：

(c)基于相应音量是否超过阈值量来确定用户是否能够听到所述讲话用户的声音；并且

39.根据权利要求38所述的系统，其特征在于，所述处理器被进一步配置成：

(g)将所述视频流纹理映射到所述至少一个用户的虚拟形象的三维模型上；并且

40.根据权利要求38所述的系统，其特征在于，在网络浏览器上下载的应用程序在(a)中渲染所述三维虚拟空间。

41.根据权利要求38所述的系统，其特征在于，所述三维虚拟空间被分割成多个区域，并且所述多个区域中的每个区域具有墙壁传输因子和距离传输因子，并且

其中，基于以下项目中的一项或多项在(b)中确定所述音量：

42.一种用于在虚拟会议中便于了解谁能够听到音频的计算机实施的方法，其特征在于，所述方法包括：

对于所述多个用户中的每个用户：

(b)基于与用户相关联的信息来确定所述用户是否能够听到所述讲话用户的声音；以及

(c)输出可视通知以向所述讲话用户显示，其中所述可视通知表示在(b)中确定的能够听到所述讲话用户的声音的用户列表。

43.根据权利要求42所述的计算机实施的方法，其特征在于，在(b)中基于与所述用户相关联的所述信息来确定所述用户能够听到所述讲话用户的声音表示：

所述用户在能够听到所述讲话用户的声音的预定用户组中；

所述用户具有预定用户角色；或者

所述用户具有预定安全凭证。

44.根据权利要求42所述的计算机实施的方法，其特征在于，在(b)中基于与所述用户相关联的所述信息来确定所述用户不能听到所述讲话用户的声音表示所述讲话用户主动阻截所述用户接收所述音频。