CN117616723A

CN117616723A - 用户可配置的基于空间音频的会议系统

Info

Publication number: CN117616723A
Application number: CN202280048266.6A
Authority: CN
Inventors: 伊莎贝尔·特维斯; 玛丽亚·费尔南德斯·瓜哈多
Original assignee: Meta Platforms Inc
Current assignee: Meta Platforms Inc
Priority date: 2021-07-06
Filing date: 2022-07-06
Publication date: 2024-02-27
Also published as: EP4367846A1; US20230008964A1; WO2023283257A1

Abstract

客户端设备接收虚拟会议的至少一个参与者子集的布置。客户端设备还接收虚拟会议的该参与者子集中的每个参与者的音频流。对于该参与者子集中的每个参与者，客户端设备至少部分地基于所接收到的布置来确定位置，并且基于所确定的位置来对所接收到的参与者的音频流进行调制。客户端设备通过将该多个参与者中的各个参与者的调制音频流进行组合，来生成组合调制音频流，并播放该组合调制音频流。

Description

用户可配置的基于空间音频的会议系统

技术领域

本公开涉及虚拟会议，并且尤其涉及用于提供虚拟会议的装置、系统和方法。

背景技术

随着虚拟会议中参与者数量的增加，收听者识别正在讲话的参与者变得更加困难。例如，收听者可能不熟悉虚拟会议中每个参与者的声音，或者收听者可能无法区分两个或更多个参与者的声音。在基于视频的会议系统中，可以提供谁正在讲话的视觉指示器，然而，这对于仅语音的会议系统而言可能是不可用的。此外，随着同时讲话的参与者数量的增加，在基于视频的会议系统中使用视觉指示器可能会变得不切实际或无效。此外，在一些情况下(例如，在基于仅音频的会议系统中)，对于收听者来说，看着屏幕以获得哪个参与者当前正在讲话的标识可能是不方便或不期望的。因此，提供一种允许收听者识别哪个参与者当前正在虚拟会议中讲话的非视觉机制将是有益的。

发明内容

虚拟会议系统通过以使参与者感知到音频是源自预定位置的方式输出参与者的音频，来向收听者提供当前正在发言的参与者的指示。然后，收听者能够基于感知到的音频来源来确定哪个参与者正在讲话。客户端设备接收虚拟会议的至少一个参与者子集的布置。客户端设备还接收该虚拟会议的该参与者子集中的每个参与者的音频流。对于该参与者子集中的每个参与者，客户端设备至少部分地基于所接收到的布置来确定位置，并且基于所确定的位置、对所接收到的参与者的音频流进行调制。客户端设备通过将该多个参与者中的各个参与者的调制音频流进行组合来生成组合调制音频流，并播放该组合调制音频流。

根据本发明的第一方面，提供了一种方法，该方法包括：加入虚拟会议，该虚拟会议具有多个参与者；接收该虚拟会议的至少一个参与者子集的布置；接收该虚拟会议的该参与者子集中的每个参与者的音频流；对于该参与者子集中的每个参与者：基于所接收到的布置来确定该参与者的位置，并且基于所确定的该参与者的位置来对所接收到的该参与者的音频流进行调制；通过将该参与者子集中的多个参与者中的各个参与者的调制音频流进行组合，来生成组合调制音频流；以及播放该组合调制音频流。

在一些实施例中，该参与者的位置还可以基于用于确定收听者姿态的一个或多个传感器的传感器数据来确定。

在一些实施例中，该一个或多个传感器可以嵌入在头戴式显示器中。

在一些实施例中，该一个或多个传感器可以嵌入在头戴式耳机或耳塞式耳机中的一者中。

在一些实施例中，所接收到的该音频流可以是使用头部相关传递函数来进行调制的。

在一些实施例中，接收虚拟会议的至少一个参与者子集的布置可以包括：接收该参与者子集中的每个参与者在图形用户界面内的位置。

在一些实施例中，该图形用户界面可以以以下中的一者来布置该多个参与者：网格、圆圈、曲线段和三维布置。

在一些实施例中，接收虚拟会议的至少一个参与者子集的布置可以包括：接收该虚拟会议的该参与者子集中的每个参与者的分类；以及基于所接收到的该多个参与者中的每个参与者的分类，来确定该参与者的布置。

在一些实施例中，该参与者子集可以包括具有第一分类的第一参与者和具有第二定位的第二参与者，并且其中，确定该多个参与者中的每个参与者的布置包括：为该第一用户分配与该第一分类相关联的第一区域内的第一位置，以及为该第二用户分配与该第二分类相关联的第二区域内的第二位置，该第二区域不同于该第一区域。

在一些实施例中，该方法还可以包括：接收该虚拟会议的第二参与者子集中的每个参与者的音频流；将该第二参与者子集中的多个参与者中的各个参与者的音频流进行组合，以生成该第二参与者子集的组合音频流；通过基于与该第二参与者子集相关联的位置，对该第二参与者子集的组合音频流进行调制，来生成该第二参与者子集的调制音频流；以及将组合调制音频流与该第二参与者子集的调制音频流进行组合。

根据本公开的另一个方面，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质被配置为存储指令，所述指令在被处理器执行时使该处理器：加入虚拟会议，该虚拟会议具有多个参与者；接收该虚拟会议的至少一个参与者子集的布置；接收该虚拟会议的参与者子集中的每个参与者的音频流；对于该参与者子集中的每个参与者：基于所接收到的布置来确定该参与者的位置，并且基于所确定的该参与者的位置、对接收到的该参与者的音频流进行调制；通过将该参与者子集中的多个参与者中各个参与者的调制音频流进行组合，来生成组合调制音频流；以及播放该组合调制音频流。

在一些实施例中，用于接收虚拟会议的至少一个参与者子集的布置的指令可以使该过程：接收该参与者子集中的每个参与者在图形用户界面内的位置。

在一些实施例中，用于接收虚拟会议的至少一个参与者子集的布置的指令可以使该过程：接收该虚拟会议的该参与者子集中的每个参与者的分类；以及基于所接收到的该多个参与者中的每个参与者的分类，来确定该参与者的布置。

在一些实施例中，该参与者子集可以包括具有第一分类的第一参与者和具有第二定位的第二参与者，并且其中，用于确定该多个参与者中的每个参与者的布置的指令使该过程：为该第一用户分配与该第一分类相关联的第一区域内的第一位置，以及为该第二用户分配与该第二分类相关联的第二区域内的第二位置，该第二区域不同于该第一区域。

在一些实施例中，所述指令该可以使处理器：接收该虚拟会议的第二参与者子集中的每个参与者的音频流；将该第二参与者子集中的多个参与者中的各个参与者的音频流进行组合，以生成该第二参与者子集的组合音频流；通过基于与该第二参与者子集相关联的位置、对该第二参与者子集的组合音频流进行调制，来生成该第二参与者子集的调制音频流；以及将组合调制音频流与该第二参与者子集的调制音频流进行组合。

将理解的是，本文中被描述为适合于结合到本公开的一个或多个方面或实施例中的任何特征旨在在本公开的任何和所有的方面和实施例中具有普遍性。本领域技术人员可以根据本公开的说明书、权利要求书和附图理解本公开的其它方面。上述总体描述和以下详细描述仅是示例性和说明性的，且不对权利要求进行限制。

附图说明

图1示出了根据一个或多个实施例的使用在线系统的虚拟在场视频会议的示意图。

图2是根据一个或多个实施例的在线系统在其中运行的系统环境的框图。

图3是根据一个或多个实施例的在线系统的框图。

图4是根据一个或多个实施例的客户端设备210的框图。

图5A示出了根据一个或多个实施例的用于配置基于空间音频的语音会议的示意图。

图5B示出了显示图5A的基于空间音频的语音会议配置的音频输出的示意图。

图6A示出了根据一个或多个实施例的用于配置基于空间音频的语音会议的示意图。

图6B示出了显示图6A的基于空间音频的语音会议配置的音频输出的示意图。

图7A示出了根据一个或多个实施例的用于配置参与者被分成多个组的基于空间音频的语音会议的示意图。

图7B示出了显示图7A的基于空间音频的语音会议配置的音频输出的示意图。

图8示出了根据一个或多个实施例的用于对会议中的各个参与者的音频进行调制的示意图。

图9A示出了根据一个或多个实施例的用于配置多个参与者具有单个位置的基于空间音频的语音会议的示意图。

图9B示出了显示图9A的基于空间音频的语音会议配置的音频输出的示意图。

图10A示出了根据一个或多个实施例的用于配置多个参与者具有单个位置的基于空间音频的语音会议的示意图。

图10B示出了显示图10A的基于空间音频的语音会议配置的音频输出的示意图。

图11示出了根据一个或多个实施例的用于对多个用户被分配到单个位置的会议的各个参与者的音频进行调制的示意图。

图12示出了根据一个或多个实施例的用于为基于空间音频的语音会议输出音频的流程图。

图13A和图13B示出了根据一个或多个实施例的用于确定会议中被锁定在真实空间中的参与者的位置的框图。

图14A和图14B示出了根据一个或多个实施例的用于确定会议中被锁定在虚拟空间中的参与者的位置的框图。

各附图仅出于说明的目的而描绘了各个实施例。本领域技术人员将从以下论述中容易地认识到，在不脱离本文所描述的原理的情况下，可以采用本文所示出的结构和方法的替代实施例。

具体实施方式

概述

图1示出了根据一个或多个实施例的视频会议的用户界面。在图1的示例中，显示了八个用户。然而，任意数量的用户可以连接到虚拟会议并通过客户端设备显示。一旦客户端设备连接到虚拟会议，该客户端设备就开始(例如，使用集成摄像头)采集视频和(例如，使用集成传声器)采集音频，并向连接到该虚拟会议的其他用户的客户端设备发送所采集到的视频和音频。在一些实施例中，每个客户端设备向集中式在线系统(例如，通信系统)发送所采集到的视频和音频。

此外，一旦客户端设备连接到虚拟会议，该客户端设备就开始接收由连接到该虚拟会议的其他用户的客户端设备采集的视频数据和音频数据。在一些实施例中，客户端设备从通信系统接收连接到虚拟会议的其他用户的视频和音频，而不是直接从连接到虚拟会议的其他用户的各个客户端设备接收该视频和音频。

系统架构

图2是在线系统240的系统环境200的框图。图2所示的系统环境200包括一个或多个客户端设备210、网络220、一个或多个第三方系统230、以及在线系统240。在替代配置中，系统环境200中可以包括不同的部件和/或附加的部件。例如，在线系统240是社交网络系统、内容共享网络或向用户提供内容的另一系统。

每个用户使用客户端设备220连接到会议。在一些实施例中，为了连接到会议，客户端设备220向在线系统240发送请求，并且在线系统240促进连接到会议的多个用户中各个用户之间的通信。例如，每个用户的客户端设备220使用集成摄像头和集成传声器采集视频数据和音频数据，并向在线系统240发送所采集到的视频数据和音频数据。然后，在线系统240向连接到会议室的其他用户转发该视频数据和音频数据。

客户端设备210是能够接收用户输入、以及经由网络220发送和/或接收数据的一个或多个计算设备。在一个实施例中，客户端设备210是传统的计算机系统，例如台式计算机或膝上型计算机。替代地，客户端设备210可以是具有计算机功能的设备，例如个人数字助理(personal digital assistant，PDA)、移动电话、智能手机或另一合适的设备。客户端设备210被配置为经由网络220通信。在一个实施例中，客户端设备210执行允许客户端设备210的用户与在线系统240交互的应用。例如，客户端设备210执行浏览器应用，以实现客户端设备210与在线系统240之间经由网络220的交互。在另一实施例中，客户端设备210通过在客户端设备210的本地操作系统(例如，或ANDROID^TM)上运行的应用编程接口(application programming interface，API)来与在线系统240交互。

客户端设备210被配置为使用有线通信系统和/或无线通信系统、经由网络220来进行通信，该网络可以包括局域网和/或广域网的任意组合。在一个实施例中，网络220使用标准通信技术和/或协议。例如，网络220包括使用如下技术的通信链路：所述技术例如为以太网、802.11、全球微波接入互操作性(worldwide interoperability for microwaveaccess，WiMAX)、第3代移动通信技术(3G)、第4代移动通信技术(4G)、码分多址(codedivision multiple access，CDMA)、数字用户线路(digital subscriber line，DSL)等。用于经由网络220通信的网络协议的示例包括：多协议标签交换(multiprotocol labelswitching，MPLS)、传输控制协议/网际协议(transmission control protocol/Internetprotocol，TCP/IP)、超文本传输协议(hypertext transport protocol，HTTP)、简单邮件传输协议(simple mail transfer protocol，SMTP)、以及文件传输协议(file transferprotocol，FTP)。通过网络220交换的数据可以使用任何合适的格式来表示，这些格式例如为超文本标记语言(hypertext markup language，HTML)或可扩展标记语言(extensiblemarkup language，XML)。在一些实施例中，可以使用任何合适的一种或多种技术对网络220的所有通信链路或一些通信链路进行加密。

一个或多个第三方系统230可以耦接到网络220，以用于与在线系统240通信，以下结合图3对其进行进一步描述。在一个实施例中，第三方系统230是如下的应用提供者：该应用提供者传送描述由客户端设备210执行的应用的信息，或者向客户端设备210传送数据以供在该客户端设备上执行的应用使用。在其它实施例中，第三方系统230提供经由客户端设备210呈现的内容或其它信息。第三方系统230还可以向在线系统240传送信息，例如广告、内容或关于由第三方系统230提供的应用的信息。

在线系统240促进各客户端设备210之间通过网络220的通信。例如，当请求语音通话或视频通话时，在线系统240可以促进各客户端设备210之间的连接。另外，在线系统240可以控制客户端设备210对通过网络220可用的各种外部应用或服务的访问。在一实施例中，当有软件或固件的新版本可用时，在线系统240可以向客户端设备210提供更新。在其它实施例中，以下所描述的归属于客户端设备210的各种功能可以替代地全部或部分地在在线系统240上执行。例如，在一些实施例中，各种处理任务或存储任务可以从客户端设备210卸载，而替代为在在线系统240上执行。

图3是在线系统240的架构的框图。图3中示出的在线系统240包括用户资料存储库305、内容存储库310、动作日志记录器315、动作日志320、边存储库325和网页服务器390。在其它实施例中，在线系统240可以包括用于各种应用的附加的部件、更少的部件或不同的部件。没有示出诸如网络接口、安全功能、负载均衡器、故障转移服务器、以及管理和网络操作控制台等传统部件，以免模糊系统架构的细节。

在线系统240的每个用户与存储在用户资料存储库305中的一用户资料相关联。用户资料包括由用户明确共享的关于用户的说明性信息，并且还可以包括由在线系统240推断的资料信息。在一个实施例中，用户资料包括多个数据字段，每个数据字段描述相应在线系统用户的一个或多个属性。存储在用户资料中的信息的示例包括：传记、人口统计和其它类型的描述性信息，例如工作经验、教育历史、性别、爱好或偏好、以及位置等。用户资料还可以存储由用户提供的其它信息，例如图像或视频。在某些实施例中，用户的图像可以用标识图像中所显示的在线系统用户的信息来标记，标识其中用户被标记的图像的信息存储在用户的用户资料中。用户资料存储库305中的用户资料还可以维护对如下动作的引用：所述动作由相应用户在内容存储库310中的内容项上执行并存储在动作日志320中。

尽管用户资料存储库305中的用户资料通常与个体相关联，允许多个个体经由在线系统240彼此交互，但是还可以为实体(例如企业或组织)存储用户资料。这允许实体在在线系统240上建立存在，以用于与其他在线系统用户连接和交换内容。该实体可以使用与该实体的用户资料相关联的品牌页面来向在线系统240的用户发布关于其自身、关于其产品的信息或提供其它信息。在线系统240的其他用户可以连接到该品牌页面以接收发布到该品牌页面的信息或从该品牌页面接收信息。与品牌页面相关联的用户资料可以包括关于实体本身的信息，从而向用户提供关于该实体的背景或信息数据。

内容存储库310存储多个对象，每个对象表示不同类型的内容。由对象表示的内容的示例包括：页面帖子、状态更新、照片、视频、链接、共享内容项、游戏应用成就、本地企业的登记事件、品牌页面或任何其它类型的内容。在线系统用户可以创建由内容存储库310存储的对象，例如状态更新、由用户标记为与在线系统240中的其它对象相关联的照片、事件、群组或应用。在一些实施例中，对象是从第三方应用或与在线系统240分开的第三方应用接收的。在一个实施例中，内容存储库310中的对象表示单个内容片段，或内容“项”。因此，鼓励在线系统用户通过经由各种通信通道将各种类型的媒体的文本和内容项发布到在线系统240来彼此通信。这增加了各用户彼此之间的交互量，并增加了用户在在线系统240内交互的频率。

动作日志记录器315接收关于在线系统240内部和/或外部的用户动作的通信，在动作日志320中填入关于用户动作的信息。动作的示例包括：添加到另一用户的连接、向另一用户发送消息、上传图像、读取来自另一用户的消息、查看与另一用户相关联的内容、以及参加由另一用户发布的事件。另外，多个动作可能涉及一对象以及一个或多个特定用户，因此这些动作也与特定用户相关联，并存储在动作日志320中。

动作日志320可以由在线系统240用于追踪在线系统240上的用户动作，以及第三方系统230上向在线系统240传送信息的动作。用户可以与在线系统240上的各种对象交互，并且在动作日志320中存储描述了这些交互的信息。与对象的交互的示例包括：评论帖子、共享链接、经由客户端设备210登记到物理位置、访问内容项以及任何其它合适的交互。包括在动作日志320中的、与在线系统240上的对象的交互的附加示例包括：评论相册、与用户通信、建立与对象的连接、加入事件、加入群组、创建事件、授权应用、使用应用、表达对对象的偏好(“喜欢”对象)、以及参与交易。另外，动作日志320可以记录用户与在线系统240上的广告以及与在在线系统240上运行的其它应用的交互。在一些实施例中，使用来自动作日志320的数据来推断用户的兴趣或偏好，以增强用户的用户资料中所包括的兴趣，并允许更完整地理解用户偏好。

动作日志320还可以存储在第三方系统230(例如，外部网站)上采取并被传送到在线系统240的用户动作。例如，电子商务网站可以通过使电子商务网站能够识别在线系统240的用户的社交插件来识别在线系统240的用户。因为在线系统240的用户是唯一可识别的，所以(例如在前面的示例中的)电子商务网站可以将关于用户在在线系统240外部的动作的信息传送到在线系统240，以与用户相关联。因此，动作日志320可以记录关于用户在第三方系统230上执行的动作的信息，这些信息包括网页查看历史、参与的广告、进行的购买以及来自购物和购买的其它模式。另外，用户经由一应用(该应用与第三方系统230相关联的、且在客户端设备210上执行)执行的动作可以由该应用传送到动作记录器315，以便在动作日志320中记录并与用户相关联。

在一个实施例中，边存储库325将描述了在线系统240上的用户与其它对象之间的连接的信息存储为边。一些边可以由用户定义，从而允许用户指定其与其他用户的关系。例如，用户可以生成与其他用户的边，所述边与用户的现实生活关系(例如，朋友、同事、和伙伴等)相似。当用户与在线系统240中的对象交互(例如，对在线系统240上的页面表现出兴趣、与在线系统240的其他用户共享链接、以及评论由在线系统240的其他用户发表的帖子)时，生成其它边。边可以连接作为社交网络中的联系人的两个用户，或者可以连接用户与系统中的对象。在一个实施例中，各节点和边形成这样的连接的复杂社交网络：所述连接指示各用户如何彼此关联或连接(例如，一个用户接受来自另一用户的成为社交网络中的联系人的朋友请求)以及用户因其以某种方式与对象交互(例如，“喜欢”页面对象、加入事件对象或群组对象等)而如何连接到该对象。各对象还可以基于对象之间的关联或它们之间具有某种交互而彼此连接。

边可以包括各种特征，每个特征表示用户之间的交互的特性、用户与对象之间的交互的特性、或对象之间的交互的特性。例如，包括在边中的特征描述了两个用户之间的交互率、两个用户彼此交互的最近程度、一个用户检索到的关于对象的信息的速率或量、或用户发布的关于对象的评论的数量和类型。这些特征还可以表示描述了特定对象或特定用户的信息。例如，特征可以表示用户对特定主题的兴趣程度、用户登录到在线系统240的速率、或描述关于用户的人口统计信息的信息。每个特征可以与源对象或源用户、目标对象或目标用户、以及特征值相关联。特征可以被指定为基于如下值的表达式：所述值描述了源对象或源用户、目标对象或目标用户、或者源对象或源用户与目标对象或目标用户之间的交互；因此，可以将边表示为一个或多个特征表达式。

边存储库325还存储有关于边的信息，例如对象、兴趣和其他用户的亲和度分数。可以由在线系统240随时间推移来计算亲和度分数(或“亲和度”)，以基于用户执行的动作来近似用户对在线系统240中的对象或另一用户的兴趣。可以由在线系统240随时间推移来计算用户的亲和度，以基于用户执行的动作来近似用户对在线系统240中的对象、主题或另一用户的兴趣。在以下专利申请中对亲和度的计算进行了进一步描述：于2010年12月23日提交的、第12/978,265号美国专利申请；于2012年11月30日提交的、第13/690,254号美国专利申请；于2012年11月30日提交的、第13/689,969号美国专利申请；以及于2012年11月30日提交的、第13/690,088号美国专利申请，这些专利申请中的每个专利申请旨在通过引用全部结合与此。在一个实施例中，用户与特定对象之间的多次交互可以作为单条边存储在边存储库325中。替代地，用户与特定对象之间的每次交互都存储为单独的边。在一些实施例中，用户之间的连接可以存储在用户资料存储库305中，或者用户资料存储库305可以访问边存储库325，以确定用户之间的连接。

网页服务器390通过网络220将在线系统240链接到一个或多个客户端设备210，以及链接到一个或多个第三方系统230。网页服务器390提供网页以及其它内容，例如和XML等。网页服务器390可以接收消息并在在线系统240与客户端设备210之间路由消息，这些消息例如为即时消息、排队消息(例如，电子邮件)、文本消息、短消息服务(short message service，SMS)消息或使用任何其它合适的消息收发技术发送的消息。用户可以向网页服务器390发送对存储在内容存储库310中的信息(例如，图像或视频)进行上传的请求。另外，网页服务器390可以提供应用编程接口(API)功能，以将数据直接发送到本地客户端设备操作系统，例如/>ANDROID^TM或黑莓OS(BlackberryOS)。

图4是根据一实施例的客户端设备210的框图。客户端设备210包括一个或多个用户输入设备422、传声器子系统424、摄像头子系统426、网络接口428、处理器430、存储介质450、显示子系统460和音频子系统470。在其它实施例中，客户端设备210可以包括附加的部件、更少的部件或不同的部件。

用户输入设备422包括使用户能够与客户端设备210交互的硬件。用户输入设备422例如可以包括：触摸屏界面、游戏控制器、键盘、鼠标、控制杆、语音命令控制器、手势识别控制器、远程控制接收器、或其它输入设备。在一实施例中，用户输入设备422可以包括远程控制设备，该远程控制设备在物理上与用户输入设备422分开、并与远程控制器接收器(例如，红外(infrared，IR)接收器或其它无线接收器)交互，该远程控制器接收器可以与客户端设备210集成在一起或以其它方式连接到该客户端设备。在一些实施例中，显示子系统460与用户输入设备422集成在一起，例如集成在触摸屏界面中。在其它实施例中，用户输入设备422可以包括连接到外部电视的端口(例如，高清多媒体接口(HDMI)端口)，该端口使得能够响应于用户与电视的输入设备的交互而从电视接收用户输入。例如，电视可以基于其接收到的用户输入，经由消费电子控制(Consumer Electronics Control，CEC)协议向客户端设备210发送用户输入命令。

传声器子系统424包括一个或多个传声器(或与外部传声器的连接)，该一个或多个传声器通过将声音转换成电信号来采集环境音频信号，所述电信号可由客户端设备210的其它部件存储或处理。可以在音频通话/视频通话期间、或音频消息/视频消息中向客户端设备210发送所采集到的音频信号。另外，可以对所采集到的音频信号进行处理，以识别用于控制客户端设备210的功能的语音命令。在一实施例中，传声器子系统424包括一个或多个集成传声器。替代地，传声器子系统424可以包括外部传声器，该外部传声器经由通信链路(例如，网络220或其它直接通信链路)耦接到客户端设备210。传声器子系统424可以包括单个传声器或传声器阵列。在传声器阵列的情况下，传声器子系统424可以处理来自多个传声器的音频信号，以生成一个或多个经波束成形的音频通道，每个经波束成形的音频通道与一特定方向(或方向范围)相关联。

摄像头子系统426包括采集图像信号和/或视频信号的一个或多个摄像头(或与一个或多个外部摄像头的连接)。可以在视频通话期间或在多媒体消息中将所采集到的图像或视频发送到其它客户端设备210或发送到在线系统240，或者可以由客户端设备210的其它部件对所采集到的图像或视频进行存储或处理。此外，在一实施例中，可以对来自摄像头子系统426的图像或视频进行处理，以用于面部检测、面部识别、手势识别、或用于可用于控制客户端设备210的功能的其它信息。在一实施例中，摄像头子系统426包括用于采集周围环境的宽视场、全景视场或球面视场的一个或多个广角摄像头。摄像头子系统426可以包括整合处理，以将来自多个摄像头的图像拼接在一起、或者以执行图像处理功能(例如，缩放、平移、去扭曲或其它功能)。在一实施例中，摄像头子系统426可以包括定位成采集立体图像(例如，三维图像)的多个摄像头，或者可以包括深度摄像头以采集所采集到的图像或视频中的像素的深度值。

网络接口428促进客户端设备210连接到网络220。例如，网络接口428可以包括以下软件和/或硬件：所述软件和/或硬件促进与一个或多个客户端设备210进行语音、视频和/或其它数据信号通信，以实现语音通话和视频通话、或在客户端设备210上执行的各种应用的其它操作。网络接口428可以根据使其能够通过网络220通信的任何传统的有线通信协议或无线通信协议来运行。

显示子系统460包括电子设备、或到用于呈现图像或视频内容的电子设备的接口。例如，显示子系统460可以包括发光二极管(LED)显示面板、液晶显示器(LCD)显示面板、投影仪、虚拟现实头戴式设备(headset)、增强现实头戴式设备、另一类型的显示设备、或用于连接到上述显示设备中的任何显示设备的接口。在一实施例中，显示子系统460包括与客户端设备210的其它部件集成在一起的显示器。替代地，显示子系统460包括使在线系统240耦接到外部显示设备(例如，电视)的一个或多个端口(例如，HDMI端口)。

音频输出子系统470包括一个或多个扬声器或用于耦接到一个或多个外部扬声器的接口，该一个或多个外部扬声器基于所接收到的音频信号生成环境音频。在一实施例中，音频输出子系统470包括与客户端设备210的其它部件集成在一起的一个或多个扬声器。替代地，音频输出子系统470包括用于将客户端设备210与一个或多个外部扬声器(例如，专用扬声器系统、头戴式耳机或耳塞式耳机、或者电视)耦接的接口(例如，HDMI接口、光学接口或诸如蓝牙(Bluetooth)等无线接口)。音频输出子系统470可以以多个通道输出音频，以生成经波束成形的音频信号，所述经波束成形的音频信号向收听者提供与该音频相关联的方向性感知。例如，音频输出子系统可以生成作为立体音频输出的音频输出，或者生成作为诸如2.1、3.1、5.1、7.1或其它标准配置等多通道音频输出的音频输出。

在客户端设备210耦接到外部媒体设备(例如，电视)的实施例中，客户端设备210可能缺少集成的显示器和/或集成的扬声器，并且可以替代地仅传送用于经由外部媒体设备的显示器和扬声器系统输出的音频数据/视觉数据。

处理器430结合存储介质450(例如，非暂态计算机可读存储介质)运行，以执行属于本文所描述的客户端设备210的各种功能。例如，存储介质450可以存储有一个或多个模块或应用(例如，用户界面452、通信模块454、用户应用456)，该一个或多个模块或应用体现为可由处理器430执行的多个指令。这些指令在被处理器执行时，使处理器430执行属于本文所描述的各种模块或应用的功能。在一实施例中，处理器430可以包括单处理器系统或多处理器系统。

在一实施例中，存储介质450包括用户界面模块452、通信模块454和用户应用456。在替代实施例中，存储介质450可以包括不同的部件或附加的部件。

用户界面模块452包括视觉要素和/或音频要素和控件，所述视觉要素和/或音频要素和控件用于实现与客户端设备210的用户交互。例如，用户界面模块452可以接收来自用户输入设备422的输入，以使用户能够选择客户端设备210的各种功能。在示例实施例中，用户界面模块452包括通话界面，该通话界面用于使客户端设备210能够通过网络220拨打或接听语音通话和/或视频通话。为了进行通话，用户界面模块452可以提供这种控件：所述控件使用户能够选择一个或多个联系人来进行通话、能够发起通话、能够在通话期间控制各种功能、以及能够结束通话。为了接听通话，用户界面模块452可以提供这种控件：所述控件使用户能够接听来电、能够在通话期间控制各种功能、以及能够结束通话。对于视频通话，用户界面模块452可以包括视频通话界面，该视频通话界面显示来自客户端设备210的远程视频以及各种控制要素，这些控制要素例如为音量控件、结束通话控件、或与如何显示所接收到的视频或如何输出所接收到的音频相关的各种控件。

用户界面模块452还可以使用户能够访问用户应用456、或能够控制客户端设备210的各种设置。在一实施例中，用户界面模块452可以根据用户偏好实现对用户界面的自定义。这里，用户界面模块452可以存储有针对客户端设备210的不同用户的不同偏好，并且可以根据当前用户来调整设置。

通信模块454促进客户端设备210与客户端设备210进行语音通话和/或视频通话的通信。例如，通信模块454可以维护联系人的目录，并且响应于来自用户界面模块452的发起通话的命令而促进与这些联系人的连接。此外，通信模块454可以接收来电指示，并与用户界面模块452交互以促进接听该来电。通信模块454还可以在通话期间对传入和传出的语音信号和/或视频信号进行处理，以维持可靠的连接并促进各种通话中(in-call)的功能。

通信模块454包括音频混合模块482和视频模块484。音频混合模块482接收多个音频馈送(各个音频馈送对应于与客户端设备210连接的不同用户)并对该多个音频馈送进行组合以生成输出音频流。然后，将该输出音频流发送到音频输出子系统470以用于播放。视频模块484接收多个视频馈送(各个视频馈送对应于与客户端设备210连接的不同用户)并对该多个视频馈送进行组合以生成输出视频流。然后，将该输出视频流发送到显示子系统460以用于显示。在一些实施例中，音频混合模块482或视频模块484的一些功能由其它部件(例如，在线系统240)执行。

用户应用456包括如下的一个或多个应用：该一个或多个应用可被用户经由用户界面模块452访问，以促进客户端设备210的各种功能。例如，用户应用456可以包括用于浏览互联网上的网页的网页浏览器、用于查看图像的图片查看器、用于播放视频文件或音频文件的媒体播放系统、用于响应于用户请求而执行各种任务或服务的智能虚拟助理、或用于执行各种功能的其它应用。在一实施例中，用户应用456包括社交网络应用，该社交网络应用实现了对客户端设备210与用户的社交网络账户的整合。这里，例如，客户端设备210可以获得来自用户的社交网络账户的各种信息，以促进更个性化的用户体验。此外，客户端设备210可以使用户能够通过查看或创建帖子、访问馈送、与朋友交互等来与社交网络直接交互。另外，基于用户偏好，社交网络应用可以促进对用户感兴趣的、与社交网络上的活动相关的各种警告或通知进行检索。在一实施例中，用户可以添加或移除应用456，以自定义客户端设备210的运行。

基于空间音频的语音会议

图5A示出了根据一个或多个实施例的用于配置基于空间音频的语音会议的示意图。图5B示出了显示图5A的基于空间音频的语音会议配置的音频输出的示意图。尽管以下描述是使用语音会议来呈现的，但是该描述也适用于除了提供参与者的音频馈送之外还提供其视频馈送的视频会议。

用户对语音会议的多个参与者进行布置，以配置将向该用户呈现与这些参与者相关联的音频的方向。例如，图5A的布置显示了以半圆形图案布置的七个用户。向用户呈现用户界面(user interface，UI)，该UI允许用户将会议的多个参与者放置在预定区域内。用户可能能够在该预定的周围移动表示该多个参与者中的每个参与者的图标。替代地，用户界面可以提供用户能够分配给参与者的预定位置。

尽管图5A和图5B的示例显示了多个参与者的二维布置，但是UI可以允许用户以三维布置来布置多个参与者。也就是说，UI允许用户将多个参与者放置在不同的高度。在一些实施例中，UI允许用户将多个参与者放置在三维空间内的任何位置。替代地，UI提供三维空间内、可分配给语音会议的一个或多个参与者的预定位置。

客户端设备210基于会议的多个参与者的布置，以使用户感知到与该多个参与者中的每个参与者相对应的音频是源自分配给该参与者的位置的方式，来(例如，使用两个或更多个音频通道)输出音频。例如，对于图5A中所示的配置，与参与者P1相对应的音频(例如，由参与者P1的客户端设备采集到的音频)由客户端设备210的音频输出子系统470以将使用户感知到该音频是源自用户左方的方式输出，与参与者P4相对应的音频由客户端设备210的音频输出子系统470以将使用户感知到该音频是源自用户正前方的方式输出，而与参与者P7相对应的音频由客户端设备210的音频输出子系统470以将使用户感知到该音频是源自用户右方的方式输出。

在一些实施例中，对与每个参与者相对应的音频进行调制，以向收听该调制音频的用户提供与各个参与者相对应的音频是源自一特定位置的感知。例如，基于分配给每个参与者的位置，使用头部相关传递函数(head-related transfer function，HRTF)来对与该参与者相对应的音频进行调制。与每个参与者相对应的音频可以是单通道音频(单声道声音)，并且可以通过改变输出音频信号的各通道中的每个通道的单声道声音的幅度和相位，来将该单声道声音转换为具有两个或更多个通道的输出音频信号。

图6A示出了根据另一实施例的用于配置基于空间音频的语音会议的示意图。图6B示出了显示图6A的基于空间音频的语音会议配置的音频输出的示意图。在图6A的实施例中，以一网格来布置多个参与者。基于该多个参与者中的每个参与者的布置，为该多个参与者中的每个参与者确定三维空间中的一位置，并且基于所确定的位置对与该多个参与者中的每个参与者相对应的音频进行调制。例如，如图6B所示，基于由用户提供的布置，为每个参与者分配半圆内的一位置。替代地，可以以直线、圆圈、曲线段或任何其它合适的配置来布置多个参与者。在一些实施例中，以三维配置来布置多个参与者(例如，包括分配给第一高度的第一参与者子集和分配给第二高度的第二参与者子集)。

图7A示出了根据一个或多个实施例的用于配置参与者被分成多个组的基于空间音频的语音会议的示意图。图7B示出了显示图7A的基于空间音频的语音会议配置的音频输出的示意图。在图7A的实施例中，将多个参与者分成多个组。例如，将多个参与者分成主持人组、嘉宾组和听众组。然后，为每个组分配一区域，相应的参与者可以放置在该区域中。然后，可以向用户提供在参与者的相应区域内移动参与者的能力，或者可以为各参与者自动分配在其相应区域内的位置。然后，基于分配给每个参与者的位置来对与该参与者相对应的音频进行调制，以使用户感知到与每个参与者相对应的音频是源自其被分配的位置。

图8示出了根据一个或多个实施例的用于对会议中的每个参与者的音频进行调制的示意图。对于正在提供音频的每个参与者(例如，未被静音的参与者)，确定该参与者的位置815(参与者P1的位置815A、参与者P2的位置815B、参与者PN的位置815N)。至少基于由客户端设备的用户提供的多个参与者的布置来确定参与者的位置。在一些实施例中，还基于用户的位置或姿态来确定参与者的位置。例如，当用户的头部移动或转动时，相对于该用户的头部的位置和转动来确定参与者的位置。

使用HRTF 830并基于所确定的参与者的位置，对参与者的音频数据(参与者P1的音频数据810A、参与者P2的音频数据810B、参与者PN的音频数据810N)进行调制。在一些实施例中，HRTF 830生成多个音频输出通道(每个音频输出通道与输出音频信号的一音频通道对应)。在一些实施例中，HRTF 830的音频输出通道的数量是基于客户端设备210的音频输出子系统470的配置的。例如，如果音频输出子系统470使用立体声头戴式设备来输出音频，则HRTF 830生成具有两个音频输出通道的输出。替代地，如果音频输出子系统470使用5.1扬声器系统，则HRTF 830生成具有六个音频输出通道的输出。

将各个参与者的HRTF 830的输出进行组合以生成组合音频输出。将第一参与者的HRTF 830的第一音频输出通道与其他参与者的HRTF 830的第一音频输出通道进行组合。类似地，将第一参与者的HRTF 830的第二音频输出通道与其他参与者的HRTF 830的第二音频输出通道进行组合。然后，向音频输出子系统470提供组合音频输出(例如，以驱动一对扬声器向客户端设备的用户提供音频信号)。

图9A示出了根据一个或多个实施例的用于配置多个参与者具有单个位置的基于空间音频的语音会议的示意图。图9B示出了显示图9A的基于空间音频的语音会议配置的音频输出的示意图。在图9A的实施例中，将多个参与者分成多个组。例如，将多个参与者分成主持人组、嘉宾组和听众组。在该实施例中，至少一个组中的多个参与者被分配到同一位置。例如，如图9B所示，分配到听众组的多个参与者被分配到单个位置。这样，与听众组中的各参与者相对应的音频被组合在一起并被调制，使得用户感知到听众组中的各参与者的组合音频是源自单个位置。

图10A示出了根据另一实施例的用于配置多个参与者具有单个位置的基于空间音频的语音会议的示意图。图10B示出了显示图10A的基于空间音频的语音会议配置的音频输出的示意图。在图10A的示例中，分配到听众组的多个参与者被分配到用户后方的一位置。因此，如图10B所示，与听众组中的各参与者相对应的音频被组合在一起并被调制，使得用户感知到听众组中的各参与者的组合音频是源自用户后方。

图11示出了根据一个或多个实施例的用于对多个用户被分配到单个位置的会议的每个参与者的音频进行调制的示意图。对于正在提供音频810(参与者P1的音频数据810A、参与者P2的音频数据810B)的每个参与者(例如，未被静音的参与者)，确定该参与者的位置815(参与者P1的位置815A、参与者P2的位置815B)。在图11的示例中，分配到听众组的多个参与者被分配到单个位置1115(听众位置1115N)。这里，将听众组中的各个用户的音频数据1120(听众1的音频数据1120A、听众M的音频数据1120M)进行组合，以生成组音频数据1125。然后，基于分配给该组的位置，使用HRTF 830来对组音频数据1125进行调制。

将用于组音频数据1125的HRTF 830的输出与用于会议中的其他参与者的HRTF830的输出进行组合。也就是说，将用于组音频数据1125的HRTF 830的第一音频输出通道与用于第一参与者(例如，主持人)、第二参与者(例如，第一嘉宾)等的HRTF 830的第一音频输出通道进行组合。类似地，将用于组音频数据1125的HRTF 830的第二音频输出通道与用于第一参与者、第二参与者等的HRTF 830的第二音频输出通道进行组合。然后，向音频输出子系统470提供组合音频输出(例如，以驱动一对扬声器向客户端设备的用户提供音频信号)。

图12示出了根据一个或多个实施例的用于为基于空间音频的语音会议输出音频的流程图。接收1210虚拟会议的多个参与者的布置。例如，客户端设备的用户(收听者)可以在与基于空间音频的语音会议相关联的用户界面中对虚拟会议的多个参与者进行布置。例如，收听者可以将一个或多个感兴趣的人布置在虚拟空间内的一特定位置。在一些实施例中，向收听者提供多个参与者的初始布置，并向收听者提供重新布置该多个参与者的能力。在一些实施例中，相对于收听者在虚拟空间中的位置来接收多个参与者的布置。例如，该布置指定一个人位于收听者在虚拟空间中的位置的正前方或收听者在虚拟空间中的位置的左方。在一些实施例中，由在线系统240向客户端设备210提供用户界面。替代地，用户界面是安装在客户端设备210中的会议应用的一部分。

在一些实施例中，可以动态调整多个参与者的布置。随着虚拟会议的进行，收听者可以改变虚拟会议的一个或多个参与者的布置。在虚拟会议期间，收听者可以移动一个或多个参与者在虚拟空间内的位置。例如，当参与者离开虚拟会议或新的参与者加入虚拟会议时，或者当虚拟会议的主题改变时，收听者可以重新布置各参与者，从而改变一个或多个参与者的角色或重要性。

当虚拟会议正在进行时，由客户端设备210接收1220来自一个或多个参与者的音频。也就是说，每个参与者(或未被静音的参与者)的客户端设备210的传声器子系统424采集该参与者的客户端设备210周围环境的音频，将所采集到的音频编码成音频数据流，并向收听者的客户端设备210提供该音频数据流。在一些实施例中，每个参与者的客户端设备210将音频数据流发送到在线系统240，并且在线系统240向该虚拟会议的其他参与者发送所接收到的与虚拟会议的参与者相对应的音频数据流。替代地，参与者的客户端设备210直接向其他参与者的客户端设备210发送音频数据流。

对于其音频数据被接收的每个参与者，确定1230相应的位置。在一些实施例中，基于虚拟空间来确定每个参与者的位置。虚拟空间对应于收听者的姿态或对应于音频输出子系统470的布置，并且可以随着用户的姿态或音频输出子系统的布置的改变而相对于真实空间改变。例如，当音频输出子系统470使用与用户头部一起移动的一对头戴式耳机来输出音频时，虚拟空间对应于收听者头部的位置和方位。

至少部分地基于从收听者的客户端设备接收到的多个参与者的布置来确定参与者的位置。例如，为其音频数据被接收的每个参与者确定相对于虚拟空间的原点的一组坐标(例如，笛卡尔坐标或极坐标)。

在一些实施例中，参与者的位置还基于收听者头部的方位来确定。在该实施例中，参与者的位置被锁定在真实空间中，并且虚拟空间中用于确定每个参与者的该一组坐标的原点基于收听者头部的方位而相对于真实空间改变。图13A和图13B示出了根据一个或多个实施例的用于确定会议中被锁定在真实空间中的参与者的位置的框图。

如图13A和图13B所示，随着收听者的姿态改变(例如，用户头部的方位改变)，用于确定每个参与者的位置的原点1330也相应地改变。在图13B的示意图中，与图13B中的收听者的姿态相比，收听者的姿态向右转动。然而，随着收听者的姿态改变，参与者P1至P4相对于真实空间1310的位置保持锁定。这样，参与者P1至P4相对于虚拟空间1320的位置改变。在该实施例中，为了更新参与者相对于虚拟空间1320的位置，使用一组传感器(例如嵌入在一组头戴式耳机或头戴式显示器中的传感器)来追踪收听者的姿态。

在其它实施例中，确定参与者的位置与收听者头部的位置或方位无关。在该实施例中，参与者的位置被锁定到虚拟空间。图14A和图14B示出了根据一个或多个实施例的用于确定会议中被锁定在虚拟空间中的参与者的位置的框图。如图13A和图13B所示，随着虚拟空间1420相对于真实空间1410改变(例如，由于收听者的姿态改变)，会议的多个参与者的位置也相应地改变。这样，参与者P1至P4相对于虚拟空间1420的位置不会随着收听者的姿态的改变而改变。

在一些实施例中，基于音频输出子系统470的类型来配置对会议的各参与者的位置的确定。例如，如果音频输出子系统470是包括惯性测量单元(inertial measurementunit，IMU)的头戴式设备，则基于由收听者提供的各参与者的布置、以及基于头戴式设备的IMU的输出而确定的收听者头部的方位，来确定会议的各参与者的位置。替代地，如果音频输出子系统470是一对立体声扬声器，则基于由收听者提供的各参与者的布置来确定会议的各参与者的位置，而不考虑收听者头部的方位。

在其它实施例中，收听者能够选择是否基于收听者的头部的方位来确定会议的各参与者的位置。例如，如果收听者在步行或在开车时加入会议，则收听者可能更想将各参与者的位置锁定在静态虚拟空间中。这样，当收听者移动时，各参与者的位置不会相对于该收听者而移动。换句话说，被分配到收听者左方位置的参与者将被感知为具有源自该收听者左方的音频，而不管该收听者已经移动了多少。类似地，被分配到收听者右方位置的参与者将被感知为具有源自该收听者右方的音频，而不管该收听者已经移动了多少。

相反地，如果收听者正坐在办公桌前加入会议，则收听者可能更想将各参与者的位置锁定在真实空间中(例如，锁定在房间中的适当位置)。这样，当收听者的头部移动或转动时，对各参与者相对于基于收听者头部的位置而设置的原点的位置进行更新，以提供各参与者被锁定在收听者所在房间中的特定位置的感知。

返回参照图12，对多个参与者中的每个参与者的音频数据进行调制1240。使用HRTF并基于所确定的参与者的位置来对参与者的音频数据进行调制。在一些实施例中，用户特定的HRTF用于对每个参与者的音频数据进行调制。例如，每个用户具有本地存储在客户端设备中或与用户的用户资料一起存储在在线系统240中的HRTF。

将各个参与者的调制音频数据进行组合1250，然后提供给音频输出子系统470以用于播放。具体地，对于音频输出子系统470的每个音频通道，将各个参与者对应的调制音频数据进行组合1250并使用音频输出子系统470的对应扬声器来播放1260。

总结

已经出于说明的目的而呈现了实施例的前述描述；前述描述不旨在是详尽的、或者不旨在将专利权限制于所公开的精确形式。相关领域的技术人员可以理解的是，考虑到上述公开内容，许多修改和变型是可能的。

本说明书的一些部分描述了对信息的操作的算法表示和符号表示方面的多个实施例。数据处理领域的技术人员通常使用这些算法描述和表示，来向本领域的其他技术人员有效地传达他们工作的实质。尽管在功能上、计算上或逻辑上对这些操作进行了描述，但这些操作被理解为通过计算机程序或等效电路、或微代码等来实现。此外，在不失一般性的情况下，有时将这些操作的布置称为模块也被证明是方便的。所描述的操作及其相关联的模块可以以软件、固件、硬件或它们的任意组合来体现。

本文所描述的多个步骤、多个操作或多个过程中的任何步骤、操作或过程可以用一个或多个硬件或软件模块单独地或与其它设备组合地执行或实现。在一个实施例中，软件模块用包括计算机可读介质的计算机程序产品来实现，该计算机可读介质包括计算机程序代码，该计算机程序代码可以由计算机处理器执行以用于执行所描述的多个步骤、多个操作或多个过程中的任何或全部步骤、操作或过程。

各实施例还可以涉及用于执行本文中的操作的装置。该装置可以出于所需目的而专门构造，和/或该装置可以包括通用计算设备，该通用计算设备由存储在计算机中的计算机程序选择性地激活或重新配置。这样的计算机程序可以存储在非暂态有形的计算机可读存储介质、或适合于存储电子指令的任何类型的介质中，上述介质可以耦接到计算机系统总线。此外，在本发明中提及的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以用于增加的计算能力的架构。

各实施例还可以涉及一种由本文所描述的计算过程产生的产品。这样的产品可以包括从计算过程得到的信息，其中，该信息存储在非暂态有形计算机可读存储介质上，并且可以包括本文所描述的计算机程序产品或其它数据组合的任何实施例。

最后，本发明中所使用的语言主要是出于可读性和指导性目的而选择的，并且该语言可能不是为了界定或限制专利权而选择的。因此，专利权的范围不旨在受本具体实施方式的限制，而是由基于本文的申请所公布的任何权利要求来限制的。因此，各实施例的公开旨在对专利权的范围进行说明而非限制，在以下权利要求书中对专利权的范围进行了阐述。

Claims

1.一种方法，包括：

加入虚拟会议，所述虚拟会议具有多个参与者；

接收所述虚拟会议的至少一个参与者子集的布置；

接收所述虚拟会议的所述参与者子集中的每个参与者的音频流；

对于所述参与者子集中的每个参与者：

基于所接收到的所述布置来确定所述参与者的位置，并且

基于所确定的所述参与者的位置，对所接收到的所述参与者的所述音频流进行调制；

通过将所述参与者子集中的多个参与者中的各个参与者的调制音频流进行组合，来生成组合调制音频流；以及

播放所述组合调制音频流。

2.根据权利要求1所述的方法，其中，所述参与者的位置还基于用于确定收听者姿态的一个或多个传感器的传感器数据来确定。

3.根据权利要求2所述的方法，其中，所述一个或多个传感器嵌入在头戴式显示器中。

4.根据权利要求2或3所述的方法，其中，所述一个或多个传感器嵌入在头戴式耳机或耳塞式耳机中的一者中。

5.根据前述权利要求中任一项所述的方法，其中，所接收到的所述音频流是使用头部相关传递函数来进行调制的。

6.根据前述权利要求中任一项所述的方法，其中，接收虚拟会议的至少一个参与者子集的布置包括：

接收所述参与者子集中的每个参与者在图形用户界面内的位置；并且优选地

其中，所述图形用户界面以以下中的一者来布置所述多个参与者：网格、圆圈、曲线段和三维布置。

7.根据前述权利要求中任一项所述的方法，其中，接收虚拟会议的至少一个参与者子集的布置包括：

接收所述虚拟会议的所述参与者子集中的每个参与者的分类；以及

基于所接收到的所述多个参与者中每个参与者的所述分类，来确定所述参与者的布置。

8.根据权利要求7所述的方法，其中，所述参与者子集包括具有第一分类的第一参与者和具有第二定位的第二参与者，并且其中，确定所述多个参与者中的每个参与者的布置包括：

为所述第一用户分配与所述第一分类相关联的第一区域内的第一位置，以及

为所述第二用户分配与所述第二分类相关联的第二区域内的第二位置，所述第二区域不同于所述第一区域。

9.根据前述权利要求中任一项所述的方法，还包括：

接收所述虚拟会议的第二参与者子集中的每个参与者的音频流；

将所述第二参与者子集中的多个参与者中的各个参与者的所述音频流进行组合，以生成所述第二参与者子集的组合音频流；

通过基于与所述第二参与者子集相关联的位置、对所述第二参与者子集的所述组合音频流进行调制，来生成所述第二参与者子集的调制音频流；以及

将所述组合调制音频流与所述第二参与者子集的所述调制音频流进行组合。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质被配置为存储指令，所述指令在被处理器执行时使所述处理器：

加入虚拟会议，所述虚拟会议具有多个参与者；

接收所述虚拟会议的至少一个参与者子集的布置；

对于所述参与者子集中的每个参与者：

基于所接收到的所述布置来确定所述参与者的位置，并且

播放所述组合调制音频流。

11.根据权利要求10所述的非暂态计算机可读存储介质，其中，所述参与者的位置还基于用于确定收听者姿态的一个或多个传感器的传感器数据来确定；并且优选地

其中，所述一个或多个传感器嵌入在以下中的一者或多者中：头戴式显示器；头戴式耳机；或耳塞式耳机。

12.根据权利要求10或11所述的非暂态计算机可读存储介质，其中，所接收到的所述音频流是使用头部相关传递函数来进行调制的。

13.根据权利要求10、11或12所述的非暂态计算机可读存储介质，其中，用于接收虚拟会议的至少一个参与者子集的布置的指令使所述过程：

14.根据权利要求10至13中任一项所述的非暂态计算机可读存储介质，其中，用于接收虚拟会议的至少一个参与者子集的布置的指令使所述过程：

基于所接收到的所述多个参与者中的每个参与者的所述分类，来确定所述参与者的布置；并且优选地

其中，所述参与者子集包括具有第一分类的第一参与者和具有第二定位的第二参与者，并且其中，用于确定所述多个参与者中的每个参与者的布置的指令使所述过程：

15.根据权利要求10至14中任一项所述的非暂态计算机可读存储介质，其中，所述指令还使所述处理器：

接收所述虚拟会议的所述第二参与者子集中的每个参与者的音频流；