CN112400158B

CN112400158B - 音频装置、音频分配系统和操作其的方法

Info

Publication number: CN112400158B
Application number: CN201980046011.4A
Authority: CN
Inventors: C·韦雷坎普; J·G·H·科庞; B·克龙; N·苏维拉-拉巴斯蒂; A·W·J·欧门
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-07-09
Filing date: 2019-07-02
Publication date: 2024-05-14
Anticipated expiration: 2039-07-02
Also published as: JP7354225B2; BR112021000163A2; MX2021000136A; US11656839B2; CN112400158A; US20230251819A1; US20220137916A1; EP3821333A1; EP3594802A1; WO2020011588A1; JP2021524612A

Abstract

一种分配系统包括音频服务器(101)，所述音频服务器用于从远程客户端(103)接收传入的音频，并且用于将从传入的音频导出的音频传输到所述远程客户端(103)。一种音频装置包括音频接收器(401)，所述音频接收器接收包括以下内容的数据：针对多个音频分量的音频数据，其表示来自所述多个远程客户端中的远程客户端的音频；以及针对至少一个音频分量的接近度数据。所述接近度数据指示远程客户端之间的接近度。所述的生成器(403)响应于接近度数据而从所述音频分量生成音频混合。例如，可以从该远程客户端的音频混合中排除指示为在所述远程客户端的邻近的音频分量。

Description

音频装置、音频分配系统和操作其的方法

技术领域

本发明涉及一种音频装置、音频分配系统及针对其的方法，并且特别地但非排他地涉及使用其来支持增强/虚拟现实会议应用。

背景技术

近年来，基于视听内容的体验的多样性和范围已大大增加，其中，不断开发和引入利用和消费这种内容的新的服务以及方式。尤其是，正在开发许多空间和交互式服务、应用和体验，以为用户提供更多参与和沉浸式体验。

此类应用的示例包括迅速成为主流的虚拟现实(VR)和增强现实(AR)应用，其中有许多针对消费者市场的解决方案。许多标准化机构也正在开发许多标准。此类标准化活动正在积极开发VR/AR系统各个方面的准则，包括流、广播、呈现等。

VR应用倾向于提供与处于不同世界/环境/场景中的用户相对应的用户体验，而AR(包括混合现实MR)应用倾向于提供与当前环境中的用户相对应的用户体验，但是被添加有额外信息或虚拟对象或信息。因此，VR应用倾向于提供完全沉浸式的人工合成的世界/场景，而AR应用倾向于提供部分人工合成的世界/场景，所述场景/场景与用户实际身处的真实场景相叠加。但是，这些术语通常可以互换使用，并且具有高度的交叠。在下文中，术语虚拟现实/VR将用于表示虚拟现实和增强现实两者。

例如，一种越来越流行的服务是提供图像和音频，使得用户能够主动和动态地与系统交互以改变呈现的参数，从而使其适应用户的位置和取向的运动和变化。在许多应用中，一个非常吸引人的功能是能够更改观看者的有效观看位置和观看方向的能力，例如允许观看者在呈现的场景中移动并“环顾四周”。

这样的特征可以具体地允许将虚拟现实体验提供给用户。这可以允许用户在虚拟环境中(相对)自由地移动，并动态地改变其位置和他所看的位置。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态评估以提供特定的请求视图。从例如用于计算机和控制台的第一人称射击游戏类别的游戏应用中，这种方法是众所周知的。

尤其对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，通常优选的是，用户将呈现的场景体验为三维场景。实际上，虚拟现实体验应该优选地允许用户选择相对于虚拟世界的他/她自己的位置、相机视点以及时间。

通常，虚拟现实应用固有地受限于基于场景的预定模型，并且通常基于虚拟世界的人工模型。在一些应用中，可以基于真实世界捕获来提供虚拟现实体验。在许多情况下，这种方法倾向于基于从真实世界捕获中构建的真实世界的虚拟模型。然后通过评估该模型来生成虚拟现实体验。

许多当前的方法倾向是次优的，并且倾向于通常具有较高的计算或通信资源要求和/或以例如降低的质量或受限的自由度提供次优的用户体验。

作为应用的示例，虚拟现实眼镜已进入市场，使观看者可以体验捕获的360°(全景)或180°视频。这些360°视频通常是使用摄影机预先捕获的，其中将单幅图像拼贴在一起形成单个球面映射。针对180°或360°视频的常见立体声格式为上/下和左/右。与非全景立体声视频相似，左眼和右眼图片被压缩，例如作为单个H.264视频流的一部分。

除了视觉呈现之外，大多数VR/AR应用还提供相应的音频体验。在许多应用中，音频优选地提供空间音频体验，其中音频源被感知为从对应于视觉场景中的对应对象的位置的位置到达。因此，优选地，音频和视频场景被感知为一致的，并且利用两者提供了完整的空间体验。

对于音频，到目前为止，重点一直是使用双耳音频呈现技术的耳机再现。在许多情况下，耳机再现为用户带来了高度身临其境的个性化体验。使用头部跟踪，可以响应于用户的头部移动来进行呈现，从而极大地增加了沉浸感。

最近，在市场和标准讨论中，都开始提出用例，其涉及VR(和AR)的“社交”或“共享”方面，即与他人共享经验的可能性。这些人可以是位于不同位置的人，也可以是相同位置的人(或者两者的组合)。例如，同一房间中的几个人可能会共享相同的VR体验，其中，VR内容/场景中存在每个参与者的投影(音频和视频)。例如，在有多个人参与的游戏中，每个玩家在游戏场景中的位置可能不同，因此音频和视频场景的投影也不同。

作为一个特定示例，MPEG尝试将比特流和解码器标准化，以用于具有六个自由度的逼真的、沉浸式的AR/VR体验。社交VR是一项重要功能，并且允许用户在共享环境(游戏、电话会议、在线购物等)中进行交互。社交VR的概念还有助于使VR体验在同一位置为用户带来更多的社交活动，但例如在头戴式显示器或其他VR头戴套件中，用户可以感觉到与物理环境的隔离。

社交VR应用的特定示例是会议应用，其中位于不同位置的用户可以与用户共享虚拟“会议室”，例如由化身代表。作为另一示例，可以向每个用户呈现在用户自己的本地环境中虚拟呈现的其他参与者的表示，例如，通过使用AR眼镜将现实世界和与其他用户相对应的化身的叠加，使得化身给出他们在房间中的印象。此外，可以向单个用户提供音频场景，所述音频场景包括来自所有其他参与者的相关音频，并且在适当的感知音频源位置处对该音频进行空间呈现。执行该音频和视频呈现，以使给定参与者的视觉和音频位置彼此对应。

为了提供最佳体验，期望音频和视频感知紧密对齐，特别是对于AR应用，希望与真实世界场景进一步对齐。但是，这通常难以实现，因为可能存在许多可能影响用户感知的问题。例如，在实践中，用户通常将在不能保证完全安静或黑暗的位置使用设备。尽管头戴式设备可能会试图阻挡光线和声音，但这通常只能部分地实现。此外，在AR应用中，用户通常也可以体验本地环境，这是体验的一部分，因此完全屏蔽该环境是不切实际的。

因此，用于生成音频，特别是用于虚拟/增强现实体验/应用(例如，VR/AR会议应用)的音频的改进方法将是有利的。特别地，一种可以改进操作、增加灵活性、降低复杂性、简化实施、改进音频体验、使对音频和视觉场景的感知更加一致、对本地环境中的源的错误敏感性降低方法；改进的虚拟现实体验和/或改进的性能和/或操作将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。

根据本发明的一个方面，提供了一种用于音频分配系统的音频装置，所述音频分配系统包括音频服务器，所述音频服务器用于从多个远程客户端接收传入的音频，并且将从该传入的音频导出的音频传输到多个远程客户端中的至少一些；所述装置包括：用于接收数据的接收器，所述数据包括：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；以及生成器，其用于响应于所述接近度数据而生成所述多个音频分量的音频混合；其中，所述生成器被布置为生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

本发明可以在许多实施例中提供改进的用户体验，并且可以特别地在许多应用中提供改进的音频分配，例如基于AR/VR方法的专用会议应用。该方法可以在用户/参与者例如在同一房间中的情况下提供改进的音频感知。通常可以实现对音频场景的改进的和更自然的感知，并且在许多情况下，可以减轻或减少由共处一地的用户/客户端引起的干扰和不一致性。该方法对于虚拟现实VR(包括增强现实AR)应用可能特别有利。例如，它可以为例如在同一位置存在多个参与者的社交VR/AR应用提供改进的用户体验。

在许多实施例中，所述方法可以提供改进的性能，同时保持较低的复杂性和资源使用率。

接近度数据可以具体地是声学接近度数据。接近度数据可以包括针对远程客户端的集合(通常是对)的接近度指示。针对远程客户端的集合的接近度指示可以指示远程客户端和/或相关联的音频源/用户之间的空间距离，或者可以例如指示远程客户端和/或相关联的音频源/用户之间的声衰减。

音频混合可以是(潜在地)包括来自多个音频分量的贡献的音频信号/声道的集合。

接近度数据可以指示远程客户端之间的真实世界/绝对/物理接近度。接近度数据具体反映真实世界声学环境中远程客户端之间的实际物理接近度。

所述生成器被布置为针对所述多个远程客户端中的第一远程客户端生成第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据来确定针对第二远程客户端的第二音频分量的在第一音频混合中的衰减。

在许多情况下，这可以提供改进的用户体验和/或改进的性能和音频感知。特别地，其可以允许组合的音频感知针对呈现的音频场景与真实世界的音频场景之间的潜在音频干扰的改进的适应性。针对第二远程客户端的第二音频分量的在第一音频混合中的衰减可以响应于所述接近度数据中的接近度指示，所述接近度指示指示第一远程客户端与第二远程客户端之间的接近度/距离。

根据本发明的任选的特征，所述生成器被布置为衰减针对满足第一远程客户端和第二远程客户端的接近度准则的接近度数据的第一音频混合中的第二音频分量。

在许多情况下，这可以提供改进的用户体验和/或改进的性能和音频感知。所述生成器可以被布置为衰减针对指示第一远程客户端与第二远程客户端之间的距离量度低于阈值的接近度数据的第二音频分量。衰减可以是无限的。具体地，所述生成器可以被布置为抑制/丢弃/排除针对满足第一远程客户端和第二远程客户端的接近度准则的接近度数据的第二音频分量。

根据本发明的任选的特征，所述音频装置是所述音频服务器的一部分。

在许多实施例中，这可以提供高性能和有效的实现。

根据本发明的任选的特征，所述音频装置是所述多个远程客户端中的远程客户端的部分。

在许多实施例中，这可以提供高性能和有效的实现。

根据本发明的任选的特征，所述接近度数据包括针对至少第一远程客户端和第二远程客户端的标量接近度指示，所述标量接近度指示指示来自第二远程客户端的音频源的到第一远程客户端的捕获元件的声衰减。

在许多实施例中，这可以提供特别有利的操作。在一些实施例中，标量接近度指示可以是指示相应的远程客户端是否在邻近(例如，在同一房间中)的二元接近度指示。

根据本发明的任选的特征，接近度数据包括从第一远程客户端到第二远程客户端与从第二远程客户端到第一远程客户端不同的接近度指示。

这可以在许多情况下提供有利的操作。该方法可以允许并支持非对称接近度指示，例如反映局部声学差异(例如当使用定向麦克风或参与者戴着封闭式耳机时)。

根据本发明的任选的特征，接收器被布置为接收动态地适应于多个远程客户端中的至少一个远程客户端的位置变化的接近度数据。

这可以提供有效的操作，并且可以提供动态地适应用户运动的方法。

根据本发明的一个方面，提供了一种音频分配系统，包括：多个远程客户端；音频服务器，其用于从多个远程客户端接收传入的音频，并将从所述传入的音频导出的音频发送到所述多个远程客户端中的至少一个；其中，所述音频服务器和所述多个远程客户端之一中的至少一个包括：用于接收数据的接收器，所述数据包括：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示远程在真实世界声学环境中客户端之间的物理接近度；生成器，其用于响应于接近度数据而生成所述多个音频分量的音频混合；其中，所述生成器被布置为生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

根据本发明的任选的特征，所述音频分配系统包括接近度检测器，所述接近度检测器被布置为响应于针对第一远程客户端的第一音频分量与针对第二远程客户端的第二音频分量的比较来确定针对第一远程客户端和第二远程客户端的接近度指示；以及发送器，其用于将包括接近度指示的接近度数据发送到接收器。

在许多实施例中，这可以提供特别有利的性能和低复杂度。

根据本发明的任选的特征，所述接近检测器是音频服务器的一部分。

在许多实施例中，这可以提供特别有利的性能和低复杂度。

根据本发明的任选的特征，所述多个远程客户端中的第一远程客户端包括：输入部，其用于生成与由一组麦克风捕获的音频相对应的麦克风信号；接近度检测器，其布置为响应于麦克风信号和从音频服务器接收的音频的比较来确定第一远程客户端的接近度指示；以及发送器，其用于将包括所述接近度指示的声学音频数据发送到音频服务器。

在许多实施例中，这可以提供特别有利的性能和低复杂度。在一些实施例中，所述组麦克风可以包括单个麦克风，或者可以例如包括多个麦克风，例如像用于波束成形/定向捕获的麦克风阵列。

根据本发明的任选的特征，所述发送器被布置为响应于第一接近检测器检测到麦克风信号和从音频服务器接收的音频之间的高相关性，发送指示当前活跃的远程客户端正被确定为在邻近的指示的接近度数据。

在许多实施例中，这可以提供特别有利的性能和低复杂度。

根据本发明的一个方面，提供了一种操作用于音频分配系统的音频装置的方法，所述音频分配系统包括音频服务器，所述音频服务器用于从多个远程客户端接收传入的音频，并且将从该传入的音频导出的音频传输到多个远程客户端中的至少一些；所述方法包括：接收包括以下内容的数据：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；并且响应于接近度数据而生成所述多个音频分量的音频混合；其中，所述生成包括生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例，其中，

图1图示了音频分配系统的示例；

图2图示了音频分配系统的示例；

图3图示了用于音频会议的音频分配系统的示例；

图4图示了根据本发明一些实施例的音频装置的元件的示例；

图5图示了根据本发明一些实施例的音频分配系统的元件的示例；以及

图6示出了根据本发明一些实施例的用于音频分配系统的远程客户端的元件的示例。

具体实施方式

允许用户在虚拟或增强世界中四处移动的虚拟(包括增强)体验正变得越来越流行，并且正在开发满足这些需求的服务。在许多这样的方法中，可以动态地生成视觉和音频数据以反映用户(或观看者)的当前姿态。

在本领域中，术语放置和姿态用作针对位置和/或方向/取向的通用术语。例如对象、相机、头部或视图的位置和方向/取向的组合可以被称为姿态或放置。因此，放置或姿态指示可包括多达六个值/分量/自由度，其中每个值/分量通常描述相应对象的方位/位置或取向/方向的单独属性。当然，在许多情况下，放置或姿态可由较少的分量表示，例如，如果一个或多个分量被认为是固定的或不相关的(例如，如果所有对象都被认为处于相同的高度并具有水平方向，则四个分量可以提供对象姿态的完整表示)。在下文中，术语“姿态”用于表示可以由一到六个值(对应于最大可能的自由度)表示的位置和/或取向。

许多VR应用都是基于具有最大自由度的姿态，即，每个位置和取向的三个自由度导致总共六个自由度。因此，姿态可以由表示六个自由度的六个值的集合或向量表示，因此姿态向量可以提供三维位置和/或三维方向指示。然而，将意识到，在其他实施例中，姿态可以由更少的值表示。

基于为观看者提供最大自由度的系统或实体通常是指具有6个自由度(6DoF)。许多系统和实体仅提供方向或位置，通常将其称为具有3个自由度(3DoF)。

通常，虚拟现实应用以针对左眼和右眼的单独视图图像的形式生成三维输出。然后可以通过合适的方式将这些呈现给用户，例如通常是VR头戴套件的左右眼显示器。在其他实施例中，可以例如在自动立体显示器上呈现一个或多个视图图像，或者实际上在一些实施例中，可以仅生成单个二维图像(例如，使用常规的二维显示器)。

类似地，对于给定的观看者/用户/收听者姿态，可以提供场景的音频表示。通常呈现音频场景以提供空间体验，在该空间体验中，音频源被感知为源自期望的位置。由于音频源在场景中可能是静态的，因此用户姿态的变化将导致音频源相对于用户姿态的相对位置发生变化。因此，音频源的空间感知应该改变以反映相对于用户的新位置。音频呈现可以相应地取决于用户姿态而被适配。

在许多实施例中，音频呈现是使用头部相关传递函数(HRTF)或双耳房间脉冲响应(BRIR)(或类似)的双耳呈现，以为戴着耳机的用户提供期望的空间效果。然而，将意识到，在一些系统中，可以代替地使用扬声器系统来呈现音频，并且针对每个发言者的信号可以被呈现为使得在用户处的总体效果对应于期望的空间体验。

观看者或用户姿态输入可以在不同应用中以不同方式确定。在许多实施例中，可以直接跟踪用户的身体运动。例如，勘测用户区域的摄像机可以检测并跟踪用户的头部(或者甚至是眼睛(眼睛跟踪))。在许多实施例中，用户可以佩戴可以由外部和/或内部装置跟踪的VR耳机。例如，头戴套件可以包括加速度计和陀螺仪，所述加速度计和陀螺仪提供有关头戴套件并且因此头部的运动和旋转的信息。在一些示例中，VR头戴套件可以发送信号或包括(例如视觉)识别符，其使得外部传感器能够确定VR头戴套件的位置。

在一些系统中，观看者姿态可以通过手动方式提供，例如通过用户手动控制操纵杆或类似的手动输入。例如，用户可以通过用一只手控制第一模拟操纵杆来手动在虚拟场景中四处移动虚拟观看者，并通过用另一只手手动移动第二模拟操纵杆来手动控制虚拟观看者的观看方向。

在一些应用中，可以使用手动和自动方法的组合来生成输入查看器姿态。例如，头戴套件可以跟踪头部的取向，并且场景中观看者的移动/位置可以由用户使用操纵杆来控制。

在一些系统中，VR应用可以由例如不使用或者甚至不能访问任何远程VR数据或处理的独立设备本地地提供给观看者。例如，诸如游戏主机的设备可以包括：用于存储场景数据的存储部，用于接收/生成观众姿态的输入部，以及用于从场景数据生成对应图像的处理器。

在其他系统中，VR应用可以在远离观看者的地方实现和执行。例如，用户本地的设备可以检测/接收运动/姿态数据，所述数据被发送到处理该数据以生成观察者姿态的远程设备。然后，远程设备可以基于描述场景的场景数据针对观看者的姿态生成合适的观看图像。然后将观看图像传输到观看者所在的本地设备。例如，远程设备可以直接生成由本地设备直接呈现的视频流(通常是立体声/3D视频流)。类似地，远程设备可以生成反映虚拟音频环境的音频场景。在许多实施例中，这可以通过生成与虚拟音频环境中的不同音频源的相对位置相对应的音频信号来完成，例如通过对与它们相对于头部姿态的当前位置相对应的各个音频分量进行双耳处理。因此，在这样的示例中，除了发送运动数据以及呈现接收到的视频和音频数据之外，本地设备可以不执行任何VR处理。

类似地，远程VR设备可以生成表示音频场景的音频数据，并且可以发送与音频场景中的不同音频源相对应的音频分量/对象以及指示它们的位置的位置信息(例如，可以动态地改变运动对象)。然后，本地VR设备可以例如通过应用反映音频分量的音频源的相对位置的适当双耳处理来适当地呈现这样的信号。

对于音频方面，在一些实施例中，中央服务器可以相应地生成可以由远程客户端设备直接呈现的空间音频混合。例如，中央服务器可以将空间音频生成为多个音频通道，以通过环绕声扬声器设置直接呈现。但是，更常见的是，中央服务器可以通过对要呈现的场景中的所有音频信号进行双耳处理，然后将它们组合成双耳立体声信号来生成混合信号，所述立体声信号可以使用一组耳机直接在客户端侧进行呈现。

在许多应用中，中央服务器可以替代地提供多个音频对象或分量，其中每个音频对象或分量通常对应于单个音频源。然后，客户端可以处理此类对象/分量以生成所需的音频场景。具体地，它可以基于期望的位置对每个音频对象进行双耳处理并组合结果。

在这样的系统中，传输到远程客户端的音频数据可以包括用于多个音频分量或对象的数据。音频可以例如被表示为用于将被呈现的给定音频分量的编码音频。音频数据还可包括指示音频分量的源的位置的位置数据。位置数据可以例如包括绝对位置数据，所述绝对位置数据定义了场景中音频源的位置。在这样的实施例中，本地设备可以确定音频源相对于当前用户姿态的相对位置。因此，所接收的位置数据可以独立于用户的运动，并且可以本地确定音频源的相对位置以反映音频源相对于用户的位置。这样的相对位置可以指示用户应该感知音频源所来自的相对位置，并且其将相应地根据用户的头部移动而变化。在其他实施例中，音频数据可以包括直接描述相对位置的位置数据。

图1图示了VR系统的示例，其中，中央服务器101例如经由诸如因特网的网络105与若干远程客户端103联络。中央服务器101可以被布置为同时支持潜在大量的远程客户端103。

在许多场景，这种方法可以提供改进的折衷，例如在复杂性和针对不同设备的资源需求、通信需求等之间。例如，观看者姿态和对应的场景数据可以以较大的间隔被发送，其中本地设备在本地处理观看者姿态和接收的场景数据以提供实时的低延迟体验。例如，这可以实质上减少所需的通信带宽，同时提供低延迟体验，并且同时允许场景数据被集中存储、生成和维护。例如，它可能适用于将VR体验提供给多个远程设备的应用。

特别吸引人的VR/AR应用是虚拟电话会议应用，其中用户/参与者可能位于不同的位置。这样的应用的示例在图2中图示，图2示出了中央服务器101，其对应于图1的中央服务器，支持多个远程(音频)客户端103。可以看出，所有的远程客户端103直接与中央服务器101通信而不是彼此通信。因此，每个远程客户端103可以将与用于远程客户端103的一个或多个本地音频源相对应的音频分量上传到中央服务器101。中央服务器101可以将音频数据发送到各个远程客户端103，所述音频数据表示来自其他远程客户端103的音频。通常，每个用户或参与者将具有实现远程客户端103的单独设备，但是当然在某些实施例中，远程客户端可以由多个用户/参与者共享。

然而，发明人已经意识到，对于许多这样的实际系统和应用而言，一个问题是本地环境中的音频可能影响用户体验。在实践中，倾向是，在本地环境中完全抑制音频是困难的，并且实际上，即使戴着耳机，通常从本地环境到感知的音频也会产生明显的影响。在一些情况下，可以使用例如主动噪声消除来抑制此类声音。但是，这对于在VR场景中具有直接对应项的音频源不切实际，并且倾向于不完美。

实际上，对于提供还反映本地环境的VR体验(例如许多AR体验)的应用，真实环境声音和音频场景声音之间的干扰问题尤其成问题。

例如，正在寻求包括VR的“社交”或“共享”方面的应用，其中，例如在相同本地环境(例如房间)中的多个人共享共同的体验。这样的“社交”或“共享”用例正在例如在MPEG中提出，并且现在是当前MPEG-1标准活跃的主要经验类别之一。这种应用的一个示例是，几个人在同一个房间内并共享相同的VR体验，并且每个参与者的投影(音频和视频)也都出现在VR内容中。

在这样的应用中，VR环境可以包括与每个参与者相对应的音频源，但是除此之外，例如由于耳机的典型泄漏，用户可以直接听到其他参与者(如果他们存在于本地)。实际上，在许多情况下，参与者可能会故意戴上开放式耳机以听取本地环境。这种干扰可能不利于用户体验，并可能降低参与者的沉浸感。然而，对真实声音分量执行噪声消除非常困难并且在计算上非常昂贵。最典型的噪声消除技术基于耳机内的麦克风以及反馈回路，所述反馈回路使麦克风信号中的任何现实信号分量(可以将麦克风信号视为驱动环路的误差信号)最小化(最好是完全消除)。然而，当期望音频源实际存在于所感知的音频中时，这种方法是不可行的。

发明人已经意识到，对于诸如图2所示的会议系统而言，特别是当不同的用户/参与者在相同的物理位置并且每个用户具有自己的麦克风和与会议服务器的连接时，即当不同的同位置用户使用不同的远程客户端时，音频体验可能劣化。会议服务器可以向每个远程客户端发送唯一的混合，包括来自其他远程客户端的所有传入信号。如果用户在相同的物理位置，他们通常会听见该位置的其他用户的声音(取决于耳机在声学上的开放程度)，而且还会通过他们的耳机听到，因为接收到的音频包括来自其他用户的远程客户端的音频分量。此会议连接上的延迟通常足够大，以致使这种体验非常不愉快。

对于AR/VR来说，这是一个特别显著的问题，因为这增加了视觉分量。如果远程人员加入了AR体验，则也可以例如通过化身在视觉上呈现此人。

即使所有用户都佩戴了足够封闭的耳机以降低用户的外部声音水平(VR的最可能的用例)，仍然存在每个用户的语音中对所有麦克风信号的(直接声学)分量，所述麦克风信号在共同的位置被记录。这可能导致伪迹，因为语音以不同的延迟到达不同的麦克风，并因此混入了其自身的稍微不同的延迟(和更多地衰减的版本)。结果可能是与应用梳状滤波相对应的效果。

因此，本地声源可能会干扰用户对呈现的音频阶段的音频感知以及个体参与者的声音捕获。

尽管会议系统可以通过消除不发言的参与者的麦克风中的噪声或背景声音来消除或减弱具有低水平麦克风信号的用户，从而提高活动语音的清晰度，但这倾向于无法完全解决该问题。例如，如果其他参与者的麦克风以足够高的音量拾取语音，则它们可能不会被静音或衰减，从而导致信噪比降低。

该问题可以通过图3的示例来说明。房间A的场景可能导致当前会议系统中出现严重的伪迹。通过与服务器的两个连接，用户A1的设备播放用户A2的延迟语音，并且反之亦然。

通常，对于在同一房间或至少在彼此附近使用的两个或多个连接，来自会议服务器中每个用户的音频将排除其自己的麦克风信号，但包括来自所有其他用户的音频，其延迟取决于会议编解码器、系统以及用户与服务器之间的连接等。对于典型的会议系统，这些延迟将小于500毫秒。

这种情况有几个缺点：

用户延迟听到自己的语音(延迟的听觉反馈)非常烦人，并且会导致精神压力。

如果用户A1在发言，将对房间中(一个或多个)其他人的语音清晰度产生负面影响，这会增加倾听努力和疲劳感。

如果用户A1正在发言，则房间A中其他用户的客户端发言者的延迟语音也会被用户A1的麦克风拾取，并再次在其他用户的发言者上播放，等等，这可能会导致声学反馈(“振铃”)。

如果用户A1正在发言，则所有其他用户的麦克风也会将其拾取，这可能导致会议系统确定哪个人正在发言(防止系统静音或减弱其他人来管理SNR)的困难，或导致建立问题信号水平。

在下文中，将描述通常可以减轻这种影响和缺点的方法。该方法基于生成和分配指示不同远程客户端之间的声音/空间关系的元数据。例如，可以生成元数据，所述元数据指示哪些(如果有的话)远程客户端位于同一位置，并且具体指示远程客户端是否在同一房间内(例如，可以将远程客户端的位置视为与捕获本地音频的位置相对应，例如捕获本地音频的一个或多个麦克风的位置)。元数据可以被分配到例如中央服务器或(其他)远程客户端，在其中它们可以被用于生成合适的音频(以及潜在地也用于其他目的)。

图4示出了用于音频分配系统的音频装置的示例，所述音频装置包括为多个远程客户端服务的音频服务器，并且所述音频服务器被布置为从远程客户端接收音频并将音频发送到远程客户端。以下描述将集中于VR会议系统形式的音频分配系统，并且将参考诸如图1-3的系统来具体描述。然而，将意识到，一般的方法和原理不限于这样音频会议系统，而是可以应用于许多其他音频分配系统和应用，例如其他社交AR服务。

中央服务器101因此在下文中将被称为音频服务器101。它特别支持音频会议应用，因此可以视为会议服务器。类似地，每个远程客户端103表示会议参与者/用户(或潜在的多个其)，并具有以下功能：捕获/生成表示参与者的声音/音频的音频分量，并将组合的会议音频场景呈现给用户。每个远程客户端可以另外包括用于生成对应的视觉场景的功能，例如，通过生成具有表示其他参与者的化身的完全虚拟场景，或者例如通过生成用于AR头戴套件的视觉覆盖图，来生成相应的视觉场景。生成的音频和视觉场景是一致的，并提供合适会议场景的集成呈现。

通常，每个远程客户端包括至少一个布置为捕获声音的麦克风。远程客户端还被布置为从捕获的麦克风信号生成音频分量，并且该音频分量可以被发送到音频服务器101。

音频服务器101从不同的远程客户端103接收音频分量。音频服务器101然后将音频发送到每个远程客户端103，以反映从其他远程客户端103接收的音频分量。在一些实施例中，音频服务器101可以转发所接收的音频分量，使得远程客户端103从其他远程客户端103接收音频分量。在其他实施例中，音频服务器101可以通过组合用于适当的远程客户端103的音频分量来生成组合的音频混合表示(例如，环绕声信号、双耳信号或单声道信号)。在这样的实施例中，音频服务器101可以为每个远程客户端103生成特定的音频缩混。音频混合可以包括表示来自多个远程客户端103的音频分量的音频信号。

图2的音频装置包括接收器401，所述接收器被布置为接收音频数据和包括接近度数据的相关联的元数据。

接收器401被专门布置为接收多个音频分量，每个音频分量表示来自远程客户端的声音。因此，音频装置接收多个音频分量，其中每个音频分量与从其接收音频分量的远程客户端103相关联。每个音频分量可以具体对应于由远程客户端103的一组麦克风捕获的音频/声音。

另外，接收器401接收针对至少一个音频分量、通常是一些或实际上所有音频分量的接近度数据。接近度数据提供关系数据，所述关系数据提供有关远程客户端103之间的声学/空间关系的信息。

接近度数据具体指示多个远程客户端中的远程客户端之间的接近度。从第一远程客户端到第二远程客户端的接近度指示可以反映来自第一远程客户端(例如，与发言的参与者相关联的位置))的(真实世界)音频源的到与第二远程客户端相关联的位置的声衰减(具体是空气或其他介质中的振动引起的声音传播)。该位置可以特别地是第一远程客户端的麦克风的位置，所述麦克风捕获从其生成第一远程客户端的音频分量的信号，或者可以例如是一个或多个用户(特别是用户的耳朵)的位置。

因此，接近度数据可以具体地是声学接近度数据，并且可以包括用于远程客户端的接近度指示，例如针对成对或一组远程客户端103的接近度指示。

接近度数据/接近度指示可以相应地反映从第一远程客户端的位置到第二远程客户端的位置的声学传递函数/衰减。针对第一远程客户端到第二远程客户端的接近度指示可以反映与第二远程客户端相关联的音频的程度或水平干扰与第一远程客户端相关联的音频。

从第一远程客户端到第二远程客户端的接近度指示可以具体反映在第一远程客户端的音频分量中捕获的来自与第二远程客户端相关联的音频源的音频量。具体地，接近度指示可以反映出第一远程客户端捕获了来自第二远程客户端的发言者/参与者的多少音频。

在许多情况下，接近度数据/指示可以直接对应于空间接近度，并且可以使用术语空间接近度。接近度数据因此可以是指示不同远程客户端的空间接近度的数据。在许多实施例中，接近度数据可以提供关于哪些远程客户端是邻近的并且具体地位于同一地点的信息。如果由一个远程客户端的音频分量表示的音频也可能被另一远程客户端捕获，则可以认为远程客户端位于同一位置/邻近。在一些实施例中，如果远程客户端的位置满足距离准则，例如空间距离小于阈值或远程客户端在同一房间中，则可以认为远程客户端位于同一地点/邻近。在一些实施例中，可以将迟滞内置到阈值中，以避免决策的切换。

接近度数据可以指示远程客户端之间的真实世界的接近度，并且具体地指示远程客户端之间的真实世界的声/声传播接近度。接近度指示可以独立于在音频混合的生成的音频场景中相应音频的期望位置。接近度指示可以独立于虚拟(音频)场景位置。接近度指示/数据可以指示现实世界的空间/声学特性。因此，不是反映要呈现的音频之间某种形式的期望接近度，而是接近度数据反映了远程客户端之间的实际物理接近度和声学环境。接近度数据不反映某种形式的虚构的、理论的、虚拟的或期望的接近度，例如某些非物理的现实，而是反映真实世界(通常是声学)的接近度。

在许多实施例中，接近度指示可以是对称的，即，相同的接近度指示/度量可以应用于从第一远程客户端到第二远程客户端以及从第二远程客户端到第一远程客户端的接近度。然而，在一些实施例中，可以应用非对称接近度指示。例如，对于使用定向麦克风的远程客户端，与第一远程客户端相关联的发言者在第二远程客户端处的衰减可以不同于与第二远程客户端相关联的发言者在第一远程客户端处的衰减。类似地，当接近度数据包括戴着耳机的第一远程客户端的参与者/用户的耳朵位置时，衰减取决于耳机所施加的声衰减，并且可能与第二个远程客户端的参与者/用户的耳朵的衰减不同。

接收器401因此接收接近度数据，所述接近度数据可以表示远程客户端103之间的空间/声学相互关系，并且具体地可以指示哪个远程客户端103位于同一位置/例如在同一房间中。

接收器401耦合到生成器403，生成器403接收音频分量和接近度数据。生成器被布置为响应于接近度数据而生成多个音频分量的音频混合。音频混合可以包括来自不同远程客户端的多个音频分量，这些音频分量被组合成一组信号。信号中的至少一个可以包括来自多个音频分量/远程客户端的音频。

例如，生成器403可以通过将音频分量组合/缩混为声道来产生环绕声缩混或双耳立体声信号。进一步根据接近度数据进行缩混，使得例如音频分量的水平取决于接近度数据。

生成器403可以具体地被布置为通过组合除了由接近度数据所指示的与针对其生成音频的特定远程客户端位置相同的远程客户端的音频分量之外的所有音频分量来针对的特定远程客户端产生音频信号。

在该系统中，包括接近度数据的元数据被包括在音频分配系统的比特流中，指示例如哪些用户/客户端共享物理位置。元数据例如可以用于确定在每个会议参与者处回放哪些信号。例如，为共享一个公共位置的参与者播放的音频信号可能不包括从彼此捕获的信号，而仅包括来自远程用户的捕获信号，而他们的语音被发送给远程用户。这可以例如避免由于会议系统延迟而引起的精神压力、疲劳和音频伪迹，避免声学反馈和/或避免降低SNR。

代替直接排除用于共同位置的用户/远程客户端的音频，生成器403可以替代地提供对其他共同位置用户的音频分量的更渐进的衰减。

因此，在许多实施例中，生成器403可以被布置为为第一远程客户端生成混合，其中，来自第二远程客户端的音频分量的衰减/加权取决于接近度数据是否指示第二远程客户端靠近第一远程客户端。

在一些实施例中，接近度数据可以包括指示第一远程客户端与第二远程客户端之间的距离的标量值。在一些这样的实施例中，生成器403可以被布置为将衰减确定为距离的单调递减函数，使得第二远程客户端离第一远程客户端越近，权重越小/音频分量的衰减越高。如果第二远程客户端非常靠近第一远程客户端，则第一远程客户端可以相应地呈现第二远程客户端的音频被显著衰减的音频场景。这可以反映出在这种情况下，第一远程客户端的用户将能够直接听到第二远程客户端的用户。但是，第二个远程客户端越远，从中呈现的音频声音就越大。

在许多实施例中，这可以提供特别吸引人的性能。例如，在音频会议应用被一组人使用的情况下，其中一些人正在大型音乐厅的音乐会上，可以为音乐厅的各个参与者提供定制的音频呈现，其中，未出席的其他参与者以全音量呈现，而非常接近的参与者以非常低的音量呈现，而音乐厅中但是距离较远的参与者以中等音量呈现。在许多情况下，所述方法可以在本地环境中通过声音传输直接接收的音频与会议应用提供的音频之间提供更好的平衡。

在一些实施例中，如果两个远程客户端的接近度数据满足接近度准则，则生成器403可以衰减音频分量。衰减可以是预定的量，在许多实施例中，所述预定量可以是无限的衰减(对应于音频分量根本没有被呈现或完全不包括在所生成的音频混合中)。

在许多实施例中，接近度准则可以包括两个远程客户端的接近度指示必须指示低于阈值的距离的要求。如果接近度指示满足要求，则生成器403可以继续不选择相应的音频分量以包括在所生成的音频混合中。阈值可以被设置为指示基本不存在相关性的低“安全”值。

该方法通常可以与二元接近度指示一起使用，所述指示指示远程客户端对是否被认为位于同一地点/邻近(例如，在同一房间内)。如果是这样，则在为单个远程客户端生成音频信号时，不包括另一个远程客户端的音频分量。

在一些实施例中，图4的音频装置可以被实现为音频服务器101的一部分。在一些实施例中，可以在音频服务器101中完成将来自多个远程客户端103的音频分量/对象缩混为包括来自多个远程客户端103的音频分量的组合音频混合。在这样的实施例中，远程客户端103将邻近性数据发送到音频服务器101，音频服务器101然后可以使用它来为远程客户端103生成单独的音频混合。音频服务器101可以通过考虑接近度数据来组合/缩混从远程客户端103接收的音频分量，来具体地针对每个远程客户端103生成音频混合。作为特定示例，音频服务器101可以生成包括所有音频分量的缩混，除了接近度数据指示对应的远程客户端与针对其生成音频混合的远程客户端的处于相同位置的音频分量之外的所有音频分量。

在一些实施例中，图4的音频装置可以被实现为远程客户端103之一的一部分，并且实际上所有远程客户端可以包括这样的音频装置。在一些实施例中，可以在远程客户端103中执将来自多个远程客户端103的音频分量/对象缩混为包括来自多个远程客户端103的音频分量的组合音频混合。在这样的实施例中，音频服务器101可以将音频分量和接近度数据两者发送到各个远程客户端103，然后远程客户端103可以本地生成音频混合并将其呈现给用户。在一些这样的实施例中，音频服务器101可以从不同的远程客户端103接收音频分量，并将所有这些音频分量转发到单独的远程客户端103。另外，在一些实施例中，音频服务器101可以从远程客户端103接收接近度数据，并将该接近度数据分配给其他远程客户端103。在其他实施例中，音频服务器101可以从不同的远程客户端103接收音频分量，然后其自身基于音频分量生成接近度数据。个体远程客户端可以例如生成本地缩混，例如包括除了接近度数据指示对应的远程客户端与生成混音的所述远程客户端位于同一位置的那些音频分量之外的所有音频分量的本地缩混。

将理解的是，可以在不同的实施例中使用用于确定接近度数据的不同方法。在许多实施例中，可以通过将不同音频分量彼此进行比较来具体地确定接近度数据。该系统可以包括接近度检测器，其通过将来自两个远程客户端的两个音频分量彼此进行比较来确定两个远程客户端的接近度指示。例如，可以生成接近度数据以反映这些信号之间的相似性，并且具体地，可以生成互相关度量，其中从该互相关度量生成接近度指示。例如，可以直接使用互相关值，或者例如，如果在某个滞后范围内的最大互相关度量超过给定阈值，则可以将接近度指示设置为指示两个远程客户端处于同一位置。发送器然后可以生成接近度数据以包括接近度指示并且发送该接近度指示(通常与音频分量一起)。

在音频装置在远程客户端103中实现的实施例中，可以在音频服务器101中实现接近度检测器，所述接近度检测器确定所有音频分量对的互相关值并确定针对每个对的接近度指示。可以生成接近度数据以包括所有接近度指示，并且可以将其发送给所有远程客户端103，或者例如可以仅将针对给定远程客户端的接近度数据发送给该远程客户端。另外，音频服务器101可以发送音频分量，并且客户端可以继续本地生成音频混合。

在音频装置在音频服务器101中实现的实施例中，接近度检测器可以在远程客户端103中实现。每个远程客户端可以包括接近检测器，其将例如本地音频分量与从其他远程客户端103接收的音频分量相关联。可以为每个接收到的音频分量生成接近度指示，并将其与本地音频分量一起发送回音频服务器101。音频服务器101然后可以使用从所有远程客户端接收到的这种接近度数据来为各个远程客户端103生成音频混合。

因此，如图5中所示，第一实体501可以包括接近度检测器503，其确定一个或多个音频分量对的互相关值并且确定针对每个对的接近度指示。例如，第一实体501可以包括接近度检测器503，其响应于针对第一远程客户端的第一音频分量与针对第二远程客户端的第二音频分量的比较而确定第一远程客户端和第二远程客户端的接近度指示。其还包括数据发送器505，所述数据发送器505被布置为将包括接近度指示的接近度数据发送到包括图4的音频装置的第二实体507。除了接近度数据之外，发送器505还可以发射一个或多个音频分量。发送器505因此可以具体地将接近度数据和音频分量数据发送到音频装置的接收器401。在一些实施例中，第一实体501可以是远程客户端并且第二实体507可以是音频服务器。在其他实施例中，第一实体501可以是音频服务器并且第二实体507可以是远程客户端。

因此，在许多实施例中，音频服务器101中的音频分量的信号处理(例如，对应于来自远程客户端的麦克风信号)可以检测到哪些用户/远程客户端是邻近的(例如，共享房间)，并且对应的元数据将是发送到远程客户端103。

如果例如针对矩阵中的所有音频分量对生成具有最大互相关值的相关矩阵，则在同一房间中(邻近)的远程客户端103的音频分量将具有高的最大互相关值。

例如，音频服务器101可以针对i和j的每个唯一组合计算下式(其中，i≠j)：

其中，x_i表示服务器从远程客户端收到的带有索引i的音频分量信号，是模，n是音频分量(的历史)的样本索引，其中，n＝0表示最新的可用样本，N_hist是分析中使用的过去样本数量，并且δ_max是音频分量之间支持的最大延迟。

例如，和/>其中，f_s是麦克风信号的采样率并且/>是舍入运算。针对语音的典型的采样率值是16kHz。对于音频，通常使用较高的采样率，例如48kHz。特别地，对于这种方法，δ_max的值可以被选择为足够大，以考虑由于用户和麦克风(在同一房间内)之间不同的声路长度而导致的音频分量之间的延迟，以及从远程客户端到音频服务器101的传输中的延迟差异。

如果针对i和j的特定组合，上面的互相关很高，例如δ_i，j≥0.3，则远程客户端i和j可以认为是邻近的，特别是在同一房间。当没有参与者在说话时，互相关性可能较低。因此，仅当参与者的i或j之一活跃时才计算互相关是有利的。

例如，确定用户是否k处于活动状态可以根据下式完成：

其中，对于具有完整幅值F的信号x，例如L_thres＝-30dB。

替代地，可以将语音检测器应用于信号。

通常仅在其中一个用户处于活动状态时评估确定两个远程客户端103是否在邻近，而在两个用户不活动时保留上一确定的决策。这样可以防止根据发言者是否处于活动状态来切换元数据。

可以采取其他手段来确保决策的鲁棒性。例如，远程客户端i和j是否在同一房间内的决定只有在至少15秒活跃信号(a_i＝＝1或a_j＝＝1)后才能更改。

在一些实施例中，音频服务器101确定哪些远程客户端在同一房间中，并将信息作为元数据发送到远程客户端103。特别地，当用户的音频信号不在每个客户端的音频服务器101中混合而是单独发送时，所述实施例是有利的。例如，VR应用将每个用户的信号呈现到虚拟(或增强)现实中的特定位置。在这种情况下，远程客户端可以使用其他用户(例如，在同一房间中)的元数据来决定不呈现或播放从会议服务器接收的相应信号。

在一些实施例中，接近度检测器可以如所提到的位于远程客户端中。这种远程客户端的元件的示例在图6中示出。

远程客户端包括耦合到麦克风并且被布置为生成与由麦克风捕获的音频相对应的麦克风信号的输入601。麦克风信号被馈送到编码器603，所述编码器603对所述信号进行编码以生成音频分量(在一些实施例中，麦克风信号可以直接用作音频分量)。

编码器被耦合到接口605，所述接口被布置为与音频服务器101通信。因此，接口包括用于将数据发送到音频服务器101的发送器和用于从音频服务器101接收数据的接收器。接口605被馈送音频分量数据并将其发送到音频服务器101。

另外，接口605从其他远程客户端接收音频分量和接近度数据，并且具体地，接口605可以包括图4的接收器401。

远程客户端还包括音频呈现器607，音频呈现器607可以直接对应于图4的生成器403。如先前描述的，生成器403可以前进到生成本地呈现以呈现给本地用户。

在其他实施例中，从音频服务器101接收的音频可以是缩混信号，即，生成器409可以被包括在音频服务器101中，并且所发送的音频可以例如是双耳立体声信号或环绕声信号。在这样的实施例中，呈现器607可以直接呈现接收到的信号。

图6的远程客户端还包括接近度检测器607，接近度检测器607被布置为响应于麦克风信号(可能由音频分量表示)与从音频服务器接收的音频的比较来确定针对第一远程客户端的接近度指示。

例如，如果接收到的音频对应于来自其他远程客户端的音频分量，则可以将这些分量直接馈送到接近度检测器609，接近度检测器609可以随后将麦克风信号(可能由音频分量表示)与接收到的音频分量相关联，并且针对接收到的音频分量中的每个生成接近度指示。接近度指示可以被馈送到接口605，其可以将包括接近度指示的接近度数据发送到音频服务器101。

在接收到的音频对应于包括被混合/混合到相同的(一个或多个)音频信号/(一个或多个)信道中的其他远程客户端的多个音频分量的音频混合的情况下，接近度检测器609可以将麦克风信号与音频信号相关。

例如，如果音频混合仅包括单个信号，则接近度检测器609可以将接收到的信号与麦克风信号相关联，并且如果检测到高于给定水平的相关性，则可以生成接近度指示以指示当前活跃的远程客户端(针对当前活跃的发言者)靠近当前的远程客户端。

如果音频混合包括一个以上的信道/信号，则可以例如在相关之前将它们组合，或者可以对每个信道信号进行相关，并且例如可以仅考虑最大的相关。

如果远程客户端知道当前活跃的远程客户端/发言者的身份的情况(例如，音频服务器101可以检测到这种活动并且相应的信息可以转发到远程客户端)，则远程客户端可以生成接近度指示，其包括对另一个远程客户端为邻近的该识别。

在此类信息可能不可用的情况下，远程客户端可以简单地发送接近度指示，所述接近度指示指示当前活跃的发言者/远程客户端在附近。在这种情况下，音频服务器101可以例如被布置为检测当前活跃的发言者(例如，使用语音检测)，并且可以确定与发送接近度指示的远程客户端邻近的远程客户端的适当识别作为所识别出当前活跃的发言者/远程客户端。

因此，在一些实施例中，远程客户端可以将从音频服务器101接收的信号与其本地麦克风信号进行比较来检测邻近远程客户端(例如，在回声消除(AEC)之后)。

例如，客户端可以确定从服务器接收的信号和远程客户端的麦克风信号之间的互相关：

其中，y_i表示从音频服务器接收到的信号，x是本地麦克风信号，是模，n是麦克风信号(的历史)的样本索引，n＝0表示最新的可用样本，N_hist是在分析中使用的过去样本数量，并且δ_max麦是支持的克风信号之间的最大延迟。

例如，和/>其中，f_s是麦克风信号的采样率并且是舍入运算。特别是对于这种方法，δ_max必须足够大以解决麦克风信号和从音频服务器接收的信号之间的延迟，所述延迟是由于(分布式)系统中的系统延迟，例如，编码，传输(从客户端到服务器)，服务器中的处理，传输(从服务器到客户端)，解码以及由于用户和麦克风(在同一房间)之间的声学路径长度不同而导致的解码。

如果针对特定i上面的互相关很高，例如δ_i≥0.2，则用户i可以被视为在同一房间(邻近)。

替代地，客户端可以在将AEC应用于麦克风信号之前使用它。它可以集中于大于例如15ms的延迟，以将客户端中发言者与麦克风之间的声学反馈与较大的会议系统延迟分开。客户也可以寻找两个相关峰，并向AEC提供较短的延迟。

如果一个或多个客户端发送一个以上的音频分量，则该算法可以例如选择声音最大的麦克风信号进行分析，计算所有麦克风信号的缩混或选择特定的麦克风信号。

类似地，如在服务器端方法中一样，通常仅在用户发言时，更具体地说，当从服务器接收的信号之一中存在主动发言者时，才计算相关性。

音频分量/信号y_i从音频服务器101接收到的声音通常可以(至少部分地)代表电话会议中的其他用户。这允许远程客户端根据哪些信号具有较高的相关性来确定哪些用户在同一房间。一些用户的信号可能由于音频服务器被静音或确定为无效而无法发送。

如上所述，在一些信号中，音频分量可以在音频服务器101中被组合为音频混合。当信号y_i表示这样的音频混合时，它们可以表示音频通道，并且某些用户的信号可能出现在多个音频通道中。因此，单独分析音频通道可能并不总是产生特别有用的额外信息。因此，对信号进行下混并确定结果与本地麦克风信号的相关性可能是有利的。缩混可以通过以下方式计算：

其中，I_m是与音频信号的集合相关的输入信号的索引的集合，并且#I_m是集合的基数I_m。

这种方法的结果是较低的计算复杂度，这有利于总体上减少CPU使用率和/或提高便携式设备的电池寿命。

当所有客户端的信号(至少部分地)在服务器中被预混合或预呈现时，这种方法特别有利，然而，它也可以应用于未预混合或预呈现的信号。

在某些情况下，当接收到音频混合时，可能无法直接确定哪些用户在同一房间，因为当嵌入到同一音频混中时，可能无法直接区分不同远程客户端的音频分量。但是，客户端可以发送指示当前活动用户(可能在同一房间)的元数据。音频服务器101可以例如通过不在发送给发送元数据的客户端的信号中预混合或预呈现活动用户的信号来考虑这一点，反之亦然。

一些会议应用发送呼叫中的参与者的信息。在这种情况下，当检测到较高的互相关时，这可以用于确定哪个用户在客户端侧处于活动状态，并且远程客户端可以将该信息发送到服务器。

服务器可以对接收到的元数据进行后处理，以提高鲁棒性。例如，可以指示多个用户同时处于活动状态，而第三客户端发送表示当前活动用户在同一房间中的元数据。然后，音频服务器可以将此与来自其他两个用户的信息进行组合，其中一个还可以指示当前活跃的用户在同一房间中。那么这可能意味着这三个人都在同一个房间里。替代地，它可以将声音最大的活跃用户标记为在同一房间中，或者增加两个活跃用户的似然值。当似然值大于特定阈值时，相应的用户可以被视为在同一房间。替代地，相对于增加的似然值，它可以降低用户在预混音中的水平。

可以为接收预混信号和单个信号的客户端和/或信号属性随时间变化(例如，由于带宽可用性变化)的客户端组合上述不同方法。

同样，对于服务器端方法，可以使用相同或相似的方法在客户端中提高鲁棒性。

在其中执行信号之间的互相关的实施例中，可以如上所述对全时域信号执行互相关。替代地，在一些实施例中，可以在时频表示上执行相关(例如，在QMF滤波器组(正交镜像滤波器)，STFT(短期傅立叶变换)或窗品化MDCT或FFT分析之后)。在这些情况下，以上相关公式中的每个总和将成为时间维度上时隙或帧上的二维总和(n)和频谱范围内的频段或分箱(b)。

/>

其中，f(n，b)表示的x和/或y在相关方程中的相应功能，其中，x和y取作n时域索引，并且b作为频域索引。和/>是分别在时隙或帧方面的N_hist和δ_max。例如/>对于降采样系数为64的QMF滤波器组，或者/>对于具有256个样本的跳跃尺寸的窗口化FFT，其中，/>是舍入操作。

作为另一个示例，在一些实施例中，互相关可以应用于信号的包络线、能量分布或频率相关的能量分布。这对于实现较低的计算复杂度是有利的，并且在信号y_i从较少数量的缩混信号进行参数重建并且因此更可能在重建信号的局部精细结构中具有高相关性的情况下可能是有利的。替代地，在后一种情况下，相关性也可以应用于重建参数。

在频率依赖的相关性计算的情况下，一些实施例可以将加权应用于特定频率分箱/频带，以便强调典型的语音频率。

可以根据以下信号计算(频率依赖的)能量分布：

其中，每个新的时频表示的能量分布是信号表示中所有时频贴片的总能量x(n，b)。针对分箱/>的开始箱和结束箱分别由表示/>和/>表示，并且开始和停止时隙分别由/>和/>表示。如果是纯时域信号(例如PCM信号)，则b索引和求和可以省略。

在一些实施例中，可以替代地或额外地使用用于确定远程客户端103之间的接近度的其他方法。

例如，在一些实施例中，可以通过直接手动配置来确定接近度指示，例如使用各远程客户端的用户接口。其他实施例可以使用诸如GPS的定位技术、室内定位技术、IP地址或借助于网络ID等。在一些实施例中，远程客户端103可以将这样的数据发送到服务器，然后可以评估接收到的数据以确定哪些远程客户端103彼此靠近。

例如，IP/MAC地址和/或网络延迟时间可以用作远程客户端邻近的指示。例如，远程客户端103共享网络设备的事实指示处于同一位置。

在一些实施例中，可以通过检测声反馈来检测两个远程客户端的接近，在这种情况下，系统可以前时到防止这种声反馈(例如，通过改变回路特性从而防止正反馈)。

可以用于通过检测声反馈来检测接近度的测试过程的示例可以从所有麦克风静音(或不将音频分量反馈给客户端)开始，以确保当前没有声反馈。然后可以打开来自不同对远程客户端的麦克风，如果这会导致声音反馈，则将相应的一对远程客户端视为邻近。此方法可能会中断电话会议一段时间，以便允许在每对客户端中检测到声音反馈。

声音反馈的检测可以通过多种方式进行。一种低复杂度的方法是确定多个客户端的水平是否正在增加，或者一个或多个客户端麦克风是否提供指数级增长的水平。考虑到系统中的平均往返延迟，这可能表明RMS水平的指数增长是逐步的，其周期性类似于往返延迟。在Devis Thomas,A.R.Jayan,Automated Suppression of Howling Noise UsingSinusoidal Model based Analysis/Synthesis,IEEE International AdvanceComputing Conference(IACC),ITM University,Gurgaon,India,第761-765页(2014年)中描述了频谱平坦度测量(SFM)也可用于检测声反馈。其他方法可能确定来自不同客户端的多个麦克风信号之间的相似性，例如频谱或频谱图之间的高相关性。另一个示例是确定麦克风信号中是否存在裁剪。

用于检测哪些客户端位于例如同一位置的方法的另一示例是通过在每个客户端的音频分量中添加标记信号或水印。该标记可以被选择为使得它通常是人类不可感知的，并且可以被设计为使得尽管使用的编解码器和声学路径施加了失真，也可以在麦克风信号中检测到该标记。

例如，服务器可以将这些标记插入传输到客户端的音频中。如果每个客户都有一个唯一的标记，这通常是有益的。随后，在一些实施例中，服务器可以分析接收到的客户端的麦克风信号以寻找其他客户端的标记。在其他实施例中，客户端可以分析他们自己的麦克风信号，并将标记信息发送到服务器。该标记信息可以是检测到的标记ID，或者响应于从服务器接收到的映射元数据，它可能已经将检测到的标记ID映射到相应的客户端。

在上述示例中，音频混合的生成取决于接近度数据。然而，将意识到，这样的数据也可以用于其他目的。

例如，在一些实施例中，接近度数据可以用于根据用户在身体上的分组方式(例如在空间上)对用户进行分组。在一些实施例中，例如AR，接近度数据可以用于确定哪些用户在物理上不存在于房间中，如果是，则可以呈现该用户的虚拟化身。在一些实施例中，接近度数据可以(附加地)用于在不与用户所在之处交叠的位置处呈现不在物理房间中的用户的信号。

在一些实施例中，元数据和/或客户端分析可以用于使不同设备上的回放同步，从而实现具有小的相互延迟的回放。

在一些实施例中，接近度数据可以用于不呈现从服务器接收的与同一房间中的用户有关的信号，而是可替换地使用那些用户的本地麦克风捕获来进行呈现。当用户戴着可能会阻塞或衰减声波路径的耳机时，这可能是有利的。通过将处理保持在本地，可以消除会议系统延迟，从而产生更好的口形同步。

在一些实施例中，第一远程客户端可以将生成的麦克风信号或音频分量发送到被检测为位于同一位置的第二远程客户端。传输可以经由直接数据链路(LAN/光学/RF)进行，并且可以具体地排除音频服务器101。这可以提供具有减小的传输延迟的链路/通信。然后，第二远程客户端可以使用该直接接收的信号来衰减或抑制来自第一远程客户端的音频源的信号。这样的方法可以替代使用声路径，并且受益于更快的传输(由于光和声的速度不同)。通过在第二远程客户端及时获得干净的音频“参考”，可以避免不必要的复杂或容易出错的音频处理。

在一些实施例中，这样的链接可以用于在同一房间中的远程客户端之间同步音频混合的回放。替代地，这种同步元数据贯穿音频服务器。在大多数实施例中，同步将考虑相对于从服务器接收的数据具有最高延迟的处于同一位置的客户端，并且延迟其他处于同一位置的客户端中的音频混合的回放以进行同步。该连续同步过程在本领域中是已知的，并且可以使用诸如NTP(网络时间协议)或PTP(精确时间协议)的时间同步协议来实现。

如前所述，在从第一远程客户端到第二远程客户端的方向上的声学接近度可以不同于在从第二远程客户端到第一远程客户端的方向上的声学接近度，这反映出声学传递函数在两个方向上可以不同。因此，在许多实施例中，接近度数据可以包括取决于方向的针对一对远程客户端103的不同接近度指示。

例如，由音频服务器101提供给远程客户端的接近度数据可以包括给定的另一远程客户端的两个值，并且本地音频混合可以相应地响应于从另一远程客户端到该远程客户端的接近度指示。

在许多实施例中，包括在例如一个用户戴着耳机而另一个用户使用发言者呈现的特定情况下，非对称/定向接近度指示的使用可以提供改进的性能。

在一些实施例中，可以在服务/应用的初始化时传送/分配接近度数据，并且可以使用该接近度数据直到结束。例如，当新的会议会话被初始化时，接近度数据可以被交换和使用直到会话结束。

然而，在最实际的实施例中，系统可以被布置为动态地确定/适配/更新/分配至少一些接近度数据。因此，接收器401通常被布置为接收动态地适应于远程客户端的位置变化的接近度数据。

具体地，音频服务器101和/或远程客户端103的(一个或多个)接近度检测器可以连续地使适当的信号相关联并且基于相关性结果来确定接近度指示。所述系统然后可以例如通过连续地发送包括具有音频分量的分布的接近度指示的元数据来连续地分布接近度指示。

在许多实施例中，系统可以被布置为以至少不超过一分钟且通常不超过30秒的更新速率来发送(至少)第一远程客户端对的接近度指示。

这样的动态更新可以提供可以适应用户位置的改变的高效且自适应的系统。例如，在许多实施例中，它可以通过他/她的电话进入到另一个客户所在的会议室中的连接而快速地适应会议参与者。例如，当参与者走进会议室时，通常可以防止发生声音反馈。

应当理解，可以以许多不同的方式将接近度数据作为元数据发送，并且所使用的特定方法可以取决于各个实施例的偏好和要求。

元数据的确切结构、语法和内容将取决于特定实施例。因此，可以以各种方式配置和传输元数据，并且优选方法还取决于是否使用客户端检测或服务器端检测(或组合)。

在服务器端检测的情况下，通常将元数据从服务器发送到一个或多个客户端。元数据可以包含有关哪些用户/客户端位于同一位置的信息。例如，可以使用索引或客户端名称或位图的指示。服务器发送给客户端的位流的部分语法例如可以如下：

/>

该示例显示了一种语法，所述语法支持用于将元数据发送到客户端的三种不同方法，并取决于首选设置选择一种。它为所有客户提供关于存在多少个唯一位置(替代地，具有多于1个用户的位置的数量)以及在哪个位置存在哪些用户的信息。

作为另一示例，相关元数据可以仅被发送给共享位置的用户。这在下面的语法示例中显示：

/>

在客户端检测的情况下，通常将元数据发送到服务器，并且服务器通常可以将具有相似或导出信息的元数据发送到一个或多个客户端。

客户端例如可以发送标志，所述标志指示在该时间点是否在输出信号和麦克风信号之间(在AEC之后)检测到高相关性。额外地或替代地，其可以发送最大相关值的指示。

在其他实施例中，所述客户端可以另外使用指示哪些用户处于活动状态的元数据，并且可以发送指示被确定为位于同一位置的一个或多个特定用户的数据。可以使用与上述语法类似的语法来完成此操作。

额外地，客户端可以发送元数据，所述元数据描述其被检测到的方法，和/或直接声学捕获与从会议服务器接收的音频信号中的高相关之间的延迟。

从客户端发送到服务器的数据的语法示例如下：

检测方法元数据的示例定义可以如下：

检测方法	说明
		0	PCM信号相关性
1	时间能量分布相关性
		2	频率相关的能量分布相关性
3	加权的频率相关的能量分布相关性
		4	室内本地化
5	手动配置
		6	<保留>
7	<保留>

响应于来自一个或多个客户端的相似元数据，服务器可以发送与上述相似的元数据。服务器可以池化从多个客户端接收的信息。为此，它可以组合所有位置共享指示。例如，如果客户端A和B指示它们与用户D处于同一位置，并且客户端D指示与用户A和C共享的位置，则服务器可以指示用户A，B，C和D处于同一位置。

替代地，其可以指示用户A和D在同一位置，因为它们相互指示了共享位置。

应当理解，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，显而易见的是，可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如，被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样，本发明可以在单个单元中实现，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于这里阐述的特定形式。相反，本发明的范围仅受所附权利要求的限制。另外，尽管可能看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外，尽管各个特征可以包括在不同的权利要求中，但是这些特征可以有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示该特征在合适时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序，并且特别地，方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序来执行这些步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚，不应被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于音频分配系统的音频装置，包括音频服务器(101)，所述音频服务器用于从多个远程客户端(103)接收传入的音频，并且用于将从所述传入的音频导出的音频发送到所述多个远程客户端(103)中的至少一些；所述装置包括：

接收器(401)，其用于接收数据，所述数据包括：

针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；

针对所述音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；以及

生成器(403)，其用于响应于所述接近度数据而生成所述多个音频分量的音频混合；

其中，所述生成器(403)被布置为生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

2.根据权利要求1所述的音频装置，其中，所述生成器(403)被布置为在所述第一音频混合中衰减满足针对所述第一远程客户端和所述第二远程客户端的接近度准则的接近度数据的所述第二音频分量。

3.根据任一前述权利要求所述的音频装置，其中，所述音频装置是所述音频服务器(101)的部分。

4.根据权利要求1或2中的任一项所述的音频装置，其中，所述音频装置是所述多个远程客户端(103)中的远程客户端的部分。

5.根据任一前述权利要求所述的音频装置，其中，所述接近度数据包括针对至少第一远程客户端和第二远程客户端的标量接近度指示，所述标量接近度指示指示从所述第二远程客户端的音频源到所述第一远程客户端的捕获元件的声衰减。

6.根据任一前述权利要求所述的音频装置，其中，所述接近度数据包括从第一远程客户端到第二远程客户端的与从所述第二远程客户端到所述第一远程客户端的不同的接近度指示。

7.根据权利要求1所述的音频装置，其中，所述接收器(401)被布置为接收针对多个远程客户端(103)中的至少一个远程客户端的位置变化动态地调整的接近度数据。

8.一种音频分配系统，包括：

多个远程客户端(103)；

音频服务器(101)，其用于从所述多个远程客户端(103)接收传入的音频，并且用于将从所述传入的音频导出的音频发送到所述多个远程客户端(103)中的至少一个；其中，所述音频服务器和所述多个远程客户端(103)之一中的至少一个包括：

接收器(401)，其用于接收数据，所述数据包括：

针对所述音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；

9.根据权利要求8所述的音频分配系统，其中，所述音频分配系统包括：接近度检测器(503、609)，其被布置为响应于针对第一远程客户端的第一音频分量与针对第二远程客户端的第二音频分量的比较来确定针对第一远程客户端和第二远程客户端的接近度指示；以及发送器(505)，其用于将包括所述接近度指示的接近度数据发送到所述接收器(401)。

10.根据权利要求9所述的音频分配系统，其中，所述接近度检测器(503)是所述音频服务器(101)的部分。

11.根据权利要求8所述的音频分配系统，其中，所述多个远程客户端中的第一远程客户端包括：

输入部(601)，其用于生成与由一组麦克风捕获的音频相对应的麦克风信号；

接近度检测器(609)，其被布置为响应于所述麦克风信号与从所述音频服务器(101)接收的音频的比较来确定针对所述第一远程客户端的接近度指示；以及

发送器(605)，其用于将包括所述接近度指示的声学音频数据发送到所述音频服务器(101)。

12.根据权利要求11所述的音频分配系统，其中，所述发送器(605)被布置为响应于所述第一接近检测器检测到所述麦克风信号与从所述音频服务器接收的所述音频之间的高相关性而发送指示当前活跃的远程客户端被确定为在邻近处的接近度数据。

13.一种操作用于音频分配系统的音频装置的方法，所述音频分配系统包括音频服务器(101)，所述音频服务器用于从多个远程客户端(103)接收传入的音频，并且用于将从所述传入的音频导出的音频发送到所述多个远程客户端(103)中的至少一些；所述方法包括：

接收包括以下内容的数据：

响应于所述接近度数据而生成所述多个音频分量的音频混合；

其中，所述生成包括生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

14.一种用于音频分配系统的音频装置，包括处理器，所述处理器被配置为运行计算机程序以执行根据权利要求13所述的所有步骤。