CN117981347A

CN117981347A - 用于对虚拟声源进行空间化的音频系统

Info

Publication number: CN117981347A
Application number: CN202280063782.6A
Authority: CN
Inventors: 帕布鲁·弗朗西斯科·方德斯·霍夫曼; 彼得·道兹
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2021-09-21
Filing date: 2022-09-18
Publication date: 2024-05-03
Also published as: WO2023049051A1; TW202315427A; US20230093585A1

Abstract

描述了一种用于对虚拟声源进行空间化的音频系统。音频系统的传声器阵列被配置为监测局部区域中的声音。音频系统的控制器使用来自传声器阵列的所监测的声音来识别局部区域内的声源，并确定这些声源的位置。音频系统的控制器基于一个或多个约束来生成虚拟声源的目标定位。该一个或多个约束包括该目标定位距所确定的所识别声源的位置中的每个位置至少阈值距离。控制器部分地基于目标定位来生成一个或多个声音滤波器，以对虚拟声源进行空间化。音频系统的换能器阵列部分地基于该一个或多个声音滤波器来呈现包括虚拟声源内容的空间化的音频。

Description

用于对虚拟声源进行空间化的音频系统

技术领域

本公开总体上涉及人工现实系统，并且更具体地涉及对虚拟声源进行空间化。

背景技术

增强现实技术和/或混合现实技术的一个希望是能够呈现与在用户的环境中自然发生的声音在感知上难以区分的虚拟声源。在虚拟现实中，声学源的位置可以由用户沉浸在其中的虚拟世界的规则预定义。在增强现实和/或混合现实中，虚拟声源的位置可以受限于用户物理世界的约束，或者可以在任意位置呈现给用户。在音源可以由软件或硬件自由放置的情况下，虚拟声源相对于环境中其它噪声源的位置可能会影响感知到的虚拟声源的质量，并且可能会降低清晰度(intelligiblity)。在其它用例中，声音清晰度可能会受声音特性的影响，使得声音的清晰度随布置而变化。

发明内容

本文所描述的音频系统被配置为对虚拟声源进行空间化以用于沉浸式人工现实体验。在一些实施例中，音频系统可以由至少具有传感器、音频换能器和音频控制器的头戴式设备(headset)托管。在其它实施例中，音频系统的各部件可以分布在多个连接的设备(例如智能手表、智能手机和头戴式耳机)上。音频系统响应于一组约束来放置各虚拟声源。这些约束例如可以包括虚拟声源的定位不能被空间化在用户的物理环境中的声源的阈值距离内，或者虚拟声源应该根据其频谱分布而被空间化。

该音频系统包括传声器阵列、控制器和换能器阵列。传声器阵列是监测局部区域中的声音的两个或更多个传声器。局部区域可以是音频系统可检测声音的区域(例如，检测范围)或者该局部区域可以由诸如墙壁或地形等物理约束来界定。控制器接收来自传声器阵列的所监测的声音，识别局部区域内的声源，并确定声源的位置。该控制器基于约束来确定虚拟声源的目标定位，并基于该目标定位来生成声音滤波器。换能器阵列部分地基于声音滤波器来呈现包括虚拟声源的空间化的音频内容，使得该虚拟声源在目标定位处被呈现。

在一些实施例中，音频系统还被配置为分析声源的诸如空间属性、时间属性、频率属性或它们的某种组合等特性。声源的特性可以用于生成音频系统的约束。音频系统基于这些约束来确定对虚拟声源进行空间化的目标定位。例如，在电话会议的用例中，音频系统可以基于各通话者的每个语音的频谱分布来确定这些语音的目标定位。音频系统可以基于多个约束来确定虚拟声源的目标定位。

音频系统执行对虚拟声源进行空间化的方法。该方法包括利用传声器阵列监测局部区域中的声音。使用所监测的声音来识别局部区域中的声源。确定声源的位置。确定对虚拟声源进行空间化的目标定位。该目标定位是基于一个或多个约束的，该一个或多个约束包括该目标定位距所确定的局部区域中的各声源的各位置中的每个位置至少阈值距离。基于目标定位生成声音滤波器。可以将声音滤波器应用于虚拟声源以对该虚拟声源进行空间化。部分地基于该一个或多个声音滤波器来呈现包括虚拟声源的空间化的音频内容。

在一些实施例中，非暂态计算机可读介质被配置为存储程序代码指令，所述程序代码指令在被设备的处理器执行时使该设备执行这样的步骤：所述步骤包括经由传声器阵列监测局部区域中的声音。对所监测的声音进行处理，以使用所监测的声音来识别局部区域内的声源，并确定声源的位置。基于一个或多个约束来确定对虚拟声源进行空间化的目标定位。基于目标定位生成声音滤波器，并且部分地基于声音滤波器呈现包括虚拟声源的空间化的音频内容。

在本发明的一方面，提供了一种音频系统，该音频系统包括：传声器阵列，该传声器阵列被配置为监测局部区域中的声音；控制器，该控制器被配置为：使用所监测的声音来识别局部区域内的声源；确定声源的位置；基于一个或多个约束来确定虚拟声源的目标定位，该一个或多个约束包括该目标定位距所确定的位置中的每个位置至少阈值距离；部分地基于该目标定位生成一个或多个声音滤波器；以及换能器阵列，该换能器阵列被配置为部分地基于该一个或多个声音滤波器来呈现包括虚拟声源的空间化的音频内容。

该控制器可以进一步被配置为：分析声源的包括空间属性、时间属性和频率属性的特性；以及基于所分析的声源的特性来生成一个或多个约束。

虚拟声源可以是第一通话参与者的语音，并且控制器还可以被配置为：分析虚拟声源的第一频谱分布，该第一频谱分布表征第一通话参与者的语音中所存在的频率；以及基于第一通话参与者的第一频谱分布来确定对虚拟声源进行空间化的第一角度，其中，第一角度是部分地基于第一频谱分布中相对于高频内容量的低频内容量来选择的，并且目标定位是部分地基于第一角度的。

目标定位可以是以头部为中心的。

第二通话参与者的第二频谱分布可以具有比第一通话参与者的第一频谱分布更大的相对于高频内容量的低频内容量，并且控制器还可以被配置为：分析第二频谱分布，该第二频谱分布表征第二虚拟声源的语音中所存在的频率；基于第二频谱分布来确定对与第二通话参与者相对应的第二虚拟声音进行虚拟地空间化的第二角度，其中，第二角度可以是部分地基于第二频谱分布中相对于高频内容量的低频内容量来选择的，并且第二角度可以大于第一角度；以及部分地基于第二角度来确定第二虚拟声源的第二目标定位；其中，该一个或多个声音滤波器可以是部分地基于第二目标定位来生成的，并且空间化的音频可以使得虚拟声源被空间化到目标定位、且第二虚拟声源被空间化到第二目标定位。

控制器还可以被配置为：识别音频系统的多个用例中的一用例；部分地基于所识别的用例来选择该一个或多个约束。

所标识的使用可以提供方向，并且该一个或多个约束可以包括将目标定位放置为使得该目标定位与导航提示相对应。

目标定位可以是以世界为中心的。

控制器还可以被配置为：确定物理对象在局部区域内的位置；以及设置该一个或多个约束中的至少一个约束，使得目标定位可以不与所确定的物理对象的位置位于同一位置。

在本发明的一方面，提供了一种方法，该方法包括：经由传声器阵列监测局部区域中的声音；使用所监测的声音来识别局部区域内的声源；确定声源的位置；基于一个或多个约束来确定虚拟声源的目标定位，该一个或多个约束包括目标定位距所确定的位置中的每个位置至少阈值距离；基于目标定位生成一个或多个声音滤波器；以及部分地基于该一个或多个声音滤波器来呈现包括虚拟声源的空间化的音频内容。

确定虚拟声源的目标定位可以进一步包括：分析声源的包括空间属性、时间属性和频率属性的特性；以及基于所分析的声源的特性生成一个或多个约束。

在虚拟声源可以是第一通话参与者的语音时，该方法还可以包括：分析虚拟声源的第一频谱分布，该第一频谱分布表征第一通话参与者的语音中所存在的频率；基于第一通话参与者的第一频谱分布来确定对虚拟声源进行空间化的第一角度，其中，第一角度是部分地基于第一频谱分布中相对于高频内容量的低频内容量来选择的，并且目标定位是部分地基于第一角度的。

在第二通话参与者的第二频谱分布可以具有比第一通话参与者的第一频谱分布更大的相对于高频内容量的低频内容量时，该方法还可以包括：分析第二频谱分布，该第二频谱分布表征第二虚拟声源的语音中所存在的频率；基于第二频谱分布来确定对与第二通话参与者相对应的第二虚拟声音进行虚拟地空间化的第二角度，其中，第二角度可以是部分地基于第二频谱分布中相对于高频内容量的低频内容量来选择的，并且第二角度可以大于第一角度；部分地基于第二角度来确定第二虚拟声源的第二目标定位；以及部分地基于第二目标定位来生成一个或多个声音滤波器，并且空间化的音频内容可以使得虚拟声源被空间化到目标定位、且第二虚拟声源被空间化到第二目标的定位。

该方法还可以包括：识别音频系统的多个用例中的一用例；以及部分地基于所识别的用例来选择该一个或多个约束。

所识别的用例可以提供方向，并且该一个或多个约束可以包括将目标定位放置为使得该目标定位与导航提示相对应。

该方法还可以包括：确定物理对象在局部区域内的位置；以及设置该一个或多个约束中的至少一个约束，使得目标定位不与所确定的物理对象的位置位于同一位置。

在本发明的一方面，提供了一种非暂态计算机可读介质，该非暂态计算机可读介质被配置为存储程序代码指令，所述程序代码指令在被设备的处理器执行时使该设备执行步骤，所述步骤包括：经由传声器阵列监测局部区域中的声音；使用所监测的声音来识别局部区域内的声源；确定声源的位置；基于一个或多个约束来确定虚拟声源的目标定位，该一个或多个约束包括目标定位距所确定的位置中的每个位置至少阈值距离；基于目标定位生成一个或多个声音滤波器；以及部分地基于该一个或多个声音滤波器来呈现包括虚拟声源的空间化的音频内容。

在虚拟声源可以是第一通话参与者的语音时，所述指令在被处理器执行时可以使设备执行进一步的步骤，所述进一步的步骤可以包括：分析虚拟声源的第一频谱分布，该第一频谱分布表征第一通话参与者的语音中所存在的频率；以及基于第一通话参与者的第一频谱分布来确定对虚拟声源进行空间化的第一角度，其中，第一角度可以是部分地基于第一频谱分布中相对于高频内容量的低频内容量来选择的，并且目标定位可以是部分地基于第一角度的。

在第二通话参与者的第二频谱分布可以具有比第一通话参与者的第一频谱分布更大的相对于高频内容量的低频内容量时，所述指令在被处理器执行时可以使设备执行进一步的步骤，所述进一步的步骤可以包括：分析第二频谱分布，该第二频谱分布表征第二虚拟声源的语音中所存在的频率；基于第二频谱分布来确定对与第二通话参与者相对应的第二虚拟声音进行虚拟地空间化的第二角度，其中，第二角度可以是部分地基于第二频谱分布中相对于高频内容量的低频内容量来选择的，并且第二角度可以大于第一角度；部分地基于第二角度来确定第二虚拟声源的第二目标定位；以及部分地基于第二目标定位来生成一个或多个声音滤波器，并且空间化的音频内容可以使得虚拟声源被空间化到目标定位、且第二虚拟声源被空间化到第二目标定位。

附图说明

图1A是根据一个或多个实施例的被实现为眼镜设备的头戴式设备的立体图。

图1B是根据一个或多个实施例的被实现为头戴式显示器的头戴式设备的立体图。

图2是根据一个或多个实施例的音频系统的框图。

图3是示出了根据一个或多个实施例的用于对音频内容进行空间化的过程的流程图。

图4是根据一个或多个实施例的音频系统的示例用例。

图5是根据一个或多个实施例的在音频系统的一用例中的空间化的声源的俯瞰图。

图6是根据一个或多个实施例的包括头戴式设备的系统。

这些附图仅出于说明的目的而描绘了各个实施例。本领域技术人员将从以下论述中容易地认识到，可以在不脱离本文所描述的原理的情况下，采用本文所示出的结构和方法的替代实施例。

具体实施方式

描述了这样的音频系统：该音频系统基于对物理声场(例如，物理环境中的声音)的时间特性、频率特性和空间特性的分析来智能地空间化虚拟声源。该音频系统可以将虚拟声源空间化到减少过度认知负荷并提供优选清晰度的位置。

该音频系统包括传声器阵列、控制器和换能器阵列。传声器阵列监测局部区域中的声音，并向控制器传送声音数据。传声器阵列可以包括多个音频传感器，每个音频传感器具有该音频传感器可检测声音的检测范围。传声器阵列中的每个音频传感器的检测范围的组合构成音频系统监测声音的局部区域。

音频系统的控制器被配置为获取所监测的声音并识别局部区域中的声源。控制器可以通过将所监测的声音的传递函数与存储在控制器可访问的数据库中的传递函数进行比较来识别声源。传递函数可以指示声源是人的语音或由音频系统的物理环境(局部区域)中的对象引起的噪声。控制器例如通过波达方向分析或对由传声器阵列的各单独传感器接收到声音的时间差的分析来确定声源的位置。

控制器确定虚拟声源的目标定位。虚拟声源例如可以是引导音频系统的用户沿特定方向行走以到达其目的地的虚拟语音。虚拟声源的其它示例可以包括与关联于音频系统的增强现实游戏相关联的声音以及电话会议上的参与者的语音。控制器确定虚拟声源的目标定位，以优化该虚拟声源对于音频系统的用户的清晰度。基于一个或多个约束来确定目标定位，该一个或多个约束包括虚拟声源的目标定位距所确定的在局部区域中识别的声源的位置中的每个位置至少阈值距离。对目标定位的其它约束可以与音频系统的用例(例如电话会议、游戏或行走方向)有关。

控制器基于所确定的目标定位生成声音滤波器。声音滤波器被配置为对虚拟声源进行空间化，使得经滤波的虚拟声源被音频系统的用户感知为来自目标定位。声音滤波器例如可以衰减某些频率处的声音并放大其它频率处的声音以对虚拟声源进行空间化。控制器向换能器阵列发送指令，以使用由控制器生成的声音滤波器来呈现空间化的音频内容。

此外，该系统将当前用例作为输入，以确定虚拟声源的目标位置。例如，如果用户正接收告知用户向左转的地图方向，则听到来自用户右侧的该命令(即，虚拟声源)将是不直观的，即使这是基于物理声场的最佳位置。音频系统考虑由用例施加的约束，并且可以替代地对虚拟声源进行空间化，使得这些虚拟声源像是来自用户的左前象限。

此外，在多声音场景中，空间化的声音可以极大地提高用户对言语的理解。将每个声音放置在不同的表观空间位置使能够更好地区分多个说话者的语音，并提高声音的清晰度。音频系统可以使用每个语音的低频能量与高频能量之间的比率来选择沿水平平面(例如，方位角)的目标定位。在低频下具有高能量的语音特性可能比在中高频下表现出高能量的语音更多地受益于较大的双耳时间差。因此，音频系统可以以相对于音频系统用户的头部的正中矢状平面(如图5所示)的高方位角来对在低频下具有高能量的语音进行空间化。低频语音例如可以被空间化到用户的正中矢状平面的左侧70度，使得用户的左耳在右耳之前接收该语音的声音，从而产生高双耳时间差(ITD)。相反，可以以相对于用户的正中矢状平面的低方位角(例如0度到15度)来对高频语音或在高频下具有高能量的语音进行空间化，以确保虚拟声源几乎同时到达用户的双耳，从而产生低ITD。

与相似的人工现实技术相比，所描述的音频系统改进了或在一些实施例中优化了虚拟声源相对于其频谱分布的清晰度。其它音频系统可以仅基于虚拟约束来对虚拟声源进行空间化，并忽略由音频系统的物理环境改进的约束。例如，在现有音频系统托管游戏的情况下，音频系统可以根据虚拟环境来对游戏的虚拟声源进行空间化。游戏的空间化的虚拟声源可以与音频系统的物理环境中的真实声源重叠。虚拟声源与物理声源的重叠阻碍了用户对声音的理解，并增加了用户的认知负荷。通过基于用例的频率特性和约束来对虚拟声源进行空间化，本音频系统改进了现有的空间化系统，并为用户创建了更舒适且沉浸式的体验。

本发明各实施例可以包括人工现实系统，或可以结合人工现实系统来实现。人工现实是在呈现给用户之前已经以某种方式进行了调整的现实形式，该人工现实例如可以包括虚拟现实(virtual reality，VR)、增强现实(augmented reality，AR)、混合现实(mixedreality，MR)、混合现实(hybrid reality)或它们的某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与所采集的(例如，真实世界的)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合，以上中的任何一种可以在单通道或多通道中被呈现(例如，给观看者带来三维效果的立体视频)。另外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或它们的某种组合相关联，这些应用、产品、附件、服务或它们的某种组合用于在人工现实中创建内容，和/或以其它方式在人工现实中使用。提供人工现实内容的人工现实系统可以在各种平台上实现，这些平台包括连接到主计算机系统的可穿戴设备(例如，头戴式设备)、独立可穿戴设备(例如，头戴式设备)、移动设备或计算系统、或能够向一位或多位观看者提供人工现实内容的任何其它硬件平台。

图1A是根据一个或多个实施例的被实现为眼镜设备的头戴式设备100的立体图。在一些实施例中，眼镜设备是近眼显示器(near eye display，NED)。一般而言，头戴式设备100可以被佩戴在用户的面部上，使得使用显示组件和/或音频系统来呈现内容(例如，媒体内容)。然而，头戴式设备100还可以被使用以使得以不同的方式向用户呈现媒体内容。由头戴式设备100呈现的媒体内容的示例包括一个或多个图像、视频、音频或它们的某种组合。头戴式设备100包括框架，并且可以包括显示组件(该显示组件包括一个或多个显示元件120)、深度摄像头组件(depth camera assembly，DCA)、音频系统以及位置传感器190等其它部件。尽管图1A示出了头戴式设备100的各部件位于头戴式设备100上的示例位置，但是这些部件可以位于头戴式设备100上的其它位置、位于与头戴式设备100配对的外围设备上、或者它们的某种组合。类似地，头戴式设备100上可以存在比图1A中所示出的部件更多的部件或更少的部件。

框架110保持头戴式设备100的其它部件。框架110包括：保持一个或多个显示元件120的前部件，以及附接到用户头部的端部件(例如，镜腿)。框架110的前部跨过用户鼻子的顶部。端部件的长度可以是可调整的(例如，可调整的镜腿长度)以适合不同的用户。端部件还可以包括卷曲在用户的耳朵后面的部分(例如，镜腿末端(temple tip)、耳承(earpiece))。

一个或多个显示元件120向佩戴着头戴式设备100的用户提供光。如所示出的，针对用户的每只眼睛，头戴式设备包括一显示元件120。在一些实施例中，显示元件120生成图像光，该图像光被提供到头戴式设备100的适眼区(eyebox)。适眼区是用户在佩戴着头戴式设备100时眼睛所占据的空间中的位置。例如，显示元件120可以是波导显示器。波导显示器包括光源(例如，二维源、一个或多个线源、一个或多个点源等)和一个或多个波导。来自光源的光被内耦合到一个或多个波导中，该一个或多个波导以使得在头戴式设备100的适眼区中存在瞳孔复制的方式输出光。光的内耦合和/或光从一个或多个波导的外耦合可以使用一个或多个衍射光栅来完成。在一些实施例中，波导显示器包括扫描元件(例如，波导、反射镜等)，该扫描元件在来自光源的光被内耦合到一个或多个波导中时对该光进行扫描。注意，在一些实施例中，显示元件120中的一者或两者是不透明的，并且不透射来自头戴式设备100周围的局部区域的光。该局部区域是头戴式设备100周围的区域。例如，该局部区域可以是佩戴着头戴式设备100的用户处于其内部的房间，或者佩戴着头戴式设备100的用户可能在户外并且该局部区域是户外区域。在这种背景下，头戴式设备100生成VR内容。替代地，在一些实施例中，显示元件120中的一者或两者是至少部分透明的，使得来自局部区域的光可以与来自该一个或多个显示元件的光组合，以生成AR内容和/或MR内容。

在一些实施例中，显示元件120不生成图像光，而是该显示元件是将来自局部区域的光传输到适眼区的透镜(lens)。例如，显示元件120中的一者或两者可以是未矫正(非处方用)的透镜或有助于矫正用户视力缺陷的处方用透镜(例如，单光透镜、双焦和三焦透镜或渐进式透镜)。在一些实施例中，显示元件120可以是偏光的和/或有色的，以保护用户的眼睛免受太阳影响。

在一些实施例中，显示元件120可以包括附加的光学块(optics block)(未示出)。光学块可以包括将来自显示元件120的光引导到适眼区的一个或多个光学元件(例如，透镜、菲涅耳透镜等)。光学块例如可以校正一些或全部图像内容中的像差、放大一些或全部图像、或者它们的某种组合。

DCA确定头戴式设备100周围的局部区域的一部分的深度信息。DCA包括一个或多个成像设备130和DCA控制器(图1A中未示出)，并且还可以包括照明器140。在一些实施例中，照明器140利用光来照射局部区域的一部分。该光例如可以是红外(infrared，IR)中的结构光(例如，点状图案结构光、条形结构光等)、用于飞行时间(time-of-flight，ToF)的IR闪光灯等。在一些实施例中，一个或多个成像设备130采集局部区域中包括来自照明器140的光的部分的图像。如所示出的，图1A示出了单个照明器140和两个成像设备130。在替代实施例中，不存在照明器140且存在至少两个成像设备130。

DCA控制器使用采集到的图像和一种或多种深度确定技术，来计算局部区域的该部分的深度信息。深度确定技术例如可以是直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、被动式立体分析、主动式立体分析(使用通过来自照明器140的光而添加到场景中的纹理)、用于确定场景的深度的某种其它技术、或它们的某种组合。

音频系统提供音频内容。音频系统包括换能器阵列、传感器阵列和音频控制器150，该音频控制器能够检测、监测、追踪声源并对所述声源进行空间化。然而，在其它实施例中，音频系统可以包括不同的部件和/或附加的部件。类似地，在一些情况下，参考音频系统中的各部件描述的功能可以以与此处所描述的方式不同的方式而分布在这些部件之中。例如，控制器的一些或全部功能可以由远程服务器执行。

换能器阵列向用户呈现声音。换能器阵列包括多个换能器。换能器可以是扬声器160或组织换能器170(例如，骨传导换能器或软骨传导换能器)。尽管扬声器160被示出为在框架110的外部，但是扬声器160可以封在框架110中。在一些实施例中，替代每只耳朵的单独扬声器，头戴式设备100包括扬声器阵列，该扬声器阵列包括集成到框架110中的多个扬声器，以改进所呈现的音频内容的方向性。组织换能器170耦接到用户的头部，并直接振动用户的组织(例如，骨或软骨)以产生声音。换能器的数量和/或位置可以与图1A中所示出的数量和/或位置不同。

传感器阵列检测头戴式设备100的局部区域内的声音。传感器阵列包括多个声学传感器180。声学传感器180采集从局部区域(例如，房间)中的一个或多个声源发出的声音。每个声学传感器被配置为检测声音并将检测到的声音转换为电子格式(模拟或数字)。声学传感器180可以是声波传感器、传声器、声音换能器或适合于检测声音的类似传感器。

在一些实施例中，一个或多个声学传感器180可以被放置在每只耳朵的耳道中(例如，充当双声道传声器)。在一些实施例中，声学传感器180可以被放置在头戴式设备100的外表面上、被放置在头戴式设备100的内表面上、与头戴式设备100分开(例如，作为某种其它设备的一部分)或它们的某种组合。声学传感器180的数量和/或位置可以与图1A中所示出的数量和/或位置不同。例如，可以增加声学检测位置的数量，以增加收集到的音频信息量以及该信息的灵敏度和/或准确性。声学检测位置可以被定向为使得传声器能够检测佩戴着头戴式设备100的用户周围的宽范围方向上的声音。

音频控制器150对来自传感器阵列的、描述由该传感器阵列检测到的声音的信息进行处理。音频控制器150可以包括处理器和计算机可读存储介质。音频控制器150可以被配置为生成波达方向(direction of arrival，DOA)估计结果、生成声学传递函数(例如，阵列传递函数和/或头部相关传递函数)、追踪声源的位置、在声源的方向上进行波束成形、对声源进行分类、生成用于扬声器160的声音滤波器、或它们的某种组合。

音频控制器150还被配置为对虚拟声源进行空间化。音频控制器150可以接收来自传感器阵列(例如，声学传感器180)的数据，并创建声源在音频系统的局部区域中的地图。音频控制器150可以创建声音滤波器，以在不与局部区域中的声源位于同一位置的位置处对虚拟声源进行空间化。经滤波和空间化的虚拟声源通过换能器阵列(例如，扬声器160)输出。音频控制器150还可以接收来自成像设备130或位置传感器190的输入，并处理输入数据以计算空间化声音滤波器。

位置传感器190响应于头戴式设备100的运动而生成一个或多个测量信号。位置传感器190可以位于头戴式设备100的框架110的一部分上。位置传感器190可以包括惯性测量单元(inertial measurement unit，IMU)。位置传感器190的示例包括：一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的其它合适类型的传感器、用于IMU的误差校正的一类传感器、或它们的某种组合。位置传感器190可以位于IMU的外部、IMU的内部或它们的某种组合。

在一些实施例中，头戴式设备100可以针对头戴式设备100的位置以及局部区域的模型更新而提供即时定位与地图构建(simultaneous localization and mapping，SLAM)。例如，头戴式设备100可以包括生成彩色图像数据的无源摄像头组件(passive cameraassembly，PCA)。PCA可以包括采集局部区域中的一些或全部区域的图像的一个或多个RGB摄像头。在一些实施例中，DCA中的一些或全部成像设备130也可以用作PCA。由PCA采集的图像和由DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型、或它们的某种组合。此外，位置传感器190追踪头戴式设备100在房间内的定位(例如，位置和姿态)。以下结合图6论述了关于头戴式设备100的各部件的附加细节。

图1B是根据一个或多个实施例的被实现为HMD的头戴式设备105的立体图。在描述AR系统和/或MR系统的实施例中，HMD正面的多个部分在可见波段(约380纳米(nm)至750nm)中至少部分透明，并且HMD中位于HMD正面与用户眼睛之间的多个部分至少部分透明(例如，部分透明的电子显示器)。HMD包括前部刚性体115和带175。头戴式设备105包括许多与以上参考图1A所描述的部件相同的部件，但是这些部件被修改为与HMD形状要素结合。例如，HMD包括显示组件、DCA、音频系统和位置传感器190。图1B示出了照明器140、多个扬声器160、多个成像设备130、多个声学传感器180和位置传感器190。扬声器160可以位于各种位置，例如被耦接到带175(如所示出的)、被耦接到前部刚性体115、或者可以被配置为插入用户的耳道内。

参考图2进一步描述的音频系统使用头戴式设备100/105的硬件部件来确定对虚拟声源进行空间化的位置。音频系统可以使用成像设备130来采集物理环境的图像。这些图像被用于绘制佩戴着头戴式设备的用户的物理环境。该物理环境中的对象可以被绘制到虚拟网格中，使得音频系统避免将虚拟声源放置在物理对象的坐标上。声学传感器180可以检测物理环境中(例如，作为传感器180的检测区域的局部区域内)的声源，使得音频系统可以识别哪些物理对象是物理声源，如图4所述。音频控制器150接收来自成像设备130和声学传感器180的传感器数据，并计算对虚拟声源进行空间化的目标定位。音频控制器150将一个或多个过滤器应用于虚拟声源，以便生成空间化的音频内容虚拟声源。换能器阵列向用户呈现空间化的音频内容。空间化的音频内容是像是源自于特定方向和/或目标区域(例如，局部区域中的对象和/或虚拟对象)的音频内容。

图2是根据一个或多个实施例的被配置为对虚拟音频进行空间化的音频系统200的框图。图1A或图1B中的音频系统可以是音频系统200的实施例。音频系统200为用户生成一个或多个声学传递函数。然后，音频系统200可以使用该一个或多个声学传递函数来为用户生成音频内容。在图2的实施例中，音频系统200包括换能器阵列210、传感器阵列220和音频控制器230。音频系统200的一些实施例具有与此处所描述的部件不同的部件。类似地，在一些情况下，各功能可以以与此处所描述的方式不同的方式而分布在各部件之中。

换能器阵列210被配置为呈现音频内容。换能器阵列210包括多个换能器。换能器是提供音频内容的设备，该音频内容包括空间化的虚拟声源。换能器例如可以是扬声器(例如，扬声器160)、组织换能器(例如，组织换能器170)、提供音频内容的某种其它设备、或它们的某种组合。组织换能器可以被配置为用作骨传导换能器或软骨传导换能器。换能器阵列210可以经由空气传导(例如，经由一个或多个扬声器)、经由骨传导(经由一个或多个骨传导换能器)、经由软骨传导音频系统(经由一个或多个软骨传导换能器)或它们的某种组合来呈现音频内容。在一些实施例中，换能器阵列210可以包括一个或多个换能器，以覆盖频率范围的不同部分。例如，可以使用压电式换能器来覆盖频率范围的第一部分，并且使用动圈式换能器来覆盖该频率范围的第二部分。

骨传导换能器通过振动用户头部的骨头/组织来产生声压力波。骨传导换能器可以耦接到头戴式设备的一部分，并且可以被配置为位于耦接到用户头骨的一部分的耳廓后面。骨传导换能器接收来自音频控制器230的振动指令，并基于接收到的指令振动用户头骨的一部分。来自骨传导换能器的振动产生一种组织传播的声压力波，该声压力波绕过鼓膜向用户的耳蜗传播。

软骨传导换能器通过振动用户耳朵的耳软骨的一个或多个部分来产生声压力波。软骨传导换能器可以耦接到头戴式设备的一部分，并且可以被配置为耦接到耳朵的耳软骨的一个或多个部分。例如，软骨传导换能器可以耦接到用户耳朵的耳廓的后部。软骨传导换能器可以位于外耳周围沿耳软骨的任何地方(例如，耳廓、耳屏、耳软骨的某种其它部分、或它们的某种组合)。振动耳软骨的一个或多个部分可以产生：耳道外的空气传播的声压力波；组织传播的声压力波，该组织传播的声压力波引起耳道的某些部分振动从而在耳道内产生空气传播的声压力波；或它们的某种组合。所产生的空气传播的声压力波沿耳道向鼓膜传播。

换能器阵列210根据来自音频控制器230的指令来生成音频内容。在一些实施例中，音频内容被空间化。空间化的音频内容是像是源自于特定的方向和/或目标区域(例如，局部区域中的对象和/或虚拟对象)的音频内容。例如，空间化的音频内容可以使声音像是源自于位于音频系统200的用户房间的另一端的虚拟歌手。换能器阵列210可以接收来自声音空间化模块280和声音滤波器模块290的指令，以提供经滤波的声音或空间化的声音。换能器阵列210可以耦接到可穿戴设备(例如，头戴式设备100或头戴式设备105)。在替代实施例中，换能器阵列210可以是与可穿戴设备分开(例如，耦接到外部控制台)的多个扬声器。

传感器阵列220检测并监测传感器阵列220周围的局部区域内的声音。该局部区域可以包括传感器阵列220的检测范围。传感器阵列220可以包括多个声学传感器，该多个声学传感器各自检测声波的气压变化、并将检测到的声音转换为电子格式(模拟或数字)。多个声学传感器可以位于头戴式设备(例如，头戴式设备100和/或头戴式设备105)上、用户上(例如，在用户的耳道中)、颈带上、或它们的某种组合上。声学传感器例如可以是传声器、振动传感器、加速度计、或它们的任意组合。在一些实施例中，传感器阵列220被配置为使用多个声学传感器中的至少一些声学传感器来监测由换能器阵列210生成的音频内容。增加传感器的数量可以提高描述由换能器阵列210产生的声场和/或来自局部区域的声音的信息(例如，方向性)的准确性。

音频控制器230控制音频系统200的运行。在图2的实施例中，音频控制器230包括数据存储库235、DOA估计模块240、传递函数模块250、追踪模块260、波束成形模块270、声音空间化模块280和声音滤波器模块290。在一些实施例中，音频控制器230可以位于头戴式设备内部。音频控制器230的一些实施例具有与此处所描述的部件不同的部件。类似地，各功能可以以与此处所描述的方式不同的方式而分布在各部件之中。例如，控制器的一些功能可以在头戴式设备外部执行。用户可以选择加入以允许音频控制器230将由头戴式设备采集到的数据传输到头戴式设备外部的系统，并且用户可以选择对访问任何此类数据进行控制的隐私设置。

数据存储库235存储供音频系统200使用的数据。数据存储库235中的数据可以包括：在音频系统200的局部区域中记录的声音；音频内容；头部相关传递函数(head-relatedtransfer function，HRTF)；一个或多个传感器的传递函数；多个声学传感器中的一个或多个声学传感器的阵列传递函数(array transfer function，ATF)；声源的位置；虚拟声源的位置；局部区域的虚拟模型；波达方向估计；声音滤波器；频谱分布；声源的频谱分布；空间化的约束；用例；以及与由音频系统200进行使用相关的其它数据；或它们的任意组合。例如，数据存储库235可以存储描述音频系统200已采集的声音或语音的频率内容的频谱分布。数据存储库235还可以存储音频系统200的位置数据。

用户可以选择加入以允许数据存储库235记录由音频系统200采集的数据。在一些实施例中，音频系统200可以采用始终记录(always on recording)，其中音频系统200记录由音频系统200采集的所有声音，以例如通过允许音频系统凭借其先前记录的传递函数识别声源来改善用户的体验。用户可以选择加入或选择退出，以允许或阻止音频系统200记录、存储或向其它实体发送所记录的数据。

DOA估计模块240被配置为部分地基于来自传感器阵列220的信息，来定位局部区域中的声源。定位是确定声源相对于音频系统200的用户所处的位置的过程。DOA估计模块240执行DOA分析，以定位局部区域内的一个或多个声源。DOA分析可以包括：分析每个声音在传感器阵列220处的强度、频谱和/或到达时间，以确定声音所源自的方向。在一些情况下，DOA分析可以包括用于分析音频系统200所处的周围声学环境的任何合适的算法。DOA估计模块240可以用于检测音频系统200的物理环境中的对象和声源的位置，使得音频控制器230可以设置约束以避免将虚拟声源空间化在与物理对象或声源相同的位置。

例如，DOA分析可以被设计为接收来自传感器阵列220的输入信号，并且将数字信号处理算法应用于这些输入信号以估计波达方向。这些算法例如可以包括延迟求和算法，在该延迟求和算法中，对输入信号进行采样，并且对得到的采样信号的加权版本和延迟版本一起求平均以确定DOA。还可以实现最小均方(least mean squared，LMS)算法来创建自适应滤波器。然后，该自适应滤波器可以用于识别例如信号强度的差或到达时间的差。然后，这些差可以用于估计DOA。在另一实施例中，可以通过将输入信号转换到频域并且选择时频(time-frequency，TF)域内的特定频率间隔(bin)以进行处理来确定DOA。可以对每个所选择的TF频率间隔进行处理，以确定该频率间隔是否包括音频频谱中具有直接路径音频信号的部分。然后，可以对具有直接路径信号的部分的那些频率间隔进行分析，以识别传感器阵列220接收到该直接路径音频信号时所处的角度。然后，所确定的角度可以用于识别接收到的输入信号的DOA。以上未列出的其它算法还可以单独使用或与以上算法组合使用来确定DOA。

在一些实施例中，DOA估计模块240也可以确定与音频系统200在局部区域内的绝对位置相关的DOA。可以从外部系统(例如，头戴式设备的某种其它部件、人工现实控制台、地图构建服务器、位置传感器(例如，位置传感器190)等)接收传感器阵列220的位置。外部系统可以创建局部区域的虚拟模型，在该虚拟模型中绘制了局部区域和音频系统200的位置。接收到的位置信息可以包括音频系统200的一些部分或全部部分(例如，传感器阵列220)的位置和/或方位。DOA估计模块240可以基于接收到的位置信息来更新所估计的DOA。

传递函数模块250被配置为生成一个或多个声学传递函数。一般而言，传递函数是针对每个可能的输入值给出对应的输出值的数学函数。传递函数模块250基于检测到的声音的参数，生成与音频系统相关联的一个或多个声学传递函数。声学传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其它类型的声学传递函数、或它们的某种组合。ATF表征传声器如何接收来自空间中的点的声音。

ATF包括多个传递函数，这些传递函数表征声源与传感器阵列220中的多个声学传感器所接收的对应的声音之间的关系。因此，针对一声源，对于传感器阵列220中的每个声学传感器均存在对应的传递函数。并且该组传递函数被统称为ATF。因此，对于每个声源，均存在对应的ATF。注意，该声源例如可以是在局部区域中产生声音的某人或某物、用户、或换能器阵列210中的一个或多个换能器。由于在声音向用户的耳朵行进时会影响该声音的个人生理结构(例如，耳朵形状、肩膀等)，相对于传感器阵列220的特定声源位置的ATF可能因用户的不同而有所区别。因此，传感器阵列220的各ATF对于音频系统200的每个用户是个性化的。

在一些实施例中，传递函数模块250确定音频系统200的用户的一个或多个HRTF。传递函数模块250可以确定音频系统的用户的HRFT来更准确地过滤声源，以进行空间化。HRTF表征耳朵如何接收来自空间中的点的声音。由于在声音向人的耳朵行进时会影响该声音的人的生理结构(例如，耳朵形状、肩膀等)，相对于人的特定源位置的HRTF对于这个人的每只耳朵而言是独特的(从而对于这个人而言是独特的)。HRFT可以表示与用户的正中矢状平面对齐的用户的传递函数。换句话说，HRFT表示用户发出的声音沿正中矢状平面的传递函数。在一些实施例中，传递函数模块250可以使用校准过程来确定用户的HRTF。在一些实施例中，传递函数模块250可以向远程系统提供关于用户的信息。用户可以调整隐私设置，以允许或防止传递函数模块250向任何远程系统提供关于用户的信息。远程系统例如使用机器学习来确定为用户定制的一组HRTF，并且将定制的该组HRTF提供给音频系统200。

追踪模块260被配置为追踪一个或多个声源的位置。追踪模块260可以将多个当前DOA估计结果进行比较，并且将这些当前DOA估计结果与先前DOA估计结果的存储历史进行比较。在一些实施例中，音频系统200可以按照周期性时间表(例如，每秒一次或每毫秒一次)来重新计算DOA估计结果。追踪模块可以将当前DOA估计结果与先前DOA估计结果进行比较，并且追踪模块260可以响应于声源的DOA估计结果的变化来确定声源发生了移动。在一些实施例中，追踪模块260可以基于从头戴式设备或某种其它外部源接收到的视觉信息来检测位置的变化。追踪模块260可以追踪一个或多个声源随时间的移动。在声音空间化的情况下，追踪模块260可以追踪音频系统200的局部区域中的声源，并创建这些声源的位置的地图。声音空间化模块280可以使用该地图来避免将虚拟声源与局部区域中所存在的声源定位在同一位置。追踪模块260可以存储声源的数量值以及每个声源在每个时间点的位置。追踪模块260可以响应于声源的数量值或位置的变化来确定声源发生了移动。追踪模块260可以计算局域方差(localization variance)的估计结果。局域方差可以用作每次确定移动变化的置信水平。

波束成形模块270被配置为对一个或多个ATF进行处理，以选择性地突出来自某个区域内的声源的声音，同时不突出来自其它区域的声音。在对传感器阵列220检测到的声音进行分析时，波束成形模块270可以组合来自不同声学传感器的信息，以突出与局部区域的特定区相关联的声音，同时不突出来自该区之外的声音。波束成形模块270例如可以基于来自DOA估计模块240和追踪模块260的不同DOA估计结果，将与来自特定声源的声音相关联的音频信号与局部区域中的其它声源隔离开。因此，波束成形模块270可以对局部区域中的离散声源进行选择性地分析。在一些实施例中，波束成形模块270可以增强来自声源的信号。例如，波束成形模块270可以应用声音滤波器，该声音滤波器消除高于某些频率的信号、低于某些频率的信号或位于某些频率之间的信号。信号增强用于相对于由传感器阵列220检测到的其它声音来增强与给定的所识别的声源相关联的声音。

音频系统200的声音空间化模块280确定放置虚拟声源的目标定位。可以基于约束来选择对虚拟声源的放置，以优化声音的清晰度或AR体验的沉浸性。约束可以基于由声音空间化模块280利用来自音频系统200或头戴式设备的数据而识别的用例。例如，音频系统的用户可以激活音频系统正向用户提供导航提示的模式。该模式的激活作为所识别的用例而被传送到声音空间化模块280。声音空间化模块可以访问与所识别的用例相关的约束的数据库，以便生成空间化的虚拟声源。例如，与导航提示相关联的约束可以包括在用户应该行进的方向上对提示声音进行空间化。一些用例可以具有多个相关联的约束，在这种情况下，可以按重要性顺序对这些约束进行加权或排序，以避免各约束冲突。约束还可以基于除用例之外的因素，例如音频系统的物理环境。

声音空间化模块280可以与追踪模块260通信以在声源改变时更新声源的位置，并且作为响应更新虚拟声源应该被空间化的位置。例如，声音空间化模块280可以具有这样的约束：虚拟声源不应与物理环境中的对象和声源位于同一位置或不应处于物理环境中的对象和声源的阈值距离内。因此，模块280可以随着物理环境中的声源改变位置而改变其对虚拟声源进行空间化的位置。声音空间化模块280可以使用传递函数模块250来创建声源的传递函数，或者结合声音滤波器模块290来计算用于对虚拟声源进行空间化的声音滤波器的传递函数。

在涉及电话会议的另一用例中，声音空间化模块280可以基于约束来对虚拟声源(例如，通话参与者语音)进行空间化，以改善清晰度。在电话会议之前，音频系统可以收集音频系统的用户先前已与其进行过电话会议的电话会议参与者的频谱分布。音频系统可以存储用户的一个或多个联系人的频谱分布。频谱分布可以由音频系统计算，或者可以由其他通话参与者的音频系统向用户的音频系统发送。类似地，音频系统可以向其它的通话参与者的音频系统发送用户的频谱分布。频谱分布描述了通话参与者的语音中所存在的音频频率的频谱。频谱分布可以被声音空间化模块280用来设置约束。此外，音频系统还可以计算每个语音的高频与低频(high frequency to low frequency，HF/LF)比率。

声音空间化模块280基于通话参与者的频谱分布、HF/LF比率、或它们的某种组合来对通话参与者的虚拟声源进行空间化。音频系统分析频谱分布以表征语音中所存在的频率，并基于频谱分布确定对包括语音的虚拟声源进行空间化的角度。对频谱分布的分析可以包括绘制相互比较的频谱分布。例如，可以根据各频谱分布的HF/LF值对这些频谱分布进行排序。然后，可以根据该排序来对每个语音进行空间化，使得具有HF/LF值较高的频谱分布的声音被空间化到引起低ITD的定位处，并且具有较低HF/LF值的声音被空间化到引起较高ITD的定位处。在该实施例中，具有最高频率语音的通话参与者可以被空间化为最接近用户的正中矢状平面，而其他参与者可以被空间化到较高的方位角上，从而远离用户的正中矢状平面。在多个通话参与者具有HF/LF值相似的频谱分布的情况下，这些通话参与者的语音可以被空间化为彼此相距所设置的距离，以避免与他们的语音相关联的虚拟声音的重叠。例如，声音空间化模块280可以遵循约束来对在其方位角上具有至少10度分离的所有虚拟声音进行空间化。

一旦电话会议开始，具有未知频谱分布的通话参与者就可以被空间化到默认位置，直到音频系统计算出其频谱分布。基于具有已知频谱分布的通话参与者的频谱分布来将他们空间化到目标方位角。如果音频系统注意到频谱分布已轻微改变、或者如果多个通话参与者具有相似的频谱分布且需要进行重新空间化以避免将多个通话参与者的虚拟声源定位到同一位置，则可以在整个通话中更新目标角度。在一些实施例中，各通话参与者的频谱分布是基于频谱分布的特性来绘制或描绘的。在各个实施例中，之间的地图基于所描绘的特性而具有多个形状(例如，线性、S形)，然而每个频谱分布之间的关系保持不变。

参考图5进一步描述了对电话会议参与者的放置。

声音滤波器模块290生成换能器阵列210的声音滤波器。在一些实施例中，声音滤波器使音频内容被空间化，使得该音频内容像是源自于目标区域。声音滤波器模块290可以使用HRTF和/或声学参数来生成声音滤波器。声学参数描述局部区域的声学特性。声学参数例如可以包括，混响时间、混响水平、房间脉冲响应等。在一些实施例中，声音滤波器模块290计算多个声学参数中的一个或多个声学参数。在一些实施例中，声音滤波器模块290从(例如，如以下关于图6所描述的)地图构建服务器请求声学参数。声音滤波器模块290向换能器阵列210提供声音滤波器。在一些实施例中，声音滤波器可以根据频率使声音正放大或负放大。

图3是示出了根据一个或多个实施例的用于对音频内容进行空间化的过程的流程图。图3所示出的过程300可以由音频系统(例如，音频系统200)的各部件执行。在其它实施例中，其它实体可以执行图3中的各步骤中的一些或全部。各实施例可以包括不同的步骤和/或附加的步骤，或者可以以不同的顺序执行各步骤。

音频系统200使用传声器阵列监测310局部区域中的声音。传声器阵列可以被配置为在音频系统200正在使用时始终开启，或者可以以所设置的频率在一时间间隔内进行采样。音频系统200可以被配置为仅收集高于特定分贝范围的音频数据，以使有利于进行进一步处理。例如，音频系统可能无法处理太安静的声源。

音频系统200识别320局部区域中的声源。音频控制器(例如，音频控制器150)可以被配置为获取由传声器阵列收集的样本并处理音频数据。可以分析来自传声器阵列的音频数据的空间特性、时间特性或频率特性。在一些实施例中，音频控制器可以将音频数据与先前由传声器阵列接收、并本地存储在设备(例如，头戴式设备100/105)中或存储在与该设备通信的服务器中的数据进行比较。

音频系统200确定330局部区域中的声源的位置。可以根据以下项来确定声源的位置：经由成像系统(例如，成像设备130)、深度摄像头组件收集到的数据；由传声器阵列采集到的声音；或它们的某种组合。从成像系统、DCA、传声器阵列、或它们的某种组合收集到的数据由音频系统200的控制器例如通过DOA分析或图像处理来进行处理，以确定声源的位置。响应于确定局部区域中的声源的位置，音频系统可以设置如下约束：该约束规定虚拟声源的目标定位不与声源位于同一位置或不在声源的阈值距离内。音频系统可以附加地设置约束，以不将虚拟声源定位在局部区域中所检测的未被识别为声源的对象的阈值距离内。

音频系统200基于一个或多个约束来生成340虚拟声源的目标定位。该一个或多个约束包括目标定位距所确定的所识别声源的位置中的每个位置至少阈值距离。音频系统还可以识别用例，并部分地基于所识别的用例来选择约束。参考图2、图4和图5进一步描述了用例和相关的约束。音频系统可以具有用于一特定用例的多个约束，在这种情况下，音频系统可以对这些约束进行排序或加权以确定目标定位。

音频系统200部分地基于目标定位来生成350一个或多个声音滤波器。声音滤波器增强或衰减虚拟声源的特性，以使其看起来好像虚拟声源位于特定位置。将声音滤波器应用于虚拟声源可以涉及诸如将虚拟声源的传递函数与滤波器的传递函数进行卷积等计算。也可以使用其它计算。

音频系统200使用该一个或多个声音滤波器来呈现360空间化的音频内容。一旦生成了经滤波的虚拟声源，音频系统就将其作为空间化的音频内容经由换能器阵列来向用户呈现。

在一些实施例中，一旦空间化的音频内容已被呈现，音频系统就可以重新评估虚拟声源的定位并做出改变以纠正错误和/或适应环境的改变。

图4是根据一个或多个实施例的音频系统的示例用例，其中音频系统被用于向用户提供导航提示。图4所示出的用例包括正在物理环境中移动的、佩戴着头戴式设备410(例如头戴式设备100或105)的用户400。头戴式设备410的音频系统(例如音频系统200)可以监测局部区域440中的声音。在所示的用例中，用户400可以接收来自头戴式设备410的行走方向。例如，头戴式设备可以对虚拟声源430进行空间化，该虚拟声源是指示用户400向右转以到达其目的地的声音。

音频系统200受制于一个或多个约束而对局部区域440中的虚拟声源430进行空间化。例如，一个约束可以是虚拟声源不被空间化在声源420的阈值距离450内(例如，不与声源420位于同一位置)。阈值距离450至少是用户能够将声音分辨为来自声源或来自虚拟源的距离。另一约束可以是在与用户正接收的导航提示相对应的方向上将虚拟声源430空间化到目标定位。例如，如图4所示，音频系统200使用虚拟声源430来指示用户向右转，并且化虚拟声源430被空间化到用户的右侧)。

在一些实施例中，约束可以具有与其相关联的权重或偏好，使得如果有任何约束冲突，则音频系统200可以选择要遵循的约束。如图所示，遵循了在用户应该行走的方向上对虚拟声源进行空间化的约束，并且虚拟声源430被放置在用户的右侧，因为虚拟声源430指示用户400向右转。在用户的视角的同一方向上，该配置中的虚拟声源可以在物理声源420(例如鸟鸣)的阈值距离450内。在一些实施例中，音频系统可以在放置虚拟声源之后重新评估物理环境，并根据清晰度和减少认知负荷的需要来进行较小的空间调整。

图5是根据一个或多个实施例的处于电话会议中的用户500的自顶向下视图，该电话会议具有被表示为空间化的虚拟声源的多个会议参与者。如图所示，头戴式设备502的音频系统(例如，音频系统200)正促进用户500与多个会议参与者之间的电话会议。头戴式设备500的音频系统(例如音频系统200)确定每个语音的频谱分布。每个语音的频谱分布可以由电话会议参与者所使用的单独的音频系统来确定。由一个或多个通话参与者使用的一个或多个音频系统可以确定用户的频谱分布，并向由其他通话参与者使用的音频系统发送该频谱分布。在一些实施例中，每个通话参与者可以指示确定其频谱分布是否可以被发送到其它音频系统的隐私偏好。

第一声源504(例如，电话会议场景中的多个语音中的一语音)被确定为具有低HF/LF比率，并且因此在利用导致更横向的位置的高ITD来进行空间化时可以更容易理解。音频系统以相对于用户500的正中矢状平面516的第一角度506来对声源504进行空间化。第一角度506处于大于声源504的中间边界518的方位。第二声源508被确定为具有高HF/LF比率，并且因此被滤波成虚拟声源，使得以第二角度506对其进行空间化，该第二角度处于正中矢状平面516与中间边界518之间的方位。第三声源512被确定为具有接近1(例如，在1的+/-10％内)的HF/LF比率。因此，第三声源512被滤波成虚拟声源，使得以第三角度514对其进行空间化，该第三角度具有位于中间边界518处或在该中间边界的阈值内(例如在该中间边界的+/-10度内)的方位。

在一些实施例中，音频系统可以基于常规对话距离或其它用例约束，在距用户500的固定距离(例如，径向距离)处对虚拟声源进行空间化。在其它实施例中，例如在各玩家在游戏中距用户500不同距离的多玩家游戏的用例中，音频系统可以在距用户500的不同距离处对虚拟声源进行空间化。音频系统还可以具有阈值距离，在该阈值距离处，音频系统将多个虚拟声源空间化为彼此远离。在该情况下，如果电话会议的两个参与者具有频谱分布相似的语音，则音频系统可以将这些语音空间化为相隔阈值距离(例如，10度)，使得这些语音是可区分的)。在存在太多通话参与者而不能以相对于用户的方位角不重叠地进行安排的情况下，音频系统还可以以相对于用户的不同高度来对多个虚拟声源进行空间化。

在多声音电话会议用例中，音频系统可以以固定的高度对各声源进行空间化。可以以所确定的角度对各虚拟声源进行空间化，并在与头戴式设备502相同的高度上对齐各虚拟声源，以模拟各电话会议参与者都从大致同一高度讲话。在其它实施例中，音频系统可以基于约束来选择对每个虚拟声源进行空间化的高度。例如，用例可以是虚拟演示，其中用户和其它声源在比演示者的高度更低的高度上对齐，以模拟演示者站着对坐着的群组讲话。

根据诸如用例等约束，音频系统可以对多个虚拟声源进行空间化，使得这些虚拟声源被固定到用户的视场或物理环境。例如，在图4中的接收行走方向的用例中，一旦虚拟声源被空间化，该虚拟声源就可以以世界为中心的布置而被固定到环境。以世界为中心的布置使得即使用户转身离开虚拟声源，该虚拟声源也将保持在用户的物理环境中的相同定位，从而展示用户应该去哪个方向。在图5的电话会议用例中，虚拟声源可以与用户的物理环境无关，因此应该以头部为中心的布置而相对于用户的视场被固定。以头部为中心的布置使得即使用户转动其头部，各虚拟声源也将随着用户的运动而平移，以保持在相对于用户的正中矢状平面的位置，从而改善清晰度。

图6是根据一个或多个实施例的包括头戴式设备605的系统600。在一些实施例中，头戴式设备605可以是图1A中的头戴式设备100或图1B中的头戴式设备105。系统600可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或它们的某种组合)中运行。图6所示出的系统600包括头戴式设备605、耦接到控制台615的输入/输出(input/output，I/O)接口610、网络620以及地图构建服务器625。尽管图6示出了包括一个头戴式设备605和一个I/O接口610的示例系统600，但是在其它实施例中，系统600可以包括任意数量的这些部件。例如，可以存在多个头戴式设备，该多个头戴式设备各自具有相关联的I/O接口610，其中每个头戴式设备和I/O接口610与控制台615通信。在替代配置中，系统600可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图6中所示出的一个或多个部件而描述的功能可以以与结合图6而描述的方式不同的方式而分布在各部件之中。例如，控制台615的一些或全部功能可以由头戴式设备605来提供。

头戴式设备605包括显示组件630、光学块635、一个或多个位置传感器640以及DCA645。头戴式设备605的一些实施例具有与结合图6而描述的部件不同的部件。另外，在其它实施例中，由结合图6而描述的各种部件所提供的功能可以不同地分布在头戴式设备605的各部件之中，或者在远离头戴式设备605的单独组件中体现。

显示组件630根据从控制台615接收到的数据向用户显示内容。显示组件630使用一个或多个显示元件(例如，显示元件120)来显示内容。显示元件例如可以是电子显示器。在各个实施例中，显示组件630包括单个显示元件或多个显示元件(例如，用户的每只眼睛一个显示器)。电子显示器的示例包括：液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light emitting diode，OLED)显示器、有源矩阵有机发光二极管显示器(active-matrix organic light-emitting diode display，AMOLED)、波导显示器、某种其它显示器、或它们的某种组合。注意，在一些实施例中，显示元件120还可以包括光学块635的一些或全部功能。

光学块635可以放大从电子显示器接收到的图像光、校正与该图像光相关联的光学误差、并向头戴式设备605的一个或两个适眼区呈现经校正的图像光。在各个实施例中，光学块635包括一个或多个光学元件。包括在光学块635中的示例光学元件包括：光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其它合适的光学元件。此外，光学块635可以包括不同光学元件的组合。在一些实施例中，光学块635中的一个或多个光学元件可以具有一个或多个涂层，例如部分反射涂层或抗反射涂层。

通过光学块635对图像光的放大和聚焦允许电子显示器与更大的显示器相比，在物理上更小、重量更轻并且功耗更低。另外，放大可以增大电子显示器所呈现的内容的视场。例如，所显示的内容的视场使得所显示的内容是使用几乎全部的用户视场(例如，约110度对角线)来呈现的，并且在一些情况下，所显示的内容是使用全部的用户视场来呈现的。另外，在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块635可以被设计为校正一种或多种类型的光学误差。光学误差的示例包括桶形失真或枕形失真、纵向色差或横向色差。其它类型的光学误差还可以包括：球面像差，色差，或由于透镜场曲、像散所引起的误差，或任何其它类型的光学误差。在一些实施例中，提供给电子显示器用于显示的内容是预失真的，并且光学块635在其接收到来自电子显示器的图像光(该图像光是基于该内容而生成的)时，校正该失真。

位置传感器640是生成指示头戴式设备605的位置的数据的电子设备。位置传感器640响应于头戴式设备605的运动而生成一个或多个测量信号。位置传感器190是位置传感器640的实施例。位置传感器640的示例包括：一个或多个IMU、一个或多个加速度计、一个或多个陀螺仪、一个或多个磁力计、检测运动的另一合适类型的传感器、或它们的某种组合。位置传感器640可以包括用于测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量转动运动(例如，俯仰、左右摇摆、侧倾)的多个陀螺仪。在一些实施例中，IMU快速地对测量信号进行采样，并且根据所采样的数据计算头戴式设备605的估计位置。例如，IMU随时间对从加速度计接收到的测量信号进行积分来估计速度矢量，并且随时间对速度矢量进行积分来确定头戴式设备605上的参考点的估计位置。参考点是可以用于描述头戴式设备605的位置的点。尽管参考点通常可以被定义为空间中的点，然而，该参考点实际上被定义为头戴式设备605内的点。

DCA 645生成局部区域的一部分的深度信息。DCA包括一个或多个成像设备以及DCA控制器。DCA 645还可以包括照明器。以上关于图1A对DCA 645的操作和结构进行了描述。

音频系统650向头戴式设备605的用户提供音频内容。音频系统650是上述音频系统200的实施例。音频系统650可以包括一个或多个声学传感器、一个或多个换能器和音频控制器。音频系统650可以向用户提供空间化的音频内容。在一些实施例中，音频系统650可以通过网络620请求来自地图构建服务器625的声学参数。声学参数描述了局部区域的一个或多个声学特性(例如，房间脉冲响应、混响时间、混响水平等)。音频系统650可以提供例如来自DCA 645的、描述局部区域的至少一部分的信息和/或来自位置传感器640的、头戴式设备605的位置信息。音频系统650可以使用从地图构建服务器625接收到的一个或多个声学参数来生成一个或多个声音滤波器，并且使用所述声音滤波器来向用户提供音频内容。

头戴式设备605的音频系统650被配置为基于诸如用例和物理环境等约束来对虚拟声源进行空间化。音频系统650可以获取来自位置传感器640的输入以确定头戴式设备在物理环境中的位置。音频系统650还可以获取来自DCA 645的输入，以确定从头戴式设备605到物理环境中的可能是声源的对象的距离。音频系统650可以向控制台615发送信息并接收来自该控制台的信息，该信息例如为来自应用存储库655的游戏数据。根据该实施例，音频系统650可以根据需要与I/O接口610、网络620和地图构建服务器625通信。

音频系统650还被配置为在电话会议的用例中对虚拟声源进行空间化。在该用例中，音频系统650可以确定电话会议的参与者的频谱分布，或者经由网络620接收来自不同音频系统的频谱分布。在一些实施例中，音频系统650可以与显示组件630通信，以提供声源或空间化的虚拟声源的视觉表示。

I/O接口610是允许用户向控制台615发送动作请求并从控制台615接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束采集图像数据或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口610可以包括一个或多个输入设备。示例输入设备包括：键盘、鼠标、游戏控制器或用于接收动作请求并向控制台615传输动作请求的任何其它合适的设备。由I/O接口610接收到的动作请求被传输到控制台615，该控制台执行与该动作请求相对应的动作。在一些实施例中，I/O接口610包括采集校准数据的IMU，该校准数据指示I/O接口610相对于I/O接口610的初始位置的估计位置。在一些实施例中，I/O接口610可以根据从控制台615接收到的指令来向用户提供触觉反馈。例如，当接收到动作请求时提供触觉反馈，或者控制台615在该控制台615执行动作时向I/O接口610传输指令，从而使得I/O接口610生成触觉反馈。

控制台615根据从以下中的一者或多者接收到的信息来向头戴式设备605提供内容以供处理：DCA 645、头戴式设备605和I/O接口610。在图6所示的示例中，控制台615包括应用存储库655、追踪模块660和引擎665。控制台615的一些实施例具有与结合图6而描述的模块或部件不同的模块或部件。类似地，以下进一步描述的功能可以以与结合图6而描述的方式不同的方式而分布在控制台615的各部件之中。在一些实施例中，本文所论述的关于控制台615的功能可以在头戴式设备605或远程系统中实现。

应用存储库655存储供控制台615执行的一个或多个应用。应用是一组指令，所述指令在被处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由头戴式设备605或I/O接口610的移动而从用户接收到的输入。应用的示例包括：游戏应用、会议应用、视频播放应用或其它合适的应用。

追踪模块660使用来自DCA 645、一个或多个位置传感器640或它们的某种组合的信息，来追踪头戴式设备605的移动或I/O接口610的移动。例如，追踪模块660基于来自头戴式设备605的信息，确定头戴式设备605的参考点在局部区域的绘图中的位置。追踪模块660还可以确定对象或虚拟对象的位置。另外，在一些实施例中，追踪模块660可以使用来自位置传感器640的指示头戴式设备605的位置的数据的一部分以及来自DCA 645的局部区域的表示，来预测头戴式设备605的未来位置。追踪模块660向引擎665提供头戴式设备605或I/O接口610的估计的或预测的未来位置。

引擎665执行应用，并且接收来自追踪模块660的头戴式设备605的位置信息、加速度信息、速度信息、预测的未来位置或它们的某种组合。引擎665基于接收到的信息，来确定待向头戴式设备605提供的用于呈现给用户的内容。例如，如果接收到的信息指示用户已经看向左边，则引擎665生成用于头戴式设备605的以下内容：该内容反映了用户在虚拟局部区域或局部区域(利用附加内容增强了该局部区域)中的移动。另外，引擎665响应于从I/O接口610接收到的动作请求，在控制台615上所执行的应用内执行动作，并向用户提供该动作已被执行的反馈。已提供的反馈可以是经由头戴式设备605的视觉反馈或听觉反馈，或者是经由I/O接口610的触觉反馈。

网络620将头戴式设备605和/或控制台615耦接到地图构建服务器625。网络620可以包括使用无线通信系统和/或有线通信系统这两者的局域网和/或广域网的任意组合。例如，网络620可以包括互联网以及移动电话网。在一个实施例中，网络620使用标准通信技术和/或标准通信协议。因此，网络620可以包括使用如下技术的链路：所述技术例如为以太网、802.11、全球微波接入互操作(worldwide interoperability for microwave access，WiMAX)、2G/3G/4G移动通信协议、数字用户线路(digital subscriber line，DSL)、异步传输模式(asynchronous transfer mode，ATM)、无限带宽(InfiniBand)、高速外设组件互连高级交换(PCI Express Advanced Switching)等。类似地，在网络620上使用的网络协议可以包括多协议标签交换(multiprotocol label switching，MPLS)、传输控制协议/网际协议(transmission control protocol/Internet protocol，TCP/IP)、用户数据报协议(User Datagram Protocol，UDP)、超文本传输协议(hypertext transport protocol，HTTP)、简单邮件传输协议(simple mail transfer protocol，SMTP)、文件传输协议(filetransfer protocol，FTP)等。通过网络620交换的数据可以使用以下技术和/或格式来表示：该技术和/或格式包括二进制形式的图像数据(例如可移植网络图形(PortableNetwork Graphics，PNG))、超文本标记语言(hypertext markup language，HTML)、可扩展标记语言(extensible markup language，XML)等。另外，可以使用常规加密技术对全部或一些链路进行加密，这些常规加密技术例如为安全套接层(secure sockets layer，SSL)、传输层安全协议(transport layer security，TLS)、虚拟专用网络(virtual privatenetwork，VPN)、互联网安全协议(Internet Protocol security，IPsec)等。

地图构建服务器625可以包括存储有描述多个空间的虚拟模型的数据库，其中，该虚拟模型中的一个位置与头戴式设备605的局部区域的当前配置相对应。地图构建服务器625经由网络620从头戴式设备605接收描述局部区域的至少一部分的信息和/或局部区域的位置信息。描述局部区域的信息可以包括局部区域中的人的频谱分布，该频谱分布被传输到头戴式设备605以帮助该头戴式设备识别其之前遇到过的频谱分布。用户可以调整隐私设置以允许或防止头戴式设备605将包括频谱特征的信息发送到地图构建服务器625。地图构建服务器625基于接收到的信息和/或位置信息，确定该虚拟模型中与头戴式设备605的局部区域相关联的位置。地图构建服务器625部分地基于所确定的在该虚拟模型中的位置以及与所确定的位置相关联的任何声学参数，确定(例如，检索)与局部区域相关联的一个或多个声学参数。地图构建服务器625可以向头戴式设备605发送局部区域的位置以及与局部区域相关联的任意声学参数值。

系统600中的一个或多个部件可以包含存储用户数据元素的一个或多个隐私设置的隐私模块。用户数据元素对用户或头戴式设备605进行了描述。例如，用户数据元素可以描述用户的身体特征、由用户执行的动作、头戴式设备605的用户的位置、头戴式设备605的位置、用户的HRTF等。可以以任何合适的方式存储用户数据元素的隐私设置(或“访问设置”)，这些合适的方式例如为，与用户数据元素相关联地存储、存储在授权服务器上的索引中、以另一合适的方式存储或它们的任意合适的组合。

用户数据元素的隐私设置指定可以如何访问、存储或以其它方式使用(例如，查看、共享、修改、复制、执行、显现或识别)用户数据元素(或与用户数据元素相关联的特定信息)。在一些实施例中，用户数据元素的隐私设置可以指定可能无法访问与用户数据元素相关联的某些信息的实体的“黑名单”。与用户数据元素相关联的隐私设置可以指定允许访问或拒绝访问的任何合适的粒度。例如，一些实体可以具有查明特定用户数据元素存在的权限，一些实体可以具有查看特定用户数据元素的内容的权限，并且一些实体可以具有修改特定用户数据元素的权限。隐私设置可以允许用户允许其它实体在有限的时间段内访问或存储用户数据元素。

隐私设置可以允许用户指定可访问用户数据元素的一个或多个地理位置。对用户数据元素的访问或拒绝访问可以取决于试图访问用户数据元素的实体的地理位置。例如，用户可以允许访问用户数据元素，并且指定仅在用户处于特定位置时用户数据元素对于实体而言是可访问的。如果用户离开该特定位置，则用户数据元素对于该实体而言可能不再是可访问的。作为另一示例，用户可以指定用户数据元素仅对于距用户阈值距离内的实体(例如与该用户处于相同的局部区域内的头戴式设备的另一用户)而言是可访问的。如果用户随后改变位置，则具有对该用户数据元素的访问权的实体可能失去访问权，而一组新实体在它们来到用户的阈值距离内时可以获得访问权。

系统600可以包括用于实施隐私设置的一个或多个授权/隐私服务器。来自实体的、针对特定用户数据元素的请求可以识别与该请求相关联的实体，并且如果授权服务器基于与该用户数据元素相关联的隐私设置确定该实体被授权访问该用户数据元素，则可以仅向该实体发送该用户数据元素。如果请求实体未被授权访问该用户数据元素，则授权服务器可以防止所请求的用户数据元素被检索或者可以防止所请求的用户数据元素被发送到该实体。尽管本公开描述了以特定方式实施隐私设置，但是本公开考虑了以任何合适的方式实施隐私设置。

附加配置信息

已经出于说明的目的呈现了实施例的以上描述；这并不旨在是详尽的或者将专利权限制为所公开的精确形式。相关领域的技术人员可以理解的是，考虑到以上公开内容，许多修改和变型是可能的。

本描述的一些部分在对信息进行操作的算法和符号表示方面描述了各实施例。这些算法描述和表示通常被数据处理领域的技术人员用来向本领域的其它技术人员有效地传达其工作的实质内容。尽管在功能上、计算上或逻辑上对这些操作进行了描述，但这些操作被理解为由计算机程序或等效电路或微代码等实现。此外，在不失一般性的情况下，有时将对这些操作的布置称为模块也被证明是方便的。所描述的操作和它们的相关联的模块可以被实施在软件、固件、硬件或它们的任意组合中。

本文所描述的各步骤、操作或过程中的任何可以使用一个或多个硬件或软件模块单独地执行或实现，或者与其它设备组合地执行或实现。在一个实施例中，使用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，该计算机程序代码可以被计算机处理器执行，以执行所描述的步骤、操作或过程中的任何或全部步骤、操作或过程。

各实施例还可以涉及一种用于执行本文中的操作的装置。该装置可以为所需目的而专门构造，和/或该装置可以包括通用计算设备，该通用计算设备由存储在计算机中的计算机程序选择性地激活或重新配置。此类计算机程序可以存储在可耦接到计算机系统总线的非暂态有形计算机可读存储介质中、或适合于存储电子指令的任何类型的介质中。此外，在本说明书中提及的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以用于增加计算能力的架构。

各实施例还可以涉及一种由本文所描述的计算过程产生的产品。此类产品可以包括从计算过程得到的信息，其中该信息被存储在非暂态有形计算机可读存储介质上并且可以包括本文所描述的计算机程序产品或其它数据组合的任何实施例。

最后，本说明书中所使用的语言主要是出于可读性和指导目的而选择的，并且该语言可能不是为了界定或限制专利权而选择的。因此，旨在专利权的范围不受本具体实施方式的限制，而是受基于本文的申请上公布的任何权利要求的限制。因此，各实施例的公开内容旨在对专利权的范围进行说明而非限制，该专利权的范围在以下权利要求中得到阐述。

Claims

1.一种音频系统，包括：

传声器阵列，所述传声器阵列被配置为监测局部区域中的声音；

控制器，所述控制器被配置为：

使用所监测的所述声音来识别所述局部区域内的声源；

确定所述声源的位置；

基于一个或多个约束来确定虚拟声源的目标定位，所述一个或多个约束包括所述目标定位距所确定的所述位置中的每个位置至少阈值距离；

部分地基于所述目标定位生成一个或多个声音滤波器；以及

换能器阵列，所述换能器阵列被配置为部分地基于所述一个或多个声音滤波器来呈现包括所述虚拟声源的空间化的音频内容。

2.根据权利要求1所述的音频系统，其中，所述控制器进一步被配置为：

分析所述声源的包括空间属性、时间属性和频率属性的特性；以及

基于所分析的所述声源的所述特性生成一个或多个约束。

3.根据权利要求1所述的音频系统，其中，所述虚拟声源是第一通话参与者的语音，并且所述控制器还被配置为：

分析所述虚拟声源的第一频谱分布，所述第一频谱分布表征所述第一通话参与者的所述语音中所存在的频率；以及

基于所述第一通话参与者的所述第一频谱分布来确定对所述虚拟声源进行空间化的第一角度，其中，所述第一角度是部分地基于所述第一频谱分布中相对于高频内容量的低频内容量来选择的，并且所述目标定位是部分地基于所述第一角度的。

4.根据权利要求3所述的音频系统，其中，所述目标定位是以头部为中心的。

5.根据权利要求3所述的音频系统，其中，第二通话参与者的第二频谱分布具有比所述第一通话参与者的所述第一频谱分布更大的相对于高频内容量的低频内容量，并且所述控制器还被配置为：

分析所述第二频谱分布，所述第二频谱分布表征第二虚拟声源的语音中所存在的频率；

基于所述第二频谱分布来确定对与所述第二通话参与者相对应的第二虚拟声音进行虚拟地空间化的第二角度，其中，所述第二角度是部分地基于所述第二频谱分布中相对于高频内容量的低频内容量来选择的，并且所述第二角度大于所述第一角度；以及

部分地基于所述第二角度来确定所述第二虚拟声源的第二目标定位；

其中，所述一个或多个声音滤波器是部分地基于所述第二目标定位来生成的，并且所述空间化的音频使得所述虚拟声源被空间化到所述目标定位、且所述第二虚拟声源被空间化到所述第二目标定位。

6.根据权利要求1所述的音频系统，其中，所述控制器还被配置为：

识别所述音频系统的多个用例中的一用例；

部分地基于所识别的所述用例来选择所述一个或多个约束；并且可选地，

其中，所识别的所述使用提供了方向，并且所述一个或多个约束包括将所述目标定位放置为使得所述目标定位与导航提示相对应。

7.根据权利要求6所述的音频系统，其中，所述目标定位是以世界为中心的。

8.根据权利要求1所述的音频系统，其中，所述控制器还被配置为：

确定物理对象在所述局部区域内的位置；以及

设置所述一个或多个约束中的至少一个约束，使得所述目标定位不与所确定的所述物理对象的位置位于同一位置。

9.一种方法，包括：

经由传声器阵列监测局部区域中的声音；

使用所监测的所述声音来识别所述局部区域内的声源；

确定所述声源的位置；

基于所述目标定位生成一个或多个声音滤波器；以及

部分地基于所述一个或多个声音滤波器来呈现包括所述虚拟声源的空间化的音频内容。

10.根据权利要求9所述的方法，其中，确定所述虚拟声源的目标定位进一步包括：

基于所分析的所述声源的所述特性生成一个或多个约束。

11.根据权利要求9所述的方法，其中，所述虚拟声源是第一通话参与者的语音，所述方法还包括：

分析所述虚拟声源的第一频谱分布，所述第一频谱分布表征所述第一通话参与者的所述语音中所存在的频率；

12.根据权利要求11所述的方法，其中，第二通话参与者的第二频谱分布具有比所述第一通话参与者的所述第一频谱分布更大的相对于高频内容量的低频内容量，所述方法还包括：

基于所述第二频谱分布来确定对与所述第二通话参与者相对应的第二虚拟声音进行虚拟地空间化的第二角度，其中，所述第二角度是部分地基于所述第二频谱分布中相对于高频内容量的低频内容量来选择的，并且所述第二角度大于所述第一角度；

部分地基于所述第二角度来确定所述第二虚拟声源的第二目标定位；以及

部分地基于所述第二目标定位来生成一个或多个声音滤波器，并且所述空间化的音频内容使得所述虚拟声源被空间化到所述目标定位、且所述第二虚拟声源被空间化到所述第二目标定位。

13.根据权利要求9所述的方法，还包括：

识别所述音频系统的多个用例中的一用例；

其中，所识别的所述用例提供了方向，并且所述一个或多个约束包括将所述目标定位放置为使得所述目标定位与导航提示相对应。

14.根据权利要求9所述的方法，还包括：

确定物理对象在所述局部区域内的位置；以及

15.一种非暂态计算机可读介质，所述非暂态计算机可读介质被配置为存储程序代码指令，所述程序代码指令在被设备的处理器执行时，使所述设备执行根据权利要求9至14中任一项所述的方法步骤。