CN113597778A

CN113597778A - 使用映射服务器确定头戴装置的声学参数

Info

Publication number: CN113597778A
Application number: CN202080022828.0A
Authority: CN
Inventors: 菲利普·罗宾逊; 卡尔·席斯勒; 彼得·亨利·马雷什; 安德鲁·洛维特; 塞瓦斯蒂亚·维琴察·阿门瓜尔加里
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-03-27
Filing date: 2020-03-17
Publication date: 2021-11-02
Also published as: EP3949447A1; WO2020197839A8; KR20210141707A; US11523247B2; WO2020197839A1; US20200314583A1; JP2022526061A; US20210377690A1; US10674307B1; US11122385B2

Abstract

本文给出了头戴装置的声学参数集合的确定。该声学参数集合可以基于存储在映射服务器中的物理定位的虚拟模型来确定。虚拟模型描述了多个空间和这些空间的声学属性，其中虚拟模型中的定位对应于头戴装置的物理定位。基于从头戴装置接收的描述局部区域的至少一部分的信息来确定头戴装置在虚拟模型中的定位。与头戴装置的物理定位相关联的声学参数集合部分地基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数来确定。头戴装置使用从映射服务器接收的声学参数集合呈现音频内容。

Description

使用映射服务器确定头戴装置的声学参数

相关申请的交叉引用

本申请要求2019年3月27日提交的美国申请第16/366,484号的优先权，出于所有目的，该申请的内容通过引用以其整体结合于此。

背景

本公开总体上涉及头戴装置(headset)处的音频呈现，并且具体涉及使用映射服务器来确定头戴装置的声学参数。

根据声源相对于每个用户的方向和定位(location)以及感知声音的房间的周围环境，在两个用户的耳朵处感知到的声音可以不同。人类可以通过比较每组耳朵感知到的声音来确定声源的定位。在人工现实环境中，模拟声音从对象到收听者的传播可以使用关于房间声学参数的知识，例如混响时间(reverberation time)或最强早期反射的入射方向。一种用于确定房间声学参数的技术包括将扩音器放置在期望的源定位，播放受控的测试信号，以及将测试信号与在收听者定位记录的信号解卷积。然而，这种技术通常需要测量实验室或现场专用装备。

为了将虚拟声源无缝地放置在环境中，基于从源穿过环境到收听者(接收者)的声音传播路径来确定到达每只耳朵的声音信号。各种声音传播路径可以基于在头戴装置处使用的一组频率相关声学参数来表示，用于向接收者(头戴装置的用户)呈现音频内容。对于具有唯一声学属性的局部环境(房间)的特定声学配置，一组频率相关声学参数通常是唯一的。然而，在头戴装置为局部环境的所有可能的声学配置存储和更新各种声学参数集合是不切实际的。房间内源和接收者之间的各种声音传播路径代表房间脉冲响应，这取决于源和接收者的具体定位。然而，对于空间中所有可能的源和接收者定位的密集网络，或者甚至是最常见布置的相对小的子集，存储测量的或模拟的房间脉冲响应是存储器密集型的。因此，随着所需精度的增加，实时确定房间脉冲响应在计算上是密集型的。

概述

本公开的实施例支持用于确定声学参数集合以在头戴装置呈现音频内容的方法、计算机可读介质和装置。在一些实施例中，该声学参数集合基于存储在经由网络与头戴装置连接的映射服务器处的物理定位的虚拟模型来确定。虚拟模型描述了多个空间和这些空间的声学属性，其中虚拟模型中的定位对应于头戴装置的物理定位。映射服务器基于从头戴装置接收的描述局部区域的至少一部分的信息来确定头戴装置在虚拟模型中的定位。映射服务器部分地基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数来确定与头戴装置的物理定位相关联的声学参数集合。头戴装置使用从映射服务器接收的声学参数集合向收听者呈现音频内容。

在涉及方法、装置和存储介质的所附权利要求中具体公开了根据本发明的实施例，其中，在一个权利要求类别(例如方法)中提到的任何特征也可以在另一个权利要求类别(例如装置、存储介质、系统和计算机程序产品)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而，也可以要求保护由对任何前面权利要求的有意往回引用(特别是多项引用)而产生的任何主题，使得权利要求及其特征的任何组合被公开并可被要求保护，而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。

在一个实施例中，一种方法可以包括：

基于描述局部区域的至少一部分的信息，确定局部区域内的头戴装置在虚拟模型中的定位，该虚拟模型描述多个空间和这些空间的声学属性，其中虚拟模型中的定位对应于头戴装置在局部区域内的物理定位；和

部分基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数，确定与头戴装置的物理定位相关联的声学参数集合，

其中头戴装置使用该声学参数集合呈现音频内容。

在一个实施例中，一种方法可以包括：

从头戴装置接收描述局部区域的至少一部分的信息，信息包括关于局部区域的至少一部分的视觉信息。

多个空间可以包括：会议室、浴室、走廊、办公室、卧室、餐厅和客厅。

音频内容可以呈现为好像源自局部区域内的对象。

该声学参数集合可以包括以下至少一个：

对于多个频带中的每一个，从声源到头戴装置的混响时间，

对于每个频带的混响水平，

对于每个频带的直达混响比(direct to reverberant ratio)，

对于每个频带，从声源到头戴装置的直达声(direct sound)的方向，

每个频带的直达声的幅度，

声音从声源到头戴装置的早期反射时间，

每个频带的早期反射的幅度，

早期反射的方向，

房间模式频率，以及

房间模式定位。

在一个实施例中，一种方法可以包括：

从头戴装置接收音频流；

基于所接收的音频流确定至少一个声学参数；和

将至少一个声学参数存储到与头戴装置所处的物理空间相关联的虚拟模型中的存储定位。

响应于在头戴装置处确定局部区域的声学条件随时间的变化高于阈值变化，可以从头戴装置提供音频流。

在一个实施例中，方法可以包括：

从头戴装置接收音频流；和

基于接收的音频流更新声学参数集合，

其中头戴装置呈现的音频内容部分地基于更新的声学参数集合来调整。

在一个实施例中，方法可以包括：

获得一个或更多个声学参数；

将一个或更多个声学参数与该声学参数集合进行比较；和

基于比较，通过用一个或更多个声学参数替换集合中的至少一个声学参数来更新虚拟模型。

在一个实施例中，方法可以包括：

响应于局部区域的声学条件的变化高于阈值变化，将声学参数集合传输到头戴装置，以外推至调整后的声学参数集合。

在一个实施例中，一种装置可以包括：

映射模块，其被配置为基于描述局部区域的至少一部分的信息，确定局部区域内的头戴装置在虚拟模型中的定位，虚拟模型描述多个空间和这些空间的声学属性，其中虚拟模型中的定位对应于头戴装置在局部区域内的物理定位；和

声学模块，其被配置为部分地基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数来确定与头戴装置的物理定位相关联的声学参数集合，

其中头戴装置使用该声学参数集合呈现音频内容。

在一个实施例中，装置可以包括：

通信模块，其被配置为从头戴装置接收描述局部区域的至少一部分的信息，该信息包括经由头戴装置的一个或更多个相机组件捕获的关于局部区域的至少一部分的视觉信息。

音频内容可以呈现为好像源自局部区域内的虚拟对象。

该声学参数集合可以包括以下至少一个：

对于多个频带中的每一个，从声源到头戴装置的混响时间，

对于每个频带的混响水平，

对于每个频带的直达混响比，

对于每个频带，从声源到头戴装置的直达声的方向，

每个频带的直达声的幅度，

声音从声源到头戴装置的早期反射时间，

每个频带的早期反射的幅度，

早期反射的方向，

房间模式频率，以及

房间模式定位。

在一个实施例中，装置可以包括：

通信模块，其被配置为从头戴装置接收音频流，其中

声学模块还被配置为基于接收到的音频流来确定至少一个声学参数，并且该装置还包括非暂时性计算机可读介质，其被配置为将至少一个声学参数存储到与头戴装置所处的物理空间相关联的虚拟模型中的存储定位。

声学模块可以被配置成：

获得一个或更多个声学参数；和

将一个或更多个声学参数与该声学参数集合进行比较，并且该装置还包括

非暂时性计算机可读存储介质，其被配置为基于比较，通过用一个或更多个声学参数替换集合中的至少一个声学参数来更新虚拟模型。

在一个实施例中，装置可以包括：

通信模块，其被配置为响应于局部区域的声学条件的变化高于阈值变化，将该声学参数集合传输到头戴装置，以外推至调整后的声学参数集合。

在一个实施例中，非暂时性计算机可读存储介质可以具有编码在其上的指令，当由处理器执行时，该指令使得处理器执行根据本文任何实施例的方法，或者执行以下操作：

其中头戴装置使用该声学参数集合呈现音频内容。

这些指令可使处理器：

从头戴装置接收音频流；

基于所接收的音频流确定至少一个声学参数；和

将至少一个声学参数存储到与头戴装置所处的物理空间相关联的虚拟模型中的存储定位，虚拟模型存储在非暂时性计算机可读存储介质中。

这些指令可使处理器：

获得一个或更多个声学参数；

将一个或更多个声学参数与该声学参数集合进行比较；和

在实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。

在实施例中，一种系统可以包括：一个或更多个处理器；以及至少一个存储器，其耦合到处理器并包括由处理器可执行的指令，当执行该指令时，处理器可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。

在实施例中，一种计算机程序产品，优选地包括计算机可读非暂时性存储介质，当在数据处理系统上被执行时，该计算机程序产品可以可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。

附图简述

图1是根据一个或更多个实施例的头戴装置的系统环境的框图。

图2示出了根据一个或更多个实施例的房间中的表面对声源和头戴装置的用户之间的声音传播的影响。

图3A是根据一个或更多个实施例的映射服务器的框图。

图3B是根据一个或更多个实施例的头戴装置的音频系统的框图。

图3C是根据一个或更多个实施例的描述物理空间和物理空间的声学属性的虚拟模型的示例。

图4是根据一个或更多个实施例的包括音频系统的头戴装置的透视图。

图5A是示出根据一个或更多个实施例的用于确定头戴装置的物理定位的声学参数的过程的流程图。

图5B是示出根据一个或更多个实施例的用于从映射服务器获得声学参数的过程的流程图。

图5C是示出根据一个或更多个实施例的用于在头戴装置处重建房间脉冲响应的过程的流程图。

图6是根据一个或更多个实施例的包括头戴装置和映射服务器的系统环境的框图。

附图仅为了说明的目的而描绘本公开的实施例。本领域中的技术人员从下面的描述中将容易认识到本文示出的结构和方法的可选择的实施例可以被采用而不偏离本文所述的本公开的原理或者所推崇的益处。

详细描述

本公开的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality，MR)、混杂现实(hybrid reality)或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如，真实世界)内容组合地生成的内容。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合，并且它们中的任何一个都可以在单个通道或多个通道中呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如在人工现实中执行活动)。可以在各种平台(包括头戴装置、连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、近眼显示器(NED)、移动设备或计算系统或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。

本文提出了一种用于房间声学匹配的通信系统。该通信系统包括具有音频系统的头戴装置，其与映射服务器通信耦合。音频系统在头戴装置上实现，头戴装置可以包括扬声器、声学传感器阵列、多个成像传感器(相机)和音频控制器。成像传感器确定与局部区域的至少一部分相关的视觉信息(例如，深度信息、颜色信息等)。头戴装置(例如，通过网络)将视觉信息传送到映射服务器。映射服务器维护世界的虚拟模型，该模型包括真实世界中空间的声学属性。映射服务器使用来自头戴装置的视觉信息(例如至少部分局部区域的图像)来确定虚拟模型中对应于头戴装置的物理定位的定位。映射服务器确定与确定定位相关联的声学参数集合(例如，混响时间、混响水平等)，并将声学参数提供给头戴装置。头戴装置(例如，通过音频控制器)使用该声学参数集合来向头戴装置的用户呈现音频内容。安装在头戴装置上的声学传感器阵列监控局部区域的声音。响应于确定房间配置已经发生变化(例如，人类占用水平的变化、窗户在关闭后打开、窗帘在关闭后打开等)，头戴装置可以选择性地将一些或所有被监控的声音作为音频流提供给映射服务器。映射服务器可以通过基于从头戴装置接收的音频流重新计算声学参数来更新虚拟模型。

在一些实施例中，头戴装置获得关于声学参数集合的信息，该声学参数集合参数化头戴装置所在的局部区域的脉冲响应。头戴装置可以从映射服务器获得声学参数集合。可替代地，该声学参数集合存储在头戴装置中。头戴装置可以通过外推该声学参数集合来重建针对头戴装置和声源(例如，虚拟对象)的特定空间布置的脉冲响应。重建的脉冲响应可以由调整后的声学参数集合来表示，其中来自调整后的集合的一个或更多个声学参数是通过动态调整来自原始集合的一个或更多个对应声学参数来获得的。头戴装置使用重建的脉冲响应(即，调整后的声学参数集合)(例如，通过音频控制器)呈现音频内容。

头戴装置可以是例如NED、HMD或某种其他类型的头戴装置。头戴装置可以是人工现实系统的一部分。头戴装置还包括显示器和光学组件。头戴装置的显示器被配置成发射图像光。头戴装置的光学组件被配置成将图像光引导至头戴装置的对应于佩戴者眼睛定位的视窗(eye box)。在一些实施例中，图像光可以包括头戴装置周围的局部区域的深度信息。

图1是根据一个或更多个实施例的用于头戴装置110的系统100的框图。系统100包括在房间102中的用户106可以佩戴的头戴装置110。头戴装置110通过网络120连接到映射服务器130。

网络120将头戴装置110连接到映射服务器130。网络120可以包括使用无线和/或有线通信系统的局域网和/或广域网的任意组合。例如，网络120可以包括互联网以及移动电话网络。在一个实施例中，网络120使用标准通信技术和/或协议。因此，网络120可以包括使用诸如以太网、802.11、微波接入全球互操作性(WiMAX)、2G/3G/4G移动通信协议、数字用户线路(DSL)、异步传输模式(ATM)、InfiniBand、PCI Express高级交换等技术的链路。类似地，网络120上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络120交换的数据可以使用包括二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来表示。此外，所有或部分链路可以使用常规加密技术进行加密，例如安全套接字层(SSL)、传输层安全性(TLS)、虚拟专用网络(VPN)、互联网协议安全性(IPsec)等。网络120还可以将位于相同或不同房间的多个头戴装置连接到同一映射服务器130。

头戴装置110向用户呈现媒体。在一个实施例中，头戴装置110可以是NED。在另一个实施例中，头戴装置110可以是HMD。通常，头戴装置110可以戴在用户的脸上，使得使用头戴装置的一个或两个透镜呈现内容(例如，媒体内容)。然而，也可以使用头戴装置110使得以不同的方式向用户呈现媒体内容。由头戴装置110呈现的媒体内容的示例包括一个或更多个图像、视频、音频、或它们的某种组合。

头戴装置110可以确定描述房间102的至少一部分的视觉信息，并将该视觉信息提供给映射服务器130。例如，头戴装置110可以包括至少一个深度相机组件(DCA)，其为房间102的至少一部分生成深度图像数据。头戴装置110可以进一步包括至少一个被动相机组件(PCA)，其为房间102的至少一部分生成彩色图像数据。在一些实施例中，头戴装置110的DCA和PCA是安装在头戴装置110上用于确定房间102的视觉信息的同时定位和映射(SLAM)传感器的一部分。因此，由至少一个DCA捕获的深度图像数据和/或由至少一个PCA捕获的彩色图像数据可以被称为由头戴装置110的SLAM传感器确定的视觉信息。

头戴装置110可以经由网络120将视觉信息传送到映射服务器130，用于确定房间102的声学参数集合。在另一个实施例中，除了用于确定声学参数集合的视觉信息之外，头戴装置110还向映射服务器130提供其定位信息(例如，房间102的全球定位系统(GPS)定位)。可替代地，头戴装置110仅向映射服务器130提供定位信息，用于确定声学参数集合。声学参数集合可用于表示房间102中特定配置的各种声学属性，这些声学属性一起定义了房间102中的声学条件。房间102中的配置因此与房间102中唯一的声学条件相关联。房间102中的配置和相关联的声学条件可以基于例如头戴装置110在房间102中的定位的改变、声源在房间102中的定位的改变、房间102中人类占用水平的改变、房间102中表面的一种或更多种声学材料的改变、通过打开/关闭房间102中的窗户、通过打开/关闭窗帘、通过打开/关闭房间102中的门等中的至少一个来改变。

该声学参数集合可以包括以下中的一些或全部：对于多个频带中的每一个，从声源到头戴装置110的混响时间、每个频带的混响水平、每个频带的直达混响比、针对每个频带的直达声从声源到头戴装置110的方向、每个频带的直达声的幅度，声音从声源到头戴装置的早期反射时间、每个频带的早期反射的幅度、早期反射方向、房间模式频率、房间模式定位等。在一些实施例中，前述声学参数中的一些参数的频率相关性可以被聚类成四个频带。在一些其他实施例中，一些声学参数可以聚类在多于或少于四个频带中。头戴装置110使用从映射服务器130获得的声学参数集合向用户106呈现音频内容。音频内容被呈现为好像源自房间102内的对象(即，真实对象或虚拟对象)。

头戴装置110可以进一步包括声学传感器阵列，用于监控房间102中的声音。头戴装置110可以基于所监控的声音生成音频流。响应于确定房间102中的配置已经发生改变导致房间102中的声学条件已经改变，头戴装置110可以(例如，经由网络120)选择性地将音频流提供给映射服务器130，用于在映射服务器130处更新关于房间102的一个或更多个声学参数。头戴装置110使用从映射服务器130获得的更新的声学参数集合向用户106呈现音频内容。

在一些实施例中，头戴装置110从映射服务器130或者从头戴装置110处的非暂时性计算机可读存储设备(即，存储器)获得参数化房间102的脉冲响应的声学参数集合。头戴装置110可以选择性地将该声学参数集合外推至调整后的声学参数集合，该调整后的声学参数集合表示房间102的特定配置的重建房间脉冲响应，该特定配置不同于与获得的声学参数集合相关联的配置。头戴装置110使用重建的房间脉冲响应向头戴装置110的用户呈现音频内容。此外，头戴装置110可以包括位置传感器或惯性测量单元(IMU)，其跟踪房间内头戴装置110的位置(例如，定位和姿势)。下面结合图3B、图4、图5B-5C和图6讨论关于头戴装置110的操作和部件的附加细节。

映射服务器130便于为头戴装置110创建音频内容。映射服务器130包括存储描述多个空间和这些空间的声学属性的虚拟模型的数据库，其中虚拟模型中的一个定位对应于房间102的当前配置。映射服务器130经由网络120从头戴装置110接收描述房间102的至少一部分的视觉信息和/或房间102的定位信息。映射服务器130基于接收到的视觉信息和/或定位信息来确定虚拟模型中与房间102的当前配置相关联的定位。映射服务器130部分地基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数，来确定(例如，检索)与房间102的当前配置相关联的声学参数集合。映射服务器130可以(例如，经由网络120)向头戴装置110提供关于该声学参数集合的信息，用于在头戴装置110处生成音频内容。可替代地，映射服务器130可以使用该声学参数集合生成音频信号，并将该音频信号提供给头戴装置110用于渲染。在一些实施例中，映射服务器130的一些部件可以与经由有线连接(图1中未示出)连接到头戴装置110的另一设备(例如，控制台)集成。下面结合图3A、图3C、图5A讨论关于映射服务器130的操作和部件的附加细节。

图2示出了根据一个或更多个实施例的房间200中的表面对声源和头戴装置的用户之间的声音传播的影响。声学参数集合(例如，参数化房间脉冲响应)表示当声音在房间200中从声源传播到用户(接收者)时声音是如何被转换的，并且可以包括声音穿过的直达声路径和反射声音路径的效果。例如，佩戴头戴装置110的用户106定位于房间200中。房间200包括墙壁，例如墙壁202和204，其提供用于反射来自对象206(例如，虚拟声源)的声音208的表面。当对象206发出声音208时，声音208通过多条路径传播到头戴装置110。一些声音208在没有反射的情况下沿着直达声路径210传播到用户106的耳朵(例如，右耳)。直达声路径210可以导致声音的衰减、过滤和时间延迟，这些是由针对对象206和用户106之间的距离的传播介质(例如，空气)引起的。

声音208的其他部分在到达用户106之前被反射，并且代表反射声音。例如，声音208的另一部分沿着反射声音路径212传播，其中声音被墙壁202反射给用户106。反射声音路径212可导致由对象206和墙壁202之间的距离的传播介质引起的声音208的衰减、过滤和时间延迟、由离开墙壁202的反射引起的另一衰减或过滤、以及由墙壁202和用户106之间的距离的传播介质引起的另一衰减、过滤和时间延迟。墙壁202处的衰减量取决于墙壁202的声吸收，其可以基于墙壁202的材料而变化。在另一示例中，声音208的另一部分沿着反射声音路径214传播，其中声音208被对象216(例如，桌子)朝向用户106反射。

房间200内的各种声音传播路径210、212、214表示房间脉冲响应，其取决于声源(即对象206)和接收者(例如头戴装置106)的特定定位。房间脉冲响应包含关于房间的各种信息，包括低频模式、衍射路径、通过墙壁的传输、表面的声学材料特性。可以使用声学参数集合来参数化房间脉冲响应。尽管反射声音路径212和214是由单个表面处的反射引起的一阶反射的示例，但是该声学参数集合(例如，房间脉冲响应)可以结合来自多个表面或对象处的高阶反射的效果。通过使用该声学参数集合变换对象206的音频信号，头戴装置110为用户106生成音频内容，该音频内容模拟音频信号作为声音沿着直达声路径210和反射声音路径212、214通过房间200的传播。

注意，从房间200内的对象206(声源)到用户106(接收者)的传播路径通常可以分为三个部分：直达声路径210、对应于来自附近表面的一阶声反射的早期反射(例如，由反射声音路径214承载)以及对应于来自更远表面的一阶声反射或更高阶声反射的晚期混响(例如，由反射声音路径212承载)。每个声音路径具有影响相应声学参数更新速率的不同感知要求。例如，用户106可能对直达声路径210中的等待时间(latency)具有非常小的容忍度，因此与直达声路径210相关联的一个或更多个声学参数可以以最高速率更新。然而，用户106可能对早期反射中的等待时间有更多的容忍度。晚期混响对头部旋转的变化最不敏感，因为在许多情况下，晚期混响在房间内是各向同性和均匀的，因此晚期混响在耳朵处不会随着旋转或平移而改变。计算与晚期混响相关的所有感知上重要的声学参数在计算上也非常昂贵。由于这个原因，与早期反射和晚期混响相关联的声学参数可以在非工作时间被有效地计算，例如在映射服务器130处计算，映射服务器不像头戴装置110那样具有严格的能量和计算限制，但是确实具有相当大的等待时间。下面结合图3A和图5A讨论关于用于确定声学参数的映射服务器130的操作的细节。

图3A是根据一个或更多个实施例的映射服务器130的框图。映射服务器130为头戴装置110所在的物理空间(房间)确定声学参数集合。所确定的声学参数集合可以在头戴装置110处用于变换与房间中的对象(例如，虚拟或真实对象)相关联的音频信号。为了向对象添加令人信服的声源，从头戴装置110输出的音频信号听起来应该像它已经以与相同位置的自然源相同的方式从对象的定位传播到收听者。该声学参数集合定义了由声音从房间内的对象到收听者(即头戴装置在房间内的位置)的传播——包括沿着直接路径和从房间表面的各种反射路径的传播——引起的变换。映射服务器130包括虚拟模型数据库305、通信模块310、映射模块315和声学分析模块320。在其他实施例中，映射服务器130可以具有列出的模块与任何附加模块的任何组合。在一些其他实施例中，映射服务器130包括结合了图3A所示模块功能的一个或更多个模块。映射服务器130的处理器(未在图3A中示出)可以运行虚拟模型数据库305、通信模块310、映射模块315、声学分析模块320、一个或更多个其他模块或结合了图3A中所示模块功能的模块中的部分或全部。

虚拟模型数据库305存储描述多个物理空间和这些物理空间的声学属性的虚拟模型。虚拟模型中的每个定位对应于头戴装置110在具有与唯一声学条件相关联的特定配置的局部区域内的物理定位。唯一声学条件表示局部区域的条件，该局部区域具有用唯一声学参数集合表示的唯一声学属性集合。虚拟模型中的特定定位可以对应于房间102内头戴装置110的当前物理定位。虚拟模型中的每个定位都与对应的物理空间的一个声学参数集合相关联，该参数集合表示局部区域的一种配置。该声学参数集合描述了局部区域的一个特定配置的各种声学属性。其声学属性在虚拟模型中描述的物理空间包括但不限于会议室、浴室、走廊、办公室、卧室、餐厅和客厅。因此，图1的房间102可以是会议室、浴室、走廊、办公室、卧室、餐厅或客厅。在一些实施例中，物理空间可以是某些外部空间(例如，庭院、花园等)或各种内部和外部空间的组合。下面结合图3C讨论关于虚拟模型结构的更多细节。

通信模块310是经由网络120与头戴装置130通信的模块。通信模块310从头戴装置130接收描述房间102的至少一部分的视觉信息。在一个或更多个实施例中，视觉信息包括关于房间102的至少一部分的图像数据。例如，通信模块310接收由头戴装置110的DCA捕获的深度图像数据，该深度图像数据具有关于由房间102的表面(例如房间102的墙壁、地板和天花板的表面)定义的房间102的形状的信息。通信模块310还可以接收由头戴装置110的PCA捕获的彩色图像数据。映射服务器130可以使用彩色图像数据来将不同的声学材料与房间102的表面相关联。通信模块310可以将从头戴装置130接收的视觉信息(例如，深度图像数据和彩色图像数据)提供给映射模块315。

映射模块315将从头戴装置110接收的视觉信息映射到虚拟模型的定位。映射模块315确定对应于头戴装置110所处的当前物理空间(即房间102的当前配置)的虚拟模型的定位。映射模块315搜索虚拟模型以找到(i)视觉信息和(ii)虚拟模型内物理空间的相应配置之间的映射，该视觉信息至少包括例如关于物理空间的表面几何结构的信息和关于表面声学材料的信息。通过将接收到的视觉信息的几何结构和/或声学材料信息与存储为虚拟模型内的物理空间的配置的一部分的几何结构和/或声学材料信息进行匹配来执行映射。虚拟模型内的物理空间的对应配置对应于头戴装置110当前所在的物理空间的模型。如果没有发现匹配，这表示物理空间的当前配置尚未在虚拟模型中建模。在这种情况下，映射模块315可以通知声学分析模块320没有找到匹配，并且声学分析模块320至少部分基于接收到的视觉信息来确定声学参数集合。

声学分析模块320部分地基于从映射模块315获得的虚拟模型中的确定定位和与确定定位相关联的虚拟模型中的任何声学参数，来确定与头戴装置110的物理定位相关联的声学参数集合。在一些实施例中，声学分析模块320从虚拟模型检索声学参数集合，因为声学参数集合存储在虚拟模型中与特定空间配置相关联的确定定位。在一些其他实施例中，声学分析模块320至少部分基于从头戴装置110接收的视觉信息，通过调整针对虚拟模型中的特定空间配置的先前确定的声学参数集合来确定声学参数集合。例如，声学分析模块320可以使用接收到的视觉信息来运行离线声学模拟，以确定声学参数集合。

在一些实施例中，声学分析模块320例如通过分析从头戴装置110捕获和获得的环境声音来确定先前生成的声学参数与头戴装置110的当前物理定位的声学条件不一致。检测到的不匹配可以在映射服务器130处触发新的声学参数集合的再生。一旦被重新计算，这个新的声学参数集合可以被输入到映射服务器130的虚拟模型中，作为先前声学参数集合的替换，或者作为相同物理空间的附加状态。在一些实施例中，声学分析模块320通过分析从头戴装置110接收的环境声音(例如，语音)来估计声学参数集合。在一些其他实施例中，声学分析模块320通过使用从头戴装置110接收的视觉信息运行声学模拟(例如，基于波的声学模拟或射线跟踪声学模拟)来导出声学参数集合，该视觉信息可以包括房间几何结构和声学材料属性的估计。声学分析模块320将导出的声学参数集合提供给通信模块310，通信模块310例如经由网络120将声学参数集合从映射服务器130传送给头戴装置110。

在一些实施例中，如所讨论的，通信模块310从头戴装置110接收音频流，该音频流可以使用房间102中的声音在头戴装置110处生成。声学分析模块320可以基于接收到的音频流(例如，通过应用基于服务器的计算算法)确定房间102的特定配置的一个或更多个声学参数。在一些实施例中，声学分析模块320基于例如采用最大似然估计器的用于音频流中声音衰减的统计模型，从音频流中估计一个或更多个声学参数(例如，混响时间)。在一些其他实施例中，声学分析模块320基于例如从接收的音频流提取的时域信息和/或频域信息来估计一个或更多个声学参数。

在一些实施例中，由声学分析模块320确定的一个或更多个声学参数表示新的声学参数集合，该新的声学参数集合不是虚拟模型的一部分，因为房间102的当前配置和房间102的相应声学条件没有被虚拟模型建模。在这种情况下，虚拟模型数据库305在虚拟模型内与房间102的当前配置相关联的定位存储新的声学参数集合，从而对房间102的当前声学条件进行建模。一个或更多个声学参数中的一些或全部(例如，依赖于频率的混响时间、依赖于频率的直达混响比等)可以与同该声学参数相关联的置信度(权重)和绝对时间戳一起存储在虚拟模型中，其可以用于重新计算一些声学参数。

在一些实施例中，房间102的当前配置已经由虚拟模型建模，并且声学分析模块320基于接收到的音频流重新计算声学参数集合。可替代地，可以在头戴装置110处基于例如至少在头戴装置110处监控的局部区域中的声音来确定重新计算的集合中的一个或更多个声学参数，并将其传送到映射服务器130。虚拟模型数据库305可以通过用重新计算的声学参数集合替换声学参数集合来更新虚拟模型。在一个或更多个实施例中，声学分析模块320将重新计算的声学参数集合与先前确定的声学参数集合进行比较。基于该比较，当任何重新计算的声学参数和任何先前确定的声学参数之间的差高于阈值差时，使用重新计算的声学参数集合更新虚拟模型。

在一些实施例中，如果过去的估计在重新计算的声学参数的阈值内，声学分析模块320将任何重新计算的声学参数与用于相同局部区域配置的相应声学参数的过去估计相结合。过去的估计可以存储在虚拟模型数据库305中与局部区域的相应配置相关联的虚拟模型的定位处。在一个或更多个实施例中，如果过去的估计不在重新计算的声学参数的阈值内，声学分析模块320对过去的估计应用权重(例如，基于与过去的估计相关联的时间戳的权重或存储的权重)。在一些实施例中，声学分析模块320对头戴装置110所处的物理空间的至少一个声学参数(例如，混响时间)和几何信息的估计应用材料优化算法，以确定将产生至少一个声学参数的估计的不同声学材料。关于声学材料的信息以及几何信息可以存储在虚拟模型的不同定位，该虚拟模型对相同物理空间的不同配置和声学条件进行建模。

在一些实施例中，声学分析模块320可以执行声学模拟以生成空间相关的预先计算的声学参数(例如，空间相关的混响时间、空间相关的直达混响比等)。空间相关的预先计算的声学参数可以存储在虚拟模型数据库305的虚拟模型的适当定位。每当物理空间的几何结构和/或声学材料改变时，声学分析模块320可以使用预先计算的声学参数来重新计算空间相关的声学参数。声学分析模块320可以使用各种输入用于声学模拟，例如但不限于：关于房间几何结构的信息、声学材料属性估计和/或关于人类占用水平的信息(例如，空的、部分满的、满的)。声学参数可以针对各种占用水平和房间的各种状态(例如，打开的窗户、关闭的窗户、打开的窗帘、关闭的窗帘等)进行模拟。如果房间的状态改变，映射服务器130可以确定用于向用户呈现音频内容的适当的声学参数集合，并将其传送给头戴装置110。否则，如果适当的声学参数集合不可用，映射服务器130(例如，通过声学分析模块320)将(例如，通过声学模拟)计算新的声学参数集合并将新的声学参数集合传送给头戴装置110。

在一些实施例中，对于给定的局部区域配置，映射服务器130存储完整的(测量的或模拟的)房间脉冲响应。例如，局部区域的配置可以基于头戴装置110和声源的特定空间布置。映射服务器130可以将房间脉冲响应缩减为适合于网络传输的定义带宽(例如，网络120的带宽)的声学参数集合。表示全脉冲响应的参数化版本的声学参数集合可以例如作为虚拟模式的一部分存储在虚拟模型数据库305中，或者存储在映射服务器130的单独的非暂时性计算机可读存储介质中(未在图3A中示出)。

图3B是根据一个或更多个实施例的头戴装置110的音频系统330的框图。音频系统330包括换能器组件335、声学组件340、音频控制器350和通信模块355。在一个实施例中，音频系统330还包括输入接口(未在图3B中示出)，用于例如控制音频系统330的不同部件的操作。在其他实施例中，音频系统330可以具有列出的部件与任何附加部件的任何组合。

换能器组件335例如基于来自音频控制器350的音频指令为用户的耳朵产生声音。在一些实施例中，换能器组件335被实现为一对空气传导换能器(例如，每只耳朵一个)，其通过例如根据来自音频控制器350的音频指令在用户的耳朵中产生空气传播的声压波来产生声音。换能器组件335的每个空气传导换能器可以包括一个或更多个换能器，以覆盖频率范围的不同部分。例如，压电换能器可以用于覆盖频率范围的第一部分，而动圈换能器可以用于覆盖频率范围的第二部分。在一些其他实施例中，换能器组件335的每个换能器被实现为骨传导换能器，其通过振动用户头部中的相应骨骼来产生声音。实现为骨传导换能器的每个换能器可以放置在耦合到用户骨的一部分的耳廓后面，以振动用户骨的一部分，该部分产生向用户耳蜗传播的组织传播的声压波，从而绕过耳膜。

声学组件340可以包括多个声学传感器，例如，每只耳朵一个声学传感器。可替代地，声学组件340包括安装在头戴装置110的不同定位上的声学传感器(例如，麦克风)阵列。声学组件340的声学传感器检测耳朵入口处的声压波。声学组件340的一个或更多个声学传感器可以位于每只耳朵的入口处。一个或更多个声学传感器被配置成检测在耳朵入口处形成的空气传播的声压波。在一个实施例中，声学组件340向音频控制器350提供关于产生的声音的信息。在另一个实施例中，声学组件340将检测到的声压波的反馈信息传输到音频控制器350，并且该反馈信息可以被音频控制器350用于换能器组件335的校准。

在一个实施例中，声学组件340包括位于佩戴者每只耳朵入口处的麦克风。麦克风是将压力转换成电信号的换能器。麦克风的频率响应在频率范围的某些部分可以是相对平坦的，而在频率范围的其他部分可以是线性的。麦克风可以被配置为从音频控制器350接收信号，以基于提供给换能器组件335的音频指令来缩放从麦克风检测到的信号。例如，可以基于音频指令来调整信号，以避免对检测到的信号进行削波(clipping)，或者提高检测到的信号中的信噪比。

在另一个实施例中，声学组件340包括振动传感器。振动传感器耦合到耳朵的一部分。在一些实施例中，振动传感器和换能器组件335耦合到耳朵的不同部分。振动传感器类似于换能器组件335中使用的空气换能器，除了信号反向流动。代替电信号在换能器中产生机械振动，机械振动在振动传感器中生成电信号。振动传感器可以由压电材料制成，压电材料在变形时可以生成电信号。压电材料可以是聚合物(例如，PVC、PVDF)、基于聚合物的复合物、陶瓷或晶体(例如，SiO₂、PZT)。通过在压电材料上施加压力，压电材料的极化发生变化并产生电信号。压电传感器可以耦合到很好地附接到耳朵背部的材料(例如，硅酮)。振动传感器也可以是加速度计。加速度计可以是压电式的或电容式的。在一个实施例中，振动传感器保持与佩戴者耳朵后部的良好表面接触，并保持对耳朵施加稳定大小的力(例如，1牛顿)。振动传感器可以集成在IMU集成电路中。关于图6进一步描述了IMU。

音频控制器350向换能器组件335提供音频指令，用于通过使用声学参数集合(例如，房间脉冲响应)生成音频内容来生成声音。音频控制器350将音频内容呈现为好像源自头戴装置110的局部区域内的对象(例如，虚拟对象或真实对象)。在一个实施例中，音频控制器350通过使用用于局部区域的当前配置的声学参数集合转换源音频信号，来将音频内容呈现为好像源自虚拟声源，该声学参数集合可以参数化局部区域的当前配置的房间脉冲响应。

音频控制器350可以例如从头戴装置110的一个或更多个相机获得描述局部区域的至少一部分的信息。该信息可以包括深度图像数据、彩色图像数据、局部区域的定位信息或其组合。深度图像数据可以包括关于由局部区域的表面(例如局部区域的墙壁、地板和天花板的表面)定义的局部区域的形状的几何信息。彩色图像数据可以包括关于与局部区域表面相关的声学材料的信息。定位信息可以包括GPS坐标或局部区域的某种其他位置信息。

在一些实施例中，音频控制器350基于由声学组件340监控的局部区域中的声音生成音频流，并将该音频流提供给通信模块355以选择性地传送给映射服务器130。在一些实施例中，音频控制器350运行实时声学射线跟踪模拟来确定一个或更多个声学参数(例如，早期反射、直达声遮挡等)。为了能够运行实时声学射线跟踪模拟，音频控制器350例如从存储在映射服务器130处的虚拟模型请求并获得关于头戴装置110当前所在的局部区域的配置的几何结构和/或声学参数的信息。在一些实施例中，音频控制器350使用由声学组件340监控的局部区域中的声音和/或在头戴装置110处确定的视觉信息，例如由安装在头戴装置110上的一个或更多个SLAM传感器确定的视觉信息，来确定关于局部区域的当前配置的一个或更多个声学参数。

通信模块355(例如，收发器)耦合到音频控制器350，并且可以集成为音频控制器350的一部分。通信模块355可以将描述局部区域的至少一部分的信息传送到映射服务器130，用于在映射服务器130确定声学参数集合。通信模块355可以选择性地将从音频控制器350获得的音频流传送到映射服务器130，用于在映射服务器130处更新物理空间的视觉模型。例如，通信模块355响应于确定(例如，由音频控制器350基于监测到的声音确定)局部区域的声学条件随时间的变化高于阈值变化(这是由于局部区域的配置的变化，这需要新的或更新的声学参数集合)，来将音频流传送到映射服务器130。在一些实施例中，音频控制器350通过周期性地分析环境音频流并且例如通过根据随时间变化的音频流周期性地估计混响时间来确定局部区域的声学条件的变化高于阈值变化。例如，声学条件的改变可以因以下情况而引起的：改变房间102中的人的占用水平(例如，空的、部分满的、满的)、打开或关闭房间102中的窗户、打开或关闭房间102的门、打开或关闭窗户上的窗帘、改变头戴装置110在房间102中的定位、改变声源在房间102中的定位、改变房间102中的某种其他特征或其组合。在一些实施例中，通信模块355将由音频控制器350确定的一个或更多个声学参数传送到映射服务器130，用于与先前确定的与局部区域的当前配置相关联的声学参数集合进行比较，以可能更新映射服务器130处的虚拟模型。

在一个实施例中，通信模块355从映射服务器130接收关于局部区域的当前配置的声学参数集合。在另一个实施例中，音频控制器350基于例如由安装在头戴装置110上的一个或更多个SLAM传感器确定的局部区域的视觉信息、由声学组件340监控的局部区域中的声音、由位置传感器440确定的关于头戴装置110在局部区域中的位置的信息、关于声源在局部区域中的位置的信息等来确定关于局部区域的当前配置的声学参数集合。在又一实施例中，音频控制器350从耦合到音频控制器350(未在图3B中示出)的计算机可读数据储存器(即，存储器)获得声学参数集合。存储器可以存储针对有限数量的物理空间配置的不同的声学参数集合(房间脉冲响应)。该声学参数集合可以表示针对局部区域的当前配置的房间脉冲响应的参数化形式。

音频控制器350可以响应于导致局部区域的声学条件变化的局部区域配置随时间的变化，选择性地将该声学参数集合外推至调整后的声学参数集合(即，重建的房间脉冲响应)。音频控制器350可以基于例如局部区域的视觉信息、局部区域中被监控的声音、关于头戴装置110在局部区域中的位置变化的信息、关于声源在局部区域中的位置变化的信息等来确定局部区域的声学条件随时间的变化。随着局部区域的配置改变(例如，由于头戴装置110和/或声源在局部区域中的移动)，集合中的一些声学参数以系统的方式改变时，音频控制器350可以应用外推方案来动态地调整一些声学参数。

在一个实施例中，音频控制器350基于关于房间几何结构和预先计算的图像源的信息(例如，在一次迭代中)，使用外推方案动态地调整例如直达声的幅度和方向、直达声和早期反射之间的延迟和/或早期反射的方向和幅度。在另一个实施例中，音频控制器350基于例如数据驱动方法动态调整一些声学参数。在这种情况下，音频控制器350可以利用限定数量的房间和源/接收者定位的测量结果来训练模型，并且音频控制器350可以基于先验知识来预测特定新颖房间和源/接收者布置的脉冲响应。在又一实施例中，当收听者接近房间之间的连接时，音频控制器350通过内插与两个房间相关联的声学参数来动态地调整一些声学参数。因此，可以动态地适配用声学参数集合表示的房间脉冲响应的参数化表示。音频控制器350可以至少部分基于动态适配的房间脉冲响应为换能器组件335生成音频指令。

音频控制器350可以通过对从映射服务器130接收的声学参数集合应用外推方案来重建针对局部区域的特定配置的房间脉冲响应。表示房间脉冲响应的参数化形式并且与感知相关的房间脉冲响应特征相关的声学参数可以包括以下的一些或全部：对于多个频带中的每一个，从声源到头戴装置110的混响时间，对于每个频带的混响水平，对于每个频带的直达混响比，对于每个频带，从声源到头戴装置110的直达声的方向，对于每个频带的直达声的幅度、声音从声源到头戴装置的早期反射的时间、每个频带的早期反射的幅度、早期反射的方向、房间模式频率、房间模式定位、一个或更多个其他声学参数或其组合。

音频控制器350可以对接收到的声学参数集合执行空间外推，以获得调整后的声学参数集合，该声学参数集合表示局部区域的当前配置的重建房间脉冲响应。当执行空间外推时，音频控制器350可以调整多个声学参数，例如：直达声的方向、相对于混响的直达声的幅度、根据源方向性的直达声均衡、早期反射的定时、早期反射的幅度、早期反射的方向等。请注意，房间内的混响时间可保持不变，并且可能需要在房间的交叉点进行调整。

在一个实施例中，为了调整早期反射定时/幅度/方向，音频控制器350基于每个样本或反射的到达方向(DOA)执行外推。在这种情况下，音频控制器350可以对整个DOA向量应用偏移。注意，早期反射的DOA可以通过处理由安装在头戴装置110上的麦克风阵列获得的音频数据来确定。然后可以基于例如用户在房间102中的位置和关于房间几何结构的信息来调整早期反射的DOA。

在另一个实施例中，当房间几何结构和源/收听者位置已知时，音频控制器350可以基于图像源模型(ISM)识别低阶反射。当收听者移动时，通过运行ISM来修改识别的反射的定时和方向。在这种情况下，可以调节幅度，而不可以操纵染色(coloration)。请注意，ISM代表一个模拟模型，它确定早期反射的源位置，而与收听者的位置无关。然后可以通过从图像源跟踪到收听者来计算早期反射方向。存储和利用给定源的图像源产生针对房间102中任何收听者位置的早期反射方向。

在又一实施例中，音频控制器350可以应用房间102的“鞋盒模型(shoeboxmodel)”来外推与早期反射定时/幅度/方向相关的声学参数。“鞋盒模型”是基于与实际空间大小大致相同的矩形盒子的房间声学近似。“鞋盒模型”可用于基于例如Sabine方程来近似反射或混响时间。原始房间脉冲响应的最强反射(例如，对于给定的源/接收者布置测量或模拟的)被标记和去除。然后，使用“鞋盒模型”的低阶ISM重新引入最强反射，以获得外推的房间脉冲响应。

图3C是根据一个或更多个实施例的描述物理空间和物理空间的声学属性的虚拟模型360的示例。虚拟模型360可以存储在虚拟模型数据库305中。虚拟模型360可以表示虚拟存储数据库305中的地理信息存储区域，其存储世界上所有空间的地理上捆绑的信息三元组(即，物理空间标识符(ID)365、空间配置ID 370和声学参数集合375)。

虚拟模型360包括可能的物理空间S1、S2、…、Sn的列表，每个由唯一的物理空间ID365标识。物理空间ID 365唯一地标识特定类型的物理空间。物理空间ID 365可以包括例如会议室、浴室、走廊、办公室、卧室、餐厅和客厅、某种其他类型的物理空间或其组合。因此，每个物理空间ID 365对应于一种特定类型的物理空间。

每个物理空间ID 365与一个或更多个空间配置ID 370相关联。每个空间配置ID370对应于由物理空间ID 335标识的具有特定声学条件的物理空间的配置。空间配置ID370可以包括例如关于物理空间中人类占用水平的标识、关于物理空间的部件的状况(例如，打开/关闭的窗户、打开/关闭的门等)的标识、关于物理空间中的对象和/或表面的声学材料的指示、关于同一空间中的源和接收者的定位的指示、某种其他类型的配置指示或者它们的某种组合。在一些实施例中，同一物理空间的不同配置可能是由于物理空间中的各种不同条件。同一物理空间的不同配置可能与例如相同物理空间的不同占用、相同物理空间的部件的不同状况(例如，打开/关闭的窗户、打开/关闭的门等)、相同物理空间中对象和/或表面的不同声学材料、相同物理空间中源/接收者的不同定位、物理空间的某种其他特征或它们的一些组合相关。每个空间配置ID 370可以表示为唯一代码ID(例如，二进制代码)，其标识物理空间ID 365的配置。例如，如图3C所示，物理空间S1可以与p个不同的空间配置S1C1、S1C2、…、S1Cp相关联，每个空间配置代表相同物理空间S1的不同声学条件；物理空间S2可以与q个不同的空间配置S2C1、S2C2、…、S2Cq相关联，每个空间配置代表相同物理空间S2的不同声学条件；物理空间Sn可以与r个不同的空间配置SnC1、SnC2、…、SnCr相关联，每个空间配置表示相同物理空间Sn的不同声学条件。映射模块315可以搜索虚拟模型360，以基于从头戴装置110接收的物理空间的视觉信息找到合适的空间配置ID 370。

每个空间配置ID 370具有与存储在虚拟模型360的相应定位中的声学参数集合375相关联的特定声学条件。如图3C所示，相同物理空间S1的p个不同空间配置S1C1、S1C2、…、S1Cp与p个不同的声学参数集合{AP11}、{AP12}、…、{AP1p}相关联。类似地，如图3C进一步所示，相同物理空间S2的q个不同空间配置S2C1、S2C2、…、S2Cq与q个不同的声学参数集合{AP21}、{AP22}、…、{AP2q}相关联；并且相同物理空间Sn的r个不同空间配置SnC1、SnC2、…、SnCr与r个不同的声学参数集合{APn1}、{APn2}、…、{APnr}相关联。一旦映射模块315找到与头戴装置110所在的物理空间的当前配置相对应的空间配置ID 370，声学分析模块320就可以从虚拟模型360中拉出相应的声学参数集合375。

图4是根据一个或更多个实施例的包括音频系统的头戴装置110的透视图。在一些实施例中(如图1所示)，头戴装置110被实现为NED。在替代实施例中(未在图1中示出)，头戴装置100被实现为HMD。通常，头戴装置110可以戴在用户的脸上，使得使用头戴装置110的一个或两个透镜410呈现内容(例如，媒体内容)。然而，也可以使用头戴装置110使得以不同的方式向用户呈现媒体内容。由头戴装置110呈现的媒体内容的示例包括一个或更多个图像、视频、音频、或它们的某种组合。头戴装置110可以包括框架405、透镜410、DCA 425、PCA430、位置传感器440和音频系统等部件。头戴装置110的音频系统包括例如左扬声器415a、右扬声器415b、声学传感器阵列435、音频控制器420、一个或更多个其他部件或其组合。头戴装置110的音频系统是上面结合图3B描述的音频系统330的实施例。DCA 425和PCA 430可以是安装在头戴装置110上的SLAM传感器的一部分，用于捕获头戴装置110的一些或全部周围的局部区域的视觉信息。虽然图4示出了头戴装置110上的示例定位中的头戴装置110的部件，但是这些部件可以位于头戴装置110上的其他位置、与头戴装置110配对的外围设备上或者它们的某种组合上。

头戴装置110可以矫正或增强用户的视觉、保护用户的眼睛、或者向用户提供图像。头戴装置110可以是矫正用户的视力缺陷的眼镜。头戴装置110可以是保护用户眼睛免受太阳照射的太阳镜。头戴装置110可以是保护用户眼睛免受冲撞的安全镜。头戴装置110可以是夜视设备或红外护目镜，以增强用户的夜间视觉。头戴装置110可以是为用户产生人工现实内容的近眼显示器。可替代地，头戴装置110可以不包括透镜410并且可以是具有向用户提供音频内容(例如，音乐、广播、播客)的音频系统的框架405。

框架405保持头戴装置110的其他部件。框架405包括保持透镜410的前部和附接到用户头部的末端件(end piece)。框架405的前部架在(bridge)用户鼻子的顶部。末端件(例如，镜腿(temples))是框架405的一部分，用户的鬓角(temples)附接到该部分。末端件的长度可以是可调的(例如，可调的镜腿长度)，以适合不同的用户。末端件也可以包括在用户耳朵后面弯曲(curl)的部分(例如，镜腿套(temple tip)、挂耳件(ear piece))。

透镜410向穿戴头戴装置110的用户提供或传输光。透镜410可以是处方透镜(例如，单视觉(single vision)透镜、双焦和三焦或渐进透镜)以帮助矫正用户的视力缺陷。处方透镜将环境光透射给佩戴头戴装置110的用户。透射的环境光可以被处方透镜改变，以矫正用户的视力缺陷。透镜410可以是偏光透镜或有色镜片以保护用户的眼睛免受阳光照射。透镜410可以是作为波导显示器一部分的一个或更多个波导，其中图像光通过波导的末端或边缘耦合到用户的眼睛。透镜410可以包括用于提供图像光的电子显示器，并且还可以包括用于放大来自电子显示器的图像光的光学块。

扬声器415a和415b为用户的耳朵产生声音。扬声器415a、415b是图3B中换能器组件335的换能器的实施例。扬声器415a和415b从音频控制器420接收音频指令以产生声音。左扬声器415a可以从音频控制器420获得左音频通道，右扬声器415b从音频控制器420获得右音频通道。如图4所示，每个扬声器415a、415b被耦合到框架405的末端件，并且被放置在用户的相应耳朵的入口的前面。尽管扬声器415a和415b被示出在框架405的外部，但是扬声器415a和415b可以被封装在框架405中。在一些实施例中，代替用于每只耳朵的单独扬声器415a和415b，头戴装置110包括集成到例如框架405的末端件中的扬声器阵列(未在图4中示出)，以改善呈现的音频内容的方向性。

DCA 425捕获描述头戴装置110周围的局部区域(例如房间)的深度信息的深度图像数据。在一些实施例中，DCA 425可以包括光投影仪(例如，结构光和/或用于飞行时间的闪光照明)、成像设备和控制器(未在图4中示出)。捕获的数据可以是由成像设备捕获的由光投影仪投射到局部区域上的光的图像。在一个实施例中，DCA 425可以包括控制器和两个或更多个相机，它们被定向成以立体方式捕获局部区域的部分。捕获的数据可以是由局部区域的两个或更多个相机以立体方式捕获的图像。DCA 425的控制器使用捕获的数据和深度确定技术(例如，结构光、飞行时间、立体成像等)来计算局部区域的深度信息。基于深度信息，DCA 425的控制器确定头戴装置110在局部区域内的绝对位置信息。DCA 425的控制器也可以生成局部区域的模型。DCA 425可以与头戴装置110集成在一起，或者可以位于头戴装置110外部的局部区域内。在一些实施例中，DCA 425的控制器可以将深度图像数据传送到头戴装置110的音频控制器420，例如用于进一步处理和传送到映射服务器130。

PCA 430包括产生彩色(例如RGB)图像数据的一个或更多个被动相机。与使用主动光发射和反射的DCA 425不同，PCA 430从局部区域的环境捕获光以生成彩色图像数据。彩色图像数据的像素值可以定义图像数据中捕获的对象的可见颜色，而不是像素值定义距成像设备的深度或距离。在一些实施例中，PCA 430包括控制器，该控制器基于由被动成像设备捕获的光生成彩色图像数据。PCA 430可以将彩色图像数据提供给音频控制器420，例如，用于进一步处理和传送给映射服务器130。

声学传感器阵列435监控和记录头戴装置110的一些或全部周围的局部区域中的声音。声学传感器阵列435是图3B的声学组件340的实施例。如图4所示，声学传感器阵列435包括多个声学传感器，这些声学传感器具有位于头戴装置110上的多个声学检测定位。声学传感器阵列435可以将记录的声音作为音频流提供给音频控制器420。

位置传感器440响应于头戴装置110的运动而生成一个或更多个测量信号。位置传感器440可以位于头戴装置110的框架405的一部分上。位置传感器440可以包括位置传感器、惯性测量单元(IMU)或两者。头戴装置110的一些实施例可以包括或者不包括位置传感器440，或者可以包括一个以上的位置传感器440。在位置传感器440包括IMU的实施例中，IMU基于来自位置传感器440的测量信号生成IMU数据。位置传感器440的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一合适类型的传感器、用于IMU的误差校正的一种类型的传感器、或者它们的某种组合。位置传感器440可以位于IMU的外部、IMU的内部或者它们的某种组合。

基于一个或更多个测量信号，位置传感器440估计头戴装置110相对于头戴装置110的初始位置的当前位置。估计的位置可以包括头戴装置110的定位和/或头戴装置110或佩戴头戴装置110的用户头部的取向，或它们的某种组合。取向可以对应于每只耳朵相对于参考点的位置。在一些实施例中，位置传感器440使用来自DCA 425的深度信息和/或绝对位置信息来估计头戴装置110的当前位置。位置传感器440可以包括测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和测量旋转运动(例如，俯仰、偏航、横滚)的多个陀螺仪。在一些实施例中，IMU对测量信号进行快速采样并根据所采样的数据计算头戴装置110的所估计的位置。例如，IMU对从加速度计接收到的测量信号在时间上求积分以估计速度矢量，并对速度矢量在时间上求积分以确定在头戴装置110上的参考点的所估计的位置。参考点是可以用来描述头戴装置110的位置的点。虽然参考点通常可以被定义为在空间中的点；然而，在实践中，参考点被定义为在头戴装置110内的点。

音频控制器420向扬声器415a、415b提供音频指令，用于通过使用声学参数集合(例如，房间脉冲响应)生成音频内容来生成声音。音频控制器420是图3B的音频控制器350的实施例。音频控制器420将音频内容呈现为好像源自局部区域内的对象(例如，虚拟对象或真实对象)，例如，通过使用针对局部区域的当前配置的声学参数集合来转换源音频信号。

音频控制器420可以例如从DCA 425和/或PCA 430获得描述局部区域的至少一部分的视觉信息。在音频控制器420获得的视觉信息可以包括由DCA 425捕获的深度图像数据。在音频控制器420获得的视觉信息可以进一步包括由PCA 430捕获的彩色图像数据。音频控制器420可以将深度图像数据与彩色图像数据组合成视觉信息，该视觉信息(例如，经由耦合到音频控制器420的通信模块(未在图4中示出))被传送到映射服务器130，用于确定声学参数集合。在一个实施例中，通信模块(例如，收发器)可以集成到音频控制器420中。在另一个实施例中，通信模块可以在音频控制器420的外部，并且作为耦合到音频控制器420的独立模块(例如图3B的通信模块355)集成到框架405中。在一些实施例中，音频控制器420基于由例如声学传感器阵列435监控的局部区域中的声音生成音频流。耦合到音频控制器420的通信模块可以选择性地将音频流传送到映射服务器130，用于更新映射服务器130处的物理空间的视觉模型。

图5A是示出根据一个或更多个实施例的用于确定头戴装置的物理定位的声学参数的过程500的流程图。图5A的过程500可以由装置的部件例如图3A的映射服务器130执行。在其他实施例中，其他实体(例如，图4的头戴装置110的部件和/或图6所示的部件)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

映射服务器130基于描述局部区域的至少一部分的信息，(例如经由映射模块315)确定505局部区域(例如，房间102)内的头戴装置(例如，头戴装置110)在虚拟模型中的定位。存储的虚拟模型描述了多个空间和这些空间的声学属性，其中虚拟模型中的定位对应于头戴装置在局部区域内的物理定位。描述局部区域的至少一部分的信息可以包括深度图像数据，该深度图像数据具有关于由局部区域的表面(例如，墙壁、地板和天花板的表面)限定的局部区域的至少一部分的形状以及局部区域中的一个或更多个对象(真实对象和/或虚拟对象)的信息。描述局部区域的至少一部分的信息可以进一步包括用于将声学材料与局部区域的表面和一个或更多个对象的表面相关联的彩色图像数据。在一些实施例中，描述局部区域的至少一部分的信息可以包括局部区域的定位信息，例如局部区域的地址、局部区域的GPS定位、关于局部区域的纬度和经度的信息等。在一些其他实施例中，描述局部区域的至少一部分的信息包括：深度图像数据、彩色图像数据、关于局部区域的至少一部分的声学材料的信息、局部区域的定位信息、一些其他信息或其组合。

映射服务器130部分地基于虚拟模型中的确定定位和与确定定位相关联的任何声学参数，来(例如，经由声学分析模块320)确定510与头戴装置的物理定位相关联的声学参数集合。在一些实施例中，映射服务器130从与头戴装置110当前所处的空间配置相关联的虚拟模型中的确定定位检索虚拟模型中的声学参数集合。在一些其他实施例中，映射服务器130至少部分地基于从头戴装置110接收的描述局部区域的至少一部分的信息，通过调整虚拟模型中先前确定的声学参数集合来确定声学参数集合。映射服务器130可以分析从头戴装置110接收的音频流，以确定现有声学参数集合(如果可用)是否与音频分析一致或者是否需要重新计算。如果现有声学参数与音频分析不一致，则映射服务器130可以使用描述局部区域的至少一部分的信息(例如，房间几何结构、声学材料属性的估计)来运行声学模拟(例如，基于波的声学模拟或射线跟踪声学模拟)，以确定新的声学参数集合。

映射服务器130将所确定的声学参数集合传送给头戴装置，用于使用该声学参数集合向用户呈现音频内容。映射服务器130还(例如，经由通信模块310)从头戴装置110接收音频流。映射服务器130基于分析接收到的音频流来(例如，经由声学分析模块320)确定一个或更多个声学参数。映射服务器130可以将一个或更多个声学参数存储到虚拟模型中的与头戴装置110所在的物理空间相关联的存储定位，从而在物理空间的当前声学配置尚未被建模的情况下在虚拟模型中创建新条目。映射服务器130可以(例如，通过声学分析模块320)将一个或更多个声学参数与先前确定的声学参数集合进行比较。基于该比较，映射服务器130可以通过用一个或更多个声学参数替换声学参数集合中的至少一个声学参数来更新虚拟模型。在一些实施例中，映射服务器130基于例如基于服务器的模拟算法、来自头戴装置110的受控测量或两个或更多头戴装置之间的测量来重新确定声学参数集合。

图5B是示出根据一个或更多个实施例的用于从映射服务器获得声学参数集合的过程520的流程图。图5B的过程520可以由装置的部件执行，例如由图4的头戴装置110执行。在其他实施例中，其他实体(例如，图3B的音频系统330的部件和/或图6所示的部件)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

头戴装置110确定525描述局部区域(例如，房间102)的至少一部分的信息。该信息可以包括深度图像数据(例如，由头戴装置110的DCA425生成的)，该深度图像数据具有关于由局部区域的表面(例如，墙壁、地板和天花板的表面)限定的局部区域的至少一部分的形状和局部区域中的一个或更多个(真实的和/或虚拟的)对象的信息。该信息还可以包括关于至少部分局部区域的彩色图像数据(例如，由头戴装置110的PCA 430生成的)。在一些实施例中，描述局部区域的至少一部分的信息可以包括局部区域的定位信息，例如局部区域的地址、局部区域的GPS定位、关于局部区域的纬度和经度的信息等。在一些其他实施例中，描述局部区域的至少一部分的信息包括：深度图像数据、彩色图像数据、关于局部区域的至少一部分的声学材料的信息、局部区域的定位信息、一些其他信息或其组合。

头戴装置110(例如，经由通信模块355)将信息传送530到映射服务器130，用于确定局部区域内的头戴装置在虚拟模型中的定位以及与虚拟模型中的定位相关联的声学参数集合。虚拟模型中的每个定位对应于头戴装置110在局部区域内的特定物理定位，并且虚拟模型描述了多个空间和这些空间的声学属性。响应于在头戴装置110处确定局部区域的声学条件随时间的变化高于阈值变化，头戴装置110还可以(例如，经由通信模块355)选择性地将音频流传送到映射服务器130，用于更新声学参数集合。头戴装置110通过监控局部区域中的声音来生成音频流。

头戴装置110(例如，经由通信模块355)从映射服务器130接收535关于声学参数集合的信息。例如，接收的信息包括关于多个频带中的每个频带从声源到头戴装置110的混响时间、每个频带的混响水平、每个频带的直达混响比、每个频带从声源到头戴装置110的直达声的方向、每个频带的直达声的幅度，声音从声源到头戴装置的早期反射时间、每个频带的早期反射的幅度、早期反射方向、房间模式频率、房间模式定位等的信息。

头戴装置110使用该声学参数集合向头戴装置110的用户呈现540音频内容，例如，通过从音频控制器420向扬声器415a、415b(即，从音频控制器350向换能器组件340)生成并提供适当的声学指令。当局部区域(房间环境)发生变化导致局部区域的声学条件发生变化时，头戴装置110可以从映射服务器130请求并获得更新的声学参数集合。在这种情况下，头戴装置110使用更新的声学参数集合向用户呈现更新的音频内容。可替代地，可以在头戴装置110本地确定声学参数集合，而不与映射服务器130通信。头戴装置110可以通过使用关于局部区域的信息(例如，关于局部区域的几何结构的信息、局部区域中声学材料属性的估计等)作为输入来运行声学模拟(例如，基于波的声学模拟或射线跟踪声学模拟)，来(例如，经由音频控制器350)确定声学参数集合。

图5C是示出根据一个或更多个实施例的用于重建局部区域的脉冲响应的过程550的流程图。图5C的过程550可以由装置的部件来执行，例如由头戴装置110的音频系统330执行。在其他实施例中，其他实体(例如，图6所示的部件)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

头戴装置110获得555头戴装置110的一些或全部周围的局部区域(例如，房间102)的声学参数集合。在一个实施例中，头戴装置130(例如，经由通信模块355)从映射服务器130获得声学参数集合。在另一实施例中，头戴装置110基于深度图像数据(例如，来自头戴装置110的DCA 425)、彩色图像数据(例如，来自头戴装置110的PCA 430)、局部区域中的声音(例如，由声学组件340监控)、关于头戴装置110在局部区域中的位置的信息(例如，由位置传感器440确定)、关于声源在局部区域中的位置的信息来(例如，经由音频控制器350)确定声学参数集合。在另一个实施例中，头戴装置110从耦合到音频控制器350的计算机可读数据储存器(即，存储器)(例如，经由音频控制器350)获得该声学参数集合。该声学参数集合可以表示针对局部区域的一种配置的房间脉冲响应的参数化形式，该配置的特征为局部区域的一种唯一声学条件。

头戴装置110响应于局部区域的配置变化，通过外推声学参数集合，(例如，经由音频控制器420)动态地将声学参数集合调整560为调整后的声学参数集合。例如，局部区域配置的变化可能是由于头戴装置和声源(例如，虚拟声源)的空间布置的变化。调整后的声学参数集合可以表示针对局部区域的当前(改变的)配置的重建房间脉冲响应的参数化形式。例如，可以调整早期反射的方向、定时和幅度，以生成局部区域的当前配置的重建房间脉冲响应。

头戴装置110使用重建的房间脉冲响应向头戴装置110的用户呈现565音频内容。头戴装置110(例如，经由音频控制器350)可以将音频信号与重建的房间脉冲响应卷积，以获得用于呈现给用户的经变换的音频信号。头戴装置110可以(例如，经由音频控制器350)生成并向换能器组件335(例如，扬声器415a、415b)提供适当的声学指令，用于生成对应于变换后的音频信号的声音。

系统环境

图6是根据一个或更多个实施例的头戴装置的系统环境600。系统600可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或它们的某种组合)中操作。图6所示的系统600包括头戴装置110、映射服务器130和耦合到控制台645的输入/输出(I/O)接口640。虽然图6示出了包括一个头戴装置110和一个I/O接口640的示例系统600，但是在其他实施例中，系统600中可以包括任意数量的这些部件。例如，可以有多个头戴装置110，每个头戴装置110具有相关联的I/O接口640，每个头戴装置110和I/O接口640与控制台645通信。在替代配置中，系统600中可以包括不同的和/或附加的部件。此外，在一些实施例中，结合图6所示的一个或更多个部件描述的功能可以以与结合图6描述的方式不同的方式在部件之间分配。例如，控制台645的一些或全部功能可以由头戴装置110提供。

头戴装置110包括透镜410、光学块610、一个或更多个位置传感器440、DCA 425、惯性测量单元(IMU)615、PCA 430和音频系统330。头戴装置110的一些实施例具有与结合图6描述的部件不同的部件。另外，由结合图6所描述的各种部件提供的功能在其他实施例中可以在头戴装置110的部件之间不同地分配，或者可以在远离头戴装置110的单独组件中被捕获。

透镜410可以包括根据从控制台645接收的数据来向用户显示2D或3D图像的电子显示器。在各种实施例中，透镜410包括单个电子显示器或多个电子显示器(例如，针对用户的每只眼睛的显示器)。电子显示器的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、某种其他显示器、或它们的某种组合。

光学块610放大从电子显示器接收的图像光、校正与图像光相关联的光学误差、并将校正的图像光呈现给头戴装置110的用户。在各种实施例中，光学块610包括一个或更多个光学元件。光学块610中包括的示例光学元件包括：光圈、菲涅尔透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块610可以包括不同光学元件的组合。在一些实施例中，光学块610中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

光学块610对图像光的放大和聚焦允许电子显示器比更大的显示器物理上更小、重量更轻并且消耗更少的功率。另外，放大可以增大电子显示器所呈现的内容的视场。例如，所显示内容的视场使得所显示内容使用用户的几乎所有视场(例如，大约110度对角线)、且在一些情况下使用所有视场来呈现。此外在一些实施例中，可以通过添加或移除光学元件来调整放大量。

在一些实施例中，光学块610可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，被提供给电子显示器用于显示的内容被预失真，并且当光学块610从电子显示器接收基于内容生成的图像光时，光学块610校正失真。

IMU 615是电子设备，其基于从一个或更多个位置传感器440接收的测量信号生成指示头戴装置110位置的数据。位置传感器440响应于头戴装置110的运动而生成一个或更多个测量信号。位置传感器440的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 615的误差校正的一类传感器或者其某种组合。位置传感器440可以位于IMU 615的外部、IMU 615的内部或者这两种位置的某种组合。

DCA 425生成诸如房间的局部区域的深度图像数据。深度图像数据包括定义距成像设备的距离的像素值，并因此提供在深度图像数据中捕获的定位的(例如，3D)映射。DCA425包括光投影仪620、一个或更多个成像设备625和控制器630。光投影仪620可以投射结构光图案或其他光，该结构光图案或其他光被局部区域中的对象反射，并被成像设备625捕获以生成深度图像数据。

例如，光投影仪620可以将不同类型的多个结构光(SL)元素(例如线条、网格或点)投射到头戴装置110周围的局部区域的一部分上。在各种实施例中，光投影仪620包括发射器和模板(pattern plate)。发射器被配置成用光(例如，红外光)照射模板。被照亮的模板将包括多个SL元素的SL图案投射到局部区域中。例如，由被照亮的模板投射的每个SL元素是与模板上的特定定位相关联的点。

由DCA 425投射的每个SL元素包括电磁光谱的红外光部分中的光。在一些实施例中，照明源是激光器，其被配置成用红外光照射模板使得它对于人是不可见的。在一些实施例中，照明源可以是脉冲式的。在一些实施例中，照明源可以是可见的并且是脉冲式的，使得光对于眼睛是不可见的。

由DCA 425投射到局部区域中的SL图案在遇到局部区域中的各种表面和对象时变形。一个或更多个成像设备625各自被配置成捕获局部区域的一个或更多个图像。捕获的一个或更多个图像中的每一个可以包括由光投影仪620投射并由局部区域中的对象反射的多个SL元素(例如，点)。一个或更多个成像设备625中的每一个可以是检测器阵列、相机或摄像机。

控制器630基于由成像设备625捕获的光生成深度图像数据。控制器630可以进一步将深度图像数据提供给控制台645、音频控制器420或某种其他部件。

PCA 430包括产生彩色(例如RGB)图像数据的一个或更多个被动相机。与使用主动光发射和反射的DCA 425不同，PCA 430从局部区域的环境捕获光以生成图像数据。图像数据的像素值可以定义在成像数据中捕获的对象的可见颜色，而不是定义距离成像设备的深度或距离的像素值。在一些实施例中，PCA 430包括控制器，该控制器基于由被动成像设备捕获的光生成彩色图像数据。在一些实施例中，DCA 425和PCA 430共享公共控制器。例如，公共控制器可以将在可见光谱(例如，图像数据)和红外光谱(例如，深度图像数据)中捕获的一个或更多个图像中的每一个映射到彼此。在一个或更多个实施例中，公共控制器被配置成附加地或替代地向音频控制器420或控制台645提供局部区域的一个或更多个图像。

音频系统330使用声学参数集合向头戴装置110的用户呈现音频内容，该声学参数集合表示头戴装置110所在的局部区域的声学属性。音频系统330将音频内容呈现为好像源自局部区域内的对象(例如，虚拟对象或真实对象)。音频系统330可以获得描述局部区域的至少一部分的信息。音频系统330可以将信息传送给映射服务器130，用于在映射服务器130处确定声学参数集合。音频系统330还可以从映射服务器130接收该声学参数集合。

在一些实施例中，响应于局部区域的声学条件的变化高于阈值变化，音频系统330选择性地将该声学参数集合外推至表示局部区域的特定配置的重建脉冲响应的调整后的声学参数集合。音频系统330可以至少部分基于重建的脉冲响应向头戴装置110的用户呈现音频内容。

在一些实施例中，音频系统330监控局部区域中的声音并生成相应的音频流。音频系统330可以至少部分基于音频流来调整声学参数集合。音频系统330还可以响应于确定局部区域的声学属性随时间的变化高于阈值变化，选择性地将音频流传送到映射服务器130，用于更新描述各种物理空间和这些空间的声学属性的虚拟模型。头戴装置110的音频系统330和映射服务器130可以经由有线或无线通信链路(例如，图1的网络120)进行通信。

I/O接口640是允许用户发送动作请求并从控制台645接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口640可以包括一个或更多个输入设备。示例输入设备包括键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送到控制台645的任何其他合适的设备。由I/O接口640接收的动作请求被传送到控制台645，控制台645执行对应于动作请求的动作。在一些实施例中，如上文进一步描述的，I/O接口640包括IMU615，其捕获指示相对于I/O接口640的初始位置的I/O接口640的估计的位置的校准数据。在一些实施例中，I/O接口640可以根据从控制台645接收的指令来向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台645向I/O接口640传送指令时，触觉反馈被提供，该指令使I/O接口640在控制台645执行动作时生成触觉反馈。

控制台645向头戴装置110提供内容，以根据从DCA 425、PCA 430、头戴装置110和输入/输出接口640中的一个或更多个接收的信息进行处理。在图6所示的示例中，控制台645包括应用储存器650、跟踪模块655和引擎660。控制台645的一些实施例具有与结合图6描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图6描述的方式分布在控制台645的部件当中。在一些实施例中，本文参照控制台645讨论的功能可以在头戴装置110或远程系统中实现。

应用储存器650存储用于由控制台645执行的一个或更多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。由应用生成的内容可以响应于经由头戴装置110的移动或I/O接口640而从用户接收的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其他合适的应用。

跟踪模块655使用一个或更多个校准参数来校准系统600的局部区域，并且可以调整一个或更多个校准参数以减少头戴装置110或I/O接口640的位置确定中的误差。例如，跟踪模块655将校准参数传送到DCA 425来调整DCA 425的焦点，以更准确地确定由DCA 425捕获的SL元素的位置。由跟踪模块655执行的校准也可以考虑从头戴装置110中的IMU 615和/或被包括在I/O接口640中的IMU 615接收的信息。另外，如果丢失对头戴装置110的跟踪(例如，DCA 425失去对至少阈值数量的投射的SL元素的视线)，则跟踪模块655可以重新校准部分或整个系统600。

跟踪模块655使用来自DCA 425、PCA 430、一个或更多个位置传感器440、IMU 615或其某种组合的信息来跟踪头戴装置110或I/O接口640的移动。例如，跟踪模块655基于来自头戴装置110的信息来确定头戴装置110的参考点在局部区域的映射中的位置。跟踪模块655还可以确定对象或虚拟对象的位置。另外，在一些实施例中，跟踪模块655可以使用来自IMU 615的指示头戴装置110位置的数据部分以及来自DCA 425的局部区域的表示来预测头戴装置110的未来定位。跟踪模块655向引擎660提供头戴装置110或I/O接口640的估计的或预测的未来位置。

引擎660执行应用，并从跟踪模块655接收头戴装置110的位置信息、加速度信息、速度信息、所预测的未来位置或它们的某种组合。基于接收到的信息，引擎660确定要提供给头戴装置110用于呈现给用户的内容。例如，如果接收到的信息指示用户已经向左看，则引擎660生成用于头戴装置110的内容，该内容反映(mirror)用户在虚拟局部区域中或在用附加内容增强局部区域的局部区域中的移动。另外，引擎660响应于从I/O接口640接收的动作请求来执行在控制台645上执行的应用内的动作，并且向用户提供动作被执行的反馈。所提供的反馈可以是经由头戴装置110的视觉或听觉反馈，或者经由I/O接口640的触觉反馈。

附加的配置信息

出于说明的目的，已经呈现了本公开的实施例的前述描述；它并不旨在穷举或将本公开限制于所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现软件模块，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

本公开的实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中，或者任何类型的适于存储电子指令的介质中，其可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

本公开的实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括从计算过程获得的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上并且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

Claims

1.一种方法，包括：

基于描述局部区域的至少一部分的信息，确定所述局部区域内的头戴装置在虚拟模型中的定位，所述虚拟模型描述多个空间和这些空间的声学属性，其中所述虚拟模型中的定位对应于所述头戴装置在所述局部区域内的物理定位；和

部分基于所述虚拟模型中的确定定位和与所述确定定位相关联的任何声学参数，确定与所述头戴装置的物理定位相关联的声学参数集合，

其中所述头戴装置使用所述声学参数集合呈现音频内容。

2.根据权利要求1所述的方法，以及以下中的任一项或更多项成立：

a)所述方法还包括：

从所述头戴装置接收描述所述局部区域的至少一部分的信息，所述信息包括关于所述局部区域的至少一部分的视觉信息；或者

b)其中所述多个空间包括：会议室、浴室、走廊、办公室、卧室、餐厅和客厅；或者

c)其中所述音频内容被呈现为好像源自所述局部区域内的对象；或者

d)其中所述声学参数集合包括以下至少一个：

对于多个频带中的每一个频带，从声源到所述头戴装置的混响时间，

对于每个频带的混响水平，

对于每个频带的直达混响比，

对于每个频带，从所述声源到所述头戴装置的直达声的方向，

每个频带的直达声的幅度，

声音从所述声源到所述头戴装置的早期反射的时间，

每个频带的早期反射的幅度，

早期反射的方向，

房间模式频率，以及

房间模式定位。

3.根据权利要求1或2所述的方法，还包括：

从所述头戴装置接收音频流；

基于所接收的音频流来确定至少一个声学参数；和

将所述至少一个声学参数存储到所述虚拟模型中的与所述头戴装置所处的物理空间相关联的存储定位。

4.根据权利要求3所述的方法，其中，响应于在所述头戴装置处确定所述局部区域的声学条件随时间的变化高于阈值变化，从所述头戴装置提供所述音频流。

5.根据任一前述权利要求所述的方法，以及以下中的任一项或更多项成立：

a)所述方法还包括：

从所述头戴装置接收音频流；和

基于接收的音频流更新所述声学参数集合，

其中所述头戴装置呈现的音频内容部分地基于更新的声学参数集合来调整；或者

b)所述方法还包括：

获得一个或更多个声学参数；

将所述一个或更多个声学参数与所述声学参数集合进行比较；和

基于所述比较，通过用所述一个或更多个声学参数替换所述集合中的至少一个声学参数来更新所述虚拟模型；或者

c)所述方法还包括：

响应于所述局部区域的声学条件的变化高于阈值变化，将所述声学参数集合传输到所述头戴装置，以外推至调整后的声学参数集合。

6.一种装置，包括：

映射模块，其被配置为基于描述局部区域的至少一部分的信息，确定所述局部区域内的头戴装置在虚拟模型中的定位，所述虚拟模型描述多个空间和这些空间的声学属性，其中所述虚拟模型中的定位对应于所述头戴装置在所述局部区域内的物理定位；和

声学模块，其被配置为部分地基于所述虚拟模型中的确定定位和与所述确定定位相关联的任何声学参数来确定与所述头戴装置的物理定位相关联的声学参数集合，

其中所述头戴装置使用所述声学参数集合呈现音频内容。

7.根据权利要求6所述的装置，还包括：

通信模块，其被配置为从所述头戴装置接收描述所述局部区域的至少一部分的信息，所述信息包括经由所述头戴装置的一个或更多个相机组件捕获的关于所述局部区域的至少一部分的视觉信息。

8.根据权利要求6或7所述的装置，其中，所述音频内容被呈现为好像源自所述局部区域内的虚拟对象。

9.根据权利要求6至8中任一项或更多项所述的装置，其中，所述声学参数集合包括以下至少一个：

对于每个频带的混响水平，

对于每个频带的直达混响比，

对于每个频带的直达声的幅度，

声音从所述声源到所述头戴装置的早期反射的时间，

每个频带的早期反射的幅度，

早期反射的方向，

房间模式频率，以及

房间模式定位。

10.根据权利要求6至9中任一项或更多项所述的装置，以及以下中的任一项或更多项成立；

a)所述装置还包括：

通信模块，其被配置为从所述头戴装置接收音频流，其中

所述声学模块还被配置为基于接收到的音频流来确定至少一个声学参数，并且所述装置还包括

非暂时性计算机可读介质，其被配置为将所述至少一个声学参数存储到所述虚拟模型中的与所述头戴装置所处的物理空间相关联的存储定位；或者

b)其中所述声学模块还被配置成：

获得一个或更多个声学参数；和

将所述一个或更多个声学参数与所述声学参数集合进行比较，并且所述装置还包括

非暂时性计算机可读存储介质，其被配置为基于所述比较，通过用所述一个或更多个声学参数替换所述集合中的至少一个声学参数来更新所述虚拟模型。

11.根据权利要求6至10中任一项或更多项所述的装置，还包括：

通信模块，其被配置为响应于所述局部区域的声学条件的变化高于阈值变化，将所述声学参数集合传输到所述头戴装置，以外推至调整后的声学参数集合。

12.一种其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器：

其中所述头戴装置使用所述声学参数集合呈现音频内容。

13.根据权利要求12所述的计算机可读介质，其中，所述指令还使得所述处理器：

从所述头戴装置接收音频流；

基于所接收的音频流来确定至少一个声学参数；和

将所述至少一个声学参数存储到所述虚拟模型中的与所述头戴装置所处的物理空间相关联的存储定位，所述虚拟模型存储在所述非暂时性计算机可读存储介质中。

14.根据权利要求12或13所述的计算机可读介质，其中，所述指令还使所述处理器：

获得一个或更多个声学参数；

基于所述比较，通过用所述一个或更多个声学参数替换所述集合中的至少一个声学参数来更新所述虚拟模型。