CN114258687A

CN114258687A - 从传统视听媒体中确定空间化虚拟声学场景

Info

Publication number: CN114258687A
Application number: CN202080040342.XA
Authority: CN
Inventors: 菲利普·罗宾逊; 塞瓦斯蒂亚·维琴察·阿门瓜尔加里; 安德鲁·洛维特; 卡尔·席斯勒; 彼得·亨利·马雷什
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-06-24
Filing date: 2020-07-24
Publication date: 2022-03-29
Also published as: US10721521B1; JP2022538511A; EP3935873A1; KR20230030563A; WO2020261250A1

Abstract

音频系统从具有二维(2‑D)声音的传统视频生成具有三维(3‑D)声音的虚拟声学环境。该系统将视频中的声源从2‑D重新定位到3‑D几何结构中，以创建可使用头戴装置观看的沉浸式3‑D视频虚拟场景。因此，音频处理系统获得包括由视频中的一个或更多个源生成的平面单声道或立体声音频的视频。系统通过分割单独的音频源来隔离来自每个源的音频。混响从每个源的音频中去除，以获得每个源的直达声分量。然后，直达声分量被重新空间化到视频的3‑D局部区域，以基于为视频中的局部区域获得的声学特性来生成3‑D音频。

Description

从传统视听媒体中确定空间化虚拟声学场景

背景

本公开总体上涉及头戴装置(headset)处的音频呈现，并且具体涉及从传统(legacy)视听媒体中确定空间化虚拟声学场景。

人类能够通过下意识地比较每只耳朵感知到的声音来确定声源的定位(location)。根据声源相对于每个用户的方向和定位以及感知声音的房间的周围环境，在两个用户的耳朵处感知到的声音可以不同。然而，除了从声源到麦克风的直达声(directsound)之外，在具有声学反射表面的环境中的记录还包含从这些反射表面的方向反射的声音。当这些记录被混合成单声道(mono)或立体声(stereo)时，反射中包含的空间信息会被毁坏并丢失。因此，许多最初为立体声扬声器或头戴式耳机(headphone)制作的传统视频媒体不包括完整的音频空间化。

概述

根据本发明，提供了一种方法，该方法包括：由音频处理系统将视频的音频分量分割成视频中第一声源的第一音频和视频中第二声源的第二音频，其中音频分量是二维音频；从第一音频和第二音频中去除混响，以获得第一音频和第二音频的直达声分量；对于与视频相关联的局部区域，获得局部区域的声学特性；以及由音频处理系统使用局部区域的声学特性，利用第一音频和第二音频的直达声分量来生成视频的三维音频。

优选地，获得局部区域的声学特性包括：从视频的视觉分量中识别局部区域的视觉特征；将所识别的局部区域的视觉特征与存储在数据库中的现实世界空间的视觉特征进行比较，该数据库包括现实世界空间的视觉特征与现实世界空间的声学特性的映射；以及响应于所识别的视觉特征与存储在数据库中的现实世界空间的视觉特征相匹配，使用现实世界空间的声学特性来生成第一音频和第二音频的三维音频。

方便地，获得局部区域的声学特性包括：分析视频的视觉分量以识别局部区域的视觉特征；以及基于局部区域的视觉特征来估计局部区域的声学特性。

优选地，基于局部区域的视觉特征估计局部区域的声学特性包括：对局部区域的视觉特征应用将已知空间的视觉特征与已知空间的声学特性相关联的机器学习模型。

方便地，获得局部区域的声学特性还包括：分析音频分量以识别第一音频和第二音频的混响；以及根据第一音频和第二音频的混响确定局部区域的声学特性。

优选地，生成三维音频包括：为第一声源和第二声源生成局部区域脉冲响应，以将第一音频和第二音频与视频中捕获的局部区域的声学特性相匹配。

方便地，该方法还包括：从用户佩戴的头戴装置获得头戴装置的位置或定向中的至少一个的数据，该位置或定向中的至少一个对应于用户相对于视频的观看视角；以及基于头戴装置的位置或定向中的至少一个的数据和在视频中捕获的局部区域的声学特性，调整第一声源和第二声源的局部区域脉冲响应。

优选地，生成视频的三维音频还包括：使用双耳合成(binaural synthesis)来组合第一声源和第二声源中的每一个的脉冲响应。

方便地，生成视频的三维音频使得第一音频被用户感知为源自局部区域内的第一对象，而第二音频被用户感知为源自局部区域内的第二对象。

根据本发明的另一方面，提供了一种方法，该方法包括：获得包括视觉分量和音频分量的视频，其中音频分量是二维音频；从音频分量识别声源；从音频分量中去除混响以获得二维音频的直达声分量；对于与视频相关联的局部区域，获得局部区域的声学特性；以及使用局部区域的声学特性，利用二维音频的直达声分量生成视频的三维音频。

优选地，生成三维音频包括：生成声源的局部区域脉冲响应，以将音频分量与视频中捕获的局部区域的声学特性相匹配。

方便地，获得局部区域的声学特性包括：从视觉分量识别局部区域的视觉特征；将所识别的局部区域的视觉特征与存储在数据库中的现实世界空间的视觉特征进行比较，该数据库包括现实世界空间的视觉特征与现实世界空间的声学特性的映射；以及响应于所识别的视觉特征与存储在数据库中的现实世界空间的视觉特征相匹配，使用现实世界空间的声学特性来生成音频分量的三维音频。

优选地，获得局部区域的声学特性包括：分析视觉分量以识别局部区域的视觉特征；以及通过对局部区域的视觉特征应用将已知空间的视觉特征与已知空间的声学特性相关联的机器学习模型来估计局部区域的声学特性。

方便地，获得局部区域的声学特性还包括：分析音频分量以识别音频分量的混响；以及根据音频分量的混响确定局部区域的声学特性。

根据本发明的另一方面，提供了一种包括指令的非暂时性计算机可读存储介质，当由处理器执行时，该指令使得处理器：将视频的音频分割成视频中第一声源的第一音频和第二声源的第二音频，其中音频是二维单声道或立体声音频；从第一音频和第二音频中去除混响，以获得第一音频和第二音频的直达声分量；对于与视频相关联的局部区域，获得局部区域的声学特性；以及使用与视频相关联的局部区域的声学特性来利用第一音频和第二音频的直达声分量生成视频的三维音频，其中三维音频使得第一声源听起来源自局部区域内的第一对象，并且第二声源听起来源自局部区域内的第二对象。

方便地，当由处理器执行时，指令还使得处理器：从用户佩戴的头戴装置获得头戴装置的位置或定向中的至少一个的数据，位置或定向中的至少一个对应于用户观看视频中内容的视角；以及基于头戴装置的位置或定向中的至少一个的数据和在视频中捕获的局部区域的声学特性，调整第一声源和第二声源的局部区域脉冲响应。

优选地，获得局部区域的声学特性还包括：识别局部区域的视觉特性；将所识别的局部区域的视觉特性与存储在数据库中的现实世界空间的视觉特性进行比较；以及响应于所识别的视觉特性与存储在数据库中的现实世界空间的视觉特性相匹配，使用存储在数据库中的现实世界空间的声学特性来生成视频的三维音频。

方便地，获得局部区域的声学特性还包括：分析局部区域的视觉特性；以及基于局部区域的视觉特性来估计局部区域的空间特性。

优选地，获得局部区域的声学特性还包括：识别第一声源和第二声源的混响；以及从所识别的混响中识别局部区域的声学特性。

公开了一种用于从具有二维(2-D)音频(例如，单声道或立体声)的传统视频生成具有三维(3-D)音频的虚拟声学环境的方法。该方法将来自视频中一个或更多个声源的2-D音频转换成3-D音频。3-D音频可用于创建可使用头戴装置观看的视频的沉浸式3-D虚拟场景。因此，音频处理系统获得包括由视频中的两个或更多个声源生成的2-D音频的视频。该系统通过使用源分离技术分割单独的声源来隔离来自每个声源的音频。伴随音频的混响(例如反射声音)从视频中每个源的音频中去除，以获得每个源的直达声分量。然后，直达声分量被重新空间化到视频的局部区域，以生成3-D音频。

为了重新空间化每个直达声分量，系统获得与视频相关联的局部区域的声学特性。音频处理系统可以通过以下方式获得局部区域的声学特性：1)将视频的视觉特征与存储在映射服务器的数据库中的空间特征进行比较，2)分析音频的混响以获得局部区域的声学特性，3)分析视频的视觉特征以估计局部区域的声学特性，以及4)分析混响和分析视觉特征的组合以估计局部区域的声学特性。

因此，音频处理系统为每个声源生成局部区域脉冲响应，使得音频匹配视频中捕获的局部区域的声学特性。这使得视频的声音听起来好像来自局部区域的每个实际声源。此外，局部区域脉冲响应还可以获取用户在房间中的位置和/或用户相对于局部区域中声源的位置。例如，音频处理系统可以获得用户佩戴的头戴装置的位置和/或定向的数据，该数据对应于用户在视频中的视角，例如用户在虚拟场景中看哪里。音频处理系统然后可以基于头戴装置的位置或定向以及视频中捕获的局部区域的声学特性来调整每个声源的局部区域脉冲响应。因此，当用户将他们的头转向远离声源时，声音将继续被佩戴头戴装置的用户感知为声音来自视频中声源的方向。

附图简述

图1是根据一个或更多个实施例的音频源分离的流程图。

图2是根据一个或更多个实施例的用于获得局部区域声学特性的流程图。

图3是根据一个或更多个实施例的用于获得局部区域声学特性的流程图。

图4是根据一个或更多个实施例的用于从视频中估计局部区域声学特性的流程图。

图5是根据一个或更多个实施例的音频处理系统的框图。

图6是示出根据一个或更多个实施例的用于从传统视听媒体导出空间化声学数据的过程的流程图。

图7是根据一个或更多个实施例的映射服务器的框图。

图8A是根据一个或更多个实施例的实施为眼部佩戴物(eyewear)装置的头戴装置的透视图。

图8B是根据一个或更多个实施例的实施为头戴式显示器的头戴装置的透视图。

图9是根据一个或更多个实施例的音频系统的框图。

图10是根据一个或更多个实施例的包括头戴装置、映射服务器和音频处理系统的系统环境的框图。

图11是根据一个或更多个实施例的头戴装置的框图。

附图仅出于说明的目的描绘了本公开的实施例。本领域中的技术人员从下面的描述中将容易认识到本文示出的结构和方法的可选择的实施例可以被采用而不偏离本文所述的本公开的原理或者所推崇的益处。

详细描述

综述

大量传统视频媒体(例如电影、TV节目、YOUTUBE视频等)不包括音频空间化。音频空间化是经过处理的音频，给听众一种虚拟3-D环境中声源的印象。音频空间化有助于人工现实系统的沉浸感，向用户暗示他们处于实际的3-D环境中。最近，使用机器学习方法分析这些传统视频并分离各个音频源已经成为可能。这允许许多可能性，例如只听视频中的一个声源和/或重新混合一个音乐合奏与一些或所有的单个乐器轨道。此外，结合聚集源和存储空间的空间和/或声学属性的映射服务器，音频源可以被重新定位到3-D几何结构中，以创建从传统记录中导出的可利用的沉浸式3-D人工现实场景。

描述了一种用于从传统视听媒体(例如，2-D视频文件)导出空间化声学数据的音频处理系统和方法。该系统和方法应用信号处理技术，同时在一些实施例中，利用来自映射服务器的信息来从具有音频的传统视频创建虚拟声学环境。该系统通过隔离来自视听媒体中的每个声源的声音以获得每个声源的直达声分量(例如，通过应用一种或更多种去混响技术)来实现这一点。该系统可以使用与媒体文件和映射服务器和/或媒体视听媒体相关联的定位信息来将音频源重新定位到视频中描绘的局部区域的3-D几何结构中。在一个实施例中，该系统执行声学模拟，以使用局部区域的3-D几何结构获得每个音频源的局部区域脉冲响应。该系统可以向人工现实头戴装置提供局部区域脉冲响应，该头戴装置使用局部区域脉冲响应来呈现空间化音频内容(例如，在局部区域的实际或虚拟表示内)。

本公开的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是一种在呈现给用户之前已经以某种方式进行了调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与捕获的(例如，现实世界)内容相结合的生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合，且其中任何一个都可以在单个通道中或在多个通道中被呈现(例如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如以在人工现实中执行活动)。可以在各种平台(包括头戴装置、连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、近眼显示器(NED)、移动设备或计算系统或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。

源分离

对于包括单声道或立体声音频的视频，音频处理系统应用一种或更多种源分离技术来导出场景中每个音频源的单声道轨道。图1是根据一个或更多个实施例的音频源分离的流程图100。在图1中，音频处理系统获得不具有完全音频空间化(例如，单声道或立体声音频)的视频105。因此，音频处理系统将音频分量110与视觉分量115隔离，并且在该示例中，使用一种或更多种源分离120技术将音频分量110内的声源分割成单独的声源。在一个实施例中，一种或更多种源分离120技术是本领域技术人员已知的现有源分离技术。例如，源分离方法可以利用未标注视频的集合来发现视频中每个对象的潜在(latent)声音表示。具体而言，图像识别工具可用于推断每个视频中存在的对象，并且可对每个视频的音频执行非负矩阵分解(NMF)以恢复其频率基向量集。在这一点上，不知道哪些音频库(audiobases)与哪些可见对象相匹配。为了恢复关联，构建了用于多实例多标签学习(MIML)的神经网络，该神经网络将音频库映射到检测到的视觉对象的分布。根据这个音频库-对象关联网络，链接到每个视觉对象的音频库被提取，产生其原型频谱模式。最后，给定一个新颖的视频，所学习的每个对象的音频库可以用于执行音频源分离。也可以使用其他源分离技术。

返回参考图1，视频105包括演奏音乐的两个人。一个人在弹吉他，对应于第一声源120，另一个人在吹萨克斯管，对应于第二声源125。因此，从视频105的音频分量110，一个或更多个源分离技术120将音频分量110分割成来自第一声源120的第一音频135和来自第二声源125的第二音频140。

此时，第一音频135包括来自第一声源125的音频以及来自第一声源125的已经从视频105的环境中的墙壁或其他对象反射的声音。类似地，第二音频140包括来自第二声源130的音频以及来自第二声源120的已经从环境中的墙壁和其他对象反射的声音。这种反射的声音被称为混响。例如，根据环境的大小、地板和墙壁的材质等，反射声音的声学特性会有很大的不同。当这样的记录被混合成单声道或立体声时，包含在反射中的空间信息被毁坏并丢失。因此，在源分离120之后，第一音频135和第二音频140仍然包含反射声能，但是没有关于这些反射的方向信息。因此，空间沉浸被打破，分离的源不能现实地放置在3-D几何结构中。因此，音频处理系统从第一音频135和第二音频140中去除混响，以获得与第一声源125和第二声源130相关联的直达声分量。因此，直达声分量直接来自声源(即，信号的纯直达声分量)，并且不包括任何混响。在一个实施例中，从第一音频130和第二音频135中去除混响利用了本领域技术人员已知的现有去混响技术。例如，可以通过利用环境的数学模型并且在估计环境的声学特性之后形成对原始信号的估计，来消除混响。在另一个示例中，可以通过将混响视为一种噪声并执行专门适用于混响的去噪处理来抑制混响。在另一个示例中，可以使用例如深度神经网络机器学习方法或替代地多通道线性过滤器来估计原始去混响信号。在这些方法中一些，去混响技术基于线性预测。也可以使用其他去混响技术和方法。

直达声分量然后被重新空间化到视频105的3-D局部区域，以生成3-D音频。为了重新空间化第一声源120和第二声源125的直达声分量，音频处理系统获得视频105中局部区域的声学特性。视频105中的局部区域的声学特性可以通过以下方式来估计：使用局部区域的视觉特征，例如局部区域的几何结构，或者通过分析局部区域的音频特征，例如与音频分量110相关联的混响时间、声音衰减、声音吸收、声音扩散等，或者视觉和音频特征的组合。

局部区域是第一声源120和第二声源125周围的空间或环境，来自吉他和萨克斯管的声音在其中反射、回响或以其他方式传播，并且局部区域的空间和声学特性影响声音如何在空间内移动，因此影响如何对空间内的用户或个人来说“发声”。因此，局部区域可以是封闭的空间，例如房间、音乐厅、教堂等，或者局部区域可以在外部。这些局部区域中的每一个的特性、其中的对象以及用户在局部区域中的位置和相对于对象的位置影响用户如何感知声音。因此，音频处理系统获得与视频相关联的局部区域的特性，并且有多种方法可以获得该局部区域的信息。这些包括音频处理系统1)将视频105的视觉分量115的视觉特征与存储在映射服务器的数据库中的空间特征进行比较，2)分析音频分量110的混响以获得局部区域的声学特性，3)分析视频105的视觉分量115以估计局部区域的声学特性，以及4)分析混响和分析视觉分量115的组合以估计局部区域的声学特性。

图2是根据一个或更多个实施例的用于获得局部区域空间特性的流程图200。在该示例中，音频处理系统通过识别局部区域的视觉特征并将这些特征与映射到声学和/或空间特性已知的空间的特征数据库进行比较，来获得将音频空间化到局部区域的特性。在该示例中，视频105的视觉分量115被分析以识别视频105内的局部区域的视觉特征205。视觉特征205是将一个空间与另一个空间区分开的区别性视觉特征，可以包括家具、家具布置、艺术品、艺术品定位、建筑设计、颜色等的组合。音频处理系统然后将这些识别出的局部区域的视觉特征205与存储在映射服务器250的数据库中的现实世界空间的特征进行比较210。在该实施例中，映射服务器250存储空间的空间和/或声学特性，映射服务器250从来自佩戴具有房间/空间映射能力的头戴装置的用户的众包(crowd-sourcing)声学和/或空间数据接收空间的空间和/或声学特性。参照图7更详细地讨论映射服务器250。因此，响应于识别局部区域的视觉特征205和存储在映射服务器250的数据库中的现实世界空间的特征之间的匹配215，音频处理系统获得220该空间的声音和/或空间特性，以便重新空间化第一音频130和第二音频135的直达声分量。在各种实施例中，映射服务器250与音频处理系统分离，或者是音频处理系统的一部分。

图3是根据一个或更多个实施例的用于获得局部区域特性的流程图300。在这个示例中，音频处理系统通过分析第一音频130和第二音频135的音频分量110的混响来获得局部区域的声学特性。在一个实施例中，分析混响305包括使用RT60估计或另一声学分析工具计算混响时间衰减。利用混响时间衰减，系统可以对局部区域的特性进行逆向工程，并将这些特性应用于第一音频130和第二音频135的直达声分量。利用局部区域的这些特性，音频处理系统使用基于混响分析确定的局部区域的特性来利用直达声分量重新空间化音频，以生成视频的3-D音频。

图4是根据一个或更多个实施例的用于从视频中估计局部区域特性的流程图400。在这个示例中，系统通过分析视频105的视觉分量115来获得局部区域的特性，以识别在视频105内可见的局部区域的特征405。在一个实施例中，用于估计局部区域特性的特征与上面参照图2讨论的相同。在其他实施例中，这些特征更具体地涉及会影响环境中的声音的特征。例如，这些特征可以包括用于确定局部区域是室内还是室外、估计局部区域的大小(例如，房间几何结构、墙壁深度、走廊聚散点(vergence point)等)、识别会影响局部区域混响的对象(例如地毯、硬木地板、空体积、局部区域的对象等)的特征，等等。利用音频处理系统在视频105中识别的这些特征，音频处理系统估计局部区域的特性410。在一个实施例中，音频处理系统使用机器学习模型将视频中的视觉特征相关联，对于这些视觉特征，其相应的声学特性是已知的。机器学习模型还可以将音频特征(例如，混响时间、声音衰减、声音吸收、声音扩散等)关联到已知的声学特性。因此，机器学习模型将视频中已知环境的视觉特征以及在一些实施例中的音频特征映射到它们的声学特性。这允许音频处理系统基于来自新视频的视觉特征和/或音频特征来估计新视频(即，系统不知道的视频)中的局部区域的声学特性。

使用声学特性，音频处理系统为第一声源125和第二声源130生成局部区域脉冲响应，使得第一音频135和第二音频140与视频105中捕获的局部区域的声学特性匹配。即使当通过头戴装置观看视频105的用户将他们的头转向远离吉他手和萨克斯手时，这也允许声音听起来好像来自局部区域的第一声源125和第二声源130。

此外，局部区域脉冲响应还可以采用用户在房间中的位置和/或用户相对于局部区域中的音频源的位置，并且根据局部区域脉冲响应。为了实现这一点，音频处理系统可以结合头部相关传递函数(HRTF)来考虑用户在房间中的位置和/或用户相对于音频源的位置。HRTF表征用户的耳朵如何接收来自空间点的声音。在2019年4月22日提交的美国专利申请第16/390,918号中详细描述了HRTF，该申请通过引用以其整体结合于此。例如，系统可以获得用户佩戴的头戴装置的位置和/或定向的数据，该位置和/或定向对应于用户在视频内的视角，例如用户在视频内看哪里。然后，系统可以基于头戴装置的位置或定向以及视频中捕获的局部区域的声音特性或空间特性来调整每个音频源的局部区域脉冲响应。在一个实施例中，这包括利用双耳合成技术，基于听众在虚拟场景中的位置和定向，将每个空间房间脉冲响应与适当的单声道轨道交互地卷积。因此，当用户将他们的头转向远离吉他手和萨克斯手时，声音将继续被佩戴头戴装置的用户感知为声音来自视频105中吉他手和萨克斯手的方向。

音频处理系统

图5是根据一个或更多个实施例的音频处理系统500的框图。随着人工现实(如虚拟现实、增强现实等)的出现，这些包括老电影的传统视频现在可以被佩戴头戴式显示器的用户观看。然而，这些旧电影包括最初为立体声扬声器或头戴式耳机制作的2-D音频，因此不包括完整的音频空间化。因此，音频处理系统获得2-D传统视频并导出空间化声学数据，以便为这些传统视频生成3-D音频。音频处理系统500包括源分离模块505、混响消除模块510、局部区域特性模块515和3-D音频生成模块530。局部区域特性模块515还包括音频分析模块520和视觉分量分析模块525。在其他实施例中，音频处理系统500可以具有列出的模块与任何附加模块的任何组合。

源分离模块505分析视频的音频分量，以识别和隔离每个声源。这包括使用一种或更多种源分离技术对声源进行分割，为每个声源创建单独的音频。例如，如果视频是两个人正在交谈的谈话节目，则源分离模块505将隔离每个人的对话。此时，来自每个声源的音频包括从视频的局部区域中的墙壁或其他对象反射的声音。反射的声音是混响，当带有混响的音频混合成单声道或立体声音频时，反射中包含的空间信息会被毁坏并丢失。

混响消除模块510接收每个声源的音频，并从中消除混响，以获得每个声源的直达声分量。直达声分量是直接来自声源并不包括任何混响的声音。

局部区域特性模块515获得在视频中捕获的局部区域的声学特性，以用于重新空间化每个音频源。如上所述，局部区域特性模块515可以通过多种方式获得局部区域的声学特性。为此，局部区域特性模块515还包括音频分析模块520和视觉分量分析模块525。

局部区域特性模块515的音频分析模块520分析音频分量的混响，以获得局部区域的声音特性。在一个实施例中，分析混响包括计算混响时间衰减(例如，使用RT60估计等)。利用混响时间衰减，系统可以对局部区域的声学特性进行逆向工程。因此，局部区域特性模块515通过逆向工程局部区域中的混响来获得局部区域的声学特性。

在一个实施例中，局部区域特性模块515的视觉分量分析模块525从视频的视觉分量中识别视觉特征，并将视觉特征与存储在映射服务器250的数据库中的空间特征进行比较，如参考图7所讨论的。响应于识别局部区域的视觉特征和存储在映射服务器250的数据库中的空间特征之间的匹配，局部区域特性模块获得空间的声学特性，用于重新空间化视频中的每个声源。因此，在该实施例中，局部区域特性模块515基于局部区域的视觉特征和存储在映射服务器250的数据库中的空间特征之间的匹配，从映射服务器获得局部区域的声学特性。

在另一个实施例中，局部区域特性模块515的视觉分量分析模块525从视频的视觉分量中识别视觉特征，以估计局部区域的声学特性。在一个实施例中，局部区域特性模块515使用机器学习模型将视频中的视觉特征与已知的声学特性相关联。机器学习模型还可以将音频特征(例如，混响时间、声音衰减、声音吸收、声音扩散等)关联到已知的声学特性。因此，机器学习模型将视频中已知环境的视觉特征以及在一些实施例中的音频特征映射到它们的声学特性。这允许局部区域特性模块515基于来自视频的视觉特征和/或音频特征来估计视频中未知的局部区域的声学特性。因此，在该实施例中，局部区域特性模块515通过基于视频中局部区域的视觉特征估计声学特性来获得局部区域的声学特性。

3-D音频生成模块530使用获得的声学特性对来自传统视频的每个声源的直达声分量进行重新空间化，以生成3-D音频。使用声学特性，3-D音频生成模块530为每个声源生成局部区域脉冲响应，使得与每个声源相关联的隔离音频匹配视频中捕获的局部区域的声学特性。这使得声音听起来好像其是从局部区域的其相应声源发出的。

用于从传统视听媒体导出空间化声学数据的方法

图6是示出根据一个或更多个实施例的用于从传统视听媒体导出空间化声学数据的过程600的流程图。图6的过程600可以由装置的部件来执行，例如映射服务器250、音频处理系统500。在其他实施例中，其他实体(例如，头戴装置800或805的部件、图7的映射服务器250和/或图11所示的部件)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。

音频处理系统500获得605包括视觉分量和音频分量的视频。音频分量由视频中的第一声源和第二声源生成。音频分量是最初被混合用于单声道或立体声音频的平面(flat)二维音频，不包括任何空间化。

音频处理系统500将音频分量分割610成第一声源的第一音频和第二声源的第二音频。分割使视频中每个单独声源的音频隔离。每个单独声源的隔离音频仍然包含与每个单独声源相关联的声音反射。

音频处理系统500从第一音频和第二音频中去除615混响，以获得没有声音反射的第一音频和第二音频的直达声分量。

音频处理系统500获得620局部区域的声学特性。如上所述，音频处理系统500通过多种方法获得620声学特性，这些方法包括1)将视频的视觉分量的视觉特征与存储在映射服务器的数据库中的空间特征进行比较，2)分析音频分量的混响以获得局部区域的声学特性，3)分析视频的视觉分量以估计局部区域的声学特性，以及4)分析混响和分析视觉分量的组合以估计局部区域的声学特性。

音频处理系统500使用局部区域的声学特性利用第一音频和第二音频的直达声分量生成625视频的3-D音频。这包括为每个音频源生成局部区域脉冲响应，使得音频的空间特性与视频中捕获的局部区域的声音和/或空间特性相匹配。这使得声音听起来好像其来自局部区域的每个实际源。存储物理空间的虚拟模型的映射服务器

图7是根据一个或更多个实施例的映射服务器250的框图。映射服务器250便于3-D音频的生成。映射服务器250存储空间的声学特性，映射服务器250从来自佩戴具有房间/空间映射能力的头戴装置的用户的众包声学和/或空间数据中接收空间的声学特性。映射服务器250包括存储描述多个空间和这些空间的声学特性的虚拟模型的数据库。为了促进该功能，映射服务器250经由网络从多个头戴装置接收描述位于许多不同定位的许多房间的至少一部分的视觉信息。映射服务器250基于接收到的视觉信息和/或定位信息，确定虚拟模型中与空间的当前配置(例如，局部区域)相关联的定位。映射服务器250部分地基于虚拟模型中确定的定位和与确定的定位相关联的任何声学特性，来确定(例如，检索)与空间的当前配置相关联的一组声学特性。映射服务器250可以(例如，经由网络)向音频处理系统500提供关于该组声学特性的信息，用于在音频处理系统500处生成3-D音频内容。在一些实施例中，映射服务器250的一些部件可以与经由有线连接(图6中未示出)连接到头戴装置的另一设备(例如，控制台)集成。下面结合图7和图10讨论关于映射服务器250的操作和部件的附加细节。

映射服务器250包括虚拟模型数据库705、通信模块710、映射模块715和声学分析模块720。在其他实施例中，映射服务器250可以具有列出的模块与任何附加模块的任何组合。在一些其他实施例中，映射服务器250包括结合了图7所示模块功能的一个或更多个模块。映射服务器250的处理器(图7中未示出)可以运行虚拟模型数据库705、通信模块710、映射模块715、声学分析模块720、一个或更多个其他模块或结合了图7中所示模块功能的模块中的部分或全部。

虚拟模型数据库705存储描述多个物理空间和这些物理空间的声学特性的虚拟模型。虚拟模型中的每个定位对应于由局部区域内的一个或更多个头戴装置映射的物理定位，该局部区域具有与唯一声学条件相关联的特定配置。唯一声学条件表示局部区域的条件，该局部区域具有用唯一声学特性集合表示的唯一声学特性集合。虚拟模型中的每个定位都与对应的物理空间的一个声学特性集合相关联，其表示局部区域的一种配置。该声学特性集合描述了局部区域的一个特定配置的各种声学特性。其声学特性在虚拟模型中描述的物理空间包括但不限于会议室、浴室、走廊、办公室、卧室、餐厅和客厅。在一些实施例中，物理空间可以是某些外部空间(例如，庭院、花园等)或各种内部和外部空间的组合。

通信模块710是通过网络与头戴装置通信的模块。通信模块710从头戴装置接收描述头戴装置观察到的局部区域的至少一部分的视觉信息。在一个或更多个实施例中，视觉信息包括局部区域的至少一部分的图像数据。例如，通信模块710接收由头戴装置的深度相机组件(DCA)捕获的深度图像数据，该深度图像数据具有关于由局部区域的表面(例如空间的墙壁、地板和天花板的表面)定义的局部区域的形状的信息。通信模块710还可以接收由头戴装置的被动相机组件(PCA)捕获的彩色图像数据。映射服务器250可以使用彩色图像数据来将不同的声学材料与局部区域的表面相关联。通信模块710可以将从头戴装置接收的视觉信息(例如，深度图像数据和彩色图像数据)提供给映射模块715。

映射模块715将从头戴装置接收的视觉信息映射到虚拟模型的定位。映射模块715确定对应于头戴装置710所处的当前物理空间的虚拟模型的定位(即局部区域的当前配置)。映射模块715搜索虚拟模型以找到(i)视觉信息和(ii)虚拟模型内物理空间的相应配置之间的映射，该视觉信息至少包括例如关于物理空间的表面几何结构的信息和关于表面声学材料的信息。通过将接收到的视觉信息的几何结构和/或声学材料信息与存储为虚拟模型内的物理空间的配置的一部分的几何结构和/或声学材料信息进行匹配来执行映射。虚拟模型内物理空间的相应配置对应于头戴装置当前所在的物理空间的模型。如果没有发现匹配，这表示物理空间的当前配置尚未在虚拟模型中建模。在这种情况下，映射模块715可以通知声学分析模块720没有找到匹配，并且声学分析模块720至少部分基于接收到的视觉信息来确定声学特性集合。

声学分析模块720部分地基于从映射模块715获得的虚拟模型中的确定定位和与确定定位相关联的虚拟模型中的任何声学特性，来确定与头戴装置的物理定位相关联的声学特性集合。在一些实施例中，声学分析模块720从虚拟模型检索声学特性集合，因为声学特性集合存储在虚拟模型中与特定空间配置相关联的确定定位。在一些其他实施例中，声学分析模块720至少部分基于从头戴装置接收的视觉信息，通过调整针对虚拟模型中的特定空间配置的先前确定的声学特性集合来确定声学特性集合。例如，声学分析模块720可以使用接收到的视觉信息来运行离线声学模拟，以确定声学特性集合。

在一些实施例中，声学分析模块720可以执行声学模拟以生成空间相关的预先计算的声学特性(例如，空间相关的混响时间、空间相关的直达混响比等)。空间相关的预先计算的声学特性可以存储在虚拟模型数据库705的虚拟模型的适当定位。每当物理空间的几何结构和/或声学材料改变时，声学分析模块720可以使用预先计算的声学特性来重新计算空间相关的声学特性。声学分析模块720可以使用各种输入用于声学模拟，例如但不限于：关于房间几何结构的信息、声学材料属性估计和/或关于人类占用水平的信息(例如，空的、部分满的、满的)。声学特性可以针对各种占用水平和房间的各种状态(例如，打开的窗户、关闭的窗户、打开的窗帘、关闭的窗帘等)进行模拟。如果房间的状态改变，映射服务器250可以确定用于向用户呈现音频内容的适当的声学特性集合，并将其传送给头戴装置。否则，如果适当的声学特性集合不可用，映射服务器250(例如，通过声学分析模块720)将(例如，通过声学模拟)计算新的声学特性集合并将新的声学特性集合传送给头戴装置。

在一些实施例中，对于给定的局部区域配置，映射服务器250存储完整的(测量的或模拟的)房间脉冲响应。例如，局部区域的配置可以基于头戴装置和声源的特定空间布置。映射服务器250可以将房间脉冲响应缩减为适合于网络传输的定义带宽(例如，网络720的带宽)的声学特性集合。表示全脉冲响应的参数化版本的声学特性集合可以例如作为虚拟模式的一部分存储在虚拟模型数据库705中，或者存储在映射服务器250的单独的非暂时性计算机可读存储介质中(未在图7中示出)。在2019年3月27日提交的美国专利申请第16/366，484号中进一步描述了映射服务器250及其功能，该申请通过引用以其整体结合于此。

示例头戴装置

图8A是根据一个或更多个实施例的实施为眼部佩戴物装置的头戴装置800的透视图。在一些实施例中，眼部佩戴物装置是近眼显示器(NED)。通常，头戴装置800可以戴在用户的脸上，使得使用显示组件和/或音频系统呈现内容(例如，媒体内容)。然而，也可以使用头戴装置800使得以不同的方式向用户呈现媒体内容。由头戴装置800呈现的媒体内容的示例包括一个或更多个图像、视频、音频、或它们的某种组合。头戴装置800包括框架，并且可以包括显示组件、深度相机组件(DCA)、音频系统和位置传感器890以及其他部件，该显示组件包括一个或更多个显示元件820。虽然图8A在头戴装置800上的示例定位示出了头戴装置800的部件，但是这些部件可以位于头戴装置800上的别处、与头戴装置800配对的外围装置上或者这两种位置的某种组合。类似地，头戴装置800上的部件可能比图8A中所示的更多或更少。

框架810保持头戴装置800的其他部件。框架810包括保持一个或更多个显示元件820的前部和附接到用户头部的末端件(例如，镜腿)。框架810的前部架在(bridge)用户鼻子的顶部。末端件的长度可以是可调节的(例如，可调节的镜腿长度)以适合不同的用户。末端件还可包括在用户耳朵后面卷曲的部分(例如，镜腿尖端、挂耳件)。

一个或更多个显示元件820向佩戴头戴装置800的用户提供光。如图所示，头戴装置包括用于用户的每只眼睛的显示元件820。在一些实施例中，显示元件820生成提供给头戴装置800的视窗(eyebox)的图像光。视窗是用户佩戴头戴装置800时眼睛所占据的空间定位。例如，显示元件820可以是波导显示器。波导显示器包括光源(例如，二维光源、一个或更多个线光源、一个或更多个点光源等)和一个或更多个波导。来自光源的光被向内耦合到一个或更多个波导中，该波导以使得在头戴装置800的视窗中存在瞳孔复制的方式输出光。来自一个或更多个波导的光的向内耦合和/或向外耦合可以使用一个或更多个衍射光栅来完成。在一些实施例中，波导显示器包括扫描元件(例如，波导、反射镜等)，当来自光源的光向内耦合到一个或更多个波导中时，该扫描元件扫描来自光源的光。须注意，在一些实施例中，显示元件820中的一个或两个是不透明的并且不透射来自头戴装置800周围的局部区域的光。局部区域是头戴装置800周围的区域。例如，局部区域可以是佩戴头戴装置800的用户所在的房间，或者佩戴头戴装置800的用户可以在外面，并且局部区域是外部区域。在这种情况下，头戴装置800生成VR内容。可替代地，在一些实施例中，显示元件820中的一者或两者至少部分透明，使得来自局部区域的光可与来自一个或更多个显示元件的光组合以产生AR和/或MR内容。

在一些实施例中，显示元件820不生成图像光，而是透镜将光从局部区域传送到视窗。例如，显示元件820中的一个或两个可以是无矫正的透镜(非处方)，或者是处方透镜(例如，单视力透镜、双焦和三焦透镜或渐进透镜)以帮助矫正用户视力的缺陷。在一些实施例中，显示元件820可以被偏振和/或着色以保护用户的眼睛免受阳光照射。

须注意，在一些实施例中，显示元件820可以包括附加的光学块(未示出)。光学块可包括将光从显示元件820引导至视窗的一个或更多个光学元件(例如，透镜、菲涅耳透镜等)。光学块可以例如校正一些或所有图像内容中的像差、放大一些或所有图像、或其某种组合。

DCA确定头戴装置800周围局部区域的一部分的深度信息。DCA包括一个或更多个成像装置830和DCA控制器(未在图8A中示出)，并且还可以包括照明器840。在一些实施例中，照明器840用光照亮局部区域的一部分。光可以是例如红外(IR)结构光(例如，点图案、条等)、用于飞行时间的IR闪光等。在一些实施例中，一个或更多个成像装置830捕获包括来自照明器840的光的局部区域部分的图像。如图所示，图8A示出了单个照明器840和两个成像装置830。在替代实施例中，没有照明器840和至少两个成像装置830。

DCA控制器使用捕获的图像和一种或更多种深度确定技术计算局部区域的部分的深度信息。深度确定技术可以是例如直接飞行时间(ToF)深度感测、间接ToF深度感测、结构光、被动立体分析、主动立体分析(使用通过来自照明器840的光添加到场景的纹理)、确定场景的深度的某种其他技术或者它们的某种组合。

音频系统提供音频内容。该音频系统包括换能器阵列、传感器阵列和音频控制器850。然而，在其他实施例中，音频系统可以包括不同的和/或附加的部件。类似地，在一些情况下，参考音频系统的部件描述的功能可以以不同于这里描述的方式在部件之间分配。例如，控制器的一些或所有功能可以由远程服务器执行。

换能器阵列向用户呈现声音。换能器阵列包括多个换能器。换能器可以是扬声器860或组织换能器(tissue transducer)870(例如，骨传导换能器或软骨传导换能器)。尽管扬声器860被示出在框架810的外部，但是扬声器860可以被封闭在框架810中。在一些实施例中，代替用于每个耳朵的单独的扬声器，头戴装置800包括扬声器阵列，该扬声器阵列包括集成到框架810中的多个扬声器，以改善所呈现的音频内容的方向性。组织换能器870耦合到用户的头部并直接振动用户的组织(例如，骨骼或软骨)以生成声音。换能器的数量和/或定位可以与图8A所示的不同。

传感器阵列检测头戴装置800的局部区域内的声音。传感器阵列包括多个声学传感器880。声学传感器880捕获从局部区域(例如，房间)中的一个或更多个声源发出的声音。每个声学传感器被配置为检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。声学传感器880可以是声波传感器、传声器、声音换能器或适用于检测声音的类似传感器。

在一些实施例中，一个或更多个声学传感器880可以放置在每个耳朵的耳道中(例如，充当双耳麦克风)。在一些实施例中，声学传感器880可以放置在头戴装置800的外表面上、放置在头戴装置800的内表面上、与头戴装置800分开(例如，某种其他装置的一部分)或者它们的某种组合。声学传感器880的数量和/或定位可以与图8A所示的不同。例如，可以增加声学检测定位的数量以增加收集的音频信息的量以及信息的灵敏度和/或准确性。声学检测定位可以被定向成使得麦克风能够在佩戴头戴装置800的用户周围的大范围方向上检测声音。

音频控制器850处理来自传感器阵列的描述由传感器阵列检测到的声音的信息。音频控制器850可以包括处理器和计算机可读存储介质。音频控制器850可以被配置为生成到达方向(DOA)估计、生成声传递函数(例如，阵列传递函数和/或头部相关传递函数)、跟踪声源的定位、在声源方向上形成波束、对声源进行分类、为扬声器860生成声音过滤器，或它们的某种组合。

位置传感器890响应于头戴装置800的运动而生成一个或更多个测量信号。位置传感器890可以位于头戴装置800的框架810的一部分上。位置传感器890可以包括惯性测量单元(IMU)。位置传感器890的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一合适类型的传感器、用于IMU的误差校正的一种类型的传感器、或者它们的某种组合。位置传感器890可以位于IMU的外部、IMU的内部或者它们的某种组合。

在一些实施例中，头戴装置800可以提供头戴装置800的位置的同时定位和映射(SLAM)以及局部区域模型的更新。例如，头戴装置800可以包括生成彩色图像数据的无源相机组件(PCA)。PCA可以包括一个或更多个RGB相机，其用于捕获一些或全部局部区域的图像。在一些实施例中，DCA的一些或所有成像装置830也可以用作PCA。PCA捕获的图像和DCA确定的深度信息可以用于确定局部区域的参数、生成局部区域的模型、更新局部区域的模型或者它们的某种组合。此外，位置传感器890跟踪头戴装置800在房间内的位置(例如，定位和姿态)。下面结合图9-图11讨论关于头戴装置800的部件的附加细节。

图8B是根据一个或更多个实施例的实施为HMD的头戴装置805的透视图。在描述AR系统和/或MR系统的实施例中，HMD前侧的部分在可见光波段(约380nm至750nm)中至少部分透明，并且在HMD前侧和用户的眼睛之间的HMD的部分至少是部分透明的(例如，部分透明的电子显示器)。HMD包括前刚性主体815和带875。头戴装置805包括许多与上文参考图8A描述的相同的部件，但这些部件经过修改以与HMD形状因子集成。例如，HMD包括显示组件、DCA、音频系统和位置传感器890。图8B示出了照明器840、多个扬声器860、多个成像装置830、多个声学传感器880和位置传感器890。

头戴装置音频系统

图9是根据一个或更多个实施例的音频系统900的框图。图8A或图8B中的音频系统可以是音频系统900的实施例。音频系统900为用户生成一个或更多个声传递函数。音频系统900然后可以使用一个或更多个声传递函数来为用户生成音频内容。在图9的实施例中，音频系统900包括换能器阵列910、传感器阵列920和音频控制器930。音频系统900的一些实施例具有与这里描述的部件不同的部件。类似地，在某些情形中，功能可以以不同于这里描述的方式在部件之间分配。

换能器阵列910被配置成呈现音频内容。换能器阵列910包括多个换能器。换能器是提供音频内容的设备。换能器可以是例如扬声器(例如，扬声器860)、组织换能器(例如，组织换能器870)、提供音频内容的一些其他设备或它们的某种组合。组织换能器可以被配置成用作骨传导换能器或软骨传导换能器。换能器阵列910可以经由空气传导(例如，经由一个或更多个扬声器)、经由骨传导(经由一个或更多个骨传导换能器)、经由软骨传导音频系统(经由一个或更多个软骨传导换能器)或其某种组合来呈现音频内容。在一些实施例中，换能器阵列910可以包括一个或更多个换能器，以覆盖频率范围的不同部分。例如，压电换能器可以用于覆盖频率范围的第一部分，而动圈换能器可以用于覆盖频率范围的第二部分。

骨传导换能器通过振动用户头部的骨骼/组织来产生声压波。骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为在耳廓后面耦合到用户颅骨的一部分。骨传导换能器从音频控制器930接收振动指令，并基于接收的指令振动用户颅骨的一部分。来自骨传导换能器的振动产生组织传播的声压波，该声压波绕过耳膜向用户的耳蜗传播。

软骨传导换能器通过振动用户耳朵的耳软骨的一个或更多个部分来产生声压波。软骨传导换能器可以耦合到头戴装置的一部分，并且可以被配置为耦合到耳朵的耳软骨的一个或更多个部分。例如，软骨传导换能器可以耦合到用户耳朵的耳廓后部。软骨传导换能器可以位于沿着外耳周围的耳软骨的任何地方(例如耳廓、耳屏、耳软骨的一些其他部分或它们的一些组合)。振动耳软骨的一个或更多个部分可以产生：耳道外的空气传播的声压波；导致耳道的某些部分振动从而在耳道内产生空气传播的声压波的组织产生的声压波；或者它们的某种组合。产生的空气传播的声压波沿着耳道向耳鼓传播。

换能器阵列910根据来自音频控制器930的指令生成音频内容。在一些实施例中，音频内容被空间化。空间化音频内容是听起来源自特定方向和/或目标区域(例如，局部区域中的对象和/或虚拟对象)的音频内容。例如，空间化的音频内容可以使声音听起来来自音频系统900的用户房间对面的虚拟歌手。换能器阵列910可以耦合到可佩戴设备(例如，头戴装置800或头戴装置805)。在替代实施例中，换能器阵列910可以是与可佩戴设备分离(例如，耦合到外部控制台)的多个扬声器。

传感器阵列920检测传感器阵列920周围的局部区域内的声音。传感器阵列920可以包括多个声学传感器，每个声学传感器检测声波的气压变化并将检测到的声音转换成电子格式(模拟的或数字的)。多个声学传感器可以位于头戴装置(例如，头戴装置800和/或头戴装置805)上、用户身上(例如，在用户的耳道中)、颈带上或其某种组合上。声学传感器可以是例如麦克风、振动传感器、加速度计或其任意组合。在一些实施例中，传感器阵列920被配置成使用多个声学传感器中的至少一些来监控由换能器阵列910生成的音频内容。增加传感器的数量可以提高描述由换能器阵列910产生的声场和/或来自局部区域的声音的信息(例如，方向性)的准确性。

音频控制器930控制音频系统900的操作。在图9的实施例中，音频控制器930包括数据储存器935、DOA估计模块940、传递函数模块950、跟踪模块960、波束形成模块970和声音过滤器模块980。在一些实施例中，音频控制器930可以位于头戴装置内部。音频控制器930的一些实施例具有与这里描述的不同的部件。类似地，功能可以以不同于这里描述的方式分布在部件中。例如，控制器的一些功能可以在头戴装置外部执行。

数据储存器935存储供音频系统900使用的数据。数据储存器935中的数据可以包括在音频系统900的局部区域中记录的声音、音频内容、头部相关传递函数(HRTF)、一个或更多个传感器的传递函数、一个或更多个声学传感器的阵列传递函数(ATF)、声源定位、局部区域的虚拟模型、到达方向估计、声音过滤器和其他与音频系统900使用相关的数据，或者它们的任意组合。

DOA估计模块940被配置成部分基于来自传感器阵列920的信息来定位局部区域中的声源。定位是确定声源相对于音频系统900的用户的位置的过程。DOA估计模块940执行DOA分析以定位局部区域内的一个或更多个声源。DOA分析可以包括分析传感器阵列920处每个声音的强度、频谱和/或到达时间，以确定声音起源的方向。在一些情况下，DOA分析可以包括用于分析音频系统900所处的周围声学环境的任何合适的算法。

例如，DOA分析可以被设计成从传感器阵列920接收输入信号，并将数字信号处理算法应用于输入信号以估计到达方向。这些算法可以包括例如延迟和求和算法，其中输入信号被采样，并且采样信号的最终加权和延迟版本被一起平均以确定DOA。也可以实现最小均方(LMS)算法以创建自适应过滤器。该自适应过滤器然后可以用于例如，识别信号强度的差异或到达时间的差异。然后这些差异可用于估算DOA。在另一个实施例中，可以通过将输入信号转换到频域内并选择要处理的时频(TF)域内的特定单元(bin)来确定DOA。可以处理每个选定TF单元以确定该单元是否包括具有直接路径音频信号的音频频谱的一部分。然后可以分析具有直接路径信号的一部分的那些单元，以识别传感器阵列920接收直接路径音频信号的角度。然后，所确定的角度可以用于识别接收到的输入信号的DOA。也可以单独地或者与上面的算法结合地使用上面没有列出的其他算法来确定DOA。

在一些实施例中，DOA估计模块940还可以相对于音频系统900在局部区域内的绝对位置确定DOA。传感器阵列920的位置可以从外部系统(例如，头戴装置的一些其他部件、人工现实控制台、映射服务器、位置传感器(例如，位置传感器890)等)接收。外部系统可以创建局部区域的虚拟模型，其中局部区域和音频系统900的位置被映射。接收的位置信息可以包括音频系统900的一些或全部(例如，传感器阵列920)的定位和/或定向。DOA估计模块940可以基于接收的位置信息更新估计的DOA。

传递函数模块950被配置成生成一个或更多个声传递函数。一般来说，传递函数是对于每个可能的输入值给出相应的输出值的数学函数。基于检测到的声音的参数，传递函数模块950生成与音频系统相关联的一个或更多个声传递函数。声传递函数可以是阵列传递函数(ATF)、头部相关传递函数(HRTF)、其他类型的声传递函数或其某种组合。ATF表征麦克风如何从空间中的点接收声音。

ATF包括表征声音和由传感器阵列920中的声学传感器接收的相应声音之间的关系的多个传递函数。因此，对于声源，传感器阵列920中的每个声学传感器都有相应的传递函数。这组传递函数统称为ATF。因此，对于每个声源，存在相应的ATF。注意，声源可以是例如在局部区域产生声音的某人或某物、用户或换能器阵列910的一个或更多个换能器。相对于传感器阵列920的特定声源定位的ATF可能因用户而异，这是由于人的解剖结构(例如，耳朵形状、肩膀等)会在声音传到人的耳朵时影响声音。因此，传感器阵列920的ATF对于音频系统900的每个用户是个性化的。

在一些实施例中，传递函数模块950为音频系统900的用户确定一个或更多个HRTF。HRTF表征耳朵如何从空间中的点接收声音。由于人的解剖结构(例如耳朵形状、肩膀等)在声音传播到人的耳朵时影响声音，所以相对于人的特定源定位的HRTF对于人的每只耳朵是唯一的(并且对于该人是唯一的)。在一些实施例中，传递函数模块950可以使用校准过程为用户确定HRTF。在一些实施例中，传递函数模块950可以向远程系统提供关于用户的信息。远程系统使用例如机器学习确定为用户定制的一组HRTF，并将定制的一组HRTF提供给音频系统900。

跟踪模块960被配置成跟踪一个或更多个声源的定位。跟踪模块960可以比较当前DOA估计，并将它们与先前DOA估计的存储历史进行比较。在一些实施例中，音频系统900可以定期地(例如每秒一次或者每毫秒一次)重新计算DOA估计。跟踪模块可以将当前DOA估计与先前的DOA估计进行比较，并且响应于声源的DOA估计的变化，跟踪模块960可以确定声源移动了。在一些实施例中，跟踪模块960可以基于从头戴装置或一些其他外部源接收的视觉信息来检测定位的变化。跟踪模块960可以跟踪一个或更多个声源随着时间的推移的移动。跟踪模块960可以存储声源的数量和每个声源的定位在每个时间点的值。响应于声源的数量或定位的值的变化，跟踪模块960可以确定声源移动了。跟踪模块960可以计算定位方差(localization variance)的估计。定位方差可以用作移动的变化的每次确定的置信水平。

波束形成模块970被配置为处理一个或更多个ATF，以选择性地强调来自某个区域内的声源的声音，同时去强调来自其他区域的声音。在分析由传感器阵列920检测到的声音时，波束形成模块970可以组合来自不同声学传感器的信息，以强调来自局部区域的特定区的相关声音，同时去强调来自该区外部的声音。波束形成模块970可以基于例如来自DOA估计模块940和跟踪模块960的不同DOA估计，将与来自特定声源的声音相关联的音频信号与局部区域中的其他声源隔离。波束形成模块970因此可以选择性地分析局部区域中的分立声源。在一些实施例中，波束形成模块970可以增强来自声源的信号。例如，波束形成模块970可以应用消除高于、低于某些频率或在某些频率之间的信号的声音过滤器。信号增强起作用来相对于由传感器阵列920检测到的其他声音来增强与给定的所识别的声源相关联的声音。

声音过滤器模块980确定用于换能器阵列910的声音过滤器。在一些实施例中，声音过滤器使得音频内容被空间化，使得音频内容听起来源自目标区域。声音过滤器模块980可以使用HRTF和/或声学参数来生成声音过滤器。声学参数描述了局部区域的声学特性。声学参数可以包括例如混响时间、混响水平、房间脉冲响应等。在一些实施例中，声音过滤器模块980计算一个或更多个声学参数。在一些实施例中，声音过滤器模块980从映射服务器请求声学参数(例如，如图7所述)。

声音过滤器模块980向换能器阵列910提供声音过滤器。在一些实施例中，声音过滤器可以根据频率引起声音的正或负放大。

系统环境

图10是根据一个或更多个实施例的包括头戴装置1010、映射服务器250和音频处理系统500的系统环境1000的框图。系统1000包括可由用户1015佩戴的头戴装置1010。头戴装置1010经由网络1020连接到映射服务器250和音频处理系统500。在一些实施例中，音频处理系统500是映射服务器250的一部分，反之亦然。

网络1020连接头戴装置1010、映射服务器250和音频处理系统500。网络1020可以包括使用无线和/或有线通信系统的局域网和/或广域网的任意组合。例如，网络1020可以包括互联网以及移动电话网络。在一个实施例中，网络1020使用标准通信技术和/或协议。因此，网络1020可以包括使用诸如以太网、802.11、微波接入全球互操作性(WiMAX)、2G/3G/4G移动通信协议、数字用户线路(DSL)、异步传输模式(ATM)、无限带宽(InfiniBand)、PCI快速高级交换等技术的链路。类似地，网络1020上使用的网络协议可以包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、文件传输协议(FTP)等。通过网络1020交换的数据可以使用包括二进制形式的图像数据(例如，便携式网络图形(PNG))、超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来表示。此外，所有或部分链路可以使用常规加密技术进行加密，例如安全套接字层(SSL)、传输层安全性(TLS)、虚拟专用网络(VPN)、互联网协议安全性(IPsec)等。网络1020还可以将位于相同或不同房间的多个头戴装置连接到相同的映射服务器250和音频处理系统500。

头戴装置1010向用户呈现媒体。在一个实施例中，头戴装置1010可以是NED，例如图8A所示的头戴装置800。在另一个实施例中，头戴装置1010可以是HMD，例如图8B所示的头戴装置805。通常，头戴装置1010可以戴在用户的脸上，使得使用头戴装置的一个或两个透镜呈现内容(例如，媒体内容)。然而，也可以使用头戴装置1010使得以不同的方式向用户呈现媒体内容。由头戴装置1010呈现的媒体内容的示例包括一个或更多个图像、视频、音频、或它们的某种组合。

音频处理系统500从传统视频生成3-D音频。传统视频可以通过头戴装置1010呈现给用户1015，用户可以观看具有3-D空间化音频的视频。音频处理系统500可以经由网络1020或通过另一实体直接向头戴装置1010提供3-D空间化音频。

图11是根据一个或更多个实施例的头戴装置1010的系统1100。系统1100可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或它们的某种组合)中操作。图11所示的系统1100包括头戴装置1010、映射服务器250和耦合到控制台1155的输入/输出(I/O)接口1150。虽然图11示出了包括一个头戴装置1010和一个I/O接口1150的示例系统1100，但在其他实施例中，系统1100中可以包括任意数量的这些部件。例如，可以有多个头戴装置1010，每个头戴装置1010具有相关联的I/O接口1150，每个头戴装置1010和I/O接口1150与控制台1155通信。在替代配置中，系统1100中可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图11所示的一个或更多个部件描述的功能可以以不同于结合图11描述的方式在部件之间分配。例如，控制台1155的一些或全部功能可以由头戴装置1010提供。

头戴装置1010包括透镜1112、光学块1105、一个或更多个位置传感器1115、DCA1120、惯性测量单元(IMU)1110、PCA 1140和音频系统1145。头戴装置1010的一些实施例具有与结合图11描述的部件不同的部件。另外，在其他实施例中，由结合图11描述的各种部件提供的功能可以不同地分布在头戴装置1010的部件中，或者被捕获在远离头戴装置1010的单独组件中。

透镜1112可以包括根据从控制台1155接收的数据来向用户显示2D或3D图像的电子显示器。在各种实施例中，透镜1112包括单个电子显示器或多个电子显示器(例如，针对用户的每只眼睛的显示器)。电子显示器的示例包括：液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管显示器(AMOLED)、某种其他显示器、或它们的某种组合。

光学块1105放大从电子显示器接收的图像光、校正与图像光相关联的光学误差、并将校正的图像光呈现给头戴装置1010的用户。在各种实施例中，光学块1105包括一个或更多个光学元件。光学块1105中包括的示例光学元件包括：光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块1105可以包括不同光学元件的组合。在一些实施例中，光学块1105中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。

光学块1105对图像光的放大和聚焦允许电子显示器比更大的显示器物理上更小、重量更轻并且消耗更少的功率。另外，放大可以增大电子显示器所呈现的内容的视场。例如，所显示内容的视场使得所显示内容使用用户的几乎所有视场(例如，大约90度对角线)、且在一些情况下使用所有视场来呈现。此外，在一些实施例中，可以通过添加或移除光学元件来调整放大倍数。

在一些实施例中，光学块1105可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens fieldcurvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，被提供给电子显示器用于显示的内容被预失真，并且当光学块1105从电子显示器接收基于内容生成的图像光时，光学块校正失真。

IMU 1110是电子设备，其基于从一个或更多个位置传感器1115接收的测量信号生成指示头戴装置1010位置的数据。位置传感器1040响应于头戴装置1010的运动而生成一个或更多个测量信号。位置传感器1115的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于IMU 1110的误差校正的一种类型的传感器或者其某种组合。位置传感器1115可以位于IMU 1110的外部、IMU1110的内部或者这两种位置的某种组合。

DCA 1120生成诸如房间的局部区域的深度图像数据。深度图像数据包括定义距成像装置的距离的像素值，并因此提供在深度图像数据中捕获的定位的(例如，3D)映射。DCA1120包括光投影仪1125、一个或更多个成像装置1130和控制器1135。光投影仪1125可以投射结构光图案或其他光，该结构光图案或其他光被局部区域中的对象反射，并被成像装置625捕获以生成深度图像数据。

例如，光投影仪1125可以将不同类型的多个结构光(SL)元素(例如线条、网格或点)投射到头戴装置1010周围的局部区域的一部分上。在各种实施例中，光投影仪1125包括发射器和模板(pattern plate)。发射器被配置成用光(例如，红外光)照射模板。被照亮的模板将包括多个SL元素的SL图案投射到局部区域中。例如，由被照亮的模板投射的每个SL元素是与模板上的特定定位相关联的点。

由DCA 1120投射的每个SL元素包括电磁光谱的红外光部分中的光。在一些实施例中，照明源是激光器，其被配置成用红外光照射模板使得它对于人是不可见的。在一些实施例中，照明源可以是脉冲式的。在一些实施例中，照明源可以是可见的并且是脉冲式的，使得光对于眼睛是不可见的。

由DCA 1120投射到局部区域中的SL图案在遇到局部区域中的各种表面和对象时变形。一个或更多个成像装置1130各自被配置成捕获局部区域的一个或更多个图像。捕获的一个或更多个图像中的每一个可以包括由光投影仪1125投射并由局部区域中的对象反射的多个SL元素(例如，点)。一个或更多个成像装置1130中的每一个可以是检测器阵列、相机或摄像机。

控制器1135基于由成像装置625捕获的光生成深度图像数据。控制器1135可以进一步将深度图像数据提供给控制台1155、音频控制器1020或某种其他部件。

PCA 1140包括产生彩色(例如RGB)图像数据的一个或更多个被动相机。与使用主动光发射和反射的DCA 1120不同，PCA 1140从局部区域的环境捕获光以生成图像数据。图像数据的像素值可以定义在成像数据中捕获的对象的可见颜色，而不是定义距离成像装置的深度或距离的像素值。在一些实施例中，PCA 1140包括控制器，该控制器基于由被动成像装置捕获的光生成彩色图像数据。在一些实施例中，DCA 1120和PCA 1140共享公共控制器。例如，公共控制器可以将在可见光谱(例如，图像数据)和红外光谱(例如，深度图像数据)中捕获的一个或更多个图像中的每一个映射到彼此。在一个或更多个实施例中，公共控制器被配置成附加地或替代地向音频控制器1020或控制台1155提供局部区域的一个或更多个图像。

音频系统900使用声学特性集合向头戴装置1010的用户呈现音频内容，该声学特性集合表示头戴装置1010所在的局部区域的声学属性。音频系统900将音频内容呈现为好像源自局部区域内的对象(例如，虚拟对象或真实对象)。音频系统900可以获得描述局部区域的至少一部分的信息。音频系统900可以将信息传送给映射服务器250，用于在映射服务器250处确定声学特性集合。音频系统900还可以从映射服务器250接收该声学特性集合。

在一些实施例中，响应于局部区域的声学条件的变化高于阈值变化，音频系统900选择性地将该声学特性集合外推至表示局部区域的特定配置的重建脉冲响应的调整后的声学特性集合。音频系统900可以至少部分基于重建的脉冲响应向头戴装置1010的用户呈现音频内容。

在一些实施例中，音频系统900监控局部区域中的声音并生成相应的音频流。音频系统900可以至少部分基于音频流来调整声学特性集合。音频系统900还可以响应于确定局部区域的声学属性随时间的变化高于阈值变化，选择性地将音频流传送到映射服务器250，用于更新描述各种物理空间和这些空间的声学属性的虚拟模型。头戴装置1010的音频系统900和映射服务器250可以经由有线或无线通信链路(例如，图10的网络620)进行通信。

I/O接口1150是允许用户发送动作请求并从控制台1155接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定动作的指令。I/O接口1150可以包括一个或更多个输入设备。示例输入设备包括：键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送到控制台1155的任何其他合适的装置。由I/O接口1150接收的动作请求被传送到控制台1155，控制台执行对应于动作请求的动作。在一些实施例中，如上文进一步描述的，I/O接口1150包括IMU 1110，其捕获指示相对于I/O接口1150的初始位置的I/O接口1150的估计的位置的校准数据。在一些实施例中，I/O接口1150可以根据从控制台1155接收到的指令向用户提供触觉反馈。例如，当动作请求被接收到时，或者当控制台1155向I/O接口1150传送指令时，触觉反馈被提供，该指令使I/O接口1150在控制台1155执行动作时生成触觉反馈。

控制台1155向头戴装置1010提供内容，以根据从DCA 1120、PCA 1140、头戴装置1010和I/O接口1150中的一个或更多个接收的信息进行处理。在图11所示的示例中，控制台1155包括应用储存器1160、跟踪模块1165和引擎1170。控制台1155的一些实施例具有与结合图11描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图11描述的方式被分配在控制台1155的部件中。在一些实施例中，本文参照控制台1155讨论的功能可以在头戴装置1010或远程系统中实现。

应用储存器1160存储用于由控制台1155执行的一个或更多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给用户的内容。应用生成的内容可以响应于经由头戴装置1010或I/O接口1150的移动从用户接收到的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其它合适的应用。

跟踪模块1165使用一个或更多个校准参数来校准系统1100的局部区域，并且可以调整一个或更多个校准参数以减少头戴装置1010或I/O接口1150的位置确定中的误差。例如，跟踪模块1165将校准参数传送到DCA1120来调整DCA 1120的焦点，以更准确地确定由DCA 1120捕获的SL元素的位置。由跟踪模块1165执行的校准也可以考虑从头戴装置1010中的IMU 1110和/或被包括在I/O接口1150中的IMU 1110接收的信息。另外，如果丢失对头戴装置1010的跟踪(例如，DCA 1120失去对至少阈值数量的投射的SL元素的视线)，则跟踪模块1165可以重新校准部分或整个系统1100。

跟踪模块1165使用来自DCA 1120、PCA 1140、一个或更多个位置传感器1115、IMU1110或其某种组合的信息来跟踪头戴装置1010或I/O接口1150的移动。例如，跟踪模块1165基于来自头戴装置1010的信息来确定头戴装置1010的参考点在局部区域的映射中的位置。跟踪模块1165还可以确定对象或虚拟对象的位置。另外，在一些实施例中，跟踪模块1165可以使用来自IMU 1110的指示头戴装置1010位置的数据部分以及来自DCA1120的局部区域的表示来预测头戴装置1010的未来定位。跟踪模块1165向引擎1170提供头戴装置1010或I/O接口1150的估计的或预测的未来位置。

引擎1170执行应用，并从跟踪模块1165接收头戴装置1010的位置信息、加速度信息、速度信息、所预测的未来位置或它们的某种组合。基于接收到的信息，引擎1170确定提供给头戴装置1010以呈现给用户的内容。例如，如果接收到的信息指示用户已经向左看，则引擎1170生成用于头戴装置1010的内容，该内容反映(mirror)用户在虚拟局部区域中或在用附加内容增强局部区域的局部区域中的移动。此外，引擎1170响应于从I/O接口1150接收到的动作请求而在控制台1155上执行的应用内执行动作，并向用户提供该动作被执行的反馈。所提供的反馈可以是经由头戴装置1010的视觉或听觉反馈，或者经由I/O接口1150的触觉反馈。

附加配置信息

在涉及方法、装置和存储介质的所附权利要求中具体公开了根据本发明的实施例，其中，在一个权利要求类别(例如方法)中提到的任何特征也可以在另一个权利要求类别(例如装置、存储介质、系统和计算机程序产品)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而，也可以要求保护由对任何前面权利要求的有意往回引用(特别是多项从属性)而产生的任何主题，使得权利要求及其特征的任何组合被公开并可被主张，而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。

本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或它们的任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

本公开的实施例也可以涉及用于执行本文的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非易失的、有形的计算机可读存储介质中，或者任何类型的适于存储电子指令的介质中，这些介质可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

本公开的实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括从计算过程得到的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

Claims

1.一种方法，包括：

由音频处理系统将视频的音频分量分割成所述视频中第一声源的第一音频和所述视频中第二声源的第二音频，其中所述音频分量是二维音频；

从所述第一音频和所述第二音频中去除混响，以获得所述第一音频和所述第二音频的直达声分量；

对于与所述视频相关联的局部区域，获得所述局部区域的声学特性；和

由所述音频处理系统使用所述局部区域的声学特性，利用所述第一音频和所述第二音频的直达声分量生成所述视频的三维音频。

2.根据权利要求1所述的方法，其中获得所述局部区域的声学特性包括：

从所述视频的视觉分量中识别所述局部区域的视觉特征；

将所述局部区域的所识别的视觉特征与存储在数据库中的现实世界空间的视觉特征进行比较，所述数据库包括现实世界空间的视觉特征与现实世界空间的声学特性的映射；和

响应于所识别的视觉特征与存储在所述数据库中的现实世界空间的视觉特征相匹配，使用现实世界空间的声学特性来生成所述第一音频和所述第二音频的所述三维音频。

3.根据权利要求1所述的方法，其中获得所述局部区域的声学特性包括：

分析所述视频的视觉分量以识别所述局部区域的视觉特征；和

基于所述局部区域的视觉特征来估计所述局部区域的声学特性。

4.根据权利要求3所述的方法，其中基于所述局部区域的视觉特征来估计所述局部区域的声学特性包括：

将机器学习模型应用于所述局部区域的视觉特征，所述机器学习模型将已知空间的视觉特征与所述已知空间的声学特性相关联。

5.根据任一前述权利要求所述的方法，其中获得所述局部区域的声学特性还包括：

分析所述音频分量以识别所述第一音频和所述第二音频的混响；和

根据所述第一音频和所述第二音频的混响确定所述局部区域的声学特性。

6.根据任一前述权利要求所述的方法，其中生成所述三维音频包括：

为所述第一声源和所述第二声源生成局部区域脉冲响应，以将所述第一音频和所述第二音频与在所述视频中捕获的所述局部区域的声学特性相匹配。

7.根据权利要求6所述的方法，还包括：

从用户佩戴的头戴装置获得所述头戴装置的位置或定向中的至少一个的数据，所述位置或定向中的至少一个对应于用户相对于所述视频的观看视角；和

基于所述头戴装置的位置或定向中的至少一个的数据和在所述视频中捕获的所述局部区域的声学特性，调整所述第一声源和所述第二声源的局部区域脉冲响应。

8.根据任一前述权利要求所述的方法，以下任一项或更多项成立：

a)其中生成所述视频的三维音频还包括：

使用双耳合成来组合所述第一声源和所述第二声源中的每一个声源的脉冲响应；或者

b)其中生成所述视频的三维音频使得所述第一音频被用户感知为源自所述局部区域内的第一对象，而所述第二音频被用户感知为源自所述局部区域内的第二对象。

9.一种方法，包括：

获得包括视觉分量和音频分量的视频，其中所述音频分量是二维音频；

从所述音频分量识别声源；

从所述音频分量中去除混响以获得所述二维音频的直达声分量；

使用所述局部区域的声学特性，利用所述二维音频的直达声分量生成所述视频的三维音频。

10.根据权利要求9所述的方法，其中生成所述三维音频包括：

生成所述声源的局部区域脉冲响应，以将所述音频分量与所述视频中捕获的所述局部区域的声学特性相匹配。

11.根据权利要求9或10所述的方法，其中获得所述局部区域的声学特性包括：

从所述视觉分量识别所述局部区域的视觉特征；

响应于所识别的视觉特征与存储在所述数据库中的现实世界空间的视觉特征相匹配，使用现实世界空间的声学特性来生成所述音频分量的三维音频。

12.根据权利要求9或10所述的方法，以下任一项或更多项成立：

a)其中获得所述局部区域的声学特性包括：

分析所述视觉分量以识别所述局部区域的视觉特征；和

通过对所述局部区域的视觉特征应用机器学习模型来估计所述局部区域的声学特性，所述机器学习模型将已知空间的视觉特征与所述已知空间的声学特性相关联；或者

b)其中获得所述局部区域的声学特性还包括：

分析所述音频分量以识别所述音频分量的混响；和

根据所述音频分量的混响确定所述局部区域的声学特性。

13.一种非暂时性计算机可读存储介质，其包括指令，所述指令在由处理器执行时使得所述处理器：

将视频的音频分割成所述视频中第一声源的第一音频和第二声源的第二音频，其中所述音频是二维单声道或立体声音频；

使用与所述视频相关联的局部区域的声学特性，利用所述第一音频和所述第二音频的直达声分量生成所述视频的三维音频，其中所述三维音频使得所述第一声源听起来源自所述局部区域内的第一对象，并且所述第二声源听起来源自所述局部区域内的第二对象。

14.根据权利要求13所述的非暂时性计算机可读存储介质，其中生成所述三维音频包括：

为所述第一声源和所述第二声源生成局部区域脉冲响应，以将所述第一音频和所述第二音频与在所述视频中捕获的所述局部区域的声学特性相匹配；其中可选地其中，当由所述处理器执行时，所述指令还使所述处理器：

从用户佩戴的头戴装置获得所述头戴装置的位置或定向中的至少一个的数据，所述位置或定向中的至少一个对应于用户观看所述视频中的内容的视角；和

15.根据权利要求13或14所述的非暂时性计算机可读存储介质，以下任一项或更多项成立：

a)其中获得所述局部区域的声学特性还包括：

识别所述局部区域的视觉特性；

将所述局部区域的所识别的视觉特性与存储在数据库中的现实世界空间的视觉特性进行比较；和

响应于所识别的视觉特性与存储在所述数据库中的现实世界空间的视觉特性相匹配，使用存储在所述数据库中的现实世界空间的声学特性来生成所述视频的三维音频；或者

b)其中获得所述局部区域的声学特性还包括：

分析所述局部区域的视觉特性；和

基于所述局部区域的视觉特性来估计所述局部区域的空间特性；或者

c)其中获得所述局部区域的声学特性还包括：

识别所述第一声源和所述第二声源的混响；和

从所识别的混响中识别所述局部区域的声学特性。