CN113556665B

CN113556665B - 用于虚拟现实（vr）、增强现实（ar）和混合现实（mr）系统的分布式音频捕获技术

Info

Publication number: CN113556665B
Application number: CN202110829590.9A
Authority: CN
Inventors: G·A·桑格; B·L·施密特; A·A·塔吉克; T·M·奥加拉; D·M·沙姆韦; A·豪沃思
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2016-12-05
Filing date: 2017-12-04
Publication date: 2024-06-04
Anticipated expiration: 2037-12-04
Also published as: EP3549030A1; IL282046A; CN118400680A; AU2022235566A1; WO2018106605A1; IL266889B; JP7125397B2; US11528576B2; JP2022163173A; IL266889A; KR20190091474A; CA3045512A1; US20200112813A1; CN110249640B; JP2020501428A; EP3549030A4; AU2017372721A1; KR20230027330A; KR102502647B1; IL282046B1

Abstract

本发明涉及用于虚拟现实(VR)、增强现实(AR)和混合现实(MR)系统的分布式音频捕获技术。能够在诸如虚拟现实、增强现实和混合现实系统的应用中使用的用于捕获音频的系统和方法。一些系统可以包括环境中的多个分布式监测设备，每个监测设备具有麦克风和位置跟踪单元。该系统能够捕获音频信号，同时还捕捉位置跟踪信号，该位置跟踪信号指示在捕获音频信号期间监测设备随时间的位置。该系统能够基于音频信号和位置跟踪信号生成环境中的声波场的至少一部分的表示。该系统还可以基于音频信号和位置跟踪信号来确定环境的一个或多个声学特性。

Description

用于虚拟现实(VR)、增强现实(AR)和混合现实(MR)系统的分布式音频捕获技术

本申请是申请日为2017年12月4日、PCT国际申请号为PCT/US2017/064540、中国国家阶段申请号为201780085379.2、发明名称为“用于虚拟现实(VR)、增强现实(AR)和混合现实(MR)系统的分布式音频捕获技术”的申请的分案申请。

相关申请的交叉引用

与本申请一起提交的申请数据表中标识出的国外或国内优先权要求的任何和所有申请在此根据37CFR1.57通过引用并入。也就是说，本申请要求2016年12月5日提交的题为“DISTRIBUTED AUDIO CAPTURING TECHNIQUES FOR VIRTUAL REALITY(VR),AUGMENTEDREALITY(AR),AND MIXED REALITY(MR)SYSTEMS(用于虚拟现实(VR)、增强现实(AR)和混合现实(MR)系统的分布式音频捕获技术)”的美国临时专利申请No.62/430,268的优先权，其全部内容在此引入作为参考。

技术领域

本公开涉及能够在诸如虚拟现实、增强现实和混合现实系统的应用中使用的分布式音频捕获技术。

背景技术

现代计算和显示技术促进了虚拟现实、增强现实和混合现实系统的发展。虚拟现实或“VR”系统为用户创建模拟的环境来体验。这可以通过将计算机生成的图像通过头戴式显示器呈现给用户来完成。该图像创建让用户沉浸在模拟环境中的感觉体验。虚拟现实场景通常仅涉及计算机生成的图像的呈现，而不是还包括实际的真实世界的图像的呈现。

增强现实系统通常用模拟元素来补充真实世界环境。例如，增强现实或“AR”系统可以通过头戴式显示器向用户提供周围真实世界环境的视图。然而，计算机生成的图像也能够呈现在显示器上，以增强现实世界环境。该计算机生成的图像可以包括与现实世界环境相关的元素。这样的元素可以包括模拟文本、图像、对象等。混合现实或MR系统还将模拟对象引入到现实世界环境中，但是这些对象通常具有比AR系统更大程度的交互性。

图1描绘了示例的AR/MR场景1，其中用户看到以背景中的人、树、建筑为特征的真实世界的公园设置6以及实体平台20。除了这些项目以外，计算机生成的图像也呈现给用户。计算机生成的图像可以包括例如站在真实世界的平台20上的机器人雕像10，以及看起来像飞行的蜜蜂的化身的卡通式的头像角色2，尽管这些元素2、10不实际存在于真实的世界环境中。

生成有助于虚拟图像元素的自然感觉、令人信服的呈现的VR/AR/MR技术可能具有挑战性。但是音频可以帮助VR/AR/MR体验更加身临其境。因此，需要用于这些类型系统的改进的音频技术。

发明内容

在一些实施例中，一种系统包括：多个分布式监测设备，每个监测设备包括至少一个麦克风和位置跟踪单元，其中监测设备被配置为从声源捕获多个音频信号并捕获多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及处理器，该处理器被配置为接收多个音频信号和多个位置跟踪信号，该处理器还被配置为基于音频信号和位置跟踪信号来生成由声源创建的声波场的至少一部分的表示。

在一些实施例中，一种设备包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式监测设备接收从声源捕获的多个音频信号，从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号生成由声源创建的声波场的至少一部分的表示；以及存储音频信号和位置跟踪信号的存储器。

在一些实施例中，一种方法包括：从多个分布式监测设备接收从声源捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号生成由声源创建的声波场的至少一部分的表示。

在一些实施例中，一种系统包括：多个分布式监测设备，每个监测设备包括至少一个麦克风和位置跟踪单元，其中监测设备被配置为捕获环境中的多个音频信号并捕获多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及处理器，该处理器被配置为接收多个音频信号和多个位置跟踪信号，该处理器还被配置为基于音频信号和位置跟踪信号来确定环境的一个或多个声学特性。

在一些实施例中，一种设备包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式监测设备接收在环境中捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号来确定环境的一个或多个声学特性；以及存储音频信号和位置跟踪信号的存储器。

在一些实施例中，一种方法包括：从多个分布式监测设备接收在环境中捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及基于音频信号和位置跟踪信号确定环境的一个或多个声学特性。

在一些实施例中，一种系统包括：多个分布式摄像机，位于空间的周边，以便从多个不同的视点捕获空间的中心部分的多个视频；多个分布式麦克风，位于空间的周边，以便在捕获多个视频期间捕获多个音频信号；以及处理器，被配置为接收多个视频、多个音频信号和关于空间内每个麦克风的位置的位置信息，处理器还被配置为基于音频信号和位置信息生成空间的声波场的至少一部分的表示。

在一些实施例中，一种设备，包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式摄像机接收从多个视点捕获的场景的多个视频；从多个分布式麦克风接收在捕获多个视频期间捕获的多个音频信号；接收关于多个麦克风的位置的位置信息；以及基于音频信号和位置信息生成声波场的至少一部分的表示；以及存储音频信号和位置跟踪信号的存储器。

在一些实施例中，一种方法包括：从多个分布式摄像机接收从多个视点捕获的场景的多个视频；从多个分布式麦克风接收在捕获多个视频期间捕获的多个音频信号；接收关于多个麦克风的位置的位置信息；以及基于音频信号和位置信息生成声波场的至少一部分的表示。

附图说明

图1示出了使用示例AR/MR系统的用户对增强/混合现实场景的视图。

图2示出了示例VR/AR/MR系统。

图3示出了用于使用多个分布式设备来创建声波场的表示的系统。

图4是示出用于创建声波场的图3中所示系统的操作方法的示例实施例的流程图。

图5示出了用于使用多个用户设备来创建事件的声波场的表示的基于网络的系统。

图6是示出用于创建事件的声波场的图5中所示的基于网络的系统的操作的示例实施例的流程图。

图7示出了能够用于确定环境的声学特性的系统的示例实施例。

图8是示出用于使用图7中所示的系统来确定环境的一个或多个声学特性的方法的示例实施例的流程图。

图9示出了用于执行体积视频捕获的示例系统。

图10示出了用于在体积视频捕获期间捕获音频的示例系统。

图11是示出用于使用图10中所示的系统来捕获体积视频的音频的示例方法的流程图。

具体实施方式

图2示出了示例虚拟/增强/混合现实系统80。虚拟/增强/混合现实系统80包括显示器62以及支持该显示器62的功能的各种机械和电子模块和系统。显示器62可以耦合到框架64，框架64由用户60佩戴并且被配置为将显示器62定位在用户60的眼睛的前方。在一些实施例中，扬声器66耦合到框架64并且定位为邻近用户的耳道(在一些实施例中，未示出的另一个扬声器定位为邻近用户的另一个耳道以提供立体/可塑造声音控制)。显示器62诸如通过有线或无线连接68可操作地耦合到本地数据处理模块70，该本地数据处理模块70可以以各种配置安装，诸如附接到框架64，附接到用户佩戴的头盔或帽子，嵌入到耳机中，或以其它方式可移除地附接到用户60(例如，以背包方式的配置，以带式耦合方式的配置等)。

本地处理和数据模块70可以包括处理器以及诸如非易失性存储器(例如，闪速存储器)的数字存储器，二者都可用于辅助数据的处理和存储。这包括从作为系统80的一部分来设置的本地传感器捕获的数据，本地传感器诸如图像监测设备(例如，照相机)、麦克风、惯性测量单元、加速度计、指南针、GPS单元、无线电装置和/或陀螺仪。本地传感器可以可操作地耦合到框架64或以其它方式附接到用户60。可替换地或另外地，传感器数据可以使用远程处理模块72和/或远程数据储存库74获取和/或处理，可能在这种处理或检索之后传送给显示器62和/或扬声器66。在一些实施例中，本地处理和数据模块70处理和/或存储从远程传感器捕获的数据，诸如如在此所讨论的图3中所示的音频/位置监测设备310中的那些远程传感器。本地处理和数据模块70可以通过诸如经由有线或无线通信链路的通信链路(76，78)可操作地耦合到远程处理模块72和远程数据储存库74，以使得这些远程模块(72，74)可操作地彼此耦合并作为资源可用于本地处理和数据模块70。在一些实施例中，远程数据储存库74可以通过互联网或“云”资源配置中的其它网络配置而可用。

声波场捕获及在VR、AR和MR系统中的使用

该节涉及使用来自多个分布式设备的音频记录来创建能够在诸如虚拟现实(VR)、增强现实(AR)和混合现实(MR)系统中使用的声波场的至少一部分的表示。

声音是由诸如空气的介质中的压力变化引起的。这些压力变化是由声源处的振动产生的。然后来自声源的振动作为纵向波传播通过介质。这些波由介质中的压缩(增加的压力)和稀疏(减小的压力)的交替区域组成。

可以使用各种量来表征空间中的点处的声音。这些量可以包括例如压力值、振动幅度、频率或其他量。声波场通常包括在空间中的各个点和/或各个时间点处的一个或多个这样的声音定义量的集合。例如，声波场可以包括在各个时间点在空间网格上的每个点处存在的声音的测量或其他表征。通常，声波场的空间网格包括规则间隔的点，并且声音的测量是以规则的时间间隔进行的。但是声波场的空间和/或时间分辨率可以根据应用而变化。声波场的某些模型，例如由一组点源表示，可以在由浮点坐标指定的任意位置处评估，而不是绑定到预定义的网格。

声波场能够包括相对靠近声源的近场区域和近场区域之外的远场区域。声波场可以由不受阻碍地从声源自由传播的声波和从该区域内的物体或从该区域的边界反射的波组成。

图3示出了用于使用多个分布式设备310来创建声波场340的表示的系统300。在一些实施例中，系统300能够用于为VR/AR/MR系统80提供音频，如本文进一步讨论的。如图3所示，声源302将声音投射到环境304中。声源302可以表示例如表演者、乐器、音频扬声器或任何其他声音源。环境304可以是任何室内或室外空间，包括例如音乐厅、圆形剧场、会议室等。虽然仅示出了单个声源302，但是环境304可以包括多个声源。并且多个声源可以以任何方式分布在整个环境304中。

系统300包括多个分布式音频和/或位置监测设备310。这些设备中的每一个能够在物理上不同并且能够独立操作。监测设备310能够是移动的(例如，由人携带)并且能够在整个环境304中以分布式方式间隔开。监测设备310之间不需要任何固定的相对空间关系。实际上，由于监测设备310是独立移动的，因此各种设备310之间的空间关系能够随时间变化。尽管示出了五个监测设备300，但是能够使用任何数量的监测设备。此外，尽管图3是二维图并且因此示出了监测设备300以二维分布，但它们也能够分布在环境304的所有三个维度上。

每个监测设备310包括至少一个麦克风312。麦克风312能够是例如各向同性或定向的。能够使用的麦克风拾音模式能够包括例如心形、特超(hyper)心形和超心形。监测设备310能够使用麦克风312通过将来自一个或多个声源302的声音转换成电信号来捕获音频信号。在一些实施例中，监测设备310每个包括单个麦克风和记录单声道音频。但是在其他实施例中，监测设备310能够包括多个麦克风并且能够捕获例如立体声音频。多个麦克风312能够用于确定每个监测设备310处的声波的到达角。

尽管未示出，但是监测设备310还能够各自包括处理器和用于本地记录由麦克风312拾取的音频信号的存储设备。可替代地和/或另外地，每个监测设备310能够包括发射器(例如，无线发射器)以允许将捕获的声音进行数字编码并实时发送到一个或多个远程系统或设备(例如，处理器330)。在远程系统或设备处接收时，捕获的声音能够用于更新捕获到的声音所在的空间的声学特性的存储模型，或者其能够用于在VR/AR/MR体验中创建所捕获的声音的逼真传真，如本文进一步讨论的。

每个监测设备310还包括位置跟踪单元314。位置跟踪单元314能够用于跟踪监测设备310在环境304内的位置。每个位置跟踪单元314能够在绝对意义上或相对意义上(例如，相对于系统300的一个或多个其他组件)表达其对应的监测设备310的位置。在一些实施例中，每个位置跟踪单元314创建位置跟踪信号，其能够指示监测设备310的位置作为时间的函数。例如，位置跟踪信号能够包括一系列空间坐标，该一系列空间坐标指示监测设备310以规则的时间间隔位于的位置。

在一些实施例中，位置跟踪单元314直接测量位置。这种位置跟踪单元314的一个示例是全球定位系统(GPS)。在其他实施例中，位置跟踪单元314间接地测量位置。例如，这些类型的单元可以基于其他测量或信号推断位置。这种类型的位置跟踪单元314的示例是分析来自相机的图像以提取提供位置提示的特征的单元。监测设备310还能够包括音频发射器(例如，扬声器)或无线电发射器。能够在监测设备之间交换音频或无线电信号，并且能够使用多点定位和/或三角测量来确定监测设备310的相对位置。

位置跟踪单元314还可以使用例如陀螺仪、加速度计和/或其他传感器来测量和跟踪监测设备310的位置以及它们的空间方位。在一些实施例中，位置跟踪单元314能够组合来自多种类型的传感器的数据，以便确定监测设备310的位置和/或方位。

监测设备310能够是例如智能电话、平板电脑、膝上型本电脑等(如图5所示)。这样的设备是有利的，因为它们普遍存在并且通常具有麦克风、GPS单元、相机、陀螺仪、加速度计和内置的其他传感器。监测设备310也可以是可穿戴设备，例如VR/AR/MR系统80。

图3中所示的系统300还包括处理器330。处理器330能够与多个分布式监测设备310通信地耦合。这通过从监测设备310到处理器330的箭头来说明，其表示相应的监测设备310和处理器330之间的通信链路。通信链路可以是根据任何通信标准或接口有线或无线的。相应的监测设备310和处理器330之间的通信链路能够用于将音频和位置跟踪信号下载到处理器330。在一些实施例中，处理器330能够是图1中所示的VR/AR/MR系统80的一部分。例如，处理器330能够是本地处理模块70或远程处理模块72。

处理器330包括能够用于从监测设备310接收相应的捕获的音频信号和位置跟踪信号的接口。音频信号和位置跟踪信号能够在捕获时实时上传到处理器330，或者它们能够由监测设备310本地存储并在捕获完成一段时间间隔或某些事件等之后上传。处理器330能够是通用或专用计算机，并且能够包括易失性和/或非易失性存储器/存储设备，用于处理和存储来自多个分布式音频监测设备310的音频信号和位置跟踪信号。现在将参照图4讨论系统300的操作。

图4是示出图3中所示系统300的操作的方法400的示例实施例的流程图。在同时执行的框410a和410b处，监测设备310捕获来自整个环境304中的多个分布位置处的声源302的音频信号，同时还跟踪它们各自的位置。每个音频信号通常可以是由在不同时间点进行的多个声音测量组成的数字信号，但是也能够使用模拟音频信号。每个位置跟踪信号通常还可以是数字信号，其包括在不同时间点进行的多个位置测量。来自监测设备310的所得音频信号和位置跟踪信号都能够被适当地加时间戳，使得音频记录的每个间隔能够与环境304内的特定位置相关联。在一些实施例中，声音样本和位置样本以规则的时间间隔同步进行，但这不是必需的。

在框420处，处理器330从分布式监测设备310接收音频信号和跟踪信号。这些信号能够根据命令或者在特定时间或间隔自动地从监测设备310上传。基于音频和位置跟踪信号中的时间戳数据，处理器330能够同步从多个监测设备310接收的各种音频和位置跟踪信号。

在框430处，处理器330分析音频信号和跟踪信号以生成环境304内的声波场的至少一部分的表示。在一些实施例中，环境304被划分为空间点的网格，并且声波场包括每个空间点的一个或多个值(例如，声音测量)，其表征特定时间点或一段时间上的该空间点处的声音。因此，网格上的每个空间点的数据能够包括时间序列值，其表征该空间点处的声音随时间的变化。(声波场的空间和时间分辨率能够根据应用、监测设备310的数量、位置跟踪信号的时间分辨率等而变化)。

通常，分布式监测设备310仅在环境304中的点网格上的位置子集处执行声波场的实际测量。另外，由于监测设备310是移动的，因此在每个时刻利用实际声音测量表示的特定空间点的子集能够变化。因此，处理器330能够使用各种技术来估计剩余空间点和时间的声波场，以便近似丢失的信息。例如，可以通过模拟一组声音的点源来近似地再现声波场，其中该组中的每个点源在位置上对应于监测设备中的特定一个并输出由监测设备中的特定一个捕获的音频。另外，基于在监测设备310处接收的音频片段的多点定位、三角测量或其他定位方法能够用于确定声源的坐标，然后包括在虚拟内容中的声波场的表示能够包括从确定的坐标发出的音频片段(即，多个点源模型)。虽然声波场可以包括大量空间点，但是应该理解，处理器330不一定需要计算整个声波场，而是能够根据应用需要仅计算其一部分。例如，处理器330可以仅计算特定空间感兴趣点的声波场。当空间兴趣点改变时，能够迭代地执行该过程。

处理器330还能够执行声音定位以确定环境304内的一个或多个声源302的位置和/或朝向一个或多个声源302的方向。声音定位能够根据多种技术来完成，包括以下(以及它们的组合)：比较在环境304中的不同位置处的某些识别的声音的相应到达时间；比较环境304中不同位置处的某些识别的声音的相应大小；比较环境304中不同位置处的某些识别的声音的某些频率分量的幅值和/或相位。在一些实施例中，处理器330能够计算在不同监测设备310处接收的音频信号之间的互相关系，以便确定到达时间差(TDOA)，然后使用多点定位来确定音频源的位置。也可以使用三角测量。处理器330还能够从隔离的声源提取音频。能够从由一组监测设备捕获的每个对应的音频轨道中减去与来自特定音频源的每个监测设备的TDOA对应的时间偏移，以便在对音频轨道求和之前同步来自特定源的音频内容，从而放大特定源。如本文所讨论的，所提取的音频可以用在VR/AR/MR环境中。

处理器330还能够作为整体对声波场执行变换。例如，通过应用存储的源仰角、方位角和距离相关的头部相关传递函数(HRTF)，处理器330能够针对相对于虚拟坐标系中的声源的任何位置和方位修改所捕获的音频以通过左和右扬声器声道进行输出。另外，处理器330能够将旋转变换应用于声波场。另外，由于处理器330能够从环境内的特定声源302提取音频，因此能够通过使用三维音频处理将该源放置和/或移动到建模环境内的任何位置。

一旦处理器330已经计算出声波场340的表示，它就能够用于估计将在声波场内的任何期望位置处由麦克风检测到的音频信号。例如，图3示出了虚拟麦克风320。虚拟麦克风320不是捕获虚拟麦克风320的位置处的声波场的实际测量的硬件设备。相反，虚拟麦克风320是模拟构造，其能够放置在环境304内的任何位置处。使用环境304内的声波场340的表示，处理器330能够确定模拟音频信号，该模拟音频信号是将由位于虚拟麦克风320的位置处的物理麦克风检测到的音频信号的估计。这能够通过例如确定最接近声音数据可用的虚拟麦克风的位置的声波场中的网格点，然后将该声音数据与虚拟麦克风相关联来完成。在其他实施例中，来自虚拟麦克风320的模拟音频信号能够通过例如在来自虚拟麦克风附近的多个网格点的音频信号之间进行插值来确定。虚拟麦克风320能够在任何时间围绕环境304(例如，使用软件控制接口)移动到任何位置。因此，随着虚拟麦克风移动，能够随时间迭代地重复基于其当前位置将声音数据与虚拟麦克风320相关联的过程。

方法400能够继续到框440-460。在这些框中，声波场340的表示能够提供给VR/AR/MR系统80，如图3所示。如已经讨论的，VR/AR/MR系统80能够用于在虚拟环境内提供模拟体验或在实际环境内提供增强/混合现实体验。在虚拟现实体验的情况下，已经从真实世界环境304收集的声波场340能够传输或映射到模拟的虚拟环境。在增强和/或混合现实体验的情况下，声波场340能够从一个真实世界环境304传输或映射到另一个。

无论用户体验的环境是实际环境还是虚拟环境，在图4的框440处，用户在环境中移动时，VR/AR/MR系统80能够确定用户在虚拟或实际环境内的位置和/或方位。基于用户在虚拟或实际环境内的位置和/或方位，VR/AR/MR系统80(或处理器330)能够将用户的位置与声波场340的表示中的点相关联。

在图4的框450处，VR/AR/MR现实系统80(或处理器330)能够生成与用户在声波场内的位置和/或方位相对应的模拟音频信号。例如，如本文所讨论的，一个或多个虚拟麦克风320能够位于用户的位置处，并且系统80(或处理器330)能够使用声波场340的表示以模拟将由该位置处的实际麦克风检测到的音频信号。

在框460处，来自虚拟麦克风320的模拟音频信号经由例如用户佩戴的耳机提供给VR/AR/MR系统80的用户。当然，VR/AR/MR现实系统80的用户能够在环境中移动。因此，当用户在声波场内的位置和/或方位改变时，能够迭代地重复框440-460。以这种方式，系统300能够用于向VR/AR/MR系统80的用户提供逼真的音频体验，就像他或她实际上存在于环境304内的任何点处并且能够在其中移动一样。

图5示出了基于网络的系统500，其用于使用多个用户设备510来创建针对事件的声波场的表示。系统500包括多个用户设备510，用于在诸如音乐会的事件中捕获音频。用户设备510例如是属于该事件的参加者的智能电话、平板电脑、膝上型电脑等。类似于关于图3讨论的音频/位置监测设备310，图5中的用户设备510各自包括至少一个麦克风和位置跟踪单元(诸如GPS)。该系统还包括经由互联网通信地耦合到用户设备510的基于网络的计算机服务器530。参考图6讨论系统400的操作。

图6是示出用于创建事件的声波场的图5中所示的基于网络的系统的操作的示例实施例的流程图。在框610处，计算机服务器530提供移动设备应用以供用户下载。移动设备应用是当安装在智能手机或其他用户设备上时允许用户针对事件进行注册并在事件期间捕获音频信号和位置跟踪信号的应用。尽管图6示出了计算机服务器530提供用于下载的移动设备应用，但是还可以在例如第三方应用商店的其他服务器上提供应用以供下载。

在框620处，用户将应用下载到他们的设备510并安装它。应用能够提供事件列表，其能够用于帮助创建事件的声波场。用户选择并注册他们将参加的事件。

在框630处，在该事件期间，应用允许用户从他们的座位和/或当他们在场地中移动时捕获音频。该应用还使用例如设备的内置GPS来创建位置跟踪信号。设备410的操作，包括音频和位置跟踪信号的捕获，可以如本文关于音频/位置监测设备310的操作所描述的。

在框640处，用户的设备经由互联网将其捕获的音频信号和位置跟踪信号上传到计算机服务器530。然后，计算机服务器530处理音频信号和位置跟踪信号，以便生成事件的声波场的表示。该处理可以如本文关于处理器330的操作所描述的那样完成。

最后，在框660，计算机服务器530向用户提供模拟的音频信号(例如，来自选择性定位的虚拟麦克风)以供下载。来自虚拟麦克风的音频信号能够使用这里讨论的技术根据事件的声波场进行创建。用户能够通过例如基于网络的界面来选择虚拟麦克风的位置。通过这种方式，事件的参与者能够使用移动应用来体验来自场地内不同位置并具有不同的视角的事件的音频。因此，该应用增强了参与者在音乐会或其他事件中的体验。

虽然计算机服务器530可以计算事件的声波场，如刚才所讨论的，但是其他实施例可以使用不同的技术来允许用户体验来自事件场地的各种位置的音频。例如，取决于事件处的注册用户的密度，来自虚拟麦克风的音频信号可以简单地对应于最靠近虚拟麦克风的位置的注册用户捕获的音频信号。随着虚拟麦克风的位置改变，或者随着最靠近注册用户由于在事件期间注册用户的移动而改变，来自虚拟麦克风的音频能够通过从由一个注册用户所捕获的音频信号到由另一注册用户捕获的音频信号进行声音叠化(cross-fade)来合成。

使用VR、AR和MR系统确定环境声学信息

如已经讨论的，VR、AR和MR系统使用显示器62向虚拟或现实世界环境中的用户60呈现虚拟图像，包括模拟文本、图像和对象。为了使虚拟图像逼真，通常伴有声音效果和其他音频。如果已知环境的声学特性，则可以使该音频更加真实。例如，如果存在于环境中的声学反射器的位置和类型是已知的，则能够执行适当音频处理以添加混响或其他效果，从而使音频声音更令人信服真实。

但是特别是在AR和MR系统的情况下，能够难以确定发生模拟体验的现实世界环境的声学特性。在不了解环境的声学特性，包括诸如墙壁、地板、天花板和对象的声学反射器和吸收器的类型、位置、大小等的情况下，则难以应用适当的音频处理，以提供真实的音频环境。例如，在不了解环境的声学特性的情况下，可能难以实际地将空间化添加到模拟对象，以使得它们的声音效果在该环境中看起来是真实的。因此，需要用于确定环境的声学特性的改进技术，使得这种声学特性能够用在VR/AR/MR系统中使用的声学模型和音频处理中。

图7示出了能够用于确定环境704的声学特性的系统700的示例实施例。如图7所示，四个用户60a、60b、60c和60d存在于环境704中。环境704能够是例如用于主持AR或MR体验的真实世界环境。每个用户60具有相关联的设备80a、80b、80c和80d。在一些实施例中，这些设备是各个用户60佩戴的VR/AR/MR系统80。这些系统80能够各自包括麦克风712和位置跟踪单元714。VR/AR/MR系统80还能够包括其他传感器，包括相机、陀螺仪、加速度计和音频扬声器。

系统700还包括处理器730，其通信地耦合到VR/AR/MR系统80。在一些实施例中，处理器730是与VR/AR/MR系统80分开的设备，而在其他实施例中，处理器730是这些系统中的一个系统的组件。

每个VR/AR/MR系统80的麦克风712能够用于捕获环境704中的声源的音频。捕获的声音能够包括未受环境704的声学特性显著影响的已知源声音以及受环境的声学特性影响之后环境改变版本的源声音。其中包括由用户60发出的口语和其他声音，由任何VR/AR/MR系统80发出的声音，以及来自可能存在于环境704中的其他声源的声音。

同时，位置跟踪单元714能够用于在进行这些音频记录时确定环境704内的每个用户60的位置。另外，诸如陀螺仪和加速度计的传感器能够用于确定用户60在说话时的方位和/或VR/AR/MR系统80在发出或捕获声音时的方位。音频信号和位置跟踪信号能够被发送到处理器730以进行分析。现在将参照图8描述系统700的操作。

图8是示出用于使用图7中所示的系统700来确定环境704的一个或多个声学特性的方法800的示例实施例的流程图。方法800在框810a和810b处开始，框810a和810b同时执行。在这些框中，VR/AR/MR系统80在整个环境704的多个分布位置处捕获音频信号，同时还跟踪它们各自的位置和/或方位。再一次，每个音频信号通常可以是由在不同时间点进行的多个声音测量组成的数字信号，但是也能够使用模拟音频信号。每个位置跟踪信号通常还可以是数字信号，其包括在不同时间点进行的多个位置和/或方位测量。来自VR/AR/MR系统80的所得音频信号和位置跟踪信号都能够被适当地加时间戳，使得音频记录的每个间隔能够与环境704内的特定位置相关联。在一些实施例中，声音样本和位置样本以规则的时间间隔同步进行，但这不是必需的。

对于稍后关于框830描述的处理，具有至少两种类型的声音的音频副本可能是有利的：1)已知的源声音，这些源声音是先验已知的或者在源声音受到环境704的声学的显著影响之前捕获的；2)在受到环境704的声学的显著影响之后捕获的环境改变的声音。

在一些实施例中，VR/AR/MR系统80中的一个或多个系统能够用于从音频扬声器发出已知的源声音，例如声脉冲或一个或多个声学音调(例如，在约20Hz到约20kHz范围内的音调的频率扫描，这大约是人类听觉的正常范围)。如果系统80a用于发出已知的源声音，则剩余系统80b、80c和80d的麦克风能够用于获取相应的环境改变的声音。声脉冲和频率扫描能够是有利的，因为它们能够用于针对宽范围的频率来表征环境704的声频响应，包括人耳可听到的整个频率范围。但也能够使用超出人类听觉正常范围的声音。例如，超声频率能够由VR/AR/MR系统80发出并且用于表征环境704的一个或多个声学和/或空间属性。

作为使用由VR/AR/MR系统80自身发出的已知源声音的替代方案，由一个或多个用户60发出的口语或其他声音的捕获音频也能够用作已知的源声音。这能够通过使用用户自己的麦克风来捕获他或她的话语来完成。例如，对应于用户60a的VR/AR/MR系统80a的麦克风712a能够用于捕获他或她说话的音频。因为来自用户60a的声音在受到环境704中的声学反射器和/或吸收器的显著影响之前被他或她自己的麦克风712a捕获，所以能够考虑用户自己的麦克风进行的这些记录并将其用作已知的源声音记录。对于其他用户60b、60c和60d，能够使用它们各自的麦克风712b、712c和712d进行相同的操作。当然，能够对这些音频信号执行一些处理以补偿用户的实际话语与由他或她的麦克风拾取的音频信号之间的差异。(这种差异可能是由于诸如用户的麦克风712a没有直接位于从用户嘴部发出的声波路径内的影响引起的。)同时，来自一个用户的话语能够被其他用户的麦克风捕获，以获得环境改变版本的话语。例如，用户60a的话语能够由剩余用户60b、60c和60d的相应VR/AR/MR系统80b、80c和80d捕获，并且这些记录能够用作环境改变的声音。

以这种方式，来自用户60的话语能够用于确定环境704的声频响应和其他特性，如本文进一步讨论的。虽然来自用户的任何给定话语可能不包括足够多的频率内容以在人类听觉的整个范围内完全表征环境704的频率响应，但系统700能够在用户60进行新的频率内容的话语时随着时间的推移迭代地建立环境的频率响应。

除了使用声音来确定诸如环境704的频率响应之类的声学特性之外，它们还可以用于确定关于环境704的空间特性的信息。这样的空间信息可以包括例如环境中的特征的位置、大小和/或反射/吸收特性。这能够实现，因为VR/AR/MR系统80内的位置跟踪单元714还能够测量用户60在发出话语时的方位或者测量系统80在发出或捕获声音时的方位。如已经提到的，这可以使用陀螺仪、加速度计或内置于可穿戴VR/AR/MR系统80中的其他传感器来实现。因为能够测量用户60和VR/AR/MR系统80的方位，所以能够确定任何特定的已知源声音或环境改变的声音的传播方向。能够使用声纳技术处理该信息以确定关于环境704的特征，包括环境内的声反射器和吸收器的尺寸、形状、位置和/或其他特性。

在框820处，处理器730从VR/AR/MR系统80接收音频信号和跟踪信号。这些信号能够根据命令或者在特定时间或间隔自动地上传。基于音频和位置跟踪信号中的时间戳数据，处理器730能够同步从VR/AR/MR系统80接收的各种音频和位置跟踪信号。

在框830处，处理器730分析音频信号和跟踪信号以确定环境704的一个或多个声学特性。例如，这可以通过从音频信号中识别一个或多个已知的源声音来完成。已知的源声音可能是从环境704内的各种位置以及各种方向在多个时间发射的。时间能够根据音频信号中的时间戳数据来确定，而位置和方向能够根据位置跟踪信号来确定。

处理器730还可以识别一个或多个环境改变的声音并将其与每个已知的源声音相关联。然后，处理器730能够将每个已知的源声音与其对应(counterpart)的环境改变的声音进行比较。通过分析频率内容、相位、到达时间等的差异，处理器730能够基于环境对已知源声音的影响来确定环境730的一个或多个声学特性。处理器730还能够使用声纳处理技术来确定关于环境704内的对象或表面的位置、大小、形状和特性的空间信息。

在框840处，处理器730能够将所确定的环境704的声学特性发送回VR/AR/MR系统80。这些声学特性能够包括环境的声学反射/吸收特性，空间内对象的大小、位置和形状等。因为存在多个监测设备，这些设备中的某些将更接近每个声源并且将因此可能能够获得原始源的更纯粹的记录。不同位置处的其他监测设备将捕获添加了不同程度混响的声音。通过比较这些信号，可以评估和存储环境的混响特性(例如，频率相关的混响衰减时间)的特征，以便将来用于生成更逼真的虚拟声源。能够针对监测设备的多个位置存储频率相关的混响时间，并且能够使用插值来获得其他位置的值。

然后，在框850处，VR/AR/MR系统80能够使用环境704的声学特性来增强在VR/AR/MR体验期间播放给用户60的音频信号。声学特性能够用于增强伴随显示给用户60的虚拟对象的声音效果。例如，与VR/AR/MR系统80的用户的位置对应的频率相关混响能够应用于通过VR/AR/MR系统80输出的虚拟声源。

用于体积视频的音频捕获

本文描述的类型的分布式音频/位置监测设备还能够用于捕获体积视频的音频。图9示出了用于执行体积视频捕获的示例系统900。系统900位于环境904中，环境904通常是绿色屏幕房间。绿色屏幕房间是具有中心空间970的房间，该中心空间970被色度键合成中使用的绿色屏幕围绕，这是用于基于图像或视频的颜色内容合成图像或视频的传统后期制作视频处理技术。

系统900包括在绿色屏幕房间904的周边周围的不同视点处设置的多个摄像机980。每个摄像机980瞄准绿色屏幕房间904的中心部分970，这是将要演出待拍摄的场景的位置。当场景被演出时，摄像机980从跨越围绕场景的360°范围的离散数量的视点拍摄它。来自这些相机980的视频稍后能够由处理器930在数学上组合以模拟视频图像，该视频图像将由位于环境904内的任何期望视点处的视频相机捕获，包括由相机980实际拍摄的那些之间的视点。

这种类型的体积视频能够有效地用在VR/AR/MR系统中，因为它能够允许这些系统的用户从任何有利位置体验拍摄的场景。用户能够在场景周围的虚拟空间中移动并体验它，好像其主体实际存在于用户之前。因此，体积视频提供了提供非常浸入式的VR/AR/MR体验的可能性。

但是，体积视频的一个困难是在这种类型的拍摄过程中难以有效地捕获高质量音频。这是因为可能采用由演员佩戴的悬臂式麦克风或领夹式麦克风的典型音频捕获技术可能是不可行的，因为考虑到场景是从许多不同的视点拍摄的，可能无法有效地将这些麦克风隐藏在相机1080中。因此，需要用于在拍摄体积视频期间用于捕获音频的改进技术。

图10示出了用于在体积视频捕获期间捕获音频的示例系统1000。如图9所示，系统1000位于环境1004中，环境1004通绿色屏幕房间。系统1000还包括多个摄像机1080，它们位于绿色屏幕房间1004周围的不同视点处，并且瞄准将要演出的场景所在的房间的中心部分1070。

系统1000还包括多个分布式麦克风1012，其同样展开在房间1004的周边周围。麦克风1012能够位于摄像机1080之间(如图所示)，它们能够与摄像机共同定位，或者它们能够具有任何其他期望的配置。图10示出了麦克风1012被设置为提供房间1004的中央部分1070的完全360°覆盖。例如，麦克风1012可以围绕房间1004的周边至少每45°进行放置，或者至少每30°进行放置，或者至少每10°进行放置，或者至少每5°进行放置。尽管未在图10的二维图中示出，但是麦克风1012也能够被设置为提供三维覆盖。例如，麦克风1012可以放置在围绕假想半球的几个离散位置处，该假想半球包围演出场景的空间。现在将参照图11描述系统1000的操作。

图11是示出用于使用图10中所示的系统1000来捕获体积视频的音频的示例方法1100的流程图。在框1110a处，在绿色屏幕房间1004中演出场景，并且由来自多个不同视点的相机1080捕获体积视频。同时，麦克风1012同样从各种有利位置捕获场景的音频。来自这些麦克风1012中的每一个麦克风的记录的音频信号能够与来自每一个摄像机1080的视频信号一起提供给处理器1030，如框1120所示。

来自各个麦克风1012的每个音频信号能够用位置信息来标记，该位置信息指示麦克风1012在绿色屏幕房间1004内的位置。在框1110b，能够使用本文描述的类型的位置跟踪单元手动或自动确定该位置信息。例如，每个麦克风1012能够与位置跟踪单元一起提供在监测设备中，该位置跟踪单元能够向处理器1030提供关于麦克风1012在房间1004内的位置的数据。

在框1130，处理器执行生成体积视频所需的处理。因此，处理器能够生成模拟视频，该模拟视频估计场景，因为该场景将由位于任何指定视点的相机拍摄。在框1140，处理器分析来自麦克风1012的音频信号以生成环境1104内的声波场的表示，如本文其他地方所述。使用声波场，处理器能够估计任何音频信号，因为该音频信号将由位于环境1104内的任何期望点处的麦克风捕获。此功能允许有效且虚拟地指定用于已经拍摄后的体积视频的麦克风放置的灵活性。

在一些实施例中，声波场能够被映射到VR/AR/MR环境并且能够用于为VR/AR/MR系统80提供音频。正如用于体积视频的视点能够基于用户在虚拟环境内的当前视点来改变，音频也是如此。在一些实施例中，当用户在虚拟空间内移动时，能够结合视频视点移动音频收听点。以这种方式，用户能够体验场景的非常逼真的再现。

示例实施例

一种系统，包括：多个分布式监测设备，每个监测设备包括至少一个麦克风和位置跟踪单元，其中监测设备被配置为从声源捕获多个音频信号并捕获多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及处理器，该处理器被配置为接收多个音频信号和多个位置跟踪信号，该处理器还被配置为基于音频信号和位置跟踪信号来生成由声源创建的声波场的至少一部分的表示。

根据前述实施例的系统，其中在多个分布式监测设备之间存在未知的相对空间关系。

根据前述实施例中的任一实施例的系统，其中多个分布式监测设备是移动的。

根据前述实施例中的任一实施例的系统，其中位置跟踪单元包括全球定位系统(GPS)。

根据前述实施例中的任一实施例的系统，其中声波场的表示包括对于多个时间在网格上的多个空间点中的每一个处的声音值。

根据前述实施例中的任一实施例的系统，其中处理器还被配置为确定声源的位置。

根据前述实施例中的任一实施例的系统，其中处理器还被配置为将声波场映射到虚拟、增强或混合现实环境。

根据前述实施例中的任一实施例的系统，其中，使用声波场的表示，处理器还被配置为确定声波场内的所选的位置处的虚拟音频信号，该虚拟音频信号估计在所选的位置处由麦克风已经检测到的音频信号。

根据前述实施例中的任一实施例的系统，其中基于虚拟或增强现实环境内的虚拟、增强或混合现实系统的用户的位置来选择位置。

一种设备，包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式监测设备接收从声源捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号生成由声源创建的声波场的至少一部分的表示；以及存储器，其存储音频信号和位置跟踪信号。

根据前述实施例的设备，其中在多个分布式监测设备之间存在未知的相对空间关系。

根据前述实施例中的任一实施例的设备，其中多个分布式监测设备是移动的。

根据前述实施例中的任一实施例的设备，其中声波场的表示包括对于多个时间在网格上的多个空间点中的每一个处的声音值。

根据前述实施例中的任一实施例的设备，其中处理器还被配置为确定声源的位置。

根据前述实施例中的任一实施例的设备，其中处理器还被配置为将声波场映射到虚拟、增强或混合现实环境。

根据前述实施例中的任一实施例的设备，其中，使用声波场的表示，处理器还被配置为确定声波场内的所选的位置处的虚拟音频信号，该虚拟音频信号估计在所选的位置处由麦克风已经检测到的音频信号。

根据前述实施例中的任一实施例的设备，其中基于虚拟或增强现实环境内的虚拟、增强或混合现实系统的用户的位置来选择位置。

一种方法包括：从多个分布式监测设备接收从声源捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号生成由声源创建的声波场的至少一部分的表示。

根据前述实施例的方法，其中在多个分布式监测设备之间存在未知的相对空间关系。

根据前述实施例中的任一实施例的方法，其中多个分布式监测设备是移动的。

根据前述实施例中的任一实施例的方法，其中声波场的表示包括对于多个时间在网格上的多个空间点中的每一个处的声音值。

根据前述实施例中的任一实施例的方法，还包括确定声源的位置。

根据前述实施例中的任一实施例的方法，还包括将声波场映射到虚拟、增强或混合现实环境。

根据前述实施例中的任一实施例的方法，还包括：使用声波场的表示，确定声波场内的所选的位置处的虚拟音频信号，该虚拟音频信号估计在所选的位置处由麦克风已经检测到的音频信号。

一种系统，包括：多个分布式监测设备，每个监测设备包括至少一个麦克风和位置跟踪单元，其中监测设备被配置为捕获环境中的多个音频信号并捕获多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及处理器，该处理器被配置为接收多个音频信号和多个位置跟踪信号，该处理器还被配置为基于音频信号和位置跟踪信号来确定环境的一个或多个声学特性。

根据前述实施例的系统，其中一个或多个声学特性包括环境中的声反射或吸收，或环境的声频响应。

根据前述实施例中的任一实施例的系统，其中在多个分布式监测设备之间存在未知的相对空间关系。

根据前述实施例中的任一实施例的系统，其中位置跟踪信号还包括关于监测设备的相应方位的信息。

根据前述实施例中的任一实施例的系统，其中多个分布式监测设备包括虚拟现实、增强现实或混合现实系统。

根据前述实施例中的任一实施例的系统，其中处理器还被配置为识别多个音频信号内的已知源声音。

根据前述实施例中的任一实施例的系统，其中已知源声音包括由虚拟现实、增强现实或混合现实系统中的一个播放的声音。

根据前述实施例中的任一实施例的系统，其中已知源声音包括声学脉冲或声学音调的扫描。

根据前述实施例中的任一实施例的系统，其中已知源声音包括由用户佩戴的虚拟现实、增强现实或混合现实系统捕获的用户的话语。

根据前述实施例中任一实施例的系统，其中，处理器还被配置为识别一个或多个环境改变的声音并将其与已知的源声音相关联。

根据前述实施例中任一实施例的系统，其中，处理器还被配置为将环境的一个或多个声学特性发送到多个虚拟现实、增强现实或混合现实系统。

根据前述实施例中任一实施例的系统，其中多个虚拟现实、增强现实或混合现实系统被配置为使用一个或多个声学特性来增强在虚拟现实、增强现实或混合现实体验期间播放给用户的音频。

一种设备，包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式监测设备接收在环境中捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；基于音频信号和位置跟踪信号来确定环境的一个或多个声学特性；以及存储器，其存储音频信号和位置跟踪信号。

根据前述实施例的设备，其中一个或多个声学特性包括环境中的声反射或吸收，或环境的声频响应。

根据前述实施例中的任一实施例的设备，其中位置跟踪信号还包括关于监测设备的相应方位的信息。

根据前述实施例中的任一实施例的设备，其中多个分布式监测设备包括虚拟现实、增强现实或混合现实系统。

根据前述实施例中的任一实施例的设备，其中处理器还被配置为识别多个音频信号内的已知源声音。

根据前述实施例中的任一实施例的设备，其中已知源声音包括由虚拟现实、增强现实或混合现实系统中的一个播放的声音。

根据前述实施例中的任一实施例的设备，其中已知源声音包括声学脉冲或声学音调的扫描。

根据前述实施例中的任一实施例的设备，其中已知源声音包括由用户佩戴的虚拟现实、增强现实或混合现实系统捕获的用户的话语。

根据前述实施例中任一实施例的设备，其中，处理器还被配置为识别一个或多个环境改变的声音并将其与已知的源声音相关联。

根据前述实施例中任一实施例的设备，其中，处理器还被配置为将环境的一个或多个声学特性发送到多个虚拟现实、增强现实或混合现实系统。

一种方法包括：从多个分布式监测设备接收在环境中捕获的多个音频信号；从多个监测设备接收多个位置跟踪信号，该多个位置跟踪信号分别指示在捕获多个音频信号期间监测设备随时间的位置；以及基于音频信号和位置跟踪信号确定环境的一个或多个声学特性。

根据前述实施例的方法，其中一个或多个声学特性包括环境中的声反射或吸收，或环境的声频响应。

根据前述实施例中的任一实施例的方法，其中位置跟踪信号还包括关于监测设备的相应方位的信息。

根据前述实施例中的任一实施例的方法，其中多个分布式监测设备包括虚拟现实、增强现实或混合现实系统。

根据前述实施例中的任一实施例的方法，还包括识别多个音频信号内的已知源声音。

根据前述实施例中的任一实施例的方法，其中已知源声音包括由虚拟现实、增强现实或混合现实系统中的一个播放的声音。

根据前述实施例中的任一实施例的方法，其中已知源声音包括声学脉冲或声学音调的扫描。

根据前述实施例中的任一实施例的方法，其中已知源声音包括由用户佩戴的虚拟现实、增强现实或混合现实系统捕获的用户的话语。

根据前述实施例中任一实施例的方法，其中，还包括识别一个或多个环境改变的声音并将其与已知的源声音相关联。

根据前述实施例中任一实施例的方法，还包括将环境的一个或多个声学特性发送到多个虚拟现实、增强现实或混合现实系统。

一种系统，包括：多个分布式摄像机，位于空间的周边，以便从多个不同的视点捕获空间的中心部分的多个视频；多个分布式麦克风，位于空间的周边，以便在捕获多个视频期间捕获多个音频信号；以及处理器，被配置为接收多个视频、多个音频信号和关于空间内每个麦克风的位置的位置信息，处理器还被配置为基于音频信号和位置信息生成空间的声波场的至少一部分的表示。

根据前述实施例的系统，其中多个麦克风间隔开以提供360°的空间。

一种设备，包括：处理器，被配置为执行包括如下步骤的方法：从多个分布式摄像机接收从多个视点捕获的场景的多个视频；从多个分布式麦克风接收在捕获多个视频期间捕获的多个音频信号；接收关于多个麦克风的位置的位置信息；以及基于音频信号和位置信息生成声波场的至少一部分的表示；以及存储器，其存储音频信号和位置跟踪信号。

一种方法，包括：从多个分布式摄像机接收从多个视点捕获的场景的多个视频；从多个分布式麦克风接收在捕获多个视频期间捕获的多个音频信号；接收关于多个麦克风的位置的位置信息；以及基于音频信号和位置信息生成声波场的至少一部分的表示。

根据前述实施例的方法，其中多个麦克风间隔开以提供360°的空间。

结论

出于概述本公开的目的，本文已经描述了本发明的特定方面、优点和特征。应该理解，根据本发明的任何特定实施例，不一定能够实现所有这些优点。因此，本发明可以以实现或优化本文所教导的一个优点或一组优点的方式实施或执行，而不一定实现本文可能教导或示意的其他优点。

已经结合附图描述了实施例。然而，应该理解的是，附图未按比例绘制。距离、角度等仅仅是说明性的，并不一定与所示设备的实际尺寸和布局具有精确的关系。另外，已经在细节层次上描述了前述实施例，以允许本领域普通技术人员制造和使用这里描述的设备、系统、方法等。可以有各种各样的变型。可以改变、添加、移除或重新布置组件、元件和/或步骤。

本文描述的设备和方法能够有利地使用例如计算机软件、硬件、固件，或软件、硬件和固件的任何组合来至少部分地实现。软件模块能够包括存储在计算机存储器中的计算机可执行代码，用于执行本文描述的功能。在一些实施例中，计算机可执行代码由一个或多个通用计算机执行。然而，根据本公开，技术人员将理解，能够使用将要在通用计算机上执行的软件来实现的任何模块也能够使用硬件、软件或固件的不同组合来实现。例如，这种模块能够使用集成电路的组合完全以硬件实现。可替代地或另外地，这样的模块能够完全或部分地使用被设计为执行本文描述的特定功能的专用计算机而不是通用计算机来实现。另外，在方法被描述为是或者可能是至少部分地由计算机软件执行的情况下，应当理解，这样的方法能够在非暂时性计算机可读介质(例如，诸如CD或DVD的光盘，硬盘驱动器，闪速存储器，软盘等)上提供，当由计算机或其他处理设备读取时，使其执行该方法。

虽然已明确描述了特定实施例，但基于本公开，本领域普通技术人员将清楚其他实施例。

Claims

1.一种用于确定环境的声学特性的系统，包括：

多个分布式监测设备，所述多个分布式监测设备包括虚拟现实系统、增强现实系统或混合现实系统，每个监测设备包括至少一个麦克风和位置跟踪单元，其中，所述监测设备被配置为捕获环境中的多个音频信号并捕获多个位置跟踪信号，所述多个位置跟踪信号分别指示在捕获所述多个音频信号期间所述监测设备随时间的位置；以及

处理器，所述处理器被配置为接收所述多个音频信号和所述多个位置跟踪信号，识别所述多个音频信号内的已知源声音，并且识别一个或多个环境改变的声音并将其与所述已知源声音相关联，所述处理器还被配置为基于所述音频信号和所述位置跟踪信号确定所述环境的一个或多个声学特性，所述音频信号包括所述已知源声音以及一个或多个关联的环境改变的声音，

其中，所述虚拟现实系统、增强现实系统或混合现实系统被配置为使用所述一个或多个声学特性来增强在虚拟现实、增强现实或混合现实体验期间播放给用户的音频。

2.根据权利要求1所述的系统，其中，所述一个或多个声学特性包括所述环境中的声反射或吸收，或所述环境的声频响应。

3.根据权利要求1所述的系统，其中，在所述多个分布式监测设备之间存在未知的相对空间关系。

4.根据权利要求1所述的系统，其中，所述多个分布式监测设备是可移动的。

5.根据权利要求1所述的系统，其中，所述位置跟踪单元包括全球定位系统(GPS)。

6.根据权利要求1所述的系统，其中，所述位置跟踪信号还包括关于所述监测设备的相应方位的信息。

7.根据权利要求1所述的系统，其中，所述已知源声音包括由所述虚拟现实系统、增强现实系统或混合现实系统中的一者播放的声音。

8.根据权利要求1所述的系统，其中，所述已知源声音包括声学脉冲或声学音调的扫描。

9.根据权利要求1所述的系统，其中，所述已知源声音包括由用户佩戴的虚拟现实系统、增强现实系统或混合现实系统捕获的所述用户的话语。

10.根据权利要求1所述的系统，其中，所述处理器还被配置为将所述环境的所述一个或多个声学特性发送到所述虚拟现实系统、增强现实系统或混合现实系统。

11.一种用于确定环境的声学特性的设备，包括：

处理器，其被配置为执行方法，所述方法包括：

从多个分布式监测设备接收在环境中捕获的多个音频信号，所述多个分布式监测设备包括虚拟现实系统、增强现实系统或混合现实系统；

从所述多个分布式监测设备接收多个位置跟踪信号，所述多个位置跟踪信号分别指示在捕获所述多个音频信号期间所述监测设备随时间的位置；

识别所述多个音频信号内的已知源声音；

识别一个或多个环境改变的声音并将其与所述已知源声音相关联；以及

基于所述音频信号和所述位置跟踪信号确定所述环境的一个或多个声学特性，所述音频信号包括所述已知源声音以及一个或多个关联的环境改变的声音；以及

存储器，其存储所述音频信号和所述位置跟踪信号，

12.根据权利要求11所述的设备，其中，所述一个或多个声学特性包括所述环境中的声反射或吸收，或所述环境的声频响应。

13.根据权利要求11所述的设备，其中，所述位置跟踪信号还包括关于所述监测设备的相应方位的信息。

14.根据权利要求11所述的设备，其中，所述已知源声音包括由所述虚拟现实系统、增强现实系统或混合现实系统中的一者播放的声音。

15.根据权利要求11所述的设备，其中，所述已知源声音包括声学脉冲或声学音调的扫描。

16.根据权利要求11所述的设备，其中，所述已知源声音包括由用户佩戴的虚拟现实系统、增强现实系统或混合现实系统捕获的所述用户的话语。

17.根据权利要求11所述的设备，其中，所述处理器还被配置为将所述环境的所述一个或多个声学特性发送到所述虚拟现实系统、增强现实系统或混合现实系统。

18.一种用于确定环境的声学特性的方法，包括：

识别所述多个音频信号内的已知源声音；

基于所述音频信号和所述位置跟踪信号确定所述环境的一个或多个声学特性，所述音频信号包括所述已知源声音以及一个或多个关联的环境改变的声音，

19.根据权利要求18所述的方法，其中，所述一个或多个声学特性包括所述环境中的声反射或吸收，或所述环境的声频响应。

20.根据权利要求18所述的方法，其中，所述位置跟踪信号还包括关于所述监测设备的相应方位的信息。

21.根据权利要求18所述的方法，其中，所述已知源声音包括由所述虚拟现实系统、增强现实系统或混合现实系统中的一者播放的声音。

22.根据权利要求18所述的方法，其中，所述已知源声音包括声学脉冲或声学音调的扫描。

23.根据权利要求18所述的方法，其中，所述已知源声音包括由用户佩戴的虚拟现实系统、增强现实系统或混合现实系统捕获的所述用户的话语。

24.根据权利要求18所述的方法，还包括将所述环境的所述一个或多个声学特性发送到所述虚拟现实系统、增强现实系统或混合现实系统。