CN114747231A

CN114747231A - 基于运动来选择音频流

Info

Publication number: CN114747231A
Application number: CN202080082678.2A
Authority: CN
Inventors: S·M·A·萨尔辛; S·G·斯瓦米纳坦; D·森
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-12-13
Filing date: 2020-12-11
Publication date: 2022-07-12
Also published as: US11089428B2; US20210185470A1; EP4074076A1; WO2021119492A1; TW202133625A; KR20220113938A

Abstract

概括而言，描述了用于基于运动选择音频流的技术的各个方面。一种包括处理器和存储器的设备可以被配置为执行所述技术。处理器可以被配置为：获得设备的当前位置，并且获得捕获位置。每个捕获位置可以标识音频流中的相应的一个音频流被捕获的位置。处理器还可以被配置为：基于当前位置和捕获位置来选择音频流的子集，其中，音频流的子集具有与音频流相比更少的音频流。处理器还可以被配置为：基于音频流的子集来再现声场。存储器可以被配置为：存储多个音频流的子集。

Description

基于运动来选择音频流

依据35 U.S.C.§119要求优先权

本专利申请要求享受于2019年12月13日递交的、名称为“SELECTING AUDIOSTREAMS BASED ON MOTION”的非临时申请No.16/714,150的优先权，上述申请被转让给本申请的受让人并且据此通过引用的方式明确地并入本文中。

技术领域

本公开内容涉及对音频数据的处理。

背景技术

正在开发计算机介导的现实系统，以允许计算设备对用户体验到的现有现实进行增强或添加、去除或减少、或通常进行修改。计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与此类计算机介导的现实系统在视频和音频体验两者方面提供真实沉浸式体验(其中视频和音频体验以用户期望的方式对齐)的能力有关。尽管人类视觉系统比人类听觉系统更敏感(例如，在场景内的各种对象的感知定位方面)，但是确保充分的听觉体验是在确保真实的沉浸式体验方面越来越重要的因素，尤其是随着视频体验改善以允许更好地定位使得用户能够更好地识别音频内容的源的视频对象。

发明内容

概括而言，本公开内容涉及用于基于用户运动来从一个或多个现有音频流中选择音频流的技术。所述技术可以改善收听者体验，同时也减少声场再现定位错误，因为所选择的音频流可以更好地反映收听者相对于现有音频流的位置，从而改进回放设备(其执行用于再现声场的技术)本身的操作。

在一个示例中，所述技术涉及一种被配置为处理一个或多个音频流的设备，所述设备包括：一个或多个处理器，其被配置为：获得所述设备的当前位置；获得多个捕获位置，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及基于所述多个音频流的所述子集来再现声场；以及存储器，其耦合到所述处理器并且被配置为存储所述多个音频流的所述子集。

在另一示例中，所述技术涉及一种处理一个或多个音频流的方法，所述方法包括：获得设备的当前位置；获得多个捕获位置，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及基于所述多个音频流的所述子集来再现声场。

在另一示例中，所述技术涉及一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得设备的一个或多个处理器进行以下操作：获得设备的当前位置；获得多个捕获位置，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及基于所述多个音频流的所述子集来再现声场。

在另一示例中，所述技术涉及一种被配置为处理一个或多个音频流的设备，所述设备包括：用于获得设备的当前位置的单元；用于获得多个捕获位置的单元，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；用于基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集的单元，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及用于基于所述多个音频流的所述子集来再现声场的单元。

在附图和以下说明书中阐述了本公开内容的一个或多个示例的细节。根据说明书和附图以及根据权利要求，所述技术的各个方面的其它特征、目的和优势将是显而易见的。

附图说明

图1A和1B是示出可以执行本公开内容中描述的技术的各个方面的系统的图。

图2A-2G是更详细地示出图1A的示例中所示的流选择单元在执行本公开内容中描述的流选择技术的各个方面时的示例操作的图。

图3A是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。

图3B是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。

图3C是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。

图4A是更详细地示出图1A-2的插值设备可以如何执行本公开内容中描述的技术的各个方面的图。

图4B是更详细地示出图1A-2的插值设备可以如何执行本公开内容中描述的技术的各个方面的框图。

图5A和5B是示出VR设备的示例的图。

图6A和6B是示出可以执行本公开内容中描述的技术的各个方面的示例系统的图。

图7是示出图1A、1B-6B的系统在执行本公开内容中描述的音频插值技术的各个方面时的示例操作的流程图。

图8是图1A和1B的示例中所示的音频回放设备在执行本公开内容中描述的技术的各个方面时的框图。

图9示出了根据本公开内容的各方面的支持音频流的无线通信系统的示例。

具体实施方式

存在多种不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式指代5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到在收听者周围的特定位置以便重新创建声场的任何其它基于声道的格式。

基于对象的音频格式可以指代音频对象(通常使用脉冲编码调制(PCM)进行编码并且被称为PCM音频对象)被指定以表示声场的格式。此类音频对象可以包括标识音频对象相对于收听者或声场中的其它参考点的位置的元数据，使得音频对象可以被渲染到用于回放的一个或多个扬声器声道，以努力重新创建声场。在本公开内容中描述的技术可以适用于上述格式中的任何格式，包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括以三个维度来定义声场的分级元素集合。分级元素集合的一个示例是球谐系数(SHC)集合。以下表达式展示了使用SHC的声场的描述或表示：

该表达式表明，在时间t处在声场的任何点

处的压力p_i可以通过SHC

唯一地表示。此处，

c是声速(～343m/s)，

是参考点(或观测点)，j_n(·)是阶数为n的球贝塞尔函数，并且

是阶数为n和子阶数为m的球谐基函数(其也可以被称为球基函数)。可以认识到的是，方括号中的项是信号的频域表示(即，

)，其可以通过各种时频变换来近似，诸如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。分级集合的其它示例包括小波变换系数集合和多分辨率基函数的其它系数集合。

SHC

可以在物理上通过各种麦克风阵列配置获取(例如，记录)，或者替代地，它们可以从声场的基于声道或基于对象的描述来推导。SHC(其也可以被称为全景声系数)表示基于场景的音频，其中SHC可以被输入到音频编码器中以获得可以促进更高效的传输或存储的经编码的SHC。例如，可以使用涉及(1+4)2(25，因此是四阶)系数的四阶表示。

如上所述，可以从来自使用麦克风阵列的麦克风记录来推导SHC。在以下文档中描述了可以如何在物理上从麦克风阵列获取SHC的各种示例：Poletti,M.，“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,”J.AudioEng.Soc.，第53卷，第11期，2005年11月，第1004-1025页。

以下等式可以说明可以如何从基于对象的描述来推导SHC。用于对应于单个音频对象的声场的系数

可以被表达为：

其中，i是

是阶数为n的(第二类的)球汉克尔函数，并且

是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如，使用时频分析技术，诸如对经脉冲编码调制的(PCM)流执行快速傅立叶变换)可以实现将每个PCM对象和对应位置转换为SHC

此外，可以表明(因为上文是线性和正交分解)用于每个对象的

系数是相加的。以这种方式，多个PCM对象可以通过由

系数来表示(例如，作为用于单个对象的系数向量的总和)。这些系数可以包含关于声场的信息(作为3D坐标的函数的压力)，并且上文表示在观察点

附近从单个对象到整个声场的表示的变换。

正在开发计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)，以利用全景声系数所提供的许多潜在益处。例如，全景声系数可以以潜在地实现对声场内的声音源的准确三维(3D)定位的方式，以三个维度来表示声场。因此，XR设备可以将全景声系数渲染为扬声器馈送，扬声器馈送在经由一个或多个扬声器播放时准确地重现声场。

将全景声系数用于XR可以实现对依赖于全景声系数所提供的更加沉浸式的声场的多个用例(特别是对于计算机游戏应用和实时视频流式传输应用)的开发。在这些依赖于声场的低时延重现的高度动态的用例中，XR设备可能更优选全景声系数(与更难以操纵或涉及复杂渲染的其它表示相比)。在下面关于图1A和1B提供了关于这些用例的更多信息。

尽管在本公开内容中关于VR设备进行了描述，但是可以在诸如移动设备之类的其它设备的背景下执行所述技术的各个方面。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕来呈现显示世界，该屏幕可以安装在用户102的头部，或者将像通常使用移动设备时那样观看。因此，屏幕上的任何信息都可以是移动设备的一部分。移动设备能够提供跟踪信息41，并且由此允许观看显示世界的VR体验(当安装在头部时)和正常体验两方面，其中，正常体验可以仍然允许用户观看证明是VR精简版类型的体验的显示世界(例如，举起设备并且旋转或平移设备以观看显示世界的不同部分)。

图1A和1B是示出可以执行在本公开内容中描述的技术的各个方面的系统的图。如图1A的示例中所示，系统10包括源设备12和内容消费者设备14。虽然在源设备12和内容消费者设备14的背景下进行描述，但是这些技术可以在其中对声场的任何分层表示进行编码以形成表示音频数据的比特流的任何背景下实现。此外，源设备12可以表示能够生成声场的分层表示的任何形式的计算设备，并且在本文中通常在作为VR内容创建者设备的背景下进行描述。类似地，内容消费者设备14可以表示能够实现在本公开内容中描述的音频流插值技术以及音频回放的任何形式的计算设备，并且通常在本文中作为VR客户端设备的背景下进行描述。

源设备12可以由可以生成多声道音频内容以供内容消费者设备(诸如内容消费者设备14)消费的娱乐公司或其它实体操作。在许多VR场景中，源设备12结合视频内容来生成音频内容。源设备12包括内容捕获设备300、和内容声场表示生成器302。

内容捕获设备300可以被配置为与一个或多个麦克风5A-5N(“麦克风5”)对接或以其它方式进行通信。麦克风5可以表示

或能够捕获声场并且将其表示为对应的基于场景的音频数据11A-11N(其也可以被称为全景声系数11A-11N或“全景声系数11”)的其它类型的3D音频麦克风。在基于场景的音频数据11(其是引用全景声系数11的另一种方式)的背景下，每个麦克风5可以表示根据促进产生全景声系数11的设定几何形状布置在单个壳体内的麦克风集群。因此，术语麦克风可以指麦克风集群(其实际上是几何排列的传感器)或单个麦克风(其可以被称为点式麦克风)。

全景声系数11可以表示音频流的一个示例。因此，全景声系数11也可以被称为音频流11。尽管主要是关于全景声系数11描述的，但是可以关于其它类型的音频流来执行所述技术，包括脉冲编码调制(PCM)音频流、基于信道的音频流、基于对象的音频流等。

在一些示例中，内容捕获设备300可以包括集成到内容捕获设备300的壳体中的集成麦克风。内容捕获设备300可以无线地或经由有线连接与麦克风5对接。内容捕获设备300可以在经由某种类型的可移动存储装置(无线地和/或经由有线输入过程或者替代地或结合前述输入过程)输入、生成或以其它方式创建(从存储的声音样本，诸如游戏应用程序中常见的，等等)全景声系数11之后，处理全景声系数11，而不是经由麦克风5捕获或结合经由麦克风5捕获音频数据。因此，内容捕获设备300和麦克风5的各种组合是可能的。

内容捕获设备300还可以被配置为与声场表示生成器302对接或以其它方式进行通信。声场表示生成器302可以包括能够与内容捕获设备300对接的任何类型的硬件设备。声场表示生成器302可以使用由内容捕获设备300提供的全景声系数11来生成由全景声系数11表示的相同声场的各种表示。

例如，为了使用全景声系数(其同样是音频流的一个示例)来生成声场的不同表示，声场表示生成器24可以使用用于声场的全景声表示的编码方案，被称为混合阶全景声(MOA)，如在以下文档中更详细地讨论的：于2017年8月8日提交并且于2019年1月3日作为美国专利公开版本第20190007781号公开的、名称为“MIXED-ORDER AMBISONICS(MOA)AUDIODATA FO COMPUTER-MEDIATED REALITY SYSTEMS”的第15/672,058号美国申请序列。

为了生成声场的特定MOA表示，声场表示生成器24可以生成完整的全景声系数集合的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度，但是在其它区域中具有较低精度。在一个示例中，声场的MOA表示可以包括八(8)个未经压缩的全景声系数，而相同声场的三阶全景声表示可以包括十六(16)个未经压缩的全景声系数。因此，声场的作为全景声系数的部分子集而生成的每个MOA表示可以是不太存储密集型且不太带宽密集型的(如果并且当通过所示的传输信道作为比特流27的一部分发送时)(与相同声场的从全景声系数生成的对应的三阶全景声表示相比)。

尽管关于MOA表示进行了描述，但是本公开内容的技术也可以关于一阶全景声(FOA)表示来执行，其中，与一阶球基函数和零阶球基函数相关联的所有全景声系数用于表示声场。换句话说，声场表示生成器302可以使用给定阶数N的所有全景声系数来表示声场(导致全景声系数总共等于(N+1)2)，而不是使用全景声系数的部分非零子集来表示声场。

在这方面，全景声音频数据(其是指代MOA表示或全阶表示(诸如上述一阶表示)中的全景声系数的另一种方式)可以包括与具有为一或更小的阶数的球基函数相关联的全景声系数(其可以被称为“一阶全景声音频数据”)、与具有混合阶和子阶的球基函数相关联的全景声系数(其可以被称为上文讨论的“MOA表示”)、或与具有大于一的阶数的球基函数相关联的全景声系数(其在上文被称为“全阶表示”)。

在一些示例中，内容捕获设备300可以被配置为与声场表示生成器302进行无线通信。在一些示例中，内容捕获设备300可以经由无线连接或有线连接中的一者或两者与声场表示生成器302进行通信。经由内容捕获设备300和声场表示生成器302之间的连接，内容捕获设备300可以提供各种形式的内容，为了讨论的目的，本文将其描述为全景声系数11的一部分。

在一些示例中，内容捕获设备300可以利用声场表示生成器302的各个方面(就声场表示生成器302的硬件或软件能力而言)。例如，声场表示生成器302可以包括被配置为执行心理声学音频编码的专用硬件(或在被执行时使得一个或多个处理器执行心理声学音频编码的专用软件)(诸如由运动图像专家组(MPEG)提出的被表示为“USAC”的统一语音和音频译码器、MPEG-H 3D音频译码标准、MPEG-I沉浸式音频标准或专有标准(诸如AptX^TM，其包括AptX的各种版本，诸如增强型AptX(E-AptX)、AptX live、AptX stereo和AptX highdefinition(AptX HD))、高级音频译码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流式传输(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey音频、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA)。

内容捕获设备300可以不包括心理声学音频编码器专用硬件或专用软件，而是替代地可以以非心理声学音频译码形式提供内容301的音频方面。声场表示生成器302可以通过至少部分地关于内容301的音频方面执行心理声学音频编码来协助对内容301的捕获。

声场表示生成器302还可以通过至少部分地基于从全景声系数11生成的音频内容(例如，MOA表示、三阶全景声表示和/或一阶全景声表示)来生成一个或多个比特流21，从而协助内容捕获和传输。比特流21可以表示全景声系数11(和/或用于形成声场的MOA表示的其部分子集)的压缩版本和任何其它不同类型的内容301(诸如球形视频数据、图像数据或文本数据的压缩版本)。

声场表示生成器302可以生成比特流21，以用于例如跨越传输信道(其可以是有线或无线信道)、数据存储设备等进行传输。比特流21可以表示全景声系数11(和/或用于形成声场的MOA表示的其部分子集)的编码版本，并且可以包括主要比特流和另一个边比特流(其可以被称为边信道信息)。在一些情况下，表示全景声系数11的压缩版本的比特流21可以符合根据MPEG-H 3D音频译码标准而产生的比特流。

内容消费者设备14可以由个人操作，并且可以表示VR客户端设备。尽管关于VR客户端设备进行描述，但是内容消费者设备14可以表示其它类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或任何其它类型的头戴式显示设备或扩展现实(XR)设备)、标准计算机、耳麦、耳机、或能够跟踪操作客户端消费者设备14的个人的头部移动和/或一般平移移动的任何其它设备。如图1A的示例中所示，内容消费者设备14包括音频回放系统16A，其可以指代能够渲染全景声系数(无论是以一阶、二阶和/或三阶全景声表示和/或MOA表示的形式)以作为多声道音频内容回放的任何形式的音频回放系统。

内容消费者设备14可以直接从源设备12取回比特流21。在一些示例中，内容消费者设备12可以与包括第五代(5G)蜂窝网络的网络对接，以取回比特流21或以其它方式使得源设备12将比特流21发送到内容消费者设备14。

尽管在图1A中被示为直接发送给内容消费者设备14，但是源设备12可以将比特流21输出到位于源设备12和内容消费者设备14之间的中间设备。中间设备可以存储比特流21，以便稍后递送给可以请求比特流的内容消费者设备14。中间设备可以包括文件服务器、网页服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流21以供稍后由音频解码器检索的任何其它设备。中间设备可以驻留在能够将比特流21流式传输(并且可能结合发送对应的视频数据比特流)给请求比特流21的订户(诸如内容消费者设备14)的内容递送网络中。

替代地，源设备12可以将比特流21存储到存储介质，诸如压缩光盘、数字视频光盘、高清视频光盘或其它存储介质，其中大多数能够被计算机读取，并且因此可以称为计算机可读存储介质或非暂时性计算机可读存储介质。在该背景下，传输信道可以指代通过其发送被存储到介质的内容的那些信道(并且可以包括零售商店和其它基于商店的递送机制)。在任何情况下，本公开内容的技术因此不应在这方面限于图1A的示例。

如上所提到的，内容消费者设备14包括音频回放系统16A。音频回放系统16可以表示能够回放多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的音频渲染器22。渲染器22可以各自提供不同形式的音频渲染，其中不同形式的渲染可以包括执行基于矢量的幅度平移(VBAP)的各种方式中的一种或多种、和/或执行声场合成的各种方式中的一种或多种。如本文所使用的，“A和/或B”意指“A或B”或者“A和B”两者。

音频回放系统16A还可以包括音频解码设备24。音频解码设备24可以表示被配置为解码比特流21以输出经重构的全景声系数11A’-11N’(其可以形成完整的一、二和/或三阶全景声表示或形成相同声场的MOA表示的其子集或其分解，诸如主要音频信号、环境全景声系数、以及在MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准中描述的基于矢量的信号)。

因此，全景声系数11A’-11N’(“全景声系数11’)可能类似于全景声系数11的完整集合或部分子集，但是可能由于有损操作(例如，量化)和/或经由传输信道的传输而不同。音频回放系统16可以在解码比特流21以获得全景声系数11’之后，从全景声系数11’的不同流中获得全景声音频数据15，并且渲染全景声音频数据15以输出扬声器馈送25。扬声器馈送25可以驱动一个或多个扬声器(为了便于说明，图1A的示例中未示出)。可以以多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)来对声场的全景声表示进行归一化。

为了选择适当的渲染器，或者在一些情况下，为了生成适当的渲染器，音频回放系统16A可以获得指示扬声器数量和/或扬声器的空间几何结构的扬声器信息13。在一些情况下，音频回放系统16A可以使用参考麦克风来获得扬声器信息13，并且输出信号以采用经由参考麦克风动态地确定扬声器信息13的方式激活(或者换句话说，驱动)扬声器。在其它情况下，或者结合扬声器信息13的动态确定，音频回放系统16A可以提示用户与音频回放系统16A对接并且输入扬声器信息13。

音频回放系统16A可以基于扬声器信息13来选择音频渲染器22中的一者。在一些情况下，在没有任何音频渲染器22在与在扬声器信息13中指定的扬声器几何结构的某个门限相似性度量内(就扬声器几何结构而言)时，音频回放系统16A可以基于基于扬声器信息13来生成音频渲染器22中的一者。在一些情况下，音频回放系统16A可以基于扬声器信息13来生成音频渲染器22中的一者，而不首先尝试选择音频渲染器22中的现有一者。

当将扬声器馈送25输出到耳机时，音频回放系统16A可以使用渲染器22中的使用头部相关传递函数(HRTF)或能够渲染为左侧、右侧扬声器馈送25的其它函数来提供双耳渲染以用于耳机扬声器回放的一个渲染器。术语“扬声器”或“换能器”通常可以指代任何扬声器，包括扩音器、耳机扬声器。然后，一个或多个扬声器可以回放经渲染的扬声器馈送25。

尽管被描述为从全景声音频数据15渲染扬声器馈送25，但是对扬声器馈送25的渲染的引用可以指代其它类型的渲染，诸如直接合并到从比特流21解码全景声音频数据15中的渲染。可以在MPEG-H 3D音频译码标准的附录G中找到替代渲染的示例，其中，渲染发生在声场的合成之前的主要信号形成和背景信号形成期间。因此，对全景声音频数据15的渲染的引用应当被理解为指代对实际全景声音频数据15或全景声音频数据15的分解或其表示两者(诸如上面提到的主要音频信号、环境全景声系数和/或基于矢量的信号(其也可以被称为V矢量))的渲染。

如上所述，内容消费者设备14可以表示其中人类可穿戴显示器安装在操作VR设备的用户的眼睛前面的VR设备。图5A和5B是示出VR设备400A和400B的示例的图。在图5A的示例中，VR设备400A耦合到或以其它方式包括耳机404，耳机404可以通过扬声器馈送25的回放再现由全景声音频数据15(其是指代全景声系数15的另一种方式)表示的声场。扬声器馈送25可以表示能够使得耳机404的换能器内的膜以各种频率振动的模拟或数字信号。这样的过程通常被称为驱动耳机404。

视频、音频和其它感官数据可以在VR体验中发挥重要作用。为了参与VR体验，用户402可以佩戴VR设备400A(其也可以被称为VR耳麦400A)或其它可穿戴电子设备。VR客户端设备(诸如VR耳麦400A)可以跟踪用户402的头部移动，并且适配经由VR耳麦400A显示的视频数据以考虑头部移动，从而提供沉浸式体验，其中用户402可以在视觉三个维度中体验以视频数据所示的虚拟世界。

尽管VR(以及其它形式的AR和/或MR，其通常可以被称为计算机中介现实设备)可以允许用户402在视觉上驻留在虚拟世界中，但是通常VR耳麦400A可能缺乏将用户以可听方式置于虚拟世界中的能力。换句话说，VR系统(其可以包括负责渲染视频数据和音频数据的计算机(为了便于说明的目的，在图5A的示例中未示出该计算机)、以及VR耳麦400A)可能无法以可听方式支持全三维沉浸感。

图5B是示出可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备400B的示例的图。在各个示例中，可穿戴设备400B可以表示VR耳麦(诸如上述VR耳麦400A)、AR耳麦、MR耳麦或任何其它类型的XR耳麦。增强现实“AR”可以指代覆盖在用户实际所位于的真实世界之上的计算机渲染的图像或数据。混合现实“MR”可以指代被锁定在真实世界中的特定位置的计算机渲染的图像或数据，或者可以指代VR上的变型，其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的笼统术语。关于用于XR的术语的更多信息可以在以下文档中找到：Jason Peterson，名称为“Virtual Reality,Augmented Reality,andMixed Reality Definitions”并且日期为2017年7月7日。

可穿戴设备400B可以表示其它类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论是表示VR设备、手表、眼镜和/或耳机，可穿戴设备400B都可以经由有线连接或无线连接来与支持可穿戴设备400B的计算设备进行通信。

在一些情况下，支持可穿戴设备400B的计算设备可以被集成在可穿戴设备400B内，并且因此，可穿戴设备400B可以被视为与支持可穿戴设备400B的计算设备相同的设备。在其它情况下，可穿戴设备400B可以与可以支持可穿戴设备400B的单独的计算设备进行通信。在这方面，术语“支持”不应当被理解为需要单独的专用设备，但是被配置为执行在本公开内容中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备400B内，或者集成在与可穿戴设备400B分离的计算设备内。

例如，当可穿戴设备400B表示VR设备400B的示例时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视频内容，而可穿戴设备400B可以根据在本公开内容中描述的技术的各个方面，确定平移头部移动，其中基于平移头部移动，专用计算设备可以渲染音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备400B表示智能眼镜时，可穿戴设备400B可以包括一个或多个处理器，其既确定平移头部移动(通过在可穿戴设备400B的一个或多个传感器内对接)，又基于所确定的平移头部移动来渲染扬声器馈送。

如图所示，可穿戴设备400B包括一个或多个定向扬声器、以及一个或多个跟踪和/或记录相机。此外，可穿戴设备400B包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼球跟踪相机、一个或多个高灵敏度音频麦克风以及光学/投影硬件。可穿戴设备400B的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备400B还包括连接硬件，其可以表示支持多模式连接的一个或多个网络接口，诸如4G通信、5G通信、蓝牙等。可穿戴设备400B还包括一个或多个环境光传感器和骨传导换能器。在一些情况下，可穿戴设备400B还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动和/或主动相机。尽管在图5B中未示出，但是可穿戴设备400B还可以包括一个或多个发光二极管(LED)灯。在一些示例中，LED灯可以被称为“超亮”LED灯。在一些实现中，可穿戴设备400B还可以包括一个或多个后置相机。将明白的是，可穿戴设备400B可以表现为各种不同的形状因子。

此外，跟踪和记录相机以及其它传感器可以促进确定平移距离。尽管在图5B的示例中未示出，但是可穿戴设备400B可以包括用于检测平移距离的其它类型的传感器。

尽管关于可穿戴设备的特定示例(诸如上文针对图5B的示例讨论的VR设备400B以及在图1A和图1B的示例中阐述的其它设备)进行描述，但是本领域普通技术人员将明白与图1A-4B相关的描述可以适用于可穿戴设备的其它示例。例如，其它可穿戴设备(诸如智能眼镜)可以包括通过其获得平移头部移动的传感器。作为另一示例，其它可穿戴设备(诸如智能手表)可以包括通过其获得平移移动的传感器。因此，在本公开内容中描述的技术不应当限于特定类型的可穿戴设备，但是任何可穿戴设备可以被配置为执行在本公开内容中描述的技术。

在任何情况下，VR的音频方面已经被分为三个独立的沉浸感类别。第一类别提供最低程度的沉浸感，并且被称为三自由度(3DOF)。3DOF指代如下的音频渲染：其考虑头部在三个自由度(偏航、俯仰和滚动)下的移动，由此允许用户在任何方向上自由地环视四周。然而，3DOF不能考虑其中头部没有以声场的光学和声学中心居中的平移头部移动。

除了由于头部远离声场内的光学中心和声学中心而导致的有限空间平移移动之外，第二类别(被称为3DOF plus(3DOF+))还提供了三个自由度(偏航、俯仰和滚动)。3DOF+可以提供对感知效果(诸如运动视差)的支持，这可以增强沉浸感。

第三类别(被称为六自由度(6DOF))以如下的方式渲染音频数据：该方式考虑头部移动的三个自由度(偏航、俯仰和滚动)，而且考虑用户在空间中的平移(x、y和z平移)。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来感应。

3DOF渲染是用于VR的音频方面的最新技术。因此，与视频方面相比，VR的音频方面不太具有沉浸感，由此潜在地减少用户所体验的整体沉浸感。并且引入定位错误(例如，当听觉回放与视觉场景不匹配或不完全相关时)。

根据本公开内容中描述的技术，描述了选择现有音频流11的子集并且从而允许6DOF沉浸的各种方式。如下所述，所述技术可以改善收听者体验，同时还可以减少声场再现定位错误，因为所选择的音频流11的子集可以更好地反映收听者相对于现有音频流的位置，从而改进回放设备(其执行用于再现声场的技术)本身的操作。此外，通过仅选择可用音频流11的子集，所述技术可以降低资源利用率(在处理器周期、存储器和总线带宽消耗方面)，因为并非所有音频流11都需要被渲染，以便以足够的分辨率来再现声场。

如图1A的示例所示，音频回放系统16A可以包括插值设备30(“INT DEVICE 30”)，其可以被配置为处理一个或多个音频流11’以获得经插值的音频流15(这是指代全景声音频数据15的另一种方式)。尽管被示为单独的设备，但是插值设备30可以被集成或以其它方式并入音频解码设备24之一中。

插值设备30可以由一个或多个处理器实现，包括固定功能处理电路和/或可编程处理电路，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或分立逻辑电路。

插值设备30可以首先获得一个或多个麦克风位置，一个或多个麦克风位置中的每个麦克风位置标识捕获一个或多个音频流11’的相应的一个或多个麦克风的位置。关于图3A-3C的示例来描述关于插值设备30的操作的更多信息。

然而，插值设备30可以调用流选择单元32(“SSU 32”)(其可以选择音频流11’的非零子集)，而不是处理音频流11’中的每一个音频流11’，其中音频流11’的非零子集可以包括数量少于作为音频流11’提供的音频流总数的音频流。通过减少由插值设备30进行插值的音频流11’的数量，SSU 32可以降低资源利用率(在处理周期、存储器和总线带宽方面)，同时还潜在地保持声场的准确再现。

在操作中，SSU 32可以获得(例如，经由跟踪设备306)内容消费者设备14的当前位置17(其也可以被称为收听者位置17)。在一些示例中，SSU 32可以将内容消费者设备14的当前位置17转换为不同的坐标系，例如，从真实坐标系转换为虚拟坐标系。也就是说，可以相对于虚拟坐标系来定义音频流11’的一个或多个捕获位置，以便音频流11’可以由音频回放系统16B正确地渲染，以反映消费者在使用内容消费者设备14(例如，VR设备14)时体验的虚拟世界。

SSU 32还可以获得指示音频流11’中的相应音频流11’被捕获的位置的捕获位置。在一些示例中，在虚拟坐标系中定义捕获位置，其中，虚拟坐标系可以反映虚拟世界中的位置，而不是内容消费者设备14所在的物理世界中的位置。因此，如上所述，音频回放系统16A可以在选择音频流11’的子集之前，将当前位置17从真实世界坐标系转换为虚拟坐标系。

在任何情况下，SSU 32可以基于当前位置17和音频流11’的捕获位置来选择音频流11’的子集，其中，再次，音频流11’的子集可能具有与音频流11’相比更少的音频流。在一些情况下，SSU 32可以确定当前位置17和音频流11’的捕获位置之间的距离，以获得一数量的(或多个)距离。SSU 32可以基于距离来选择音频流11’的子集，诸如音频流11’中具有小于门限距离的对应距离的音频流11’。

结合上述基于距离的选择或作为其替代，SSU 32可以确定每个捕获位置相对于当前位置的角度位置(其可以包括定义零度或前向角度的视角)。当执行基于距离的选择并且基于角度位置时，SSU32可以从在操作内容消费设备14的收听者周围提供足够的音频流11’分布的最近数量(其可以是用户、应用或操作系统定义的，作为几个示例)的音频流11’中选择(如关于图2A-2G中所示的示例的更详细地描述的)。当音频流11’中没有一个在门限距离内时并且基于角度位置，SSU 32可以选择在操作内容消费设备14的收听者周围提供足够的音频流11’分布的音频流11’的子集。

在一些示例中，SSU 32可以针对每个捕获位置相对于当前位置的角度位置执行一些分析。例如，SSU 32可以确定每个捕获位置相对于当前位置的角位置的熵。SSU 32可以选择音频流11’的子集，以便最大化角度位置的熵，其中，相对高的熵指示捕获位置在球体中均匀分布，并且相对低的熵指示捕获位置在球体中不均匀分布。

SSU 32可以将所选择的音频流11’的子集输出到插值设备30，插值设备30可以关于音频流11’的子集执行上述插值。考虑到音频流11’的子集不包括所有音频流11’，因为为了执行插值，插值设备30可能消耗更少的资源(诸如处理周期、存储器和总线带宽)，从而潜在地改进插值设备本身的操作。

插值设备30可以输出音频流11’的经插值的子集作为全景声音频数据15。音频回放系统16A可以调用渲染器22，以基于全景声音频数据15再现由全景声音频数据15表示的声场。也就是说，渲染器22可以应用一个或多个渲染算法来将全景声音频数据15从全景声(或者换句话说，球谐)域转换到空间域，从而生成一个或多个扬声器馈送25，其被配置为驱动一个或多个扬声器(图1A的示例中未示出)或其它类型的换能器(包括骨传导换能器)。关于图2A-2G的示例来描述关于音频流11’的子集的选择的更多信息。

图2A-2G是更详细地示出图1A的示例中所示的流选择单元在执行本公开内容中描述的流选择技术的各个方面时的示例操作的图。在图2A的示例中，用户52可以佩戴VR设备(诸如内容消费者设备14)来导航虚拟世界49，其中音频流11是经由捕获位置51A-51F(“捕获位置51”)处的麦克风50A-50F(“麦克风50”)捕获的。

如关于示例麦克风50A所示，麦克风50A可以被并入或以其它方式包括在一个或多个设备中，诸如VR耳麦60、蜂窝电话(包括所谓的智能手机)62、相机64等。尽管仅关于麦克风50A示出，但是每个麦克风50可被包括在VR设备60、智能手机62、相机64或能够包括通过其来捕获音频流11的麦克风的任何其它类型的设备。麦克风50可以表示上文关于图1A的示例讨论的麦克风5的示例。尽管示出了三个示例设备60-64，但是麦克风50可以仅被包括在设备60-64中的单个设备内或者被包括在设备60-64中的多个设备内。

在任何情况下，当用户52在起始位置55A处操作内容消费者设备14时，SSU 32可以选择麦克风50的第一子集54A(包括具有少于所有麦克风50的麦克风50A-50D)。SSU 32可以通过确定距离内容消费者设备14的当前位置55A和多个捕获位置51中的每个捕获位置51的距离60A-60F来选择麦克风50的第一子集54A(其中为了便于说明，在图2A的示例中仅示出了距离60A，但是可以确定从当前位置55A到捕获位置51B的单独距离60B，可以确定从当前位置55A到捕获位置51C的距离60C，等等)。

接下来，SSU 32可以基于距离60A-60F(“距离60”)来选择音频流11’的子集54A。作为一个示例，SSU 32可以将总距离计算为距离60的总和，并且然后针对每个距离60计算逆距离以获得逆距离。接下来，SSU 32可以将每个距离60的比率确定为逆距离中的对应逆距离除以总距离，以获得多个对应比率。遍及本公开内容，该比率也可以被称为权重。此外，关于图3A-6B提供了关于如何计算权重的进一步讨论。

SSU 32可以基于比率来选择音频流11’的子集54A。在该示例中，当比率中的一个比率超过门限时，SSU 32可以将音频流11’中的对应的一个音频流11’指派给音频流11’的子集54A。换句话说，当内容消费设备14和捕获位置51之间的距离为较小的距离时(由于对于较小的距离，逆距离产生更大的数字)，SSU 32可以选择音频流11’中更接近用户52/内容消费设备14的音频流11’。因此，对于起始位置55A，SSU 32可以选择麦克风50A-50D，从而将麦克风50A-50D指派给子集54A。

用户52可以沿着移动路径53从左向右移动(其中槽口指示用户52面对的方向)。当用户52沿着移动路径53移动时，SSU 32可以更新麦克风的子集，以从麦克风50的子集54A转换到子集54B。也就是说，当用户52到达移动路径53的末端的末端位置55B时，SSU 32可以重新计算每个麦克风50的前述比率(或者换句话说，权重)，从而选择麦克风50的子集54B(即，图2A的示例中的麦克风50C-50F)和对应的音频流11’。

接下来参考图2B的示例，用户52正在虚拟世界68A中操作内容消费者设备14，其中麦克风70A-70G(“麦克风70”)位于捕获位置71A-71G(“捕获位置71”)。麦克风70可以再次表示图1A的示例中所示的麦克风5。

在该示例中，SSU 32可以选择麦克风70的子集以包括麦克风70A、70B、70C和70E，其中该选择是基于麦克风70相对于用户52的当前位置75的距离和角度位置两者的。尽管被描述为距离和角度位置两者，但是SSU 32可以基于距离、角度位置或距离和角度位置的组合来执行选择。当使用距离和角度位置两者来执行选择时，在一些示例中，SSU 32可以首先基于距离选择麦克风70的子集，并且然后细化麦克风70的子集以获得最大(或至少门限)角度分集(或者，在下文更详细地描述的一些示例中，方差和/或熵)。

为了说明，SSU 32可以首先形成贡献(或换句话说，具有计算权重)高于门限的音频流11’的子集，例如，仅选择贡献高于聚合值10％的流。然后，SSU 32可以执行音频流11’的结束子集的选择，使得结束子集提供定义的或门限角度扩展。

因此，SSU 32可以确定每个捕获位置71相对于当前位置71的角度位置，以获得角度位置。在图2B的示例中，假设用户52的槽口定义了零度角，并且SSU 32确定相对于由用户52正在观看的方向或换句话说面对的方向定义的零度角的角度位置。角度位置也可以被称为方位角。在任何情况下，SSU 32接下来可以基于角度位置来选择麦克风70的子集(其再次包括麦克风70A、70B、70C和70E，以获得音频流11’的对应子集)。

在一个示例中，SSU 32可以确定角度位置的不同子集的方差，以获得方差。SSU 32可以基于方差来将音频流11’指派给音频流11’的子集。SSU 32可以选择提供最高角度(或换句话说，方位角)方差(或至少超过某个方差门限的方差)的音频流11’的子集，以便提供360度声场的完整(就角度方差而言)再现。

作为上述基于方差的选择的替代或结合上述基于方差的选择，SSU 32可以确定角度位置的不同子集的熵，以获得熵。SSU 32可以基于熵来将来自音频流11’的对应音频流11’指派给音频流11’的子集。再次，SSU 32可以选择音频流11’的子集，其提供最高角度(或者换句话说，方位角)熵(或者至少超过某个熵门限的熵)，以便提供360度声场的完整(就角度方差而言)再现。

如图2C的示例所示，用户52正在虚拟世界68B中操作内容消费者设备14，虚拟世界68B与虚拟世界68B类似，除了麦克风70A-70C已经被移除。麦克风70可以再次表示图1A的示例中所示的麦克风5。

在该示例中，SSU 32可以选择麦克风70的子集以包括麦克风70C、70D、70E和70G，其中，该选择是基于麦克风70相对于用户52的当前位置75的距离和角度位置两者的。尽管被描述为距离和角度位置两者，但是如前所述，SSU 32可以基于距离、角度位置或距离和角度位置的组合来执行选择。

因此，SSU 32可以确定每个捕获位置71相对于当前位置71的角度位置，以获得角度位置。在图2B的示例中，假设用户52的槽口定义了零度角，并且SSU 32确定相对于由用户52正在观看的方向或换句话说面对的方向定义的零度角的角度位置。角度位置也可以被称为方位角。在任何情况下，SSU 32接下来可以基于角度位置来选择麦克风70的子集(其再次包括麦克风70A、70B、70C和70E)，以采用类似于上面讨论的方式获得音频流11’的对应子集。

尽管关于选择包括四个音频流11’的音频流11’的子集进行了描述，但是可以关于具有少于音频流11’的总数的任意数量的音频流11’的音频流11’的子集来应用所述技术，其中该数量可以由用户52、内容创建者定义，根据处理器、存储器或其它资源利用率动态地定义，通常根据一些其它标准动态地定义，等等。因此，所述技术不应当限于音频流11’的静态定义的子集，该子集仅包括四个音频流11’。

另外，用户52可以选择或以其它方式输入各种偏置，以支持由麦克风70中的不同麦克风70捕获的音频流11’。然后，用户52可以基于麦克风70中的麦克风70的感知重要性来对麦克风70中的不同麦克风70进行预调谐。例如，麦克风70中的一个麦克风70可以位于更多音频源附近，并且用户52可以偏置音频流选择，使得选择与更多音频源相关联的麦克风70。在这方面，用户52可以使用偏置在不同程度上覆盖距离和/或角度位置选择过程，以将一些用户偏好插入到音频流选择过程中。

接下来参考图2D-2E中所示的示例，如图2D所示，用户52可以驻留在由麦克风80A、80B和80C标识的第一音频分区80A中(其中麦克风80A-80D表示图1的示例中所示的麦克风5)。在该示例中(即，当用户52驻留在第一音频分区82A中时)，SSU 32可以选择由麦克风80A、80B和80C捕获的音频流11’作为音频流11’的子集。因此，SSU 32可以基于用户位置85A和麦克风80的捕获位置来选择有效的区域(或者换句话说，分区)，从而基于ROV来移除麦克风80D(在该示例中)。

在图2E的示例中，用户52已经从第一音频分区82A移动到当前位置85B。插值单元30可以调用SSU 32，以基于麦克风80的当前位置85B和捕获位置来确定新的ROV(即，图2E的示例中的第二音频分区82B)。然后，SSU 32可以基于第二音频分区82B的识别来确定由麦克风80A、80B和80D捕获的音频流11’的子集，从而移除由麦克风80C捕获的音频流11’。

接下来参考图2F和2G的示例，向虚拟世界添加额外的麦克风80E和80F，从而创建三个音频分区82C、82D和82E。用户52正在当前位置85C处操作内容消费者设备14。插值单元30可以调用SSU 32，以基于麦克风80的当前位置85C和捕获位置来选择音频分区82D。基于音频分区82D，SSU 32可以选择音频流11’的子集以包括由麦克风80B-80E捕获的音频流11’，从而移除由麦克风80A和80F捕获的任何音频流11’。

在图2G的示例中，用户52正在当前位置85D处操作内容消费者设备14。插值单元30可以调用SSU 32，以基于麦克风80的当前位置85D和捕获位置来选择音频分区82G。基于音频分区82G，SSU 32可以选择音频流11’的子集，以包括由麦克风80A、80B、80D和80F捕获的音频流11’，从而移除由麦克风80C和80E捕获的任何音频流11’。

前述音频流选择技术在广泛的各种各样的情况下可能具有多种不同的用途。例如，所述技术可以应用于现场事件的记录，例如音乐会，其中收听者(例如，用户52)可以靠近不同乐器并且在场景中四处移动。作为另一示例，所述技术可以应用于AR，其中存在现场和合成(或生成的)内容的混合。

另外，所述技术可以促进低成本设备，因为音频流选择技术可以减少延迟和复杂性(因为选择更少的可用音频流11’)。此外，用户52可以根据所述技术的各个方面使用视频流来偏置权重或适应用户偏好以创建空间效果，同时，所述技术还可以使用户52能够基于用户52的位置和潜在的时间来为艺术效果预设对权重的偏置。

图3A-3C是示出图1A和1B的插值设备30在执行本公开内容中描述的音频流插值技术的各个方面时的示例操作的框图。在图3A的示例中，插值设备30从SSU 32接收由麦克风5捕获的全景声音频流11’(示为“全景声流11’)的子集(如上所述，其可以表示麦克风的集群或阵列)。如上所述，由麦克风5输出的信号可以经历从麦克风格式到HOA格式(其由标记为“MicAmbisonics”的框所示)的转换，从而产生全景声音频流11’。

插值设备30还可以接收音频元数据511A-511N(“音频元数据511”)，其可以包括麦克风位置，该麦克风位置标识捕获了音频流11’中的对应的一个音频流11’的对应的麦克风5A-5N的位置。麦克风5可以提供麦克风位置，麦克风5的操作者可以输入麦克风位置，耦合到麦克风的设备(例如，内容捕获设备300)可以指定麦克风位置，或者前述的某种组合。内容捕获设备300可以将音频元数据511指定为内容301的一部分。在任何情况下，SSU 32都可以从表示内容301的比特流21解析音频元数据511。

SSU 32还可以获得标识收听者的位置的收听者位置17，诸如图5A的示例中所示。音频元数据可以指定如图3A的示例所示的麦克风的位置和方向，或者仅指定麦克风位置。此外，收听者位置17可以包括收听者位置(或者换句话说，位置)和方向，或者仅包括收听者位置。简要回顾图1A，音频回放系统16A可以与跟踪设备306对接以获得收听者位置17。跟踪设备306可以表示能够跟踪收听者的任何设备，并且可以包括以下各者中的一者或多者：全球定位系统(GPS)设备、相机、声纳设备、超声波设备、红外发射和接收设备、或者能够获得收听者位置17的任何其它类型的设备。

接下来，SSU 32可以执行前述音频流选择以获得音频流11’的子集。SSU 32可以将音频流11’的子集输出到插值设备30。

接下来，插值设备30可以基于一个或多个麦克风位置和收听者位置17来关于音频流11’的子集执行插值，以获得经插值的音频流15。音频流11’最初可以被存储在插值设备30的存储器中，并且SSU 32可以使用指针或其它数据构造来引用音频流11’的子集，而不是取回音频流11’的子集并且将其发送到插值设备30。为了执行插值，插值设备30可以从存储器读取音频流11’的子集，并且基于一个或多个麦克风位置和收听者位置17(其也可以被存储在存储器中)来确定每个音频流的权重(其示为权重(1)…权重(n))。

当如上所述识别音频流11’的子集时，该SSU 32可以利用该权重。在一些示例中，SSU 32可以确定权重并且将权重提供给插值设备30以执行插值。

在任何情况下，为了确定权重，插值设备30可以将每个权重计算为音频流11’中对应的一个音频流11’与收听者位置17的逆距离与所有其它音频流11’的总逆距离之比，除了当收听者与虚拟世界中表示的一个麦克风5位于同一位置时的边缘情况之外。也就是说，收听者可能导航虚拟世界或在设备的显示器上表示的真实世界位置，其具有与麦克风5之一捕获音频流11’的位置相同的位置。当收听者位于与麦克风5之一相同的位置时，插值单元30可以计算收听者位于与麦克风5之一相同位置的麦克风5之一捕获的音频流11’之一的权重，并且将剩余音频流11’的权重设置为零。

否则，插值设备30可以按如下计算每个权重：

权重(n)＝(1/(麦克风n到收听者位置的距离))/(1/(麦克风1到收听者位置的距离)+…+1/(麦克风n到收听者位置的距离))，在上文中，收听者位置是指收听者位置17，权重(n)是指音频流11N’的权重，并且麦克风<编号>到收听者位置的距离是指对应的麦克风位置和收听者位置17之间的差的绝对值。

接下来，插值设备30可以将权重乘以音频流11’的子集中相应的一个音频流11’，以获得一个或多个加权音频流，插值设备30可以将这些加权音频流加在一起以获得经插值的音频流15。上述内容可以通过以下等式进行数学表示：

权重(1)*音频流1+…+权重(n)*音频流n＝经插值的音频流，

其中，权重(<编号>)表示对应音频流<编号>的权重，并且经插值的全景声音频数据是指经插值的音频流15。经插值的音频流可以被存储在插值设备30的存储器中，并且也可以可用于由扬声器(例如，VR或AR设备或收听者佩戴的耳麦)播放。插值等式表示图3A的示例中所示的加权平均全景声音频。应该注意的是，在一些配置中，可能对非全景声音频流进行插值；然而，如果不对全景声音频数据执行插值，则可能存在音频质量或分辨率损失。

在一些示例中，插值设备30可以逐帧确定前述权重。在其它示例中，插值设备30可以更频繁地(例如，某种子帧)或更不频繁地(例如，在某个设定数量的帧之后)确定前述权重。在这些和其它示例中，插值设备30可以仅响应于检测到收听者位置和/或方向的某种变化或者响应于基本全景声音频流的一些其它特征(其可以启用和禁用本公开内容中描述的插值技术的各个方面)来计算权重。

在一些示例中，可能仅关于具有某些特性的音频流11’来启用上述技术。例如，当由音频流11’表示的音频源位于不同于麦克风5的位置时，插值设备30可以仅对音频流11’进行插值。下文关于图4A和4B提供了关于所述技术的这方面的更多信息。

图4A是更详细地示出图1A、1B和3A的插值设备可以如何执行本公开内容中描述的技术的各个方面的图。如图4A所示，收听者52可以在麦克风(显示为“麦克风阵列”)5A-5E定义的区域94内进行。在一些示例中，麦克风5(包括当麦克风5表示集群(或换句话说，麦克风阵列)时)可以彼此之间的距离大于5英尺。在任何情况下，当声音源90A-90D(如图4A所示的“声音源90”或“音频源90”)在由麦克风5A-5E定义的区域94之外时，给定上述等式施加的数学约束，插值设备30(参考图3A)可以执行插值。

返回到图4A的示例，收听者52可以输入或以其它方式发出一个或多个导航命令(可能通过步行或通过使用控制器或其它接口设备，包括智能手机等)，以在区域94内(沿着线96)导航。跟踪设备(诸如图3A的示例中所示的跟踪设备306)可以接收这些导航命令并且生成收听者位置17。

当收听者52开始从起始位置导航时，插值设备30可以生成经插值的音频流15，以对由麦克风5C捕获的音频流11C’进行重加权，并且将相对较少的权重指派给由麦克风5B捕获的音频流11B’和由麦克风5D捕获的音频流11D’，并且仍然将相对较少的权重指派给(并且可能不指派权重)由相应的麦克风5A和5E捕获的音频流11A’和11E’(根据上面讨论的音频流选择技术，SSU 32可以从音频流11’的子集中排除音频流11A’和11E’)。

当收听者52沿着麦克风5B的位置旁边的线96导航时，插值设备30可以将更多的权重指派给音频流11B’，将相对较少的权重指派给音频流11C’，并且将更少的权重指派给(或者可能不指派权重)音频流11A’、11D’和11E’。当收听者52朝线96的末端导航(其中槽口指示收听者52正在移动的方向)更接近麦克风5E的位置时，插值设备30可以将更多的权重指派给音频流11E’，将相对较少的权重指派给音频流11A’，并且仍然将相对较少的权重指派给音频流11B’、11C’和11D’(并且可能不指派权重，因为SSU 32可能排除这些音频流)。

在这方面，插值设备30可以基于收听者32发出的导航命令基于收听者位置17的改变来执行插值，以随时间向音频流11A’-11E’指派不同的权重。改变的收听者位置17可能导致经插值的音频流15内的不同强调，从而促进区域94内更好的听觉定位。

尽管上述示例中没有描述，但是所述技术也可以适应麦克风的位置的变化。换句话说，在录音过程期间，可以操纵麦克风，从而改变位置和方向。由于上述等式仅考虑麦克风位置和收听者位置17之间的差，因此即使已经操纵麦克风来改变位置和/或方向，插值设备30也可以继续执行插值。

图4B是更详细地示出图1A、1B和3A的插值设备可以如何执行本公开内容中描述的技术的各个方面的框图。图4B中所示的示例与图4A中所示的示例相似，除了麦克风5被可穿戴设备500A-500E(其可以表示可穿戴设备400A和/或400B的示例)替换。可穿戴设备500A-500E可以各自包括捕获上文更详细描述的音频流的麦克风。

图3B是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。图3B的示例中所示的插值设备30A与图3A的示例中所示的类似，除了图3A中所示的插值设备30接收未从麦克风捕获(以及预捕获和/或混合)的音频流11’。图3A的示例中所示的插值设备30表示在实时捕获期间的示例使用(用于实时事件，例如体育赛事、音乐会、讲座等)，而图3B的示例中所示的插值设备30A表示在预记录或生成的事件(诸如视频游戏、电影等)期间的示例使用。插值设备30A可以包括用于存储音频流的存储器，如图3B所示。

图3C是示出图1A和1B的插值设备在执行本公开内容中描述的音频流插值技术的各个方面时的进一步的示例操作的框图。图3C中所示的示例与图3B中所示的示例相似，除了可穿戴设备500A-500N可以捕获音频流11A-11N(其被压缩并且被解码为音频流11A’-11N’)。插值设备30B可以包括用于存储音频流的存储器，如图3B所示。

图1B是示出被配置为执行在本公开内容中描述的技术的各个方面的另一示例系统100的框图。系统100与图1A中所示的系统10类似，除了图1A中所示的音频渲染器22被能够使用一个或多个HRTF执行双耳渲染的双耳渲染器102或能够渲染到左和右扬声器馈送103的其它功能替代。

音频回放系统16B可以将左和右扬声器馈送103输出到耳机104，耳机104可以表示可穿戴设备的另一示例，并且可以耦合到额外的可穿戴设备以促进声场的再现，诸如手表、上述VR耳麦、智能眼镜、智能服装、智能戒指、智能手镯或任何其它类型的智能珠宝(包括智能项链)等。耳机104可以无线地或经由有线连接耦合到额外的可穿戴设备。

此外，耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(例如，通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16。耳机104可以基于左和右扬声器馈送103来重新创建由全景声系数11表示的声场。耳机104可包括左耳机扬声器和右耳机扬声器，其由对应的左和右扬声器馈送103供电(或换句话说，驱动)。

尽管如图7A和7B的示例所示，关于VR设备进行了描述，但是所述技术可以由其它类型的可穿戴设备执行，包括手表(诸如所谓的“智能手表”)、眼镜(诸如所谓的“智能眼镜”)、耳机(包括经由无线连接耦合的无线耳机、或经由有线或无线连接耦合的智能耳机)和任何其它类型的可穿戴设备。因此，所述技术可以由任何类型的可穿戴设备来执行，通过这些可穿戴设备，用户可以在用户佩戴可穿戴设备时与其进行交互。

图6A和6B是示出可以执行本公开内容中描述的技术的各个方面的示例系统的图。图6A示出了其中源设备12还包括相机200的示例。相机200可以被配置为捕获视频数据，并且将捕获的原始视频数据提供给内容捕获设备300。内容捕获设备300可以将视频数据提供给源设备12的另一组件，以便进一步处理为视口分割的部分。

在图6A的示例中，内容消费者设备14还包括可穿戴设备800。应当理解，在各种实现中，可穿戴设备800可以被包括在内容消费者设备14中，或者外部耦合到内容消费者设备14。如上文关于图5A和5B讨论的，可穿戴设备800包括用于输出视频数据(例如，与各种视口相关联的)和用于渲染音频数据的显示硬件和扬声器硬件。

图6B示出了与图6A所示类似的示例，除了图6A所示的音频渲染器22被能够使用一个或多个HRTF执行双耳渲染的双耳渲染器102或者能够渲染到左和右扬声器馈送103的其它功能替换。音频播放系统16可以将左和右扬声器馈送103输出到耳机104。

耳机104可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线连接(例如通过蓝牙TM连接、无线网络连接等)耦合到音频回放系统16。耳机104可以基于左和右扬声器馈送103来重新创建由全景声系数11表示的声场。耳机104可以包括左耳机扬声器和右耳机扬声器，其由相应的左和右扬声器馈送103供电(或换句话说，驱动)。

图7是示出图1A-6B的音频回放系统在执行本公开内容中描述的音频插值技术的各个方面时的示例操作的流程图。图1A的示例中所示的SSU 32可以首先获得一个或多个捕获位置(950)，一个或多个捕获位置中的每个捕获位置标识捕获对应的一个或多个音频流11’(在虚拟坐标系中)中的每个音频流11’的相应的一个或多个麦克风的位置。SSU 32接下来可以获得内容消费者设备14的当前位置17(952)。

如上文更详细地描述的，SSU 32可以基于当前位置17和多个捕获位置来选择多个音频流11’的子集(954)。音频回放系统16接下来可以调用音频渲染器22，以基于多个音频流11’(例如，全景声音频数据15)的子集获得一个或多个扬声器馈送25。音频ui回放系统16可以输出一个或多个扬声器馈送25以驱动换能器(例如，扬声器)或以其它方式对其供电。以这种方式，音频回放系统16可以基于多个音频流11’的子集来再现声场(956)。

图8是图1A和1B的示例中所示的音频回放设备在执行本公开内容中描述的技术的各个方面时的框图。音频回放设备16可以表示音频回放设备16A和/或音频回放设备16B的示例。音频回放系统16可以包括音频解码设备24结合6DOF音频渲染器22A，6DOF音频渲染器22A可以表示图1A的示例中所示的音频渲染器22的一个示例。

音频解码设备24可以包括低延迟解码器900A、音频解码器900B和本地音频缓冲器902。低延迟解码器900A可以处理XR音频比特流21A以获得音频流901A，其中低延迟解码器900A可以执行相对低的复杂度的解码(与音频解码器900B相比)，以促进音频流901A的低延迟重构。音频解码器900B可以相对于音频比特流21B执行相对更高复杂度的解码(与音频解码器900A相比)，以获得音频流901B。音频解码器900B可以执行符合MPEG-H 3D音频译码标准的音频解码。本地音频缓冲器902可以表示被配置为缓冲本地音频内容的单元，本地音频缓冲器902可以输出本地音频内容作为音频流903。

比特流21(由XR音频比特流21A和/或音频比特流21B中的一个或多个组成)还可以包括XR元数据905A(其可以包括上面提到的麦克风位置信息)和6DOF元数据905B(其可以指定与6DOF音频渲染相关的各种参数)。6DOF音频渲染器22A可以获得音频流901A、901B和/或903以及XR元数据905A和6DOF元数据905B，并且基于收听者位置和麦克风位置来渲染扬声器馈送25和/或103。在图8的示例中，6DOF音频渲染器22A包括插值设备30，其可以执行上文更详细地描述的音频流选择和/或插值技术的各个方面，以促进6DOF音频渲染。

图9示出了支持根据本公开内容的各方面的音频流式传输的无线通信系统100的示例。无线通信系统100包括基站105、UE 115以及核心网络130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、改进的LTE(LTE-A)网络、LTE-A Pro网络或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强型宽带通信、超可靠(例如，任务关键)通信、低时延通信或者与低成本且低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线地进行通信。本文描述的基站105可以包括或可以被本领域技术人员称为基站收发机、无线电基站、接入点、无线电收发机、节点B、演进型节点B(eNB)、下一代节点B或千兆节点B(任一项可以被称为gNB)、家庭节点B、家庭演进型节点B、或某种其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小型小区基站)。本文描述的UE 115能够与各种类型的基站105和网络设备(包括宏eNB、小型小区eNB、gNB、中继基站等)进行通信。

每个基站105可以与在其中支持与各个UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且在基站105和UE 115之间的通信链路125可以利用一个或多个载波。在无线通信系统100中示出的通信链路125可以包括：从UE 115到基站105的上行链路传输、或者从基站105到UE 115的下行链路传输。下行链路传输还可以被称为前向链路传输，而上行链路传输还可以被称为反向链路传输。

可以将针对基站105的地理覆盖区域110划分为扇区，所述扇区构成地理覆盖区域110的一部分，并且每个扇区可以与小区相关联。例如，每个基站105可以提供针对宏小区、小型小区、热点、或其它类型的小区、或其各种组合的通信覆盖。在一些示例中，基站105可以是可移动的，并且因此，提供针对移动的地理覆盖区域110的通信覆盖。在一些示例中，与不同的技术相关联的不同的地理覆盖区域110可以重叠，并且与不同的技术相关联的重叠的地理覆盖区域110可以由相同的基站105或不同的基站105来支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro、或NR网络，其中不同类型的基站105提供针对各个地理覆盖区域110的覆盖。

UE 115可以散布于整个无线通信系统100中，并且每个UE 115可以是静止的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备、或订户设备、或某种其它适当的术语，其中，“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备，例如，蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开内容的示例中，UE 115可以是在本公开内容中描述的音频源中的任何音频源，包括VR耳麦、XR耳麦、AR耳麦、车辆、智能电话、麦克风、麦克风阵列或包括麦克风的任何其它设备，或者能够发送捕获的和/或合成的音频流。在一些示例中，合成的音频流可以是被存储在存储器中或先前创建或合成的音频流。在一些示例中，UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或MTC设备等，其可以是在诸如电器、车辆、仪表等的各种物品中实现的。

一些UE 115(例如，MTC或IoT设备)可以是低成本或低复杂度设备，并且可以提供在机器之间的自动化通信(例如，机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在没有人为干预的情况下与彼此或基站105进行通信的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自交换和/或使用音频元数据的设备的通信，这些音频信息指示隐私限制和/或基于密码的隐私数据，以切换、屏蔽各种音频流和/或音频源和/或使各种音频流和/或音频源为空，如下文将更详细地描述的。

在一些情况下，UE 115还能够与其它UE 115直接进行通信(例如，使用对等(P2P)或设备到设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE 115可以在基站105的地理覆盖区域110内。这样的组中的其它UE 115可以在基站105的地理覆盖区域110之外，或者以其它方式无法从基站105接收传输。在一些情况下，经由D2D通信来进行通信的多组UE 115可以利用一到多(1:M)系统，其中，每个UE 115向该组中的每个其它UE 115进行发送。在一些情况下，基站105促进对用于D2D通信的资源的调度。在其它情况下，D2D通信是在UE 115之间执行的，而不涉及基站105。

基站105可以与核心网络130进行通信以及彼此进行通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其它接口)与核心网络130对接。基站105可以在回程链路134上(例如，经由X2、Xn或其它接口)上直接地(例如，直接在基站105之间)或间接地(例如，经由核心网络130)彼此进行通信。

在一些情况下，无线通信系统100可以利用经许可和免许可射频频谱带两者。例如，无线通信系统100可以采用免许可频带(例如，5GHz ISM频带)中的许可辅助接入(LAA)、LTE免许可(LTE-U)无线接入技术、或NR技术。当在免许可射频频谱带中操作时，无线设备(例如，基站105和UE 115)可以在发送数据之前采用先听后说(LBT)过程来确保频率信道是空闲的。在一些情况下，免许可频带中的操作可以基于结合在经许可频带(例如，LAA)中操作的分量载波的载波聚合配置。免许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输或这些项的组合。免许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或这两者的组合。

在这方面，描述了实现以下示例中的一个或多个示例的技术的各个方面：

示例1、一种被配置为处理一个或多个音频流的设备，所述设备包括：存储器，其被配置为存储所述一个或多个音频流；以及处理器，其耦合到所述存储器并且被配置为：获得一个或多个麦克风位置，所述一个或多个麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流中的每个音频流的相应的一个或多个麦克风的位置；获得标识收听者的位置的收听者位置；基于所述一个或多个麦克风位置和所述收听者位置来关于所述音频流执行插值，以获得经插值的音频流；基于所述经插值的音频流来获得一个或多个扬声器馈送；以及输出所述一个或多个扬声器馈送。

示例2、根据示例1所述的设备，其中，所述一个或多个处理器被配置为：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；以及基于所述权重来获得所述经插值的音频流。

示例3、根据示例1所述的设备，其中，所述一个或多个处理器被配置为：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；以及将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流；以及基于所述一个或多个经加权的音频流来获得所述经插值的音频流。

示例4、根据示例1所述的设备，其中，所述一个或多个处理器被配置为：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；以及将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流；以及将所述一个或多个经加权的音频流加在一起以获得所述经插值的音频流。

示例5、根据示例2-4的任何组合所述的设备，其中，所述一个或多个处理器被配置为：确定所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的差；以及基于所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的所述差来确定所述音频流中的每个音频流的所述权重。

示例6、根据示例2-5的任何组合所述的设备，其中，所述一个或多个处理器被配置为：确定所述一个或多个音频流的每个音频帧的所述权重。

示例7、根据示例1-6的任何组合所述的设备，其中，由所述音频流表示的音频源位于所述一个或多个麦克风的外部。

示例8、根据示例1-7的任何组合所述的设备，其中，所述一个或多个处理器被配置为：从计算机介导现实设备获得所述收听者位置。

示例9、根据示例8所述的设备，其中，所述计算机介导现实设备包括头戴式显示设备。

示例10、根据示例1-9的任何组合所述的设备，其中，所述一个或多个处理器被配置为：从包括所述音频流的比特流中获得标识所述一个或多个麦克风位置的音频元数据。

示例11、根据示例1-10的任何组合所述的设备，其中，所述一个或多个麦克风位置中的至少一个麦克风位置改变以反映所述一个或多个麦克风中的对应的一个麦克风的移动。

示例12、根据示例1-11的任何组合所述的设备，其中，所述一个或多个音频流包括全景声音频流(包括高阶、混合阶、一阶、二阶)，并且其中，所述经插值的音频流包括经插值的全景声音频流(包括高阶、混合阶、一阶、二阶)。

示例13、根据权利要求1-11的任何组合所述的设备，其中，所述一个或多个音频流包括全景声音频流，并且其中，所述经插值的音频流包括经插值的全景声音频流。

示例14、根据示例1-13的任何组合所述的设备，其中，所述收听者位置基于由所述收听者发出的导航命令而改变。

示例15、根据示例1-14的任何组合所述的设备，其中，所述一个或多个处理器被配置为：接收指定所述麦克风位置的音频元数据，所述麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流的麦克风集群的位置。

示例16、根据示例15的任何组合所述的设备，其中，所述麦克风集群各自位于距彼此大于5英尺的距离。

示例17、根据示例1-14的任何组合所述的设备，其中，所述麦克风各自位于距彼此大于5英尺的距离。

示例18、一种用于处理一个或多个音频流的方法，所述方法包括：获得一个或多个麦克风位置，所述一个或多个麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流中的每个音频流的相应的一个或多个麦克风的位置；获得标识收听者的位置的收听者位置；基于所述一个或多个麦克风位置和所述收听者位置来关于所述音频流执行插值，以获得经插值的音频流；基于所述经插值的音频流来获得一个或多个扬声器馈送；以及输出所述一个或多个扬声器馈送。

示例19、根据示例18所述的方法，其中，执行所述插值包括：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；以及基于所述权重来获得所述经插值的音频流。

示例20、根据示例18所述的方法，其中，执行所述插值包括：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流；以及基于所述一个或多个经加权的音频流来获得所述经插值的音频流。

示例21、根据示例18所述的方法，其中，执行所述插值包括：基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重；以及将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流；以及将所述一个或多个经加权的音频流加在一起以获得所述经插值的音频流。

示例22、根据示例19-21的任何组合所述的方法，其中，确定所述权重包括：确定所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的差；以及基于所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的所述差来确定所述音频流中的每个音频流的所述权重。

示例23、根据示例19-22的任何组合所述的方法，其中，确定所述权重包括：确定所述一个或多个音频流的每个音频帧的所述权重。

示例24、根据示例18-23的任何组合所述的方法，其中，由所述音频流表示的音频源位于所述一个或多个麦克风的外部。

示例25、根据示例18-24的任何组合所述的方法，其中，获得所述收听者位置包括：从计算机介导现实设备获得所述收听者位置。

示例26、根据示例25所述的方法，其中，所述计算机介导现实设备包括头戴式显示设备。

示例27、根据示例18-26的任何组合所述的方法，其中，获得所述一个或多个麦克风位置包括：从包括所述音频流的比特流中获得标识所述一个或多个麦克风位置的音频元数据。

示例28、根据示例18-27的任何组合所述的方法，其中，所述一个或多个麦克风位置中的至少一个麦克风位置改变以反映所述一个或多个麦克风中的对应的一个麦克风的移动。

示例29、根据示例18-28的任何组合所述的方法，其中，所述一个或多个音频流包括全景声音频流(包括高阶、混合阶、一阶、二阶)，并且其中，所述经插值的音频流包括经插值的全景声音频流(包括高阶、混合阶、一阶、二阶)。

示例30、根据权利要求18-28的任何组合所述的方法，其中，所述一个或多个音频流包括全景声音频流，并且其中，所述经插值的音频流包括经插值的全景声音频流。

示例31、根据示例18-30的任何组合所述的方法，其中，所述收听者位置基于由所述收听者发出的导航命令而改变。

示例32、根据示例18-31的任何组合所述的方法，其中，获得所述麦克风位置包括：接收指定所述麦克风位置的音频元数据，所述麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流的麦克风集群的位置。

示例33、根据示例32所述的方法，其中，所述麦克风集群各自位于距彼此大于5英尺的距离。

示例34、根据示例18-31的任何组合所述的方法，其中，所述麦克风各自位于距彼此大于5英尺的距离。

示例35、一种被配置为处理一个或多个音频流的设备，所述设备包括：用于获得一个或多个麦克风位置的单元，所述一个或多个麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流中的每个音频流的相应的一个或多个麦克风的位置；用于获得标识收听者的位置的收听者位置的单元；用于基于所述一个或多个麦克风位置和所述收听者位置来关于所述音频流执行插值，以获得经插值的音频流的单元；用于基于所述经插值的音频流来获得一个或多个扬声器馈送的单元；以及用于输出所述一个或多个扬声器馈送的单元。

示例36、根据示例35所述的设备，其中，所述用于执行所述插值的单元包括：用于基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重的单元；以及用于基于所述权重来获得所述经插值的音频流的单元。

示例37、根据示例35所述的设备，其中，所述用于执行所述插值的单元包括：用于基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重的单元；用于将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流的单元；以及用于基于所述一个或多个经加权的音频流来获得所述经插值的音频流的单元。

示例38、根据示例35所述的设备，其中，所述用于执行所述插值的单元包括：用于基于所述一个或多个麦克风位置和所述收听者位置来确定所述音频流中的每个音频流的权重的单元；用于将所述权重乘以所述一个或多个音频流中的对应的一个音频流，以获得一个或多个经加权的音频流的单元；以及用于将所述一个或多个经加权的音频流加在一起以获得所述经插值的音频流的单元。

示例39、根据示例36-38的任何组合所述的设备，其中，所述用于确定所述权重的单元包括：用于确定所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的差的单元；以及用于基于所述一个或多个麦克风位置中的每个麦克风位置与所述收听者位置之间的所述差来确定所述音频流中的每个音频流的所述权重的单元。

示例40、根据示例36-39的任何组合所述的设备，其中，所述用于确定所述权重的单元包括：用于确定所述一个或多个音频流的每个音频帧的所述权重的单元。

示例41、根据示例35-40的任何组合所述的设备，其中，由所述音频流表示的音频源位于所述一个或多个麦克风的外部。

示例42、根据示例35-41的任何组合所述的设备，其中，所述用于获得所述收听者位置的单元包括：用于从计算机介导现实设备获得所述收听者位置的单元。

示例43、根据示例42所述的设备，其中，所述计算机介导现实设备包括头戴式显示设备。

示例44、根据示例35-43的任何组合所述的设备，其中，所述用于获得所述一个或多个麦克风位置的单元包括：用于从包括所述音频流的比特流中获得标识所述一个或多个麦克风位置的音频元数据的单元。

示例45、根据示例35-44的任何组合所述的设备，其中，所述一个或多个麦克风位置中的至少一个麦克风位置改变以反映所述一个或多个麦克风中的对应的一个麦克风的移动。

示例46、根据示例35-45的任何组合所述的设备，其中，所述一个或多个音频流包括全景声音频流(包括高阶、混合阶、一阶、二阶)，并且其中，所述经插值的音频流包括经插值的全景声音频流(包括高阶、混合阶、一阶、二阶)。

示例47、根据权利要求35-44的任何组合所述的设备，其中，所述一个或多个音频流包括全景声音频流，并且其中，所述经插值的音频流包括经插值的全景声音频流。

示例48、根据示例35-47的任何组合所述的设备，其中，所述收听者位置基于由所述收听者发出的导航命令而改变。

示例49、根据示例35-48的任何组合所述的设备，其中，所述用于获得所述麦克风位置的单元包括：用于接收指定所述麦克风位置的音频元数据的单元，所述麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流的麦克风集群的位置。

示例50、根据示例49的任何组合所述的设备，其中，所述麦克风集群各自位于距彼此大于5英尺的距离。

示例51、根据示例35-48的任何组合所述的设备，其中，所述麦克风各自位于距彼此大于5英尺的距离。

示例52、一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得一个或多个处理器进行以下操作：获得一个或多个麦克风位置，所述一个或多个麦克风位置中的每个麦克风位置标识捕获所述对应的一个或多个音频流中的每个音频流的相应的一个或多个麦克风的位置；获得标识收听者的位置的收听者位置；基于所述一个或多个麦克风位置和所述收听者位置来关于所述音频流执行插值，以获得经插值的音频流；基于所述经插值的音频流来获得一个或多个扬声器馈送；以及输出所述一个或多个扬声器馈送。

应认识到的是，根据示例，本文描述的任何技术的某些动作或事件可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的动作或事件是对于实施所述技术都是必要的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中，VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口来与外部设备传送交换消息，其中交换消息与声场的多个可用表示相关联。在一些示例中，VR设备可以使用耦合到网络接口的天线来接收包括数据分组、音频分组、视频分组或与声场的多个可用表示相关联的传输协议数据的无线信号。在一些示例中，一个或多个麦克风阵列可以捕获声场。

在一些示例中，被存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶全景声表示、声场的混合阶全景声表示、声场的基于对象的表示与声场的高阶全景声表示的组合、声场的基于对象的表示与声场的混合阶全景声表示的组合、或声场的混合阶表示与声场的高阶全景声表示的组合。

在一些示例中，声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个低分辨率区域，并且其中，基于转向角所选择的呈现提供关于至少一个高分辨率区域的较高空间精度以及关于低分辨率区域的较小空间精度。

在一个或多个示例中，所描述的功能可以用硬件、软件、固件或其任何组合来实现。如果用软件来实现，则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过其进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质之类的有形介质或者通信介质，所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取得用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。

通过举例而非限制性的方式，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构形式存储期望的程序代码以及能够由计算机访问的任何其它介质。此外，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(例如，红外线、无线电和微波)从网站、服务器或其它远程源传输指令，则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(例如，红外线、无线电和微波)被包括在介质的定义中。然而，应当理解的是，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它临时性介质，而是替代地针对非临时性的有形存储介质。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则利用激光来光学地复制数据。上述各项的组合也应当被包括在计算机可读介质的范围之内。

指令可以由一个或多个处理器来执行，包括固定功能处理电路和/或可编程处理电路，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或分立逻辑电路。因此，如本文所使用的术语“处理器”可以指代前述结构中的任何一者或者适于实现本文描述的技术的任何其它结构。另外，在一些方面中，本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或者被并入经组合的编解码器中。此外，所述技术可以完全在一个或多个电路或逻辑元件中实现。

本公开内容的技术可以在多种多样的设备或装置中实现，包括无线手机、集成电路(IC)或一组IC(例如，芯片组)。在本公开内容中描述了各种组件、模块或单元以强调被配置以执行所公开的技术的设备的功能性方面，但是不一定需要通过不同的硬件单元来实现。确切而言，如上所述，各种单元可以被组合在编解码器硬件单元中，或者由可互操作的硬件单元的集合(包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。

已经描述了各个示例。这些和其它示例在所附的权利要求的范围内。

Claims

1.一种被配置为处理一个或多个音频流的设备，所述设备包括：

一个或多个处理器，其被配置为：

获得所述设备的当前位置；

获得多个捕获位置，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；

基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及

基于所述多个音频流的所述子集来再现声场；以及

存储器，其耦合到所述处理器并且被配置为存储所述多个音频流的所述子集。

2.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

确定所述当前位置与所述多个捕获位置中的每个捕获位置之间的距离，以获得多个距离；以及

基于所述多个距离来选择所述多个音频流的所述子集。

3.根据权利要求2所述的设备，其中，所述一个或多个处理器被配置为：

将总距离确定为所述多个距离之和；

确定所述多个距离中的每个距离的逆距离，以获得多个逆距离；

将所述多个逆距离中的每个逆距离的比率确定为所述多个逆距离中的对应的一个逆距离除以所述总距离，以获得多个比率；以及

基于所述多个比率来选择所述多个音频流的所述子集。

4.根据权利要求3所述的设备，其中，所述一个或多个处理器被配置为：当所述多个比率中的一个比率超过门限时，将所述多个音频流中的对应的一个音频流指派给所述多个音频流的所述子集。

5.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

确定所述当前位置与所述多个捕获位置中的每个捕获位置之间的相对位置，以获得多个相对位置；以及

基于所述多个相对位置和门限来选择所述多个音频流的所述子集。

6.根据权利要求1所述的设备，

其中，所述当前位置是在第一时间处捕获的第一位置；

其中，所述多个音频流的所述子集是所述多个音频流的第一子集；

其中，所述一个或多个处理器还被配置为：

针对所述第一时间之后的第二时间来更新所述当前位置，经更新的当前位置是在所述第二时间处捕获的第二位置；

基于所述经更新的当前位置和所述多个位置来选择所述多个音频流的第二子集；以及

基于所述多个音频流的所述第二子集来再现所述声场。

7.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

确定所述多个捕获位置中的每个捕获位置相对于所述当前位置的角度位置，以获得多个角度位置；以及

基于所述多个角度位置来选择所述多个音频流的所述子集。

8.根据权利要求7所述的设备，其中，所述一个或多个处理器被配置为：

确定所述多个角度位置的不同子集的方差，以获得一个或多个方差；以及

基于所述一个或多个方差来将所述多个音频流中的对应的音频流指派给所述多个音频流的所述子集。

9.根据权利要求7所述的设备，其中，所述一个或多个处理器被配置为：

确定所述多个角度位置的不同子集的熵，以获得一个或多个熵；以及

基于所述一个或多个熵来将所述多个音频流中的对应的音频流指派给所述多个音频流的所述子集。

10.根据权利要求1所述的设备，其中，所述设备包括头戴式显示器、虚拟现实(VR)耳麦、增强现实(AR)耳麦和混合现实(MR)耳麦中的一者。

11.一种处理一个或多个音频流的方法，所述方法包括：

获得设备的当前位置；

基于所述多个音频流的所述子集来再现声场。

12.根据权利要求11所述的方法，其中，选择所述多个音频流的所述子集包括：

基于所述多个距离来选择所述多个音频流的所述子集。

13.根据权利要求12所述的方法，其中，选择所述多个音频流的所述子集包括：

将总距离确定为所述多个距离之和；

基于所述多个比率来选择所述多个音频流的所述子集。

14.根据权利要求13所述的方法，其中，选择所述多个音频流的所述子集包括：当所述多个比率中的一个比率超过门限时，将所述多个音频流中的对应的一个音频流指派给所述多个音频流的所述子集。

15.根据权利要求11所述的方法，其中，选择所述多个音频流的所述子集包括：

16.根据权利要求11所述的方法，

其中，所述当前位置是在第一时间处捕获的第一位置；

其中，所述方法还包括：

基于所述多个音频流的所述第二子集来再现所述声场。

17.根据权利要求11所述的方法，其中，选择所述多个音频流的所述子集包括：

基于所述多个角度位置来选择所述多个音频流的所述子集。

18.根据权利要求17所述的方法，其中，选择所述多个音频流的所述子集包括：

19.根据权利要求17所述的方法，其中，选择所述多个音频流的所述子集包括：

20.根据权利要求11所述的方法，其中，所述设备包括头戴式显示器、虚拟现实(VR)耳麦、增强现实(AR)耳麦和混合现实(MR)耳麦中的一者。

21.一种具有存储在其上的指令的计算机可读存储介质，所述指令在被执行时使得设备的一个或多个处理器进行以下操作：

获得所述设备的当前位置；

基于所述多个音频流的所述子集来再现声场。

22.一种被配置为处理一个或多个音频流的设备，所述设备包括：

用于获得设备的当前位置的单元；

用于获得多个捕获位置的单元，所述多个捕获位置中的每个捕获位置标识多个音频流中的相应的一个音频流被捕获的位置；

用于基于所述当前位置和所述多个捕获位置来选择所述多个音频流的子集的单元，所述多个音频流的所述子集具有与所述多个音频流相比更少的音频流；以及

用于基于所述多个音频流的所述子集来再现声场的单元。