CN116472725A

CN116472725A - 用于增强现实/虚拟现实音频的智能混合渲染

Info

Publication number: CN116472725A
Application number: CN202180078017.7A
Authority: CN
Inventors: S·G·斯瓦米纳坦; S·M·A·萨尔辛; N·G·彼得斯; I·G·穆诺茨
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2020-12-18
Filing date: 2021-12-16
Publication date: 2023-07-21
Also published as: KR20230119642A; WO2022133121A3; WO2022133121A2; US11601776B2; US20220201419A1; TW202232473A; EP4264965A2

Abstract

一种用于处理一个或多个音频流的示例设备包括：存储器，其被配置为存储一个或多个音频流；以及耦合到存储器的在电路中实现的一个或多个处理器。一个或多个处理器被配置为确定收听者位置。一个或多个处理器还被配置为确定一个或多个音频流的一个或多个集群。一个或多个处理器还被配置为基于收听者位置和一个或多个集群来确定渲染模式。所述设备还包括渲染器，其被配置为基于渲染模式来渲染音频流的一个或多个集群中的至少一个集群。

Description

用于增强现实/虚拟现实音频的智能混合渲染

本申请要求于2020年12月18日提交的美国专利申请No.17/127,051的优先权，上述申请的全部内容据此通过引用的方式并入本文中。

技术领域

本公开内容涉及对诸如音频数据之类的媒体数据的处理。

背景技术

正在开发计算机介导的现实系统，以允许计算设备对用户体验到的现有现实进行增强或添加、去除或减少、或通常进行修改。计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)可以包括例如虚拟现实(VR)系统、增强现实(AR)系统和混合现实(MR)系统。计算机介导的现实系统的感知成功通常与此类计算机介导的现实系统在视频和音频体验两者方面提供真实沉浸式体验(其中视频和音频体验以用户期望的方式对齐)的能力有关。尽管人类视觉系统比人类听觉系统更敏感(例如，在场景内的各种对象的感知定位方面)，但是确保充分的听觉体验是在确保真实的沉浸式体验方面越来越重要的因素，尤其是随着视频体验改善以允许更好地定位使得用户能够更好地识别音频内容的源的视频对象。

发明内容

概括而言，本公开内容涉及计算机介导的现实系统(包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统)的用户体验的听觉方面。所述技术的各个方面可以提供用于扩展现实系统的声学空间的自适应音频捕获和渲染。具体而言，本公开内容涉及用于在六自由度(6DoF)应用中使用的具有多个分布式流的渲染技术。

在一个示例中，所述技术的各个方面涉及一种被配置为处理一个或多个音频流的设备，所述设备包括：存储器，其被配置为存储所述一个或多个音频流；在耦合到所述存储器的电路中实现的一个或多个处理器，所述一个或多个处理器被配置为进行以下操作：确定收听者位置；确定所述一个或多个音频流的一个或多个集群；以及基于所述收听者位置和所述一个或多个集群来确定渲染模式；以及渲染器，其被配置为基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群。

在另一示例中，所述技术的各个方面涉及一种处理一个或多个音频流的方法，所述方法包括：确定收听者位置；确定所述一个或多个音频流的一个或多个集群；基于所述收听者位置和所述一个或多个集群来确定渲染模式；以及基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群。

在另一示例中，所述技术的各个方面涉及一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得一个或多个处理器进行以下操作：确定收听者位置；确定音频流的一个或多个集群；基于所述收听者位置和所述一个或多个集群来确定渲染模式；以及基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群。

在另一示例中，所述技术的各个方面涉及一种被配置为处理一个或多个音频流的设备，所述设备包括：用于确定收听者位置的单元；用于确定所述一个或多个音频流的一个或多个集群的单元；用于基于所述收听者位置和所述一个或多个集群来确定渲染模式的单元；以及用于基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群的单元。

在附图和以下说明书中阐述了本公开内容的一个或多个示例的细节。根据说明书和附图以及根据权利要求，所述技术的各个方面的其它特征、目的和优势将是显而易见的。

附图说明

图1A-1C是示出可以执行在本公开内容中描述的技术的各个方面的系统的示意图。

图2是示出由用户佩戴的VR设备的示例的示意图。

图3A和图3B是示出示例音频接收器位置的概念图。

图4A和图4B是示出根据本公开内容的技术的智能渲染的示例的概念图。

图5是示出根据本公开内容的技术的示例内容消费者设备的方框图。

图6是示出根据本公开内容的技术的示例渲染模式的概念图。

图7是示出根据本公开内容的示例k-均值聚类技术的概念图。

图8是示出根据本公开内容的示例Voronoi距离聚类技术的概念图。

图9是示出根据本公开内容的示例渲染器控制模式选择技术的概念图。

图10是示出根据本公开内容的技术的另一示例内容消费者设备的方框图。

图11是根据本公开内容的技术的内容消费者设备的另一示例的方框图。

图12是示出根据本公开内容的用于处理一个或多个音频流的示例技术的流程图。

图13是示出具有三个或更多个音频流的示例音乐会的概念图。

图14是示出可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备的示例的示意图。

图15A和图15B是示出可以执行在本公开内容中描述的技术的各个方面的其它示例系统的示意图。

图16是示出根据本公开内容的技术的源设备或内容消费者设备中的一者或多者的示例组件的方框图。

图17示出支持根据本公开内容的各方面的设备和方法的无线通信系统100的示例。

具体实施方式

为了提供针对XR系统的沉浸式音频体验，应当使用适当的音频渲染模式(或算法)。然而，渲染模式可能高度取决于音频接收器(本文中也被称为音频流)放置。在一些示例中，音频接收器放置可能不均匀地间隔。因此，可能难以确定将提供沉浸式音频体验的适当渲染模式。

根据本公开内容的技术，混合渲染技术可以用于通过基于收听者与适当集群或区域的接近度来动态地调整渲染模式，从而提供充分的沉浸感。通过本公开内容的技术，可以在不需要进一步处理的情况下提高渲染质量。本公开内容的技术可以特别适用于AR/VR，尤其是游戏引擎。

存在多种不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式指代5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到在收听者周围的特定位置以便重新创建声场的任何其它基于声道的格式。

基于对象的音频格式可以指代音频对象(通常使用脉冲编码调制(PCM)进行编码并且被称为PCM音频对象)被指定以表示声场的格式。此类音频对象可以包括标识音频对象相对于收听者或声场中的其它参考点的位置的信息(诸如元数据)，使得音频对象可以被渲染到用于回放的一个或多个扬声器声道，以努力重新创建声场。在本公开内容中描述的技术可以适用于上述格式中的任何格式，包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。

基于场景的音频格式可以包括以三个维度来定义声场的分级元素集合。分级元素集合的一个示例是球谐系数(SHC)集合。以下表达式展示了使用SHC的声场的描述或表示：

该表达式表明，在时间t处在声场的任何点处的压力p_i可以通过SHC/>唯一地表示。此处，/>c是声速(～343m/s)，/>是参考点(或观测点)，j_n(·)是阶数为n的球贝塞尔函数，并且/>是阶数为n和子阶数为m的球谐基函数(其也可以被称为球基函数)。可以认识到的是，方括号中的项是信号的频域表示(即，/>)，其可以通过各种时频变换来近似，诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分级集合的其它示例包括小波变换系数集合和多分辨率基函数的其它系数集合。

SHC可以在物理上通过各种麦克风阵列配置获取(例如，记录)，或者替代地，它们可以从声场的基于声道或基于对象的描述来推导。SHC(其也可以被称为全景声系数)表示基于场景的音频，其中SHC可以被输入到音频编码器中以获得可以促进更高效的传输或存储的经编码的SHC。例如，可以使用涉及(1+4)²(25，因此是四阶)系数的四阶表示。

如上所述，可以从来自使用麦克风阵列的麦克风记录来推导SHC。在以下文档中描述了可以如何在物理上从麦克风阵列获取SHC的各种示例：Poletti,M.，“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,”J.AudioEng.Soc.，第53卷，第11期，2005年11月，第1004-1025页。

以下等式可以说明可以如何从基于对象的描述来推导SHC。对与单个音频对象相对应的声场的系数可以被表达为：

其中，i是是阶数为n的(第二类的)球汉克尔函数，并且/>是对象的位置。知道作为频率的函数的对象源能量g(ω)(例如，使用时频分析技术，诸如对经脉冲编码调制的(PCM)流执行快速傅里叶变换)可以实现将每个PCM对象和对应位置转换为SHC此外，可以表明(因为上文是线性和正交分解)用于每个对象的/>系数是相加的。以这种方式，多个PCM对象可以通过/>系数来表示(例如，作为用于单个对象的系数向量的总和)。这些系数可以包含关于声场的信息(作为3D坐标的函数的压力)，并且上文表示在观察点/>附近从单个对象到整个声场的表示的变换。

正在开发计算机介导的现实系统(其也可以被称为“扩展现实系统”或“XR系统”)，以利用全景声系数所提供的许多潜在益处。例如，全景声系数可以以潜在地实现对声场内的音频源的准确三维(3D)定位的方式，以三个维度来表示声场。照此，XR设备可以将全景声系数渲染为扬声器馈送，扬声器馈送在经由一个或多个扬声器播放时准确地重现声场。

作为另一示例，可以转换(例如，旋转)全景声系数以考虑用户移动，而无需过度复杂的数学运算，从而潜在地适应XR的低延时要求。此外，音域系数是分级的，并且因此通过降阶(这可以消除与高阶相关联的全景声系数)自然地适应可伸缩性，并且因此潜在地实现声场的动态适配以适应XR设备的延时和/或电池要求。

将全景声系数用于XR可以实现对依赖于全景声系数所提供的更加沉浸式的声场的多个用例(特别是对于计算机游戏应用和实时视频流式传输应用)的开发。在这些依赖于声场的低延时重现的高度动态的用例中，XR设备可能更优选全景声系数(与更难以操纵或涉及复杂渲染的其它表示相比)。在下面关于图1A-1C提供了关于这些用例的更多信息。

尽管在本公开内容中关于VR设备进行了描述，但是可以在诸如移动设备之类的其它设备的背景下执行所述技术的各个方面。在这种情况下，移动设备(诸如所谓的智能电话)可以经由屏幕来呈现显示世界，该屏幕可以安装在用户的头部，或者将像通常使用移动设备时那样观看。照此，屏幕上的任何信息都可以是移动设备的一部分。移动设备可能能够提供跟踪信息，并且由此允许观看显示世界的VR体验(当安装在头部时)和正常体验两方面，其中，正常体验可以仍然允许用户观看证明是VR精简版类型的体验的显示世界(例如，举起设备并且旋转或平移设备以观看显示世界的不同部分)。此外，尽管在本公开内容的各个示例中提到了显示世界，但是本公开内容的技术也可以用于与显示世界不对应或不存在显示世界的声学空间。

图1A-1C是示出可以执行在本公开内容中描述的技术的各个方面的系统的示意图。如图1A的示例中所示，系统10包括源设备12A和内容消费者设备14A。虽然在源设备12A和内容消费者设备14A的背景下进行描述，但是这些技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流的任何背景下实现。此外，源设备12A可以表示能够生成声场的表示的任何形式的计算设备，并且在本文中通常在作为VR内容创建者设备的背景下进行描述。类似地，内容消费者设备14A可以表示能够实现在本公开内容中描述的渲染技术以及音频回放的任何形式的计算设备，并且通常在本文中作为VR客户端设备的背景下进行描述。

源设备12A可以由可以生成多声道音频内容以供内容消费者设备(诸如内容消费者设备14A)消费的娱乐公司或其它实体操作。在一些VR场景中，源设备12A结合视频内容来生成音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与麦克风18相连接或以其它方式进行通信。

麦克风18可以表示能够捕获声场并且将声场表示为音频数据19的或其它类型的3D音频麦克风，音频数据19可以指代上述基于场景的音频数据(诸如，全景声系数)、基于对象的音频数据和基于声道的音频数据中的一项或多项。尽管被描述为3D音频麦克风，但是麦克风18还可以表示被配置为捕获音频数据19的其它类型的麦克风(诸如全向麦克风、点式麦克风、单向麦克风等)。

在一些示例中，内容捕获设备20可以包括集成到内容捕获设备20的壳体中的集成麦克风18。内容捕获设备20可以无线地或经由有线连接与麦克风18对接。内容捕获设备20可以在经由某种类型的可移动存储装置(无线地和/或经由有线输入过程)输入音频数据19之后处理音频数据19，而不是经由麦克风18捕获音频数据19，或者与经由麦克风18捕获音频数据19相结合。照此，根据本公开内容，内容捕获设备20和麦克风18的各种组合是可能的。

内容捕获设备20还可以被配置为与内容编辑设备22相连接或以其它方式进行通信。在一些情况下，内容捕获设备20可以包括内容编辑设备22(在一些情况下，内容编辑设备22可以表示软件或软件和硬件的组合，包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑的软件)。内容编辑设备22可以表示被配置为编辑或以其它方式改变从内容捕获设备20接收的包括音频数据19的内容21的单元。内容编辑设备22可以将经编辑的内容23和相关联的音频信息25(诸如元数据)输出到声场表示生成器24。

声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)相连接的任何类型的硬件设备。尽管在图1A的示例中未示出，但是声场表示生成器24可以使用由内容编辑设备22提供的经编辑的内容23(包括音频数据19和音频信息25)来生成一个或多个比特流27。在聚焦于音频数据19的图1A的示例中，声场表示生成器24可以生成由音频数据19表示的相同声场的一个或多个表示，以获得包括经编辑的内容23和音频信息25的表示的比特流27。

例如，为了使用全景声系数(其同样是音频数据19的一个示例)来生成声场的不同表示，声场表示生成器24可以使用用于声场的全景声表示的译码方案，被称为混合阶全景声(MOA)，如在以下文档中更详细地讨论的：于2017年8月8日提交并且于2019年1月3日作为美国专利公开版本第20190007781号公开的、名称为“MIXED-ORDER AMBISONICS(MOA)AUDIODATA FOR COMPUTER-MEDIATED REALITY SYSTEMS”的第15/672,058号美国申请序列。

为了生成声场的特定MOA表示，声场表示生成器24可以生成完整的全景声系数集合的部分子集。例如，由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度，但是在其它区域中具有较低精度。在一个示例中，声场的MOA表示可以包括八(8)个未经压缩的全景声系数，而相同声场的三阶全景声表示可以包括十六(16)个未经压缩的全景声系数。照此，声场的作为全景声系数的部分子集而生成的每个MOA表示可以是不太存储密集型且不太带宽密集型的(如果并且当通过所示的传输信道作为比特流27的一部分发送时)(与相同声场的从全景声系数生成的对应的三阶全景声表示相比)。

尽管关于MOA表示进行了描述，但是本公开内容的技术也可以关于一阶全景声(FOA)表示来执行，其中，与一阶球基函数和零阶球基函数相关联的所有全景声系数用于表示声场。换句话说，声场表示生成器24可以使用给定阶数N的所有全景声系数来表示声场(导致全景声系数总共等于(N+1)²)，而不是使用全景声系数的部分非零子集来表示声场。

在这方面，全景声音频数据(其是指代MOA表示或者全阶表示(诸如上述一阶表示)中的全景声系数的另一种方式)可以包括与具有为一或更小的阶数的球基函数相关联的全景声系数(其可以被称为“一阶全景声音频数据”或“FoA音频数据”)、与具有混合阶和子阶的球基函数相关联的全景声系数(其可以被称为上文讨论的“MOA表示”)、或与具有大于一的阶数的球基函数相关联的全景声系数(其在上文被称为“全阶表示”)。

在一些示例中，声场表示生成器24可以表示被配置为压缩或以其它方式减少用于表示比特流27中的内容21的比特数量的音频编码器。尽管未示出，但是在一些示例中，声场表示生成器可以包括符合本文讨论的各种标准中的任何一种标准的心理声学音频编码设备。

在该示例中，声场表示生成器24可以将奇异值分解(SVD)应用于全景声系数以确定全景声系数的分解版本。全景声系数的分解版本可以包括以下各项中的一项或多项：主要音频信号、以及描述相关联的主要音频信号的空间特性(例如，方向、形状和宽度)的一个或多个对应的空间分量。照此，声场表示生成器24可以将分解应用于全景声系数，以将能量(由主要音频信号表示)与空间特性(由空间分量表示)解耦。

声场表示生成器24可以分析全景声系数的分解版本以识别各种参数，这些参数可以促进对全景声系数的分解版本进行重新排序。声场表示生成器24可以基于所识别的参数来对全景声系数的分解版本进行重新排序，其中，鉴于变换可以跨越全景声系数的帧来对全景声系数进行重新排序(其中，帧通常包括全景声系数的分解版本的M个样本，并且在一些示例中，M是)，因此这样的重新排序可以提高译码效率。

在对全景声系数的分解版本进行重新排序之后，声场表示生成器24可以选择全景声系数的分解版本中的一项或多项来表示声场的前景(或者换句话说，不同的、主要的或显著的)分量。声场表示生成器24可以指定表示前景分量(其也可以被称为“主要声音信号”、“主要音频信号”或“主要声音分量”)的全景声系数的分解版本以及相关联的方向信息(其也可以被称为“空间分量”，或在一些情况下被称为标识对应音频对象的空间特性的所谓的“V矢量”)。空间分量可以表示具有多个不同元素的矢量(就矢量而言，其可以被称为“系数”)，并且由此可以被称为“多维矢量”。

声场表示生成器24接下来可以关于全景声系数执行声场分析，以便至少部分地识别表示声场的一个或多个背景(或者换句话说，全景声)分量的全景声系数。背景分量也可以被称为“背景音频信号”或“全景声音频信号”。鉴于在一些示例中，背景音频信号可以仅包括全景声系数的任何给定样本的子集(例如，诸如对应于零阶和一阶球基函数的那些样本，而不是对应于二阶或更高阶球基函数的那些样本)，声场表示生成器24可以关于背景音频信号执行能量补偿。当执行降阶时，换句话说，声场表示生成器24可以增强全景声系数的剩余的背景全景声系数(例如，向其添加能量/从中减去能量)，以补偿由于执行降阶而导致的总能量的变化。

声场表示生成器24接下来可以关于前景方向信息执行一种形式的插值(这是指代空间分量的另一种方式)，并且然后关于经插值的前景方向信息执行降阶，以生成经降阶的前景方向信息。在一些示例中，声场表示生成器24还可以关于经降阶的前景方向信息执行量化，输出经译码的前景方向信息。在一些情况下，这种量化可以包括可能具有矢量量化的形式的标量/熵量化。声场表示生成器24然后可以将中间格式化的音频数据作为背景音频信号、前景音频信号和经量化的前景方向信息输出到心理声学音频编码设备(在一些示例中)。

在任何情况下，在一些示例中，背景音频信号和前景音频信号可以包括传输信道。也就是说，声场表示生成器24可以输出用于全景声音频系数的包括背景音频信号中的相应信号(例如，全景声系数中的一个全景声系数的对应于零阶或一阶球基函数的M个样本)的每个帧和用于前景音频信号的每个帧(例如，从全景声系数分解的音频对象的M个样本)的传输信道。声场表示生成器24还可以输出边信息(其也可以被称为“边带信息”)，其包括对应于前景音频信号中的每个前景音频信号的经量化的空间分量。

在图1A的示例中，传输信道和边信息可以共同表示为全景声传输格式(ATF)音频数据25(这是指代中间格式化的音频数据的另一种方式)。换句话说，AFT音频数据可以包括传输信道和边信息(其也可以被称为“元数据”)。作为一个示例，ATF音频数据可以符合HOA(高阶全景声)传输格式(HTF)。关于HTF的更多信息可以在欧洲电信标准协会(ETSI)的如下技术规范(TS)中找到：名称“Higher Order Ambisonics(HOA)Transport Format”，ETSI TS103 589V1.1.1，日期为2018年6月(2018-06)。照此，ATF音频数据可以被称为HTF音频数据。

在其中声场表示生成器24不包括心理声学音频编码设备的示例中，声场表示生成器24然后可以将ATF音频数据发送或以其它方式输出到心理声学音频编码设备(未示出)。心理声学音频编码设备可以关于ATF音频数据执行心理声学音频编码，以生成比特流27。心理声学音频编码设备可以根据标准化的、开源或专有音频译码过程来操作。例如，心理声学音频编码设备可以执行心理声学音频编码，(诸如由运动图像专家组(MPEG)提出的被表示为“USAC”的统一语音和音频译码器)、MPEG-H 3D音频译码标准、MPEG-I沉浸式音频标准或专有标准(诸如AptX^TM，其包括AptX的各种版本，诸如增强型AptX–E-AptX、AptX live、AptXstereo和AptX high definition–AptX-HD))、改进的音频译码(AAC)、音频编解码器3(AC-3)、苹果无损音频编解码器(ALAC)、MPEG-4音频无损流式传输(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey音频、MPEG-1音频层II(MP2)、MPEG-1音频层III(MP3)、Opus和Windows Media Audio(WMA)。源设备12然后可以经由传输信道将比特流27发送给内容消费者设备14。

在一些示例中，内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24无线地通信。在一些示例中，内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一者或两者来与声场表示生成器24进行通信。经由内容捕获设备20和声场表示生成器24之间的连接，内容捕获设备20可以提供各种形式的内容，出于讨论的目的，本文将其描述为音频数据19的部分。

在一些示例中，内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如，声场表示生成器24可以包括被配置为执行心理声学音频编码的专用硬件(或在执行时使得一个或多个处理器执行心理声学音频编码的专用软件)。

在一些示例中，内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件，而是以非心理声学音频译码形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地关于内容21的音频方面执行心理声学音频编码来协助对内容21的捕获。

声场表示生成器24还可以通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如，MOA表示和/或三阶全景声表示)来生成一个或多个比特流27，从而协助内容捕获和传输。比特流27可以表示音频数据19的经压缩的版本和任何其它不同类型的内容21(诸如球形视频数据、图像数据或文本数据的经压缩的版本)。

声场表示生成器24可以生成比特流27，以用于例如跨越传输信道(其可以是有线信道或无线信道)、数据存储设备等进行传输。比特流27可以表示音频数据19的经编码的版本，并且可以包括主要比特流和另一边比特流(其可以被称为边信道信息或元数据)。在一些情况下，表示音频数据19的经压缩的版本(其同样可以表示基于场景的音频数据、基于对象的音频数据、基于声道的音频数据或其组合)的比特流27可以符合根据MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准而产生的比特流。

内容消费者设备14A可以由个人操作，并且可以表示VR客户端设备。尽管关于VR客户端设备进行描述，但是内容消费者设备14A可以表示其它类型的设备，诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其它XR客户端设备)、标准计算机、耳麦、耳机、移动设备(包括所谓的智能电话)、或能够跟踪操作内容消费者设备14A的个人的头部移动和/或一般平移移动的任何其它设备。如图1A的示例中所示，内容消费者设备14A包括音频回放系统16A，其可以指代能够渲染音频数据以供回放为多声道音频内容的任何形式的音频回放系统。

尽管在图1A中被示为直接发送给内容消费者设备14A，但是源设备12A可以将比特流27输出到位于源设备12A与内容消费者设备14A之间的中间设备。中间设备可以存储比特流27，以便稍后递送给可以请求比特流27的内容消费者设备14A。中间设备可以包括文件服务器、网页服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供稍后由音频解码器检索的任何其它设备。中间设备可以存在于在能够将比特流27流式传输(并且可能结合发送对应的视频数据比特流)给请求比特流27的订户(诸如内容消费者设备14A)的内容递送网络中。

替代地，源设备12A可以将比特流27存储到存储介质，诸如光盘、数字视频光盘、高清视频光盘或其它存储介质，其中大多数能够被计算机读取，并且因此可以称为计算机可读存储介质或非暂时性计算机可读存储介质。在该背景下，传输信道可以指代通过其发送被存储到介质的内容(例如，以一个或多个比特流27的形式)的那些信道(并且可以包括零售商店和其它基于商店的递送机制)。在任何情况下，本公开内容的技术因此不应在这方面限于图1A的示例。

如上所提到的，内容消费者设备14A包括音频回放系统16A。音频回放系统16A可以表示能够回放多声道音频数据的任何系统。音频回放系统16A可以包括多个不同的渲染器32。渲染器32可以各自提供不同形式的渲染，其中不同形式的渲染可以包括执行基于矢量的幅度平移(VBAP)的各种方式中的一种或多种、和/或执行声场合成的各种方式中的一种或多种。如本文所使用的，“A和/或B”意指“A或B”或者“A和B”两者。

音频回放系统16A进一步可以包括音频解码设备34。音频解码设备34可以表示被配置为解码比特流27以输出音频数据19’的设备(其中，上标记法可以表示音频数据19’由于音频数据19的有损压缩(诸如量化)而不同于音频数据19)。同样，音频数据19’可以包括基于场景的音频数据(在一些示例中，该音频数据可以形成完整的一(或高)阶全景声表示或形成相同声场的MOA表示的其子集)、其分解(诸如主要音频信号、环境全景声系数)、以及在MPEG-H 3D音频译码标准中描述的基于矢量的信号、或其它形式的基于场景的音频数据。

其它形式的基于场景的音频数据包括根据HOA传输格式(HTF)定义的音频数据。如上所提到的，关于HTF的更多信息可以在欧洲电信标准协会(ETSI)的如下技术规范(TS)中找到：名称为“Higher Order Ambisonics(HOA)Transport Format”，ETSI TS 103589V1.1.1，日期为2018年6月(2018-06)；并且也可以在如下文档中找到：于2018年12月20日提交的、名称为“PRIORITY INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO DATA”的第2019/0918028号美国专利公开版本。在任何情况下，音频数据19’可以类似于音频数据19’的完整集合或部分子集，但是可以由于有损操作(例如，量化)和/或经由传输信道的传输而不同。

作为基于场景的音频数据的替代或者与基于场景的音频数据相结合，音频数据19’可以包括基于声道的音频数据。作为基于场景的音频数据的替代或者与基于场景的音频数据相结合，音频数据19’可以包括基于对象的音频数据。照此，音频数据19’可以包括基于场景的音频数据、基于对象的音频数据和基于声道的音频数据的任何组合。

可以在音频解码设备34解码比特流27以获得音频数据19’之后，音频回放系统16A的音频渲染器32可以渲染音频数据19’以输出扬声器馈送35。扬声器馈源35可以驱动一个或多个扬声器(为了便于说明的目的，在图1A的示例中未示出)。声场的各种音频表示(包括基于场景的音频数据(以及可能基于声道的音频数据和/或基于对象的音频数据)可以以多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)进行归一化。

为了选择适当的渲染器，或者在一些情况下生成适当的渲染器，音频回放系统16A可以获得指示扬声器(例如，扩音器或耳机扬声器)的数量和/或扬声器的空间几何结构的扬声器信息37。在一些情况下，音频回放系统16A可以使用参考麦克风并且按照动态地确定扬声器信息37的这种方式驱动扬声器(其可以指代使得换能器振动的电信号的输出)，从而获得扬声器信息37。在其它情况下，或者结合扬声器信息37的动态确定，音频回放系统16A可以向用户提示与音频回放系统16A相连接并且输入扬声器信息37。

音频回放系统16A可以基于扬声器信息37来选择音频渲染器32中的一者。在一些情况下，在没有任何音频渲染器32在与在扬声器信息37中指定的扬声器几何结构的某个门限相似性度量内(就扬声器几何结构而言)时，音频回放系统16A可以基于扬声器信息37来生成音频渲染器32中的一者。在一些情况下，音频回放系统16A可以基于扬声器信息37来生成音频渲染器32中的一者，而不首先尝试选择音频渲染器32中的现有一者。

当将扬声器馈送35输出到耳机时，音频回放系统16A可以使用渲染器32中的使用头部相关传递函数(HRTF)或能够渲染为左侧和右侧扬声器馈送35的其它函数来提供双耳渲染以用于耳机扬声器回放的一个渲染器32，诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指代任何扬声器，包括扩音器、耳机扬声器、骨传导扬声器、耳塞扬声器、无线耳机扬声器等。然后，一个或多个扬声器可以回放经渲染的扬声器馈送35以重现声场。

尽管被描述为从音频数据19’渲染扬声器馈送35，但是对扬声器馈送35的渲染的引用可以指代其它类型的渲染，诸如直接合并到从比特流27解码音频数据19中的渲染。可以在MPEG-H 3D音频标准的附录G中找到替代渲染的示例，其中，渲染发生在声场的合成之前的主要信号形成和背景信号形成期间。照此，对音频数据19’的渲染的引用应当被理解为指代对实际音频数据19’或对音频数据19’的分解或其表示两者(诸如上面提到的主要音频信号、环境全景声系数和/或基于矢量的信号(其也可以被称为V矢量或多维全景声空间矢量))的渲染。

音频回放系统16A还可以基于跟踪信息41来适配音频渲染器32。也就是说，音频回放系统16A可以与被配置为跟踪VR设备的用户的头部移动和可能的平移移动的跟踪设备40相连接。跟踪设备40可以表示一个或多个传感器(例如，相机(包括深度相机)、陀螺仪、磁强计、加速计、发光二极管(LED)等)，其被配置为跟踪VR设备的用户的头部移动和可能的平移移动。音频回放系统16A可以基于跟踪信息41来适配音频渲染器32，使得扬声器馈送35反映用户的头部移动和可能的平移移动的变化，以正确重现响应于这种移动的声场。

内容消费者设备14A可以表示被配置为处理一个或多个音频流的示例设备，该设备包括：被配置为存储一个或多个音频流的存储器；以及耦合到存储器的在电路中实现的一个或多个处理器，一个或多个处理器被配置为：确定收听者位置；确定一个或多个音频流的一个或多个集群；以及基于收听者位置和一个或多个集群来确定渲染模式；以及渲染器，其被配置为基于渲染模式来渲染一个或多个集群中的至少一个集群。

图1B是示出被配置为执行在本公开内容中描述的技术的各个方面的另一示例系统50的方框图。系统50类似在于图1A中所示的系统10，除了在图1A中所示的音频渲染器32被双耳渲染器42(在内容消费者设备14B的音频回放系统16B中)替换之外，其中双耳渲染器42能够使用一个或多个头部相关传递函数(HRTF)或能够渲染为左侧和右侧扬声器馈送43的其它函数来执行双耳渲染。

音频回放系统16B可以将左侧和右侧扬声器馈送43输出到耳机48，耳机48可以表示可穿戴设备的另一示例，并且可以耦合到额外的可穿戴设备以促进对声场的重现，诸如手表、上述VR耳麦、智能眼镜、智能服装、智能指环、智能手镯或任何其它类型的智能珠宝(包括智能项链)等。耳机48可以无线地或经由有线连接耦合到额外的可穿戴设备。

此外，耳机48可以经由有线连接(诸如标准的3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16B。耳机48可以基于左侧和右侧扬声器馈送43来重新创建由音频数据19’表示的声场。耳机48可以包括左侧耳机扬声器和右侧耳机扬声器，其由相应的左侧和右侧扬声器馈送43供电(或换句话说，驱动)。

内容消费者设备14B可以表示被配置为处理一个或多个音频流的示例设备，该设备包括：被配置为存储一个或多个音频流的存储器；以及耦合到存储器的在电路中实现的一个或多个处理器，一个或多个处理器被配置为：确定收听者位置；确定一个或多个音频流的一个或多个集群；以及基于收听者位置和一个或多个集群来确定渲染模式；以及渲染器，其被配置为基于渲染模式来渲染一个或多个集群中的至少一个集群。

图1C是示出另一示例系统60的方框图。示例系统60类似于图1A的示例系统10，但是系统60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。合成设备29可以由内容开发者用于生成合成音频流。合成音频流可以具有与其相关联的可以标识音频流相对于收听者或声场中的其它参考点的位置的位置信息，使得音频流可以被渲染到一个或多个扬声器声道以进行回放，以努力重新创建声场。在一些示例中，合成设备29还可以合成视觉或视频数据。

例如，内容开发者可以生成针对视频游戏的合成音频流。虽然图1C的示例是与图1A的示例的内容消费者设备14A一起示出的，但是图1C的示例的源设备12B可以与图1B的内容消费者设备14B一起使用。在一些示例中，图1C的源设备12B还可以包括内容捕获设备，使得比特流27可以包含所捕获的音频流和合成音频流两者。

如上所述，内容消费者设备14A或内容消费者设备14B(为了简单起见，下文可以将其任一者称为内容消费者设备14)可以表示其中人类可穿戴显示器(其也可以被称为“头戴显示器”)安装在操作VR设备的用户的眼睛前面的VR设备。图2是示出由用户402佩戴的VR设备400的示例的示意图。VR设备400耦合到或以其它方式包括耳机404，耳机404可以通过扬声器馈送35的回放来重现由音频数据19’表示的声场。扬声器馈送35可以表示能够使得耳机404的换能器内的膜以各种频率振动的模拟或数字信号，其中这样的过程通常被称为驱动耳机404。

视频、音频和其它感官数据可以在VR体验中发挥重要作用。为了参与VR体验，用户402可以佩戴VR设备400(其也可以被称为VR耳麦400)或其它可穿戴电子设备。VR客户端设备(诸如VR耳麦400)可以包括跟踪设备(例如，跟踪设备40)，其被配置为跟踪用户402的头部移动，并且适配经由VR耳麦400显示的视频数据以考虑头部移动，从而提供沉浸式体验，其中用户402可以在视觉三个维度中体验以视频数据所示的显示世界。显示世界可以指代虚拟世界(其中整个世界是模拟的)、增强世界(其中部分世界由虚拟对象增强)或物理世界(其中真实世界图像是虚拟地导航的)。

尽管VR(以及其它形式的AR和/或MR)可以允许用户402在视觉上驻留在虚拟世界中，但是通常VR耳麦400可能缺乏将用户以可听方式置于显示世界中的能力。换句话说，VR系统(其可以包括负责渲染视频数据和音频数据的计算机(为了便于说明的目的，在图2的示例中未示出该计算机)、以及VR耳麦400)可能无法以可听方式支持全三维沉浸感(并且在一些情况下，真实地以反映经由VR耳麦400呈现给用户的显示场景的方式)。

尽管在本公开内容中关于VR设备进行描述，但是本公开内容的技术的各个方面可以在其它设备(诸如移动设备)的背景下执行。在这种情况下，移动设备(诸如所谓的智能电话)可以经由显示器来呈现显示世界，显示器可以安装在用户402的头部，或者像在通常使用移动设备时那样观看。照此，屏幕上的任何信息都可以是移动设备的一部分。移动设备可能能够提供跟踪信息41，并且由此允许观看显示世界的VR体验(当安装在头部时)和正常体验两方面，其中，正常体验可以仍然允许用户观看证明是VR精简版类型的体验的显示世界(例如，举起设备并且旋转或平移设备以观看显示世界的不同部分)。

在任何情况下，返回到VR设备背景，VR的音频方面已经被分为三个独立的沉浸感类别。第一类别提供最低程度的沉浸感，并且被称为三自由度(3DOF)。3DOF指代如下的音频渲染：其考虑头部在三个自由度(偏航、俯仰和滚动)下的移动，由此允许用户在任何方向上自由地环视四周。然而，3DOF不能考虑其中头部没有以声场的光学和声学中心居中的平移头部移动。

除了由于头部远离声场内的光学中心和声学中心而导致的有限空间平移移动之外，第二类别(被称为3DOF plus(3DOF+))还提供了三个自由度(偏航、俯仰和滚动)。3DOF+可以提供对感知效果(诸如运动视差)的支持，这可以增强沉浸感。

第三类别(被称为六自由度(6DOF))以如下的方式渲染音频数据：该方式考虑头部移动的三个自由度(偏航、俯仰和滚动)，而且考虑用户在空间中的平移(x、y和z平移)。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器来感应。

3DOF渲染是用于VR的音频方面的最新技术。照此，与视频方面相比，VR的音频方面不太具有沉浸感，由此潜在地减少用户所体验的整体沉浸感。然而，VR正在迅速地过渡，并且可以快速地发展到支持3DOF+和6DOF两者，这可以为额外的用例开放机会。

例如，交互式游戏应用可以利用6DOF来促进完全沉浸式游戏，其中用户自己在VR世界中移动，并且可以通过走向虚拟对象来与虚拟对象进行交互。此外，交互式实时流式传输应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的实时流，如同自己置身于音乐会一样，从而允许用户在音乐会或体育赛事中移动。

存在与这些用例相关联的多个难题。在完全沉浸式游戏的情况下，延时可能需要保持低的，以使得玩游戏不会导致恶心或晕动症。此外，从音频的角度来看，导致与视频数据的同步丢失的音频回放中的延时可能减少沉浸感。此外，对于某些类型的游戏应用，空间准确性对于允许准确响应可能是重要的，包括关于用户感知声音的方式，因为这允许用户预期当前不在视野内的动作。

在实时流式传输应用的背景下，大量源设备12A或12B(为了简单起见，下文将其任一者称为源设备12)可以对内容21进行流式传输，其中，源设备12可以具有广泛不同的能力。例如，一个源设备可以是具有数字固定镜头相机和一个或多个麦克风的智能电话，而另一源设备可以是能够获得比智能电话高得多的分辨率和质量的视频的生产级电视装备。然而，在实时流式传输应用的背景下，所有源设备可以提供不同质量的流，VR设备可以尝试从中选择适当的流以提供预期体验。

如上所述，为了提供针对XR系统的沉浸式音频体验，应当使用适当的音频渲染模式。然而，渲染模式可能高度取决于音频接收器(本文也被称为音频流)放置。在一些示例中，音频接收器放置可能不均匀地间隔。因此，可能难以确定将提供沉浸式音频体验的适当渲染模式。根据本公开内容的技术，混合渲染技术可以用于通过基于收听者与适当集群或区域的接近度来动态地适配渲染模式，从而提供足够的沉浸感。

图3A和图3B是示出示例音频接收器位置的概念图。在图3A的示例中，音频接收器200A-200I被示为在收听者位置202附近。在该示例中，音频接收器200A-200I以规律的间隔放置。在图3B的示例中，音频接收器206A-206I被示为在收听者位置208附近。在该示例中，音频接收器206A-206I不是以规律的间隔放置的。相反，音频接收器206A-206I被不均匀地放置。在该示例中，可能难以确定可以为收听者提供沉浸式体验的渲染模式。

图4A和图4B是示出根据本公开内容的技术的智能渲染示例的概念图。在一些示例中，根据本公开内容的技术，内容消费者设备(诸如内容消费者设备14(例如，在图1A-1C的示例中所示的内容消费者设备14A或内容消费者设备14B之一))可以利用关于音频接收器放置的信息来执行混合或智能6DOF音频渲染。例如，内容消费者设备14可以使用接收器集群或组接近度来在不同渲染模式之间动态地切换。例如，在图4A中，示出了音频接收器210A-210F。收听者位于收听者位置212。内容消费者设备14可以渲染集群214中的音频接收器，而不渲染音频接收器210A或音频接收器210B。在图4B的示例中，音频接收器220A-220D被描绘为在集群中。收听者位于收听者位置222。内容消费者设备14可以基于集群224来渲染音频接收器220A-220D，如图所示。

图5是示出根据本公开内容的技术的示例内容消费者设备的方框图。内容消费者设备234可以是本文公开的任何内容消费者设备14的示例。例如，数量N个音频流，即音频流1 230A、音频流2 230B至音频流N 230N。这些音频流可以表示音频接收器。与音频流一起示出了元数据236。该元数据236包括关于音频流230A-230N的位置的信息。在一些示例中，元数据236可以被包括在音频流230A-230N中，而不是如图所示单独地提供。内容消费者设备234的一个或多个处理器可以应用基于接近度的聚类238，该集群可以基于音频流位置信息而应用于音频流230A-230N。内容消费者设备234的一个或多个处理器可以通过渲染器控制模式选择240来确定渲染器模式。例如，内容消费者设备234的一个或多个处理器可以接收对收听者位置232的指示，并且可以根据基于接近度的聚类238的输出和收听者位置232来确定要以其来渲染音频流230A-230N中的至少一个音频流的渲染模式。

在一些示例中，用户可以通过用户接口246输入用户可能期望的渲染模式，而不是由渲染器控制模式选择240确定的渲染模式。在一些示例中，内容消费者设备234的一个或多个处理器可以应用冷点开关(下文将进一步详细讨论的)来确定渲染模式。6DOF渲染引擎250可以从数量M个不同的渲染模式(诸如渲染模式1 252A、渲染模式2 252B到渲染模式M252M)中确定渲染模式。在一些示例中，6DOF渲染引擎250可以使用覆写控制图248来覆写所选择的模式。例如，用户可能希望控制渲染体验，并且可以覆写对渲染模式的自动选择。

图6是示出根据本公开内容的技术的示例渲染模式的概念图。例如，描绘了音频接收器的两个集群。第一集群264包含音频接收器260A-260D。音频接收器的第二集群274包含音频接收器270A-270D。在一些示例中，当位于收听者位置262的收听者朝着收听者位置272移动时，内容消费者设备234的一个或多个处理器可以捕捉到集群274，从而渲染集群274而不是集群264(或者在一些情况下，除了集群264之外)。换句话说，当收听者位于收听者位置262时，6DOF渲染引擎250可以渲染集群264内的音频接收器260A-260D。当收听者位于收听者位置272时，6DOF渲染引擎250可以渲染集群274内的音频接收器270A-270D。在一些示例中，当收听者位于集群264与集群274之间的重叠268的位置时，6DOF渲染引擎250可以渲染音频接收器260A-260D和音频接收器270A-270D两者。

在一些示例中，内容消费者设备234的一个或多个处理器可以在执行基于接近度的聚类时利用针对音频接收器之间的距离的预定义准则。在一些示例中，决策准则可以固定到集群，使得某些集群区域可以诸如通过捕捉来在接收器之间正好切换。在其它示例中，当在集群之间切换时，内容消费者设备234可以使用插值或交叉淡入淡出或其它高级渲染模式(当在接收器在区域内的接近度原本将不提供适当的沉浸感时)。关于捕捉的更多信息可以在以下文档中找到：于2020年7月1日提交的美国专利申请16/918,441，该美国专利申请要求享受于2020年7月3日提交的美国临时专利申请62/870,573和于2020年3月20日提交的美国临时专利申请62/992,635的优先权。

图7是示出根据本公开内容的示例k-均值聚类技术的概念图。k-均值算法是一种迭代聚类算法，其目的是在每次迭代中找到局部最大值。例如，内容消费者设备234的一个或多个处理器可以选择多个集群k。在该示例中，存在所描绘的直通集群，即集群280、集群282和集群284。内容消费者设备234的一个或多个处理器可以选择k个随机点作为质心。然后，内容消费者设备234的一个或多个处理器可以将所有点(例如，音频接收器)分配给最近的集群质心。内容消费者设备234的一个或多个处理器可以通过重新计算新形成的集群的质心来进行迭代。

图8是示出根据本公开内容的示例Voronoi距离聚类技术的概念图。例如，内容消费者设备234的一个或多个处理器可以将具有N个生成点(生成点290、292、294、296、298、330、332、334和336)的平面划分为凸多边形，使得每个多边形恰好包含一个生成点(例如，生成点290)，并且每个多边形中的每个点更接近于该多边形中的生成点(与任何其它生成点相比)。例如，如果将Voronoi区域认为通过从生成点展开一个圆来定义，则当两个相邻圆彼此接触时，多边形的边会出现。每个确定的多边形可以是单独的集群。

虽然已经公开了固定距离、k-均值聚类和Voronoi距离聚类的示例，但是可以使用其它聚类技术，并且仍然在本公开内容的范围内。例如，可以使用体积(三维)聚类。

图9是示出根据本公开内容的示例渲染器控制模式选择技术的概念图。描绘了音频接收器的两个集群，即集群340和集群342。当收听者位于集群340的非重叠区域中时，6DOF渲染引擎250可以渲染集群340内的音频接收器。当收听者位于集群342的非重叠区域中时，6DOF渲染引擎250可以渲染集群342内的音频接收器。当收听者位于集群340和集群342的重叠区域344中时，6DOF渲染引擎250可以渲染集群340和集群342两者中的音频接收器，或者可以在集群340的音频接收器和集群342的音频接收器之间进行插值或交叉淡入淡出。

在一些示例中，当收听者位于“冷点”(诸如在集群340和集群342两者外部的区域350)时，6DOF渲染引擎250可以不渲染任何音频接收器。如果启用冷点开关，6DOF渲染引擎250可以渲染音频接收器。例如，当收听者位于冷点(诸如区域350)时，6DOF音频渲染器可以渲染最近集群的一个或多个音频接收器。例如，如果收听者位于区域350中，则6DOF音频渲染器可以渲染集群340的音频接收器。在一些示例中，当收听者位于一个以上的集群附近的冷点(诸如在区域346或区域348中)并且冷点开关被启用时，6DOF渲染引擎250可以渲染集群340和集群342两者中的音频接收器，或者可以在集群340的音频接收器和集群342的音频接收器之间进行插值或交叉淡入淡出。

例如，一旦完成基于接近度的聚类，内容消费者设备的一个或多个处理器可以生成包含适当渲染模式的渲染器控制图。当在不同模式之间进行切换时(诸如当集群重叠(例如，重叠区域344)时)，可以存在滚降(例如，插值或交叉淡入淡出)。滚降准则也可以用于填充冷点，诸如区域346和区域348。

在一些示例中，内容消费者设备234可以播放评论，诸如“您正在退出音频体验”或“您已经进入冷点。请移回体验您的音频”，而不是在收听者位于诸如区域350之类的冷点时不渲染任何内容。在一些示例中，当收听者位于冷点时，内容消费者设备234可以播放静态音频。在一些示例中，可以设置内容消费者设备234上的开关(无论是物理的还是虚拟的(诸如在触摸屏上))或比特流27中的标志，以向内容消费者设备234通知是否填充冷点或如何填充冷点。在一些示例中，冷点开关可以利用单个比特(例如，1或0)来启用或禁用。

返回到图5，渲染器控制模式选择可以生成渲染器控制图。6DOF渲染引擎可以基于所生成的渲染器控制图来执行模式切换。在一些示例中，在混合渲染不期望或不可行的情况下，则渲染控制图可以仅包含一种模式。然而，当收听者移动到不同的位置时，渲染控制图可以在运行时更新或刷新并且重新生成，以改变渲染模式。在一些示例中，用户接口246(在一些示例中，其包括冷点开关242)可以促进收听者取消选择由内容消费者设备234选择的给定渲染模式，并且替代地选择期望模式。

图10是示出根据本公开技术的另一示例内容消费者设备的方框图。内容消费者设备354类似于图5的内容消费者设备234，然而，内容消费者设备354(例如，从比特流27)接收音频类型的元数据，并且内容消费者设备354的一个或多个处理器进一步使得渲染器控制图或渲染器模式的选择基于音频类型的元数据。例如，渲染模式可以高度取决于音频流中的数据类型以及音频流的位置。例如，一些音频接收器可以仅包含环境数据或环境嵌入(例如，仅包含没有定向音频源的环境的音频数据)。在这样的情况下，可以使用不同的渲染器。在其它示例中，音频流可以一起包括定向音频和环境音频两者。在其它示例中，可以存在音频对象，并且来自不同音频接收器的全景声流可以仅包括环境音频。在其它示例中，诸如“室内”、“室外”、“水下”、“合成”等的情境场景也可能导致选择不同的渲染模式。对于这些示例中的每个示例，对渲染模式的选择可以基于音频流的内容的类型。

本公开内容的技术也适用于对场景图的使用。例如，这些技术可以适用于正在或将要植入使用语义路径树的XR框架的场景图。例如：OpenSceneGraph或OpenXR。在这样的情况下，在聚类过程中可以考虑场景图层次和接近度两者(请参见下一页上的示意图)。内容消费者设备可以使用不同的声学环境(例如房间)来辅助、驱动或指导聚类过程。

图11是根据本公开技术的内容消费者设备的另一示例的方框图。内容消费者设备364类似于图10的内容消费者设备354和图5的内容消费者设备234，除了内容消费者设备364被配置为使用场景图之外。

例如，来自场景房间A中的四个音频接收器的音频流被描绘为场景房间A音频1360A、场景房间A音频2 360B、场景房间A音频3 360C和场景房间A音频4 360D。此外，来自场景房间B(其可以不同于场景房间A)中的四个音频接收器的音频流被描绘为场景房间B音频1 362A、场景房间B音频2 362B、场景房间B音频3 362C和场景房间B音频4 362D。内容消费者设备364的一个或多个处理器可以执行接近度确定366，诸如确定场景房间A中的每个音频接收器和场景房间B中的每个音频接收器的位置。

与场景房间A和场景房间B相关联的声学房间环境368(诸如音乐厅、教室、运动场)、以及场景房间A音频数据和场景房间B音频数据以及接近度确定信息可以通过聚类370来接收。内容消费者设备的一个或多个处理器可以基于与场景房间A和场景房间B相关联的场景图、声学房间环境368和接近度确定366来执行聚类。渲染器控制模式选择240可以如关于图5的内容消费者设备234描述地执行。

图12是示出根据本公开内容的处理一个或多个音频流的示例技术的流程图。内容消费者设备14可以确定收听者位置(380)。例如，内容消费者设备14可以从跟踪设备40接收收听者位置。内容消费者设备14可以确定一个或多个音频流的一个或多个集群(382)。例如，内容消费者设备14可以基于相应的区域或相应的场景地图来确定一个或多个集群。在一些示例中，内容消费者设备14可以基于相应区域来确定一个或多个集群，并且可以基于音频流之间的预定义距离、k-均值聚类、Voronoi距离聚类或体积聚类来确定相应区域。在一些示例中，内容消费者设备14可以基于相应的场景地图并且进一步基于声学环境来确定一个或多个集群。

内容消费者设备14可以基于收听者位置和一个或多个集群来确定渲染模式(384)。例如，如果收听者位置在第一集群而不是第二集群中，则内容消费者设备14可以基于第一集群来确定渲染模式。例如，如果收听者位置在第二集群而不是第一集群中，则内容消费者设备14可以基于第二集群来确定渲染模式。例如，如果收听者位置在第一集群和第二集群两者中，则内容消费者设备14可以基于第一集群和第二集群两者来确定渲染模式。例如，如果收听者位置在所有集群外部，则内容消费者设备可以基于收听者在所有集群外部来确定渲染模式。

内容消费者设备14可以基于渲染模式来渲染一个或多个集群中的至少一个集群(386)。例如，内容消费者设备可以使用所确定的渲染模式来渲染一个或多个集群中的至少一个集群。

在一些示例中，渲染模式是第一渲染模式，并且收听者位置是第一收听者位置，并且音频流的一个或多个集群是音频流的第一集群。在一些示例中，内容消费者设备14可以基于收听者移动到音频流的第二集群中的第二收听者位置来确定第二渲染模式，并且基于第二模式来渲染音频流的第二集群。在一些示例中，第二收听者位置在第一集群和第二集群中，并且内容消费者设备14基于加权来渲染第一集群和第二集群两者。在一些示例中，加权是基于第二收听者位置与第一集群和第二集群中的每个集群的边缘或中心之间的相对距离的。例如，如果收听者位置距第一集群的中心是收听者位置距第二集群的中心的一半，则内容消费者设备14可以将第一集群加权为第二集群的两倍。在一些示例中，基于收听者移动到第一集群外部的第二收听者位置但未进入第二集群中来确定第二渲染模式，内容消费者设备14可以基于第二渲染模式来渲染静态音频、音乐或评论。在一些示例中，基于收听者移动到第一集群外部的第二收听者位置但未进入第二集群中，并且进一步基于冷点开关被启用，内容消费者设备14可以确定第二渲染模式，并且基于第二模式来渲染到收听者位置的至少一个最近的音频流集群。

在一些示例中，内容消费者设备14包括用户接口(诸如用户接口246)，并且用户接口被配置为从收听者接收用于覆写渲染模式的请求，并且内容消费者设备14被配置为覆写渲染模式。在一些示例中，内容消费者设备14被配置为确定渲染控制图并且基于渲染控制图来确定渲染模式。

图13是示出具有三个或更多个音频流的示例音乐会的概念图。在图13的示例中，多个音乐家被描绘为在舞台323上。歌手312位于麦克风310A后面。弦乐部分314被描绘为在麦克风310B后面。鼓手316被描绘在麦克风310C后面。其它音乐家318被描绘为在麦克风310D后面。麦克风310A-301D可以捕获与由麦克风接收的声音相对应的音频流。在一些示例中，麦克风310A-310D可以表示合成音频流。例如，麦克风310A可以捕获主要与歌手312相关联的音频流，但是音频流还可能包括由其它乐队成员(诸如弦乐部分314、鼓手316或其它音乐家318)产生的声音，而麦克风310B可以捕获主要与弦乐部分314相关联的音频流，但包括由其它乐队成员产生的声音。以这种方式，麦克风310A-310D中的每一者可以捕获不同的音频流。

还描绘了多个设备。这些设备表示位于多个不同期望收听位置的用户设备。耳机320位于麦克风310A附近，但是位于麦克风310A与麦克风310B之间。因此，根据本公开内容的技术，内容消费者设备14可以选择音频流中的至少一个音频流，以产生针对耳机320的用户的音频体验，类似于用户位于在图13中耳机320所位于的位置。类似地，VR护目镜322被示为位于麦克风310C后面并且位于鼓手316与其它音乐家318之间。内容消费者设备可以选择至少一个音频流来产生针对VR护目镜322的用户的音频体验，类似于用户位于在图13中VR护目镜322所位于的位置。

智能眼镜324被示为位于麦克风310A、310C和310D之间的相当中心位置。内容消费者设备可以选择至少一个音频流来产生针对智能眼镜324的用户的音频体验，类似于用户位于在图13中智能眼镜324所位于的位置。此外，设备326(其可以表示能够实现本公开内容的技术的任何设备，诸如移动手持机、扬声器阵列、耳机、VR护目镜、智能眼镜等)被示为位于麦克风310B的前面。内容消费者设备14可以选择至少一个音频流来产生针对设备326的用户的音频体验，类似于用户位于在图13中设备325所位于的位置。虽然关于特定位置讨论了特定设备，但是所描绘的任何设备的使用可以提供对与在图13中描绘的不同的期望收听位置的指示。图13的任何设备可以用于实现本公开内容的技术。

图14是示出可以根据在本公开内容中描述的技术的各个方面进行操作的可穿戴设备500的示例的示意图。在各个示例中，可穿戴设备500可以表示VR耳麦(诸如上述VR耳麦400)、AR耳麦、MR耳麦或任何其它类型的扩展现实(XR)耳麦。增强现实“AR”可以指代覆盖在用户实际所位于的真实世界之上的计算机渲染的图像或数据。混合现实“MR”可以指代被锁定在真实世界中的特定位置的计算机渲染的图像或数据，或者可以指代VR上的变型，其中部分计算机渲染的3D元素和部分拍摄的真实元素被组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的笼统术语。关于用于XR的术语的更多信息可以在以下文档中找到：Jason Peterson，名称为“Virtual Reality,AugmentedReality,and Mixed Reality Definitions”并且日期为2017年7月7日。

可穿戴设备500可以表示其它类型的设备，诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、耳机(包括所谓的“无线耳机”和“智能耳机”)、智能服装、智能珠宝等。无论是表示VR设备、手表、眼镜和/或耳机，可穿戴设备500都可以经由有线连接或无线连接来与支持可穿戴设备500的计算设备进行通信。

在一些情况下，支持可穿戴设备500的计算设备可以被集成在可穿戴设备500内，并且照此，可穿戴设备500可以被认为是与支持可穿戴设备500的计算设备相同的设备。在其它情况下，可穿戴设备500可以与可以支持可穿戴设备500的单独的计算设备进行通信。在这方面，术语“支持”不应当被理解为需要单独的专用设备，但是被配置为执行在本公开内容中描述的技术的各个方面的一个或多个处理器可以被集成在可穿戴设备500内，或者集成在与可穿戴设备500分离的计算设备内。

例如，当可穿戴设备500表示VR设备400时，单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视频内容，而可穿戴设备500可以根据在本公开内容中描述的技术的各个方面，确定平移头部移动，其中基于平移头部移动，专用计算设备可以渲染音频内容(作为扬声器馈送)。作为另一示例，当可穿戴设备500表示智能眼镜时，可穿戴设备500可以包括一个或多个处理器，其既确定平移头部移动(通过在可穿戴设备500的一个或多个传感器内相连接)，又基于所确定的平移头部移动来渲染扬声器馈送。

如图所示，可穿戴设备500包括一个或多个定向扬声器、以及一个或多个跟踪和/或记录相机。此外，可穿戴设备500包括一个或多个惯性、触觉和/或健康传感器、一个或多个眼球跟踪相机、一个或多个高灵敏度音频麦克风以及光学/投影硬件。可穿戴设备500的光学/投影硬件可以包括耐用的半透明显示技术和硬件。

可穿戴设备500还包括连接硬件，其可以表示支持多模式连接的一个或多个网络接口，诸如4G通信、5G通信、蓝牙、Wi-Fi等。可穿戴设备500还包括一个或多个环境光传感器和骨传导换能器。在一些情况下，可穿戴设备500还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个被动和/或主动相机。尽管在图13中未示出，但是可穿戴设备500还可以包括一个或多个发光二极管(LED)灯。在一些示例中，LED灯可以被称为“超亮”LED灯。在一些实现方式中，可穿戴设备500还可以包括一个或多个后置相机。将领会的是，可穿戴设备500可以表现为各种不同的形状因子。

此外，跟踪和记录相机以及其它传感器可以促进确定平移距离。尽管在图13的示例中未示出，但是可穿戴设备500可以包括用于检测平移距离的其它类型的传感器。

尽管关于可穿戴设备的特定示例(诸如上文针对图14的示例讨论的VR设备400以及在图1A-1C和图2的示例中阐述的其它设备)进行描述，但是本领域普通技术人员将领会与图1A-1C、图2和图14相关的描述可以适用于可穿戴设备的其它示例。例如，其它可穿戴设备(诸如智能眼镜)可以包括通过其获得平移头部移动的传感器。作为另一示例，其它可穿戴设备(诸如智能手表)可以包括通过其获得平移移动的传感器。照此，在本公开内容中描述的技术不应当受限于特定类型的可穿戴设备，但是任何可穿戴设备可以被配置为执行在本公开内容中描述的技术。

图15A和图15B是示出可以执行在本公开内容中描述的技术的各个方面的示例系统的示意图。图15A示出其中源设备12C还包括相机600的示例。相机600可以被配置为捕获视频数据，并且将所捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20C可以将视频数据提供给源设备12C的另一组件，以便进一步处理为经视口划分的部分。

在图15A的示例中，内容消费者设备14C还包括可穿戴设备410。将理解的是，在各种实现方式中，可穿戴设备410可以被包括在内容消费者设备14中，或者在外部耦合到内容消费者设备14。可穿戴设备410包括用于输出视频数据(例如，与各种视口相关联的)和用于渲染音频数据的显示硬件和扬声器硬件。

图15B示出其中内容消费者设备14D将在图15A中所示的音频渲染器32替换为双耳渲染器42的示例，双耳渲染器42能够使用一个或多个HRTF来执行双耳渲染、或者能够渲染为左侧和右侧扬声器馈送43的其它功能。音频回放系统16C可以将左侧和右侧扬声器馈送43输出到耳机44。

耳机44可以经由有线连接(诸如标准3.5mm音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙^TM连接、无线网络连接等)耦合到音频回放系统16C。耳机44可以基于左侧和右侧扬声器馈送43来重现由音频数据19’表示的声场。耳机44可以包括左侧耳机扬声器和右侧耳机扬声器，其由相应的左侧和右侧扬声器馈送43供电(或换句话说，驱动)。

图16是示出根据本公开技术的源设备或内容消费者设备中的一者或多者的示例组件的方框图。图16的设备710可以是本公开内容的源设备12或内容消费者设备14中的任何一者的示例。在图16的示例中，设备710包括处理器712(其可以被称为“一个或多个处理器”或“处理器”)、图形处理单元(GPU)714、系统存储器716、显示处理器718、一个或多个集成扬声器740、显示器703、用户接口720、天线721和收发机模块722。在设备710是移动设备的示例中，显示处理器718是移动显示处理器(MDP)。在一些示例(诸如设备710是移动设备的示例)中，处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。

例如，IC可以被认为是芯片封装内的处理芯片，并且可以是片上系统(SoC)。在一些示例中，处理器712、GPU 714和显示处理器718中的两者可以一起容纳在同一IC中，而另一者可以容纳在不同的集成电路(即，不同的芯片封装)中，或者所有三者可以容纳在不同的IC中或在同一IC上。然而，在其中设备710是移动设备的示例中，处理器712、GPU 714和显示处理器718有可能全部容纳在不同的集成电路中。

处理器712、GPU 714和显示处理器718的示例包括但不受限于一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或分立逻辑电路。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中，GPU 714可以是包括集成和/或分立逻辑电路的专用硬件，该集成和/或分立逻辑电路为GPU 714提供适于图形处理的大规模并行处理能力。在一些情况下，GPU 714还可以包括通用处理能力，并且在实现通用处理任务(即，非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718还可以是专用集成电路硬件，其被设计为从系统存储器716检索图像内容，将图像内容组成为图像帧，并且将图像帧输出到显示器703。

处理器712可以执行各种类型的应用。应用的示例包括网页浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其它应用、或者上面更详细地列出的任何应用类型。系统存储器716可以存储用于执行应用的指令。在处理器712上执行应用之一使得处理器712产生用于要显示的图像内容的图形数据和要播放(可能经由集成扬声器740)的音频数据19。处理器712可以将图像内容的图形数据发送给GPU 714，以用于基于处理器712发送给GPU 714的指令或命令进行进一步处理。

处理器712可以根据特定应用处理接口(API)来与GPU 714进行通信。此类API的示例包括的/>API、Khronos group的/>或OpenGL />以及OpenCL^TM；然而，本公开内容的各方面不受限于DirectX、OpenGL或OpenCL API，并且可以扩展到其它类型的API。此外，在本公开内容中描述的技术不需要根据API来运行，并且处理器712和GPU714可以利用任何过程进行通信。

系统存储器716可以是用于设备710的存储器。系统存储器716可以包括一个或多个计算机可读存储介质。系统存储器716的示例包括但不受限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存、或可以用于以指令和/或数据结构的形式携带或存储期望程序代码并可以由计算机或处理器访问的其它介质。

在一些示例中，系统存储器716可以包括使得处理器712、GPU 714和/或显示处理器718执行在本公开内容中赋予处理器712、GPU 714和/或显示处理器718的功能的指令。因此，系统存储器716可以是具有存储在其上的指令的计算机可读存储介质，所述指令在被执行时使得一个或多个处理器(例如，处理器712、GPU 714和/或显示处理器718)执行各种功能。

系统存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而，术语“非暂时性”不应当被解释为意味着系统存储器716是不可移动的或其内容是静态的。作为一个示例，系统存储器716可以从设备710移除并且移到另一设备。作为另一示例，基本上类似于系统存储器716的存储器可以被插入到设备710中。在某些示例中，非暂时性存储介质可以存储随着时间变化的数据(例如，在RAM中)。

用户接口720可以表示一个或多个硬件或虚拟(意指硬件和软件的组合)用户接口，用户可以通过用户接口与设备710相连接。用户接口720可以包括物理按钮、开关、切换键、灯或其虚拟版本。用户接口720还可以包括物理或虚拟键盘、触摸界面(诸如触摸屏、触觉反馈等)。

处理器712可以包括一个或多个硬件单元(包括所谓的“处理内核”)，其被配置为执行上文关于内容创建者设备和/或内容消费者设备的模块、单元或其它功能组件中的一者或多者讨论的全部或一些操作。天线721和收发机模块722可以表示被配置为建立和维护源设备12和内容消费者设备14之间的连接的单元。天线721和收发机模块722可以表示一个或多个接收机和/或一个或多个发射机，其能够根据一种或多种无线通信协议(诸如第五代(5G)蜂窝标准、Wi-Fi、个域网(PAN)协议(诸如蓝牙^TM)、或其它开源、专有或其它通信标准)进行无线通信。例如，收发机模块722可以接收和/或发送无线信号。收发机模块722可以表示单独的发射机、单独的接收机、单独的发射机和单独的接收机两者、或者经组合的发射机和接收机。天线721和收发机模块722可以被配置为接收经编码的音频数据。类似地，天线721和收发机模块722可以被配置为发送经编码的音频数据。

图17示出支持根据本公开内容的各方面的设备和方法的无线通信系统100的示例。无线通信系统100包括基站105、UE 115以及核心网130。在一些示例中，无线通信系统100可以是长期演进(LTE)网络、改进的LTE(LTE-A)网络、LTE-A Pro网络、第5代(5G)蜂窝网络或新无线电(NR)网络。在一些情况下，无线通信系统100可以支持增强型宽带通信、超可靠(例如，任务关键)通信、低延时通信或者与低成本且低复杂度设备的通信。

基站105可以经由一个或多个基站天线与UE 115无线地进行通信。本文描述的基站105可以包括或可以被本领域技术人员称为基站收发机、无线基站、接入点、无线收发机、节点B、演进型节点B(eNB)、下一代节点B或千兆节点B(任一项可以被称为gNB)、家庭节点B、家庭演进型节点B、或某种其它适当的术语。无线通信系统100可以包括不同类型的基站105(例如，宏小区基站或小型小区基站)。本文描述的UE 115可能能够与各种类型的基站105和网络设备(包括宏eNB、小型小区eNB、gNB、中继基站等)进行通信。

每个基站105可以与在其中支持与各个UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖，并且在基站105和UE 115之间的通信链路125可以利用一个或多个载波。在无线通信系统100中示出的通信链路125可以包括：从UE 115到基站105的上行链路传输、或者从基站105到UE 115的下行链路传输。下行链路传输还可以被称为前向链路传输，而上行链路传输还可以被称为反向链路传输。

可以将针对基站105的地理覆盖区域110划分为扇区，所述扇区构成地理覆盖区域110的一部分，并且每个扇区可以与小区相关联。例如，每个基站105可以提供针对宏小区、小型小区、热点、或其它类型的小区、或其各种组合的通信覆盖。在一些示例中，基站105可以是可移动的，并且因此，提供针对移动的地理覆盖区域110的通信覆盖。在一些示例中，与不同的技术相关联的不同的地理覆盖区域110可以重叠，并且与不同的技术相关联的重叠的地理覆盖区域110可以由相同的基站105或不同的基站105来支持。无线通信系统100可以包括例如异构LTE/LTE-A/LTE-A Pro、5G蜂窝或NR网络，其中不同类型的基站105提供针对各个地理覆盖区域110的覆盖。

UE 115可以散布于整个无线通信系统100中，并且每个UE 115可以是静止的或移动的。UE 115还可以被称为移动设备、无线设备、远程设备、手持设备、或用户设备、或某种其它适当的术语，其中，“设备”还可以被称为单元、站、终端或客户端。UE 115还可以是个人电子设备，例如，蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开内容的示例中，UE 115可以是在本公开内容中描述的音频源中的任何音频源，包括VR耳麦、XR耳麦、AR耳麦、车辆、智能电话、麦克风、麦克风阵列或包括麦克风的任何其它设备，或者能够发送捕获的和/或合成的音频流。在一些示例中，合成的音频流可以是被存储在存储器中或先前创建或合成的音频流。在一些示例中，UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物互联网(IoE)设备或MTC设备等，其可以是在诸如家用电器、车辆、仪表等的各种物品中实现的。

一些UE 115(诸如MTC或IoT设备)可以是低成本或低复杂度设备，并且可以提供在机器之间的自动化通信(例如，经由机器到机器(M2M)通信)。M2M通信或MTC可以指代允许设备在没有人为干预的情况下与彼此或基站105进行通信的数据通信技术。在一些示例中，M2M通信或MTC可以包括来自交换和/或使用音频信息(诸如元数据)的设备的通信，这些音频信息指示隐私限制和/或基于密码的隐私数据，以切换、屏蔽各种音频流和/或音频源和/或使各种音频流和/或音频源为空，如下文将更详细地描述的。

在一些情况下，UE 115还能够与其它UE 115直接进行通信(例如，使用对等(P2P)或设备到设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个UE 115可以在基站105的地理覆盖区域110内。这样的组中的其它UE 115可以在基站105的地理覆盖区域110之外，或者不能以其它方式从基站105接收传输。在一些情况下，经由D2D通信来进行通信的多组UE 115可以利用一到多(1:M)系统，其中，每个UE 115向该组中的每个其它UE 115进行发送。在一些情况下，基站105促进对用于D2D通信的资源的调度。在其它情况下，D2D通信是在UE 115之间执行的，而不涉及基站105。

基站105可以与核心网130进行通信以及彼此进行通信。例如，基站105可以通过回程链路132(例如，经由S1、N2、N3或其它接口)与核心网130相连接。基站105可以在回程链路134上(例如，经由X2、Xn或其它接口)上直接地(例如，直接在基站105之间)或者间接地(例如，经由核心网130)彼此进行通信。

在一些情况下，无线通信系统100可以利用经许可和非许可射频频谱带两者。例如，无线通信系统100可以采用非许可频带(例如，5GHz ISM频带)中的许可辅助接入(LAA)、LTE非许可(LTE-U)无线接入技术、5G蜂窝技术、或NR技术。当在非许可射频频谱带中操作时，无线设备(诸如基站105和UE 115)可以在发送数据之前采用先听后说(LBT)过程来确保频率信道是空闲的。在一些情况下，非许可频带中的操作可以基于结合在经许可频带(例如，LAA)中操作的分量载波的载波聚合配置。非许可频谱中的操作可以包括下行链路传输、上行链路传输、对等传输或这些项的组合。非许可频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或这两者的组合。

应认识到的是，取决于示例，本文描述的任何技术的某些动作或事件可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的动作或事件是对于实施所述技术都是必要的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中，VR设备(或流式传输设备)可以使用耦合到VR/流式传输设备的存储器的网络接口来与外部设备传送交换消息，其中交换消息与声场的多个可用表示相关联。在一些示例中，VR设备可以使用耦合到网络接口的天线来接收包括数据分组、音频分组、视频分组或与声场的多个可用表示相关联的传输协议数据的无线信号。在一些示例中，一个或多个麦克风阵列可以捕获声场。

在一些示例中，被存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶全景声表示、声场的混合阶全景声表示、声场的基于对象的表示与声场的高阶全景声表示的组合、声场的基于对象的表示与声场的混合阶全景声表示的组合、或声场的混合阶表示与声场的高阶全景声表示的组合。

在一些示例中，声场的多个可用表示中的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个低分辨率区域，并且其中，基于转向角所选择的呈现提供关于至少一个高分辨率区域的较高空间精度以及关于低分辨率区域的较小空间精度。

在一个或多个示例中，所描述的功能可以用硬件、软件、固件或其任何组合来实现。如果用软件来实现，则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过其进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质之类的有形介质或者通信介质，所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取得用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。

通过举例而非限制性的方式，这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构形式存储期望的程序代码以及能够由计算机访问的任何其它介质。此外，任何连接被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(例如，红外线、无线电和微波)从网站、服务器或其它远程源传输指令，则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(例如，红外线、无线电和微波)被包括在介质的定义中。然而，应当理解的是，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质，而是替代地针对非暂时性的有形存储介质。如本文所使用的，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则利用激光来光学地复制数据。上述各项的组合也应当被包括在计算机可读介质的范围之内。

指令可以由一个或多个处理器来执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或分立逻辑电路。因此，如本文所使用的术语“处理器”可以指代前述结构中的任何一者或者适于实现本文描述的技术的任何其它结构。另外，在一些方面中，本文描述的功能可以在被配置用于编码和解码的专用硬件和/或软件模块内提供，或者被并入经组合的编解码器中。此外，所述技术可以完全在一个或多个电路或逻辑元件中实现。

本公开内容的技术可以在多种多样的设备或装置中实现，包括无线手机、集成电路(IC)或一组IC(例如，芯片组)。在本公开内容中描述了各种组件、模块或单元以强调被配置以执行所公开的技术的设备的功能性方面，但是不一定需要通过不同的硬件单元来实现。确切而言，如上所述，各种单元可以被组合在编解码器硬件单元中，或者由可互操作的硬件单元的集合(包括如上所述的一个或多个处理器)结合适当的软件和/或固件来提供。

已经描述了各个示例。这些和其它示例在所附的权利要求的范围内。

Claims

1.一种被配置为处理一个或多个音频流的设备，所述设备包括：

存储器，其被配置为存储所述一个或多个音频流；

一个或多个处理器，其是在耦合到所述存储器的电路中实现的，所述一个或多个处理器被配置为进行以下操作：

确定收听者位置；

确定所述一个或多个音频流的一个或多个集群；以及

基于所述收听者位置和所述一个或多个集群来确定渲染模式；以及

渲染器，其被配置为基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群。

2.根据权利要求1所述的设备，其中，作为确定所述一个或多个集群的一部分，所述一个或多个处理器被配置为：

基于相应的区域或相应的场景地图来确定所述一个或多个集群。

3.根据权利要求2所述的设备，其中，所述一个或多个处理器基于所述相应的区域来确定所述一个或多个集群，并且其中，所述一个或多个处理器还被配置为：

基于音频流之间的预定义距离、k-均值聚类、Voronoi距离聚类或体积聚类来确定所述相应的区域。

4.根据权利要求2所述的设备，其中，所述一个或多个处理器基于相应的场景地图来确定所述一个或多个集群，并且其中，所述一个或多个处理器进一步基于声学环境来确定所述一个或多个集群。

5.根据权利要求1所述的设备，其中，所述渲染模式是第一渲染模式，并且所述收听者位置是第一收听者位置，并且音频流的所述一个或多个集群是音频流的第一集群，并且其中，所述一个或多个处理器还被配置为：

基于收听者移动到音频流的第二集群中的第二收听者位置来确定第二渲染模式，并且

其中，所述渲染器还被配置为基于所述第二模式来渲染所述第二集群。

6.根据权利要求5所述的设备，其中，所述第二收听者位置位于音频流的所述第一集群和音频流的所述第二集群中，并且其中，所述音频渲染器还被配置为：

基于加权来渲染所述第一集群和所述第二集群两者。

7.根据权利要求6所述的设备，其中，所述加权是基于所述第二收听者位置与音频流的所述第一集群和所述第二集群中的每一者的边缘或中心之间的相对距离的。

8.根据权利要求1所述的设备，其中，所述渲染模式是第一渲染模式，并且音频流的所述一个或多个集群是音频流的第一集群，并且其中，所述一个或多个处理器还被配置为：

基于收听者移动到所述第一集群外部的第二收听者位置但未进入音频流的第二集群中，来确定第二渲染模式，并且

其中，所述渲染器还被配置为基于所述第二渲染模式来渲染静态音频、音乐或评论。

9.根据权利要求1所述的设备，其中，所述渲染模式是第一渲染模式，并且音频流的所述一个或多个集群是音频流的第一集群，并且其中，所述一个或多个处理器还被配置为：

基于收听者移动到所述第一集群外部的收听者位置但未进入音频流的第二集群中，并且进一步基于冷点开关被启用，来确定第二渲染模式，并且

其中，所述音频渲染器还被配置为基于所述第二模式来渲染距所述收听者位置的至少一个最近的音频流集群。

10.根据权利要求1所述的设备，还包括用户接口，所述用户接口耦合到所述一个或多个处理器，并且被配置为从收听者接收用于覆写所述渲染模式的请求，并且其中，所述一个或多个处理器还被配置为覆写所述渲染模式。

11.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为确定渲染控制图，并且所述渲染器还被配置为基于所述渲染控制图来确定所述渲染模式。

12.一种处理一个或多个音频流的方法，所述方法包括：

确定收听者位置；

确定所述一个或多个音频流的一个或多个集群；

基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群。

13.根据权利要求12所述的方法，其中，所述确定所述一个或多个集群包括：

14.根据权利要求13所述的方法，其中，所述确定一个或多个集群是基于所述相应的区域的，还包括：

15.根据权利要求13所述的方法，所述确定一个或多个集群是基于相应的场景地图的，并且是进一步基于声学环境的。

16.根据权利要求12所述的方法，其中，所述渲染模式是第一渲染模式，并且所述收听者位置是第一收听者位置，并且音频流的所述一个或多个集群是音频流的第一集群，所述方法还包括：

基于收听者移动到音频流的第二集群中的第二收听者位置来确定第二渲染模式，以及

基于所述第二模式来渲染所述第二集群。

17.根据权利要求16所述的方法，其中，所述第二收听者位置位于所述第一集群和所述第二集群中，所述方法还包括：

基于加权来渲染所述第一集群和所述第二集群两者。

18.根据权利要求17所述的方法，其中，所述加权是基于所述第二收听者位置与所述第一集群和所述第二集群中的每一者的边缘或中心之间的相对距离的。

19.根据权利要求12所述的方法，其中，所述渲染模式是第一渲染模式，并且音频流的所述一个或多个集群是音频流的第一集群，所述方法还包括：

基于收听者移动到音频流的所述第一集群外部的第二收听者位置但未进入音频流的第二集群中，来确定第二渲染模式；以及

基于所述第二渲染模式来渲染静态音频、音乐或评论。

20.根据权利要求12所述的方法，其中，所述渲染模式是第一渲染模式，并且音频流的所述一个或多个集群是音频流的第一集群，所述方法还包括：

基于收听者移动到音频流的所述第一集群外部的收听者位置但未进入音频流的第二集群中，并且进一步基于冷点开关被启用，来确定第二渲染模式；以及

基于所述第二模式来渲染距所述收听者位置的至少一个最近的音频流集群。

21.根据权利要求12所述的方法，还包括：

从收听者接收用于覆写所述渲染模式的请求；以及

覆写所述渲染模式。

22.根据权利要求12所述的方法，还包括：确定渲染控制图；以及

基于所述渲染控制图来确定所述渲染模式。

23.一种具有存储在其上的指令的非暂时性计算机可读存储介质，所述指令在被执行时使得一个或多个处理器进行以下操作：

确定收听者位置；

确定音频流的一个或多个集群；

24.一种被配置为处理一个或多个音频流的设备，所述设备包括：

用于确定收听者位置的单元；

用于确定所述一个或多个音频流的一个或多个集群的单元；

用于基于所述收听者位置和所述一个或多个集群来确定渲染模式的单元；以及

用于基于所述渲染模式来渲染所述一个或多个集群中的至少一个集群的单元。