CN112673649A

CN112673649A - 空间音频增强

Info

Publication number: CN112673649A
Application number: CN201980059399.1A
Authority: CN
Inventors: L·拉克索南; A·埃罗南; K·J·雅维南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2018-07-13
Filing date: 2019-07-05
Publication date: 2021-04-16
Anticipated expiration: 2039-07-05
Also published as: EP3821617A1; GB201811546D0; US11758349B2; CN112673649B; US20230370803A1; WO2020012067A1; EP3821617A4; GB2575511A; US20210127224A1

Abstract

一种装置，包括用于执行以下操作的模块：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，至少一个空间音频信号包括至少一个音频信号和与至少一个音频信号相关联的至少一个空间参数，其中，至少一个音频信号限定音频场景；呈现至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将至少一个第一呈现音频信号与至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

Description

空间音频增强

技术领域

本申请涉及用于空间音频增强但不仅限于音频解码器内的空间音频增强的装置和方法。

背景技术

正在实现沉浸式音频编解码器，以支持从低比特率操作到透明性的多种工作点。这样的编解码器的一个示例是沉浸式语音和音频服务(IVAS)编解码器，该编解码器被设计为适合在诸如3GPP 4G/5G网络之类的通信网络上使用。这样的沉浸式服务包括例如在用于虚拟现实(VR)的沉浸式语音和音频中的用途。该音频编解码器有望处理语音、音乐和通用音频的编码、解码和呈现。此外，期望支持基于声道的音频输入和基于场景的音频输入，这些输入包括关于声场和声源的空间信息。还期望编解码器以低延迟工作，以实现对话服务并在各种传输条件下支持高误差鲁棒性。

此外，参数化空间音频处理是其中使用一组参数来描述声音的空间方面的音频信号处理领域。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号中估计一组参数(例如，频带中声音的方向以及频带中所捕获的声音的有向部分与无向部分之间的比率)是一种典型且有效的选择。附加参数能够描述例如无向部分的特性，如它们的各种相干特性。众所周知，这些参数很好地描述了麦克风阵列位置处捕获的声音的感知空间特性。这些参数可以相应地用于空间声音的合成、用于双耳式耳机、用于扬声器或其他格式，例如混响。

6自由度(6DoF)内容捕获和呈现是已实现的增强现实(AR)/虚拟现实(VR)应用的示例。例如，这可能是内容消费用户被允许以旋转方式和平移方式移动以探索他们的环境的情况。旋转移动足以用于简单的VR体验，其中，用户可以转动头部(俯仰、偏航和翻滚)以从静态点或沿自动移动的轨迹来体验空间。平移移动意味着用户还可以改变呈现的位置，即根据用户的意愿沿x，y和z轴移动。除6自由度系统外，还存在其他自由度系统以及使用术语3自由度(3DoF)和3DoF+的相关体验，3自由度仅涵盖旋转移动，而3DoF+则介于3DoF与6DoF之间并且允许某些有限的用户移动(换句话说，可以考虑实现受限的6DoF，其中用户例如正在坐下但可以朝各个方向倾斜头部)。

发明内容

根据第一方面，提供了一种装置，包括用于执行以下操作的模块：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

用于获得至少一个空间音频信号的模块可以是用于从第一比特流中解码所述至少一个空间音频信号和所述至少一个空间参数的模块。

所述第一比特流可以是MPEG-1音频比特流。

用于获得至少一个增强音频信号的模块还可以用于从第二比特流中解码所述至少一个增强音频信号。

所述第二比特流可以是低延迟路径比特流。

所述模块还可以用于：获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射；以及基于所述映射，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合。

用于控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的模块还可以用于：确定用于所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的混合模式。

用于所述至少一个第一呈现音频信号和所述至少一个增强呈现音频信号的所述混合模式可以是以下中的至少一种：世界锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象被固定为所述音频场景中的位置；以及对象锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象相对于所述音频场景内的内容消费者用户位置和/或旋转而被固定。

用于控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的模块还可以用于：基于内容消费者用户位置和/或旋转以及与所述至少一个增强音频信号所关联的音频对象相关联的位置来确定增益；以及在将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合之前，将所述增益应用于所述至少一个增强呈现音频信号。

用于获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射的模块还可以用于以下中的至少一项：从所述至少一个增强音频信号中解码与从所述至少一个增强音频信号的空间部分到所述音频场景的映射相关的元数据；以及从用户输入中获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射。

所述音频场景可以是六自由度场景。

所述至少一个增强音频信号的所述空间部分可以限定以下中的一项：三自由度场景；以及具有有限平移自由度的三旋转自由度场景。

根据第二方面，提供了一种方法，包括：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

获得至少一个空间音频信号可以包括：从第一比特流中解码所述至少一个空间音频信号和所述至少一个空间参数。

所述第一比特流可以是MPEG-1音频比特流。

获得至少一个增强音频信号可以包括：从第二比特流中解码所述至少一个增强音频信号。

所述第二比特流可以是低延迟路径比特流。

所述方法可以包括：获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射；以及基于所述映射，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合。

控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合可以包括：确定用于所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的混合模式。

控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合可以包括：基于内容消费者用户位置和/或旋转以及与所述至少一个增强音频信号所关联的音频对象相关联的位置来确定增益；以及在将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合之前，将所述增益应用于所述至少一个增强呈现音频信号。

获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射还可以包括以下中的至少一项：从所述至少一个增强音频信号中解码与从所述至少一个增强音频信号的空间部分到所述音频场景的映射相关的元数据；以及从用户输入中获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射。

所述音频场景可以是六自由度场景。

根据第三方面，提供了一种装置，包括至少一个处理器和包含计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

被使得获得至少一个空间音频信号的所述装置可被使得从第一比特流中解码所述至少一个空间音频信号和所述至少一个空间参数。

所述第一比特流可以是MPEG-1音频比特流。

被使得获得至少一个增强音频信号的所述装置可被使得从第二比特流中解码所述至少一个增强音频信号。

所述第二比特流可以是低延迟路径比特流。

所述装置还可以被使得：获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射；以及基于所述映射，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合。

被使得控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的所述装置可被使得：确定用于所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的混合模式。

用于所述至少一个第一呈现音频信号和所述至少一个增强呈现音频信号的所述混合模式是以下中的至少一种：世界锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象被固定为所述音频场景中的位置；以及对象锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象相对于所述音频场景内的内容消费者用户位置和/或旋转而被固定。

被使得控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的所述装置可被使得：基于内容消费者用户位置和/或旋转以及与所述至少一个增强音频信号所关联的音频对象相关联的位置来确定增益；以及在将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合之前，将所述增益应用于所述至少一个增强呈现音频信号。

被使得获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射的所述装置可被使得执行以下中的至少一项：从所述至少一个增强音频信号中解码与从所述至少一个增强音频信号的空间部分到所述音频场景的映射相关的元数据；以及从用户输入中获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射。

所述音频场景可以是六自由度场景。

根据第四方面，提供了一种包括指令的计算机程序[或包括程序指令的计算机可读介质]，所述指令用于使得装置执行至少以下操作：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

根据第五方面，提供了一种包括程序指令的非暂时性计算机可读介质，所述程序指令用于使得装置执行至少以下操作：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

根据第六方面，提供了一种装置，包括：获得电路，被配置为获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现电路，被配置为呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；其他获得电路，被配置为获得至少一个增强音频信号；其他呈现电路，被配置为呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；混合电路，被配置为将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

根据第七方面，提供了一种包括程序指令的计算机可读介质，所述程序指令用于使得装置执行至少以下操作：获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；获得至少一个增强音频信号；呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

一种装置，包括用于执行如上所述的方法的动作的模块。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使得计算机执行如上所述的方法的程序指令。

一种存储在介质上的计算机程序产品可以使得装置执行如本文所述的方法。

一种电子设备可包括如本文所述的装置。

一种芯片组可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出了适合于实现一些实施例的装置的系统；

图2示出了根据一些实施例的如图1所示的系统的操作的流程图；

图3示意性地示出了适合于实现一些实施例的如图1所示的示例合成处理器装置；

图4示意性地示出了如图3所示并适合于实现一些实施例的示例呈现混合器和呈现混合控制器；

图5示出了根据一些实施例的如图3和图4所示的合成处理器装置的操作的流程图；

图6至8示意性地示出了根据一些实施例的呈现的效果的示例；以及

图9示意性地示出了适合于实现所示装置的示例设备。

具体实施方式

下面进一步详细描述用于在6自由度场景中提供3自由度沉浸式媒体内容的有效呈现并产生高质量输出的合适的装置和可能的机制。

如本文中进一步详细讨论的概念是这样的概念：其中，合适的音频呈现器能够解码和呈现来自多种音频源的音频内容。例如，本文所讨论的实施例能够合并音频内容，以使得基于6自由度的空间音频信号能够使用包括增强空间元数据的增强音频信号来被增强。此外，在一些实施例中，存在其中可以通过其他(低延迟路径)通信或增强音频信号输入来增强场景呈现的装置和方法。在一些实施例中，该装置可以包括合适的音频解码器，该音频解码器被配置为对输入音频信号进行解码(即，使用外部解码器)并且以合适的格式(例如，包括“声道、对象和/或HOA”的格式)提供给呈现器。以这种方式，该装置可被配置为提供用于解码或呈现许多类型的沉浸式音频的能力。这样的音频对于使用低延迟路径或其他合适的输入接口的沉浸式音频增强将是有用的。但是，以合适的格式提供增强音频信号可能需要格式转换，这导致质量损失。因此，这对于例如参数化音频表示或不与主音频呈现器支持的格式(例如，包含“声道、对象和/或HOA”的格式)相对应的任何其他表示而言不是最佳的。

为了克服此问题，不受空间音频(6DoF)呈现器以原生格式支持的音频信号(例如来自3GPP IVAS的音频信号)可以在外部被处理并呈现，以便允许与来自默认空间音频呈现器的音频进行混合而不产生与格式转换有关的质量损失。增强音频信号因此可以例如经由低延迟路径音频输入来被提供，使用外部呈现器来被呈现，然后根据增强元数据被与空间音频(6DoF)呈现进行混合。

该概念可以在一些实施例中通过以下方式来实现：使用用于空间音频(6DoF)呈现器不支持的音频的其他或外部呈现器，在至少用户锁定和世界锁定操作模式下，增强在基于空间音频(6DoF)的媒体内容上的3DoF(或3DoF+)音频流。增强源可以是通信音频或经由适合于提供“非原生”音频流的接口提供的任何其他音频。例如，空间音频(6DoF)呈现器可以是MPEG-1 6DoF音频呈现器，而非原生音频流可以是经由通信编解码器/音频接口提供的3GPP IVAS沉浸式音频。在一些实施例中，6DoF媒体内容可以是纯音频内容、视听内容或纯视觉内容。用户锁定和世界锁定操作模式与用户偏好信令或服务信令有关，这些信令可以作为增强源(3DoF)元数据的一部分、本地(外部)元数据输入的一部分或它们的组合来提供。

在本文中更详细讨论的一些实施例中，该装置包括外部或其他呈现器，该呈现器被配置为接收增强(非原生3DoF)音频格式，然后，该其他呈现器可被配置为根据基于3DoF到6DoF映射元数据选择的用户锁定或世界锁定模式来呈现增强音频以生成增强或其他(3DoF)呈现，将相对于6DoF场景中的用户呈现位置的增益应用于增强呈现，以及将增强(3DoF)呈现与基于空间音频(6DoF)的音频呈现进行混合以回放给内容消费者用户。在一些实施例中，其他或增强(3DoF)呈现器可被实现为可以在一些实施例中驻留在单独的设备或多个设备上的单独的模块。在没有空间音频信号的一些实施例中(换句话说，增强音频正在增强纯视觉内容)，增强(3DoF)音频呈现可以是唯一的输出音频。

在其中增强(3DoF)音频是用户锁定的一些实施例中，对应的沉浸式音频气泡(bubble)被使用增强(外部)呈现器来呈现，并以与音量控制相对应的增益被混合到空间音频(例如MPEG-1 6DoF)呈现器的(双耳或其他)输出。在一些实施例中，音量控制可以至少部分地根据基于增强(3DoF)音频的元数据和基于空间(6DoF)音频的元数据扩展，诸如MPEG-HDRC(动态范围控制)、响度、以及峰值限制器参数。可以理解，在此上下文中，用户锁定与没有用户平移效果而不是与没有用户旋转效果有关(即，相关的音频呈现体验的特征在于3DoF)。

在其中增强(3DoF)音频是世界锁定的一些实施例中，距离衰减增益是基于增强到空间音频(3DoF到6DoF)映射元数据以及内容消费者用户位置和旋转信息(除了任何用户提供的音量控制参数之外)来确定的，并且可被应用于“外部”呈现的气泡。无论如何，该气泡仍然保持用户锁定，但是当用户从增强音频沉浸式气泡已被映射的位置远离空间音频(6DoF)内容时，该气泡的增益可能衰减。根据一些实施例，距离增益衰减曲线(衰减距离)可以另外在元数据中被指定。因此，可以理解，在此上下文中，世界锁定与参考6DoF位置有关，在该参考6DoF位置，音频呈现的至少一个分量可以不管怎样都跟随用户(即，相关的音频呈现体验的特征在于具有基于6DoF位置的至少音量效果的3DoF)。

关于图1，示出了用于实现本申请的实施例的示例装置和系统。系统171被示为具有内容产生“分析”部分121和内容消费“合成”部分131。“分析”部分121是从接收合适的输入(例如，多声道扬声器、麦克风阵列、混响)音频信号100直到编码可被传输或存储104的元数据和传输信号102的部分。“合成”部分131可以是从编码元数据和传输信号104的解码和音频信号的增强到所生成的信号的呈现(例如，经由扬声器107以多声道扬声器形式106)的部分。

因此，到系统171和“分析”部分121的输入是音频信号100。这些输入可以是合适的输入，例如，多声道扬声器音频信号、麦克风阵列音频信号、音频对象信号或混响音频信号。例如，在核心音频作为ISO/IEC23008-3(MPEG-H第3部分)中指定的MPEG-H 3D音频被携带的情况下，输入可以是音频对象(包含一个或多个音频声道)以及关联的元数据、沉浸式多声道信号或高阶混响(HOA)信号。

输入音频信号100可被传递给分析处理器101。分析处理器101可被配置为接收输入音频信号并生成包括合适的传输信号的合适的数据流104。传输音频信号也可以被称为关联的音频信号并且基于这些音频信号。例如，在一些实施例中，传输信号生成器103被配置为例如通过波束成形技术将输入音频信号缩混或以其他方式选择或合并到确定数量的声道，并将它们作为传输信号来输出。在一些实施例中，分析处理器被配置为生成麦克风阵列音频信号的2音频声道输出。确定数量的声道可以是2个或任何合适数量的声道。在一些实施例中，分析处理器被配置为从输入音频信号创建HOA传输格式(HTF)传输信号，该传输信号表示特定阶(例如四阶)混响的HOA。在一些实施例中，分析处理器被配置为针对每种不同类型的输入音频信号创建传输信号，针对每种不同类型的输入音频信号创建的传输信号在它们的声道数量方面不同。

在一些实施例中，分析处理器被配置为以与传输信号相同的方式将所接收的输入音频信号100未加处理地传递给编码器。在一些实施例中，分析处理器101被配置为选择一个或多个麦克风音频信号，并将该选择输出为传输信号104。在一些实施例中，分析处理器101被配置为对传输音频信号应用任何合适的编码或量化。

在一些实施例中，分析处理器101还被配置为分析输入音频信号100以产生与输入音频信号相关联(并因此与传输信号相关联)的元数据。分析处理器101可以例如是计算机(运行被存储在存储器和至少一个处理器上的合适的软件)，或者替代地是利用例如FPGA或ASIC的特定设备。

此外，在一些实施例中，用户输入(控制)103可以还被配置为提供至少一个用户输入122或控制输入，该用户输入122或控制输入可被分析处理器101编码为附加元数据，然后作为与传输音频信号相关联的元数据的一部分被发送或存储。在一些实施例中，用户输入(控制)103被配置为分析输入信号100，或者被提供来自分析处理器101的对输入信号100的分析，以及基于该分析来生成控制输入信号122或者帮助用户提供控制信号。

传输信号和元数据102可被发送或存储。这在图1中由虚线104示出。在传输信号和元数据被发送或存储之前，在一些实施例中，它们可被编码以便降低比特率，以及被复用为一个流。编码和复用可以使用任何合适的方案来实现。

在合成侧131，所接收或所取得的数据(流)可被输入到合成处理器105中。合成处理器105可被配置为将该数据(流)解复用为编码的传输和元数据。合成处理器105然后可以解码任何编码的流以便获得传输信号和元数据。

然后，合成处理器105可被配置为接收传输信号和元数据，并基于传输信号和元数据来创建合适的多声道音频信号输出106(取决于用例，输出106可以是任何合适的输出格式，例如双耳、多声道扬声器或混响信号)。在具有扬声器再现的一些实施例中，具有期望的感知特性的实际物理声场被再现(使用头戴式视图器(headset)107)。在其他实施例中，声场的再现可以被理解为是指通过除了在空间中再现实际物理声场之外的其他方式来再现声场的感知特性。例如，声场的期望的感知特性可以使用本文所述的双耳再现方法在头戴式耳机上被再现。在另一个示例中，声场的感知特性可以被再现为混响输出信号，而这些混响信号可以使用混响解码方法被再现，以提供例如具有期望的感知特性的双耳输出。

此外，在一些实施例中，合成侧被配置为接收音频(增强)源110音频信号112以用于增强所生成的多声道音频信号输出。在这样的实施例中，合成处理器105被配置为接收增强源110音频信号112，以及被配置为以由控制元数据控制的方式来增强输出信号，如本文中进一步详细描述的。

在一些实施例中，合成处理器105可以是计算机(运行被存储在存储器和至少一个处理器上的合适的软件)，或者替代地是利用例如FPGA或ASIC的特定设备。

为内容消费用户呈现6DOF音频可以使用例如头戴式显示器的头戴式视图器和被连接到头戴式显示器的耳机来进行。

头戴式视图器可以包括用于确定用户的空间位置和/或用户头部的朝向的模块。这可以是借助于确定头戴式视图器的空间位置和/或朝向。因此，在连续的时间帧内，可以计算并存储运动的测量。例如，头戴式视图器可以结合运动跟踪传感器，这些运动跟踪传感器可以包括陀螺仪、加速度计以及结构化照明系统中的一个或多个。这些传感器可以生成位置数据，根据该位置数据，当前可视视野(FOV)被确定并在用户以及因此头戴式视图器改变位置和/或朝向时被更新。头戴式视图器可以包括用于在用户的相应眼睛前面显示虚拟世界的立体视频图像的两个数字屏幕，以及用于将音频传递给用户的左右耳的一对耳机的连接。

在一些示例实施例中，用户头部的空间位置和/或朝向可以使用六自由度(6DoF)方法来确定。它们包括对俯仰、翻滚和偏航以及欧几里得空间中沿左右、前后和上下轴的平移运动的测量。(不是必须使用六自由度头戴式视图器。例如，可以很容易地使用三自由度头戴式视图器。)

显示系统可被配置为基于头戴式视图器的空间位置和/或朝向来向用户显示虚拟现实或增强现实内容数据。所检测的空间位置和/或朝向的改变(即，某种形式的运动)可以导致视觉数据的对应改变，以反映用户相对于视觉数据被投射到的空间的位置或朝向变换。这允许虚拟现实内容数据在用户体验3D虚拟现实或增强现实环境/场景的情况下被消费，从而与用户移动一致。

对应地，所检测的空间位置和/或朝向的改变可以导致被播放给用户的音频数据的对应改变，以反映用户相对于音频数据所处的空间的位置或朝向变换。这使得音频内容能够与用户移动一致地被呈现。对声音对象的音频回放特性进行了诸如电平/增益和位置改变之类的修改以对应于该变换。例如，当用户旋转其头部时，声音对象的位置相应地被旋转到相反的方向，从而从用户的角度来看，声音对象似乎保持在虚拟世界中的恒定位置。作为另一示例，当用户行走而远离音频对象时，音频对象的增益或幅度相应地与距离成反比地降低，就像当用户行走而远离真实的物理声音发射对象时在真实世界中近似发生的那样。例如，这种呈现可用于实现MPEG-1音频的对象部分的6DOF呈现。在MPEG-I音频的HOA部分和/或声道部分仅包含环境且没有强烈的定向声音的情况下，这些部分的呈现不需要考虑用户的移动，因为可以以类似方式在不同的用户位置和/或朝向呈现音频。在一些实施例中，可以仅考虑头部旋转，并且HOA和/或声道呈现被相应地旋转。以类似的方式，当系统正在呈现包括用于时频图块(tile)的传输信号和参数化空间元数据的参数化空间音频时，对时频图块的特性(例如到达方向和幅度)进行修改。在这种情况下，元数据需要表示例如DOA、比率参数、以及距离，以便可以计算6DOF呈现所需的几何修改。

关于图2，示出了图1所示的概述的示例流程图。

首先，系统(分析部分)被配置为接收输入音频信号或合适的多声道输入，如图2通过步骤201所示。

然后，系统(分析部分)被配置为生成传输信号声道或传输信号(例如，基于多声道输入音频信号的缩混/选择/波束成形)，如图2通过步骤203所示。

此外，系统(分析部分)被配置为分析音频信号以生成空间元数据，如图2通过步骤205所示。在其他实施例中，空间元数据可以通过用户或其他输入或部分地通过分析并且部分地通过用户或其他输入来生成。

然后，系统被配置为(可选地)对传输信号、空间元数据和控制信息进行编码以用于存储/传输，如图2通过步骤207所示。

此后，系统可以存储/发送传输信号、空间元数据和控制信息，如图2通过步骤209所示。

系统可以取得/接收传输信号、空间元数据和控制信息，如图2通过步骤211所示。

然后，系统被配置为提取传输信号、空间元数据和控制信息，如图2通过步骤213所示。

此外，系统可被配置为取得/接收至少一个增强音频信号(以及可选地与至少一个增强音频信号相关联的元数据)，如图2通过步骤221所示。

系统(合成部分)被配置为基于所提取的音频信号、空间元数据、至少一个增强音频信号(和元数据)来合成输出空间音频信号(如前所述，取决于用例，该输出空间音频信号可以是任何合适的输出格式(例如双耳或多声道扬声器))，如图2通过步骤225所示。

关于图3，示出了根据一些实施例的示例合成处理器。在一些实施例中，合成处理器包括核心或空间音频解码器301，核心或空间音频解码器301被配置为接收沉浸式内容流或空间音频信号比特流/文件。空间音频信号比特流/文件可以包括传输音频信号和空间元数据。空间音频解码器301可被配置为输出合适的解码后的音频流(例如解码后的传输音频流)，并将解码后的音频流传递给音频呈现器305。

此外，空间音频解码器301还可以从空间音频信号比特流/文件中生成合适的空间元数据流，该空间元数据流也被发送给音频呈现器305。

此外，示例合成处理器可以包括增强音频解码器303。增强音频解码器303可被配置为接收包括音频信号的音频增强流以增强空间音频信号，以及将解码后的增强音频信号输出给音频呈现器305。增强音频解码器303还可以被配置为从音频增强输入中解码任何合适的元数据，诸如指示用于增强音频信号的空间定位的期望或优选位置的空间元数据。与增强音频相关联的空间元数据可被传递给(主)音频呈现器305。

合成处理器可以包括(主)音频呈现器305，音频呈现器305被配置为接收解码后的空间音频信号和关联的空间元数据、增强音频信号和增强元数据。

在一些实施例中，音频呈现器305包括增强呈现器接口307，增强呈现器接口307被配置为检查增强音频信号和增强元数据并确定是否可以在音频呈现器305中呈现增强音频信号，或被配置为将增强音频信号和增强元数据传递给增强(外部)呈现器309，增强(外部)呈现器309被配置为将增强音频信号和增强元数据呈现成合适的格式。

基于合适的解码后的音频流和元数据，音频呈现器305可以生成合适的呈现并将音频信号传递给呈现混合器311。在一些实施例中，音频呈现器305包括任何合适的被配置为根据用户位置和旋转来呈现6DoF音频内容的基线6DoF解码器/呈现器(例如，MPEG-I6DoF呈现器)。

音频呈现器305和增强(外部)呈现器接口307可被配置为将不是要由主音频呈现器呈现的适合格式的增强音频信号和增强元数据输出给增强呈现器(用于增强音频的外部呈现器)309。这种情况的一个示例是当增强元数据包含主音频呈现器不支持的参数化空间元数据时。

增强(或外部)呈现器309可被配置为接收增强音频信号和增强元数据并生成合适的增强呈现，该合适的增强呈现被传递给呈现混合器311。

在一些实施例中，合成处理器还包括呈现混合控制器331。呈现混合控制器331被配置为控制(主)音频呈现器305与增强(外部)呈现器307的混合。

已经接收到音频呈现器305和增强呈现器309的输出的呈现混合器311可被配置为基于来自呈现混合控制器的控制信号来生成混合呈现，该混合呈现然后可被输出给合适的输出313。

合适的输出313可以例如是头戴式耳机、多声道扬声器系统或类似物。

关于图4，更详细地示出了呈现混合控制器331和呈现混合器311。在该示例中，示出了(主或6DoF)音频信号由主呈现器305所呈现并被传递给呈现混合器311。此外，增强呈现器309被配置为呈现增强音频信号并且该增强音频信号也被传递给呈现混合器311。例如，在一些实施例中，从两个呈现器中的每一个获得双耳呈现。此外，任何合适的方法都可以用于呈现。例如，在一些实施例中，内容消费者用户可以控制合适的用户输入401以提供被输入到主呈现器305并控制主呈现器305的用户位置和旋转(或朝向值)。

在一些实施例中，呈现混合控制器331包括增强音频映射器405。增强音频映射器405被配置为接收与增强音频相关联的合适的元数据，并确定从增强音频到主音频场景的合适的映射。在一些实施例中，可以从增强音频接收元数据，或者在一些实施例中，可以从主音频接收元数据，或者在一些实施例中，元数据可以部分地基于用户输入或由呈现器提供的设置。

例如，在增强音频场景是3DoF场景/环境而主音频场景是6DoF场景/环境的情况下，增强音频映射器405可被配置为确定3DoF音频位于6DoF内容中的某处(并且不旨在跟随内容消费者用户，这可以是被单独处理的3DoF音频的默认特征)。

该映射信息然后可被传递给模式选择器407。

呈现混合控制器331还可包括模式选择器407。模式选择器407可被配置为从增强音频映射器405接收映射信息，并确定用于混合的合适的操作模式。例如，模式选择器407能够确定呈现混合是用户锁定模式还是世界锁定模式。所选择的模式然后可被传递给距离增益衰减器403。

呈现混合控制器331还可以包括距离增益衰减器403。距离增益衰减器403可被配置为从模式选择器接收所确定的混合/呈现模式，并且在一些实施例中还从用户输入401接收用户位置和旋转。

例如，当系统处于世界锁定模式时，内容消费者用户位置和旋转信息也影响任何世界锁定模式音频的3DoF音频呈现。在世界锁定模式下，增强到主(3DoF到6DoF)场景的增强音频映射器映射可被用于控制距离衰减，该距离衰减基于用户位置(和旋转)而要被应用于任何世界锁定(增强或3DoF)内容。距离增益衰减器403可被配置为(基于用户位置/旋转)生成合适的增益值，该增益值将要在增强呈现器输出与主呈现器输出进行混合之前由可变增益级409应用于增强呈现器输出。在一些实施例中，当处于至少世界锁定模式时，增益值可以是根据基于用户位置(和旋转)的函数。在一些实施例中，可以从以下中的至少一项来提供该函数：

与主音频信号相关联的元数据；

与增强音频信号相关联的元数据；

标准或特定实现的默认值；以及

基于用户输入或其他外部控制导出的。

当系统被确定为处于用户锁定模式时，增强音频(3DoF)内容被配置为跟随内容消费者用户。增强内容(相对于主或6DoF内容)的呈现因此可以与用户位置(以及可能的旋转)无关。在这样的实施例中，距离增益衰减器403生成与用户位置/旋转无关的增益控制信号(但是可能依赖于其他输入，例如音量控制)。

在一些实施例中，呈现混合器311包括可变增益级409。可变增益级409被配置为从距离增益衰减器403接收控制输入以设置增益值。此外，在一些实施例中，可变增益级接收增强呈现器309的输出，应用受控增益并且输出给混合器411。尽管在图4所示的该示例中，可变增益被应用于增强呈现器309的输出，但是在一些实施例中，可以实现可变增益级，该可变增益级被应用于主呈现器的输出或者被应用于增强呈现器和主呈现器两者。

在一些实施例中，呈现混合器311包括混合器411，混合器411被配置为接收可变增益级409的输出(其包括幅度修改的增强呈现)和主呈现器305的输出并将这些输出进行混合。

在一些实施例中，可以根据不同模式(例如，用户锁定或世界锁定模式)并行地呈现不同类型的增强音频。

在一些实施例中，基于6DoF呈现器能力，不同类型的增强音频可以被传递给6DoF呈现器和3DoF呈现器。因此，3DoF(外部)呈现器可以仅被用于例如在不首先应用格式变换(可能影响增强音频的感知质量)的情况下6DoF呈现器无法进行呈现的音频。

关于图5，示出了图3和图4中示出的合成处理器的操作的示例流程图。在该示例中，呈现操作是其中(主)音频输入是6DoF音频空间音频流而增强(外部)音频输入是3DoF增强音频流的呈现操作。

可以从所接收/取得的媒体文件/流中获得(例如，解码)(主)沉浸式内容(例如6DoF内容)音频(和关联的元数据)，如图5中通过步骤501所示。

在一些实施例中，在已经获得了(主)音频流后，获得内容消费者用户位置和旋转(或朝向)，如图5中通过步骤507所示。

此外，在一些实施例中，在已经获得用户位置和旋转后，根据任何合适的呈现方法来(由主呈现器)呈现(主)音频流，如图5中通过步骤511所示。

在一些实施例中，可以解码/获得增强音频(例如3DoF增强)，如图5中通过步骤503所示。

在已经获得增强音频流后，根据任何合适的呈现方法(并且由外部或其他呈现器)来呈现增强音频流，如图5中通过步骤509所示。

此外，可以获得(例如，从与增强音频内容文件/流相关联的元数据，或者在一些实施例中，从用户输入)与3DoF增强音频到6DoF场景/环境的映射相关的元数据，如图5中通过步骤505所示。

在已经获得与映射相关的元数据后，可以确定混合模式，如图5中通过步骤515所示。

基于所确定的混合模式和用户位置/旋转，可以确定用于增强音频的距离增益衰减，并将该距离增益衰减应用于增强呈现，如图5中通过步骤513所示。

然后，混合主增强呈现与(修改后的)增强呈现，如图5中通过步骤517所示。

然后，呈现或输出混合音频，如图5中通过步骤519所示。

在一些实施例中，增强音频呈现器被配置为呈现增强音频信号的一部分。例如，在一些实施例中，增强音频信号可以包括主呈现器不能有效呈现的第一部分以及主呈现器能够呈现的第二部分和第三部分。在一些实施例中，第一部分和第二部分可被传递给增强呈现器，而第三部分由主音频呈现器来呈现。因此，第三部分可被呈现为与用户移动完全一致，第一部分可以与用户移动部分一致地被呈现，以及第二部分可以与用户移动完全或部分一致地被呈现。

关于图6至图8，示出了在已知系统中和在一些实施例中混合主呈现与增强呈现的效果的示例场景。

图6的顶部行601示出了用户在6DoF场景/环境中从第一位置610移动到第二位置611。该场景/环境可以包括视觉内容(树)和声源(显示为球形621、623、625)，它们可以位于该场景/环境内的固定位置或根据它们自身的特性或至少部分基于用户移动而在该场景/环境内移动。

图6的第二行603示出了用户在6DoF场景/环境中从第一位置610移动到第二位置611。在该示例中，是世界锁定的另一个音频源634被增强到6DoF呈现的场景/环境中。该音频源可以是作为增强音频信号引入的基于低延迟路径对象的音频内容。低延迟路径音频源增强可以是非空间内容(具有附加空间元数据)或3DoF空间内容。该低延迟路径音频的典型示例是通信音频。尽管对于这样的音频，至少主分量(例如，用户语音)应该始终对于接收用户是可听见的，但是可能在世界锁定模式下，用户可能远离音频源634移动得很远，以至于该主分量不再可听见。因此，在一些实施例中，可以实现一种补偿机制，其中，无论用户到音频源距离如何，音频源634至少在给定的阈值级别保持可听见。音频源634被用户从音频源634在6DoF场景中的相对方向所听到。如在第二行603上描绘的用户移动可以增大用户所观察到的音频源634的声压级别。

图6的第三行605示出了用户在6DoF场景/环境中从第一位置610移动到第二位置611。在该示例中，是用户锁定的另一个音频源634被增强到6DoF呈现的场景/环境中。该用户锁定音频源634至少保持它与用户的相对距离。在一些实施例中，音频源634还可以保持它对用户的相对旋转(或角度)。

关于图6，3DoF内容到6DoF内容的映射可以基于控制引擎输入元数据来实现。但是，其他音频增强用例也是可能的。因此，声源可以是世界锁定603或用户锁定605。因此，用户锁定情况可以指相对于6DoF内容(而不是非叙事内容(non-diegetic content))的3DoF内容。

如图6中的示例所示的呈现通常可以仅在主音频呈现器中被实现，因为预期所有主6DoF音频呈现器都能够呈现与基于对象的音频表示相对应的音频源(该音频源可以是例如具有至少一个空间元数据参数(例如6DoF场景中的位置)的单PCM音频信号)。

空间增强可能会增加对空间呈现的要求。在一些实施例中，空间音频可以是包括音频信号和相关联的空间参数元数据(例如，方向、能量比、扩散度、非有向能量的相干值等)的格式。

关于图7中示出的示例，3DoF或增强内容可被理解为“音频气泡”714，并且可被认为相对于主(6DoF)内容是用户锁定的。换句话说，用户可以在气泡内部转动或旋转，但是不能走出气泡。气泡在例如沉浸式通话期间简单地跟随用户。音频气泡被示为在行703和705上跟随用户，行703和705在其他方面分别对应于图6的行603和605。

关于图8所示的示例，相同的空间(3DoF)内容被认为相对于主(6DoF)内容是世界锁定的。因此，用户可以走出音频气泡714。行803和805在其他方面分别对应于图7的行703和705(以及因此也对应于图6的行603和605)。

由于增强(外部)呈现器是3DoF呈现器并且主(6DoF)呈现器(例如MPEG-1 6DoF音频呈现器)无法处理参数化格式，因此本文讨论的实施方式能够实现这些呈现。参数化格式可以是例如3GPP IVAS编解码器的参数化空间音频格式，并且它可以包括N个波形声道和用于N个波形声道的时频图块的空间元数据参数。

关于图9，示出了可以用作分析设备或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1900是移动设备、用户设备、平板电脑、计算机、音频回放装置等。

在一些实施例中，设备1900包括至少一个处理器或中央处理单元1907。处理器1907可被配置为执行各种程序代码，诸如本文所述的方法。

在一些实施例中，设备1900包括存储器1911。在一些实施例中，至少一个处理器1907被耦接到存储器1911。存储器1911可以是任何合适的存储装置。在一些实施例中，存储器1911包括用于存储可在处理器1907上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1911还可包括用于存储数据(例如，根据本文所述的实施例已被处理或要被处理的数据)的存储数据部分。被存储在程序代码部分中的已实现程序代码和被存储在存储数据部分中的数据可以由处理器1907在需要时经由存储器-处理器耦接来取得。

在一些实施例中，设备1900包括用户接口1905。在一些实施例中，用户接口1905可以被耦接至处理器1907。在一些实施例中，处理器1907可以控制用户接口1905的操作并从用户接口1905接收输入。在一些实施例中，用户接口1905可以使用户能够例如经由小键盘向设备1900输入命令。在一些实施例中，用户接口1905可以使用户能够从设备1900获得信息。例如，用户接口1905可以包括被配置为从设备1900向用户显示信息的显示器。在一些实施例中，用户接口1905可以包括触摸屏或触摸接口，该触摸屏或触摸接口能够实现信息被输入到设备1900以及向设备1900的用户显示信息两者。

在一些实施例中，设备1900包括输入/输出端口1909。在一些实施例中，输入/输出端口1909包括收发机。在这样的实施例中，收发机可以被耦接到处理器1907，并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中，该收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由导线或有线耦接与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议与其他装置进行通信。例如，在一些实施例中，收发机或收发机装置可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或红外数据通信路径(IRDA)。

收发机输入/输出端口1909可被配置为接收扬声器信号，并且在一些实施例中，通过使用执行合适代码的处理器1907来确定本文所述的参数。此外，该设备可以生成合适的传输信号和参数输出以传输到合成设备。

在一些实施方案中，设备1900可以用作合成设备的至少一部分。这样，输入/输出端口1909可被配置为接收传输信号，并且在一些实施例中，接收如本文所述在捕获设备或处理设备处确定的参数，以及通过使用执行合适代码的处理器1907来生成合适的音频信号格式输出。输入/输出端口1909可以被耦接到任何合适的音频输出，例如被耦接到多声道扬声器系统和/或头戴式耳机或类似设备。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或它们的任何组合来实现。例如，一些方面可以用硬件来实现，而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。虽然本发明的各个方面可被示出和描述为框图、流程图或使用一些其他图形表示，但是应该理解，本文描述的这些框、装置、系统、技术或方法可以作为非限制性示例以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或它们的某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件来实现，或通过硬件、或通过软件和硬件的组合来实现。此外，在这方面，应当注意，图中的逻辑流程的任何块可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如存储器芯片的物理介质或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术(例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序(例如，加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序)使用完善的设计规则以及预先存储的设计模块库来自动路由导体并在半导体芯片上定位元件。一旦半导体电路的设计已被完成，采用标准化电子格式(例如Opus、GDSII等)的所得到的设计就可以被发送到半导体制造设施或“工厂(fab)”以进行制造。

前面的描述通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求书阅读时，鉴于前面的描述，各种修改和调整对于相关领域的技术人员而言可以变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入在所附权利要求书中限定的本发明的范围内。

Claims

1.一种装置，包括用于执行以下操作的模块：

获得能够与内容消费者用户移动一致地被呈现的至少一个空间音频信号，所述至少一个空间音频信号包括至少一个音频信号和与所述至少一个音频信号相关联的至少一个空间参数，其中，所述至少一个音频信号限定音频场景；

呈现所述至少一个空间音频信号以至少部分地与内容消费者用户移动一致并获得至少一个第一呈现音频信号；

获得至少一个增强音频信号；

呈现所述至少一个增强音频信号的至少一部分以获得至少一个增强呈现音频信号；

将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合以生成至少一个输出音频信号。

2.根据权利要求1所述的装置，其中，用于获得至少一个空间音频信号的模块是用于从第一比特流中解码所述至少一个空间音频信号和所述至少一个空间参数的模块。

3.根据权利要求2所述的装置，其中，所述第一比特流是MPEG-1音频比特流。

4.根据权利要求1至3中任一项所述的装置，其中，用于获得至少一个增强音频信号的模块还用于从第二比特流中解码所述至少一个增强音频信号。

5.根据权利要求4所述的装置，其中，所述第二比特流是低延迟路径比特流。

6.根据权利要求1至5中任一项所述的装置，其中，所述模块还用于：

获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射；以及

基于所述映射，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合。

7.根据权利要求6所述的装置，其中，用于控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的模块还用于：

确定用于所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的混合模式。

8.根据权利要求7所述的装置，其中，用于所述至少一个第一呈现音频信号和所述至少一个增强呈现音频信号的所述混合模式是以下中的至少一种：

世界锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象被固定为所述音频场景中的位置；以及

对象锁定混合，其中，与所述至少一个增强音频信号相关联的音频对象相对于所述音频场景内的内容消费者用户位置和/或旋转而被固定。

9.根据权利要求6至8中任一项所述的装置，其中，用于控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的模块还用于：

基于内容消费者用户位置和/或旋转以及与所述至少一个增强音频信号所关联的音频对象相关联的位置来确定增益；以及

在将所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号进行混合之前，将所述增益应用于所述至少一个增强呈现音频信号。

10.根据权利要求6至9中任一项所述的装置，其中，用于获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射的模块还用于以下中的至少一项：

从所述至少一个增强音频信号中解码与从所述至少一个增强音频信号的空间部分到所述音频场景的映射相关的元数据；以及

从用户输入中获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射。

11.根据权利要求1至10中任一项所述的装置，其中，所述音频场景是六自由度场景。

12.根据权利要求1至11中任一项所述的装置，其中，所述至少一个增强音频信号的所述空间部分限定以下中的一项：

三自由度场景；以及

具有有限平移自由度的三旋转自由度场景。

13.一种方法，包括：

获得至少一个增强音频信号；

14.根据权利要求13所述的方法，其中，获得至少一个空间音频信号包括：从第一比特流中解码所述至少一个空间音频信号和所述至少一个空间参数。

15.根据权利要求14所述的方法，其中，所述第一比特流是MPEG-1音频比特流。

16.根据权利要求13至15中任一项所述的方法，其中，获得至少一个增强音频信号包括：从第二比特流中解码所述至少一个增强音频信号。

17.根据权利要求16所述的方法，其中，所述第二比特流是低延迟路径比特流。

18.根据权利要求13至17中任一项所述的方法，所述方法还包括：获得从所述至少一个增强音频信号的空间部分到所述音频场景的映射；以及基于所述映射，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合。

19.根据权利要求18所述的方法，其中，控制所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合包括：确定用于所述至少一个第一呈现音频信号与所述至少一个增强呈现音频信号的混合的混合模式。

20.一种装置，包括至少一个处理器和存储有计算机程序代码的至少一个存储器，所述至少一个处理器执行所述计算机程序代码以使得所述装置至少：

获得至少一个增强音频信号；