CN116671133A

CN116671133A - 用于融合虚拟场景描述和收听者空间描述的方法和装置

Info

Publication number: CN116671133A
Application number: CN202180088037.2A
Authority: CN
Inventors: S·S·马特; A·埃罗南; J·莱帕宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-12-29
Filing date: 2021-11-19
Publication date: 2023-08-29
Also published as: WO2022144493A1; EP4244711A4; US20240089694A1; GB2602464A; EP4244711A1; GB202020673D0

Abstract

一种用于在物理空间中渲染音频场景的装置，包括被配置为执行以下操作的部件：确定在渲染期间在物理空间内的收听位置(107)；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景(113)；获得物理空间的至少一个声学特性(101)；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并(107，115)；以及根据收听位置，渲染准备好的音频场景。

Description

用于融合虚拟场景描述和收听者空间描述的方法和装置

技术领域

本申请涉及用于融合虚拟场景描述和收听者空间描述的方法和装置，但不仅仅限于用于针对6自由度渲染融合比特流中的虚拟场景描述和收听者空间描述的方法和装置。

背景技术

随着时间的推移，向佩戴头戴式设备(HMD)的用户呈现虚拟场景的增强现实(AR)应用(和其他类似的虚拟场景创建应用，诸如混合现实(MR)和虚拟现实(VR))变得更加复杂和精密。该应用可以包括数据，其包括被呈现给用户的视觉分量(或叠加)和音频分量(或叠加)。可以根据用户在增强现实(AR)场景内的位置和定向(针对6自由度应用)，将这些分量提供给用户。

用于渲染AR场景的场景信息通常包括两个部分。一个部分是虚拟场景信息，其可以在内容创建期间(或由合适的捕获装置或设备)描述，并表示如所捕获的(或最初生成的)场景。虚拟场景可以在编码器输入格式(EIF)数据格式中提供。编码器使用EIF和(所捕获的或所生成的)音频数据来生成场景描述和空间音频元数据(以及音频信号)，可以经由比特流将其传送到渲染(播放)设备或装置。在ISO/IEC JTC1 SC29 WG6MPEG音频编码中在针对关于MPEG-I 6DoF音频的提案征集(CfP)开发的MPEG-I 6DoF音频编码器输入格式中描述了EIF。该实现主要根据该规范来描述，但还可以使用可由场景/内容创建器提供或使用的其他场景描述格式。

根据EIF，编码器输入数据包含描述MPEG-I 6DoF音频场景的信息。这涵盖了虚拟听觉场景的所有内容，即其所有声源和资源数据，诸如音频波形、源辐射模式、关于声学环境的信息等。因此，内容可以包含音频产生元素(诸如对象、通道和高阶全景环绕声(Ambisonics)及其元数据(诸如位置、定向和源方向性模式))和非音频产生元素(诸如在声学上相关的场景几何形状和材料特性)两者。输入数据还允许描述场景的变化。这些变化(被称为更新)可以在不同的时间发生，从而允许将场景制作成动画(例如，移动对象)。可替代地，它们可以被手动触发或者由条件(例如，收听者进入附近)触发或者从外部实体被动态地更新。

AR音频场景渲染的第二部分与收听者(或终端用户)的物理收听空间相关。可以在AR渲染期间(当收听者正在消费内容时)获得场景或收听者空间信息。

因此，在实现AR应用(与例如仅以所捕获的虚拟场景为特征的虚拟现实应用相比)时，渲染器必须考虑虚拟场景声学特性以及由其中内容正被消费的物理空间产生的声学特性。收听空间描述很重要，以使得可以针对收听空间来调整音频渲染的声学(acoustics)。这对于音频再现的似真性/合理性很重要，因为期望再现虚拟音频对象，就好像它们真正在物理空间中一样，从而产生将虚拟对象与物理声源混合的错觉。例如，空间的混响特性需要与其他声学效果(诸如遮挡和/或衍射)一起在适当的程度上被再现。

可以在收听空间描述文件(LSDF)格式中提供物理收听空间信息。渲染设备可以在渲染期间获得LSDF信息。例如，可以使用渲染设备周围的感测或测量或者一些其他手段(诸如描述收听空间声学的文件或数据条目)来获得LSDF信息。LSDF仅仅是文件格式的一个示例，其促进描述收听空间几何形状和声学特性。

LSDF指定了MPEG-I 6DoF收听空间描述文件(LSDF)。正在ISO/IEC JTC1 SC29 WG6MPEG音频编码中开发LSDF。它描述了用于MPEG-I 6DoF音频AR实现的收听空间。在AR中，虚拟内容在现实世界对象和空间之上被增强，因此产生一种收听空间的几何形状的“增强现实”知识对于实际实现很重要的感知。此外，LSDF提供了一种将收听空间环境信息直接提供给渲染器的机制。

LSDF包括MPEG-I 6DoF音频编码器输入格式的元素的子集。这些元素被用于描述收听空间的物理方面(例如，收听空间的墙壁、天花板和地板以及它们的声学材料特性，诸如镜面反射能量、吸收能量、漫反射能量、透射能量或耦合能量)。此外，LSDF描述了用于将场景EIF中的元素与收听空间中的位置(例如，物理特征或对象)对齐的锚。

进而，渲染器可以执行渲染，以使得场景似真/合理，并与从LSDF和EIF中获得的信息对齐。

发明内容

根据第一方面，提供了一种装置，其包括被配置为执行以下操作的部件：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

上述部件可以进一步被配置为：首先实现音频场景以在物理空间中进行渲染，其中，该音频场景可以能够基于虚拟场景的至少一个信息和物理空间的至少一个声学特性来配置。

被配置为获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景的部件可以被配置为：从接收比特流中获得表示虚拟场景的音频元素的至少一个参数。

上述部件可以进一步被配置为：获得至少一个控制参数，其中，该至少一个控制参数可以被配置为控制被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的部件，从接收比特流中获得该至少一个控制参数。

表示虚拟场景的音频元素的至少一个参数可以包括六自由度虚拟场景的以下中的至少一项：声学反射元素；声学材料；声学音频元素空间范围；以及声学环境特性。

表示虚拟场景的音频元素的至少一个参数可以包括以下中的至少一项：与虚拟场景相关联的几何形状信息；虚拟场景内的至少一个音频元素的位置；虚拟场景内的至少一个音频元素的形状；虚拟场景内的至少一个音频元素的声学材料特性；虚拟场景内的至少一个音频元素的散射特性；虚拟场景内的至少一个音频元素的透射特性；虚拟场景内的至少一个音频元素的混响时间特性；以及虚拟场景内的至少一个音频元素的扩散对直接声音比率特性。

表示虚拟场景的音频元素的至少一个参数可以是描述虚拟场景声学的六自由度比特流的一部分。

被配置为获得物理空间的至少一个声学特性的部件可以被配置为：从位于物理空间内的至少一个传感器获得传感器信息；以及基于该传感器信息，确定表示物理空间的至少一个声学特性的至少一个参数。

表示物理空间的至少一个声学特性的至少一个参数可以包括以下中的至少一项：物理空间内的至少一个音频元素的镜面反射能量；物理空间内的至少一个音频元素的吸收能量；物理空间内的至少一个音频元素的漫反射能量；物理空间内的至少一个音频元素的透射能量；物理空间内的至少一个音频元素的耦合能量；与物理空间相关联的几何形状信息；物理空间内的至少一个音频元素的位置；物理空间内的至少一个音频元素的形状；物理空间内的至少一个音频元素的声学材料特性；物理空间内的至少一个音频元素的散射特性；物理空间内的至少一个音频元素的透射特性；物理空间内的至少一个音频元素的混响时间特性；以及物理空间内的至少一个音频元素的扩散对直接声音比率特性。

与物理空间相关联的几何形状信息可以包括定义物理空间几何形状的至少一个网格单元。

至少一个网格单元中的每个网格单元可以包括至少一个顶点参数和至少一个面参数，其中，每个顶点参数可以定义相对于网格原点位置的位置，每个面参数可以包括被配置为标识定义该面的几何形状的顶点的顶点标识符和标识定义与该面相关联的声学特性的声学参数的材料参数。

标识定义与面相关联的声学特性的声学参数的材料参数可以包括以下中的至少一项：面的散射特性；面的透射特性；面的混响时间特性；以及面的扩散对直接声音比率特性。

物理空间的至少一个声学特性可以在收听空间描述文件内。

被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并的部件可以被配置为：生成组合参数。

组合参数可以是统一场景表示的至少一部分。

被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的部件可以被配置为：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将包括物理空间的至少一个声学特性的第二比特流合并到该统一场景表示中。

被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的部件可以被配置为：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将物理空间的至少一个声学特性合并到该统一场景表示中。

被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的部件可以被配置为：基于在渲染期间在物理空间内的收听位置和虚拟场景的至少一个信息，获得至少一个虚拟场景描述参数；以及基于至少一个虚拟场景描述参数和物理空间的至少一个声学特性的组合，生成组合几何形状参数。

物理空间的至少一个声学特性可以包括以下中的至少一项：至少一个反射元素几何形状参数；以及至少一个反射元素声学特性。

被配置为生成组合几何形状参数的部件可以被配置为：基于物理空间的至少一个声学特性，确定与物理空间相关联的至少一个混响声学参数；基于虚拟场景的至少一个信息，确定与虚拟场景相关联的至少一个混响声学参数；以及基于与物理空间相关联的至少一个混响声学参数和与虚拟场景相关联的至少一个混响声学参数，确定组合几何形状参数。

根据第二方面，提供了一种用于在物理空间中渲染音频场景的装置的方法，该方法包括：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

该方法可以进一步包括：首先实现音频场景以在物理空间中进行渲染，其中，该音频场景能够基于虚拟场景的至少一个信息和物理空间的至少一个声学特性来配置。

获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景可以包括：从接收比特流中获得表示虚拟场景的音频元素的至少一个参数。

该方法可以进一步包括：获得至少一个控制参数，其中，该至少一个控制参数控制使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，从接收比特流中获得该至少一个控制参数。

获得物理空间的至少一个声学特性可以包括：从位于物理空间内的至少一个传感器获得传感器信息；以及基于该传感器信息，确定表示物理空间的至少一个声学特性的至少一个参数。

物理空间的至少一个声学特性可以在收听空间描述文件内。

组合参数可以是统一场景表示的至少一部分。

使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景可以包括：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将包括物理空间的至少一个声学特性的第二比特流合并到该统一场景表示中。

使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景可以包括：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将物理空间的至少一个声学特性合并到该统一场景表示中。

使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景可以包括：基于在渲染期间在物理空间内的收听位置和虚拟场景的至少一个信息，获得至少一个虚拟场景描述参数；以及基于至少一个虚拟场景描述参数和物理空间的至少一个声学特性的组合，生成组合几何形状参数。

生成组合几何形状参数可以包括：基于物理空间的至少一个声学特性，确定与物理空间相关联的至少一个混响声学参数；基于虚拟场景的至少一个信息，确定与虚拟场景相关联的至少一个混响声学参数；以及基于与物理空间相关联的至少一个混响声学参数和与虚拟场景相关联的至少一个混响声学参数，确定组合几何形状参数。

根据第三方面，提供了一种装置，该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

该装置可以进一步被使得：首先实现音频场景以在物理空间中进行渲染，其中，该音频场景可以能够基于虚拟场景的至少一个信息和物理空间的至少一个声学特性来配置。

被使得获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景的该装置可以被使得：从接收比特流中获得表示虚拟场景的音频元素的至少一个参数。

该装置可以进一步被使得：获得至少一个控制参数，其中，该至少一个控制参数可以被配置为控制被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的部件，从接收比特流中获得该至少一个控制参数。

被使得获得物理空间的至少一个声学特性的该装置可以进一步被使得：从位于物理空间内的至少一个传感器获得传感器信息；以及基于该传感器信息，确定表示物理空间的至少一个声学特性的至少一个参数。

物理空间的至少一个声学特性可以在收听空间描述文件内。

被使得使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并的该装置可以被使得：生成组合参数。

组合参数可以是统一场景表示的至少一部分。

被使得使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的该装置可以被使得：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将包括物理空间的至少一个声学特性的第二比特流合并到该统一场景表示中。

被使得使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的该装置可以被使得：将包括虚拟场景的至少一个信息的第一比特流合并到统一场景表示中；以及将物理空间的至少一个声学特性合并到该统一场景表示中。

被使得使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景的该装置可以被使得：基于在渲染期间在物理空间内的收听位置和虚拟场景的至少一个信息，获得至少一个虚拟场景描述参数；以及基于至少一个虚拟场景描述参数和物理空间的至少一个声学特性的组合，生成组合几何形状参数。

被使得生成组合几何形状参数的该装置可以被使得：基于物理空间的至少一个声学特性，确定与物理空间相关联的至少一个混响声学参数；基于虚拟场景的至少一个信息，确定与虚拟场景相关联的至少一个混响声学参数；以及基于与物理空间相关联的至少一个混响声学参数和与虚拟场景相关联的至少一个混响声学参数，确定组合几何形状参数。

根据第四方面，提供了一种装置，该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

根据第五方面，提供了一种装置，其包括：用于确定在渲染期间在物理空间内的收听位置的部件；用于获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景的部件；用于获得物理空间的至少一个声学特性的部件；用于使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并的部件；以及用于根据收听位置，渲染准备好的音频场景的部件。

根据第六方面，提供了一种包括指令的计算机程序[或者包括程序指令的计算机可读介质]，这些指令/程序指令用于使装置至少执行以下操作：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

根据第七方面，提供了一种非暂时性计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

根据第八方面，提供了一种装置，其包括：确定电路，其被配置为确定在渲染期间在物理空间内的收听位置；获得电路，其被配置为获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得电路，其被配置为获得物理空间的至少一个声学特性；准备电路，其被配置为使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及渲染电路，其被配置为根据收听位置，渲染准备好的音频场景。

根据第九方面，提供了一种计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：确定在渲染期间在物理空间内的收听位置；获得虚拟场景的至少一个信息以根据至少一个信息来渲染虚拟场景；获得物理空间的至少一个声学特性；使用虚拟场景的至少一个信息和物理空间的至少一个声学特性来准备音频场景，以使得虚拟场景声学和物理空间声学被合并；以及根据收听位置，渲染准备好的音频场景。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1示意性地示出装置系统可以在其内实现一些实施例的合适的环境；

图2示意性地示出适合于实现一些实施例的装置系统；

图3示出根据一些实施例的如图2中所示的示例装置系统的操作的流程图；

图4示意性地示出根据一些实施例的如图2中所示的示例渲染器；

图5示意性地示出适合于实现一些实施例的另一装置系统；以及

图6示意性地示出适合于实现所示装置的示例设备。

具体实施方式

以下进一步详细描述了用于组合内容创建器指定的EIF和收听者空间相关的LSDF以创建组合场景以在增强现实(和相关联的)应用中进行渲染的合适装置和可能机制。

此外，如本文所讨论的，存在提供用于AR应用内的沉浸式音频的实际渲染的装置和可能机制。

如本文描述的实施例组合收听空间特性和虚拟场景渲染参数以获得融合渲染，其提供适当的音频性能而无需考虑场景特性。

如在一些实施例中描述的融合(或组合)被实现，以使得可听化与渲染是针对AR还是VR无关或不知道渲染是针对AR还是VR。换句话说，如本文描述的实施例可以在适合于执行AR、VR(和混合现实(MR))的系统内实现。这种机制允许AR渲染可利用许多不同的可听化实现来部署。

在一些实施例中，如本文描述的装置和可能机制可以在具有6自由度(即，收听者或收听位置可以在场景内移动，并且收听者位置被跟踪)双耳音频渲染的系统内实现。

在这种实施例中，提出了如下装置和方法：使用来自在比特流中指定的音频场景的信息，包括虚拟场景描述和在渲染期间获得的收听者的物理空间的描述，以获得实现可听化的统一场景表示，该可听化与虚拟和物理空间无关，并在物理空间内提供高质量沉浸感。

在一些实施例中，这可以通过如下操作来实现：验证并确定来自收听者的物理空间描述的声学元素，并将它们添加到包括虚拟场景声学元素的虚拟场景描述中，以创建增强的虚拟场景描述。

此外，在一些实施例中，上述方法和装置可以确定包括收听者的物理空间描述的一个或多个声学环境的混响参数。

在一些实施例中，上述方法和装置可以被配置为：使用增强的虚拟场景描述和一个或多个混响参数来创建统一场景表示。

因此，在一些实施例中，统一场景表示包括组合虚拟场景声学信息和物理场景声学信息两者的信息。

在这种实现中，当使用这种统一场景表示来渲染音频时，在收听者感知虚拟和物理声学元素两者的组合或融合声学效果时，所渲染的音频在收听者中产生沉浸式和/或自然的音频感知。

在一些实施例中，声学参数包括以下中的至少一项：反射元素；声学材料描述；遮挡元素；材料声学反射率；材料声学吸收；材料声学透射；材料散射能量的量；以及材料耦合能量。

在一些实施例中，上述装置和方法进一步包括在融合音频场景中使用反射元素、声学参数或遮挡元素中的至少一项，以用于在虚拟声学渲染器中产生音频信号。

在一些实施例中，根据在比特流中携带的元数据，针对融合音频场景仅组合声学参数特性的子集。例如，仅收听者空间几何形状和材料特性被包含，而不包含混响参数。

在又一些其他实施例中，基于在渲染器中执行的优化，仅来自收听者的物理空间描述的反射元素的子集被包含或被排除以用于创建融合场景。

在如本文描述的这种实施例中，上述装置和方法创建了统一场景表示，其进一步使能/实现渲染与声学特性属于物理收听空间还是比特流提供的虚拟场景无关，并因此如上所述，可以在能够处理AR和VR应用的系统中被实现。

图1示出了可以在其内实现一些实施例的示例场景。在该示例中，存在位于物理收听空间101内的用户107。此外，在该示例中，用户109正在体验具有虚拟场景元素的六自由度(6DOF)虚拟场景113。在该示例中，虚拟场景113元素由两个音频对象(第一对象103(吉他手)和第二对象105(鼓手))、虚拟遮挡元素(例如，被表示为虚拟隔板117)和虚拟房间115(例如，具有墙壁，其具有在虚拟场景描述内定义的大小、位置、声学材料)表示。渲染器(其在该示例中是AR头戴式设备或手持式电子设备或装置111)需要收听者的物理空间101的声学特性以执行渲染，以使得可听化对于用户的物理收听空间(例如，墙壁的位置和墙壁的声学材料特性)来说是似真/合理的。在该示例中，由合适的头戴式耳机或头戴式设备109向用户107呈现渲染。

关于图2，示出了根据一些实施例的适合于提供增强现实(AR)渲染实现的系统(并且其可以被用于诸如图1中所示的场景)的示意图。

在图2所示的示例中，示出了编码器/捕获/生成器装置201，其被配置为获得采用虚拟场景定义参数和音频信号的形式的内容，并提供包括音频信号和虚拟场景定义参数的合适的比特流/数据文件。

在一些实施例中，如图2中所示，编码器/捕获/生成器装置201包括编码器输入格式(EIF)数据生成器211。编码器输入格式(EIF)数据生成器211被配置为创建EIF(编码器输入格式)数据，其是内容创建器场景描述。场景描述信息包含虚拟场景几何形状信息，诸如音频元素的位置。此外，场景描述信息可以包括其他相关联的元数据，诸如方向性和大小以及其他声学相关元素。例如，相关联的元数据可以包括虚拟墙壁的位置及其声学特性以及其他声学相关对象，诸如遮挡物。声学特性的示例是声学材料特性，诸如(频率相关)吸收或反射系数、散射能量的量或透射特性。在一些实施例中，虚拟声学环境可以根据其(频率相关)混响时间或扩散对直接声音比率来描述。在一些实施例中，EIF数据生成器211可以更一般地被称为虚拟场景信息生成器。在一些实施例中，EIF参数212可以被提供给合适的(MPEG-I)编码器215。

在一些实施例中，编码器/捕获/生成器装置201包括音频内容生成器213。音频内容生成器213被配置为生成与音频场景对应的音频内容。在一些实施例中，音频内容生成器213被配置为生成或以其他方式获得与虚拟场景相关联的音频信号。例如，在一些实施例中，这些音频信号可以使用合适的麦克风或麦克风阵列获得或捕获、基于经处理的所捕获的音频信号或被合成。在一些实施例中，音频内容生成器213还被配置为生成或获得与音频信号相关联的音频参数，诸如虚拟场景内的位置、信号的方向性。在一些实施例中，音频信号和/或参数212可以被提供给合适的(MPEG-I)编码器215。

编码器/捕获/生成器装置201可以进一步包括合适的(MPEG-I)编码器215。在一些实施例中，MPEG-I编码器215被配置为使用所接收的EIF参数212和音频信号/参数214，并基于该信息，生成合适的编码比特流。这例如可以是MPEG-I 6DoF音频比特流。在一些实施例中，编码器214可以是专用编码设备。该编码器的输出可以被传递给分发或存储设备。在一个实施例中，MPEG-I 6DoF音频比特流内的音频信号可以以MPEG-H3D格式进行编码，该MPEG-H 3D格式在ISO/IEC 23008-3:2018“异构环境中的高效编码和媒体递送—第3部分：3D音频(High efficiency coding and media delivery in heterogenousenvironments-Part 3:3D audio)”中进行了描述。该规范描述了适用于音频对象、通道和高阶Ambisonics的编码方法。该规范的低复杂度(LC)简档对于编码音频信号可特别有用。

在一些实施例中，在定义虚拟场景的情况下，可以由编码器215导出最相关的反射元素。换句话说，编码器215可以被配置为从虚拟场景内的元素的列表中选择或过滤出相关的元素，并仅对基于这些元素的参数进行编码和/或将其传递给播放器/渲染器。这将避免将比特流中的冗余反射元素发送到渲染器。最相关的反射元素可以例如基于其大小和/或在虚拟声学模拟中被一个或多个模拟音频波前拦截的可能性来确定。进而，可以针对所有在声学上不透明的反射元素来传送材料参数。材料参数可以包含与反射或吸收参数、透射或其他声学特性相关的参数。例如，这些参数可以包括倍频程或三分之一倍频程频带处的吸收系数。

在一些实施例中，虚拟场景描述还包括适用于整个场景或整个场景的某个子空间/子区域/子体积的一个或多个声学环境描述。在一些实施例中，基于混响特性信息来导出虚拟场景混响参数，诸如预延时、-60dB混响时间(RT60)(其指定了音频信号衰减到低于初始级别的60dB所需的时间)或扩散对直接比率(DDR)(其指定了在EIF中指定的每个声学环境描述中扩散混响相对于总发射声音的级别的级别)。RT60和DDR可以是频率相关的特性。

此外，图2中所示的装置系统包括(可选的)存储/分发装置203。存储/分发装置203被配置为从编码器/捕获/生成器装置201获得经编码的参数216和经编码的音频信号224，并存储它们和/或将它们分发到合适的播放器/渲染器装置205。在一些实施例中，存储/分发装置203的功能被集成在编码器/捕获/生成器装置201内。

在一些实施例中，比特流通过网络以任何所需的传送格式被分发。在一些实施例中，可以使用的示例传送格式可以利用任何合适的方法来完成，诸如DASH(基于HTTP的动态自适应流传输)、CMAF(通用媒体应用格式)、HLS(HTP实时流传输)等。

在一些实施例中，诸如图2中所示，音频信号在针对经编码的参数的单独的数据流中被发送。因此，例如，在一些实施例中，存储/分发装置203包括(MPEG-I 6DoF)音频比特流存储设备221，其被配置为获得、存储/分发经编码的参数216。在一些实施例中，音频信号和参数被存储/发送为单个数据流或格式。

如图2中所示的装置系统进一步包括播放器/渲染器装置205，其配置为从存储/分发装置203获得经编码的参数216和经编码的音频信号224。附加地，在一些实施例中，播放器/渲染器装置205被配置为获得传感器数据(与物理收听空间相关联)230，并被配置为生成一个或多个合适的经渲染的音频信号，这些音频信号被提供给用户(例如，如图2中所示，头戴式设备、头戴式耳机)。

在一些实施例中，播放器/渲染器装置205包括(MPEG-I 6DoF)播放器221，其被配置为接收6DoF比特流216和音频数据224。在一些实施例中，在AR渲染的情况下，还可以预计播放器221被配备有AR感测模块以获得收听空间物理特性。

仅6DoF比特流(具有音频信号)足以在VR场景中执行渲染。也就是说，在VR场景中，必需的声学信息在比特流中被携带，并足以在场景中在不同的虚拟位置处渲染音频场景(根据诸如材料和混响参数之类的虚拟声学特性)。

对于AR场景，渲染器可以在渲染期间使用例如在LSDF格式中被提供给渲染器的AR感测来获得收听者空间信息。这提供了诸如收听者物理空间反射元素(诸如墙壁、窗帘、窗、房间之间的开口等)之类的信息。

因此，例如，在一些实施例中，用户或收听者正在操作(或佩戴)合适的头戴式设备(HMD)207。该HMD可以被配备有传感器，其被配置为生成合适的传感器数据230，传感器数据230可以被传递给播放器/渲染器装置205。

此外，在一些实施例中，播放器/渲染器装置205(和MPEG-I 6DoF播放器221)包括AR传感器分析器231。AR传感器分析器231被配置为(从HMD感测数据或以其他方式)生成物理空间信息。这例如可以采用LSDF参数格式，并且相关的LSDF参数232被传递给合适的渲染器233。

此外，在一些实施例中，播放器/渲染器装置205(和MPEG-I 6DoF播放器221)包括(MPEG-I)渲染器233，其被配置为接收虚拟空间参数216、音频信号224和物理收听空间参数236，并生成合适的空间音频信号，如图2中所示，这些空间音频信号被输出到HMD 207，例如，作为将要由头戴式耳机输出的双耳音频信号。

在一些实施例中，虚拟场景几何形状和材料信息可以被配置为提供用于确定早期反射和遮挡建模的信息。

因此，渲染器或播放器被配置为从编码比特流中获得虚拟场景描述。该比特流可以包含以类似于MHAS分组(MPEG-H 3D音频流)的方式封装的渲染参数。这使得音频和音频元数据的传输能够被传输为分组，适合于通过HTTP或其他传输网络来传送。分组格式也使其适合于通过DASH、HLS、CMAF等来传送。

用于声学参数建模的渲染参数可以被提供为新的MHAS分组(被称为PACTYP_ACOUSTICPARAMS)。MHASPacketLabel将与正在被消费的MPEG-H内容的值相同。该MHAS分组携带从EIF导出的用于虚拟场景的声学建模信息，并经由比特流被传送到渲染器。MHAS分组PACTYP_ACOUSTICPARAMS包含结构EIFAcousticParams。

在上面的示例中，ReverbParamsStruct()描述了用于混响建模的参数。此外，给定的MHAS分组中的声学环境的num_acoustic_environments数量描述了混响参数。上述示例进一步示出了acoustic_environment_id，其是声学环境的标识符。在一些实施例中，这是唯一的，并且没有两个声学环境将具有相同的标识符。

reverb_input_type参数描述了用于混响建模的输入是否将是直接音频、直接音频以及早期反射、仅早期反射等。

/>

在一些实施例中，基于多模式传感器(视觉、景深、红外线等)，生成或获得周围环境的AR场景描述。在图2中示出了其示例，其中，由用户佩戴的HMD包括传感器，其被配置为生成物理收听场景或环境信息。因此，播放器/渲染器通常仅知道周围环境的内周长。该信息例如可以被表示为从收听空间周围环境的(深度)图中导出的三角形网格的集合。

在一些实施例中，AR感测接口(AR传感器分析器231)被配置为将感测的表示转换成合适的格式(例如，LSDF)，以便以可互操作的方式提供收听空间信息，只要它们符合格式(LSDF)，其就可以满足不同的渲染器实现。收听空间信息例如可以被提供为LSDF中的单个网格。

在一些实施例中，物理收听空间材料信息与网格面相关联。网格面与材料特性一起表示被用于早期反射建模的反射元素。

在一些实施例中，收听空间描述网格可以被处理以获得隐式容纳盒(containmentbox)，以用于描述诸如RT60、DDR之类的声学参数适用的声学环境体积。在一些实施例中，容纳盒还可以是不符合简单形状(例如，诸如长方体、圆柱体、球体等)的容纳网格。如果物理收听空间包括多个声学环境，LSDF可以包括多个非重叠的连续或非连续网格集合或多个重叠网格(包括一个或多个声学环境)。

在一些实施例中，LSDF导出的参数可以被转换成类似的渲染参数数据结构，以由渲染器将它们包含到统一场景表示(USR)中。这些经由MHAS分组(具有分组类型PACTYP_ARACOUSTICPARAMS)来获得。这经由携带LSDF导出的信息的LSDF接口来获得。对于LSDF导出的参数，从根据LSDF的渲染参数导出中获得以下数据结构：

关于图3，示出了根据一些实施例的图2中所示的装置的操作。在该示例中，示出了一种渲染器内的方法，其被配置为获得统一场景表示(USR)，该统一场景表示组合与虚拟场景和物理收听空间相关联的信息。

因此，例如，在一些实施例中，该方法可以包括获得虚拟场景材料特性，如在图3中由步骤301所示。

附加地，在一些实施例中，该方法可以包括获得虚拟场景几何形状，如在图3中由步骤303所示。

此外，该方法可以包括获得虚拟场景混响参数，如在图3中由步骤305所示。

在已获得虚拟场景材料特性、虚拟场景几何形状和虚拟场景混响参数后，进而可以生成(和/或编码)合适格式化的(EIF)虚拟场景参数，如在图3中由步骤307所示。

在已生成合适格式化的(EIF)虚拟场景参数并获得音频信号参数(诸如位置、扩散度等)后，进而可以生成合适的(MPEG-I)6DoF比特流，如在图3中由步骤309所示。

进而，可以将该比特流发送到渲染器/播放装置，如在图3中由步骤311所示。

因此，渲染器可以被配置为例如从接收比特流中从类型为PACTYP_ACOUSTICPARAMS的MHAS分组中接收声学参数。EIFAcousticParamsStruct()包含EarlyReflectionsParamsStruct()。渲染器可以被配置为从ReflectingElementListStruct()中提取反射元素和相关联的材料特性。随后，渲染器可以被配置为从ReverbParamsStruct()中提取用于混响建模的信息，其中ReverbParamsStruct()在EIFAcousticParamsStruct()内并在相同的MHAS分组(PACTYP_ACOUSTICPARAMS)中被携带。从比特流中获得的混响参数适用于虚拟场景声学环境。进而，这些参数可以如本文所述地被包含到统一场景描述(USR)中。声学环境的位置在比特流中在AcousticEnvironmentRegionStruct()中针对虚拟场景(例如，如图1中所示的物理环境中的虚拟房间)被指定。在一些实施例中，当用户在AcousticEnvironmentVolumeStruct()内时，可以根据EIFAcousticParams()中的ReverbParamsStruct()来执行混响建模。

在一些实施例中，获得收听者空间材料特性，如在图3中由步骤313所示。

此外，在一些实施例中，获得收听者空间几何形状，如在图3中由步骤315所示。

在已获得收听者空间材料特性和收听者空间几何形状后，进而可以使用它们以合适的格式生成(和/或编码)合适的收听者空间参数(例如，一系列LSDF参数)，如在图3中由步骤317所示。

在已生成合适的(MPEG-I)6DoF比特流和合适的收听者空间参数(LSDF参数)，并且此外已获得渲染参数(例如，这些参数可以是收听者或用户的定向和/或位置，并且其可以从头戴式设备或用户输入装置获得)后，可以使用这些值来确定或获得虚拟场景描述(VSD)参数。VSD参数的确定在图3中由步骤319示出。

此外，进而合并场景几何形状，如在图3中由步骤321所示。该合并可以包括从LSDF中提取收听空间几何形状和相关联的材料特性。进而，渲染器可以输入这些特性作为MHAS_ARACOUSTICPARAMS MHAS分组。该MHAS分组包含LSDFAcousticParams()作为有效载荷。在一些实施例中，使用EarlyReflectionParamsStruct()数据结构来获得收听空间几何形状信息。使用来自收听空间的反射和遮挡元素来填充USR数据结构。随后，USR数据结构可以体现包括虚拟场景以及收听空间反射元素信息的统一场景几何形状。

在已获得或生成整个场景几何形状后，渲染操作不需要维持或保持跟踪哪些反射元素属于比特流导出的(虚拟)反射元素或物理收听空间。换句话说，渲染器可以被配置为将整个场景几何形状作为单个集合来处理。

此外，在一些实施例中，将来自收听空间的反射元素添加到USR中可以导致在源自物理收听空间的反射中的早期反射建模，随后是与在比特流中指定的虚拟场景反射元素的二次反射。类似地，源自虚拟场景的反射可以具有与物理场景中的反射元素的二次反射。在组合或融合场景的情况下，这些新的反射组合被处理。这可以通过如下操作来完成：在渲染器中确定附加的反射材料组合，以基于ReflectionMaterialListStruct()中的reflections_order来添加材料滤波器。

以这种方式，统一表示导致早期反射和遮挡渲染，其不受比特流指定的虚拟场景或物理收听空间中存在的任何数量的反射或遮挡元素的融合的限制。在一些实施例中，可以使用任何合适的方法来执行来自收听空间的早期反射信息的后续处理。在一些实施例中，没有明确地创建用于不同的反射阶数的材料滤波器，但每次声波从物理或虚拟材料反射时，渲染器累加声学效果值(诸如在频带处的衰减值)，并进而在接近渲染结束时，设计复合滤波器以对复合或聚合响应进行建模。

此外，在一些实施例中，可以以任何合适的方式获得收听者空间声学参数(例如，从安装在HMD上的传感器获得或以其他方式获得)。这些参数可以包括来自LSDF的混响时间60(RT60)和/或DDR。在图3中由步骤323示出了获得收听者空间声学参数。

在已获得收听者空间声学参数后，进而可以使用它们来合成合适的声学参数，如在图3中由步骤325所示。在一些实施例中，使用低延迟和计算高效的混响参数建模(RPM)工具在渲染器中导出混响参数。在渲染器或6DoF音频播放器中从这种RPM工具获得混响参数，这些混响参数在表示方面等同于经由比特流获得的混响参数。在一些实施例中，渲染器中的RPM工具可以被配置为向渲染器输出被定义为ReverbParamsStruct()的参数格式(以用于实现空间音频信号的合适处理或渲染)。在一些实施例中，ReverbParamsStruct()是LSDFAcousticParams()的子集，LSDFAcousticParams()可以在合适的MHAS_ARACOUSTICPARAMS MHAS分组的有效载荷内。在一个实施例中，混响参数可以包括反馈延迟网络(FDN)混响器的参数。这种混响器包含M个延迟线，其中，例如，M＝15，它们经由酉反馈矩阵(unitary feedback matrix)A彼此馈送。延迟线的参数可以采用DelayLineStruct来表示。用于延迟线的参数可以包括其长度(例如，以厘米为单位)、在空间上渲染延迟线的输出的空间位置、以及衰减滤波器参数。延迟线长度可以根据物理或虚拟场景尺寸(诸如其宽度、高度、和/或深度)来调整。在一个实施例中，衰减滤波器可以是无限脉冲响应(IIR)图形均衡器滤波器。图形均衡器可以是二阶段(second order section，SOS)IIR滤波器的级联。在一个实施例中，用于这种图形均衡器的参数可以采用GraphicEqCascadeFilterStruct来表示。在每个延迟线处的图形均衡器参数被调整，以使得它可以被用于创建每/按照输入样本的所需衰减量，从而获得所需RT60时间。可以在多个频带处以频率相关的方式提供RT60。图形均衡器可以相应地被设计为在倍频程、三分之一倍频程或巴克(Bark)频带处提供合适的衰减。此外，混响器参数可以包含其他图形均衡器的参数，该其他图形均衡器被用于对传入的音频进行滤波，以便根据给定的DDR特性来调整扩散混响的级别。也可以使用具有可调混响特性(诸如在频域中应用的衰减噪声序列)的其他混响器。

在已获得合成混响参数和虚拟场景描述格式后，进而可以基于VSD和LSDF反射元素和材料滤波器，生成组合几何形状，如在图3中由步骤327所示。

进而，可以合并收听者空间混响参数，如在图3中由步骤329所示。因此，进而，可以从MHAS分组中在LSDFAcousticParams()中的ReverbParamsStruct()中提取渲染器确定的混响参数。在USR中进一步包括用于混响建模的比特流获得的声学环境特性以及物理收听空间导出的声学环境。

进而，确定组合几何形状，包括材料参数和收听者空间混响参数，如在图3中由步骤331所示。在这种实施例中，进而可以基于AcousticEnvironmentRegionStruct()中的AcousticEnvironmentVolumeStruct()，确定组合或融合音频场景中的每个声学环境。因此，根据收听者位置，执行混响建模。如果音频源在一个AcousticEnvironmentRegionStruct()的区域中，而收听者在第二AcousticEnvironmentRegionStruct()的区域内，则针对第二声学环境内的音频源，利用第二声学环境来执行混响建模。对于第一声学环境中的音频源，根据第二声学环境混响建模参数，处理传递到第二声学环境中的反射。

作为这些操作的结果，可以获得融合USR。

在一些实施例中，LSDF可以被直接用于组合渲染参数以生成统一场景表示(USR)。为了执行此操作，LSDF被转换成内存中数据结构以使能方便操纵。

LSDF中的网格描述从内存中数据结构中被提取，并被转换成USR的反射和遮挡元素表示。在一些实施例中，在将LSDF与USR组合之前，对从LSDF中获得的反射元素执行局部简化。

从LSDF中提取声学环境信息以获得混响描述参数(诸如DDR、RT60、预延迟)。进而，渲染器中的合适的混响参数导出工具可以使用该信息。混响参数可以被认为在其语义信息上等同于EIF导出的混响参数。随后，这些参数被包含到USR中。

类似地，在部分合并来自比特流和物理空间的参数的情况下，仅从LSDF的内存中表示中提取必需的参数以将其包含在USR中。

因此，可以看出，可以利用不同的方法来实现USR导出。如这些实施例中所示的概念是合并比特流和物理空间导出的信息以执行音频场景的整体可听化。

关于图4，示出了作为渲染器323的一部分的示例USR融合器或组合器400。在一些实施例中，USR组合器400(其也可以被称为USR生成器)包括早期反射组合器401。早期反射组合器401被配置为从LSDF和比特流(或EIF)中获得早期反射参数，并生成统一早期反射建模数据结构。例如，这可以包括生成统一反射元素位置和反射元素材料参数。

在一些实施例中，USR组合器400包括遮挡组合器403。遮挡组合器403被配置为从收听空间以及虚拟场景中获得遮挡元素，以获得统一遮挡参数数据结构。例如，这可以包括生成统一遮挡元素位置和遮挡元素材料参数。

此外，在一些实施例中，USR组合器400包括混响参数组合器405。混响参数组合器405被配置为从收听空间中获得混响参数(诸如由合适的混响参数确定器421确定或导出的参数)以及从比特流(或EIF)中获得虚拟场景，以获得统一混响参数数据结构。

在一些实施例中，USR组合器400包括融合/组合器控制器407，其被配置为控制早期反射组合器401、遮挡组合器403和混响参数组合器405。在一些实施例中，控制器407被配置为控制组合或融合，以使得它能够基于所确定的实现情况或场景来控制组合。例如，在资源受限的条件下控制组合。在这种场景中，渲染器可以使用复杂度降低机制来指导组合。此外，在一些实施例中，该组合器控制器可以被配置为实现组合控制分析和复杂度降低。

在一些实施例中，早期反射组合器401、遮挡组合器403和混响参数组合器405可以将经组合或融合的USR数据结构输出到空间音频信号处理器或可听化器(auralizer)411。

因此，渲染器233可以包括合适的空间音频信号处理器411，其被配置为随后基于由USR组合器400所确定的渲染参数来执行可听化(或空间音频信号处理)。

以这种方式，融合或组合以生成统一数据结构可以被认为是用于不同的可听化(空间音频信号处理)工具的适配层，而不需要它们知道渲染是针对AR实现还是VR实现。

在一些实施例中，收听空间信息进一步被用于增强来自比特流的虚拟场景描述。例如，从LSDF中导出的混响参数被用于虚拟场景的混响建模。在一些实施例中，这可以通过在EIFAcousticEnvironmentRegionStruct中替换(如果已经存在于比特流元数据中)或添加(如果在比特流元数据中不存在)ReverbParamsStruct()来实现。随后添加零填充以保留比特流的后续结构，或者修改MHAS分组大小以反映新的大小。在这种实施例中，任何后续渲染对于任何空间音频信号处理来说都是透明的，诸如图4中所示。在不同的实现实施例中，可以直接在USR内完成修改，而不是操纵所接收的比特流和LSDF MHAS分组。

在一些其他实施例中，基于从收听空间信息(例如，LSDF)中获得的反射元素位置来执行早期反射组合，而材料特性从比特流中使用(即，从EIF中导出)。在一些实施例中，这可以通过覆盖/覆写接收比特流中的ReflectingElementStruct()来实现。

在一些其他实施例中，混响特性可以是虚拟混响特性和物理混响特性的组合。例如，VR比特流可以描述具有虚拟尺寸具有一个或多个声学相关的表面和/或材料和第一混响特性的声学环境。LSDF信息可以描述具有物理尺寸和第二混响特性的第二声学环境。组合空间的预期再现可以使得物理环境和虚拟环境的声学两者可以影响渲染，并且虚拟空间可以直接与物理环境相连接。在这种情况下，例如，期望虚拟环境中的音频对象的声音受到虚拟环境和物理环境的声学两者的影响。例如，早期反射被创建为由虚拟环境的虚拟尺寸和表面以及物理环境的物理尺寸和表面所导致的反射的组合。在一个实施例中，通过组合虚拟场景和物理空间的声学环境来创建组合声学，以使得存在两个耦合的声学环境，其中，声音可以在它们之间行进/传播，因此，两个环境彼此相连接。为了创建空间的似真/合理渲染，还可以组合混响特性。在一个实施例中，存在两个混响器，一个根据虚拟环境混响特性进行调整，并且另一个根据物理环境特性进行调整。当收听者在物理空间中并且声源在虚拟空间中时，利用虚拟空间混响器对声源进行混响，并且这产生了混响输出。进而，该混响输出可以被馈送到物理空间混响器中，该物理空间混响器对该声音进行进一步混响，以创建包含这两个耦合的空间的混响特性的输出。

关于图5，示出了可以实现一些实施例的示例装置系统。

因此，示出了场景描述获得器503，其被配置为获得合适的EIF信息，并被配置为将EIF信息传递给计算机1 511。

进一步示出了音频元素获得器501，其被配置为获得音频元素信息(例如，该信息可以包括有关诸如音频对象、对象标签、通道和高阶Ambisonic信息之类的元素的信息)，并将它们传递给计算机1 511，并且在一些实施例中传递给其他音频元素获得器501b。

还示出了编码音频元素获得器505，其被配置为获得(MPEG-H)编码/解码的音频元素，并将它们传递给音频编码器513。

计算机1 511可以包括(6DoF)音频编码器513，其被配置为接收音频对象信息和场景描述信息。这例如可以采用(原始)音频数据以及编码/解码音频数据的形式，并由此与EIF一起创建采用6DoF比特流(其将包括6DoF渲染元数据)形式的6DoF场景。此外，编码器513可以被配置为对音频数据进行编码，例如通过利用MPEG-H 3D或任何其他合适的编解码器来实现。因此，在一些实施例中，编码器被配置为生成经编码的6DoF比特流(包括6DoF元数据)和经编码的音频数据比特流。在一些实施例中，编码器被配置为将经编码的6DoF比特流(包括6DoF元数据)和经编码的音频数据比特流两者组合到单个比特流中，以使得单个比特流可以包含(MPEG-H)编码音频信号以及用于6DoF渲染的6DoF场景信息。

在一些实施例中，经编码的6DoF比特流(和经编码的音频信号)可以被存储在服务器中，以用于存储或后续流传输。这在图5中由计算机2521和6DOF音频比特流(存储设备/流传输器)523所示。

此外，用户可以使用HMD 561来消费感兴趣的AR场景。HMD 561可以被配备有位置和定向跟踪传感器，其被配置为向计算机3 531输出位置和定向信息562。此外，HMD 561可以被配备有合适的AR感测传感器，其被配置为从收听者的物理环境中获得声学特性，并将其传递给计算机3531(并且特别是6DoF音频播放器541和LSDF创建器543)。

计算机3 531可以包括6DoF音频播放器541，其被配置为检索6DoF比特流，该6DoF比特流可以包括(原始)音频数据以及经编码/解码的音频数据和EIF。附加地，计算机3 531可以被配置为接收音频数据(与6DoF比特流一起)，其中，该音频数据可以是MPEG-H编码的。

因此，计算机3 531被配置为接收信息，这将使能/实现6DoF增强现实(AR)场景的合适渲染，其中，物理空间与其他音频对象、元素等叠加。可以通过合适的接入网络从计算机2 531(在一些实施例中，其可以是服务器)中检索相关的音频和比特流。该网络例如可以是WIFI/5G/LTE网络中的至少一个。

此外，6DoF音频播放器541被配置为从HMD的AR感测模块531获得收听空间信息，并从LSDF创建器543获得LSDF信息。

在一些实施例中，6DoF音频播放器541包括解码器和渲染器545，其被配置为执行比特流导出的渲染参数和LSDF导出的场景信息的组合或融合。此外，在一些实施例中，渲染器可以基于从组合中获得的USR来执行渲染，以生成用户可以经由被附接到HMD 561的头戴式耳机551体验的空间音频552。

在上述示例中，虚拟场景和物理收听空间是其中用户或收听者能够在六自由度中移动的空间。然而，应当理解，场景和/或收听空间还可以是其中用户或收听者能够在小于六自由度中移动的空间。例如，用户可以仅能够在单个平面(例如，仅水平或垂直平面)上移动，或者可以仅能够以受限的方式围绕单点移动(所谓的3DoF+场景或环境)。在一些实施例中，虚拟场景或物理收听空间仅以二维建模。由此，在一些实施例中，(6DoF)比特流可以仅被定义为表示虚拟场景或物理收听空间的比特流或数据。

关于图6，示出了可以表示任何上述装置(例如，计算机1 511、计算机2 521或计算机3 531)的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1400是移动设备、用户设备、平板电脑、计算机、音频播放装置等。

在一些实施例中，设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码，例如，如本文描述的方法。

在一些实施例中，设备1400包括存储器1411。在一些实施例中，至少一个处理器1407被耦接到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中，存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1411还可以包括用于存储数据(例如根据本文描述的实施例已被处理或将要被处理的数据)的存储数据部分。每当需要时，可以由处理器1407经由存储器-处理器耦接来取回存储在程序代码部分内的所实现的程序代码和存储在存储数据部分内的数据。

在一些实施例中，设备1400包括用户接口1405。在一些实施例中，用户接口1405可以被耦接到处理器1407。在一些实施例中，处理器1407可以控制用户接口1405的操作，并从用户接口1405接收输入。在一些实施例中，用户接口1405可以使用户能够例如经由小键盘向设备1400输入命令。在一些实施例中，用户接口1405可以使用户能够从设备1400获得信息。例如，用户接口1405可以包括显示器，其被配置为向用户显示来自设备1400的信息。在一些实施例中，用户接口1405可以包括触摸屏或触摸接口，其能够使信息被输入到设备1400，并且还向设备1400的用户显示信息。在一些实施例中，用户接口1405可以是如本文描述的用于与位置确定器通信的用户接口。

在一些实施例中，设备1400包括输入/输出端口1409。在一些实施例中，输入/输出端口1409包括收发机。在这种实施例中，收发机可以被耦接到处理器1407，并被配置为使能例如经由无线通信网络与其他装置或电子设备通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或无线耦接与其他电子设备或装置通信。

收发机可以通过任何合适的已知通信协议与其他装置通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(例如，IEEE 802.X)、合适的短程射频通信协议(例如，蓝牙)、或红外数据通信途径(IRDA)。

收发机输入/输出端口1409可以被配置为接收信号，并且在一些实施例中，通过使用执行合适代码的处理器1407来确定如本文描述的参数。

本文还指出，虽然上面描述了示例实施例，但在不背离本发明的范围的情况下，可以对所公开的解决方案进行若干变化和修改。

一般而言，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本公开的一些方面可以以硬件实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件实现，然而本公开并不限于此。尽管本公开的各方面可以被示出和描述为框图、流程图或者使用一些其他图形表示，但可以理解，作为非限制性示例，本文描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

如在本申请中所使用的，术语“电路”可以指以下中的一项或多项或全部：

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现)；

(b)硬件电路和软件的组合，诸如(如果适用)：

(i)模拟和/或数字硬件电路与软件/固件的组合；以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器，其一起工作以使诸如移动电话或服务器之类的装置执行各种功能)；以及

(c)硬件电路和/或处理器，诸如微处理器或微处理器的一部分，其需要软件(例如，固件)来操作，但操作不需要软件时可以不存在软件。

“电路”的这一定义适用于在本申请中该术语的全部使用，包括在任何权利要求中的使用。作为进一步的示例，如在本申请中所使用的，术语“电路”还将覆盖仅一个硬件电路或处理器(或多个处理器)或硬件电路或处理器的一部分及其伴随的软件和/或固件的实现。

术语“电路”还将覆盖(例如且如果适用于具体要求的元件)用于移动设备的基带集成电路或处理器集成电路、或者服务器、蜂窝网络设备或其他网络设备中的类似集成电路。

本公开的实施例可以由计算机软件(诸如在处理器实体中，其可由移动设备的数据处理器执行)或硬件或软件和硬件的组合来实现。计算机软件或程序(也被称为程序产品，包括软件例程、小程序和/或宏)可以被存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括一个或多个计算机可执行组件，当运行程序时，这些计算机可执行组件被配置为执行实施例。一个或多个计算机可执行组件可以是至少一个软件代码或其部分。

此外，就此而言，应当注意，如附图中的逻辑流程的任何框可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在以下各项上：诸如存储芯片之类的物理介质、或在处理器内实现的存储块、磁介质以及光介质(诸如例如DVD及其数据变体、CD)。物理介质是非暂时性介质。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术实现，例如基于半导体的存储设备、磁存储设备和系统、光存储设备和系统、固定存储器以及可移除存储器。数据处理器可以具有适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括以下中的一项或多项：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、FPGA、门级电路以及基于多核处理器架构的处理器。

本公开的实施例可以在诸如集成电路模块之类的各种组件中实践。一般而言，集成电路的设计是高度自动化的过程。可以使用复杂且强大的软件工具，将逻辑级别设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

本公开的各种实施例所寻求的保护范围由独立权利要求阐述。本说明书中描述的未落入独立权利要求的范围的实施例和特征(如果有)将被解释为可用于理解本公开的各种实施例的示例。

前面的描述已经通过非限制性示例提供了本公开的示例性实施例的全面且信息性的描述。但当结合附图和所附权利要求阅读时，鉴于上面的描述，许多修改和变化对于相关领域的技术人员而言将变得显而易见。然而，本公开的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。实际上，存在进一步的实施例，其包括一个或多个实施例与先前讨论的任何其他实施例的组合。

Claims

1.一种用于在物理空间中渲染音频场景的装置，包括被配置为执行以下操作的部件：

确定在渲染期间在所述物理空间内的收听位置；

获得虚拟场景的至少一个信息以根据所述至少一个信息来渲染所述虚拟场景；

获得所述物理空间的至少一个声学特性；

使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景，以使得虚拟场景声学和物理空间声学被合并；以及

根据所述收听位置，渲染准备好的音频场景。

2.根据权利要求1所述的装置，其中，所述部件进一步被配置为：首先实现所述音频场景以在所述物理空间中进行渲染，其中，所述音频场景能够基于所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来配置。

3.根据权利要求1或2中任一项所述的装置，其中，被配置为获得所述虚拟场景的所述至少一个信息以根据所述至少一个信息来渲染所述虚拟场景的部件被配置为：从接收比特流中获得表示所述虚拟场景的音频元素的至少一个参数。

4.根据权利要求1至3中任一项所述的装置，其中，所述部件进一步被配置为：获得至少一个控制参数，其中，所述至少一个控制参数被配置为控制被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景的部件，其中，从接收比特流中获得所述至少一个控制参数。

5.根据权利要求3所述的装置，其中，表示所述虚拟场景的所述音频元素的所述至少一个参数包括六自由度虚拟场景的以下中的至少一项：声学反射元素；声学材料；声学音频元素空间范围；以及声学环境特性。

6.根据权利要求3或从属于权利要求3的任一项权利要求所述的装置，其中，表示所述虚拟场景的所述音频元素的所述至少一个参数包括以下中的至少一项：

与所述虚拟场景相关联的几何形状信息；

所述虚拟场景内的至少一个音频元素的位置；

所述虚拟场景内的至少一个音频元素的形状；

所述虚拟场景内的至少一个音频元素的声学材料特性；

所述虚拟场景内的至少一个音频元素的散射特性；

所述虚拟场景内的至少一个音频元素的透射特性；

所述虚拟场景内的至少一个音频元素的混响时间特性；以及

所述虚拟场景内的至少一个音频元素的扩散对直接声音比率特性。

7.根据权利要求3或从属于权利要求3的任一项权利要求所述的装置，其中，表示所述虚拟场景的所述音频元素的所述至少一个参数是描述所述虚拟场景声学的六自由度比特流的一部分。

8.根据权利要求1至7中任一项所述的装置，其中，被配置为获得所述物理空间的所述至少一个声学特性的部件被配置为：

从位于所述物理空间内的至少一个传感器获得传感器信息；以及

基于所述传感器信息，确定表示所述物理空间的所述至少一个声学特性的至少一个参数。

9.根据权利要求8所述的装置，其中，表示所述物理空间的至少一个声学特性的所述至少一个参数包括以下中的至少一项：

所述物理空间内的至少一个音频元素的镜面反射能量；

所述物理空间内的至少一个音频元素的吸收能量；

所述物理空间内的至少一个音频元素的漫反射能量；

所述物理空间内的至少一个音频元素的透射能量；

所述物理空间内的至少一个音频元素的耦合能量；

与所述物理空间相关联的几何形状信息；

所述物理空间内的至少一个音频元素的位置；

所述物理空间内的至少一个音频元素的形状；

所述物理空间内的至少一个音频元素的声学材料特性；

所述物理空间内的至少一个音频元素的散射特性；

所述物理空间内的至少一个音频元素的透射特性；

所述物理空间内的至少一个音频元素的混响时间特性；以及

所述物理空间内的至少一个音频元素的扩散对直接声音比率特性。

10.根据权利要求9所述的装置，其中，与所述物理空间相关联的所述几何形状信息包括定义物理空间几何形状的至少一个网格单元。

11.根据权利要求10所述的装置，其中，所述至少一个网格单元中的每个网格单元包括至少一个顶点参数和至少一个面参数，其中，每个顶点参数定义相对于网格原点位置的位置，每个面参数包括被配置为标识定义所述面的几何形状的顶点的顶点标识符和标识定义与所述面相关联的声学特性的声学参数的材料参数。

12.根据权利要求11所述的装置，其中，标识定义与所述面相关联的声学特性的声学参数的所述材料参数包括以下中的至少一项：

所述面的散射特性；

所述面的透射特性；

所述面的混响时间特性；以及

所述面的扩散对直接声音比率特性。

13.根据权利要求1至12中任一项所述的装置，其中，所述物理空间的所述至少一个声学特性在收听空间描述文件内。

14.根据权利要求1至13中任一项所述的装置，其中，被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景，以使得所述虚拟场景声学和所述物理空间声学被合并的部件被配置为：生成组合参数。

15.根据权利要求14所述的装置，其中，所述组合参数是统一场景表示的至少一部分。

16.根据权利要求1至15中任一项所述的装置，其中，被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景的部件被配置为：

将包括所述虚拟场景的所述至少一个信息的第一比特流合并到统一场景表示中；以及

将包括所述物理空间的所述至少一个声学特性的第二比特流合并到所述统一场景表示中。

17.根据权利要求14至15中任一项所述的装置，其中，被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景的部件被配置为：

将所述物理空间的所述至少一个声学特性合并到所述统一场景表示中。

18.根据权利要求1至17中任一项所述的装置，其中，被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景的部件被配置为：

基于在渲染期间在所述物理空间内的所述收听位置和所述虚拟场景的所述至少一个信息，获得至少一个虚拟场景描述参数；以及

基于所述至少一个虚拟场景描述参数和所述物理空间的所述至少一个声学特性的组合，生成组合几何形状参数。

19.根据权利要求17所述的装置，其中，所述物理空间的所述至少一个声学特性包括以下中的至少一项：至少一个反射元素几何形状参数；以及至少一个反射元素声学特性。

20.根据权利要求17至19中任一项所述的装置，其中，被配置为生成所述组合几何形状参数的部件被配置为：

基于所述物理空间的所述至少一个声学特性，确定与所述物理空间相关联的至少一个混响声学参数；

基于所述虚拟场景的所述至少一个信息，确定与所述虚拟场景相关联的至少一个混响声学参数；以及

基于与所述物理空间相关联的所述至少一个混响声学参数和与所述虚拟场景相关联的至少一个混响声学参数，确定所述组合几何形状参数。

21.一种用于在物理空间中渲染音频场景的装置的方法，所述方法包括：

确定在渲染期间在所述物理空间内的收听位置；

获得所述物理空间的至少一个声学特性；

根据所述收听位置，渲染准备好的音频场景。

22.一种装置，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置至少：

确定在渲染期间在所述物理空间内的收听位置；

获得所述物理空间的至少一个声学特性；

根据所述收听位置，渲染准备好的音频场景。

23.一种装置，包括：

确定电路，其被配置为确定在渲染期间在所述物理空间内的收听位置；

获得电路，其被配置为获得虚拟场景的至少一个信息以根据所述至少一个信息来渲染所述虚拟场景；

获得电路，其被配置为获得所述物理空间的至少一个声学特性；

准备电路，其被配置为使用所述虚拟场景的所述至少一个信息和所述物理空间的所述至少一个声学特性来准备所述音频场景，以使得虚拟场景声学和物理空间声学被合并；以及

渲染电路，其被配置为根据所述收听位置，渲染准备好的音频场景。

24.一种包括指令的计算机程序或者包括程序指令的计算机可读介质，所述指令或所述程序指令用于使装置至少执行以下操作：

确定在渲染期间在所述物理空间内的收听位置；

获得所述物理空间的至少一个声学特性；

根据所述收听位置，渲染准备好的音频场景。

25.一种非暂时性计算机可读介质，包括程序指令，所述程序指令用于使装置至少执行以下操作：

确定在渲染期间在所述物理空间内的收听位置；

获得所述物理空间的至少一个声学特性；

根据所述收听位置，渲染准备好的音频场景。