CN117546236A

CN117546236A - 音频渲染系统、方法和电子设备

Info

Publication number: CN117546236A
Application number: CN202280042880.1A
Authority: CN
Inventors: 史俊杰; 黄传增; 叶煦舟; 张正普; 柳德荣
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-06-15
Filing date: 2022-06-15
Publication date: 2024-02-09
Also published as: WO2022262758A1; US20240119946A1

Abstract

本公开涉及一种音频渲染系统、方法和电子设备。音频渲染系统包括：音频信号编码模块，被配置为对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及音频信号解码模块，被配置为对所述编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。

Description

音频渲染系统、方法和电子设备

相关申请的交叉引用

本申请要求2021年6月15日提交的申请号为PCT/CN2021/100076的国际专利申请的权益，该申请通过引用并入本文。

技术领域

本公开涉及音频信号处理技术领域，特别涉及一种音频渲染系统、音频渲染方法、电子设备和非瞬时性计算机可读存储介质。

背景技术

音频渲染指的是对于来自声源的声音信号进行适当处理以在用户应用场景中为用户提供希望的收听体验，特别地提供沉浸式体验。

一般来说，一个优秀的沉浸式音频系统要为听音者提供沉浸在虚拟环境中的感觉。然而，沉浸感本身并不是虚拟现实多媒体业务成功商业部署的充分条件，为了在商业上取得成功，音频系统还应该提供内容创作工具，内容创作工作流，内容的分发方式与平台，以及一套对于消费者和创作做都经济上可行且易用的渲染系统。

对于成功的商业部署而言，音频系统是否实用且经济可行，取决于使用场景以及该使用场景在内容生产与消费过程中所期待的精细程度。例如在对于用户生产的内容(UGC)专业工作者生产的内容(PGC)，对于整条创作与消费链路与内容回放的体验会有着很不同的预期。比如一个普通的以休闲为目的的用户与一个专业用户对于内容的质量以及回放时候提供的沉浸感的要求会非常不同，但于此同时，他们也会拥有不同的回放装置，比如专业用户可能会搭建更为精细的听音环境。

发明内容

根据本公开的一些实施例，提供了一种音频渲染系统，包括：音频信号编码模块，被配置为对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及音频信号解码模块，被配置为对所述编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。

根据本公开的另一些实施例，提供一种音频渲染方法，包括：音频信号编码步骤，用于对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及音频信号解码步骤，用于对所述编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。。

根据本公开的又一些实施例，提供一种芯片，包括：至少一个处理器和接口，接口，用于为至少一个处理器提供计算机执行指令，至少一个处理器用于执行计算机执行指令，实现本公开中所述的任一实施例的音频渲染方法。

根据本公开的又一些实施例，提供计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开中所述的任一实施例的音频渲染方法。

根据本公开的又一些实施例，提供一种电子设备，包括：存储器；和耦接至存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行本公开中所述的任一实施例的音频渲染方法。

根据本公开的再一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开中所述的任一实施例的音频渲染方法。

根据本公开的再一些实施例，提供一种计算机程序产品，包括指令，所述指令当由处理器执行时实现本公开中所述的任一实施例的音频渲染方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1示出音频信号处理过程的一些实施例的示意图；

图2A和图2B示出了音频系统架构的一些实施例的示意图；

图3A示出了四面体B-format麦克风的示意图；

图3B示出了N＝0阶(第一排)到3阶(最后一排)球谐函数的示意图；

图3C示出了HOA麦克风的示意图；

图3D示出了X-Y对立体声麦克风的示意图；

图4A示出了根据本公开的实施例的音频渲染系统的框图；

图4B示出了根据本公开的实施例的音频渲染处理的示意性概念图；

图4C和4D示出了根据本公开的实施例的音频渲染系统中的前处理操作的示意图；

图4E示出了根据本公开的实施例的音频信号编码模块的框图，

图4F示出了根据本公开的实施例的音频信号空间编码的流程图；

图4G示出了根据本公开的实施例的音频渲染过程的示例性实现的流程图；

图4H示出了根据本公开的实施例的音频渲染过程的示例性实现的示意图；

图4I示出了根据本公开的实施例的音频渲染方法的流程图；

图5示出本公开的电子设备的一些实施例的框图；

图6示出本公开的电子设备的另一些实施例的框图；

图7示出本公开的芯片的一些实施例的框图。

应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。

本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含在其后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包含但不限于”。因此，包括与包含是同义的。术语“基于”意指“至少部分地基于”。

整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定，否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

图1示出了音频信号处理、尤其是从采集到渲染过程/系统的一些概念性示意图。如图1所示，在该系统中，音频信号在被采集之后进行音频处理或制作，经处理/制作后的音频信号被分发到渲染端以进行渲染，从而被以适当的形式呈现给用户，满足用户体验。应指出这样的音频信号处理流程可适用于各种应用场景，尤其是虚拟现实音频内容表达。

特别地，根据本公开的实施例，虚拟现实音频内容表达广义上涉及元数据、渲染器/渲染系统、音频编解码器等，其中元数据、渲染器/渲染系统、音频编解码器可以在逻辑上相互分离。在进行本地存储和制作时，渲染器/渲染系统可以对元数据和音频信号直接进行处理，而无需进行音频编解码，特别地，这里的渲染器/渲染系统用于进行音频内容制作。另一方面，在用于传输(例如直播或者双向通信)，则可以设定元数据+音频流的传输格式，然后将元数据和音频内容通过包括编解码过程的中间过程来传输给渲染器/渲染系统，以供渲染给用户。在一些实施例中，例如虚拟现实音频内容表达的示例性实施例中，可以从采集端获取输入音频信号和元数据，其中输入音频信号包括各种适当的形式，例如包括通道(channel)、对象(object)、HOA或者它们的混合格式。元数据可以包括适当类型，诸如动态元数据和静态元数据，其中动态元数据可以与输入音频信号一起传输，例如采用各种适当的方式，作为示例，可以根据元数据定义生成元数据信息，其中动态元数据可以伴随音频流传输，具体封装格式根据系统层采用的传输协议类型进行定义。当然，元数据也可以直接传输到回放端，而不用进一步生成元数据信息。例如静态元数据可以直接传输到回放端，而不经历编解码过程。在传输过程中，输入音频信号将进行音频编码，然后传输至回放端，然后进行解码以供通过回放设备，诸如渲染器，回放给用户。在回放端，渲染器将元数据对解码后的音频文件进行渲染输出。逻辑上元数据和音频编解码相互独立，且解码器和渲染器之间解耦合。渲染器可被配置有标识符，即渲染器具有对应的标识符，不同渲染器具有不同的标识符。作为示例，渲染器采用注册制，即回放端设置有多个ID，分别指示回放端可支持的多种渲染器/渲染系统，例如可包含至少4个ID，ID1指示基于双耳输出的渲染器，ID2指示基于扬声器输出的渲染器，ID3-ID4可指示其它类型的渲染器，各种渲染器可以指示同样的元数据定义，当然也可支持不同的元数据定义，每种渲染器可具有对应的元数据定义，在此情况下在传输过程中可以采用特定的元数据标识符来指示特定的元数据定义，这样渲染器可具有对应的元数据标识符，以供在回放端根据元数据标识符选择对应的渲染器来进行音频信号的回放。

图2A和2B示出了音频系统的示例性实现。图2A示出了根据本公开的一些实施例的音频系统的示例性架构的示意图。如图2A所示，音频系统可包括但不限于音频采集、音频内容制作、音频存储/分发、以及音频渲染。图2B示出音频渲染过程/系统的各阶段的示例性实现。其中主要示出了音频系统中的制作和消费阶段，并且可选地还包括中间处理阶段，例如压缩。这里的制作和消费阶段可分别对应于图2A中所示的制作和渲染阶段的示例性实现。该中间处理阶段可以被包含在图2A中所示的分发阶段中，当然可以包含在制作阶段、渲染阶段中。以下将参照图2A和2B来描述音频系统中各个部分的实现。应指出，除了对采集、制作、分发和渲染复杂性的考虑之外，针对要支持通信的音频场景，音频系统可能还需要满足其他的要求，例如延迟，并且这样的要求可通过相应的处理手段来满足，这里将不再详细描述。

音频采集

在音频采集阶段，将捕获音频场景以采集得到音频信号。音频采集可通过适当的音频采集手段/系统/装置等来处理。

音频采集系统可与音频内容制作中所使用的格式密切相关，音频内容格式可以包括以下三种中的至少一者：基于场景的音频表示(scene-based audio representation)、基于声道的音频表示(channel-based audio representation)和基于对象的音频表示(object-based audio representation)，并且对于每种音频内容格式，可以采用相应的或者相适配的设备和/或方式来进行捕获。作为示例，对于支持基于场景的音频表示的应用，可采用支持球形的麦克风阵列来捕捉场景音频信号，而在使用基于声道的音频与基于对象的音频表示的应用中，则可使用一个或多个经过特定优化的麦克风来进行声音的录制以捕捉音频信号。附加地，音频采集还可包括对于所捕捉音频信号的适当后处理。以下将示例性地描述各种音频内容格式的音频采集。

基于场景的音频表示的采集

基于场景的音频表示是一种可扩展的、不依赖于扬声器的声场表示，例如在ITU R BS.2266-2中给出了示例定义。根据一些实施例，基于场景的音频可基于一组正交的基础函数(orthogonal basis functions)，如球面谐波函数(spherical harmonics)。

根据一些实施例，所使用的基于场景的音频格式的例子可包括B-Format、一阶Ambisonics(FOA)、高阶Ambisonics(HOA)等。Ambisonics(高保真度立体声响复制)指示全向的音频系统，即除了水平面之外，它还能包括听音者上方和下方的声源。Ambisonics的听觉场景可以通过使用一阶或更高阶的Ambisonics话筒来捕捉。作为示例，基于场景的音频表示通常可指示包括HOA的音频信号。

根据一些实施例，B-format麦克风(B-format Microphone)或一阶Ambisonics(FOA)格式可使用前四个低阶球面谐波，用四个信号W、X、Y和Z表示一个三维声场。其中，W来记录全方向的声压，X来记录采集位置的前/后声压梯度，Y来记录采集位置上的左/右声压梯度，Z来记录采集位置的上/下声压梯度。这四个信号可以通过处理所谓的"四面体"传声器的原始信号来产生，"四面体"传声器可由四个麦克风组成，呈左前上(LFU)、右前下(RFD)、左后下(LBD)和右后上(RBU)配置，如图3A所示。

在一些实施例中，B-format麦克风阵列配置可以部署在便携式球形音频和视频采集设备上，对原始传声器信号分量进行实时处理以得出W、X、Y和Z分量。根据一些示例，可使用纯水平B型麦克风(Horizontal only B-format microphones)来进行听觉场景的捕捉和音频采集。特别地，一些配置可以支持仅有水平的B-format，其中只有W、X和Y分量被捕获，而没有捕捉Z分量。与FOA和HOA的3D音频功能相比，纯水平Bformat放弃了由高度信息提供的额外沉浸感。

在一些实施例中，可包含多种用于高阶Ambisonics数据交换的格式。在HOA数据交换格式中，声道的排序(channel order)、归一化的方法(normalization)和极性(polarity)应该被正确定义。在一些实施例中，对于HOA信号，可通过高阶Ambisonics麦克风来进行听觉场景的捕捉。特别地，相比于一阶Ambisonics，可以通过增加指向性麦克风的数量而大大增强空间分辨率和聆听区域，例如可通过二阶、三阶、四阶和高阶Ambisonics系统(统称为HOA，Higher Order Ambisonics)来实现。一个N阶的三维Ambisonics系统需要(N+1) ²个麦克风，这些麦克风的分布可以与相同阶数的球谐函数的分布一致。图3B示出了N＝0阶(第一排)至3阶(最后一排)球谐函数。图3C示出了HOA麦克风。

基于声道的音频表示的采集

基于声道的音频表示的采集往往是使用麦克风进行音频采集，并且还可包含进行基于声道的后处理。作为示例，基于对象的音频表示通常可指示包括channel的音频信号。这样的采集系统可以使用多个麦克风来捕捉来自不同方向的声音；或者使用重合的或间隔的传声器阵列。根据一些实施例，根据麦克风的数量和空间排布，可以创建不同的基于声道的格式，例如，从图3D所示的X-Y麦克风(XY pair stereo Microphone)，通过使用麦克风阵列录制8.0的声道内容。另外，内置在用户设备中的麦克风同样也能实现基于声道的音频格式的录制，如使用手机录制立体声(stereo)等。

基于对象的音频表示的采集

根据一些实施例，基于对象的音频表示可使用一系列单一音频元素的集合来表示整个复杂的音频场景，每个音频元素包括一个音频波形和一组相关参数或元数据(metadata)。元数据可指定各音频元素在声音场景中的运动与转换，从而复现最初艺术家设计的音频场景。基于对象的音频所提供的体验通常超出一般的单声道音频采集，从而使音频更有可能满足制作者的艺术意图。作为示例，基于对象的音频表示通常可指示包括object的音频信号。

根据一些实施例，基于对象的音频表示的空间精度取决于元数据和渲染系统。它并不直接与音频所包含的通道数量相关联。

基于对象的音频表示的采集可采用适当的采集设备，例如扬声器来捕捉，并且被进行适当的处理。例如可采集单声道音轨并基于元数据进一步处理得到基于对象的音频表示。作为一个示例，声音对象通常使用经过声音设计的录制或生成的单声道音轨。这些单声道音轨可作为声音元素在例如数字音频工作站(DAW)的工具中可以被进一步处理，比如说使用元数据指定声音元素在听音者周围的水平面上，甚至可以在三维空间的任意位置。因此，DAW中的一个"音轨(track)"可对应于一个音频对象。

附加地，根据本公开的实施例，为了实现、甚至进一步优化沉浸感，音频采集系统通常还可考虑以下因素并进行相应地优化：

-信噪比(SNR)。不属于音频场景的噪声源往往会减弱真实感和沉浸感，因此，音频采集系统应该有一个足够低的噪音底线，使其被录制的内容适当掩盖，而在复制过程中无法察觉。

-声学过载点(AOP)。音频采集系统的非线性行为可能会减弱真实感，因此，音频采集系统中传声器应具有足够高的声学过载点，以避免感兴趣的音频场景超出阈值而产生非线性失真。

-麦克风频率响应。麦克风在全频段应该具有平坦的频率响应。

-风噪保护。风噪声可能会导致非线性的音频行为，从而减弱真实感。因此，音频采集系统或者麦克风应被设计以削弱风噪声，例如使之低于特定阈值。

-麦克风元件的配置，例如间距、串扰、增益和指向性匹配：这些方面最终会增强或减弱基于场景的音频再现的空间准确性。因此，麦克风的上述配置方面可在保证空间准确性的情况下被优化设计。

-延迟。如果需要双向交流，口到耳的延迟(the mouth to ear latency)应该足够低，以允许自然的对话体验。因此，音频采集系统应被设计以实现低延迟，例如低于特定延迟阈值。

应指出，上述音频采集处理以及各种音频表示仅仅是示例性的，而非限制性的。音频表示还可以是其它已知的或者将来要知晓的合适形式，并且可采用适当的装置来获取，只要这样的音频表示可从音乐场景获取并且可用于呈现给用户即可。

音频内容制作

在通过音频捕获/采集系统获取了音频信号之后，该音频信号将被输入到制作阶段以进行音频内容制作。

在一些实施例中，在音频内容制作流程中，需要满足制作者对音频内容的创作功能。例如对于基于对象的声音表示系统，创作者需要具有编辑声音对象并生成元数据的能力，这里可以执行前述元数据生成的操作。制作者对于音频内容的创作可通过各种适当的方式来实现。

在一个示例中，如图2B中所示，在制作阶段，接收输入的音频数据和音频元数据，并且对音频数据和音频元数据进行处理，特别是授权和元数据标记，以得到生产结果。在一些实施例中，示例性地，音频处理的输入可以包括，但不局限于，基于目标的音频信号、FOA(First-Order Ambisonics，一阶球面声场信号)、HOA(Higher-Order Ambisonics，高阶球面声场信号)、立体声、环绕声等，特别地，音频处理的输入还可以包括场景信息和元数据等，与所输入的元数据相关联。在一些实施例中，音频数据被输入音轨接口以进行处理，音频元数据经由通用音频源数据(如ADM扩展等)进行处理。可选地，还可以进行标准化处理，尤其是对于经授权和元数据标记得到的结果进行标准化处理。

在一些实施例中，在音频内容制作流程中，创作者也需要能够对作品进行监听与及时的修改。作为示例，可以提供一个音频渲染系统以提供场景的监听功能。此外，为消费者能够获得创作者想要表达的艺术意图，为创作者监听提供的渲染系统应当与消费者提供的渲染系统相同以保证一致的体验。

音频制作格式

在音频内容制作流程中或者之后可以得到了具有适当的音频制作格式的音频内容。根据本公开的实施例，音频制作格式可以为各种适当的格式。作为示例，音频制作格式可以是ITU-R BS.2266-2中所规定的。ITU-R BS.2266-2中规定了基于通道、基于对象和基于场景的音频表示，如下表1所示。例如，表1中的所有信号类型都可以描述目标是带来沉浸式体验的三维音频。

表1：音频制作格式

根据一些实施例，表中所示的信号类型都可结合音频元数据来控制渲染。作为示例，音频元数据包括以下中的至少一个：

-通道配置。

-基于场景的音频表示所使用的归一化方法(normalization)与通道的排序(channel order)。

-对象的配置和属性，例如在空间中的位置。

-旁白，特别地，使用头部追踪技术使得旁白适应听音者头部的运动，或者静止在场景中，例如：对于看不见说话人的评论音轨，可以不需要进行头部追踪，使用静态的音频处理，而对于可见的评论音轨，则根据头部追踪结果，将该音轨定位到场景中的说话人处。

应指出，上述音频制作过程以及各种音频制作格式仅仅是示例性的，而非限制性的。音频制作还可采用任何其他适当的手段、任何其它适当的装置执行，采用任何其它适当的音频制作格式，只要能够处理获取的音频信号以供渲染即可。

音频渲染之前的中间处理阶段

根据本公开的一些实施例，在对所捕获的音频信号进行制作之后，并在提供给音频渲染阶段之前，可对音频信号进行进一步的中间处理。

在一些实施例中，对音频信号的中间处理可包括音频信号的存储与分发。例如可以以适当的格式，例如分别以音频存储格式和音频分发格式来存储和分发音频信号。音频存储格式和音频分发格式可以为各种适当的形式。以下描述作为示例的现有的与音频存储和/或音频分发有关的空间音频格式或空间音频交换格式。

一个示例可以是一种容器格式，例如.mp4容器，其可以容纳空间(基于场景的)和非盲目的音频。这种容器格式可包括空间音频盒(SA3D，Spatial Audio Box)，其包含诸如Ambisonics类型、顺序、通道顺序和标准化等信息。该容器格式还可包括非叙事音频盒(SAND，The Non-Diegetic Audio Box)，其用于表示听众头部旋转时应保持不变的音频(如评论、立体声音乐等)。在实现中，可以使用Ambisonic Channel Number(ACN)通道排序，Schmidt semi-normalization(SN3D)归一化计算。

另一个示例可以是基于音频定义模型(ADM，Audio Definition Model)的，其是一个开放的标准，寻求通过XML兼容基于对象、通道和场景的音频系统。它的目的是提供一种描述音频元数据的方法，使文件或流中的每个单独的音轨都能被正确渲染、处理或分发。该模型分为内容部分和格式部分。内容部分描述音频中包含的内容，如音轨语言(中文英文日文等)和响度。格式部分包含音频被正确解码或渲染所需的技术信息，如声音对象的位置坐标和HOA组件的顺序。例如，Recommendation ITU-R BS.2076-0规定了一系列ADM元素，如audioTrackFormat(描述数据是什么格式)、audioTrackUID(唯一识别有音频场景记录的音轨或资产)、audioPackFormat(将音频通道分组)等。AMD可以用于基于通道、对象和场景的音频。

还另一示例是AmbiX。AmbiX支持基于HOA场景的音频内容。AmbiX文件包含字长为16、24或32比特定点数，或32比特浮点数的线性PCM数据，可以支持.caf(苹果的核心音频格式)中所有有效的采样率。AmbiX采用ACN排序和SN3D归一化，支持HOA和混合阶数的Ambisonics(mixed-order Ambisonics)。作为交换Ambisonics内容的流行格式，AmbiX正在获得迅速的发展。

作为另一示例，对音频信号的中间处理还可以包括适当的压缩处理。作为示例，可以将制作得到的音频内容进行编码/解码，得到压缩结果，然后将该压缩结果提供给渲染侧以供进行渲染。例如，这样的压缩处理可有助于减少数据传输开销，提高数据传输效率。压缩中的编解码可以采用任何适当的技术来实现。

应指出，上述音频中间处理过程、用于存储、分发等的格式仅仅是示例性的，而非限制性的。音频中间处理还可以包含任何其它适当的处理，还可以采用任何其它适当的格式，只要经处理的音频信号能够有效地传输给音频渲染端以供进行渲染即可。

应指出，音频传输过程中还包括元数据的传输，元数据可以为各种适当的形式，可以适用于所有音频渲染器/渲染系统，或者可以分别相应地应用于各个音频渲染器/渲染系统。这样的元数据可被称为渲染相关的元数据，例如可包括基础元数据和扩展元数据，基础元数据为例如符合BS.2076的ADM基础元数据。描述音频格式的ADM元数据可被以XML(可扩展标记语言)形式给出。在一些实施例中，元数据可以被适当的控制，例如分层控制。

元数据主要使用XML编码来实现，XML格式的元数据可包含在BW64格式的音频文件中的“axml”或“bxml”块中进行传输，所生成的元数据中的“音频包格式标识”、“音频轨道格式标识”以及“音轨唯一标识”可被提供给BW64文件以用于将元数据与实际的音轨相链接。元数据基础元素可包括但不限于以下中的至少一者音频节目、音频内容、音频对象、音频包格式、音频通道格式、音频流格式、音频轨道格式、音轨唯一标识、音频块格式等等。扩展元数据可被以各种适当的形式被封装，例如可以与前述的基础元数据相似的方式被封装，并且可以包含适当的信息、标识符等等。

音频渲染

在接收到从音频制作阶段传输到的音频信号后，在音频渲染端/回放端对音频信号进行处理以回放/呈现给用户，特别地，将音频信号以希望的效果渲染呈现给用户。

在一些实施例中，音频渲染端的处理可包括渲染之前对来自音频制作阶段的信号进行处理，作为示例，如图2B所示，根据制作侧的处理结果，利用音轨接口和通用音频元数据(如ADM扩展等)进行元数据恢复和渲染；对经元数据恢复和渲染后的结果进行音频渲染，所得到的结果输入到音频设备以供消费者消费。作为另外的示例，在中间阶段还进行了音频信号表示压缩的情况下，在音频渲染端还可进行相应的解压缩处理。

根据本公开的实施例，音频渲染端的处理可包括各种适当类型的音频渲染。特别地，可以针对每种类型的音频表示，采用相对应的音频渲染处理。作为示例，音频渲染端的输入数据可由渲染器标识符以及元数据和音频信号来构成，音频渲染端可根据传输到的渲染器指示符来选择对应的渲染器，然后所选择的渲染器来读取对应的元数据信息和音频文件，从而来进行音频回放。音频渲染端的输入数据可以采用各种适当的形式，例如可以采用各种适当的封装格式，诸如分层格式，元数据和音频文件可以封装在内层，而渲染器标识符可以封装在外层。例如，元数据和音频文件可为BW64文件格式，并且最外层可封装有渲染器标识符，例如渲染器标号、渲染器ID等。

在一些实施例中，音频渲染处理可以采用基于场景的音频渲染。特别地，对于基于场景的音频(SBA，Scene-Based Audio)，渲染可独立于声音场景的捕捉或创建，而主要针对应用场景而适应性地生成。

在一个示例中，在扬声器呈现的场景中，声音场景的渲染可通常在接收设备上进行，并生成真实或虚拟的扬声器信号。扬声器信号可以为矢量形式的扬声器阵列信号S＝[S ₁…S _n] ^T，其中1，…，n代表第1，…，n个扬声器。作为示例，扬声器信号S可通过S＝D·B来生成，其中B是SBA信号的向量B＝[B _(0,0)…B _(n,m)] ^T，向量中的下标n和m代表了球谐函数的阶次和程度，D是目标扬声器系统的渲染矩阵(也叫做解码矩阵)。

在一个示例中，在双耳呈现场景中，音频场景可通过耳机回放双耳(binaural)信号进行呈现。双耳信号可以通过虚拟扬声器信号S和扬声器位置的双耳脉冲响应矩阵IR _BIN的卷积S _BIN＝(D.B)*IR _BIN得到。

在一个示例中，在沉浸式应用中，希望声场根据头部的运动进行旋转。适合于这种旋转情况的音频信号可以通过一个旋转矩阵F与SBA信号相乘B'＝F.B来实现。

在一些实施例中，音频渲染处理可以采用基于通道的音频渲染。特别地，对于基于通道的音频表示，每个通道都与一个相应的扬声器相关联并可通过相应的扬声器来呈现。扬声器的位置在例如ITU-R BS.2051或MPEG CICP中被标准化。

在一些实施例中，在沉浸式音频的场景下，每个扬声器通道被视作一个场景中的虚拟声源渲染到耳机；也就是说，每个通道的音频信号被按照标准渲染到一个虚拟听音室的正确位置上。最直接的方法是将每个虚拟声源的音频信号与参考听音室中测量得到响应函数进行滤波。声学响应函数可以用放在人或人工头耳朵里的麦克风来测量。它们被称为双耳房间脉冲响应(BRIR，binaural room impulse responses)。这种方法可以提供高音频质量和准确的定位，但缺点是计算复杂度高，特别是对于需要渲染的通道数量较多和较长长的BRIRs。因此，一些替代方法被开发出来以在保持音频质量的同时降低复杂性。通常，这些替代方法涉及到BRIR的参数模型，例如，通过使用稀疏滤波器或递归滤波器。

在一些实施例中，音频渲染处理可以采用基于对象的音频渲染。特别地，对于基于对象的音频表示，可以在考虑了对象以及相关联的元数据的情况下进行音频渲染。特别地，在基于对象的音频渲染中，每个对象声源是同它的元数据一起独立呈现的，元数据描述了每个声源的空间属性，如位置、方向、宽度等。利用这些属性，声源在听众周围的三维音频空间中被单独渲染。

渲染可以针对扬声器阵列或者耳机进行。在一个示例中，扬声器阵列渲染使用不同类型的扬声器panning方法(如VBAP，vector based amplitude panning)，使用扬声器阵列播放的声音给听音者呈现出对象声源在指定位置的感受。在另一个示例中，对耳机的渲染也有多种不同的方式，比如使用每个声源对应方向的HRTF(Head-related transfer function)与该声源信号进行直接滤波。也可以采用间接渲染的方法，将声源渲染到一个虚拟的扬声器阵列上，然后通过对各个虚拟扬声器进行双耳渲染。

目前，多种支持沉浸式音频传输与回放的文件格式和元数据正在被使用，特别地，在常规的沉浸式音频系统中，存在着不同的音频表示方法，例如基于场景的音频表示、基于声道的音频表示、以及基于对象的音频表示，并因此相应地需要对各种类型/格式的输入进行处理。而且针对消费者的使用场景，沉浸式音频的回放设备也不相同，典型的示例包括标准扬声器阵列、自定义扬声器阵列、特殊扬声器阵列、耳机(双耳回放)等等，为此需要产生各种类型/格式的输出。然而，目前并没有一份共用的或公共的文件交换标准。这会给创作者带来麻烦，因为针对不同平台往往需要针对每一平台的定义重复渲染作品，特别地需要针对每一平台重复地产生包括基于对象、通道和场景的音频，以及用于指导所有音频元素正确渲染的元数据，这样导致现有音频系统的效率低、兼容性差。因此，希望提供一种能够在保证渲染效果与效率的同时能够兼容以上所有输入与输出格式的标准沉浸式音频渲染系统。

鉴于此，本公开构思了一种兼容性好的、高效的音频渲染，其能够兼容各种输入音频以及各种希望的音频输出，同时保证渲染效果与效率。特别地，在本公开中，能够基于所接收到的输入音频信号获取一种可供用户应用场景使用的公共空间格式的音频信号，也即是说，即使所接收到的输入音频信号可以包含或者是不同格式的音频表示信号，也可以将这样的音频表示信号变换/编码为公共空间格式的音频信号；然后可以遵照用户收听环境的回放设备类型将公共空间格式的音频信号进行解码处理，从而获得尤其适合于用户收听环境中的回放设备的输出音频，这样能够良好地兼容各种输入和输出格式，对于各种输入都能够获得特别适于用户收听环境中的回放设备的输出格式，实现兼容性良好的音频渲染系统、继而实现兼容性良好的音频系统。由此，本公开实现了改进的音频渲染，尤其是实现了改进的沉浸式音频渲染。

以下将参照附图来详细描述根据本公开的实施例的音频渲染系统和方法。

图4A示出了根据本公开的实施例的音频渲染系统的一些实施例的框图。该音频渲染系统4包括获取模块41，被配置为基于输入音频信号获取特定空间格式的音频信号，该特定空间格式的音频信号可以是从可能各种音频表示信号得到的公共空间格式的音频信号以在供用户应用场景使用；以及音频信号解码模块42，被配置为能够对该特定空间格式的编码音频信号进行空间解码，以得到供音频渲染的解码音频信号，由此可以基于空间解码后的音频信号向用户呈现/回放音频。

根据本公开的一些实施例，该特定空间格式的音频信号可被称为音频渲染中的中间音频信号，也可被称为中间信号介质，其具有可由各种输入音频信号得到的公共的特定空间格式，例如可以是是任何适当的空间格式，只要其能够得到用户应用场景/用户回放环境支持并且适合于在用户回放环境中进行回放即可。特别地，该中间信号可以是相对独立于声源的信号，并且可以根据不同的解码方法来应用于不同的场景/设备中进行回放，从而提高本申请的音频渲染系统的普适性。作为示例，该特定空间格式的音频信号可以是Ambisonics类型音频信号，更特别地，该特定空间格式的音频信号是FOA(First Order Ambisonics)，HOA(Higher Order Ambisonics)，MOA(Mixed-order Ambisonics)中的任一个或多个。

根据本公开的实施例，该特定空间格式的音频信号可基于输入音频信号的格式被适当地得到。在一些实施例中，输入音频信号可以为被分发的空间音频交换格式，其可以从所采集的各种音频内容格式得到，由此对这样的输入音频信号进行空间音频处理，以得到具有该特定空间格式的音频信号。特别地，在一些实施例中，该空间音频处理可以包括对输入音频进行的适当处理，尤其是包括解析、格式转换、信息处理、编码等，以获得该特定空间格式的音频信号。在另一些实施例中，所述特定空间格式的音频信号可以由输入音频信号直接获得而无需进行空间音频处理中的至少一些。在一些实施例中，所输入的音频信号可以是非空间音频交换格式之外的其它适当格式，特别地，输入音频信号可能包含或者直接为特定音频内容格式的信号，例如特定音频表示信号，或者包含或者直接为特定空间格式的音频信号，则输入音频信号可能无需执行空间音频处理中的至少一些，这样可无需执行前述空间音频处理，例如不执行解析、格式转换、信息处理、编码等；或者仅执行空间音频处理中的部分处理，例如仅执行编码而不执行解析、格式变换等，从而可得到特定空间格式的音频信号。

根据本公开的实施例，获取模块41可以包括音频信号编码模块413，被配置为对于所述特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号。该编码音频信号可以被包含在特定空间格式的音频信号中。根据本公开的实施例，特定音频内容格式的音频信号可以例如包括特定空间音频表示方式的空间音频信号，特别地，该空间音频信号为基于场景的音频表示信号、基于声道的音频表示信号、基于对象的音频表示信号中的至少一者。在一些实施例中，音频信号编码模块 413特别地对于所述特定音频内容格式的音频信号中的特定类型的音频信号进行编码，该特定类型的音频信号是音频渲染系统中需要或者被要求进行空间编码的音频信号，其例如可包括基于场景的音频表示信号、基于对象的音频表示信号、基于声道的音频表示信号中的特定声道信号(例如是非叙事类声道/音轨)至少一者。

可选地，获取模块41可以包括音频信号获取模块411，被配置为获取特定音频内容格式的音频信号以及该音频信号相关联的元数据信息，在一些实施例中，音频信号获取模块可以通过对输入信号进行解析而得到特定音频内容格式的音频信号以及该音频信号相关联的元数据信息，或者接收直接输入的该特定音频内容格式的音频信号以及该音频信号相关联的元数据信息。

可选地，获取模块41还可以包括音频信息处理模块412，被配置为基于特定音频内容格式的音频信号相关联的元数据提取得到特定音频内容格式的音频信号的音频参数，从而音频信号编码模块可被进一步配置为基于音频信号相关联的元数据和所述音频参数中的至少一者对于所述特定音频内容格式的音频信号进行空间编码。作为示例，该音频信息处理模块可以被称为场景信息处理器，其可将基于元数据提取得到的音频参数提供给音频信号编码模块以供进行编码。该音频信息处理模块并不是本公开的音频渲染所必需的，例如其信息处理功能可不执行，或者其可以在音频渲染系统之外，或者该音频信息处理模块可被包含在其他模块，例如音频信号获取模块或音频信号编码模块中或者其功能由其它模块来实现，因此在附图中用于虚线指示。

在一些实施例中，附加地或者可选地，该音频渲染系统可以包括信号调整模块43，其被配置为对解码音频信号进行信号处理。信号调整模块所进行的信号处理可以被称为是一种信号后处理，尤其是对解码音频信号在由回放设备进行回放之前进行的后处理。因此信号调整模块也可被称为信号后处理模块。特别地，该信号调整模块43可被配置为基于用户应用场景中的回放设备的特性对解码音频信号进行调整，旨在使得调整后的音频信号在通过音频渲染设备进行渲染时能够呈现更加适当的声学体验。应指出，该音频信号调整模块并不是本公开的音频渲染所必需的，例如该信号调整功能可不执行，或者其可以在音频渲染系统之外，或者该音频信号调整模块可被包含在其他模块，例如音频信号解码模块中或者其功能由解码模块来实现，因此在附图中用于虚线指示。

附加地，该音频渲染系统4还可以包括或者连接到音频输入端口，其用于接收输入的音频信号，该音频信号可以是在音频系统中被分发传输至音频渲染系统的，如前所述，或者是在用户端或者消费端由用户直接输入的，稍后将描述。附加地，音频渲染系统4还可以包括或者连接到输出设备，例如音频呈现设备、音频回放设备，其可以将空间解码后的音频信号呈现给用户。根据本公开的一些实施例，根据本公开的实施例的音频呈现设备或音频回放设备可以是任何适当的音频设备，例如扬声器、扬声器阵列、耳机、以及任何其它适当的能够将音频信号呈现给用户的设备。

图4B示出了根据本公开的实施例的音频渲染处理的示意性概念图，示出了基于输入音频信号来获取适合于用户应用场景中渲染、尤其是通过回放环境中的设备呈现/回放给用户的输出音频信号的流程。

首先，获取用户应用场景中可用于回放的特定空间格式的音频信号。特别地，依赖于输入音频信号的格式来进行适当处理以获得特定空间格式的音频信号。

一方面，在所述输入的音频信号包含被分发给所述音频渲染系统的具有空间音频交换格式的音频信号的情况下，可以对输入的音频信号进行空间音频处理以获得特定空间格式的音频信号。特别地，该空间音频交换格式可以是任何已知的在信号传输中音频信号所具有的适当格式，如前文所述的在音频信号分发中的音频分发格式，这里将不再详细描述。在一些实施例中，空间音频处理可以包括对输入的音频信号进行的解析、格式变换、信息处理、编码等中至少一者。特别地，可通过音频解析来从输入音频信号得出各音频内容格式的音频信号，然后对所解析出的信号进行编码以得到适合于在用户应用场景、即回放环境中进行渲染的空间格式的音频信号以供回放。此外，可选地在编码之前还可执行格式转换和信号信息处理。由此，能够从输入的音频信号得出具有特定空间音频表示方式的音频信号，并基于该具有特定空间音频表示方式的音频信号获得该特定空间格式的音频信号。

作为示例，可以从输入音频信号获取具有特定音频表示的音频信号，例如基于场景的音频表示信号、基于对象的音频表示信号、基于声道的音频表示信号中的至少一者。例如，在所述输入的音频信号为具有空间音频交换格式的音频信号的情况下，对所输入的音频信号进行解析以获取具有特定空间音频表示方式的空间音频信号，例如该空间音频信号为基于场景的音频表示信号、基于声道的音频表示信号、基于对象的音频表示信号中的至少一者，以及信号对应的元数据信息，并且可选地，还可以进一步将空间音频信号转换为预定格式，该预定格式例如为音频渲染系统、甚至是音频系统所预先规定、预定的格式。当然，这种格式转换并不是必需的。

进一步地，对于所获得的特定音频表示的音频信号，基于所述音频信号的音频表示方式来执行音频处理。具体而言，对于基于场景的音频表示信号、基于对象的音频表示信号、基于声道的音频表示信号中的叙事类声道中的至少一者执行空间音频编码，以得到具有特定空间格式的音频信号。也就是说，尽管输入音频信号的格式/表示方式可能不同，仍可将输入音频信号转换成公共的具有特定空间格式的音频信号，以供进行解码和渲染。空间音频编码处理可基于与音频信号相关联的元数据相关信息来执行，这里的元数据相关信息可以包括直接获取的音频信号的元数据，例如在解析过程中从输入音频信号得出的，和/或可选地，可以还包括对所获取的各信号的元数据信息进行信息处理而获取的空间音频信号相应的音频参数，并且可以基于该音频参数来执行空间音频编码处理。

另一方面，所输入的音频信号可以是非空间音频交换格式之外的其它适当格式，特别地例如是特定空间表示信号、甚至是特定空间格式信号，则在此情况下，可以略过前述空间音频处理中的至少一些而获得特定空间格式的音频信号。在一些实施例中，在输入音频信号不是被分发的具有空间音频交换格式的音频信号，而是直接输入的具有特定空间音频表示的音频信号的情况下，可以无需执行前述音频解析处理，而直接进行格式转换和编码。甚至，在所输入的音频信号具有预定格式的情况下，则无需执行前述格式转换，直接进行编码处理。在另一些实施例中，输入音频信号直接是所述特定空间格式的音频信号，则这样的输入音频信号可直传/透传到音频信号空间解码器，而无需进行空间音频处理，例如解析、格式转换、信息处理、编码等。例如，输入音频信号为基于场景的空间音频表示信号的情况下，这样的输入音频信号可以直接作为特定空间格式信号来直传至空间解码器，而无需前述空间音频处理。根据一些实施例，在输入音频信号不是被分发的具有空间音频交换格式的音频信号的情况下，例如可以是前述的特定空间音频表示的音频信号或者特定空间格式的音频信号，则其可以在用户端/消费端直接输入，例如可以从直接设置在渲染系统中的应用程序接口(API)直接获取。

例如，在用户端/消费端直接输入的具有特定表示方式的信号的情况下，例如为上述三种音频表示方式之一的情况下，可以无需进行前述解析处理，而直接将之转换为系统规定的格式。再例如，在所输入的音频信号已经为系统规定的格式和系统能够处理的表示方式的情况下，可以直接将之传递至所述空间编码处理模块处，而无需进行前述的解析和代码转换。再例如，如果输入的音频信号为非叙事声道信号、混响处理后的双耳信号等，则可以将该输入的音频信号直接传输至空间解码模块以进行解码，而无需执行前述空间音频编码处理。这种情况下系统中可存在判断单元/模块，以判断所输入的音频信号是否为满足上述条件。

然后，可对于所获得的具有特定空间格式的音频信号执行空间解码，特别地，所获得的具有特定空间格式的音频信号可被称为待解码音频信号，并且音频信号空间解码旨在将待解码音频信号转换为适合于通过用户应场景、例如音频回放环境、音频渲染环境中的回放设备、渲染设备进行回放的格式。根据本公开的实施例，可以根据音频信号回放模式来进行解码，该回放模式可被以各种适当的方式指示，例如被以标识符指示，并且可被以各种适当方式告知解码模块，例如随同输入音频信号一起告知解码模块，或者可由其它输入设备输入并告知解码模块。作为示例，如上述渲染器ID可用作标识符来告知回放模式为双耳回放还是扬声器回放，等等。在一些实施例中，音频信号解码可利用与用户应用场景中的回放设备对应的解码方式，尤其是解码矩阵，对该特定空间格式的音频信号进行解码，将待解码音频信号变换为合适格式的音频。在另一些实施例中，音频信号解码还可通过其他适当的方式来执行，例如虚拟信号解码等。

可选地，在音频信号解码之后，可对解码输出进行后处理，特别地进行信号调整，用于针对用户应用场景中的特定回放设备对空间解码后的音频信号进行调整，尤其是进行音频信号特性进行调整，旨在使得调整后的音频信号在通过音频渲染设备进行渲染时能够呈现更加适当的声学体验。

由此，解码后的音频信号或者调整后的音频信号可在用户应用场景中，例如在音频回放环境中通过音频渲染设备/音频回放设备被呈现给用户，满足用户的需求。

应指出，上述渲染处理中对于音频数据和/或元数据的处理可被采用各种适当的格式来执行。根据一些实施例，可以块(block)为单位进行音频信号处理，块大小可以被设定的设定。例如，块大小可以被预先设定并且在处理过程中不进行更改。例如，块大小可以在音频渲染系统初始化时被设定。在一些实施例中，可以以块为单位对元数据进行解析然后针对元数据调整场景下信息，此操作例如可被包含在根据本公开的实施例的场景信息处理模块的操作中。

以下将参照附图进一步详细描述根据本公开的实施例的音频渲染处理/系统中的各种处理/模块操作。

输入信号获取

适于由音频渲染系统进行渲染处理的信号可通过各种适当方式来获取。根据本公开的实施例，适于音频渲染系统进行渲染处理的信号可以是特定音频内容格式的音频信号。在一些实施例中，特定音频内容格式的音频信号可以被直接输入音频渲染系统，即特定音频内容格式的音频信号可作为输入信号被直接输入，从而可被直接获取。在另一些实施例中，特定音频内容格式的音频信号可被从输入音频渲染系统的音频信号获取。作为示例，输入的音频信号可能是其它格式的音频信号，例如包含特定音频内容格式的音频信号的特定组合信号、其它格式的信号，在此情况下，可以通过对输入的音频信号进行解析来获取特定音频内容格式的音频信号。在这种情况下，输入信号获取模块可被称为音频信号解析模块，其所进行的信号处理可以被称为一种信号前处理，尤其是在音频信号编码之前的处理。

音频信号解析

图4C和4D示出了根据本公开的实施例的音频信号解析模块的示例性处理。

根据本公开的一些实施例，考虑到不同的应用场景，音频信号可能被以不同的输入格式输入，因此，可以在音频渲染处理进行之前进行音频信号解析可以兼容不同格式的输入。这样的音频信号解析处理可被认为属于一种前处理/预处理。在一些实施例，该音频信号解析模块可被配置为从输入音频信号获得具有音频渲染系统兼容的音频内容格式的音频信号以及该音频信号相关联的元数据信息，特别地可对输入的任意空间音频交换格式信号进行解析，从而获得具有音频渲染系统兼容的音频内容格式的音频信号，其可包含基于对象的音频表示信号、基于场景的音频表示信号和基于声道的音频表示信号中的至少一种，以及相关联的元数据信息。图4C示出了对于任意空间音频交换格式信号输入的解析处理。

进一步地，在一些实施例中，音频信号解析模块还可以对所获取的具有音频渲染系统兼容的音频内容格式的音频信号进一步进行转换以使得音频信号具有预定格式，特别是音频渲染系统的预定格式，例如根据信号格式类型将该信号转换成音频渲染系统约定的格式。特别地，预定格式可以对应于特定音频内容格式的音频信号的预定配置参数，从而在音频信号解析操作中，可以将特定音频内容格式的音频信号进一步转换为预定配置参数。在一些实施例中，在具有音频渲染系统兼容的音频内容格式的音频信号为具有基于场景的音频表示信号的情况下，所述信号解析模块被配置为将具有不同通道排序和归一化系数的基于场景的音频信号转换为音频渲染系统约定的通道排序和归一化系数。

作为示例，对于用于分发的任意空间音频交换格式信号，不管是非流式还是流式传输的信号，都可以通过输入信号解析器，将这类信号按照空间音频的信号表示方法划分为三类信号，即基于场景的音频表示信号、基于声道的音频表示信号、基于对象的音频表示信号中的至少一种，以及这类信号所对应的元数据。另一方面，前处理中还可根据格式类型将信号转换成为系统约束的格式。例如对于基于场景的空间音频表示信号HOA，在不同的数据交换格式中使用了不同的通道排序(例如ACN，Ambisonic Channel Number，FuMa，Furse-Malham和SID，Single index designation)以及不同的归一化系数(N3D，SN3D，FuMa)，在这一步骤中，可以将它们转换成某一约定的通道排序和归一化系数，例如(ACN+SN3D)。

在一些实施例中，在输入音频信号并非是所分发的空间音频交换格式信号的情况下，可能无需对输入音频信号被进行空间音频处理中的至少一些处理。作为示例，该输入的特定音频信号可以直接为前述三种信号表示方式中的至少一种，从而可以省去前述的信号解析处理，而该音频信号以及其相关联的元数据可以直接传递至音频信号编码模块。图4D示出根据本公开的其它实施例的对于特定音频信号输入的处理。在另一些实施例中，输入音频信号甚至可以是前文所述的特定空间格式的音频信号，这样的输入音频信号可以直传/透传到音频信号解码模块，而无需执行前述的包含解析、格式转换、音频编码等空间音频处理。

在一些实施例中，针对这样的输入音频信号，该音频渲染系统还可包括特定音频输入设备，其用于直接接收输入音频信号并直传/透传至音频信号编码模块、或者音频信号解码模块。应指出，这样的特定输入设备可以例如为应用程序接口(API)，其能够接收的输入音频信号的格式已经被预先设定，例如对应于前文所述的特定空间格式，例如可以是前述三种信号表示方式中的至少一种，等等，从而当该输入设备接收到输入的音频信号时，所输入的音频信号将可以直接传递/透传，而无需进行空间音频处理中的至少一些。应指出，这样的特定输入设备也可以作为音频信号获取操作/模块的一部分，甚至被包含在音频信号解析模块中。

应指出，前述的音频信号解析模块和特定音频输入设备的实现仅仅是示例性的，而非限制性的。根据本公开的一些实施例，音频信号解析模块可被以各种适当的方式来实现。在一些实施例中，音频信号解析模块可包含解析子模块和直传子模块，解析子模块可仅接收空间交换格式的音频信号以进行音频解析，直传子模块可接收特定音频内容格式的音频信号或特定音频表示信号以进行直传。这样，音频渲染系统可被设置为使得音频信号解析模块接收两路输入，分别为空间交换格式的音频信号和特定音频内容格式的音频信号或特定音频表示信号。在另一些实施例中，音频信号解析模块可以包含判断子模块、解析子模块和直传子模块，这样音频信号解析模块可以接收任何类型的输入信号并进行适当处理。其中判断子模块可判断输入音频信号为何种格式/类型，并且在判断输入音频信号为空间音频交换格式的音频信号的情况下转至解析子模块执行上述解析操作，否则可由直传子模块将音频信号直传/透传至格式转换、音频编码、音频解码等阶段，如上所述。当然，判断子模块也可在音频信号解析模块之外。音频信号判断可采用各种已知的适当方式来实现，这里将不再详细描述。

音频信息处理

在一些实施例中，音频渲染系统可包括音频信息处理模块，其配置为基于与特定音频内容格式的音频信号相关联的元数据获取所述特定音频内容格式的音频信号的音频参数，尤其是基于与所述特定类型的音频信号相关联的元数据获取音频参数，作为可用于编码的元数据信息。根据本公开的实施例，音频信息处理模块可被称为场景信息处理模块/处理器，其获取的音频参数可被输入到音频信号编码模块，由此，所述音频信号编码模块可被进一步配置为基于所述音频参数对于所述特定类型的音频信号进行空间编码。这里，特定类型的音频信号可包括前述得自输入音频信号的具有音频渲染系统兼容的音频内容格式的音频信号，例如前述基于场景的音频表示信号、基于对象的音频表示信号、基于声道的音频表示信号中的至少一者，还特别例如是基于对象的音频表示信号、基于场景的音频表示信号、基于声道的音频表示信号中的特定类型声道信号中的至少一者。作为示例，该特定类型声道信号可被称为第一特定类型声道信号，其可以包括基于声道的音频表示信号中的非叙事类声道/音轨。在另一示例，该特定类型声道信号还可包括根据应用场景无需进行空间编码的叙事类声道/音轨。

在一些实施例中，音频信息处理模块进一步配置为基于所述特定类型的音频信号的音频内容格式来获取所述特定类型的音频信号的音频参数，特别地基于得自输入音频信号的具有音频渲染系统兼容的音频内容格式的音频信号的音频内容格式获取音频参数，例如音频参数可为分别与音频内容格式相对应的特定类型的参数，如前所述。

根据本公开的一些实施例，音频信号是基于对象的音频表示信号，并且音频信息处理模块被配置为获取基于对象的音频表示信号的空间属性信息作为可用于空间音频编码处理的音频参数。在一些实施例中，音频信号的空间属性信息包括各音频元素在坐标系中的方位信息，或者音频信号相关的声源相对于收听者的相对方位信息。在一些实施例中，音频信号的空间属性信息进一步包括该音频信号的各声音元素在坐标系中的距离信息。作为示例，在基于对象的音频表示的元数据处理中，可以获取各声音元素在坐标系中的方位信息，例如，方位角(azimuth)与俯仰角(elevation)，以及可选地还可以获取距离信息，或者可以获取各声源相对于听者头部的相对方位信息。

根据本公开的一些实施例，音频信号是基于场景的音频表示信号，并且音频信息处理模块被配置为基于与该音频信号相关联的元数据信息中获取音频信号相关的旋转信息以用于空间音频编码处理。在一些实施例中，音频信号相关的旋转信息包括音频信号的旋转信息和音频信号的收听者的旋转信息中的至少一者。作为示例，在基于场景的音频表示的元数据处理中，从元数据中读取场景音频的旋转信息与听者的旋转信息。

根据本公开的一些实施例，音频信号是基于声道的音频信号，并且音频信息处理模块被配置为基于音频信号的声道音轨类型来获取音频参数。特别地，音频编码处理将主要针对需要进行空间编码的特定类型的基于声道的音频信号，尤其是基于声道的音频信号的叙事类声道音轨，并且所述音频信息处理模块可被配置为将声道的音频表示按声道拆分为音频元素以转换为元数据作为音频参数。应指出，基于声道的音频信号的叙事类声道音轨也可不执行空间音频编码，例如依赖于具体应用场景可以不执行空间音频编码，这样的音轨可直传到解码阶段，或者依赖于回放方式被进一步处理。

作为示例，在基于声道的音频表示的元数据处理中，对于叙事类声道音轨，可根据声道的标准定义，将声道的音频表示按声道拆分为音频元素，转换为元数据进行处理。根据应用场景需要，也可不做空间音频处理，在后续环节针对不同的回放方式进行混音。对于非叙事类的声道音轨，由于不需要进行动态的空间化处理，可在后续环节针对不同的回放方式进行混音。也即是说，非叙事类的声道音轨将不被音频信息处理模块处理，即不被进行空间音频处理，而可绕过该音频信息处理模块而被直传/透传。

音频信号编码

以下将参照图4E和4F来描述根据本公开的实施例的音频信号编码模块。图4E示出了音频信号编码模块的一些实施例的框图，其中音频信号编码模块可被配置为对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号。附加地，音频信号编码模块还可被配置为获取特定音频内容格式的音频信号以及相关联的元数据相关信息。在一个示例中，音频信号编码模块可接收该音频信号和元数据相关信息，例如由前述音频信号解析模块和音频信号处理模块产生的音频信号和元数据相关信息，诸如可借助于输入端口/输入设备来接收。在另一示例中，音频信号编码模块可实现前述音频信号获取模块和/或音频信号处理模块的操作，例如可包括前述音频信号获取模块和/或音频信号处理模块来获取该音频信号和元数据。这里，音频信号编码模块也可被称为音频信号空间编码模块/编码器。图4F示出了音频信号编码操作的一些实施例的流程图，其中获取特定音频内容格式的音频信号以及与该音频信号相关联的元数据相关信息；以及对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号。

根据本公开的实施例，所获取的特定音频内容格式的音频信号可被称为待编码音频信号。作为示例，所获取的音频信号可以是非直传/透传的音频信号，可以具有各种音频内容格式或者音频表示方式，如前文所述三种表示的音频信号中的至少一种，或者其它合适的音频信号。作为示例，这样的音频信号可以是例如前文所述的基于对象的音频表示信号，基于场景的音频表示信号，或者可以已被预先规定针对特定应用场景需要被进行编码的、例如前文所述的基于声道的音频表示信号中的叙事类声道音轨。特别地，所获取的音频信号可以被直接输入，如前文所述地无需进行信号解析的信号，或者可以是从输入的音频信号中提取/解析得到的，如通过前文所述的信号解析模块得到的、而不需要进行音频编码的音频信号，例如基于声道的音频表示信号中的特定类型声道信号，这里可被称为第二特定类型声道信号，诸如前文所述的没有规定需要编码的叙事类声道音轨或者本身不需要编码的非叙事类声道音轨，则不会输入音频信号编码模块，例如直传至后续的解码模块。

根据本公开的实施例，该特定空间格式可以是音频渲染系统能够支持的空间格式，例如能够在不同用户应用场景、例如不同音频回放环境中，回放给用户。在某种意义上，该特定空间格式的编码音频信号可以用作一种中间信号介质，即指示从可能包含各种空间表示的输入音频信号编码得到公共格式的中间信号，并且从该中间信号来进行解码处理以供用于渲染。该特定空间格式的编码音频信号可以如前文所述的特定空间格式的音频信号，例如FOA、HOA、MOA等，这里将不再详细描述。由此，对于可能具有多种不同空间表示方式中的至少一者的音频信号，可以将其进行空间编码以获得可用于用户应用场景中回放的特定空间格式的编码音频信号，也即是说，即使音频信号可能包含不同的内容格式/音频表示，仍可以通过编码而获得公共或共同空间格式的音频信号。在一些实施例中，编码音频信号可以被添加到中间信号中，例如编码成中间信号。在另一种实施例中，编码音频信号也可以直传/透传到空间解码器，而无需添加到中间信号中。这样，音频信号编码模块可以兼容各种类型的输入信号以得到公共空间格式的编码音频信号，从而使得音频渲染处理能够高效地执行。

根据本公开的实施例，音频信号编码模块可通过各种适当方式来实现，例如可以包括分别实现上述获取和编码操作的获取单元和编码单元。这样的空间编码器、获取单元、编码单元可以为各种适当的实现形式，例如软件、硬件、固件等或任何组合。在一些实施例中，音频信号编码模块可被实现仅接收待编码的音频信号，例如直接输入的或者得自音频信号解析模块的待编码的音频信号。也就是说，输入到音频信号编码模块的信号必然是要进行编码的。作为示例，在此情况下，所述获取单元可以实现为信号输入接口，其可以直接接收待编码的音频信号。在另一些实施例中，音频信号编码模块可被实现接收各种音频内容格式的音频信号或音频表示信号。这样，除了获取单元和编码单元之外，音频信号编码模块还可以包括判别单元，该判断单元可以判别音频信号编码模块所接收的音频信号是否是需要进行编码的音频信号，并且在判别为需要进行编码的音频信号的情况下将该音频信号传送至获取单元和编码单元；而在判别为不需要进行编码的音频信号的情况下则将该音频信号直接传送至解码模块，而无需进行音频编码。在一些实施例中，判别可以按照各种适当的方式来执行，例如可以参照音频的音频内容格式或者音频信号表示方式来进行比对，并且当所输入的音频信号的格式或表示方式匹配需要进行编码的音频信号的格式或表示方式时，则判断所输入的音频信号需要编码。还例如，判别单元还可接收其它参考信息，例如应用场景信息、针对特定应用场景预先规定的规则等等，并且可基于该参考信息来进行判断，如前所述在获知了针对特定应用场景预先规定的规则时，可以根据来规则来选取音频信号中的需要编码的音频信号。还例如，判别单元还可以获取信号类型相关的标识符，并且根据信号类型相关的标识符来判断信号是否需要编码。该标识符可以是各种适当形式，例如信号类型标识符、以及能够指示信号类型的任何其它适当的指示信息。

根据本公开的一些实施例，与音频信号相关联的元数据相关信息可以包括适当形式的元数据，并且可依赖于音频信号的信号类型，特别地，元数据信息可与信号的信号表示方式相对应。例如，例如对于基于对象的信号表示，则元数据信息可与音频对象的属性、尤其是空间属性有关；对于基于场景的信号表示，元数据信息可与场景的属性有关；对于基于声道的信号表示，元数据信息可与声道的属性有关。在本公开的一些实施例中，可以被称为是根据音频信号的类型进行音频信号的编码，特别地，可以基于与音频信号的类型对应的元数据相关信息来进行音频信号的编码。

根据本公开的实施例，与音频信号相关联的元数据相关信息可以包括与音频信号相关联的元数据以及基于所述元数据得到的音频信号的音频参数中的至少一者。在一些实施例中，元数据相关信息可以包括与音频信号相关的元数据，例如与音频信号一起获取的元数据，例如直接输入的或者通过信号解析而获取的。在另一些实施例中，元数据相关的信息还可包括基于元数据而得到的音频信号的音频参数，如前文针对信息处理模块的操作所描述的。

根据本公开的实施例，元数据相关信息可以通过各种适当的方式获得。特别地，元数据信息可以是通过信号解析处理得到的，或者是被直接输入的，或者通过特定处理被得到的。在一些实施例中，元数据相关信息可以通过如前所述的信号解析处理在对于被分发的具有空间音频交换格式的输入信号进行解析时而得到的特定音频表示信号相关联的元数据。在一些实施例中，元数据相关信息可以在音频信号输入时被直接输入，例如在输入的音频信号可通过API直接输入，而无需进行前述音频信号解析的情况下，元数据相关信息可在音频信号输入时随同音频信号一起输入，或者与音频信号分离地被输入。在另一些实施例中，对于解析得到的音频信号的元数据或者直接输入的元数据，可以进行进一步的处理，例如信息处理，由此可获得适当的音频参数/信息，以作为元数据信息用于音频编码。根据本公开的实施例，所述信息处理可被称为场景信息处理，并且在所述信息处理中，可以基于与音频信号相关联的元数据进行处理以获得适当的音频参数/信息。在一些实施例中，例如，可以基于元数据对不同格式的信号进行提取并计算相应的音频参数，作为示例该音频参数可与渲染应用场景有关。在另一些实施例中，例如，可以基于元数据来调整场景信息。

根据本公开的实施例，对于待编码的音频信号，将基于与该音频信号相关联的元数据相关信息进行编码。特别地，该待编码的音频信号可以包括前述特定音频内容格式的音频信号中的特定类型的音频信号，并且对于这样的音频信号，将基于与所述特定类型的音频信号相关联的元数据相关信息，对所述特定类型的音频信号进行空间编码以获得特定空间格式的编码音频信号。这样的编码可被称为空间编码。

根据一些实施例，音频信号编码模块可被配置为根据基于元数据信息进行音频信号的加权。特别地，音频信号编码模块可以被配置为根据元数据中的权重进行加权。该元数据可与音频信号编码模块所获取的待编码音频信号相关联，例如与具有各种音频内容格式信号/音频表示信号相关联，如前所述。特别地，在一些实施例中，音频信号编码模块还可被配置为对于所获取的音频信号，尤其是具有特定音频内容格式的音频信号，基于与该音频信号相关联的元数据对该音频信号进行加权。在另一些实施例，音频信号编码模块还可被配置为对编码音频信号进一步进行附加的处理，例如加权、旋转等。特别地，音频信号编码模块可以被配置为将特定音频内容格式的音频信号转换得到具有特定空间格式的音频信号，然后将所得到的具有特定空间格式的音频信号基于元数据进行加权，从而得到作为中间信号。在一些实施例中，音频信号编码模块可以被配置为对于基于元数据进行转换得到的具有特定空间格式的音频信号进行进一步处理，例如格式转换、旋转等。在一些实施例中，音频信号编码模块可以配置为对编码得到的或者直接输入的特定空间格式的音频信号进行转换，以满足当前系统所支持的、所约束的格式，例如可以在声道排布方法、正则化方法等方面进行转换，以满足系统的要求。

根据本公开的一些实施例，该特定音频内容格式的音频信号是基于对象的音频表示信号，并且所述音频信号编码模块被配置为基于对象的音频表示信号的空间属性信息来对基于对象的音频表示信号进行空间编码。特别地，可通过矩阵相乘的方式来执行编码。在一些实施例中，该基于对象的音频表示信号的空间属性信息可包括基于音频信号的声音对象的空间传播相关信息，特别地包括声音对象到收听者的空间传播路径的相关信息。在一些实施例中，声音对象到收听者的空间传播路径的相关信息包括声音对象到收听者的各条空间传播路径的传播时长、传播距离、方位信息、路径强度能量、沿途节点中的至少一者。

在一些实施例中，所述音频信号编码模块被配置为根据滤波函数和球谐函数中的至少一者对基于对象的音频信号进行空间编码，其中滤波函数可为基于音频信号中的声音对象到收听者的空间传播路径的路径能量强度对音频信号进行滤波的滤波函数，球谐函数可为基于空间传播路径的方位信息的球谐函数。在一些实施例中，可以基于滤波函数和球谐函数两者的组合来进行音频信号编码。作为示例，可以基于滤波函数和球谐函数两者的乘积来进行音频信号编码。

在一些实施例中，对于基于对象的音频信号的空间音频编码进一步可以基于声音对象在空间传播中的延时，例如可基于空间传播路径的传播时长。在此情况下，该基于路径能量强度对音频信号进行滤波的滤波函数是对该声音对象在沿该空间传播路径传播之前的音频信号、基于该路径的路径强度能量进行滤波的滤波函数。在一些实施例中，声音对象在沿该空间传播路径传播之前的音频信号指的是在声音对象沿该空间传播路径到达收听者所需的时间之前的时刻的音频信号，例如为在该传播时长之前的声音对象的音频信号。

在一些实施例中，空间传播路径的方位信息可包含空间传播路径到达收听者的方向角或者空间传播路径相对于坐标系的方向角。在一些实施例中，基于空间传播路径的方位角的球谐函数可以是任何适当形式的球谐函数。

在一些实施例中，对于基于对象的音频信号的空间音频编码进一步可基于音频信号中的声音对象到收听者的空间传播路径的长度，采用近场补偿函数和扩散函数中的至少一者来进行音频信号的编码。例如，可依赖于空间传播路径的长度，对于针对该传播路径的声音对象的音频信号应用近场补偿函数和扩散函数中的至少一者，以进行适当的音频信号补偿，增强效果。

在一些实施例中，对于基于对象的音频信号的空间编码(诸如上文所述的对于基于对象的音频信号的空间编码)可分别针对声音对象到收听者的一条或多条空间传播路径来进行。特别地，在声音对象到收听者存在一条空间传播路径的情况下，则针对该空间传播路径执行对于基于对象的音频信号的空间编码，而在声音对象到收听者存在多条空间传播路径的情况下，可以针对多条空间传播路径中的至少一条、甚至是所有空间传播路径来执行。具体而言，可分别考虑声音对象到收听者的每一空间传播路径的相关信息，对于对应于该空间传播路径的音频信号进行相应的编码处理，继而可以将各空间传播路径的编码结果进行组合以得到针对该声音对象的编码结果。而声音对象到收听者之间的空间传播路径可通过各种适当方式来确定，尤其可由上文所述的信息处理模块通过获取空间属性信息而确定。

在一些实施例中，对于基于对象的音频信号的空间编码可分别针对音频信号中包含的一个或多个声音对象中的每一个来执行，对于每个声音对象的编码处理可如前所述地执行。在一些实施例中，所述音频信号编码模块进一步配置为基于元数据中定义的声音对象的权重，对各个基于对象的音频表示信号的编码信号进行加权组合。特别地，在音频信号包含多个声音对象的情况下，可对于音频信号中的每一声音对象，基于音频信号的声音对象的空间传播相关信息来对基于对象的音频表示信号进行空间编码之后，例如如前所述地对于每一声音对象的空间传播路径来进行音频表示信号进行空间编码之后，再利用音频表示信号相关联的元数据中所包含的各声音对象的权重来对于各声音对象的编码音频信号进行加权组合。

作为示例，在基于对象的音频表示的空间编码处理中，对于每一个音频对象，考虑到声音在空间中传播的延时，音频信号会被写入一个延时器。由与音频表示信号相关联的元数据信息、尤其是经音频信息处理模块得到的音频参数可知，每个声音对象会具有一条或多条到达听音者的传播路径，根据每条路径的长度，计算该声音对象到达听音者所需要的时间t1，因此可从该音频对象的延时器中获取t1时刻前该声音对象的音频信号s，并以基于路径能量强度的滤波函数E对该音频信号进行滤波。进一步地，可从与音频表示信号相关联的元数据信息、尤其是经音频信息处理模块得到的音频参数获知路径的方位信息，例如到达听者的路径方向角θ，并利用基于该方位角的特定函数，例如对应声道的球谐函数(spherical harmonics)Y，从而基于这两者可对音频信号编码为编码信号，例如HOA信号S。设N为HOA信号的声道数，则音频编码处理所得到的HOA信号S _N可如下表示：

s _N＝E(s(t-t ₁))Y _N(θ)

可替代地或可选地，对于路径的方位信息，也可以使用路径相对于坐标系的方向，而不是到听者的方向，这样可以在后续步骤中通过与旋转矩阵相乘来得到目标声场信号作为编码音频信号。例如，在路径方位信息为路径相对于坐标系的方向的情况下，可以在上式基础上进一步乘以旋转矩阵，以获得编码HOA信号。

在本公开的一些实施例中，编码操作可以在时域或者频域进行。进一步地，还可基于声音对象到收听者的空间传播路径的距离来进行编码，特别地，可根据路径的距离进一步应用近场补偿函数(near-field compensation)和扩散函数(source spread)中的至少一者以增强效果。例如，可在前述编码HOA信号的基础上进一步应用进场补偿函数和/或扩散函数，特别地，可考虑路径的距离小于阈值则应用近场补偿函数、大于阈值则应用扩散函数等，反之亦然，来进一步优化前述编码HOA信号。

最后，对于每个声音对象的信号转换后得到的HOA信号，根据元数据中定义的声音对象的权重，进行加权叠加，即可获得所有基于对象的音频信号的加权和信号以作为编码信号，其可以作为中间信号。

在一些实施例中，对于基于对象的音频信号的音频信号空间编码还可以基于混响信息来进行音频信号编码，这样得到的编码信号可以直传到空间解码器以供解码，或者可以被添加到编码器输出的中间信号中。在一些实施例中，音频信号编码模块进一步配置为获取混响参数信息，并且对音频信号进行混响处理以获取音频信号的混响相关信号。特别地，可获取场景的空间混响响应，并且对基于该空间混响响应进行音频信号的卷积以获得音频信号的混响相关信号。混响参数信息可被以各种适当方式获得，例如从元数据信息中获得，从前述信息处理模块获得，被用户或者其它输入设备获得，等等。

作为示例，对于更高级的信息处理器，可能会生成用户应用场景的空间房屋混响响应包括但不限于RIR(Room Impulse Response)，ARIR(Ambisonics Room Impulse Response)，BRIR(Binaural Room Impulse Response)，MO-BRIR(Multi orientation Binaural Room Impulse Response)。在获取这类信息的情况下，可在编码模块中加入卷积器对音频信号进行处理。根据混响类型的不同，处理结果可能是中间信号(ARIR)，也可能是全向信号(RIR)或双耳信号(BRIR，MO-BRIR)，并且处理结果可被加入到中间信号或者透传到后一步骤进行对应回放解码的处理。可选的，信息处理器也可能提供混响时长等混响参数信息，可在该编码模块中加入人工混响生成器(例如，反馈延迟网络(Feedback delay network))进行人工混响的处理，结果输出到中间信号或透传到解码器进行处理。

在一些实施例中，特定音频内容格式的音频信号是基于场景的音频表示信号，并且音频信号编码模块进一步配置为基于与该音频表示信号相关联的元数据中所指示的或包含的权重信息，对基于场景的音频表示信号进行加权。这样，加权信号可作为编码音频信号，以供进行空间解码。在一些实施例中，特定音频内容格式的音频信号是基于场景的音频表示信号，并且所述音频信号编码模块进一步配置为基于与该音频表示信号相关联的元数据中所指示的或包含的空间旋转信息，对于基于场景的音频表示信号进行声场旋转操作。这样，旋转后的音频信号可作为编码音频信号以供进行空间解码。

作为示例，对于场景音频信号，其本身就是FOA、HOA或者MOA信号，从而可以直接根据元数据中的权重信息进行加权，即为希望获得的中间信号。另外，如果元数据中提示声场需要旋转，则根据不同的实现，可以在编码模块中进行声场旋转的处理。例如，可对于场景音频信号乘以指示声场旋转特性的参数，例如向量、矩阵等形式，从而可进一步处理音频信号。应指出，此声场旋转操作可也在解码阶段执行。在一些实现中，声场旋转操作可在编码和解码阶段之一执行，或者在两者中执行。

在一些实施例，特定音频内容格式的音频信号是基于声道的音频表示信号，并且所述音频信号编码模块进一步配置为在基于声道的音频表示信号需要转换的情况下，将需要进行转换的基于声道的音频表示信号转换为基于对象的音频表示信号并进行编码。这里的编码操作可以如前文针对基于对象的音频表示信号进行编码的方式那样来执行。在一些实施例中，需要进行转换的基于声道的音频表示信号可包含基于声道的音频表示信号的叙事类声道音轨，并且所述音频信号编码模块进一步配置为将所述叙事类声道音轨转的音频表示信号转换为基于对象的音频表示信号并进行编码，如前文所述那样。在另一些实施例中，对于基于声道的音频表示信号的叙事类声道音轨，可以将叙事类声道音轨对应的音频表示信号按声道拆分为音频元素并转换为元数据来进行编码。

在一些实施例中，特定音频内容格式的音频信号是基于声道的音频表示信号，并且基于声道的音频表示信息可以不进行空间音频处理，尤其不进行空间音频编码，这样的基于声道的音频表示信号将被直传到音频解码模块，并被以适当的方式进行处理以用于回放/渲染。特别地，在一些实施例中，在基于声道的音频表示信号的叙事类声道音轨根据场景需要不进行空间音频处理的情况下，例如预先规定该叙事类声道音轨不需要进行编码处理，该叙事类声道音轨可直传至解码步骤。在另一些实施例中，基于声道的音频表示信号的非叙事类声道音轨本身不需要进行空间音频处理，因此可直传到解码步骤。

作为示例，基于声道的音频表示信号的空间编码处理可基于预定规则来执行，该预定规则可被以合适的方式提供，特别地可由信息处理模块中规定。例如，可以规定基于声道的音频表示信号、尤其是基于声道的音频表示信号中的叙事类声道音轨，需要被进行音频编码处理。因此可以根据规定以合适的方式进行音频编码。音频编码方式可以如上所述转换成基于对象的音频表示被进行处理，也可以为任何其它的编码方式，例如预先约定的针对基于声道的音频信号的编码方式。另一方面，在已经规定了基于声道的音频表示信号、尤其是其中的叙事类声道音轨不需要转换的情况下，或者在基于声道的音频表示信号中的非叙事类声道音轨的情况下，该音频表示信号可直传到解码模块/阶段，从而可针对不同的回放方式来进行处理。

音频信号解码

根据本公开的实施例，在如上所述地音频信号被进行音频编码或者被直传/透传之后，将对这样的编码音频信号或者直传/透传的音频信号进行音频解码处理以便获取适合于用户应用场景进行回放/渲染的音频信号。特别地，这样的编码音频信号或者直传/透传的音频信号可被称为待解码信号，可对应于前文所述的特定空间格式的音频信号，或者中间信号。作为示例，该特定空间格式的音频信号可以是前述中间信号，还可以是直传/透传到空间解码器的音频信号，包括未编码的音频信号，或者经空间编码但未包含在中间信号中的编码音频信号，例如非叙事类声道信号、混响处理后的双耳信号。音频解码处理可由音频信号解码模块执行。

根据本公开的实施例，音频信号解码模块可将中间信号和透传信号根据回放模式解码到回放/播放设备上。由此，可以将待解码音频信号转换为适合于通过用户应用场景、例如音频回放环境、音频渲染环境中的回放设备回放的格式。根据本公开的实施例，回放模式可以与用户应用场景中回放设备的配置有关。特别地，依赖于用户应用场景中回放设备的配置信息，例如回放设备的标识符、类型、布置等，可采用相对应的解码方式。这样，使得解码得到的音频信号能够适合于特定类型的回放环境，尤其适合于回放环境中的回放设备，从而能够实现对于各种类型的回放环境的兼容。作为示例，音频信号解码器可以根据用户应用场景的类型相关的信息来进行解码，该信息可以是用户应用场景的类型指示符，例如可以是用户应用场景中的渲染设备/回放设备的类型指示符，诸如渲染器ID，从而可以执行与渲染器ID对应的解码处理以获得适于通过该渲染器进行回放的音频信号。作为示例，渲染器ID可如前文所述地那样，每种渲染器ID可对应于特定的渲染器布置/回放场景/回放设备布置等，从而可以解码得到适合于渲染器ID所对应的渲染器布置/回放场景/回放设备布置等进行回放的音频信号。在一些实施例中，该回放模式，例如渲染器ID，可被预先指定、被传输到渲染端、或者通过输入端口被输入。在一些实施例中，音频信号解码器利用与用户应用场景中的回放设备对应的解码方式对特定空间格式的音频信号进行解码。

在一些实施例中，用户应用场景中的回放设备可包含扬声器阵列，其可对应于扬声器回放/渲染的场景，在此情况下，音频信号解码器可利用与用户应用场景中的扬声器阵列对应的解码矩阵对该特定空间格式的音频信号进行解码。作为一种示例，这样的用户应用场景可对应于特定渲染器ID，例如前述渲染器ID2。特别地，例如，还可根据扬声器阵列的类型，分别设定相应的标识符，以更精确地指示用户应用场景。例如，可以针对标准扬声器阵列，自定义扬声器阵列等分别设定相应的标识符。

解码矩阵可以依赖于扬声器阵列的配置信息、例如扬声器阵列的类型、布置等被确定。在一些实施例中，在所述用户应用场景中的回放设备为预定扬声器阵列的情况下，所述解码矩阵为所述音频信号解码器中内置的或者从外部接收的与所述预定扬声器阵列相对应的解码矩阵。特别地，该解码矩阵可以是预先设定的解码矩阵，其可被预先存储在解码模块中，例如可与扬声器阵列的类型相关联/相对应地存储在数据库中，或者以其它方式被提供给解码模块。从而解码模块可以根据所获知的预定扬声器阵列类型调用相对应的解码矩阵，以进行解码处理。解码矩阵可以为各种适当的形式，例如可以包含增益，诸如HOA轨道/通道到扬声器的增益值，从而可以将增益直接应用于HOA信号以产生输出音频信道，以便将HOA信号渲染到扬声器阵列中。

作为示例，对于在标准中定义的标准扬声器阵列，如5.1，解码器会内置解码矩阵系数，通过中间信号与解码矩阵相乘即可获取回放信号L。

L＝DS _N，

其中L为扬声器阵列信号，D为解码矩阵，S _N为中间信号，如前所述地获得。另一方面，对于直传/透传的音频信号，可以根据标准扬声器的定义将该信号转换到扬声器阵列中，例如可如上所述地乘以解码矩阵，还可以采用其他合适方式，例如基于向量的振幅平移(Vector-base amplitude panning，VBAP)等。作为另一示例，在特殊扬声器阵列空间解码的情况下，对于Sound Bar或一些更为特殊的扬声器阵列，需要扬声器制造商提供对应设计的解码矩阵。系统提供解码矩阵设置接口以接收对应于特殊扬声器阵列的解码矩阵相关参数，从而可利用所接收的解码矩阵进行解码处理，如上所述。

在另一些实施例中，在所述用户应用场景中的回放设备为自定义扬声器阵列的情况下，解码矩阵为根据自定义扬声器阵列的排列方式计算的解码矩阵。作为示例，解码矩阵根据扬声器阵列中各个扬声器的方位角和俯仰角或者扬声器的三维坐标值被计算。作为示例，在自定义扬声器阵列空间解码中，在自定义扬声器阵列的场景下，这类扬声器通常具有球形、半球形设计或矩形，可以包围或半包围听音者。解码模块可根据自定义扬声器的排列方式计算解码矩阵，其需要的输入为每个扬声器的方位角与俯仰角，或扬声器的三维坐标值。扬声器解码矩阵的计算方式可以有SAD(Sampling Ambisonic Decoder)、MMD(Mode Matching Decoder)、EPAD(Energy preserved Ambisonic Decoder)、AllRAD(All Round Ambisonic Decoder)等。

根据本公开的一些实施例，在用户应用场景中的回放设备为耳机的情况下，其可对应于耳机渲染/回放、双耳渲染/回放等场景，所述音频信号解码器被配置为将待解码音频信号直接解码成双耳信号作为解码音频信号，或者通过扬声器虚拟化以获得解码信号作为解码音频信号。作为一种示例，这样的用户应用场景可对应于特定渲染器ID，例如前述渲染器ID1。作为示例，对于耳机的回放环境，可存在多种适当的解码方式。在一些实施例中，例如，可以直接将待解码信号，例如前述中间信号解码成为双耳信号。特别地，可以直接对待解码信号进行解码处理，例如可以根据收听者姿态确定旋转矩阵来转换HOA信号，然后对于HOA声道/轨道进行调整，例如进行卷积(例如，利用增益矩阵，谐波函数，HRIR(头相关脉冲响应)，球谐HRIR等等进行卷积，例如频域卷积)，从而可以获得双耳信号。换句话说，这样的过程也可看做HOA信号直接乘以解码矩阵，该解码矩阵可包含旋转矩阵、增益矩阵、谐波函数等等。作为示例，典型的方法有LS(least squares)，Magnitude LS，SPR(Spatial resampling)等。对于透传的信号，通常为双耳信号，直接进行回放。作为另一示例，也可进行间接渲染，即先将使用扬声器阵列，再根据扬声器的位置进行HRTF卷积来对扬声器进行虚拟化处理，从而获取解码信号。

在一些实施例中，在音频解码处理中，还可以基于与待解码音频信号相关联的元数据信息来对待解码音频信号进行处理。特别地，可以根据元数据信息中的空间变换信息来对待解码音频信号进行空间变换，例如在元数据信息中指示需要旋转时，可基于元数据中指示的旋转信息对于该待解码的音频表示信号进行声场旋转操作。作为示例，首先根据前一模块的处理方法，和元数据中的旋转信息，按需要对中间信号与旋转矩阵相乘以获取旋转后的中间信号，从而可以对于旋转后的中间信号进行解码。应指出，这里的空间变换、例如空间旋转可与前文所述的空间编码处理中的空间编码、例如空间旋转择一地执行。

音频信号后处理

根据本公开的实施例，可选地或者附加地，可以在用于针对用户应用场景中的特定回放设备对空间解码后的音频信号进行调整，旨在使得调整后的音频信号在通过音频渲染设备进行渲染时能够呈现更加适当的声学体验。特别地，音频信号调整可主要旨在消除不同回放类型、或不同回放方式等之间可能存在的不一致性，继而使得调整的音频信号能够在应用场景中回放时回放体验保持一致，提高用户的体验感。在本公开的上下文中，音频信号调整处理可以被称为一种后处理，其指的是对通过音频解码得到的输出信号进行后处理，其可被称为输出信号后处理。在一些实施例中，信号后处理模块被配置用于针对特定回放设备对解码后的音频信号进行频率响应补偿和动态控制范围中的至少一者。

作为示例，后处理模块考虑到不同回放方式的不一致性，不同回放设备有着不同的频响曲线和增益，为了呈现一致的声学体验，对输出信号后处理调整。后处理的操作包括但不限于针对具体设备的频率响应补偿(EQ，Equalization)以及动态范围控制(DRC，Dynamic range control)。

在本公开的音频渲染系统中，前文所述的音频信息处理模块、音频信号编码模块、信号空间解码器和输出信号后处理可构成本系统的核心渲染模块，其负责将前处理后得到的三种音频表示格式的信号及其元数据处理并在用户应用环境中通过回放设备进行回放。

应注意，如上所述的音频渲染系统的各个模块仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个模块可被实现为独立的物理实体、或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现，例如，编码器、解码器等等可以采用芯片(诸如包括单个晶片的集成电路模块)、硬件部件或完整的产品。此外，上述各个模块在附图中用虚线示出指示这些单元可以并不实际存在，而它们所实现的操作/功能可由包含该模块的其它模块或者系统、装置本身来实现。例如，图4A中所示的音频信号解析模块411、信息处理模块412、音频信号编码模块413中的至少一者可以位于获取模块41之外，而存在于音频渲染系统4中，例如可以位于获取模块41和解码器42之间，依次对输入音频信号进行处理以获得待由解码器处理的音频信号。甚至可位于音频渲染系统之外。

此外，尽管未示出，音频渲染系统4也可以包括存储器，其可以存储由系统、设备所包含的各个模块在操作中产生的各种信息、用于操作的程序和数据、将由通信单元发送的数据等。存储器可以是易失性存储器和/或非易失性存储器。例如，存储器可以包括但不限于随机存储存储器(RAM)、动态随机存储存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、闪存存储器。当然，存储器可也位于该设备之外。

此外，可选地，音频渲染系统4还可以包括未示出的其它部件，诸如接口、通信单元等。作为示例，接口和/或通信单元可用于接收输入的待渲染的音频信号，还可以将最终产生的音频信号输出给回放环境中的回放设备以供回放。在一个示例中，通信单元可以被按照本领域已知的适当方式来实现，例如包括天线阵列和/或射频链路等通信部件，各种类型的接口、通信单元等等。这里将不再详细描述。此外，设备还可以包括未示出的其它部件，诸如射频链路、基带处理单元、网络接口、处理器、控制器等。这里将不再详细描述。

以下将结合附图来描述根据本公开的实施例的音频渲染的示例性实现，其中图4G和4H示出了根据本公开的实施例的音频渲染过程的示例性实现的流程图。作为示例，音频渲染系统主要包括渲染元数据系统和核心渲染系统，元数据系统中存在描述音频内容和渲染技术的控制信息，比如音频的输入形式是单通道、双声道、多声道、还是对象(object)或声场HOA，以及动态的声源和听着的位置信息，渲染的声学环境信息如房屋形状、大小、墙体体质等。核心渲染系统依据不同的音频信号表示形式和从元数据系统解析出的元数据来做相应播放设备和环境的渲染。

首先，接收输入音频信号，并且根据输入音频信号的格式进行解析或者直传。一方面，在输入音频信号为具有任意空间音频交换格式的输入信号时，可对输入音频信号进行信号解析以获得具有特定空间音频表示的音频信号，例如基于对象的空间音频表示信号、基于场景的空间音频表示信号、基于声道的空间音频表示信号，以及相关联的元数据，然后将解析结果传递至后续处理阶段。另一方面，在输入音频信号直接为具有特定空间音频表示的音频信号时，无需进行解析而直接传递至后续处理阶段。例如，这样的音频信号可直传到音频编码阶段，例如可以是基于对象的音频表示信号、基于场景的音频表示信号、基于声道的音频表示信号中的需要编码的叙事声道音轨。甚至在该特定空间表示的音频信号为无需编码的类型/格式的情况下，可以直传到音频解码阶段，例如可以是解析出的基于声道的音频表示中的非叙事声道音轨，或者无需编码的叙事声道音轨。

然后，可以基于所获取的元数据来进行信息处理，从而提取并得到各音频信号相关的音频参数，这样的音频参数可以作为元数据信息。这里的信息处理可分别针对解析得到的音频信号以及直传的音频信号中的任一者来执行。当然，如前文所述，这样的信息处理是可选的，并不必需执行。

接下来，对于特定空间音频表示的音频信号来进行信号编码。一方面，可以基于元数据信息对特定空间音频表示的音频信号执行信号编码，所得到的编码音频信号或者直传到后续的音频解码阶段，或者得到中间信号并继而传输到后续的音频解码阶段。另一方面，在特定空间音频表示的音频信号不需要进行编码的情况下，这样的音频信号可以直传到音频解码阶段。

然后，在音频解码阶段，可以对于所接收到的音频信号进行解码，以获得适合于用户应用场景中进行回放的音频信号作为输出信号，这样的输出信号可通过用户应用场景、例如音频回放环境中的音频回放设备被呈现给用户。

图4I示出了根据本公开的音频渲染方法的一些实施例的流程图。如图4I所示，在方法400中，在步骤S430(也被称为音频信号编码步骤)中，对于所述特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及在步骤S440(也被称为音频信号解码步骤)中，可对该特定空间格式的编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。

在本公开的一些实施例中，方法400还可包括步骤S410(也被称为音频信号获取步骤)中，获取特定音频内容格式的音频信号以及该音频信号相关联的元数据信息。在音频信号获取步骤中，可进一步包括对所述输入音频信号进行解析以获得遵照特定空间音频表示方式的音频信号，并且对所述遵照特定空间音频表示方式的音频信号进行格式转换以得到所述特定音频内容格式的音频信号。

在本公开的一些实施例中，方法400可进一步包括步骤S420(也被称为信息处理步骤)，在该步骤中，可基于所述特定类型的音频信号相关联的元数据信息提取得到所述特定类型的音频信号的音频参数。特别地，在音频信息处理步骤中，可进一步基于所述特定类型的音频信号的音频内容格式来提取所述特定类型的音频信号的音频参数。从而在音频信号编码步骤中，可进一步包括基于所述音频参数对于所述特定类型的音频信号进行空间编码。

在本公开的一些实施例中，在音频信号解码步骤中，可进一步基于回放模式对该特定空间格式的音频信号进行解码。特别地，可利用与用户应用场景中的回放设备对应的解码方式进行解码。

在本公开的一些实施例中，方法400可进一步包括信号输入步骤，在该步骤中接收输入音频信号，并且在输入音频信号为特定音频内容格式的音频信号中的特定类型的音频信号的情况下，直接将所述输入音频信号传输至所述音频信号编码步骤，或者在所述输入音频信号为特定音频内容格式的输入音频信号且不是所述特定类型的音频信号的情况下，直接将所述输入音频信号传输至所述音频信号解码步骤。

在本公开的一些实施例中，方法400可进一步包括步骤S450(也被称为信号后处理步骤)，在该步骤中，可对解码音频信号进行后处理。特别地，可基于用户应用场景中的回放设备的特性进行后处理。

应指出，上述信号获取步骤、信息处理步骤、信号输入步骤、信号后处理步骤并不必需被包含在根据本公开的渲染方法中，也就是说，即使不包含该步骤，根据本公开的方法仍是完整的并且可以有效地解决本公开的问题并实现有利效果。例如，这些步骤可在根据本公开的方法之外实行，并且将该步骤的结果提供到本公开的方法中，或者接收本公开的方法的结果信号。此外，在示例性视线中，这些步骤也可结合在本公开的其它步骤中，例如信号获取步骤可被包含在信号编码步骤中，例如信息处理步骤、信号输入步骤可以包含在信号获取步骤中，或者信息处理步骤可以包含在信号编码步骤中，或者信号后处理步骤可以包含在信号解码步骤中。因此在附图中这些步骤用虚线示出。

尽管未示出，根据本公开的音频渲染方法还可以包括其它步骤来实现前文所述的前处理、音频信息处理、音频信号空间编码等中的处理/操作，这里将不再详细描述。应指出，根据本公开的音频渲染方法以及其中的步骤可以由任何适当的设备来执行，例如处理器、集成电路、芯片等来执行，例如可以由前述音频渲染系统以及其中各个模块来执行，该方法中也可以体现在计算机程序、指令、计算机程序介质、计算机程序产品等中来实现。

图5示出根据本公开的一些实施例的电子设备的框图。如图5所示，该实施例的电子设备5包括：存储器51以及耦接至该存储器51的处理器52，处理器52被配置为基于存储在存储器51中的指令，执行本公开中任意一个实施例中的混响时长的估计方法，或者音频信号的渲染方法。

其中，存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

下面参考图6，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图6示出本公开的电子设备的另一些实施例的框图。

如图6所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

在一些实施例中，还提供了芯片，包括：至少一个处理器和接口，接口，用于为至少一个处理器提供计算机执行指令，至少一个处理器用于执行计算机执行指令，实现上述任一个实施例的混响时长的估计方法，或者音频信号的渲染方法。

图7示出能够实现根据本公开的一些实施例的芯片的框图。如图7所示，芯片的处理器70作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。处理器70的核心部分为运算电路，控制器704控制运算电路703提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实施例中，运算电路703内部包括多个处理单元(Process Engine,PE)。在一些实施例中，运算电路703是二维脉动阵列。运算电路703还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实施例中，运算电路703是通用的矩阵处理器。

例如，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器702中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器701中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)708中。

向量计算单元707可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。

在一些实施例中，向量计算单元能707将经处理的输出的向量存储到统一缓存器 706。例如，向量计算单元707可以将非线性函数应用到运算电路703的输出，例如累加值的向量，用以生成激活值。在一些实施例中，向量计算单元707生成归一化的值、合并值，或二者均有。在一些实施例中，处理过的输出的向量能够用作到运算电路703的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器706用于存放输入数据以及输出数据。

存储单元访问控制器705(Direct Memory Access Controller，DMAC)将外部存储器中的输入数据搬运到输入存储器701和/或统一存储器706、将外部存储器中的权重数据存入权重存储器702，以及将统一存储器706中的数据存入外部存储器。

总线接口单元(Bus Interface Unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器709之间进行交互。

与控制器704连接的取指存储器(instruction fetch buffer)709，用于存储控制器704使用的指令；

控制器704，用于调用指存储器709中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器706、输入存储器701、权重存储器702以及取指存储器709均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory，DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的音频信号处理，尤其是音频信号渲染过程中的任何处理。

本领域内的技术人员应当明白，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。在使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

一种音频渲染系统，包括：

音频信号编码模块，被配置为对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及

音频信号解码模块，被配置为对所述编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。
根据权利要求1所述的音频渲染系统，其中，所述特定音频内容格式的音频信号包含基于对象的音频表示信号、基于场景的音频表示信号、以及基于声道的音频表示信号中的至少一种。
根据权利要求1或2所述的音频渲染系统，其中，所述编码音频信号是Ambisonics类型的音频信号，其能够包括FOA(First Order Ambisonics)，HOA(Higher Order Ambisonics)，MOA(Mixed-order Ambisonics)中的至少一种。
根据权利要求1-3中任一项所述的音频渲染系统，其中，与音频信号相关联的元数据相关信息包括与音频信号相关联的元数据以及基于元数据得到的音频信号相关参数中的至少一者。
根据权利要求1-4中任一项所述的音频渲染系统，进一步包括音频信息处理模块，被配置为基于元数据获取所述特定音频内容格式的音频信号的相关参数，并且

所述音频信号编码模块被进一步配置为基于所述元数据和所述相关参数中的至少一者对于所述特定音频内容格式的音频信号进行空间编码。
根据权利要求5所述的音频渲染系统，其中，

所述音频信息处理模块被配置为在所述特定音频内容格式的音频信号是基于对象的音频表示信号的情况下，获取基于对象的音频表示信号的空间属性信息。
根据权利要求6所述的音频渲染系统，其中，基于对象的音频表示信号的空间属性信息包括音频表示信号中的各音频元素在坐标系中的方位信息、各音频元素的距离信息、或者音频信号相关的声源相对于收听者的相对方位信息中的至少一者。
根据权利要求5所述的音频渲染系统，其中，

所述音频信息处理模块被配置为在所述特定音频内容格式的音频信号是基于场景的音频表示信号的情况下，获取音频信号相关的旋转信息。
根据权利要求8所述的音频渲染系统，其中，音频信号相关的旋转信息包括音频信号的旋转信息和音频信号的收听者的旋转信息中的至少一者。
根据权利要求5所述的音频渲染系统，其中，

所述音频信息处理模块被配置为在所述特定音频内容格式的音频信号是基于声道的音频信号中的特定类型声道信号的情况下，将特定类型声道信号的音频表示按声道拆分为音频元素以转换为元数据。
根据权利要求1-10中任一项所述的音频渲染系统，其中，

所述音频信号编码模块被配置为在所述特定音频内容格式的音频信号为基于对象的音频表示信号的情况下，基于与所述基于对象的音频表示信号相关联的元数据相关信息中的空间属性信息对基于对象的音频信号进行空间编码。
根据权利要求11所述的音频渲染系统，其中，所述基于对象的音频表示信号的空间属性信息包括该音频信号的声音对象到收听者的空间传播路径的相关信息，其包括声音对象到收听者的空间传播路径的传播时长、传播距离、方位信息和路径强度能量、沿途节点中的至少一者。
根据权利要求11或12所述的音频渲染系统，其中，

所述音频信号编码模块被配置为根据基于音频信号中的声音对象到收听者的空间传播路径的路径能量强度对音频信号进行滤波的滤波函数以及基于空间传播路径的方位信息的球谐函数中的至少一者进行音频信号的空间编码。
根据权利要求11-13中任一项所述的音频渲染系统，其中，所述音频信号编码模块被进一步配置为基于音频信号中的声音对象到收听者的空间传播路径的长度，采用近场补偿函数和扩散函数中的至少一者来进行音频信号的编码。
根据权利要求11-14中任一项所述的音频渲染系统，其中，所述音频信号编码模块被配置为：在音频信号包含多个声音对象的情况下，

对于音频信号中的每一声音对象，基于音频信号的该声音对象到收听者的空间传播路径的相关信息来进行音频信号空间编码，以及

基于元数据中定义的声音对象的权重，对各声音对象的音频表示信号的编码信号进行加权叠加。
根据权利要求1-10中任一项所述的音频渲染系统，其中，所述音频信号编码模块进一步配置为：

在所述特定音频内容格式的音频信号包括基于对象的音频表示信号的情况下，基于与所述基于对象的音频表示信号相关联的元数据相关信息中的混响参数获得基于对象的音频信号的混响相关信号。
根据权利要求1-10中任一项所述的音频渲染系统，其中，所述音频信号编码模块进一步配置为在所述特定音频内容格式的音频信号包括基于场景的音频表示信号的情况下，基于与该基于场景的音频表示信号相关联的元数据相关的信息中的权重信息，对基于场景的音频表示信号进行加权。
根据权利要求1-10中任一项所述的音频渲染系统，其中，所述音频信号编码模块进一步配置为在所述特定音频内容格式的音频信号包括基于场景的音频表示信号的情况下，基于与该基于场景的音频表示信号相关联的元数据相关的信息中指示的旋转信息，对于基于场景的音频表示信号进行声场旋转操作。
根据权利要求1-10中任一项所述的音频渲染系统，其中，所述音频信号编码模块进一步配置为在所述特定音频内容格式的音频信号包括基于声道的音频表示信号中的特定类型声道信号的情况下，将所述特定类型声道信号转换为基于对象的音频表示信号并进行编码。
根据权利要求1-10中任一项所述的音频渲染系统，其中，所述音频信号编码模块进一步配置为在所述特定音频内容格式的音频信号包括基于声道的音频表示信号中的特定类型声道信号的情况下，将所述特定类型声道信号按声道拆分为音频元素并转换为元数据来进行编码。
根据权利要求1-20中任一项所述的音频渲染系统，其中，所述音频信号解码模块被进一步配置为对未经空间编码的音频信号进行空间解码，其中，所述未经空间编码的音频信号包括基于场景的音频表示信号、基于声道的音频表示信号中的特定类型声道信号、经混响处理的音频信号中的至少一种。
根据权利要求1-21中任一项所述的音频渲染系统，其中，所述音频信号解码模块被进一步配置为基于回放模式对音频信号进行空间解码，其中所述回放模式由回放类型、回放环境、回放设备类型、回放设备标识符中的至少一者指示。
根据权利要求1-20中任一项所述的音频渲染系统，其中，所述音频信号解码模块被配置为在扬声器回放模式的情况下，利用与扬声器配置对应的解码矩阵对所述待解码音频信号进行空间解码。
根据权利要求23所述的音频渲染系统，其中，在回放设备为预定扬声器阵列的情况下，所述解码矩阵为所述音频渲染系统或音频信号解码模块中内置的或者从外部接收的与所述预定扬声器阵列相对应的解码矩阵，和/或

在回放设备为自定义扬声器阵列的情况下，解码矩阵为根据自定义扬声器阵列的排列方式计算的解码矩阵。
根据权利要求24所述的音频渲染系统，其中，解码矩阵根据扬声器阵列中各个扬声器的方位角和俯仰角或者扬声器的三维坐标值被计算。
根据权利要求23-25中任一项所述的音频渲染系统，其中，解码矩阵包含音频信号中的各声道或轨道信号对应于各扬声器的增益值。
根据权利要求1-20中任一项所述的音频渲染系统，其中，所述音频信号解码模块被配置为在双耳回放模式的情况下，将音频信号直接解码成双耳信号作为解码音频信号，或者通过扬声器虚拟化以获得解码信号作为解码音频信号。
根据权利要求1-20中任一项所述的音频渲染系统，其中，所述音频信号解码模块被配置为在双耳回放模式的情况下，利用基于收听者姿态的旋转矩阵来转换所述待解码音频信号，并且对于信号中的每个声道进行频域卷积，以获得解码音频信号。
根据权利要求1-20中任一项所述的音频渲染系统，其中，所述音频信号解码模块被配置为基于元数据相关信息中的旋转信息，对于音频信号进行声场旋转操作。
根据权利要求1-29中任一项所述的音频渲染系统，进一步包括信号后处理模块，其被配置为对解码音频信号进行后处理。
根据权利要求30所述的音频渲染系统，其中，所述信号后处理模块被配置用于对解码音频信号进行频率响应补偿和动态范围控制中的至少一者。
根据权利要求1-31中任一项所述的音频渲染系统，进一步包括音频信号获取模块，被配置为获取所述特定音频内容格式的音频信号以及与音频信号相关联的元数据相关的信息。
根据权利要求32所述的音频渲染系统，其中，所述音频信号获取模块包括音频信号解析模块，其被配置为：

接收空间音频交换格式的输入音频信号，以及

基于空间音频信号表示方式对所述输入音频信号进行解析以获得所述特定音频内容格式的音频信号。
一种音频渲染方法，包括：

音频信号编码步骤，用于对于特定音频内容格式的音频信号，基于与所述特定音频内容格式的音频信号相关联的元数据相关信息，对所述特定音频内容格式的音频信号进行空间编码以获得编码音频信号；以及

音频信号解码步骤，用于对所述编码音频信号进行空间解码，以得到供音频渲染的解码音频信号。
根据权利要求34所述的音频渲染方法，其中，所述特定音频内容格式的音频信号包含基于对象的音频表示信号、基于场景的音频表示信号、以及基于声道的音频表示信号中的至少一种。
根据权利要求34或35所述的音频渲染方法，其中，所述编码音频信号是Ambisonics类型的音频信号，其能够包括FOA(First Order Ambisonics)，HOA(Higher Order Ambisonics)，MOA(Mixed-order Ambisonics)中的至少一种。
根据权利要求34-36中任一项所述的音频渲染方法，其中，与音频信号相关联的元数据相关信息包括与音频信号相关联的元数据以及基于元数据得到的音频信号相关参数中的至少一者。
根据权利要求34-37中任一项所述的音频渲染方法，进一步包括音频信息处理步骤，用于基于元数据获取所述特定音频内容格式的音频信号的相关参数，并且

所述音频信号编码步骤进一步包括基于所述元数据和所述相关参数中的至少一者对于所述特定音频内容格式的音频信号进行空间编码。
根据权利要求38所述的音频渲染方法，其中，

所述音频信息处理步骤进一步包括在所述特定音频内容格式的音频信号是基于对象的音频表示信号的情况下，获取基于对象的音频表示信号的空间属性信息。
根据权利要求39所述的音频渲染方法，其中，基于对象的音频表示信号的空间属性信息包括音频表示信号中的各音频元素在坐标系中的方位信息、各音频元素的距离信息、或者音频信号相关的声源相对于收听者的相对方位信息中的至少一者。
根据权利要求38所述的音频渲染方法，其中，

所述音频信息处理步骤进一步包括在所述特定音频内容格式的音频信号是基于场景的音频表示信号的情况下，获取音频信号相关的旋转信息。
根据权利要求41所述的音频渲染方法，其中，音频信号相关的旋转信息包括音频信号的旋转信息和音频信号的收听者的旋转信息中的至少一者。
根据权利要求38所述的音频渲染方法，其中，

所述音频信息处理步骤进一步包括在所述特定音频内容格式的音频信号是基于声道的音频信号中的特定类型声道信号的情况下，将特定类型声道信号的音频表示按声道拆分为音频元素以转换为元数据。
根据权利要求34-43中任一项所述的音频渲染方法，其中，

所述音频信号编码步骤进一步包括在所述特定音频内容格式的音频信号为基于对象的音频表示信号的情况下，基于与所述基于对象的音频表示信号相关联的元数据相关信息中的空间属性信息对基于对象的音频信号进行空间编码。
根据权利要求44所述的音频渲染方法，其中，所述基于对象的音频表示信号的空间属性信息包括该音频信号的声音对象到收听者的空间传播路径的相关信息，其包括声音对象到收听者的空间传播路径的传播时长、传播距离、方位信息和路径强度能量、沿途节点中的至少一者。
根据权利要求44或45所述的音频渲染方法，其中，

所述音频信号编码步骤进一步包括根据基于音频信号中的声音对象到收听者的空间传播路径的路径能量强度对音频信号进行滤波的滤波函数以及基于空间传播路径的方位信息的球谐函数中的至少一者进行音频信号的空间编码。
根据权利要求44-46中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括基于音频信号中的声音对象到收听者的空间传播路径的长度，采用近场补偿函数和扩散函数中的至少一者来进行音频信号的编码。
根据权利要求44-47中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括在音频信号包含多个声音对象的情况下，

对于音频信号中的每一声音对象，基于音频信号的该声音对象到收听者的空间传播路径的相关信息来进行音频信号空间编码，以及

基于元数据中定义的声音对象的权重，对各声音对象的音频表示信号的编码信号进行加权叠加。
根据权利要求34-43中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括：

在所述特定音频内容格式的音频信号包括基于对象的音频表示信号的情况下，基于与所述基于对象的音频表示信号相关联的元数据相关信息中的混响参数获得基于对象的音频信号的混响相关信号。
根据权利要求34-43中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括在所述特定音频内容格式的音频信号包括基于场景的音频表示信号的情况下，基于与该基于场景的音频表示信号相关联的元数据相关的信息中的权重信息，对基于场景的音频表示信号进行加权。
根据权利要求34-43中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括在所述特定音频内容格式的音频信号包括基于场景的音频表示信号的情况下，基于与该基于场景的音频表示信号相关联的元数据相关的信息中指示的旋转信息，对于基于场景的音频表示信号进行声场旋转操作。
根据权利要求34-43中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括在所述特定音频内容格式的音频信号包括基于声道的音频表示信号中的特定类型声道信号的情况下，将所述特定类型声道信号转换为基于对象的音频表示信号并进行编码。
根据权利要求34-43中任一项所述的音频渲染方法，其中，所述音频信号编码步骤进一步包括在所述特定音频内容格式的音频信号包括基于声道的音频表示信号中的特定类型声道信号的情况下，将所述特定类型声道信号按声道拆分为音频元素并转换为元数据来进行编码。
根据权利要求34-53中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括对未经空间编码的音频信号进行空间解码，其中，所述未经空间编码的音频信号包括基于场景的音频表示信号、基于声道的音频表示信号中的特定类型声道信号、经混响处理的音频信号中的至少一种。
根据权利要求34-54中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括基于回放模式对音频信号进行空间解码，其中所述回放模式由回放类型、回放环境、回放设备类型、回放设备标识符中的至少一者指示。
根据权利要求34-53中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括在扬声器回放模式的情况下，利用与扬声器配置对应的解码矩阵对所述待解码音频信号进行空间解码。
根据权利要求56所述的音频渲染方法，其中，在回放设备为预定扬声器阵列的情况下，所述解码矩阵为所述音频渲染系统或音频信号解码器中内置的或者从外部接收的与所述预定扬声器阵列相对应的解码矩阵，和/或

在回放设备为自定义扬声器阵列的情况下，解码矩阵为根据自定义扬声器阵列的排列方式计算的解码矩阵。
根据权利要求57所述的音频渲染方法，其中，解码矩阵根据扬声器阵列中各个扬声器的方位角和俯仰角或者扬声器的三维坐标值被计算。
根据权利要求56-58中任一项所述的音频渲染方法，其中，解码矩阵包含音频信号中的各声道或轨道信号对应于各扬声器的增益值。
根据权利要求34-53中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括在双耳回放模式的情况下，将音频信号直接解码成双耳信号作为解码音频信号，或者通过扬声器虚拟化以获得解码信号作为解码音频信号。
根据权利要求34-53中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括在双耳回放模式的情况下，利用基于收听者姿态的旋转矩阵来转换所述待解码音频信号，并且对于信号中的每个声道进行频域卷积，以获得解码音频信号。
根据权利要求34-53中任一项所述的音频渲染方法，其中，所述音频信号解码步骤进一步包括基于元数据相关信息中的旋转信息，对于音频信号进行声场旋转操作。
根据权利要求34-62中任一项所述的音频渲染方法，进一步包括信号后处理步骤，用于对解码音频信号进行后处理。
根据权利要求63所述的音频渲染方法，其中，所述信号后处理步骤进一步包括对解码音频信号进行频率响应补偿和动态范围控制中的至少一者。
根据权利要求34-64中任一项所述的音频渲染方法，进一步包括音频信号获取步骤，用于获取所述特定音频内容格式的音频信号以及与音频信号相关联的元数据相关的信息。
根据权利要求65所述的音频渲染方法，其中，所述音频信号获取步骤包括音频信号解析步骤，用于：

接收空间音频交换格式的输入音频信号，以及

基于空间音频信号表示方式对所述输入音频信号进行解析以获得所述特定音频内容格式的音频信号。
一种芯片，包括：

至少一个处理器和接口，所述接口，用于为所述至少一个处理器提供计算机执行指令，所述至少一个处理器用于执行所述计算机执行指令，实现根据权利要求34-66中任一项所述的方法。
一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行根据权利要求34-66中任一项所述的方法。
一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据权利要求34-66中任一项所述的方法。
一种计算机程序产品，包括指令，所述指令当由处理器执行时使所述处理器执行根据权利要求34-66中任一项所述的方法。