CN115038030A

CN115038030A - 一种场景输出渲染项确定方法、装置、设备及存储介质

Info

Publication number: CN115038030A
Application number: CN202210603212.3A
Authority: CN
Inventors: 吴健
Original assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Current assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-09

Abstract

本公开涉及一种场景输出渲染项确定方法、装置、设备及存储介质，该方法，包括：获取渲染项生成器预先生成的渲染项；根据音频模型元数据结构路径，选择渲染项生成器预先生成的渲染项，再根据预设的所述音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应的音轨规格转换成一个场景输出渲染项。能够将音频这些信号渲染到高级音响系统中规定的所有扬声器配置。

Description

一种场景输出渲染项确定方法、装置、设备及存储介质

技术领域

本公开涉及音频处理的技术领域，尤其涉及一种场景输出渲染项确定方法、装置、设备及存储介质。

背景技术

随着科技的发展，音频变得越来越复杂。由早期的单声道音频演变成立体声，工作重心也注重左右声道的正确处理方式。但环绕声出现后，处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束，进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化，把正确的信号传递给合适的扬声器形成相互牵连的效果。因此，随着声音变得更具沉浸感和交互性，音频处理的复杂性也大大增加。

音频声道(或声道)，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如，在环绕5.1扬声器系统中包括6个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器；在环绕7.1扬声器系统中包括8个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器。

因此，当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如，双声道扬声器系统无法实现环绕5.1扬声器系统的效果。

发明内容

本公开的目的在于提出一种场景输出渲染项确定方法、装置、设备及存储介质，提供音频模型元数据到一组可渲染项的转换，能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。

本公开第一方面提供了一种场景输出渲染项确定方法，包括：

获取渲染项生成器预先生成的渲染项；

根据音频模型元数据结构路径，选择所述渲染项生成器预先生成的渲染项，再根据预设的所述音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；

所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应的音轨规格转换成一个场景输出渲染项。

本公开第二方面提供了一种场景输出渲染项确定装置，包括：

获取模块，用于获取渲染项生成器预先生成的渲染项；

转换模块，用于根据音频模型元数据结构路径，选择所述渲染项生成器预先生成的渲染项，再根据预设的所述音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；

生成模块，用于所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应的音轨规格转换成一个场景输出渲染项模块。

本公开第三方面提供了一种电子设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任意实施例提供的场景输出渲染项确定方法。

本公开第四方面提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器实现任意实施例提供的场景输出渲染项确定方法。

由上可见，本公开场景输出渲染项确定方法，提供音频模型元数据到一组可渲染项的转换，能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。渲染器接收音频和元数据，以及有关所需输出格式(通常是扬声器布局)的信息，通过元数据描述的生成声音方式来解析元数据后，再处理输入音频通道。

附图说明

图1为本公开实施例中提供一种三维声音频模型的示意图：

图2为本公开实施例中提供音频渲染器的示意图；

图3为本公开实施例中的场景输出渲染项确定方法的流程图；

图4为本公开实施例中的场景输出渲染项确定装置的结构示意图；

图5为本公开实施例中的一种电子设备的结构示意图；

图6为本公开实施例中的渲染项集选择的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例

如图1所示，三维声音频模型由一组元素组成，每个元素用于描述音频的一个阶段，三维声音频模型包括内容制作部分和格式制作部分。

其中，所述内容部分包括：音频节目元素、音频内容元素、音频对象元素和音轨唯一标识元素；所述格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素和音频轨道格式元素；

所述音频节目元素引用至少一个所述音频内容元素；所述音频内容元素引用至少一个音频对象元素；所述音频对象元素引用对应的所述音频包格式元素和对应的所述音轨唯一标识元素；所述音轨唯一标识元素引用对应的所述音频轨道格式元素和对应的所述音频包格式元素；

所述音频包格式元素引用至少一个所述音频通道格式元素；所述音频流格式元素引用对应的所述音频通道格式元素和对应的所述音频包格式元素；所述音频轨道格式元素和对应的所述音频流格式元素相互引用。元素间的引用关系在图1中以箭头表示。

音频节目可以包括但不限于叙述、声音效果和背景音乐，所述音频节目元素可以用于描述节目，所述节目包括至少一个内容，所述音频内容元素用于描述所述音频节目元素中对应的一个内容。音频节目元素可以引用一个或多个音频内容元素，音频内容元素组合在一起以构建为完整的音频节目元素。

所述音频内容元素描述音频节目的一个组成部分(例如背景音乐)的内容，并引用一个或多个音频对象元素将内容与其格式联系起来。

所述音频对象元素用于建立内容、格式和有价值的信息，并确定实际音轨的音轨唯一标识。

格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素、音频轨道格式元素。

所述音频包格式元素，可以用于描述所述音频对象元素和原始音频数据依据通道分组打包时采用的格式。

所述音频通道格式元素可以用于表示单个音频采样序列和对其执行的预设操作，例如，在场景中渲染对象的移动。所述音频通道格式元素可以包含至少一个音频块格式元素。音频块格式元素可以视为音频通道格式元素的子元素，所以，音频通道格式元素和音频块格式元素之间为一种包含关系。

音频流，是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式元素用于建立音频轨道格式元素集和音频通道格式元素集之间的关系，或音频轨道格式集和音频包格式之间的关系。

所述音频轨道格式元素对应于单个音轨中的一组样本或数据，用于描述原始音频数据的格式，及渲染器的解码信号，还用于识别成功解码音轨数据所需的音轨组合。

通过三维声音频模型对原始音频数据进行制作后生成包含元数据的合成音频数据。

所述元数据(Metadata)是描述数据特性的信息，元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。

合成音频数据以通信方式传输到远端后，由远端渲染器基于元数据对合成音频数据进行解析，还原原始声音场景或实时渲染成新的声音场景。

基于场景的音频是由一组系数信号来代表内容的音频呈现方式。这些系数信号是空间正交基函数(例如球形或圆形谐波函数)的线性权重。可通过将这些系数信号提供至目标扬声器布局或耳机，对场景进行重现。节目产生是源自重现解耦，并允许在不知晓目标扬声器的数量和位置的情况下，创造混合的节目素材。基于场景的音频的一个示例是高阶环境音(HOA为：Higher Order Ambisonics简称)。

如图2中示出了音频渲染器架构基于所提供的输入元数据、目标环境(参数/配置)和音频流；其处理步骤有如下，渲染项确定为音频模型元数据到一组可渲染项的转换；渲染项处理为应用重要性和转换模拟的可选处理；渲染项的类型定义(typeDefinition)为根据渲染项本身拆分的子组件：基于对象的渲染器，基于直接扬声器(DirectSpeakers)的渲染器，基于场景(HOA)的渲染器，所有零件的共享渲染器组件。注意，图中不显示矩阵类型处理，因为矩阵类型是在创建渲染项期间进行处理的，并且是其他类型的渲染器的一部分。

目标环境行为：在初始化时，用户从规定用于节目制作的高级音响系统的的扬声器布局中选择扬声器布局。每个扬声器的标称位置(polar_nominal_position)如规定，M+SC和M-SC的标称方位角为15°和-15°。每个扬声器的实际位置可由用户指定。如没有给出，则使用标称位置。根据给出的范围检查给定的实际位置；如不在范围内，则发出错误。此外，M+SC和M-SC扬声器的绝对方位角必须介于5°和25°之间，或介于35°或60°之间。其中，“+/-SC”表示屏幕左侧和右侧的一对扬声器。国际电信联盟ITU BS.2051标准，里面详细规定了用于节目制作的高级音响系统的扬声器布局(即BS.2051_布局组(layouts))。

如图3所示，本公开提供了一种场景输出渲染项确定方法，该方法包括：

S210、获取渲染项生成器预先生成的渲染项；

S220、根据音频模型元数据结构路径，选择渲染项生成器预先生成的渲染项，再根据预设的所述音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；

S230、所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应的音轨规格转换成一个场景输出渲染项。

可选的，如图6所示，选择所述渲染项生成器预先生成的渲染项，先分析音频模型结构，渲染项选择状态时，在单个音频对象中的各个渲染项之间进行渲染项选择；当完全填充时，所述渲染项选择状态表示构成单个渲染项(RenderingItem)的所有渲染项；每个所述渲染项接受单个渲染项选择状态，并返回渲染项副本。

可选的，每个所述渲染项副本至少为一个，所述渲染项副本填充更多渲染项；每个所述渲染项依次修改时状态上的嵌套循环。

可选的，确定所述输出渲染项，包括：选择输入开始点、选择音频节目、选择音频内容、选择音频对象、补充音频对象处理、音频包格式匹配和输出渲染项；

所述输入开始点选择，根据音频文件中包含的元素，从音频模型结构中的多个输入点开始；如果有音频节目元素，则选择单个音频节目(audioProgramme)；否则，如果有音频对象(audioObject)元素，则应选择所有音频对象；否则，将选择所有音轨唯一标识(audioTrackUID)集(称为仅通道分配(CHNA)模式)；

所述音频节目选择，使用程序选择一个音频节目；用户可以选择要使用程序，如果未选择音频节目，则应选择ID数值最低的音频节目；

所述音频内容选择，根据所述音频节目选择引用的所有音频内容(audioContent)集；

所述音频对象选择，音频对象为通过音频对象层次结构的所有路径，从选定的所述音频内容(以下音频对象链接)开始；

所述补充音频对象处理，表示从定义音频对象组中的默认音频对象到组中的所有非默认音频对象，选择其中一组音频对象，复制音频对象后覆盖默认音频对象；定义音频对象组，确定一组要忽略的音频对象；

所述音频包格式匹配，根据音频包格式(audioPackFormat)和音频通道格式(audioChannelFormat)结构匹配音频对象中的音频包格式、音轨唯一标识和静默音轨数量的列表；或根据音频包格式和音频通道格式结构匹配通道分配模式下的所有音轨唯一标识的列表；

所述输出渲染项，确定根音频包格式，并为每个音频通道分配对应的音轨规格(TrackSpec)，将找到所述根音频包格式的所有信息转换为一个或多个输出渲染项集(RenderingItems)。输出渲染项是根据提供根音频包格式的类型确定。所述根音频包格式为根包(root_pack)，引用要分配的所有通道的顶级音频包格式(audioPackFormat)，软件程序中表示AudioPackFormat root_pack。

可选的，所述场景输出渲染项，对每个音频包分配生成一个场景输出渲染项，场景输出渲染项包含渲染构成场景流的音频通道所需的所有信息，所有信息通过多个音频通道格式集和对应的音频包格式集进行传播；所述场景输出渲染项的音频通道格式集包含一个音频块格式元素；所述场景输出渲染项封装在预设类型的渲染项对象中。其中，多个音频通道格式集和嵌套时的音频包格式集格式信息一致。

可选的，生成所述场景输出渲染项，创建一个场景类型元数据对象，确定根音频包格式中每个音频通道格式的所有参数；获取指定音频通道格式的近场(NFC)补偿值后，在近场补偿阶段进行近场补偿值转换，生成一个场景输出渲染项(HOARenderingItem)；所述场景输出渲染项的参数设置在音频通道分配的每个参数的音轨规格集(track_specs)和重要性集(importances)中，所述场景类型元数据(HOATypeMetadata)对象包含有一个资源元数据(MetadataSource)。

对于同时具有音频块格式(audioBlockFormat)和音频包格式的音频通道格式参数，该参数设置在音频通道格式中的唯一音频块格式上，或者在从根音频包格式到音频通道格式的路径上设置任何音频包格式。如果为给定的音频通道格式找到一个参数的多个副本，则它们的值相同，否则将引发错误。如果找不到给定参数和音频通道格式的值，则应用中指定的默认值。

音频通道格式的近场补偿值，0值转换为None，意味着不应用近场补偿。在近场补充阶段执行的，而不是在可扩展标记语言解析期间执行，例如，近场补偿值等于0.0，被认为与近场补偿值等于1.0冲突。可扩展标记语言：(XML为Extensible Markup Language简称)用于标记音频文件使其具有结构性的标记语言。

对于只有一个值的参数(除阶数集和度数集外)，所有音频通道格式集(audioChannelFormats)的参数应相等，否则将产生错误。

整个音频包格式的额外数据由所述共享组件确定。

共享组件，渲染项中的某些数据在类型之间共享，也以相同的方式派生；重要性数据(ImportanceData)对象派生自项选择状态，其值如下：

共享组件被指定为在路径的所有音频对象集中最不重要；共享组件具有从根音频包格式到音频通道格式路径上的任何音频包格式中指定的最低重要性。

在这两种情况下，未指定重要性(None)被定义为最高重要性。

额外数据(ExtraData)对象派生自项选择状态，其值如下：对象开始(object_start)是路径上最后一个音频对象的开始时间(在仅通道分配模式下未指定重要性)。

对象持续时间(object_duration)是路径上最后一个音频对象的持续时间(在仅通道分配模式下未指定重要性)。

屏幕参考(reference_screen)是所选音频节目的音频节目荧幕参考(audioProgrammeReferenceScreen)(没选即为未指定重要性)。

通道频率(channel_frequency)是所选音频通道格式的频率(frequency)要素。(或者未指定重要性，如果没有选择一个，比如在创建一个场景渲染项时)。

场景类型元数据对象的参数根据如下表1所示派生，

表1

与音床和对象的情况不同，对于定义类型为场景，场景渲染项的一组音频通道格式集需要一起处理。场景类型元数据不包含音频块格式和额外数据，是从音频块格式中提取必要的信息并直接存储在场景类型元数据中。场景渲染项不仅包含一个音轨规格，还包含一个音轨规格集(TrackSpecs)向量。

本公开基于场景输出渲染项确定方法，提供基于场景的音频模型元数据到一组可渲染项转换，能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。

图4为本公开实施例提供的一种场景输出渲染项确定装置，包括：

获取模块310，用于获取渲染项生成器预先生成的渲染项；

转换模块320，用于根据音频模型元数据结构路径，选择渲染项生成器预先生成的渲染项，再根据预设的音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；

生成模块330，用于所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应的音轨规格转换成一个场景输出渲染项模块。

可选的，选择所述渲染项生成器预先生成的渲染项，先分析音频模型结构，渲染项选择状态时，在单个音频对象中的各个渲染项之间进行渲染项选择；当完全填充时，所述渲染项选择状态表示构成单个渲染项的所有渲染项；每个渲染项接受单个渲染项选择状态，并返回渲染项副本。

所述输入开始点选择，根据音频文件中包含的元素，从音频模型结构中的多个输入点开始；如果有音频节目元素，则选择单个音频节目；否则，如果有音频对象元素，则选择所有音频对象；否则，将选择所有音轨唯一标识集(称为仅通道分配模式)；

所述音频节目选择，使用程序选择一个音频节目；如果未选择音频节目，则应选择ID数值最低的音频节目；

所述音频内容选择，根据所述音频节目选择引用的所有音频内容集；

所述音频包格式匹配，根据音频包格式和音频通道格式结构匹配音频对象中的音频包格式、音轨唯一标识和静默音轨数量的列表；或根据音频包格式和音频通道格式结构匹配通道分配模式下的所有音轨唯一标识的列表；

所述输出渲染项，确定根音频包格式，并为每个音频通道分配对应的音轨规格，将找到所述根音频包格式的所有信息转换为一个或多个输出渲染项集。输出渲染项根据提供根音频包格式的类型确定。

所述场景输出渲染项模块，对每个音频包分配生成一个场景输出渲染项，场景输出渲染项包含渲染构成场景流的音频通道所需的所有信息，所有信息通过多个音频通道格式集和对应的音频包格式集进行传播；所述场景输出渲染项的音频通道格式集包含一个音频块格式元素；所述场景输出渲染项封装在预设类型的渲染项对象中。其中，多个音频通道格式集和音频包格式集(嵌套时)格式信息一致。

生成所述场景输出渲染项，创建一个场景类型元数据对象，确定根音频包格式中每个音频通道格式的所有参数；获取指定音频通道格式的近场补偿值后，在近场补偿阶段进行近场补偿值转换，生成一个场景输出渲染项；所述场景输出渲染项的参数设置在音频通道分配的每个参数的音轨规格集和重要性集中，所述场景类型元数据对象包含有一个资源元数据。

本发明实施例所提供的场景输出渲染项确定装置可执行本发明任意实施例所提供的场景输出渲染项确定方法，具备执行方法相应的功能模块和有益效果。

图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示，该电子设备包括：处理器410、存储器420、输入装置430以及输出装置440。该电子设备中处理器410的数量可以是一个或者多个，图5中以一个处理器410为例。该电子设备中存储器420的数量可以是一个或者多个，图5中以一个存储器420为例。该电子设备的处理器410、存储器420、输入装置430以及输出装置440可以通过总线或者其他方式连接，图5中以通过总线连接为例。该电子设备可以是电脑和服务器等。本公开实施例以电子设备为服务器进行详细说明，该服务器可以是独立服务器或集群服务器。存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开任意实施例所述广播音频格式文件生成装置的程序指令/模块。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或者字符信息，以及产生与电子设备的观众用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置440可以包括扬声器等音频设备。需要说明的是，输入装置430和输出装置440的具体组成可以根据实际情况设定。

处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现场景输出渲染项确定方法。

本公开实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器生成包括任意实施例提供的场景输出渲染项确定方法。

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的电子方法操作，还可以执行本公开任意实施例所提供的电子方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本公开任意实施例所述的电子方法。

值得注意的是，上述电子装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明、具体实施方式及试验，对本公开作了详尽的描述，但在本公开基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本公开精神的基础上所做的这些修改或改进，均属于本公开要求保护的范围。

Claims

1.一种场景输出渲染项确定方法，其特征在于，包括：

获取渲染项生成器预先生成的渲染项；

2.根据权利要求1所述的方法，其特征在于，选择所述渲染项生成器预先生成的渲染项，先分析所述音频模型结构，渲染项选择状态时，在单个音频对象中的各个渲染项之间进行渲染项选择；当完全填充时，所述渲染项选择状态表示构成单个渲染项的所有渲染项；每个渲染项接受单个渲染项选择状态，并返回渲染项副本。

3.根据权利要求2所述的方法，其特征在于，每个所述渲染项副本至少为一个，每个所述渲染项依次修改时状态上的嵌套循环。

4.根据权利要求1所述的方法，其特征在于，确定所述输出渲染项，包括：选择输入开始点、选择音频节目、选择音频内容、选择音频对象、补充音频对象处理、音频包格式匹配和输出渲染项；

所述输入开始点选择，根据音频文件中包含的元素，从音频模型结构中的多个输入点开始；

所述音频节目选择，使用程序选择一个音频节目；

所述音频对象选择，所述音频对象为通过音频对象层次结构的所有路径，从选定的所述音频内容开始；

所述补充音频对象处理，表示从定义音频对象组中的默认音频对象到组中的所有非默认音频对象，选择其中一组音频对象，复制音频对象后覆盖默认音频对象；

所述输出渲染项，确定根音频包格式，并为每个音频通道分配对应的音轨规格，将找到所述根音频包格式的所有信息转换为一个或多个输出渲染项集，所述输出渲染项根据提供根音频包格式的类型确定。

5.根据权利要求4所述的方法，其特征在于，所述场景输出渲染项，对每个音频包分配生成一个场景输出渲染项，所述场景输出渲染项包含渲染构成场景流的音频通道所需的所有信息，所述所有信息通过多个音频通道格式集和对应的音频包格式集进行传播，所述场景输出渲染项的音频通道格式集包含一个音频块格式元素；所述场景输出渲染项封装在预设类型的渲染项对象中。

6.根据权利要求5所述的方法，其特征在于，生成所述场景输出渲染项，创建一个场景类型元数据对象，确定所述根音频包格式中每个音频通道格式的所有参数；获取指定音频通道格式的近场补偿值后，在近场补偿阶段进行近场补偿值转换，生成一个场景输出渲染项；所述场景输出渲染项的参数设置在音频通道分配的每个参数音轨规格和重要性中，所述场景类型元数据对象包含有一个资源元数据。

7.一种场景输出渲染项确定装置，其特征在于，包括：

获取模块，用于获取渲染项生成器预先生成的渲染项；

转换模块，用于根据音频模型元数据结构路径，选择所述渲染项生成器预先生成的渲染项，再根据预设的音频模型元数据的属性确定输出渲染项；将所述输出渲染项对应的音频信号通过场景渲染器传递到所有扬声器配置；

生成模块，用于所述输出渲染项的定义类型确定后，在音频通道分配中，将每种音频通道格式和相对应音轨规格转换成一个场景输出渲染项模块。

8.一种电子设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。

9.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器实现如权利要求1-6任一项所述方法。