CN115529548A

CN115529548A - 扬声器通道生成方法、装置、电子设备及介质

Info

Publication number: CN115529548A
Application number: CN202211063746.8A
Authority: CN
Inventors: 吴健
Original assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Current assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-27

Abstract

本发明涉及扬声器通道生成方法、设备及存储介质。该方法，包括：获取渲染项生成器生成的渲染项；根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构，包含在不同类型定义集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在共享渲染器中将获取元数据块进行计时元数据的解释保存；对于每个类型元数据对象进行类型元数据解析；所述类型元数据解析音频定义模型的定时元数据；渲染音频定义模型的定时元数据以推动区块队列对象应用于输入音频通道，并结合应用区块传递至输出音频。能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。

Description

扬声器通道生成方法、装置、电子设备及介质

技术领域

本发明涉及音频通道处理的技术领域，尤其涉及扬声器通道生成方法、装置、电子设备及介质。

背景技术

随着科技的发展，音频变得越来越复杂。由早期的单声道音频演变成立体声，工作重心也注重左右声道的正确处理方式。但环绕声出现后，处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束，进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化，把正确的信号传递给合适的扬声器形成相互牵连的效果。因此，随着声音变得更具沉浸感和交互性，音频处理的复杂性也大大增加。

音频声道(或声道)，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如，在环绕5.1扬声器系统中包括6个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器；在环绕7.1扬声器系统中包括8个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器。

因此，当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如，双声道扬声器系统无法实现环绕5.1扬声器系统的效果。

发明内容

本公开的目的在于提出一种扬声器通道生成方法、装置、电子设备及介质，以解决上述技术问题之一。能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。

为实现上述目的，本发明第一方面提供了扬声器通道生成方法，包括：

获取渲染项生成器生成的渲染项；

根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构，包含在不同类型定义集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在共享渲染器中将获取元数据块进行计时元数据的解释保存；

对于每个类型元数据对象进行类型元数据解析；所述类型元数据解析音频定义模型的定时元数据；

所述定时元数据以推动区块队列对象应用于输入音频通道，并结合应用区块传递至输出音频。

本发明第二方面提供了扬声器通道生成装置，包括：

获取模块，用于获取渲染项生成器生成的渲染项；

输入模块，用于根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构，包含在不同类型定义集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在共享渲染器中将获取元数据块进行计时元数据的解释保存；

解析模块，用于对于每个类型元数据对象进行类型元数据解析；所述类型元数据解析音频定义模型的定时元数据；

输出模块，用于所述定时元数据以推动区块队列对象应用于输入音频通道，并结合应用区块传递至输出音频。

本发明第三方面提供了一种电子设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如任意实施例提供的扬声器通道生成方法。

本发明第四方面提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器实现任意实施例提供的扬声器通道生成方法。

由上可见，本公开扬声器通道生成方法，能够将音频信号渲染到高级音响系统中规定的所有扬声器配置。在通道中能够实现三维声音的复现，从而提高了声音场景的质量。

附图说明

图1为本发明实施例中提供了一种三维声音频制作模型的示意图；

图2为本发明实施例中提供了扬声器通道生成的框架示意图；

图3为本发明实施例1中提供扬声器通道生成方法的流程图；

图4为本发明实施例2中提供扬声器通道生成装置的结构示意图；

图5为本发明实施例3提供的电子设备的结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

元数据(Metadata)是描述数据的结构特性的信息，而元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。

如图1所示，三维声音频制作模型由一组制作元素组成，每个制作元素均通过元数据描述音频制作对应阶段的数据的结构特性的信息，三维声音频制作模型包括内容制作部分和格式制作部分。

内容制作部分的制作元素包括：音频节目元素、音频内容元素、音频对象元素和音轨唯一标识元素。

所述音频节目包括叙述、声音效果和背景音乐，音频节目引用一个或多个音频内容，音频内容组合在一起以构建为完整的音频节目。所述音频节目元素也就是制作音频节目，生成音频节目的元数据用于描述音频节目的结构特性的信息。

所述音频内容描述音频节目的一个组成部分(例如背景音乐)的内容，并引用一个或多个音频对象将内容与其格式联系起来。所述音频内容元素也就是制作音频内容，生成音频内容的元数据用于描述音频内容的结构特性的信息。

所述音频对象用于建立内容、格式和使用音轨唯一标识元素的资源之间的关系，并确定实际音轨的音轨唯一标识。所述音频对象元素也就是制作音频对象，生成音频对象的元数据用于描述音频对象的结构特性的信息。

所述音轨唯一标识元素也就是制作音轨唯一标识，生成音轨唯一标识的元数据用于描述音轨唯一标识的结构特性的信息。

格式制作部分的制作元素包括：音频包格式元素、音频通道格式元素、音频流格式元素、音频轨道格式元素。

所述音频包格式是将音频对象和原始音频数据依据通道分组打包时所采用的格式，其中，音频包格式中能够包括嵌套的音频包格式。所述音频包格式元素也就是制作音频包数据。所述音频包数据中包括音频包格式的元数据，所述音频包格式的元数据用于描述音频包格式的结构特性的信息。

所述音频通道格式表示单个音频采样序列，可以对其执行某种操作，例如，在场景中渲染对象的移动。音频通道格式中能够包括嵌套的音频通道格式。所述音频通道格式元素也就是制作音频通道数据。所述音频通道数据中包括音频通道格式的元数据，所述音频通道格式的元数据用于描述音频通道格式的结构特性的信息。

音频流，是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式用于建立音频轨道格式集和音频通道格式集或音频包格式之间的关系。所述音频流格式元素也就是制作音频流数据。所述音频流数据中包括音频流格式的元数据，所述音频流格式的元数据用于描述音频流格式的结构特性的信息。

所述音频轨道格式对应于存储介质中单个音轨中的一组样本或数据，用于描述原始音频数据的轨道格式，及渲染器的解码信号。音频轨道格式来自音频流格式，用于识别成功解码音轨数据所需的音轨组合。所述音频轨道格式元素也就是制作音频轨道数据。所述音频轨道数据中包括音频轨道格式的元数据，所述音频轨道格式的元数据用于描述音频轨道格式的结构特性的信息。

三维声音频制作模型的每个阶段均制作出描述该阶段特性的元数据。

基于上述三维声音频制作模型制作出的音频通道数据以通信方式传输到远端后，由远端基于元数据对音频通道数据分阶段进行逐级渲染，还原制作的声音场景。

实施例1如图3所示，本公开提供了一种扬声器通道生成方法，该方法包括：

S210、获取渲染项生成器生成的渲染项；

S220、根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构(如图2)，包含在不同类型定义(typeDefinition)集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在共享渲染器中将获取元数据块进行计时元数据的解释保存；

S230、对于每个类型元数据对象进行类型元数据解析；所述类型元数据解析音频定义模型(ADM)的定时元数据；

S240、所述定时元数据以推动区块队列对象应用于输入音频通道，并结合应用区块传递至输出音频。

可选的，所述共享渲染器包括：区块处理通道；共享渲染器为渲染器的子组件。

可选的，所述区块处理通道的类型包括：固定增益、固定矩阵和线性插值增益，

所述固定增益(FixedGains)采用单个输入通道并应用多个增益，将输出相加为n个输出通道；多个增益的数量为n个。

所述固定矩阵(FixedMatrix)接受多个输入通道，并应用增益矩阵形成M个输出通道；增益矩阵为NxM的增益矩阵。多个输入通道数量为n个。

所述线性插值增益(InterpGains)采用单个输入通道，并应用多个线性插值增益，将输出相加为多个与线性插值增益相对应的输出通道；所述线性插值增益提供增益开始(gains_start)和增益结束(gains_end)，所述增益开始是在开始样本(start_sample)时应用的增益向量，所述增益结束是在结束样本(end_sample)时应用的增益向量。

其中在样本s处应用于通道i的增益g(i,s)由下式给出：

g(i，S)＝(1-p(s))×gains_start[i]+p(s)×gains_end[i]

可选的，渲染所述定时元数据包括：对于给定的输入音频通道子集属性与所有定义类型值相同，在限定时间范围之间进行输入音频通道处理，在输出上生成扬声器通道。

可选的，所述区块处理通道的资源元数据(MetadataSource)由高级音响系统提供，作为向渲染器输送元数据的对象；

通过多次调用得到下一区块(get_next_block)，所述区块处理通道接收渲染项集的类型元数据块(TypeMetadata)，所述类型元数据块对应于渲染期间所需的有时间限制的元数据块。该资源元数据具有可选择的类型接口。

可选的，所述类型元数据块由解析元数据(interpret_metadata)函数进行解析，所述解析元数据函数由渲染器为每个类型定义提供相关参数；所述解析元数据函数接受一个类型元数据并返回一个区块处理(ProcessingBlock)对象列表，所述对象列表封装实现给定类型元数据所需的有时间限制的音频处理；

对于对象类型元数据的解析，在可解析的对象类型元数据(InterpretObjectMetadata)类中解析对象计时元数据(Object timing metadata)，所述可解析的对象类型元数据应用于区块处理通道结构。对于场景类型元数据(typeDefinition＝＝HOA)和音床类型元数据(typeDefinition＝＝DirectSpeakers)，将返回单个区块处理。

所述区块处理对象具有外部接口，用于传递给处理(process)样本设定为输入文件/输出文件中的样本子集，输入文件的样本子集(Input_samples[i])表示全局输入，输出文件的样本子集(output_samples[i])代表输出样本(in_out_Samples_start+i)。

该样本子集的首样本(first_sample)和末样本(last_sample)属性定义了受区块处理影响的全局样本数s的范围：

first_sample≤s≤last_sample

开始样本(start_sample)和(end_sample)是开始样本和结束样本的小数数值，用于确定首样本和末样本属性，并可由区块处理子类实现。

可选的，所述区块处理通道(BlockProcessingChannel)的对象存储有一区块处理队列，所述区块处理队列从资源元数据(metadata_source)请求块通过解析元数据传递资源元数据请求块来重新填充；所述区块处理通道的处理(BlockProcessingChannel.process)将区块处理队列中的程序方块图传递给音频样本，使用首样本和末样本来确定移动到下一个区块时间；

所述音频样本为以区块大小进行独立的元数据块处理，同时进行音频样本精确的元数据处理，并且不会使渲染器复杂化，并考虑到具体的时间问题。

允许渲染器获取元数据块的决定将计时元数据的解释保留在渲染器中；如果元数据被推入渲染器中，则执行推送的组件必须知道何时需要下一个块，这取决于其中的计时信息。此功能在core.renderer_common中实现。

所述共享组件，包括重要性和额外数据。

重要性数据(ImportanceData)对象应派生自项选择状态。

共享组件被指定为在路径的所有音频对象集中最不重要；共享组件具有从根音频包格式到音频通道格式路径上的任何音频包格式中指定的最低重要性。

在这两种情况下，未指定重要性(None)被定义为最高重要性。

额外数据(ExtraData)对象派生自项选择状态，其值如下：对象开始(object_start)是路径上最后一个音频对象的开始start时间(在仅通道分配模式下未指定重要性)。

对象持续时间(object_duration)是路径上最后一个音频对象的持续时间(duration)(在仅通道分配模式下未指定重要性)。

屏幕参考(reference_screen)是所选音频节目的音频节目荧幕参考(audioProgrammeReferenceScreen)(没选即为未指定重要性)。

通道频率(channel_frequency)是所选音频通道格式的频率(frequency)要素。(或者未指定重要性，如果没有选择一个，比如在创建一个场景渲染项时)。

该确定方法，能够将音频这些信号渲染到高级音响系统中规定的所有扬声器配置，达到应用终端的实现。

实施例2图4为本公开实施例提供的一种扬声器通道生成装置，包括：

获取模块310，用于获取渲染项生成器预先生成的渲染项；

输入模块320，用于根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构，包含在不同类型定义集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在共享渲染器中将获取元数据块进行计时元数据的解释保存；

解析模块330，用于对于每个类型元数据对象进行类型元数据解析；所述类型元数据解析音频定义模型的定时元数据；

输出模块340，用于所述定时元数据以推动区块队列对象应用于输入音频通道，并结合应用区块传递至输出音频。

可选的，所述共享渲染器包括：区块处理通道。

所述固定增益采用单个输入通道并应用多个增益，将输出相加为n个输出通道；

所述固定矩阵接受多个输入通道，并应用增益矩阵形成M个输出通道；增益矩阵为NxM增益矩阵。

所述线性插值增益采用单个输入通道，并应用多个线性插值增益，将输出相加为多个相对应的输出通道；所述线性插值增益提供增益开始和增益结束，所述增益开始是在开始样本时应用的增益向量，所述增益结束是在结束样本时应用的增益向量。

可选的，所述区块处理通道的资源元数据由高级音响系统提供，作为向渲染器输送元数据的对象；

通过多次调用得到下一区块，所述区块处理通道接收渲染项集的类型元数据块，所述类型元数据块对应于渲染期间所需的有时间限制的元数据块。该资源元数据具有可选择的类型接口。

可选的，所述类型元数据块由解析元数据函数进行解析，所述解析元数据函数由渲染器为每个类型定义提供相关参数；所述解析元数据函数接受一个类型元数据并返回一个区块处理对象列表，所述对象列表封装实现给定类型元数据所需的有时间限制的音频处理；

所述区块处理对象具有外部接口，用于传递给处理样本设定为输入文件/输出文件中的样本子集，输入文件的样本子集表示全局输入，输出样本集代表输出样本。

可选的，所述区块处理通道的对象存储一队列区块处理，所述区块处理队列从资源元数据请求块通过解析元数据传递资源元数据请求块来重新填充；所述区块处理通道的处理将区块处理队列中的程序方块图传递给音频样本，使用首样本和末样本来确定移动到下一个区块时间；

该生成装置，能够将音频这些信号渲染到高级音响系统中规定的所有扬声器配置，达到应用终端的实现。

实施例3本发明实施例3提供的一种电子设备的结构示意图。

如图5所示，该电子设备包括：处理器410、存储器420、输入装置430以及输出装置440。该电子设备中处理器410的数量可以是一个或者多个，图5中以一个处理器410为例。该电子设备中存储器420的数量可以是一个或者多个，图5中以一个存储器420为例。该电子设备的处理器410、存储器420、输入装置430以及输出装置440可以通过总线或者其他方式连接，图5中以通过总线连接为例。该电子设备可以是电脑和服务器等。本发明实施例以电子设备为服务器进行详细说明，该服务器可以是独立服务器或集群服务器。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述产生音频包格式的元数据的程序指令/模块。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或者字符信息，以及产生与电子设备的观众用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置440可以包括扬声器等音频设备。需要说明的是，输入装置430和输出装置440的具体组成可以根据实际情况设定。

处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现扬声器通道生成方法。

本发明还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器产生包括任意实施例提供的扬声器通道生成方法。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的电子方法操作,还可以执行本发明任意实施例所提供的电子方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的电子方法。

值得注意的是，上述电子装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明、具体实施方式及试验，对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.扬声器通道生成方法，其特征在于，包括：

获取渲染项生成器生成的渲染项；

根据渲染项处理器得到共享渲染器的类型元数据，所述共享渲染器用于处理相关通道的结构，包含在不同类型定义集的子渲染器之间共享组件；所述相关通道的结构允许共享渲染器分离，在所述共享渲染器中将获取元数据块进行计时元数据的解释保存；

2.根据权利要求1所述的方法，其特征在于，所述共享渲染器包括：区块处理通道。

3.根据权利要求2所述的方法，其特征在于，所述区块处理通道的类型包括：固定增益、固定矩阵和线性插值增益，

所述固定矩阵接受多个输入通道，并应用增益矩阵形成多个输出通道；

所述线性插值增益采用单个输入通道，并应用多个线性插值增益，将输出相加为多个与线性插值增益相对应的输出通道；所述线性插值增益提供增益开始和增益结束，所述增益开始是在开始样本时应用的增益向量，所述增益结束是在结束样本时应用的增益向量。

4.根据权利要求1所述的方法，其特征在于，渲染所述定时元数据包括：对于给定的输入音频通道子集属性与所有定义类型值相同，在限定时间范围之间进行输入音频通道处理，在输出上生成扬声器通道。

5.根据权利要求2所述的方法，其特征在于，所述区块处理通道的资源元数据由高级音响系统提供，作为向渲染器输送元数据的对象；

通过多次调用得到下一区块，所述区块处理通道接收渲染项集的类型元数据块，所述类型元数据块对应于渲染期间所需的有时间限制的元数据块。

6.根据权利要求5所述的方法，其特征在于，所述类型元数据块由解析元数据函数进行解析，所述解析元数据函数由渲染器为每个类型定义提供相关参数；所述解析元数据函数接受一个类型元数据并返回一个区块处理对象列表，所述对象列表封装实现给定类型元数据所需的有时间限制的音频处理；

所述区块处理对象具有外部接口，用于传递给处理样本设定为输入文件/输出文件中的样本子集，输入文件的样本子集表示全局输入，输出文件的样本子集代表输出样本。

7.根据权利要求6所述的方法，其特征在于，所述区块处理通道的对象存储有一区块处理队列，所述区块处理队列从资源元数据请求块通过解析元数据传递资源元数据请求块来重新填充；所述区块处理通道的处理是将区块处理队列中的程序方块图传递给音频样本，使用首样本和末样本来确定移动到下一个区块时间；

所述音频样本为以区块大小进行独立的元数据块处理，同时进行样本精确的元数据处理。

8.扬声器通道生成装置，其特征在于，包括：

获取模块，用于获取渲染项生成器生成的渲染项；

9.一种电子设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器产生包括如权利要求1-7任一项所述的方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器产生包括如权利要求1-7任一项所述的方法。