CN114203189A

CN114203189A - 基于双耳音频包格式元数据和产生方法、设备及介质

Info

Publication number: CN114203189A
Application number: CN202111308421.7A
Authority: CN
Inventors: 吴健
Original assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Current assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-18

Abstract

本公开涉及一种基于双耳音频包格式元数据和产生方法、设备及介质。音频包格式的元数据，包括：属性区，包括音频包的音频包格式标识和音频包格式名称，音频包格式标识包括指示音频包的音频类型为双耳声道类型的信息；子元素区，包括：第一引用信息、第二引用信息和绝对距离，第一引用信息包括渲染时与音频包相关的音频通道所采用的音频通道格式信息，第二引用信息指示为预设无效信息，所述预设无效信息用于表征渲染时所述双耳声道类型的音频包不存在对应的引用信息，所述绝对距离指示为预设无效值，所述预设无效值用于表征渲染时所述双耳声道类型的音频包不存在对应的距离。渲染时在双耳中能够实现三维声音的复现，从而提高了声音场景的质量。

Description

基于双耳音频包格式元数据和产生方法、设备及介质

技术领域

本公开涉及音频处理的技术领域，尤其涉及一种基于双耳音频包格式元数据和产生方法、设备及介质。

背景技术

随着科技的发展，音频变得越来越复杂。由早期的单声道音频演变成立体声，工作重心也注重左右声道的正确处理方式。但环绕声出现后，处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束，进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化，把正确的信号传递给合适的扬声器形成相互牵连的效果。因此，随着声音变得更具沉浸感和交互性，音频处理的复杂性也大大增加。

音频声道(或声道)，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如，在环绕5.1扬声器系统中包括6个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器；在环绕7.1扬声器系统中包括8个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器。

因此，当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如，双声道扬声器系统无法实现环绕5.1扬声器系统的效果。

本公开提供了一种音频包格式的元数据和产生方法，以便提供一种能够解决上述技术问题的元数据。

发明内容

本公开的目的在于提出一种基于双耳音频包格式元数据和产生方法、设备及介质，以解决上述技术问题之一。

为实现上述目的，本公开第一方面提供了一种音频包格式的元数据，包括：

属性区，包括音频包的音频包格式标识和音频包格式名称，所述音频包格式标识包括指示所述音频包的音频类型为双耳声道类型的信息；

子元素区，包括：第一引用信息、第二引用信息和绝对距离，所述第一引用信息包括渲染时与所述音频包相关的音频通道所采用的音频通道格式信息，所述第二引用信息指示为预设无效信息，所述预设无效信息用于表征渲染时所述双耳声道类型的音频包不存在对应的引用信息，所述绝对距离指示为预设无效值，所述预设无效值用于表征渲染时所述双耳声道类型的音频包不存在对应的距离。

为实现上述目的，本公开第二方面提供了一种音频包格式的元数据的产生方法，包括：

产生包括如第一方面所述音频包格式的元数据。

为实现上述目的，本公开第三方面提供了一种电子设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器产生包括如第一方面所述音频包格式的元数据。

为实现上述目的，本公开第四方面提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器产生包括如第一方面所述音频包格式的元数据。

由上可见，本公开音频包格式的元数据，包括：属性区，包括音频包的音频包格式标识和音频包格式名称，所述音频包格式标识包括指示所述音频包的音频类型为双耳声道类型的信息；子元素区，包括：第一引用信息、第二引用信息和绝对距离，所述第一引用信息包括渲染时与所述音频包相关的音频通道所采用的音频通道格式信息，所述第二引用信息指示为预设无效信息，所述预设无效信息用于表征渲染时所述双耳声道类型的音频包不存在对应的引用信息，所述绝对距离指示为预设无效值，所述预设无效值用于表征渲染时所述双耳声道类型的音频包不存在对应的距离。所述音频包格式的元数据描述了双耳声道类型的音频包格式，在双耳中能够实现三维声音的复现，从而提高了声音场景的质量。

附图说明

图1为本公开实施例中提供了一种三维声音频制作模型的示意图；

图2为本公开实施例1中提供了一种音频包格式的元数据的结构示意图；

图3为本公开实施例2中提供的一种音频包格式的元数据的产生方法的流程图；

图4为本公开实施例3提供的一种电子设备的结构示意图。

具体实施方式

以下实施例用于说明本公开，但不用来限制本公开的范围。

元数据(Metadata)是描述数据的结构特性的信息，而元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。

如图1所示，三维声音频制作模型由一组制作元素组成，每个制作元素均通过元数据描述音频制作对应阶段的数据的结构特性的信息，三维声音频制作模型包括内容制作部分和格式制作部分。

内容制作部分的制作元素包括：音频节目元素、音频内容元素、音频对象元素和音轨唯一标识元素。

所述音频节目包括叙述、声音效果和背景音乐，音频节目引用一个或多个音频内容，音频内容组合在一起以构建为完整的音频节目。所述音频节目元素也就是制作音频节目，生成音频节目的元数据用于描述音频节目的结构特性的信息。

所述音频内容描述音频节目的一个组成部分(例如背景音乐)的内容，并引用一个或多个音频对象将内容与其格式联系起来。所述音频内容元素也就是制作音频内容，生成音频内容的元数据用于描述音频内容的结构特性的信息。

所述音频对象用于建立内容、格式和使用音轨唯一标识元素的资源之间的关系，并确定实际音轨的音轨唯一标识。所述音频对象元素也就是制作音频对象，生成音频对象的元数据用于描述音频对象的结构特性的信息。

所述音轨唯一标识元素也就是制作音轨唯一标识，生成音轨唯一标识的元数据用于描述音轨唯一标识的结构特性的信息。

格式制作部分的制作元素包括：音频包格式元素、音频通道格式元素、音频流格式元素、音频轨道格式元素。

所述音频包格式是将音频对象和原始音频数据依据通道分组打包时所采用的格式，其中，音频包格式中能够包括嵌套的音频包格式。所述音频包格式元素也就是制作音频包数据。所述音频包数据中包括音频包格式的元数据，所述音频包格式的元数据用于描述音频包格式的结构特性的信息。

所述音频通道格式表示单个音频采样序列，可以对其执行某种操作，例如，在场景中渲染对象的移动。音频通道格式中能够包括嵌套的音频通道格式。所述音频通道格式元素也就是制作音频通道数据。所述音频通道数据中包括音频通道格式的元数据，所述音频通道格式的元数据用于描述音频通道格式的结构特性的信息。

音频流，是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式用于建立音频轨道格式集和音频通道格式集或音频包格式之间的关系。所述音频流格式元素也就是制作音频流数据。所述音频流数据中包括音频流格式的元数据，所述音频流格式的元数据用于描述音频流格式的结构特性的信息。

所述音频轨道格式对应于存储介质中单个音轨中的一组样本或数据，用于描述原始音频数据的轨道格式，及渲染器的解码信号。音频轨道格式来自音频流格式，用于识别成功解码音轨数据所需的音轨组合。所述音频轨道格式元素也就是制作音频轨道数据。所述音频轨道数据中包括音频轨道格式的元数据，所述音频轨道格式的元数据用于描述音频轨道格式的结构特性的信息。

三维声音频制作模型的每个阶段均制作出描述该阶段特性的元数据。

基于上述三维声音频制作模型制作出的音频通道数据以通信方式传输到远端后，由远端基于元数据对音频通道数据分阶段进行逐级渲染，还原制作的声音场景。

实施例1

本公开提供了三维声音频模型中的一种音频包格式的元数据，并进行详细说明。

在三维声音频制作模型的音频包格式元素中，将音频对象的元数据和音频流数据依据通道划分为多个数据块，这些数据块被称为音频包。这些音频包沿着不同的路径在一个或多个网络中传输，以便在目的地重新组合。本公开实施例采用音频包格式的元数据100描述音频包格式的结构信息。

如图2所示，该音频包格式的元数据100包括属性区110和子元素区120。

所述属性区110，包括音频包的音频包格式标识111和音频包格式名称112。

所述音频包格式标识111包括指示所述音频包的音频类型为双耳声道类型的信息。

在本公开实施例中，音频类型，包括：音床类型、矩阵类型、对象类型、场景类型和双耳声道类型。每种音频类型的音频通道数据均通过上述三维声音频制作模型生成。

其中，基于双耳声道类型的音频包数据，可以理解为，将原始音频数据的制作为具有两个音频通道的音频包数据，以便通过双耳通道类型的扬声器(比如耳机)能够播放。

所述音频包格式标识111包括指示所述音频包的音频类型为双耳声道类型的信息，例如，音频包格式标识111设置为“AP_y₁y₂y₃y₄x₁x₂x₃x₄”格式，其中“y₁y₂y₃y₄”用于指示所述音频包的音频类型为双耳声道类型的信息，用数字字符和/或符号字符表示，比如四位十六进制数字字符“0005”或符号字符“abcd”或混合字符“ab05”表示所述音频包的音频类型为双耳声道类型。

可选的，所述音频包格式标识111还包括指示音频节目制作高级音响系统的特定类型的信息。例如，继续上述例子，音频包格式标识111设置为“AP_y₁y₂y₃y₄x₁x₂x₃x₄”格式，“x₁x₂x₃x₄”为一串数字字符，比如指示一个四位十六进制数字字符，“0001”至“0FFF”所表示的数字范围用于指示国际电信联盟(英文全称International Telecommunication Union，简称ITU)制定的ITU-R BS.2094规范中规定的音频节目制作高级音响系统的特定类型的信息；“1000”至“FFFF”所表示的数字范围用于指示自定义的音频节目制作高级音响系统的特定类型的信息。从而使音频包格式标识具有唯一性，并通过音频包格式标识为制作元素间提供了相互参照的关联信息。减少了信息存储量，提高了数据处理的效率。

音频包格式元素的通用属性如表1所示，

表1

所述子元素区120，包括：第一引用信息121、第二引用信息122和绝对距离123。

所述第一引用信息121包括渲染时与所述音频包相关的音频通道所采用的音频通道格式信息。

由于双耳通道类型的扬声器播放的音频直接通过双耳器官对收听者脑部进行刺激，不存在音频的空间耦合效果，因此，在音频处理中也不存在音频包格式中包括嵌套的音频包格式的情况。所述第二引用信息122包括指示为预设无效信息。所述预设无效信息用于表征渲染时所述双耳声道类型的音频包不存在对应的引用信息。也就是不存在渲染时与所述音频包相关的音频包所采用的音频包格式信息。例如，预设无效信息为所述音频包格式标识111中包括的指示所述音频包的音频类型为双耳声道类型的第一信息，当渲染时，若第二引用信息122为该第一信息，则能够确定所述双耳声道类型的音频包不存在对应的引用信息。

同样，所述绝对距离123指示为预设无效值，所述预设无效值用于表征渲染时所述双耳声道类型的音频包不存在对应的距离。例如，预设无效值为零。

音频包格式元素的子元素如表2所示。

表2

可选的，所述属性区110还包括指示渲染时向下引用的音频通道格式或音频包格式采用音频通道的通道类型标签。

如图1所示，在三维声音频制作模型中，所述向下引用的制作元素可以理解为音频包格式元素的后一制作元素。

若音频包格式元素的后一制作元素为音频通道格式元素时，本音频包格式的元数据的属性区110包括指示渲染时向下引用的音频通道格式采用音频通道的通道类型标签。若音频包格式元素的后一制作元素同为音频包格式元素(即制作的音频包格式中包括嵌套的音频包格式)时，本音频包格式的元数据的属性区110包括指示渲染时向下引用的音频包格式采用音频通道的通道类型标签。

音频通道的通道类型标签用于表征音频通道的通道类型。例如，音频通道的通道类型标签“0001”表征音床类型，可以理解为，播放时每个音频通道数据直接输出至对应的扬声器；通道类型标签“0002”表征矩阵类型，可以理解为，以矩阵的方式表示每个音频通道数据渲染时的渲染参数值；通道类型标签“0003”表征对象类型，可以理解为，播放时音频通道数据能够在空间中耦合出的能够被感知的效果对象；通道类型标签“0004”表征场景类型，可以理解为，播放时音频通道数据基于环境声学和高价环境音形成场景的音频；通道类型标签“0005”表征双耳声道类型，可以理解为，播放时音频通道数据通过耳机播放器的形式进行播放。

可选的，所述属性区110还包括指示渲染时向上引用的音频对象或音频包格式采用音频通道的音频类型。

如图1所示，在三维声音频制作模型中，所述向上引用的制作元素可以理解为音频包格式元素的前一制作元素。

若音频包格式元素的前一制作元素为音频对象元素时，本音频包格式的元数据的属性区110包括指示渲染时本音频包格式向上引用的音频对象采用音频通道的音频类型。若音频包格式元素的前一制作元素同为音频包格式元素(即制作的音频包格式中包括嵌套的音频包格式)时，本音频包格式的元数据的属性区110包括指示渲染时本音频包格式向上引用的音频包格式采用音频通道的音频类型。所述音频通道能够采用的音频类型包括：音床类型、矩阵类型、双耳声道类型、场景类型和双耳声道类型。

可选的，所述属性区110还包括指示所述音频包格式的元数据100在渲染中的重要度信息。

基于重要度信息能够优先渲染重要度高的音频包格式的元数据100，甚至根据需要丢弃重要度低的音频包格式的元数据100，从而适应渲染进度的要求。

本公开实施例通过音频包格式的元数据100描述了双耳声道类型的音频包格式，在双耳中能够实现三维声音的复现，从而提高了声音场景的质量。

实施例2

本公开还提供了与上述实施例承接的方法实施例，用于音频包格式的元数据的产生方法，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

如图3所示，一种音频包格式的元数据的产生方法，包括以下步骤：

步骤S210，产生音频包格式的元数据，所述音频包格式的元数据包括：

可选的，所述属性区还包括指示渲染时向上引用的音频对象或音频包格式采用音频通道的音频类型。

可选的，所述属性区还包括指示渲染时向下引用的音频通道格式或音频包格式采用音频通道的通道类型标签。

可选的，所述属性区还包括指示所述音频包格式的元数据在渲染中的重要度信息。

可选的，所述音频包格式标识还包括指示音频节目制作高级音响系统的特定类型的信息。

本公开实施例产生音频包格式的元数据，音频包格式的元数据描述了双耳声道类型的音频包格式，在双耳中能够实现三维声音的复现，从而提高了声音场景的质量。

实施例3

图4为本公开实施例3提供的一种电子设备的结构示意图。如图4所示，该电子设备包括：处理器30、存储器31、输入装置32以及输出装置33。该电子设备中处理器30的数量可以是一个或者多个，图4中以一个处理器30为例。该电子设备中存储器31的数量可以是一个或者多个，图4中以一个存储器31为例。该电子设备的处理器30、存储器31、输入装置32以及输出装置33可以通过总线或者其他方式连接，图4中以通过总线连接为例。该电子设备可以是电脑和服务器等。本公开实施例以电子设备为服务器进行详细说明，该服务器可以是独立服务器或集群服务器。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开任意实施例所述产生音频包格式的元数据的程序指令/模块。存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或者字符信息，以及产生与电子设备的观众用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置33可以包括扬声器等音频设备。需要说明的是，输入装置32和输出装置33的具体组成可以根据实际情况设定。

处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即产生音频包格式的元数据。

实施例4

本公开实施例4还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器产生包括如实施例1所述音频包格式的元数据。

当然,本公开实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的电子方法操作,还可以执行本公开任意实施例所提供的电子方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本公开任意实施例所述的电子方法。

值得注意的是，上述电子装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明、具体实施方式及试验，对本公开作了详尽的描述，但在本公开基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本公开精神的基础上所做的这些修改或改进，均属于本公开要求保护的范围。

Claims

1.一种音频包格式的元数据，其特征在于，包括：

2.根据权利要求1所述的音频包格式的元数据，其特征在于，所述属性区还包括指示渲染时向上引用的音频对象或音频包格式采用音频通道的音频类型。

3.根据权利要求1所述的音频包格式的元数据，其特征在于，所述属性区还包括指示渲染时向下引用的音频通道格式或音频包格式采用音频通道的通道类型标签。

4.根据权利要求1所述的音频包格式的元数据，其特征在于，所述属性区还包括指示所述音频包格式的元数据在渲染中的重要度信息。

5.根据权利要求1所述的音频包格式的元数据，其特征在于，所述音频包格式标识还包括指示音频节目制作高级音响系统的特定类型的信息。

6.一种音频包格式的元数据的产生方法，其特征在于，包括：

产生包括如权利要求1-5任一项所述音频包格式的元数据。

7.一种电子设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器产生包括如权利要求1-5任一项所述音频包格式的元数据。

8.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器产生包括如权利要求1-5任一项所述音频包格式的元数据。