CN113889128A

CN113889128A - 一种音频制作模型和生成方法、电子设备及存储介质

Info

Publication number: CN113889128A
Application number: CN202110984837.4A
Authority: CN
Inventors: 吴健
Original assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Current assignee: Saiyinxin Micro Beijing Electronic Technology Co ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2022-01-04

Abstract

本公开涉及一种音频制作模型和生成方法、电子设备及存储介质。音频制作模型，包括内容制作部分和格式制作部分；音频节目元素引用至少一个音频内容元素；音频内容元素引用至少一个音频对象元素；音频对象元素引用对应的音频包格式元素和对应的音轨唯一标识元素；音轨唯一标识元素引用对应的音频轨道格式元素和对应的音频包格式元素；音频包格式元素引用至少一个音频通道格式元素；音频流格式元素引用对应的音频通道格式元素和对应的音频包格式元素；音频轨道格式元素和对应的音频流格式元素相互引用。音频数据在渲染时在空间中能够实现三维声音的复现，从而提高了声音场景的质量。

Description

一种音频制作模型和生成方法、电子设备及存储介质

技术领域

本公开涉及音频处理的技术领域，尤其涉及一种音频制作模型和生成方法、电子设备及存储介质。

背景技术

随着科技的发展，音频变得越来越复杂。由早期的单声道音频演变成立体声，工作重心也注重左右声道的正确处理方式。但环绕声出现后，处理过程开始变得复杂。而环绕5.1扬声器系统则对多个通道进行排序约束，进而环绕6.1扬声器系统、环绕7.1扬声器系统等使音频处理千变万化，把正确的信号传递给合适的扬声器形成相互牵连的效果。因此，随着声音变得更具沉浸感和交互性，音频处理的复杂性也大大增加。

音频声道(或声道)，是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。而声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。例如，在环绕5.1扬声器系统中包括6个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器；在环绕7.1扬声器系统中包括8个不同空间位置的音频信号，每个独立的音频信号被用于驱动对应空间位置的扬声器。

因此，当前扬声器系统实现的效果依赖于扬声器的数量和空间位置。例如，双声道扬声器系统无法实现环绕5.1扬声器系统的效果。

本公开提供了一种音频通道元数据和构造方法，以便提供一种能够解决上述技术问题的元数据。

发明内容

本公开的目的在于提出一种音频制作模型和生成方法、电子设备及存储介质，以解决上述技术问题之一。

为实现上述目的，本公开第一方面提供了一种音频制作模型，包括：

包括内容制作部分和格式制作部分；

其中，所述内容制作部分包括：音频节目元素、音频内容元素、音频对象元素和音轨唯一标识元素；所述格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素和音频轨道格式元素；

所述音频节目元素引用至少一个所述音频内容元素；所述音频内容元素引用至少一个音频对象元素；所述音频对象元素引用对应的所述音频包格式元素和对应的所述音轨唯一标识元素；所述音轨唯一标识元素引用对应的所述音频轨道格式元素和对应的所述音频包格式元素；

所述音频包格式元素引用至少一个所述音频通道格式元素；所述音频流格式元素引用对应的所述音频通道格式元素和对应的所述音频包格式元素；所述音频轨道格式元素和对应的所述音频流格式元素相互引用。

为实现上述目的，本公开第二方面提供了一种音频制作模型的生成方法，包括：

生成包括如第一方面所述音频制作模型。

为实现上述目的，本公开第三方面提供了一种电子设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器生成包括如第一方面所述音频制作模型。

为实现上述目的，本公开第四方面提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器生成包括如第一方面所述音频制作模型。

由上可见，本公开音频制作模型由一组元素组成，每个元素用于描述音频的各方面，这些元素可用通过引用相互连接。以在空间中能够实现三维声音的复现，从而提高了声音场景的质量。

附图说明

图1为本公开实施例1中提供了一种三维声音频制作模型的示意图；

图2为本公开实施例1中的音频制作模型元素在音频文件中的引用关系示例图；

图3为本公开实施例1中的音频制作模型描述音频信号的结构图；

图4为本公开实施例1中的音频制作模型的部分元素结构图；

图5为本公开实施例2中提供的一种音频制作模型的生成方法的流程图；

图6为本公开实施例3提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例1

如图1所示，三维声音频制作模型由一组制作元素组成，每个制作元素用于描述音频制作的一个阶段，三维声音频制作模型包括内容制作部分和格式制作部分。

所述音频包格式元素引用至少一个所述音频通道格式元素；所述音频流格式元素引用对应的所述音频通道格式元素和对应的所述音频包格式元素；所述音频轨道格式元素和对应的所述音频流格式元素相互引用。元素间的引用关系在图1中以箭头表示。

音频节目可以包括但不限于叙述、声音效果和背景音乐，所述音频节目元素可以用于描述节目，所述节目包括至少一个内容，所述音频内容元素用于描述所述音频节目元素中对应的一个内容。音频节目元素可以引用一个或多个音频内容元素，音频内容元素组合在一起以构建为完整的音频节目元素。

所述音频内容元素描述音频节目的一个组成部分(例如背景音乐)的内容，并引用一个或多个音频对象元素将内容与其格式联系起来。

所述音频对象元素用于建立内容、格式和有价值的信息，并确定实际音轨的音轨唯一标识。

格式制作部分包括：音频包格式元素、音频通道格式元素、音频流格式元素、音频轨道格式元素。

所述音频包格式元素，可以用于描述所述音频对象元素和原始音频数据依据通道分组打包时采用的格式。

所述音频通道格式元素可以用于表示单个音频采样序列和对其执行的预设操作，例如，在场景中渲染对象的移动。所述音频通道格式元素可以包含至少一个音频块格式元素。音频块格式元素可以视为音频通道格式元素的子元素，所以，音频通道格式元素和音频块格式元素之间为一种包含关系。

流，是渲染通道、对象、高阶环境音组件或包所需的音轨的组合。所述音频流格式元素用于建立音频轨道格式元素集和音频通道格式元素集之间的关系，或音频轨道格式集和音频包格式之间的关系。

所述音频轨道格式元素对应于单个音轨中的一组样本或数据，用于描述原始音频数据的格式，及渲染器的解码信号，还用于识别成功解码音轨数据所需的音轨组合。

通过三维声音频制作模型对原始音频数据进行制作后生成包含元数据的合成音频数据。

所述元数据(Metadata)是描述数据特性的信息，元数据支持的功能包括指示存储位置、历史数据、资源查找或文件记录。

合成音频数据以通信方式传输到远端后，由远端基于元数据对合成音频数据进行渲染，还原原始声音场景。

图1中示出了内容制作部分、格式制作部分和BW64(Broadcast Wave-64bit，64位广播波)文件之间的划分。内容制作部分和格式制作部分都构成了XML格式的元数据，它通常包含在BW64文件的一个块(“axml”块)中。底部的BW64文件部分包含“通道分配(chna)”块，它是一个查找表，用于连接元数据和文件中的音频节目。

内容制作部分描述音频的技术内容，例如它是否包含对话或特定语言，以及响度元数据。格式部分描述音频曲目的通道类型以及它们是如何组合在一起的，例如立体声对中的左声道和右声道。内容制作部分的元索通常是音频和节目所独有的，而格式制作部分的元素可以复用。

图2中示出了上述元素在示例音频文件中的引用关系。示例音频文件包含四个音轨(2×PCM，2×编码)，它们被分组为三个流(2×PCM，1×编码)。两个PCM流各自包含一个通道(“左”和“右”)，这是“立体声”包的一部分。编码流包含三个通道的包(3.0布局，“左”、“中置”、“右”)。两个包中的每一个都是对象的格式，一个是“对话1”对象，另一个是“音乐1”对象。图2还显示，这两个对象覆盖了音轨和流的不同时间区域。这两个对象分别是不同内容(“对话”和“音乐”)的一部分。“主节目”包含这两个内容。

无论是先阅读元数据以找出音频中的内容，还是要检查每个音频节目并找出其元数据；本公开实施例中的音频制作模型都允许选择其中任何一个进入。如果从元数据开始，从音频节目(AudioProgramme)开始；如果从音频开始，从底部的通道分配(chna)查找表开始。

本公开实施例中的音频制作模型包括内容制作部分和格式制作部分。格式制作部分可以不存在内容制作部分，但反之不然。

作为一个示例，如图3，使用音频制作模型描述标准立体声信号。从两个音频通道格式和一个音频包格式开始分组两个通道。所有三个音频制作模型的元素必须具有音床Bed类型定义和音频包格式并引用两个音频通道格式。

两个音频通道格式，每个都包含一个带有扬声器位置信息的音频块格式。音频通道格式包含音频块格式的包含关系在图3中以圆形头线表示。

接着将音频通道格式与音轨链接。因此，添加两个音频轨道格式，同时需要两个音频流格式。当多个音轨编码到单个流(例如，使用编码音频：杜比-E)时，一个音频流格式组合成多个音轨的方式非常有用。对于PCM编码音频，它不会添加任何其他信息，只需将音轨链接到音频通道格式。音频轨道格式和音频流格式相互引用，分析模型的软件可以从两者中的任何一个开始。

根据用于节目制作的高级音响系统描述的扬声器设置，通用定义中已经描述了所需的元素。因此，不必手动添加这些元素，就只引用通用定义中的元素。

假设在BW64文件中使用音频制作模型，需将文件中的实际音轨与音频制作模型音轨链接在一起。

基于对象的结构与基于通道的非常相似，因此对于一个对象，结构与以前基本相同(省略了“通道分配(chna)”区块)。

这里有两个主要的区别。首先，没有对对象常用的定义，其次，需要使用对象类型定义。这两种差异都体现在元素唯一标识中。例如，第一组四位数十六进制部分设置是0003(对于对象类型定义)和第二组四位数十六进制部分以1001开头，因为范围0000-0FFF是为通用定义保留的。

如果没有内容部分，基于对象的文档就没有太多意义。以以上示例为基础，构建并添加一些内容部分元素。下面介绍内容制作部分。

在多数情况下，本实施例中的音频制作模型文件将针对单个节目。节目是音频模型的顶层，用音频节目元素来描述。与其他音频模型主要元素一样，我们可以为音频节目提供名称、ID、一些与时间相关的信息和一些其他有用的参数。例如，设置名称和ID(两者都是必需的)：

<audioProgramme audioProgrammeName＝"Documentary"

audioProgrammeID＝"APR_1001">

</audioProgramme>

以上没有描述太多信息，只提供了一个进入音频制作模型的入口点，可以从中引用更多的内容。在这个阶段我们可以补充的是节目的开始时间start和持续时间duration，可以设定定为30分钟：

<audioProgramme audioProgrammeName＝"Documentary"

audioProgrammeID＝"APR_1001"

start＝"00:00:00.000007duration＝"00:30:00.00000">

</audioProgramme>

在下面示例中，节目里有叙述、声音效果和背景音乐，在下一个元素音频内容中描述。

例如，可以生成三个音频内容元素，并设置对应的名称和ID。可以为这三个元素中的每一个添加的内容是，关于音频是否是对话的一些信息：

<audioContent audioContentName＝"Narration"

audioContentID＝"ACO_1001">

</audioContent>

<audioContent audioContentName＝"SoundFX"

audioContentID＝"ACO_1002">

</audioContent>

<audioContent audioContentName＝"BgMusic"

audioContentID＝"ACO_1003">

</audioContent>

以上已经定义了这三个音频内容元素，需要用音频节目元素才能够看到它们。可以通过向音频节目元素添加一些ID引用来实现的：

<audioProgramme audioProgrammeName＝"Documentary"

audioProgrammeID＝"APR_1001"

start＝"00:00:00.00000"duration＝"00:30:00.00000"

</audioProgramme>

内容描述连接到音频，

现有三个音频内容元素，每个元素描述节目的一部分，但是这些内容描述需要一些实际的音频连接到它们。这就是“音频对象”元素的用武之地。此元素引用音频音轨和这些音轨的格式描述，并且可从音频内容元素引用。

为每个示例音频内容创建三个音频对象元素，一个示例一个元素：

<audioObject audioObjectName＝"Narration"

audioObjectID＝"AO_1001">

</audioObject>

<audioObject audioObjectName＝"SoundEX"

audioObjectID＝"AO_1002">

</audioObject>

<audioObject audioobjectName＝"BqMusic"

audioObjectID＝"AO_1003">

</audioObject>

在每个对象中都有一个audioPackFormatIDRef子元素，这是对音频包格式元素的引用，该元素描述音频所具有的通道组的格式。还有一些audioTrackUIDRef子元素，它们是对实际音轨的引用。因此，这三个对象都有这些引用：

·Narration(AO_1001)

·Pack:AP_00031001-包含单个通道的“Object”类型

·Track UID:ATU_00000001-单轨

·SoundFX(AO_1002)

·Pack:AP_00010003-‘音床(Bed)‘类型，包含5.1组频道

·Track UIDs:ATU_00000002 to ATU_00000007-六轨

·BgMusic(AO_1003)

·Pack:AP_00010002-包含一对立体声声道的音床(Bed)类型

·Track UIDs:ATU_00000008 and ATU_00000009-两轨

返回并将音频内容元素连接到音频对象元素：

<audioContent audioContentName＝"Narration"

audioContentID＝"ACO_1001">

</audioContent>

<audioContent audioContentName＝"SoundFX"

audioContentID＝"ACO_1002">

</audioContent>

<audioContent audioContentName＝"BqMusic"

audioContentID＝"ACO_1003">

</audioContent>

生成了内容的描述，并通过音频对象中的audioPackEormatIDRef子元素连接到格式描述。音频对象元素还包含其他参数，允许设置时间限制(更多信息可以在计时页面上阅读)、交互性和互斥性。元素结构如图4所示。

在音频对象元素中，将看到audioTrackUIDRef子元素，它引用音轨唯一标识元素。音轨唯一标识元素表示文件中音频轨道的一部分或完整部分。在最简单的形式中，它不需要携带任何其他信息，但是如果需要，它可以包含采样率和位深度。

实施例2

本公开还提供了与上述实施例承接的方法实施例，用于音频制作模型的生成方法，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

一种音频制作模型的生成方法，如图5所示，包括以下步骤：

步骤S110，响应于用户针对音频制作模型的设置操作，生成音频制作模型，所述音频制作模型包括：

内容制作部分和格式制作部分；

用户针对音频制作模型的设置操作，可以是用户针对音频制作模型中的相关元素进行设置的操作，例如，接收用户逐项输入的音频制作模型的元素及其引用关系，例如音频节目元素、音频内容元素、音频对象元素、音轨唯一标识元素、音频包格式元素、音频通道格式元素、音频流格式元素和音频轨道格式元素；或者，根据用户对预设音频制作模型生成程序的操作自动生成音频制作模型，该预设音频制作模型生成程序可以设置为根据系统默认属性设置音频制作模型的全部元素及引用关系；或者，根据用户对预设音频制作模型生成程序的操作自动生成音频制作模型，该预设音频制作模型生成程序可以设置为根据系统默认属性设置音频制作模型的部分元素和/或引用关系，然后接收用户输入的剩余元素和/或引用关系。音频制作模型的生成可以参照以上实施例中音频制作模型的组成部分的介绍，先生成每个部分的元素，建立该部分内的引用关系，然后将内容制作部分和格式制作部分相引用。

可选的，所述音频节目元素用于描述节目，所述节目包括至少一个内容，所述音频内容元素用于描述所述音频节目元素中对应的一个内容。

可选的，所述音频通道格式元素包含至少一个音频块格式元素。

可选的，所述音频轨道格式元素对应于单个音轨中的一组样本或数据，用于描述原始音频数据的格式，及渲染器的解码信号，还用于识别成功解码音轨数据所需的音轨组合。

可选的，所述音频流格式元素用于建立音频轨道格式元素集和音频通道格式元素集之间的关系，或音频轨道格式集和音频包格式之间的关系。

可选的，所述音频包格式元素，用于描述所述音频对象元素和原始音频数据依据通道分组打包时采用的格式。

可选的，所述音频通道格式元素用于表示单个音频采样序列和对其执行的预设操作。

本公开实施例中提供的音频制作模型的生成方法生成的音频制作模型，可以据其得到引用描述音频的元数据，在空间中能够实现三维声音的复现，从而提高了声音场景的质量。

实施例3

图6为本公开实施例3提供的一种电子设备的结构示意图。如图6所示，该电子设备包括：处理器30、存储器31、输入装置32以及输出装置33。该电子设备中处理器30的数量可以是一个或者多个，图6中以一个处理器30为例。该电子设备中存储器31的数量可以是一个或者多个，图6中以一个存储器31为例。该电子设备的处理器30、存储器31、输入装置32以及输出装置33可以通过总线或者其他方式连接，图6中以通过总线连接为例。该电子设备可以是电脑和服务器等。本公开实施例以电子设备为服务器进行详细说明，该服务器可以是独立服务器或集群服务器。

存储器31作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开任意实施例所述生成音频制作模型的程序指令/模块。存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器31可进一步包括相对于处理器30远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或者字符信息，以及产生与电子设备的观众用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置33可以包括扬声器等音频设备。需要说明的是，输入装置32和输出装置33的具体组成可以根据实际情况设定。

处理器30通过运行存储在存储器31中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即生成音频通道元数据。

实施例4

本公开实施例4还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器生成包括如实施例1所述音频制作模型。

当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的电子方法操作，还可以执行本公开任意实施例所提供的电子方法中的相关操作，且具备相应的功能和有益效果。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本公开任意实施例所述的电子方法。

值得注意的是，上述电子装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“在一实施例中”、“在又一实施例中”、“示例性的”或“在具体的实施例中”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明、具体实施方式及试验，对本公开作了详尽的描述，但在本公开基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本公开精神的基础上所做的这些修改或改进，均属于本公开要求保护的范围。

Claims

1.一种音频制作模型，其特征在于，包括内容制作部分和格式制作部分；

2.根据权利要求1所述的音频制作模型，其特征在于，所述音频节目元素用于描述节目，所述节目包括至少一个内容，所述音频内容元素用于描述所述音频节目元素中对应的一个内容。

3.根据权利要求1所述的音频制作模型，其特征在于，所述音频通道格式元素包含至少一个音频块格式元素。

4.根据权利要求1所述的音频制作模型，其特征在于，所述音频轨道格式元素对应于单个音轨中的一组样本或数据，用于描述原始音频数据的格式，及渲染器的解码信号，还用于识别成功解码音轨数据所需的音轨组合。

5.根据权利要求4所述的音频制作模型，其特征在于，所述音频流格式元素用于建立音频轨道格式元素集和音频通道格式元素集之间的关系，或音频轨道格式集和音频包格式之间的关系。

6.根据权利要求1所述的音频制作模型，其特征在于，所述音频包格式元素，用于描述所述音频对象元素和原始音频数据依据通道分组打包时采用的格式。

7.根据权利要求1所述的音频制作模型，其特征在于，所述音频通道格式元素用于表示单个音频采样序列和对其执行的预设操作。

8.一种音频制作模型的生成方法，其特征在于，设置为生成包括如权利要求1-7任一项所述音频制作模型。

9.一种电子设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器生成包括如权利要求1-7任一项所述音频制作模型。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器生成包括如权利要求1-7任一项所述音频制作模型。