CN102067490A

CN102067490A - 产生和播放基于对象的音频内容的方法和记录具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质

Info

Publication number: CN102067490A
Application number: CN2009801237736A
Authority: CN
Inventors: 张仁瑄; 徐廷一; 金晖容; 李泰辰; 姜京玉; 洪镇祐; 金镇雄; 安致得; 咸胜喆
Original assignee: Electronics and Telecommunications Research Institute ETRI; Audizen Co Ltd
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2008-04-23
Filing date: 2009-04-23
Publication date: 2011-05-18
Also published as: EP2279618A1; JP2013137558A; JP5514803B2; KR20090112579A; US8976983B2; US20110064249A1; EP2279618B1; JP2011523083A; EP2279618A4; WO2009131391A1; KR101596504B1

Abstract

提供了一种产生和播放基于对象的音频内容的方法以及一种用于存储具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质，所述基于对象的音频内容可有效地存储与基于对象的音频内容有关的预设信息。产生基于对象的音频内容的方法可包括：接收多个音频对象(310)；通过使用所述多个音频对象产生至少一个预设(320)；存储关于所述至少一个预设的属性和所述多个音频对象的预设参数(330)。可以以框的形式存储预设参数，以与基于对象的音频内容有关的媒体文件格式定义所述框。由此，可有效地存储关于多个音频对象的预设。

Description

产生和播放基于对象的音频内容的方法和记录具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质

技术领域

本发明涉及一种产生和播放基于对象的音频内容的方法以及一种存储具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质，所述基于对象的音频内容可有效地存储与基于对象的音频内容有关的预设信息。

背景技术

可以以混合从多种声音源获得的音频信号的方式以单个音频信号来存储和发送通过广播服务(例如，电视(TV)广播服务、无线电广播服务、数字多媒体广播(DMB)服务等)提供的现有音频信号。

在这种环境中，用户可调整整个音频信号的强度，但可能不能控制每个声音源的音频信号的特性，例如，调整相应音频信号中包括的每个声音源的音频信号的强度。

然而，当创建音频内容时，用于每个声音源的音频信号可能不能被合成，而会被单独存储。在这种情况下，内容播放终端使得用户能够在控制用于每个声音源的音频信号的强度的同时收听音频内容。

这样的音频服务被称为基于对象的音频服务：所述音频服务可在存储/发送端独立存储和发送多个音频信号，并在接收器(例如，内容播放装置)使得用户能够在适当地控制每个音频信号的同时收听相应的音频内容。

以上基于对象的音频服务通过使用预设来定义属性(例如，每个对象的位置、声音的强度、根据对象的位置的声学特性等)，并提供定义的属性。因此，用户可使用所述属性以播放音频内容。具体地讲，当多个预设音频信息被产生并被包括在文件中时，接收侧可更有效地使用基于对象的音频服务。

现有的国际标准化组织基本媒体文件格式(ISO-BMFF)定义包括所有各种媒体(例如，音频、视频、静止图像等)的文件结构。该文件结构关于媒体的交互、管理、编辑和呈现可以是可变形和可扩展的。

当通过将音频轨道和预设的信息添加到ISO-BMFF来执行存储或传输时，可更有效地提供基于对象的音频服务。

发明内容

技术问题

本发明的一方面提供了一种产生基于对象的音频内容的方法，所述基于对象的音频内容可有效地存储关于多个音频对象的预设。

技术方案

根据本发明的一方面，提供了一种产生基于对象的音频内容的方法，所述方法包括：接收多个音频对象；通过使用所述多个音频对象产生至少一个预设；存储关于所述至少一个预设的属性和所述多个音频对象的预设参数。可以以框的形式存储预设参数，以与基于对象的音频内容有关的媒体文件格式定义所述框。

这里，媒体文件格式可以是国际标准化组织基本媒体文件格式(ISO-BMFF)的结构。

另外，所述框可包括moov框，moov框包括在moov框中定义的第一框，第一框包括在第一框中定义的第二框。预设参数可包括第一预设参数和第二预设参数，第一预设参数包括所述至少一个预设的数量、所述至少一个预设中的任何一个预设的预设标识(ID)中的至少一个。第一预设参数可被存储在第一框中，第二预设参数可被存储在第二框中。

根据本发明的另一方面，提供了一种播放基于对象的音频内容的方法，所述方法包括：从基于对象的音频内容恢复多个音频对象和至少一个预设；基于所述至少一个预设来混合所述多个音频对象，以产生输出音频信号；播放输出音频信号。所述至少一个预设中的每一个预设可包括预设参数。所述预设参数可以以框的形式被存储在基于对象的音频内容中，以与基于对象的音频内容有关的媒体文件格式来定义所述框。

根据本发明的另一方面，提供了一种存储具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质，包括：ftyp框，存储基于对象的音频内容的标准信息；mdat框，存储构成基于对象的音频内容的多个音频对象；moov框，存储用于呈现存储的多个音频对象的元数据。与通过使用所述多个音频对象所产生的至少一个预设有关的预设参数可被存储在ftyp框和moov框中的任何一个中。

附图说明

图1示出根据本发明实施例的用于存储基于对象的音频内容的媒体文件格式的基本结构；

图2示出根据本发明实施例的轨道和声道之间的关系；

图3是示出根据本发明实施例的产生基于对象的音频内容的方法的流程图；

图4示出根据本发明实施例的“moov”的结构；

图5是示出根据本发明实施例的播放基于对象的音频内容的方法的流程图；

图6是示出根据本发明另一实施例的播放基于对象的音频内容的方法的流程图；

图7和图8示出根据本发明实施例的存储包括描述信息的基于对象的音频内容的文件格式的结构。

具体实施方式

现在将详细阐述本发明的实施例，其示例在附图中示出，其中，相同的标号始终表示相同的元件。以下通过参照附图描述实施例，以解释本发明。

图1示出根据本发明实施例的用于存储基于对象的音频内容的媒体文件格式的基本结构。

参照图1，用于存储基于对象的音频内容的媒体文件格式的结构可包括：ftyp框(box)(以下，“ftyp”)，存储基于对象的音频内容的标准信息，即基于对象的音频内容文件的类型信息；moov框(以下，“moov”)，存储用于构成基于对象的音频内容的多个音频对象数据的呈现的元数据(例如，解码时间)；和mdat框(以下，“mdat”)，存储多个音频对象数据。

“ftyp”和“moov”可包括meta框(以下，“meta”)。通常，与“mdat”中存储的多个音频对象数据有关的描述性的元数据可被存储在“meta”。

这里，用于存储基于对象的音频内容的媒体文件格式可以是国际标准化组织基本媒体文件格式(ISO-BMFF)的结构。

以下，将描述这样的方法：所述方法存储多个音频对象和与播放根据ISO-BMFF的基于对象的音频内容有关的预设，从而产生基于对象的音频内容。然而，如上所述，产生基于对象的音频内容的方法不限于具有ISO-BMFF结构的基于对象的音频内容，因此，关于媒体文件格式的结构的多声道音频内容可以是可扩展的，以存储多媒体数据(例如，MP4文件等)。

在描述根据本发明实施例的产生基于对象的音频内容的方法之前，将描述预设参数，所述预设参数指示存储基于对象的音频内容的预设的属性。所述预设参数可包括以下预设信息中的至少一个。

1、预设名、预设标识(ID)：

“预设名”表示与预设相应的字符串，“预设ID”表示与预设相应的整数。

2、预设的数量、默认预设ID：

“预设的数量”表示基于对象的音频内容中包括的预设的数量。

“默认预设ID”表示当播放基于对象的音频内容时，需要在不存在用户交互的初始状态下被最初始播放的预设ID。“默认预设ID”可与基于对象的音频内容中包括的任何一个预设ID相应。

3、是否播放预设信息：

“是否播放预设信息”表示与当播放基于对象的音频内容时是否向用户显示预设信息有关的信息。例如，所述预设信息可包括音量信息或者用于每个输入轨道或每个输入声道的频率增益信息。

4、预设的编辑概率：

“预设的编辑概率”表示与当播放基于对象的音频内容时用户是否可编辑预设有关的信息。

5、输入轨道的数量、输入轨道ID、用于每个输入轨道的输入声道的数量：

“输入轨道的数量”表示基于对象的音频内容中存储的输入轨道的数量。这里，每个输入轨道可对应于声音源。具体地讲，当基于对象的音频内容包括声乐(cocal)、钢琴声和鼓声时，声乐、钢琴声和鼓声中的每一个可构成单个轨道。

“输入轨道ID”表示与每个输入轨道相应的整数。

“用于每个输入轨道的输入声道的数量”表示每个输入轨道中包括的声道的数量。

以下，将参照图2描述轨道和声道之间的关系。

图2示出根据本发明实施例的轨道和声道之间的关系。

图2示出声乐轨道210、钢琴声轨道220和鼓声轨道230。

当记录声音源，并在这种情况下通过使用2-声道(即，立体声道)记录每个声音源时，每个轨道可包括两个声道。具体地讲，当通过使用2-声道来记录声乐、钢琴声和鼓声时，声乐轨道210可包括第一声道211和第二声道212，钢琴声轨道220可包括第一声道221和第二声道222，鼓声轨道230可包括第一声道231和第二声道232。尽管在图2中所有轨道包括相同数量的声道，但每个轨道中包括的声道的数量可以不同。

在这种情况下，当基于对象的音频内容的创建者为每个轨道设置预设时，多个音频对象可分别对应于所述轨道。当创建者为每个声道设置预设时，多个音频对象可分别对应于所述声道。

6、输出声道类型、输出声道的数量：

“输出声道类型”表示与通过哪个声道播放基于对象的音频对象有关的信息。“输出声道的数量”表示根据输出声道类型的输出声道的数量。

7、频带的数量、每个频带的中心频率、用于声音均衡的每个频带的带宽：

“频带的数量”表示在放大或传输信号时将被应用声音均衡的频带的数量，所述声音均衡用于补偿可能发生的信号的变换。

8、每个输入轨道或每个输入声道的音量信息：

“音量信息”表示与每个音频对象的音量有关的信息。当音频对象对应于输入轨道时，“每个输入轨道的音量信息”可被存储在基于对象的音频内容中。当音频对象对应于输入声道时，“每个输入声道的音量信息”可被存储在基于对象的音频内容中。

9、每个输入轨道或每个输入声道的频率增益信息：

“频率增益信息”表示与当应用声音均衡时的频率增益有关的信息。当音频对象对应于输入轨道时，“每个输入轨道的频率增益信息”可被存储在基于对象的音频内容中。当音频对象对应于输入声道时，“每个输入声道的频率增益信息”可被存储在基于对象的音频内容中。

10、预设全局音量信息：

“预设全局音量信息”表示用于调整多个音频对象的全局音量的信息。

11、声音图像的幅度和声音图像的角度

“声音图像的幅度”和“声音图像的角度”分别表示声音图像的幅度值和声音图像的角度值。通过基于对象的音频内容中存储的多个声道来形成声音图像。

基于对象的音频内容的创建者可根据ISO-BMFF，通过存储包括以上列出的信息中的至少一个的预设参数，通过使用各种方案来产生基于对象的音频内容。

图3是示出根据本发明实施例的产生基于对象的音频内容的方法的流程图。

在操作310，基于对象的音频内容的产生方法可接收多个音频对象。

在操作320，基于对象的音频内容的产生方法可通过使用所述多个音频对象产生至少一个预设。

在操作330，基于对象的音频内容的产生方法可存储关于多个音频对象和至少一个预设的属性的预设参数。如上所述，预设参数可包括以上列出的信息中的至少一个。

在这种情况下，可以以框的形式来存储预设参数，其中，以与基于对象的音频内容有关的媒体文件格式来定义所述框。

以下，将详细描述存储预设参数的操作330。

将预设参数存储在“ftyp”中包括的“meta”或者“moov”中包括的“meta” 中：

根据本发明的实施例，可将预设参数存储在“ftyp”中包括的“meta”(以下，第一“meta”)或者“moov”中包括的“meta”(以下，第二“meta”)中。

具体地讲，如上所述，可将指示与基于对象的音频内容有关的普通信息(例如，歌曲标题、歌手、专辑名等)的描述信息或者描述性元数据存储在第一“meta”或第二“meta”中。可将预设参数与描述信息一起存储。

将预设参数存储在与存储描述信息的“meta”不同的“meta”中：

根据本发明的实施例，可将预设参数存储在与存储与基于对象的音频内容有关的描述信息的“meta”不同的“meta”中。

描述信息可以是与识别基于对象的音频内容有关的信息，预设参数可以是与播放基于对象的音频内容有关的信息。具体地讲，由于描述信息的属性与预设参数的属性不同，所以可能期望分别处理描述信息和预设参数。

例如，可将描述信息存储在第一“meta”中，可将预设参数存储在第二“meta”中。

由于ISO-BMFF定义在单级(single level)只可存在单个“meta”，所以“ftyp”和“moov”中的每一个在低级(low level)中只可包括单个“meta”。因此，为了分别存储描述信息和预设参数，描述信息和预设参数可能需要被存储在不同级中存在的“meta”(即，第一“meta”和第二“meta”)中。在这情况下，由于预设参数具有用于呈现的元数据的属性，所以描述信息可被存储在第一“meta”中，预设参数可被存储在第二“meta”中。

作为另一示例，描述信息可被存储在“meta”(即，第一“meta”和第二“meta”)中。预设参数可被存储在“ftyp”或“moov”中包括的meco框(以下，“meco”)中。

由于“meco”是由ISO-BMFF定义的附加元数据包含框，所以不是由ISO-BMFF定义的不同的元数据可被存储在“meco”中。因此，可将预设参数存储在“ftyp”中包括的“meco”或者“moov”中包括的“meco”的任何一个中。

将预设参数存储在“moov”中新定义的框中

根据本发明的实施例，可将预设参数存储在“moov”新定义的框中。

如上所述，由于预设参数的属性与描述信息的属性不同，所以可能期望分别处理描述信息和预设参数。另外，由于预设参数包括用于呈现的元数据的属性，所以可能期望将预设参数存储在“moov”中。因此，为了有效地处理预设参数，可能期望在“moov”中定义新框，并将预设参数存储在新定义的框中。

图4示出根据本发明实施例的“moov”的结构。

如图4所示，在“moov”中可定义两个框。

第一框是在“moov”中定义的框。第一框可以存储第一预设参数，所述第一预设参数是指示预设的整体信息的预设参数。以下，第一框被称为预设容器(container)框(即，“prco”)。

例如，第一预设参数可包括上面描述的预设的数量和默认预设ID中的至少一个。默认预设ID表示当播放基于对象的音频内容时，在不存在用户交互的初始状态下被最初始播放的预设ID。默认预设ID可与基于对象的音频内容中包括的预设ID中的任何一个预设ID相应。

第二框是“prco”中定义的框。第二框可存储第二预设参数，所述第二预设参数是与预设的属性有关的预设参数。

例如，第二预设参数可包括以上列出的信息中除了预设的数量和默认预设ID之外的剩余信息。以下，第二框被称为预设框(即，“prst”)。

“prco”可包括与基于对象的音频内容中包括的预设的数量相应的“prst”。当预设没有被存储在基于对象的音频内容中时，“prco”中可不存在“prst”。

例如，“prst”可包括预设参数，所述预设参数包含以上列出的预设信息中除了预设的数量和默认预设ID之外的剩余预设信息。

根据本发明的实施例，当“moov”包括“prco”和“prst”时，可通过下面的表1来表示ISO-BMFF的结构。

[表1]

以下，将详细描述“prco”和“prst”的语法和语义的实施例。

可通过下面的表2来表示“prco”的语法的实施例。

[表2]

根据以上表2的语法的语义可如下：

“num_preset”表示“prco”中包括的预设的数量。

“default_preset_ID”表示默认预设ID。当创建者没有设置“default_preset_ID”时，具有最小预设ID值的预设的预设ID可被设置为“default_preset_ID”。

当“default_preset_ID”被设置为“0”时，可根据音频对象的比特流中存储的预设来播放基于对象的音频内容，其中，所述音频对象是基于对象的音频内容中包括的多个音频对象中的通过使用MPEG-D空间音频对象编码(SAOC)技术编码和存储的音频对象。稍后将参照图6对此进行进一步详细描述。

可通过下面的表3来表示“prst”的一般语法。

[表3]

根据以上表3的语法的语义可如下：

“version”表示“prst”的版本。

“flags”表示与当播放基于对象的音频内容时是否向用户显示“prst”中存储的信息以及是否允许用户编辑“prst”中存储的信息有关的信息。

“flags”可以是具有8比特整数数据类型的标志信息，并具有通过下面的表4给出的含义：

[表4]

标志	显示	编辑
			0x01	不能	不能
0x02	能	不能
			0x03	能	能

具体地讲，在“flags”是“0x01”的情况下，当播放基于对象的音频内容时，可能不向用户显示“prst”中存储的预设信息，并且用户可能不能编辑“prst”中存储的预设信息。

在“flags”是“0x02”的情况下，当播放基于对象的音频内容时，可向用户显示“prst”中存储的预设信息，但用户可能不能编辑“prst”中存储的预设信息。

在“flags”是“0x03”的情况下，当播放基于对象的音频内容时，可向用户显示“prst”中存储的预设信息，并且用户可能不能编辑“prst”中存储的预设信息。

“preset_ID”表示预设ID，并可具有大于或等于“1”的值。

“num_preset_track”表示与预设相关的输入轨道的数量。

“preset_track_ID[num_preset_track]”表示用于存储输入轨道ID的数组。

“preset_name”表示预设名。

“preset_global_volume”表示预设全局音量信息。

通常，为了强调基于对象的音频内容的节奏感，创建者可将打击乐器声音(例如，鼓声)的音量增加为相对大于其他乐器声音，从而产生预设。

在这种情况下，当打击乐器声音和其他乐器声音之间的相对音量差小时，用户可能不会具有充分的节奏感。相反，当打击乐器声音和其他乐器声音之间的相对音量差大时，全局音量会减小。打击乐器声音通常具有诸如效果声的属性。因此，与其他乐器声音相比，打击乐器声音的高频分量在整个播放部分占较大比重。

例如，当包括[vocal，piano，drum]的预设的音量值是[250，200，400]时，全局音量可能是合适的，但可能不能强调节奏感。另外，当所述预设的音量值是[100，150，400]时，节奏感可被强调，但全局声音会减小。

可通过进一步将预设全局音量信息存储在基于对象的音频内容中来解决以上现象。可使用预设全局音量信息以调整构成预设的音频对象的全局音量。

具体地讲，当基于设置在基于对象的音频内容中的基本全局音量值来存储全部输入轨道的音量值，并且以预设全局音量值可大于现有全局音量值的方式来产生预设，并且在这种情况下，播放基于对象的音频内容时，相对音量差可按“基本全局音量值/预设全局音量值”的比进一步增加。

例如，当基本全局音量值是“50”，包括[vocal，piano，drum]的预设的音量值是[100，150，400]，并且预设全局音量值被设置为100时，每个乐器的音量可增加两倍。因此，构成主旋律的声乐和钢琴声的音量可增加大约两倍，基于对象的音频内容的全局音量可变成适当水平。另外，由于鼓声的音量增加了两倍，所以可强调节奏感。

如上所述，当通过使用预设全局音量值来放大音量时，由于剪切(clipping)等导致声音质量恶化。然而，当打击乐器声音增加为大于或等于预定水平时，用户可能不能识别出在打击乐器发生的声音质量的恶化。基于此，根据预设全局音量信息的使用的声音质量的恶化可能不会成为问题。

另外，当基本全局音量值是最大时，可使用预设全局音量信息以增加全局音量。

具体地讲，在基于对象的音频内容的普通播放中，当基本全局音量值是最大时，可能无法调整每个音频对象的音量。然而，当将预设全局音量信息存储在基于对象的音频内容中时，可按大于基本全局音量值的最大值的音量来播放基于对象的音频内容。

“preset-type”表示预设类型。

根据本发明的实施例，可基于混合信息的类型、混合信息的应用目标、是否在基于对象的音频内容的播放时间更新混合信息来确定预设类型。以下，将详细描述确定预设类型的方法。

最初，可基于混合信息的类型来确定预设类型。

例如，混合信息可包括音量信息和均衡信息中的至少一个。以下，仅基于音量信息产生的预设被称为音量预设。仅基于均衡信息产生的预设被称为均衡预设。基于音量信息和均衡信息二者产生的预设被称为音量/均衡预设。

另外，可基于混合信息的应用目标来确定预设类型。

具体地讲，可根据是否通过将输入轨道看作音频对象应用混合信息，或者是否通过将输入声道看作音频对象应用混合信息，来确定预设类型。以下，通过将输入轨道看作音频对象所产生的预设被称为轨道预设。通过将输入声道看作音频对象所产生的预设被称为声道预设。

另外，可基于是否在基于对象的音频内容的播放时间更新混合信息来确定预设类型。

具体地讲，可根据混合信息是否具有恒定值或者是否在播放基于对象的音频内容时被更新来确定预设类型。以下，当混合信息不被更新时，预设被称为静态预设。当混合信息被更新时，预设被称为动态预设。

根据本发明的实施例，当将动态预设存储在基于对象的音频内容中时，可在“prst”中包括用于映射输入轨道ID和输入轨道ID的混合信息的表。在这种情况下，根据输入轨道的样本号的混合信息可基于在ISO-BMFF中定义的混合信息被导出，并被存储在“decoding time to sample box(stts)”和上面的表中。这里，解码时间和样本号之间的关系信息被存储在“stts”中。因此，当播放基于对象的音频内容时，可进行随机访问，并且可减少将被存储在基于对象的音频内容的混合信息的量。

当通过使用上面提到的信息来产生预设时，可如下面的表5所给出对预设类型进行分类。参照下面的表5，可存在12个预设，这还可根据分类元素进行进一步扩展。

[表5]

参照上面的表5，混合信息可包括音量信息和均衡信息。可以不同形式将音量信息和均衡信息存储在“prst”中。这里，可根据预设类型是静态预设还是动态预设来对混合信息的存储类型进行分类。

1、当预设类型是静态预设时：

当预设类型是静态预设时，混合信息在构成基于对象的音频内容的多个帧中可能是相同的。因此，可为每个音频对象存储相同的混合信息。这里，可根据预设类型是轨道预设还是声道预设来对混合信息的存储类型进行分类。

1.1当预设类型是静态/轨道预设时，即当“preset_type”是0、1、2时：

当为每个轨道存储混合信息时，可基于输入轨道中的具有最大数量的声道的输入轨道来确定输出声道类型。例如，当第一输入轨道包括两个声道，并且第二输入轨道包括单个声道时，第一输入声道中包括的声道的数量大于第二输入轨道中包括的声道的数量。因此，可将输出声道类型确定为立体声。

在这种情况下，可通过下面的表6至表8来给出“prst”中包括的预设的语法：

[表6]

[表7]

[表8]

根据以上表6至表8的语法的语义可如下：

“preset_volume”表示音量信息。

音量信息可包括输入轨道的输入音量值和输出轨道的输出音量值之间的音量增益值。可通过百分比或分贝(dB)来表示音量增益值。

另外，通过百分比或dB表示的音量增益值可被量化，从而被存储。在这种情况下，可通过下面的表9和表10来表示量化后的音量增益值：

[表9]

索引	0	1	2	3	...	149	200
								值(比率)	0	0.02	0.04	0.06	...	3.98	4.00

[表10]

索引	0	1	2	3	4	5	6	7	8	9	10	11	12	13
															值(dB)	-25	-21	-18	-15	-12	-8	-5	-3	-1	0	1	2	3	4

“num_freq_band”表示将被应用声音均衡的频带的数量，并可具有0和32之间的整数值。

“center_freq”表示每个频带的中心频率，并可具有0Hz和20,000Hz之间的整数值。

“bandwidth”表示每个频带的带宽，并可具有0Hz和20,000Hz之间的整数值。

“preset_freq_gain”表示每个频带中的频率增益值。

与音量增益值相同，也可通过百分比或dB来表示频率增益值。另外，通过百分比或dB表示的频率增益值可被量化，从而被存储。在这种情况下，可通过下面的表11来表示量化后的频率增益值：

[表11]

索引	0	1	2	3	...	149	200
								增益	0	0.02	0.04	0.06	...	3.98	4.00

1.2当预设类型是静态/声道预设时，即当“preset_type”是7、8、9时：

当为每个声道存储混合信息时，可通过考虑输入轨道的数量、用于每个输入轨道的声道的数量和输出声道类型来存储混合信息。在这种情况下，可通过下面的表12至表14来表示“prst”中包括的预设的语法：

[表12]

[表13]

[表14]

根据以上表12至表14的语法的语义可如下：

“num_input_channel[num_preset_track]”表示用于存储与每个输入轨道的声道的数量有关的信息的数组。

例如，可通过使用“moov”/“track”/“media”/“minf”/“stbl”/“stsd”中存在的“channel_count”信息来构成“num_input_channel[num_preset_track]”。当输入轨道包括单声道时，“num_input_channel[num_preset_track]”可具有值“1”。当输入轨道包括立体声道时，“num_input_channel[num_preset_track]”可具有值“2”。当输入轨道包括5声道时，“num_input_channel[num_preset_track]”可具有值“5”。

“output_channel_type”表示输出声道类型，“num_output_channel”表示输出声道的数量。例如，“output_channel_type”和“num_output_channel”可具有下面的表15给出的关系：

[表15]

output_channel_type

含义

num_output_channel

0	单声道	1
			1	立体声道	2
2	5声道	5

根据本发明的实施例，当预设类型是静态/对象/音量预设，并且输出声道的数量是5时，可通过下面的表16来表示“prst”中存储的混合信息：

[表16]

在这种情况下，“prst”中存储的每个参数可具有下面的关系：

num_preset_track＝2

preset_track_ID[2]＝[1，7]

num_input_channel[2]＝[2，1]

num_output_channel＝5

preset_volume＝[50，0，50，0，0，0，80，80，0，0，50，50，0，30，30]

这里，参照“preset_volume”，可知道，一些存储的混合信息被复制。在这种情况下，由于将被存储的信息量可能不必要地增加，因此，需要可减小将被存储在“prst”中的信息量的方案。将参照下面的“2-b)、c)和d)”来详细给出与此相关的描述。

2、当预设类型是动态预设时：

当预设类型是动态预设时，可在构成基于对象的音频内容的多个帧中更新混合信息，因此，可存储不同的混合信息。

因此，可根据帧号或者样本号用矩阵来表示混合信息。另外，可用用于映射输入轨道的帧和与其相应的混合信息的表的形式来表示该矩阵。

以下，将详细描述当通过映射表表示更新的混合信息时存储混合信息的方案，并且可通过下面的表17来给出混合表。

[表17]

a)如下存储根据帧号的混合信息值：

b)将根据帧号的混合信息值存储为参考值和相对于参考值的混合信息差值：

所述参考值表示在参考帧中的参考混合信息。因此，参考帧中的参考混合信息值以及除了参考帧之外的剩余帧中的混合信息值和参考混合信息值之间的差值可被存储在“prst”中。

当参考值是0时，可通过下面的表18来简要地表示上面的表17：

[表18]

因此，当以上面表18的形式将混合信息存储在“prst”中时，可减小将被存储的信息量。

c)存储指示复制的混合信息标志信息：

当先前帧的混合信息值与当前帧的混合信息值相同时，本方案可存储指示先前帧的混合信息值与当前帧的混合信息值相同的标志信息，而不存储混合信息值，从而可减小将被存储在“prst”中的信息量。

在这种情况下，尽管随时间更新混合信息值，但可能没有那么大的概率会对每帧都更新混合信息。因此，对每帧分配标志值可能效率不高。

根据本发明的实施例，提供了一种产生基于对象的音频内容的方法，所述基于对象的音频内容可基于与更新混合信息的帧间隔有关的信息来存储混合信息值和标志信息。

例如，当如上面的表17所示更新混合信息时，可基于以10帧为单位来更新混合信息(即，音量信息)。因此，可通过下面的表19来简要表示上面的表17：

[表19]

preset_volume	50	50	70	20	10	60
							volume_flag	0	1	0	0	0	0
修改的preset_volume	50		70	20	10	60

因此，“prst”中存储的参数可具有如下关系：

dynamic_interval＝10

volume_flag＝[0，1，0，0，0，0]

preset_volume＝[50，70，20，10，60]

这里，“dynamic_interval”表示帧间隔，“volume_flag”表示音量标志信息。当先前帧的混合信息与当前帧的混合信息相同时，“volume_flag”可具有值“1”。相反，当先前帧的混合信息与当前帧的混合信息不同时，“volume_flag”可具有值“0”。

参照此，可根据特定帧间隔将基于对象的音频内容中包括的多个帧划分成帧组。可针对每个帧组存储混合信息。

具体地讲，根据本发明的实施例，当关于第一帧组的第一组混合信息与关于第二帧组的第二组混合信息不同时，将被存储在“prst”中的预设参数可包括第一组混合信息、第二组混合信息、指示第一组混合信息与第二组混合信息不同的第一标志信息、以及每个帧组中包括的帧的数量(即，帧间隔)。

相反，当第一组混合信息与第二组混合信息相同时，将被存储在“prst”中的预设参数可包括第一组混合信息、指示第一组混合信息与第二组混合信息相同的第二标志信息、以及每个帧组中包括的帧的数量。

d)通过使用更新混合信息的次数和更新混合信息处的帧的帧号来存储混合信息：

根据本方案，可存储更新混合信息的次数、更新混合信息处的帧的帧号以及与此相应的混合信息。因此，本方案可比以上“c)”中描述的方案更有效。

例如，当如上面的表17所示更新混合信息时，将被存储在“prst”中的更新混合信息的次数、更新混合信息处的帧的帧号以及混合信息(即，音量信息)可如下：

num_updates＝3

updated_sample_number＝[1，11，21]

preset_volume＝[50，20，50，10，70，60]

这里，“num_updates”表示更新混合信息的次数，“updated_sample_number”表示更新混合信息处的帧的帧号。

上面已详细描述了有效地存储混合参数(随播放时间更新混合信息)的方案。即使在预设类型是静态预设，并且存储的混合信息被复制时，以上方案也可适用。

例如，当通过上面的表16表示“prst”中存储的混合信息，并通过使用标志信息根据方案“c)”来存储混合信息时，可如下面的表20所给出的来修改上面的表16：

[表20]

preset_volume	50	0	50	0	0	0	80	80	0	0	50	50	0	30	30
																volume_flag	0	0	0	0	1	1	0	1	0	1	0	1	0	0	1
修改的preset_volume	50	0	50	0			80		0		50		0	30

因此，“prst”中存储的参数可具有下面的关系：

volume_flag＝[0，0，0，0，1，1，0，1，0，1，0，1，0，0，1]

preset_volume＝[50，0，50，0，80，0，50，0，30]

在这种情况下，可如下面的表21所给出的来修改上面的表12的“prst”中的预设的语法：

[表21]

根据以上表21的语法具有的语义可如下：

“volume_flag”表示音量标志信息，并可具有一比特整数的数据类型。当先前信息的混合信息与当前帧的混合信息相同时，“volume_flag”可具有值“1”。相反，当先前帧的混合信息与当前帧的混合信息不同时，“volume_flag”可具有值“0”。

“num_volume_flag”表示“volume_flag”的数组长度。

以下，将详细描述基于上面提到的预设存储方案存储“prst”中的动态预设的混合信息的实施例。

2.1.当预设类型是动态/轨道预设时，即当“preset_type”的值是3、4、5时：

如上所述，当预设类型是轨道类型时，输出声道类型可能被认为不存储混合信息。

根据本发明的实施例，可通过下面的表22至表24来表示“prst”中包括的预设的语法。下面的表22至表24中显示的语法可与通过使用上面提到的方案“d)”存储混合信息的方案相关。

[表22]

[表23]

[表24]

根据上面的表22至表24的语法的语义可如下：

“num_updates”表示更新混合信息的次数。

“updated_sample_number”表示更新混合信息处的帧的帧号。

另外，当根据方案“c)”来存储混合信息时，可如通过下面表25所给出的来修改上面表22的语法：

[表25]

根据上面表25的语法的语义可如下：

“dynamic_interval”表示帧间隔。

2.2.当预设类型是动态/声道预设时，即，当“preset_type”的值是9、10、11时：

如上所述，当针对每个声道存储混合信息时，可通过考虑输入轨道的数量、每个输入轨道的声道的数量和输出声道类型来存储混合信息。

在这种情况下，可通过下面的表26至表28给出“prst”中的预设的语法。下面的表26至表28的语法可与通过使用方案“d)”存储混合信息的方案相关。

[表26]

[表27]

[表28]

已经描述了混合信息仅包括音量信息和均衡信息。然而，根据本发明的实施例，混合信息还可包括声音图像的幅度值和声音图像的角度值。可通过至少一个输入声道来形成声音图像。声音图像的幅度值和声音图像的角度值可以是用于确定声音图像的虚拟位置的预设参数。

在这种情况下，声音图像的角度值可被量化，从而可被存储。例如，可如通过下面表29所给出的形式来表示声音图像的角度值：

[表29]

索引	0	1	2	3	4	5	6
								值(°)	0	5	10	15	20	25	30
索引	7	8	9	10	11	12	13
								值(°)	40	50	60	70	80	90	100
索引	14	15	16	17	18	19	20
								值(°)	110	120	130	140	150	160	170
索引	21	22	23	24	25	26	27
								值(°)	180	190	200	210	220	230	240
索引	28	29	30	31	32	33	34
								值(°)	250	260	270	280	290	300	310
索引	35	36	37	38	39	40	41
								值(°)	320	330	335	340	345	350	355

根据本发明的实施例，基于对象的音频内容还可包括单声道/立体声音频信号，所述单声道/立体声音频信号是基于至少一个预设的任何一个所混合的音频信号的模拟立体声(down-mixed)的信号。

可存储单声道/立体声音频信号以进行与不能播放基于对象的音频内容的音频播放装置的交互。

当基于对象的音频内容还包括单声道/立体声音频信号时，能播放基于对象的音频内容的音频播放装置可基于多个音频对象和至少一个预设来播放基于对象的音频内容。不能播放基于对象的音频内容的音频播放装置可播放单声道/立体声音频信号。因此，可不管音频播放装置的类型来播放基于对象的音频内容。

例如，单声道/立体声音频信号可被存储在“mdat”中。在这种情况下，可通过下面的表30所给出的来修改“moov”/“trak”/“tkhd”中包括的标志的语义。在下面的表30中，下划线的部分对应于将被删除的语义，粗体部分对应于将被添加的语义。

[表30]

通过使用MPEG-4场景二进制格式(BIFS)来将预设参数存储在“moov” 中存在的“trak”中

根据本发明的实施例，可通过使用MPEG-4BIFS来将预设参数存储在“moov”中存在的“trak”中。

在这种情况下，在预设参数中，用于指示全部预设信息的第一预设参数(例如，预设的数量、默认预设ID等)可被存储在“prco”中，并还可被存储在以BIFS新定义的节点中。

当通过使用新定义的节点存储第一预设参数时，可通过下面的表31表示节点接口。在下面的表31中，“PresetSound”表示新定义的节点：

[表31]

根据上面的表31的节点接口的语义可如下：

“source”字段遵循ISO/IEC(国际电子技术委员会)14496-11：2005的子条款7.2.2.116的语义。

“numPreset”字段和“default_preset_ID”字段遵循前面提到的“prco”的语义。

另外，在预设参数中，可通过适当地组合AudioMix节点和WideSound节点来存储指示音量信息的预设参数。

另外，在预设参数中，指示均衡信息的预设参数可通过使用现有AudioRXProto节点的PROTO audioEcho被存储，还可通过使用在BIFS中新定义的节点被存储。

当通过使用新定义的节点存储均衡信息(更准确地，频率增益值)时，可通过下面的表32来表示节点接口。在下面的表32中，“PersetAudioEqualizer”表示新定义的节点。

[表32]

根据上面的表32的节点接口的语义可如下：

“children”字段表示可同步混合的节点的输出。例如，“child”字段可以是AudioSource、AudioMix等。

“addChildren”表示将被添加到“children”字段的节点的列表。

“removeChildren”表示将从“children”字段去除的节点的列表。

“numInputs”字段表示输入轨道的数量。

“params”字段表示矩阵[numInputs×3·numFreqBands]。均衡参数(即，将被应用于每个输入轨道的频带的均衡信息)可被存储在每列中。其可通过下面的表33被表示：

[表33]

数据类型	函数	默认值	范围
				float	numFreqB ands	2	0，...，32
float[]	centerFreq	[]	0，...，20000
				float[]	bandwidth	[]	0，...，20000
float[]	gain	1	0.1，...，10

这里，“numFreqBands”表示频带的数量，“centerFreq”表示每个频带的中心频率，“bandwidth”表示每个频带的带宽，“gain”表示每个频带的增益值。

具体地讲，可如下构造“params”字段的列：

numFreqBands＝params[0]

centerFreq[0...numFreqBands-1]＝params[1...numFreqBands]

bandwidth[0...numFreqBands-1]＝params[numFreqBands+1...2·numFreqBands]

gain[0...numFreqBands-1]＝params[2·numFreqBands+1...3·numFreqBands]

通过使用MPEG-4轻量级应用场景描述(LASeR)来将预设参数存储在存在于“meta”中的“xml”中

根据本发明的实施例，可通过使用MPEG-4LASeR来将预设参数存储在存在于“meta”中的“xml”中。

在这种情况下，可如由下面的表34所给出的通过新定义元素和属性来存储预设参数。

[表34]

其他

根据本发明的实施例，当在包括多个音频对象的文件中预先描述预设信息时，可通过控制基于对象的音频内容格式以表示预设信息，或者通过修改预设信息以适合基于对象的音频内容格式，来以基于对象的音频内容格式存储预设参数。

另外，根据本发明的实施例，当在以场景表示语言(例如，BIFS或LASeR)构造的文件中描述预设信息时，可通过控制基于对象的音频内容格式以表示预设信息，或者通过修改预设信息以适合基于对象的音频内容格式的方案，来以基于对象的音频内容格式存储预设参数。

另外，根据本发明的实施例，当在仅包括预设的文件中获得预设信息时，可参考所述文件。另外，可以以基于对象的音频内容格式来存储文件中的预设信息。如上所述，描述信息或描述性元数据可被另外存储在基于对象的音频内容中。可使用存储的描述信息或描述性元数据来对基于对象的音频内容执行搜索和滤波。以下，将参照图7和图8来描述存储描述信息的方法。

在基于ISO对象的音频内容格式中，描述信息可包括用于表示唱片的元数据(以下，“album level metadata”)、用于表示歌曲的元数据(以下，“song level metadata”)和用于表示轨道的元数据(以下，“track level metadata”)。这里，可通过下面的表35来给出每个元数据：

[表35]

可将元数据划分成两类，即“metadata for expressing a song and a track”和“metadata for expressing an album”。这里，“metadata for expressing an album(即，唱片等级元数据)”可表示与基于对象的音频内容中存储的歌曲中的相同唱片中包括的歌曲有关的共同信息。

可将“album level metadata”存储在“ftyp”/“meta”中，可将“song level metadata”存储在“moov”/“meta”中，并可将“track level metadata”存储在“moov”/“trak”/“meta”中。可如通过下面的表36所给出的进行布置：

[表36]

元数据	位置
		track level	trak/meta box
song level	moov/meta box

album level

meta box of file

可如图7和图8所示提供存储有元数据的基于ISO对象的音频内容文件格式的结构。图7的格式结构指示单类型文件结构，图8的格式结构指示多类型文件结构。

这里，可根据MPEG-7类型(mp7t)来处理元数据。

更具体地讲，MPEG-7的“CreationInformation”、“MediaInformation”和“Semantics DS”可用于“track level metadata和“song level metadata”。MPEG-7的“ContentCollection DS”和“CreationInformation DS”可用于“album level metadata”。这是因为“album level metadata”包括与单个唱片中包括的多首歌曲有关的结构信息。

可如通过下面的表37至表39所给出的进行布置：

[表37]

[表38]

[表39]

另外，可将音频内容信息(例如，歌曲的作词等)包括在基于对象的音频内容中。当基于对象的音频内容被播放，并且在这种情况下，在音频内容播放装置上显示音频内容信息时，可更有效地提供基于对象的音频服务。可在基于对象的音频内容的播放时间内更新音频内容信息。以下，在播放时间内更新的音频内容信息被称为“Timed Text”。

在基于对象的音频内容文件格式中，可通过使用时控文本标准(例如，第三代伙伴关系计划传输流26.245(以下，“3GPP Timed Text”)和MPEG-4流传输文本格式)来提供“Timed Text”。

例如，当通过使用“3GPP Timed Text”提供“Timed Text”时，“3GPP TimedText”可包括文本样本和样本描述。

这里，文本样本可包括文本串和样本修正。样本修正可包含关于渲染文本串的信息。

文本样本可被存储在单个轨道(即，ISO-BMFF中的文本轨道“mdat”)中。存储的文本样本可通过使用存在于“moov”/“trak”/“mdia”/“minf”/“stbl”中的“stts”、“stsc”“stco”等中存储的信息来与时控的媒体(例如，音频轨道)同步，从而被播放。

另外，样本描述可包括与渲染文本的方案有关的信息。例如，样本描述可包括与将被显示的文本的位置、文本的颜色、背景色等有关的信息。样本描述可扩展“SampleEntry”到“TextSampleEntry”，从而在“stsd”中被描述。

以上已经描述了根据本发明实施例的产生基于对象的音频内容的方法。以下，将参照图5描述播放基于对象的音频内容的方法，所述基于对象的音频内容是根据前面提到的基于对象的音频内容产生方法所产生的。

图5是示出根据本发明实施例的播放基于对象的音频内容的方法的流程图。

在操作510，基于对象的音频内容播放方法可恢复多个音频对象和至少一个预设。

在这种情况下，可根据如参照图3描述的基于对象的音频内容产生方法来产生基于对象的音频内容。

在操作520，基于对象的音频内容播放方法可基于至少一个预设来混合多个音频对象，以产生输出音频信号。

在操作530，基于对象的音频内容播放方法可播放输出音频信号。

如上所述，当预设参数中包括的默认预设ID具有值“0”时，可根据通过使用SAOC技术被编码和存储的音频对象的比特流中存储的预设来播放基于对象的音频内容。以下，将参照图6详细描述基于通过使用SAOC技术被编码和存储的音频对象的比特流中存储的预设来播放基于对象的音频内容的处理。

图6是示出根据本发明另一实施例的播放基于对象的音频内容的方法的流程图。

在操作610，基于对象的音频内容播放方法可确定在基于对象的音频内容中是否存在预设。

当在操作610确定所述预设存在时，即当在操作610确定“num_preset”具有除了“0”之外的值时，在操作620，基于对象的音频内容播放方法可确定在基于对象的音频内容中是否存在默认预设ID。

当在操作620确定默认预设ID存在时，即当在操作620确定“default_preset_ID”具有除了“0”之外的值时，在操作630，基于对象的音频内容播放方法可基于具有与默认预设ID相同的预设ID的预设来混合多个内容，以产生输出音频信号，并可在操作670播放输出音频信号。

相反，当在操作610确定所述预设不存在时，即当在操作610确定“num_preset”具有值“0”时，或者当在操作620确定默认预设ID不存在时，即当在操作620确定“default_preset_ID”具有值“0”时，基于对象的音频内容播放方法可在操作640确定SAOC比特流是否存在。

当在操作640确定SAOC比特流存在时，基于对象的音频内容播放方法可在操作650确定在SAOC比特流中是否存在预设。

当在操作650中确定在SAOC比特流中存在预设时，基于对象的音频内容播放方法可在操作660基于SAOC比特流中包括的第一预设来混合多个音频对象，以产生输出音频信号，并可在操作670播放输出音频信号。

相反，当在操作640确定SAOC比特流不存在时，或者当在操作650确定在SAOC比特流中不存在预设时，基于对象的音频内容播放方法可确定在基于对象的音频内容中不存在预设，可能不能播放基于对象的音频内容。

本发明的示例性实施例包括计算机可读介质，所述计算机可读介质包括用于实现被计算机实施的各种操作的程序指令。所述介质还可单独包括或组合包括程序指令、数据文件、数据结构、表等。所述介质和程序指令可以是为了本发明的目的被特别设计和构造的介质和程序指令，或者可以是公知的种类，并可被计算机软件领域的技术人员使用。计算机可读介质的示例包括：磁介质，例如，硬盘、软盘和磁带；光介质，例如，CD ROM盘；磁光介质，例如，软磁盘；和被专门配置用于存储和执行程序指令的硬件装置，例如，只读存储装置(ROM)、随机存取存储器(RAM)。程序指令的示例包括机器代码(例如，通过编译器产生的机器代码)和包含高级代码的文件二者，其中，可通过计算机使用解释器来执行所述高级代码。描述的硬件装置可被构造成用作一个或多个软件模块，以执行本发明的上述实施例的操作，反之亦然。

尽管已显示和描述了本发明的几个实施例，但本发明并不限于描述的实施例。而是，本领域的技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，本发明的范围由权利要求及其等同物限定。

Claims

1.一种产生基于对象的音频内容的方法，所述方法包括：

接收多个音频对象；

通过使用所述多个音频对象产生至少一个预设；

存储关于所述至少一个预设的属性和所述多个音频对象的预设参数，

其中，以框的形式存储预设参数，以与基于对象的音频内容有关的媒体文件格式定义所述框。

2.如权利要求1所述的方法，其中：

所述框包括moov框，moov框包括在moov框中定义的第一框，第一框包括在第一框中定义的第二框，预设参数包括第一预设参数和第二预设参数，第一预设参数包括所述至少一个预设的数量、所述至少一个预设中的任何一个预设的预设标识(ID)中的至少一个，

第一预设参数被存储在第一框中，第二预设参数被存储在第二框中。

3.如权利要求1所述的方法，其中：

所述框包括ftyp框和moov框，

ftyp框包括第一meta框，moov框包括第二meta框，

预设参数被存储在第一meta框和第二meta框中的任何一个中。

4.如权利要求3所述的方法，其中：

基于对象的音频内容的描述信息被存储在第一meta框中，预设参数被存储在第二meta框中。

5.如权利要求1所述的方法，其中：

所述框包括ftyp框和moov框，

预设参数被存储在存在于moov框中的meco框或存在于ftyp框中的meco框中的任何一个中。

6.如权利要求1所述的方法，其中：

存储预设参数的步骤还存储基于对象的音频内容的描述信息，

基于MPEG-7类型(mp7t)来存储描述信息。

7.如权利要求1所述的方法，其中：

存储预设参数的步骤还存储与基于对象的音频内容有关的时控文本数据，

基于第三代伙伴关系计划传输流26.245(3GPP TS 26.245)和MPEG-4流传输文本格式中的任何一个来存储时控文本数据。

8.如权利要求1所述的方法，其中：

所述框包括moov框，所述moov框包括track框，

存储预设参数的步骤通过使用MPEG-4场景二进制格式(BIFS)来将预设参数存储在存在于moov框中的track框中。

9.如权利要求1所述的方法，其中：

所述框包括meta框，所述meta框包括xml框，

存储预设参数的步骤通过使用MPEG-4轻量级应用场景描述(LASeR)来将预设参数存储在xml框中。

10.如权利要求1所述的方法，其中：

预设参数包括关于所述多个音频对象的混合信息，

混合信息包括关于每个音频对象的音量信息和关于每个音频对象的均衡信息中的至少一个。

11.如权利要求10所述的方法，其中：

预设参数还包括关于所述多个音频对象的预设全局音量信息。

12.如权利要求10所述的方法，其中：

基于对象的音频内容包括多个轨道，所述多个轨道包括至少一个声道，

混合信息还包括声音图像的幅度值和声音图像的角度值，通过所述至少一个声道来形成声音图像。

13.如权利要求10所述的方法，其中：

均衡信息包括将被应用均衡的频带数量、每个频带的中心频率、每个频带的带宽和每个频带的频率增益值。

14.如权利要求13所述的方法，其中：

音量信息包括每个音频对象的输入音量值和每个音频对象的输出音量值之间的音量增益值，

通过使用百分比或分贝(dB)来表示音量增益值和频率增益值。

15.如权利要求10所述的方法，其中：

基于对象的音频内容包括被顺序播放的多个帧，

当所述多个帧被播放时更新所述混合信息。

16.如权利要求15所述的方法，其中：

预设参数包括所述多个帧中的参考帧的参考混合信息以及参考混合信息和所述多个帧中除了参考帧之外的剩余帧的混合信息之间的差。

17.如权利要求15所述的方法，其中：

所述多个帧被划分成多个帧组，所述多个帧组包括彼此相邻的第一帧组和第二帧组，当关于第一帧组的第一组混合信息与关于第二帧组的第二组混合信息不同时，预设参数包括第一组混合信息、第二组混合信息、指示第一组混合信息与第二组混合信息不同的第一标志信息以及每个帧组中包括的帧的数量，

当第一组混合信息与第二组混合信息相同时，预设参数包括第一组混合信息、指示第一组混合信息与第二组混合信息相同的第二标志信息以及每个帧组中包括的帧的数量。

18.如权利要求15所述的方法，其中：

预设参数包括更新混合信息的次数、更新混合信息处的帧的帧号、更新混合信息处的帧的混合信息。

19.如权利要求10所述的方法，其中：

预设参数还包括轨道的数量、用于每个轨道的至少一个声道的数量以及用于输出基于对象的音频内容的至少一个输出声道的数量，

混合信息包括用于所述至少一个输出声道中的每个声道的混合信息。

20.如权利要求1所述的方法，其中：

存储预设参数的步骤还存储与基于所述至少一个预设中的任何一个预设混合的音频信号的模拟立体声信号相应的单声道/立体声音频信号。

21.如权利要求1所述的方法，其中：

媒体文件格式是国际标准化组织(ISO)基本媒体文件格式的结构。

22.一种播放基于对象的音频内容的方法，所述方法包括：

从基于对象的音频内容恢复多个音频对象和至少一个预设；

基于所述至少一个预设来混合所述多个音频对象，以产生输出音频信号；

播放输出音频信号，

其中，所述至少一个预设中的每一个预设包括预设参数，所述预设参数以框的形式被存储在基于对象的音频内容中，以与基于对象的音频内容有关的媒体文件格式来定义所述框。

23.如权利要求22所述的方法，其中：

所述框包括moov框，moov框包括在moov框中定义的第一框，第一框包括在第一框中定义的第二框，预设参数包括第一预设参数和第二预设参数，第一预设参数包括所述至少一个预设的数量、所述至少一个预设中的任何一个预设的预设ID中的至少一个，第一预设参数被存储在第一框中，第二预设参数被存储在第二框中。

24.如权利要求22所述的方法，其中：

预设参数包括关于所述多个音频对象的混合信息，

25.如权利要求24所述的方法，其中：

预设参数还包括关于所述多个音频对象的预设全局音量信息，

播放步骤基于关于所述多个音频对象的预设全局音量信息来调整所有混合的音频对象的全局音量。

26.如权利要求24所述的方法，其中：

27.如权利要求24所述的方法，其中：

基于对象的音频内容包括被顺序播放的多个帧，

当所述多个帧被播放时更新所述混合信息。

28.如权利要求27所述的方法，其中：

29.如权利要求27所述的方法，其中：

30.如权利要求27所述的方法，其中：

31.如权利要求24所述的方法，其中：

32.如权利要求22所述的方法，其中：

媒体文件格式是ISO基本媒体文件格式的结构。

33.一种存储程序的计算机可读记录介质，所述程序用于实现根据权利要求1至权利要求32中的任何一个的方法。

34.一种存储具有用于基于对象的音频服务的文件格式结构的数据的计算机可读记录介质，包括：

ftyp框，存储基于对象的音频内容的标准信息；

mdat框，存储构成基于对象的音频内容的多个音频对象；

moov框，存储用于呈现存储的多个音频对象的元数据，

其中，与通过使用所述多个音频对象所产生的至少一个预设有关的预设参数被存储在ftyp框和moov框中的任何一个中。

35.如权利要求34所述的计算机可读记录介质，其中：

moov框包括在moov框中定义的第一框和在第一框中定义的第二框，

预设参数包括第一预设参数和第二预设参数，第一预设参数包括所述至少一个预设的数量、所述至少一个预设中的任何一个预设的预设ID中的至少一个，第一预设参数被存储在第一框中，第二预设参数被存储在第二框中。

36.如权利要求34所述的计算机可读记录介质，其中：

预设参数包括关于所述多个音频对象的混合信息，

37.如权利要求36所述的计算机可读记录介质，其中：

38.如权利要求36所述的计算机可读记录介质，其中：

39.如权利要求37所述的计算机可读记录介质，其中：

通过使用百分比或分贝(dB)来表示音量增益值和频率增益值。

40.如权利要求36所述的计算机可读记录介质，其中：

基于对象的音频内容包括被顺序播放的多个帧，

当所述多个帧被播放时更新所述混合信息。

41.如权利要求40所述的计算机可读记录介质，其中：

42.如权利要求40所述的计算机可读记录介质，其中：

43.如权利要求40所述的计算机可读记录介质，其中：

44.如权利要求36所述的计算机可读记录介质，其中：

45.如权利要求34所述的计算机可读记录介质，其中：

文件格式结构是ISO基本媒体文件格式的结构。