CN102754159A

CN102754159A - 指示音频对象的部分的元数据时间标记信息

Info

Publication number: CN102754159A
Application number: CN2010800470666A
Authority: CN
Inventors: B·雷施; J·恩德加德
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2009-10-19
Filing date: 2010-10-14
Publication date: 2012-10-24
Anticipated expiration: 2030-10-14
Also published as: US20120197650A1; EP2491560B1; CN102754159B; WO2011048010A1; EP2491560A1; JP5771618B2; JP2013509601A; US9105300B2

Abstract

本申请涉及一种在音频数据中编码时间标记信息的方法。根据该方法，时间标记信息被编码为音频数据中的音频元数据。该时间标记信息指示音频数据中编码的音频对象的至少一个部分。例如，时间标记信息可指定部分的开始位置和结束位置或仅仅开始位置。该至少一个部分可以是音频对象的特征部分，其使得通过聆听可即时识别。在音频数据中编码的该时间标记信息使得能够即时浏览到音频对象的某个部分。本申请进一步涉及用于解码在音频数据中编码的时间标记信息的方法。

Description

指示音频对象的部分的元数据时间标记信息

技术领域

本申请涉及音频编码，尤其涉及音频数据中的用于指示音频对象的部分的元数据。

背景技术

常常可以通过聆听音乐片段的特征部分(诸如副歌合唱(chorus))来识别音乐片段。此外，聆听音乐片段的特征部分也足以评价音乐听众是否喜欢音乐片段。当音乐听众寻找存储为数字音频数据的音乐片段的特征部分时，他必须手动地在音乐片段内快进以寻找该特征部分。这是繁重的，当音乐听众在大的音乐集合中浏览多个音乐片段以寻找特定的音乐片段时尤其如此。

发明内容

本发明的第一方面涉及用于在音频数据中编码时间标记信息的方法。

优选地，包括时间标记信息的编码音频数据被存储在单个音频文件(诸如MP3(MPEG-1音频层3)文件或AAC(高级音频编码)文件)中。

根据本方法，时间标记信息被编码为音频数据中的音频元数据。时间标记信息指示音频数据中编码的音频对象的至少一个部分。例如，时间标记信息可指定该部分的开始位置和结束位置或仅仅指定开始位置。

所述至少一个部分可是音频对象的特征部分。该特征部分常常使得通过收听该特征部分可即时识别所述音频对象。

音频数据中编码的该时间标记信息使得能够即时浏览到所述音频对象的某个部分。因此，避免了手动寻找音频对象以寻找某个部分。

音频数据中编码的该时间标记信息使得能提取某个部分，例如，特征部分，特别是合唱(chorus)。该部分可以被用作铃声或警报信号。为此，该部分可以被保存在新文件中，或者当播放铃声或警报音调或信号时，音频数据中的时间标记可用于开始特定部分处的重放。

当至少一个部分是音频对象的特征部分(即，重要部分或代表部分)时，标记部分结合时间标记信息提供了使得通过收听能够即时识别的音频对象的音频缩略图。

即使听众设备支持音频数据的自动分析以发现某个部分，诸如音乐片段的特征部分，用于寻找所述部分的分析也是不需要的，这是因为时间标记信息已经提前被识别并包括在音频数据中。

应该注意：音频数据可以是单纯的音频数据、复合多媒体视频/音频数据(诸如MPEG-4视频/音频比特流或MPEG-2视频/音频比特流)、或者这样的复合视频/音频数据的音频部分。

时间标记信息可当产生音频数据时被编码，或者该时间标记信息可包括在给定音频数据中。

从编码器输出的或输入到音频解码器的音频数据一般形成比特流。因此，在本申请中，可使用术语“比特流”替代术语“音频数据”。包含时间标记信息的编码音频数据优选地被保存在存储介质上储存的单个文件中。

然而，编码音频数据(换句话说：编码比特流)可通过复用分离的文件(具有音频信息的一个音频文件以及具有一个或多个时间标记的一个元数据文件)的信息而产生。

音频数据可用于流应用，诸如因特网无线电比特流或包括音频和视频的多媒体比特流。可替换地，音频数据可保存在听众的存储介质(诸如闪存或硬盘)中。

优选地，音频对象通过感知编码方法(诸如MP3、Dolby数字化或(HE-)AAC中所用的编码方法)被编码。可替换地，音频对象可是PCM(脉冲码调制)编码的音频对象。

例如，音频对象可以是音乐片段或讲话记录，诸如音频书。

优选地，时间标记信息的编码允许向前兼容，即，时间标记信息的编码以如下方式执行：不支持时间标记信息的解码器可跳过该信息。

优选地，可实现向后和向前兼容。向后兼容指得是支持时间标记信息的解码器(例如，具有用于时间标记元数据的提取器和处理器的HE-AAC解码器)可读取不具有时间标记信息的常规音频数据(例如，常规HE-AAC比特流)以及具有时间标记信息的音频数据(例如，具有附加的时间标记元数据的HE-AAC比特流)。向前兼容性指得是不支持时间标记信息的解码器(例如，常规的HE-AAC解码器)可以读取不具有时间标记信息的常规音频数据以及具有时间标记信息的音频数据的常规部分(在这种情况下，因为不支持，时间标记信息被跳过)。

根据实施例，时间标记信息指示音频对象的特征部分的位置。例如，在音乐片段的情况下，时间标记信息可指示合唱、副歌或其部分。换句话说：时间标记元数据指向重要部分或代表部分。这使得解码音频比特流的音乐播放器能够在重要时刻开始重放。

时间标记信息可以指示音频对象中的例如在音乐片段或音频书中的多个部分。换句话说：时间标记信息可包含和多个音频对象部分相关的多个时间标记。例如，时间标记信息可指明多个部分的开始点和结束点的时间位置。这使得可浏览到音频对象内的不同部分。

时间标记信息可指定与音乐片段的时间音乐结构有关的不同时间位置。换句话说：时间标记信息可指示音乐片段内的多个部分，该多个部分涉及时间音乐结构的不同部分。例如，时间标记信息可指示如下部分中的一个或多个的开始：例如，前奏、第一主歌(verse)、第一副歌或合唱、第二(第三)主歌、第二(第三)副歌或合唱或过渡乐节(bridge)。

时间标记信息也可以标记音乐片段内主导旋律(motive)、主题和/或主题变奏。

此外，时间标记信息可指定其他音乐方面，诸如歌声(singingvoice)的出现(例如，第一个歌唱项(vocal entry))，或涉及音乐配置，诸如特定乐器的出现(具别地，某个乐器的独奏(solo)出现)或乐器组(例如，铜管乐器部分、背景音乐)的出现，或音乐片段中最大声部分。

该时间标记信息也可指示具有特定音乐属性的部分。音乐属性可以是例如特定音乐类型或类别、特定曲调、特定节拍、特定音调、特定发音。

该时间标记的部分也可与用于标注该部分的标签信息相关。例如，标签信息可描述部分的若干音乐属性，诸如音乐类型或类别(例如，轻音乐、经典音乐、电子音乐等)、相关曲调(例如，快乐的、悲伤的、进取的)、节奏(例如，由每分钟的节拍指定或由音乐项标注的音频信号的速度或步速，诸如，欢快的，舒缓的等)、音频信号的部分的音调(例如，A大调、C小调)或发音(例如，次断音、连奏、拨奏)的说明。

标签信息可包括在另一元数据字段中。该标签信息可包含文本标签。可替换地，为了标注，时间标记也可以和例如如上所述地指定音乐结构或音乐属性的表中的索引相关。在这种情况下，各个标签的索引可包括在音频数据中作为标签信息。该查询表的示例如下所示：

索引	标签
		0	“CHORUS”
1	“VERSE”
		2	“SOLO”
3	“VOCAL ENTRY”

在该示例中，只有索引(这里：4个状态，因此用2比特表示)将在音频比特流中传递。查询表对于解码器一般是已知的。然而，也可在音频比特流中传递表。

具有一个或多个相关标签(例如，在元数据中编码为文本标签或允许从表中提取标签的查询表的索引)的时间标记信息使得用户能够容易地浏览音频对象的大的数据库(诸如音乐片段的大的集合)以寻找某些部分(例如，吉他独奏)。

该时间标记信息还允许对有兴趣的部分(例如，吉他独奏、歌唱部分、副歌)循环重放，有助于排练并练习音乐片段的乐器或歌唱部分。

该时间标记信息可被存储为音频文件(例如，AAC文件或MP3文件)中的元数据，以及时间信息(例如，特定部分的开始点和结束点，或特定部分的开始点和持续时间)可编码为如下格式中的一个或多个：

-秒值(second value)(例如，20秒)以及可选地小数(fractional)秒值(例如0,2秒)

-采样数(sample number)(在44100Hz采样率的情况下28比特宽采样数字段覆盖一个小时以上)

-帧数(frame number)(例如，在44100Hz采样率以及1024采样/帧的情况下18比特宽帧数字段覆盖一个小时以上)

-整数帧数和整数采样数，或

-整数帧数和小数帧值(例如，在44100Hz采样率和1024采样/帧的情况下18比特宽帧计数器加上2比特宽小数帧值导致5毫秒的精度)。

用于编码时间信息的以上格式的准确性程度是不同的。所用的格式一般取决于应用的需求。对于“合唱寻找”应用，时间分辨率并不那么重要并因此格式不需要具有高的准确性。但对于利用非常确切的循环的“乐器练习同步演奏”，时间分辨率需求可较高并因此优选地使用具有高准确性的格式。

该时间标记元数据可被包括(例如，一次)在音频数据的开端(例如，音频比特流的头部)中。

可替换地，时间标记信息可编码在音频数据的多个部分中。例如，多个部分在比特流中以特定出现率出现(例如，每n秒一次，或每n个音频帧一次，n≥1，例如n＝1)。换而言之，时间标记信息可被以特定固定更新率进行编码。

对于在多个部分中编码时间标记信息的情况，可以相对于比特流中给定部分的出现指定多个部分的给定部分中的时间标记信息。换而言之，可以相对于插入元数据的时间点确定时间标记的时间指定。例如，时间标记可指定规则间隔的元数据更新位置和有兴趣部分之间的时间距离(例如，直到音频信号的合唱开始还有3秒)。

以特定更新率包括时间标记信息有助于用于流应用(例如，用于播放)的浏览功能。

在从属权利要求中给出编码方法的其他实施例。

本应用的第二方面涉及用于解码在音频数据中提供的时间标记信息的方法。根据该方法，解码被提供为音频元数据的时间标记信息。该解码的执行一般伴随着对于在音频数据中给出的音频对象进行解码。时间标记信息指示已结合本发明的第一方面进行论述的在音频数据中编码的音频对象的至少一部分(例如，最独特部分)。

涉及根据本申请第一方面的编码方法的以上介绍也适用于根据本申请的第二方面的解码方法。

根据实施例，在解码时间标记信息之后，在所标记部分的开端开始重放，该所标记部分的开端由时间标记信息指定。为了在所标记部分的开端开始重放，解码器可在所标记部分处开始解码。在所标记部分的开端的重放开始可由用户输入初始化。可替换地，例如在重放多首歌曲的特征部分的情况下，重放可自动开始。

优选地，部分的重放在部分的末端结束，该末端由时间标记信息指示。在循环模式中，可此后在部分的开端再次开始重放。

时间标记信息的解码和在各个部分开端的重放可对于多个音频对象执行。这使得能浏览多首歌曲，例如浏览大的音乐集合中歌曲的最独特部分。

指示音乐片段的特征部分的经编码的时间标记信息也有助于浏览不同的无线电信道，例如不同的因特网无线电信道。

为了浏览不同的无线电信道，解码和多个无线电信道相关的多个音频比特流中的时间标记信息。对于多个比特流的每一个，相继地，开始在由各个比特流的时间标记信息指示的至少一个相应部分的开端的重放。因此，根据实施例，可播放在第一无线电信道上的歌曲的特征部分(或多首歌曲的特征部分)。此后，可播放在第二无线电信道(以及此后的第三无线电信道)上的歌曲的特征部分(或多首歌曲的特征部分)。这使得无线电用户可得到在多个无线电信道上播放的音乐类型的印象。

该方法还用于重放在给定无线电信道上播放的多首歌曲的集锦：为了产生该集锦，解码无线电信道的比特流中多个音频对象的时间标记信息。对于多个音频对象的每一个，相继地，重放各个音频对象的各个部分。所述方法还可对于多个无线电信道被执行。这使得可重放多个无线电信道中的每一个的歌曲集锦以提供在各个信道上播放的音乐类型的印象。

上述讨论的理论可结合实时无线电和按需无线电。在实时无线电中，用户一般不能跳到无线电节目中的特定点(在实时无线电中，取决于缓冲区大小，用户可能跳到无线电节目中的过去点)。按需无线电允许听众在无线电节目的任何点开始以及停止。

对于实时无线电，重放设备优选地具有在存储器中存储一定音乐量的能力。通过解码时间标记信息，设备可捕获一个或多个无线电信道的一首或多首最新歌曲的每个的重要部分，并在存储器中存储这些重要部分以用于以后重放。重放设备可记录所接收的无线电信道的连续音频流并可选地稍后删除非重要部分(以释放存储器)，或者重放设备可直接记录重要部分。

相同的原理也可用于因特网上的电视。

根据实施例，所标记部分可用作铃声或警报信号。为此，该部分可存储在用于重放铃声或警报信号的不同文件中，或者指示该部分的时间标记信息用于在该部分的开端开始重放以用于重放铃声或警报信号。

本申请的第三方面涉及编码器，被配置用于将时间标记信息编码为音频数据中的音频元数据，该时间标记信息指示音频数据中音频对象的至少一个部分。

涉及根据本申请第一方面的编码方法的以上介绍也适用于根据本申请第三方面的编码器。

本申请的第四方面涉及解码器，被配置用于解码在音频数据中提供为音频元数据的时间标记信息的解码器，所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。

涉及根据本申请第一方面的解码方法的以上介绍也适用于根据本申请第四方面的解码器。

解码器可用在例如音乐播放器的音频播放器中，诸如具有闪存和/或硬盘的便携式音乐播放器中。术语“便携式音乐播放器”也包括具有音乐播放功能的蜂窝式电话。当音频解码器允许通过重放每首歌曲的各自特征部分而浏览歌曲时，用于显示歌曲名称的显示器可省略。这使得进一步减少音乐播放器大小并减少设备成本。

本申请的第五方面涉及音频数据，例如音频比特流。该音频数据包括作为音频元数据的时间标记信息。所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。音频数据可以是从服务器向客户端(例如听众)流送的比特流，诸如(因特网)无线电比特流。可替换地，该音频数据可包含在诸如闪存或硬盘的存储介质上存储的文件中。例如，音频数据可以是AAC(高级音频编码)、HE-AAC(高效AAC)、Dolby脉冲、MP3或Dolby数字比特流。Dolby脉冲基于HE-AAC v2(HE-AAC版本2)，但提供进一步的元数据。在本申请中，术语“AAC”覆盖AAC的所有扩展版本，诸如HE-AAC或Dolby脉冲。术语“HE-AAC”(以及“HE-AAC v1”以及“HE-AAC v2”)也覆盖Dolby脉冲。音频数据可以是包括音频和视频信息的多媒体数据。

附图说明

以下参考附图作为多个示例性示例来解释本发明，其中：

图1示出用于编码时间标记信息的编码器的示意实施例；以及

图2示出用于解码时间标记信息的解码器的示意实施例。

具体实施方式

下文论述了元数据时间信息的不同使用情况。元数据时间标记可指示不同类型的部分并可用在不同应用中。

指示歌曲的特征部分(例如合唱)的元数据时间标记信息：

时间标记信息可用于指示歌曲的特征部分(例如合唱、副歌或歌曲的一部分)。与阅读歌曲标题相比，通过收听特征部分(例如合唱)常常更容易识别歌曲。使用指示歌曲特征部分的元数据时间标记使得可搜索已知歌曲并有助于通过聆听而浏览歌曲数据库。当收听各个歌曲的最重要部分时，音乐听众可即时听出并识别歌曲。而且，该功能对于在根本不显示的情况下浏览便携式音乐播放设备上的歌曲，或因为设备放在口袋或包中而使得显示器对用户当前不可见的情况，是非常有利的。

指示歌曲的特征部分的时间标记信息也有助于发现新歌。通过收听特征部分(例如合唱)，用户可轻松判定是否喜欢该歌曲。因此，根据收听最独特部分，用户可确定他是否喜欢收听整首歌曲，或他是否愿意付钱购买该歌曲。该功能例如是对于音乐商店和音乐发现服务的有用应用。

与歌曲的时间音乐结构有关的元数据时间标记信息：

时间标记信息可用于指定与歌曲的时间音乐结构有关的不同时间位置，例如用于指示前奏、主歌、副歌、过渡乐节、另一副歌、另一主歌等的位置。

这使得用户能够在歌曲的不同部分之间轻松浏览歌曲。用户可以轻松浏览到例如用户对歌曲的喜爱部分。

与音乐结构有关的元数据标记信息也有助于练习乐器或歌唱。该时间标记信息提供了在歌曲的不同部分之中导航的可能性，这使得可访问有兴趣的部分以播放该部分一次或循环播放该部分，同时练习乐器或歌唱。

涉及特定乐器的出现或歌声的出现的元数据时间标记信息：

时间标记信息也可用于指定特定乐器的出现或歌声以及可选的调域(pitch range)的出现。该时间标记信息例如在练习乐器或者唱歌时是有用的。如果用户正学习演奏乐器(例如吉他)，用户可以容易地找到有兴趣演奏的歌曲部分，诸如吉他独奏。对于歌手而言，它可以用于找到位于所希望的调域中的歌曲部分。

指示具有特定音乐属性的部分的元数据时间标记信息：

时间标记信息可用于找到具有特定音乐属性的部分，例如发音(例如，连奏、拨奏)、风格(如轻快的、舒缓的)或节奏(如，节拍/分)的音乐描述。这可例如有助于练习乐器，因为用户可以容易地找到用于练习的音乐的相关和有兴趣的部分。可以对特定部分循环播放。指示具有特定曲调或节奏的元数据时间标记信息：

元数据时间标记信息可指示具有特定曲调(例如、活力的、积极的、或平静的)或节奏(例如，节拍/分)的部分。该元数据有助于根据曲调寻找歌曲的部分。用户可搜索具有特定曲调的歌曲部分。这也使得可根据特定曲调从多首歌曲或所有可用歌曲设计这些部分的集锦。

该数据也可用于寻找对于体育运动(如跑步、旋转、家庭训练或有氧运动)合适的音乐。当以不同强度水平进行训练时，元数据也可以帮助使音乐适应训练强度水平。因此，使用该元数据可以帮助用户使被特定计划的锻炼与合适音乐协作。例如在具有高强度的时间段期间的间隔训练(较短的高强度锻炼时间段经其后的休息时间段的交替)中，播放活力的、积极的或者快速的部分，而在休息时间段播放平静或舒缓的部分。

在上述的元数据时间信息的不同使用情况中，时间标记信息优选地集成在音频文件中，例如集成在歌曲文件的头部。作为基于文件的使用的替代，元数据时间标记信息也可以用于诸如无线电流应用(例如通过因特网)的流应用的环境中。例如，当具有指示歌曲特征部分(诸如合唱或其部分)的元数据时间标记信息时，该元数据可用在浏览不同无线电频道的环境中。该元数据有助于在能接收多个无线电信道(例如，因特网无线电)的设备上浏览不同的无线电信道，并具有在存储器中(例如，硬盘或闪存上)存储一定音乐量的能力。通过信号通知歌曲的重要部分(例如合唱)的位置，设备可以对于多个信道确定最新的歌曲(例如，最新的n首歌，n≥1，例如n＝5)中的每一个的重要部分。设备可以获取这些重要部分，并在存储器中保存这些部分(并可删除最新歌曲的其余部分来释放内存)。用户可以通过该合唱集合收听每个信道，并可以容易地了解信道此时正播放哪种音乐以及用户是否喜欢。

指示音频对象的特定部分的元数据时间标记信息：

该时间标记信息可用于指示包含演讲、可选音乐和可选声音的音频对象(例如音频书、音频播客和教育资料)的特定部分。这些部分可涉及音频对象的内容，例如指定音频书的章节或戏剧作品的场景，指定提供整个音频对象的概要的若干分段。该部分还可涉及音频书的特征，例如指示例如在作为故事集的音频书中章节是愉悦或阴郁的。对于教育性的音频资料，时间标记信息可指示关于资料的难度的音频对象的不同部分。教育资料中该时间标记信息也可指示需要学习者积极参与的部分，例如理解问题，语言课程中的发音练习。

在论述乐元数据时间标记信息的多个示例性应用之后，将论述时间标记的示例性来源。写入到元数据中的时间标记可例如来自如下来源中的一个或多个：

-在用户侧(即客户端侧)或音乐提供商侧(即服务器侧)的例如通过音乐信息检索(MIR)算法或服务的自动提取。自动提取算法的示例在以下文档中进行了论述：“A Chorus-Section DetectionMethod for Musical Audio Signals and Its Application to a MusicListening Station”，Masataka Goto，IEEE Transactions on Audio，Speech and Language Processings，Vol.14，No.5，pp.1783-1794，September 2006，以及“To Catch a Chorus：Using Chroma-BasedRepresentations for Audio Thumbnailing”，M.A.Bartsch，M.A.andG.H.Wakefield，IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics，2001。这些文件通过引用合并在此。

-来自外部数据库的传递。例如，音频库可与外部数据库同步。当管理元数据的外部数据库可例如借助计算机网络或蜂窝式网络访问时，数据可被远程提取(类似于对于CD，从Gracenote的紧致盘数据库(CDDB)获得艺术家/轨道信息)。

-在客户端侧编辑器中的(即，由用户)手工输入。

下文将解释用于携带元数据时间标记信息的各种示例性元数据容器。在音频或多媒体比特流中传送元数据可被以多种方式执行。可能希望以向前兼容的方式、即对于不支持时间标记元数据提取的解码器非破坏性地，包括该数据。为了在音频数据中嵌入元数据，可使用如下的通常采用的元数据嵌入方法中的一种：

ID3容器

ID3标志(tag)(ID3-“识别MP3”)是经常连同MP3(MPEG-1/2层III)音频文件一起使用的元数据容器。它的嵌入是相当简单的，因为ID3标志基本上插入在文件的最开始处(在ID3v2的情况下)或者附接在文件的末端(在ID3v1的情况下)。向前兼容通常可以实现，特别是因为ID3标志已成为MP3播放器的一个事实标准。为了携带时间标记，可使用ID3标志中的不使用的数据字段(或用于不同使用的数据字段可从其的预期使用被转移)，或ID3标志可由携带时间标记的一个或多个数据字段扩展。

MPEG-1/2的辅助数据

MPEG-1或MPEG-2层I/II/III音频比特流提供了可用于时间标记元数据的辅助数据容器。这些辅助数据容器在标准化文献ISO/IEC 11172-3和ISO/IEC 13818-3中进行描述，这些文献通过引用合并在此。该辅助数据容器被以完全向前兼容的方式由“AncDataElement()”比特流元素信号发送，它允许可变大小的数据容器。如果解码器不支持该时间标记信息，解码器将通常会忽略该额外数据。该数据容器使能够在比特流的任何帧传递元数据。

MPEG-2/4AAC比特流中的扩展有效载荷

对于MPEG-2或MPEG-4AAC(高级音频编码)音频比特流，可使用在标准化文献ISO/IEC 13818-7和ISO/IEC 14496-3中描述的AAC“extension_payload()”机制将时间标记信息存储在数据容器中。通过引用将这些文献合并在此。该方法不仅可以用于基本AAC而且可用于AAC的扩展版本，诸如HE-AAC v1(高效AAC版本1)、HE-AAC v2(高效AAC版本2)及Dolby脉冲。“extension_payload()”机制以完全向前兼容的方式被信号发送，其允许可变大小的数据容器。如果该解码器不支持由“extension_payload()”机制编码的时间标记信息，解码器将通常忽略该额外数据。该数据容器机制使能够在比特流的任何帧传递元数据。因此，元数据可以例如对于每帧被连续更新。稍后在本申请中解释将时间标记信息集成在AAC比特流中的详细示例。

基于ISO的媒体文件格式(MPEG-4部分12)

可替换地，可使用在ISO/IEC 14496-12中确定的基于ISO的媒体文件格式(MPEG-4部分12)。容器标准已具有用于元数据的层级体系，例如可包括：

-iTunes元数据，

-如上文解释的作为MPEG-4AAC音频比特流的一部分的“extension_payload()”元素，或

-定制元数据部分。

基于ISO的媒体文件格式可用于与Dolby数字音频数据或Dolby脉冲音频数据或其他音频数据格式相结合地包括该时间标记元数据。例如，时间标记元数据可被添加在Dolby脉冲音频比特流中，其进一步区分Dolby脉冲与常规HE-AAC。

采用在ISO/IEC 14496-12中定义的层级结构，可以包括例如Dolby脉冲或Dolby媒体产生器专用的元数据。元数据在mp4文件中在“moov”原子内被携带。“moov”原子包含用户数据原子“udta”，其通过使用唯一ID(通用唯一标识符-“uuid”)来识别其携带的内容。该容器可以包含多个元原子，每个携带不同的元数据类型。该类型由句柄“hdlr”识别。已存在的类型可携带如标题、艺术家、流派等的信息。可以定义例如包含扩展标记语言(XML)结构的新类型，该XML结构包括所需的信息。可以根据希望传输的信息确定确切格式。在如下示例中，该结构被示出，其中时间标记信息是名为“xml_data”的原子的一部分。

以XML编码的时间标记元数据原子“xml_data”可以如以下示例中那样被结构化。

这样的原子可包含关于其大小的信息，意图使得不识别该类型的解析器可跳过该部分并继续解析随后的数据。因此，可以实现向前兼容。

元数据的其他格式

支持元数据并可用于携带该时间标记元数据的其他多媒体容器格式是广泛采用的工业标准，诸如MPEG-4部分14(也称为MP4并在标准化文献ISO/IEC 14496-14中被定义)和3GP格式。

下文将论述在比特流句法(syntax)中集成时间标记元数据的两个示例。

音频拇指纹比特流句法的第一示例

一些元数据容器格式规定了在例如可扩展标记语言(XML)框架中的文本串的使用，而其他容器仅仅是用于二进制数据块的一般容器。下表1示出了以伪C句法说明的二进制格式比特流的示例(这是ISO/IEC标准说明的常用做法)。具有一比特以上的比特流元素通常作为无符号整数、最重要比特在先(“uimsbf”)被读/写。

表1：AudioThumbprintData()的句法

比特流元素具有如下含义。

具有例如两比特长度的整数元素“BS_SECTION_ID”描述了所被标记部分的内容类型，例如，0＝CHORUS，1＝VERSE，2＝SOLO，3＝VOCAL_ENTRY。

具有例如八比特长度的整数元素“BS_NUM_CHAR”描述了文本串“BS_ARTIST_STRING”的以字节为单位的长度。在该示例中，整数元素“BS_NUM_CHAR”和文本字符串“BS_ARTIST_STRING”仅用在特殊情况下，即当整数元素“BS_SECTION_ID”指示歌唱项时；参见伪C句法中的语句“if(BS_SECTION_ID＝＝3)”。

文本串元素“BS_ARTIST_STRING”包含所标记部分中的歌唱艺术家的姓名。文本串可例如在8-比特ASCII(例如在ISO/IEC10646：2003中指定的UTF-8)中编码；在这种情况下，文本串的比特长度是8BS_NUM_CHAR。

整数元素“BS_START”指示所标记部分的开始帧号。

整数元素“BS_LENGTH”指示所标记部分的长度(这里：被以帧的数量表示)。

根据以上伪C句法的比特流示例是“11 0000110101000001 01110010 01110100 00100000 01000111 01100001 01110010 0110011001110101 01101110 0110101101100101 01101100 00101011111100100001100001101010”.

以上示例性比特流规定了：

开始于帧号45000并具有6250帧的持续时间(这里，该部分停止于帧51250)的、具有文本标志“Art Garfunkel”的VOCAL_ENTRY部分。

音频拇指纹比特流句法的第二示例

第二示例基于第一示例并使用来自ISO/IEC 14496-3的extension_payload()机制。extension_payload()机制的句法在ISO/IEC14496-3：2001/FDAM：2003(E)的子条款4.4.2.7中的表4.51中被描述，其通过引用被合并在此。

与ISO/IEC 14496-3：2001/FDAM：2003(E)的子条款4.4.2.7中的表4.51中的extension_payload()的句法相比较，在第二示例中，附加的extension_type被添加到如表2所示的extension_payload()的句法中，即extension_type“EXT_AUDIO_THUMBNAIL”。如果解码器不支持该附加extension_type，一般跳过此信息。在表2中，用于音频拇指纹的附加比特流元素被加上下划线。extension_type“EXT_AUDIO_THUMBNAIL”和元数据“AudioThumbprintData()”相关联，并且“AudioThumbprintData()”的句法示例如表3所示。表3中的“AudioThumbprintData()”的句法类似于表1中的句法。比特流元素“BS_SECTION_ID”、“BS_NUM_CHAR”、“BS_ARTIST_STRING”、“BS_START”以及“BS_LENGTH”的定义与结合表1解释的定义相同。变量“numAuThBits”对与AudioThumbprintData()相关联的附加比特的数量进行计数。

变量“numAlignBits”对应于所需要的填充比特(fillbit)的数量，并被确定为Extension_payload(以字节计的变量“cnt”)中的比特的总数与用于AudioThumbprint(变量“numAuThBits”)和变量“extension type”(指定Extension_payload()中的扩展类型)的比特数之间的差。在给定示例中，“numAlignBits”等于4。“AudioThumbprintData()”返回被读取的字节的总数。

表2：Extension_payload()的句法

表3：AudioThumbprint()的句法

图1示出用于编码时间标记信息的编码器1的示例性实施例。该编码器接收音频信号2。音频信号2可以是经PCM(脉冲码调制)编码的音频信号2或可以是感知编码的音频比特流，诸如MP3比特流、Dolby数字比特流、常规HE-AAC比特流或Dolby脉冲比特流。音频信号2也可以是多媒体传输格式，诸如例如“MP4”(MPEG-4部分14)或先前提到的通过元数据容器(例如“ID3”)扩展的音频比特流格式中的任一个。音频信号2包括诸如音乐片段的音频对象。编码器1进一步接收时间标记数据7，该数据7指示音频对象中的一个或多个部分(诸如，最独特部分)。时间标记信息7可例如通过音乐信息检索(MIR)算法被自动识别或被手工输入。编码器1可进一步接收用于标注所述一个或多个被标记部分的标签信息8。

基于信号2、7和可选的8，编码器1生成包括音频对象并包括时间标记信息的比特流3，该时间标记信息用于标记音频对象中的一个或多个部分。该比特流3可以是MP3比特流、Dolby数字比特流、HE-AAC比特流或Dolby脉冲比特流，其和常规比特流的区别之处在于：该比特流包括时间标记信息和可选的相关联标签信息。比特流3也可以是多媒体传输格式，诸如例如“MP4”(MPEG-4部分14)或先前提到的通过元数据容器(例如“ID3”)扩展的音频比特流格式中的任一个。比特流3可作为音频文件被存储在存储介质(诸如闪存或硬盘)中以用于以后的重放，或可在流应用(如网络无线电)中被流送。

比特流3可包括头部分4。头部分4可包括时间标记元数据部分5，该时间标记元数据部分5具有编码的时间标记信息和相关的标签信息。该时间标记信息可包括一个或多个被标记部分的起始点和结束点，或一个或多个被标记部分的各自的起始点和各自的持续时间。该时间标记元数据部分5可包括在上述的元数据容器中。比特流3进一步包括音频对象6。因此，所述一个或多个部分的时间信息被包括在比特流的元数据中，其使得能够导航到例如音频对象的重要部分。

图2示出了被配置用于解码由编码器1生成的比特流3的解码器10的示例性实施例。解码器10根据比特流3产生音频信号11，诸如PCM音频信号11。解码器10典型地是用于音频重放(具体而言，音乐重放)的用户设备的一部分，该用户设备诸如是没有蜂窝式电话功能的便携式音乐播放器，具有音乐播放功能的蜂窝式手机、笔记本、机顶盒或DVD播放器。用于音频重放的用户设备也可用于组合的音频/视频重放。该解码器10进一步接收选择信号13。取决于选择信号13，解码器10或跳到音频对象的被标记部分并执行该被标记部分的解码，或从音频对象的开始到结束执行音频对象的常规解码。当解码器跳到音频对象的被标记部分时，用户设备在该被标记部分处开始重放。

解码器10可选地可进一步输出经解码的标签信息12，其可被输入到显示驱动器(未示出)以在设备的显示器上显示。

在本文献中描述了在音频数据中用于将时间标记信息编码为元数据的方法和系统。该时间标记信息使得音乐听众可快速识别音频文件的特征部分。

本文中描述的方法和系统可实施为软件、固件和/或硬件。某些组件例如可实施为在数字信号处理器或微处理器上运行的软件。其他组件例如可实施为硬件和/或专用集成电路。在所述方法和系统中遇到的信号可存储在诸如随机访问存储器或光存储介质的介质上。它们可经过诸如无线电网络、卫星网络、无线网络和有线网络(例如互联网)的网络传输。使用本文所述方法和系统的典型设备是便携式电子设备或用于存储和/或提交音频信号的其他用户设备。这些方法和系统也可用在计算机系统(例如因特网网络服务器)上，该计算机系统存储并提供音频信号(例如音乐信号)用于下载。

Claims

1.一种在音频数据中编码时间标记信息的方法，该方法包括：

-编码时间标记信息为所述音频数据中的音频元数据，所述时间标记信息指示所述音频数据中音频对象的至少一个部分。

2.如权利要求1所述的方法，其中所述音频对象是音乐片段。

3.如权利要求1-2中任一项所述的方法，其中所述部分是所述音频对象的特征部分。

4.如权利要求3所述的方法，其中所述音频对象是音乐片段，以及所述部分是合唱、副歌或其部分。

5.如前述权利要求中任一项所述的方法，其中所述时间标记信息指示所述音频对象的多个部分。

6.如权利要求5所述的方法，其中所述音频对象是音乐片段，以及所述多个部分是涉及所述音乐片段的时间音乐结构的不同部分。

7.如权利要求6所述的方法，其中所述多个部分包括如下部分中的至少一个：

-前奏，

-主歌，

-副歌或合唱，

-过渡乐节，或

-独奏。

8.如前述权利要求中任一项所述的方法，其中所述音频对象是音乐片段，以及所述时间标记信息指示如下中的至少一个：

-所述音乐片段中特定乐器或乐器组的出现，

-歌声的出现，

-所述音乐片段的最大声部分，

-主题，

-主导旋律，或

-主题变奏。

9.如前述权利要求中任一项所述的方法，其中所述音频对象是音乐片段，以及所述时间标记信息指示具有特定音乐属性的部分。

10.如权利要求9所述的方法，其中所述音乐属性包括如下中的一种：

-特定节拍，

-特定发音，

-特定曲调，

-特定音调，或

-特定音乐类型或类别。

11.如前述权利要求中任一项所述的方法，其中所述时间标记信息指定所述部分的

-开始位置；和

-结束位置或持续时间。

12.如前述权利要求中任一项所述的方法，所述方法包括：

-在所述音频数据中编码标签信息，所述标签信息标注所述音频对象的至少一个部分。

13.如权利要求12所述的方法，其中所述标签信息被编码为文本标签。

14.如权利要求12或13中任一项所述的方法，其中所述标签信息被编码为表的索引。

15.如前述权利要求中任一项所述的方法，其中所述时间标记信息包括：

-秒值，

-秒值和小数秒值，

-样本数，

-帧数，

-整数帧数和整数样本数，或

-整数帧数和小数帧值。

16.如前述权利要求中任一项所述的方法，其中所述时间标记信息被编码在所述音频数据的头部分中。

17.如权利要求1-15中任一项所述的方法，其中所述时间标记信息被编码在所述音频数据的多个部分中。

18.如权利要求17所述的方法，其中所述多个部分在所述音频数据比特流中以特定出现率出现。

19.如权利要求17或18中任一项所述的方法，其中多个部分的给定部分中的所述时间标记信息相对于所述比特流中所述给定部分的出现而指定。

20.如前述权利要求中任一项所述的方法，其中所述音频数据是用于流应用的比特流。

21.如权利要求20所述的方法，其中所述比特流是无线电比特流。

22.如前述权利要求中任一项所述的方法，进一步包括：

-确定所述时间标记信息，其中所述时间标记信息来自于：

-提取算法或服务，

-外部数据库，或

-手动输入。

23.如前述权利要求中任一项所述的方法，其中所述时间标记信息被编码在元数据容器中。

24.如前述权利要求中任一项所述的方法，其中所述时间标记信息被编码在如下容器中：

-ID3容器或扩展ID3容器，

-MPEG-1或-2层的I、II或III音频数据的辅助数据容器，

-MPEG-2或-4AAC音频数据的扩展有效载荷容器，或

-MPEG-4部分12兼容的元数据容器。

25.一种解码音频数据中的时间标记信息的方法，所述方法包括：

-解码在所述音频数据中提供为音频元数据的时间标记信息，所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。

26.如权利要求25所述的方法，其中所述音频对象是音乐片段。

27.如权利要求25-26中任一项所述的方法，其中所述部分是所述音频对象的特征部分。

28.如权利要求25-27中任一项所述的方法，进一步包括：

-在所述部分的开端开始重放，所述开端由所述时间标记信息指示。

29.如权利要求28所述的方法，进一步包括：

-在所述部分的末端停止重放，所述末端由所述时间标记信息指示；以及

-再次开始在所述部分的所述开端的重放。

30.如权利要求28-29中任一项所述的方法，其中解码所述时间标记信息以及在各个部分的开端的重放对于多个音频对象执行。

31.如权利要求28-30中任一项所述的方法，其中

-所述音频数据中多个音频对象的时间标记信息被解码，以及

-对于多个音频对象，相继地，开始在各个音频对象的各个部分的开端的重放。

32.如权利要求31所述的方法，其中所述音频数据和无线电信道相关。

33.如权利要求32所述的方法，其中所述方法对于多个无线电信道执行。

34.如权利要求28-33中任一项所述的方法，其中：

-使用和多个无线电信道相关的多个比特流，解码多个比特流中的时间标记信息，以及

-对多个比特流的每个，相继地，在由各个比特流的所述时间标记信息指示的至少一个相应部分的开端开始重放。

35.如权利要求25-34中任一项所述的方法，其中所述部分用作铃声或警报信号。

36.如权利要求35所述的方法，其中：

-所述部分被存储在用于重放所述铃声或警报信号的文件中，或

-指示所述部分的所述时间标记信息用于在用于重放所述铃声或警报信号的所述部分的开端开始重放。

37.如前述权利要求中任一项所述的方法，其中包括所述时间标记信息的所述音频数据被存储在文件中。

38.如前述权利要求中任一项所述的方法，其中所述音频对象由感知编码方法进行编码。

39.如权利要求1-25所述的方法，其中编码所述时间标记信息允许向前兼容。

40.一种被配置用于在音频数据中将时间标记信息编码为音频元数据的编码器，所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。

41.一种被配置用于解码在音频数据中提供为音频元数据的时间标记信息的解码器，所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。

42.一种包含根据权利要求41所述的解码器的音频播放器。

43.如权利要求42所述的音频播放器，其中所述音频播放器被配置用于在所述部分的开端开始重放，所述开端由所述时间标记信息指示。

44.一种音频数据，所述音频数据包括作为音频元数据的时间标记信息，所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。

45.一种存储介质，所述存储介质包括包含音频数据的文件，所述音频数据包括作为音频元数据的时间标记信息，所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。