CN1826635A - 音频文件格式转换 - Google Patents

音频文件格式转换 Download PDF

Info

Publication number
CN1826635A
CN1826635A CNA2004800210517A CN200480021051A CN1826635A CN 1826635 A CN1826635 A CN 1826635A CN A2004800210517 A CNA2004800210517 A CN A2004800210517A CN 200480021051 A CN200480021051 A CN 200480021051A CN 1826635 A CN1826635 A CN 1826635A
Authority
CN
China
Prior art keywords
audio data
piece
data stream
definite piece
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800210517A
Other languages
English (en)
Other versions
CN1826635B (zh
Inventor
斯蒂芬·盖耶斯博格
哈拉尔德·格恩哈特
博恩哈特·格利尔
迈克尔·哈尔特尔
约翰·希尔波特
曼弗雷德·卢茨基
马丁·维斯哈特
哈拉尔德·波普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority claimed from PCT/EP2004/007744 external-priority patent/WO2005013491A2/de
Publication of CN1826635A publication Critical patent/CN1826635A/zh
Application granted granted Critical
Publication of CN1826635B publication Critical patent/CN1826635B/zh
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

通过在被划分为具有确定块(14,16)的数据块(10a,10b)和数据块音频数据(18)的音频数据流(10)中修改(56)数据块,诸如例如通过补充或添加或通过替换其一部分,使得数据块包括指示数据块音频数据的数据总量或长度或者指示数据块的数据总量或长度的长度指示,以便获得具有修改的数据块的第二音频数据流,音频数据的操作可以被简化,诸如例如,关于将单独的音频数据流组合成多信道音频数据流或者对音频数据流的通常操作。或者,在确定块(14,10)中具有指向对应于确定块当被分布在不同数据块中的确定块音频数据(44,46)的指针的音频数据流(10)被转换成音频数据流,其中该确定块音频数据(44,46)被组合到相连确定音频数据(48)。然后该相连确定块音频数据(48)能够和它们的确定块一起被包括在自含的信道元素(52a)中。

Description

音频文件格式转换
技术领域
本发明涉及编码音频信号的音频数据流,尤其涉及音频数据在文件格式中的更好的操作,其中与时间标记相关联的音频数据可以分布在不同数据块中,例如在MP3格式的情况中。
背景技术
当一方面要求尽可能少的存储空间,另一方面要求尽可能好地保持音频质量时,MPEG音频压缩是将诸如音乐或电影声音的音频信号以数字格式存储的非常有效的方法。在过去几年中,MPEG音频压缩已经证明是该领域中最成功的解决方案之一。
此时,存在着不同版本的MPEG音频压缩方法。通常,使用某一抽样率对音频信号进行抽样,产生的音频抽样序列分别与重叠时间段或时间标记相关联。然后这些时间标记被单独地提供到,例如,由多相组成的混合滤波器组和改进的离散余弦变换(MDCT),以便抑制混叠效应。实际的数据压缩发生在MDCT系数量化期间。以该方法量化的MDCT系数然后被转换成霍夫曼码字的霍夫曼码,霍夫曼码通过将更短的码字与更频繁出现的系数相关联来产生更进一步的压缩。因此,总的来说,MPEG压缩是有损耗的,然而因为心理声学知识已经以量化DCT系数的方式被结合,所以限制了“听得见的”损耗。
一个广泛使用的MPEG标准是所谓的MP3标准,如在ISO/IEC11172-3和13818-3中描述的。该标准允许将压缩产生的信息损耗与实时传送音频信息的比特率相适应。在其他MPEG标准中,也应该可以实现在信道中以恒定比特率传送压缩数据信号。为了确保甚至在低比特率时在接收解码器端的收听质量是足够的,MP3标准规定MP3编码器具有所谓的比特储存(bit reservoir)。这有以下的含义。通常,由于固定的比特率,MP3编码器应该将每个时间标记编码为具有相同大小的码字块,然后可以在时间段重复率的时间段内以给定比特率传送该块。然而,这将不适应这样的情况:与音频信号的其他部分,诸如具有多个不同乐器的部分,相比,一部分音频信号,诸如在一段音乐中跟随着非常响声音的声音,在质量不变的情况下需要较不精确的量化。因此,MP3编码器不产生简单比特流格式,其中每个时间标记被编码在一个具有对所有帧相同的帧长度的帧中。这样的自含(self-contained)帧可以包括帧首标、边信息和对应于与帧相关的时间标记的主数据,即编码的MDCT系数,其中边信息是告诉解码器如何解码DCT系数的信息,诸如有多少随后的DCT系数是0,以显示哪些DCT系数被连续地包含在主数据中。更确切地,回调指针(backpointer)被包括在边信息或在首标中,指向一个先前帧中主数据内的一个位置。该位置是属于其中包括相应回调指针的帧与其相关联的时间标记的主数据的起点。回调指针显示例如在比特流中主数据的起点偏移的比特数量。根据该时间标记的压缩率有多高,这些主数据的终点可以在任何帧中。因此,单独时间标记的主数据的长度不再固定不变。因此,一个块被编码所使用的比特数可以适应于信号的特性。同时,可以达到恒定的比特率。该技术被称为“比特储存”。通常,比特储存是比特的缓冲,其可以用来提供比通常由恒定输出数据率允许的更多的比特用于编码时间抽样块。比特储存的技术适应了这样的事实:一些音频抽样块可以用比恒定传送率所指定的更少的比特被编码,使得这些块装充比特储存,而其他音频抽样块具有不允许这种高压缩的心理声学特性,使得对于这些块,可用的比特实际上不足以低干扰或无干扰的编码。所需的额外的比特被从比特储存中取出,使得在这样的块期间比特储存被清空。比特储存的技术还在上述标准MPEG层3中被描述。
虽然MP3格式通过提供回调指针而在编码器侧具有优势,但是在解码器侧却存在不可否认的缺点。例如,如果解码器不是从起点而是从中间某一帧开始接收MP3比特流,那么在与该帧相关联的时间标记处的编码音频信号只有在回调指针偶然为0时才被播放,这可能显示,该帧的主数据的起点偶然紧接在首标或边信息之后。然而,通常不是这样的情况。因此,当接收的帧的回调指针首先指向还没有被接收的前一帧时,播放该时间标记处的音频信号是不可能的。在这种情况下,(首先)只能播放下一帧。
当处理通常的由回调指针互相连接并因此不是自含的帧时,在接收器侧发生更多的问题。具有用于比特储存的返回地址的比特流的另一个问题在于,当音频信号的不同信道被单独地MP3编码时,由于与相同的时间标记相关联而在2个比特流中互相附属的主数据可能互相偏移,即具有跨越帧序列的可变偏移,使得这里再一次使将这些单独的MP3流组合成一个多信道音频数据流变难。
此外,需要能够生成简单可管理的MP3兼容多信道音频数据流的简单可能性。根据ISO/IEC标准13818-3的多信道MP3音频数据流需要矩阵运算以便在解码器侧从传送的信道中取回输入信道,以及使用几个回调指针,因此操作复杂。
MPEG 1/2层2音频数据流在它们随后帧的组成以及在帧的结构和排列,即首标、边信息和主数据部分的结构,方面对应于MP3音频数据流,而在具有取决于抽样率和帧与帧之间不同的比特率的准静态帧距离的排列方面,它们由于在编码中缺少回调指针或比特储存而相互不同。音频信号的编码昂贵的以及不昂贵的时间间隔被以相同的帧长度编码。对应于时间标记的主数据与相应的首标一起在各自的帧中。
发明内容
本发明的目的是提供一种将音频数据流转换成另一种音频数据流或反之的方法,使得使用音频数据的操作变得容易,诸如关于将单独音频数据流组合成多信道音频数据流或者一般的音频数据流的操作。
通过根据权利要求1、10、13、14或15所述的方法以及根据权利要求16、18、19、20或21所述的设备来达到该目的。
通过以下方式可以简化音频数据的操作,诸如例如关于将单独音频数据流组合成多信道音频数据流或通常的音频数据流操作:即通过在被分割为具有确定块和数据块数据的数据块的音频数据流中修改数据块,诸如通过完成或添加或代替数据块的部分,使得它们包括指示数据块音频数据的数据量或长度或者数据块的数据量或长度的长度指示符,以便获得具有修改的数据块的第二音频数据流。可选地,在确定块中具有指向与那些确定块相关联、但分布在不同数据块中的确定块音频数据的指针的音频数据流被转换成其中确定块音频数据被组合成相连的确定块音频数据的音频数据流。然后,相连的确定块音频数据和它们的确定块一起可以被包括在自含的信道单元中。
本发明的发现在于,其中一个指针指向各自数据块的确定块音频数据的起点的、基于指针的音频数据流在该音频数据流被操作时易于处理,使得所有确定块音频数据,即涉及相同时间标记或者编码相同音频标记的音频值的音频数据,被组合成相连确定块音频数据的相连块,而相连确定块音频数据与其相关联的各自确定块被添加到其中。以那种方式获得的信道元素在整理或排列它们之后产生新的音频数据流,其中附属于一个时间标记或者编码该时间标记处的音频值或抽样的所有音频数据也被组合到一个信道元素中,使得更加容易处理新的音频数据流。
根据本发明的一个实施例,每个确定块或者每个信道元素在新音频数据流中被修改,诸如通过添加或替换一部分,以获得指示包括在其中的相连音频数据的信道元素的长度或数据量的长度指示,以便容易地对具有可变长度信道元素的新音频数据流解码。有利地,通过使用各自的长度指示来替换对于输入音频数据流的所有确定块相等的、这些确定块的冗余部分来执行修改。该措施能够使得所产生的音频数据流的数据比特率等于其中一个原始音频数据流,而不管与原始基于指针的音频数据流相比的附加长度指示,并且其中还可以获得在新音频数据流中现在实际不需要的回调指针,以能够从新的音频数据流中重构原始音频数据流。
这些确定块的相同冗余部分可以在整个确定块中放置在所产生的新音频数据流之前。在接收器侧,所产生的第二音频数据流因此可以被重新转换成原始的音频数据流,以便使用现有的只能解码原始文件格式的音频数据流的解码器来解码所产生的无指针格式的音频数据流。
根据本发明的另一实施例,将第一音频数据流转换为另一文件格式的第二音频数据流被用来以第一文件格式的几个音频数据流形成多信道音频数据流。与原始音频数据流和指针的纯组合相比,接收侧可管理性被提高了,因为在多信道音频数据流中,附属于时间标记或者包含相连确定块音频数据的所有信道元素通过编码多信道音频信号的信道的同时时间段而获得,即通过编码附属于相同时间标记的不同信道的时间段,可以组合到存取单元。这对于基于指针的音频数据格式来说是不可能的,因为一个时间标记的音频数据可以分布在不同数据块中。将几个音频数据流中的数据块提供给具有长度指示的不同信道就允许在使用存取单元将音频数据流组合成多信道数据流的过程中通过存取单元更好地分析。
此外,本发明来自以下发现:非常容易将上述所产生的音频数据流重新转换成原始文件格式,然后其被现有的解码器解码成音频信号。虽然所产生的信道元素具有不同的长度,并因此有时比原始音频数据流的数据块中可用的长度更长或者有时更短,但是对于播放新的文件格式的音频数据流,根据可能不必要获得的回调指针来偏移或者组合主数据不是必须的,而是其足以增加要产生的原始文件格式的音频数据流的确定块中的比特率指示。其效果是,根据该比特率指示,要被解码的音频数据流中即使最长的信道元素也小于或等于数据块在第一文件格式的音频数据流中所具有的数据块长度。回调指针被设置为0,通过增加随意值(don’t care value)的比特,信道元素被增加到对应于提高的比特率指示的长度。因此,原始文件格式的音频数据流的数据块被产生,其中相应主数据仅仅包含在数据块本身中而不包含在任何其他中。然后,通过使用根据增加的比特指示而增加的比特率,以那种方法被重新转换的第一文件格式的音频数据流可以被提供到现有的用于第一文件格式的音频数据流的解码器。因此,省略了用于重新转换的昂贵的偏移操作,以及不需要用新的解码器代替现有的解码器。
另一方面,根据另一实施例,可以通过在确定块的相同冗余部分上使用包含在所产生的音频数据流的整个确定块中的信息,以恢复被长度指示重写的部分,从而从所产生的音频数据流中取回原始音频数据流。
附图说明
以下将参考附图来描述本发明的优选实施例,如下:
图1是显示具有回调指针的MP3文件格式的示意图;
图2是显示用于将MP3音频数据流转换成MPEG-4音频数据流的结构框图;
图3是根据本发明一个实施例的用于将MP3音频数据流转换成MPEG-4音频数据流的方法的流程图;
图4是显示在图3的方法中通过添加确定块来组合相关联的音频数据的步骤以及修改确定块的步骤的示意图;
图5是根据本发明另一实施例的用于将MP3音频数据流转换成多信道MPEG-4音频数据流的方法的示意图;
图6是将根据图3获得的MPEG-4音频数据流转换回MP3音频数据流以便能够被现有的MP3解码器对其解码的装置的框图;
图7是将根据图3获得的MPEG-4音频数据流重新转换为一个或几个MP3格式的音频数据流的方法的流程图;
图8是根据本发明另一实施例将根据图3获得的MPEG-4音频数据流重新转换为一个或几个MP3格式的音频数据流的方法的流程图;和
图9是根据本发明另一实施例的用于将MP3音频数据流转换成MPEG-4音频数据流的方法的流程图。
具体实施方式
以下将基于实施例参考附图描述本发明,其中一个文件格式的原始音频数据流仅仅示例性地是MP3音频数据流,在该文件格式中回调指针被使用在数据块的确定块中以便指向附属于确定块的主数据的起点;而所产生的音频数据流也仅仅示例性地是MPEG-4音频数据流,所产生的音频数据流由自含的信道元素组成,在该信道元素中附属于各自时间标记的音频数据分别被组合。MP3格式在背景技术阶段所引用的标准ISO/IEC 11172-3和13818-3中有所描述,而MPEG-4文件格式则在标准ISO/IEC 14496-3中有所描述。
首先将参考附图1来简单地描述MP3格式。图1显示了一部分MP3音频数据流10。音频数据流10由一序列帧或数据块组成,对于数据块,在图1中只完整地看到3个,即10a、10b和10c。MP3音频数据流10已经由MP3编码器从音频或声音信号中产生。由数据流10编码的音频信号例如是音乐、语音、其混合物等等。数据块10a,10b和10c分别对应于音频信号被MP3编码器分割到其中的、连续的、可能重叠的时间段中的一个。每个时间段对应于音频信号的时间标记,因此在本说明书中,术语“时间标记”经常用于“时间段”。每个时间段已经被MP3编码器单独地通过例如由多相滤波器组和具有随后的诸如霍夫曼编码的熵编码的改进离散余弦变换组成的混合滤波器组而编码到主数据(main data)中。属于数据块10a-10c所对应的连续3个时间标记的主数据在图1中由12a,12b和12c表示为实际音频数据流10旁边的相连的块。
音频数据流10的数据块10a-10c是等距离地排列在音频数据流10中。这表示,每个数据块10a-10c具有相同的数据块长度或帧长度。此外,帧长度依赖于音频数据流10以其应该实时地至少可播放的比特率,并且依赖于在实际编码之前MP3编码器已经用来抽样音频信号的抽样率。关系在于:抽样率与每个时间标记的固定抽样数量一起显示了时间标记有多长,并且可以从比特率和时间标记期间中计算在该时间期间中可以传送多少比特。
两个参数,即比特率和抽样率,是显示在数据块10a-10c的帧首标14中。因此,每个数据块10a-10c具有其自己的帧首标14。总之,所有对于解码音频数据流重要的信息被存储在每个帧10a-10c中,这样解码器可以在MP3音频数据流10的中间开始解码。
除了在起点处的帧首标14,每个数据块10a-10c还具有边信息部分16和包含数据块音频数据的主数据部分18。边信息部分16紧接在首标14后面。其中包含有对音频数据流10的解码器必要的信息,以便发现与对应于各自数据块的主数据或仅仅是线性排列在序列中的霍夫曼码字的确定块音频数据,并且以正确的方式解码成DCT或MDCT系数。主数据部分18形成每个数据块的终点。
正如在说明书的背景技术部分所描述的,MP3标准支持储存功能。这是通过在图1中以20表示的、包含在边信息部分16内边信息中回调指针而实现的。如果回调指针被设置为0,那么这些边信息的主数据紧接着边信息部分16开始。否则,指针20(main_data_begin)提供在前数据块中用于编码数据块所对应的、其中包括包含回调指针20的边信息16的时间标记的主数据的起点。例如,在图1中,数据块10a与被主数据12a编码的时间标记相关联。在这个数据块10a的边信息16中的回调指针20例如通过提供相对于数据块16a的首标14起点的比特或字节偏移而指向主数据12a的起点,其在流方向22中位于数据块10a之前。这表示,在音频信号的编码过程中,在这个时间点,产生MP3音频数据流10的MP3编码器的比特储存还没有满,而是还可以被装载到回调指针的高度。从数据块10a的回调指针20所指的位置开始,主数据12a被插入到具有等距离分布的首标和边信息对14、16的音频数据流10中。在本例中,主数据12a延伸到稍微超过数据块10a的主数据部分18的一半。在随后的数据块10b的边信息部分16中的回调指针20指向数据块10a中紧接着主数据12a的位置。数据块10c的边信息部分16中的回调指针20也是同样的。
可以看到,附属于时间标记的主数据实际上仅仅位于与该时间标记相关联的数据块中这种情况在MP3音频数据流10中绝对是个例外。更确切地说,数据块大多数分布在一个或几个数据块上,根据储存大小,甚至相应数据块本身不必须位于其中。回调指针值的高度由比特储存的大小限制的。
在参考图1介绍完MP3音频数据流的结构之后,现在将参考图2来描述一种设备,该设备适于将MP3音频数据流转换成MPEG-4音频数据流,或者从音频信号中获得可以容易地被转换成MP3格式的MPEG-4音频数据流。
图2显示了MP3编码器30和MP3-MPEG4转换器32。MP3编码器30包括在其上获得要被编码的音频信号的输入端、以及在其上输出编码输入端上的音频信号的MP3音频数据流的输出端。MP3编码器30根据上述的MP3标准工作。
MP3音频数据流的结构已经参考图1讨论过了,如上所述,MP3音频数据流由固定帧长度的帧组成,帧长度取决于设置的比特率和基础抽样率以及设置的或未设置的填塞字节(padding byte)。MP3-MPEG4转换器32在输入端接收MP3音频数据流,在输出端输出MPEG-4音频数据流,其结构产生自随后描述的MP-MPEG4转换器32的操作模式。转换器32的意义和目的是将MP3音频数据流从MP3格式转换成MPEG-4格式。MPEG-4数据格式具有这样的优点,即所有附属于某个时间标记的主数据被包含在相连存取单元中或者信道元素中,这样操作后者就明显简单了。
图3显示了在由转换器32执行的将MP3音频数据流转换成MPEG-4音频数据流的过程中的单独方法步骤。首先,MP3音频数据流在步骤40中被接收。接收可以包括存储完整音频数据流或仅仅存储其在中间存储器中的当前部分。因此,在转换过程中,接下来的步骤可以在接收过程40期间实时地执行或者在其之后才执行。
然后,在步骤42中,附属于时间标记的所有音频数据或主数据被组合在相连的块中,即用于所有时间标记的块。步骤42在图4中更具体的示意出,其中在该图中,MP3音频数据流的与图1所示元素相似的元素具有相同的或者相似的参考数字,因此省略了这些元素的重复描述。
正如可以从数据流方向22中可以看到,MP3音频数据流10的在图4中更靠左显示的部分比右边部分更早地到达转换器32。在图4中完整地示出了两个数据块10a和10b。附属于数据块10a的时间标记被主数据MD1编码,主数据MD1在图4中被示例性地一部分包含在数据块10a之前的数据块中,另一部分包含在数据块10a中,即包含在数据块的主数据部分18中。对与随后数据块10b相关联的时间标记编码的那些主数据被完全包含在数据块10a的主数据部分18中,并由MD2表示。附属于数据块10b之后的数据块的主数据MD3分布在数据块10a和10b的主数据部分18中。
在步骤42中,转换器42将所有附属的主数据,即所有对同一时间标记编码的主数据,组合成相连的块。以这种方法,主数据MD1的位于数据块10a之前的部分44和位于数据块10a的主数据部分18中的部分46在步骤42之后通过组合一起生成相连的块48。对其他主数据MD2、MD3...执行同样的方法。
为了执行步骤42,转换器32读取数据块10a的边信息16中的指针,然后基于该指针,读取包含在前一数据块的字段18中的数据块10a的确定块音频数据12a的各自第一部分44,即从由指针所确定的位置到当前数据块10a的首标。然后,转换器42读取包含在当前数据块10a的部分18中、并且包括该数据块10a的确定块音频数据的终点的确定块音频数据的第二部分46,从当前音频数据块10a的边信息16的终点开始到下一数据块10b的下一音频数据,这里被称为MD2,的开始,其中随后的数据块10b的边信息16中的指针指向其,转换器32也读取随后的数据块10b的边信息16。将两个部分44和46组合产生如前所述的块48。
在步骤50中,转换器32将相关首标14,包含相关边信息16,添加到所形成的相连块上,以最终形成MP3信道元素52a、52b和52c。因此,每个MP3信道元素52a-c由相应MP3数据块的首标14、同一MP3数据块的随后的边信息部分16以及对首标和边信息所来自于的数据块所对应的时间标记进行编码的主数据的相连块48组成。
产生自步骤42和50的MP3信道元素彼此具有不同的信道元素长度,如双箭头54a-54c所示。应当注意到,MP3音频数据流10中的数据块10a、10b具有固定的帧长度56,但是由于比特储存功能,单独时间标记的主数据的数量在平均值上下变化。
为了更容易解码,以及尤其是在解码器侧分析单独的MP3信道元素52a-52c,首标14H1-H3被修改,以获得各自信道元素52a-52c的长度,即54a-54c。这在步骤56中执行。其中,长度输入被写入对于音频数据流10的所有首标14相同的或冗余的部分中。在MP3格式中,每个首标14首先接收由12比特组成的固定同步字(syncword)。在步骤56中,该syncword被各自信道元素的长度所占用。12比特的syncword足以以二进制形式表示各自信道元素的长度,因此所产生的具有修改的首标h1-h3的MP3信道元素58a-58c的长度不管步骤56而保持不变,即等于54a-54c。通过这种方法,在根据由MP3信道元素58a-58c编码的时间标记的顺序将MP3信道元素58a-58c排列之后,尽管添加了长度指示,只要附加的首标不增加其他开销,音频信息也能够以与原始MP3音频数据流相同的比特率实时地被传送以及被播放。
在步骤58中,为期望的MPEG-4音频数据流产生文件首标,或者对于要产生的数据流不是文件而是流的情况产生流首标(步骤60)。因为,根据本实施例,MPEG-4兼容的音频数据流要被产生,因此根据MPEG-4产生文件首标,其中在这种情况下,文件首标的结构由在上述的MPEG-4标准中定义的函数AudioSpecificConfig确定。到MPEG-4系统的接口由具有值0x40的元素ObjectTypeIndication提供,以及由具有数字29的audioObjectType的指示提供。对应于其在ISO/IEC 14496-3 中的原始定义,特定于 MPEG-4的AudioSpecificConfig被扩展,其中在以下实例中,只考虑AudioSpecificConfig对于本说明书有意义的内容而不考虑其全部。
1 AudioSpecificConfig() {
2 audioObjectType;
3 samplingFrequencyIndex;
4 if(samplingFrequencyIndex==0xf)
5 samplingFrequency;
6 channelConfiguration;
if(audioObjectType==29){
MPEG_1_2_SpecificConfig();
   }
 }
AudioSpecificConfig的上述列表是函数AudioSpecificConfig的普通符号表示,其解码器中用于分析或读取文件首标中的调用参数,即samplingFrequencyIndex、channelConfiguration和audioObjectType,或者显示文件首标如何被解码或者如何被分析的指令。
可以看出,在步骤60中产生的文件首标以audioObjectType的指示开始,其被设置为29(第2行),如上所述。参数audioObjectType向解码器指示数据已经以哪种方式被编码,尤其指示随后可以以哪种方式提取用于编码文件首标的其他信息,下面将介绍。
然后,紧接着是调用参数samplingFrequencyIndex,其指向抽样频率的标准化表格中的某个位置(第3行)。如果索引被设置为0(第4行),那么实现抽样频率的指示,而不指向标准化表格(第5行);
然后,接下来是信道配置的指示(第6行),其以以下将更详细地介绍的方式显示,所产生的MPEG-4音频数据流中包含多少信道,其中与本实施例不同地,也可以将超过一个MP3音频数据流组合到一个MPEG-4音频数据流中,如随后将参考图5介绍的那样。
然后,如果audioObjectType是29,即本情况,那么接下来是包含音频数据流10中MP3帧首标的冗余部分的文件首标AudioSpecificConfig的一部分,即在帧首标14中保持相同的那部分(第8行)。这部分在这里用MPEG_1_2_SpecificConfig()表示,定义该部分的结构的函数。
虽然MPEG_1_2_SpecificConfig的结构也可以从MP3标准中获得,但是因为其对应于在每帧中不变化的MP3帧首标的固定部分,所以其结构在下面示例性的列出:
1 MPEG_1_2_SpecificConfig(channelConfiguration) {
2 syncword
3 ID
4 layer
5 reserved
6 sampling_frequency;
7 reserved
reserved
reserved
if(channelConfiguration==0){
channel configuration description;
   }
  }
在MPEG_1_2_SpecificConfig部分中,在MN3音频数据流中对于各个帧首标14不同的所有比特被设置为0。对于任何情况下的每个帧首标,MPEG_1_2_SpecificConfig的第一个参数是相同的,即在接收MP3音频数据流时用于同步MP3编码器的12比特同步字syncword(第2行)。随后的参数ID(第3行)显示MPEG版本,即1或2,其中版本2对应于标准ISO/IEC 13818-3,版本1对应于标准ISO/IEC11172-3。参数layer(第4行)给出了对对应于MP3标准的层3的指示。下一比特是预留的(第5行),因为其值可以随着帧的变化而变化,并由MP3信道元素传送。该比特可能显示首标之后跟随着CRC变量。下个变量sampling_frequency(第6行)指向具有在MP3标准中定义的抽样率的表格,并由此显示MP3-DCT系数所基于的抽样率。然后,在第7行,又是用于特定应用的比特的指示(预留),第8行第9行都是这样。然后,如果在AudioSpecificConfig的第6行中给出的参数不指向预定的信道配置而是具有值0,则(在第11、12行)是信道配置的明确定义。否则,适用14496-3,子部分1,表格1.11的信道配置。
通过步骤60,尤其是通过在文件首标中提供包含原始MP3音频数据流10的帧首标14中所有冗余信息的元素MPEG_1_2_SpecificConfig,确保了帧首标中的冗余部分在插入简化编码的数据,诸如在步骤56中通过插入信道元素长度,时不导致这些信息在要生成的MPEG-4文件中不可避免的损耗,而是可以借助于MPEG-4文件首标重构这个被修改的部分。
然后,在步骤62中,MPEG-4音频数据流以在步骤60中所产生的MPEG-4文件首标的顺序被输出,信道元素以它们的相关时间标记的顺序被输出,其中完整的MPEG-4音频数据流然后产生MPEG-4文件或者被MPEG-4系统传送。
上述说明涉及一个MP3音频数据流转换成MPEG-4音频数据流。但是,如图2中虚线所示,也可以将来自2个MP3编码器的两个或更多MP3音频数据流,即30和30′,转换成MPEG-4多信道音频数据流。在该情况下,MP3-MPEG-4转换器32接收所有编码器30和30′的MP3音频数据流,并输出MPEG-4格式的多信道音频数据流。
图5在上半部分根据图4表示了以哪种方式可以获得根据MPEG-4的多信道音频数据流,其中由转换器32执行转换。3个信道元素序列70、72和74被示出,其是由MP3编码器30或30′根据步骤40-56从音频信号中产生的(图2)。从每个信道元素序列70、72和74,分别显示两个信道元素,即70a、70b、72a、72b或74a、74b。在图5中,重叠放置的信道元素,这里为70a-74a或70b-74b,分别与相同的时间标记相关联。信道元素序列70例如编码根据适当的标准被左前、右(前方)地记录的音频信号,而序列72和82编码表示从其他方向或者以另一频谱接受相同音频源的音频信号,诸如中央前方扬声器(中间)和从右后和左(环绕)。
如箭头76所示,这些信道元素在输出过程中(比较图3的步骤62)在MPEG-4音频数据流中被组合成单元,以下称为存取单元78。因此,在MPEG-4音频数据流中,存取单元78中的数据总是与时间标记相关。存取单元78中的MP3信道元素70a、72a和74a的排列,这里以前面、中央和环绕信道的顺序,被考虑在文件首标中,如为要产生的MPEG-4音频数据流所产生那样(比较图3步骤60),通过相应地设置AudioSpecificConfig中的调用参数信道配置,其中为此参考ISO/IEC 14496-3中的子部分1。存取单元78在MPEG-4流中又根据时间标记的顺序被连续排列,并且在它们前面设置MPEG-4文件首标。参数channelConfiguration被适当地设置在MPEG-4文件首标中,以便显示存取单元中信道元素的顺序或者其在解码器侧的意义。
如图5的上述描述所示,如果如根据本发明所提议的那样,MP3音频数据流被处理,以便从其中对于一个时间标记的所有数据被包含在一个信道元素中的数据块中获得自含的信道元素,则非常容易将MP3音频流组合成多信道音频数据流,其中各个信道的这些信道元素然后可以以简单的方式被组合到存取单元。
上述描述涉及将一个或几个MP3音频数据流转换成一个MPEG-4音频数据流。然而,本发明的一个重要发现在于,可以利用所产生的MPEG-4音频数据流的所有优点,诸如各个自含的MP3信道元素在相同传输率时更好的可管理性以及多信道传送的可能性,而不必须将现有的MP3编码器完全用新的解码器代替,而是重转换或反向转换同样可以没有任何问题被执行,使得在解码上述MPEG-4音频数据流的过程中同样可以使用。
在图6中,显示了MP3重构器100和MP3解码器102、102′...的布置,其中MP3重构器100的操作模式将在下面详细描述。MP3重构器100在输入端接收MPEG-4音频数据流,如根据前述一个实施例所产生的,并输出一个,或者在多信道音频数据流的情况下输出几个MP3音频数据流到一个或几个MP3解码器102,102′...,MP3解码器解码各自所接收的MP3音频数据流为各自的音频信号,并将其传递给根据信道配置而布置的相应扬声器。
重构根据图5所产生的MPEG-4多信道音频数据流的原始MP3音频数据流的一种特别简单的方法将参考图5和图7来描述,其中这些步骤是由图6的MP3重构器执行的。
首先,MP3重构器100在步骤110中,通过根据AudioSpecificConfig检查文件首标中的调用参数audioObjectType是否包含值29,验证在输入端接收的MPEG-4音频数据流是重定格式的MP3音频数据流。如果是这样的情况(在AudioSpecificConfig的第7行),那么MP3重构器100继续分析MPEG-4音频数据流的文件首标,并从部分MPEG_1_2_SpecificConfig中读取从其中获得MPEG-4音频数据流的原始MP3音频数据流的所有帧首标的冗余部分(步骤112)。
在评估MPEG_1_2_SpecificConfig之后,MP3重构器100在步骤114中在那里的首标hF、hC、hS中的每个信道元素74a-74c中将信道元素的一个或几个部分替换成MPEG_1_2_SpecificConfig的组成成分,尤其是将信道元素长度指示替换为来自MPEG_1_2_SpecificConfig的同步字,以便重新获得原始的MP3音频数据流帧首标HF、HC和HS,如箭头116所示。在步骤118中,MP3重构器100在MPEG-4音频数据流中在每个信道元素中修改边信息Sf、Sc和Ss。特别地,回调指针被设置为0,以便获得新的边信息S′F、S′C和S′S。根据步骤118的操作在图5中由箭头120表示。然后,在步骤122中,MP3重构器100在每个信道元素74a-74c中将在步骤114中配置有同步字来代替信道元素长度指示的帧首标HF、HC、HS中的比特率索引设置为最高允许值。最后,所产生的首标不同于原始的那些,其在图5中由撇号表示,即H′F、H′C和H′S。根据步骤122的信道元素的操作也由箭头116表示。
为了再一次示出步骤114-122的变化,在图5中,为首标H′F和边索引部分S′F列出各个参数。在124中,显示了首标H′F的各个参数。帧首标H′F开始于参数syncword。Syncword被设置为原始值(步骤114),如其在每个MP3音频数据流中的情况一样,即设置为值0xFFF。通常,帧首标H′F,如根据步骤114-122所产生的,与原始MP3帧首标,如在原始MP3音频数据流10中所包含的,的不同之处只在于,比特率索引被设置为最高允许值,这根据MP3标准是0xE。
改变比特率索引的意义和目的在于,为新的要产生的MP3音频数据流获得大于从其中产生具有存取单元78的MPEG-4音频数据流的原始MP3音频数据流的帧长度或数据块长度的新的帧长度或数据块长度。这里,窍门在于,MP3格式中以字节为单位的帧长度总是依赖于比特率,即根据公式:
对于MPEG 1 layer 3:
帧长度[Bit]=1152*比特率[Bit/s]/抽样率[Bit/s]+
+8*paddingbit[Bit]
对于MPEG 2 layer 3:
帧长度[Bit]=576*比特率[Bit/s]/抽样率[Bit/s]+
+8*paddingbit[Bit]
换句话说,根据标准,MP3音频数据流的帧长度直接与比特率成比例,间接与抽样率成比例。作为附加值,填塞比特的值被添加,其在MP3帧首标hF、hC、hS中被提供,并且能够被用来精确地设置比特率。抽样率是固定的,因为其确定以什么样的速度来播放被解码的音频信号。相对于原始设置转换比特率就允许将这些MP3信道元素74-74c设置在要产生的新MP3音频数据流的比原始情况长的数据块长度中,因为为了产生原始音频数据流,通过从比特储存中提取比特来产生主数据。
因此,虽然在本实施例中,比特率索引总是被设置为最高允许值,但还是可能将比特率索引提高到足以产生依据MP3标准的数据块长度的值,使得即使最长的MP3信道元素74a-74c也适合于该长度。
在126中,显示了回调指针main data begin在所产生的边信息中被设置为0。这仅仅表示在根据图7的方法所产生的MP3音频数据流中,数据块总是自含的,使得对于某个帧首标和边信息的主数据总是直接在边信息之后开始并且还在同一数据块中结束。
对每个信道元素执行步骤114、118、122,这是通过从它们的存取单元中分别提取它们,其中信道元素长度指示在提取过程中是有用的。
然后,在步骤128中,如此多的填充数据或者随意比特被添加到每个信道元素74a-74c,以便将所有MP3信道元素的长度统一地增加、大到MP3数据块长度,如通过新比特率索引0xE所设置的。这些填充数据在图5中显示为128。对于每个信道元素,可以例如通过评估信道元素长度指示和填塞比特,计算填充数据的总量。
然后,在步骤130中,图5中用74a′-74c′所示的、根据前面步骤修改的信道元素,作为MP3音频数据流的数据块,以被编码的时间标记的顺序被传递到相应的MP3解码器或者MP3解码器实体134a-134c。MPEG-4文件首标被省略。所产生的MP3音频数据流在图5中一般地由132a、132b和132c表示。MP3解码器实体134a-134c例如之前已经被初始化,即与信道元素相同的数量被包括在各个存取单元中。
通过分析MPEG-4音频数据流的AudioSpecificConfig中的调用参数channelConfiguration,MP3重构器100知道MPEG-4音频数据流的存取单元78中哪些信道元素74a-74c属于哪个要产生的MP3音频数据流132a-132c。因此,连接到前面扬声器的MP3解码器实体134a获得对应于前面信道的音频数据流132a,相应地,MP3解码器实体134b和134c获得与中央和环绕信道相关联的音频数据流132b和132c,并输出由此产生的音频信号到相应设置的扬声器,即例如传输到超低音扬声器(subwoover)或者设置在左后和右后的扬声器。
当然,对于通过具有解码器实体102、102′的图6设备或134a-134c来对MPEG-4音频数据流实时编码,需要以在步骤122中提高的、高于原始MP3音频数据流10中比特率的比特率来传送新产生的MP3音频数据流132a-132c,但是其没有问题,因为MP3重构器100和MP3解码器102、102′或134a-134c之间的布置是固定的,因此这里传送路径可以以低成本和努力,相应短地、以及以相应的高数据率来设计。
根据参考图7所描述的实施例,根据图5由原始MP3音频数据流10所获得的MPEG-4多信道音频数据流没有被准确地反向转换成原始MP3音频数据流,而是由其产生其他MP3音频数据流,其中与原始音频数据流相比,所有回调指针被设置为0,比特率索引被设置为最高值。这些新产生的MP3音频数据流的数据块因此也是自含的,因为所有与某个时间标记相关联的数据被包括在同一数据块74′a-74′c中,并且填充数据被用来将数据块长度增长到统一的值。
图8显示了一种方法的实施例,根据该方法,可以将根据图1-5的实施例所产生的MPEG-4音频数据流重新反向转换成原始MP3音频流或者原始MP3音频数据流。
在该情况下,MP3重构器100又在步骤150中,与在步骤110中完全一样地,检查MPEG-4音频数据流是否是重定格式的MP3音频数据流。随后的步骤152和154也对应于图7的程序的步骤112和114。
但是,不是改变边信息中的回调指针以及帧首标中的比特率索引,而是MP3重构器100根据图8的方法在步骤156中基于抽样率、比特率和填塞比特,重构被转换成MPEG-4音频数据流的原始MP3音频数据流中的原始数据块长度。抽样率和填塞指示在MPEG_1_2_SpecificConfig中被提供,比特率则在每个信道元素中提供,如果后者对于不同帧是不同的。
用于计算原始的和要重构的MP3音频数据流的原始帧长度的公式也如上所述:
对于MPEG 1 layer 3:
帧长度[Bit]=1152*比特率[Bit/s]/抽样率[Bit/s]+
+8*paddingbit[Bit]
对于MPEG 2 layer 3:
帧长度[Bit]=576*比特率[Bit/s]/抽样率[Bit/s]+
+8*paddingbit[Bit]
然后,通过以所计算的数据块长度的间隔设置来自各个信道的各个帧首标,并且通过插入位于由边信息中的指针所指示的位置处的音频数据或主数据来填充中间空隙,生成MP3音频数据流或多个MP3音频数据流。不同于图5或图7的实施例,与各个首标或各个边信息相关联的主数据被插入MP3音频数据流中,其从由回调指针所指示的位置处开始。或者换句话说,动态主数据的起点对应于main_data_begin的值。MPEG-4文件首标被省略。所产生的MP3音频数据流或者所产生的多个MP3音频数据流对应于原始MP3音频数据流,如其基于MPEG-4音频数据流。这些MP3音频数据流因此能够被传统的MP3解码器解码成音频信号,如图7的音频数据流。
考虑到之前的描述,应当注意到,被描述为单信道MP3音频数据流的MP3音频数据流在一些位置上实际上已经是根据ISO/IEC标准13818-3定义的两信道MP3音频数据流,其中但是这里在说明书中不对其详细描述,因为对于理解本发明,其不会改变任何东西。没有讨论来自传送信道的用于在解码器侧取回输入信道的矩阵运算以及在这些多信道信号中使用多个回调指针,但是引用了各自的标准。
上述实施例使得可以以改变的形式在MPEG-4文件格式中存储MP3数据块。MPEG-1/2-Audio-layer-3、短MP3或者从其中得到的诸如MPEG2.5或mp3PRO的合适格式可以基于这些程序被打包到MPEG-4文件中,使得该新的表示以简单的方法表示任意数量信道的多信道表示。使用来自标准ISO/IEC 13818-3的复杂且很少使用的方法不是必需的。特别地,MP3数据块被这样打包,使得每个块-信道元素或存取单元-附属于被限定的时间标记。
在上述用于改变数字信号表示格式的实施例中,部分表示已经被其他数据重写。换句话说,对于解码器必需的或有用的信息被写在MP3数据块的对于数据流中不同块恒定不变的部分上。
通过将几个单耳道或立体声数据块打包到MPEG-4文件格式的存取单元,也可以获得多信道表示,其与来自标准ISO/IEC 13818-3的表示相比更容易处理。
在之前的实施例中,MP3数据块的表示已经被这样改变地格式化,使得所有附属于某个时间标记的数据也被包括在一个存取单元中。在MP3数据块中通常不是这样的情况,因为原始MP3数据块中的元素main_data_begin或回调指针可以指向较早的数据块。
原始数据流的重构同样可以被执行(图8)。这表示,如图所示,被恢复的数据流能够被每个相配的解码器处理。
此外,上述实施例允许编码或解码多于两个信道。而且,在上述实施例中,编码后的MP3数据只需要通过简单的操作就被重定格式,以便获得多信道格式。另一方面,在编码器侧,只有该操作或这些操作必须被反向执行。
虽然MP3数据流通常包括不同长度的数据块,但是由于附属于一个块的动态数据可以被打包到之前的块,所以上述实施例将动态数据直接打包在边信息之后。所产生的MPEG-4数据流具有恒定的中等比特率,但是具有不同长度的数据块。元素main_data_begin或者回调指针不被改变地被传送,以便确保原始数据流的恢复。
此外,参考图5,描述了MPEG-4语法的扩展,以将过个MP3数据块作为MP3信道元素打包到MPEG-4文件中的一个多信道格式。所有附属于一个时间点的MP3信道元素条目被打包到一个存取单元。对应于MPEG-4标准,用于配置的编码器侧适当信息可以从所谓的AudioSpecificConfig中获取。除了audioObjectType、抽样率和信道配置等等之外,它还包括与各个audioObjectType相关的描述符。该描述符已经在上面参考MPEG_1_2_SpecificConfig描述过了。
根据上述实施例,首标中的12比特MPEG-1/2-syncword被各个MP3信道元素的长度代替。根据ISO/IEC 13818-3,12比特对此是足够的。剩余的首标不再被修改,然而,其可以实现,以例如缩短帧首标以及除了syncword的剩余冗余部分,从而减小要传送的信息的总量。
可以很容易实现上述实施例的各种不同变体。因此,图3、7、8中步骤的顺序可以改变,尤其是图3、11中的步骤42、50、56、60;图7中的114、118、122和128;以及图8中的152、154、156。
此外,关于图3、7、8,应当注意到,所示步骤由图2或6的转换器或重构器的相应特征来执行,其可以例如实现为计算机或硬线电路。
在图7的实施例中,在接收器或解码器侧为MP3解码器实现对与原始MP3数据流相比略微改变的MP3数据流的首标或边信息操作(步骤118、122)。在许多应用情况中,有利的是,在编码器或发送器侧执行这些步骤,因为接收器设备通常是大规模生产的产品,使得接收器侧电子元件的节省能够显著提高增益。因此,根据一个可选实施例,可以规定:这些步骤已经在MP3-MPEG4格式转换中被执行。根据该可选的格式转换方法的这些步骤在图9中示出,其中与图3中的步骤相同的步骤以相同的参考数字表示,并且不再介绍,以避免重复。
首先,在步骤40中接收要转换的MP3音频数据流,在步骤42中,附属于时间标记的或者表示对由附属于各自时间标记的MP3音频数据流所编码的音频信号的时间段进行编码的音频数据被组合为相连块,即对于所有时间标记。首标又被添加到相连块,以便获得信道元素(步骤50)。然而,不仅仅如步骤56中的那样通过将同步字用各自信道元素的长度替换来改变首标。而是,在对应于图7的步骤118和122的步骤180和182中,进行其他修改。即,在步骤180中,每个信道元素的边信息中的指针被设置为零,并且在步骤182中,每个信道元素的首标中的比特率索引被这样改变,使得,如上所述,依赖于比特率的MP3数据块长度足以包括该信道元素或相应时间标记的所有音频数据与首标的大小以及边信息。步骤182也包括转换连续的信道元素的首标中的填塞比特,以便随后在将由图9的方法所形成的MPEG-4音频数据流馈送给根据图7的但是没有步骤118和122的方法而工作的解码器时产生准确的比特率。填塞当然也可以在步骤128中在解码器侧执行。
在步骤182中,以下是有用的,即如参考步骤122所述,不将比特率索引设置为最高可能值。该值还可以被设置为足以接受所有音频数据、首标和所计算的MP3帧长度的信道元素的边信息的最小值,这可以表示,在被编码音频片段的短的、可以以少量系数编码的章节的情况下,比特率索引被减小。
在这些修改之后,在步骤60和62中,仅仅产生文件首标(AudioSpecificConfig),以及将其与MP3信道元素一起作为MPEG-4音频数据流被输出。如上所述,其可以根据图7的方法被播放,但是其中省略了步骤118和122,这使得在解码器侧的实现变得简单。然而,步骤42、50、56、180、182和60可以以任何顺序被执行。
上述描述仅仅示例性地涉及具有固定数据块比特长度的MP3数据流。但是,具有可变数据块长度的MP3数据流也可以根据上述实施例被处理,其中比特率索引对于不同帧是变化的,并且因此数据块长度也随着帧的变化而变化。
上述描述涉及MP3音频数据流。在其他非基于指针的音频数据流中,本发明的一个实施例规定修改示例性的一个MPEG 1/2层2音频数据流的数据块中的首标,其中该数据块除了首标之外还包含相应的边信息和相应的音频数据,并因此是自含的,以便产生MPEG-4音频数据流。修改为每个首标设置用于指示各个数据块的或者各个数据块中音频数据的数据量的长度指示,因此可以更容易解码MPEG-4数据流,尤其是在来自多个MPEG 1/2层2音频数据流的MPEG-4数据流被组合成多信道音频数据流时,与上述关于图5的描述相似。优选地,与上述方法相似,通过将MPEG 1/2层2数据流的首标中的syncword或其另一冗余部分替换为长度指示,实现修改。在图5之前通过组合附属于一个时间标记的音频数据而已经实现的指针重定格式或分解在层2数据流中被省略,因为那里不存在回调指针。通过读取长度指示,以及基于其而快速存取存取单元中的各个信道元素,由表示多信道音频数据流的两个信道的两个MPEG 1/2层音频数据流所组成的MPEG-4音频数据流的解码很简单。其然后可以被传送到传统的MPEG 1/2层2兼容的解码器。
此外,对于本发明来说,回调指针确切地在基于指针的音频数据流的数据块中什么地方是不重要的。而且,其可以直接在帧首标中,以便以其定义相连的确定块。
特别地,应当注意到,根据条件,根据本发明的文件格式转换方案也可以用软件实现。该实现可以在数字存储器介质上实现,尤其是磁盘或者具有电子可读控制信号的CD,其可以与可编程计算机系统互相协作,从而执行相应方法。因此,通常,本发明还包括具有存储在机器可读载体上的程序代码的计算机程序产品,用于当计算机程序产品在计算机上运行时执行本发明的方法。换句话说,本发明还可以实现为计算机程序,该计算机程序具有当在计算机上运行该计算机程序时用于执行该方法的程序编码。

Claims (22)

1.一种将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流(10)转换为表示所述被编码音频信号并具有第二文件格式的第二音频数据流的方法,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块包括确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包含指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,所述方法包括以下步骤:
组合来自至少两个数据块的对应于一个确定块的确定块音频数据(44,46),以便获得形成所述第二音频数据流的一部分的相连确定块音频数据(48)。
2.如权利要求1的方法,还包括步骤:
向所述相连确定块音频数据(48)添加从中获得所述相连确定块音频数据的确定块音频数据(44,46)所对应的确定块(14,16),以便获得信道元素(52a);和
排列所述信道元素,以便获得所述第二音频数据流。
3.如权利要求2的方法,还包括步骤:
修改(56)所述信道元素(54a-54c),使得所述信道元素(54a-54c)包含指示所述信道元素(54a-54c)的数据总量或所述相连确定块音频数据的数据总量的长度指示。
4.如权利要求3所述的方法,其中所述修改步骤包括将对于所有确定块相同的、冗余的部分替换(56)为所述长度指示。
5.如权利要求1到4任何之一所述的方法,还包括步骤:
在所述第二音频数据流之前放置(60,62)一个总确定块,其中所述总确定块具有对于所有确定块相同的、冗余的部分。
6.如之前任何一个权利要求所述的方法,其中所述组合步骤包括以下子步骤:
读取确定块中的指针;
读取所述确定块音频数据的第一部分,其中所述第一部分被包含在所述至少两个数据块其中之一的数据块音频数据中,并且包括所述确定块的指针所指向的确定块音频数据的起点;
读取所述确定块音频数据的第二部分,其中所述第二部分被包括在所述至少两个数据块中另一块的数据块音频数据中,并且包括所述确定块音频数据的终点;和
组合所述第一部分和第二部分。
7.一种将表示被编码第一音频信号的第一音频数据流和表示被编码第二音频信号的第二音频数据流组合成多信道音频数据流的方法,包括以下步骤:
根据权利要求2到6或10到12之一的方法,将所述第一音频数据流转换成第一子音频数据流;和
根据权利要求2到6或10到12之一的方法,将所述第二音频数据流转换成第二子音频数据流,
其中这样执行所述排列步骤,使得所述两个子音频数据流一起形成第二音频数据流,并且在所述第二音频数据流中,包含通过编码同时的时间段而获得的相连确定块音频数据的、所述第一子音频数据流的信道元素(70a)和所述第二子音频数据流的信道元素(72a)被连续的设置在相连存取单元(78)中。
8.如权利要求7所述的方法,还包括步骤:
在所述第二音频数据流之前放置一个总确定块,其中所述总确定块包含格式指示,用于指示所述第一子音频数据流和所述第二子音频数据流(70b)的信道元素(70a)什么顺序设置在所述存取单元(78)中。
9.如前面的权利要求之一所述的方法,其中所述数据块是相同大小或预定可变大小的数据块,其中所述大小取决于所述确定块中的抽样率指示和比特率指示。
10.一种将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流转换为表示所述被编码音频信号并具有第二文件格式的第二音频数据流的方法,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块,其中数据块包括确定块和数据块音频数据,所述方法包括步骤:
修改所述数据块,使得所述数据块包含指示所述数据块的数据总量或所述数据块音频数据的数据总量的长度指示,以便从所述数据块中获得形成所述第二音频数据流的信道元素。
11.如权利要求10所述的方法,其中所述修改步骤包括将对于所有确定块相等的、冗余的部分替换为所述长度指示。
12.如权利要求1到6之一所述的方法,还包括步骤:
重置(180)所述确定块中的指针,使得所述指针提供所述确定块音频数据的起点,所述确定块音频数据紧接着相应确定块之后开始;和
改变(182)所述确定块中的比特率指示,使得根据所述第一音频文件格式,依赖于比特率指示的数据块长度足以接受相应的确定块和相应的确定块音频数据。
13.一种基于能够将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流解码成音频信号的解码器来对表示所述被编码音频信号并具有第二文件格式的第二音频数据流(10)进行解码的方法,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包括指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而获得的相连确定块音频数据(44,46)和相应的确定块,所述方法包括步骤:
通过以下步骤从所述第二音频数据流中形成表示所述被编码音频信号并具有第一文件格式的输入数据流:
重置所述第二音频数据流的信道元素的确定块中的指针,使得所述指针显示为所述确定块音频数据的起点,所述确定块音频数据紧接着相应确定块之后开始,以便获得被重置的确定块;
提高所述第二音频数据流的信道元素的确定块中的比特率指示,以便获得比特率提高的和被重置的确定块;和
在每个信道元素和随后的信道元素之间插入比特,使得每个信道元素加上被插入的比特的长度适合于所述提高的比特率指示,和
根据所述提高的比特率指示将所述输入数据流提供给所述解码器,以便获得音频信号。
14.一种将表示包括时间段的被编码音频信号具有第二文件格式的第二音频数据流(10)转换成表示所述被编码音频信号并具有第一文件格式的第一音频数据流的方法,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包括指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而获得的相连确定块音频数据(44,46)和相应的确定块,所述方法包括步骤:
基于信道元素中的确定块确定重构的数据块比特长度;
以重构的数据块比特长度为间隔排列所述第二音频数据流中的确定块;和
根据所述第二音频数据流中的确定块中的指针来插入每个信道元素的相连确定块音频数据,以便通过将相连确定块音频数据分割为两个数据块的数据块音频数据而获得具有确定块和数据块音频数据的数据块。
15.一种基于能够将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流解码成音频信号的解码器,将表示所述被编码音频信号并具有第二文件格式的第二音频数据流(10)进行解码的方法,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包含指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而获得的相连确定块音频数据(44,46)和相应的确定块,并且其中在所述第二音频数据流中,所述确定块中的指针被重置,使得所述指针显示为所述确定块音频数据的起点,所述确定块音频数据紧接着相应确定块之后开始,并且所述确定块中的比特率指示在所述第二音频数据流中被这样改变,使得根据所述第一音频文件格式,依赖于比特率指示的数据块长度足以接受相应的确定块和相应的确定块音频数据,所述方法包括以下步骤:
通过以下步骤从所述第二音频数据流中形成表示所述被编码音频信号并具有第一文件格式的输入数据流:
在每个信道元素和随后的信道元素之间插入比特,使得每个信道元素加上所述被插入的比特的长度适合于被改变的比特率指示,和
根据所述被改变的比特率指示,将所述输入数据流馈送到所述解码器,以便获得所述音频信号。
16.一种将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流(10)转换为表示所述被编码音频信号并具有第二文件格式的第二音频数据流的设备,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块包括确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包括指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,所述设备包括:
用于组合来自两个数据块的对应于一个确定块的确定块音频数据(44,46)以便获得形成所述第二音频数据流的一部分的相连确定块音频数据(48)的装置。
17.如权利要求14的设备,还包括:
用于向所述相连确定块音频数据(48)添加(50)从中获得所述相连确定块音频数据的确定块音频数据(44,46)所对应的确定块(14,16)以便获得信道元素(52a)的装置;和
用于排列所述信道元素以便获得所述第二音频数据流的装置。
18.一种用于基于能够将表示包括时间段的被编码信号并具有第一文件格式的第一音频数据流解码成音频信号的解码器来对表示所述被编码音频信号并具有第二文件格式的第二音频数据流(10)进行解码的设备,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过编码时间段而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包含指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而获得的相连确定块音频数据(44,46)和相应的确定块,所述设备具有以下特征:
用于通过以下步骤从所述第二音频数据流中形成表示被编码音频信号并具有第一文件格式的输入数据流的装置:
重置所述第二音频数据流的信道元素的确定块中的指针,使得指针显示为所述确定块音频数据的起点,所述确定块音频数据紧接着相应确定块之后开始,以便获得被重置的确定块;
提高所述第二音频数据流的信道元素的确定块中的比特率指示,以便获得比特率提高的并且被重置的确定块;和
在每个信道元素和随后的信道元素之间插入比特,使得每个信道元素加上所插入的比特的长度适合于所述比特率指示,和
用于根据所述被提高的比特率指示将所述输入数据流馈送到所述解码器以便获得所述音频信号的装置。
19.一种将表示包括时间段的被编码音频信号并具有第二文件格式的第二音频数据流(10)转换成表示所述被编码音频信号并具有第一文件格式的设备,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过对时间段编码而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包括指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而得到的相连确定块音频数据(44,46)和相应的确定块,所述设备具有以下特征:
用于基于信道元素中的确定块确定被重构的数据块比特长度的装置;
用于以被重构的数据块比特长度为间隔排列所述第二音频数据流中的确定块的装置;和
用于根据所述第二音频数据流中的确定块中的指针来插入每个信道元素的相连确定块音频数据,以便通过将所述相连确定块音频数据分割为两个数据块的数据块音频数据而获得具有确定块和数据块音频数据的数据块的装置。
20.一种将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流转换为表示所述被编码音频信号并具有第二文件格式的第二音频数据流的设备,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块,其中数据块包括确定块和数据块音频数据,所述设备包括以下特征:
用于修改所述数据块,使得所述数据块包括指示所述数据块的数据总量或所述数据块音频数据的数据总量的长度指示,以便从所述数据块中获得形成所述第二音频数据流的信道元素的装置。
21.一种基于能够将表示包括时间段的被编码音频信号并具有第一文件格式的第一音频数据流解码成音频信号的解码器来对表示所述被编码音频信号并具有第二文件格式的第二音频数据流(10)进行解码的设备,其中一个时间段包括多个音频值,并且其中根据所述第一文件格式,所述第一音频数据流被划分为连续的数据块(10a-10c),其中数据块具有确定块(14,16)和数据块音频数据(18),其中通过对时间段编码而获得的确定块音频数据对应于所述确定块(14,16),其中所述确定块包括指向所述确定块音频数据(12a-12c)的起点的指针,并且其中所述确定块音频数据(12a-12c)的终点位于所述音频数据流中对应于下一数据块的确定块音频数据(12b,12c)的起点之前,并且其中根据所述第二文件格式,所述第二音频数据流被划分为信道元素,其中信道元素包括通过组合来自两个数据块的对应于一个确定块的确定块音频数据而得到的相连确定块音频数据(44,46)和相应的确定块,并且其中在所述第二音频数据流中,所述确定块中的指针被重置,使得所述指针显示为所述确定块音频数据的起点,所述确定块音频数据紧接着相应确定块之后开始,并且所述第二音频数据流中的确定块中的比特率指示被这样改变,使得根据所述第一音频文件格式,依赖于比特率指示的数据块长度足以接受相应的确定块和相应的确定块音频数据,所述设备具有以下特征:
用于通过以下步骤从所述第二音频数据流中形成表示所述被编码音频信号并具有第一文件格式的输入数据流的装置:
在每个信道元素和随后的信道元素之间插入比特,使得每个信道元素加上所插入的比特的长度适合于所述被改变的比特率指示,和
用于根据所述被改变的比特率指示将所述输入数据流馈送到所述解码器以便获得所述音频信号的装置。
22.一种计算机程序,具有程序代码,用于在所述计算机程序被运行在计算机上时执行根据权利要求1、10、13、14或15的方法。
CN2004800210517A 2003-07-21 2004-07-13 音频文件格式转换 Active CN1826635B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE10333071 2003-07-21
DE10333071.2 2003-07-21
DE10339498.2 2003-08-27
DE10339498A DE10339498B4 (de) 2003-07-21 2003-08-27 Audiodateiformatumwandlung
PCT/EP2004/007744 WO2005013491A2 (de) 2003-07-21 2004-07-13 Audiodateiformatumwandlung

Publications (2)

Publication Number Publication Date
CN1826635A true CN1826635A (zh) 2006-08-30
CN1826635B CN1826635B (zh) 2010-11-03

Family

ID=34111624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800210517A Active CN1826635B (zh) 2003-07-21 2004-07-13 音频文件格式转换

Country Status (5)

Country Link
CN (1) CN1826635B (zh)
DE (1) DE10339498B4 (zh)
ES (1) ES2649728T3 (zh)
IL (1) IL173223A (zh)
PT (1) PT1647010T (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768834A (zh) * 2012-03-21 2012-11-07 新奥特(北京)视频技术有限公司 一种实现音频帧解码的方法
CN104781878A (zh) * 2012-11-07 2015-07-15 杜比国际公司 复杂度降低的转换器snr计算
CN106104679A (zh) * 2014-04-02 2016-11-09 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
CN111512634A (zh) * 2017-12-28 2020-08-07 索尼公司 信息处理装置、信息处理方法和程序

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100194928B1 (ko) * 1995-09-29 1999-06-15 윤종용 디스크 구동시스템의 오디오 신호 디코딩 장치 및 방법
CN100437528C (zh) * 1999-12-03 2008-11-26 松下电器产业株式会社 数据自适应装置、数据自适应方法
CN1463441A (zh) * 2001-04-20 2003-12-24 皇家菲利浦电子有限公司 Mp3的特技播放
EP1428215A1 (en) * 2001-04-20 2004-06-16 Koninklijke Philips Electronics N.V. Method and apparatus for editing data streams
AU2002305012A1 (en) * 2001-05-24 2003-01-21 Vixs Systems Inc. Method and apparatus for managing resources and multiplexing a plurality of channels in a multimedia system
JP4197230B2 (ja) * 2002-02-13 2008-12-17 パイオニア株式会社 フォーマット変換装置、フォーマット変換方法、フォーマット変換処理プログラムおよびフォーマット変換処理プログラムを記録した記録媒体、並びに、情報記録装置、情報記録方法、情報記録処理プログラムおよび情報記録処理プログラムを記録した記録媒体
JP2003337596A (ja) * 2002-05-20 2003-11-28 Teac Corp オ−ディオデータ処理方法及び装置
EP1420401A1 (en) * 2002-11-14 2004-05-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for converting a compressed audio data stream with fixed frame length including a bit reservoir feature into a different-format data stream

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768834A (zh) * 2012-03-21 2012-11-07 新奥特(北京)视频技术有限公司 一种实现音频帧解码的方法
CN104781878A (zh) * 2012-11-07 2015-07-15 杜比国际公司 复杂度降低的转换器snr计算
CN104781878B (zh) * 2012-11-07 2018-03-02 杜比国际公司 音频编码器和方法、音频转码器和方法、以及转换方法
CN106104679A (zh) * 2014-04-02 2016-11-09 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
CN106104679B (zh) * 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
CN111512634A (zh) * 2017-12-28 2020-08-07 索尼公司 信息处理装置、信息处理方法和程序

Also Published As

Publication number Publication date
ES2649728T3 (es) 2018-01-15
IL173223A0 (en) 2006-06-11
DE10339498B4 (de) 2006-04-13
IL173223A (en) 2010-11-30
PT1647010T (pt) 2017-11-20
CN1826635B (zh) 2010-11-03
DE10339498A1 (de) 2005-03-03

Similar Documents

Publication Publication Date Title
US10290306B2 (en) Frame element positioning in frames of a bitstream representing audio content
JP4724452B2 (ja) デジタルメディア汎用基本ストリーム
US9378743B2 (en) Audio encoding method and system for generating a unified bitstream decodable by decoders implementing different decoding protocols
TWI505262B (zh) 具多重子流之多通道音頻信號的有效編碼與解碼
RU2408089C9 (ru) Декодирование кодированных с предсказанием данных с использованием адаптации буфера
KR20110138367A (ko) 보조 데이터의 삽입 및 추출
CN1826635A (zh) 音频文件格式转换
EP1420401A1 (en) Method and apparatus for converting a compressed audio data stream with fixed frame length including a bit reservoir feature into a different-format data stream
JP7318645B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

CP01 Change in the name or title of a patent holder