CN1922657A

CN1922657A - 用于可变块尺寸信号的解码方案

Info

Publication number: CN1922657A
Application number: CNA2005800052560A
Authority: CN
Inventors: 阿夫尼什·马和施瓦里; 维德·克鲁伊吉泽
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-02-19
Filing date: 2005-02-02
Publication date: 2007-02-28
Anticipated expiration: 2025-02-02
Also published as: WO2005083684A1; EP1719118A1; JP2007526687A; WO2005083684B1; US20070183507A1; CN1922657B

Abstract

本发明涉及一种两步解码方法，其中首先基于来自比特流的信息的子集，计算或确定媒体块的尺寸。该尺寸信息限定该媒体块的字节数或长度。然后利用该尺寸信息，从随后的第二媒体块和比特流的剩余部分砍掉或抽取出第一媒体块。该步骤与目前的解码步骤相比，计算或处理量更少。然后可以进行第一媒体块的正常解码，同时该并行结构的处理元件可以利用第一步中获得的尺寸信息跳至第二媒体块，而不需要等待第一媒体块的处理结束。这样，由于该基本结构能够通过同时解码多个块而利用并行性，所以解码时间减少。

Description

用于可变块尺寸信号的解码方案

本发明涉及一种解码方法和解码装置，用于解码包括多个数据块的数据流。具体地，本发明涉及用于具有可变块尺寸的媒体数据流的音频和/或视频解码方案。

数字音频的普及度在稳定增长。越来越多的人在使用压缩数字音频，用于在因特网上交换音乐和音频文件。数字通用磁盘(DVD)、音乐CD、电视和无线广播工业，所有这些都认识到传送具有良好品质的压缩音频的优点。DVD和HDTV(高清晰电视)工业已经承诺提供给他们的用户多声道、剧场品质的声音体验。杜比(Dolby)数字编码系统，也公知为杜比AC-3，它是DVD和HDTV广播的音频压缩标准，它严重降低了声道节目的数据速度，例如，从6Mb/s(6声道，20比特，48kHz)，降低至384kb/s，这对应于15比1的降低。

为了这样的媒体应用，比特流格式由帧结构组成，其中一帧由若干媒体块组成。这些媒体块又包括他们自己的参数和数据。在体系结构世界中，趋势是走向并行处理结构。在这些结构中，目的是从比特流中分离和取得媒体块，并将它们并行馈入该结构的各处理元件。为了达到这个目的，需要识别媒体块的结束端，以至于它们可以彼此分离。为了识别媒体块之间的分离，当前使用两种方法：

1、每个媒体块具有明确的分隔符字段，其中在每个媒体块的结束端增加该分隔符字段。这有助于识别一个媒体块的结束端和另一个媒体块的起始端。

2、每个媒体块的字节尺寸限制为固定的。由于此时每个媒体块都具有固定的尺寸，所以它可以跳过该固定字节数，从而识别出下一个媒体块的起始端。

但是，存在这样的标准，在这些标准中，这些媒体块没有固定的尺寸和任何分隔符字段。这样的标准例如是上述用于DVD和HDTV广播的杜比AC-3标准。在类似的标准中，上述两个方法无效。

本发明的目的是提供一种解码方法和装置，由此对于具有可变块尺寸而无分隔符字段的媒体应用，可以实现并行处理结构。

通过如权利要求1所述的解码装置和权利要求10所述的方法实现该目的。

相应地，由于下述事实解码需要更少的计算或处理：进行第一数据块解码的同时，该并行结构的处理元件可以利用从尺寸确定中获得的块尺寸已经跳到第二数据块，而不需要等待第一数据块的处理结束。这样，由于可以同时解码多个块，使得该基本结构可以开发或利用并行性，所以解码时间减少。

尺寸确定模块适用于产生尺寸信息和向分离模块提供尺寸信息。然后分离模块使用该尺寸信息，以从数据流中分离出第一数据块。因此，当根据从同时运行的解码模块之一中获得的反馈信息产生尺寸信息时，可以提供优先的块分离，以通过分离模块跳至第二数据块。

尺寸确定模块的处理可以是累加处理，用于累加第一数据块的各预定部分的确定的比特数。

具体地，多个数据块可以是诸如AC-3帧的媒体应用帧的音频块，预定部分可以是尾数部分。这样，可以在数据流的预先解析或解码运行期间顺序获得各数据块的长度。可以从比特分配处理中获得所确定的比特数目。该比特分配处理可以基于至少一个心理声学模型，其中将功率谱密度和掩模曲线(mask curve)作比较，以揭示所述比特数目。

并且，该并行处理模块可以安排用于解析数据流的第一帧的比特流信息，然后跳至随后的第二帧的开始，而不需要等待第一帧中提供的音频块的副信息的解析结束。这样，可以在该音频块的解析结束之前，开始第二帧的比特流信息的解析和解码，因此，增加了并行性。

此外，该分离模块可以安排用于对第一音频块的副信息进行解包，然后解析指数信息并将其发送至该并行处理模块的第一处理单元，解析比特分配信息并将其发送至该并行处理模块的第二处理单元，解析尾数块并将其发送至该并行处理模块的第三处理单元，然后跳至第二音频块。因此，只是将信息进行解析并发送至各个过程，不需要在跳至块序列的下一音频块之前，等待这些过程完成。

进一步有利的修改在从属权利要求中定义。

本发明现在将在优选实施例的基础上，参照附图进行描述，其中：

图1表示可以应用本发明的媒体应用的帧的典型比特流结构；

图2表示根据本发明的两步解码方案的示意性结构图；

图3表示典型的杜比数字解码方案的示意性流程图；以及

图4表示根据优选实施例的杜比数字解码过程的示意性功能图。

现在基于杜比数字解码器，即杜比AC-3音频解码器描述优选实施例。

在过去的几年中，数字音频数据压缩已经变成音频工业中重要的技术。杜比AC-3是灵活的音频数据压缩技术，可以将一定范围的音频声道格式编码为低速率比特流。AC-3技术的起源来自，希望提供用于高清晰电视(HDTV)的高级多声道声音的局域化。该目标是得到可以被尽可能广泛的观众使用的编码音频。潜在的观众范围从希望拥有完全的声音体验的商业电影院的顾客或家庭剧院的爱好者，至安静的旅馆房间中以很低的音量收听单声道电视但希望听到所有节目内容的居住者。

杜比AC-3标准接受PCM(脉冲编码调制)音频作为它的输入，并产生编码比特流。编码过程的第一步是将音频的表示从PCM时间采样序列变换至频率系数块序列。将512个时间采样的重叠块乘以时间窗，并变换至频域。由于重叠块的原因，每个PCM输入采样在两个连续变换块中表示。然后可以因数2对该频域表示进行抽样，使得每个块包括256个频率系数。在瞬态信号的情况下，通过使用块切换技术实现了性能的提高，该块切换技术计算两个256点的变换，代替512点的变换。浮点转换过程将变换系数分为指数/尾数对。然后基于参量的比特分配模型，将尾数量化为可变的比特数。将6个音频块(1536个音频采样)的频谱包络(指数)和粗量化尾数格式化为AC-3帧。

图1表示诸如AC-3的媒体应用的典型帧F的示意性结构。比特流是这样的帧的序列。如图所示，在该帧结构图中，每个帧包括多个媒体块MB0-MBn，例如在AC-3帧的情况下的音频块。每个媒体块又包括媒体块参数MBP和媒体块数据MBD。并且，每个帧F可以包括同步字或模式SYNC、误差校正码(循环冗余码)CRC#1、比特流信息BSI，和辅助信息AUX。

在AC-3帧的特定情况下，媒体块数据MBD包括打包的指数和尾数块。为了提高解码过程的并行性，希望提供一种解析例程或解码例程，适用于跳过该解码计算量繁重的尾数块，并开始解析或解码下一个音频块。为此，解码过程或方案应当能够识别音频或媒体块之间的“分离点”。如上所述，这在传统的媒体标准中，通常通过在这样的媒体块之间加入唯一可识别的“分隔符字段”或通过具有固定尺寸的媒体块来实现。但是，上述解决方案没有一个可以在没有分离信息的情况下应用于特定的可变尺寸的媒体应用，诸如AC-3比特流。

根据优选实施例，提出下面的两步或两级解码方法。

图2表示用于指示根据优选实施例的解码过程或方案的示意性结构图。在第一步或第一级10中，通过尺寸确定函数或单元102，从输入比特流BS计算或确定媒体块例如尾数块的尺寸，其中输入比特流BS包括例如PCM数据。产生相应的尺寸信息SI，并将它传递至分离函数或单元104。在分离单元104中，然后使用尺寸信息SI，从剩余的比特流中分割出媒体块，并将分离的媒体块提供至第二级20中多个解码处理函数或单元20-1至20-n中所选择的单元。然后，在选择的解码处理单元20-1至20-n中，至少执行所提取媒体块的部分并行解码。然后将解码的媒体块DMB组合成一个数据流或直接并行提供至第二级20的输出端。

下面，基于AC-3解码过程，给出优选实施例的更详细的描述。

图3表示典型的AC-3解码流程的示意性流程图。在步骤1中，典型地，从发送或存储系统输入比特流。下一步骤2用于建立帧定位。这包括找到AC-3同步字SYNC，然后确认CRC误差检测字指示没有误差。

在步骤3中，对副信息进行解包，诸如采样速率、帧尺寸、比特速率、声道数、与例如语言码的音频相关的信息、版权等，其中比特流信息BSI每帧出现一次，音频块的副信息在每个音频块出现一次，例如每帧6次。然后，在步骤4中，指数是以编码形式在比特流中传递的。利用来自比特流的副信息对指数解码，并发送至步骤5中执行的比特分配例程。该比特分配步骤包括基于心理声学模型的计算，将音频的功率谱密度与掩模曲线作比较。这些计算显示出每个尾数被分配多少个比特。

如后面结合优选实施例所解释的，使用获得的比特分配数确定或计算尾数块的尺寸。

粗量化的尾数组成了大量AC-3数据流。在步骤6中，通过分离或抽取由比特分配例程所指示的比特组，而解包尾数数据。然后分组的尾数被解分组。单独编码的尾数值被转换成解量化值。当使用耦合时，在步骤7中，利用用于各单独声道的公共耦合声道和耦合坐标，重新构造耦合声道的高频分量。对于每个音频模块，编码器规定其动态范围，并且基于该值，解码器利用该动态范围字改变指数和尾数的幅值。

在二声道模式中，如果编码器使用如步骤8所示的重新矩阵化，那么在步骤8中使用和值以及差值，来抽取左声道和右声道。在步骤9的动态范围压缩后，利用步骤10中的逆变换，将频域系数转换回时域。在步骤11中，对各个时间采样块进行窗口操作，将相邻的块交叠相加在一起，以重新构造最终连续的时域PCM音频信号。

但是，流中声道的数目可能与用户房屋中扬声器的数目不匹配。在这种情况下，需要如步骤12中所示的缩混(downmixing)，以混合流中的声道，使得它们能够基于用户房屋中扬声器的数目而再现出来。

最后，在步骤13中，典型地，以采样速率或以适合与数模转换器(DAC)互连的形式或其他任意形式，将PCM输出写入缓冲器。

注意，图3中所示的一系列步骤只是多种解码AC-3音频流的方式中的一种。例如，由于步骤12中的缩混是线性操作，它可以在时域或在频域中完成。

并且，可以理解，图3的流程图隐藏了其中的循环。步骤1、2、11、12和13在帧的基础上工作，而步骤3-10在音频块的基础上迭代。因此，帧F的典型解码顺序将意味着对于每一帧F执行步骤1和2一次，然后重复步骤3-10的次数为一帧中媒体块MB的数目，例如，AC-3帧中的6个音频块，然后在帧的基础上执行步骤11-13。也意味着顺次执行步骤3-10。换言之，在对第一个音频块进行步骤6时，不能对随后的第二个音频块开始步骤3。

在优选实施例中，提出了一种解决方案，使得在一个过程网络中，能够独立并同时执行对应于步骤1-13的过程。

图4表示根据优选实施例，AC-3解码器方案的功能过程模型。该模型基于经由先入先出存储器(fifo)、移位寄存器存储器等而彼此相连的过程的集合。这些过程和fifo经由过程的端口连接。

在图4的功能图中，提出一种技术，用于从图3所示的固有串行的AC-3解码算法中提取出并行性。在图4的功能图中，椭圆表示过程，箭头表示fifo。应当注意，图4没有示出这些过程的所有细节。例如，它没有示出端口过程和分叉过程。如上所述，端口用于连接各过程和fifo。需要分叉过程来复制标记。这发生在这种情况下：对于一个标记，有一个生产者和多个使用者的时候。那么，分叉过程从它的输入fifo读出标记，并将它的副本写入多个输出fifo。当经由fifo在过程之间进行标记通信时，标记代表值，而不是值的引用。这意味着如果两个过程必须共用数据，它们则通过从fifo写入和读出数据来显式地共用数据，而不是写入和读出数据的指针。

并且，图4没有示出代表过程之间fifo的箭头的完全列表。为了该图的可读性，在图4中描述所有fifo箭头是不可行的。

在图4中，过程1、2和8分别对应于图3的步骤1、2和8，而过程5、6和9至12对应于图3的步骤4、5和10至13。图3的“解包BSI，副信息”步骤(步骤3)分为两个过程3和4，即“unp_bsi_info”(过程3)和“unp_audio_info”(过程4)。并且，图3的步骤6、7和9即“解包、解分组、解量化、抖动尾数(dither mantissa)”、“解耦合”和“动态范围压缩”合并为一个过程7，即过程“decode_mants”。下面解释这些原因。

取代图4的两个过程3和4，在图3中有一个步骤3，该步骤覆盖了“解包BSI，副信息过程”的功能。在图3的传统方案中，以下述方式解析AC-3帧。首先，比特流信息(BSI)被解码或解析，这在每个帧的帧头处出现一次。然后，第一个音频块的副信息被解析或解码。为了开始解析下一帧的BSI，步骤3首先必须完成所有音频块的副信息的解析或解码。为了增加并行性，提出了解析或解码第一帧的BSI，然后跳至下一帧的开始。这样，不需要等待第一帧的音频块解析结束，就可以开始第二帧的BSI的解析或解码。

根据图4的优选实施例，图3的步骤3分为两个过程3和4，其中在过程3中对帧的BSI信息进行解包，在过程4中对音频块的音频副信息进行解包。这样，过程3在帧的基础上工作，并只解析或解码每个帧的BSI信息，而帧的其余部分传递至过程4，其中过程4在音频块的基础上工作，并解析包含在每个音频块中的副信息。

根据AC-3帧结构，每个AC-3帧包括六个音频块。每个音频块又包括参数、打包指数和一个尾数块。因此，如上所述，希望跳过该尾数块并开始下一个音频块的解析。为此，必须在尾数块之间识别“分离点”。为了解决该问题，使用图2的两步解码方法。换言之，图4的过程4(解包音频副信息)首先对第一音频块的副信息进行解包，然后解析编码的指数并将其发送至过程5(解码指数)，解析比特分配数据并将其发送至过程6(比特分配)，解析压缩的尾数块并将其发送至过程7(解码尾数)，然后对于第二个音频块重复该流程。关键点是：只是解析信息并将其发送至相应的过程，然后不需要等待由其他过程5至7完成第一个音频块的处理，就跳至随后的第二个音频块。

上述并行流程需要已知压缩尾数块的尺寸。为了克服该运算障碍，提出了利用过程6。利用心理声学模型，对于第一个尾数，过程6确定应当从尾数块中剥离出多少个比特。它将该信息存储在可变的、所谓的比特分配指针(BAP)中。然后过程7使用该BAP为第一个尾数从压缩尾数块中剥离出比特。该尾数被解码，并储存在数组中，用于进一步的处理。接下来，计算第二个尾数的BAP，过程7使用该BAP，以从比特流的压缩尾数块中剥离出比特。对于该第一音频块中存在的所有声道的所有尾数，找到或获得BAP，然后使用该BAP从比特流中剥离出比特的过程被重复进行。当从比特流中剥离出第一音频块的所有尾数时，可以顺次进行第二音频块或下一音频块的解析或解码。

但是，如果将第一音频块的所有BAP加在一起，那么该总和将代表第一音频块的压缩尾数块的尺寸。因此，技巧是将该确定的或计算出的BAP的总和经由fifo“f_size_of_blk”(图4中的虚线箭头)发送至过程4，使得过程4能够从比特流中“砍掉”对应于该BAP总和的比特数，并将该压缩尾数块发送至过程7。这样，过程4无需等待第一音频块的处理结束，就可以开始解析第二音频块。

在上述方法中，每个过程只等待其完成计算所需要的充分必要信息。附带地，这也是在如YAPI的抽象层次上的算法操作如何节省大量周期的很好示例。再参照图2，可以理解，图2的第一级10对应于图4的过程4，而图2的第二级20基本对应于过程5至7。

总之，提出了两步解码方法，其中，首先基于比特流中信息的子集，计算或确定媒体块的尺寸。该尺寸信息限定了媒体块的字节数或尺寸。然后利用该尺寸信息，从随后的第二个媒体块和比特流的剩余部分砍掉或抽取出第一个媒体块。该步骤与目前的解码步骤相比，计算或处理量更少。然后进行第一媒体块的正常解码，同时该并行结构的处理元件可以利用第一步中获得的尺寸信息跳至第二媒体块，而不需要等待第一媒体块的处理结束。这样，由于该基本结构能够通过同时解码多个块而利用并行性，所以解码时间减少。

注意，本发明不限制于上述优选的AC-3实施例，它可以在处理可变尺寸块的任意解码装置或方法中实现。具体地，可以使用比特流信息的任何适合子集来计算或导出任意类型块的尺寸，使得能够至少部分地同时或并行处理在随后的块中提供的信息。这样，各种优选的实施例可以在后附的权利要求保护范围内变化。

权利要求书

(按照条约第19条的修改)

1、一种解码装置，用于解码包括多个数据块的数据流，所述装置包括：

a.尺寸确定模块(102)，用于处理所述数据流的信息的子集，以确定要被解码的第一数据块的长度；

b.分离模块(104)，基于所述确定的长度，从所述数据流中分离所述第一数据块；以及

c.并行处理模块(20)，用于当所述第一数据块被解码的同时，处理随后的第二数据块。

2、如权利要求1所述的装置，其中所述尺寸确定模块(102)适用于产生尺寸信息，并将所述尺寸信息(f_sz_of_blk)提供至所述分离模块(104)。

3、如权利要求2所述的装置，其中所述分离模块(104)使用所述尺寸信息，以从所述数据流中分离出所述第一数据块。

4、如前述任一权利要求所述的装置，其中所述尺寸确定模块(102)的所述处理是累加处理，用于累加所述第一数据块的各预定部分的确定的比特数。

5、如权利要求4所述的装置，其中所述多个数据块是媒体应用帧的音频块，以及所述预定部分是尾数部分。

6、如权利要求4或5所述的装置，其中所述确定的比特数是从比特分配处理中获得的。

7、如权利要求4至6中任一个所述的装置，其中所述比特分配处理基于至少一个心理声学模型，其中将功率谱密度与掩模曲线比较，以揭示所述比特数。

8、如权利要求5至7中任一个所述的装置，其中所述并行处理模块(20)安排用于解析所述数据流的第一帧的比特流信息，然后无需等待所述第一帧中提供的音频块的副信息的解析结束，跳至随后的第二帧的开始。

9、如权利要求8所述的装置，其中所述分离模块(104)安排用于对第一音频块的所述副信息进行解包，然后解析指数信息并将其发送至所述并行处理模块(20)的第一处理单元，解析比特分配信息并将其发送至所述并行处理模块(20)的第二处理单元，以及解析尾数块并将其发送至所述并行处理模块(20)的第三处理单元，然后跳至第二音频块。

10、一种解码数据流的方法，其中该数据流包括多个数据块，所述方法包括步骤：

处理所述数据流的信息的子集，以确定要被解码的第一数据块的长度；

基于所述确定的长度，从所述数据流中分离出所述第一数据块；

当解码所述第一数据块的同时，处理随后的第二数据块。

Claims

9、如任一权利要求8所述的装置，其中所述分离模块(104)安排用于对第一音频块的所述副信息进行解包，然后解析指数信息并将其发送至所述并行处理模块(20)的第一处理单元，解析比特分配信息并将其发送至所述并行处理模块(20)的第二处理单元，以及解析尾数块并将其发送至所述并行处理模块(20)的第三处理单元，然后跳至第二音频块。

当解码所述第一数据块的同时，处理随后的第二数据块。