CN100435486C

CN100435486C - 音频编码及解码的方法及其装置

Info

Publication number: CN100435486C
Application number: CNB2006100061710A
Authority: CN
Inventors: 曾文龙
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2005-08-12
Filing date: 2006-01-25
Publication date: 2008-11-19
Anticipated expiration: 2026-01-25
Also published as: TWI302664B; CN1822185A; US20070036228A1; TW200707275A

Abstract

一种编码音频位流(audio bitstream)的音频编码器。当第一副信息与第二副信息相同时，设立副标记(side flag)，当第一比例因子与第二比例因子相同时，设立比例标记(scale flag)。数据封装器将一组变长码封装进帧的主要数据字段，以及将副标记及比例标记封装进帧的辅助数据字段。当未设立帧的副标记时，将第二副信息封装进帧的副信息字段，当未设立帧的比例标记时，将第二比例因子封装进帧的主要数据字段。此外，更提供一种音频解码器，用以解码音频编码器产生的编码后音频位流。

Description

音频编码及解码的方法及其装置

技术领域

本发明涉及一种数字信号处理，且特别涉及一种音频编码及解码的方法及其装置。

背景技术

传统上，是利用脉冲码调制(pulse-code modulation，PCM)将模拟音频信号转换成数字音频信号。在这种系统中，将接收的模拟音频信号馈入至模/数转换器以产生数字音频信号，并存储在二进制存储器。然后，自存储器中撷取数字信号，并使信号通过模/数转换器而完成录放。藉此，即可重建原始的真实声音。

虽可获得出色的音质，PCM音频却有存储录制文件时需使用大量的存储器空间的问题。为改善通过网络的音频文件传输，尽可能减少文件容量的需求遂变得越来越迫切。

于是在1993年，运动图像专家组(Motion Picture Experts Group，MPEG)委员会提出一种具有适于存储的缩小容量的高品质音频文件的高效率编码方法，并制订ISO/IEC 11172的新标准。通过感官编码技术(perceptualcoding)，使用心理听觉模型(psychoacoustic model)遮除人耳无法察觉的音频频率范围。也就是仅存储人耳能够检测的频率并用霍夫曼编码法(Huffman encoding)压缩，文件容量遂可有效地减少且保留适当的音频品质。

以数字量化的方式表示文件容量将更为清楚。例如，欲制造「CD品质」的声音，便需要44.1kHz的撷取频率及16位的取样分辨率。两者相乘得每秒88200字节(8位为1字节)，对于立体音频则需再两倍。于是，对于一首3分钟的歌曲，相当于约30兆字节。另一方面，MP3(MPEG layer 3)编码可将同一首歌压缩至十分之一的大小，即3兆字节。显著的效果使MP3成为通过网络的音乐传输的标准格式。

MP3音频编码器一般包括帧位流封装单元(frame bitstream packingunit)，用以将编码后音频取样封装成音频帧，且各帧包括标记信息(headerinformation)、视需要使用的循环冗余校验(Cyclic Redundancy Check，CRC)错误检测、副信息(side information)、主要数据(main data)以及辅助数据(ancillary data)。主要数据又包括霍夫曼数据(Huffman data)以及一组比例因子(scale factor)。音频帧具有固定的长度，而辅助数据则用以调整位数。

然而，使用MP3编码法的编码后音频文件仍不够紧致。例如，用以调整位数的辅助数据在存储器空间中即是一种浪费。此外，在传统方法中，封装副信息及比例因子的方式没有考虑音频帧中比例因子及副信息的关联性。所以当加速通过网络的传输或节省存储器空间变得越来越重要时，还需要更进一步减少音频文件容量的方法。

发明内容

有鉴于此，本发明的目的就是在提供一种用以编码一音频为一编码后音频位流的编码器，以及一种编码一音频为一编码后音频位流的方法。

根据本发明的目的，提出一种音频编码器，包括一编码单元、一帧比较单元以及一位流封装单元。编码单元用以编码音频位流并产生一第一组量化取样及一第二组量化取样。第一组量化取样具有一第一组变长码、一第一副信息以及一第一比例因子。第二组量化取样具有一第二组变长码、一第二副信息以及一第二比例因子。

当第一副信息与第二副信息相同时，帧比较单元设立一副标记，当第一比例因子与第二比例因子相同时，帧比较单元设立一比例标记。

此外，位流封装单元用以依据副标记及比例标记产生帧，位流封装单元包括一数据封装器、一副信息安装器以及一比例因子安装器。

数据封装器用以将第二组变长码封装进帧的一主要数据字段，以及将副标记及比例标记封装进帧的一辅助数据字段。辅助数据字段至少包括两位的副标记及两位的比例标记。

当未设立帧的副标记时，副信息安装器用以将第二副信息封装进帧的一副信息字段。最后，当未设立帧的比例标记时，比例因子安装器用以将第二比例因子封装进帧的主要数据字段。

根据本发明的另一目的，提出一种音频解码器，用以解码音频编码器产生的编码后音频位流。音频解码器包括一位流解包单元以及一解码单元。位流解包单元用以依据较早解压缩出的一第一帧而从编码后音频位流解压缩出一第二帧，其中第二帧包括具有一副标记及一比例标记的一辅助数据字段以及具有一组变长码的一主要数据字段。

位流解包单元包括一数据解压缩器、一副信息解压缩器以及一比例因子解压缩器。数据解压缩器用以从主要数据字段解压缩出变长码，以及从辅助数据字段解压缩出副标记及比例标记。此外，副信息解压缩器用以解压缩出一第二副信息，其中除非设立第二帧的副标记，即第二副信息等于第一帧的一第一副信息，否则便从第二帧的一副信息字段解压缩出第二副信息。

比例因子解压缩器用以解压缩出一第二比例因子，其中除非设立第二帧的比例标记，即第二比例因子等于第一帧的一第一比例因子，否则便从第二帧的主要数据字段解压缩出第二比例因子。解码单元依据第二副信息、第二比例因子以及变长码而输出一组解码后音频取样。

根据本发明的再一目的，提出一种编码音频位流的方法，包括：将音频位流从一时域转换至一频域，并产生一组次频带取样；依据音频位流产生一频率屏蔽；以及接收该组次频带取样及频率屏蔽而输出具有一第一副信息及一第一比例因子的一第一组量化取样以及具有一第二副信息及一第二比例因子的一第二组量化取样。

根据本发明的再一目的，提出一种解码编码后音频位流的方法，包括：自一第二帧的一主要数据字段解压缩出一组变长码，以及自第二帧的一辅助数据字段解压缩出一副标记及一比例标记；依据较早解压缩出的一第一帧解压缩出一第二副信息，其中除非设立第二帧的副标记，即第二副信息等于第一帧的一第一副信息，否则便从第二帧的一副信息字段解压缩出第二副信息；解压缩出一第二比例因子，其中，除非设立第二帧的比例标记，即第二比例因子等于第一帧的一第一比例因子，否则便从第二帧的主要数据字段解压缩出第二比例因子；以及接收第二副信息、第二比例因子以及变长码而输出一组解码后音频取样。

为让本发明的上述目的、特征、和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，做详细说明如下。

附图说明

图1示出了编码后音频位流中传统的音频帧的方块图。

图2示出了依据本发明的较佳实施例的音频编码器的方块图。

图3示出了依据本发明的较佳实施例的音频解码器的方块图。

图4示出了依据本发明的较佳实施例的编码后音频位流的容量缩小的比率图。

附图符号说明

200：解码单元

202：映像单元

204：量化编码单元

206：心理听觉模型

220：帧比较单元

240：位流封装单元

242：同步标记安装器

244、304：循环冗余校验器

246：副信息安装器

248：比例因子安装器

250：数据封装器

300：位流解包单元

302：同步标记解压缩器

306：数据解压缩器

308：副信息解压缩器

310：比例因子解压缩器

320：解码单元

322：重建单元

324：反映像单元

具体实施方式

请参照图1，其示出了编码后音频位流(encoded audio bitstream)中传统的音频帧的方块图。音频帧(audio frame)包括标记、循环冗余校验(CRC)字段、副信息字段、主要数据字段以及辅助数据字段。标记包括帧的信息中前32位。CRC字段包括16位的同位检查(parity-check)数据，用以检测错误。主要数据字段包括变长码如霍夫曼编码数据，以及用于重建数据的比例因子。副信息字段包括副信息，用以解码主要数据字段中的变长码。辅助数据字段包括用以调整位数的数据。编码后音频位流中的各传统帧存储有副信息及比例因子，然而，邻接的帧中的副信息及比例因子可能相同，因此编码后音频位流仍不够紧密。

请参照图2，其示出了依据本发明的较佳实施例的音频编码器的方块图。音频编码器不会产生多余的副信息及比例因子的编码后音频位流，音频编码器包括编码单元200、帧比较单元(frame comparison unit)220以及位流封装单元240。编码单元200包括映像单元(mapping unit)202、量化编码单元(quantizer and coding unit)204以及心理听觉模型206。映像单元202具有输入端，用以接收音频位流如脉冲码调制(PCM)音频。编码单元200利用如霍夫曼算法编码音频位流产生编码数据，如第一组量化取样及第二组量化取样，第一组量化取样具有第一组变长码、第一副信息以及第一比例因子，第二组量化取样具有第二组变长码、第二副信息以及第二比例因子，其中第一组量化取样先于第二组量化取样产生。

帧比较单元220耦接于编码单元200。依据第一组量化取样及第二组量化取样，当第一副信息与第二副信息相同时，帧比较单元220设立副标记(side flag)。同样地，当第一比例因子与第二比例因子相同时，帧比较单元会设立比例标记。

位流封装单元240耦接于编码单元200及帧比较单元220。位流封装单元240接收来自帧比较单元220的副标记及比例标记以及来自编码单元200的第一组量化取样及第二组量化取样，并产生及输出至少一帧。编码后音频位流或编码音频文件由一连串的帧所构成。副信息安装器(side informationinstaller)246耦接于帧比较单元220及CRC校验器244的输出端，当未设立副标记时，副信息安装器246将副信息封装进帧的副信息字段。比例因子安装器(scale factor installer)248也耦接于帧比较单元220，当未设立比例标记时，比例因子安装器248将第二比例因子封装进主要数据字段。数据封装器(data packer)250耦接于比例因子安装器248，用以将第二组变长码封装进帧的主要数据字段以及将副标记及比例标记封装进帧的辅助数据字段，其中，辅助数据字段至少包括2位的副标记及2位的比例标记。应注意的是，本发明所属技术领域中任何具有通常知识者当可变换CRC校验器244、副信息安装器246、比例因子安装器248以及数据封装器250的顺序而执行相同的功能。

此外，编码单元200产生量化取样之前，映像单元202、量化编码单元204以及心理听觉模型206须先执行若干工作。亦即，映像单元202具有用以接收音频位流的输入端，并使用数学算法如快速傅立叶变换(Fast FouierTransform，FFT)将音频位流从时域转换至频域而产生一组次频带取样。在其它实施例中，为了得到较高的频率分辨率，也可使用快速傅立叶变换的变形或离散余弦变换(Discrete Cosine Transform，DCT)的映像功能。心理听觉模型206具有用以接收音频位流的输入端，并依据音频位流产生频率屏蔽。

量化编码单元204耦接于映像单元202及心理听觉模型206，并依据次频带取样及频率屏蔽产生第一组变长码及第二组变长码。量化编码单元204耦接于映像单元202及心理听觉模型206的输出端，并输出第一组量化取样及第二组量化取样。

如依据本发明的较佳实施例的音频编码器所示，帧比较单元220用以利用具有副标记及比例标记的辅助数据。亦即，编码过程中，帧比较单元220藉由比较前一帧的副信息及比例因子而设立标记，使多余的副信息及比例因子不会封装进编码后音频位流。因此，能减少帧的容量，同时也减少编码后音频位流的整体容量。

请参照图3，其示出了依据本发明的较佳实施例的音频解码器的方块图。音频解码器包括位流解包单元(unpacking unit)300以及解码单元320。位流解包单元300用以解压缩帧，例如解压缩由上述音频编码器所产生的编码后音频位流中位于第一帧之后的第二帧。各帧包括具有副标记及比例标记的辅助数据字段以及具有一组变长码如霍夫曼码的主要数据字段。此外，位流解包单元300包括同步标记解压缩器(synchronization and headerextractor)302、数据解压缩器306、副信息解压缩器308以及比例因子解压缩器310。同步标记解压缩器302用以同步及寻找帧的标记信息。而CRC校验器304视需要用以校验帧中的错误。

解压缩出第一帧后，依据第一帧解压缩第二帧。数据解压缩器306从第二帧的主要数据字段解压缩出变长码，并从第二帧的辅助数据字段解压缩出副标记及比例标记。副信息解压缩器308耦接于数据解压缩器306，用以解压缩出第二副信息，其中除非设立第二帧的副标记，即第二副信息等于第一帧的第一副信息，否则便从第二帧的副信息字段解压缩出第二副信息。比例因子解压缩器310耦接于副信息解压缩器308，用以解压缩出第二比例因子，其中除非设立第二帧的比例标记，即第二比例因子等于第一帧的第一比例因子，否则便从第二帧的主要数据字段解压缩出第二比例因子。解码单元320耦接于位流解包单元300。解码单元320从位流解包单元300接收第二副信息、第二比例因子及变长码而输出一组解码后音频取样。

解码单元320包括重建单元(reconstruction unit)322以及反映像单元(inverse mapping unit)324。重建单元322用以解码变长码以及依据该组解碼后变长码、第二副信息及第二比例因子而输出一组次频带取样。接着，反映像单元324耦接于重建单元322的输出端，用以将次频带取样从频域反向映射回时域，并输出解码后音频取样。

通过使用位流解包单元300，以及比例标记与副标记的协助，由上述实施例所示，能以本实施例的音频解码器有效地解码容量减少的编码后音频位流。

为较佳展示本发明的效果，请参照图4，其示出了依据本发明的较佳实施例的编码后音频位流的容量缩小的比率图。水平轴表示音频位流中的比例因子及副信息的重复次数，垂直轴表示本实施例的编码后音频位流的容量缩小的比率，并于图中标示为与一首歌的总长度相较的比率。本实施例中，是假定各帧中的副信息及比例因子的重复机率为独立，且副信息及比例因子于双通道格式(dual channel format)中的平均长度分别为32字节及54字节。同时，也假定编码后音频位流的总长度为3MB，并有128kbps的位速率及44.1kHz的撷取频率。即可使用公式1导得各帧的容量等于418字节：

帧容量＝(位速率/撷取频率)*1152 (公式1)

于是，已知音频为3MB的长度，以及每一帧有418字节，可计算出音频中的帧数量约为7200个，如图4所示，即为水平轴的最大上限，或更精确地说，副信息或比例因子最多重复7200次。

如图4所示，分别表示副信息及比例因子的重复情形的上方直线及下方直线显示出当副信息及比例因子的重复次数增加时，音频文件的容量同时也有效地减少。

于是，如上所述，本发明藉由上述方法而有效地减少编码后音频位流的容量。实际上，若是相较于MP3格式的音频位流的长度，减少率可达13％。

综上所述，虽然本发明已以一较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中任何具有通常知识者，在不脱离本发明的精神和字段内，当可作各种的更动与润饰。因此，本发明的保护字段当视后附的申请专利字段所界定者为准。

Claims

1.一种音频编码器，包括：

一编码单元，用以编码一音频位流并产生一第一组量化取样及一第二组量化取样，该第一组量化取样具有一第一组变长码、一第一副信息以及一第一比例因子，该第二组量化取样具有一第二组变长码、一第二副信息以及一第二比例因子；

一帧比较单元，当该第一副信息与该第二副信息相同时，该帧比较单元设立一副标记，当该第一比例因子与该第二比例因子相同时，该帧比较单元设立一比例标记；以及

一位流封装单元，用以依据该副标记及该比例标记产生一帧，该位流封装单元包括：

一数据封装器，用以将该第二组变长码封装进该帧的一主要数据字段，以及将该副标记及该比例标记封装进该帧的一辅助数据字段；

一副信息安装器，当未设立该帧的该副标记时，该副信息安装器用以将该第二副信息封装进该帧的一副信息字段；以及

一比例因子安装器，当未设立该帧的该比例标记时，该比例因子安装器用以将该第二比例因子封装进该帧的该主要数据字段。

2.如权利要求1所述的音频编码器，其中，该辅助数据字段至少包括两位的该副标记及两位的该比例标记。

3.如权利要求1所述的音频编码器，其中，该编码单元包括：

一映像单元，用以将该音频位流从一时域转换至一频域并产生一组次频带取样；

一心理听觉模型，用以依据该音频位流产生一频率屏蔽；以及

一量化编码单元，用以依据该组次频带取样及该频率屏蔽而产生该第一组变长码及该第二组变长码，并输出该第一组量化取样及该第二组量化取样。

4如权利要求1所述的音频编码器，其中，该位流封装单元更包括：

一同步标记安装器，用以同步该帧；以及

一循环冗余校验器，用以校验该帧中的错误。

5.如权利要求1所述的音频编码器，其中，该第一组变长码及该第二组变长码为霍夫曼码。

6.一种音频解码器，包括：

一位流解包单元，用以依据较早解压缩出的一第一帧而从一编码后音频位流解压缩出一第二帧，其中该第二帧包括具有一副标记及一比例标记的一辅助数据字段以及具有一组变长码的一主要数据字段，该位流解包单元包括：

一数据解压缩器，用以从该主要数据字段解压缩出该组变长码，以及从该辅助数据字段解压缩出该副标记及该比例标记；

一副信息解压缩器，用以解压缩出一第二副信息，其中除非设立该第二帧的该副标记，即该第二副信息等于该第一帧的一第一副信息，否则便从该第二帧的一副信息字段解压缩出该第二副信息；及

一比例因子解压缩器，用以解压缩出一第二比例因子，其中除非设立该第二帧的该比例标记，即该第二比例因子等于该第一帧的一第一比例因子，否则便从该第二帧的该主要数据字段解压缩出该第二比例因子；以及

一解码单元，用以接收该第二副信息，该第二比例因子以及该组变长码而输出一组解码后音频取样。

7.如权利要求6所述的音频解码器，其中，该解码单元包括：

一重建单元，用以解码该组变长码，并依据该组解码后变长码、该第二副信息及该第二比例因子而输出一组次频带取样；以及

一反映像单元，用以将该组次频带取样从一频域反向映射回一时域，并输出该组解码后音频取样。

8.如权利要求6所述的音频解码器，其中，该位流解包单元更包括：

一同步标记解压缩器，用以同步及寻找该第一帧及该第二帧的一标记信息；以及

一循环冗余校验器，用以校验该第一帧及该第二帧中的错误。

9.如权利要求6所述的音频解码器，其中，该组变长码为霍夫曼码。

10.一种编码音频位流的方法，包括：

将该音频位流编码并产生一第一组量化取样及一第二组量化取样，该第一组量化取样具有一第一组变长码、一第一副信息以及一第一比例因子，该第二组量化取样具有一第二组变长码、一第二副信息以及一第二比例因子；

当该第一副信息与该第二副信息相同时，设立一副标记；

当该第一比例因子与该第二比例因子相同时，设立一比例标记；以及

依据该比例标记及该副标记产生一帧，包括：

将该第二组量化取样的该第二组变长码封装进该帧的一主要数据字段，以及将该副标记及该比例标记封装进该帧的一辅助数据字段；

当未设立该帧的该副标记，则将该第二副信息封装进该帧的一副信息字段；及

当未设立该帧的该比例标记，则将该第二比例因子封装进该帧的该主要数据字段。

11.如权利要求10所述的编码音频位流的方法，其中，将该音频位流编码的步骤包括：

将该音频位流从一时域转换至一频域以及产生一组次频带取样；

依据该音频位流产生一频率屏蔽；以及

接收该组次频带取样及该频率屏蔽而输出具有该第一副信息及该第一比例因子的该第一组量化取样及具有该第二副信息及该第二比例因子的该第二组量化取样。

12.如权利要求10所述的编码音频位流的方法，其中，该编码音频位流的方法更包括：

同步及寻找该帧的一标记信息；以及

以一循环冗余校验器校验该帧中的错误。

13.一种解码编码后音频位流的方法，包括：

自一第二帧的一主要数据字段解压缩出一组变长码，以及自该第二帧的一辅助数据字段解压缩出一副标记及一比例标记；

依据较早解压缩出的一第一帧，解压缩出一第二副信息，其中，除非设立该第二帧的该副标记，即该第二副信息等于该第一帧的一第一副信息，否则便从该第二帧的一副信息字段解压缩出该第二副信息；

解压缩出一第二比例因子，其中，除非设立该第二帧的该比例标记，即该第二比例因子等于该第一帧的一第一比例因子，否则便从该第二帧的该主要数据字段解压缩出该第二比例因子；以及

接收该第二副信息、该第二比例因子以及该组变长码，并输出一组解码后音频取样。

14.如权利要求13所述的解码编码后音频位流的方法，其中，该解码编码后音频位流的方法更包括：

同步及寻找该第一帧及该第二帧的一标记信息；以及

以一循环冗余校验器校验该第一帧及该第二帧中的错误。

15.如权利要求13所述的解码编码后音频位流的方法，其中，该组变长码为霍夫曼码。