CN1196611A

CN1196611A - 可变规模语音编码/解码的方法和装置

Info

Publication number: CN1196611A
Application number: CN97123480A
Authority: CN
Inventors: 朴成熙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1997-04-02
Filing date: 1997-12-30
Publication date: 1998-10-21
Anticipated expiration: 2017-12-30
Also published as: EP0884850A2; US6438525B1; BR9705602A; JP3354864B2; CN1110145C; US6148288A; JPH10285043A; KR19980079475A; IL158102A; MY123835A; IL158102A0; RU2194361C2; EP0884850A3; KR100261253B1; IL122711A0; US6122618A; ID19830A; IL158352A

Abstract

本发明提出了一种可变规模语音编码/解码方法和装置。所提出的编码方法包括下列步骤:(a)对输入语音信号进行信号处理和按每个预定编码频带量化;(b)在预定层规模内对与底层相应的量化数据编码;(c)在预定层规模内对与已编码底层的下一增强层相应的量化数据和属于已编码层但尚未编码的剩下的量化数据编码;以及(d)相继对所有各层执行层编码步骤。

Description

可变规模语音编码/解码的方法和装置

本发明属语音编码/解码技术领域，具体地说本发明涉及通过在一个比特流中表示以一个底层为基础的各个增强层的数据对分层比特流进行编码/解码的可变规模的(scalable)语音编码解码的方法和装置。

通常，含有信息的波形是一个连续的模拟信号。为了将这波形表示成离散信号，就需要进行模拟-数字(A/D)变换。

为了进行A/D变换，需要两个过程：(1)采样过程，将在时间上连续的信号变换成离散信号；(2)幅度量化过程，将可能的幅度数限制为一个有限值，也就是说，将输入幅度X(n)限制为属于t时刻可能幅度的有限集中的一个元Y(n)。

由于近来数字信号处理技术的开发，已经提出和广泛使用通过采样和量化将模拟信号变换成数字的PCM(脉冲编码调制)数据、将经变换的信号存入诸如高密盘或数字语音带那样的记录/存储媒体以后根据用户需要再重放所存储的信号这样的语音信号存储/恢复方法。这种数字存储/恢复方法解决了语音质量降低的问题，与传统的模拟方法相比大大改善了语音的质量。然而，在有大量数字数据的情况下，这种方法在存储和发送数据上仍存在着问题。

为了减少数字数据量，已经采用了DPCM(差分脉冲编码调制)或ADPCM(自适应差分脉冲编码调制)来压缩数字语音信号。然而，这种方法具有一个缺点，对于不同的信号类型效率相差非常大。最近由ISO(国际标准化组织)标准化的MPEG(动画专家组)/语音技术和由杜比开发的AC-2/AC-3技术利用了一个人类心理声学模型来减少数据量。

在诸如MPEG-1/语音、MPEG-2/语音或AC-2/AC-3那样的传统的语音信号压缩方法中，时域信号被变换成频域信号，组合成一些具有恒定长度的块。然后，经变换的信号用人类心理声学模型进行标量量化。这种量化虽然简单，但即使输入的样点是统计独立的情况下也并不是最佳的。当然，如果输入的样点是相互统计相关的，这种量化就更不合适。然后，进行编码，包括诸如熵编码之类的无损编码或自适应量化。因此，与简单的PCM数据存储方法相比，这种编码过程相当复杂。比特流包括压缩信号用的辅助信息和经量化的PCM数据。

MPEG/语音标准或AC-2/AC-3方法提供了与高密盘几乎相同的语音质量，但比特率为64-384Kbps，仅是经典数字编码比特率的1/6-1/8。因此，MPEG/语音标准在存储和发送诸如数字语音广播(DAB)、互联网电话或点播放音(AOD)中的语音信号上起着重要的作用。

在这些传统的技术中，编码器中给定了一个固定的比特率，因此需要搜索适合给定比特率的最佳状态再进行量化和编码，从而可以得到相当好的效果。然而，随着多媒体技术的出现，对于具备有低比特率编码效果的多功能编码解码器(Codec)的呼声越来越高。其中之一就是可变规模语音编码解码器(Scalable audio codec)。这种可变规模语音编码解码器可以将在高比特率编码的比特流变成低比特率的比特流，只恢复其中的某些部分。这样，在网络负荷过重时或者在解码器的性能不好或用户有所请求的情况下，可以只用部分比特流来合理恢复信号，只是在性能上由于比特率较低而稍有一些降低。

按照普通的语音编码技术，为编码装置给定了一个固定的比特率，搜索到对于给定比特率的最佳状态后进行量化和编码，从而形成符合这个比特率的比特流。一个比特流含有的只是对于一个比特率的信息。也就是说，比特率信息包含在一个比特流的头标中，使用的是一个固定比特率。因此，可以使用一个在规定的比特率呈现最佳效果的方法。例如，在一个比特流用一个工作在比特率为96Kbps的编码器形成的情况下，用一个与这个编码器相应的比特率为96Kbps的解码器可以恢复出质量最佳的声音。

按照这种方法，形成比特流并不考虑其他比特率，所形成的比特流具有适合给定比特率的规模，而不是其他比特流。实际上，如果这样形成的比特流要通过一个通信网发送，就需要将这比特流分成一系列时隙发送。在一个传输信道负荷过重时，由于传输信道带宽狭窄接收端接收到的可能仅是传输发送的部分时隙，从而不能正确恢复数据。此外，由于比特流并不是按照它的重要性来形成的，因此只是恢复部分比特流会导致质量严重下降。在语音数字数据的情况下，可能产生刺耳的声音。

例如，在一个广播台形成比特流向各用户广播时，这些用户可能请求不同的比特率。或者，这些用户可能具有不同性能的解码器。在这种情况下，如果为了满足用户的请求广播台发送仅由一个固定比特率支持的数据流的话，就需要分别向各用户发送比特流，这在比特流的传输和形成上都是相当不经济的。

然而，如果一个语音比特流具有一些不同层的比特率，那么就能恰当地满足不同的用户请求和给定的环境。为此，如图1所示，先对低层进行编码，然后再解码。然后，将经解码所得信号与原信号之差再输入下一层的编码器进行处理。也就是说，首先对底层编码，产生一个比特流，再对原信号与编码信号之差进行编码，产生一个下一层的比特流，这样反复进行。这种方法增大了编码器的复杂程度。此外，为了恢复原信号，解码器也要以相反的次序重复这个过程，从而增大了解码器的复杂程度。因此，随着层数的增多，编码器和解码器就越来越复杂。

为了解决上述问题，本发明的一个目的就是提出一种可变规模语音编码/解码的方法和装置，通过在一个比特流内表示一些不同层比特率的数据可以按照传输信道的状态、解码器的性能或用户的请求控制比特流的规模和解码器的复杂程度。

为了达到这个目的，所提出的将语音信号编码成一个具有一个底层和预定数目的增强层的分层数据流的可变规模语音编码方法包括下列步骤：(a)对输入的语音信号进行信号处理和按各预定的编码频带进行量化；(b)在预定的层规模内对与底层相应的量化数据进行编码；(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码；以及(d)相继对所有各层执行层编码步骤，其中步骤(b)、(c)和(d)各包括下列步骤：(e)用预定的相同数目的数字表示与一个需编码的层相应的量化数据；以及(f)对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码。

步骤(e)和(f)是从低频率到高频率依次执行的。

编码步骤(b)、(c)和(d)是用一种预定的编码方法对包括至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。

步骤(e)和(f)中的数字是比特，而步骤(f)中的编码是通过以预定个数的比特为单位组合组成比特序列的各比特实现的。

预定的编码方法是无损编码，而无损编码是霍夫曼编码或算术编码。

在量化数据是由符号数据和幅度数据组成时，步骤(f)包括下列步骤：(i)用一种预定的编码方法对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码；(ii)对与已编码的最高有效数字序列中的非零数据相应的符号数据进行编码；(iii)用一种预定的编码方法对数字数据的未编码的幅度数据中的最高有效数字序列进行编码；(iv)对与在步骤(iii)中编码的数字序列中的非零幅度数据相应的符号数据中的未编码的符号数据进行编码；以及(v)对数字数据的各数字执行步骤(iii)和(iv)。

步骤(e)是将数字数据表示为具有相同数目的比特的二进制数据，而数字都是比特。

各编码步骤是通过以预定个数的比特为单位组合组成相应的幅度数据和符号数据的比特序列的各比特实现的。

量化是通过下列步骤实现的：将输入的时域语音信号变换成频域信号；将经时/频映射变换的信号组合成一些预定子频带的信号和计算每个子频带的掩蔽门限；以及量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

按照本发明的另一表现形态，所提出的将语音信号编码成具有预定数目的分层比特率的数据的可变规语音编码装置包括：一个量化部，其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化；一个比特构组部，其作用是对与一个底层相应的辅助信息和量化数据进行编码，对与这个底层的下一层相应的辅助信息和量化数据进行编码，这样依次对所有各层进行编码，从而产生相应的比特流，其中比特构组部通过用具有预定相同个数的比特的二进制数据表示量化数据将它分割成一些由比特构成的组，再用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列进行编码来实现编码。

在数字数据包括符号数据和幅度数据时，比特构组部对比特分割的数据中具有相同重要性(有效位)的比特的幅度数据进行收集和编码对符号数据中与非零幅度数据相应的未编码的符号数据进行编码，这样的对幅度和符号数据的编码都是从各MSB到较低有效比特依次进行的。

在比特构组部按重要性对比特进行收集和编码时，编码是通过以预定比特数为单位组合这些比特来实现的。

此外，本发明还提出了一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码方法，这种方法包括下列步骤：通过分析组成数据流的各比特的重要性，按照生成具有分层比特率的数据流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步骤信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；将解码得到的量化步长和量化数据恢复成具有原来幅值的信号；以及将解量化得到的信号变换成时域信号。

解码步骤中的数据都是比特，而数据流是比特流。

按重要性解码的步骤是以由预定个数的比特组成的向量为单位进行的。

在量化数据由符号数据和幅度数据组成时，解码步骤包括下列步骤：通过分析组成数据流的各比特的重要性，按照生成具有分层比特率的数据流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；以及对量化数据的符号数据进行解码，将解码得到的符号数据与解码得到的幅度数据合并在一起。

解码步骤是用算术解码或霍夫曼解码实现的。

相应，本发明提出了一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码装置，这种装置包括：一个比特流分析部，其作用是通过分析组成比特流的各比特的重要性，按照生成分层比特流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步长位息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；一个量化部，其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号；以及一个频/时映射部，其作用是将解量化得到的信号变换成时域信号。

本发明的以上目的和优点通过以下结合附图对本发明的优选实施例的详细说明就会更加清楚，在这些附图中：

图1为一个简单的可变规模编码/解码装置(codec)的方框图；

图2为本发明所提出的编码装置的方框图；

图3示出了本发明所提出的比特流结构的示意图；以及

图4为本发明所提出的解码装置的方框图。

下面将结合附图详细说明本发明的优选实施例。

图2为本发明所提出的可变规模语音编码装置的方框图，这个装置包括量化部230和比特构组部240。

对输入的语音信号进行信号处理和按预定编码频带进行量化的量化部230包括时/频映射部200、心理声感部210和量化部220。时/频映射部200将输入的时域语音信号变换成频域信号。人耳所感觉的信号特性差异在时域上并不很大。然而，按照人类心理声学模型，对每个频带的感觉却有很大的不同。因此，通过对于不同的频带分配不同的量化比特数可以增强压缩效果。

心理声感部210将经时/频映射部200变换的信号用各预定子频带的信号组合，利用各信号之间相互作用所产生的掩蔽现象计算出每个子频带的掩蔽门限。

量化部220量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。也就是说，对每个频带的各频率信号进行标量量化，使得每个频带的量化噪声都小于掩蔽门限而不能察觉。所执行的是使在每个频带所产生的噪声与由心理声感部210计算得的掩蔽门限之比NMR(噪声掩蔽比)小于或等于0dB的量化。NMR值小于或等于0dB意味着掩蔽门限高于量化噪声。也就是说，听不到量化噪声。

比特构组部240对与具有最低比特率的底层相应的辅助信息和量化数据进行编码，再对与底层的下一层相应的辅助信息和量化数据进行编码，这样对所有各层都执行这个过程，从而产生相应的比特流。对各层的量化数据和编码是通过以下步骤实现的：通过将每个量化数据表示为由预定相同个数的比特组成的二进制数据，将每个量化数据分割成一些比特组；以及用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列依次进行编码。在数字数据包括符号数据和幅度数据的情况下，比特构组部240收集比特分割的数据中具有相同重要性(即处在同一有效位)的比特的每个幅度数据加以编码，然后对与已编码的幅度数据中的非零幅度数据相应的符号数据进行编码。这里，对符号数据和幅度数据的编码过程都是从MSB到较低有效比特依次进行的。

下面将说明这种编码装置的工作情况。输入语音信号受到编码形成相应的比特流。为此，在时/频映射部200用MDCT(改进的离散余弦变换)或子频带滤波将输入信号变换成频哉信号。心理声感部210用一些适当的子频带组合频率信号，得出掩蔽门限。子频带主要用于量化，因此称为量化频带。量化部220执行标量量化，使得每个量化频带的量化噪声幅度小于掩蔽门限，这样的噪声虽然是可闻的，但由于掩蔽现象而感觉不到。如果执行满足这样条件的量化，那么就对于各频带就分别产生相应的量化步长值和量化频率值。

就人类心理声学来说，在较低的频率可以容易感觉出接近的频率分量的差异。然而，随着频率的增加，可感觉的频率差异间隔越来越大。如表1所示，较低频率的量化频带具有较窄的带宽，而较高频率的量化频带具有较宽的带宽。

表1

量化频带	编码频带	始标	终标
量化频带	编码频带	始标	终标	0	0	0	7
1	8	15		0		0	7
1	8	15	2	16		23
3	1	24	2	16		23	35
3		24	4	36	47		35
5		2	4	36	47	48	59
5	6		60	71		48	59
7	6		60	71	3	72	83
7	8	84	99			72	83
9	8	84	99	4		100	115
9	10	116	131			100	115
11	10	116	131		5	132	147
11	12	148	163			132	147
13	12	148	163	6		164	195
13	14	7	196	6	227	164	195
15	14	7	196	8	227	228	259
15	16	9	260	8	291	228	259
17	16	9	260	10	291	292	323
17	18	11	324	10	354	292	323
19	18	11	324	12	354	356	387
19	20	13	388	12	419	356	387
21	20	13	388	14	419	420	451
21	22	15	452	14	483	420	451
23	22	15	452	16	483	484	515
23	24	17	516	16	555	484	515
25	24	17	516	18	555	556	599
25	26	19	600	18	634	556	599
27	26	19	600	20	634	644	687

然而，为了便于编码，对于编码来说，并不用表1中所示的量化频带，而是用带宽与量化频带接近的编码频带。换句话说，如表1所示，对于比较窄的带宽，几个量化频带合成一个编码频带，而对于比较宽的带宽，一个量化频带就构成一个编码频带。因此，所有编码频带控制成具有差不多的带宽。

1.取决于数据重要性的编码

各量化值的符号分别存储，而绝对值就是取为表示成正值的数据。在每个编码频带的各量化频率值中，搜索出一个具有最大绝对值的值，从而确定表示每个频带中的信号所需的相应量化比特数。

通常，一个1比特的MSB(最高有效比特)的重要性远大于一个1比特的LSB(最低有效比特)。然而，按照传统的方法，编码并不考虑这重要性。因此，如果只使用整个比特流中的前面那部分，那么前面这部分包含了大量重要性不如包含在没有使用的后面那部分中的信息。

由于上述原因，在本发明中，对各频带的量化信号从各MSB到LSB依次进行编码。也就是说，各量化信号用二进制记数表示，而各频率分量的量化值以比特组为单位从低频分量到高频分量依次处理。首先，得到各频率分量的MSB，然后退一比特对次高有效比特编码，直至LSB。这样，最重要的信息首先编码，安排在所产生的比特流的前部。

假设8个用二进制记数各由4个比特表示的量化值如下：

LSB MSB

0： 1001

1： 1000

2： 0101

3： 0010

4： 0000

5： 1000

6： 0000

7： 0100

按传统方法，首先对最低频率分量的1001编码，然后对1000、0101、0010依次编码(也就是横向对每个频率分量依次编码)。然而，按照本发明，最低频率分量MSB的1和其他频率分量MSB的0，1，0，0，…依次组合成比特组加以处理。例如，在以4个比特为单位编码的情况下，就先对1010编码，再对0000编码。如果各MSB都已编码，就取各次高有效比特值0001，0000，依次直至各LSB加以编码。这里，编码方法可以是无损编码，例如霍夫曼编码或算术编码等。

2.包括符号比特的编码

通常符号比特是MSB。因此，在从MSB起进行编码时，符号比特就看作最重要的信息加以编码。在这种情况下，可能会出现低效编码。也就是说，由于从MSB到次高比特量化为1的值认为是零，因此相应的符号值是没有意义的。例如，如果一个量化值用5个比特表示为00011，而在编码中只用3个高位比特，那么这个量化值就恢复为00000。因此，即使这个值有一个符号比特，这个信息也是没有用的。然而，要用到5个比特中的4个比特，这个量化值成为00010。因此，这个符值就很有意义了，因为在高位比特中首次出现的1这个值意味着这个量化值解码后是一个不为零的值。

在从各MSB起表示各频率分量中，如果首次碰到的是1而不是0，就在其他值编码前先对这个符号值编码，决定符号值是正还是负。例如，在对MSB编码中，首先对1010编码，然后确定是否需要对符号比特编码。此时，由于在第一和第三频率分量中的非零值首先编了码，因此依次对这两个分量的符号比特进行编码，然后再对0000编码。为了对各LSB编码，对1100编码后，确定是否需要对符号比特编码。在这个情况下，由于这两个1中的第一个1相应的频率分量的符号比特已经在MSB出现1时编了码，因此不需要编码。然而这两个1中的第二个1相应的频率分量在高位没有出现过1，因此需要对符号比特编码。这个符号比特编码后，再对LSB的0100进行编码。

3.改进的编码方法

在应用上述编码方法中，在低比特率的情况下，象下面那样改变编码次序就更为有效。通常，人类的听觉系统对频率分量的分布情况非常敏感，无论是正的还是负的。在这里所提出的编码方法中，只是对符号比特尚未编码、要恢复为零的那些频率分量进行编码，而推迟对符号比特编了码的那些频率分量的编码。在以这种方式完成了符号编码后，再用上面所述的编码方法对推迟的数据进行编码。这种编码方法将用前面所列举的例子详细说明如下。

首先，由于MSB中没有一个频率分量是具有一个已编码的符号比特，因此这些MSB全部加以编码。接着的高位有效比特是0001，0000，…。其中，对于0001，第一个的0和第三个的0不用编码，因为它们的符号比特已在MSB中编了码，于是对第二和第四比特的0和1编码。这里，由于在高位比特中没有1，因此对第四比特1的频率分量的符号比特编码。对于0000，由于在高位比特中没有已编码的符号比特，这四个比特全加以编码。以这种方式，对符号比特编码直至各个LSB，然后再对剩下的未编码信息用前面所述的编码方法从高位有效比特起依次进行编码。

4.可变规模比特流格式

在本发明中，语音信号被编码成由一个底层和几个增强层组成的分层比特流。底层具有最低的比特率，而各增强层具有比底层高的比特率。越高的增强层，比特率也越高。

在底层的前部表示的只是各个MSB，因此只是编了码的所有各频率分量分布概况。随着在较低比特中表示的比特的增多，所表现的信息越来越详细。由于是按照比特率增加的次序，也就是说随着层的增强对更详细的信息数据值编码的，因此可以从更高的层得到更高的语音质量。

下面将说明格式化使用这种所示数据的可变规模比特流的方法。首先，在底层需要用到的辅助信息中，对每个量化频带的量化比特信息编码。各量化值的信息从各MSB到LSB、从低频分量到高频分量依次编码。如果某个频带的量化比特少于当前正在加以编码的频带的比特，就不予编码。在频带的比特等于当前正在加以编码的频带的比特时，就予以编码。这里，如果在对各层的信号编码中没有频带限制，那么就会产生刺耳的声音。这是因为在不考虑频带从MSB到LSB进行编码的情况下，在恢复低比特率层信号时信号出现反复通断。因此，最好按照比特率适当限制频带。

底层编码后，就对下一个增强层的辅助信息和语音数据量化值进行编码。以这种方式对所有各层的数据进行编码。这样编码的信息集在一起，形成相应的比特流。

如上所述，用这种编码装置形成的比特流具有一种分层结构，较低比特率层的比特流包含在较高比特率层的比特流中，如图3所示。传统上，辅助信息首先编码后对剩下的信息进行编码形成比特流。然而在本发明中，如图3所示，每一层的辅助信息分开编码。而且，传统上所有的量化数据的样点值为单位依次编码，而在本发明中，量化数据用二进制数据表示，在比特量限额内从二进制数据的MSB起加以编码，形成相应的比特流。

下面将更为详细地说明这种编码装置的工作情况。在本发明中，在一个具有如图3所示的分层结构的比特流内列有从较重要的信号分量起对各层这些比特率的信息编码得到的信息。利用这样形成的比特流，可以根据用户的请求或者按照传输信道的状态通过简单地重新排列包含在具有最高比特率的比特流中的低比特率比特流形成具有低比特率的比特流。也就是说，编码装置实时形成的比特流或存储在媒体内的比特流可以根据用户的请求重新排列成适合所要求的比特率进行发送。此外，如果用户的硬件性能欠佳或者用户希望解码器不很复杂，那么即使是适当的比特流，也可以只恢复其中部分比特流，从而满足了用户的需要。

例如，在形成一个可变规模比特流中，底层比特率为16Kbps，顶层比特率为64Kbps，而各增强层的比特率间隔为8Kbps，也就是说这个比特流具有比特率为16、24、32、40、48、56和64Kbps这七层。由于编码装置形成的比特流具有图3所示的分层结构，因此顶层64Kbps的比特流含有各增强层(16、24、32、40、48、56和64Kbps)的相应比特流。如果用户请求的是顶层数据，那么就发送顶层的比特流，不需要作任何处理。而如果用户请求的是底层(16Kbps)数据，那么只要发送前面的比特流就可以了。

各层按相应的比特率具有不同的有限带宽，如表2所示，最终的量化频带是不同的。输入数据是以48KHz采样的PCM数据，一个帧的幅度是1024。对于比特率为64Kbps的情况，一个帧的可用比特数平均为1365.333(＝64000bit/s^*(1024/48000))。

表2

比特率(Kbps)	16	24	32	40	48	56	64
比特率(Kbps)	16	24	32	40	48	56	64	限用频带(长块)	0-12	0-19	0-21	0-23	0-25	0-27	0-27
限用频带(短块)	0-4	0-7	0-8	0-9	0-10	0-11	0-11	限用频带(长块)	0-12	0-19	0-21	0-23	0-25	0-27	0-27
限用频带(短块)	0-4	0-7	0-8	0-9	0-10	0-11	0-11	带宽	4KHz	8KHz	10KHz	12KHz	14KHz	16KHz	16KHz

类似，可以按照各比特率计算出一个帧可用的比特数，如表3所示。

表3

比特率(Kbps)	16	24	32	40	48	56	64
比特率(Kbps)	16	24	32	40	48	56	64	比特/帧	336	512	680	848	1024	1192	1365

量化前，利用心理声学模型，首先根据输入数据产生当前正在处理的帧的块类型(是长块、起始块、短块还是终止块)、各处理频带的相应SMR值、短块的划分信息和与心理声学模型时/频同步的受时间延迟的PCM数据，送至时/频映射部。用ISO/IEC11172-3的模型2来计算心理声学模型。

时/频映射部按照应用心理声学模型输出的块类型利用MDCT将时域数据变换成频域数据。此时，在长/起始/终止块的情况下块长度为2048，而在短块的情况下块长度为256，MDCT执行8次。上面使用的是与在传统的MPEG-2NBC[13]中所用的相同的过程。

变换成频域的数据用一个增加的步长进行量化，使得表1所示的量化频带的SNR值小于心理声学模型的输出值SMR。这里，执行的是标量量化，基本的量化步长为21/4。所执行的量化使NMR等于或小于0dB。这里，所得到的输出是各处理频带的相应量化步长的信息。为了对量化信号编码，搜索各编码频带的量化信号相应最大绝对值，然后计算编码所需的最大量化比特。

对于比特流的同步信号来说，通过在比特流前加12个比特，以产生比特流开始的信息。然后对所有比特流的幅值编码。对编码比特流中最高比特率的比特流的信息进行编码。这信息用来产生较低比特率的比特流。在请求的是较高比特率时，可以不同发送另外的比特。接着，需要对块类型编码。以下的编码过程可以稍有不同，这取决于块的类型。为进对一个帧的输入信号编码，按照信号的特征，可以变换一个长块，也可以变换八个短块。由于块的长度这样改变，编码也就稍有不同。

首先，在长块的情况下，由于底层的带宽是4KHz，因此处理的频带一直包括到第12量化频带。现在从分配给每个编码频带的比特信息得出最大量化比特值，用前面所述的编码方法从最大量化比特值起加以编码。然后，对接着的这些量化比特依次编码。如果某个频带的量化比特少于当前正加以编码的频带的比特，就不予编码。在频带的量化比特等于当前正在加以编码的频带的比特时，就加以编码。在首次对一个频带编码时，对这个量化频带的量化步长信息进行编码，再对与各量化频率分量的量化比特相应的值进行采样后进行编码。由于底层的比特率为16Kbps，全部比特限额为336比特。因此，不断计算所用的总比特量，一旦比特量超过336，立即终止编码。为了对量化比特或量化步长信息编码，求得量化比特或量化步长的最小值和最大值，再求得这两个值之差，从而得到所需的比特数。在实际中，对辅助信息编码前，表示各比特所需的最小值和幅度首先用算术编码加以编码，存入比特流。在以后真正进行编码时，对最小值与辅助信息之差编码。然后，对接着的各量化信号依次编码。

类似，通过划分一个长块而形成的8个长度为长块的1/8的短块经过时/频映射和量化，对所得到的量化数据进行无损编码。这里，量化并不是对8个子块各个分开进行的。而是，利用心理声感部发出的8块为3段的信息，收集这些段中的各量化频带(如表2所示)，象长块中的一个频带那样进行处理。因此，可以得到这三段中的每个频带的量化步长信息。为了使底层的带宽与长块情况下一致，频带限制为在1/4以内的这些频带。由于短块具有8个子块，如表2所示，因此每个子块以4个样点为单位划分成一些编码频带。8个子块的这些编码频带加以组合，从32个量化信号中得出量化比特信息。首先，对限用频带内的量化比特信息编码。然后，得出频带限制分量中的最大量化比特，象在长块中那样用上述编码方法进行编码。如果某个频带的量化比特小于当前正加以编码的，就不予编码。如果某个频带的量化比特成为等于当前正加以编码的，就加以编码。在对一个频带编码时，首先对这个量化频带的量化步长信息编码，然后对量化频率分量中与这些量化比特相应的值进行采样，加以编码。

表4

编码频带	量化频带	始标	终标
编码频带	量化频带	始标	终标	0	0	0	3
1	1	4	7	0	0	0	3
1	1	4	7	2	2	8	11
3	3	12	15	2	2	8	11
3	3	12	15	4	4	16	19
5	5	20	23	4	4	16	19
5	5	20	23	6	6	24	27
7	28	31		6		24	27
7	28	31	8	7		32	35
9	36	39	8			32	35
9	36	39	10		8	40	43
11	44	47	10			40	43
11	44	47	12	9		48	51
13	52	55	12			48	51
13	52	55	14		56	59
15	10	60	14		56	59	63
15		60	16	64	67		63
17		68	16	64	67	71
17		68	18	11	72	71	75
19	76	79	18		72		75
19	76	79	20		80	83
21	84	87	20		80	83

形成底层(16Kbps)的全部比特流后，就形成下一层(24Kbps)的比特流。由于这层的带宽为8KHz，因此需要对第19频带以内的各频率分量编码。由于第12频带以内的辅助信息已经记录，因此只需记录第13频带至第19频带的辅助信息。在底层中，通过将每个频带的尚未编码的各量化比特与一个新增加的频带的各量化比特进行比较，得到相应的最大量化比特。以与底层中所用的相同方式从最大量化比特起依次进行编码。当所用的总比特量大于在24Kbps可用的比特量时，立即终止编码，准备形成下一层比特流。以这种方式就可以相继形成其余各层32、40、48、56和64Kbps的比特流。这样形成的比特流具有与如图3所示相同的结构。

下面将详细说明一种对这种编码装置所产生的比特流进行解码的解码装置。图4为这种解码装置的方框图，这种解码装置包括比特流分析部400、能量化部410和频/时映射部420。

比特流分析部400通过分析组成比特流的各比特的重要性，按照产生具有分层结构的比特流的次序，从最高有效比特到最低有效比特对各层的至少具有量化比特和量化步长的辅助信息以及量化数据进行解码。解量化部410将解码得到的量化步长和量化数据恢复成具有原来幅度的信号。频/时映射部420将解量化得到的信号变换成时域信号，供用户复现。

下面将说明这种解码器的工作情况。对由编码装置产生的这样的比特流的解码次序与编码次序相反。解码过程简述如下。首先，对底层辅助信息中的每个量化频带的量化比特信息解码。在解码得到的这些量化比特中，求得最大值。然后象在编码过程中那样，对各量化值从各MSB到LSB和从低频分量到高频分量依次进行解码。如果某个频带的量化比特小于当前正加以解码的，就不予解码。而如果某个频带的量化比特成为等于当前正加以解码的，就加以解码。在对量化值解码期间首先对某个量化频带的信号解码时，由于这个量化频带的步长信息存储在比特流中，因此首先对这信息解码，然后再继续对与量化比特相应的这些值解码

在完成对底层比特流的解码后，对下一层的辅助信息和语音数据的量化值进行解码。以这种方式，可以对所有各层的数据进行解码。以与编码相反的次序，解码过程得到的经量化的数据通过图4中所示的解量化部410和频/时映射部420恢复成为原来的信号。

如上所述，按照本发明，为了满足各种用户请求，可以形成灵活的比特流。也就是说，按照用户的请求，可以将各层这些比特率的信息合并在一个比特流中而没有交叠冗余，从而提供具有良好语音质量的比特流。而且在传输终端和接收终端之间不需要用变换器。此外，任何传输信道状态和各种用户请求都能适应。

由于比特流是可变规模的，因此一个比特流可以含有具有几个比特率的不同比特流。这样，很简单就可以产生各层的比特流。而且，在本发明中，一旦执行了使得NMR小于或等于0dB的量化后，就不再需要比特控制器。因此，编码装置并不复杂。

而且，由于编码是按量化比特的重要性进行的，而不是对每一层先处理上一层的量化信号与原信号之差再进行编码，从而减小了编码装置的复杂程度。

此外，由于各频带的辅助信息在整个比特流始终只使用一次，因此可以改善语音质量。如果降低比特率，由于限用频带，因此大大减小了主要导致复杂的编码和解码的滤波器的复杂程度。这样也就减小了编码和解码装置的复杂程度。此外，还可以按照用户解码器的性能和传输信道的带宽/拥塞情况或者根据用户请求控制比特率或设备的复杂程度。

Claims

1.一种将语音信号编码成一个具有一个底层和数目预定的增强层的分层数据流的可变规模语音编码方法，所述方法包括下列步骤：

(a)对输入的语音信号进行信号处理和按每个预定编码频带进行量化；

(b)在预定的层规模内对与底层相应的量化数据进行编码；

(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码；以及

(d)相继对所有各层执行编码步骤，其中步骤(b)、(c)和(d)各包括下列步骤：

(e)用预定的相同数目的数字表示与一个需编码的层相应的量化数据；以及

(f)对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码。

2.按权利要求1所述的可变规模语音编码方法，其中所述步骤(e)和(f)是从低频率到高频率依次执行的。

3.按权利要求1所述的可变规模语音编码方法，其中所述编码步骤(b)、(c)和(d)是用一种预定的编码方法对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。

4.按权利要求1或3所述的可变规模语音编码方法，其中所述步骤(e)和(f)中的数字都是比特。

5.按权利要求4所述的可变规模语音编码方法，其中所述步骤(f)中的编码是通过以预定个数的比特为单位组合组成比特序列的各比特实现的。

6.按权利要求4所述的可变规模语音编码方法，其中所述预定编码方法是无损编码。

7.按权利要求5所述的可变规模语音编码方法，其中所述预定编码方法是无损编码。

8.按权利要求6或7所述的可变规模语音编码方法，其中所述无损编码是霍夫曼编码。

9.按权利要求6或7所述的可变规模语音编码方法，其中所述无损编码是算术编码。

10.按权利要求1所述的可变规模语音编码方法，其中所述量化数据由符号数据和幅度数据组成时，步骤(f)包括下列步骤：

(i)用一种预定的编码方法对由组成所表示的数字数据的幅度数据的最高有效数字组成的最高有效数字序列进行编码；

(ii)对与已编码的最高有效数字序列中的非零数据相应的符号数据进行编码；

(iii)用一种预定的编码方法对数字数据的未编码的幅度数据中的最高有效数字序列进行编码；

(iv)对与在步骤(iii)中编码的数字序列中的非零幅度数据相应的符号数据中的未编码的符号数据进行编码；以及

(v)对数字数据的各数字执行步骤(iii)和(iv)。

11.按权利要求10所述的可变规模语音编码方法，其中所述步骤(e)是将数字数据表示为具有相同个数的比特的二进制数据，而数字都是比特。

12.按权利要求10所述的可变规模语音编码方法，其中所述编码步骤是通过以预定个数的比特为单位组合组成相应的幅度数据和符号数据的比特序列的各比特实现的。

13.按权利要求11或12所述的可变规模语音编码方法，其中所述预定编码方法是算术编码。

14.按权利要求10所述的可变规模语音编码方法，其中所述编码步骤(b)、(c)和(d)是用一种预定的编码方法对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据执行的。

15.按权利要求1或10所述的可变规模语音编码方法，其中所述量化通过下列步骤实现：

将输入的时域语音信号变换成频域信号；

将经时/频映射变换的信号组合成一些预定子频带的信号，并计算出每个子频带的掩蔽门限；以及

量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

16.一种将语音信号编码成具有预定数目的分层比特率的数据的可变规模语音编码装置，所述装置包括：

一个量化部，其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化；以及

一个比特构组部，其作用是对与一个底层相应的辅助信息和量化数据进行编码，对与这个底层的下一层相应的辅助信息和量化数据进行编码，这样依次对所有各层进行编码，从而产生相应的比特流，所述比特构组部通过用具有预定相同个数的比特的二进制数据表示量化数据，将它分割成一些由比特构成的组，再用一种预定的编码方法对比特分割的数据从最高有效比特序列到最低有效比特序列进行编码来实现编码。

17.按权利要求16所述的可变规模语音编码装置，其中所述比特构组部在数字数据由符号数据和幅度数据组成时，对比特分割的数据中具有相同重要性的比特的幅度数据进行编码，对符号数据中与非零幅度数据相应的未编码的符号数据进行编码，这样的对幅度数据和符号数据的编码都是从各MSB到较低有效比特依次进行的。

18.按权利要求16或17所述的可变规模语音编码装置，其中所述比特构组部在按重要性对各比特进行收集和编码时是通过以预定个数的比特为单位组合这些比特进行编码的。

19.按权利要求16或17所述的可变规模语音编码装置，其中所述比特构组部用霍夫曼编码或算述编码进行编码。

20.按权利要求16或17所述的可变规模语音编码装置，其中所述比特构组部从低频分量到高频分量依次进行编码。

21.按权利要求16或17所述的可变规模语音编码装置，其中所述量化部包括：

一个时/频映射部，其作用是将输入的时域语音信号变换成频域信号；

一个心理声感部，其作用是将经时/频映射变换的信号组合成一些预定子频带的信号，并计算出每个子频带的掩蔽门限；以及

一个量化部，其作用是量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

22.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码方法，所述方法包括下列步骤：

通过分析组成数据流的各比特的重要性，按照生成具有分层比特率的数据流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；

将解码得到的量化步长和量化数据恢复成具有原来幅值的信号；以及

将解量化得到的信号变换成时域信号。

23.按权利要求22所述的可变规模语音解码方法，其中所述解码步骤中的数据都是比特，而数据流是比特流。

24.按权利要求23所述的可变规模语音解码方法，其中所述按重要性解码的步骤是以由预定个数的比特组成的向量为单位进行的。

25.按权利要求23或24所述的可变规模语音解码方法，其中所述解码步骤在量化数据由符号数据和幅度数据组成时包括下列步骤：

通过分析组成数据流的各比特的重要性，按照生成具有分层比特率的数据流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；以及

对量化数据的符号数据进行解码，将解码得到的符号数据与解码得到的相应幅度数据合并在一起。

26.按权利要求23所述的可变规模语音解码方法，其中所述解码步骤用算术解码实现。

27.按权利要求23所述的可变规模语音解码方法，其中所述解码步骤用霍夫曼解码实现。

28.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码装置，所述装置包括：

一个比特流分析部，其作用是通过分析组成比特流的各比特的重要性，按照生成分层比特流中的各层的次序，从高位有效比特到低位有效比特对具有至少量化步长信息和分配给每个频带的量化比特信息的辅助信息以及量化数据进行解码；

一个解量化部，其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号；以及

一个频/时映射部，其作用是将解量化得到的信号变换成时域信号。