CN1195160A

CN1195160A - 可变规模语音编码/解码的方法和装置

Info

Publication number: CN1195160A
Application number: CN97123478A
Authority: CN
Inventors: 金延培
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1997-04-02
Filing date: 1997-12-30
Publication date: 1998-10-07
Anticipated expiration: 2017-12-30
Also published as: EP0869622A2; DE69732761D1; IL122669A0; JPH10285042A; IL122669A; US6094636A; US6108625A; MY117039A; EP0869622A3; JP3354863B2; DE69732761T2; CN1154085C; BR9705838A; KR19980079476A; BR9705838B1; EG21303A; KR100261254B1; ID19832A; EP0869622B1; RU2224302C2

Abstract

本发明提出了一种可变规模语音编码/解码方法和装置。这种编码方法包括下列步骤:(a)对输入的语音信号进行信号处理和按各预定的编码频带进行量化;(b)在预定的层规模内对与底层相应的量化数据进行编码;(c)在预定的层规模内对与已编码的底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码;以及(d)相继对所有各层执行层编码步骤。

Description

可变规模语音编码/解码的方法和装置

本发明属语音编码和解码技术领域，具体地说本发明涉及在一个比特流内不是形成一个比特率而是表示支持以底层为基础的各增强层的多个比特率的数据的可变规模语音编码/解码的方法和装置。

语音系统将信号存入记录/存储媒体，以后根据用户要求复现所存储的信号。

由于近来数字信号处理技术的开发，记录/存储媒体已经从诸如LP或磁带那样的传统的模拟型进展为诸如高密盘或数字语音带那样的数字型。数字存储/恢复方法解决了语音质量降低的问题，与传统的模拟方法相比，大大改善了语音的质量。然而，在存储和发送大量数字数据上仍然还存在着问题。

为了减少数字数据量，已经采用了DPCM(差分脉冲编码调制)或ADPCM(自适应差分脉冲编码调制)来压缩数字语音信号。然而，这种方法有一个缺点，对于不同的信号类型效率相差非常大。最近由ISO(国际标准化组织)标准化的MPEG(动画专家组)语音技术、菲利普公司生产的DCC(数字小型盒带)、索尼公司生产的MD(微型盘)等利用了一个人类心理声学模型来减少数据量。这些传统的方法对于具有不同特性的信号都非常有效地大大减少了数据量。

一种考虑到人类心理声学特性的语言编码装置包括时/频映射部100、心理声感部110、比特分配部120、按所分配的比特进行量化的量化部130和比特构组部140，如图1所示。其中，心理声感部110根据人类听觉特性，特别是掩蔽现象，计算出信号对掩蔽比(SMR)，掩蔽门限，即信号克服有关信号影响而能被听见的最小幅度。比特分配部120利用掩蔽门限根据包括信号中对于可听性来说是重要的部分在有限比特的范围内分配比特，从而实现了有效的数据压缩。

在对数字语音信号的编码中，重要的人类听觉特性是掩蔽效应和临界频带特征。掩蔽效应是一种一个信号(声音)由于受另一个信号(声音)的影响而不能听到的现象。图2例示了这种掩蔽现象。例如，在车站进行低声交谈时，如果有列车通过，那就会由于列车所产生的噪声而听不到对方的谈话。可察噪声的幅度对于噪声幅度是处在监界带范围内、外这两种情况来说可能是不同的。在噪声幅度超出临界带范围的情况下更为容易察觉。

为了利用人类听觉特性进行编码，可以分配给一个临界带的噪声幅度按掩蔽效应和临界频带这两个特征计算。应用这种数字语音编码方法的例如有数字语音广播(DAB)、互联网电话和点播放音(AOD)。

大多数这样的编码方法都支持固定比特率。也就是说，以一个规定的比特率(例如128Kbps，96Kbps，或64Kbps)构成比特流。这种结构在传输信道是为语音数据专用的情况下是没有什么问题的。由于一个专用信道固定地支持一种特定比特率，因此用这个专用信道的特定比特率构成的比特率发送到一个接收端不会出现差错。

然而，如果语音数据的传输信道不稳定，那么在接收站就很难正确解释具有固定比特率的数据。换句话说，在接收端接收到的可能是全部语音数据的比特流，也可能只是其中的一部分，这取决于传输信道的状态。如果在接收端只接收到某些比特流，那么就很难恢复相应的语音数据，从而使语音质量大大下降。

通常，在数字语音编码方法中，一个比特流只在它的头标中含有一个比特率的信息，然后一直维持着这个比特率。例如，如果一个比特流的头标信息表示比特率为128Kbps，那么就沿用这128Kbps的比特流，这表示以相应比特率可以得到最好的语音质量。也就是说，对于一个特定的比特率形成诸如64Kbps、48Kbps或32Kbps那样的语音数据最佳比特流。

然而，这种方法对传输信道的状态非常敏感。因此，如果传输信道很不稳定，数据就不能正确恢复。例如，在一个语音帧由n个时隙构成的情况下，如果在给定的时间内这n个时隙都发送给了接收端，数据就能正确恢复。然而，如果由于传输信道不稳定而只发送了n-m个时隙，那么数据就不能正确恢复了。

此外，在如图3所示的一个发送端所提供的数据由几个接收端接收的情况下，如果各接收端的相应传输端的容量各不相同，或者各接收端分别要求不同的比特率，那么仅支持一个固定比特率的发送端就不能满足要求。在这种情况下，如果语音比特流具有各层不同的比特率，那样就能适当地应付这种环境或用户请求。

为此，有三种方法来调节比特率。第一种方法是将各层信息依次排列在比特流内，从而将比特流以一个所要求的比特率简单地分段，以便以后发送。如图4所示，从底层至顶层依次构成了相应的比特流。于是，每个层的辅助信息和语音数据录在一个比特流内。因此，如果用户请求的只是底层，就只发送与底层相应的比特流。如果请求的是第一层(层1)的信息，那就只发送第一层以下(包括第一层)的比特流。类似，如果请求的是顶层信息，就发送所有的比特流。

第二种方法是用一个装置(例如变换器)根据用户请求在发送端和接收端之间变换比特流。也就是说用图5所示的编码装置形成一个比特率的数据流，然后由变换器根据用户请求变换成比特率较低的数据流发送。此时，编码装置形成的比特流必需含有辅助信息，使得变换器能形成一个较低层的比特流。

第三种方法如图6所示，是用变换器进行重新编码，通过解码形成PCM数据再进行编码这些步骤形成和按用户请求的比特率发送这比特流。例如，在一个64Kbps的比特流发送到一个主传输信道上而用户的传输信道的容量仅为32Kbps时，安装在这两个信道之间的变换器就用64Kbps解码器形成PCM数据，再控制32Kbps编码器形成32Kbps的比特流，通过传输信道发送。

上述这些方法中，第一种方法最为合适，但这种方法有一个缺点，各层中数据冗余较大，因此性能较差。第二种方法与第一种方法相比语音质量稍有改善。然而，用一个较低的比特率格式化比特流要随编码器发出的辅助信息而变。此外，由于这过程通过变换器，因此就延迟和成本而言这种方法不及第一种方法。在第三种方法中，由于变换器要起着一个解码器和一个编码器的作用，因此增加了复杂性，使过程花费大，并且由于需要进行重新格式化而受到了延迟。然而，由于输入变换器的比特流没有冗余，第三种方法的语音质量要比第一种方法的好。虽然很难区别第二种方法(重新格式化)和第三种方法(重新编码)，但第三种方法在形成低比特流中采用了解量化。

在一个可变规模系统中，由于变换器用来直接将用户与传输端相连，因此必需减小变换器的复杂程度。所以，由于一般使用的是无延迟而较经济的不太复杂的变换器，因此采用不用重新编码的方法。通常，为了形成第一种方法中的比特流，如图7所示，首先对于较低的层进行编码，然后再进行解码，再将原信号与解码所得的信号之差输入下一层的编码器进行处理。这种方法通常需要至少两次编码。也就是说，要用一个核心编码解码器产生底层，再加上另一个编码解码器来产生其他的层。然而，这种方法由于需要至少两个编码器，因而编码系统比较复杂。由于需要多个解码器，解码系统也比较复杂。而且，层数越多，编码就越复杂。这是因为需要将为各层所产生的相应时域数据相加才能得到相应层的正确时域数据。

为了解决上述问题，本发明的一个目的是提出一种通过在一个比特流中无冗余地组织对于不同层的各比特率的信息能有效利用传输信道、满足各种用户请求和提供良好语音质量的可变规槿模语音编码/解码的方法和装置。

为了达到这个目的，本发明所提出的将语音信号编码成一个具有一个底层和数目预定的增强层的分流数据流的可变规模语音编码方法包括下列步骤：(a)对输入的语音信号进行信号处理和按各预定的编码频带进行量化；(b)在预定的层规模内对与一个底层相应的量化数据进行编码；(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码；以及(d)相继对所有各层执行层编码步骤，其中步骤(b)、(c)和()各包括下列步骤：(i)得出表示与属于一个需编码层的各子频带相应的量化数据的比特数的全程比特分配信息；(ii)得出分配给各层每个子频带宽度内各子频带的比特数；(iii)对于与所分配的比特数相应的量化数据，产生表示形成子频带的各预定频率分量的量化数据是否存在的标志；以及(iv)通过用一种预定的编码方法对与全程比特分配信息、量化步长、标志和分配给各子频带的比特数相应的量化数据进行编码，产生相应的比特流。

与所分配的比特数相应的量化数据是从最高有效比特到最低有效比特量化的。

对与所分配的比特数相应的量化数据的编码是在步骤(iv)中通过以预定的比特数为单位组合量化数据实现的。

在步骤(ii)中的所分配的比特数为一个比特，而步骤(iv)是用一种预定的编码方法产生作为比特流的全程比特分配信息和标志。这里，预定的编码方法是无损编码。无损编码是霍夫曼编码或算术编码。

步骤(a)包括下列步骤：将输入的时域语音信号变换成频域信号；将时/频映射变换的信号组合成各预定子频带的信号，并确定每个子频带的掩蔽门限；以及量化每个每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

此外，本发明还提出了一种将语音信号编码成具有预定数目的比特率的分层比特率数据的可变规模语音编码装置，这种装置包括：一个量化部，其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化；以及一个比特构组部，其作用是对一个底层的各子频带的表示属于这个底层的各子频带的量化数据的比特数的全程比特分配信息、表示与分配给各子频带的比特数相应的量化数据的预定频率分量的数据是否存在的标志、量化步长和量化数据进行编码，在底层编码完成后对下一层的全程比特分配信息、标志、量化步长和量化数据进行编码，这样依次对所有各层进行编码，产生相应的比特流。

对与分配给每个子频带的比特数相应的量化数据的编码是从最高有效比特到较低有效比特依次执行的。

在比特构组部按重要性收集和编码比特时，通过以预定比特数为单位组合比特进行编码。

比特构组部的所分配比特数为一个比特，而对全程比特分配信息和标志的编码是用一种预定的编码方法进行的。

比特构组部从低频分量到高频分量依次进行编码。

量化部包括：一个时/频映射部，其作用是将输入的时域语音信号变换成频域信号；一个心理声感部，其作用是用各预定的子频带信号组合时/频映射变换的信号，并确定每个子频带的掩蔽门限；以及一个量化部，其作用是量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

按照本发明的另一表现形态，提出了一种对编码成具有分层比特率的语言数据进行解码的可变规模语音解码装置，这种装置包括一个比特流分析部，其作用是对一个底层的各子频带的表示属于这个底层的各子频带的量化数据的比特数的全程比特分配消息、表示与分配给各子频带的比特数相的量化数据的预定频率分量的数据是否存在的标志、量化步长和量化数据进行解码，按照产生比特流各层的次序对各层进行解码，得出分配给属于每一层的各子频带的比特数和标志得出与所分配的比特数相应的量化数据；一个解量化部，其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号；以及一个频/时映射部，其作用是将解量化得到的信号变换成时域信号。

在解码步骤中的对量化数据的解码是从最高有效比特到较低有效比特进行的。

本发明的以上这些目的和优点通过以下结合附图对本发明的优选实施例所进行的详细说明就可以更加清楚，在这些附图中：

图1为利用心理声学特性的普通语音数据编码装置的方框图；

图2为示出掩蔽现象的示意图；

图3为示出一个通用的传输信道系统的方框图；

图4示出了一个含有支持多层比特率的信息的比特流；

图5为说明重新格式化情况的示意图；

图6为说明重新编码情况的示意图；

图7为一个普通的可变规模编码装置的方框图；

图8为本发明所提出的一种编码装置的方框图；

图9A至9G例示了本发明所提出的一种编码装置的工作原理；

图10例示了利用一个比特平面掩码提取标志的情况；

图11A和11B例示了一种数据产生算法的执行情况；

图12示出了一种按照本发明所形成的比特流结构；以及

图13为本发明所提出的一种解码装置的方框图。

下面将结合附图对本发明的优选实施例进行详细说明。在本发明中，将对于多层的各比特率的信息表示在一个比特流中，这样就可以按照用户请求或传输信道状态直接将对于有关各层相应比特率的比特流重新格式化后发送出去。例如，在底层为16Kbps，顶层为64Kbps，而每个增强层为8Kbps的情况下，对于16Kbps、24Kbps、32Kbps、40Kbps、48Kbps、56Kbps和64Kbps各层的信息都包含在对于64Kbps的顶层的比特流内。如果用户请求顶层的数据，这个比特流就不加任何处理发送出去。然而，如果用户请求的是相应于16Kbps的底层的数据，那么就只截取前面部分的比特流发送出去。

图8为本发明所提出的编码装置的方框图。这个编码装置包括量化处理部830和比特构组部840。

对输入的音频信号进行信号处理和按预定各编码频带量化的量化处理部830包括时/频映射部800、心理声感部810和量化部820。

时/频映射部800将输入的时域音频信号变换成频域信号。人耳所感觉的信号特性差异在时域上并不很大。然而，按照人类心理声学模型，对每个频带的感觉都有很大的不同。因此，通过对于不同的频带分配不同的量化比特数可以增强压缩效果。

心理声感部810将经时/频映射部800变换的信号用预先确定的各子频带的信号组合起来，利用各信号之间相互作用所产生的掩蔽现象计算出每个子频带的掩蔽门限。

量化部820量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。也就是说，对每个频带的各频率信号进行标量量化，使得每个频带的量化噪声都小于掩蔽门限而不能察觉。所执行的是使在每个频带所产生的噪声与由心理声感部810计算得的掩蔽门限之比NMR(噪声掩蔽比)小于或等于0dB的量化。NMR值小于或等于0dB意味着掩蔽门限高于量化噪声。也就是说，听不到量化噪声。

比特构组部840对与具有最低比特率的底层相应的辅助信息和量化数据以及与底层的下一层相应的辅助信息和量化数据进行编码，通过对所有各层都执行这个过程产生相应的比特流，这在下面还要详细加以说明。为了对属于有关层的各子频带进行编码，得出表示与各层相应的量化数据的比特数的全程比特分配信息。然后，得出在各层的带宽范围内为各频带分配的比特数。对于与分配给每个频带的比特数相应的量化数据，产生一些分别表示组成各频带的预定频率分量的量化数据是否存在的标志。对与分配给各频带的比特数相应的量化数据从数据的MSB到较低的比特进行编码。量化数据的编码可以从较低的频率分量到较高的频率分量以预定比特数为单位执行。

下面将对本发明的工作情况进行说明。如图7所示，最广泛使用的记录一个比特流内的多层信息的方法是存储从高层到低层执行的编码结果，对结果解码，再对所恢复的信号与原信号之差进行处理后存储在下一层内。例如，在底层为16Kbps时，就将16Kbps的编码结果存储在比特流内。得出原信号与16Kbps编码数据的解码结果之差，根据下一层进行编码。在这种方法中，由于在比特流内有许多冗余部分，音频信号质量下降。也就是说，较低频带的数据在几个层内是冗余的。为了避免冗余，对于相同的频率分量在各层中所表示的数据之间必需有连续性。例如，如果m个比特分配给第i层，而n个比特分配给第i-1层，那么由(n+m)个比特表示的数据必需作为一个信息有效。

在本发明中，为了保持相同频率分量在各层中所表示的数据之间的连续性，从MSB开始表示数据，情况将结合图9A-9G予以说明。

图9A示出了由量化部820执行的对于NMR＝0dB的量化结果。在每一层中从MSB开始表示数据。也就是说，在底层中只表示MSB，如图9B所示。如果以这种方式进行表示直至顶层，那么就表示了数据的所有比特。因此，随着层的往上，所表示的信息越来越详细。发送给解码器的数据包括表示分配给频带的比特数的全程比特分配信息、数据标志和数据比特。标志表示数据比特在频带中的位置，用一个比特平面掩码产生。这个比特平面掩码的所有比特的值均为1。标志通过对比特平面掩码和数据的MSB执行次数等于掩码比特数的与操作产生，如图10所示。

对于图10所例示的频带，比特分配信息为7比特。例如，解码器将最高数据识别为‘1000000’，即使是在底层的MSB中只有一个1比特数据。由于MSB为1，这个最大比特数为7的频带的值大于‘1000000，。这个值由下一层的一个识别为‘1100000’。标示表示数据值为1和数据的位置。因此，1作为标志值要从图9A-9G的‘1000001，表示中除去。所以，在解码器中对于数据比特表示的‘1000000’由于加了作为标志值的1而恢复为‘1000001’。在图9A-9G中，第二和第五步之后的数据都表示不发送给解码器的数据。数据用霍夫费编码、行程长编码或算术编码表示。数据用来作为与此相应的比特。此外，在数据比特是一个1比特的数据比特时，数据比特也可以用标志表示。这意味着根据用掩码产生的值1可以确定在相应位置存在着MSB。因此，即，使没有其他数据比特，也能表示整个值。例如，在比特分配信息为5时，底层标志值的1表示1和‘10000’。因此，恢复后的值为‘ 10001，。

如上所述，在每一层中所表示的一个1比特的数据比特实质上可以加以变换，表示每一层中的一个或多个比特。

为了表示每个频带的数据，首先用至少一个比特表示与每一层相应的这个频带的MSB，然后从低频带到高频带按比特分配信息的数值次序排列数据。也就是说，由于具有值大的比特分配信息的频带是一个重要频带，因此首先编码；而具有值小的比特分配信息的频带是一个不大重要的频带，所以随后编码。以下算法用来产生每一层的数据，利用这个算法可以计算每一层的比特分配信息和数据，形成一个可变规模比特流。

for(band＝0；band＜band_end[Top_Layer]；band++)

　　    for(layer＝Base_Layer；layer＜Top_Layer；layer++)

　　        layer_bal[layer][band]＝0；

　　/*max_bit_alloc：bit size of corresponding band

　　                 calculated by quantizer*/

　　for(band＝0；band＜band_end[Top_Layer]；band++)

　　     bit+alloc[band]＝max_bit_alloc[band]；

　　used_bits＝0；

　　for(layer＝Base_Layer；layer＜Top_Layer；layer++)

　　{
				
				<dp n="d9"/>
for(band＝band_start[layer]；band＜band_end [layer]；

　　                          band++)
{
if(bit_alloc[band]＜2)continue；
layer_bal[layer][band]＝bit_alloc[band]/2；
bits＝quantizer(isample，

　　           layer_sample[layer]，

　　           bit_alloc[band]，

　　           layer_bal[layer][band]，

　　           band)；
if(used_bits+bits＞available_bits_for_this_layer[layer])

　　break；
used_bits+＝bits；
bit_alloc[band]-＝layer_bal[layer][band]
}
while(used_bits＜available_bits_for_this_layer[layer])
{
band＝-1；
max bal＝0；
for(scfb＝0；scfb＜band_end[layer]；scfb++)
{
   if(max_bal＜bit_alloc[scfb])
  {

　　max_bal＝bit_alloc[scfb]；

　　Band＝scfb；
   }
}
layer_bal[layer][band]++；
bit_alloc[band]--；
bits＝quantizer(isample，
				
				<dp n="d10"/>
　　              layer_sample[layer]；

　　              max_bit_alloc[band]，

　　              band)；

　　      if(used_bits+bits＞available_bits_for_this_layer[layer])

　　      {

　　        layer_bal[layer][band]--；

　　        bit_alloc[band]++；

　　        break；

　　      }

　　used_bits+＝bits；

　　}

　　for(band＝0；band＜band_end[layer]；band++)

　　      Max_bit_alloc[band]-＝layer_bal[layer][band]；

　　}

图11A和11B例示了底层和层1的数据产生算法的执行情况。在图11A和11B中，初始比特分配信息相应于全程比特分配信息的一半。在剩下的比特分配信息(全程比特分配信息减去初始比特分配信息)中，比特分配按信息值次序执行。在上述这种算法中，底层比特限额范围内其他比特只可以转给第二频带。底层处理结束后，通过从原信号中减去已处理的信号所得到的信号在第二层中处理。

随着层以这种方式上移，可以表示更为精确的数据值。因此，按照各层的增强作用，语音质量就可以得到改善。

下面详细说明利用这样表示的数据形成可变规模比特流的方法。首先，记录对于底层带宽的辅助信息。辅助信息包括每个频带的比特分配信息和解量化必需的量化步长。这里，在对相应频带执行比特分配时，首先就录下量化步长。在辅助信息后，记录底层语音数据值。记录数据值是在MSB信息后从第一频带到在取决于底层比特率的比特限额内可表示的频带依次进行的。然后，计算出数据标志。在图11A和11B中，由实线方框所示的标志和数据比特录在比特流内。此时，如果每一层比特分配信息为零，就没有数据要记录。此外，在每一层比特分配信息不为零的情况下，如果没有标志信息(即如果标志均为零)，就不记录数据比特而只记录标志。在结束了对底层的记录后，记录下一层的辅助信息和语音数据的量化值。各层都以这种方式进行记录。图12示出了这样记录的比特流的结构。

下面将通过一个例子详细说明本发明所提出的编码方法。例如，底层的比特率为16Kbps，顶层的比特率为64Kbps，而各增强层比特率间隔为8Kbps，也就是说，这个比特流具有16Kbps、24Kbps、32Kbps、40Kbps、48Kbps、56Kbps和64Kbps这七层。如以下表1所示，所处理的各层的带宽是有限制的。输入数据是以48KHz采样的PCM数据，而一个帧的幅度是1024。在比特率为64Kbps的情况下，一帧的比特数平均为1365(＝64000bit/s×(1024/48000))。

表1

比特率(Kbps)	带宽(KHZ)
比特率(Kbps)	带宽(KHZ)	16	3.5
24	6	16	3.5
24	6	32	7.5
40	10	32	7.5
40	10	48	12
56	14	48	12
56	14	64	16

首先采用一个心理声学模型，从输入数据计算出必需的信息。ISO/IEC 11172-3 Model2用来计算这个心理声学模型。心理声感部810的输出是当前处理的帧的分块型式(长、开始、短或终了)、各处理频带的SMR、短块的分块信息和经延迟的与心理声感部810和时/频映射部800同步的PCM数据。

时/频映射部800按照心理声感部810输出的块类型利用MDCT将时域数据变换成频域数据。此时，在长/开始/终了块和短块的情况下块长度分别为2048和256，而MDCT执行8次。

变换成频域数据的数据用心理声感部810输出的SMR值进行量化。这里执行的是标量量化，基本的量化步长为21/4。所执行的量化保证NMR等于或小于0dB。所得到的输出是有关数化数据、各处理频带的量化步长和能表示频带的最大值的比特数(即全程比特分配信息)。

每一层的数据用上述算法产生，下面将通过一个优选实施例对此予以说明。由于底层的带宽为3.5KHz，因此处理的是第12频带以内的各频带。首先，利用直至第12频带的全程比特分配信息，产生底层的比特分配信息。从第0频带提取是在全程比特分配信息所表示的一半的这些比特内的数据进行检验，确定是否能在底层的比特额度内加以表示。如果能，则对下一频带执行与对第0频带所执行的相同的过程。当过程一直继续到第12频带后，通过在当前正在处理的这些频带中从具有最大比特分配信息的那个频带起依次再给各频带分配一个比特，检验是否会有一个频带超出比特限额，还是在比特限额内可以表示第12频带以内的所有频带。如果底层的处理结束，就将原数据值减去在底层中所处理的值得到的值作为下一层处理的输入数据。对其他层执行的处理与在底层中执行的处理相同。

表2

Band	Frequency(Hz)	Band	Frequency(Hz)	Band	Frequency(Hz)
Band	Frequency(Hz)	Band	Frequency(Hz)	Band	Frequency(Hz)	0	188	10	3093	20	9843
1	375	11	3468	21	10593	0	188	10	3093	20	9843
1	375	11	3468	21	10593	2	562	12	3843	22	11343
3	844	13	4593	23	12093	2	562	12	3843	22	11343
3	844	13	4593	23	12093	4	1125	14	5343	24	13031
5	1406	15	6093	25	14062	4	1125	14	5343	24	13031
5	1406	15	6093	25	14062	6	1687	16	6843	26	15093
7	1968	17	7593	27	16125	6	1687	16	6843	26	15093
7	1968	17	7593	27	16125	8	2343	18	8343	28
9	2718	19	9093	29		8	2343	18	8343	28

下面将详细说明对上述编码装置所产生的比特流进行解码的解码装置。图13示出了这种解码装置的方框图，它包括比特流分析部10、解量化部20和频/时映射部30。

比特流分析部10按照比特流产生次序对各层的全程比特分配信息、量化步长、标志和量化数据进行解码，得出分配给属于每一层的频带的比特数，参照标志得出与所分配的比特数相应的量化数据。

解量化部20将解码得出的量化步长和量化数据恢复成具有原来幅度的信号。频/时映射部30将解量化得出的信号变换成时域信号，以便用户加以复现。

下面将说明这种解码装置的工作情况。对编码装置所产生的比特流进行解码的次序与编码的次序相反。首先，对底层信息解码。解码过程简述如下。首先，对底层的辅助信息，也就是全程比特分配信息、量化步长和标志，进行解码。然后，得出分配给属于底层的各频带的比特数，参照标志对与此相应的量化数据进行解码。这里，编码比特流中的量化值是依从MSB到LSB、从低频分量到高频分量的次序解码的。解码利用与编码过程中所用的编码方法相应的方法进行。最好采用无损解码方法，例如霍夫曼解码方法或算述解码方法。

完成了对于底层的比特流解码后，对下一层的辅助信息和语音数据的量化值进行解码。以同样的方式，可以对所有层的数据进行解码。解码过程得出的量化数据，按与编码相反的次序，通过解量化部20和频/时映射部30恢复成原来的信号，如图13所示。

如上所述，按照本发明，不同层的各比特率的数据表示在一个比特流内，因此可以自适应地满足各传输信道的状态和用户的不同请求。

此外，由于各层用的是同一个编码器，因此降低了编码器的复杂程度。而且，由于数据处理在频域进行，而不需要对各层之间时域数据的差进行编码，这也降低了编码器的复杂程度。

同样，由于各层用的是同一个解码器，因此降低了解码器的复杂程度。此外，由于对于每一层都只是产生一次时域数据，因此也降低了解码器的复杂程度。而且，由于各层的比特流是直接产生的，这也降低了解码器的复杂程度。还有，由于各层的数据比特之间是连续的，因此提供了良好的语音质量，很容易适合各种传输信道的状态和用户的请求。

此外，按照本发明，为了满足各种用户请求，形成了灵活的比特流。也就是说，根据用户请求，对于不同层的各比特率的信息合并成一个没有冗余的比特流，从而提供了具有良好的语音质量的比特流，而且在传输端和接收端之间不需要任何变换器。此外，任何传输信道状态和各种用户请求都可以得到满足。

本发明既可用于有线系统，也可用于无线系统。

Claims

1.一种用来将语音信号编码成一个具有一个底层和数目预定的增强层的分层数据流的可变规模语音编码方法，所述方法包括下列步骤：

(a)对输入的语音信号进行信号处理和按每个预定的编码频带进行量化；

(b)在预定的层规模内对与底层相应的量化数据进行编码；

(c)在预定的层规模内对与已编码底层的下一个增强层相应的量化数据和属于已编码层而尚未编码的剩下的量化数据进行编码；以及

(d)相继对所有各层执行层编码步骤，其中步骤(b)、(c)和(d)各包括下列步骤：

(i)得出表示与属于一个需编码层的各子频带相应的量化数据的比特数的全程比特分配信息；

(ii)得出分配给各层每个子频带宽度内各子频带的比特数；

(iii)对于与所分配的比特数相应的量化数据，产生表示形成子频带的各预定频率分量的量化数据是否存在的标志；以及

(iv)通过用一种预定的编码方法对与全程比特分配信息、量化步长、标志和分配给各子频带的比特数相应的量化数据进行编码，产生相应的比特流。

2.根据权利要求1所述的可变规模语音编码方法，其中所述与所分配的比特数相应的量化数据是从最高有效比特到最低有效比特量化的。

3.按权利要求2所述的可变规模语音编码方法，其中所述对与所分配的比特数相应的量化数据的编码是在步骤(iv)中通过以预定的比特数为单位组合量化数据实现的。

4.按权利要求2所述的可变规模语音编码方法，其中所述步骤(ii)中的所分配的比特数为一个比特，而所述步骤(iv)是用一种预定的编码方法产生作为比特流的全程比特分配信息和标志。

5.按权利要求1所述的可变规模语音编码方法，其中所述预定编码方法是无损编码。

6.按权利要求5所述的可变规模语音编码方法，其中所述无损编码是霍夫曼编码。

7.按权利要求5所述的可变规模语音编码方法，其中所述无损编码是算术编码。

8.按权利要求1所述的可变规模语音编码方法，其中所述步骤(a)包括下列步骤：

将输入的时域语音信号变换成频域信号；

将时/频映射变换的信号组合成各预定子频带的信号，并确定每个子频带的掩蔽门限；以及

量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

9.一种对语音信号进行编码以形成具有预定数目的比特率的分层比特率数据的可变规模语音编码装置，所述装置包括：

一个量化部，其作用是对输入的语音信号进行信号处理和按每个编码频带进行量化；以及

一个比特构组部，其作用是对一个底层的各子频带的表示属于这个底层的各子频带的量化数据的比特数的全程比特分配信息、表示与分配给各子频带的比特数相应的量化数据的预定频率分量的数据是否存在的标志、量化步长和量化数据进行编码，在底层编码完成后对下一层的全程比特分配信息、标志、量化步长和量化数据进行编码，这样依次对所有各层进行编码，产生相应的比特流。

10.按权利要求9所述的可变规模语音编码装置，其中所述对与分配给每个子频带的比特数相应的量化数据的编码是从最高有效比特到较低有效比特依次执行的。

11.按权利要求10所述的可变规模语音编码装置，其中所述比特构组部在按重要性收集和编码比特时，通过以预定比特数为单位组合比特进行编码。

12.按权利要求10所述的可变规模语音编码装置，其中所述比特构组部的所分配比特数为一个比特，而对全程比特分配信息和标志的编码是用一种预定的编码方法进行的。

13.按权利要求10所述的可变规模语音编码装置，其中所述比特构组部从低频分量到高频分量依次进行编码。

14.按权利要求9或10所述的可变规模语音编码装置，其中所述量化部包括：

一个时/频映射部，其作用是将输入的时域语音信号变换成频域信号；

一个心理声感部，其作用是用各预定的子频带信号组合时/频映射变换的信号，并确定每个子频带的掩蔽门限；以及

一个量化部，其作用是量化每个预定编码频带的信号，使得每个频带的量化噪声都小于掩蔽门限。

15.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码方法，所述方法包括下列步骤：

对一个底层的各子频带的表示属于这个底层的各子频带的量化数据的比特数的全程比特分配消息、表示与分配给各子频带的比特数相应的量化数据的预定频率分量的数据是否存在的、量化步长和量化数据进行解码，按照产生比特流各层的次序对各层进行解码，得出分配给属于每一层的各子频带的比特数和参照标志得出与所分配的比特数相应的量化数据；

将解码得到的量化步长和量化数据恢复成具有原来幅度的信号，以及

将解量化得到的频域信号变换成时域信号。

16.按权利要求15所述的可变规模语音解码方法，其中所述解码步骤中的量化数据的解码是从最高有效比特到较低有效比特进行的。

17.按权利要求15所述的可变规模语音解码方法，其中所述解码步骤中的量化数据的解码是以由预定数目的比特构成的向量为单位进行的。

18.按权利要求15所述的可变规模语音解码方法，其中所述解码步骤是用算术解码执行的。

19.按权利要求15所述的可变规模语音解码方法，其中所述解码步骤是用霍夫曼解码执行的。

20.一种对编码成具有分层比特率的语音数据进行解码的可变规模语音解码装置，所述装置包括：

一个比特流分析部，其作用是对一个底层的各子频带的表示属于这个底层的各子频带的量化数据的比特数的全程比特分配消息、表示与分配给各子频带的比特数相应的量化数据的预定频率分量的数据是否存在的标志、量化步长和量化数据进行解码，按照产生比特流各层的次序对各层进行解码，得出分配给属于每一层的各子频带的比特数和参照标志得出与所分配的比特数相应的量化数据；

一个解量化部，其作用是将解码得到的量化步长和量化数据恢复成具有原来幅度的信号；以及

一个频/时映射部，其作用是将解量化得到的信号变换成时域信号。

21.按权利要求20所述的可变规模语音解码装置，其中所述解码步骤中对量化数据的解码是从最高有效比特到较低有效比特进行的。