CN1965352A

CN1965352A - 音频编码

Info

Publication number: CN1965352A
Application number: CNA2005800189351A
Authority: CN
Inventors: A·C·登布林克; A·J·杰里茨; F·里拉帕劳
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-06-08
Filing date: 2005-06-03
Publication date: 2007-05-16
Anticipated expiration: 2025-06-03
Also published as: WO2005122146A1; US20080312915A1; EP1756807A1; CN1965352B; ATE378676T1; DE602005003358T2; DE602005003358D1; EP1756807B1; JP2008502022A

Abstract

近来已经提出了一种用于构建可缩放音频编码器的混合正弦/脉冲激励编码器。由正弦编码器提供的数据构成的基本层保留了以低比特率达到媒体的高质量音频的主要特性。可以通过增加与降低抽取相关的激励信号层来进一步增强质量，该抽取渐增模拟原始信号的越来越多精细方面。本发明提供了一种混合不同激励信号使得无需折中编码信号的质量就可以实现缩放性的全部概念。当构建一个新的较高层时，通过一个质量参数来控制所述混合，该质量参数加权先前层的有效性。

Description

音频编码

本发明涉及广播信号，尤其是音频信号的编码和解码。本发明还涉及一种编码器和解码器，以及一种根据本发明编码的音频流和其上存储了该音频流的数据存储媒体。

当传输广播信号时，例如诸如语音之类的音频信号，使用压缩或者编码技术来降低信号的比特率。降低比特率相当于降低了传输所需的带宽。

图1示出了一种已知的参数编码器的示意图，尤其是一种在WO01/69593中描述的，并且在本发明中使用的正弦编码器。在该编码器中，一个输入音频信号x(t)被分割为(很可能是重叠)多个时间片段或者帧，每一个的持续时间典型地是20ms。每一个片段被分解为瞬时，正弦和噪声分量，并且分别产生描述这些信号分量的参数CT、CS和CN。还可能产生例如谐波混合的输入音频信号的其他分量，尽管他们与本发明的目的不相关。

编码器的第一级包括瞬时编码器11，其包括瞬时检测器(TD)110、瞬时分析器(TA)111和瞬时合成器(TS)112。该检测器110估计是否具有一个瞬时信号分量及其位置。这一信息被提供给瞬时分析器111。如果瞬时信号分量的位置被确定，则该瞬时分析器11试图提取瞬时信号分量或者其最重要部分。并且更适宜地在一个估计的开始位置起将一个形状函数与一个信号片段匹配，并且通过使用例如(很少)一些正弦分量来确定在形状函数下的内容。这一信息包含在瞬时代码CT中。

瞬时代码CT被提供给瞬时合成器112。在减法器16中从输入信号x(t)中减去合成的瞬时信号分量从而产生一个信号x_A。一个增益控制机构GC(12)被用于从x_A产生x_B。信号x_B被提供给正弦编码器13，在其中，该信号在一个用于确定正弦分量(即，确定性分量)的正弦分析器(SA)130中被分析。正弦编码的最终结果是一个正弦代码C_S并且在国际专利申请公开号WO00/79519中提供了一个更为详细地示出了示例性正弦代码C_S的例子。

根据由正弦编码器产生的正弦代码C_S，正弦信号分量被一个正弦合成器(SS)131重建。在减法器17中从输入信号X_B中减去正弦编码器13的这一信号从而产生一个缺少(大)瞬时信号分量和(主要)确定性正弦分量的残留信号xC。

如在WO01/89086A1中所述的，假设残留信号xC主要包括噪声并且噪声分析器14产生表示这一噪声的噪声代码CN。

图2(a)和(b)示出了适合于被用作图1中的噪声分析器14的编码器(NA)和相应解码器(ND)的通常形式。对应于图1中的残留x_C的第一音频信号r1输入到包括第一线性预测(SE)级的噪声编码器，该第一线性预测(SE)级用于频谱平滑信号并且产生一个预定顺序的预测系数(Ps)。更具体地，一个Laguerre滤波器可以被用于提供取决于信号平滑的频率，如在E.G.P.Schui jers，A.W.J.0omen，A.C.den Brinker和A.J.Gerrits，“Advances in parametric coding for high-qualityaudio”，Proc.1 st IEEE Benelux Workshop on Model based Processingand Coding of Audio(MPCA-2002)，Leuven，Belgium，15 2002年11月15日，pp.73-79所述的。残留r2输入到时间包络估计器(TE)，该时间包络估计器产生一组参数Pt以及可能地产生时间平滑的残留r3。参数Pt可以是一组描述时间包络的增益。替代的，它们可以是从频域的线性预测中获得的描述正常化的时间包络的参数，如线性频谱对(LSP)或者线性频谱频率(LSF)，其随后每一帧被增加一个增益参数。

在参数噪声解码器(ND)中，产生一个合成的白噪声序列(在WNG中)并且产生一个具有时间和频谱平坦包络的信号r3`。时间包络产生器(TEG)基于接收到的、量化的参数Pt`增加时间包络从而产生r2`，并且频谱包络产生器(SEG，时变滤波器)基于接收到的，量化的参数Ps`增加频谱从而产生一个噪声信号r1`。

在多路复用器15中，构成了一个包括代码CT、CS和CN的音频流AS。

正弦编码器13和噪声分析器14被用于所有或者大部分片段并且等于比特率预算的最大部分。

众所周知，参数音频编码器可以以相对较低的比特率给出相应较好的质量，例如20kbit/s。但是，在较高的比特率质量增加了，由于增加比特率的函数还是很低。因此，就需要一个额外的比特率来获得完美的或者透明的质量。因此，利用参数编码以可比于例如波形编码器的比特率的比特率来实现透明是很困难的。这意味着构造具有完美或者透明质量的参数音频编码器而不使用额外比特预算是很困难的。

在参数编码难以达到透明的基本原因存在于定义的目标中。参数编码器在编码音调分量(正弦)和噪声分量(噪声编码器)中很有效。但是，在真实音频中，很多信号分量落入到一个灰色区域中：它们即不能被噪声精确地模拟，也不能被模拟为(很少数量的)正弦波。因此，在参数音频编码器中目标的真实定义是达到完美或者透明质量等级的瓶颈，尽管得益于一个用于媒体质量等级的观看的比特率点。

同时，传统的音频编码器(子代和转换)以一定的比特率提供了完美的或者透明的编码质量，典型地大约以80-130kbit/s用于以44.1kHz抽样的立体声信号。转换和参数编码器的组合(所谓的混合编码器)已经被建议，例如在2002年5月24日提交的欧洲专利申请号02077032.7中公开的。在此，音频信号的频谱-时间间隔，(其另外将会被子带编码)被选择性地利用噪声参数编码以试图在保持音频质量的同时降低比特率。

替代的，转换或者子带编码器可以与图1所示种类的参数编码器级联。但是，对于这种布置的期望编码增益最小，其中参数编码器在转换或者子带编码器之前。这是由于音频信号的可感知的最重要区域是由正弦编码器捕捉到，而只留下了在转换/子带编码器中编码增益的可能性很少。

利用频谱平滑和每一采样使用很少数量比特的残留信号模拟的音频编码器被公开于：A.Harma和U.K.Laine，“Warped lowdelay CELP forwide-band audio coding”，Proc.AES 17th Int.Cof.：High Quality AudioCoding，pages207-215，Florence，Italy，2-5 Sep，1999；S.Singhal，“Highquality audio coding using multi-pulse LPC” ，Proc.1990Int.Conf.Acoustic Speech Signal Process.(ICASSP90)，1101-1104页，Atlanta GA，1990，I EEE Piscataway，NJ；和X.Lin，“High qualityaudio coding using analysis-by synthesis technique”，Proc.1991Int.Conf.Acoustic Speech Signal Process.(ICASSP91)，3617-3620页，Atlanta OA，1991，JEEE Piscataway，NJ。在很多论文中，已经示出了这一编码策略实现了以对应于用于单声道信号的2比特/抽样(用于44.1kHz音频的88.2kbit/s)的比特率的完美或者透明的质量。在此方面，它们没有超过子带或者转换编码器的性能。

缩放比特流的可能性看起来在许多应用中很有吸引力，其中在这些应用中音频素材应当提供以不同信号质量或者比特率访问的可能性，这如同在音乐分配的情况下。比特流的可缩放性允许内容提供者仅仅存储编码素材的一个版本。另外一种有趣的应用是使用编码信号的第一(基本)层从而提供音频“缩略图”，其中对文件的全部版本的后续访问无需基本层素材的重发。基于RPE的用于建立分层比特流的编码器在S.Zhang和G.Lockhart，“Embedded RPE based on multistage coding”，IEETransactions on Speech and Audio Processing，Vol.5(4)，367-371，1997中公开。

发明者已经意识到，用于建立分层比特流的已知技术由于缩放性丢失而导致质量上受到妨碍。本发明的目的是在建立分层比特流的同时降低质量的丢失。

因此，本发明涉及一种编码数字音频信号的方法，其中对于信号的每一个时间片段执行以下步骤：

-编码音频信号以提供表示该音频信号的代码，

-从该音频信号中减去对应于该代码的信号以获得第一残留信号，

-频谱平滑该第一残留信号以获得一个频谱平滑的残留信号(r)和频谱平滑参数，

-利用一个脉冲串编码器，根据频谱平滑的残留信号来计算第一激励信号，

-确定该第一激励信号的质量，如其与频谱平滑的残留信号相似的等级，

-从频谱平滑的残留信号中减去第一激励信号的一部分从而获得第二残留信号，其中该部分依赖于确定的第一激励信号的质量，

-利用一个脉冲串编码器，根据第二残留信号计算第二激励信号，以及

-产生一个音频流，包括：

-第一激励信号，

-第二激励信号，和

-表示第一激励信号的质量的参数。

本发明还涉及一种使用上述方法的音频编码器并且因此其适应于编码数字音频信号的相应时间片段，该编码器包括：

-编码器，用于编码数字音频信号以提供表示该信号的代码，

-减法器，用于从该音频信号中减去对应于该代码的信号以获得第一残留信号，

-频谱平滑单元，用于频谱平滑该第一残留信号以获得频谱平滑的残留信号和频谱平滑参数，

-脉冲串编码器，用于根据频谱平滑残留信号计算第一激励信号，

-用于确定第一激励信号的质量，如其与频谱平滑残留信号类似的等级的装置，

-减法器，用于从频谱平滑残留信号中减去第一激励信号的一部分，从而获得第二残留信号，其中该部分依赖于第一激励信号的确定的质量，

-脉冲串编码器，用于根据第二残留信号计算第二激励信号，和

-比特流产生器，用于产生一个音频流，该音频流包括：

-第一激励信号，

-第二激励信号，和

-表示第一激励信号的质量的参数。

此外，本发明涉及一种用于解码接收到的音频流的方法，例如利用上述方法或编码器编码的音频流，其中该音频流对于音频信号的多个片段中的每一个包括：

-第一激励信号，

-第二激励信号，和

-表示第一激励信号的质量的参数，

该方法包括

-依赖于质量参数，组合第一和第二激励信号以获得一个组合的激励信号，和

-利用一个线性预测合成滤波器根据组合的激励信号合成第一残留信号。

相应地，本发明涉及一种用于接收和解码音频流的音频播放器，其中音频流对于音频信号中的多个片段的每一个包括：

-第一激励信号，

-第二激励信号，和

-表示第一激励信号的质量的参数，

该音频播放器包括

-依赖于质量参数，组合第一和第二激励信号以获得一个组合的激励信号的装置，和

-利用线性预测根据组合的激励信号合成第一残留信号的装置。

最后，本发明涉及一种音频流，对于该音频信号的多个片段中的每一个包括：

-第一激励信号，其由频谱平滑残留信号的脉冲串编码而产生，该残留信号通过从音频信号中减去编码音频信号而产生，

-第二激励信号，其由第二残留信号的脉冲串编码而产生，所述信号通过从频谱平滑的残留信号中减去第一激励信号的一部分而产生，其中该部分依赖于第一激励信号的确定的质量，和

-表示第一激励信号的确定的质量的参数；

并且涉及一种具有存储在其上的这种音频流的存储媒体。

下面将参照附图，通过示例详细描述本发明的实施例，其中：

图1示出了传统的参数编码器；

图2a和2b分别示出了传统的参数噪声编码器(NA)和相应的噪声解码器(ND)；

图3示出了编码器的视图；

图4示出了与图3的编码器相容的第一解码器的视图；

图5示出了与附图3的编码器相容的第二解码器的视图；

图6示出了根据本发明的编码器的示意图；和

图7示出了根据本发明的解码器的示意图。

图1-5和相应的描述反映了未预公开的欧洲专利申请号03104472.0，于2003年12月1日提交的专利申请的公开内容(申请人的内部参考号为PHNL031414EPP)。

在图1中，示出了一个在WO01/69593中所述类型的正弦编码器，并且其被用于本发明的一个优选实施例中。现有技术的编码器及其相应解码器的操作已经被详细描述并且在此仅仅描述了与本发明有关的描述。

音频编码器1接收以一定的抽样频率抽样的数字音频信号x(t)。随后该编码器1将抽样的输入信号分离为三个分量：瞬时信号分量、持续确定性分量、和持续随机性分量。该音频编码器1包括瞬时编码器11、正弦编码器13和噪声编码器14。

该瞬时编码器11包括瞬时检测器(TD)110，瞬时分析器(TA)111和瞬时合成器(TS)112。首先，信号x(t)输入到瞬时检测器110。这一检测器110估计是否具有一个瞬时信号分量及其位置。这一信息被提供给瞬时分析器111。如果瞬时信号分量的位置被确定，则该瞬时分析器111试图提取瞬时信号分量(的主要部分)。优选在一个估计的开始位置起将形状函数与信号片段匹配，并且通过使用例如(很少)一些正弦分量来确定在形状函数下的内容。这一信息包含在瞬时代码C_T中，并且在WO01/69593中提供了关于产生瞬时代码C_T的更详细信息。

瞬时代码C_T被提供给瞬时合成器112。在减法器16中从输入信号x(t)中减去合成的瞬时信号分量从而导致产生一个信号x_A。增益控制机构GC(12)被用于从x_A产生x_B。

信号x_B被提供给正弦编码器(SA)13，其中在确定(确定性)正弦分量的正弦分析器(SA)130中分析该信号x_B。因此可以看出，尽管期望瞬时分析器存在，但是它是不必要的并且本发明无需该分析器也可以实现。可替代的，如上所述，本发明可以采用例如谐波混合分析器来实现。简单地说，正弦编码器编码输入信号x_B，如同从一帧片段链接到下一帧片段的正弦分量的轨迹。

如图3中所示的编码器补充了在P.Kroon，E.F.Deprettere和R.J.Sluijter，“Regular Pulse Excitation-A novel approach to effectiveand efficient multipulse coding of speech”，IEEE Trans.Acoust.Speech，Signal Process，34，1986中描述类型的脉冲串编码器。但是，虽然实施例按照规则脉冲激励(RPE)编码器描述，其可以等效于采用如在美国专利号4,932,061中描述的多脉冲激励(MPE)技术或者在K.Jarvinen，J.Vainio，P.Kapanen，T.Honkanen，P.Haavisto，R.Salami，C.Laflamme，J-P.Adoul，“GSM enhanced full rate speech codec”，Proc.ICASSP-97，Munich(Germany)，21-24 April 1997，Volume2，pp.771-774中描述的ACELP编码器实现，其中每一个包括第一基于LP的频谱平滑级。

在图3所示的编码器中，根据编码器所需的质量确定的全部比特率预算被分割为由参数编码器可用的比特率B和RPE编码预算，从其中可以获得一个RPE抽取因数D。

在图3中，输入音频信号x首先在对应于图1中的参数编码器的块11和13的块TSA(瞬时和正弦分析)中被处理。因此，这一块产生了用于瞬时和噪声的相关参数，如在图1中所示。给定比特率B，一个块BRC(比特率控制)优选地限制正弦的数量并且优选地保存瞬时使得用于正弦和瞬时的全部比特率最多等于B，典型地设置在20kbit/s附近。

对应于图1中的块112和131的块TSS(瞬时和正弦合成器)利用由块TSA产生并且由块BRC修改的瞬时和正弦参数(C_T和C_S)产生一个波形。从输入信号x中减去这一信号从而得到对应于图1中的残留x_C的信号r₁。通常，信号r₁不包括真实的正弦和瞬时分量。

根据信号r₁，在块(SE)中利用线性预测滤波器，例如基于抽头延时线或者如在图2(a)的现有技术中的Laguerre滤波器来估计和移动频谱包络。所选择的滤波器的预测系数Ps被写入到比特流AS中用于传输给解码器，作为传统类型噪声代码C_N的一部分。随后在块(TE)中将时间包络移动以便一起产生例如线性频谱对(LSP)或者线性频谱频率(LSF)系数与一个增益，正如在现有技术附图2(a)中所述的。在任何情况下，来自时间平滑的最终系数Pt被写入到比特流AS以便传输给解码器，作为传统类型噪声代码C_N的一部分。典型的，系数Ps和P_T需要4-5kbit/s的比特率预算。

因为脉冲串编码器使用了第一频谱平滑级，所以RPE编码器可以根据比特率预算是否已经被分配给RPE编码器来被选择性地应用于由块SE产生的频谱平滑信号r₂。在由一个虚线表示的一个替代实施例中，RPE编码器被应用于由块TE产生的频谱和时间平滑信号r₃。

如参考背景技术的文件已知的，RPE编码器以分析接合成的方式对残留信号r₂/r₃执行一个搜索。给定一个抽取因数D，RPE搜索过程导致产生一个偏移(在0到D1之间的数值，其中D1依赖于D)，RPE脉冲的幅度(例如，数值为-1，0，1的三重脉冲)和增益参数。当使用RPE编码时，这一信息被存储在音频流AS中所包括的层L₀中，用于通过多路复用器(MUX)传输给解码器。

该RPE编码器可以以不同比特率操作并且提供相应不同质量的等级。通过抽取因数D和量化格，该比特率是有效可调的，并且通过正确地设置这些参数，一个单调增加的质量在增加的比特率获得，使得其在比特率的相当大范围上相比于现有编码器具有竞争性。

试验已经示出了，当使用高抽取因数(例如，D＝8)时，RPE编码器有时导致重建信号的亮度损失。将某一低等级噪声增加给RPE序列从而减缓这一问题。为了确定噪声的等级，基于例如在从编码的RPE序列中产生的信号和残留信号r₂/r₃之间的能量/功率差来计算增益(g)。这一增益同样被作为层L₀信息的一部分传输到解码器。

在图4中示出了一个与图3中的编码器相容的解码器。解多路复用器(DeM)如同现有技术一样读取输入音频流AS并且将正弦、瞬时和噪声代码(C_S，C_T和C_N(Ps和Pt))提供给相应的合成器SiS，TrS和TEG/SEG。如现有技术中，白噪声产生器(WNG)给时间包络产生器TEG提供一个输入信号。在该实施例中，其中该信息是可利用的，脉冲串产生器(PTG)产生来自层L₀的脉冲串并且在块Mx中将其与TEG输出的噪声信号相混合以提供一个激励信号r₂`。从该编码器可以看出，由于噪声代码C_N(Ps，Pt)和层L₀都是独立于同一个残留r₂产生，它们产生的信号需要被增益修改以提供正确的能量等级用于合成的激励信号r₂`。在该实施例中，在混合器(Mx)中，由块TEG和PTG产生的信号被组合。

随后激励信号r₂`被提供给频谱包络产生器(SEG)，其根据代码Ps产生合成的噪声信号r₁`。这一信号被加给由传统的瞬时和正弦合成器产生的合成信号从而产生输出信号

在一个替代实施例中，由脉冲串产生器PTG产生的参数被用于(由虚线表示)与噪声代码Pt组合从而使由WNG输出的信号的时间包络成形以便于建立时间上成形的噪声信号。

在图5中示出了与图3的实施例相对应的解码器的第二实施例，其中RPE块处理残留信号r₃。在此，基于编码器确定的增益(g)和C_N由白噪声产生器(WNG)产生的并且被块We处理的信号和由脉冲串产生器(PTG)产生的脉冲串被相加以构建一个激励信号r₃`。当然，其中的层L₀信息是不可用的，白噪声不受块We的影响并且作为一个激励信号r₃`被提供给一个时间包络产生器块(TEG)。

时间包络系数(Pt)随后被块TEG施加到激励信号r₃`以提供如前处理的合成信号r₂`。如上所述，这是有利的，因为脉冲串激励典型的引起了亮度丢失，这可以由适当加权的附加噪声序列来抵消。加权可以包括每一个基于增益因子g和C_N的简单幅度或者频谱成形。

如前，该信号被例如在块SEG(频谱包络产生器)中的线性预测合成滤波器滤波，该滤波器给该信号增加一个频谱包络。随后，最终产生的信号如前一样被加给合成的正弦和瞬时信号。

可以看出在图4或者图5中，如果不使用PTG，则解码方案类似于传统的仅仅使用噪声编码器的正弦编码器。如果使用了PTG，则增加了一个RPE序列，其增强了重建的信号，即提供了一个较高的音频质量。

应当注意，在图5的实施例中，和标准脉冲编码器(RPE或者MPE)相反，其中在标准脉冲编码器使用了对于完整的帧是固定的增益，时间包络被合并到信号r₂`中。通过使用该时间包络，可以获得较好的声音质量，因为与每帧固定的增益相比较在增益的分布上有较高的灵活性。

上述混合方法可以在一个较宽的比特率范围内操作，并且在每一个比特率，其提供与现有编码器相当的质量。在该方法中，由参数(正弦)编码器提供的数据构成的基本层包括输入信号的主要或者基本特征，并且该方法媒介至高质量音频信号可以在很低的比特率上获得。

但是，优选的，建立的比特流是可以缩放的使得层可以被提取。假设具有有序层。因此，就期望编码器能够建设性地增加信息以对于给定比特率获得最佳的质量。比特流的分层通常意味着由可缩放比特流的要求引起的质量的降低(所谓的缩放性丢失)。本发明试图避免这一问题。由于此原因，编码器、解码器和比特流都被适配。

下面，将会给出根据本发明的一种方法的描述，其中在解码器中执行混合不同的激励信号层使得无需损害编码信号的质量就可以实现缩放性的全部概念。通过由编码器确定并且存储在比特流中的一个或者多个参数来控制所述混合。当构造一个新的较高层时，这些参数反映了先前层的重要性。

图6示出了根据本发明的完全可缩放的组合参数(正弦)和波形(脉冲)编码器。注意到，本发明可以使用除了在此描述的编码器之外的任何其他编码器。在参数编码器中接收输入信号，其在示出的实施例中是如图1中的正弦SSC编码器1。来自于SSC编码器的残留rssc首先被频谱平滑，优选使用LPC分析，借此其动态范围减小了，其进而又降低了在量化步骤中的误差。随后，频谱平滑的残留信号r被提供给第一波形编码器，在此是具有抽取因数8的RPE-8级，其根据频谱平滑的残留信号r产生第一激励信号x₈。

通过组合残留信号r和已经计算的激励信号x₈来建立一个新的残留信号x₈。具体的，根据下式，x₈被定义为在原始残留信号r和加权激励信号x₈之间的差

r₈＝r-ρx₈

参数ρ被优化以便被组合的层实现最好质量。

我们注意到，将ρ设置为0，意味着建立了独立层，其中不重用信息是可能的。将ρ设置为等于1对于在一个可缩放比特流中建立不独立层是已知的技术但是妨碍了达到最好质量。

将残留信号r₈提供给第二波形编码器，在此是具有抽取因数2的RPE-2级。该RPE-2级建立一个激励信号x₂。

理想地，在RPE-8编码器中计算的激励x₈应当被用于一个解码器中，只要其提供一个相当好的残留r的近似值，否则，对于RPE-2来说更好的是丢弃它并且直接操作于r而不是r₈。这建议应当具有一个机制，其评估质量如x₈相对于r的类似之处或者适合度，即r被x₈模拟地如何，并且因此考虑到将其与x₂组合将其处理。在它的最简单形式中，这个机制仅仅由一个简单的增益构成。下面讲解是增益ρ，也被称作混合系数，是如何被使用和计算来评估和处理x₈。

最后，参数代码(SSC代码)，第一激励信号x₈，第二激励信号x₂，混合系数ρ和优选还有频谱平滑参数被组合以形成编码的音频流AS。典型的，比特流则由三层构成：基本参数层，包括第一激励信号的第一精细层，和包括第二激励信号和表示在参数ρ中的第一层的可重用性的第二层。

在一个音频流中无需包括频谱平滑参数。如果不具有频谱平滑参数的音频流在音频播放器中被接收到，则在音频播放器中的解码器可以通过逆向适配来确定频谱平滑参数。

图7示出了根据本发明的解码器。该编码的音频流AS被接收到，并且其分量，即参数代码(SSC代码)，第一激励信号x₈，第二激励信号x₂，混合系数ρ和频谱平滑参数被如下识别和处理。

参数代码被提供给参数解码器(SSC解码器)以解码正弦和瞬时分量。频谱成形滤波器，在此是LPC合成滤波器，接收第一激励信号x₈，或者组合的激励信号(x₂+ρx₈)。利用接收到的频谱平滑参数，该LPC合成滤波器再产生估计的具有原始形状频谱的SSC残留r｀ssc并且估计的SSC残留r｀ssc被增加给解码的正弦和瞬时分量以形成解码的信号。此外，参数噪声的一部分被插入到激励信号，类似于在图4和5中使用的策略。

一种用于在下一个RPE级中确定x₈有用性的可能标准是它与输入残留r的相似性。因此，很自然地，增益ρ以某种方式涉及到这两种信号的相关性。设置移除在信号r和x₈之间相似性的目标(图4)，可以通过下面计算最优化值ρ：

ρ = \frac{Σ_{K = 1}^{N} r (k) x_{8} (k)}{Σ_{k = 1}^{N} x_{8} {(k)}^{2}} - - - (1)

其中的x₈和r是在图6中这么识别的信号，而N表示在其上ρ被最优化的窗口长度。这一增益优选一帧接一帧地计算，即N是帧长度。从等式(1)得出，最佳增益正好是x₈和在x₈的功率上正归化的r的相关。具有与等式1相类似的特性的其他增益可以被定义(例如，等式1的表达式在均方差标准意义上是最优的，其它标准也可以被使用)。

注意到如果由x₈提供的r的模型是完美的(例如r＝x8)，则混合系数变为1并且r₈变为0，因为不需要额外的模型。另一方面，当x₈不是r的好模型时，混合系数将取小的值并且第二RPE级主要作用于r而不是x₈，换句话说，抽取2层仅仅有限地使用由抽取8层提供的信息。

所述的技术可以适用在全部带宽的信号或者特定频带上。质量参数ρ意味着完全滤波以产生r₈意味着一个而不是多个参数的可能性。在此描述的方法可以扩展到包括多于两个激励信号的分层的比特流。

Claims

1、一种编码数字音频信号的方法，其中对于信号的每一个时间片段执行以下步骤：

-编码音频信号以提供表示该音频信号的代码(SSC)，

-从该音频信号中减去该代码以获得第一残留信号(r_ssc)，

-频谱平滑该第一残留信号(r_ssc)以获得频谱平滑的残留信号(r)和频谱平滑参数，

-利用一个脉冲串编码器，从频谱平滑的残留信号(r)计算第一激励信号，

-将该第一激励信号(x₈)的质量确定为其与频谱平滑的残留信号(r)的相似度，

-从频谱平滑的残留信号(r)中减去第一激励信号(x₈)的一部分从而获得第二残留信号(x₈)，其中该部分依赖于确定的第一激励信号(x₈)的质量，

-利用脉冲串编码器，从第二残留信号(r₈)计算第二激励信号(x2)，以及

-产生一个音频流，包括：

-第一激励信号(x₈)，

-第二激励信号(x₂)，和

-指示第一激励信号(x₈)的质量的参数(ρ)。

2、根据权利要求1的方法，其中该参数代码包括音频信号的正弦和噪声分量。

3、根据权利要求1的方法，其中利用线性预测编码(LPC)执行频谱平滑。

4、根据权利要求1的方法，其中第一激励信号(x₈)的质量基于第一激励信号(x₈)和频谱平滑残留信号(r)之间的相关性。

5、一种音频编码器，其适于编码数字音频信号的时间片段，该编码器包括：

-编码器，用于编码数字音频信号以提供表示该信号的代码(SSC)，

-减法器，用于从该音频信号中减去对应于该代码的信号以获得第一残留信号(r_ssc)，

-频谱平滑单元，用于频谱平滑该第一残留信号(r_ssc)以获得频谱平滑的残留信号(r)和频谱平滑参数，

-脉冲串编码器，用于计算频谱平滑残留信号(r)的第一激励信号，

-用于将第一激励信号(x₈)的质量确定为其与频谱平滑残留信号(r)的相似度的装置，

-减法器，用于从频谱平滑残留信号(r)中减去第一激励信号(x₈)的一部分，从而获得第二残留信号(r₈)，其中该部分依赖于第一激励信号(x₈)的确定的质量，

-脉冲串编码器，用于计算第二残留信号(r₈)的第二激励信号(x₂)，和

-比特流产生器(15)，用于产生一个音频流(AS)，其包括：

-第一激励信号(x₈)，

-第二激励信号(x₂)，和

-指示第一激励信号(X₈)的质量的参数(ρ)。

6、根据权利要求5的音频编码器，其中该参数代码包括音频信号的正弦和噪声分量。

7、根据权利要求5的音频编码器，包括适合执行频谱平滑的线性预测编码器(LPC)。

8、根据权利要求5的音频编码器，其中分数(ρ)是基于第一激励信号(x₈)和频谱平滑残留信号(r)之间的相关。

9、一种用于解码接收到的音频流(AS)的方法，其中该音频流对于一个音频信号的多个片段中的每一个包括：

-第一激励信号(X₈)，

-第二激励信号(x₂)，和

-指示第一激励信号(x₈)的质量的参数(ρ)，

该方法包括

-根据质量参数(ρ)，组合第一和第二激励信号(x₈，x₂)以获得一个组合的激励信号，和

-利用一个线性预测从组合的激励信号合成第一残留信号(r｀ssc)。

10、一种用于接收和解码音频流(AS)的音频播放器，其中音频流对于音频信号中的多个片段的每一个包括：

-第一激励信号(x₈)，

-第二激励信号(x₂)，和

-指示第一激励信号(x₈)的质量的参数(ρ)，

该音频播放器包括

-根据质量参数(ρ)组合第一和第二激励信号(x₈，x₂)以获得一个组合的激励信号的装置，和

-利用一个线性预测从组合的激励信号合成第一残留信号(r｀ssc)的装置。

11、一种音频流(AS)，对于该音频信号的多个片段中的每一个包括：

-第一激励信号(x₈)，其由频谱平滑残留信号(r)的脉冲串编码而获得，该残留信号(r)通过从音频信号中减去一个编码音频信号而获得，

-第二激励信号(x₂)，其由第二残留信号的脉冲串编码而获得，所述信号通过从频谱平滑的残留信号(r)中减去第一激励信号(x₈)的一部分而产生，其中该部分依赖于第一激励信号(x₈)的确定的质量，和

-指示第一激励信号(x₈)的确定的质量的参数(ρ)。

12、一种其上存储了权利要求11的音频流(AS)的存储媒体。