CN103081366B

CN103081366B - 在数字音频信号编码器中控制噪声整形反馈环路

Info

Publication number: CN103081366B
Application number: CN201180040670.0A
Authority: CN
Inventors: S.拉格特; B.科维希; A.勒古亚德尔
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2010-06-24
Filing date: 2011-06-17
Publication date: 2015-07-01
Anticipated expiration: 2031-06-17
Also published as: JP6076247B2; US20130204630A1; US9489961B2; CN103081366A; KR101776177B1; JP2013536450A; EP2586133A1; WO2011161362A1; EP2586133B1; FR2961980A1; KR20130095726A

Abstract

本发明涉及一种用于在数字音频输入信号的ADPCM编码期间、控制编码噪声的整形的方法。通过使用包括滤波噪声的反馈来执行该噪声整形。所述方法包括以下步骤：获得（702）用于指示出该信号的高谱动态范围的参数，所述参数指示出该反馈的不稳定的风险；通过比较该指示参数与至少一个预定阈值来检测（705）不稳定的风险；在检测到不稳定风险的情况下限制（706）该反馈；以及在限制了该反馈的当前帧之后预定数目的帧上逐渐重新激活（708、709、710）该反馈。本发明还涉及一种具有反馈的编码器，包括用于实现如所描述的控制方法的控制模块。

Description

在数字音频信号编码器中控制噪声整形反馈环路

技术领域

本发明涉及数字信号的编码领域。

根据本发明的编码特别适于诸如音频信号（语音、音乐或其他）之类的数字信号的传送和/或存储。

本发明更具体地有关于在ADPCM（代表了“自适应差分脉冲编码调制”）编码类型的波形编码中反馈环路的控制，且特别有关于使得可能传递可伸缩二进制串（train）量化索引的、嵌入码ADPCM类型的编码。

背景技术

参考图1和2来描述建议ITU-T G.722、ITU-T G.726或ITU-T G.727所规定的嵌入码ADPCM编码/解码的一般原理。

因而，图1表示了在每采样B个与B+K个比特之间操作的ADPCM类型（例如：G.722低频带、G.727）的嵌入码编码器；注意到非可伸缩ADPCM编码（例如：G.726、G.722高频带）的情况对应于K=0。

它包括：

-预测模块110，使得可能基于量化误差信号（其中v(n′)是量化比例因子（scale factor））的先前采样并且基于重构信号r^B(n′)n′=n-1,...,n-N_P（其中n是当前时刻）来给出信号的预测

-减法模块120，用于从输入信号x(n)中减去该输入信号的预测以获得表现为e(n)的预测误差信号。

-用于误差信号的量化模块130Q^B+K，用于接收误差信号e(n)作为输入，以给出由B+K个比特组成的量化索引I^B+K(n)。量化模块Q^B+K是嵌入码类型的，即，它包括具有B个比特的核心量化器、和嵌入在该核心量化器中的具有B+kk=1,...,K个比特的量化器。

在ITU-T G.722标准（低频带的编码）的情况下，通过X.Maitre.编著的用于描述G.722标准的概述文章"7kHz audio coding within 64kbit/s".IEEEJournal on Selected Areas in Communication,Vol.6-2,February1988中的表格IV和VI来给出量化器Q^B、Q^B+1、Q^B+2（令B=4）的判决等级和重构等级。

量化模块Q^B+K的输出端的B+K个比特的量化索引I^B+K(n)经由传送信道140而传送到如参考图2所描述的解码器。

该解码器同样包括：

-模块150，用于删除索引I^B+K(n)的K个低阶比特，以给出低比特率索引I^B(n)；

-逆量化模块121(Q^B)^-1，用于给出B个比特上的量化误差信号作为输出；

-模块170Q_Adapt，用于对量化器和逆量化器进行适配，以针对接下来的时刻给出也称为比例因子的等级控制参数v(n)；

-加法模块180，用于将预测与量化误差信号相加，以给出低比特率重构信号r^B(n)；

-模块190P_Adapt，用于基于B个比特上的量化误差信号并且基于通过1+P_z(z)所滤波的信号来对预测模块进行适配。

可以注意到，在图1中，附图标记为155的阴影线部分表示了包含预测器165和175以及逆量化器121的低比特率本地解码器。因而，此本地解码器使得可能基于低比特率索引I^B(n)来在170处对逆量化器进行适配，并且基于所重构的低比特率数据来对预测器165和175进行适配。

此部分还一致地存在于如参考图2所描述的嵌入码ADPCM解码器中。

在不存在帧丢失的情况下，图2的嵌入码ADPCM解码器接收源自于传送信道140的索引I′^B+k（I^B+k的可能被二进制误差干扰的版本）作为输入，其中0≤k≤K。该解码器利用比特率为每采样B个比特的逆量化模块210(Q^B)^-1来进行逆量化，以获得信号符号“′”指示基于所接收到的比特所解码的、并且由于传送误差而导致可能与编码器所使用的值不同的值。B个比特的输出信号r′^B(n)将等于该信号的预测与B个比特的逆量化器的输出之和。解码器的此部分255与图1的低比特率本地解码器155一致。

通过采用比特率指示符“模式（mode）”和选择器220，解码器可以改进所重构的信号。

确实，如果“模式”指示出已经传送了B+1个比特，则该输出将等于预测和具有B+l个比特的逆量化器230的输出之和。

如果“模式”指示出已经传送了B+2个比特，则该输出将等于预测和具有B+2个比特的逆量化器240的输出之和。

ITU-T标准G.722（在下文中，命名为G.722）的嵌入码ADPCM编码进行宽带中的信号编码，其被定义有[50-7000Hz]的最小带宽，并且以16kHz来进行采样。G.722编码是通过利用正交镜像滤波器来对信号进行分解、所获得的两个信号子带[0-4000Hz]和[4000-8000Hz]中每一个的ADPCM编码。通过6个、5个和4个比特上的嵌入码ADPCM编码来对低频带进行编码，而通过每采样2个比特的ADPCM编码器来对高频带进行编码。取决于用于对低频带进行解码所使用的比特的数目，总比特率将为64、56或48比特/秒（bit/s）。

开发了此编码，以首先使用在ISDN（综合服务数字网）中。近来，将它部署在IP网络上的改进质量的电话应用中。

对于具有许多等级的量化器，量化噪声的谱将是相对平坦的。然而，在其中信号具有低能量的频区中，噪声可以具有比信号更大的等级，并因此不再必须被屏蔽（mask）。于是，在这些区域中，它可能变为可听得见的。

因此，编码噪声的整形是必须的。在如同G.722的编码器中，适于嵌入码编码的编码噪声的整形将也是期望的。

一般地，编码噪声整形的目的在于获得量化噪声，该量化噪声的谱包络遵循短期屏蔽阈值；经常对该原理进行简化，使得噪声的谱近似地遵循该信号的谱，这确保了均匀的（homogeneous）信噪比，使得即使在信号的较低能量区中，噪声也保持是听不见的。

在ITU-T建议G.711.1"Wideband embedded extension for G.711pulse codemodulation"或"G.711.1:A wideband extension to ITU-T G.711".Y.Hiwasaki,S.Sasaki,H.Ohmuro,T.Mori,J.Seong,M.S.Lee,B.S.Ragot,J.-L.Garcia,C.Marro,L.M.,J.Xu,V.Malenovsky,J.Lapierre,R.Lefebvre.EUSIPCO,Lausanne,2008中描述了用于利用嵌入码的PCM（代表“脉冲编码调制”）类型编码的噪声整形技术。

此建议描述了具有通过噪声反馈而进行的编码噪声整形的编码，诸如图3所图示的。基于源自于逆核心量化器（块301）的、核心比特率为64kbit/s的解码信号s′_L0(n)（L0代表了层0），来计算（块303）用于对编码噪声进行整形的感知滤波器F(z)（块305）。因此，核心比特率本地解码器（块301）使得可能计算噪声整形滤波器F(z)。因而，在解码器处，还可能基于核心比特率解码信号来计算此相同的噪声整形滤波器。

在G.711.1编码器处使用用于传递核心比特的量化器（块308）和用于传递改进比特的量化器（块309）。

用于接收核心二进制流（L0）和改进比特（L1）的G.711.1解码器基于核心比特率（64kbit/s）解码信号、按照与编码器处相同的方式、来计算用于对编码噪声进行整形的滤波器F(z)，并且将此滤波器应用于改进比特的逆量化器的输出信号，所整形的高比特率信号是通过将所滤波的信号与所解码的核心信号进行相加而获得的。

因而，噪声整形改进了核心比特率信号的感知质量。它在改进比特的质量上供应了有限改进。确实，对于改进比特的编码，不执行编码噪声整形，

量化器的输入对于核心量化与对于改进量化是相同的。

然后，当除了核心比特之外、还对改进比特进行解码时，解码器必须通过适配的滤波来删除所得到的乱真分量（spurious component）。

如在建议G.711.1中实现的通过噪声反馈进行的噪声整形可一般化到除了G.711之外的PCM编码器，并且一般化到ADPCM类型的编码。

在图4中表示了PCM/ADPCM编码中的示范已知噪声反馈结构。

在下文中，将使用以下标记：

s(n)：要编码的输入信号

s′(n)：编码器的输入信号（修改后的要编码信号）

本地解码器所提供的解码信号

编码器的量化噪声

图4图示了PCM/ADPCM编码噪声的整形的示范实现。此编码器包括PCM/ADPCM编码块502和本地解码器503。对该编码噪声进行滤波（块504），并且将它重新注射（块505）到信号s(n)上。基于信号s(n)来估计（块500）预测系数，而在G.711.1（图3）中，基于核心比特率处的过去解码信号来估计它们。按照已知的方式，通过对线性预测滤波器A(z)的系数进行衰减，基于对信号s(n)的短期相关进行建模的线性预测滤波器A(z)来典型地获得（块500）滤波器A(z/γ)。将利用γ=0.92作为典型值，通过滤波器

H (z) = P_{1} (z) = \frac{1}{A (z / γ)}

来对编码噪声进行整形。

确实，对于图4的方案，从

S^{'} (z) = \tilde{S} (z) + Q (z)

开始，利用

q (n) = s^{'} (n) - \tilde{s} (n),

即PCM/ADPCM量化噪声，可以示出，在z变换域中：

S (z) - \tilde{S} (z) = \frac{Q (z)}{A (z / γ)}

换言之，“全局”编码噪声

q_{G} (n) = s (n) - \tilde{s} (n)

对应于通过滤波（整形）的PCM/ADPCM量化噪声q(n)。

应用于ADPCM编码的噪声反馈是一种有效的技术，其用于通过特别是对于“自然的”音频信号（诸如，语音或音乐）屏蔽编码噪声，来改进PCM/ADPCM编码器的质量。图4的方案使得可能根据屏蔽滤波器来对编码噪声进行整形，从而根据频率而获得更为均匀的信噪比。

然而，对于与语音或音乐相比、某些较不“自然的”信号，噪声反馈可能变得不稳定并导致解码信号的劣化或饱和，如反馈调节系统有时就是这种情况。这里，必须在以下意义中理解饱和，即解码信号的幅度超出可按照有限精度（示例：16比特有符号整数）表示的最大值，并因而导致信号的削波（clipping）。

在噪声反馈方面有问题的信号的示例是以下信号，其在大谱动态范围的平稳序列之间展现出快速跳变，诸如，被短静默片段分割的不同频率的一系列纯正弦波。

具体地，将“音调”信号（纯正弦波）认为是具有以下风险的信号，即可能由于噪声反馈而引发编码方案上的不稳定或饱和的问题。

对于这种类型的信号，估计的屏蔽（或整形）滤波器在正弦波之间的跳变上并且在攻击上迅速变化，其重新注射的量化噪声经常非常高。

利用噪声反馈而观测的稳定和饱和的问题在ADPCM编码上特别严重。确实，诸如在G.722中实现的ADPCM编码依赖于编码参数（量化间隔、预测系数）的逐步适配。根据与自适应滤波中的LMS（代表了“最小均方”）算法相似的原理，逐采样地进行此适配，由此暗示出该适配不是立即遵循要编码信号的非平稳特性。已知的是，对于某些信号，ADPCM编码中的适配自身（没有噪声反馈）可能在以下意义中失落（drop out）（“失去跟踪（mistrack）”），即该适配在某一时间之后在重新收敛之前偏离（diverge）。

对于有问题的信号，噪声反馈可能干扰ADPCM编码的适配，返回图4，这是由于要编码的信号s(n)被重新注射的噪声d(n)修改，以形成信号s′(n)。

当重新注射的噪声d(n)具有与信号s(n)的等级相似的等级时，在大谱动态范围的平稳序列之间的快速跳变时情况经常如此，取决于信号s(n)与d(n)处于同相还是异相，ADPCM编码器的输入处的信号s(n)可能变得非常“不稳定”。如果此外ADPCM编码还具有失落（“失去跟踪”）的适配，则噪声反馈将放大该失落的持续时间和幅度。

为了示出此现象的起因，可能计算感知信噪比RSB_P（之所以是感知的是由于它包括目的在于屏蔽编码噪声的噪声反馈的效果）：

{RSB}_{P} = \frac{Σ_{n = 0}^{N - 1} s^{2} (n)}{Σ_{n = 0}^{N - 1} {[s (n) - \tilde{s} (n)]}^{2}}

可以示出：

{RSB}_{P} = G_{MICDA} [\frac{{RSB}_{Q} - 1}{E_{D}} + 1]

其中，G_MICDA是ADPCM编码器的预测增益，RSB_Q是ADPCM量化器的信噪比（对于5比特的拉普拉斯量化器，在24dB左右），并且E_D是屏蔽滤波器的脉冲响应f_D(n)的能量。

根据此公式，可以看出，增益G_ADPCM越低，和/或能量E_D越高，那么RSB_P越低。这两个条件（低G_ADPCM和高E_D）在纯正弦波的两个序列之间的跳变的情形下全部成立，这是因为由于正弦波给出非常谐振的重新注射滤波器、所以增益G_ADPCM变得非常低（适于第一纯正弦波的ADPCM编码在重新适于第二纯正弦波之前占用一定时间），并且E_D很高。在此情况下，ADPCM编码器将不稳定或接近于不稳定。

这种不稳定和饱和现象是不可接受的，这是由于它们可能生成可听得见的伪象（artifact）（例如：在时间上集中的幅度尖峰），或确实，在信号的时间等级的完全饱和情况下的“声震（acoustic shock）”。

因此，存在以下需求，即在具有反馈的编码结构中预防并控制不稳定和饱和现象，特别是对于诸如各频率的纯正弦波系列之类的有问题信号。

发明内容

本发明改善了该情形。

为此目的，它提出了一种用于在数字音频输入信号的ADPCM类型编码期间、控制编码噪声的整形的方法，通过实现包括噪声滤波的反馈来执行该噪声整形。该方法使得它包括以下步骤：

-获得用于指示出该信号的大谱动态范围的参数，该参数指示出该反馈的不稳定的风险；

-通过比较该指示参数与至少一个预定阈值来检测不稳定的风险；

-在检测到不稳定风险的情况下限制该反馈；

-在已经限制了该反馈的当前帧之后预定数目的帧上，逐步重新激活该反馈。

因而，该方法使得可能进行潜在有问题信号的快速和有效检测，该有问题信号具有引发反馈中不稳定现象的风险。因而，由于在这些高风险信号显现时执行反馈的限制，所以避免了此现象。这种限制甚至可以由该反馈的完全去激活组成。

因此，该方法对于麻烦现象的显现具有预防措施。其后，按照逐步的方式来进行反馈环路的重新激活，从而不会引发编码信号的过度突然变化。

在具体的实施例中，用于指示出该信号的大谱动态范围的参数是源自于输入信号的线性预测分析的第二反射系数，或者是源自于解码信号的线性预测分析的第二反射系数。

因而，此参数充分表示了高风险（at-risk）的信号，并因此指示出该反馈不稳定的风险。在为了特别地计算噪声整形滤波所执行的线性预测分析期间，获得该参数。因此，有利的是，这里重新使用它以控制该反馈。

在另一实施例中，用于指示出该信号的大谱动态范围的参数是输入信号与噪声之间的信噪比。

此参数使得可能对于任何类型的高风险信号、而不仅仅是展现出正弦波的那些信号，来测量反馈不稳定的风险。

在可能的实施例中，通过将要应用于噪声滤波参数的加权系数设置为零，来执行该反馈的限制。

这相当于消除噪声整形滤波的动作，并因此按照简单的方式来去激活该反馈。

在变体实施例中，通过在噪声滤波的输出处应用零值的增益，来执行该反馈的限制。

因而，虽然该滤波器保持不变，但是通过应用此增益而在输出处消除其动作。这使得可能在无需修改滤波器的计算的情况下对该反馈进行去激活。

按照简单的方式，在其中通过将加权系数设置为零来执行该反馈环路的去激活的情况下，通过将加权系数应用于滤波参数来执行该反馈的逐步重新激活，该加权系数通过预定数目的帧上的递增来定义。

在其中通过在噪声滤波的输出处应用零值的增益来执行该反馈环路的去激活的情况下，通过在预定数目的帧上在噪声滤波的输出处应用增大的增益值，来执行该反馈的逐步重新激活。

有利地，该方法应用于分级类型编码器的情况下，并且可以在分级编码的核心编码期间和改进编码期间同时地实现。

因而，不但在核心编码期间，而且在改进编码期间，避免了不稳定的问题，而无需成比例地增加编码的复杂性。

本发明还有关于一种数字音频信号ADPCM类型的编码器，包括用于对编码噪声进行整形的反馈，该编码器包含噪声滤波模块。该编码器使得它包括噪声整形控制模块，该噪声整形控制模块包括：

-用于获得用于指示出该信号的大谱动态范围的参数的部件，该参数指示出该反馈的不稳定的风险；

-用于通过比较该指示参数与至少一个预定阈值、来检测不稳定的风险的部件；

-用于在检测到不稳定风险的情况下限制该反馈的部件；

-用于在已经限制了该反馈的当前帧之后预定数目的帧上逐步重新激活该反馈的部件。

本发明还有关于一种计算机程序，包括代码指令，所述代码指令用于当由处理器来执行这些指令时、实现根据本发明的控制方法的步骤。

本发明最终有关于一种处理器可读的存储部件，用于存储诸如所描述的计算机程序。

附图说明

一旦阅读了单独借助于非限制性示例并参考附图而给出的以下描述，本发明的其他特性和优点就将更加清楚明显，在所述附图中：

-图1图示了根据现有技术的并且如上所述的嵌入码ADPCM类型的编码器；

-图2图示了根据现有技术的并且如上所述的嵌入码ADPCM类型的解码器；

-图3图示了在根据现有技术的并且如上所述的标准化G.711.1类型的编码器中应用的噪声整形；

-图4图示了根据现有技术的并且如上所述的PCM/ADPCM编码器的情况下的示范噪声整形；

-图5图示了根据本发明的包括噪声整形控制模块的具有改进层的PCM/ADPCM类型的编码器的实施例；

-图6图示了根据本发明的包括噪声整形控制模块的编码器的变体实施例；

-图7图示了表示出根据本发明的噪声整形控制方法的实施例的步骤的流程图；

-图8图示了表示出根据本发明的噪声整形控制方法的变体实施例的步骤的流程图；

-图9图示了用于具有改进层的PCM/ADPCM类型的第二示范编码器的、根据本发明的噪声整形控制方法和模块的变体实施例；以及

-图10表示了根据本发明的编码器的可能实施例。

具体实施方式

参考图5，现在描述集成了本发明的嵌入码编码器。

此编码器对于具有5ms帧的以8kHz采样的信号进行操作。它包括通过噪声反馈实现的编码噪声整形（步骤606、604、605）。这里，噪声反馈想要意指获得噪声的步骤（606）、对噪声进行滤波的步骤（604）、和对信号进行修改的步骤（605）。要注意，虽然这里通过反馈修改的信号是输入信号s(n)，但是按照等效的方式，在ADPCM编码的情况下，可以在编码步骤（601）之前修改另一信号，例如，在应用ADPCM标量量化之前，通过反馈修改的信号可以是输入信号s(n)与通过ADPCM编码所预测的信号之间的差。

在这里所描述的示例中，利用提供每附加采样一个比特的改进级来执行编码。这里，采纳此选择，从而简化编码器的呈现。然而，清楚的是，在下文中描述的本发明适用于其中改进级提供每采样多于一个比特的更加一般的情况。

而且，在此文档中广义地使用术语“核心编码器”。因而，可以将诸如56或64kbit/s的ITU-T G.722之类的现有多比特率编码器认为是“核心编码器”。

此编码器包括具有B+k-1个比特上的量化（块601）的核心比特率编码级603，其例如具有ADPCM编码类型，诸如标准化的G.722或G.727编码器；或者具有PCM（代表了“脉冲编码调制”）编码类型，诸如标准化的G.711编码器。

此核心编码级包括本地解码模块（块602）。

该核心比特率编码器包括噪声整形反馈环路，其与参考图4所描述的噪声整形反馈环路相似。因而，对该编码噪声进行计算（块606）、滤波（块604）、和重新注射（块605）。

该编码器还包括改进级613，用于提供每采样一个比特，从而将比特率从每采样B+k-1个比特过渡到每采样B+k个比特。

此改进级对于本发明的实现是可选的，这是由于核心编码级自身可以实现如随后描述的噪声整形控制的方法。

此改进级使用量化器（610）和本地解码器（块611），并且进行使用与核心编码器相同的屏蔽滤波器A(z/γ)-1的噪声整形。

因而，核心编码器和改进级依赖于相同的噪声整形滤波器（A(z/γ)-1）（块604、608），通过块600来计算该噪声整形滤波器的系数。

图6给出了与图5的解决方案等效的解决方案，但是给出了滤波部分的另一解释。不是使用预测器A(z/γ)-1，它使用滤波器A(z/γ)（模块614和615），按照以下方式，分别由块616和617来准备该滤波器的输入（分别地，s_c(n)和t_c(n)）：

s_c(n′)=t(n′)n′=n-n_D,...,n-1

s_c(n′)=s(n′)n′=n

以及

t_{c} (n^{'}) = t (n^{'}) - \tilde{t_{2}} (n^{'}) n^{'} = n - n_{D}, . . ., n - 1

t_c(n′)=t(n′) n′=n

块600表示了根据本发明的噪声整形控制模块。

在此示例中，除了其他操作之外，控制模块600执行基于输入信号s(n)来计算屏蔽滤波器的系数，如随后参考图7所说明的。如参考图3所描述的G.711.1编码器的情况下一样，还可以基于解码信号来执行屏蔽滤波器系数的该计算。

此模块尤其包括用于获得指示出反馈不稳定的风险的参数的部件。随后说明用于获得此参数的几个示例。

此外，此模块还包括用于按照例如比较器的形式来检测反馈不稳定的风险的部件，该比较器将执行所获得的参数与预定阈值的比较。

该模块包括用于通过将增益或加权因子设置为0或低值来限制反馈的部件，如随后所说明的。

它还包括在已经限制了反馈的当前帧之后预定数目的帧上逐步重新激活反馈的部件。例如，这些逐步重新激活的部件是用于使得权重或增益的值随着预定数目的帧而逐步增加的部件。

在现在参考图7所描述的实施例中，此控制模块实现在流程图形式中表示的噪声整形控制方法。

在此实施例中，步骤701到704是可选的，并且不必形成根据本发明的控制方法的一部分。

这里，将M定义为用于噪声整形的线性预测阶数，其典型值是M=4。

因而，在步骤701中，执行信号s(n)的自相关r(k)（k=0，...,M）的计算，其中M是线性预测阶数。要注意，如在G.711.1中一样，还可以基于解码信号来计算这些自相关，而没有改变该方法的本质。

相应地，首先通过类型（1-β_ez^-1）的滤波器来预加重（preaccentuate）信号s(n)，以获得：

s^pre(n)=s(n)-β_es(n-1)

其中，根据以下公式，如在G.711.1中一样地计算因子β_e：

β_e=1-0.007813c_zc1

其中，c_zc1是零交叉（zero crossing）的数目。

其后，每帧（每5ms）一次地估计阶数M=4的线性预测滤波器（LPC）。相应地，通过以当前帧的开始为中心的80个采样（10ms）的非对称和混合余弦汉明窗来对预加重的信号s^pre(n)进行加权，以获得其后，根据以下公式来计算自相关：

r (k) = Σ_{n = k}^{79} s_{w}^{pre} (n) s_{w}^{pre} (n - k), k = 0, . . ., M

如在G.711.1中一样地，在包括校正因子1/1.0001（其表示了40dB的本底噪声）的、具有120Hz频带扩展的r'(k)中，修改如此获得的相关：

r^{'} (k) = \{\begin{matrix} r (k) & k = 0 \\ w_{lag} (k) r_{L 0} (k) & k = 1, . . ., M \end{matrix}

其中，

w_{lag} (k) = \frac{1}{1.0001} \exp [- \frac{1}{2} {(\frac{2 π f_{0} k}{f_{s}})}^{2}]

其中f₀=120Hz，并且f_s=8000Hz。

在步骤701中，还计算规格化因子，如在G.711.1中一样地，其按照定点算术表示来对二进制偏移的数目进行计数，其通过以下等式来定义：

其中，表示向下取整到最近的整数。

步骤702对应于在ITU-T建议G.711.1中描述的莱文森-德宾（Levinson-Durbin）算法，其作为结果提供：

-预测系数ai，i=0…M

-反射系数k_i，i=1，...,M，其与线性预测滤波器的网格（trellis）实现相关联。

莱文森-德宾算法是递归算法，在下文回顾了其步骤：

.迭代次数i＝1，并且

.计算

k_{i} = - \frac{1}{E^{[i - 1]}} (r_{L 0}^{'} (i) + Σ_{j = 1}^{i - 1} a_{k}^{[i - 1]} r_{L 0}^{'} (i - j))

.固定

a_{i}^{[i]} = k_{i}

.计算

a_{j}^{[i]} = a_{j}^{[i - 1]} + k_{i} a_{i - j}^{[i - 1]},

令j=1，...,i-1

.计算

E^{[i]} = (1 - k_{i}^{2}) E^{[i - 1]}

.将i递增1，并且转到步骤2，直到i=M为止。

通过作为以下线性器预测的系数的（j=1，...,M）并且通过反射系数k_i来给出结果

A(z)=1+a₁z^-1+a₂z^-2+a₃z^-3+a₄z^-4

该反射系数k_i对应于滤波器A(z)的网格实现，如在J.D.Markel和A.H.Gray的参考文献"Linear Prediction of Speech",Springer-verlag,1976中所说明的。

反射系数k₁表示出由线性预测所建模的信号的短期谱的“斜率”，而反射系数k₂是信号的谱动态范围的指示符，这是由于它与在莱文森-德宾算法的第二次迭代中得到的阶2的线性预测器的质量因子（谐振程度）相关联。

在这里所图示的示例中，该反射系数k₂构成指示出反馈不稳定的风险的参数，如参考图7所图示的。

这里示出了，系数k₂允许检测具有非常大过电压的信号（具体地，正弦波）。

如先前所说明的，具有大过电压的信号（具体地，正弦波）是应该被检测到的（在噪声反馈方面）高风险的信号。可以通过在莱文森-德宾算法的输出处检查第二部分相关系数来执行这些高风险信号的检测，该莱文森-德宾算法用于计算滤波器A(z)，基于该滤波器A(z)来计算加权滤波器W(z)=A(z/γ)。

对于采样频率1/T的角频率的正弦波s(n)=cos(nωT)，我们应该通过莱文森-德宾算法来计算第二部分相关系数，该正弦波在其频率的等级处拥有过电压。其相关函数将等于：

r′_L0(k)=cos(kωT)

该算法的第一步骤给出：

k₁=-cos(ωT)

a_{1}^{1} = - \cos (ωT)

E^{1} = \frac{1}{2} [1 - \cos (2 ωT)]

并且，第二步骤给出：

k₂=1

a_{1}^{2} = - 2 \cos (ωT)

a_{2}^{2} = 1

E¹＝0

由于预测误差是零，所以推断出正弦波是可基于2个采样来预测的：

x(n)=2cos(ωT)x(n-1)-x(n-2)

由于在计算预测器之前相关函数的相异阻尼（damping），所以过电压系数不等于其理想值。对于3000Hz的正弦波，典型地发现k₂＝0.97。因此，所实现的解决方案在于检测具有大过电压的信号，该信号提供了比阈值（典型地，0.95）更大的部分相关系数k₂。

步骤703验证规格化因子η是否超出极限值（MAXNORM＝16），由此使得可能检测低等级的信号（静默或非常低的信号），如在G.711.1中一样。在其中该规格化因子超出预定阈值的情况下，即η≥MAXNORM，对线性预测系数a_i,i＝0,...,M进行衰减（步骤704），这相当于减少噪声屏蔽（或整形）滤波器的效果。

在此情况下，根据以下等式，通过使用在步骤704中获得的系数a_i,i＝0,...,M来获得屏蔽滤波器W(z)-1：

W (z) - 1 = Σ_{i = 1}^{4} {a_{i}}^{'} z^{- i} = Σ_{i = 1}^{4} \frac{a_{i}}{2^{i + η - MAXNORM}} z^{- i}

在相反的情况下，根据以下公式来定义噪声整形滤波器：

W (z) - 1 = Σ_{i = 1}^{4} {a_{i}}^{'} z^{- i} = Σ_{i = 1}^{4} a_{i} γ^{i} z^{- i}

假设在存储器中保持有衰减因子γ的值，并且在每帧的处理开始时检索该值。将在存储器中保持的该值表现为γ_mem。在步骤711中执行该检索操作。

在其中检测到低等级信号的帧（η≥MAXNORM）中，在步骤712中，将参数γ_mem重新初始化为例如等于GAMMA₁＝0.92的值。

该噪声整形控制方法包括步骤705，用于通过比较指示参数与至少一个预定阈值来检测不稳定的风险。

存在几种技术，其用于检测具有大谱动态范围的信号，诸如正弦波。在其中部署具有反射系数k₂的线性预测分析的情况下，如这里所描述的，有利地重新使用如上所述的第二反射系数。

在此示范实现中，步骤705在于验证第二反射系数是否超出预定值，这里0.95（k₂>0.95）。此测试使得可能检测具有大谱动态范围的信号，并且使得可能具体地检测纯正弦波（其没有强幅度调制，但是具有相对恒定的幅度）。

如果该测试结果为肯定的，则执行用于限制反馈的步骤，这是由于此反馈不稳定的风险被证实。

可能的限制例如是在步骤706中通过将系数γ固定在0处来去激活该反馈。

在变体中，将系数γ固定在非常低、但非零的值（例如，0.001）处。此变体不是对应于反馈的完全去激活，而是对应于反馈的限制，这产生了相同的效果（避免了不稳定或饱和）。

按照等效的方式，这在其中γ=0的帧中是可能的，以固定图5和6中的s’(n)=s(n)，这相当于没有在信号s(n)上注射任何噪声。

在步骤707中通过γ来对线性预测系数a_i,i＝0,...,M进行加权，从而计算A(z/γ)-1的系数。

其后，在步骤708中对于下一帧来更新在存储器中保持的值γ_mem。在步骤709和710中，首先通过将γ递增来计算该值，其中例如GAMMA₁＝0.92，并且结果在GAMMA₁处饱和。除以4的除法使得可能在4帧之后检索GAMMA₁的值。

在其中在706中将γ固定在非常低的值（GAMMA₀0.001）处的情况下，可能将γ递增的值。

虽然对于等于4的预定数目的帧来描述了此典型情况，但是非常显然的是，可以对于比4更大或更小数目的帧执行此步骤。类似地，递增值可以是不同的，并且可以利用在非线性方式中分布的间隔来执行该递增。

这些步骤708到710相当于在已经限制了反馈的当前帧之后预定数目的帧（这里，4帧）上逐步重新激活反馈。

因而，根据本发明的噪声整形控制方法在于，通过在此实施例中执行的、关于第二反射系数的测试，来检测易于导致信号的不稳定或饱和的有问题信号，并且一旦此测试是肯定的，则限制噪声反馈。在肯定性检测之后，将γ的值逐步地增加（在这里所描述的示例中，在4帧之后）直到其“正常”值GAMMA₁。将γ的当前值复制到γ_mem中，从而将此参数的值从一帧传递到下一帧。

在几帧上扩展的γ的连续递增使得可能逐步地恢复噪声反馈，并且防止反馈调节系统在反馈的过度突然重新激活之后偏离，其可能引发信号的“本地”统计的突然变化。

在噪声整形控制方法的变体实施例中，用于指示出不稳定风险的参数是不同的。

例如，通过计算功率谱的谱线的算术平均值与几何平均值之间的比率来执行谱平坦测量，该功率谱是基于通过LPC窗口所加窗的短期信号来计算的。该测量对于仅包含一条线的谱（纯正弦波）而言趋向于非常大的值。

在此变体实施例中，在步骤705中使得可能检测大动态范围的信号的检测阈值取决于环境（context）（帧长度、窗口等）。然而，此变体涉及计算（傅里叶类型的）短期时间频率变换和计算在上文中描述的测量。

在另一变体实施例中，无需先验地检测具有大动态范围的信号，而是需要按照非参数和后验的方式来检测引发反馈不稳定的有问题信号。在此实施例中，不稳定风险参数是在图5和6中定义的输入信号s(n)与编码噪声t(n)之间的即时信噪比。然后，通过固定关于信噪比的阈值，例如一旦该比率低于5dB，则进行步骤705中的有问题信号的检测。在此实施例中，必须计算输入信号和噪声的均值，从而能够计算很好定义的信噪比。

然而，经常在已经部分可观测到不稳定或饱和的问题时，出现这种类型的后验检测。而且，此变体展现出具有非常高误警率的缺点。

在图8中图示了用于获得指示出反馈不稳定的风险的参数和检测不稳定的风险的另一实施例。

此算法与参考图7所描述的算法的不同之处仅仅在于，步骤702已变为802并且705已经变为805。

确实，在步骤802中，不但如参考图7所描述的一样、获得线性预测器a_i（i=0…M）的系数和反射系数k_i（i=1，...,M），而且还按照以下方式来获得当前帧的屏蔽滤波器的能量E_D：

E_{D} = Σ_{n = 0}^{\infty} f_{D} {(n)}^{2}

其可以通过被r′_L0(0)除的莱文森-德宾算法的输出处的预测增益E^[M]来近似。

事实上，屏蔽滤波器等于并且为了计算其能量，恰当地使用以下算法，该算法用于重新计算从开始的较低阶的连续预测器以及部分相关系数。

p_{D}^{j} (0) = 1,

p_{D}^{m} (j) = a_{j} γ^{j}

j=1,...,M

m=M,...,1

k_{m} = p_{D}^{m} (m)

p_{D}^{m - 1} (j) = \frac{p_{D}^{m} (j) - k_{m} p_{D}^{m} (m - j)}{1 - k_{m}^{2}}

j=1,...,m-1

将通过以下等式来给出在702中计算的所得到滤波器的能量E_D：

E_{D} = Π_{j = 1}^{M} 1 - k_{j}^{2}

然后，通过来给出指示出不稳定风险的参数。

其中，G_ADPCM是在先前帧上估计的ADPCM编码器的预测增益。通过可能在输入信号的能量r′_L0(0)上滤波的、量化器的饱和阈值V(n)²的商来对它进行近似。

然后，通过比较指示参数与以下阈值来执行检测不稳定风险的步骤805，这里将该阈值定义为ADPCM量化器的信噪比乘以调整风险的程度的因子k_RSB（k_RSBRSB_Q）。

事实上，RSB_Q是ADPCM量化器的信噪比（对于5比特拉普拉斯量化器而言，1/0.00414≈24dB的阶数241）。在来自IEEE review Trans.Communications of April1972PP.225-230的Paez和Glisson的文章"MinimumMean-Squared-Error Quantization in Speech PCM and DPCM Systems"的表II中，给出了用于各种数目比特和拉普拉斯概率密度的RSB_Q的值。

还可以按照各种方式来执行步骤706的用于限制反馈的步骤。

在不同的实施例中，不是通过将系数γ设置为0，而是通过将零值的比例因子（或增益）g应用于滤波器W(z)-1的输出来去激活噪声反馈。

参考图9来图示此实施例。

此图形图示了如图5所表示的、具有相同元件的分级编码器。唯一的区别来源于用于噪声整形的控制模块900，其在913中作为用于核心编码的滤波模块604的输出并且在914中作为用于改进编码的滤波模块608的输出而传递增益g，该增益g在将它设置为0时对反馈进行去激活。

按照与用于参数γ相同的方式来在g_mem中存储此因子g，在图7的步骤711中，在存储器中在_mem中放置该参数γ的值。

因此，在块900中，滤波器W(z)-1的系数的计算与块600相似，除了在其中η<MAXNORM的情况下，我们固定γ＝GAMMA₁＝0.92。而且，块900提供作为k₂的函数的、可应用于当前帧的增益g的值：如果k₂>0.95，则g＝0。

替换地，将增益g固定在非常低、但非零的值（例如，0.001）处。此变体不是对应于反馈的完全去激活，而是对应于反馈的限制，

在此变体中，通过逐步地将g的值从0变更到1，来进行噪声反馈的逐步恢复。例如，在跟随在检测k₂>0.95之后并且其中k₂≤0.95的帧中，将可能的是，在随后的各个帧中将g的值固定在0.25、0.5、0.75和1处。

非常显然，可以根据对于g而给出的极限值（例如，在检测到不稳定风险的情况下，g=0.001），来适配这些值。

而且，在其中在703中检测到低等级信号（η≥MAXNORM）的帧中，按照与恢复γ值的图7的步骤712相似的方式，来将增益g_mem恢复到值1。

现在，参考图10来描述根据本发明的编码器的示范实施例1000。

至于硬件，处于本发明意图内的、诸如根据图5、6和9的实施例所描述的编码器典型地包括处理器μP，该处理器μP用于与存储器块BM进行协作，该存储器块BM包括储存器和/或工作存储器、以及前述缓冲存储器MEM，以作为用于存储例如不稳定检测阈值的值、或者用于实现诸如参考图5、6、7、8和9所描述的噪声整形控制方法所需的所有其他数据的部件。此编码器接收数字信号s(n)作为输入，并且传递多路复用的量化索引I^B+K。

存储器块BM可以包括计算机程序，该计算机程序包括以下代码指令，当编码器的处理器μP执行这些指令时，所述代码指令用于实现根据本发明的方法的步骤，且特别是以下步骤：获得指示出反馈不稳定的风险的参数，通过比较指示参数与至少一个预定阈值来检测不稳定的风险，在检测到不稳定风险的情况下限制反馈，以及在已经限制了反馈的当前帧之后预定数目的帧上逐步重新激活反馈。

按照更加一般的方式，计算机或处理器可读的、可选地集成到编码器中的、可能为可移动的存储部件存储用于实现根据本发明的噪声整形控制方法的计算机程序。

例如，图7和8可以图示这样的计算机程序的算法。

Claims

1.一种用于在数字音频输入信号的ADPCM类型编码期间、控制编码噪声的整形的方法，通过实现包括噪声滤波的反馈来执行该噪声整形，其特征在于，该方法包括以下步骤：

-获得(702)用于指示出该信号的大谱动态范围的参数，该参数指示出该反馈的不稳定的风险；

-通过比较该指示参数与至少一个预定阈值，来检测(705)不稳定的风险；

-在检测到不稳定的风险的情况下去激活(706)该反馈；

-通过将加权系数应用于滤波参数来在已经限制了该反馈的当前帧之后的几帧上，逐步重新激活(708、709、710)该反馈，该加权系数通过所述几帧上的递增来定义。

2.根据权利要求1的方法，其特征在于，用于指示出大谱动态范围的参数是由输入信号(s(n))的线性预测分析所产生的第二反射系数(k₂)。

3.根据权利要求1的方法，其特征在于，用于指示出大谱动态范围的参数是由解码信号的线性预测分析所产生的第二反射系数(k₂)。

4.根据权利要求1的方法，其特征在于，所述大谱动态范围的参数是输入信号与噪声之间的信噪比。

5.根据权利要求1的方法，其特征在于，通过将要应用于噪声滤波参数(604)的加权系数设置为零，来执行该反馈的去激活。

6.根据权利要求1的方法，其特征在于，通过在噪声滤波的输出处应用零值的增益，来执行该反馈的去激活。

7.根据权利要求1的方法，其特征在于，在分级编码的核心编码期间和改进编码期间，同时地实现该方法。

8.一种数字音频信号ADPCM类型的编码器，包括用于对编码噪声进行整形的反馈，该编码器包含噪声滤波模块，其特征在于，该编码器包括噪声整形控制模块(600、800)，该噪声整形控制模块包括：

-用于通过比较该指示参数与至少一个预定阈值来检测不稳定的风险的部件；

-用于在检测到不稳定的风险的情况下去激活该反馈的部件；

-用于通过将加权系数应用于滤波参数来在已经限制了该反馈的当前帧之后的几帧上、逐步重新激活该反馈的部件，该加权系数通过所述几帧上的递增来定义。