CN103703512A

CN103703512A - 用于音频编码和解码的方法和装置

Info

Publication number: CN103703512A
Application number: CN201280037214.5A
Authority: CN
Inventors: 乌达·米塔尔; 詹姆斯·P·阿什利; 乔纳森·A·吉布斯
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC
Priority date: 2011-07-26
Filing date: 2012-07-23
Publication date: 2014-04-02
Also published as: US20130030798A1; US9037456B2; KR101615265B1; WO2013016262A1; EP2737478A1; KR20140027519A

Abstract

本发明提供了一种用于处理包括一般音频和语音帧的音频信号的编码器和解码器。在操作期间，语音编码器利用两个编码器，语音解码器利用两个解码器。利用两个编码器和解码器来分别处理语音和非语音（一般音频）。在一般音频和语音之间的转换期间，对于必要参数，通过处理在先一般音频（非语音）帧来生成用于解码语音帧的语音解码器所需的参数。因为必要参数是通过语音编码器/解码器获得的，所以当在一般音频帧和语音帧之间转换时，与现有技术相关联的间断被减少。

Description

用于音频编码和解码的方法和装置

技术领域

本公开一般涉及语音和音频编码和解码，并且更具体地，涉及用于处理包括一般音频和语音帧的音频信号的编码器和解码器。

背景技术

许多音频信号可被分类为具有较多类语音特性或较多一般音频特性，典型的有音乐、音调、背景噪声、有回声的语音等等。基于适合于处理语音信号的源滤波器模型的编解码器不能有效地处理一般音频信号。这种编解码器包括线性预测编码（LPC）编解码器，例如码激励线性预测（CELP）编码器。语音编码器倾向于以低比特率很好地处理语音信号。反之，一般音频处理系统，诸如频域变换编解码器不能非常好地处理语音信号。众所周知，提供分类器或鉴别器来基于逐帧地确定音频信号较多还是较少地类语音并且基于分类而引导信号到语音编解码器或一般音频编解码器。能够处理不同信号类型的音频信号处理器有时被称为混合核编解码器。在某些情况下，混合编解码器可以是可变速率，即，其可以以不同比特率编码不同类型的帧。例如，使用变换域编码的一般音频帧以较高比特率编码，而类语音帧以较低比特率编码。

分别使用语音和一般音频模式的一般音频帧和语音帧的处理之间的转换已知会产生间断。从CELP域帧到变换域帧的转换已经被证明以音频间隙的形式产生间断。从变换域到CELP域的转换导致可听到的间断，其对音频质量造成负面影响。间断的主要原因是CELP编解码器的各种状态的不正确初始化。

为了避免这个状态更新的问题，诸如AMRWB+和EVRCWB的现有技术的编解码器，甚至在音频模式中使用LPC分析且在变换域中编码残余。通过使使用逆变换获得的时域残余通过LPC合成滤波器来生成合成的输出。其自身的这个处理生成LPC合成滤波器状态和ACB激励状态。但是，一般音频信号通常不符合LPC模型，因此在LPC量化上花费比特可能导致一般音频信号性能的损失。因此，需要一种用于处理包括一般音频和语音帧的音频信号的编码器和解码器，其改善在编码和解码技术之间转换期间的音频质量。

附图说明

图1图示了混合编码器，其被配置为编码输入帧流，其中一些是类语音帧并且另一些是包括非语音帧的较少类语音帧。

图2是语音解码器的框图，该语音解码器被配置为解码输入帧流，其中一些是类语音帧并且另一些是包括非语音帧的较少类语音帧。

图3是编码器和状态生成器的框图。

图4是解码器和状态生成器的框图。

图5是状态生成器的更详细框图。

图6是语音编码器的更详细框图。

图7是语音解码器的更详细框图。

图8是根据替换实施例的语音编码器的框图。

图9是根据本发明的替换实施例的状态生成器的框图。

图10是根据本发明的进一步的实施例的语音编码器的框图。

图11是示出图1的编码器的操作的流程图。

图12是示出图2的解码器的操作的流程图。

技术人员将认识到，附图中的要素为了简化和清楚而图示，且没有必要按比例绘制。例如，图中某些要素的尺寸和/或相对位置可能相对于其他元件有所夸张以帮助改进对本发明的各种实施例的理解。而且，那些对商业可行实施例有用或必要的普通但很好理解的要素通常没有绘制，以便于促进对本发明的这些各种实施例较少形成妨碍。进一步应理解，特定动作和/或步骤可能以出现的特定生成顺序描述或描绘，而本领域技术人员将理解，这样的关于顺序的特指实际上并无要求。本领域技术人员还将认识到，对特定实现实施例的引用，诸如“电路”，可相等地经由在执行存储在非瞬时计算机可读存储器中的软件指令的通用计算装置（例如，CPU）或专用处理装置（例如，DSP）上实现。还应该理解，在此使用的术语和表述具有符合如上所述的该技术领域的技术人员的术语和表述的普通技术含义，除非在此另外阐述了其具有不同特定含义。

具体实施方式

为了缓解上述需要，在此提供了一种用于处理包括一般音频和语音帧的音频信号的编码器和解码器。在操作期间，语音编码器利用两个编码器，语音解码器利用两个解码器。这两个编码器和解码器被用于分别处理语音和非语音（一般音频）。在一般音频和语音之间的转换期间，对于必要参数，通过处理在先一般音频（非语音）帧来生成用于解码语音帧的语音解码器所需要的参数。因为必要参数是通过语音编码器/解码器获得的，所以当在一般音频帧和语音帧之间转换时，减少了与现有技术相关联的间断。

现在来看附图，其中相似的数字指示相似的组件，图1图示了混合编码器100，其被配置为编码输入帧流，其中一些是类语音帧并且另一些是包括非语音帧的较少类语音帧。图1的电路可以合并到执行音频编码和解码的任何电子设备中。这样的设备包括，但不限于，蜂窝电话、音乐播放器、家用电话……等等。

较少类语音帧在此被称为一般音频帧。混合核编解码器100包括模式选择器110，其处理任何输入音频信号s(n)的帧，其中n为采样索引。模式选择器还可以从速率确定器得到输入，该速率确定器确定当前帧的速率。速率随后可以控制所使用的编码方法的类型。当采样速率为16kHz采样每秒时，帧长度可以包括320个音频采样，其对应于20毫秒的帧时间间隔，尽管许多其他变化也是可能的。

在图1中，提供适合于编码语音帧的第一编码器130且提供适合于编码一般音频帧的第二编码器140。在一个实施例中，编码器130基于适合于处理语音信号的源滤波器模型，而一般音频编码器140是基于时域混叠消除（TDAC）的线性正交重叠变换。在一种实现中，在适合于处理语音信号的其他编码器中，语音编码器130可以利用线性预测编码（LPC），典型的是码激励线性预测（CELP）编码器。一般音频编码器可被实现为修正离散余弦变换（MDCT）编码器或修正离散正弦变换（MSCT）或者基于不同类型的离散余弦变换（DCT）或DCT/离散正弦变换（DST）组合的MDCT的形式。对于一般音频编码器140，存在许多其他可能性。

在图1中，第一和第二编码器130和140具有通过选择开关150耦合到输入音频信号的输入，该选择开关150基于由模式选择器110所选择或确定的模式被控制。例如，开关150可以由处理器基于模式选择器的码字输出来控制。开关150选择用于处理语音帧的语音编码器130，并且开关选择用于处理一般音频帧的一般音频编码器。取决于选择开关150，每个帧可以只由一个编码器来处理，例如或者是语音编码器，或者是一般音频编码器。尽管在图1中只图示了两个编码器，但是可以由若干不同编码器中的一个来编码帧。例如，可以选择三个或更多编码器中的一个来处理输入音频信号的特定帧。但是，在其他实施例中，可以由所有编码器来编码每一帧，如下进一步讨论的那样。

在图1中，每个编解码器基于由编码器所处理的对应的输入音频帧而产生编码比特流和对应的被处理的帧。编码比特流随后可以被存储或者传送到合适的解码器200，诸如图2中所示。在图2中，由语音解码器所产生的被处理的输出帧被表示为

而由一般音频编码器所产生的被处理的帧被表示为

如图2所示，语音解码器200包括解复用器210，其接收编码比特流并将比特流传递到合适的解码器230或221。类似于编码器100，解码器200包括用于解码语音的第一解码器230和用于解码一般音频的第二解码器221。如上所提到的，当从音频模式转换到语音模式时，可能形成音频间断。为了解决这个问题，在编码器100和解码器200中都提供了参数/状态生成器160和260。在一般音频和语音之间的转换期间，由生成器160和260通过处理在先一般音频（非语音）帧输出/解码音频来生成分别用于编码和解码语音帧的语音编码器130和解码器230所需的参数和/或状态（有时称为滤波器参数）。

图3示出了电路160和编码器130的框图。如所示，根据之前编码的一般音频帧m而重构的音频进入状态生成器160。状态生成器160的目的是为帧m+1估计语音编码器130的一个或多个状态存储器（滤波器参数），使得系统表现得像m已由语音编码器130处理一样，而实际上帧m已由诸如一般音频编码器140的第二编码器处理。而且，如160和130中所示，与状态存储器更新相关联的滤波器实现，滤波器340和370是互补的（即，相互逆向）。这是由于本发明中的状态更新处理的特性。更具体地，前一帧m的重构音频是通过一个或多个逆向滤波器和/或在语音编码器130中给出的其他处理而“后向传播”的。逆向滤波器的状态随后被传送到编码器中的对应的前向滤波器。这将导致在各自音频处理中从帧m到帧m+1的平滑转换，并且将在稍后更详细地讨论。

对帧m+1随后的解码音频可以以此方式表现为前一帧m如同已被解码器230解码一样。被解码的帧随后被发送到状态生成器160，其中，确定由语音编码器130所使用的参数。这部分地由状态生成器160通过使用各自的滤波器逆函数确定下面中的一个或多个的值来完成：

●下采样滤波器状态存储器

●预加重滤波器状态存储器

●用于内插和生成加权合成滤波器、状态存储器的线性预测系数

●自适应码本状态存储器，

●去加重滤波器状态存储器，和

●LPC合成滤波器状态存储器

上述参数中至少一个的值被传递到语音编码器130，其中，它们被用作用来编码后续语音帧的初始化状态。

图4示出了状态生成器260和解码器230的对应的解码器框图。如所示，来自帧m的重构音频进入状态生成器260，其中，确定由语音解码器230所使用的滤波器的状态存储器。该方法类似于图3的方法，因为前一帧m的重构音频是通过在语音解码器230中给出用于处理帧m+1的一个或多个滤波器和/或其他处理而“后向传播”的。最终结果是创建解码器的滤波器内的状态如同前一帧m的重构音频由语音解码器230所生成一样，此时实际上，来自前一帧的重构音频是从诸如一般音频解码器230的第二解码器生成的。

尽管前面的讨论示例了本发明通过单一滤波器状态F(z)的使用，但我们现在将考虑实际系统的情况，其中，状态生成器160、260可包括，为了下述中的一个或多个，确定滤波器存储器状态：

●重采样滤波器状态存储器

●预加重/去加重滤波器状态存储器

●用于内插的线性预测（LP）系数

●加权合成滤波器状态存储器

●零输入响应状态存储器

●自适应码本（ACB）状态存储器

●LPC合成滤波器状态存储器

●后滤波器状态存储器

●间距（pitch）预滤波器状态存储器

上述参数中的至少一个的值从状态生成器160、260传递到语音编码器130或语音解码器230，其中，它们被用作用于编码或解码各自后续语音帧的初始状态。

图5是状态生成器160、260的框图，其中元件501、502和505充当逆滤波器370的不同实施例。如所示，对于帧（例如，帧m）的重构音频进入下采样滤波器501并且被下采样。被下采样的信号退出滤波器501并且进入上采样滤波器状态生成电路507，其中确定并且输出解码器的各自的上采样滤波器711的状态。此外，被下采样的信号进入预加重滤波器502，其中预加重发生。产生的信号被传递到去加重滤波器状态生成电路509，其中确定和输出去加重滤波器709的状态。经由电路503发生LPC分析并且LPC滤波器A_q(z)被输出到LPC合成滤波器707以及分析滤波器505，其中，LPC残余被生成并输出到合成滤波器状态生成电路511，其中确定并输出LPC合成滤波器707的状态。根据LPC合成滤波器的实现，LPC合成滤波器的状态可以根据预加重滤波器502的输出来直接确定。最后，LPC合成滤波器的输出被输入到自适应码本状态生成电路513，其中确定和输出适当的码本。

图6是语音编码器130的框图。编码器130优选是CELP编码器130。在CELP编码器130中，输入信号s(n)在施加给线性预测编码（LPC）分析块601之前可以首先被重采样和/或预加重，其中，线性预测编码用于估计短时谱包络。得到的谱参数（或者LP参数）被标记为传输函数A(z)。谱参数被施加给LPC量化块602，其对谱参数进行量化以产生被量化的谱参数A_q，其被编码以在复用器608中使用。量化的谱参数A_q随后被传输到复用器608，并且复用器基于量化的谱参数和由平方差最小化/参数量化块607确定的一组码本相关参数τ、β、k和γ来产生编码比特流。

量化的谱或LP参数还被本地传输到LPC合成滤波器605，LPC合成滤波器605具有对应的传输函数1/A_q(z)。LPC合成滤波器605还从第一组合器610接收组合的激励信号u(n)并且基于量化的谱参数A_q和组合的激励信号u(n)来产生对输入信号的估计

组合的激励信号u(n)如下产生。基于索引参数τ从自适应码本（ACB）603选择出自适应码本码矢量c_τ。自适应码本码矢量c_τ随后基于增益参数β被加权，加权的自适应码本码矢量被传输到第一组合器610。基于索引参数k从固定码本（FCB）604选择出固定码本码矢量c_k。固定码本码矢量c_k随后基于增益参数γ被加权，并且也被传输到第一组合器610。然后第一组合器610通过将自适应码本码矢量c_τ的加权版本与固定码本码矢量c_k的加权版本相组合来产生组合的激励信号u(n)。

LPC合成滤波器605将输入信号估计

传输到第二组合器612。第二组合器612还接收输入信号s_p(n)，并且从输入信号s(n)减去输入信号的估计

输入信号s_p(n)与输入信号估计

之间的差被施加到感知误差加权滤波器606，该滤波器基于

与s_p(n)之间的差以及加权函数W(z)来产生感知加权的误差信号e(n)。感知加权的误差信号e(n)随后被传输到平方差最小化/参数量化块607。平方差最小化/参数量化块607使用误差信号e(n)来确定一组最优的码本相关参数τ、β、k和γ，其产生输入信号s_p(n)的最佳估计

如所示，自适应码本603、合成滤波器605和感知误差加权滤波器606都具有来自状态生成器160的输入。如上所讨论的，这些元件603、605和606将基于先前的非语音音频帧而从状态生成器160获得用于第一语音帧的原始参数（初始状态）。

图7是解码器230的框图。如所示，解码器230包括解复用器701、自适应码本703、固定码本705、LPC合成滤波器707、去加重滤波器709以及上采样滤波器711。在操作期间，由编码器130产生的编码比特流被解码器230中的解复用器701用来解码一组最优的码本相关参数，即A_q、τ、β、k和γ，其过程与编码器130所执行的合成过程相同。

合成滤波器707的输出，其可以被称为CELP解码器的输出，被滤波器709去加重，并且然后将去加重的信号传递通过12.8kHz到16kHz上采样滤波器（5/4上采样滤波器711）。由此生成的合成输出的带宽被限制为6.4kHz。为了生成8kHz带宽输出，使用0比特带宽扩展来生成从6.4kHz到8kHz的信号。AWRWB型编解码器主要设计用于宽带输入（8kHz带宽，16kHz采样率），但是，图7中所示的AMRWB的基本结构仍然可以被用于超宽带（16kHz带宽，32kHz采样率）输入以及全频带输入（24kHz带宽，48kHz采样率）。在这些情形下，编码器处下采样滤波器将分别从32kHz和48kHz下采样到12.8kHz。零比特带宽扩展也可被更复杂的带宽扩展方法所替代。

优选实施例的一般音频模式使用变换域/频域编解码器。MDCT被用作优选变换。一般音频模式的结构可类似ITU-T建议G.718或G.718超宽带扩展的变换域层。与在G.718中输入到变换域的是来自更低层的误差信号不同，输入到变换域中的是输入音频信号。而且，变换域部分直接地编码输入信号的MDCT而不是编码输入语音信号的LPC残余的MDCT。

如所提及的，在从一般音频编码到语音编码的转换期间，语音解码器对第一语音帧进行解码所需的参数和状态存储器是通过处理在先的一般音频（非语音）帧来生成的。在优选实施例中，语音编解码器是从AMR-WB型编解码器中得到的，其中，执行输入语音到12.8kHz的下采样。一般音频模式编解码器可以不具有任何下采样、预加重和LPC分析，因此，对于编码音频帧后的帧，AMR-WB型编解码器的编码器可能需要下面参数和状态存储器的初始化：

●下采样滤波器状态存储器，

●预加重滤波器状态存储器，

●用于加权分析滤波器、状态存储器的内插和生成的线性预测系数

●自适应码本状态存储器

●去加重滤波器状态存储器，和

●LPC合成滤波器状态存储器。

下采样滤波器和预加重滤波器的状态仅是编码器所需要的，并且因此甚至在一般音频模式中可以通过仅继续处理通过这些滤波器的音频输入来获得。生成仅由编码器130所需的状态是简单的，因为更新这些状态的语音部分编码器模块可以也在音频编码器140中执行。由于音频模式编码器140的复杂度通常比语音模式编码器130的复杂度低，音频模式期间的编码器中的状态处理确实会影响最坏情形的复杂度。

下面的状态也是解码器230所需的，并且由状态生成器260来提供。

1.用于合成滤波器状态存储器的内插和生成的线性预测系数。其由电路611提供并且输入到合成滤波器707。

2.自适应码本状态存储器。其由电路613产生并且输出到自适应码本703。

3.去加重滤波器状态存储器。其由电路609产生并且输入到去加重滤波器709。

4.LPC合成滤波器状态存储器。其由LPC分析电路603输出并且输入到合成滤波器707。

5.上采样滤波器状态存储器。其由电路607产生并且输入到上采样滤波器711。

音频输出

由4/5下采样滤波器下采样以产生下采样信号下采样滤波器可以是IIR滤波器或FIR滤波器。在优选实施例中，线性时间FIR低通滤波器被用作下采样滤波器，由下式给出：

H_{LP} (z) = Σ_{i = 0}^{L - 1} b_{i} z^{- i}

其中b_i是FIR滤波器系数。其增加了到一般音频输出的延迟。最后的L个采样作为

形成上采样滤波器的状态，其中L是上采样滤波器的长度。语音模式中使用的上采样滤波器上采样12.8kHz，CELP解码器输出到16kHz。对于这种情况，状态存储器转换涉及下采样滤波器存储器到上采样滤波器的简单复制。在此方面，上采样滤波器状态被初始化用于帧m+1，就像被解码的帧m的输出已经源自帧m+1的编码方法，此时实际上采用了用于对帧m进行编码的不同编码方法。

下采样输出

然后被传递通过如下给出的预加重滤波器：

P(z)＝1-γz^-1

其中，γ是常数（通常，0.6≤γ≤0.9），以生成预加重的信号

在用于帧m+1的编码方法中，在编码器处执行预加重并且在解码器处执行对应的逆（去加重）：

D (z) = \frac{1}{1 - γ z^{- 1}}

在此情况下，用于来自帧m的重构音频的到预加重滤波器的下采样输入被用于表示去加重滤波器的之前输出，因此，

的最后采样被用作去加重滤波器状态存储器。这在概念上类似于重采样滤波器，在于对于帧m+1的去加重滤波器的状态被初始化为就像帧m的解码已经使用与帧m+1相同解码方法被处理一样的状态，而此时实际上它们是不同的。

接下来，

的最后p个采样被类似地用作用于下一个语音模式帧的LPC合成滤波器的状态，其中p是LPC合成滤波器的阶数。针对预加重输出执行LPC分析，以生成前一帧的“被量化”的LPC，

A_{q} (z) = 1 - Σ_{i = 1}^{p} a_{i} z^{- i}

并且其中对应的LPC合成滤波器如下给出：

1 / A_{q} (z) = \frac{1}{1 - Σ_{i = 1}^{p} a_{i} z^{- i}}

在语音模式中，通过前一帧和当前帧LPC系数的内插来生成不同子帧的合成/加权滤波器系数。为了内插的目的，如果前一帧是音频模式帧，则通过执行

的LPC分析获得的LPC滤波器系数A_q(z)现在被用作前一帧的LP参数。而且，这类似于之前的状态更新，其中，帧m的输出被“后向传播”以产生状态存储器以便由帧m+1的语音解码器使用。

最后，为了语音模式正确工作，我们需要更新系统的ACB状态。用于音频帧的激励可以由反向处理获得。反向处理是在语音解码器中典型处理的“反向”，其中，激励被传递通过LPC逆（即，合成）滤波器以生成音频输出。在此情况下，音频输出

被传递通过LPC分析滤波器A_q(z)以生成残余信号。该残余用于自适应码本状态的生成。

尽管CELP编码器130在概念上有用，但是通常其不是编码器的实际实现，其中希望保持计算复杂度尽可能低。结果，图8是示例编码器800的框图，该编码器800利用了等同物但更实际的系统作为编码器130所图示的编码系统。

编码器800可以替换编码器130。为了更好地理解编码器800和编码器130之间的关系，看一下编码器800从编码器130的数学推导是有益的。为方便阅读，变量以其z变换的形式给出。

从图6中可以看出，感知误差加权滤波器606基于输入信号与估计输入信号之间的差产生加权误差信号e(n)，即：

E (z) = W (z) (S (z) - \hat{S} (z)) - - - (1)

从这个表达式，可以分布出加权函数W(z)并且可以将输入信号估计

分解为加权码本码矢量的滤波和：

E (z) = W (z) S (z) - \frac{W (z)}{A_{q} (z)} (β C_{τ} (z) + γ C_{k} (z)) - - - (2)

项目W(z)S(z)对应于输入信号的加权版本。通过让加权输入信号W(z)S(z)被定义为S_w(z)＝W(z)S(z)并且通过进一步让编码器130的加权合成滤波器803/804现在被传输函数H(z)＝W(z)/A_q(z)定义。在输入音频信号被下采样和预加重的情况下，然后对下采样的语音输入执行加权和误差生成。但是，去加重滤波器D(z)需要被增加到传输函数，因此H(z)＝W(z)·D(z)/A_q(z)。公式2现在可以被如下改写为：

E(z)＝S_w(z)-H(z)(βC_τ(z)+γC_k(z)) (3)

通过使用z变换符号，滤波器状态不需要被明确定义。现在继续使用矢量符号，其中矢量长度L是当前子帧的长度，通过使用叠加原理，公式3可以如下被改写为：

e＝s_w-H(βc_τ+γc_k)-h_zir (4)

其中：

●H是从诸如合成滤波器803和804的加权合成滤波器h(n)的冲激响应形成的L x L零状态加权合成卷积矩阵，并且对应于传输函数H_zs(z)或H(z)，该矩阵可以被表示为：

●h_zir是H(z)的L x1零输入响应，H(z)是由来自前一输入的状态导致，

●s_w是L x1感知加权输入信号，

●β是标量自适应码本（ACB）增益，

●c_τ是响应于索引τ的L x1的ACB码矢量，

●γ是标量固定码本（FCB）增益，和

●c_k是响应于索引k的L x1的FCB码矢量。

通过分布H，并且让输入目标矢量x_w＝s_w-h_zir，可以获得下面的表达式：

e＝x_w-βHc_τ-γHc_k (6)

公式6表示由编码器130的第三组合器807产生并且由组合器807耦合至平方差最小化/参数块808的感知加权误差（或者失真）矢量e(n)。

根据上面的表达式，通过平方差最小化/参数块808，可以得到方程式用于最小化感知加权误差的加权版本，即║e║²。平方差的范数被给出为：

ε＝||e||²＝||x_w-βHc_τ-γHc_k||² (7)

由于复杂度限制，语音编码系统的实际实现通常以连续的方式最小化平方差。也就是，ACB分量被首先优化（假定FCB贡献为0），然后使用给出的（之前优化的）ACB分量来优化FCB分量。ACB/FCB增益，即，码本相关参数β和γ可以被或可以不被重新优化，即被或不被量化，给定顺序选择的ACB/FCB码矢量c_τ和c_k。

用于执行顺序搜索的理论如下。首先，公式7中提供的平方差的范数通过设定γ=0而被修改，然后扩展为产生：

ϵ = {| | x_{w} - β c_{τ} | |}^{2} = x_{w}^{T} x_{w} - 2 β x_{w}^{T} H c_{τ} + β^{2} c_{τ}^{T} H^{T} H c_{τ} - - - (8)

然后通过取ε相对于β的偏导数并且设定量为0来确定平方差的最小化：

\frac{&PartialD; ϵ}{&PartialD; β} = x_{w}^{T} H c_{τ} - β c_{τ}^{T} H^{T} H c_{τ} = 0 - - - (9)

这产生了（顺序）最优ACB增益：

β = \frac{x_{w}^{T} H c_{τ}}{c_{τ}^{T} H^{T} H c_{τ}} - - - (10)

将最优ACB增益代入回公式8给出：

τ^{*} = \underset{τ}{\arg \min} {x_{w}^{T} x_{w} - \frac{{(x_{w}^{T} H c_{τ})}^{2}}{c_{τ}^{T} H^{T} H c_{τ}}} - - - (11)

其中τ^*是顺序确定的最优ACB索引参数，即，最小化括号中表达式的ACB索引参数。由于x_w不依赖于τ，所以公式11可以被如下重写为：

τ^{*} = \underset{τ}{\arg \max} {\frac{{(x_{w}^{T} H c_{τ})}^{2}}{c_{τ}^{T} H^{T} H c_{τ}}} - - - (12)

现在，通过让y_τ等于由加权合成滤波器803滤波的ACB码矢量c_τ，即y_τ＝Hc_τ，公式13可以被简化为：

τ^{*} = \underset{τ}{\arg \max} {\frac{{(x_{w}^{T} y_{τ})}^{2}}{y_{τ}^{T} y_{τ}}} - - - (13)

并且类似地，公式10可以被简化为：

β = \frac{x_{w}^{T} y_{τ}}{y_{τ}^{T} y_{τ}} - - - (14)

这样，公式13和14表示顺序方式确定最优ACB索引τ和ACB增益β所必需的两个表达式。这些表达式现在可以被用于确定最优FCB索引和增益表达式。首先，根据图8可以看出，第二组合器806产生矢量x₂，其中x₂＝x_w-βHc_τ。矢量x_w由第一组合器805产生，其在由加权合成滤波器801滤波之后从感知误差加权滤波器802的输出s_w(n)中减去过去的激励信号u(n-L)。项目βHc_τ是ACB码矢量c_τ的被滤波且加权的版本，即，由加权合成滤波器803滤波且然后基于ACB增益参数β被加权的ACB码矢量c_τ。将表达式x₂＝x_w-βHc_τ代入公式7得到：

ε＝||x₂-γHc_k||² (15)

其中γHc_k是FCB码矢量c_k的被滤波且加权的版本，即，由加权合成滤波器804滤波且然后基于FCB增益参数γ被加权的FCB码矢量c_k。类似于上面最优ACB索引参数τ^*的推导，很明显：

k^{*} = \underset{k}{\arg \max} {\frac{{(x_{2}^{T} H c_{k})}^{2}}{c_{k}^{T} H^{T} H c_{k}}} - - - (16)

其中，k^*是最优FCB索引参数，即，最大化了括号内表达式的FCB索引参数。通过对不依赖于k的项目进行分组，即，让

且Φ＝H^TH，公式16可以被简化为：

k^{*} = \underset{k}{\arg \max} {\frac{{(d_{2}^{T} c_{k})}^{2}}{c_{k}^{T} Φ c_{k}}} - - - (17)

其中，最优FCB增益γ被给出为：

γ = \frac{d_{2}^{T} c_{k}}{c_{k}^{T} Φ c_{k}} - - - (18)

像编码器130一样，编码器800需要从状态生成器160供应的初始化状态。这在图9中被图示，图9示出了状态生成器160的替换实施例。如图9中所示，自适应码本103的输入是从图9的块911中获得的，而且加权合成滤波器801利用块909的输出，块909又利用了块905的输出。

目前为止我们已经讨论了当语音模式编解码器为AMR-WB编解码器时从音频模式到语音模式的切换。ITU-T G.718编解码器可以类似地用作混合编解码器中的语音模式编解码器。G.718编解码器将语音帧分类为四种模式：

a.浊音语音帧；

b.清音语音帧；

c.转换语音帧；和

d.一般语音帧。

转换语音帧是浊音转换帧后面的浊音帧。转换帧最小化了其对前一帧激励的依赖。这有助于在浊音转换帧丢失时的帧错误之后的恢复。为了总结，变换域帧输出以这样的方式来分析以获得CELP域编解码器的激励和/或其他参数。参数和激励应该是这样的，当这些参数由CELP解码器处理时，它们应该能够生成相同变换域输出。下一帧（也就是CELP（或时域）帧）的解码器使用通过在变换域输出的分析期间获得的参数的CELP解码器处理而生成的状态。

为了降低音频到语音模式切换期间状态更新对后续浊音语音帧的影响，可能优选的是，对音频帧之后的浊音语音帧编码，作为转换语音帧。

可以观察到，在混合编解码器的优选实施例中，其中仅在语音模式执行下采样/上采样，在音频到语音转换期间由语音模式生成的首先的L个输出采样也是由音频模式生成的。（注意：音频编解码器被延迟下采样滤波器的长度）。上面讨论的状态更新提供了平滑转换。为了进一步减少间断，L个音频模式输出采样可以重叠或者增加有首先的L个语音模式音频采样。

在某些情形下，需要的是，解码应该也在编码器端被执行。例如，在多层编解码器（G.718）中，第一层的误差是由第二层编码的，因此解码必须在编码器端执行。图10具体解决了多层编解码器的第一层是混合语音/音频编解码器的情况。来自帧m的音频输入由一般音频编码器/解码器1001处理，其中音频经由编码器被编码，然后立即经由解码器被解码。来自块1001的重构的（解码的）一般音频由状态生成器160处理。来自状态生成器160的状态估计现在由语音编码器130用来生成编码语音。

图11是示出图1的编码器的操作的流程图。如上所讨论的，图1的编码器包括编码一般音频帧的第一编码器，输出用于一般音频帧m的滤波器状态的状态生成器，和用于编码语音帧的第二编码器。第二编码器接收用于一般音频帧m的滤波器状态，并且使用用于一般音频帧m的滤波器状态来编码语音帧m+1。

逻辑流程在步骤1101处开始，其中利用第一编码器（编码器140）来编码一般音频帧。通过状态生成器160从一般音频帧确定滤波器状态（步骤1103）。然后第二编码器（语音编码器130）被利用滤波器状态初始化（步骤1105）。最后，在步骤1107，利用通过滤波器状态而初始化的第二编码器来编码语音帧。

图12是示出图2的解码器的操作的流程图。如上所讨论的，图2的解码器包括解码一般音频帧的第一解码器221，输出用于一般音频帧m的状态生成器260，和用于解码语音帧的第二解码器230。第二解码器接收用于一般音频帧m的滤波器状态，并且使用用于一般音频帧m的滤波器状态来解码语音帧m+1。

逻辑流程在步骤1201处开始，其中利用第一解码器（编码器221）来解码一般音频帧。通过状态生成器260从一般音频帧确定滤波器状态（步骤1203）。第二解码器（语音解码器230）然后被通过滤波器状态初始化（步骤1205）。最后，在步骤1207，利用通过滤波器状态而初始化的第二解码器来解码语音帧。

尽管已经特别示出并且参考特定实施例来描述了本发明，但是本领域技术人员将理解，其中可以作出各种形式和细节上的改变，而不会背离本发明的精神和范围。例如，尽管上面描述了许多状态/参数是由电路260和360生成的，但是本领域普通技术人员将认识到，与那些示出的相比，可以生成更少或更多的参数。另一个例子可能需要第二编码器/解码器方法，其可能使用替换的变换编码算法，诸如基于离散傅里叶变换（DFT）或其快速实现。也可以考虑其他编码方法，因为没有真实限制，除了来自前一帧的重构音频被用作编码器/解码器状态状态生成器的输入。而且，CELP型语音编码器/解码器的状态更新被呈现，但也可能使用另一类型的编码器/解码器用于处理帧m+1。意欲这样的变化将落入以下权利要求的范围内。

Claims

1.一种用于解码音频帧的方法，所述方法包括步骤：

利用第一解码器来解码第一音频帧以产生第一重构音频信号；

从所述第一重构音频信号确定用于第二解码器的滤波器状态；

利用从所述第一重构音频信号确定的所述滤波器状态来初始化第二解码器；以及

利用通过所述滤波器状态初始化的所述第二解码器来解码语音帧，

其中，确定用于所述第二解码器的滤波器状态包括确定在所述第二解码器中初始化的所述滤波器状态的逆。

2.如权利要求1所述的方法，其中：

确定所述滤波器状态的步骤包括执行对所述重构音频信号的LPC分析、对所述重构音频信号的下采样、以及对所述重构音频信号的预加重中的至少一个；以及

利用所述滤波器状态来初始化所述第二解码器的步骤是通过接收LPC合成状态、上采样滤波器状态以及去加重滤波器状态中的至少一个来完成的。

2.如权利要求1所述的方法，其中，所述滤波器状态包括以下中的至少一个：

●重采样滤波器状态存储器

●预加重/去加重滤波器状态存储器

●用于内插的线性预测（LP）系数

●加权合成滤波器状态存储器

●零输入响应状态存储器

●自适应码本（ACB）状态存储器

●LPC合成滤波器状态存储器

●后滤波器状态存储器

●间距预滤波器状态存储器。

3.如权利要求1所述的方法，其中，所述第一解码器包括编码较少类语音帧的一般音频解码器。

4.如权利要求3所述的方法，其中，所述第一解码器包括修正离散余弦变换（MDCT）解码器。

5.如权利要求3所述的方法，其中，所述第二解码器包括解码较多类语音帧的语音解码器。

6.如权利要求5所述的方法，其中，所述第二解码器包括码激励线性预测（CELP）编码器。

7.一种装置，包括：

第一编码器，所述第一编码器编码一般音频帧；

状态生成器，所述状态生成器输出用于一般音频帧m的滤波器状态；

第二编码器，所述第二编码器用于编码语音帧，所述第二编码器接收用于所述一般音频帧m的所述滤波器状态，并且使用用于所述一般音频帧m的所述滤波器状态来编码语音帧m+1。

8.一种用于解码音频帧的方法，所述方法包括步骤：

利用第一解码器来解码一般音频帧；

从一般音频帧确定用于第二解码器的滤波器状态；

利用从所述一般音频帧确定的所述滤波器状态来初始化第二解码器；以及

利用通过所述滤波器状态初始化的所述第二解码器来解码语音帧。

9.如权利要求8所述的方法，其中，所述滤波器状态包括以下中的至少一个：

●重采样滤波器状态存储器

●预加重/去加重滤波器状态存储器

●用于内插的线性预测（LP）系数

●加权合成滤波器状态存储器

●零输入响应状态存储器

●自适应码本（ACB）状态存储器

●LPC合成滤波器状态存储器

●后滤波器状态存储器

●间距预滤波器状态存储器。

10.一种装置，包括：

第一解码器，所述第一解码器解码一般音频帧；

第二解码器，所述第二解码器用于解码语音帧，所述第二解码器接收用于所述一般音频帧m的所述滤波器状态，并且使用用于所述一般音频帧m的所述滤波器状态来解码语音帧m+1。