CN1703737B

CN1703737B - 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法

Info

Publication number: CN1703737B
Application number: CN2003801012805A
Authority: CN
Inventors: M·耶利内克; R·萨拉米
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2002-10-11
Filing date: 2003-10-10
Publication date: 2013-05-15
Anticipated expiration: 2023-10-10
Also published as: WO2004034379A2; AU2003278013A1; RU2005113877A; JP2006502426A; MY138212A; AU2003278014A8; EP1554718B1; CA2501369A1; BR0315179A; RU2351907C2; CA2501368C; US7203638B2; WO2004034376A2; EP1554718A2; JP2006502427A; ES2361154T3; ATE505786T1; CA2501368A1; AU2003278013A8; KR100711280B1

Abstract

一种源控制的可变比特率多模式宽带(VMR-WB)编解码器，该编解码器具有一种能够和自适应多速率宽带(AMR-WB)编解码器互操作的操作模式，该编解码器包括：至少一个互操作的全速率(I-FR)模式；该至少一个I-FR模式具有基于AMR-WB编码类型之一的第一比特分配结构；和至少一个舒适噪声发生器(CNG)编码类型，用来对非激活语音帧编码，该至少一个舒适噪声发生器编码类型具有基于AMR-WBSID_UPDATE编码类型的第二比特分配结构。还提供了用于如下功能的方法：i)使用源控制的可变比特率多模式宽带(VMR-WB)编解码器对声音进行数字编码，与自适应多速率宽带(AMR-WB)编解码器互操作，ii)将可变比特率多模式宽带(VMR-WB)编解码器信号帧变换成自适应多速率宽带(AMR-WB)信号帧，iii)将自适应多速率宽带(AMR-WB)信号帧变换成可变比特率多模式宽带(VMR-WB)编解码器信号帧，以及iv)将自适应多速率宽带(AMR-WB)信号帧变换成可变比特率多模式宽带(VMR-WB)信号帧的方法。

Description

在自适应多速率宽带(AMR-WB)和多模式可变比特率宽带(VMR-WB)编解码器之间互操作的方法

发明领域

本发明涉及声音信号的数字编码，尤其但不限于语音信号，考虑到发送和合成该声音信号。更具体而言，本发明涉及一种在自适应多速率宽带和多模式可变比特率宽带编解码器之间互操作的方法。

发明背景

在诸如电话会议、多媒体和无线通信的各种应用领域中，对在主观质量和比特率之间具有好的平衡的高效数字窄带和宽带语音编码技术的需求正在增加。直到最近，被限制在200-3400Hz范围之内的电话带宽主要用于语音编码的应用中。然而与传统电话带宽比较来说，宽带语音的应用提高了通信中的可懂度和自然度。已经发现在范围50-7000Hz的带宽足够用来提供面对面通信感觉的高质量。对于普通的音频信号，该带宽给出了可以接收的主观质量，但仍然低于分别运行在20-16000Hz和20-20000Hz的FM无线电或CD的质量。

语音编码器将语音信号转换成数字比特流，该数字比特流在通信信道上传送或者被存储在存储介质中。语音信号被数字化，即，通常使用每抽样16比特来抽样和量化。语音编码器的作用就是使用更少的比特表示这些数字抽样值同时保持好的主观语音质量。语音解码器或合成器作用于该被传送的或被存储的比特流并且将其转换回声音信号。

码激励线性预测(CELP)编码是能够在主观质量和比特率之间获得好的折中的已知技术。该编码技术是无线和有线应用中几个语音编码标准的基础。在CELP编码中，抽样语音信号以通常被称为帧的L个抽样的连续块被处理，其中L典型地是对应于10-30ms的预定数量。每一帧都计算和传送线性预测(LP)滤波器。LP滤波器的计算典型地需要一个前视，一个来自随后帧的5-15ms语音段。该L-抽样帧被分成为被称为子帧的小块。通常子帧的数量是3个或4个即每个子帧4-10ms。在每个子帧中，激励信号通常从两个分量获得：过去的激励和创新的、固定码本激励。从过去激励形成的分量通常被称为自适应码本或音调激励。表示该激励信号特征的参数被编码和传送到解码器，其中重建的激励信号被用作LP滤波器的输入。

在使用码分多址(CDMA)技术的无线系统中，使用源控制的可变比特率(VBR)语音编码能够显著地改善系统容量。在源控制VBR编码中，编解码器以几种比特率运行，速率选择模块用来确定基于语音帧(例如，浊音(voiced)、清音(unvoiced)、瞬变值、背景噪声)的特征对每一个语音帧编码的比特率。目的是在给定平均比特率即平均数据率(ADR)上获得最佳语音质量。通过调整速率选择模块，编解码器能够运行不同的模式以在不同的模式下获得不同的ADR，其中编解码器性能在增加的ADR方面有所改善。系统根据信道条件使用操作模式。这能够使得编解码器具有语音质量和系统容量之间平衡的机制。

典型地，CDMA系统的VBR编码中，1/8速率用来对没有语音激活的帧(静音或仅噪声帧)编码。当该帧是稳定浊音或稳定清音时，根据操作模式使用半速率或者1/4速率。如果能使用半速率，在清音情况下使用没有音调码本的CELP模型，在浊音情况下使用信号修正来为音调索引增强周期性并减少比特数。如果操作模式使用1/4速率，因为比特数量不足，一般不可能有波形匹配，所以通常应用一些参数编码。全速率用于开始帧、过渡帧和混合浊音帧(通常使用典型的CELP模型)。除了CDMA系统中源控制编解码器操作，该系统能限制一些语音帧的最大比特率以便发送带内信令信息(称为模糊与脉冲串(dim-and-burst)信令)或在坏信道条件下(诸如在小区边界附近)改善编解码器鲁棒性。这就被称为半速率最大。当速率选择模块选择将被编码成全速率帧的帧并且系统使用诸如HR帧时，那么语音性能就降低，因为专用的HR模式不能有效地对爆发音和过渡信号编码。另一种HR(或者1/4速率(QR))编码模型能够被提供应付这些特殊的情况。

从以上描述中看出，信号分类和速率确定对于有效的VBR编码是非常关键的。速率选择是获得带有最佳可能质量的最低平均数据速率的关键部分。

自适应多速率宽带(AMR-WB)语音编解码最近被ITU-T(国际电信联盟-电信标准化部门)选择用于几种宽带语音电话通信和服务，被3GPP(第三代合作项目)选择用于GSM和W-CDMA第三代无线通信系统。AMR-WB编解码器包括9种比特率，即6.6、8.85、12.65、14.25、15.58、18.25、19.85、23.05和23.85kbit/s。因此需要在CDMA-WB和AMR-WB编解码之间进行互操作。

发明目的

大体而言，本发明的一个目的是为可变速率宽带语音编码提供改善的信号分类和速率选择方法；具体而言，本发明是为CDMA系统适用的可变速率多模式宽带语音编码提供一种改善的信号分类和速率选择方法。另一个目的是提供一种用于在CDMA系统使用的宽带VBR编解码器和标准AMR-WB编解码器之间进行有效的互操作的技术。

发明内容

更详细地说，根据本发明的第一方面，提供一种源控制的可变比特率多模式宽带(VMR-WB)编解码器，该编解码器具有一种能够和自适应多速率宽带(AMR-WB)编解码器互操作的操作模式，该编解码器包括：

至少一个互操作的全速率(I-FR)编码类型；该至少一个I-FR编码类型具有基于AMR-WB编码类型的第一比特分配结构；和

至少一个舒适噪声发生器(CNG)编码类型，用来对非激活语音帧编码，该至少一个舒适噪声发生器编码类型具有基于AMR-WBSID_UPDATE编码类型的第二比特分配结构。

根据本发明的第二方面，提供一种方法使用源控制的可变比特率多模式宽带(VMR-WB)编解码器对声音数字地编码，用来与自适应多速率宽带(AMR-WB)编解码器互操作，该方法包括：

从声音的抽样值中提供信号帧；

对每个信号帧：

i)确定该信号帧是激活语音帧还是非激活语音帧；

ii)如果该信号帧是非激活语音帧那么确定该语音帧是否是SID帧；

iii)如果该信号帧是SID帧，那么使用1/4速率(QR)舒适噪声发生器(CNG)编码算法来对该信号帧编码；

iv)如果该信号帧是非激活语音帧也不是SID帧，那么使用1/8速率(ER)CNG编码算法对该信号帧编码；

v)如果该信号帧是激活语音帧，那么使用具有基于AMR-WB编解码器的比特分配结构的互操作的编码算法来对该信号帧编码。

根据本发明的第三个方面，提供一种方法将可变比特率多模式宽带(VMR-WB)编解码信号帧变换成自适应多速率宽带(AMR-WB)信号帧，该方法包括：

i)确定该信号帧是否是互操作的全速率(I-FR)帧、互操作的半速率(I-HR)帧、1/4速率(QR)舒适噪声发生器(CNG)帧、和1/8(ER)舒适噪声发生器(CNG)帧的其中的一种；

ii)如果该信号帧是I-FR帧，那么将该信号帧作为AMR-WB帧转发而丢弃第一组帧比特；

iii)如果该信号帧是I-HR帧，那么通过产生丢失的代数码本索引并通过抛弃显示IHR类型的帧将该信号帧作为AMR-WB转发；

iv)如果该信号帧是1/4速率(QR)舒适噪声发生器(CNG)帧，那么将该信号帧作为SID_UPDATE帧转发；和

v)如果该信号帧是1/8速率(ER)舒适噪声发生器(CNG)帧，那么将该信号帧作为NO_DATA帧转发。

根据本发明的第四个方面，提供一种方法用来将自适应多速率宽带(AMR-WB)信号帧变换成可变比特率多模式宽带(VMR-WB)编解码信号帧，该方法包括：

i)确定该信号帧是否是SID_UPDATE帧、SID_FIRST帧、NO_DATA帧，被删除帧、和全速率(FR)帧的其中之一；

ii)如果该信号帧是SID_UPDATE帧，那么将该信号帧作为1/4速率(QR)舒适噪声发生器(CNG)帧转发；

iii)如果该信号帧是SID_FIRST或NO_DATA帧，那么将该信号帧作为1/8速率(ER)空白帧转发；

iv)如果该信号帧是被删除帧，那么将该信号帧作为ER删除帧转发；

v)如果该信号帧是具有VAD_flag＝1的12.65、8.85、或6.6kbit/s帧，那么将该信号帧作为互操作的全速率(I-FR)帧转发；

vi)如果信号帧是具有VAD_flag＝0的12.65、8.85、或6.6kbit/s帧，那么确定该信号帧是否是激活语音后的第一帧；

vii)如果该信号帧是具有VAD_flag＝0并且该信号帧是激活语音后的第一帧，那么将该信号帧作为I-FR帧转发；和

viii)如果该信号帧是具有VAD_flag＝0并且该信号帧不是激活语音之后的第一帧，那么将该信号帧作为ER空白帧转发。

通过参考附图，同时通过举例方式，在读了以下示例性实施例的非限制性描述之后，本发明其他目的、优点和特征将变得更加明显。

附图说明

在附图中：

图1是显示了使用根据本发明第一方面的语音编码和解码设备的语音通信系统的方框图；

图2是显示了根据本发明第二方面的第一示例性实施例对声音信号进行数字编码方法的流程图；

图3显示了根据本发明的第三方面的示例性实施例的一种用来区分浊音帧的方法流程图；

图4显示了根据本发明的第四方面的示例性实施例的一种用来区分稳定的浊音帧的方法流程图；

图5显示了根据本发明的第二方面的第二示例性实施例的一种在高级模式(Premium mode)下对声音信号进行数字编码的方法流程图；

图6显示了根据本发明的第二方面的第三示例性实施例的一种在标准模式下对声音信号进行数字编码的方法流程图；

图7显示了根据本发明的第二方面的第四示例性实施例的一种在经济模式下对声音信号进行数字编码的方法流程图；

图8显示了根据本发明的第二方面的第五示例性实施例的一种在互操作模式下对声音信号进行数字编码的方法流程图；

图9显示了根据本发明的第二方面的第六示例性实施例的一种在半速率最大的过程中在高级或标准模式下对声音信号进行数字编码的方法流程图；

图10显示了根据本发明的第二方面的第七示例性实施例的一种在半速率最大的过程中在经济模式下对声音信号进行数字编码的方法流程图；

图11显示了根据本发明的第二方面的第八示例性实施例的一种在半速率最大的过程中在互操作模式下对声音信号进行数字编码的方法流程图；

图12显示了根据本发明的第五方面示例性实施例的一种对声音信号进行数字编码以便允许在VMR-WB和AMR-WB编解码器之间进行互操作的方法流程图。

发明详述

参考附图的图1，语音通信系统10描述了根据本发明第一方面的示例性实施例的语音编码和解码的使用方法。语音通信系统10支持在通信信道12上的语音信号的传送和再现。通信信道12可以包括例如有线、光纤链路、或射频链路。该通信信道12也可以是不同传输媒介的组合，例如部分是光纤链路部分是射频链路。射频链路可以允许支持诸如在蜂窝电话中发现的需要共享带宽资源的多个同时进行的语音的通信。替换地，在记录和存储编码语音信号以便随后回放的通信系统的单独设备实施例中，通信信道可以被存储设备(未示出)代替。

通信系统10包括编码器设备，该编码器设备由在通信信道12的发射端的麦克风14、模数转换器16、语音编码器18和信道编码器20、以及在接收机的信道解码器22、语音解码器24、数摸转换器26和扬声器28组成。

麦克风14产生模拟语音信号，该模拟语音信号被传输到模数(A/D)转换器16，以便将它转换成数字形式。语音编码器18将数字化的语音信号编码，以产生一组被编码成二进制形式的参数并被发送到信道编码器20。该可选的信道编码器20在将它们通过通信信道12发送之前，将冗余加到该编码参数的二进制表示中。另外，在某些诸如分组网络应用的应用中，在发送之前将编码帧分组化。

在接收机一侧，信道解码器22利用接收到的比特流中的冗余信息来检测和校正传送过程中发生的信道误码。语音解码器24将从信道解码器20接收到的比特流转换回一组编码参数从而产生合成语音信号。在语音解码器24中被重建的合成语音信号在数摸(D/A)转换器26中被转换成模拟形式，并且在扬声器单元28中回放。

麦克风14和/或A/D转换器16在一些实施例中可以被其他语音编码器18的语音源置换。

根据如下所述的本发明，编码器20和解码器22被配置来实现一种对语音信号编码的方法。

信号分类

现在参考图2，根据本发明第一方面的第一示例性实施例，该图显示了一种对语音信号数字编码的方法100。该方法100包括一种根据本发明第二方面的示例性实施例的语音信号分类的方法。应当注意，所示的语音信号表示话音信号以及任何包括诸如带有语音内容的音频的话音部分的多媒体信号(音乐之间的语音、带有背景音乐的语音、带有特殊音效的语音等等)。

如图2所示，用3个步骤102、106和110完成信号分类，其中每个步骤区分一种特定信号类别。首先，在步骤102中，以语音激活检测器(VAD)(未示出)形式的第一级分类器区分激活和非激活语音帧。如果检测到的是非激活语音帧，那么编码方法100使用诸如舒适噪声发生器(CNG)结束对当前帧的编码(步骤104)。如果在步骤102检测到的是激活语音帧，那么该帧被提供到配置成区分清音帧的第二级分类器(未示出)。在步骤106中，如果分类器将帧归类为清音语音信号，编码方法100结束于步骤108，在步骤108中使用对于清音信号优化的编码技术对帧编码。否则，语音帧被传递到步骤110，通过以“稳定浊音”分类模块(未示出)形式的第三级分类器(未示出)。如果当前帧被归类为稳定浊音帧，那么使用对于稳定浊音信号优化的编码技术对该帧编码(步骤112)。否则，该帧可能包括诸如浊音开始的非稳定语音段或迅速展开的浊音语音信号部分，那么使用带有高比特率以允许维持好的主观质量的通用语音编码器对该帧编码(步骤114)。应当注意，如果帧的相对能量低于某个阈值，那么使用普通的较低速率编码类型对这些帧编码以便进一步减小平均数据率。

分类器和编码器可以是从电子电路到芯片处理器的任何形式。

接下来，将更详细的描述不同类型语音信号的分类，同时将公开清音和浊音语音的分类方法。

非激活语音帧的区分(VAD)

在步骤102中使用语音激活检测器(VAD)来区分非激活语音帧。该VAD设计对于本领域普通技术人员来说是已知的，这里将不再详细描述。VAD的例子在参考文献【5】中有描述。

清音激活语音帧的区分

语音信号的清音部分其特征在于缺少周期，并能够被进一步分为非稳定帧和稳定帧，其中非稳定帧的能量和频谱快速的变化，而稳定帧的这些特性保持相对地稳定。

在步骤106中，使用以下参数中的至少3个来区分清音帧：

●合声(voicing)测量，可以计算为平均归一化相关(r_x)；

●频谱倾斜测量(e_t)；

●信号能量比(dE)，用来估计帧中的帧能量变化从而估计帧稳定性；

和

●帧的相对能量。

合声测量

图3显示了根据本发明的第三方面的示例性实施例的区分清音帧的方法200。

用来确定合声测量的归一化相关，作为开环音调(pitch)搜索模块214的一部分计算。在图3的示例性实施例中，使用20ms帧。开环音调搜索模块通常每10ms输出开环音调估计值p(即每帧两次)。在方法200中，该模块也用来输出归一化相关测量值r_x。这些归一化相关根据加权语音和在开环音调延迟处的过去的加权语音来计算。加权语音信号s_w(n)在感觉加权滤波器212中计算。在这个示例性实施例中，使用适用于宽带信号的带有固定分母的加权滤波器212。以下关系式给出了感觉加权滤波器212的转移函数的例子：

W(z)＝A(z/γ₁)/(l-γ₂z^-1) 其中0<γ₂<γ₁≤1

其中A(z)是在模块218中计算的线性预测(LP)滤波器的转移函数，该转移函数由下式给出：

A (z) = 1 + Σ_{i = 1}^{P} a_{i} z^{- i}

合声测量由平均相关r_x给出，r_x定义为：

{\overset{&OverBar;}{r}}_{x} = \frac{1}{3} (r_{x} (0) + r_{x} (1) + r_{x} (2)) - - - (1)

其中r_x(0)、r_x(1)和r_x(2)分别是当前帧第一半的归一化相关、当前帧第二半的归一化相关，和预视(下一帧的开始)的归一化相关。

噪声校正因子r_e在等式(1)中能够被加到归一化相关中以说明背景噪声的存在。在背景噪声存在时，平均归一化相关就减小。然而，为了信号分类的目的，该减小不应该影响清音-浊音判决，所以能够被附加的r_e补偿。应当注意，但好的降噪算法被使用时，r_e实际上是0。

在方法200中，使用13ms的前视。归一化相关r_x(k)计算如下：

r_{x} (k) = \frac{r_{xy}}{\sqrt{r_{xx}, r_{yy}}} - - - (2)

其中

r_{xy} = Σ_{i = 0}^{L_{k} - 1} x (t_{k} + i) x (t_{k} + i - p_{k})

r_{xx} = Σ_{i = 0}^{L_{k} - 1} x^{2} (t_{k} + i)

r_{yy} = Σ_{i = 0}^{L_{k} - 1} x^{2} (t_{k} + i - p_{k})

在方法200中，相关性计算如下。对加权语音信号s_w(n)计算相关r_x(k)。时刻t_k与当前半帧的开始有关，对应于k＝0，1和2，分别等于0、128和256抽样，抽样率为12800Hz。值p_k＝T_OL是对于该半帧所选的开环音调估计值。自相关计算的长度L_k取决于音调周期。在第一实施例中，L_K的值如下所述(对于12.8kHz抽样率)：

L_k＝80抽样，对于p_k≤62个抽样

L_k＝124抽样，对于62<p_k≤122个抽样

L_k＝230抽样，对于p_k>122个抽样

这些长度确保了相关矢量的长度包括至少一个音调周期，这有助于健壮的开环音调检测。对于长的音调周期(p₁>122个抽样)，r_x(1)和r_x(2)相等，即，只计算一个相关，这因为相关矢量足够长，以至于不再需要在前视上的分析。

替换地，加权语音信号能够被一分为二(decimated by2)，以便简化开环音调搜索。加权语音信号能够在分割之前被低通滤波。在这种情况下，L_k的值由下式给出：

L_k＝40抽样，对于p_k≤31个抽样

L_k＝62抽样，对于62<p_k≤61个抽样值

L_k＝115抽样，对于p_k>61个抽样值

也能够用来其他方法计算相关。例如，对于整个帧只计算一个归一化相关值而不是将几个归一化相关平均。另外，相关能对加权语音之外的信号计算，诸如残余信号、语音信号，或低通滤波残余、语音、或加权语音信号。

频谱倾斜

频谱倾斜参数包括有关能量的频率分布信息。在方法200中，频谱倾斜在频域中被估计为集中在低频的能量和集中在高频的能量之间的比率。然而，也可以用不同的方法估计，例如语音信号的两个第1自相关之间的比率。

在方法200中，在图10的模块210中使用离散傅立叶变换执行频谱分析。每帧中进行两次频谱分析和倾斜计算。256点的快速傅立叶变化(FFT)使用50％的重叠。放置分析窗以便使利用整个前视。第一个窗的开始被放置在当前帧开始之后24个抽样的地方。第二个窗被放置在更远的128个抽样的地方。能够使用不同的窗对输入信号加权从而进行频率分析。汉明窗的平方根(等于正弦窗)被使用。该窗尤其适合于叠加方法，因此该特别的频谱分析能够用在可选的基于频谱减法和叠加分析/合成的噪声抑制算法。因为噪声抑制算法是本领域普通技术人员所知的，所以这里将不再详细介绍。

高频中和低频中的能量由以下感觉临界(critical)频带【6】计算：

临界频带＝{100.0，200.0，300.0，400.0，510.0，630.0，770.0，920.0，1080.0，1270.0，1480.0，1720.0，2000.0，2320.0，2700.0，3150.0，3700.0，4400.0，5300.0，6350.0}Hz

高频上的能量被计算为最后两个临界频带的能量的平均值

E_h＝0.5(E_CB(18)+E_CB(19))

其中E_CB(i)是每个临界频带的平均能量，由下式计算：

E_{CB} (i) = \frac{1}{N_{CB} (i)} Σ_{k = 0}^{N_{CB} (i) - 1} (X_{R}^{2} (k + j_{i}) + X_{I}^{2} (k + j_{i})),

i＝0，...，19

其中N_CB(i)是在第i频带的频率组(bin)的数量，X_R(k)和X_I(k)分别是第k个频率组的实数和虚数部分，j_i是第i个临界频带中的第1频率组的索引。

低频部分的能量被计算为前10个临界频带的平均能量。中间的临界频带被排除在计算之外，以便改善在低频集中高能量的帧(通常是浊音)和在高频集中高能量的帧(通常是清音)之间的区分。在这之间，能量内容对于任何种类来说不是特有的并增加了判决的混淆度。

计算低频的能量对于长音调周期和短音调周期来说是不同的。对于浊音男士的语音段，使用频谱的谐波结构来增加浊音-清音的区别。这样对于短音调周期，E_l以频率组为单位计算，并且只有足够接近于语音谐波的频率组被考虑到求和中。即：

{\overset{&OverBar;}{E}}_{l} = \frac{1}{cnt} Σ_{k = 0}^{24} E_{BIN} (k) w_{h} (k)

其中E_BIN(k)是在前25个频率组中的频率组能量(不考虑DC分量)。应当注意，这25个频率组对应于前10个临界频带。在上述的求和中，只考虑与接近于音调谐波的频率组相关的项，因此如果频率组和最接近谐波之间的距离不大于某一频率阈值(50Hz)，那么w_h(k)被设置为1，其他情况下，w_h(k)被设置为0。计数器cnt是求和中非0项的数量。只考虑比最接近谐波更近50Hz的频率组。因此，如果结构是在低频谐波，那么只有高能量项被包括在求和中。另一方面，如果结构不是谐波的，那么项的选择将是随机的，因而总和将更小。因此，甚至是在低频处具有高能量内容的清音声音都能够被检测。因为频率分解不充分，该处理过程对较长音调周期来说不能完成。对于音调值大于128或者对于先验清音声音，每临界频带的低频能量计算如下：

{\overset{&OverBar;}{E}}_{l} = \frac{1}{10} Σ_{k = 0}^{9} E_{CB} (k)

当r_x(0)+r_x(1)+r_e<0.6时，先验清音声音被确定，其中r_e值是如上所述的加到归一化相关中的修正值。

通过从上述计算的值E_l和E_h减去估计的噪声能量而获得结果的低频和高频能量。即

E_h＝E_h-N_h

E_l＝E_l-N_l

其中N_h和N_l分别是在最后2个临界频带中的平均噪声能量和前10个临界频带的平均噪声能量。估计的噪声能量已经被加到倾斜计算以考虑存在背景噪声。

最后，频谱倾斜由下式给出：

e_{tilt} (i) = \frac{E_{l}}{E_{h}}

应当注意，每帧执行两次频谱倾斜计算以获得与每帧的频谱分析相应的e_tilt(0)和e_tilt(1)。在清音帧分类中使用的平均频谱倾斜由下面等式给出：

e_{l} = \frac{1}{3} (e_{old} + e_{tilt} (0) + e_{tilt} (1))

其中e_old是从前一帧的第二次频谱分析得到的倾斜值。

能量变化dE

能量变化dE是根据消除噪声的语音信号s(n)来估计，其中n＝0对应于当前帧的开始。基于长度为32个抽样的短时信号段，每个子帧估计两次信号能量，即每帧8次。另外，从前一帧的最后32个抽样和下一帧的先32个抽样的短时能量也被计算。该短时最大能量计算如下：

E_{st}^{(1)} (j) = \max_{i = 0}^{31} (s^{2} (i + 32 j))

j＝-1，...，8

其中j＝-1和j＝8对应于前一帧的结束和下一帧的开始。另外一组9个最大能量通过移位语音索引16个抽样被计算。即

E_{st}^{(2)} (j) = \max_{i = 0}^{31} (s^{2} (i + 32 j - 16))

j＝0，...，8

该连续短时段之间的最大能量变化dE被计算为如下的最大值：

E_{st}^{1} (0) / E_{st}^{1} (- 1)

如果

E_{st}^{1} (0) > E_{st} (- 1)

E_{st}^{1} (7) / E_{st}^{1} (8)

如果

E_{st}^{1} (7) > E_{st} (8)

\frac{\max (E_{st}^{(1)} (j), E_{st}^{(1)} (j - 1))}{\min (E_{st}^{(1)} (j), E_{st}^{(1)} (j - 1))}

对于j＝1到7

\frac{\max (E_{st}^{(2)} (j), E_{st}^{(2)} (j - 1))}{\min (E_{st}^{(2)} (j), E_{st}^{(2)} (j - 1))}

对于j＝1到8

替换的，也可以使用其他方法来估计帧中的能量变化。

相对能量E_rel

帧的相对能量由以dB为单位的帧能量和长时平均能量之间的差值给出。该帧能量由下式计算：

E_{t} = 10 \log (Σ_{i = 0}^{19} E_{CB} (i)), dB

其中E_CB(i)是如上所述的每个临界频带的平均能量。该长时平均帧能量由下式给出：

E_f＝0.99E_f+0.01E_t

其中初始值是E_f＝45dB。

这样，相对能量由下式给出：

E_rel＝E_t-E_f

该相对能量用来识别那些没有被归类为背景噪声帧或清音帧的低能量帧。这些帧能够使用普通的HR编码器来编码以便减少ADR。

清音语音分类

清音语音帧的分类基于如上所述的参数，即：合声测量值r_x、频谱倾斜e_t，帧中的能量变化dE，和相对帧能量E_rel。基于这些参数中的至少3个而做出判决。基于操作模式来设置该判决阈值(所需的平均数据率)。基本上对于带有较低期望数据率的操作模式，设置阈值以有利于清音分类(因为半速率或1/4速率编码被用来对帧编码)。清音帧通常使用清音HR编码器编码。然而，在经济模式下，如果满足附加的某些条件的话，也可以使用清音QR从而进一步降低ADR。

在高级模式下，如果以下条件满足，该帧被编码为清音HR：

(r_x<th1)AND(e_t<th₂)AND(dE<th₃)

其中，th₁＝0.5、th₂＝1、和

在语音激活判决中，使用判决挂起(decision hangover)。因此，在激活语音周期之后，当算法确定该帧是非激活语音帧时，那么将局部VAD设置为0，但仅仅当一定数量的帧过去之后(即挂起周期)才将实际的VAD标记设置为0。这避免了语音偏移(speech offset)的削波(clipping)。在标准和经济模式中，如果局部VAD是0，那么该帧就归类为清音帧。

在标准模式中，如果局部VAD＝0或者以下条件满足的话，该帧被编码为清音HR：

(r_x<th₄)AND(et<th_s)AND(dE<th₆)OR(E_rel<th₇)

其中th₄＝0.695，th₅＝4，th₆＝40和th₇＝-14

在经济模式中，如果局部VAD＝0或者如果以下条件满足的话，该帧被宣布为清音帧：

(r_x<th₈)AND(e_t<th₉)AND(dE<th₁₀)OR(E_rel<th₁₁)

其中th₈＝0.695，th₉＝4，th₁₀＝60和th₁₁＝-14

在经济模式中，清音帧通常被编码成清音HR。然而，它们也可以用清音QR来编码，如果以下进一步的条件满足的话：如果最后一帧是清音或者是背景噪声帧，并且如果在帧的结尾处，能量集中在高频处并且在前视中检测不到潜在的浊音开始，那么该帧被编码为清音QR。最后两个条件由下式检测：

(r_x(2)<th₁₂)AND(e_tilt<th₁₃)其中th₁₂＝0.73，th₁₃＝3

应当注意，r_x(2)是在前视中的归一化相关，e_tilt(1)是第二频谱分析中的倾斜，该第二频谱分析跨度为帧的末端和前视。

当然，除了方法200，也可以使用其他方法来区分清音帧。

稳定浊音语音帧的区分

在标准和经济模式下，可以使用浊音HR编码类型对稳定浊音帧编码。

浊音HR编码类型利用信号修正来有效地对稳定浊音帧编码。

信号修正技术调整信号的音调使其适合于预定的延迟轮廓(contour)。然后长时预测使用该延迟轮廓并且用增益参数缩放将该过去的激励信号映射到当前子帧。通过在两个开环音调估计之间插值能够直接地获得该延迟轮廓，第一个开环音调估计从前一帧中获得，第二个在当前帧中获得。插值给出了该帧的每个时刻的延迟值。获得延迟轮廓之后，目前要被编码的子帧中的音调被调整来跟随该人工噪音轮廓，通过翘曲、改变信号的时间缩放比例。在非连续的翘曲中【1，4，5】，信号段被移位到左面或者右面，而不改变信号段的长度。非连续的翘曲需要用来处理结果产生的重叠或者丢失的信号部分的过程。为了降低这些操作中的人工噪声，所在时间范围上允许的变化很小。此外，典型地使用LP剩余信号或者加权语音信号来完成翘曲以减少产生的失真。使用这些信号而不使用语音信号也便于音调脉冲和它们之间低能量区域的检测，从而便于确定要翘曲的信号段。实际修改的语音信号由反滤波产生。

在对当前子帧的信号修正完成之后，能够以传统方式进行编码，除了自适应码本激励使用预定的延迟轮廓来产生。

在本示例性实施例中，是以音调和帧同步地方式实现信号修正，即，在当前帧中一次调整一个音调周期段，从而使得接下来的语音帧和原始信号开始于完全相同的时间。音调周期段由帧边界限制。这阻止了在帧的边界上时间偏移变换，从而简化了编码器的实现并降低了在修改的语音信号中的人工噪声的危险。这也简化了信号修正允许的和禁止的编码类型之间可变比特率的操作，因为每个新的帧与原始信号开始于完全相同的时间。

如图2所示，如果帧没有被归类为非激活语音帧也没有被归类为清音帧，按么就测试其是否是稳定浊音帧(步骤110)。稳定浊音帧的分类是使用闭环方法来进行的，并结合用于对稳定浊音帧编码的信号修正过程。

图4显示了根据本发明第四方面的示例性实施例来区分稳定浊音帧的方法300。

信号修正的子过程产生了指示符，这些指示符用来量化当前帧中长时预测的可得到的性能。如果这些指示符的任何一个在其允许的范围之外，那么就由其中一个逻辑模块来结束该信号修正过程。在这种情况下，原始信号保持完好，并且该帧没有被归类为稳定浊音帧。该集成逻辑使信号修正和低比特率编码之后的修正语音信号质量最大化。

步骤302的音调脉冲搜索过程产生关于当前帧周期的几个指示符。因此，之后的逻辑块是分类逻辑的重要组成部分。音调周期长度的演变也被观察了。逻辑块将检测的音调脉冲位置的距离与插值开环音调估计值比较，并且将该距离与之前检测的音调脉冲的距离相比较。如果与开环音调估计值或前一音调周期长度的差别太大的话，就结束信号修正过程。

步骤304中延迟轮廓的选择给出了有关音调周期演化和当前语音帧周期的附加信息。如果条件|d_n-d_n-1|<0.2d_n满足的话，信号修正过程从该块继续开始，其中d_n和d_n-1是当前帧和前一帧的音调延迟。这实质上意味着将当前帧分类为稳定浊音只能容忍很小的延迟变化。

当经过信号修正的帧以低比特率编码时，音调周期段的形状在帧上保持相似以允许由长时预测模拟可靠的信号，从而以低比特率编码，而不降低主观质量。在信号修正步骤306中，连续段的相似度能够由在当前段和在最佳偏移处的目标信号之间的归一化相关来量化。如果信号修正是有用的话，那么移位音调周期段以最大化它们和目标信号之间的相关性能够增强周期性并产生高的长时预测增益。需要所有的相关值必须大于预定阈值来保证处理过程的成功完成。如果不是对于所有段满足该条件，那么就结束信号修正过程，原始信号保持完好。通常来说，稍微较低的增益阈值范围可以允许在男性声音带有平等的编码性能。增益阈值能够在VBR编解码器的不同操作模式中变化，以便调整应用信号修正的编码模式的使用，从而改变目标平均比特率。

如上所述，根据方法100的全部速率选择逻辑包括3个步骤，每一步区分一个特定的信号类别。其中一个步骤包括信号修正算法作为整体的一部分。首先，VAD区分激活语音帧和非激活语音帧。如果检测到的是非激活语音帧，因为该帧被认为是背景噪声并且使用例如舒适噪声发生器来编码，所以分类方法就结束。如果检测到的是激活语音帧，那么该帧由专门用来区分清音帧的第二步骤处理。如果该帧被归类为清音语音信号，那么分类链结束，并且使用专用于清音帧的模式来对该帧编码。在最后一步中，如果前面在这个子部分描述的条件被核实的话，语音帧通过推荐的能够进行修正的信号修正过程来处理。在这种情况下，该帧被归类为稳定浊音帧，原始信号的音调被调整成人工的、适当定义的延迟轮廓，并且该帧使用对于这些类型的帧优化的特定模式来编码。否则，该帧很可能包括非稳定语音段，诸如浊音开始或迅速演变的浊音语音信号。这些帧典型地需要更加普通的编码模型。这些帧通常使用普通FR编码类型编码。然而，如果帧的相对能量低于某阈值，那么这些帧能够使用普通HR编码类型被编码以进一步降低ADR。

CDMA多模式VBR系统的语音编码和速率选择

以下将根据本发明的示例性实施例来描述能够运行在Rate SetII(速率集II)的CDMA多模式VBR系统的速率选择和声音数字编码的方法。

所述的编解码器基于自适应多速率宽带(AMR-WB)语音编解码器，该语音编解码器最近由ITU-T(国际电信联盟-电信标准化小组)选择用于几个宽带语音服务，被3GPP(第三代合作项目组)选择用于GSM和W-CDMA第三代无线系统。AMR-WB编解码器由九个比特率组成，即6.6、8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kbit/s。CDMA系统的基于AMR-WB的源控制的VBR编解码器允许CDMA和其他使用AMR-WB编解码器的系统之间的插值。12.65kbit/s的AMR-WB比特率，适合于Rate SetII的13.3kbit/s全速率的最接近的速率，该比特率能够用作CDMA宽带VBR编解码器和能够进行互操作而不需要转换代码(这降低语音质量)的AMR-WB之间的公共速率。较低速率编码类型被专门提供给CDMA VBR宽带解决方法以便在RateSetII框架下中有效的运行。然后该编解码器能在少数CDMA专门模式中运行，这些模式使用所有速率，但带有能够与使用AMR-WB编解码器的系统互操作的模式。

根据本发明的实施例的编码方法总结在表格1中，并将作为编码类型的一般参考。

表1示例性实施例中使用的编码类型及相应的比特率。

编码类型	比特率(kbit/s)	比特/20ms帧
			普通FR互操作FR浊音HR清音HR互操作HR普通HR清音 QRCNG QRCNG ER	13.313.36.26.26.26.22.72.71.0	266266124124124124545420

全速率(FR)编码类型基于12.65kbit/s的AMR-WB标准编解码器。使用AMR-WB编解码器的12.65kbit/s速率使得能够为CDMA系统设计可变比特率编码器，从而使CDMA系统能够与其他使用AMR-WB编解码标准的系统互操作。每帧额外的13bits被附加以便适合于13.3kbit/s全速率CDMA Rate SetII。在被删除帧情况下这些比特被用来改善编解码器鲁棒性，并且使普通FR和互操作FR编码类型(它们在互操作FR中没有用)之间有本质上的差别。FR编码类型基于对于普通宽带语音信号最优化的代数码本激励线性预测(ACELP)模型。其运行在20ms语音帧上，抽样频率为16kHz。在进一步处理之前，输入信号抽样率降至12.8kHz的抽样频率，并被预处理。每帧使用46比特对LP滤波参数编码一次。然后该帧被分为4个子帧，其中每子帧对自适应和固定码本索引和增益编码一次。使用代数码本结构建立固定码本，其中每子帧64个位置被分为4个交叉位置的轨迹，其中2个有符号的脉冲被放置在每个轨迹中。每个轨迹中的2个脉冲使用9比特来编码，那么每个子帧总共使用36比特。参考文献【1】中可以找到有关AMR-WB编解码器的更详细描述。FR编码类型的比特分配由表2给出：

表2基于12.65kbit/s速率的AMR-WB标准的普通的互操作全速率CDMA2000Rate SETII的比特分配

对于稳定的浊音帧，使用半速率浊音编码。半速率浊音比特分配由表3给出。由于在这个通信模式中要编码的帧其特征是周期性的，所以与例如过渡帧相比，基本上较低比特率就足够保持好的主观质量。使用信号修正，以便允许每20ms帧仅仅使用9比特就足够对延迟信息编码，从而为其他信号编码参数节省了可观的比特预算部分。在信号修正中，信号被强迫服从一定的音调轮廓，该音调轮廓能够使用每帧9比特被传送。长时预测好的性能允许对于固定码本激励只使用每5ms子帧12比特而不牺牲主观语音质量。该固定码本是代数码本并且包括2个轨迹，每个轨迹带有一个脉冲，但是每个轨迹有32个可能的位置。

表3根据CDMA2000Rate SetII的半速率普通，浊音、清音的比特分配

在清音帧的情况下，不使用自适应码本(或称为音调码本)。13比特高斯码本被使用在每个子帧中，其中码本增益使用每个子帧6比特编码。应当注意，如果需要进一步减少平均比特率，那么在稳定清音帧的情况下可以使用清音1/4速率。

普通半速率模式使用在低能量段中。该普通HR模式也能用在最大半速率操作中，随后将解释。普通HR的比特分配由上面的表3给出。

举例说来，对于不同HR编码器的分类信息，在普通HR的情况下，1比特用来指示该帧是普通HR还是其它HR。在清音HR的情况下，使用2比特来分类：第1比特用来指示该帧不是普通HR，第2比特用来指示它是清音HR，而不是浊音HR或互操作HR(以下将作解释)。在浊音HR的情况下，3比特被使用：前2个比特指示该帧不是普通的或清音的HR，第3个比特指示该帧是清音还是互操作HR。

在经济模式下，大多数清音帧能够使用清音QR编码器编码。在这种情况下，随机地产生高斯码本索引，并且仅仅使用每子帧5比特对增益编码。另外，LP滤波器系数使用较低比特率量化。1比特用来区分2种1/4速率编码类型：清音QR和CNG QR。对于清音编码类型的比特分配由表6给出。

互操作HR编码类型能够应付以下情况，即CDMA系统为特别的帧使用HR作为最大速率，虽然该帧已经被归类为全速率。通过在该帧被作为全速率帧编码之后丢弃固定码本索引，互操作HR直接从全速率编码器中获得(表4)。在解码器一侧，固定码本索引能够被随机地产生并且该解码器将以其好像是全速率一样运行。该设计的优点在于它最小化了CDMA系统和其他使用AMR-WB标准的系统(例如移动GSM系统或者W-CDMA第三代无线系统)之间无二次编解码操作(tandem freeoperation)过程中强制使用半速率模式的影响。如前所述，互操作FR编码类型或者CNG QR被用在与AMR-WB的无二次编解码操作(TFO)中。在从CDMA2000到使用AMR-WB编解码器的系统的方向链路中，当复用子层指示对半速率模式的请求时，VMR-WB编解码器将使用互操作HR编码类型。在系统接口处，当互操作HR帧被接收到时，随机产生的代数码本索引被加到比特流中以输出12.65kbit/s速率。在接收机一侧的AMR-WB解码器将其解释为普通的12.65kbit/s的帧。在另一个方向上，即从使用AMR-WB编解码器到CDMA2000的链路上，如果在系统接口处接收到了半速率请求，那么代数码本索引被丢弃，并加入了指示互操作HR帧类型的模式比特。在CDMA2000侧的解码器运行为互操作HR编码类型，这是VMR-WB编码解决方案的一部分。如果没有互操作HR，那么强制的半速率模式将被理解为帧擦除。

舒适噪声发生器(CNG)技术被用于处理非激活语音帧。当运行在CDMA系统中时，CNG1/8速率(ER)编码类型用来对非激活语音帧编码。在一个需要与AMR-WB语音编码标准互操作的呼叫中，不能总是使用CNG ER，因为CNG ER的比特率低于为AMR-WB中的CNG解码器传送更新信息所需的比特率【3】。在这种情况下使用CNG QR。然而，AMR-WB编解码器经常运行在非连续传送模式(DTX)。在非连续传送中，并不是每帧都更新背景噪声信息。典型地，8个连续非激活语音帧中只有一个帧被传送。该更新帧被称为静音描述符(SID)【4】。该DTX操作不使用在每一帧都被编码的CDMA系统中。因此，在CDMA一侧，只有SID帧需要使用CNG QR编码，剩余的帧仍然可以用CNG ER编码以降低ADR，因为它们没有被AMR-WB配对方使用。在CNG编码中，只有LP滤波参数和增益被每帧编码一次。CNG QR的比特分配在表4中给出，而CNG ER的在表5中给出。

表4清音QR和CNG QR编码类型的比特分配

参数	清音QR	CNG QR
			选择比特LP参数增益未用比特	132201	128619
总计	54	54

表5CNG ER的比特分配

参数	CNG ER比特/帧
		LP参数增益未用比特	146
总计	20

高级模式中的信号分类和速率选择

根据本发明第二方面的第二示例性实施例的对声音信号数字编码的方法400如图5所示。应当指出，方法400是方法100在高级模式中的特殊应用，方法400被提供以最大化可用比特速率的合成语音的质量(应当指出，将以单独的一段来描述对于特别帧来说当系统限制最大可得速率的情况)。因此，大多数激活语音帧以全速率编码，即13.3kb/s。

与图2所示的方法100相似，语音激活检测器(VAD)区分激活和非激活语音帧(步骤102)。VAD算法对于所有操作模式可以是相同的。如果检测到的是非激活语音帧(背景噪声信号)，就停止该分类方法，然后根据CDMA Rate SetII，并使用1.0kbit/s的CNG ER编码类型对该帧编码(步骤402)。如果检测到的是激活语音帧，该帧由第二分类器处理，该分类器用来区分清音帧(步骤404)。因为高级模式的目标是最好的可能质量，所以清音帧的区分是非常严格，并且只选择高稳定的清音帧。清音分类规则和判决阈值在前面已经给出。如果第二分类器将该帧归类为清音语音信号，就停止该分类方法，并使用清音HR编码类型对该帧编码(步骤408)，该清音编码类型已对清音信号优化过(根据CDMA Rate SetII的6.2kbit/s)。所有其他的帧使用普通FR编码类型处理，基于12.65kbit/s的AMR-WB标准(步骤406)。

标准模式中的信号分类和速率选择

根据本发明第二方面的第三示例性实施例的对声音信号的数字编码方法500如图6所示。方法500允许语音信号的分类和编码在标准模式下进行。

在步骤102中，VAD区分激活语音帧和非激活语音帧。如果检测到的是非激活语音帧，就停止分类方法，该帧被编码为CNG ER帧(步骤510)。如果检测为激活语音帧，那么该帧交由第二级别的分类器处理，该分类器用来区分清音帧(步骤404)。清音分类规则和判决阈值如上所述。如果第二级别分类器将该帧分类为清音语音信号，就停止分类方法，并使用清音HR编码类型对该帧编码(步骤508)。否则，该语音帧被传递给“稳定浊音”分类模块(步骤502)。浊音帧的区分是上述信号修正算法的固有特征。如果该帧适合于信号修正，那么该帧被归类为稳定浊音帧，并在对稳定浊音信号优化的模块中使用浊音HR编码类型对其编码(根据CDMA Rate SetII的6.2kbit/s)(步骤506)。否则，该帧很可能包括非稳定语音段，诸如浊音开始或迅速演变的浊音语音信号。这些帧典型地需要高比特率以便保持好的主观质量。然而，如果该帧的能量低于某个阈值，那么该帧可以使用普通HR编码类型编码。因此，如果在步骤512中，第4级别分类器检测到低能量信号，那么该帧使用普通HR编码(步骤514)。否则，该语音帧编码为普通FR帧(根据CDMA Rate SetII的13.3kbit/s)(步骤504)。

经济模式中的信号分类和速率选择

根据本发明第一方面的第四示例性实施例的声音信号的数字编码方法600如图6所示。方法600是四级分类方法，允许语音信号的分类及其编码在经济模式下进行。

该经济模式能够最大化系统容量并仍然能产生高质量宽带语音。速率判决逻辑与标准模式的类似，除了清音QR编码类型还被使用而普通FR被缩减。

首先，在步骤102中，VAD区分激活语音帧和非激活语音帧。如果检测到非激活语音帧，那么分类方法停止，并且该帧作为CNGER帧编码(步骤402)。如果检测到激活语音帧，那么该帧交由第二分类器处理，该分类器专门用于区分所有的清音帧(步骤106)。清音分类规则和判决阈值如上所述。如果第二分类器将该帧分类为清音语音信号，那么该语音帧被传递到第一个第三级分类器(步骤602)。第三级分类器使用上述规则检查该帧是否在浊音-清音过渡阶段。特别地，第三级分类器测试最后的帧是否是背景噪声帧的清音，如果帧的末端处的能量集中在高频处并且在前视中检测不到潜在的浊音开始。如上所述，最后两个条件检测为：

(r_x(2)<th₁₂)AND(e_tilt(1)<th₁₃)，其中th₁₂＝0.73，th₁₃＝3

其中，r_x(2)是前视中的相关，e_tilt(1)是跨越帧的末端和前视的第二频谱分析中的倾斜度。

如果该帧包括浊音-清音过渡，那么在步骤508中使用清音HR编码类型对该帧编码。否则，使用清音QR编码类型对该语音帧编码(步骤604)。没有被归类为清音的帧被传递给“稳定浊音”分类模块，该模块是第二个第3级分类器(步骤110)。浊音帧的区分是前面所述的信号修正算法的固有特征。如果该帧适合于信号修正，那么该帧被归类为稳定浊音帧并且在步骤506中使用浊音HR编码。与标准模式相似，剩余的帧(没有被分类为清音或者稳定浊音)被测试是否是低能量内容。在步骤512中如果检测到的是低能量信号，那么在步骤514中使用普通HR对该帧编码。否则，该语音帧被编码为普通FR帧(根据CDMA Rate SetII的13.3kbit/s)(步骤504)。

互操作模式中的信号分类和速率选择

根据本发明第二方面的第五示例性实施例的声音信号的数字编码方法700如图8所示。方法700允许语音信号的分类和编码在互操作模式下进行。

互操作模式允许CDMA系统和其它使用12.65kbit/s(或更低速率)的AMR-WB标准系统之间的无二次编解码操作。如果没有CDMA系统强加的速率限制，那么只可以使用互操作FR和舒适噪声发生器。

首先，步骤102中，VAD区分激活语音帧和非激活语音帧。如果检测到的是非激活语音帧，那么在步骤702中确定该帧是否应该被编码为SID帧。如前所述，在DTX运行过程中，SID帧用来更新AMR-WB一侧的CNG参数【4】。典型地，在静音过程中8个非激活语音帧中只有1个被编码。然而，在激活语音段之后，SID更新必须已经在第4帧中被发送(详细内容见参考文献【4】)。由于ER不足以对SID帧编码，所以在步骤704中使用CNG QR对SID帧编码。在步骤402中，除了SID之外的非激活帧使用CNG ER编码。在无二次编解码操作(TFO)中从CDMA VMR-WB到AMR-WB的方向的链路中，因为AMR-WB不再使用CNG ER帧，所以在系统接口处丢弃它们。在相反方向上，那些帧不能获得(AMR-WB只产生SID帧)并被宣布为帧擦除。所有激活语音帧使用互操作FR编码类型处理(步骤706)，这实质上是12.65kbit/s的AMR-WB编码标准。

半速率最大操作中的信号分类和速率选择

根据本发明第二方面的第六示例性实施例的声音信号的数字编码方法800如图9所示。方法800允许语音信号的分类以及在高级和标准模式的半速率最大操作中的编码。

如上所述，CDMA系统为特别帧使用最大比特率。许多情况下，系统利用的最大比特率被限制在HR。然而，该系统也可以利用较低速率。

所有在正常操作过程中通常被归类为FR的激活语音帧现在使用HR编码类型编码。然后分类和速率选择机制使用浊音HR(在步骤506中被编码)对所有浊音帧分类和使用清音HR(在步骤408中编码)对所有清音帧分类。在步骤514中，所有在正常操作中将被归类为FR的剩余帧使用普通HR编码类型编码，除了在互操作的模式下，其中使用互操作HR编码类型(图10的步骤908)。

如图9所示，信号分类和编码机制与标准模式下的正常操作相似。然而，使用普通HR(步骤514)而不使用普通FR编码(图5的步骤406)，并且用来区分清音和浊音帧的阈值更加宽松，以允许尽可能多的帧使用清音HR和浊音HR编码类型编码。基本上，经济模式的阈值被使用在高级或标准模式的半速率最大操作下。

根据本发明第一方面的第七示例性实施例的声音信号的数字编码方法900如图10所示。方法900允许语音信号的分类和在经济模式的半速率最大操作中的编码。图10的方法900与图7的方法600相似，除了所有将使用普通FR编码的帧现在使用普通HR编码(不需要在半速率最大操作中进行低能量帧分类)。根据本发明第一方面的第八示例性实施例的声音信号的数字编码方法920如图11所示。方法920允许语音信号的分类和速率确定在半速率最大操作过程中在互操作模式下进行。由于方法920与图8的方法700非常相似，以下只介绍两者的区别。

在方法920的情况下，没有专门的信号编码类型(清音HR和浊音HR)能够被使用，因为它们不能被AMR-WB配对方理解，并且没有普通HR编码可以被使用。因此，所有在半速率最大操作过程中的激活语音帧使用互操作的HR编码类型编码。

如果系统利用比HR低的最大比特率，那么没有常规编码类型被提供来处理那些情况，主要因为那些情况是非常地少见，而且这些帧可以被宣布为帧擦除。然而，如果最大比特率被系统限制到QR同时该信号被归类为清音，那么可以使用清音QR。然而因为AMR-WB配对方不能解释QR帧，这种情况只可能存在于CDMA特别模式(高级、标准，经济)中。

AMR-WB和Rate SetIIVMR-WB编解码器之间的有效互操作

现在参考图12根据本发明的第四方面的示例性实施例，将描述对语音信号编码从而在AMR-WB和VMR-WB编解码器之间互操作的方法1000。

更具体地，方法1000使得能够在AMR-WB标准编解码器和例如为CDMA2000系统(在这里也称之为VMR-WB编解码器)设计的源控制VBR编解码器之间进行无二次编解码操作。例如，在方法1000允许的互操作模式中，VMR-WB编解码器利用能够被AMR-WB理解的比特率，同时仍然适合CDMA编解码器所使用的Rate SetII比特率。

当Rate SetII的比特率是FR13.3、HR6.2、QR2.7、和ER1.0kbit/s时，那么能被使用的AMR-WB编解码器比特率是全速率的12.65、8.85、或6.6，并且SID帧是1/4速率的1.75kbit/s。12.65kbit/s的AMR-WB与CDMA2000FR13.3kbit/s的比特率最接近，并且在本示例性实施例中作为FR编解码器使用。然而，当AMR-WB使用在GSM系统中时，(为了分配更多比特给信道编码)链路适配算法可以根据信道状况把比特率降至8.85或6.6kbit/s。这样，如果GSM系统决定使用AMR-WB的8.85和6.6kbit/s这两个比特率的其中一个时，那么这两个比特率可以是互操作模式的一部分也可以使用在CDMA2000的接收机中。在图12所示的示例性实施例中，对应于12.65、8.85和6.6kbit/s的AMR-WB速率使用3种I-FR，并分别表示为I-FR-12、I-FR-8和I-FR-6。在I-FR-12中，有13个未用比特。前8个比特用来区分I-FR帧和普通FR帧(使用该额外的比特改善帧擦除隐藏)。其他5个比特用来表示I-FR帧的3种类型。在通常操作中，使用I-FR-12，如果GSM链路适配需要的话，可以使用更低的比特率。

在CDMA2000系统中，语音编解码器的平均数据率与系统容量直接相关。因此获得最低可能的ADR并带有最小的语音质量损失变得非常重要。AMR-WB编解码器主要为GSM蜂窝系统和基于GSM发展的第三代无线系统设计。因此，与专门为CDMA2000系统设计的VBR编解码器相比，CDMA2000系统的互操作模式导致较高的ADR。主要原因在于：

●缺乏AMR-WB中的6.2kbit/s的半速率模式；

●AMR-WB中的SID比特率是1.75kbit/s，该速率不适合RateSetII1/8速率(ER)；

●AMR-WB的VAD/DTX操作使用几个挂起帧(作为语音帧编码)从而计算SID_FIRST帧。

一种用来对语音信号编码从而能够在AMR-WB和VMR-WB编解码器之间互操作的方法能够克服上述限制并产生减少的互操作模式的ADR，这样在语音质量方面能够与CDMA2000特定的模式相当。以下描述了该方法的两种操作方向：VMR-WB编码-AMR-WB解码，和AMR-WB编码-VMR-WB解码。

VMR-WB编码-AMR-WB解码

当在CDMA VMR-WB编解码器一侧编码时，那么不需要AMR-WB标准的VAD/DTX/CNG操作。VAD对于VMR-WB编解码器而言是适当的并且与其他CDMA专门模式以完全相同的方法工作，即，所使用的VAD挂起时间长为不丢失清音停止所需的时间，只要VAD_flag＝0(被归类为背景噪声)就运行CNG编码。

VAD/CNG操作被处理成与AMR DTX操作尽可能的相近。在AMR-WB编解码器中的VAD/DTX/CNG工作如下：一个激活语音周期之后7个背景噪声帧在被编码为语音帧，但VAD比特设置为0(DTX挂起)。然后，SID_FIRST帧被发送。在SID_FIRST帧中，该信号没有被编码，并且CNG参数是从解码器中的DTX挂起(该7个语音帧)中获得。应当注意，在短于24个帧的激活语音期间之后AMR-WB不使用DTX挂起，从而减少DTX挂起开销。在SID_FIRST帧之后，两个帧被作为NO_DATA帧(DTX)发送，其后是SID_UPDATE帧(1.75kbit/s)。这之后，7个NO_DATA帧被发送，其后是一个SID_UPDATE帧，如此反复。这个过程一直持续到激活语音帧被检测到为止(VAD_flag＝1)。【4】

在图12的示例性实施例中，VMR-WB编解码器中的VAD不使用DTX挂起。在激活语音期间后的第一个背景噪声帧以1.75kbit/s的速率编码并在QR中发送，然后，有2个帧以1kbit/s的速率(1/8速率)编码，然后另一个帧以1.75kbit/s速率在QR中发送。此后，7个帧被以ER发送，其后跟着一个QR帧，如此反复。这与AMR-WB DTX操作过程大概相应，除了没有使用DTX挂起以便减少ADR。

虽然在本示例性实施例中描述的VMR-WB编解码器中的VAD/CNG操作与AMR-WB DTX操作相近，但是也可以使用其他能够进一步减少ADR的方法。例如，QR CNG帧能够以更低的频率发送，例如每12帧发送一次。另外，噪声变化可以在编码器侧被估计，并且只有当噪声特征变化的时候才发送QR CNG帧(不是每8或12帧一次)。

为了克服AMR-WB编码器中不存在半速率6.2kbit/s的限制，提供了一种互操作的半速率(I-HR)，它包括将帧编码为全速率帧然后丢弃对应于代数码本索引的比特(在以12.65kbit/s的AMR-WB中每帧144比特)。这将比特率降低到适合于CDMA2000Rate SetII半速率的5.45kbit/s。在解码之前，可以随机地(即，使用随机发生器)或伪随机地(即重复目前比特流的一部分)或者以某种预定的方法产生丢弃的比特。当CDMA2000系统通知了模糊与脉冲串(dim-and-burst)或者半速率最大请求时，可以使用I-HR。这避免了宣布该语音帧为丢失帧。I-HR也能够被VMR-WB编解码器使用在互操作模式中以便对清音帧或者对那些其中代数码本对合成语音质量贡献最小的帧编码。结果就是降低的ADR。需要注意的是，在这种情况下，编码器能够选择要在I-HR模式中被编码的帧，从而最小化了由于使用该帧而产生的语音质量衰减。

如图12所示，在VMR-WB编码/AMR-WB解码的方向上，使用VMR-WB编码器1002的互操作模式对语音帧编码，输出以下可能的比特率中的一种：激活语音帧的I-FR(I-FR-12、I-FR-8、或I-FR-6)，模糊与脉冲串信令情况下的I-HR或者，作为一种选择，要对一些清音帧或者对那些其中代数码本对合成语音质量的贡献最小的帧编码，QR CNG来编码相关的背景噪声帧(如上所述的每八个背景噪声帧中一个，或者检测到噪声特征中的变化的时候)，和ER CNG帧用在大多数背景噪声帧(没有被编码为QR CNG帧的背景噪声帧)。在网关形式的系统接口处，执行以下操作：

首先，测试由网关从VMR-WB编码器接收的帧的有效性。如果它不是有效的互操作模式的VMR-WB帧，那么就把它作为擦除(AMR-WB的语音丢失类型)被发送。例如如果以下条件中的一种发生，那么该帧被视为无效：

-如果接收到全0帧(在空白或者猝发的情况下被网络使用的)，那么该帧被擦除；

-FR帧的情况下，如果13个前同步码比特没有与I-FR-12、I-FR-8或者I-FR-6相对应，或者如果未用比特不是0，那么该帧被擦除。另外，I-FR将VAD比特设置为1，因此，如果接收到的帧的VAD比特不是1的话，该帧被擦除。

-HR帧的情况下，与FR相似，如果前同步码比特没有与I-HR-12、I-HR-8或者I-HR-6相对应，或者如果未用比特不是0，那么该帧被擦除。对于VAD比特，以同样的方式处理；

-QR帧的情况下，如果前同步码没有与CNG QR对应，那么该帧被擦除。另外，VMR-WB编码器将SID_UPDATE比特设置为1并将模式请求比特设置为0010。如果不是这种情况，该帧被擦除；

-ER帧的情况下，如果接收到的是全1的ER帧，那么该帧被擦除。另外，VMR-WB编码器使用全0的ISF比特型式(前14比特)来信号通知空白帧。如果接收到的是这种型式，那么该帧被擦除。

如果接收到的帧是有效的互操作模式帧，就执行以下操作：

-根据I-FR类型，I-FR帧作为12.65、8.8或者6.6kbit/s的帧被发送到AMR-WB解码器；

-QR CNG帧作为SID_UPDATE帧被发送到AMR-WB解码器；

-ER CNG帧作为NO_DATA帧被发送到AMR-WB解码器；以及

-在步骤1010中通过产生丢失的代数码本索引，I-HR帧被转换成12.65、8.85、或者6.6kbit/s的帧(根据帧的类型)。能够随机地产生该索引，或者通过重复现有编码比特的一部分来产生该索引或者通过预定的方式产生该索引。它也抛弃了指示I-HR类型的比特(该比特用来区分VMR-WB编解码器中不同的半速率类型)。

AMR-WB编码-VMR-WB解码

在这个方向上，方法1000被AMR-WB DTX操作限制。然而，在激活语音编码过程中，比特流中有一个比特(第一数据比特)指示VAD_flag(0表示DTX挂起，1表示激活语音)。所以在网关的操作可以总结如下：

-SID_UPDATE帧作为QR CNG帧被转发；

-SID_FIRST帧和NO_DATA帧作为ER空白帧被转发；

-擦除帧(丢失的语音)作为ER擦除帧被转发；

-VAD_flag＝0(步骤1012中验证)的激活语音之后的第一帧作为FR帧被保留，但是后面VAD_flag＝0的帧作为ER空白帧被转发；

-如果在步骤1014中在接收FR帧时，网关接收对半速率最大操作的请求(帧级别信令)，那么该帧被转换为I-HR帧。该转换过程由丢弃对应于代数码本索引的比特和添加指示I-HR帧类型的模式比特组成。

在该示例性实施例中，在ER空白帧中，前2个字节被设置为0x00，在ER擦除帧中前两个字节被设置为0x04。基本上，对应于ISF索引和2个型式的前14个比特被保留以指示空白帧(全0)或擦除帧(全0除了第14个比特被设置为1，十六进制表示为0x04)。在VMR-WB解码器1004中，当空白ER帧被检测到时，它们就由CNG解码器使用最后接收到的好的CNG参数处理。一个例外的是首先接收到空白ER帧的情况(CNG解码器初始化；还不知道旧的CNG参数)。因为VAD_flag＝0的第一帧作为FR传送，所以从该帧得到的参数和最后CNG参数用来初始化CNG操作。在ER擦除帧的情况下，解码器使用了用在擦除帧的隐藏过程。

应当注意，在图12所示的示例性实施例中，12.65kbit/s用在FR帧。然而，根据需要在坏信道条件下使用更低速率的链路适配算法，同样也可以使用8.85和6.6kbit/s。例如，对于CDMA2000和GSM系统之间的互操作，GSM的链路适配模块在坏信道条件下可以确定将比特率降低到8.85或6.6kbit/s。在这种情况下，这些较低比特率需要被包括在CDMA VMR-WB解决方案中。

在Rate Set I中操作的CDMA VMR-WB编解码器

在Rate Set I中，为FR使用的比特率是8.55kbit/s，对于HR来说是4.0kbit/s，对于QR是2.0kbit/s，对于ER是800bit/s。在这种情况下，只有在6.6kbit/s的AMR-WB编解码器能够被使用FR帧中，并且对于其他背景噪声帧，CNG帧能够以QR(SID_UPDATE)或者以ER被发送(与如上所述的Rate SetII操作相似)。为了克服6.6kbit/s速率的低质量限制，8.55kbit/s速率被提供来与AMR-WB编解码器的8.85kbit/s的比特率互操作。这将被称之为Rate Set I互操作FR(I-FR-I)。8.85kbit/s速率的比特分配和I-FR-I的两个可能的配置如表6所示。

表6在速率SET I的I-FR-I编码类型的比特分配

参数	AMR-WB8.85kbit/s比特/帧	I-FR-I8.55kbit/s(配置1)比特/帧	I-FR-I8.55kbit/s(配置2)比特/帧
				半速率模式比特
VAD标志	1	0	0
				LP参数	46	41	46
音调延迟	26＝8+5+8+5	26	26
				增益	24＝6+6+6+6	24	24
代数码本	80＝20+20+20+20	80	75
				总计	177	171	171

在I-FR-I中，VAD_flag比特和附加的5个比特被丢弃以获得8.55kbit/s的速率。在解码器中或者系统接口处，丢弃的比特可以容易地被引入，以便可以使用8.85kbit/s的解码器。几个方法可以用来丢弃该5个比特并对语音质量产生非常小的影响。在表6所示的配置1中，从线性预测(LP)参数量化中丢弃这5个比特。在AMR-WB中，使用46比特来量化ISP(导抗频谱对)域的LP参数(使用平均可移除和滑动平均)。使用分裂多级矢量量化对该(预测之后的)16维I SP残余矢量量化。该矢量被分为分别为9维和7维的2个子矢量。该2个子矢量使用2个阶段量化。第一阶段中每个子矢量使用8比特量化。在第二阶段中量化误差矢量分别被分裂为3和2个子矢量。第二阶段子矢量是3维、3维、3维、3维和4维，分别用6、7、7、5和5比特量化。在提出的I-FR-I模式中，最后的第二阶段子矢量的5比特被丢弃。因为它们对应于频谱的高频部分，所以具有最小的影响。在实践中丢弃该5个比特是通过将最后第二阶段子矢量的索引固定在某一不需要传送的值来完成的。在VMR-WB编码器中的量化中，该5比特索引是固定的事实是非常容易考虑到的。固定索引在系统接口处(即，在VMR-WB编码器/AMR-WB解码器操作中)被加入或者在解码器(即，在AMR-WB编码器/VMR-WB解码器操作中)被加入。在这种方法下，8.85kbit/s的AMR-WB解码器被用来对Rate SetII的I-FR帧解码。

在示例性实施例的第二种配置中，5比特从代数码本索引中丢弃。在AMR-WB在8.85kbit/s，该帧被分为4个64抽样的子帧。该代数激励码本将子帧分为16个位置的4个轨迹，并将符号脉冲放在每个轨迹中。每个脉冲使用5个比特编码：4个比特用作位置，1个比特用作符号。这样，对于每个子帧，一个20比特的代数码本被使用。一种丢弃5个比特的方法是从某一子帧中丢弃1个脉冲。例如，第4子帧中的第4位置轨迹的第4脉冲。在VMR-WB编码器中，该脉冲可以在码本搜索过程中被固定成预定的值(位置和符号)。该已知的脉冲索引能够在系统接口处被加入并被发送到AMR-WB解码器。在另一个方向上，该脉冲的索引被丢弃在系统接口处，在CDMA VMR-WB解码器，脉冲索引可以随机地产生。其他方法也可以用来丢弃这些比特。

为了应付模糊与脉冲串(dim-and-burst)或者CDMA2000系统请求的半速率最大请求，还为Rate Set I编解码器(I-HR-I)提供互操作的HR模式。与Rate SetII的情况相似，在AMR-WB编码/VMR-WB解码操作中必须在系统接口处丢弃一些比特，或者在VMR-WB编码/AMR-WB解码操作中在系统接口处产生一些比特。8.85kbit/s速率的比特分配和I-HR-I的示例性配置如表7所示。

表7速率SET I配置中I-HR-I编码类型的示例性比特分配

参数	8.85kbit/s的AMR-WB比特/帧	4.0的I-hR-I比特/帧
			半速率模式比特
VAD标志	1	0
			LP参数	46	36
音调延迟	26＝8+5+8+5	20
			增益	24＝6+6+6+6	24
代数码本	80＝20+20+20+20	0
			总计	177	80

在提出的I-HR-I模式中，在LP滤波参数量化中的最后2个第二阶段的子矢量的10比特以与上述Rate SetII相似的方式在系统接口处丢弃和产生。只使用集成解决方法和将7，3，7，3比特分配给4个子帧来对该音调延迟编码。在AMR-WB编码器/VMR-WB解码器操作中，这转换为将音调的小数部分在系统接口处丢弃并且对于第2和第4子帧将该不同的延迟削波成3比特。与Rate SetII的I-HR解决方案相似，代数码本索引被一起丢弃。该信号能量信息保持完整不变。

Rate Set I互操作模式的剩下的操作过程与图12的上述Rate SetII模式的操作相似(在VAD/DTX/CNG操作方面)，这里不再详细描述。

虽然本发明在这里使用示例性实施例的方式描述，但是它可以在不脱离如附加的权利要求中定义的本发明精神和实质的情况下修改。例如，虽然本发明的示例性实施例描述了有关语音信号的编码，但是应当注意这些实施例也可以应用在除了语音的其他声音信号。

参考文献：

【1】ITU-T Recommendation G.722.2“Wideband coding of speechat around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)”，Geneva，2002.

【2】3GPP TS26.190，“AMR Wideband Speech Codec；TranscodingFunctions，”3GPP Technical Specification.

【3】3GPP TS26.192，“AMR Wideband Speech Codec；Comfort NoiseAspects，”3GPP Technical Specification.

【4】3GPP TS26.193：“AMR Wideband Speech Codec；SourceControlled Rate operation，”3GPP Technical Specification.

【5】M.Jelinek and F.Labont，“Robust Signal/NoiseDiscri-mination for Wideband Speech and AudioCoding，”Proc.IEEE Workshop on Speech Coding，pp.151-153，Delavan，Wisconsin，USA，September2000.

【6】J.D.Johnston，“Transform Coding of Audio Signals UsingPerceptual Noise Criteria，”IEEE Jour.On Selected Areas inCommunications，vol.6，no.2，pp.314-323.

【7】3GPP2C.S0030-0，“Selectable Mode Vocoder Service Optionfor Wideband Spread Spectrum Communication Sys tems”，3GPP2Technical Specification.

【8】3GPP2C.S0014-0，“Enhanced Variable Rate Codec(EVRC)”，3GPP2 Technical Specification.

【9】TIA/EIA/IS-733，“High Rate Speech Service option17forWideband Spread Spectrum Communication Systems”.Also3GPP2Technical Specification C.S0020-0.

Claims

1.一种使用用于和自适应多速率宽带编解码器互操作的源控制的可变比特率多模式宽带编解码器对语音信号进行编码的方法，该方法包括：

接收输入语音信号以便使用具有包括全速率编码模式、半速率编码模式、1/4速率编码模式和1/8速率编码模式的用于可变比特率多模式宽带编解码器的第一组可用编码模式的源控制的可变比特率多模式宽带编解码器进行编码；

将从输入语音信号得到的语音帧施加到语音激活检测功能以确定该语音帧是包含激活语音的激活语音帧还是不包含激活语音的非激活语音帧；

当确定该输入语音帧是非激活语音帧时，确定该非激活语音帧是否要被编码为由具有包括6.6、8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kbit/s九种比特率的用于自适应多速率宽带编解码器的第二组可用编码模式的自适应多速率宽带编解码器使用的静音描述符帧；

当确定该输入语音帧要被编码为静音描述符帧时，使用从用于可变比特率多模式宽带编解码器的所述第一组可用编码模式中选择的1/4速率舒适噪声发生器编码模式来编码输入语音帧，所述1/4速率舒适噪声发生器编码模式具有足够高的编码比特率，从而允许用与由自适应多速率宽带编解码器使用的静音描述符帧兼容的多个比特来编码输入语音帧；

当确定该输入语音帧不应编码为静音描述符帧时，使用从用于可变比特率多模式宽带编解码器的所述第一组可用编码模式中选择的1/8速率舒适噪声发生器编码模式来编码输入语音帧。

2.一种使用用于和自适应多速率宽带编解码器互操作的源控制的可变比特率多模式宽带编解码器进行编码的设备，该设备包括：

输入端，配置用于接收语音信号以便使用具有包括全速率编码模式、半速率编码模式、1/4速率编码模式和1/8速率编码模式的用于可变比特率多模式宽带编解码器的第一组可用编码模式的源控制的可变比特率多模式宽带编解码器进行编码；

语音激活检测器，配置用于确定从所述语音信号得到的语音帧可以归类为包含激活语音的激活语音帧还是不包含激活语音的非激活语音帧；

非激活语音帧处理单元，用来对归类为非激活的语音帧执行确定操作，配置用于确定该非激活语音帧是否要被编码为由具有包括6.6、8.85、12.65、14.25、15.85、18.25、19.85、23.05和23.85kbit/s九种比特率的用于自适应多速率宽带编解码器的第二组可用编码模式的自适应多速率宽带编解码器使用的静音描述符帧；和

编码单元，响应于所述非激活语音帧处理单元执行的确定操作，配置用来当确定该输入语音帧要被编码为静音描述符帧时，使用从用于可变比特率多模式宽带编解码器的所述第一组可用编码模式中选择的1/4速率舒适噪声发生器编码模式来编码输入语音帧，所述1/4速率舒适噪声发生器编码模式具有足够高的编码比特率，从而允许用与由自适应多速率宽带编解码器使用的静音描述符帧兼容的多个比特来编码输入语音帧，还配置用来当确定该输入语音帧不应编码为静音描述符帧时，使用从源控制的可变比特率多模式宽带编解码器的所述第一组可用编码模式中选择的1/8速率舒适噪声发生器编码模式来编码输入语音帧。