CN1158647C

CN1158647C - 话音编码设备的频谱幅度量化

Info

Publication number: CN1158647C
Application number: CNB008130469A
Authority: CN
Inventors: E��L��T��Ф��; E·L·T·肖依; ��ʲ; S·曼祖那什
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-18
Publication date: 2004-07-21
Anticipated expiration: 2020-07-18
Also published as: EP1204969B1; US6324505B1; EP1204969A1; JP2003505724A; ATE324653T1; WO2001006493A1; KR100898323B1; DE60027573T2; CN1375096A; BRPI0012542B1; KR20020013965A; HK1047817A1; BR0012542A; KR20070087222A; CY1106119T1; ES2265958T3; JP4659314B2; AU6353600A; DE60027573D1; KR100898324B1

Abstract

一种低位速率话音编码设备的幅度量化方案包含从帧提取频谱信息矢量的第1步骤。对矢量能量进行归一化(1301)以产生增益因数。将增益因数加以差分矢量量化。对归一化(1301)增益因数进行非均匀降频取样，以产生具有与一些非均匀频带关联的单元的定维矢量。定维矢量分解成2个以上子矢量。对子矢量进行差分量化，以便用谐波复制处理取得最佳效果。

Description

话音编码设备的频谱幅度量化

发明背景

1.发明领域

本发明一般涉及话音处理领域，尤其涉及话音编码设备的参数量化。

2.背景

采用数字技术的话音传输日益普遍，尤其在长途数字无线电话应用中，这又引起关注决定能在信道上发送而保持重构话音感受质量的最少信息量。如果仅用取样和数字化发送话音，要达到常规模拟电话的话音质量，需要每秒64千位(kbps)的数据速率。然而，通过采用话音分析后，进行适当的编码、发送、并且在接收机重新综合，能达到数据速率显著降低。

在许多电信领域采用话音压缩装置。典型的是无线通信。无线通信领域有许多应用，包括例如无绳电话、寻呼、无线本地环路、诸如蜂窝网和PCS电话系统等无线电话、移动互联的协议(IP)电话和卫星通信系统。特别重要的应用是移动用户的无线电话。

无线通信系统已开发各种空中接口，例如频分多址(FDMA)、时分多址(TDMA)和码分多址(CDMA)。这方面已建立各种国内和国际标准，包括例如“先进移动电话业务”(AMPS)、“通用移动通信系统”(GSM)和“过渡标准”95(IS-95)。典型的无线电话系统是码分多址(CDMA)系统。电信业协会(TIA)和其他公知标准机构颁布IS-95标准及其派生标准IS-95A，ANSI J-STD-008、IS-95B、建立的第3代标准IS-95C和IS-2000等(这里通称为IS-95)，以规定蜂窝网或PCS电话系统的CDMA空中接口的使用5103459号和4901307号美国专利阐述实质上根据IS-95标准用法配置的示范无线通信系统，这些专利转让给本发明受让人，按参考文献在此完全引入。

通过提取人类话音产生模型有关参数对话音用各种方法进行压缩的装置称为话音编码设备。该设备将输入话音信号分成时间块或分析帧。话音编码设备通常包含编码器和解码器。编码器分析输入的话音帧，提取某些相关参数后，将其量化为二进制表示，即二进制位组或二进制数据分组。这些数据分组在信道上发送到接收机和解码器。解码器对数据分组进行处理，使其去量化以产生参数，并且用去量化的参数重新合成话音帧。

话音编码设备的功能是通过去除话音固有的自然冗余将数字话音信号压缩成低位速率信号。通过用一组参数代表输入话音帧，并利用量化以二进制位组表示这些参数，达到数字压缩。如果输入话音帧具有Ni个位，话音编码设备产生的数据分组具有N₀个位，则话音编码设备达到的压缩因数Cr＝Ni/N₀。存在的挑战是保持解码话音的话音质量高，同时又达到目标压缩因数。话音编码设备的性能取决于(1)话音模型完善程度或进行上述分析和综合处理的组合的完善程度，以及(2)在每帧No位的目标位速率下进行参数量化处理的完善程度。因此，话音模型的目标是每帧用少量参数获取话音要素或目标话音质量。

话音编码设备设计中最重要的可能是寻找描述话音信号的良好参数组(包括矢量)。良好的参数组重构感受上正确的话音信号需要系统带宽小。音调、信号功率、频谱包络(或共振峰)、幅度频谱和相位频谱是话音编码参数的例子。

话音编码设备可做成时域编码设备，该设备每次利用高时间分辨率处理对小话音段(通常是5毫秒(ms)子帧)进行编码，试捕获时域话音波形每一子帧借助本领域公知的各种寻找算法求来自码本空间的高准确代表。或者，话音编码设备可做成频域编码设备，该设备用参数值(分析)试捕获输入话音帧的短期话音频谱，并利用相应的综合处理，从频谱参数重构话音波形。根据《矢量量化和信号压缩(Vecter Quantization and Signal Compression)》(A.Gersho和R.M.Gray著，1992年)说明的公知量化技术，参数量化器通过用存储的码矢量表示，代表参数，保留这些参数。

公知的时域话音编码设备是码激励线性预测(CELP)编码设备，《话音信号数字处理(Digital Processing of Speech Signals)》(396～453页，L.B.Rabiner和P.W.Schafer著，1978年)阐述该编码设备，按参考文献在此完全引入。CELP编码设备中，通过线性预测(LP分析)求短期共振峰滤波器的系数，去除话音信号中的短期相关和冗余。对输入话音帧施加短期预测滤波，产生LP残留信号，并且用长期预测滤波器参数和后续随机码本进一步对其进行建模和量化。因此，CELP编码将时域话音波形编码任务分成LP短期滤波器系数编码和LP残数编码的独立任务。可按固定速率(即每帧采用相同数量的位No)或可变速率(不同类型的帧内容用不同位速率)进行时域编码。可变速率编码设备试图仅用将编解码器参数编码成取得目标质量的适当程度所需数量的位。5414796号美国专利阐述可变速率CELp编码设备的范例，按照参考文献在此引入。

诸如CELP编码设备等时域编码设备通常依靠每帧位数No大而保持时域话音波形准确。如果每帧位数No较大(例如8kbps或更大)，该编码设备通常提供优越的话音质量。然而，位速率低(4kbps以下)时，时域编码设备由于可用位数有限，不能保持高质量和性能率靠。位速率低时，有限的码本空间使高速率商用中部署很成功的常规时域编码设备的波形匹配性能受到抑制。因此，尽管时时改进，工作在低位速率的许多CELP编码系统仍遭受感受上的显著失真，其特征通常为噪声。

目前存在开发工作于中低位速率(即2.4至4kbps范围以下)的高质量话音编码设备的研究关注热潮和强烈商业需求。应用领域包括无线电话、卫星通信、因特网电话、各种多媒体和声音流应用、话音函件及其他声音存储系统。其驱动力为数据分组丢失的情况下要求高容量和牢靠性能的需求。各种近期话音编码标准化机构的工作是另一直接驱动力，推进低速率话音编码算法的研究开发。低位速率话音编码设备在每一可用频宽形成较多信道或用户，与适当信道编码附加层结合的低速率话音编码设备能适应该设备规范的总预算位，并且在信道差错状态下提供牢靠的性能。

低位速率下对话音有效编码的有效方法是多模式编码。序列号09/217341的美国专利申请阐述多模式编码技术的范例，该申请题目为“可变速率话音编码(VARIABLE RATE SPEECH CODING)”(1998年12月21日提交)，转让给本发明受让人，按参考文献在此引入。常规变模式编码设备对不同类型的输入话音帧施加不同的模式或编解码算法。专门编制每一模式或编解码处理，以便用最有效的方式最佳表示某类型话音段，诸如浊音语、清音语、过渡语(例如处于浊音与清音之间)和背景噪声(非话音)。外部开环模式判决机构审查输入话音帧，判决对该帧用何模式。通常通过从输入帧提取一些参数，就某些时间特性和频谱特性对其进行评价，并使模式判决基于该评价，从而进行开环模式判决。

工作在2.4kbps左右速率的编码系统一般是参数性。即该编码系统通过在规定时间间隔发送描述话音信号音调周期和频谱包络(或共振峰)的参数，进行工作。这些参数性编码设备的说明例是LP声码器系统。

LP声码器用每一音调周期一个脉冲模式浊音语信号。此基本方法可扩大到包括在各种性能中发送有关频谱包络的信息。虽然LP声码器提供适当的性能，但一般会引入感受上显著失真，其特征通常为蜂音。

近年来，编码设备出现波形编码设备和参数编码设备的混合体。这些“混合编码设备”的说明例是原型波形插空(PWI)话音编码系统。PWI编码系统也可称为原型音调周期(PPP)话音编码设备。PWI编码系统提供有效的浊音语编码方法。PWI的基本概念为：按固定时间间隔提取代表性音调周期(原型波形)，发送其说明，并通过原型波形之间插空重构话音信号。PWI方法可按LP残留信号或话音信号进行工作。序列号为09/217494的美国专利申请阐述PWI或PPP话音编码设备的范例，该申请在1998年12月21日提交，题目为“周期性话音编码(PERIODIC SPEECH CODING)”，转让给本发明受让人，按参考文献在此完全引入。5884253号美国专利以及W.Bastiaan Kleign和Wolfgang Granzow著的“话音编码的波形插空方法(Method for Waveform Interpolation in SpeechCoding)”(1Digital Signal Processing，215～230页，1991年)阐述其他PWI或PPP话音编码设备。

已熟知嵌于话音中的频谱信息在感知上很重要，尤其在浊音语感知方面。诸如原型波形插空(PWI)编码设备或原型音调周期(PPP)编码设备、多频带激励(MBE)话音编码设备和正弦变换话音编码设备(STC)等许多最先进技术的话音编码设备将频谱幅值用作显性编码参数。然而，该频谱信息的有效编码一直是挑战性任务。其原因主要是通常用一些谐波幅度表示的频谱矢量具有与所估计音调周期成正比的量值。因此，需要处理变维输入矢量的VQ法，对频谱矢量进行编码。因而，尚未存在耗费二进制位和存储器少的有效变维VQ法。

如本领域技术人员所熟知，人的频率分辨力是频率的非线性函数(例如唛标度和巴克标度)，人耳在高频的频谱细节灵敏度低于低频时。希望在设计有效幅度量化器时充分利用有关人感知的知识。

常规低位速率话音编码设备中，可对每帧的各原型各自量化并发送幅度参数和相位参数。或者，可直接对参数进行矢量量化，以减少表示参数所需的位数。然而，希望进一步减少量化帧参数所需的位数。因此，有利的是提供一种有效量化方案，感知上表示话音信号幅度频谱或线性预测的残留信号。这样，就需要一种话音编码设备，用低速率位流有效量化幅度频谱，以增大信道容量。

发明内容

本发明针对一种话音编码设备，用低速率位流有效量化幅度频谱，以增多信道容量。因而，本发明的一个方面中，一种在话音编码设备化量频增信息的方法有利地包含以下步骤：从帧提取具有矢量能量值的频谱信息矢量；将矢量能量值归一化，以产生多个增益因数；对多个增益因数进行差分矢量量化；对多个归一化增益因数进行非均匀降频取样，以产生具有分别与多个非均匀频带关联的多个单元的定维矢量；将定维矢量分解成多个子矢量；对多个子矢量进行差分量化。

本发明的另一方面中，话音编码设备有利的是包含以下步骤：提取装置，从帧提取具有矢量能量值的频谱信息矢量；归一化装置，将矢量能量值归一化，以产生多个增益因数；差分矢量量化装置，对多个增益因数进行差分矢量量化；非均匀降频取样装置，对多个归一化增益因数进行非均匀降频取样，以产生具有分别与多个非均匀频带关联的多个单元的定维矢量；将定维矢量分解成多个子矢量的装置；对多个子矢量进行差分量化的装置。

本发明的再一方面中，话音编码设备有利的是包含：提取模块，配置成从帧提取具有矢量能量值的矢量的频谱信息；归一化模块，连接提取模块，并且配置成对矢量能量值进行归一化，以产生多个增益因数；差分矢量量化模块，连接归一化模块，并且配置成对多个增益因数进行差分矢量量化；降频取样器，连接归一化模块，并且配置成对多个归一化增益因数进行非均匀降频取样，以产生具有分别与多个非均匀频带关联的多个单元的定维矢量；分解机构，将定维矢量分解成高频带子矢量和低频带子矢量；差分量化模块，连接分解机构，并且配置成对高频带子矢量和低频带子矢量进行差分量化。

附图说明

图1是无线电话系统的框图。

图2是每端由话音编码设备终接的信道的框图。

图3是编码器框图。

图4是解码器框图。

图5是说明话音编码判决处理的流程图。

图6A是话音信号幅度随时间变化的图形，图6B是线性预测(LP)残留幅度随时间变化的图形。

图7是将幅度频谱作为编码参数的话音编码设备的框图。

图8是可用于图7的话音编码设备的幅度量化模块的框图。

图9是可用于图7中的话音编码设备的幅度去量化模块的框图。

图10说明图8的幅度量化模块中频谱降频取样器或用图9的幅度升频取样器中频谱升频取样器可执行的非均匀频带划分。

图11A是残留信号幅度频谱随频率变化的图形，其中按照图9的划分对频率轴进行划分；图11B是图11A的能量归一化频谱曲线；图11C是图11B的非均匀降频取样器和线性升频取样频谱的图形。

较佳实施例详细说明

下面说明的示范实施例存在于配置成利用CDMA空中接口的无线电话通信系统。然而，本领域的技术人员会理解，本发明的子抽样方法和装置可存在于利用本领域技术人员已知的各种技术的各种通信系统。

如图1所示，CDMA无线电话系统一般包含多个移动用户单元10、多个基站12、基站控制器(BSC)14和移动通信交换中心(MSC)16。MSC16配置成与常规共用电话交换网(PSTN)18接口。MSC16还配置成与BSC接口。BSC14通过迂回路程线路与基站12连接。该线路可配置成支持任一已知接口，包括例如E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。应理解，系统中存在2个以上的BSC14。有利的是每一基站12包含至少一个扇区(未示出)，每一扇区包含全向天线或指出径向离开基站12的特定方向的天线。或者，各扇区可包含2付天线，用于分集接收。有利的是各基站12设计成支持多种频率分配。扇区与频率分配的交集称为CDMA信道。基站12也可称为基站收发机子系统(BTS)12。或者，“基站”在业内可用于通称BSC14和1个或多个BTS12。BTS12也可指“区站”12。或者，给定BTS12的各个扇区可称为区站。移动用户单元10通常是蜂窝网电话或PCS电话10。有利的是将系统配置成按照IS-95标准使用。

蜂窝网电话系统进行典型工作时，基站12从一些移动单元10接收一些反向链路信号。移动单元10进行电话呼叫或其他通信，在基站12处理该给定基站12收到的每一反向链路信号。所得数据传输BSC14。BSC14提供呼叫资源分配和移动性管理功能，其中包括协调基站之间的软切换。BSC14还将收到的数据发给MSC16，后者提供附加的选路业务，用于与PSTN18接口。同样，PSTN18也与MSC16接口，MSC16又与BSC14接口，后者转而控制基站12，以便对一些移动单元10发送一些正向链路信号。

图2中，第1编码器100接收数字化话音取样S(n)，并将其编码，以便在传输媒体102或信道102上发送到第1解码器104。该解码器104对编码的话音取样进行解码后，综合成输出话音信号S_SYNTH(n)。为了在反方向传输，第2编码器106将数字化话音取样S(n)编码后，在信道108上发送。第2解码器110接收编码的话音取样并将其解码，从而产生综合的话音输出信号S_SYNTH(n)。

话音取样S(n)代表按照本领域公知的任何方法进行数字化和量化的话音信号，这些方法包括例如压缩扩展的μ律或A律脉码调制(PCM)。如本领域所熟知，将话音取样S(n)组织成输入数据帧，每帧包含预定数量的数字化话音取样S(n)。一示范实施例中利用8KHz的取样率，每一20ms的帧包含160个取样。以下所述实施例中，从13.2kbps(全速率)到6.2kbps(半速率)到2.6kbps(1/4速率)到1kbps(1/8速率)逐帧改变数据传输速率有利。由于可对含较少话音信息的帧选用较低的位速率，改变数据传输速率有好处。本领域技术人员理解，可用其他取样率、帧规模和数据传输速率。

第1编码器100和第2解码器110一起组成第1话音编码设备或话音编解码器。话音编码设备可用于传送话音信号的通信装置，包括以上参照图1说明的用户单元、BTS或BSC。同样，第2编码器106和第1解码器104一起组成第2话音编码设备。本领域技术人员理解，可用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块和微处理器实现话音编码设备。软件模块可驻留于RAM存储器、快速擦写存储器、寄存器或本领域公知的其他形式的可写存储媒体。另外，常规处理器、控制器或状态机可代替微处理器。5727123号美国专利和1994年2月16日提交的序列号为08/197417美国专利申请(题目“声码器ASIC(VOCODER ASIC)”)阐述专门为话音编码设计的典型ASIC，均转让给本发明受让人，按参考文献在此引入。

图3中，可用于话音编码设备的编码器200包含模式判决模块202、音调估计模块204、LP分析模块206、LP分析滤波器208、LP量化模块210和残数量化模块212。将输入话音帧S(n)提供给模式判决模块202、音调估计模块204、LP分析模块206和LP分析滤波器208。模式判决模块202根据每一输入话音帧S(n)各特性中的周期性、能量、信噪比(SNR)或交零率，产生模式索引号I_M和模式M。5911128号美国专利阐述根据周期性划分话音帧的各种方法，该专利转让给本发明的受让人，按照参考文献在此引入。电信的业协会的业界过渡标准TIA/EIA IS-127和TIA/EIA IS-733也编入该方法。上述序列号为09/217341的美国专利申请也阐述模式判决方法的范例。

音调估计模块204根据各输入话音帧产生音调索引号Ip和滞后值Po。LP分析模块206对各输入话音帧S(n)进行线性预测分析，以产生LP参数a。该参数a提供给LP量化模块210。该模块210还接收模式M，从而以取决于模式的方式进行量化处理。LP量化模块210产生LP索引号L_LP和量化的LP参数。LP分析滤波器208除接收输入话音帧S(n)外，还接收该量化LP参数。该滤波器208，根据量化线性预测参数产生代表输入话音帧S(n)之间差和重构话音的LP残留信号R[n]。将LP残留信号R[n]、模式M和量化LP参数提供给残数量化模块212。该模块212根据这些值产生残数索引号I_R和量化残留信号

图4中，可用于话音编码设备的解码器300包含LP参数解码模块302、残数解码模块304、模式解码模块306和LP合成滤波器308。模式解码模块接收模式索引号I_M，将其解码，从而产生模式M。LP参数解码器模块302接收模式M和LP索引号I_LP。该模块302将接收的值解码，产生量化LP参数。残数解码模块304接收残数索引号I_R、音调索引号I_P和模式索引号I_M。该模块304将接收的值解码，产生量化残留信号该信号

和量化LP参数提供给LP合成滤波器308，从而合成解码输出话音信号

本领域已公知图3中编码器200和图4中解码器300的各模块的操作和实现，上述5414796号美国专利和《话音信号数字处理(Digital Processing ofSpeech Signals)》(L.B.Rabiner和R.W.Schafer著，396～453页，1978年)也对此进行阐述。

如图5的流程图所示，按照一实施例的话音编码设备在处理传输的话音抽样中遵照以下步骤。步骤400中，话音编码设备在连续帧内接收话音信号的数字抽样。接收给定帧时话音编码设备进到步骤402。此步骤402，话音编码设备检测该帧的能量。此能量是该帧话音活动性的度量。通过参数字话音抽样幅值的平方求和，并将所得能量与门限值比较，进行话音检测。一实施例中，该门限值随背景噪声电平电话而自适应。上述5414796号美国专利阐述可变门限话音活动性检测器的范例。有些清音语声可为能量非常低的抽样，会将其错误编码成背景噪声。为了避免出现这点，可用低能量抽样频谱倾斜，以区别清音语和噪声，如以上5414796号美国专利所述。

检测帧能量后，话音编码设备进到步骤404。步骤404中，话音编码设备判断检测的帧能量是否足以区分包含话音信息的帧。如果检测的帧能量下降到预定电平以下，话音编码设备就进到步骤406。步骤406中，该设备将此帧当作背景噪声(即非话音或寂静)进行编码。一实施例中，背景噪声帧以1/8速率或1Kbps编码。如果步骤404中检测的帧能量达到或超过预定门限电平，则将该帧区分为话音后，话音编码设备进到步骤408。

步骤408中，话音编码设备判断该帧是否清音语，也就是说，该设备审查帧的周期性。各种公知的周期性判断方法包含例如采用交零点和采用归一化自相关函数(NACF)。具体而言，上述5911128号美国专利和序列号为09/217341的美国专利申请阐述采用交零点和NACF检测周期性。此外，电信业协会过渡标准TIA/EIA IS-127和TIA/EIA IS-733也编入上述区别清音语与浊音语用的方法。如果步骤408中判定该帧为清音语，话音编码设备进到步骤410。在步骤410，该设备将此帧作为清音语编码。一实施例中，以1/4速率或2.6Kbps对清音语帧进行编码。如果步骤408中判定该帧不为清音语，话音编码设备进到步骤412。

步骤412中，话音编码设备采用例如以上5911128号美国专利所述的本领域公知周期性检测方法，判断该帧是否过渡语。如果判定该帧是过渡语，话音编码设备进到步骤414。在步骤414，将该帧当作过渡语(即从清音语过渡到浊音语)进行编码。一实施例中按照多脉冲插空编码法对过渡语帧进行编码，序列号为09/307294的美国专利专利申请阐述该方法，该申请的题目为“过渡语帧的多脉冲插空编码(MULTIPULSE INTERPOLATIVE CODING 0F TRANSITIONSPEECH FRAMES)”，1999年5月7日提交，已转让给本发明受让人，按参考文献在此完全引入。另一实施例中，以全速率或13.2Kbps对过渡语帧进行编码。

如果在步骤412中话音编码设备判定该帧不是过渡语，该设备进到步骤416。步骤416中，话音编码设备将该帧当作浊音语进行编码。一实施例中，可用半速率或6.1Kbps对浊音语帧编码。还可用全速率或13.2Kbps(或8K CELP编码设备中的全速率8Kbps)对浊音语帧编码。然而，本领域的技术人员会理解，半速率浊音帧编码通过利用浊音帧的稳态性，使编码设备可节省宝贵的带宽。此外无论浊音语用何种速率编码，有利的是利用过去帧的信息对浊音语编码，因而该语进行预测性编码。

本领域的技术人员会理解，可按图5所示的步骤对话音信号或相应的LP残数编码。图6A的图形中可看到噪声、清音语、过渡语和浊音语的波形特性随时间变化，图6B的图形中则可看到噪声、清音语、过滤语和浊音语的LP残数波形特性随时间变化。

一实施例中，话音编码设备包含发送部分或编码器以及接收部分或解码器，如图7所示。编码器部分包含浊音/清音分离模块1101、音调/频谱包络量化器1102、清音量化模块1103、幅度和相位提取模块1104、幅度量化模块1105和相位量化模块1106。解码器部分包含幅度去量化模块1107、相位去量化模块1108、浊音去量化和合成模块1109、浊音段合成模块1110、话音/残数综合模块1111和音调/频谱包络去量化器1112。有利的是话音编码设备可作为DSP的一部分实现，并可驻留在例如PCS或蜂窝网电话系统的用户单元或基站，或者卫星系统的用户单元或网关。

图7的话音编码设备中，将话音信号或LP残留信号提供给浊音/清音分离模块1101，该模块有利地为常规浊音/清音区分器。由于人类对浊音语和清音语的感知实质上不同，该区分器有好处。尤其是嵌在清音语中的许多信息感受上与人耳无关。因而，应分别量化浊音段和清音段的幅度频谱，在达到最大编码效率。应注意，虽然这里说明的实施例针对浊音幅度频谱量化，本发明的特性也可用于清音语。

音调/频谱包络量化器1102按照参照图3中204、206和210各单元说明的方法之类的常规方法，计算音调和频谱包络信息，并将该信息发给解码器。在清音量化模块1103和清音去量化模块1109分别以常规方式对清音部分进行编码和解码。另一方面，浊音部分首先送到幅度和相位提取模块1104，提取幅度和相位。可用本领域技术人员公知的许多常规方法完成提取过程。例如，一种具体的幅度和相位抽取方法是原型波形插空，如5884253号美国专利所述。该方法中，从具有音调周期长度的原型波形提取每帧中的幅度和相位。幅度和位相提取模块1104也可利用诸如多频带激励编码设备(MBE)和谐波话音编码设备中用的其他方法。有利的是浊音段分析模块1110执行与幅度和相位提取模块1104相反的操作。

有利的是可按常规方式实现相位量化模块1106和相位去量化模块1108。以下参照图8～图10的说明用于较详细阐述幅度量化模块1105和幅度去量化模块1107。

I.能量归一化

如图8所示，一实施例的幅度量化模块包含频带能量归一化器1301、功率差分量化器1302、非均匀频谱降频取样器1303、低频带幅度差分量化器1304、高频带幅度差分量化器1305、低频带幅度差分去量化器1306、高频带幅度分去量化器1307、功率差分去量化器1308和谐波复制模块1309(为了清楚，图中示出2次)。幅度量化模块中还包含4个单位延迟。如图9所示，一实施例的幅度去量化模块包含低频带幅度差分去量化器1401、高频带幅度差分去量化器1402、频谱积分器1403、非均匀频谱升频取样器1404、频带能量去归一化器1405、功率差分去量化器1406和谐波复制模块1407(为了清楚，图中示出2次)。幅度去量化模块中还包含4个单位延迟件。

幅度量化处理的第1步是决定频带能量归一化器1301中工作的增益归一化因数。幅度频谱先加以归一化，则低频带幅度差分量化器1304和高频带幅度差分量化器1305中能对频谱形状更有效地编码。频带能量归一化器1301中，在低频带和高频带分开进行能量归一化。非归一化频谱(表示为{A_k}与归一化频谱(表示为之间的关系按照2个增益因数α和β表示，具体为：

α = \frac{1.0}{\sqrt{\underset{k_{1}}{Σ} {A_{k}}^{2}}},

β \frac{1.0}{\sqrt{\underset{k_{2}}{Σ} {A_{k}}^{2}}}

其中

{\tilde{A}}_{k} = α A_{k} &ForAll; k &Element; K_{1}

{\tilde{A}}_{k} = {βA}_{k} &ForAll; k &Element; K_{2}

K₁代表示为低频带对应的谐波号集合，K₂代表与高频带对应的谐波带集合。说明性实施例中，将低频带和高频带的分隔边界选为1104Hz。(后文将说明此特定频率点实际上对应于频带#11的右缘，如图10所示)。图11B的图形示出归一化幅度的频谱的例子。原幅度频谱示于图11A的图形中。

II.非均匀频谱降频取样

频带能量归一化器1301产生的归一化频谱

提供给非均匀频谱降频取样器1303，该取样器根据预定的非均匀频带进行工作，如图10所示。有利的是具有整个频率范围中的22个非均匀频带(也称为频箱)和对应于频率标度(Hz)固定点的箱缘。应注意，有利的是前8个频带的规模固定为约95Hz，而其余频带的规模频率按对数增加。会理解，频带数和频带规模不再要受这里说明的实施例限制，可改变，而不偏离本发明的基本原理。

降频取样处理进行工作如下。首先使每一谐波

与频箱关联。然后，计算各箱中谐波幅度平均值。所得频谱成为22个频谱值的矢量，表示为B(i)，i＝1、2、…、22。要注意，有些箱可能是空的，尤其是对小滞后值。频谱中的谐波数取决于基频。有利的是典型话音编码系统中的最小允许音调值设定为20(假设取样频率为8KHz)，这对应于仅取11个谐波。因此，空箱不可避免。

为了便于存在空箱时设计并查找码本，指定称为箱加权的参数，W(i)，i＝1、2、…、22，以跟踪空箱的位置。有利的是参数W(i)对空箱设定为零，对被占的箱设定为1。可在常规VQ程序中使用此箱加权信息，以便在码本查找和训练时丢弃空箱。要注意，{W(i)}仅为基频的函数。因此，不需要对解码器发送箱加权信息。

非均匀降频取样器1303用于达到2个重要目的。第1，变维的幅度矢量按相应箱加权映射为定维矢量。因此，常规VQ法可用于量化降频取样矢量。第2，非均匀箱法利用的是人耳具有频率标度(类似于巴克标度)的非线性函数的频率分辨力。进行下变频取样处理时，丢弃许多感受上无关的信息，以提高编码效率。

III.增益因数的量化

如本领域所公知，信号功率的对数比信号功率本身在感受上更恰当。因此，以不同的方式在对数域进行2个增益因数α和β的量化。由于信道差错，在差分量化器中注入少量泄漏有利。这样，可根据下式分别由功率差分量化器1302和功率差分去量化器1308对α和β进行量化和去量化：

[\log ({\hat{α}}_{N}) \log ({\hat{β}}_{N})] = ρ [\log ({\hat{α}}_{N - 1}) \log ({\hat{β}}_{N - 1})] + Q [\log (α_{N}) - ρ \log ({\hat{α}}_{N - 1}) \log (β_{N}) - ρ \log ({\hat{β}}_{N - 1})]

式中，N-1和N指2个相继提取的增益因数的时间，Q(·)代表差分量化运算。参数ρ起泄漏因数的作用，用于防止信道差错无限传播。典型话音编码系统中，ρ的值在0.6至0.99之间的范围内。上述方程示出自回归(AR)处理的例子。同样，也可用移动平均(MA)方案，减小对信道差错的灵敏度。与AR处理不同，在MA方案中由非回归解码器结构限制差错传播。

规模为64或128的码本足以优质量化α和β。所得码本索引号I_功率发送到解码器。又参阅图9，有利的是解码器的功率差分去量化器1406等同于编码器的功率差分量化器，并且解码器的频带能量去归一化器1405进行与编码器中频带能量归一化器1301相反的操作。

IV.频谱形状的量化

非均匀频谱降频取样器1301进行频谱下变频取样后，{B(i)}在量化前分成2组。低频带{B(i＝1、2、…、11)}提供给低频带幅度差分量化器1304。高频带{B(i＝1、2、…、22)}提供给高频带幅度差分量化器1305。高频带和低频带分别按不同量化。按照下式计算差分矢量：

Δ B_{N} = B_{N} - {\hat{B}}_{N - 1}

式中，

代表前一矢量量化方式。2个相应加权矢量之间存在偏差(即，先前频谱与当前频谱之间的滞后偏差造成的W_N≠W_N-1)时，所得ΔB_N会包含使量化器性能降低的差错值。例如，前一滞后L_prev为43，当前滞后L_curr为44，则按照图10所示分配方案计算的相应加权矢量为：

W_N-1＝{0，0，1，0，1，0，1，1，0，1，…}

W_N＝{0，1，0，1，0，1，0，1，0，1，…}

这时，差借值出现在ΔB_N(i)中，i＝2、4、6时，而且以下布尔表达式为真；

W_N(i)＝1∩W_N-1(i)＝0

要注意，本例中出现在i＝3、5、7时的其他类型失配W_N(i)＝0∩W_N-1(i)＝1不影响量化器的性能。由于这些频箱无论如何都具有零加权(即W_N(i)＝0)，在常规加权查找过程中会自动忽略这些频箱。

一实施例中，采用标为谐波复制的方法处理加权矢量失配。谐波复制法将

修改为

使中的全部空箱在计算ΔB_N前暂时用谐波填充。如果L_prev＜L_curr，则从右邻方复制谐波。如果L_prev＞L_curr，则从左邻方复制谐波。以下的例子说明谐波复制过程。假设对前4个非空箱具有频谱值W、X、Y、Z…。采用与上文相同的例子L_prev＝43，L_curr＝44，通过从右邻方复制(因为L_prev＜L_curr，能计算

从右方复制

其中0意味着空箱。如果矢量B_N为

B_N＝{0，A，0，B，0，C，0，D，0，…}

则

ΔB_N＝{0，A-W，0，B-X，0，C-Y，0，D-Z，0，…}

编码器和解码器中，具用在谐波复制模块1309、1407实现谐波复制。以和增益量化器1302时相同的方式，可对频谱量化施加泄漏因数ρ，以防出现信道差错时差错无限传播。例如，可由下式得到ΔB_N：

{ΔB}_{N} = B_{N} - ρ {\hat{B}}_{N - 1}^{'}

为了得到更好的性能，低频带幅度差分量化器1304和高频带幅度差分量化器1305可在计算差错判定标准中，以和CELP编码设备通常用于量化残留信号相同的方式利用频谱加权。

索引号I_amp1和I_amp2是发送到解码器的低频带和高频带码本索引号。具体实施例中，幅度差分量化器1304和1305都要求总共约12位(600bps)，以达到长途通信质量的输出。

解码器中，非均匀频谱升频取样器1401将22个频谱值升频取样成其原来的量值(矢量中的单元数在降频取样中变成22个，在升频取样中恢复为原数量)。用常规线性插空法可执行该升频取样，不必大量增加计算的复杂性。图11A～图11C的图形示出升频取样频谱的例子。要注意，解码器中的低频带幅度差分去量化器1401和高频带幅度差分去量化器1402等同于编码器中各自的对应部分低频带幅度差分去量化器1306和高频带幅度差分去量化器1307有利。

上述实施例开发一种新颖的幅度量化技术，该技术充分利用人耳的非线性频率分辨力，同时缓冲变维VQ的使用。实施本发明特性的编码技术已成功用于PWI话音编码系统，表示原型波形幅度频谱需要少到18位/帧(900bps)的数据(带非量化相位频谱)，即可达到长途通信质量的输出。本领域的技术人员不难理解实施本发明的量化技术可用于任何形式的频谱信息，不需要受幅度频谱信息的约束。本领域的技术人员还会理解，本发明的原理不受PWI话音编码系统约束，也可用于将幅度频谱作为显性编码参数的许多其他话音编码算法，诸如MBE和STC。

虽然这里已经示出并说明一些具体实施例，但应理解，这些实施例仅是利用本发明原理能设计的许多具体布局的说明例。本领域的普通技术人员按照这些原理能设计大量不同的其他布局，而不偏离本发明的精神和范围。例如，少量修改图10中所示非均匀频带表示的频带边缘(或箱规模)不会使所得话音质量显著不同。还可改变图8所示低频带幅度差分量化器和高频带差分幅度量化器中分隔低频带和高频带频谱的划分频率(一实施例中设定为1104Hz)，而对所得感受质量影响不大。此外，虽然上述实施例针对话音或残留信号幅度编码用的方法，但本领域的技术人员显然明白，本发明的方法也可用于音频信号编码。

这样，说明了一种低位速率话音编码设备的新颖幅度量化方案。本领域的技术人员会理解，结合这里所揭示实施例阐述的各种逻辑块和算法步骤说明例，其实现和执行可用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门电路或晶体管逻辑、诸如寄存器和FIFO等的离散硬部件、执行固件指令级的处理器或者常规可编程软件模块和处理器。处理器为微处理器有利，但也可为任何常规处理器、控制器、微控制器或状态机。软件模块可驻留于RAM存储器，快速擦写存储器、寄存器或本技术领域公知的任何其他形式可写存储媒体。技术人员还会理解，以上说明各处可引用的数据、指令、命令、信息、信号、位、码元和码片表示为电压、电流、电磁波、磁场或磁粒子、光场或光粒子或者以上各项的组合有利。

这样，已示出并说明本发明较佳实施例。然而，本领域普通技术人员会理解，这里揭示的实施例可作许多改动而不偏离本发明的实质和范围。因此，本发明除符合以下的权利要求书外，不受限制。

Claims

1.一种在话音编码设备中量化频谱信息的方法，其特征在于包含以下步骤：

从帧提取频谱信息的矢量，所述矢量具有一矢量能量值；

将矢量能量值归一化，以产生多个增益因数；

对多个增益矢量进行差分矢量量化；

对多个归一化增益因数进行非均匀降频取样，以产生具有分别与多个非均匀频带关联的多个单元的定维矢量；

将定维矢量分解成多个子矢量；

对多个子矢量进行差分量化。

2.如权利要求1所述的方法，其特征在于，还包含以下步骤：

形成频带加权矢量，以跟踪对应于空频带的单元的位置。

3.如权利要求1所述的方法，其特征在于，提取步骤包含提取幅度频谱信息的矢量。

4.如权利要求1所述的方法，其特征在于，所述帧是话音帧。

5.如权利要求1所述的方法，其特征在于，所述帧是线性预测残留帧。

6.如权利要求1所述的方法，其特征在于，归一化步骤包含用2个子频带对矢量能量值进行量化，以产生2个增益因数。

7.如权利要求1所述的方法，其特征在于，在对数域中进行差分矢量量化步骤。

8.如权利要求1所述的方法，其特征在于，差分矢量量化步骤还包含以下步骤：量化期间使泄漏最小，以免信道差错无限传播。

9.如权利要求1所述的方法，其特征在于，多个非均匀频带包含22个非均匀频带。

10.如权利要求1所述的方法，其特征在于，非均匀降频取样步骤包含以下步骤：使多个谐波与多个非均匀频带关联，并计算每一频带中谐波的平均幅值；其中定维矢量的单元是各频带的平均谐波幅值。

11.如权利要求1所述的方法，其特征在于，差分量化步骤包含谐波复制。

12.如权利要求1所述的方法，其特征在于，差分量化步骤还包含以下步骤：量化期间使泄漏最小，以免信道差错无限传播。

13.如权利要求1所述的方法，其特征在于，差分量化步骤还包含以下步骤：用频谱加权技术计算差错判定基准。

14.如权利要求1所述的方法，其特征在于，还包含以下步骤：对多个增益因数解码，以产生多个解码的增益因数，并且对差分量化步骤所得结果的量化值进行解码，以产生解码的归一化频谱信息；对解码的归一化频谱信息进行升频取样，并且用多个解码的增益素数对升频取样的解码的归一化频谱信息进行去归一化。

15.如权利要求1所述的方法，其特征在于，话音编码设备驻留在无线通信系统的用户单元。

16.一种话音编码设备，其特征在于包含以下步骤：

从帧提取频谱信息的矢量的装置，所述矢量具有一矢量能量值；

将矢量能量值归一化，以产生多个增益因数的装置；

对多个增益矢量进行差分矢量量化的装置；

对多个归一化增益因数进行非均匀降频取样，以产生具有分别与多个非均匀频带关联的多个单元的定维矢量的装置；

将定维矢量分解成多个子矢量的装置；

对多个子矢量进行差分量化的装置。

17.如权利要求16所述的话音编码设备，其特征在于，还包含形成频带加权矢量以跟踪对应于空频带的单元的位置的装置。

18.如权利要求16所述的话音编码设备，其特征在于，提取装置包含提取幅度频谱信息矢量的装置。

19.如权利要求16所述的话音编码设备，其特征在于，所述帧量话音帧。

20.如权利要求16所述的话音编码设备，其特征在于，所述帧是线性预测残留帧。

21.如权利要求16所述的话音编码设备，其特征在于，归一化装置包含用2个子频带对矢量能量值进行归一化以产生2个增益因数的装置。

22.如权利要求16所述的话音编码设备，其特征在于，差分矢量量化装置包含在对数域中进行差分矢量量化的装置。

23.如权利要求16所述的话音编码设备，其特征在于，差分矢量量量化还包含量化期间使泄漏最小以免信道差错无限传播的装置。

24.如权利要求16所述的话音编码设备，其特征在于，所述多个非均匀频带包含22个非均匀频带。

25.如权利要求16所述的话音编码设备，其特征在于，非均匀降频取样装置包含使多个谐波与多个非均匀频带关联的装置，以及计算每一频带中谐波平均幅值的装置；其中定维矢量的单元是各频带的平均谐频幅值。

26.如权利要求16所述的话音编码设备，其特征在于，差分量化装置包含进行谐波复制的装置。

27.如权利要求16所述的话音编码设备，其特征在于，差分量化装置还包含量化期间使泄漏最小以免信道差错无线传播的装置。

28.如权利要求16所述的话音编码设备，其特征在于，差分量化装置还包含用频谱加权技术计算差错判定基准的装置。

29.如权利要求16所述的话音编码设备，其特征在于，还包含对多个增益因数解码以产生多个解码的增益因数并且对差分量化装置所产生量化值解码以产生解码的归一化频谱信息的装置、对解码的归一化的频谱信息进行升频取样的装置，以及用多个解码的增益因数对升频取样的解码归一化频谱信息进行去归一化的装置。

30.如权利要求16所述的话音编码设备，其特征在于，话音编码设备驻留在无线通信系统的用户单元。