CN1339151A

CN1339151A - 产生语音编码器用八分之一速率随机数的方法和装置

Info

Publication number: CN1339151A
Application number: CN00803547A
Authority: CN
Inventors: 张承纯; 沈涛
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2002-03-06
Anticipated expiration: 2020-02-04
Also published as: HK1041740B; HK1041740A1; AU3589200A; DE60023851D1; WO2000046796A1; JP2002536694A; EP1159739A1; DE60023851T2; US20010007974A1; CN1144177C; WO2000046796A9; EP1159739B1; ES2255991T3; ATE309599T1; US6226607B1; KR20010093324A

Abstract

一种语音编码器用八分之一速率随机数产生的方法及装置,包含产生第1随机变量值的随机数产生器。查找表用来存储第2随机变量的值。查找表用第1随机变量值寻址。第2随机变量是第1随机变量的累积分布函数的逆变换。编解码器用第1和第2随机变量的值对输入的无声帧编码,并用第1和第2随机变量的值重新产生无声帧。语音编码器可以是增强的可变速率编码器,且无声帧可以1/8速率编码。随机变量最好是高斯随机变量,具有在零与1之间均匀分布的值。

Description

产生语音编码器用八分之一速率随机数的方法及装置

发明领域

本发明一般涉及语音处理领域，具体涉及产生语音编码器用八分之一速率随机数的方法及装置。

发明背景

利用数字技术传输语音已经相当普遍，特别是在长距离和数字无线电话应用中。这相继在确定能在信道上发送最少信息量同时又能保持重构语音的收听质量方面发挥了作用。如果通过简单采样和数字化发送语音，则要求数量级为每秒64K比特(kbps)的数据速率来获得传统模拟电话的语音质量。然而，通过使用语音分析，随后的适当编码、发送，和在接收机端的再合成，就能有效地减小数据速率。

采用通过抽取参数压缩语音这类技术的装置称为语音编码器，这些参数与人类发生语音的模型相关。语音编码器将引入的语音信号分成时间块，或分析帧。语音编码器一般包含编码器和解码器，或编解码器。该编码器分析引入的语音帧以抽取某些相关的参数，然后将参数量化成二进制表示，即，量化成二进制位组或二进制数据包。数据包在通信信道上发送到接收机和解码器。解码器处理数据包解除它们的量化，产生参数，然后使用这些非量化参数将这些语音帧重新合成。

语音编码器的功能是通过去除语音中固有的自然冗余将数字化的语音信号压缩成低比特率信号。数字压缩的实现则通过用参数组表示输入语音帧并采用量化以二进制(比特)表示这些参数。如果输入语音帧具有位数为N_i而由该语音编码器产生的数据包具有位数为N_o，则由语音编码器获得的压缩因数为C_t＝N_i/N_o。要解决的是保持解码后语音的高语音质量，同时获得目标压缩因数。语音编码器的性能取决于(1)怎样好地完成语音模型处理或上述分析和合成组合处理的完善程度；和(2)在目标位速率为每帧N_o位时完成参数量化处理的完善程度。因此，语音模型的目的是用每帧规模不大的参数组获取语音信号的本质，或目标话音质量。

公知的语音编码器是L.B.Rabiner&R.W.Schafer著“语音信号的数字处理”(396-453，1978年)中描述的码激励线性预测(CELP)编码器。这里按参考文件充分引用。在CELP编码器中，通过线性预测(LP)分析去除语音信号中的短期相关或冗余，该线性预测找到短期共振峰滤波器的的系数。将短期预测滤波器应用于输入的语音信号，产生LP残余信号，再用长期预测滤波器参数和其后的随机代码薄加以模型化和量化。于是，CELP编码将编码时域语音波形的任务分成编码LP短期滤波器系数和编码LP残余的各个任务。在U.S.专利No.5,414,796(已转让给本发明的受让人并按参考文件在在这里充分引用)中描述了一种典型的可变速率CELP编码器。

在传统的语音编码器中，无语音或无声常常以八分之一速率(相对于可变速率语音编码器中的全速率、半速率、或四分之一速率而言)得到编码，而不是简单地不编码。为了以八分之一速率对无声进行编码，要测量、量化当前语音帧的能量，并发送到解码器。之后在解码器侧再现相等能量的适当的噪音(对听者而言)。该噪音通常模型化为白高斯噪声。有几种方法可在数字信号处理器(DSP)中产生高斯随机噪声，包括如使用中心极限定理以及两个统计独立、等分布的随机变量，具有均等概率分布。但是，必须执行强有力的计算，包括诸如计算随机变量的均方根、正弦和余弦变换、对数函数等的非线性、数学运算或变换。这些运算要求高存储容量和极强的计算能力。例如，计算函数的正弦和余弦要求计算函数的泰勒级数展开。因此，需要一种编码和解码的方法，来减少存储和计算要求。

本发明概述

本发明的目的在于提供一种能减少存储和计算要求的编码和解码方法。因此，本发明的一个方面是一种优良的语音编码器，它包含：配置成产生第1随机变量的值的随机数产生器；与所述随机数产生器耦连的存储媒体，该存储媒体包含第2随机变量的值，该第2随机变量包含对第1随机变量的累积分布函数的逆变换；与所述随机数产生器耦连的编解码器，该编解码器配置成对具有第1和第2随机变量的值的输入无声帧进行编码并重新产生具有第1和第2随机变量的值的无声帧。

本发明的另一方面是一种无声帧编码方法，有利的是它包含的步骤为：产生第1随机变量的值；存储第2随机变量的值，该第2随机变量包含对第1随机变量的累积分布函数的逆变换；对具有第1和第2随机变量的值的无声帧进行编码；重新产生具有第1和第2随机变量的值的无声帧。

本发明的又一方面是一种语音编码器，有利的是它包含：产生第1随机变量的值的装置；存储第2随机变量的值的装置，该第2随机变量包含对第1随机变量的累积分布函数的逆变换；对具有第1和第2随机变量的值的无声帧进行编码的装置；重新产生具有第1和第2随机变量的值的无声帧的装置。

附图概述

图1为各端终接语音编码器的通信信道的框图。

图2为编码器的框图。

图3为解码器的框图。

图4为说明语音编码判决过程的流程图。

图5为随机变量的概率密度函数与该随机变量的曲线图。

图6为随机变量的累积分布函数与该随机变量的曲线图。

图7为查找表的高斯数据表。

较佳实施例的详细说明

图1中，第1编码器10接收数字化的语音取样s(n)并对其编码后，在传输媒体12或通信信道12上发送到第1解码器14。解码器14对编码的语音取样进行解码并合成为输出的语音信号S_SYNTH(n)。为了反向发送，第2编码器16编码数字化的语音取样s(n)，并在通信信道18上发送。第2解码器20接收并解码经编码的语音取样，产生合成的输出语音信号S_SYNTH(n)。

语音取样s(n)代表按照本领域中已知方法中任一方法进行数字化和量化后的语音信号，这些方法包括例如压扩μ律或A律的脉冲编码调制(PCM)。如本领域中所知，语音取样s(n)组织成输入数据的帧，每帧包含预定数的数字化语音取样s(n)。在典型实施例中，取样速率为8kHz，每20ms帧包含160个取样。在下面描述的实施例中，数据传输速率的优点是帧间可从13.2kbps(全速率)变化到6.2kbps(半速率)、2.6kbps(四分之一速率)、1kbps(八分之一速率)。改变数据传输速率有好处，因为可选择较低位速率用于所含语音信息相对少的帧。本领域中的普通技术人员知道也可使用其它取样速率、帧的大小和数据传输速率。

第1编码器10和第2解码器20一起组成第1语音编码器，或语音编解码器。同样第2编码器16和第1解码器14一起组成第2语音编码器。本领域中的普通技术人员知道，语音编码器可用数字信号处理器(DSP)、专用集成电路(ASIC)、分立门逻辑、固件，或任何传统可编程软件模块和微处理器构成。该软件模块可以驻留在RAM存储器、快速擦写存储器、寄存器，或本领域中已知的任何其它形式可擦写存储媒体。另外，任何传统处理器、控制器或状态机都可用来替代微处理器。美国专利No.5,727,123和题为“声码器的ASIC”的美国专利申请No.08/197,417(申请日为1994年2月16日)中描述了专门为语音编码设计的典型ASIC，这两个专利和专利申请已转让给本发明人的受让人，这里按参考文件充分引用。

在图2中，可用于语音编码器的编码器100包含模式判决块102、音调估算块104、LP分析块106、LP分析滤波器108、LP量化块110和残余量化块112。输入语音帧s(n)提供给模判决块102、音调估算块104、LP分析块106和LP分析滤波器108。模型决策块102根据各输入语音帧s(n)的周期产生模指数(I_M)和模M。在题为“实现减小速率可变速率语音编码的方法和装置”的美国专利申请No.08/815,354中描述了按照周期分类语音帧的各种方法，该申请已转让给本发明的受让人，按参考文件在本申请中充分引用。这些方法也编入到电信工业协会暂定标准TIA/EIA IS-127和TIA/EIA IS-733中。

音调估算块104产生基于各输入语音帧s(n)的音调指数I_P和滞后值P₀。LP分析块106对各输入语音帧s(n)执行线性预测分析，产生LP参数a。LP参数a提供给LP量化块110。该LP量化块110还接收模M。LP量化块110产生LP指数I_LP和量化后的LP参数_。除了接收输入语音帧s(n)外，LP分析滤波器108还接收量化后的LP参数_。LP分析滤波器108产生LP残余信号R[n]，该信号R[n]代表输入语音帧s(n)与根据量化后线性预测参数_重构的语音之间的误差。LP残余R[n]、模M和量化后的LP参数_提供给残余量化块112。残余量化块112根据这些值产生残余指数I_R和量化后残余信号

图3中，可用于语音编码器的解码器200包含LP参数解码块202、残余解码块204、模解码块206和LP合成滤波器208。模解码块206接收并解码模指数I_M，由此产生模M。LP参数解码块202接收模M和LP指数I_LP。 LP参数解码块202解码接收到的值，产生量化后的LP参数_。残余解码模块204接收残余指数I_R，音调指数I_P和模指数I_M。残余解码块204解码接收到的值，产生量化后的残余信号

。量化后的残余信号

和量化后的LP参数_提供给LP合成滤波器208，由此合成解码后的输出语音信号

图2中编码器100和图3中解码器200的各种块的运行和构成是已知的已有技术，在前面提到的美国专利No.5,414,796和L.B.Rabiner及R.W.Schafer著“语音信号的数字处理”(1978年，第396-453页)中有描述。

如图4流程图中所示，一实施例的语音编码器为发送执行一组处理语音采样的步骤。语音编码器(未图示)可以是每秒8仟比特(kbps)码激励线性预测(CELP)编码器或每秒13仟比特CELP编码器，例如，前面美国专利No.5,414,796中的描述的可变速率声码器。在另一变化例中，语音编码器可以是码分多址(CDMA)增强的速率可变的编码器(EVRC)。

在步骤300，语音编码器接收连续帧形式的语音信号的数字采样。一旦接收到给定帧，语音编码器进行到步骤302。在步骤302，语音编码器检测帧的能量。该能量测定帧的语音活性。语音检测就是将数字化语音采样的幅值的平方相加并将相加后的合成能量与阈值比较。在一实施例中，该阈值与变化的背景噪声电平相适应。在前面提到的美国专利No.5,414,796中描述了一种典型的阈值可变语音活性检测器。某些清音可能是极低能量的采样，它们可能作为背景噪声误编码。为了防止出现这种现象，如前面所述美国专利No.5,414,796中所述，可利用低能量采样的频谱倾斜(spectral tilt)来区分无声语音和背景噪声。

检测帧的能量后，语音编码器进到步骤304，在步骤304，语音编码器确定检测到的帧能量是否足以将帧按照包含语音信息加以分类。如果检测到的帧能量低于预定的阈值电平，则语音编码器进到步骤306。在步骤306，语音编码器将帧作为背景噪声(即，非语音，或无声)加以编码。在一实施例中，背景噪声帧以1/8速率加以编码。如果在步骤304，检测到的帧能量等于或超过预定的阈值电平，则帧作为语音加以分类，语音编码器进到步骤308。

在步骤308，语音编码器确定帧是否为清音，即，语音编码器检查帧的周期。确定周期的各种已知方法包括如利用零交叉点和利用归一化自动相关函数(NACF)。具体而言，利用零交叉点和NACF检测周期在申请号为No.08/815,354的美国专利申请中有说明，该申请的题名为“速率降低的可变速率语音编码方法和装置”，已转让给本发明的受让人，按参考文件在此充分引用。另外，上述用来区分有声语音和无声语音的方法选入了电信工业协会的工业暂定标准TIA/EIA IS-127和TIA/EIA IS-733。如果在步骤308检测到帧是清音，则语音编码器进入到步骤310。在步骤310，语音编码器将帧作为清音加以编码。在一实施例中，清音帧以1/4速率，或2.6kbps进行编码。如果在步骤308未检测到清音，则语音编码器进入到步骤312。

在步骤312，语音编码器使用本领域中已知的周期检测方法确定帧是否为过渡语音，如在前面提到的美国专利申请No.08/815,354中有说明。如果该帧检测为过渡语音，则语音编码器进到步骤314。在步骤314，帧作为过渡语音(即，从清音过渡到浊音)加以编码。在一实施例中，过渡语音帧以全速率，或13.2kbps加以编码。

如果在步骤312语音编码器检测到帧为非过渡帧，则语音编码器进到步骤316。在步骤316，语音编码器316将帧作为浊音加以编码。在一实施例中，浊音帧可以全速率或13.2kbps加以编码。

在一实施例中，语音编码器在步骤306中使用查找表(LUT)(未图示)以1/8速率对无声帧进行编码。一具体实施例的LUT的典型数据以表格形式示于图7中，LUT的优点是可用ROM存储器实施，但也可用任何传统形式的非易失性存储器构成存储媒体来代替。有利的是产生具有均值为零且方差为1的高斯随机变量，用于对无声帧编码。在一具体实施例中，语音编码器构成部分数字信号处理器。语音编码器使用固件指令产生随机变量并访问LUT。在一些变化实施例中，RAM存储器中包含的软件块能用来产生随机变量和访问LUT。另外，随机变量还能用如寄存器和FIFO等分立硬件构件来产生。

如图5所示，高斯随机变量X的概率密度函数(pdf)f_x(X)是以均值m为中心的钟形曲线，具有标准偏差σ和方差σ²。高斯pdff_x(X)满足下面等式：

fx (x) = \frac{1}{\sqrt{{2 nσ}^{2}}} e^{- \frac{{(x - m)}^{2}}{{2 σ}^{2}}}

累积分布函数(cdf)F_x(X)定义为随机变量X在给定时间上小于或等于特定值X的概率。因此，

F_{x} (x) = P (X \leq X) = {&Integral;}_{-}^{x} \frac{1}{\sqrt{{2 nσ}^{2}}} e^{- s^{2} / 2 σ} ds

如图6所示，当随机变量x趋于无穷时cdfF_x(x)接近1，且当x趋于负无穷时接近零。第2随机变量γ等于F_x(X)，是一种在零与1之间均匀分布的随机变量，与X的分布无关，假设的X是一种具有零均值且方差为1的高斯随机变量。取γ的逆变换，产生X＝F^-1(γ)。

在传统的语音编码器中，从一对统计独立的随机变量W和Z按下式计算一对统计独立的高斯函数U和V，每个具有零均值且方差为1变化：

U = \sqrt{- 21 nW} \cos 2 nZ

v = \sqrt{- 21 nW} \sin 2 nZ

随机变量W和Z是统计独立的，具有相同分布，并在零和1之间均匀分布。但是，上面的计算需要正弦和余弦计算(需要泰勒级数展开的计算)对数和均方根计算。这些计算必须要有相当大的处理能力和存储要求。例如，这种传统的语音编码器在TIA/EIA暂定标准IS-127“增强的可变速率语音编解码器，用于宽带扩展频谱数字系统的语音业务选择3”中有定义。该定义的编解码器在1/8速率编码和解码的平台中消耗相当大量的计算能力。

在上面描述的实施例中，LUT用来免除需执行上述计算的需要。因为γ＝F_x(X)，故逆变换为X＝F^-1(γ)。如上所述，X可为任何分布。如图7所示，这种LUT有利的是以均值为零和方差为1的高斯随机变量的cdf为基础。在特定的实施例中，由于γ在零与1之间均匀分布，故γ可量化为零与1之间的256个等级(大小)。在零与1之间发生的随机数产生γ值。相应的高斯随机量X，预先按照逆变换等式计算并存储在LUT中。该LUT用γ寻址，并用来将量化后的γ值映射到X值。

在一实施例中，在零与1之间将γ量化成256个等级使用LUT，该表规模减小一半。如本领域中技术人员所知，由于cdf(即绕 F_x(X))的反对称F_x(X)＝0.5，因此LUT规模减小一半是可能的。换言之，F_x(m+x)＝0.5-F_x(m-x)，其中，m为F_x(X)的平均值，所以F^-1(y+0.5)＝-F^-1(-y+0.5)。在另一实施例中，LUT规模不减小一半，但代替增加了分辨率(即，减小了量化差错)。

虽然已经描述了语音编码用八分之一速率随机数产生的方法及装置。但是，本领域中技术人员应当知道，与这里揭示实施例相关描述的各种图示逻辑块和算法步骤可用数字信号处理器(DSP)、专用集成电路(ASIC)、分立门或晶体管逻辑、诸如寄存器和FIFO的分立硬件构件、执行一组固件指令的处理器、或任何传统的可编程的软件块和处理器来构成或执行。处理器可以很方便地取微处理器，但作为变化，该处理器可以是任何传统的处理器、控制器、微控制器或状态机。软件块可以驻留在RAM存储器、快速擦写存储器、寄存器或本领域中已知的任何其它形式的可读存储媒体中。本领域中技术人员还应当理解，数据、指令、命令、信息、信号、位、代码和时隙，在上面整个描述可能涉及，可很方便地用电压、电流、电磁波、磁场或粒子、光场或粒子、或其任何组合加以表示。

对本发明的较佳实施例已作了说明，但对本领域中普通技术人员显而易见，在不脱离本发明实质和范围可对这里给出的实施例作各种变化，因此，除了所述权利要求书外，本发明将不受限制。

Claims

1.一种语音编码器，其特征在于，包含：

产生第1随机变量值的随机数产生器；

耦连所述随机数产生器的存储媒体，该存储媒体包含第2随机变量值，该第2随机变量包含第1随机变量的累积分布函数的逆变换；

耦连所述随机数产生器的编解码器，该编解码器用第1和第2随机变量的值对输入无声帧编码并用第1和第2随机变量重新产生该无声帧。

2.如权利要求1所述的语音编码器，其特征在于，其中，所述编码器以1kbps速率对输入无声帧编码。

3.如权利要求1所述的语音编码器，其特征在于，其中，语音编码器是一种增强的可变速率编码器。

4.如权利要求1所述的语音编码器，其特征在于，其中，第1和第2随机变量相互统计独立并包含具有在零和1之间均匀分布的值的第1和第2高斯随机变量。

5.如权利要求1所述的语音编码器，其特征在于，其中，存储媒体包含由第1随机变量值寻址的查找表。

6.一种编码无声帧的方法，其特征在于，包含下列步骤：

产生第1随机变量值；

存储第2随机变量值，该第2随机变量包含第1随机变量的累积分布函数的逆变换；

用第1和第2随机变量的值对输入无声帧编码，并且

用第1和第2随机变量重新产生该无声帧。

7.如权利要求6所述的方法，其特征在于，其中，所述编码步骤以1kbps的速率执行。

8.如权利要求6所述的方法，其特征在于，其中，第1和第2随机变量相互统计独立并包含具有在零和1之间均匀分布的值的第1和第2高斯随机变量。

9.如权利要求6所述的方法，其特征在于，其中，所述存储步骤包含将第2随机变量存储到由第1随机变量值寻址的查找表中。

10.一种语音编码器，其特征在于，包含：

产生第1随机变量值的装置；

存储第2随机变量值的装置，该第2随机变量包含第1随机变量的累积分布函数的逆变换；

用第1和第2随机变量的值对输入无声帧编码的装置，和

用第1和第2随机变量重新产生该无声帧的装置。

11.如权利要求10所述的语音编码器，其特征在于，其中，所述编码装置以1kbps速率对输入无声帧编码。

12.如权利要求10所述的语音编码器，其特征在于，其中，语音编码器是一种增强的可变速率编码器。

13.如权利要求10所述的语音编码器，其特征在于，其中，第1和第2随机变量相互统计独立并包含具有在零和1之间均匀分布的值的第1和第2高斯随机变量。

14.如权利要求10所述的语音编码器，其特征在于，其中，存储媒体包含由第1随机变量值寻址的查找表。