CN1118914A

CN1118914A - 激励参数判定方法

Info

Publication number: CN1118914A
Application number: CN95103849A
Authority: CN
Inventors: 丹尼尔·W·格里芬; 耶·S·利姆
Original assignee: Digital Voice Systems Inc
Current assignee: Digital Voice Systems Inc
Priority date: 1994-04-04
Filing date: 1995-04-03
Publication date: 1996-03-20
Anticipated expiration: 2015-04-03
Also published as: CA2144823C; NO308635B1; NO951287D0; EP0676744B1; US5715365A; DE69518454D1; NO951287L; KR100367202B1; KR950034055A; CN1113333C; DK0676744T3; JPH0844394A; DE69518454T2; EP0676744A1; CA2144823A1; JP4100721B2

Abstract

本发明是一种通过分析数字化语言信号以确定其激励参数的语音编码的方法，该方法包括将该数字化语言信号分成至少两个频带，对至少一个频带执行非线性运算，以产生一修正的频带，和对该修正的频带是发声或是不发声进行判决。该方法应用在语言编码中。

Description

激励参数判定方法

本发明涉及语言分析与合成中一种改进的估计数字化语言信号激励参数的方法，特别涉及对其估计准确度的改进。

语言分析与合成被广泛地使用在诸如电信和话音识别等各种应用中。声码器，是一个典型的语言分析/合成系统，根据系统在短时间间隔期间对激励的响应建立语言模型。声码器系统的例子包括线性预测声码器，同态声码器，信道声码器，正弦变换编码器(“STC”)，多频带激励(“MBE”)声码器，和改进的多频带激励(“IMBE”)声码器。

典型地，声码器根据激励参数和系统参数来合成语言。例如，利用汉明窗对输入信号进行分段。然后，对每个分段确定其系统参数和激励参数。系统参数包括频谱包络或系统的脉冲响应。激励参数包括发声/不发声判定，用来表示输入信号是否具有音调和基频(或音调)。在把语言分成多个频带的声码器中，例如IBME(TM)声码器，激励参数还可以包括用于每个频带的发声/不发声判定，而不是一个单一的发声/不发声判定。准确的激励参数是高质量语言合成的基础。

激励参数也可以应用在其它方面，例如可使用在无需语言合成的语言识别中。同样地，激励参数的准确度直接影响到这类系统的性能。

本发明的目的在于对语言信号提供一种非线性运算，以强调该语言信号的基频，从而改进判定基频和其它激励参数的准确度。在判定激励参数的典型方法中，模拟语言信号S(t)被取样以生成语言信号S(n)。然后该语言信号与一个窗函数W(n)相乘生成一个加窗信号S_w(n)，通常它被称作一个语言段或一个语言帧。然后对加窗信号S_w(n)执行付里叶变换以生成频谱S_w(ω)，根据该频谱对激励参数进行制定。

当语言信号S(n)是周期性的具有基频ω₀或音调周期n₀(这里n₀＝2π/ω₀)时，语言信号S(n)的频谱应是在ω₀和在其谐波(ω₀的整数倍)处具有能量的线状谱。正如所料，S_w(ω)具有以ω₀和其谐波为中心的频峰。然而，由于开窗运算，该谱峰包括一定宽度，该宽度取决于窗W(n)的长度和形状，并随着窗W(n)的长度的增长而趋于减小。这种窗致差错降低了激励参数的准确度。于是，为了减小谱峰的宽度，和由此增加该激励参数的准确度，窗W(n)的长度应该做的要可能长些。

窗W(n)的最大有用长度受到限制。语言信号并不是标准信号，而是具有在整个时间变化的多个基频。为了获得有意义的激励参数，一个被分析的语言段必须具有一个基本上不变的基频。这样，窗W(n)的长度必须短到足以确保该基频在该窗口内将不会较大地改变。

除了对窗W(n)的最大长度进行限制外，变化的基频有助于加宽该谱峰。这种加宽效果随着提高频率而增加。例如，如果在该窗期间该基频变化△ω₀，则第m次谐波的频率(具有频率mω₀)变化m△ω₀，以使相应于mω₀的谱峰被展宽超过相应于ω₀的频峰。这种增加的较高次谐波的展宽降低了较高次谐波在基频估计中和在高频段发声/不发声判定的产生中的有效性。

本发明通过采用非线性运算，使对变化基频的较高次谐波增加的影响被降低或消除，使较高次谐波较好地实现基频的估计和对发声/不发声判决的确定。合适的非线性运算从复数(或实数)变换到实数值，并产生作为复数(或实数)值大小的非减函数的输出。这样的运算例如包括绝对值，绝对值平方，绝对值若干次方，或绝对值的对数。

非线性运算趋于在它们的输入信号的基频处产生具有谱峰的输出信号。这是符合实际的，即使当输入信号在该基频没有谱峰时。例如，如果一个仅通过ω₀的第三和第五次谐波之间区域的频率的带通滤波器被用到一个语言信号S(n)上，该带通滤波器的输出X(n)在3ω₀、4ω₀和5ω₀处将具有谱峰。

虽然X(n)在ω₀并不具有谱峰，但|X(n)|²将有这样一个峰值。实信号X(n)，|X(n)|²相等于X²(n)。正如所知，X²(n)的付里叶变换是X(ω)的卷积，X(n)的付里叶变换，用X(ω)表示：

Σ_{n = - \infty}^{\infty} X^{2} (n) e^{- jωn} = \frac{1}{2 π} {&Integral;}_{u = - π}^{π} X (ω - u) X (u) du .

X(ω)与X(ω)的卷积在这样一些频率处具有谱峰，即这些频率相等于使X(ω)具有谱峰的各频率之间的频率差。一个周期信号的谱峰之间的差是基频和它的倍频。于是，在其中X(ω)在3ω₀、4ω₀和5ω₀具有谱峰的例子中，与X(ω)卷积的X(ω)在ω₀(4ω₀-3ω₀，5ω₀-4ω₀)处具有一个谱峰。对于典型的周期信号来说，在基频处的谱峰可能将是最显著的。

以上讨论也适用于复数信号。对于一个复数信号X(n)，|X(n)|²的付里叶变换为：

Σ_{n = - \infty}^{\infty} {| X (n) |}^{2} e^{- jωn} = \frac{1}{2 π} {&Integral;}_{u = - π}^{π} X (ω + u) X^{*} (u) du .

这是X(ω)与X^*(ω)的自相关，并且还具有按nω₀分开的谱峰在nω₀产生峰值的性质。

即使|X(n)|，对于某一实数“a”的|X(n)|^a和log|X(n)|与|X(n)|²不同，但上述对|X(n)|²的讨论在性质上近似地适用。例如，对于|X(n)|＝Y(n)^0.5，这里Y(n)＝|X(n)|²，则Y(n)的泰勒级数展开可表示为：

| X (n) | = Σ_{k = 0}^{\infty} C_{k} y^{k} (n) .

图为相乘是相关的，所以信号Y^k(n)的付里叶变换是Y^k-1(n)的付里叶变换与Y(ω)的卷积。不同于|X(n)|²的非线性运算的性质可以通过观察Y(ω)与其自身的多重卷积的性质从|X(n)|²中推导出。如果Y(ω)在nω₀有峰值，则Y(ω)与其自身的多重卷积在nω₀也具有峰值。

正如所示，非线性运算强调周期信号的基频，并且当该周期信号在较高次谐波处具有很大能量时特别有用。

按照本发明的方法，输入信号的激励参数通过把该输入信号分成至少两个频带信号来产生。之后，在至少一个频带信号上执行非线性运算，以产生至少一个修正的频带信号。最后，对每个修正的频带信号作出关于其是发声或是不发声的判决。典型地，定期作出发声/不发声判决。

为了判决一修正的频带信号是发声或是不发声，对发声的能量(典型地，全部能量的一部分可归因于该修正的频带信号的基频和该被估计基频的任何谐波)和该修正的频带信号的全部能量进行计算。通常0.5ω₀以下的频率不包括在全部能量之内，因为包括这些频率会降低其性能。当修正的频带信号的发声能量超过该修正的频带信号的全部能量的一预定百分比时，则认为该修正的频带信号发声，否则，认为不发声。当该修正的频带信号被认为是发声的时，根据发声能量与全部能量的比率对发声的程度进行估计。该发声能量也可根据该修正的频带信号与其自身的相关，或与另一修正的频带信号的相关来判定。

为了减少计算总量或为了减小参数的数量，在作出发声/不发声判决之前可将一集(set)修正的频带信号转换成典型较小的另一集修正的频带信号。例如，来自第一集的两个修正的频带信号能被组合成在第二集中的一个单一的修正的频带信号。

本发明能够对数字化语言的基频进行估计。这种估计经常包括将一修正的频带信号与至少一另外的频带信号(它可以被修正或未被修正)相组合，和对该合成组合信号的基频进行估计。于是，例如当对至少两个频带信号执行非线性运算以产生至少两个修正的频带信号时，该修正的频带信号能被组合成一个信号，并能产生该信号基频的一个估计。修正的频带信号可通过求和进行组合。在本发明另一种方法中，能对每个修正的频带信号确定其信噪比，并能产生一个加权组合，以使具有高信噪比的修正的频带信号对该信号的影响比具有低信噪比的修正的频带信号要大。

本发明的方法在于使用了非线性运算，以改进基频估计的准确度。对输入信号执行非线性运算，以产生一个修正的信号，根据该修正的信号对基频进行估计。在本发明的方法中，该输入信号被至少分成两个频带信号。接着，对这些频带信号执行非线性运算以产生修正的频带信号。最后，将修正的频带信号组合产生一个组合信号，根据该组合信号对基频进行估计。

通过下面对最佳实施例结合附图的详细说明使本发明的其它特征和优点将变得更明显。

附图简要说明

图1是一个用于判定一个信号的频带是否发声的系统的方框图。

图2～3是基频估计单元的方框图。

图4是图1的系统的一个信道处理单元的方框图。

图5是另一个用于判定一信号的频带是发声或不发声的系统的方框图。

图1～5示出一个用于判定一信号的频带是发声或不发声的系统的结构，图中的各个方框和单元最好用软件实现。

参考图1，在发声/不发声判定系统10中，取样单元12对模拟语言信号S(t)取样，以生成语言信号S(n)。对于典型的语言编码应用，该取样速率范围在6KHz和10KHz之间。

信道处理单元14将语言信号S(n)分成至少两个频带，并对这些频带进行处理以生成第一集被标记为T₀ω......T_Iω的频带信号。如下所述，各信道处理单元14的差别在于每个信道单元14的第一级中使用的一个带通滤波器的参数。在该最佳实施例中，有16个信道处理单元(I＝15)。

一个二次变换单元16对第一集频带信号进行转换以生成第二集频带信号，被标记为U₀(ω)......U_K(ω)。在该优选实施例中，第二集频带信号中具有11个频带信号(K＝10)。于是，二次变换单元16把来自16个信道处理单元14的频带信号变换成11个频带信号。二次变换单元16是这样做的，即把第一集(set)频带信号的低频成分T₀(ω)......T₅(ω)直接变换成第二集频带信号U₀(ω)......U₅(ω)。然后，二次变换单元16把来自第一集的其余数对频带信号组合成第二集中的单一的频带信号。例如，T₆(ω)和T₇(ω)组合生成U₆(ω)。而T₁₄(ω)和T₁₅(ω)组合生成U₁₀(ω)。其它二次变换的方法也可以使用。

接着，发声/不发声判决单元18(它们每个与来自第二集的一个频带信号相关联)判决各频带信号是发声或是不发声，并产生表示这些判决结果的输出信号(V/UV₀......V/UV_k)。每个判决单元18计算其相关联的频带信号的发声能量与该频带信号的全部能量的比率。当该比率超过一预定阀值时，判决单元18认为该频带信号发声。否则，判决单元18认为该频带信号不发声。

各判决单元18按下式计算与其相关联的频带信号的发声能量：

E_{kV} (ω_{o}) = Σ_{n = 1}^{N} \underset{ω_{m} &Element; I_{n}}{Σ} U_{k} (ω_{m})

其中 I_n＝[(n-0.25)ω₀，(n＋0.25)ω₀]，ω₀是基频的一个估计值(按如下描述产生)，N是所考虑的基频ω₀的谐波的数量。各判决单元18按下式计算与其相关联的频带信号的全部能量：

E_{kT} (ω_{o}) = \underset{ω_{m} &GreaterEqual; 0.5 ω_{o}}{Σ} U_{k} (ω_{m}) .

在本发明的方法中，不同于仅判决频带信号是发声或是不发声，判决单元18判决频带信号发声的等级。类似于上述发声/不发声判决，发声的等级是发声能量与全部能量之比率的函数，当该比率接近于1时，该频带信号完全发声；当该比率小于或等于1/2小时，该频带信号完全不发声；而当该比率是在1/2与1之间时，该频带信号发声达到一由该比率所指示的等级。

参考图2，一个基频估计单元20包括组合单元22和估计器24。组合单元22对各信道处理单元14(图1)的T_i(ω)输出求和，以产生X(ω)。在一个可替换的方案中，组合单元22能够对每个信道处理单元14的输出估计信噪比(SNR)和对各个输出加权，以使具有较高SNR的输出比具有较低SNR的输出对X(ω)的贡献大。

然后，估计器24通过选择使X(ω₀)在整个从ω_min到ω_max期间最大的ω₀的值对基频(ω₀)进行估计。因为X(ω)仅在ω的离散取样处有效，所以X(ω₀)接近ω₀的抛物型内插被用来改进估计的准确度。估计器24通过组合靠近X(ω)的带宽内之ω₀的N个谐波的峰值的抛物型估计，进一步改进了基频估计的准确度。一旦基频的一个估计被确定，发声能量E_v(ω₀)按下式计算：

E_{v} (ω_{o}) Σ_{n = 1}^{N} \underset{ω_{m} &Element; I_{n}}{Σ} X (ω_{m})

其中 I_n＝[(n-0.25)ω₀，(n＋0.25)ω₀].随后，计算发声能量E_v(0.5ω₀)将其与Ev(ω₀)比较，以在ω₀与0.5ω₀之间选择作为该基频的最终估计。

参考图3，一个替换的基频估计单元26包括一个非线性运算单元28，一个开窗和快速种里叶变换(FFT)单元30，和一个估计器32。非线性运算单元28对S(n)执行非线性运算，绝对值平方，以强调(emphasize)S(n)的基频，和当估计ω₀时便于发声能量的判决。

开窗和FFT单元30乘以非线性运算单元28的输出，以将其分段并计算该结果乘积的FFT，Xω₀。最后，估计器32(它与估计器24一样地工作)生成基频的一个估计。

参考图4，当语言信号S(n)进入一信道处理单元14时，属于一特定频带的成分S_i(n)由带通滤波器34隔离。带通滤波器34利用了下降取样(downsampling)以减少计算上的要求，并且这样做不会对系统性能有任何显著的影响。带通滤波器34可按有限脉冲响应(FIR)或无限脉冲响应(IIR)滤波器实现，或利用FFT来实现。带通滤波器34利用32点实数输入FFT来实现，以计算一个32点FIR滤波器在17个频率处的输出，和通过每次计算FFT移动输入语言取样完成下降取样。例如，如果第一次FFT使用了取样1至32，则在第二次FFT中通过使用取样11至42可获得下降取样因子为10。

第一非线性运算单元36然后对隔离的频带S_i(n)执行一非线性运算，以强调该隔离的频带S_i(n)的基频。例如，使用了S_i(n)(i大于0)的值，绝对值，|S_i(n)|。对于S₀(n)的实数值，如果S₀(n)大于零，则使用S₀(n)，如果S₀(n)小于或等于零，则使用零。

非线性运算单元36的输出通过一个低通滤波和下降取样单元38，以降低数据速率，从而降低该系统后面各部件计算上的要求。该低通滤波和下降取样单元38使用了对于下降取样因子为2计算每隔一个取样的一个7点FIR滤波器。

开窗和FFT单元40通过一个窗口乘以低通滤波和下降取样单元38的输出，并计算该乘积的一个实数输入FFT，S_i(ω)。

最后，第二非线性运算单元42对S_i(ω)执行一非线性运算，以利于对发声或全部能量的估计和如果使用在基频估计中时以确保各信道处理单元14的输出，T_i(ω)构成性地组合。使用了求绝对值平方是因为它会使T_i(ω)的所有成份都变为实数且为正数。

其它实施例包括进下列的权利要求中。例如，参考图5，一个替换的发声/不发声判决系统44包括一个取样单元12，多个信道处理单元14，一个二次变换单元16，和多个与发声/不发声判决系统10中相应单元同样工作的发声/不发声判决单元18。然而，因为非线性运算最有利地适用于高频带，所以判决系统44仅在与各高频对应的频带使用了信道处理单元14，和在与各低频对应的频带使用了信道转换单元46。不同于对输入信号实施非线性运算的情况，信道转换单元46按照产生频带信号的公知技术处理输入信号。例如，一个信道转换单元46可以包括一个带通滤波器和一个开窗和FFT单元。

在一个可替换的方案中，图4的开窗和FFT单元40和非线性运算单元42能够由一个开窗和自相关单元所取代，然后，根据该自相关计算发声能量和全部能量。

Claims

1、一种分析数字化语言信号以确定该数字化语言信号的激励参数的方法，其特征在于，包括下列步骤：

将所述数字化语言信号分成至少两个频带信号；

对至少一个频带信号执行一非线性运算以产生至少一个修正的频带信号；和

对于至少一个修正的频带信号，判决其是发声或是不发声。

2、根据权利要求1的方法，其特征在于，所述判决步骤以定期的时间间隔执行。

3、根据权利要求1的方法，其特征在于，按照编码语言中的步骤对所述数字化语言信号进行分析。

4、根据权利要求1的方法，其特征在于，进一步包括对所述数字化语言的基频进行估计的步骤。

5、根据权利要求1的方法，其特征在于，进一步包括对至少一个所述修正的频带信号的基频进行估计的步骤。

6、根据权利要求1的方法，其特征在于，进一步包括下列步骤：

把一所述修正的频带信号与至少一个另外的频带信号相组合以产生一组合信号；和

对所述组合信号的基频进行估计。

7、根据权利要求1的方法，其特征在于，执行步骤至少在两个频带信号上执行以产生至少两个修正的频带信号，和所述组合步骤包括组合至少两个修正的频带信号。

8、根据权利要求6的方法，其特征在于，所述组合步骤包括对修正的频带信号和至少一个另外的频带信号求和以产生组合信号。

9、根据权利要求6的方法，其特征在于，进一步包括判决修正的频带信号和至少一个另外的频带信号的信噪比的步骤，和其中所述组合步骤包括对所述修正的频带信号和至少一个另外的频带信号进行加权以产生组合信号，以使具有高信噪比的频带信号比具有低信噪比的频带信号对组合信号的贡献大。

10、根据权利要求6的方法，其特征在于，所述判决步骤包括：

判决所述修正的频带信号的发声能量；

判决所述修正的频带信号的全部能量；

当所述修正的频带信号的发声能量超过其全部能量的一个预定百分比时，认为所述修正的频带信号为发声的；和

当所述修正的频带信号的发声能量等于或小于其全部能量的所述预定百分比时，认为所述修正的频带信号是不发声的。

11、根据权利要求10的方法，其特征在于，所述发声能量被归因于所述修正的频带信号的被估计的基频和所述被估计的基频的任何谐波的总能量的一部分。

12、根据权利要求1的方法，其特征在于，所述判决步骤包括：

判决所述修正的频带信号的发声能量；

判决所述修正的频带信号的全部能量；

当所述修正的频带信号的发声能量等于或小于其全部能量的所述预定的百分比时，认为所述修正的频带信号是不发声的。

13、根据权利要求12的方法，其特征在于，所述修正的频带信号的发声能量是从所述修正的频带信号与其自身的相关或与另一修正的频带信号的相关中被导出。

14、根据权利要求12的方法，其特征在于，当所述修正的频带信号被认为是发声的时，所述判决步骤进一步包括通过把所述修正的频带信号的发声能量与修正频带信号的总能量相比较对所述修正的频带信号的发声程度进行估计。

15、根据权利要求1的方法，其特征在于，所述执行步骤包括对所有频带信号执行一非线性运算，以使由所述执行步骤产生的修正的频带信号的数量等于由所述分开步骤产生的频带信号的数量。

16、根据权利要求1的方法，其特征在于，所述执行步骤包括仅对一部分频带信号执行一非线性运算，以使由所述执行步骤产生的修正的频带信号的数量小于由分开步骤产生的频带信号的数量。

17、根据权利要求16的方法，其特征在于，执行非线性运算的频带信号与未执行非线性运算的频带信号相比较，前者对应于高的频率。

18、根据权利要求17的方法，其特征在于，进一步包括对于未对其执行非线性运算的频带信号，判决所述频带信号是发声或是不发声的步骤。

19、根据权利要求1的方法，其特征在于，所述非线性运算是绝对值。

20、根据权利要求1的方法，其特征在于，所述非线性运算是绝对值平方。

21、根据权利要求1的方法，其特征在于，所述非线性运算是相应于实数的绝对值平方。

22、根据权利要求1的方法，其特征在于，进一步包括下列步骤：

对至少两个频带信号执行非线性运算，以产生第一集修正的频带信号；

把第一集修正的频带信号转换成第二集中至少一个修正的频带信号；

对于第二集中的至少一个修正的频带信号，判决所述修正的频带信号是发声或是不发声。

23、根据权利要求22的方法，其特征在于，所述转换步骤包括组合来自第一集的至少两个修正的频带信号，以生成第二集中的一个单一修正的频带信号。

24、根据权利要求22的方法，其特征在于，进一步包括估计数字化语言的基频的步骤。

25、根据权利要求22的方法，其特征在于，进一步包括下列步骤：

把来自第二集的修正的频带信号的一个修正的频带信号与至少一个另外的频带信号组合，以生成一个组合信号；和

估计所述组合信号的基频。

26、根据权利要求22的方法，其特征在于，所述判决步骤包括：

判决所述修正的频带信号的发声能量；

判决所述修正的频带信号的全部能量；

当所述修正的频带信号的发声能量超过修正频带信号全部能量的一个预定百分比时，认为所述修正的频带信号为发声的，和

当所述修正的频带信号的发声能量等于或小于修正频带信号全部能量的所述预定百分比时，认为所述修正的频带信号是不发声的。

27、根据权利要求26的方法，其特征在于，当所述修正的频带信号被认为是发声的时，所述判决步骤进一步包括通过把所述修正的频带信号的发声能量与修正频带信号总能量相比较对所述修正的频带信号的发声程度进行估计。

28、根据权利要求1的方法，其特征在于，进一步包括对激励参数中的一部分编码的步骤。

29、一种分析数字化语言信号以确定所述数字化语言信号的激励参数的方法，其特征在于，包括下列步骤：

将输入信号分成至少两个频带信号；

对至少一个频带信号执行一非线性运算，以产生第一修正的频带信号；

把所述第一修正的频带信号与至少一个另外的频带信号组合，以生成一个组合的频带信号，和

对所述组合的频带信号的基频进行估计。

30、一种分析数字化语言信号以确定所述数字化语言信号的激励参数的方法，其特征在于，包括下列步骤：

将所述数字化语言信号分成至少两个频带信号；

对至少一个频带信号执行一非线性运算，以产生至少一个修正的频带信号，

对至少一个修正的频带信号的基频进行估计。

31、一种分析数字化语言信号以确定所述数字化语言信号的基频的方法，其特征在于，包括下列步骤：

将所述数字化语言信号分成至少两个频带信号；

对至少两个频带信号执行一非线性运算，以生成至少两个修正的频带信号；

对所述至少两个修正的频带信号组合，以产生一个组合信号；和

对所述组合信号的基频进行估计。

32、一种语言编码系统，其通过分析数字化语言信号以确定其激励参数，其特征在于，包括：

用于将所述数字化语言信号分成至少两个频带信号的装置；

用于对至少一个频带信号执行一非线性运算以产生至少一个修正的频带信号的装置；和

对于至少一修正的频带信号，判决其是发声或是不发声的装置。

33、根据权利要求32的系统，其特征在于，进一步包括：

用于把至少一个所述修正的频带信号与至少一个另外的频带信号组合以生成一个组合信号的装置；和

用于对所述组合信号的基频进行估计的装置。

34、根据权利要求32的系统，其特征在于，执行装置包括仅对所述频带信号中的一部分执行非线性运算的装置，以使由执行装置产生的修正的频带信号的数量小于由分开装置产生的频带信号的数量。

35、根据权利要求34的系统，其特征在于，执行装置对其执行非线性运算的频带信号对应于此执行装置未对其执行非线性运算的频带信号有着高的频率。