CN101067929A

CN101067929A - 使用共振峰增强提取话音共振峰轨迹的方法

Info

Publication number: CN101067929A
Application number: CNA2007100234790A
Authority: CN
Inventors: 王宏; 潘金贵
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2007-06-05
Filing date: 2007-06-05
Publication date: 2007-11-07
Anticipated expiration: 2027-06-05
Also published as: CN101067929B

Abstract

使用共振峰增强提取话音共振峰轨迹的方法，处理过程是：(1)语音信号输入、(2)预加重、(3)帧移、(4)判断信号结束？是则进入(15)取出共振峰序列；否则进行(5)分帧加窗；(6)计算帧能量；(7)计算帧过零Z并进行判断；(8)利用帧能量门限和过零率门限判断帧的类别，Z＞Z_Th；E＜E_Th是否成立；是则进入(9)，否则进入(3)；(9)标记为清辅音并进入帧移输入端；(10)设定共振峰增强系数；设定线性预测阶数；(11)获得共振峰增强后的线性预测系数；(12)获得共振峰的增强谱；(13)搜索谱的极大值；(14)记录该帧的共振峰频率；(15)取出共振峰序列并结束；Z_Th帧过零的阈值，E_Th定义为帧能量阈值。

Description

使用共振峰增强提取话音共振峰轨迹的方法

技术领域

本发明涉及一种语音信号共振峰轨迹的提取方法，尤其涉及一种能够同时准确提取第一、第二、第三、第四和第五共振峰轨迹的简便方法。

背景技术

共振峰是表征语音信号特征的基本参数之一，它在语音信号合成、语音识别和语音编码等方面起着重要作用。共振峰可以等效为声道系统函数的复极点对，由于人的声道平均长度约为17cm，而语音信号的能量主要集中在0～5kHz，因此语音通常包含4到5个稳定的幅度较强的共振峰。

目前，线性预测分析(LPC)法仍然是计算速度比较快而又较为有效的共振峰频率估计方法之一。声道的系统函数可以由一组线性预测系数(LPC)唯一确定，因此通过LPC分析能估计出声道调制的效果，即获得共振峰参数。具体来说，LPC分析共振峰频率有两种方式，一种是通过求解逆滤波器A(z)的分母多项式的复根来得到共振峰。但是，高阶多项式的根无统一表达式，只能用近似法(例如牛顿法、林士鄂-赵访熊法等)求解，因而该方法的运算量较大，且求根的递归过程有可能发散，所以已不被广泛使用；另一种是峰值检测法，即利用LPC系数求出声道系统函数的LPC谱，然后通过搜索LPC谱中的峰值位置来得到共振峰频率。由于共振峰可出现在任何频率上，所以现有技术已尝试在确认最有可能的共振峰之前，限制查找空间。在现有技术的其它共振峰轨迹提取系统中，也已尝试通过将语音帧的频谱内容与一组已由专家识别出其共振峰的频谱模板相比较来减少查找空间。虽然减少查找空间的系统运行得很高效，但是它们易于发生错误，因为在减少查找空间的同时它们也会把真正的共振峰频率排除在外。

LPC分析在大多数情况下能成功提取语音的共振峰参数，但是在某些情况下会发生下列现象，从而造成共振峰频率的误判或漏判。(1)假峰干扰：语音信号的LPC谱峰一般是由共振峰引起的，但有时也会出现假峰。例如，为近视声门、唇辐射和鼻腔的谱效应，通常会在LPC模型中附加2～4个极点，这就有可能在LPC频谱上造成假峰。这个假峰有时会被当作共振峰，从而引起各阶共振峰的误判。虽然共振峰的带宽比较窄，一般小于300Hz，可以设置门限来排除假峰，但由于LPC算法对共振峰带宽的估计并不精确，所以效果不甚理想。(2)共振峰丢失：有些语音信号的共振峰强度较弱，带宽较大；或者由于鼻腔的影响，共振峰的强度被削弱，这种情况经常发生在第二共振峰上。这时从频谱上看不到明显的峰，即使通过求根法求出相应的极点，也会因其Q值过小而被丢弃。(3)共振峰合并：有时侯两个共振峰靠得很近，如果它们的强度相近而带宽又较大，就会合并成一个峰；如果其中一个强度较强而另一个较弱的话，那么较弱的一个就会被较强的一个所掩盖，或发生“骑峰”现象。这在通过寻找频谱上的极值来提取共振峰时将引起误判。尽管可以利用FFT(快速傅立叶变换)谱辅助完成共振峰的提取和判决，但还是难以在所需频率范围内精确地提取共振峰。

微软公司申请了中国专利“使用残差模型用于共振峰追踪的方法和装置”，其申请(专利)号为：200410034242.9，申请日：2004.04.01；公开(公告)号：CN1534596；公开(公告)日：2004.10.06。该发明公开了一种共振峰追踪的方法：一种追踪共振峰的方法定义包含待查找的共振峰组的一个共振峰查找空间。通过使用码本查找整个共振峰查找空间来确认说话语音中第一帧的共振峰，而对余下的各帧使用码本和相邻帧间的连续性制约来查找同样的空间。在一个实施例中，通过映射共振峰组到特征向量以及应用该特征向量到一模型来确认共振峰。也可通过应用动态规划，查找最优地满足该模型所要求的连续性制约的最佳序列来确认共振峰。

LG电子株式会社了中国专利“共振峰析取方法”，其申请(专利)号为：200410083512.5；申请日：2004.10.08；公开(公告)号：CN1606062；公开(公告)日：2005.04.13。该发明公开了一种共振峰析取方法：在用较少计算复杂性、能够精确地按话音的谐振频率获得共振峰的共振峰析取法中，所述方法包括通过谱峰值采集法搜索最大值，判断符合获得的最大点处的零点的共振峰数目是否为两个，并且当共振峰数目判断为两个时，通过根精加工分析相关根。通过应用柯西积分公式判断共振峰的数目，其中不重复应用柯西积分公式，而仅在z域内的最大值的周围部分中应用。

三星电子株式会社申请了中国专利“使用共振峰增强对话的方法和装置”，其申请(专利)号为：200410091112.9；申请日：2004.11.18；公开(公告)号：CN1619646；公开(公告)日：2005.05.25。该发明公开了一种共振峰增强的方法：一种提升对话区域的共振峰而不改变声音区域的对话增强方法和装置，包括：基于来自输入信号的线性预测编码(LPC)来计算线谱对(LSP)系数；基于计算出的LSP系数确定输入信号中是否存在语音区域；和根据是否存在语音区域来从LSP系数中提取共振峰，并提升共振峰。

上面提及的获取共振峰轨迹的传统方法，可靠性差、计算复杂。

发明内容

本发明目的是：克服上述不足和问题，提出一种通过建立共振峰增强的语音声管模型，有效对各阶共振峰的幅度进行增强，从而提高检测共振峰频率的准确性和可靠性。本发明目的在于：利用传统的LPC分析计算共振峰增强谱，并在谱峰搜索算法中采用二次搜索方法，提高共振峰频率的检测精度和速度。本发明目的在于：通过适当的预加重滤波器处理所接收的话音信号；以及步长移动获得分析帧；计算得到共振峰增强谱；提供一种计算相对不复杂的、可以精确提取语音信号中第一、第二、第三、第四和第五共振峰轨迹的方法。本发明在语音合成、语音编码和语音识别方面获得广泛的应用。

本发明的技术方案是：使用共振峰增强提取话音共振峰轨迹的方法，首先建立话音的共振峰增强的声管模型；设定共振峰增强系数；获得共振峰增强谱；然后直接利用线性预测分析得到共振峰增强谱，用二次搜索算法从共振峰增强谱中提取出分析帧的共振峰频率，同时记录下第一、第二、第三、第四和第五共振峰的频率。最后输出分析帧的共振峰序列就是语音信号的共振峰轨迹；使用提取的共振峰轨迹作为话音识别的特证向量。使用提取的共振峰轨迹作为说话人识别的特证向量；提取的共振峰轨迹用于共振峰声码器。

该发明的共振峰增强的话音声管模型：该模型在提高声道谐振峰Q值的同时，保持声道的谐振频率不变。然后得到该声管的全极点模型，其系统函数V(z)的定义如下。其中，G为系统增益；μ_m(m＝1，2，...，M-1)是声管的能量反射系数。z＝e^2πf，f是频率。

V (z) = \frac{G}{[\begin{matrix} 1 & - μ_{G} \end{matrix}] [\begin{matrix} 1 & {- μ}_{M - 1} \\ {- μ}_{M - 1} z^{- 1} & z^{- 1} \end{matrix}] \cdot \cdot \cdot [\begin{matrix} 1 & - μ_{1} \\ - μ_{-} z^{- 1} & z^{- 1} \end{matrix}] [\begin{matrix} 1 & - μ_{o} \\ - μ_{o} z^{- 1} & z^{- 1} \end{matrix}] [\begin{matrix} 1 \\ 0 \end{matrix}]} - - - (1)

在共振峰增强的全极点模型中设置合适的共振峰增强系数，得到对应的线性预测模型。线性预测模型可用Levinson-Durbin递推算法求解。

(1) E_{N}^{0} = {\hat{φ}}_{N} - - - (0)

(2) k_{i} = [{\hat{φ}}_{N} (i) - Σ_{j = 1}^{i - 1} a_{j}^{i - 1} {\hat{φ}}_{N} (i - j)] / E_{N}^{i - 1}

(3) a_{i}^{1} = k_{i}

(4) a_{j}^{i} = a_{j}^{i - 1} - k_{i} a_{i - j}^{i - 1}, 1 \leq j < i - 1

(5) E_{N}^{i} = (1 - k_{i}^{2}) E_{N}^{i - 1}

(6)if i＜P goto (1)

(7) a_{j} = a_{j}^{P}, 1 \leq j \leq P

其中，

为LPC预测输出的N点序列{x_i}的自相关函数的估计量，其表达式如下：

{\hat{φ}}_{N} (j) = \frac{1}{N} Σ_{i = 1}^{N - j} x_{i} x_{i + j}, j = 0,1, . . ., P - - - (2)

算法开始时，p＝0，

E_{N}^{0} = \hat{φ} (0),

a⁰＝1，逐步递推出{a_i ¹，i＝1}，E_N ¹；{a_i ²，i＝1，2}，E_N ²；直到{a_i ^P，i＝1，2，...，P}，E_N ^P。

本发明利用传统线性预测算法得到共振峰增强谱。这里的Levinson-Durbin递推算法只是求解线性预测模型的一种方法。本发明的共振峰增强算法同样适用于线性预测模型的其它求解方法。

本发明从共振峰增强声管模型获得z域系统函数。设定恰当的共振峰增强系数。根据共振峰轨迹条数设定恰当的线性预测阶数，可使用线性预测方法计算共振峰增强谱。在共振峰增强谱中用二次快速搜索算法提取共振峰。

本发明还包括：接收话音信号；以适当的预加重滤波器处理所接收的话音信号；以适当的步长移动获得分析帧；对分析帧进行时域加窗处理；

本发明在具体实施过程中，用如下数字滤波器对语音信号进行了预加重。

H(z)＝1-0.95z^-1 (3)

本发明在具体实施过程中，采用相互重叠的语音分析帧，帧长在10ms～40ms之间，帧移在5ms～20ms之间。

本发明在具体实施过程中，分析帧的能量E用下式计算。其中，x(n)是分析帧内的语音信号，N是帧的长度，N为正整数。

E = Σ_{n = 1}^{N} x^{2} (n) - - - (4)

本发明在具体实施过程中，分析帧的过零率Z用式(5)计算。其中，x(n)是分析帧内的语音信号，N是帧的长度，N为正整数。sgn[*]是符号函数，如式(6)所示。

z = Σ_{n = 1}^{N - 1} | sgn [x (n)] - sgn [x (n + 1)] | \cdot u [| x (n) - x (n + 1) | - δ] - - - (5)

sgn (x) = \{\begin{matrix} 1, x > 0 \\ 0, x = 0 \\ - 1, x < 0 \end{matrix} - - - (6)

u (x) = \{\begin{matrix} 1, x &GreaterEqual; 0 \\ 0, x < 0 \end{matrix} - - - (7)

其中，δ是过零率门限参数，取值范围在0.01～0.1之间。

本发明在具体实施过程中，利用帧能量门限和过零率门限判断帧的类别。若该帧为清音帧，则标记为清音后转入下一帧处理；若该帧为浊音帧，则计算其共振峰增强谱。并在共振峰增强谱中搜索谱峰极值。为进一步提高算法的实时性，先在共振峰增强谱的一个较大范围内进行第一次搜索，然后在第一次搜索的结果中，用一个较小的步长作最终的峰值检测。记录下检测结果后转入下一帧。当所有分析帧都分析完成后，提取各帧的共振峰序列就得到输入语音信号的第一、第二、第三、第四和第五共振峰的轨迹。

本发明特点是：提出的共振峰增强提取共振峰轨迹的方法不同于现有方法。本方法首先建立共振峰增强的话音声管模型，然后直接利用线性预测分析得到共振峰增强谱，用二次搜索算法从共振峰增强谱中提取出分析帧的共振峰，最后输出分析帧的共振峰序列就是语音信号的共振峰轨迹。

该方法从建立共振峰增强的语音声管模型出发，利用线性预测分析得到语音信号的共振峰增强谱，应用二次搜索算法从共振峰增强谱中快速准确地提取出语音信号的第一、第二、第三、第四和第五共振峰轨迹。

本发明的优点是：

1、通过建立共振峰增强的语音声管模型，能有效对各阶共振峰的幅度进行增强，从而提高检测共振峰频率的准确性和可靠性。

2、算法简便，实时性强。本发明利用传统的LPC分析计算共振峰增强谱，且基本不需要在分析之后附加其它的检错算法或平滑算法，因此其算法简便，此外，在谱峰搜索算法中采用二次搜索方法，进一步提高了共振峰频率的检测速度。

3、本发明中使用的共振峰增强方法在语音合成、语音编码和语音识别方面有极大的应用前景。该方法与以往技术根本不同，与已经申请或者公开的发明无冲突。

所包含的用以提供对本发明的进一步理解、并结合在本说明书中以构成其一部分的附图，显示出本发明的实施例，并且连同说明书一起用以解释本发明的原理。附图中以参考标号表示了本发明的特征、要素及方面代表了一个或多个实施例中相同、相当、或类似的特征、要素或方面。

附图说明

图1是根据本发明的一个实施例的流程图。

图2是语音信号分析帧的LPC谱。

图3是本发明中语音信号分析帧的共振峰增强谱。

图4是实施例中某个待分析的语音信号x。

图5是应用本发明提取的语音信号x的第一、第二、第三、第四和第五共振峰轨迹。

具体实施方式

下面将对本发明进行具体说明，这些都是本发明具体的实际操作范例，而本发明并不仅仅局限于此。

图1示出一个可实现本发明的算法流程图。它只是合适的计算流程的一个实例，而非试图对本发明的使用或功能范围作出限制。本发明可运行于许多其它基于一般或特殊目的计算机系统环境和配置。适合本发明使用的著名计算机系统环境或配置的例子包括，而非限制，个人电脑、服务器、手持式或膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子元件、网络PC、微型计算机、大型主机电脑、电话系统和包括所有上述系统和装置的分布计算环境等等。

本发明在由计算机执行的诸如程序模块等计算机可执行指令的一般上下文环境中被描述。通常，程序模块包括运行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。本发明设计运行在分布计算环境中，由通过通信网络连接的远程处理装置来执行任务。在分布计算环境中，程序模块位于本地和远程的计算机存储介质中，包括记忆存储装置。

图2是语音分析帧的LPC谱。图3是语音分析帧的共振峰增强谱。可见在该帧信号的LPC谱中，第4和第5共振峰之间存在不太明显的“骑峰”，而LPC增强谱的各阶共振峰则很突出，且其位置与LPC谱峰的位置相同。

图3是实施例中某个待分析的语音信号x。用共振峰增强算法得到的语音信号x的第一、第二、第三、第四和第五共振峰轨迹。

本发明的处理过程：开始；(1)语音信号输入、(2)预加重、(3)帧移、(4)判断信号结束？是则进入(15)取出共振峰序列；(5)否则进行分帧加窗；(6)计算帧能量、(7)计算帧过零Z并进行判断，(8)利用帧能量门限和过零率门限判断帧的类别，Z＞Z_Th；E＜E_Th是否成立；是则进入(9)，否则进入(3)；(9)标记为清辅音并进入帧移输入端；(10)设定共振峰增强系数；设定线性预测阶数；(11)获得共振峰增强后的线性预测系数；(12)获得共振峰的增强谱；(13)搜索谱的极大值；(14)记录该帧的共振峰频率；(15)取出共振峰序列并结束。Z_Th是帧过零的阈值，一般取值范围为10～100；E_Th定义为帧能量阈值，一般取值范围为0.2～20。

计算分析帧的帧能量；计算分析帧的帧过零率；根据设定的帧能量门限和帧过零率门限判定分析帧的类型；当分析帧是浊音帧时，指定一个适当的共振峰增强系数；指定一个适当的线性预测分析的阶数；计算得到共振峰增强谱；在共振峰增强谱中用二次搜索法提取多个极大值的位置；用逐帧记录的共振峰频率生成共振峰轨迹。

对接收的话音信号进行频域预加重。话音分析帧的长度范围在10ms～40ms。话音分析帧的帧移范围在5ms～20ms。话音分析帧的窗函数是汉明窗或矩形窗。

计算分析帧的能量和计算分析帧的过零率。根据能量门限和过零率门限判断分析帧的类型。

对于浊音帧，设定恰当的共振峰增强系数。对于浊音帧，设定恰当的线性预测系数。

计算浊音帧的共振峰增强谱。对于浊音帧，用二次搜索算法在共振峰增强谱中提取出与共振峰频率对应的多个极大值的位置。从分析帧的共振峰频率最终生成语音信号的多条共振峰轨迹。

本发明可先在共振峰增强谱的一个较大范围内进行第一次搜索，然后在第一次搜索的结果中，用一个较小的步长作最终的峰值检测。记录下检测结果后转入下一帧。当所有分析帧都分析完成后，提取各帧的共振峰序列就得到输入语音信号的第一、第二、第三、第四和第五共振峰的轨迹。

Claims

1、使用共振峰增强提取话音共振峰轨迹的方法，其特征是首先建立话音的共振峰增强的声管模型；设定共振峰增强系数；获得共振峰增强谱；然后直接利用线性预测分析得到共振峰增强谱，用二次搜索算法从共振峰增强谱中提取出分析帧的共振峰频率，同时记录下第一、第二、第三、第四和第五共振峰的频率；最后输出分析帧的共振峰序列就是语音信号的共振峰轨迹。

2、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是处理过程是：开始；(1)语音信号输入、(2)预加重、(3)帧移、(4)判断信号结束？是则进入(15)取出共振峰序列；否则进行(5)分帧加窗；(6)计算帧能量；(7)计算帧过零Z并进行判断；(8)利用帧能量门限和过零率门限判断帧的类别，Z＞Z_Th； E＜E_Th是否成立；是则进入(9)，否则进入(3)；(9)标记为清辅音并进入帧移输入端；(10)设定共振峰增强系数；设定线性预测阶数；(11)获得共振峰增强后的线性预测系数；(12)获得共振峰的增强谱；(13)搜索谱的极大值；(14)记录该帧的共振峰频率；(15)取出共振峰序列并结束；Z_Th帧过零的阈值，取值范围为10～100；E_Th定义为帧能量阈值，取值范围为0.2～20。

3、据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是使用提取的共振峰轨迹作为话音识别的特证向量，使用提取的共振峰轨迹作为说话人识别的特证向量；提取的共振峰轨迹用于共振峰声码器。

4、据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是采用的共振峰增强的话音声管模型：其系统函数V(z)的定义如下；其中，G为系统增益；μ_m(m＝1，2，...，M-1)是声管的能量反射系数，z＝e^2πf，f是频率：

V (z) = \frac{G}{[\begin{matrix} 1 & - μ_{G} \end{matrix}] [\begin{matrix} 1 & - μ_{M - 1} \\ - μ_{M - 1} z^{- 1} & z^{- 1} \end{matrix}] \cdot \cdot \cdot \begin{matrix}  \end{matrix} [\begin{matrix} 1 & - μ_{1} \\ - μ_{1} z^{- 1} & z^{- 1} \end{matrix}] [\begin{matrix} 1 & - μ_{0} \\ - μ_{0} z^{- 1} & z^{- 1} \end{matrix}] [\begin{matrix} 1 \\ 0 \end{matrix}]} - - - (1)

在共振峰增强的全极点模型中设置合适的共振峰增强系数，得到对应的线性预测模型，线性预测模型用Levinson-Durbin递推算法求解；

(1) - - - E_{N}^{0} = {\hat{φ}}_{N} (0)

(2) - - - k_{i} = [{\hat{φ}}_{N} (i) - Σ_{j - 1}^{i - 1} a_{j}^{i - 1} {\hat{φ}}_{n} (i - j)] / E_{n}^{i - 1}

(3) - - - a_{i}^{i} = k_{i}

(4) - - - a_{j}^{i} = a_{j}^{i - 1} - k_{i} a_{i - j}^{i - 1}, 1 \leq j < i - 1

(5) - - - E_{N}^{i} = (1 - k_{i}^{2}) E_{N}^{i - 1}

(6)if i＜P goto (1)

(7) - - - a_{j} = a_{j}^{P}, 1 \leq j \leq P

其中，为LPC预测输出的N点序列{x_i}的自相关函数的估计量，其表达式如下：

{\hat{φ}}_{N} (j) = \frac{1}{N} Σ_{i = 1}^{N - j} x_{i} x_{i + j}, j = 0,1, . . ., P - - - (2)

算法开始时，p＝0，

E_{N}^{0} = \hat{φ} (0),

5、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是在共振峰增强谱中用二次快速搜索算法提取共振峰。

6、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是接收话音信号；以预加重滤波器处理所接收的话音信号；以步长移动获得分析帧；对分析帧进行时域加窗处理；话音分析帧的窗函数是汉明窗或矩形窗。

7、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是用如下数字滤波器对语音信号进行了预加重：

H(z)＝1-0.95z^-1 (3)相互重叠的语音分析帧，帧长在10ms～40ms之间，帧移在5ms～20ms之间。

8、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是分析帧的能量E用下式计算：其中，x(n)是分析帧内的语音信号，N是帧的长度，N为正整数。

E = Σ_{n = 1}^{N} x^{2} (n) - - - (4)

9、根据权利要求1所述的使用共振峰增强提取话音共振峰轨迹的方法，其特征是分析帧的过零率Z用式(5)计算。其中，x(n)是分析帧内的语音信号，N是帧的长度，N为正整数。sgn[^*]是符号函数，如式(6)：

Z = Σ_{n = 1}^{N - 1} | sgn [x (n)] - sgn [x (n + 1)] | \cdot u [| x (n) - x (n + 1) | - δ] - - - (5)

sgn (x) = \{\begin{matrix} 1, & x > 0 \\ 0, & x = 0 \\ - 1, & x < 0 \end{matrix} - - - (6)

u (x) = \{\begin{matrix} 1, & x &GreaterEqual; 0 \\ 0, & x < 0 \end{matrix} - - - (7)

其中，δ是过零率门限参数，取值范围在0.01～0.1之间。