CN110289007A

CN110289007A - 一种用于语音基音频率提取的改进局部均值分解方法

Info

Publication number: CN110289007A
Application number: CN201910553408.4A
Authority: CN
Inventors: 张庆; 贾林山; 蒋婷婷
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27

Abstract

一种用于语音基音频率提取的改进局部均值分解方法，首先使用三次样条插值的迭代包络法计算语音信号的上、下包络，计算得到语音信号的局部均值函数和包络估计函数；在完成一次“筛选”之后，后续“筛选”过程使用分段三次埃尔米特多项式插值的迭代包络法计算语音信号的上、下包络从而获得新的局部均值函数和包络估计函数；在局部均值分解完成后，选择能量最大的分量计算其包络函数的频谱，最终获得语音信号的基音频率；本发明将具有消除欠包络的迭代包络法引入到局部均值分解方法中，并将高阶和低阶插值曲线结合来减缓过包络，由此构建信号的局部均值函数和包络估计函数，显著提升LMD方法在语音信号基音频率提取过程中的计算效率和收敛的稳定性。

Description

一种用于语音基音频率提取的改进局部均值分解方法

技术领域

本发明属于局部均值分解方法技术领域，具体涉及一种用于语音基音频率提取的改进局部均值分解方法。

背景技术

局部均值分解方法(Local Mean Decomposition,LMD)是一种多分量调幅-调频(AM-FM)信号分解和解调方法,该方法能将多分量分解为若干个单分量的调幅-调频信号之和，并可得到各个分量的瞬时频率与瞬时幅值，从而实现多分量AM-FM信号的分解与解调。

声带是人类发声系统中最重要的发音器官之一，在讲话时，声带被声门下气流冲击而张开，随后由于韧性声带再次闭合。声带每开启和闭合一次的时间即为声带的振动周期，也即基音周期，其倒数为基音频率,基音频率是一种重要的语音参数(赵力.语音信号处理[M].北京：机械工业出版社，2003.)。通常来讲，人类语音信号可以看作是由一系列单分量AM-FM信号组成的多分量AM-FM信号(Maragos P,Quatieri T,Kaiser J.Speechnonlinearities,modulations,and energy operators[C]//International Conferenceon Acoustics.IEEE,1991.)，因此，可以使用LMD方法提取人类语音信号的基音频率。然而，在实际计算过程中，由于传统样条LMD方法(胡劲松，杨世锡，任达千.基于样条的振动信号局域均值分解方法[J].数据采集与处理，2009,24(1):82-86.)使用样条包络法求取信号的局部均值函数和包络估计函数。由于传统的样条包络法常存在难以消除的过包络和欠包络，最终使得样条LMD方法分解精度差、收敛成功率低，这严重限制了LMD方法在人类语音信号基音频率提取等领域中的应用。

迭代包络方法(Iterative Envelope,IE)是一种新提出的包络构建方法(Yang L,Yang Z,Yang L,et al.An improved envelope algorithm for eliminatingundershoots[J].Digital Signal Processing,2013,23(1):401-411.)，该方法可以完全消除样条包络的欠包络，是一种精度较高的包络，并且其收敛性得到了严格的数学证明(Yang L,Yang Z,Yang L.The theoretical analysis for an iterative envelopealgorithm[J].Digital Signal Processing,2015,38:32-42.)。然而，迭代包络法的过包络只能通过使用不同阶次的插值曲线来解决，通常二阶或者一阶连续的插值曲线不存在过包络现象，但是其光滑性较差，包络精度不高；而三阶及更高接连续的插值曲线更加平滑，但是存在过包络现象，因此需要对包络的光滑性和过包络之间进行折衷。通过合理地应用不同阶次的插值函数至迭代包络，并将该包络用于求取信号的局部均值函数和包络估计函数，可以有效提升LMD性能。

目前还未见有同时结合多种插值方法的迭代包络方法和LMD求取人类语音信号基音频率的有关报道。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种用于语音基音频率提取的改进局部均值分解方法，可以有效提高LMD方法在人类语音信号基音频率提取中的分解精度和收敛成功率。

为了实现上述目的，本发明采取的技术方案是：

一种用于语音基音频率提取的改进局部均值分解方法，称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial，PCHIP)曲线的迭代包络为PCHIP-IE，称使用三次样条插值(Cubic Spline，CS)曲线的迭代包络为CS-IE，包括以下步骤：

1)设有语音信号x(t)，计数变量C＝1；

2)如果C＝1，使用CS-IE求取语音信号x(t)的上包络为和下包络为则语音信号x(t)的局部均值函数m₁₁(t)和包络估计函数a₁₁(t)分别为

如果C＞1，使用PCHIP-IE求取信号的上包络为和下包络为则语音信号x(t)的局部均值函数m₁₁(t)和包络估计函数a₁₁(t)分别为

3)将局部均值函数m₁₁(t)从语音信号x(t)中分离出来，然后除以包络估计函数a₁₁(t)，从而对其进行幅值解调，得到信号s₁₁(t)：

4)将计数变量C加1，然后将s₁₁(t)作为新的语音信号x(t)，重复步骤2)-步骤3)，直到得到一个纯调频信号s_1n(t)，满足1≤s_1n(t)≤1，s_1n(t)的包络估计函数满足a_1(n+1)(t)≈1；给定一个阈值Δ，迭代终止条件设定为1-Δ≤a_1n(t)≤1+Δ；Δ设置的越小，分解越精确；

5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a₁(t)：

a₁(t)＝a₁₁(t)a₁₂(t)…a_1n(t)

6)将包络信号a₁(t)与获得的纯调频信号s_1n(t)相乘，得到语音信号x(t)的第一个PF分量PF₁(t)：

PF₁(t)＝a₁(t)s_1n(t)

7)将第一个PF分量从语音信号x(t)中分离出来，得到一个新的信号u₁(t)，将信号u₁(t)作为新的语音信号x(t)重复步骤1)-步骤6)，循环k次，直到u_k(t)为一个单调函数或者为止；

最终将语音信号x(t)分解成k个PF分量PF_i(t)，其中i＝1,...,k，以及1个余项u_k(t)，将余项u_k(t)记作R；

8)选择能量最大的PF分量PF_i(t)并计算其包络信号的频谱，从而获得语音信号x(t)的基音频率。

本发明的有益效果为：

(1)本发明将迭代包络法和局部均值分解方法相结合，解决了传统样条LMD方法在求解局部均值函数和包络估计函数过程中由于欠包络导致的分解精度差、收敛成功率低的问题，有效提升了LMD方法的性能。

(2)本发明结合语音信号处理的应用场景，将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法和局部均值分解法结合使用，有效提升了信号局部均值函数和包络估计函数的计算精度，有效地兼顾了方法的计算效率和收敛性。

附图说明

图1为本发明方法流程图。

图2为实施例的真实成年男性语音信号x(t)的波形图。

图3为实施例中使用CS-IE求取语音信号x(t)的上包络和下包络波形图。

图4为实施例语音信号x(t)的局部均值函数m₁₁(t)波形图。

图5为实施例语音信号x(t)的包络估计函数a₁₁(t)波形图。

图6为实施例语音信号x(t)的第1次迭代后的s₁₁(t)波形图。

图7为实施例中使用PCHIP-IE求取信号s₁₁(t)的上包络和下包络波形图。

图8为实施例信号s₁₁(t)的局部均值函数m₁₁(t)波形图。

图9为实施例信号s₁₁(t)的包络估计函数a₁₁(t)波形图。

图10为实施例中分解得到的第1个PF分量PF₁(t)的包络信号a₁(t)的波形图。

图11为实施例中分解得到的第1个PF分量PF₁(t)的波形图。

图12为实施例中分解得到的第2个PF分量PF₂(t)的波形图。

图13为实施例中分解得到的第3个PF分量PF₃(t)的波形图。

图14为实施例中PF₂(t)的包络信号a₂(t)的波形图。

图15为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的第1个PF分量。

图16为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的余项R。

图17为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的第1个PF分量。

图18为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的余项R。

具体实施方式

以下结合附图和实施例作对本发明进一步的详细说明。

参照图1，一种用于语音基音频率提取的改进局部均值分解方法，称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial，PCHIP)曲线的迭代包络为PCHIP-IE，称使用三次样条插值(Cubic Spline，CS)曲线的迭代包络为CS-IE，包括以下步骤：

1)给定一个真实成年男性语音信号x(t)，声音内容为英语字母表第一个字母“A”，设置采样频率为48kHz，截取其中200ms长度信号用于分析，其波形如图2所示，计数变量C＝1；

2)根据C＝1，使用CS-IE求取语音信号x(t)的上包络为和下包络为如图3所示，则语音信号x(t)的局部均值函数m₁₁(t)和包络估计函数a₁₁(t)分别为

局部均值函数m₁₁(t)波形如图4所示，包络估计函数a₁₁(t)波形如图5所示；

如图6所示；

4)将计数变量C加1，然后将s₁₁(t)作为新的语音信号x(t)，重复步骤2)-步骤3)，直到得到一个纯调频信号s_1n(t)，满足1≤s_1n(t)≤1，s_1n(t)的包络估计函数满足a_1(n+1)(t)≈1；给定一个阈值Δ，迭代终止条件设定为1-Δ≤a_1n(t)≤1+Δ；Δ设置的越小，分解越精确，本实施例中设定阈值Δ＝0.01；在计数变量C＝2时，使用PCHIP-IE求取信号的上包络为和下包络为如图7所示，则语音信号x(t)的局部均值函数m₁₁(t)和包络估计函数a₁₁(t)分别为

局部均值函数m₁₁(t)波形如图8所示，包络估计函数a₁₁(t)波形如图9所示；

a₁(t)＝a₁₁(t)a₁₂(t)…a_1n(t)

包络信号a₁(t)波形如图10所示；

PF₁(t)＝a₁(t)s_1n(t)

PF₁(t)波形如图11所示；

7)将第一个PF分量从语音信号x(t)中分离出来，得到一个新的信号u₁(t)，将信号u₁(t)作为新的语音信号x(t)重复步骤1)-步骤6)，循环k次，直到u_k(t)为一个单调函数或者达到预先设定的次数为止；

最终将语音信号x(t)分解成9个PF分量以及1个余项R，其中第2、3个PF分量分别如图12、图13所示；

8)根据分解结果，第2个PF分量可见明显的周期性波动，并且也包含了信号中的大部分能量，包含了语音信号中的大部分信息，因此选择PF₂(t)并计算其包络信号的频谱，如图14所示，从图14可以看出，频谱中存在明显的155Hz基音频率谱峰，并存在多个谐波频率谱峰，从而成功提取到语音信号x(t)的基音频率。

为说明本发明方法将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法结合使用的优势，此处仅使用CS法一种插值方法进行对比，仅使用CS法一种插值方法分解仅仅得到1个PF分量和1个余项R，分别如图15、图16所示，从图15、图16中可见出现大幅度的分解误差，并且未见周期性波动。

为说明本发明方法在LMD中使用迭代包络法的优势，此处使用传统样条LMD对真实成年男性语音信号x(t)进行分解，得到1个PF分量和1个余项R，分别如图17、图18所示，从图17、图18中可见出现大量大幅度的分解误差，并且未见周期性波动。

Claims

1.一种用于语音基音频率提取的改进局部均值分解方法，其特征在于，称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial，PCHIP)曲线的迭代包络为PCHIP-IE，称使用三次样条插值(Cubic Spline，CS)曲线的迭代包络为CS-IE，包括以下步骤：

1)设有语音信号x(t)，计数变量C＝1；

a₁(t)＝a₁₁(t)a₁₂(t)…a_1n(t)

PF₁(t)＝a₁(t)s_1n(t)