CN110289007A - 一种用于语音基音频率提取的改进局部均值分解方法 - Google Patents
一种用于语音基音频率提取的改进局部均值分解方法 Download PDFInfo
- Publication number
- CN110289007A CN110289007A CN201910553408.4A CN201910553408A CN110289007A CN 110289007 A CN110289007 A CN 110289007A CN 201910553408 A CN201910553408 A CN 201910553408A CN 110289007 A CN110289007 A CN 110289007A
- Authority
- CN
- China
- Prior art keywords
- envelope
- signal
- local mean
- function
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 title abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 13
- 210000001260 vocal cord Anatomy 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种用于语音基音频率提取的改进局部均值分解方法,首先使用三次样条插值的迭代包络法计算语音信号的上、下包络,计算得到语音信号的局部均值函数和包络估计函数;在完成一次“筛选”之后,后续“筛选”过程使用分段三次埃尔米特多项式插值的迭代包络法计算语音信号的上、下包络从而获得新的局部均值函数和包络估计函数;在局部均值分解完成后,选择能量最大的分量计算其包络函数的频谱,最终获得语音信号的基音频率;本发明将具有消除欠包络的迭代包络法引入到局部均值分解方法中,并将高阶和低阶插值曲线结合来减缓过包络,由此构建信号的局部均值函数和包络估计函数,显著提升LMD方法在语音信号基音频率提取过程中的计算效率和收敛的稳定性。
Description
技术领域
本发明属于局部均值分解方法技术领域,具体涉及一种用于语音基音频率提取的改进局部均值分解方法。
背景技术
局部均值分解方法(Local Mean Decomposition,LMD)是一种多分量调幅-调频(AM-FM)信号分解和解调方法,该方法能将多分量分解为若干个单分量的调幅-调频信号之和,并可得到各个分量的瞬时频率与瞬时幅值,从而实现多分量AM-FM信号的分解与解调。
声带是人类发声系统中最重要的发音器官之一,在讲话时,声带被声门下气流冲击而张开,随后由于韧性声带再次闭合。声带每开启和闭合一次的时间即为声带的振动周期,也即基音周期,其倒数为基音频率,基音频率是一种重要的语音参数(赵力.语音信号处理[M].北京:机械工业出版社,2003.)。通常来讲,人类语音信号可以看作是由一系列单分量AM-FM信号组成的多分量AM-FM信号(Maragos P,Quatieri T,Kaiser J.Speechnonlinearities,modulations,and energy operators[C]//International Conferenceon Acoustics.IEEE,1991.),因此,可以使用LMD方法提取人类语音信号的基音频率。然而,在实际计算过程中,由于传统样条LMD方法(胡劲松,杨世锡,任达千.基于样条的振动信号局域均值分解方法[J].数据采集与处理,2009,24(1):82-86.)使用样条包络法求取信号的局部均值函数和包络估计函数。由于传统的样条包络法常存在难以消除的过包络和欠包络,最终使得样条LMD方法分解精度差、收敛成功率低,这严重限制了LMD方法在人类语音信号基音频率提取等领域中的应用。
迭代包络方法(Iterative Envelope,IE)是一种新提出的包络构建方法(Yang L,Yang Z,Yang L,et al.An improved envelope algorithm for eliminatingundershoots[J].Digital Signal Processing,2013,23(1):401-411.),该方法可以完全消除样条包络的欠包络,是一种精度较高的包络,并且其收敛性得到了严格的数学证明(Yang L,Yang Z,Yang L.The theoretical analysis for an iterative envelopealgorithm[J].Digital Signal Processing,2015,38:32-42.)。然而,迭代包络法的过包络只能通过使用不同阶次的插值曲线来解决,通常二阶或者一阶连续的插值曲线不存在过包络现象,但是其光滑性较差,包络精度不高;而三阶及更高接连续的插值曲线更加平滑,但是存在过包络现象,因此需要对包络的光滑性和过包络之间进行折衷。通过合理地应用不同阶次的插值函数至迭代包络,并将该包络用于求取信号的局部均值函数和包络估计函数,可以有效提升LMD性能。
目前还未见有同时结合多种插值方法的迭代包络方法和LMD求取人类语音信号基音频率的有关报道。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种用于语音基音频率提取的改进局部均值分解方法,可以有效提高LMD方法在人类语音信号基音频率提取中的分解精度和收敛成功率。
为了实现上述目的,本发明采取的技术方案是:
一种用于语音基音频率提取的改进局部均值分解方法,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)设有语音信号x(t),计数变量C=1;
2)如果C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
如果C>1,使用PCHIP-IE求取信号的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者为止;
最终将语音信号x(t)分解成k个PF分量PFi(t),其中i=1,...,k,以及1个余项uk(t),将余项uk(t)记作R;
8)选择能量最大的PF分量PFi(t)并计算其包络信号的频谱,从而获得语音信号x(t)的基音频率。
本发明的有益效果为:
(1)本发明将迭代包络法和局部均值分解方法相结合,解决了传统样条LMD方法在求解局部均值函数和包络估计函数过程中由于欠包络导致的分解精度差、收敛成功率低的问题,有效提升了LMD方法的性能。
(2)本发明结合语音信号处理的应用场景,将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法和局部均值分解法结合使用,有效提升了信号局部均值函数和包络估计函数的计算精度,有效地兼顾了方法的计算效率和收敛性。
附图说明
图1为本发明方法流程图。
图2为实施例的真实成年男性语音信号x(t)的波形图。
图3为实施例中使用CS-IE求取语音信号x(t)的上包络和下包络波形图。
图4为实施例语音信号x(t)的局部均值函数m11(t)波形图。
图5为实施例语音信号x(t)的包络估计函数a11(t)波形图。
图6为实施例语音信号x(t)的第1次迭代后的s11(t)波形图。
图7为实施例中使用PCHIP-IE求取信号s11(t)的上包络和下包络波形图。
图8为实施例信号s11(t)的局部均值函数m11(t)波形图。
图9为实施例信号s11(t)的包络估计函数a11(t)波形图。
图10为实施例中分解得到的第1个PF分量PF1(t)的包络信号a1(t)的波形图。
图11为实施例中分解得到的第1个PF分量PF1(t)的波形图。
图12为实施例中分解得到的第2个PF分量PF2(t)的波形图。
图13为实施例中分解得到的第3个PF分量PF3(t)的波形图。
图14为实施例中PF2(t)的包络信号a2(t)的波形图。
图15为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的第1个PF分量。
图16为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的余项R。
图17为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的第1个PF分量。
图18为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的余项R。
具体实施方式
以下结合附图和实施例作对本发明进一步的详细说明。
参照图1,一种用于语音基音频率提取的改进局部均值分解方法,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)给定一个真实成年男性语音信号x(t),声音内容为英语字母表第一个字母“A”,设置采样频率为48kHz,截取其中200ms长度信号用于分析,其波形如图2所示,计数变量C=1;
2)根据C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为如图3所示,则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
局部均值函数m11(t)波形如图4所示,包络估计函数a11(t)波形如图5所示;
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
如图6所示;
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确,本实施例中设定阈值Δ=0.01;在计数变量C=2时,使用PCHIP-IE求取信号的上包络为和下包络为如图7所示,则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
局部均值函数m11(t)波形如图8所示,包络估计函数a11(t)波形如图9所示;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
包络信号a1(t)波形如图10所示;
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
PF1(t)波形如图11所示;
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者达到预先设定的次数为止;
最终将语音信号x(t)分解成9个PF分量以及1个余项R,其中第2、3个PF分量分别如图12、图13所示;
8)根据分解结果,第2个PF分量可见明显的周期性波动,并且也包含了信号中的大部分能量,包含了语音信号中的大部分信息,因此选择PF2(t)并计算其包络信号的频谱,如图14所示,从图14可以看出,频谱中存在明显的155Hz基音频率谱峰,并存在多个谐波频率谱峰,从而成功提取到语音信号x(t)的基音频率。
为说明本发明方法将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法结合使用的优势,此处仅使用CS法一种插值方法进行对比,仅使用CS法一种插值方法分解仅仅得到1个PF分量和1个余项R,分别如图15、图16所示,从图15、图16中可见出现大幅度的分解误差,并且未见周期性波动。
为说明本发明方法在LMD中使用迭代包络法的优势,此处使用传统样条LMD对真实成年男性语音信号x(t)进行分解,得到1个PF分量和1个余项R,分别如图17、图18所示,从图17、图18中可见出现大量大幅度的分解误差,并且未见周期性波动。
Claims (1)
1.一种用于语音基音频率提取的改进局部均值分解方法,其特征在于,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)设有语音信号x(t),计数变量C=1;
2)如果C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
如果C>1,使用PCHIP-IE求取信号的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者为止;
最终将语音信号x(t)分解成k个PF分量PFi(t),其中i=1,...,k,以及1个余项uk(t),将余项uk(t)记作R;
8)选择能量最大的PF分量PFi(t)并计算其包络信号的频谱,从而获得语音信号x(t)的基音频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910553408.4A CN110289007A (zh) | 2019-06-25 | 2019-06-25 | 一种用于语音基音频率提取的改进局部均值分解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910553408.4A CN110289007A (zh) | 2019-06-25 | 2019-06-25 | 一种用于语音基音频率提取的改进局部均值分解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110289007A true CN110289007A (zh) | 2019-09-27 |
Family
ID=68005613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910553408.4A Pending CN110289007A (zh) | 2019-06-25 | 2019-06-25 | 一种用于语音基音频率提取的改进局部均值分解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110289007A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN115050388A (zh) * | 2022-01-05 | 2022-09-13 | 昆明理工大学 | 一种三电平削波与lmd算法结合的基音频率提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060053008A1 (en) * | 2004-09-03 | 2006-03-09 | Microsoft Corporation | Noise robust speech recognition with a switching linear dynamic model |
CN105628381A (zh) * | 2016-01-13 | 2016-06-01 | 东北石油大学 | 一种基于改进的局部均值分解的往复压缩机轴承故障诊断方法 |
CN107886111A (zh) * | 2017-10-25 | 2018-04-06 | 西安交通大学 | 一种改进型局部均值分解方法 |
-
2019
- 2019-06-25 CN CN201910553408.4A patent/CN110289007A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060053008A1 (en) * | 2004-09-03 | 2006-03-09 | Microsoft Corporation | Noise robust speech recognition with a switching linear dynamic model |
CN105628381A (zh) * | 2016-01-13 | 2016-06-01 | 东北石油大学 | 一种基于改进的局部均值分解的往复压缩机轴承故障诊断方法 |
CN107886111A (zh) * | 2017-10-25 | 2018-04-06 | 西安交通大学 | 一种改进型局部均值分解方法 |
Non-Patent Citations (1)
Title |
---|
LINSHAN JIA: "The empirical optimal envelope and its application to local mean decomposition", 《DIGITAL SIGNAL PROCESSING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN115050388A (zh) * | 2022-01-05 | 2022-09-13 | 昆明理工大学 | 一种三电平削波与lmd算法结合的基音频率提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Spmamba: State-space model is all you need in speech separation | |
CN110113075B (zh) | 基于stft-spwvd的混合网台跳频参数盲估计方法 | |
CN107886111A (zh) | 一种改进型局部均值分解方法 | |
CN103941091A (zh) | 基于改进emd端点效应的电力系统hht谐波检测方法 | |
CN104091592B (zh) | 一种基于隐高斯随机场的语音转换系统 | |
CN110289007A (zh) | 一种用于语音基音频率提取的改进局部均值分解方法 | |
Bilbao et al. | Antiderivative antialiasing for memoryless nonlinearities | |
CN108957175B (zh) | 基于改进的hht算法的电能质量扰动识别方法 | |
CN108776263A (zh) | 基于高阶汉宁自卷积窗及改进插值算法的谐波检测方法 | |
CN104392717A (zh) | 一种基于声道谱高斯混合建模的快速语音转换系统及其方法 | |
CN102930863B (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
CN102611450A (zh) | 一种基于功率谱估计的信号预测折叠内插adc 方法 | |
CN109117775A (zh) | 基于多项式的改进emd算法 | |
CN107944405A (zh) | 一种基于极值点校正的三次样条局部均值分解方法 | |
TWI374671B (en) | Audio encoding method with function of accelerating a quantization iterative loop process | |
CN108362940B (zh) | 一种半周波畸变信号的动态谐波频率提取方法 | |
CN107992448B (zh) | 一种基于绝对值的直接反余弦瞬时频率求解方法 | |
JPH0573093A (ja) | 信号特徴点の抽出方法 | |
CN101320320B (zh) | 一种位流加法器及采用位流加法器的位流乘法器 | |
CN105093325B (zh) | 一种定量的提频方法 | |
Xu et al. | An improved pitch detection of speech combined with speech enhancement | |
CN115015682B (zh) | 一种电能质量实时在线监测方法 | |
CN115050388A (zh) | 一种三电平削波与lmd算法结合的基音频率提取方法 | |
Huang et al. | Underdetermined speech blind identification based on spectrum correction and phase coherence criterion | |
CN119066335A (zh) | 一种基于向量反馈的脉冲波形修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190927 |
|
WD01 | Invention patent application deemed withdrawn after publication |