CN110289007A - 一种用于语音基音频率提取的改进局部均值分解方法 - Google Patents

一种用于语音基音频率提取的改进局部均值分解方法 Download PDF

Info

Publication number
CN110289007A
CN110289007A CN201910553408.4A CN201910553408A CN110289007A CN 110289007 A CN110289007 A CN 110289007A CN 201910553408 A CN201910553408 A CN 201910553408A CN 110289007 A CN110289007 A CN 110289007A
Authority
CN
China
Prior art keywords
envelope
signal
voice signal
function
mean value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910553408.4A
Other languages
English (en)
Inventor
张庆
贾林山
蒋婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910553408.4A priority Critical patent/CN110289007A/zh
Publication of CN110289007A publication Critical patent/CN110289007A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种用于语音基音频率提取的改进局部均值分解方法,首先使用三次样条插值的迭代包络法计算语音信号的上、下包络,计算得到语音信号的局部均值函数和包络估计函数;在完成一次“筛选”之后,后续“筛选”过程使用分段三次埃尔米特多项式插值的迭代包络法计算语音信号的上、下包络从而获得新的局部均值函数和包络估计函数;在局部均值分解完成后,选择能量最大的分量计算其包络函数的频谱,最终获得语音信号的基音频率;本发明将具有消除欠包络的迭代包络法引入到局部均值分解方法中,并将高阶和低阶插值曲线结合来减缓过包络,由此构建信号的局部均值函数和包络估计函数,显著提升LMD方法在语音信号基音频率提取过程中的计算效率和收敛的稳定性。

Description

一种用于语音基音频率提取的改进局部均值分解方法
技术领域
本发明属于局部均值分解方法技术领域,具体涉及一种用于语音基音频率提取的改进局部均值分解方法。
背景技术
局部均值分解方法(Local Mean Decomposition,LMD)是一种多分量调幅-调频(AM-FM)信号分解和解调方法,该方法能将多分量分解为若干个单分量的调幅-调频信号之和,并可得到各个分量的瞬时频率与瞬时幅值,从而实现多分量AM-FM信号的分解与解调。
声带是人类发声系统中最重要的发音器官之一,在讲话时,声带被声门下气流冲击而张开,随后由于韧性声带再次闭合。声带每开启和闭合一次的时间即为声带的振动周期,也即基音周期,其倒数为基音频率,基音频率是一种重要的语音参数(赵力.语音信号处理[M].北京:机械工业出版社,2003.)。通常来讲,人类语音信号可以看作是由一系列单分量AM-FM信号组成的多分量AM-FM信号(Maragos P,Quatieri T,Kaiser J.Speechnonlinearities,modulations,and energy operators[C]//International Conferenceon Acoustics.IEEE,1991.),因此,可以使用LMD方法提取人类语音信号的基音频率。然而,在实际计算过程中,由于传统样条LMD方法(胡劲松,杨世锡,任达千.基于样条的振动信号局域均值分解方法[J].数据采集与处理,2009,24(1):82-86.)使用样条包络法求取信号的局部均值函数和包络估计函数。由于传统的样条包络法常存在难以消除的过包络和欠包络,最终使得样条LMD方法分解精度差、收敛成功率低,这严重限制了LMD方法在人类语音信号基音频率提取等领域中的应用。
迭代包络方法(Iterative Envelope,IE)是一种新提出的包络构建方法(Yang L,Yang Z,Yang L,et al.An improved envelope algorithm for eliminatingundershoots[J].Digital Signal Processing,2013,23(1):401-411.),该方法可以完全消除样条包络的欠包络,是一种精度较高的包络,并且其收敛性得到了严格的数学证明(Yang L,Yang Z,Yang L.The theoretical analysis for an iterative envelopealgorithm[J].Digital Signal Processing,2015,38:32-42.)。然而,迭代包络法的过包络只能通过使用不同阶次的插值曲线来解决,通常二阶或者一阶连续的插值曲线不存在过包络现象,但是其光滑性较差,包络精度不高;而三阶及更高接连续的插值曲线更加平滑,但是存在过包络现象,因此需要对包络的光滑性和过包络之间进行折衷。通过合理地应用不同阶次的插值函数至迭代包络,并将该包络用于求取信号的局部均值函数和包络估计函数,可以有效提升LMD性能。
目前还未见有同时结合多种插值方法的迭代包络方法和LMD求取人类语音信号基音频率的有关报道。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种用于语音基音频率提取的改进局部均值分解方法,可以有效提高LMD方法在人类语音信号基音频率提取中的分解精度和收敛成功率。
为了实现上述目的,本发明采取的技术方案是:
一种用于语音基音频率提取的改进局部均值分解方法,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)设有语音信号x(t),计数变量C=1;
2)如果C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
如果C>1,使用PCHIP-IE求取信号的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者为止;
最终将语音信号x(t)分解成k个PF分量PFi(t),其中i=1,...,k,以及1个余项uk(t),将余项uk(t)记作R;
8)选择能量最大的PF分量PFi(t)并计算其包络信号的频谱,从而获得语音信号x(t)的基音频率。
本发明的有益效果为:
(1)本发明将迭代包络法和局部均值分解方法相结合,解决了传统样条LMD方法在求解局部均值函数和包络估计函数过程中由于欠包络导致的分解精度差、收敛成功率低的问题,有效提升了LMD方法的性能。
(2)本发明结合语音信号处理的应用场景,将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法和局部均值分解法结合使用,有效提升了信号局部均值函数和包络估计函数的计算精度,有效地兼顾了方法的计算效率和收敛性。
附图说明
图1为本发明方法流程图。
图2为实施例的真实成年男性语音信号x(t)的波形图。
图3为实施例中使用CS-IE求取语音信号x(t)的上包络和下包络波形图。
图4为实施例语音信号x(t)的局部均值函数m11(t)波形图。
图5为实施例语音信号x(t)的包络估计函数a11(t)波形图。
图6为实施例语音信号x(t)的第1次迭代后的s11(t)波形图。
图7为实施例中使用PCHIP-IE求取信号s11(t)的上包络和下包络波形图。
图8为实施例信号s11(t)的局部均值函数m11(t)波形图。
图9为实施例信号s11(t)的包络估计函数a11(t)波形图。
图10为实施例中分解得到的第1个PF分量PF1(t)的包络信号a1(t)的波形图。
图11为实施例中分解得到的第1个PF分量PF1(t)的波形图。
图12为实施例中分解得到的第2个PF分量PF2(t)的波形图。
图13为实施例中分解得到的第3个PF分量PF3(t)的波形图。
图14为实施例中PF2(t)的包络信号a2(t)的波形图。
图15为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的第1个PF分量。
图16为实施例中仅使用CS插值法LMD对图2所示语音信号x(t)分解得到的余项R。
图17为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的第1个PF分量。
图18为实施例中使用传统样条LMD法对图2所示语音信号x(t)分解得到的余项R。
具体实施方式
以下结合附图和实施例作对本发明进一步的详细说明。
参照图1,一种用于语音基音频率提取的改进局部均值分解方法,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)给定一个真实成年男性语音信号x(t),声音内容为英语字母表第一个字母“A”,设置采样频率为48kHz,截取其中200ms长度信号用于分析,其波形如图2所示,计数变量C=1;
2)根据C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为如图3所示,则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
局部均值函数m11(t)波形如图4所示,包络估计函数a11(t)波形如图5所示;
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
如图6所示;
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确,本实施例中设定阈值Δ=0.01;在计数变量C=2时,使用PCHIP-IE求取信号的上包络为和下包络为如图7所示,则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
局部均值函数m11(t)波形如图8所示,包络估计函数a11(t)波形如图9所示;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
包络信号a1(t)波形如图10所示;
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
PF1(t)波形如图11所示;
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者达到预先设定的次数为止;
最终将语音信号x(t)分解成9个PF分量以及1个余项R,其中第2、3个PF分量分别如图12、图13所示;
8)根据分解结果,第2个PF分量可见明显的周期性波动,并且也包含了信号中的大部分能量,包含了语音信号中的大部分信息,因此选择PF2(t)并计算其包络信号的频谱,如图14所示,从图14可以看出,频谱中存在明显的155Hz基音频率谱峰,并存在多个谐波频率谱峰,从而成功提取到语音信号x(t)的基音频率。
为说明本发明方法将PCHIP法和CS法两种不同阶次的插值方法与迭代包络法结合使用的优势,此处仅使用CS法一种插值方法进行对比,仅使用CS法一种插值方法分解仅仅得到1个PF分量和1个余项R,分别如图15、图16所示,从图15、图16中可见出现大幅度的分解误差,并且未见周期性波动。
为说明本发明方法在LMD中使用迭代包络法的优势,此处使用传统样条LMD对真实成年男性语音信号x(t)进行分解,得到1个PF分量和1个余项R,分别如图17、图18所示,从图17、图18中可见出现大量大幅度的分解误差,并且未见周期性波动。

Claims (1)

1.一种用于语音基音频率提取的改进局部均值分解方法,其特征在于,称使用分段三次埃尔米特多项式插值(Piecewise Cubic Hermite Interpolating Polynomial,PCHIP)曲线的迭代包络为PCHIP-IE,称使用三次样条插值(Cubic Spline,CS)曲线的迭代包络为CS-IE,包括以下步骤:
1)设有语音信号x(t),计数变量C=1;
2)如果C=1,使用CS-IE求取语音信号x(t)的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
如果C>1,使用PCHIP-IE求取信号的上包络为和下包络为则语音信号x(t)的局部均值函数m11(t)和包络估计函数a11(t)分别为
3)将局部均值函数m11(t)从语音信号x(t)中分离出来,然后除以包络估计函数a11(t),从而对其进行幅值解调,得到信号s11(t):
4)将计数变量C加1,然后将s11(t)作为新的语音信号x(t),重复步骤2)-步骤3),直到得到一个纯调频信号s1n(t),满足1≤s1n(t)≤1,s1n(t)的包络估计函数满足a1(n+1)(t)≈1;给定一个阈值Δ,迭代终止条件设定为1-Δ≤a1n(t)≤1+Δ;Δ设置的越小,分解越精确;
5)把步骤1)-步骤4)中产生的所有包络估计函数相乘得到包络信号a1(t):
a1(t)=a11(t)a12(t)…a1n(t)
6)将包络信号a1(t)与获得的纯调频信号s1n(t)相乘,得到语音信号x(t)的第一个PF分量PF1(t):
PF1(t)=a1(t)s1n(t)
7)将第一个PF分量从语音信号x(t)中分离出来,得到一个新的信号u1(t),将信号u1(t)作为新的语音信号x(t)重复步骤1)-步骤6),循环k次,直到uk(t)为一个单调函数或者为止;
最终将语音信号x(t)分解成k个PF分量PFi(t),其中i=1,...,k,以及1个余项uk(t),将余项uk(t)记作R;
8)选择能量最大的PF分量PFi(t)并计算其包络信号的频谱,从而获得语音信号x(t)的基音频率。
CN201910553408.4A 2019-06-25 2019-06-25 一种用于语音基音频率提取的改进局部均值分解方法 Pending CN110289007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910553408.4A CN110289007A (zh) 2019-06-25 2019-06-25 一种用于语音基音频率提取的改进局部均值分解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910553408.4A CN110289007A (zh) 2019-06-25 2019-06-25 一种用于语音基音频率提取的改进局部均值分解方法

Publications (1)

Publication Number Publication Date
CN110289007A true CN110289007A (zh) 2019-09-27

Family

ID=68005613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910553408.4A Pending CN110289007A (zh) 2019-06-25 2019-06-25 一种用于语音基音频率提取的改进局部均值分解方法

Country Status (1)

Country Link
CN (1) CN110289007A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053008A1 (en) * 2004-09-03 2006-03-09 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
CN105628381A (zh) * 2016-01-13 2016-06-01 东北石油大学 一种基于改进的局部均值分解的往复压缩机轴承故障诊断方法
CN107886111A (zh) * 2017-10-25 2018-04-06 西安交通大学 一种改进型局部均值分解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053008A1 (en) * 2004-09-03 2006-03-09 Microsoft Corporation Noise robust speech recognition with a switching linear dynamic model
CN105628381A (zh) * 2016-01-13 2016-06-01 东北石油大学 一种基于改进的局部均值分解的往复压缩机轴承故障诊断方法
CN107886111A (zh) * 2017-10-25 2018-04-06 西安交通大学 一种改进型局部均值分解方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LINSHAN JIA: "The empirical optimal envelope and its application to local mean decomposition", 《DIGITAL SIGNAL PROCESSING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341341A (zh) * 2020-02-11 2020-06-26 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质

Similar Documents

Publication Publication Date Title
CN104181577B (zh) 一种基于全数字化技术的束流位置和相位测量系统及方法
CN102818930B (zh) 一种高精度快速计算电力谐波参数的方法
CN103675444A (zh) 一种高精度的时频分析方法
CN110320400B (zh) 准同步采样和改进能量算子的电压闪变包络参数提取方法
CN110095650A (zh) 基于五项Rife-Vincent(I)窗的四谱线插值FFT的复杂谐波检测分析方法
CN108776263A (zh) 基于高阶汉宁自卷积窗及改进插值算法的谐波检测方法
CN106771591A (zh) 一种复杂电力谐波的参数估计方法
CN110837001A (zh) 一种电力系统中谐波和间谐波的分析方法与装置
CN106340303A (zh) 一种基于时间频率域的语音降噪方法
CN109655644B (zh) 一种降低任意波信号输出抖动的方法和装置
CN105679331B (zh) 一种声气信号分离与合成的方法及系统
CN106405229A (zh) 一种基波和谐波电能计量方法
CN110289007A (zh) 一种用于语音基音频率提取的改进局部均值分解方法
CN110208601A (zh) 基于fpga的瞬时测频方法及其数字接收机
CN110954746A (zh) 一种基于四项Nuttall余弦窗的六插值FFT算法
CN103969508A (zh) 一种实时高精密的电力谐波分析方法及装置
CN109300484A (zh) 音频对齐方法、装置、计算机设备以及可读存储介质
CN104111373A (zh) 一种用于智能变电站数字化电能的计量方法
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
CN107944405A (zh) 一种基于极值点校正的三次样条局部均值分解方法
CN108362940B (zh) 一种半周波畸变信号的动态谐波频率提取方法
CN103941280A (zh) 基于冲激响应不变法的数字核脉冲高斯成形方法
CN106936434B (zh) 基于fft提取的码密度高阶谐波校正系统
CN113899976B (zh) 一种复合电能质量扰动可视化方法
Redondo et al. A strategy for improving the accuracy of flicker emission measurement from wind turbines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190927