CN1998045A - 音调频率估计装置以及音调频率估计方法 - Google Patents

音调频率估计装置以及音调频率估计方法 Download PDF

Info

Publication number
CN1998045A
CN1998045A CNA2005800237482A CN200580023748A CN1998045A CN 1998045 A CN1998045 A CN 1998045A CN A2005800237482 A CNA2005800237482 A CN A2005800237482A CN 200580023748 A CN200580023748 A CN 200580023748A CN 1998045 A CN1998045 A CN 1998045A
Authority
CN
China
Prior art keywords
frequency
pitch
spectrum
unit
pitch frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800237482A
Other languages
English (en)
Inventor
王幼华
吉田幸司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1998045A publication Critical patent/CN1998045A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measuring Frequencies, Analyzing Spectra (AREA)

Abstract

提供一种音调频率估计装置,其能够降低音调频率估计所需的运算量,并能准确地估计音调频率。在该装置中,频谱提取单元(104)从语音调谱中提取音调谐波频谱。频谱平均值计算单元(106),与多个音调频率候补的每一个分别相对应地计算由频谱提取单元(104)提取的音调谐波频谱的功率平均值。估计单元使用由频谱平均值计算单元(106)计算出的平均值估计音调频率。

Description

音调频率估计装置以及音调频率估计方法
技术领域
本发明涉及音调频率估计装置以及音调频率估计方法,特别涉及在频域进行音调频率估计的音调频率估计装置以及音调频率估计方法。
背景技术
一般来讲,作为在时域或频域估计语音的音调频率的方法,有为众所知的自相关法和修正的相关法(modified correlation)等,所述自相关法是根据语音波形的自相关函数的方法,而所述修正的相关法是根据LPC(LinearPredictive Coding,线性预测编码)分析的残差信号的自相关函数的方法。
另外,在频域进行噪声抑制和语音编码等语音处理的情况下,有时通过在频域估计音调频率,匹配性(consistency)会得到改善。作为在频域的音调频率估计方法,有通过对频谱的自相关函数最大化来计算音调频率的方法,其一般式如下式(1)所示。该式中,将使自相关函数R(i)最大的音调频率候补(candidate)i作为估计音调频率。
【式1】
R ( i ) = Σ k P ( k ) · P ( k + i ) p MIN ≤ i ≤ p MAX . . . ( 1 )
其中,k为离散频率分量,P(k)为音调谐波频谱的功率,PMIN和PMAX分别为音调频率候补i的最小值和最大值。
可是,频域中的使用自相关函数的音调频率估计方法,由于语音信号的共振峰(formant)的影响,有时会错误地计算音调频率的倍数(倍音调频率误差)。
作为降低共振峰的影响而进行音调频率估计的以往的方法,有例如非专利文献1所公开的方法。该方法中,所用的频谱为使用频谱包络的信息对频谱进行平滑之后的频谱。
非专利文献1:″A spectral autocorrelation method for measurement of thefundamental frequency of noise-corrupted speech″,M.Lahat,IEEE Trans.onAcoustics,Speech,and Signal Processing,vol.ASSP-35,no.6,pp.741-750,1987
发明内容
发明要解决的问题
然而,由于上述以往的音调频率估计方法中进行频谱的平滑处理,所以,存在音调频率估计所需的运算量会增加的问题。
本发明旨在提供一种音调频率估计装置以及音调频率估计方法,能够降低音调频率估计所需的运算量,并能准确估计音调频率。
解决问题的方案
本发明的音调频率估计装置的结构包括:提取单元,用于从语音调谱中提取音调谐波频谱;平均值计算单元,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计单元,用于使用所述平均值估计音调频率。
本发明的音调频率估计方法包括:提取步骤,用于从语音调谱中提取音调谐波频谱;平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计步骤,用于使用所述平均值估计音调频率。
本发明的音调频率估计程序使计算机实现:提取步骤,用于从语音调谱中提取音调谐波频谱;平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计步骤,用于使用所述平均值估计音调频率。
发明效果
根据本发明,能够降低音调频率估计所需的运算量,并能准确地估计音调频率。
附图说明
图1是表示本发明的一个实施例所涉及的音调频率估计装置的结构的方框图;
图2A是表示在本发明的一个实施例中所提取的语音功率谱的例子的图;
图2B是在本发明的一个实施例中,在将乘数设为某个值的条件下将平均值与总和值相乘的结果的图;以及
图2C是在本发明的一个实施例中,在将乘数设为另外的值的条件下将平均值与总和值相乘的结果的图。
具体实施方式
以下,参照附图详细说明本发明的实施例。
图1是表示本发明的一个实施例所涉及的音调频率估计装置的结构的方框图。音调频率估计装置100包括:海宁窗(hann window)单元101、FFT(FastFourier Transform)单元102、有声性判定单元103、频谱提取单元104、频谱振幅限制单元105、频谱平均值计算单元106、频谱加法单元107、乘幂运算单元108、乘法单元109以及最大值提取单元110。
海宁窗单元101,对分割为规定时间单位的、即帧单位的输入语音信号,进行使用海宁窗口等的窗处理,并将结果输出到FFT单元102。
FFT单元102,对由海宁窗单元101输入的帧,也就是分割为帧单位的语音信号进行FFT,将语音信号变换至频域。由此得到语音功率谱。于是,帧单位的语音信号就成为具有规定频带的语音功率谱。将如此生成的语音功率谱,输出到有声性判定单元103、频谱提取单元104和频谱振幅限制单元105。
有声性判定单元103判定来自FFT单元102的语音功率谱的有声性,也就是判定原来的语音信号是有声还是无声。判定结果输出到频谱提取单元104。
在由有声性判定单元103判定为语音功率谱没有有声性时,频谱提取单元104不进行音调谐波频谱的提取。由此能够降低频谱提取单元104的运算量,进而能够降低音调频率估计装置100整体的运算量。
相对于此,在判定为语音功率谱有有声性时,频谱提取单元104进行音调谐波频谱的提取。更具体来讲,通过提取语音功率谱中的峰值,进行音调谐波频谱的提取。
另外,由频谱振幅限制单元105进行语音功率谱的振幅限制时,频谱提取单元104将该振幅限制的结果反映到所提取的音调谐波频谱,由此限制音调谐波频谱的振幅。这样,能够降低共振峰对音调频率估计的精确度的影响。音调谐波频谱输出到频谱平均值计算单元106和频谱加法单元107。
频谱振幅限制单元105对由FFT单元102得到的语音功率谱的振幅进行限制,以使其不超过规定的阈值。语音功率谱的振幅限制的结果输出到频谱提取单元104。
频谱平均值计算单元106,相对于多个音调频率候补的每一个,计算来自频谱提取单元104的音调谐波频谱的功率平均值。也就是说,在音调谐波频谱中,一边将音调频率候补从规定的最小值渐渐移动到规定的最大值,一边对相当于音调频率候补的整数倍的频率分量的功率,进行平均值计算。计算出的平均值输出到乘法单元109。
另外,频谱平均值计算单元106在计算平均值时,将与功率的最大值相对应的频率分量,作为在平均值计算的对象频带中的基准频率。
具体来讲,使用从基准频率减去相当于音调频率候补的整数倍的频率而得到的频率处的功率,以及,对基准频率加上相当于音调频率候补的整数倍的频率而得到的频率处的功率,计算平均值。由此,能够降低因语音的准周期特性和噪声的影响以及音调频率估计误差而产生的音调谐波中的误差累积,能够进行更准确的音调频率的估计。
另外,音调谐波频谱的功率平均值为将后述的音调谐波频谱的功率的总和值除以特定的值而得到的值。因此,频谱平均值计算单元106也可以得到由频谱加法单元107计算的总和值,并使用该总和值进行平均值的计算。
频谱加法单元107,相对于多个音调频率候补的每一个,计算来自频谱提取单元104的音调谐波频谱的功率的总和值。也就是说,在音调谐波频谱中,一边将音调频率候补从规定的最小值渐渐移动到规定的最大值,一边对相当于音调频率候补的整数倍的频率分量的功率进行相加。接着,将通过功率相加获得的总和值输出到乘幂运算单元108。
另外,频谱加法单元107在进行功率的相加时,将与功率的最大值相对应的频率分量,作为在总和值计算的对象频带中的基准频率。
具体来讲,使用从基准频率减去相当于音调频率候补的整数倍的频率而得到的频率处的功率,以及,对基准频率加上相当于音调频率候补的整数倍的频率而得到的频率处的功率,计算总和值。由此,能够降低因语音的准周期特性和噪声的影响以及音调频率估计误差而产生的音调谐波中的误差累积,能够更准确地进行音调频率的估计。
乘幂运算单元108,对由频谱加法单元107计算出的总和值进行乘幂值的计算。计算出的乘幂值输出到乘法单元109。此外,乘幂运算单元108将用于乘幂运算的乘数设为变量。对于乘数的变量设置即乘数的调整,将在后面叙述。
乘法单元109和最大值提取单元110的组合构成估计单元,该估计单元使用与多个音调频率候补的每一个相对应地计算出的平均值估计音调频率。
估计单元中,乘法单元109,相对于多个音调频率候补的每一个,将音调谐波频谱的功率平均值和音调谐波频谱的功率的总和值进行乘法运算。更具体来讲,将平均值乘以总和值的乘幂运算结果。将乘法结果输出到最大值提取单元110。
最大值提取单元110提取由乘法单元109计算出的乘法结果的最大值。此外,在从预定的最小值到预定的最大值的多个音调频率候补中,将乘法结果为最大时的音调频率候补确定为所估计的音调频率,并输出到未图示的后级的处理单元。
接下来,对具有上述结构的音调频率估计装置100中的音调频率估计动作进行说明。
首先,通过FFT单元102,获得由下式(2)表示的语音功率谱SF 2(k)。其中,k代表离散频率分量。HF为用于音调频率估计的上限频率分量,例如HF=1[kHz]。Re{DF(k)}和Im{DF(k)}分别代表经FFT变换后的输入语音频谱DF(k)的实部和虚部。
【式2】
S F 2 ( k ) = Re { D F ( k ) } 2 + Im { D F ( k ) } 2 0 ≤ k ≤ H F . . . ( 2 )
另外,虽然在式(2)中使用了频谱的功率值,也可以使用求取了平方根的频谱振幅值代替功率值。
另外,有声性判定单元103判定语音功率谱SF 2(k)的有声性。
更具体来讲,第一,使用下式(3)和(4),分别计算帧m的语音功率谱SF 2(k)的总和值S2(m),以及估计噪声频谱功率的移动平均值N2(m)。其中,α为移动平均系数,而ΘN为用于判定是语音还是噪声的阈值。
【式3】
S 2 ( m ) = Σ k = 1 H F S F 2 ( k ) . . . ( 3 )
【式4】
N 2 ( m ) = N 2 ( m - 1 ) S 2 ( m ) > Θ N · N 2 ( m - 1 ) ( 1 - α ) · N 2 ( m - 1 ) + α · S 2 ( m ) S 2 ( m ) ≤ Θ N · N 2 ( m - 1 ) . . . ( 4 )
然后,第二,使用式(5)计算语音和噪声的比率SNR,并根据该计算结果进行有声性的判定。例如,如式(6)所示,比率SNR大于阈值ΘN时判定为有有声性,而比率SNR为阈值ΘN以下时判定为没有有声性。此外,在此以判定为有有声性的情况为例,进行音调频率估计动作的说明。
【式5】
SNR=(S2(m)-N2(m))/N2(m)  ...(5)
【式6】
然后,频谱提取单元104,使用式(7)提取语音功率谱SF 2(k)的峰值,由此提取音调谐波频谱PF(k)。
【式7】
此时,考虑因语音的准周期特性和噪声的影响而产生的音调谐波频谱的位置偏差(displacement),将位于所提取的峰值附近的语音功率谱SF 2(k-1)和SF 2(k+1),作为音调谐波频谱PF(k-1)和PF(k+1)一并提取,并将在其它频率分量上的语音功率谱看作0。
另外,当由频谱振幅限制单元105对语音功率谱进行振幅限制时,频谱提取单元104将该振幅限制的结果反映到音调谐波频谱PF(k),由此限制音调谐波频谱PF(k)的振幅。
也就是说,将所提取的音调谐波频谱PF(k)与预定值比较。预定值为在频带HF上的语音功率谱SF 2(k)的平均值和乘法系数δ的乘积,由式(8)得到。然后,当音调谐波频谱PF(k)超过预定值时,使用式(9)将音调谐波频谱PF(k)的振幅乘以衰减系数,由此限制音调谐波频谱PF(k)的振幅。衰减系数由式(10)得到。
【式8】
S F 2 ‾ = Σ k = 1 H F S F 2 ( k ) / H F . . . ( 8 )
【式9】
P F ( k ) ⇐ γ · P F ( k ) P F ( k ) > δ · S F 2 ‾ . . . ( 9 )
【式10】
γ = δ · S F 2 ‾ / P F ( k ) . . . ( 10 )
另外,对所提取的音调谐波频谱PF(k-1)和PF(k+1),同样使用式(11)和式(12)进行振幅的限制。
【式11】
P F ( k - 1 ) ⇐ γ · P F ( k - 1 ) . . . ( 11 )
【式12】
P F ( k + 1 ) ⇐ γ · P F ( k + 1 ) . . . ( 12 )
然后,由频谱平均值计算单元106,使用式(13)计算音调谐波频谱PF(k)的功率的平均值PA(i)。
【式13】
P A ( i ) = 1 N ( i ) ( Σ n = 1 N L ( i ) P F ( j - i · n ) + Σ n = 1 N H ( i ) P F ( j + i · n ) ) p MIN ≤ i ≤ p MAX . . . ( 13 )
其中,N(i)=NF/i、NL(i)=j/i且NH(i)=(HF-j)/i。此外,i为音调频率候补,PMIN和PMAX分别为音调频率候补的最小值和最大值。此外,j为与频带HF中的语音功率谱SF 2(k)的最大值相对应的频率分量,n为音调频率的整数倍的系数。
然后,由频谱加法单元107,使用式(14)计算音调谐波频谱PF(k)的功率的总和值PB(i)。
【式14】
P B ( i ) = Σ n = 1 N L ( i ) P F ( j - i · n ) + Σ n = 1 N H ( i ) P F ( j + i · n ) p MIN ≤ i ≤ p MAX . . . ( 14 )
在此,比较式(13)和式(14)可知,平均值PA(i)与总和值PB(i)之间存在式(15)所示的关系。因此,由频谱加法单元107使用式(14)计算总和值PB(i)之后,再由频谱平均值计算单元106使用式(15)代替式(13)来计算平均值PA(i)时,能够进一步降低音调频率估计中的运算量。
【式15】
P A ( i ) = 1 N ( i ) P B ( i ) . . . ( 15 )
然后,由乘幂运算单元108,例如使用式(16)计算总和值PB(i)的乘幂。
【式16】
PC(i)=(PB(i))β  ...(16)
然后,由乘法单元109,使用式(17)将乘幂运算结果PC(i)乘以平均值PA(i)。
【式17】
P D ( i ) = P A ( i ) · P C ( i ) = 1 N ( i ) ( P B ( i ) ) β + 1 . . . ( 17 )
然后,由最大值提取单元110,提取乘法结果PD(i)的最大值PD_max,并将此时的音调频率候补p确定为所估计的音调频率。这样进行音调频率估计操作。
接下来,对用于防止半音调频率误差及倍音调频率误差的条件(以下称为“防止条件”)进行说明。在此以如下两个情形为例进行说明:仅使用音调谐波频谱的功率的平均值进行音调频率估计的情形(以下称为“第一种情形”);以及使用音调谐波频谱的功率的平均值与总和值进行音调频率估计的情形(以下称为“第二种情形”)。
首先,定量求取第一种情形中的防止条件。
使用式(18)表示对于正确估计出的音调频率p的平均值PA(p),则由式(19)得到相对半音调频率p/2的平均值PA(p/2)。
【式18】
P A ( p ) = 1 N ( p ) P B ( p ) . . . ( 18 )
【式19】
P A ( p / 2 ) = 1 2 N ( p ) P B ( p / 2 ) = 1 2 N ( p ) ( P B ( p ) + x · P B ( p ) ) = 1 2 N ( p ) ( 1 + x ) · P B ( p ) . . . ( 19 )
其中,x为表示估计半音调频率p/2时的、相对音调频率p的总和值PB(p)的增加倍率的系数。在仅由平均值PA的最大化估计音调频率的情况下,比较式(18)和式(19)可知,在满足条件PA(p)>PA(p/2)也就是x<1时,能够防止半音调频率差错的发生。也就是说,当总和值PB的增加量不足PB(p)时,能够防止半音调频率差错的发生。
另外,由式(20)得到对倍音调频率2p的平均值PA(2p)。
【式20】
P A ( 2 p ) = 1 N ( p ) / 2 P B ( 2 p ) = 1 N ( p ) / 2 ( P B ( p ) - y · P B ( p ) ) = 1 N ( p ) / 2 ( 1 - y ) · P B ( p ) . . . ( 20 )
其中,y为表示估计倍音调频率2p时的、对于音调频率p的总和值PB(p)的减小倍率的系数。仅由平均值PA的最大化估计音调频率的情况下,比较式(18)和式(20)可知,在满足条件PA(p)>PA(2p)也就是y>0.5时,能够防止倍音调频率差错的发生。也就是说,总和值PB的减少量大于0.5PB(p)时,能够防止倍音调频率差错的发生。
接下来,定量求取第二种情形中的防止条件。
对半音调频率p/2和倍音调频率2p分别求取上述式(17)所示的乘法结果PD(i),则如式(21)和式(22)所示。
【式21】
P D ( p / 2 ) = 1 2 N ( p ) ( P B ( p / 2 ) ) β + 1 = 1 2 N ( p ) ( P B ( p ) + x · P B ( p ) ) β + 1 = 2 2 N ( p ) ( 1 + x ) β + 1 · ( P B ( p ) ) β + 1 . . . ( 21 )
【式22】
P D ( 2 p ) = 1 N ( p ) / 2 ( P B ( 2 p ) ) β + 1 = 1 N ( p ) / 2 ( P B ( p ) - y · P B ( p ) ) β + 1 = 1 N ( p ) / 2 ( 1 - y ) β + 1 · ( P B ( p ) ) β + 1 . . . ( 22 )
通过上述式(17)所示的乘法结果PD(i)的最大化估计音调频率时,在满足条件PD(p)>PD(p/2)时,能够防止半音调频率差错的发生。此外,在满足条件PD(p)>PD(2p)时,能够防止倍音调频率差错的发生。
在此,图2A中表示由频谱提取单元104提取的语音功率谱SF 2(k)的例子。该例子中,假设由P2、P4、P5和P6表示的峰值构成音调谐波频谱。
另外,图2B中表示,在将总和值PB(i)的乘幂的乘数设为1的条件下,平均值PA(i)与总和值PB(i)的相乘结果的例子,而图2C中表示,在将总和值PB(i)的乘幂的乘数设为3的条件下,平均值PA(i)与总和值PB(i)的相乘结果的例子。
然后,使用式(21)变换半音调频率差错的防止条件PD(p)>PD(p/2)的话,乘数为1时则x<0.414,而乘数则为3时x<0.189。此外,使用式(22)变换倍音调频率差错的防止条件PD(p)>PD(2p)的话,乘数为1时y>0.293,而乘数为3时y>0.159。也就是说,在乘数为1的情况下总和值PB的增加量不足0.414PB(p)时,或者在乘数为3的情况下总和值PB的增加量不足0.189PB(p)时,能够防止半音调频率差错的发生。而且,在乘数为1的情况下总和值PB的减小量大于0.293PB(p)时,或者在乘数为3的情况下总和值PB的减小量大于0.159PB(p)时,能够防止倍音调频率差错的发生。
进一步比较第一种情形中的防止条件和第二种情形中的防止条件。作为该比较的结果,可知对于倍音调频率差错的防止条件,第一种情形严于第二种情形。也就是说,发生倍音调频率差错的主要原因为因共振峰而产生的音调谐波频谱振幅值的变动,而关于由该变动不再满足倍音调频率差错的防止条件的概率,第二种情形低于第一种情形。因此,通过使用音调谐波频谱的功率的平均值与总和值进行音调频率估计,能够降低共振峰的影响,从而能够提高音调频率估计的精确度。
再者,通过调整乘幂的乘数,能够自由地调整半音调频率差错的发生概率或倍音调频率差错的发生概率。例如,如上所述,与乘数为1时相比,乘数为3时虽然更容易发生半音调频率差错,但更不容易发生倍音调频率差错。反过来说,与乘数为3时相比,乘数为1时虽然更容易发生倍音调频率差错,但更不容易发生半音调频率差错。因此,在实际情况下,通过根据语音或噪声的状态选择乘数,能够更正确地估计音调频率。例如,在噪声较多的环境下进行音调频率估计时,通过将乘数设为相对较小的值,能够降低半音调频率差错的发生概率。相对于此,通过将乘数设定为相对较大的值,能够降低因共振峰的影响而产生的倍音调频率差错的发生。
在此,通过在相同的条件下且使用相同的音调谐波频谱进行仿真,分别计算基于式(1)所示的自相关法的音调频率估计和本实施例所涉及的音调频率估计的估计差错率。仿真的诸条件如下。海宁窗长度为320、FFT变换长度为512、移动平均系数α为0.02、阈值ΘV为2、乘法系数δ为6、音调频率候补的最小值PMIN为62.5Hz、而音调频率候补的最大值PMAX为390Hz。此外,设乘数β为3。以下为计算出的估计差错率的表格。从该表格可知,通过选择适当的乘数,与基于自相关法的估计相比,本实施例所涉及的音调频率估计能够降低估计差错率。
【表1】
    SNR     0dB     5dB     10dB     15dB
  自相关法     12.8     9.4     7.4     6.2
  本实施例     11.7     5.6     4.7     4.1
如上所述,根据本实施例,由于使用与多个音调频率候补的每一个相对应地计算出的、音调谐波频谱的功率的平均值估计音调频率,也就是不使用频率频谱上的自相关而进行音调频率的估计,所以,不需要用于降低共振峰的影响的频谱平滑处理,而且,例如在满足有关音调谐波频谱的功率的预定的定量条件时,能够防止半音调频率差错和倍音调频率差错的发生,由此能够降低音调频率估计所需的运算量并能够准确估计音调频率。
另外,根据本实施例,通过将音调谐波频谱的功率的平均值与总和值相乘,所述平均值与总和值相对于多个音调频率候补的每一个计算,并将与乘法结果的最大值相对应的音调频率候补确定为估计音调频率。也就是将平均值与总和值的乘法值作为函数进行音调频率的估计,所以,无需进行频谱平滑处理即能够降低共振峰的影响,从而能够提高音调频率估计的精确度。
另外,本实施例的音调频率估计装置及音调频率估计方法,可以适用于进行语音编码或语音增强等语音信号处理的语音信号处理装置及语音信号处理方法。
另外,本发明可以采用各种各样的实施例,而并不限于本实施例中说明的方式。例如,也可以将上述音调频率估计方法作为软件,让计算机执行。也就是说,通过将执行上述实施例中所说明的音调频率估计方法的程序预先记录在例如ROM(Read Only Memory)等记录介质,而使CPU(Central ProcessorUnit)操作该程序,能够执行本发明的音调频率估计方法。
另外,用于上述各实施例的说明中的各功能模块,典型的由集成电路LSI来实现。这些模块既可以分别作成一个芯片,也可以在一个芯片上包括其中一部分或者全部。
虽然每个功能块在此作为LSI描述,但根据集成度的不同也可以称为IC、系统LSI、超LSI以及极大LSI。
另外,集成电路的技术并不限于LSI,也可以使用专用电路或通用处理器来实现。制造LSI后,也可以利用LSI制造后能够编程的FPGA(FieldProgrammable Gate Array,现场可编程门阵列),或利用可以将LSI内部的电路块连接或设置重新配置的可重配置处理器(Reconfigurable Processor)。
而且,如果随着半导体技术或者衍生的其他技术的的进步,出现了替换LSI的集成电路技术,当然,也可以利用该技术来实现功能模块的集成。也有应用生物工程学技术等的可能性。
本说明书根据2004年7月13日提交的日本专利特愿2004-206387号。其内容全部包括在此作为参考。
工业实用性
本发明的音调频率估计装置及音调频率估计方法,可以适用于进行语音编码或语音增强等语音信号处理的装置及方法。

Claims (11)

1、一种音调频率估计装置,包括:
提取单元,用于从语音调谱中提取音调谐波频谱;
平均值计算单元,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计单元,用于使用所述平均值估计音调频率。
2、如权利要求1所述的音调频率估计装置,还包括:
总和值计算单元,用于相对于所述多个音调频率候补的每一个,计算所述音调谐波频谱的功率的总和值;
其中,所述估计单元,使用所述总和值估计音调频率。
3、如权利要求2所述的音调频率估计装置,其中,
所述估计单元还包括:
乘法单元,用于相对于所述多个音调频率候补的每一个,将所述平均值与所述总和值相乘;以及
确定单元,用于在所述多个音调频率候补中,将与所述乘法单元的乘法结果的最大值相对应的音调频率候补确定为所估计的音调频率。
4、如权利要求2所述的音调频率估计装置,其中,
所述平均值计算单元,使用与所述语音调谱中的功率的最大值相对应的频率分量作为基准频率,而计算所述平均值。
5、如权利要求2所述的音调频率估计装置,其中,
所述总和值计算单元,使用与所述语音调谱中的功率的最大值相对应的频率分量作为基准频率,而计算所述总和值。
6、如权利要求3所述的音调频率估计装置,还包括:
乘幂运算单元,用于计算所述总和值的乘幂;其中,
所述乘法单元将由所述乘幂运算单元的计算结果与所述平均值相乘;
所述乘幂运算单元将用于所述乘幂运算的乘数设为变量。
7、如权利要求2所述的音调频率估计装置,其中,
所述平均值计算单元使用所述总和值计算所述平均值。
8、如权利要求2所述的音调频率估计装置,还包括:
振幅限制单元,用于限制所述音调谐波频谱的振幅。
9、如权利要求2所述的音调频率估计装置,还包括:
判定单元,用于判定所述语音调谱的有声性;其中,
所述提取单元,在根据所述判定单元的判定结果,所述语音调谱的有声性为预定水平以下时,不进行所述音调谐波频谱的提取。
10、一种音调频率估计方法,包括:
提取步骤,用于从语音调谱中提取音调谐波频谱;
平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计步骤,用于使用所述平均值估计音调频率。
11、一种音调频率估计程序,用于使计算机实现:
提取步骤,用于从语音调谱中提取音调谐波频谱;
平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计步骤,用于使用所述平均值估计音调频率。
CNA2005800237482A 2004-07-13 2005-06-23 音调频率估计装置以及音调频率估计方法 Pending CN1998045A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP206387/2004 2004-07-13
JP2004206387 2004-07-13

Publications (1)

Publication Number Publication Date
CN1998045A true CN1998045A (zh) 2007-07-11

Family

ID=35783714

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800237482A Pending CN1998045A (zh) 2004-07-13 2005-06-23 音调频率估计装置以及音调频率估计方法

Country Status (5)

Country Link
US (1) US20070299658A1 (zh)
EP (1) EP1783743A4 (zh)
JP (1) JPWO2006006366A1 (zh)
CN (1) CN1998045A (zh)
WO (1) WO2006006366A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853240B (zh) * 2009-03-31 2012-07-04 华为技术有限公司 一种信号周期的估计方法和装置
CN106034099A (zh) * 2015-03-12 2016-10-19 富士通株式会社 多载波信号的限幅失真的估计装置、补偿装置以及接收机
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8432057B2 (en) 2007-05-01 2013-04-30 Pliant Energy Systems Llc Pliant or compliant elements for harnessing the forces of moving fluid to transport fluid or generate electricity
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US5365592A (en) * 1990-07-19 1994-11-15 Hughes Aircraft Company Digital voice detection apparatus and method using transform domain processing
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
US20070110042A1 (en) * 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
JP3960834B2 (ja) * 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法
JP4128848B2 (ja) * 2002-10-28 2008-07-30 日本電信電話株式会社 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
US7305339B2 (en) * 2003-04-01 2007-12-04 International Business Machines Corporation Restoration of high-order Mel Frequency Cepstral Coefficients
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JPWO2005124739A1 (ja) * 2004-06-18 2008-04-17 松下電器産業株式会社 雑音抑圧装置および雑音抑圧方法
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
KR101248353B1 (ko) * 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
WO2007037361A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853240B (zh) * 2009-03-31 2012-07-04 华为技术有限公司 一种信号周期的估计方法和装置
CN106034099A (zh) * 2015-03-12 2016-10-19 富士通株式会社 多载波信号的限幅失真的估计装置、补偿装置以及接收机
CN106034099B (zh) * 2015-03-12 2019-06-21 富士通株式会社 多载波信号的限幅失真的估计装置、补偿装置以及接收机
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Also Published As

Publication number Publication date
EP1783743A1 (en) 2007-05-09
US20070299658A1 (en) 2007-12-27
WO2006006366A1 (ja) 2006-01-19
EP1783743A4 (en) 2007-07-25
JPWO2006006366A1 (ja) 2008-04-24

Similar Documents

Publication Publication Date Title
CN1998045A (zh) 音调频率估计装置以及音调频率估计方法
CN101770779B (zh) 嘈杂的声学信号中的噪声频谱跟踪
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
Ghahremani et al. A pitch extraction algorithm tuned for automatic speech recognition
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
US7725314B2 (en) Method and apparatus for constructing a speech filter using estimates of clean speech and noise
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US20080281589A1 (en) Noise Suppression Device and Noise Suppression Method
US20090043570A1 (en) Method for processing speech signal data
CN104685562A (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
CN101853661A (zh) 基于非监督学习的噪声谱估计与语音活动度检测方法
US20050267739A1 (en) Neuroevolution based artificial bandwidth expansion of telephone band speech
CN102930863A (zh) 一种基于简化自适应内插加权谱模型的语音转换及重构方法
US8150690B2 (en) Speech recognition system and method with cepstral noise subtraction
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
US20220130406A1 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
Islam et al. Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation
Hanilçi et al. Regularization of all-pole models for speaker verification under additive noise
Ben Messaoud et al. An efficient method for fundamental frequency determination of noisy speech
Gao et al. DNN-based speech separation with joint improved distortion constraints
Gamliel et al. Perceptual time varying linear prediction model for speech applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070711