CN1998045A - 音调频率估计装置以及音调频率估计方法 - Google Patents
音调频率估计装置以及音调频率估计方法 Download PDFInfo
- Publication number
- CN1998045A CN1998045A CNA2005800237482A CN200580023748A CN1998045A CN 1998045 A CN1998045 A CN 1998045A CN A2005800237482 A CNA2005800237482 A CN A2005800237482A CN 200580023748 A CN200580023748 A CN 200580023748A CN 1998045 A CN1998045 A CN 1998045A
- Authority
- CN
- China
- Prior art keywords
- frequency
- pitch
- spectrum
- unit
- pitch frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 122
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000003595 spectral effect Effects 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 5
- 239000011295 pitch Substances 0.000 description 142
- 238000012935 Averaging Methods 0.000 description 9
- 238000005311 autocorrelation function Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000020509 sex determination Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000007115 recruitment Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measuring Frequencies, Analyzing Spectra (AREA)
Abstract
提供一种音调频率估计装置,其能够降低音调频率估计所需的运算量,并能准确地估计音调频率。在该装置中,频谱提取单元(104)从语音调谱中提取音调谐波频谱。频谱平均值计算单元(106),与多个音调频率候补的每一个分别相对应地计算由频谱提取单元(104)提取的音调谐波频谱的功率平均值。估计单元使用由频谱平均值计算单元(106)计算出的平均值估计音调频率。
Description
技术领域
本发明涉及音调频率估计装置以及音调频率估计方法,特别涉及在频域进行音调频率估计的音调频率估计装置以及音调频率估计方法。
背景技术
一般来讲,作为在时域或频域估计语音的音调频率的方法,有为众所知的自相关法和修正的相关法(modified correlation)等,所述自相关法是根据语音波形的自相关函数的方法,而所述修正的相关法是根据LPC(LinearPredictive Coding,线性预测编码)分析的残差信号的自相关函数的方法。
另外,在频域进行噪声抑制和语音编码等语音处理的情况下,有时通过在频域估计音调频率,匹配性(consistency)会得到改善。作为在频域的音调频率估计方法,有通过对频谱的自相关函数最大化来计算音调频率的方法,其一般式如下式(1)所示。该式中,将使自相关函数R(i)最大的音调频率候补(candidate)i作为估计音调频率。
【式1】
其中,k为离散频率分量,P(k)为音调谐波频谱的功率,PMIN和PMAX分别为音调频率候补i的最小值和最大值。
可是,频域中的使用自相关函数的音调频率估计方法,由于语音信号的共振峰(formant)的影响,有时会错误地计算音调频率的倍数(倍音调频率误差)。
作为降低共振峰的影响而进行音调频率估计的以往的方法,有例如非专利文献1所公开的方法。该方法中,所用的频谱为使用频谱包络的信息对频谱进行平滑之后的频谱。
非专利文献1:″A spectral autocorrelation method for measurement of thefundamental frequency of noise-corrupted speech″,M.Lahat,IEEE Trans.onAcoustics,Speech,and Signal Processing,vol.ASSP-35,no.6,pp.741-750,1987
发明内容
发明要解决的问题
然而,由于上述以往的音调频率估计方法中进行频谱的平滑处理,所以,存在音调频率估计所需的运算量会增加的问题。
本发明旨在提供一种音调频率估计装置以及音调频率估计方法,能够降低音调频率估计所需的运算量,并能准确估计音调频率。
解决问题的方案
本发明的音调频率估计装置的结构包括:提取单元,用于从语音调谱中提取音调谐波频谱;平均值计算单元,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计单元,用于使用所述平均值估计音调频率。
本发明的音调频率估计方法包括:提取步骤,用于从语音调谱中提取音调谐波频谱;平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计步骤,用于使用所述平均值估计音调频率。
本发明的音调频率估计程序使计算机实现:提取步骤,用于从语音调谱中提取音调谐波频谱;平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及估计步骤,用于使用所述平均值估计音调频率。
发明效果
根据本发明,能够降低音调频率估计所需的运算量,并能准确地估计音调频率。
附图说明
图1是表示本发明的一个实施例所涉及的音调频率估计装置的结构的方框图;
图2A是表示在本发明的一个实施例中所提取的语音功率谱的例子的图;
图2B是在本发明的一个实施例中,在将乘数设为某个值的条件下将平均值与总和值相乘的结果的图;以及
图2C是在本发明的一个实施例中,在将乘数设为另外的值的条件下将平均值与总和值相乘的结果的图。
具体实施方式
以下,参照附图详细说明本发明的实施例。
图1是表示本发明的一个实施例所涉及的音调频率估计装置的结构的方框图。音调频率估计装置100包括:海宁窗(hann window)单元101、FFT(FastFourier Transform)单元102、有声性判定单元103、频谱提取单元104、频谱振幅限制单元105、频谱平均值计算单元106、频谱加法单元107、乘幂运算单元108、乘法单元109以及最大值提取单元110。
海宁窗单元101,对分割为规定时间单位的、即帧单位的输入语音信号,进行使用海宁窗口等的窗处理,并将结果输出到FFT单元102。
FFT单元102,对由海宁窗单元101输入的帧,也就是分割为帧单位的语音信号进行FFT,将语音信号变换至频域。由此得到语音功率谱。于是,帧单位的语音信号就成为具有规定频带的语音功率谱。将如此生成的语音功率谱,输出到有声性判定单元103、频谱提取单元104和频谱振幅限制单元105。
有声性判定单元103判定来自FFT单元102的语音功率谱的有声性,也就是判定原来的语音信号是有声还是无声。判定结果输出到频谱提取单元104。
在由有声性判定单元103判定为语音功率谱没有有声性时,频谱提取单元104不进行音调谐波频谱的提取。由此能够降低频谱提取单元104的运算量,进而能够降低音调频率估计装置100整体的运算量。
相对于此,在判定为语音功率谱有有声性时,频谱提取单元104进行音调谐波频谱的提取。更具体来讲,通过提取语音功率谱中的峰值,进行音调谐波频谱的提取。
另外,由频谱振幅限制单元105进行语音功率谱的振幅限制时,频谱提取单元104将该振幅限制的结果反映到所提取的音调谐波频谱,由此限制音调谐波频谱的振幅。这样,能够降低共振峰对音调频率估计的精确度的影响。音调谐波频谱输出到频谱平均值计算单元106和频谱加法单元107。
频谱振幅限制单元105对由FFT单元102得到的语音功率谱的振幅进行限制,以使其不超过规定的阈值。语音功率谱的振幅限制的结果输出到频谱提取单元104。
频谱平均值计算单元106,相对于多个音调频率候补的每一个,计算来自频谱提取单元104的音调谐波频谱的功率平均值。也就是说,在音调谐波频谱中,一边将音调频率候补从规定的最小值渐渐移动到规定的最大值,一边对相当于音调频率候补的整数倍的频率分量的功率,进行平均值计算。计算出的平均值输出到乘法单元109。
另外,频谱平均值计算单元106在计算平均值时,将与功率的最大值相对应的频率分量,作为在平均值计算的对象频带中的基准频率。
具体来讲,使用从基准频率减去相当于音调频率候补的整数倍的频率而得到的频率处的功率,以及,对基准频率加上相当于音调频率候补的整数倍的频率而得到的频率处的功率,计算平均值。由此,能够降低因语音的准周期特性和噪声的影响以及音调频率估计误差而产生的音调谐波中的误差累积,能够进行更准确的音调频率的估计。
另外,音调谐波频谱的功率平均值为将后述的音调谐波频谱的功率的总和值除以特定的值而得到的值。因此,频谱平均值计算单元106也可以得到由频谱加法单元107计算的总和值,并使用该总和值进行平均值的计算。
频谱加法单元107,相对于多个音调频率候补的每一个,计算来自频谱提取单元104的音调谐波频谱的功率的总和值。也就是说,在音调谐波频谱中,一边将音调频率候补从规定的最小值渐渐移动到规定的最大值,一边对相当于音调频率候补的整数倍的频率分量的功率进行相加。接着,将通过功率相加获得的总和值输出到乘幂运算单元108。
另外,频谱加法单元107在进行功率的相加时,将与功率的最大值相对应的频率分量,作为在总和值计算的对象频带中的基准频率。
具体来讲,使用从基准频率减去相当于音调频率候补的整数倍的频率而得到的频率处的功率,以及,对基准频率加上相当于音调频率候补的整数倍的频率而得到的频率处的功率,计算总和值。由此,能够降低因语音的准周期特性和噪声的影响以及音调频率估计误差而产生的音调谐波中的误差累积,能够更准确地进行音调频率的估计。
乘幂运算单元108,对由频谱加法单元107计算出的总和值进行乘幂值的计算。计算出的乘幂值输出到乘法单元109。此外,乘幂运算单元108将用于乘幂运算的乘数设为变量。对于乘数的变量设置即乘数的调整,将在后面叙述。
乘法单元109和最大值提取单元110的组合构成估计单元,该估计单元使用与多个音调频率候补的每一个相对应地计算出的平均值估计音调频率。
估计单元中,乘法单元109,相对于多个音调频率候补的每一个,将音调谐波频谱的功率平均值和音调谐波频谱的功率的总和值进行乘法运算。更具体来讲,将平均值乘以总和值的乘幂运算结果。将乘法结果输出到最大值提取单元110。
最大值提取单元110提取由乘法单元109计算出的乘法结果的最大值。此外,在从预定的最小值到预定的最大值的多个音调频率候补中,将乘法结果为最大时的音调频率候补确定为所估计的音调频率,并输出到未图示的后级的处理单元。
接下来,对具有上述结构的音调频率估计装置100中的音调频率估计动作进行说明。
首先,通过FFT单元102,获得由下式(2)表示的语音功率谱SF 2(k)。其中,k代表离散频率分量。HF为用于音调频率估计的上限频率分量,例如HF=1[kHz]。Re{DF(k)}和Im{DF(k)}分别代表经FFT变换后的输入语音频谱DF(k)的实部和虚部。
【式2】
另外,虽然在式(2)中使用了频谱的功率值,也可以使用求取了平方根的频谱振幅值代替功率值。
另外,有声性判定单元103判定语音功率谱SF 2(k)的有声性。
更具体来讲,第一,使用下式(3)和(4),分别计算帧m的语音功率谱SF 2(k)的总和值S2(m),以及估计噪声频谱功率的移动平均值N2(m)。其中,α为移动平均系数,而ΘN为用于判定是语音还是噪声的阈值。
【式3】
【式4】
然后,第二,使用式(5)计算语音和噪声的比率SNR,并根据该计算结果进行有声性的判定。例如,如式(6)所示,比率SNR大于阈值ΘN时判定为有有声性,而比率SNR为阈值ΘN以下时判定为没有有声性。此外,在此以判定为有有声性的情况为例,进行音调频率估计动作的说明。
【式5】
SNR=(S2(m)-N2(m))/N2(m) ...(5)
【式6】
然后,频谱提取单元104,使用式(7)提取语音功率谱SF 2(k)的峰值,由此提取音调谐波频谱PF(k)。
【式7】
此时,考虑因语音的准周期特性和噪声的影响而产生的音调谐波频谱的位置偏差(displacement),将位于所提取的峰值附近的语音功率谱SF 2(k-1)和SF 2(k+1),作为音调谐波频谱PF(k-1)和PF(k+1)一并提取,并将在其它频率分量上的语音功率谱看作0。
另外,当由频谱振幅限制单元105对语音功率谱进行振幅限制时,频谱提取单元104将该振幅限制的结果反映到音调谐波频谱PF(k),由此限制音调谐波频谱PF(k)的振幅。
也就是说,将所提取的音调谐波频谱PF(k)与预定值比较。预定值为在频带HF上的语音功率谱SF 2(k)的平均值和乘法系数δ的乘积,由式(8)得到。然后,当音调谐波频谱PF(k)超过预定值时,使用式(9)将音调谐波频谱PF(k)的振幅乘以衰减系数,由此限制音调谐波频谱PF(k)的振幅。衰减系数由式(10)得到。
【式8】
【式9】
【式10】
另外,对所提取的音调谐波频谱PF(k-1)和PF(k+1),同样使用式(11)和式(12)进行振幅的限制。
【式11】
【式12】
然后,由频谱平均值计算单元106,使用式(13)计算音调谐波频谱PF(k)的功率的平均值PA(i)。
【式13】
其中,N(i)=NF/i、NL(i)=j/i且NH(i)=(HF-j)/i。此外,i为音调频率候补,PMIN和PMAX分别为音调频率候补的最小值和最大值。此外,j为与频带HF中的语音功率谱SF 2(k)的最大值相对应的频率分量,n为音调频率的整数倍的系数。
然后,由频谱加法单元107,使用式(14)计算音调谐波频谱PF(k)的功率的总和值PB(i)。
【式14】
在此,比较式(13)和式(14)可知,平均值PA(i)与总和值PB(i)之间存在式(15)所示的关系。因此,由频谱加法单元107使用式(14)计算总和值PB(i)之后,再由频谱平均值计算单元106使用式(15)代替式(13)来计算平均值PA(i)时,能够进一步降低音调频率估计中的运算量。
【式15】
然后,由乘幂运算单元108,例如使用式(16)计算总和值PB(i)的乘幂。
【式16】
PC(i)=(PB(i))β ...(16)
然后,由乘法单元109,使用式(17)将乘幂运算结果PC(i)乘以平均值PA(i)。
【式17】
然后,由最大值提取单元110,提取乘法结果PD(i)的最大值PD_max,并将此时的音调频率候补p确定为所估计的音调频率。这样进行音调频率估计操作。
接下来,对用于防止半音调频率误差及倍音调频率误差的条件(以下称为“防止条件”)进行说明。在此以如下两个情形为例进行说明:仅使用音调谐波频谱的功率的平均值进行音调频率估计的情形(以下称为“第一种情形”);以及使用音调谐波频谱的功率的平均值与总和值进行音调频率估计的情形(以下称为“第二种情形”)。
首先,定量求取第一种情形中的防止条件。
使用式(18)表示对于正确估计出的音调频率p的平均值PA(p),则由式(19)得到相对半音调频率p/2的平均值PA(p/2)。
【式18】
【式19】
其中,x为表示估计半音调频率p/2时的、相对音调频率p的总和值PB(p)的增加倍率的系数。在仅由平均值PA的最大化估计音调频率的情况下,比较式(18)和式(19)可知,在满足条件PA(p)>PA(p/2)也就是x<1时,能够防止半音调频率差错的发生。也就是说,当总和值PB的增加量不足PB(p)时,能够防止半音调频率差错的发生。
另外,由式(20)得到对倍音调频率2p的平均值PA(2p)。
【式20】
其中,y为表示估计倍音调频率2p时的、对于音调频率p的总和值PB(p)的减小倍率的系数。仅由平均值PA的最大化估计音调频率的情况下,比较式(18)和式(20)可知,在满足条件PA(p)>PA(2p)也就是y>0.5时,能够防止倍音调频率差错的发生。也就是说,总和值PB的减少量大于0.5PB(p)时,能够防止倍音调频率差错的发生。
接下来,定量求取第二种情形中的防止条件。
对半音调频率p/2和倍音调频率2p分别求取上述式(17)所示的乘法结果PD(i),则如式(21)和式(22)所示。
【式21】
【式22】
通过上述式(17)所示的乘法结果PD(i)的最大化估计音调频率时,在满足条件PD(p)>PD(p/2)时,能够防止半音调频率差错的发生。此外,在满足条件PD(p)>PD(2p)时,能够防止倍音调频率差错的发生。
在此,图2A中表示由频谱提取单元104提取的语音功率谱SF 2(k)的例子。该例子中,假设由P2、P4、P5和P6表示的峰值构成音调谐波频谱。
另外,图2B中表示,在将总和值PB(i)的乘幂的乘数设为1的条件下,平均值PA(i)与总和值PB(i)的相乘结果的例子,而图2C中表示,在将总和值PB(i)的乘幂的乘数设为3的条件下,平均值PA(i)与总和值PB(i)的相乘结果的例子。
然后,使用式(21)变换半音调频率差错的防止条件PD(p)>PD(p/2)的话,乘数为1时则x<0.414,而乘数则为3时x<0.189。此外,使用式(22)变换倍音调频率差错的防止条件PD(p)>PD(2p)的话,乘数为1时y>0.293,而乘数为3时y>0.159。也就是说,在乘数为1的情况下总和值PB的增加量不足0.414PB(p)时,或者在乘数为3的情况下总和值PB的增加量不足0.189PB(p)时,能够防止半音调频率差错的发生。而且,在乘数为1的情况下总和值PB的减小量大于0.293PB(p)时,或者在乘数为3的情况下总和值PB的减小量大于0.159PB(p)时,能够防止倍音调频率差错的发生。
进一步比较第一种情形中的防止条件和第二种情形中的防止条件。作为该比较的结果,可知对于倍音调频率差错的防止条件,第一种情形严于第二种情形。也就是说,发生倍音调频率差错的主要原因为因共振峰而产生的音调谐波频谱振幅值的变动,而关于由该变动不再满足倍音调频率差错的防止条件的概率,第二种情形低于第一种情形。因此,通过使用音调谐波频谱的功率的平均值与总和值进行音调频率估计,能够降低共振峰的影响,从而能够提高音调频率估计的精确度。
再者,通过调整乘幂的乘数,能够自由地调整半音调频率差错的发生概率或倍音调频率差错的发生概率。例如,如上所述,与乘数为1时相比,乘数为3时虽然更容易发生半音调频率差错,但更不容易发生倍音调频率差错。反过来说,与乘数为3时相比,乘数为1时虽然更容易发生倍音调频率差错,但更不容易发生半音调频率差错。因此,在实际情况下,通过根据语音或噪声的状态选择乘数,能够更正确地估计音调频率。例如,在噪声较多的环境下进行音调频率估计时,通过将乘数设为相对较小的值,能够降低半音调频率差错的发生概率。相对于此,通过将乘数设定为相对较大的值,能够降低因共振峰的影响而产生的倍音调频率差错的发生。
在此,通过在相同的条件下且使用相同的音调谐波频谱进行仿真,分别计算基于式(1)所示的自相关法的音调频率估计和本实施例所涉及的音调频率估计的估计差错率。仿真的诸条件如下。海宁窗长度为320、FFT变换长度为512、移动平均系数α为0.02、阈值ΘV为2、乘法系数δ为6、音调频率候补的最小值PMIN为62.5Hz、而音调频率候补的最大值PMAX为390Hz。此外,设乘数β为3。以下为计算出的估计差错率的表格。从该表格可知,通过选择适当的乘数,与基于自相关法的估计相比,本实施例所涉及的音调频率估计能够降低估计差错率。
【表1】
SNR | 0dB | 5dB | 10dB | 15dB |
自相关法 | 12.8 | 9.4 | 7.4 | 6.2 |
本实施例 | 11.7 | 5.6 | 4.7 | 4.1 |
如上所述,根据本实施例,由于使用与多个音调频率候补的每一个相对应地计算出的、音调谐波频谱的功率的平均值估计音调频率,也就是不使用频率频谱上的自相关而进行音调频率的估计,所以,不需要用于降低共振峰的影响的频谱平滑处理,而且,例如在满足有关音调谐波频谱的功率的预定的定量条件时,能够防止半音调频率差错和倍音调频率差错的发生,由此能够降低音调频率估计所需的运算量并能够准确估计音调频率。
另外,根据本实施例,通过将音调谐波频谱的功率的平均值与总和值相乘,所述平均值与总和值相对于多个音调频率候补的每一个计算,并将与乘法结果的最大值相对应的音调频率候补确定为估计音调频率。也就是将平均值与总和值的乘法值作为函数进行音调频率的估计,所以,无需进行频谱平滑处理即能够降低共振峰的影响,从而能够提高音调频率估计的精确度。
另外,本实施例的音调频率估计装置及音调频率估计方法,可以适用于进行语音编码或语音增强等语音信号处理的语音信号处理装置及语音信号处理方法。
另外,本发明可以采用各种各样的实施例,而并不限于本实施例中说明的方式。例如,也可以将上述音调频率估计方法作为软件,让计算机执行。也就是说,通过将执行上述实施例中所说明的音调频率估计方法的程序预先记录在例如ROM(Read Only Memory)等记录介质,而使CPU(Central ProcessorUnit)操作该程序,能够执行本发明的音调频率估计方法。
另外,用于上述各实施例的说明中的各功能模块,典型的由集成电路LSI来实现。这些模块既可以分别作成一个芯片,也可以在一个芯片上包括其中一部分或者全部。
虽然每个功能块在此作为LSI描述,但根据集成度的不同也可以称为IC、系统LSI、超LSI以及极大LSI。
另外,集成电路的技术并不限于LSI,也可以使用专用电路或通用处理器来实现。制造LSI后,也可以利用LSI制造后能够编程的FPGA(FieldProgrammable Gate Array,现场可编程门阵列),或利用可以将LSI内部的电路块连接或设置重新配置的可重配置处理器(Reconfigurable Processor)。
而且,如果随着半导体技术或者衍生的其他技术的的进步,出现了替换LSI的集成电路技术,当然,也可以利用该技术来实现功能模块的集成。也有应用生物工程学技术等的可能性。
本说明书根据2004年7月13日提交的日本专利特愿2004-206387号。其内容全部包括在此作为参考。
工业实用性
本发明的音调频率估计装置及音调频率估计方法,可以适用于进行语音编码或语音增强等语音信号处理的装置及方法。
Claims (11)
1、一种音调频率估计装置,包括:
提取单元,用于从语音调谱中提取音调谐波频谱;
平均值计算单元,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计单元,用于使用所述平均值估计音调频率。
2、如权利要求1所述的音调频率估计装置,还包括:
总和值计算单元,用于相对于所述多个音调频率候补的每一个,计算所述音调谐波频谱的功率的总和值;
其中,所述估计单元,使用所述总和值估计音调频率。
3、如权利要求2所述的音调频率估计装置,其中,
所述估计单元还包括:
乘法单元,用于相对于所述多个音调频率候补的每一个,将所述平均值与所述总和值相乘;以及
确定单元,用于在所述多个音调频率候补中,将与所述乘法单元的乘法结果的最大值相对应的音调频率候补确定为所估计的音调频率。
4、如权利要求2所述的音调频率估计装置,其中,
所述平均值计算单元,使用与所述语音调谱中的功率的最大值相对应的频率分量作为基准频率,而计算所述平均值。
5、如权利要求2所述的音调频率估计装置,其中,
所述总和值计算单元,使用与所述语音调谱中的功率的最大值相对应的频率分量作为基准频率,而计算所述总和值。
6、如权利要求3所述的音调频率估计装置,还包括:
乘幂运算单元,用于计算所述总和值的乘幂;其中,
所述乘法单元将由所述乘幂运算单元的计算结果与所述平均值相乘;
所述乘幂运算单元将用于所述乘幂运算的乘数设为变量。
7、如权利要求2所述的音调频率估计装置,其中,
所述平均值计算单元使用所述总和值计算所述平均值。
8、如权利要求2所述的音调频率估计装置,还包括:
振幅限制单元,用于限制所述音调谐波频谱的振幅。
9、如权利要求2所述的音调频率估计装置,还包括:
判定单元,用于判定所述语音调谱的有声性;其中,
所述提取单元,在根据所述判定单元的判定结果,所述语音调谱的有声性为预定水平以下时,不进行所述音调谐波频谱的提取。
10、一种音调频率估计方法,包括:
提取步骤,用于从语音调谱中提取音调谐波频谱;
平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计步骤,用于使用所述平均值估计音调频率。
11、一种音调频率估计程序,用于使计算机实现:
提取步骤,用于从语音调谱中提取音调谐波频谱;
平均值计算步骤,用于相对于多个音调频率候补的每一个,计算所述音调谐波频谱的功率的平均值;以及
估计步骤,用于使用所述平均值估计音调频率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP206387/2004 | 2004-07-13 | ||
JP2004206387 | 2004-07-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1998045A true CN1998045A (zh) | 2007-07-11 |
Family
ID=35783714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800237482A Pending CN1998045A (zh) | 2004-07-13 | 2005-06-23 | 音调频率估计装置以及音调频率估计方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070299658A1 (zh) |
EP (1) | EP1783743A4 (zh) |
JP (1) | JPWO2006006366A1 (zh) |
CN (1) | CN1998045A (zh) |
WO (1) | WO2006006366A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853240B (zh) * | 2009-03-31 | 2012-07-04 | 华为技术有限公司 | 一种信号周期的估计方法和装置 |
CN106034099A (zh) * | 2015-03-12 | 2016-10-19 | 富士通株式会社 | 多载波信号的限幅失真的估计装置、补偿装置以及接收机 |
CN110379438A (zh) * | 2019-07-24 | 2019-10-25 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8432057B2 (en) | 2007-05-01 | 2013-04-30 | Pliant Energy Systems Llc | Pliant or compliant elements for harnessing the forces of moving fluid to transport fluid or generate electricity |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
US8831933B2 (en) | 2010-07-30 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
JP6907859B2 (ja) * | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
JP6904198B2 (ja) * | 2017-09-25 | 2021-07-14 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US5365592A (en) * | 1990-07-19 | 1994-11-15 | Hughes Aircraft Company | Digital voice detection apparatus and method using transform domain processing |
US6470309B1 (en) * | 1998-05-08 | 2002-10-22 | Texas Instruments Incorporated | Subframe-based correlation |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6370500B1 (en) * | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
US20070110042A1 (en) * | 1999-12-09 | 2007-05-17 | Henry Li | Voice and data exchange over a packet based network |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
JP3960834B2 (ja) * | 2002-03-19 | 2007-08-15 | 松下電器産業株式会社 | 音声強調装置及び音声強調方法 |
JP4128848B2 (ja) * | 2002-10-28 | 2008-07-30 | 日本電信電話株式会社 | 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体 |
US7305339B2 (en) * | 2003-04-01 | 2007-12-04 | International Business Machines Corporation | Restoration of high-order Mel Frequency Cepstral Coefficients |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
JPWO2005124739A1 (ja) * | 2004-06-18 | 2008-04-17 | 松下電器産業株式会社 | 雑音抑圧装置および雑音抑圧方法 |
US7788091B2 (en) * | 2004-09-22 | 2010-08-31 | Texas Instruments Incorporated | Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
KR101248353B1 (ko) * | 2005-06-09 | 2013-04-02 | 가부시키가이샤 에이.지.아이 | 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램 |
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
WO2007037361A1 (ja) * | 2005-09-30 | 2007-04-05 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
-
2005
- 2005-06-23 EP EP05753198A patent/EP1783743A4/en not_active Withdrawn
- 2005-06-23 CN CNA2005800237482A patent/CN1998045A/zh active Pending
- 2005-06-23 US US11/632,063 patent/US20070299658A1/en not_active Abandoned
- 2005-06-23 WO PCT/JP2005/011533 patent/WO2006006366A1/ja not_active Application Discontinuation
- 2005-06-23 JP JP2006528586A patent/JPWO2006006366A1/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853240B (zh) * | 2009-03-31 | 2012-07-04 | 华为技术有限公司 | 一种信号周期的估计方法和装置 |
CN106034099A (zh) * | 2015-03-12 | 2016-10-19 | 富士通株式会社 | 多载波信号的限幅失真的估计装置、补偿装置以及接收机 |
CN106034099B (zh) * | 2015-03-12 | 2019-06-21 | 富士通株式会社 | 多载波信号的限幅失真的估计装置、补偿装置以及接收机 |
CN110379438A (zh) * | 2019-07-24 | 2019-10-25 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP1783743A1 (en) | 2007-05-09 |
US20070299658A1 (en) | 2007-12-27 |
WO2006006366A1 (ja) | 2006-01-19 |
EP1783743A4 (en) | 2007-07-25 |
JPWO2006006366A1 (ja) | 2008-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1998045A (zh) | 音调频率估计装置以及音调频率估计方法 | |
CN101770779B (zh) | 嘈杂的声学信号中的噪声频谱跟踪 | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
Ghahremani et al. | A pitch extraction algorithm tuned for automatic speech recognition | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
US7725314B2 (en) | Method and apparatus for constructing a speech filter using estimates of clean speech and noise | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
KR100919223B1 (ko) | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 | |
US20080281589A1 (en) | Noise Suppression Device and Noise Suppression Method | |
US20090043570A1 (en) | Method for processing speech signal data | |
CN104685562A (zh) | 用于从嘈杂输入信号中重构目标信号的方法和设备 | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN101853661A (zh) | 基于非监督学习的噪声谱估计与语音活动度检测方法 | |
US20050267739A1 (en) | Neuroevolution based artificial bandwidth expansion of telephone band speech | |
CN102930863A (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
US8150690B2 (en) | Speech recognition system and method with cepstral noise subtraction | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
US20220130406A1 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
Islam et al. | Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation | |
Hanilçi et al. | Regularization of all-pole models for speaker verification under additive noise | |
Ben Messaoud et al. | An efficient method for fundamental frequency determination of noisy speech | |
Gao et al. | DNN-based speech separation with joint improved distortion constraints | |
Gamliel et al. | Perceptual time varying linear prediction model for speech applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070711 |