CN103189916A - 估计信号模式的方法和设备 - Google Patents
估计信号模式的方法和设备 Download PDFInfo
- Publication number
- CN103189916A CN103189916A CN2011800543549A CN201180054354A CN103189916A CN 103189916 A CN103189916 A CN 103189916A CN 2011800543549 A CN2011800543549 A CN 2011800543549A CN 201180054354 A CN201180054354 A CN 201180054354A CN 103189916 A CN103189916 A CN 103189916A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency spectrum
- frequency
- spectrum
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 107
- 230000000737 periodic effect Effects 0.000 claims abstract description 7
- 230000001427 coherent effect Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 28
- 230000003595 spectral effect Effects 0.000 claims description 20
- 230000006835 compression Effects 0.000 claims description 15
- 238000007906 compression Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000005056 compaction Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011328 necessary treatment Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Radar Systems Or Details Thereof (AREA)
- Measurement Of Resistance Or Impedance (AREA)
Abstract
本发明涉及一种用于估计模式,具体地说,估计具有周期分量、准周期分量或实际周期分量的信号中的基音和/或基频的方法,其中所述信号从时域变换为频域以获取所述信号的频谱,对所述频谱进行处理以获取所述信号的零相位频谱,所述信号的频谱被变换为所述时域以获取相关信号,所述频谱和所述相关信号被组合为组合频谱,以及根据所述组合频谱估计所述模式。
Description
技术领域
本发明涉及一种用于估计模式,更具体地说,估计具有周期分量、准周期分量或实际周期分量的信号中的基音(pitch)和/或基频的方法、对应的设备以及对应的计算机程序。
背景技术
基音检测可用于诸如声音改变、文本到语音转换、语音编码、音乐信息检索、音乐演奏系统、生物识别测量、天体物理测量等之类的不同的应用。对于基音检测,时域和频域方法是众所周知的。时域方法的实现成本低且简单,其实现方式例如包括测量过零率(如C.H. Chen所著的“Signal Processing Handbook,Dekker,纽约,1988年,第531页”中描述的那样)或利用后续基音周期的相似度的自相关变差(如 R. Bracewell所著的“The Autocorrelation Function, in The Fourier Transform and Its Applications, MacGraw-Hill,纽约,1965年,第40-45页”中描述的那样)。 频域方法通常更为复杂并包括以下步骤:将时域信号变换为频域信号的快速傅里叶变换(FFT),仅通过考虑频率分量的功率来消除相位影响,压缩值以降低频谱包络的影响,通过基础谐波的关联(例如分谐波求和)和选择最高峰值来查找候选产生基音候选。这些方法在D.J. Hermes所著的“Measurement of pitch by subharmonic summation,发表于Journal of the Acoustic Society of America,第83卷,1988年,第257-264页”中进行描述。另一可能获取基音候选的方法是通过傅里叶反变换(IFFT)将频域信号变换回时域。例如,在“B.E. Bongart 等人所著的“The Frequency Analysis of Time Series for Echos: Cepstrum, Pseudoautocovariants, Cross-Cepstrum and Saphe Cracking,发表于Proceedings of the Symposium on Time Series Analysis,Wiley,纽约,1963年,第15章,第209-243页)”中已知的基音检测算法基于频谱分析并使用对数函数进行压缩。如果将幅度(magnitude)用作压缩运算,则最终的反向变换结果为零相位信号。在此方面可使用自相关,前提是不对功率谱应用任何压缩。
诸如对数函数之类的强压缩放大了噪声影响并形成错误的基因候选。诸如幅度运算之类的小型压缩太低,而不能抑制频谱包络的影响,因此,从较高谐波产生错误候选。一种折衷的方式是对R. Taori等人所著的“Harmony-1: A Versatile Low Bit Rate Speech Coding System,Nat. Lab. Technical Note 157/97”中已知的协调语音编码器中使用的幅度执行平方根运算。提供基音检测方法是为了从多个候选中判定正确的候选,但是,如果候选相互接近,则可能选择错误候选。进一步地,如果突出表示较高和/或较低的音高八度,则现有技术中已知的基音检测方法有可能选择错误候选。
发明内容
本发明的目标是提供一种改进的用于估计模式,具体是指更可靠地估计信号中的基音和/或基频的方法、设备和计算机程序。
在本发明的第一方面,用于估计模式,具体地说,估计具有周期分量、准周期分量或实际周期分量的信号中的基音和/或基频的方法包括:
- 将所述信号从时域变换为频域以获取信号的频谱,
- 处理所述频谱以获取所述信号的零相位频谱,
- 将所述信号的所述零相位频谱变换为所述时域以获取相关信号,
- 将所述频谱和所述相关信号组合为组合频谱,以及
- 根据所述组合频谱估计所述模式。
在本发明的进一步的方面,提供对应的设备,例如包括用于执行上述方法的步骤的处理单元。
在本发明的进一步的方面,提供对应计算机程序,其中包括当所述计算机程序在计算机上执行时,用于执行所述方法的步骤的程序代码构件。
本发明的优选实施例在从属权利要求中定义。应该理解,所声明的设备和所声明的计算机程序具有与所声明的方法类似和/或相同的优选实施例并且所述优选实施例在从属权利要求中定义。
本发明基于这样一种理念:即在附加步骤中,所述频域频谱与其时域变换相结合,以便形成的频谱在基音位置具有明显的峰值,在较高和较低的八度上具有明显衰减。此方法可用于估计信号的基音和/或基频。由于所形成的频谱在基音位置和/或所述基频上具有明显的峰值,因此可非常可靠地轻松检测基音和/或基频。
根据优选实施例,将信号从时域变换为频域的步骤包括傅里叶变换,具体指快速傅里叶变换。这提供以低付出实现从时域到频域变换的可能性。
根据进一步的实施例,通过DC陷波滤波器处理所述信号。所述DC陷波滤波器消除低频信号以防止错误检测。
所述DC滤波信号优选地与窗函数相乘。该加窗运算将频谱限于包含至少两个基音周期的区域。
根据进一步的实施例,处理所述信号的频谱以获取所述信号的幅度谱(magnitude spectrum)。所述信号幅度的计算提供了压缩运算,此运算可轻松实现并在反向变换之后形成零相位信号。
根据进一步的实施例,将所述信号的所述频谱压缩为压缩频谱,具体指通过平方根运算。可替换地,一般而言,压缩函数可以是使用例如0.6作为指数的根—函数。该运算强调基音的谐波并且减弱频谱包络的影响。
根据进一步的实施例,通过窗函数对所述信号的所述频谱进行加窗处理,具体指使用汉宁窗口的右半部分或具有类似作用的其他窗函数。该加窗运算减弱嘈杂的高频分量。
根据进一步的实施例,所述零相位频谱,具体是所述信号的压缩幅度谱,变换为时域包括傅里叶反变换。由于所述频谱,具体是压缩频谱的相位为零,因此只需计算所述频谱实部的正轴。这提供获取在多个基音周期上具有峰值的相关信号的可能性。
根据进一步的优选实施例,所述相关信号通过窗函数进行衰减。该加窗运算减弱所述频谱包络对所述相关信号的影响。
根据优选实施例,所述频谱和所述相关信号的组合包括重新采样所述频谱或所述相关信号中的至少一项。所述重新采样提供组合具有反比例轴的所述相关信号和所述频谱的可能性。具体而言,优选地使用对数尺。这提供组合在不同域的高低频分辨率方面具有巨大差别的频谱和信号的可能性。
根据优选实施例,所述估计所述模式包括搜索所述组合信号的绝对最大值。这提供查找所述信号的所述基音和/或所述基频的可靠、简单的可能性。
根据优选实施例,具体通过全波整流函数对所述信号进行整流。这提供当所述基频丢失时,在不降低非滤波信号性能的情况下判定信号的所述基音和/或所述基频的可能性。
根据优选实施例,所述整流信号的所述零相位频谱与所述非整流信号的所述零相位频谱进行比较,其中选择这些信号的最大值并将其与所述相关信号进行组合以形成所述组合信号。采取最大频谱是因为在纯正弦信号的情况下,所述整流消除了所述基频并且仅产生较高谐波。为降低失真,所述整流和所述非整流的频谱通过选择这些频谱中的最大值进行组合。
附图说明
本发明的这些和其他方面通过下面描述的(多个)实施例将变得显而易见,并参考这些实施例进行阐述。在下面的附图中:
图1示出根据本发明的基音检测方法的示意性流程图,
图2示出待处理的源信号以及基音检测方法根据所述源信号导出的压缩频谱、相关信号、组合频谱和测量基音的图表,
图3示出根据本发明执行基音检测的设备的示意图,
图4示出基音检测方法的实施例的流程图,
图5示出基音检测方法的进一步实施例的流程图,
图6示出执行根据图4的方法的处理单元的示意性框图,
图7示出执行根据图5的方法的处理单元的示意性框图,以及
图8示出执行根据图1的方法的处理单元的示意性框图。
具体实施方式
图1示出一般由10表示的检测具有周期分量、准周期分量或实际周期分量的信号中的基音和/或基频的方法的流程图。这些信号的实例包括浊语音记录、乐器的乐音、诸如心跳之类的身体信号、来自星球的无线电信号、活动监视信号。在步骤S1将输入信号s(诸如语音信号之类的准周期或实际周期信号)从时域信号变换为频域频谱。所述变换优选地包括快速傅里叶变换(FFT)。步骤S1提供信号s的频谱S。频谱S在步骤S2进行处理以消除频谱的相位信息来获取零相位频谱(Sm)。所述处理包括计算频谱S的幅度,并且选择性地对频谱S进行频谱压缩,例如通过平方根运算。所述处理和压缩步骤S2强调基音的谐波并减弱频谱包络的影响。步骤S2提供零相位频谱S m。
零相位频谱S m在步骤S3优选地使用傅里叶反变换从频域变换为时域。所述变换步骤S3提供相关信号c,该信号在多个基音周期上包括峰值。
零相位频谱S m和相关信号c在步骤S4被组合为组合频谱b。组合频谱b在基音上包括明显的峰值,其中频谱和多个基音周期中的较高谐波被衰减,留下基音和/或基频作为主要峰值。所述组合S4通过用零相位频谱S m乘以相关信号c来执行。
根据组合频谱b,执行峰值检测S5以估计信号中的基音和/或基频。峰值检测S5包括搜索组合频谱b的最大值并提供输出信号p,该输出信号对应于源信号s中的基音和/或基频。
组合零相位频谱S m与其时域变换c的步骤S4导致组合频谱b,该频谱在基音位置和/或基频上具有明显的峰值,在较高和较低的八度上具有明显衰减。因此,峰值检测是可靠的,因为基音位置和/或基频对应于组合频谱b中的最高峰值。
图2示出五个图表图2A-E,这五个图表示出源信号s的振幅、压缩频谱S c的频率、相关信号c的频率、组合频谱b的频率,以及输出信号,源信号s的基音p对时间。
图2A所示的源信号s是英文语句“do they take the car when they go aboard”的时域。通过所述变换步骤S1和所述处理和压缩步骤S2从源信号s导出的压缩信号S c在图2B中示出。
通过所述变换步骤S3从压缩频谱S c导出的相关信号c的频率在图2C中示出。
通过步骤S4从压缩频谱S c和相关信号c的组合导出的组合频谱b的频率在图2D中示出。
通过步骤S5的峰值检测从组合频谱b导出的基音p对时间在图2E中示出。
因此,图2示出特定方法步骤S1至S5提供的信号或频谱对时间。
图3示出一般由20表示的执行基音检测的装置的示意性框图。
装置20包括信号输入端22和信号输出端24,分别用于接收源信号s以及提供输出信号p。装置20包括处理单元26,用于处理输入信号s以及估计输入信号s中的基音和/或基频。处理单元26将输出信号p提供给装置20的输出端24。处理单元26包括存储器28,用于存储导致处理单元26执行方法步骤来处理输入信号s的程序代码。
处理单元26可以通过集成电路或计算机实现,也可以通过执行必要处理步骤的离散元件和/或设备实现。
图4示出一般由30表示的基音检测方法的流程图以及特定方法步骤提供的对应信号或频谱。
源信号s在第一步骤S6优选地通过DC陷波滤波器进行滤波。输入信号s的低频率可能导致基音检测过程失真,这是因为在执行从时域到频域的傅里叶变换之前,执行加窗步骤。该加窗处理步骤将主要DC信号的能量加到较高频率,并且可以强调源信号s的弱低频。为了防止错误检测,需要在下面的加窗处理过程之前消除源信号s的低频。步骤S6的DC陷波滤波器用于消除源信号s的低频。根据S6的DC陷波滤波器包括转换函数:
其中
并且fs是采样频率,fc是以Hz为单位的截止频率,在该截止频率上,DC陷波滤波器的输出功率降为输入功率(-3dB)的50%。
时域中的滤波实现为:
sf [n] = s[n] – s [n-1] + α ? sf[n-1]
包括源信号s,DC滤波信号s f作为步骤S6的输出信号,并且包括n作为第n个输入样本。对于语音信号, 8 kHz的采样频率和500 Hz的截止频率,α接近0.94。DC陷波滤波器的输出信号s f不包括低频分量,如图4所示。
下面的步骤S7为窗函数。DC滤波信号s f与窗函数32相乘。窗函数32减弱边缘上可能的不连续并将信号限于包括至少两个基音周期的区域。例如,如果预期最低基音为40 Hz,则窗口持续时间需要为至少50 msec。优选地,使用汉宁窗函数:
0 ≤ n < L
可替换地,可使用汉宁窗函数或其他任何具有类似特征的窗函数。L取决于采样频率,其中对于8 kHz的采样频率和50 msec持续时间,L为400。
加窗运算定义如下:
sw[n] = sf[n] ? w[n], 0 ≤ n < L
其中sw是步骤S7的加窗函数的输出信号。
信号s w在步骤S8从时域变换为频域。该变换包括离散傅里叶变换(DFT)以提供信号s w的频谱S。离散傅里叶变换的变换函数由以下公式给出:
,
0 ≤ k < M
为了提高效率,优选地使用radix-2 FET。在这种情况下,DFT的大小M的幂为2,并且接近但不小于L。例如,对于L等于400,M被设为512。
在步骤S9,计算频谱S的幅度谱。由于s w是实数值信号,并且S在零周围对称,因此仅使用正轴计算幅度。这样,上述傅里叶变换的公式可写为:
其中S R是频谱的实部,S I是频谱的虚部。在步骤S9,通过以下公式计算幅度:
其中S m是步骤S9的输出频谱。在下面的步骤S10,通过平方根运算压缩幅度谱S m。
0 ≤ k ≤
该平方根运算强调基音的谐波并且减弱频谱包络的影响(例如,语音信号中的共振峰)。所述压缩S10的输出信号为压缩幅度谱S c。
在步骤S11,在频域中对压缩幅度谱S c执行加窗,以优选地使用汉宁窗的右半部分减弱嘈杂的高频分量:
其中
加窗压缩幅度谱S w在步骤S12使用傅里叶反变换(IFT)变换为时域。FFT大小保持为上面示出的那样:
0 ≤ n < M
由于加窗压缩幅度谱S w的相位为零,因此仅需频谱实部的正轴用于反变换:
这个到时域的变换用于获取相关信号c,该相关信号在多个基音周期上包括峰值,如图4所示。
在步骤S13,对相关信号c进行加窗以进一步减弱频谱包络的影响。优选地,使用简单窗函数36执行此衰减步骤:
步骤S13的输出信号为加窗相关信号c w 。
在步骤14,用压缩幅度谱S c乘以衰减的相关信号c w形成组合频谱b。该组合频谱b在基频上具有明显的峰值。通过这些频谱相乘,频谱中的较高谐波和多个基音周期发生衰减,其中基频和/或基音保持为主要峰值。在组合频谱之前,使用对至少一个频谱的重新采样,因为轴成反比,其中:
由于不同域之间的低高频的分辨率具有差别,因此优选地使用对数尺执行组合:
0 ≤ i ≤ R
k min ≤ k ≤ k max
其中kmin和kmax对应于有效基音范围。例如,对于语音,常见的基音范围基于40到600 Hz之间。R确定输出阵列大小。针对R使用输入窗口长度便足以,其中L=R。
优选地使用样条插值执行重新采样运算:
所述量化索引以及样条系数可以预先计算并存储在阵列中,从而避免冗长的复杂对数和指数运算计算。在S14组合的重新采样频谱在图4中示出并由38、40表示。
最后一步S15的峰值位置检测包括搜索组合频谱b的最大值:
0 ≤ i ≤ R
其中ml是最大值,pl是带刻度对数域中的最大值位置。以Hz为单位的线性域中的基音通过以下公式判定:
在图5中,基音检测方法的进一步的实施例一般由50表示。方法50与图4中的方法30类似。相同的步骤和信号由相同的参考标号表示,其中仅详细解释不同之处。
方法50优选地用于在基频丢失时,查找源信号s的基音。在基音检测之前对信号应用高通滤波器的情况下(例如,就像电话语音),基频丢失。提供方法50是为了在不降低非滤波信号性能的情况下取回基频。
方法50包括单独的路径52来提供DC滤波信号s f的整流频谱。
DC滤波信号s f在步骤S16进行整流以提供整流信号r。优选地,DC滤波信号s f通过全波整流器进行全波整流。全波整流器的公式如下所示:
在整流步骤S16之后,执行步骤S6’至S10’以提供整流信号的整流压缩幅度谱R c。步骤S6’至S10’与上述步骤S6至S10相同。在步骤S17,组合非整流信号s f的压缩幅度谱S c和整流压缩幅度谱R c。为降低失真以及对于整流消除基频并只产生较高谐波的情况,组合整流信号r的整流压缩幅度谱R c和非整流信号s,其中这些谱的最大值根据以下的公式选择:
其中,d是缩放系数,优选地被设为2。S17的输出信号为R c',它是整流信号和非整流信号的压缩幅度谱的最大值。
S17的输出信号与衰减的相关信号c w在步骤S14进行组合,如上所述。
图6示出图3所示的处理单元26的实施例的示意性框图。根据图6的处理单元26包括特定离散元件或设备,提供这些元件或设备是为了执行根据图4的方法步骤。
输入端22与执行步骤S6的DC陷波滤波器54相连。DC陷波滤波器54与执行步骤S7的加窗元件56相连。加窗元件56与执行步骤S8的傅里叶变换元件58相连。傅里叶变换元件58与被提供用于根据步骤S9计算幅度的幅度元件60相连。幅度元件60与执行步骤S10的方根运算元件62相连。方根运算元件62与被提供用于执行步骤S11的加窗元件64相连。加窗元件64与被提供用于执行步骤S12的傅里叶反变换元件66相连。傅里叶反变换元件与被提供用于执行S13的加窗元件68相连。加窗元件68与被提供用于执行S14的组合元件70相连。方根运算元件62还与组合元件70相连以将压缩幅度谱S c提供给组合元件70。组合元件70与被提供用于执行步骤S15的峰值位置检测元件72相连。峰值位置检测元件72与处理单元26的输出端相连以将基音p提供给输出端24。
图7示出图6所示的处理单元26的实施例的示意性框图。参考图6,其中相同的步骤、元件和信号由相同的参考标号表示,并且仅详细解释不同之处。根据图7的处理单元26包括特定离散元件或设备,提供这些元件或设备是为了执行根据图5的方法步骤。
根据该实施例,图7的处理单元26包括附加并行路径74以提供源信号s的整流压缩幅度谱。路径74执行图5所示的路径52的步骤。路径74包括整流器76,该整流器与DC陷波滤波器54相连以执行步骤S16。整流器76与串联的元件54’、56’、58’、60’和62’相连,这些元件分别与元件54、56、58、60和62相同,用于执行步骤S6’、 S7’、 S8’、 S9’和S10’。
方根运算元件62和62’与执行步骤S17的最大值判定元件78相连。最大值判定元件78与执行步骤S14的组合元件70相连。
图8示出图3所示的用于执行根据图1的方法的处理单元26的实施例的示意性框图。一般而言,处理单元26也称为“设备”或“系统”。
处理单元26包括执行步骤S1的第一变换单元80、执行步骤S2的处理单元82、执行步骤S3的第二变换单元84、执行步骤S4的组合单元86以及执行步骤S5的估计单元88。
因此,方法10、30和50的步骤可以通过上述处理单元26中的离散元件执行。在可替换实施例中,方法10、30和50的步骤可由处理单元26执行,所述处理单元可通过集成电路(例如FPGA或ASIC或类似的电路)实现,也可通过计算机或控制单元上运行的软件实现。
尽管在附图和上述描述中详细示出和描述了本发明,但是此类图示和描述只能视为示意性的或示例性的,并非旨在进行限制;本发明不限于所公开的实施例。所公开实施例的其他变形可被实施本发明的所属领域技术人员通过对附图,说明书和所附权利要求的研究而理解和实现。
在权利要求中,单词“包括”不排除其他元素或步骤,不定冠词“一”或“一个”不排除多个。单个元件或其他单元可以实现权利要求中所述的多个项的功能。某些措施被记载在相互不同的从属权利要求中并不表示这些措施的组合不能被有利地使用。
计算机程序可以存储/分布在适当的介质上,例如光存储介质或与其他硬件一起提供或作为其他硬件的一部分提供的固态介质,但是也可以通过其他形式分布,例如通过因特网或其他有线或无线电信系统。
权利要求中的任何参考标号都不应被视为对范围的限制。
Claims (15)
1. 用于估计模式,具体地说,估计具有周期分量、准周期分量或实际周期分量的信号(s)中的基音和/或基频的方法(10;30;50),包括以下步骤:
- 将所述信号(s)从时域变换(S1;S8)为频域以获取信号(s)的频谱(S),
- 处理(S2;S9)所述频谱(S)以获取所述信号(s)的零相位频谱(S m),
- 将所述信号(s)的所述零相位频谱(S m)变换(S3;S12)为所述时域以获取相关信号(c),
- 将所述频谱(S)和所述相关信号(c)组合(S4;S14)为组合频谱(b),以及
- 根据所述组合频谱(b)估计(S5;S15)所述模式。
2. 根据权利要求1的方法,其中所述将信号(s)从时域变换(S1;S8)为频域的步骤包括傅里叶变换(S8),具体指快速傅里叶变换。
3. 根据权利要求1或2的方法,其中所述信号通过DC陷波滤波器(54)进行处理(S6)。
4. 根据权利要求3的方法,其中所述DC滤波信号(S f)与窗函数(32)进行相乘(S7)。
5. 根据权利要求1的方法,其中处理(S9)所述信号的频谱(S)以获取所述信号(s)的幅度谱(S m)。
6. 根据权利要求1的方法,其中将所述信号(s)的频谱(S)压缩(S10)为压缩频谱(S c),具体指通过平方根运算。
7. 根据权利要求1的方法,其中通过窗函数(34),具体指使用汉宁窗的右半部分对信号(s)的频谱(S)执行加窗处理(S11)。
8. 根据权利要求1的方法,其中将所述信号(s)的所述零相位频谱(S m)变换(S13;S12)为所述时域包括傅里叶反变换(S12)。
9. 根据权利要求1的方法,其中所述相关信号(c)通过窗函数(36)进行衰减(S13)。
10. 根据权利要求1的方法,其中所述组合(S4;S14)所述频谱(S)和所述相关信号(c)包括重新采样所述频谱(S)或所述相关信号(c)中的至少一项。
11. 根据权利要求1的方法,其中所述估计(S5;S15)所述模式包括搜索所述组合信号(b)的绝对最大值。
12. 根据权利要求1的方法,其中所述信号具体通过全波整流函数进行整流(S16)。
13. 根据权利要求12的方法,其中所述整流信号(r)的所述零相位频谱(R m)与所述非整流信号(s)的所述零相位频谱(S m)进行比较,并且其中这些信号的最大值与所述相关信号(c)进行组合以形成所述组合信号(b)。
14. 用于估计模式,具体地说,估计具有周期分量、准周期分量或实际周期分量的信号(s)中的基音和/或基频的设备(26),包括:
- 第一变换构件(80),用于将信号(s)从时域变换为频域以获取信号(s)的频谱(S),
- 处理构件(82),用于处理所述频谱(S)以获取所述信号(s)的零相位频谱(S m),
- 第二变换构件(84),用于将所述信号(s)的所述频谱(S)变换为所述时域以获取相关信号(c),
- 组合构件(86),用于将所述频谱(S)和所述相关信号(c)组合为组合频谱(b),以及
- 估计构件(88),用于根据所述组合频谱(b)估计所述模式。
15. 计算机程序,包括当所述计算机程序在计算机上执行时,用于导致所述计算机执行根据权利要求1至13中任一项的方法步骤的程序代码构件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP10190709 | 2010-11-10 | ||
EP10190709.5 | 2010-11-10 | ||
PCT/IB2011/054951 WO2012063185A1 (en) | 2010-11-10 | 2011-11-07 | Method and device for estimating a pattern in a signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103189916A true CN103189916A (zh) | 2013-07-03 |
CN103189916B CN103189916B (zh) | 2015-11-25 |
Family
ID=44999842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180054354.9A Active CN103189916B (zh) | 2010-11-10 | 2011-11-07 | 估计信号模式的方法和设备 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9208799B2 (zh) |
EP (1) | EP2638541A1 (zh) |
JP (1) | JP5992427B2 (zh) |
CN (1) | CN103189916B (zh) |
BR (1) | BR112013011312A2 (zh) |
RU (1) | RU2587652C2 (zh) |
WO (1) | WO2012063185A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851444A (zh) * | 2015-07-24 | 2018-03-27 | 声音对象技术股份有限公司 | 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用 |
CN108806721A (zh) * | 2017-04-28 | 2018-11-13 | 恩智浦有限公司 | 信号处理器 |
CN109524023A (zh) * | 2016-01-22 | 2019-03-26 | 大连民族大学 | 一种对基频估计实验验证的方法 |
CN110197666A (zh) * | 2019-05-30 | 2019-09-03 | 广东工业大学 | 一种基于神经网络的语音识别方法、装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012103686A1 (en) * | 2011-02-01 | 2012-08-09 | Huawei Technologies Co., Ltd. | Method and apparatus for providing signal processing coefficients |
JP6114053B2 (ja) * | 2013-02-15 | 2017-04-12 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
CN110491401B (zh) | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | 周期性综合包络序列生成装置、方法、记录介质 |
US9801587B2 (en) | 2015-10-19 | 2017-10-31 | Garmin Switzerland Gmbh | Heart rate monitor with time varying linear filtering |
KR101944429B1 (ko) * | 2018-11-15 | 2019-01-30 | 엘아이지넥스원 주식회사 | 주파수 분석 방법 및 이를 지원하는 장치 |
EP3888542A1 (en) | 2020-04-01 | 2021-10-06 | Koninklijke Philips N.V. | Inductive sensing system and method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0153787A2 (en) * | 1984-02-22 | 1985-09-04 | Koninklijke Philips Electronics N.V. | System of analyzing human speech |
US6018706A (en) * | 1996-01-26 | 2000-01-25 | Motorola, Inc. | Pitch determiner for a speech analyzer |
CN101149924A (zh) * | 2006-09-18 | 2008-03-26 | 华为技术有限公司 | 一种实现开环基音搜索的方法和装置 |
EP1944754A1 (en) * | 2007-01-12 | 2008-07-16 | Harman Becker Automotive Systems GmbH | Speech fundamental frequency estimator and method for estimating a speech fundamental frequency |
CN101599272A (zh) * | 2008-12-30 | 2009-12-09 | 华为技术有限公司 | 基音搜索方法及装置 |
CN101853240A (zh) * | 2009-03-31 | 2010-10-06 | 华为技术有限公司 | 一种信号周期的估计方法和装置 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3617636A (en) | 1968-09-24 | 1971-11-02 | Nippon Electric Co | Pitch detection apparatus |
US3622966A (en) * | 1970-07-17 | 1971-11-23 | Atlantic Richfield Co | Wavelet standardization |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
GB2165654B (en) * | 1984-10-12 | 1988-05-25 | Yue Lin Thomas Hong | Method and apparatus for evaluating auditory distortions of an audio system |
US5781880A (en) | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5864795A (en) * | 1996-02-20 | 1999-01-26 | Advanced Micro Devices, Inc. | System and method for error correction in a correlation-based pitch estimator |
US5946650A (en) * | 1997-06-19 | 1999-08-31 | Tritech Microelectronics, Ltd. | Efficient pitch estimation method |
DE69819460T2 (de) * | 1997-07-11 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Übertrager mit verbessertem sprachkodierer und dekodierer |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
US6459914B1 (en) * | 1998-05-27 | 2002-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
US6470311B1 (en) * | 1999-10-15 | 2002-10-22 | Fonix Corporation | Method and apparatus for determining pitch synchronous frames |
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
RU2234746C2 (ru) * | 2002-10-30 | 2004-08-20 | Пермский государственный университет | Способ дикторонезависимого распознавания звуков речи |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
DE602004007945T2 (de) * | 2003-09-29 | 2008-05-15 | Koninklijke Philips Electronics N.V. | Codierung von audiosignalen |
KR100653643B1 (ko) * | 2006-01-26 | 2006-12-05 | 삼성전자주식회사 | 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
MY142675A (en) * | 2006-06-30 | 2010-12-15 | Fraunhofer Ges Forschung | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US8560328B2 (en) * | 2006-12-15 | 2013-10-15 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
EP2137725B1 (en) * | 2007-04-26 | 2014-01-08 | Dolby International AB | Apparatus and method for synthesizing an output signal |
US20100223061A1 (en) * | 2009-02-27 | 2010-09-02 | Nokia Corporation | Method and Apparatus for Audio Coding |
EP2249333B1 (en) * | 2009-05-06 | 2014-08-27 | Nuance Communications, Inc. | Method and apparatus for estimating a fundamental frequency of a speech signal |
-
2011
- 2011-11-07 US US13/883,647 patent/US9208799B2/en active Active
- 2011-11-07 WO PCT/IB2011/054951 patent/WO2012063185A1/en active Application Filing
- 2011-11-07 CN CN201180054354.9A patent/CN103189916B/zh active Active
- 2011-11-07 RU RU2013126409/08A patent/RU2587652C2/ru not_active IP Right Cessation
- 2011-11-07 JP JP2013538309A patent/JP5992427B2/ja active Active
- 2011-11-07 EP EP11785135.2A patent/EP2638541A1/en not_active Withdrawn
- 2011-11-07 BR BR112013011312A patent/BR112013011312A2/pt not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0153787A2 (en) * | 1984-02-22 | 1985-09-04 | Koninklijke Philips Electronics N.V. | System of analyzing human speech |
US6018706A (en) * | 1996-01-26 | 2000-01-25 | Motorola, Inc. | Pitch determiner for a speech analyzer |
CN101149924A (zh) * | 2006-09-18 | 2008-03-26 | 华为技术有限公司 | 一种实现开环基音搜索的方法和装置 |
EP1944754A1 (en) * | 2007-01-12 | 2008-07-16 | Harman Becker Automotive Systems GmbH | Speech fundamental frequency estimator and method for estimating a speech fundamental frequency |
CN101599272A (zh) * | 2008-12-30 | 2009-12-09 | 华为技术有限公司 | 基音搜索方法及装置 |
CN101853240A (zh) * | 2009-03-31 | 2010-10-06 | 华为技术有限公司 | 一种信号周期的估计方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851444A (zh) * | 2015-07-24 | 2018-03-27 | 声音对象技术股份有限公司 | 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用 |
CN109524023A (zh) * | 2016-01-22 | 2019-03-26 | 大连民族大学 | 一种对基频估计实验验证的方法 |
CN108806721A (zh) * | 2017-04-28 | 2018-11-13 | 恩智浦有限公司 | 信号处理器 |
CN108806721B (zh) * | 2017-04-28 | 2023-08-29 | 恩智浦有限公司 | 信号处理器 |
CN110197666A (zh) * | 2019-05-30 | 2019-09-03 | 广东工业大学 | 一种基于神经网络的语音识别方法、装置 |
CN110197666B (zh) * | 2019-05-30 | 2022-05-10 | 广东工业大学 | 一种基于神经网络的语音识别方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
US9208799B2 (en) | 2015-12-08 |
JP2013542469A (ja) | 2013-11-21 |
RU2013126409A (ru) | 2014-12-20 |
JP5992427B2 (ja) | 2016-09-14 |
CN103189916B (zh) | 2015-11-25 |
RU2587652C2 (ru) | 2016-06-20 |
BR112013011312A2 (pt) | 2019-09-24 |
EP2638541A1 (en) | 2013-09-18 |
WO2012063185A1 (en) | 2012-05-18 |
US20130231926A1 (en) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103189916A (zh) | 估计信号模式的方法和设备 | |
CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
JP4100721B2 (ja) | 励起パラメータの評価 | |
JP3591068B2 (ja) | 音声信号の雑音低減方法 | |
Hui et al. | A pitch detection algorithm based on AMDF and ACF | |
US11640827B2 (en) | Concept for encoding of information | |
US20170287507A1 (en) | Pitch detection algorithm based on pwvt | |
CN117746905B (zh) | 基于时频持续性分析的人类活动影响评估方法及系统 | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
BRPI0208584B1 (pt) | método para formação de parâmetros de reconhecimento de fala | |
CN103839544B (zh) | 语音激活检测方法和装置 | |
CN116959422A (zh) | 多对多的实时语音变音方法、设备及存储介质 | |
Muhammad | Noise robust pitch detection based on extended AMDF | |
JPH0573093A (ja) | 信号特徴点の抽出方法 | |
JP2007025296A (ja) | 音声特徴量算出装置およびプログラム | |
JP6065488B2 (ja) | 帯域拡張装置及び方法 | |
JP7152112B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
Rao et al. | A comparative study of various pitch detection algorithms | |
Khoa et al. | Spectral local harmonicity feature for voice activity detection | |
CN118035732A (zh) | 基于变模态分解算法的复杂充电下的电能计量方法及系统 | |
CN117877498A (zh) | 一种语音波形的扩展方法、装置、设备及存储介质 | |
Benetos et al. | Pitched instrument onset detection based on auditory spectra | |
KR20120072070A (ko) | 현출성을 이용하는 시간-주파수 조합영역의 피치 추정 시스템 및 방법 | |
CN118230741A (zh) | 一种基于正弦谐波模型的低速率语音编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |