CN1248190C - 快速频域音调估计方法和装置 - Google Patents
快速频域音调估计方法和装置 Download PDFInfo
- Publication number
- CN1248190C CN1248190C CNB018220991A CN01822099A CN1248190C CN 1248190 C CN1248190 C CN 1248190C CN B018220991 A CNB018220991 A CN B018220991A CN 01822099 A CN01822099 A CN 01822099A CN 1248190 C CN1248190 C CN 1248190C
- Authority
- CN
- China
- Prior art keywords
- frequency
- function
- influence
- pitch frequency
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000003595 spectral effect Effects 0.000 claims abstract description 41
- 230000000737 periodic effect Effects 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 195
- 230000008569 process Effects 0.000 claims description 27
- 238000012886 linear function Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000004304 visual acuity Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000006093 Sitall Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
一种估计音频信号音调频率的方法,包括在第一时间区间,计算信号到频率域的第一变换,以及在包含该第一时间区间的第二时间区间,计算信号到频率域的第二变换。根据第一和第二变换,寻找该信号的线状谱,该频谱包括具有各自线振幅和线频率的谱线。然后计算效用函数(130),它在该频谱中的线频率上是周期性的。对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容。对于该效用函数,估计语音信号的音调频率。
Description
技术领域
本发明一般涉及音频信号处理的方法和装置,确切地说,是估计语音信号音调的方法。
背景技术
语音是通过在声道中调节气流而产生的。清音起源于声道中某处收缩而产生的湍流噪声,而浊音则是通过喉中声带的周期性振动来激发的。粗略地说,变化的喉部振动周期导致了语音的音调。典型情况下,低比特率的语音编码方案将调节与语音源(浊音或清音)相分离,对这两个要素分开编码。为了使语音能够恰当地重建,在编码之时需要准确地估计语音中浊音部分的音调。为了达到这个目的,已经开发了多种技术,既包括时间域的方法,又包括频率域的方法。Hess在Pitch Determination of Speech Signals(Springer-Verlag,1983)中对许多这些技术进行了综述,这里引用作为参考。
周期信号比如浊音语音的傅氏变换,在频率域的形式为一系列脉冲或者说尖峰。这个脉冲系列对应于信号的线状谱,它能够表示为一个序列{(ai,θi)},其中θi为尖峰的频率,ai为线状谱各自的复数值振幅。为了确定语音信号中指定的一个区段是浊音还是清音,以及该区段是浊音时为了计算音调,时域信号首先乘以一个有限的光滑时窗。那么,加窗信号的傅氏变换为
其中W(θ)为时窗的傅氏变换。
给定任何音调频率,对应于该音调频率的线状谱,在该频率的所有倍数处都可能包含线状谱分量。所以有以下事实:在线状谱中出现的任何频率都可能是许多不同的候选音调频率的一个倍数。结果,对于变换后信号中出现的任何尖峰,将会有一系列候选音调频率可以导致这个特定尖峰,其中每个候选频率都是该尖峰频率的一个整数被除数。无论是在频率域中分析频谱,还是把它变换回时间域作进一步的分析,都存在这种不确定。
典型情况下,频域音调估计是基于对变换后信号X(θ)中尖峰的位置和振幅的分析。例如,Martin在题为“Comparison of PitchDetection by Cepstrum and Spectral Comb Analysis”的一篇文章中,介绍了基于将频谱与原型梳状谱的“齿”进行相关的一种方法,这篇文章收入1982年的Proceedings of the International Conference onAcoustics,Speech and Signal Processing(ICASSP),在180-183页,这里引用作为参考。音调频率由使梳函数与变换后语音信号相关结果最大的梳频率给出。
有关的一类音调估计方案是“倒谱”方案,如同例如Hess在上述书中396-408页介绍的。在这种技术中,对语音信号的频谱应用一种对数运算,然后对数谱再变换回时间域,以产生倒谱信号。音调频率就是时间域倒谱信号第一个尖峰的位置。这严格对应于在周期T上,使线频率z(i)对应振幅的对数与cos(ω(i)T)相关结果最大。对于音调周期T的每种猜测,函数cos(ωT)都是ω的周期函数。在音调频率1/T的倍数对应的频率处,它都有尖峰。如果这些尖峰恰巧与线频率重合,那么1/T就是音调频率或者其某个倍数的合适候选者。
以另一种方式,一种普通的时域音调估计方法使用相关类型的方案,对于以时间t为中心的信号区段和以时间t-T为中心的信号区段,它搜索使互相关最大的音调周期T。音调频率为T的倒数。例如Medan等人1991年在IEEE Transactions on Signal Processing 39(1)41-48页发表的“Super Resolution Pitch Determination of Speech Signals”一文中,介绍过一种此类的方法,这里引用作为参考。
不论是在时间域还是在频率域的音调确定方法,都会受到不稳定和误差的影响,所以准确的音调确定需要进行大量的计算。例如在时间域分析中,线状谱中的高频分量会在互相关结果中增加一个振荡项。该分量的频率很高时,该项随音调周期T的估计结果快速变化。在这样一种情况下,即使是T稍微偏离真实的音调周期,也会显著地降低互相关结果的数值,可能会导致拒绝一个正确的估计结果。高频分量也会在互相关结果中增加大量的尖峰,这使得搜索真正的极大值的过程更复杂。在频率域中,对于候选频率较大整数倍的任何频谱分量,候选音调频率估计结果中的小误差也会导致估计值中的大偏离。
所以,对于指定的输入频谱,为了避免遗漏最佳候选音调,必须对所有可能的候选者及其倍数进行具有高分辨率的一种穷举搜索。往往需要(取决于实际音调频率)搜索采样后频谱至1500Hz以上的高频。同时,在时间上分析区间或者说时窗必须足够长,以便捕捉频谱中每一个可能的音调候选者的至少几个周期,从而另外增加了复杂性。同样,在时间域中,必须在宽阔的时间范围内以高分辨率搜索最优的音调周期T。在每种情况下,搜索都要消耗相当多的计算资源。即使在可能的清音区间,搜索条件也不能放松,因为只有在所有候选音调频率或周期都已经排除之后才能判断某个区间是清音。虽然来自前面若干帧的音调值通常用于指导搜索当前值,但是搜索也不能只限于以前音调的邻域。否则,一个区间中的误差将会永远存在于后续的区间中,使浊音区段可能被误认为是清音。
为了改善音调确定的准确性和效率,已经提出了多种解决方案。例如,McAulay等人在美国专利4,885,790中和1986年的IEEETransactions on Acoustics,Speech and Signal Processing ASSP-34(4)的744-754页的题为“Speech Analysis/Synthesis Based on aSinusoidal Representation”的一篇文章中,介绍了一种方法,用于跟踪语音信号的线频率及用于由这些频率重现信号。这些文档在这里引用作为参考。这些作者对于要分析的语音波形使用了一种正弦曲线模型,根据语音信号中正弦波分量的振幅、频率和相位合成语音。许多方法都可以用于从线频率获得音调值。在美国专利5,054,072中,McAulay等人介绍了其方法的改进,该专利的公开文件也在这里引用作为参考。这些改进之一是一种音调自适应的信道编码技术,按照发言者语音的音调改变信道间隔。
Hardwick等人在美国专利5,195,166和5,226,108中,介绍了音调估计的一种改进的方法,这些专利的公开文件在这里引用作为参考。假设被音调区间分开的相继时间区段之间的一种误差测量结果,用于估算整数音调值的音调质量。准则被限制为包括相邻信号帧,以增强音调的连续性。音调区域用于减少进行初始音调估计时的计算量。对于先前发现的、整数值形式的音调,一种改进技术用于在达到1/8样点的更高分辨率获得该音调。
授予Laroche的美国专利5,870,704介绍了一种方法,用于估计时变信号的时变频谱包络,该专利的公开文件在这里引用作为参考。信号的频谱中的局部极大值得到识别。为了遮掩掉虚假的极大值,应用了一种遮掩曲线。该遮掩曲线在某个特定的极大值处具有一个尖峰,并从该处下降。落在该曲线之下的局部极大值都被去除。按照虚假极大值存在的某种测度,随后还要对该遮掩曲线进行调整。假设结果是其中仅仅存在有关极大值的频谱。
授予Bartkowiak的美国专利5,696,873和5,774,836涉及改进音调值确定的互相关方案,这些专利的公开文件在这里引用作为参考。它介绍了两种方法,以应付第一共振峰——声道的最低谐振频率——在音调频率的某个整数倍处产生高能量的情况。因为选取的互相关区间等于(或接近)音调区间,在很大程度上会发生这种问题。假设某个短的音调区间,可能导致在该点上以相关结果虚假尖峰的形式证实该假设。Bartkowiak提出的方法之一,涉及在浊音区段的起点处增大时窗的尺寸。另一种方法从相关极大值列表中存在还是缺失假设之音调值的所有倍数,来得出结论。已有介绍的改善音调估计的准确性和效率的其它方法,见例如授予Su的美国专利5,781,880;授予Ozawa的美国专利5,806,024;授予Manduchi等人的美国专利5,794,182;授予Serizawa的美国专利5,751,900;授予Yamada等人的美国专利5,452,398;授予Byun等人的美国专利5,799,271;授予Tanaka等人的美国专利5,231,692;以及授予Kleijn的美国专利5,884,253。这些专利的公开文件在这里引用作为参考。
发明内容
本发明的一个目的是提供改进的方法和装置,用于确定音频信号,尤其是语音信号的音调。
本发明某些方面进一步的一个目的是,提供一种高效的方法,用于高分辨率的穷举法音调确定。因为任何音调质量测量结果都可能具有非常窄的尖峰,作为音调频率值的一个函数,如果估算该测量的分辨率不足,可能导致少量尖峰位置的误估计。在这种情况下,音调质量测量将在稍微偏离尖峰处采样,导致对尖峰值的过低估计,而精确估算则会得出该尖峰的较高值。结果,可能会从音调候选列表中完全丢弃真正的音调。以搜索音调整数值开始,然后改进音调值结果列表的现有技术方案,都受到这种非常严重缺陷的困扰。因此,只有如同本发明的优选实施例提供的穷举法高分辨率音调频率估算,才能保证真正的音调被包括在测试的音调值列表中。
在本发明的优选实施例中,一种语音分析系统通过同时分析多个时间区间中信号的线状谱,来确定语音信号的音调。从信号当前帧的加窗傅氏变换计算一种短区间频谱,它对于寻找高频频谱分量尤其有用。通过结合当前帧的加窗傅氏变换与前面一帧或多帧的加窗傅氏变换,寻找对于更低频率分量有用的一种或多种更长区间的频谱。以这种方式,使用增加系统计算负担最小的最优分析区间,取得了宽阔的频率范围内的音调估计。最佳的音调候选者是从多种频率范围中选出的。因此,系统能够满足高分辨率和高计算效率的对立目标。
在本发明的某些优选实施例中,为了高效地测量任何具体的候选音调频率与被分析的线状谱相容的程度,计算了一种效用函数。对频谱中每条有效谱线计算而得到的影响函数进行叠加,构建成该效用函数。在各自线频率对候选音调频率的比值中,优选情况下影响函数是周期性的,其音调频率周围的极大值是线频率的整数被除数,其间的最小值在优选情况下大多数是零。优选情况下影响函数是分段线性的,因而它们能够简单而高效地由其转折点的数值来表示,转折点之间的数值由插值确定。因此,本发明的这些实施例取代在倒谱音调估计方法中使用的余弦函数,提供了另一种简单得多的周期函数,并使用该函数的特殊结构来提高寻找音调的效率。在本发明的实施例中,由振幅本身取代了倒谱方法中使用的振幅的对数,尽管本质上使用振幅的任何函数都可能在效率上具有相同的收益。
为了快速寻找与谱线相容之候选音调频率的全部区域,把影响函数相继应用到频谱中的谱线上,优选情况下是以振幅下降的次序。每次迭代之后,都去除不相容的音调频率区间,使得后继的迭代在越来越小的候选音调频率区域内执行。以这种方式,能够穷举地估算相容的候选频率区间,而不会造成不适当的计算负担。在频谱的高频区域——其中准确的音调确定需要高分辨率计算,这种去除尤为重要。
因此,根据音频信号当前帧的线状谱,对于搜索区域中每个候选音调频率,使用在线状谱上计算的效用函数来确定效用值。每个候选者的效用值均指示“它是正确音调”的可能性。所以,对本帧估计的音调频率从效用函数的极大值中选取,一般把优先权给予最强的极大值。选取估计的音调时,优选情况下极大值以频率来加权,同时把优先权也给予更高的音调频率。优选情况下,也使用最终音调估计结果的效用值来决定当前帧是浊音还是清音。
在数字化语音的低比特率编码和重建中,本发明尤其有用,其中对当前帧的音调和浊音/清音的判断进行编码并与本帧的调制特性一起传送。此类编码和重建所用优选方法的介绍,见美国专利申请书09/410,085和09/432,081,它们被委托给本申请书的代理人,它们的公开文件在这里引用作为参考。此外,本文中介绍的方法和系统也可以与语音编码和重建的其它方法以及其它类型的音频处理系统中的音调确定联合使用。
所以,依据本发明的某个优选实施例,提供了一种估计音频信号音调频率的方法,包括:
在第一时间区间,计算信号到频率域的第一变换;
在包含该第一时间区间的第二时间区间,计算信号到频率域的第二变换;以及
响应第一和第二变换,估计语音信号的音调频率。
优选情况下,第一和第二变换包括短时傅氏变换。更优选情况下,第一时间区间包括语音信号的当前帧,第二时间区间包括当前帧和前一帧,计算第二变换包括将第一变换与在前一帧上计算的变换相结合。最理想的情况是,这些变换产生各自的频谱系数,将第一变换与前一帧上计算之变换相结合包括,对前一帧上计算之变换产生的系数,应用与频率和帧延续时间成比例的相移,并把相移后的系数加到第一变换产生的系数上。
此外,估计音调频率也包括分别从第一和第二变换,求取信号的第一和第二线状谱,以及根据线状谱确定音调频率。优选情况下,确定音调频率包括分别从第一和第二线状谱,求取第一和第二候选音调频率,以及选择第一和第二候选者之一作为音调频率。最理想的情况是,求取第一和第二候选者包括定义可能的音调频率的高低区域,以及寻找高区域中的第一候选者和低区域中的第二候选者。
优选情况下,音频信号包括语音信号,并且包括响应估计的音调频率,对语音信号的编码。
依据本发明的某个优选实施例,也提供了一种估计语音信号音调频率的方法,包括:
寻找该信号的线状谱,该频谱包括具有各自线振幅和线频率的谱线;
计算一个效用函数,它在该频谱中的线频率上是周期性的,对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容;以及
响应该效用函数,估计语音信号的音调频率。
优选情况下,计算该效用函数包括计算至少一个影响函数,对于频谱线之一的频率对候选音调频率的比值,影响函数是周期性的。更优选情况下,计算至少一个影响函数包括,对于在比值的整数值处具有极大值和其间具有极小值的比值,计算它的一个函数。最理想的情况是,计算该比值的函数包括计算分段线性函数c(f)的数值,该函数在围绕f=0的第一区间中具有某个极大值,在围绕f=1/2的第二区间中具有某个极小值,在第一和第二区间之间的某个过渡区间中具有线性变化的数值。
此外,计算至少一个影响函数包括对于频谱中的多条谱线计算各自的影响函数,以及计算效用函数包括计算影响函数的叠加。优选情况下,各自的影响函数包括具有转折点的分段线性函数,计算叠加包括计算在转折点上影响函数值,使得通过转折点之间的插值来确定效用函数。最理想的情况是,计算各自的影响函数包括对于频谱中的第一和第二谱线,至少相继计算第一和第二影响函数,计算效用函数包括,计算包括第一影响函数的某个部分效用函数,然后通过计算在部分效用函数的转折点上第二影响函数值以及在计算第二影响函数的转折点上部分效用函数值,把第二影响函数加到该部分效用函数。
在一个优选实施例中,计算各自的影响函数包括在频谱中的谱线上,迭代地执行以下步骤:
对于频谱中的第一条谱线,计算第一影响函数;
响应第一影响函数,在与该频谱不相容的音调频率区域内,识别一个或多个区间;
定义减小的音调频率区域,其中已经去除了一个或多个区间;以及
对于频谱中的第二条谱线,计算第二影响函数,同时实质上将对音调频率的第二影响的计算限制在减小后区域之内。
优选情况下,计算叠加包括计算包括第一影响函数但是不包括第二影响函数的部分效用函数,识别一个或多个区间包括去除其中部分效用函数低于指定的水平的区间。最理想的情况是,响应没有包括在部分效用函数中的谱线的线振幅,确定指定的水平。此外,迭代地执行步骤包括以振幅减小的次序对谱线进行迭代。
优选情况下,估计音调频率包括选择效用函数在该处具有局部极大值的候选音调频率。典型情况下,选取的音调频率是效用函数在该处具有局部极大值的多个频率之一,选取候选音调频率包括因为极大值中的一个的频率高于极大值中的另一个频率而优先选择它。此外,选取候选音调频率包括因为某个极大值在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它。
在一个优选实施例中,该方法包括通过比较局部极大值的数值和某个预定的阈值,来确定语音信号是浊音还是清音。
此外,依据本发明的某个优选实施例,也提供了估计音频信号音调频率的装置,包括一种音频处理器,它适于在第一时间区间,计算信号到频率域的第一变换和在第二时间区间——它包含该第一时间区间,计算信号到频率域的第二变换,以及响应第一和第二变换,估计语音信号的音调频率。
依据本发明的某个优选实施例,进一步提供了估计音频信号音调频率的装置,包括一种音频处理器,它适于寻找该信号的线状谱,该频谱包括具有各自线振幅和线频率的谱线;适于计算某个效用函数,它在该频谱中的线频率上是周期性的,对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容;以及适于响应该周期函数,估计语音信号的音调频率。
不仅如此,依据本发明的某个优选实施例,还提供了一种计算机软件产品,包括一种计算机可读的存储介质,其中存放着程序指令,当接收音频信号的计算机读取时,这些指令使计算机在第一时间区间,计算信号到频率域的第一变换和在第二时间区间——它包含该第一时间区间,计算信号到频率域的第二变换,以及响应第一和第二变换,估计语音信号的音调频率。
除此以外,依据本发明的某个优选实施例,还提供了一种计算机软件产品,包括一种计算机可读的存储介质,其中存放着程序指令,当接收音频信号的计算机读取时,这些指令使计算机寻找该信号的线状谱,该频谱包括具有各自线振幅和线频率的谱线;使计算机计算某个效用函数,它在该频谱中的线频率上是周期性的,对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容;以及使计算机响应该效用函数,估计语音信号的音调频率。
从以下对本发明的优选实施例的详细说明以及附图,将会更全面地理解本发明,其中:
附图简要说明
图1是一个语音分析和编码系统的一个示意性的图示说明,依据本发明的一个优选实施例;
图2是一张流程图,示意性地说明了一种音调确定和语音编码方法,依据本发明的一个优选实施例;
图3是一张流程图,示意性地说明了对语音信号提取线状谱和寻找候选音调值的一种方法,依据本发明的一个优选实施例;
图4是一张框图,示意性地说明了同时对长短时间区间提取线状谱的一种方法,依据本发明的一个优选实施例;
图5是一张流程图,示意性地说明了一种在线状谱中寻找尖峰的方法,依据本发明的一个优选实施例;
图6是一张流程图,示意性地说明了根据输入线状谱估算候选音调频率的一种方法,依据本发明的一个优选实施例;
图7是一张图,显示了依据图6的方法估算候选音调频率时使用的影响函数的一个周期;
图8是一张图,显示了通过把图7的影响函数应用到线状谱的某个分量时求取的部分效用函数,依据本发明的一个优选实施例;
图9A和图9B是两张流程图,示意性地说明了对语音的一帧从多个候选音调频率中选择音调频率估计结果的一种方法,依据本发明的一个优选实施例;以及
图10是一张流程图,示意性地说明了一种方法,确定语音的一帧是浊音还是清音,依据本发明的一个优选实施例。
具体实施方式
图1是一个语音信号分析和编码系统20的一个示意性的图示说明,依据本发明的一个优选实施例。该系统包括一种音频输入设备22,比如话筒,它连接到一个音频处理器24。此外,输入到处理器的音频也可以通过通信线路提供或者从存储设备检索,或者以模拟形式或者以数字形式。优选情况下,处理器24包括一台通用计算机,配备了执行下文介绍之功能的适当软件。向该处理器提供软件可以采用电子形式,例如,通过某个网络,也可以在有形的介质上提供,比如CD-ROM或者非易失性存储器。此外,处理器24也可以包括一个数字信号处理器(DSP)或者硬件实现的逻辑电路。
图2是一张流程图,示意性地说明了使用系统20处理语音信号的一种方法,依据本发明的一个优选实施例。在输入步骤30,一种语音信号从设备22或者从另一种来源输入并为了进一步的处理而数字化(如果该信号还不是数字形式的话)。为了后续的处理,数字化的信号划分成适当延续时间的帧,典型情况下是10ms。在音调识别步骤32,处理器24对每一帧提取信号的近似线状谱。该频谱是通过在多个时间区间同时分析该信号而提取的,如下文的介绍。优选情况下,对于每一帧使用两个区间:一个短区间用于提取高频音调值,一个长区间用于提取低频值。此外,也可以使用众多的区间。低频部分和高频部分一起覆盖了可能的音调值的整个区域。根据提取的频谱,识别当前帧的候选音调频率。
在音调选择步骤34,当前帧音调频率的最佳估计结果是从频谱的所有部分中的候选频率中选定的。根据选定的音调,在浊音判断步骤36,系统24确定当前帧实际上是浊音还是清音。在输出编码步骤38,浊音/清音的判断和选定的音调频率用于对当前帧编码。最理想的情况是,在这个步骤中使用上述美国专利申请书09/410,085和09/432,081中介绍的方法,尽管本质上也可以使用本领域中已知的任何其它编码方法。优选情况下,编码后的输出随着浊音和音调信息,包括声音流调制的特性。典型情况下,编码后的输出通过通信连接发送和/或存放在存储器26中(图1)。在任何情况下,提取调制信息和对语音信号编码所用的方法都超出了本发明的范畴。本文介绍的音调确定的方法也可以用于其它音频处理应用中,带有或者不带后续的编码。
图3是一张流程图,示意性地说明了音调识别步骤32的细节,依据本发明的一个优选实施例。在变换步骤40,对语音信号的每一帧应用一种双窗短时傅氏变换(STFT)。典型情况下,语音信号可能的音调频率的区域是从55至420Hz。优选情况下,这个区域划分成两个区域:一个下部区域从55Hz向上至某个中频Fb(典型情况下大约90Hz),一个上部区域从Fb上至420Hz。如下文的介绍,对于每一帧,为了搜索上部频率区域定义了一个短时窗,为了搜索下部频率区域定义了一个长时窗。此外,也可以使用众多相邻的时窗。对每个时窗应用STFT,以分别计算语音信号的高低频频谱。
短时窗和长时窗频谱的处理在分开、并行的途径上进行。在频谱估计步骤42和44,从各自的STFT结果求取高低频的线状谱,它们具有以上定义的{(ai,θi)的形式。在候选频率寻找步骤46和48,这些线状谱用于寻找高低频音调候选值各自的集合。为了在这些音调候选值中选择最佳的音调频率估计结果,把它们送入步骤34(图2)。下文中参考图4、图5和图6,介绍步骤40至48的细节。
图4是一张框图,示意性地说明了变换步骤40的细节,依据本发明的一个优选实施例。加窗单元50把一种加窗函数——优选情况下是把延续时间为20ms的业内周知的汉明窗——应用到语音信号的当前帧上。变换单元52把一种适当的频率变换应用到加窗后的帧,优选情况下是一种分辨率为256或512个频率点的快速傅氏变换(FFT),取决于采样率。
优选情况下,变换单元52的输出是送入一个插值单元54,它用于提高频谱的分辨率。最理想的情况是,通过把一个狄利克雷核
为了高效的插值,在每个频率θ的邻域,仅仅使用少量的系数Xd[k]。典型情况下使用16个系数,以这种方式频谱的分辨率提高的因数是2,所以在插值后的频谱中点数是L=2N。插值单元54的输出给出了短时窗变换,它传送到步骤42(图3)。
通过当前帧的短时窗变换Xs和前一帧的短时窗变换Ys——它由延迟单元56保存——的结合,计算出要传送到步骤44的长时窗变换。结合之前,来自前一帧的系数在乘法器58中乘以一个相移2πmk/L,其中m是一帧中的样点数目。通过在加法器60中把来自当前帧的短时窗系数加上来自前一帧的短时窗系数(带有适当的相移),产生了长时窗频谱X1如下:
X1(2πk/L)=Xs(2πk/L)+Ys(2πk/L)exp(j2πmk/L) (3)
式中k是从一个整数集中取出的一个整数,使得频率2πk/L跨越频率的整个区域。因此,以图4为例的方法容许对于多个叠加的时窗求取频谱,而计算成本比在单一时窗中执行一次STFT运算所需的计算量增加不多。
图5是一张流程图,示意性地显示了线状谱估计步骤42和44的细节,依据本发明的一个优选实施例。对步骤40产生的长短时窗变换X(θ),都应用了这张图中说明的线状谱估计方法。步骤42和44的目的是确定当前帧绝对现状谱的一个估计结果
从X(θ)的局部极大值的位置和
求取尖峰频率的序列
该估计结果是基于假设:在频率域中,加窗函数(加窗单元50)的变换的主瓣宽度,相对于音调频率比较小。所以,频谱中相邻窗口之间的相互作用也比较小。
线状谱的估计开始于在尖峰寻找步骤70,在插值后的频谱(每个(2)式)中寻找尖峰的近似频率。典型情况下,执行频率计算至整数精度。在插值步骤72,这些尖峰频率计算至浮点精度,优选情况下是根据2π/L的整数倍中的尖峰频率和在三个最近的相邻整数倍处的频谱振幅,使用二阶插值。为了寻找精确的尖峰位置处的振幅,对复振幅值应用线性插值,然后取振幅的绝对值。
在畸变估算步骤74,为了评估输入语音信号中是否存在畸变,对在前面步骤中发现的尖峰阵列进行处理,如果有畸变,要视图校正该畸变。优选情况下,分析频率范围划分成三个相等的区域,计算区域中所有振幅的极大值。这些区域完全覆盖了该频率范围。如果中频或高频区域中的极大值与低频区域中的极大值相比太高,就在衰减步骤76衰减中频和/或高频区域中的尖峰值。经探索发现,如果中频区域极大值高于低频区域极大值的65%,或者高频区域极大值高于低频区域极大值的45%,就应当应用衰减。以这种方式衰减尖峰,使频谱“恢复”到更可靠的形状。粗略地说,如果语音信号最初没有畸变,步骤74将不会改变其频谱。
在尖峰计数步骤78,对步骤72中发现的尖峰进行计数。在主尖峰估算步骤80,尖峰的数目与某个预定的极大值数目——典型情况下设置为8——进行比较。如果发现的尖峰是8个或更少,处理过程直接前进到步骤46或48。否则,在排序步骤82,尖峰按照其振幅值的下降次序排序。一旦预定数目的最高的尖峰已经发现(典型情况下等于步骤80所用的尖峰的最大数目),就在阈值设置步骤84,把阈值设置为等于最高尖峰组中最低尖峰振幅的某个特定比例。在虚假尖峰丢弃步骤86,丢弃低于这个阈值的尖峰。此外,如果在排序步骤82的某个阶段,已排序尖峰值的总和超过全部已发现尖峰值总和的某个预定比例——典型情况下为95%,就停止排序过程。然后在步骤86,丢弃所有剩余的、较小的尖峰。这个步骤的目的是去除小的、虚假的尖峰,它们可能以后在步骤34和36中影响音调确定或者影响浊音/清音的判断(图2)。减少线状谱尖峰的数目也使音调确定过程的效率更高。
图6是一张流程图,示意性地显示了候选频率寻找步骤46和48的细节,依据本发明的一个优选实施例。这些步骤分别应用到步骤44和42输出的长短时窗线状谱
如上所示及所述。在步骤46中,产生其频率高于某个特定阈值的音调候选者,并根据短分析区间中产生的线状谱,使用下面概述的过程计算其效用函数。在步骤48中,长分析区间中产生的线状谱也产生一个音调候选列表,并且仅仅对于其频率低于该阈值的音调候选者计算效用函数。不论是长时窗还是短时窗,在归一化步骤90,线状谱都要归一化,以产生具有归一化振幅bi和频率fi的谱线如下:
在两式中,i都是从1到K,Ts都是采样间隔。换句话说,1/Ts是原始语音信号的采样频率,因此fi是以每秒样点数表示的谱线频率。在排序步骤92中,按照其归一化振幅bi对谱线排序。
图7是一张图,显示了图6的方法这个阶段使用的影响函数120的一个周期,标注为c(f),依据本发明的一个优选实施例。优选情况下,该影响函数具有以下特征:
1.c(f+1)=c(f),即该函数是周期性的,周期为1。
2. 0≤c(f)≤1。
3.c(0)=1。
4.c(f)=c(-f)。
5.对于r≤|f|≤1/2,其中r为小于1/2的一个参数,c(f)=0。
6.在[0,r]中c(f)是分段线性和非增的。
在图7所示的优选实施例中,该影响函数是梯形的,具有以下形式:
此外,也可以使用另一种周期函数,优选情况下是一个分段线性函数,离原点超过某个预定距离时其值为0。
图8是一张图,显示了效用函数U(fp)的某个分量130,它是对候选预定频率fp使用影响函数c(f)而产生的,依据本发明的一个优选实施例。对于任何给定的音调频率,根据线状谱{(bi,fi)}产生效用函数U(fp)如下:
那么,对于单一谱线(bi,fi),这个函数的某个分量Ui(fp)定义为:
图8显示了一个这样的分量,其中fi=700Hz,在从50到400Hz的范围内对音调频率估算该分量。该分量包括多个瓣132、134、136、138… …,每个瓣都定义了一个区域,其中可能产生一个候选音调频率并导致在fi的谱线。
因为bi值已经归一化,并且c(f)≤1,对于任何给定候选音调频率,效用函数将在0和1之间。由于根据定义在fi中c(fi/fp)是周期性的,周期为fp,所以对于某个给定的音调频率fp,效用函数的一个大值表示,序列{fi}中的大多数频率接近音调频率的某个倍数。因此,通过对指定分辨率适当的频率范围中所有可能的音调频率计算效用函数,并选取效用值大的候选音调频率,可以直接了当(但是低效)地发现当前帧的音调频率。
下文提出一种效率更高的方法。因为影响函数c(f)是分段线性的,在任何点上Ui(fp)的值都是通过在函数的转折点(即一阶导数中的不连续点)上的值来定义的,比如图8中所示的点140和142。虽然Ui(fp)本身不是分段线性的,但是在所有区域中它都能够近似为一种线性函数。下面要介绍的方法使用Ui(fp)分量转折点的值来建立完整的效用函数U(fp)。每个Ui分量将其自己的转折点增加到完整函数中,同时通过线性插值来发现转折点之间的效用函数值。
建立完整效用函数的过程,使用了通过依次加进每条谱线(bi,fi)的Ui(fp)分量产生的、一系列的部分效用函数PUi:
因为函数c(f)不大于1,最初i条谱线已经加入部分效用函数之后,剩余线状谱值的总和离上限还有:
那么对于任何i,完整的效用函数U(fp)受限于:
U(fp)≤PUi(fp)+Ri (11)
所以,每次迭代i之后,对于使PUi(fp)+Ri小于某个预定阈值的fp,保证具有同样小于该阈值的某个效用值。所以,它们可以不再被视为校正音调频率的候选者。通过使用PUi的转折点值,利用线性插值发现转折点之间的函数值,能够发现PUi(fp)+Ri低于阈值的整个区间,并在每次迭代时去除,使后续的搜索效率更高。
现在返回图6,为了产生部分效用函数的序列PUi,把影响函数c(f)迭代地应用到归一化频谱中的每条谱线(bi,fi)。在分量选择步骤94,该过程起始于最大的分量U1(fp)。这个分量对应于具有最大归一化振幅b1的排序后的谱线(b1,f1)。在效用函数生成步骤96,在搜索fp的区域内所有转折点上计算U1(fp)的值。在这个阶段,部分效用函数PU1只是等于U1。在这个阶段的后续迭代中,既在其自己的转折点上又在当前对fp的有效搜索区间之内(即前一次迭代中还没有被去除的区间之内)部分效用函数PUi-1(fp)的所有转折点上,确定新的分量Ui(fp)。优选情况下,在PUi-1(fp)的转折点上的Ui(fp)值通过插值来计算。在Ui(fp)的转折点上也计算PUi-1(fp)值。在丢弃步骤98,如果Ui包含的转折点非常接近PUi-1中现有的转折点,优选情况下这些新的转折点作为多余的点丢弃。最理想的情况是,以这种方式丢弃其频率与现有转折点差异不大于0.0006*fp 2的转折点。然后在加法步骤100中,在所有剩余的转折点上,Ui加到PUi-1上,从而产生。
在每次迭代中,在区间删除步骤102估算对fp的有效搜索区间。如上所述,其中PUi(fp)+Ri低于某个预定阈值的区间被去除,不再进一步考虑。一个对这种目的便于使用的阈值是浊音/清音阈值TUV,在步骤36(图2)它应用于选定的音调频率,以确定当前帧是浊音还是清音。在这一点上使用某个高阈值会提高个计算过程的效率,但是有删除有效候选音调频率的风险。这可能会导致确定当前帧是清音,而事实上它应当被视为浊音。例如,如果前一帧估计的音调频率的效用值
高,当前帧往往应当判断为浊音,即使当前帧的效用值低。
由于这个原因,为了在步骤102中使用,优选情况下定义一种自适应探索的阈值Tad如下:
式中PUmax为当前部分效用函数PUi的最大值,Tmin为预定的最小阈值,低于TUV。商
——永远小于等于1——表示部分效用函数PUi之“质量”的一种测度。如果质量高,阈值Tad将接近TUV。如果质量差,更低的阈值Tmin防止有效的音调候选者过早地从音调确定过程中去除。
在终止步骤104,应当做到最后一条谱线(bi,fi)的Ui分量已经估算之后,该过程就完成了,合成的效用函数U传送到音调选择步骤34。该函数的形式为频率转折点的集合及转折点上的函数值。否则,在下一个分量步骤106取下一条谱线,迭代过程从步骤96继续进行,直到过程完成。
总而言之,可见图6的方法在搜索范围内搜索所有可能的音调频率,但是它是以优化的效率进行的,因为在每次迭代时,都去除了更多的无效搜索区间。因此是在依次减小的有效区间中进行搜索。不仅如此,仅仅计算在特定的转折点上线状谱的每个分量对效用函数的贡献,而不是在音调频率的整个搜索范围内计算。
图9A和图9B是两张流程图,示意性地说明了音调选择步骤34(图2)的细节,依据本发明的一个优选实施例。最佳候选音调频率的选择是根据步骤104输出的效用函数,包括所有发现的转折点。对效用函数的转折点进行估算,并选取其中一个作为最佳音调候选者。
在极大值寻找步骤150,寻找效用函数的局部极大值。最佳音调候选者要从这些局部极大值中选择。典型情况下,为了避免把音调频率的整数被除数(对应于音调周期的整数倍)误认为是真正的音调,优先权给予高的音调频率。所以,在频率排序步骤152,根据频率对局部极大值{fP i}i=1 M排序如下:
估算的过程开始于下一个频率步骤156,对于候选音调fp 2。在估算步骤158,效用函数值U(fp 2)与
相比较。如果在fp 2效用函数大于
处的效用函数至少某个阈值差异T1,或者如果fp 2接近
并具有更大的效用函数值,即使差异不大,那么fp 2也被视为是优于当前的
的音调频率估计结果。典型情况下,T1=0.1,并且如果
就认为fp 2接近
在这种情况下,在候选设置步骤160,
设置为新的候选值fp2。
对于所有的局部极大值fp i,依次重复步骤156至160,直到在最后一个频率步骤162达到最后一个频率fp M。
对于当前帧,只要在前一帧中音调是稳定的,一般需要选取接近前一帧音调的一个音调。所以,在前一帧评估步骤170,确定前一帧中音调是否稳定。优选情况下是在前六帧中都满足一定的连续准则,从把该音调视为稳定的。例如相继帧之间音调变化小于18%,并且在所有帧中保持效用函数的大值,可能是需要的。如果是这样,在最近极大值选择步骤172中,在{fp i}集合中选择最接近前一个音调频率的音调频率。在对比步骤174,对比当前音调频率估计结果的效用函数
在这种最接近的频率估算效用函数U(fp close)。在最接近频率设置步骤176,如果在这两种频率处效用函数的值差异不大于某个阈值数量T2,那么就选取与前一个音调频率最接近的频率fp close作为当前帧音调频率的估计结果
典型情况下,T2设置为0.06。否则,在候选频率设置步骤178,如果效用函数的值差异大于T2,仍然选取来自步骤162的当前的音调频率的估计结果
作为当前帧的音调频率。如果在步骤170发现前一帧的音调不稳定,同样会选取这个估计值。
图10是一张流程图,示意性地显示了浊音判断步骤36的细节,依据本发明的一个优选实施例。在阈值对比步骤180,该判断是根据在估计的音调处效用函数
与上述阈值TUV的比较结果。典型情况下,TUV=0.75。在浊音设置步骤188,如果效用函数高于该阈值,当前帧就划分为浊音。
不过,在语音流过渡期间,语音信号的周期结构可能改变,不时导致效用函数的低值,即使当前帧应当被视为浊音。所以,当前帧的效用函数低于阈值TUV时,在前一帧检验步骤182检验前一帧的效用函数。如果前一帧的音调估计结果具有高效用值,典型情况下至少0.84,而且在音调检验步骤184发现当前帧的音调接近前一帧的音调,典型情况下差异不大于18%,那么当前帧就在步骤188划分为浊音,而不管其低效用值。否则,在清音设置步骤186,当前帧被划分为清音。
应当理解,以上介绍的优选实施例是举例引证,本发明不限于上文中已经展示和介绍的具体内容。相反,本发明的范围包括上文中介绍之多种特性的结合与变形,以及它们的变化和修改,本领域的技术人员阅读前面的说明之后可以做出这些变化和修改,并且没有在现有技术中公开过。
Claims (32)
1.一种估计语音信号音调频率的方法,包括:
寻找该信号的一个线状谱,该频谱包括具有各自线振幅和线频率的谱线;
计算一个效用函数,它在该频谱中的线频率上是周期性的,对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容;以及
响应该效用函数,估计语音信号的音调频率。
2.根据权利要求1的方法,其特征在于,计算该效用函数包括计算至少一个影响函数,对于频谱线之一的频率对候选音调频率的比值,影响函数是周期性的。
3.根据权利要求2的方法,其特征在于,计算至少一个影响函数包括,对于在比值的整数值处具有极大值和其间具有极小值的比值,计算它的一个函数。
4.根据权利要求3的方法,其特征在于,计算该比值的函数包括计算分段线性函数c(f)的数值,该函数在围绕f=0的第一区间中具有一个极大值,在围绕f=1/2的第二区间中具有一个极小值,在第一和第二区间之间的一个过渡区间中具有线性变化的数值。
5.根据权利要求2的方法,其特征在于,计算至少一个影响函数包括对于频谱中的多条谱线计算各自的影响函数,并且,计算效用函数包括计算影响函数的叠加。
6.根据权利要求5的方法,其特征在于,各自的影响函数包括具有转折点的分段线性函数,并且,计算叠加包括在转折点上计算影响函数值,使得通过转折点之间的插值来确定效用函数。
7.根据权利要求6的方法,其特征在于,计算各自的影响函数包括对于频谱中的第一和第二谱线,至少相继计算第一和第二影响函数,并且,计算效用函数包括,计算包括第一影响函数的一个部分效用函数,然后通过计算在部分效用函数的转折点上第二影响函数值以及计算在第二影响函数的转折点上部分效用函数值,把第二影响函数加到该部分效用函数。
8.根据权利要求5的方法,其特征在于,计算各自的影响函数包括在频谱中的谱线上,迭代地执行以下步骤:
对于频谱中的第一条谱线,计算第一影响函数;
响应第一影响函数,在与该频谱不相容的音调频率区域内,识别一个或多个区间;
定义减小的音调频率区域,其中已经去除了一个或多个区间;以及
对于频谱中的第二条谱线,计算第二影响函数,同时实质上将对音调频率的第二影响的计算限制在减小后区域之内。
9.根据权利要求8的方法,其特征在于,计算叠加包括计算包括第一影响函数但是不包括第二影响函数的部分效用函数,并且,识别一个或多个区间包括去除其中部分效用函数低于指定的水平的区间。
10.根据权利要求9的方法,其特征在于,响应没有包括在部分效用函数中的谱线的线振幅,确定指定的水平。
11.根据权利要求8的方法,其特征在于,迭代地执行步骤包括以振幅减小的次序对谱线进行迭代。
12.根据权利要求1-11中任何一条的方法,其特征在于,估计音调频率包括选择效用函数在该处具有局部极大值的候选音调频率。
13.根据权利要求12的方法,其特征在于,选取的音调频率是效用函数在该处具有局部极大值的多个频率之一,并且,选取候选音调频率包括因为极大值中的一个的频率高于极大值中的另一个的频率而优先选择它。
14.根据权利要求12的方法,其特征在于,选取的音调频率是效用函数在该处具有局部极大值的多个频率之一,并且,选取候选音调频率包括因为一个极大值在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它。
15.根据权利要求12的方法,并且包括通过比较局部极大值的数值和一个预定的阈值,来确定语音信号是浊音还是清音。
16.根据权利要求1-11中任何一条的方法,其特征在于,该音频信号包括语音信号,并且包括响应估计的音调频率,对语音信号编码。
17.估计音频信号音调频率的装置,包括一种音频处理器,它适于寻找该信号的线状谱,该频谱包括具有各自线振幅和线频率的谱线;适于计算一个效用函数,它在该频谱中的线频率上是周期性的,对于指定音调频率区域中每个候选音调频率,该函数指示该频谱与候选音调频率相容;以及适于响应该周期函数,估计语音信号的音调频率。
18.根据权利要求17的装置,其特征在于,该效用函数包括至少一个影响函数,对于频谱线之一的频率对候选音调频率的比值,影响函数是周期性的。
19.根据权利要求18的装置,其特征在于,该至少一个影响函数包括一个比值的函数,该比值是在比值的整数值处具有极大值和其间具有极小值的二者的比值。
20.根据权利要求19的装置,其特征在于,该至少一个影响函数包括分段线性函数c(f),该函数在围绕f=0的第一区间中具有一个极大值,在围绕f=1/2的第二区间中具有一个极小值,在第一和第二区间之间的一个过渡区间中具有线性变化的数值。
21.根据权利要求17的装置,其特征在于,该处理器适于对于频谱中的多条谱线计算各自的影响函数,并且适于通过寻找估计音调频率中使用的影响函数的叠加,计算效用函数。
22.根据权利要求21的装置,其特征在于,这些影响函数包括具有转折点的分段线性函数,并且,该处理器适于计算在转折点上影响函数值,使得通过在转折点之间进行插值来确定效用函数。
23.根据权利要求22的装置,其特征在于,这些影响函数至少包括对于频谱中的第一和第二谱线,相继计算出的第一和第二影响函数,并且,该处理器适于计算包括第一影响函数的一个部分效用函数,然后通过计算在部分效用函数的转折点上的第二影响函数值以及计算在第二影响函数的转折点上的部分效用函数值,把第二影响函数加到该部分效用函数。
24.根据权利要求21的装置,其特征在于,该处理器适于在频谱中的谱线上,迭代地执行以下步骤:
对于频谱中的第一条谱线,计算第一影响函数;
响应第一影响函数,在与该频谱不相容的音调频率区域内,识别一个或多个区间;
定义减小的音调频率区域,其中已经去除了一个或多个区间;以及
对于频谱中的第二条谱线,计算第二影响函数,同时实质上将对音调频率的第二影响的计算限制在减小后区域之内。
25.根据权利要求24的装置,其特征在于,该处理器适于计算包括第一影响函数但是不包括第二影响函数的一个部分效用函数,以及对于其中部分效用函数低于指定的水平的区间,在计算第二影响函数中不再考虑。
26.根据权利要求25的装置,其特征在于,响应没有包括在部分效用函数中的谱线的线振幅,确定指定的水平。
27.根据权利要求24的装置,其特征在于,该处理器适于以振幅减小的次序对谱线进行迭代。
28.根据权利要求17-27中任何一条的装置,其特征在于,估计的音调频率包括效用函数在该处具有局部极大值的音调频率。
29.根据权利要求28的装置,其特征在于,选取的音调频率是效用函数在该处具有局部极大值的多个频率之一,并且,该处理器适于因为极大值中的一个的频率高于极大值中的另一个的频率而优先选择它作为音调频率。
30.根据权利要求28的装置,其特征在于,选取的音调频率是该周期函数在该处具有局部极大值的多个频率之一,并且,该处理器适于因为极大值之一在频率上接近语音信号前一帧的前面估计的音调频率而优先选择它作为音调频率。
31.根据权利要求28的装置,其特征在于,该处理器适于通过比较局部极大值的一个数值和一个预定的阈值,来确定语音信号是浊音还是清音。
32.根据权利要求17-27中任何一条的装置,其特征在于,该音频信号包括语音信号,并且,该处理器进一步适于响应估计的音调频率,对语音信号进行编码。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/617,582 US6587816B1 (en) | 2000-07-14 | 2000-07-14 | Fast frequency-domain pitch estimation |
US09/617,582 | 2000-07-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1527994A CN1527994A (zh) | 2004-09-08 |
CN1248190C true CN1248190C (zh) | 2006-03-29 |
Family
ID=24474220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB018220991A Expired - Lifetime CN1248190C (zh) | 2000-07-14 | 2001-07-12 | 快速频域音调估计方法和装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6587816B1 (zh) |
EP (1) | EP1309964B1 (zh) |
KR (1) | KR20030064733A (zh) |
CN (1) | CN1248190C (zh) |
AU (1) | AU2001272729A1 (zh) |
CA (1) | CA2413138A1 (zh) |
DE (1) | DE60136716D1 (zh) |
WO (1) | WO2002007363A2 (zh) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117149B1 (en) | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
WO2002101717A2 (en) * | 2001-06-11 | 2002-12-19 | Ivl Technologies Ltd. | Pitch candidate selection method for multi-channel pitch detectors |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
WO2003048714A1 (en) * | 2001-12-04 | 2003-06-12 | Skf Condition Monitoring, Inc. | Systems and methods for identifying the presence of a defect in vibrating machinery |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7233894B2 (en) * | 2003-02-24 | 2007-06-19 | International Business Machines Corporation | Low-frequency band noise detection |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
KR100511316B1 (ko) * | 2003-10-06 | 2005-08-31 | 엘지전자 주식회사 | 음성신호의 포만트 주파수 검출방법 |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US7949520B2 (en) * | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US7680652B2 (en) * | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US7783488B2 (en) * | 2005-12-19 | 2010-08-24 | Nuance Communications, Inc. | Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8335685B2 (en) * | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
EP1944754B1 (en) * | 2007-01-12 | 2016-08-31 | Nuance Communications, Inc. | Speech fundamental frequency estimator and method for estimating a speech fundamental frequency |
US20080231557A1 (en) * | 2007-03-20 | 2008-09-25 | Leadis Technology, Inc. | Emission control in aged active matrix oled display using voltage ratio or current ratio |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) * | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
US8209514B2 (en) * | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
EP2360680B1 (en) * | 2009-12-30 | 2012-12-26 | Synvo GmbH | Pitch period segmentation of speech signals |
WO2012102149A1 (ja) | 2011-01-25 | 2012-08-02 | 日本電信電話株式会社 | 符号化方法、符号化装置、周期性特徴量決定方法、周期性特徴量決定装置、プログラム、記録媒体 |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
CN105590629B (zh) * | 2014-11-18 | 2018-09-21 | 华为终端(东莞)有限公司 | 一种语音处理的方法及装置 |
ES2933287T3 (es) * | 2016-04-12 | 2023-02-03 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio, método para codificar una señal de audio y programa informático en consideración de una región espectral del pico detectada en una banda de frecuencia superior |
EP3783912B1 (en) | 2018-04-17 | 2023-08-23 | The University of Electro-Communications | Mixing device, mixing method, and mixing program |
EP3783913A4 (en) | 2018-04-19 | 2021-06-16 | The University of Electro-Communications | MIXING DEVICE, MIXING PROCESS AND MIXING PROGRAM |
WO2019203127A1 (ja) | 2018-04-19 | 2019-10-24 | 国立大学法人電気通信大学 | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 |
CN109979483B (zh) * | 2019-03-29 | 2020-11-03 | 广州市百果园信息技术有限公司 | 音频信号的旋律检测方法、装置以及电子设备 |
CN110379438B (zh) * | 2019-07-24 | 2020-05-12 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
CN114822577B (zh) * | 2022-06-23 | 2022-10-28 | 全时云商务服务股份有限公司 | 语音信号基频估计方法和装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4885790A (en) | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
US5054072A (en) | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
GB2230132B (en) | 1988-11-19 | 1993-06-23 | Sony Corp | Signal recording method |
JPH03123113A (ja) | 1989-10-05 | 1991-05-24 | Fujitsu Ltd | ピッチ周期探索方式 |
US5226108A (en) | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
JPH05307399A (ja) | 1992-05-01 | 1993-11-19 | Sony Corp | 音声分析方式 |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
JP2624130B2 (ja) | 1993-07-29 | 1997-06-25 | 日本電気株式会社 | 音声符号化方式 |
US5781880A (en) | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
JPH08179795A (ja) | 1994-12-27 | 1996-07-12 | Nec Corp | 音声のピッチラグ符号化方法および装置 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP2778567B2 (ja) | 1995-12-23 | 1998-07-23 | 日本電気株式会社 | 信号符号化装置及び方法 |
US5696873A (en) | 1996-03-18 | 1997-12-09 | Advanced Micro Devices, Inc. | Vocoder system and method for performing pitch estimation using an adaptive correlation sample window |
US5774836A (en) | 1996-04-01 | 1998-06-30 | Advanced Micro Devices, Inc. | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator |
US5799271A (en) | 1996-06-24 | 1998-08-25 | Electronics And Telecommunications Research Institute | Method for reducing pitch search time for vocoder |
US5794182A (en) | 1996-09-30 | 1998-08-11 | Apple Computer, Inc. | Linear predictive speech encoding systems with efficient combination pitch coefficients computation |
US5870704A (en) | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US6272460B1 (en) * | 1998-09-10 | 2001-08-07 | Sony Corporation | Method for implementing a speech verification system for use in a noisy environment |
-
2000
- 2000-07-14 US US09/617,582 patent/US6587816B1/en not_active Expired - Lifetime
-
2001
- 2001-07-12 CN CNB018220991A patent/CN1248190C/zh not_active Expired - Lifetime
- 2001-07-12 EP EP01951885A patent/EP1309964B1/en not_active Expired - Lifetime
- 2001-07-12 DE DE60136716T patent/DE60136716D1/de not_active Expired - Lifetime
- 2001-07-12 CA CA002413138A patent/CA2413138A1/en not_active Abandoned
- 2001-07-12 KR KR10-2003-7000302A patent/KR20030064733A/ko not_active Application Discontinuation
- 2001-07-12 WO PCT/IL2001/000644 patent/WO2002007363A2/en active Search and Examination
- 2001-07-12 AU AU2001272729A patent/AU2001272729A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2002007363A3 (en) | 2002-05-16 |
KR20030064733A (ko) | 2003-08-02 |
CA2413138A1 (en) | 2002-01-24 |
DE60136716D1 (zh) | 2009-01-08 |
EP1309964A2 (en) | 2003-05-14 |
EP1309964B1 (en) | 2008-11-26 |
US6587816B1 (en) | 2003-07-01 |
AU2001272729A1 (en) | 2002-01-30 |
EP1309964A4 (en) | 2007-04-18 |
CN1527994A (zh) | 2004-09-08 |
WO2002007363A2 (en) | 2002-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1248190C (zh) | 快速频域音调估计方法和装置 | |
CN1265351C (zh) | 用于估计语音信号的音调频率的方法和装置 | |
CN1146862C (zh) | 音调提取方法和装置 | |
CN1991976A (zh) | 基于音素的语音识别方法与系统 | |
CN1271594C (zh) | 基于频谱分析的音调确定方法和装置 | |
CN101051460A (zh) | 提取语音信号的特性信息的语音信号预处理系统及方法 | |
AU746342B2 (en) | Method and apparatus for pitch estimation using perception based analysis by synthesis | |
CN104616663A (zh) | 一种结合hpss的mfcc-多反复模型的音乐分离方法 | |
CN110599987A (zh) | 基于卷积神经网络的钢琴音符识别算法 | |
JP6272433B2 (ja) | ピッチ周期の正確性を検出するための方法および装置 | |
EP1395977A2 (en) | Processing speech signals | |
CN1266671C (zh) | 估算声音编码器的谐波的装置和方法 | |
US20070288233A1 (en) | Apparatus and method for detecting degree of voicing of speech signal | |
CN101030374A (zh) | 基音周期提取方法及装置 | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
JP4217616B2 (ja) | 二段階ピッチ判断方法および装置 | |
Bouzid et al. | Voice source parameter measurement based on multi-scale analysis of electroglottographic signal | |
CN1214362C (zh) | 用于确定信号间相关系数和信号音高的设备和方法 | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
Chazan et al. | Efficient periodicity extraction based on sine-wave representation and its application to pitch determination of speech signals. | |
Schroeder | Parameter estimation in speech: a lesson in unorthodoxy | |
de León et al. | A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals | |
Rychlicki-Kicior et al. | Multipitch estimation using multiple transformation analysis | |
Ashouri et al. | Automatic and accurate pitch marking of speech signal using an expert system based on logical combinations of different algorithms outputs | |
Touazi et al. | A Case Study on Back-End Voice Activity Detection for Distributed Specch Recognition System Using Support Vector Machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: NEW ANST COMMUNICATION CO.,LTD. Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP. Effective date: 20090925 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20090925 Address after: Massachusetts, USA Patentee after: Nuance Communications Inc Address before: American New York Patentee before: International Business Machines Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20060329 |
|
CX01 | Expiry of patent term |