CN102027533B

CN102027533B - 用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法

Info

Publication number: CN102027533B
Application number: CN2010800015238A
Authority: CN
Inventors: 萨斯卡·迪希; 哈拉尔德·波普
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-04-03
Filing date: 2010-03-18
Publication date: 2012-11-07
Anticipated expiration: 2030-03-18
Also published as: US8996363B2; EP2401740B1; KR20110002089A; WO2010112348A1; RU2010136359A; US20120008799A1; KR101264486B1; AU2010219353B2; EP2401740A1; HK1165602A1; AU2010219353A1; CN102027533A; BRPI1001241B1; BRPI1001241A2; MX2010011863A; EP2237266A1; RU2490729C2; JP2012507055A; JP5283757B2; CA2721402A1

Abstract

一种用于确定音频信号频谱的重力频率的多个局部中心的设备包括偏移确定器、频率确定器和迭代控制器。偏移确定器根据音频信号频谱确定多个迭代开始频率的每个迭代开始频率的偏移频率，其中该频谱的离散采样值的数量大于迭代开始频率的数量。频率确定器通过将多个迭代开始频率的每个迭代开始频率增加或降低相应的所确定的偏移频率来确定新的多个迭代开始频率。迭代控制器将新的多个迭代开始频率提供给偏移确定器以进行进一步迭代，或者如果符合预先定义的结束条件，便提供多个重力频率的局部中心。可以将该重力频率的多个局部中心用作用于生成新的多个迭代开始频率的基础。

Description

用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法

技术领域

根据本发明的实施例涉及音频信号处理系统，更具体地，涉及用于确定音频信号的频谱的重力频率的多个局部中心的设备和方法。

背景技术

对于解决极端信号处理需求的数字信号处理技术的要求正在增加，以便将例如取自数据库的预先记录的音频信号适用到新的音乐背景环境。为此目的，需要对高级语义信号属性进行适配，例如音高、音调和音阶模式。所有这些处理的共同点在于它们的目的在于实质地改变原始音频资料的音乐属性，同时尽可能好地保留主观声音质量。换句话说，这些编辑极大地改变了音频资料音乐背景环境，但是需要保留所处理的音频采样的本质属性，从而维持可信度。这理想地要求可广泛地应用于包括多音混合音乐内容的不同种类信号的信号处理方法。

因此，最近已经提出了基于多频带调制分量的音频信号分析、处理和合成方法(参见2008年数字音效(DAFx)国际会议论文集的S.Disch和B.Edler的“An amplitude-and frequency modulation vocoder for audio signal processing”，2009年IEEE-ICASSP会议论文集的S.Disch和B.Edler的“Multiband perceptualmodulaion analysis，processing and synthesis of audio signals”)。该方法的基本思想是将多音混合体分解成视为声音体的分量，并进一步处理以联合方式包含在一个分量内的全部信号单元。此外，已经介绍了合成方法，其提供平滑和感觉令人愉快、并(依据所使用的处理类型)大大修改的输出信号。如果未将处理应用于分量，该方法已经表现为提供透明或接近透明的主观音频质量(参见2008年数字音效(DAFx)国际会议论文集的S.Disch和B.Edler的“An amplitude-and frequency modulation vocoder for audio signal processing”)。

基于块的多音音乐处理(例如多频带调制分解)的一个重要步骤是估计随时间变化的连续频谱中的重力局部中心(COG)(参见“J.Anantharaman，A.Krishnamurthy和L.Feth，‘Intensity-weighted average of instantaneous frequencyas a model for frequency discrimination’，J.Acoust.Soc.Am.，vol.94，pp.723-729，1993”，“Q.Xu，L.L.Feth，J.N.Anantharaman和A.K.Krishnamurthy，‘Bandwidthof spectral resolution for the‘c-o-g’effect in vowel-like complex sounds’，Acoustical Society ofAmerica Journal，Vol.101，pp.3149-+，1997年5月”)。该文献示出了迭代算法，该算法可以用于确定与信号的局域COG对准的信号自适应频谱分解。

COG方法可以类似于传统的时间频率重新分配(t-f重新分配)方法。关于该技术的大量情况，读者参见(A.Fulop和K.Fitz，“Algorithms for computingthe time corrected instantaneous frequency(reassigned)spectrogram，withapplications”，Journal of the Acoustical Society of America，vol.119，pp.360-371，2006)。基本上，t-f重新分配将传统短时傅立叶变换(STFT)的常规时间频率格栅改变成时间校准的瞬时频率谱，从而展现与在STFT谱内固有的t-f分解危害所包含的相比更佳局部化的能量的时间和频谱累积。通常，重新分配被用作后续部分跟踪的增强前端(参见“K.Fitz和L.Haken，‘On the use oftime-frequency reassignment in additive sound modeling’，Journal of the AudioEngineering Society，vol.50(11)，pp.879-893，2002”)。

其它的相关出版物目的在于通过将展现某些谐波关系的频谱峰值分组成分离的来源，来估计多个基础频率(参见“A Klapuri，Signal Processing MethodsFor the Automatic Transcription of Music，Ph.D.thesis，Tampere University ofTechnology，2004”，“Chunghsin Yeh，Multiple fundamental frequency estimationof polyphonic recordings，Ph.D.thesis，Ecole doctorale edité，Universitéde Paris，2008”)。然而，对于包括许多来源的复杂音乐(例如管弦乐)，该方法不适用。

在一些应用中，将声码器用于信号处理。一类声码器是相位声码器。关于相位声码器的指南是出版物“‘The Phase Vocoder：A tutorial’，Mark Dolson，Computer Music Journal，Volume 10，No.4，第14至27页，1986”。其它出版物是“‘New phase vocoder technique for pitch-shifting，harmonizing and otherexotic effects’，L.Laroche和M.Dolson，proceedings 1999，IEEE workshop on applications ot signal processing to audio and acoustics，New Paltz，New York，1999年10月17日至20日，第91至94页”。

图17和18图示相位声码器的不同实施方式和应用。图17图示相位声码器1700的滤波器组实施方式，其中在输入500处提供音频信号，和在输出510处获得合成音频信号。具体而言，图17图示的滤波器组的每个通道包括带通滤波器501和后续连接的振荡器502。通过组合器503组合来自全部通道的全部振荡器502的输出信号，图中该组合器503图示为加法器。在组合器503的输出处，获得输出信号510。

实现每个滤波器501以在一方面提供幅度信号A(t)，另一方面，提供频率信号f(t)。幅度信号和频率信号是时间信号。幅度信号图示在滤波器组内幅度随着时间的变化，频率信号图示滤波器输出信号的频率展开随着时间的变化。

作为示意图，在图18中图示了滤波器501的实施方式。将输入信号择路传输至两个平行路径。在一条路径内，将信号乘以幅度为1.0和频率等于带通滤波器的中心频率的正弦波，如551处所示。在另一条路径内，将信号乘以在551处图示的相同幅度和频率的余弦波。因而，除了相乘波形的相位之外，两个平行路径是相同的。随后，在每条路径内，将相乘结果馈送给低通滤波器553。相乘操作本身也称作单环调制。将任何信号乘以恒定频率的正弦(或余弦)波的效果是将原始信号内的全部频率分量，按照该正弦波的频率量进行正和负偏移。如果现在使该结果经过适当的低通滤波器，将仅保留低频部分。该操作序列也称作外差法。在两条平行路径内的每一条内执行该外差法，但是因为一条路径以正弦波进行外差，而另一条路径使用余弦波，因此在两条路径内的结果外差信号相差90°的相位。因此，上低通滤波器553提供正交信号554，下滤波器553提供同相信号。将也称作I和Q信号的这两个信号转发给坐标变换器556，该坐标变换器556根据直角坐标表示生成幅度/相位表示。

幅度信号在557处输出，并对应于图17的A(t)。将相位信号输入给相位解缠器558。在单元558的输出处，并不存在在0和360°之间的相位值，而是以线性方式增加的相位值。将该“解缠”的相位值输入给相位/频率转换器559，该相位/频率转换器559例如可以作为相位差设备来实现，这种相位差设备自当前时刻的相位减去前一时刻上的相位，从而获得当前时刻的频率值。

将该频率值与滤波器通道i的恒定频率值f_i相加，从而获得在输出560处的随着时间改变的频率值。

在输出560处的频率值具有直流部分F_i和也称作“频率波动”的改变部分，滤波器通道内的信号当前频率按照该改变部分而偏离平均频率F_i。

因而，图5和图6所示的相位声码器提供频谱信息和时间信息的分离。该频谱信息被包括在特定滤波器组通道内和频率f_i内，该时间信息被包括在随时间变化的频率波动和幅度内。

相位声码器的另一描述是傅立叶变换解析。它由在有限持续时间窗口之上进行的连续重叠傅立叶变换构成。在傅立叶变换解析中，关注点集中在单个时间点处的所有不同滤波器组或频率区的幅度和相位值。虽然在滤波器组解析中，可以将重新合成视为对于每个振荡器的具有时间变化幅度和频率控制的相加合成的传统实例，但是在傅立叶实施方式中，合成是通过转换回到实部和虚部形式、并对连续的反傅立叶变换进行重叠相加而实现的。在傅立叶变换解析中，相位声码器中的滤波器组的数量是在傅立叶变换内的点数。类似地，可以将单个滤波器的频率内的相同间隔识别为傅立叶变换的基本特征。另一方面，通过在计算变换之前使用的窗口函数的形状，确定滤波器通带的形状，即通带边缘的截止陡度。对于特定的特征形状，例如汉明窗，滤波器截止的陡度是与窗口持续时间直接正比地增加的。

有用的是，要认识到相位声码器分析的两种不同解析仅应用于带通滤波器组的实施方式。对于两种实施方式而言，用来将这些滤波器输出表示为随着时间变化的幅度和频率的操作是相同的。相位声码器的基本目标是将时间信息与频谱信息分离开。操作策略是将信号划分成多个频带，并在每个频带内表征随着时间改变的信号。

两个基本操作是非常重要的。这些操作是时间标度和音高转换的。始终可以通过简单地以较低采样速率回放来减慢所记录的声音。这类似于播放以较低回放速度记录的磁带。但是，这种简单化的时间扩展同时将音高降低了与时间扩展相同的因数。放慢声音的时间进展而不改变其音高需要时间和频率信息的明确分离。如上所述，这正是相位声码器试图执行的操作。将随着时间变化的幅度和频率信号A(t)和f(t)展宽至图5a完全不会改变各个振荡器的频率，但确实减慢了合成声音的时间进展。结果得到具有原始音高的时间扩展的声音。这种时间标度的傅立叶变换观点在于，为了对声音进行时间扩展，可以简单地使反傅立叶与分析FFT进一步分隔开。因此，与在该应用中的原始情况相比，频谱改变在合成声音中出现的更慢，并按照对声音进行时间扩展的完全相同因数来对相位重新定标。

其它应用是音高转换。因为可以使用相位声码器改变声音的时间进展，而不改变其音高，应当还可以执行反向的，即改变音高而不改变持续时间。这可以通过使用期望的音高改变因数进行时间定标、随后以通过相同因数修正后的采样速率回放结果声音来实现。例如，为了将音高提高八度音阶，首先以因数2对声音进行时间扩展，随后以原始采样速率的两倍来播放该时间扩展。

用于处理音频信号的声码器的应用例如在“Sascha Disch，Bernd Edler：An Amplitude-and Frequency-Modulation Vocoder for Audio Signal Processing”，Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08)，Espoo，芬兰，2008年9月1至4日”中说明。在该文献中，通过在重力位置函数的中心内搜索从正到负的转换，来估计重力候选的局部中心。为此，对于音频信号的每个时间块，为频谱的每个值(例如每个频谱幅度值或每个功率密度值)计算重力位置函数的中心。在该文中，描述了在48kHz采样频率上的具有N＝2¹⁴个值的块大小。因此，用于估计重力候选的局部中心的计算强度非常高。

此外，对于确保重力位置的最终估计中心在感性标度上近似等距来说，后选择(post-selection)过程是很必要的。

发明内容

本发明的目的是提供一种用于确定音频信号的频谱的重力频率的多个局部中心的改进概念，其允许降低计算强度。

通过根据如下所述的设备和方法来实现该目的。

本发明的实施例提供一种用于确定音频信号频谱的重力频率的多个局部中心的设备。该设备包括偏移确定器、频率确定器和迭代控制器。配置偏移确定器以根据音频信号频谱确定多个迭代开始频率的每个迭代开始频率的偏移频率，其中该频谱的离散采样值的数量大于迭代开始频率的数量。配置频率确定器以通过将多个迭代开始频率的每个迭代开始频率增加或降低相应的所确定的偏移频率来确定新的多个迭代开始频率。此外，配置迭代控制器以将新的多个迭代开始频率提供给偏移确定器进行进一步迭代，或者如果符合预先定义的结束条件，便提供重力频率的多个局部中心，其中将重力频率的多个局部中心设置等于新的多个迭代开始频率。

根据本发明的实施例基于为多个迭代开始频率确定偏移频率和随后用它们的确定偏移频率更新迭代开始频率的中心思想。迭代地执行该操作，直到符合预先定义的结束条件。因为迭代开始频率的数量低于频谱离散采样值的数量，所以与已知概念相比，显著地降低了计算复杂性。

例如，迭代开始频率的数量可以在10和100之间。也就是，例如，显著地低于上述N＝2¹⁴的离散采样值的数量。在该例子中，可以将计算强度降低大于100的因数。

此外，通过改变迭代开始频率数量和/或适配偏移频率计算参数，可以容易地适配频谱解析度。

根据本发明的一些实施例包括频率合并器。如果在两个相邻迭代开始频率之间的频率距离小于最小频率距离，频率合并器合并多个迭代开始频率的两个相邻迭代开始频率。

根据本发明的一些其它实施例包括频率添加器。如果在多个迭代开始频率的两个相邻迭代开始频率之间的频率距离大于最大频率距离，该频率添加器将一迭代开始频率添加到多个迭代开始频率中。例如，如果通过前一(时间)块的估计值来执行初始化，这可以是有用的。

根据本发明的一些实施例涉及根据本发明实施例的用于确定音频信号频谱的重力频率的多个局部中心的方法。该方法包括：确定多个迭代开始频率的每个迭代开始频率的偏移频率；确定新的多个迭代开始频率和提供用于进一步迭代的新的多个迭代开始频率，或者提供重力频率的多个局部中心。根据音频信号频谱，确定多个迭代开始频率的每个迭代开始频率的偏移频率，其中该频谱的离散采样值的数量大于迭代开始频率的数量。通过将多个迭代开始频率的每个迭代开始频率提高或降低相应的所确定的偏移频率，确定该新的多个迭代开始频率。如果满足预先定义的确定条件，提供重力频率的多个局部中心以供存储、传输或进一步处理。为此，重力频率的多个局部中心等于新的多个迭代开始频率。

在根据本发明的一些实施例中，为音频信号的前一时间块确定的重力频率的多个局部中心被用作该音频信号的下一时间块的第一次迭代的迭代开始频率。在这种情况下，通过频率添加器可以填充在迭代开始频率之间的大间隙。

附图说明

随后将参考附图详细描述根据本发明的实施例，在附图中：

图1是用于确定重力频率的多个局部中心的设备的方框图；

图2是用于确定重力频率的多个局部中心的设备的方框图；

图3是用于使用预先处理确定重力频率的多个局部中心的设备的方框图；

图3a是映射频谱与平滑频谱的对照图；

图4是两个分离音调的重力估计值的局部中心和映射频谱(摘录)的示意图；

图5是两个差拍音调的重力估计值的局部中心和映射频率(摘录)的示意图；

图6是不同粗细弦的重力估计值的局部中心和映射频率(摘录)的示意图；

图7是管弦乐的重力估计值的局部中心和映射频率(摘录)的示意图；

图8是信号自适应滤波器组的方框图；

图9是不同粗细弦的与重力局部中心对准的带通片段和功率谱(摘录)的示意图；

图10是管弦乐的与重力局部中心对准的带通片段和功率谱(摘录)的示意图；

图11是用于将音频信号转换成参数化表示的设备的方框图；

图12是用于将音频信号转换成参数化表示的设备的方框图；

图12a是用于将音频信号转换成参数化表示的设备的方框图；

图13a是合成模块的方框图；

图13b是用于多音音调模式改变的应用的示意图；

图13c是五线谱圆圈的示意图；

图14是用于确定重力频率的多个局部中心的方法的流程图；

图15是用于确定重力频率的多个局部中心的方法的流程图；

图15a是迭代COG估计的示意图；

图16是用于添加迭代开始频率的方法的流程图；

图17是现有技术的分析-合成-声码器结构的示意图；和

图18是图17所示的现有技术的滤波器实施方式的示意图。

具体实施方式

在附图中，相同的参考标记部分地用于具有相同或类似功能属性的对象和功能单元，参考附图对其的描述应当也适用于其它附图，从而简化实施例的描述。

图1图示根据本发明实施例的用于确定音频信号的频谱102的重力频率132的多个局部中心的设备100的方框图。该设备100包括偏移确定器110、频率确定器120和迭代控制器130。偏移确定器110连接至频率确定器120，频率确定器120连接至迭代控制器130，迭代控制器130连接至偏移确定器110。偏移确定器110根据音频信号的频谱102，确定多个迭代开始频率的每个迭代开始频率的偏移频率112。该频谱102是用离散采样值表示的，其中频谱102的采样值的数量大于迭代开始频率的数量。通过将多个迭代开始频率的每个迭代开始频率提高或降低相应的所确定的偏移频率112，频率确定器120确定新的多个迭代开始频率122。随后，迭代控制器130将该新的多个迭代开始频率122提供给偏移确定器110以进一步迭代。可替代地或者附加地，如果符合预先定义的结束条件，便提供重力频率132的该多个局部中心，其中重力频率132的该多个局部中心等于或者被设置为等于该新的多个迭代开始频率122。

因为迭代开始频率的数量低于频谱的离散采样值的数量，所以与根据函数确定重力频率的局部中心(其必需为频谱的每个离散采样值进行计算)的概念相比，降低了用于确定重力频率132的多个局部中心的计算强度。

通过改变迭代开始频率的数量和/或偏移频率计算参数，可以将重力频率局部中心确定的解析度和/或精确度适配用于特定应用。这样，计算强度也改变，但是因为迭代开始频率数量通常明显低于频谱离散采样值数量，可以确保较低的计算复杂性。

例如，频谱102的离散采样值可以是通过音频信号的傅立叶变换获得的频谱幅度、功率谱密度值或其它数值。用于音频信号时间块的频谱102的离散采样值的数量例如可以在1000和100000之间或者在29和220之间。相反地，迭代开始频率数量例如可以在5和500之间。在频谱102的离散采样值数量和迭代开始频率数量之间的这种巨大差别实现了与已知方法相比显著降低的计算复杂性。

重力频率132的局部中心可以是音频信号的频谱102包括例如通过音频信号傅立叶变换而获得的频谱幅度或功率谱密度或其他数值的局部最大值或局部聚集时所处的频率。

例如，对于第一次迭代，多个迭代开始频率在频谱102上可以是相等地、或者根据分布函数或给定分布地彼此间隔开。根据该迭代开始频率和频谱102，偏移确定器110确定偏移频率112，该偏移频率112可以是迭代开始频率与重力的局部中心相距多远的指示。因此，频率确定器120试图通过将迭代开始频率提高或降低(根据偏移频率的正值或负值)相应的所确定的偏移频率，来补偿在重力局部中心和迭代开始频率之间的该距离。随后，将该新的多个迭代开始频率122提供给偏移确定器110以用于进一步迭代，或者如果符合预先定义的结束条件，提供该新的多个迭代开始频率122作为所要确定的重力频率132的多个局部中心。

设备100可以为音频信号的多个时间块的每个时间块确定重力频率132的多个局部中心。换句话说，可以在时间块内处理音频信号。对于每个时间块，通过傅立叶变换可以生成频谱102，并可以确定重力频率132的多个局部中心。

可预先定义的结束条件例如可以是每个偏移频率低于最大偏移频率，全部偏移频率之和低于最大偏移频率之和，或者为当前时间块确定的偏移频率与为前一时间块确定的偏移频率之和低于阈值偏移。

提供给偏移确定器110的频谱102例如可以包括线性或对数标度。例如，对于第一次迭代，多个迭代开始频率可以相等间隔地分布在对数频谱102上，以设置用于确定重力频率132的多个局部中心的趋势，从而可以在感性标度上分布重力频率132的所确定的多个中心。

偏移确定器110、频率确定器120和迭代控制器130可以是独立的硬件单元，数字信号处理器的一部分，微控制器或计算机，或者可以将它们实施为配置以在微控制器或计算机上运行的计算机程序或计算机程序产品。

图2图示根据本发明实施例的用于确定音频信号的频谱102的重力频率132的多个局部中心的设备200的方框图。该设备200类似于图1所示的设备，但是还包括频率添加器210、频率合并器220和频率删除器230。在该例子中，频率确定器120连接至频率删除器230，频率删除器230连接至迭代控制器130，迭代控制器130连接至频率添加器210，频率添加器210连接至频率合并器220，频率合并器220连接至偏移确定器110。可替代地，可以改变频率添加器210和频率合并器220的位置，和/或可以将频率删除器230设置在迭代控制器130和频率添加器210之间，在频率添加器210和频率合并器220之间，或者在频率合并器220和偏移确定器110之间。

如果在新的多个迭代开始频率122的两个相邻迭代开始频率之间的频率距离大于最大频率距离，频率添加器210可以将迭代开始频率添加到所述新的多个迭代开始频率122中。为此，可以在线性或对数标度上测量所述频率距离和最大频率距离。

换句话说，如果在两个相邻迭代开始频率之间的间隙过大，则频率添加器210添加迭代开始频率。例如，如果将为当前时间块确定的重力频率132的多个局部中心提供给偏移确定器110以用作用于下一时间块的第一次迭代的多个迭代开始频率，这可能尤其重要。但是在相同时间块的迭代过程中，同样可以添加迭代开始频率。

可以将重力频率的多个局部中心用作用于生成新的多个迭代开始频率的基础。

如前所述，用于时间块的第一次迭代的多个迭代开始频率例如可以相等地彼此间隔开，或者可以将为音频信号的先前时间块确定的重力频率132的所确定的多个局部中心用作当前时间块的第一次迭代的迭代开始频率。

如果在两个相邻迭代开始频率之间的频率距离小于最小频率距离，则频率合并器220合并该新的多个迭代开始频率122的两个相邻迭代开始频率。再次，可以在线性或对数标度上测量频率距离和最小频率距离。

换句话说，如果在两个相邻迭代开始频率之间的距离低于限值，频率合并器220可以用一个迭代开始频率替换两个相邻的迭代开始频率。

如果迭代开始频率高于音频信号频谱102的预定义最大频率、或者如果迭代开始频率低于音频信号频谱102的预定义最小频率，则频率删除器230自该新的多个迭代开始频率132中删除迭代开始频率。例如，预定义最大频率可以是频谱102所包括的最高频率，预定义最小频率可以是频谱102所包括的最低频率。

换句话说，如果迭代开始频率处于音频信号频谱102的频率范围之外，频率删除器230自新的多个迭代开始频率122中删除它们。

频率添加器210和频率删除器230是设备200的可选单元。

如上针对偏移确定器110、频率确定器120和改变控制器130所描述的，频率添加器210、频率合并器220和频率删除器230可以是独立的硬件单元或者被集成。

图3图示根据本发明实施例的用于确定音频信号302的频谱102的重力频率132的多个局部中心的设备300的方框图。设备300类似于图1所示的设备，但是还包括预处理器310。预处理器310连接至偏移确定器110。预处理器310生成用于音频信号302的时间块的傅立叶变换频谱，并根据时间块的傅立叶变换频谱生成平滑频谱。此外，通过将傅立叶变换频谱除以平滑频谱，预处理器310生成将要提供给偏移确定器110的音频信号302的频谱102。随后，预处理器310将该频谱映射至对数标度，并将该对数频谱102提供给偏移确定器110。可替代地，在生成平滑频谱之前和在将傅立叶变换频谱除以平滑频谱之前，预处理器310可以将傅立叶变换频谱映射至对数标度。

在一些实施例中，对于每个信号块(时间块)，通过计算DFT频谱能量，获得功率谱密度(psd)估计值。随后，为了去除全局趋势，在所计算的平滑psd上标准化该psd，例如通过拟合低阶多项式，执行对数倒频谱平滑，或者通过沿着频率方向滤波。在相除之前，还可以例如通过具有例如200ms的时间常数的一阶IIR滤波器来时间平滑这两个量值。接着，在COG计算和分段之前，执行到感性标度(对数标度)上的psd映射，例如为了帮助将频谱分段成感性适合的非均匀的、同时COG中心化的频带的任务。因而，该问题可以简化为使一组大致均匀的分段与所估计的信号局部COG位置对准的任务。作为感性标度，可以应用ERB标度(参见“B.C.J.Moore和B.R.Glasberg，‘A revisionof Zwicker’s loundness model，’Acta Acustica，Vol.82，第335-345页，1996”)，与例如BARK标度相比，这种ERB标度提供了在较低频率上更好的频谱解析度。然而，也可以使用BARK标度。通过对按照ERB标度(参见等式2)间隔的频谱采样内插均匀采样的频谱，可以计算所映射的频谱。

ERB(f)＝21.4log₁₀(0.00437f+1) (2)

可替代地，对于每个信号块，通过计算DFT频谱能量，获得功率谱密度(psd)估计值。接着，在COG计算和分段之前，执行到感性标度上的psd映射，以便帮助将频谱分段成感性适合的非均匀的、同时COG中心化的频带的任务。因而，该问题简化为使一组大致均匀的分段与所估计的信号局部COG位置对准的任务。作为感性标度，应用ERB标度，与例如BARK标度相比，这种ERB标度提供了在较低频率上更好的频谱解析度。通过对按照ERB标度(参见等式2)间隔的频谱采样内插均匀采样的频谱，计算所映射的频谱。

随后，为了去除在现实音频信号频谱内固有的全局趋势，在其趋势上标准化所映射的psd，该趋势是通过使最小平方标准最小化的线性回归来计算的。在相除之前，通过应用例如一阶IIR_滤波器H(z)来时间平滑这两个量值，所述滤波器均具有由等式2a定义的例如τ＝200ms的时间常数，其中T是通过输入采样周期乘以DFT的时间跨距给出的DFT子频带采样周期。

H (z) = \frac{1}{1 - a_{1} z^{- 1}}

a_{1} = \exp (- \frac{T}{τ}) - - - (2 a)

这些预处理步骤可以防止在后续的COG位置迭代中朝向低频的全局偏置，并分别稳定时间上连续块的所估计的位置。

图3a图示用线性趋势表示的映射频谱360和平滑频谱370的图350的例子。

预处理器310可以是分离的硬件单元、数字信号处理器的一部分、微处理器或计算机或者作为软件程序来实现。

图15图示根据本发明实施例的用于确定音频信号的频谱的重力频率的多个局部中心的方法1500的流程图。该方法1500描述了上述迭代重力中心估计的更详细的例子。

对于每个时间块k，可以使用具有间隔S的N个候选位置c(n)的均匀间隔开的格栅，对排序后的位置候选列表c进行初始化1510。参数S设置在迭代处理过程中获得的估计值的频谱解析度。相位不同地，参数S可以确定视为COG估计值的局部范围的内容。

c(n)＝nS

n∈[1，2...，N] (3)

例如，使用2^14个采样的时间块长度，DFT频谱由2^13+1个采样构成。将它们映射到也具有2^13+1个采样的ERB标度表示。通过选择等于0.5ERB的COG解析度，这以48kHz采样频率给出S＝47个采样，因此得到N＝174个初始的相等间隔的候选。在迭代中，例如，估计40-50个最终COG位置。最终COG位置的总数取决于信号特征、加权g(i)和在ERB上测量的COG解析度(同样参见等式4)。COG解析度的敏感值例如在0.1-1ERB的间隔内。

迭代处理由两个循环构成。通过将大小为2S、用加权值g(i)加权的负至正线性斜率函数应用于在信号块的预处理后的psd估计值上的每个候选位置n(参见等式4)，第一个循环计算1410候选位置c(n)与真实的重力局部中心之间的位置偏移posOff(n)。

posOff (n) = round (\frac{Σ_{i} (w_{n} (i) \cdot idxOff (i))}{Σ_{i} w_{n} (i)})

w_n(i)＝psd(c(n)+idx(i))·g(i)

idxOff(i)＝i-S+0.5

idx(i)＝round(idxOff(i))

i∈[0，1，2...，2S-1] (4)

换句话说，根据频谱的多个离散采样值(在该例子中为功率谱密度值)、以及多个加权参数g(i)的相应值和距离参数idxOff(i)的相应值，偏移确定器110可以确定偏移频率，也称作位置偏移。距离参数值可以在对数标度上彼此相等地间隔，其中距离参数的全部值小于最大距离值(在该例子中为S)。此外，距离参数可以取正值或负值，例如等式4所示。加权参数可以基于窗口函数，例如作为矩形或者具有更多或更少陡峭边沿的窗口。以这样的方式，降低了远离当前为其确定偏移频率的迭代开始频率(在该例子中也称作候选)的大峰值的影响。换句话说，加权参数值可以全部相同(例如对于矩形)，或者对于相应距离参数的增加的绝对值，加权参数值可以减少(例如为了降低具有大距离的峰值的影响)。

在图15a中，候选位置偏移posOff(n)是可见的。主曲线1590对应于以候选位置c(n)为中心的局部psd采样w_n(i)，窗口函数用数值g(i)表示，线性斜率函数用idxOff(i)表示。

在下一步(参见等式5)，用它们的位置偏移更新1420来自列表中的全部候选位置。

c(n)：＝c(n)+posOff(n) (5)

从通过(参见等式6)表示的列表中去除1525违反边界限制的每个候选位置(频率高于频谱的最大频率和低于频谱的最小频率)，并将剩余候选位置N的数量减1。

if(c(n)＜S)∨(c(n)＞NS)→

c(x)：＝c(x+1)

&ForAll; x &Element; [n + 1, . . ., N - 1]

N：＝N-1 (6)

如果在(参见等式7a)中定义的候选的实际和先前位置偏移之和的绝对值小于预定义阈值，在进一步迭代中不更新该候选位置c(n)，而将其依然保留在该列表中，并因此使其经历后续的候选合并机制。

sumOff(n)＝posOff_k(n)+posOff_k-1(n) (7a)

如果所有候选的|sumOff(n)|小于预定义阈值(参见等式7b)，则退出1440第一次迭代循环，从而结束该迭代处理。来自该列表的全部剩余候选构成该组最终的COG位置估计值。应当指出，如果位置偏移在两个值之间来回切换，则使用这种条件也会结束迭代，从而始终确保正确结束。

max(|sumOff(n)|)＜thres1 (7b)

否则，可以使用更新的候选位置执行下一迭代步骤1520。

例如，可以将thres1设置等于或小于一个采样(2个采样、5个采样或10个采样)。

第二次循环将由于由第一次循环提供的位置更新而违反1570预定义临近限制的最靠近(根据某种临近量度)的两个位置候选，迭代地合并1540成单个新的候选，从而解决感性合并。临近量度prox2 1530是两个候选的频谱距离(参见等式8)。

prox2＜thres2

prox2＝|c(n)-c(n+1)|

thres2：＝S (8)

例如，可以将thres2设置为S个采样、S/2个采样、2S个采样、或在1个采样和10S个采样之间的其他数值。

初始化每个新计算的联合候选，以占据两个先前候选的能量加权平均位置(参见等式9)。

c (n) : = round (\frac{w (n) c (n) + w (n + 1) c (n + 1)}{w (n) + w (n + 1)})

w (n) = \underset{i}{Σ} w_{n} (i) = \underset{i}{Σ} (psd (c (n) + idx (i)) \cdot g (i))

c(x)：＝c(x+1)

&ForAll; x &Element; [n + 1, . . ., N - 1]

N：＝N-1 (9)

将两个先前候选都从列表中删除，并将新的联合候选添加给列表。结果，将剩余候选位置N的数量减1。如果不再有候选违反临近限制，则第二循环迭代结束1570。该组最后的COG候选构成所估计的重力的局部中心位置。

可以将所估计的重力频率中心存储1560、传输或提供用于进一步处理。

为了加速该迭代处理，可以使用先前块的COG位置估计值有利地执行每个新块的初始化，因为该估计值已经是当前位置的非常好的估计值。例如，由于分析中的块重叠和预处理中的时间平滑，因此适当地假设在COG位置的时间进展中有限的改变速率，适用该情况。

仍然，必需注意提供足够的初始位置估计值，以便还捕获新COG的可能出现。因此，用新的COG位置候选，填充在跨越大于预定义值的距离的(例如位于间隔S，......，2S处的)估计值内的位置候选间隙(参见等式10)，从而确保潜在的新候选在位置更新函数的范围之内。图16图示此扩展1600的算法的流程图。如果未发现大于2S的更多间隙，则使用结束1620的循环完成将候选添加给列表的该归并处理。

if prox1＞2S→

prox1＝c(n+1)-c(n)

c(x+1)：＝c(x)

&ForAll; x &Element; [N, N - 1, . . ., n + 1]

c (n + 1) : = round (\frac{c (n) + c (n + 1)}{2})

N：＝N+1 (10)

换句话说，对于多个重力频率的局部中心或重力估计值1602的局部中心，计算1610在重力频率的相邻局部中心之间的频率距离。如果1620在重力频率的两个相邻中心之间的频率距离大于最大频率距离，则将重力频率的局部中心添加1630到重力频率的多个局部中心。在填充了大于最大频率距离的全部间隙之后，可以为下一时间块存储1640该重力频率的多个局部中心。

图4、5、6和7图示通过已经应用于不同测试项目的所提出的上述迭代局部COG估计算法获得的结果。该测试项目是两个分离的单纯音调400、相互之间差拍的两个音调590、粗细不均的弦600(‘MPEG测试组-sm03’)和管弦乐(‘Vivaldi-四季，春天，Allegro’)700。在这些图中，沿着COG估计值(参考数字12-26)显示了感性映射、平滑和全局去除趋势(标准化)后的频谱410、595、610、710。以升序给这些COG估计值编号。当例如图4的第22号、第26号估计值和图6的第18号和第19号估计值对应于正弦信号分量时，图5的第22号估计值、图6的第23号和第25号估计值和图7的大部分估计值获取了频谱扩展或差拍的分量，其仍然被良好检测和分段，因而将它们归组到感性单元中。

图8图示根据本发明实施例的信号自适应滤波器组800的方框图。信号自适应滤波器组800包括用于确定音频信号802的频谱的重力频率132的多个局部中心的设备100和多个带通滤波器810。该多个带通滤波器810被配置为对音频信号802进行滤波，以及提供滤波后的音频信号812以供传输、存储或进一步处理。为此，该多个带通滤波器810的每个带通滤波器的中心频率和带宽是基于重力频率132的多个局部中心。

例如，该多个带通滤波器810的每个带通滤波器对应于重力频率的局部中心，其中该带通滤波器的中心频率和带宽取决于重力频率的相应局部中心、以及重力频率的相应局部中心的重力频率的相邻局部中心。

可以确定该多个带通滤波器810的带宽，从而无孔地覆盖整个频谱。

可以根据在对数标度上获得的原始COG估计值，在对数频率标度上设计滤波器，并且可以将结果得到的频谱加权映射到线性域，或者可替代地，在其它实施例中，可以根据重新映射的COG位置在线性域内设计滤波器。

换句话说，对于后一实施例，在已经确定COG估计值之后，例如在ERB适用域内，通过对等式2中的f求解，将COG位置映射回到线性域中，并随后在线性域内，以频谱加权形式计算一组N个带通滤波器，这些带通滤波器被直接应用于宽带信号的原始DFT频谱。

对于第一和优选实施例，在ERB域内进一步处理COG位置。根据等式(10a)，以长度M的频谱加权函数weights_n的形式计算一组N个带通滤波器。换句话说，可以以频谱加权的形式计算一组带通滤波器，这些带通滤波器在映射到线性域之后应用于宽带信号的原始DFT频谱。

例如，带通滤波器被设置为具有正弦平方特性的长度2*rollOff的预定义滚降。为了实现与所估计COG位置的期望对准，可以应用下文描述的设计过程。

首先，计算在相邻COG位置估计值之间的中间位置，其中m_L(n)代表COG 位置c(n)相对于其临近位置的下部中间点，m_U(n)代表其上部中间点。因此，在这些转变点处，频谱加权的滚降部分居中，以便相邻滤波器的滚降部分的总和为一。将带通加权函数的中间部分选择为等于一的平顶，将剩余的采样点设置为零。n＝0和n＝N的滤波器仅具有一个滚降部分，并被分别配置为低通或高通。

weight s_{n} (m) = \{\begin{matrix} \sin^{2} (k_{L} (m)) & m_{L} (n) - rollOff < m < m_{L} (n) + rollOff \\ 1 & m_{L} (n) + rollOff \leq m \leq m_{U} (n) - rollOff \\ \sin^{2} (k_{U} (m)) & m_{U} (n) - rollOff < m < m_{U} (n) + rollOff \\ 0 & otherwise \end{matrix}

m∈[0.1...，M-1]

m_{L} (n) = round (\frac{c (n) - c (n - 1)}{2})

m_{U} (n) = round (\frac{c (n + 1) - c (n)}{2})

k_{L} (m) = (m - m_{L} (n) + rollOff) \frac{π}{4 \cdot rollOff}

k_{U} (m) = (m - m_{U} (n) - rollOff) \frac{π}{4 \cdot rollOff} + \frac{π}{2} - - - (10 a)

在设计滚降特性中，必需相对于一方面的频谱选择性和另一方面的时间解析度做出协调。而且，允许多个滤波器频谱重叠可以给设计限制增加额外的自由度。可以以信号自适应方式选择这种协调，例如为了改善瞬变再现。

最后，通过求解等式(2)中的f以获取等式(10b)，将COG位置和频谱加权函数映射回到线性域。最后，生成在线性标度上的频谱加权，这些频谱加权将被应用于宽带信号的DFT频谱。

f (ERB) = \frac{1}{0.00437} (10^{\frac{ERB}{21.4}} - 1) - - - (10 b)

通过使用对数频谱以及具有相等间隔开的迭代开始频率的初始化，可以实现感性分段的趋势(用于低频的小带宽和用于高频的大带宽)，不过在一些频谱区域内，用于低频的滤波器带宽可能大于用于更高频率的带宽，因为重力频率局部中心的位置取决于音频信号。

例如，带通滤波器的边缘可以位于在对数或线性标度上的重力频率的每两个相邻中心的中间。可替代地，若干带通滤波器的重叠也是可行的。

本发明的一些实施例涉及所描述的滤波器组或相位声码器的概念的应用。所描述的概念可以用于音乐处理，例如用于改变仅一个或者预定义数量的通道的音高。

在图9和图10中，描述了信号块900、1000的原始的未经预处理的psd 910、1010，并描述了如之前所述那样设计的一组带通滤波器920、1020。明显可以看出，每个滤波器与COG估计值对准，并与其相邻的子频带滤波器成对地平滑重叠。图9对应于图6，图10对应于图7。

图11图示根据本发明实施例的用于将音频信号1102转换成参数化表示1132的设备1100的方框图。设备1100包括用于确定音频信号1102的频谱的重力频率132的多个局部中心的设备100、带通估计器1110、调制估计器1120和输出接口1130。用于确定重力频率132的多个局部中心的设备100也称作信号分析器，调制估计器1120包括多个带通滤波器810。

信号分析器100分析音频信号1102的一部分，以获得重力频率132的局部中心的相关分析结果132。将该分析结果132输入到带通估计器1110中，用于根据信号分析结果132来估计与该音频信号部分的多个带通滤波器810有关的信息1112。因而，以信号自适应方式计算与多个带通滤波器810有关的信息1112。

具体而言，与多个带通滤波器810有关的信息1112包括与滤波器形状有关的信息。该滤波器形状可以包括带通滤波器的带宽，和/或用于该音频信号部分的带通滤波器的中心频率，和/或参数形式或非参数形式的幅度传输函数的频谱形式。重要的是，带通滤波器的带宽在整个频率范围上不是恒定的，而是可以依赖于带通滤波器的中心频率。例如，该依赖性可以是，带宽对于较高的中心频率增加，对于较低的中心频率降低。

信号分析器100执行音频信号的信号部分的频谱分析，具体而言，可以分析频谱内的功率分布以发现具有功率集中的区域，因为当接收和进一步处理声音时，也会通过人耳确定此类区域。

本发明的设备1100还包括调制估计器1120，用于针对该音频信号部分，为多个带通滤波器810的每个频带估计幅度调制1122或频率调制1124。为此，调制估计器1120使用与多个带通滤波器810有关的信息1112，如随后将要讨论的。

图11的本发明设备还包括输出接口1130，用于传输、存储或修正与幅度调制1112有关的信息、频率调制1124的信息或者与多个带通滤波器810有关的信息，该信息可以包括滤波器形状信息，比如用于该音频信号的这一特定部分/块的带通滤波器的中心频率值或者如上文讨论的其它信息。输出是参数化表示1132。

图12和图12a示出调制估计器1120、以及组合成单个单元的信号分析器100和带通估计器1110的两个优选实施例，该单个单元被称作“载频估计”。该调制估计器1120优选包括带通滤波器1120a，其提供带通信号。将其输入给分析信号转换器1120b。块1120b的输出用于计算AM信息和FM信息。为了计算AM信息，由块1120c计算分析信号的幅度。分析信号块1120b的输出被输入给乘法器1120d，该乘法器1120d在它的另一输入处接收来自振荡器1120e的振荡器信号，该振荡器1120e由带通1120a的实际载频fc 1210控制。随后，在块1120f内确定乘法器输出的相位。在块1120g处对瞬时相位进行差分，从而最终获得FM信息。此外，图12a还示出生成音频信号的DFT频谱的预处理器310。

多频带调制分解将音频信号分解成一组信号自适应的(分析)带通信号，每个带通信号被进一步划分成正弦载波及其幅度调制(AM)和频率调制(FM)。计算该组带通滤波器，以便一方面无缝地覆盖全频带频谱，另一方面将这些滤波器与局部COG一一对准。此外，还通过选择滤波器带宽以匹配感性标度，例如ERB标度(参见“B.C.J.Moore和B.R.Glasber，‘A revision of Zwicker’sloudness model’，Acta Acustica，Vol.82，第335-345页，1996”)，考虑了人类的听觉。

由于在频率区域内的频谱贡献，局部COG对应于听众可听到的平均频率。而且，以局部COG位置为中心的频带对应于基于常规相位声码器的相位锁定的影响区域(参见J.Laroche and M.Dolson，“Improved phase vocoder timescalemodification of audio”，IEEE Transactions on Speech and Audio Processing，vol.7，no.3，第323-332页，1999”，“Ch.Duxbury，M.Davies，and M.Sandler， “Improved timescaling of musical audio using phase locking at transients，”in 112thAES Convention，2002”，“A.

“A new approach to transient processing in thephase vocoder，”Proc.of the Int.Conf.on Digital Audio Effects(DAFx)，第344-349页，2003”，“A.

“Transient detection and preservation in the phasevocoder”，Int.Computer Music Conference(ICMC’03)，第247-250页，2003)。带通信号包络表示和相位锁定影响的传统区域都保留了带通信号的时间包络：或者是固有地，或者是在后一情况下，通过确保在合成过程中的局部频谱相位相干性。针对与所估计的局部COG对应的频率的正弦载波，分别在幅度包络和分析带通信号的外差相位内捕获AM和FM。专用的合成方法呈现来自载频、AM和FM的输出信号。

图12示出将信号分解成载波信号和它们的相关调制分量的方框图。在该图中，图示了用于提取一个分量的示意信号流。以类似方式获得所有其它的分量。特别是，该提取是使用例如以48kHz的采样频率和75％的分析重叠的N＝2¹⁴的块大小(大致对应于340ms的时间间隔和85ms的跨距)，通过对每个窗口化的信号块上应用离散傅立叶变换(DFT)，以逐块为基础为全部分量联合地执行的。窗口可以是根据等式(1)的‘平顶’窗口。这可以确保被送去经历随后的调制合成的居中的N/2个采样不会受到分析窗口斜率的影响。以提高的计算复杂性为代价，可以将更高程度的重叠用于改善精确度。

window {(i)}_{analysis} = \{\begin{matrix} \sin^{2} (\frac{2 iπ}{N}) & 0 < i < \frac{N}{4} \\ 1 & \frac{N}{4} \leq i < \frac{3 N}{4} \\ \sin^{2} (\frac{2 iπ}{N}) & \frac{3 N}{4} \leq i < N \end{matrix} - - - (1)

通过给定频谱表示，可以计算与局部COG位置对准的接下来的一组信号自适应频谱加权函数(具有带通特性)。在将带通加权应用于频谱之后，将该信号变换至时域，通过希尔伯特变换推导出分析信号。通过计算每个带通信号上的单侧IDFT，可以有效地组合这两个处理步骤。随后，每个分析信号通过其所估计的载波频率来进行外差。最后，将该信号进一步分解成其幅度包络及其瞬时频率(IF)轨迹，这是通过计算相位导数而获得的，从而生成期望的AM和FM信号(同样参见“S.Disch and B.Edler，“An amplitude-and frequencv modulation vocoder for audio signal processing，”Proc.of the Int.Conf.on DigitalAudio Effects(DAFx)，2008”)

相应地，图13a图示了用于合成音频信号的参数化表示的设备1300的方框图。例如，有利的实施方式是基于在调制域内的重叠相加操作(OLA)，即在生成时域带通信号之前的域内。将可以是比特流、但也可以是到分析器或修正器的直接连接的输入信号分离成AM分量1302、FM分量1304和载频分量1306。AM合成器优选包括重叠相加器1310，并且还包括分量连接控制器1320，该分量连接控制器1320优选是不仅包括块1310还包括块1330，该块1330可以是在FM合成器内的重叠相加器。FM合成器还包括频率重叠相加器1330、相位积分器1332、同样可以作为常规加法器实现的相位组合器1334、和相位偏移器1336，该相位偏移器1336可由分量连接控制器1320控制以便重新生成块至块的恒定相位，从而来自前一块的信号的相位与实际块的相位是连续的。因此，可以指出，在单元1334、1336内的相位相加对应于在分析器一侧上在图12的块1120g中的差分过程中丢失的常数的重新生成。从在感性域内信息丢失的角度来看，应当指出，这是仅有的信息丢失，即由图12中的差分设备1120g导致的常数部分的丢失。通过加上由分量连接设备1320确定的常数相位，可以重建该丢失。

在参数域内而不是在易于合成的信号上应用重叠相加(OLA)，从而避免在相邻时间块之间的差拍效应。该OLA是通过分量连接机制控制的，该机制由频谱临近性(在ERB标度上测量)控制，执行实际块的分量与它们在先前块内的前身分量的成对匹配。此外，该连接还将实际块的绝对分量相位与先前块的绝对分量相位对准。

详细来讲，首先，将FM信号与载波频率相加，将相加结果送到OLA级，随后对其输出进行积分。将结果得到的相位信号馈送到正弦振荡器1340。由第二OLA级处理该AM信号。最后，通过该结果得到的AM信号，对振荡器的输出的幅度进行调制1350，从而获得该分量对于输出信号1360的加性贡献。

应当强调，在调制分析内的信号的适当频谱分段对于任意进一步调制参数处理的合理结果都是极为重要的。因此，在此，介绍了新颖的合适分段算法。

相应地，图13b图示了用于多音音调模式改变的所描述概念1300的应用。

调换音频信号同时维持原始回放速度是富有挑战的任务。利用所提出的系统，这可通过将全部载波分量乘以恒定因数来直接实现。因为仅通过AM信号来获取输入信号的时间结构，因此它不受载波的频谱间隔的伸展的影响。

更重要的所需效果可以通过选择性处理来实现：可以例如将一段音乐的音调模式从小调变为大调，或反之。因此，仅将与某个预定义频率间隔对应的载波子集映射至适当的新值，为了实现这一目的，将载波频率量化1370为MIDI音高，随后将该MIDI音高映射1372到适当的新MIDI音高上(使用所要处理的音乐项目的模式和音调的先验知识)。在图13b内描述了必需的处理。

对于在大调模式和自然小调模式之间转换的情况，可以从如在图13c中图示的这一圈五线谱1390中推导出所要映射的MIDI音高。通过逆时针的三级跳跃，获得大调至小调的转换，通过顺时针的三级实现小调至大调的改变。最后，将所映射的MIDI音符转换回来1374，从而获得1376用于合成1378的修正后的载波频率。专用的MIDI音符未偏移/偏移检测是不需要的，因为时间特性主要是通过未修正的AM表示的，从而得到保留。可以定义任意映射表格，以实现转换到其它小调(例如和声小调)以及从其它小调转换而来的转换处理。

图14图示了根据本发明实施例的用于确定音频信号的频谱的重力频率的多个局部中心的方法1400的流程图。该方法1400包括确定1410多个迭代开始频率的每个迭代开始频率的偏移频率，确定1420新的多个迭代开始频率，和提供1430该新的多个迭代开始频率以进一步迭代或者提供1440重力频率的多个局部中心。根据音频信号频谱，其中该频谱的离散采样值数量大于迭代开始频率的数量，来确定1410多个迭代开始频率的每个迭代开始频率的偏移频率。通过将多个迭代开始频率的每个迭代开始频率提高或降低相应的所确定的偏移频率，确定1420该新的多个迭代开始频率。如果满足预定义的结束条件，提供1440重力频率的多个局部中心，以供存储、传输或进一步处理。为此，该重力频率的多个局部中心被设置等于该新的多个迭代开始频率。

根据本发明的一些实施例涉及基于所估计的重力局部中心的用于音频信号频谱的迭代分段算法。

现代音乐制作和声音生成通常依靠从大型数据库中提取的称作样本的预先记录音频片段的处理。因此，正在不断地要求以灵活的方式将这些样本扩展地适配到任意新的音乐背景环境。为此目的，需要改进的数字信号处理，从而实现类似于音高切换、时间伸展或调谐等音效。通常，这些处理方法的关键部分是信号自适应，基于块的频谱分段操作。因此，提出了基于重力局部中心(COG)的用于这种频谱分段的新颖算法。例如，该方法可以用于音频信号的多频带调制分解。此外，还可以在改进的声码器相关应用的更一般的环境下使用该算法。

在一些实施例中，在此所提出的分段算法包括用精细估计值迭代地更新的初始COG频谱位置候选列表。在该精细过程中，包括候选的添加、删除或合并，因而该方法并不需要全部的最终COG估计值的先验知识。可以通过两个循环实现该迭代。所有必要的操作是对信号的频谱表示执行的。

在基于块的(多音)音乐处理中的重要步骤是在随时间变化的连续频谱中的重力局部中心(COG)的估计。由信号自适应多频带调制分解的发展所推动，已经提出了在任意音频信号的频谱内估计多个局部COG的详细方法和算法。而且，已经描述了用于与所估计的COG位置对准的一组结果带通滤波器的设计方案。这些滤波器可以用于随后将宽带信号分离成信号相关的感性自适应子频带信号。

已经介绍和讨论了通过应用该方法获得的示例结果。在专用多频带调制分解方案的背景下的开发的这种提出的算法也可以在后音频处理、音效和改进的声码器应用的更一般背景下使用。

与t-f重新分配方法相反，所描述的算法直接在感性适配标度上执行频谱分段，而t-f重新分配仅提供更好的局部化声谱、而将分段问题留给了后续阶段，例如部分跟踪。

与目标在于估计多个基础频率的方法相反，本方法并不试图将信号分解成其来源，而是将频谱分段成可以进一步联合处理的感性单元。

此外，描述了新颖的多个局部COG估计算法，继之以与所估计的COG位置对准的一组带通滤波器的推导。介绍和讨论了该COG估计的一些示例结果数据及其相关的带通滤波器组。

尽管已经在设备的上下文里描述了一些方面，很明显这些方面还代表相应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文里描述的方面也表示相应块的描述或相应设备的项目或特征。

可以将本发明的编码音频信号存储在数字存储介质上，或者可以在传输介质上传输，比如无线传输介质或者诸如互联网等有线传输介质。

取决于某些实施要求，可以用硬件或软件实现本发明的实施例。可以使用数字存储介质执行该实施，例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存存储器，在其上存储有电子可读控制信号，这些信号与可编程计算机系统协作(或者能够协作)以执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载波，这些信号能够与可编程计算机系统合作，以便执行在此所述的方法之一。

通常，可以将本发明的实施例作为具有程序代码的计算机程序产品来实现，该程序代码操作地用于当计算机程序产品在计算机上运行时执行方法之一。例如可以将该程序代码存储在机器可读载体上。

其它的实施例包括在机器可读载体上存储的用于执行所述方法之一的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于当该计算机程序在计算机上运行时执行在此所述方法之一。

因此，本发明方法的另一实施例是数据载波(或数字存储介质，或计算机可读介质)，包括在其上记录的用于执行在此所述方法之一的计算机程序。

因此，本发明方法的另一实施例是数据流或信号序列，其表示用于执行在此所述方法之一的计算机程序。例如可以将该数据流或信号序列配置为通过例如互联网等数据通信连接来传输。

另一实施例包括处理装置，例如计算机或可编程逻辑器件，其被配置或适配用于执行在此所述方法之一。

另一实施例包括具有在其上安装的用于执行在此所述方法之一的计算机程序的计算机。

在一些实施例中，可以使用可编程逻辑器件(例如现场可编程门阵列)执行在此所述方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，从而执行在此所述方法之一。通常，优选由任意硬件设备执行该方法。

上述实施例仅仅说明本发明的原理。将理解在此所描述的设置和细节的修改和变化对于本领域的其它技术人员来说将是显而易见的。因此，将仅由专利权利要求书的保护范围来限制，而不由通过在此的实施例的描述和解释介绍的具体细节来限制。

Claims

1.用于确定音频信号的频谱(102)的重力频率(132)的多个局部中心的设备(100)，该设备包括：

偏移确定器(110)，其被配置以根据所述音频信号的频谱(102)，为多个迭代开始频率的每个迭代开始频率确定偏移频率(112)，其中所述频谱(102)的离散采样值的数量大于迭代开始频率的数量；

频率确定器(120)，其被配置以通过将所述多个迭代开始频率的每个迭代开始频率提高或降低相应的所确定的偏移频率(112)，来确定新的多个迭代开始频率(122)；和

迭代控制(130)，其被配置以将所述新的多个迭代开始频率(122)提供给偏移确定器(110)以供进一步迭代，或者如果符合预定义的结束条件，便提供重力频率(132)的多个局部中心，其中所述重力频率(132)的多个局部中心等于所述新的多个迭代开始频率(122)。

2.根据权利要求1的设备，其中所述偏移确定器(110)被配置以根据所述频谱(102)的多个离散采样值、加权参数的相应值和距离参数的相应值，来确定迭代开始频率的偏移频率(112)。

3.根据权利要求2的设备，其中所述距离参数值在对数标度上彼此相等地间隔开，其中所述距离参数值全部小于最大距离值。

4.根据权利要求2的设备，其中所述加权参数值全部相等，或者对于相应距离参数的增加的绝对值，所述加权参数值减少。

5.根据权利要求1的设备，其中所述偏移确定器(110)被配置以根据所述频谱(102)确定每个迭代开始频率的偏移频率(112)，其中该频谱(102)包括对数标度。

6.根据权利要求1的设备，其中该设备被配置用于为音频信号的多个时间块的每个时间块确定重力频率(132)的多个局部中心。

7.根据权利要求6的设备，其中对于所述多个时间块的一个时间块的第一次迭代，在对数标度上彼此相等间隔开地初始化所述多个迭代开始频率。

8.根据权利要求6的设备，其中所述对于时间块的第一次迭代的多个迭代开始频率是基于为前一时间块确定的重力频率(132)的多个局部中心。

9.根据权利要求1的设备，包括频谱添加器(210)，其被配置以如果在新的多个迭代开始频率(122)的两个相邻迭代开始频率之间的频率距离大于最大频率距离，将一迭代开始频率添加至所述新的多个迭代开始频率(122)中。

10.根据权利要求1的设备，包括频率合并器(220)，其被配置以如果在两个相邻迭代开始频率之间的频率距离小于最小频率距离，合并所述多个迭代开始频率(122)的两个相邻迭代开始频率。

11.根据权利要求10的设备，其中所述频率合并器(220)被配置以通过用位于两个相邻迭代开始频率之间的新的迭代开始频率替换这两个相邻的迭代开始频率，合并两个相邻的迭代开始频率。

12.根据权利要求1的设备，包括频率删除器(230)，其被配置以如果一迭代开始频率高于所述音频信号的频谱(102)的预定义最大频率或者如果一迭代开始频率低于所述音频信号频谱(102)的预定义最小频率，则从所述新的多个迭代开始频率(122)中删除该迭代开始频率。

13.根据权利要求6的设备，其中如果对于每个迭代开始频率，为当前时间块确定的频率偏移与为前一时间块确定的频率偏移之和的绝对值小于预定义阈值偏移，则符合所述预定义结束条件。

14.根据权利要求1的设备，包括预处理器(310)，其被配置以生成用于音频信号的时间块的傅立叶变换频谱，生成基于该时间块的傅立叶变换频谱的平滑频谱，通过将该傅立叶变换频谱除以该平滑频谱生成将要提供给偏移确定器(110)的音频信号(302)的频谱(102)，将该频谱(102)映射至对数标度并将该对数频谱(102)提供给偏移确定器(110)，或者配置以生成用于音频信号的时间块的傅立叶变换频谱，将该傅立叶变换频谱(102)映射至对数标度，根据该时间块的对数傅立叶变换频谱生成平滑频谱，通过将该对数傅立叶变换频谱除以该平滑频谱生成将要提供给偏移确定器(110)的音频信号(302)的频谱(102)，并将该频谱(102)提供给偏移确定器(110)。

15.根据权利要求14的设备，其中所述预处理器(310)包括滤波器，该滤波器被配置以在将所述傅立叶变换频谱或对数傅立叶变换频谱除以所述平滑频谱之前，对所述傅立叶变换频谱、对数傅立叶变换频谱和/或平滑频谱进行时间平滑。

16.用于过滤音频信号(802)的信号自适应滤波器组(800)，包括：

用于根据权利要求1至15之一确定音频信号(802)的频谱的重力频率的多个局部中心的设备；和

多个带通滤波器(810)，其被配置以对所述音频信号(802)进行滤波以获得滤波后音频信号(812)，并提供该滤波后音频信号(812)，其中该多个带通滤波器(810)的每个带通滤波器的中心频率和带宽是基于所述重力频率(132)的多个局部中心。

17.根据权利要求16的信号自适应滤波器组，其中所述多个带通滤波器(810)的每个带通滤波器对应于重力频率的局部中心，其中该带通滤波器的局部中心和带宽取决于重力频率的相应局部中心、以及重力频率的相关中心的重力频率的相邻局部中心。

18.根据权利要求16的信号自适应滤波器组，其中确定所述多个带通滤波器(810)的带宽，以便无孔地覆盖全部频谱。

19.相位声码器，包括根据权利要求16至18之一的信号自适应滤波器组。

20.用于将音频信号(1102)转换成参数化表示(1132)的设备(1100)，该设备包括：

用于根据权利要求1至15之一确定音频信号(1102)的频谱的重力频率的多个局部中心(132)的设备；

带通估计器(1110)，用于根据所述重力频率(132)的多个局部中心估计多个带通滤波器(810)的信息(1112)，其中与该多个带通滤波器(810)有关的信息包括与用于音频信号部分的滤波器形状有关的信息，其中带通滤波器的带宽在音频频谱上不同；

调制估计器(1120)，用于使用所述与多个带通滤波器(810)有关的信息(1112)，为所述音频信号部分的多个带通滤波器(810)的每个频带，估计幅度调制(1122)、频率调制(1124)或相位调制(1124)；和

输出接口(1130)，用于传输、存储或修正用于该音频信号部分的与幅度调制有关的信息、与频率调制或相位调制有关的信息、或与多个带通滤波器(810)有关的信息。

21.用于确定音频信号的频谱的重力频率的多个局部中心的方法(1400)，该方法包括：

根据所述音频信号的频谱，确定(1410)多个迭代开始频率的每个迭代开始频率的偏移频率，其中所述频谱的离散采样值的数量大于迭代开始频率的数量；

通过将所述多个迭代开始频率的每个迭代开始频率提高或降低相应的所确定的偏移频率，确定(1420)新的多个迭代开始频率；和

提供(1430)所述新的多个迭代开始频率以进行进一步迭代，或者如果满足预定义结束条件，便提供(1440)重力频率的多个局部中心，其中所述重力频率的多个局部中心等于所述新的多个迭代开始频率。