CN102150203A

CN102150203A - 一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法

Info

Publication number: CN102150203A
Application number: CN2009801107821A
Authority: CN
Inventors: S·狄须
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-03-20
Filing date: 2009-03-10
Publication date: 2011-08-10
Anticipated expiration: 2029-03-10
Also published as: RU2010139018A; ES2770597T3; EP2104096A3; HK1250089A1; EP3242294B1; BRPI0906247A8; JP2011514562A; US20110106529A1; HK1246495A1; EP3273442B1; CA2867069A1; MX2010010167A; RU2487426C2; EP3296992A1; EP2255357B1; EP3273442A1; EP3296992B1; ZA201006403B; US8793123B2; EP2104096A2

Abstract

一种把音频信号转换成参数化表示的装置，包括一个用于解析音频信号段以获取解析结果的信号解析器(102)；一个在所述解析结果的基础上评估多元化带通滤波器的信息的带通滤波评估器(106)，其中带通滤波器的带宽在音频频谱上是不相同的并依赖于带通滤波器的中心频率；一个使用多元化带通滤波器的信息评估对应于所述音频信号段的多元化带通滤波器的每一个通带中的振幅调制(112)或者频率调制(114)或者相位调制的调制评估器(110)；以及一个用于传输、储存及修改对应于所述音频信号段的多元化带通滤波器的振幅调制信息，或者频率调制或者相位调制信息的信号输出接口(116)。

Description

一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法

技术领域

本发明涉及一种音频编码方法，尤其是一种用于声码器的参数化音频编码方法。

背景技术

相位声码器是声码器的一种。其中一个相位声码器的教程为“相位声码器：教程”，马克道森(Mark Dolson)，计算机音乐杂志，(Computer Music Journal)，Volume 10，No.4，pages 14 to 27，1986.另外一本相关出版物是“用于音高转换、和音以及其它新奇效果的新型相位声码器技术”L拉罗什和M道森(L.Laroche and M.Dolson)，1999年IEEE音频和声学信号处理应用专题讨论会会议记录(proceedings 1999年，IEEE workshop on applications of signal processing to audio and acoustics)，New Paltz，New York，October 17至20，1999年，第91到94页。

图5和图6阐明了相位声码器的不同实施方案和应用，图5阐明了一种相位声码器的滤波器组的应用，在输入端500输入一段音频信号，然后在输出端510得到一段合成音频信号。具体地，图5所示的每一条滤波器组的通道包含有一个带通滤波器501以及一随后连接着的振荡器502。所有通道的所有振荡器502的输出信号通过图5中加号所示的合并器503进行合并。在合波器503的输出端得到输出信号510。

每一个滤波器501用于提供一个幅度信号A(t)和一个频率信号f(t)。所述幅度信号和频率信号均为时钟信号。此幅度信号表明在一个带通滤波器中幅度随时间的变化，而频率信号则表明一个滤波器的输出信号的频率随时间的变化。

图6是一个滤波器501的实施示意图。输入信号被导入两条平行的路径中。在其中一条路径中，信号与一个振幅为1.0频率并且频率与带通滤波器551的中心频率相同的正弦波相乘。在另一条路径中，信号与一振幅频率均与551相同的余弦波相乘。这样，所述两条平行的路径除了用于相乘的波形相位外完全一致。然后在每一条路径中，乘法操作的结果被输入到一个低通滤波器中。这个乘法操作本身就是众所周知的简单环调制。使用一个恒定频率的正弦或余弦波乘以任何频率都会导致通过加减正弦波的频率而同时转换原始信号中所有的频率成分。如果这个结果是通过一个合适的低通滤波器达成，那只有低频部分得以保留。这个操作的结果就是所谓的的差拍变频。这个差拍变频在上述两条路径中执行，但既然其中一条使用正弦波进行致差，另外一条使用余弦波，两条路径致差后的信号相位上相差90°。上级低通滤波器553因而提供一个方波信号554，而下一级低通滤波器提供一个同步信号。这两个信号，也就是I和Q信号，被转发到一个转换器中，以把方波信号转化为幅度相位信号。

振幅信号在557中输出并与图5中的A(t)相符合。相位信号输入到一个相位解包器558中。在组件558的输出端除了一个线性增加的相位值没有0°和360°之间相位值的存在。这个“展开”的相位值输入到一个的相位频率转换器559中，此相位频率转换器559可以作为一个相位差设备，把当前相位减去前一个时刻的相位以获得当前的频率值。

这个频率值被附加到一个恒定滤波器通道i的频率值f_i上以在输出端560得到一个时变频率值。

输出端560上的频率值包含有一个DC部分f_i和一个变化的部分(频率波动，滤波通道中信号的电流频率偏离中心频率f_i)。

这样，图5和图6所示的相位声码器提供了一个频谱和时间信息的分隔。频谱信息在频率fi的特定滤波器组的通道中形成，时间信息则被保存在频率波动和在随时间变化的幅度中。

另一种对相位声码器的描述是傅立叶变换的解释。它包括一系列在有限持续时间窗口内发生的重叠傅立叶变换。在傅立叶变化的解释中，注意力集中在在单独时间点上所有不同的滤波器组或者频区的幅度和相位值上。在滤波器组的解释中，重组可以被视为一个时变振幅和对每一个振荡器的频率控制的经典加法合成，但在傅立叶实施中，它可以通过把信号转化回实虚格式并叠加一系列连续的逆傅立叶变换而达成。在傅立叶的解释中，相位声码器中滤波器组的数量等于傅立叶变换中频率点的数量。类似地，相等的单个滤波器的频率间隔可以被视为傅立叶变换的基础特征。

另一方面，滤波器通频带的形状，比如，频带边缘的截断陡度由预定的用于转换计算的窗口函数所决定，比如，汉明窗，滤波器的截断陡度与窗口的持续时间成正比增加。

观察两种对于应用在带通滤波器组的相位声码器分析的不同解释是有用的。对于这两种实施方式其以时变振幅和频率的作为输出是相同的。所述相位声码器的基本目的是把时间信息从频谱信息分隔开。其操作策略是把信号分成一些频谱带并在每一频带中以时变信号为特征。

两个基本的操作尤为重要。这些操作是可以时间缩放和音调变换的。通过在一个较低的采样率上回放来放慢一个录音的速度一直都是可能的。这与在一个较低的回放速度上播放录音带是类似的。然而，这类简单的时间延长同时也通过同样的因素降低了音调。降低时间流逝速度的同时并不改变音调需要在时间信号和频率频谱信号之间有一个明确的分隔如上所述，这正是所述相位声码器所尝试去做的。拉长时变振幅和频率信号A(t)和f(t)如图5a所示根本不会改变单个振荡器的频率。结果是一个时间延长的但带有原始音调的声音。傅立叶变换时间缩放的观点正是如此，为了从时间上延长一个声音，逆FFT(快速傅立叶变换)可以比分析FFT隔得更开。因而，在这个应用中频谱的改变在合成的声音中比原来发生得慢，并且其相位被重新准确地调节。

另外一个应用是音调变换。自从相位声码器可以用于改变声音的时间流逝而不改变其音调，它也因该可以被反向应用，比如，改变音调而不改变持续时间。这可以通过使用期望的音调改变系数进行时间缩放然后在一个错误的采样率上播放合成的声音或者通过一个期望的系数降低信号样本并在一个没有改变的比率上回放而达成。比如，提高一个八度音的音调，首先声音时间乘以系数2延长，然后延长的声音在两倍于原始的比率上回放。

作为一个产生人类语言的人工操作的合成设备，声码器由杜德利发明[2]。在相当一段时间后这个理论被扩展成所谓的相位声码器[3][4]。相位声码器通过重叠短时间的频谱二维傅立叶变换进而在一组固定中心频率的次频带滤波器的基础上工作。声码器作为操作声音文件的基础理论而得到广泛的应用。举个例子，声音效果比如时间拉伸和音调变换很容易通过一个声码器而达成[5]。其后，许多基于此技术的修改和改进被发布。特别地，使用固定频率的分析滤波器的限制已经通过加入一个衍生的基础频率(‘f0’)的映射而得以取消，比如“直接”声码器中[6]。不过，主流的应用还是在于语音编码和处理。

另外一个声音处理的研究领域在于分解语音信号到调制部件中。每一个部件包含有一个载波，一个振幅调制(FM)和一个频率调制(FM)部分。一种公布的信号自适应的分解方式，如[7]，提出了一套信号自适应的带通滤波器。[8]提出了一种联合AM信息和“正弦加噪声”参数编码器的方法。另外一种分解方法在[9]中得以公布，其使用一种称为“FAME”的策略：在这里，通过使用带通滤波器语音信号被分解为四个频带以提取它们的AM和FM内容。大部分当前的出版物目的也在从单独的AM信息(次频带包络)中再现声音信号并为取回在FM中占主导地位的相关相位信息提出了一些迭代方法[10]。

我们方法的目标在于处理普通声音信号当然也包括音乐在内。这与声码器相类似但做了些修改以进行感知激励信号相关的子频带分解而产生一组每个都带有相关的AM和FM信号的子频带载体频率。我们乐于指出这种分解是有感知意义的而且它的原理是可以直接解释的，因而这种分解的组件中所有调制过程是可行的。

为达到以上述目的，我们依靠观察存在的类似感知信号。一个足够窄的声调通带信号通过在其频谱重心(COG)位置的正弦载波以及其希伯特包络是可以被感知良好地的表现。这植根于两个信号都近似地引起了人类耳膜同样的移动[11]。一个简单的例子可以解释这个过程，如果双音复合体(1)的两个频率f₁和f₂互相足够接近的话，它们会在感知上融合为一体。

s_t(t)＝sin(2πf₁t)+sin(2πf₂t) (1)

根据(2)，一个含有频率与频谱重心s_t相等的正弦载波并带有相同绝对横幅的包络s_t的频率为s_m。

s_{m} (t) = 2 \sin (2 π \frac{f_{1} + f_{2}}{2} t) \cdot | \cos (2 π \frac{| f_{1} - f_{2} |}{2} t) | - - - (2)

在图9a中(顶部和中部图块)，两个信号的时间信号和希伯特包络都得以描绘。注意到与第二个信号相反的第一个信号在包络0处的相位跃变π。图9a显示了两个信号(顶部和中部)的功率谱密度图。

尽管这些信号在它们的频谱内容上非常不同，但它们的主导知觉线索-由COG所体现的中间频率以及振幅包络-是类似的。对于一个中心在COG的带限频谱区(如图9a和图9b的底部图所示)来说这令它们可以在感知上相互替代。同样的原理对于跟复杂的信号也是适用的。

一般说来，把宽带信号分解成一组每个都含有载波、振幅调制和频率调制信息的组件的调制分析或合成系统带有不同程度的自由，一般说来，这个任务是一个不适定问题。自从这些程序不再留意声音的最终接收者，比如人的耳朵，用于修改复杂声音频谱的子频带幅度包络并用它们的未更改的相位信息重组它们以重新合成的方法产生人工制品。

比如，非常长的窗口可以得到一个精细的频率分辨率，但同时会降低时间分辨率。在另一方面，瞬时信号不会需要一个高的频率分辨率，但需要一个高的时间分辨率，在一个确定的时刻，通带信号展示了强烈的互相关性，此互相关性也被称作“纵向连贯”。想象一个时间频谱图，其中横坐标为时间变量，纵坐标为频率变量。用一个非常高的频率分辨率处理瞬时信号，会导致一个同时意味着几乎完全丢失纵向连贯性的低时间分辨率。另一方面，最终的声音接收器，比如人的耳朵，不会考虑如此一个模型。

出版物[22]公开了一种从声音信号中提取正确的正弦参数的分析方法。这种方法把改良的声码器参数估计和当前在正弦建模中使用的峰值检测算法联合起来。这个系统一帧一帧地处理输入的数据，象正弦分析模型一样搜索峰值但通过FFT领域中的涂峰处理动态地选择声码器通道。这样，一帧中频率改变的正弦曲线的频率轨迹可能会被准确地参数化。在一个频谱解析步骤中，振幅FFT的峰值和低谷被识别出来。在峰值隔离中，峰值外频谱被设为0而且峰值的正负频率值被保留下来。然后，进行这个频谱的希尔伯转换的计算，接着进行原始信号和希尔伯转换后信号的的快速傅立叶逆转换以取得相位相差90°的两个时域信号。这些信号用于得到一个用于声码器解析的解析信号。虚假峰值可以被检测出来并且会作为噪音而被被模型化或者从模型中除去。

另外，知觉判断指标包括人耳在频谱上不同的带宽，例如，在频谱下部的小带宽和在频谱上部的大带宽，是不被计算在内的。进一步来说，人耳的一个重要的特征在，如我们联系图9a、9b和9c所讨论的，人耳会合并正弦音在一个对应人耳的临界带宽的带宽里，以使人不会听到两个带有轻微频率不同的的平稳语调，相反我们能感知到一个带有不同振幅的音调，此音调的频率被置于原始音调的频率之间。当人耳的临界带宽增加时这个效果会随之增大。

进一步，临界频带在频谱中的定位是不恒定的，但却是信号相关的。心理声学家们发现人耳根据频谱动态地选择临界频带的中心频率。例如，当人耳感知到一个响亮的声调，会在这个响亮的声调中居中置齐一个临界频带。当晚些时候再感知到另一个在不同频率的响亮的声调时，人耳会在这个不同的频率周围放置一个临界频带以使我们的感知不仅是随时间的信号相关而且还有滤波器，此滤波器在低频部分带有一个高的频谱分辨率并在高频部分带有一个低的频谱分辨率。

这也是本发明的一个目的，致力于通过修改和合成为音频信号的参数化和参数化后信号的处理提供一个改进了的概念。

这个目标通过根据权利要求1所述的一种音频信号转换装置，根据权利要求14所述的一种音频信号转换方法，根据权利要求15所述的一种修改参数化信号的装置，根据权利要求19所述的一种修改参数化信号的方法，根据权利要求20所述的一种合成参数化信号的装置，根据权利要求26所述的一种合成参数化信号的方法，根据权利要求27所述的一种音频信号的参数化表示法或者是根据权利要求28所述的一种计算机程序来达成。

本发明基于临界频带的可变带宽可以方便地用于不同目的的发现。其中一个目的可以提高人耳低分辨率的利用效率。在这个背景中，本发明试图不计算不需要的数据以提高效率。

第二个优势在于在需要高分辨率的领域中，计算必要的数据以提高参数化的和重新合成的信号的质量。

主要的优势在于此种信号分解方法利用一个直接的、直观的和感知调节的方式为信号操作提供了便利，

为这目的，执行一个信号自适应的音频信号解析，并基于解析的结果，以信号自适应的方式建立多个带通滤波器。特别地，所述带通滤波器的带宽不是恒定的，而是基于带通滤波器的中心频率。因而，本发明允许不同的带通滤波器频率以及不同的带通滤波器带宽，以使对于每一个感知上正确的带通信号，都能得到振幅调制和频率调制连同一个近似于计算出来的通带中心频率的当前中心频率。

优选地，所述一个频带中心频率的频率值代表了这个频带中的能量重心，以尽可能地模型化人耳。这样，一个通带滤波器中心频率的频率值不一定要选择在此频带的一个明确的声调上，但带通滤波器的中心频率可能较容易地取决于一个峰值不在FFT频谱内的频率值。

所述频率调制信息通过向下混合通带信号和确定了的中心频率而得到。这样，尽管因为基于FFT的检测的存在，所述中心频率已经被一个低的时间分辨率所决定，瞬间时间信息被保存在频率调制中。然而，对于载波频率中的长期变动和频率调制信息中的短期变动的隔离连同振幅调制允许了感知上正确的辨别中声码器类似的参数化表示。

这样，本发明有利于满足所取出的信息在某种程度上是有感知意义的并可判断的的要求，用于信息调制的调制过程应该可以产生感知上平滑的结果并避免由调制表示本身限制而产生的不受欢迎的人工制品。

本发明另一个优势在于解出的载波信息已经考虑到一个粗糙但感知上舒适的和具代表性的音频信号“草图”复原，任何AM和FM相关信息的继承应用都应该全面详细地和透明地细化这种表示法，这意味着这个有创造力的概念允许从一个低伸缩性的层里实现完全可伸缩，这依靠只使用解出的已经在感知上令人愉快的载波信息的“草图”重组而实现，直到使用额外的高伸缩性的并带有用于提高精度和时间分辨率的AM和FM相关信息的层的高质量信息出现。

本发明的一个优点在于其对于新音频效果的发展是极为可取的，另一方面其可以作为未来高效的音频压缩算法的组件。在过去。在参数化编码方法和波形编码中总存在区别，这个区别现在可以被本发明在很大程度上取消。当规模上很容易达到提供必需的比特率的透明度的波形编码方法可用后，参数化编码方案，比如CELP(码激励线性预测编码)或者ACELP(代数码本激励线性预测编码)方案顺从底层的源码模型的限制，甚至如果编码器中的比特率增加，这些参数化编码方案达不到透明化。然而，参数法通常提供大范围的操作可能性，可以用于音频效果的操作，而波形法被局制于尽可能好的再现原始信号。

本发明通过使两者间的无缝过渡成为可能而弥补这个不足。

附图说明

下面结合附图对本发明的具体实施进行讨论：

图1是一个音频信号转换装置或者方法的具体实施方案的示意图；

图1b是另外一个优选实施方案的示意图；

图2a是图1a实施方案中操作过程的流程图；

图2b是一个优选方案中用于产生多个通带信号的操作过程的流程图；

图2c阐明了一个基于COG计算和感知限制的信号自适应频谱分段；

图2d是图1b实施方案中处理操作的流程图；

图3a是一个修改参数化表示的概念的具体实施方案的示意图；

图3b是图3a中概念的一个优选方案的示意图；

图3c是把AM信息分解成粗结构和细结构的结构信息的示意图

图3d说明了一个基于图3c具体实施方案的压缩方案；

图4a是合成概念的示意图；

图4b说明了图4a概念的一个优选的具体实施方案；

图4c说明了一个用于调制信息合成的处理过的时域音频信号的叠加、音频信号的比特流以及重叠/相加的程序；

图4d是一个使用一种参数化表示合成音频信号的优选实施方案；

图5描述了一种解析/合成声码器结构的现有技术；

图6描述图5滤波器实施的现有技术；

图7a是一个原始音频信号的频谱图；

图7b是合成的载波频谱图；

图7c是经过粗糙AM和FM改良过的载波频谱图；

图7d是经过粗糙AM和FM改良并添加有修饰噪音的载波频谱图；

图7e是载波以及未处理的AM和FM在合成后的频谱图；

图8是一个主观声音质量测试的结果

图9a是说明了双音信号、多音信号以及带有适当频带限制的多音信号的的功率谱密度；

图9b是双音信号、多音信号以及带有适当频带限制的多音信号的波形和包络图；

图9c是产生两个感知上相等的信号的方程式；

具体实施方式

图1说明了一个把音频信号100转换成参数化表示180的装置。所述装置包括了一个用于分析信号段以得到一份分析结果104的信号分析器102。所述分析结果输入到一个带通估计器106中基于此信号分析结果以评估多元化的带通滤波器中的所述音频信号段的信息。这样，所述多元化带通滤波器信息中的108以一种信号自适应的方式进行计算。

具体地，所述多元化带通滤波器的信息108包括滤波整形的信息。所述滤波整形可以包括带通滤波器的带宽和/或带通滤波器的对应与此部分音频信号的中心频率，和/或参数形式或者非参数形式的量值传递函数的频谱形态。重要地是，一个带通滤波器的带宽在整个频率范围内不是恒定的，其依赖于所述带通滤波器的中心频率。优选地，所述依赖使得带宽随更高的中心频率而增加，或随低的中心频率而降低。更加优选地，所述带通滤波器的带宽由感知完全上正确的标度，比如巴克标度(bark scale)，来决定，以使带通滤波器的带宽一直依赖于事实上由人耳执行的带宽，以取得一个确定的信号自适应中心频率。

为了这个目的，所述信号分析器102对音频信号的信号部分执行一个频谱分析，特别地，分析频谱中的能量分配以找到能量集中的区域，在接收和进一步处理声音时这些区域也被人耳所决定。

所述具有创造性的装置还包括了一个调制评估器110，其目的在于评估多元化带通滤波器的每一条对应音频信号的一部分的通带的振幅调制112或者频率调制114。为了这个目的，所述调制评估器110使用多元化带通滤波器108的信息，这会在晚些时候讨论。

如图1a所示，所述具有创造性的装置还包括一个输出接口116以传输、储存或者修改振幅调制器112的信息，频率调制器114的信息或者多元化带通滤波器108的信息可能会含有滤波波形信息比如对应这个特定的音频信号段/块或者其它如上讨论的信息的带通滤波器的中心频率值。输出的是如图1a所示的参数化表示180。

图1b阐明了合并图1a中调制评估器110和信号分析器102和图1a中通带评估器106到一个单元中的一个优选的实施方案，这被称为“载波频率评估”。优选地，所述调制评估器110包含有一个提供通带信号的带通滤波器110a。这是输入到解析信号转换器110b的输入信号。为了计算AM信息，解析信号的大小在分块110c中得以计算。解析信号分块110b的输出被输入到一个乘法器110d中，此乘法器110d的另外一个输入端接收来自被带通滤波器110a的实际载波频率f_c控制的振荡器110e的震荡信号。然后，乘法器输出信号的相位由分块110f所决定。瞬时相位在分块110g中分化开来以最终得到FM信息。

这样，分解到载波信号中的过程以及它们的相关调制组件在图1b得以说明。

在图中某一个组件的信号的提取流程得以阐述。所有其它的组件通过一个类似的方式得以提取。优选地，所述提取在一个一块接一块的基础上使用48kHz取样频率、N＝2¹⁴的块大小以及3/4迭代，大致上相当于340ms的时间间隔和85ms的步幅。注意到另外的块大小或者迭代因子也可以被使用。它包括了一个中心位于信号离散傅里叶变换频谱中局部重心位置的信号自适应带通滤波器。

候选的局部重心通过在CogPos函数(3)中搜寻正负跃变而得以评估。一个后选择程序保证了最终评估过的重心位置在感知标尺中是近似等距的。

CogPos (k, m) = \frac{nom (k, m)}{denom (k, m)}

nom (k, m) = α Σ_{i = - B (k) / 2}^{+ B (k) / 2} (iw (i) {| X (k + i, m) |}^{2})

+ (1 - α) nom (k, m - 1)

(3)

denom (k, m) = α Σ_{i = - B (k) / 2}^{+ B (k) / 2} (w (i) {| X (k + i, m) |}^{2})

+ (1 - α) denom (k, m - 1)

对于每一个频谱系数k，它在由一个平滑滑动的窗口k遮蔽的频谱区域内产生朝向局部重心的相对偏置。窗口的宽度B(K)跟随一个感知标尺，比如巴克标尺。X(k，m)是在时间块m中的频谱系数k。另外还得出一个带有时间常数τ的一阶时间递推数列。

可供选择的重心值计算函数是可以想象的，它可以是迭代的或者是非迭代的。一个非迭代函数包含了一个适用于通带不同部分的添加能值并比较不同部分的加法操作的结果。

由于频谱在那个频率区间里的贡献所述局部重心相当于被一个人类聆听者所感知的平均频率的。为观察这个关系，注意到重心和“强度加权平均瞬时频率”(IWAIF)之间的等值关系，其出自[12]。结合人耳的分辨力(临界通带)来选择重心评估窗口和作为结果的滤波器的过渡带宽。这里，经验上选择了一个大约是0.5Bark的带宽作为所有测试项目(语音、音乐以及环境声音)的值。另外，这个选择在文献[13]中得以支持。

接着，使用经过带通滤波的信号的希尔伯转换得到解析信号并使用评估的重心频率的混和所述解析信号。最后，信号被进一步分解为它的振幅包络和它的瞬时频率(IF)，并产生所期望的AM和FM信号。注意到使用其中心在局部重心的带通信号相当于一个传统相位声码器的“影响范围”范式。这两种方法都保留了带通信号的时间包络：第一个方法是本质上的而后者是通过保证局部频谱相位一致而达到。

我们的忧虑在于合成的一套滤波器一方面无痕地覆盖了频谱但另一方面相邻的滤波器并没有迭代太多因为这会在组件合成或修改后导致不希望的搏动效果，这牵涉到一些性能妥协并与遵照感知标尺但同时也必须提供无痕的频谱遮盖的滤波器的带宽相关。因而所述载波频率评估和信号自适应滤波器设计成为分解组件的感知重要性的核心部分因而在重新合成的信号质量上拥有极强的影响。如此一个补偿分割的例子在在图2c中得以说明。

图2a阐明了一个把信号转换成如2b所示的参数化表示的优选处理过程。第一步120用于构造音频样本块。为了这个目的，其使用了一个窗口函数。然而，此窗口函数的使用在任何案例中都并不是必需的。然后，在步骤122中，使用方程式(3)计算重心函数。这个计算会在信号分析器102中执行，随后确定的零相交会成为从图1a中的信号分析器102中提供给图1a中的通带评估器106的解析结果104。

如方程式(3)中所明白显示的，基于不同的带宽重心方程得以计算。明确地，用于计算方程式(3)中分子nom(k，m)和分母(k，m)的带宽B(K)是频率相关的。频率指数k确定了B的值，甚至更加理想的是，B的值跟随增加的频率指数k而增加。因而，因为方程式(3)中nom(k，m)是清楚明白的，所以一个在频谱区域中宽度为B的“窗口”被置中于一个确定的频率值k周围，其中i从-B(k)/2到+B(k)/2中取值。

这个在分子中乘以窗口函数w(i)的指数i保证了在事实频率值k左边的频谱功率值X²(其中X是频谱振幅)涉及带有负号的累加计算，其间，事实频率指数k右边的频谱的平方值涉及带有正号的累加计算。自然地，这个函数可以有所不同，例如上半部带有负号而下半部带有正号。函数B(K)保证了感知上正确的重心计算的进行，而且这个函数是优选地确定的，比如，如图2c所示的一个感知上正确的频谱分割。

在一个可选的实施中，在计算重心函数之前频谱值X(k)被转化成一个对数域。然后，B的值方程式(3)的分子和分母项中是独立于频率的(对数标度)。这里。感知上正确的依赖已经包括在频谱值X中，所述频谱值X在本实施方案中，体现为对数标度。自然地，在对数标度中一个相等的频宽对应于在非对数标度中的一个与中心频率相关的增加的频宽。

只要零交叉因子和，特别是正负跃变，在步骤122中被计算出来，步骤124中的正向选择程序就得以执行。这里，在感知标准的基础上零交叉因子中的频率值被修改。这个修改遵从整个频谱最好能被完全覆盖并且不允许任何频谱缺陷的几个约束。进一步，带通滤波器的中心频率被尽可能地设置在零交叉因子的重心函数上，最好是相对于在频谱较高部分的定位，在频谱较低部分中的中心频率的定位能被满足。这意味着我们尝试使信号自适应的频谱分割更紧密地遵从步骤122在较低的频谱部分中得到的重心结果，并且，基于这个决定，在较高的频谱部分的重心并不与带通滤波器的中心频率一致，但这个偏移是可以接受的。

只要中心频率值及其对应的带通滤波器的频宽得以确定，音频信号块就会被滤波器组所过滤126，所述滤波器组包含有多个在步骤124中所得到的修正了的频率值上并带有多变频宽的带通滤波器。这样，根据图2c中的例子，一个如信号自适应频谱分割图所示的滤波器组通过计算滤波系数和设置这些滤波系数而得以应用，随后所述滤波器组被用于过滤被用于计算这些频谱分段的那部分音频信号。

所述滤波最好是通过一个滤波器组或者一个时间频率变换而得以执行，比如一个窗口离散傅里叶变换，随后的频谱加权和快速傅立叶逆变换，其中一个单独的带通滤波器在110a中得以阐述，滤波器组中其它部件的带通滤波器101，连同带通滤波器110a。在子频带信号

的基础上，所述AM信息和FM信息，比如112和114，在步骤128中得以计算，并连同每一条通带的载波频率作为音频信号采样值块的参数化表示而输出。

然后，一数据块的计算得以完成，在步骤130中，将步幅或者提前值通过一个迭代的方式应用于时域中以获取下一块音频信号样本，如图2a中的120所示。

这个程序在图4c中得以阐明。时域音频信号在此图的上部得以阐明，作为例子其中时域音频信号包含有7部分，每一部分最好都包含有相同数目的音频样本。每一块包括N个样本。第一个分块包含有前4个相邻的部分1、2、3和4。第二个分块包含有信号部分2、3、4和5，第三个分块包含有3、4、5和6，而第4个分块则包含有剩下的信号部分4、5、6和7。在比特流中，图2a中的步骤128为每一个分块，例如，对于分块1、分块2、分块3、分块4、或者分块中被选择的一部分，最好是分块的N/2的中间部分，产生了一个参数化的表示，这是由于分块的外层部分可能会包含有一个据此设计的转换窗口的滤波震荡或者频率响应下降等特性。所述对每一个分块的参数化表示最好以一个连续方式传输。如图4c中上部图块中的例子所示，其执行了一个4路迭代操作。可选地，也可以使用一个2路迭代操作因此步骤130中所应用的两个部分的步距值或者提前量用一个部分来代替。

基本上，一个迭代操作不是必须的但它通常是一个首选项，因为它可以避免分块中的人工产物，而且利于允许一个块到块的交叉渐变操作，根据本发明的一个首选的实施方案，这个交叉渐变操作没有在时域中得以执行，但它在FM/AM域中得以执行，这会在下文结合图4a和4b进行描述。

图2b阐明了一个图2a中关于方程式(3)的特有程序的常见实施例。这个图2b中的程序不完全由信号解析器和带通滤波评估器所操作。在步骤132中，音频信号的一部分在功率频谱分布方面被解析。步骤132可能会牵涉到时间/频率转换。在步骤134中，预估的频谱局部功率浓度频率值被采用以获取一个感知上正确的频谱分段，比如图2c中的频谱分段，此频谱分段带有不同带通滤波器的感知激发频宽，并且没有任何频谱缺陷。在步骤135中，所述的部分音频信号被一个确定的频谱分段利用滤波器组或者一个转换方法过滤，图1b给予了其中一个过滤器组的具体实施方案，所述过滤器组带有单通道带通滤波器110a和用于其它部件的相应的带通滤波器。

步骤135的结果是多元化的带通信号，其频带拥有频宽随频率增加的特性。然后，在步骤136中，在一个具体实施方案中使用部件110a到110g对每一个带通信号进行分开处理。然而，可选地，其它任何用于提取振幅调制和频率调制信息的方法也都可以使用，以参数化每一个带通信号。

接着，图2d会被讨论，其中一个优选的用于分开地处理每一个带通信号的步骤顺序会被阐述。在步骤138中，一个带通滤波器被设置为使用计算出来的中心频率值和使用一个通过图2b中的步骤134所得到的频谱分段所确定的频宽。这个步骤使用带通滤波器信息，并且此步骤还能用于输出带通滤波器信息到图1a中的输出接口116上。在步骤139中，所述音频信号被步骤138中所设置的带通滤波器所过滤。在步骤140中，一个所述带通滤波器的解析信号得以构成。这里，可以应用真希尔伯转换或者一个近似的希尔伯转换算法。然后，在步骤141中，图1b中的盒子110c的实施得以执行，比如，确定解析信号的振幅以提供AM信息。

基本上，所得到AM信息的分辨率与在分块110a的输出端的带通信号的分辨率是一样的。为了压缩这个海量的AM信息，可以采用一些抽取或者参数化手段，稍后会讨论这个问题。

为了得到相位或者频率信息，步骤142包括一个使用带有带通滤波器中心频率的振荡器信号乘以所述解析信号的乘法操作。在这个使用乘法操作的例子中，一个后续低通滤波操被选择用于舍弃那些在步骤142乘法操作中产生的高频部分。当振荡器信号非常复杂时，这个和过滤是不需要的。步骤142导致了一个向下混合的解析信号，这个解析信号在步骤143中被处理以获取瞬时相位信息，如图1b中的盒子110f所示。除了AM信息外，这个相位信息也可以作为参数化信息而输出，但一般选择将这个相位信息在盒子144中进行差分处理以得到一个真实频率调制信息，如图1b的114所示。另一方面，所述相位信息可以被使用于描述频率/相位相关的波动。当作为参数化信息的相位信息足够时，分块110g中的差分处理并不是必须的。

图3a阐述了一个修改音频信号的参数化表示的装置，对于时间部分，所述参数化的音频信号带有来自多元化带通滤波器的带通滤波器信息，例如图4c中间部分中的分块1。所述带通滤波器信息指明了带通滤波器的时变带通滤波器中心频率(载波频率)，所述带通滤波器的频宽依赖于带通滤波器本身以及带通滤波器的频率，所述带通滤波器信息还带有对应各自的时间部分的每一个带通滤波器的振幅调制或者相位调制或者频率调制的信息。所述用于修改参数化音频信号的装置包括一个信息修改器160，所述信息修改器160用于修改时变中心频率或者用于修改振幅调制信息或者频率调制信息或者相位调制信息，并输出一个修改了的参数化表示信号，所述参数化信号包含有对应一部分音频信号的载波频率，以及修改了的AM、PM和FM信息。

图3b阐明了图3a中信息修改器160的一个首选实施方式。优选地，所述AM信息被引入到一个分解阶段，其间AM信息会被分解成一个粗/细尺度结构。为了压缩AM信息的传输数据，只有粗尺度结构被传输到一个合成器中。这个合成器的一个组成部分可以是加法器160e和通带噪音源160f。然而，这些组件也可以是信息修改器的一部分。在我们的优选实施方案中，不管怎样在分块160a和160e之间都存在一个传输路径，只有粗尺度结构的参数化表示，以及代表或者来自细尺度结构的能值可以通过这个路径161从一个解析器传输到合成器。然后，在合成器一侧，一个噪音源160f被测量以为一个特定的通带信号提供一个通带噪音信号，这个噪音信号带有一定的能量，此能量被一个参数标识，比如路径161中的能值。然后，在解码器/合成器侧，这个噪音被粗尺度结构在时间上定形，并定量为它的目标能量值，再添加到传输的粗尺度结构上以合成一个只需要低比特率就可以传输的信号，以人工合成细尺度结构。一般地说，噪音加法器160f用于添加一个带有一个确定的全局能值和一个预设的时间能量分布的(伪随机的)噪音信号。可以通过传输的边信息对这个操作加以控制，这个操作也可以是固定设置好的，例如，基于一个经验数据，比如每一条通带所确定的固定值。可选地，这个操作也可以被一个在修改器或者合成器中的局部解析所控制，其中可用的信号被解析，然后得到噪音加法器控制参数值。这些控制参数值最好是一些能量相关的值。

额外地，，所述信息修改器160可以包括一个约束多项式拟合功能模块160b和/或者一个对于载波频率的变调器160d，这个变调器160d同时也通过乘法器160c变换FM信息。可选地，这个变调器160d也可以用于只修改载波频率，而不修改AM信息或者FM信息，或者只修改FM信息而不修改AM信息或者频率信息。

有这些调制组件在手，一些新的和有趣的处理方法成为可能。此中描述的调制解调制方法的一个巨大的优势在于本发明提出的解析/合成方法明确地保证了任何调制处理的结果-在很大程度上独立于处理本身的确切性质-会是感知上平滑的(无咔嚓声，无短暂的重复声等等)。几个调制处理的实施例包括在图3b中。

当然，一个主流的应用会是对音频信号进行“变调”处理但同时保留原始的回放速度：通过对所有载波组成进行一个恒定系数的乘法操作，这很容易就可以达到。既然输入信号的时间结构是依靠AM信息进行单独捕捉，这就不受载波的频谱间隔的伸缩所影响。

如果仅仅是一个对应于当前预定义频率间隔时间的载波的子集被映射到合适的新数值上，一段音乐的音调模式可以被改变，例如从小调转成大调。反之亦然。为实现这个目的，载波频率被量化成MIDI(乐器的数字化接口)数字，此MIDI数字随后被映射到适当的新MIDI数字中(使用音乐项目的模式和音调的先验知识进行处理)。最后，映射了的MIDI数字被反向转换以获取修改了的用于合成的载波频率。另一方面，一个专用的MIDI音符的发起/抵消检测不是必需的，因为时间特征在未修改的AM信息中占有主导地位。

一个更为先进的处理在于对一个信号的调制属性的更改：例如，通过调制过滤，这个处理过程适用于修改一个信号的粗糙度[14][15]。在AM信号中存在一个与音乐事件的启动偏移相关的粗架构和与快速调制频率(～30-300Hz)相关的细结构。既然这个细结构代表了一个音频信号的摧残的属性(对于载波这个频率可以高达2kHz)[15][16]，听觉上的粗糙可以通过移去细结构而保留粗结构得以修改。

为把包络分解成粗结构或者细结构，可以使用非线性方法。例如，为捕捉粗糙AM信息，我们可以应用一个(低阶)多项式的分段拟合。得到作为原始包络线和粗包络线之间不同点的精细结构(残留的)。

注意，如果任何修改被应用到AM信号中，我们建议把FM信号限制为缓变，这是因为未处理的FM信号可能会因为一块通带区域内的差拍现象而包含有突变峰值[17][18]。这些峰值出现AM信号的零点附近并在感知上可以忽略。一个这种IF中的峰值的例子可以在根据图9中的方程式(1)所产生的信号中看到，此信号以pi在希尔伯包络线零位置的相位跃变的形式表达。不期望的峰值可以通过在FM上进行约束多项式拟合而被移去，其中原始的AM信号作为权重对应于拟合值的适合度。这样，FM信号里的尖状物可以被无偏差地移去。

另外一个应用可以是用于在信号中移除FM。这里我们可以简单地设置FM为零。自从载波信号位于局部重心的中心位置，它们代表了感知上正确的局部平均频率。

图3c阐明了一个从通带信号中提取一个粗糙结构的例子。图3c中上部的图块阐明了一个典型的由某个乐器产生的一个声调的粗糙结构。在开始，所述乐器是无声的，然后在其打击的时刻，一个陡峭的振幅上升可以被观察到，然后其振幅在一个所谓的“维持期”内一直保持恒定。然后，这个声调被解除。这个解除过程被一个开始在维持期的终点的指数式衰减所描述。这个维持期的终点是解除期的开始，换言之，一个解除时刻。吉他可以是一个例子，显然，音调由激发吉他弦震动所产生，在弹打的激发时刻之后，立即有一个相当长的解除段跟随其后，弦的震动开始衰减直到吉他弦到达静止状态，这个静止状态也就是解除期的终点。对于特有的乐器，存在着特有的形式或者粗糙结构对应每一个音调。为了在每一个通带信号里提取这样的粗糙结构，最好对通带信号执行一个多项式拟合，其中所述多项式拟合带有与图3c上部图块中形式相类似的一个常规形式，并可以通过确定多项式系数来匹配此形式。只要得到一个最佳匹配的多项式拟合，所述信号就可以被多项式确定，所述多项式就是通带信号的粗糙结构，所述通带信号在实际信号中被减去以获取精细结构，在这个多项式拟合足够好时，所述精细结构成为一个颇为嘈杂的噪音信号，其带有一个确定的能值，除了作为粗糙结构的多项式系数之外，此能值也能从解析器侧传输到合成器侧。

把通带信号分解成它的粗糙结构和细结构是一个很好的非线性分解的范例。其它非线性分解也可以被使用以减少在一个低比特率的应用中传输AM信息的数据率。

图3d阐明了如此一个程序的步骤。在步骤165中，通过多项式拟合并计算多项式的参数提取粗糙结构，所述多项式的参数也就是从一个解析器传输到一个合成器的振幅调制信息。为了更高效地执行这个传输任务，一个对所述参数的进一步的量化和编码操作166得以实施。所述量化可以是等比或者非等比的，编码操作可以是任何已知的熵编码操作，比如带有或者不带有编码表表的赫夫曼编码，或者是数学编码，比如视频编码中的基于上下文的数学编码。

然后，以一个非常高效的方式构成一个低比特率的并可以在一个传输路径中传输的AM信息或者FM/PM信息。在合成器侧，步骤168用于解码和去量化所传输的信息。然后，在步骤169中，通过实际上计算所有参数值，所述粗糙结构被重组，其中所述参数值被带有传输了的多项式参数的多项式所定义的。额外地，这可能对在每一条通带的信号中加入修饰噪音是有帮助的，但这最好是在传输的能量参数基础上进行，或者在一个极端比特率应用中，加入带有凭经验选择的能值的修饰噪音

可选地，一个信号的修改可能包括：如前所述，映射中心频率到MIDI编号上，或者，一般上，映射中心频率到一个音阶上，然后转换这些音阶，以改变一段音乐，将大音阶改成小音阶，反之亦然。在这个例子中，最重要的是，载波频率被修改。优选地，所述AM信息或者PM/FM信息最好不要被修改。

可选地，其它类型的载波频率修改可以被使用，比如，使用同样的换位系数将所有的载波频率换位，所述换位系数可以是一个大于1的整数或者是一个0和1之间的小数。在后一个例子中，音调值在修改后会被变小，在前一个例子中，音调值在修改后会变高。

图4a阐明了一个用于合成一个音频信号的参数化表示的装置，所述参数化表示包括通带信息，比如载波频率或者带通滤波器的带通中心频率。这个参数化表示还额外包括一个带通信号的振幅调制的信息，频率调制的信息或者相位调制的信息。

为了合成一个信号，信号合成装置包括了一个接收没有修改过的或者修改过的但含有所有带通滤波器信息的参数化表示信号的输入接口200。为了合成AM信息，还提供了一个基于AM调制的并用于合成AM组件的AM合成器201。额外地，还提供了一个基于载波频率信息和传输的PM或者FM调制信息的并用于合成瞬时频率或者相位信息的FM/PM合成器202。两个组件201和202都连接到一个振荡器模块203上，为每一个滤波器组通道产生一个调制了的AM/FM/PM振荡器信号204。

进一步，还提供了一个用于合并来自不同带通滤波器的信号的合并器205，比如来自振荡器的信号204，在来自带通滤波器通道的信号基础上产生一个音频输出信号。在一个优选的方案中，通过一个智能采样的方式叠加带通信号以产生合成的音频信号206。然而，其它的合成方式也可以使用在这里。

图4b阐明了一个图4a中合成器的优选实施方式。这个有优势的实施方案基于一个调制域中的叠加操作(OLA)，换言之，其在产生时域带通信号之前。如图4c中部图块所示，可能是比特流的但也可能是直接连接到解析器或者修改器的输入信号被分开到AM组件207a，FM组件207b和载波频率组件207c中。所述AM合成器201包括一个叠加器201a和一个额外的组件粘合控制器201b，所述AM合成器201最好不仅包括分块201a还包括了分块202a，所述分块202a是一个设置在FM合成器202中的叠加器。所述FM合成器202还额外包括了一个频率叠加器202a，一个相位积分器202b，一个相位合并器202c和一个相位移位器202d，其中相位合并器202c可以换为一个正常的加法器，相位移位器202d可以由组件粘合控制器201b所控制以在块与块之间重生成一个恒定的相位，因而使得来自先前分块的信号相位与实际块的信号相位是连续的。因此，我们可以说在组件202d和202c中的相位加法对应于重生成一个在图1b中的分块110g中进行微分运算期间丢失的常数。从一个感知领域中信息丢失的角度来看，留意到这是唯一的信息丢失，也就是在图1b中的微分运算装置中丢失的常数部分。

在所有组件的一个相加基础上合成信号。对于其中一个组件，处理链如图4b所示。象解析一样，合成也是一个基于块到块的操作。既然每一个解析块只有中间的N/2个段能被使用于合成，这就得到了一个1/2的重叠系数。使用一个组件粘合机制以混合AM和FM，并对齐在先前分块中它们前任的频谱中组件的相位。并在巴克标尺(Bark scale)的基础上计算频谱带并结合语音声高感知再次考虑了人耳的敏感度。

具体上说，首先FM信号被添加到载波频率上，然后结果被传到叠加器(OLA)中。然后对信号进行积分变换以得到要进行合成的组件的相位。然后将结果的相位信号输入一个正弦振荡器。AM信号同样也被另外一个OLA所处理。最后，使用结果的AM信号将振荡器的输出信号在振幅上进行调制以得到组件对输出信号的附加贡献。

图4c下部显示了一个优选的使用50％作为重叠系数的叠加操作的具体实施方式。在这个具体实施中，事实上被使用的来自当前块的信息的第一部分被添加到前一块的对应的第二部分中。并且，图4c中底下的部分描述了一个交叉渐变的操作，其中淡出的块的信号段的权重从1到0逐渐减少，同时，淡入的块的权重从0到1逐渐增加。这些权重已经被应用在解析器侧，然后只有在解码器侧的加法操作才是必需的。然而，优选地，以一种预定义的方式这些权重并不应用在编码器侧但可以应用在解码器侧。如前所述，在合成中，每一个信号块只有中间N/2的段被使用，所以得到了一个重叠系数1/2，如图4c所述。然而，我们也可以使用每一个解析块的全部段进行叠加，因而对一个如图4c上部所示的4路重叠进行了阐述。在所述的实施方案中，最好使用中心部分，因为外围部分包括了解析窗口的频率响应下降而中心部分只有平顶段。

所有其它的重叠率都可以使用。

图4d阐明了一个在图4a/4b的优选实施方案中使用的优选步骤顺序。在步骤170，两个相邻的AM信息块进行混合/交叉渐变。优选地，这个交叉渐变操作在调制参数域中被执行而不是在合成了的、调制了的通带时间信号域中执行。这样，与一个交叉渐变在时域中被执行而不是在调制参数域中执行的案例进行比较，在两个要进行混合的信号之间的差拍会被避免。在步骤171中，对于一个带有高分辨率FM信息的通带信号，使用202c并通过合并模块化载波信号对对应一个确定常数的一个绝对频率进行计算。然后，在步骤171中，对两个相邻的绝对频率信息的块进行混合/交叉渐变处理以在块202a的输出端中获取一个混合了的瞬时频率。在步骤173中，对OLA操作的结果202a进行积分运算，如图4b中的202b所示。进一步，所述组件混合操作201b决定了一个在先前块中的对应的先前频率的绝对相位，如174所示。基于确定了的相位，图4b中的相位移位器202d通过在块202c中给信号添加一个φ₀调整了信号的绝对相位，这在图4d的步骤175中也阐述过。现在，这个相位已经准备好对一个正弦振荡器进行相位控制，如步骤176所示。最后，在步骤177中使用块170的交叉渐变振幅信息对所述振荡器的输出信号进行振幅调制。振幅调制器如乘法器203b最终会为一个确定的带通滤波器通道输出一个合成了的带通信号，因为这个创造性的程序，所述带通滤波通道带有一个跟随带通中心频率增高而增大的频率带宽。

在下面，一些频谱图会论证本发明提出的调制处理方案的属性。图7a描述了一段管弦乐队演奏的经典音乐(韦瓦尔第)的原始日志谱图。

图7b到图7e描述了不同调制方法处理后的相应的频谱图，并以还原的调制细节的多少升序排列。白色区域对应于高频谱能量并与图7a中原始信号的频谱图中局部能量聚集相一致。图7c描述了相同的载波但此载波被非线性平滑了的AM和FM所改良。增加的细节可以被清楚看到。在图7d中，额外地，丢失的AM细节通过被包络线整形了的“善意”噪音而被补偿，此“善意”噪音对信号添加了更多的细节。最后，来自未被修改的调制组件的合成信号的频谱图在图7e中得以描述。将图7e中的频谱图与图7a中原始信号的频谱图加以比较，我们可以观察到非常好的全部细节的再现。

为了评估本发明所提出的方法的性能，我们实施了一个主观聆听测试。使用STAX高质量静电耳机进行MUSHRA[21]类型聆听测试。一共6个听众参与这个测试。所有被试者都被认为是有经验的听众。

这个测试包括了在图8中列出的各种项目，而测试的配置在图9中列出。

图8中的图表显示了结果。所列出的是每一个项目的95％信心区间的平均结果。这个图表显示了对所有听众的结果进行统计分析后的结果。X轴表示处理类型而Y轴代表了根据100分制的MUSHRA标尺所得出的0到100的分数。

从这结果中我们可以看出带有完全AM和完全或者粗结构FM细节的两个版本得到大约平均80分，但仍然是可以同原始信号明显区别开来的。既然两个版本的信心区间都很大程度上重叠，我们可以总结出丢失的FM细节可以在感知上忽略的结论。带有粗结构AM和FM和添加了的“善意”噪音的版本得分相当低，但仍然得到60的平均分：这反映了本发明提出的方法具有对AM细节渐增忽略的容错性。

感知到的大部分劣化都带有非常短暂的内容比如钟琴和有键竖琴。这是因为丢失了不同组件之间的原始相位关系，然而，在本发明提出的合成方法的未来版本中这个缺点会被克服，这可以通过调整所有组件的载波频率的相位而达到。

对于测试的经典音乐项目，观察到的劣化在统计上并不明显。

本发明提出的解析/合成方法可以用在不同的应用场景中：对于音频编码它可以作为一个感知上正确的细粒度可升级音频编码器的加强组件，这个应用的基本原理已经在[1]中得以发布。使用一个粗结构和添加善意噪音以取代完全的AM包络线以在比特率的下降的情况下传输更少的细节到接收器侧。

另外，关于音频频宽扩展的新概念[20]是可相信的，其使用转换了的和改变了的基带组件以构造高频段。改进了的人类的听觉特性实验也逐渐成为可行的，比如：改进的嵌合声音的创造以进一步评估调制结构的人类感知。

最后也是最重要的，新的和令人激动的用于音乐制作的艺术音频效果是触手可及的：一段音乐的音阶或者音调可以通过合适的载波信号处理而被改变，或者粗糙度感知的心理声学属性可以通过对AM信息的操作而被访问。

本发明还提出了一个把音频信号分解成感知上有意义的载波和AM/FM组件的系统，所述系统允许调制信息修改的细粒度可扩展。方法已经给予。一些调制处理原理的例子也已经给出，一个例子的结果频谱图也已经描绘过。一个聆听测试也已经得以实施以证实不同类型的调制处理和其后的重组的感知上的质量。这个有希望的新解析/合成方法的未来应用场景也已经确认。结果说明了本发明提出的方法提供了合适的方式消除了参数化和波形音频处理之间的距离，而且给予了新的具有巨大吸引力的音频效果的可能性。

所述实施方式只是简略地介绍了本发明的原理。此中描述的布置和细节的修改和变化对于本领域的技术人员是清晰可见的。因而，本说明书的目的应被限制在只是用于专利申请的范围内，而不是作为描述和解释所述具体实施方案的详细规格说明。

取决于本创造性方法确定的实施要求，本创造性方法在硬件或者软件中都可以实现。可以使用数字存储介质，特别是，磁盘，DVD或者CD等带有储存在其上的电子可读控制信号的介质，并在可编程计算机操作系统的合作下实施本发明。一般说来，本发明是一个带有存储在机器可读载体上的程序代码的计算机程序产品，在此计算机程序产品在一个计算机上运行时所述程序代码对这个创造性的方法进行操作。用另外的话说，所述创造性的方法是一个计算机程序，在这个计算机程序在一台计算机上运行时，所述计算机程序包含有一段用于执行至少一个所述创造性方法的程序编码。

参考书目

[1]M.Vinton and L.Atlas，“A Scalable And Progressive Audio Codec，”in Proc.of ICASSP2001，页码：3277-3280，2001年

[2]H.Dudley，“The vocoder，”in Bell Labs Record，刊期：17，页码：122-126，1939年

[3]J.L.Flanagan and R.M.Golden，“Phase Vocoder，”in Bell System Technical Journal，刊期：45，页码：1493-1509，1966年

[4]J.L.Flanagan，“Parametric coding of speech spectra，”J.Acoust.Soc.Am.，刊期：68(2)，页码：412-419，1980年

[5]U.Zoelzer，DAFX：Digital Audio Effects，Wiley & Sons，页码：201-298，2002年

[6]H.Kawahara，“Speech representation and transformation using adaptive interpolation of weighted spectrum：vocoder revisited，”in Proc.of ICASSP 1997，刊期：2，页码：1303-1306，1997年

[7]A.Rao and R.Kumaresan，”On decomposing speech into modulated components，”in IEEE Trans.on Speech and Audio Processing，刊期：8，页码：240-254，2000年

[8]M.Christensen et al.，“Multiband amplitude modulated sinusoidal audio modelling，”in IEEE Proc.of ICASSP 2004，刊期：4，页码：169-172，2004年

[9]K.Nie and F.Zeng，“A perception-based processing strategy for cochlear implants and speech coding，”in Proc.of the 26th IEEE-EMBS，刊期：6，页码：4205-4208，2004年

[10]J.Thiemann and P.Kabal，“Reconstructing Audio Signals from Modified Non-Coherent Hilbert Envelopes，”in Proc.Interspeech(Antwerp，Belgium)，页码：534-537，2007年

[11]Z.M.Smith and B.Delgutte and A.J.Oxenham，“Chimaeric sounds reveal dichotomies in auditory perception，”in Nature，刊期：416，页码：87-90，2002年

[12]J.N.Anantharaman and A.K.Krishnamurthy，L.L Feth，“Intensity weighted average of instantaneous frequency as a model for frequency discrimination，”in J.Acoust.Soc.Am.，刊期：94(2)，页码：723-729，1993年

[13]O.Ghitza，“On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception，”in J.Acoust.Soc.Amer.，刊期：110(3)，页码：1628-1640，2001年

[14]E.Zwicker and H.Fastl，Psychoacoustics-Facts and Models，Springer，1999年

[15]E.Terhardt，“On the perception of periodic sound fluctuations(roughness)，”in Acustica，刊期：30，页码：201-213，1974年

[16]P.Daniel and R.Weber，“Psychoacoustical Roughness：Implementation of an Optimized Model，”in Acustica，刊期：83，页码：113-123，1997年

[17]P.Loughlin and B.Tacer，“Comments on the inteteretation of instantaneous frequency，”in IEEE Signal Processing Lett.，刊期：4，页码：123-125，1997年

[18]D.Wei and A.Bovik，“On the instantaneous frequencies of multicomponent AM-FMsignals，”in IEEE Signal Processing Lett.，刊期：5，页码：84-86，1998年

[19]Q.Li and L.Atlas，”Over-modulated AM-FM decomposition，”in Proceedings of theSPIE，刊期：5559，页码：172-183，2004年

[20]M.Dietz，L.Liljeryd，K.

and O.Kunz，“Spectral Band Replication，a novel approach in audio coding，”in 112th AES Convention，Munich，May 2002年

[21]ITU-R Recommendation BS.1534-1，“Method for the subjective assessment of intermediate sound quality(MUSHRA)，”International Telecommunications Union，Geneva，Switzerland，2001年

[22]“Sinusoidal modeling parameter estimation via a dynamic channel vocoder model”A.S.Master，2002IEEE International Conference on Acoustics，Speech and Signal Processing.

Claims

1.一种把音频信号转换成参数化表示的装置，包括：

一个用于解析音频信号的一段以获取解析结果(104)的信号解析器(102)

一个在分析结果(104)的基础上评估多元化带通滤波器信息(108)的带通评估器(106)，其中所述多元化带通滤波器上的信息包含有对应所述音频信号段的滤波整形信息，其中带通滤波器的带宽在一个声音频谱中是不同的并且依赖于所述带通滤波器的中心频率；

一个使用多元化带通滤波器上的信息(108)评估对应所述音频信号的一部分的多元化带通滤波器中每一条通带的振幅调制或者频率调制或者相位调制的调制评估器(110)；和

一个用于传输、储存及修改对应于所述音频信号段的多元化带通滤波器的振幅调制信息，或者频率调制或者相位调制信息的信号输出接口(116)。

2.根据权利要求1所述的一种装置，其中信号分析器(102)用于分析所述段的振幅，或者分析此段上的频率功率分布。

3.根据权利要求1或者2所述的一种装置，其中信号分析器(102)根据通带的中心频率分析音频信号在频率通带中的功率分配。

4.根据上述权利要求中任何一项所述的一种装置，其中带通评估器(106)用于评估多元化带通滤波器的信息，一个带有较高的中心频率的带通滤波器的的带宽要比带有较低中心频率的带通滤波器的带宽大。

5.根据上述权利要求中任何一项所述的一种装置，中心频率和带通之间的依赖关系导致在一个对数标尺上频率上相邻的任何两个中心频率互相之间在频率上都具有一个类似的距离。

6.根据上述权利要求中任何一项所述的一种装置，其中信号分析器(102)用于计算信号部分(122)的频谱表示的重心位置函数，在重心位置函数中预定的事件标示了多元化带通滤波器的中心频率的候选值，和

其中带通评估器(106)用于在候选值的基础上确定中心频率。

7.根据权利要求1-6所述的一种装置，其信号分析器(102)用于计算一个通带的重心位置值。

8.根据权利要求1-7所述的一种装置，其信号分析器(102)用于在一条通带的上半部分添加负权值并在一条通带的下半部分添加正权值以获取重心位置的原始值，其中重心位置的原始值进行时间平滑处理以得到一个平滑的重心位置值，和

其中带通滤波评估器(106)用于确定随时间平滑后的重心位置值的零交叉算子的频率。

9.根据上述权利要求中任何一项所述的一种装置，其中带通滤波评估器(106)用于确定带通滤波器带宽的中心频率信息，以使得较低的初始值和较高终止值之间的频谱可以被完全覆盖，不存任何在频谱缺陷，其中所述的较低初始值较高终止值包含了至少5个带通滤波器的带宽。

10.根据权利要求1、8或者9所述的一种装置，其中带通滤波评估器(106)用于确定所述信息使得零交叉算子频率通过这样的一种方式被修改：对应一个感知标尺产生一个近似相等的通带中心频率间隔，其中通带中心频率和一个重心位置函数中的零交叉算子的频率之间的距离得以最小化。

11.根据上述权利要求中任何一项所述的一种装置，其中调制评估器(110)用于在音频信号中通过由带通滤波评估器(106)所提供的中心频率的信息或者与此带通信号相对应的带通滤波器的带宽信息使用一个确定了的通带提取通带信号。

12.根据上述权利要求中任何一项所述的一种装置，其中调制评估器(110)用于向下混合(110d)一个通带信号和一个带有各自通带中心频率的载波以得到带通滤波器中带通的频率调制或者相位调制的信息。

13.根据上述权利要求中任何一项所述的一种装置，其中调制评估器(110)用于构造一个对应其通带的带通信号的解析信号(110b)，并计算该解析信号的振幅以得到此带通滤波器的通带中的音频信号振幅调制的信息。

14.一种把音频信号转换成参数化表示的方法，包括：

解析(102)音频信号一段以得到一个解析结果(104)；

在解析结果(104)的基础上评估(106)多元化带通滤波器的信息，其中多元化带通滤波器的信息包括有对应此音频信号段的滤波器整形信息，其中任一个带通滤波器的带宽在声音频谱上并不相同的并依赖于该带通滤波器的中心频率；

使用多元化带通滤波器的信息(108)为此音频信号段评估(110)多元化带通滤波器的每一条通带中的振幅调制或者频率调制或者相位调制；和

传输、储存或者修改(116)振幅调制的信息、频率调制或者相位调制的信息或者所述音频信号段的多元化带通滤波器的信息。

15.一种用于修改参数化表示的装置，对于音频信号的时间部分，该参数化表示含有多元化带通滤波器的带通滤波器信息，所述带通滤波器信息表明了带有多变带宽的带通滤波器的时变带通滤波器中心频率，所述带宽依赖于相应的带通滤波器的带通滤波器中心频率，所述参数化表示还包含有对应于所述音频信号的时间部分的每一个带通滤波器中的振幅调制或者相位调制或者频率调制信息，所述调制信息与带通滤波器的中心频率相关，所述装置包括：

一个修改器(160)用于修改时变中心频率，或者用于修改振幅调制或者相位调制或者频率调制信息，或者用于产生一个修改了的参数化表示信号，其中带通滤波器的带宽依赖于相应带通滤波器的的带通滤波器的中心频率。

16.根据权利要求15所述的一种装置，其中修改器(160)通过将载波频率与一个常数相乘或者只是改变所选择的载波频率以修改所有的载波频率以达到改变一段音乐的音调模式的目的，比如大音调到小音调，反之亦然。

17.根据权利要求15或16所述的一种装置，其中修改器(160)用于修改振幅调制信息或者相位调制信息或者频率调制信息，其采用一个非线性的分解以形成一个粗糙结构和一个精细结构，并只修改其中一个结构。

18.根据权利要求17所述的装置，其中信息修改器(160)在目标多项式函数的基础上计算出一个多项式拟合，并使用目标多项式的系数来以代表振幅调制信息，相位调制信息以及频率调制信息。

19.一种用于修改参数化表示的装置，对于音频信号的时间部分，该参数化表示含有多元化带通滤波器的带通滤波器信息，所述带通滤波器信息表明了带有多变带宽的带通滤波器的时变带通滤波器中心频率，所述带宽依赖于相应的带通滤波器的带通滤波器中心频率，所述参数化表示还包含有对应于所述音频信号的时间部分的每一个带通滤波器中的振幅调制或者相位调制或者频率调制信息，所述调制信息与带通滤波器的中心频率相关，所述装置包括：

修改(160)时变中心频率，或者修改振幅调制、相位调制或者频率调制的信息，或者产生一个修改了的参数化表示，其中带通滤波器的带宽依赖于相应的带通滤波器的的带通滤波器中心频率。

20.一种用于合成音频信号的参数化表示的装置，该音频信号包括音频信号的时间部分，以及多元化带通滤波器的的带通滤波器信息，所述带通滤波器信息表明了带有多变带宽的带通滤波器的时变带通滤波器中心频率，所述带宽依赖于相应的带通滤波器的带通滤波器中心频率，所述参数化表示还包含有对应于所述音频信号的时间部分的每一个带通滤波器中的振幅调制或者相位调制或者频率调制信息，所述装置包括：

一个振幅调制合成器(201)在振幅调制信息的基础上合成振幅调制组件；

一个频率调制或者相位调制合成器，在载波频率信息和各自带宽频率调制信息的基础上合成相位信息的瞬时频率，

其中相邻的载波频率之间频率上的距离在一个频率频谱中是不同。

一个振荡器(203)为每一个带通滤波器的通道产生一个瞬时振幅调制，频率调制或者相位调制的震荡输出信号(204)，和

一个合并器(205)用于合并来之不同带通滤波器通道的信号，并在这些来自不同带通滤波器通道的信号基础上产生一个输出信号(206)。

21.根据权利要求20所述的一种装置，其中振幅调制合成器(201)包括：

一个重迭加法器(201a)，用于对随后的振幅调制信息块进行迭代和加权求和，以获取一个振幅调制组件，或者

其中的频率调制或相位调制合成器(202)包含有重迭加法器，此重迭加法器用于对两个后续的频率调制或者相位调制或者频率调制信息和载波频率信息的复合表示的信息块进行加权求和。

22.根据权利要求21所述的一种装置，其中频率调制或者相位调制合成器(202)包含有一个积分器(202b)，其用于对合成的频率信息进行积分运算，并对于合成的频率信息，添加一个相位项(202d，202c)，此相位项(202d，202c)来源于振荡器(203)的输出信号中的前一个信号块中的频谱的一个组件的相位。

23.根据权利要求22所述的一种装置，振荡器(203)是一个正弦振荡器，其由经加法运算而得到的相位信号(202c)所驱动。

24.根据权利要求23所述的一种装置，其中振荡器(203)包括一个调制器(203b)，其通过使用通带的振幅调制组件对正弦振荡器的输出信号进行调制。

25.根据权利要求20所述的装置，其中振幅调制合成器(201)包括了一个用于加入噪音的噪音加法器(160f)，并通过传播的边信息控制所述噪音加法器(160f)，所述噪音加法器(160f)可以被固定地设置或者受一个局部解析所控制。

26.一种合成音频信号的参数化表示的方法，此音频信号的参数化表示包括了一个信号的时间部分，以及多元化带通滤波器的带通滤波器信息，所述带通滤波器信息表明了带有多变带宽的带通滤波器的时变带通滤波器中心频率，所述带宽依赖于相应的带通滤波器的带通滤波器中心频率，所述参数化表示还包含有对应于所述音频信号的时间部分的每一个带通滤波器中的振幅调制或者相位调制或者频率调制信息，所述方法包括：

在振幅调制信息的基础上合成(201)一个振幅调制组件；

在载波频率和频率调制信息的基础上为各自的带宽合成(202)瞬时频率或者相位信息，

其中相邻的载波频率之间频率上的距离在频谱上是不相同的，

为每一个带通滤波器产生(203)一个包含有瞬时振幅调制、频率调制或者相位调制的震荡输出信号(203)；和

合并(205)来自带通滤波器通道的信号，并在这些来自带通滤波器通道的信号的基础上产生一个音频信号输出(206)

27.一种音频信号的参数化表示，所述的参数化表示与音频信号的时间部分以及多元化带通滤波器的带通滤波器信息相关，带通滤波器信息指明了带有多变带宽的带通滤波器的时变带通滤波器中心频率，其中所述多变带宽依赖于相关的带通滤波器的带通滤波器中心频率，所述带通滤波器信息还包括了对应此音频信号的时间部分的每一个带通滤波器的振幅调制或者相位调制或者频率调制的信息。

28.根据权利要求14、19或者26所述的运行在计算机上并用于执行的计算机程序。