CN101971252B

CN101971252B - 操纵具有瞬变事件的音频信号的方法和设备

Info

Publication number: CN101971252B
Application number: CN2009801081751A
Authority: CN
Inventors: 萨沙·迪施; 弗雷德里克·纳格尔; 尼古拉斯·里特尔博谢; 马库斯·马特拉斯; 纪尧姆·福克斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-03-10
Filing date: 2009-02-17
Publication date: 2012-10-24
Anticipated expiration: 2029-02-17
Also published as: BR122012006269A2; BR122012006270B1; TW201246197A; US20130010983A1; ES2739667T3; EP2293295A3; US9275652B2; JP2012141631A; EP2250643A1; ES2747903T3; CA2717694C; EP2296145A3; CN102789784A; RU2565008C2; EP2293294A2; CN101971252A; RU2012113092A; TWI505264B; TWI380288B; US20110112670A1

Abstract

一种信号操纵器，用于操纵具有瞬变事件的音频信号，可以包括：瞬变去除器(100)、信号处理器(110)以及信号插入器(120)，所述信号插入器(120)用于在信号位置将时间部分插入处理后的音频信号中，使得受操纵音频信号包括不受所述处理影响的瞬变事件，其中所述信号位置是在所述瞬变去除器进行处理之前去除瞬变事件的信号位置，从而瞬变事件的垂直相干性保持不变，而在信号处理器(110)中执行的任何处理都不会破坏瞬变的垂直相干性。

Description

操纵具有瞬变事件的音频信号的方法和设备

技术领域

本发明涉及音频信号处理，具体涉及在向包含瞬变事件的信号应用音频效果的情况下的音频信号操纵。

背景技术

已知操纵音频信号使得改变再现速度，同时保持音高(pitch)不变。针对这样的过程的已知方法是利用相位声码器(vocoder)或方法来实现的，如(音高同步的)叠加(overlap-add)、(P)SOLA，如在J.L.Flanagan和R.M.Golden，The Bell System Technical Journal，November1966，pp.1349 to 1590；美国专利6549884 Laroche，J.& Dolson，M.：Phase-vocoder pitch-shifting；Jean Laroche和Mark Dolson，NewPhase-Vocoder Techniques for Pitch-Shifting，Harmonizing And OtherExotic Effects”，Proc.1999 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics，New Paltz，New York，Oct.17-20，1999；以及

U：DAFX：Digital Audio Effects；Wiley & Sons；Edition：1(February 26，2002)；pp.201-298中所描述的。

此外，可以使用这样的方法(即，相位声码器或(P)SOLA)对音频信号进行转换(transposition)，其中这种转换的具体问题是：转换后的音频信号与转换之前的原始音频信号具有相同的再现/重放长度，而音高发生改变。这是通过加速再现拉伸信号(stretched signal)而得到的，其中执行加速再现的加速因子依赖于在时间上拉伸原始音频信号的拉伸因子。在采用时间离散的信号表示时，该过程对应于：利用等于拉伸因子的因子对拉伸信号的下采样(down-sampling)或对拉伸信号的抽取(decimation)，其中采样频率保持不变。

在这样的音频信号操纵方面的具体挑战是瞬变事件。瞬变事件是：在整个频带中或特定频率范围内信号的能量快速改变(即，快速增大或快速减小)的信号中的事件。具体瞬变(瞬变事件)的特有特征(characteristic feature)是信号能量在频谱中的分布。典型地，在瞬变事件期间音频信号的能量分布在整个频率上，而在非瞬变信号部分中，能量通常集中在音频信号的低频部分或特定频带中。这意味着，还称作稳定或音调(tonal)信号部分的非瞬变信号部分具有非平坦的(non-flat)频谱。换言之，信号的能量包含在很少数目的谱线/谱带中，这些谱线/谱带明显高于音频信号的噪声基底(noise floor)。然而在瞬变部分，音频信号的能量将分布在许多不同频带上，具体地，将分布在高频部分，使得音频信号的瞬变部分的频谱会比较平坦，并且在任何事件下都会比音频信号的音调部分的频谱更为平坦。典型地，瞬变事件是时间上的强烈变化，这意味着当执行傅里叶分解时信号将包括高次谐波(higher harmonic)。这些高次谐波的重要特征是，这些高次谐波的相位有非常特殊的相互关系，使得所有这些正弦波的叠加(superposition)将导致信号能量的快速改变。换言之，在频谱上存在强相关(strong correlation)。

所有谐波之间的具体相位情况还可以称作“垂直相干性(verticalcoherence)”。该“垂直相干性”与信号的时间/频率谱图表示有关，在所述信号的时间/频率谱图表示中，水平方向对应于信号在时间上的演进，垂直尺度在频率上描述了一个短时谱中谱分量的频率(转换频率点(transform frequency bins))的相互依赖。

为了时间拉伸或缩短音频信号而执行的典型处理步骤使得这种垂直相干性被破坏，这意味着当例如由相位声码器或任何其他方法对瞬变执行时间拉伸或缩短操作时，瞬变随时间而“模糊(smear)”，所述相位声码器或任何其他方法执行基于频率的处理，向音频信号引入随不同频率系数而不同的相移。

当音频信号处理方法破坏了瞬变的垂直相干性时，受操纵(manipulated)信号将会在稳定或非瞬变部分非常类似于原始信号，而在受操纵信号中瞬变部分将会质量降低。对瞬变的垂直相干性进行不受控制的操纵导致了瞬变的时间分散(temporal dispersion)，这是因为：许多谐波分量对瞬变事件做贡献，并且以不受控制的方式来改变所有这些分量的相位，不可避免地导致了这样的伪像(artifact)。

然而，瞬变部分对于音频信号的动态而言(如音乐信号或语言信号，其中在特定时刻能量的突然改变表示对受控信号的质量的大量主观用户印象)是尤为重要的。换言之，典型地，音频信号中的瞬变事件是语音信号的非常明显的“重要事件”，其对主观质量印象有超比例(over-proportional)的影响。受操纵的瞬变将使收听者听到失真的、回响的并且不自然的声音，在所述受操作瞬变中，垂直相关性被信号处理操作所破坏或相对于原始信号的瞬变部分而变差。

一些当前方法将瞬变周围的时间拉伸到更高的程度，以便随后在瞬变的持续时间期间不执行或仅执行小(minor)的时间拉伸。这样的现有技术参考和专利描述了时间和/或音高操纵的方法。现有技术参考是：Laroche L.，Dolson M.：Improved phase vocoder timescalemodification of audio”，IEEE trans.Speech and Audio Processing，vol.7，no.3，pp.323-332；Emmanuel Ravelli，Mark Sandler和Juan P.Bello：Fastimplementation for non-linear time-scaling of stereo audio；Proc.of the8^th Int.Conference on Digital Audio Effects(DAFx’05)，Madrid，Spain，September 20-22，2005；Duxbury，C.M.Davies和M.Sandler(2001，December)：Separation of transient information in musical audio usingmultiresolution analysis techniques.In proceedings of the COST G-6Conference on Digital Audio Effects(DAFX-01)，Limerick，Ireland；以及A.：A NEW APPOACH TO TRANSIENT PROCESSING INTHE PHASE VOCODER；Proc.of the 6^th Int.Conference on DigitalAudio Effect(DAFx-03)，London，UK，September 8-11，2003。

在相位声码器对音频信号进行时间拉伸期间，时间分散使瞬变信号部分变得“模糊”，这是因为削弱了所谓的信号垂直相干性。使用所谓的叠加方法的方法，如(P)SOLA，可以产生瞬变声音事件的干扰前回声(pre-echo)和后回声(post-echo)。通过瞬变环境中增大的时间拉伸，可以实际上解决这些问题；然而，如果要出现转换，则在瞬变环境下转换因子将不再是恒定的，即，所叠加的(可能是音调)信号分量的音高将改变并且将作为干扰而被感知。

发明内容

本发明的目的是为音频信号操纵提供一种更高质量的构思。

利用根据权利要求1所述的操纵音频信号的设备、根据权利要求12所述的产生音频信号的设备、根据权利要求13所述的操纵音频信号的方法、根据权利要求14所述的产生音频信号的方法、根据权利要求15所述的具有瞬变部分和辅助信息的音频信号、或者根据权利要求16所述的计算机程序，实现了该目的。

为了解决在对瞬变部分的非受控处理中出现的质量问题，本发明保证根本不会以有害的方式对瞬变部分进行处理，即，在处理之前去除瞬变部分并且在处理之后将其重新插入，或处理过瞬变部分，但是将其从处理过的信号中去除并替换成未处理过的瞬变事件。

优选地，插入处理过的信号中的瞬变部分是原始信号中相应瞬变部分的副本，使得受操纵信号由不包含瞬变事件的处理过的部分以及包含瞬变事件的未处理过的或不同地处理过的部分组成。例如，可以对原始瞬变进行抽取或任何类型的加权或参数化处理。然而，可选地，可以将瞬变部分替换成合成地产生的瞬变部分，以这样的方式来合成所述合成地产生的瞬变部分，使得合成的瞬变部分在某些瞬变参数(如，在特定时刻的能量变化量，或描述瞬变事件特征的任何其它量度)方面类似于原始瞬变部分。因此，甚至可以对原始音频信号中的瞬变部分特征化，可以在处理之前去除该瞬变，或将处理过的瞬变替换成合成瞬变，所述合成瞬变是根据瞬变参数信息而合成地产生的。然而，出于效率原因，优选的是在操纵之前复制原始音频信号的一部分，以及将该副本插入处理过的音频信号中，这是因为该过程保证了处理过的信号中的瞬变部分与原始信号的瞬变相同。该过程将确保与处理之前的原始信号相比，在处理过的信号中保持了瞬变对声音信号感知的特殊的高影响。因此，用于操纵音频信号的任何类型的音频信号处理都不会降低关于瞬变的主观或客观质量。

在优选实施例中，本申请提供了一种新方法，在这样的处理的架构内，对瞬变声音事件进行感知性良好的处理，否则将由于信号的分散而产生时间上的“模糊”。该优选方法主要包括：在信号操纵之前去除瞬变声音事件，以执行时间拉伸；随后考虑到该拉伸，以精确的方式将未处理的瞬变信号部分添加到修改后的(拉伸后的)信号中。

附图说明

随后参考附图说明了本发明的优选实施例，附图中：

图1示出了本发明的用于操纵具有瞬变的音频信号的设备或方法的优选实施例；

图2示出了图1的瞬变信号去除器的优选实现；

图3a示出了图1的信号处理器的优选实现；

图3b示出了实现图1的信号处理器的另外优选实施例；

图4示出了图1的信号插入器的优选实现；

图5a示出了在图1的信号处理器中使用的声码器的实现的概图；

图5b示出了图1的信号处理器的一部分(分析)的实现；

图5c示出了图1的信号处理器的其他部分(拉伸)；

图5d示出了图1的信号处理器的其他部分(合成)；

图6示出了在图1的信号处理器中使用的相位声码器的变换实现；

图7a示出了带宽扩展处理方案的编码器侧；

图7b示出了带宽扩展方案的解码器侧；

图8a示出了具有瞬变事件的音频输入信号的能量表示；

图8b示出了具有加窗瞬变(windowed transient)的图8a的信号；

图8c示出了拉伸之前没有瞬变部分的信号；

图8d示出了拉伸之后图8c的信号；以及

图8e示出了在插入了原始信号的相应部分之后的受操纵信号。

图9示出了用于针对音频信号产生辅助信息的设备。

具体实施方式

图1示出了操纵具有瞬变事件的音频信号的优选设备。优选地，该设备包括瞬变信号去除器100，瞬变信号去除器100具有用于具有瞬变事件的音频信号的输入101。瞬变信号去除器的输出102与信号处理器110连接。信号处理器输出111与信号插入器120连接。信号插入器输出121可以与诸如信号调节器(conditioner)130之类的其他设备连接，其中在所述信号插入器输出121上具有未处理的“自然的”或合成的瞬变的被操纵音频信号是可用的，所述信号调节器130可以执行受操纵信号的任何其他处理，如为了带宽扩展的目的而需要的下采样/抽取，如结合图7a和7b所讨论的。

然而，如果按原样使用在信号插入器120的输出处得到的受操纵音频信号，即，被存储以进行进一步处理、被传输至接收机、或被传输至数字/模拟转换器，其中所述数字/模拟转换器最后与扩音器设备连接以最终产生表示受操纵音频信号的声音信号，则根本不能使用信号调节器130。

在带宽扩展的情况下，线121上的信号可以已经是高频段信号。那么，信号处理器已经根据输入的低频段信号产生了高频段信号，而且从音频信号101提取的低频段瞬变部分将会被置于高频段的频率范围中，优选地，这是通过不干扰垂直相干性的信号处理来实现的，如抽取。在信号插入器之前执行这种抽取，以便将所抽取的瞬变部分插入块110的输出处的高频段信号中。在该实施例中，信号调节器将执行高频段信号的任何其他处理，如包络整形、噪声添加、反向滤波、或添加谐波等等，如在MPEG4频带复制(spectral band replication)中进行的。

优选地，信号插入器120经由线123接收来自去除器100的辅助信息，以便根据将要插入111中的未处理信号来选择正确的部分。

在实现具有设备100、110、120、130的实施例时，可以得到如结合图8a至图8e所讨论的信号序列。然而，不一定要在信号处理器110中执行信号处理操作之前去除瞬变部分。在该实施例中，不需要瞬变信号去除器100，信号插入器120确定要从输出111上的处理信号中切除的信号部分，以及将该切除信号替换成如线121示意性所示的原始信号或如线141示意性所示的合成信号，其中该合成信号是可以从瞬变信号发生器140中产生的。为了能够产生合适的瞬变，将信号插入器120配置为向瞬变信号发生器传送瞬变描述参数。从而，如项目141所示的块140与120之间的连接被示为双向连接。如果在用于操纵的设备中提供特定的瞬变检测器，那么可以从该瞬变检测器(图1中未示出)向瞬变信号发生器140提供与瞬变有关的信息。可以将瞬变信号发生器实现为具有可以直接使用的瞬变采样或具有可以使用瞬变参数来加权的预先存储的瞬变采样，以实际产生/合成将由信号插入器120所使用的瞬变。

在一个实施例中，瞬变信号去除器100用于从音频信号中去除第一时间部分，以得到瞬变减小的音频信号，其中所述第一时间部分包括瞬变事件。

此外，优选地信号处理器用于处理瞬变减小的音频信号，其中包括瞬变事件的第一时间部分被去除，或用于处理包括瞬变事件的音频信号，以得到线111上的处理后的音频信号。

优选地，信号插入器120用于：在第一时间部分被去除的信号位置，或在瞬变事件位于音频信号中的信号位置，将第二时间部分插入处理后的音频信号中，其中第二时间部分包括不受由信号处理器110执行的处理所影响的瞬变事件，从而得到输出121处的已操纵音频信号。

图2示出了瞬变信号去除器100的优选实施例。在音频信号不包含与瞬变有关的任何辅助信息/元信息(meta information)的一个实施例中，瞬变信号去除器100包括瞬变检测器103、淡出(fade-out)/淡入(fade-in)计算器104以及第一部分去除器105。在利用如随后将参考图9来讨论的编码设备采集音频信号中附到音频信号的与瞬变有关的信息的可选实施例中，瞬变信号去除器100包括辅助信息提取器106，所述辅助信息提取器106提取如线107所示附到音频信号的辅助信息。如线107所示，可以将与瞬变时间有关的信息提供给淡出/淡入计算器104。然而当音频信号包括如元信息时，不仅瞬变时间，(即出现瞬变事件的精确时间)，而且要从音频信号排除的部分的开始/停止时间，(即音频信号“第一部分”的开始时间和停止时间)，都是不需要的，而且也不需要淡出/淡入计算器104，可以如线108所示将开始/停止时间信息直接转发给第一部分去除器105。线108示出了选项，而且虚线所示的所有其他线也是可选的。

在图2中，优选地淡出/淡入计算器104输出辅助信息109。该辅助信息109与第一部分的开始/停止时间不同，这是因为考虑了图1的处理器110中的处理特性。此外，优选地将输入音频信号馈送至去除器105。

优选地，淡出/淡入计算器104提供第一部分的开始/停止时间。这些时间根据瞬变时间计算而得，这样第一部分去除器105不仅去除瞬变事件，还去除瞬变事件周围的一些采样。此外，优选的是，不仅利用时域矩形窗切除瞬变部分，还利用淡出部分和淡入部分执行提取。为了执行淡出或/淡入部分，可以应用相对于矩形滤波器而言具有平滑过渡(smoother transition)的任何种类的窗，如上升余弦窗，使得这种提取的频率响应不如应用矩形窗时那样成问题，尽管这也是选项。这种时域加窗操作输出加窗操作的残余(remainder)，即，不具有加窗部分(windowed portion)的音频信号。

在这种情况下可以使用任何瞬变抑制方法，包括在去除瞬变之后留下瞬变减小的或优选地完全非瞬变的残留信号(residual signal)的瞬变抑制方法。与完全去除瞬变部分相比，其中在特定时间部分上将音频信号设置为0，瞬变抑制在以下情况下是有利的：由于这种被设为0的部分对于音频信号而言非常不自然，使得对音频信号的进一步处理会受到被设为0的部分的影响。

自然地，如结合图9所讨论的，可以在编码器侧应用由瞬变检测器103和淡出/淡入计算器104执行的所有计算，只要将这些计算的结果，如瞬变时间和/或第一部分的开始/停止时间，传输至信号操纵器，作为与音频信号一起或与音频信号分开的辅助信息或元信息，例如在要经由单独传输通道来传输的单独音频元数据信号内。

图3a示出了图1的信号处理器110的优选实现。该实现包括频率选择分析器112以及后续连接的频率选择处理设备113。实现频率选择处理设备113，使得所述频率选择处理设备113对原始音频信号的垂直相干性起到负面影响(negative influence)。该处理的示例是，在时间上拉伸信号，或在时间上缩短信号，其中以频率选择的方式来应用这种拉伸或缩短，使得例如该处理向处理后的音频信号引入了随不同频带而不同的相移。

在相位声码器处理的情况下，在图3B中示出了一种优选的处理方式。通常，相位声码器包括：子带/变换分析器114；随后连接的处理器115，用于对项目114所提供的多个输出信号执行频率选择性处理；以及随后的子带/变换组合器116，所述子带/变换组合器116将由项目115处理的信号相组合以最终在输出117处得到时域中的处理后的信号，由于子带/变换组合器116执行对频率选择性信号的组合，使得只要处理后的信号117的带宽大于由项目115与116之间的单个分支所表示的带宽，那么时域中的该处理后的信号就同样是全带宽信号或低通滤波后的信号。

随后结合图5A、5B、5C和6来讨论相位声码器的其他细节。

随后，在图4中讨论并描述了图1的信号插入器120的优选实现。优选地，信号插入器包括用于计算第二时间部分的长度的计算器122。在图1的信号处理器110进行信号处理之前已经去除了瞬变部分的实施例中，为了能够计算第二时间部分的长度，需要所去除的第一部分的长度以及时间拉伸因子(或时间缩短因子)，以便在项目122中计算第二时间部分的长度。如结合图1和2所讨论的，可以从外部来输入这些数据项目。例如，通过将第一部分的长度乘以拉伸因子来计算第二时间部分的长度。

将第二时间部分的长度转发给计算器123，以计算音频信号中的第二时间部分的第一边界和第二边界。具体地，可以将计算器133实现为：在不具有在输出124处供应的瞬变事件的处理后的音频信号与具有瞬变事件的音频信号之间执行互相关处理，所述具有瞬变事件的音频信号提供如在输入125处供应的第二部分。优选地，计算器123受另外的控制输入126的控制，使得与稍后将讨论的瞬变事件的负移位相比，第二时间部分内瞬变事件的正移位是优选的。

将第二时间部分的第一边界和第二边界提供给提取器127。优选地，提取器127切除该部分，即，从输入125处提供的原始音频信号中切除第二时间部分。因为使用随后的交叉衰减器(cross-fader)128，所以使用矩形滤波器进行切除。在交叉衰减器128中，通过对开始部分将权重从0增大到1，和/或在结束部分中将权重从1减小到0，对第二时间部分的开始部分以及第二时间部分的停止部分进行加权，使得在该交叉衰减区域内，处理后的信号的结束部分与所提取的信号的开始部分在相加时产生有用的信号。在提取之后，针对第二时间部分的结束以及处理后的音频信号的开始，在交叉衰减器128中执行类似的处理。交叉衰减保证了不出现时域伪像，否则当不具有瞬变部分的已处理音频信号的边界未与第二时间部分边界完美地匹配在一起时，所述时域伪像将作为滴答声伪像(clicking artifact)被感知。

随后，参考图5a、5b、5c和6来说明在相位声码器的情况下信号处理器110的优选实现。

在下文中，参考图5和6说明了根据本发明的声码器的优选实现。图5a示出了相位声码器的滤波器组实现，其中在输入500处馈入音频信号，在输出510处得到音频信号。具体地，图5a所示的示意性滤波器组中的每个通道包括带通滤波器501和下游(downstream)振荡器502。利用组合器将来自每个通道的所有振荡器的输出信号相组合，例如，将所述组合器实现为加法器并且由503表示，以得到输出信号。实现每个滤波器501，使得滤波器501一方面提供幅度信号，另一方面提供频率信号。幅度信号和频率信号是时间信号，说明了滤波器501中的幅度随时间的演进，频率信号表示由滤波器501滤波的信号的频率的演进。

在图5b中示出了滤波器501的示意性设置。可以如图5b所示来设置图5a的每个滤波器，然而其中仅供应至两个输入混频器(mixer)551和加法器552的频率f_i随通道的不同而不同。由低通553对混频器输出信号进行低通滤波，其中，这些低通信号与在本地振荡器频率(LO频率)所产生的情况下不同，它们是90°异相(out of phase)的。上面的低通滤波器553提供正交信号554，而下面的滤波器553提供同相信号555。将这两个信号(即，I和Q)供应至坐标变换器556，所述坐标变换器556根据矩形表示产生量值(magnitude)相位表示。在输出557处随时间分别输出图5a的量值信号或幅度信号。将相位信号供应至相位展开器(unwrapper)558。在元件558的输出处，不再存在总是位于0至360°之间的相位值，而是出现线性增大的相位值。将这种“展开的”相位值供应至相位/频率转换器559，例如可以将所述相位/频率转换器559实现为简单的相位差形成器，所述相位差形成器从当前时间点的相位减去先前时间点的相位以得到当前时间点的频率值。将该频率值加上滤波器通道i的恒定频率值f_i，以在输出560处得到时变频率值。输出560处的频率值具有直流分量＝f_i和交流分量＝滤波器通道中信号的当前频率偏离平均频率f_i的频率偏差(frequency deviation)。

因此，如图5a和5b所示，相位声码器实现了谱信息与时间信息的分离。分别地，谱信息在特定通道中或在为每个通道提供频率的直流部分的频率f_i中，而时间信息分别包含在随时间变化的频率偏差或量值中。

图5c示出了根据本发明的、针对带宽增大而执行的操纵，具体是在声码器中，以及在图5a中以虚线绘制的所示电路位置处执行的操纵。

例如，对于时间缩放，可以对每个通道中的幅度信号A(t)或每个信号中的信号频率f(t)进行抽取或插值。出于转换的目的，由于其对本发明是有用的，因而执行插值，即信号A(t)和f(t)的时间扩展或延展(temporal extension or spreading)，以得到延展信号A’(t)和f’(t)，其中在带宽扩展情况下该插值受延展因子的控制。通过相位变量(variation)的插值，即，加法器552加上恒定频率之前的值，图5a中每个独立振荡器502的频率不变。然而，总体音频信号的时间变化减慢，即，以因子2减慢。得到的结果是具有原始音高(即原始基波(fundamental wave)以及其谐波)的时间延展音调。

通过执行如图5c所示的信号处理，其中在图5a的每个滤波器频段通道中执行这样的处理，以及通过然后在抽取器中对得到的时间信号进行抽取，音频信号缩回(shrink back)其原始持续时间，而所有频率同时加倍。这使得由因子2进行音高转换，然而其中得到了与原始音频信号具有相同长度(即，相同数目的采样)的音频信号。

作为对图5a所示的滤波器组实现的备选，还可以如图6所示来使用相位声码器的变换实现。这里，将音频信号100馈送至FFT处理器，或更普遍地馈送至短时傅里叶变换(Short-Time-Fourier-Transform)处理器600，作为时间采样的序列。图6中示意性地实现了FFT处理器600，以对音频信号执行时间加窗(time window)，从而随后通过FFT计算谱的量值和相位，其中针对与强交叠的音频信号块有关的连续谱来执行该计算。

在极端情况下，可以对于每个新的音频信号采样来计算新的谱，其中还可以例如仅针对每20个新的采样来计算新的谱。优选地，这种两个谱之间的采样的距离a是由控制器602给出的。控制器602还用于供给IFFT处理器604，所述IFFT处理器604用于执行交叠操作。具体地，将IFFFT处理器604实现为：通过根据修改后的谱的量值和相位为每个谱执行一个IFFT来执行逆短时傅里叶变换，以便然后执行叠加操作，其中根据所述叠加操作得到结果时间信号。叠加操作消除了分析加窗的影响。

在利用IFFT处理器604来处理两个谱时，利用这两个谱之间的距离b来实现时间信号的延展，所述距离b大于在产生FFT谱时谱之间的距离a。基本思想是，利用比分析FFT相隔更远的逆FFT来延展音频信号。因此，与原始音频信号相比，合成音频信号的时间变化出现得更为缓慢。

然而，在块606中没有相位重缩放的情况下，这将导致伪像。例如，在考虑单个频率点时，其中针对该频率点以45°间隔实现连续相位值，这意味着该滤波器组内的信号在相位上以1/8周期的速率增大，即，每个时间间隔增大45°，这里所述时间间隔是连续FFT之间的时间间隔。如果现在使逆FFT彼此相隔更远，则这意味着跨越更长的时间间隔出现45°相位增大。这意味着，由于相移，后续叠加过程中出现失配，导致了不期望的信号抵消(cancellation)。为了消除这种伪像，以实际上相同的因子来重缩放相位，其中利用该因子对音频信号进行时间延展。从而每个FFT谱值的相位以因子b/a而增大，使得消除这种失配。

在图5c所示实施例中，针对图5a的滤波器组实现中的一个信号振荡器，通过幅度/频率控制信号的插值来实现延展，而利用两个IFFT之间的距离大于两个FFT谱之间的距离来实现图6中的扩展，即，b大于a，然而，其中为了防止伪像，根据b/a来执行相位重缩放。

关于相位声码器的详细描述，参考以下文献：

“The phase Vocoder：A tutorial”，Mark Dolson，Computer MusicJournal，vol.10，no.4，pp.14-27，1986，或“New phase Vocodertechniques for pitch-shifting，harmonizing and other exotic effects”，L.Laroche und M.Dolson，Proceedings 1999 IEEE Workshop onapplications of signal processing to audio and acoustics，New Paltz，NewYork，October 17-20，1999，pages 91 to 94；“New approached to transientprocessing interphase vocoder”，A.Proceeding of the 6thinternational conference on digital audio effects(DAFx-03)，London，UK，September 8-11，2003，pages DAFx-1 to DAFx-6；“Phase-lockedVocoder”，Meller Puckette，Proceedings 1995，IEEE ASSP，Conference onapplications of signal processing to audio and acoustics，或美国专利申请号6,549,884.

可选地，其他信号延展方法是可用的，例如，“音高同步叠加”方法。音高同步叠加(简称PSOLA)是一种合成方法，在该方法中语言信号的记录位于数据库中。只要这些信号是周期信号，就为其提供与基频(音高)有关的信息并且标记每个周期的开始。在合成中，利用窗函数以特定的环境来切除这些周期，并将它们添加到要合成的信号中合适的位置：根据所期望的基频是高于还是低于数据库条目的基频，相应地比原始更密集或更稀疏地组合它们。为了调整可听的持续时间，该周期可以被省略或双倍输出。该方法还称作TD-PSOLA，其中TD代表时域，并强调方法在时域中操作。另外的发展是多频段再合成叠加(multiband resynthesis overlap add)方法，简称MBROLA。这里通过预处理使数据库中的片段达到统一的基频，并将谐波的相位位置归一化(normalize)。这样，在从一个片段到另一片段的瞬变的合成中，产生更少的感知性干扰，并且所实现的语言质量更高。

在另外的备选方案中，在延展之前已经对音频信号进行带通滤波，使得延展和抽取后的信号已经包含期望的部分，并且可以省略随后的带通滤波。这样，设置带通滤波器，使得带通滤波器的输出信号中仍然包含可能在带宽扩展之后已经滤除的音频信号部分。从而带通滤波器包含了在延展和抽取之后的音频信号中并未包含的频率范围。具有该频率范围的信号是形成合成高频信号的所需信号。

如图1所示的信号操纵器还可以额外包括信号调节器130，用于对线121上具有未处理的“自然的”或合成的瞬变的音频信号进行进一步处理。该信号调节器可以是带宽扩展应用中的信号抽取器，所述信号抽取器在其输出处产生高频段信号，然后通过使用要与HFR(高频重建)数据流一起传输的高频(HF)参数来进一步调节(adapt)所述高频段信号，以使其非常类似原始高频段信号的特性。

图7a和7b示出了带宽扩展方案，有利地，该方案可以使用图7b的带宽扩展编码器720内的信号调节器的输出信号。将音频信号馈送至输入700处的低通/高通组合中。低通/高通组合一方面包括低通(LP)，产生音频信号700的低通滤波版本，如图7a中的703所示。采用音频编码器704对该低通滤波后的音频信号进行编码。例如，音频编码器是MP3编码器(MPEG1层3)或AAC编码器，还称作MP4编码器，如在MPEG4标准中描述的。在编码器704中可以使用提供频段受限音频信号703的透明(transparent)表示或有利地为感知性透明表示的备选音频编码器，以分别产生完全编码的或感知性编码的、(优选为感知性透明编码的音频信号705。

滤波器702的高通部分(表示为“HP”)在输出706处输出音频信号的上频段(upper band)。将音频信号的高通部分，即，也表示为HF部分的上频段或HF频段，供应至用于计算不同参数的参数计算器707。例如，这些参数是在相对粗糙分辨率下上频段706的谱包络，例如，分别针对每个心理声学(psychoacoustic)频率组或针对Bark尺度(scale)上每个Bark频段的尺度因子的表示。参数计算器707可以计算的另外的参数是上频段中的噪声基底，其每频段能量可以优选地与该频段中包络的能量有关。参数计算器707可以计算的其他参数包括针对上频段的每个局部(partial)频段的音调测量(tonality measure)，其指示谱能量如何在频段中分布，即，谱能量是否相对均匀地分布在频段中(其中，那么该频段中存在非音调信号)，或该频段中的能量是否相对强烈地集中在频段中的特定位置(其中，那么相反，该频段存在音调信号)。

其他参数包括：对上频段中在其高度和其频率方面相对强烈地突出的峰值的显式(explicitly)编码，在未对上频段中显著的正弦部分进行这种显式编码的重建中，带宽扩展构思只会非常基本地或根本不恢复相同的信号。

在任何情况下，参数计算器707用于仅产生针对上频段的参数708，其中，可以对所述参数708执行类似的熵减小步骤，因为还可以在音频编码器704中针对量化的频谱值来执行这些步骤，例如差分编码、预测或霍夫曼编码等。然后将参数表示708和音频信号705供应至用于提供输出辅助数据流710的数据流格式器709，典型地，所述输出辅助数据流710是具有特定格式的比特流，如在MPEG4标准中标准化的格式。

因为尤其适于本发明，所以以下参考图7b对解码器侧进行说明。数据流710进入数据流解释器(interpreter)711，所述数据流解释器711用于将与带宽扩展有关的参数部分708与音频信号部分705分开。利用参数解码器712对参数部分708进行解码，以得到解码后的参数713。与此并行地，利用音频解码器714对音频信号部分705进行解码，以得到音频信号。

根据该实现，可以经由第一输出715输出音频信号100。在输出715处，然后可以得到具有小带宽从而具有低质量的音频信号。然而，为了提高质量，执行本发明的带宽扩展720，以分别在输出侧得到具有扩展或高带宽从而具有高质量的音频信号712。

根据WO 98/57436已知，在编码器侧对音频信号执行频段限制，并利用高质量的音频编码器仅对音频信号的低频段进行编码。然而，仅非常粗糙地(即，利用再现上频段的谱包络的一组参数)描述上频段的特征。然后，在解码器侧合成上频段。为此，提出谐波转换，其中，将解码后的音频信号的下频段供应至滤波器组。下频段的滤波器组通道与上频段的滤波器组通道连接，或“拼凑(patch)”下频段的滤波器组通道，对每个拼凑的带通信号进行包络调节。这里属于特定分析滤波器组的合成滤波器组接收下频段中的音频信号的带通信号，并接收下频段的包络调节后的带通信号，该信号在上频段中谐波地(harmonically)被拼凑。合成滤波器组的输出信号是在其带宽方面被扩展的音频信号，以很低的数据速率从编码器侧向解码器侧传输该音频信号。具体地，滤波器组领域中的滤波器组计算以及拼凑可能变得需要很大的计算量。

这里所提出的方法解决了所提出的问题。与现有方法相比，本方法的新颖之处在于，从要操纵的信号中去除包含瞬变的加窗部分，以及还从原始信号中额外选择出第二加窗部分(通常与第一部分不同)，其中还可以将所述第二加窗部分重新插入受操纵信号中，以便在瞬变的环境下尽可能多地保留时间包络。选择所述第二部分，使得该第二部分会精确适合被时间拉伸操作所改变的凹处(recess)。通过计算所得到的凹处的边沿与原始瞬变部分的边沿的最大互相关，来执行所述精确适合。

因此，瞬变的主观音频质量不再被分散(dispersion)或回声效应削弱。

为了选择合适部分，例如，可以通过在合适的时间段上进行能量的移动质心(moving centroid)计算，来精确地确定瞬变的位置。

第一部分的大小与时间拉伸因子一起确定了第二部分的所需大小。优选地，将选择该大小，使得第二部分容纳多于一个的瞬变，只有在彼此紧邻的瞬变之间的时间间隔低于人类感知独立时间事件的阈值的情况下，所述第二部分才会用于重新插入。

根据最大互相关对瞬变的最优适合可能需要相对于该瞬变原始位置的微小时间偏移。然而，由于存在时间前掩蔽(pre-masking)效应以及特别是后掩蔽(post-masking)效应，重新插入的瞬变的位置不需要与原始位置精确匹配。由于后掩蔽动作的扩展周期，所以瞬变在正时间方向上的移位是优选的。

通过插入原始信号部分，在随后的抽取步骤改变采样速率的情况下，其音色(timbre)或音高将发生改变。然而这通常被瞬变自身通过心理声学时间掩蔽机制所掩蔽。具体地，如果出现以整数因子进行的拉伸，则音色只会发生微小改变，因为在瞬变环境外部只会占用每第n个(n＝拉伸因子)谐波。

使用新的方法，有效防止了在通过时间拉伸和转换方法处理瞬变的过程中产生的伪像(分散、前回声和后回声)。避免了对叠加的(可能是音调)信号部分的质量的潜在削弱。

本方法适于其中音频信号的再现速度或它们的音高将发生改变的任何音频应用。

随后，将根据图8a至8e来讨论优选实施例。图8a示出了音频信号的表示，然而与直向前(straight forward)时域音频采样序列不同，图8a示出了能量包络表示，所述能量包络表示例如是通过对时域采样图例中的每个音频采样求平方而得到的。具体地，图8a示出了具有瞬变事件801的音频信号800，其中瞬变事件的特征在于能量随时间的急剧增大或减小。自然地，瞬变还可以是：当能量保持在特定高度时，该能量的急剧升高；或当能量在下降之前已经在特定高度保持了特定时间时，该能量的急剧降低。例如，瞬变的具体形式是，掌声或由打击工具产生的任何其他音调。此外，瞬变是工具的快速击打，其开始大声播放音调，即，在特定阈值级别以上特定阈值时间以下将声音能量提供到特定频带中或多个频带中。自然地，其他能量波动，如图8a中的音频信号800的能量波动802未被检测为瞬变。瞬变检测器是现有技术中已知的，并且在文献中被广泛描述，其依赖于许多不同的算法，所述算法可以包括：频率选择性处理，以及将频率选择性处理的结果与阈值相比较，以及随后确定是否存在瞬变。

图8b示出了加窗瞬变。从利用所示窗形状加权的信号中减去实线限定的区域。在处理之后，再次添加由虚线标记的区域。具体地，必须从音频信号800中切除在特定瞬变时间803出现的瞬变。稳妥起见，不仅要从原始信号中切除瞬变，还要切除一些相邻/邻近采样。从而，确定第一时间部分804，其中第一时间部分从开始时刻805延伸至停止时刻806。通常，选择第一时间部分804，使得瞬变时间803包含在第一时间部分804内。图8c示出了拉伸之前没有瞬变的信号。从缓慢衰落(slowly-decaying)的边沿807和808可以看出，不仅通过矩形滤波器/加窗器(windower)来切除第一时间部分，还执行加窗以使音频信号具有缓慢衰落的边沿或侧边(flank)。

重要的是，图8c示出了图1的线102上的音频信号，即，在瞬变信号去除之后的音频信号。缓慢衰落/升高的侧边807、808提供了由图4的交叉衰减器128使用的淡入或淡出区域。图8d示出了图8c的信号，然而是以拉伸后的状态示出的，即，在信号处理器110进行处理之后。因此，图8d中的信号是图1的线111上的信号。由于拉伸操作使得第一部分804变得更长。因此，图8d的第一部分804被拉伸到了第二时间部分809，所述第二时间部分809具有第二时间部分起始时刻810和第二时间部分停止时刻811。通过拉伸信号，还拉伸了侧边807、808，从而拉伸了侧边807’、808’的时间长度。如图4的计算器122所执行的，当对第二时间部分的长度进行计算时，说明了该拉伸。

如图8b中的虚线所示，一旦确定了第二时间部分的长度，就从图8a所示的原始音频信号中切除与第二时间部分的长度相对应的部分。这样，第二时间部分809进入了图8e。如所述的，第二时间部分的起始时刻812(即，原始音频信号中第二时间部分809的第一边界)与第二时间部分的停止时刻813(即，原始音频信号中第二时间部分的第二边界)不必须相对于瞬变事件时间803、803’而对称以使瞬变801精确位于与其在原始引号中相同的时刻上。相反，图8b的时刻812、813可以有微小变化，使得原始信号中这些边界上的信号形状之间的互相关结果尽可能地与拉伸后的信号中相应的部分相类似。从而，可以将瞬变803的实际位置移出第二时间部分的中央，直到如图8e中由参考数字803’所指示的特定程度为止，参考数字803’指示相对于第二时间部分的特定时间，其偏离了相对于图8b中的第二时间部分的对应时间803。如结合图4所述，瞬变相对于时间803向时间803’的正位移是优选的，这归因于比前掩蔽效应更为显著(pronounced)的后掩蔽效应。图8e还示出了交迭(crossover)/过渡区域813a、813b，在所述交迭/过渡区域813a、813b中，交叉衰减器128提供不具有瞬变的拉伸信号与包括瞬变的原始信号副本之间的交叉衰减器。

如图4所示，用于计算第二时间部分122的长度的计算器被配置为接收第一时间部分的长度以及拉伸因子。可选地，计算器122还可以接收与邻近瞬变包含在同一个第一时间部分中的容许性(allowability)有关的信息。因此，根据该容许性，计算器可以独立地确定第一时间部分804的长度，然后根据拉伸/缩短因子来计算第二时间部分809的长度。

如以上所述，信号插入器的功能在于，该信号插入器从原始信号中去除针对图8e的间隙(gap)的合适区域(其在拉伸后的信号内被扩大)，并使用互相关计算使该合适区域(即，第二时间部分)适合处理过的信号以确定时刻812和813，以及优选地还在交叉衰减区域813a和813b中执行交叉衰减操作。

图9示出了用于产生音频信号的辅助信息的设备，当在编码器侧执行瞬变检测，并且计算出关于该瞬变检测的辅助信息并将其传输至然后将表示解码器侧的信号操纵器时，该设备可以用在本发明的情况下。这样，应用与图2中的瞬变检测器103相类似的瞬变检测器来分析包含瞬变事件的音频信号。瞬变检测器计算瞬变时间，即，图1中的时间803，并且将该瞬变时间转发至元数据计算器104’，可以将所述元数据计算器104’构造为类似于图2中的淡出/淡入计算器104’。通常，元数据计算器104’可以计算要转发至信号输出接口900的元数据，其中该元数据可以包括：针对瞬变去除的边界，即，针对第一时间部分的边界，即，图8b中的边界805和806，或如图8b中812、813所示的针对瞬变插入(第二时间部分)的边界，或瞬变事件时刻803或甚至803’。即使在后一种情况下，信号操纵器将能够根据瞬变事件时刻803来确定所有所需数据，即，第一时间部分数据、第二时间部分数据等。

将如项目104’所产生的元数据转发至信号输出接口，使得信号输出接口产生信号，即，用于传输或存储的输出信号。输出信号可以仅包括元数据或可以包括元数据和音频信号，其中，在后一种情况下，元数据将表示音频信号的辅助信息。这样，可以经由线901将音频信号转发至信号输出接口900。可以将信号输出接口900所产生的输出信号存储在任何类型的存储介质上，或经由任何种类的传输通道传输至信号操纵器或需要瞬变信息的任何其他设备。

将注意的是，尽管以方框图的形式描述了本发明，其中方框表示实际的或逻辑的硬件组件，然而还可以通过计算机实现的方法来实现本发明。在后一种情况下，方框表示相应的方法步骤，其中这些步骤代表由相应的逻辑或物理硬件模块所执行的功能。

所述实施例仅仅是为了说明本发明的原理。应理解，对这里所述的布置和细节的修改和改变对于本领域技术人员而言显而易见的。因此，意图在于，仅受限于所附权利要求的范围，而不受限于这里以对实施例的描述和解释的方式而表现的特定细节。

取决于本发明方法的特定实现要求，可以采用硬件或软件的形式来实现本发明的方法。可以使用数字存储介质来执行所述实现，所述数字存储介质具体可以是磁盘、存储有电可读控制信号的DVD或CD，它们与可编程计算机系统协作以执行本发明的方法。通常，因而可以将本发明实现为计算机程序产品，具有存储在机器可读载体上的程序代码，用于当计算机程序产品在计算机上运行时执行本发明的方法。换言之，本发明的方法从而是具有程序代码的计算机程序，所述程序代码用于当所述计算机程序在计算机上运行时执行本发明的方法中至少一个方法。本发明的元数据信号可以存储在任何机器可读的存储介质上，如数字存储介质。

Claims

1.一种用于操纵具有瞬变事件(801)的音频信号的设备，包括：

信号处理器(110)，用于处理瞬变减小的音频信号，或用于处理包括瞬变事件(803)的音频信号，以得到处理后的音频信号，在所述瞬变减小的音频信号中，包括瞬变事件(801)的第一时间部分(804)被去除了；

信号插入器(120)，用于在信号位置处将第二时间部分(809)插入处理后的音频信号中，所述信号位置是第一部分被去除的信号位置或瞬变事件在处理后的音频信号中所处的信号位置，其中第二时间部分(809)包括不受信号处理器(110)执行的处理的影响的瞬变事件(801)，以得到受操纵的音频信号，

其中，所述信号处理器(110)被配置为通过拉伸或缩短而在音频信号中产生感知性降低的瞬变部分，使得音频信号具有比原始音频信号更长或更短的持续时间，以及

所述第二时间部分(809)具有与第一时间部分(804)不同的持续时间，其中，在拉伸的情况下第二时间部分(809)比第一时间部分(804)长，或在缩短的情况下第二时间部分(809)比第一时间部分(804)短。

2.根据权利要求1所述的设备，还包括：瞬变信号去除器(100)，用于从音频信号中去除第一时间部分(804)，以得到瞬变减小的音频信号，所述第一时间部分(804)包括瞬变事件(801)。

3.根据权利要求1所述的设备，其中，所述信号处理器(110)被配置为以基于频率的方式(112，113)来处理瞬变减小的音频信号，使得该处理向瞬变减小的音频信号中引入随不同的谱分量而有所不同的相移。

4.根据权利要求1所述的设备，其中，所述信号插入器(120)被配置为通过复制至少第一时间部分(804)来产生第二时间部分，使得第二时间部分至少包括来自具有瞬变事件的音频信号的第一时间部分的副本。

5.根据权利要求1所述的设备，其中，所述信号处理器(110)执行对瞬变减小的音频信号的拉伸，以及

所述信号插入器(120)被配置为：复制包括瞬变事件的音频信号的部分(809)以及瞬变事件之前或之后的信号部分，使得所述瞬变事件之前或之后的信号部分与所述第一部分一共具有第二部分(809)的持续时间；以及在处理后的音频信号中插入未修改的副本，或插入其中仅起始部分(813)或结尾部分(813b)被修改过的、包括瞬变的信号的副本。

6.根据权利要求5所述的设备，其中，所述信号插入器(120)被配置为确定第二部分(809)，使得所述第二部分在第二时间部分的起始或结尾处与处理后的音频信号具有交叠，以及所述信号插入器(120)被配置为在处理后的音频信号与第二时间部分之间的边界处执行交叉衰减(128)。

7.根据权利要求1所述的设备，其中，所述信号处理器包括声码器、相位声码器、或音高同步叠加PSOLA处理器。

8.根据权利要求1所述的设备，还包括信号调节器(130)，用于通过对受操纵音频信号的时间离散版本进行抽取或插值来调节所述受操纵音频信号。

9.根据权利要求1所述的设备，其中，所述信号插入器(120)被配置为：

确定(122)要从具有瞬变事件的音频信号复制的第二时间部分(809)的时间长度，

通过找到最大互相关计算来确定(123)第二时间部分的起始时刻或第二时间部分的停止时刻，使得第二时间部分的边界尽可能地与处理后的音频信号的相应边界相匹配，

其中，受操纵音频信号中瞬变事件的时间位置(803’)与音频信号中瞬变事件的时间位置(803)一致，或与音频信号中瞬变事件的时间位置(803)偏离小于心理声学可承受程度的时间差，所述心理声学可承受程度由瞬变事件的前掩蔽或后掩蔽来确定。

10.根据权利要求1所述的设备，还包括瞬变检测器(103)，用于检测音频信号中的瞬变事件，或

还包括辅助信息提取器(106)，用于提取并解释与音频信号相关联的辅助信息，所述辅助信息指示瞬变事件的时间位置(803)，或指示第一时间部分或第二时间部分的起始时刻或停止时刻。

11.一种操纵具有瞬变事件(801)的音频信号的方法，包括：

处理(110)瞬变减小的音频信号，或处理包括瞬变事件(803)的音频信号，以得到处理后的音频信号，在所述瞬变减小的音频信号中，包括瞬变事件(801)的第一时间部分(804)被去除了；

在信号位置处将第二时间部分(809)插入(120)处理后的音频信号中，所述信号位置是第一部分被去除的信号位置，或瞬变事件在处理后的音频信号中所处的信号位置，其中第二时间部分(809)包括不受所述处理影响的瞬变事件(801)，以得到受操纵的音频信号，

其中，在所述处理(110)步骤中通过拉伸或缩短而在音频信号中产生感知性降低的瞬变部分，使得音频信号具有比原始音频信号更长或更短的持续时间，以及