CN110832581A

CN110832581A - 用于使用瞬态位置检测后处理音频信号的装置

Info

Publication number: CN110832581A
Application number: CN201880036694.0A
Authority: CN
Inventors: 萨沙·迪施; 克里斯蒂安·乌勒; 帕特里克·甘普; 丹尼尔·里奇特; 奥利弗·赫尔穆特; 于尔根·赫勒; 彼得·普罗肯; 安东尼奥·卡拉姆伯尼欧蒂斯; 茱莉亚·哈文斯坦
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2020-02-21
Anticipated expiration: 2038-03-28
Also published as: JP2020512598A; BR112019020515A2; EP3382700A1; RU2734781C1; JP7055542B2; EP3602549B1; US11373666B2; CN110832581B; WO2018177608A1; EP3602549A1; US20200020349A1

Abstract

一种用于后处理音频信号的装置，包括：转换器(100)，用于将音频信号转换为时间频率表示；瞬态位置估计器(120)，用于使用所述音频信号或所述时间频率表示估计瞬态部分的时间位置；以及用于操纵时间频率表示的信号操纵器(140)，其中所述信号操纵器(140)被配置为在瞬态位置之前的时间位置处减少或消除所述时间频率表示中的前回波，或者在瞬态位置处执行所述时间频率表示的整形，以放大所述瞬态部分的起音。

Description

用于使用瞬态位置检测后处理音频信号的装置

技术领域

本发明涉及音频信号处理，以及特别地，涉及音频信号后处理，以便通过去除编码伪像而增强音频质量。

背景技术

音频编码是信号压缩领域，其使用心理声学知识处理音频信号中的冗余和不相关。在低比特率条件下，经常将不想要的伪像引入音频信号。显著的伪像是由瞬态信号分量触发的时间前和后回波。

尤其是在基于块的音频处理中，由于例如频域变换编码器中的频谱系数的量化噪声散布在一个块的整个持续时间上，出现这些前和后回波。半参数化编码工具，如间隙填充、参数化空间音频或带宽扩展，也可能导致参数频带限制的回波伪像，因为参数驱动的调整通常发生在采样的时间块内。

本发明涉及一种非引导性后处理器，其减少或减轻已经由感知变换编码引入的瞬态的主观质量损伤。

防止编解码器内的前和后回波伪像的现有技术方法包括变换编解码器块切换和时间噪声整形。在[1]中公开了在编解码器链之后使用后处理技术抑制前和后回波伪像的现有技术方法。

[1]Imen Samaali,Mania Turki-Hadj Alauane,Gael Mahe,“Temporal EnvelopeCorrection for Attack Restoration in Low Bit-Rate Audio Coding”,17th EuropeanSignal Processing Conference(EUSIPCO 2009),Scotland,2009年8月24-28,；以及

[2]Jimmy Lapierre and Roch Lefebvre,“Pre-Echo Noise Reduction InFrequency-Domain Audio Codecs”,ICASSP 2017,New Orleans.

第一类方法需要被插入编解码器链中，并且不能被后验地应用于先前已经被编码的项目(例如，存档的声音材料)。即使第二方法本质上被实现为解码器的后处理器，它仍然需要从编码器侧的原始输入信号中得出的控制信息。

发明内容

本发明的目的是提供一种用于后处理音频信号的改进概念。

该目的是通过权利要求1的用于后处理音频信号的装置、权利要求17的后处理音频信号的方法或权利要求18的计算机程序实现的。

本发明的一个方面基于以下发现：在已经经受较早的编码和解码的音频信号中仍然可以发现瞬态，因为这种较早的编码/解码操作虽然降级了感知质量，但是没有完全消除瞬态。因此，提供了一种瞬态位置估计器，用于使用音频信号或音频信号的时间频率表示估计瞬态部分的时间位置。根据本发明，操纵音频信号的时间频率表示以在瞬态位置之前的时间位置处减少或消除时间频率表示中的前回波，或者在瞬态位置处以及取决于实施方式在瞬态位置之后执行时间频率表示的整形，使得瞬态部分的起音(attack)被放大。

根据本发明，基于检测的瞬态位置在音频信号的时间频率表示内执行信号操纵。因此，通过在频域中处理操作，可以获得相当精确的瞬态位置检测，并且一方面获得相应的有用的前回波减少以及另一方面获得起音放大，从而最终的频率时间转换导致在整个帧上以及由于重叠相加操作而在多于一个帧上的操纵的自动平滑/分布。最终，这避免了由于音频信号的操纵而引起的可听见的咔哒声，并且当然导致一方面没有任何前回波或者具有减少的前回波的量和/或另一方面具有对于瞬态部分的锐化起音的改进的音频信号。

优选实施例涉及一种非引导性后处理器，其减少或减轻已经由感知变换编码引入的瞬态的主观质量损伤。

根据本发明的另一方面，在没有对瞬态位置估计器的特定需要的情况下执行瞬态改进处理。在这个方面，使用了用于将音频信号转换为包括频谱帧序列的频谱表示的时间频谱转换器。预测分析器然后计算用于对频谱帧内的频率的预测的预测滤波器数据，并且由预测滤波器数据控制的随后连接的整形滤波器对频谱帧进行整形以增强频谱帧内的瞬态部分。音频信号的后处理是使用用于将包括经整形的频谱帧的频谱帧序列转换回到时域中的频谱时间转换完成的。

因此，再次，在频谱表示内而不是在时域表示内进行任何修改，从而避免了由于时域处理而导致的任何可听见的咔哒声等。此外，由于使用了用于计算用于对频谱帧内的频率的预测的预测滤波数据的预测分析器的事实，音频信号的对应时域包络自动地受到随后的整形的影响。特别地，以这一方式进行整形，即，由于在频谱域内的处理以及由于使用对频率的预测的事实，音频信号的时域包络被增强，即，使得时域包络具有较高的峰值和较深的谷值。换句话说，平滑的相反过程是通过自动增强瞬态而不需要实际定位瞬态的整形执行的。

优选地，得出两种预测滤波器数据。第一预测滤波器数据是用于平坦滤波器特性的预测滤波器数据，以及第二预测滤波器数据是用于整形滤波器特性的预测滤波器数据。换句话说，平坦滤波器特性是逆滤波器特性，而整形滤波器特性是预测合成滤波器特性。然而，再次，通过执行对频谱帧内的频率的预测得出这两种滤波器数据。优选地，用于得出不同滤波器系数的时间常数是不同的，从而为了计算第一预测滤波器系数，使用第一时间常数，以及为了计算第二预测滤波器系数，使用第二时间常数，其中第二时间常数大于第一时间常数。该处理再次自动地确保瞬态信号部分比非瞬态信号部分受到更大的影响。换句话说，尽管处理不依赖于显式瞬态检测方法，但是借助于基于不同时间常数的平坦和随后的整形，瞬态部分比非瞬态部分受到更大的影响。

因此，根据本发明以及由于对频率的预测的应用，获得自动类型的瞬态改进过程，其中增强(而不是平滑)时域包络。

本发明的实施例被设计为在不需要进一步的引导信息的情况下对先前编码的声音材料操作的后处理器。因此，这些实施例可以应用于已经通过感知编码而受损的存档的声音材料，感知编码在该存档的声音材料被存档之前已经应用于该存档的声音材料。

第一方面的优选实施例包括以下主要处理步骤：

对信号内的瞬态位置进行非引导检测以找到瞬态位置；

估计瞬态之前的前回波持续时间和强度；

得出用于减弱前回波伪像的适当的时间增益曲线；

在瞬态之前通过所述适应的时间增益曲线回避/减弱估计的前回波(以减轻前回波)；

在起音处，减轻起音的分散；

从回避中排除音调或其它准稳态频谱带。

第二方面的优选实施例包括以下主要处理步骤：

对信号内的瞬态位置的非引导检测以找到瞬态位置(该步骤是可选的)；

通过应用频域线性预测系数(FD-LPC)平坦滤波器和随后的FD-LPC整形滤波器锐化起音包络，平坦滤波器表示经平滑的时间包络且整形滤波器表示较不平滑的时间包络，其中补偿两个滤波器的预测增益。

优选实施例是后处理器的实施例，该后处理器实施非引导瞬态增强作为多步骤处理链中的最后步骤。如果要应用其它增强技术，例如非引导带宽扩展、频谱间隙填充等，则瞬态增强优选地是链中的最后一个，使得增强包括已经从先前的增强阶段引入的信号修改并且对其有效。

本发明的所有方面可以实现为后处理器，一个、两个或三个模块可以串行计算或者为了计算效率而可以共享公共模块(例如，(I)STFT、瞬态检测、音调检测)。

应当注意的是，本文所述的两个方面可以彼此独立地或一起用于对音频信号进行后处理。可以使用依赖于瞬态位置检测和前回波减少和起音放大的第一方面，以便在没有第二方面的情况下增强信号。相应地，基于在频域内的对频率的LPC分析和对应整形滤波的第二方面不必依赖于瞬态检测，而是在没有显式瞬态位置检测器的情况下自动增强瞬态。该实施例可以通过瞬态位置检测器增强，但是这一瞬态位置检测器不是必需的。此外，第二方面可以独立于第一方面而应用。另外，要强调的是，在其它实施例中，第二方面可以应用于已经通过第一方面后处理的音频信号。然而，可选地，可以以这样的方式进行排序，即在第一步骤中，应用第二方面，并且随后，应用第一方面，以便对音频信号进行后处理以通过去除较早引入的编码伪像而改善其音频质量。

此外，应当注意的是，第一方面基本上具有两个子方面。第一子方面是基于瞬态位置检测的前回波减少，以及第二子方面是基于瞬态位置检测的起音放大。优选地，两个子方面被串联组合，其中，甚至更优选地，首先执行前回波减少，然后执行起音放大。然而，在其它实施例中，两个不同子方面可彼此独立地实施并且甚至可视情况而与第二子方面组合。因此，可以将前回波减少与基于预测的瞬态增强过程相组合，而无需任何起音放大。在其它实施方式中，不执行前回波减少，而是与随后的基于LPC的瞬态整形一起执行起音放大，该基于LPC的瞬态整形不一定需要瞬态位置检测。

在组合实施例中，以特定顺序执行包括两个子方面的第一方面和第二方面，其中该顺序包括首先执行前回波减少，其次执行起音放大，以及第三基于对频率的频谱帧的预测执行基于LPC的起音/瞬态增强过程。

附图说明

随后将参照附图讨论本发明的优选实施例，其中：

图1是根据第一方面的示意性框图；

图2a是基于音调估计器的第一方面的优选实施方式；

图2b是基于前回波宽度估计的第一方面的优选实施方式；

图2c是基于前回波阈值估计的第一方面的优选实施例；

图2d是与前回波减少/消除相关的第一子方面的优选实施例；

图3a是第一子方面的优选实施方式；

图3b是第一子方面的优选实施方式；

图4是第一子方面的进一步优选实施方式；

图5示出本发明的第一方面的两个子方面；

图6a示出第二子方面的概况；

图6b示出依赖于划分为瞬态部分和持续部分的第二子方面的优选实施方式；

图6c示出图6b的划分的进一步实施例；

图6d示出第二子方面的进一步实施方式；

图6e示出第二子方面的进一步实施例；

图7示出本发明的第二方面的实施例的框图；

图8a示出基于两种不同滤波器数据的第二方面的优选实施方式；

图8b示出用于计算两种不同预测滤波器数据的第二方面的优选实施方式；

图8c示出图7的整形滤波器的优选实施方式；

图8d示出图7的整形滤波器的进一步实施方式；

图8e示出本发明的第二方面的进一步实施例；

图8f示出使用不同时间常数的LPC滤波器估计的优选实施方式；

图9示出依赖于本发明的第一方面的第一子方面和第二子方面以及额外地依赖于对基于本发明的第一方面的过程的输出执行的本发明的第二方面的后处理过程的优选实施方式的概观；

图10a示出瞬态位置检测器的优选实施方式；

图10b示出图10a的检测函数计算的优选实施方式；

图10c示出图10a的起始点(onset)选取器的优选实施方式；

图11示出作为瞬态增强后处理器、根据第一和/或第二方面的本发明的一般设置；

图12.1示出移动平均滤波；

图12.2示出单极点递归平均和高通滤波；

图12.3示出时间信号预测和残差；

图12.4示出预测误差的自相关；

图12.5示出使用LPC的频谱包络估计；

图12.6示出使用LPC的时间包络估计；

图12.7示出起音瞬态对频域瞬态；

图12.8示出“频域瞬态”的频谱；

图12.9示出瞬态、起始点和起音之间的区别；

图12.10示出在安静且同时掩蔽中的绝对阈值；

图12.11示出时间掩蔽；

图12.12示出感知音频编码器的一般结构；

图12.13示出感知音频解码器的一般结构；

图12.14示出感知音频编码中的带宽限制；

图12.15示出降级的起音特征；

图12.16示出前回波伪像；

图13.1示出瞬态增强算法；

图13.2示出瞬态检测：检测功能(响板)；

图13.3示出瞬态检测：检测功能(放克)；

图13.4示出前回波减少方法的框图；

图13.5示出音调分量的检测；

图13.6示出前回波宽度估计-示意性方法；

图13.7示出前回波宽度估计-示例；

图13.8示出前回波宽度估计-检测功能；

图13.9示出前回波减少-频谱图(响板)；

图13.10是前回波阈值确定(响板)的图示；

图13.11是音调分量的前回波阈值确定的图示；

图13.12示出前回波减小的参数化衰落曲线；

图13.13示出超前掩蔽阈值的模型；

图13.14示出在前回波减小之后的目标幅度的计算；

图13.15示出前回波减少-频谱图(钟琴)；

图13.16示出自适应瞬态起音增强；

图13.17示出用于自适应瞬态起音增强的渐弱曲线；

图13.18示出自相关窗口函数；

图13.19示出LPC整形滤波器的时域传递函数；以及

图13.20示出LPC包络整形-输入和输出信号。

具体实施方式

图1示出用于使用瞬态位置检测对音频信号进行后处理的装置。特别地，如图11所示，关于一般框架放置用于后处理的装置。特别地，图11示出在10处所示的受损音频信号的输入。该输入被转发到瞬态增强后处理器20，并且瞬态增强后处理器20输出增强的音频信号，如在图11中的30处所示。

图1中所示的用于后处理的装置20包括用于将音频信号转换为时间频率表示的转换器100。此外，装置包括用于估计瞬态部分的时间位置的瞬态位置估计器120。瞬态位置估计器120使用如转换器100和瞬态位置估计120之间的连接所示的时间频率表示操作，或者使用时域内的音频信号。这一替换方案在图1中用虚线示出。此外，装置包括用于操纵时间频率表示的信号操纵器140。信号操纵器140被配置为在瞬态位置之前的时间位置处减少或消除时间频率表示中的前回波，其中瞬态位置由瞬态位置估计器120用信号通知。可替换地或额外地，信号操纵器140被配置为在瞬态位置处执行如转换器100和信号操纵器140之间的线所示的时间频率表示的整形，使得瞬态部分的起音被放大。

因此，图1中的用于后处理的装置减少或消除了前回波和/或对时间频率表示进行整形以放大瞬态部分的起音。

图2a示出音调估计器200。特别地，图1的信号操纵器140包括这一音调估计器200，用于检测时间上在瞬态部分之前的时间频率表示中的音调信号分量。特别地，信号操纵器140被配置为以频率选择性方式应用前回波减少或消除，使得在已检测到音调信号分量的频率处，与尚未检测到音调信号分量的频率处相比，信号操纵被减少或关闭。在该实施例中，如块220所示的前回波减少/消除因此在特定帧中的已经检测到音调信号分量的频率位置处被频率选择性地开启或关闭或者至少逐渐减少。这确保音调信号分量不被操纵，因为通常音调信号分量不能同时是前回波或瞬态。这是由于以下事实，瞬态的典型性质是瞬态是宽带效应，其同时影响许多频率区，而相反，音调分量相对于特定帧是具有峰值能量的特定频率区，而该帧中的其它频率仅具有低能量。

此外，如图2b所示，信号操纵器140包括前回波宽度估计器240。该块被配置用于估计在瞬态位置之前的前回波的时间宽度。该估计确保在瞬态位置之前的恰当时间部分由信号操纵器140操纵，以便减少或消除前回波。在时间上的前回波宽度的估计基于音频信号的信号能量随时间的发展，以便确定包括多个随后的音频信号帧的时间频率表示中的前回波开始帧。通常，音频信号的信号能量随时间的这一发展将是增大的或恒定的信号能量，但将不是随时间的下降的能量发展。

图2b示出根据本发明的第一方面的第一子方面的后处理的优选实施例的框图，即，其中执行前回波减少或消除，或者如图2d所述的前回波“回避”。

在输入10处提供受损音频信号，并且将该音频信号输入到转换器100，转换器100优选地被实现为以特定块长度操作并且以重叠块操作的短时傅立叶变换分析器。

此外，提供如图2a中所讨论的音调估计器200，用于控制前回波回避阶段320，该阶段320被实现以便将前回波回避曲线160应用于由块100生成的时间频率表示，以便减少或消除前回波。然后，使用频率-时间转换器370将块320的输出再次转换到时域中。此频率时间转换器优选地被实现为逆短时傅立叶变换合成块，其使用重叠相加操作而操作以便从每个块渐强/渐弱(fade-in/fade-out)到下一个块，从而避免块效应。

块370的结果是增强的音频信号30的输出。

优选地，前回波回避曲线块160由前回波估计器150控制，前回波估计器150收集与前回波有关的特性，诸如由图2b的块240确定的前回波宽度或由块260确定的前回波阈值或关于图3a、图3b、图4讨论的其它前回波特性。

优选地，如图3a中所描绘的，可以将前回波回避曲线160视为加权矩阵，其对于由块100生成的多个时间帧的每个频率区具有特定的频域加权因子。图3a示出控制与图2d中的块160相对应的频谱加权矩阵计算器300的前回波阈值估计器260，前回波阈值估计器260控制与图2d的前回波回避操作320相对应的频谱加权器320。

优选地，前回波阈值估计器260由前回波宽度控制，并且还接收关于时间频率表示的信息。对于频谱加权矩阵计算器300，以及当然对于频谱加权器320也是如此。频谱加权器320最终将加权因子矩阵应用于时间频率表示以便生成频域输出信号，其中减少或消除了前回波。优选地，频谱加权矩阵计算器300在等于或大于700Hz并且优选地等于或大于800Hz的特定频率范围中操作。此外，频谱加权矩阵计算器300被限制为计算加权因子，使得仅用于前回波区域，前回波区域此外还取决于如由图1的转换器100应用的重叠相加特性。此外，前回波阈值估计器260被配置用于估计用于在例如由图2b的块240确定的前回波宽度内的时间频率表示中的频谱值的前回波阈值，其中前回波阈值指示应在前回波减少或消除之后发生(即，应当对应于没有前回波的真实信号幅度)的对应频谱值的幅度阈值。

优选地，前回波阈值估计器260被配置为使用具有从前回波宽度的开始到瞬态位置的增大特性的加权曲线确定前回波阈值。特别地，这一加权曲线由图3b中的块350基于由M_pre指示的前回波宽度确定。然后，在块340中，将该加权曲线C_m应用于频谱值，其中，之前已经借助于块330对频谱值进行了平滑。然后，如块360所示，选择最小值作为用于所有频率索引k的阈值。因此，根据优选实施例，前回波阈值估计器260被配置为在时间频率表示的多个随后帧上对时间频率表示进行平滑330，以及使用具有从前回波宽度的开始到瞬态位置的增大特性的加权曲线对经平滑的时间频率表示进行加权(340)。这种增大特性确保允许正常“信号”的特定能量增大或减小，正常“信号”即没有前回波伪像的信号。

在进一步实施例中，信号操纵器140被配置为使用频谱权重计算器300、160计算时间频率表示的频谱值的各个频谱权重。此外，提供频谱加权器320，用于使用频谱权重对时间频率表示的频谱值进行加权，以获得经操纵的时间频率表示。因此，通过使用权重和通过对如由图1的转换器100生成的各个时间/频率区进行加权，在频域内执行操纵。

优选地，如图4中所示的特定实施例中所示地计算频谱权重。频谱加权器320接收时间频率表示X_k,m作为第一输入，并且接收频谱权重作为第二输入。这些频谱权重由原始权重计算器450计算，原始权重计算器450被配置为使用均被输入到该块中的实际频谱值和目标频谱值确定原始频谱权重。原始权重计算器如稍后示出的等式4.18中所示地操作，但是依赖于一方面的实际值和另一方面的目标值的其它实施方式也是有用的。此外，可替换地或额外地，频谱权重随着时间被平滑以便避免伪像以及避免从一个帧到另一个帧的太强的改变。

优选地，输入到原始权重计算器450中的目标值具体地由超前掩蔽建模器420计算。超前掩蔽建模器420优选地根据稍后定义的等式4.26操作，但是也可以使用依赖于心理声学效应并且特别依赖于通常对于瞬态发生的超前掩蔽特性的其他实施方式。超前掩蔽建模器420一方面由掩蔽估计器410控制，掩蔽估计器410具体地依赖于超前掩蔽型声学效应计算掩蔽。在实施例中，掩蔽估计器410根据稍后描述的等式4.21进行操作，但是可替换地，可以应用依赖于心理声学超前掩蔽效应的其它掩蔽估计。

此外，衰落器430用于在前回波宽度的开始处的多个帧上使用衰落曲线来渐强前回波的减少或消除。此衰落曲线优选地由特定帧中的实际值和所确定的前回波阈值th_k控制。衰落器430确保前回波减少/消除不仅立即开始，而且平滑地渐强。稍后结合等式4.20示出优选实施方式，但其它衰落操作也是有用的。优选地，衰落器430由衰落曲线估计器440控制，衰落曲线估计器440由例如由前回波宽度估计器240确定的前回波宽度M_pre控制。衰落曲线估计器的实施例根据稍后讨论的等式4.19操作，但是其他实施方式也是有用的。块410、420、430、440的所有这些操作对于计算特定目标值是有用的，从而最终，与实际值一起，可以由块450确定特定权重，该特定权重然后被应用于时间频率表示，并且特别地，在优选的平滑之后被应用于特定时间/频率区。

自然地，还可以在没有任何超前掩蔽心理声学效应并且没有任何衰落的情况下确定目标值。然后，目标值将直接是阈值th_k，但是已经发现，由块410、420、430、440执行的特定计算导致频谱加权器320的输出信号中的改进的前回波减少。

因此，优选地确定目标频谱值使得具有低于前回波阈值的幅度的频谱值不受信号操纵的影响，或者使用超前掩蔽模型410、420确定目标频谱值使得基于超前掩蔽模型410减小前回波区域中的频谱值的减弱。

优选地，在转换器100中执行的算法使得时间频率表示包括复数值的频谱值。然而，另一方面，信号操纵器被配置为将实值的频谱加权值应用于复数值的频谱值，使得在块320中的操纵之后，仅幅度已改变，但相位与操纵之前相同。

图5示出图1的信号操纵器140的优选实施方式。特别地，信号操纵器140包括在220处所示的在瞬态位置之前操作的前回波减少器/估计器，或者包括如块500所示的在瞬态位置之后/在瞬态位置处操作的起音放大器。块220、500都由通过瞬态位置估计器120确定的瞬态位置控制。根据本发明的第一方面，前回波减少器220对应于第一子方面，并且块500对应于第二子方面。两个方面可以彼此替换地使用，即，没有如图5中虚线所示的其它方面。然而，另一方面，优选地以图5所示的特定顺序使用这两种操作，即，前回波减少器220是可操作的，并且前回波减少器/估计器220的输出被输入到起音放大器500。

图6a示出起音放大器500的优选实施例。此外，起音放大器500包括频谱权重计算器610和随后连接的频谱加权器620。因此，信号操纵器被配置为放大500时间频率表示的瞬态帧内的频谱值，并且优选地，额外地放大时间频率表示内的瞬态帧之后的一个或多个帧内的频谱值。

优选地，信号操纵器140被配置为仅放大高于最小频率的频谱值，其中该最小频率大于250Hz且低于2KHz。由于在瞬态位置的开始处的起音通常在信号的整个高频范围上扩展，因此可以执行放大直到上边界频率。

优选地，信号操纵器140，并且特别地，图5的起音放大器500包括划分器630，划分器630用于将帧划分为一方面的瞬态部分以及另一方面的持续部分。瞬态部分之后经受频谱加权，并且额外地，还依据关于瞬态部分的信息计算频谱权重。然后，仅对瞬态部分进行频谱加权，并且一方面的图6b中的块610、620的结果和作为划分器630的输出的持续部分最终在组合器640内组合，以输出其中起音已被放大的音频信号。因此，信号操纵器140被配置为在瞬态位置处将时间频率表示划分630为持续部分和瞬态部分，并且优选地，还额外地划分瞬态位置之后的帧。信号操纵器140被配置为仅放大瞬态部分而不放大或操纵持续部分。

如所述，信号操纵器140被配置为还使用渐弱特性685放大时间频率表示的时间上在瞬态位置之后的时间部分，如块680所示。特别地，频谱权重计算器610包括加权因子确定器680，加权因子确定器680接收关于一方面的瞬态部分、另一方面的持续部分、渐弱曲线G_m685的信息，并且优选地还接收关于对应频谱值X_k,m的幅度的信息。优选地，加权因子确定器680根据稍后讨论的等式4.29进行操作，但是依赖于关于瞬态部分、持续部分和渐弱特性685的信息的其他实施方式也是有用的。

在加权因子确定680之后，在块690中执行跨频率的平滑，然后在块690的输出处，用于各个频率值的加权因子是可用的并且准备好被频谱加权器620使用，以便对时间/频率表示进行频谱加权。优选地，例如由渐弱特性685的最大值确定的经放大的部分的放大量是预确定的，并且在300％和150％之间。在优选实施例中，由于使用了2.2的最大放大因子，其在多个帧上减小，直到值1，其中，如图13.17所示，例如在60个帧之后获得这种减小。尽管图13.17示出一种指数衰减，但是也可以使用其它衰减，例如线性衰减或余弦衰减。

优选地，使用图2d中所示的频谱时间转换器370将信号操纵140的结果从频域转换到时域。优选地，频谱时间转换器370应用涉及时间频率表示的至少两个相邻帧的重叠相加操作，但是也可以使用多重叠过程，其中使用三个或四个帧的重叠。

优选地，一方面的转换器100和另一方面的转换器370应用在1ms和3ms之间的相同的跳跃大小或者具有在2ms和6ms之间的窗口长度的分析窗口。并且优选地，由时间频率转换器100和频率时间转换器370应用的一方面的重叠范围、另一方面的跳跃大小或者窗口彼此相等。

图7示出根据本发明的第二方面的用于音频信号的后处理的装置20。装置包括时间频谱转换器700，用于将音频信号转换为包括频谱帧序列的频谱表示。额外地，使用用于计算用于对频谱帧内的频率的预测的预测滤波器数据的预测分析器720。对频率操作的预测分析器720产生帧的滤波器数据，并且帧的此滤波器数据由整形滤波器740帧使用以增强频谱帧内的瞬态部分。整形滤波器740的输出被转发到频谱时间转换器760，频谱时间转换器760用于将包括经整形的频谱帧的频谱帧序列转换到时域中。

优选地，一方面的预测分析器720或另一方面的整形滤波器740在没有显式瞬态位置检测的情况下操作。相反，由于由块720应用的对频率的预测以及由于由块740生成的增强瞬态部分的整形，操纵音频信号的时间包络，使得自动增强瞬态部分，而无需任何特定的瞬态检测。然而，视情况而定，块720、740也可由显式瞬态位置检测支持以便确保任何可能的伪像不会在非瞬态部分处被压入音频信号中。

优选地，预测分析器720被配置为计算用于平坦滤波器特性740a的第一预测滤波器数据720a和用于整形滤波器特性740b的第二预测滤波器数据720b，如图8a所示。特别地，预测分析器720接收帧序列中的完整帧作为输入，然后对频率执行预测分析的操作，以便获得平坦滤波器数据特性或生成整形滤波器特性。平坦滤波器特性是最终类似于也可由FIR(有限脉冲响应)特性740a表示的逆滤波器的滤波器特性，其中用于整形的第二滤波器数据对应于在740b处示出的合成或IIR滤波器特性(IIR＝无限脉冲响应)。

优选地，由第二滤波器数据720b表示的整形程度大于由第一滤波器数据表示的平坦程度720a，使得在应用具有特性740a、740b的整形滤波器之后，获得信号的一种“过度整形”，其导致时间包络比原始时间包络较不平坦。这正是瞬态增强所需要的。

尽管图8a示出计算两个不同的滤波器特性(一个整形滤波器和一个平坦滤波器)的情况，但是其他实施例依赖于单个整形滤波器特性。这是由于以下事实，信号当然也可以在没有在先平坦的情况下被整形，使得最终再次获得自动具有改进的瞬态的经过度整形的信号。过度整形的这种效应可以由瞬态位置检测器控制，但是由于相较于瞬态部分较少地自动影响非瞬态部分的信号操纵的优选实施方式，所以不需要这种瞬态位置检测器。这两个过程完全依赖于这样的事实，即预测分析器720应用对频率的预测以便获得关于时域信号的时间包络的信息，然后对该信息进行处理，以便增强音频信号的瞬态特性。

在该实施例中，自相关信号800是从频谱帧计算出的，如图8b中的800处所示。然后，如块802所示，使用具有第一时间常数的窗口对块800的结果进行加窗。此外，如块804所示，具有大于第一时间常数的第二时间常数的窗口被用于对通过块800获得的自相关信号进行加窗。根据从块802获得的结果信号，如块806所示，优选地通过应用Levinson-Durbin递归计算第一预测滤波器数据。类似地，从使用较大时间常数的块804计算第二预测滤波器数据808。再次，块808优选地使用相同的Levinson-Durbin算法。

由于自相关信号是用具有两个不同时间常数的窗口加窗的事实，获得了自动瞬态增强。通常，加窗是这样的，即不同时间常数仅对一类信号有影响，而对其他类信号没有影响。瞬态信号实际上受到两个不同时间常数的影响，而非瞬态信号具有这样的自相关信号，从而使用第二较大时间常数的加窗导致与使用第一时间常数的加窗几乎相同的输出。关于图13和18，这是由于以下事实，非瞬态信号在高时滞处不具有任何显著峰值，因此关于这些信号使用两个不同时间常数不会造成任何差异。然而，这对于瞬态信号是不同的。瞬态信号在较高的时滞处具有峰值，因此，将不同时间常数应用于在较高的时滞处实际上具有峰值的自相关信号，如图13和18中在1300处所示，例如导致对于使用不同时间常数的不同加窗操作的不同输出。

取决于实施方式，可以以许多不同的方式实现整形滤波器。图8c中示出一种方式，该方式是由809所示的由第一滤波器数据806控制的平坦子滤波器和由810所示的由第二滤波器数据808控制的整形子滤波器以及也在级联中实现的增益补偿器811的级联。

然而，这两个不同的滤波器特性和增益补偿也可以在单个整形滤波器740内实现，并且整形滤波器740的组合滤波器特性由滤波器特性组合器820计算，滤波器特性组合器820一方面依赖于第一和第二滤波器数据，另一方面还依赖于第一滤波器数据和第二滤波器数据的增益以最终还实现增益补偿功能811。因此，关于应用组合滤波器的图8d实施例，帧被输入到单个整形滤波器740中，并且输出是经整形的帧，该经整形的帧一方面具有滤波器特性，另一方面具有在其上实现的增益补偿功能。

图8e示出本发明的第二方面的进一步实施方式，其中图8d的组合整形滤波器740的功能被示出与图8c一致，但是应当注意的是，图8e实际上可以是三个独立的阶段809、810、811的实施方式，但是同时可以被视为利用分子和分母使用具有滤波器特性的单个滤波器实际实现的逻辑表示，其中分子具有逆/平坦滤波器特性，分母具有合成特性，并且其中额外包括增益补偿，如例如稍后确定的等式4.33中所示。

图8f示出通过图8b的块802、804获得的加窗的功能，其中r(k)是自相关信号，w_lag是窗口，r’(k)是经加窗的输出，即块802、804的输出，并且额外地，示例性地示出窗口函数，其最终表示具有两个不同时间常数的指数衰减滤波器，这两个不同时间常数可以通过使用图8f中的特定值设置。

因此，在Levinson-Durbin递归之前将窗口应用于自相关值导致在局部时间峰值处的时间支持的扩展。特别地，图8f描述了使用高斯窗口的扩展。这里的实施例依赖于该思想以得出时间平坦滤波器，该时间平坦滤波器通过选择不同的值4a在局部非平坦包络处具有比随后的整形滤波器更大的时间支持的扩展。这些滤波器一起导致信号中的时间起音的锐化。结果，存在对滤波器的预测增益的补偿，使得保留经滤波的频谱区的频谱能量。

因此，如图8a到8e中所示，获得基于频域LPC的起音整形的信号流。

图9示出依赖于图9中的块100至370所示的第一方面以及随后执行的由块700至760所示的第二方面的实施例的优选实施方式。优选地，第二方面依赖于使用大的帧大小(例如，512的帧大小和50％重叠)的独立的时间频谱转换。另一方面，第一方面依赖于小的帧大小，以便对于瞬态位置检测具有更好的时间分辨率。这种较小的帧大小例如是128个样本的帧大小和50％的重叠。然而，通常优选的是，对于第一和第二方面使用独立的时间频谱转换，在第二方面中帧大小方面较大(时间分辨率较低但频率分辨率较高)，而第一方面的时间分辨率较高，具有相应的较低频率分辨率。

图10a示出图1的瞬态位置估计器120的优选实施方式。瞬态位置估计器120可如现有技术中已知的那样实施，但在优选实施例中，其依赖于检测函数计算器1000和随后连接的起始点选取器1100，使得最终获得每个帧的用于指示帧中存在瞬态起始点的二进制值。

检测函数计算器1000依赖于图10b中所示的若干步骤。这些是在块1020中的能量值的求和。在块1030中，执行时间包络的计算。随后，在步骤1040中，执行每个带通信号时间包络的高通滤波。在步骤1050中，在频率方向上执行所得到的高通滤波信号的求和，以及在块1060中，执行对时间滞后掩蔽的考虑，从而最终获得检测功能。

图10c示出从如通过块1060获得的检测函数的起始点选取的优选方式。在步骤1110中，在检测函数中找到局部最大值(峰值)。在块1120中，执行阈值比较以便仅保持高于特定最小阈值的峰值用于进一步的实施。

在块1130中，扫描每个峰值周围的区域以寻找更大的峰值，以便从该区域确定相关峰值。峰值周围的区域在峰值之前扩展l_b个帧，在峰值之后扩展l_a个帧。

在块1140中，丢弃接近的峰值，使得最终确定瞬态起始点帧索引m_i。

随后，公开了在提出的瞬态增强方法中使用的技术和听觉概念。首先，将引入关于选中的滤波操作和线性预测的一些基本数字信号处理技术，随后是瞬态的定义。随后，解释听觉掩蔽的心理声学概念，其在音频内容的感知编码中被使用。该部分以对通用感知音频编解码器和引起的压缩伪像的简要描述结束，压缩伪像经受根据本发明的增强方法。

平滑和微分滤波器

稍后描述的瞬态增强方法频繁使用一些特定的滤波操作。这些滤波器的介绍将在以下部分中给出。更详细的描述参见[9，10]。等式(2.1)描述了有限脉冲响应(FIR)低通滤波器，其计算作为输入信号x_n的当前和过去样本的平均值的当前输出样本值y_n。这种所谓的移动平均滤波器的滤波过程由下式给出

其中p是滤波器阶数。图12.1的顶部图像示出对于输入信号x_n的等式(2.1)中的移动平均滤波器操作的结果。通过在前向和后向上对x_n应用移动平均滤波器两次而计算底部图像中的输出信号y_n。这补偿了滤波器延迟，并且还导致更平滑的输出信号y_n，因为x_n被滤波两次。

对信号进行平滑的不同方式是应用单极点递归平均滤波器，其由以下差分方程给出：

y_n=b·x_n+(1-b)·y_n-1， 1≤n≤N，

其中y₀＝x₁且N表示x_n中的样本数。图12.2(a)示出应用于矩形函数的单极点递归平均滤波器的结果。在(b)中，在两个方向上应用滤波器以进一步平滑信号。通过采用

和

如下

以及

其中x_n和y_n分别是等式(2.2)的输入和输出信号，得到的输出信号和

直接跟随输入信号的起音或衰减相位。图12.2(c)示出

作为实黑曲线和

作为虚黑曲线。

输入信号x_n的强幅度增量或减量可以通过使用FIR高通滤波器对x_n进行滤波来检测，如下，

其中b＝[1，-1]或b＝[1，0，...，-1]。在对矩形函数进行高通滤波之后的所得到的信号在图12.2(d)中被示为黑色曲线。

线性预测

线性预测(LP)是用于音频编码的有用方法。一些过去的研究特别描述了其对语音产生过程进行建模的能力[11，12，13]，而其它的研究通常也将其应用于音频信号的分析[14，15，16，17]。以下部分基于[11，12，13，15，18]。

在线性预测编码(LPC)中，所采样的时间信号

(其中T是采样周期)可以通过其过去值的加权线性组合预测，形式为

其中n是识别信号的特定时间样本的时间索引，p是预测阶数，a_r(其中1≤r≤p)是线性预测系数(并且在这种情况下，是全极点无限脉冲响应(IIR)滤波器的滤波器系数)G是增益因子，以及u_n是激励模型的某个输入信号。通过采用等式(2.6)的z变换，系统的对应全极点传递函数H(z)是

其中

z＝e^j2πfT＝e^jωT.

UR滤波器H(z)被称为合成或LPC滤波器，而FIR滤波器

被称为逆滤波器。使用预测系数a_r作为FIR滤波器的滤波器系数，信号s_n的预测可以通过下式获得

或

这导致所预测的信号

和实际信号s_n之间的预测误差，该预测误差可以由下式表示

其中z域中的预测误差的等效表示是

图12.3示出原始信号s_n、所预测的信号

和差分信号e_n，p，其中预测阶数p＝10。这个差分信号e_n，p也被称为残差。在图2.4中，残差的自相关函数示出相邻样本之间的几乎完全的去相关，这指示e_n，p可以被近似地看作是白高斯噪声。使用来自等式(2.10)的e_n，p作为等式(2.6)中的输入信号u_n，或使用来自等式(2.7)(其中G＝1)的全极点滤波器H(z)对来自等式(2.11)中的Ep(z)进行滤波。原始信号可以分别通过下式而被完美地恢复，

以及

随着预测阶数p的增大，残差的能量降低。除了预测器系数的数量之外，残差能量还取决于系数本身。因此，线性预测编码中的问题是如何获得最佳滤波器系数a_r，从而使残差的能量最小化。首先，通过下式从经加窗的信号块x_n＝s_n·w_n及其预测

中取出残差的总平方误差(总能量)，其中w_n是宽度N的某个窗口函数，

其中

为了最小化总平方误差E，等式(2.14)的梯度必须关于每个a_r计算并通过设定

而设定为0。

这导致所谓的正规方程：

R_i表示信号x_n的自相关，

等式(2.17)形成p个线性方程的系统，从该系统可以计算p个未知预测系数a_r，1≤r≤p，其最小化总平方误差。使用等式(2.14)和等式(2.17)，最小总平方误差E_p可以由下式获得

求解等式(2.17)中的正规方程的快速方法是Levinson-Durbin算法[19]。该算法递归地工作，这带来了这样的优点，即随着预测阶数的增加，它产生对于小于p的当前和所有先前阶数的预测器系数。首先，算法通过以下设置被初始化

E_o＝R_o

随后，对于预测阶数m＝1,...,p，使用部分相关系数p_m如下地计算预测系数a_r ^(m)，其是当前阶数m的系数a_r：

随着每次迭代，在等式(2.24)中计算当前阶m的最小总平方误差E_m。由于E_m总是正的，并且其中E_o＝R_o，可以示出随着m的增大，最小总能量降低，因此有

0≤E_m≤E_m-1.

因此，递归带来了另一个优点，即当E_m降到特定阈值以下时，可以停止预测器系数的计算。

时域和频域中的包络估计

如果滤波器系数是在时间信号上计算的，LPC滤波器的重要特征是它们在频域中建模信号的特性的能力。与时间序列的预测等效，线性预测近似序列的频谱。取决于预测阶数，LPC滤波器可被用于计算信号频率响应的或多或少的详细包络。以下部分基于[11，12，13，14，16，17，20，21]。

由等式(2.13)可以看到，通过用全极点滤波器H(z)对残差频谱进行滤波，可以从残差频谱中完美地重构原始信号频谱。通过在等式(2.6)中设置u_n＝δ_n，其中δ_n是狄拉克δ函数，信号频谱S(z)可以由全极点滤波器

从等式(2.7)建模如下

其中在等式(2.21)-(2.24)中使用Levinson-Durbin算法计算预测系数a_r，仅增益因子G保持待确定。使用u_n＝δ_n，等式(2.6)变为

其中h_n是合成滤波器H(z)的脉冲响应。根据等式(2.17)，脉冲响应h_n的自相关R～_i是

通过将等式(2.27)中的h_n平方并且对所有n求和，合成滤波器脉冲响应的第0自相关系数变为

因为

第0自相关系数对应于信号s_n的总能量。在原始信号频谱S(z)中的总能量与其近似

中的总能量应该相等的条件下，遵循利用此结论，等式(2.17)和等式(2.28)中的信号s_n的自相关和脉冲响应h_n的自相关之间的关系分别变为其中0≤i≤p。增益因子G可以通过对等式(2.29)进行再整形并利用等式(2.19)计算如下：

图12.5示出来自语音信号S_n的一帧(1024个样本)的频谱S(z)。较平滑的黑色曲线是根据等式(2.26)计算的频谱包络

其中预测阶数p＝20。随着预测阶数p的增大，近似总是调整为更接近于原始频谱S(z)。虚线曲线是用与黑色曲线相同的公式计算的，但是其中预测阶数p＝100。可以看出，该近似更加详细，并且提供了对S(z)的更好拟合。在p→长度(s_n)的情况下，还可以使用全极点滤波器

精确地对S(z)建模，使得

假定时间-信号s_n为最小相位。

由于时间和频率之间的二元性，还可以在频域中对信号的频谱应用线性预测，以便对其时间包络建模。时间估计的计算以相同的方式进行，只是对信号频谱执行预测器系数的计算，然后将得到的全极点滤波器的脉冲响应变换到时域中。图2.6示出原始时间信号和使用p＝10和p＝20的预测阶数的两个近似的绝对值。对于频率响应的估计，可以观察到使用更高阶数的时间近似更精确。

瞬态

在文献中，可以找到瞬态的许多不同的定义。一些将其称为起始点或起音[22，23，24，25]，而其它使用这些术语描述瞬态[26，27]。本部分旨在出于公开的目的而描述定义瞬态和对其进行表征的不同方法。

表征

一些早期的瞬态定义将它们仅描述为时域现象，例如在Kliewer和Mertins[24]中发现的。他们将瞬态描述为时域中的信号段，其能量从低值迅速上升到高值。为了限定这些段的边界，他们使用正好在信号样本n之前和之后的时域能量信号上的两个滑动窗口内的能量的比值。将正好在n之后的窗口的能量除以在先窗口的能量得到简单的准则函数C(n)，其峰值对应于瞬态期的开始。当正好在n之后的能量基本上大于之前的能量时，这些峰值出现，标志着急剧的能量上升的开始。然后将瞬态的结束定义为在起始点之后的C(n)降到特定阈值以下的时刻。

Masri和Bateman[28]将瞬态描述为信号时间包络中的巨变，其中在瞬态的开始之前和之后的信号段是高度不相关的。包括冲击瞬态事件的窄时间帧的频谱通常在所有频率上示出大的能量突发，这可以在图2.7(b)中的响板瞬态的频谱图中看到。其它研究[23，29，25]也表征信号的时间频率表示中的瞬态，其中它们对应于具有在若干相邻频带中同时出现的能量急剧增加的时间帧。Rodet和Jaillet[25]还指出，这种能量的突然增加在较高频率中尤其明显，因为信号的总能量主要集中在低频区域。

Herre[20]和Zhang等[30]用时间包络的平坦度的程度表征瞬态。随着能量随时间的突然增加，瞬态信号具有非常不平坦的时间结构，具有相应的平坦频谱包络。确定频谱平坦度的一种方式是在频域中应用频谱平坦度测量(SFM)[31]。信号的频谱平坦度SF可以采用功率频谱的几何均值Gm与算术均值Am的比值计算：

|X_k|表示频谱系数索引k的幅度值，K表示频谱X_k的系数的总数。如果SF→0，则信号具有非平坦频率结构，因此更可能是音调。与此相反，如果SF→1，则频谱包络更平坦，这可以对应于瞬态或类噪声信号。平坦频谱并非严格地指定瞬态，其中瞬态的相位响应具有与噪声信号相反的高相关性。为了确定时间包络的平坦度，等式(2.31)中的测量也可被类似地应用于时域中。

Suresh Babu等[27]还区别起音瞬态与频域瞬态。他们通过相邻时间帧之间的频谱包络的突变而不是通过如前所述的时域中的能量变化表征频域瞬态。这些信号事件可以例如由象小提琴这样的弓形乐器或者由人类语音通过改变所呈现的声音的音高而产生。图12.7示出起音瞬态与频域瞬态之间的差异。(c)中的信号描述了由小提琴产生的音频信号。垂直虚线标记了所呈现的信号的音高改变的时刻，即，分别是新音调或频域瞬态的开始。与(a)中由响板产生的起音瞬态相反，这种新音符起始点不会引起信号幅度的显著变化。在(d)的频谱图中可以看到频谱成分的这种变化的时刻。然而，在图2.8中，在瞬态之前和之后的频谱差别更加明显，图2.8示出图12.7(c)中的小提琴信号的两个频谱，一个是在频域瞬态的起始点之前的时间帧的频谱，另一个是在频域瞬态的起始点之后的时间帧的频谱。这表明，谐波分量在两个频谱之间是不同的。然而，频域瞬态的感知编码不会引起将由本论文中呈现的恢复算法解决的各种伪像，且因此将被忽略。自此以后，术语“瞬态”将用于仅表示起音瞬态。

瞬态、起始点和起音的区别

瞬态、起始点和起音的概念之间的区别可以在Bello等人的[26]中找到，这将在本论文中采用。这些术语的区别也在图12.9中示出，使用由响板产生的瞬态信号的示例。

·总的来说，作者仍然没有全面地定义瞬态的概念，但是他们将其表征为短时间间隔，而不是不同的时刻。在这个瞬态期内，信号的幅度以相对不可预测的方式迅速上升。但是，它没有被精确地定义瞬态在其幅度达到其峰值之后在哪里结束。

在它们的相当非正式的定义中，它们还包括至瞬态间隔的幅度衰减的部分。通过这种表征，声学乐器产生瞬态，在此期间它们被激励(例如，当拨弦吉他弦或击打小鼓时)并且然后被衰减。在这个初始衰减之后，随后的较慢的信号衰减仅由乐器主体的共振频率引起。

·起始点是信号的幅度开始上升的时刻。对于此研究，起始点将被定义为瞬态的开始时间。

·瞬态的起音是瞬态内在其起始点与峰值之间的时间段，在该时间段期间幅度增大。

心理声学

本部分给出了对在感知音频编码以及稍后描述的瞬态增强算法中使用的心理声学概念的基本介绍。心理声学的目的是描述“声音信号的可测量物理属性和这些声音在听者中引起的内部感知”之间的关系[32]。人类听觉感知具有其限制，其可以被感知音频编码器在音频内容的编码过程中使用，以实质上降低编码的音频信号的比特率。尽管感知音频编码的目标是以解码的音频信号应该精确地或尽可能接近原始信号发声[1]的方式对音频材料进行编码，但是它仍然可能引入一些可听的编码伪像。在这一部分中将提供理解这些伪像的起源以及感知音频编码器如何使用的心理声学模型的必要背景。读者可参考[33，34]以获得关于心理声学的更详细的描述。

同时掩蔽

同时掩蔽是指心理声学现象，即如果一个声音(被掩蔽音(maskee))与更强的声音(掩蔽音(masker))在频率上接近，则当该声音与该更强的声音被同时呈现时，该声音对于人类听者来说可能是听不见的。描述这种现象的广泛使用的示例是在道路旁边的两个人之间的谈话。在没有干扰噪声的情况下，他们可以完美地彼此感知，但是如果汽车或卡车经过，他们需要提高他们的讲话音量以保持彼此理解。

可以通过检查人类听觉系统的功能来解释同时掩蔽的概念。如果探测声被呈现给听者，则它在耳蜗内沿着基膜(BM)引起行波，从其在椭圆窗口处的基底散布到其端部的顶点[17]。从椭圆窗口开始，行波的垂直位移最初缓慢上升，在特定位置达到其最大值，然后突然下降[33，34]。其最大位移的位置取决于刺激的频率。BM在基底是窄的和硬的，在顶点是约三倍宽的和不那么硬的。这样，沿BM的每个位置是对特定频率最敏感的，其中高频信号分量在BM的基底附近引起最大位移而低频则在BM的顶点附近引起最大位移。此特定频率通常被称为特征频率(CF)[33，34，35，36]。这样，耳蜗可以被认为是具有一组高度重叠的带通滤波器的频率分析器，该组高度重叠的带通滤波器具有非对称频率响应，被称为听觉滤波器[17、33、34、37]。这些听觉滤波器的通带示出出不均匀的带宽，其被称为临界带宽。临界带的概念首先在1933年由Fletcher引入[38，39]。他假设与噪声信号同时呈现的探测声的可听度仅取决于在频率上接近探测声的噪声能量的量。如果在此频率区域中的信噪比(SNR)低于特定阈值，即噪声信号的能量在一定程度上高于探测声的能量，则人类听者听不到探测信号[17，33，34]。然而，同时掩蔽不仅发生在一个单个临界带内。事实上，在临界带的CF处的掩蔽音也可以影响在此临界带的边界之外的被掩蔽音的可听度，但影响程度较小[17]。图12.10中示出同时掩蔽效应。虚线曲线表示安静时的阈值，其“描述了在没有其它声音的情况下人类听者检测窄带声音所需的最小声压级”[32]。黑色曲线是对应于被描绘为深灰色条的窄带噪声掩蔽音的同时掩蔽阈值。如果探测声(浅灰色条)的声压级小于在被掩蔽音的特别频率处的同时掩蔽阈值，则掩蔽音掩蔽该探测声。

时间掩蔽

掩蔽不仅在掩蔽音和被掩蔽音被同时呈现的情况下有效，而且在它们在时间上分离的情况下也有效。可以在掩蔽音被呈现的时间段之前和之后掩蔽探测声[40]，这被称为超前掩蔽和滞后掩蔽。图2.11中示出时间掩蔽效应的图示。超前掩蔽在掩蔽声音的起始点之前发生，其对于t的负值被描绘。在超前掩蔽期之后，同时掩蔽是有效的，紧接在掩蔽音被开启之后具有过冲效应，其中同时掩蔽阈值被临时增大[37]。在掩蔽音被关闭之后(对于t的正值被描绘)，滞后掩蔽是有效的。可以使用听觉系统产生所呈现的声音的感知所需的积分时间解释超前掩蔽[40]。另外，听觉系统处理较大声音要比处理较弱声音快[33]。超前掩蔽发生的时间段高度依赖于特别听者的训练量[17，34]，并且可以持续高达20ms[33]，然而仅在掩蔽音起始点[17，37]之前的1-5ms的时间段内是显著的。滞后掩蔽的量取决于掩蔽音和探测声两者的频率、掩蔽音水平和持续时间，以及在探测声和掩蔽音被关闭的时刻之间的时间段[17，34]。根据Moore[34]，滞后掩蔽至少在20ms内有效，其它研究示出甚至更长的持续时间，上至约200ms[33]。此外，Painter和Spanias声明滞后掩蔽“也表现出类似于同时掩蔽的频率相依行为，当掩蔽音和探测频率关系改变时可以观察到该行为”[17，34]。

感知音频编码

感知音频编码的目的是以这样一种方式压缩音频信号，即得到的比特率与原始音频相比尽可能小，同时保持透明的声音质量，其中，重构的(解码的)信号不应与未压缩的信号是可区别开的[1，17，32，37，41，42]。这是通过使用人类听觉系统的一些限制从输入信号中去除冗余和不相关信息完成的。虽然例如可以通过使用随后的信号样本、频谱系数或甚至不同的音频声道之间的相关性并通过适当的熵编码去除冗余，可以通过频谱系数的量化来处理不相关信息。

感知音频编码器的一般结构

单声道感知音频编码器的基本结构在图12.12中描绘。首先，通过应用分析滤波器组将输入音频信号变换为频域表示。这样，可以“取决于其频率成分”选择性地量化接收的频谱系数[32]。量化块将频谱系数的连续值舍入为离散的值的集合，以减少编码的音频信号中的数据量。这样，由于不可能在解码器处重构原始信号的精确值，所以压缩变得有损。该量化误差的引入可以被认为是加性噪声信号，其被称为量化噪声。量化由感知模型的输出控制，感知模型在每个分析窗口中对于每个频谱系数计算时间和同时掩蔽阈值。通过假设“具有16位整数中的最低有效位的±1峰值幅度的4kHz信号处于听觉的绝对阈值”[31]，也可以使用安静时的绝对阈值。在比特分配块中，这些掩蔽阈值被用于确定所需的比特数，使得引起的量化噪声对于人类听者来说变得听不见。另外，低于所计算的掩蔽阈值(并且因此与人类听觉感知无关)的频谱系数不需要被发送并且可以被量化为零。然后，对量化的频谱系数进行熵编码(例如，通过应用霍夫曼编码或算术编码)，这减少了信号数据中的冗余。最后，编码的音频信号以及额外的辅助信息(如量化比例因子)被复用以形成单个比特流，比特流然后被发送到接收器。然后，接收器侧的音频解码器(见图12.13)通过对输入比特流解复用、使用发送的比例因子重构频谱值、以及应用与编码器的分析滤波器组互补的合成滤波器组执行逆操作，以重构得到的输出时间信号。

瞬态编码伪像

尽管感知音频编码的目标是产生解码的音频信号的透明的声音质量，但是它仍然表现出可听到的伪像。下面将描述影响瞬态的感知质量的这些伪像中的一些。

鸟(Birdies)和带宽限制

仅有有限数量的比特可用于比特分配处理以提供用于音频信号块的量化。如果一帧的比特需求太高，则可以通过将一些频谱系数量化为零而删除它们[1，43，44]。这基本上导致一些高频成分的暂时损失，并且对于低比特率编码或当处理非常高要求的信号(例如具有频繁瞬态事件的信号)时主要是个问题。比特的分配从一个块到下一块是变化的，因此频谱系数的频率成分可以在一帧中被删除并且在下一帧中被呈现。引起的频谱间隙被称为“鸟”，并且可以在图2.14的底部图像中看到。尤其是，瞬态的编码易于产生鸟伪像，因为这些信号部分中的能量在整个频谱上散布。一种常见的方法是在编码过程之前限制音频信号的带宽，以节省用于LF成分的量化的可用比特，这也在图2.14中对于编码的信号示出。这种折衷是合适的，因为与通常更可容忍的恒定带宽损失相比，鸟对感知的音频质量具有更大的影响。然而，即使在带宽限制的情况下，仍然可能发生鸟。尽管稍后描述的瞬态增强方法本身不旨在校正频谱间隙或扩展编码的信号的带宽，但是高频的损失也导致减少的能量和降级的瞬态起音(见图12.15)，这经受稍后描述的起音增强方法。

前回波

另一种常见的压缩伪像是所谓的前回波[1，17，20，43，44]。如果信号能量急剧增加(即瞬态)发生在信号块的结束附近，则会发生前回波。包括在瞬态信号部分中的实质能量分布在宽的频率范围上，这导致心理声学模型中的相对高的掩蔽阈值的估计，并且因此仅分配几个比特用于频谱系数的量化。然后，在解码过程中，大量的增加的量化噪声被散布到信号块的整个持续时间。对于稳定信号，假定量化噪声被完全掩蔽，但是对于包括瞬态的信号块，如果量化噪声“超过超前掩蔽[…]期”[1]，则量化噪声可能在瞬态起始点之前并且变得可听。即使有几种已提出的处理前回波的方法，这些伪像仍然经受当前研究。图12.16示出对于响板瞬态的前回波伪像的示例。虚黑曲线是在瞬态起始点之前没有实质信号能量的原始信号的波形。因此，在编码的信号(灰色曲线)的瞬态之前的所引起的前回波没有被同时掩蔽，并且即使没有与原始信号直接比较也能够被感知。稍后将介绍所提出的用于补充性地减少前回波噪声的方法。

在过去的几年中已经提出了几种方法以提高瞬态的质量。这些增强方法可以被分类为集成在音频编解码器中的那些方法和作为解码的音频信号上的后处理模块工作的那些方法。下面给出关于瞬态增强以及瞬态事件检测的先前研究和方法的概述。

瞬态检测

Edler[6]在1989年提出了一种早期的瞬态检测的方法。该检测用于控制自适应窗口切换方法，这将在本章节中稍后描述。所提出的方法仅在音频编码器处检测瞬态在原始输入信号的一个信号帧中是否存在，而不是瞬态在帧中的精确位置。计算两个判定标准以确定特别信号帧中的当前瞬态的可能性。对于第一标准，根据等式(2.5)使用FIR高通滤波器对输入信号x(n)进行滤波，其中滤波器系数b＝[1，-1]。得到的差分信号d(n)在相邻样本之间的幅度快速变化的时刻处示出大的峰值。然后，两个相邻块的d(n)的幅度和的比率被用于计算第一标准：

变量m表示帧号，N表示一帧内的样本数量。然而，c₁(m)艰难地实现对在信号帧的结束处的非常小的瞬态的检测，因为它们对帧内的总能量的贡献相当小。因此，制定了第二标准，其计算x(n)的最大幅度值与一帧内的平均幅度的比率：

如果c₁(m)或c₂(m)超过特定阈值，则确定特别帧m包括瞬态事件。

Kliewer和Mertins[24]还提出了一种专门在时域中操作的检测方法。他们的方法旨在通过在信号能量上采用两个滑动矩形窗口来确定瞬态的精确开始和结束样本。窗口内的信号能量被计算如下

以及

其中L是窗口长度，以及n表示正好在左和右窗口之间的中间的信号样本。然后，通过下式计算检测函数D(n)

其中

如果D(n)的峰值高于特定阈值T_b，则它们对应于瞬态的起始点。瞬态事件的结束被确定为“紧接在起始点之后的小于某个阈值T_e的D(n)的最大值”[24]。

其它检测方法基于时域中的线性预测，以使用信号波形的可预测性而区别瞬态和稳态信号部分[45]。Lee和Kuo在2006年提出了一种使用线性预测的方法。他们将输入信号分解成若干子带，以计算每个得出的窄带信号的检测函数。在根据等式(2.10)使用逆滤波器对窄带信号进行滤波之后，获得检测函数作为输出。随后的峰值选择算法将得到的预测误差信号的局部最大值确定为每个子带信号的起始点时间候选，然后使用所述起始点时间候选确定宽带信号的单个瞬态起始点时间。

Niemeyer和Edler[23]的方法对输入信号的复时间频率表示起作用，并且将瞬态起始点确定为相邻频带中的信号能量的急剧增加。根据等式(2.3)对每个带通信号进行滤波以计算在突然的能量增加之后的时间包络作为检测函数。然后，不仅为频带k计算瞬态标准，而且考虑在k的任一侧的K＝7个相邻频带。

随后，将描述用于增强瞬态信号部分的不同策略。图13.1中的框图示出恢复算法的不同部分的概观。该算法采用在时域中表示的编码的信号s_n，并且通过短时傅立叶变换(STFT)将其变换为时间频率表示X_k,m。然后在STFT域中进行瞬态信号部分的增强。在增强算法的第一阶段中，正好在瞬态之前的前回波被减少。第二阶段增强瞬态的起音，以及第三阶段使用基于线性预测的方法锐化瞬态。然后，使用逆短时傅立叶变换(ISTFT)将增强的信号Y_k,m变换回到时域中，以获得输出信号y_n。

通过应用STFT，输入信号s_n首先被划分为长度为N的多个帧，这些帧以L个样本重叠，并且使用分析窗口函数w_n,m被加窗以获得信号块x_n,m＝s_n·w_n,m。然后，使用离散傅立叶变换(DTF)将每个帧x_n,m变换到频域中。这产生经加窗的信号帧x_n,m的频谱X_k,m，其中k是频谱系数索引，以及m是帧号。通过STFT的分析可以由以下等式表示：

其中

以及

(N-L)也称为跳跃大小。对于分析窗口w_n,m，已使用正弦窗口的形式

为了捕获瞬态事件的精细时间结构，帧大小被选择为相对较小。为了这个研究的目的，对于每个时间帧，将其设置为N＝128个样本，对于两个相邻帧，具有L＝N/2＝64个样本的重叠。等式(4.2)中的K定义DFT点的数量，并被设置为K＝256。这对应于X_k,m的双侧频谱的频谱系数的数量。在STFT分析之前，每个经加窗的输入信号帧被零填充以获得长度为K的较长矢量，以便匹配DFT点的数量。这些参数给出足够精细的时间-分辨率以将一帧中的瞬态信号部分与信号的其余部分隔离，同时为随后的频率-选择性增强操作提供足够的频谱系数。

瞬态检测

在实施例中，用于瞬态增强的方法被专门应用于瞬态事件本身，而不是不断地修改信号。因此，必须检测瞬态的时刻。为了这个研究的目的，已经实现瞬态检测方法，其已经对于每个单独的音频信号被独立地调整。这意味着，对于每个特别声音文件，对将在本部分中稍后描述的瞬态检测方法的特别参数和阈值特定地进行调整，以产生瞬态信号部分的最佳检测。该检测的结果是对于每个帧的二进制值，指示瞬态起始点的存在。

实现的瞬态检测方法可分为两个独立的阶段：合适的检测函数的计算和使用检测函数作为其输入信号的起始点选取方法。为了将瞬态检测结合到实时处理算法中，需要适当的前瞻，因为随后的前回波减少方法在检测的瞬态起始点之前的时间间隔中操作。

检测函数的计算

为了检测函数的计算，输入信号被变换为能够实现对原始信号的改进起始点检测的表示。图13.1中的瞬态检测块的输入是输入信号s_n的时间频率表示X_k,m。计算检测函数分五个步骤完成：

1.对于每个帧，对若干相邻频谱系数的能量值求和。

2.计算在所有时间-帧上的得到的带通信号的时间包络。

3.每个带通信号时间包络的高通滤波。

4.在频率方向上对得到的高通滤波信号求和。

5.考虑时间滞后掩蔽。

表4.1在信号X_K,m的幅度能量频谱的n个相邻频谱系数的连接之后，X_K,m的所得到的通带的边界频率f_low和f_high以及带宽Δf

首先，通过

其中n＝{2⁰，2¹，2²，...，2⁶}=2^κ，

对于每个时间帧对X_k,m的若干相邻频谱系数的能量求和。

其中K表示得到的子带信号的索引。因此，X_K,m对于每个帧m由表示包括在频谱X_k,m的特定频带中的能量的7个值组成。边界频率f_low和f_high以及通带带宽Δf和连接的频谱系数的数量n被显示在表4.1中。然后在所有时间帧上平滑X_K,m中的带通信号的值。这是通过根据等式(2.2)在时间方向上用IIR低通滤波器对每个子带信号X_K,m进行滤波完成如下，

是对于每个频道K的得到的经平滑的能量信号。滤波器系数b和a＝1-b独立地适用于每个经处理的音频信号，以产生令人满意的时间常数。然后通过使用等式(2.5)对

中的每个带通信号经由高通(HP)滤波而计算的斜率如下，

其中，S_K,m是微分包络，b_i是部署的FIR高通滤波器的滤波器系数，以及p是滤波器阶数。对于每个单独的信号也独立地定义特定的滤波器系数b_i。随后，在频率方向上跨所有K对S_K,m求和，以得到总包络斜率F_m。F_m中的大峰值对应于其中发生瞬态事件的时间帧。为了忽略较小峰值，尤其是在较大峰值之后的，F_m的幅度以F_m＝max(F_m-0.1,0)的方式减少0.1的阈值。也通过下式使用等效于等式(2.2)的单极点递归平均滤波器对F_m进行滤波并根据等式(2.3)对于每个帧m取

和F_m的较大值而考虑在较大峰值之后的滞后掩蔽：

其中以产生得到的检测函数D_m。

图13.2示出时域和STFT域中的响板信号，其中在底部图像中示出得出的检测函数D_m。然后D_m被用作起始点选取方法的输入信号，这将在以下部分中描述。

起始点选取

基本上，起始点选取方法将检测函数D_m中的局部极大值的实例确定为S_n中的瞬态事件的起始点时间帧。对于图13.2中的响板信号的检测函数，这显然是一个微不足道的任务。在底部图像中将起始点选取方法的结果示出为红色圆圈。然而，其它信号并不总是产生这种易于处理的检测函数，因此实际瞬态起始点的确定变得稍微更加复杂。例如，在图13.3底部的音乐信号的检测函数呈现了与瞬态起始点帧不相关的若干局部峰值。因此，起始点选取算法必须区别那些“假”瞬态起始点和“真实”瞬态起始点。

首先，D_m中的峰值的幅度需要高于特定阈值th_peak，以被认为是起始点候选。这样做是为了防止输入信号s_n的包络中的较小幅度变化，而这种较小幅度变化不由等式(4.5)和等式(4.7)中的平滑和滞后掩蔽滤波器处理，以被检测作为瞬态起始点。。对于检测函数D_m的每个值D_m＝_l，起始点选取算法扫描当前帧l之前和之后的区域，以得到比D_m＝_l更大的值。如果在当前帧之前l_b个帧和之后l_a个帧没有更大的值存在，则l被确定为瞬态帧。“回顾”和“前瞻”帧l_b和l_a的数量以及阈值th_peak是对于每个音频信号分别定义的。在已经识别相关峰值之后，将丢弃比50ms更接近先前起始点的检测到的瞬态起始点帧[50，51]。起始点选取方法(以及一般的瞬态检测)的输出是随后的瞬态增强块所需的瞬态起始点帧m_i的索引。

前回波减少

该增强阶段的目的是减少被称为前回波的编码伪像，该编码伪像在瞬态的起始点之前的特定时间段内是可听的。图4.4中显示前回波减少算法的概观。前回波减少阶段将STFT分析后的输出X_k,m(100)以及先前检测到的瞬态起始点帧索引m_i作为输入信号。在最坏的情况下，在瞬态事件之前，前回波开始直至在编码器侧的长块分析窗口的长度(不管编解码器采样率如何，其为2048个样本)。该窗口的持续时间取决于特别编码器的采样频率。对于最坏的情况，假定最小编解码器采样频率为8kHz。在解码和重新采样的输入信号s_n的采样率为44.1kHz时，长分析窗口的长度(以及因此的前回波区域的潜在范围)对应于时间信号s_n的N_long＝2048·44.1kHz/8kHz＝11290个样本(或256ms)。由于本章节中描述的增强方法对时间频率表示X_k,m进行操作，因此N_long需要被转换为M_long＝(N_long-L)/(N-L)＝(11290-64)/(128-64)＝176个帧。N和L是图13.1中的STFT分析块(100)的帧大小和重叠。M_long被设置为前回波宽度的上限，并且被用于限制在检测到的瞬态起始点帧m_i之前的前回波开始帧的搜索区域。对于这项研究，在重新采样之前的解码的信号的采样率被作为基础事实，从而用于前回波宽度的上限M_long被适配于用于编码s_n的特别编解码器。

在估计前回波的实际宽度之前，检测(200)位于瞬态之前的音调频率分量。此后，在瞬态帧之前的M_long个帧的区域中确定(240)前回波宽度。使用这种估计，可以计算(260)前回波区域中的信号包络的阈值，以减少幅度值超过该阈值的那些频谱系数中的能量。为了最终的前回波减少，计算(450)频谱加权矩阵，其包括对于每个k和m的乘法因子，其然后将与X_k,m的前回波区域逐元素相乘。

瞬态之前的音调信号分量的检测

在随后的前回波宽度估计中，使用与瞬态起始点之前的音调频率分量对应的随后检测到的频谱系数，如在下一小节中所述。在随后的前回波减少算法中使用它们以跳过对于那些音调频谱系数的能量减少也是有益的，因为前回波伪像很可能被当前音调分量掩蔽。然而，在一些情况下，跳过音调系数导致额外的伪像的引入，额外的伪像的形式是在检测到的音调频率附近的一些频率处的可听能量增加，因此在该实施例中对于前回波减少方法已经忽略了该方法。

图13.5示出在钟琴音频信号的瞬态之前的潜在前回波区域的频谱图。通过组合两种不同的方法检测两条水平虚线之间的音调分量的频谱系数：

1.沿着每个频谱系数的帧的线性预测，以及

2.在瞬态起始点之前的所有M_long个帧上的每个k中的能量与长度为M_long的所有先前潜在前回波区域的运行平均能量之间的能量比较。

首先，对每个复数值的STFT系数k执行跨时间的线性预测分析，其中根据等式(2.21)-(2.24)使用Levinson-Durbin算法计算预测系数a_k,r。使用这些预测系数，可以对于每个k计算预测增益R_p,k[52，53，54]如下，

其中，

和分别是对于每个k的输入信号X_k,m及其预测误差E_k,m的方差。E_k,m根据等式(2.10)被计算。预测增益是关于使用预测系数a_k,r可以预测多准确的X_k,m的指示，其中高预测增益对应于信号的良好可预测性。瞬态和类噪声信号倾向于导致时域线性预测的较低预测增益，因此如果R_p,k对于特定k足够高，则该频谱系数可能包括音调信号分量。对于该方法，将用于对应于音调频率分量的预测增益的阈值设置为10dB。

除了高预测增益之外，音调频率分量还应该包括超过信号频谱的其余部分的相对高的能量。因此，将当前第i个瞬态的潜在前回波区域中的能量ε_i,k与特定能量阈值进行比较。ε_i,k计算如下

能量阈值是使用过去的前回波区域的运行平均能量计算的，其对于每个下一个瞬态被更新。运行平均能量将表示为

注意的是，

还没有考虑第i个瞬态的当前前回波区域中的能量。索引i仅仅指出，用于关于当前瞬态的检测。如果

是先前前回波区域的所有频谱系数k和帧m上的总能量，则通过下式计算

其中b＝0.7

因此，如果

R_p，k＞10dB以及

当前前回波区域中的频谱系数索引k被定义为包括音调分量。

音调信号分量检测方法(200)的结果是用于在检测到的瞬态之前的每个前回波区域的向量k_tonal,i，其指定满足等式(4.11)中的条件的频谱系数索引k。

前回波宽度的估计

由于没有关于可用于解码的信号s_n的解码器的精确成帧(并且因此关于实际前回波宽度)的信息，所以在前回波减少处理之前需要对于每个瞬态估计(240)实际前回波开始帧。这种估计对于在前回波减少之后的经处理的信号的得到的声音质量是至关重要的。如果估计的前回波区域太小，则部分当前前回波将保留在输出信号中。如果过大，在瞬态之前的过多的信号幅度将被衰减，潜在地导致可听到的信号漏失。如前所述，M_long表示在音频编码器中使用的长分析窗口的大小，并且被认为是在瞬态事件之前的前回波散布的帧的最大可能数量。前回波散布的最大范围M_long将被表示为前回波搜索区域。

图13.6示出前回波估计方法的示意性表示。估计方法遵循这样的假设，即引起的前回波导致在瞬态的起始点之前的时间包络的幅度增大。在图13.6中对于两条垂直虚线之间的区域示出此。在编码的音频信号的解码过程中，量化噪声不是均等地散布在整个合成块上，而是将通过所使用的窗口函数的特别形式被整形。因此，引起的前回波导致幅度的逐渐上升而不是突然增大。在前回波的起始点之前，信号可以包括静音或其它信号分量，例如之前某一时间发生的另一声事件的持续部分。因此，前回波宽度估计方法的目的是找到信号幅度的上升与引起的量化噪声(即前回波伪像)的起始点相对应的时刻。

检测算法仅使用X_k,m的3kHz以上的HF成分，因为输入信号的大部分能量集中在LF区域。对于本文使用的特定STFT参数，这对应于k≥18的频谱系数。这样，由于假定不存在可能使检测过程复杂化的其它信号分量，所以前回波起始点的检测变得更加鲁棒。此外，如果已经用先前描述的音调分量检测方法检测到的音调频谱系数k_tonal对应于3kHz以上的频率，则它们也将被排除在估计过程之外。然后，剩余的系数被用于计算简化前回波估计的适当的检测函数。首先，在频率方向上对前回波搜索区域中的所有帧进行信号能量的求和，以获得幅度信号L_m如下

k_max对应于低通滤波器的截止频率，其已经在编码过程中被用于限制原始音频信号的带宽。此后，L_m被平滑以减小信号水平的波动。通过跨时间在前向和后向上用3抽头运行平均滤波器对L_m进行滤波来完成平滑，以产生经平滑的幅度信号

这样，滤波器延迟被补偿，并且滤波器变为零相位。然后

被得出以通过下式计算其斜率L'_m，

然后L'_m用与之前用于L_m的相同的运行平均滤波器进行滤波。这产生经平滑的斜率

其被用作得到的检测函数D_m＝D_m

以确定前回波的开始帧。

前回波估计的基本思想是找到具有D_m的负值的最后一帧，这标记了这样的时刻，在该时刻之后信号能量增加直到瞬态的起始点。图13.7示出检测函数D_m和随后估计的前回波开始帧的计算的两个示例。对于(a)和(b)中的信号，幅度信号L_m和

被示出在较上的图像中，而较下的图像示出斜率L'_m和

其也是检测函数D_m。对于图13.7(a)中的信号，检测简单地需要找到较下的图像中的具有负值的D_m的最后一帧

即所确定的前回波开始帧被表示为垂直线。这种估计的合理性可以通过对图13.7(a)的较上的图像的视觉检查看出。然而，仅取D_m的最后负值将不会给出(b)中的较低信号(放克)的合适结果。这里，检测函数以负值结束，以及将该最后帧作为m_pre将有效地导致前回波完全没有减少。此外，在那之前可能存在具有负值的D_m的其它帧，这些帧也不与前回波的实际开始相符。这可以在例如在信号(b)的检测函数中看到，其中52≤m≤58。因此，搜索算法需要考虑幅度信号的幅度中的这些波动，幅度信号的幅度中的波动也可以存在于实际的前回波区域。

通过采用迭代搜索算法完成对前回波开始帧m_pre的估计。将使用图13.8中所示的示例检测函数(其与图13.7(b)中的信号的检测函数相同)描述用于前回波开始帧估计的过程。图13.8的顶部和底部图像示出搜索算法的前两次迭代。该估计方法以倒序从估计的瞬态的起始点到前回波搜索区域的开始扫描D_m，并确定D_m的符号改变的若干帧。这些帧在图中被表示为编号的垂直线。顶部图像中的第一次迭代开始于具有正值的D_m的最后一帧(线1)，这里表示为

并且将符号从+→-改变的前一帧确定为前回波开始帧候选(线2)。为了决定候选帧是否应该被认为是m_pre的最终估计，在候选帧之前确定具有符号变化m⁺(线3)和m-(线4)的两个附加帧。是否应该将候选帧作为得到的前回波开始帧m_pre的决定是基于灰色和黑色区域(A⁺和A^-)中的求和值之间的比较。这种比较检查黑色区域A^-(其中D_m呈现负斜率)是否可以被认为是在前回波的开始点之前的输入信号的持续部分，或者它是否是在实际前回波区域内的暂时幅度降低。求和后的斜率A⁺和A^-计算如下

以及

使用A⁺和A^-，如果

A^-＞a·A⁺

将把线2处的候选前回波开始帧定义为得到的开始帧m_pre。

对于估计算法的第一次迭代，因子a最初被设置为a＝0.5，然后对于每次随后的迭代，因子a被调整为a＝0.92·a。这更强调了负斜率区域A^-，这对于整个搜索区域中的幅度信号L_m中的呈现更强幅度变化的一些信号是必需的。如果是等式(4.15)中的停止准则不成立(这是图13.8的顶部图像中的第一次迭代的情况)，则如底部图像中所示，下一次迭代将先前确定的m+作为最后的考虑的帧

并且与过去迭代等效地执行。可以看出，等式(4.15)对于第二次迭代成立，因为A^-明显大于A⁺，所以线2处的候选帧将被作为前回波开始帧m_pre的最终估计。

自适应前回波减少

自适应前回波减少的以下执行可以被划分为三个阶段，如可以在图13.4的框图的底层中看到的：确定前回波幅度阈值th_k，计算频谱加权矩阵W_k,m，以及通过W_k,m与复数值的输入信号X_k,m的逐元素乘法减少前回波噪声。图13.9在较上的图像中示出输入信号X_k,m的频谱图，以及在中间的图像中示出经处理后的输出信号Y_k,m的频谱图，其中前回波已经被减少。通过X_k,m与计算的频谱权重W_k,m(在图13.9的较下的图像中所示)的逐元素相乘执行前回波减少

Y_k，m＝X_k，m·W_k，m.

前回波减少方法的目的是对先前估计的前回波区域中的X_k,m的值加权，使得得到的Y_k,m的幅度值落在特定阈值th_k以下。通过在前回波区域上为X_k,m中的每个频谱系数确定此阈值th_k并为每个帧m计算前回波衰减所需的加权因子，创建频谱加权矩阵W_k,m。W_k,m的计算限于k_min≤k≤k_max之间的频谱系数，其中k_min是对应于最接近f_min＝800Hz的频率的频谱系数索引，从而选择对于k<k_min和k>k_max.f_min的

以避免低频区域的幅度减少，因为乐器和语音的大部分基频位于800Hz以下。在该频率区域中的幅度减弱易于在瞬态之前产生可听到的信号漏失，尤其是对于复杂的音乐音频信号。此外，W_k,m被限制在估计的前回波区域，其中m_pre≤m≤m_i-2，其中m_i是检测到的瞬态起始点。由于在输入信号s_n的STFT分析中的相邻时间帧之间的50％重叠，紧接在瞬态起始点帧m_i之前的帧也可能包括瞬态事件。因此，前回波减弱被限制在帧m≤m_i-2。

前回波阈值确定

如前所述，需要为每个频谱系数X_k,m确定(260)阈值th_k，其中k_min≤k≤k_max，该阈值用于确定在每个检测到的瞬态起始点之前的各个前回波区域中的前回波衰减所需的频谱权重。th_k对应于X_k,m的信号幅度值应当被减少到的幅度值，以得到输出信号Y_k,m。直观的方式可以是简单地取估计的前回波区域的第一帧m_pre的值，因为它应当对应于信号幅度由于引起的前回波量化噪声而开始恒定上升的时刻。然而，例如如果前回波区域被估计得太大或者由于前回波区域中的幅度信号的可能波动，则

不一定表示所有信号的最小幅度值。在图4.10中，将瞬态起始点之前的前回波区域中的幅度信号|X_k,m|的两个示例示出为实灰曲线。顶部图像表示响板信号的频谱系数，底部图像表示来自先前钟琴音调的持续音调分量的子频带中的钟琴信号。为了计算合适的阈值，首先使用2抽头运行平均滤波器在时间上来回地滤波|X_k,m|，以得到经平滑的包络

(如虚黑曲线所示)。然后，将经平滑的信号

与加权曲线C_m相乘，以便幅度值朝向前回波区域的结束而增大。C_m在图13.11中示出并且可以被生成如下

其中M_pre是前回波区域中的帧的数量。在图13.10的两个图中，在与C_m相乘之后的加权包络被示为虚灰曲线。随后，将前回波噪声阈值th_k取为

最小值，其由黑色圆圈指示。对于两个信号的得出的阈值th_k被描绘为水平点划线。对于顶部图像中的响板信号，简单地取经平滑的幅度信号

的最小值而不用C_m对其进行加权就足够了。然而，对于底部图像中的钟琴信号，加权曲线的应用是必需的，其中

的最小值位于前回波区域的结束。将该值取作th_k将导致音调信号分量的强减弱，因此引起可听到的漏失伪像。而且，由于在该音调频谱系数中的较高信号能量，前回波可能被掩蔽，且因此听不见。可以看出，

与加权曲线C_m相乘不会非常大地改变图4.10中的较上的信号中的

的最小值，同时导致用于底部图中示出的音调钟琴分量的适当高的th_k。

频谱权重的计算

得到的阈值th_k用于计算减小X_k,m的幅度值所需的频谱权重W_k,m，因此将对于每个频谱系数索引k计算(450)目标幅度信号

其表示对于每个单独k的具有减少的前回波的最佳输出信号。使用

频谱权重矩阵W_k,m可以被计算如下

随后通过对每个帧m在前向和后向上应用2抽头运行平均滤波器，在频率上对W_k,m进行平滑(460)，以在与输入信号X_k,m相乘之前减少相邻频谱系数k的加权因子之间的大差异。前回波的减弱不是在前回波开始帧m_pre处立即进行到其最大程度，而是在前回波区域的时间段上渐强。这是通过采用(430)具有可调陡度的参数化衰落曲线f_m实现的，所述参数化衰落曲线f_m是如下生成的(440)

其中指数10^c确定f_m的陡度。图13.12示出对于c的不同值的衰减曲线，对于该研究，c已经被设置为c＝-0.5。使用f_m和th_k，目标幅度信号

可以被计算如下

这有效地减小了高于阈值th_k的值|X_k,m|，而保持低于th_k的值不变。

时间超前掩蔽模型的应用

瞬态事件充当掩蔽声音，该掩蔽声音可以暂时掩蔽先前和随后的较弱声音。这里还以这样的方式应用(420)超前掩蔽模型，即，应当仅将|X_k,m|的值减小直到它们落在超前掩蔽阈值之下，在超前掩蔽阈值处它们被假定为是听不见的。所使用的超前掩蔽模型首先计算“原型”超前掩蔽阈值

然后将其调整到X_k,m中的特别掩蔽音瞬态的信号水平。根据B.Edler(Personal Communication，2016年11月22日)[55]选择用于计算超前掩蔽阈值的参数。

作为指数函数被产生，如

参数L和α确定的水平以及斜率。水平参数L被设置为

L＝L_fall+L₀＝50dB+10dB＝60dB.

在掩蔽声音之前的t_fall＝3ms，应当将超前掩蔽阈值降低L_fall＝50dB。首先，通过取

t_fall需要被转换成相应数量的帧m_fall，其中(N-L)是STFT分析的跳跃大小，f_s是采样频率。使用L,L_fall和m_fall，等式(4.21)变为

因此参数α可通过变换等式(4.24)而被确定如下

图13.13中对于在掩蔽声音的起始点(在m＝0处发生)之前的时间段示出得到的初步超前掩蔽阈值垂直虚线标记了对应于在掩蔽音起始点之前t_fall ms的时刻-m_fall，其中阈值减小了L_fall＝-50dB。根据Fastl和Zwicker[33]以及Moore[34]，超前掩蔽可以持续高达20ms。对于在STFT分析中使用的成帧参数，这对应于M_mask≈14个帧的超前掩蔽持续时间，从而

被设置为-oo帧m≤-Mm_ask。

为了计算X_k,m的每个前回波区域中的特别信号相依的超前掩蔽阈值mask_k,m,i，将检测到的瞬态帧m_i以及随后的M_mask个帧视为潜在掩蔽音的时间实例。因此，对于每个频谱系数，

被移位至每个m_i≤m<m_i+M_mask，并且以-6dB的信号-掩蔽比率(即，掩蔽音水平和掩蔽音帧处的

之间的距离)被调整到X_k,m的信号水平。此后，将重叠阈值的最大值作为相应前回波区域的得到的超前掩蔽阈值mask_k,m,i。最后，通过应用相当于等式(2.2)中的滤波操作的单极点递归平均滤波器，在两个方向上在频率上对mask_k,m,i进行平滑，其中滤波器系数b＝0.3。

然后，通过采用下式，使用超前掩蔽阈值mask_k,m,i调整目标幅度信号的值(如等式(4.20)中计算的)，

图13.14示出来自图13.10的相同的两个信号，其中得到的目标幅度信号

作为实黑曲线。对于顶部图像中的响板信号，可以看出，信号幅度到阈值th_k的减少是如何在整个前回波区域中渐强的，以及对于最后一帧m＝16的超前掩蔽阈值的影响，，其中

底部图像(钟琴信号的音调频谱分量)示出，自适应前回波减少方法对持续音调信号分量仅具有较小的影响，仅稍微减弱较小的峰值，而保持输入信号X_k,m的总幅度。

然后，根据等式(4.18)使用X_k,m和计算(450)得到的频谱权重W_k,m，并在将该得到的频谱权重W_k,m应用于输入信号X_k,m之前在频率上对其进行平滑。最后，自适应前回波减少方法的输出信号Y_k,m是通过根据等式(4.16)经由逐元素乘法将频谱权重W_k,m应用(320)到X_k,m而获得的。注意，W_k,m是实值的，并且因此不改变复数值的X_k,m的相位响应。图4.15示出在瞬态起始点之前具有音调分量的钟琴瞬态的前回波减少的结果。底部图像中的频谱权重W_k,m示出在音调分量的频带中大约0dB处的值，从而导致输入信号的持续音调部分的保持。

瞬态起音的增强

在本部分中讨论的方法旨在增强降级的瞬态起音以及加强瞬态事件的幅度。

自适应瞬态起音增强

除了瞬态帧m_i之外，在瞬态之后的时间段中的信号也被放大，其中放大增益在该间隔上渐弱。自适应瞬态起音增强方法以前回波减少阶段的输出信号作为其输入信号X_k,m。与前回波减少方法类似，计算(610)频谱加权矩阵W_k,m，并将其应用(620)到X_k,m，如

Y_k，m＝X_k，m·W_k，m.

然而，在这种情况下，W_k,m用于提高瞬态帧m_i的幅度，并且在较小程度上提高其后的帧，而不是修改瞬态之前的时间段。放大因此被限制在f_min＝400Hz以上和在音频编码器中应用的低通滤波器的截止频率f_max以下的频率。首先，输入信号X_k,m被分成持续部分

和瞬态部分

随后的信号放大仅应用于瞬态信号部分，而持续部分被完全保持。

通过根据等式(2.4)用单极点递归平均滤波器对幅度信号|X_k,m|进行滤波来计算(650)，其中使用的滤波器系数被设置为b＝0.41。图13.16的顶部图像示出作为灰色曲线的输入信号幅度|X_k,m|的示例，以及作为虚线曲线的对应持续信号部分

然后，瞬态信号部分被计算(670)如下

在图13.16的底部图像中，顶部图像中的对应输入信号幅度|X_k,m|的瞬态部分被显示为灰色曲线。不是仅在m_i处乘以特定增益因子G，而是在瞬态帧之后的

个帧的时间段上，放大的量渐弱(680)。渐弱的增益曲线G111在图4.17中示出。

的瞬态帧的增益因子被设置为G₁＝2.2，其对应于6.85dB的幅度水平增大，随后帧的增益根据G_m而减小。使用增益曲线G111以及持续和瞬态信号部分，频谱加权矩阵W_k,m将通过下式获得(680)

然后，在根据等式(4.27)增强瞬态起音之前，根据等式(2.2)在前向和后向两个方向上在频率上对W_k,m进行平滑(690)。在图13.16的底部图像中，使用增益曲线G_m的瞬态信号部分

的放大结果可以被看作是黑色曲线。在顶部图像中，具有增强的瞬态起音的输出信号幅度Y_k,m被示出为实黑曲线。

使用线性预测的时间包络整形

与前述的自适应瞬态起音增强方法相反，该方法旨在锐化瞬态事件的起音，而不增大其幅度。相反，通过在频域中应用(720)线性预测并使用用于逆(720a)和合成滤波器(720b)的两组不同的预测系数a_r对时间信号Sn的时间包络进行整形(740)完成对瞬态的“锐化”。通过用逆滤波器(740a)对输入信号频谱进行滤波，可以根据等式(2..9)和(2.10)获得预测残差E_k,m如下

逆滤波器(740a)在频域和时域中对经滤波的输入信号X_k,m进行去相关，有效地使输入信号s_n的时间包络平坦。如果

根据等式(2.12)使用合成滤波器(740b)对E_k,m进行滤波(使用预测系数

)完美地重构输入信号X_k,m。起音增强的目标是计算预测系数

和

以逆滤波器和合成滤波器的组合放大瞬态，同时衰减特别瞬态帧中在瞬态之前和之后的信号部分的方式。

LPC整形方法与前述增强方法一样以不同的成帧参数工作。因此，先前自适应起音增强阶段的输出信号需要用ISTFT重新合成并用新参数再次分析。对于该方法，使用N＝512个样本的帧大小，其中L＝N/2＝256个样本的50％重叠。DFT大小被设置为512。选择较大的帧大小以改进频域中的预测系数的计算，因此高频分辨率比高时间分辨率更重要。在等式(2.21)-(2.24)之后使用Levinson-Durbin算法和p＝24的LPC阶数，对于f_min＝800Hz和f_max(其对应于k_min＝10≤k_lpc≤k_max的频谱系数)之间的频带，在输入信号

的复频谱上计算预测系数

和在此之前，带通信号的自相关函数R_i乘以(802，804)两个不同的窗口函数W_i ^flat和W_i ^synth，用于

和

的计算，以便平滑由相应LPC滤波器[56]描述的时间包络。窗口函数由下式生成

W_icⁱ0≤i≤k_max-k_min，

其中c_flat＝0.4和c_synth＝0.94。图4.13的顶部图像示出两个不同的窗口函数，然后将其乘以R_i。示例输入信号帧的自相关函数连同两个经加窗的版本(R_i·W_i ^flat)和(R_i·W_i ^synth)，被描绘在底部图像中。以得到的预测系数作为平坦和整形滤波器的滤波器系数，通过使用等式(4.30)与等式(2.6)的结果对输入信号X_k,m进行整形如下

这描述了使用所得到的整形滤波器的滤波操作，所得到的整形滤波器可以被解释为逆滤波器(809)和合成滤波器(810)的组合应用(820)。使用FIR(逆/平坦)滤波器(1-P_n)和IIR(合成)滤波器A_n，使用FFT变换等式(4.32)得到系统的时域滤波器传递函数(TF)如下

等式(4.32)可以在时域中等效地用公式表示为输入信号帧s_n与整形滤波器

的乘积如下

图13.13示出等式(4.33)的不同时域TF。两条虚线曲线对应于

和

并且用实灰曲线表示在与增益因子G(811)相乘之前的逆滤波器和合成滤波器

的组合(820)。可以看出，在对于140<n>426之间的信号部分的情况下，使用增益因子G＝1的滤波操作将导致瞬态事件的强幅度增大。对于逆滤波器和合成滤波器,,可以通过下式将适当的增益因子G计算为两个预测增益和的

的比率，

预测增益R_p是从与预测系数a_r有关的部分相关系数ρ_m(其中1≤m≤p)计算出的，并且与Levinson-Durbin算法的等式(2.21)中的a_r一起计算。然后，使用ρ_m，预测增益(811)通过下式获得

具有经调整的幅度的最终在图4.13中示出为实黑曲线。图4.13在顶部图像中示出LPC包络整形之后的得到的输出信号y_n的波形，以及瞬态帧中的输入信号s_n。底部图像将输入信号幅度频谱X_k,m与经滤波的幅度频谱Y_k,m进行比较。

此外，随后阐述了特别地与第二方面有关的实施例的示例：

1.一种用于后处理(20)音频信号的装置，包括：

时间频谱转换器(700)，用于将所述音频信号转换为包括频谱帧序列的频谱表示；

预测分析器(720)，用于计算用于对频谱帧内的频率的预测的预测滤波器数据；

由所述预测滤波器数据控制的整形滤波器(740)，用于对所述频谱帧进行整形以增强所述频谱帧内的瞬态部分；以及

频谱时间转换器(760)，用于将包括经整形的频谱帧的频谱帧序列转换到时域中。

2.如示例1所述的装置，

其中所述预测分析器(720)被配置为计算用于平坦滤波器特性(740a)的第一预测滤波器数据(720a)和用于整形滤波器特性(740b)的第二预测滤波器数据(720b)。

3.如示例2所述的装置，

其中所述预测分析器(720)被配置为使用第一时间常数计算所述第一预测滤波器数据(720a)并且使用第二时间常数计算所述第二预测滤波器数据(720b)，所述第二时间常数大于所述第一时间常数。

4.如示例2或3所述的装置，

其中所述平坦滤波器特性(740a)是分析FIR滤波器特性或全零滤波器特性，当应用于频谱帧时，所述分析FIR滤波器特性或全零滤波器特性导致经修改的频谱帧具有相比于所述频谱帧的时间包络更平坦的时间包络；或

其中所述整形滤波器特性(740b)是合成IIR滤波器特性或全极点滤波器特性，当应用于频谱帧时，所述合成IIR滤波器特性或全极点滤波器特性导致经修改的频谱帧具有相比于所述频谱帧的时间包络较不平坦的时间包络。

5.如前述示例中的任一个所述的装置，

其中所述预测分析器(720)被配置为：

从所述频谱帧计算(800)自相关信号；

使用具有第一时间常数或具有第二时间常数的窗口对所述自相关信号进行加窗(802，804)，所述第二时间常数大于所述第一时间常数；

从使用所述第一时间常数加窗的经加窗的自相关信号计算(806，808)第一预测滤波器数据，或者从使用所述第二时间常数加窗的经加窗的自相关信号计算第二预测滤波器系数；以及

其中所述整形滤波器(740)被配置为使用所述第二预测滤波器系数或使用所述第二预测滤波器系数和第一预测滤波器系数整形所述频谱帧。

6.如前述示例中的任一个所述的装置，

其中所述整形滤波器(740)包括两个可控子滤波器(809，810)的级联，第一子滤波器(809)是具有平坦滤波器特性的平坦滤波器以及第二子滤波器(810)是具有整形滤波器特性的整形滤波器，

其中所述子滤波器(809，810)都由通过所述预测分析器(720)得出的所述预测滤波器数据控制，或者

其中所述整形滤波器(740)是具有通过组合(820)平坦特性和整形特性而得出的组合滤波器特性的滤波器，其中组合特性由从所述预测分析器(720)得出的所述预测滤波器数据控制。

7.如示例6所述的装置，

其中所述预测分析器(720)被配置为确定所述预测滤波器数据，使得对所述整形滤波器(740)使用预测滤波器数据导致整形程度高于通过对所述平坦滤波器特性使用所述预测滤波器数据而获得的平坦程度。

8.如前述示例中的任一个所述的装置，

其中所述预测分析器(720)被配置为将Levinson-Durbin算法应用(806，808)到从所述频谱帧得出的经滤波的自相关信号。

9.如前述示例中的任一个所述的装置，

其中所述整形滤波器(740)被配置为应用增益补偿，使得经整形的频谱帧的能量等于由所述时间频谱转换器(700)生成的频谱帧的能量或者在所述频谱帧的能量的±20％的容差范围内。

10.如前述示例中的任一个所述的装置，

其中所述整形滤波器(740)被配置为应用具有平坦增益的平坦滤波器特性(740a)和具有整形增益的整形滤波器特性(740b)，以及

其中所述整形滤波器(740)被配置为执行用于补偿所述平坦增益和所述整形增益的影响的增益补偿。

11.如示例6所述的装置，

其中所述预测分析器(720)被配置为计算平坦增益和整形增益，

其中所述两个可控子滤波器(809，810)的级联还包括用于应用从所述平坦增益和/或所述整形增益得出的增益的独立的增益阶段(811)或包括在所述两个子滤波器中的至少一个中的增益函数，或

其中具有所述组合特性的所述滤波器(740)被配置为应用从所述平坦增益和/或所述整形增益得出的增益。

12.如示例5所述的装置，

其中所述窗口包括具有时滞作为参数的高斯窗口。

13.如前述示例中的任一个所述的装置，

其中所述预测分析器(720)被配置为计算用于多个帧的预测滤波器数据，使得由所述预测滤波器数据控制的所述整形滤波器(740)对所述多个帧中的包括瞬态部分的帧执行信号操纵，以及使得所述整形滤波器(740)对所述多个帧中的不包括瞬态部分的另一帧不执行信号操纵或者执行比对所述包括瞬态部分的帧的信号操纵小的信号操纵。

14.如前述示例中的任一个所述的装置，

其中所述频谱时间转换器(760)被配置为应用涉及所述频谱表示的至少两个相邻帧的重叠相加操作。

15.如前述示例中的任一个所述的装置，

其中所述时间频谱转换器(700)被配置为应用在3ms和8ms之间的跳跃大小或者具有在6ms和16ms之间的窗口长度的分析窗口，或者

其中所述频谱时间转换器(760)被配置为使用和重叠与重叠窗口的重叠大小对应的范围或与被所述转换器使用的在3ms和8ms之间的跳跃大小对应的范围，或使用具有在6ms和16ms之间的窗口长度的合成窗口，或其中所述分析窗口和所述合成窗口彼此相同。

16.如示例2或3所述的装置，

其中所述平坦滤波器特性(740a)是逆滤波器特性，当应用于频谱帧时，所述逆滤波器特性导致经修改的频谱帧具有相比于所述频谱帧的时间包络更平坦的时间包络；或

其中所述整形滤波器特性(740b)是合成滤波器特性，当应用于频谱帧时，所述合成滤波器特性导致经修改的频谱帧具有相比于所述频谱帧的时间包络较不平坦的时间包络。

17.如前述示例中的任一个所述的装置，其中所述预测分析器(720)被配置为计算用于整形滤波器特性(740b)的预测滤波器数据，以及其中所述整形滤波器(740)被配置为对由所述时间频谱转换器(700)获得的所述频谱帧进行滤波，例如在不进行在先平坦的情况下。

18.如前述示例中的任一个所述的装置，其中所述整形滤波器(740)被配置为根据所述频谱帧的时间包络以最大时间分辨率或小于最大时间分辨率表示整形动作，以及其中所述整形滤波器(740)被配置为根据比与所述整形动作相关联的时间分辨率小的时间分辨率表示非平坦动作或平坦动作。

19.一种后处理(20)音频信号的方法，包括：

将所述音频信号转换(700)为包括频谱帧序列的频谱表示；

计算(720)用于对频谱帧内的频率的预测的预测滤波器数据；

响应于所述预测滤波器数据，对所述频谱帧进行整形(740)，以增强所述频谱帧内的瞬态部分；以及

将包括经整形的频谱帧的频谱帧序列转换(760)到时域中。

20.一种计算机程序，用于当在计算机或处理器上运行时执行示例19的方法。

尽管在装置的上下文中描述了一些方面，但是清楚的是，这些方面还表示对应方法的描述，其中块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面还表示对应装置的对应块或项目或特征的描述。

取决于特定的实现要求，本发明的实施例可以以硬件或软件实现。可以使用其上存储有电子可读控制信号的例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存的数字存储介质执行该实现，这些电子可读控制信号与可编程计算机系统协作(或能够协作)，从而执行相应的方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，电子可读控制信号能够与可编程计算机系统协作，从而执行本文所述的方法中的一个。

通常，本发明的实施例可以被实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码可操作用于执行所述方法中的一个。程序代码例如可以存储在机器可读载体上。

其它实施例包括存储在机器可读载体或非暂时存储介质上的用于执行本文所述的方法中的一个的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文所述的方法中的一个。

因此，本发明方法的进一步实施例是数据载体(或数字存储介质，或计算机可读介质)，包括记录在其上的用于执行本文所述的方法中的一个的计算机程序。

因此，本发明方法的进一步实施例是表示用于执行本文所述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置为经由数据通信连接(例如经由因特网)传送。

进一步实施例包括处理装置，例如计算机或可编程逻辑设备，其被配置为或适于执行本文所述的方法中的一个。

进一步实施例包括计算机，其上安装有用于执行本文所述的方法中的一个的计算机程序。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行本文所述的方法中的一个。通常，优选地，通过任何硬件装置执行所述方法。

上述实施例仅是对本发明原理的说明。应当理解，对本文所述的布置和细节的修改和变化对于本领域的其他技术人员来说是显而易见的。因此，意图仅由即将到来的专利权利要求的范围来限制，而不是由通过这里的实施例的描述和解释而呈现的具体细节来限制。

参考文献

[1]K.Brandenburg,“MP3 and AAC explained,”in Audio Engineering SocietyConference:17th International Conference:High-Quality Audio Coding,1999年9月.

[2]K.Brandenburg and G.Stoll,“ISO/MPEG-1audio:A generic standard forcodingof high-quality digital audio,”J.Audio Eng.Soc.,卷42,页780–792,1994年10月.

[3]ISO/IEC 11172-3,”MPEG-1:Coding of moving pictures and associatedaudiofor digital storage media at up to about 1.5mbit/s-part 3:Audio”internationalstandard,ISO/IEC,1993.JTC1/SC29/WG11.

[4]ISO/IEC 13818-1,“Information technology-generic coding of movingpicturesand associated audio information:Systems,”international standard,ISO/IEC,2000.ISO/IEC JTC1/SC29.

[5]J.Herre and J.D.Johnston,“Enhancing the performance of perceptualaudiocoders by using temporal noise shaping(TNS),”in 101st Audio EngineeringSocietyConvention,编号4384,AES,1996年11月.

[6]B.Edler,“Codierung von audiosignalen mitüberlappendertransformation undadaptiven fensterfunktionen”Frequenz-Zeitschrift fürTelekommunikation,卷43,页253–256,1989年9月.

[7]I.Samaali,M.T.-H.Alouane,and G.Mahé,“Temporal envelope correctionfor attackrestoration im low bit-rate audio coding”in 17th European SignalProcessingConference(EUSIPCO),(Glasgow,Scotland),IEEE,2009年8月.

[8]J.Lapierre and R.Lefebvre,“Pre-echo noise reduction in frequency-domain audiocodecs,”in 42nd IEEE International Conference on Acoustics,Speechand SignalProcessing,页686–690,IEEE,2017年3月.

[9]A.V.Oppenheim and R.W.Schafer,Discrete-Time SignalProcessing.Harlow,UK:Pearson Education Limited,3.ed.,2014.

[10]J.G.Proakis and D.G.Manolakis,Digital Signal Processing-Principles,Algorithms,and Applications.New Jersey,US:Pearson EducationLimited,4.ed.,2007.

[11]J.Benesty,J.Chen,and Y.Huang,Springer handbook of speechprocessing,ch.7.Linear Prediction,页121–134.Berlin:Springer,2008.

[12]J.Makhoul,“Spectral analysis of speech by linear prediction”inIEEE Transactionson Audio and Electroacoustics,卷21,页140–148,IEEE,1973年6月.

[13]J.Makhoul,“Linear prediction:A tutorial review””in Proceedings ofthe IEEE,卷63,页561–580,IEEE,2000年4月.

[14]M.Athineos and D.P.W.Ellis,“Frequency-domain linear predictionfor temporalfeatures”in IEEE Workshop on Automatic Speech Recognition andUnderstanding,页261–266,IEEE,2003年11月.

[15]F.Keiler,D.Arfib,and U.

“Efficient linear prediction fordigital audioeffects,”in COST G-6Conference on Digital Audio Effects(DAFX-00),(Verona,Italy),2000年12月.

[16]J.Makhoul,“Spectral linear prediction:Properties andapplications”in IEEETransactions on Acoustics,Speech,and Signal Processing,卷23,页283–296,IEEE,1975年6月.

[17]T.Painter and A.Spanias,“Perceptual coding of digital audio,”inProceedings ofthe IEEE,卷88,2000年4月.

[18]J.Makhoul,“Stable and efficient lattice methods for linearprediction,”inIEEE Transactions on Acoustics,Speech,and Signal Processing,卷ASSP-25,页423–428,IEEE,1977年10月.

[19]N.Levinson,“The wiener rms(root mean square)error criterion infilter design and prediction,”Journal of Mathematics and Physics,卷25,页261–278,1946年4月.

[20]J.Herre,“Temporal noise shaping,qualtization and coding methodsin perceptual audio coding:A tutorial introduction,”in Audio EngineeringSociety Conference:17th International Conference:High-Quality Audio Coding,卷17,AES,1999年8月.

[21]M.R.Schroeder,“Linear prediction,entropy and signal analysis,”IEEE ASSP Magazine,卷1,页3–11,1984年7月.

[22]L.Daudet,S.Molla,and B.Torrésani,“Transient detection andencoding using wavelet coeffcient trees,”Colloques sur le Traitement duSignal et des Images,2001年9月.

[23]B.Edler and O.Niemeyer,“Detection and extraction of transientsfor audio coding,”in Audio Engineering Society Convention 120,编号6811,(Paris,France),2006年5月.

[24]J.Kliewer and A.Mertins,“Audio subband coding with improvedrepresentation of transient signal segments,”in 9th European SignalProcessing Conference,卷9,(Rhodes),页1–4,IEEE,1998年9月.

[25]X.Rodet and F.Jaillet,“Detection and modeling of fast attacktransients,”in Proceedings of the International Computer Music Conference,(Havana,Cuba),页30–33,2001.

[26]J.P.Bello,L.Daudet,S.Abdallah,C.Duxbury,and M.Davies,“A tutorialon onset detection in music signals,”IEEE Transactions on Speech and AudioProcessing,卷13,页1035–1047,2005年9月.

[27]V.Suresh Babu,A.K.Malot,V.Vijayachandran,and M.Vinay,“Transientdetection for transform domain coders,”in Audio Engineering SocietyConvention 116,编号6175,(Berlin,Germany),2004年5月.

[28]P.Masri and A.Bateman,“Improved modelling of attack transients inmusic analysis-resynthesis,”in International Computer Music Conference,页100–103,1996年1月.

[29]M.D.Kwong and R.Lefebvre,“Transient detection of audio signalsbased on an adaptive comb filter in the frequency domain,”in Conference onSignals,Systems and Computers,2004.Conference Record of the Thirty-SeventhAsilomar,卷1,页542–545,IEEE,2003年11月.

[30]X.Zhang,C.Cai,and J.Zhang,“A transient signal detection techniquebased on flatness measure,”in 6th International Conference on ComputerScience and Education,(Singapore),页310–312,IEEE,2011年8月.

[31]J.D.Johnston,“Transform coding of audio signals using perceptualnoise criteria,”IEEE Journal on Selected Areas in Communications,卷6,页314–323,1988年2月.

[32]J.Herre and S.Disch,Academic press library in Signal processing,卷4,章28.Perceptual Audio Coding,页757–799.Academic press,2014.

[33]H.Fastl and E.Zwicker,Psychoacoustics-Facts andModels.Heidelberg:Springer,3.ed.,2007.

[34]B.C.J.Moore,An Introduction to the Psychology of Hearing.London:Emerald,6.ed.,2012.

[35]P.Dallos,A.N.Popper,and R.R.Fay,The Cochlea.New York:Springer,1.ed.,1996.

[36]W.M.Hartmann,Signals,Sound,and Sensation.Springer,5.ed.,2005.

[37]K.Brandenburg,C.Faller,J.Herre,J.D.Johnston,and B.Kleijn,“Perceptual coding of high-quality digital audio,”in IEEE Transactions onAcoustics,Speech,and Signal Processing,卷101,页1905–1919,IEEE,2013年9月.

[38]H.Fletcher andW.A.Munson,“Loudness,its definition,measurement andcalculation,”The Bell System Technical Journal,卷12,编号4,页377–430,1933.

[39]H.Fletcher,“Auditory patterns,”Reviews of Modern Physics,卷12,编号1,页47–65,1940.

[40]M.Bosi and R.E.Goldberg,Introduction to Digital Audio Coding andStandards.Kluwer Academic Publishers,1.ed.,2003.

[41]P.Noll,“MPEG digital audio coding,”IEEE Signal ProcessingMagazine,卷14,页59–81,1997年9月.

[42]D.Pan,“A tutorial on MPEG/audio compression,”IEEE MultiMedia,卷2,编号2,页60–74,1995.

[43]M.Erne,“Perceptual audio coders"what to listen for",”in 111stAudio Engineering Society Convention,编号5489,AES,2001年9月.

[44]C.-M.Liu,H.-W.Hsu,and W.Lee,“Compression artifacts in perceptualaudio coding,”in IEEE Transactions on Audio,Speech,and Language Processing,卷16,页681–695,IEEE,2008年5月.

[45]L.Daudet,“A review on techniques for the extraction of transientsin musical signals,”in Proceedings of the Third international conference onComputer Music,页219–232,2005年9月.

[46]W.-C.Lee and C.-C.J.Kuo,“Musical onset detection based onadaptive linear prediction,”in IEEE International Conference on Multimediaand Expo,(Toronto,Ontario),页957–960,IEEE,2006年7月.

[47]M.Link,“An attack processing of audio signals for optimizing thetemporal characteristics of a low bit-rate audio coding system,”in AudioEngineering Society Convention,卷95,1993年10月.

[48]T.Vaupel,Ein Beitrag zur Transformationscodierung vonAudiosignalen unter Verwendung der Methode der“Time Domain AliasingCancellation(TDAC)”und einer Signalkompandierung im Zeitbereich.Ph.d.thesis,

Duisburg,Duisburg,Germany,1991年4月.

[49]G.Bertini,M.Magrini,and T.Giunti,“A time-domain system fortransient enhancement in recorded music,”in 14th European Signal ProcessingConference(EUSIPCO),(Florence,Italy),IEEE,2013年9月.

[50]C.Duxbury,M.Sandler,and M.Davies,“A hybrid approach to musicalnote onset detection,”in Proc.of the 5th Int.Conference on Digital AudioEffects(DAFx-02),(Hamburg,Germany),页33–38,2002年9月.

[51]A.Klapuri,“Sound onset detection by applying psychoacousticknowledge,”in Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing,1999年3月.

[52]S.L.Goh and D.P.Mandic,“Nonlinear adaptive prediction of complex-valuedsignals by complex-valued PRNN,”in IEEE Transactions on SignalProcessing,卷53,页1827–1836,IEEE,2005年5月.

[53]S.Haykin and L.Li,“Nonlinear adaptive prediction of nonstationarysignals,”in IEEE Transactions on Signal Processing,卷43,页526–535,IEEE,1995年2月.

[54]D.P.Mandic,S.Javidi,S.L.Goh,and K.Aihara,“Complex-valuedprediction of wind profile using augmented complex statistics,”in RenewableEnergy,卷34,页196–201,Elsevier Ltd.,2009年1月.

[55]B.Edler,“Parametrization of a pre-masking model.”Personalcommunication,2016年11月22日.

[56]ITU-R Recommendation BS.1116-3,“Method for the subjectiveassessment of small impairments in audio systems,”recommendation,International Telecommunication Union,Geneva,Switzerland,2015年2月.

[57]ITU-R Recommendation BS.1534-3,“Method for the subjectiveassessment of intermediate quality level of audio systems,”recommendation,International Telecommunication Union,Geneva,Switzerland,2015年10月.

[58]ITU-R Recommendation BS.1770-4,“Algorithms to measure audioprogramme loudness and true-peak audio level,”recommendation,InternationalTelecommunication Union,Geneva,Switzerland,2015年10月.

[59]S.M.Ross,Introduction to Probability and Statistics for Engineersand Scientists.Elsevier,3.ed.,2004.

Claims

1.一种用于后处理(20)音频信号的装置，包括：

转换器(100)，用于将所述音频信号转换为时间频率表示；

瞬态位置估计器(120)，用于使用所述音频信号或所述时间频率表示估计瞬态部分的时间位置；以及

用于操纵时间频率表示的信号操纵器(140)，其中所述信号操纵器被配置为在瞬态位置之前的时间位置处减少(220)或消除所述时间频率表示中的前回波，或者在瞬态位置处执行所述时间频率表示的整形(500)，以放大所述瞬态部分的起音。

2.如权利要求1所述的装置，

其中所述信号操纵器(140)包括音调估计器(200)，所述音调估计器用于检测所述时间频率表示中的时间上在瞬态部分之前的音调信号分量，以及

其中所述信号操纵器(140)被配置为以频率选择性方式应用前回波减少或消除(220)，使得在已经检测到音调信号分量的频率处，与尚未检测到音调信号分量的频率处相比，减少或关闭信号操纵。

3.如权利要求1或2所述的装置，其中所述信号操纵器(140)包括前回波宽度估计器(240)，所述前回波宽度估计器用于基于所述音频信号的信号能量随时间的发展估计在瞬态位置之前的前回波的时间宽度，以确定包括多个随后音频信号帧的时间频率表示中的前回波开始帧。

4.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)包括前回波阈值估计器(260)，所述前回波阈值估计器用于估计用于在前回波宽度内的所述时间频率表示中的频谱值的前回波阈值，其中所述前回波阈值指示在前回波减少或消除之后的对应频谱值的幅度阈值。

5.如权利要求4所述的装置，

其中所述前回波阈值估计器(260)被配置为使用具有从所述前回波宽度的开始到所述瞬态位置的增大特性的加权曲线确定所述前回波阈值。

6.如前述权利要求中任一项所述的装置，其中前回波阈值估计器(260)被配置为：

在所述时间频率表示的多个随后帧上平滑(330)所述时间频率表示，以及

使用具有从前回波宽度的开始到瞬态位置的增大特性的加权曲线加权(340)经平滑的时间频率表示。

7.如前述权利要求中任一项所述的装置，其中所述信号操纵器(140)包括：

频谱权重计算器(300，160)，用于计算用于所述时间频率表示的频谱值的各个频谱权重；以及

频谱加权器(320)，用于使用所述频谱权重对所述时间频率表示的频谱值进行加权，以获得经操纵的时间频率表示。

8.如权利要求7所述的装置，其中所述频谱权重计算器(300)被配置为：

使用实际频谱值和目标频谱值确定(450)原始频谱权重，或者

在所述时间频率表示的帧内在频率中平滑(460)原始频谱权重，或者

在前回波宽度的开始处在多个帧上使用衰落曲线渐强(430)前回波的减少或消除，或者

确定(420)目标频谱值，使得具有低于前回波阈值的幅度的频谱值不受信号操纵的影响，或者

使用超前掩蔽模型(410)确定(420)目标频谱值，以便基于所述超前掩蔽模型(410)减少前回波区域中的频谱值的减弱。

9.如前述权利要求中任一项所述的装置，

其中所述时间频率表示包括复数值的频谱值，以及

其中所述信号操纵器(140)被配置为将实值的频谱加权值应用于所述复数值的频谱值。

10.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)被配置为放大(500)所述时间频率表示的瞬态帧内的频谱值。

11.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)被配置为仅放大高于最小频率的频谱值，最小频率大于250Hz且低于2kHz。

12.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)被配置为在瞬态位置处将所述时间频率表示划分(630)为持续部分和瞬态部分，

其中所述信号操纵器(140)被配置为仅放大瞬态部分而不放大持续部分。

13.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)被配置为还使用渐弱特性(685)放大所述时间频率表示的在时间上在瞬态位置之后的时间部分。

14.如前述权利要求中任一项所述的装置，

其中所述信号操纵器(140)被配置为使用频谱值的持续部分、经放大的瞬态部分和频谱值的幅度计算(680)用于频谱值的频谱加权因子，其中经放大的部分的放大量是预定的，并且在300％和150％之间，或者

其中频谱权重在频率上被平滑(690)。

15.如前述权利要求中任一项所述的装置，还包括：

频谱时间转换器，用于使用至少涉及所述时间频率表示的相邻帧的重叠相加操作将经操纵的时间频率表示转换(370)到时域中。

16.如前述权利要求中任一项所述的装置，

其中转换器(100)被配置为应用在1ms和3ms之间的跳跃大小或者具有在2ms和6ms之间的窗口长度的分析窗口，或者

其中频谱时间转换器(370)被配置为使用和重叠与重叠窗口的重叠大小相对应的范围或与转换器所使用的在1ms和3ms之间的跳跃大小相对应的范围，或使用具有在2ms和6ms之间的窗口长度的合成窗口，或其中所述分析窗口和所述合成窗口彼此相同。

17.一种用于后处理(20)音频信号的方法，包括：

将所述音频信号转换(100)为时间频率表示；

使用所述音频信号或所述时间频率表示估计(120)瞬态部分的在时间上的瞬态位置；以及

操纵(140)所述时间频率表示，以在瞬态位置之前的时间位置处减少(220)或消除所述时间频率表示中的前回波，或者在瞬态位置处执行所述时间频率表示的整形(500)，以放大瞬态部分的起音。

18.一种计算机程序，当在计算机或处理器上运行时，用于执行权利要求17的方法。