CN102195585A

CN102195585A - 音频信号响度级的自动校正

Info

Publication number: CN102195585A
Application number: CN2011100602318A
Authority: CN
Inventors: 沃尔夫冈.赫斯
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2010-03-12
Filing date: 2011-03-14
Publication date: 2011-09-21
Anticipated expiration: 2031-03-14
Also published as: US8594345B2; EP2367287A3; CA2728272C; KR20110103355A; CA2731066A1; KR20110103339A; EP2367286B1; EP2367286A1; JP2011193442A; US20110222695A1; JP2011193465A; EP2367287A2; CN102195584A; KR101767378B1; JP5805397B2; CN102195585B; CA2728272A1; US8498430B2; US20110228953A1

Abstract

本发明涉及一种用于对包含至少两个不同音轨的音频输出信号的增益进行调整的方法，这至少两个不同音轨具有不同信号水平范围，该方法的步骤包括：-基于人类的心理声学模型，动态地确定音频输入信号的感知响度，-动态地确定由增益确定单元(35)输出的音频输出信号的增益，该增益确定单元(35)接收感知响度并输出具有确定增益的音频输出信号，其中该增益被确定成使得音频输出信号的所述至少两个音轨在输出时覆盖预定的信号水平范围。

Description

音频信号响度级的自动校正

技术领域

本发明涉及对包含至少两个不同音轨(track)的音频输出信号的增益进行调整(adapt)的方法和系统，这至少两个不同音轨具有不同信号水平范围。

背景技术

在本领域中，已知有许多不同的包含音乐和/或语音的音频信号源。音乐信号可被存储在CD、DVD或任意其它的存储介质中。尤其是随着例如MPEG的新压缩方案的发展，具有不同的风格和表演者的音频信号被保存在存储介质上，并可被组合成要播放给用户的播放列表。尤其是在车辆环境中，乘客感受到的音频信号包括音频信号本身和道路轮胎噪声、空气动力噪声和发动机噪声。不同音频源的不同音频信号通常具有不同的信号和动态压缩水平。经常地，音频输出信号的不同音轨具有不同信号水平范围，被用户感知到时具有不同的响度级。尤其是在车辆环境中，所接收的音频信号对于用户应该是能感知到的，这意味着所接收的音频信号必须超过车辆中存在的噪声。同时总音频信号水平不应超过一定的水平，如果超过该水平则会对用户产生听觉损害或使用户感觉疼痛。

发明内容

因此，存在允许对音频信号中的响度级进行动态自动校正的需求，尤其是在嘈杂环境中。并且在收听电影时声音或音乐不应超过一定响度的环境中，例如在晚间使用家庭影院时，需要响度级的动态自动校正。

这种需要可由独立权利要求的特征满足。在从属权利要求中，描述了本发明的实施例的优选实施例。

依据本发明的第一方面，提供了用于对包含至少两个不同音轨的音频输出信号的增益进行调整方法，这至少两个不同音轨具有不同信号水平范围。该方法包括基于人类听觉的心理声学模型动态地确定音频输入信号的感知响度。额外地，动态地确定增益确定单元输出的音频输出信号的增益，该增益确定单元接收所确定的响度并输出音频输出信号，其中增益被确定成使得音频输出信号的所述至少两个音轨被输出时在预定的信号水平范围内。通过以使不同的音轨被输出时在预定范围内的方式对输出信号水平进行自动地调整，对于不同音轨可获得一个相等的响度。此外，用户不再需要音量调节。尤其是避免了对音轨音量或具有高信号声压级SPL的音频信号的减少，还避免了在具有相当低的信号声压级的音频信号的情况下对音量的增加。因此，可以在保留音频信号的动态结构的同时，使所有不同音频信号源具有相等的响度。不同的音轨可以是为相同的音频信号的回放提供的，或者这些不同的音轨可来自不同的信号源或存储媒介。

响度可通过单独使用所述心理声学模型，或者结合使用所述心理声学模型与音频输入信号的信号统计来确定。

依据优选的实施例，本方法包括确定所述至少两个不同音轨之间的暂停或一个音轨内的暂停的步骤，在该暂停中噪声是占主导的音频输入信号。当检测出这样的具有噪声的暂停时，减少在确定的暂停中的增益，以便避免噪声的放大。在本发明的一个实施例中，通过使用对如正在收听音频输入信号的收听者所感知的音频输入信号的空间感知的模拟来基于双耳定位模型确定所述输入信号是否能够被定位，以在音频输入信号中检测出噪声。如果能够使用所述人类听觉的心理声学模型定位音频输入信号，则该音频输入信号不能被当作噪声。但是，如果音频输入信号不能被定位，则该音频输入信号被当作是主要包含噪声。结果，可避免增加仅包含噪声的音频信号的响度。优选地，如果检测到超过预定时间段(例如10-100ms之间，优选地在50ms左右)内的暂停，为该暂停减少增益。因此，只有在长于例如50ms的时间内检测到暂停，增益才被降低，以便避免在非常短的不包含音乐信号时期的音轨中降低增益。但是如果音频输入信号包含更多的信息并且该输入信号水平很低，则因此应该通过以使得音频输出信号覆盖预定的信号水平范围的方式增加增益，来调整该增益。因此，通过对增益进行控制来降低具有太高的音频输入水平的音频输入信号，使得预定的信号水平范围被覆盖，并且如果输入音频水平太低，则该增益被提高，以便覆盖相同的信号水平范围。对于基于输入信号的定位能力的暂停检测可使用定位模型。该定位模型可额外地被用于估计响度。

正常地，以多个块的方式处理音频信号，与对每个采样进行处理相比节省了处理时间。依据本发明的一个实施例，每个块的增益通过使用时间常数来确定，该时间常数描述了从一个信号块到下一个块的响度改变。在该实施例中，提升时间常数被用于描述在两个连续的块之间的上升的信号响度，而下降时间常数被用于描述在两个连续的块之间的下降的响度。一个块包含一个或若干个数字音频输入信号的信号采样。优选地，时间常数被配置成，使得与下降时间常数允许响度下降相比，提升时间常数允许更快的响度增加。信号暂停之后的新音轨开始处需要快速的响度增加，此处需要从一个块到另一个块突然地增加响度。两个块之间响度下降的较低的可能性允许保持在该音频信号中最初包含的增加的响度的动态。

优选地，时间常数是自适应时间常数，其中该自适应时间常数被调整成，使得允许时间常数在音轨开始处，比稍后的音轨期间改变得更快。这使得在音轨开始处响度能够被快速调整，并仍然有助于保持例如在音乐的音轨中的音频信号中包含的动态。尤其地，在包含古典音乐的音乐音轨中，应该保持和信号中最初包含的一样的信号水平的动态。

优选地，当两个音轨之间检测到暂停时，重置自适应时间常数。音频信号源的一些用户可能喜欢保持原始音频信号的动态范围而不对增益进行调整以达到适合的响度。为实现这种结果，可以进一步控制由增益确定单元确定的增益，使得由增益确定单元确定的增益的量可由用户调整。作为示例，可以指示出，自动地并动态地调整的增益可被100％地使用。但是，也可以将增益调整控制成，使得对于音频输出信号水平，根本不考虑由增益确定单元确定的被确定增益。

此外，音频输入信号在被输出之前可被延迟，该延迟与对调整增益进行确定所需的时间相对应。这种延迟可以是恒定的，或可以随调整增益的计算而改变。

本发明还涉及如上描述的那样调整增益的系统，该系统包括响度确定单元，该响度确定单元基于人类听觉的心理声学双耳模型，并最终基于音乐输入信号的信号统计，或者基于两者的结合，动态地确定音频输入信号的响度。在接收所确定的响度的系统中提供了增益确定单元，该增益确定单元输出具有调整增益的音乐输出信号，其中该增益确定单元动态地确定音乐输出信号的增益，使得音频输出信号的至少两个音轨以覆盖预定的信号水平范围的方式被输出。

音频分析单元，如以上提及的那样，通过分析对输入信号进行定位的可能性，或通过使用信号统计确定了暂停。该音乐分析单元试图使用输入信号空间调整的模拟来定位音频输入信号。在EP 1522868A1中描述了如何使用如收听者感知的那样的音乐输入信号空间感知进行定位的一个实施例。定位的进一步的细节可参考此文档。进一步的细节也可以在Wolfgang Hess等人于2003年10月，在Audio Engineering Society Convention Paper 5864，115thConvention中发表的“Acoustical Evaluation of Virtual Rooms by Means of Binaural Activity Patterns”中找到。对于信号源的定位可参考由W.Lindemann在Journal of Acoustic Society of America，1986年12月，p.1608-1622，Vol.80(6)的“Extension of a Binaural Cross-Correlation Model by Contralateral Inhibition.I.Simulation of Lateralization for Stationary Signals”。

音频分析单元如上所述那样确定自适应时间常数，并在检测到暂停时对这些自适应时间常数进行重置。可通过使用上面提到的暂停检测来识别不同音轨的内容，来将音频信号的不同音轨分隔开。该系统可包括增益控制单元，该增益控制单元被配置成将增益控制成使得确定多少数量的确定增益被用于输出信号的输出信号水平。这种增益控制单元可被用户界面控制，该用户界面允许用户选择什么程度的确定增益应被用于控制音频输出信号的信号水平。

而且，可能存在延迟单元，在音频输入信号伴随着被控制的增益被输出之前，将延迟时间引入音频输入信号。该延迟元件引入了与确定调整增益所需的延迟时间相对应的延迟。

附图说明

将参考附图更详细地描述本发明，其中：

图1示意性地示出了车辆内的声音分量，包含噪音和音频分量；

图2示出了音频输入信号与无增益调整的估计响度的示例，包括不同的时间常量以平滑响度，即，对增加响度的快速反应和在减少响度级处的延迟反应；

图3示出了音频输入信号的动态水平调节，如应该为自动响度调节进行调节一样，当已知整个信号内容时进行理想地校正，12个平均响度线被示出；

图4示意性地示出了用于调整音频输出信号增益的系统；

图5示出了被用于确定音频输入信号响度的音频分析单元的更详细的视图；

图6示意性地示出了向音频信号引入时间常数，表现为从一个块到另一个块的增益改变；

图7示出了不具有以及具有自动响度调整的音频输入信号水平；

图8示出了在自动响度调整之前和之后，音频输入信号的另一个示例。

具体实施方式

从图1可以看出，取决于使用的车辆，乘车者感知到不同的环境噪声。车辆声音信号包括噪声分量10和音频信号分量20。噪声信号分量10可归因于道路轮胎噪声、空气动力噪声或发动机噪声。在图1的右侧部分中，指示了不同车辆的噪声，该噪声取决于车辆速度。曲线11描述了在跑车或运动型车中产生的噪声，而曲线12示出了SUV的与速度相关的噪声。正如所看到的，噪声可具有在60到85dB SPL(信号声压级)之间的值。由于听力痛苦阈值在120dB SPL周围，音频信号分量的范围在20-40dB SPL之间。

在图2的上图部分中，以满刻度示出了音频输入信号的信号水平，表示0dB满刻度(0dBFS)被分配到数字域最大可能的信号水平，dB满刻度表示相对于满刻度的分贝。正如从图2的上图部分可以看出的，信号水平变化地相当大，并因此使得被使用者感知的对应于该信号的响度级也变化地相当大。在图2的下图部分，相应的响度被从信号输入水平中估计出，在ITU-RBS.1770-1(“Algorithms to Measure Audio Program Loudness and to a Peak Audio Level”)的建议中描述了一种响度估计的可能方法。在本申请中，响度可通过双耳定位模型(binaural localization model)估计。如果如图2示出的声音信号在车辆中向使用者播放，该音频信号的一些部分可能会被感知到具有令人不快的响度，而音频信号的其它部分可能被认为太低而不能被使用者正确地感知。在图3中示出了图2中的信号被理想地调节后的水平。作为示例，为了让使用者良好地感知到，在范围21中的信号采样应被调整成较低的信号水平，而在范围22中的信号应被调整成较高的信号水平。相似地，范围23中的信号将以强烈减弱的信号水平被输出。作为示例，在图2中示出的不同采样可源自于由例如存储介质(例如硬盘)的单信号源提供的音频信号的不同音轨。在另一个实施例中，不同的音轨/乐曲可源自于不同音频信号源，例如CD/DVD上提供了第一音轨，而在硬盘上提供了所播放的另一个音轨，此处音乐信号可被存储为例如MP3的压缩格式。这两个音轨也可均以压缩或未压缩的格式存储在硬盘上。

在图3的下图部分中，示出了上图部分的对应的经理想调节的水平的估计响度。当比较图2的下图部分与图3的下图部分时，可推导出图3示出的响度估计值优于图2中示出的响度估计值。图3的响度估计值可比图2的响度估计值感知的感觉更好。在此得到了并形像化了平滑的、相对恒定的响度。

图4中示出了一种系统，使用该系统可如同图3的实施例中示意性示出的那样对响度进行调整。所示的系统包括音频信号分析单元30，其中使用人类听力的心理声学定位模型并使用信号统计确定音频输入信号，例如娱乐音频信号的响度。该音频输入信号19被输入到包括增益控制单元41和延迟元件42的信号控制器40。通过使用用户界面50控制由增益控制确定的增益，在用户界面50能够确定：在被经由扬声器60输出或被馈给后处理级之前，由增益确定单元确定的增益是否被用于音频输出信号19，或以哪种程度被用于音频输出信号19。娱乐或音频输入信号可以是2.0、1.5或7.1倍的作为音频信号18输入音频信号分析单元和信号控制器40中的音频信号或另一种格式。

在信号分析单元30中，象征性地示出响度是基于人类听觉心理声学模型并基于信号的统计确定的。心理声学模型被用于估计响度、声音定位，并被用于确定噪音是否在音频输入信号中作为主导因素存在，例如暂停期间或两个音轨之间。信号统计是确定或估计响度以及确定在该音频信号中是否存在具有噪声的暂停的第二基础。作为示例，可确定该娱乐音频信号的信号强度。单独地基于心理声学模型或基于心理声学模型与统计信号模型的结合，响度的适配通过将在下面详细描述的动态确定自适应时间常量来确定。

在图5中，示出了音频信号分析单元30的更详细的视图。该音频信号分析单元包括对接收音频输入信号的响度进行估计的响度确定单元31。该响度确定单元31可使用本领域公知的方法和如在ITU-R BS 1770-1中描述的其他方法来确定响度。该响度确定单元可进一步使用人类听力的双耳模型，该人类听力的双耳模型用于在听到音频输入信号18时确定响度并用于确定该音频输入信号18是否可被用户定位以及被定位在何处。该双耳模型模拟音频输入信号的空间感知，并允许确定该音频输入信号是否主要包含噪声或例如音乐或语音的任何其它输入信号。在本申请前面提到的文件中，主要在EP 1522868A1，W.Lindemann的文件中或在上面提到的Audio Engineering Society Convention Paper 5864中，更详细地描述了对音频输入信号的定位。这种定位技术允许区分噪音和其它声音信号，并有助于在音频输入信号中仅检测出噪声时避免该噪声经过增加的增益被输出。还允许在检测出暂停时重置自适应时间常数。该响度确定单元使用人类听觉的心理声学模型对音频输入信号的响度进行估计。

而且，响度确定单元31可额外地使用统计信号处理，以便估计该音频输入信号的响度或检测信号的暂停。在音频输入信号统计分析中，确定了音频输入信号的不同采样的实际信号水平。作为示例，如果该输入信号的若干连续采样的信号水平符合高斯分布，可推论出所处理的采样只包含噪声而不含其它音频信号。

然后音频信号分析单元使用响度估计的结果，以便计算被引入到音频输入信号中的时间常数。在图5中，时间常数的计算由时间常数生成器32代表。

音频信号分析单元30进一步包括调整该音频输出信号17的增益的增益确定单元35。响度确定单元31通过发出dB响度等值(dBLEQ)提供了一定部分的音乐输入信号，例如包含若干采样的块的响度。该增益确定单元具有预定的信号水平或任意其它信号水平阈值，该预定的信号水平为当输出例如图7和图8的下图部分示出的-12dB的音频信号时应该满足的信号水平。在增益确定单元中，从要获得的平均信号水平中减去确定出的响度，以便计算增益。作为示例，如果确定出的响度对应于-5dB，并且如果目标为-12dB满刻度，则必须据此通过降低增益来调整增益，以便具有约-12dB的平均信号水平。

在图6中示出了由时间常数26分隔开的音频输入信号的不同的采样25。该时间常数26说明了从一个采样到下一个采样应该如何调整响度。该时间常数可以是提升时间常数或下降时间常数。提升时间常数说明从一个采样到下一个采样信号增益如何被增加，反之下降时间常数说明从一个采样到下一个采样增益减少。时间常数26是以使得提升时间常数可比下降时间常数更迅速地被调整的方式确定的。作为示例，如果在两个音轨之间或在一个音轨内确定出信号暂停，则不应增加音频信号水平以便避免噪声的放大。当新的音轨开始时，在非常低的信号水平之后可能立即出现高信号水平。因此必须对响度估计的提升时间常数进行调整，以便避免新音轨开始处的信号水平被大大增加。在音频信号水平减少情况下的下降时间常数只允许与信号水平的增加相比信号水平较慢地减少。而且，时间常数为自适应时间常数，表示音轨越长，时间常数反应越慢。对于提升和下降时间常数，这可能是有效的。经平滑的响度估计还保证了和人类感知响度的方式一样的响度估计。尖峰和凹谷(dips)被人类听觉系统平滑掉。时间常数随着音频音轨的时间增加而更慢地变化，有助于保持该音频信号的动态。但是，也在到达音乐信号的长运行时间时，对增加的响度的较短的反应时间保证了对较快信号增长的适当反应。

在图6的下图部分中，示出对于音乐信号随时间过去的增益增长和增益下降。对于音乐采样的第一块61，第一增益被确定为所示出的那样。对于随后的信号块62，确定其具有增加的增益，随后的信号块63具有轻微下降的增益。基于使用时间常数的响度调整，确定了每个块的增益，即每个块的目标增益。于是块n的目标增益实现为从前一个块n-1的目标增益开始的线性斜坡。

如果确定了在一个音轨中或两个音轨之间有暂停，可重置时间常数。在信号分析单元30中执行的暂停检测或音轨检测由暂停检测单元33和音轨检测单元34代表。在图5的实施例中，响度确定单元31、时间常数生成器32、暂停和音轨检测单元33和34以及增益确定单元35被示为分开的单元。但是，对于本领域技术人员来说应该清楚的是，不同的单元可被合并为更少的单元，并且这些单元可被组合成若干个单元或甚至成为一个单元。而且，信号分析单元可通过硬件元件或软件或硬件和软件的组合来设计。

信号分析单元的信号输出17被输入到增益控制单元41中，该增益控制单元41正如将在下面进一步描述的那样对音频输入信号的增益进行控制。此外，信号控制单元40包括延迟元件，该延迟元件将在信号分析单元中确定增益所需要的延迟引入音频输入信号18。延迟元件有助于确保由信号分析单元30处理的信号实际被对应于音频信号的正确的时间常数控制，正确的时间常数对于该音频信号被确定。

增益控制单元41有助于确定由增益确定单元35确定的增益实际影响信号输出水平的多少数量。为实现这种目的，提供了用户界面50，在该用户界面50中，用户能够指示要对输出使用由音频信号分析单元30进行的增益校正。如果在信号17中存在的100％的增益应该输出，则由增益确定单元确定的值被取出。但是，也可能用户不需要增益调整，例如在用户想要保持一首乐曲中的响度进展的情况下。在该示例中，用户可将增益控制单元中的增益调整设定为0％，意味着没有单元30中确定的校正被用于输出。在增益控制单元中，可确定增益校正量，例如通过设定在0％到100％之间的因子。如果因子被设定为0％，则该增益的确定不受时间常数的影响。

图7中示出了自动响度调整的第一个示例。在图7的上图部分中，示出了响度估计之前的音频输出信号18。正如可由该音频输入信号的两个声道看出的，该输入信号覆盖了不同的输入水平范围。最大输入水平可为0dB满刻度。在图7的下图部分中，示出了在响度估计和增益调整后的音频输出信号19。正如可从图7的下图部分看出的，平均信号水平被设定为-12dB满刻度。同时保留了该音频信号的动态结构。

图8中示出了另一个示例，其中输入水平具有-20dB满刻度的最大输入水平。在图8的下图部分，示出了在响度估计和增益估计之后的音频输出信号19。再次保留了动态结构，并且平均信号水平再次为-12dB满刻度。如果图7和图8的上图部分中示出的输入信号被输出给使用者，该使用者必须频繁地调节音量，以便避免信号水平太高而令人不快，并对收听的信号水平太低的音频信号部分的信号进行增加。

通过本申请的使用，由于系统对响度进行了估计，并且在输出之前自动地且动态地调整了增益，用户将不再需要这种频繁的音量调节。

Claims

1.一种用于对包含至少两个不同音轨的音频输出信号的增益进行调整的方法，这两个不同音轨具有不同信号水平范围，该方法的步骤包括：

-基于人类听觉的心理声学模型，动态地确定音频输入信号的感知响度；

-动态地确定由增益确定单元(35)输出的音频输出信号的增益，该增益确定单元(35)接收所述感知响度并输出具有被确定的增益的音频输出信号，其中以使得所述音频输出信号的至少两个音轨是覆盖预定信号水平范围或响度范围的输出的这样一种方式确定该增益。

2.如权利要求1中所述的方法，进一步包括确定所述至少两个不同音轨之间或一个音轨以内的暂停的步骤，在该暂停中噪声是音频输入信号的主导部分，其中在所确定的暂停中增益被减少，其中通过使用对如收听所述音频输入信号的收听者所感知的音频输入信号的空间感知的模拟来基于双耳定位模型确定是否能够定位所述输入信号，来在所述音频输入信号中检测所述噪声。

3.如权利要求1或2所述的方法，其中所述感知响度是基于所述音频输入信号的信号统计被进一步确定的。

4.如前述权利要求中的任一项所述的方法，其中音频输入和输出信号的每个音轨包含音乐信号的连续的块，其中每个块的响度通过使用时间常数来确定，该时间常数描述了从一个块到下一个块的响度改变。

5.如权利要求4所述的方法，其中提升时间常数被用于描述两个连续块之间升高的响度，而下降时间常数描述两个连续块之间下降的响度，其中时间常数被配置成使得，与下降时间常数允许的响度下降相比，提升时间常数允许更快的响度增加。

6.如权利要求4或5所述的方法，其中所述时间常数为自适应时间常数，其中所述自适应时间常数被调整成，使得在音轨开始处，所述时间常数被允许比稍后音轨期间变化得更快。

7.如权利要求6所述的方法，其中当检测出两个音轨之间的暂停时，所述自适应时间常数被重置，通过确定是否能够通过单独使用双耳定位模型或通过结合使用双耳定位模型与信号统计模型定位所述音频输入信号，来检测所述暂停。

8.如上述权利要求中的任一项所述的方法，进一步包括以下步骤，即，控制增益确定单元(35)确定的增益，使得确定出的增益的多少数量将决定所述音频输出信号的音频输出信号水平被确定。

9.如前述权利要求中的任一项所述的方法，进一步包括在所述音频输入信号被输出之前，将延迟时间包括在所述音频输入信号中的步骤，其中所述延迟时间对应于对所述音频输出信号的增益进行确定所需的时间。

10.一种对包含至少两个不同音轨的音频输出信号的增益进行调整的系统，该至少两个不同的音轨具有不同的信号水平范围，该系统接收音频输入信号并输出具有被调整的增益的音频输出信号，该系统包括：

响度确定单元(31)，其基于人类听觉的心理声学模型动态地确定所述音频输入信号的响度，以及

增益确定单元(35)，其接收所确定的响度并输出具有被调整的增益的音频输出信号，其中该增益确定单元(35)动态地确定所述音频输出信号的增益，使得所述音频输出信号的至少两个音轨是覆盖了预定的信号水平范围的输出。

11.如权利要求10所述的系统，进一步包括暂停检测单元(33)，该暂停检测单元(33)通过使用对如正在收听所述音频输入信号的收听者所感知的音频输入信号的空间感知来确定是否能够定位所述音频输入信号，以确定所述至少两个不同音轨之间或一个音轨以内的暂停，在该暂停中噪声是所述音频输入信号的主导部分，其中，所述增益确定单元(35)在被确定的暂停中减少增益。

12.如权利要求10或11所述的系统，其中所述音频输入和输出信号的每个音轨包括音频信号的连续的块(25)，其中时间常数生成单元(32)确定所述音频输入信号的所述连续的块的时间常数(26)，该时间常数(26)描述了从一个块到下一个块的响度的改变，其中所述增益确定单元(35)基于所述时间常数确定所述音频输出信号的增益。

13.如权利要求12所述的系统，其中所述时间常数生成单元(32)使用提升时间常数来描述两个连续块之间升高的响度，并使用下降时间常数描述两个连续块之间下降的响度，其中所述时间常数生成单元将所述时间常数确定成，使得与下降时间常数允许的增益减少相比，提升时间常数允许增益增加得更快。

14.如权利要求12或13所述的系统，其中所述时间常数生成单元(32)将所述时间常数确定成，使得所述时间常数为自适应时间常数，在音轨开始处，该自适应时间常数在块与块之间能够变化得比在稍后的音轨期间变化得更快。

15.如权利要求12至14中的任一项所述的系统，其中当在两个音轨之间检测出暂停时，所述时间常数生成单元(32)重置所述时间常数。

16.如权利要求11至15中的任一项所述的系统，进一步包括增益控制单元(41)，该增益控制单元(41)被配置成将所述增益确定单元确定的增益控制成，使得所述增益控制单元确定被确定出的增益的多少量将影响所述音频输出信号的音频输出信号水平。

17.如权利要求11至16中的任一项所述的系统，进一步包括延迟元件(42)，所述延迟元件(42)在所述音频输入信号被作为输出信号输出之前将延迟时间引入所述音频输入信号，其中所述延迟元件引入与对所述音频输出信号的增益进行确定所需的时间对应的延迟时间。