CN101421781A

CN101421781A - 音频信号的感知响度和/或感知频谱平衡的计算和调整

Info

Publication number: CN101421781A
Application number: CNA2007800117102A
Authority: CN
Inventors: 阿兰·杰弗里·西费尔特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2006-04-04
Filing date: 2007-03-30
Publication date: 2009-04-29
Also published as: BRPI0709877B1; PL2002429T3; JP4981123B2; BRPI0709877A2; TWI471856B; WO2007120453A1; EP2002429A1; ES2400160T3; RU2008143336A; JP2009532739A; TW200746049A; RU2426180C2; EP2002429B1

Abstract

涉及音频信号的感知声音响度和/或感知频谱平衡的计量和控制的音频信号处理可例如用于以下中的一个或多个：响度补偿式音量控制、自动增益控制、动态范围控制(包括例如限制器、压缩器、扩展器等)、动态均衡以及补偿音频回放环境中的背景噪声干扰。在各实施例中，推导修正参数，用于修正音频信号以便减小其特定响度与目标特定响度之间的差异。

Description

音频信号的感知响度和/或感知频谱平衡的计算和调整

技术领域

本发明涉及音频信号处理。更具体而言，本发明涉及音频信号的感知声音响度和/或感知频谱平衡的计量和控制。本发明可例如用于以下中的一个或多个：响度补偿式音量控制、自动增益控制、动态范围控制(包括例如限制器、压缩器、扩展器等)、动态均衡以及补偿音频回放环境中的背景噪声干扰。本发明不仅包括方法，而且包括对应的计算机程序和装置。

背景技术

已进行了许多开发令人满意的客观的响度计量方法的尝试。Fletcher和Munson在1933年确定人类听觉在低频和高频要比在中频(或话频)迟钝。他们还发现敏感度的相对变化随着声级的升高而减小。早期的响度计包括：麦克风、放大器、表头以及设计成粗略模仿听觉在低、中和高声级的频率响应的滤波器的组合。

尽管这样的设备提供了对单个恒定级的孤立音调的响度的计量，但更复杂声音的计量不与响度的主观印象很好地匹配。这种类型的声级计已标准化但仅用于特定任务，比如工业噪声的监视和控制。

在上世纪五十年代早期，包括Zwicker和Stevens在内的一些人在开发响度感知过程的更逼真模型方面扩展了Fletcher和Munson的工作。Stevens于1956年在Journal of the Acoustical Society of America公布了一种用于“计算复杂噪声的响度(Calculation of the Loudness of ComplexNoise)”的方法，Zwicker于1958年在Acoustica公布了他的论文“Psychological and Methodical Basis of Loudness”。Zwicker于1959年公布了响度计算的图解法，之后不久又公布了几篇类似论文。Stevens和Zwicker的方法被分别标准化为ISO 532的A和B部分。两种方法包括类似的步骤。

首先，通过使音频通过具有在临界频带率尺度上均匀间隔开的中心频率的带通听觉滤波器的组，来对能量沿着内耳基膜的时变分布(称为激励)进行仿真。每个听觉滤波器被设计成对沿着内耳基膜的特定位置的频率响应进行仿真，其中滤波器的中心频率对应于此位置。临界频带宽度被定义为一个这种滤波器的带宽。以赫兹为单位来度量，这些听觉滤波器的临界频带宽度随着中心频率的增大而增大。因此，有用的是，定义弯曲频率尺度，使得以此弯曲尺度度量的所有听觉滤波器的临界频带宽度是恒定的。这样的弯曲尺度被称为临界频带率尺度，在理解和仿真许多种心理声学现象时非常有用。参见例如E.Zwicker和H.Fastl的“Psychoacoustics-Facts and Models”，Springer-Verlag，Berlin，1990。Stevens和Zwicker的方法利用了称为Bark尺度的临界频带率，其中，在500Hz以下，临界频带宽度是恒定的，而在500Hz以上，临界频带宽度增大。最近，Moore和Glasberg定义了一种临界频带率尺度，他们将其命名为等价矩形带宽(ERB)尺度(B.C.J.Moore，B.Glasberg，T.Baer，“A Model for thePrediction of Thresholds，Loudness，and Partial Loudness”，Journal of theAudio Engineering Society，第450卷，第4号，1997年4月，224-240页)。通过利用残余噪声(notched noise)掩蔽器进行的心理声学实验，Moore和Glasberg证明了在500Hz以下临界频带宽度持续减小，这与临界频带宽度保持恒定的Bark尺度形成对比。

在激励的计算之后是非线性压缩函数，该非线性压缩函数生成称为“特定响度”的量。特定响度是将感知响度作为频率和时间的函数的度量，并且可以以沿着临界频带率尺度(比如上述Bark或ERB尺度)的每单位频率的感知响度为单位来度量。理想地，特定响度表示将响度作为频率和时间的函数的连续分布，而时变“总响度”通过将此分布对频率积分来算出。在实践中，获得特定响度的精确表示的方法是：通过使用例如上述听觉滤波器沿着临界频带率尺度对此分布均匀采样。在此情形下，总响度可通过将来自每个滤波器的特定响度简单相加来算出。为了降低复杂度，某些应用可以以感知响度的估计和修正稍微不精确为代价计算特定响度的较为粗略的近似。这样的近似将在后面更详细地讨论。

响度可以以方(phon)为单位来度量。给定声音的用方度量的响度是具有与该声音的主观响度相等的主观响度的1kHz音调的声压级(SPL)。按照惯例，SPL的参考值0dB是2 x 10^-5帕斯卡的均方根压力，因此这也是参考值0方。使用此定义将不同于1kHz的频率处的音调的响度与1kHz处的响度相比较，可针对给定的方级确定等响度线。图11示出了频率在20Hz到12.5kHz之间且方级在4.2方(被认为是听觉阈值)到120方之间的等响度线(ISO 226：1087(E)，“Acoustics-Normal equalloudness level contours”)。该方值度量考虑了人类听觉的敏感度随频率变化，但所得结果不允许评估变化级声音的相对主观响度，因为未尝试校正响度随SPL增长的非线性，即，未尝试校正各等响度线的间距变化这一事实。

响度亦可以以“宋(sone)”为单位来度量。如图11所示，方单位与宋单位之间存在一一映射。一个宋被定义为40dB(SPL)1kHz纯正弦波的响度并等价于40方。宋单位使得以宋为单位的两倍增大对应于感知响度的加倍。例如，4宋被感知为比2宋响一倍。因此，用宋表示响度级能提供更多信息。如果特定响度被定义为将感知响度作为频率和时间的函数的度量，则特定响度可以以“宋每单位频率”为单位来度量。因此，当使用Bark尺度时，特定响度的单位是“宋每Bark”，类似地，当使用ERB尺度时，单位是“宋每ERB”。

如上所述，人耳的敏感度随频率和级二者变化，这是心理声学文献中清楚记载的事实。结果之一是：给定声音的感知频谱或音色随收听声音的声级变化。例如，对于包含低、中和高频的声音，这些频率分量的感知相对比例随声音总响度变化；低频和高频分量在安静时要比在喧闹时听起来更安静(相对于中频而言)。此现象是众所周知的，在声音再现设备中通过所谓响度控制得以减轻此现象。响度控制是在音量被调低时施加低频增强(有时亦施加高频增强)的音量控制。因此，耳朵在极限频率的较低敏感度被那些频率的人工增强所补偿。这样的控制是完全被动的；所施加补偿的程度是音量控制或某种其它用户操作式控制的设置的函数，而不是音频信号内容的函数。

在实践中，低、中和高频之中感知相对频谱平衡的变化依赖于信号，尤其依赖于其实际频谱，而且依赖于想要使其响亮还是柔和。考虑交响乐团的录音。以与听众中的一员将在音乐厅中收听的级相同的级再现，整个频谱的平衡可能无论乐团响亮地还是安静地演奏都是正确的。如果例如安静了10dB地再现音乐，则整个频谱的感知平衡对于响亮段以一种方式变化而对于安静段以另一种方式变化。常规的被动响度控制不根据音乐施加不同的补偿。

在2004年5月27日提交、2004年12月23日公布为WO 2004/111994A2的国际专利申请号PCT/US2004/016964中，Seefeldt等人尤其公开了一种用于计量和调整音频信号的感知响度的系统。通过引用将指定美国的所述PCT申请整体合并于此。在所述申请中，心理声学模型以感知单位计算音频信号的响度。此外，所述申请引入用于计算宽带倍增增益的技术，这些技术当应用于音频时，导致增益修正了的音频的响度与参考响度基本上相同。然而，这种宽带增益的应用改变了音频的感知频谱平衡。

发明内容

在一方面，本发明允许通过修正音频信号以便减小其特定响度与目标特定响度之间的差异来推导可用于控制音频信号的特定响度的信息。特定响度是将感知响度作为频率和时间的函数的度量。在实际实施中，可使得经修正的音频信号的特定响度近似于目标特定响度。如后面所描述的那样，该近似可能不仅受到普通信号处理考虑的影响，而且受到可在该修正中采用的时间和/或频率平滑的影响。

由于特定响度是将音频信号的感知响度作为频率和时间的函数的度量，为了减小音频信号的特定响度与目标特定响度之间的差异，该修正可将音频信号修正为频率的函数。虽然在某些情形下，目标特定响度可能是非时变的，且音频信号本身可能是稳态非时变信号(典型地说)，该修正也可将音频信号修正为时间的函数。

本发明诸方面亦可用来补偿音频回放环境中的背景噪声干扰。当在有背景噪声的情况下收听音频时，噪声可能以依赖于音频的级和频谱以及噪声的级和频谱的方式部分地或完全地遮蔽音频。结果是音频的感知频谱的变更。根据心理声学研究(参见例如Moore、Glasberg和Baer的“A Modelfor the Prediction of Thresholds，Loudness，and Partial Loudness”，J.Audio Eng.Soc.，第45卷，第4号，1997年4月)，可将音频的“部分特定响度”定义为在有次要干扰声音信号比如噪声的情况下的音频的感知响度。

因此，在另一方面，本发明允许通过修正音频信号以便减小其部分特定响度与目标特定响度之间的差异来推导可用于控制音频信号的部分特定响度的信息。这样做以感知上精确的方式减轻了噪声的影响。在考虑了干扰噪声信号的本发明的此方面和其它方面，假定音频信号可访问本身且次要干扰信号可访问本身。

在另一方面，本发明允许通过修正音频信号以便减小其特定响度与目标特定响度之间的差异来控制音频信号的特定响度。

在另一方面，本发明允许通过修正音频信号以便减小其部分特定响度与目标特定响度之间的差异来控制音频信号的部分特定响度。

当目标特定响度不是音频信号的函数时，其可能是存储的或接收到的目标特定响度。当目标特定响度不是音频信号的函数时，该修正或该推导可显式或隐式地计算特定响度或部分特定响度。隐式计算的例子包括查找表或“闭式(closed-form)”数学表达式，其中特定响度和/或部分特定响度被固有地决定(术语“闭式”意在描述可使用有限数量的标准数学运算和函数(比如取幂和余弦)准确表示的数学表达式)。而且，当目标特定响度不是音频信号的函数时，目标特定响度可能是非时变且非频变的，或者可能是仅非时变的。

在又另一方面，本发明允许通过根据一个或多个过程和一个或多个过程控制参数处理音频信号或音频信号的度量以产生目标特定响度来处理音频信号。虽然目标特定响度可能是非时变的(“固定的”)，但目标特定响度可有利地是音频信号的特定响度的函数。虽然典型地说，其可能是静态的非频变且非时变的信号，但音频信号本身是频变且时变的，从而造成目标特定响度当为音频信号的函数时是频变且时变的。

音频和目标特定响度或目标特定响度的表示可从发送中接收或者从存储介质再现。

目标特定响度的表示可以是对音频信号或音频信号的度量进行缩放的一个或多个尺度因子。

本发明的任何以上方面的目标特定响度可以是音频信号或音频信号的度量的函数。音频信号的一个适当度量是音频信号的特定响度。音频信号或音频信号的度量的函数可以是对音频信号或音频信号的度量的缩放。例如，该缩放可以是以下缩放中的一种或组合：

(a)如以下关系式中的对特定响度的时变且频变尺度因子

[b，t]缩放：

\hat{N} [b, t] = Ξ [b, t] N [b, t]

(b)如以下关系式中的对特定响度的时变而非频变尺度因子Φ[t]缩放：

\hat{N} [b, t] = Φ [t] N [b, t]

(c)如以下关系式中的对特定响度的非时变而频变尺度因子Θ[b]缩放：

\hat{N} [b, t] = Θ [b] N [b, t]

(d)如以下关系式中的对特定响度的非时变且非频变尺度因子α缩放：

\hat{N} [b, t] = αN [b, t]

其中

是目标特定响度，N[b，t]是音频信号的特定响度，b是频率的度量，t是时间的度量。

在时变且频变尺度因子的情形(a)下，缩放可至少部分地由期望多带响度与音频信号的多带响度的比值来确定。这样的缩放可用作动态范围控制。采用本发明诸方面作为动态范围控制的进一步细节在后面阐述。

而且，在时变且频变尺度因子的情形(a)下，特定响度可被缩放等于期望频谱形状的度量与音频信号的频谱形状的度量的比值的倍数。这样的缩放可用来将音频信号的感知频谱从时变的感知频谱变换成基本上非时变的感知频谱。当特定响度被缩放等于期望频谱形状的度量与音频信号的频谱形状的度量的比值的倍数时，这样的缩放可用作动态均衡器。采用本发明诸方面作为动态均衡器的进一步细节在后面阐述。

在时变而非频变尺度因子的情形(b)下，缩放可至少部分地由期望宽带响度与音频信号的宽带响度的比值来确定。这样的缩放可用作自动增益控制或动态范围控制。采用本发明诸方面作为自动增益控制或动态范围控制的进一步细节在后面阐述。

在情形(a)(时变且频变尺度因子)或情形(b)(时变而非频变尺度因子)下，尺度因子可以是音频信号或音频信号的度量的函数。

在非时变而频变尺度因子的情形(c)和非时变且非频变尺度因子的情形(d)二者下，该修正或该推导可包括存储尺度因子或者尺度因子可从外部源接收。

在情形(c)和(d)中的任一情形下，尺度因子可以不是音频信号或音频信号的度量的函数。

在本发明的任何各方面及其变体中，该修正、推导或产生可以以不同方式显示或隐式地计算(1)特定响度、和/或(2)部分特定响度、和/或(3)目标特定响度。隐式计算可包括例如查找表或闭式数学表达式。

修正参数可在时间上被平滑。修正参数可例如是(1)与音频信号的频带相关的多个幅度缩放因子，或(2)用于控制一个或多个滤波器(比如多抽头FIR滤波器或多极IIR滤波器)的多个滤波器系数。缩放因子或滤波器系数(和它们被施加于的滤波器)可以是时变的。

在计算定义目标特定响度的音频信号的特定响度的函数或该函数的反函数时，执行这些计算的一个或多个过程在可特征化为感知(心理声学)响度域的域内工作-计算的输入和输出是特定响度。与之相比，在向音频信号的频带施加幅度缩放因子或者向音频信号的可控制滤波施加滤波器系数时，修正参数在感知(心理声学)响度域之外、可特征化为电信号域的域内工作以修正音频信号。虽然对音频信号的修正可在电信号域内对音频信号进行，但电信号域内的这些改变从感知(心理声学)响度域内的计算导出，使得经修正的音频信号具有近似于期望目标特定响度的特定响度。

通过从响度域内的计算推导修正参数，与在电信号域内导出这些修正参数的情况相比，可实现对感知响度和感知频谱平衡的更大控制。此外，与以在电信号域内推导修正参数的布置提供对感知频谱的控制相比，在执行响度域计算时使用基膜仿真的心理声学滤波器组或其等价物可提供对感知频谱的更详细控制。

该修正、推导和产生中的每一个可能依赖于以下中的一个或多个：干扰音频信号的度量、目标特定响度、从经修正的音频信号的特定响度或部分特定响度导出的未修正的音频信号的特定响度的估计、未修正的音频信号的特定响度、以及从经修正的音频信号的特定响度或部分特定响度导出的目标特定响度的近似。

该修正或推导可至少部分地从以下中的一个或多个推导修正参数：干扰音频信号的度量、目标特定响度、从经修正的音频信号的特定响度或部分特定响度导出的未修正的音频信号的特定响度的估计、未修正的音频信号的特定响度、以及从经修正的音频信号的特定响度或部分特定响度导出的目标特定响度的近似。

更具体而言，该修正或推导可至少部分地从下面推导修正参数：

(1)以下两者之一：

目标特定响度，和

从经修正的音频信号的特定响度得到的未修正的音频信号的特定响度的估计，以及

(2)以下两者之一：

未修正的音频信号的特定响度，和

从经修正的音频信号的特定响度导出的目标特定响度的近似或者，当要考虑干扰音频信号时，该修正或推导可至少部分地从下面推导修正参数：

(1)干扰音频信号的度量

(2)以下两者之一：

目标特定响度，和

从经修正的音频信号的部分特定响度导出的未修正的音频信号的特定响度的估计，以及

(3)以下两者之一：

未修正的音频信号的特定响度，和

从经修正的音频信号的部分特定响度导出的目标特定响度的近似

可采用一种前馈布置，其中特定响度从音频信号导出，并且其中目标特定响度从该方法外部的源接收，或者当该修正或推导包括存储目标特定响度时从存储接收。可替选地，可采用一种混合前馈/反馈布置，其中目标特定响度的近似从经修正的音频信号导出，并且其中目标特定响度从该方法外部的源接收，或者当该修正或推导包括存储目标特定响度时从存储接收。

该修正或推导可包括用于显式或隐式地获得目标特定响度的一个或多个过程，所述过程中的一个或多个显式或隐式地计算音频信号或音频信号的度量的函数。在一个可替选方案中，可采用一种前馈布置，其中特定响度和目标特定响度从音频信号导出，目标特定响度的推导采用了音频信号或音频信号的度量的函数。在另一个可替选方案中，可采用一种混合前馈/反馈布置，其中目标特定响度的近似从经修正的音频信号导出，且目标特定响度从音频信号导出，目标特定响度的推导采用了音频信号或音频信号的度量的函数。

该修正或推导可包括用于显式或隐式地获得响应于经修正的音频信号对未修正的音频信号的特定响度进行的估计的一个或多个过程，所述过程中的一个或多个显式或隐式地计算音频信号或音频信号的度量的函数的反函数。在一个可替选方案中，采用一种反馈布置，其中未修正的音频信号的特定响度的估计以及目标特定响度的近似从经修正的音频信号导出，特定响度的估计使用音频信号或音频信号的度量的函数的反函数来计算。在另一个可替选方案中，采用一种混合前馈/反馈布置，其中特定响度从音频信号导出，且未修正的音频信号的特定响度的估计从经修正的音频信号导出，该估计的推导使用音频信号或音频信号的度量的所述函数的反函数来计算。

修正参数可被施加于音频信号以产生经修正的音频信号。

本发明的另一方面是：可存在过程和设备的时间和/或空间分离，使得在效果上既存在编码器或编码也存在解码器或解码。例如，可存在一种编码/解码系统，其中修正或推导可发送和接收或者存储和再现音频信号以及(1)修正参数或(2)目标特定响度或目标特定响度的表示。可替选地，在效果上可仅存在编码器或编码，其中存在音频信号以及(1)修正参数或(2)目标特定响度或目标特定响度的表示的发送或存储。可替选地，如上所述，在效果上可仅存在解码器或解码，其中存在音频信号以及(1)修正参数或(2)目标特定响度或目标特定响度的表示的接收和再现。

附图说明

图1是示出了根据本发明诸方面的前馈实施的例子的功能框图。

图2是示出了根据本发明诸方面的反馈实施的例子的功能框图。

图3是示出了根据本发明诸方面的一个混合前馈/反馈实施的例子的功能框图。

图4是示出了根据本发明诸方面的另一个混合前馈/反馈实施的例子的功能框图。

图5是示出了由前馈、反馈和混合前馈/反馈布置中的任何一种布置确定的修正参数和未修正的音频信号可怎样被存储或发送以例如供时间或空间分离的设备或过程使用的功能框图。

图6是示出了由前馈、反馈和混合前馈/反馈布置中的任何一种布置确定的目标特定响度或其表示和未修正的音频信号可怎样被存储或发送以例如供时间或空间分离的设备或过程使用的功能框图。

图7是示出了本发明的一方面的概观的示意性功能框图或示意性流程图。

图8是适合作为本发明实施例中的透射滤波器的线性滤波器P(z)的理想化特征响应，其中竖直轴是用分贝(dB)表示的衰减，水平轴是用赫兹(Hz)表示的log₁₀频率。

图9示出了ERB频率尺度(竖直轴)与用赫兹表示的频率(水平轴)之间的关系。

图10示出了近似于ERB尺度上的临界频带的一组理想化听觉滤波器特征响应。水平尺度是用赫兹表示的频率，竖直尺度是用分贝表示的级。

图11示出了ISO 226的等响度线。水平尺度是用赫兹表示的频率(log₁₀尺度)，竖直尺度是用分贝表示的声压级。

图12示出了由透射滤波器P(z)规格化的ISO 226的等响度线。水平尺度是用赫兹表示的频率(log₁₀尺度)，竖直尺度是用分贝表示的声压级。

图13a是示出了对于对女性讲话片段的0.25倍响度缩放而言的宽带和多带增益的理想化图。水平尺度是ERB频带，竖直尺度是用分贝(dB)表示的相对增益。

图13b是分别示出了原始信号、经宽带增益修正的信号、以及经多带增益修正的信号的特定响度的理想化图。水平尺度是ERB频带，竖直尺度是特定响度(宋/ERB)。

图14a是示出了对于典型AGC而言的L_o[t]与L_i[t]之间函数关系的理想化图。水平尺度是log(L_i[t])，竖直尺度是log(L_o[t])。

图14b是示出了对于典型DRC而言的L_o[t]与L_i[t]之间函数关系的理想化图。水平尺度是log(L_i[t])，竖直尺度是log(L_o[t])。

图15是示出了对于多带DRC而言的典型频带平滑函数的理想化图。水平尺度是频带号，竖直尺度是对于频带b而言的增益输出。

图16是示出了本发明的一方面的概观的示意性功能框图或示意性流程图。

图17是与图1类似的还包括对回放环境中噪声的补偿的示意性功能框图或示意性流程图。

具体实施方式

图1到4是示出了根据本发明诸方面的可能的前馈、反馈和两个版本的混合前馈/反馈实施的例子的功能框图。

参考图1中前馈拓扑的例子，音频信号被施加于两条路径：(1)具有能够响应于修正参数而修正音频信号的过程或设备2(“修正音频信号”)的信号路径，以及(2)具有能够生成修正参数的过程或设备4(“生成修正参数”)的控制路径。图1前馈拓扑例子中的和图2-4例子中的每一个中的修正音频信号2可以是这样的设备或过程：其根据从生成修正参数4(或分别从图2-4例子中的每一个中的对应物过程或设备4’、4”和4”’)接收到的修正参数M以频变和/或时变的方式修正音频信号(例如其幅度)。生成修正参数4及其在图2-4中的对应物每个都至少部分地在感知响度域内工作。在图1-4例子中的每一个中，修正音频信号2在电信号域内工作并生成经修正的音频信号。而且，在图1-4例子中的每一个中，修正音频信号2和生成修正参数4(或其对应物)修正音频信号以减小其特定响度与目标特定响度之间的差异。

在图1前馈例子中，过程或设备4可包括几个过程和/或设备：“计算目标特定响度”过程或设备6，其响应于音频信号或音频信号的度量(比如音频信号的特定响度)而计算目标特定响度；“计算特定响度”过程或设备8，其响应于音频信号或音频信号的度量(比如其激励)而计算音频信号的特定响度；以及“计算修正参数”过程或设备10，其响应于特定响度和目标特定响度而计算修正参数。计算目标特定响度6可执行一个或多个函数“F”，其每个可具有函数参数。例如，计算目标特定响度6可计算音频信号的特定响度然后向其施加一个或多个函数F以提供目标特定响度。这在图1中示意性地显示为到过程或设备6的“选择函数F和函数参数”输入。代替由设备或过程6计算，目标特定响度可由包含在生成修正参数4中或与生成修正参数4相关联的存储过程或设备(示意性地显示为到过程或设备10的“存储”输入)来提供，或者由整个过程或设备外部的源(示意性地显示为到过程或设备10的“外部”输入)来提供。因此，修正参数至少部分地基于感知(心理声学)响度域内的计算(即，至少特定响度和在某些情形下目标特定响度计算)。

由过程或设备6、8和10(以及图2例子中的过程或设备12、14、10’，图3例子中的过程或设备6、14、10”，和图4例子中的过程或设备8、12、10”’)执行的计算可被显式和/或隐式地执行。隐式执行的例子包括：(1)查找表，其条目全部或部分地基于特定响度和/或目标特定响度和/或修正参数计算，以及(2)闭式数学表达式，其固有地全部或部分地基于特定响度和/或目标特定响度和/或修正参数。

虽然图1例子中的计算过程或设备6、8和10(以及图2例子中的过程或设备12、14、10’，图3例子中的过程或设备6、14、10”，和图4例子中的过程或设备8、12、10”’)被分别示意性地示出和描述，但这仅是出于解释的目的。应理解，这些过程或设备中的部分或全部可组合成单个过程或设备或者以不同方式组合成多个过程或设备。例如，在下面图9的布置(如图1的例子中的前馈拓扑)中，计算修正参数的过程或设备响应于从音频信号和目标特定响度导出的经平滑的激励而计算修正参数。在图9例子中，计算修正参数的设备或过程隐式地计算音频信号的特定响度。

作为本发明的一方面，在图1的例子中和在此处本发明各实施例的其它例子中，目标特定响度

可通过以一个或多个缩放因子来缩放特定响度(N[b，t])来计算。该缩放可以是如以下关系式中的对特定响度的时变且频变尺度因子

[b，t]缩放：

\hat{N} [b, t] = Ξ [b, t] N [b, t]

如以下关系式中的对特定响度的时变而非频变尺度因子Φ[t]缩放：

\hat{N} [b, t] = Φ [t] N [b, t]

如以下关系式中的对特定响度的非时变而频变尺度因子Θ[b]缩放：

\hat{N} [b, t] = Θ [b] N [b, t]

或者如以下关系式中的对音频信号的特定响度的尺度因子α缩放：

\hat{N} [b, t] = αN [b, t]

其中b是频率的度量(例如频带号)，t是时间的度量(例如块号)。亦可利用特定缩放的多重实例和/或各特定缩放的组合来采用多重缩放。后面给出这样的多重缩放的例子。在某些情形下，如后面进一步解释的那样，缩放可以是音频信号或音频信号的度量的函数。在其它情形下，也如后面进一步解释的那样，当缩放不是音频信号的度量的函数时，缩放可以以其它方式确定或提供。例如，用户可选择或施加非时变且非频变尺度因子α或非时变而频变的尺度因子Θ[b]缩放。

因此，目标特定响度可表示为音频信号或音频信号的度量的一个或多个函数F(特定响度是音频信号的一个可能的度量)：

\hat{N} [b, t] = F (N [b, t])

如果该一个或多个函数F是可逆的，则未修正的音频信号的特定响度(N[b，t])可计算为目标特定响度的一个或多个反函数F^-1：

N [b, t] = F^{- 1} (\hat{N} [b, t])

如后面将看到的那样，该一个或多个反函数F^-1在图2和图4的反馈和混合前馈/反馈例子中计算。

示出了计算目标特定响度6的“选择函数和函数参数”输入，以表明设备或过程6可通过根据一个或多个函数参数施加一个或多个函数来计算目标特定响度。例如，计算目标特定响度8可计算音频信号的特定响度的该一个或多个函数“F”以便限定目标特定响度。例如，“选择函数和函数参数”输入可选择：属于以上类型缩放中的一种或多种的一个或多个特定函数；以及一个或多个函数参数，比如属于所述函数的常数(例如尺度因子)。

如上所述，由于目标特定响度可计算为特定响度的缩放，所以与缩放相关联的尺度因子可充当目标特定响度的表示。因此，在后面描述且前面提到的图9例子中，查找表可由尺度因子和激励来索引，使得特定响度和目标特定响度的计算为查找表所固有。

无论采用查找表、闭式数学表达式还是某种其它技术，生成修正参数4(及其在图2-4例子中的每一个中的对应物过程或设备4’、4”和4”’)的工作使得所述计算基于感知(心理声学)响度域，尽管特定响度和目标特定响度可能不被显式地算出。要么存在显式特定响度，要么存在概念上的隐式特定响度。类似地，要么存在显式目标特定响度，要么存在概念上的隐式目标特定响度。在任何情形下，修正参数的计算设法生成这样的修正参数：其修正音频信号以减小特定响度与目标特定响度之间的差异。

在具有次要干扰音频信号(比如噪声)的回放环境中，计算修正参数10(及其在图2-4例子中的每一个中的对应物过程或设备10’、10”和10”’)亦可以以任选输入来接收这样的次要干扰音频信号的度量或该次要干扰信号本身作为其输入之一。这样的任选输入在图1中(和在图2-4中)以虚线示出。次要干扰信号的度量可以是比如后面描述的图17的例子中的该次要干扰信号的激励。向图1中的计算修正参数过程或设备10(及其在图2-4例子中的每一个中的对应物过程或设备10’、10”和10”’)施加干扰信号的度量或干扰信号本身(假定干扰信号可单独供处理所用)允许适当配置的这种过程或设备计算考虑了干扰信号的修正参数，这在后面在标题“噪声补偿”下进一步解释。在图2-4的例子中，部分特定响度的计算假定干扰信号的适当度量不仅施加于相应的计算修正参数10’、10”或10”’，而且施加于“计算未修正的音频的特定响度的近似”过程或设备12和/或“计算目标特定响度的近似”过程或设备14以便利于该功能或设备执行部分特定响度的计算。在图1前馈例子中，部分特定响度不被显式地算出-图1中的计算修正参数10计算适当的修正参数以使得经修正的音频的部分特定响度近似于目标特定响度。这在后面在上述标题“噪声补偿”下进一步解释。

如上所述，在图1-4例子中的每一个中，修正参数M当被音频信号修正器2施加于音频信号时减小作为结果的经修正的音频的特定响度或部分特定响度与目标特定响度之间的差异。理想地，经修正的音频信号的特定响度非常近似于目标特定响度或与目标特定响度相同。修正参数M可例如采取施加于从滤波器组得到的频带或施加于时变滤波器的系数的时变增益因子的形式。因此，在所有的图1-4例子中，修正音频信号2可例如实施为每个都在一频带内工作的多个幅度缩放器、或时变滤波器(例如多抽头FIR滤波器或多极IIR滤波器)。

在本文献中的此处和别处，相同标号的使用表明该设备或过程可与带有相同标号的另一个或另一些设备或过程基本上相同。带有上标的标号(例如“10’”)表明该设备或过程与带有相同基标号或其带上标版本的另一个或另一些设备或过程在结构或功能上类似但可能是所述另一个或另一些设备或过程的修改形式。

在特定约束下，可实现图1的前馈例子的近似等价的反馈布置。图2描绘了这样的例子，其中音频信号同样施加于信号路径中的修正音频信号过程或设备2。过程或设备2同样从控制路径接收修正参数M，在控制路径中，反馈布置中的生成修正参数过程或设备4’从修正音频信号2的输出端接收经修正的音频信号作为其输入。因此，在图2例子中，是经修正的音频而不是未修正的音频被施加于控制路径。修正音频信号过程或设备2和生成修正参数过程或设备4’修正音频信号以减小其特定响度与目标特定响度之间的差异。过程或设备4’可包括几个功能和/或设备：“计算未修正的音频的特定响度的近似”过程或设备12、“计算目标特定响度的近似”过程或设备14、以及计算修正参数的“计算修正参数”过程或设备10’。

在该一个或多个函数F可逆这一约束下，过程或设备12通过向经修正的音频信号的特定响度或部分特定响度施加反函数F^-1来估计未修正的音频信号的特定响度。如上所述，设备或过程12可计算反函数F^-1。这在图2中示意性地显示为到过程或设备12的“选择反函数F^-1和函数参数”输入。“计算目标特定响度的近似”14通过计算经修正的音频信号的特定响度或部分特定响度来工作。该特定响度或部分特定响度是目标特定响度的近似。计算修正参数10’使用未修正的音频信号的特定响度的近似以及目标特定响度的近似来导出修正参数M，修正参数M当被修正音频信号2施加于音频信号时减小经修正的音频信号的特定响度或部分特定响度与目标特定响度之间的差异。如上所述，这些修正参数M可例如采取施加于滤波器组的频带或时变滤波器的系数的时变增益的形式。在计算修正参数10”实际实施例中，反馈环可在修正参数M的计算和施加之间引入延迟。

如上所述，在具有次要干扰音频信号(比如噪声)的回放环境中，计算修正参数10’、计算未修正的音频的特定响度的近似12、以及计算目标特定响度的近似14每个都同样可以以任选输入来接收这样的次要干扰音频信号的度量或该次要干扰信号本身作为其输入之一，且过程或设备12和过程或设备14每个都可计算经修正的音频信号的部分特定响度。这样的任选输入在图2中用虚线示出。

如上所述，本发明诸方面的混合前馈/反馈实施的例子是可能的。图3和4示出了这样的实施的两个例子。在图3和4例子中，如图1和2例子中那样，音频信号同样施加于信号路径中的修正音频信号过程或设备2，但相应控制路径中的生成修正参数(图3中的4”，图4中的4”’)每个都接收未修正的音频信号和经修正的音频信号二者。在图3和4例子中，修正音频信号2和生成修正参数(分别是4”和4”’)修正音频信号以减小其特定响度(它可能是隐式的)与目标特定响度(它也可能是隐式的)之间的差异。

在图3例子中，生成修正参数过程或设备4’可包括几个功能和/或设备：如图1例子中的计算目标特定响度6、如图2反馈例子中的计算目标特定响度的近似14、以及“计算修正参数”过程或设备10”。如图1例子中那样，在此混合前馈/反馈例子的前馈部分中，计算目标特定响度6可执行一个或多个函数“F”，其每个可具有函数参数。这在图3中示意性地显示为到过程或设备6的“选择函数F和函数参数”输入。在此混合前馈/反馈例子的反馈部分中，如图2反馈例子中那样，经修正的音频信号被施加于计算目标特定响度的近似14。过程或设备14通过计算经修正的音频信号的特定响度或部分特定响度来如它在图2例子中工作那样在图3例子中工作。这样的特定响度或部分特定响度是目标特定响度的近似。目标特定响度(来自过程或设备6)和目标特定响度的近似(来自过程或设备14)被施加于计算修正参数10”以导出修正参数M，修正参数M当被修正音频信号2施加于音频信号时减小未修正的音频信号的特定响度与目标特定响度之间的差异。如上所述，这些修正参数M可例如采取施加于滤波器组的频带或时变滤波器的系数的时变增益的形式。在实际实施例中，反馈环可在修正参数M的计算和施加之间引入延迟。如上所述，在具有次要干扰音频信号(比如噪声)的回放环境中，计算修正参数10”和计算目标特定响度的近似14每个都同样可以以任选输入来接收这样的次要干扰音频信号的度量或该次要干扰信号本身作为其输入之一，且过程或设备14可计算经修正的音频信号的部分特定响度。任选输入在图3中用虚线示出。

计算修正参数10”可采用误差检测设备或功能，使得其目标特定响度与目标特定响度近似输入之间的差异调整修正参数以便减小目标特定响度的近似与“实际”目标特定响度之间的差异。这样的调整减小了未修正的音频信号的特定响度与目标特定响度(其可能是隐式的)之间的差异。因此，修正参数M可基于目标特定响度与目标特定响度近似之间的误差被更新，其中目标特定响度在前馈路径中根据原始音频的特定响度使用函数F算出，而目标特定响度近似在反馈路径中根据经修正的音频的特定响度或部分特定响度算出。

在图4例子中，示出了一个可替选的前馈/反馈例子。此可替选例子与图3的例子的不同之处在于：该一个或多个反函数F^-1在反馈路径中计算，而不是该一个或多个函数F在前馈路径中计算。在图4例子中，生成修正参数过程或设备4’可包括几个功能和/或设备：如图1前馈例子中的计算特定响度8、如图2反馈例子中的计算未修正的音频的特定响度的近似12、以及计算修正参数10”’。如图1前馈例子中那样，计算特定响度8提供未修正的音频信号的特定响度作为到计算修正参数10”’的输入。如图2反馈例子中那样，在该一个或多个函数F可逆这一约束下，过程或设备12通过向经修正的音频信号的特定响度或部分特定响度施加反函数F^-1来估计未修正的音频信号的特定响度。示出了计算未修正的音频的特定响度的近似12的“选择反函数和反函数参数”输入，以表明如上所述那样设备或过程12可计算反函数F^-1。这在图4中示意性地显示为到过程或设备12的“选择反函数F^-1和函数参数”输入。因此，过程或设备12提供未修正的音频信号的特定响度的近似作为到计算修正参数10”’的另一个输入。

如图1-3的例子中那样，计算修正参数10”’导出修正参数M，修正参数M当被修正音频信号2施加于音频信号时减小未修正的音频信号的特定响度与目标特定响度(其在此例子中是隐式的)之间的差异。如上所述，修正参数M可例如采取施加于滤波器组的频带或时变滤波器的系数的时变增益的形式。在实际实施例中，反馈环可在修正参数M的计算和施加之间引入延迟。如上所述，在具有次要干扰音频信号(比如噪声)的回放环境中，计算修正参数10”’和计算未修正的音频的特定响度的近似12每个都同样可以以任选输入来接收这样的次要干扰音频信号的度量或该次要干扰信号本身作为其输入之一，且过程或设备12可计算经修正的音频信号的部分特定响度。任选输入在图4中用虚线示出。

计算修正参数10”’可采用误差检测设备或功能，使得其特定响度与特定响度近似输入之间的差异产生这样的输出：其调整修正参数以便减小特定响度的近似与“实际”特定响度之间的差异。因为特定响度的近似从经修正的音频的特定响度或部分特定响度(其可视为目标特定响度的近似)导出，所以这样的调整减小了经修正的音频信号的特定响度与目标特定响度(其为该一个或多个函数F^-1所固有)之间的差异。因此，修正参数M可基于特定响度与特定响度近似之间的误差被更新，其中特定响度在前馈路径中根据原始音频算出，而特定响度近似在反馈路径中根据经修正的音频的特定响度或部分特定响度、使用该一个或多个反函数F^-1算出。归因于反馈路径，实际实施可在修正参数的更新和施加之间引入延迟。

虽然图1-4的例子中的修正参数M当被施加于修正音频信号过程或设备2时减小音频信号的特定响度与目标特定响度之间的差异，但在实际实施例中，响应于同一音频信号而产生的对应修正参数可能彼此不相同。

虽然对本发明诸方面来说不是关键或必需的，音频信号或经修正的音频信号的特定响度的计算可有利地采用公布为WO 2004/111964 A2的所述国际专利申请号PCT/US2004/016964中阐述的技术，其中该计算从构成一组的两个或更多特定响度模型函数中选择两个或更多所述特定响度模型函数中的一个或组合，其选择由输入音频信号的特征的度量来控制。后面对图7的特定响度104的描述描述了这样的布置。

根据本发明的又一些方面，未修正的音频信号以及(1)修正参数或者(2)目标特定响度或目标特定响度的表示(例如，可用于显式或隐式地计算目标特定响度的缩放因子)可被存储或发送以例如供时间和/或空间分离的设备或过程使用。如上所述，修正参数、目标特定响度或目标特定响度的表示可以如例如图1-4的前馈、反馈和混合前馈/反馈布置例子之一中那样以任何适当方式确定。在实践中，比如图1的例子中的前馈布置是最不复杂和最快的，因为它避免了基于经修正的音频信号的计算。在图5中示出了发送或存储未修正的音频和修正参数的例子，而在图6中示出了发送或存储未修正的音频和目标特定响度或目标特定响度的表示的例子。

比如图5的例子中的布置可用来将修正参数向音频信号的施加与这样的修正参数的生成在时间和/或空间上分离。比如图6的例子中的布置可用来将修正参数的生成和施加与目标特定响度或其表示的生成在时间和/或空间上分离。这两种类型的布置都使得避免了生成修正参数的或生成目标特定响度的复杂度的简单低成本回放或接收布置成为可能。虽然图5类型的布置比图6类型的布置简单，但图6布置具有如下优点：尤其是当目标特定响度的表示(比如一个或多个尺度因子)被存储或发送时，需要被存储或发送的信息可少得多。信息存储或发送的这种减小在低比特率音频环境中可能尤其有用。

相应地，本发明的又一些方面是提供这样的设备或过程：(1)其从存储或发送设备或过程接收或回放修正参数M并将它们施加于同样被接收到的音频信号；或者(2)其从存储或发送设备或过程接收或回放目标特定响度或目标特定响度的表示，通过将目标特定响度或其表示施加于同样被接收到的音频信号(或施加于音频信号的度量比如其特定响度，其中特定响度可从音频信号导出)来生成修正参数M，并将修正参数M施加于接收到的音频信号。这样的设备或过程可特征化为解码过程或解码器；而产生存储或发送的信息所需的设备或过程可特征化为编码过程或编码器。这样的编码过程或编码器是图1-4布置例子中的那些可用来产生相应解码过程或解码器需要的信息的部分。这样的解码过程或解码器可与处理和/或再现声音的几乎任何类型的过程或设备相关联或一起工作。

在本发明的一方面，如图5的例子中那样，例如由修正参数生成过程或生成器(比如图1的生成修正参数4、图2的生成修正参数4’、图3的生成修正参数4”、或图4的生成修正参数4”’)产生的修正参数M和未修正的音频信号可被施加于任何适当的存储或发送设备或功能(“存储或发送”)16。在使用图1的前馈例子作为编码过程或编码器的情形下，如果无需在编码器或编码过程的时间或空间位置提供经修正的音频，则修正音频信号2将不需要生成经修正的音频并可被省略。存储或发送16可包括例如任何适当的磁、光或固态存储器和回放设备或任何适当的有线或无线发送和接收设备，其选择对本发明来说不是关键的。回放或接收的修正参数然后可被施加于图1-4的例子中采用的类型的修正音频参数2，以便修正回放或接收的音频信号使得其特定响度近似于从中导出修正参数的布置的或为该布置所固有的目标特定响度。修正参数可以以各种方式中的任一种存储或发送。例如，它们可作为伴随音频信号的元数据被存储或发送，它们可在不同的路径或通道中被发送，它们可在音频中被加密编码，它们可被复用，等等。使用修正参数来修正音频信号可以是任选的，且如果是任选的，则它们的使用可例如由用户选择。例如，修正参数当被施加于音频信号时可减小音频信号的动态范围。是否要采用这样的动态范围减小可由用户选择。

在本发明的另一方面，如图6的例子中那样，未修正的音频信号和目标特定响度或目标特定响度的表示可被施加于任何适当的存储器或发送设备或功能(“存储或发送”)16。在使用比如图1的例子中的前馈配置作为编码过程或编码器的情形下，如果无需在编码器或编码过程的时间或空间位置提供修正参数或经修正的音频，则计算修正参数10类型的过程或设备和修正音频信号2类型的过程或设备都将不需要并可被省略。如图5例子的情形下那样，存储或发送16可包括例如任何适当的磁、光或固态存储器和回放设备或任何适当的有线或无线发送和接收设备，其选择对本发明来说不是关键的。回放或接收的目标特定响度或目标特定响度的表示然后可与未修正的音频一起被施加于图1例子中采用的类型的计算修正参数10或施加于图3例子中采用的类型的计算修正参数10”，以便提供修正参数M，然后修正参数M可被施加于图1-4例子中采用的类型的修正音频信号2，以便修正回放或接收的音频信号使得其特定响度近似于从中导出修正参数的布置的或为该布置所固有的目标特定响度。虽然目标特定响度或其表示最容易可以在图1例子类型的编码过程或编码器中获得，但目标特定响度或其表示或者目标特定响度的近似或其表示可以在图2-4例子类型的编码过程或编码器中获得(近似在图2和3中的过程或设备14中以及在图4中的过程或设备12中计算)。目标特定响度或其表示可以以各种方式中的任一种存储或发送。例如，其可作为伴随音频信号的元数据被存储或发送，其可在不同的路径或通道中被发送，其可在音频中被加密编码，其可被复用，等等。使用从存储或发送的目标特定响度或其表示导出的修正参数来修正音频信号可以是任选的，且如果是任选的，则它们的使用可例如由用户选择。例如，修正参数当被施加于音频信号时可减小音频信号的动态范围。是否要采用这样的动态范围减小可由用户选择。

当将本发明实施为数字系统时，前馈配置是最实用的，因此下面详细描述这样的配置的例子，但应理解本发明的范围不局限于此。

在整篇文献中，比如“滤波器”或“滤波器组”的术语在此用来包括基本上任何形式的递归和非递归滤波，比如IIR滤波器或变换，而“经滤波的”信息是施加这样的滤波器的结果。下面描述的实施例采用由变换实现的滤波器组。

图7描绘了体现在前馈布置中的本发明的一方面的示例实施例的更多细节。音频首先通过分析滤波器组功能或设备(“分析滤波器组”)100，分析滤波器组100将音频信号分成多个频带(因此，图5示出了分析滤波器组100的多个输出，每个输出表示一个频带，该输出经过各功能或设备一直到合成滤波器组，合成滤波器组将各频带相加为组合宽带信号，这在后面进一步描述)。分析滤波器组100中的每个频带所关联的滤波器的响应被设计成对内耳基膜的特定位置的响应进行仿真。接着，分析滤波器组100中的每个滤波器的输出传入透射滤波器或透射滤波器功能(“透射滤波器”)101，透射滤波器101对音频透过外耳和中耳的透射这一滤波效应进行仿真。如果仅要计量音频的响度，透射滤波器可先于分析滤波器组被施加，但因为分析滤波器组输出被用来合成经修正的音频，所以在该滤波器组之后施加透射滤波器是有利的。接着，透射滤波器101的输出传入激励功能或设备(“激励”)102，激励102的输出对能量沿基膜的分布进行仿真。激励能量值可由平滑功能或设备(“平滑”)103在时间上平滑。平滑功能的时间常数根据期望应用的要求来设置。随后，经平滑的激励信号在特定响度功能或设备(“特定响度(SL)”)104中被转换成特定响度。特定响度以“宋每单位频率”为单位来表示。每个频带所关联的特定响度分量被传入特定响度修正功能或设备(“SL修正”)105。SL修正105将原始特定响度取作其输入然后输出期望或“目标”特定响度，根据本发明的一方面，该期望或“目标”特定响度优选为原始特定响度的函数(参见后面的标题，名称为“目标特定响度”)。依赖于所期望的效果，各频带之间可存在相互依赖性(图7中的交叉连接线所示的频率平滑)，或者SL修正105可在每个频带上独立工作。将来自激励102的经平滑的激励频带分量和来自SL修正105的目标特定响度取作输入，增益求解器功能或设备(“增益求解器”)106确定需要被施加于分析滤波器组100的输出的每个频带以便将计量到的特定响度变换成目标特定响度的增益。增益求解器可以以各种方式实现。例如，增益求解器可包括：比如公布为WO2004/111964 A2的所述国际专利申请号PCT/US2004/016964中公开的迭代过程那样的迭代过程，或(可替选地)表查找。虽然增益求解器106所生成的每频带增益可由任选的平滑功能或设备(“平滑”)107在时间上进一步平滑以使感知假象最小化，但优选地在整个过程或设备中的其它地方施加时间平滑，如别处描述的那样。最后，增益通过相应的乘法组合功能或组合器108被施加于分析滤波器组100的相应频带，由经增益修正的频带在合成滤波器组功能或设备(“合成滤波器组”)110中合成经处理的或“经修正的”音频。此外，分析滤波器组的输出可在施加增益之前被延迟功能或设备(“延迟”)109延迟以便补偿与增益计算相关联的任何等待时间。可替选地，代替计算在频带中施加增益修正所使用的增益，增益求解器106可计算控制时变滤波器(比如多抽头FIR滤波器或多极IIR滤波器)的滤波器系数。为便于说明，本发明诸方面主要描述为采用施加于频带的增益因子，但应理解亦可在实际实施例中采用滤波器系数和时变滤波器。

在实际实施例中，音频处理可在数字域内执行。因此，音频输入信号由以某个采样频率f_s从音频源采样得到的离散时间序列x[n]来表示。假定序列x[n]已被适当缩放以使得由下式给出的x[n]的均方根功率(分贝)

{RMS}_{dB} = 10 \log_{10} (\frac{1}{L} Σ_{n = 0}^{L} x^{2} [n])

与收听者收听音频的声压级(分贝)相等。此外，为便于说明，假定音频信号是单声道的。

分析滤波器组100、透射滤波器101、激励102、特定响度104、特定响度修正105、增益求解器106和合成滤波器组110可更详细地描述如下。

分析滤波器组100

音频输入信号被施加于分析滤波器组或滤波器组功能(“分析滤波器组”)100。分析滤波器组100中的每个滤波器被设计成对沿着内耳基膜的特定位置的频率响应进行仿真。滤波器组100可包括一组线性滤波器，该组线性滤波器的带宽和间距在由Moore、Glasberg和Baer定义的等价矩形带宽(ERB)频率尺度(B.C.J.Moore，B.Glasberg，T.Baer，“A Modelfor the Prediction of Thresholds，Loudness，and Partial Loudness，”见前面)上是恒定的。

虽然ERB频率尺度与人类感知更紧密地匹配并且在产生与主观响度结果匹配的客观响度计量结果方面展示出改善的性能，但也可以以性能降低的方式采用Bark频率尺度。

对于中心频率f(赫兹)，一个ERB频带的宽度(赫兹)可近似为：

ERB(f)＝24.7(4.37f/1000+1) (1)

根据此关系式，弯曲频率尺度被定义为使得在沿着弯曲尺度的任何点处，以弯曲尺度为单位的对应ERB等于1。用于从线性频率(赫兹)向此ERB频率尺度转换的函数通过将等式1的倒数积分来获得：

HzToERB (f) = &Integral; \frac{1}{24.7 (4.37 f / 1000 + 1)} df = 21.4 \log_{10} (4.37 f / 1000 + 1) - - - (2 a)

通过在等式2a中求解f来表达从ERB尺度回到线性频率尺度的变换也是有用的：

ERBToHz (e) = f = \frac{1000}{4.37} 10^{(e / 21.4 - 1)} - - - (2 b)

其中e以ERB尺度为单位。图9示出了ERB尺度与频率(赫兹)之间的关系。

分析滤波器组100可包括处于沿着ERB尺度均匀间隔开的中心频率f_c[1]...f_c[B]的、称为频带的B个听觉滤波器。更具体而言，

f_c[1]＝f_min (3a)

f_c[b]＝f_c[b-1]+ERBToHz(HzToERB(f_c[b-1])+Δ) b＝2...B (3b)

f_c[B]<f_max， (3c)

其中Δ是分析滤波器组100的期望ERB间距，f_min和f_max分别是期望最小和最大中心频率。可选择Δ＝1，考虑到入耳敏感的频率范围，可设置f_min＝50Hz且f_max＝20,000Hz。利用例如这样的参数，应用等式3a-3c得到B＝40个听觉滤波器。

Moore和Glasberg提出，每个听觉滤波器的幅频响应可由舍入(rounded)指数函数特征化。具体而言，具有中心频率f_c[b]的滤波器的幅度响应可计算为：

H_b(f)＝(1+pg)e^-pg (4a)

其中，

g = | \frac{f - f_{c} [b]}{f_{c} [b]} | - - - (4 b)

p = \frac{4 f_{c} [b]}{ERB (f_{c} [b])} - - - (4 c)

图10中示出了近似于ERB尺度上的临界频带的这样的B个听觉滤波器的幅度响应。

分析滤波器组100的滤波操作可使用常称为短时离散傅立叶变换(STDFT)的有限长度离散傅立叶变换足够地取近似，因为以音频信号的采样速率运转滤波器的实施(称为全速率实施)被认为提供了超出精确响度计量所必需的时间分辨率。通过使用STDFT而不是全速率实施，可实现效率的提高和计算复杂度的降低。

输入音频信号x[n]的STDFT被定义为：

X [k, t] = Σ_{n = 0}^{N - 1} w [n] x [n + tT] e^{- j \frac{2 πk}{N}} - - - (5 a)

其中k是频率指标，t是时间块指标，N是DFT大小，T是跃距大小，w[n]是被归一化使得

Σ_{n = 0}^{N - 1} w^{2} [n] = 1 - - - (5 b)

的长度N窗口。

注意，与用秒度量时间形成对比，等式5a中的变量t是表示STDFT的时间块的离散指标。t的每个增量表示沿着信号x[n]T个样本的跃距。后面对指标t的引用采取了此定义。尽管依赖于实施细节可使用不同的参数设置和窗口形状，但对于f_s＝44100Hz，选择N＝2048、T＝1024并且使w[n]为Hanning窗提供了时间和频率分辨率的足够平衡。使用快速傅立叶变换(FFT)，上述STDFT可能效率更高。

代替STDFT，可利用修正离散余弦变换(MDCT)来实现分析滤波器组。MDCT是常用在感知音频编码器比如Dolby AC-3中的变换。如果本发明的系统利用这种感知编码音频来实现，则通过处理该编码音频的现有MDCT系数从而消除执行分析滤波器组变换的需要，本发明的响度计量和修正可更有效地实现。输入音频信号x[n]的MDCT由下式给出：

X [k, t] = Σ_{n = 0}^{N - 1} w [n] x [n + tT] \cos ((2 π / N) (k + 1 / 2) (n + n_{0}))

其中

n_{0} = \frac{(N / 2) + 1}{2} - - - (6)

通常，跃距大小T被选择为变换长度N的恰好一半，使得有可能完美地重构信号x[n]。

透射滤波器101

分析滤波器组100的输出被施加于透射滤波器或透射滤波器功能(“透射滤波器”)101，透射滤波器101根据音频透过外耳和中耳的透射对滤波器组的每个频带进行滤波。图8描绘了在可听频率范围内的、透射滤波器的一个适当的幅频响应P(f)。在1kHz以下，该响应是1，而在1kHz以上，该响应与ISO 226标准中规定的听觉阈值成反比，其中该阈值在1kHz归一化为1。

激励102

为了计算输入音频信号的响度，需要在施加透射滤波器101之后度量分析滤波器组100的每个滤波器中的音频信号的短时能量。此时变且频变的度量被称为激励。分析滤波器组100中的每个滤波器的短时能量输出可在激励功能102中通过将频域内的滤波器响应与输入信号的功率谱相乘来取近似：

E [b, t] = \frac{1}{N} Σ_{k = 0}^{N - 1} {| H_{b} [k] |}^{2} {| P [k] |}^{2} {| X [k, t] |}^{2} - - - (7)

其中b是频带号，t是块号，H_b[k]和P[k]分别是以对应于STDFT或MDCT双态(bin)指标k的频率采样得到的听觉滤波器和透射滤波器的频率响应。应注意，可在等式7中使用与等式4a-4c中规定的听觉滤波器幅度响应不同的听觉滤波器幅度响应的各形式来实现类似的结果。例如，公布为WO 2004/111964 A2的所述国际申请号PCT/US2004/016964描述了两种可替选方案：由第12阶IIR传递函数特征化的听觉滤波器、以及低成本“砖墙(brick-wall)”带通近似。

总而言之，激励功能102的输出是能量E在相应ERB频带b中在每个时间段t的频域表示。

时间平均(“平滑”)103

如后面描述的那样，对于本发明的某些应用，可能期望在激励E[b，t]变换成特定响度之前将其平滑。例如，可根据以下等式在平滑功能103中递归地执行平滑处理：

E[b，t]＝λ_bE[b，t]+(1-λ_b)E[b，t] (8)

其中每个频带b处的时间常数λ_b根据期望应用来选择。在大多数情形下，时间常数可有利地选择为与频带b内人类响度感知的积分时间成比例。Watson和Gengel进行实验证明了此积分时间在低频(125-200Hz)下处于150-175ms范围内而在高频下处于40-60ms范围内(Charles S.Watson和Roy W.Gengel，“Signal Duration and Signal Frequency in Relation toAuditory Sensitivity”Journal of the Acoustical Society of America，第46卷，第4号(第2部分)，1969年，989-997页)。

特定响度104

在特定响度转换器或转换功能(“特定响度”)104中，激励的每个频带被转换成以“宋每ERB”度量的特定响度的分量值。

初始时，在计算特定响度时，E[b，t]的每个频带中的激励级可被变换成图12中的由透射滤波器P(z)规格化的图11中的ISO 226的等响度线所规定的1kHz处的等价激励级：

E_1kHz[b，t]＝T_1kHz(E[b，t]，f_c[b]) (9)

其中T_1kHz(E，f)是生成与频率f处的级E等响度的、1kHz处的级的函数。在实践中，T_1kHz(E，f)被实施为由透射滤波器规格化的等响度线的查找表的插值。向1kHz处的等价级的变换简化了下面的特定响度计算。

接着，每个频带中的特定响度可计算为：

N[b，t]＝α[b，t]N_NB[b，t]+(1-α[b，t])N_WB[b，t] (10)

其中N_NB[b，t]和N_WB[b，t]分别是基于窄带和宽带信号模型的特定响度值。值α[b，t]是根据音频信号计算的处在0和1之间的插值因子。公布为WO2004/111964 A2的所述国际申请号PCT/US2004/016964描述了一种用于根据激励的频谱平坦度计算α[b，t]的技术。其还更详细地描述了“窄带”和“宽带”信号模型。

窄带和宽带特定响度值N_NB[b，t]和N_WB[b，t]可使用指数函数根据经变换的激励来估计：

其中TQ_1kHz是对于1kHz音调而言的静音阈值处的激励级。从等响度线(图11和图12)中看出，TQ_1kHz等于4.2dB。注意，当激励等于静音阈值时，这两个特定响度函数都等于零。对于大于静音阈值的激励，这两个函数都根据强度感觉的Stevens定律以幂律单调增长。用于窄带函数的指数被选择为比用于宽带函数的指数大，这使得窄带函数比宽带函数更迅速地增大。用于窄带和宽带情形的指数β和增益G的特定选择被选择为与关于音调和噪声的响度的增长的实验数据匹配。

Moore和Glasberg提出：当激励处于听觉阈值时，特定响度应等于某个小值而不是零。特定响度于是应随着激励减小到零而单调减小到零。理由是听觉阈值是概率性阈值(在50％时间检测到音调的点)，而且一起呈现的每个都处于阈值的许多音调可相加为比任何单独音调更可听见的一个声音。在本申请中，将特定响度函数扩充有此特性具有如下额外优点：使得后面讨论的增益求解器在激励接近阈值时更适当地运转。如果在激励处于或低于阈值时特定响度被限定为零，则对于处于或低于阈值的激励而言增益求解器的唯一解不存在。另一方面，如果如Moore和Glasberg所提出的那样对于所有大于或等于零的激励值而言特定响度被限定为单调增大，则唯一解存在。大于1的响度缩放将总是导致大于1的增益，反之亦然。等式11a和11b中的特定响度函数可根据下式更改为具有期望特性：

其中常数λ大于1，指数η小于1，常数K和C被选择为使得特定响度函数及其一阶导数在点E_1kHz[b，t]＝λTQ_1kHz处连续。

根据特定响度，总体或“总”响度L[t]由所有频带b的特定响度的总和给出：

L [t] = \underset{b}{Σ} N [b, t] - - - (12)

特定响度修正105

在特定响度修正函数(“特定响度修正”)105中，被称为

的目标特定响度可依赖于总体设备或过程的期望应用以各种方式根据SL 104(图7)的特定响度计算。将在后面更详细地描述，在音量控制的情形下，目标特定响度可例如使用尺度因子α来计算。参见后面的等式16及其相关联的描述。在自动增益控制(AGC)和动态范围控制(DRC)的情形下，目标特定响度可使用期望输出响度与输入响度的比值来计算。参见后面的等式17和18及其相关联的描述。在动态均衡的情形下，目标特定响度可使用等式23中阐明的关系及其相关联的描述来计算。

增益求解器106

在这个例子中，对于每个频带b和每个时间间隔t，增益求解器106将经平滑的激励E[b，t]和目标特定响度

取作输入，并生成随后用于修正音频的增益G[b，t]。令函数Ψ{·}表示从激励到特定响度的非线性变换，使得：

N[b，t]＝Ψ{E[b，t]} (13)

增益求解器求得G[b，t]，使得

\hat{N} [b, t] = Ψ {G^{2} [b, t] \overset{&OverBar;}{E} [b, t]} - - - (14 a)

增益求解器106确定频变且时变的增益，频变且时变的增益当被施加于原始激励时产生理想地等于期望目标特定响度的特定响度。在实践中，增益求解器106确定频变且时变的增益，频变且时变的增益当被施加于音频信号的频域版本时导致修正音频信号以便减小其特定响度与目标特定响度之间的差异。理想地，该修正使得经修正的音频信号具有为目标特定响度的精确近似的特定响度。等式14a的求解可以以许多种方式实现。例如，如果由Ψ^-1{·}表示的特定响度的反函数的闭式数学表达式存在，则增益可直接用重新整理的等式14a计算：

G [b, t] = \sqrt{\frac{Ψ^{- 1} (\hat{N} [b, t])}{\overset{&OverBar;}{E} [b, t]}} - - - (14 b)

可替选地，如果Ψ^-1{·}的闭式解不存在，则可采用迭代法，其中，对于每次迭代，使用增益的当前估计来评估等式14a。作为结果的特定响度与期望目标相比较，且增益基于误差被更新。如果增益被适当地更新，则增益将收敛至期望解。另一方法包括针对每个频带中一定范围的激励值预计算函数Ψ{·}以创建查找表。根据此查找表，获得反函数Ψ^-1{·}的近似，于是增益可根据等式14b计算。如上所述，目标特定响度可由特定响度的缩放来表示：

\hat{N} [b, t] = Ξ [b, t] N [b, t] - - - (14 c)

将等式13代入14c然后将14c代入14b，得到增益的可替选表达式：

G [b, t] = \sqrt{\frac{Ψ^{- 1} (Ξ [b, t] Ψ (\overset{&OverBar;}{E} [b, t]))}{\overset{&OverBar;}{E} [b, t]}} - - - (14 d)

我们看到，增益可完全表达为激励E[b，t]和特定响度缩放

[b，t]的函数。因此，可通过14d的评估或等价的查找表、而不曾显式地计算特定响度或目标特定响度作为中间值来计算增益。然而，这些值通过使用等式14d被隐式地计算。亦可设计通过特定响度和目标特定响度的显示或隐式计算来计算修正参数的其它等价方法，本发明意在涵盖所有这样的方法。

合成滤波器组110

如上所述，分析滤波器组100可通过使用短时离散傅立叶变换(STDFT)或修正离散余弦变换(MDCT)来有效地实现，并可类似地使用STDFT或MDCT来实现合成滤波器组110。具体而言，如前面所定义的那样，令X[k，t]表示输入音频的STDFT或MDCT，合成滤波器组110中经处理(经修正)的音频的STDFT或MDCT可计算为：

\hat{X} [k, t] = \underset{b}{Σ} G [b, t] S_{b} [k] X [k, t - d] - - - (15)

其中S_b[k]是与频带b相关联的合成滤波器的响应，d是与图7中的延迟块109相关联的延迟。合成滤波器的形状S_b[k]可被选择为与分析滤波器组中使用的滤波器的形状H_b[k]相同，或者它们可被修正为在无任何增益修正的情况下(即，当G[b，t]＝1时)提供完美的重构。然后可通过

的逆傅立叶或修正余弦变换和叠加合成来生成最终经处理的音频，这是本领域技术人员所熟悉的。

目标特定响度

比如图1-7例子的、体现本发明诸方面的布置的行为主要由计算目标特定响度

所采用的方式决定。虽然本发明不受用于计算目标特定响度的任何具体函数或反函数的限制，但现在将描述几个这样的函数和它们的适当应用。

适用于音量控制的非时变且非频变的函数

标准音量控制通过向音频施加宽带增益来调整音频信号的响度。一般而言，增益被耦合至旋钮或滑动器，旋钮或滑动器由用户调整，直到音频的响度处于期望级为止。本发明的一方面允许实现这种控制的更符合心理声学的方法。根据本发明的此方面，并非使宽带增益耦合至音量控制(其导致所有频带的增益改变相同的量，这可能造成感知频谱的改变)，而是使特定响度缩放因子与音量控制调整相关联，使得多个频带中每个频带的增益改变了考虑了人类听觉模型的量，使得理想而言感知频谱没有改变。在本发明的此方面及其示例应用的背景下，“恒定的”或“非时变的”意在允许由用户例如时而改变音量控制尺度因子的设置。该“非时变的”有时被称为“准非时变的”、“准静态的”、“分段式非时变的”、“分段式静态的”、“阶跃式非时变的”和“阶跃式静态的”。给定这样的尺度因子α，目标特定响度可计算为计量到的特定响度乘以α：

\hat{N} [b, t] = αN [b, t] - - - (16)

由于总响度L[t]是所有频带b的特定响度N[b，t]的总和，所以上面的修正同样将总响度缩放了α倍，但其以在特定时间对于音量控制调整的改变保持相同的感知频谱的方式来进行。换句话说，在任何特定时间，音量控制调整的改变导致感知响度的改变，但不导致经修正的音频的感知频谱相对于未修正的音频的感知频谱的改变。图13a描绘了对于由女性讲话构成的音频信号而言的、当α＝0.25时、在特定时间“t”、在频带“b”内的作为结果的多带增益G[b，t]。为了比较，还描绘了如标准音量控制中的将原始总响度缩放0.25倍所需的宽带增益(水平线)。与中频带相比，在低和高频带，多带增益G[b，t]增大。这与表明人耳在低频和高频较迟钝的等响度线相符合。

图13b描绘了原始音频信号、根据现有技术的音量控制修正了的经宽带增益修正的信号、以及根据本发明的此方面修正了的经多带增益修正的信号的特定响度。经多带增益修正的信号的特定响度是原始信号被缩放0.25倍后的特定响度。相对于原始未修正的信号的特定响度，经宽带增益修正的信号的特定响度的频谱形状发生了改变。在此情形下，在相对意义上，特定响度在低频和高频处响度受损失。这被感知为音频随着其音量被调低而钝化，这个问题不在其响度由在感知响度域内导出的增益来控制的经多带修正的信号的情形下发生。

与传统音量控制相关联的感知频谱平衡的失真一起，还存在第二个问题。反映在等式11a-11d中所反映的响度模型中的响度感知特性是：任何频率下信号的响度随着信号级逼近听觉阈值而更迅速地减小。因此，向较柔和信号和较响亮信号施加相同的响度衰减，较柔和信号所需的电衰减小于较响亮信号所需的电衰减。传统音量控制无论信号级如何都施加恒定的衰减，因此，随着音量被调低，柔和信号相对于较响亮信号变得“过于柔和”。在很多情形下，这导致音频中的细节丢失。考虑混响室中响板的录音。在这样的录音中，响板的主“击打”与混响回音相比是颇为响亮的，但正是混响回音传达该室的大小。随着利用传统音量控制来调低音量，混响回音与主击打相比变得更柔和，并最终消失在听觉阈值以下，留下发“干的”声音的响板。基于响度的音量控制防止录音的较柔和部分消失的方法是：相对于较响亮的主击打而增强录音的较柔和的混响部分，以使得这些部分之间的相对响度维持恒定。为了实现此效果，多带增益G[b，t]必须以与响度感知的人类时间分辨率相称的速率随时间变化。由于多带增益G[b，t]作为经平滑的激励E[b，t]的函数被计算，所以等式8中的时间常数λ_b的选择决定了增益可在每个频带b中随时间变化的速度。如上所述，这些时间常数可选择为与频带b内人类响度感知的积分时间成比例，并因此得到G[b，t]随时间的适当变化。应注意，如果时间常数被不适当地选择(过快或过慢)，则感知上有害的假象可能被引入经处理的音频中。

适用于固定的均衡的非时变而频变的函数

在某些应用中，可能希望向音频施加固定的感知均衡，在此情形下，目标特定响度可通过施加如以下关系式中的非时变但频变尺度因子Θ[b]来计算：

\hat{N} [b, t] = Θ [b] N [b, t]

其中为目标特定响度，N[b，t]为音频信号的特定响度，b为频率的度量，t为时间的度量。在此情形下，缩放可随频带不同而变化。这样的应用可用于例如突出讲话频率占主导的频谱部分以便提高可懂度。

适用于自动增益控制和动态范围控制的非频变而时变的函数

自动增益控制和动态范围控制(AGC和DRC)的技术在音频处理领域是众所周知的。在抽象意义上，这两种技术以某种方式计量音频信号的级，然后用为计量级的函数的量对该信号执行增益修正。对于AGC的情形，信号被执行增益修正，使得其计量级更接近用户选择的参考级。对于DRC，信号被执行增益修正，使得信号的计量级的范围被变换成某个期望范围。例如，可能希望使音频的安静部分较响亮而响亮部分较安静。Robinson和Gundry描述了这样的系统(Charles Robinson和KennethGundry，“Dynamic Range Control via Metadata”，AES第107届会议，预印本5028，1999年9月24-27日，纽约)。AGC和DRC的传统实施一般利用音频信号级的简单计量(比如经平滑的峰值或均方根(rms)幅度)来驱动增益修正。这样的简单计量在一定程度上与音频的感知响度相关联，但本发明诸方面通过利用基于心理声学模型的响度计量驱动增益修正来允许与感知更贴切的AGC和DRC。同样，很多传统AGC和DRC系统利用宽带增益施加增益修正，从而招致经处理音频的上述音色(频谱)失真。而本发明诸方面则利用多带增益以降低或最小化这样的失真的方式调整特定响度。

采用本发明诸方面的AGC和DRC应用均由将输入宽带响度L_i[t]变换或映射成期望输出宽带响度L_o[t]的函数来特征化，其中响度以感知响度单位(比如宋)来度量。输入宽带响度L_i[t]是输入音频信号的特定响度N[b，t]的函数。虽然它可能与输入音频信号的总响度相同，但它可为音频信号的总响度的经时间平滑的版本。

图14a和14b分别描绘了对于AGC和DRC而言典型的映射函数的例子。给定其中L_o[t]是L_i[t]的函数的映射，目标特定响度可计算为：

\hat{N} [b, t] = \frac{L_{o} [t]}{L_{i} [t]} N [b, t] - - - (17)

音频信号的原始特定响度N[b，t]被简单地缩放等于期望输出宽带响度与输入宽带响度的比值的倍数，以得到输出特定响度对于AGC系统，输入宽带响度L_i[t]一般应为音频的长期总响度的度量。这可通过在时间上平滑总响度L[t]以生成L_i[t]来实现。

与AGC相比，DRC系统对信号响度的较短期改变起反应，因此可简单地使L_i[t]等于L[t]。因此，由L_o[t]/L_i[t]给出的特定响度的缩放可能迅速地波动从而导致经处理的音频中存在不希望的假象。一个典型的假象是：频谱的一部分受到频谱的某些其它相对不相关部分的可听到的调制。例如，古典音乐段可能包含持续弦音符占主导的高频，而低频包含响亮的发轰隆声的定音鼓。每当定音鼓击打时，总体响度L_i[t]增大，且DRC系统向整个特定响度施加衰减。于是听到弦与定音鼓一起在响度上上下“泵动(pump)”。频谱中的这种“交叉泵动(cross pumping)”也是传统宽带DRC系统的一个问题，典型的解决方案包括向不同频带独立地施加DRC。归因于采用感知响度模型的特定响度的计算以及滤波器组，本发明的系统是固有多带的，因此根据本发明诸方面将DRC系统修正为以多带方式工作是相对直接的，接下来将描述这种修正。

适用于动态范围控制的频变且时变的函数

通过允许输入和输出响度随频带b独立地变化，DRC系统可被扩展为以多带或频变方式工作。这些多带响度值记为L_i[b，t]和L_o[b，t]，于是目标特定响度可由下式给出：

\hat{N} [b, t] = \frac{L_{o} [b, t]}{L_{i} [b, t]} N [b, t] - - - (18)

其中已如图14b所示、但对于每个频带b独立地从L_i[b，t]算出或映射出L_o[b，t]。输入多带响度L_i[b，t]是输入音频信号的特定响度N[b，t]的函数。虽然它可能与输入音频信号的特定响度相同，但它可为音频信号的特定响度的经时间平滑和/或频率平滑的版本。

计算L_i[b，t]的最直接方法是将其设置成等于特定响度N[b，t]。在此情形下，DRC在感知响度模型的听觉滤波器组中的每个频带上独立地执行，而并非如上面在标题“适用于自动增益控制和动态范围控制的非频变而时变的函数”下描述的那样对于所有频带根据同一输入与输出响度比来执行。在采用40个频带的实际实施例中，沿着频率轴的这些频带的间距是相对细微的以便提供响度的精确度量。然而，向每个频带独立地施加DRC尺度因子可能造成经处理的音频听起来像是“撕裂”的。为了避免此问题，可选择通过如下方法来计算L_i[b，t]：在频带上平滑特定响度N[b，t]，使得从一个频带到下一个频带被施加的DRC的量不剧烈地变化。这可通过定义频带平滑滤波器Q(b)然后根据以下标准卷积和在所有频带c上平滑特定响度来实现：

L_{i} [b, t] = \underset{c}{Σ} Q (b - c) N [c, t] - - - (19)

其中N[c，t]是音频信号的特定响度，Q(b-c)是平滑滤波器的频带平移后的响应。图15描绘了这种频带平滑滤波器的一个例子。

如果将L_i[b，t]计算为L_o[b，t]的函数的DRC函数对于每个频带b而言是固定的，则特定响度N[b，t]的每个频带遭受的改变的类型将依赖于被处理的音频的频谱而变化，尽管信号的总体响度保持相同。例如，具有响亮低音和安静高音的音频信号可以使低音减弱而高音增强。具有安静低音和响亮高音的信号可相反地出现。净效果为音频的音色或感知频谱的改变，而这在某些应用中可能是所期望的。

然而，可能希望不修正音频的平均感知频谱而执行多带DRC。可能希望每个频带的平均修正粗略相同同时仍允许修正的短期变化在频带之间独立地产生。期望效果可通过迫使每个频带中的DRC的平均行为与某个参考行为的平均行为相同来实现。可选择此参考行为作为宽带输入响度L_i[t]的期望DRC。令函数L_o[t]＝DRC{L_i[t]}表示宽带响度的期望DRC映射。然后令L_i[t]表示宽带输入响度的经时间平均的版本，并令L_i[b，t]表示多带输入响度L_i[b，t]的经时间平均的版本。于是多带输出响度可计算为：

L_{o} [b, t] = \frac{{\overset{&OverBar;}{L}}_{i} [b, t]}{{\overset{&OverBar;}{L}}_{i} [t]} DRC {\frac{{\overset{&OverBar;}{L}}_{i} [t]}{{\overset{&OverBar;}{L}}_{i} [b, t]} L_{i} [b, t]} - - - (20)

注意，多带输入响度首先被缩放成落入与宽带输入响度的平均范围相同的平均范围内。然后施加针对宽带响度设计的DRC函数。最后，所得结果被回缩减至多带响度的平均范围。利用多带DRC的此公式表示，频谱泵动降低的优点得以保留，同时保持了音频的平均感知频谱。

适用于动态均衡的频变且时变的函数

本发明诸方面的另一个应用是将音频的时变感知频谱有意地变换成目标非时变感知频谱同时仍保持音频的原始动态范围。可将此处理称为动态均衡(DEQ)。对于传统的静态均衡，简单的固定滤波被施加于音频以便改变其频谱。例如，可施加固定的低音或高音增强。这种处理未考虑音频的当前频谱并因此可能对于某些信号(即，已经包含了相对大量的低音或高音的信号)是不适当的。对于DEQ，信号的频谱被计量，然后信号被动态修正以便将计量到的频谱变换成基本上静态的期望形状。对于本发明诸方面，在滤波器组中各频带上规定这样的期望形状并将其称为EQ[b]。在一个实际实施例中，计量到的频谱应表示可通过在时间上平滑特定响度N[b，t]来生成的音频的平均频谱形状。可将经平滑的特定响度称为N[b，t]。如同多带DRC一样，可能不希望DEQ修正从一个频带到下一个频带剧烈地变化，并因此可施加频带平滑函数来生成经频带平滑的频谱L[b，t]：

\overset{&OverBar;}{L} [b, t] = \underset{c}{Σ} Q (b - c) \overset{&OverBar;}{N} [c, t] - - - (21)

为了保持音频的原始动态范围，期望频谱EQ[b]应被归一化以与由L[b，t]给出的计量到的频谱形状具有相同的总体响度。可将此归一化频谱形状称为L_EQ[b，t]：

{\overset{&OverBar;}{L}}_{EQ} [b, t] = (\frac{\underset{c}{Σ} \overset{&OverBar;}{L} [c, t]}{\underset{c}{Σ} EQ [c]}) EQ [b] - - - (22)

最后，目标特定响度被计算为：

\hat{N} [b, t] = {(\frac{\overset{&OverBar;}{L} [b, t]}{{\overset{&OverBar;}{L}}_{EQ} [b, t]})}^{1 - β} \frac{{\overset{&OverBar;}{L}}_{EQ} [b, t]}{\overset{&OverBar;}{L} [b, t]} N [b, t] - - - (23)

其中β是范围在0到1之间的用户规定参数，指示要施加的DEQ的程度。参见等式23，注意当β＝0时，原始特定响度是未修正的，而当β＝1时，特定响度被缩放等于期望频谱形状与计量到的频谱形状的比值的倍数。

生成期望频谱形状EQ[b]的一种方便的方法是：使用户设置EQ[b]等于为自己觉得其频谱平衡合意的某段音频计量到的L[b，t]。在一个实际实施例中，例如如图16所示，用户可被提供按钮或其它适当的致动器507，致动器507当被致动时导致音频的频谱形状L[b，t]的当前度量的捕捉，然后将此度量作为预设存储(在目标特定响度预设捕捉和存储506中)，该预设可以以后当DEQ被启用(如由预设选择508启用)时被载入EQ[b]中。图16是图7的简化版本，其中仅示出了单个线来表示从分析滤波器组100到合成滤波器组110的多个频带。图17例子还提供动态EQ特定响度(SL)修正505，动态EQ特定响度修正505如上所述那样根据动态均衡对由功能或设备104计量到的特定响度进行修正。

组合式处理

可能希望将包括音量控制(VC)、AGC、DRC和DEQ的所有前述处理组合成单个系统。由于这些过程中的每个过程可表示为对特定响度的缩放，所以所有这些过程可容易地组合如下：

\hat{N} [b, t] = (Ξ_{VC} [b, t] Ξ_{AGC} [b, t] Ξ_{DRC} [b, t] Ξ_{DEQ} [b, t]) N [b, t] - - - (24)

其中

[b，t]表示与过程“*”相关联的尺度因子。然后可以为表示组合式处理的目标特定响度计算单个集合的增益G[b，t]。

在某些情形下，响度修正过程中的一个或组合的尺度因子可能随时间过于迅速地波动并在作为结果的经处理的音频中产生假象。因此可能期望平滑这些缩放因子的某个子集。一般而言，来自VC和DEQ的尺度因子随时间平滑地变化，但可能需要平滑AGC和DRC尺度因子的组合。令这些尺度因子的组合由下式表示：

Ξ_{C} [b, t] = Ξ_{AGC} [b, t] Ξ_{DRC} [b, t] - - - (25)

该平滑所依据的基本概念是：当特定响度增大时，组合尺度因子应快速地反应，而当特定响度减小时，所述尺度因子应被更大程度地平滑。此概念符合在音频压缩器设计中利用快速击打和缓慢释放这一众所周知的实践。用于平滑尺度因子的适当时间常数可通过在时间上平滑特定响度的经频带平滑的版本来计算。首先计算特定响度的经频带平滑的版本：

L [b, t] = \underset{c}{Σ} Q (b - c) N [c, t] - - - (26)

其中N[c，t]是音频信号的特定响度，Q(b-c)是如上面等式19中的平滑滤波器的频带平移后的响应。

这个经频带平滑的特定响度的经时间平滑的版本于是被计算为：

L[b，t]＝λ[b，t]L[b，t]+(1-λ[b，t])L[b，t-1] (27)

其中频带相关的平滑系数λ[b，t]由下式给出：

λ [b, t] = \{\begin{matrix} λ_{fast}, & L [b, t] > \overset{&OverBar;}{L} [b, t] \\ λ_{slow}, & L [b, t] \leq \overset{&OverBar;}{L} [b, t] \end{matrix} - - - (28)

经平滑的组合尺度因子于是被计算为：

{\overset{&OverBar;}{Ξ}}_{C} [b, t] = λ_{M} [b, t] Ξ_{C} [b, t] + (1 - λ_{M} [b, t]) {\overset{&OverBar;}{Ξ}}_{C} [b, t - 1] - - - (29)

其中λ_M[b，t]是λ[b，t]的经频带平滑的版本：

λ_{M} [b, t] = (\frac{1}{\underset{c}{Σ} Q (c)}) \underset{c}{Σ} Q (b - c) λ [b, t] - - - (30)

平滑系数的频带平滑防止经时间平滑的尺度因子随频带剧烈地变化。所述尺度因子时间及频带平滑导致经处理的音频包含更少的有害的感知假象。

噪声补偿

在很多音频回放环境中，存在干扰收听者希望听到的音频的背景噪声。例如，行进的汽车中的收听者可能正通过安装的立体声系统播放音乐，而来自发动机和道路的噪声可能相当大地更改对音乐的感知。具体而言，对于其中噪声能量相对于音乐能量而言相当大的频谱部分，音乐的感知响度降低。如果噪声的级足够大，则音乐被完全掩蔽。就本发明的一方面而言，人们愿意选择增益G[b，t]使得在有干扰噪声的情况下的经处理的音频的特定响度等于目标特定响度

为实现此效果，可利用见前面由Moore和Glasberg定义的部分响度的概念。假定能够获得噪声对本身的计量和音频对本身的计量。令E_N[b，t]表示来自噪声的激励，并令E_A[b，t]表示来自音频的激励。于是音频和噪声的组合特定响度由下式给出：

N_TOT[b，t]＝Ψ{E_A[b，t]+E_N[b，t]} (31)

其中Ψ{·}仍表示从激励至特定响度的非线性变换。可假定收听者的听觉以保持以下组合特定响度的方式在音频的部分特定响度与噪声的部分特定响度之间划分组合特定响度：

N_TOT[b，t]＝N_A[b，t]+N_N[b，t] (32)

音频的部分特定响度N_A[b，t]是希望控制的值，因此必须求解此值。噪声的部分特定响度可近似为：

N_{N} [b, t] = {(\frac{E_{TN} [b, t]}{E_{A} [b, t]})}^{κ} (Ψ {E_{N} [b, t] + E_{TN} [b, t]} - Ψ {E_{TQ} [b]}) - - - (33)

其中E_TN[b，t]是在有噪声的情况下的掩蔽后的阈值，E_TQ[b]是频带b处的静音听觉阈值，κ是0到1之间的指数。将等式31-33相结合，得到音频的部分特定响度的表达式：

N_{N} [b, t] = Ψ {E_{A} [b, t] + E_{N} [b, t]} - {(\frac{E_{TN} [b, t]}{E_{A} [b, t]})}^{κ} (Ψ {E_{N} [b, t] + E_{TN} [b, t]} - Ψ {E_{TQ} [b]}) - - - (34)

注意，当音频的激励等于噪声的掩蔽后的阈值(E_A[b，t]＝E_TN[b，t])时，音频的部分特定响度等于静音阈值处信号的响度，这是所期望的结果。当音频的激励比噪声的激励大很多时，等式34中的第二项变为零，音频的特定响度近似等于它在无噪声的情况下的值。换句话说，随着音频变得比噪声响亮很多，噪声被音频所遮蔽。根据经验选择指数κ以给出与作为信噪比的函数的噪声中音调的响度的数据的良好拟合。Moore和Glasberg已发现κ＝0.3是适当的。噪声的遮蔽后的阈值可近似为噪声激励本身的函数：

E_TN[b，t]＝K[b]E_N[b，t]+E_TQ[b] (35)

其中K[b]是在较低频带处增大的常数。因此，由等式34给出的音频的部分特定响度可抽象地表示为音频激励和噪声激励的函数：

N_A[b，t]＝Φ{E_A[b，t]，E_N[b，t]} (36)

于是可利用经修正的增益求解器来计算增益G[b，t]，使得在有噪声的情况下的经处理的音频的部分特定响度等于目标特定响度：

\hat{N} [b, t] = Φ {G^{2} [b, t] E_{A} [b, t], E_{N} [b, t]} - - - (37)

图17描绘了图7的系统，但其中原始增益求解器106被所述噪声补偿增益求解器206代替(注意，表示滤波器组的多个频带的块之间的多条竖直线已被单条线代替以简化图示)。图17还描绘了噪声激励的计量(由分析滤波器组200、透射滤波器201、激励202和平滑203以对应于块100、101、102和103的工作的方式进行计量)，噪声激励的计量结果与音频的激励(来自平滑103)及目标特定响度(来自SL修正105)一起馈送入新的增益求解器206。

在其最基本的工作模式下，图17中的SL修正105可将目标特定响度

简单地设置成等于音频的原始特定响度N[b，t]。换句话说，SL修正提供对音频信号的特定响度的非频变尺度因子α缩放，其中α＝1。对于比如图17中的布置，增益被计算为使得在有噪声的情况下的经处理的音频的感知响度频谱等于在无噪声的情况下的音频的响度频谱。另外，用于计算作为原始特定响度的函数的目标特定响度的前述技术(包括VC、AGC、DRC和DEQ)中的一些技术中任一种或组合可与噪声补偿响度修正系统相结合使用。

在一个实际实施例中，噪声的计量可从放置在将播放音频的环境中或附近的麦克风获得。可替选地，可使用预定组的模板噪声激励来对各种情况下的预期噪声频谱取近似。例如，汽车车厢内的噪声可在各种驾驶速度下被预分析，然后被存储为噪声激励与速度的关系的查找表。当汽车速度变化时于是可根据此查找表对被馈送入图17中的增益求解器206的噪声激励取近似。

特定响度的近似

虽然本发明最适用于使用特定响度的精确度量的情形，但某些应用可能需要使用较粗略的近似以便降低计算复杂度。利用适当的近似，仍可实现感知响度的可接受的估计和修正。这样的近似应试图至少部分地保留响度感知的几个关键方面。首先，该近似应至少粗略地捕捉响度感知随频率变化的敏感度。一般而言，该近似在较低频和较高频要比在中频显示出更低的敏感度。其次，该近似应展现响度随信号级的非线性增长。具体而言，特定响度的增长应对于接近听觉阈值的低级信号是最迅速的，然后随着信号级增大而减小至恒定的增长速率。最后，该近似应展现响度求和的特性，这意味着对于恒定的信号级，总响度(特定响度对频率的积分)随着信号带宽增大而增大。

降低特定响度计算的复杂度同时仍保留响度感知的期望特性的一种方法是：使用具有较少频带并且其中频带可能不在临界频带率尺度上均匀间隔开的滤波器组。例如，可使用其中频带在线性频率尺度上均匀分布的5频带滤波器组，这与前面描述的40个频带形成对比。存在很多用于有效地实现这样的滤波器组的技术，例如余弦调制滤波器组(P.PVaidyanthan的MultiRate Systems and Filter Banks，1993年，PrenticeHall)。作为一般性例子，考虑具有B个频带的滤波器组，其中每个频带由时域冲击响应h_b[n]描述。亦假定滤波器组是接近完美的重构，这意味着：

每个频带b的频率响应可由中心频率f_b和带宽Δf_b(赫兹)特征化。于是以ERB为单位的等价中心频率和带宽由下式给出：

e_b＝HzToERB(f_b) (39a)

Δ e_{b} = HzToERB (f_{b} + \frac{Δ f_{b}}{2}) - HzToERB (f_{b} - \frac{Δ f_{b}}{2}) - - - (39 b)

如果频带数目B较小，则每个频带的带宽e_b将很可能大于1ERB。

令x_b[n]＝h_b[n]*x[n]表示每个频带所关联的音频信号，可与等式7和8类似地、通过计算用以频率f_b采样的透射滤波器的频率响应以及以ERB为单位的带宽的倒数加权的x_b[n]的经平滑的均方根功率来计算经平滑的激励信号E[b，n]：

\overset{&OverBar;}{E} [b, n] = λ_{b} \overset{&OverBar;}{E} [b, n] + (1 - λ_{b}) \frac{{| P (f_{b}) |}^{2}}{e_{b}} x_{b}^{2} [n] - - - (40)

用1/e_b对频带b的激励加权有效地将该频带内的能量均匀分布在包含在该频带内的所有临界频带上。可以可替选地将所有能量分配给其中心频率最接近该频带的中心频率f_b的临界频带，但均匀分布能量是大多数真实世界音频信号的更好近似。

利用激发E[b，n]，可如上所述那样计算特定响度

目标特定响度

和增益G[b，n]，只是此处频带总数可少很多，从而降低了复杂性。在计算总体响度L[n]时同样需要进行如下修正：当特定响度对频带求和时，其需要用频带b内的ERBs数目加权：

L [n] = \underset{b}{Σ} e_{b} N [b, n] - - - (41)

最后，可通过对用相应频带的增益加权的每个频带信号进行求和来得到经修正的信号y[n]：

y [n] = \underset{b}{Σ} G [b, n] x_{b} [n] - - - (42)

为了便于说明，上面的计算被示出为针对信号x[n]的每个采样周期n执行。然而，在实践中，激励可被子采样至在时间上低很多的速率，然后所有后续响度处理可以以此降低的速率执行。当最终施加增益时，便可在增益被施加于频带信号之前通过插值对增益进行上采样。

上面仅是适用于本发明的特定响度的较粗略近似的一个例子。其它近似也是可能的，且本发明意在涵盖所有这样的近似的使用。

实现

本发明可用硬件或软件或二者的组合(例如可程序逻辑阵列)来实现。除非另有规定，作为本发明的一部分被包括在内的算法并非与任何具体计算机或其它装置固有地相关。具体而言，各种通用机器可与根据此处教导编写的程序一起使用，或者，构造更专门的装置(例如集成电路)来执行所需的方法步骤可能是更方便的。因此，本发明可用在一个或多个可编程计算机系统上执行的一个或多个计算机程序来实现，其中每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储单元)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码被施加于输入数据以执行此处描述的功能并生成输出信息。该输出信息以已知的方式被施加于一个或多个输出设备。

每个这样的程序可用任何期望计算机语言(包括机器、汇编、或高级程序的、逻辑的或面向对象的编程语言)来实现，以与计算机系统通信。在任何情形下，该语言可以是编译或解释语言。

每个这样的计算机程序优选地被存储在或被下载到可由通用或专用可编程计算机读取的存储介质或设备(例如固态存储器或介质、或者磁或光介质)，用于当存储介质或设备被计算机系统读取时配置和操作计算机以执行此处描述的过程。本发明的系统亦可被看作实施为配置有计算机程序的计算机可读取存储介质，其中如此配置的存储介质使得计算机系统以特定且预定的方式工作以执行此处描述的功能。

已描述了本发明的若干实施例。然而，应理解，可在不背离本发明的精神和范围的情况下作出各种修改。例如，此处描述的步骤中的一些步骤可无顺序之分，并因此可按不同于所述顺序的顺序来执行。

Claims

1.一种用于推导可用于控制音频信号的特定响度的信息的方法，其中特定响度是将感知响度作为频率和时间的函数的度量，所述方法包括：

推导可用于修正所述音频信号以便减小其特定响度与目标特定响度之间的差异的修正参数。

2.一种用于推导可用于控制音频信号的部分特定响度的信息的方法，其中特定响度是将感知响度作为频率和时间的函数的度量，且信号的部分特定响度是将在有次要干扰信号的情况下的所述信号的感知响度作为频率和时间的函数的度量，所述方法包括：

推导可用于修正所述音频信号以便减小其部分特定响度与目标特定响度之间的差异的修正参数。

3.一种用于控制音频信号的特定响度的方法，其中特定响度是将感知响度作为频率和时间的函数的度量，所述方法包括：

修正所述音频信号以便减小其特定响度与目标特定响度之间的差异。

4.一种用于控制音频信号的部分特定响度的方法，其中特定响度是将感知响度作为频率和时间的函数的度量，且信号的部分特定响度是将在有次要干扰信号的情况下的所述信号的感知响度作为频率和时间的函数的度量，所述方法包括：

修正所述音频信号以便减小其部分特定响度与目标特定响度之间的差异。

5.根据权利要求1-4中任一项所述的方法，其中所述修正或推导从发送中接收或者从存储介质再现所述音频以及目标特定响度或目标特定响度的表示。

6.根据权利要求3或4所述的方法，其中所述修正根据修正参数修正所述音频信号以提供经修正的音频信号，且所述修正从发送中接收或者从存储质再现所述音频和所述修正参数。

7.根据权利要求3或4所述的方法，其中所述修正包括修正参数的生成。

8.根据权利要求1-7中任一项所述的方法，其中所述目标特定响度不是所述音频信号的函数。

9.根据权利要求8所述的方法，其中所述修正或所述推导包括存储目标特定响度。

10.根据权利要求8所述的方法，其中所述修正或所述推导包括从所述方法外部的源接收目标特定响度。

11.根据权利要求8-10中任一项所述的方法，其中所述修正或所述推导包括显式地计算特定响度和/或部分特定响度的处理。

12.根据权利要求8-10中任一项所述的方法，其中所述修正或所述推导包括隐式地计算特定响度和/或部分特定响度的处理。

13.根据权利要求12所述的方法，其中所述处理采用查找表使得所述处理固有地确定特定响度和/或部分特定响度。

14.根据权利要求12所述的方法，其中特定响度和/或部分特定响度在由所述处理采用的闭式数学表达式中被固有地确定。

15.根据权利要求8-14中任一项所述的方法，其中所述目标特定响度是非时变且非频变的。

16.根据权利要求8-14中任一项所述的方法，其中所述目标特定响度是非时变的。

17.一种用于处理音频信号的方法，所述方法包括：

根据一个或多个过程和一个或多个过程控制参数处理所述音频信号或所述音频信号的度量以产生目标特定响度，其中特定响度是将音频信号的感知响度作为频率和时间的函数的度量。

18.根据权利要求1-7和17中任一项所述的方法，其中所述目标特定响度是所述音频信号或所述音频信号的度量的函数。

19.根据权利要求18所述的方法，其中所述音频信号的所述度量是所述音频信号的特定响度。

20.根据权利要求18或19所述的方法，其中所述音频信号或所述音频信号的度量的所述函数是对所述音频信号或所述音频信号的度量的一种或多种缩放。

21.根据权利要求20所述的方法，其中所述一种或多种缩放包括如以下关系式中的对所述特定响度的时变且频变尺度因子

[b，t]缩放：

\hat{N} [b, t] = Ξ [b, t] N [b, t]

其中

是所述目标特定响度，N[b，t]是所述音频信号的所述特定响度，b是频率的度量，t是时间的度量。

22.根据权利要求21所述的方法，其中所述缩放至少部分地由期望多带响度与所述音频信号的多带响度的比值来确定。

23.根据权利要求22所述的方法，其中所述缩放可表达为如以下关系式中的L_o[b，t]/L_i[b，t]：

\hat{N} [b, t] = \frac{L_{o} [b, t]}{L_{i} [b, t]} N [b, t]

其中N[b，t]是所述音频信号的所述特定响度，L_o[b，t]是所述期望多带响度，L_i[b，t]是所述音频信号的所述多带响度，

是所述目标特定响度。

24.根据权利要求23所述的方法，其中L_o[b，t]是L_i[b，t]的函数。

25.根据权利要求24所述的方法，其中作为L_i[b，t]的函数的L_o[b，t]可表达为：

L_o[b，t]＝DRC{L_i[b，t]}

其中DRC{}表示将L_i[b，t]映射到L_o[b，t]的动态范围函数。

26.根据权利要求23所述的方法，其中L_i[b，t]是所述音频信号的所述特定响度的经时间平滑和/或频率平滑的版本。

27.根据权利要求22-26中任一项所述的方法，其中所述方法可用作动态范围控制，在所述动态范围控制中，所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号：其中感知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度缩放值而言可能不同。

28.根据权利要求27所述的方法，其中所述动态范围函数控制每个频带中的响度，以使得施加于每个频带的短期改变在频带之间独立地变化，而施加于每个频带的平均改变对于所有频带而言基本上相同。

29.根据权利要求28所述的方法，其中作为L_i[b，t]的函数的L_o[b，t]可表达为：

L_{o} [b, t] = \frac{{\overset{&OverBar;}{L}}_{i} [b, t]}{{\overset{&OverBar;}{L}}_{i} [t]} DRC {\frac{{\overset{&OverBar;}{L}}_{i} [t]}{{\overset{&OverBar;}{L}}_{i} [b, t]} L_{i} [b, t]}

其中L_o[b，t]＝DRC{L_i[b，t]}表示所述音频信号的总响度到期望总响度的映射，其中

表示所述音频信号的宽带响度L_i[t]的经时间平均的版本，

表示所述音频信号的多带响度L_i[b，t]的经时间平均的版本。

30.根据权利要求28或29所述的方法，其中所述方法可用作动态范围控制，在所述动态范围控制中，所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号：其中感知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度缩放值而言保持与所述音频信号的感知音频频谱基本上相同。

31.根据权利要求21所述的方法，其中所述特定响度被缩放等于期望频谱形状的度量与所述音频信号的频谱形状的度量的比值的倍数。

32.根据权利要求31所述的方法，其中所述方法将所述音频信号的感知频谱从时变的感知频谱变换成基本上非时变的感知频谱。

33.根据权利要求31或32所述的方法，其中所述缩放可表达为如以下关系式中的

{(\frac{\overset{&OverBar;}{L} [b, t]}{{\overset{&OverBar;}{L}}_{EQ} [b, t]})}^{1 - β} \frac{{\overset{&OverBar;}{L}}_{EQ} [b, t]}{\overset{&OverBar;}{L} [b, t]} :

\hat{N} [b, t] = {(\frac{\overset{&OverBar;}{L} [b, t]}{{\overset{&OverBar;}{L}}_{EQ} [b, t]})}^{1 - β} \frac{{\overset{&OverBar;}{L}}_{EQ} [b, t]}{\overset{&OverBar;}{L} [b, t]} N [b, t]

并且其中L[b，t]是所述音频信号的经时间平滑的多带响度，L_EQ[b，t]是被归一化以与所述多带响度L[b，t]具有相同的宽带响度的期望频谱EQ[b]，使得L_EQ[b，t]可表达为：

{\overset{&OverBar;}{L}}_{EQ} [b, t] = (\frac{\underset{c}{Σ} \overset{&OverBar;}{L} [c, t]}{\underset{c}{Σ} EQ [c]}) EQ [b]

其中N[b，t]是所述音频信号的所述特定响度，

是所述目标特定响度，β是具有由零和一界定并且包括零和一的范围的参数，所述参数控制缩放的水平。

34.根据权利要求33所述的方法，其中所述参数β由所述方法外部的源选择或控制。

35.根据权利要求34所述的方法，其中所述源是所述方法的用户。

36.根据权利要求31-35中任一项所述的方法，其中所述方法可用作动态均衡器，在所述动态均衡器中，所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号：其中感知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度缩放值而言可能不同。

37.根据权利要求21-36中任一项所述的方法，其中所述音频信号的所述多带响度通过将所述音频信号分成临界频带并在所述临界频带中的一些临界频带上进行频率平滑来取近似。

38.根据权利要求37所述的方法，其中特定频带b处的所述多带响度的经频带平滑的版本L[b，t]可表达为对所有频带c的卷积和：

L_{i} [b, t] = \underset{c}{Σ} Q (b - c) N [c, t]

其中N[c，t]是所述音频信号的所述特定响度，Q(b-c)是所述平滑滤波器的频带平移后的响应。

39.根据权利要求20所述的方法，其中所述一种或多种缩放包括如以下关系式中的对所述特定响度的时变而非频变尺度因子Φ[t]缩放：

\hat{N} [b, t] = Φ [t] N [b, t]

其中

40.根据权利要求39所述的方法，其中所述缩放至少部分地由期望宽带响度与所述音频信号的宽带响度的比值来确定。

41.根据权利要求39或40所述的方法，其中所述音频信号的所述特定响度的所述函数中的所述缩放可表达为如以下关系式中的L_o[t]/L_i[t]：

\hat{N} [b, t] = \frac{L_{o} [t]}{L_{i} [t]} N [b, t]

其中N[b，t]是所述音频信号的所述特定响度，L_o[t]是期望多带响度，L_i[t]是所述音频信号的所述宽带响度，

是所述目标特定响度。

42.根据权利要求41所述的方法，其中L_o[t]是L_i[t]的函数。

43.根据权利要求42所述的方法，其中作为L_i[t]的函数的L_o[t]可表达为：

L_o[t]＝DRC{L_i[t]}

其中DRC{}表示将L_i[t]映射到L_o[t]的动态范围函数。

44.根据权利要求41所述的方法，其中L_i[t]是所述音频信号的总响度的经时间平滑的版本。

45.根据权利要求41所述的方法，其中L_i[t]是所述音频信号的长期响度的度量。

46.根据权利要求41所述的方法，其中L_i[t]是所述音频信号的短期响度的度量。

47.根据权利要求39-46中任一项所述的方法，其中所述方法可用作自动增益控制或动态范围控制，在所述自动增益控制或动态范围控制中，所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号：其中感知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度缩放值或部分特定响度缩放值而言保持与所述音频信号的感知音频频谱基本上相同。

48.根据权利要求21-47中任一项所述的方法，其中所述缩放因子是所述音频信号或所述音频信号的度量的函数。

49.根据权利要求20所述的方法，其中所述一种或多种缩放包括如以下关系式中的对所述特定响度的非时变而频变尺度因子Θ[b]缩放：

\hat{N} [b, t] = Θ [b] N [b, t]

其中

50.根据权利要求49所述的方法，其中所述修正或所述推导包括存储所述缩放因子Θ[b]。

51.根据权利要求49所述的方法，其中所述缩放因子Θ[b]从所述方法外部的源接收。

52.根据权利要求20所述的方法，其中所述一种或多种缩放包括如以下关系式中的对所述特定响度的非时变且非频变尺度因子α缩放：

\hat{N} [b, t] = αN [b, t]

其中是所述目标特定响度，N[b，t]是所述音频信号的所述特定响度，b是频率的度量，t是时间的度量。

53.根据权利要求52所述的方法，其中所述修正或所述推导包括存储所述缩放因子α。

54.根据权利要求52所述的方法，其中所述缩放因子α从所述方法外部的源接收。

55.根据权利要求49-54中任一项所述的方法，其中所述方法可用作音量控制，在所述音量控制中，所述修正或所述修正参数的施加产生这样的音频信号或者所述目标特定响度对应于这样的音频信号：其中感知音频频谱或在有干扰信号的情况下的感知音频频谱对于不同的特定响度或部分特定响度缩放值而言保持与所述音频信号的感知音频频谱基本上相同。

56.根据权利要求49-55中任一项所述的方法，其中所述缩放因子不是所述音频信号或所述音频信号的度量的函数。

57.根据权利要求1-56中任一项所述的方法，其中所述修正、所述推导或所述产生显式地计算(1)特定响度、和/或(2)部分特定响度、和/或(3)所述目标特定响度。

58.根据权利要求1-56中任一项所述的方法，其中所述修正、所述推导或所述产生隐式地计算(1)特定响度、和/或(2)部分特定响度、和/或(3)所述目标特定响度。

59.根据权利要求58所述的方法，其中所述修正、所述推导或所述产生采用固有地确定(1)特定响度、和/或(2)部分特定响度、和/或(3)所述目标特定响度的查找表。

60.根据权利要求58所述的方法，其中所述修正、所述推导或所述产生采用固有地确定(1)特定响度、和/或(2)部分特定响度、和/或(3)所述目标特定响度的闭式数学表达式。

61.根据权利要求1、2、7中任一项以及引用权利要求1、2或7的权利要求8-16和18-60中任一项所述的方法，其中所述修正或推导(1)发送和接收或(2)存储和再现所述音频信号和修正参数。

62.根据权利要求1、2、6、7中任一项以及引用权利要求1、2、6或7的权利要求8-16和18-60中任一项所述的方法，其中所述修正参数被执行时间平滑。

63.根据权利要求62所述的方法，其中所述修正参数包括与所述音频信号的频带相关的多个幅度缩放因子。

64.根据权利要求63所述的方法，其中所述多个幅度缩放因子中的至少一些幅度缩放因子是时变的。

65.根据权利要求62所述的方法，其中所述修正参数包括用于控制一个或多个滤波器的多个滤波器系数。

66.根据权利要求65所述的方法，其中所述一个或多个滤波器中的至少一些滤波器是时变的，且所述滤波器系数中的至少一些滤波器系数是时变的。

67.根据权利要求1-66中任一项所述的方法，其中所述修正、所述推导或所述产生依赖于以下中的一个或多个：

干扰音频信号的度量，

目标特定响度，

从经修正的音频信号的特定响度或部分特定响度导出的未修正的音频信号的特定响度的估计，

所述未修正的音频信号的所述特定响度，以及

从所述经修正的音频信号的所述特定响度或部分特定响度导出的所述目标特定响度的近似。

68.根据权利要求1-4和7中任一项以及引用权利要求1-4或7的权利要求8-16和18-66中任一项所述的方法，其中所述修正或所述推导至少部分地从以下中的一个或多个推导修正参数：

干扰音频信号的度量，

目标特定响度，

所述未修正的音频信号的所述特定响度，以及

69.根据权利要求68所述的方法，其中所述修正或所述推导至少部分地从下面推导修正参数：

(1)以下两者之一：

目标特定响度，和

从所述经修正的音频信号的所述特定响度得到的所述未修正的音频信号的所述特定响度的估计，以及

(2)以下两者之一：

所述未修正的音频信号的所述特定响度，和

从所述经修正的音频信号的所述特定响度导出的所述目标特定响度的近似

70.根据权利要求68所述的方法，其中所述修正或所述推导至少部分地从下面推导修正参数：

(1)干扰音频信号的度量

(2)以下两者之一：

目标特定响度，和

从所述经修正的音频信号的所述部分特定响度导出的所述未修正的音频信号的所述特定响度的估计，以及

(3)以下两者之一：

所述未修正的音频信号的所述特定响度，和

从所述经修正的音频信号的所述部分特定响度导出的所述目标特定响度的近似

71.根据权利要求69或70所述的方法，其中所述方法采用其中所述特定响度从所述音频信号导出的前馈布置，并且其中所述目标特定响度从所述方法外部的源接收，或者在所述修正或推导包括存储目标特定响度时从存储接收。

72.根据权利要求69或70所述的方法，其中所述方法采用其中所述目标特定响度的近似从所述经修正的音频信号导出的混合前馈/反馈布置，并且其中所述目标特定响度从所述方法外部的源接收，或者在所述修正或推导包括存储目标特定响度时从存储接收。

73.根据权利要求69或70所述的方法，其中所述修正或推导包括用于显式或隐式地获得所述目标特定响度的一个或多个过程，所述过程中的一个或多个显式或隐式地计算所述音频信号或所述音频信号的度量的所述函数。

74.根据权利要求73所述的方法，其中所述方法采用其中所述特定响度和所述目标特定响度从所述音频信号导出的前馈布置，所述目标特定响度的推导采用所述音频信号或所述音频信号的度量的所述函数。

75.根据权利要求73所述的方法，其中所述方法采用其中所述目标特定响度的近似从所述经修正的音频信号导出且所述目标特定响度从所述音频信号导出的混合前馈/反馈布置，所述目标特定响度的推导采用所述音频信号或所述音频信号的度量的所述函数。

76.根据权利要求69或70所述的方法，其中所述修正或推导包括用于显式或隐式地获得响应于所述经修正的音频信号对所述未修正的音频信号的所述特定响度进行的估计的一个或多个过程，所述过程中的一个或多个显式或隐式地计算所述音频信号或所述音频信号的度量的所述函数的反函数。

77.根据权利要求76所述的方法，其中所述方法采用其中所述未修正的音频信号的所述特定响度的估计以及所述目标特定响度的近似从所述经修正的音频信号导出的反馈布置，所述特定响度的估计使用所述音频信号或所述音频信号的度量的所述函数的反函数来计算。

78.根据权利要求76所述的方法，其中所述方法采用其中所述特定响度从所述音频信号导出且所述未修正的音频信号的所述特定响度的所述估计从所述经修正的音频信号导出的混合前馈/反馈布置，所述估计的推导使用所述音频信号或所述音频信号的度量的所述函数的反函数来计算。

79.根据权利要求1-4和17以及引用权利要求1-4或17的权利要求18-78中任一项所述的方法，其中所述修正或推导(1)发送和接收或(2)存储和再现所述音频信号以及目标特定响度或目标特定响度的表示。

80.根据引用权利要求20、21、39、49或52中任一项的权利要求79所述的方法，其中所述目标特定响度的表示是对所述音频信号或所述音频信号的度量进行缩放的一个或多个尺度因子。

81.根据权利要求1、2、6和7以及引用权利要求1、2、6或7的权利要求8-16和18-80中任一项所述的方法，还包括向所述音频信号施加所述修正参数以产生经修正的音频信号。

82.根据权利要求1-4、17以及引用权利要求1-4或17的权利要求18-78中任一项所述的方法，还包括发送或存储所述音频信号以及所述目标特定响度或所述目标特定响度的表示。

83.根据权利要求82所述的方法，还包括接收或再现所述被发送或存储的音频信号以及所述目标特定响度或所述目标特定响度的表示。

84.根据权利要求83所述的方法，还包括响应于所述音频信号以及所述目标特定响度或所述目标特定响度的表示而修正所述音频信号以便减小所述音频信号的特定响度与所述目标特定响度之间的差异。

85.根据引用权利要求20-60中任一项的权利要求82-84中任一项所述的方法，其中所述目标特定响度的表示是对所述音频信号或所述音频信号的度量进行缩放的一个或多个尺度因子。

86.根据权利要求1、2、7以及引用权利要求1、2和7的权利要求18-60中任一项所述的方法，还包括发送或存储所述音频信号和所述修正参数。

87.根据权利要求86所述的方法，还包括接收或再现所述被发送或存储的音频信号和所述修正参数。

88.根据权利要求87所述的方法，还包括响应于所述修正参数而修正所述音频信号。

89.一种装置，其适于执行权利要求1-88中任一项所述的方法。

90.一种计算机程序，其存储在计算机可读介质上，所述计算机可读介质用于使得计算机执行权利要求1-88中任一项所述的方法。