CN101819771B

CN101819771B - 用于计算和调节音频信号的感觉响度的方法和设备

Info

Publication number: CN101819771B
Application number: CN201010134528XA
Authority: CN
Inventors: 阿伦·J.·西非尔特; 迈克尔·J.·施弥兹尔斯; 布莱特·G.·克罗克特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2003-05-28
Filing date: 2004-05-27
Publication date: 2012-04-11
Anticipated expiration: 2024-05-27
Also published as: AU2004248544B2; CN101819771A; DE602004008455T2; KR20060013400A; IL172108A; DK1629463T3; CA2525942A1; CA2525942C; US20070092089A1; EP1629463B1; AU2004248544A1; MXPA05012785A; HK1083918A1; BRPI0410740A; KR101164937B1; WO2004111994A2; CN1795490A; SG185134A1; PL1629463T3; IN2010KN02913A

Abstract

在计算音频信号感觉响度中应用从一组两个或更多这些函数选择的两个或更多单位响度模型函数之一或其组合。例如，通过测量音频信号是窄带或宽带的程度可以选择函数。替换地或者利用从一组功能的这种选择，计算增益值G[t]，当该增益应用于所述音频信号时，其产生基本上和参考响度相同的感觉响度。所述增益计算应用包括感觉响度计算的迭代处理循环。

Description

用于计算和调节音频信号的感觉响度的方法和设备

本申请是国际申请日为2004年5月27日、申请号为200480014684.5、发明名称为“用于计算和调节音频信号的感觉响度的方法、设备和计算机程序”的PCT国际申请进入中国国家阶段的中国发明专利申请的分案申请。本申请要求美国专利申请60/474,077(2003年5月28日递交)的优先权，这里通过引用将其内容包含进来。

技术领域

本发明涉及音频信号的响度测量，以及响应于这种测量而控制音频信号响度的设备、方法、和计算机程序。

背景技术

响度是听觉的主观感觉属性，通过它能够在从无声扩展到大声的标度上排序声音。由于响度是听众所感觉的感觉，因此它不适合于直接的物理测量，所以难以进行量化。另外，由于响度的感觉分量，具有“正常”听力的不同听众可能对同一种声音产生不同的感觉。减少个体感觉所引入的变化和达到音频材料响度的一般测量的唯一方法是集合一群听众并导出响度图形或进行统计排序。这对于逐日标准的响度测量显然是一种不切实际的方法。

已经进行了许多尝试来开发一种令人满意的测量响度的客观的方法。在1933年Fletcher和Munson确定了人类听力在低频和高频比在中间(或声音)频率较不敏感。他们还发现在声音级增加时，灵敏度中的相对变化减小。早先的响度测量仪由麦克风、放大器、测量仪和设计用于在低、中和高声音级粗略模仿听力的频率响应的滤波器组合而组成。

即使这些设备提供了单一的、恒定级独立音调的响度测量，但是更复杂声音的测量不是非常地匹配响度的主观印象。这种类型的声音级测量仪已经标准化，但是其仅仅用于特定的任务，诸如工业噪声的监控和控制。

早在20世纪50年代，其中Zwicker和Stevens在开发响度感觉处理的更为逼真的模型中扩展了Fletcher和Munson的工作。Stevens在1956年美国声学协会杂志上公布了一种方法“Calculation of theLoudness of Complex Noise”，以及Zwicker在1958年的声学文章中公布了他的“Psychological and Methodical Basis of Loudness”。在1959年，Zwicker公布了用于响度计算的图像处理以及不久之后又公布了若干的类似文章。Stevens和Zwicker方法(分别)标准化为ISO532部分A和B。两种方法都包含标准的心理声学现象诸如临界频带、频率屏蔽和单位响度。这些方法基于将复合声音划分成落入频率的“临界频带”内的分量，以允许有可能一些信号分量屏蔽其他分量，以及在每一临界频带中增加单位响度以达到声音的完全响度。

正如澳大利亚广播管理局(ABA)“Investigation into Loudness ofAdvertisements”(2002年7月)所证明的，近来的研究已经显示出许多广告(和一些节目)被感觉与其他节目相比太大声了，所以对于听众来说非常令人烦恼。ABA的调查研究仅仅是最近的尝试来解决在实际上所有广播材料和国家多年存在的问题。这些结果显示出能够减小或消除由于在节目材料上不相容的响度而引起的听众烦恼，如果可靠的话，能够进行节目响度的相容测量，并用来减小令人烦恼的响度变化。

Bark标度是在临界频带原理中使用的测量单位。所述临界频带标度是基于这样的事实即人类听力分析广谱成对应于较小临界子频带的部分。以这种方式给下一临界频带增加一个临界频带即较低临界频带的上限是下一较高临界频带的下限，这导致了临界频带速率的标度。如果通过这种方式将临界频带相加起来，那么特定频率对应于每一交叉点。第一临界频带跨越的范围从0到100Hz，第二频带的范围从 100Hz到200Hz，第三频带的范围从200Hz到300Hz等等直到500Hz，其中每一临界频带的频率范围增加。从0到16kHz的可听频率范围能够被划分成24个邻接的临界频带，其通过增加频率增加了带宽。所述临界频带编号为0到24并具有定义Bark标度的单位“Bark”。临界频带速率和频率之间的关系对于理解人耳的许多特性是重要的。例如，参见E.Zwicker和H.Fastl所著的Psychoacoustics-Facts and Models，1990年柏林Springer-Verlag公布。

等效矩形带宽(ERB)标度是测量人听力的频率的方式，它与Bark标度相类似。通过Moore、Glasberg和Baer开发，它是Zwicker响度工作的改进。参见Moore、Glasberg和Baer(B.C.J.Moore，B.Glasberg，T.Baer的，“A model for the Prediction of Thresholds，Loudness，and Partial Loudness”，音频工程协会杂志，45卷，NO.4，1997年4月，第224-240页)。由于在这样低的频率测量低于500Hz的临界频带是困难的，因此人听觉系统的效率和灵敏度迅速地减小。听觉滤波器带宽的改进测量已经产生了ERB速率标度。这些测量使用V字形噪声屏蔽器测量听觉滤波器带宽。一般而言，对于ERB标度，听觉滤波器带宽(以ERB为单位表示)小于Bark标度上的带宽。对于较低频率则这种差别变得更大。

低于人听力系统的频率选择性能够通过将声音强度细分为落入临界频带内的部分来近似。这种近似产生了临界频带强度的概念。如果代替理想的临界频带滤波器的无限陡峭斜率，考虑在人听力系统中产生的实际斜率；然后这种处理产生了称为激励的强度中间值。通常，这些值不用作线性值而是用作类似于声压级的对数值。临界频带和激励级是在许多模型中起中间值作用的相应值。(参见Psychoacoustics-Facts and Models，Supra)。

响度级可以以“方”为单位进行测量。一个方定义为在1dB声压级(SPL)播放的1kHz纯正弦波的感觉响度，其对应于2×10^-5帕的均方根压强。N方是在N dB SPL播放的1kHz音调的感觉响度。在比较除了1kHz以外频率的音调响度和1kHz音调中使用这种定义，能够为给定级的方确定等响度轮廓。图7示出了用于20Hz和12.5kHz之间的频率，以及用于4.2方(被认为是听力的门限)和120方之间方级的等响度级轮廓(ISO226：1987(E)，“Acoustics-Normal EqualLoudness Level Contours”)。

响度级还可以以单位“宋”进行测量。如在图7中所指示，在方单位和宋单元之间存在一一映射。1宋定义为40dB(SPL)1kHz纯正弦波的响度并且等效于40方。宋的单位是这样的：宋单位的两倍增加对应于感觉响度的翻倍。例如，4宋被感觉为2宋两倍的响度。因此，以宋表示响度级更能提供信息。

由于宋是音频信号响度的度量，单位响度简单地说是每单位频率的响度。因此，当使用bark频率标度时，单位响度具有每bark的宋单位，并且同理当使用ERB频率标度时，所述单位是每ERB宋。

在本文的以下部分，这里使用的术语诸如“滤波器”和“滤波器组”将包括基本上任何形式的递归和非递归滤波诸如IIR滤波器和变换，以及“滤波的”信息是应用这些滤波器的结果。以下描述的实施例应用通过IIR滤波器和变换实现的滤波器组。

发明内容

根据本发明的一个方面，一种用于处理音频信号的方法包括：响应于所述音频信号产生激励信号，以及响应于激励信号和音频信号特性的测量计算音频信号的感觉响度，其中所述计算从一组两个或更多单位响度模型函数中选择一个或两个或更多单位响度模型函数的组合，并通过输入音频信号特性的测量控制这种选择。

根据本发明的再一个方面，一种用于处理音频信号的方法包括：响应于所述音频信号产生激励信号，以及至少响应于该激励信号，计算增益值G[t]，如果将该增益值应用于音频信号，将会产生基本上与参考响度相同的感觉响度，所述计算包括迭代处理循环，该处理包括至少一非线性处理。

根据本发明的又一个方面，一种用于处理多个音频信号的方法包括多个处理，每一处理接收各自的音频信号，其中每一处理响应于各自的音频信号产生激励信号，至少响应于该激励信号计算增益值G[t]，如果将该增益值应用于音频信号，将会产生基本上与参考响度相同的感觉响度，所述计算包括迭代处理循环，该处理包括至少一非线性处理，以及利用增益值G[t]控制各自音频信号的幅度，以便所产生的各自音频信号的感觉响度基本上与参考响度相同，并应用该相同的参考响度给多个处理的每一处理。

在应用本发明这些方面的实施例中，一种用于信号处理的方法或设备接收输入音频信号。该信号通过模拟外和中耳特性的滤波器或滤波器功能，以及将滤波的信号划分成频带的滤波器组或滤波器组功能进行线性滤波，其中所述频带模拟和内耳的基膜一起产生的激励特性曲线。对于每一频带，使用一个或更多单位响度函数或模型计算单位响度，其选择是通过从输入音频信号提取的特性或特征来控制的。用于每一频带的单位响度组合成表示宽带输入音频信号的响度测量。可以为输入信号的一些有限的时间范围计算响度测量的单一值，或者在输入音频信号的时段或块上重复计算该响度测量。

在应用本发明这些方面的另一个实施例中，用于信号处理的方法或设备接收输入音频信号。该信号通过模拟外和中耳特性的滤波器或滤波器功能，以及将滤波的信号划分成频带的滤波器组或滤波器组功能进行线性滤波，其中所述频带模拟和内耳的基膜一起产生的激励特性曲线。对于每一频带，使用一个或更多单位响度函数或模型计算单位响度，其选择是通过从输入音频信号提取的特性或特征来控制的。用于每一频带的单位响度组合成表示宽带输入音频信号的响度测量。比较该响度测量与参考响度值，并将其差别用于标度和增益调节先前输入到单位响度计算的划分频带的信号。重复单位响度计算、响度计算和参考比较，直到响度和参考响度值基本上相同为止。因此，应用于划分频带信号的增益表示当增益应用于输入音频信号时，产生输入音频信号的基本上等于参考响度的感觉响度的增益。可以为输入信号的一些有限的时间范围计算响度测量的单一值，或者在输入音频信号的时段或块上重复计算该响度测量。优选增益的递归应用，这是因为感觉响度的非线性特性以及响度测量处理的结构。

通过参考以下公开的内容和附图可以更好地理解本发明的各个方面及其优选实施例，其中在若干附图中相同的附图标记表示相同的单元。示例各个设备和处理的附图示出了有助于理解本发明的主要单元。为了简明起见，附图省略了许多其他特征，这些特征可能在实际实施中是重要的并且对于本领域的普通技术人员来说是熟知的，但是这对于理解本发明的构思不重要。用于实践本发明的信号处理可以通过大量的方式来实现，其中包括微处理器执行的程序、数字信号处理器、逻辑阵列和其他形式的计算电路。

附图说明

图1是本发明一个方面的实施例的示意功能方框图。

图2是本发明再一个方面的实施例的示意功能方框图。

图3是本发明又一个方面的实施例的示意功能方框图。

图4是在本发明实施例中适于作为传输滤波器的线性滤波器P(z)理想的特性响应，其中垂直轴是单位为分贝(dB)的衰减以及水平轴是单位为赫兹(Hz)的对数底为10的频率。

图5示出了ERB频率标度(垂直轴)和单位为赫兹的频率(水平轴)之间的关系。

图6示出了一组近似ERB标度上临界频带的理想听觉滤波器特性响应。水平标度是单位为赫兹的频率以及垂直轴是单位为分贝的级。

图7示出了ISO226的等响度轮廓。水平标度是单位为赫兹的频率(对数底为10的标度)以及垂直标度是单位为分贝的声压级。

图8示出了通过传输滤波器P(z)规格化的ISO266的等响度轮廓。水平轴是单位为赫兹的频率(对数底为10的标度)和垂直轴是单位为分贝的声压级。

图9(实线)示出了用于均匀激励噪声和1kHz音调的响度曲线，其中实线是根据本发明的实施例绘制的，参数是选择匹配根据 Zwicker的实验数据的(方块和圆圈)。垂直标度是单位为宋的响度(对数底为10)以及水平轴是单位为分贝的声压级。

图10是本发明再一个方面的实施例的示意功能方框图。

图11是本发明又一个方面的实施例的示意功能方框图。

图12是本发明又一个方面的实施例的示意功能方框图。

图13是本发明又一个方面的实施例的示意功能方框图。

具体实施方式

如以下更详细所描述的，图1示出了本发明第一方面的实施例，包括分析和推导输入音频信号特性的单位响度控制器或控制器功能(“单位响度控制”)124。该音频特性用于控制在单位响度转换器或转换器功能(“单位响度”)120中的参数。通过使用信号特性调节单位响度参数，本发明的客观响度测量技术可以更近似地匹配通过使用多个听众统计测量响度所产生的主观响度结果。使用信号特性控制响度参数还可以减少不正确测量的发生，这种不正确的测量产生被认为是使听众烦恼的信号响度。

如以下更详细地描述，图2中示出了本发明第二方面的实施例，增加增益设备或功能(“迭代增益更新”)233其目的是为了迭代调节从输入音频信号导出的时间平均的激励信号的增益，直到在图2中223的相关响度匹配在图2中230的期望的参考响度。由于感觉响度的客观测量包含固有的非线性处理，迭代循环可以有利地应用于确定适当的增益，以匹配输入音频信号的响度和期望的响度级。但是，围绕整个响度测量系统的迭代增益循环，以至于应用增益调节到用于每一响度迭代的原始输入音频信号，由于产生长期响度的精确测量所需的时间积分，迭代增益循环将会昂贵地实现。一般而言，在这种安排中，所述时间积分需要在迭代中对增益的每一变化进行重新计算。但是，正如以下说明的，在图2以及还有图3，和图10-12的实施例中所示的本发明的这些方面中，可以在线性处理通道中执行时间积分，该处理在形成迭代增益循环部分的非线性处理之前和/或之后。线性处理通道不需要形成迭代循环的一部分。因此，例如在图2的实施例中，从输入201到单位响度转换器或转换器功能(“单元响度”)220的响度测量通道可以包括在时间平均功能(“时间平均”)206中的时间积分，并且它是线性的。因此，增益迭代仅仅需要应用于一组减少的响度测量设备或函数，并且不需要包括任何时间积分。在图2的实施例中，传输滤波器或传输滤波器功能(“传输滤波器”)202，滤波器组或滤波器组功能(“滤波器组”)204，时间平均器或时间平均功能(“时间平均”)206以及单位响度控制器或单位响度控制功能(“单位响度控制”)224不是迭代循环的一部分，这允许在有效和精确的实时系统中实现迭代增益控制。

再次参考图1，其中示出了根据本发明第一方面的响度测量仪或响度测量处理100实施例的功能方框图。要确定响度测量的音频信号施加于响度测量仪或响度测量处理100的输入端101。该输入施加于两条通道-第一(主)通道，计算多个频带的每一频带中的单位响度，该频带模拟和内耳的基膜一起产生的激励特性曲线，以及具有单位响度控制器的第二(侧)通道，用于选择在主通道中应用的单位响度函数或模型。

在优选的实施例中，在数字域中执行音频处理。相应地，通过离散时间序列x[n]表示音频输入信号，该序列已经以某采样频率f_s从音频源进行采样。假定已适当地标度序列x[n]，以便x[n]以分贝表示的rms功率：

{RMS}_{dB} = 10 \log_{10} (\frac{1}{L} Σ_{n = 0}^{L} x^{2} [n])

等于以dB表示的声压级，在此分贝听众可听得见所述音频。另外，为了简化说明假定该音频信号是单声道的。但是，本实施例可以通过以下描述的方式适于多声道音频。

传输滤波器102

在主通道中，音频输入信号施加于传输滤波器或传输滤波器功能(“传输滤波器”)102，其输出是音频信号的滤波形式。传输滤波器102通过应用线性滤波器P(z)模拟通过外耳和耳朵中间部分传输音频的效果。如图4中所示，P(z)的一个适当的幅度频率响应在低于1kHz时为1，以及高于1kHz时该响应跟随如在ISO226标准中规定的听力门限的倒数，该门限被规格化成在1kHz处等于1。通过应用传输滤波器，响度测量处理所处理的音频更接近地近似人听力所感觉的音频，借此改进了客观响度测量。因此，传输滤波器102的输出是时域输入音频信号x[n]的依赖于频率标度的形式。

滤波器组104

滤波的音频信号施加于滤波器组或滤波器组功能(“滤波器组”)104(图1)。滤波器组104被设计用于模拟和内耳的基膜一起产生的激励特性曲线。滤波器组104可以包括一组线性滤波器，其带宽和间隔在等效矩形带宽(ERB)频率标度上连续，如Moore、Glasberg和Baer(B.C.J.Moore，B.Glasberg，T.Baer的“A model for the Predictionof Thresholds，Loudness，and Partial Loudness”，如前述)所定义的。

尽管ERB频率标度更接近匹配人的感觉并显示出在产生匹配于主观响度结果的客观响度测量方面的改进性能，但是也可以应用降低性能的Bark频率标度。

对于单位为赫兹的中心频率f，单位是赫兹的一个ERB频带的宽度可以近似为：

ERB(f)＝24.7(4.37f/1000+1) (1)

从这种关系，定义变形的频率标度，以便在任何点和变形的标度一起，变形标度单位中的相应ERB等于1。用于从单位为赫兹的线性频率转换到该ERB频率标度的函数通过对方程1的倒数积分而获得：

HzToERB (f) = &Integral; \frac{1}{24.7 (4.37 f / 1000 + 1)} df = 21.4 \log_{10} (4.37 f / 1000 + 1) - - - (2 a)

通过解方程2a求解f表示从ERB标度转换回线性频率标度是有用的：

ERBToHz (e) = f = \frac{1000}{4.37} 10^{(e / 21.4 - 1)} - - - (2 b)

这里e是以ERB标度的单位。图5示出了ERB标度和单位为赫兹的频率之间的关系。

用于滤波器组104的听觉滤波器的响应可以使用标准的IIR滤波器表征和实现。更具体而言，在单位为赫兹的中心频率f_c处并在滤波器组104中实现的各个听觉滤波器可通过第十二阶IIR传递函数定义：

H_{f_{c}} (z) = G \frac{(1 - z^{- 1}) (1 - 2 r_{B} \cos (2 {πf}_{B} / f_{s}) z^{- 1} + r_{B}^{2} z^{- 2})}{{(1 - 2 r_{A} \cos (2 {πf}_{A} / f_{s}) z^{- 1} + r_{A} z^{- 2})}^{6}} - - - (3)

其中

f_{A} = \sqrt{{f_{c}}^{2} + B_{w}^{2}} - - - (4 a)

r_{A} = e^{- 2 {πB}_{w} / f_{s}} - - - (4 b)

B_w＝min{1.55ERB(f_c)，0.5f_c (4c)

f_B＝min{ERBscale^-1(ERBscale(f_c)+5.25)，f_s/2} (4d)

r_B ＝0.985 (4e)

f_s是单位为赫兹的采样频率，以及G是保证每个滤波器在其频率响应峰值处具有单位增益的规格化系数；进行选择以便：

\max_{ω} {| H_{f_{c}} (e^{fω}) |} = 1 - - - (4 f)

滤波器组104可以包括M个这种听觉滤波器，称为频带，沿ERB标度在中心频率f_c[1]...f_c[M]均匀间隔。更具体而言，

f_c[1]＝f_min (5a)

f_c[m]＝f_c[m-1]+ERBToHz(HzToERB(f_c[m-1])+Δ) m＝2...M (5b)

f_c[M]＜f_max (5c)

这里Δ是期望的滤波器组104的ERB间隔，其中f_min和f_max分别是期望的最小和最大中心频率。可以选择Δ＝1，并考虑人耳敏感的频率范围，可以设置f_min＝50Hz和＝f_max20000Hz。利用这些参数，例如，应用方程6a-c产生M＝40个听觉滤波器。图6示出了在ERB标度上近似临界频带的这M个听觉滤波器的幅度。

可替换地，使用有限长度离散傅里叶变换，通常称之为短时离散傅里叶变换(STDFT)，可以充分地近似所述滤波操作，这是因为实现以音频信号的采样速率运行滤波器，称之为全速率实现，这被认为比精确的响度测量提供更高的时间分辨率。通过使用STDFT代替全速率实现，可以实现提高效率和减小计算的复杂度。

输入音频信号x[n]的STDFT定义为：

X [k, t] = Σ_{n = 0}^{N - 1} w [n] x [n + t . T] e^{- j \frac{2 πk}{N}} - - - (6)

这里k是频率索引，t是时间块索引，N是DFT大小，T是跳跃大小，以及w[n]是长度N的窗，其被规格化使得

Σ_{n = 0}^{N - 1} w^{2} [n] = 1 - - - (7)

值得注意的是方程6中的变量t是表示STDFT的时间块的离散索引，相对于以秒为单位的时间测量。t中的每一增加表示沿信号x[n]的T个采样的跳跃。接下来参考索引t假设这种定义。尽管可以取决于实现的细节而使用不同的参数设置和窗形状，对于f_s＝44100Hz，选择N＝4096，T＝2048，并让w[n]为产生最佳结果的汉明窗。使用快速傅里叶变换(FFT)上述的STDFT可以更加有效。

为了计算输入音频信号的响度，需要测量滤波器组104中每一滤波器的音频信号能量。通过将频域中的滤波器响应与输入信号的功率谱相乘，可以近似滤波器组104中每一滤波器的瞬时能量输出：

这里m是频带数量，t是方块号，以及p是传输滤波器。应该注意到除了方程3中规定以外的听觉滤波器的幅度响应形式可以在方程8中使用以获得类似的结果。例如，Moore和Glasberg建议了一种通过指数函数描述的滤波器形状，该函数的操作类似于方程3。另外，通过稍微地降低性能，可以将每一滤波器近似为通过一个ERB带宽的“砖墙”频带，以及作为另一种近似，传输滤波器P可以从求和中拉出。在这种情况下，方程8简化成

E [m, t] = \frac{1}{N} {| P (e^{j 2 π f_{c} [m] / f_{s}}) |}^{2} Σ_{k = k_{1}}^{k_{2}} {| X [k, t] |}^{2} - - - (9 a)

k₁＝round(ERBToHz(HzToERB(f_c[m])-1/2)N/f_s) (9b)

k₂＝round(ERBToHz(HzToERB(f_c[m])+1/2)N/f_s) (9c)

因此，滤波器组104的激励输出是在每时间周期t的各个ERB频带m中的能量E的频域表示。

多声道

对于当输入音频信号是要在多个扬声器上可听得见的多声道格式的情况下，对于每一声道一个扬声器，可以首先如上所述计算用于每一单独声道的激励。为了接下来计算组合的所有声道的感觉响度，可以将单独的激励一起相加成单一激励，以近似到达听众耳朵的激励。然后，对该单一的、求和的激励执行所有接下来的处理。

时间平均106

心理声学的研究和主观响度测试表明当比较各种音频信号之间的响度时，听众执行某种类型的短期或“瞬时”信号响度的时间积分，以达到用于比较中使用的长期感觉响度的值。当构造一种响度感觉的模型时，已经表明在将激励非线性变换成单位响度之后执行这种时间积分。但是，本发明人已经确定在变换激励成单位响度之前，对该激励使用线性平滑可以充分地模型化这种时间积分。根据本发明的一个方面，通过在计算单位响度之前执行这种平滑，当计算所需应用于信号的增益时，实现显著的优点，以便以预定的方式调节其测量的响度。如以下进一步说明的，可以通过使用迭代循环计算增益，该循环不仅排除激励计算还优选排除这种时间积分。通过这种方式，迭代循环通过计算可以产生增益，该计算仅仅取决于为其计算增益的当前时间帧，正如该计算对立于取决于时间积分的整个时段的计算。该结果节约了处理时间和存储器。使用迭代循环计算增益的实施例包括以下结合图2、3和10-12描述的内容。

返回到图1的描述，可以各种方式来实现激励的线性平滑。例如，可以使用应用以下方程的时间平均设备或功能(“时间平均”)106递归地执行平滑：

\tilde{E} [m, t] = \tilde{E} [m, t - 1] + \frac{1}{\tilde{σ} [m, t]} (E [m, t] - \tilde{E} [m, t - 1]) - - - (10 a)

\tilde{σ} [m, t] = λ_{m} \tilde{σ} [m, t - 1] + 1 - - - (10 b)

这里初始条件是

\tilde{E} [m, - 1] = 0

和

\tilde{σ} [m, - 1] = 0 .

平滑滤波器的唯一特征是通过改变平滑参数λ_m，平滑的能量

可以从E[m，t]的真实时间平均变化成E[m，t]的衰落记忆平均。如果λ_m＝1，那么根据(10b)可以看出

\tilde{σ} [m, t] = t,

那么对于从0到t的时间块，

等于E[m，t]的真实时间平均。如果0≤λ_m＜1，那么当t→∞时，

\tilde{σ} [m, t] &RightArrow; 1 / (1 - λ_{m}),

以及

简化为应用一个极点平滑器到E[m，t]的结果。对于期望描述有限长度音频分段的长期响度的单数字应用来说，对于所有m可以设置λ_m＝1。对于愿意实时跟踪连续音频流的时间变化长期响度的实时应用，对于所有m，可以设置0≤λ_m＜1并且设置λ_m成相同的值。

在计算E[m，t]的时间平均中，可以期望省略被认为“太静”的瞬时分段并且不会促进感觉响度。为了实现这，可以在方程10中与平滑器并行地运行第二门限平滑器。如果E[m，t]小于

则该第二平滑器保持它的当前值：

这里tdB是以分贝为单位规定的相对门限。尽管对于本发明不是关键，但是已经发现tdB的值＝-24产生好的结果。如果不存在并行运行的第二平滑器，那么

\overset{&OverBar;}{E} [m, t] = \tilde{E} [m, t] .

单位响度120

它对于频带时间平均的激励保留能量

被转换成感觉单位，在这种情况下单位为宋的单一响度测量。在单位响度转换器或转换功能(“单位响度”)120中，激励的每一频带被转换成单位响度的值，其中每ERB以宋测量该值。在响度组合器或响度组合功能(“响度”)122中，可以积分单位响度的值或者在频带上进行求和以产生总的感觉响度。

单位响度控制124/单位响度120

多模型

在一个方面，本发明在方块120中使用多个模型用于转换激励成频带单位响度。经由单位响度控制124在侧通道中从输入音频信号导出的控制信息选择模型或控制模型促进单位响度的程度。在方块124中，从所述音频中提取有利于从可用的模型中选择一个或更多单位响度模型的特定特征或特性。根据该提取的特征或特性产生指示应该使用哪一模型或模型组合的控制信号。在可能期望使用不止一个模型的情况下，所述控制信息还可以指示应该如何组合这些模型。

例如，每频带单位响度N’[m，t]可以表示为用于每一模型的每频带单位响度N’_q[m，t]的线性组合：

N^{'} [m, t] = Σ_{q = 1}^{Q} α_{q} [m, t] N_{q}^{'} [m, t] - - - (12)

这里Q指示模型的总数量以及控制信息α_q[m，t]表示每一模型的加权或贡献。加权的求和可以或不可以等于1，这取决于要使用的模型。

尽管本发明并不限制于此，但是已经发现两个模型给出了精确的结果。当所述音频信号表征为窄带时，一个模型执行最佳，以及当该音频信号表征为宽带时，另一个模型执行最佳。

初始，在计算单位响度中，可以将

的每一频带中的激励级转换成在ISO266(图7)的等响度轮廓所规定的1kHz处相同的激励级，通过传输滤波器P(z)(图8)规格化该等响度轮廓：

{\overset{&OverBar;}{E}}_{1 kHz} [m, t] = L_{1 kHz} (\overset{&OverBar;}{E} [m, t], f_{c} [m]) - - - (13)

这里L_1kHz(E，f)是产生在1kHz处级的函数，其等于频率f处的级E。实际上，L_1kHz(E，f)被实现为通过传输滤波器规格化的等响度轮廓查询表的内插。变换到1kHz处的相同级简化了以下单位响度计算。

接下来，每一频带中的单位响度可以如下计算：

N′[m，t]＝α[m，t]N_NB′[m，t]+(1-α[m，t])N_WB′[m，t] (14)

其中N’_NB[m，t]和N’_WB[m，t]分别是基于窄带和宽带信号模型的单位响度值。该值α[m，t]是根据音频信号计算的位于0和1之间的内插系数，以下将描述细节。

使用以下指数函数从频带激励可以估计窄带和宽带单位响度值N’_NB[m，t]和N’_WB[m，t]：

这里TQ_1kHz是在用于1kHz音调的无声门限的激励级。根据等响度轮廓(图7和8)，TQ_1kHz等于4.2dB。注意到当该激励等于无声的门限时，这些单位响度函数都等于零。对于大于无声门限的激励，这些函数根据Stevens的强度敏感定律以幂律单调增加。选择窄带函数的指数大于宽带函数的指数，使得窄带函数比宽带函数更迅速地增加。以下将讨论对用于窄带和宽带情况的指数β和增益G的具体选择。

响度122

响度122使用单位响度120的频带单位响度以产生音频信号的单一响度测量，即在端123的输出感觉单位的响度值。该响度测量可以具有任意的单位，只要用于不同音频信号的响度值的比较指示哪一更大声和哪一更温柔。

可以将以宋为单位表示的总响度计算为用于所有频带的单位响度的之和；

S [t] = Δ Σ_{m = 1}^{M} N^{'} [m, t] - - - (16)

这里Δ是方程6b中规定的ERB间隔。选择方程15a中的参数G_NB和β_NB，以便当α[m，t]＝1时，以宋为单位的S的曲线与用于1kHz音调的SPL的关系曲线基本上匹配Zwicker所提供的相应实验数据(图9中的圆圈)(Zwicker，H.Fastl，“Psychoacoustics-Facts andModels，”如前述)。选择方程15b中的参数G_WB和β_WB，以便当α[m，t]＝0时，以宋为单位的N的曲线与用于均匀激励噪声(在每一ERB具有相等功率的噪声)的SPL的关系曲线基本上匹配来自Zwicker的相应结果(图9中的方块)。适于Zwicker数据的最小二乘法产生：

G_NB＝0.0404 (17a)

β_NB＝0.279 (17b)

G_WB＝0.058 (17c)

β_NB＝0.212 (17d)

图9(实线)示出了用于均匀激励噪声和1kHz音调的响度曲线。

单位响度控制124

如上所述，在实际的实施(方程15a和15b)中使用单位响度的两种模型，一种模型用于窄带信号以及另一种模型用于宽带信号。在侧通道中的单位响度控制124计算度量α[m，t]，它指示在每一频带中输入信号是窄带或宽带的程度。一般而言，当信号是接近于频带中心频率f_c[m]的窄带时，α[m，t]应该等于1，以及当该信号是接近于频带中心频率f_c[m]的宽带时，α[m，t]应该等于0。所述控制应该在改变这些特征混合的两个极限之间连续地变化。作为一种简化，控制α[m，t]可以选择为频带上的常数，在这种情况下α[m，t]基本上被称为α[t]，而省略了频带索引m。然后，控制α[t]表示信号在整个频带上如何窄带的测量。尽管以下将描述用于产生这种控制的适合方法，但是特定的方法并不关键，而是可以应用其他适合的方法。

控制α[t]可以在滤波器组104的输出端根据激励E[m，t]计算，而不通过信号x[n]的一些其他处理。E[m，t]可以提供足够的参考，根据该参考测量x[n]的“窄带”和“宽带”，结果，利用几乎很少增加的计算就可以产生α[t]。

“频谱平坦度”是根据其可以计算α[t]的E[m，t]的特征。频谱平坦度是几何平均与算术平均的比值，如Jayant和Noll所定义(N.S.Jayant，P.Noll，Digital Coding Of Waveforms，Prentice Hall，新泽西州，1984年)，其中在频率(在E[m，t]情况中的索引m)上采用该平均。当E[m，t]在m上为常数时，几何平均等于算术平均，并且频谱平坦度等于1。这对应于宽带信号的情形。如果E[m，t]在m上显著地变化，那么几何平均显著小于算术平均，以及频谱平坦度近似零。这对应于窄带信号的情形。通过计算1减去频谱平坦度，可以产生“窄带”的测量，其中零对应于宽带以及1对应于窄带。具体而言，可以计算1减去E[m，t]的修改的频谱平坦度：

NB [t] = 1 - \frac{{(Π_{m = M_{l} [t]}^{M_{u} [t]} \frac{E [m, t]}{{| P [m] |}^{2}})}^{\frac{1}{M_{u} [t] - M_{l} [t] + 1}}}{\frac{1}{M_{u} [t] - M_{l} [t] + 1} Σ_{m = M_{l} [t]}^{M_{u} [t]} \frac{E [m, t]}{{| P [m] |}^{2}}} - - - (18)

其中P[m]等于在频率ω＝2πf_c[m]/f_s所采样的传输滤波器P(z)的频率响应。通过传输滤波器规格化E [m，t]可以提供更好的结果，因为应用该传输滤波器在E[m，t]中引入了“凸起(bump)”，它有助于“窄带”测量。另外，在E[m，t]的频带子集上计算频谱平坦度可以产生更好的结果。方程18中求和的下限和上限，M_l[t]和M_u[t]，定义可以小于所有M个频带的范围的区域。期望M_l[t]和M_u[t]包括E[m，t]的部分，该部分包含它的大部分能量，以及M_l[t]和M_u[t]所定义的范围仅仅是在ERB标度上的24单位宽。更具体而言(并且回想f_c[m]是单位赫兹的频带m的中心频率)，期望：

HzToERB(f_c[M_u[t]])-HzToERB(f_c[M_l[t]])≡24 (19a)

并且需要

HzToERB(f_c[M_u[t]])≥CT[t]≥HzToERB(f_c[M_l[t]]) (19b)

HzToERB(f_c[M_l[t]])≥HzToERB(f_c[1]) (19c)

HzToERB(f_c[M_u[t]])≤HzToERB(f_c[M]) (19d)

其中CT[t]是在ERB标度上测量的E[m，t]的频谱重心：

CT [t] = \frac{Σ_{m = 1}^{M} HzToERB (f_{c} [m]) E [m, t]}{Σ_{m = 1}^{M} E [m, t]} - - - (19 e)

理想情况下，当在ERB标度上测量时，M_l[t]和M_u[t]求和的极限定位于CT[t]周围的中心，但是当CT[t]接近它范围的下限或上限时，并不总是有可能出现这种情况。

接下来，NB[t]可以以一种类似于方程11a的方式在时间上进行平滑：

这里σ[t]在整个m上等于方程11b中定义的σ[m，t]的最大值。最后，根据NB[t]计算α[t]如下：

α [t] = \{\begin{matrix} 0, & Φ {\overset{&OverBar;}{NB} [t]} < 0 \\ Φ {\overset{&OverBar;}{NB} [t]}, & 0 \leq Φ {\overset{&OverBar;}{NB} [t]} \leq 1 \\ 1, & Φ {\overset{&OverBar;}{NB} [t]} &GreaterEqual; 1 \end{matrix} - - - (21 a)

其中

Φ{x}＝12.2568x³-22.8320x²+14.5869x-2.9594 (21b)

尽管Φ{x}的精确形式并不关键，但是可以通过相对大量音频资料的主观测量的响度优化α[t]得到方程21b中的多项式。

图2示出了根据本发明第二方面的响度测量仪或响度测量处理200实施例的功能方框图。图2的设备或函数202、204、206、220、222、223和224对应于图1的各个设备或函数102、104、106、120、122、123和124。

根据本发明的第一方面，图1示出了实施例，响度测量仪或计算产生感觉单位的响度值。为了调节输入信号的响度，有用的测量是增益G[t]，当将其与输入信号x[n]相乘时(例如，在以下描述的图3的实施例中)，使其响度等于参考响度级S_ref。可以任意规定或通过根据本发明第一方面操作的另一设备或处理根据一些“已知的”参考音频信号测量参考响度S_ref。让Ψ{x[n]，t表示对信号x[n]执行的所有计算以产生响度S[t]，想要得到G[t]以便

S_ref＝S[t]＝Ψ{G[t]x[n]，t (23)

由于在Ψ{.中实施的处理部分是非线性的，不存在用于G[t]的闭合形式解，因此可以使用其代替迭代技术找到近似解。在处理中的每一迭代i，让G_i表示G[t]的当前估计。对于每一迭代，更新G_i，以便与参考响度的绝对误差减小：

|S_ref-Ψ{G_ix[n]，t}|＜|S_ref-Ψ{G_i-1x[n]，t}| (24)

存在许多用于更新G_i的适当技术，以便获得误差中的上述减小。一种这样的方法是梯度下降(参见Dimitri P.Bertseakas的NonlinearProgramming，Athena Scientific，贝尔蒙特，1995年MA)，其中通过与在前一迭代的误差成比例的量更新G_i：

G_i＝G_i-1+μ(S_ref-Ψ{G_i-1x[n]，t})， (25)

这里μ是迭代的步进大小。上述迭代继续直到上述绝对误差低于某门限，迭代的次数到达某预定的最大限制，或者已经过了规定的时间。在该点上设置G[t]等于G_i。

再次参考方程6-8，注意到通过对信号STDFT幅度的平方进行线性操作获得信号x[n]的激励，即|X[k，t]²。接着，由增益修改的信号Gx[n]产生的激励等于x[n]的激励乘以G²。而且，所需用于估计长期感觉响度的时间积分可以通过激励的线性平均而执行，所以，对应于Gx[n]的时间平均激励对等于x[n]的时间平均激励乘以G²。结果，在上述的迭代处理中，不需要在整个输入信号历史上对于Ψ{G_ix[n]，t}的每一重新估计重新计算所述时间平均。相反，在该迭代中，根据x[n]可以仅仅计算一次的时间平均激励，通过直接应用更新增益的平方给可以计算响度的更新值。具体而言，让

表示对时间平均激励

执行的产生S[t]的所有处理，对于通常的相乘增益G保持以下关系；

Ψ_{E} {G^{2} \overset{&OverBar;}{E} [m, t]} = Ψ {Gx [n], t} - - - (26)

使用这种关系，通过利用

代替Ψ{G_ix[n]，t}可以简化迭代处理。如果在非线性变换到单位响度之后，已经执行了所需用于估计长期感觉响度的时间积分，则这种简化将会不可能。

图2中描述了计算G[t]的迭代处理。在减法组合器或组合函数231中可以从端230的参考响度S_ref减去在端223的输出响度S[t]。所产生的误差信号232馈送到在迭代中产生下一增益G_i的迭代增益更新器或更新功能(“迭代增益更新”)233。该增益的平方，G_i ²，然后在输出234反馈到相乘组合器208，在那里将G_i ²乘以来自方块206的时间平均激励信号。在迭代中，然后根据时间平均激励的该增益修改形式通过方块220和222计算S[t]的下一值。上述循环迭代直到满足终止条件，即端235的增益G[t]被设置为等于G_i的当前值。例如对于每一FFT帧t，或者在该分段的整个长度上平均所述激励之后，仅仅一次在音频分段的结尾，通过上述迭代处理可以计算最终值G[t]。

如果希望结合该迭代处理计算非增益修改信号响度，能够在用于每一时间周期t的每一迭代处理的开始初始化增益G_i为1。该方法中，在循环中计算的S[t]的第一值表示原始信号响度并且能够将其如此记录。但是，如果不希望记录该值，可以利用任何值初始化G_i。在相继时间帧上计算G[t]以及不希望记录原始信号响度的情况下，可能希望从前一时间周期初始化G_i等于G[t]的值。该方法中，如果从前一时间周期信号没有显著地变化，有可能G[t]值将仍然保持基本上相同。所以，将只需要少许迭代以收敛于正确的值。

一旦完成迭代，G[t]表示在201通过一些外部设备应用于输入音频信号的增益，以便修改信号的响度匹配所述参考响度。图3示出了一种适合的安排，其中来自迭代增益更新233的增益G[t]应用于信号电平控制设备或函数诸如压控放大器(VCA)236的控制输入，以便提供经过增益调节的输出信号。图3中的VCA 234可以通过控制增益调节器的操作员响应于线路235上的增益G[t]的传感指示进行替换。传感指示可以例如由测量仪提供。增益G[t]可以经过时间平滑(未示出)。

对于某些信号，可以希望方程10和11中所描述平滑的替换用于计算长期感觉响度。听众倾向于将信号的长期响度于该信号的最高声部分关联起来。结果，方程10和11中表示的平滑可能低估信号的感觉响度，该信号包含由较高声资料的较短分段所中断的长周期的相对静默。通常在具有周围场景嘈杂的较长周期所围绕对话的短分段的电影声轨中找到这种信号。即使利用方程11表示的门限，这些信号的安静部分也可能极大地有助于时间平均激励

为了处理这种问题，在本发明的另一个方面可以应用计算长期响度的统计技术。首先，方程10和11中的平滑时间常数非常小，并设置tdB成负无穷大，从而

表示所述“瞬时”激励。在这种情况下，可以选择平滑参数λ_m在频带m上变化成更精确的模型，其方式是瞬时响度的感觉在频率上变化。但是，在实际中，选择λ_m为m上的常数仍然产生可接受的结果。如在方程16中所规定的，前面描述算法的剩余部分操作不变，这将产生瞬时响度信号S[t]。在某范围t₁≤t≤t₂上，然后对于该范围中时间值的p百分比，定义长期响度S_p[t₁，t₂]为大于S[t]的值，以及对于该范围中时间值的100-p百分比，定义长期响度S_p[t₁，t₂]为小于S[t]的值。实验已经表明设置p等于大致90％匹配主观感觉的长期响度。利用这种设置，只有10％的S[t]的值需要显著地影响长期响度。该值的其他90％相对安静而不会降低长期响度测量。

通过升序排序值S[t]，t₁≤t≤t₂，成列表S_sort{i}，0≤i≤t₂-t₁能够计算值S_p[t₁，t₂]，这里i表示排序列表的第i个单元。然后通过p百分比的单元到列表中给出长期响度：

S_p[t₁，t₂]＝S_sart{round(p(t₂-t₁)/100)} (27)

上述计算相对简单。但是，如果希望计算增益G_p[t₁，t₂]，其中当其乘以x[n]时产生了等于某参考响度S_ref的S_p[t₁，t₂]时，该计算变得更加复杂。正如前所述，需要迭代方法，但是现在长期响度测量S_p[t₁，t₂]取决于值S[t]的整个范围，t₁≤t≤t₂，在所述迭代中必须利用G_i的每一更新来更新其中的每个值。为了计算这些更新，必须在整个范围t₁≤t≤t₂上存储信号

另外，由于S[t]对Gi的依赖是非线性的，因此S[t]的相对顺序，t₁≤t≤t₂，可以利用每一迭代改变，并且所以，还必须重新计算S_sort{i}。当对于迭代中的特定增益考虑短时间信号分段时，显然需要重新排序，其中该分段的频谱正好低于听力的门限。当增加所述增益时，分段频谱的重要部分可以变得可听得见，这可能使得分段的总响度大于先前可听信号的其他窄带分段。当范围t₁≤t≤t₂变大或者如果希望连续计算增益G_p[t₁，t₂]为滑动时间窗的函数时，这种迭代处理的计算和存储器成本可能变为禁止。

通过实现S[t]是G_i的单调增加函数从而达到了计算和存储器的显著节约。换言之，在每一时间瞬间增加G_i总是增加短期响度。利用这种知识，想要的匹配增益G_p[t₁，t₂]能够如下有效地计算。首先，使用所述的迭代根据

对于范围t₁≤t≤t₂中的所有值t计算前一定义的匹配增益G[t]。注意到对于每一值t，通过在单值

上迭代来计算G[t]。接下来，通过升序排序值G[t]，t₁≤t≤t₂，到列表G_sort{i}，0≤i≤t₂-t₁，计算长期匹配增益G_p[t₁，t₂]，然后设置

G_p[t₁，t₂]＝G_sort{round((100-P)(t₂-t₁)/100)}. (28)

现在论证G_p[t₁，t₂]等于增益，当其乘以x[n]时产生等于期望的参考响度S_ref的S_p[t₁，t₂]。从方程28注意到，对于范围t₁≤t≤t₂中的时间值100-p百分比，G[t]＜G_p[t₁，t₂]，对于其他p百分比则G[t]＞G_p[t₁，t₂]。对于G[t]的这些值诸如G[t]＜G_p[t₁，t₂]，注意到如果将G_p[t₁，t₂]应用于而不是G[t]的相应值，那么所产生的S[t]值将会大于期望的参考响度。由于S[t]是增益的单调增加函数，因此这是事实。同理，如果将G_p[t₁，t₂]应用于对应于G[t]的

值诸如G[t]＞G_p[t₁，t₂]，所产生的S[t]值将会小于期望的参考响度。所以，应用G_p[t₁，t₂]到范围t₁≤t≤t₂中的所有值

产生的S[t]大于期望的时间的参考100-p百分比并小于时间的参考p百分比。换言之，S_p[t₁，t₂]等于期望的参考。

这种替换的计算匹配增益的方法消除了在范围t₁≤t≤t₂上存储

和S[t]的需要。只需要存储G[t]。另外，对于计算的每一值G_p[t₁，t₂]，只需要执行一次在范围t₁≤t≤t₂上排序G[t]，这与前一方法相反，其中每一迭代都需要重新排序S[t]。在某长度T滑动窗(即，t₁＝t-T，t₂＝t)上连续计算G_p[t₁，t₂]的情况下，对于每一新的时间瞬间，通过简单地从排序列表中删除和增加单个值能够有效地保持列表G_sort{i}。当范围t₁≤t≤t₂变得非常大时(例如，整个歌曲或电影的长度)，仍可能禁止所需用于存储G[t]的存储器。在这种情况下，根据G[t]的离散直方图可以近似G_p[t₁，t₂]。实际上，根据G[t]以分贝为单位创建该直方图。该直方图可以计算为：

H[i]＝t₁≤t≤t₂范围内的样本数，使得

Δ_dB ⁱ+dB_min≤20log₁₀G[t]＜Δ_dB(i+1)+dB_min (29)

这里Δ_dB是直方图分辨率以及dB_min是直方图最小值。然后匹配增益可以近似为：

G_p[t₁，t₂]≡Δ_dBi_p+dB_min (30a)

其中

100 \frac{Σ_{i = 0}^{i_{p}} H [i]}{Σ_{i = 0}^{I} H [i]} - - - (30 b)

以及I是最大直方图索引。使用该离散的直方图，只需要存储I值，以及利用G[t]的每一新值容易地更新G_p[t₁，t₂]。

可以构思根据G[t]近似G_p[t₁，t₂]的其他方法，并且本发明旨在包括这些技术。本发明该部分的关键方面在于对匹配增益G[t]执行某种类型的平滑以产生长期匹配增益G_p[t₁，t₂]，而不是处理瞬时响度S[t]来产生长期响度S_p[t₁，t₂]，从该长期响度然后可以通过迭代处理估计G_p[t₁，t₂]。

图10和11显示了分别类似于图2和3的系统，但是匹配增益G[t]的平滑(设备或功能237)用于产生平滑的增益信号G_p[t₁，t₂](信号238)。

在输入230的参考响度(图2、3、10、11)可以是“固定的”或“可变的”，参考响度的源可以在实施本发明这些方面的安排的内部或外部。例如，所述参考响度可由用户设置，在这种情况下该参考响度的源是外部的并且它可以保持“固定”一段时间周期直到用户重新设置它。可替换地，参考响度可以是根据本发明从响度测量处理或设备推导出的另一音频源的响度测量，诸如图1的实例中示出的结构。

音频产生设备的正常音量控制可代替为根据本发明这些方面的处理或设备诸如图3或图11的实例。在这种情况下，用户操作的音量按钮或滑动器等等将会控制图3或图11的230处的参考响度，因此，音频产生设备将具有与音量控制的用户调节相匹配的响度。

图12中示出了可变参考的实例，其中参考响度S_ref被代替为例如通过可变参考响度设备或功能(“可变参考响度”)239根据响度信号S[t]计算的可变参考S_ref[t]。在这种安排中，在对于每一时间周期t的每一迭代的开始，在208将任何增益已经应用于所述激励之前，根据未修改的响度S [t]可以计算可变参考S_ref[t]。通过可变响度参考功能239的S_ref[t]和S[t]的相关性可以采取各种形式来实现各种效果。例如，所述函数可以简化标度S [t]来产生为原始响度的某固定比率的参考。可替换地，当S[t]低于某一门限时该函数可能产生大于S[t]的参考，以及当S[t]高于某一门限时产生小于S[t]的参考，因此减少了音频感觉响度的动态范围。不论这种函数的形式如何，都执行前面所述的迭代以计算G[t]，以便

Ψ_{E} {G^{2} [t] \overset{&OverBar;}{E} (m, t]} = S_{ref} [t] - - - (31)

然后，可以如上所述或者通过一些其他适当的技术来平滑匹配增益G[t]以获得期望的感觉效果。最后，可以引入音频信号201和VCA方块236之间的延迟240补偿计算平滑增益中的任何等待时间。这种延迟还可以在图3和11的结构中提供。

图3结构的增益控制信号G[t]和图11结构的平滑增益控制信号G_p[t₁，t₂]在大量应用中是有用的，例如包括，感觉响度在不同声道上变化的广播电视或卫星电台。在这些环境中，本发明的设备或方法可以比较来自每一声道的音频信号与参考响度级(或参考信号的响度)。操作员或自动化设备可以使用这种增益调节每一声道的响度。因此所有声道将会具有基本上相同的感觉响度。图13示出了这种结构的一个实例，其中来自多个电视或音频声道的音频，1到N，被施加于根据如图3或11所示本发明方面的处理或设备250、252的各种输入201。为每一处理或设备250、252应用相同的参考响度级，以在每一输出236产生经过响度调节的第1声道到第N声道音频。

测量和增益调节技术还可以应用于监控输入音频资料，执行识别主要包含人语音信号的音频内容处理，以及计算增益，以便该语音信号基本上匹配前面定义的参考级的实时测量设备。在2002年8月30日申请的序列号为10/233073的美国专利申请以及2004年3月4日公布的美国专利申请公开US2004/0044525A1中，阐述了用于识别音频资料中语音的适当技术。所述申请在此全部包含引作参考。由于大声音频内容带来的听众烦恼倾向于集中于节目资料的语音部分，因此测量和增益调节方法可以极大地减小在电视、电影和音乐资料中通常使用的音频中的烦恼级差。

实现

本发明可以以硬件或软件，或二者的组合(例如，可编程逻辑阵列)实现。除非特别规定，所包括的作为本发明一部分的算法本质上并不与任何特定的计算机或其他设备有关。特别是，通过根据本发明的教导写入程序可以使用各种通用机器，或者可以更方便地构造更专门的设备(例如，集成电路)来执行所需的方法步骤。因此，可以在一个或更多可编程计算机系统上执行的一个或更多计算机程序中实现本发明，每一系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/和存储单元)、至少一个输入设备或端口、以及至少一个输出设备或端口。应用程序代码给输入数据来执行这里所述的功能并产生输出信息。该输出信息以已知的方式应用于一个或更多输出设备。

每一这种程序可以用任何想要的计算机语言(包括机器、汇编或高级程序、逻辑、或面向对象的程序设计语言)与计算机系统通信。在任何情况下，所述语言可以是编辑或解释的语言。

每一这种计算机程序优选地存储或下载到通用或专用可编程计算机可读取的存储媒体或设备(例如，固体存储器或媒体，或磁或光媒体)上，以当计算机系统读取存储媒体或设备执行这里描述的程序时，配置和操作所述计算机。本发明的系统还可以认为将其实现为配置有计算机程序的计算机可读存储媒体，其中如此配置的存储媒体使计算机系统以特定和预定的方式操作来执行这里描述的功能。

已经描述了本发明的大量实施例。无论如何，将会明白可以作出各种修改而不背离本发明的精神和范围。例如，可以独立地排序上述的一些步骤，因此能够以不同于所述的顺序执行这些步骤。相应地，其他实施例都位于以下权利要求书的范围内。

Claims

1.一种用于处理音频信号的方法，包括：

响应于所述音频信号产生激励信号，

至少响应于所述激励信号计算增益值，所述增益值在与所述音频信号相乘时使其总响度和参考响度级之间的误差在门限之内，其中计算所述增益值的一部分是非线性处理，不存在用于所述增益值的闭合形式解，并且其中所述产生包括在线性处理中从所述音频信号导出多频带激励信号以及所述计算包括在非线性处理中从所述多频带激励信号导出每个频带内的特定响度和总响度，

迭代调节所述激励信号的幅度直到所述总响度和所述参考响度之间的误差小于所述门限，所述迭代调节在迭代循环内执行，所述迭代循环包括导出每个频带内的特定响度并且排除导出所述激励信号，以及

使用计算出的增益值调节所述音频信号的响度。

2.根据权利要求1所述的方法，其中导出所述激励信号包括时间积分。

3.根据权利要求2所述的方法，其中所述激励信号是线性时间平滑的。

4.根据权利要求1所述的方法，其中所述方法还包括时间平滑所述增益值。

5.根据权利要求1所述的方法，其中所述方法还包括平滑所述增益值，所述平滑应用直方图技术。

6.根据权利要求1所述的方法，其中所述迭代调节根据最小算法进行操作。

7.根据权利要求6所述的方法，其中所述最小算法根据最小的梯度下降方法进行操作。

8.根据权利要求1所述的方法，其中通过用户设置所述参考响度。

9.根据权利要求1所述的方法，其中从所述音频信号的未调节响度的度量导出所述参考响度。

10.根据权利要求9所述的方法，其中所述参考响度是所述音频信号的未调节响度的标度形式。

11.根据权利要求10所述的方法，其中当所述音频信号的未调节响度低于门限时，所述参考响度大于所述音频信号的未调节响度，以及当所述音频信号的未调节响度高于门限时，所述参考响度小于所述音频信号的未调节响度。

12.一种用于处理音频信号的设备，包括：

用于响应于所述音频信号产生激励信号的装置，

用于至少响应于所述激励信号计算增益值的装置，所述增益值在与所述音频信号相乘时使其总响度和参考响度级之间的误差在门限之内，其中计算所述增益值的一部分是非线性处理，不存在用于所述增益值的闭合形式解，并且其中所述产生包括在线性处理中从所述音频信号导出多频带激励信号以及所述计算包括在非线性处理中从所述多频带激励信号导出每个频带内的特定响度和总响度，

用于迭代调节所述激励信号的幅度直到所述总响度和所述参考响度之间的误差小于所述门限的装置，所述迭代调节在迭代循环内执行，所述迭代循环包括导出每个频带内的特定响度并且排除导出所述激励信号，以及

用于使用计算出的增益值调节所述音频信号的响度的装置。

13.根据权利要求12所述的设备，其中导出所述激励信号包括时间积分。

14.根据权利要求13所述的设备，其中所述激励信号是线性时间平滑的。

15.根据权利要求12所述的设备，其中所述设备还包括用于时间平滑所述增益值的装置。

16.根据权利要求12所述的设备，其中所述设备还包括用于平滑所述增益值的装置，所述平滑应用直方图技术。

17.根据权利要求12所述的设备，其中所述迭代调节根据最小算法进行操作。

18.根据权利要求17所述的设备，其中所述最小算法根据最小的梯度下降方法进行操作。

19.根据权利要求12所述的设备，其中通过用户设置所述参考响度。

20.根据权利要求12所述的设备，其中从所述音频信号的未调节响度的度量导出所述参考响度。

21.根据权利要求20所述的方法，其中所述参考响度是所述音频信号的未调节响度的标度形式。

22.根据权利要求21所述的方法，其中当所述音频信号的未调节响度低于门限时，所述参考响度大于所述音频信号的未调节响度，以及当所述音频信号的未调节响度高于门限时，所述参考响度小于所述音频信号的未调节响度。