CN110728985A

CN110728985A - 音频信号动态范围压缩

Info

Publication number: CN110728985A
Application number: CN201811443857.5A
Authority: CN
Inventors: 游余立
Original assignee: Guoguang Electronics Co Ltd
Current assignee: Guoguang Electronics Co Ltd
Priority date: 2018-06-29
Filing date: 2018-11-29
Publication date: 2020-01-24
Anticipated expiration: 2038-11-29
Also published as: US20200005802A1; US11011180B2; EP3588776B1; JP6846397B2; EP3588776A1; CN110728985B; JP2020005239A

Abstract

本申请公开了音频信号动态范围压缩。提供了用于压缩音频信号的动态范围的系统、方法和技术。在一个实现方式中：获得输入音频信号，并基于该信号和期望的输出范围提供时变增益信号。随后将时变的初步增益信号施加到输入音频信号以提供输出音频信号。时变增益信号的提供包括使用攻击增益响应时间和释放增益响应时间作为滤波参数对基于输入音频信号的信号进行低通滤波，其中响应于确定输入音频信号中出现瞬变，攻击增益响应时间减少，而释放增益响应时间增加。

Description

音频信号动态范围压缩

发明领域

本发明除其他方面之外涉及与音频信号范围的动态压缩(例如，从信号的最小电平到其最大电平)相关的并且可以用于例如在更好地防止或限制音频失真和/或对输出设备(诸如扬声器或耳机)的损坏的同时提高音频信号的音量，以及总体上改善收听体验的系统、方法和技术。

背景

某些音频通道的动态范围有时比可用的输出设备(诸如扩音器)能够精确或清晰地产生的范围宽得多。例如，当音频信号低时，重现的声音可能听不见，而当音频信号高时，重现的声音可能削波或过载。看电影的人可能需要在喧闹场景过程中调低音量，而在安静场景的过程中调高音量。

动态范围压缩试图解决这些问题。它指的是一类用于减小音频信号的动态范围以适应回放设备和/或情景要求的技术。在D.Giannoulis、M.Massberg和J.Reiss于2012年在Journal of Audio Engineering Society 60：第399-408页发表的“Digital DynamicRange Compressor Design-A Tutorial and Analysis”(其在本文中被称为“Giannoulis2012”)中给出了这种技术的回顾。

一种传统的实现方式是图1中所示的动态范围压缩器(DRC)5。在那里，Abs模块10执行绝对值运算，而Log模块12执行对数函数。在更具体的实现方式中，Log模块12将输入值转换成分贝，如下所示：

X_G(n)＝20log₁₀(|x(n)|)，

其中，x(n)表示输入信号，并且X_G(n)表示在第n个采样周期处的转换信号。

增益计算机14然后实现静态范围压缩，例如，如下(来自Giannoulis 2012)：

其中，T、R和w分别是指定阈值、压缩比和拐点宽度(knee width)。如本文所用，术语“静态”指的是不参考其他输入值(即，其他时间点处的输入值)对单独输入值的修改。增益计算机14的其他实现方式也是可能的，诸如在Rane Corporation于2005年的“DynamicProcessors-Technology&Application Tips”(在本文中称为“Rane 2005”)中给出的任何实现方式，例如包括前述压缩与扩展器和限制器的组合。

如图1所示，然后在减法器15中从增益计算机14的输入中减去增益计算机14的输出，以获得以下负增益信号：

X_L＝X_G-Y_G 方程2

其被输入到电平检测器16中，用于基本上对X_L，应用平滑化操作以获得信号电平的平滑化表示。电平检测器16有许多可能的实现方式，包括Giannoulis 2012中描述的那些中的任一个。在一个特定示例中，电平检测器16执行以下运算：

Y₁(n)＝max(X_L(n)，α_RY₁(n-1)+(1-α_R)X_L(n))

Y_L(n)＝α_AY_L(n-1)+(1-α_A)Y₁(n) 方程3

其中，Y₁(n)是内部状态，α_A和α_R是各自的一阶无限脉冲响应(IIR)滤波器的攻击极点和释放极点(attack and release poles)。这些极点控制Y_L(n)的平滑度，或者Y_L(n)对X_L(n)变化进行响应的速度。每个都与τ相关，τ是相应的时间常数(TC)，如下所示：

其中，f_s是采样频率。换句话说，

其中，τ_A和τ_R分别是攻击TC和释放TC。

在电平检测器16中进行平滑化后，在加法器18中，补偿增益19(M)与平滑化后的负增益的相反数相加，然后由指数函数模块20将结果转换成线性标度，例如，如下所示：

然后，在乘法器21中，该线性增益被施加到(可选地延迟的)输入信号，以产生输出信号，如下所示：

y(n)＝K(n)x(n-τ)

其中，τ是由可选的延迟单元22提供的可选延迟，其可用于匹配增益计算侧链30内的延迟和/或向侧链30提供“向前看得更远”的能力(例如，为了“准备”DRC 5以更好地应对强大的攻击)。然而，在一些实施例中，完全省略了延迟单元22。

正如将从上面的讨论中容易认识到的，DRC通常将输入信号乘以随时间变化的增益，因此它执行将失真引入信号的运算。为了将这种失真保持为低且理想情况下是听不见的，应该使用大的TC，使得增益变化缓慢。这种大的TC对于音频信号的似稳态分段有效，但是通常会遇到短暂的攻击或者突然的强有力的声音爆发的问题，诸如可能是由敲击乐器或者爆炸产生的。当这种强大的攻击到来时，大的TC产生的缓慢增益变化不能足够快地降低增益，以防止攻击超出期望范围的上限。因此，音频信号可能在数字域中削波(导致失真)，功率放大器可能过载(潜在地损坏它)，和/或扩音器的音圈可能撞击其背板(潜在地损坏扬声器)。所有这些情况都会产生令人讨厌的声音，且在某些情况下可能会造成损害。因此，期望使TC适应输入信号的动态变化性质，例如，使得：(1)允许在强大攻击期间的快速增益降低，以及(2)在似稳态分段期间提供更慢变化的增益。

在这方面已经做了一些尝试。例如，D.Giannoulis、M.Massberg和J.Reiss于2013年在Journal of the Audio Engineering Society的716-726页发表的“ParameterAutomation in a Dynamic Range Compressor”(其在本文中被称为“Giannoulis 2013”)采用瞬变或攻击检测器来区分输入信号的瞬变和似稳态分段，然后对瞬变分段使用较短的TC，而对似稳态分段使用较长的TC。通常，这种传统方法在似稳态分段期间使用“标准”攻击和释放TC。例如，在似稳态分段期间，攻击TC可能是50-100毫秒(ms)，而释放TC(通常是10倍大)可能是500-1000ms。然后，当检测到瞬变时，这些值通常会以10的因子减少，或这样，即攻击TC减少到5-10ms，而释放TC减少到50-100ms。

发明概述

不幸的是，虽然在短暂的攻击期间使用短攻击TC和释放TC以及在似稳态分段期间使用长攻击和释放TC的传统直接方法似乎符合直觉逻辑，但是本发明人已经发现这种方法实际上往往不能提供良好的结果。本发明解决了这个问题，例如，通过调整TC或者允许增益以多快速度变化的其他度量(本文有时称为“增益响应时间”)，其不同于过去已经使用的方法。

因此，本发明的一个实施例针对压缩音频信号的动态范围，例如，其中：获得输入音频信号；基于输入音频信号和期望的输出范围提供时变增益信号；并且时变增益信号被施加到输入音频信号以提供输出音频信号。本实施例中的时变增益信号的提供包括：(i)确定并提供输入音频信号中是否出现瞬变的指示，(ii)基于输入音频信号中是否出现瞬变的指示，提供攻击增益响应时间(例如，攻击指数时间常数)和释放增益响应时间(例如，释放指数时间常数)，以及(iii)使用攻击增益响应时间和释放增益响应时间作为滤波参数，对基于输入音频信号的信号进行低通滤波。响应于输入音频信号中出现瞬变的确定，攻击增益响应时间减少，而释放增益响应时间增加。优选地，攻击增益响应时间主要控制允许输出音频信号强度响应于输入音频信号强度的突然增加而增加的速度有多快，而释放增益响应时间主要控制允许输出音频信号强度响应于输入音频信号强度的突然降低而降低的速度有多快。

如下文更详细讨论的，输入音频信号中是否出现瞬变的指示优选地被提供作为攻击函数值，其还指示任何检测到的瞬变的强度的度量。优选地，由于检测到的瞬变的强度的更大度量，攻击增益响应时间减少得更多，而释放增益响应时间增加得更多。

根据本发明的攻击函数能够以各种不同的方式实现，包括以下任意一种或任意组合：(1)基于使用峰值的波峰因子检测器；(2)基于与指定阈值相比的输入音频信号的强度；和/或(3)作为增量值，通过首先确定初步攻击值，然后计算作为先前一个初步攻击值和当前一个初步攻击值之间的变化量的增量值。输入音频信号可以是基于帧的，例如，其中针对输入音频信号的各个帧确定输入音频信号中是否出现瞬变的指示，或者不是基于帧的，其中基于逐个样本确定是否出现瞬变的指示。

在优选实施例中，时变增益信号的生成还包括识别将实现期望静态范围压缩的增益(例如，使用输入音频信号值的分段线性映射)。

前面的概述仅旨在提供本发明的某些方面的简要描述。通过结合附图参考权利要求和优选实施例的以下详细描述，可以获得对本发明的更完整的理解。

根据本发明的实施例，还包括以下内容：

1)一种压缩音频信号的动态范围的方法，包括：

(a)获得输入音频信号；

(b)基于所述输入音频信号和期望的输出范围提供时变增益信号；和

(c)将所述时变增益信号施加到所述输入音频信号以提供输出音频信号，

其中，步骤(b)包括：(i)确定并提供所述输入音频信号中是否出现瞬变的指示，(ii)基于所述输入音频信号中是否出现瞬变的所述指示，提供攻击增益响应时间和释放增益响应时间，以及(iii)使用所述攻击增益响应时间和所述释放增益响应时间作为滤波参数，对基于所述输入音频信号的信号进行低通滤波，以及

其中，响应于所述输入音频信号中出现瞬变的确定，所述攻击增益响应时间减少，而所述释放增益响应时间增加。

2)根据1)所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示表明检测到的瞬变的强度的度量。

3)根据2)所述的方法，其中，作为检测到的瞬变的强度的更大度量的结果，所述攻击增益响应时间减少得更多，而所述释放增益响应时间增加得更多。

4)根据1)所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示基于使用峰值的波峰因子检测器。

5)根据4)所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示也基于与指定阈值比较的所述输入音频信号的强度。

6)根据1)所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示基于与指定阈值比较的所述输入音频信号的强度。

7)根据1)-6)中任一项所述的方法，其中，通过首先确定多个初步攻击值且然后计算作为所述多个初步攻击值中的先前一个初步攻击值和所述多个初步攻击值中的当前一个初步攻击值之间的变化量的增量值，来将所述输入音频信号中是否出现瞬变的所述指示计算为所述增量值。

8)根据1)-6)中任一项所述的方法，其中，所述输入音频信号是基于帧的，并且针对所述输入音频信号的各个帧来确定在所述输入音频信号中是否出现瞬变的所述指示。

9)根据1)-6)中任一项所述的方法，其中，步骤(b)还包括识别增益以实现期望的静态范围压缩。

10)根据1)-6)中任一项所述的方法，其中，所述攻击增益响应时间和所述释放增益响应时间中的每一个是指数时间常数。

11)根据1)-6)中任一项所述的方法，其中，所述攻击增益响应时间主要控制允许所述输出音频信号的强度响应于所述输入音频信号的强度的突然增加而增加的速度有多快，而所述释放增益响应时间主要控制允许所述输出音频信号的强度响应于所述输入音频信号的强度的突然降低而降低的速度有多快。

12)一种用于压缩音频信号的动态范围的系统，包括：

(a)系统输入端，其接受输入音频信号；

(b)自适应增益生成模块，其具有耦合到所述系统输入端的输入端和基于所述输入音频信号和期望的输出范围提供时变增益信号的输出端；

(c)乘法器，其具有输出端、耦合到所述系统输入端的第一输入端和耦合到所述自适应增益生成模块的输出端的第二输入端，

其中，所述自适应增益生成模块包括具有输入端和输出端的电平检测器和增益计算机，

其中，所述电平检测器包括：(i)攻击检测模块，其确定并提供所述输入音频信号中是否出现瞬变的指示，(ii)增益响应时间发生器，其基于已经由所述攻击检测模块提供的所述输入音频信号中是否出现瞬变的所述指示，提供攻击增益响应时间和释放增益响应时间，以及(iii)滤波器，其使用所述攻击增益响应时间和所述释放增益响应时间作为滤波参数，对已经输入到所述电平检测器中的信号进行低通滤波，以及

其中，响应于所述攻击检测模块的瞬变检测，所述增益响应时间发生器缩短了所述攻击增益响应时间并增加了所述释放增益响应时间。

13)根据12)所述的系统，其中，由所述攻击检测模块提供的所述输入音频信号中是否出现瞬变的所述指示表明检测到的瞬变的强度的度量。

14)根据13)所述的系统，其中，作为检测到的瞬变的强度的更大度量的结果，所述攻击增益响应时间减少得更多，而所述释放增益响应时间增加得更多。

15)根据12)所述的系统，其中，所述输入音频信号中是否出现瞬变的所述指示基于使用峰值的波峰因子检测器。

16)根据15)所述的系统，其中，所述输入音频信号中是否出现瞬变的所述指示也基于与指定阈值比较的所述输入音频信号的强度。

17)根据12)所述的系统，其中，所述输入音频信号中是否出现瞬变的所述指示基于与指定阈值比较的所述输入音频信号的强度。

18)根据12)-17)中任一项所述的系统，其中，通过首先确定多个初步攻击值且然后计算作为所述多个初步攻击值中的先前一个初步攻击值和所述多个初步攻击值中的当前一个初步攻击值之间的变化量的增量值，将所述输入音频信号中是否出现瞬变的所述指示计算为所述增量值。

19)根据12)-17)中任一项所述的系统，其中，所述增益计算机识别产生静态范围压缩以适应所述期望的输出范围的增益。

20)根据12)-17)中任一项所述的系统，其中，所述攻击增益响应时间主要控制允许输出音频信号的强度响应于所述输入音频信号的强度的突然增加而增加的速度有多快，而所述释放增益响应时间主要控制允许所述输出音频信号的强度响应于所述输入音频信号的强度的突然降低而降低的速度有多快。

21)一种存储计算机程序的计算机可读介质，所述计算机程序能够被执行以执行1)-11)中任一项所述的方法。

22)一种自适应增益生成模块，包括：

(a)输入端；

(b)输出端；

(c)增益计算机；以及

(d)具有输入端和输出端的电平检测器，

其中，所述电平检测器包括：(i)攻击检测模块，其确定并提供输入音频信号中是否出现瞬变的指示，(ii)增益响应时间发生器，其基于已经由所述攻击检测模块提供的所述输入音频信号中是否出现瞬变的所述指示，提供攻击增益响应时间和释放增益响应时间，以及(iii)滤波器，其使用所述攻击增益响应时间和所述释放增益响应时间作为滤波参数，对已经输入到所述电平检测器中的信号进行低通滤波，以及

23)根据22)所述的自适应增益生成模块，其中，由所述攻击检测模块提供的所述输入音频信号中是否出现瞬变的所述指示表明检测到的瞬变的强度的度量。

24)根据23)所述的自适应增益生成模块，其中，作为检测到的瞬变的强度的更大度量的结果，所述攻击增益响应时间减少得更多，而所述释放增益响应时间增加得更多。

25)根据22)所述的自适应增益生成模块，其中，所述输入音频信号中是否出现瞬变的所述指示基于使用峰值的波峰因子检测器。

26)根据25)所述的自适应增益生成模块，其中，所述输入音频信号中是否出现瞬变的所述指示也基于与指定阈值比较的所述输入音频信号的强度。

27)根据22)所述的自适应增益生成模块，其中，所述输入音频信号中是否出现瞬变的所述指示基于与指定阈值比较的所述输入音频信号的强度。

28)根据22)-27)中任一项所述的自适应增益生成模块，其中，通过首先确定多个初步攻击值且然后计算作为所述多个初步攻击值中的先前一个初步攻击值和所述多个初步攻击值中的当前一个初步攻击值之间的变化量的增量值，将所述输入音频信号中是否出现瞬变的所述指示计算为所述增量值。

29)根据22)-27)中任一项所述的自适应增益生成模块，其中，所述增益计算机识别产生静态范围压缩以适应期望的输出范围的增益。

30)根据22)-27)中任一项所述的自适应增益生成模块，其中，所述攻击增益响应时间主要控制允许输出音频信号的强度响应于所述输入音频信号的强度的突然增加而增加的速度有多快，而所述释放增益响应时间主要控制允许所述输出音频信号的强度响应于所述输入音频信号的强度的突然降低而降低的速度有多快。

附图说明

在下面的公开中，参照附图描述本发明。然而，应当理解，附图仅描绘了本发明的某些代表性和/或示例性实施例和特征，并且不旨在以任何方式限制本发明的范围。以下是附图中每一个的简要说明。

图1是传统动态范围压缩器(DRC)的框图(现有技术)。

图2是根据本发明的DRC的框图。

图3是根据本发明的电平检测器的框图。

图4是示出根据本发明的用于在电平检测器中使用的时间常数的确定示例的流程图。

优选实施例的描述

为了便于参考，本公开分为多个章节。每一章节的总主题由该节的标题指示。然而，这样的标题被包括仅仅是为了便于阅读，且并不打算以任何方式限制本发明的范围。

优选实施例的一般结构

在图2中示出了根据本发明的DRC 100的一个示例。如所示，DRC 100输入被指定为x(n)的信号101。可选地，输入信号101耦合到模块110，在模块110中，输入信号101例如通过经受对数函数被预处理，该对数函数可以类似于或等同于由以上讨论的传统模块10和12的组合实现的函数。可选地或另外地，可以在可选的预处理模块110中执行任何其他预处理。例如，在替代实施例中，不执行对数变换，而是在线性域中处理输入信号101，例如，以减少计算负荷。然后，输入信号101(进行或不进行任何可选的预处理110)被耦合到增益计算机114，该增益计算机114通常通过提供静态增益压缩(例如，如上文结合增益计算机14所描述的，诸如方程1中阐述的特定静态增益压缩)以将其范围适配到期望的输出范围来处理其输入信号(被指定为X_G(n))。增益计算机114的输出优选地是指示瞬时增益的初步增益信号115，该瞬时增益可以在每个相应的时间点(通常是离散时间)处应用以实现期望的范围压缩。例如，类似于以上讨论的传统实现方式，在某些实施例中，增益计算机114还执行类似于或等同于方程2的运算，使得增益计算机114的输出(初步增益信号115)是负增益信号。在其他实施例中，增益计算机114提供正增益信号。在任何情况下，被指定为X_L(n)的初步增益信号115耦合到电平检测器116，用于进行平滑化，并且在某些实施例中用于其他调整(例如，如下文更详细描述的)，产生被指定为Y_L(n)的平滑化增益信号117。

此后，如果需要，在可选模块118中例如基于一个或更多个输入参数119(统称为M)对平滑化增益信号117(Y_L(n))进行任何额外的调整。参数119(如果提供的话)可以手动输入和/或可以由另一个自动化系统提供。模块118(如果使用的话)可以实现例如加法函数(通常在其中涉及对数值)或乘法函数(通常在其中涉及线性值)。最后，在模块120中应用任何期望的后处理，通常与模块110中应用的处理相反，以便提供线性增益因子，该线性增益因子被指定为K(n)，然后(由乘法器121)使用以乘以输入信号101，或者在信号101可选地在可选延迟元件122内被延迟之后进行相乘(例如，具有上面参考延迟元件22讨论的相同考虑，以及本章节中讨论的附加考虑)。也就是说，乘法器121优选地将原始输入信号101乘以反映平滑化增益的时变因子。因此，它的运算可以通过这种输入信号101的直接乘法来实现。可选地，在替代实施例中，对输入信号101执行对数运算，并且乘法器121输入对数增益，并且将其加到输入信号101的对数或者从输入信号101的对数中减去对数增益(取决于所生成的增益信号表示负增益还是正增益)。在另外的实施例中，替代地，在侧链130中确定的瞬时增益以各种其他方式中的任何一种被施加到输入信号101(例如，取决于增益信号的性质)。

在本实施例中，乘法器121的输出135是期望的动态范围压缩的输出信号，其被指定为y(n)并且通常直接或间接地(例如，通过通常至少包括数模转换的附加处理模块)耦合到输出设备140(诸如扩音器)。尽管DRC100是根据本发明的DRC的一个示例，但是根据本发明可以使用各种其他DRC结构中的任何一种，这将从下面的讨论中明显看出。

本发明的当前实施例的一个重要方面是(例如，在电平检测器116中)调整初步增益信号115的方式，以更好地适应输入音频信号101的瞬时特性，从而实现改进结果和减少失真的更好组合。在其中修改了(上述的)传统系统5的实施例中，这种调整优选地通过更好地控制(例如在电平检测器116内)用于音频信号(115)不同部分的TC来实现。另外如本文其他地方所述，在替代实施例中，电平检测器116和增益计算机114被反转，使得平滑化被应用于输入信号101的在基于输入信号101确定增益之前的版本。

在任何情况下，本发明的前述方面涉及用于更好地控制任何期望的增益响应时间的技术(即，不管是否与任何指数时间常数有关)，其中较短的增益响应时间意味着允许增益更快地改变，而较长的增益响应时间意味着增益只能更慢地改变。下面的讨论主要集中于对上述传统系统的改进，因此经常提到TC。然而，应当理解，本文中对一个或更多个TC的任何引用可以被对任何其他增益响应时间的引用代替。也就是说，本文讨论的方法不限于TC，而是可以以直接的方式应用于任何其他增益响应时间的设置，无论如何定义。

有点类似于上面讨论的电平检测器16，根据本发明的电平检测器116优选如图3所示配置。如所示，输入信号101耦合到电平检测器116的攻击检测模块151。在模块151中，优选地为输入信号101的每个样本确定攻击值a(n)，指示攻击的潜在存在，或者更优选地，指示任何潜在攻击的强度(例如，强度的度量)，如下面更详细讨论的。这个攻击值耦合到增益响应时间(例如TC)生成模块152的输入端，该模块随后优选地基于该攻击值生成攻击和释放TC，再次如下面更详细讨论的。在优选实施例中，攻击TC是影响(例如，主要控制)允许输出音频信号(例如，输出信号135)的强度响应于输入信号101的强度的突然增加而增加的速度有多快(例如，在明显存在瞬变攻击的情况下，系统将加强对输入信号101的抑制的速度有多快)的主要因子，而释放TC是影响(例如，主要控制)允许输出音频信号的强度响应于输入音频信号的强度的突然减少而降低的速度有多快(例如，在瞬变看起来已经结束之后，系统将返回到似稳态增益的速度有多快)的主要因子。

随后这样的TC优选地耦合到滤波器153，并由滤波器153使用，该滤波器153具有耦合到初步增益信号115的另一输入端。在优选实施例中，滤波器153是低通滤波器，例如，利用由增益响应时间发生器152输出的TC控制的变量传递函数来实现诸如上面方程3中定义的滤波操作。因此，本发明的其他(更具体的)重要方面是：(1)生成TC的方式；(2)确定攻击值的方式，这是因为这些TC是基于它们的。因此，以下讨论的很大一部分集中在这两个特征上。

关于滤波器153执行的滤波操作，短攻击TC能够实现快速增益降低，从而防止强有力的攻击超过指定的最大值。然而，音频信号中的攻击通常不会在振幅增加的正弦周期的第一个上升四分之一中达到其峰值功率，因此其后将跟随有其中振幅减小的至少一个下降四分之一。然后在随后的四分之一中，振幅又开始增加。使用传统方法，这可能会有问题。例如，关于上面背景章节给出的示例，从方程3可以看出，每当振幅小于预计的内部状态Y₁(n)时，释放机构就开始生效，这增加了增益。因此，应对随后的四分之一中将到来的强大攻击所需的增益降低已经被否定了。释放TC越短，则这种否定效应就越大。因此，在一个方面中，本发明通过使用下列项减轻了这种否定效应：

·在瞬变攻击期间较长的释放TC；和

·在似稳态分段期间较短或正常的释放TC。

更优选地，如图4所示，根据本发明的系统100优选地实现过程180，该过程180基本上包括两种操作模式(优选地通过在电平检测器116的增益响应时间生成模块152中生成相应的TC来选择)，如下所示：

·在(步骤181中，例如基于由检测器151提供的攻击值160)已经确定发生短暂的攻击的时间段期间，DRC进入攻击模式(步骤182)，其中(相对于似稳态分段)使用较短的攻击TC和较长的释放TC。

·在其他时间期间(如在步骤181中例如基于由检测器151提供的攻击值160确定的似稳态分段)，DRC进入似稳态模式(步骤183)，其中(相对于瞬变分段)使用较长的攻击TC和较短或正常的释放TC。

如上面已经讨论的，这些模式182和183不需要被分开并且清楚区分，而是在某些实施例中可以代表连续体的不同部分，仅由阈值来区分，例如，攻击函数的值是连续的。

也就是说，与其中攻击和释放TC都沿相同方向改变(在攻击期间较短，而在似稳态分段期间较长)的传统方法不同，在本发明的优选实施例中，它们沿相反方向改变(其中攻击TC在检测到瞬变时较短而在似稳态分段期间较长，但是释放TC在检测到瞬变时较长而在似稳态分段期间较短)。因此，在某种程度上类似于上述背景章节中描述的传统技术，根据本发明的方法可以针对其间已经检测到瞬变的分段将攻击TC从似稳态分段期间的50-100ms减少到0-5ms或0-10ms。然而，与传统技术形成鲜明对比的是，根据本发明的方法可以针对其间已经检测到瞬变的分段将释放TC从似稳态分段期间的50-1000ms增加到至少500ms、1秒、2秒、4秒或甚至无穷大(即，至少5倍、10倍、20倍、40倍或甚至无穷大)。

为此，最初期望的是确定瞬变何时发生。在这方面，本实施例考虑了几个不同的实施例。然而，通常优选的是，用于此目的的任何函数(即攻击函数)满足以下要求：

其中，a(n)是攻击函数，其中更大的a(n)值指示更强(或更强烈)的瞬变。

这种攻击函数的一个示例是基于Giannoulis 2013中提出的波峰因子检测器，但是用峰值代替了RMS值的使用，从而得到以下波峰因子检测器：

其中，c(n)是波峰因子(例如，其可以直接用作a(n))，且α_c是极点，其可以使用方程4从TCτ_c导出。优选地，τ_c是基于普通攻击TC来选择的。例如，如果普通攻击TC＝20ms，则τc也可以选择为20ms。

无论如何，一旦确定了对于攻击函数a(n)的值，就可以确定τ_A(n)和τ_R(n)TC。这样做的一种方法如下：

其中，T_a是指定阈值，该阈值优选地取决于攻击函数并利用听力测试通过实验来选择。如上所述，释放TC通常比攻击TC长得多，因此上面的短的释放

可能比长攻击

长得多。对于时间常数

和

的具体值优选地选自对于本发明以上讨论的范围，但是对于某些情况可以选择其他值。

可选地，如果需要连续变化的TC，它们可以使用软决策机制来确定，诸如以下所示：

其中，

是最大(似稳态)攻击TC，且

是最小(似稳态)释放TC，并且这些常数可以例如落入上述范围内(

和

)。然而，可以使用随着a(n)增加而减少τ_A(n)和增加τ_R(n)的任何其他函数。优选地，所使用的特定函数取决于如何定义a(n)，因为这些函数或a(n)中的变化会影响对象TC对具有特定强度的攻击进行响应的速度有多快。

前述讨论主要涉及本发明的特定实施例。然而，如贯穿本公开所讨论的，许多不同的实施例是可能的。每一个实施例典型地将采用攻击和释放增益响应时间(例如，时间常数)，以便生成时变增益信号，然后将该增益信号施加到输入音频信号(例如，输入信号101)以提供输出音频信号(例如，输出信号135)。在不同的实施例中，这种增益信号通常将具有不同的特性(即，已经不同地生成)(例如，反映正或负增益，被定义为线性或对数增益等)，因此，增益信号施加到输入信号的方式通常会相应变化。

以下章节讨论各种替代实施例，例如，采用不同的攻击函数。

基于功率的攻击函数

可以在本发明中使用的另一种类型的攻击函数a(n)基于输入信号的功率，例如，基于信号的功率(或者更一般地，强度)高于指定阈值(即，基于输入信号101的强度与指定阈值的比较)(诸如方程1中使用的阈值T)的确定而决定进入攻击模式。最简单的功率检测器查看输入信号的绝对值。例如，为了符合方程5，这种攻击函数可以定义为：

其中，T_P是与压缩阈值相关的阈值。虽然在上述方程中使用了L^1范数，但是在替代实施例中，替代地(或者也)使用L^2范数和/或另一范数。如上所示，除非在使用术语“功率”或“能量”的特定上下文中另有明确说明，否则在本文中关于信号使用的术语“功率”或“能量”并不意味着任何特定定义，而是通常指信号的“强度”，其可以以多种不同的方式中的任何一种来测量(例如，绝对值、绝对值的平方或前述的多种函数中的任何一种)。

上述攻击函数的一个潜在问题起因于它的值随每个样本而变化的事实。因此，TC有时会在样本之间发生显著变化。虽然这通常不会引起问题(例如，由于电平检测器116的存在)，但是在攻击函数本身内可以应用一定程度的平滑化。例如，通常的单极点滤波器可用于此目的：

s(n)＝αs(n-1)+(1-α)|x(n)|，方程10

其中，s(n)是平滑化的功率检测器，且可以用来代替方程9中的|x(n)|以提供攻击函数。然而，这种平滑化操作引入了附加延迟，其优选地也在延迟块122内被提供。

如果使用方程6中的波峰因子，并且输入样本的绝对值被用作功率检测器，则方程10变得与方程6的第二方程相同。因此，Y_Abs(n)可以直接用于构建攻击函数，例如如下：

因为方程2中定义的负增益X_L(n)总是大于或等于零dB，并且其计算涉及阈值机制，所以它可以直接用作攻击函数，即：

a(n)＝X_L(n)。方程12

它的平滑化版本Y_L(n)适用于需要平滑化的情况，即：

a(n)＝Y_L(n)。方程13

注意，虽然X_L(n)和Y_L(n)在上面使用，但是任何其他形式的负压缩增益也可以代替地用在任何形式的DRC中。

增量攻击函数

上述攻击函数的一个潜在问题在于，即使在攻击的峰值已经过去之后，即在攻击函数已经达到其最大值并开始减小之后，DRC仍将处于攻击模式。这个问题可以通过使用增量攻击函数来解决，诸如以下所示：

其可以基于本文描述的任何其他攻击函数，并且确保攻击函数仅在攻击的上升侧上大于一。

功率门控波峰因子

从方程6可以看出，波峰因子不依赖于输入信号的功率。因此，直接将其用作攻击函数将导致DRC进入攻击模式，即使在信号功率对于DRC过低而无法引发压缩的情况下。为了防止这种情况发生，可以添加功率检测器来在信号功率低时修改攻击函数值(例如，将其重置为1)。一个具体示例(其也使用增量波峰因子)如下：

其中，a′(n)是基于功率的攻击函数，诸如上面讨论的基于功率的攻击函数中的任一个。

可选地，代替使用如上所述的增量峰值因子，增量功率阈值可用于确保DRC仅在攻击的上升沿上进入攻击模式，例如：

其中，T_PD是对应于最小功率增量的指定阈值。如果方程12或方程13用作功率检测器a′(n)，则功率阈值(a′(n)＞T_P)在方程1中执行，因此可以在上面的方程中省略以给出

基于帧的攻击函数

基于帧的处理被广泛用于实现音频处理算法。当算法测试和决策制定可以基于一帧内固定数量的样本时，通常可以获得更稳健的结果。

让N表示一帧中样本的数量，样本索引n可以表示为

n＝kN+m

其中，k是帧索引，m是帧内的样本索引，产生以下表示：

a(n)＝a^k(m)

c(n)＝c^k(m)

可以选择帧内变量的最大值、平均值、中值或其他统计量作为代表对于该变量的整个帧的值。以使用最大值为例，对于第k帧的攻击函数和波峰因子值可以定义为

在某些实施例中，这些值然后用于决定对于整个帧是进入攻击模式还是似稳态模式，从而确定对于帧中所有样本的相应TC。

例如，方程14的增量攻击函数可以针对基于帧的系统中的第k帧修改，如下：

如果平滑化操作涉及a^k(n)的攻击函数值的计算，则A^k-1可以被前一帧中的攻击函数的最后一个样本替换，如下所示：

方程6中给出的波峰因子和方程13中的攻击函数非常适合这种定义。

因为方程13中的Y_L(n)是方程12中X_L(n)的平滑化版本，所以方程18中的Ak可以被帧中X_L(n)的最大值代替，使得

方程15中定义的功率门控增量波峰因子对于帧可以修改为

其中，A^k优选使用基于功率的攻击函数来确定，诸如从方程9-13中的任何一个导出的攻击函数。方程16中定义的功率门控增量波峰因子对于帧也可以修改为

如果方程12或方程13用作能量检测器(A，)，则功率阈值(A′^k＞T_P)在方程1中执行，因此上面的方程可以被简化为：

因为方程13中的能量检测器是方程12中的能量检测器的平滑化版本，所以它们可以被组合以形成下面的功率门控波峰因子：

上面获得的攻击函数可用于做出关于DRC对于整个帧是进入攻击还是似稳态模式的决定，从而确定对于帧中所有样本的相应TC。例如，对于基于帧的处理，方程7可以修改为：

其中，和应用于帧中的所有样本。类似地，方程8可以修改为

附加实现方式

因为TC随每个输入样本而变化，所以方程4的指数函数优选地针对每个输入样本的攻击极点和释放极点进行评估。这相当于巨大的计算负担，尤其是对于低成本处理器，如MCU和DSP。为了避免这个问题，在某些实施例中，方程4中的指数函数通过其截断泰勒展开式来近似。例如，方程4的一阶展开式由下式给出

将这个方程代入方程8，我们得到了

对于基于帧的处理，对于帧中的所有样本，攻击极点和释放极点只计算一次，因此上述简化通常不太有价值。

方程3中的单极点IIR滤波器也可以针对以下的极端情况进行简化

和/或

这仅在DRC处于攻击模式时发生。由于方程4，上述两个方程分别导致

和

如果使用方程19，则方程3的第二部分减少到

Y_L＝Y₁ 方程21

所以整个方程3变成

Y_L(n)＝max(X_L(n)，α_RY_L(n-1)+(1-α_R)X_L(n))

当从这种零的攻击TC切换到非零TC时，方程21优选用于设置方程3中的内部状态Y₁。

类似地，如果使用方程20，则方程3的第一部分简化为

Y₁(n)＝max(X_L(n)，Y₁(n-1))。

如果使用方程19和方程20，则整个方程3可以简化为

Y_L(n)＝max(X_L(n)，Y_L(n-1))。

同样，当从这种零的攻击TC切换到非零TC时，方程21优选用于设置方程3中的内部状态y₁。

系统环境

一般来说，除非另有明确指示，否则本文所描述的所有系统、方法、模块、部件、功能和技术可使用一个或更多个可编程通用计算设备来实践。这种设备(例如，包括本文提到的任何电子设备)通常将包括例如经由公共总线彼此耦合的至少一些以下部件：(1)一个或更多个中央处理单元(CPU)；(2)只读存储器(ROM)；(3)随机存取存储器(RAM)；(4)其他集成或附加存储设备；(5)用于(例如，使用硬连线连接，诸如串行端口、并行端口、USB连接或火线连接，或者使用无线协议，诸如射频识别(RFID)、任何其他近场通信(NFC)协议、蓝牙或802.11协议)与其他设备以接口方式连接的输入/输出软件和电路；(6)用于连接到一个或更多个网络的软件和电路，例如使用硬连线连接(诸如以太网卡)或无线协议，诸如码分多址(CDMA)、全球移动通信系统(GSM)、蓝牙、802.11协议或任何其他基于蜂窝或非基于蜂窝的系统，这些网络在本发明的许多实施例中又连接到因特网或任何其他网络；(7)显示器(诸如阴极射线管显示器、液晶显示器、有机发光显示器、聚合物发光显示器或任何其他薄膜显示器)；(8)其他输出设备(诸如一个或更多个扬声器、耳机、激光器或其他光投影仪和/或打印机)；(9)一个或更多个输入设备(诸如鼠标、一个或更多个物理开关或可变控制器、触摸板、平板电脑、触敏显示器或其他定点设备、键盘、小键盘、麦克风和/或照相机或扫描仪)；(10)大容量存储单元(诸如硬盘驱动器或固态驱动器)；(11)实时时钟；(12)可移动存储读/写设备(例如闪存驱动器、利用半导体存储器的任何其他便携式驱动器、磁盘、磁带、光磁盘、光盘等)；和/或(13)调制解调器(例如，用于发送传真或用于连接到因特网或任何其他计算机网络)。在操作中，在由这种通用计算机执行的程度上，实现以上方法和功能的过程步骤通常最初存储在大容量储存器(例如，硬盘或固态驱动器)中，下载到RAM中，然后由CPU从RAM执行。然而，在一些情况下，过程步骤最初存储在RAM或ROM中和/或直接从大容量储存器中执行。

用于在实现本发明时使用的合适的通用可编程设备可以从各种供应商处获得。在各种实施例中，根据任务的大小和复杂性，使用不同类型的设备。这样的设备可以包括例如大型计算机、多处理器计算机、一个或更多个服务器盒、工作站、个人(例如台式、膝上型、平板或平板式)计算机和/或甚至更小的计算机，诸如个人数字助理(PDA)、无线电话(例如智能电话)或任何其他可编程装置或设备，无论是独立的、硬连线到网络还是无线连接到网络。

另外，尽管上文已经描述了通用可编程设备，但是在替代实施例中，替代地(或另外地)使用一个或更多个专用处理器或计算机。一般来说，应当注意，除非另有明确说明，否则上述任何功能可以由执行软件和/或固件的通用处理器、由专用(例如，基于逻辑的)硬件或这些方法的任何组合来实现，其中特定实现是基于已知的工程折衷来选择的。更具体地，在以固定、预定和/或逻辑方式实现上述任何过程和/或功能的情况下，可以通过执行编程(例如，软件或固件)的处理器、逻辑部件(硬件)的适当布置、或两者的任意组合来实现，这是本领域技术人员将容易认识到的。换句话说，如何将逻辑和/或算术运算转换成用于在处理器内执行这种运算的指令和/或转换成用于执行这种运算的逻辑门配置是容易理解的；事实上，编译器通常可用于这两种转换。

应当理解，本发明还涉及机器可读的有形(或非暂时性)介质，在该介质上存储有用于执行本发明的方法和功能和/或用于实现本发明的模块和部件的软件或固件程序指令(即，计算机可执行处理指令)。这种介质例如包括磁盘、磁带、光学可读介质(诸如CD和DVD)，或者半导体存储器(诸如各种类型的存储卡、USB闪存设备、固态驱动器等)。在每种情况下，介质可以采取便携式物品的形式，诸如微型磁盘驱动器或小磁盘、软盘、盒式磁带、盒式数据存储器(cartridge)、卡、棒等，或者它可以采取相对较大或移动较少的物品的形式，诸如设置在计算机或其他设备中的硬盘驱动器、ROM或RAM。如本文所用，除非另有明确说明，对存储在计算机可读或机器可读介质上的计算机可执行过程步骤的提及旨在包括其中这样的过程步骤存储在单个介质上的情况，以及其中这样的过程步骤存储在多个介质上的情况。

前面的描述主要强调电子计算机和设备。然而，应当理解，还可以使用任何其他计算或其他类型的设备，诸如利用能够执行基本逻辑和/或算术运算的电子、光学、生物和化学处理的任何组合的设备。

另外，在本公开涉及处理器、计算机、服务器、服务器设备、计算机可读介质或其他储存设备、客户端设备或任何其他类型的装置或设备的情况下，这种提及应当理解为包括多个这种处理器、计算机、服务器、服务器设备、计算机可读介质或其他储存设备、客户端设备或任何其他这种装置或设备的使用，除非另有明确指示。例如，服务器通常可以(并且通常将)使用单个设备或(本地或地理上分散的)服务器设备集群来实现，例如具有适当的负载平衡。类似地，服务器设备和客户端设备通常将协作执行完整方法的过程步骤，例如，每个这样的设备具有存储这样的过程步骤的一部分的它自己的存储设备和执行这些过程步骤的它自己的处理器。

附加考虑事项

尽管本发明的技术在上面被描述为被应用于整个音频信号，但是在替代实施例中，音频信号被分成多个频带，并且任何或所有这样的技术被单独应用于一个或更多个这样的频带。

如本文所使用的，术语“耦合”或该词的任何其它形式旨在表示直接连接或通过一个或更多个其它元件或处理块连接，例如用于预处理的目的。在附图和/或它们的讨论中，在各个步骤、模块或处理块被示出和/或讨论为彼此直接连接的情况下，这样的连接应当被理解为耦合，其可以包括附加步骤、模块、元件和/或处理块。除非本文中另有相反的明确和具体说明，否则本文中对信号的提及意味着该信号的任何已处理或未处理版本。也就是说，本文讨论和/或要求保护的特定处理步骤不旨在是排他性的；相反，可以在本文明确讨论或要求保护的任何两个处理步骤之间执行中间处理。

在前面的讨论中，术语“操作者”、“操作”、“功能”和类似的术语指代过程步骤或硬件部件，这取决于具体的实现/实施例。

一方面在本文或附图中明确阐述的本公开与另一方面通过引用并入本文的任何材料之间发生任何冲突或不一致之处，本公开应优先。在通过引用并入本文的任何申请或专利的公开之间发生任何冲突或不一致的情况下，最新添加或改变的公开应优先。

除非明确指出相反，诸如“最优”、“优化”、“最大化”、“最小化”、“最佳”的词语以及类似词语和其他表示比较的单词和后缀在上述讨论中没有在其绝对意义上使用。相反，这些术语通常意在考虑任何其他潜在的约束(诸如用户指定的约束和目标以及成本和处理或制造限制)来理解。

在上面的讨论中，通过将某些方法分解成以特定顺序列出的步骤来解释它们。类似地，通过显示和描述以特定顺序排列的模块来执行特定处理。然而，应当注意，在每种这样的情况下，除了明确指示相反的程度或者出于实际考虑(诸如，来自一个步骤的结果对于执行另一个步骤是必要的情况)的要求之外，所指示的顺序不是关键的，而是所描述的步骤和/或模块可以被重新排序和/或两个或更多个这样的步骤(或者两个或更多个这样的模块内的处理)可以同时执行。例如，在(图2中所示的)系统100中，增益计算机114位于电平检测器116之前。然而，在替代实施例中，电平检测器116在增益计算机114之前。更一般地，人们可以定义更大的自适应增益生成模块132，其包括增益计算机114(例如，静态增益压缩)和电平检测器116(例如，平滑化或低通滤波)的功能，潜在地结合附加功能(无论是否在图2中示出)，其中这些功能以各种不同的方式布置，如本领域普通技术人员将容易理解的。例如，众所周知，线性和时不变的操作通常可以以任何期望的顺序布置。

本文中对旨在触发、限制、滤波或以其他方式影响处理步骤、其他动作、处理步骤或动作的对象或任何其他活动或数据的“标准”、“多个标准”、“条件(condition)”、“条件(conditions)”或类似词语的提及旨在指“一个或更多个”，而不管是使用单数还是复数形式。例如，任何标准或条件可以包括动作、事件和/或出现(即多部分标准或条件)的任何组合(例如布尔组合)。

类似地，在上面的讨论中，功能有时归因于特定的模块或部件。然而，功能通常可以根据需要在任何不同的模块或部件之间重新分发，在一些情况下完全避免对特定部件或模块的需要和/或需要添加新的部件或模块。如本领域技术人员将理解的，参考本发明的具体实施例，功能的精确分布优选地根据已知的工程折衷来进行。

在上述讨论中，词语“包括(include)”、“包括(includes)”、“包括(including)”及该词语的所有其它形式不应该被理解为限制，而应该将这些单词之后的任何具体项理解为仅仅是示范性的。

本发明的几个不同实施例在上面和/或在通过引入并入本文的任何文件中进行描述，其中每个这样的实施例被描述为包括某些特征。然而，意图是结合任何单个实施例的讨论描述的特征不限于该实施例，而是可以被包括和/或布置在任何其它实施例中的各种组合中，如将由本领域技术人员理解的。

因此，虽然本发明已经关于其示例性实施例和附图被详细描述，但是对于本领域技术人员明显的是，在不脱离本发明的目的和范围的情况下，可以实现本发明的各种适应和修改。因此，本发明不限于附图所示和上述的精确实施例。相反，意图是不偏离本发明的目的的所有这样的变化被认为是落入其仅由所附权利要求书限定的范围内。

Claims

1.一种压缩音频信号的动态范围的方法，包括：

(a)获得输入音频信号；

2.根据权利要求1所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示表明检测到的瞬变的强度的度量。

3.根据权利要求2所述的方法，其中，作为检测到的瞬变的强度的更大度量的结果，所述攻击增益响应时间减少得更多，而所述释放增益响应时间增加得更多。

4.根据权利要求1所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示基于使用峰值的波峰因子检测器。

5.根据权利要求4所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示也基于与指定阈值比较的所述输入音频信号的强度。

6.根据权利要求1所述的方法，其中，所述输入音频信号中是否出现瞬变的所述指示基于与指定阈值比较的所述输入音频信号的强度。

7.根据权利要求1-6中任一项所述的方法，其中，通过首先确定多个初步攻击值且然后计算作为所述多个初步攻击值中的先前一个初步攻击值和所述多个初步攻击值中的当前一个初步攻击值之间的变化量的增量值，来将所述输入音频信号中是否出现瞬变的所述指示计算为所述增量值。

8.根据权利要求1-6中任一项所述的方法，其中，所述输入音频信号是基于帧的，并且针对所述输入音频信号的各个帧来确定在所述输入音频信号中是否出现瞬变的所述指示。

9.根据权利要求1-6中任一项所述的方法，其中，步骤(b)还包括识别增益以实现期望的静态范围压缩。

10.根据权利要求1-6中任一项所述的方法，其中，所述攻击增益响应时间和所述释放增益响应时间中的每一个是指数时间常数。