CN104471855B

CN104471855B - 具有噪声检测和响度下降检测的响度控制

Info

Publication number: CN104471855B
Application number: CN201380037168.3A
Authority: CN
Inventors: B·史密斯; A·沃纳; J·汤普森
Original assignee: DTS Licensing Ltd
Current assignee: DTS Licensing Ltd
Priority date: 2012-07-12
Filing date: 2013-07-12
Publication date: 2018-01-16
Anticipated expiration: 2033-07-12
Also published as: JP6328627B2; JP2015523606A; HK1208290A1; KR102072026B1; WO2014011959A3; CN104471855A; WO2014011959A2; KR20150036581A; US9685921B2; US20140016791A1

Abstract

响度控制系统或方法可以将音频信号标准化成预定的响度水平。如果音频信号包括平稳的背景噪声，那么该背景噪声也会被标准化成目标响度水平。可以使用内容对噪声分类来检测噪声信号，并且可以基于噪声检测来调整响度控制系统或方法。噪声信号可以通过在频域或时域中的信号分析来检测。响度控制系统还会在内容从高的整体响度水平转移到较低的整体响度水平时产生不期望的音频效果。这种响度下降可以被检测到，并且响度控制系统可以被调整以在响度水平之间的转变期间将不期望的效果最小化。

Description

具有噪声检测和响度下降检测的响度控制

相关申请的交叉引用

本申请要求享有于2012年7月12日提交的美国临时申请No.61/670,991、以及于2012年7月12日提交的美国临时申请No.61/671,005的权益，这些申请通过引用合并于此，如同充分阐述一样。

技术领域

本申请涉及响度控制系统。

背景技术

响度控制系统可以被设计成根据具有不同响度水平的输入音频信号生成具有均匀响度水平的输出音频信号。这些系统可以在例如音频广播链的应用中使用，以及在音频回放设备中使用，在所述音频回放设备中，可以使用不同响度水平的多内容源。响度控制系统的一个示例目标可以是自动提供具有均匀的平均响度水平的输出信号，消除了听者要持续调整对他们的回放设备的音量控制的需要。

与响度控制系统有关的是自动增益控制(AGC)系统和动态范围控制(DRC)系统。AGC系统是现代响度控制系统的先驱，并且在通信和广播应用方面具有较长的历史，其中，许多早期设计被实施为模拟电路。AGC系统可以通过将输入信号与时变增益信号相乘来运行，其中，所述增益信号被控制以使输出信号的客观测量被标准化(normalize)成预定的目标水平。可以使用例如均方根(RMS)测量、峰值测量、幅度测量、或能量测量之类的客观测量。现有的AGC设计的一个缺陷在于感知的输出信号的响度仍然会不可预测。这是因为心理声学现象——感知的响度是主观测量，其仅大致与客观测量(例如，RMS水平、峰值水平、幅度水平或能量水平)相关。因此，尽管AGC可能足以控制输出信号的RMS值，但是其不能必然导致感知的响度是均匀的。

DRC系统也与响度控制系统有关，但是具有稍微不同的目标。DRC系统假设信号的长期平均水平已经被标准化成期望的水平，并且试图仅修改短期动态。DRC系统可以将所述动态压缩，以使响亮的事件衰减，并且安静的事件放大。这不同于响度控制系统要对信号的平均响度水平进行标准化、同时保持短期信号动态的目标。

现代响度控制系统试图通过从心里声学和响度感知的领域引入知识来改善AGC设计和DRC设计。响度控制系统可以通过估计输入信号的感知响度和控制时变增益、使得输出信号的平均响度水平可以被标准化成预定的目标响度水平的方式来运行。

现有的响度控制系统的问题在于没有在期望的内容与不期望的噪声之间做出区别，使得大于预定阈值的所有低水平音频内容都被放大。针对现有的响度控制系统的常见的问题信号是具有平稳的背景噪声的演讲。如果在演讲中存在长间歇，那么响度控制系统会开始放大背景噪声。所导致的信噪比(SNR)的降低对于一些听者而言会是反感的。期望的是，响度控制系统避免噪声水平的相对放大，因此保持输入信号的SNR。

对于响度控制系统的另一挑战的场景是在不负面地限制内容内短期信号动态的情况下，维持均匀的平均响度水平。对响度变化快速反应的系统可以始终实现期望的目标水平，但是以降低的短期信号动态为代价。另一方面，对响度变化反应较慢的系统可能不能有效地控制响度水平，或者可能呈现出明显的伪像(artifact)，例如，在输入信号响度水平的较大变化期间的斜坡。较大的长期响度变化在内容间转变期间最常见，例如，程序转变或内容源变化。期望的是，通过不同方式解决响度控制系统内的内容内和内容间波动，使得保持内容内短期信号动态、同时快速控制较大的内容间响度转变。

发明内容

响度控制系统和方法可以将音频内容标准化成预定的响度水平。如果音频内容包括平稳的背景噪声，那么该背景噪声也会被标准化成目标响度水平。可以使用内容对噪声分类来检测噪声信号，并且可以基于噪声检测来调整响度控制系统或方法，以保持输入信号的SNR。噪声信号可以通过在频域或时域中的信号分析来检测。响度控制系统还会在内容从高的长期响度水平转变到较低的长期响度水平时产生不期望的音频伪像。这种响度下降可以被检测到，并且响度控制系统可以被调整以在响度水平之间的转变期间将不期望的伪像最小化。

根据一个实施方式，响度控制系统可以被配置成处理音频信号。该响度控制系统可以包括响度测量模块，被配置成生成对所述音频信号的短期响度估计。该响度控制系统还可以包括噪声检测模块，被配置成产生所述音频信号的内容对噪声分类。该响度控制系统还可以包括时间平滑模块，被配置成基于内容对噪声分类结果调整至少一个平滑因子，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计。该响度控制系统还可以包括增益校正模块，被配置成基于所述长期响度估计向所述音频信号应用时变增益。所述噪声检测模块可以被配置成使用频域噪声检测或时域噪声检测来产生所述内容对噪声分类结果。所述至少一个平滑因子可以包括消逝平滑因子，该消逝平滑因子控制所述增益校正模块能够增加增益水平的速度。所述内容对噪声分类可以标准化在范围[0,1]上。该响度控制系统还可以包括响度下降检测模块，被配置成生成响度下降检测值，其中，所述时间平滑模块还可以被配置成基于所述响度下降检测值调整所述至少一个平滑因子。

根据另一实施方式，响度控制系统可以被配置成处理音频信号。该响度控制系统可以包括响度测量模块，被配置成生成对所述音频信号的短期响度估计。该响度控制系统还可以包括响度下降检测模块，被配置成生成响度下降检测值。该响度控制系统还可以包括时间平滑模块，被配置成基于所述响度下降检测值调整至少一个平滑因子，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计。该响度控制系统还可以包括增益校正模块，被配置成基于所述长期响度估计向所述音频信号应用时变增益。所述至少一个平滑因子可以包括消逝平滑因子，该消逝平滑因子控制所述增益校正模块能够增加增益水平的速度。所述响度下降检测值可以标准化在范围[0,1]上。该响度控制系统还可以包括噪声检测模块，被配置成产生所述音频信号的内容对噪声分类，其中，所述时间平滑模块还可以被配置成基于所述内容对噪声分类调整所述至少一个平滑因子。

根据另一实施方式，系统可以被配置成执行频域噪声检测。该系统可以包括求和组件，被配置成接收包括多个信道的输入信号，并通过对所述多个信道进行求和来生成单声道(mono)信号。该系统还可以包括短期傅里叶变换(STFT)组件，被配置成通过向所述单声道信号应用STFT来生成频域信号。该系统还可以包括分贝转换器，被配置成基于所述频域信号生成功率频谱，并将所述功率频谱转换到分贝(dB)域。该系统还可以包括时间平滑组件，被配置成通过估计所述功率频谱的每个频带的能量的时间平均来生成时间平滑的功率频谱。该系统还可以包括频谱通量测量组件，被配置成通过计算所述功率频谱与所述时间平滑的功率频谱的平均差来计算所述功率频谱的频谱通量值。该系统还可以包括成峰度(peakiness)测量组件，被配置成通过估计所述功率频谱的每个子带的音调(tonal)特性来生成成峰度值，所述估计所述功率频谱的每个子带的音调特性是通过测量子带相比于其邻居的相对能量实现的。该系统还可以包括信噪比(SNR)估计器组件，被配置成基于所述功率频谱的频谱通量值、所述成峰度值和所述功率频谱估计噪声功率频谱，并生成信噪比(SNR)。该系统还可以包括时间平滑组件，被配置成基于所述SNR生成平滑的SNR。该系统还可以包括滞后组件，被配置成基于所述SNR生成所述输入信号的内容对噪声分类值。所述SNR估计器组件可以被配置成通过从所述信号的原始频谱中移除任何时间动态或音调分量来估计所述信号的所述噪声功率频谱，所述时间动态或音调分量被假设为是期望的内容的分量。所述内容对噪声分类可以标准化在范围[0,1]上。所述信噪比估计器组件可以被配置成计算宽带噪声水平和信号水平。该系统可以被包括在响度控制系统中，其中，所述响度控制系统可以包括时间平滑组件，该时间平滑组件被配置成基于内容对噪声分类值调整增益校正速度。

根据另一实施方式，系统可以被配置成执行时域噪声检测。该系统可以包括求和组件，被配置成接收包括多个信道的输入信号，并通过对所述多个信道进行求和来生成单声道信号。该系统还可以包括均方根(RMS)组件，被配置成将所述单声道信号转换成短期包络估计。该系统还可以包括分贝转换器，被配置成对所述短期包络估计执行分贝(dB)转换。该系统还可以包括平滑滤波器，被配置成对所述短期包络估计取平均，以生成长期均值包络估计。该系统还可以包括减法组件，被配置成从所述短期包络估计中减去所述长期均值包络估计，以生成包络值。该系统还可以包括半波整流组件，被配置成对所述包络值进行半波整流。该系统还可以包括至少两个平滑滤波器，被配置成基于所述包络值估计启动能量的均值和偏移能量的均值。该系统还可以包括标准化误差计算器，被配置成计算所述启动能量的均值与所述偏移能量的均值之间的标准化的平方误差。该系统还可以包括时间平滑组件，被配置成对所述标准化的平方误差进行时间平滑。该系统还可以包括滞后组件，被配置成向所述平滑的标准化的平方误差应用滞后，以生成内容对噪声分类。所述平滑滤波器可以被配置成对所述短期包络估计取指数移动平均(EMA)。所述时间平滑组件使用与信号有关的平滑因子。所述平滑因子区分起音(attack)特性和消逝(release)特性。所述内容对噪声分类被标准化在范围[0,1]上。所要求保护的系统可以被包括在响度控制系统中，其中，所述响度控制系统可以包括时间平滑组件，该时间平滑组件被配置成基于所述内容对噪声分类值调整增益校正速度。

根据另一实施方式，系统可以被配置成执行响度下降检测。该系统可以包括短期响度测量模块，被配置成接收输入信号，并基于所述输入信号计算短期响度估计。该系统还可以包括至少两个时间平滑滤波器，被配置成计算慢速平滑响度估计和快速平滑响度估计。该系统还可以包括减法模块，被配置成从所述慢速平滑响度估计中减去所述快速平滑响度估计，以生成差值。该系统还可以包括半波整流器模块，被配置成对所述差值进行半波整流，以生成整流后的差值。该系统还可以包括标准化模块，被配置成对所述整流后的差值进行标准化，以生成下降检测值。所述短期响度测量模块可以被配置成使用ITU-R BS.1770响度测量来计算所述短期响度估计。所述至少两个时间平滑滤波器可以被配置成分别使用慢速平滑因子和快速平滑因子，其中，所述慢速平滑因子和所述快速平滑因子基于所述输入信号的动态来被动态修改。针对具有高信号动态测量的输入信号，所述慢速平滑因子和所述快速平滑因子可以相互减慢。针对具有低信号动态测量的输入信号，所述慢速平滑因子和所述快速平滑因子可以相互加快。所述标准化模块可以使用转化(translation)、缩放(scale)和饱和(saturation)来计算所述下降检测值。所述标准化模块可以被配置成在[0,1]的范围中生成所述下降检测值，其中，为1的下降检测值指示检测到响度下降，并且为0的下降检测值指示没有检测到下降。该系统可以被包括在响度控制系统中，其中，所述响度控制系统可以包括时间平滑组件，该时间平滑组件被配置成基于所述下降检测值调整增益校正速度。

附图说明

图1示出了输入声波经过音频处理系统以产生输出声波的框图；

图2示出了响度控制系统的框图；

图3示出了根据一种实施方式的频域噪声检测系统的框图；

图4A和图4B分别示出了短音乐音段和短噪声音段的功率频谱；

图4C和图4D分别示出了音乐音段和噪声音段的噪声功率频谱的估计，其中，已经消除了信号的音调和暂态结构；

图4E示出了来自频域噪声检测系统的针对由音乐音段及其后伴随的噪声音段组成的信号的内容对噪声分类输出；

图5示出了根据一种实施方式的时域噪声检测系统的框图；

图6A示出了在内容到噪声转变期间的信号包络和平滑的信号包络；

图6B示出了来自时域噪声检测系统的对应于在图6A中的信号的示例分类输出；

图7示出了根据一种实施方式的具有噪声检测的响度控制系统的框图；

图8示出了根据一种实施方式的响度下降检测系统的框图；

图9示出了短期响度估计、两个平滑的滤波器输出、以及在响度下降检测系统内得出的响度下降检测信号的示例信号，所述示例信号以dB为单位；

图10A-图10D分别示出了短期响度估计、平滑的滤波器输出、以及在响度下降检测系统中针对不同的平滑因子选择的响度下降检测信号的示例；

图11示出了根据一种实施方式的具有动态平滑因子的响度下降检测系统的框图；

图12A和图12B分别示出了短期响度估计、平滑的滤波器输出、以及在响度下降检测系统中具有动态平滑因子的响度下降检测信号的示例；

图13示出了根据一种实施方式的具有响度下降检测的响度控制系统的框图；以及

图14示出了根据一种实施方式的具有噪声检测和响度下降检测的响度控制系统的框图。

具体实施方式

声波是由物体振动引起的一种形式的压力波，其传播穿过例如空气的可压缩介质。声波周期性地取代该介质(例如，空气)中的物质，导致物质振荡。声波的频率描述了在时间周期内的整周的数量，并且以赫兹(Hz)来表示。在12Hz到20,000Hz频率范围中的声波对于人类是能够听见的。

图1示出了输入声波105经过音频处理系统以产生输出声波135的框图100。音频信号是听得见的声波作为电压的表示。设备110(例如，麦克风)接收声压波(其是机械能量)，并将该声压波转换成电能量或音频信号115。类似地，设备130(例如，扬声器或耳机)将电音频信号125转换成听得见的声波135。音频信号处理块120是对音频信号115的有意操作，以改变音频信号的音响效果。可以在模拟域或数字域中执行音频信号处理。

模拟音频信号由例如沿电路的连续的数据流表示，其以电压、电流或电荷变化为形式。模拟信号处理(ASP)通过经由各种电子装置改变电压或电流或电荷，来物理地改变连续的信号。数字音频信号是通过模拟音频信号的采样创建的，其中，该信号表示为符号(symbol)序列，典型地为二进制数字，其允许使用数字电路(例如，微处理器和计算机)来进行信号处理。在这种情况下，对数字表示的信号执行处理。响度控制是音频信号处理的示例。

这里描述的实施方式是参考应用于音频信号的响度控制系统和方法描述的，然而，假设概念和改进可以类似地应用于其他音频信号处理系统(例如，AGC系统和DRC系统)和方法。响度控制系统可以用于操纵具有不同响度水平的输入音频信号，以产生具有均匀响度水平的输出音频信号，该具有均匀响度水平的输出音频信号是令听者更满意的。

遍及这里描述的实施方式，使用了一些标记法则。假设信号x[n]是具有采样索引n和采样速率Fs_n的时间序列。信号x[n]可以由多个音频信道C组成，并且可以被表示为x_c[n]以规定具体的信道，其中，c是信道索引，0≤c≤C-1。信号x[m]可以是已经根据因子M进行下采样以使x[m]的采样速率为Fs_m＝Fs_n/M的时间序列。

图2中示出了响度控制系统200的高级框图。响度控制系统200可以至少包括以下三个核心模块：响度测量模块205、时间平滑模块210以及增益校正模块215。响度控制系统200可以修改传入的音频信号x[n]，以产生具有改善的响度特性的输出音频信号y[n]。例如，响度控制系统200可以是图1中的音频处理系统100中的音频处理块120的部分。

参考图2，响度测量模块205可以分析输入信号x[n]的短音段，并且可以生成短期响度估计L_short[m]。时间平滑模块210可以通过随时间对所述短期响度估计进行平滑，提供对长期平均响度水平的估计L_ave[m]。增益校正模块215可以向输入信号x[n]应用时变内插增益，其中，所述增益可以被控制以使输出信号y[n]的长期平均响度水平可以等于预定的目标响度水平。

响度测量模块205可以使用任意过程来估计音频信号的感知响度。这种过程的示例包括：

·响度等效测量(L_eq[m])，其可以与A、B或C频率加权耦合，如由国际电工委员会(IEC)定义的；

·茨维克(Zwicker)和法斯特(Fastl)响度模型，其是由国际标准化组织(ISO)定义的标准的基础；以及

·L_eq测量与修正的低频B加权(RLB)频率加权和预滤波器耦合，如由国际电信联盟(ITU)定义的。

例如，ITU部门(ITU-R)BS.1770响度测量系统可以在响度控制系统200的响度测量模块205中使用。ITU-R BS.1770方法是已经被广播行业广泛采用的国际标准，该广播行业包括高级电视系统委员会和欧洲广播联盟。ITU-R BS.1770实施通常具有低计算和存储要求，并且已经显示出很好地与听者的响度感知相关。

响度测量模块205可以估计输入信号x[n]的短音段的感知响度，例如，5-10毫秒的音段。所得出的短期响度估计L_short[m]可以例如以振幅域、能量域或分贝(dB)域表示，取决于响度控制设计和实施。

响度控制系统200的目标可以是生成具有均匀的平均响度水平的输出信号y[n]，而不过度地压缩短期信号动态。因此，时间平滑模块210可以随时间对短期响度估计进行平均或平滑，以获取对信号的长期平均响度水平的估计。用于对短期响度估计执行时间平滑的方法可以是例如根据以下等式，应用单极指数移动平均(EMA)滤波：

L_ave[m]＝L_ave[m-1]·(1-α)+L_short[m]·α 等式1

其中，L_short[m]是短期响度估计，L_ave[m]是长期平均响度估计，以及α是控制时间平滑的行为的平滑因子。

时间平滑模块210可以被设计有独立的“起音”行为和“消逝”行为，这两个行为使用不同的平滑因子α值。起音相位可以指新获取的短期响度估计L_short[m]，其比之前的平均响度估计L_ave[m]更响。消逝相位可以指新获取的短期响度估计L_short[m]，其比之前的平均响度估计L_ave[m]更安静。因此：

等式2

起音和消逝平滑因子α_attack和α_release可以被设置以使平均响度水平的长期估计被近似，其中，起音平滑因子α_attack可以被设置成比消逝平滑因子α_release速度更快，以接近人类听觉系统的非对称响度集成。

起音平滑因子和消逝平滑因子的调谐可以是应用特定的，并且可以具有关于输出响度水平的一致性的含义。使用相对慢的起音平滑因子和消逝平滑因子，平均响度估计会过慢地追踪信号响度水平，导致会大幅度浮动的输出响度水平。使用相对快的起音平滑因子和消逝平滑因子，平均响度估计会过紧密地追踪短期信号动态，导致具有恒定的响度水平但是过度压缩的信号动态的输出信号y[n]。

响度控制系统200可以包括稳态噪声阈值T_noise,static，其中，低于该阈值的输入信号被假设成是不期望的噪声，而大于该阈值的输入信号被假设成是期望的内容。响度控制系统可以被设计成避免对假设的噪声水平进行反应，以使噪声的令人不满意的放大可以被减少。因此，测量为低于噪声阈值T_noise,static的短期响度估计可以不包括在长期平均响度估计中，以有效地将平均响度估计“冻结”在其之前的值。

在短期响度估计L_short[m]低于稳态噪声阈值T_noise,static时冻结平均响度估计的一种方法可以是向时间平滑滤波器添加条件，借以通过将α设置成零，平均响度估计可以被有效地维持在其之前的值：

等式3

这仅仅是能够用于避免对被假设为是噪声的低水平信号进行反应的多种方法中的一种。

增益校正模块215可以通过取预定的目标响度水平Tar_dB与平均响度估计L_ave,dB[m]之间的差来计算时变增益值G_dB[m]，其中，下标dB规定了响度值以分贝域表示：

G_dB[m]＝Tar_dB-L_ave,dB[m] 等式4

具有采样速率Fs_m的下采样的增益值G_dB[m]可以被转换到线性域，并且被内插以创建具有采样速率Fs_n的平滑增益信号G[n]。内插方法可以例如包括但不限于：EMA平滑、线性内插或三次内插。输出信号y[n]通过将增益值G[n]乘以输入信号x[n]来生成：

y[n]＝G[n]·x[n] 等式5

响度控制系统可以相对放大不期望的噪声，从而在某些情景下降低信噪比(SNR)，所述场景例如为具有平稳的背景噪声水平的演讲。如参考图2讨论的，响度控制系统200可以包括稳态噪声阈值T_noise,static，作为限制假设的噪声的放大的简单方法。当输入信号响度被测量为低于噪声阈值T_noise,static，估计的平均响度水平L_ave[m]冻结，并因此增益信号G[n]冻结。该冻结机制可以做出保持SNR的满意的工作，只要信号x[n]内的实际噪声水平低于稳态噪声阈值T_noise,static。然而，当噪声水平高于噪声阈值T_noise,static时，不期望的噪声会被放大。现实世界噪声能够是相当响亮的，并且不可预测，需要比与稳态阈值的简单比较更为复杂的解决方案。

可以通过检测噪声和噪声水平的高级方法对响度控制系统做出改进。对音频音段是由期望的内容组成还是由不期望的噪声组成的认知会是对响度控制系统有用的信息。噪声检测的自动方法可以用于将音频音段分类为是内容还是噪声，如以下描述的。

不期望的噪声的类型可以例如包括但不限于：背景噪声、周围噪声、环境噪声和嘶嘶声(hiss)。不期望的噪声的特性可以被定义，以自动检测噪声。不期望的噪声可以被定义为具有以下特性：

·稳定性：噪声的信号功率和频谱形状被假设为是随时间适当平稳的。

·低水平：噪声被假设为具有相对于期望的内容适当低的水平。

·宽广/平滑的频谱：噪声的频谱被假设为在频率上是适当宽且平滑的。具有显著的频谱峰值或谷值的信号(例如，音调信号)可以被认为是期望的内容。

噪声检测系统或方法可以使用以上假设中的一者或多者。

噪声检测不是无关紧要的任务，并且可能需要进行复杂的分析，以实现最优性能。在一个实施方式中，频域噪声检测系统通过利用稳定性且频谱的宽广的假设来提供精确分类结果。然而，在多种计算和功率约束应用中都需要响度控制系统。对于这些应用，根据另一实施方式，更有效的时域噪声检测系统利用稳定性的假设。

这里描述的噪声检测的解决方案可以生成“软”内容对噪声分类。该分类可以例如被定义在[0,1]的范围内，其中，0指示噪声，1指示内容，且二者之间的值是不太确信的分类。软决策向集成噪声检测的系统提供灵活性。

此外，这里描述的噪声检测系统可以是与水平无关的。换句话说，应用于输入信号的标量偏移不会改变分类。这是非常重要的特性，因为内容和噪声的期望水平会在应用之间大幅度变化，并且做出关于信号水平的强假设会在一些应用中导致破坏的性能。即使噪声检测系统是与水平无关的，一些谨慎的与水平无关的偏置可以被包括以安全地改善性能。例如，非常响亮的信号(例如，相对于满量程的-12到0分贝(dBFS))可以被解译为是具有100％信任度的内容。类似地，低于合适的稳态噪声阈值(例如，-60dBFS)的信号可以被认为是具有100％信任度的噪声。

根据一种实施方式，频域噪声检测可以通过估计噪声频谱和计算信噪比(SNR)来将信号分为内容或噪声。高SNR可以指示信号主要由期望的内容组成，而低SNR可以指示信号主要由噪声组成。可以通过试图从原始频谱中移除任意时间动态或音调分量来估计噪声频谱，所述时间动态或音调分量被假设为是期望的内容的分量。频谱通量可以用于估计时间动态，以及成峰度测量可以用于估计音调分量。

图3中示出了根据一种实施方式的频域噪声检测系统300的框图。频域噪声检测系统300可以接收音频信号x_c[n]，并且可以输出分类估计class[m]，由m索引，以使分类class[m]指示该信号更可能是内容还是噪声。该分类可以例如被定义在范围[0,1]上，其中，0指示噪声，1指示内容，并且二者之间的值是不太确信的分类。然而，可以使用其他分类范围，例如，[-1,1]或[0,100]。

频域噪声检测系统300可以包括以下中的任意：信道求和组件305、短时傅里叶变换(STFT)组件310、分贝转换器315、时间平滑组件320、频谱通量测量组件325、成峰度测量组件330、信噪比(SNR)估计器组件335、时间平滑组件340、标准化组件345以及滞后组件350。下面更具体地描述频域噪声检测系统300。

信道求和组件305可以对C信道信号x_c[n]的所有信道(可能地，除了低频效果(LFE)信道，如果包括的话)求和，以产生以下单声道信号：

等式6

其中，n是采样次数索引，c是信道索引，以及C是信道计数，可能地排除LFE信道。信道求和组件305可以改善计算效率并降低资源要求。

单声道信号x_mono[n]可以在应用STFT组件310之前被分成交叠的加窗帧：

等式7

其中，M是采样跃程(hop)大小，F是采样窗口大小，m是下采样时间索引，k是从0≤k≤K-1的频率索引，K＝(0.5·F+1)是唯一频率索引的数量，以及w是长度为F的分析窗口，例如，哈宁(Hann)窗口。代替STFT组件310，可以使用任何其他类型的滤波器组(bank)组件。

分贝转换器315可以根据STFT组件310的输出X_lin[m,k]计算功率频谱，并针对每个索引m和k，将该功率频谱转换到dB域：

X[m,k]＝10·log₁₀(|X_lin[m,k]|²) 等式8

可替换地，STFT组件310的均匀间隔的功率频谱可以被合并成子带以减少计算和存储需求，该子带近似等效矩形带宽(ERB)、临界带宽或一些其他感知带宽。

时间平滑组件320可以例如使用dB频谱X[m,k]的指数移动平均，随时间估计每个频带的能量的时间平均X'[m,k]：

X'[m,k]＝X'[m-1,k]·(1-α_s)+X[m,k]·α_s 等式9

其中，α_s是平滑因子，其针对该等式可以是唯一的，并且可以被选择以产生期望的平滑特性。

频谱通量测量组件325可以用于测量频谱通量sf[m]，其是随时间的频谱变化的测量。噪声信号常常具有接近于0通量的稳态频谱测量，而内容信号常常具有更动态的频谱，该动态的频谱具有启动、偏移和给定高通量的短持续时间的暂态。频谱通量值可以被计算为短期频谱X[m,k]与时间平滑的频谱X'[m,k]之间的平均差。时间平滑的频谱可以延迟一帧，以防止在计算频谱通量时当前帧频谱的集成：

等式10

由于频谱通量sf[m]在dB域中计算，该测量可以是与水平无关的，并且无需进一步标准化，除非在线性域中执行通量计算。

成峰度P[m,k]通过测量频带相比于其邻居的相对能量，来估计频带的音调特性。成峰度可以在有限范围的频带上被估计，针对典型的内容，该频带可以包括音调分量，例如，在20Hz到6kHz范围内。成峰度测量组件330可以通过首先估计每个频带k周围的平均能量P_SE[m,k]来计算成峰度：

等式11

其中，2W是要平均的邻居频带的数量。

邻居频带P_SE[m,k]的平均能量可以被从中心频带能量X'[m,k]中减去：

P_delta[m,k]＝X'[m,k]-P_SE[m,k] 等式12

P_delta[m,k]的大的正值可以指示在中心频带k内存在音调分量，而P_delta[m,k]的负值可以指示在邻居频带内存在音调分量。对于对音调分量感兴趣的噪声检测应用来说，负值可以被设置成0，而正值可以被扩展到邻居频带中，以在计算成峰度时补偿频带泄漏(leakage)：

等式13

SNR估计器组件335可以通过从输入功率频谱X[m,k]中减去成峰度P[m,k]和频谱通量sf[m]测量来估计噪声功率频谱N[m,k]：

N[m,k]＝X[m,k]-P[m,k]-|sf[m]| 等式14

噪声频谱可以在频率上平均，以计算对噪声水平的宽带估计n_wide[m]：

等式15

此外，输入信号功率频谱可以在频率上平均，以计算对信号水平的宽带估计x_wide[m]：

等式16

SNR估计器组件335可以通过从估计的宽带信号水平x_wide[m]中减去估计的宽带噪声水平n_wide[m]来计算snr[m]：

snr[m]＝x_wide[m]-n_wide[m] 等式17

由于得到的SNR(snr[m])可能高度变化，时间平滑组件340可以向snr[m]应用指数移动平均滤波，以减少变化，并捕捉更大的SNR，这有助于产生平滑的SNR(snr'[m])：

snr'[m]＝snr'[m-1]·(1-α)+snr[m]·α，其中，

等式18

平滑因子α_attack,snr和α_release,snr可以被选择以产生期望的平滑特性，其中，平滑因子α_attack,snr和α_release,snr针对在时间平滑组件340中执行的平滑SNR计算而言是唯一的。

平滑的SRN值snr'[m]可以由标准化组件345转换成中间分类值c[m]。例如，该值可以经由dB到线性域转换以及缩放和转化，被标准化到范围[0,1]，以使0指示噪声，1指示内容，并且二者之间的值是不太确信的分类：

等式19

滞后组件350可以通过应用滞后模型来计算最终的分类结果。该滞后模型基于过去的分类来偏置最终的分类。可以使用两个阈值：较高的内容阈值T_content和较低的噪声阈值T_noise，其中，所述阈值对于标量偏置计算(等式21)可以是唯一的。当中间分类值c[m]超过内容阈值T_content时，最终分类class[m]可以朝向内容分类偏置，直到中间分类值c[m]下落到低于较低的噪声阈值T_noise，这可导致最终分类class[m]朝向噪声分类偏置，直到内容阈值再次被跨过：

class[m]＝saturate(c[m]·β[m]) 等式20

其中，

等式21

以及

等式22

针对等式20-等式22，class[m]是最终分类结果，β_content是可以例如被选择为大于1的正偏置标量，以及β_noise是可以例如被选择为小于1的正偏置标量。

由3.5秒的内容(音调音乐)及其后跟随的3.5秒的宽带噪声组成的信号用于举例说明图3的频域噪声检测系统300的性能。图4A-图4D示出了在整个信号的多个时间索引处的功率频谱，其中，频带已经被转换成等效矩形带宽(ERB)。图4A示出了音乐的功率频谱X[m,k]，其中，在信号的第一个3.5秒中任意选取时间索引m₀，以说明音乐的音调方面，被视为频谱中显著的峰值。图4B示出了噪声的功率频谱X[m₁,k]，其中，在信号的另一半中任意选取时间索引m₁，以说明在宽带噪声中缺乏音调结构，被视为缺乏显著峰值的相对平坦的频谱。图4C示出了在与图4A相同的时间索引处，音乐的估计的噪声功率频谱N[m₀,k]。被视为图4A中的峰值的音调结构已经在图4C的估计的噪声功率频谱中被移除，如可以通过在图3中描述的成峰度测量组件330来进行。在图4C中也已经移除了暂态结构，如可以通过在图3中描述的频谱通量测量组件325来进行；然而，在图4A和图4C中没有明显展现出暂态结构的移除，因为仅示出了单个时间索引。图4D示出了在与图4B相同的时间索引处，噪声的估计的噪声功率频谱N[m₁,k]。如期望的，图4D中的估计的噪声功率频谱几乎与图4B中真实的噪声的功率频谱一致。图4E示出了来自图3中描述的频域噪声检测系统300的、针对整个由3.5秒的音调音乐及其后跟随的3.5秒的宽带噪声组成的信号的内容对噪声分类输出。在该示例场景下，分类0指示噪声，以及分类1指示内容。如在图4E中示出的，图3的频域噪声检测系统300能够在1秒内检测出信号中从内容到噪声的转变。

根据另一实施方式，可以在时域中执行噪声检测。时域噪声检测系统或方法可以应用于需要低计算要求的场景中。时域噪声检测系统可以利用典型的噪声信号具有随时间适当平稳的信号功率、而典型的内容信号具有呈现时变动态的信号功率的假设。

图5中示出了根据一种实施方式的时域噪声检测系统500的框图。时域噪声检测系统500可以接收音频信号x_c[n]，并且可以输出分类估计class[m]，由m索引，以使分类class[m]指示该信号更可能是内容还是噪声。该分类可以例如被定义在范围[0,1]上，其中，0指示噪声，1指示内容，并且二者之间的值是不太确信的分类。然而，可以使用其他分类值。

时域噪声检测系统500可以包括以下中的任意：信道求和组件505、均方根(RMS)组件510、分贝转换器515、时间平滑滤波器520、减法组件525、半波整流组件530、时间平滑组件535和540、标准化误差计算器545、时间平滑组件550以及滞后组件555。下面更具体地描述时域噪声检测系统500。

信道求和组件505可以对C信道信号x_c[n]的所有信道(可能地，除了低频效果(LFE)信道，如果包括的话)求和，以产生以下单声道信号：

等式23

其中，n是采样次数索引，c是信道索引，以及C是信道计数，可能地排除LFE信道。信道求和组件505可以改善计算效率并降低资源要求。

均方根(RMS)组件510可以通过对F个样本的窗口计算均方根(RMS)，来将输入信号转换成线性域短期包络估计env_lin[m]：

等式24

线性域短期包络估计env_lin[m]可以经由分贝转换器组件515被转换成dB域短期包络估计env[m]：

env[m]＝10·log₁₀(env_lin[m]) 等式25

注意的是，可以使用任意其他的包络估计器或技术来估计输入信号的短期包络。信号包络能够用于在内容与噪声之间进行区分。典型的噪声信号的短期包络常常在长期包络均值周围呈现对称性，而典型的内容信号的短期包络常常是非常不规则或非对称的。

时间平滑组件520(例如，单极指数移动平均(EMA)平滑滤波器)可以被应用于短期包络估计env[m]，以生成长期均值包络估计env'[m]：

env'[m]＝env'[m-1]·(1-α_env)+env[m]·α_env 等式26

其中，平滑因子α_env可以被选择以产生期望的平滑特性，该平滑因子α_env针对长期均值包络估计env'[m]的计算可以是唯一的。

减法组件525可以通过从短期包络值中减去长期均值包络估计来计算包络增量(delta)值：

env_delta[m]＝env[m]-env'[m] 等式27

半波整流组件530可以向包络增量值应用正半波整流，其中，负值可以被设置成0，其提供对信号中的短期启动能量的估计：

onset[m]＝max(env_delta[m],0) 等式28

时间平滑组件535可以被应用于启动能量，以估计启动能量的长期均值：

onset'[m]＝onset'[m-1]·(1-α_onset)+onset[m]·α_onset 等式29

其中，平滑因子α_onset可以被选择以产生期望的平滑特性，该平滑因子α_onset针对等式29的计算可以是唯一的。

半波整流组件530还可以向包络增量值应用负半波整流，其中，正值可以被设置成0，并且可以取绝对值，其提供对信号中的短期偏移能量的估计：

offset[m]＝|min(env_delta[m],0)| 等式30

时间平滑组件540可以被应用于偏移能量，以估计偏移能量的长期均值：

offset'[m]＝offset'[m-1]·(1-α_offset)+offset·α_offset 等式31

其中，平滑因子α_offset可以被选择以产生期望的平滑特性，该平滑因子α_offset针对等式31的计算可以是唯一的。

对于典型的噪声信号，启动和偏移均值能量onset'[m]和offset'[m]可以具有相似的水平，但是对于典型的内容信号，所述均值能量可具有显著的差异。标准化误差计算器545可以计算启动均值能量与偏移均值能量之间的平方误差err[m]，并且可以通过除以均值能量的最大值来对所述误差进行标准化，例如，将其标准化在0与1之间：

等式32

例如，内容信号的不规则暂态结构可以导致趋于1的err[m]，而稳态噪声中缺乏暂态结构会导致趋于0的err[m]。

时间平滑组件550可以通过对平方误差err[m]进行时间平滑以减少变化，来有助于生成内容对噪声分类：

err'[m]＝err'[m-1]·(1-α_err)+err[m]·α_err 等式33

平滑因子α_err可以是与信号有关的，以创建对起音特性和消逝特性的区分，所述起音特性和所述消逝特性由起音平滑因子α_attack,err和消逝平滑因子α_release,err确定：

等式34

在时域噪声检测系统500中使用的起音平滑因子α_attack,err和消逝平滑因子α_release,err针对等式34而言可以是唯一的，并且可以例如比由图2中的响度控制系统200的时间平滑模块210使用的那些更快。该可以使得噪声检测系统能够比响度控制系统校正水平更快的速度来将信号分为内容或噪声。

参考图5，滞后组件555可以以与图3中的频域噪声检测系统300的滞后组件350相似的方式，通过向err'[m]应用滞后模型来计算最终的内容对噪声分类class[m]。

图6A示出了在dB中，由内容到噪声转变组成的信号的包络env和平滑的包络env'，其中，该信号的第一半是音乐音段，而第二半是噪声音段。如图6A中示出的，包络信号的第一半(大致从0到3.5秒)示出了短期包络env相对于长期均值包络env'的不规则性，以及第二半(从3.5到7秒)示出了短期包络env相对于长期均值包络env'的对称性。图6B示出了来自图5中的时域噪声检测系统500的、对应于图6A中的信号的示例内容对噪声分类输出，其中，0指示噪声，并且1指示内容。

噪声检测分类结果class[m](如由图3的频域噪声检测系统300产生的或由图5的时域噪声检测系统500产生的)可以被集成到响度控制系统，例如，图2的响度控制系统200。

例如，图7示出了根据一种实施方式的噪声检测模块720集成到响度控制系统700中的高级框图。响度控制系统700可以包括响度测量模块705、噪声检测模块720、时间平滑模块710以及增益校正模块715。响度测量模块705和增益校正模块715可以以与图2中描述的响度测量模块205和增益校正模块215相类似的方式运行。噪声检测模块可以使用任意噪声检测技术来产生内容对噪声分类结果class[m]，分别包括图3的频域方法和图5的时域方法。之后，时间平滑模块710可以考虑来自噪声检测模块720的最终分类结果class[m]，如以下描述的。

响度控制系统700的时间平滑模块710可以被配置有独立的“起音”和“消逝”平滑因子，类似于图2中的响度控制系统200的时间平滑模块210。消逝平滑因子α_release可以控制响度控制被允许增加其增益水平的速度。快的α_release值可以允许响度控制快速增加增益水平，而慢的α_release值可以约束增益水平被允许增加的速度。在极值处，消逝平滑因子可以被设置成0，以冻结响度控制，从而有效允许不发生增益水平增加。

由于缺乏对信号是由内容组成还是由噪声组成的先知，图2的响度控制系统200会被强迫针对期望的内容和不期望的噪声以相同的速度增加增益水平。然而，由于具有对信号是由内容组成还是由噪声组成的先知，图7的响度控制系统700能够做出改进的决策，来针对期望的内容以快的速度增加增益水平，而针对不期望的噪声(如果存在的话)以明显更慢的速度增加增益水平。

在一种实施方式中，可以通过在时间平滑模块710中，基于从噪声检测模块720接收到的内容对噪声分类class[m]，动态修改消逝平滑因子值α_release，来实施噪声有关的增益水平。

当噪声检测模块720以高信任度检测到信号为期望的内容时，α_release[m]值可以被设置成预定的值α_release,def，其对应于增益水平增加的默认速度。当以高信任度检测到信号为不期望的噪声时，α_release[m]值可以被设置成0，以有效允许不发生增益水平增加。此外，如果使用噪声检测的“软”分类，则不太确信的噪声检测可以与噪声检测信任度成比例地减慢增益水平的增加。例如，使用在范围[0,1]上的软分类，class[m]＝0.5的噪声分类结果可以指示信号为内容的50％的信任度，以及信号为噪声的50％的信任度。在这种情况下，α_release[m]值可以被设置成介于默认值与0之间的内插值，因此通过中间数量约束增益水平被允许增加的速度：

α_release[m]＝α_release,def·class[m] 等式35

针对不期望的噪声不允许增益水平的增加可对保存输入信号x[n]的SNR起作用。例如，在内容到噪声转变期间，其中，噪声水平低于内容水平，响度控制系统700可以向内容音段和噪声音段两者应用相等的增益水平，因为该增益水平被阻止噪声信号的增加。因此，在输入信号中存在的相对的内容和噪声水平将保持在输出信号中。

SNR的保持不是用内容对噪声分类能够实现的唯一增强。通过在检测到噪声信号时应用相对衰减，其他增强(例如，噪声抑制)也能够在响度控制的环境中实现。

根据另一实施方式，响度下降检测系统或方法可以用于在响度控制系统中动态修改增益校正速度，例如，图2的响度控制系统200。

响度控制系统200的设计目标可以是在保持原始信号动态的同时对长期响度水平标准化。然而，控制由于内容间转变引起的大的响度下降、而不负面地限制内容内动态会是有挑战性的。为了在大的长期响度下降之后快速恢复，时间平滑模块210的消逝平滑因子α_release可以使用足够快的时间常数来计算。然而，为了保持短期信号动态，消逝平滑因子α_release可以使用足够慢的时间常数来计算。为了解决这些相反的目标，响度下降检测模块可以包括在响度控制系统200中，来以动态且与信号有关的方式修改消逝平滑因子α_release。

根据一种实施方式，响度下降检测系统可以鲁棒地检测大的长期响度下降，同时避免在由于短期信号动态引起的响度浮动期间进行检测。图8示出了根据一种实施方式的响度下降检测系统800的框图。图8中的响度下降检测系统800可以接收音频信号x_c[n]，并且可以输出时变响度下降检测估计drop[m]，由m索引，以使drop[m]指示是否已经发生明显的响度水平下降。响度下降检测估计drop[m]可以例如被定义在范围[0,1]上，其中，0指示没有响度下降，1指示刚刚发生了大的响度下降，以及二者之间的值是更小或更平稳的响度下降的指示符。然而，可以使用其他响度检测值。

响度下降检测系统800可以包括以下中的任意：短期响度测量模块805、时间平滑组件810和815、减法模块820、半波整流模块825以及标准化模块830。

短期响度测量模块805可以计算短期响度估计，类似于图2中的响度控制系统200的响度测量模块205。短期响度测量模块805可以使用任意的响度测量技术，例如包括：如之前描述的ITU-R BS.1770响度测量、或RMS、或两者。计算的关于当前下采样索引m的短期响度估计可以表示为L_short,dB[m]。

时间平滑组件810和815可以向短期响度估计L_short,dB[m]应用时间平滑。时间平滑组件810和815可以例如是两个具有不同的平滑因子的指数移动平均(EMA)滤波器。时间平滑组件810和815各自可以分别使用相对慢的平滑因子α_slow和相对快的平滑因子α_fast来分别计算平滑的响度估计μ_slow[m]和μ_fast[m]：

μ_slow[m]＝μ_slow[m-1]·(1-α_slow)+L_short,dB[m]·α_slow 等式36

μ_fast[m]＝μ_fast[m-1]·(1-α_fast)+L_short,dB[m]·α_fast 等式37

平滑的响度估计μ_slow[m]和μ_fast[m]可以以不同的速度追踪响度动态。μ_slow[m]的目标可以是跟随响度估计的长期均值，而不是追踪短期动态，例如像口语单词之间的间歇。μ_slow[m]的目标可以是更快地追踪响度估计的均值，以在μ_fast[m]具有比μ_slow[m]足够低的水平时允许推断出响度下降。减法模块820可以计算平滑的响度估计μ_slow[m]和μ_fast[m]之间的差值diff[m]，以捕捉输入信号中的响度变化：

diff[m]＝μ_slow[m]-μ_fast[m] 等式38

例如，正的diff[m]值可以指示响度下降，而负值可以指示响度增加。半波整流模块825可以向差值信号diff[m]应用正半波整流，以创建指示响度下降的信号diff_rect[m]，同时不受信号中的响度增加的影响：

等式39

标准化模块830可以对整流的差值diff[m]标准化，以从dB范围转换到任何期望的检测范围，从而产生下降检测值drop[m]。例如，对于检测范围[0,1]，简单的转化、缩放和饱和可以用于标准化，如下所示：

等式40

其中，

等式41

并且其中，D_min和D_max表示响度下降阈值，所述阈值分别映射到例如为0和1的检测值。在该示例中，为1的响度下降检测值drop[m]指示已经发生大于D_max的响度下降，其可以在内容间转变期间发生，例如，转变到静音程序的响亮的电视广告。为0的值指示没有下降，其例如对于整个一段内容是普遍的。0与1之间的值指示在中间水平的响度下降。

图9示出了短期响度估计L_short,dB[m](实线)、两个平滑的滤波器输出μ_slow[m](点划线)和μ_fast[m](虚线)，以及应用于由在2秒处发生的大的响度下降组成的音频信号的、图8的响度下降检测系统800的响度下降检测信号drop[m](下面的绘图)。注意的是，短期响度估计L_short,dB[m](实线)在2秒时几乎瞬间从大约-10dB下降到-30dB，以及时间平滑的滤波器输出μ_fast[m](虚线)比时间平滑的滤波器输出μ_slow[m](点划线)更快地达到-30dB。在下面的绘图中的响度下降检测信号drop[m]指示在2秒处开始响度下降，并且在大约2.5秒处达到峰值，这指示已经发生大的响度下降。平滑因子α_slow和α_fast被相互选择为是相对快的，其直接控制响度下降检测能够发生的速度。

图9的示例示出了响度下降检测系统(例如，图8的系统800)经由α_slow和α_fast的相对快速的值来快速识别响度中的大的下降。然而，以这些相同的相互快速的平滑因子，针对高度动态的信号(例如，对话)，检测性能会是次佳的，并且可以生成频繁的错误检测，其中，自然的信号浮动被错误地检测为响度下降。

类似于图9，图10A-图10D各自示出了短期响度估计L_short,dB[m](实线)、两个平滑的滤波器输出μ_slow[m](点划线)和μ_fast[m](虚线)，以及在响度下降检测系统(例如，图8的响度下降检测系统800)中针对α_slow和α_fast的不同的平滑因子选择的响度下降检测信号drop[m](下面的绘图)。来自图9的由在2秒处发生的响度下降组成的音频信号再次用于图10A和图10C中，其中，图10A示出了使用相互快速的平滑因子α_slow和α_fast的结果，以及图10C示出了使用相互慢速的平滑因子α_slow和α_fast的结果。对于图10A和图10C中示出的音频信号，期望的是，响度下降检测系统尽可能快地检测出响度下降。在图10B和图10D中使用动态演讲的音段，其中，图10B示出了使用相互快速的平滑因子α_slow和α_fast的结果，以及图10D示出了使用相互慢速的平滑因子α_slow和α_fast的结果。注意的是，作为内容的动态演讲信号中的短期响度水平L_short,dB[m]的大的浮动由大约处于-10dB的响亮的口语单词序列组成，其由大约处于-40dB的更为安静的外界环境分开。由于动态演讲信号不包括任何长期响度下降，理想的响度下降检测系统将不检测任何响度下降。

图10A中的下降检测信号drop[m]示出了针对包括大的长期响度下降的信号，相互快速的平滑因子使得图8的响度下降检测系统800能够在大约2.5秒处快速且准确地检测出响度下降。然而，图10B中的下降检测信号drop[m]示出了针对高度动态的信号，相互快速的平滑因子促使响度下降检测系统不准确地报告多个局部检测，因为μ_fast[m]反应太快，并追踪演讲中的词语之间的间歇。

如之前描述的，相互慢速的平滑因子对于高度动态的信号而言不是最优的，因为存在较高的错误的响度下降检测的可能性。图10C和图10D示出了使用相互较慢的平滑因子的结果。图10C中的响度下降检测信号drop[m]示出了对于包括大的长期响度下降的信号，相互慢速的平滑因子可以促使图8的响度下降检测系统800不完全检测响度下降，直到大约4秒，这与在使用相互快速的平滑因子时的2.5秒完全不同。图10D中的响度下降检测信号drop[m]示出了针对高度动态的信号，相互慢速的平滑因子使得响度下降检测系统能够准确地报告没有长期响度下降。

应当注意的是，在使用相互慢速的平滑因子的图10C和图10D中的示例中，平滑因子α_fast被唯一地修改，以使起音速度保持相对快速，并且只有消逝速度是慢速的；针对平滑因子α_slow，起音速度和消逝速度两者都是同等慢速的。允许针对α_fast的独立的快速起音速度和慢速消逝速度可以促使平滑的结果μ_fast[m]朝向响度估计的峰值偏置，导致μ_fast[m]通常保持大于μ_slow[m]。该修改可以改进针对高度动态的内容的错误的响度下降检测速率。

以上分析建议在响度下降检测系统的平滑因子速度的调谐中存在折衷。对响度下降检测系统的改进可以通过以下方式来实现：动态修改平滑因子速度，以使它们在高度动态的内容期间是慢速的(例如，在图10D中)以限制错误的响度下降检测，以及在较低动态的内容期间是快速的以更快速地检测响度下降(例如，在图10A中)。下面描述动态修改平滑因子的响度下降检测系统的示例。

动态平滑因子可以被合并到图8的系统800中，以改进响度下降检测性能。图11示出了根据一种实施方式的具有动态平滑因子的响度下降检测系统1100的框图。具体地，图11示出了将标准差模块1135集成到响度下降检测系统1100中。标准差模块1135可以提供信号动态的估计，以使时间平滑组件1110和1115可以以与信号有关的方式动态修改α_slow和α_fast平滑因子。响度下降检测系统1100还可以包括响度测量模块1105、减法模块1120、半波整流模块1125以及标准化模块1130。

响度下降检测系统1100可以接收音频信号x[n]，并且可以输出时变响度下降检测估计drop[m]，由m索引，以使drop[m]指示是否已经发生明显的响度水平下降。响度下降检测估计可以例如被定义在范围[0,1]上，其中，0指示没有响度下降，1指示刚刚发生了大的响度下降，并且二者之间的值是更小或更平稳的响度下降的指示符。然而，可以使用其他下降检测值。响度测量模块1105、时间平滑组件1110和1115、减法模块1120、半波整流模块1125和标准化模块1130可以以与参考在图8中描述的响度测量模块805、时间平滑组件810和815、减法模块820、半波整流模块825和标准化模块830描述的相似的方式运行。

如之前描述的，平滑的响度估计μ_slow[m]和μ_fast[m]的相对行为会影响检测到的响度下降的频率和程度。因此，平滑因子α_slow和α_fast的合适的值可以用于在不同的输入信号类型之中获得合适的性能。

可以借由标准差模块1135、通过计算短期响度估计的修改的标准差测量来估计信号动态。响度均值可以通过对短期响度估计L_short,dB[m]进行时间平滑来估计。针对等式42可以是唯一的平滑因子α_L可以被选择，以使μ_L[m]接近期望的均值窗口长度：

μ_L[m]＝μ_L[m-1]·(1-α_L)+L_short,dB[m]·α_L 等式42

可以取短期响度估计与其估计的均值之间的差值：

d[m]＝L_short,dB[m]-μ_L[m] 等式43

该差值可以被正半波整流及平方：

等式44

半波整流可以不是通用的标准差测量的一部分；然而，其可用于区分响度下降与响度增加。差值信号d[m]在响度下降期间可以是负的，因此，通过应用正半波整流，所得出的平方差值可以仅基于响度增加。通过在该计算中有效地移除响度下降，具有低水平的短期动态和可能的大的长期响度下降(例如，在图10A和图10C中看到的响度下降)的信号可以导致低的平方差值d_rect[m]，而具有高水平的短期动态的信号(例如，在图10B和图10D中看到的信号)可以导致高的平方差值d_rect[m]。

整流及平方后的差值d_rect[m]可以采用平滑因子α_std进行时间平滑，并且该差值d_rect[m]对于等式45而言可以是唯一的，以及可以取平方根来产生对短期响度估计的标准差的估计σ[m]：

等式45

估计的标准差σ[m]之后可以使用例如上面针对drop[m]的计算所描述的转化、缩放和饱和之类的方法来被标准化，例如，被标准化到范围[0,1]。

在一个示例中，所得到的标准化的标准差σ_norm[m]可以用于在时间平滑组件1110和1115中分别对平滑因子α_slow[m]和α_fast[m]进行动态调制。例如，平滑因子α_slow[m]和α_fast[m]可以在两个预定的平滑因子速度(最小速度和最大速度)之间线性内插。如之前描述的，期望的是，α_slow[m]平滑因子具有相等的起音速度和消逝速度，因此α_slow[m]平滑因子可以在最小速度与最大速度之间简单地线性内插：

α_slow[m]＝α_slow,max·(1-σ_norm[m])+α_slow,min·σ_norm[m] 等式46

其中，α_slow,max＞α_slow,min，或者换句话说，α_slow,max比α_slow,min更快。当标准差测量为高时，例如，当σ_norm[m]＝1时，α_slow[m]可以被设置成慢值α_slow,min。当标准差测量为低时，例如，当σ_norm[m]＝0时，α_slow[m]可以被设置成快值α_slow,max。当标准差测量为二者之间的某个值时，例如，当0＜σ_norm[m]＜1时，α_slow[m]可以在最小速度与最大速度之间线性内插。

如之前描述的，在α_fast[m]平滑因子的起音速度和消逝速度被独立地计算，以使起音因子保持快速，而消逝因子基于标准化的标准差来在最小速度与最大速度之间线性内插时，性能可以被改善：

等式47

其中，α_fast,max和α_fast,min是预定的平滑因子，并且α_fast,max＞α_fast,min，或者换句话说，α_fast,max比α_fast,min更快。

图12A和图12B示出了应用这些动态平滑因子修改的示例结果。类似于图9和图10A-图10D，图12A和图12B示出了短期响度估计L_short,dB[m](实线)、两个平滑的滤波器输出μ_slow[m](点划线)和μ_fast[m](虚线)，以及响度下降检测系统(例如，图11的响度下降检测系统1100)的响度下降检测信号drop[m](下面的绘图)。图12A中的响度下降检测信号drop[m]示出了准确的检测发生在真实的响度下降的0.5秒内。图12B中的响度下降检测信号drop[m]示出了在短期信号动态期间没有错误的检测。图12A和图12B示出了可通过使用与信号有关的动态平滑因子来实现优于在图10A-图10D中看到的静态平滑因子的改善。

图8的响度下降检测系统800和图11的响度下降检测系统1100可以被集成到响度控制系统中，例如，图2中示出的响度控制系统200。图13示出了响度控制系统1300的高级框图，该响度控制系统1300具有响度下降检测模块1325(例如，在图8中描述的响度下降检测系统800或在图11中描述的响度下降检测系统1100)。

响度控制系统1300可以包括响度测量模块1305、响度下降检测模块1325、时间平滑模块1310和增益校正模块1315。响度测量模块1305和增益校正模块1315可以以与参考在图2中描述的响度测量模块205和增益校正模块215所描述的相似的方式运行。

如参考图2的响度控制系统200所描述的，时间平滑模块1310可以被配置有独立的“起音”和“消逝”平滑因子。消逝平滑因子α_release可以控制响度控制被允许增加其增益水平的速度。快的α_release值可以允许响度控制快速增加增益水平，而慢的α_release值可以约束增益水平被允许增加的速度。

简单的响度控制系统可以将α_release平滑因子设置成与信号无关的预定的值，该值被选择以平衡内容间动态和内容内动态，折衷于最优性能。通过集成响度下降检测，响度控制系统能够动态修改α_release[m]平滑因子，以使内容间动态和内容内动态被合适地解决。在响度下降检测缺乏期间，例如，在drop[m]＝0时，α_release[m]可以被设置成预定的默认值α_release,def，该默认值维持内容内动态。当检测到响度下降时，例如，当drop[m]＝1时，该值可以被加速到预定值α_release,max，该预定值允许在内容间转变期间增益水平的快速增加。在局部下降检测期间，例如，当0＜drop[m]＜1时，α_release[m]值可以在极值之间线性内插：

α_release[m]＝α_release,def·(1-drop[m])+α_release,max·drop[m] 等式48

响度中较大的下降(具有较高的响度下降检测值)相比于较小的下降可导致更快的增益恢复。这可通过缩短斜坡的持续时间来有助于缓和显著的“斜坡”伪像。

从响度下降中恢复还可以通过在固定的时间量中从宽范围的响度下降中恢复来实现。例如，期望的是，从响度下降中恢复发生在3秒内，而不管响度下降的程度。使用对响度下降的估计，可以计算出合适的α_release[m]平滑因子，该平滑因子将确保在该时间量内恢复，与响度下降的程度无关。

根据另一实施方式，两个噪声检测系统(例如，图3的系统300或图5的系统500)以及响度下降检测系统(例如，图8的系统800或图11的系统1100)可以被集成到响度控制系统中(例如，图2的系统200)。图14示出了根据一种实施方式的具有噪声检测和响度下降检测的响度控制系统1400的框图。

响度控制系统1400可以包括响度测量模块1405、噪声检测模块1420、响度下降检测模块1425、时间平滑模块1410和增益校正模块1415。响度测量模块1405和增益校正模块1415可以以与参考图2中描述的响度测量模块205和增益校正模块215所描述的相类似的方式运行。噪声检测模块1420可以以与参考图3中描述的频率噪声检测系统300或图5中描述的系统500所描述的相类似的方式运行。响度下降检测模块1425可以以与参考图8中描述的响度下降检测系统800或图11中描述的响度下降检测系统1100所描述的相类似的方式运行。

时间平滑模块1410可以以与参考图7中描述的时间平滑模块710或图13中描述的时间平滑模块1310所描述的相类似的方式运行。时间平滑模块1410可以接收内容对噪声分类值，其可以减慢平滑因子，如在图7的讨论中描述的，并且还可以接收响度下降检测值，其可以增加平滑因子的速度，如在图13的讨论中描述的。关于是基于内容对噪声分类来减慢平滑因子、或是基于响度下降检测来增加平滑因子的速度、或是借由二者的组合来计算新的速度的决策是涉及多种折衷的决策，并且可以是应用特定的。在一种实施方式中，在时间平滑模块1410中的消逝平滑因子α_release[m]可以借由对来自等式35和等式48的结果进行平均、通过内容对噪声分类值与响度下降检测值的线性组合来被动态修改，如下所示：

等式49

尽管以特定的组合在上面描述了特征和元素，但是本领域的普通技术人员应当理解的是，每个特征或元素能够被单独使用，或者以与其他特征和元素进行任意组合的方式来使用。这里描述的特征和元素中的任意一者可以被实施为独立的模块，或者特征的任意集合或子集可以被组合，并且在常用的可编程模块上实施。

此外，这里描述的系统和方法可以在引入到计算机可读介质中并供计算机或处理器运行的硬件、计算机程序、软件或固件中实施。计算机可读媒介的示例包括电信号(通过有线或无线连接传送)以及计算机可读存储媒介。计算机可读存储媒介的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、例如内部硬盘和可移动磁盘之类的磁介质、磁光介质、以及例如CD-ROM碟片和数字多用途碟片(DVD)之类的光介质。

Claims

1.一种响度控制系统，该响度控制系统被配置成处理音频信号，该响度控制系统包括：

响度测量模块，被配置成生成对所述音频信号的短期响度估计，其中所述音频信号包括内容和噪声；

噪声检测模块，被配置成产生所述音频信号的内容对噪声分类，该内容对噪声分类指示所述音频信号更可能是内容还是噪声；

时间平滑模块，被配置成基于所述内容对噪声分类调整至少一个平滑因子以控制增益校正模块能够增加时变增益的速度，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计；以及

所述增益校正模块，被配置成基于所述长期响度估计向所述音频信号应用所述时变增益。

2.根据权利要求1所述的响度控制系统，其中：

所述噪声检测模块被配置成使用频域噪声检测来产生所述内容对噪声分类。

3.根据权利要求1所述的响度控制系统，其中：

所述噪声检测模块被配置成使用时域噪声检测来产生所述内容对噪声分类。

4.根据权利要求1所述的响度控制系统，其中：

所述至少一个平滑因子包括消逝平滑因子。

5.根据权利要求1所述的响度控制系统，该响度控制系统还包括：

响度下降检测模块，被配置成生成响度下降检测值；

其中，所述时间平滑模块还被配置成基于所述响度下降检测值调整所述至少一个平滑因子。

6.一种响度控制系统，该响度控制系统被配置成处理音频信号，该响度控制系统包括：

响度下降检测模块，被配置成部分地基于对所述音频信号的所述短期响度估计的慢速平滑响度估计和对所述音频信号的所述短期响度估计的快速平滑响度估计，生成响度下降检测值；

时间平滑模块，被配置成基于所述响度下降检测值调整至少一个平滑因子以控制增益校正模块能够增加时变增益的速度，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计；以及

7.根据权利要求6所述的响度控制系统，其中：

所述至少一个平滑因子包括消逝平滑因子。

8.根据权利要求6所述的响度控制系统，该响度控制系统还包括：

噪声检测模块，被配置成产生所述音频信号的内容对噪声分类；其中，所述时间平滑模块还被配置成基于所述内容对噪声分类调整所述至少一个平滑因子。

9.一种由响度控制系统执行的用于处理音频信号的方法，该方法包括：

生成对所述音频信号的短期响度估计，其中所述音频信号包括内容和噪声；

产生所述音频信号的内容对噪声分类，该内容对噪声分类指示所述音频信号更可能是内容还是噪声；

基于所述内容对噪声分类调整至少一个平滑因子以控制增益校正模块能够增加时变增益的速度，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计；以及

基于所述长期响度估计向所述音频信号应用所述时变增益。

10.根据权利要求9所述的方法，其中：

使用频域噪声检测来产生所述内容对噪声分类。

11.根据权利要求9所述的方法，其中：

使用时域噪声检测来产生所述内容对噪声分类。

12.根据权利要求9所述的方法，其中：

所述至少一个平滑因子包括消逝平滑因子。

13.根据权利要求9所述的方法，该方法还包括：

生成响度下降检测值；以及

基于所述响度下降检测值调整所述至少一个平滑因子。

14.一种由响度控制系统执行的用于处理音频信号的方法，该方法包括：

部分地基于对所述音频信号的所述短期响度估计的慢速平滑响度估计和对所述音频信号的所述短期响度估计的快速平滑响度估计，生成响度下降检测值；

基于所述响度下降检测值调整至少一个平滑因子以控制增益校正模块能够增加时变增益的速度，并使用所述至少一个平滑因子、基于所述短期响度估计生成对所述音频信号的长期响度估计；以及

基于所述长期响度估计向所述音频信号应用所述时变增益。

15.根据权利要求14所述的方法，其中：

所述至少一个平滑因子包括消逝平滑因子。

16.根据权利要求14所述的方法，该方法还包括：

产生所述音频信号的内容对噪声分类；以及

基于所述内容对噪声分类调整所述至少一个平滑因子。