CN103580630A

CN103580630A - 自动响度控制

Info

Publication number: CN103580630A
Application number: CN201310288189.4A
Authority: CN
Inventors: M.克里斯托夫
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2012-08-01
Filing date: 2013-07-10
Publication date: 2014-02-12
Anticipated expiration: 2033-07-10
Also published as: CN103580630B; EP2693637A1; CN108768330B; CN108768330A

Abstract

一种改进的自动响度控制系统和方法包括：控制施加至输入音频信号的增益/衰减，并且提供输出音频信号，所述输出音频信号是经过放大/衰减的输入音频信号；从所述输入音频信号来评估所述输入音频信号的实际响度，并且从音量控制输入来评估所述输入音频信号的所需响度；以及，从所述输入音频信号的所述实际响度和所述所需响度来评估施加至所述输入音频信号的所述增益/衰减。

Description

自动响度控制

技术领域

本文所公开的系统和方法涉及一种自动响度控制系统和方法，特别是用于音频复制系统。

背景技术

任何类型的音频内容都可以作为音频信号存储在各种大容量存储介质上，如CD、DVD、半导体存储器、硬盘或类似存储介质。高效音频信号压缩方法(如MP3)甚至允许存储更多音频内容(例如，并且不限于相对较小存储介质上的多个不同流派和艺术家的音乐)。不同内容可以组合成播放列表。广播也可以是变化音频内容的来源，包括音乐与语音、无线广播节目以及广告等。各种内容可以单独地或彼此组合地为音频信号提供强烈的变化信号电平以及信号动态，这些信号电平和信号动态由收听者按照不同响度级进行感知。然而，过大响度级、高动态等通常被认为是令人不愉快的或甚至讨厌的。常见的自动响度控制系统和方法意在平衡这类响度波动，但是，要么不够有效，要么使音频内容变坏。为了解决这些和其它关注的问题，一种改进的自动响度控制(ALC)系统和方法将是有帮助的。

发明内容

一种改进的自动响度控制系统包括可控制增益/衰减单元，所述可控制增益/衰减单元具有增益/衰减控制输入、音频信号输入、音频信号输出，并且其在音频信号输出和音频信号输入之间的增益/衰减由所述增益/衰减控制输入信号加以控制。增益/衰减评估单元连接至所述可控制增益/衰减单元的所述增益/衰减控制输入，并且具有实际响度输入和所需响度输入。实际响度评估单元连接至所述可控制增益/衰减单元的所述音频信号输入之间，并且向所述增益/衰减评估单元提供所述实际响度输入。所需响度评估单元连接至所述增益/衰减评估单元的所述所需响度输入，并且具有音量控制输入。所述增益/衰减评估单元被配置来取决于供应至所述所需响度评估单元的所述音量控制输入和所述可控制增益/衰减单元的所述音频信号输入的信号，来控制所述可控制增益/衰减单元。

一种改进的自动响度控制方法包括：控制施加至输入音频信号上的增益/衰减，并且提供输出音频信号，所述输出音频信号是经过放大/衰减的输入音频信号；从所述输入音频信号来评估所述输入音频信号的实际响度，并且从音量控制输入来评估所述输入音频信号的所需响度；以及，从所述输入音频信号的所述实际响度和所述所需响度来评估施加至所述输入音频信号上的所述增益/衰减。

附图说明

下文将基于附图图式中所示的示例性实施方案，更加详细地描述各种具体实施方案。除非另有说明，类似或相同部件在所有图式中都使用相同参考数字来标记。

图1为示出响度与响度级之间关系的图表。

图2为示出人耳频率等响度级线的图表。

图3为示出具有频率独立增益/衰减控制的示例性自动响度控制系统的方框图。

图4为示出具有频率独立增益/衰减控制的另一个示例性自动响度控制系统的方框图。

图5为示出具有频率依赖增益/衰减控制的示例性自动响度控制系统的方框图。

图6为示出具有频率依赖增益/衰减控制的另一个示例性自动响度控制系统的方框图，其中所述频率依赖增益/衰减控制涉及合成的背景噪声。

图7为示出在各种车辆速度下车辆内部背景噪声典型特性的图表。

图8为示出具有频率依赖动态增益/衰减控制的示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制利用心理声学模型(PAM)来计算输入信号的频谱响度。

图9为示出具有频率依赖动态增益/衰减控制的另一个示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制涉及合成的背景噪声，以便定义由音量设置来控制的响度所需频谱轨迹。

图10为示出具有频率依赖动态增益/衰减控制的又一个示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制涉及由音量设置来控制的、所所需的合成背景噪声的频谱响度曲线。

图11为示出用于在改进的ALC系统中实施所需响度曲线的示例性心理声学建模单元的方框图。

图12为示出具有频率依赖动态增益/衰减控制的示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制涉及声学拾取背景噪声。

图13为示出具有频率依赖动态增益/衰减控制的另一个示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制涉及声学拾取背景噪声。

图14为示出具有频率依赖动态增益/衰减控制的又一个示例性自动响度控制系统的方框图，其中所述频率依赖动态增益/衰减控制涉及声学拾取背景噪声。

图15为示出不同有色噪声的频率特性的方框图。

具体实施方式

根据美国国家标准学会1973年的“美国国家心理声学术语”S3.20(美国标准协会)，“响度”被定义为“声音根据其可以被排序在从安静延伸至大声的尺度上的听觉属性”。换句话说，响度为声音的品质，声音首先是物理强度(幅值)的心理关联。响度的感知是关于声压级与声音持续时间两者。人类听觉系统对600至1000ms窗口上的声压级(SPL)的效应进行整合(求平均值)。例如，随着20、50、100、200ms样本进行播放，具有恒定SPL的声音将在响度上会被感知到增加，最大约达到1秒，在此点上响度的感知将会稳定。对大于1s的较长持续声音而言，响度的瞬间感知将基于对前面600至1000ms的整合。

就声音长于1秒情况下的SPL和响度之间的关系而言，这可以通过针对声压或声强绘制的幂函数进行估计(斯蒂文斯(Stevens)定律)。随后得出更精确的测量结果，这些测量结果表明响度在低级和高级处增长较快(具有较高指数)，而在中级处增长较慢(具有较低指数)。

用来测量响度的单位为宋(响度N)和方(响度级L)。退出均匀噪声信号的宋和方之间的关系在图1中进行了描绘。均匀退出噪声意在表示平均的音频信号。窄带信号，特别是周期信号，呈现不同的关系。

人耳的敏感度作为频率的函数而改变，如图2的图表中所示。这个图表上的每条线都展示感知为同样响亮的频率所需的SPL，其中实线描绘来自ISO226:2003修订版的等响度线，并且标有“o”的线描绘40方的原始ISO标准。所述图表示出人对2至4kHz的声音最敏感，而敏感度在这个区域的任一侧都下降。响度感知的完整模型将包括通过每个声音的频率和持续时间对SPL进行整合。

当两个声音被同时听到时，可能的是一个声音“掩蔽”另一个声音，这意味着收听者仅听见这两个声音中较响亮的声音。这称为同时掩蔽或听觉掩蔽。同时掩蔽仅发生在一个声音几乎完全覆盖另一个声音的时频分布时。较响亮的信号可以称为“掩蔽信号”，而较安静的信号可以称为“被掩蔽信号”。如果在每个频率中，掩蔽信号加上信号的响度和掩蔽信号单独的响度之间的差低于约1dB的响度恰可察觉差(JND)，那么发生同时掩蔽。

当突然的刺激声音使得刚在刺激声音之前或之后出现的其它声音不可听见时，临时掩蔽(也称为“非同时掩蔽”)便会发生。遮掩刚在掩蔽信号之前的声音的掩蔽称为向后掩蔽或预先掩蔽，并且遮掩刚在掩蔽信号之后的声音的掩蔽称为向前掩蔽或滞后掩蔽。临时掩蔽的有效性从掩蔽信号的开始和结束以指数形式衰减，其中开始衰减持续约20ms，并且结束衰减持续约100ms。类似于同时掩蔽，临时掩蔽揭示由听觉系统执行的频率分析。当具有类似频率的两个音调一起播放时，其组合响度为其强度和的立方根。当频率比一个临界频带离得还远时，这些频率的响度级反而相加在一起。

现在参照图3，所示的是一种连接至音频信号源1与扬声器2之间的示例性自动响度控制系统。所述系统包括可控制增益/衰减单元3，例如具有可控制增益的放大器或衰减器，或允许视具体情况而定来控制增益和衰减两者的倍增器。音频源1产生输入音频信号x[k]，所述输入音频信号被供应至如响度建模单元4的心理声学建模(PAM)单元，并且供应至可控制增益/衰减单元3的音频信号输入。响度建模单元4利用电信号(例如数字信号)，并且基于(数字)心理声学掩蔽模型，来复制人耳的声学掩蔽行为或其选定的掩蔽效应。

响度建模单元4将表示这个输入音频信号x[k]的所计算(宽带)响度(级)曲线的响度信号Loud_Sig[k]供应至响度级计算单元5，所述响度级计算单元会计算输入音频信号x[k]的响度级信号LoudLev_Sig[k]，即其实际响度级。所需响度级由音量至响度级转换单元6作为所需响度级信号LoudLev_Des[Vol]加以提供。音量至响度级转换单元6可以(例如)采用查找表或计算方案来进行转换。所需响度级可以通过音量控制元件(未展示)，例如控制轮、电位计、键盘、触摸屏等来选择，所述音量控制元件向音量至响度级转换单元6提供音量(Vol)设置(或信号)。

实际和所需响度级，即响度信号LoudLev_Sig[k]和LoudLev_Des[Vol]被馈送至增益/衰减计算单元7，所述增益/衰减计算单元产生增益/衰减控制信号G[k]，用所述增益/衰减控制信号来控制增益/衰减单元3，这样使得输入音频信号x[k]由增益/衰减单元3进行放大/衰减，进而将输出音频信号out[k]提供至扬声器2。相应地，施加至输入音频信号的增益/衰减得到控制，并且经过放大/衰减的输入音频信号作为输出音频信号out(k)而提供。从输入音频信号来确定(例如，计算)输入音频信号的实际响度，并且从音量控制输入来确定(例如，计算)输入音频信号的所需响度。从输入音频信号的实际响度和所需响度来确定有待施加至输入音频信号的增益/衰减。

在图4中，所示的是一种从音量(Vol)来产生所需响度级信号LoudLev_Des[Vol]的替代方式。将Vol设置供应到音量至响度级转换单元8，进而从其提供音量级信号VolLev[Vol]。音量至响度级转换单元8可以采用表示如图1所示响度N与响度级L之间关系的一张表或数学方程式，其中音量(Vol)对应于响度N，并且音量级VolLev[Vol]对应于响度N。将音量级VolLev[Vol]供应至等响度单元9，所述等响度单元提供表示所需宽带响度的所需响度信号Loud_Des[Vol]。等响度单元9可以通过表、数学算法、软件模型等，来采用感知上为等响度级的曲线(也称为等响度曲线或等响度级线)，如图2的图表中所示的。所需响度，即所需响度信号Loud_Des[Vol]，接着由响度级计算单元10转译成供应至增益/衰减计算单元7的所需响度级信号LoudLev_Des[Vol]。

图3和图4的系统完全足够用于以下所有应用：响度的频谱方面为不太重要的或不占优势的，例如具有单音调或均匀的音频信号。然而，在音频信号的频谱分布是重要的所有情况下，就频谱行为而言更精密的系统是有利的。

参照图5，其基于图4的系统。图4的系统具有：频率依赖可控制增益/衰减单元，例如，替代频率独立增益/衰减单元3的可控制均衡(EQ)单元11；以及替代增益/衰减计算单元7的滤波器系数计算单元12。可以除去响度级计算单元5和响度级计算单元10，这样使得响度级建模单元4和等响度单元9直接连接至可控制均衡单元11，以便将实际响度信号Loud_Sig[k]和所需响度信号Loud_Des[Vol]供应至可控制均衡单元11。可控制均衡单元11为输入音频信号x[k]提供频率依赖增益/衰减。

在可控制均衡单元11中存在几种方式来实施均衡功能性。例如，频域中的快速卷积，可以和处于时域中的输入音频信号x[k]的快速傅里叶变换(FFT)及处于频域中的处理后信号音频信号x[k]的快速傅里叶逆变换，结合使用，这样使得输出音频信号out[k]处于时域中。另一个选择是用(受约束的)有限冲激响应滤波器(FIR)来处理时域中的输入音频信号x[k]。第一个选择需要更大存储器但较少的计算时间，而第二个选择需要更小存储器但更多的计算时间。均衡的其他可应用方式可以包括预测器或预测误差滤波器，所述预测器或预测误差滤波器的系数可以由线性预测编码(LPC)分析使用梯度自适应格型(GAL)或莱文森-德宾(Levinson-Durbin)递归算法来确定。

自动响度控制系统和方法(特别在汽车应用中)的缺点是背景噪声。收听者应该可以感知(例如)在车辆中由扬声器2辐射的声学音频信号，这意味着其超过目前存在的噪声，但总体音频信号电平应该不超过某个电平，以便仍被感知为令人愉悦的。

参照图6，为了解决背景噪声问题，向图5的系统中增添噪声合成器单元13，所述噪声合成器单元采用噪声合成模型，并且评估对应于背景噪声的至少一个(非声学的)噪声相关信号nrs[k]，如表示车辆速度或车辆发动机每分钟转数(rpm)的信号。举例而言，由发动机产生并且主要取决于发动机rpm的噪声，和/或由车轮或风产生并且主要取决于车辆速度的噪声，可能最大程度地导致了车辆内部的背景噪声。噪声合成器单元13在所评估的这个或这些噪声相关信号nrs[k]的基础上，产生类似于或甚至与车辆内部背景噪声相同的声音，并且将作为背景噪声信号b[k]的这个合成(例如“经过估算的”)噪声作为第二输入供应至响度建模单元4，所述响度建模单元接着产生输入音频信号x[k]与背景噪声信号b[k]两者的实际响度信号Loud_Sig[k]和Loud_Noise[k]，并且将这些实际响度信号供应至滤波器系数计算单元12。滤波器系数计算单元12控制可控制均衡单元11的滤波器系数，所述可控制均衡单元基于实际响度信号Loud_Sig[k]与Loud_Noise[k]，来为输入音频信号x[k]提供频率依赖增益/衰减。计算可以包括将信号Loud_Des[Vol]与Loud_Noise[k]的最大值彼此进行比较，进而形成新的参考值(而不仅仅是Loud_Des[Vol])，实际响度信号Loud_Sig[k]与这个新的参考值进行比较。新参考值和实际响度信号Loud_Sig[k]之间的差指示系数必须被改变多少来达到所需响度。

代替基于表示信号的噪声的估算，背景噪声特征曲线，即针对各种车辆速度、rpm、其它因素)的实际背景噪声特性可以用于评估车辆内部存在的背景噪声。图7描绘了各种车辆速度下车辆内部中的背景噪声的(例如，一次测量并且存储的)此类特性，如频率f(单位：Hz)下的噪声SPL(单位：dB)。正如图中所看到的，每个速度下的振幅对频率的分布呈现类似形状，然而每个频率的级则取决于车辆速度而切换—速度越高，级越高。通过此类背景噪声特征曲线和确定车辆速度的传感器，可以轻松地合成背景噪声。

图8示出一个改进的ALC系统，其中信号主要在频域中处理。在图8的系统中，音频信号源1将处于时域中的输入音频信号x[k]供应至快速傅里叶变换(FFT)单元15，所述快速傅里叶变换(FFT)单元将输入音频信号变换成频域中的输入音频信号X(ω)。输入音频信号X(ω)被供应至如心理声学增益整形单元14的心理声学模型(PAM)单元，并且供应至倍增器16，所述倍增器还从心理声学增益整形单元14接收表示频谱增益因数的信号G(ω)并且产生频谱输出音频信号OUT(ω)，所述频谱输出音频信号被馈送至快速傅里叶逆变换(IFFT)单元17，在所述快速傅里叶逆变换(IFFT)单元17中，频谱输出音频信号被变换成时域中的输出音频信号out[k]。估算的噪声频谱N_S(ω)由另一个快速傅里叶变换(FFT)单元18供应至心理声学增益整形单元14，所述快速傅里叶变换(FFT)单元18将噪声信号n_s[k]从时域变换成频域中的估算噪声频谱N_S(ω)。估算的噪声信号n_s[k]是背景噪声发生器/合成器20的放大/衰减输出信号。取决于音量(Vol)设置，可控制增益/衰减单元19将增益/衰减施加至输入音频信号x[k]，所述输入音频信号x[k]可以通过心理声学模型(PAM)变换成所所需的宽带响度函数。

线性预测编码(LPC)可以用作一种简单有效的方法，由此借助减小的长度，在时域中转换可以应用于预测滤波器中的增益/衰减因数g。从时域至频谱域的转变，可以使用快速傅里叶变换(FFT)(或者变形的快速傅里叶变换(WFFT))来进行，其中某些频谱点(bin)可以被分成不同宽度的心理声学激励频带(例如，基于Bark尺度)。

线性预测编码(LPC)是一种用于频谱估算和合成的方法。在语音编码中，LPC尝试依据滤波器系数来估算功率频谱密度(PSD)，这些滤波器系数是合成施加至激发源的相应声音所需要的，激发源可以是其上所有谐波均为等振幅的噪声或者限带脉冲波。在当前情况下的合成应用中，可以(在频域与时域两者上)修改激发波形和滤波器系数两者，以便产生原始声音的相关变体。

当计算频率依赖增益因数G(ω)时，输入音频信号X(ω)的频谱可以与所估算的噪声频谱N_S(ω)一起使用。如此一来，除耳朵特性的详细复制之外，还可以考虑掩蔽效应。人耳有区别的频率分辨率性质可以早在从时间范围转变至频谱范围—(例如)使用心理声学激励滤波器组或WFFT期间加以考虑，但这不是强制性的。也可以使用常规FFT，并且谱线接着在心理声学激励组以及用于子带自适应滤波器的可变抽头外形中处理。

输入音频信号x[k]的均衡可以在频域中使用快速卷积实现。取决于FIR滤波器的长度或FFT(快速傅里叶变换)，这个方法可以大量地缩短计算时间。一般的经验法则是，具有约30个抽头长度的FIR滤波器，可以使用快速卷积，在比时域中具有更高计算效率的情况下加以实施。然而，快速卷积在某些环境下可能明显地增加存储器需要。这并非仅仅是与快速卷积相关的问题；就频域中每种形式的信号处理而言，它也会发生。或者FFT或变形的FFT(WFFT)，或者具有不同宽度频带的心理声学激励滤波器组，可以用于从时域至频域的转变。在此，可能已经考虑了人耳的频率分辨率特性。然而，如已叙述的，也可以使用常规FFT。在这种情况下，谱线随后可以作为频域中的组来处理，以便顾及人耳的频率分辨率特性。可适用的心理声学模型为(例如)Johnston模型或MPEG模型。

图8的修改后系统展示于图9中。在图9的系统中，噪声信号N_s(ω)的放大/衰减从时域切换至频域。因此，省略了在时域中操作的可控制增益/衰减单元19，并且在快速傅里叶变换(FFT)单元18和心理声学增益整形单元14之间增添了在频域中操作的可控制增益/衰减单元21。

图9的修改后系统展示于图10中。在图10的系统中，省略了在时域中操作的背景噪声发生器/合成器20和快速傅里叶变换(FFT)单元18，并且在可控制增益/衰减单元21的上游增添了在频域中操作的所需背景噪声合成器22。图10的系统就性能而言是高效的，并且在应用心理声学模型之前，允许任意有色噪声信号或其功率频谱密度(PSD)直接根据心理声学频谱(例如Bark尺度)来处理，并且由音量(Vol)设置直接控制。如从图10中所看到的，不需要在时域中操作的额外噪声发生器/合成器和具有(例如)Bark尺度的FFT。在图10的系统中执行均衡，正如在图8和图9的系统中通过频率依赖增益/衰减(G(ω))，根据参考信号(指定为所需噪声)和输入音频信号例如，音乐信号)的响度/掩蔽阈值之间的差来执行的一样。

代替基于非声学传感器信号来估计或估算噪声信号，即时噪声信号可以由如麦克风的声学传感器来拾取。这类麦克风可以布置于车辆内部靠近收听者的头部。在图12、图13以及图14中，描述了ALC系统，其采用声学噪声传感器和甚至更高级的心理声学建模。

参照图11，改进后的ALC系统中所使用的示例性心理声学建模单元(在频域中)可以包括两个掩蔽阈值计算单元23和24，这两个单元提供输出掩蔽阈值MaskTh_m(m)和MaskTh_n(m)。掩蔽阈值计算单元中的一个单元(23)致力于音频信号的掩蔽，另一个单元(24)致力于音量(Vol)设置(并且，视具体情况而定为噪声)相关的掩蔽。掩蔽阈值计算单元23接收声压级掩蔽阈值Th_{m_spl}(m)和表示普通人耳听见的绝对阈值的阈值T_q(m)。掩蔽阈值计算单元24接收声压级掩蔽阈值Th_{n_spl}(m)和表示等响度级曲线的阈值T_d(m)。阈值T_q(m)由(例如)存储器25提供；阈值Th_{m_spl}(m)和Th_{n_spl}(m)由接收阈值T_m(m)、T_n(m)并且必要时接收参考级P_Ref的SPL转换单元26提供；并且阈值T_d(m)由等响度单元27提供。将音量设置Vol供应到音量至响度级转换单元28，进而从其提供音量级信号V_L(m)。音量至响度级转换单元28可以采用表示如图1所示响度N与响度级L之间关系的一张表或数学方程式，其中音量Vol对应于响度N，并且音量级V_L对应于响度N。音量级V_L(m)被供应至等响度单元27。本文中，k是(离散)时间指数，ω是(离散)频率指数(仓群)，并且m是某一个频率组仓群的数量(例如，Bark中)。

如以上参照图5所描述的系统中，在图11的心理声学建模单元的部分中，音量(Vol)设置被转换成响度级V_L(m)。通过响度级V_L(m)，在等响度单元27中选择等响度级曲线中的一个曲线，由此阈值T_d(m)表示(例如)心理声学频(Bark)域中选定的曲线，就存储器消耗而言，所述曲线是更有效率的，并且在心理声学方面也是有效的。为了增大受曲线数量限制的阈值T_d(m)的分辨率，可以在两个邻近曲线之间应用插值法。

如图11所示的心理声学建模单元的部分，可以整合于类似图6、图8、图9以及图10中所示的这些ALC系统的一个ALC系统中。达到这一点的有效方法，是只在心理声学建模处理的末期，涉及等响度级的、按Bark比例缩放的曲线。由于仅需要存储24个Bark值而不是1024点FFT情况下的513个值，所以存储器要求是较小的。这个运算可以描述如下：

BarkGain(m)=MaskTh_n(m)-MaskTh_m(m) (2)

方程式(1)描述了所选定的等响度T_d(m)曲线如何能够与所测量的噪声信号T_{n_spl}(m)的掩蔽阈值相组合，其中所选定的等响度T_d(m)曲线独立于作为所需响度参考的输入音频信号x[k]而发挥作用。如图中可以看到的，两者的最大值被检测，由此在最大值检测之前，所选定的等响度T_d(m)曲线被加权以便将曲线切换至适当的操作范围。加权可以在别的地方另外或可选地执行，例如，在音量至响度级转换单元中。

方程式(2)描述了如何计算频谱增益/衰减G(ω)。如图中可以看到的，频谱增益/衰减G(ω)对应于输入音频信号(音乐信号)T_m(m)的掩蔽阈值与掩蔽阈值T_n(m)之间的差，其中掩蔽阈值T_n(m)从表示背景噪声和所需响度两者的方程式(1)中得出。根据方程式(2)计算的Bark增益(衰减)值BarkGain(m)可以为正的和负的(反之亦然)。

Bark增益(衰减)值BarkGain(m)可以基于即时音频信号或其掩蔽阈值MaskTh_m(m)，来控制音频信号的响度，并且控制其频谱(频率特性)。因此，本文呈现的ALC系统和方法能够取决于当前背景噪声的音频信号与实际响度两者，来调整音频信号的正确实际响度与正确实际心理声学频谱两者。

图11的心理声学建模单元还可以应用于图12中所示的ALC系统，在图12中所述心理声学建模单元称为心理声学整形单元29。在图12的系统中，音频信号源1将输入音频信号x[k]，例如来自CD播放器、收音机、卡式录音机或类似设备的音乐信号，供应至ALC系统，所述ALC系统在频域中进行操作并且向扬声器2提供输出音频信号out[k]。扬声器2从信号out[k]来产生声学信号，所述声学信号通过传输路径31而传输至麦克风30，所述传输路径31可以由传输函数H(z)加以描述。来自麦克风30的信号可以通过频谱语音抑制布置32、33、34以及心理声学增益整形单元29(两者均在频域中操作)，而供应至可控制频谱增益/衰减单元11，例如可控制均衡单元。

ALC系统进一步包括快速傅里叶变换(FFT)单元35，用于将信号从时域变换成频域中的信号。频谱语言抑制布置32、33、34包括连接至快速傅里叶变换(FFT)单元35下游的平均计算单元32、随后的语音活动解码器(VAD)33以及随后的最大幅值检测器34，所述最大幅值检测器34检测由VAD33供应至其的信号和从快速傅里叶变换(FFT)单元18所接收的信号的最大幅值。在平均计算单元32中，来自FFT单元35的频域信号被求平均值，并且被供应至VAD33，从而抑制来自FFT单元35的信号中的频谱语音信号分量。代替VAD，可以使用任何其它布置或方法来检测和抑制语音分量，例如最小值统计算法。

来自最大幅值检测器34的信号可以供应至心理声学增益整形单元29，所述心理声学增益整形单元从快速傅里叶变换(FFT)单元15接收信号，并且将信号传送至频谱增益/衰减单元11。增益/衰减单元11连接至快速傅里叶变换(FFT)单元15的下游，所述快速傅里叶变换(FFT)单元接收信号x[k]并且将其变换成频谱信号X(ω)。信号X(ω)被供应至频域自适应滤波器(FDAF)36、心理声学增益整形单元29并供应至增益/衰减单元11(例如倍增器)，所述增益/衰减单元还可以接收表示频谱增益/衰减因数的频谱增益/衰减信号G(ω)并且产生频谱信号OUT(ω)，所述频谱信号OUT(ω)被馈送至快速傅里叶逆变换(IFFT)单元17，在所述快速傅里叶逆变换(IFFT)单元中，频谱信号被变换成时域输出音频信号out[k]。

在频域中操作的自适应滤波器36接收时域麦克风信号d[k]，所述时域麦克风信号d[k]表示所讨论环境中的总声级，其中所述总声级包括来自扬声器2的声音输出和此环境中的周围噪声(例如，扬声器空间麦克风系统)两者。来自快速傅里叶变换(FFT)单元35的信号X(ω)可以用作自适应滤波器36的参考信号。由自适应滤波器36输出的信号Y(ω)被供应至快速傅里叶逆变换(IFFT)单元37，并且被变换成信号y[k]。在减法器38中，信号y[k]从来自麦克风30的信号中减去，并且作为信号s[k]+n[k]而供应至FFT单元35。

音量(Vol)设置被供应至心理声学增益整形单元29，并且供应至在时域中操作的增益/衰减单元19，所述增益/衰减单元19放大/衰减来自噪声发生器20的噪声信号，并且将经过放大/衰减的噪声信号n_s[k]供应至快速傅里叶变换(FFT)单元18。由快速傅里叶变换(FFT)单元18提供的信号N_s(ω)被馈送至最大幅值检测器34，所述最大幅值检测器进一步从VAD33接收信号N_-(ω)并且将信号N_～(ω)供应至心理声学增益整形单元29。VAD33被供应有来自平均计算单元32的信号S_-(ω)+N_-(ω)，所述信号S_-(ω)+N_-(ω)表示来自快速傅里叶变换(FFT)单元35的、求过平均值的信号S(ω)+N(ω)。

在图11的ALC系统中，除所测量、估算或以另外方式评估的背景噪声之外，将音频信号也输入至响度/掩蔽模型中。当可能具有任何着色和任何级的噪声被输入至响度/掩蔽模型中时，便自动计算或选择相关等响度曲线。因此，当将背景噪声与所需响度(参考)在较早时期中组合时，便无需提供多个等响度级曲线集合。

如从图12中可以看到的，噪声发生器20在时域中产生任意有色噪声信号，所述有色噪声信号在增益/衰减单元19中根据音量(Vol)设置而加权(g)，并且随后被变换至频域中，在所述频域中，有色噪声信号的PSD被确定并且与由信号N_～(ω)表示的所估算背景噪声的PSD进行比较。由信号N_-(ω)表示的最大值在这个比较中加以确定，并且随后被馈送至掩蔽模型中(例如，Johnston模型)。

图12的修改后系统展示于图13中。在图13的系统中，放大/衰减从时域切换至频域。因此，省略了在时域中操作的可控制增益/衰减单元19，而在快速傅里叶变换(FFT)单元18与最大幅值检测器34之间增添了在频域中操作的可控制增益/衰减单元21。

图13的修改后系统展示于图14中。在图14的系统中，省略了在时域中操作的背景噪声合成器20和快速傅里叶变换(FFT)单元18，而在可控制增益/衰减单元21的下游增添了在频域中操作的背景噪声合成器22。

在以上描述的示例性系统中，采用计算或估算单元和方法进行评估，但任何其它类型的评估单元或方法同样可以适用。此外，在上文参照图9和图10而描述的系统的简单配置中，应用于背景噪声的心理声学模型可以由含有表示掩蔽阈值的数据的表来建立。由对应于背景噪声的信号，例如表示速度、rpm等的信号，来选择数据。因此，对应于背景噪声的信号并不变换成表示背景噪声的信号，而相应地用来直接确定掩蔽阈值。

图15示出了不同有色噪声的频率特性，特别是白噪声WN、粉红噪声PN以及(修改后的)IEC286噪声IN。如果使用心理声学尺度，如Bark尺度，那么对于每个特性而言仅有24个点需要存储。为了具有更大的灵活性，可以存储各种噪声特性的特性信息。

尽管已公开了各种实施例，但相关领域技术人员将清楚地了解到，可以根据各种实施方案的特定实现方式，并且在不背离本发明的精神和范围的情况下，做出改变及修改。本领域熟练技术人员将明白，可以适当地取代执行相同功能的其它部件。对本概念的此类修改意在由所附权利要求书加以覆盖。

Claims

1.一种自动响度控制系统，其包括：

可控制增益/衰减单元，其具有增益/衰减控制输入、音频信号输入、音频信号输出，并且其在音频信号输入和音频信号输出之间的增益/衰减由所述增益/衰减控制输入信号加以控制；

增益/衰减评估单元，其连接至所述可控制增益/衰减单元的所述增益/衰减控制输入，并且其具有实际响度输入和所需响度输入；

实际响度评估单元，其连接至所述可控制增益/衰减单元的所述音频信号输入之间，并且其向所述增益/衰减评估单元提供所述实际响度输入；以及

所需响度评估单元，其连接至所述增益/衰减评估单元的所述所需响度输入，并且其具有音量控制输入；

其中所述增益/衰减评估单元被配置来取决于供应至所述所需响度评估单元的所述音量控制输入和所述可控制增益/衰减单元的所述音频信号输入的信号，来控制所述可控制增益/衰减单元；其中

所述所需响度评估单元包括第一转换单元，其将音量设置转换成表示所需响度的信号。

2.如权利要求1所述的系统，其中所述所需响度评估单元包括第二转换单元，其将音量设置转换成表示所需响度级的信号。

3.如权利要求2所述的系统，其中所述所需响度评估单元包括心理声学建模单元。

4.如权利要求3所述的系统，其中所述心理声学建模单元包括等响度模型。

5.如权利要求1至4中之一所述的系统，其中所述增益/衰减评估单元和所述实际响度评估单元中的至少一个单元包括由音量设置控制的最大幅值检测器。

6.如权利要求1至5中之一所述的系统，其进一步包括噪声发生器，所述噪声发生器向所述增益/衰减评估单元提供由所述音量设置加以控制的噪声信号。

7.如权利要求1至6中之一所述的系统，其中所述可控制增益/衰减单元、增益/衰减评估单元、所述实际响度评估、所述实际响度评估单元以及所述噪声发生器中的至少一个被配置来在频域中操作。

8.一种自动响度控制方法，其包括：

控制施加至输入音频信号的增益/衰减，并且提供输出音频信号，所述输出音频信号是经过放大/衰减的输入音频信号；

从所述输入音频信号来评估所述输入音频信号的实际响度，并且从音量控制输入来评估所述输入音频信号的所需响度；以及

从所述输入音频信号的所述实际响度和所述所需响度来评估施加至所述输入音频信号的所述增益/衰减；其中

所需响度评估包括将音量设置转换成表示所需响度的信号。

9.如权利要求8所述的方法，其中所需响度评估包括将音量设置转换成表示所需响度级的信号。

10.如权利要求9所述的方法，其中所述所需响度评估采用心理声学模型。

11.如权利要求10所述的方法，其中所述心理声学模型包括等响度模型。

12.如权利要求8至11中之一所述的方法，其中增益/衰减评估和所述实际响度评估中的至少一个包括由音量设置加以控制的最大幅值检测。

13.如权利要求8至12中之一所述的方法，其中产生噪声信号，并且向所述增益/衰减评估提供所述噪声信号；所述噪声信号由所述音量设置加以控制。

14.如权利要求8至13中之一所述的方法，其中在所述频域中执行增益/衰减、增益/衰减评估、所述实际响度评估、所述实际响度评估以及噪声产生中的至少一个操作。