CN102986136A

CN102986136A - 修改输入音频信号的装置及方法

Info

Publication number: CN102986136A
Application number: CN2011800303371A
Authority: CN
Inventors: 克里斯蒂安·乌勒; 于尔根·赫莱; 奥利弗·黑尔慕斯; 斯特凡·菲瑙尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-04-22
Filing date: 2011-04-20
Publication date: 2013-03-20
Anticipated expiration: 2031-04-20
Also published as: HK1161443A1; KR101469339B1; KR20130008609A; WO2011131732A1; PL2381574T3; BR112012026984B1; US20130046546A1; MX2012012113A; EP2381574A1; CN102986136B; RU2012149697A; ES2526761T3; JP5632532B2; RU2573246C2; CA2796948A1; EP2381574B1; BR112012026984A2; CA2796948C; US8812308B2; JP2013537726A

Abstract

一种修改输入音频信号的装置包括激励确定器、存储设备以及信号修改器。所述激励确定器基于输入音频信号的多个子带中的一个子带的能含量确定所述子带的激励参数值。此外，所述存储设备存储包含多个频谱权重因子的查找表。多个频谱权重因子中的一个频谱权重因子与激励参数的预定义值以及多个子带中的一个子带相关联。所述存储设备提供与激励参数的确定值对应以及与确定了激励参数值的子带对应的频谱权重因子。此外，所述信号修改器基于所提供的频谱权重因子修改确定了激励参数值的音频信号的子带的内容以提供修改的子带。

Description

修改输入音频信号的装置及方法

技术领域

根据本发明的实施方式涉及音频信号处理，尤其涉及修改输入音频信号的装置及方法。

背景技术

已经进行过许多尝试来开发令人满意的测量响度的客观方法。Fletcher和Munson在1933年确定人的听觉在低频和高频处比在中间（或语音）频率处较不敏感。他们还发现敏感度的相对变化随声级的增加而降低。早先的响度测量仪由麦克风、放大器、测量仪和被设计为在低、中和高声级大致模仿听觉的频率响应的滤波器的组合构成。

尽管这样的设备提供了单一的、恒定声级、独立音调的响度测量，但是更加复杂声音的测量不能非常好地匹配响度的主观感觉。这种类型的声级测量仪已经被标准化，但是它仅仅用于诸如监控和控制工业噪声的特定任务。

在20世纪50年代早期，Zwicker和Stevens扩展了Fletcher和Munson的工作，在于开发了更为逼真的响度感觉处理的模型。Stevens于1956年在Journal of the Acoustical Society of America中发表了一种用于“Calculation of the Loudness of Complex Noise”的方法，以及Zwicker于1958年在Acoustica中发表了他的文章“Psychological and Methodical Basisof Loudness”。在1959年，Zwicker发表了响度计算的图形化处理并在不久之后发表了若干类似的论文。Stevens和Zwicker方法已（分别地）被标准化为ISO532部分A和B。这两种方法包含类似的步骤。

首先，通过将音频传输穿过具有在临界频带速率标度上均匀间隔的中心频率的一组带通听觉滤波器来模拟被称之为激励的沿内耳基膜能量的时间变化分布。每个听觉滤波器被设计成模拟沿内耳基膜在特定位置的频率响应，该滤波器的中心频率对应于这个位置。临界频带带宽被定义为这样的一个滤波器的带宽。以Hz为单位进行测量，这些听觉滤波器的临界带宽随中心频率的增加而增加。所以，有用的是，定义翘曲频率标度以便以这种翘曲标度测量的所有听觉滤波器的临界带宽为常量。这种翘曲标度被称为临界频带速率标度并且对理解和模拟范围广泛的心理声学现象是非常有用的。例如，参见E.Zwicker和H.Fastl所著的Psychoacoustics-Factsand Models，Springer-Verlag，柏林，1990年。Stevens和Zwicker的方法使用被称为Bark标度的临界频带速率标度，其中，临界频带带宽在500Hz以下是常量而在500Hz以上增加。近来，Moore和Glasberg定义了一种临界带宽速率标度，他们称其为等效矩形带宽（ERB）标度（B.C.J.Moore，B.Glasberg，T.Baer，“A Model for the Prediction of Thresholds,Loudness,and Partial Loudness”，Journal of the Audio Engineering Society，Vol.45，No.4，1997年4月，pp.224-240）。通过使用陷波噪声屏蔽器的心理声学实验，Moore和Glasberg证明临界频带带宽在500Hz以下继续减小，这与临界频带带宽保持恒定的Bark标度相反。

术语“临界频带”要追溯到于1938年由Harvey Fletcher利用伴随信号对声觉掩蔽进行的工作（“J.B.Allen,“A short history of telephonepsychophysics”,Audio Eng.Soc.Convention,1997”）。临界频带可以利用Zwicker在1961年提出的Bark标度进行表达：每个临界频带具有一Bark（Heinrich Barkhausen之后命名的单位）的宽度。存在模仿人类听觉感知的超滤波器组，例如，等效矩形带宽（ERB）标度（“B.C.J.Moore，B.R.Glasberg及T.Baer，“A model for the prediction of thresholds,loudness,andpartial loudness”，J.Audio Eng.Soc.，1997”）。

术语“单位响度”描述了由基膜某区域上的信号对临界频带中测量的某频率带宽引起的响度感觉。以Sone/Bark为单位进行测量。术语“临界频带”是指包括被设计用于模仿人耳的频率分辨率的非均匀带通滤波器组的听觉滤波器组的频带。声音的总响度等于所有临界频带上的单位响度的和/积分。

在“A.J.Seefeldt，“Calculating and adjusting the perceived loudnessand/or the perceived spectral balance of an audio signal”的美国专利2009/0097676，2009”中描述了一种处理音频信号的方法。该方法的目的在于控制音频信号的单位响度，可应用于音量控制、动态范围控制、动态均衡及背景噪声补偿。在该文献中，对输入音频信号（通常在频域内）进行修改使得单位响度与目标单位响度匹配。

为了说明如在“A.J.Seefeldt，“Calculating and adjusting the perceivedloudness and/or the perceived spectral balance of an audio signal”的美国专利2009/0097676，2009”中所提出的处理的优势，考虑了音频信号的音量控制。改变声音重放中音频信号的级别的目的通常在于改变感知响度。换句话说，响度的控制传统上以声级的控制来实现。然而，人们的生活经验以及心理声学知识表明这不是最佳的。

人的听觉敏感度随频率和级变化，以便声强度级的降低使比中频（例如，2000-4000Hz）的感觉大的低频和高频（例如，分别为100Hz和10000Hz）的感觉减弱。当使播放级从“舒适响度”级（例如，75-80dBA）至较低级降低18dB时，音频信号的感知频谱平衡发生改变。这种情况在众所周知的等响度曲线，一般称为Fletcher-Munson曲线（在首次于1933年测量等响度曲线的研究人员之后）中示出。等响度曲线表示频谱上的声压级（SPL），当以纯正平稳的音调呈现时收听者会感知到恒定的响度。

例如，在“B.C.J.Moore，B.R.Glasberg及T.Baer，“A model for theprediction of thresholds,loudness,and partial loudness”，J.Audio Eng.Soc.，1997，第232页，图13”中描述了等响度曲线。修订测量在2003年已被标准化为ISO 226:2003。

因此，传统的响度控制不仅改变了响度，而且还改变了音色。该效应的影响取决于SPL（例如，使SPL从86dBA改变为68dBA时，与从76dBA改变为58dBA相比，不太明显），但不是所有类中所期望的那样。

这是由如在“A.J.Seefeldt，“Calculating and adjusting the perceivedloudness and/or the perceived spectral balance of an audio signal”的美国专利2009/0097676，2009”中所描述的处理补偿的。

图7示出了在“A.J.Seefeldt，“Calculating and adjusting the perceivedloudness and/or the perceived spectral balance of an audio signal”的美国专利2009/0097676，2009”中描述的方法700的流程图。

通过计算激励信号710、计算单位响度720、计算目标单位响度730、计算目标激励信号740、计算频谱权重750以及将频谱权重应用于输入信号并重新合成输出信号760对输出信号进行处理。

频谱权重H为取决于输入信号的单位响度以及目标单位响度的频带的权重。如在“A.J.Seefeldt，“Calculating and adjusting the perceivedloudness and/or the perceived spectral balance of an audio signal”的美国专利2009/0097676，2009”中所述的计算包括单位响度的计算以及单位响度的计算的逆处理，该逆处理用于目标单位响度。

处理步骤的计算量都很大。在“E.Zwicker，H.Fastl，U.Widmann，K.Kurakata，S.Kuwano及S.Namba，“Program for calculating loudnessaccording to DIN 45631(ISO 532B)”，J.Acoust.Soc.Jpn.(E)，vol.12，1991”以及“B.C.J.Moore，B.R.Glasberg及T.Baer，“A model for the predictionof thresholds,loudness,and partial loudness”，J.Audio Eng.Soc.，1997”中提出了计算单位响度的方法。

发明内容

本发明的目的在于提供一种改进的修改音频信号的构想以便以低的计算复杂性进行有效的实现。

该目的通过根据权利要求1所述的装置或根据权利要求20所述的方法来解决。

本发明的实施方式提供了一种修改输入音频信号的装置，包括激励确定器、存储设备以及信号修改器。所述激励确定器被配置为基于输入音频信号的多个子带中的一个子带信号的能含量确定所述子带的激励参数值。所述存储设备被配置为存储包含多个频谱权重因子的查找表，其中，多个频谱权重因子中的一个频谱权重因子与激励参数的预定义值以及多个子带中的一个子带相关联。此外，所述存储设备被配置为提供与激励参数的确定值对应以及与确定了激励参数值的子带对应的频谱权重因子。所述信号修改器被配置为基于所提供的频谱权重因子修改确定了激励参数的输入音频信号的子带的内容以提供修改的子带。

根据本发明的实施方式基于以下中心思想，可以利用含有频谱权重因子的查找表容易地对音频信号的子带进行修改，所述频谱权重因子可以根据各个子带及子带的激励参数进行选择。为此，查找表包含多个子带中的至少一个预定义子带的激励参数的多个预定义值的频谱权重因子。由于频谱权重因子的明显的计算（包括响度计算、修改及响度计算的逆过程）不是必须的，因此利用所述该查找表可以大幅降低计算复杂性。所以，允许有效实现。

在根据本发明的一些实施方式中，激励确定器确定并不是多个子带的所有子带的激励参数值。此外，所述查找表仅包含与确定了激励参数值的子带相关联的频谱权重因子。这样，可以减少查找表所需的存储空间以及激励确定器的计算工作量。

根据本发明的一些实施方式涉及一种查找表，所述查找表精确地包括与激励参数的预定义值相关联、与多个子带中的子带相关联以及与外部修改参数的预定义值相关联的三维度。

根据本发明的一些另外的实施方式涉及一种查找表，所述查找表精确包括与激励参数的预定义值相关联、与多个子带中的子带相关联、与外部修改参数的预定义值相关联以及与背景噪声参数的预定义值相关联的四维度。

附图说明

随后将参照附图详细介绍本发明的实施方式，其中：

图1为用于修改输入音频信号的装置的框图；

图2为等响度曲线的示意图；

图3为由传输滤波器标准化的等响度曲线的示意图；

图4为用于修改输入音频信号的装置的框图；

图5为用于修改输入音频信号的方法的流程图；

图6为用于修改输入音频信号的方法的流程图；

图7为用于修改输入音频信号的已知方法的流程图。

在下文中，相同的参考编号部分用于具有相同或相似功能性质的物件及功能单元，有关图的说明同样应适用于其他图以减少实施方式的说明部分的冗余。

具体实施方式

图1示出了根据本发明实施方式的用于修改输入音频子带信号102的装置100的框图。装置100包括激励确定器110、存储设备120及信号修改器130。激励确定器110被连接至存储设备120而存储设备120被连接至信号修改器130。激励确定器110基于子带102的能含量确定输入音频信号102的多个子带中的一个子带102的激励参数值112。存储设备120存储有含有多个频谱权重因子的查找表，其中，多个频谱权重因子中的一个频谱权重因子124与激励参数的预定义值以及多个子带中的一个子带相关联。进一步地，存储设备120提供与激励参数的确定值112对应以及与确定了激励参数值112的子带102对应的频谱权重因子124。信号修改器130基于所提供的频谱权重因子124修改确定了激励参数值112的输入音频信号的子带102的内容以提供修改的子带132。

通过利用查找表来提供用于修改输入音频信号的频谱权重因子124，与已知的构想相比可以明显降低计算复杂度。

激励确定器110基于子带102的能含量确定激励参数值112。例如，这可以通过测量子带102的能含量来执行以确定子带102的激励参数值112。这样，由于能含量可以随时间而变化和/或可以在不同的子带之间变化，所以激励参数可以表示功率/子带或特定子带中的短时能量的测量。可选地，可以基于子带的短时能量的（唯一、内射、双射）函数（例如，指数函数、对数函数或线性函数）来确定激励参数值。例如，可以使用量化函数。在该实例中，激励确定器110可以确定子带的能含量且可以量化所测量的子带的能含量以获得激励参数值，使得激励参数值等于激励参数的预定义值。换句话说，可以将所测量的能量值分配给激励参数的预定义值（例如，激励参数的最接近预定义值）。可选地，激励参数值直接表示所测量的能含量且存储设备120可以将激励参数的确定值分配给激励参数的预定义值。

输入音频信号的子带可以表示输入音频信号不同的频带。考虑到频带的感知分布，例如，可以根据ERB标度或Bark标度或模仿人耳频率分辨率的另一个频率间隔来分布子带。换句话说，可以根据ERB标度或Bark标度对输入音频信号的多个子带中的子带进行分割。

存储设备120包括用于激励参数（激励信号）以及表示确定了激励参数值112的子带102的子带指数的输入端。可选地，存储设备包括用于其他参数的一个或多个其他输入端。

存储设备120可以是数字存储介质，例如，只读存储器（ROM）、硬盘、CD、DVD或任何其他类型的非易失性存储器或随机存取存储器（RAM）。

查找表至少表示包含多个频谱权重因子的二维矩阵。查找表包含的频谱权重因子124明确地与激励参数的预定义值以及多个子带中的一个子带相关联。换句话说，查找表包含的每个频谱权重因子可以与激励参数的预定义值以及多个子带中的一个子带相关联。存储设备120可以提供与最接近激励参数的确定值112的激励参数的预定义值相关联的频谱权重因子124。可选地，例如，存储设备120可以线性地或对数地插入与最接近激励参数的确定值112的激励参数的两个预定义值相关联的两个频谱权重因子。

激励参数的预定义值可以线性地或对数地进行分布。

例如，信号修改器130可以利用所提供的频谱权重因子124对确定了激励参数值112的子带102的内容进行放大或衰减。

例如，通过利用所描述的构想，可以容易地补偿由音频信号的声强级增大或减小导致的低频、中频及高频的人类听觉的不同衰减。例如，当使播放级从一级降为另一级时，音频信号的感知频谱平衡就改变。这种情况在图2和图3示出，表示等响度曲线。特别是在低频区域中，不同的等响度的曲线彼此不平行。与中频带和/或高频带不同的低频带的放大或衰减可以等于等响度曲线弯曲度，使得等响度曲线可以平行或比之前更平行。这样，感知频谱平衡改变可以被补偿或几乎可以利用所描述的构想进行补偿。

图2的等响度曲线和图3的等响度曲线之间的差别为传输滤波器的标准化。传输滤波器可以模拟通过外耳和内耳音频的传输的滤波效果。这样的传输滤波器可选地在图1所示的装置中实现以便在提供给激励确定器110之前对输入音频信号进行滤波处理。

对于输入音频信号的更连续的修改，激励确定器110可以确定多个子带的一个以上子带的激励参数值112。然后，存储设备120可以为确定了激励参数值112的每个子带102提供频谱权重因子124，且信号修改器130可以基于各对应的所提供的频谱权重因子124修改确定了激励参数值112的每个子带102的内容。

输入音频信号的多个子带可以由存储器单元提供或可以由分析滤波器组产生。

可以确定多个子带中的一个子带、一个以上子带或所有子带的激励参数。为此，装置100可以只包括确定一个激励参数值、一个以上激励参数值或所有激励参数值的一个激励确定器110或可以包括用于确定了激励参数值112的每个子带102的激励确定器110。此外，装置100可以包括用于确定了激励参数的一个或多个子带的一个或多个单一修改器130。然而，对于确定了激励参数值112的所有子带102，使用单个查找表（以及存储设备）就足够了。

激励确定器110、存储设备120以及信号修改器可以是独立的硬件单元、计算机的一部分、微控制器或数字信号处理器以及被配置为在计算机、微控制器或数字信号处理器上运行的计算机程序或软件产品。

图4示出了根据本发明实施方式的用来修改输入音频信号的装置400的框图。装置400类似于图1中所示的装置，但还包括分析滤波器组410以及合成滤波器组420。分析滤波器组410将输入音频信号分为多个子带。然后，激励确定器110确定多个子带中的一个或多个子带的激励参数值（计算特征）。然后，存储设备120为一个或多个信号修改器130提供对应的一个或多个频谱权重因子。最后，合成滤波器组420将含有至少一个修改的子带的多个子带结合在一起以获得并提供修改的音频信号（或输出音频信号）。

图4中所示的实例可以是所提出的方法对于通用的应用情况。用于第n子带信号（第n子带）所示的处理可以以相同的方式用于所有其他子带信号（或只用于确定了激励参数值的所有子带）。

可选地，由查找表包含的频谱权重因子还与外部修改参数的预定义值相关联，如图4中用虚线所示（但也适用于图1中所示的装置）。例如，外部修改参数（或简单修改参数）可以表示用户界面的输入值（例如，音量和/或环境设置）。因此，在这种情况下，存储设备120可以提供与外部修改参数值对应的频谱权重因子。例如，如果用户增加或减少音量设置，外部修改参数值就改变且存储设备120可以提供对应的其他频谱权重因子。总之，存储设备120可以提供与子带的激励参数的确定值对应的、与确定了激励参数值的子带对应的以及与外部修改参数值对应的频谱权重因子。

在该实例中，查找表可以包括与激励参数的预定义值相关联、与多个子带中的子带相关联以及与外部修改参数的预定义值相关联的精确的三维度。这意味着由查找表包含的每个频谱权重因子与激励参数的特定预定义值、多个子带的一个子带以及外部修改参数的特定预定义值相关联。换句话说，对于激励参数的预定义值、子带以及外部修改参数的预定义值的每个组合，查找表包含一个频谱权重因子。例如，外部修改参数的预定义值可以线性地或对数地分布在外部修改参数的可能的范围内。

此外，在一些实施方式中，由查找表包含的频谱权重因子也与背景噪声参数的预定义值相关联。背景噪声参数可以表示输入音频信号的背景噪声级。这样，例如，在存在背景噪声时可以实现音频信号的部分屏蔽的效果的补偿。在这种情况下，存储设备可以提供与背景噪声参数值对应的频谱权重因子。这种情况可以另外地或可选地对外部修改参数的上述考虑事项进行。如果考虑了这两种情况，存储设备可以提供与子带的激励参数的确定值对应、与确定了激励参数的子带对应、与外部修改参数值对应以及与背景噪声参数值对应的频谱权重因子。在这种情况下，查找表可以精确地包括与激励参数的预定义值相关联、与多个子带中的子带相关联、与外部修改参数的预定义值相关联以及与背景噪声参数的预定义值相关联的四维度。例如，背景噪声参数的预定义值可以线性地或对数地分布在背景噪声参数的可能的范围内。

背景噪声参数值可以由背景噪声检测器确定。可以对被分为子带之前的整个输入音频信号进行或可以单独对一个子带、一个以上子带或所有子带的子带级进行。可选地，如果输入音频信号的多个子带由存储器单元存储并提供，背景噪声参数值也可以由存储器单元提供。

在任何情况下，尽管由查找表包含的频谱权重因子可以基于单位响度参数或目标单位响度参数进行计算，但存储设备不包括单位响度参数的输入或目标单位响度参数的输入。频谱权重因子的计算可以在外部进行，然后频谱权重因子可以由存储设备进行存储。由于不需要频谱权重因子的显示计算，因此与已知设备相比，可以明显降低根据所描述的构想实现的装置的计算复杂度。

例如，可以对频谱权重因子进行计算以便存储设备通过以下方式进行存储。

音频的处理可以在数字域中进行。相应地，音频输入信号可以通过离散时间序列x[n]表示，该时间序列已经以某采样频率f_c从音频源进行采样。可以假设序列x[n]已经被适当地定标从而通过以下公式以分贝给出的x[n]的均方根（rms）功率

{RMS}_{dB} = {10 \log}_{10} (\frac{1}{L} Σ_{n = 0}^{L} x^{2} [n])

等于收听者正在以它进行倾听的单位为dB的声压级。另外，为了简化说明起见假设音频信号是单声道的。

音频输入信号被应用于分析滤波器组或滤波器组函数（“分析滤波器组”）。分析滤波器组中的每个滤波器被设计为模拟在沿内耳基膜的特定位置处的频率响应。滤波器组可以包括一组线性滤波器，其带宽和间隔在等效矩形带宽（ERB）频率标度上是恒定的，如通过Moore、Glasberg和Baer（上文提到的B.C.J.Moore，B.Glasberg，T.Baer，“A Model for thePrediction of Thresholds,Loudness,and Partial Loudness，”)所定义的。

尽管ERB频率标度更加紧密地匹配人的感觉并且显示出在产生匹配主观响度结果的客观响度测量中改进的性能，但是可以利用降低的性能应用Bark频率标度。

对于单位为Hz的中心频率f，单位为Hz的ERB频带的带宽可以被近似为：

ERB(f)＝24.7(4.37f/1000+1) （1）

根据这种关系定义翘曲频率标度从而使得在沿曲折标度的任何点处，以曲折标度为单位的相应的ERB等于一。用于从单位为Hz的线性频率转换到这种ERB频率标度的函数通过对方程1的倒数积分而获得：

HzToERB (f) = &Integral; \frac{1}{24.7 (\frac{4.37 f}{1000} + 1)} df

= {21.4 \log}_{10} (\frac{4.37 f}{1000} + 1) - - - (2 a)

通过解方程2a求解f表示从ERB标度回变换回线性频率标度也是有用的：

ERBToHz (e) = f = \frac{1000}{4.37} 10^{(e / 21.4 - 1)}, - - - (2 b)

其中，e是以ERB标度为单位。

分析滤波器组可以包括位于沿ERB标度均匀间隔的中心频率f_c[1]...f_c[B]的被称为子带的B听觉滤波器。更具体地，

f_c[1]-f_min （3a）

对于b=2…B

f_c[b]＝f_c[b-1]+ERBToHz(HzToERB(f_c[b-1])+Δ) （3b）

f_c[B]＜f_max，（3c）

其中，Δ是分析滤波器组的期望的ERB间隔，以及f_min和f_max分别是期望的最小和最大中心频率。可以选择Δ=1，并且考虑人耳敏感的频率范围，可以设置f_min=50Hz和f_max=20,000Hz。利用这些参数，例如，应用方程3a-c产生B=40的听觉滤波器。

每个听觉滤波器的幅度频率响应可以由如Moore和Glasberg所提出的舍入指数函数来表征。具体地，具有中心频率f[b]的滤波器的幅度响应可以被计算为：

H_b(f)＝(1+pg)e^-pg （4a）

其中

g = | \frac{f - f_{c} [b]}{f_{c} [b]} |, - - - (4 b)

p = \frac{4 f_{c} [b]}{ERB (f_{c} [b])} - - - (4 c)

使用有限长度离散傅里叶变换可以充分地近似分析滤波器组的滤波操作，所述有限长度离散傅里叶变换通常被称之为短时间离散傅里叶变换（STDFT），因为被称为全速率实现的以音频信号的采样速率运行滤波器的实现被认为提供比精确响度测量所必须的分辨率更高的时间分辨率。

输入音频信号x[n]的STDFT定义如下：

X [k, t] = Σ_{n = 0}^{N - 1} w [n] x [n + tT] e^{- j \frac{2 πk}{N}}, - - - (5 a)

其中，k为频率指数，t为时间块指数，N为DFT大小，T为跳距（hopsize），以及w[n]是标准化的长度为N的窗从而

Σ_{n = 0}^{N - 1} w^{2} [n] = 1 - - - (5 b)

注意，方程5a中的变量t为表示与以秒为单位的时间测量相对的STDFT时间块的离散指数。t的每个增量表示沿信号x[n]的T采样的跳跃。接下来参考指数t假设这种定义。尽管根据具体的执行，可以使用不同的参数设置和窗形状，对于f_s=44100Hz，选择N=2048，T=1024，并且使得w[n]为Hann窗提供时间和频率分辨率的足够平衡。使用快速傅里叶变换（FFT）可以更加有效地执行上述的STDFT。

取代STDFT，可以使用修正的离散余弦变换（MDCT）来实现分析滤波器组。MDCT是一种通常用在感觉音频编码器中的变换。输入音频信号x[n]的MDCT通过以下公式给出：

X [k, t] = Σ_{n = 0}^{N - 1} w [n] x [n + tT] \cos ((2 π / N) (k + 1 / 2) (n + n_{0})),

其中

n_{0} = \frac{(N / 2) + 1}{2} - - - (6)

通常，跳距T被精确地选择为变换长度N的一半以便可以完美地重构信号x[n]。

分析滤波器组的输出被施加至根据通过外耳和中耳的音频对滤波器组的每个频带进行滤波处理的传输滤波器或传输滤波器函数（“传输滤波器”）。

为了计算输入音频信号的响度，在应用传输滤波器之后需要在分析滤波器组的每个滤波器中音频信号短时间能量的测量。这种时间和频率变化的测量被称为激励。在激励函数E[b,t]中通过频率域中的滤波器响应和输入信号的功率谱相乘可以近似分析滤波器组中的每个滤波器的短时间能量输出：

E [b, t] = \frac{1}{N} Σ_{k = 0}^{N - 1} {| H_{b} [k] |}^{2} {| P [k] |}^{2} {| X [k, t] |}^{2},

其中，b是子带号，t是块号，以及H_b[k]和P[k]分别是以对应于STDFT或MDCT二进制指数k的频率进行采样的听觉滤波器和传输滤波器的频率响应。应注意的是，除方程4a-c中规定以外的听觉滤波器幅度响应的形式可以用在方程7中以获得类似的结果。

总之，激励函数的输出为在每时间周期t的各个ERB频带b中能量E的频率域表示。

对于特定的应用，期望在激励变换到单位响度之前平滑激励E[b,t]。例如，在平滑函数中根据以下方程可以递归地执行平滑：

\overset{&OverBar;}{E} [b, t] = λ_{b} \overline{E} [b, t] + (1 - λ_{b}) E [b, t], - - - (8)

其中，根据期望的应用选择在每个频带b处的时间常数λ_b。在绝大多数情况下，时间常数可以被有利地选择为与在频带b内人类响度感觉的积分时间成比例。Watson和Gengel进行的实验表明这种积分时间在低频（125-200Hz）位于150-175ms的范围内以及在高频位于40-60ms内（Charles S.Watson and Roy W.Gengel，“Signal Duration and SignalFrequency in Relation to Auditory Sensitivity”，Journal of the AcousticalSociety of America，Vol.46，No.4(Part 2)，1969年，第989-997页）。

在转换函数（“单位响度”）中，可以将激励的每个频带转换成以Sone/ERB为单位测量的单位响度的分量值。

首先，在计算单位响度中，每个频带中的激励级

可以被变换成如由传输滤波器标准化的等响度曲线所规定的在1kHz处的等效激励级：

{\overset{&OverBar;}{E}}_{1 kHz} [b, t] = T_{1 kHz} (\overset{&OverBar;}{E} [b, t], f_{c} [b]), - - - (9)

其中，T_1kHz(E,f)为产生在1Kz处的所述级的函数，该级和在频率f处的级E一样响。转换成在1kHz处的等效级简化了以下的单位响度计算。

接下来，每个频带中的单位响度可以计算为：

N[b，t]＝α[b，t]N_NB[b，t]+(1-α[b，t])N_WB[b，t]，（10）

其中，N_NB[b,t]和N_WB[b,t]分别是基于窄带和宽带信号模型的单位响度值。值α[b,t]是根据音频信号计算的位于0和1之间的内插因子。

窄带和宽带单位响度值N_NB[b,t]和N_WB[b,t]可以使用指数函数根据变换的激励进行估计：

其中，TQ_1kHz是对于1KHz Sone来说在无声阈值的激励级。根据等响度曲线，TQ_1kHz等于4.2dB。注意，当激励等于无声阈值时这些单位响度函数都等于零。对于大于无声阈值的激励，两个函数根据Stevens的级感觉定律以幂定律单调地增加。将用于窄带函数的指数选择为大于用于宽带函数的指数，这使得窄带函数比宽带函数更快速地增加。具体选择的用于窄带和宽带情况的指数β和增益G被选择成在音调和噪声的响度增加时匹配实验数据。

当激励处于听觉阈值时单位响度可以等于某些小值而不是零。然后单位响度应该随激励减小到零而单调地减小到零。理由是听觉阈值是概率阈值（在这点上50%的时间检测音调），以及每个位于阈值的大量音调一起存在可以相加成一种比任何各个音调更可听的声音。如果当激励位于阈值或低于阈值时单位响度被定义成零，那么对于位于阈值或低于阈值的激励来说增益解算器的唯一解不存在。另一方面，如果单位响度被定义成对于大于或等于零的所有激励值来说单调地增加，那么唯一解存在。大于统一值的响度定标将总是导致大于统一值的增益并且反之亦然。方程11a和11b中的单位响度函数可以被改变为具有根据以下公式的期望特性：

其中，常数λ大于1，η指数小于1，以及常数K和C被选择为使得单位响度函数及其一阶导数在点

处是连续的。

根据单位响度，通过在所有频带b上单位响度的求和给出全部或“总”响度L[t]：

L [t] = \underset{b}{Σ} N [b, t] - - - (12)

在单位响度修改函数（“单位响度修改”）中，被称为

的目标单位响度可以以各种方式根据单位响度进行计算。正如以下更详细的描述，例如，在音量控制的情况下，目标单位响度可以使用定标因子α计算。参见以下的方程16及其相关的描述。在自动增益控制（AGC）和动态范围控制（DRC）的情况下，目标单位响度可以使用期望输出响度和输入响度的比率进行计算。参见以下的方程17和18及其相关的描述。在动态均衡的情况下，目标单位响度可以使用方程23及其相关描述中阐述的关系进行计算。

在本实例中，对于每个频带b和每个时间间隔t，增益求解函数采取平滑的激励

和目标单位响度作为它的输入并且产生接下来修改音频使用的也称作增益G[b,t]的频谱权重因子。设函数Ψ{·}表示从激励到单位响度的非线性变换从而

N [b, t] = Ψ {\overset{&OverBar;}{E} [b, t]}, - - - (13)

增益解算器得到G[b,t]，从而

\hat{N} [b, t] = Ψ {G^{2} [b, t] \overset{&OverBar;}{E} [b, t]} . - - - (14 a)

增益求解函数确定频率和时间变化的增益（频谱权重因子），当该增益被施加至原始激励时，它产生在理想情况下等于期望目标单位响度的单位响度。实际上，增益求解函数确定频率和时间变化的增益，当该增益被施加至音频信号的频率域型式时导致修改音频信号以便减小它的单位响度和目标单位响度之间的差。在理想情况下，修改是这样的，即，经修改的音频信号具有接近目标单位响度的量的单位响度。方程14a的解可以以大量的方式实现。例如，如果通过ψ^-1{·}表示的用于反单位响度的封闭形式的数学表达式存在，那么增益可以直接通过重新整理方程14a进行计算：

G [b, t] = \sqrt{\frac{Ψ^{- 1} (\hat{N} [b, t])}{\overset{&OverBar;}{E} [b, t]}} - - - (14 b)

可选地，如果用于ψ^-1{·}的封闭形式的解不存在，可以应用迭代方法，其中，对于每个迭代，使用增益的当前估计评估方程14a。比较所产生的单位响度和期望的目标单位响度并基于误差更新增益。如果增益被正确地更新，它们将会收敛到期望的解。正如以前所述，目标单位响度可以通过单位响度的定标表示：

\hat{N} [b, t] = Ξ [b, t] N [b, t] - - - (14 c)

将方程13代入14c中然后将14c代入14b中产生增益的替换表达式：

G [b, t] = \sqrt{\frac{Ψ^{- 1} (Ξ [b, t] Ψ (\overset{&OverBar;}{E} [b, t]))}{\overset{&OverBar;}{E} [b, t]}} - - - (14 d)

将计算出的频谱权重因子或增益存储在存储设备的查找表中。

在根据本发明的一些实施方式中，激励确定器不确定多个子带的所有子带的激励参数值。在这种情况下，查找表只包含与确定了激励参数值的子带相关联的频谱权重因子就足够了。这样，可以明显减少存储查找表所需的存储设备的存储空间。

由于应该被补偿的等响度曲线的弯曲度对较低的频率来说较强（参见图2和图3），仅补偿低频子带的响度变化就足够了。因此，计算激励参数并存储低频子带的频谱权重因子是有用的。相反，对高频子带来说，没确定激励参数值，且不存储与高频子带相关联的频谱权重因子。换句话说，确定了激励参数值的子带可以包括比没确定激励参数值的子带低的频率。

此外，不必要修改高频子带。换句话说，如果激励确定器不确定该子带的激励参数值，那么可以不利用信号修改器来修改子带的内容。这可能仅仅是这种情况，例如，如果没有考虑作为外部修改参数或背景噪声参数的其他参数。

可选地，存储设备提供的频谱权重因子可以被一个以上子带的信号修改器使用。换句话说，信号修改器可以基于为确定了激励参数值的子带提供的频谱权重因子修改没确定激励参数值的子带的内容。考虑到图2和图3中所示的等响度曲线的特性，根据相同的频谱权重因子修改高频带就足够了。频谱权重因子可以是为确定了激励参数值的包括所有子带的最高频率的子带提供的频谱权重因子。更一般地，信号修改器可以基于确定了激励参数值的含有比所有其他子带高的频率的子带提供的频谱权重因子修改没确定激励参数值的子带的内容。例如，激励确定器只确定多个子带中的5-15个（或2-20个、7-12个或仅5，6，7，8，9，10，11，12）或多个子带中的四分之一、三分之一、二分之一或三分之二以下子带的激励参数值可能就足够了。这些子带可以包括比多个子带中的所有其他子带都低的频率。此外，信号修改器可以根据存储设备为这些子带提供的频谱权重因子来修改这些子带的内容。

例如，Bark标度包括25个频带，且修改最低的7个频带就足够了，因为最慢的频带示出了与闲置特性最强的偏差。可选地，可以修改ERB标度的最低频带。多个子带中的剩余子带可以保持不变，可以根据外部修改参数和/或背景噪声参数进行修改或可以根据为确定了激励参数值的包含比确定了激励参数值的所有其他子带都高的频率的子带提供的频谱权重因子进行修改。

图5示出了根据本发明实施方式的修改输入音频信号的方法500的流程图。该方法500包括基于子带的能含量确定输入音频信号的多个子带中的一个子带的激励参数值510。此外，该方法500包括提供与激励参数的确定值对应以及与确定了激励参数值的子带对应的频谱权重因子520。将频谱权重因子存储在包含多个频谱权重因子的查找表中。多个频谱权重因子中的一个频谱权重因子与激励参数的预定义值以及多个子带中的一个子带相关联。最后，该方法500包括基于所提供的频谱权重因子修改确定了激励参数值的子带以提供修改的子带530。

换句话说，该方法500包括激励信号的计算510，从查找表检索频谱权重（频谱权重因子）520以及修改输出音频信号530。可选地，该方法500包括重新合成输出音频信号（将子带组合在一起以获得修改后的音频信号）。

例如，这是一种有效且通用的信号修改方法。

此外，可选地，还可以考虑外部修改参数（用虚线表示），如上所述。

背景噪声子带级（背景噪声参数）的另外的考虑由图6中所示的方法600所提及。

根据本发明的一些实施方式涉及音频信号的感知处理的有效实现。所描述的构想涉及频率选择音频信号修改和处理的灵活、高效架构，该架构可以容易地将心理声学效应的特征结合进处理中，而不会遭受明显的听觉建模的计算负荷。作为一个实例，考虑了用于感知响度控制的多频带处理器的实现，以所示的架构为依据。

这种情况为心理声学响度控制的有效实现。

上述处理与对每个听觉频带内的输入级所控制的具有滤波器特征的输入信号进行滤波处理一样。这可以更有效地实现。

基本上，所提出的方法不经过单位响度的计算以及对应的回推计算，从而避免了以稍微增加的存储器要求为代价的计算强度处理步骤。

可以利用简单的查找表（LUT），可能通过插值法来实现有效的实现。

通过测量实现的输入值和输出值过程来计算LUT，如上所述。例如，LUT具有3个维度。输出给定了输入记录、修改参数及频带指数的修改的子带或修改的音频信号。

例如，可以通过认识到功能取决于只用于最低频带的频带指数来有效实现，例如，当使用具有与Bark标度对应的分辨率的听觉滤波器组时，该滤波器组可以具有25个带通滤波器。由于对较高的频带指数来说，对于频带指数7保持同样的输入输出关系，因此只为最低的7个频带在LUT中存储传递函数就足够了。

这种有效的处理产生心理声学感知方面正确的音量控制。通过上述有效处理，如适当地索引LUT，可获得其他应用，即动态范围控制和/或动态均衡。

最后，通过向表示背景噪声级的LUT添加第四维度，可以实现背景噪声补偿（即，存在背景噪声时的音频信号的部分屏蔽效应的补偿）。图6示出了所提出的噪声补偿处理的框图。

尽管目前所述的处理的目的在于模拟心理声学响度定标算法，但自LUT以来，图1或图4中所描述的架构可以产生比利用心理声学响度尺度算法获得的更丰富的声音修改频谱。这甚至可以取决于多个因子（例如，用户偏好设置、其他时变因子等）。可以根据超出以封闭形式的表达式给出的函数提供的特征的主观收听者的偏好自由进行“调节”。

总之，本发明涉及频率选择音频信号修改和处理的灵活、高效架构，该架构可以容易地将心理声学效应的特征结合进处理中，而不经受明显的听觉建模的计算负荷。

在抽象级别上，所提出的有效处理包括以下步骤。基于输入信号，可以为多个频带（例如，临界频带）计算一个或多个特征值（包括激励参数值）。基于这些特征值（以及可能其他信息），对这些频带中的每一个进行查表以确定每个频带的一个或若干个表输出参数（频谱权重因子）。然后这些表输出参数被用于确定输入信号在对应频带中的修改（例如，乘法标度）。

处理频带中的音频信号通常意味着要使用滤波器组，即，通过分析滤波器组将输入信号分为若干个频带（子带），并通过将修改后的子带信号送入合成滤波器组获得最终输出信号。分析滤波器组和合成滤波器组结合在一起以完美地或几乎完美地重建输入时间信号。

频带的典型数量为4-40。基于特征值的查表通常涉及将特征值量化为可以被用作表中的查找索引的一组有限的值。此外，可以通过选择较粗的量化步骤大小，随后插在（两个或两个以上）相邻的表输出参数值之间来减小查找表的大小。为了考虑用于参数输出值的计算的若干输入特征，可以使用具有若干维度的查找表，例如，包含激励索引（idx）、音调索引（idx）、频率索引（idx）的修改因子LUT。在非常简单的（及有效的）情况下，输出参数值直接表示要被施加至输入子带的乘数因子以确定输出子带信号。例如，在图4中示出了这种情况。

尽管已经在装置的上下文中描述了所述构想的一些方面，但显然这些构想也表示对应方法的描述，其中方框或装置对应于方法步骤或方法步骤的特征。同理，在方法步骤的上下文中描述的方面也表示对应装置的对应方框或项目或特征的描述。

根据某些实现的要求，本发明的实施方式可以以硬件或软件实现。实现可使用数字储存介质进行，例如软盘、DVD、蓝光盘（Blue-Ray）、CD、ROM、PROM、EPROM、EEPROM或闪存，其上存储有电子可读取控制信号，其与可编程计算机系统协作(或可协作)，从而执行各个方法。因此数字储存介质可为计算机可读介质。

根据本发明的某些实施方式包括具有电子可读控制信号的数据载体，其可与可编程计算机系统协作，以便执行本文所述方法中的一种。

通常情况下，本发明的实施方式可实现为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作为执行该等方法中的一种。该程序代码例如可储存在机器可读载体上。

其他实施方式包括用于执行本文所述方法中的一种且存储在机器可读载体上的计算机程序。

换句话说，因此本发明方法的实施方式为具有程序代码的一种计算机程序，用于当该计算机程序在计算机上运行时执行本文所述方法中的一种。

因此，本发明方法的又一实施方式为一种数据载体（或数字存储介质或计算机可读介质）包括记录在其上的用于执行本文所述方法中的一种的计算机程序。

因此，本发明方法的又一实施方式为表示用于执行本文所述方法中的一种的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为经由数据通信连接例如经由互联网传送。

又一实施方式包括一种处理装置，例如计算机或可编程逻辑设备，被配置为或适用于执行本文所述方法中的一种。

另外的实施方式包括其上安装有用于执行本文所述方法中的一种的计算机程序的计算机。

在一些实施方式中，可编程逻辑设备（例如现场可编程门阵列）可用来执行本文所述方法的一部分或全部功能。在一些实施方式中，现场可编程门阵列可与微处理器协作以执行本文所述方法中的一种。通常情况下，这些方法优选由硬件装置执行。

上述实施方式仅用于示例性说明本发明的原理。应理解的是，本文所述的配置及细节的修改及变形对本领域的技术人员来说是显而易见的。因此，其意在仅受所附的专利权利要求的范围所限制，而不受由本文实施方式的描述及说明的方式所呈现的特定细节所限制。

Claims

1.一种用于修改输入音频信号的装置（100），包括：

激励确定器（110），被配置为基于所述输入音频信号的多个子带中的子带（102）的能含量确定所述子带（102）的激励参数值（112）；

存储设备（120），存储包含多个频谱权重因子的查找表，其中，所述多个频谱权重因子中的一个频谱权重因子与所述激励参数的预定义值以及所述多个子带中的一个子带相关联，其中，所述存储设备被配置为提供与激励参数的确定值（112）对应以及与确定了激励参数值（112）的子带（102）对应的频谱权重因子（124）；以及信号修改器（130），被配置为基于所提供的频谱权重因子（124）修改确定了所述激励参数值（112）的输入音频信号的子带（102）的内容以提供修改的子带（132）。

2.根据权利要求1所述的装置，其中，所述激励确定器（110）被配置为确定所述多个子带中的一个以上子带（102）的激励参数值（112），其中，所述存储设备（120）被配置为为确定了所述激励参数值（112）的每个子带（102）提供频谱权重因子（124），并且其中，所述信号修改器（130）被配置为基于各个对应的所提供的频谱权重因子（124）修改确定了所述激励参数值（112）的每个子带（102）的内容。

3.根据权利要求1或2所述的装置，进一步包括：

分析滤波器组（410），被配置为将所述输入音频信号分为多个子带；以及

合成滤波器组（420），被配置为组合含有至少一个修改的子带（132）的多个子带以提供修改的音频信号。

4.根据权利要求1至3中任一项所述的装置，其中，由所述查找表包含的每个频谱权重因子与所述激励参数的预定义值以及所述多个子带中的一个子带相关联。

5.根据权利要求1至4中任一项所述的装置，其中，根据ERB标度、Bark标度或模仿人耳频率分辨率的另一个频率间隔对所述输入音频信号的所述多个子带中的子带进行分割。

6.根据权利要求1至5中任一项所述的装置，其中，所述激励确定器（110）被配置为确定并不是所述多个子带中的所有子带的激励参数值（112），并且其中，所述查找表仅包含与确定了激励参数值的子带相关联的频谱权重因子。

7.根据权利要求6所述的装置，其中，确定了激励参数值（112）的子带（102）包括比没有确定激励参数值的子带低的频率。

8.根据权利要求6或7所述的装置，其中，如果所述激励确定器（110）没有确定所述输入音频信号的子带的激励参数值（112），则该子带的内容不被所述信号修改器（130）修改。

9.根据权利要求1至8中任一项所述的装置，其中，所述激励确定器（110）被配置为只确定所述多个子带中不到三分之一的子带的激励参数值（112），并且其中，所述信号修改器（130）被配置为基于各个对应的所提供的频谱权重因子修改确定了激励参数值的子带的内容，其中，这些子带包括比多个子带中的确定了激励参数值的所有其他子带都低的频率。

10.根据权利要求1至9中任一项所述的装置，其中，所述信号修改器（130）被配置为基于为确定了激励参数值（112）的子带（102）提供的频谱权重因子（124）修改没有确定激励参数值的子带的内容。

11.根据权利要求10所述的装置，其中，所述信号修改器（130）基于为确定了激励参数值（112）的包含比确定了激励参数值（112）的所有其他子带（102）都高的频率的子带（102）提供的频谱权重因子（124）修改没有确定激励参数值的子带的内容。

12.根据权利要求1至11中任一项所述的装置，其中，由所述查找表包含的频谱权重因子还与外部修改参数的预定义值相关联，其中，所述存储设备（120）被配置为提供与子带（102）的激励参数的确定值（112）对应的、与确定了激励参数值（112）的子带（102）对应的以及与外部修改参数值对应的频谱权重因子（124）。

13.根据权利要求12所述的装置，其中，所述查找表精确地包括与所述激励参数的预定义值相关联、与所述多个子带中的子带相关联以及与所述外部修改参数的预定义值相关联的三维度。

14.根据权利要求12至13中任一项所述的装置，其中，所述信号修改器（130）被配置为基于所述外部修改参数值修改没有确定激励参数值的子带的内容。

15.根据权利要求1至14中任一项所述的装置，其中，由所述查找表包含的频谱权重因子还与背景噪声参数的预定义值相关联，其中，所述存储设备（120）被配置为提供与子带（102）的激励参数的确定值（112）对应的、与确定了激励参数值（112）的子带（102）对应的以及与背景噪声参数值对应的频谱权重因子（124）。

16.根据权利要求15所述的装置，其中，所述查找表精确地包括与所述激励参数的预定义值相关联、与所述多个子带中的子带相关联、与所述外部修改参数的预定义值相关联以及与所述背景噪声参数的预定义值相关联的四维度。

17.根据权利要求1至16中任一项所述的装置，其中，所述存储设备（120）不包括单位响度参数的输入或目标单位响度参数的输入。

18.根据权利要求1至17中任一项所述的装置，其中，由所述存储设备（120）存储的查找表仅是用于修改所述输入音频信号的装置的查找表。

19.根据权利要求1至18中任一项所述的装置，其中，所述激励确定器（110）被配置为测量子带（102）的能含量并被配置为量化所测量的基带的能含量以获得激励参数值，从而使得所述激励参数值等于所述激励参数的预定义值。

20.一种用来修改输入音频信号的方法（500，600），包括：

基于所述输入音频信号的多个子带中的一个子带的能含量确定所述子带的激励参数值（510）；

提供与激励参数的确定值对应以及与确定了所述激励参数值的所述子带对应的频谱权重因子（520），其中，将所述频谱权重因子存储在包含多个频谱权重因子的查找表中，其中，多个频谱权重因子中的一个频谱权重因子与所述激励参数的预定义值以及所述多个子带中的一个子带相关联；

基于所提供的频谱权重因子修改确定了激励参数值的子带以提供修改的子带（530）。

21.一种具有程序代码的计算机程序，用于当所述计算机程序在计算机或微控制器上运行时执行根据权利要求20所述的方法。