CN101410892B

CN101410892B - 改进的离散余弦变换域中的音频信号响度测量及修改

Info

Publication number: CN101410892B
Application number: CN2007800115605A
Authority: CN
Inventors: 阿兰·杰弗里·西费尔特; 布雷特·格雷厄姆·克罗克特; 迈克尔·约翰·史密瑟斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2006-04-04
Filing date: 2007-03-30
Publication date: 2012-08-08
Anticipated expiration: 2027-03-30
Also published as: EP2002426A1; JP2009532738A; WO2007120452A1; US8504181B2; TW200746050A; JP5185254B2; CN101410892A; EP2002426B1; ATE441920T1; US20090304190A1; TWI417872B; DE602007002291D1

Abstract

公开了对由经时间采样的实际信号的改进的离散余弦变换(MDCT)表示的音频信号的处理方法，其中，测量经变换的音频信号的响度，并至少部分地响应于所述测量，修改所述经变换的音频信号的响度。当对多于一个的频带进行增益修改时，从频带到频带的一个或多个增益变化是平滑的。响度测量采用与人的响度感知的整合时间相当的平滑时间常数或比人的响度感知的整合时间慢的平滑时间常数。

Description

改进的离散余弦变换域中的音频信号响度测量及修改

技术领域

本发明涉及音频信号处理。具体而言，本发明涉及MDCT域中的音频信号的响度的测量以及音频信号的响度的修改。本发明不仅包括方法而且包括相对应的计算机程序和装置。

通过引用的参考及结合

在包括可通过因特网在www.atsc.org上获得的“数字音频压缩标准(Digital Audio Compression Standard)(AC-3)”(Doc.A/52A，高级电视制式委员会，2001年8月20日)的各种公开出版物中都描述了“杜比数字(Dolby Digital)”，这里也称作“AC-3”(“Dolby”和“Dolby Digital”是杜比实验室特许公司的商标)。

在Alan Jeffrey Seefeldt等人的、2004年12月23日公布的名称为“Method，Apparatus and Computer Program for Calculating andAdj usting the Perceived Loudness of an Audio Signal”的公布的国际专利申请WO2004/111994A2中以及在Alan Seefeldt等人的论文“A NewObj ective Measure of Perceived Loudness”(Engineering SocietyConvention Paper6236，2004年10月28日，旧金山)中描述了某些用于测量和调整所感知的内容(心理声学响度)的技术，可用于更好地理解本发明的各方面。上述WO2004/111994A2申请及上述论文的全部内容通过引用合并于此。

在Alan Jeffrey Seefeldt的根据专利合作条约提交的序列号为PCT/US2005/038579(2005年10月25日申请，国际公布号为WO2006/047600，名称为“Calculating and Adjusting the Perceived Loudnessand/or the Perceived Spectral Balance of an Audio Signal”)的国际申请中描述了某些用于测量和调整所感知的内容(心理声学响度)的技术，可用于更好地理解本发明的各方面。上述申请的全部内容通过引用合并于此。

附图说明

图1示出了临界频带滤波器(critical band filter)C_b[k]的响应的曲线图，其中40个频带沿着等效矩形带宽(ERB)刻度而均匀相隔。图2a示出了利用各个T值的移动平均来计算的和

之间的用dB表示的绝对平均误差(AAE)的曲线图。

图2b示出了利用各个T值、使用单极平滑器来计算的

和

之间的用dB表示的绝对平均误差(AAE)的曲线图。

图3a示出了滤波器响应H[k，t]，这是一种理想的砖壁低通滤波器(brick-wall low pass filter)。

图3b示出了理想的脉冲响应h_IDFT[n，t]。

图4a是与图3a的滤波器响应H[k，t]对应的矩阵

的灰度图像。在这个图像以及文中的其它灰度图像中，x轴和y轴分别表示矩阵的列和行，并且灰度的强度表示矩阵在根据图像右侧所示的刻度的特定行/列位置上的值。

图4b是与图3a的滤波器响应H[k，t]对应的矩阵的灰度图像。

图5a是与图3a的滤波器响应H[k，t]对应的矩阵

的灰度图像。

图5b是与图3a的滤波器响应H[k，t]对应的矩阵

的灰度图像。

图6a示出了平滑的低通滤波器的滤波器响应H[k，t]。

图6b示出了时间紧凑的脉冲响应h_IDFT[n，t]。

图7a示出了与图6a的滤波器响应H[k，t]对应的矩阵

的灰度图像。与图4a比较。

图7b示出了与图6a的滤波器响应H[k，t]对应的矩阵

的灰度图像。与图4b比较。

图8a示出了与图6a的滤波器响应H[k，t]对应的矩阵

的灰度图像。

图8b示出了与图6a的滤波器响应H[k，t]对应的矩阵

的灰度图像。

图9示出了根据本发明基本方面的响度测量方法的框图。

图10a是一种加权功率测量设备或过程的示意性功能框图。

图10b是一种基于心理声学的测量设备或过程的示意性功能框图。

图12a是根据本发明的各方面的一种加权功率测量设备或过程的示意性功能框图。

图12b是根据本发明的各方面的一种基于心理声学的测量设备或过程的示意性功能框图。

图13是示出本发明的用于测量在MDET域中编码的音频(例如低比特速率编码音频)的响度的方面的示意性功能框图。

图14是示出可用在图13的结构中的解码过程的示例的示意性功能框图。

图15是示出本发明的一个方面的示意性功能框图，在该方面中，从低比特速率音频编码器中的部分解码中获得的STMDCT系数被用于响度测量中。

图16是示出将从低比特速率音频编码器中的部分解码中获得STMDCT系数用在响度测量中的一个示例的示意性功能框图。

图17是示出本发明的一个方面的示例的示意性功能框图，在该示例中，通过基于对从音频的STMDCT表示中获得的响度的测量来改变音频的STMDCT表示，修改音频的响度。

图18a示出了与固定刻度的特定响度对应的滤波器响应H[k，t]。

图18b示出了与具有图18a所示响应的滤波器对应的矩阵的灰度图像。

图19a示出了与应用于特定响度的DRC对应的滤波器响应H[k，t]。图19b示出了与具有图18a所示的响应的滤波器对应的矩阵

的灰度图像。

背景技术

存在许多用于客观地测量音频信号的感知响度的方法。这些方法的示例包括：A、B和C加权功率测量以及响度的心理声学模型(如“声学--用于计算响度级的方法”ISO532(1975))。加权功率测量通过以下过程来进行：采用输入音频信号，应用一种对感知上比较敏感的频率进行加强而削弱感知上较不敏感的频率的公知滤波器，随后对经滤波的信号在预定的时间长度上的功率进行平均。心理声学方法通常更复杂，并且其旨在更好地对人耳的工作进行建模。这些方法模拟耳朵的频率响应和灵敏度而将信号划分为多个频带，然后考虑诸如频域和时域掩蔽效应等的心理声学现象以及利用变化的信号强度的对响度的非线性感知，来操纵和整合这些频带。所有方法的目标都是要得到与音频信号的主观感觉密切匹配的的数值测量。

许多响度测量方法(特别是心理声学方法)对音频信号进行频谱分析。也就是说，将音频信号从时域表示变换为频域表示。这通常使用离散傅立叶变换(DFT)而最有效地执行，离散傅立叶变换(DFT)通常使用快速傅立叶变换(FFT)来实现。快速傅立叶变换的特性、用法以及局限是容易理解的。离散傅立叶变换的反向过程称为离散傅立叶逆变换(IDFT)，离散傅立叶逆变换(IDFT)通常用快速傅立叶逆变换(IFFT)来实现。

与傅立叶变换类似的另一种时频变换是离散余弦变换(DCT)，通常使用改进的离散余弦变换(MDCT)。这种变换提供了信号的更紧凑的频谱表示，并且广泛地用在诸如杜比数字(Dolby Digital)以及MPEG2-AAC等的低比特速率音频编码或压缩系统以及诸如MPEG2视频和JPEG之类的图像压缩系统中。在音频压缩算法中，在编码期间，将音频信号分为交迭的时间段，并且将每一段的MDCT变换量化和打包为比特流。在解码期间，对每一段进行解包，并且通过MDCT逆变换(IMDCT)来重建时域信号。类似地，在图像压缩算法中，将图像分为空间段，并且对于每一段，将量化的DCT打包为比特流。

MDCT的特性(类似地，DCT的特性)导致难以使用该变换进行频谱分析及修改。首先，与包括正弦及余弦两种正交分量的DFT不同，MDCT仅仅包括余弦分量。当使用连续并且交迭的MDCT来分析大体上稳态的信号时，连续的MDCT值是波动的，因而不能准确地表示信号的稳态特性。其次，MDCT包括时域混叠，如果对连续的MDCT频谱值进行实质上的修改，该时域混叠不能完全消除。下面的部分中提供了更详细的说明。

由于直接处理MDCT域信号存在困难，通常将MDCT信号变换回时域，从而使用FFT和IFFT进行处理，或者通过直接的时域方法进行处理。在频域处理的情况下，额外的正向和反向FFT会极大地增加计算复杂度，而省去这些计算、直接对MDCT频谱进行处理将会是有益的。例如，当解码基于MDCT的音频信号(如杜比数字)时，在反向MDCT之前、在不需要FFT及IFFT的情况下直接在MDCT频谱值上进行响度测量及频谱修改以调整响度将会是有益的。

可以根据信号的功率谱来计算响度的许多有用的客观测量值，根据DFT可容易地估计信号的功率谱。将会说明，同样可以根据MDCT来计算对功率谱的适当估计。根据MDCT生成的估计的准确度是所使用的平滑时间常数的函数，并且将会示出，使用与人的响度感知的整合时间相当的平滑时间常数会生成对于大多数响度测量应用来说足够准确的估计。除了测量，还可能希望通过在MDCT域中应用滤波器来修改音频信号的响度。通常，这样的滤波会将伪象引入到处理后的音频中，但是，将会示出，如果所示滤波器在频率上平滑变化，那么伪象在感觉上是可以忽略的。与所提出的响度修改相关的滤波的类型被限制为：在频率上平滑，并且因此是可应用于MDCT域中的。

MDCT的特性

下式给出长度为N的复信号x在角频率ω处的离散时间傅立叶变换(DTFT)：

X_{DTFT} (ω) = Σ_{n = 0}^{N - 1} x [n] e^{- jωn} - - - (1)

实际上，在0和2π之间的N个均匀相隔的频率上对DTFT采样。该经采样的变换称为离散傅立叶变换(DFT)，并且由于快速算法(即快速傅立叶变换(FFT))的存在，其被广泛使用，如用于计算。更具体地，下式给出在频仓(bin)k处的DFT：

X_{DFT} [k] = X_{DTFT} (2 πk / N) = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 πkn}{N}} - - - (2)

还可以利用半频仓(one half bin)的偏移对DTFT进行采样，以生成移位离散傅立叶变换(SDFT)：

X_{SDFT} [k] = X_{DTFT} (2 π (k + 1 / 2) / N) = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 π (k + 1 / 2) n}{N}} - - - (3)

下式给出反向DFT(IDFT)：

x_{IDFT} [n] = Σ_{k = 0}^{N - 1} X_{DFT} [n] e^{j \frac{2 πkn}{N}} - - - (4)

并且，下式给出反向SDFT(ISDFT)：

x_{ISDFT} [n] = Σ_{k = 0}^{N - 1} X_{SDFT} [k] e^{j \frac{2 π (k + 1 / 2) n}{N}} - - - (5)

而DFT和SDFT都是完全可逆的：

x[n]＝x_IDFT[n]＝x_ISDFT[n]

下式给出实际信号x的N点的改进的离散余弦变换(MDCT)：

X_{MDCT} [k] = Σ_{n = 0}^{N - 1} x [n] \cos ((nπ / N) (k + 1 / 2) (n + n_{0})) - - - (6)

其中

n_{0} = \frac{(N / 2) + 1}{2}

N点MDCT实际上是冗余的，仅具有N/2个特征点。可如下示出为：

X_MDCT[k]＝-X_MDCT[N-k-1] (7)

下式给出反向MDCT(IMDCT)：

x_{IMDCT} [n] = Σ_{n = 0}^{N - 1} X_{MDCT} [k] \cos ((2 π / N) (k + 1 / 2) (n + n_{0})) - - - (8)

与DFT和SDFT不同，MDCT不是完全可逆的：x_IMDCT[n]≠x[n]。相反地，x_IMDCT[n]的是x[n]的时间混叠版本：

x_{IMDCT} [n] = \{\begin{matrix} x [n] - x [N / 2 - 1 - n] & 0 \leq n < N / 2 \\ x [n] + x [3 N / 2 - 1 - n] & N / 2 \leq n < N \end{matrix} - - - (9)

在(6)的运算之后，实际信号x的MDCT和SDFT之间的关系可用如下公式表示：

X_{MDCT} [k] = | X_{SDFT} [k] | \cos (&angle; X_{SDFT} [k] - \frac{2 π}{N} n_{0} (k + 1 / 2)) - - - (10)

换句话说，MDCT可以表示为由余弦调制的SDFT的幅度，该余弦是SDFT的角度的函数。

在许多音频处理应用中，计算音频信号x的连续交迭的加窗块的DFT是有用的。该交迭的变换称为短时离散傅立叶变换(STDFT)。假设信号x比变换长度N长，那么下式给出在频仓k且在块t处的STDFT：

X_{DFT} [k, t] = Σ_{n = 0}^{N - 1} w_{A} [n] x [n + Mt] e^{- j \frac{2 πk}{N} n} - - - (11)

其中w_A[n]是长度为N的分析窗，而M是块的跳长(hopsize)。可以将短时移位离散傅立叶变换(STSDFT)及短时改进的离散余弦变换(STMDCT)以相似的方式定义为STDFT。这些变换分别称为X_SDFT[k，t]和X_MDCT[k，t]。由于DFT和SDFT都是完全可逆的，因此，假定适当地选择了窗和跳长，即可通过对每一块进行逆变换并随后进行交迭和相加来对STDFT和STSDFT进行完全的逆变换。尽管MDCT是不可逆的，但是在M＝N/2且选择了诸如正弦窗等的合适的窗的情况下，可以使STMDCT为完全可逆的。在这样的情况下，当经过逆变换的块被交迭相加时，公式(9)给出的在连续的经逆变换的块之间的混叠会完全消除。这个特性以及N点MDCT包含N/2个特征点这个事实使得STMDCT成为理想的重构，即具有交迭的临界采样滤波器组。通过比较，STDFT和STSDFT都是以同一跳长的两倍来进行过采样。因此，STMDCT已经成为最常用于感知音频编码的变换。

发明内容

功率谱估计

STDFT和STSDFT的一个常见用法是：通过在许多块t上对X_DFT[k，t]或X_SDFT[k，t]的平方幅度进行平均来估计信号的功率谱。通过下式，计算长度为T的块的移动平均值，以生成对功率谱的时间变化的估计：

P_{DET} [k, t] = \frac{1}{T} {Σ_{τ = 0}^{T - 1} | X_{DFT} [k, t - τ] |}^{2} - - - (12 a)

P_{SDFT} [k, t] = \frac{1}{T} {Σ_{τ = 0}^{T - 1} | X_{SDFT} [k, t - τ] |}^{2} - - - (12 b)

如下所述，这些功率谱估计对计算信号的各种客观响度测量值特别有用。现在将示出，在某些假设下可以根据X_MDCT[k，t]近似得到P_SDFT[k，t]。首先定义：

P_{MDCT} [k, t] = \frac{1}{T} {Σ_{τ = 0}^{T - 1} | X_{MDCT} [k, t - τ] |}^{2} - - - (13 a)

使用(10)中的关系，可以得出：

P_{MDCT} [k, t] = \frac{1}{T} Σ_{τ = 0}^{T - 1} {| X_{SDFT} [k, t - τ] |}^{2} \cos^{2} (&angle; X_{SDFT} [k, t - τ] - \frac{2 π}{N} n_{0} (k + 1 / 2)) - - - (13 b)

如果假定在块t上|X_SDFT[k，t]|和∠X_SDFT[k，t]相对独立地共同变化(该假设对于大多数音频信号来说为真)，则可以得到：

如果进一步假设∠X_SDFT[k，t]总的来说在T个块上均匀分布于0和2π之间(对于音频总是为真的另一假设)并且如果T相对大，则由于具有均匀分布的相位角的余弦平方的期望值是二分之一，可以得到：

因此，可以看到，根据STMDCT估计的功率谱等于根据STSDFT估计的功率谱的大约一半。

与使用移动平均值来估计功率谱不同，替选地可应用单极平滑滤波器，如下：

P_DFT[k，t]＝λP_DFT[k，t-1]+(1-λ)|X_DFT[k，t]|²(14a)

P_SDFT[k，t]＝λP_SDFT[k，t-1]+(1-λ)|X_SDFT[k，t]|²(14b)

P_MDCT[k，t]＝λP_MDCT[k，t-1]+(1-λ)|X_MDCT[k，t]|²(14c)

其中，下式给出在单位变换块中测量的平滑滤波器的半衰期：

T = \frac{\log (1 / e)}{\log (λ)} - - - (14 d)

在这种情况下，如果T相对大，则可类似地示出

对于实际应用，确定在移动平均或者单极的情况下T应为多大，以根据MDCT来获得对功率谱的足够准确的估计。为此，对于给定的T值，查看P_SDFT[k，t]和2P_MDCT[k，t]之间的误差。对于涉及基于感知的测量和修改(诸如响度)的应用，检查每个独立的变换频仓k处的误差不是特别有用。相反地，检查临界频带内的误差更有意义，所述临界频带模拟耳朵的基膜在特定位置的响应。为此，通过将功率谱与临界频带滤波器相乘以及随后在频率上积分，来计算临界频带功率谱：

P_{SDFT}^{CB} [b, t] = \underset{k}{Σ} {| C_{b} [k] |}^{2} P_{SDFT} [k, t] - - - (15 a)

P_{MDCT}^{CB} [b, t] = \underset{k}{Σ} {| C_{b} [k] |}^{2} P_{MDCT} [k, t] - - - (15 b)

这里C_b[k]表示滤波器在与变换频仓k对应的频率处采样的临界频带b的响应。图1示出了临界频带滤波器响应的曲线图，其中40个频带沿着等效矩形带宽(ERB)刻度而均匀相隔，正如Moore和Glasberg(B.C.J.Moore，B.Glasberg，T.Baer，“A Model for the Prediction of Thresholds，Loudness，and Partial Loudness”，Journal of the Audio EngineeringSociety，第45卷，第4期，1997年4月，224-240页)所定义的。正如Moore和Glasberg所建议的，每个滤波器形状通过舍入的指数函数来描述，并且频带利用ERB间隔来分布。

现在可以针对计算功率谱的移动平均和单极技术二者、针对各个T值检查和

之间的误差。图2a示出了移动平均情况下的该误差。具体地，针对各种平均窗长度T，示出了在10秒音乐片段上的用dB表示的40个临界频带中的每个频带的绝对平均值(AAE)。以44100Hz的速率对音频进行采样，设定变换尺寸为1024个采样，并且设定跳长为512个采样。该曲线图示出了从1秒到15毫秒的期间的T值。注意，对于每个频带，随着T的增大，误差会减小，这是所期望的；MDCT功率谱的准确度依赖于相对大的T。同样，对于每个T值，误差往往随着临界频带编号的增大而减小。这归因于临界频带随着中心频率的增大而变宽这个事实。因此，更多的频仓k被组合在一起，用以估计频带内的功率，由此将各频仓中的误差平均掉。作为参考点，注意到在利用250ms或者更大的移动平均窗口长度可在每个频带中获得小于0.5dB的AAE。0.5dB的差别大致上等于在其以下人不能可靠地辨别电平差的阈值。

图2b示出了同样的曲线图，但是这是对使用单极平滑器计算的

和而言的曲线图。可以看到与移动平均情况下的同样的AAE的趋向，但是误差一致地更小。这是因为与单极平滑器相关的平均窗是无限的，具有指数式衰减。可以看到，用60ms或者更大的衰减时间T可以在每一个频带中获得小于0.5dB的AAE。

对于涉及响度测量和修改的应用来说，用于计算功率谱的时间常数不需要比人的响度感知的整合时间快。Waston和Gengel进行了用于证实该整合时间随着频率增加而减小的实验；该实验在低频(125-200Hz or4-6ERB)在150-175ms的范围内进行，在高频(3000-4000Hz or25-27ERB)在40-60ms的范围内进行(Charles S.Watson and Roy W.Gengel，“Signal Duration and Signal Frequency in Relation to AuditorySensitivity”，Journal of the Acoustical Society of America，第46卷，第4期(部分2)，1969年，第989-997页)。因此可以有利地计算功率谱估计，其中平滑时间常数随频率相应地变化。通过研究图2b可以看出，可以使用该频率变化的时间常数来根据MDCT而生成功率谱估计，所述估计在每个临界频带中具有小的平均误差(小于0.25dB)。

滤波

STDFT的另一常见的用法是：有效地执行对音频信号的时变滤波。这可以通过将STDFT的每个块与用来产生经滤波的STDFT的期望滤波器的频率响应相乘来实现：

Y_DFT[k，t]＝H[k，t]X_DFT[k，t] (16)

Y_DFT[k，t]的每个块的加窗IDFT等于与H[k，t]的IDFT循环卷积并与综合窗w_S[n]相乘的信号x的对应加窗段：

y_{IDFT} [n, t] = w_{S} [n] Σ_{m = 0}^{N - 1} h_{IDFT} [{((n - m))}_{N}, t] w_{A} [n] x [n + Mt], - - - (17)

其中算子((*))_N表示以N为模。随后通过y_IDFT[n，t]的交迭相加合成，产生经滤波的时域信号y。如果对于n>P，(15)中的h_IDFT[n，t]为0，其中P<N，并且对于n>N-P，w_A[n]为0，那么在公式(17)中的循环卷积和等同于普通的卷积，并且经滤波的音频信号y听起来没有伪象。即使不能满足这些补零要求，然而，如果使用了充分渐细的分析和合成窗，由循环卷积导致的时域混叠效应通常是听不见的。例如，用于分析和合成的正弦窗通常是适合的。

可以使用STMDCT进行模拟滤波操作：

Y_MDCT[k，t]＝H[k，t]X_MDCT[k，t] (18)

然而，在这种情况下，频域中的乘法不等同于时域中的循环卷积，并且容易引入可听见的伪象。为了理解这些伪象的起因，将正向变换、与滤波器响应的相乘、逆变换以及STDFT和STMDCT的交迭相加等运算表示为一系列的矩阵乘法是有用的。将y_IDFT[n，t](n＝0...N-1)表示为Nx1向量，而将x[n+Mt](n＝0...N-1)表示为Nx1向量x^t，可以得到：

y_{IDFT}^{t} = (W_{S} A_{DFT}^{- 1} H^{t} A_{DFT} W_{A}) x^{t} = T_{DFT}^{t} x^{t} - - - (19)

其中

W_A＝对角线上为w_A[n]、其它为0的N×N矩阵

A_DFT＝N×N的DFT矩阵

H^t＝对角线上为H[k，t]、其它为0的N×N矩阵

w_S＝对角线上为w_S[n]、其它为0的N×N矩阵

由于跳长设定为M＝N/2，则将连续块的第二半及第一半相加，以产生N/2个点的最终信号y。这可以通过矩阵乘法表示如下：

[\begin{matrix} y [Mt] \\ \cdot \\ \cdot \\ \cdot \\ y [Mt + N / 2 - 1] \end{matrix}] = [\begin{matrix} 0 & I & I & 0 \end{matrix}] [\begin{matrix} y_{IDFT}^{t - 1} \\ y_{IDFT}^{t} \end{matrix}] - - - (20 a)

= [\begin{matrix} 0 & I & I & 0 \end{matrix}] [\begin{matrix} T_{DFT}^{t - 1} & \begin{matrix} 0 \\ 0 \end{matrix} \\ \begin{matrix} 0 \\ 0 \end{matrix} & T_{DFT}^{t} \end{matrix}] [\begin{matrix} x [Mt - N / 2] \\ \cdot \\ \cdot \\ \cdot \\ x [Mt + N - 1] \end{matrix}] - - - (20 b)

= V_{DFT}^{t} [\begin{matrix} x [Mt - N / 2] \\ \cdot \\ \cdot \\ \cdot \\ x [Mt + N - 1] \end{matrix}] - - - (20 c)

其中

I＝(N/2×N/2)单位矩阵

0＝(N/2×N/2)零矩阵

MDCT域中的滤波器相乘的模拟矩阵公式可以表示为：

y_{IMDCT}^{t} = (W_{S} A_{SDFT}^{- 1} H^{t} A_{SDFT} (I + D) W_{A}) x^{t} = T_{MDCT}^{t} x^{t} - - - (21)

其中

A_SDFT＝N×N SDFT矩阵

I＝N×N单位矩阵

D＝与公式(9)中的时间混叠对应的N×N时间混叠矩阵

注意到，这个表达式中使用了MDCT和SDFT之间的另外的关系，该论文的关系可以通过下面的关系式表示：

A_MDCT＝A_SDFT(I+D) (22)

其中D是在脱离对角线的左上区域中为-1并且在脱离对角线的左下区域中为1的N×N矩阵。这个矩阵说明了公式9中示出的时间混叠。可以类似地将合并了交迭相加的矩阵

定义为

V_{MDCT}^{t} = [\begin{matrix} 0 & I & I & 0 \end{matrix}] [\begin{matrix} T_{MDCT}^{t - 1} & \begin{matrix} 0 \\ 0 \end{matrix} \\ \begin{matrix} 0 \\ 0 \end{matrix} & T_{MDCT}^{t} \end{matrix}] - - - (23)

现在可以检查对于特定滤波器H[k，t]的矩阵

以及以便了解MDCT域中滤波所引起的伪象。在N＝512的情况下，考虑滤波器H[k，t]，在块t上恒定，其采用如图3a所示的砖壁低通滤波器(brick-walllow pass filter)的形式。在图1b中示出了对应的脉冲响应h_IDFT[n，t]。

在分析和合成窗都设置为正弦窗的情况下，图4a和4b示出了与在图1a中示出的H[k，t]相对应的矩阵以及

的灰度图像。在这些图像中，x轴和y轴分别表示矩阵的列和行，并且灰度的强度表示根据图像右侧所示刻度的、矩阵在特定的行/列位置的值。通过对矩阵的下一半以及上一半进行交迭相加来形成矩阵。可以将矩阵

的每一行看作与信号x卷积以产生滤波信号y的单个采样的脉冲响应。理想地，每一行应当近似等于h_IDFT[n，t]，该h_IDFT[n，t]移位使得其以矩阵对角线为中心。图4b的外观检查说明了这种情况。

图5a和5b示出了用于同一滤波器H[k，t]的矩阵

和

的灰度图像。在

中看到，沿着与公式(19)中的混叠矩阵D对应的主对角线以及脱离对角线的上半部分和下半部分来复制脉冲响应h_IDFT[n，t]。因此，从主对角线处的响应与在混叠对角线处的响应的相加中形成干扰模式。当

的下半部分和上半部分相加以产生

时，由混叠对角线引起的主瓣消除了，但是干扰模式保留。因此，的行不表示沿着矩阵对角线复制的同一脉冲响应。相反地，脉冲响应以快速时变的方式从采样到采样地变化，从而赋予可听的伪象给经滤波的信号y。

现在考虑图6a中示出的滤波器H[k，t]。这是与图1a一样的低通滤波器，但是其具有相对加宽的过渡频带。在图6b中示出了对应的脉冲响应h_IDFT[n，t]，并且注意到，其在时间上比图3b中的响应相对更加紧凑。这反映了这样的一般规律，即在频率上变化越平滑的频率响应会具有在时间越紧凑的脉冲响应。

图7a和7b示出了与该平滑器频率响应对应的矩阵

和

。这些矩阵呈现出了与在图4a和4b中所示的一样的特性。

图8a和8b示出了针对同一平滑频率响应的矩阵

和

由于脉冲响应h_IDFT[n，t]在时间如此紧凑，因而矩阵

没有呈现出干扰模式。在远离主对角线或混叠对角线的位置上没有出现远大于0的h_IDFT[n，t]的部分。除了稍次于混叠对角线的完美消除之外，矩阵与

接近相同，并且因此，经滤波的信号y没有任何明显可听的伪象。

已经证实在MDCT域中的滤波通常会引入感知伪象。然而，如果滤波器响应在频率上平滑变化，那么该伪象变得可以忽略。许多音频应用要求滤波器在频率上突然变化。然而，通常，这些应用是为了不同于感知修改的目的来改变信号的；例如，采样速率转换要求砖壁低通滤波器。用于进行期望的感知变化的滤波操作通常不要求滤波器具有在频率上突然变化的响应。因此，可以在MDCT域中应用这样的滤波操作，而不会引入不想要的感知伪象。尤其是，正如下面将会证实的，将用于响度修改的频率响应的类型限制为在频率上平滑的，并且因此，其可以有利地应用在MDCT域中。

具体实施方式

本发明的各方面在于对已经变换到MDCT域的音频信号的感知响度进行测量。本发明的进一步的方面在于：调整MDCT域中存在的音频信号的感知响度。

MDCT域中的响度测量

正如上面所示，STMDCT的特性使得响度测量成为可能，并且使直接使用STMDCT来表示音频信号成为可能。首先，根据STMDCT估计的功率谱等于根据STSDFT估计的功率谱的大约一半。其次，如果滤波器的脉冲响应在时间上紧凑，那么可以执行STMDCT音频信号的滤波。

因此，用于使用STSDFT和STDFT来测量音频响度的技术也可以用于基于STMDCT的音频信号。此外，由于许多STDFT方法是时域方法的频域等效方法，因此，许多时域方法具有频域STMDCT等效方法。

图9示出了根据本发明基本方面的响度测量器或测量过程的框图。表示时间采样的交迭块的由连续STMDCT频谱(901)组成的音频信号被传递到响度测量设备或过程(“测量响度”)902。输出是响度值903。

测量响度902

测量响度902表示诸如加权功率测量和基于心理声学测量等的任何数量的响度测量设备或过程之一。下面的图描述了加权功率测量。

图10a和10b示出了用于客观地测量音频信号的响度的两种常用技术的框图。这些图表示图9所示的测量响度902在功能性上的不同变化。

图10a示出通常在响度测量设备中使用的加权功率测量技术的结构。音频信号1001通过加权滤波器1002，该加权滤波器1002被设计用来对感知上比较敏感的频率进行加强而削弱感知上较不敏感的频率。计算经滤波的信号1003的功率1005(通过功率1004)，并且在所限定的时间间隔内对其进行平均(通过平均1006)，以建立单个响度值1007。存在许多不同标准的加权滤波器，并且在图11中示出了这些加权滤波器。实际上，经常使用这个过程的改进形式，例如，防止在平均过程中包括静默的时间段。

基于心理声学的技术也常常用于测量响度。图10b示出了这种技术一般化的框图。表示外耳和中耳的频率变化幅度响应的传输滤波器1012对音频信号1001进行滤波。随后经滤波的信号1003(通过听觉滤波器组1014)被分为等价于或窄于听觉临界频带的频带。随后(通过激励1016)将每一个频带变换为激励信号1017，该信号1017表示由人耳在频带内所体验的刺激或激励的量。随后(通过特定响度1018)根据该激励来计算每一频带的感知响度或特定响度，并(通过求和1020)对所有频带上的特定响度进行求和，以建立响度的单个测量1007。该求和的过程可以考虑各种感知效应，例如频率掩蔽。在这些感知方法的实际实施中，传输滤波器和听觉滤波器组要求相当多的计算资源。

根据本发明的方面，对这样的常用方法进行改进，以测量已经在STMDCT域中的信号的响度。

根据本发明的方面，图12a示出了图10a的测量响度设备或过程的改进形式的一个示例。在这个示例中，加权滤波器通过在每一个频带中增加或降低STMDCT值而应用在频域中。随后在考虑到STMDCT信号的功率为等价时域或STDFT信号的大约一半的情况下，在1204中计算频率加权的STMDCT的功率。随后在时间上对功率信号1205进行平均，并输出客观的响度值903。

根据本发明的方面，图12b示出了图10b的测量响度设备或过程的改进形式的一个示例。在这个示例中，改进的传输滤波器1212通过在每一个频带中增加或降低STMDCT值而直接应用在频域中。改进的听觉滤波器组1214接受线性频带间隔的STMDCT频谱作为输入，并且将这些频带分离或组合为临界频带间隔的滤波器组输出1015。改进的听觉滤波器组同样要考虑STMDCT信号的功率为等价时域或STDFT信号的大约一半这个事实。随后(通过激励1016)将每一个频带变换为激励信号1017，该信号1017表示人耳在频带内所体验的刺激或激励的量。随后(通过特定响度1018)根据该激励1017来计算每一频带的感知响度或特定响度，并(通过求和1020)对所有频带上的特定响度进行求和，以建立响度的单个测量903。

加权功率响度测量的实施细节

如前所述，表示STMDCT的X_MDCT[k，t]是音频信号x，其中k是频仓指标，并且t是块指标。为了计算加权功率测量值，首先使用诸如图11所示的合适的加权曲线(A，B，C)对STMDCT值进行增益调整或加权。以使用A加权为例，通过计算离散频率f_discrete的A加权增益值来建立离散A加权频率值A_W[k]，其中

\begin{matrix} f_{discrete} = \frac{F}{2} + F \cdot k & 0 \leq k < N \end{matrix} - - - (24 a)

其中

\begin{matrix} F = \frac{F_{s}}{2 \cdot N} & 0 \leq k < N \end{matrix} - - - (24 b)

并且其中F_s是以每秒采样为单位的采样频率。

通过在频率仓k上将加权值的乘法的平方与在公式13a或公式14c中给出的STMDCT功率谱估计的两倍求和，计算每一个STMDCT块t的加权功率。

P^{A} [t] = Σ_{k = 0}^{\frac{N}{2} - 1} A_{W}^{2} [k] 2 P_{MDCT} [k, t] - - - (25)

随后如下将加权功率变换为dB单位：

L^A[t]＝10·log₁₀(P^A[t]　　　(26)

类似地，可以执行B加权和C加权以及不加权计算。在不加权的情况中，加权值设定为1.0。

心理声学响度测量的实施细节

基于心理声学响度测量也可用来测量STMDCT音频信号的响度。

上述Seefeldt等人的申请WO2004/111994A2尤其公开了基于心理声学模型的感知响度的客观测量。使用公式13a或14c由STMDCT系数901导出的功率谱值P_MDCT[k，t]以及其他类似的心理声学测量值(不是原始PCM音频)可以用作到所公开的设备或过程的输入。在图10b的示例中示出了这样的系统。

从上述PCT申请中借用术语以及符号，如下式，根据STMDCT功率谱值可以近似得到与在时间块t期间沿着内耳的基膜在临界频带b的能量分布近似的激励信号E[b，t]：

E [b, t] = \underset{k}{Σ} {| T [k] |}^{2} {| C_{b} [k] |}^{2} 2 P_{MDCT} {[k, t]}^{2} - - - (27)

其中T[k]表示传输滤波器的频率响应，并且C_b[k]表示基膜在与临界频带b对应的位置处的频率响应，在与变换频仓k对应的频率处对这两个响应进行采样。滤波器C_b[k]可以采用图1中描绘的那样的形式。

使用相等的响度轮廓，将每一频带处的激励变换为会在1kHz处产生同样响度的激励电平。随后通过压缩非线性、根据变换的激励E_1kHz[b，t]来计算特定响度，即在频率和时间上分布的感知响度的测量值：

N [b, t] = G ({(\frac{E_{1 kHz} [b]}{{TQ}_{1 kHz}})}^{α} - 1) - - - (28)

其中TQ_1kHz是安静时在1kHz处的阈值，以及常数G和α被选择为匹配从描述响度演变的心理声学实验中生成的数据。最后，通过对频带上的特定响度求和来计算以宋(sone)为单位的总响度L：

L [t] = \underset{b}{Σ} N [b, t] - - - (29)

为了调整音频信号，可能希望计算匹配增益G_Match[t]，当该匹配增益与音频信号相乘时，使得经调整的音频的响度等于如通过所述心理声学技术所测量的某个参考响度L_REF。由于心理声学测量在计算特定响度时涉及非线性，因此，不存在G_Match[t]的闭合形式解。相反地，可以应用上述PCT申请中描述的迭代技术，在该技术中，调整匹配增益的平方，并将其与总激励E[b，t]相乘，直到相对应的总响度L在参考响度L_REF的一定容差之内。随后用dB表示相对于参考的音频的响度为：

L_{dB} [t] = 20 \log_{10} (\frac{1}{G_{Match} [t]}) - - - (30)

基于STMDCT的响度测量的应用

本发明的主要优点之一是能够测量和修改(在MDCT域中表示的)低比特速率编码音频的响度，而不需要将该音频完全解码为PCM。解码过程包括比特分配、逆变换等昂贵的处理步骤。通过避免一些解码步骤而降低了处理要求、计算负荷。当期望进行响度测量而不需要将音频解码时，这种方法是有益的。应用包括响度确定和修改工具，诸如在Smithers等人的美国专利申请2006/0002572A1中概述的那些工具，该申请于2006年1月5日公开，名称为“Method for correcting metadata affecting theplayback loudness and dynamic range of audio information”，其中常常在不需要访问经解码的音频的广播存储或传播链中执行响度测量和校正。本发明所提供的处理节约同样有助于使得能够对实时传输的大量低比特速率压缩音频信号执行响度测量和元数据校正(例如，将杜比数字(DolbyDigital)DIALNORM元数据参数改变为正确的值)。通常，对许多低比特速率编码音频信号进行复用，并以MPEG传输流的形式传输。与将压缩音频信号全部解码为PCM以执行响度测量的要求相比，高效响度测量技术的存在允许对大量的压缩音频信号进行响度测量。

图13示出了一种不采用本发明的方面的测量响度的方式。对音频进行完全解码(解码为PCM)，并且使用已知的技术来测量音频的响度。更具体而言，首先通过解码设备或过程(“解码”)1302将低比特速率编码音频数据或信息1301解码为未压缩的音频信号1303。随后将这个信号传递到响度测量设备或过程(“测量响度”)1304，并且输出表示为1305的结果的响度值。

图14示出了低比特速率编码音频信号的解码过程1302的一个示例。具体地，它示出了杜比数字(Dolby Digital)解码器和杜比(Dolby)E解码器共有的结构。通过设备或过程1402将各帧经编码的音频数据1301解包为指数数据1403、尾数数据1404以及其它各种比特分配信息1407。通过设备或过程1405将指数数据1403变换为对数功率谱1406，并且通过比特分配设备或过程1408使用这个对数功率谱来计算信号1409，该信号是每一个量化尾数的用比特表示的长度。随后在设备或过程1410中对该尾数1411进行解包和反量化，并将其与指数1409组合，并通过反向滤波器组设备或过程1412变换回时域。该反向滤波器组还将当前反向滤波器组的结果的一部分与先前的反向滤波器组的结果(在时间上)交迭和相加，以产生解码的音频信号1303。在解码器的实际实现中，执行比特分配、尾数反量化和反向滤波器组处理需要相当多的计算资源。在上面引用的A/52A文献中可以发现更多的关于解码处理的细节。

图15示出了本发明的方面的简单框图。在这个示例中，在设备或过程1502中对编码的音频信号1301进行部分解码，以获得MDCT系数，并且在设备或过程902中使用经部分解码的信息来测量响度。依赖于执行部分解码的方式，结果的响度测量903与根据完全解码的音频信号1303计算的响度测量1305可以非常类似，但不是完全相同。然而，对于提供有用的音频信号的响度估计来说，这个测量是足够接近的。

图16示出了体现本发明的方面以及如图15的示例中所示的部分解码设备或过程的一个示例。在这个示例中，不执行逆STMDCT，并且输出STMDCT信号1303用于测量响度设备或过程中。

根据本发明的方面，由于解码不要求滤波器组处理，因此在STMDCT域中的部分解码导致显著的计算开销节约。

感知编码器通常被设计用来接合音频信号的某些特性来改变交迭时间段的长度(也称作块大小)。例如，杜比数字(Dolby Digital)使用两个块大小；512个采样的较长块主要用于稳态音频信号，而256个采样的较短块用于更瞬态的音频信号。结果，频带数量和相对应的STMDCT值的数量逐块地变化。当块大小是512个采样时有256个频带，而当块大小为256个采样时有128个频带。

图13和14的示例能够处理变化的块大小有多种方式，并且每一种方式会导致类似的结果的响度测量。例如，尾数反量化过程805可通过以下来改进以便总是以固定的块速率输出固定数量的频带：将多个较小的块组合成较大的块或进行平均，并将较小数量的频带的功率扩展到较大数量的频带上。替选地，测量响度的方法接受变化的块大小，并(例如)通过调整时间常数，相应地调整它们的滤波、激励、特定响度、平均和求和过程。

一种用于测量杜比数字和杜比E流的响度的本发明的替选形式可能更加有效，但准确性稍差。根据这个替选方式，不执行比特分配和尾数反量化，而仅使用STMDCT指数数据1403来重建MDCT值。从比特流中读取指数，并可将结果的频谱传递到响度测量设备或过程。这避免了比特分配、尾数反量化以及逆变换的计算成本，但是，与使用全部STMDCT值相比，缺点是响度测量的准确性稍差。

使用标准响度音频测试材料进行的实验示出：仅使用经部分解码的STMDCT数据而计算的心理声学响度值与使用由原始的PCM音频数据进行的同样的心理声学测量计算的值非常接近。对于具有32个音频测试片段的测试集合来说，使用PCM与量化的杜比数字指数计算的L_dB的绝对平均差仅为0.093dB，其中最大绝对差为0.54dB。

其它感知音频编解码器

还可将使用MPEG2-AAC编码的音频信号部分解码为STMDCT系数，并且将结果传递到客观的响度测量设备或过程。使用MPEG2-AAC编码的音频主要由比例因子和量化的变换系数组成。首先对比例因子进行解包，并用其对量化的变换系数解包。由于比例因子和量化的变换系数自身都没有包含足够的信息来导出音频信号的原始表示，因此，必须对两者进行解包和组合，并且将结果的频谱传递到响度测量设备或过程。与杜比数字和杜比E类似，这节省了反向滤波器组的计算成本。

基本上，对于其中经部分解码的信息能够产生音频信号的STMDCT或对音频信号的STMDCT的近似的任何编码系统来说，图15中示出的本发明的方面能够导致显著的计算开销节约。

MDCT域中的响度修改

本发明的另外一个方面是：通过基于根据音频的STMDCT表示而获得的响度测量来改变该STMDCT表示，从而修改音频的响度。图17示出修改设备或过程的一个示例。与图9中的示例一样，将由连续STMDCT块(901)组成的音频信号传递到产生响度值903的测量响度设备或过程902。将该响度值与STMDCT信号一起输入到修改响度的设备或过程1704，设备或过程1704可以利用响度值来改变信号的响度。修改响度的方式可以替选地或者附加地由来自诸如系统的操作者等的外部源输入的响度修改参数1705来控制。修改响度的设备或过程的输出是经修改的STMDCT信号1706，该信号包含期望的响度修改。最后，通过反向MDCT设备或函数1707，进一步处理该经修改的STMDCT信号，该反向MDCT设备或函数1707通过对该经修改的MDCT信号的每一块执行IMDCT并随后对连续的块进行交迭相加来合成时域的经修改的信号1708。

图17的示例的一个特定实施例是由诸如A加权等的加权功率测量来驱动的自动增益控制(AGC)。在这样的情况下，用公式25中给出的A加权功率测量值来计算响度值903。通过响度修改参数1705可以提供表示音频信号的期望响度的参考功率测量值

。根据时变功率测量值P^A[t]和参考功率

，可以计算修改增益：

G [t] = \sqrt{\frac{P_{ref}^{A}}{P^{A} [t]}} - - - (31)

将修改增益与STMDCT信号X_MDCT[k，t]相乘，以产生经修改的的STMDCT信号

{\hat{X}}_{MDCT} [k, t] :

{\hat{X}}_{MDCT} [k, t] = G [t] X_{MDCT} [k, t] - - - (32)

在该情况下，经修改的STMDCT信号与平均响度近似等于期望的参考值

的音频信号对应。由于增益G[t]逐块地变化，当根据等式33的经修改的STMDCT信号合成时域信号1708时，将不会完全消除如公式9中所确定的MDCT变换的时域混叠。然而，如果用于根据STMDCT计算功率谱估计的平滑时间常数足够大，增益G[t]将会足够慢地变化，使得该混叠对消误差小且为听不到的。注意，在该情况下修改增益G[t]在所有频仓k上都是恒定的，因而前述的与在MDCT域中滤波相关的问题不再是问题。

除AGC之外，还可以使用加权功率测量以类似的方式来实现其它的响度修改技术。例如，可以通过计算作为P^A[t]的函数的增益G[t]来实现动态范围控制(DRC)，使得当P^A[t]小时音频信号的响度增加，而当P^A[t]大时音频信号的响度降低，从而降低音频的动态范围。对于这样的DRC应用，用于计算功率谱估计的时间常数通常被选择为小于AGC应用中的时间常数，使得增益G[t]对音频信号响度的短期变化起作用。

由于如等式32所示的修改增益G[t]在所有频仓k上都不变，因此可以将其称作宽带增益。使用宽带增益来改变音频信号的响度会引入几个感知上的令人不快的伪象。最公认的是交叉谱振荡的问题，其中一部分频谱的响度的变化可以可听见地改变频谱的其它不相关的部分。例如，古典音乐选段可能包含由持续的弦音符支配的高频，而低频包含响亮的、隆隆的定音鼓。在上面所述的DRC情形下，无论何时击打定音鼓，总体响度都会增大，并且DRC系统将衰减施加到整个频谱。因此，听到弦乐在响度上随着定音鼓上下“振荡”。常用的解决方案包括将不同的增益应用到频谱的不同部分，并且这样的解决方案适合于这里公开的STMDCT修改系统。例如，计算一组加权功率测量值(其中每个测量值来自功率谱的不同区域(在这种情况下频仓k的子集))，并且随后，使用每一个功率测量值来计算响度修改增益，该响度修改增益随后与频谱的对应部分相乘。这样的“多频带”动态处理器通常应用4或5个频带。在这种情况下，增益在频率上变化，并且在与STMDCT相乘之前必须当心在多个频仓k上对增益进行平滑，以如先前所述避免引入伪象。

另一较不被公认的与使用宽带增益来动态改变音频信号的响度相关的问题是：当增益变化时所导致的音频在感知频谱平衡或音色上的移位。这个在音色上所感知的变化是人的响度感知在频率上的变化的副产品。尤其是，相等的响度轮廓示出：与中音频率相比，人对较低和较高的频率较不敏感，并且在响度感知上的该变化随着信号电平而变化；通常，随着信号电平的降低，针对固定信号电平的感知响度在频率上的变化变得更加明显。因此，当使用宽带增益来改变音频信号的响度时，频率间的相对响度发生变化，并且可以感知到音色上的变化是不自然的或者令人讨厌的，尤其是当增益显著变化时更是如此。

在所述国际公开号为WO2006/047600的申请中，使用先前描述的感知响度模型来测量和修改音频信号的响度。对于诸如动态修改音频的响度作为其测量响度的函数的AGC和DRC等的应用来说，当响度变化时通过保持音频的感知频谱平衡来解决前述音色变化的问题。正如等式28所示，这是通过明确地测量和修改感知响度频谱或者特定响度来实现的。此外，系统固有地为多频带的，因此容易配置成解决与宽带增益修改相关联的交叉谱振荡伪象。该系统可以配置成：执行AGC和DRC以及诸如响度补偿量控制、动态量化以及噪声补偿等的其它响度修改应用，在所述的专利申请中可以这些细节。

正如在所述国际公开号为WO2006/047600的申请中所公开的，在这里描述的本发明的方面可以有利地将STDFT应用到测量和修改音频信号的响度上。该应用还证实了：还可使用STMDCT来实现与这个系统相关的感知响度测量，并且现在将示出：同样的STMDCT可用于进行相关的响度修改。等式28示出了一种可根据激励E[b，t]来计算特定响度N[b，t]的方式。一般称这个函数为Ψ{·}，例如

N[b，t]＝Ψ{E[b，t]}　　　　　　　　　(33)

特定响度N[b，t]用作图17中的响度值903，并且随后被馈送到修改响度的过程1704中。基于适合期望响度修改应用的响度修改参数，计算作为特定响度N[b，t]的函数F{·}的期望的目标特定响度

\hat{N} [b, t] = F {N [b, t]} - - - (34)

接下来，系统针对增益G[b，t]求解，当将该增益应用到激励时，产生与期望的目标相等的特定响度。换句话说，发现增益满足下面的关系：

\hat{N} [b, t] = Ψ {G^{2} [b, t] E [b, t]} - - - (35)

在所述专利申请中描述了几种技术，用于发现这些增益。最后，使用增益G[b，t]来修改STMDCT，以便减小根据经修改的STMDCT而测量的特定响度与期望的目标

之间的差。理想地，将差的绝对值减小为0。这可通过如下式那样计算经修改的STMDCT来实现：

{\hat{X}}_{MDCT} [k, t] = \underset{b}{Σ} G [b, t] S_{b} [k] X_{MDCT} [k, t] - - - (36)

其中s_b[k]是与频带b相关的合成滤波器响应，并且可设定为等于等式27中的基膜滤波器C_b[k]。可以将等式36理解为原始STMDCT与时变滤波器响应H[k，t]相乘，其中

H [k, t] = \underset{b}{Σ} G [b, t] S_{b} [k] - - - (37)

前面已经证实：当将整个滤波器H[k，t]应用到与STDFT相反的STMDCT时会引入伪象。然而，如果滤波器H[k，t]在频率上平滑变化，那么这些伪象变得在感知上可以忽略。在合成滤波器s_b[k]被选择为等于基膜滤波器响应C_b[k]并且频带b之间的间隔被选择得足够细的情况下，可以确保该平滑性限制。再参考图1，图1示出了在包括40个频带的优选实施例中使用的合成滤波器响应的曲线图，注意，每一个滤波器的形状在频率上平滑变化，并且在邻近滤波器之间有高度的交迭。因此，作为所有合成滤波器s_b[k]的线性和，滤波器响应H[k，t]被限制为在频率上平滑变化。此外，假如更加确保H[k，t]的平滑性，根据最实际的响度修改应用产生的增益G[b，t]不会在频带与频带之间有显著变化。

图18a示出与响度修改对应的滤波器响应H[k，t]，其中目标特定响度

是仅仅通过以常数因子0.33对原始特定响度N[b，t]进行缩放来计算的。注意，该响应在频率上平滑变化。图18b示出了与这个滤波器对应的矩阵

的灰度图像。注意，图像右侧所示的灰度对应图已被随机化，以突出矩阵中的元素之间的任何小的差别。该矩阵非常接近于沿着主对角线复制的单个脉冲响应的期望结构。

图19a示出与响度修改对应的滤波器响应H[k，t]，其中目标特定响度

是通过将多频带DRC应用到原始特定响度N[b，t]来计算的。同样，该响应在频率上平滑变化。图19b示出了对应的矩阵

的灰度图像，同样示出了随机化的灰度对应图。除了稍微不完美的混叠对角线对消之外，该矩阵呈现期望的对角线结构。然而，这个误差是感知不到的。

实施

可以用硬件或软件或者两者结合(例如可编程逻辑阵列)来实现本发明。除非另外指明，所包括的作为本发明一部分的算法和过程不与任何特定计算机或其它装置固有地相关。尤其是，可以使用具有根据这里的教导所写的程序的各种通用机器，或者可能更方便的是构造更专用的装置(例如集成电路)来执行所需的方法步骤。因此，可以用一个或多个计算机程序来实现本发明，所述计算机程序在一个或多个可编程的计算机系统上执行，每个所述计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储单元)、至少一个输入设备或端口以及至少一个输出设备或端口。将程序代码应用到输入数据，以执行这里描述的函数并产生输出信息。以公知的方式将该输出信息应用到一个或多个输出设备。

可以用任何期望的计算机语言(包括机器语言、汇编语言或高级过程语言、逻辑语言或面向对象的编程语言)来实现每一个这样的程序，以与计算机系统通信。无论如何，该语言是可编译或可解释的语言。

优选地将每一个这样的程序存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如固态存储器或介质、或者磁或光介质)上，用于在由该计算机系统读存储介质或设备时配置和操作计算机，以执行这里描述的过程。也可以考虑将发明的系统实现为用计算机程序配置的计算机可读存储介质，其中该存储介质配置成使得计算机系统以特定和预定的方式来操作，以执行这里描述的功能。

已经描述了本发明的许多实施例。然而，应该理解，在不脱离本发明的精神和范围下，可进行各种修改。例如，这里描述的一些步骤是与顺序无关的，因而能够以不同于所描述的顺序来执行。

Claims

1.一种用于处理由经时间采样的实际信号的改进的离散余弦变换MDCT表示的音频信号的方法，包括：

在MDCT域中测量经MDCT变换的音频信号的感知响度，其中所述测量包括计算对所述经MDCT变换的音频信号的功率谱的估计，以及

至少部分地响应于所述测量，在MDCT域中修改所述经变换的音频信号的感知响度，其中所述修改包括对所述经MDCT变换的音频信号的一个或多个频带进行增益修改。

2.根据权利要求1所述的方法，其中，所述增益修改包括：对所述经MDCT变换的音频信号的一个或多个频带中的每一个频带进行滤波。

3.根据权利要求1或2所述的方法，其中，当对多于一个的频带进行增益修改时，根据临界频带滤波器的响应的平滑性，从频带到频带的一个或多个增益变化是平滑的。

4.根据权利要求1或2所述的方法，其中，当对多于一个的频带进行增益修改时，从频带到频带的一个或多个增益变化是平滑的，以便减少假象。

5.根据权利要求1或2所述的方法，其中，所述增益修改还是参考功率的函数。

6.根据权利要求1或2所述的方法，其中，对响度的所述测量采用与人的响度感知的整合时间相当的平滑时间常数或比人的响度感知的整合时间慢的平滑时间常数。

7.根据权利要求6所述的方法，其中，所述平滑时间常数随着频率而变化。

8.一种用于处理由经时间采样的实际信号的改进的离散余弦变换MDCT表示的音频信号的设备，包括：

用于在MDCT域中测量经MDCT变换的音频信号的感知响度的装置，其中所述测量包括计算对所述经MDCT变换的音频信号的功率谱的估计，以及

用于至少部分地响应于所述测量，在MDCT域中修改所述经变换的音频信号的感知响度的装置，其中所述修改包括对所述经MDCT变换的音频信号的一个或多个频带进行增益修改。

9.根据权利要求8所述的设备，其中，所述增益修改包括：对所述经MDCT变换的音频信号的一个或多个频带中的每一个频带进行滤波。

10.根据权利要求7或8所述的设备，其中，当对多于一个的频带进行增益修改时，根据临界频带滤波器的响应的平滑性，从频带到频带的一个或多个增益变化是平滑的。

11.根据权利要求7或8所述的设备，其中，当对多于一个的频带进行增益修改时，从频带到频带的一个或多个增益变化是平滑的，以便减少假象。

12.根据权利要求7或8所述的设备，其中，所述增益修改还是参考功率的函数。

13.根据权利要求7或8所述的设备，其中，对响度的所述测量采用与人的响度感知的整合时间相当的平滑时间常数或比人的响度感知的整合时间慢的平滑时间常数。

14.根据权利要求13所述的设备，其中，所述平滑时间常数随着频率而变化。