CN1708787A

CN1708787A - 用于使用高级心理声学模型来对数字音频编码的方法及其设备

Info

Publication number: CN1708787A
Application number: CNA2003801024427A
Authority: CN
Inventors: 马修·曼纽
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-10-30
Filing date: 2003-10-24
Publication date: 2005-12-14
Also published as: US20040088160A1; KR100467617B1; US7523039B2; KR20040040268A

Abstract

提供了一种使用高级心理声学模型的数字音频编码方法。该音频编码方法包括：根据输入音频信号的特征来确定窗口的类型；根据确定的窗口类型来从输入音频信号产生复合改进离散余弦变换(CMDCT)频谱；通过使用确定的窗口类型来从输入音频信号产生快速傅立叶变换(FFT)频谱；和通过使用产生的CMDCT频谱和FFT频谱来执行心理声学模型分析。

Description

用于使用高级心理声学模型来对数字音频编码的方法及其设备

技术领域

本发明涉及一种用于对数字音频数据编码的编码方法和设备，更具体地讲，涉及这样一种方法和设备，其中高级心理声学模型被使用从而在编码方法和编码设备中所需的计算量和复杂度被减小，而不会降低声音质量。

背景技术

运动图像专家组(MPEG)音频编码器使得听众不会察觉当数据被编码时产生的量化噪声。同时，MPEG音频编码器实现高压缩率。通过MPEG标准化的MPEG-1音频编码器以32kbps～448kbps的比特率来对音频信号编码。MPEG-1音频标准具有用于对数据编码的3种不同的算法。

MPEG-1编码器具有包括层1、层2、和层3的3种模式。层1实现基本算法，而层2和层3为增强模式。处于较高级别的层实现较高压缩率，而另一方面，硬件大小变得较大。

MPEG音频编码器使用紧密反映人类听觉特征的心理声学模型来减小音频编码器的信号的感知冗余。由MPEG标准化的MPEG1和MPEG2采用使用反映人类感知特征并且去除感知冗余的心理声学模型的感知编码方法，从而在对数据解码之后可保持好的声音质量。

通过其人类心理声学模型被分析并被应用的感知编码方法使用安静环境下的阈值和掩蔽效应。掩蔽效应(masking effect)是小于预定阈值的小声音被大声音掩蔽的现象，并且这种存在于同一时间间隔的信号之间的掩蔽也被称为频率掩蔽(frequency masking)。此时，根据频带，掩蔽的声音的阈值改变。

通过使用心理声学模型，能够确定在滤波器频带的每一子带中听不到的最大噪声模型。使用这种每一子带中的噪声电平，即使用掩蔽阈值可获得每一子带的信号掩蔽比(SMR)值。

在第6,092,041号美国专利中公开了使用心理声学模型的编码方法，即转让给Motorola公司的“System and method of encoding and decoding a layeredbitstream by re-applying psychoacoustic analysis in the decoder”。

图1是显示普通MPEG音频编码设备的方框图。这里，在MPEG音频编码器中，现在作为例子来解释MPEG-1层3音频编码器，即MP3音频编码器。

MP3编码器包括：滤波器组110、改进离散余弦变换(MDCT)单元120、快速傅立叶变换(FFT)单元130、心理声学模型单元140、量化和哈夫曼编码单元150、和比特流格式化单元160。

滤波器组110将输入时域音频信号分为32个频域子带以去除音频信号的统计冗余(statistical redundancy)。

通过使用从心理声学模型单元140输入的窗口切换信息，MDCT单元120将在滤波器组110中划分的子带划分为更细的频带以增加频率分辨率。例如，如果从心理声学模型单元140输入的窗口切换信息表示长窗口，那么通过使用36点MDCT来将32个子带分为更细的频带，并且如果窗口切换信息表示短窗口，那么通过使用12点MDCT来将32个子带分为更细的频带。

FFT单元130将输入音频信号转换为频域谱并且将该频谱输出到心理声学模型单元140。

为了根据人类听觉的特征来去除感知冗余，心理声学模型单元140使用从FFT单元130输出的频谱并且确定作为在每一子带中听不到的噪声电平的掩蔽阈值，即SMR。在心理声学模型单元140中确定的SMR值被输入到量化和哈夫曼编码单元150。

另外，心理声学模型单元140计算感知能量级别以确定是否执行窗口切换，并且向MDCT单元120输出窗口切换信息。

为了处理在MDCT被执行之后从MDCT单元120输入的频域数据，基于从心理声学模型单元140输入的SMR值，量化和哈夫曼编码单元150执行位分配(bit allocation)以去除感知冗余并且执行量化以对音频数据编码。

比特流格式化单元160将从量化和哈夫曼编码单元150输入的编码音频信号格式化为MPEG规定的比特流并且输出该比特流。

如上所述，图1所示的现有技术心理声学模型使用从输入音频信号获得的FFT频谱以计算掩蔽阈值。然而，滤波器组引起混叠并且从已经发生混叠的分量中获得的值被使用在量化步骤中。在心理声学模型中，如果基于FFT频谱获得SMR并且SMR被使用在量化步骤中，则不能获得最佳的结果。

发明内容

本发明提供一种数字音频编码方法和设备，其中，改进的心理声学模型被使用，从而当与现有技术MPEG音频编码器比较时，输出音频流的声音质量可被提高，并且数字音频编码步骤的计算量可被减少。

根据本发明的一方面，提供了一种数字音频编码方法，该方法包括：根据输入音频信号的特征来确定窗口的类型；根据确定的窗口类型来从输入音频信号产生复合改进离散余弦变换(CMDCT)频谱；通过使用确定的窗口类型来从输入音频信号产生快速傅立叶变换(FFT)频谱；和通过使用产生的CMDCT频谱和FFT频谱来执行心理声学模型分析。

在数字音频编码方法中，当确定的窗口类型是长窗口时，应用长窗口来产生长CMDCT频谱，应用短窗口来产生FFT频谱，并且基于产生的长CMDCT频谱和短FFT频谱来执行心理声学模型分析。

根据本发明的另一方面，提供了一种数字音频编码设备，该设备包括：窗口切换单元，用于根据输入音频信号的特征来确定窗口的类型；CMDCT单元，用于根据在窗口切换单元中确定的窗口类型来从输入音频信号产生CMDCT频谱；FFT单元，用于通过使用在窗口切换单元中确定的窗口类型来从输入音频信号产生FFT频谱；和心理声学模型单元，用于通过使用在CMDCT单元中产生的CMDCT频谱和在FFT单元中产生的FFT频谱来执行心理声学模型分析。

在该设备中，如果在窗口切换单元中确定的窗口类型是长窗口，则CMDCT单元通过应用长窗口来产生长CMDCT频谱，FFT单元通过应用短窗口来产生短FFT频谱，并且心理声学模型单元基于在CMDCT单元中产生的长CMDCT频谱和在FFT单元中产生的短FFT频谱来执行心理声学模型分析。

根据本发明的另一方面，提供了一种数字音频编码方法，该方法包括：从输入音频信号产生CMDCT频谱；和通过使用产生的CMDCT频谱来执行心理声学模型分析。

该方法还可包括：通过通过将长窗口和短窗口应用到输入音频信号执行CMDCT来产生长CMDCT频谱和短CMDCT频谱。

在该方法中，通过使用产生的长CMDCT频谱和短CMDCT频谱来执行心理声学模型分析。

在该方法中，如果确定的窗口类型是长窗口，则基于心理声学模型分析的结果来对长MDCT频谱执行量化和编码；并且如果确定的窗口类型是短窗口，则基于心理声学模型分析的结果来对短MDCT频谱执行量化和编码。

根据本发明的另一方面，提供了一种数字音频编码设备，该设备包括：CMDCT单元，用于从输入音频信号产生CMDCT频谱；和心理声学模型单元，用于通过使用在CMDCT单元中产生的CMDCT频谱来执行心理声学分析。

在该设备中，CMDCT单元通过通过将长窗口和短窗口应用到输入音频信号执行CMDCT来产生长CMDCT频谱和短CMDCT频谱。

在该设备中，心理声学模型单元通过使用在CMDCT单元中产生的长CMDCT频谱和短CMDCT频谱来执行心理声学分析。

该设备还包括量化和编码单元，并且如果在窗口类型确定单元中确定的窗口类型是长窗口，则量化和编码单元基于心理声学模型分析的结果来对长MDCT频谱执行量化和编码，并且如果在窗口类型确定单元中确定的窗口类型是短窗口，则量化和编码单元基于心理声学模型分析的结果来对短MDCT频谱执行量化和编码。

由于MPEG音频编码器需要非常大的计算量，所以很难将MPEG音频编码器应用到实时处理中。尽管可通过降低输出音频的声音质量来简化编码算法，但是很难在不降低声音质量的情况下来减少计算量。

另外，使用在现有技术MPEG音频编码器中的滤波器组引起混叠。由于从混叠发生的分量获得的值被使用在量化步骤中，所以将心理声学模型应用到发生混叠的频谱是优选的。

另外，如后面将解释的方程式2所示，MDCT频谱在频率2π(k+0.5)/N，k＝0，1，...，N/2-1中提供大小和相位的值。因此计算这些频率的频谱并且应用心理声学模型是优选的。

另外，将CMDCT应用到滤波器组的输出以计算输入信号的频谱，并且根据该频谱来应用心理声学模型，从而FFT变换需要的计算量与现有技术MPEG音频编码器相比可被减小，或者可省略FFT变换处理。

本发明基于上述的事实并且根据本发明的音频编码方法和设备可降低MPEG音频编码处理器的复杂性，而不会降低MPEG音频流的声音质量。

附图说明

通过结合附图对其优选实施例进行详细描述，本发明上述目的和优点将会变得更加清楚，其中：

图1是显示现有技术MPEG音频编码设备的方框图；

图2是显示根据本发明优选实施例的MPEG音频编码设备的方框图；

图3是显示根据本发明用于检测使用在窗口切换算法中的瞬态信号的方法的示图；

图4是由使用在本发明中的窗口切换算法执行的步骤的流程图；

图5是显示根据本发明用于从子带频谱获得整个频谱的方法的示图；

图6是根据本发明另一优选实施例由MPEG音频编码方法执行的步骤的流程图；

图7是根据本发明另一优选实施例的MPEG音频编码设备的方框图；和

图8是根据本发明另一优选实施例的MPEG音频编码方法执行的步骤的流程图。

具体实施方式

现在将参照方程式1至方程式4来详细解释使用在本发明中的算法。

滤波器组将输入信号分为π/32的分辨率。如下所述，可通过将CMDCT应用到滤波器组的输出值来计算输入信号的频谱。此时，变换长度比当CMDCT被直接应用到输入信号而不使用滤波器组的输出值时的变换长度要短。与使用长的变换值相比，对滤波器组输出使用这种短的变换值可减小计算量。

通过下面的方程式1可获得CMDCT：

X(k)＝X_c(k)+jX_s(k) ......方程(1)

其中，k＝0，1，2，...，N/2-1。

在这种情况下，X_c(k)表示MDCT并且X_s(k)表示改进离散正弦变换(MDST)。下面推导出的方程式2至方程式4解释CMDCT和FFT之间的关系。

X_{c} (k) = Σ_{n = 0}^{N - 1} x (n) Cos {2 π (k + 0.5) (n + 0.5 + N / 4) / N}

= Σ_{n = 0}^{N - 1} x (n) Cos {2 πn (k + 0.5) / N + Φ_{k}}

......方程(2)

其中，Ф_k＝2π(k+0.5)(N/4+0.5)/N，并且k＝0，1，...，N/2-1。

另外，MDST可在下面方程式3中如MDCT那样表示：

X_{s} (k) = Σ_{n = 0}^{N - 1} x (n) Sin {2 π (k + 0.5) (n + 0.5 + N / 4) / N}

= Σ_{n = 0}^{N - 1} x (n) Sin {2 πn (k + 0.5) / N + Φ_{k}}

......方程(3)

其中，k＝0，1，...，N/2-1。

另外，假设 x(k)表示CMDCT的复共轭， x(k)可如下面的方程式4来获得：

\overset{&OverBar;}{x} (k) = X_{c} (k) - {jX}_{s} (k)

= Σ_{n = 0}^{N - 1} e^{j {2 πn (k + 0.5) / N + Φ_{k}}}

= e^{- j Φ_{k}} X^{'} (k)

......方程(4)

其中，

X^{'} (k) = Σ_{n = 0}^{N - 1} e^{j {2 πn (k + 0.5) / N}},

并且k＝0，1，...，N/2-1。

如方程式4所示，CMDCT的复共轭通过计算DFT频谱的频率，即2π(k+0.5)/N，k＝0，1，...，N/2-1的频率之间的频谱来获得。

通过变换X′(k)的相位来获得CMDCT的相位，并且这种相位改变不会在MPEG-1层3的心理声学模型中影响不可预测性测量的计算。

考虑此，当分析心理声学模型时，根据本发明的心理声学模型使用CMDCT频谱来代替FFT频谱，或者长CMDCT频谱或短CMDCT频谱来代替长FFT频谱或短FFT频谱。因此，可减少FFT变换中需要的计算量。

现在将参照优选实施例对本发明进行详细解释。

图2是显示根据本发明优选实施例的音频编码设备的方框图。

滤波器组210将输入时域音频信号分为多个频域子带以去除输入音频信号的统计冗余。在本实施例中，音频信号被分为其每个具有π/32带宽的32个子带。尽管32多相滤波器组被使用在本发明中，但其他能够子带编码的滤波器也可被选择地使用。

窗口切换单元220基于输入音频信号的特征确定将被使用在CMDCT单元230和FFT单元240中的窗口类型，并且将确定的窗口类型信息输入到CMDCT单元230和FFT单元240。

窗口类型被分为短窗口(short window)和长窗口(long window)。在MPEG-1层3中，规定了长窗口、起始窗口(start window)、短窗口、和停止窗口(stop window)。此时，起始窗口或停止窗口被用于将长窗口切换为短窗口。尽管在本实施例中，在MPEG-1中规定的窗口类型作为例子来解释，但也可根据其他窗口类型来选择地执行窗口切换算法。稍后将参照图3和图4来详细解释根据本发明的窗口切换算法。

基于从窗口切换单元220输入的窗口类型信息，CMDCT单元230通过将长窗口或短窗口应用到滤波器组210的输出数据来执行CMDCT。

在CMDCT单元230中计算的CMDCT值的实部，即MDCT值被输入到量化和编码单元260。

另外，CMDCT单元230通过将计算的子带频谱相加来计算全部频谱并且将该计算的全部频谱发送到心理声学模型单元250。稍后将参照图5对从子带频谱获得全部频谱的处理进行解释。

LAME算法可被选择地用于MDCT的快速执行。在LAME算法中，通过展开方程式1来优化MDCT。通过利用涉及计算的三角系数(trigonometriccoefficient)的对称性，用加法运算来代替相同系数的相邻乘法(contiguousmultiplication)。例如，通过用324次加法代替224次乘法来减少乘法的次数，对于36点MDCT，MDCT时间减小约70％。该算法也可被应用到MDST。

基于来自窗口切换单元220的窗口类型信息，FFT单元240对输入音频信号使用长窗口或短窗口以执行FFT，并且将计算的长FFT频谱或短FFT频谱输出到心理声学模型单元250。此时，如果使用在CMDCT单元230中的窗口类型是长窗口，则FFT单元240使用短窗口。即，如果CMDCT单元230的输出是长CDMCT频谱，则FFT单元240的输出变为短FFT频谱。同样，如果CMDCT单元230的输出是短CMDCT频谱，则FFT单元240的输出变为长FFT频谱。

心理声学模型单元250将来自CMDCT单元230的CMDCT频谱和来自FFT单元240的FFT频谱组合，并且计算使用在心理声学模型中的不可预测性。

例如，当长窗口被使用在CMDCT中时，通过使用长MDCT和长MDST的结果值来计算长频谱，并且通过使用FFT来计算短频谱。这里，在CMDCT单元230中计算的CMDCT频谱为什么被用于长频谱的原因是基于FFT和MDCT的大小彼此相似的事实，这可以在方程式3和方程式4显示。

另外，当短窗口被使用在CMDCT中时，通过使用短MDCT和短MDST的结果值来计算短频谱，并且通过使用FFT来计算长频谱。

同时，在CMDCT单元230中计算的CMDCT频谱当长窗口被应用时具有1152(32子带×36次子带)的长度，当短窗口被应用时具有384(32子带×12次子带)的长度。另一方面，心理声学模型单元250需要具有1024或256的长度的频谱。

因此，在心理声学模型分析被执行之前，CMDCT频谱通过线性映射被从1152(或384)的长度再取样为1024(或256)的长度。

另外，心理声学模型单元250通过使用计算的不可预测性获得SMR值，并且将该SMR值输出到量化和编码单元260。

量化和编码单元260基于在心理声学模型单元250中计算的SMR值来确定比例因子，并且确定量化系数。基于确定的量化系数，量化和编码单元260执行量化，并且使用该量化的数据执行哈夫曼编码。

比特流格式化单元270将从量化和编码单元260中输入的数据转换为具有预定格式的信号。如果音频编码设备是MPEG音频编码设备，则比特流格式化单元270将该数据转换为具有由MPEG标准规定的格式的信号并且输出该信号。

图3是显示用于基于使用在图2的窗口切换单元220中的滤波器组210的输出来检测使用在窗口切换算法中的瞬态信号的方法的示图。

根据由MPEG规定的MPEG音频标准，基于当前帧的窗口类型和下一帧的窗口切换标志来确定实际窗口类型。心理声学模型基于感知熵(perceptualentropy)来确定窗口切换标志。因此，需要对先于在滤波器组和MDCT单元中处理的帧的至少一帧执行心理声学建模。

另一方面，根据本发明的心理声学模型使用上述的CMDCT频谱。因此，应在应用CMDCT之前确定窗口类型。另外，由于这个原因，根据滤波器组的输出来确定窗口切换标志，并且滤波器组单元和窗口切换单元处理先于正被量化和心理声学建模处理的帧之前的一帧的帧。

如图3所示，来自滤波器组的输入信号被分为3个时间带(time band)和2个频带，即总共6个带。在图3中，在水平轴上，一帧被分为36个样本，即其每个具有12个样本的3个时间带。在垂直轴上，一帧被分为32个子带，即其每一个具有16个子带的2个频带。这里，36个样本和32个子带相应于1152个样本输入。由斜线标记的部分表示用于检测瞬态信号的部分，并且为了方便解释，将由斜线标记的部分称为图3中所示的(1)、(2)、(3)、和(4)。假设区域(1)至(4)中的能量分别是E1、E2、E3、和E4，区域(1)和(2)之间的能量比E1/E2、和区域(3)和(4)之间的能量比E3/E4是指示是否存在瞬态信号的瞬态指标(indicator)。

当信号是非瞬态信号时，瞬态指标的值在预定范围内。因此，如果瞬态指标超过预定范围，则窗口切换算法表示需要短窗口。

图4是由使用在图2所示的窗口切换单元220中的窗口切换算法执行的步骤的流程图。

在步骤410中，输入具有32个子带的一帧的滤波器组输出，其每一个具有36个输出样本。

在步骤420中，如图3所示，输入信号被分为其每个具有12个样本值的3个时间带和其每个具有16个子带的2个频带。

在步骤430中，计算被用于检测瞬态信号的带的能量E1、E2、E3、和E4。

在步骤430中，为了确定在输入信号中是否存在瞬态，比较计算的能量。即计算E1/E2和E3/E4。

在步骤440中，基于计算的邻带(neighboring band)能量比来确定在输入信号中是否存在瞬态。当在输入信号中存在瞬态时，产生指示短窗口的窗口标志，并且当不存在瞬态时，产生指示长窗口的窗口切换标志。

在步骤450，基于在步骤440中产生的窗口切换标志和使用在先前帧中的窗口来确定实际应用的窗口类型。应用的窗口类型可以是使用于MPEG-1标准中的‘短’、‘长停止’、‘长起始’、和‘长’之一。

图5是显示根据本发明用于从子带频谱获得整个频谱的方法的示图。

参照图5，现在将对从从子带滤波器组的输出计算的频谱近似计算信号频谱的方法进行解释。

如图5所示，由分析滤波器H₀(Z)、H₁(Z)、H₂(Z)、...、H_M-1(Z)对输入信号滤波并且下取样(downsample)。然后，下取样的信号，y₀(n)、y₁(n)、y₂(n)、...、y_M-1(n)被上取样(upsample)，由合成滤波器G₀(Z)、G₁(Z)、G₂(Z)、...、G_M-1(Z)滤波，并且组合以重建信号。

这种处理相应于在其中将所有频带的频谱相加的频域中的处理。因此，如果这些滤波器是理想的，则该结果将与通过相加每一频带的Y_m(k)获得的频谱相同，作为结果，可获得输入FFT频谱。另外，如果这些滤波器近似于理想滤波器，则可获得根据本发明的心理声学模型使用的近似频谱。

作为实验的结果，即使当使用的滤波器不是理想带通滤波器时，如果滤波器是使用在MPEG-1层3中的滤波器组，则根据上述方法获得的频谱也与实际频谱相似。

因此，可通过将所有频带中的CMDCT频谱相加来获得输入信号的频谱。通过使用CMDCT获得的频谱是1152个点，而在心理声学模型中需要的频谱是1024个点。因此，CMDCT频谱通过使用简单线性映射来被再取样，并且随后可使用在心理声学模型中。

图6是根据本发明另一优选实施例由MPEG音频编码方法执行的步骤的流程图。

在步骤610中，音频信号被输入到滤波器组，并且输入时域音频信号被分为频域子带以去除输入音频信号的统计冗余。

在步骤620中，基于输入音频信号的特征来确定窗口类型。如果输入信号是瞬态信号，则执行步骤630，并且如果输入信号不是瞬态信号，则执行步骤640。

在步骤630中，通过将短窗口应用到在步骤610中处理的音频数据来执行短CMDCT，并且同时通过应用长窗口来执行长FFT。作为结果，获得短CMDCT频谱和长FFT频谱。

在步骤640中，通过将长窗口应用到在步骤610中处理的音频数据来执行长CMDCT，并且同时通过应用短窗口来执行短FFT。作为结果，获得了长CMDCT频谱和短FFT频谱。

在步骤650，如果在步骤620中确定的窗口类型是短窗口，则通过使用在步骤630中获得的短CMDCT频谱和长FFT频谱来计算使用在心理声学模型中的不可预测性。

如果在步骤620中确定的窗口类型是长窗口，则通过使用在步骤640中获得的长CMDCT频谱和短FFT频谱来计算不可预测性。另外，基于该计算的不可预测性来计算SMR值。

在步骤660中，在步骤610中获得的音频数据的量化根据在步骤650中计算的SMR值来被执行，并且对量化的数据的哈夫曼编码被执行。

在步骤670中，将在步骤660中编码的数据转换为具有预定格式的信号并且随后输出该信号。如果音频编码方法是MPEG音频编码方法，则将该数据转换为具有由MPEG标准规定的格式的信号。

图7是解释根据本发明另一优选实施例的音频编码设备的方框图。

图7中所示的音频编码设备包括：滤波器组单元710、窗口切换单元720、CMDCT单元730、心理声学模型单元740、量化和编码单元750、和比特流格式化单元760。

这里，为了简化解释，由于滤波器组单元710、量化和编码单元750、和比特流格式化单元760执行分别与图2的滤波器单元210、量化和编码单元260、和比特流格式化单元270的功能相似的功能，所以将省略对滤波器组单元710、量化和编码单元750、和比特流格式化单元760的解释。

窗口切换单元720基于输入音频信号的特征来确定将被使用在CMDCT单元730中的窗口的类型，并且将确定的窗口类型信息发送到CMDCT单元730。

CMDCT单元730将长CMDCT频谱和短CMDCT频谱一起计算。在本实施例中，通过执行36点CMDCT、将所有的结果相加、并且随后将具有1152长度的频谱再取样为具有1024长度的频谱来获得使用在心理声学模型单元740中的长CMDCT频谱。另外，通过执行12点CMDCT、将所有的结果相加、并且随后将具有384长度的结果频谱再取样为具有256长度的频谱来获得使用在心理声学模型单元740中的短CMDCT频谱。

CMDCT单元730将计算的长CMDCT频谱和短CMDCT频谱输出到心理声学模型单元740。另外，如果从窗口切换单元720输入的窗口类型是长窗口，则CMDCT单元730将长MDCT频谱输入到量化和编码单元750，并且如果输入窗口类型是短窗口，则CMDCT单元730将短MDCT频谱输入到量化和编码单元750。

心理声学模型单元740根据从CMDCT单元730发送的长频谱和短频谱来计算不可预测性，并且基于计算的不可预测性来计算SMR值。计算的SMR值被发送到量化和编码单元750。

量化和编码单元750基于从CMDCT单元730发送的长MDCT频谱和短MDCT频谱以及从心理声学模型单元740输入的SMR信息来确定比例因子和量化系数。基于该确定的量化系数，执行量化并且对量化的数据执行哈夫曼编码。

比特流格式化单元760将从量化和编码单元750输入的数据转换为具有预定格式的信号并且输出该信号。如果音频编码设备是MPEG音频编码设备，则将该数据转换为具有由MPEG标准规定的格式的信号并且将其输出。

图8是由根据本发明另一优选实施例的MPEG音频编码方法执行的步骤的流程图。

在步骤810中，滤波器组接收音频信号，并且为了去除输入音频信号的统计冗余，输入时域音频信号被分为频域子带。

在步骤820中，基于输入音频信号的特征来确定窗口类型。

在步骤830中，通过将短窗口应用到在步骤810中处理的音频数据来执行短CMDCT，并且同时通过应用长窗口来执行长FFT。作为结果，短CMDCT频谱和长FFT频谱被获得。

在步骤840中，通过使用在步骤830中获得的短CMDCT频谱和长CMDCT频谱来计算将在心理声学模型中使用的不可预测性。另外，基于计算的不可预测性来计算SMR值。

在步骤850中，如果在步骤820中确定的窗口类型是长窗口，则输入在步骤830中获得的频谱中的长MDCT值，根据在步骤840中计算的SMR值来对长MDCT值执行量化，并且对该量化的数据执行哈夫曼编码。

在步骤860中，将在步骤850中编码的数据转换为具有预定格式的信号并且将该信号输出。如果音频编码方法是MPEG音频编码方法，则将该数据转换为具有由MPEG标准规定的格式的信号。

本发明不限于上述的优选实施例，并且很清楚，本领域的技术人员在本发明的精神和范围内可以进行改变和修改。具体地讲，除了MPEG-1层3外，本发明可被应用到所有使用MDCT和心理声学模型的音频编码设备和方法中，如MPEG-2高级音频编码(AAC)、MPEG-4、和windows媒体音频(WMA)。

本发明可以以能够由计算机读取的计算机可读记录介质上的代码来实施。计算机可读记录介质包括所有类型的在其上存储计算机可读数据的记录设备。

计算机可读记录介质包括存储介质，如磁存储介质(如ROM、软盘、硬盘等)、光学可读介质(如CD-ROM、DVD等)和载波(如通过互联网的传输)。另外，计算机可读记录介质可被分散在经由网络连接的计算机系统上并且能够以分布模式存储并执行计算机可读代码。

产业上的可利用性

如上所述，通过应用根据本发明的高级心理声学模型，CMDCT频谱代替FFT频谱而被使用，从而与输入音频信号相比，FFT变换中所需的计算量和MPEG音频编码器的复杂性可被降低，而没有降低输出音频流的声音质量。

Claims

1、一种数字音频编码方法，包括：

(a)根据输入音频信号的特征来确定窗口的类型；

(b)根据确定的窗口类型从输入音频信号产生复合改进离散余弦变换(CMDCT)频谱；

(c)通过使用确定的窗口类型来从输入音频信号产生快速傅立叶变换(FFT)频谱；和

(d)通过使用产生的CMDCT频谱和FFT频谱来执行心理声学模型分析。

2、如权利要求1所述的方法，其中，步骤(a)还包括：

(a1)通过对输入音频信号滤波来将输入音频信号分为多个子带，和对被分为子带的输入音频信号执行用于确定窗口类型的步骤。

3、如权利要求2所述的方法，其中，通过多相滤波器组来执行步骤(a1)。

4、如权利要求1所述的方法，其中，如果在步骤(a)中确定的窗口类型是长窗口，则在步骤(b)中通过应用长窗口来产生长CMDCT频谱，在步骤(c)中通过应用短窗口来产生短FFT频谱，并且在步骤(d)中基于产生的长CMDCT频谱和短FFT频谱来执行心理声学模型分析。

5、如权利要求1所述的方法，其中，如果在步骤(a)中确定的窗口类型是短窗口，则在步骤(b)中通过应用短窗口来产生短CMDCT频谱，在步骤(c)中通过应用长窗口来产生长FFT频谱，并且在步骤(d)中基于产生的短CMDCT频谱和长FFT频谱来执行心理声学模型分析。

6、如权利要求1所述的方法，其中，在步骤(a)中，如果输入音频信号是瞬态信号，则将窗口的类型确定为短窗口，并且如果输入音频信号不是瞬态信号，则将窗口的类型确定为长窗口。

7、如权利要求1所述的方法，还包括：

(e)基于在步骤(d)中执行的心理声学模型分析的结果来执行量化和编码。

8、如权利要求1所述的方法，其中，心理声学模型是由包括运动图像专家组(MPEG)-1 layer 3、MPEG-2高级音频编码(AAC)、MPEG-4、和windows媒体音频(WMA)的组中的一个所使用的模型。

9、一种数字音频编码设备，包括：

窗口切换单元，用于根据输入音频信号的特征来确定窗口的类型；

CMDCT单元，用于根据在窗口切换单元中确定的窗口类型来从输入音频信号产生CMDCT频谱。

FFT单元，用于通过使用在窗口切换单元中确定的窗口类型来从输入音频信号产生FFT频谱；和

心理声学模型单元，用于通过使用在CMDCT单元中产生的CMDCT频谱和在FFT单元中产生的FFT频谱来执行心理声学模型分析。

10、如权利要求9所述的设备，其中，编码设备还包括：滤波器单元，用于通过对输入音频信号滤波来将输入音频信号分为多个子带；和窗口切换单元，用于基于滤波器单元的输出数据来确定窗口类型。

11、如权利要求10所述的设备，其中，滤波器单元是多相滤波器组。

12、如权利要求9所述的设备，其中，如果在窗口切换单元中确定的窗口类型是长窗口，则CMDCT单元通过应用长窗口来产生长CMDCT频谱，FFT单元通过应用短窗口来产生短FFT频谱，并且心理声学模型单元基于在CMDCT单元中产生的长CMDCT频谱和在FFT单元中产生的短FFT频谱来执行心理声学模型分析。

13、如权利要求9所述的设备，其中，如果在窗口切换单元中确定的窗口类型是短窗口，则CMDCT单元通过应用短窗口来产生短CMDCT频谱，FFT单元通过应用长窗口来产生长FFT频谱，并且心理声学模型单元基于在CMDCT单元中产生的短CMDCT频谱和在FFT单元中产生的长FFT频谱来执行心理声学模型分析。

14、如权利要求9所述的设备，其中，如果输入音频信号是瞬态信号，则窗口切换单元将窗口的类型确定为短窗口，并且如果输入音频信号不是瞬态信号，则将窗口的类型确定为长窗口。

15、如权利要求9所述的设备，还包括：

量化和编码单元，用于基于来自CMDCT单元的音频数据和心理声学模型单元的结果值来执行量化和编码。

16、如权利要求9所述的设备，其中，心理声学模型是由包括MPEG-1层3、MPEG-2 AAC、MPEG-4、和WMA的组中的一个所使用的模型。

17、一种数字音频编码方法，包括：

(a)从输入音频信号产生CMDCT频谱；和

(b)通过使用产生的CMDCT频谱来执行心理声学模型分析。

18、如权利要求17所述的方法，其中，步骤(a)还包括：

(a1)通过通过将长窗口和短窗口应用到输入音频信号执行CMDCT来产生长CMDCT频谱和短CMDCT频谱。

19、如权利要求18所述的方法，其中，在步骤(b)中，通过使用在步骤(a1)中产生的长CMDCT频谱和短CMDCT频谱来执行心理声学模型分析。

20、如权利要求17所述的方法，其中，步骤(a)还包括：

(a1)通过对输入音频信号滤波来将输入音频信号分为多个子带，和对分为子带的输入音频信号执行用于产生CMDCT频谱的步骤。

21、如权利要求17所述的方法，还包括：

(a1)根据输入音频信号的特征来确定窗口的类型。

22、如权利要求21所述的方法，其中，在步骤(a1)中，如果输入音频信号是瞬态信号，则将窗口类型确定为短窗口，并且如果输入音频信号不是瞬态信号，则将窗口类型确定为长窗口。

23、如权利要求20所述的方法，其中，由多相滤波器组来执行步骤(a1)。

24、如权利要求22所述的方法，其中，如果在步骤(a1)中确定的窗口类型是长窗口，则基于在步骤(b)中执行的心理声学模型分析的结果来执行长MDCT频谱的量化和编码，并且如果在步骤(a1)中确定的窗口类型是短窗口，则基于在步骤(b)中执行的心理声学模型分析的结果来执行短MDCT频谱的量化和编码。

25、如权利要求17所述的方法，其中，心理声学模型是由包括MPEG-1层3、MPEG-2 AAC、MPEG-4、和WMA的组中的一个所使用的模型。

26、一种数字音频编码设备，包括：

CMDCT单元，用于从输入音频信号产生CMDCT频谱；和

心理声学模型单元，用于通过使用在CMDCT单元中产生的CMDCT频谱来执行心理声学分析。

27、如权利要求26所述的设备，其中，CMDCT单元通过通过将长窗口和短窗口应用到输入音频信号执行CMDCT来产生长CMDCT频谱和短CMDCT频谱。

28、如权利要求27所述的设备，其中，心理声学模型单元通过使用在CMDCT单元中产生的长CMDCT频谱和短CMDCT频谱来执行心理声学分析。

29、如权利要求26所述的设备，还包括：

滤波器单元，用于通过对输入音频信号滤波来将输入音频信号分为多个子带，其中，CMDCT单元对被分为子带的数据执行CMDCT。

30、如权利要求26所述的设备，还包括：

窗口类型确定单元，用于根据输入音频信号的特征来确定窗口的类型。

31、如权利要求30所述的设备，其中，如果输入音频信号是瞬态信号，则窗口类型确定单元将窗口类型确定为短窗口，并且如果输入音频信号不是瞬态信号，则将窗口类型确定为长窗口。

32、如权利要求29所述的设备，其中，滤波器单元是多相滤波器组。

33、如权利要求31所述的设备，还包括：

量化和编码单元，其中，如果在窗口类型确定单元中确定的窗口类型是长窗口，则量化和编码单元基于在心理声学模型单元中执行的心理声学模型分析的结果来对长MDCT频谱执行量化和编码，并且如果在窗口类型确定单元中确定的窗口类型是短窗口，则基于在心理声学模型单元中执行的心理声学模型分析的结果来对短MDCT频谱执行量化和编码。

34、如权利要求26所述的设备，其中，心理声学模型是由包括MPEG-1层3、MPEG-2 AAC、MPEG-4、和WMA的组中的一个所使用的模型。

35、一种用于记录使计算机能够提供对输入音频信号编码的服务的计算机程序代码的计算机可读记录介质，该服务包括以下步骤：

(a)根据输入音频信号的特征来确定窗口的类型；

(b)根据确定的窗口类型来从输入音频信号产生复合改进离散余弦变换(CMDCT)频谱；

36、如权利要求35所述的计算机可读记录介质，其中，步骤(a)还包括：

37、如权利要求36所述的计算机可读记录介质，其中，由多相滤波器组来执行步骤(a1)。

38、如权利要求35所述的计算机可读记录介质，其中，如果在步骤(a)中确定的窗口类型是长窗口，则在步骤(b)中通过应用长窗口来产生长CMDCT频谱，在步骤(c)中通过应用短窗口来产生短FFT频谱，并且在步骤(d)中基于产生的长CMDCT频谱和短FFT频谱来执行心理声学模型分析。

39、如权利要求35所述的计算机可读记录介质，其中，如果在步骤(a)中确定的窗口类型是短窗口，则在步骤(b)中通过应用短窗口来产生短CMDCT频谱，在步骤(c)中通过应用长窗口来产生长FFT频谱，和在步骤(d)中基于产生的短CMDCT频谱和长FFT频谱来执行心理声学模型分析。

40、如权利要求35所述的计算机可读记录介质，其中，在步骤(a)中，如果输入音频信号是瞬态信号，则将窗口的类型确定为短窗口，并且如果输入音频信号不是瞬态信号，则将窗口的类型确定为长窗口。

41、如权利要求35所述的计算机可读记录介质，还包括：