CN1849649A

CN1849649A - 瞬态音频信号分量的编码

Info

Publication number: CN1849649A
Application number: CNA2004800258234A
Authority: CN
Inventors: A·J·格里特斯; A·C·邓布林克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-09-09
Filing date: 2004-08-26
Publication date: 2006-10-18
Also published as: KR20060131729A; WO2005024784A1; EP1665233A1; JP2007505346A; US20070033014A1

Abstract

公开了一种编码(1)音频信号(x(t))的方法。估算(110)音频信号的瞬态信号分量的位置。用第一组多个正弦分量对所述瞬态信号分量的第一部分(ti)建模(111)。估算瞬态信号分量的第一部分(ti)和瞬态信号分量之间的差值(d)。用所述差值的能量量度(E)对所述差值建模；并将所述量度(E)包含在音频流(AS)中。

Description

瞬态音频信号分量的编码

本发明涉及编码以及解码音频信号。

现参见图1，在美国公开申请No.2001/0032087A1中描述了参数编码方案，具体而言是正弦编码器。在该编码器(1)中，从信道10提供的输入音频信号x(t)被分成多个(重叠)段或帧，一般长20ms。通常每段由连续的编码级11、13和14分解为瞬态(C_T)、正弦(C_S)和噪声(C_N)分量(还可能导出输入音频信号的其它分量，例如谐波合成，但是这些与本发明的目的不相关)。

编码器第一级包括：瞬态编码器11，其包括瞬态检测器(TD)110、瞬态分析器(TA)111以及瞬态合成器(TS)112。检测器110估算是否存在瞬态信号分量及其位置。此信息被馈给瞬态分析器111。如果瞬态信号分量的位置被确定，则瞬态分析器111试图提取瞬态信号分量(的主要部分)。它通过采用例如若干(少量)的正弦分量，将形状函数匹配于最好在所估算的开始位置处开始的信号段，并确定形状函数之下的内容。该信息被包含在瞬态码C_T中。

瞬态码C_T被提供给瞬态合成器112。所合成的瞬态信号分量在减法器16从输入信号x(t)中减去，结果为信号x₂。

信号x₂被提供给正弦编码器13，其中，在正弦分析器(SA)130中对其进行分析，而正弦分析器(SA)130确定了(确定性的)正弦分量。正弦编码的最终结果是正弦编码C_S，而在PCT专利申请No.WO00/79519A1中，提供了说明常规生成示范性正弦编码C_S的更为详细的示例。

正弦信号分量由正弦合成器(SS)131从用正弦编码器生成的正弦码C_S中来重构。该信号在减法器17中从到正弦编码器13的输入信号x₂中被减去，结果为剩余的信号x₃，而信号x₃缺少(巨大的)瞬态信号分量和(主要的)确定性正弦分量。

假定剩余的信号x₃主要包括噪声，并且噪声分析器14产生表示该噪声的噪声编码C_N，例如在PCT专利申请No.WO01/89086A1中所描述的那样。

在多路复用器15中，组成包括码C_T、C_S和C_N的音频流AS。

在瞬态编码器11中，如果发生在时间上被定位的事件，例如响板或踏钹(high-hats)的冲击(attack)，则音频信号的一部分被标记为瞬态。

在美国公开申请No.2001/0032087A1中，用专用瞬态窗口(即Meixner窗)窗口化的若干正弦曲线对瞬态建模。在图2中，示出了音频信号(实线)的估算Meixner窗口(虚线)。瞬态估算过程包括三个步骤：

-瞬态位置估算：音频信号中的瞬态位置由瞬态检测器110确定；

-瞬态包络估算：在Meixner瞬态情况下，描述瞬态时间包络的Meixner窗由瞬态分析器111估算；

-正弦内容估算：利用估算的Meixner窗，分析器111估算若干正弦曲线来描述瞬态。正弦曲线由频率和三个复数的、多项式幅度来表示。

在7个正弦曲线用于Meixner瞬态的实现中，瞬态模型所需的比特率范围一般在0.5与2.0kbit/s之间，取决于音频信号中检测到的瞬态的数量。

通过利用如上所述的瞬态建模，就获得了包含瞬态选段(excerpt)的良好音频质量。然而，音频质量可通过增加用于对瞬态建模的正弦曲线的数量来改善。在此情形下，瞬态的冲击被更好地定义，并且获得了瞬态的更多“真实感”。例如，可以发现，通过正弦曲线的数量从7增加到25，可以获得好的结果。

参见图3，分别示出了由7个正弦曲线(虚线)和25个正弦曲线(实线)建模的瞬态的频谱。由25个正弦曲线建模的瞬态频谱类似于原始瞬态频谱，然而由7个正弦曲线建模的瞬态在频谱中具有一些清晰的洞，尽管这7个正弦曲线模拟了频谱中重要的峰值。

然而，利用25个正弦曲线，瞬态模型11所需要的比特率(从使用7个正弦曲线的2kbit/s)显著增加到约6kbit/s。瞬态部分比特率的此增加必须被存储在编码器的正弦和/或噪声建模元件13、14中，因此降低了总的音频质量。

根据本发明，提供根据权利要求1的方法。

本发明通过将噪声分量的参数包括在瞬态描述中，扩展了目前的瞬态模型。因此，代替仅仅使用正弦的是，正弦和噪声都用于描述瞬态。

在优选实施例中，由正弦和噪声建模的瞬态时间间隔可以不同。

瞬态噪声分量的参数导致了比特率的较小增加，但却提高了瞬态的感觉(perceptual)质量。

因此，本发明反而降低了由附加正弦曲线所需的比特率，同时保持了音频质量。这是因为附加正弦曲线没有对频谱中的清晰峰值建模，正如原始正弦曲线那样，相反，附加正弦曲线或多或少地填补了原始正弦曲线之间的间隙。在时域中，由附加正弦描述的信号是类噪声，从而已经发现频谱的这些部分用噪声参数建模更加有效。

现在参见附图通过示例，将描述本发明的实施例，其中：

图1是音频编码器的框图；

图2示出了用于响板选段(实线)的瞬态包络(虚线)的示例；

图3分别示出了由7个正弦曲线(虚线)和25个正弦曲线(实线)建模的瞬态频谱的示例。

图4示出了根据本发明优选实施例的用噪声扩展的瞬态频谱的示例(虚线)，其与由25个正弦曲线(实线)建模的瞬态频谱相比；

图5示出了根据本发明优选实施例建模的瞬态分量；

图6是音频解码器的框图；以及

图7是根据本发明优选实施例的瞬态合成器的详图。

根据本发明的优选实施例，替代地，通过定位的(localized)突发噪声对上述附加(18)正弦曲线建模，而该突发噪声具有与附加正弦相同的能量。突发噪声被置于瞬态的开始，而且固定的时间窗口用于成形突发噪声。只有突发噪声的能量必须在已编码的信号(A_S)的瞬态编码(C_T)内传输，所以仅仅稍微增加了实现本实施例所需的比特率。图4示出了瞬态的频谱，其中突发噪声已经被附加到由7个正弦曲线(虚线)建模的频谱。可以发现，该频谱可以与由25正弦曲线(实线)建模的频谱进行比较。

更具体而言，在优选实施例的编码器中，瞬态分析器111以常规方式使用众多正弦曲线(例如25个)来估算Meixner瞬态并对瞬态建模。该信号用t_h来标注，并且(在44.1kHz采样速率)具有长度U＝720个采样。最相关的正弦曲线(例如7个)被用于生成另一瞬态信号t₁。对最相关的正弦曲线的选择，例如可以利用基于能量的费用(cost)函数或任何其他的常规标准。在任何情况下，信号t₁然后从信号t_h中减去，以便提供差值信号d＝t_h-t₁，用于生成突发噪声。

突发噪声被置于瞬态的开始，并且优选地，具有比该瞬态更短的长度L。在优选实施例中，(在44.1kHZ采样速率)L＝150采样。差值信号根据下列函数来窗口化：

d_w(n)＝d(n)w₀(n)，for n＝1，...，L，

其中w₀是窗，具有渐弱斜率，其被定义为：

w_{0} (n) = \{\begin{matrix} 1, & forn = 1, . . ., L / 2 \\ 0.5 (1 + \cos (2 π (n - L / 2) / L)), & forn = L / 2 + 1, . . . L \end{matrix}

渐弱是汉宁(Hanning)窗的第二部分。然而，可对于窗给出不同的定义。

窗口化的段d_w的能量量度如下：

E = l / L Σ_{n = 1}^{l} d_{w} {(n)}^{2}

并且，能量E连同包含信号t₁的正弦曲线参数一起被量化，并作为瞬态码C_T的一部分被发送到解码器。因此，涉及差值信号d的(附加)正弦曲线的信息被丢弃，并用突发噪声参数替代。

信号t_h由合成器112进行合成，如同在常规编码器中那样，并且信号t_h从输入信号x(t)中减去(16)，以便生成剩下的信号x₂，信号x₂象以前一样在正弦分析模块13中被馈给。可替换地，瞬态码C_T在从输入信号x(t)中被减去之前，可由合成器112合成，如同在解码器(下面说明)中一样，以便生成剩下的信号x₂。

按照这种方式，可通过音频编码器的正弦曲线模块13和噪声模块14，对瞬态部分更好地建模。

现在参见图6，根据本发明的优选实施例的解码器一般具有与美国公开申请No.2001/0032087A1的解码器相同的形式。这里，音频流AS’，例如由根据图1的编码器生成的，从诸如数据总线、天线系统、存储介质等之类的信道获得。音频流AS在解复用器30中被解复用，以获得码C_T、C_S和C_N。这些码被分别提供给瞬态合成器31、正弦合成器32和噪声合成器33。

在本发明的优选实施例中，在瞬态合成器31中，包含原始正弦的信号t₁的参数用于在图7合成器TSS中重构正弦曲线。然后，根据Meixner函数的参数b、ξ，以常规方式窗口化(MDW)该信号。

同时，重构已编码的能量值，结果是能量。白噪声发生器(WNG)提供长度为L的高通滤波器噪声段。优选地，高通滤波器具有300Hz的截止频率，以便避免通过噪声进行超低频率的建模。利用窗口w来窗口化(WDW)已滤波的噪声信号，优选地，窗口w是长度L的汉宁窗。然而，其他窗也可以(例如，非对称的汉宁窗)。

该窗口化噪声信号用r_w表示。此信号通过增益g₁比例缩放，g₁根据下列等式来计算：

g_{t} = \sqrt{\frac{\hat{E}}{l / L Σ_{n = 1}^{L} r_{w} {(n)}^{2}}}

最终生成的能量突发，在加法器39中被添加上瞬态的合成正弦分量，因而完成了瞬态信号y_T的合成，信号y_T在被添加了信号y(t)的其他合成分量时，可以象以前一样进行处理。

在图5中，示出了已建模的瞬态的正弦和噪声分量。上面的迹线示出了瞬态的时间信号。第二条迹线示出了已建模的瞬态正弦分量，而下面的迹线示出了置于在瞬态起始处的突发噪声。应该看到，大多数瞬态被正弦分量描述，然而在瞬态的重要冲击中，添加了噪声分量。

返回参见图6，正弦码C_S用于生成信号y_S，如指定段上的正弦和所描述的。同时，噪声码C_N被馈给噪声合成器NS33，其主要是滤波器，具有近似于噪声频谱的频率响应。NS33通过噪声码C_N滤除白噪声信号，生成重构的噪声y_N。

总信号y(t)包括瞬态信号y_T和任意幅度分解(g)的生成物之和，以及正弦信号y_S和噪声信号y_N之和。音频播放器包含两个加法器36和37，以便计算对应信号的和。总信号被提供给输出单元35，例如扬声器。

本发明可被用于音频编码器中，其中，瞬态通过窗口化正弦曲线来描述。

Claims

1.一种编码(1)音频信号(x(t))的方法，包括步骤：

-估算(110)音频信号的瞬态信号分量的位置；

-用第一组多个正弦分量对所述瞬态信号分量的第一部分(t₁)建模(111)；

-估算瞬态信号分量的第一部分(t₁)和瞬态信号分量之间的差值(d)；

-用所述差值的能量量度(E)对所述差值建模(111)；以及

-将所述量度(E)包含在音频流(AS)中。

2.如权利要求1所述的方法，其中，对所述第一部分建模的步骤包括：

-用第二组多个正弦分量(t_b)对所述瞬态信号分量建模；以及

-按照标准从所述第二组多个正弦分量中选择所述第一组多个正弦分量。

3.如权利要求2所述的方法，其中，所述标准与正弦分量的能量有关。

4.如权利要求2所述的方法，其中，所述估算步骤还包括：从用所述第二组多个正弦分量建模的瞬态中减去用所述第一组多个正弦分量建模的瞬态，以便提供所述差值(d)。

5.如权利要求4所述的方法，其中，所述估算步骤还包括：在时域中窗口化所述差值，以使差值渐弱。

6.如权利要求5所述的方法，其中，所述窗口在时间上小于所述瞬态信号分量。

7.如权利要求5所述的方法，其中，对所述差值建模的所述步骤包括确定所述窗口化的差值(d(w))的能量。

8.一种解码音频流(AS)的方法，包括：

-读取包括一个或多个瞬态码(C_T)的已编码的音频流(AS’)，每个瞬态码(C_T)包括第一组多个正弦分量和能量量度(E)；

-用所述第一组多个正弦分量合成(TSS)瞬态信号分量的第一部分；

-合成(WNG)所述瞬态信号分量时间周期的噪声；

-根据所述能量量度(E)修改(g)所述合成的噪声；以及

-将所述合成的第一部分和所述修改的噪声相加，以生成音频信号(y(t))的合成瞬态分量(y_T)。

9.如权利要求8所述的方法，还包括高通滤波所述合成噪声的步骤。

10.如权利要求8所述的方法，还包括窗口化(WDW)所述合成噪声的步骤，以使所述噪声在所述时间周期上渐弱。

11.如权利要求8所述的方法，其中，所述修改步骤包括通过所述能量量度比例缩放(g)所述合成的噪声。

12.一种包括一个或多个瞬态码(C_T)的音频流(AS)，每个瞬态码(C_T)包括第一组多个正弦分量和能量量度(E)，正弦分量代表音频信号瞬态分量的第一部分(t₁)，能量量度(E)代表瞬态信号分量的第一部分(t₁)和相应瞬态信号分量之间的差值(d)。

13.一种音频编码器(1)，包括：

-分析器(110)，用于估算音频信号的瞬态信号分量的位置；

-第一建模元件(111)，用于用第一组多个正弦分量对所述瞬态信号分量的第一部分(t₁)建模；

-用于估算瞬态信号分量的第一部分(t₁)和瞬态信号分量之间差值(d)的装置；

-第二建模元件(111)，用于用所述差值的能量量度(E)对所述差值建模；以及

-比特流发生器，被安排成将所述量度(E)包含在音频流(AS)中。

14.一种音频播放器(3)，包括：

-用于读取包括一个或多个瞬态码(C_T)的已编码的音频流(AS’)的装置，每个瞬态码(C_T)包括第一组多个正弦分量和能量量度(E)；

-合成器(TSS)，用于用所述第一组多个正弦分量合成瞬态信号分量的第一部分；

-合成器(WNG)，用于合成所述瞬态信号分量时间周期的噪声；

-用于根据所述能量量度(E)修改(g)所述合成的噪声的装置；以及

-加法器，用于将所述合成的第一部分和所述修改的噪声相加，以生成音频信号(y(t))的合成瞬态分量(y_T)。

15.一种包括根据权利要求13的音频编码器和根据权利要求14的音频播放器的音频系统。