CN1135721C

CN1135721C - 音频信号编码方法及其有关设备

Info

Publication number: CN1135721C
Application number: CNB981041809A
Authority: CN
Inventors: 林殷; 殷林
Original assignee: Nokia Mobile Phones Ltd
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 2004-01-21
Anticipated expiration: 2018-03-13
Also published as: US7194407B2; GB9805294D0; JP2003140697A; FR2761801A1; DE19811039B4; FR2761801B1; CN1195930A; EP0966793A1; US6721700B1; AU733156B2; US20040093208A1; WO1998042083A1; KR20000076273A; AU6216498A; KR100469002B1; SE9800776D0; EP0966793B1; GB2323759B; FI971108A0; SE521129C2

Abstract

一种音频信号编码方法，包括：接收待编码的音频信号x；将其从时域转换到频域；从转换成的音频信号x连同一组可用以直接从量化音频信号的一个或多个先前时帧预测所收到音频信号的现行时帧的长期预测系数A产生量化音频信号；用预测系数A产生音频信号X；再将预测音频信号X从时域转换到频域，并将得出的频域信号与所收到音频信号x的相应频域比较以产生多个子频带的误差信号W(k)；接着量化误差信号E(k)以产生一组量化误差信号(k)，此信号与预测系数A组合产生编码音频信号。

Description

音频信号编码方法及其有关设备

技术领域

本发明涉及一种音频信号编码方法及其有关设备，并涉及一种音频信号解码方法及其有关设备。

背景技术

从所周知，数据传输是为提高信噪比和沿传输信道的信息容量而以数字形式进行的。但目前不断有这样的要求：希望通过大幅度压缩数字信号来进一步提高信息容量。对于音频信号一般应用两种基本压缩原理。第一种压缩原理是除去源信号中的统计或确定性冗余信息，第二种压缩原理是抑制或消除源信号中对人的知觉来说是多余的部分。近来，后一种压缩原理在高质量音频信号的应用中占主导地位，而且一般是将音频信号按其频率分量(有时叫做“子频带”)分解，各部分经过分析并以既定的量化精确度进行量化以除去(与收听者)无关的数据。ISO(国际标准化组织)MPEG(动画专家组)音频信号编码标准和其它音频信号编码标准采用并说明了这个原理，但MPEG(和其它标准)也采用了一种叫做“自适应预测”的方法进一步减小数据率。

接新MPEG-2 AAC标准操作的编码器的操作过程在国际标准文件草案ISO/IEC DIS 13818-7中有详细说明。新MPEG-2标准采用用1024中的672个频率分量进行的反向线性预测。预计新MPEG-4标准也会有类似的要求。然而，如此大量的频率分量使计算时需要进行大量的辅助计算操作，一来是由于预测算法复杂，二来也是因为需要有大量存储器来存储计算出和中间的各项系数。众所周知，在频域中采用这种反向自适应预测公式时难以进一步减轻计算负荷和对存储器的需求量。这是因为在频域下预测公式的数量如此之大以致即使极其简单的自适应算法也仍然会使计算大为复杂而且需要大量的存储器。大家知道，为避免这个问题，可以采用在编码器中更新后传送给解码器的前向自适应预测公式，但在频域中采用多个前向自适应预测公式不可避免地由于预测公式的数量如此庞大而产生大量“枝节的”信息。

发明内容

本发明的目的即要克服或至少减少周知预测法的上述缺点。

上述和其它目的是通过用误差信号对音频信号进行编码来除去音频信号多个子频带中每一个的多余信息并在时域中产生能使音频信号的当前信号帧从先前的一个或多个信号帧预测出来的长期预测系数达到的。

按照本发明的第一方面，本发明提供的音频信号编码方法包括下列步骤：

接收待编码的音频信号x；

由所接收的音频信号的一个时帧产生子频带；

从收到的音频信号x产生量化的音频信号

产生长期预测系数A(2)；

对于一个时帧的每一子频带，可通过使用该组长期预测系数A以直接从量化音频信号的至少一个先前的时间帧预测所收到音频信号x的当前时间帧的一组长期预测系数A；

用该组长期预测系数A产生量化音频信号的预测音频信号

将所收到的音频信号x与预测音频信号

相比较从而产生多个子频带中每一个的误差信号E(k)；

量化误差信号E(k)从而产生一组量化误差信号

将量化误差信号与预测系数A组合起来从而产生编码音频信号。

本发明用来在时域中用前向自适应预测公式压缩音频信号。对所收到信号的各时帧，只需要产生一组前向自适应预测系数传送给解码器。相比之下，周知的前向自适应预测法就需要给各时帧的各子频带产生一组预测系数。与本发明得出的预测增益比较起来，长期预测公式的枝节信息可以忽略不计。

本发明的某些实施例能减少计算的复杂性和存储器需用量。具体地说，和采用前向自适应预测相比，无需在解码器中重新计算预测系数。本发明的某些实施例对信号变化的反应还比一般反向自适应预测公式快得多。

在本发明的一个实施例中，所收到的音频信号x在信号帧x_m上从时域转换到频域从而提供一组子频带信号X(k)。预测出的音频信号同样从时域转换到频域从而产生一组预测子频带信号

同时在频域上比较所收到的音频信号x和预测的音频信号彼此比较各子频带信号从而产生子频带误差信号E(k)。量化的音频信号是通过在时域或频域中将预测信号与量化误差信号相加产生的。

在本发明的另一个实施例中，所收到音频信号x与预测音频信号的比较是在时域中进行的从而也在时域中产生误差信号e。接着，此误差信号e从时域转换到频域从而产生所述多个子频带误差信号E(k)。

误差信号的量化最好按音质模型进行。

按照本发明的第二方面，本发明提供的编码音频信号解码方法包括下列步骤：

接收编码音频信号，该编码音频信号包括音频信号多个子频带中每一个的量化误差信号和音频信号各时帧的一组可用以直接从重组量化音频信号

的至少一个先前的时帧预测所收到音频信号当前时帧x_m的预测系数A；

根据量化误差信号

产生所述重组的量化音频信号

用预测系数A和量化音频信号

产生预测音频信号

将预测音频信号从时域转换到频域以产生一组供与量化误差信号组合以产生一组重组子频带信号的预测子频带信号；和

对重组的子频带信号进行从频域到时域的转换以产生重组量化音频信号

本发明上述第二方面的实施例特别适用于只收到所有可能加以量化的误差信号

子集的场合，某些子频带数据通过传送音频子频带信号X(k)直接传送。信号

和X(k)适当加以组合之后才进行频域到时域的转换。

按照本发明的第三方面，本发明提供的音频信号编码设备包括：

一个输入端，供接收待编码的音频信号x；

第一发生装置，用于由所接收的音频信号产生子频带；

量化装置，连接到所述输入端，供从所收到的音频信号x产生量化音频信号

预测装置，连接到所述量化装置上，供产生一组长期预测系数A，该组长期预测系数用于为一个时帧的每一子频带直接从量化音频信号

的至少一个先前时帧预测所收到音频信号x的当前时帧x_m的长期预测系数。

第二发生装置，用于利用该组长期预测系数A和该量化音频信号来使用预测系数A产生预测音频信号x，并将所收到的音频信号x与预测音频信号

加以比较以产生多个子频带的每一个的误差信号E(k)。

量化装置，供量化误差信号E(k)以产生一组量化误差信号

和

组合装置，供将量化误差信号

与预测系数A加以组合以产生编码音频信号。

在一个实施例中，所述发生装置包括第一转换装置、第二转换装置和比较装置，第一转换装置用于将所收到的音频信号x从时域转换到频域，第二转换装置供将预测音频信号从时域转换到频域，比较装置则配置得使其比较得出的频域中各频域信号。

在本发明的另一个实施例中，发生装置配置得使其在时域中将所收到的音频信号x与时域中的预测音频信号相比较。

按照本发明的第四方面，本发明提供的编码音频信号x的解码装置，其中编码音频信号包括音频信号各个子频带的量化误差信号

和音频信号各时帧的一组预测系数A，其中预测系数A可用以直接从重组的量化音频信号x的至少一个先前时帧预测所收到音频信号的当前时帧x_m，所述设备包括：

一个输入端，供接收编码音频信号；

重组量化音频信号发生装置，供从量化误差信号产生所述重组量化音频信号；和

信号处理装置，供从预测系数A和所述重组音频信号产生预测音频信号；

其中所述发生装置包括第一转换装置、组合装置和第二转换装置，第一转换装置供将预测音频信号x从时域转换到频域以产生一组预测子频带信号

组合装置供将所述一组预测子频带信号与量化误差信号

组合起来以产生一组重组子频带信号

第二转换装置对重组子频带信号进行频域到时域的转换以产生重组量化音频信号

附图说明

为更好地理解和示范本发明如何实施，现在参看以举例的方式例示的附图，附图中：

图1示意出了供对所收到的音频信号进行编码的编码器；

图2示意示出了供对图1的编码器编码的音频信号进行解码的解码器；

图3更详细地示出了图1包括编码器的预测工具的编码器；

图4更详细地示出了图2包括解码器的预测工具的解码器；

图5详细示出了图1的编码器采用另一种预测工具的修改方案。

具体实施方式

图1示出了履行MPEG-2 AAC标准一般术语中所述的编码功能的编码器的方框图。到编码器的输入是经抽样的单相信号x，其各抽样点组合到各时帧或2N点的码组中，即

x_m＝(x_m(0)，x_m(1)，...，x_m(2N-1))^T (1)其中m为码组下标，T表示转置。各抽样点的组合由滤波器组工具1进行，工具1还对音频信号的各个别帧进行修正的离散余弦变换(MDCT)以产生一组子频带系数

X_m＝[X_m(0)，X_m(1)，...，X_m(N-1)]^T (2)各子频带在MPEG标准中有规定。

前向MDCT用下式表示：

X_{m} (k) = Σ_{i = 0}^{IN - 1} f (i) X_{m} (i) COS (\frac{π}{4 N} (2 i + 1 + N) (2 k + 1)

K = 0, . . ., N - 1 - - - (3)

其中f(i)为分析-综合窗口，这是一个对称窗口，因而其附加重叠作用使信号中产生单位增益。

各子频带信号X(k)依次加到预测工具2(下面将更详细说明)上，旨在消除各子频带信号中的长期冗余信息。得出的是一组子频带误差信号

E_m(k)＝[E_m(0)，E_m(1)，...，E_m(N-1)]^T (4)这些信号表示各子频带中的长期变化和各帧的一组前向自适应预测系数A。

子频带误差信号E(k)加到量化器3上，由量化器3用音质模型确定的一系列比特量化各信号。此模型由控制器4使用。如上所述，音质模型用来模拟人类听觉系统的屏蔽行为。接着，量化误差信号

和预测系数A在比特流多路复用器5中组合，以便通过传输信道6发送出去。

图2示出了对图1编码器所编码的音频信号进行解码的解码器总配置图。位流多路分解器7先从量化误差信号

将预测系数分离出来，再将各误差信号分解成分立的子频带信号。预测系数A和量化误差子频带信号

提供给预测工具8，预测工具8倒转编码器中进行的预测过程，即预测工具将提取的冗余信息重新插入编码器中，从而产生重组量化子频带信号接着，滤波器组工具9通过对所收到形式的信号

进行反向变换恢复时域信号

这可用下式表示：

{\tilde{X}}_{m} (i) = {\tilde{U}}_{m - 1} (i + N) + {\tilde{U}}_{m} (i)

i = 0, . . ., N - 1 - - - (5)

其中

{\tilde{U}}_{i} (I), i = 0, . . ., 2 N - 1

为

的反向变换

{\tilde{U}}_{m} (i) = f (i) Σ_{K = 0}^{N - 1} {\tilde{X}}_{on} (k) COS (\frac{π}{4 N} (2 i + 1 + N) (2 k + 1))

i = 0, . . ., 2 N - 1

这近似于原音频信号x。

图3更详细地示出了图1编码器的预测方法。采用量化子频带误差信号E(k)，信号处理器10产生一组量化子频带信号

信号

接着加到滤波器组11上，由滤波器组11对各信号进行反向修正离散余弦变换(IMDCT)从而产生量化时域信号

接着，信号加到也接收音频输入信号x的长期预测工具12上。预测工具12根据先前量化的数据用长期(LT)预测程序除去存在于现行帧m+1中的音频信号冗余信息。此预测程序的转移函数为：

P (Z) = Σ_{K = - m_{1}}^{m_{2}} b_{k} Z^{- (α + k)} - - - (5)

其中α表示1至1024个范围内的抽样中的长时延，b_k为预测系数。M1＝M2＝0时，预测器只有一个抽头，M1＝M2＝1时，预测器是3个抽头的。

参数α和b_k是在2N个抽样的时间预测LT之后使均方误差最小化确定的。预测器是单抽头时，LT预测余值r(i)可用下式(6)表示：

r (i) = x (i) - b^{\tilde{x}} (i - 2 N + 1 - α) - - - (6)

其中x为时域音频信号，

为时域量化信号。均方余值R可用下式(7)表示：

R = Σ_{i = 0}^{IN - 1} γ^{2} (i) = Σ_{i = 0}^{2 N - 1} {(X (i) - b \tilde{x} (i - 2 N + 1 - α))}^{2} - - - (7)

取2R/2b＝0，得出

b = \frac{Σ_{i = 0}^{N - 1} x (i) \tilde{x} (i - 2 N + 1 - α}{Σ_{i = 0}^{2 N - 1} [\tilde{x} {(i - 2 N - 2)]}^{2}} - - - - (8)

将b代入(7)式中得出：

R = Σ_{i = 0}^{2 N - 1} x^{2} (i) - \frac{{(Σ_{i = 0}^{2 N - 1} x (i) \tilde{x} (i - 2 N + 1 - α))}^{2}}{{(Σ_{i = 0}^{2 N + 1} (\tilde{x} (2 m - 2 N + 1 - α)))}^{2}} - - - (9)

R的最小化意味着(9)式右侧第二项的最大化。此项按在其特定范围内所有可能的值计算，选取使此项最大化的α值。(9)式分母中的能量以Ω表示，不难用下式(10)从时延(α-1)更新到α而无需重新计算：

Ω_{α} = Ω_{α - 1} +^{{\tilde{x}}^{2}} (-) -^{{\tilde{x}}^{2}} (- α + N) - - - (10)

若采用单抽头的LT预测器，则(8)式用以计算预测系bj。采用j抽头的预测器时，则先最大化(9)式的第二项来确定LT预测时延，再解一组j×j方程计算各j预测系数。

LT预测参数A为延伸α和预测系数bj。时延按所使用的范围用9至11比特量化。最常使用的10比特，其值在1至1024的范围，共1024个。为减小比特数，可将LT预测时延以5比特Δ编码成偶数帧。实验表明，以3至6比特量化增益也就够了。由于增益不均匀分布，因而得采用非均匀量化。

在上述方法中，LT综合滤波器的稳定性l/P(Z)不是始终得到保证的。单一抽头预测器的稳定条件为|b|≤1，因而每当|b|＞1时，只要取|b|＝1就不难进行稳定化。预测化式有3个抽头时，可以采用另一种稳定化程序，例如R.P.Ramachandran和P.Kabal在“语音编码器中音调滤波器的稳定和性能分析”一文(1987年7月第35卷第7期的IEEE论文集ASSP第937～946页)中所述的那一种。然而，LT综合滤波器不稳定对重组信号的质量并不那么有害。不稳定的滤波器会持续一些帧的时间(增加能量)，但最终总会和稳定下来从而使输出不继续随时间而增加。

确定LT预测器系数之后，可确定第(m+1)帧的预测信号：

i = mN + 1, mN + 2, . . ., (m + 1) N - - - (11)

接着，预测出的时域信号加到滤波器组13，由滤波器组13往信号上加MDCT从而产生第(m+1)个帧的预测频谱系数接着，在减法器14从频谱系数X(k)减去预测出的频谱系数

为确保只在产生编码增益时才进行预测，需要适当的预测器控制，且必须给解码器发送少量的预测器控制信息。此功能在减法器14中履行。预测器控制方案与MPEG-2高级音频编码(AAC)中使用的反向自适应预测器控制方案的相同。各帧的预测器控制信息作为枝节信息传送，按两步确定。首先，就各比例因数区确定预测是否导致编码增益，若然，则取比例因数区“所使用预测器”(predictor_used)比特为1。对所有比例因数区都这样做之后，确定在此帧中预测的总编码增益是否补偿预测器枝节信息所需用的起码附加比特。若然，则取“预测器数据存在”(predictor_data_present)为1，并发送包括预测器复位所需的在内的整个支节信息，且将预测误差值馈给量化器。否则，取“预测器数据存在”(predictor_data_present)比特为0，并将“所使用预测”(prediction_used)比特全复位为0不予传送。在此情况下，频谱分量值馈给量化器3。如上所述，预测器控制先控制一比例因数区的所有预测器，然后对所有比例因数区履行第二步骤。

显然，LT预测的目的是达到最大总预测增益。设G_l表示第l个子频带的预测增益，则某已知帧的总预测增益可计算如下：

G = \overset{N_{S}}{Σ} G_{l} - - - (12)

l＝1且(G₁＞0)

若增益补偿预测器枝节信息需用的附加比特，即G＞T(dB)，则发送整个枝节信息，且接通产生正增益的预测器，否则不采用预测器。

上述方法得出的LP参数不直接与增益的最大化有关。但通过计算各码组地增益和所选范围(在此实例中为1至1024)内各时延的增益，并通过选取产生最大总预测增益的时延，可以最优化预测过程。所选取的时延和相应的系数b作为枝节信息连同量化误差子频带信号传送。在编码器计算的复杂性是增加了，但在解码器的复杂性却没有增加。

图4更详细地示出了图2的解码器。如上所述，编码音频信号由比特流多路分解器7从传输信道6接收下来。比特流多路分解器7分解预测系数A和量化误差信号并将其提供给预测工具8。此工具有一个组合器24组合量化误差信号

和频域

中的预测音频信号，产生也是在频域中的重组音频信号滤波器组9将重组信号从频域转换到时域，从而产生重组时域音频信号

此信号再反馈到一个也接收预测系数A的长期预测工具。长期预测工具26利用当前帧的预测系数从先前的重组时域帧产生预测的当前时帧。滤波器组25变换预测信息

应该理解的是，从编码器传送来的预测公式控制信息可用来在解码器控制解码操作。具体地说，“所使用预测器”(predictor-used)比特可用来在组合器24中确定任何给定频率中是否采用预测。

图5中示出了图1音频信号编码器的另一个实施方案，其中待编码的音频信号x由比较器15将其与处于时域的预测信号相比较产生也处于时域的误差信号e。接着，滤波器组16将误差信号从时域转换到频域产生一组子频带误差信号E(k)。这些信号接着经量化器17量化产生一组量化误差信号

接着，用第二滤波器组18将量化误差信号

转换回到时域，得出信号

此时域量化误差信号接着在信号处理器19中与预定时域音频信号

组合，产生量化音频信号预测工具20履行与图3编码器的工具12同样的功能，产生预测音频信号

和预测系数和A。预测系数和量化误差信号在比特流多路复用器21组合以便在传输信道22上传输。如上所述，误差信号由控制器23按音质模型量化。

上述音频信号编码算法可以在低比特速率下压缩音频信号。这种方法以长期(LT)预测为基础。与周知的反向自适应预测法相比，这里所述的方法提高了单乐器信号和话音信号的预测增益而计算上的复杂性不大。

Claims

1.一种音频信号编码方法，其特征在于，它包括下列步骤：

接收待编码的处于帧x_m中的音频信号x；

由所接收的音频信号的一个时帧产生子频带(1)；

根据所收到的音频信号x产生量化音频信号 (9，11)；

产生一组长期预测系数A(2)；

对于一个时帧的每一子频带，可通过使用该组长期预测系数A以直接从量化音频信号的起码一个先前时帧来预测所收到音频信号的当前时帧；

用该组长期预测系数A来产生量化音频信号

的预测音频信号

(12)；

将接收的音频信号x与预测音频信号比较并产生多个子频带中每一个的误差信号(14)；

量化误差信号E(k)以产生一组量化误差信号

和

将量化误差信号

与预测系数A组合起来产生编码音频信号(5)。

2.如权利要求1所述的方法，该方法包括将所收到的处于帧x_m中的音频信号x从时域转换到频域以产生一组子频带信号X(k)的步骤和将预测的音频信号

从时域转换到频域以产生一组预测子频带信号的步骤(13)，其特征在于，所收到音频信号x与预测音频信号

的比较是在频域中进行，将各子频带信号彼此相互比较以产生子频带误差信号E(k)(14)。

3.如权利要求1所述的方法且包括在时域将所收到音频信号x与预测音频信号

相比较以产生也是处于时域的误差信号e的步骤(15)和将误差信号e从时域转换到频域以产生所述多个子频带信号E(k)的步骤(16)。

4.一种解码被编码音频信号的方法，其特征在于，它包括下列步骤：

接收由下列各部分组成的编码音频信号：音频信号多个子频带中每一个和音频信号各时帧的量化误差信号

一组可用以直接从重组量化音频信号

的起码一个早先的时帧预测所收到音频信号的当前时帧x_m的预测系数；

根据量化误差信号

产生所述重组量化音频信号 (24，25，9)；

用预测系数A和量化音频信号产生预测音频信号

(26)；

将预测音频信号从时域转换到频域以产生一组预测子频带信号以便与量化误差信号组合以产生一组重组子频带信号

和

对重组子频带信号进行频域到时域的变换以产生重组量化音频信号 (9)。

5.一种音频信号编码设备，其特征在于，它包括：

一个输入端，供接收待编码的音频信号x；

第一发生装置(1)，用于由所接收的音频信号产生子频带；

处理装置(2，3；15～19)，连接到所述输入端以便根据所收到的音频信号x产生量化音频信号

预测装置(12；19)，连接到所述处理装置(3)上供产生一组长期预测系数A，该组长期预测系数用于为一个时帧的每一子频带直接从量化音频信号

的起码一个先前时帧预测所收到音频信号x的当前时帧；

第二发生装置(10-14；20，15)，用于利用该组长期预测系数A和该量化音频信号来产生预测音频信号并将所收到的音频信号x与预测音频信号相比较以产生各多个子频带的误差信号E(k)；

量化装置(3；17)，供量化误差信号E(k)以产生一组量化误差信号和

组合装置(5；21)，供组合量化误差信号和预测系数A以产生编码音频信号。

6.如权利要求5所述的设备，其特征在于，所述第二发生装置包括第一转换装置(11)、第二转换装置(13)和比较装置(14)，第一转换装置(11)用以将所收到的音频信号x从时域转换到频域，第二转换装置(13)用以将预测音频信号从时域转换到频域，比较装置(14)配置得使其比较得出的处于频域中的频域信号。

7.如权利要求5所述的设备，其特征在于，所述第二发生装置用于将其在时域将所收到的音频信号x与预测音频信号

相比较。

8.一种用于对编码音频信号x进行解码的设备，其中编码音频信号包括音频信号多个子频带中每一个的量化误差信号

和可用于音频信号一个时帧的子频带的一组预测系数A，其中预测系数A可用以直接从重组量化音频信号

的至少一个先前时帧预测所收到音频信号的当前时帧x_m，所述设备包括：

一个输入端，供接收编码音频信号；

发生装置(24，25，9)，供根据量化误差信号产生所述重组量化音频信号

和

信号处理装置(26)，供根据预测系数A和所述重组音频信号

产生预测音频信号

其特征在于，所述发生装置包括第一转换装置(25)、组合装置(24)和第二转换装置(9)，该第一转换装置(25)用以将预测音频信号从时域转换到频域以产生一组预测子频带信号

该组合装置(24)用以将所述一组预测子频带信号

与量化误差信号相组合以产生一组重组子频带信号

该第二转换装置(9)用以对重组子频带信号

进行频域时域的转换从而产生重组量化音频信号