CN1202513C

CN1202513C - 音频编码、译码方法和装置及其应用

Info

Publication number: CN1202513C
Application number: CN 98107058
Authority: CN
Inventors: 殷林
Original assignee: Nokia Mobile Phones Ltd
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 1997-02-07
Filing date: 1998-02-06
Publication date: 2005-05-18
Anticipated expiration: 2018-02-06
Also published as: CN1199959A; WO1998035447A3; JPH10260699A; SE9800338L; GB2322776B; SE9800338D0; FR2759510A1; AU5664898A; GB9802611D0; DE19804584A1; WO1998035447A2; FI970553A0; FI970553A; GB2322776A

Abstract

用后适配预测对音频信号编码的方法。要编码音频电信号第一时间帧被接收和变换到频域，是用修改的离散余弦变换完成的。产生的频谱有1024个频谱成分。音频电信号顺序时间帧然后被接收和对其每个依次实行该变换以为每一频谱成分产生频谱数据值流。对每一流，用流的预定数的先前接收连续频谱值为每一频谱值计算一组预测系数。使用该组线性预测系数产生预测频谱值和计算它与相应真实频谱值间的误差，计算的误差为频谱值流的编码表示。

Description

音频编码、译码方法和装置及其应用

技术领域

本发明是关于编码和译码电信号的方法和完成这样方法的装置。

背景技术

众所周知，以数字形式的数据的传输在传送信道中提高了信操比和信息容量。这里始终存在着通过压缩数字信号到更大的程度来进一步增加讯道容量的愿望。与音频信号相关的是，通常应用两个基本压缩原理，第一个原理涉及移去源信号中的统计和确定冗余，而第二个原理涉及从源信号中抑制或取消到目前为止人类感受所涉及的冗余的信号成分。近来，后一原理在高质量音频应用当中占主导地位和典型地分离音频信号为诸频率成分(有时称为“子带”)，使用预定的量化精度对每一个子带进行分析和量化以移去不相关数据(对听众)。ISO(国际标准组织)MPEG(运动图象专家组)音频编码标准和其它音频编码标准使用和进一步定义该原理。然而，MPEG(和其它标准)也使用熟称为“适配预测”的技术以进一步减少数据率。

一适配预测的特定形式熟知为“后适配栅格预测。”Fuchs et al，“Improving MPEG Audio Coding by Backward Adapive Linear StereoPrediction，”AES Convention，New York，Preprint 4086 Oct，1995，描述了一个这样后适配栅格预测算法，对于每个频率成分的每一个频谱值，后适配栅格预测在编码器中从那个成分的先前计算的频谱值中产生一组预测系数(通过量化频谱值的中间计算)。这些系数然后用来预测当前频谱值的值。当前频谱值和预测的频谱值之间的误差被确定和该误差传送到接收机，值得欢迎的是，在任何给定的时间，当前预测系数已经有效地从所有先前接收的样品值当中推导出。在接收机内，系数被类似地计算和通过组合预测频谱值和接收的误差值获得重构的频谱值。

在使用后适配预测的特定算法中，经常是这样情况，在压缩处理和误差值发送时，仅当正压缩增益获得时，才能确定完成的压缩测量。如果不是如此，作为替换，那末传送实际量化频率成分信号。

新MPEG-2AAC标准使用音质模型和用1024频率成分的后适配线性预测。值得重视的是，新MPEG-4VM标准将有类似的要求，然而，由于预测算法的复杂性，这样大量的频率成分造成大量的计算量，并且需要很大存储器容量去存储计算系数。进而，使用后适配栅格预测时，甚至当预测器被“关闭”时(例如，通过传送误差值不能获得压缩优点时)，译码器必需持续地确定系数，使得需要时预测器能再次“开通”而没有瞬时的性能变坏，这就提供了附加的计算开销。

发明内容

本发明的目标是克服或至少减轻上述诸缺点的一个或者多个。

通过使用后适配预测算法完成上述目标，该算法对要被编码的音频信号的相对大量频率成分起作用和从该成分的预定量的先前接收的样本值计算该成分的预测系数。

依照本发明的第一方面，这里提供了使用后适配预测的编码音频电信号的方法，该方法包括步骤为：

(a)接收要被编码的音频电信号的第一时间帧；

(b)变换时间帧为频域，以产生具有512或更多频谱成分的频谱；

(c)接收所说音频电信号的顺序时间帧和按顺序为这些帧重复步骤(b)，以产生每一频谱成分的频谱数据值流；

(d)对于每一个所说的流，使用预定重构频谱值流的预定数目的协方差为每一个频谱值计算一组预测系数，使用所说一组预测系数产生预测的频谱值，和计算预测频谱值和相应的真实频谱值之间的误差，其中计算的误差提供频谱值流的编码表示和所说的误差能和预测频谱值重新组合以获得重构的频谱值。

本发明的方法并不象通常后适配预测算法那样从所有预测频谱成分直接计算一组预测系数。这就是说，预测系数为每一个频谱值被重新计算和不单单从前计算的一组加以适配。这样，在当预测器被“关闭”时的周期，这就不需要持续地更新在译码器的系数。

正如已经公开的那样，从预定数目的先前频谱值计算预测系数的后适配预测算法一般并不适合于被细分为相对小数目的频率子带(例如32)的编码音频信号，但这样的算法适合于当音频信息被细分为相对大数目的频率子带(例如在MPEG-4标准草案中定义的1024)。这是因为，当大数目的子带被定义时，预测算法的阶(这是预测系数的数目)是低的和使用本发明的算法能提供高性能和对这样的低阶是计算有效的。最好，预测的阶是1或2。最好，预测的阶是2。

最好，所说预定数目的预先接收的连续频谱值被用来推导相应数目的量化频谱值。它然后是用来计算所说预测系数的量化值。

最好，从音频信号取出的时间窗是重叠的。例如，每个窗口可以包含和邻近窗口有50％重叠的2048个采样点。然而，窗口可以是连续的。

在本发明的特定实施例中，一般新预测值系数可以由每一个频谱值加以计算。然而，在另一实施例中，仅为每2个或每3个(或每其它多个)频谱值计算预测系数和为几个连续频谱值使用相同系数可以在计算上更有效。在瞬时检测音频信号的基础上立即进行低系数更新率(例如每两个值)和高系数更新率(例如每个频谱值)之间的转换是更适当的。

需要的编码质量确定了用来计算每一组预测系数的预定数目的先前接收采样点的低限制。然而，数目最好是4个或者更多。该数目的上限是由存储器和计算限制确定的。该数目是10或少些，该预定数目最好是6。

可以使用评价预测系数任何适当的方法，例如自动相关方法。然而，已经发现，最小平方法特别有优点。

最好，用来计算频谱值的预测系数是线性预测系数。

对于本发明，最好使用音质补偿和相应地控制误差信号的量化。

依照本发明的第二方面，这里提供了使用上述第一方面的方法编码的音频电信号的译码方法，译码方法包括步骤为：

接收一系列对应编码音频信号的误差值为输入信号和分离这些值为频谱成分流；

对于每一个流，使用一组预测系数确定每一个误差值的相应预测频谱成分值，使用该流的预定数目的先前确定连续预测频谱成分的协方差计算预测系数，和组合误差值和预测的频谱值提供重构的频谱值；和

通过组合和频率—时间变换所有流的重构频谱值实质上重构所说音频信号。

编码方法的特定完成细节将在很大程度上确定译码方法完成细节，例如预测阶，这是适当的。

依照本发明的第3方面，这里提供了使用后适配预测编码音频电信号的装置，该装置包括：

输入装置，用于接收要编码的音频电信号；

时间-频率域变换器，用于从时间域到频率域顺序变换接收信号的时间帧以提供具有512或更多频谱成分的频谱；

结合每一个频谱成分的信号处理装置，用于接收相关的频谱值为流，使用预定数目的先前重构的频谱值的协方差为每一个频谱值计算一组预测系数，使用所说一组预测系数产生预测的频谱值，计算预测值和相应真实频谱值之间的误差，该计算的误差提供接收的频谱值流的编码表示和其中所说误差可和预测的频谱值重新组合以获得重构的频谱值。

依照本发明的第四方面，这里提供了一个使用本发明的上述第3方面的装置编码的音频电信号的译码装置，该装置包括：

输入端，用于接收相对应编码音频信号的一系列误差值；和

信号处理装置，用于分离所说一系列值为单独的频谱成分流和为每一个相应预测频谱值的误差值确定一组预测系数，信号处理装置被如此安排以使用预定数目的先前确定连续重构频谱值的协方差计算预测系数，信号处理装置进而如此安排以组合每一个误差值和相应的预测的频谱值以提供重构的频谱值和通过组合及频率-时间变换所有子带的重构的频谱值实质上重构所说音频信号。

依照本发明的第五个方面，这里提供了组合本发明第三和第四方面装置的通讯系统。

依照本发明的第六方面，这里提供了包括依本发明的第三和第四方面装置的移动通讯装置。

为了更好地理解本发明和为了示出同样的内容如何能被有效地完成，以图为例将做出解释。

附图说明

图1示出了依本发明的一实施例使用后适配预测的编码音频信号的装置；

图2示意性地示出了对使用图1装置编码的音频信号进行译码的装置；和图3示出了结合图1和2装置的移动电话。

具体实施方式

参看图1，被编码的脉冲编码调制(PCM)音频输入信号g(t)提供到编码装置的第一信号处理单元1的输入端。安排第一单元1在一帧一帧的基础上把输入信号g(t)从时域变换到频域，每一帧n由2048采样值组成和相邻帧有50％的重叠。更具体而言，单元1使用修改的离散余弦变换(MDCT)转换信号到频域，使得单元1的输出由1024频谱值x_j(n)流组成，每个流j对应着不同的频谱成分。值得注意的是，可以使用其它变换方法，例如富里埃变换。

提供的每一数据流值x_j(n)对应着后适配预测器2的输入，它的操作详细描述如下。概括地说，对于每一流的每一频谱值x_j(n)，预测器2使用顺序推导出的、即依次从先前接收的流的频谱值推导出的重构量化频谱值来计算一组预测系数a_j(n)。依次使用预测系数计算频谱值的误差值e_j(n)。每个流的误差值被提供到量化器3的输入，它是如此被安排以产生顺序数字传输的量化误差值量化的误差提供给多路器4，它产生用于传输的多路误差信号9，和反馈到预测器2。

进一步提供信号处理单元5，以控制信号处理单元1和量化器3的操作，这取决于输入音频信号g(t)的音质特性。该单元的操作很普通，在此不再详细描述。

对于每一个频谱成分j，X(n)，和是预测器2的输入信号，预测器输出信号和重构量化信号，和e(n)和

是预测误差信号和量化预测误差信号。该组预测系数可表示为：

a(n)＝[a₁(n)，a₂(n)，…，a_P(n)]^T

它是随时间变化的，这里上标T表示移项。预测器2的输出信号被计算为

\hat{x} (n) = a {(n)}^{T} \tilde{x} (n) = Σ_{i = 1}^{P} a_{i} (n) \tilde{x} (n - i)

\tilde{x} (n) = {[\tilde{x} (n - 1), \tilde{x} (n - 2), \cdot \cdot \cdot, \tilde{x} (n - P)]}^{T}

其中P是预测的阶，即系数。

该预测量器误差是

e (n) = x (n) - \tilde{x} (n)

重构的量化信号是

\tilde{x} (n) = \hat{x} (n) + \tilde{e} (n)

预测系数的计算是基于最小均方预测误差a(n)，表示为

a(n)＝R^-1(n)r(n)

这里

R (n) = E [\tilde{x} (n) {\tilde{x}}^{T} (n)]

and

r (n) = E [\tilde{x} (n) \tilde{x} (n)],

这里符号E表示期望值。

值得欢迎的是，一但获得自相关函数r(n)，通过解标准等式可以获得线性预测器。这里表示的最小平方算法估算逐一采样的线性预测器系数，最小平方法经常比自动相关方法给出更好的线性预测系数估算。特别是当所获得的数据是小的时候。通过下面示出的，当预测器的阶低时，特别是仅两阶时，最小平方算法的复杂性可和现有技术的适配栅格算法的复杂性算法相当或少些。

再次假定，由

表示重构量化信号，对于预测阶为2和块(block)长为L、重构信号的协方差被计算为

r_{0,0} = Σ_{i = 2}^{L - 1} {\tilde{x}}^{2} (n - i),

r_{1,1} = Σ_{i = 2}^{L - 1} {\tilde{x}}^{2} (n - i + 1),

r_{0,1} = r_{1,0} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 1) \tilde{x} (n - i)

r_{1} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i),

r_{2} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i + 1)

有效算法应为

{temp}_{1} = Σ_{i = 2}^{L - 2} {\tilde{x}}^{2} (n - i),

r_{0,0} = {\tilde{x}}^{2} (n - L + 1) + {temp}_{1},

r_{1,1} = {temp}_{1} + {\tilde{x}}^{2} (n - 1)

{temp}_{2} = Σ_{i = 2}^{L - 2} \tilde{x} (n - i + 1) \tilde{x} (n - i),

r_{0,1} = r_{1,0} = \tilde{x} (n - L + 1) \tilde{x} (n - L + 2) + {temp}_{2}

r_{2} = {temp}_{2} + \tilde{x} (n - 1) \tilde{x} (n),

r_{1} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i)

为方便起见，两个线性预测系数可计算如下

a_{1} = \frac{r_{1,1} r_{1} - r_{0,1} r_{2}}{r_{0,0} r_{1,1} - r_{0,1}^{2}},

a_{2} = \frac{r_{0,0} r_{2} - r_{0,1} r_{1}}{r_{0,0} r_{1,1} - r_{0,1}^{2}},

值得欢迎的是，从预定的或固定的相对小数目的先前频谱值中推导出线性预测系数，系数的计算不取决于每一个先前接收的频谱值。

为了提高后适配预测抗信道错误和数字四舍五入错误的耐用程度，在获得线性预测系数以后可以执行波带扩展。让上述等式是α_i，i＝0，1，2，这里α₀＝1计算预测系数，带宽的扩展操作由γⁱα_i替代α_i，这里γ是较小于单位的常数。

从前一节中可以看出，协方差函数是对一个接一个采样加以更新。相应地，通过解标准方程也可以一个接一个采样地获得线性预测系数。然而，为了节省计算，线性预测系数可以以较小的频率加以计算。例如，可每两次采样计算一次线性预测系数，平均预测增益的损失是可以忽略的。然而，预测增益的损失在编码音频信号的瞬间发生是可以清楚注意到的。当瞬间被检测时，瞬间检测器10包括了一开关，它把预测器从正常或低系数更新率(例如每第二个频谱值)转换为高更新率(例如每个频谱值)。在瞬间检测完毕后，高更新率可以维持短的周期。

假定，G₁表示在定标带1内的增益，如果G₁＞0，在该子带内的预测器能被开关，这取决于整个预测增益，它计算如下：

这里Ns是定标带数，如果G是补偿预测量侧信息所需的附加位，即G＞T1(dB)，或预测增益并不剧烈地下降，即G^当前-G^先前＜T²(dB)，完整侧信息被传送和产生正增益的预测器被打开。否则，不使用预测器，这意指瞬间开始了。在瞬间帧被检测后，一个接一个采样地计算后适配预测系数，在进行特定数目采样后，每第二采样计算预测系数。

图2示出了对使用上述详细描述的方法的编码信号进行译码的装置。接收的多路传输的误差信号9提供到分离器6的输入端，该分离器把信号分为1024频谱值流e_j(n)。这些流然后通过信号处理单元7，对于每一个流，该单元7为每一个误差值计算一预测或估计的频谱值。预定数目的这些估计值依次被用来计算线性预测系数以允许为当前的采样计算预测值。该过程与在编码过程中描述的过程是一致的。通过组合接收的误差信号和相应预测值获得重构的频谱值。提供重构的频谱值流到进一步的处理器8，它对数据执行MDCT以实质上再现初始的音频信号。

图3示出装在它的发射机内的对使用上述编码方法的音频信号进行编码的装置12(对应图1装置)的移动电话11。该电话也在它的接收机内装入了对接收的编码电话信号进行译码的装置13(对应图2的装置)。

Claims

1.对使用后适配预测的音频电信号进行编码的方法，该方法包括步骤为：

(a)接收第一时间帧要被编码的音频电信号；

(b)变换时间帧为频率域以产生具有512或更多频谱成分的频谱；

(c)接收所说音频电信号的顺序时间帧和顺序为这些帧重复步骤(b)，以为每一频谱成分产生一系列频谱数据值；

(d)对于每一个所说的一系列频谱数据值，使用预定数目的一系列先前确定的重构频谱值的协方差为每一频谱值计算一组预测系数，使用所说一组预测系数产生预测的频谱值，和计算在预测值和相应真实频谱值之间的误差，其中计算的误差提供一系列频谱值的编码的表示和组合所说的误差和预测频谱值以获得重构的频谱值。

2.如权利要求1的方法，其特征在于，预测的阶是2。

3.如权利要求1或2的方法，其特征在于，仅在接收多个频谱值之后重新计算预测系数和为几个连续频谱值使用相同的系数。

4.如权利要求3的方法，其特征在于，所说的多个是2。

5.如权利要求3的方法，其特征在于，在瞬时检测要编码的音频信号的基础上，立即进行第一系数更新率和第二系数更新率之间的转换，其中第二系数更新率高于第一系数更新率。

6.如权利要求1或2的方法，其特征在于，所说预定数目的频谱值大于或等于4。

7.如权利要求1或2的方法，其特征在于，所说预定数目的频谱值小于或等于10。

8.如权利要求1或2的方法，其特征在于，使用最小平方法估算预测系数。

9.如权利要求2的方法，其特征在于，使用最小平方法估算预测系数，以及，所说重构频谱值的协方差r_0，0、r_1，1、r_0，1、r_1，0、r₁、r₂被确定如下：

r_{0,0} = Σ_{i = 2}^{L - 1} {\tilde{x}}^{2} (n - i),

r_{1,1} = Σ_{i = 2}^{L - 1} {\tilde{x}}^{2} (n - i + 1),

r_{0, 1} = r_{1,0} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 1) \tilde{x} (n - i)

r_{1} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i),

r_{2} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i + 1),

有效算法为

{temp}_{1} = Σ_{i = 2}^{L - 2} {\tilde{x}}^{2} (n - i),

r_{0,0} = {\tilde{x}}^{2} (n - L + 1) + {temp}_{1},

r_{1,1} = {temp}_{1} + {\tilde{x}}^{2} (n - 1)

{temp}_{2} = Σ_{i = 2}^{L - 2} \tilde{x} (n - i + 1) \tilde{x} (n - i),

r_{0,1} = r_{1,0} = \tilde{x} (n - L + 1) \tilde{x} (n - L + 2) + {temp}_{2}

r_{2} = {temp}_{2} + \tilde{x} (n - 1) \tilde{x} (n),

r_{1} = Σ_{i = 2}^{L - 1} \tilde{x} (n - i + 2) \tilde{x} (n - i),

式中表示重构量化信号，L为所取块的长度，n为帧的序数。

10.权利要求9的方法，其中，所述预测系数α₁、α₂被确定如下：

a_{1} = \frac{r_{1,1} r_{1} - r_{0,1} r_{2}}{r_{0,0} r_{1,1} - r_{0,1}^{2}},

a_{2} = \frac{r_{0,0} r_{2} - r_{0,1} r_{1}}{r_{0,0} r_{1,1} - r_{0,1}^{2}} .

11.对编码的音频电信号进行译码的方法，该译码方法包括步骤：

接收一系列对应编码的音频信号的误差值为输入信号和分离这些值为一系列频谱成分流；

对于每一个一系列频谱成分，使用一组预测系数确定每一个误差值的相应的预测频谱成分值，使用该一系列频谱成分的预定数目的先前确定连续预测频谱成分的协方差计算预测系数，和组合误差值和预测的频谱值提供重构的频谱值；和

通过组合和频率-时间变换所有一系列的重构频谱值实质上重构所说音频信号。

12.使用后适配预测对音频电信号进行编码的装置，该装置包括：

输入端，用于接收要编码的音频电信号；

时间-频率域变换器，顺序地把接收的信号的接收时间帧从时域变换到频域以提供具有512或更多频谱成分的频谱；以及

与每一个频谱成分相关的后适配预测器，用于接收相关的频谱值作为一系列频谱值，使用预定数目的预先重构的频谱值的协方差为每一频谱值计算一组预测系数，使用所说一组预测系数产生预测频谱值，计算预测值和相应真实频谱值之间的误差，计算的误差提供接收一系列频谱值的编码的表示和其中所说误差和预测频谱值重新组合以获得重构的频谱值。

13.对编码的音频电信号进行译码的装置，该装置包括：

输入端，用于接收一系列对应编码音频信号的误差值；

分离器，用于分离所述一系列值为单独的一系列频谱成分；

信号处理单元，用于为每一个误差值利用一组预测系数确定一个对应的预测频谱值，该信号处理单元如此构成，使得使用预定数目的先前确定连续重构的频谱值的协方差计算预测系数，该信号处理单元进一步如此安排，以组合每一个误差值和相应的预测频谱值从而提供重构的频谱值；以及

另一个信号处理单元，用于通过组合及频率-时间变换所有子带的重构频谱值实质上重构所说的音频信号。

14.一种通讯系统，包括使用后适配预测对音频电信号进行编码的装置和对编码的音频电信号进行译码的装置，

其中所述对音频电信号进行编码的装置包含：

输入端，用于接收要编码的音频电信号；

与每一个频谱成分相关的后适配预测器，用于接收相关的频谱值作为一系列频谱值，使用预定数目的预先重构的频谱值的协方差为每一频谱值计算一组预测系数，使用所说一组预测系数产生预测频谱值，计算预测值和相应真实频谱值之间的误差，计算的误差提供接收一系列频谱值的编码的表示和其中所说误差和预测频谱值重新组合以获得重构的频谱值；

其中所述对编码的音频电信号进行译码的装置包含：

输入端，用于接收一系列对应编码音频信号的误差值；

分离器，用于分离所述一系列值为单独的一系列频谱成分；

15.一种移动通讯装置，包括使用后适配预测对音频电信号进行编码的装置和对编码的音频电信号进行译码的装置，

其中所述对音频电信号进行编码的装置包含：

输入端，用于接收要编码的音频电信号；

其中所述对编码的音频电信号进行译码的装置包含：

输入端，用于接收一系列对应编码音频信号的误差值；

分离器，用于分离所述一系列值为单独的一系列频谱成分；