CN101313355B

CN101313355B - 编码/解码多声道音频信号的方法和装置

Info

Publication number: CN101313355B
Application number: CN2006800440221A
Authority: CN
Inventors: 郑亮源; 房熙锡; 吴贤午; 金东秀; 林宰显
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2011-10-12
Anticipated expiration: 2026-09-27
Also published as: CN101313355A; CN101427307B; CN101427307A

Abstract

本发明提供了编码和解码多声道音频信号的方法和用于编码和解码多声道音频信号的装置。该用于解码多声道音频信号的装置包括：拆分提取单元，其从比特流中提取与多个声道中的一对声道之间经量化的CLD有关的导引和数据；差分解码单元，其通过将所提取的导引添加至所提取的数据来恢复经量化的CLD；以及逆量化单元，其利用考虑一对声道的位置性质的量化表来逆量化所述恢复的经量化的CLD。编码和解码多声道音频信号的方法和用于编码和解码多声道音频信号的装置可通过减少所需的量化比特数来实现高效率的编码/解码。

Description

编码/解码多声道音频信号的方法和装置

技术领域

本发明涉及编码和解码多声道音频信号的方法以及用于编码和解码多声道音频信号的装置，尤其涉及可通过高效率地编码/解码关于多声道音频信号的多个空间参数来降低比特率的编码和解码多声道音频信号的方法以及用于编码和解码多声道音频信号的装置。

背景技术

目前，已开发出各种数字音频译码技术，并且越来越多的与数字音频译码有关的产品已进入市场。同样，基于心理声学模型的各种多声道音频译码技术已被开发，且目前正在标准化。

心理声学模型是基于人类感知声音的方式来确立的，例如，基于这样的事实：在存在响亮声音时，微弱的声音就变得听不见了；人类的耳朵名义上可听到20-20000Hz范围的声音。通过使用这种心理声学模型，可通过在数据的译码期间去除多余的音频信号来有效减小数据量。

通常，多声道音频信号的比特流是通过执行固定量化来生成的，其中单纯地涉及对待编码数据使用单一的量化表。结果，比特率增加。

发明内容

技术问题

本发明提供可高效率地编码/解码多声道音频信号和多声道音频信号的空间参数、且因而可应用于任意扩展的声道环境的编码和解码多声道音频信号的方法以及编码和解码多声道音频信号的装置。

技术方案

根据本发明的一个方面，提供一种编码具有多个声道的多声道的多声道音频信号的方法。该方法包括：确定多个声道中的一对声道之间的声道电平差 (CLD)；考虑一对声道的位置性质来量化CLD；确定代表通过量化获取的一组经量化的CLD的第一导引；以及确定第一导引与一组经量化的CLD中的每一个之间的差。

根据本发明的另一个方面，提供一种接收比特流并解码具有多个声道的多声道音频信号的方法。该方法包括：从比特流中提取导引和关于多个声道中的一对声道之间经量化的CLD的数据；通过将所提取的导引添加至所提取的数据来恢复经量化的CLD；以及利用考虑一对声道的位置性质的量化表来逆量化所述恢复的经量化的CLD。

根据本发明的另一个方面，提供一种用于编码具有多个声道的多声道音频信号的装置。该装置包括：空间参数提取单元，其确定多个声道中的一对声道之间的CLD；量化单元，其考虑一对声道的位置性质来量化由空间参数提取单元获取的CLD；以及差分编码单元，其确定代表由量化单元获取的一组经量化的CLD的第一导引，并编码第一导引与一组经量化的CLD中的每一个之间的差。

根据本发明的另一个方面，提供一种接收比特流并解码具有多个声道的多声道音频信号的装置。该装置包括：拆分提取单元，其从比特流中提取导引和关于多个声道中的一对声道之间经量化的CLD的数据；差分解码单元，其通过将所提取的导引添加至所提取的数据来恢复经量化的CLD；以及逆量化单元，其利用考虑一对声道的位置性质的量化表来逆量化所述恢复的经量化的CLD。

根据本发明的另一个方面，提供了一种其上记录有用于执行编码多声道音频信号的方法的程序的计算机可读记录介质

根据本发明的另一个方面，提供了一种其上记录有用于执行解码多声道音频信号的方法的程序的计算机可读记录介质

根据本发明的另一个方面，提供一种多声道音频信号的比特流。该比特流包括：数据字段，其包括与一组经量化的CLD有关的数据；导引字段，其包括与代表一组经量化的CLD的导引有关的信息；以及表信息字段，其包括与用于形成所述一组经量化的CLD的量化表有关的信息，其中的量化表考虑一对声道的位置性质。

有益效果

编码和解码多声道音频信号的方法和用于编码和解码多声道音频信号的装置可通过减少所需的量化比特数来实现高效率的编码/解码。

附图简述

通过参考附图详细描述本发明的示例性实施例，本发明的以上和其它特征和优点将变得显而易见，附图中：

图1是根据本发明的一个实施例的多声道音频信号编码器和解码器的框图；

图2是用于解释多声道配置的图；

图3是根据本发明的一个实施例用于编码多声道音频信号的空间参数的装置的框图；

图4A是根据本发明的一个实施例用于解释利用导引对经量化的空间参数进行差分编码的图；

图4B是根据本发明的一个实施例用于解释基于导引和经差分编码的空间参数生成比特流的图；

图5是根据本发明的一个实施例用于解释通过图3所示的量化单元确定虚拟声源的位置的图；

图6是根据本发明的另一个实施例用于解释通过图3所示的量化单元确定虚拟声源的位置的图；

图7是根据本发明的一个实施例用于解释利用角间隔将一对声道之间的空间分割成多个部分的图；

图8是根据本发明的一个实施例用于解释通过图3所示的量化单元量化声道电平差(CLD)的图；

图9是根据本发明的一个实施例用于解释利用角间隔将一对声道之间的空间分割成具有不同角度的多个部分的图；

图10是根据本发明的另一个实施例用于解释通过图3所示的量化单元来量化CLD的图；

图11是根据本发明的一个实施例，图3中所示的空间参数提取单元的框图；

图12是根据本发明的一个实施例用于解码多声道音频信号的空间参数的装置的框图；

图13是根据本发明的一个实施例示出编码多声道音频信号的空间参数的方法的流程图；

图14是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图；

图15是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图；

图16是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图；

图17是根据本发明的一个实施例示出解码多声道音频信号的空间参数的方法的流程图；

图18是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图；

图19是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图；

图20是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图。

本发明的最佳实施方式

现在将参考示出本发明的示例性实施例的附图更全面地描述本发明。

图1是根据本发明的一个实施例的多声道音频信号编码器和解码器的框图。参考图1，多声道音频信号编码器包括声道缩减混音器110和空间参数估计器120，而多声道信号解码器包括空间参数解码器130和空间参数合成器140。声道缩减混音器110生成基于诸如5.1声道源之类的多声道源声道缩减混音处理成立体声或单声道的信号。空间参数估计器120获取形成多声道所需的空间参数。

空间参数包括指示从多个声道中选出的一对声道的能级之间的差的声道电平差(CLD)、作为用于基于一对声道信号生成三个声道信号的预测系数的声道预测系数(CPC)、指示一对声道之间的相关性的声道间相关性(ICC)、以及指示一对声道之间的时间差的声道时间差(CTD)。

在外部处理的艺术声道缩减混音信号103可被输入至多声道音频信号编码器。空间参数解码器130解码向其发送的空间信号。空间参数合成器140对经编码的声道缩减混音信号进行解码，并合成经解码的声道缩减混音信号和由空间参数解码器130提供的经解码的空间参数，从而生成多声道音频信号105。

图2是根据本发明的一个实施例的用于解释多声道配置的图。具体地，图2示出5.1声道配置。因为0.1声道是低频增强声道且不考虑位置，所以在图2中未示出。参考图2，左声道L和右声道R与中心声道C距离30度。左环绕声道Ls和右环绕声道Rs与中心声道C距离110度、且分别与左声道L和右声道R距离80度。

图3是根据本发明的一个实施例用于编码多声道音频信号的空间参数的装置(在下文中称为编码装置)的框图。参考图3，编码装置包括滤波器组300、空间参数提取单元310、量化单元320、差分编码单元330以及比特流生成单元340。

当多声道音频信号IN被输入时，多声道音频信号IN由滤波器组300分割成分别对应于多个子频带(即，子频带1至N)的信号。滤波器组300可以是子频带滤波器组或正交镜像滤波器(QMF)滤波器组。

空间参数提取单元310从每一个经分割的信号中提取一个或多个空间参数。量化单元302量化所提取的空间参数。特别地，量化单元302考虑多个声道中的一对声道的位置性质来量化该对声道之间的CLD。换言之，可考虑一对声道的位置性质来创建用于量化该对声道之间的CLD的量化表。例如，量化左声道L和右声道R之间的CLD所需的量化步长和量化步骤的数目(在下文中称为量化步骤数)可与量化左声道L和左环绕声道Ls之间的CLD所需的量化步长和量化步骤数不同。

量化单元320对多个CLD进行量化，且差分编码单元330对一组经量化的CLD进行差分编码。

详细地，差分编码单元330确定作为一组经量化的CLD的代表值的导引P。导引P可以是一组经量化的CLD的平均值、中值或模，但本发明不限于此。一旦导引P由编码装置确定，导引P就被发送到用于解码多声道音频信号的空间参数的装置。

或者，编码装置确定有可能会从一组经量化的CLD获取的一个以上的值作为导引候选，利用每一个导引候选进行差分编码，并选择导引候选中导致最高编码效率的一个作为一组经量化的CLD的导引。

之后，差分编码单元330计算导引P与一组经量化的CLD中的每一个之间的差d2[n]。假设待差分编码的一组经量化的CLD的数目是10，则d2[n]可由等式(1)表示：

数学演算1

d2[n]＝x[n]-P，n＝0，1，...，9

其中x[n]指示一组经量化的CLD，P指示导引，d2[n]指示一组经差分编码的结果。

接收经差分编码的结果d2[n]和导引P的用于解码多声道音频信号的空间参数的装置可基于经差分编码的结果d2[n]和导引P恢复经量化的CLD，如等式(2)所指示：

数学演算2

y[n]＝d2[n]+P，n＝0，1，...，9

其中y[n]指示从经差分编码的结果d2[n]恢复的一组经量化的CLD。

根据本发明的编码装置还可包括对经差分编码的结果d2[n]和导引P进行赫夫曼(Huffman)编码以便提高编码效率的赫夫曼编码单元。或者，根据本发明的编码装置可对对经差分编码的结果d2[n]和导引P进行熵编码，而不是差分编码。

赫夫曼编码单元可对经差分编码的结果d2[n]和导引P进行第一赫夫曼编码和第二赫夫曼编码。

图4A是根据本发明的一个实施例用于解释对空间参数执行差分编码的图。具体地，图4A解释利用导引对一组10个经量化的CLD进行差分编码。

参考图4A(a)，待差分编码的一组经量化的CLD x[n]如下：x[n]＝{11，12，9，12，10，8，12，9，10，9}。

参考图4A(b)，对一组经量化的CLD x[n]进行差分编码，如等式(3)所指示：

数学演算3

d[0]＝x[0]，

d[n]＝x[n]-x[n-1]，for n＝1，2，...，9

通过利用等式3对图4A(a)中介绍的经量化的CLD进行差分编码可获取一组经差分编码的结果d[n]。该组经差分编码的结果d[n]如下：d[n]＝{11，1，-3，3，-2，-2，4，-3，1，-1}。

该组经差分编码的结果d[n]可利用等式(4)来差分解码。

数学演算4

y[0]＝d[0]，

y[n]＝d[n]+y[n-1]，for n＝1，...，9

图4A(c)介绍了通过利用导引对图4A(a)中介绍的经量化的CLD进行差分编码获取的一组经差分编码的结果d2[n]。将导引设定为值10，该值是最接近一组经量化的CLD x[n]的平均值的整数。或者，可将导引设定为9或12，该值是一组经量化的CLD x[n]的模。

参考图4A(c)，一组经差分编码的结果d2[n]如下：d2[n]＝{1，2，-1，2，0，-2，2，-1，0，-1}。

待发送的数据的方差越小，待发送的数据的传输效率变得越高。一组经差分编码的结果d[n](其中n＝1-9)具有方差6.69，而一组经差分编码的结果d2[n]](其中n＝1-9)具有方差2.18。因此，通过利用导引进行差分编码可提高比特流的传输效率。

详细地，编码并随后发送一组经量化的CLD x[n]所需的比特的总数是50(该组经量化的CLD x[n]中的每一个有5比特)。参考一组经差分编码的结构d[n]，编码并随后发送d[0]所需的比特总数是5，且编码并随后发送d[1]至d[9]所需的比特总数是36(＝9×4比特)，因为d[1]至d[9]介于-3至4的范围。因为编码并随后发送导引P(其中P＝10)所需的比特总数是5，且编码并随后发送d2[0]至d2[9]所需的比特总数是30(＝10×3比特)，编码并随后发送一组经差分编码的结果d2[n]所需的比特是35。

然而，在仅有少量的经量化的CLD要被差分编码时，利用导引的差分编码未必总是高效的，因为导引的发送总是需要5比特。因此，利用导引的差分编码可根据待差分编码的经量化的CLD的数目和另一条件来选择性地执行。为此，可将标志插入待发送的比特流，指示差分编码是否已在产生待发送的比特流时得到了执行。

图4B是根据本发明的一个实施例用于解释基于导引和经差分编码的空间参数生成比特流的图。根据图4B所示的实施例，不仅必需发送经差分编码的结果，还必需发送导引。

参考图4B(a)，可将导引P插入比特流中，在一组经差分编码的结果d2[0]至d2[N-1]的前面。或者，参考图4B(b)，可将导引P插入比特流中，在一组经差分编码的结果d2[0]至d2[N-1]的后面。

导引P的绝对值相对大于一组经差分编码的结果d2[n]的绝对值。因此，确定出用于先前发送的一组经量化的CLD的先前导引和当前导引之间的差，对测量的结果进行赫夫曼编码，从而提高编码的效率。

根据一个实施例，可提供用于导引的编码的附加码本。然后，可参考附加码本对导引进行赫夫曼编码，且可将经赫夫曼编码的导引插入比特流中。

下文中将参考图13详细描述根据本发明的一个实施例的空间参数的量化。

参考图13，在操作940中，空间参数提取单元310从待编码的音频信号中提取一个或多个空间参数，其中该待编码的音频信号是通过分割多声道音频信号获取并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPC。在操作942中，量化单元320利用将预定角间隔作为量化步长的量化表来量化所提取的空间参数—具体的是CLD。在操作945中，差分编码单元330利用导引对由量化单元320提供的一组经量化的CLD进行差分编码。差分编码单元330的操作在上文中已经参考图3至图4B描述过，因此将跳过其详细描述。

量化单元320可将与每一个经量化的CLD相对应的索引信息输出到编码单元。每一个经量化的CLD可被定义为多个多声道音频信号之间功率比的以10为底的对数，如等式(1)所指示：

数学演算5

{CLD}_{x_{1} x_{2}}^{n . m} = 10 \log 10 (\frac{\underset{n}{Σ} \underset{m}{Σ} x_{1}^{n, m} x_{1}^{{n, m}^{*}}}{\underset{n}{Σ} \underset{m}{Σ} x_{2}^{n, m} x_{2}^{{n, m}^{*}}})

其中n指示时隙索引，m指示混合子频带索引。

比特流生成单元340利用经声道缩减混音的信号和经量化的空间参数—包括经量化的CLD—来生成比特流。

图5是根据本发明的一个实施例用于解释通过量化单元320确定虚拟声源的位置的图，并对解释正弦/正切定律所需的振幅扫调定律(amplitude panninglaw)进行解释。

参考图5，当听众面向前时，可通过调节一对声道ch1和ch2的大小来使虚拟声源位于任何任意位置(例如，点C)。在这种情形中，可根据声道ch1和ch2的大小确定虚拟声源的位置，如等式(6)所指示的：

数学演算6

其中指示声道ch1和ch2之间的虚拟声源和中心之间的角度，指示声道ch1和ch2之间的中心之间的角度，gi指示与声道chi相对应的增益因子。

当听众面向虚拟声源时，等式(6)可被重新安排成等式(7)

数学演算7

基于等式(5)、(6)和(7)，声道ch1和ch2之间的CLD可由等式(8)定义。

数学演算8

{CLD}_{x_{1} x_{2}}^{n, m} = 10 \log 10 (\frac{\underset{n}{Σ} \underset{m}{Σ} x_{1}^{n, m} x_{1}^{{n, m}^{*}}}{\underset{n}{Σ} \underset{m}{Σ} x_{2}^{n, m} x_{2}^{{n, m}^{*}}}) = 10 \log 10 (\frac{g_{1}^{{n, m}^{2}} \underset{n}{Σ} \underset{m}{Σ} x^{n, m} x^{{n, m}^{*}}}{g_{2}^{{n, m}^{2}} \underset{n}{Σ} \underset{m}{Σ} x^{n, m} x^{{n, m}^{*}}})

= 20 \log 10 (\frac{g_{1}^{n, m}}{g_{2}^{n, m}})

基于等式(6)和(8)，声道ch1和ch2之间的CLD还可利用虚拟声源与声道ch1和ch2的角度

来定义，如等式(9)和(10)所指示的：

数学演算9

{CLD}_{x_{1} x_{2}}^{n, m} = 20 \log 10 (G_{1,2})

数学演算10

G_{1,2} = \frac{g_{1}^{n, m}}{g_{2}^{n, m}}

根据等式(9)和(10)，CLD可对应于虚拟声源的角位置

。换言之，声道ch1和ch2之间的CLD，即声道ch1和ch2的能级之间的差可由位于声道ch1和ch2之间的虚拟声源的角位置来表示。

图6是根据本发明的另一个实施例用于解释通过图3所示的量化单元320确定虚拟声源的位置的图。

当如图6所示布置多个扬声器时，第i声道和第i-1声道之间的CLD可基于等式(4)和(5)来表示，如等式(11)和(12)所指示的。

数学演算11

CLD＝20log 10(G_i)

数学演算12

G_{i} = \frac{g_{i}}{g_{i - 1}} = \frac{\sin \frac{φ_{i} - φ_{i - 1}}{2} - \sin (θ_{i} - \frac{φ_{i} + φ_{i - 1}}{2})}{\sin \frac{φ_{i} - φ_{i - 1}}{2} + \sin (θ_{i} - \frac{φ_{i} + φ_{i - 1}}{2})}

其中指示位于第i声道和第(i-1)声道之间的虚拟声源的角位置，

指示第i扬声器的角位置。

根据等式(11)和(12)，一对声道之间的CLD可由用于任何扬声器配置的声道之间的虚拟声源的角位置来表示。

图7是用于解释利用预定角间隔将一对声道之间的空间分割成多个部分的图。具体地，图7解释将形成30度角的中心声道和左声道之间的空间分割成多个部分。

人类的空间信息分辨能力是指关于可由人类感觉到的任意声音的空间信息最小差。根据心理声学研究，人类的空间信息分辨能力约是3°。因此，可将量化一对声道之间的CLD所需的量化步长设定为3°的角间隔。因此，可将中心声道和左声道之间的空间分割成多个部分，每一个部分具有3°角。

参考图7，φ_i-φ_i-1＝30°。中心声道和左声道之间的CLD可通过从0°至30°每次增加3°来计算。计算的结果在表1中示出。

表1

角度	0	3	6	9	12	15
							CLD	∞	44.3149	28.00306	17.13044	8.201453	0
角度	18	21	24	27	30
							CLD	-8.20145	-17.1304	-28.0031	-44.3149	-∞

中心声道和左声道之间的CLD可通过将表1用作量化表来量化。在这种情形中，量化中心声道和左声道之间的CLD所需的量化步骤数是11。

图8是根据本发明的另一个实施例用于解释通过图3所示的量化单元320利用量化表量化CLD的图。参考图8，可将量化表中一对相邻角度的平均值设定为量化阈值。

假设中心声道和右声道之间的角度是30度、且中心声道和右声道之间的CLD通过将中心声道和右声道之间的空间分割成多个部分、每一个部分具有3°角来量化。

由空间参数提取单元310提取的CLD利用等式(11)和(12)转换成虚拟声源角位置。如果虚拟声源角位置介于1.5和4.5度之间，所提取的CLD可量化至存储在表1中与3度角相关的值。

如果虚拟声源角位置介于4.5和7.5之间，则所提取的CLD可被量化成存储在表1中的与6度角相关的值。

以上述方式获取的经量化的CLD可由索引信息表示。为此，可基于表1创建包括索引信息的量化表，即表2。

表2

索引	0	1	2	3	4	5
							CLD	150	44	28	17	8	0
索引	6	7	8	9	10
							CLD	-8	-17	-28	-44	-150

表2仅示出表1中所示的CLD值的整数部分，且用CLD值150和-150分别替换表1中的∞和-∞。

因为表2包括一对具有相同绝对值但不同符号的CLD值，所以可将表2简化成表3。

表3

索引	0	1	2	3	4	5
							CLD	150	44	28	17	8	0

在量化三个或更多声道中的CLD的情形中，可将不同的量化表用于不同的声道对。换言之，可将多个量化表分别用于多个具有不同位置的声道对。可以上述的方式创建适用于每一个不同的声道对的量化表。

表4是量化形成60度角的左声道和右声道之间的CLD所需的量化表。表4 具有3度的量化步长。

表4

索引	0	1	2	3	4	5
							CLD	0	4	7	11	15	20
索引	6	7	8	9	10
							CLD	25	32	41	55	150

表5是量化形成80度角的左声道和左环绕声道之间的CLD所需的量化表。表5具有3度的量化步长。

表5

索引	0	1	2	3	4	5
							CLD	0	3	5	8	10	13
索引	6	7	8	9	10	11
							CLD	16	20	24	28	34	41
索引	12	13
							CLD	53	150

表5不仅可用于形成80度角的左声道和左环绕声道，而且口语用于形成80度角的右声道和右环绕声道。

表6是量化形成80度角的左环绕声道和右环绕声道之间的CLD所需的量化表。表6具有3度的量化步长。

表6

索引	0	1	2	3	4	5
							CLD	0	1	2	2	3	4
索引	6	7	8	9	10	11
							CLD	5	6	7	8	9	10
索引	12	13	14	15	16	17
							CLD	11	12	14	15	17	19
索引	18	19	20	21	22	23
							CLD	22	25	30	36	46	150

在根据本发明编码多声道音频信号的空间参数的方法中，一对声道之间的CLD可被线性量化成声道之间的虚拟声源的角位置，而不是线性量化成预定值。因此，可实现高效适当的量化，供心理声学模型中使用。

不仅可将根据本发明编码多声道音频信号的空间参数的方法应用于CLD，还可将其应用于CLD以外的空间参数，比如ICC和CPC。

根据本实施例，如果用于解码多声道音频信号的空间参数的装置(在下文中称为解码装置)不具有量化单元320进行CLD量化所使用的量化表，则比特流生成单元340可将关于量化表的信息插入比特流中，并将该比特流发送到解码装置，这将在下文中进一步详细描述。

根据本发明的实施例，关于在图3所示的编码装置中使用的量化表的信息可通过将量化表中的所有数值—包括索引和分别对应于各索引的CLD值插入比特流中并将该比特流发送至解码装置的方式发送至解码装置。

根据本发明的另一个实施例，关于编码装置中使用的量化表的信息可通过向解码装置发送恢复编码装置所使用的量化表所需的信息的方式发送至解码装置。例如，在编码装置中所使用的量化表中所使用的最小和最大角度、量化步骤数可被插入比特流中，然后可将该比特流发送到解码装置。然后，解码装置可基于由编码装置发送的信息和等式(7)和(8)恢复编码装置所使用的量化表。

根据本发明的另一个实施例的空间参数的量化将在下文中参考图14进行详细描述。根据本发明，关于多声道音频信号的空间参数可使用两个或多个具有不同量化分辨能力的量化表来量化。

参考图14，在操作950中，空间信息提取单元402从待编码的音频信号中提取一个或多个空间参数，其中的待编码的音频信号是通过分割多声道音频信号获取的、并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPC。

在操作955中，量化单元320从具有完全量化分辨能力的精细模式和量化分辨能力比精细模式低的粗糙模式中确定一个作为待编码的音频信号的量化模式。精细模式对应于比粗糙模式多的量化步骤数和比其要小的量化步长。

量化单元320可根据待编码的音频信号的能级确定精细模式和粗糙模式中的一个作为待编码音频信号的量化模式。根据心理声学模型，精密地量化具有高能级的音频信号比精密地量化具有低能级的音频信号效率更高。因此，如果待编码的音频信号的能级高于预定基准值，则量化单元320可以以精细模式量化多声道音频信号，否则以粗糙模式量化待编码的音频信号。

例如，量化单元320可将由R-OTT模块处理的信号的能级与待编码的音频信号的能级进行比较。然后，如果由R-OTT模块处理的信号的能级低于待编码的音频信号的能级，则量化单元320可以以粗糙模式进行量化。另一方面，如果由R-OTT模块处理的信号的能级高于待编码的音频信号的能级，则量化单元320可以以精细模式进行量化。

如果R-OTT模块具有5-1-5-1配置，则量化单元320可将分别经由左和右声道输入的音频信号的能级与待编码的音频信号的能级进行比较，以便确定用于输入至R-OTT3的音频信号的CLD量化模式。

在操作960中，如果在操作955中将精细模式确定为待编码的音频信号的量化模式，则量化单元320利用具有完全量化分辨能力的第一量化表量化CLD。第一量化表包括31个量化步骤，并通过将一对声道之间的空间分割成31个部分来量化一对声道之间的CLD。在精细模式中，应用于每对声道的量化表具有相同量化步骤数。

在操作962中，如果在操作955中将粗糙模式确定为待编码的音频信号的量化模式，则量化单元320使用量化分辨能力比第一量化表低的第二量化表来量化CLD。第二量化表以预定的角间隔作为量化步长。第二量化表的创建和利用第二量化表来量化CLD的过程可与如以上参考图7和图8所描述的相同。

在操作965中，差分编码单元330利用导引对由量化单元320获得的一组经量化的CLD进行差分编码。差分编码单元330的操作在上文中已经参考图3至图4B描述过，因此将跳过其详细描述。

根据本发明的另一个实施例的空间参数的量化将在下文中参考图15进行详细描述。

参考图15，在操作970中，空间参数提取单元402从待编码的音频信号中提取一个或多个空间参数，其中该待编码的音频信号是通过分割多声道音频信号获取并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPD。在操作972中，量化单元320利用将两个或多个角度作为量化步长的量化表来量化所提取的空间参数—具体的是CLD。在这种情形中，量化单元320可将与在操作975中执行的量化所获取的经量化的CLD值相对应的索引信息发送至编码单元。在操作975中，差分编码单元330利用导引对由量化单元320获得的一组经量化的CLD进行差分编码。差分编码单元330的操作在上文中已经参考图3至图4B描述过，因此将跳过其详细描述。

图9是用于解释利用两个或多个角度间隔将一对声道分割成具有不同角度的多个部分的图，用于根据一对声道的位置以可变角度间隔执行CLD量化操作。

根据心理声学研究，人类的空间信息分辨能力根据声源的位置而改变。当声源位于前方时，人类的空间信息分辨能力是3.6度。当声源位于左方时，人类的空间信息分辨能力是9.2度。当声源位于后方时，人类的空间信息分辨能力是5.5度。

依此，对于位于前方的声道，可将量化步长设定为约3.6度，对于位于左方或右方的声道，可将量化步长设定为约9.2度，对于位于后方的声道，可将量化步长设定为约5.5.6度。

为了从前方至左方或从左方至后方的平滑转变，可将量化步长设定为不规则角间隔。换言之，角间隔沿从前方至左方的方向逐渐增加，使得量化步长增加。另一方面，角间隔沿从左方至后方的方向逐渐减小，使得量化步长减少。

参考图9中所示的多个声道，声道X位于前方，声道Y位于左方，而声道Z位于后方。为了确定声道X和声道Y之间的CLD，声道X和声道Y之间的空间被分成分别具有角度α₁至α_k的k个部分。角度α₁至α_k 之间的关系可由等式(13)来表示。

数学演算13

α₁≤α₂≤...≤α_k

为了确定声道Y和声道Z之间的CLD，声道Y和声道Z之间的空间可被分成分别具有角度β₁至β_m的m个部分和分别具有角度y₁至y_n的n个部分。角间隔沿从声道Y至左方的方向逐渐增加，而沿从左方至声道Z的方向逐渐减小。角度β₁ 至β_m之间以及角度y₁至y_n之间的关系可分别由等式(14)和(15)来表示：

数学演算14

β₁≤β₂≤...≤β_m

数学演算15

γ₁≥γ₂≥...≥γ_n

角度α_k、β_m和γ_n是用于解释利用两个或多个角间隔分割一对声道之间的空间的示例性角度，其中根据多声道的位置数用于分割一对声道之间的空间所使用的角间隔的数目可以是4或更大。

同样，角度α_k、β_m和γ_n可以是一致的或可变的。如果角度α_k、β_m和γ_n是一致的，则它们由等式(16)表示：

数学演算16

α_k≤γ_n≤β_m(except for when α_k＝γ_n＝β_m)

等式(16)指示根据人类的空间信息分辨能力的角间隔特性。例如，α_k＝3.6°、β_m＝9.2°、γ_n＝5.5°。

表7表示多个CLD值和与通过利用两个或多个角度间隔将形成30度角的中心声道和左声道之间的空间进行分割而获取的多个相邻部分相对应的多个角之间的对应关系。

表7

角度	0	1	3	5	8	11
							CLD	CLD(0)	CLD(1)	CLD(3)	CLD(5)	CLD(8)	CLD(11)
角度	14	18	22	26	30
							CLD	CLD(14)	CLD(18)	CLD(22)	CLD(26)	CLD(30)

参考表7，角度指示虚拟声源和中心声道之间的角度，CLD(X)指示与角相对应的CLD值。CLD值CLD(X)可利用等式(7)和等式(8)来计算。

通过将表7作为量化表，中心声道和左声道之间的CLD可被量化。在这种情形中，量化中心声道和左声道之间的CLD所需的量化步骤数是11。

参考表7，随着方向角间隔沿着从前方至左方的方向增加，量化步长相应地增加，这指示人类的空间信息分别能力沿从前方至左方的方向增加。

在表7中表示的CLD值可由各自对应的索引来表示。为此，可基于表7创建表8。

表8

角度	0	1	2	3	4	5
							CLD	CLD(0)	CLD(1)	CLD(3)	CLD(5)	CLD(8)	CLD(11)
角度	6	7	8	9	10
							CLD	CLD(14)	CLD(18)	CLD(22)	CLD(26)	CLD(30)

图10是根据本发明的另一个实施例用于解释通过图3所示的量化单元利用量化表量化CLD的图。参考图10，可将量化表中示出的一对相邻角度的平均值设定为量化阈值。

详细地，在位于前方的声道A和位于右方的声道B之间的CLD的情形中，可将声道A和声道B之间的空间分成分别对应于k个角度θ₁、θ₂、.....、θ_k 的k个部分。角度θ₁、θ₂、.....、θ_k可由等式(17)来表示：

数学演算17

θ₁≤θ₂≤...≤θ_k

等式(17)指示根据声道位置的角间隔特性。根据等式(17)，人类的空间信息分辨能力沿着从前方至左方的方向增加。

量化单元320利用等式(7)和(8)将由空间参数提取单元402提取的CLD转换成虚拟声源角位置。

如等式(10)所指示的，如果虚拟声源角介于

和

之间，则所提取的CLD可被量化成与角θ₁对应的值。另一方面，如果虚拟声源角介于和

之间，则所提取的CLD可被量化成与角度θ₁和θ₂的和相对应的值。

在量化用于三个或多个声道的CLD的情形中，可将不同的量化表用于不同的声道对。换言之，可将多个量化表分别用于多个具有不同位置的声道对。可按上述方式创建用于不同声道对中的每一个的量化表。

根据本实施例，一对声道之间的CLD根据该对声道的位置通过使用两个或多个角间隔作为量化步长来量化，而不是被线性量化成一个预定的CLD值。因此，可实现一种供心理声学模型中使用的有效且适当的CLD量化。

根据本实施例的编码多声道音频信号的空间参数的方法可被应用于CLD以外的空间参数，比如ICC和CPC。

在下文中将参考图16详细描述根据本发明的另一个实施例编码多声道音频信号的空间参数的方法。根据图16所示的实施例，可将具有不同量化分辨能力的两个或多个量化表用于量化空间参数。

参考图16，在操作980中，从待编码的音频信号中提取空间参数，其中该待编码的音频信号是通过分割多声道音频信号获取并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和 CPC。

在操作985中，量化单元320从具有完全量化分辨能力的精细模式和量化分辨能力比精细模式低的粗糙模式中确定一个作为待编码的音频信号的量化模式。精细模式对应于比粗糙模式多的量化步骤数和比其要小的量化步长。

量化单元320可根据待编码的音频信号的能级确定精细模式和粗糙模式中的一个作为量化模式。根据心理声学模型，精密地量化具有高能级的音频信号比精密地量化具有低能级的音频信号效率更高。因此，如果待编码的音频信号的能级高于预定基准值，则量化单元320可以以精细模式量化多声道音频信号，否则以粗糙模式量化待编码的音频信号。

在操作990中，如果在操作985中将精细模式确定为待编码的音频信号的量化模式，则量化单元320利用具有完全量化分辨能力的第一量化表量化CLD。第一量化表包括31个量化步骤。在精细模式中，可将相同的量化步骤表应用于每对声道。

在操作992中，如果在操作985中将粗糙模式确定为待编码的音频信号的量化模式，则量化单元320使用量化分辨能力比第一量化表低的第二量化表来量化CLD。第二量化表可具有两个或多个预定角间隔作为量化步长。第二量化表的创建和利用第二量化表来量化CLD的过程可与如以上参考图9和图10所描述的相同。

在操作995中，差分编码单元330利用导引对由量化单元320获得的一组经量化的CLD进行差分编码。差分编码单元330的操作在上文中已经参考图3至图4B描述过，因此将跳过其详细描述。

根据本发明的实施例，关于在图4所示的编码装置中使用的量化表的信息可通过将量化表中的所有数值—包括索引和分别对应于各索引的CLD值插入比特流中并将该比特流发送至解码装置的方式发送至解码装置。

根据本发明的另一个实施例，关于编码装置中使用的量化表的信息可通过向解码装置发送恢复编码装置所使用的量化表所需的信息的方式发送至解码装置。例如，在编码装置中所使用的量化表的最小和最大角度、量化步骤数和两个或多个角度间隔可被插入比特流中，然后可将该比特流发送到解码装置。然后，解码装置可基于由编码装置发送的信息和等式(7)和(8)恢复编码装置所使用的量化表。

图11是图4中所示的空间参数提取单元402—即空间参数提取单元910的例子的框图。参考图11，空间参数提取单元910包括第一空间参数提取测量单元911和第二空间参数测量单元913。

第一空间参数测量器911基于输入的多声道音频信号测量多个声道之间的CLD。第二空间参数测量单元913利用预定的角间隔或两个或多个角间隔将多个声道中的一对声道之间的空间分割成若干部分，并创建适用于声道对组合的量化表。然后，量化单元920利用量化表量化由空间参数提取单元910提取的CLD。

图12是根据本发明的一个实施例解码多声道音频信号的空间参数的装置的框图(在下文中称为解码装置)。参考图12，解码装置包括拆分单元930、差分解码单元932和逆量化单元935。

拆分单元930从输入的比特流中提取与一对声道的能级之间的差相对应的经量化的CLD。逆量化单元935考虑一对声道的位置性质利用量化表对经量化的CLD进行逆量化。

在下文中将参考图17详细描述根据本发明的一个实施例解码多声道音频信号的空间参数的方法。

参考图17，在操作1000中，拆分单元930从输入比特流中提取经量化的CLD数据和导引。如果所提取的经量化的CLD数据或所提取的导引是经赫夫曼编码的，则图12所示的解码装置还可包括对所提取的经量化的CLD数据或所提取的导引进行赫夫曼解码的赫夫曼解码单元。另一方面，如果所提取的经量化的CLD数据或所提取的导引是经熵编码的，则解码装置可对所提取的经量化的CLD数据或所提取的导引进行熵解码。

在操作1002中，差分解码单元932将所提取的导引添加至所提取的经量化的CLD数据，从而恢复多个经量化的CLD。差分解码单元932的操作在上文中已经参考图2至图4B描述过，因此将跳过其详细描述。

在操作1005中，逆量化单元935利用将预定角间隔作为量化步长的量化表对操作1002中获得的每一个经量化的CLD进行逆量化。

在操作1005中使用的量化表与在以上参考图7和8描述的操作期间由编码装置使用的量化表相同，因此将跳过其详细描述。

根据本实施例，如果逆量化单元930不具有任何关于量化表的信息，则逆量化单元930可从输入比特流中提取关于量化表的信息，并基于所提取的信息恢复量化表。

根据本发明的实施例，量化表中的所有值—包括索引和分别对应于索引的CLD值可被插入于比特流中。

根据本发明的另一个实施例，量化表的最小和最大角度和量化步骤数可包括在比特流中。

图18是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图。根据图18所示的实施例，空间参数可利用具有不同量化分辨能力的两个或多个量化表来逆量化。

参考图18，在操作1010中，拆分单元930从输入比特流中提取经量化的CLD数据和导引。如果所提取的经量化的CLD数据或所提取的导引是经赫夫曼编码的，则图12所示的解码装置还可包括对所提取的经量化的CLD数据或所提取的导引进行赫夫曼解码的赫夫曼解码单元。另一方面，如果所提取的经量化的CLD数据或所提取的导引是经熵编码的，则解码装置可对所提取的经量化的CLD数据或所提取的导引进行熵解码。

在操作1015中，逆量化单元935基于所提取的量化模式信息确定编码装置用于形成经量化的CLD的量化模式是具有完全量化分辨能力的精细模式还是量化分辨能力比精细模式低的粗糙模式。精细模式对应于比粗糙模式多的量化步骤数和比其要小的量化步长。

在操作1020中，如果用于产生经量化的CLD的量化模式在操作1015中被确定为精细模式，则逆量化单元935利用具有完全量化分辨能力的第一量化表逆量化经量化的CLD。第一量化表包括31个量化步骤，并通过将一对声道之间的空间分割成31个部分来量化一对声道之间的CLD。在精细模式中，可将相同的量化步骤数应用于每一对声道。

在操作1025中，如果用于产生经量化的CLD的量化模式在操作1015中被确定为粗糙模式，则逆量化单元935利用量化分辨能力比第一量化表低的第二量化表逆量化经量化的CLD。第二量化表可具有预定角间隔作为量化步长。利用预定角间隔作为量化步长的第二量化表可与以上参考图7和8描述的量化表相同。

在下文中将参考图19详细描述根据本发明的另一个实施例解码多声道音频信号的空间参数的方法。

参考图19，在操作1030中，拆分单元930从输入比特流中提取经量化的CLD和导引。如果所提取的经量化的CLD数据或所提取的导引是经赫夫曼编码的，则图12所示的解码装置还可包括对所提取的经量化的CLD数据或所提取的导引进行赫夫曼解码的赫夫曼解码单元。另一方面，如果所提取的经量化的CLD数据或所提取的导引是经熵编码的，则解码装置可对所提取的经量化的CLD数据或所提取的导引进行熵解码。

在操作1032中，差分解码单元932将所提取的导引添加至所提取的经量化的CLD数据，从而恢复多个经量化的CLD。差分解码单元932的操作在上文中已经参考图2至图4B描述过，因此将跳过其详细描述。

在操作1035中，逆量化单元935对将预定角间隔作为量化步长利用量化表获得的每一个经量化的CLD进行逆量化。

在操作1035中使用的量化表与以上参考图9和10所描述的操作期间编码装置使用的量化表相同，因此跳过其详细描述。

根据本发明的另一个实施例，量化表的最小和最大角度、量化步骤数以及两个或多个角间隔可包括在比特流中。

图20是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图。根据图20所示的实施例，空间参数可利用具有不同量化分辨能力的两个或多个量化表来逆量化。

参考图20，在操作1040中，拆分单元930从输入比特流中提取经量化的CLD数据和导引。如果所提取的经量化的CLD数据或所提取的导引是经赫夫曼编码的，则图12所示的解码装置还可包括对所提取的经量化的CLD数据或所提取的导引进行赫夫曼解码的赫夫曼解码单元。另一方面，如果所提取的经量化的CLD数据或所提取的导引是经熵编码的，则解码装置可对所提取的经量化的CLD数据或所提取的导引进行熵解码。

在操作1042中，差分解码单元932将所提取的导引添加至所提取的经量化的CLD数据，从而恢复多个经量化的CLD。差分解码单元932的操作在上文中已经参考图2至图4B描述过，因此将跳过其详细描述。

在操作1045中，逆量化单元935基于所提取的量化模式信息确定编码装置用于形成经量化的CLD的量化模式是具有完全量化分辨能力的精细模式还是量化分辨能力比精细模式低的粗糙模式。精细模式对应于比粗糙模式多的量化步骤数和比其要小的量化步长。

在操作1050中，如果用于产生经量化的CLD的量化模式在操作1045中被确定为精细模式，则逆量化单元935利用具有完全量化分辨能力的第一量化表逆量化经量化的CLD。第一量化表包括31个量化步骤，并通过将一对声道之间的空间分割成31个部分来量化一对声道之间的CLD。在精细模式中，可将相同的量化步骤数应用于每一对声道。

在操作1055中，如果用于产生经量化的CLD的量化模式在操作1045中被确定为粗糙模式，则逆量化单元935利用量化分辨能力比第一量化表低的第二量化表逆量化经量化的CLD。第二量化表可具有两个或多个角间隔作为量化步长。利用两个或多个角间隔作为量化步长的第二量化表可与以上参考图9和10描述的量化表相同。

可将本发明实现为写在计算机可读记录介质上的计算机可读代码。计算机可度记录介质可以是其中数据以计算机可读方式存储的任何类型的记录设备。计算机可读记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储器、载波(例如，通过因特网的数据传输)。可将计算机可读记录介质分布在连接至网络的多个计算机系统上，使得计算机可读代码能以分散的方式向其写入或从其执行。实现本发明所需的功能程序、代码和代码段可由本领域的普通技术人员容易地解释。

工业适用性

如上所述，根据本发明，可通过减少所需的量化比特数来提高编码/解码的效率。通常，多个任意声道之间的CLD通过将可构成多个任意声道的每一对声道之间的空间不加区分地分割成31部分来计算，因此，总共需要5个量化比特。另一方面，根据本发明，可将一对声道之间的空间分成多个部分，且每一部分具有例如3度角。如果一对声道之间的角度是30度，则该对声道之间的空间可分割成11个部分，因而总共需要4个量化比特。因此，根据本发明，可减少所需的量化比特数。

此外，根据本发明，可通过参考实际的扬声器配置信息进行量化来进一步提高编码/解码效率。随着声道数增加，数据量按31*N(N是声道数)增加。根据本发明，随着声道数增加，量化每一对声道之间的CLD所需的量化步骤数减小，使得数据的总量统一维持不变。因此，本发明不仅可应用于5.1声道环境还可应用于任意扩展的声道环境，因此实现高效率的编码/解码。

尽管已经参考本发明的示例性实施例具体示出并描述了本发明，但本领域的技术人员将理解可在不背离由以下权利要求所限定的本发明的精神和范围的情况下在形式和细节上进行各种改变。

Claims

1.一种接收比特流并解码具有多个声道的音频信号的方法，所述方法包括：

从比特流提取作为所述多个声道中的一对声道之间的一组经量化的声道电平差的代表值的导引；

提取经量化的声道电平差数据，所述数据为所述导引和所述一组经量化的声道电平差的每一个之间的差值；

将所提取的导引添加至所提取的经量化的声道电平差数据，从而恢复多个经量化的声道电平差；以及

使用量化表将所述经量化的声道电平差逆量化。

2.如权利要求1所述的方法，其特征在于，所述逆量化步骤包括：

提取量化模式，以及

如果所述量化模式是精细模式，用第一量化表逆量化所述经量化的声道电平差，如果所述量化模式是粗糙模式，用第二量化表逆量化所述经量化的声道电平差。

3.如权利要求2所述的方法，其特征在于，所述第一量化表的量化分辨能力与第二量化表的不同。

4.如权利要求3所述的方法，其特征在于，所述第一量化表具有比所述第二量化表多的量化步骤。

5.如权利要求3所述的方法，其特征在于，所述第一量化表具有比第二量化表小的量化步长。

6.如权利要求2所述的方法，其特征在于，所述量化模式是基于待量化的信号的能级来确定的。

7.如权利要求1所述的方法，其特征在于，所述导引是所述一组经量化的声道电平差的平均值、中值或模之一。

8.如权利要求1所述的方法，其特征在于，进一步包括：

从所述比特流中提取关于所述一对声道之间的所述经量化的声道电平差的赫夫曼编码的数据；以及

对所提取的赫夫曼编码的数据进行赫夫曼解码。

9.一种用于接收比特流并解码具有多个声道的音频信号的装置，所述装置包括：

拆分单元，用于从比特流提取作为所述多个声道中的一对声道之间的一组经量化的声道电平差的代表值的导引，以及提取经量化的声道电平差数据，所述数据为所述导引和所述一组经量化的声道电平差的每一个之间的差值；

差分解码单元，用于将所提取的导引添加至所提取的经量化的声道电平差数据，从而恢复多个经量化的声道电平差；以及

逆量化单元，用于使用量化表将所述经量化的声道电平差逆量化。