CN101427307B - 编码/解码多声道音频信号的方法和装置 - Google Patents
编码/解码多声道音频信号的方法和装置 Download PDFInfo
- Publication number
- CN101427307B CN101427307B CN2006800440236A CN200680044023A CN101427307B CN 101427307 B CN101427307 B CN 101427307B CN 2006800440236 A CN2006800440236 A CN 2006800440236A CN 200680044023 A CN200680044023 A CN 200680044023A CN 101427307 B CN101427307 B CN 101427307B
- Authority
- CN
- China
- Prior art keywords
- cld
- sound
- channel
- quantization
- quantization table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了编码和解码多声道音频信号的方法和用于编码和解码多声道音频信号的装置。用于解码多声道音频信号的方法包括:拆分单元,其从比特流中提取多个声道中的一对声道之间经量化的CLD;以及逆量化单元,其利用考虑一对声道的位置性质的量化表来逆量化该经量化的CLD。编码和解码多声道音频信号的方法和用于编码和解码多声道音频信号的装置可通过减少所需的量化比特数来实现高效率的编码/解码。
Description
技术领域
本发明涉及编码和解码多声道音频信号的方法以及用于编码和解码多声道音频信号的装置,尤其涉及可通过高效率地编码/解码关于多声道音频信号的多个空间参数来降低比特率的编码和解码多声道音频信号的方法以及用于编码和解码多声道音频信号的装置。
背景技术
目前,已开发出各种数字音频译码技术,并且越来越多的与数字音频译码有关的产品已进入市场。同样,基于心理声学模型的各种多声道音频译码技术已被开发,且目前正在标准化。
心理声学模型是基于人类感知声音的方式来确立的,例如,基于这样的事实:在存在响亮声音时,微弱的声音就变得听不见了;人类的耳朵名义上可听到20-20000Hz范围的声音。通过使用这种心理声学模型,可通过在数据的译码期间去除多余的音频信号来有效减小数据量。
通常,多声道音频信号的比特流是通过执行固定量化来生成的,其中单纯地涉及对待编码数据使用单一的量化表。结果,比特率增加。
发明内容
技术问题
本发明提供可高效率地编码/解码多声道音频信号和多声道音频信号的空间参数、且因而可应用于任意扩展的声道环境的编码和解码多声道音频信号的方法以及编码和解码多声道音频信号的装置。
技术方案
根据本发明的一个方面,提供一种编码具有多个声道的多声道音频信号的方法。该方法包括:确定多个声道中的一对声道之间的声道电平差(CLD);考虑一对声道的位置性质来量化CLD。
根据本发明的另一个方面,提供一种接收比特流并解码具有多个声道的音频信号的方法。该方法包括:从比特流中提取多个声道中的一对声道之间经量化的CLD;以及利用考虑一对声道的位置性质的量化表来逆量化该经量化的CLD。
根据本发明的另一个方面,提供一种接收比特流并解码具有多个声道的音频信号的方法。该方法包括:从比特流中提取多个声道中的一对声道之间经量化的CLD和与量化模式有关的信息;如果量化模式是第一模式则利用第一量化表逆量化该经量化的CLD;以及如果量化模式是第二模式则利用考虑一对声道的位置性质的第二量化表来逆量化该经量化的CLD。
根据本发明的另一个方面,提供一种用于编码具有多个声道的音频信号的装置。该装置包括:空间参数提取单元,其确定多个声道中的一对声道之间的CLD;以及量化单元,其考虑一对声道的位置性质来量化CLD。
根据本发明的另一个方面,提供一种用于接收比特流并解码具有多个声道的多声道音频信号的装置。该装置包括:拆分单元,其从比特流中提取多个声道中的一对声道之间经量化的CLD;以及逆量化单元,其利用考虑一对声道的位置性质的量化表来逆量化该经量化的CLD。
根据本发明的另一个方面,提供一种用于执行编码和解码具有多个声道的音频信号的方法之一的程序记录于其上的计算机可读记录介质。
根据本发明的另一个方面,提供了一种具有多个声道的音频信号的比特流。该比特流具有:CLD字段,其包括有关一对声道之间经量化的CLD的信息;以及表信息字段,其包括与用于形成经量化的CLD的量化表有关的信息,其中量化表考虑一对声道的位置。
有益效果
编码和解码多声道音频信号的方法以及用于编码和解码多声道音频信号的装置可通过减少所需的量化比特数来实现高效率地编码/解码。
附图简述
通过参考附图详细描述本发明的示例性实施例,本发明的以上和其它特征和优点将变得显而易见,附图中:
图1是根据本发明的一个实施例的多声道音频信号编码器和解码器的框图;
图2是用于解释多声道配置的图;
图3是用于解释人耳如何感知音频信号的图;
图4是根据本发明的一个实施例用于编码多声道音频信号的空间参数的装置的框图;
图5是根据本发明的一个实施例用于解释通过图4所示的量化单元确定虚拟声源的位置的图;
图6是根据本发明的另一个实施例用于解释通过图4所示的量化单元确定虚拟声源的位置的图;
图7是根据本发明的一个实施例用于解释利用角间隔将一对声道之间的空间分割成多个部分的图;
图8是根据本发明的一个实施例用于解释通过图4所示的量化单元量化声道电平差(CLD)的图;
图9是根据本发明的一个实施例用于解释利用两个或多个角间隔将一对声道之间的空间分割成多个部分的图;
图10是根据本发明的另一个实施例用于解释通过图4所示的量化单元来量化CLD的图;
图11是根据本发明的一个实施例,图4中所示的空间参数提取单元的框图;
图12是根据本发明的一个实施例用于解码多声道音频信号的空间参数的装置的框图;
图13是根据本发明的一个实施例示出编码多声道音频信号的空间参数的方法的流程图;
图14是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图;
图15是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图;
图16是根据本发明的另一个实施例示出编码多声道音频信号的空间参数的方法的流程图;
图17是根据本发明的一个实施例示出解码多声道音频信号的空间参数的方法的流程图;
图18是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图;
图19是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图;
图20是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图;
本发明的最佳实施方式
现在将参考示出本发明的示例性实施例的附图更全面地描述本发明。
图1是根据本发明的一个实施例的多声道音频信号编码器和解码器的框图。参考图1,多声道音频信号编码器包括声道缩减混音器110和空间参数估计器120,而多声道信号解码器包括空间参数解码器130和空间参数合成器140。声道缩减混音器110生成基于诸如5.1声道源之类的多声道源声道缩减混音处理成立体声或单声道的信号。空间参数估计器120获取形成多声道所需的空间参数。
空间参数包括指示从多个声道中选出的一对声道的能级之间的差的声道电平差(CLD)、作为用于基于一对声道信号生成三个声道信号的预测系数的声道预测系数(CPC)、指示一对声道之间的相关性的声道间相关性(ICC)、以及指示一对声道之间的时间差的声道时间差(CTD)。
在外部处理的艺术声道缩减混音信号103可被输入至多声道音频信号编码器。空间参数解码器130解码向其发送的空间信号。空间参数合成器140对经编码的声道缩减混音信号进行解码,并合成经解码的声道缩减混音信号和由空间参数解码器130提供的经解码的空间参数,从而生成多声道音频信号105。
图2是根据本发明的一个实施例的用于解释多声道配置的图。具体地,图2示出5.1声道配置。因为0.1声道是低频增强声道且不考虑位置,所以在图2中未示出。参考图2,左声道L和右声道R与中心声道C距离30度。左环绕声道Ls和右环绕声道Rs与中心声道C距离110度、且分别与左声道L和右声道R距离80度。
图3是用于解释人耳如何感知音频信号,尤其是音频信号的空间参数的图。参考图3,多声道音频信号的译码是基于人耳将音频信号感觉为三维(3D)的事实。多组空间参数用于将音频信号表示为3D空间信息。表示多声道音频信号的空间参数可包括CLD、ICC、CPC和CTD。CLD指示声道电平之差,尤其是声道能级之差。ICC指示一对声道之间的相关性,CPC是用于基于一对声道信号生成三个声道信号的预测系数,CTD指示一对声道之间的时间差。
在下文中将参考图3详细描述人耳如何在空间上感知音频信号以及如何生成关于音频信号的空间参数。参考图3,第一径直声波303从远离用户的声源301传输到用户的左耳307,第二径直声波303从声源301通过衍射传输到用户的右耳306。第一和第二径直声波302和303可能具有不同的到达时间和不同的能级,因而产生第一和第二径直声波302和303之间的CLD、CPC和CTD。
可通过将本发明应用于根据上述原理生成的空间参数的量化来提高量化的效率。
图4是根据本发明的一个实施例用于编码多声道音频信号的空间参数的装置(在下文中称为编码装置)的框图。参考图4,当多声道音频信号IN被输入时,多声道音频信号IN由滤波器组401分割成分别对应于多个子频带(即,子频带1至N)的信号。滤波器组401可以是子频带滤波器组或正交镜像滤波器(QMF)滤波器组。
空间参数提取单元402从每一个经分割的信号中提取一个或多个空间参数。量化单元403量化所提取的空间参数。详细地,量化单元403考虑多个声道中的一对声道的位置性质来量化该对声道之间的CLD。量化左声道L和右声道R之间的CLD所需的量化步长和量化阶的数目(在下文中称为量化阶数)可与量化左声道L和左环绕声道Ls之间的CLD所需的量化步长和量化阶数不同。
下文中将参考图13详细描述根据本发明的一个实施例的空间参数的量化。
参考图13,在操作940中,空间参数提取单元402从经分割的音频信号中提取空间参数。所提取的空间参数的例子包括CLD、CTD、ICC和CPC。在操作945中,量化单元403利用将预定角间隔作为量化步长的量化表来量化所提取的空间参数-具体的是CLD。量化单元403可将与操作945中获取的经量化CLD相对应的索引信息输出至编码单元404。可将操作945中获取的经量化的CLD定义为多个多声道音频信号之间功率比的以10为底的对数,如等式(1)所指示:
数学演算1
其中n指示时隙索引,m指示混合子频带索引。
之后,比特流生成单元404利用经声道缩减混音的音频信号和经量化的空间参数-包括在操作945中获取的经量化的CLD-来生成比特流。
图5是根据本发明的一个实施例用于解释通过量化单元403确定虚拟声源的位置的图,并对解释正弦/正切定律所需的振幅扫调定律(amplitude panninglaw)进行解释。
参考图5,当听众面向前时,可通过调节一对声道ch1和ch2的大小来使虚拟声源位于任何任意位置(例如,点C)。在这种情形中,可根据声道ch1和ch2的大小确定虚拟声源的位置,如等式(2)所指示的:
数学演算2
当听众面向虚拟声源时,等式(2)可被重新安排成等式(3)
数学演算3
基于等式(1)、(2)和(3),声道ch1和ch2之间的CLD可由等式(4)定义。
数学演算4
基于等式(2)和(4),声道ch1和ch2之间的CLD还可利用虚拟声源与声道ch1和ch2的角度位置来定义,如等式(5)和(6)所指示的:
数学演算5
数学演算6
图6是根据本发明的另一个实施例用于解释通过图4所示的量化单元403确定虚拟声源的位置的图。
当如图6所示布置多个扬声器时,第i声道和第i-1声道之间的CLD可基于等式(4)和(5)来表示,如等式(7)和(8)所指示的。
数学演算7
CLD=20log10(Gi)
数学演算8
其中θi指示位于第i声道和第(i-1)声道之间的虚拟声源的角位置,指示第i扬声器的角位置。
根据等式(7)和(8),一对声道之间的CLD可由用于任何扬声器配置的声道之间的虚拟声源的角位置来表示。
图7是用于解释利用预定角间隔将一对声道之间的空间分割成多个部分的图。图7解释将形成30°角的中心声道和左声道之间的空间分割成多个部分。
人类的空间信息分辨能力是指关于可由人类感觉到的任意声音的空间信息最小差。根据心理声学研究,人类的空间信息分辨能力约是3°。因此,可将量化一对声道之间的CLD所需的量化步长设定为3°的角间隔。因此,可将中心声道和左声道之间的空间分割成多个部分,每一个部分具有3°角。
参考图7,φi-φi-1=30°。中心声道和左声道之间的CLD可通过从0°至30°每次增加θi3°来计算。计算的结果在表1中示出。
表1
角度 | 0 | 3 | 6 | 9 | 12 | 15 |
CLD | ∞ | 44.3149 | 28.00306 | 17.13044 | 8.201453 | 0 |
角度 | 18 | 21 | 24 | 27 | 30 | |
CLD | -8.20145 | -17.1304 | -28.0031 | -44.3149 | -∞ |
中心声道和左声道之间的CLD可通过将表1用作量化表来量化。在这种情形中,量化中心声道和左声道之间的CLD所需的量化阶数是11。
图8是根据本发明的一个实施例用于解释由量化单元403利用量化表量化CLD的图。参考图8,可将量化表中一对相邻角度的平均值设定为量化阈值。
假设中心声道和右声道之间的角度是30°,且中心声道和右声道之间的CLD通过将中心声道和右声道之间的空间分割成多个部分、每一个部分具有3°角来量化。
由空间参数提取单元402提取的CLD利用等式(7)和(8)转换成虚拟声源角位置。如果虚拟声源角位置介于1.5°和4.5°之间,则所提取的CLD可被量化成存储在表1中的与3°角有关的值。
如果虚拟声源角位置介于4.5和7.5之间,则所提取的CLD可被量化成存储在表1中的与6°角有关的值。
以上述方式获取的经量化的CLD可由索引信息表示。为此,可基于表1创建包括索引信息的量化表,即表2。
表2
索引 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | 150 | 44 | 28 | 17 | 8 | 0 |
索引 | 6 | 7 | 8 | 9 | 10 | |
CLD | -8 | -17 | -28 | -44 | -150 |
表2仅示出表1中所示的CLD值的整数部分,且用CLD值150和-150分别替换表1中的∞和-∞。
因为表2包括一对具有相同绝对值但不同符号的CLD值,所以可将表2简化成表3。
表3
索引 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | 150 | 44 | 28 | 17 | 8 | 0 |
在量化三个或更多声道中的CLD的情形中,可将不同的量化表用于不同的声道对。换言之,可将多个量化表分别地用于具有不同位置的多个声道对。可以上述的方式创建适用于每一个不同的声道对的量化表。
表4是量化形成60°角的左声道和右声道之间的CLD所需的量化表。表4具有3°的量化步长。
表4
索引 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | 0 | 4 | 7 | 11 | 15 | 20 |
索引 | 6 | 7 | 8 | 9 | 10 | |
CLD | 25 | 32 | 41 | 55 | 150 |
表5是量化形成80°角的左声道和左环绕声道之间的CLD所需的量化表。表5具有3°的量化步长。
表5
索引 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | 0 | 3 | 5 | 8 | 10 | 13 |
索引 | 6 | 7 | 8 | 9 | 10 | 11 |
CLD | 16 | 20 | 24 | 28 | 34 | 41 |
索引 | 12 | 13 | ||||
CLD | 53 | 150 |
表5不仅可用于形成80°角的左声道和左环绕声道,还可用于形成80°角的右声道和右环绕声道。
表6是量化形成80°角的左环绕声道和右环绕声道之间的CLD所需的量化表。表6具有3°的量化步长。
表6
索引 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | 0 | 1 | 2 | 2 | 3 | 4 |
索引 | 6 | 7 | 8 | 9 | 10 | 11 |
CLD | 5 | 6 | 7 | 8 | 9 | 10 |
索引 | 12 | 13 | 14 | 15 | 16 | 17 |
CLD | 11 | 12 | 14 | 15 | 17 | 19 |
索引 | 18 | 19 | 20 | 21 | 22 | 23 |
CLD | 22 | 25 | 30 | 36 | 46 | 150 |
在根据本发明编码多声道音频信号的空间参数的方法中,一对声道之间的CLD可被线性量化成声道之间的虚拟声源的角位置,而不是线性量化成预定值。因此,可实现高效适当的量化,供心理声学模型中使用。
不仅可将根据本发明编码多声道音频信号的空间参数的方法应用于CLD,还可将其应用于CLD以外的空间参数,比如ICC和CPC。
根据本实施例,如果用于解码多声道音频信号的空间参数的装置(在下文中称为解码装置)不具有量化单元403进行CLD量化所使用的量化表,则比特流生成单元404可将关于量化表的信息插入比特流中,并将该比特流发送到解码装置,这将在下文中进一步详细描述。
根据本发明的实施例,关于在图4所示的编码装置中使用的量化表的信息可通过将量化表中的所有数值-包括索引和分别对应于各索引的CLD值插入比特流中并将该比特流发送至解码装置的方式发送至解码装置。
根据本发明的另一个实施例,关于编码装置中使用的量化表的信息可通过向解码装置发送恢复编码装置所使用的量化表所需的信息的方式发送至解码装置。例如,在编码装置中所使用的量化表中所使用的最小和最大角度、量化阶数可被插入比特流中,然后可将该比特流发送到解码装置。然后,解码装置可基于由编码装置发送的信息和等式(7)和(8)恢复编码装置所使用的量化表。
根据本发明的另一个实施例的空间参数的量化将在下文中参考图14详细描述。根据本发明,关于多声道音频信号的空间参数可使用两个或多个具有不同量化分辨能力的量化表来量化。
参考图14,在操作950中,空间信息提取单元402从待编码的音频信号中提取一个或多个空间参数,其中的待编码的音频信号是通过分割多声道音频信号获取的、并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPC。
在操作955中,量化单元403从具有完全量化分辨能力的精细模式和量化分辨能力比精细模式低的粗糙模式中确定一个作为待编码的音频信号的量化模式。精细模式比粗糙模式的量化阶数多、量化步长较小。
量化单元403可根据音频信号的能级确定精细模式和粗糙模式中的一个作为量化模式。根据心理声学模型,精密地量化具有高能级的音频信号比精密地量化具有低能级的音频信号效率更高。因此,如果音频信号的能级高于预定基准值,则量化单元403可以以精细模式量化多声道音频信号,否则以粗糙模式量化多声道音频信号。
例如,量化单元403可将由R-OTT模块处理的信号的能级与待编码的音频信号的能级进行比较。然后,如果由R-OTT模块处理的信号的能级低于待编码的音频信号的能级,则量化单元403可以以粗糙模式进行量化。另一方面,如果由R-OTT模块处理的信号的能级高于待编码的音频信号的能级,则量化单元403可以以精细模式进行量化。
如果模块具有5-1-5-1配置,则量化单元403可将分别经由左和右声道输入的音频信号的能级与待编码的音频信号的能级进行比较,以便确定用于输入至R-OTT3的音频信号的CLD量化模式。
在操作960中,如果在操作955中将精细模式确定为待编码的音频信号的量化模式,则量化单元403利用具有完全量化分辨能力的第一量化表量化CLD。第一量化表包括31个量化阶,且通过将一对声道之间的空间分成31部分来量化一对声道之间的CLD。在精细模式中,可将相同的量化表应用于每对声道。
在操作965中,如果在操作955中将粗糙模式确定为待编码的音频信号的量化模式,则量化单元403使用量化分辨能力比第一量化表低的第二量化表来量化CLD。第二量化表以预定的角间隔作为量化步长。第二量化表的创建和利用第二量化表来量化CLD的过程可与如以上参考图7和图8所描述的相同。
根据本发明的另一个实施例的空间参数的量化将在下文中参考图15进行详细描述。
参考图15,在操作970中,空间参数提取单元402从待编码的音频信号中提取一个或多个空间参数,其中该待编码的音频信号是通过分割多声道音频信号获取并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPD。在操作975中,量化单元403利用将两个或多个角度作为量化步长的量化表来量化所提取的空间参数-具体的是CLD。在这种情形中,量化单元403可将与在操作975中所获取的经量化的CLD值相对应的索引信息发送至编码单元404。
图9是用于解释利用两个或多个角度间隔将一对声道分割成具有不同角度的多个部分的图,用于根据一对声道的位置以可变角度间隔执行CLD量化操作。
根据心理声学研究,人类的空间信息分辨能力根据声源的位置而改变。当声源位于前方时,人类的空间信息分辨能力可以是3.6°。当声源位于左方时,人类的空间信息分辨能力可以是9.2°。当声源位于后方时,人类的空间信息分辨能力是5.5°。
依此,对于位于前方的声道,可将量化步长设定为约3.6°的角间隔,对于位于左方或右方的声道,将其设定为约9.2°的角间隔,对于位于后方的声道,将其设定为约5.5°的角间隔。
为了从前方至左方或从左方至后方的平滑转变,可将量化步长设定为不规则角间隔。换言之,角间隔沿从前方至左方的方向逐渐增加,使得量化步长增加。另一方面,角间隔沿从左方至后方的方向逐渐减小,使得量化步长减少。
参考图9中所示的多个声道,声道X位于前方,声道Y位于左方,而声道Z位于后方。为了确定声道X和声道Y之间的CLD,声道X和声道Y之间的空间被分成分别具有角度α1至αk的k个部分。角度α1至αk之间的关系可由等式(9)来表示。
数学演算9
α1≤α2≤…≤αk
为了确定声道Y和声道Z之间的CLD,声道Y和声道Z之间的空间可被分成分别具有角度β1至βm的m个部分和分别具有角度y1至yn的n个部分。角间隔沿从声道Y至左方的方向逐渐增加,而沿从左方至声道Z的方向逐渐减小。角度β1至βm之间以及角度y1至yn之间的关系可分别由等式(10)和(11)来表示:
数学演算10
β1≤β2≤…≤βm
数学演算11
γ1≤γ2≤…≤γn
角度αk、βm和γn是用于解释利用两个或多个角间隔分割一对声道之间的空间的示例性角度,其中根据多声道的位置数用于分割一对声道之间的空间所使用的角间隔的数目可以是4或更大。
同样,角度αk、βm和γn可以是一致的或可变的。如果角度αk、βm和γn是一致的,则它们由等式(12)表示:
数学演算12
αk≤γn≤βm(αk=γn=βm除外)
等式(10)指示根据人类的空间信息分辨能力的角间隔特性。例如,αk=3.6°、βm=9.2°和γn=5.5°
表7表示与通过利用两个或多个角度间隔将形成30°角的中心声道和左声道之间的空间进行分割而获取的多个相邻部分相对应的多个CLD值和多个角之间的对应关系。
表7
角度 | 0 | 1 | 3 | 5 | 8 | 11 |
CLD | CLD(0) | CLD(1) | CLD(3) | CLD(5) | CLD(8) | CLD(11) |
角度 | 14 | 18 | 22 | 26 | 30 | |
CLD | CLD(14) | CLD(18) | CLD(22) | CLD(26) | CLD(30) |
参考表7,角度指示虚拟声源和中心声道之间的角度,CLD(X)指示与X相对应的CLD值。CLD值CLD(X)可利用等式(7)和等式(8)来计算。
通过将表7作为量化表,中心声道和左声道之间的CLD可被量化。在这种情形中,量化中心声道和左声道之间的CLD所需的量化阶数是11。
参考表7,随着方向角间隔沿着从前方至左方的方向增加,量化步长相应地增加,这指示人类的空间信息分别能力沿从前方至左方的方向增加。
在表7中表示的CLD值可由各自对应的索引来表示。在这种情形中,可基于表7创建表8。
表8
角度 | 0 | 1 | 2 | 3 | 4 | 5 |
CLD | CLD(0) | CLD(1) | CLD(3) | CLD(5) | CLD(8) | CLD(11) |
角度 | 6 | 7 | 8 | 9 | 10 | |
CLD | CLD(14) | CLD(18) | CLD(22) | CLD(26) | CLD(30) |
图10是根据本发明的另一个实施例用于解释通过图4所示的量化单元利用量化表量化CLD的图。参考图10,可将量化表中示出的一对相邻角度的平均值设定为量化阈值。
详细地,在位于前方的声道A和位于右方的声道B之间的CLD的情形中,可将声道A和声道B之间的空间分成分别对应于k个角度θ1、θ2、、θk的k个部分。角度θ1、θ2、、θk可由等式(13)来表示:
数学演算13
θ1≤θ2≤…≤θk
等式(13)指示根据声道位置的角间隔特性。根据等式(13),人类的空间信息分辨能力沿从前方至左方的方向增加。
量化单元403利用等式(7)和(8)将由空间参数提取单元402提取的CLD转换成虚拟声源角位置。
在量化用于三个或多个声道的CLD的情形中,可将不同的量化表用于不同的声道对。换言之,可将多个量化表分别用于多个具有不同位置的声道对。可按上述方式创建用于不同声道对中的每一个的量化表。
根据本实施例,一对声道之间的CLD根据该对声道的位置通过使用两个或多个角间隔作为量化步长来量化,而不是被线性量化成一个预定的值。因此,可实现一种供心理声学模型中使用的有效且适当的CLD量化。
根据本实施例的编码多声道音频信号的空间参数的方法可被应用于CLD以外的空间参数,比如ICC和CPC。
在下文中将参考图16详细描述根据本发明的另一个实施例编码多声道音频信号的空间参数的方法。根据图16所示的实施例,可将具有不同量化分辨能力的两个或多个量化表用于量化空间参数。
参考图16,在操作980中,从待编码的音频信号中提取空间参数,其中该待编码的音频信号是通过分割多声道音频信号获取并分别对应于多个子频带的多个音频信号中的一个。所提取的空间参数的例子包括CLD、CTD、ICC和CPC。
在操作985中,量化单元403从具有完全量化分辨能力的精细模式和量化分辨能力比精细模式低的粗糙模式中确定一个作为待编码的音频信号的量化模式。精细模式对应于比粗糙模式多的量化阶数和比其要小的量化步长。
量化单元403可根据待编码的音频信号的能级确定精细模式和粗糙模式中的一个作为量化模式。根据心理声学模型,精密地量化具有高能级的音频信号比精密地量化具有低能级的音频信号效率更高。因此,如果音频信号的能级高于预定基准值,则量化单元403可以以精细模式量化多声道音频信号,否则以粗糙模式量化音频信号。
例如,量化单元403可将由R-OTT模块处理的信号的能级与待编码的音频信号的能级进行比较。然后,如果由R-OTT模块处理的信号的能级低于音频信号的能级,则量化单元403可以以粗糙模式进行量化。另一方面,如果由R-OTT模块处理的信号的能级高于待编码的音频信号的能级,则量化单元403可以以精细模式进行量化。
如果模块具有5-1-5-1配置,则量化单元403可将分别经由左和右声道输入的音频信号的能级与待编码的音频信号的能级进行比较,以便确定用于输入至R-OTT3的音频信号的CLD量化模式。
在操作990中,如果在操作985中将精细模式确定为待编码的音频信号的量化模式,则量化单元403利用具有完全量化分辨能力的第一量化表量化CLD。第一量化表包括31个量化阶。在精细模式中,应用于每对声道的量化表具有相同量化阶数。
在操作995中,如果在操作985中将粗糙模式确定为待编码的音频信号的量化模式,则量化单元403使用量化分辨能力比第一量化表低的第二量化表来量化CLD。第二量化表具有作为量化步长的两个或多个角间隔。第二量化表的创建和利用第二量化表来量化CLD的过程可与如以上参考图9和图10所描述的相同。
根据本实施例,如果用于解码多声道音频信号的空间参数的装置(在下文中称为解码装置)不具有量化单元403进行CLD量化所使用的量化表,则比特流生成单元404可将关于量化表的信息插入比特流中,并将该比特流发送到解码装置,这将在下文中进一步详细描述。
根据本发明的实施例,关于在图4所示的编码装置中使用的量化表的信息可通过将量化表中的所有的值-包括索引和分别对应于各索引的CLD值-插入比特流中并将该比特流发送至解码装置的方式发送至解码装置。
根据本发明的另一个实施例,关于编码装置中使用的量化表的信息可通过向解码装置发送恢复编码装置所使用的量化表所需的信息的方式发送至解码装置。例如,在编码装置中所使用的量化表的最小和最大角度、量化阶数和两个或多个角度间隔可被插入比特流中,然后可将该比特流发送到解码装置。然后,解码装置可基于由编码装置发送的信息和等式(7)和(8)恢复编码装置所使用的量化表。
图11是图4中所示的空间参数提取单元402-即空间参数提取单元910的例子的框图。参考图11,空间参数提取单元910包括第一空间参数提取测量单元911和第二空间参数测量单元913。
第一空间参数测量器911基于输入的多声道音频信号测量多个声道之间的CLD。第二空间参数测量单元913利用预定的角间隔或两个或多个角间隔将多个声道中的一对声道之间的空间分割成若干部分,并创建适用于声道对组合的量化表。然后,量化单元920利用量化表量化由空间参数提取单元910提取的CLD。
图12是根据本发明的一个实施例解码多声道音频信号的空间参数的装置的框图(在下文中称为解码装置)。参考图12,解码装置包括拆分单元930和逆量化单元935。
拆分单元930从输入的比特流中提取与一对声道的能级之间的差相对应的经量化的CLD。逆量化单元935考虑一对声道的位置性质利用量化表对经量化的CLD进行逆量化。
在下文中间参考图17详细描述根据本发明的一个实施例解码多声道音频信号的空间参数的方法。
参考图17,在操作1000中,拆分单元930从输入的比特流中提取经量化的CLD。在操作1005中,逆量化单元935利用将预定角间隔作为量化步长的量化表来对经量化的CLD进行逆量化。量化步长可以是3°。
在操作1005中使用的量化表与在以上参考图7和8描述的操作期间由编码装置使用的量化表相同,因此将跳过其详细描述。
根据本实施例,如果逆量化单元930不具有任何关于量化表的信息,则逆量化单元930可从输入比特流中提取关于量化表的信息,并基于所提取的信息恢复量化表。
根据本发明的实施例,量化表中的所有值-包括索引和分别对应于索引的CLD值可被插入于比特流中。
根据本发明的另一个实施例,量化表的最小和最大角度和量化阶数可包括在比特流中。
图18是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图。根据图18所示的实施例,空间参数可利用具有不同量化分辨能力的两个或多个量化表来逆量化。
参考图18,在操作1010中,拆分单元930从输入比特流中提取经量化的CLD和量化模式信息。
在操作1015中,逆量化单元935基于所提取的量化模式信息确定编码装置用于形成经量化的CLD的量化模式是具有完全量化分辨能力的精细模式还是量化分辨能力比精细模式低的粗糙模式。精细模式对应于比粗糙模式多的量化阶数和比其要小的量化步长。
在操作1020中,如果用于形成经量化的CLD的量化模式在操作1015中被确定为精细模式,则逆量化单元935利用具有完全量化分辨能力的第一量化表逆量化经量化的CLD。第一量化表包括31个量化阶,并通过将一对声道之间的空间分割成31个部分来量化一对声道之间的CLD。在精细模式中,可将相同的量化阶数应用于每一对声道。
在操作1025中,如果用于形成经量化的CLD的量化模式在操作1015中被确定为粗糙模式,则逆量化单元935利用量化分辨能力比第一量化表低的第二量化表逆量化经量化的CLD。第二量化表可具有预定角间隔作为量化步长。利用预定角间隔作为量化步长的第二量化表可与以上参考图7和8描述的量化表相同。
将参考图19详细描述根据本发明的另一个实施例解码多声道音频信号的空间参数的方法。
参考图19,在操作1030中,拆分单元930从输入比特流中提取经量化的CLD。在操作1035中,逆量化单元935利用将两个或多个角间隔用作量化步长的量化表来逆量化经量化的CLD。
在操作1035中使用的量化表与以上参考图9和10所描述的操作期间编码装置使用的量化表相同,因此跳过其详细描述。
根据本实施例,如果逆量化单元930不具有任何关于量化表的信息,则逆量化单元930可从输入比特流中提取关于量化表的信息,并基于所提取的信息恢复量化表。
根据本发明的实施例,量化表中的所有值-包括索引和分别对应于索引的CLD值可被插入于比特流中。
根据本发明的另一个实施例,量化表的最小和最大角度、量化阶数以及两个或多个角间隔可包括在比特流中。
图20是根据本发明的另一个实施例示出解码多声道音频信号的空间参数的方法的流程图。根据图20所示的实施例,空间参数可利用具有不同量化分辨能力的两个或多个量化表来逆量化。
参考图20,在操作1040中,拆分单元930从输入比特流中提取经量化的CLD和量化模式信息。
在操作1045中,逆量化单元935基于所提取的量化模式信息确定用于形成经量化的CLD的量化模式是具有完全量化分辨能力的精细模式还是量化分辨能力比精细模式低的粗糙模式。精细模式对应于比粗糙模式多的量化阶数和比其要小的量化步长。
在操作1050中,如果用于产生经量化的CLD的量化模式在操作1015中被确定为精细模式,则逆量化单元935利用具有完全量化分辨能力的第一量化表逆量化经量化的CLD。第一量化表包括31个量化阶,并通过将一对声道之间的空间分割成31个部分来量化一对声道之间的CLD。在精细模式中,可将相同的量化阶数应用于每一对声道。
在操作1055中,如果用于产生经量化的CLD的量化模式在操作1045中被确定为粗糙模式,则逆量化单元935利用量化分辨能力比第一量化表低的第二量化表逆量化经量化的CLD。第二量化表可具有两个或多个预定角间隔作为量化步长。利用两个或多个预定角间隔作为量化步长的第二量化表可与以上参考图9和10描述的量化表相同。
可将本发明实现为写在计算机可读记录介质上的计算机可读代码。计算机可度记录介质可以是其中数据以计算机可读方式存储的任何类型的记录设备。计算机可读记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储器、载波(例如,通过因特网的数据传输)。可将计算机可读记录介质分布在连接至网络的多个计算机系统上,使得计算机可读代码能以分散的方式向其写入或从其执行。实现本发明所需的功能程序、代码和代码段可由本领域的普通技术人员容易地解释。
工业适用性
如上所述,根据本发明,可通过减少所需的量化比特数来提高编码/解码的效率。通常,多个任意声道之间的CLD通过将可构成多个任意声道的每一对声道之间的空间不加区分地分割成31部分来计算,因此,总共需要5个量化比特。另一方面,根据本发明,可将一对声道之间的空间分成多个部分,且每一部分具有例如3°角。如果一对声道之间的角度是30°,则该对声道之间的空间可被分成11部分,因此需要总共4个量化比特。因此,根据本发明,可减少所需的量化比特数。
此外,根据本发明,可通过参考实际的扬声器配置信息进行量化来进一步提高编码/解码效率。随着声道数增加,数据量按31*N(N是声道数)增加。根据本发明,随着声道数增加,量化每一对声道之间的CLD所需的量化阶数减小,使得数据的总量统一维持不变。因此,本发明不仅可应用于5.1声道环境还可应用于任意扩展的声道环境,因此实现高效率的编码/解码。
尽管已经参考本发明的示例性实施例具体示出并描述了本发明,但本领域的技术人员将理解可在不背离由以下权利要求所限定的本发明的精神和范围的情况下在形式和细节上进行各种改变。
Claims (5)
1.一种接收比特流并解码具有多个声道的音频信号的方法,所述方法包括:
从比特流中提取多个声道中的一对声道之间经量化的声道电平差CLD和与量化模式有关的信息;
如果所述量化模式是第一模式则利用第一量化表逆量化该经量化的CLD,以及如果所述量化模式是第二模式则利用第二量化表来逆量化该经量化的CLD,
其中所述第一量化表具有和所述第二量化表不同的量化分辨能力。
2.如权利要求1所述的方法,其特征在于,所述第一量化表具有的量化阶数多于所述第二量化表。
3.如权利要求1所述的方法,其特征在于,所述第一量化表具有的量化步长小于所述第二量化表。
4.如权利要求1所述的方法,其特征在于,所述量化模式是基于待量化的信号的能级来确定的。
5.一种用于接收比特流并解码具有多个声道的音频信号的装置,所述装置包括:
拆分单元,其从所述比特流中提取所述多个声道中的一对声道之间经量化的声道电平差CLD和与量化模式有关的信息;以及
逆量化单元,如果所述量化模式是第一模式则利用第一量化表,如果所述量化模式是第二模式则利用第二量化表,来逆量化所述经量化的CLD,
其中所述第一量化表具有和所述第二量化表不同的量化分辨能力。
Applications Claiming Priority (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US72049505P | 2005-09-27 | 2005-09-27 | |
US60/720,495 | 2005-09-27 | ||
US75577706P | 2006-01-04 | 2006-01-04 | |
US60/755,777 | 2006-01-04 | ||
US78252106P | 2006-03-16 | 2006-03-16 | |
US60/782,521 | 2006-03-16 | ||
KR1020060065290A KR20070035410A (ko) | 2005-09-27 | 2006-07-12 | 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치 |
KR1020060065291 | 2006-07-12 | ||
KR1020060065290 | 2006-07-12 | ||
KR10-2006-0065291 | 2006-07-12 | ||
KR10-2006-0065290 | 2006-07-12 | ||
KR1020060065291A KR20070035411A (ko) | 2005-09-27 | 2006-07-12 | 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치 |
PCT/KR2006/003830 WO2007037613A1 (en) | 2005-09-27 | 2006-09-26 | Method and apparatus for encoding/decoding multi-channel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101427307A CN101427307A (zh) | 2009-05-06 |
CN101427307B true CN101427307B (zh) | 2012-03-07 |
Family
ID=40101084
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800440236A Active CN101427307B (zh) | 2005-09-27 | 2006-09-26 | 编码/解码多声道音频信号的方法和装置 |
CN2006800440221A Active CN101313355B (zh) | 2005-09-27 | 2006-09-27 | 编码/解码多声道音频信号的方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800440221A Active CN101313355B (zh) | 2005-09-27 | 2006-09-27 | 编码/解码多声道音频信号的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN101427307B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101521013B (zh) * | 2009-04-08 | 2011-08-17 | 武汉大学 | 空间音频参数双向帧间预测编解码装置 |
CN102157151B (zh) * | 2010-02-11 | 2012-10-03 | 华为技术有限公司 | 一种多声道信号编码方法、解码方法、装置和系统 |
WO2011097903A1 (zh) * | 2010-02-11 | 2011-08-18 | 华为技术有限公司 | 多声道信号编码、解码方法、装置及编解码系统 |
CN102157152B (zh) | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
CN102157150B (zh) * | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声解码方法及装置 |
CN102157149B (zh) * | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声信号下混方法、编解码装置和编解码系统 |
US8401863B1 (en) * | 2012-04-25 | 2013-03-19 | Dolby Laboratories Licensing Corporation | Audio encoding and decoding with conditional quantizers |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
JP7337966B2 (ja) * | 2019-06-29 | 2023-09-04 | 華為技術有限公司 | ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0424016A2 (en) * | 1989-10-18 | 1991-04-24 | AT&T Corp. | Perceptual coding of audio signals |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US6741965B1 (en) * | 1997-04-10 | 2004-05-25 | Sony Corporation | Differential stereo using two coding techniques |
ITMI980914A1 (it) * | 1998-04-29 | 1999-10-29 | De Nora Spa | Metodo per l'integrazione di celle a combustibile con impianti elettrochimici |
-
2006
- 2006-09-26 CN CN2006800440236A patent/CN101427307B/zh active Active
- 2006-09-27 CN CN2006800440221A patent/CN101313355B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0424016A2 (en) * | 1989-10-18 | 1991-04-24 | AT&T Corp. | Perceptual coding of audio signals |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
Also Published As
Publication number | Publication date |
---|---|
CN101427307A (zh) | 2009-05-06 |
CN101313355A (zh) | 2008-11-26 |
CN101313355B (zh) | 2011-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101427307B (zh) | 编码/解码多声道音频信号的方法和装置 | |
RU2690885C1 (ru) | Стереофонический кодер и декодер аудиосигналов | |
TWI404429B (zh) | 用於將多頻道音訊信號編碼/解碼之方法與裝置 | |
EP1853092B1 (en) | Enhancing stereo audio with remix capability | |
CN1993733B (zh) | 空间音频参数量化器、去量化器及参数量化、去量化方法 | |
RU2327304C2 (ru) | Совместимое многоканальное кодирование/декодирование | |
CN105531763B (zh) | 用于先进耦合的不均匀参数量化 | |
CN105164749B (zh) | 多声道音频的混合编码 | |
US9728194B2 (en) | Audio processing | |
CN104541326A (zh) | 一种设备和方法,用于处理音频信号 | |
TWI794032B (zh) | 應用動態範圍壓縮至高階保真立體音響信號之方法和裝置 | |
KR101569702B1 (ko) | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 | |
Daniel et al. | Multichannel audio coding based on minimum audible angles | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
JP2013050663A (ja) | 多チャネル音響符号化装置およびそのプログラム | |
JP2013050658A (ja) | 多チャネル音響符号化装置およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1132576 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1132576 Country of ref document: HK |