CN102883257A

CN102883257A - 用于编码多对象音频信号的设备和方法

Info

Publication number: CN102883257A
Application number: CN2012103813762A
Authority: CN
Inventors: 白承权; 徐廷一; 李泰辰; 李用主; 张大永; 洪镇佑; 金镇雄; 姜京玉
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-12-27
Filing date: 2007-12-27
Publication date: 2013-01-16
Anticipated expiration: 2027-12-27
Also published as: US20130132098A1; CN102883257B; US9257127B2; JP2010515099A; EP2595151A3; KR20130007526A; JP2019074743A; JP2013127635A; CN103137132A; KR101086347B1; CN103137130A; EP2595148A3; JP5941610B2; KR101309673B1; EP2595149A3; KR20080063155A; CN103137130B; CN101632118B; CN103137132B; CN103137131A

Abstract

本发明提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法，所述设备和方法提供了与传统的空间音频编码（SAC）比特流的后向兼容性。所述设备包括：音频对象编码单元，用于基于空间线索来编码输入到编码设备的音频对象信号，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备，并且所述编码设备使用在音频信号的编码和解码中。

Description

用于编码多对象音频信号的设备和方法

本申请是申请日为2007年12月27日、申请号为200780051758.6、发明名称为“包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法”的发明专利申请的分案申请。

技术领域

本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法；且更具体地，涉及一种包括边信息（side information）比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法，所述边信息比特流转换用于变换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号（即，各种声道）的多对象音频信号。

具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同声道（例如，单声道、立体声和5.1声道）的多对象的音频信号。

这项工作受MIC/IITA的IT R&D规划[2005-S-403-02,“Development ofSuper-intelligent Multimedia Anytime-anywhere Realistic TV SmarTVTechnology（超智能多媒体任何时间任何地点逼真TV智能TV技术的开发）”]支持。

背景技术

根据传统的音频编码/解码技术，用户应该被动地（inactively）聆听音频内容。这样，需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的设备和方法，使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以各种方法而组合一个音频内容，来消费各种音频对象。

传统的空间音频编码（SAC）是一种用于将多声道音频信号代表、传送、和恢复为缩混后的单声道或立体声信号的技术，并且它可以以低比特率来传送高质量的多声道音频信号。

然而，由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码和解码，所以它不能编码/解码多声道和多对象音频信号，例如，用于多声道（例如，单声道、立体声和5.1声道）中的各种对象的音频信号。

此外，传统的心理声学编码（BCC：Binaural Cue Coding）技术可以编码/解码用于多对象的音频信号。然而，由于音频对象的声道限于单声道，所以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。

总之，由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者具有多声道的单对象音频信号，所以不能对具有各种声道的多对象音频信号进行编码/解码。因此，根据传统的音频编码/解码技术，用户应该被动地聆听音频内容。

相应地，需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进行编码和解码的设备和方法，以通过控制根据用户的需要而不同的多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种音频对象。

此外，需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然的设备和方法，以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。

如上所述，作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法，需要开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法，以提供与传统SAC比特流的后向兼容性，并控制具有多声道的每个多音频对象，从而以多样的方法来组合一个音频对象。

发明内容

技术问题

本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码、以提供与传统的空间音频编码（SAC）比特流的后向兼容性的设备和方法。

技术解决方案

根据本发明的一方面，提供了一种用于编码多对象音频信号的设备，包括：音频对象编码单元，用于基于空间线索（spatial cue）来编码输入到编码设备的音频对象信号，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。

根据本发明的又一方面，提供了一种用于创建渲染信息来解码多对象音频信号的代码转换设备，包括：第一矩阵单元，用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；和渲染单元，用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号的渲染信息，来创建用于要从解码设备输出的音频信号的空间线索信息。

根据本发明的又一方面，提供了一种用于创建多声道音频信号和用于解码多声道音频信号的渲染信息的代码转换设备，包括：解析单元，用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息；第一矩阵单元，用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；第二矩阵单元，用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息，来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息，和渲染单元，用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息，来创建用于从解码设备输出的音频信号的空间线索信息。

根据本发明的又一方面，提供了一种用于编码多对象音频信号的方法，包括如下步骤：基于空间线索来对所输入的音频对象信号进行编码，并创建用于编码后的音频对象信号的渲染信息，其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。

根据本发明的又一方面，提供了一种用于创建渲染信息来解码多对象音频信号的代码转换方法，包括如下步骤：基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息，来创建用于要在解码之后输出的音频信号的空间线索信息。

根据本发明的又一方面，提供了一种用于创建渲染信息以解码多声道音频信号和多对象音频信号的代码转换方法，包括如下步骤：从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息；基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息，该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息；基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息，来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息，和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息的步骤中单独获取的用于已编码音频对象信号的渲染信息，来创建用于要在解码之后输出的音频信号的空间线索信息。

有利效果

通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多对象音频信号的设备和方法，本发明可通过有效地编码和解码各种声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外，本发明可通过提供与传统上使用的比特流的后向兼容性，来提供与传统编码和解码设备的兼容性。

附图说明

图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。

图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。

图3是图示了根据本发明实施例的图2的代码转换器（transcoder）103的框图。

图4图示了根据本发明实施例的由图2的比特流格式器（formatter）205创建的代表性空间音频对象编码（SAOC）比特流。

图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。

图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。

图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。

图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。

具体实施方式

根据下文中陈述的参考附图的以下实施例描述，本发明的优点、特征和方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。

参考图1，本发明包括：空间音频对象编码器（SAOC）101、代码转换器103、和空间音频编码（SAC）105。

根据SAOC方法，输入到编码器的信号被编码为音频对象。每个音频对象不由解码器恢复并独立地播放。然而，用于音频对象的信息被渲染（render）以形成所期望的音频场景，并输出具有各种声道的多对象音频信号。因此，SAC解码器需要用于渲染被输入以获取所期望的音频场景的用于音频对象的信息的设备。

SAOC编码器101是基于空间线索的编码器，并将输入音频信号编码为音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。

SAOC编码器101输出来自多于一个输入音频对象的缩混信号，并通过提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器101基于“异类布局SAOC”或者“Faller”技术来分析所输入的音频对象信号。

所提取的SAOC比特流包括空间线索和边信息，并且所述边信息包括输入音频对象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。

所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域，并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如，空间线索包括：用于示出音频信号的功率增益信息的、音频信号之间的声道电平差（CLD）；音频信号之间的声道间电平差（ICLD）；音频信号之间的声道间时间差（ICTD）；用于示出音频信号之间的相关信息的、音频信号之间的相关声道间相关（ICC）；和音频信号之间的虚拟源位置信息，但是不限于这些示例。

此外，所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信息，并且可通过定义用于音频对象的声道信息和音频对象的标识（ID）来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如，定义用于每个对象的ID和信息，以标识已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例，所述标首信息可包括：空间音频编码（SAC）标首信息、音频对象信息和预设信息。

代码转换器103渲染被输入到SAOC编码器101的音频对象，并基于从外部输入的控制信号（即，每个对象的声音信息和播放环境信息）来将从SAOC编码器101提取的SAOC比特流变换为SAC比特流。

也就是说，代码转换器103基于所提取的SAOC比特流执行渲染，以将输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于边信息的渲染。

此外，代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从SAOC比特流获得输入音频对象的信息，并与所期望的音频场景对应地渲染输入音频对象的信息。在渲染过程中，代码转换器103预测与所期望的音频场景对应的空间信息，变换并输出已预测的空间信息作为SAC边信息比特流。

将参考图3来详细描述代码转换器103。

SAC解码器105是基于空间线索的多声道音频解码器，基于从代码转换器103输出的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号，并将每个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图象专家组（MPEG）环绕解码器和心理声学编码（BCC）解码器来替换。

图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图，并示出了输入信号是具有各种声道的多对象音频信号的情况。

参考图2和图1，本发明包括：SAOC编码器101、代码转换器103、SAC解码器105、SAC编码器201、预设音频场景信息（ASI）203和比特流格式器205。

当SAOC编码器101仅支持单声道或立体声音频对象时，SAC编码器201从所输入的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信号。此外，SAC编码器201提取空间线索和边信息，并创建SAC比特流。

SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对象输出代表性缩混信号，提取空间线索和边信息，并创建SAOC比特流。

预设ASI 203将从外部输入的控制信号（即，每个对象的声音信息和播放环境信息）形成为预设ASI，并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设ASI。

比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201创建的SAC比特流、和由预设ASI 203创建的预设ASI比特流，来创建代表性SAOC比特流。

代码转换器103渲染向SAOC编码器101输入的音频对象，并基于从外部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括在SAC解码器105中并如上所述地起作用。

SAC解码器105基于从代码转换器103输出的SAC比特流，来将从SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。

图3是图示了根据本发明实施例的图2的代码转换器103的框图。

参考图3，代码转换器103包括：解析单元301、渲染单元303、第二矩阵单元311、和第一矩阵单元313，并将代表性SAOC比特流变换为代表性SAC比特流。

在图1中，代码转换器103将SAOC比特流变换为SAC比特流。

解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者由图1的SAOC编码器101创建的SAOC比特流，并划分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外，解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信息。由于当解析由图1的SAOC编码器101创建的SAOC比特流时没有SAC比特流，所以不必划分SAC比特流。

第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中不包括SAC比特流时，即当解析由图1的SAOC编码器101创建的SAOC比特流时，不需要第二矩阵单元311。

第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值，并示出在等式1中。

等式1

通常，在将一个帧划分为子带之后的分析是SAC的基本分析过程。

是从SAC编码器201输出的缩混信号；k是频率系数索引；并且b是子带索引。

是从SAC比特流获得的多声道信号的空间线索信息，并用于恢复第i声道信号的频率信息，1≤i≤M。因此，

可以表达为频率系数的大小信息或相位信息。因此，在等式1的右边项中，

是等式1的结果，并示出了从SAC解码器105输出的多声道音频信号。

和是向量，并且

的转置矩阵的维数是

的维数。例如，这将被描述为等式2。由于从SAC编码器201输出的缩混信号是单声道或立体声，所以m是1或2。

w_{ch_1}^{b} \times u_{SAC}^{b} (k) = [\begin{matrix} w_{1}^{b} & w_{2}^{b} & \cdot \cdot \cdot & w_{m}^{b} \end{matrix}] [\begin{matrix} u_{1}^{b} (k) \\ u_{2}^{b} (k) \\ \cdot \\ \cdot \\ \cdot \\ u_{m}^{b} (k) \end{matrix}]

等式2

如上所述，

是包括在SAC比特流中的空间线索信息。当

指示每个声道的子带中的功率增益时，可以从声道电平差空间线索中预测

当

被用作用于补偿频率系数的相位差的系数时，

可以从声道时间差空间线索或声道间相干空间线索中预测。

作为示例，将描述

被用作用于补偿频率系数之间的相位差的系数的情况。

等式1的第二矩阵应表达每个声道的功率增益值，并且是缩混信号的向量的维数的逆，使得可以利用从SAC编码器201输出的缩混信号通过矩阵运算来创建输出信号

当第二矩阵单元311创建满足等式1和2的第二矩阵时，渲染单元303组合所创建的第二矩阵和第一矩阵单元313的输出。

第一矩阵单元313基于控制信号（例如，对象控制信息和播放系统信息），来创建期望多于一个的、输入到SAOC编码器101的音频对象的输出，即要被映射到具有各种声道的多对象音频信号的第一矩阵。

当输入到SAOC编码器101的音频对象的数目是N时，从SAC编码器201输出的缩混信号被认为是一个音频对象并包括在所输入的N个音频对象中。相应地，除了从SAC编码器201输出的缩混信号之外的每个音频对象可以基于第一矩阵而被映射到从SAC解码器105输出的声道。

当从SAC解码器105输出的声道的数目是M时，第一矩阵可满足接下来的条件。

等式3

其中

是用于示出音频对象i的子带信号的信息的向量，1≤i≤N-1，并且是可以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时，

是2×1矩阵向量。

是示出用于将第j音频对象映射到第i输出声道的功率增益信息或相位信息的第一矩阵的元素向量，并且可以从由外部输入或者被设置为初始值的控制信息（例如，对象控制信息和播放系统信息）中获得。

满足等式3的条件的第一矩阵被传送到渲染单元303，并且在渲染单元303中运算等式3。

将在等式4和5中详细描述等式3的运算符和运算过程☉。

等式4

= [\begin{matrix} p_{1, i, j}^{b} \times w_{1, oj_i}^{b} & p_{2, i, j}^{b} \times w_{2, oj_i}^{b} & \cdot \cdot \cdot & p_{m, i, j}^{b} \times w_{m, oj_i}^{b} \end{matrix}]

等式5

当所输入的音频对象是单声道和立体声时，m是2。

例如，当所输入的音频对象的数目是Y、m＝2、并且所输出的声道的数目是M时，第一矩阵的维数是M×Y，且Y数目个

被形成为2×1矩阵。当包括从SAC编码器201输出的音频对象时，考虑Y＝Y-1。作为等式3的运算结果，应该能够表达包括所输出的声道的功率增益向量

的矩阵。所表达的向量的维数是M×2，并反映作为所输出的声道的数目的M和作为所输入的音频对象的布局的2。

再次参考图3，渲染单元303从第一矩阵313和第二矩阵311接收第一矩阵和第二矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流获得的每个音频对象的空间线索信息

通过组合基于第一矩阵和第二矩阵计算的输出向量来获得所期望的空间线索信息，并创建包括所期望的空间线索信息的代表性SAC比特流。所期望的空间线索指的是与输出多声道音频信号有关的空间线索，期望由用户从SAC解码器105输出所述输出多声道音频信号。

如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线索信息的运算。

pow (p_{N}) {[\begin{matrix} w_{ch_1}^{b} \\ w_{ch_2}^{b} \\ \cdot \\ \cdot \\ \cdot \\ w_{ch_M}^{b} \end{matrix}]}_{SAC} + (1 - pow (p_{N})) {[\begin{matrix} w_{ch_1}^{b} \\ w_{ch_2}^{b} \\ \cdot \\ \cdot \\ \cdot \\ w_{ch_M}^{b} \end{matrix}]}_{SAOC} = [\begin{matrix} w_{ch_1}^{b} \\ w_{ch_2}^{b} \\ \cdot \\ \cdot \\ \cdot \\ w_{ch_M}^{b} \end{matrix}] = W_{\mod ified}^{b}

等式6

当创建第一矩阵时没有考虑P_N，并且P_N示出了从SAC编码器201输出的音频对象的功率之和与直接输入到SAOC编码器101的音频对象的功率的比率。

P_N可表达为等式7。

p_{N} = \frac{\underset{k = N - 1}{Σ} power (object # k)}{power (object # N)}

等式7

因此，当

是所输出的声道的功率时，在音频对象的渲染之后的每个声道的功率比被示出为

可以从

中重新提取所期望的空间线索参数。例如，提取ch_2和ch_1之间的声道电平差（CLD）参数如等式8所示。

{CLD}_{ch 1 / ch 2}^{b} = 20 \log_{10} \frac{w_{ch 1}^{b}}{w_{ch 2}^{b}} = {[20 \log_{10} \frac{w_{ch 1,1}^{b}}{w_{ch 2, 1}^{b}}, {20 \log}_{10} \frac{w_{ch 1,2}^{b}}{w_{ch 2, 2}^{b}}]}_{m = 2}

等式8

当所传送的缩混信号是单声道信号时，CLD参数如等式9所示。

{CLD}_{ch 1 / ch 2}^{b} = {10 \log}_{10} \frac{{(w_{ch 1, 1}^{b})}^{2} + {(w_{ch 1,2}^{b})}^{2}}{{(w_{ch 2,1}^{b})}^{2} + {(w_{ch 2,2}^{b})}^{2}}

等式9

所输出的声道的功率比被表达为作为空间线索参数的CLD，相邻声道之间的空间线索参数被表达为来自给定

信息的各种组合的格式。渲染单元303基于霍夫曼编码方法来创建包括从

提取的空间线索（例如，CLD参数）的SAC比特流。

在由渲染单元303创建的SAC比特流中包括的空间线索具有根据解码器的特性而不同的分析和提取方法。

例如，BCC解码器可基于一个声道使用等式8来提取N-1个CLD参数。此外，MPEG环绕解码器可根据MPEG环绕的每个声道的比较顺序来提取CLD参数。

也就是说，解析单元301划分SAC比特流和SAOC比特流，并且第二矩阵单元311基于解析单元301所划分的SAC比特流和从SAC解码器105输出的多声道音频信号来创建第二矩阵，如等式1所示。第一矩阵单元313创建与控制信号对应的第一矩阵。解析单元301所划分的SAOC比特流被传送到渲染单元303，并且渲染单元303从所传送的SAOC比特流中获得对象的信息，利用第一矩阵执行运算，组合运算结果和第二矩阵，创建

从所创建的中提取空间线索，并创建代表性SAC比特流。

也就是说，从所创建的

中提取的空间线索变成所期望的空间线索。代表性SAC比特流是根据MPEG环绕解码器或BCC解码器的特性而适当变换的比特流，并且可恢复为具有各种声道的多对象信号。

图4图示了根据本发明实施例的由图2的比特流格式器205创建的代表性空间音频对象编码（SAOC）比特流。

参考图4，由比特流格式器205创建的代表性SAOC比特流是通过组合SAOC编码器101所创建的SAOC比特流和SAC编码器201所创建的SAC比特流来创建的，并且所述代表性SAOC比特流包括由预设ASI 203所创建的预设ASI比特流。将参考图5来详细描述所述预设ASI比特流。

用于组合SAOC比特流和SAC比特流的第一方法是一种用于通过直接多路复用每个比特流来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和SAC比特流（参见401）。

第二方法是一种用于当存在SAOC附属（ancillary）数据区时、通过在SAOC附属数据区中包括SAC比特流信息来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和附属数据区域，并且附属数据区包括SAC比特流（参见403）。

第三方法是一种用于表达如下区域的方法，所述区域将在SAOC比特流和SAC比特流中的类似空间线索编码为相同比特流。例如，代表性SAOC比特流的标首信息区域包括SAOC比特流标首信息和SAC比特流标首信息，并且代表性SAOC比特流的每个特定区域包括与特定CLD有关的SAOC比特流和SAC比特流（参见405）。

图5示出了根据本发明另一实施例的图2的代表性SAOC比特流，并示出了代表性SAOC比特流包括多个预设ASI的情况。

参考图5，代表性SAOC比特流包括预设ASI区域。所述预设ASI区域包括多个预设ASI，并且预设ASI包括音频对象的控制信息和布局信息。

当基于代码转换器103渲染音频对象时，应该输入每个音频对象的位置信息、控制信息和所输出的播放扬声器布局信息。

当没有输入控制信息和播放扬声器布局信息时，在代码转换器103中将每个音频对象的控制信息和布局信息设置为默认值。

代表性SAOC比特流或代表性SAC比特流的边信息或标首信息包括被设置为默认值的控制信息和布局信息、或者所输入的音频对象控制信息和布局信息。控制信息可以用两种方式来表达。第一，直接表达每个音频对象的控制信息（例如，位置和电平）和扬声器的布局信息。第二，以第一矩阵格式来表达控制信息和扬声器的布局信息，并且可以使用所述信息来替代第一矩阵单元313中的第一矩阵。

预设ASI示出了音频对象控制信息和扬声器的布局信息。也就是说，预设ASI包括扬声器的布局信息以及每个音频对象的位置和电平信息，以形成适合于扬声器的布局信息的音频场景。

如上所述，直接表达预设ASI或者以第一矩阵格式来表达预设ASI，以便将解析单元301所提取的预设ASI传送到代表性SAC比特流。

当直接表达预设ASI时，预设ASI可包括播放系统的布局（例如，单声道/立体声/多声道）、音频对象ID、音频对象布局（例如，单声道或立体声）、音频对象位置、范围为从0度到360度的方位角、范围为-50度到90度的立体声播放仰角、和音频对象电平信息-50dB至50dB。

当以第一矩阵格式表达预设ASI时，形成用于反映预设ASI的等式3的P矩阵，并且将P矩阵传送到渲染单元303。P矩阵包括作为元素向量的用于将每个音频对象映射到所输出的声道的功率增益信息或相位信息。

预设ASI可定义关于所输入的同一音频对象的与所期望的播放情景对应的不同音频场景。例如，可根据内容产生器的对象和播放服务来另外传送在立体声或多声道（5.1、7.1）播放系统中需要的预设ASI。

图6是示出了根据本发明另一实施例的图2的代码转换器103的框图，并示出了没有从外部输入控制信号的情况。

参考图6，代码转换器103包括解析单元301和渲染单元303。代码转换器103可接收第二矩阵单元311、第一矩阵单元313、预设ASI提取单元601和矩阵确定单元603的帮助。

如上所述，当在代码转换器103中没有从外部输入的控制信号时，应用预设ASI。

解析单元301分开在代表性SAOC比特流中包括的SAOC比特流和SAC比特流，解析在代表性SAOC比特流中包括的预设ASI比特流，并将所述预设ASI比特流传送到预设ASI提取单元601。

预设ASI提取单元601从所解析的预设ASI比特流中输出默认的预设ASI。然而，当存在对于选择预设ASI的请求时，输出所请求的预设ASI。

当预设ASI提取单元601所输出的预设ASI是所选择的预设ASI时，矩阵确定单元603确定所选择的预设ASI是否是第一矩阵格式。当所选择的预设ASI直接表达该信息时，将预设ASI传送到第一矩阵单元313，并且第一矩阵单元313基于预设ASI来创建第一矩阵。当所选择的预设ASI是第一矩阵时，使用预设ASI作为直接输入到渲染单元303的信号。

参考图7，音频对象去除器701用于从SAOC编码器101所创建的代表性缩混信号中去除特定的音频对象。音频对象去除器701接收SAOC编码器101所创建的代表性缩混信号和来自代码转换器103的代表性SAOC比特流信息，并去除特定的音频对象。例如，可通过渲染单元303提供被传送到音频对象去除器701的代表性SAOC比特流信息。

例如，将描述其中仅将作为SAC编码器201的缩混信号的音频对象（对象＃N）用作SAC解码器105的输入信号的情况。

SAOC编码器101根据每个子带来提取所输入的音频对象的每个功率大小作为CLD值，并创建包括CLD值的SAOC比特流。可如下获得用于特定子带m的功率信息。

P_{m}^{object # 1}, P_{m}^{object # 2}, \cdot \cdot \cdot, P_{m}^{object # N}

其中

是由SAOC编码器101输出的代表性缩混信号的第m频带的功率大小。因此，u(n)是输入到音频对象去除器701的代表性缩混信号，并且U(f)正将代表性缩混信号变换到频率区域。

当U^modified(f)是音频对象去除器701的输出信号（即，SAC解码器105的输入信号）时，U^modified(f)对应于SAC编码器201的缩混信号的音频对象（对象＃N），并表达为等式10。

U^{\mod ified} (f) = U (f) \times \sqrt{\frac{P_{m}^{object # N}}{Σ_{i = 1}^{N} P_{m}^{object #_i}}} \times δ, A (m + 1) \leq f \leq A (m + 1) - 1

等式10

其中A(m)表示第m子带的频率区域中的边界；δ是用于控制电平大小的特定常数值；并且U(f)是单声道或立体声。

下文中将描述U(f)是单声道的情况。除了将U(f)划分为左声道和右声道并进行处理之外，U(f)是立体声的情况与U(f)是单声道的情况相同。

U^modified(f)被认为与作为SAC编码器201的缩混信号的音频对象（对象＃N）相同。因此，输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAOC比特流之后的比特流，并且可同等地用于从SAC编码器201输出的SAC比特流。也就是说，SAC解码器105接收对象＃N，并将对象＃N恢复为M个多声道信号。然而，整个信号的电平是通过代码转换器103的渲染单元303、或者通过利用将等式10乘以特定常数值而调制对象＃N的信号电平来控制的。

作为实施例，将描述其中仅要从SAC解码器105的输入信号去除作为SAC编码器201的缩混信号的对象＃N的情况。

等式10与等式11相同。

U^{\mod ified} (f) = U (f) \times \sqrt{\frac{Σ_{i = 1}^{N - 1} P_{m}^{object #_i}}{Σ_{i = 1}^{N} P_{m}^{object #_i}}} \times δ, A (m + 1) \leq f \leq A (m + 1) - 1

等式11

因此，输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAC编码器201的SAC比特流之后的比特流，并被认为在渲染单元303的第二矩阵中没有输出。也就是说，代码转换器103通过解析代表性SAOC比特流块并仅渲染排除用于对象＃N的音频对象信息之外的剩余信息，来创建代表性SAC比特流。

因此，在代表性SAC比特流中不包括用于对象＃N的功率增益信息和相关信息。在等式11中，δ是用于控制电平大小的特定常数值，正如等式10一样，并且可控制整个输出信号电平。

音频对象去除器701从代表性缩混信号中去除音频对象，并且通过输入到代码转换器103的控制信号来确定去除命令。音频对象去除器701可以应用时间区域信号和频率区域信号二者。此外，可使用离散傅立叶变换（DFT）或正交镜像过滤带(QMF：Quadrature Mirror Filterbank)来将代表性缩混信号划分为子带。

代码转换器103的渲染单元303去除SAOC比特流或SAC比特流，并将其传送到SAC解码器105，并且音频对象去除器701去除与传送到SAC解码器105的比特流对应的音频对象。

当代码转换器103被包括在SAC解码器105中时，从代码转换器103输出的代表性SAC比特流可传送到SAC解码器105，而没有附加的变换过程。附加的变换过程意指诸如量化或霍夫曼编码方法之类的一般编码过程。

考虑了以下情况，即SAOC编码器101没有连接到SAC编码器201，并且仅控制和恢复除了SAC编码器201的输出音频对象之外的输入到SAOC编码器101的音频对象，即对象＃1至对象＃N-1。

参考图8，SAC编码器201用MPEG环绕编码器（即，MPS编码器801）来替换，并且SAC解码器105用MPEG环绕解码器（即，MPS解码器805）来替换。此外，当从SAOC编码器101输出的代表性缩混信号是立体声时，另外需要信号处理单元803。

MPS编码器801执行与图2的SAC编码器201相同的功能。也就是说，MPS编码器801输出来自所输入的多声道音频信号的一个音频对象，提取空间线索和边信息，并创建MPS比特流。所输出的音频对象是缩混后的单声道或立体声信号。

此外，MPS解码器805执行与图2的SAC解码器105相同的功能。也就是说，MPS解码器805基于从代码转换器103输出的SAC比特流，来恢复从SAOC编码器101输出的缩混信号或者从信号处理单元803输出的代表性重新缩混信号，作为具有各种声道的多对象音频信号。

其间，当从SAOC编码器101输出的缩混信号是立体声时（即，当MPS解码器805处理立体声信号时），由于立体声信号的左/右处理中的限制，所以信号处理单元803需要MPS解码器805。

等式2示出了缩混信号被概括为普通SAC解码器中的m个数目的情况，当缩混信号是立体声时，关于已恢复的输出声道1的等式2与等式12相同。

w_{ch_1}^{b} \times u_{SAC}^{b} (k) = [\begin{matrix} w_{L, ch_1}^{b} & w_{R, ch_2}^{b} \end{matrix}] [\begin{matrix} u_{L}^{b} (k) \\ u_{R}^{b} (k) \end{matrix}]

等式12

输出声道的向量应该能够应用到所有缩混信号，但是这在当前MPS解码器805中是不可能的。如等式13所示，这是因为在MPS解码器805中矩阵值被限制为0。

w_{ch_1}^{b} \times u_{SAC}^{b} (k) = [\begin{matrix} w_{L, ch_1}^{b} & 0 \end{matrix}] [\begin{matrix} u_{L}^{b} (k) \\ u_{R}^{b} (k) \end{matrix}]

等式13

也就是说，由于

元素没有反映在恢复输出声道1中，所以不能应用在等式3、4和5中创建的

因此，不可能进行关于具有立体声以上的布局的信号的灵活定位。也就是说，不可能进行立体声信号的左信号和右信号之间的自由渲染。

然而，基于信号处理单元803来对从SAOC编码器101输出的代表性缩混信号再次进行缩混，并输出为代表性重新缩混信号。信号处理单元803的处理如等式14所示。

{[\begin{matrix} w_{ch_1}^{b} \\ w_{ch_2}^{b} \\ M \\ w_{ch_M}^{b} \end{matrix}]}_{\mod ified} \times [u_{stereo}^{b} (k)] = [\begin{matrix} y_{ch_1}^{b} (k) \\ y_{ch_2}^{b} (k) \\ M \\ y_{ch_M}^{b} (k) \end{matrix}]

等式14

当从SAOC编码器101输出的代表性缩混信号是立体声时，信号处理单元803的输出信号如等式15所示。

{[\begin{matrix} w_{L}^{b} \\ w_{R}^{b} \end{matrix}]}_{\mod ified} \times [u_{stereo}^{b} (k)] = [\begin{matrix} y_{ch_L}^{b} (k) \\ y_{ch_R}^{b} (k) \end{matrix}]

等式15

其中

和

是信号处理单元803所输出的信号，并被输入到MPS解码器805。由于如等式15所示

和

是用于反映左信号和右信号的渲染的信号，所以尽管如等式13所示限制了MPS解码器805，但是MPS解码器805也可输出其中左信号和右信号被自由渲染的信号。

例如，当MPS解码器805将恢复为5个声道时，如下在等式14中表达

（例如，

w_{L}^{b} = w_{ch_Lf}^{b} + w_{ch_Ls}^{b} + w_{ch_C}^{b} / \sqrt{2},

w_{R}^{b} = w_{ch_Rf}^{b} + w_{ch_Rs}^{b} + w_{ch_C}^{b} / \sqrt{2}

）

如上所述，当MPS解码器805由于MPEG环绕的限制而难以处理立体声信号时，信号处理单元803通过基于从代码转换器103传送的对象位置信息而再次执行缩混，来输出代表性的重新缩混信号。例如，可以由渲染单元303来提供传送到信号处理单元803的对象位置信息。根据如上所述的类似方法，渲染单元303可基于代表性SAOC比特流来创建代表性MPS比特流，其包括相对于输入到SAOC编码器101和MPS编码器801的音频信号的、用于要由MPS解码器805输出的音频信号的左信号和右信号中的每个的空间线索信息。

MPS解码器805可通过利用信号处理单元803而进行操作，来执行与图2的SAC解码器105相同的功能。

MPS解码器805将从信号处理单元803输出的代表性重新缩混信号恢复为所期望的输出，即具有各种声道的多对象信号。

利用图2的SAC解码器105或信号处理单元803进行操作的MPS解码器805的解码方法包括如下步骤：接收多声道和多对象缩混信号以及多声道多对象边信息信号；将多声道多对象缩混信号变换为多声道缩混信号；将多声道和多对象信息信号变换为多声道信息信号；基于变换后的多声道缩混信号和多声道信息信号来合成音频信号。

变换多声道缩混信号的步骤包括：基于从多声道和多对象信息信号获得的对象相关信息来从多声道多对象缩混信号去除对象信息的步骤。变换多声道缩混信号的步骤包括：基于从多声道多对象信息信号获得的对象相关信息来控制来自多声道多对象缩混信号的对象信息的步骤。

在包括变换多声道缩混信号的步骤的解码方法中，可通过对象控制信息来控制对象相关信息。这里，可通过解码系统信息来控制对象相关信息。

尽管上面结合设备描述了根据本发明的编码和解码过程，但是在设备中包括的每个组成元件也可以用在处理角度中所需要的每个构成元件来替换。在这个情况下，显然的是，根据本发明的编码和解码过程可结合方法来理解。

上面描述的本发明的技术可实现为程序并存储在计算机可读记录介质（诸如，CD-ROM、RAM、ROM、软盘、硬盘和磁光盘）中。由于本发明技术领域中的技术人员可容易地实现所述处理，所以这里将不再提供进一步的描述。

尽管已经结合特定的优选实施例来描述了本发明，但对于本领域的技术人员显然的是，可以做出各种改变和修改，而不脱离接下来的权利要求所限定的本发明的范围。

工业实用性

本发明可通过有效地编码和解码具有各种声道的多对象音频内容，而根据用户需求来主动地消费音频内容，并通过提供与传统上使用的比特流的后向兼容性来提供与传统的编码和解码设备的兼容性。

Claims

1.一种用于编码多对象音频信号的设备，包括：

音频对象编码装置，用于基于空间线索来编码输入到编码设备的音频对象信号，并创建用于编码后的音频对象信号的渲染信息，

其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。

2.根据权利要求1的编码设备，还包括：

音频声道编码装置，用于将输入到编码设备的多声道音频信号变换为音频对象信号，并创建用于多声道音频信号的渲染信息；

预设声音场景创建装置，用于基于输入到编码设备的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息；和

代表性比特流创建装置，用于创建代表性比特流，该代表性比特流包括从音频对象编码装置输出的渲染信息、从音频声道编码装置输出的渲染信息、和预设信息，

其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。

3.根据权利要求2的编码设备，其中所述音频声道编码装置是运动图象专家组（MPEG）环绕编码器。

4.一种用于编码多对象音频信号的方法，包括如下步骤：

基于空间线索来对所输入的音频对象信号进行编码，并创建用于编码后的音频对象信号的渲染信息，

5.根据权利要求4的编码方法，还包括如下步骤：

将所输入的多声道音频信号变换为音频对象信号，并创建用于多声道音频信号的渲染信息；

基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息；和

创建代表性比特流，该代表性比特流包括从所述对所输入的音频对象信号进行编码的步骤输出的渲染信息、从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息、和预设信息，

其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息包括：用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。

6.根据权利要求5的编码方法，其中所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤是在运动图象专家组（MPEG）环绕编码器中执行的。