CN102768836B

CN102768836B - 用于编码和解码具有各种声道的多对象音频信号的设备和方法

Info

Publication number: CN102768836B
Application number: CN201210227885.XA
Authority: CN
Inventors: 白承权; 徐廷一; 李泰辰; 李用主; 张仁瑄; 刘载铉; 张大永; 洪镇佑; 金镇雄; 姜京玉
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2014-11-05
Anticipated expiration: 2027-10-01
Also published as: CN102768835B; JP2010521002A; US20100174548A1; CN101617360A; US20140095178A1; WO2008039038A1; KR20080029940A; EP2100297A1; JP5451394B2; US9311919B2; JP2013077023A; CN102768836A; US9257124B2; EP2575129A1; JP5453515B2; JP2013054395A; CN102768835A; US8364497B2; KR100917843B1; US20140095179A1

Abstract

提供了一种用于编码和解码多对象音频信号的设备和方法。该设备包括：缩混器，用于将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；编码器，用于对缩混后的音频信号进行编码；和补充信息编码器，用于生成该补充信息作为比特流。该报头信息包括用于所述音频信号中的每一个的标识信息和用于所述音频信号的声道信息。

Description

用于编码和解码具有各种声道的多对象音频信号的设备和方法

本专利申请是下列发明专利申请的分案申请：

申请号：200780043560.3

申请日：2007年10月1日

发明名称：用于编码和解码具有各种声道的多对象音频信号的设备和方法

技术领域

本发明涉及用于编码和解码多对象音频信号的设备和方法；并且，更具体地，涉及用于对具有各种声道的多对象音频信号进行编码和解码以及对形成有各种声道的多对象音频信号进行编码和解码的设备和方法。

具有各种声道的多对象音频信号是包括其每一个形成有不同声道（例如，单声道、立体声声道、和5.1声道）的多个音频对象的音频信号。

该工作得到韩国信息通信部（MIC）和/或韩国信息技术（IT）研究院（IITA）的信息技术研究和开发规划的部分支持[2005-S-403-02,“super-intelligentmultimedia anytime-anywhere realistic TV(SmaRTV)technology”]。

背景技术

根据现有技术的音频编码和解码技术使得用户能够被动收听音频内容。因此，已存在对于以下对由不同声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制由不同声道组成的每一音频对象，使用各种方法合并一个音频上下文，而使得用户能够消费各种音频对象。

作为现有技术，介绍了空间音频编码（SAC）。SAC是用于将多声道音频信号表达为缩混后的（down mixed）单声道信号或缩混后的立体声信号和空间线索、传送并恢复多声道音频信号的技术。基于SAC，可以以低比特率传送高质量多声道音频信号。

然而，SAC不能编码和解码多声道多对象音频信号－例如包括其每一个由诸如单声道、立体声、和5.1声道的不同声道组成的各种对象的音频信号，因为尽管音频信号由多个声道组成，但是SAC是用于编码和解码单对象音频信号的技术。

作为另一现有技术，介绍了双耳线索编码（BCC）。BCC可编码和解码多对象信号。然而，BCC不能编码和解码由除了单声道的各种声道组成的多对象音频信号，因为在BCC中音频对象限于形成有单声道的音频对象。

如上所述，根据现有技术的音频信号编码和解码技术不能对由各种声道组成的多对象音频信号进行编码和解码，因为它们被设计为对由单声道组成的多对象信号或具有多声道的单对象音频信号进行编码和解码。所以，根据现有技术，用户必须根据音频信号编码和解码技术来被动收听音频上下文。

所以，已存在对于以下对由各种声道组成的多个音频对象进行编码和解码的设备和方法的需求，通过根据用户需求控制其每一个具有不同声道的每一音频对象，使用各种方法混合一个音频内容，以便消费各种音频对象。

发明内容

技术问题

本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备和方法。

本发明的其他目的和优点可通过以下描述而理解，并通过参考本发明的实施例而变得清楚。而且，对于本发明的领域的技术人员来说显而易见的是，可通过要求保护的部件及其组合来实现本发明的目的和优点。

技术方案

根据本发明的一个方面，提供了一种用于编码具有不同声道的多对象音频信号的设备，包括：缩混单元，用于将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；编码单元，用于对缩混后的音频信号进行编码；和补充信息编码单元，用于生成该补充信息作为比特流，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

根据本发明的另一方面，提供了一种用于编码具有不同声道的多对象音频信号的方法，包括步骤：将音频信号缩混为一个缩混后的音频信号，并提取用于所述音频信号中的每一个的包括报头信息和空间线索信息的补充信息；对缩混后的音频信号进行编码；和生成该补充信息作为比特流，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括：输入信号分析单元，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；音频对象提取单元，用于使用来自该输入信号分析单元的所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和输出单元，用于使用该输入的信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤：从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充信息比特流中提取具有报头信息和空间线索信息的补充信息；使用所提取的补充信息，来从所恢复的缩混后的音频信号中恢复每一对象的音频信号；和使用该输入的信号的控制信息，来输出所恢复的每一对象的音频信号作为多对象音频信号，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的设备，包括：输入信号分析单元，用于从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；补充信息控制单元，用于使用该输入的信号的控制信息，来控制所提取的补充信息；和输出单元，用于使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

根据本发明的另一方面，提供了一种用于解码由不同声道组成的多对象音频信号的方法，包括步骤：从输入的信号中恢复缩混后的音频信号，并从该输入的信号中包括的补充比特流中提取包括报头信息和空间线索信息的补充信息；使用该输入的信号的控制信息，来控制所提取的补充信息；和使用所控制的补充信息，来输出所恢复的缩混后的音频信号作为多对象音频信号，其中该报头信息包括：用于所述音频信号中的每一个的标识信息；和用于所述音频信号的声道信息。

有利效果

根据本发明实施例的用于对具有各种声道的多对象音频信号进行编码和解码以及对由各种声道组成的多对象音频信号进行编码和解码的设备和方法通过有效编码和解码由不同声道组成的包括各种音频对象的音频内容，而使得用户能够根据其需求来主动消费音频内容。

附图说明

图1是图示了根据本发明示范实施例的用于编码多对象音频信号的设备的图。

图2是描绘了图1中示出的单声道缩混器的图。

图3是示出了图1的立体声声道缩混器的图。

图4是图1的多声道缩混器的图。

图5是图示了图1的第二缩混器的图。

图6是示出了从图1的补充信息编码器生成的补充信息比特流的结构的图。

图7是图示了图6中示出的补充信息比特流的结构的详细图。

图8是图示了根据本发明另一实施例的图6中示出的补充信息比特流的结构的详细图。

图9是图示了根据本发明实施例的用于解码多对象音频信号的设备的框图。

图10是图示了根据本发明另一实施例的用于解码多对象音频信号的设备的框图。

图11是根据本发明实施例的用于使用图1的设备来编码多对象音频信号的方法的流程图。

图12是根据本发明实施例的用于使用图9的设备来解码多对象音频信号的方法的流程图。

图13是根据本发明另一实施例的用于使用图10的设备来解码多对象音频信号的方法的流程图。

具体实施方式

通过下面阐明的参考附图对实施例进行的以下描述，本发明的优点、特征和方面将变得清楚。

图1是图示了根据本发明实施例的用于编码多对象音频信号的设备的图。例如，根据本实施例的设备接收多声道音频对象，例如单声道音频对象、立体声声道音频对象、以及5.1声道音频对象。

如图1中所示，根据本实施例的多对象音频编码设备包括第一缩混器101、第二缩混器103、音频编码器105、和补充信息编码器107、以及多路复用器109。

第一缩混器101包括单声道缩混器111、立体声声道缩混器113、和多声道缩混器115。

第一缩混器101使用输入的音频对象的报头信息而将输入的各种声道多对象音频信号标识为单声道音频对象、立体声声道音频对象、以及多声道音频信号。然后，第一缩混器101通过对应声道来对标识的音频信号进行分组。所以，通过声道对多对象音频信号的不同声道进行分组，而分组后的音频对象由对应缩混器111、113和115进行缩混。

第一缩混器101还从输入的音频对象中提取缩混后的音频信号和包括空间线索的补充信息。即，声源由同一声道分组并被输入到第一缩混器101。单声道缩混器111从单声道音频对象中提取缩混后的信号和包括空间线索的补充信息，而立体声声道缩混器113从输入的立体声声道音频对象中提取缩混后的信号和包括空间线索的补充信息。多声道缩混器115从输入的多声道音频对象（例如，5.1声道）中提取缩混后的信号和具有空间线索的补充信息。

音频编码器105对从第二缩混器103输出的第二缩混后的信号进行编码。

补充编码器107使用从第一缩混器101输出的补充信息和从第二缩混器103输出的补充信息来生成补充信息比特流。这里，将参考图6来描述补充比特流中包括的信息。

多路复用器109通过对来自音频编码器105的编码后的信号和从补充编码器107生成的补充比特流进行多路复用，而生成要传送到解码设备的比特流。

从第一缩混器101输出的第一缩混后的信号是立体声信号或单声道信号。即，从单声道缩混器111输出的缩混后的信号是单声道信号，而从其余混音器113和115输出的缩混后的信号是单声道信号或立体声信号。

第二缩混器103对从第一缩混器101输出的第一缩混后的信号进行缩混，并输出第二缩混后的信号。第二缩混器103提取在第二缩混过程中分析的包括空间线索的补充信息。第二缩混后的信号根据模式是单声道信号或立体声信号。

补充信息包括用于恢复和控制空间线索和音频信号的报头信息。将参考图6来描述补充信息。

图2是描绘了图1中示出的单声道缩混器的图。例如，单声道缩混器111接收N个单声道音频对象m1到mN。

如图2中所示，单声道缩混器111包括层叠（cascade）结构的第一基本缩混器201a到201d。

根据单声道音频对象的数目来判断单声道缩混器111中包括的第一基本缩混器201a到201b的数目。即，如果单声道音频对象为N，则第一基本缩混器201的数目为N-1。如果单声道音频对象为1，则旁路（bypassed）输入信号，而没有基本缩混器。

在本实施例中，可基于层叠方法使用一个第一基本缩混器N-1次。

基本上，第一基本缩混器对两个输入信号进行缩混，生成一个缩混后的单声道信号，并对于该输入信号提取包括空间线索的补充信息。第1个第一基本缩混器201a生成缩混后的单声道信号，并使用输入到单声道缩混器111的两个单声道音频对象来提取包括空间线索的补充信息。第2个第一基本缩混器201b生成缩混后的单声道信号，并使用从第1个第一基本缩混器201a输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。第（N-1）个第一基本缩混器生成缩混后的单声道信号，并使用从第（N-2）个基本缩混器（未示出）输出的缩混后的单声道信号和输入到单声道缩混器111的单声道音频对象来提取包括空间线索的补充信息。

空间线索是用于编码和解码音频信号的信息。空间线索是从频域提取的，并包括有关输入到第一基本缩混器201的两个信号之间的幅度差、延迟差、和相关性的信息。例如，根据本实施例的空间线索包括声道声级差（CLD）、声道间声级差（ICLD）、声道间时间差（ICTD）、声道间相关性（ICC）、以及音频信号之间的虚拟源位置信息，表示音频信号的功率增益信息。然而，本发明不限于此。

图3是示出了图1的立体声声道缩混器的图。例如，该立体声声道缩混器接收M个左信号SL1到SLM以及M个右信号SR1到SRM作为立体声音频对象。

输入到立体声声道缩混器113的立体声音频对象被划分为左立体声信号和右立体声信号，并且所划分的信号被再次分组。

如图3中所示，立体声声道缩混器113包括多个第一基本缩混器201。立体声声道缩混器113需要2*(M-1)个第一基本缩混器201，以对M个左信号和M个右信号进行缩混。这里，可在另一实施例中使用一个第一基本缩混器2*(M-1)次。

如图3中所示，用于分析M个左信号的(M-1)个第一基本缩混器201la到201le通过分析输入的信号而生成一个混音后的左信号，并提取包括空间线索的补充信息。

如图3中所示，用于分析M个右信号的(M-1)个第一基本缩混器201ra到201re通过分析输入的信号而生成一个混音后的右信号，并提取包括空间线索的补充信息。

如图3中所示，如果立体声音频对象为1，则可旁路输入的左信号和右信号。

立体声声道缩混器113输出立体声缩混信号，并通过生成缩混后的左信号和缩混后的右信号而提取包括空间线索的补充信息。

图4是图1的多声道缩混器的图。例如，该多声道缩混器接收P个5.1声道音频对象。

如图4中所示，多声道缩混器115是采用MPEG环绕或空间音频编码（SAC）的缩混器。多声道缩混器115从多声道音频信号中提取包括空间线索的补充信息，并将音频信号缩混为单声道缩混后音频信号或立体声缩混后音频信号。

即，多声道缩混器115从P个多声道音频对象中提取空间线索，并传送所提取的空间线索。多声道缩混器115还将音频信号缩混为单声道信号或立体声信号。一般来说，多声道音频对象为一。

图5是图示了图1的第二缩混器的图。

第二缩混器103对从第一缩混器101输出的信号再次进行缩混，输出立体声缩混信号，并提取包括空间线索的补充信息。

如图5所示，第二缩混器103包括第一基本缩混器201f和201g以及第二基本缩混器501。

如果来自立体声声道缩混器113和多声道缩混器115的缩混后信号是立体声信号，则将对应的缩混后立体声信号分组为左信号和右信号，并且第一基本缩混器201f和201g对分组后的左信号和分组后的右信号进行缩混。从第一基本缩混器201f和201g输出的缩混后的单声道信号是左信号和右信号的代表性缩混信号。

即，第一基本缩混器201f对由立体声声道缩混器113缩混和输出的左信号和由多声道缩混器115缩混和输出的左信号再次进行缩混，并输出一个缩混后的左信号作为代表性左信号。然后，第一基本缩混器201f提取补充信息。

第一基本缩混器201g对由立体声声道缩混器113缩混和输出的右信号和由多声道缩混器115缩混和输出的右信号再次进行缩混，并输出一个代表性右信号。然后，第一基本缩混器201g提取补充信息。

如图2中所示，根据另一实施例，可使用一个第一基本缩混器两次。

第二基本缩混器501对从单声道缩混器111输出的缩混后的单声道信号和从第一基本缩混器201f和201g输出的左代表性缩混信号和右代表性缩混信号进行缩混，并输出整个缩混后的左信号和右信号。然后，第二基本缩混器501提取包括空间线索的补充信息。

补充信息包括用于恢复和控制空间线索和音频信号的报头信息。稍后将参考图6描述补充信息。

第一基本缩混器201和第二基本缩混器501基于以下方程1和方程2对输入音频信号进行缩混。

[\begin{matrix} w_{b}^{11} & w_{b}^{12} \end{matrix}] [\begin{matrix} s_{b}^{1} (f) \\ s_{b}^{2} (f) \end{matrix}]

方程1

[\begin{matrix} w_{b}^{11} & w_{b}^{12} & w_{b}^{13} \\ w_{b}^{21} & w_{b}^{22} & w_{b}^{23} \end{matrix}] [\begin{matrix} s_{b}^{1} (f) \\ s_{b}^{2} (f) \\ s_{b}^{3} (f) \end{matrix}]

方程2

在方程1和方程2中，是用于控制输入音频信号的缩混声级的加权因子。是作为第一基本缩混器201和第二基本缩混器501的输入音频信号的单声道信号或立体声左和右信号。下标b是表示子带的索引，并且每一加权因子由子带定义。

可根据输入音频对象的表达目的而不同地定义加权因子。例如，的加权因子可被定义为相对大的值，以便将单声道信号编码为主信号。如果方程1中的则缩混后的信号是即，被缩混为主信号。

可根据缩混后信号的表达目的的限制条件来判断加权因子。该限制条件是用于声音场景（sound scene）的限制条件。例如，小提琴和吉他的加权因子被设置为0.7和0.3，以便从缩混后的音频信号按照小提琴和吉他比率0.7和0.3来重放小提琴和吉他的音频信号。基于来自例如系统或用户的外部装置的输入来判断限制条件信息。

其间，加权因子必须被反映为空间线索声级信息。例如，如果将CLD用作空间线索，则可象用于方程1的方程3那样预测空间线索信息。

Level_defference_cue = 10 \log_{10} (\frac{P (w_{b}^{11} s_{b}^{1})}{P (w_{b}^{12} s_{b}^{2})})

方程3

在方程3中，P()是功率运算符，而可使用来计算信号功率之和。A_b和A_b+1表示子带的边界。

第二基本缩混器501提取空间线索－MPEG环绕的三到二（TTT）盒。

如图6中所示，补充比特流包括报头信息和空间线索。

报头信息包括用于恢复和再现由各种声道组成的多对象音频信号的信息。报头信息还通过定义音频对象的声道信息和对应音频对象的ID来提供用于单声道、立体声、多声道音频对象的解码信息。例如，可定义分类ID和每一对象的信息，以标识编码后的预定音频对象是单声道音频信号还是立体声音频信号。在实施例中，报头信息包括空间音频编码（SAC）报头信息、音频对象信息、和预置信息。

在实施例中，SAC报头信息是在基于空间线索和时隙信息编码音频信号的过程中生成的信息。当第一和第二缩混器101和103提取补充信息时，第一和第二缩混器101和103提取SAC报头信息。

在实施例中，音频对象信息包括用于标识缩混后的音频对象是单声道、立体声还是多声道音频对象的信息和对象ID信息。例如，音频对象信息包括有关每一声道的音频对象的数目的信息（单声道音频对象数目、立体声音频对象数目、和多声道音频对象数目）和每一声道的音频对象的索引信息，该索引信息包括音频对象是单声道、立体声还是多声道的ID和信息。

在本实施例中，预置信息是报头信息的补充信息，并包括所定义的每一对象的控制信息。

例如，预置信息包括预置模式信息和预置模式支持信息。预置模式信息例如包括卡拉OK模式、诸如提取吉他演奏音频对象和提取钢琴演奏音频对象的独奏对象提取模式、偏好渲染信息、和重放模式设置信息。

例如，预置模式支持信息包括用于支持卡拉OK模式的嗓音索引信息、用于支持独奏对象提取模式的对应对象索引信息、用于支持偏好渲染的诸如旋转、提升、和速度的用于每一对象的渲染信息、以及用于支持基本立体声和多声道重放模式设置的用于每一音频对象的最佳渲染信息。

而且，补充信息中包括的空间线索包括输入的多对象音频信号的每一对象的空间线索信息。

可根据设计者的选择按照各种方式来形成该补充信息的格式。

图7是图示了图6中示出的补充信息比特流的结构的详细图。即，图7示出了用于由单声道和立体声声道组成的多对象音频信号的补充信息。

如图7中所示，报头信息包括有关每一声道的音频对象的数目的信息，例如单声道音频对象的数目和立体声音频对象的数目。报头信息还包括有关每一声道的音频对象的索引信息，包括有关ID的信息和有关音频对象是单声道、立体声、还是多声道的信息。而且，补充比特流包括空间线索。作为示例，CDL或ICC被用作图7中示出的实施例中的空间线索的示例。

如图7中所示，补充信息包括与单声道和立体声对象中的每一个对应的例如CLD或ICC的空间线索。即，与输入音频对象对应的空间线索信息包括所有补充信息。

图8是图示了根据本发明另一实施例的图6中示出的补充信息比特流的结构的详细图。即，图8示出了用于由单声道、立体声、和多声道组成的多对象音频信号的补充信息。

如图8中所示，报头信息包括有关每一声道的音频对象的数目的信息，例如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目。报头信息还包括每一声道的音频对象的索引信息，诸如ID以及音频对象是单声道、立体声、还是多声道。而且，补充比特流包括空间线索。作为空间线索的示例，在图8的示例中使用CLD和ICC。

通过对多声道对象的空间线索与单声道和立体声对象的空间线索进行层叠多路复用，可将多声道对象的空间线索表达为一个补充比特流。由单声道缩混器111、立体声声道缩混器113、和第二缩混器103提取的空间线索是用于图8的单声道和立体声音频对象的空间线索。而且，图8的多声道音频对象的空间线索是由多声道缩混器115提取的空间线索。

根据本实施例的多对象音频信号解码设备通过从图1中示出的多对象音频信号编码设备生成的音频比特流中提取空间线索信息并使用提取的空间线索预测每一声道信息，来恢复由各种声道组成的多对象音频信号，该多对象音频信号是包括单声道音频对象、立体声音频对象、和多声道音频对象的音频信号。

如图9中所示，根据本实施例的多对象音频信号解码设备包括解多路复用器（DEMUX）901、音频解码器903、补充信息分析器905、音频对象提取器907、和渲染处理器909。

例如，解多路复用器901从图1的多对象音频信号编码设备生成的音频比特流中分离出音频信息比特流和补充信息比特流。

音频解码器903从来自解多路复用器901的分离的音频信息比特流中恢复缩混后的音频信号。

补充信息分析器905从来自解多路复用器901的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。

音频对象提取器907使用来自补充信息分析器905的提取的补充信息的报头信息，来从缩混后的音频信号恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以音频对象提取器907可基于从补充信息分析器905提取的补充信息的报头信息和空间线索信息，来从音频解码器903输出的缩混后的音频信号中恢复每一对象的音频信号。

渲染处理器909对于从音频对象提取器907输出的所恢复的音频对象中的每一个从外部装置接收诸如空间音频对象的位置和尺寸的渲染控制信息和诸如5.1或7.1声道或立体声的输出声道控制信息。基于该渲染控制信息和该输出声道控制信息，渲染处理器909安排所恢复的每一对象的音频信号并输出该音频信号。

图10是图示了根据本发明另一实施例的用于解码多对象音频信号的设备的框图。与用于渲染根据每一对象恢复的音频信号的图9的解码设备不同，图10中所示的根据另一实施例的多对象音频信号解码设备通过控制补充信息并根据控制的补充信息渲染音频对象，来恢复音频信号。

如图10中所示，根据另一实施例的多对象音频信号解码设备包括解多路复用器901、音频解码器903、补充信息分析器905、补充信息控制器1001、和SAC解码器1003。

图10的解多路复用器901、音频解码器903、和补充信息分析器905与图9的解多路复用器901、音频解码器、和补充信息分析器905相同。

补充信息控制器1001对于从音频解码器903恢复的缩混后的音频信号从外部装置接收诸如空间音频对象的位置和尺寸的渲染控制信息和诸如5.1或7.1声道和立体声的输出声道控制信息，并根据外部输入信号控制从补充信息分析器905提取的诸如每一音频对象的信号幅度和相关性信息的补充信息。

SAC解码器1003使用来自补充信息控制器1001的受控制的补充信息，来从音频解码器903恢复的缩混后的音频信号中恢复多声道多对象音频信号。SAC解码器1003使用来自补充信息控制器1001的受控制的补充信息的报头信息，来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以SAC解码器103可基于从补充信息控制器1001控制的补充信息的报头信息和空间线索信息，来从音频解码器903输出的缩混后的音频信号中恢复每一对象的音频信号。

参考图11，在步骤S1101中，输入的各种声道的多对象音频信号基于输入音频对象的报头信息被分类为单声道音频信号、立体声音频信号、和多声道音频信号，并通过每一声道分组。

在步骤S 1103中，对同一声道所分组的声源进行缩混，并提取包括空间线索的补充信息。即，从输入的单声道音频对象中提取缩混后的信号和包括空间线索的补充信息，从输入的立体声音频对象中提取缩混后的信号和包括空间线索的补充信息，并从例如5.1声道的输入的多声道音频对象中提取缩混后的信号和包括空间线索的补充信息。

在步骤S 1103中输出的第一缩混后的信号是立体声信号或单声道信号。即，从输入的单声道音频对象输出的缩混后的信号是单声道信号，而从输入的立体声音频对象或输入的多声道音频对象输出的缩混后的信号是单声道信号或立体声信号。

然后，在步骤S1105中，第一缩混后的信号被再次缩混，并且提取包括空间线索的补充信息。这里，第二缩混后的信号根据模式可以是单声道信号或立体声信号。

然后，在步骤S1107中，对步骤S1105中输出的第二缩混后的信号进行编码。

在步骤S1109中，使用在步骤S1103中输出的补充信息和在步骤S1105中输出的补充信息，来生成补充信息比特流。

在步骤S1111中，通过对从步骤S1107生成的补充信息比特流进行多路复用，而生成要传送到解码设备的比特流。

参考图12，在步骤S1201中，从步骤S1111生成的音频比特流中分离出音频信息比特流和补充信息比特流。

在步骤S1203中，从分离的音频信息比特流中恢复缩混后的音频信号。

在步骤S1205中，从分离的比特流中提取包括每一音频对象的空间线索信息的补充信息。

在步骤S1207中，使用提取的补充信息的报头信息来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以可基于在步骤S 1205中提取的所提取的补充信息的报头信息和空间线索信息，来从步骤S 1203中输出的缩混后的音频信号中恢复每一对象的音频信号。

在步骤S1207中，从外部装置接收例如空间音频对象的位置和尺寸的用于每一恢复的音频对象的渲染控制信息和例如5.1或7.1声道或立体声的输出声道控制信息，并安排每一恢复的对象的音频信号，并输出多对象音频信号。

在步骤S1301中，从步骤S1111中生成的音频比特流中分离音频信息比特流和补充信息比特流。

在步骤S1303中，从分离的音频信息比特流中恢复缩混后的音频信号。

在步骤S1305中，从分离的补充比特流中提取包括每一音频对象的空间线索信息的补充信息。

在步骤S1307中，从外部设备接收例如空间音频对象的位置和尺寸的用于每一恢复的音频对象的渲染控制信息和例如5.1或7.1声道和立体声的输出声道控制信息，并根据外部输入信号控制从步骤S1305提取的补充信息，其中所提取的补充信息例如包括有关每一音频对象的信号幅度的信息和相关性信息。

在步骤S1309中，使用受控制的补充信息来从来自步骤S1303的缩混后的音频信号中恢复各种声道的多对象音频信号。使用受控制的补充信息的报头信息来从缩混后的音频信号中恢复每一对象的音频信号。由于报头信息包括诸如单声道音频对象的数目、立体声音频对象的数目、和多声道音频对象的数目的有关每一声道的音频对象的数目的信息以及诸如ID和音频对象是单声道音频对象、立体声音频对象、还是多声道音频对象的每一音频对象的索引信息，所以可基于来自步骤S1307的受控制的补充信息的报头信息和空间线索信息，来从步骤S1303输出的缩混后的音频信号中恢复每一对象的音频信号。

根据本发明的上述方法可被实施为程序并存储在计算机可读记录介质上。计算机可读记录介质是可存储其后可由计算机系统读取的数据的任何数据储存装置。计算机可读记录介质包括只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、软盘、硬盘和磁光盘。

尽管已针对某些优选实施例而描述了本发明，但是本领域技术人员将理解，可进行各种改变和变型，而不脱离以下权利要求中限定的本发明的精神和范围。

工业实用性

根据本发明实施例的用于编码和解码多对象音频信号的设备和方法通过有效编码和解码由各种声道组成的各种对象的音频内容，使得用户能够根据需求来主动消费音频内容。

Claims

1.一种用于解码具有不同声道的多对象音频信号的设备，包括：

补充信息控制部件，用于使用从输入信号恢复的缩混音频信号的控制信息，来控制从该输入信号提取的补充信息，其中该控制信息包括用于所恢复的缩混音频信号的渲染控制信息；和

输出部件，用于使用该补充信息控制部件所控制的补充信息，来输出所恢复的缩混音频信号作为多声道音频信号，其中

该补充信息包括用于所述具有不同声道的多对象音频信号的单声道、立体声声道、和多声道之一的音频对象的空间线索信息。

2.根据权利要求1的设备，其中该补充信息进一步包括用于所述具有不同声道的多对象音频信号的预置信息。

3.根据权利要求2的设备，其中该预置信息包括：

预置模式信息，用于定义用于所述具有不同声道的多对象音频信号的预置模式；和

预置模式支持信息，用于定义用于支持所述预置模式所需的信息。

4.根据权利要求1的设备，其中该补充信息进一步包括：

用于所述具有不同声道的多对象音频信号中的每一个的标识信息；和

用于所述具有不同声道的多对象音频信号的声道信息。

5.根据权利要求4的设备，其中该声道信息包括：

用于所述具有不同声道的多对象音频信号中的每一个的声道信息；和

用于所述具有不同声道的多对象音频信号的每一声道的多个音频对象的信息。