CN102682773A

CN102682773A - 多对象音频解码设备

Info

Publication number: CN102682773A
Application number: CN2012101069221A
Authority: CN
Inventors: 白承权; 徐廷一; 姜京玉; 洪镇佑; 金镇雄; 李泰辰
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2007-10-22
Filing date: 2008-10-21
Publication date: 2012-09-19
Anticipated expiration: 2028-10-21
Also published as: CN102968994B; JP2011501230A; KR20120061792A; CN101911180A; EP2212882A4; EP2624253A3; EP2212882A1; CN103151047A; KR101566055B1; EP2624253A2; EP2511903A2; WO2009054665A1; JP2012212160A; EP2511903A3; US20100228554A1; CN102968994A; KR101566025B1; US20120275609A1; KR20090040857A; CN102682773B

Abstract

提供了一种多对象音频编码和解码方法以及其设备。所述多对象编码方法包括：通过下混合前景音频对象和背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

Description

多对象音频解码设备

本申请是申请日为2008年10月21日、申请号为200880122328.3、发明名称为“多对象音频编码和解码方法以及其设备”的发明专利申请的分案申请。

技术领域

本发明涉及一种音频编码和解码方法以及其设备；并且更具体地，涉及一种多对象音频编码和解码方法以及其设备。

这项工作受到MIC/IITA的IT R&D计划[2007-S-004-01，“Developmentof Glassless Single-User3D Broadcasting Technologies(无眼镜单用户3D广播技术的发展)”]支持。

背景技术

引进了基于空间队列的空间音频编码(SAC)方法，作为根据相关技术的用于压缩和恢复音频信号的方法。所述SAC方法是为了进行多声道音频编码而开发的技术。

通常，传统的音频技术具有仅允许用户被动地聆听音频内容的功能限制。因此，传统的音频技术不能向用户提供多样的音频服务。

发明内容

技术问题

本发明的实施例旨在提供一种用于有效地提供多样的音频服务的编码和解码方法、以及其设备。

本发明的其它目的和优点可通过接下来的描述来理解，并且参考本发明的实施例而变得明显。此外，对于本领域的技术人员还显然的是，本发明的目的和优点可通过所要求保护的手段以及其组合来实现。

技术解决方案

根据本发明的一方面，提供了一种多对象编码方法，包括：通过下混合(down-mix)前景音频对象和背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频编码方法，包括：通过将单声道前景音频对象下混合到单声道背景音频对象上来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象编码方法，包括：通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频编码方法，包括：通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频解码方法，包括：接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码方法，包括：接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码方法，包括：接收通过对立体声前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来恢复立体声前景音频对象和单声道背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码方法，包括：接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合而生成的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。

根据本发明的另一方面，提供了一种多对象音频编码设备，包括：下混合发生器，用于通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频编码设备，包括：下混合发生器，用于通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频编码设备，包括：下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频编码设备，包括：下混合发生器，用于通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。

根据本发明的另一方面，提供了一种多对象音频解码设备，包括：接收器，用于接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码设备，包括：接收器，用于接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复单声道前景音频对象和单声道背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码设备，包括：接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码设备，包括：接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。

根据本发明的另一方面，提供了一种多对象音频解码设备，包括：恢复部件，用于接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中N个残余信号分别对应于N个前景音频对象，并且N是整数；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象，其中，所述恢复部件包括级联结构的N个恢复器，以及其中，所述N个恢复器中的第M恢复器用于使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数。

根据在下文中陈述的、参考附图进行的如下实施例描述，本发明的优点、特征和方面将变得明显。当认为关于相关技术的详细描述可能模糊本发明的要点时，这里将被不提供所述描述。下文中，将参考附图来详细描述本发明的特定实施例。

有利效果

根据本发明的编码和解码方法以及其设备可有效地提供多样的音频服务。

附图说明

图1是用于描述本发明的第一构思的图。

图2是用于描述本发明的第二构思的图。

图3是图示了图2中所示的第一下混合发生器203的图。

图4是用于描述本发明的第一实施例的图。

图5是用于描述本发明的第二实施例的图。

图6是用于描述本发明的第三实施例的图。

图7是用于描述本发明的第四实施例的图。

图8是用于描述根据本发明的实施例的解码的图。

图9是用于描述本发明的示范实施例的图。

具体实施方式

接下来的描述仅举例说明了本发明的原理。即使在本说明书中没有清楚地描述或说明它们，本领域的普通技术人员也可以实施本发明的原理并发明处于本发明的构思和范围内的各种设备。在本说明书中呈现的条件术语的使用和实施例仅意欲帮助理解本发明的构思，并且它们不限于在说明书中提及的实施例和条件。

此外，关于本发明的原理、观点和实施例以及特定实施例的所有详细描述应该被理解为包括它们的结构和功能等效物。所述等效物不仅包括当前已知的等效物，而且包括要在将来开发的那些等效物，即被发明来执行相同功能的所有装置，而不管它们的结构。

例如，本发明的框图应该被理解为示出了用于实施本发明的原理的示范电路的构思观点。类似地，所有流程图、状态转换图、伪代码等实际上可表达在计算机可读介质中，并且无论是否不同地描述计算机或处理器，它们都应该被理解为表达由计算机或处理器操作的各种处理。

在图中图示的各种装置的功能(其包括被表达为处理器或类似构思的功能块)不仅可通过使用专用于所述功能的硬件来提供，而且可通过使用能够运行用于所述功能的合适软件的硬件来提供。当通过处理器来提供功能时，所述功能可由单个专用处理器、单个共享处理器、或其部分可共享的多个单独处理器来提供。

术语“处理器”、“控制”或类似概念的明显使用不应该被理解为排外地指能够运行软件的硬件，而应该被理解为隐含地包括数字信号处理器(DSP)、硬件、以及用于存储软件的ROM、RAM和非易失性存储器。其中还可以包括其它的已知并且通常使用的硬件。

在本说明书的权利要求中，被表达为用于执行在详细说明中描述的功能的部件的元件意欲包括用于执行包括所有格式的软件的功能的所有方法，诸如用于执行所预期的功能的电路、固件/微代码等的组合。为了执行所预期的功能，所述元件与用于执行所述软件的合适电路协作。由权利要求所限定的本发明包括用于执行具体功能的各种部件，并且在权利要求所请求的方法中，所述部件彼此连接。因此，可提供所述功能的任何部件应该被理解为是从本说明书中料想到的内容的等效物。

根据在下文中陈述的、参考附图进行的如下实施例描述，本发明的其它目的和方面将变得明显。如果确定关于相关技术的进一步详细描述使本发明的要点模糊，则这里将不提供所述描述。下文中，将参考图来描述本发明的特定实施例。

本发明涉及多对象音频编码和解码技术。多对象音频可包括用于构建音频内容的多个音频对象。例如，如果音频内容包括伴奏或背景音乐以及演唱(vocal)，则伴奏或背景音乐是一个音频对象，而演唱是另一音频对象。伴奏或背景音乐的音频对象可以被细分为乐器(诸如，钢琴或鼓)的音频对象。多对象音频编码是用于压缩不同的音频对象的技术，并且多对象音频解码是用于对编码的多对象音频进行解码的技术。因此，多对象音频编码和解码技术通过根据对象而对多个音频对象进行编码和解码来使得能够向用户提供多样的主动音频服务。也就是说，多对象音频编码和解码技术不仅使得用户能够单独控制每个音频对象，而且还使得可能通过组合多个音频对象来创建多样的音频服务和内容。

在本发明中，残余信号可用于对多对象音频进行编码和解码。残余信号表示预定信号在估计之前和之后的差别。所述残余信号可定义为等式1。

X(t)-X′(t)＝Xresidual(t) 等式1

在等式1中，X(t)指示在估计之前的原始信号，而X′(t)指示在估计之后的估计信号。Xresidual(t)指示在原始信号和估计信号之间的差。

将如下描述使用残余信号进行的多对象音频编码。例如，在多对象音频包括第一音频对象和第二音频对象的情况下，通过对第一音频对象和第二音频对象进行下混合来生成下混合信号。第一音频对象和第二音频对象可估计为第一估计音频对象和第二估计音频对象。这里，第一音频对象和第二音频对象是原始信号，而第一估计音频对象和第二估计音频对象是估计的信号。残余信号可使用原始信号和估计信号来生成。因此，在根据本发明的示范实施例的多对象音频编码中，可通过对第一和第二音频对象进行下混合来生成下混合信号和残余信号。在根据本发明的示范实施例的多对象音频解码中，执行多对象音频编码的逆处理。也就是说，使用下混合信号和残余信号来恢复第一音频对象和第二音频对象。

根据本发明实施例的多对象编码方法包括：通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。前景音频对象可包括第一前景音频对象和第二前景音频对象。所述生成下混合信号和残余信号的步骤可包括：通过对背景音频对象和第一前景音频对象进行下混合来生成第一下混合信号和第一残余信号；以及通过对第一下混合信号和第二前景音频对象进行下混合来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括：旁路第二前景音频对象。

根据本发明实施例的多对象音频编码设备包括：下混合发生器，用于通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号，并生成包括下混合信号和残余信号的比特流。前景音频对象可包括第一前景音频对象和第二前景音频对象。下混合发生器包括：第一下混合发生器，用于通过对背景音频对象和第一前景音频对象进行下混合来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过对第一下混合信号和第二前景音频对象进行下混合来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二前景音频对象。

根据本发明实施例的多对象音频解码方法包括：接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。前景音频对象可包括第一前景音频对象和第二前景音频对象，而残余信号可包括用于第一前景音频对象的第一残余信号和用于第二前景音频对象的第二残余信号。所述恢复前景音频对象和背景音频对象的步骤可包括：使用下混合信号和第一残余信号来恢复第一前景音频对象；以及使用在恢复第一前景音频对象之后的下混合信号和第二残余信号来恢复第二前景音频对象。

根据本发明实施例的多对象音频解码设备包括：接收器，用于接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和在生成下混合信号之后剩下的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。前景音频对象可包括第一前景音频对象和第二前景音频对象，而残余信号可包括用于第一前景音频对象的第一残余信号和用于第二前景音频对象的第二残余信号。所述恢复器可包括：第一恢复器，用于使用下混合信号和第一残余信号来恢复第一前景音频对象；以及第二恢复器，用于使用在恢复第一前景音频对象之后的下混合信号和第二残余信号来恢复第二前景音频对象。

音频对象包括具有单声道信号的单声道音频对象和具有立体声信号的立体声音频对象。立体声音频对象可包括左声道信号和右声道信号。

背景音频对象可以是通过将立体声音频对象下混合到单声道音频对象上而生成的下混合音频对象。或者背景音频对象可以是通过将单声道音频对象下混合到立体声音频对象上而生成的下混合音频对象。因此，背景音频对象可以是通过将多个单声道音频对象下混合到立体声音频对象上或通过将多个立体声音频对象下混合到单声道音频对象上而生成的下混合对象。相应地，在这个情况下，多对象音频可包括多个背景音频对象。此外，背景音频对象可以是通过将多个单声道音频对象或多个立体声音频对象下混合到一个立体声音频对象上而生成的下混合对象。相应地，在这个情况下，多对象音频可包括多个背景音频对象。像背景音频对象一样，前景音频对象可以是通过将立体声音频对象下混合到单声道音频对象上而生成的或通过将单声道音频对象下混合到立体声音频对象上而生成的下混合对象。

根据本发明实施例的多对象音频编码和解码技术使得能够通过使用残余信号来对多对象音频进行编码或解码来主动地控制音频对象。此外，根据本发明实施例的多对象音频编码和解码技术可有效地对包括单声道和立体声音频对象的多对象音频进行编码和解码。

下文中，将描述包括前景音频对象和背景音频对象的多对象音频。前景音频对象表示要控制的目标音频对象。然而，前景音频对象可以利用背景音频对象来替换。此外，前景音频对象和背景音频对象可包括多个音频对象。

图1是用于描述本发明的第一构思的图。参考图1，前景音频对象FGO和背景音频对象BGO被输入到下混合发生器101。在图1中，前景音频对象FGO包括第一前景音频对象FGO1和第二前景音频对象FGO2。

首先，背景音频对象BGO和第一前景音频对象FGO1被输入第一下混合发生器103。第一下混合发生器103通过对背景音频对象BGO和第一前景音频对象FGO1进行下混合来生成第一下混合信号和第一残余信号。

第二下混合发生器105接收第一下混合信号和第二前景音频对象FGO2。第二下混合发生器105通过对第一下混合信号和第二前景音频对象FGO2进行下混合来生成第二下混合信号DMX和第二残余信号。

在图1中，输入前景音频对象FGO1和FGO2。然而，对于本领域技术人员显然的是，可以输入多于三个前景音频对象。如果输入多于三个前景音频对象，则第一和第二下混合发生器103和104级联连接为增加得与所增加的前景音频对象的数目一样多。

除了残余信号之外，第一和第二下混合发生器103和105接收两个信号并输出一个下混合信号。例如，第一下混合发生器103接收背景音频对象BGO和第一前景音频对象FGO1并输出第一下混合信号。因此，第一下混合发生器103具有逆一到二(Inverse One To Two)(OTT-1)结构，该结构具有两个输入和一个输出。这里，鉴于编码来定义OTT-1。鉴于解码，OTT-1可等效于一到二(OTT)。如果它们被扩展到包括第一下混合发生器103和第二下混合发生器105的下混合发生器101，并且如果输入多于三个前景音频对象FGO，则它可具有逆一到N(OTN-1)结构，该结构具有多个输入N和一个输出。这里，鉴于编码来定义OTN-1结构。鉴于解码，OTN-1结构可等效于一到N(OTN)结构。按照上述编码处理的逆顺序来执行解码处理。

图2是用于描述本发明的第二构思的图。参考图2，总体结构类似于图1所示的结构。然而，第一下混合发生器203旁路第二前景对象FGO2，并且第二下混合发生器205将第二前景音频对象FGO2下混合到通过对背景音频对象BGO和第一前景音频对象FGO1进行下混合而生成的下混合信号上。

除了残余信号之外，第一下混合发生器230或第二下混合发生器205接收三个信号并输出两个信号。这两个输出信号是下混合信号和旁路信号。例如，第一下混合发生器203接收背景音频对象BGO、第一前景音频对象FGO1、和第二前景音频对象FGO2，并输出第一下混合信号和第二前景音频对象FGO2。因此，第一下混合发生器具有逆二到三(TTT-1)，其具有三个输入和两个输出。然而，三个输入之一被没有修改地输出。因此，这样的结构被称为平凡(trivial)TTT-1(tTTT-1)。这里，鉴于编码来定义tTTT-1。鉴于解码，它可等效于平凡二到三(tTTT)。如果它们被扩展到包括第一下混合发生器203和第二下混合发生器205的下混合发生器201，并且如果多于三个前景音频对象被输入，则它可具有逆平凡二到N(tTTN-1)结构，其具有两个输出。这里，鉴于编码来定义tTTT-1结构。鉴于解码，它可等效于平凡二到N(tTTN)。

图3是图示了图2中所示的第一下混合发生器203的图。参考图3，第一下混合发生器203接收三个输入信号“输入1”(Input 1)、“输入2”(Input2)和“输入3”(Input 3)，并输出两个信号“输出1”(Output 1)和“输出2”(Output 2)。

第一下混合发生器301通过下混合第一输入信号“输入1”和第二输入信号“输入2”来输出第一输出信号“输出1”作为下混合信号，并生成残余信号。第一下混合发生器301按照原样旁路第三输入信号，并输出旁路的信号作为第二输出信号“输出2”。因此，第一输出信号“输出1”是通过下混合第一输入信号“输入1”和第二输入信号“输入2”而生成的下混合信号。这里，第二输出信号“输出2”变成第三输入信号“输入3”的相同信号。

上面的描述可同样地应用于本发明的各个实施例。下文中，将参考图来详细地描述本发明的实施例。

<第一实施例：单声道前景音频对象和单声道背景音频对象>

在本发明的第一实施例中，前景音频对象包括单声道前景音频对象，而背景音频对象包括单声道背景音频对象。

根据本发明的第一实施例的多对象音频编码方法包括：通过将单声道前景音频对象下混合到单声道背景音频对象上来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。所述生成下混合信号和残余信号的步骤可包括：通过下混合单声道背景音频对象和第一单声道前景音频对象来生成第一下混合信号和第一残余信号，并且通过下混合第一下混合信号和第二单声道前景音频对象来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括：旁路第二单声道前景音频对象。

根据第一实施例的多对象音频编码设备包括：下混合发生器，用于通过下混合单声道前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。下混合发生器可包括：第一下混合发生器，用于通过下混合单声道背景音频对象和第一单声道前景音频对象来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合第一下混合信号和第二单声道前景音频对象来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二单声道前景音频对象。

根据本发明的第一实施例的多对象音频解码方法包括：接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。残余信号可包括用于第一单声道前景音频对象的第一残余信号和用于第二单声道前景音频对象的第二残余信号。所述恢复前景音频对象和背景音频对象的步骤可包括：使用下混合信号和第一残余信号来恢复第一单声道前景音频对象；以及使用在恢复第一单声道前景音频对象之后的下混合信号和第二残余信号来恢复第二单声道前景音频对象。

根据第一实施例的多对象音频解码设备包括：接收器，用于接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复单声道前景音频对象和单声道背景音频对象。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。残余信号可包括用于第一单声道前景音频对象的第一残余信号和用于第二单声道前景音频对象的第二残余信号。所述恢复器可包括：第一恢复器，用于使用下混合信号和第一残余信号来恢复第一单声道前景音频对象；以及第二恢复器，用于使用在恢复第一单声道前景音频对象之后的下混合信号和第二残余信号来恢复第二单声道前景音频对象。

图4是用于描述本发明的第一实施例的图。参考图4，前景音频对象FGO和背景音频对象是单声道信号。单声道前景音频对象“单声道FGO1”(MonoFGO1)和“单声道FGO2”(Mono FGO2)以及单声道背景音频对象“单声道BGO”(Mono BGO)被输入到下混合发生器401。

第一下混合发生器403接收单声道背景音频对象“单声道BGO”和第一单声道前景音频对象“单声道FGO1”，并生成第一下混合信号和第一残余信号。第二下混合发生器405接收第一下混合信号和第二单声道前景音频对象“单声道FGO2”，并生成下混合信号DMX和第二残余信号。

在图4中，输入两个单声道音频对象“单声道FGO1”和“单声道FGO2”。然而，对于本领域技术人员明显的是，可输入多于三个单声道音频对象。如果输入多于三个单声道音频对象，则第一下混合发生器403和第二下混合发生器404级联连接为在数目上增加得与所增加的前景音频对象的数目一样多。

如果输入多于三个前景音频对象FGO，它可具有逆一到N(OTN-1)结构，该结构具有多个输入N和一个输出。这里，鉴于编码来定义OTN-1。鉴于解码，OTN-1结构可等效于一到N(OTN)结构。按照上述编码处理的逆顺序来执行解码处理。

<第二实施例：立体声前景音频对象和单声道背景音频对象>

在本发明的第二实施例中，前景对象包括立体声前景音频对象，而背景音频对象包括单声道背景音频对象。

根据本发明的第二实施例的多对象编码方法包括：通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一信号和第二信号。所述生成下混合信号和残余信号的步骤可包括：通过下混合单声道子音频对象和第一信号来生成第一下混合信号和第一残余信号，以及通过下混合第一下混合信号和第二信号来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括：旁路第二信号。

根据第二实施例的多对象音频编码设备包括：下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一信号和第二信号。下混合发生器可包括：第一下混合发生器，用于通过下混合单声道子音频对象和第一信号来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合第一下混合信号和第二信号来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二信号。

根据本发明的第二实施例的多对象音频解码方法包括：接收通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号和在下混合之后剩下的残余信号；以及使用残余信号来恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复立体声前景音频对象和单声道背景音频对象的步骤可包括：使用下混合信号和第一残余信号来恢复第一信号；以及使用在恢复第一信号之后的下混合信号和第二残余信号来恢复第二信号。

根据第二实施例的多对象音频解码设备包括：接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。这里，立体声前景音频对象可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复器可包括：第一恢复器，用于使用下混合信号和第一残余信号来恢复第一信号；以及第二恢复器，用于使用在恢复第一信号之后的下混合信号和第二残余信号来恢复第二信号。

图5是用于描述本发明的第二实施例的图。参考图5，下混合发生器501接收单声道背景音频对象“单声道BGO”和立体声前景音频对象“立体声左/右FGO”(Stereo Left/Right FGO)。立体声前景音频对象“立体声左/右FGO”包括左声道信号“左FGO”(Left FGO)和右声道信号“右FGO”(RightFGO)。

第一下混合发生器503接收单声道背景音频对象“单声道BGO”和左声道信号“左FGO”，并生成第一下混合信号和第一残余信号。第二下混合发生器505接收第一下混合信号和右声道信号“右FGO”，并生成第二下混合信号DMX和第二残余信号。

在图5中，输入一个立体声前景音频对象“立体声左/右FGO”。然而，对于本领域技术人员明显的是，可输入多于两个立体声前景音频对象。如果输入多于两个立体声前景音频对象，则第一下混合发生器503和第二下混合发生器505级联连接为增加得与所增加的立体声前景音频对象的数目一样多。按照上述编码处理的逆顺序来执行解码处理。

<第三实施例：立体声前景音频对象和立体声背景音频对象>

在本发明的第三实施例中，前景对象包括立体声前景音频对象，而背景音频对象包括立体声背景音频对象。立体声音频对象可包括左声道信号和右声道信号。

根据本发明的第三实施例的多对象音频编码方法包括：通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。所述生成下混合信号和残余信号的步骤可包括：通过下混合立体声前景音频对象和立体声背景音频信号的第一信号来生成第一下混合信号和第一残余信号，以及通过下混合立体声前景音频对象和立体声背景音频信号的第二信号来生成第二下混合信号和第二残余信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述生成第一下混合信号和第一残余信号的步骤可包括：通过下混合立体声背景音频对象的第一信号和第一左声道信号来生成第一左声道下混合信号和第一左声道残余信号；以及通过下混合第一左声道下混合信号和第二左声道信号来生成第二左声道下混合信号和第二左声道残余信号。所述生成第一下混合信号和第一残余信号的步骤还可包括：旁路第二左声道信号。

根据本发明的第三实施例的多对象音频编码设备包括：下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。下混合发生器可包括：第一下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频信号的第一信号来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频信号的第二信号来生成第二下混合信号和第二残余信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。第一下混合发生器可包括：第一左声道下混合发生器，用于通过下混合立体声背景音频对象的第一信号和第一左声道信号来生成第一左声道下混合信号和第一左声道残余信号；以及第二左声道下混合发生器，用于通过下混合第一左声道下混合信号和第二左声道信号来生成第二左声道下混合信号和第二左声道残余信号。第一下混合发生器可旁路第二左声道信号。

根据本发明的第三实施例的多对象音频解码方法包括：接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合而获得的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复立体声前景音频对象和立体声背景音频对象的步骤可包括：使用下混合信号和第一残余信号来恢复第一信号；以及使用下混合信号和第二残余信号来恢复第二信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述第一残余信号包括用于第一左声道信号的第一左声道残余信号和用于第二左声道信号的第二左声道残余信号。所述恢复第一信号的步骤包括：使用下混合信号和第一左声道残余信号来恢复第一左声道信号；以及使用在恢复第一左声道信号之后的下混合信号和第二左声道信号来恢复第二左声道信号。

根据本发明的第三实施例的多对象音频解码设备包括：接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复器可包括：第一恢复器，用于使用下混合信号和第一残余信号来恢复第一信号；以及第二恢复器，用于使用下混合信号和第二残余信号来恢复第二信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述第一残余信号包括用于第一左声道信号的第一左声道残余信号和用于第二左声道信号的第二左声道残余信号。第一恢复器可包括：第一左声道恢复器，用于使用下混合信号和第一左声道残余信号来恢复第一左声道信号；以及第二左声道恢复器，用于使用在恢复第一左声道信号之后的下混合信号和第二左声道信号来恢复第二左声道信号。

图6是用于描述本发明的第三实施例的图。参考图6，前景音频对象“立体声左/右FGO”是立体声信号，而背景音频对象“立体声左/右BGO”(StereoLeft/Right BGO)是立体声信号。将参考图6来描述两个立体声前景音频对象“立体声左/右FGO1”和“立体声左/右FGO2”。

下混合发生器601接收立体声背景音频对象“立体声左/右BGO”和两个立体声前景音频对象“立体声左/右FGO1”和“立体声左/右FGO2”。

第一左声道下混合发生器603接收左声道背景音频对象“左BGO”(LeftBGO)和第一左声道前景音频对象“左FGO1”，并生成第一左声道下混合信号和第一左声道残余信号“左残余”(Left Residual)。第二左声道下混合发生器605接收第一左声道下混合信号和第二左声道前景音频对象“左FGO2”，并生成第二左声道下混合信号“左DMX”(Left DMX)和第二左声道残余信号“左残余”。

还通过上述的处理来下混合右声道背景音频对象“右BGO”(RightBGO)和右声道前景音频对象“右FGO1”和“右FGO2”。

在图6中，输入两个立体声前景音频对象“立体声左/右FGO”。然而，对于本领域技术人员明显的是，可输入多于三个立体声前景音频对象。如果输入多于三个立体声前景音频对象，则第一左声道下混合发生器603和第二下左声道混合发生器605级联连接为增加得与所增加的前景音频对象的数目一样多。按照上述编码处理的逆顺序来执行解码处理。

在图6中，第一左声道下混合发生器603接收左声道背景音频对象“左BGO”、第一左声道前景音频对象“左FGO1”、以及第二左声道前景音频对象“左FGO2”，并且第一左声道下混合发生器603旁路第二左声道前景音频对象“左FGO2”。也就是说，第一左声道下混合发生器具有逆二到三(TTT-1)，其具有三个输入和两个输出。这个结构被称作如上所述的平凡TTT-1(tTTT-1)结构。此外，输入包括左声道信号和右声道信号的多于三个立体声前景音频对象，它具有逆平凡二到N(tTTN-1)结构，该结构具有多于三个输入和两个输出。这里，鉴于编码来定义tTTN-1结构，并且鉴于解码，它可等效于平凡二到N(tTTN)结构。

<第四实施例：立体声前景音频对象和单声道背景音频对象>

在本发明的第四实施例中，前景对象包括立体声前景音频对象，并且背景音频对象包括单声道背景音频对象。立体声音频对象可包括左声道信号和右声道信号。在第四实施例中，下混合输出信号是立体声信号。在这点上，第四实施例不同于第二实施例。

根据本发明的第四实施例的多对象音频编码方法包括：通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一和第二左声道信号、以及第一和第二右声道信号。所述生成下混合信号和残余信号的步骤可包括：通过下混合单声道背景音频对象、第一左声道信号和第一右声道信号来生成第一左声道下混合信号、第一右声道下混合信号和第一残余信号；以及通过下混合第一左声道下混合信号、第一右声道下混合信号、第二左声道信号和第二右声道信号来生成第二左声道下混合信号、第二右声道下混合信号和第二残余信号。这里，所述生成下混合信号和残余信号的步骤还可包括：旁路第二左声道信号和第二右声道信号。

根据本发明的第四实施例的多对象音频编码设备包括：下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一和第二左声道信号、以及第一和第二右声道信号。下混合发生器可包括：第一左声道下混合发生器，用于通过下混合单声道背景音频对象、第一左声道信号和第一右声道信号来生成第一左声道下混合信号、第一右声道下混合信号和第一残余信号；以及第二左声道下混合发生器，用于通过下混合第一左声道下混合信号、第一右声道下混合信号、第二左声道信号和第二右声道信号来生成第二左声道下混合信号、第二右声道下混合信号和第二残余信号。这里，下混合发生器可旁路第二左声道信号和第二右声道信号。

根据本发明的第四实施例的多对象音频解码方法包括：接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象包括第一和第二左声道信号、以及第一和第二右声道信号。残余信号包括用于第一左和右声道信号的第一残余信号、以及用于第二左和右声道信号的第二残余信号。所述恢复立体声前景音频对象和单声道背景音频对象的步骤包括：使用下混合信号和第一残余信号来恢复第一左和右声道信号；以及使用在恢复第一左和右声道信号之后的下混合信号和第二残余信号来恢复第二左和右声道信号。

根据第四实施例的多对象音频解码设备包括：接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象包括第一和第二左声道信号、以及第一和第二右声道信号。残余信号包括用于第一左和右声道信号的第一残余信号、以及用于第二左和右声道信号的第二残余信号。所述恢复器包括：第一恢复器，用于使用下混合信号和第一残余信号来恢复第一左和右声道信号；以及第二恢复器，用于使用在恢复第一左和右声道信号之后的下混合信号和第二残余信号来恢复第二左和右声道信号。

图7是用于描述本发明的第四实施例的图。参考图7，前景音频对象是立体声信号，而背景音频对象是单声道信号。立体声音频对象可包括左声道信号和右声道信号。下混合发生器701接收单声道背景音频对象“单声道BGO”和立体声前景音频对象“FGO1左/右”(FGO1 Left/Right)和“FGO2左/右”(FGO2 Left/Right)。

第一下混合发生器702接收单声道背景音频对象“单声道BGO”、和第一立体声前景音频对象“FGO1左”(FGO1 Left)和“FGO2右”(FGO2 Right)，并通过下混合单声道背景音频对象“单声道BGO”、和第一立体声前景音频对象“FGO1左”和“FGO2右”来生成第一下混合信号和第一残余信号。第一下混合信号可包括第一左声道下混合信号和第二右声道下混合信号。通过下混合第一下混合信号、和第二立体声前景音频对象“FGO2左”(FGO2Left)和“FGO2右”来生成第二下混合信号和第二残余信号。第二下混合信号可包括第二左声道下混合信号“左DMX”和第二右下混合信号“右DMX”(Right DMX)。第二左声道下混合发生器703a通过将第一左声道下混合信号与第二立体声左声道前景音频对象“FGO2左”下混合来生成第二左声道下混合信号“左DMX”。第二右声道下混合发生器703b通过将第一右声道下混合信号与第二立体声右声道前景音频对象“FGO2右”下混合来生成第二右声道下混合信号“右DMX”。

图8是用于描述根据本发明的实施例的解码的图。接收包括残余信号和下混合信号的比特流，并且恢复下混合信号。下混合信号可包括具有左声道下混合信号“左DMX”和右声道下混合信号“右DMX”的立体声下混合信号。

单声道前景音频对象恢复器804使用立体声下混合信号“左DMX”和“右DMX”以及残余信号“残余”(Residual)来恢复单声道前景对象“单声道FGO”(Mono FGO)。单声道前景音频对象恢复器804包括用于恢复单声道前景音频对象的每一个的第一单声道前景音频对象恢复器802和第二单声道前景音频对象恢复器803。这里，第一单声道前景音频对象恢复器802和第二单声道前景音频对象恢复器803具有TTT结构，并且单声道前景音频对象恢复器804具有TTN结构。

立体声前景音频对象恢复器806使用立体声下混合信号“左DMX”和“右DMX”以及残余信号来恢复立体声前景对象“立体声左/右FGO”。立体声前景音频对象“立体声左/右FGO”包括左声道信号“左FGO”和右声道信号“右FGO”。最终，输出立体声背景音频对象“左BGO”和“右BGO”。立体声前景对象恢复器806包括多个对象恢复器805a、805b、......、806a、806b、807a、和807b。所述多个对象恢复器805a、805b、......、806a、806b、807a、和807b具有OTT结构。立体声前景立体声对象恢复器806具有OTN结构。

图8图示了用于立体声背景音频对象和单声道前景音频对象的解码设备。在立体声背景音频对象和单声道前景音频对象的情况下，使用左声道下混合信号“左DMX”和残余信号“残余”来恢复单声道背景音频对象和单声道前景音频对象。其间，可通过立体声前景音频对象恢复器806来恢复单声道背景音频对象和立体声前景音频对象。由于可容易地理解其它解码处理(如图8所示)，所以省略其详细描述。

下文中，将描述本发明的示范实施例。

图9是用于描述本发明的示范实施例的图。参考图9，

多声道背景场景对象(MBO)包括多个声道“声道1”(Channel 1)、“声道2”(Channel 2)、...、“声道n”(Channel n)。MPEG环绕编码器(MPS)901对MBO进行编码，并输出立体声下混合信号“MBO左”(MBO Left)和“MBO右”(MBO Right)以及作为边信息(side information)的MPS比特流。这里，立体声下混合信号“MBO左”和“MBO右”是背景音频对象。

立体声下混合信号“MBO左”和“MBO右”、立体声前景对象“立体声FGO”(Stereo FGO)、和单声道前景音频对象“单声道FGO”被输入到空间音频对象编码编码器(SAOC)。立体声前景对象“立体声FGO”和单声道前景音频对象“单声道FGO”是前景音频对象。立体声前景音频对象“立体声FGO”可包括多个立体声对象“对象1”(object 1)、“对象2”(object 2)、...、和“对象N”(object N)，并且单声道前景音频对象“单声道FGO”可包括多个单声道对象“对象1”、“对象2”、...、和“对象M”(object M)。

第一下混合发生器903通过下混合立体声下混合信号“MBO左”和“MBO右”以及立体声前景音频对象“立体声FGO”来生成立体声下混合信号“左”(Left)和“右”(Right)以及残余信号。这里，第一下混合发生器903下混合立体声前景音频对象和立体声背景音频对象。第一下混合发生器903等效于图5中所示的立体声下混合发生器505。

第二下混合发生器904通过下混合立体声下混合信号“左”和“右”以及单声道前景音频对象“单声道FGO”来生成最终的下混合信号“左DMX”和“右DMX”以及残余信号。第二下混合发生器904等效于图4中所示的下混合发生器401。

SAOC编码器902提取SAOC比特流。MPS比特流、SAOC比特流、残余信号和最终的下混合信号“左DMX”和“右DMX”被作为比特流而传送到解码器。

由于解码是编码的逆操作，所以将省略其详细描述。简言之，解码器接收MPS比特流、SAOC比特流、残余信号、和最终下混合信号“左DMX”和“右DMX”。SAOC解码器使用残余信号和最终下混合信号“左DMX”和“右DMX”来恢复前景音频对象。MPS解码器接收通过恢复前景音频对象而生成的最终下混合信号“左DMX”和“右DMX”以及MPS比特流。MPS解码器使用MPS比特流来恢复背景音频对象的多声道信号。

下文中，将描述残余信号的生成。

可通过等式2来描述在解码操作中生成使用下混合信号和残余信号恢复的左声道信号和右声道信号的处理。

[\begin{matrix} \hat{l} \\ \hat{r} \end{matrix}] = [\begin{matrix} c_{1} & 1 \\ c_{2} & - 1 \end{matrix}] [\begin{matrix} m \\ res \end{matrix}]

等式2

在等式2中，左边的矩阵表示所恢复的左声道信号和右声道信号。在右边的矩阵中，M表示参数矩阵，m表示下混合信号，而res表示残余信号。

如果M矩阵具有逆矩阵，则可通过等式3和等式4来获得下混合信号m和残余信号res。

[\begin{matrix} m \\ res \end{matrix}] = {[\begin{matrix} c_{1} & 1 \\ c_{2} & - 1 \end{matrix}]}^{- 1} [\begin{matrix} l \\ r \end{matrix}] = \frac{1}{c_{1} + c_{2}} [\begin{matrix} 1 & 1 \\ c_{2} & - c_{1} \end{matrix}] [\begin{matrix} l \\ r \end{matrix}]

等式3

m = \frac{l}{c_{1} + c_{2}} + \frac{r}{c_{1} + c_{2}},

res = \frac{c_{2} \cdot l}{c_{1} + c_{2}} - \frac{c_{1} \cdot r}{c_{1} + c_{2}}

等式4

上述的本发明的方法可实现为程序并存储在诸如CD-ROM、RAM、ROM、软盘、硬盘、磁光盘等之类的计算机可读记录介质中。由于本发明所属领域的技术人员可容易地实现所述处理，所以这里将不提供进一步的描述。

尽管已经结合特定实施例而描述了本发明，但是对于本领域技术人员显然的是，可以进行各种改变和修改，而不脱离在接下来的权利要求中限定的本发明的精神和范围。

工业可用性

根据本发明的音频编码和解码方法以及其设备可用于对音频对象进行编码和解码。

Claims

1.一种多对象音频解码设备，包括：

恢复部件，用于接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中N个残余信号分别对应于N个前景音频对象，并且N是整数；以及

使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象，

其中，所述恢复部件包括级联结构的N个恢复器，以及

其中，所述N个恢复器中的第M恢复器用于使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数。

2.根据权利要求1的多对象音频解码设备，其中N是2。