CN110223702B

CN110223702B - 音频解码系统和重构方法

Info

Publication number: CN110223702B
Application number: CN201910546611.9A
Authority: CN
Inventors: H·普恩哈根; L·维尔莫斯; L·J·萨米尔森; T·赫冯恩
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2023-04-11
Anticipated expiration: 2034-05-23
Also published as: CN110223702A; RU2628177C2; ES2624668T3; BR112015028914A2; US20160111097A1; CN105393304A; US9818412B2; JP2016522445A; JP6248186B2; WO2014187987A1; BR112015028914B1; KR101761099B1; HK1216453A1; RU2015150066A; CN105393304B; EP3005352A1; KR20160003083A; EP3005352B1

Abstract

本公开涉及音频解码系统和重构方法。提供了提供较不复杂且更加灵活的对在音频编码系统中引入的去相关的控制的方法、设备和计算机程序产品。根据本公开，这通过计算并使用用于在音频编码系统中引入音频对象的去相关的两个加权因子来实现，一个加权因子用于逼近音频对象，一个加权因子用于去相关音频对象。

Description

音频解码系统和重构方法

本申请是申请号为201480029603.2、申请日为2014年5月23日、发明名称为“音频编码和解码方法、介质以及音频编码器和解码器”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2013年5月24日提交的美国临时专利申请No.61/827,288的优先权，该申请的全部内容在这里以引用的方式被并入。

技术领域

本文中的公开通常涉及音频编码。特别地，本公开涉及使用和计算用于使音频编码系统中的音频对象去相关的加权因子。

本公开涉及与本申请同一天提交的、标题为“Coding of Audio Scenes”、发明人姓名为Heiko Purnhagen等的美国临时申请No.61/827,246。该引用的申请的全部内容在这里以引用的方式被包括在内。

背景技术

在常规的音频系统中，采用基于声道的方法。每个声道可以例如表示一个扬声器或一个扬声器阵列的内容。用于这样的系统的可能的编码方案包括离散多声道编码或参数化编码(诸如MPEG环绕)。

最近，新方法已经被开发。该方法是基于对象的。在采用基于对象的方法的系统中，由音频对象与它们的相关联的位置元数据来表示三维音频场景。这些音频对象在音频信号回放期间在三维场景中四处移动。该系统还可包括所谓的床声道，这些床声道可被描述为直接映射到例如如上所述的常规音频系统的扬声器位置的静止音频对象。在这样的系统的解码器端，可使用下混信号和上混或重构矩阵来重构对象/床声道，其中，通过基于重构矩阵中的对应元素的值构成下混信号的线性组合来重构对象/床声道。

在基于对象的音频系统中(特别是在低目标比特率下)可能引起的问题是，解码的对象/床声道之间的相关性可能大于针对编码的原始对象/床声道的相关性。例如在MPEGSAOC中，解决这样的问题并且改进音频对象的重构的常见方法是在解码器中引入去相关器。在MPEG SAOC中，引入的去相关旨在考虑到音频对象的指定的渲染(即，依赖于连接到音频系统的什么类型的回放单元)来恢复音频对象之间的正确的相关性。

然而，已知的用于基于对象的音频系统的方法对下混信号的数量和对象/床声道的数量敏感，并且还可以是取决于音频对象的渲染的复杂操作。因此需要一种简单且灵活的方法，此方法用于控制在这样的系统中的解码器中引入的去相关的量，从而使得可以改进音频对象的重构。

附图说明

现在将参照附图来描述示例实施例，其中：

图1是根据示例实施例的音频解码系统的概括框图；

图2以举例的方式示出重构矩阵和加权参数被图1的音频解码系统接收所用的格式；

图3是用于产生在音频解码系统中的去相关过程中使用的至少一个加权参数的音频编码器的概括框图；

图4以举例的方式示出用于产生至少一个加权参数的图3的编码器中的一部分的概括框图；

图5a-5c以举例的方式示出在图4的编码器的所述部分中使用的映射函数。

所有附图都是示意性的，并且通常仅示出了为了阐明本公开所必需的部分，而其他部分则可以被省略或者仅被建议。除非另有指示，相同的标号在不同的附图中指代相同的部分。

具体实施方式

鉴于以上，目的是提供一种提供对引入的去相关的不太复杂且更加灵活的控制、从而使得可以改进音频对象的重构的编码器和解码器以及相关联的方法。

I.概述——解码器

根据第一方面，示例实施例提出了用于解码的解码方法、解码器和计算机程序产品。所提出的方法、解码器和计算机程序产品通常可以具有相同的特征和优点。

根据示例实施例，提供了一种用于重构N个音频对象的时间/频率瓦片的方法。所述方法包括以下步骤：接收M个下混信号；接收能够实现从M个下混信号重构N个音频对象的逼近的重构矩阵；将重构矩阵应用于M个下混信号，以便产生N个逼近音频对象；对N个逼近音频对象的至少一个子集进行去相关处理，以便产生至少一个去相关音频对象，由此至少一个去相关音频对象中的每一个对应于N个逼近音频对象中的一个；对于N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象，通过逼近音频对象来重构音频对象的时间/频率瓦片；并且对于N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象，通过以下步骤来重构音频对象的时间/频率瓦片：接收表示第一加权因子和第二加权因子的至少一个加权参数，用第一加权因子对逼近音频对象进行加权，用第二加权因子对与逼近音频对象对应的去相关音频对象进行加权，并且将加权的逼近音频对象与对应的加权的去相关音频对象组合。

音频编码/解码系统通常例如通过将合适的滤波器组应用于输入音频信号，来将时间-频率空间划分为时间/频率瓦片。时间/频率瓦片通常指时间-频率空间中的与时间间隔和频率子带对应的一部分。时间间隔通常可以对应于音频编码/解码系统中使用的时间帧的持续时间。频率子带通常可以对应于由编码/解码系统中使用的滤波器组定义的一个或若干相邻的频率子带。在频率子带对应于由滤波器组定义的若干相邻的频率子带的情况下，这使得在音频信号的解码过程中可以具有不均匀的频率子带，例如，对于较高频率的音频信号，具有较宽的频率子带。在宽频带的情况下(在该情况下，音频编码/解码系统对整个频率范围进行操作)，时间/频率瓦片的频率子带可以对应于整个频率范围。以上方法公开了重构N个音频对象的这样的时间/频率瓦片的步骤。然而，要理解的是，对音频解码系统的每个时间/频率瓦片可以重复所述方法。还要理解的是，若干时间/频率瓦片可以被同时编码。通常，相邻的时间/频率瓦片可以在时间和/或频率上有一些重叠。例如，时间上的重叠可以等效于重构矩阵的元素在时间上的(即，从一个时间间隔到下一个时间间隔)线性插值。然而，本公开是以编码/解码系统的其他部分为目标，并且相邻的时间/频率瓦片之间的时间和/或频率上的任何重叠被留给技术人员去实施。

如本文中所使用的，下混信号是作为一个或多个床声道和/或音频对象的组合的信号。

以上方法提供了一种用于重构N个音频对象的时间/频率瓦片的灵活的且简单的方法，在该方法中，减小了逼近的N个音频对象之间的任何不想要的相关性。通过使用两个加权因子，一个针对逼近音频对象，一个针对去相关音频对象，使得可以灵活地控制被引入的去相关的量的简单的参数化被实现。

而且，所述方法中的简单的参数化不依赖于对重构音频对象进行什么类型的渲染。这的优点是，独立于连接到实现所述方法的音频解码系统的什么类型的回放单元，相同的方法被使用，从而导致较不复杂的音频解码系统。

根据实施例，对于N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象，所述至少一个加权参数包括可以从其中推导出第一加权因子和第二加权因子的单个加权参数。这的优点是，提出了控制在音频解码系统中引入的去相关的量的简单的参数化。该方法使用描述每一对象和时间/频率瓦片的“干”(不是去相关的)贡献和“湿”(去相关的)贡献的混合的单个参数。与使用若干参数(例如，一个描述湿贡献，一个描述干贡献)相比，通过使用单个参数，可以降低所需的比特率。

根据实施例，第一加权因子和第二加权因子的平方和等于一。在这种情况下，所述单个加权参数包括或第一加权因子，或第二加权因子。这可以是实施用于描述每一对象和时间/频率瓦片的干贡献和湿贡献的混合的单个加权因子的简单方式。而且，这意味着重构对象将具有与逼近对象相同的能量。

根据实施例，对N个逼近音频对象的至少一个子集进行去相关处理的步骤包括对N个逼近音频对象中的每一个进行去相关处理，由此N个逼近音频对象中的每一个对应于一个去相关音频对象。这可以进一步减小重构音频对象之间的任何不想要的相关性，因为所有重构音频对象都基于去相关音频对象和逼近音频对象两者。

根据实施例，第一加权因子和第二加权因子是随时间和频率变化的。因此，可以提高音频解码系统的灵活性，因为可以对不同的时间/频率瓦片引入不同的去相关量。这还可以进一步减小重构音频对象之间的任何不想要的相关性，并且提高重构音频对象的质量。

根据实施例，重构矩阵是随时间和频率变化的。因此，音频解码系统的灵活性被提高，因为用于从下混信号重构或逼近音频对象的参数可以针对不同的时间/频率瓦片而变化。

根据另一实施例，重构矩阵和至少一个加权参数一被接收到就被布置在帧中。使用第一格式将重构矩阵布置在帧的第一字段中，并且使用第二格式将所述至少一个加权参数布置在帧的第二字段中，从而使得仅支持第一格式的解码器可以对第一字段中的重构矩阵进行解码，并且丢弃第二字段中的所述至少一个加权参数。因此，可以实现与不实施去相关的解码器的兼容。

根据实施例，所述方法还可以包括接收L个辅助信号，其中，重构矩阵进一步实现从M个下混信号和L个辅助信号对N个音频对象的逼近的重构，并且其中所述方法还包括将重构矩阵应用于M个下混信号和L个辅助信号以便产生N个逼近音频对象。L个辅助信号可以例如包括等于N个音频对象中的将被重构的一个音频对象的L个辅助信号中的至少一个信号。这可以提高特定的重构音频对象的质量。在N个音频对象中的将被重构的一个音频对象表示具有特定重要性的音频信号的一部分(例如，表示纪录片中的说话人语音的音频对象)的情况下，这可能是有利的。根据实施例，L个辅助信号中的至少一个是N个音频对象中的将被重构的至少两个音频对象的组合，从而提供比特率和质量之间的折衷。

根据实施例，M个下混信号跨越超平面，并且其中，L个辅助信号中的至少一个不位于M个下混信号跨越的超平面中。因此，L个辅助信号中的一个或多个辅助信号可以表示不被包括在M个下混信号中的任何一个信号中的信号维度。因此，重构音频对象的质量可以提高。在实施例中，L个辅助信号中的至少一个辅助信号与M个下混信号跨越的超平面正交。因此，L个辅助信号中的一个或多个辅助信号的整个信号表示音频信号的不包括在M个下混信号中的任何一个信号中的部分。这可以提高重构音频对象的质量，同时降低所需的比特率，因为L个辅助信号中的至少一个辅助信号不包括已经存在于M个下混信号中的任何一个信号中的任何信息。

根据示例实施例，提供了一种计算机可读介质，该计算机可读介质包括当在具有处理能力的装置上被执行时适于执行第一方面的任何方法的计算机代码指令。

根据示例实施例，提供了一种用于重构N个音频对象的时间/频率瓦片的装置，该装置包括：第一接收组件，其被配置为接收M个下混信号；第二接收组件，其被配置为接收实现从M个下混信号重构N个音频对象的逼近的重构矩阵；音频对象逼近组件，其被布置在第一接收组件和第二接收组件的下游，并且被配置为将重构矩阵应用于M个下混信号，以便产生N个逼近音频对象；去相关组件，其被布置在音频对象逼近组件的下游，并且被配置为对N个逼近音频对象的至少一个子集进行去相关处理，以便产生至少一个去相关音频对象，由此至少一个去相关音频对象中的每一个对应于N个逼近音频对象中的一个；第二接收组件被进一步配置为针对N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象，接收表示第一加权因子和第二加权因子的至少一个加权参数；以及音频对象重构组件，其被布置在音频对象逼近组件、去相关组件和第二接收组件的下游，并且被配置为：针对N个逼近音频对象中的不具有对应的去相关音频对象的每个逼近音频对象，通过逼近音频对象来重构音频对象的时间/频率瓦片；并且针对N个逼近音频对象中的具有对应的去相关音频对象的每个逼近音频对象，通过以下步骤来重构音频对象的时间/频率瓦片：用第一加权因子对逼近音频对象进行加权，用第二加权因子对与逼近音频对象对应的去相关音频对象进行加权，并且将加权的逼近音频对象与对应的加权的去相关音频对象组合。

II.概述——编码器

根据第二方面，示例实施例提出了用于编码的编码方法、编码器和计算机程序产品。所提出的方法、编码器和计算机程序产品通常可以具有相同的特征和优点。

根据示例实施例，提供了编码器中的用于产生至少一个加权参数的方法，其中，当通过将特定音频对象的加权的解码器侧逼近与解码器侧逼近的特定音频对象的对应的加权的去相关版本组合，来重构该特定频率对象的时间/频率瓦片时，至少一个加权参数将被用在解码器中，所述方法包括以下步骤：接收M个下混信号，这些下混信号是包括所述特定音频对象的至少N个音频对象的组合；接收所述特定音频对象；计算指示所述特定音频对象的能量水平的第一量；计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量，所述编码器侧逼近是M个下混信号的组合；基于第一量和第二量来计算所述至少一个加权参数。

以上方法公开了在一个时间/频率瓦片期间针对特定音频对象产生至少一个加权参数的步骤。然而，要理解的是，可以对音频编码/解码系统的每个时间/频率瓦片以及对每个音频对象重复所述方法。

可以指出，音频编码系统中的铺瓦(tiling)，即将音频信号/对象划分为时间/频率瓦片，不必与音频解码系统中的铺瓦相同。

还可以指出，所述特定音频对象的解码器侧逼近和所述特定音频对象的编码器侧逼近可以是不同的逼近，或者它们可以是相同的逼近。

为了降低所需要的比特率并且降低复杂度，所述至少一个加权参数可以包括可以从其中推导出第一加权因子和第二加权因子的单个加权参数，第一加权因子用于对所述特定音频对象的解码器侧逼近进行加权，第二加权因子用于对解码器侧逼近的音频对象的去相关版本进行加权。

为了防止能量被添加到解码器侧上的重构音频对象，该重构音频对象包括所述特定音频对象的解码器侧逼近和解码器侧逼近的音频对象的去相关版本，第一加权因子和第二加权因子的平方和可以等于一。在这种情况下，所述单个加权参数可以包括或第一加权因子，或第二加权因子。

根据实施例，计算至少一个加权参数的步骤包括比较第一量和第二量。例如，可以比较逼近的特定音频对象的能量和特定音频对象的能量。

根据示例实施例，对第一量和第二量的比较包括：计算第二量和第一量之间的比率；将该比率提高到α次幂；并且使用被提高到α次幂的比率来计算加权参数。这可以提高编码器的灵活性。参数α可以等于二。

根据示例实施例，被提高到α次幂的比率遵照递增函数，该递增函数将被提高到α次幂的比率映射到所述至少一个加权参数。

根据示例实施例，第一加权因子和第二加权因子是随时间和频率变化的。

根据示例实施例，指示能量水平的第二量对应于所述特定音频对象的编码器侧逼近的能量水平，所述编码器侧逼近是M个下混信号和L个辅助信号的线性组合，下混信号和辅助信号从N个音频对象形成。为了改进解码器侧的音频对象的重构，辅助信号可以被包括在音频编码/解码系统中。

根据示例实施例，L个辅助信号中的至少一个辅助信号可以对应于特别重要的音频对象，诸如表示对话的音频对象。因此，L个辅助信号中的至少一个辅助信号可以等于N个音频对象中的一个。根据进一步的实施例，L个辅助信号中的至少一个辅助信号是N个音频对象中的至少两个的组合。

根据示例实施例，M个下混信号跨越超平面，并且其中，L个辅助信号中的至少一个辅助信号不位于M个下混信号跨越的超平面中。这意味着，L个辅助信号中的至少一个辅助信号表示在产生M个下混信号的过程中丢失的音频对象的信号维度，这可以改进对解码器侧的音频对象的重构。根据进一步的实施例，L个辅助信号中的所述至少一个辅助信号与M个下混信号跨越的超平面正交。

根据示例实施例，提供了一种计算机可读介质，该计算机可读介质包括当其在具有处理能力的装置上被执行时适于执行第二方面的任何方法的计算机代码指令。

根据示例实施例，提供了一种用于产生至少一个加权参数的编码器，其中，当通过将特定音频对象的加权的解码器侧逼近与解码器侧逼近的特定音频对象的对应的加权的去相关版本组合，来重构该特定频率对象的时间/频率瓦片时，所述至少一个加权参数将被用在解码器中，所述装置包括：接收组件，其被配置为接收M个下混信号，这些下混信号是包括所述特定音频对象的至少N个音频对象的组合，该接收组件被进一步配置为接收所述特定音频对象；计算单元，其被配置为：计算指示所述特定音频对象的能量水平的第一量；计算指示与所述特定音频对象的编码器侧逼近的能量水平对应的能量水平的第二量，所述编码器侧逼近是M个下混信号的组合；基于第一量和第二量来计算所述至少一个加权参数。

示例实施例

图1示出了用于重构N个音频对象的音频解码系统100的概括框图。音频解码系统100执行时间/频率分解处理，意味着它对单个的时间/频率瓦片进行操作以重构N个音频对象。在下面，将描述系统100的用于重构N个音频对象的一个时间/频率瓦片的处理。N个音频对象可以是一个或多个音频对象。

系统100包括第一接收组件102，其被配置为接收M个下混信号106。M个下混信号可以是一个或多个下混信号。M个下混信号106可以例如是与已建立的声音解码系统(诸如Dolby Digital Plus、MPEG或AAC)向后兼容的5.1或7.1环绕信号。在其他实施例中，M个下混信号106不向后兼容。第一接收组件102的输入信号可以是比特流130，接收组件可以从比特流130中提取M个下混信号106。

系统100还包括第二接收组件112，其被配置为接收实现从M个下混信号106重构N个音频对象的逼近的重构矩阵104。重构矩阵104也可以被称为上混矩阵。第二接收组件112的输入信号126可以是比特流126，该接收组件可以从比特流126提取重构矩阵104或者其元素，下面将详细地说明附加信息。在音频解码系统100的一些实施例中，第一接收组件102和第二接收组件112被组合在一个单个接收组件中。在一些实施例中，输入信号130、126被组合为一个单个输入信号，所述一个单个输入信号可以是具有使得接收组件102、112可以从一个单个输入信号提取不同信息的格式的比特流。

系统100还可以包括音频对象逼近组件108，其被布置在第一接收组件102和第二接收组件112的下游，并且被配置为将重构矩阵104应用于M个下混信号106以便产生N个逼近音频对象110。更具体地说，音频对象逼近组件108可以执行矩阵运算，在该矩阵运算中，将重构矩阵乘以包括M个下混信号的矢量。重构矩阵104可以是随时间和频率变化的，即，重构矩阵104中的元素的值针对每个时间/频率瓦片可以是不同的。因此，重构矩阵104的元素依赖于哪个时间/频率当前正被处理。

频率k和时隙l处(即，时间/频率瓦片)的逼近

的音频对象n例如在音频对象逼近组件108处被计算，例如，对于频带b，b＝1,…,B中的所有频率采样k，用

来计算，其中，c_m，b，n是频带b中的与下混声道Y_m相关联的对象n的重构系数。可以指出，重构系数c_m，b，n被假定为在时间/频率瓦片上是固定的，但是在进一步的实施例中，该系数在时间/频率瓦片期间可以变化。

系统100还包括被布置在音频对象逼近组件108下游的去相关组件118。去相关组件118被配置为对N个逼近音频对象110的至少一个子集140进行去相关处理，以便产生至少一个去相关音频对象136。换句话说，可以对N个逼近音频对象110中的全部或仅仅一些进行去相关处理。所述至少一个去相关音频对象136中的每一个对应于N个逼近音频对象110中的一个。更确切地说，去相关音频对象136的集合对应于被输入到去相关过程118的逼近音频对象的集合140。所述至少一个去相关音频对象136的目的是减小N个逼近音频对象110之间的不想要的相关性。该不想要的相关性特别是在包括音频解码系统100的音频系统具有低目标比特率时出现。在低目标比特率下，重构矩阵可能是稀疏的。这意味着重构矩阵中的许多元素可能是零。在这种情况下，特定的逼近音频对象110可以基于来自M个下混信号106的单个下混信号或几个下混信号，从而增加了在逼近音频对象110之间引入不想要的相关性的风险。根据一些实施例，去相关组件118对N个逼近音频对象110中的每一个进行去相关处理，由此N个逼近音频对象110中的每一个对应于一个去相关音频对象136。

可以对去相关组件118进行去相关处理的N个逼近音频对象110中的每一个进行不同的去相关处理，例如，通过将白噪声滤波器应用于被去相关的逼近音频对象，或者通过应用任何其他的合适的去相关处理，诸如全通滤波。

进一步的去相关处理的示例可以在以下中找到：MPEG参数化立体声编码工具(其被用在HE-AAC v2中，如ISO/IEC 14496-3以及2004年5月德国柏林AES第116届大会的论文：J.

H.Purnhagen,J.

L.Liljeryd,“Synthetic ambience inparametric stereo coding”中所描述的那样)、MPEG环绕(ISO/IEC 23003-1)以及MPEGSAOC(ISO/IEC 23003-2)。

为了不引入不想要的相关性，不同的去相关处理是互相去相关的。根据其他实施例，对逼近音频对象110中的若干或全部对象进行相同的去相关处理。

系统100还包括音频对象重构组件128。对象重构组件128被布置在音频对象逼近组件108、去相关组件118和第二接收组件112的下游。对象重构组件128被配置为，针对N个逼近音频对象138中的不具有对应的去相关音频对象136的每个逼近音频对象，通过逼近音频对象138来重构音频对象142的时间/频率瓦片。换句话说，如果某一逼近音频对象138尚未进行去相关处理，则它被简单地重构为由音频对象逼近组件108提供的逼近音频对象110。对象重构组件128被进一步配置为，针对N个逼近音频对象110中的具有对应的去相关音频对象136的每个逼近音频对象，使用去相关音频对象136和对应的逼近音频对象110两者来重构音频对象的时间/频率瓦片。

为了促进该进程，第二接收组件112被进一步配置为针对N个逼近音频对象110中的具有对应的去相关音频对象136的每个逼近音频对象，接收至少一个加权参数132。所述至少一个加权参数132表示第一加权因子116和第二加权因子114。也被称为干因子的第一加权因子116以及也被称为湿因子的第二加权因子116，由湿/干提取器134从所述至少一个加权参数132推导出。第一加权因子116和/或第二加权因子114可以是随时间和频率变化的，即，加权因子116、114的值针对被处理的每个时间/频率瓦片可以是不同的。

在一些实施例中，所述至少一个加权参数132包括第一加权因子116和第二加权因子114。在一些实施例中，所述至少一个加权参数132包括单个加权参数。如果如此，则湿/干提取器134可以从所述单个加权参数132推导出第一加权因子116和第二加权因子114。例如，第一加权因子116和第二加权因子114可以满足某些关系，这些关系允许一旦加权因子中的一个加权因子是已知的，则另一个加权因子就可以被推导。这样的关系的示例可以是，第一加权因子116和第二加权因子114的平方和等于一。因此，如果单个加权参数132包括第一加权因子116，则可以按照一减去平方的第一加权因子116的平方根来推导第二加权因子114，反之亦然。

第一加权因子116用于加权122，即，用于与逼近音频对象110相乘。第二加权因子114用于加权120，即，用于与对应的去相关音频对象136相乘。音频对象重构组件128被进一步配置为例如通过执行求和来组合124加权的逼近音频对象150与对应的加权的去相关音频对象152，以重构对应的音频对象142的时间/频率瓦片。

换句话说，针对每个对象和每个时间/频率瓦片，去相关的量可以由一个加权参数132控制。在湿/干提取器134中，该加权参数132被转换为被应用于逼近音频对象110的权重因子116(w_dry)以及被应用于去相关音频对象136的权重因子114(w_wet)。这些权重因子的平方和为一，即，

这意味着作为求和124的输出的最终对象142具有与对应的逼近音频对象110相同的能量。

为了使得输入信号126、130可以被不能处理去相关的音频解码器系统解码，即，为了保持与这样的音频解码器的向后兼容性，输入信号126可如图2中所描绘的那样被布置在帧202中。根据该实施例，使用第一格式将重构矩阵104布置在帧202的第一字段中，并且使用第二格式将所述至少一个加权参数132布置在帧202的第二字段中。以这种方式，能够读取第一格式、但不能读取第二格式的解码器仍然可以对重构矩阵104进行解码并且以任何常规的方式使用重构矩阵104来对下混信号106进行上混。帧202的第二字段在这种情况下可以被丢弃。

根据一些实施例，图1中的音频解码系统100可以例如在第一接收组件102处附加地接收L个辅助信号144。可以存在一个或多个这样的辅助信号，即，L≥1。这些辅助信号144可以被包括在输入信号130中。辅助信号144可以以这样的根据以上的向后兼容性得到保持的方式被包括在输入信号130中，即，以使得不能处理辅助信号的解码器系统仍然可以从输入信号130中推导处下混信号106。重构矩阵104可以进一步实现从M个下混信号106和L个辅助信号144重构N个音频对象的逼近110。音频对象逼近组件108因此可以被配置为将重构矩阵104应用于M个下混信号106和L个辅助信号144以便产生N个逼近音频对象110。

辅助信号144的作用是改进在音频对象逼近组件108中对N个音频对象的逼近。根据一个示例，辅助信号144中的至少一个辅助信号等于N个音频对象中的将被重构的一个。在这种情况下，用于重构特定音频对象的重构矩阵104中的矢量将仅包含单个非零参数，例如，具有值一(1)的参数。根据其他示例，L个辅助信号144中的至少一个辅助信号是N个音频对象中的将被重构的至少两个的组合。

在一些实施例中，L个辅助信号可以表示N个音频对象的信号维度，这些信号维度是在从N个音频对象产生M个下混信号106的过程中丢失的信息。这可以通过说明M个下混信号106跨越信号空间中的超平面并且L个辅助信号144不位于该超平面中来进行解释。例如，L个辅助信号144可以与M个下混信号106跨越的超平面正交。仅基于M个下混信号106，只有位于超平面中的信号可以被重构，即，不位于超平面中的音频对象将被超平面中的音频信号逼近。通过在重构中进一步使用L个辅助信号144，不位于超平面中的信号也可以被重构。结果是，可以通过还使用L个辅助信号来改进音频对象的逼近。

图3以举例的方式示出了用于产生至少一个加权参数320的音频编码器300的概括框图。当通过将特定音频对象的加权的解码器侧逼近(图1的标号150)与解码器侧逼近的特定音频对象的对应的加权的去相关版本(图1的标号152)组合(图1的标号124)来重构该特定频率对象的时间/频率瓦片时，所述至少一个加权参数320将被用在解码器(例如上述音频解码系统100)中。

编码器300包括接收组件302，其被配置为接收M个下混信号312，这些下混信号312是包括所述特定音频对象的至少N个音频对象的组合。接收组件302被进一步配置为接收特定音频对象314。在一些实施例中，接收组件302被进一步配置为接收L个辅助信号322。如上所讨论，L个辅助信号322中的至少一个可以等于N个音频对象中的一个，L个辅助信号322中的至少一个可以是N个音频信号中的至少两个的组合，并且L个辅助信号322中的至少一个可以包含不存在于M个下混信号中的任何一个中的信息。

编码器300还包括计算单元304。计算单元304被配置为例如在第一能量计算组件306处计算指示特定音频对象的能量水平的第一量316。第一量316可以被计算为特定音频对象的范数。例如，第一量316可以等于特定音频对象的能量，因此可以用两范数Q₁＝||S||²来计算，其中，S表示所述特定音频对象。第一量可以可替代地被计算为指示所述特定音频对象的能量的另一量(诸如该能量的平方根)。

计算单元304被进一步配置为计算第二量318，其指示与特定音频对象314的编码器侧逼近的能量水平对应的能量水平。编码器侧逼近可以例如是M个下混信号312的组合，诸如线性组合。可替代地，编码器侧逼近可以是M个下混信号312和L个辅助信号322的组合，诸如线性组合。第二量可以在第二能量计算组件308处被计算。

编码器侧逼近可以例如通过使用非能量匹配的上混矩阵和M个下混信号312来计算。在本说明书的上下文中，通过术语“非能量匹配的”应理解的是，特定音频对象的逼近与该特定音频对象本身是能量不匹配的，即，该逼近与特定音频对象314相比将具有不同的能量水平，通常是更低的能量水平。

可以使用不同的方法产生非能量匹配的上混矩阵。例如，可以使用最小均方差(MMSE)预测方法，该方法至少采取N个音频对象以及M个下混信号312(以及可能地，L个辅助信号322)作为输入。这可以被描述为旨在找到最小化N个音频对象的逼近的均方差的上混矩阵的迭代方法。具体地说，该方法用候选上混矩阵乘以M个下混信号312(以及可能地，L个辅助信号322)来逼近N个音频对象，并且在均方差方面将所述逼近与N个音频对象相比较。最小化均方差的候选上混矩阵被选为被用于定义特定音频对象的编码器侧逼近的上混矩阵。

当使用MMSE方法时，特定音频对象S和逼近音频对象S’之间的预测误差e与S正交。这意味着：

||S′||²+||e||²＝||S||²

换句话说，音频对象S的能量等于逼近音频对象的能量和预测误差的能量的和。由于以上关系，预测误差e的能量因此给出了对编码器侧逼近S’的能量的指示。

因此，可以使用特定音频对象的逼近S’或预测误差来计算第二量318。第二量可以被计算为特定音频对象的逼近S’的范数或者预测误差e的范数。例如，第二量可以被计算为2范数(即，Q₂＝||S′||²或Q₂＝||e||²)。第二量可以可替代地被计算为指示逼近的特定音频对象的能量的另一量，诸如逼近的特定音频对象的能量的平方根或者预测误差的能量的平方根。

计算单元被进一步配置为用于例如在参数计算组件310处，基于第一量316和第二量318来计算所述至少一个加权参数320。参数计算组件310可以例如通过比较第一量316和第二量318来计算所述至少一个加权参数320。现在将结合图4和图5a-c来详细地说明示例性参数计算组件310。

图4以举例的方式示出了用于产生所述至少一个加权参数320的参数计算组件310的概括框图。参数计算组件310例如在比率计算组件402处，通过计算第二量318和第一量316之间的比率r来比较第一量316和第二量318。然后将该比率提高到α次幂，即：

其中，Q₂是第二量318，Q₁是第一量316。根据一些实施例，当Q₂＝||S′||并且Q₁＝||S||时，α等于2，即，比率r是逼近的特定音频对象和特定音频对象的能量的比率。然后例如在映射组件404处使用被提高到α次幂的比率来计算所述至少一个加权参数320。映射组件404使r 406遵照递增函数，该递增函数将r映射到所述至少一个加权参数320。图5a-c中举例说明了这样的递增函数。在图5a-c中，水平轴表示r 406的值，垂直轴表示加权参数320的值。在该例子中，加权参数320是与图1中的第一加权因子116对应的单个加权参数。

一般地，映射函数的原理是：

如果Q₂<<Q₁，则第一加权因子接近于0，如果Q₂≈Q₁，则第一加权因子接近于1。

图5a示出了映射函数502，在该映射函数502中，对于r 406的0和1之间的值，r的值将与加权参数312的值相同。对于r的大于1的值，加权参数320的值将为1。

图5b示出了另一映射函数504，在该映射函数504中，对于r 406的0和0.5之间的值，加权参数320的值将为0。对于r的大于1的值，加权参数320的值将为1。对于r的0.5和1之间的值，加权参数320的值将为(r-0.5)*2。

图5c示出了概括图5a-b的映射函数的第三替代映射函数506。映射函数506由至少四个参数b₁、b₂、β₁和β₂所限定，这些参数可以是针对解码器侧的重构音频对象的最佳感知质量进行调谐的常数。一般地，限制输出音频信号中的去相关的最大量可以是有益的，因为去相关的逼近音频对象的质量通常比逼近音频对象被单独收听时的质量差。将b₁设置为大于零直接控制这一点，从而可以确保加权参数320(因此以及图1中的第一加权因子116)在所有情况下都将大于零。将b₂设置为小于1具有在音频解码系统100的输出中总是存在最小水平的去相关能量的效果。换句话说，图1中的第二加权因子114将总是大于零。β₁隐式地控制在音频解码系统100的输出中添加的去相关的量，但是涉及到不同的动态(与b₁相比)。类似地，β₂隐式地控制音频解码系统100的输出中的去相关的量。

在期望r的值β₁和β₂之间的曲面映射函数的情况下，需要至少一个另一参数，该参数可以是常数。

等效、扩展、替代和其他

在研究以上描述之后，本公开的进一步的实施例对于本领域技术人员而言将变得清楚。即使当前的描述和附图公开了实施例和示例，但本公开不限于这些特定示例。在不背离由所附权利要求限定的本公开的范围的情况下，可以做出许多修改和变型。在权利要求中出现的任何引用符号不被理解为限制它们的范围。

另外，通过研究附图、公开内容和所附权利要求，所公开的实施例的变型可以被技术人员在实施本公开中理解和施行。在权利要求中，词语“包括”不排除其他元件或步骤，不定冠词“一”不排除多个。仅仅是某些措施在互相不同的从属权利要求中被记载的事实并不表明这些措施的组合不能用于获益。

上文中所公开的系统和方法可以被实施为软件、固件、硬件或它们的组合。在硬件实施方式中，任务在以上描述中提及的功能单元之间的划分不一定对应于物理单元的划分；相反，一个物理组件可以具有多个功能，并且一个任务可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且包括任何信息递送介质。

Claims

1.一种用于重构N个音频对象的时间/频率瓦片的音频解码系统，包括：

第一接收组件(102)，被配置为接收第一输入信号(130)，所述第一输入信号包括M个下混信号(106)和L个辅助信号(144)；

第二接收组件(112)，被配置为：

接收第二输入信号(126)，并且从所述第二输入信号提取重构矩阵(104)；以及

接收加权参数(132)；

音频对象逼近组件(108)，被布置于所述第一接收组件和所述第二接收组件的下游，并且被配置为将所述重构矩阵应用于所述M个下混信号和所述L个辅助信号以生成N个逼近音频对象；

湿/干提取器组件(134)，被布置于所述第二接收组件的下游，并且被配置为从由所述第二接收组件接收的加权参数推导出干因子(116)和湿因子(114)；

去相关组件(118)，被布置于所述音频对象逼近组件的下游，并且被配置为对所述N个逼近音频对象的至少一个子集进行去相关处理，以便产生至少一个去相关音频对象，由此所述至少一个去相关音频对象中的每一个对应于所述N个逼近音频对象中的一个；

音频对象重构组件(128)，被布置于所述音频对象逼近组件、所述去相关组件、以及所述湿/干提取器组件的下游，所述音频对象重构组件被配置为：

利用所述干因子对所述N个逼近音频对象进行加权；

利用所述湿因子对所述至少一个去相关音频对象进行加权；以及

组合经加权的N个逼近音频对象和经加权的至少一个去相关音频对象以重构N个音频对象(142)的时间/频率瓦片。

2.根据权利要求1所述的系统，其中，所述湿因子和所述干因子是随时间和频率变化的，并且其中所述重构矩阵是随时间和频率变化的。

3.根据权利要求1所述的系统，其中，所述L个辅助信号中的至少一个等于所述N个音频对象中的将被重构的一个。

4.根据权利要求1所述的系统，其中，所述L个辅助信号中的至少一个是所述N个音频对象中的将被重构的至少两个的组合。

5.根据权利要求1所述的系统，其中，所述M个下混信号跨越超平面，并且其中，所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。

6.根据权利要求5所述的系统，其中，所述L个辅助信号中的所述至少一个与所述M个下混信号跨越的超平面正交。

7.根据权利要求1所述的系统，其中，所述重构矩阵和所述加权参数在被接收到时被布置在帧中，其中，使用第一格式将所述重构矩阵布置在所述帧的第一字段中，并且使用第二格式将所述加权参数布置在所述帧的第二字段中，从而使得仅支持第一格式的解码器能够对第一字段中的重构矩阵进行解码并且丢弃第二字段中的所述加权参数。

8.一种用于重构N个音频对象的时间/频率瓦片的方法，包括以下步骤：

接收第一输入信号，所述第一输入信号包括M个下混信号和L个辅助信号；

接收第二输入信号和加权参数；

从所述第二输入信号提取重构矩阵；

将重构矩阵应用于所述M个下混信号和所述L个辅助信号以生成N个逼近音频对象；

从所接收的加权参数推导出干因子和湿因子；

对所述N个逼近音频对象的至少一个子集进行去相关，包括产生至少一个去相关音频对象，其中所述至少一个去相关音频对象中的每一个对应于所述N个逼近音频对象中的一个；

利用所述干因子对所述N个逼近音频对象进行加权；

组合经加权的N个逼近音频对象和经加权的至少一个去相关音频对象以重构N个音频对象的时间/频率瓦片。

9.根据权利要求8所述的方法，其中：

利用所述干因子对所述N个逼近音频对象进行加权包括所述N个逼近音频对象乘以所述干因子；

利用所述湿因子对所述至少一个去相关音频对象进行加权包括所述至少一个去相关音频对象乘以所述湿因子；

组合经加权的N个逼近音频对象和经加权的至少一个去相关音频对象包括将经加权的N个逼近音频对象和经加权的至少一个去相关音频对象进行求和。

10.根据权利要求8所述的方法，其中，所述湿因子和所述干因子是随时间和频率变化的，并且其中所述重构矩阵是随时间和频率变化的。

11.根据权利要求8所述的方法，其中，所述L个辅助信号中的至少一个等于所述N个音频对象中的将被重构的一个。

12.根据权利要求8所述的方法，其中，所述L个辅助信号中的至少一个是所述N个音频对象中的将被重构的至少两个的组合。

13.根据权利要求8所述的方法，其中，所述M个下混信号跨越超平面，并且其中，所述L个辅助信号中的至少一个不位于所述M个下混信号跨越的超平面中。

14.根据权利要求13所述的方法，其中，所述L个辅助信号中的至少一个与所述M个下混信号跨越的超平面正交。

15.根据权利要求8所述的方法，其中，所述重构矩阵和所述加权参数在被接收到时被布置在帧中，其中，使用第一格式将所述重构矩阵布置在所述帧的第一字段中，并且使用第二格式将所述加权参数布置在所述帧的第二字段中，从而使得仅支持第一格式的解码器能够对第一字段中的重构矩阵进行解码并且丢弃第二字段中的所述加权参数。

16.根据权利要求8-15中任一项所述的方法，其中，所述方法的各个步骤能够由音频解码系统的相应组件来执行。

17.一种音频解码装置，包括：

处理器，以及

计算机可读介质，其包括计算机代码指令，所述计算机代码指令在由处理器执行时适于实行根据权利要求8-16中任一项所述的方法。

18.一种计算机可读介质，其包括计算机代码指令，所述计算机代码指令在由处理器执行时适于实行根据权利要求8-16中任一项所述的方法。

19.一种包括用于执行根据权利要求8-16中任一项所述的方法的部件的装置。