CN105659320A

CN105659320A - 音频编码器和解码器

Info

Publication number: CN105659320A
Application number: CN201480057784.XA
Authority: CN
Inventors: H·普恩哈根; J·克里萨; L·维勒莫斯; T·赫冯恩
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-10-21
Filing date: 2014-10-21
Publication date: 2016-06-08
Anticipated expiration: 2034-10-21
Also published as: CN105659320B; JP2016540241A; EP3074970B1; US10049683B2; US20160240206A1; JP6396452B2; WO2015059154A1; EP3074970A1

Abstract

本公开落入音频编码领域，特别地，本公开涉及其中音频信息由多个信号表示的空间音频编码领域，其中，信号可以包括音频声道和/或音频对象。特别地，本公开提供了一种用于在音频解码系统中重构音频对象的方法和设备。此外，本公开提供了一种用于对这种音频对象进行编码的方法和装置。

Description

音频编码器和解码器

对相关申请的交叉引用

本申请要求2013年10月21日提交的美国临时专利申请No.61/893770和2014年4月1日提交的美国临时专利申请No.61/973653的优先权，其全部内容通过引用并入于此。

技术领域

本公开落入音频编码领域，特别地，本公开涉及音频信息由多个信号表示的空间音频编码领域，其中信号可以包括音频声道和/或音频对象。特别地，本公开提供一种用于在音频解码系统中重构音频对象的方法和装置。此外，本公开提供一种用于对这种音频对象进行编码的方法和装置。

背景技术

在常规的音频系统中，利用基于声道的方法。每个声道可以例如表示一个扬声器或一个扬声器阵列的内容。用于这种系统的可能的编码方案包括离散多声道编码或诸如MPEG环绕声之类的参数化编码。

最近，已经开发出了新的方法。该方法是基于对象的，当对例如电影院应用中的复杂音频场景进行编码时，该方法可能是有利的。在利用基于对象的方法的系统中，三维音频场景由音频对象及其相关联的元数据(例如，位置元数据)表示。这些音频对象在音频信号的回放期间在三维音频场景中四处移动。该系统还可以包括所谓的床声道，这些床声道可以被描述为直接映射到例如如上所述的常规音频系统的某些输出声道的信号。

在基于对象的音频系统中可能出现的问题是如何高效地对对象音频信号进行编码和解码并且保持编码信号的质量。可能的编码方案在编码器侧包括用于创建下混信号的部件和用于生成副信息的部件，其中，下混信号包括从音频对象和床声道获得的若干个声道，并且副信息有助于音频对象和床声道在解码器侧的重构。

MPEG空间音频对象编码(MPEGSAOC)描述用于音频对象的参数化编码的系统。该系统发送通过诸如对象的水平差异和互相关之类的参数来描述对象的性质的副信息，即，上混矩阵。这些参数然后被用来控制音频对象在解码器侧的重构。该过程在数学上可能是复杂的，并且经常必须依赖关于未被参数明确地描述的音频对象性质的假设。MPEGSAOC中呈现的方法可以降低基于对象的音频系统所需的比特率，但是如上所述，可能需要进一步的改进来进一步提高效率和质量。

附图说明

现在将参照附图来描述示例性实施例，其中：

图1是根据示例性实施例的用于重构音频对象的解码器的概扩框图；

图2描述了根据第一解码模式对上混矩阵的解码；

图3描述了根据第一解码模式对上混矩阵的解码；

图4描述了根据第二解码模式对上混矩阵的解码；

图5描述了用于重构包括多个频带的时间帧中的音频对象的方法；

图6描述了用于对包括多个频带的时间帧中的音频对象进行编码的方法，该方法具有第一和第二编码模式；

图7是根据示例性实施例的用于对音频对象进行编码的编码器的概括框图；

图8以举例的方式描述了指示符矢量的熵编码。

所有的图都是示意性的，并且一般仅示出了阐明本公开所必要的部分，而其他部分可能被省略或者仅被暗示。除非另有指明，否则在不同的图中，相同的附图标记指代相同的部分。

具体实施方式

鉴于以上，目的是提供旨在优化编码音频对象的编码功效和重构质量之间的权衡的编码器和解码器以及相关联的方法。

I.概述-解码器

根据第一方面，示例性实施例提出了用于解码的解码方法、解码器和计算机程序产品。所提出的方法、解码器和计算机程序产品一般可以具有相同的特征和优点。

根据示例性实施例，提供了一种用于重构包括多个频带的时间帧中的音频对象的方法。该方法包括以下步骤：接收M>1个下混信号，每个下混信号是包含所述音频对象的多个音频对象的组合；并且接收包括第一指示符的指示符，第一指示符指示当重构音频对象时所述M个下混信号中的哪些下混信号要用在所述多个频带中。在第一解码模式中，每个第一指示符指示当重构音频对象时要用于所述多个频带的全部频带的下混信号。该方法还包括以下步骤：接收各自与频带和由第一指示符指示的用于该频带的下混信号相关联的第一参数；并且通过形成至少所述由第一指示符指示的用于该频带的下混信号的加权和来重构所述多个频带中的音频对象，其中，每个下混信号根据其相关联的第一参数而被加权。

该方法的优点是降低了发送用于从至少M个下混信号重构音频对象的参数所需的比特率，因为实现该方法的解码器仅需要接收用于由指示符指示的下混信号的参数。该方法的另一优点是可以降低重构音频对象的复杂度，因为指示符指示在任何给定时间帧中什么参数用于重构。结果，可以避免不必要的与零相乘。仅使用一个用于指示当重构音频对象时应被用于多个频带的全部频带的下混信号的指示符的优点是可以降低发送指示符所需的比特率。

根据实施例，所述方法还包括以下步骤：形成K≥1个去相关信号，其中，指示符还包括第二指示符，第二指示符指示当重构音频对象时所述K个去相关信号中的哪些去相关要用在所述多个频带中。在第一解码模式中，每个第二指示符指示当重构音频对象时要用于所述多个频带的全部频带的去相关信号。所述方法还包括以下步骤：接收各自与频带和由第二指示符指示的用于该频带的去相关信号相关联的第二参数。重构所述多个频带中的音频对象的步骤还包括：把由第二指示符指示的用于特定频带的去相关信号的加权和加到用于该特定频带的下混信号的加权和，其中，每个去相关信号根据其相关联的第二参数而被加权。

通过当重构音频对象时使用去相关信号，可以降低被重构的音频对象之间的任何不需要的相关性。

根据实施例，指示符是以二进制矢量的形式接收的，该二进制矢量的每个元素对应于M个下混信号或K个去相关信号(如果适用的话)中的一个。

以二进制矢量的形式接收指示符的优点是可以提供从以比特流的形式接收的数据的简单转换。

根据实施例，通过熵编码对所接收的二进制矢量进行编码。这可以进一步降低发送指示符所需的比特率。

根据实施例，所述方法包括第二解码模式。在第二解码模式中，用于每个频带的指示符指示当重构音频对象时M个下混信号或K个去相关信号(如果适用的话)中要用在该频带中的单个信号。该解码模式可以导致发送参数所需的比特率降低，因为对于要重构的音频对象的每个频带，只需要发送单个参数。

根据实施例，指示符是以整数矢量的形式接收的，其中，该整数矢量中的每个元素对应于频带和要用于该频带的单个下混信号的指标。这可以是指示对于特定频带要使用什么下混信号的高效方式。整数矢量可以进一步有助于对由解码器接收的比特流中的指示符进行高效的编码。根据实施例，可以通过熵编码来对所接收的整数矢量进行编码。

根据实施例，所述方法还包括接收解码模式参数的步骤，所述解码模式参数指示要使用第一解码模式和第二解码模式中的哪个。这可以降低解码复杂度，因为可以不必计算应使用什么解码模式。

根据实施例，指示符与参数分开接收。实现本公开方法的解码器可以首先重构指示符矩阵，所述指示符矩阵指示当重构音频对象时应使用哪些下混信号和去相关信号(如果适用的话)。指示符矩阵指示在由解码器接收的比特流中接收到的参数。这可以允许本方法的重构步骤的通用实现，而与使用什么解码模式无关。通过在参数之前单独接收指示符，可能不必对参数进行缓冲。

根据实施例，通过时间差分编码和/或频率差分编码对所接收的第一参数和第二参数(如果适用的话)中的至少一些进行编码。可以通过熵编码对第一参数和第二参数(如果适用的话)进行编码。使用时间差分编码和/或频率差分编码和/或熵编码对参数进行编码的优点可以是降低发送用于重构音频对象的参数所需的比特率。

根据示例性实施例，提供一种包含计算机代码指令的计算机可读介质，所述计算机代码指令当在具有处理能力的装置上执行时适于实现第一方面的任何方法。

根据示例性实施例，提供一种用于重构包括多个频带的时间帧中的音频对象的解码器，该解码器包括接收级，该接收级被配置用于：接收M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合；接收包括第一指示符的指示符，第一指示符指示当重构音频对象时所述M个下混信号中的哪些下混信号要用在所述多个频带中，其中，在第一解码模式中，每个第一指示符指示当重构音频对象时要用于所述多个频带的全部频带的下混信号；以及接收各自与频带和由第一指示符指示的用于该频带的下混信号相关联的第一参数。解码器还包括重构级，该重构级被配置用于通过形成所述由第一指示符指示的用于该频带的下混信号的加权和来重构所述多个频带中的音频对象，其中，每个下混信号根据其相关联的第一参数而被加权。

II.概述——编码器

根据第二方面，示例性实施例提出了用于编码的编码方法、编码器和计算机程序产品。所提出的方法、编码器和计算机程序产品一般可以具有相同的特征和优点。一般地，第二方面的特征可以具有与第一方面的对应特征相同的优点。

根据示例性实施例，本文提供一种用于对音频对象进行编码的方法。对象由包括多个频带的时间帧表示。该方法包括以下步骤：确定M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合。在第一编码模式中，该方法包括以下步骤：选择所述M个下混信号的当在音频编码系统中的解码器中重构音频对象时要使用的子集；以及用指示符和多个参数表示所述M个下混信号的所述子集中的每个下混信号，指示符标识所述M个下混信号中的该下混信号，并且一个参数用于所述多个频带中的一个频带，每个参数与频带相关联，其中，所述多个参数中的每个参数表示当针对相关联的频带重构音频对象时下混信号的权重。

根据示例性实施例，在第一编码模式中，所述方法还包括以下步骤：选择K个去相关信号的当在音频编码系统中的解码器中重构音频对象时要使用的子集；以及用指示符和多个参数表示所述K个去相关信号的所述子集中的每个去相关信号，指示符标识所述K个去相关信号中的该去相关信号，一个参数用于所述多个频带中的一个频带，并且每个参数与频带相关联，其中，所述多个参数中的每个参数表示当针对相关联的频带重构音频对象时的去相关信号的权重。

根据示例性实施例，所述方法包括第二编码模式。在该模式中，所述方法还包括以下步骤：对于所述多个频带中的每个频带，选择M个下混信号或K个去相关信号(如果适用的话)中的单个信号；并且用指示符和参数表示所选择的信号，指示符标识M个下混信号和K个去相关信号中的所选择的信号，所述参数表示当对所述频带重构音频对象时所选择的信号的权重。

通过具有多种不同的编码模式，取决于要重构的音频对象的内容，并且取决于用于发送参数和指示符的可用比特率，可以由编码器选择当前最好的编码模式。当使用第一编码模式和第二编码模式之一时，所使用的编码模式可以由被包括在用于发送到解码器的数据流中的解码模式参数指示。

根据示例性实施例，标识下混信号或去相关信号(如果适用的话)的指示符与表示下混信号或去相关信号(如果适用的话)的权重的参数被分开地包括在用于发送到解码器的数据流中。

当编码器在对音频对象进行编码时可以在不同编码模式之间选择时，有利的是将指示符与参数分开地包括在比特流中，因为这可以有助于无论使用什么编码模式都可以对编码音频对象进行解码的通用解码器。

根据示例性实施例，提供一种包括计算机代码指令的计算机可读介质，所述计算机代码指令当在具有处理能力的装置上执行时适于实现第二方面的任何方法。

根据示例性实施例，提供一种用于对包括多个频带的时间帧中的音频对象进行编码的编码器，该编码器包括：下混确定级，其被配置用于确定M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合；编码级，其被配置用于：在第一编码模式中，选择所述M个下混信号的当在音频编码系统中的解码器中重构音频对象时要使用的子集，以及用指示符和多个参数表示M个下混信号的所述子集中的每个下混信号，指示符标识所述M个下混信号中的该下混信号，一个参数用于所述多个频带中的一个频带，并且每个参数与频带相关联，其中，所述多个参数的每个参数表示当针对相关联的频带重构音频对象时下混信号的权重。

III.示例性实施例

现在将描述音频对象(或声道)的重构的详情。

在下文中，假定存在可以是对象或声道的N个原始音频信号x。

x_n(t)，n＝1,…,N

这些是从M个下混信号y重构的，

y_m(t)，m＝1,…,M

其中，时间变量t属于时间片段或时间-频率片(time-frequencytile)。将信号看作行矢量并且将它们聚集在矩阵X和Y中是方便的。大小为N×M的用于下混信号的重构矩阵(或上混矩阵)C_f以及大小为N×K(K是去相关信号的数量)的用于去相关信号的重构矩阵(或上混矩阵)P_f被用来根据以下方程创建输出：

其中，z_k(t),k＝1,...,K是来自去相关过程的输出，并且其中，表示针对某个时间片段的重构音频对象。在矩阵记号中，取单个时间-频率片，我们具有：

矩阵C_f和P_f典型地是针对时间-频率片估计的，并且分别表示当从下混信号和去相关信号重构(一个或多个)音频对象时要使用的解码上混矩阵。在该情况下，下标f可以对应于频率片。下面将指定C_f和P_f的重构。典型的时间更新间隔例如是23.4375Hz(即，48kHz/2048个采样)。频率分辨率可以在跨越全带的7个和12个带之间。典型地，频率划分是不均匀的，并且它根据感知而被优化。期望的时间-频率分辨率可以通过时间-频率变换或者通过滤波器组(例如，通过使用QMF)来获得。

音频编码/解码系统典型地例如通过将合适的滤波器组应用于输入音频信号来将时间-频率空间划分为时间/频率片。时间/频率片一般意指时间-频率空间中与时间间隔和频带对应的部分。时间间隔典型地可以对应于音频编码/解码系统中所使用的时间帧的持续时间。频带是正被编码或解码的音频信号/对象的整个频率范围的一部分。频带典型地可以对应于由编码/解码系统中所使用的滤波器组定义的一个或几个相邻频带。在频带对应于由滤波器组定义的几个相邻频带的情况下，这允许在音频信号的解码过程中具有不均匀的频带，例如，对于音频信号的更高频率，频带更宽。

可以注意到，尽管在一般情况下，尤其是在以低比特率进行操作时，使用去相关信号和上混矩阵P是有益的，但是在一些情况下，可能不需要它们。

本公开通过降低相关联的比特率成本来处理C(和P)中的数据到解码器的发送。比特率成本的降低是通过施加和利用矩阵C和P内的参数数据的稀疏性实现的。参数化数据的稀疏结构的利用是通过高效的比特流语法的设计实现的。特别地，语法设计考虑到矩阵C和P可以是稀疏的，因此有利地，编码器可以采用稀疏编码从而在编码器处使矩阵稀疏化，并且利用关于稀疏化策略的知识来生成紧凑的比特流。

图1示出了用于从比特流102重构音频对象的音频编码系统中的解码器100的概扩框图。解码器100包括接收级104，接收级104继而包括被配置用于接收并解码比特流102的三个子级116、118、120。子级120被配置用于接收并解码M>1个下混信号110。通常，M个下混信号110中的每个下混信号是根据包含要重构的音频对象的多个音频对象确定的。例如，M个下混信号110中的每个下混信号可以是多个音频对象的线性组合。子级118被配置用于接收并解码包括第一指示符的指示符108，第一指示符指示当重构音频对象114时M个下混信号中的哪些要用在所述多个频带中。子级116被配置用于接收并解码各自与频带和由指示符指示的用于该频带的下混信号相关联的第一参数106。在第一解码模式中，每个第一指示符指示当重构音频对象时要用于所述多个频带的全部频带的下混。现在将结合图2来更详细地说明该解码模式。

在图2中，描绘了比特流102的部分。比特流被编码器以如下方式接收：比特流中的最右边的值首先被接收，最左边的值最后被接收，亦如比特流的表示上方描绘的箭头所指示的。比特流102包括部分202，部分202包括四个指示符，这四个指示符指示当重构音频对象时M个下混信号(图2中未示出)(在该情况下，M＝4)中的哪些下混信号要用在所述多个频带中。注意，M＝4可以特定于该时间帧、其他时间帧，M可以更大或更小。指示符202可以以二进制矢量的形式被接收。比特流102还包括各自与频带和由指示符指示的用于该频带的下混信号相关联的参数204。为了易于说明第一解码模式，在图2中，用于音频对象的整个上混矩阵206被重构，上混矩阵206是用于音频对象的重构参数的矩阵(在图2中，仅使用了各自与频带和由第一指示符指示的用于该频带的下混信号相关联的第一参数)，其中，列对应于频带，行对应于下混信号。可以注意到，与第一指示符202中的零相关联的两行仅由零组成，这意味着当重构对象时相关联的下混信号不被使用。在编码器100的一些实施例中，整个上混矩阵206被重构，在其他实施例中，图1中的解码器的重构级112可以仅假定当重构音频对象时任何未被指示的下混信号不被使用，并且根据该实施例，整个上混矩阵不需要被全部重构。

解码器从比特流中确定是否应使用第一解码模式。解码器还确定该特定时间帧包括多少个频带。频带的数量可以在比特流102中指示，或者可以以任何其他合适的方式(例如，可以使用预定义的值)从音频编码系统中的编码器发送到解码器100。利用该知识，对上混矩阵206进行解码。例如，指示符202中的第一个值指示M个下混信号中的第一个下混信号不应被用于该特定时间帧中的该特定音频对象。指示符202中的第二个值指示M个下混信号中的第二个应被使用。第三指示符指示第三下混信号也应被使用，而第四指示符告诉解码器100第四下混信号不应被使用。一旦在解码器处指示符被确定，就可以对参数进行解码。由于解码器知道频带的数量，例如，在该情况下为4个，所以它知道头4个参数均与随后的频带和第二个下混信号相关联。同样地，它知道接下来的4个参数均与随后的频带和第三个下混信号相关联。结果，上混矩阵206被重构。该上混矩阵(也被表示为C)然后被重构级112用于重构音频对象。重构级被配置用于通过形成至少由第一指示符指示的用于该频带的下混信号的加权和来重构多个频带中的音频对象，其中，每个下混信号根据其相关联的第一参数而被加权。换句话说，重构级可以被配置用于针对由第一指示符指示的每个频带，形成至少由第一指示符指示的用于该频带的下混信号的加权和，由此重构音频对象，其中每个下混信号根据其相关联的第一参数而被加权。以上结合方程(1)和(2)描述了重构的详情。

根据一些实施例，解码器100的接收级104可以包括被配置用于形成K>＝1个去相关信号124的子级122。去相关信号可以基于从比特流102接收的M个下混信号110和去相关参数的子集。去相关信号也可以基于接收级可用的任何其他信号(诸如，例如床信号或声道)而形成。根据该实施例，经接收并解码的指示符108还可以包括第二指示符，第二指示符指示当重构音频对象114时K个去相关信号中的哪些要用在所述多个频带中。经接收并解码的参数106还可以包括各自与频带和由第二指示符指示的用于该频带的去相关信号相关联的第二参数。根据第一解码模式，每个第二指示符指示当重构音频对象114时要用于所述多个频带的全部频带的去相关信号124。结合图3来对此进行进一步说明。

图3描述了根据第一解码模式对上混矩阵的解码，其中，去相关信号被用于重构音频对象。除了在图3中比特流102包括被用于创建上混矩阵206的一部分(由P表示)的第二参数304和第二指示符302之外，图3中的用于对上混矩阵进行解码的方法与以上结合图2描述并使用的方法相同。上混矩阵的该部分P然后被重构级112用于重构音频对象。根据该实施例，重构级被配置用于当重构所述多个频带中的音频对象时，把由第二指示符指示的用于特定频带的去相关信号的加权和加到用于该特定频带的下混信号的加权和，其中每个去相关信号124根据其相关联的第二参数而被加权。以上结合方程(1)和(2)描述了重构的详情。

图4描述了根据第二解码模式对上混矩阵206的解码，其中，列对应于频带，下面的四行对应于下混信号，上面的两行对应于去相关信号。在图4中，描绘了比特流102的部分。比特流被编码器以如下方式接收：比特流中的最右边的值首先被接收，最左边的值最后被接收，亦如在比特流102的表示上方描绘的箭头所指示的。在第二解码模式中，用于每个频带的指示符402、403指示当重构音频对象时M个下混信号或K个去相关信号(如果适用的话)中要用在该频带中的单个信号。在图4中，当重构音频对象时没有去相关信号被使用。指示符402、403可以以整数矢量的形式被接收。该整数矢量中的每个元素均可以对应于频带和要用于该频带的单个下混信号或去相关信号的指标。因此参数404、405均各自与频带和由指示符指示的用于该频带的单个下混信号或去相关信号相关联。

在图4中，指示符402、403中的第一个是第一指示符，并且指示：对于(在该例子中，4个频带中的)第一个频带，M(在该例子中，M＝4)个下混信号中的第一个下混信号应被使用。对应的参数指示当从第一下混信号重构重构音频对象的第一频带时权重应为0.1。以相同的方式，第二个指示符指示：对于第二个频带，M个下混信号中的第二个下混信号应被使用。对应的参数指示当从第二下混信号重构重构音频对象的第二个频带时权重应为0.2。相同的策略被用于第三个频带。第四个指示符是第二指示符403，并且指示：对于第四个频带，K(在该例子中，K＝2)个去相关信号中的第一个去相关信号应被使用。对应的参数是第二参数405，并且指示当从第一去相关信号重构重构音频对象的第四个频带时权重应为0.4。

根据一些实施例，比特流102包括指示要使用第一解码模式和第二解码模式中的哪一个的专用解码模式参数。也可以使用其他的解码模式。专用解码模式参数可以例如指示在比特流102中包括整个矩阵C和P，即，矩阵未被稀疏化。在该情况下，指示符数据可以由单个指示符参数来编码(因为在比特流中包括整个矩阵)。解码模式参数可以是有利的，因为它向解码器通知在编码器侧使用了哪种稀疏化策略。另外，通过将解码模式包括在比特流102中，稀疏化策略可以随着不同的时间帧而改变，使得编码器可以始终选择最有利的策略。

根据一些实施例，仅对矩阵中被指示符指示为“活跃的”或“使用的”元素执行用于重构音频对象的矩阵乘法(方程2)。这可以允许降低解码器在与方程(2)的实现相关的信号处理部分中的计算复杂度，因为可以避免与零相乘。换句话说，指示符可以帮助跟踪在任何给定时间频率-时间隙中实际上使用了哪些参数，这允许跳过对于稀疏化的维度(例如，下混信号和去相关信号(如果适用的话))的计算。这可以通过构造指示符矩阵来进行，指示符矩阵例如可以包括1和0，并且可以在执行方程(2)中的矩阵乘法时被用作滤波器。这可以有助于能够越过条目列表来执行与方程(2)相关的基本数学运算的解码器实现。

另外，通过使用以上用于执行方程(2)的策略，可以有助于解码器100的重构级112的通用实现。只要比特流102中的信息允许重构指示符矩阵，重构级就无需知道在编码器处使用了哪种特定的稀疏化策略。这意味着解码方案允许把在解码器处使用的任何稀疏化策略的使用(即，编码复杂度)外包(outsource)到编码器，这典型地是有利的。

从图2-4可以看出，在比特流102中指示符202、302与参数204、304被分开接收。在图2-4中，指示符在参数之前被接收，但是其他方式同样是可以的。换句话说，指示符不与参数交织。这样的优点在于可以使用不依赖用于参数的任何编码方法的编码方法来将指示符编码在比特流中。例如，在第一解码模式中，指示符102可以由本身可以使用熵编码进行编码的比特矢量表示。这在图8中被描绘，其中，头四个指示符用“10”编码，接下来的四个指示符用“00”编码。熵编码可以例如是哈夫曼编码。根据其他实施例，可以使用多维哈夫曼码来对指示符进行编码。在该情况下，可以例如通过生成用于代表性资料的大型数据库的指示符来训练和优化哈夫曼码。也可以通过多维哈夫曼码对指示符进行编码，其中，二进制符号被分组为预定义长度的二进制矢量。然后通过单个哈夫曼码字对每个这种矢量进行编码。为了对指示符进行解码，这可能要求在解码器中针对每个时间帧重构整个指示符矩阵。在一些实施例中，可以根据以上所述将指示符矩阵的条目分组为多维符号。然后可以通过某种块排序压缩(例如，Burrows-Wheeler变换)对符号进行编码。这种编码的优点是不需要训练。也不需要将任何附加信息发送到解码器。

根据实施例，通过时间差分编码和/或频率差分编码对所接收的第一参数和第二参数(如果适用的话)中的至少一些进行编码。在该情况下，可以在比特流中用信号通知编码模式。在下文中，进一步详细说明对参数的这种编码。

通过利用一个或多个维度中的不同参数之间的依赖性，来使用对参数的差分编码，即，频率差分和/或时间差分编码，以便进行更高效的编码。一阶差分编码经常是合理且实用的替代方案。对于参数的除了第一个值之外的所有值，总是可以计算参数的当前值和其前次出现的值之间的差值。类似地，可以总是计算与当前参数相关的量化指标和该指标的前次实现之间的差值。在频率差分编码的情况下，编码方案沿着频率轴(跨频带)进行操作，并且参数的前次出现意指相邻频带中的一个，例如，与低于当前带的频率相关联的带。在时间差分编码的情况下，前一参数与前一“时隙”或帧相关联，例如，它可以对应于与当前参数相同的频带，但是对应于前一“时隙”或帧。差分编码需要被初始化，因为如上所述，对于第一参数，没有之前的值可用。在该情况下，可以对除了第一参数之外的所有参数使用差分编码。可替代地，可以从第一参数减去其均值。当差分编码对量化指标操作时，也可以使用相同的方法，在此情况下，可以减去量化指标的均值。

在一些实施例中，使用频率差分和时间差分编码这两者，并且可以通过这两种方法中的任一种来对每个参数进行编码。典型地通过检查由选择编码方法导致的所得总码字长度(即，将被发送的码字的长度之和，码字例如是哈夫曼码字)并且通过选择最高效的替代方案(即，最短的总码字长度)，由编码器做出对编码方法的决策选择。所谓的I帧是例外，总是强制使用频率差分编码。确保I帧总是可解码的，而与前一帧是否可用无关(类似于视频编码中的“帧内”帧)。典型地，编码器按有规律的间隔实施I帧，例如，每秒一次。

不同于典型的基于声道的参数化编码，每个被重构的对象(当不使用稀疏化时)是从所有可用的源声道(包括下混声道、可能的去相关器输出以及可能的辅助声道)估计的。对于对象内容，这使得参数的发送更昂贵。为了缓解该问题，已经注意到，由于这两种差分方法的效率可以非常任意地改变，所以有益的是只要有可能就在这两种方法之间进行选择，即使这产生恶很多信令比特。对于实用的解码器实现，这意味着对于从中重构出对象的每个源声道(即，下混信号或去相关信号)，每个对象使用一个信号比特。例如，对于全都是从7个源声道中重构的15个对象，这将需要15*7＝105个信令比特。

换句话说，根据一个实施例，提出了比特流语法结构，其中，确定用于对象和下混信号或去相关信号的特定组合的差分编码模式的信令比特的存在是以指示符数据中的各个指示符为条件的，其中，指示符指示特定声道或去相关信号是否被用于重构对象。

当使用稀疏编码时，由于什么被认为是前一参数的概念受到影响的事实，差分编码可能变得更为复杂。存在这样的情况：由于稀疏编码不使用前一帧中的相关维度，所以前一参数不可用。每当稀疏性指示符逐个帧地或者甚至逐个带地(取决于使用哪种稀疏化模式)改变时，这种情况是相关的。此外，频率差分和时间差分之间的编码器选择需要经定义的处理稀疏化维度的策略。在有助于稀疏化编码的系统中，更有益的是使差分编码模式的信令以指示稀疏性的指示符数据为条件。例如，稀疏化的维度无需与差分编码的任何附加信令相关联，这降低了副信息的比特率。

在稀疏编码的背景下，存在许多可能的方法来应用差分编码。以下例子不应被解释为限制，而是作为允许技术人员实施本发明的例子提供的。

根据一个实施例，基于指示符数据的参数的整个矩阵可以总是被重构，并且当利用差分编码时，可以参考值为零的参数(或对应的量化指标)。例如，在时间差分编码的背景下，对于要重构的对象，构造参数矩阵的相关行(或与这些参数对应的量化指标的矩阵)，其中，根据指示符信息来重构丢失的维度。然后确定与前一帧对应的参数的全维矢量，这致使差分编码。例如，在该情况下，用零重构在前一帧中被稀疏化的维度。时间差分编码也可以参考这些维度。

可替代地，根据一些实施例，在用于前一帧的参数被稀疏化的情况下，可以通过取各个参数的均值(均值可以在离线训练的过程中确定，然后在编码器和解码器实现中该值被用作常数值)代替零，来重构它们的值(仅为了编码的目的)。在该情况下，指示符数据从非活跃状态变为活跃状态的变化可以意味着前一帧中的参数应被假定为等于该参数的均值。在使用时间差分编码的一些情况下，可能有益的是通过使用被稀疏化的参数的均值代替零，来使用指示符数据从前一帧中重构这些被稀疏化的参数，以有助于对当前帧进行编码。特别地，在使用模差分编码(modulo-differentialcoding)的情况下，如美国临时申请No.61/827264或要求该申请的优先权的后续申请中所描述的(例如，图9和图10以及方程11-13)，该策略可以是有益的，并且它可能导致节省一些比特率。

可以注意到，根据实施例，解码器可以根据美国临时申请No.61/827264或要求该申请的优先权的后续申请中的描述(例如，图13-14和第29页)来处理对上混矩阵的编码。从此开始，这被称为第三解码模式。根据该实施例，解码器接收表示上混矩阵中的一行的M个元素的子集的至少一个编码元素，每个编码元素包括值和在上混矩阵的该行中的位置，位置指示M个下混信号中与编码元素对应的一个下混信号。解码器在该情况下被配置用于通过形成与所述至少一个编码元素对应的下混声道的线性组合来从下混信号重构音频对象的时间/频率片，其中，在所述线性组合中，每个下混声道与其对应的编码元素的值相乘。这意味着根据实施例的解码器可以处理四种解码模式：解码模式1至解码模式3以及整个上混矩阵被包括在比特流中的模式。整个上混矩阵当然可以以任何合适的方式编码。

图5以举例的方式描述了用于重构包括多个频带的时间帧中的音频对象的方法。在第一步骤S502中，接收M>1个下混信号，其中，每个下混信号是包括所述音频对象的多个音频对象的组合。该方法还包括步骤S504，接收包括第一指示符的指示符，第一指示符指示当重构音频对象时M个下混信号中的些个下混信号要用在所述多个频带中。该方法还包括步骤S508，接收各自与频带和由第一指示符指示的用于该频带的下混信号相关联的第一参数。可选地，该方法包括步骤S503，形成K≥1个去相关信号(这些去相关信号可以基于M个下混信号或如以上说明的任何其他的接收的信号)，其中，指示符还包括在步骤S506中接收的第二指示符，第二指示符指示当重构音频对象时K个去相关信号中的哪些去相关信号要用在所述多个频带中。在该情况下，该方法还包括步骤S510，接收各自与频带和由第二指示符指示的用于该频带的去相关信号相关联的第二参数。图5中描绘的方法中的最后一个步骤S512是重构所述多个频带中的音频对象的步骤。该重构通过形成至少由第一指示符指示的用于该频带的下混信号的加权和来进行，其中，每个下混信号根据其相关联的第一参数而被加权。在执行与去相关信号有关的可选步骤S503、S506、S510的情况下，重构音频对象的步骤S512可以进一步把由第二指示符指示的用于特定频带的去相关信号的加权和加到用于该特定频带的下混信号的加权和，其中，每个去相关信号根据其相关联的第二参数而被加权。

图7示出了用于对音频对象702进行编码的音频编码系统700的概括框图。该音频编码系统包括根据音频对象104创建下混信号706的下混组件704。下混信号706可以例如是与既定的声音解码系统(诸如DolbyDigitalPlus或诸如AAC、USAC或MP3之类的MPEG标准)向后兼容的5.1或7.1环绕信号。在其他实施例中，下混信号不向后兼容。

为了能够从下混信号706中重构音频对象702，在上混参数分析组件710处根据下混信号706和音频对象702确定上混参数。例如，上混参数可以对应于允许从下混信号706重构音频对象702的上混矩阵的元素。上混参数分析组件710针对单个的时间/频率片来处理下混信号706和音频对象702。因此，上混参数是针对每个时间/频率片确定的。例如，可以针对每个时间/频率片来确定上混矩阵。例如，上混参数分析组件710可以在允许进行频率选择性处理的诸如正交镜像滤波器(QMF)域之类的频域中进行操作。由于这个原因，可以通过使下混信号706和音频对象702经受滤波器组708，来将下混信号706和音频对象702变换到频域。这可以例如通过应用QMF变换或任何其他合适的变换来进行。

上混参数714可以以矢量格式组织。矢量可以表示用于在特定时间帧在不同频带根据音频对象702重构特定的音频对象的上混参数。例如，矢量可以对应于上混矩阵中的某个矩阵元素，其中，该矢量包括该某个矩阵元素用于后续频带的值。在其他实施例中，矢量可以表示用于在特定频带在不同时间帧根据音频对象702重构特定的音频对象的上混参数。例如，矢量可以对应于上混矩阵中的某个矩阵元素，其中，该矢量包括该某个矩阵元素用于后续时间帧但是在相同频带的值。

可以注意到，图7中描述的编码器不包括用于当在上混参数分析组件710中确定上混矩阵时包括去相关信号的组件。然而，当确定上混矩阵时，创建和使用去相关信号是本技术领域内公知的特征，并且对于本领域技术人员是显而易见的。另外，应注意，如上所述，编码器也可以发送床声道。

上混参数714然后被上混矩阵编码器712以矢量格式接收。现在将结合图6来描述上混矩阵编码器功能。

图6描述了用于对被包括多个频带的时间帧中的音频对象进行编码的方法，该方法具有第一编码模式和第二编码模式。该方法从确定(S602)M>1个下混信号开始，每个下混信号是包括所述音频对象的多个音频对象的组合。随后，选择(S604)编码模式或稀疏化策略。编码模式确定用于从下混信号重构音频对象的上混矩阵应如何被表示(例如，被稀疏化)并然后被相应地编码。通常，在编码器处存在可用于对上混矩阵进行编码的几种可能的编码模式。然而，已经通过实验确定，就解决对于编码信号的率失真权衡而言，如在下文中解释并在上文中结合解码器解释的第一编码模式(第一编码模式对应于解码器中的第一解码模式)通常是有利的。如果选择了第一解码模式，则该方法还包括选择(S606)M个下混信号的当在音频编码系统中的解码器中重构音频对象时要使用的子集的步骤。该方法还包括用指示符表示(S610)M个下混信号的该子集中的每个下混信号，所述指示符标识M个下混信号当中的该下混信号。图6中描述的方法的第一编码器模式分支的最后一个步骤是用多个参数表示(S614)每个下混信号，所述多个参数中的一个参数用于所述多个频带中的一个频带，并且每个参数均与频带相关联，其中，所述多个参数的每个参数表示当对相关联的频带重构音频对象时去相关信号的权重。

第一编码模式因此可以被定义为宽带稀疏化，其意味着当重构音频对象的时间帧时要使用的每个被指示的下混信号被用于该音频对象的时间帧的全部频带。必须发送的指示符的数量因此可以减少，因为对于每个被指示的下混信号，对于所有频带只发送一个指示符。另外，已经注意到，在许多情况下，特定的下混信号被有利地用于重构音频对象的时间帧的全部频带，导致被重构音频对象的失真减小。

在下面，假定存在可以是对象或声道的N个原始音频信号x。

x_n(t)，n＝1，…，N，

还假定去相关信号可以被用于重构音频对象。

原始信号被认为是行矢量，并且被聚集在矩阵X中。X的重构版本内的第n个对象用表示。的表示的单个时间-频率隙用表示。解码器可以访问整个下混信号Y＝[y₁，...，y_M]^T和去相关信号Z＝[z₁，...，z_K]^T。让我们假定关于由方程(2)给出的模型的下混信号部分的指示符信息由二进制矢量I_c给出，并且I_p是关于去相关部分的指示符信息。与I_c中的非零位置对应的整数集合被定义，并且用S_c表示该集合。类似地，对于I_p，我们定义集合S_p。的重构由以下方程获得：

注意，虽然方程(3)中描述的合成是逐个频带地执行的，但是集合S_c和S_p是以按照如上定义的宽带方式构造的。此外，注意，矩阵C(用于下混信号的上混矩阵)和P(用于去相关信号的上混矩阵)被定义为如结合解码器描述的那样。

在编码器处存在能够利用宽带稀疏编码(即，第一编码模式)的几种实用的方法。它们在本发明的范围之外。尽管如此，为了描述清楚，我们公开了一些实用的例子。例如，在解码器处，可以使用所谓的双行程方法(two-passapproach)来实现宽带稀疏化策略。在第一行程中，编码器将根据在单个的子带中执行分析的方程(2)来估计整个非稀疏参数矩阵。在接下来的步骤中，编码器可以通过联结根据单个子带的观察来分析参数。例如，可以计算参数的绝对值的累积和，得到大小为[对象的数量]×[下混声道的数量]的矩阵。通过阈值化，可以将该矩阵转换为宽带指示符矩阵，其中，小值可以被设为0，大于阈值的值可以被设为1。指示符矩阵可以被编码器的第二行程使用，其中，通过在分析中仅使用Y的被选维度，根据宽带指示符矩阵来更新由方程(2)指定的模型参数。

除了双行程方法之外，还可以使用匹配追踪算法，该算法在为预定特定对象而保持的下混或去相关维度的数量(即，下混信号的数量和去相关信号的数量)上有约束的情况下进行操作。

存在将指示符信息转换为实际比特流的几种方式。由于指示符矩阵已经包含二进制数据，所以可以通过达成约定来简单地将它转换为比特序列。例如，可以通过使用以列为主的次序或以行为主的次序来将二维二进制矩阵布置为一维比特流。一旦解码器知道约定，就能够执行解码。可以使用例如熵编码(例如，哈夫曼代码)来对参数进行编码。对于指示符和参数这两者，如在上文中结合解码器解释的任何类型的多维编码是可能的。

根据实施例，在选择(S604)编码模式的步骤中，可以选择第二解码模式。在该情况下，所述方法还包括选择(S608)M个下混信号(或K个去相关信号)中的单个信号的步骤。用指示符表示(S612)被选信号，指示符标识M个下混信号(和K个去相关信号)当中的该被选信号。进一步用参数表示(S616)该被选信号，所述参数表示用于当对频带重构音频对象时该被选信号的权重。第二编码模式可以例如通过匹配追踪算法来实现，其中匹配追踪算法在为预测特定对象而保持的下混或去相关维度的数量上有约束的情况下进行操作，在第二编码模式的情况下，该数量为一个。

在第二编码模式中，逐个带地施加稀疏性。在该情况下，仅使用单个下混信号或去相关信号来预测对象的各个带。因此，指示符数据每个带包括单个指标，该指标指示被用来重构音频对象的频带的下混信号或去相关信号。指示符数据可以被编码为整数或二进制标志。参数可以使用例如熵编码(例如，哈夫曼代码)来编码。该第二编码模式导致比特率的显著降低，因为例如对于每个对象的每个带，只需要发送单个参数。

根据实施例，标识下混信号或去相关信号(如果适用的话)的指示符与表示一个去相关信号或多个去相关信号(如果适用的话)的权重的参数被分开地包括在用于发送到解码器的数据流中。其优点可以在于：可以针对指示符和参数使用不同的编码。

根据实施例，所使用的编码模式由被包括在用于发送到解码器的数据流中的解码模式参数指示。

等同、扩展、替代和其他

对于本领域技术人员来说，在研究以上描述之后，本公开的其他实施例将变得清楚。即使目前的描述和附图公开了实施例和例子，本公开也不限于这些特定例子。在不脱离由所附权利要求限定的本公开的范围的情况下，可以进行许多修改和改变。在权利要求中出现的任何引用符号都不被理解为限制它们的范围。

另外，技术人员在实施本公开时可以通过研究附图、公开内容和所附权利要求来理解和实现所公开的实施例的变型。在权利要求中，词语“包括”不排除其他元件或步骤，并且不定冠词“一个”不排除多个。仅有某些措施在相互不同的从属权利要求中被记载的事实并不表明，这些措施的组合不能被用于获利。

在上文中公开的系统和方法可以被实现为软件、固件、硬件或它们的组合。在硬件实现中，在以上描述中提及的功能单元之间的任务划分不一定对应于划分成物理单元；相反，一个物理组件可以具有多个功能，并且一个任务可以由几个物理组件合作实行。某些组件或全部组件可以被实现为由数字信号处理器或微处理器执行的软件，或者被实现为硬件或专用集成电路。这种软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员所公知的，术语“计算机存储介质”包括用存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学盘存储器、磁盒、磁带、磁盘存储器或其他磁盘存储装置、或者可以被用于存储期望的信息并且可以被计算机访问的任何其他介质。此外，技术人员公知的是，通信介质典型地包含计算机可读指令、数据结构、程序模块、或调制数据信号(诸如载波或其他运载机制)中的其他数据，并且包括任何信息递送介质。

Claims

1.一种用于重构包括多个频带的时间帧中的音频对象的方法，包括：

接收M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合；

接收包括第一指示符的指示符，所述第一指示符指示当重构所述音频对象时所述M个下混信号中的哪些下混信号要用在所述多个频带中，

其中，在第一解码模式中，每个第一指示符指示当重构所述音频对象时要用于所述多个频带的全部频带的下混信号；

接收各自与频带和由第一指示符指示的用于该频带的下混信号相关联的第一参数；

通过形成至少所述由第一指示符指示的用于该频带的下混信号的加权和来重构所述多个频带中的所述音频对象，其中，每个下混信号根据其相关联的第一参数而被加权。

2.根据权利要求1所述的方法，还包括：

形成K≥1个去相关信号，其中，所述指示符还包括第二指示符，所述第二指示符指示当重构所述音频对象时所述K个去相关信号中的哪些去相关信号要用在所述多个频带中，

其中，在所述第一解码模式中，每个第二指示符指示当重构所述音频对象时要用于所述多个频带的全部频带的去相关信号；

接收各自与频带和由第二指示符指示的用于该频带的去相关信号相关联的第二参数，

其中，重构所述多个频带中的所述音频对象的步骤还包括：将由第二指示符指示的用于特定频带的去相关信号的加权和加到用于该特定频带的下混信号的加权和，其中，每个去相关信号根据其相关联的第二参数而被加权。

3.根据权利要求1或2所述的方法，其中，所述指示符以二进制矢量的形式被接收，所述二进制矢量的每个元素均对应于适用的K个去相关信号或M个下混信号中的一个信号。

4.根据权利要求3所述的方法，其中，通过熵编码对所接收的二进制矢量进行编码。

5.根前述权利要求中的任一项所述的方法，其中，在第二解码模式中，用于每个频带的指示符指示当重构所述音频对象时适用的K个去相关信号或M个下混信号中要用在所述频带中的单个信号。

6.根据权利要求5所述的方法，其中，所述指示符以整数矢量的形式被接收，其中，所述整数矢量中的每个元素均对应于频带和要用于该频带的单个下混信号的指标。

7.根据权利要求6所述的方法，其中，通过熵编码对所接收的整数矢量进行编码。

8.根据权利要求5-7中的任一项所述的方法，还包括：

接收解码模式参数，所述解码模式参数指示要使用所述第一解码模式和第二解码模式中的哪个。

9.根据前述权利要求中的任一项所述的方法，其中，所述指示符与所述参数分开接收。

10.根据前述权利要求中的任一项所述的方法，其中，通过时间差分编码和/或频率差分编码对所接收的适用的第二参数和第一参数中的至少一些进行编码。

11.根据前述权利要求中的任一项所述的方法，其中，通过熵编码对适用的第二参数和第一参数进行编码。

12.一种计算机程序产品，包括具有用于执行权利要求1-11中的任一项所述的方法的指令的计算机可读介质。

13.一种用于重构包括多个频带的时间帧中的音频对象的解码器，包括：

接收级，被配置用于：

接收包括第一指示符的指示符，所述第一指示符指示当重构所述音频对象时所述M个下混信号中的哪些下混信号要用在所述多个频带中，其中，在第一解码模式中，每个第一指示符指示当重构所述音频对象时要用于所述多个频带的全部频带的下混信号；和

重构级，被配置用于：通过形成所述由第一指示符指示的用于该频带的下混信号的加权和来重构所述多个频带中的所述音频对象，其中，每个下混信号根据其相关联的第一参数而被加权。

14.一种用于对包括多个频带的时间帧中的音频对象进行编码的方法，包括：

确定M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合；

在第一编码模式中，

选择所述M个下混信号的当在音频编码系统中的解码器中重构所述音频对象时要使用的子集；和

由指示符和多个参数表示所述M个下混信号的所述子集中的每个下混信号，该指示符标识所述M个下混信号当中的该下混信号，所述多个参数中的一个参数用于所述多个频带中的一个频带，并且每个参数与频带相关联，其中，所述多个参数的每个参数表示当针对相关联的频带重构所述音频对象时下混信号的权重。

15.根据权利要求14所述的方法，还包括：

形成K≥1个去相关信号，

在所述第一编码模式中，

选择所述K个去相关信号的当在音频编码系统中的解码器中重构所述音频对象时要使用的子集；

用指示符和多个参数表示所述K个去相关信号的所述子集中的每个去相关信号，该指示符标识所述K个去相关信号当中的该去相关信号，所述多个参数中的一个参数用于所述多个频带中的一个频带，并且每个参数与频带相关联，其中，所述多个参数的每个参数表示当针对相关联的频带重构所述音频对象时去相关信号的权重。

16.根据权利要求14-15中的任一项所述的方法，其中，在第二编码模式中，

对于所述多个频带中的每个频带，

选择适用的K个去相关信号或M个下混信号中的单个信号，并且用指示符和参数表示被选择的信号，该指示符标识适用的K个去相关信号或M个下混信号当中的所述被选择的信号，所述参数表示当针对所述频带重构所述音频对象时所述被选择的信号的权重。

17.根据权利要求16所述的方法，其中，使用所述第一编码模式和第二编码模式中的一个，并且其中，所使用的编码模式由被包括在用于发送到所述解码器的数据流中的解码模式参数来指示。

18.根据权利要求15-17中的任一项所述的方法，其中，标识适用的去相关信号或下混信号的指示符与表示所述适用的去相关信号或下混信号的权重的参数被分开地包括在发送到所述解码器的数据流中。

19.一种计算机程序产品，包括具有用于执行权利要求14-18中的任一项所述的方法的指令的计算机可读介质。

20.一种用于对包括多个频带的时间帧中的音频对象进行编码的编码器，包括：

下混确定级，被配置用于确定M>1个下混信号，每个下混信号是包括所述音频对象的多个音频对象的组合；

编码级，被配置用于：在第一编码模式中，