CN103890841A

CN103890841A - 音频对象编码和解码

Info

Publication number: CN103890841A
Application number: CN201280053631.9A
Authority: CN
Inventors: J.G.H.科彭斯; A.W.J.奧门; L.M.范德科霍夫
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-11-01
Filing date: 2012-10-29
Publication date: 2014-06-25
Anticipated expiration: 2032-10-29
Also published as: JP2014532901A; BR112014010062B1; EP2751803A1; IN2014CN03413A; RU2618383C2; US9966080B2; BR112014010062A8; EP2751803B1; JP6096789B2; BR112014010062A2; RU2014122111A; US20140297296A1; WO2013064957A1; CN103890841B

Abstract

一种音频对象编码器包括接收N个音频对象的接收器(701)。下混合器(703)将所述N个音频对象下混合到M个音频通道，并且通道电路(707)从所述M个音频通道得到K个音频通道，K=1,2并且K<M。参数电路(709)相对于所述K个音频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数，并且输出电路(705,711)生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。音频对象解码器接收所述数据流并且包括：通道电路(805)，其从M通道下混合得到K个音频通道；以及对象解码器(807)，其用于通过基于所述音频对象上混合参数对所述K个音频通道进行上混合来生成所述N个音频对象中的每一个的至少一部分。本发明可以允许改进的对象编码同时维持向后兼容性。

Description

音频对象编码和解码

技术领域

本发明涉及音频对象编码和解码，并且特别地，但不排他地，涉及与MPEG SAOC (空间音频对象编码)标准兼容的音频对象编码和/或解码。

背景技术

多通道音频对于包括家庭影院和多通道音乐系统的许多不同应用是普遍的并且已变得流行。音频编码常常被用来生成提供音频信号的高效数据表示的数据流。这样的音频编码允许音频信号的高效存储和分布。许多不同的音频编码标准已被开发以用于传统单声道和立体声音频信号二者的编码和解码，以及用于多通道音频信号的编码和解码。术语多通道此后被用来指两个以上的通道。专用音频标准的使用允许许多不同的系统、设备及应用之间的互工作和兼容性，并且因此遵守高效标准是关键的。然而，当新的标准被开发或者现有标准被修改时会出现一个重要问题。具体地，对标准的修改不仅可能实施起来费时且棘手而且还可能导致现有装备不适合于新的标准或实际上不适合于现有标准。为了促进新的标准或标准修改的引入，期望要求对现有标准做尽可能少的修改。在一些情况下甚至可能做出与现有标准完全兼容的修改，即能够在对现有标准规范没有任何改变的情况下应用修改。这个的示例是比特流水印。在比特流水印中特定比特流元素以兼容的方式被修改使得仍然能够根据标准规范解码比特流。尽管输出已改变，但是质量中的差异一般不可听。

MPEG环绕是多通道音频编码中的主要进展之一并且最近由运动图像专家组在ISO/IEC 23003-1中标准化。MPEG环绕是允许现有基于单声道或立体声的服务被扩展到多通道应用的多通道音频编码工具。图1示出了扩展有MPEG环绕的立体声核心编码器的框图。首先MPEG环绕编码器从多通道输入信号创建立体声下混合。接下来，从多通道输入信号估计空间参数。这些参数被编码到MPEG环绕比特流中。立体声下混合使用核心编码器(例如HE-AAC)而被编码成比特流。结果得到的核心编码器比特流和空间比特流被合并以创建总体比特流。典型地，空间比特流被包含在核心编码器比特流的辅助数据或用户数据部分中。在解码器侧核心比特流和空间比特流被分离。立体声核心比特流被解码以便重现立体声下混合。该下混合连同空间比特流一起被输入到MPEG环绕解码器。空间比特流被解码来提供空间参数。空间参数然后被用来对立体声下混合进行上混合以便获得多通道输出信号。

因为多通道输入信号的空间图像被参数化，所以MPEG环绕允许将相同的多通道比特流解码到除多通道扬声器装置以外的再现设备上。示例是耳机上的虚拟环绕重现，其被称为MPEG环绕双耳式解码过程。在这种模式下，能够使用常见的耳机提供逼真的环绕体验。图2示出了扩展有其中输出被解码为双耳式的MPEG环绕的立体声核心编解码器的框图。编码器过程与图1的编码器过程相同。在该系统中，空间参数与头部相关传递函数(HRTF)组合并且结果被用来产生所谓的双耳输出。

建立在MPEG环绕的构思之上，MPEG已标准化了用于各个音频对象的编码的系统。这个标准被称为“空间音频对象编码”(MPEG-D SAOC) ISO/IEC 23003-2。从高层角度看，SAOC高效地对声音对象而不是音频通道进行编码，其中每个声音对象可以典型地可以对应于声像中的单个声源。在MPEG环绕中，每个扬声器通道都能够被认为源自声音对象的不同混合，而在SAOC中数据是针对各个声音对象来提供的。类似于MPEG环绕，在SAOC中同样创建了单声道或立体声下混合。特别地，SAOC还生成使用诸如HE-AAC之类的标准下混合编码器编码的单声道或立体声下混合。以这种方式，传统回放设备将忽视参数数据并且播放单声道或立体声下混合，而SAOC解码器能够对信号进行上混合以便找回原始声音对象或者以便允许它们以期望的输出配置而被再现。对象和下混合参数被嵌入在下混合编码比特流的辅助数据部分中以便为各个SAOC对象提供相对电平和增益信息，典型地将这些的下混合反映到立体声/单声道下混合中。在解码器侧，用户能够通过操纵这些参数来控制各个对象的各种特征(诸如空间位置、放大以及均衡)，或者用户能够对各个对象应用诸如混响之类的效果。

图3示出了针对常见SAOC编码的框图。SAOC编码器能够被认为是位于常规单声道或立体声编码器之前的预处理模块。预处理包括从数目N的对象信号生成立体声(或单声道)下混合。此外，对象参数被提取并且连同关于下混合矩阵M的信息一起存储在SAOC比特流中。在两种类型的参数中编码SAOC下混合信息。第一种DMG(下混合增益)参数指示应用于对象的增益。DCLD(下混合通道电平差)参数用信号发送对象在立体声下混合中的两个通道之上的分布。对每个对象都定义了这两个参数。

SAOC解码器可以执行相反操作。所接收到的单声道或立体声下混合可以被解码并且上混合到期望的输出配置。上混合操作包括对单声道或立体声下混合进行上混合以生成音频对象以及其后的这些音频对象基于如图4中所图示的再现矩阵而映射到所期望的输出配置的组合操作，其中单声道或立体声输入下混合基于SAOC参数被首先上混合为N个音频对象。结果得到的N个音频对象然后使用定义各个对象所被定位在的地方的再现矩阵而被下混合到P个输出通道。图4图示了概念性的SAOC解码。然而，典型地上混合矩阵和再现矩阵被组合成单个矩阵并且输出通道从单声道或立体声下混合的生成作为单个操作被执行。其示例在图5中被示出，图5示出了其中P等于一或二的特定示例，并且其中特别地对于P=2输出可以是双耳空间输出通道。因此，使用被应用于各个对象的HRTF参数生成两个输出通道以生成所期望的双耳空间图像。图9图示了其中 P>2并且MPEG环绕(MPS)解码/处理被用来生成P个输出通道的示例。

然而，与SAOC相关联的问题是该规范仅支持单声道和立体声下混合，然而存在许多应用和用例，其中多通道混合被使用或甚至有时是必需的，例如DVD和蓝光。因此将期望SAOC支持这样的多通道应用，即多通道下混合，但这将需要对SAOC标准规范的大量修正，这将是棘手的、不切实际的，增加复杂性并且导致降低的向后兼容性。

特别地，如果能够再使用针对SAOC编码和解码所开发的现有算法、功能单元、专用硬件等并且同时允许对多通道音频的改进的支持，则这将是有利的。

从而，用于对象编码和/或解码(诸如，例如SAOC编码/解码)的改进的方式将是有利的，并且特别地允许增加的灵活性、对标准化方式降低的影响、增加的或易化的向后兼容性，允许编码和/或解码功能性的增加的再使用、易化的实现、对象编码中的多通道支持和/或改进的性能的方式将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合优选地缓和、减轻或者消除上面提到的缺点中的一个或多个。

根据本发明的一个方面提供了音频对象编码器，其包括：接收器，其用于接收N个音频对象；混合器，其用于将N个音频对象混合到M个音频通道；通道电路，其用于从M个音频通道得到K个音频通道，其中K=1或2并且K<M；参数电路，其相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数；输出电路，其用于生成包括音频对象上混合参数和M个音频通道的输出数据流。

本发明可以允许能够为多通道再现系统提供改进的性能同时支持音频对象编码的音频编码。所述系统可以在一些场景中允许改进的多通道再现并且可以在一些场景中允许改进的音频对象功能性。低数据速率能够通过将M个音频通道与涉及K个音频通道的音频对象上混合参数组合使得不必将用于K个音频通道的编码数据包括在输出数据流中来实现。

本发明可以在基于仅单声道和立体声信号提供音频对象编码(和/或解码)的音频对象编码系统中允许多通道支持(具有两个以上的通道)。编码可以生成其中多通道信号连同关联的音频对象数据一起被提供的输出数据流，然而所述音频对象数据不是相对于多通道信号而是相对于能够得自多通道信号的单声道或立体声信号来定义的。

本发明可以在许多应用中允许带有现有音频对象编码和/或解码功能性的改进的再使用和/或向后兼容性。

音频对象可以是与音频环境中的单个声源相对应的音频信号分量。具体地，音频对象可以包括来自音频环境中的仅一个位置的音频。音频对象可以具有关联的位置但不与任何特定再现声源配置相关联，并且可以具体地不与任何特定扬声器配置相关联。

输出数据流可以不包括K个音频通道的任何编码数据。在一些实施例中，N个音频对象中的一个、多个或全部中的全部都是从K个音频通道生成的。

可以在每段中执行K个通道的得到，并且特定得到可以动态地例如在段之间改变。在许多实施例和/或场景中M可以小于N。

依照本发明的可选特征，通道电路被设置成通过对M个音频通道进行下混合来得到K个通道。

这可以在许多场景和应用中提供特别有利的系统。特别是，它可以允许功能性的再使用并且可以允许高效音频对象编码和解码。具体地，该方式可以允许所生成的下混合在K个音频通道中为同样在M个音频通道中表示的所有音频对象提供适合的分量。

在一些实施例中，下混合可以是使得M个音频通道中的每一个都被表示在K个通道中的至少一个中，并且在一些实施例中被表示在K个通道中的全部中。

依照本发明的可选特征，通道电路被设置成通过选择M个音频通道的K通道子集来得到K个通道。

这可以在许多场景和应用中提供特别有利的系统。特别是，它可以允许功能性的再使用并且可以允许高效音频对象编码和解码。在许多实施例中它可以降低复杂性和/或增加灵活性。可以动态地变化K个通道的选择，从而允许不同的K个通道在不同的时间段中被选择。

依照本发明的可选特征，输出数据流包括用于M个音频通道的多通道编码的数据流，并且音频对象上混合参数被包括在该多通道编码的数据流的一部分中。

这可以在许多实施例中提供特别有利的输出数据流。特别地，它可以允许直接地支持多通道音频和基于单声道和/或立体声信号的音频对象编码的组合数据流从而允许向后兼容性。因此可以提供包含多通道信号和音频对象上混合参数的多通道编码的数据流，所述音频对象上混合参数不是相对于编码的多通道信号来提供的然而其仍然允许基于编码的多通道信号的对象解码。

依照本发明的可选特征，输出电路被设置成将表示N个音频对象到M个音频通道的混合的混合数据包括在输出数据流中。

这可以在许多实施例中允许改进的性能，并且可以特别地在许多实施例中允许改进的音频对象解码和功能性在解码器处被提供。例如可以在时间频域中定义混合数据。

依照本发明的一个方面，存在音频对象解码器，其包括：接收器，其用于接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于N个音频对象的音频对象混合参数的数据流，其中K=1或2并且K<M；通道电路，其从M通道混合得到K个音频通道；以及对象解码器，其用于从至少部分地通过基于音频对象上混合参数对K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。

本发明可以允许音频对象解码，并且可以特别地允许基于直接地支持多通道再现系统的信号的高效音频对象解码。音频对象解码器可以在不用为K个音频通道接收任何音频编码数据的情况下生成P个音频信号。

本发明可以在许多应用中允许带有现有音频编码和/或解码功能性的改进的再使用和/或向后兼容性。

对象解码器可以被设置成通过将K个通道上混合到N个音频对象以及然后将N个音频对象映射到P个音频通道来生成P个音频信号。映射可以由再现矩阵来表示。K个通道到N个音频对象的上混合以及N个音频对象到P个输出通道的映射可以作为单个集成操作被执行。具体地，K到N上混合矩阵可以与N到P矩阵组合以生成被直接地应用于K个通道来生成P个输出信号的K到P矩阵。因此，对象解码器可以被设置成基于用于N个音频对象的音频对象上混合参数和用于P个输出通道的再现矩阵来生成P个输出通道。在一些实施例中，可以显式地生成N个音频对象，并且特别P个音频信号中的每一个都可以对应于N个音频对象的单个音频对象。在一些场景中N可以等于P。

这可以在许多场景和应用中提供特别有利的系统。特别是，它可以允许高效音频对象编码和解码。具体地，该方式可以允许所生成的下混合在K个音频通道中为同样在M个音频通道中表示的所有音频对象提供适合的分量。在一些实施例中，对象解码器可以被设置成通过基于音频对象上混合参数对K个音频通道进行上混合来生成N个音频对象的每一个。

依照本发明的可选特征，数据流进一步包括指示从M到K个通道的编码器下混合的下混合数据，并且其中通道电路被设置成响应于该下混合数据来适配下混合。

这可以在许多实施例中允许增加的灵活性和/或改进的性能。例如，它可以允许下混合对特定信号特性的适配，并且可以例如允许下混合适配于N个音频对象以提供所有N个音频对象的适合的信号分量来允许在对象在解码器中的生成。

在一些实施例中，可以在编码器和解码器中使用从M个通道到K个通道的固定或预定下混合。这可以降低复杂性并且可以具体地消除将指示下混合的数据包括在数据流中的需要，从而潜在地允许降低的数据速率。

这可以在许多实施例中允许改进的和/或易化的音频对象编码。它可以在许多实施例中允许降低的复杂性。

依照本发明的可选特征，数据流进一步包括相对于L个音频信道的用于N个音频对象的附加的音频对象上混合参数，其中L=1或2并且L<M，并且L个音频通道和K个音频通道是M个音频通道的不同子集，并且其中对象解码器被进一步设置成从至少部分地通过基于附加的音频对象上混合参数对L个音频通道进行上混合所生成N个音频对象来生成P个通道。

这可以在许多实施例中允许改进的音频对象解码。特别地它可以允许在K个以上(以及特别地所有M)的音频通道中的每个音频对象的信号分量在生成音频对象时被使用。

子集可以是不相交的。在一些实施例中，进一步上混合可以是基于具有关联的音频对象上混合参数的音频通道的一个或多个附加子集的。在一些实施例中，子集的组合可以包括所有M个音频通道。

依照本发明的可选特征，P个通道中的至少一个通过组合来自K个音频通道基于音频对象上混合参数的上混合与L个音频通道基于附加的音频对象上混合参数的上混合两者的贡献来生成。

这可以在许多实施例中允许改进的音频对象解码。特别地它可以允许在K个以上 (以及特别地所有M)的音频通道中的每个音频对象的信号分量在生成音频对象时被使用。

依照本发明的可选特征，数据流包括表示N个音频对象到M个音频通道的混合的混合数据，并且其中对象解码器被设置成响应于混合数据和音频对象上混合参数而为N个音频对象的至少一个子集生成残差数据（residual data），以及响应于该残差数据生成P个音频信号。

这可以在许多实施例中提供解码的音频对象中的一个、一些或全部的改进质量。在许多实施例中它可以允许与能够接收残差数据的标准化音频对象解码算法(诸如例如SAOC标准)的兼容性。残差数据具体地可以指示从K个通道和音频对象上混合参数所生成的音频对象与在M个音频通道和下混合数据的基础上所生成的对应音频对象之间的差异。

依照本发明的一个方面，提供了音频对象编码的方法，其包括：接收N个音频对象；将N个音频对象混合到M个音频通道；从M个音频通道得到K个音频通道，其中K=1或2并且K<M；相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数；以及生成包括音频对象上混合参数和M个音频通道的输出数据流。

依照本发明的可选特征，提供了音频对象解码的方法，其包括：接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于N个音频对象的音频对象上混合参数的数据流，其中K=1或2并且K<M；从M通道混合得到K个音频通道；以及从至少部分地通过基于音频对象上混合参数对K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。

本发明的这些和其他方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是显而易见的，并且参考在下文中所描述的(一个或多个)实施例而被阐明。

附图说明

将参考附图仅通过示例来描述本发明的实施例，在附图中

图1是依照现有技术的MPEG环绕系统的图示；

图2是依照现有技术的MPEG 双耳环绕系统的图示；

图3是依照现有技术的MPEG SAOC编码器的图示；

图4-6图示了依照现有技术的MPEG SAOC 解码器的示例；

图7图示了依照本发明的一些实施例的音频对象编码器的元件的示例；

图8图示了依照本发明的一些实施例的音频对象解码器的元件的示例；

图9图示了依照本发明的一些实施例的音频对象编码器的元件的示例；

图10图示了依照本发明的一些实施例的编码器输出数据流的示例；

图11图示了依照本发明的一些实施例的音频对象解码器的元件的示例；以及

图12图示了依照本发明的一些实施例的音频对象解码器的元件的示例。

具体实施方式

以下描述集中于对象编码器和解码器系统，其中N个音频对象被下混合到M个音频通道，即其中M<N。然而，将了解的是，可以使用其他混合并且M可以在一些实施例和场景中等于或大于N。

图7图示了依照本发明的一些实施例的音频对象编码器的元件。

该编码器包括接收N个音频对象的接收器701。每个音频对象典型地对应于单个声源。因此，和音频通道以及特别是常规空间多通道信号的音频通道对比，该音频对象不包括来自可以具有基本上不同的位置的多个声源的分量。类似地，每个音频对象提供声源的完整表示而且。每个音频对象因此与仅单个声源的空间位置数据相关联。具体地，每个音频对象可以被认为是声源的单个且完全的表示，并且可以与单个空间位置相关联。

此外，音频对象不与任何特定再现配置相关联并且具体地不与声换能器的任何特定空间配置相关联。因此，和典型地与诸如特别是环绕声装置之类的特定空间扬声器装置相关联的传统空间通道对比，音频对象不是关于任何特定空间再现配置来定义的。

N个音频对象被馈送到将N个音频对象下混合到M个音频通道的N到M下混合器703。在该示例中，M<N但将了解的是，在一些场景中N可以等于或甚至小于M。在图7的特定示例中，M等于5但将了解的是，在其他实施例中可以使用其他数目的通道，包括例如M=7或M=9。

因此，N到M下混合器703生成其中音频对象遍布通道的M通道多通道信号。和N个音频对象对比，M个音频通道是典型地包括来自多个音频对象以及因此来自具有不同位置的多个声源的数据的传统音频通道。此外，各个音频对象一般地遍布M个音频通道并且常常M个音频通道中的每一个都包括来自给定音频对象的分量，虽然在一些场景中一些音频对象可以仅被表示在M个音频通道的子集中。

N到M下混合器703生成可以直接地被再现为多通道信号的多通道信号(此后被用来标注由M个音频通道所提供的信号)。具体地，由M个音频通道所形成的多通道信号可以是空间环绕信号，并且在特定示例中M个音频通道可以分别是五通道系统(并且因此M=5)的左前、右前、中央、左环绕以及右环绕通道。因此，由M个音频通道所形成的多通道信号与特定再现配置相关联，并且具体地每个音频通道是与再现位置相关联的音频通道。

N到M下混合器703能够执行下混合使得各个音频对象按照需要定位在由M个音频通道所提供的环绕图像中。例如，一个音频对象能够被直接地定位到前边，另一对象能够被定位在标称聆听位置的左边等。N到M下混合具体地可以被手动地控制，使得当多通道信号被直接地再现时结果得到的M个音频通道的环绕声信号提供所期望的空间分布。N到M下混合具体地可以是基于由人手动地生成来从M个音频通道提供所期望的环绕信号的N到M下混合矩阵。

M个音频通道被馈送到M通道编码器705，所述M通道编码器705进而依照任何适合的编码算法对M个音频通道进行编码。M通道编码器705典型地采用常规多通道编码方案来提供对应环绕信号的高效表示。

将了解的是，在所有实施例中M个音频通道的编码典型地是优选的但不是必要的。例如，N到M下混合器703可以直接地生成能够被直接地使用的信号的频域或时域表示。例如，使用未编码的PCM数据将M个音频通道发送到对象解码器是可能的。然而，高效编码可以大幅降低数据速率并且因此典型地被使用。

编码的多通道信号可以具体地对应于常规多通道信号并且接收多通道信号的常规音频设备因此能够直接地再现多通道信号。

图7的编码器此外包括用于提供允许原始N个音频对象在适当地装配的对象解码设备处再生的音频对象上混合参数的功能性。然而，音频对象上混合参数不是相对于M个音频通道来提供的而是替代地相对于K个音频通道提供的，其中K是一或二。因此，编码器相对于单声道或立体声信号生成音频对象上混合参数。这允许与仅允许基于来自原始音频对象的单声道或立体声下混合信号的对象编码和解码的标准的兼容性。这可以在许多场景中允许用于单声道或立体声信号的标准音频对象编码器或解码器功能性在多通道支持的情况下被再使用。例如，该方式可以被用来允许与SAOC的改进的兼容性。

编码器包括M到K通道缩减器707，所述M到K通道缩减器707从N到M下混合器703接收M个音频通道并且然后进而从M个音频通道得到K个音频通道，其中K为1或2。

M到K通道缩减器707被耦合到同样从接收器接收原始N个音频对象的参数电路709。M到K通道缩减器707被设置成相对于K个音频通道为N个音频对象中的每一个的至少一部分生成音频对象上混合参数。因此，生成了音频对象上混合参数，其描述如何能够由从M到K通道缩减器707所接收的单声道或立体声信号生成N个音频对象(的一部分或全部)。

M通道编码器705和参数电路709被耦合到输出电路711，所述输出电路711生成包括从参数电路709所接收的音频对象上混合参数和从M通道编码器705所接收的编码的M个音频通道的输出数据流。然而，输出数据流不包括K个音频通道的任何数据(无论编码与否)。因此，生成了包括即使无胜任的音频对象解码或处理也能够被传统多通道设备直接再现的编码的多通道信号的输出数据流。此外，提供了能够允许原始N个音频对象在解码器侧被再生的音频对象上混合参数。然而，音频对象上混合参数不是相对于在数据流中包括的信号而是替代地相对于未被包括在输出数据流中的立体声或单声道信号来提供的。这允许操作与限于单声道和立体声信号的音频对象编码和解码方式兼容。例如，可以再使用现有的SAOC编码或解码单元同时允许多通道支持。

此外，尽管K个音频通道未被包括在输出数据流中，但是能够通过解码器从多通道信号得到它们。因此，适当地装配的解码器可以得到K个音频通道并且然后基于音频对象上混合参数来生成N个音频对象。这具体地能够基于基础立体声或单声道信号使用现有上混合功能性来实现。因此该方式可以允许单个输出数据流提供能够被多通道设备直接再现的多通道信号，以及与未包括在输出数据流中的单声道或立体声信号相关的仍然允许原始音频对象被生成的音频对象数据。

输出数据流可以具体地包括用于M个音频通道的多通道编码的数据流，其中该多通道编码的数据流同样包括音频对象上混合参数。因此，可以提供多通道编码的数据流，其包括多通道信号它本身外加用于生成在多通道信号中包括的各个音频对象的数据，但其中这个数据不涉及多通道信号它本身而是涉及未被包括在多通道编码的数据流中的单声道或立体声信号。音频对象上混合参数可以具体地被包括在多通道编码的数据流的辅助的、备用的或可选的数据字段中。

图8图示了依照本发明的一些实施例的解码器的示例。

解码器包括用于从图7的编码器接收输出数据流的接收器801。因此，接收器接收包括用于N个音频对象的M通道下混合的音频数据以及相对于K个音频通道的用于N个音频对象的音频对象上混合参数的数据流，其中K=1或2并且K<M。在该示例中用于M通道下混合的音频数据是编码的音频数据。

用于M通道下混合的编码的音频数据被馈送到从编码的音频数据生成M个音频通道的多通道解码器803。M个音频通道被馈送到从M个音频通道得到K个音频通道的M到K通道处理器805。M到K通道处理器805具体地执行与图7的编码器的M到K通道缩减器707相同的操作。结果得到的K个音频通道被馈送到通过基于音频对象上混合参数对K个音频通道进行上混合来生成N个音频对象的对象解码器807。对象解码器807具体地执行图7的参数电路709的相反操作。

将了解的是在图8的示例中，对象解码器807再生N个音频对象，所述N个音频对象能够然后被单独地处理和/或映射到特定扬声器配置。因此，在该示例中，生成了P个输出信号，其中P=N并且每个输出信号对应于N个音频对象中的一个。

在一些实施例中，例如通过应用其中矩阵系数反映K个音频通道到N个音频对象的映射的组合矩阵乘法和N个音频对象到扬声器配置的通道的映射的矩阵乘法的单个矩阵乘法，到给定扬声器配置的映射可以与对象解码器807的上混合组合。

具体地，可以生成P个音频信号，其中P个音频信号中的每一个都可以对应于给定P-通道再现配置的空间输出通道。这可以通过对象解码器807应用将N个音频对象映射到P个音频信号的再现矩阵来实现。典型地，从K个音频通道生成N个音频对象的对象上混合矩阵与将N个音频对象映射到P个音频信号的再现矩阵组合。因此，单个组合的对象上混合与再现矩阵被应用于K个音频通道来生成P个音频信号。经组合的对象上混合与再现矩阵能够具体地通过使对象上混合矩阵和再现矩阵相乘来生成。

在一些实施例中，M到K通道处理器805和M到K通道缩减器707可以被设置成通过对M个音频通道进行下混合来生成K个通道。特别地，可以生成下混合来使得所有音频对象在该下混合中具有有效信号分量从而允许基于K个通道的上混合对于所有N个音频对象都是高效的。

这种方式的示例在图9中被图示。在特定示例中，对象编码与SAOC标准兼容，并且因此SAOC编码器被特别地使用。在该特定示例中M=5并且K=2。

此外，应当注意的是在图9的示例中，K个音频通道的生成通过将从N个音频对象生成M个音频通道的操作和从M个音频通道生成K个音频通道的操作组合成单个操作来执行。

具体地，M个音频通道可以通过对N个音频对象应用编码器再现矩阵 M_Nto5以提供M个音频通道来生成(可以像将为本领域的技术人员所获知的那样针对每个频率时间拼贴块执行矩阵乘法)。类似地，K个音频通道可以通过对M个音频通道应用再现矩阵M_5to2以提供K个音频通道来生成(可以像将为本领域的技术人员所获知的那样针对每个频率时间拼贴块执行矩阵乘法)。这两个矩阵操作的顺序操作可以由执行组合操作的单个矩阵操作代替。具体地，单个矩阵乘以单个矩阵

Figure 2012800536319100002DEST_PATH_IMAGE002

可以被直接地应用于N个音频对象，因为这与对由N到M下混合器703通过矩阵M_Nto5的应用所生成的M (在该特定示例中是5)个音频通道应用M_5to2相同。因此，在解码器中，K个通道通过使M (即在该特定示例中是5)个音频通道和下混合矩阵M_5to2相乘来简单地被生成。

将了解的是，可以使用用于选择或者确定再现矩阵M_Nto5的任何适合的方式或方法。典型地，矩阵被(半)手动地生成来提供所期望的声像。

类似地，将了解的是，可以使用用于选择或者确定下混合矩阵M_5to2的任何适合的方式或方法。在一些实施例中可以使用固定或预定下混合矩阵M_5to2。这个预定矩阵在因此能够将其应用于M个音频通道以生成音频对象生成所需要的立体声信号的解码器处可以是已知的。

在其他实施例中，下混合矩阵M_5to2可以是取决于特定特性而在编码器中被适配或者优化的可变矩阵。例如，可以这样确定下混合矩阵M_5to2来使得确保了所有音频对象都以所希望的方式表示在结果得到的立体声信号中。在这样的实施例中，关于在编码器处所使用的下混合矩阵M_5to2的信息可以被包括在输出数据流中。解码器可以然后提取下混合矩阵M_5to2并且将这应用于解码的M个音频通道，从而生成SAOC参数所能够被应用于的K个音频通道。

当对立体声下混合允许自适应多通道时，能够通过采用以多通道比特流的语法的辅助数据结构来传输数据，例如类似于SAOC数据的传输。这在图10中被图示，图10示出了两个不同的两个选项：

- 下混合参数在SAOC容器之前(或之后)的分离的容器中被传输；以及

- 下混合参数作为SAOCExtensionConfig()字段中的新的条目在SAOC容器内部被传输。

在一些实施例中，K个通道从M个音频通道的得到通过选择M个音频通道的子集来执行。

例如，可以响应于仅两个音频通道来执行SAOC编码，所述仅两个音频通道诸如是由M个音频通道所形成的五通道环绕信号的左前和右前通道。

然而，在许多场景中这样的方式可能由于所选子集通道潜在地不包括来自给定音频对象的任何信号分量而导致次优地解码的对象(和其中M个音频通道能够被下混合到K个音频通道使得来自所有M个音频通道以及因此来自所有N个音频对象的贡献都被包括在经下混合的K通道中的下混合的通道对比)。

这样的问题可能可以通过解码器使用其他并行方式生成N个音频对象中的一些的一部分或全部来解决。例如，使用定义发送效果的SAOC发送效果接口功能性来引入作为发送效果所生成的贡献。可以定义发送效果使得它能够将贡献提供给不能够从所选K个音频通道生成有足够质量的音频对象。

在一些实施例中，可以从M个音频通道的多个子集生成来自音频对象的贡献，其中每个子集提供有适合的音频对象上混合参数。在一些实施例中，可以从M个音频通道的单个子集生成每个音频对象，其中不同的音频对象是取决于对象如何被下混合到M音频通道而从不同的子集生成的。然而，典型地N个对象将被分布在M个音频通道的K个以上通道之上并且因此音频对象可以通过组合来自M个音频通道的不同子集的上混合的贡献来生成。

编码器因此可以具有被馈送N个音频对象的不同子集的并行参数估计器。可替换地，所有N个对象都被馈送到并行参数估计器中的每一个。再现矩阵M_Nto5被分割并且在每个参数估计器中用作下混合矩阵，使得参数估计器的信号输出构成M通道混合。例如，一个参数估计器可以产生M个音频通道的K个音频通道并且另一参数估计器可以产生M个音频通道的L个音频通道。例如一个参数估计器生成左前通道和右前通道并且另一估计器生成中央通道。参数估计器附加地为相应通道生成音频对象上混合参数。用于每个单独的参数估计器的音频对象上混合参数作为音频对象上混合参数的分离的子集被包括在输出数据流中，例如具体地作为分离的SAOC参数数据流。

因此，编码器可以生成多个并行SAOC兼容数据流，其中的每一个都与M个音频通道的立体声或单声道子集相关联。所对应的解码器可以然后使用标准SAOC解码器装置单独地对这些SAOC兼容数据流中的每一个进行解码。结果得到的解码的音频对象分量然后被组合成完整的音频对象(或者直接地组合成与所期望的输出扬声器配置相对应的输出通道)。该方式因此可以允许在生成单独的音频对象时能够利用M个音频通道中的所有信号分量。具体地，可以选择子集使得它们合起来包含M个音频通道中的全部，其中每个音频通道仅被包括在单个子集中。因此，子集可以是不相交的并且包括所有M个音频通道。

作为特定示例，能够包括/与M个音频通道下混合一起传输多个SAOC流，使得每个流对多通道下混合的单声道或立体声子集进行操作。在对象可能存在于特定流中或在多个流中的情况下，在解码器侧用来将音频对象分布到所期望的输出(扬声器)配置的再现矩阵能够被适配成将各个贡献组合到各个音频对象。该方式能够提供特别高的重建质量。

与图9的实施例相比，N到5矩阵在这样的特定示例中不与5到2下混合矩阵组合以提供五音频通道的K通道下混合。相反地，N到5矩阵被剖析并且发送到三个并行SAOC编码器，该三个并行SAOC编码器中的比特流全部被复用到一个比特流中。

例如

Figure 2012800536319100002DEST_PATH_IMAGE004

能够被划分成

Figure 2012800536319100002DEST_PATH_IMAGE006

以便提供典型地将适用于{L_f, R_f, C, L_s, R_s}的典型的五通道排序的三个并行SAOC流，其中L标注左，R标注右，C标注中央，下标f表示前，以及下标s表示环绕。

图11示出了用于这样的方式的解码器的示例。

在一些实施例中，编码器可以进一步被设置成将表示N个音频对象到M个音频通道的下混合的下混合数据包括到输出数据流中。例如，描述N个音频对象到M个音频通道的下混合的编码器再现矩阵可以被包括在输出数据流中(即，在图9的特定示例中，可以包括矩阵M_Nto5)。

可以在不同的实施例中以不同的方式使用附加的信息。

具体地，在一些实施例中下混合数据可以被用来基于M个音频通道生成音频对象的子集。因为在M个音频通道中比在K个音频通道中存在更多可用的信息，所以这可以允许改进质量的音频对象被生成。然而，处理可能与对应的音频对象编码/解码标准不兼容并且因此可能需要附加的功能性。此外，计算要求将典型地高于针对基于K个信号的标准(以及典型地大力优化的)对象解码的计算要求。因此，基于M个音频通道和下混合数据的音频解码可以限于仅音频对象的子集，并且典型地仅限于很少数主要的的音频对象。剩余的音频对象可以使用基于K个通道的标准化解码器来生成。例如通过使用专用的和标准化的硬件，这种解码常常可能是实质上更高效的。

另外，诸如SAOC之类的一些编码标准能够从编码器接收残差数据，其中编码的数据反映原始音频对象与将由解码器基于下混合和音频对象上混合参数来生成的音频对象之间的差异。具体地，SAOC支持允许残差数据被提供用于多达四个音频对象的被称为增强音频对象(EAO)的特征。

在一些实施例中表示N个音频对象到M个音频通道的下混合的下混合数据能够被用来在解码器处生成残差数据。具体地，解码器能够基于下混合数据、M个音频通道以及音频对象上混合参数计算特定音频对象。此外，能够基于K个音频通道和音频对象上混合参数对相同的对象进行解码。残差数据能够作为这些之间的差异的指示被生成。然后能够在N个音频对象的解码中使用这个残差数据。这种解码可以使用针对基于K个通道并且允许残差数据从编码器提供的对象解码标准的标准化方式。

以这样的方式由下混合数据和M个音频通道所提供的附加的信息因此被用来在解码器处而不是在编码器处生成残差数据信息。因此，不需要传送残差数据。将了解的是，从下混合数据和M个音频通道所生成的对象可以不与编码之前的对应音频对象相同，但是附加的信息将典型地仍然提供对从K个音频通道所生成的对应音频对象的改进。

作为特定示例，标准SAOC解码器可以提供有生成残差数据的预处理器，所述残差数据被馈送到SAOC解码器，就好像它是在编码器处所生成的残差数据。因此，SAOC解码器可以完全地依照有关EAO的SAOC标准来操作。在图12中图示了这样的解码器的示例。

预处理器可以具体地使用M_Nto5矩阵来计算音频对象。例如，可以使用从下混合通道X₁重建对象k的以下方程从5通道下混合生成音频对象：

Figure 2012800536319100002DEST_PATH_IMAGE008

其中OLD是OLD (对象级差)参数在SAOC比特流中的线性表示。这个方程可以使用对应的SAOC参数而被应用于X₁的每个时间-频率拼贴块。

上述重建假定无相关的对象。通过包括SAOC IOC参数，考虑对象间相关性是可能的，例如通过使用方程：

Figure 2012800536319100002DEST_PATH_IMAGE010

这种重建用对象k在下混合通道1中的增益(M_Nto5,1k)加权。

组合来自所有5个通道的类似重建给出了根据对象k的增益被加权的对象重建，即其中对象k具有最大增益的通道为对象k的组合重建

Figure 2012800536319100002DEST_PATH_IMAGE012

提供了最大的贡献：

Figure 2012800536319100002DEST_PATH_IMAGE014

其中

Figure 2012800536319100002DEST_PATH_IMAGE016

将重建归一化到正确水平。

作为另一个示例，可替换的加权重建能够针对对象在下混合通道中的“孤立性”。

定义：

然后该可替换的重建

Figure 2012800536319100002DEST_PATH_IMAGE020

用其对对应下混合通道的相对贡献对对象k的每个归一化的子重建

Figure 2012800536319100002DEST_PATH_IMAGE022

进行加权。

将了解的是，能够在其他实施例中使用用于从M个音频通道和N到M下混合生成音频对象的其他方式。

在其中增强音频对象(EAO)被编码的SAOC编码器中，对应的残差信号基于单声道或立体声SAOC下混合被计算为原始对象信号与重建之间的差异。这些增强对象(X_eao)因此与正常对象(X_reg)被分别地处理。

正常对象根据K × N 下混合矩阵(D)的子矩阵(D_reg)被下混合，其中当

Figure 2012800536319100002DEST_PATH_IMAGE024

时

Figure 2012800536319100002DEST_PATH_IMAGE026

。结果是K-通道下混合：

Figure 2012800536319100002DEST_PATH_IMAGE028

EAO同样使用对应子矩阵D_eao而被下混合，并且结果得到的下混合与正常对象(Y_reg)的下混合一起组合成SAOC下混合。

Figure 2012800536319100002DEST_PATH_IMAGE030

这个下混合被预期在SAOC解码器的输入处。

将下混合Y_reg和EAO用作输入信号，中间备用信号使用N_eao × (K + N_eao)矩阵D_aux来计算，其中N_eao = N- N_reg EAO的数目。

Figure 2012800536319100002DEST_PATH_IMAGE032

能够在单个矩阵方程中组合下混合Y和备用信号Y_aux的生成：

Figure 2012800536319100002DEST_PATH_IMAGE034

其中

。

矩阵D_aux被选取使得矩阵D_ext是可逆的并且来自下混合的EAO分离被优化。D_aux的元素在SAOC标准中被定义并且因此可用在解码器中。在SAOC解码器中，使用D_ext的逆，能够将下混合(Y)和备用信号(Y_aux)用作输入使EAO (X_eao)从正常对象(Y_reg)分离。

为了改善编码效率，备用信号是从下混合信号用得自在解码器中已经可用的数据的预测系数来预测的。

Figure 2012800536319100002DEST_PATH_IMAGE038

预测误差

Figure 2012800536319100002DEST_PATH_IMAGE040

能够使用SAOC标准的残余编码机制来高效地编码。

能够将M-通道对象重建

用作EAO (= X_eao)以如上面所描述的相同方式来生成这个实施例的残差。因为各个对象已经被混合，所以能够省略这些步骤。因此给出

Figure 2012800536319100002DEST_PATH_IMAGE044

其中

并且

。

在四个EAO的情况下：

Figure 2012800536319100002DEST_PATH_IMAGE050

。

残差然后被计算为

其中

Figure 2012800536319100002DEST_PATH_IMAGE054

。

结果得到的残差

Figure 2012800536319100002DEST_PATH_IMAGE056

能够然后被插入SAOC比特流中，在所述SAOC比特流中计算残差所针对的对象被标识为EAO。标准SAOC解码器能够然后继续执行标准SAOC EAO解码以生成N个音频通道。

这可以在许多实施例中提供解码的音频对象的改进的质量。在许多实施例中它可以允许与能够接收残差数据的标准化音频对象解码算法(诸如例如SAOC标准)的兼容性。残差数据可以具体地指示从K个通道和音频对象上混合参数所生成的音频对象与在M个音频通道和下混合数据的基础上所生成的对应音频对象之间的差异。

将了解的是，为清楚起见，上述描述已经参考不同的功能电路、单元以及处理器描述了本发明的实施例。然而，将显而易见的是，在不偏离本发明的情况下，可以使用功能性在不同的功能电路、单元或处理器之间的任何适合的分布。例如，被图示成由分离的处理器或控制器执行的功能性可以由相同的处理器或控制来执行。从而，对特定功能单元或电路的提及仅将被视为对用于提供所描述的功能性的适当工具的提及，而不是指示严格的逻辑或物理结构或组织。

能够以包括硬件、软件、固件或这些的任何组合的任何适合的形式来实现本发明。本发明可选地可以被至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件或组件可以以任何适合的方式被物理上、功能上以及逻辑上实现。实际上功能性可以被实现在单个单元中、在多个单元中或作为其它功能单元的一部分。同样地，本发明可以被实现在单个单元中，或者可以物理上和功能上被分布在不同的单元、电路以及处理器之间。

尽管已经结合一些实施例描述了本发明，但是其不旨在被限于在本文中所阐述的特定形式。相反，本发明的范围仅由所附权利要求来限制。另外，尽管特征可能显现为结合特定实施例被描述，但是本领域的技术人员将认识到，可以依照本发明来组合所描述的实施例的各种特征。在权利要求中，术语包括不排除其它元件或步骤的存在。

此外，尽管被单独地列举，但是多个工具、元件、电路或方法步骤可以例如由单个电路、单元或处理器来实现。另外，尽管各个特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或不是有利的。同样地，将特征包括在权利要求的一个类别中并不暗示限制到这个类别，而是指示特征视情况同样地可适用于其它权利要求类别。此外，特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序，并且特别地，方法权利要求中的各个步骤的次序不暗示步骤必须以此次序被执行。相反，步骤可以以任何适合的次序被执行。此外，单数提及不排除多个。因此对“一”、“一个”、“第一”、“第二”等的提及不排除多个。权利要求中的附图标记仅作为澄清的示例被提供，而不应该被解释为以任何方式限制权利要求的范围。

Claims

1. 一种音频对象编码器，其包括：

接收器(701)，其用于接收N个音频对象；

混合器(703)，其用于将所述N个音频对象混合到M个音频通道；

通道电路(707)，其用于从所述M个音频通道得到K个音频通道，其中K=1或2并且K<M；

参数电路(709)，其用于相对于所述K个音频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数；

输出电路(705, 711)，其用于生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。

2. 权利要求1的音频对象编码器，其中所述通道电路(707)被设置成通过对所述M个音频通道进行下混合来得到K个通道。

3. 权利要求1的音频对象编码器，其中所述通道电路(707)被设置成通过选择所述M个音频通道的K通道子集来得到所述K个通道。

4. 权利要求1的音频对象编码器，其中所述输出数据流包括用于所述M个音频通道的多通道编码的数据流，并且所述音频对象上混合参数被包括在所述多通道编码的数据流的一部分中。

5. 权利要求1的音频对象编码器，其中所述输出电路(705, 711)被设置成将表示所述N个音频对象到所述M个音频通道的混合的混合数据包括在所述输出数据流中。

6. 一种音频对象解码器，其包括：

接收器(801, 803)，其用于接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于所述N个音频对象的音频对象混合参数的数据流，其中K=1或2并且K<M；

通道电路(805)，其从所述M通道混合得到K个音频通道；以及

对象解码器(807)，其用于从至少部分地通过基于音频对象上混合参数对所述K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。

7. 权利要求6的音频对象解码器，其中所述通道电路(805)被设置成通过对所述M个音频通道进行下混合来得到K个通道。

8. 权利要求7的音频对象解码器，其中所述数据流进一步包括指示从M到K个通道的编码器下混合的下混合数据，并且其中所述通道电路(805)被设置成响应于所述下混合数据来适配所述下混合。

9. 权利要求7的音频对象解码器，其中所述通道电路(805)被设置成通过选择所述M个音频通道的K通道子集来得到所述K个通道。

10. 权利要求9的音频对象解码器，其中所述数据流进一步包括相对于L个音频通道的用于所述N个音频对象的附加的音频对象上混合参数，其中L=1或2并且L<M，并且所述L个音频通道和所述K个音频通道是所述M个音频通道的不同子集，并且其中所述对象解码器(807)被进一步设置成从至少部分地通过基于所述附加的音频对象上混合参数对所述L个音频通道进行上混合所生成的N个音频对象生成P个通道。

11. 权利要求10的音频对象解码器，其中所述P个通道中的至少一个通过组合来自所述K个音频通道基于所述音频对象上混合参数的上混合与所述L个音频通道基于所述附加的音频对象上混合参数的上混合两者的贡献来生成。

12. 权利要求6的音频对象解码器，其中所述数据流包括表示所述N个音频对象到所述M个音频通道的混合的混合数据，并且其中所述对象解码器(807)被设置成响应于所述混合数据和所述音频对象上混合参数为所述N个音频对象的至少一个子集生成残差数据，并且被设置成响应于所述残差数据生成所述P个音频信号。

13. 一种音频对象编码的方法，其包括：

接收N个音频对象；

将所述N个音频对象混合到M个音频通道；

从所述M个音频通道得到K个音频通道，其中K=1或2并且K<M；

相对于所述K个音频通道为所述N个音频对象中的每一个的至少一部分生成音频对象上混合参数；以及

生成包括所述音频对象上混合参数和所述M个音频通道的输出数据流。

14. 一种音频对象解码的方法，其包括：

接收包括用于N个音频对象的M通道混合的音频数据和相对于K个音频通道的用于所述N个音频对象的音频对象上混合参数的数据流，其中K=1或2并且K<M；

从所述M通道混合得到K个音频通道；以及

从至少部分地通过基于所述音频对象上混合参数对所述K个音频通道进行上混合所生成的N个音频对象生成P个音频信号。

15. 一种包括计算机程序代码工具的计算机程序产品，所述计算机程序代码工具被适配成当所述程序在计算机上运行时执行权利要求13或14的所有步骤。