CN105612577A

CN105612577A - 针对音频声道及音频对象的音频编码及解码的概念

Info

Publication number: CN105612577A
Application number: CN201480041459.4A
Authority: CN
Inventors: 亚历山大·阿达米; 克里斯蒂安·鲍斯; 萨沙·迪克; 克里斯蒂安·厄特尔; 西蒙·菲格; 于尔根·赫勒; 约翰内斯·希勒佩特; 安德烈·赫尔策; 迈克尔·卡拉舒曼; 法比安·卡驰; 阿西姆·孔茨; 艾德里安·穆尔塔扎; 简·普洛格施蒂斯; 安德烈·希尔兹勒; 汉内·斯滕泽尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2016-05-25
Anticipated expiration: 2034-07-16
Also published as: EP4033485A1; MX359159B; US20160133267A1; EP3025329A1; PL3025329T3; RU2641481C2; ES2913849T3; KR20180019755A; PT3025329T; KR20160033769A; MX2016000910A; KR101979578B1; US20190180764A1; EP3025329B1; US20220101867A1; AR097003A1; TWI566235B; BR112016001143B1; CA2918148A1; TW201528252A

Abstract

一种音频编码器，用于编码音频输入数据(101)以取得音频输出数据(501)，其包含：输入接口(100)，用于接收多个音频声道、多个音频对象以及关于多个音频对象中的一个或多个音频对象的元数据；混合器(200)，用于混合多个对象以及多个声道以获得多个预混合声道，每一预混合声道包含声道的音频数据以及至少一个对象的音频数据；核心编码器(300)，用于核心编码核心编码器输入数据；以及元数据压缩器(400)，用于压缩关于多个音频对象中的一个或多个音频对象的元数据，其中音频编码器用于在一组两种模式的至少一个种模式下操作，该两种模式包含第一模式以及第二模式，在第一模式下该核心编码器用于编码多个音频声道和多个音频对象，多个音频声道和多个音频对象由输入接口所接收以作为核心编码器输入数据，在第二模式下核心编码器(300)用于接收由混合器(200)所产生的多个预混合声道，以作为核心编码器输入数据。

Description

针对音频声道及音频对象的音频编码及解码的概念

技术领域

本发明涉及音频编码/解码，特别是涉及空间音频编码以及空间音频对象编码。

背景技术

空间音频编码工具是此技术领域中所熟知的，例如，在环绕MPEG标准中已有标准化规范。空间音频编码从原始输入声道开始，例如在再现设定中依照其位置而识别的五个或七个声道，即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器通常从原始声道得到至少一个降混声道，以及另外得到关于空间线索的参数数据，例如声道相干数值的声道间水平差异、声道间相位差异、声道间时间差异等等。至少一个降混声道与指示空间线索的参数化辅助信息(parametricsideinformation，或称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器，空间音频解码器解码降混声道以及相关联的参数数据，最后取得为原始输入声道的近似版本的输出声道。声道在输出设定的放置通常为固定，例如，5.1声道格式或7.1声道格式等等。

此外，空间音频对象编码工具是此技术领域中所熟知的且在MPEGSAOC(SAOC＝spatialaudioobjectcoding空间音频对象编码)标准中已成标准。相比于空间音频编码从原始声道开始，空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代替地，音频对象在再现场景中的位置可变化，且可由使用者通过将特定的渲染信息输入至空间音频对象编码解码器来确定。可选地或另外，渲染信息，即在再现装备中特定音频对象待放置的位置信息，以额外的辅助信息或元数据来传送。为了获得特定的数据压缩，由SAOC编码器来编码多个音频对象，SAOC编码器根据特定的降混合信息来降混合对象以从输入对象计算至少一个传输声道。此外，SAOC编码器计算参数化辅助信息，其代表对象间线索，例如对象水平差异(OLD)、对象相干数值等等。当在空间音频编码(SAC)中，对象间参数数据针对单独时间平铺/频率平铺来计算，即，针对音频信号的特定帧(例如，1024或2048个取样值)，考虑多个频带(例如24、32或64个频带等等)使得对于每一帧以及每一频带皆存在参数数据。作为举例，当音频片具有20个帧且当每一帧细分成32个频带，则时间/频率平铺的数量为640。

到目前为止并不存在弹性化的技术以一方面结合声道编码以及在另一方面结合对象编码，使得在低比特率可以获得可接受的音频质量。

发明内容

本发明的目的在于提供对于音频编码及音频解码的改善概念。

此目的可以通过如权利要求1所述的音频编码器、权利要求8所述的音频解码器、权利要求22所述的音频编码的方法、权利要求23所述的音频解码的方法或权利要求24所述的计算机程序来达到。

本发明是基于以下发现，在最佳系统上的特性为一方面可灵活运行且另一方面可提供在良好音频质量上的良好压缩效率，可以由结合空间音频编码与空间音频对象编码实现，其中空间音频编码即为基于声道的音频编码，空间音频对象编码即为基于对象的编码。特别是，提供混合器用于混合在编码器端上混合对象及声道，以提供良好的灵活度，尤其是针对低比特率的应用，因为任何对象传输之后可以为非必要或所需传输的对象数目可以被减少。另一方面来说，灵活度可使得音频编码器可控制在两种不同模式下，例如，其中在一种模式下，此对象在被核心编码前即与声道进行混合，而当在另一模式下，其中一方面的对象数据以及另一方面的声道数据直接进行核心编码而不将其进行混合。

此将确保用户能够在编码器端上分开所处理的对象以及声道，使得在解码器端上可以获得完整的灵活度，但是这必须付出加强比特率的代价。另一方面，当比特率需求变成较严格时，本发明允许在此编码器端上执行混合/预渲染，例如，混合一些或全部的音频对象与声道，使得核心编码器只能编码声道数据，以及不需要传送音频对象数据所需要的任何位，其中此音频对象数据可为降混合形式或参数化数据间对象的形式。

在解码器端，因为相同的音频解码器允许在两种不同模式下操作，用户再次具有高度灵活度，举例来说，在第一模式中，单独或分开的声道及对象编码发生且解码器具有完整的灵活度以渲染对象及混合声道数据。另一方面，当在编码器端上已发生混合/预渲染时，解码器用于执行不含任何中间对象处理的后置处理。另一方面，此后置处理也能应用在其他模式中的数据，例如，发生在解码器端上的对象渲染/混合。因此，本发明允许处理任务框架，来允许大量资源在编码器端及在解码器端上的重复使用。此后置处理可以参考降混合以及立体化或其他处理，以获得最终声道场景，例如欲再现布局。

此外，在非常低比特率需求的情形下，本发明为使用者提供足够的灵活度来反应此低比特率需求，例如，通过在编码器端上的预渲染，而付出一些灵活度的代价，然而在解码器端上可以获得非常良好的音频信号，由于不再从编码器提供任何对象数据至解码器，因此可以被节省而且能够妥善的用于编码声道数据，例如当有足够的位可使用时，通过良好量化此声道数据或通过其他方式以改善音频质量或用于减少编码损失。

在本发明的优选实施方式中，此编码器额外包含SAOC编码器，不仅允许编码对象输入至编码器，也允许编码SAOC编码声道数据，以在较低需求比特率下取得良好的音频质量。此外，本发明的其他实施方式中也允许后置处理功能，其包含立体渲染器和/或格式转换器。此外，优选的是，针对在较大数目的扬声器，如在22或32声道的扬声器装备，在解码器端上的全部处理已全部发生。然而，举例来说，此格式转换器确定只在5.1声道输出，如针对再现布局的输出，且此再现布局的声道数目少于声道的最大数目，然后优选的是，此格式转换器控制USAC解码器或SAOC解码器或者是以上两者，来限制核心解码操作以及SAOC解码操作。到最后，使得任何降混合至格式转换的声道不会在解码时被产生。一般来说，升混合声道的产生需要解相关处理，且每一解相关处理产生一些水平加工品。因此，通过控制核心解码器和/或SAOC解码器由最后所需的输出格式，大量附加的解相关处理被储存来与情况相比，此情况为当不存在交互而导致音频改善以及导致减少解码器的复杂度，到最后，降低的功率消耗对于容纳本发明编码器或解码器的移动装置特别有用。然而，本发明的编码器/解码器不仅能在移动装置中采用，如移动电话、智能手机、笔记本电脑或卫星导航装置，也能直接地被使用在台式计算机或其他非移动家电中。

上述的实施方式，例如，为了不产生一些声道，因为一些信息可能会遗失，故可能不是优化的(例如在声道间的水平差将会被降混合)。如果此降混合应用不同的降混合增益到升混合声道中，此水平差信息可能不是重要的，但是其可能导致不同的降混合输出信号。一种改善的解决方式仅在升混合中关闭解相关，但是仍然会产生具有正确水平差的所有升混合声道(以作为信号的参数SAC)。第二解决方式会导致较好音频质量，但是第一解决方式会导致较大复杂度的降低。

附图说明

随后参考附图讨论优选实施例，其中：

图1显示编码器的第一实施例；

图2显示解码器的第一实施例；

图3显示编码器的第二实施例；

图4显示解码器的第二实施例；

图5显示编码器的第三实施例；

图6显示解码器的第三实施例；

图7显示示意图，指示根据本发明实施例的编码器/解码器操作于单独模式中；

图8显示格式转换器的特定实现方式；

图9显示立体转换器的特定实现方式；

图10显示核心解码器的特定实现方式；和

图11显示针对处理四声道单元(QCE)的编码器以及相应QCE解码器的特定实现方式。

具体实施方式

图1示出了根据本发明的实施例的编码器。编码器用于编码音频输入数据101以获得音频输出数据501。此编码器包含输入接口以接收由CH所指示的多个音频声道，以及接收由OBJ所指示的多个音频对象。此外，如图1所显示，输入接口100另外接收关于多个音频对象OBJ中的一个或多个音频对象的元数据。另外，此编码器包含混合器200，用于混合多个对象以及多个声道以获得多个预混合声道，其中每一预混合声道包含声道的音频数据以及至少一个对象的音频数据。

此外，此编码器包含核心编码器300，用于核心编码核心编码器输入数据，以及元数据压缩器400，用于压缩关于多个音频对象中的一个或多个音频对象的元数据。此外，此编码器包含模式控制器600，用于在多个操作模式的一个模式下控制混合器、核心编码器和/或输出接口500，其中在第一模式下，核心编码器用于编码多个音频声道及多个音频对象，此多个音频声道及多个音频对象由输入接口100所接收且没有与混合器有任何的交互作用，例如，未经由混合器200进行的任何混合。然而，在第二模式下，其中此混合器200是激发的，核心编码器编码多个混合声道，例如，经由区块200产生的输出。在之后的情况下，优选的情况是不再编码任何对象数据。取代的是，指示音频对象的位置的元数据已被混合器200使用，以渲染此对象至元数据所指示的声道上。换句话说，混合器200使用关于多个音频对象的元数据以预渲染此音频对象，然后混合此预渲染音频对象及声道以取得在混合器的输出上的混合声道。在此实施方式中，任何对象可以为非必需地被传送，且这也适用于压缩的元数据，如通过区块400输出的。然而，如果不是所有被输入到接口100的对象进行混合，而是只有特定量的对象被混合，则只有剩下未混合的对象以及相关的元数据会分别被传送到核心编码器300或元数据压缩器400。

图3显示编码器的更进一步的实施例，此编码器额外包含SAOC编码器800。此SAOC编码器800用于从空间音频对象编码器输入数据产生至少一个传输声道以及参数化数据。如图3所示，此空间音频对象编码器输入数据为不被预渲染器/混合器处理的对象。可选地，当在第一模式中且其中单独声道/对象编码为激发的，假设此预渲染器/混合器被绕过(bypass)，则所有输入到输入接口100的对象将会被SAOC编码器800进行编码。

此外，如图3所显示，优选地，核心编码器300可以USAC编码器来实现，例如，如在MPEG-USAC(USAC＝UnifiedSpeechandAudioCoding)标准中定义及标准化的编码器。如在图3所显示的全部编码器的输出为MPEG4数据流，此数据流针对单独的数据类型而具有类容器结构。此外，如在图1中，元数据被指示为"OAM"数据以及图1中的元数据压缩器400对应于OAM编码器400，以取得输入至USAC编码器300中的压缩OAM数据，如图3所示，额外包含了输出接口以获得MP4输出数据流，此MP4输出数据流不仅具有编码声道/对象数据，也具有压缩OAM数据。

图5显示编码器的另一实施例，其中相对于图3，在此模式中，此SAOC编码器可使用SAOC编码算法，来对未被激发预渲染器/混合器200所提供的声道进行编码，也可以SAOC编码此预渲染声道及对象。因此，在图5，此SAOC编码器800可以在三种不同类型输入数据上操作，例如，没有任何预渲染对象的声道，声道及预渲染对象，或单独的对象。此外，例如，在图5中另外提供了OAM解码器420，使得SAOC编码器800使用相同数据用于其处理，例如作为在解码器端通过有损害的压缩，而不是原始的OAM数据所获得的数据。

图5的编码器可以操作在多种单独的模式下。

除了如图1上下文中所讨论的第一及第二模式，图5的编码器能够在第三模式下操作，当预渲染器/混合器200是不被激发的时，核心编码器从单独的对象产生至少一个传输声道。可选地或另外，在第三模式下，SAOC编码器800能从原始声道产生至少一个替换物或者是附加的传输声道，例如，再一次地，当与图1的混合器200对应的预渲染器/混合器200是不被激发的。

最后，当编码器在第四模式下配置时，此SAOC编码器800能够编码由预渲染器/混合器产生的声道以及预渲染对象。因此，在第四模式下，由于声道及对象完整地被传送到单独的SAOC传输声道及相关的辅助信息，如图3和图5所指示的"SAOC-SI"，最低比特率应用将提供良好的质量，另外，任何压缩的元数据在第四模式下将不会被传送。

图2显示根据本发明的实施例的解码器。此解码器接收编码音频数据以作为输入，例如图1中的数据501。

解码器包含元数据解压缩器1400、核心解码器1300、对象处理器1200、模式控制器1600以及后置处理器1700。

特别是，音频解码器用于解码编码音频数据，输入接口用于接收编码音频数据，编码音频数据包含多个编码声道、多个编码对象和在特定模式下关于多个对象的压缩元数据。

此外，核心解码器1300用于解码多个编码声道以及多个编码对象，以及此元数据解压缩器用于解压缩此压缩元数据。

此外，对象处理器1200使用解压缩元数据以处理由核心解码器1300所产生的多个解码对象，以获得预定数目的输出声道，此输出声道包含对象数据以及解码声道。如指示在1205上的这些输出声道然后被输入到后置处理器1700中。此后置处理器1700用于多个转换输出声道1205到特定的输出格式，此输出格式能够是立体输出格式或者是扬声器输出格式，例如5.1声道、7.1声道等等的输出格式。

优选地，解码器包含模式控制器1600，用于分析编码数据以检测模式指示，因此，模式控制器1600连接到图2中的输入接口1100。然而，可选地，此模式控制器不需要位于那个地方。可取代的是，此弹性化解码器能由任何其他种类的控制数据进行预设置，例如使用者输入或任何其他的控制。在图2中的音频解码器受到模式控制器1600所控制，此音频解码器用于绕过对象处理器且馈入多个解码声道到后置处理器1700中。在第2模式下的操作，例如，只能接收到预渲染声道，例如，当第2模式应用于在图1的编码器。另外，当第1模式在编码器中被应用时，例如，当编码器执行单独的声道/对象编码，然后此对象处理器1200是无法被绕过的，但是该多个解码声道及该多个解码对象与解压缩元数据一起馈入到对象处理器1200，其中此解压缩元数据由元数据解压缩器1400所产生。

优选地，第1模式或第2模式是否被应用的指示包含在编码音频数据中，然后模式控制器1600分析编码数据以检测模式指示。当模式指示指示编码音频数据包含编码声道及编码对象时，第1模式被采用，而当此模式指示指示编码音频数据不包含任何音频对象(即编码音频数据仅仅包含通过图1编码器中的第2模式获得的预渲染声道)时，第2模式被采用。

相较于图2，图4显示优选实施例，且图4的实施例对应于图3的编码器。除了图2的解码器实施方式，图4中的解码器包含SAOC解码器1800。此外，当对象渲染器1210的取决于模式的功能性也能被SAOC解码器1800实现时，图2的对象处理器1200被实现以作为分开的对象渲染器1210以及混合器1220。

此外，后置处理器1700能被实现以作为立体渲染器1710或者格式转换器1720。可选地，图2的数据1205的直接输出也能如图示1730一样被实现。因此，如果较小格式为必需的时，优选的方式是在最高数目声道上的解码器中执行此处理以具有灵活度以及后置处理，最高数目声道可例如为22.2声道或32声道。然而，当从一开始就清楚的是需要小格式，例如5.1声道格式时，优选的方式是，如图2或图6所示的快捷方式1727，对SAOC解码器和/或USAC解码器的一定控制能被应用以避免不必要的升混合操作以及随后的降混合操作。

在本发明的优选实施方式中，对象处理器1200包含SAOC解码器1800，SAOC解码器用于解码由核心解码器输出的至少一个传输声道以及相关的参数化数据，且SAOC解码器使用解压缩元数据以获得多个渲染音频对象。为此，OAM输出连接至方框1800。

此外，对象处理器1200用于渲染由核心解码器输出的解码对象，此解码对象在SAOC传输声道中不进行编码，但是在单声道单元里被单独地编码，例如由对象渲染器1210所指示。此外，解码器包含与输出1730对应的输出接口，用于输出混合器的输出至扬声器中。

在进一步的实施方式中，对象处理器1200包含空间音频对象编码解码器1800，用于解码至少一个传输声道以及表示编码音频对象或编码音频声道的相关参数化辅助信息，其中空间音频对象编码解码器用于转码相关的参数化信息以及解压缩元数据成可用于直接地渲染输出格式的转码参数化辅助信息，例如SAOC中较早版本所定义的例子。后置处理器1700使用解码传输声道以及转码参数化辅助信息以计算输出格式的音频声道。通过后置处理器所执行的处理能够相似于MPEG环绕处理或者是任何其他处理，例如BCC处理等。

在另一实施例中，对象处理器1200包含空间音频对象编码解码器1800，空间音频对象编码解码器1800用于使用解码(通过核心解码器)传输声道以及该参数化辅助信息，直接地升混合且渲染用于输出格式的声道信号。

此外，重要的是，当与声道混合的预渲染对象存在时，如图1的混合器200被激发时，在图2中的对象处理器1200另外包含混合器1220，且此混合器1220直接接收由USAC解码器1300输出的数据以作为输入。此外，混合器1220从没有SAOC解码而执行对象渲染的对象渲染器上接收数据。此外，混合器接收SAOC解码器输出数据，例如SAOC渲染对象。

混合器1220被连接至输出接口1730、立体渲染器1710以及格式转换器1720。立体渲染器1710使用头部相关传递函数或立体空间脉冲响应(BRIR)以渲染输出声道至两个立体声道。格式转换器1720用于转换输出声道至输出格式，此输出格式具有比混合器输出声道1205较少的声道数目，且格式转换器1720需要关于再现布局的信息，例如5.1声道扬声器左右。

图6解码器不同于图4解码器的地方在于SAOC解码器不但能产生渲染对象，也能够产生渲染声道，如当图5编码器被使用且在声道/预渲染对象与SAOC编码器800输入接口之间的连接900为被激发的。

此外，向量基础幅度平移(VBAP)阶段1810用于从SAOC解码器接收关于再现布局的信息，且输出渲染矩阵至SAOC解码器，使得SAOC解码器能够在最后提供渲染声道，无需在高声道格式1205中，如32声道扬声器，的混合器的任何进一步操作。

优选地，此VBAP区块接收解码OAM数据以导出渲染矩阵。更一般化地，其不仅需要再现布局的几何信息，也需要位置的几何信息，其中此位置为输入信号应该被渲染在再现布局上的位置。此几何输入数据能够是针对对象的OAM数据或者是针对声道的声道位置信息，其中此OAM数据或声道位置信息使用SAOC以进行传输。

然而，如果只有特定输出接口是需要的，则此VBAP状态1810能够为例如，5.1声道输出，而提供所需要的渲染矩阵。此SAOC解码器1800然后从SAOC传输声道、相关参数化数据及解压缩元数据执行直接渲染，直接渲染至需要的输出格式不需混合器1220的任何交互作用。然而，当在模式间的特定混合被应用时，如其中一些声道为SAOC编码但并非全部声道都是SAOC编码，或者其中一些对象为SAOC编码但并非全部对象都是SAOC编码，或者当只有特定数目的预渲染对象与声道为SAOC解码且剩余的声道不被SAOC处理，然后混合器将来自单独输入部分的数据放置在一起，例如直接来自核心解码器1300、对象渲染器1210以及SAOC解码器1800。

随后，图7针对通过本发明的高弹性和高质量的音频编码器/解码器的概念指示特定编码器/解码器模式以进行讨论。

根据第一编码模式，在图1编码器中的混合器200被绕过，且因此，在图2解码器中的对象处理器不被绕过。

在第2模式下，图1中的混合器200被激发且图2中的对象处理器被绕过。

然后，在第3编码模式下，图3的SAOC编码器被激发，但只有SAOC编码此对象，而不是声道来作为通过混合器而输出。因此，如图4中所显示的解码器端上，第3模式需要SAOC解码器仅仅针对对象是激发的以及产生渲染对象。

如图5中显示的第四编码模式，SAOC编码器用于SAOC编码预渲染声道，例如当在第2模式下，混合器被激发。在解码器端上，SAOC解码为了预渲染对象而被执行，使得对象处理器在第二编码模式下被绕过。

此外，第五编码模式可存在于从第一模式到第四模式的任何混合中。特别是，当在图6中的混合器1220直接地从USAC解码器接收声道，另外，也直接地从USAC解码器接收声道与预渲染对象时，存在混合编码模式。此外，在此混合编码模式下，优选地，对象直接使用USAC解码器的单声道单元来进行编码。在此情况下，对象渲染器1210然后渲染这些解码对象以及转发它们到混合器1220。此外，多个对象由SAOC编码器额外地进行编码，当被SAOC技术编码的多个声道存在时，将使得SAOC解码器输出渲染对象至混合器和/或渲染声道。

混合器1220的每一个输入部分能够具有至少潜在性，用于接收多个声道，例如在1205所指示的32声道。因此，基本上，混合器能够从USAC解码器接收32声道，并且从USAC解码器接收32预渲染/混合声道，并且从对象渲染器接收32"声道"，另外，从SAOC解码器接收32"声道"，其中一方面，每一"声道"在区块1210及1218之间，另一方面区块1220具有在对应扬声器声道中对应对象的贡献，然后混合器1220混合，例如，增加了对每个扬声器声道的单独贡献。

在本发明的优选实施方式中，编码/解码系统是基于在用于编码声道及对象信号的MPEG-DUSAC编码解码器上。为了增加编码大量对象的效率，MPEGSAOC技术已经被改编。三种类型渲染器执行渲染对象至声道、渲染声道至耳机或者渲染声道至不同的扬声器装备的任务。当对象信号明确地使用SAOC传送或参数化编码时，对应的对象元数据信息被压缩且多路复用至编码输出数据中。

在实施例中，在编码前，预渲染器/混合器200用于转换声道及对象输入场景至声道场景。功能上，如图4或图6所示，其等同于在解码器端上对象渲染器/混合器的结合，且如在图2的对象处理器1200所指示。对象的预渲染确保在编码器输入处的确定性的信号熵，其基本上独立于同时激发的对象信号的数目。有了对象的预渲染，便可以不需传输对象元数据。离散对象信号被渲染至供编码器使用的声道布局。针对每一声道，从相关的对象元数据OAM可取得对象权重，如箭号402所指示。

作为核心/编码器/解码器以用于扬声器声道信号、离散对象信号、对象降混合信号以及预渲染信号，USAC技术是优选的。它通过建立声道以及对象映射信息(输入声道以及对象分配的几何与语义信息)处理了多数信号的编码。如图10所示，此映射信息描述输入声道和对象如何映像到USAC声道单元，例如，声道配对单元(CPE)、单声道单元(SCE)、四声道单元(QCE)以及对应信息从核心编码器传送到核心解码器。所有附加的有效负载，如SAOC数据或对象元数据，已通过延长单元而被传递并且在编码器的速率控制中被考虑过。

根据对于渲染器的速率/变形需求以及交互作用需求，对象的编码可能存在不同的方式。以下的对象编码变化均有可能：

·预渲染对象：对象信号在进行编码前，被预渲染及混合到22.2声道信号。随后编码链看见22.2声道信号。

·离散对象波形：对象被作为单声道波形供应至编码器。除了声道信号，编码器使用单声道单元SCE以传输对象。解码对象在接收器端被渲染和混合。压缩对象元数据信息一起被传送到接收器/渲染器。

·参数化对象波形：对象特性以及它们彼此的关系可通过SAOC参数来描述。对象信号的降混合利用USAC来进行编码。参数化信息一起被传送。降混合声道的数目的选择取决于对象数目以及全部的数据速率。压缩对象元数据信息被传送至SAOC渲染器。

SAOC编码器以及解码器以MPEGSAOC技术为基础。根据较小数目的传输声道以及附加的参数化数据(OLD，IOC(对象间的相关性)，DMG(降混合增益))，此系统能够重建、更改以及渲染大量的音频对象。此附加的参数化数据显著地展示了比单独传送所有对象较低的数据速率，以形成高效率的编码。

SAOC编码器将输入对象/声道信号作为单声道波形，并输出参数化信息(填充在三维音频比特流中)以及SAOC传输声道(使用单声道单元进行编码以及传送)。

SAOC解码器从解码SAOC传输声道和参数化信息重建对象/声道信号，并基于再现布局、解压缩对象元数据信息以及可选择地用户交互信息以产生输出音频场景。

对于每一对象，相关元数据定义了对象在三维空间中的几何位置和体积，通过在时间和空间里对象特性的量化而被有效率地进行编码。压缩对象元数据cOAM被传送至接收器以作为辅助信息。对象的体积可以包含关于空间范围的信息和/或音频对象的音频信号的信号电平信息。

对象渲染器根据所给予的再现格式，使用压缩对象元数据以产生对象波形。每一对象根据其元数据被渲染至特定的输出声道。区块的输出从部分结果的总和而来。

如果以声道为基础的内容以及离散/参数化对象被解码，在输出结果波形前，以声道为基础的波形以及渲染对象波形被混合(或者是在馈入它们到类似立体渲染器或扬声器渲染器模块的后置处理器模块前)。

立体渲染器模块产生多声道音频材料的立体降混合，使得每一输入声道可通过虚拟声源而表示。此处理是在QMF(正交镜像滤波器组)域中以逐帧来进行。

此立体化基于所测量的立体空间脉冲响应。

图8显示格式转换器1720的优选实现方式。扬声器渲染器或者格式转换器在传送器声道配置以及期望的再现格式间进行转换。此格式转换器执行转换以降低输出声道的数目，例如建立降混合。为此，优选在QMF域中操作的降混合器1722接收混合器输出信号1205以及输出扬声器信号。优选地，设置控制器1724用于配置降混合器1722，并接收混合器输出布局以作为控制输入，如针对其数据1205被确定的布局以及期望的再现布局被输入至如图6中所显示的格式转换区块1720。基于此信息，针对所给予的输入和输出格式的组合，控制器1724优选可自动地产生最佳降混合矩阵，且在降混合过程中在降混合区块1722中应用这些矩阵。格式转换器允许标准扬声器配置以及非标准扬声器位置的任意配置。

如图6的情况所绘示，SAOC解码器设计利用随后的格式转换以渲染预定义的声道布局，如22.2声道，至目标再现布局。可选地，然而，SAOC解码器被实现以支持"低能量"模式，其中SAOC解码器不进行随后的格式转换而直接解码至再现布局。在此实施方式中，SAOC解码器1800直接输出如5.1扬声器信号的扬声器信号，且SAOC解码器1800需要再现布局信息以及渲染矩阵，使得向量基础幅度平移或用于产生降混合信息的其他任何种类的处理器可以进行操作。

图9显示如图6的立体渲染器1710的实施例。特别是对于移动装置，立体渲染对于附接在移动装置的耳机或附接于小型移动装置的扬声器是必须的。针对这样的移动装置，限制可能存在以限制此解码器以及渲染复杂度。除了在这样的处理场景中省略解相关，其优选的方式是首先使用降混合器1712降混合至中间降混合，例如，到较低的输出声道数目并针对立体转换器1714而导致较低的输入声道数目。示例性地，22.2声道材料由降混合器1712降混合至5.1声道中间降混合，或者可选地，此中间降混合被如图6的SAOC解码器1800以"快捷方式"模式来直接计算。然后，如果22.2输入声道已直接被渲染，相较于针对BRIR函数应用44个HRTF(头部相关传递函数)，对于在不同位置上渲染五个单独声道，此立体渲染只需申请十个HRTF或者是BRIR函数。特别是，立体渲染所需的卷积操作需要大量的处理能量，因此，减少处理能量同时取得可接受的音频质量对于移动装置是极为有用的。

优选地，如控制线1727所绘示的"快捷方式"，其包含控制解码器1300以解码至较低数目声道，例如，在解码器中略过全部的OTT处理区块，或格式转换至较低数目声道，以及如图9所绘示，对于较低数目的声道，此立体渲染被执行。相同的处理不仅能应用于立体处理，也能够应用于格式转换，如图6中的线1727所绘示。

在进一步的实施例中，在处理区块间需要高效率的接口。尤其是在图6，在不同处理区块间的音频信号路径被描绘。在应用SBR(频谱频带复制)的情况下，立体渲染器1710、格式转换器1720、SAOC解码器1800以及USAC解码器1300均在QMF或混合QMF域操作。根据实施例，所有这些处理区块提供QMF或混合QMF接口以允许在QMF域的接口间以高效率的方式通过音频信号。另外，其也优选实现混合器模块以及对象渲染器模块以工作于QMF或混合QMF域。因此，单独的QMF或混合QMF分析以及综合阶段能够被防止，并导致节省可观的复杂度，然后只有需要最终QMF综合阶段以用于产生如1730所指示的扬声器，或在区块1710的输出处产生立体数据，或在区块1720的输出处产生再现布局扬声器信号。

之后，为了说明四声道单元(QCE)，请参考图11。对比于如定义于USAC-MPEG标准的声道配对单元，四声道单元需要四个输入声道90以及输出编码QCE单元91。在一个实施例中，在2-1-2模式下的两个MPEG环绕框或两个TTO框(TTO等于TwoToOne二对一)以及附加定义在MPEGUSAC或MPEG环绕中的联合立体声编码工具(例如MS-立体声)的分级结构被提供的，且QCE单元不仅包含两个共同的立体声编码降混合声道以及任选的两个共同的立体声编码残余声道，以及另外从两个TTO框得到的参数化数据。在解码器端上，以下结构被应用：在两个降混合声道以及任选的两个残余声道的联合立体声解码被应用，且在具有两个OTT框的第二阶段中，降混合以及任选的残余声道被升混合至四个输出声道。然而，针对一个QCE编码器的另外处理操作能够被应用于代替此分层操作。如此一来，除了一组两声道的联合声道编码，核心编码器/解码器另外使用一组四声道的联合声道编码。

此外，优选执行加强的噪声填充程序，全频带(18kHz)能不被妥协地在1200kbps处编码。

编码器已操作在"具有位池的恒定速率"方式下，针对动态数据，每一声道使用6144位的最大值以作为速率缓冲器。

所有附加的有效负载，如SAOC数据或对象元数据，已通过延长单元而被传递并且在编码器的速率控制中被考虑过。

针对三维音频内容，为了得到SAOC功能性的好处，以下MPEGSAOC的延伸已被实现：

·降混合SAOC传输声道至任意数目。

·加强渲染至具有高数目扬声器的输出配置(最高到22.2)。

立体渲染器模块产生多声道音频材料的立体降混合，使得每一输入声道(除了LFE声道)可通过虚拟声源而表示。此处理是在QMF域以逐帧来进行。

此立体化基于所测量的立体空间脉冲响应。直接声音以及提早反射经由卷积方式在假-FFT域印到音频材料上，此卷积方式使用在QMF域顶部的快速卷积。虽然此装置在上下文里已进行了一些方面的描述，很清楚的可以得出，这些方面也表示了对应方法的描述，其中区块或装置对应于方法步骤，或方法步骤中的特征。类似地，在方法步骤的上下文中描述的方面也表现了对应区块或项目或对应装置的特征的描述。一些方法步骤或全部方法步骤可以通过(或使用)硬件装置来被执行，举例来说，微处理器，可编程计算机或电子电路。在一些实施方式中，一些或更多的最重要方法步骤可以通过这样的装置来被执行。

根据特定实施方式的需求，本发明的实施例能实现在硬件或在软件上。此实现方法可使用非临时性储存介质，如数字储存介质，来执行，举例来说，软盘，DVD，Blu-Ray，CD，ROM，PROM，EPROM，EEPROM或闪存，非临时性储存介质具有储存在其上的电子可读控制信号，其可以与可编程计算机系统合作(或能与其合作)，使得单独的方法可以被执行。因此，此数字储存介质是可以被计算器读取。

根据本发明的一些实施例包含数据载体，其具有电子可读取控制信号，能够与可编程计算机系统合作，使得在这里描述的其中一种方法可以被执行。

一般来说，本发明的实施方式能够以具有程序代码的计算器程序产品来被实现，当此计算器程序产品运行在计算机上时，此程序代码可操作用于执行其中一种方法。例如，此程序代码可以被储存在机器可读载体。

其他实施例包含计算机程序以执行在此描述的其中一种方法，其中此方法储存于机器可读载体上。

因此，换句话说，本发明的实施方式是具有程序代码的计算机程序，当在计算机上执行此计算机程序时，程序代码执行在此描述的其中一种方法。

因此，此发明方法的更进一步的实施方式为，数据载体(或数字储存介质，或计算器可读介质)包含记录在其上的计算机程序，用于执行在此描述的其中一种方法。此数据载体、数字储存介质或记录介质一般来说是实体的和/或非临时性的。

因此，此发明方法的更进一步的实施方式为，表示计算机程序的数据流或信号序列，用于执行在此描述的其中一种方法。例如，数据流或信号序列可通过数据通讯连接，如因特网，以进行传送。

进一步的实施方法包含处理装置，例如，计算机或可编程逻辑设备用于或适于执行在此描述的其中一种方法。

更进一步的实施方式包含具有安装计算机程序的计算机，用于执行在此描述的其中一种方法。

根据本发明，一个更进一步的实施方式包含装置或系统，用于例如以电子或光学传输计算机程序至接收器，此计算机程序用于执行在此描述的其中一种方法。举例来说，此接收器可以为计算机、移动装置、内存装置或其他类似装置。举例来说，此装置或系统可以包含文件服务器，用于传送计算机程序至接收器。

在一些实施方式中，举例来说，可编程逻辑设备可为现场可编程逻辑门阵列，其可用于执行在此处所描述的一些或全部功能。在一些实施方式中，现场可编程逻辑门阵列可以与微处理器合作，以执行在此处所描述的其中一种方法。一般来说，此方法优选地可以被任何硬件装置所执行。

上述实施例仅用于说明本发明的原理。应当理解，本文中所描述的修改和有关安排的变化和细节对本领域的其他技术人员来说是明显的。因此，其意图是由即将发生的专利权利要求范围来限制，而不是由本文描述的实施例和解释的方式呈现的特定细节来限制。

Claims

1.一种音频编码器，用于编码音频输入数据(101)以获得音频输出数据(501)，所述音频编码器包含：

输入接口(100)，用于接收多个音频声道、多个音频对象以及关于所述多个音频对象中的一个或多个音频对象的元数据；

混合器(200)，用于混合所述多个对象以及所述多个声道以获得多个预混合声道，每一预混合声道包含声道的音频数据以及至少一个对象的音频数据；

核心编码器(300)，用于核心编码核心编码器输入数据；以及

元数据压缩器(400)，用于压缩关于所述多个音频对象中的所述一个或多个音频对象的所述元数据；

其中所述音频编码器用于在一组至少两种模式的两种模式下操作，所述两种模式包含第一模式以及第二模式，在所述第一模式下所述核心编码器用于编码所述多个音频声道和所述多个音频对象，所述多个音频声道和所述多个音频对象由所述输入接口所接收以作为核心编码器输入数据，在所述第二模式下所述核心编码器(300)用于接收由所述混合器(200)所产生的所述多个预混合声道，以作为所述核心编码器输入数据。

2.如权利要求1所述的音频编码器，进一步包含空间音频对象编码器(800)，用于从空间音频对象编码器输入数据产生一个或多个传输声道以及参数化数据；其中所述音频编码器额外以第三模式进行操作，在所述第三模式下所述核心编码器(300)编码从空间音频对象编码器输入数据得到的所述一个或多个传输声道，所述空间音频对象编码器输入数据包含所述多个音频对象，或另外地或可选择地，所述空间音频对象编码器输入数据包含所述多个音频声道中的两个或更多个音频声道。

3.如权利要求1或2所述的音频编码器，进一步包含空间音频对象编码器(800)，用于从空间音频对象编码器输入数据产生一个或多个传输声道以及参数化数据；其中所述音频编码器额外以第四模式进行操作，在所述第四模式下所述核心编码器对由所述空间音频对象编码器(800)从所述预混合声道所得到的传输声道进行编码，以作为所述空间音频对象编码器输入数据。

4.如前述权利要求中任一项所述的音频编码器，进一步包含：

连接器，用于在所述第一模式下，连接所述输入接口(100)的输出至所述核心编码器(300)的输入，以及用于在所述第二模式下，连接所述输入接口(100)的所述输出至所述混合器(200)的输入以及连接所述混合器(200)的输出至所述核心编码器(300)的所述输入；以及

模式控制器(600)，用于根据模式指示以控制所述连接器，所述模式指示从用户接口接收到或从所述音频输入数据(101)所提取出。

5.如前述权利要求中任一项所述的音频编码器，进一步包含输出接口(500)，用于提供输出信号以作为所述音频输出数据(501)，在所述第一模式下，所述输出信号包含所述核心编码器(300)的输出以及压缩元数据，在所述第二模式下，所述输出信号包含所述核心编码器(300)的输出且不具有任何元数据，在所述第三模式下，所述输出信号包含所述核心编码器(300)的输出、SAOC辅助信息以及所述压缩元数据，以及在所述第四模式下，所述输出信号包含所述核心编码器(300)的输出以及所述SAOC辅助信息。

6.如前述权利要求中任一项所述的音频编码器，其中所述混合器(200)用于使用所述元数据和在回放设定下每一声道位置的指示来预渲染所述多个音频对象，所述多个声道与其相关联，其中在所述回放设定中由所述元数据确定放置所述音频对象于所述至少两个音频声道之间时，所述混合器(200)用于使用至少两个音频声道以及包含所述至少两个音频声道的音频声道的所述总数目来混合音频对象。

7.如前述权利要求中任一项所述的音频编码器，进一步包含元数据解压缩器(420)，用于解压缩由所述元数据压缩器(400)输出的压解元数据，以及其中所述混合器(200)根据解压缩元数据以混合所述多个对象，其中所述元数据压缩器(400)执行的压缩操作为包含量化步骤的有损压缩操作。

8.一种音频解码器，用于解码编码音频数据，所述音频解码器包含：

输入接口(1100)，用于接收所述编码音频数据，所述编码音频数据包含多个编码声道、多个编码对象或关于所述多个对象的压缩元数据；

核心解码器(1300)，用于解码所述多个编码声道以及所述多个编码对象；

元数据解压缩器(1400)，用于解压缩所述压缩元数据；

对象处理器(1200)，用于使用所述解压缩元数据处理所述多个解码对象，以获得多个输出声道(1205)，所述输出声道包含来自于所述对象以及所述解码声道的音频数据；以及

后置处理器(1700)，用于转换所述多个输出声道(1205)至输出格式；

其中当所述编码音频数据不包含任何音频对象时，所述音频解码器用于绕过所述对象处理器并馈入多个解码声道至所述后置处理器(1700)，当所述编码音频数据包含编码声道以及编码对象时，所述音频解码器馈入所述多个解码对象以及所述多个解码声道到所述对象处理器(1200)。

9.如权利要求8所述的音频解码器，其中所述后置处理器(1700)用于转换所述多个输出声道(1205)至立体表现或者再现格式，所述再现格式具有比输出声道的所述数目更少的声道的数目，其中所述音频解码器用于根据从用户接口得到或者从所述编码音频信号提取的控制输入控制所述后置处理器(1700)。

10.如权利要求8或9所述的音频解码器，其中所述对象处理器包含：

对象渲染器，用于使用解压缩元数据渲染解码对象；以及

混合器(1220)，用于混合渲染对象以及解码声道以获得所述多个输出声道(1205)。

11.如权利要求8至10中任一项所述的音频解码器，其中所述对象处理器(1200)包含：空间音频对象编码解码器，用于解码一个或多个传输声道以及表示编码音频对象的相关参数化辅助信息，其中所述空间音频对象编码解码器用于根据关于所述音频对象的放置的渲染信息渲染所述解码音频对象，并控制所述对象处理器混合渲染的所述音频对象以及所述解码音频声道以获得所述多个输出声道(1205)。

12.如权利要求8至10中任一项所述的音频解码器，其中所述对象处理器(1200)包含空间音频对象编码解码器(1800)，用于解码一个或多个传输声道以及表示编码音频对象及编码音频声道的相关参数化辅助信息，其中所述空间音频对象编码解码器用于使用所述一个或多个传输声道以及所述参数化辅助信息解码所述编码音频对象以及所述编码音频声道，且其中所述对象处理器用于使用所述解压缩元数据渲染所述多个音频对象，并解码所述声道并利用所述渲染对象混合所述声道以获得所述多个输出声道(1205)。

13.如权利要求8至10中任一项所述的音频解码器，其中所述对象处理器(1200)包含空间音频对象编码解码器(1800)，用于解码一个或多个传输声道以及表示编码音频对象或编码音频声道的相关参数化辅助信息，

其中所述空间音频对象编码解码器用于转码所述相关参数化信息以及所述解压缩元数据成可用于直接地渲染所述输出格式的转码参数化辅助信息，且其中所述后置处理器(1700)用于使用所述解码传输声道以及所述转码参数化辅助信息计算所述输出格式的音频声道，或者

其中所述空间音频对象编码解码器用于使用所述解码传输声道以及所述参数化辅助信息，直接地升混合且渲染用于所述输出格式的声道信号。

14.如前述权利要求中任一项所述的音频解码器，其中所述对象处理器(1200)包含空间音频对象编码解码器，用于解码由所述核心解码器(1300)输出的一个或多个传输声道、相关参数化数据以及解压缩元数据，以获得多个渲染音频对象，

其中所述对象处理器(1200)另外用于渲染由所述核心解码器(1300)输出的解码对象；

其中所述对象处理器(1200)另外用于混合渲染解码对象与解码声道，

其中所述音频解码器进一步包含输出接口(1730)，用于输出所述混合器(1220)的输出至扬声器，

其中所述后置处理器进一步包含：

立体渲染器，用于使用头部相关传递函数或立体脉冲响应渲染所述输出声道至两个立体声道，以及

格式转换器(1720)，用于使用关于再现布局的信息转换所述输出声道至输出格式，所述输出格式具有比所述混合器(1220)的所述输出声道少的声道数目。

15.如权利要求8至14中任一项所述的音频解码器，其中所述多个编码声道单元或所述多个编码音频对象编码为声道配对单元、单声道单元、低频率单元或者四声道单元，其中所述四声道单元包含四个原始声道或四个原始对象，以及其中所述核心解码器(1300)用于根据在所述编码音频数据中的辅助信息解码所述声道配对单元、单声道单元、低频率单元或四声道单元，所述辅助信息指示所述声道配对单元、所述单声道单元、所述低频率单元或所述四声道单元。

16.如权利要求8至15中任一项所述的音频解码器，其中所述核心解码器(1300)用于使用噪声填充操作应用全频带解码操作，且不需频谱频带复制操作。

17.如权利要求14所述的音频解码器，其中包含所述立体渲染器(1710)、所述格式转换器(1720)、所述混合器(1220)、所述SAOC解码器(1800)、所述核心解码器(1300)以及所述对象渲染器(1210)的多个单元操作在正交镜像滤波器组(QMF)域，其中正交镜像滤波器域数据从所述多个单元中的一个单元传送所述多个单元中的另一个单元，而不需任何合成滤波器组以及后续分析滤波器组处理。

18.如权利要求8至17中任一项所述的音频解码器，其中所述后置处理器(1700)用于将所述对象处理器(1200)输出的声道降混合至具有三个或者更多声道的格式，以获得中间降混合，所述格式的声道数目少于所述对象处理器(1200)的输出声道(1205)的所述数目，且所述后置处理器(1700)用于立体地渲染(1210)所述中间降混合的所述声道至双声道立体输出信号。

19.如权利要求8至15中任一项所述的音频解码器，其中所述后置处理器(1700)包含：

受控降混合器，用于使用降混合矩阵；以及

控制器(1724)，用于使用关于所述对象处理器(1200)的输出的声道配置的信息以及关于欲再现布局的信息，确定特定的降混合矩阵。

20.如权利要求8至19中任一项所述的音频解码器，其中所述核心解码器(1300)或所述对象处理器(1200)是可控制的，以及其中所述后置处理器(1700)用于根据关于所述输出格式的信息控制所述核心解码器(1300)或所述对象处理器(1200)，使得在所述输出格式中不存在作为单独声道的对象或声道的渲染导致的解相关处理被降低或消除，或者，使得针对所述输出格式中不存在作为单独声道的对象或声道，除了对在所述输出格式中不存在作为单独声道的对象或声道的任何解相关处理被停用的外，就好像在所述输出格式中存在作为单独声道的对象或声道那样执行升混合或解码操作。

21.如权利要求8至20中任一项所述的音频解码器，其中所述核心解码器(1300)用于针对单声道单元执行转换解码以及频谱频带复制解码，并用于针对声道配对单元以及四声道单元执行转换解码、参数化立体声解码以及频谱频带再现解码。

22.一种编码音频输入数据(101)的方法，用于获得音频输出数据(501)，所述方法包含：

接收(100)多个音频声道、多个音频对象以及关于所述多个音频对象中的一个或多个音频对象的元数据；

混合(200)所述多个对象以及所述多个声道以获得多个预混合声道，每一所述多个预混合声道包含声道的音频数据以及至少一个对象的音频数据；

核心编码(300)核心编码输入数据；以及

压缩(400)关于所述多个音频对象中的所述一个或多个音频对象的所述元数据；

其中所述音频编码方法在一组至少两种模式的两种模式操作，所述两种模式包含第一模式以及第二模式，在所述第一模式下所述核心编码编码所接收的所述多个音频声道以及所述多个音频对象，以作为核心编码输入数据，在所述第二模式下所述核心编码(300)接收由所述混合(200)产生的所述多个预混合声道，以作为所述核心编码输入数据。

23.一种解码编码音频数据的方法，包含：

接收(1100)所述编码音频数据，所述编码音频数据包含多个编码声道、多个编码对象或关于所述多个对象的压缩元数据；

核心解码(1300)所述多个编码声道以及所述多个编码对象；

解压缩(1400)所述压缩元数据；

使用所述解压缩元数据以处理(1200)所述多个解码对象，以获得多个输出声道(1205)，所述多个输出声道包含来自于所述对象以及所述解码声道的音频数据；以及

转换(1700)所述多个输出声道(1205)至输出格式；

其中，在所述音频解码的方法中，当所述编码音频数据不包含任何音频对象时，绕过所述多个解码对象的处理(1200)并馈入多个解码声道至所述后置处理(1700)中，当所述编码音频数据包含编码声道以及编码对象时，馈入所述多个解码对象以及所述多个解码声道至所述多个解码对象的处理(1200)。

24.一种计算机程序，当所述计算机程序运行于计算机或处理器上，所述计算机程序用于执行如权利要求22或23所述的方法。