CN104428835A

CN104428835A - 音频信号的编码和解码

Info

Publication number: CN104428835A
Application number: CN201380036886.9A
Authority: CN
Inventors: A.W.J.奥门; J.G.H.科彭斯; E.G.P.舒杰斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-07-09
Filing date: 2013-07-09
Publication date: 2015-03-18
Anticipated expiration: 2033-07-09
Also published as: WO2014009878A3; RU2643644C2; EP2870603A2; JP2015527609A; JP6231093B2; MX2015000113A; US20150142453A1; BR112015000247A2; BR112015000247B1; RU2015104074A; US9478228B2; ZA201500888B; MX342150B; CN104428835B; WO2014009878A2; EP2870603B1; EP3748632A1

Abstract

一种用于对多个音频信号进行编码的编码器（1201）包括选择器（1303），所述选择器（1303）选择待缩混的时频拼贴的子集和待作为非缩混的拼贴的子集。生成指示拼贴是否被编码为缩混编码的拼贴或编码为非缩混的拼贴的缩混指示。包括经编码的拼贴和所述缩混指示的编码的信号被馈送给包括用于接收所述信号的接收器（1401）的解码器（1203）。生成器（1403）从经编码的时频拼贴生成输出信号，其中所述输出信号的生成包括针对由所述缩混指示指示为编码的缩混拼贴的拼贴的上混。本发明可以提供更灵活的和/或改进的编码/解码并且可以尤其在较高数据速率下具体地提供改进的可伸缩性。

Description

音频信号的编码和解码

技术领域

本发明涉及多个音频信号的编码和/或解码，并且具体地但不排他地，涉及多个音频对象的编码和解码。

背景技术

各种源信号的数字编码在过去数十年里已变得日益重要，因为数字信号表示和通信已日益代替模拟表示和通信。例如，诸如语音和音乐之类的音频内容是越来越多地基于数字内容编码的。

音频编码格式已被开发来提供越来越有能力的、变化的且灵活的音频服务，并且特别地，支持空间音频服务的音频编码格式已被开发。

像DTS和杜比数码（Dolby Digital）这样的众所周知的空间音频编码技术产生编码的多声道音频信号，所述编码的多声道音频信号将空间像（spatial image）表示为在固定位置处的收听者周围被放置的大量声道。对于与对应于多声道信号的设置不同的扬声器设置，空间像将是次优的。并且，这些基于声道的音频编码系统通常不能够应付不同数目的扬声器。

这样的常规方法的方法在图1中被图示（其中字母c指代音频声道）。输入声道（例如5.1声道）被提供给编码器，所述编码器执行矩阵变换以利用声道间关系，后面是矩阵信号变成比特流的编码。此外矩阵变换信息还可以被作为比特流的一部分传送到解码器。在编码器侧这个过程是颠倒的。

MPEG环绕提供多声道音频编码工具，所述多声道音频编码工具允许现有的基于单音或立体声的编码器被扩展到多声道音频应用。图2图示了MPEG环绕系统的元件的示例。使用通过对原始多声道输入的分析所获得的空间参数，MPEG环绕解码器能够通过单音信号或立体声信号的受控上混（upmix）来重建空间像以获得多声道输出信号。

因为多声道输入信号的空间像被参数化，所以MPEG环绕允许通过不使用多声道扬声器设置的渲染装置来解码相同的多声道比特流。示例是头戴式耳机上的虚拟环绕再现，这被称为MPEG环绕双声道解码过程。在这种模式下，逼真的环绕体验能够在使用普通头戴式耳机时被提供。另一示例是高阶多声道输出（例如7.1声道）到低阶设置（例如5.1声道）的变换。

MPEG环绕的方法（和诸如双耳线索编码或参数立体之类的类似参数多声道编码方法）在图3中被图示。和离散或波形编码方法对比，输入声道被缩混（例如至立体混合）。这个缩混（downmix）随后使用诸如编解码器的AAC族之类的传统编码技术被编码。除经编码的缩混之外，还在比特流中发送空间像的表示。解码器颠倒该过程。

为了提供音频的更加灵活的表示，MPEG标准化了称为“空间音频对象编码”（MPEG-D SAOC）的格式。和诸如DTS、杜比数码以及MPEG环绕之类的多声道音频编码系统对比，SAOC提供对单独的音频对象而不是音频声道的高效编码。然而在MPEG环绕中，每个扬声器声道可以被认为源自声音对象的不同混合，SAOC使得单独的声音对象在解码器侧可得到以用于如图4中所图示的交互式操纵。在SAOC中，多个声音对象连同允许声音对象在渲染侧被提取的参数数据一起被编码成单音或立体声缩混，从而允许单独的音频对象可用于例如由终端用户操纵。

实际上，类似于MPEG环绕，SAOC同样创建单音或立体声缩混。此外，对象参数被计算并且被包括。在解码器侧，用户可以操纵这些参数以控制单独对象的各种特征，诸如位置、电平、均衡，或者甚至以应用诸如混响这样的效果。图5图示了使得用户能够控制被包含在SAOC比特流中的单独对象的交互式接口。借助于渲染矩阵，单独的声音对象被映射到扬声器声道上。

图6提供了SAOC（或类似的对象编码系统）的参数方法的高级框图。对象信号（o）被缩混并且结果得到的缩混被编码。此外参数对象数据在使单独对象与缩混相关联的比特流中被发送。在解码器侧，对象根据扬声器配置被解码并且渲染到声道。通常，在这样的方法中组合对象的解码和扬声器渲染是更高效的。

用于渲染空间声音的渲染配置方面的变化和灵活性已随着越来越多的再现格式变得可供主流消费者使用而近年来显著地增加。这需要音频的灵活表示。随着MPEG环绕编解码的引入已采取了重要的步骤。然而，音频针对特定扩音器设置仍然被产生和发送。在不同设置之上和在非标准（即灵活的或用户定义的）扬声器设置之上的再现未被指定。

这个问题能够部分地由SAOC解决，所述SAOC发送音频对象而非再现声道。这允许解码器侧将音频对象放置在空间中的任意位置处，只要该空间被扬声器充分地覆盖。这样，在被发送音频与再现设置之间不存在关系，因此能够使用任意扬声器设置。这对于例如扬声器因为起居室的布局而几乎从不在预定位置处的、典型起居室中的家庭影院设置来说是有利的。在SAOC中，在解码器侧判定对象在声音场景中被放置在的地方。这从艺术观点看常常不是期望的，并且因此SAOC标准确实提供了用来在比特流中发送默认渲染矩阵从而消除解码器职责的方式。这些渲染矩阵再次被联系到特定扬声器配置。

在SAOC中，作为缩混的结果，对象提取仅在某些边界内工作。通常不可能与其它对象足够高度分离地提取单个对象以用于没有其它对象的再现，例如在卡拉OK用例中。此外，因为参数化，SAOC技术不随着比特率很好地缩放。特别地，缩混和提取（上混）音频对象结果的方法导致甚至在非常高的比特率下也未被完全地补偿的一些固有信息的损失。因此，即使比特率增加，结果得到的音频质量也通常降级并且防止编码/解码操作为完全透明的。

为了解决这个，SAOC支持能够被应用于有限的一组对象（直到并且包括4个，其一直是设计选择）的所谓的残余编码。残余编码基本上发送对误差信号（包括该对象中的来自其它对象的串扰）进行编码的附加的比特流分量，使得能够在高程度的对象分离情况下提取有限数目的对象。可以供应上至特定频率的残余波形分量使得能够逐步提高质量。结果得到的对象因此是参数分量和波形分量的组合。

针对3D音频的音频格式的另一规范正由3D音频联盟（3DAA）开发，所述3D音频联盟（3DAA）是由SRS（声音检索系统）实验室所发起的行业联盟。3DAA致力于开发用于3D音频的传输的标准，这“将促进从当前扬声器馈送范式（paradigm）到灵活的基于对象的方法的转变”。在3DAA中，允许旧有多声道缩混连同单独的声音对象一起发送的比特流格式将被定义。此外，对象定位数据被包括。生成3DAA音频流的原理在图7中被图示。

在3DAA方法中，声音对象在扩展流中被独立地接收，并且这些可以被从多声道缩混中提取。结果得到的多声道缩混连同单独地可用的对象一起被渲染。

在3DAA中，多声道参考混合能够被与音频对象的选择一起发送。3DAA发送针对每个对象的3D位置数据。然后能够使用3D位置数据提取对象。可替换地，可以发送逆混合矩阵，从而描述对象与参考混合之间的关系。图6的图示可以被认为还对应于3DAA的方法。

SAOC和3DAA两种方法都并入了能够在解码器侧被单独地操纵的单独的音频对象的传输。两个方法之间的差别是SAOC通过提供相对于缩混表征对象的参数来提供关于音频对象的信息（即，使得音频对象在解码器侧从缩混生成），然而3DAA将音频对象作为完全且独立的音频对象（即，其能够在解码器侧从缩混独立地生成）来提供。

在MPEG中关于3D音频的新的工作项在构造中。这被称为MPEG-3D音频并且旨在和HEVC视频编码和DASH系统一起成为MPEG-H套件的一部分。图8图示了意中的MPEG 3D音频系统的当前高级框图。

除传统的基于声道的格式之外，该方法旨在还支持基于对象的格式和基于场景的格式。系统的一个重要方面是其质量应该随透明度调整以便提高比特率，即随着数据速率增加由编码和解码所引起的衰减（degradation）应该继续降低直到它是无关紧要的为止。然而，这样的要求对于在过去已大量地使用的参数编码技术（即HE-AAC v2、MPEG环绕、SAOC、USAC）来说是趋于有问题的。特别地，对于单独信号的信号损失的补偿甚至在非常高的比特率下趋于未由参数数据完全地补偿。实际上，质量将受参数模型的内在质量限制。

MPEG-3D音频此外力图提供独立于再现设置的结果得到的比特流。设想的再现可能性包括上至22.2个声道的灵活的扩音器设置，以及遍及头戴式耳机和紧密地隔开的扬声器的虚拟环绕。

另一方法被称为DirAC - 方向音频编码（DirAC），其在缩混连同使得能够在合成侧再现空间像的参数一起被发送的意义上与MPEG环绕和SAOC类似。在DirAC中，这些参数表示来自方向和扩散分析的结果（方位、仰角以及扩散Ψ(t/f)）。在合成期间缩混被动态地划分成两个流：对应于非扩散声的一个流（权重），和对应于扩散声的另一流（权重）。非扩散声流利用针对点状声源的技术加以再现，并且扩散声流利用针对缺少主方向的声音的感知的技术加以再现。DirAC的方法在图9中被图示。

DirAC可以被认为是依照图10的方法的基于记录的编码/解码系统。在该系统中，麦克风信号（m）被编码。这能够例如被与使用空间信息的缩混和编码的参数方法类似地执行。在解码器处，能够重建麦克风信号，并且基于提供的扬声器配置，能够将麦克风信号渲染到声道。注意由于效率原因，解码和渲染过程能够被整合成单个步骤。

在2002年11月15日比利时鲁汶Proc.MPCA-2002，M. Kelly等人的“The continuity illusion revisited: coding of multiple concurrent sound sources”中，提出了不使用参数编码和缩混而是替代地使用离散/波形编码单独地对单独的音频对象进行编码。该方法在图11中被图示。如所图示的，所有对象被同时地编码并且发送到解码器。在解码器侧，对象被解码并且根据扬声器配置渲染到声道。该方法可以提供改进的音频质量，并且特别地，具有随透明度调整的潜力。然而，该系统不提供显著的编码效率并且甚至对于较低音频质量也需要相对高的数据速率。

因此，存在力图提供高效的音频编码的许多不同的方法。

音频内容现今被共享在越来越多数目的不同再现装置之间。例如，可以经由对接站和/或使用各种多声道设置遍及头戴式耳机、小扬声器体验到音频。对于多声道设置，照惯例已被假定为标称扬声器设置的ITU推荐的5.1扬声器设置在渲染音频内容时常常甚至未被近似地应用。例如，在典型起居室中很少找到依照该设置的五个空间扬声器的准确定位。扬声器被放置在方便位置处而非在推荐角度和距离处。此外，可以使用像4.1、6.1、7.1或甚至22.2配置这样的替代设置。为了在所有的这些再现方案中提供最佳体验，能够观察到朝着对象编码或场景编码方向的趋势。这样的方法被日益引入（当前主要用于电影院应用，但是家庭使用预期变得更常见）以代替每个音频声道与标称位置相关联的常规音频声道方法。

当再现声道（即扬声器）的数目及其位置是未知的时，音频场景最好能够由场景中的单独的音频对象来表示。在解码器侧对象然后各自能够被独立地渲染在再现声道上，使得空间感知最接近于意中的感知。

将对象编码为单独的音频信号/流需要相对高的比特率。可用的解决方案（即SAOC、DirAC、3DAA等）发送缩混的对象信号并且意在从这个缩混重建对象信号。这导致显著的比特率降低。

SAOC通过高效对象编码在具有对象提取参数的缩混中提供与扬声器无关的音频，3DAA定义了场景根据对象位置被描述的格式。DirAC尝试通过使用B格式缩混来进行音频对象的高效编码。

因此，这些系统适合于音频内容的高效且灵活的编码和渲染。能够实现显著的数据速率降低，并且因此相对低的数据速率实施方式仍然能够提供合理的或良好的音频质量。然而，这样的系统的问题是音频质量受参数编码和缩混内在地限制。甚至随着可用的数据速率增加，也不可能实现不能够检测到编码/解码操作的影响的完全的透明度。特别地，甚至在高数据速率下也不能够在没有来自其它对象的串扰的情况下重建对象。当对象在空间再现上分开（即渲染在不同的位置处）时这导致音频质量和空间感知的降低。另一个缺点是对象间相干性大多数未被正确地重建，这是用于创建空间感知的一个重要特性。重建相干性的尝试基于解相关器的使用，并且趋于导致次优音频质量。

单独地对音频对象进行波形编码的替代方案可以在高数据速率下允许高质量，并且可以特别地提供包括完全透明编码/解码的完全可伸缩性。然而，这样的方法不适合于它们不提供高效编码的低数据速率。

因此，基于参数缩混的编码适合于低数据速率和朝着较低数据速率方向的可伸缩性，然而波形对象编码适合于高数据速率和朝着高数据速率方向的可伸缩性。

可伸缩性对于将来的音频系统是非常重要的准则，并且因此高度地期望具有延伸到非常低的数据速率和非常高的数据速率两者并且特别地延伸到完全透明度的高效可伸缩性。此外，期望这样的可伸缩性有可伸缩性的低粒度。

因此，改进的音频编码/解码方法将是有利的，并且特别地，允许增加的灵活性、降低的复杂性、改进的可伸缩性和/或改进的性能的系统将是有利的。

发明内容

因此，本发明力图优选地单个地或者以任何组合方式缓解、减轻或者消除上面提到的缺点中的一个或多个。

根据本发明的一个方面提供了解码器，包括：接收器（1401），其用于接收表示多个音频信号的编码的数据信号，所述编码的数据信号包括用于多个音频信号的编码的时频拼贴（time-frequency tile），所述编码的时频拼贴包括非缩混时频拼贴和缩混时频拼贴，每个缩混时频拼贴是多个音频信号的至少两个时频拼贴的缩混并且每个非缩混时频拼贴表示多个音频信号的仅一个时频拼贴，所述编码的数据信号进一步包括针对多个音频信号的时频拼贴的缩混指示，所述缩混指示指示多个音频信号的时频拼贴是否被编码为缩混时频拼贴或非缩混时频拼贴；生成器（1403），其用于从经编码的时频拼贴生成输出信号的集合，输出信号的生成包括针对由缩混指示指示为缩混时频拼贴的编码的时频拼贴的上混。

本发明可以允许改进的音频解码，并且特别地可以在许多实施例中允许改进的可伸缩性。特别地，本发明可以在许多实施例中允许随透明度的数据速率可伸缩性。特别地，可以在许多情况下避免或者减轻对于在较高数据速率下的参数编码已知的编码赝像。

该方法可以进一步提供高效编码，并且特别地可以在较低数据速率下提供高效编码。能够实现高程度的可伸缩性，并且特别地，能够实现在较低数据速率下的高效编码和在高数据速率下的非常高的质量（以及具体地透明度）的可伸缩性。

本发明可以在高程度的适配和优化为可能的情况下提供非常灵活的系统。编码和解码操作可以不仅适于音频信号的总体特性，而且适于单独的时频拼贴的特性。因此能够实现高度高效的编码。

缩混时频拼贴的上混可以是单独运算或者可以与其它运算整合。例如，上混可以是矩阵（向量）运算的一部分，所述矩阵（向量）运算将用于时频拼贴的信号值与矩阵（向量）系数相乘，其中矩阵（向量）系数反映上混运算但是可以进一步反映其它运算，诸如用来输出渲染声道的映射。上混不必是缩混的所有分量的上混。例如，上混可以是用来生成包括在缩混中的时频拼贴中的仅一个的部分上混。

时频拼贴是时频间隔。可以从覆盖相同的时间间隔和频率间隔的编码的时频拼贴生成输出信号的时频拼贴。类似地，每个缩混时频拼贴可以是覆盖相同的时间间隔和频率间隔的音频信号的时频拼贴的缩混。特别地对于频率维度来说，时频间隔可以在均匀网格上或者可以例如在非均匀网格上。这样的均匀网格例如可以被用来发掘和反映人类听觉的对数灵敏度。

对于未被指示为缩混时频拼贴的编码的时频拼贴，输出信号的生成（确实）不必包括上混。

可能不在经编码的时频拼贴中表示多个音频信号的一些时频拼贴。可能不在编码的缩混时频拼贴或非缩混时频拼贴中表示多个音频信号的时频拼贴。

在一些实施例中，可以参考经编码的时频拼贴提供多个音频信号的时频拼贴是否被编码为缩混时频拼贴或非缩混时频拼贴的指示。在一些实施例中，可以为多个音频信号的时频拼贴单独地提供缩混指示值。等效地，在一些实施例中可以为多个音频信号的时频拼贴的集合提供缩混指示值。

非缩混时频拼贴表示针对音频信号的仅一个时频拼贴的数据然而缩混时频拼贴表示音频信号的两个或更多个时频拼贴。可以在不同的实施例中在经编码的数据信号中以不同的方式对缩混时频拼贴和非缩混时频拼贴进行编码，包括例如每个拼贴被独立地编码，一些或全部被联合编码等。

依照本发明的可选特征，经编码的数据信号此外包括参数上混数据，并且其中生成器（1403）被布置成响应于参数数据来适配上混运算。

这可以提供改进的性能，并且特别地可以在较低数据速率下提供改进的音频质量。本发明可以允许例如波形和参数编码的灵活适配和互配以提供非常可伸缩的系统，以及特别地能够对于高数据速率提供非常高的音频质量同时在较低数据速率下提供高效编码的系统。

生成器可以响应于用于由缩混指示指示为缩混时频拼贴的编码的时频拼贴（而不用于由缩混指示指示不为编码的缩混时频拼贴的编码的时频拼贴）的参数上混数据来具体地生成输出信号。

依照本发明的可选特征，生成器（1403）包括渲染单元，所述渲染单元被布置成将用于多个音频信号的时频拼贴映射到与空间声源配置相对应的输出信号。

这可以提供适合于通过给定空间声源（通常为扬声器）配置进行渲染的音频信号的高效生成。上混和渲染映射可以在一些实施例中作为单个整合运算（例如，作为单个矩阵乘法）被执行。

在一些实施例中，生成器被布置成从经编码的时频拼贴生成经解码的音频信号，并且布置成通过空间上将经解码的音频信号映射到输出信号的集合来生成音频信号，输出信号的集合对应于空间声源设置。

依照本发明的可选特征，生成器（1403）被布置成通过对经编码的时频拼贴应用矩阵运算来为输出信号的集合生成时频拼贴，矩阵运算的系数包括用于对于其来说缩混指示指示经编码的时频拼贴是缩混时频拼贴的编码的时频拼贴而不用于对于其来说缩混指示指示经编码的时频拼贴是非缩混时频拼贴的编码的时频拼贴的上混分量。

这可以提供特别高效的运算。矩阵运算可以被应用于经编码的时频拼贴的信号样本。可以通过解码运算来生成信号样本。

依照本发明的可选特征，至少一个音频信号通过至少一个非缩混时频拼贴和至少一个缩混时频拼贴被表示在经解码的信号中。

单独的音频信号可以由缩混时频拼贴和非缩混时频拼贴两者来表示。音频信号的每个时频拼贴可以由缩混时频拼贴或非缩混时频拼贴来表示，而不要求以相同的方式表示所有时频拼贴。该方法可以允许高程度的灵活性和优化，并且可以具体地导致改进的音频质量、编码效率和/或可伸缩性。

依照本发明的可选特征，针对至少一个缩混时频拼贴的缩混指示包括编码的缩混时频拼贴与多个音频信号的时频拼贴之间的链接（link）。

这可以在许多实施例中允许编码在时频拼贴基础上被灵活地优化。该方法可以允许高程度的灵活性和优化，并且可以具体地导致改进的音频质量、编码效率和/或可伸缩性。

依照本发明的可选特征，多个音频信号中的至少一个音频信号由作为多个音频信号中的音频信号的不同集合的缩混的两个缩混时频拼贴来表示。

依照本发明的可选特征，多个音频信号中的至少一个音频信号由包括不作为非缩混时频拼贴或缩混时频拼贴的至少一个编码的时频拼贴的编码的时频拼贴来表示。

在一些实施例中这可以允许改进的编码效率。不作为非缩混时频拼贴或缩混时频拼贴的经编码的时频拼贴例如可以被编码为空时频拼贴（编码为没有信号数据的空时频拼贴），或者可以例如使用诸如中间/边编码之类的其它技术来编码。

依照本发明的可选特征，至少一个缩混时频拼贴是不与声源渲染配置的标称声源位置相关联的音频对象和与声源渲染配置的标称声源位置相关联的音频声道的缩混。

这可以提供改进的灵活性和/或更高效的编码。具体地，缩混时频拼贴可以包括音频对象和音频声道的时频拼贴的缩混。

依照本发明的可选特征，非缩混时频拼贴中的至少一些被波形编码。

这可以允许高效且潜在高质量的编码/解码。在许多情况下它可以允许改进的可伸缩性，并且特别地允许随透明度的可伸缩性。

依照本发明的可选特征，缩混时频拼贴中的至少一些被波形编码。

这可以允许高效且潜在高质量的编码/解码。

依照本发明的可选特征，生成器（1403）被布置成上混缩混频率拼贴以为缩混时频拼贴的多个音频信号中的至少一个生成上混的时频拼贴；并且生成器被布置成针对对于其来说缩混指示指示经编码的时频拼贴是缩混时频拼贴的拼贴而使用经上混的时频拼贴来为输出信号的集合生成时频拼贴。

这可以便于实现和/或提供高性能。

根据本发明的另一方面，解码的方法包括：接收表示多个音频信号的编码的数据信号，所述编码的数据信号包括用于多个音频信号的编码的时频拼贴，所述编码的时频拼贴包括非缩混时频拼贴和缩混时频拼贴，每个缩混时频拼贴是多个音频信号的至少两个时频拼贴的缩混并且每个非缩混时频拼贴表示多个音频信号的仅一个时频拼贴，所述编码的数据信号进一步包括针对多个音频信号的时频拼贴的缩混指示，所述缩混指示指示多个音频信号的时频拼贴是否被编码为缩混时频拼贴或非缩混时频拼贴；以及从经编码的时频拼贴生成输出信号的集合，输出信号的生成包括针对由缩混指示指示为缩混时频拼贴的编码的时频拼贴的上混。

依照本发明的另一方面，编码器包括：接收器（1301），其用于接收多个音频信号，每个音频信号包括多个时频拼贴；选择器（1303），其用于选择待缩混的多个时频拼贴的第一子集；缩混器（1305），其用于缩混第一子集的时频拼贴以生成缩混的时频拼贴；第一编码器（1307），其用于通过对缩混时频拼贴进行编码来生成缩混编码的时频拼贴；第二编码器（1309），其用于通过在没有第二子集的时频拼贴的缩混的情况下对音频信号的时频拼贴的第二子集进行编码来生成非缩混时频拼贴；单元（1311），其用于生成指示第一子集和第二子集的时频拼贴是否被编码为缩混编码的时频拼贴或者为非缩混时频拼贴的缩混指示；输出（1313），其用于生成表示多个音频信号的编码的音频信号，所述编码的音频信号包括非缩混时频拼贴、缩混编码的时频拼贴以及缩混指示。

本发明可以允许改进的音频编码，并且特别地可以在许多实施例中允许改进的可伸缩性。特别地，本发明可以在许多实施例中允许随透明度的数据速率可伸缩性。特别地，可以在许多情况下避免或者减轻对于在较高数据速率下的参数编码已知的编码赝像。

本发明可以在高程度的适配和优化为可能的情况下提供非常灵活的系统。编码和解码运算可以不仅适于音频信号的总体特性，而且适于单独的时频拼贴的特性。因此，能够实现高度高效的编码。

缩混器可以进一步被布置成生成用于恢复从经缩混的时频拼贴缩混的时频拼贴的参数数据；并且输出可以被配置成将参数数据包括在经编码的音频信号中。

第一编码器和第二编码器可以被实现为单个编码器，例如顺序地并且可能使用相同的编码算法对缩混进行编码。

编码过程可以考虑缩混时频拼贴的集合和单独的时频拼贴以改进效率和质量。

根据本发明的可选特征，选择器（1303）被布置成响应于用于经编码的音频信号的目标数据速率来为第一子集选择时频拼贴。

这可以提供改进的性能，并且可以特别地允许经编码的音频信号的高效缩放。

根据本发明的可选特征，选择器（1303）被布置成响应于下列中的至少一个来为第一子集选择时频拼贴：时频拼贴的能量；时频拼贴的空间特性；以及成对时频拼贴之间的相干性特性。

这可以在许多实施例中并且对于许多信号提供改进的性能。

依照本发明的另一方面，编码的方法包括：接收多个音频信号，每个音频信号包括多个时频拼贴；选择待缩混的多个时频拼贴的第一子集；缩混第一子集的时频拼贴以生成缩混的时频拼贴；通过对经缩混的时频拼贴进行编码来生成缩混编码的时频拼贴；通过在没有第二子集的时频拼贴的缩混的情况下对音频信号的时频拼贴的第二子集进行编码来生成非缩混时频拼贴；生成指示第一子集和第二子集的时频拼贴是否被编码为缩混编码的时频拼贴或者编码为非缩混时频拼贴的缩混指示；以及

生成表示多个音频信号的编码的音频信号，所述编码的音频信号包括非缩混时频拼贴、缩混编码的时频拼贴以及缩混指示。

依照本发明的另一方面，编码和解码系统包括上面所描述的编码器和解码器。

本发明的这些和其它方面、特征以及优点从在下文中所描述的（一个或多个）实施例将是显而易见的，并且将参考在下文中所描述的（一个或多个）实施例而被阐明。

附图说明

将参考附图仅通过示例对本发明的实施例进行描述，附图中：

图1图示了依照现有技术的多声道信号的音频编码的原理的示例；

图2图示了依照现有技术的MPEG环绕系统的元件的示例；

图3图示了依照现有技术的MPEG环绕系统的元件的示例；

图4图示了依照现有技术的SAOC系统的元件的示例；

图5图示了使得用户能够控制包含在SAOC比特流中的单独对象的交互式接口；

图6图示了依照现有技术的SAOC系统的元件的示例；

图7图示了依照现有技术的3DAA的音频编码的原理的示例；

图8图示了依照现有技术的MPEG 3D音频系统的元件的示例；

图9图示了依照现有技术的DirAC系统的元件的示例；

图10图示了依照现有技术的DirAC系统的元件的示例；

图11图示了依照现有技术的音频系统的元件的示例；

图12图示了依照本发明的一些实施例的音频系统的元件的示例；

图13图示了依照本发明的一些实施例的编码器的元件的示例；

图14图示了依照本发明的一些实施例的解码器的元件的示例；

图15图示了依照本发明的一些实施例的音频系统解码器的元件的示例；

图16 图示了依照本发明的一些实施例的将音频信号的时频拼贴编码为缩混或非缩混时频拼贴的示例；以及

图17图示了依照本发明的一些实施例的音频系统解码器的元件的示例。

具体实施方式

图12图示了依照本发明的一些实施例的音频渲染系统的示例。该系统包括接收待编码的音频信号的编码器1201。经编码的音频数据经由适合的通信介质1205被发送到解码器1203。

提供给编码器1201的音频信号可以以不同的形式被提供并且以不同的方式被生成。例如，音频信号可以是从麦克风捕获的音频和/或可以是诸如例如针对计算机游戏应用合成地生成的音频。音频信号可以包括大量分量，所述大量分量可以被编码为单独的音频对象，诸如例如特定的合成地生成的音频对象或被布置成捕获特定音频源的麦克风，所述特定音频源诸如例如单个乐器。

每个音频对象通常对应于单个声源。因此，和音频声道对比，并且特别地和常规空间多声道信号的音频声道对比，音频对象通常不包括来自可能具有大大不同的位置的多个声源的分量。类似地，每个音频对象通常提供声源的完全表示。每个音频对象因此通常与针对仅单个声源的空间位置数据相关联。具体地，每个音频对象通常可以被认为是声源的单个且完整的表示，并且可以与单个空间位置相关联。

音频对象不与任何特定渲染配置相关联，并且具体地不与声换能器/扬声器的任何特定空间配置相关联。因此，和与诸如特定空间扬声器设置（例如环绕声设置）之类的渲染配置相关联的声音声道对比，音频对象不是相对于任何特定空间渲染配置定义的。

音频对象因此通常是视为单独实例（例如歌唱家、乐器或合唱）的单个或组合声源。通常，音频对象具有定义音频对象的特定位置并且具体地定义音频对象的点源位置的相关联的空间位置信息。然而，这个位置与特定渲染设置无关。对象（音频）信号是表示音频对象的信号。对象信号可以包含多个对象，例如不在时间上并发。

相比之下，音频声道与标称音频源位置相关联。音频声道因此通常没有相关联的位置数据，而是与标称相关联的扬声器配置中的扬声器的标称位置相关联。因此，鉴于音频声道通常与相关联的配置中的扬声器位置相关联，音频对象不与任何扬声器配置相关联。音频声道因此表示在使用标称扬声器配置来执行渲染时应该被从给定标称位置渲染的组合音频。音频声道因此表示需要声音分量从与声道相关联的标称位置渲染以便让标称扬声器配置空间上渲染音频源的音频场景中的所有音频源。音频对象相比之下通常不与任何特定渲染配置相关联，并且替代地提供应该被从一个声源位置渲染以便让所关联的声音分量被感知为源自该位置的音频。

空间音频编码装置1201被布置成生成编码的信号，所述编码的信号包含表示提供给空间音频编码装置1201的音频信号（具体地音频对象和/或音频声道）的编码的数据。

可以通过包括直接通信或广播链路的任何适合的通信介质来传送经编码的音频流。例如，通信可以是经由因特网、数据网络、无线电广播等的。通信介质可以可替换地或附加地是经由诸如CD、Blu-Ray^TM盘、存储器卡等之类的物理存储介质的。

以下描述将集中于音频对象的编码，但是应当了解，所描述的原理视情况而定还可以被应用于例如音频声道信号。

图13更详细地图示了编码器1201的元件。在该示例中，编码器1201接收在该特定示例中作为音频对象的多个音频信号（在该特定示例中四个音频对象O₁至O₄被示出，但是应当了解，这些仅仅表示任何多个音频对象）。

音频对象由编码接收器1301接收，所述编码接收器1301将用于音频对象的时频拼贴提供给编码器1201的剩余部分。如将为技术人员所知的，信号的时频拼贴对应于给定时间间隔和给定频率间隔中的信号。因此，用时频拼贴表示信号意味着该信号用大量拼贴加以表示，其中每个拼贴有相关联的频率间隔和相关联的时间间隔。每个时频拼贴可以提供反映所关联的时间间隔和频率间隔中的信号值的单个（通常为复）值。然而，时频拼贴还可以提供多个信号值。信号常常被划分成均匀时频拼贴，即时间和/或频率间隔对于所有时频拼贴来说常常具有相同的大小。然而，在一些情况或实施例中，例如通过使用针对其的说频率间隔的大小随频率增加而增加的时频拼贴，可以使用非均匀时频拼贴。

在许多实施例中，音频信号可能已经被作为时频拼贴表示提供给编码器。然而，在一些实施例中，编码接收器1301可以生成这样的表示。这通常可以通过将信号分割成（例如持续时间为20 msec的）时间段并且对每个段执行诸如FFT之类的时间至频率变换而完成。结果得到的频域值可以各自直接地表示时频拼贴，或者在一些情况下，可以将多个相邻频率块（在时间和/或频率上相邻）组合成一个时频拼贴。

为了简洁，以下描述将使用缩写术语“拼贴”来指代时频拼贴。

编码接收器1301被耦接到接收音频对象的拼贴的选择器1303。选择器1303然后被布置成选择将被编码为缩混的拼贴的一些拼贴和将被编码为非缩混的拼贴的一些拼贴。经缩混的拼贴将是通过缩混通常来自至少两个音频对象的至少两个拼贴所生成的拼贴，而非缩混拼贴将在没有任何缩混的情况下被编码。因此，非缩混拼贴将包括来自正被编码的音频对象/信号的仅一个拼贴的数据。因此，非缩混拼贴将包括来自仅一个音频对象的贡献，然而缩混拼贴将包括来自至少两个拼贴并且通常至少两个音频对象的分量/贡献。非缩混拼贴具体地是不为两个或更多个拼贴的缩混的拼贴。

选择器1303被耦接到缩混器1305，所述缩混器1305被馈送有由选择器1303所选择的拼贴。然后继续从这些拼贴生成缩混拼贴。例如，来自意在被缩混的不同音频对象的两个对应的（相同的频率间隔和时间间隔）拼贴被缩混器1305缩混以生成单个缩混的拼贴。对于多个拼贴执行这个方法从而生成缩混的拼贴的集合，其中每个缩混拼贴表示至少两个拼贴并且通常来自至少两个音频对象。

在许多实施例中，缩混器1305进一步生成能够被用来通过执行缩混拼贴的上混来再造原始音频对象拼贴的参数（上混）数据。例如，缩混器1305可以生成如将为本领域的技术人员所熟知的对象间电平差（ILD）、对象间时间差（ITD）、对象间相位差（IPD）和/或对象间相干性系数（ICC）。

缩混拼贴被馈送给第一编码器1307，所述第一编码器1307继续对每个缩混拼贴进行编码以生成编码的缩混拼贴。编码器可以例如是缩混拼贴的值的简单量化，并且可以具体地是维持由缩混拼贴所表示的波形的编码。

在许多实施例中，上混参数还可以被提供给第一编码器1307，所述第一编码器1307可以使用任何适合的编码方法来对这些参数进行编码。

选择器1303此外被耦接到被馈送有将作为非缩混拼贴的拼贴的第二编码器1309。第二编码器然后继续对这些拼贴进行编码。

应当了解，尽管图13将第一编码器1307和第二编码器1309图示为独立的功能单元，但是它们可以被实现为单个编码器，并且可以对缩混拼贴和非缩混拼贴两者应用相同的编码算法。

应当了解，缩混拼贴和非缩混拼贴的任何编码可以被用来生成适合的编码的数据信号。例如，在一些实施例中所有拼贴可以被独立地编码。例如，可以在不考虑任何其它拼贴或没有来自任何其它拼贴的影响的情况下对于每个拼贴执行单独的编码，即可以独立于其它拼贴为每个拼贴生成经编码的数据。作为特定示例，可以对于每个拼贴独立地执行量化和声道编码（无论是缩混还是非缩混）以生成被组合来生成经编码的数据的数据。

在其它实施例中，可以使用拼贴的某种联合编码。具体地，可以对缩混拼贴和/或非缩混拼贴的选择进行联合编码，以便通过利用拼贴和/或由拼贴所表示的对象的特定属性和/或相关性来改进效率。

选择器1303被此外耦接到指示处理器1311，所述指示处理器1311接收哪些拼贴被编码为缩混拼贴以及哪些是非缩混的信息。指示处理器1311然后继续生成指示音频对象的拼贴是否被编码为缩混的拼贴或者编码为非缩混拼贴的缩混指示。缩混指示可以例如包括针对音频对象中的每一个的每个拼贴的数据，其中针对给定拼贴的数据指示这是否一直是非缩混或者编码为缩混。在后者情况下，数据可以进一步指示哪些其它音频对象被缩混成相同的缩混。这样的数据可以允许解码器标识经编码的数据信号中的哪些数据应该被用来对特定拼贴进行解码。

第一编码器1307、第二编码器1309以及指示处理器1311被耦接到输出处理器1313，所述输出处理器1313生成包括非缩混拼贴、缩混编码的拼贴以及缩混指示的编码的音频信号。通常，上混参数被同样包括。

图14更详细地图示了解码器1203的元件。

解码器1203包括从编码器1201接收经编码的信号的接收器1401。因此，接收器接收表示多个音频对象的编码的数据信号，其中经编码的数据信号包括被编码为缩混拼贴或者编码为非缩混拼贴的编码的拼贴。此外，它包括指示原始音频拼贴分成不同类型的编码的拼贴如何已被执行的缩混指示。通常，上混参数被同样包括。

接收器1401被耦接到生成器1403，所述生成器1403被馈送有所接收到的拼贴和缩混指示符，并且其作为响应继续生成输出信号的集合。输出信号可以例如是然后可以在后处理运算中被处理或者以其它方式操纵的经解码的音频对象。在一些实施例中，生成器1403可以直接地生成适合于使用给定渲染设置（以及具体地扬声器配置）进行渲染的输出信号。因此，生成器1403可以在一些情况下包括用于将音频对象映射到特定渲染配置的音频声道上的功能性。

生成器1403被布置成根据它们是缩混拼贴还是非缩混拼贴而不同地处理编码的拼贴。具体地，对于由缩混指示指示为缩混拼贴的拼贴，为输出信号生成拼贴包括上混运算。因此上混运算可以具体地对应于用于音频对象的拼贴从其中音频对象拼贴已被缩混的缩混拼贴中的提取或再现。

在数据信号包括参数上混数据的实施例中，这个数据被用在经缩混的拼贴的上混运算中。

作为示例，生成器1403可以包括再现原始音频对象的再现生成器1405。再现生成器1405可以例如每次一个来处理每个音频对象，并且每次一个拼贴来处理每个音频对象。

例如，再现生成器1405可以对于给定（时间）段从音频对象1的拼贴1（例如最低频率拼贴）开始。缩混指示然后针对对象1的拼贴1被评估。如果缩混指示指示针对对象1的拼贴1的经编码的拼贴是非缩混，则经编码的拼贴被解码以直接地提供对象1的拼贴1。然而，如果缩混指示指示针对对象1的拼贴1的经编码的拼贴被缩混编码，则经编码的拼贴被首先解码以提供缩混拼贴并且连续地上混以再现音频对象1的原始拼贴1。（编码的）缩混拼贴的这个上混因此在它在编码器处被缩混之前创建音频对象1的拼贴1的（估计）。如果这样的数据是可用的，则上混可以具体地使用参数上混数据。然而，如果未提供这样的数据，则上混可以是盲上混。应用于对象1的编码的拼贴1的上混操作的结果因此是如馈送给编码器1201的音频对象1的拼贴1（的估计）。

因此，操作的结果是对象1的拼贴1，其中该拼贴的生成取决于缩混指示是否指示这个已被编码为缩混或者编码为非缩混拼贴。

再现生成器1405然后继续对于音频对象1的拼贴2执行完全相同的操作，从而结果得到音频对象1的解码的拼贴2。

对于音频对象1的所有拼贴重复该过程，并且生成的拼贴的结果得到的合集因此提供音频对象1的时频拼贴表示。这可以由再现生成器1405（或生成器1403）输出，或者如果例如时域信号是需要的，则可以应用频域至时域变换（例如iFFT）。

然后对于音频对象2、然后对于音频对象3等重复相同的方法，直到已生成了所有音频对象为止。

应当了解在这个示例中，多个上混操作被应用于每个编码的缩混拼贴。例如，如果给定编码的缩混拼贴是假定音频对象1和3的拼贴的缩混，则在音频对象1生成时和在音频对象3生成时都将执行上混操作。上混操作将使用不同的上混参数（具体地针对特定对象提供的参数）。

应当了解在一些实施例中，上混可以同时地提供经上混的拼贴中的两者（或全部）。例如，矩阵操作可以被用来为音频对象1和3两者直接地生成经上混的拼贴。当算法首先遇到给定编码的缩混拼贴时（例如当处理对象1时）可以例如执行全上混操作。可以存储用于其它对象的结果得到的上混拼贴，使得当遇到了缩混成经编码的缩混拼贴的其它拼贴时（例如，在该特定示例中当处理对象3时）不需要单独的上混操作。

应当了解在一些实施例或情况中，可以通过再现生成器1405的上混操作从一个编码的缩混拼贴生成仅一个上混的拼贴。例如，如果通过再现生成器1405仅生成了对象1，则给定缩混拼贴的上混仅需要为对象1提供经上混的拼贴。

在一些实施例中，可以从生成器1403直接地输出经解码的音频对象。然而，在图14的示例中，经解码的音频对象被馈送到渲染处理器1407，所述渲染处理器1407被布置成生成与特定渲染设置相对应并且具体地与特定扬声器配置相对应的输出信号。渲染处理器1407因此可以将音频对象映射到输出声道，其中每个输出声道与标称声音渲染位置相关联。例如，可以将大量音频对象映射到5.1环绕声扬声器设置的音频声道。

本领域的技术人员将知道用于针对特定空间扬声器配置来将音频对象映射到音频声道的不同算法，并且应当了解，可以使用任何适合的方法。

在图14的示例中，生成器1403被示出为具有用于生成音频对象并且用于渲染这些对象的单独功能性。然而，在许多实施例中，再现生成器1405和渲染处理器1407的功能性可以被组合成单个整合功能或操作。因此，生成器可以在无需生成音频对象作为显式中间信号的情况下直接地从经编码的数据生成渲染输出。

例如，上混操作可以作为矩阵操作/乘法（或者如果将生成仅一个上混值则甚至作为复数乘法）被执行。类似地，渲染映射可以作为矩阵操作/乘法被执行。一个或多个矩阵操作/乘法可以具体地是向量操作/乘法（即使用仅具有一列或一行的矩阵）。应当了解，两个顺序乘法可以被组合成应用于经编码的拼贴的拼贴值的单个矩阵乘法。这能够通过具有反映上混（如果被执行）和渲染映射两者的矩阵系数的矩阵乘法来实现。可以例如简单地通过将与上混和渲染映射相关联的单独矩阵相乘来生成这样的矩阵。因此，在这样的情况下，上混作为单个矩阵操作的组成部分并且在无需上混拼贴值或音频对象的显式生成作为中间信号的情况下被执行。在这样的实施例中，矩阵系数因此可以反映/包括针对被指示为缩混拼贴的拼贴而非针对被指示为非缩混拼贴的拼贴的上混。具体地，当缩混指示指示拼贴是缩混拼贴时而不是当它指示拼贴是非缩混拼贴时，矩阵系数可以取决于在经编码的数据信号中接收到的上混参数。

图12的系统的方法可以由图15图示。如所图示的，音频对象的子集被直接地提供用于编码并且被编码为非缩混拼贴，即没有任何缩混。然而，另一子集（与第一子集不相交）的音频对象未被直接地提供用于编码而是首先与缩混中的其它音频对象组合。在该示例中，四个音频对象被成对地缩混为两个缩混。缩混此外生成了描述/定义原始音频对象如何可以被从缩混生成的参数上混数据（对象数据）。应当了解，可以提供这样的参数用于更长的时间间隔等，并且与原始信号相比缩混和参数数据因此提供数据减少。缩混然后连同参数数据一起被编码。在解码器侧，可以首先解除编码以为非缩混信号并且为上混生成信号值。结果得到的信号然后被处理以生成适合的输出声道。这个处理包括针对缩混（基于参数上混数据）的上混和音频对象到特定扬声器配置的映射。

在该系统中，信号在时频拼贴表示中并且具体地通过在时频拼贴域中处理而被处理。此外，提供了可以对于单独的拼贴指示单独的音频对象拼贴是否被编码为缩混拼贴或者编码为非缩混拼贴的缩混指示。这个缩混指示被从编码器传送到解码器，并且因此允许作为缩混或非缩混拼贴的拼贴的分配在逐个拼贴基础上执行。因此，图15可以被认为表示针对特定拼贴即针对特定时间和频率间隔的方法。然而，对于其它拼贴，相同的音频对象可以使用拼贴的不同分配被编码成缩混编码的拼贴和非缩混拼贴。因此，系统可以提供非常灵活的编码，并且高度粒状的方法可以允许针对给定目标速率的大量优化，其中优化对于特定信号特性来说是特定的。

该方法允许缩混编码和非缩混编码的相对度量之间（并且因此参数编码和波形编码的相对度量之间）的非常高效的权衡。例如，对于较低数据速率，相对大量的拼贴可以利用相关联的参数被参数编码为缩混拼贴。然而，仍然有可能在没有任何缩混的情况下对关键拼贴进行编码，从而降低参数编码的可能的质量降级。随着目标/可用数据速率增加，渐增数目的拼贴可以是非缩混拼贴从而提高质量（具体地音频对象被渐增地波形编码而不是参数编码并且特别地可以降低音频对象串扰）。可以继续这个趋势直到所有拼贴是非缩混拼贴并且整个编码和解码方法变得透明为止。因此，能够实现高度高效的编码和随透明度的可伸缩性。

图12的系统因此可以被视为连同伴随参数信息一起使用可用拼贴的子集预组合成缩混的拼贴的混合波形/参数方法。剩余的拼贴与经缩混的拼贴一起可以使用传统的波形编码拼贴进行编码。参数信息将使经缩混的拼贴与音频对象拼贴相关联。此外，关于每个对象如何被表示的信息（纯粹地波形或波形加参数信息——即无论被非缩混编码还是被缩混编码）同样在经编码的数据信号中被传送。这些特征特别地允许经编码的信号的数据速率的改进的可伸缩性。

一个特定示例是扩散声场的编码。在扩散声场实际上是全向的假设下，这需要实际上无限数目的对象来表示扩散声场。通常，由于人类听觉系统的局限，无需使用非常大量的对象/声道来表示扩散声场。取决于可用的比特速率，表示扩散声场的大量对象/声道能够利用伴随参数信息被缩混成较少数目的对象/声道。

在图15的示例中，八个对象被编码。编码器确定哪些对象拼贴将被组合成缩混的拼贴。除缩混之外，还得到了表示经缩混的拼贴与原始对象拼贴之间的关系的对象数据。关于原始对象的每个拼贴如何能够被得到的信息（直接波形或缩混波形加对象数据）被同样得到。由尚未被缩混的对象拼贴、已利用它们的伴随对象数据（部分地）缩混的对象拼贴以及得到信息（缩混指示）所组成的结果得到的信息被全部编码。可以使用传统的波形编码技术来对对象拼贴进行编码（无论是否被缩混）。

解码器接收一个或多个缩混拼贴，其中每个缩混拼贴表示来自音频对象中的一个或多个的一个或多个拼贴的缩混。此外，解码器接收与缩混拼贴中的对象拼贴相关联的参数数据。并且，解码器接收来自对象信号中的一个或多个中的一个或多个拼贴，其中这些拼贴不存在于缩混拼贴中。解码器进一步接收提供指示给定对象拼贴是否利用参数数据被编码为非缩混拼贴或者编码为缩混拼贴的信息的缩混指示符。基于这个信息，解码器能够使用缩混拼贴加参数信息或者使用非缩混拼贴来为输出信号生成拼贴。

在一些实施例中，对对应的拼贴执行所有操作，即对于每个拼贴的频率间隔和时间间隔独立地执行处理。具体地，通过基于覆盖相同的时间和频率间隔的编码的拼贴而生成输出信号拼贴来生成输出信号。然而，在一些实施例中，一些频率或时间变换可以作为处理的一部分被执行。例如，可以组合多个编码的拼贴以生成覆盖较大频率间隔的输出拼贴。

并且，通常缩混将是覆盖相同的频率间隔和时间间隔的拼贴的。然而，在一些实施例中，缩混可以是覆盖可能是重叠的或不相交的不同间隔的拼贴的。实际上，在一些实施例和情况中，缩混可以甚至是相同信号的两个拼贴的（例如两个拼贴沿着频率维度是相邻的）。

缩混指示的使用和传送在音频对象的编码方面并且具体地在如何组合（或不组合）音频对象作为编码过程的一部分的选择方面提供非常高度的灵活性。该方法可以取决于信号的仅一部分的特性而允许单独的信号段（单独的拼贴）被灵活地选择用于与其它信号段组合。实际上，并非仅仅选择哪些信号或对象能够被一起缩混，而是基于拼贴的缩混指示的应用允许这样的考虑对于单独的信号段并且具体地对于单独的拼贴被执行。

在一些实施例中，缩混指示可以包括针对每个对象的每个拼贴的单独指示，并且编码器可以针对每个拼贴确定该拼贴是否被缩混，并且如果是这样的话，则可以判定应该与其它哪一个或其它哪些拼贴缩混。因此，在这样的实施例中，可以对于所有对象执行缩混的基于单独的拼贴的优化。实际上，可以执行全局优化过程以对于给定目标速率实现最高音频质量。

该方法可以具体地允许给定对象的一些拼贴与其它拼贴缩混，然而对象的其它拼贴在没有任何缩混的情况下被编码。因此，一个对象的编码可以包括缩混的拼贴和非缩混拼贴两者。这可以实质上改进编码效率和/或质量。

例如，两个音频对象可以在给定时间段中包含（例如由于低信号值）感知上不太重要的一些频率间隔，然而其它频率间隔是感知上更加重要的。在这种情况下，感知上不太紧要的间隔中的拼贴可以被一起缩混，然而感知上更加紧要的间隔保持独立以避免串扰并且改进质量。

并且，应当了解，在不同缩混中所牵涉的对象可以是变化的。例如，对于给定对象，一个拼贴可以与一个其它对象缩混然而另一拼贴可以与另一对象缩混。作为特定示例，对于较低频率缩混对象1和2可能是有利的，然而对于较高频率，缩混对象1和3可能是有利的（假定在示例中对象1在高频率和低频率两者下具有低信号能量，对象2在低频率下具有低信号能量但是在高频率下具有高信号能量，并且对象3在高频率下具有低信号能量但是在低频率下具有高信号能量）。

被缩混成给定缩混拼贴的拼贴的数目此外在许多实施例中不限于两个拼贴，而是实际上在一些实施例和情况中，可以通过缩混3、4或甚至更多的拼贴来生成一个或多个缩混拼贴。

灵活性在时间方向上进一步延伸，并且实际上拼贴变成缩混拼贴和非缩混拼贴的分布可以暂时变化。因此可以动态地改变分布，并且特别地可以针对每个时间段来确定新的分布/分配。

还应当了解，未必要求所有对象包括被缩混的一个或多个拼贴。实际上，可能的是对象中的一个或多个中的所有拼贴可以是非缩混拼贴从而提供这些对象的高音频质量。如果一个对象具有特定感知意义（诸如针对音乐音频场景的声乐）则这可能是特别适当的。同样地，可能的是一个或多个音频对象的所有拼贴被整个地编码为缩混拼贴。

可能的灵活性的示例在图16中被图示，图16示出了一个时间段中的拼贴的分布。在图16中，每列由给定音频输入信号的拼贴组成并且每行是特定频率间隔（与拼贴相对应）。该示例图示了五个音频对象（由字母o表示）和两个音频声道信号（由字母c表示）。此外，该示例是基于对于每个频率间隔可以包括两个缩混（由字母d 表示）的段的编码的。

在该示例中，第一频率间隔（即第一行）使用仅两个缩混拼贴被编码。具体地，在这个间隔中，三个最左边对象的拼贴和两个音频声道可以被组合成第一缩混并且两个最右边对象的拼贴可以被组合成第二缩混拼贴。

在下一个频率间隔/行中，所有拼贴被编码为非缩混拼贴。在下一个频率间隔/行中，两个音频声道的两个拼贴被缩混成一个缩混拼贴然而所有对象拼贴被编码为非缩混拼贴。在下一个频率间隔/行中，两个最右边对象的两个拼贴被缩混成一个缩混拼贴然而所有其它拼贴被编码为非缩混拼贴。等等。

为了结果得到的信号/拼贴的高效编码，可以例如使用针对稀疏矩阵存储的现有技术。附加地或可替换地，能够采用各种技术来在拼贴的编码中改进比特率效率。例如，用于给定对象/拼贴的量化电平可能由于通过场景中的其它对象/拼贴的空间掩蔽而增加。在极端情况下，可以例如根本不发送给定拼贴（即量化为零）。

应当了解，不同的方法、算法或准则能够被用于选择哪些拼贴被缩混（并且缩混成哪些缩混）。

在许多实施例中，选择器1303可以选择用于响应于用于经编码的音频信号的目标数据速率进行缩混的拼贴。特别地，被缩混的拼贴的数目和/或被包括在经编码的音频信号中的缩混的数目可能依赖于可用的（即目标）数据速率。因此，对于较低数据速率，生成了相对大量的缩混。随着目标数据速率增加，缩混的数目减少，并且实际上如果数据速率是足够高的，则系统可以选择不执行任何缩混。在极其低的比特率下缩混的数目可以是少的，但是每个缩混可以是大量拼贴的缩混。因此，相对少量的缩混可以表示多个音频信号的大多数（如果并非全部）频率拼贴。

选择器1303（还）可以响应于拼贴的能量来执行选择。具体地，表示拼贴中的信号分量的低能量的拼贴可以被缩混，然而表示拼贴中的信号分量的较高能量的拼贴可以被编码为非缩混拼贴。较低能量很可能是感知上不太要紧的，并且因此可以相应地减少缩混编码的影响（implications）（诸如串扰）。在一些情况下，使在给定缩混中被组合的拼贴的能量平衡可能是有利的。这可以例如减少串扰，因为信号将在给定拼贴中是更相似的。

在一些实施例中，选择可以响应于拼贴的空间特性。例如，音频对象可以表示很可能靠近彼此定位的音频对象并且因此这些拼贴可以被选择为被一起缩混。在许多实施例中，空间上靠近的对象将被组合。这个的基本原理是在对象之间需要的空间分离越多，将发生的空间暴露越多。特别地，串扰在它是在两个靠近的音频源之间时比在它针对空间上彼此远离的两个音频源时不太可能被感知到。

在一些实施例中，选择可以响应于成对拼贴之间的相干性特性。实际上，紧密地相关的信号之间的串扰比在仅非常松散地相关的信号之间的不太可能被感知到。

应当了解，通过缩混指示对信息的特定表示可能取决于单独实施例的特定要求和偏好。

作为示例，预定限制可以是仅能够在特定对中一起缩混音频对象。例如，对象1的拼贴仅能够与对象2的拼贴（在相同的频率和时间间隔中）缩混，对象3的拼贴仅能够与对象4的拼贴缩混等。在这样的情况下，缩混指示可以简单地指示哪些拼贴被缩混并且不必显式地指示在特定缩混中被缩混的拼贴的标识符。例如，对于对象1和2的每个频率间隔缩混指示可以包括一个比特，其中所述比特简单地指示拼贴是否被缩混。解码器可以解释这个比特并且如果该比特指示拼贴是缩混则执行拼贴的上混以便为对象1和2生成拼贴。

实际上，缩混指示不必是显式的但是可以由其它数据提供。特别地，对于缩混生成参数数据的实施例，拼贴为缩混拼贴的指示可以简单地由参数上混数据的存在来提供。因此，如果在音频信号中提供了描述如何从编码的拼贴生成（一个或多个）上混拼贴的参数，则这提供了拼贴实际上是缩混拼贴的指示。

在许多实施例中，缩混指示可以指示哪些对象拼贴在给定缩混拼贴中被缩混。缩混指示可以针对被编码为缩混拼贴的一个或多个（可能全部）拼贴提供缩混拼贴与音频对象的拼贴之间的链接。链接可以标识在缩混中被缩混的拼贴。例如，链接数据可以针对给定缩混拼贴指示它假定是对象1和2的缩混，对于另一缩混拼贴它假定是对象2、4以及7的缩混等。

包括已被缩混成缩混拼贴的对象拼贴的标识可以提供增加的灵活性，并且能够避免对于对哪些拼贴可以被缩混的预定限制的任何需要。该方法可以允许完全自由的优化，其中缩混的拼贴可以被按照任何组合缩混以针对给定数据速率提供优化的（感性的）音频质量。

还应当了解，能够在不同的实施例中不同地构造缩混指示。特别地，应当了解，可以参照原始对象拼贴（更一般地正被编码的音频信号的拼贴）提供缩混指示数据。例如，对于每个对象的每个拼贴，参数上混数据的存在可以指示该拼贴是缩混拼贴。对于这个拼贴，提供了从它链接到特定编码的缩混拼贴的数据。例如，数据可以在所对应的缩混拼贴已被编码的经编码的数据信号中提供数据位置的指针。

等同地，可以参考经编码的拼贴（并且特别地参考音频信号的经编码的缩混拼贴）提供缩混指示数据。例如，对于音频信号的编码的拼贴，音频信号可以包括标识缩混拼贴表示哪些对象的数据段。

应当了解，这些方法是等同的并且被经编码的拼贴所参考的缩混指示内在地还为对象拼贴提供缩混指示。例如注意，由指示例如

对象A的拼贴N被缩混成编码的拼贴X、

对象B的拼贴M被缩混成编码的拼贴X、

的数据（即为对象拼贴所参考的数据）提供的信息提供了与指示如下的数据完全相同的信息：

编码的拼贴X是对象A的拼贴N和对象B的拼贴M的缩混。

（即为经编码的拼贴所参考的数据）。

数据在经编码的数据信号中的布置可以取决于特定实施例。例如，在一些实施例中，可以在与经编码的数据拼贴和参数更新分开的一个数据段中提供表示缩混指示的数据。在其它实施例中，数据可以是散置的，例如其中每个编码的缩混数据拼贴伴随有包括上混参数的字段和包括在缩混中的对象拼贴的标识。

例如，可以通过被顺序地布置在数据流中的对象信号来构造经编码的音频信号。因此，可以为对象1提供第一数据。这个数据可以包括多个顺序数据段，其中的每一个时间段表示一个拼贴（例如按照渐增频率排列）。因此，第一段包括针对对象1的拼贴1的编码的拼贴，下一个段包括针对对象1的拼贴2的编码的拼贴等。

如果段包括作为非缩混拼贴的编码的拼贴，则仅经编码的拼贴数据被包括在该段中。然而，如果拼贴已被编码为缩混拼贴，则段包括经编码的缩混数据，即缩混拼贴。然而，此外，段包括包含用于从缩混拼贴为对象1生成拼贴的参数上混参数的字段。这指示该段包含缩混拼贴。此外，标识哪一个（或哪些）其它拼贴被组合成缩混的字段被包括（例如，它可以包含指示对象2的对应拼贴也由缩混来表示的数据）。

经编码的音频信号因此能够包含针对第一音频对象的所有拼贴的顺序段。

然后对于下一个音频对象重复相同的方法，即紧跟针对对象1的编码数据之后，针对对象2的经编码的数据被提供在多个段中，所述多个段中的每一个对应于一个拼贴。然而，在这种情况下，不包括已经被提供在较早段（例如针对先前的对象）中的缩混编码数据。例如，如果为对象1和2的拼贴2生成了缩混，则已经为对象1的拼贴2提供了这个编码的缩混数据，并且因此针对对象2的拼贴2的数据段不包含任何编码的数据。然而，在一些实施例中它可以包括用于从缩混拼贴生成对象2的拼贴2的上混参数。在其它实施例中，可能不提供这个数据（即可以使用盲上混）或者它可以被提供有经编码的拼贴数据（即在针对对象1的拼贴2的数据段中）。在这样的实施例中，当前段可以是空的或者被跳过。

可以利用如下原理对于所有对象继续这个方法：编码的缩混数据仅当在经编码的数据信号的顺序拼贴布置中第一次遇到它时被包括。可以像用被顺序地布置在经编码的音频信号中的时间段所描述的那样提供每个时间段的经编码的数据。

应当了解，许多其它布置是可能的并且可以使用任何适合的布置。

上述描述已集中于音频对象的编码。然而，应当了解方法也适用于其它音频信号。具体地，它可以适用于空间多声道信号的音频信号/声道和/或针对与标称扬声器配置中的标称位置相关联的声道的音频信号的编码。具体地，在先前描述中对音频对象的参考可以视需要而被认为是对音频信号的参考。

实际上，可以在基于混合声道/对象的系统中使用该方法。象这样的示例在图17中被图示。在该示例中，音频声道和对象两者像针对音频对象先前所描述的那样被以类似的方式对待。编码器判定对象和/或声道的哪些拼贴将被组合。这个选择能够具体地将音频声道和对象的拼贴组合成（混合）缩混拼贴。

应当了解，上述描述为了清楚已参考不同的功能电路、单元以及处理器描述了本发明的实施例。然而，将显而易见的是，在不脱离本发明的情况下可以使用不同的功能电路、单元或处理器之间的功能性的任何适合分布。例如，被图示成由单独的处理器或控制器执行的功能性可以由同一处理器或控制器来执行。因此，对特定功能单元或电路的参考仅将被视为对用于提供所描述的功能性的适合装置的引用，而不是指示严格的逻辑或物理结构或组织。

本发明能够以包括硬件、软件、固件或这些的任何组合的任何适合的形式加以实现。本发明可选地可以被至少部分地实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的元件和组件可以以任何适合的方式被在物理上、功能上以及逻辑上实现。实际上，功能性可以被实现在单个单元中、实现在多个单元中或者实现为其它功能单元的一部分。同样地，本发明可以被实现在单个单元中，或者可以在物理上和功能上被分布在不同的单元、电路以及处理器之间。

尽管已经连同一些实施例描述了本发明，但是它不意在限于本文中所阐述的特定形式。相反，本发明的范围仅受所附权利要求限制。附加地，尽管特征可以看来似乎被连同特定实施例一起描述，但是本领域的技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语包括不排除其它元件或步骤的存在。

此外，尽管被单独地列举，但是多个装置、元件、电路或方法步骤可以例如由单个电路、单元或处理器来实现。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可能可以被有利地组合，并且在不同的权利要求中的包括不暗示特征的组合是不可行的和/或有利的。并且特征在一个类别的权利要求中的包括不暗示对这个类别的限制，而是指示特征视情况而定同样地适用于其它权利要求类别。此外，权利要求中的特征的次序不暗示特征必须以其来工作的任何特定次序，并且特别地，方法权利要求中的单独的步骤的次序不暗示必须按照这个次序执行步骤。相反，可以按照任何适合的次序执行步骤。此外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅仅作为澄清示例来提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种解码器，其包括：

接收器（1401），其用于接收表示多个音频信号的编码的数据信号，所述编码的数据信号包括用于所述多个音频信号的编码的时频拼贴，所述编码的时频拼贴包括非缩混时频拼贴和缩混时频拼贴，每个缩混时频拼贴是所述多个音频信号的至少两个时频拼贴的缩混并且每个非缩混时频拼贴表示所述多个音频信号的仅一个时频拼贴，所述编码的数据信号进一步包括针对所述多个音频信号的时频拼贴的缩混指示，所述缩混指示指示所述多个音频信号的时频拼贴是否被编码为缩混时频拼贴或非缩混时频拼贴；

生成器（1403），其用于从所述编码的时频拼贴生成输出信号的集合，所述输出信号的生成包括针对由所述缩混指示指示为缩混时频拼贴的编码的时频拼贴的上混。

2.根据权利要求1所述的解码器，其中所述编码的数据信号此外包括参数上混数据，并且其中所述生成器（1403）被布置成响应于所述参数数据来适配上混操作。

3.根据权利要求1所述的解码器，其中所述生成器（1403）包括渲染单元，所述渲染单元被布置成将用于所述多个音频信号的时频拼贴映射到与空间声源配置相对应的输出信号。

4.根据权利要求1所述的解码器，其中所述生成器（1403）被布置成通过对所述编码的时频拼贴应用矩阵操作来为输出信号的集合生成时频拼贴，矩阵操作的系数包括用于对于其来说所述缩混指示指示所述编码的时频拼贴是缩混时频拼贴的编码的时频拼贴而不用于对于其来说所述缩混指示指示所述编码的时频拼贴是非缩混时频拼贴的编码的时频拼贴的上混分量。

5.根据权利要求1所述的解码器，其中至少一个音频信号通过至少一个非缩混时频拼贴和至少一个缩混时频拼贴被表示在经解码的信号中。

6.根据权利要求1所述的解码器，其中针对至少一个缩混时频拼贴的所述缩混指示包括编码的缩混时频拼贴与所述多个音频信号的时频拼贴之间的链接。

7.根据权利要求1所述的解码器，其中所述多个音频信号中的至少一个音频信号由作为所述多个音频信号中的音频信号的不同集合的缩混的两个缩混时频拼贴来表示。

8.根据权利要求1所述的解码器，其中所述多个音频信号中的至少一个音频信号由包括不作为非缩混时频拼贴或缩混时频拼贴的至少一个编码的时频拼贴的编码的时频拼贴来表示。

9.根据权利要求1所述的解码器，其中至少一个缩混时频拼贴是不与声源渲染配置的标称声源位置相关联的音频对象和与声源渲染配置的标称声源位置相关联的音频声道的缩混。

10.根据权利要求1所述的解码器，其中所述非缩混时频拼贴中的至少一些被波形编码。

11.根据权利要求1所述的解码器，其中所述缩混时频拼贴中的至少一些被波形编码。

12.根据权利要求1所述的解码器，其中所述生成器（1403）被布置成上混所述缩混频率拼贴以为缩混时频拼贴的所述多个音频信号中的至少一个生成上混的时频拼贴；并且所述生成器被布置成针对对于其来说所述缩混指示指示所述编码的时频拼贴是缩混时频拼贴的拼贴而使用所述上混的时频拼贴来为输出信号的集合生成时频拼贴。

13.一种解码的方法，其包括：

接收表示多个音频信号的编码的数据信号，所述编码的数据信号包括用于所述多个音频信号的编码的时频拼贴，所述编码的时频拼贴包括非缩混时频拼贴和缩混时频拼贴，每个缩混时频拼贴是所述多个音频信号的至少两个时频拼贴的缩混并且每个非缩混时频拼贴表示所述多个音频信号的仅一个时频拼贴，所述编码的数据信号进一步包括针对所述多个音频信号的时频拼贴的缩混指示，所述缩混指示指示所述多个音频信号的时频拼贴是否被编码为缩混时频拼贴或非缩混时频拼贴；以及

从所述编码的时频拼贴生成输出信号的集合，所述输出信号的生成包括针对由所述缩混指示指示为缩混时频拼贴的编码的时频拼贴的上混。

14.一种编码器，其包括

接收器（1301），其用于接收多个音频信号，每个音频信号包括多个时频拼贴；

选择器（1303），其用于选择待缩混的所述多个时频拼贴的第一子集；

缩混器（1305），其用于缩混所述第一子集的时频拼贴以生成缩混的时频拼贴；

第一编码器（1307），其用于通过对所述缩混时频拼贴进行编码来生成缩混编码的时频拼贴；

第二编码器（1309），其用于通过在没有所述第二子集的时频拼贴的缩混的情况下对所述音频信号的所述时频拼贴的第二子集进行编码来生成非缩混时频拼贴；

单元（1311），其用于生成指示所述第一子集和所述第二子集的时频拼贴是否被编码为缩混编码的时频拼贴或者编码为非缩混时频拼贴的缩混指示；

输出（1313），其用于生成表示所述多个音频信号的编码的音频信号，所述编码的音频信号包括所述非缩混时频拼贴、所述缩混编码的时频拼贴以及所述缩混指示。

15.根据权利要求14所述的编码器，其中所述选择器（1303）被布置成响应于用于所述编码的音频信号的目标数据速率来为所述第一子集选择时频拼贴。

16.根据权利要求14所述的编码器，其中选择器（1303）被布置成响应于下列中的至少一个来为所述第一子集选择时频拼贴：

所述时频拼贴的能量；

所述时频拼贴的空间特性；以及

成对所述时频拼贴之间的相干性特性。

17.一种编码的方法，其包括：

接收多个音频信号，每个音频信号包括多个时频拼贴；

选择待缩混的所述多个时频拼贴的第一子集；

缩混所述第一子集的时频拼贴以生成缩混的时频拼贴；

通过对经缩混的时频拼贴进行编码来生成缩混编码的时频拼贴；

通过在没有所述第二子集的时频拼贴的缩混的情况下对所述音频信号的所述时频拼贴的第二子集进行编码来生成非缩混时频拼贴；

生成指示所述第一子集和所述第二子集的时频拼贴是否被编码为缩混编码的时频拼贴或者编码为非缩混时频拼贴的缩混指示；以及

生成表示多个音频信号的编码的音频信号，所述编码的音频信号包括所述非缩混时频拼贴、所述缩混编码的时频拼贴以及所述缩混指示。

18.一种编码和解码系统，其包括根据权利要求1所述的编码器和根据权利要求14所述的解码器。

19.一种计算机程序产品，其包括被适配成在所述程序在计算机上运行时执行根据权利要求13或17所述的所有步骤的计算机程序代码装置。