CN109712630A

CN109712630A - 包括音频对象的音频场景的高效编码

Info

Publication number: CN109712630A
Application number: CN201910055563.3A
Authority: CN
Inventors: H·普恩哈根; K·克约尔林; T·赫冯恩; L·维勒莫斯; D·J·布瑞巴特
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2019-05-03
Anticipated expiration: 2034-05-23
Also published as: KR20160003039A; BR112015029113B1; CN109410964A; KR102033304B1; EP3312835B1; RU2017134913A; JP2016525699A; US20220189493A1; EP3005353A1; CN105229733B; RU2017134913A3; CN109712630B; CN105229733A; US9852735B2; US11705139B2; CN110085240A; WO2014187991A1; ES2643789T3; RU2745832C2; JP2017199034A

Abstract

本公开涉及一种包括音频对象的音频场景的高效编码。提供用于基于对象的音频的编码和解码的编码和解码方法。其中，示例性编码方法包括：通过形成N个音频对象的组合来计算M个下混信号，其中，M≤N；以及计算允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数。根据独立于任何外放扬声器配置的准则来进行M个下混信号的计算。

Description

包括音频对象的音频场景的高效编码

本申请是申请日为2014年5月23日的、申请号为201480029569.9(国际申请号为PCT/EP2014/060734)以及发明名称为“包括音频对象的音频场景的高效编码”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2013年5月24日提交的美国临时专利申请No：61/827246、2013年10月21日提交的美国临时专利申请No：61/893770、以及2014年4月1日提交的美国临时专利申请No：61/973623的申请日的权益，其中的每一个通过其完整引用合并到此。

技术领域

本公开在此总体上涉及包括音频对象的音频场景的编码。具体地说，其涉及用于音频对象的编码和解码的编码器、解码器以及相关联的方法。

背景技术

音频场景可以通常包括音频对象和音频通道。音频对象是具有可以随时间而变化的关联空间位置的音频信号。音频通道是直接与多通道扬声器配置(如具有三个前部扬声器、两个环绕扬声器以及一个低频效果扬声器的所谓的5.1扬声器配置)对应的音频信号。

由于音频对象的数量通常可以非常大，(例如在几百个音频对象的量级上)，因此需要允许在解码器侧处高效地重构音频对象的编码方法。已经建议在编码器侧上将音频对象组合为多通道下混(downmix)(即与特定多通道扬声器配置(如5.1配置)的通道对应的多个音频通道)，并且在解码器侧上从多通道下混以参变方式重构音频对象。

该方法的优点在于，不支持音频对象重构的传统解码器可以直接使用多通道下混，以用于多通道扬声器配置上的回放。通过示例的方式，可以在5.1配置的外放扬声器上直接播放5.1下混。

然而，该方法的缺点在于，多通道下混无法在解码器侧处给出音频对象的足够好的重构。例如，考虑具有与5.1配置的左前部扬声器相同的水平位置但不同的垂直位置的两个音频对象。这些音频对象将通常组合到5.1下混的同一通道中。这将在解码器侧处构成对于音频对象重构的以下挑战情况，必须从同一下混通道重构两个音频对象的近似，即一种不能确保完全重构并且有时甚至导致听觉伪声的处理。

因此需要提供高效并且改进的音频对象的重构的编码/解码方法。

在从例如下混重构音频对象期间一般采用辅助信息或元数据。该辅助信息的形式和内容可能例如影响所重构的音频对象的保真度和/或执行重构的计算复杂度。因此，将期望提供具有新的以及替选的辅助信息格式的编码/解码方法，其允许增加所重构的音频对象的保真度，和/或其允许减少重构的计算复杂度。

附图说明

现将参照附图描述示例实施例，在附图上：

图1是根据示例性实施例的编码器的示意性图解；

图2是根据示例性实施例的支持音频对象重构的解码器的示意性图解；

图3是根据示例性实施例的不支持音频对象重构的低复杂度解码器的示意性图解；

图4是根据示例性实施例的包括用于简化音频场景的依次布置的聚类组件的编码器的示意性图示；

图5是根据示例性实施例的包括用于简化音频场景的并行布置的聚类组件的编码器的示意性图解；

图6示出用于计算用于元数据实例集合的呈现矩阵的典型已知处理；

图7示出在呈现音频信号中所采用的系数曲线的推导；

图8示出根据示例实施例的元数据实例内插方法；

图9和图10示出根据示例实施例的引入附加元数据实例的示例；以及

图11示出根据示例实施例的使用具有低通滤波器的采样和保持电路的内插方法。

所有附图是示意性的并且通常仅示出为了阐明本公开而必需的部分，而其它部分可以省略或仅提及。除非另外声明，否则在不同附图中相似标号指代相同部分。

具体实施方式

鉴于上述，因此目的是提供一种编码器、解码器以及相关联的方法，其允许高效并且改进的音频对象重构，和/或其允许增加所重构的音频对象的保真度，和/或其允许减少重构的计算复杂度。

I.概述-编码器

根据第一方面，提供一种用于对音频对象进行编码的编码方法、编码器以及计算机程序产品。

根据示例性实施例，提供一种用于将音频对象编码到数据流中的方法，包括：

接收N个音频对象，其中，N>1；

通过根据独立于任何外放扬声器配置的准则来形成所述N个音频对象的组合，计算M个下混信号，其中，M≤N；

计算包括允许从所述M个下混信号重构基于所述N个音频对象形成的音频对象集合的参数的辅助信息；以及

将所述M个下混信号和所述辅助信息包括在数据流中，用于发送到解码器。

使用以上布置，就独立于任何外放扬声器配置从N个音频对象形成M个下混信号。这意味着M个下混信号并不限于适合于在具有M个通道的扬声器配置的通道上的回放的音频信号。反之，可以根据准则来更自由地选择M个下混信号，以使得它们例如适用于N个音频对象的动态并且改进在解码器侧处的音频对象的重构。

返回具有与5.1配置的左前部扬声器相同的水平位置但不同的垂直位置的两个音频对象的示例，所提出的方法允许将第一音频对象放在第一下混信号中，并且将第二音频对象放在第二下混信号中。这样使得能够在解码器中完全重构音频对象。通常，只要起作用的音频对象的数量不超过下混信号的数量，这种完全重构就是可能的。如果起作用的音频对象的数量较高，则所提出的方法允许选择必须被混合到同一下混信号中的音频对象，以使得解码器中的所重构的音频对象中产生的可能近似误差对所重构的音频场景没有或尽可能小的感知影响。

M个下混信号为自适应的第二优点是用于保持特定音频对象与其它音频对象严格分离的能力。例如，可以有利地保持任何对话对象与背景对象分离，以确保就空间属性而言精确地呈现对话，并且允许解码器中的对象处理(如对话增强或对话响度的增加，以用于改进的智能性)。在其它应用(例如卡拉OK)中，可以有利的是，允许完成一个或更多个对象的静音，这也要求这些对象不与其它对象混合。使用与特定扬声器配置对应的多通道下混的传统方法不允许其它音频对象的混合中出现的音频对象的完全静音。

词语下混信号反映下混信号是其它信号的混合体(即组合)。词语“下”指示下混信号的数量M通常低于音频对象的数量N。

根据示例性实施例，所述方法可以还包括：将每个下混信号与空间位置进行关联，并且将下混信号的空间位置包括在数据流中作为用于下混信号的元数据。这样的有利之处在于，其允许在传统回放系统的情况下使用低复杂度解码。更准确地说，与下混信号关联的元数据可以用在解码器侧上，以用于将下混信号呈现给传统回放系统的通道。

根据示例性实施例，N个音频对象与包括N个音频对象的空间位置的元数据关联，基于N个音频对象的空间位置来计算与下混信号关联的空间位置。因此，下混信号可以解释为具有取决于N个音频对象的空间位置的空间位置的音频对象。

此外，N个音频对象的空间位置以及与M个下混信号关联的空间位置可以是时变的，即，它们可以在音频数据的各时间帧之间变化。换言之，下混信号可以解释为具有在各时间帧之间变化的关联位置的动态音频对象。这与下混信号对应于固定空间外放扬声器位置的现有技术系统形成对比。

通常，辅助信息也是时变的，由此允许掌控音频对象重构的参数在时间上变化。

编码器可以应用不同的准则，以用于计算下混信号。根据示例性实施例，其中，N个音频对象与包括N个音频对象的空间位置的元数据关联，用于计算M个下混信号的准则可以基于N个音频对象的空间接近度。例如，彼此靠近的音频对象可以组合为同一下混信号。

根据示例性实施例，其中，与N个音频对象关联的元数据还包括指示N个音频对象相对于彼此的重要性的重要性值，用于计算M个下混信号的准则可以进一步基于N个音频对象的重要性值。例如，N个音频对象中的最重要的音频对象可以直接映射为下混信号，而其余音频对象被组合以形成其余下混信号。

具体地说，根据示例性实施例，计算M个下混信号的步骤包括第一聚类过程，其包括：基于N个音频对象的空间接近度和重要性值(若可用的话)将所述N个音频对象与M个聚类关联，以及通过形成与聚类关联的音频对象的组合来计算用于每个聚类的下混信号。在一些情况下，音频对象可以形成至多一个聚类的一部分。在其它情况下，音频对象可以形成若干聚类的一部分。以此方式，从音频对象形成不同的分组(即聚类)。每个聚类可以进而由可以看作音频对象的下混信号来表示。所述聚类方法允许将每个下混信号与基于音频对象(这些音频对象和与下混信号对应的聚类关联)的空间位置而计算出的空间位置进行关联。通过这种解释，第一聚类过程因此以灵活的方式将N个音频对象的维度减少为M个音频对象。

与每个下混信号关联的空间位置可以例如被计算为与和下混信号对应的聚类关联的音频对象的空间位置的质心或加权质心。权重可以例如基于音频对象的重要性值。

根据示例性实施例，通过应用具有N个音频对象的空间位置作为输入的K-means算法，所述N个音频对象得以与M个聚类关联。

由于音频场景可以包括巨大数量的音频对象，因此所述方法可以采取进一步措施，以用于减少音频场景的维度，由此当重构所述音频对象时减少在解码器侧处的计算复杂度。具体地说，所述方法还包括第二聚类过程，用于将第一组多个音频对象减少为第二组多个音频对象。

根据一个实施例，在计算M个下混信号之前，执行第二聚类过程。在该实施例中，第一组多个音频对象因此与音频场景的初始音频对象对应，并且减少的第二组多个音频对象与计算M个下混信号所基于的N个音频对象对应。此外，在该实施例中，基于N个音频对象形成的(待在解码器中重构的)音频对象集合与N个音频对象对应(即相等)。

根据另一实施例，与计算M个下混信号并行地执行第二聚类过程。在该实施例中，计算M个下混信号所基于的N个音频对象以及输入到第二聚类过程的第一组多个音频对象与音频场景的初始音频对象对应。此外，在该实施例中，基于N个音频对象所形成的(待在所述解码器中重构的)音频对象集合与第二组多个音频对象对应。以此方法，因此基于音频场景的初始音频对象而不基于减少数量的音频对象来计算M个下混信号。

根据示例性实施例，所述第二聚类过程包括：

接收第一组多个音频对象及其关联空间位置，

基于第一组多个音频对象的空间接近度而将第一组多个音频对象与至少一个聚类进行关联，

通过用作为与至少一个聚类中的每一个相关联的音频对象的组合的音频对象来表示所述每一个聚类而生成第二组多个音频对象，

计算包括用于第二组多个音频对象的空间位置的元数据，其中，基于与对应聚类相关联的音频对象的空间位置而计算第二组多个音频对象的每个音频对象的空间位置；以及

将用于第二组多个音频对象的元数据包括在数据流中。

换言之，第二聚类过程利用音频场景(如具有等同或非常相似的位置的对象)中出现的空间冗余性。此外，当生成第二组多个音频对象时，可以考虑音频对象的重要性值。

如上所述，音频场景可以还包括音频通道。这些音频通道可以看作音频对象与静态位置(即与音频通道对应的外放扬声器的位置)关联。更详细地说，第二聚类过程可以还包括：

接收至少一个音频通道；

将至少一个音频通道中的每一个转换为具有与该音频通道的外放扬声器位置对应的静态空间位置的音频对象；以及

将转换后的至少一个音频通道包括在第一组多个音频对象中。

以此方式，所述方法允许对包括音频通道以及音频对象的音频场景进行编码。

根据示例性实施例，提供一种计算机程序产品，包括具有用于执行根据示例性实施例的解码方法的指令的计算机可读介质。

根据示例性实施例，提供一种用于将音频对象编码到数据流中的编码器，包括：

接收组件，被配置为接收N个音频对象，其中，N>1；

下混组件，被配置为：通过根据独立于任何外放扬声器配置的准则形成N个音频对象的组合，来计算M个下混信号，其中，M≤N；

分析组件，被配置为：计算包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数的辅助信息；以及

复用组件，被配置为：将M个下混信号和辅助信息包括在数据流中，以用于发送到解码器。

II.概述-解码器

根据第二方面，提供一种用于对多通道音频内容进行解码的解码方法、解码器和计算机程序产品。

第二方面可以总体上具有与第一方面相同的特征和优点。

根据示例性实施例，提供一种用于对包括所编码的音频对象的数据流进行解码的解码器中的方法，包括：

接收数据流，数据流包括：M个下混信号，其为根据独立于任何外放扬声器配置的准则所计算出的N个音频对象的组合，其中，M≤N；以及辅助信息，其包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数；以及

从M个下混信号和辅助信息重构基于N个音频对象所形成的音频对象集合。

根据示例性实施例，所述数据流还包括含有与M个下混信号关联的空间位置的用于M个下混信号的元数据，所述方法还包括：

在解码器被配置为支持音频对象重构的状况时，执行步骤：从M个下混信号和辅助信息重构基于N个音频对象所形成的音频对象集合；以及

在解码器并未被配置为支持音频对象重构的状况时，使用用于M个下混信号的元数据，以用于将M个下混信号呈现给回放系统的输出通道。

根据示例性实施例，与M个下混信号关联的空间位置是时变的。

根据示例性实施例，辅助信息是时变的。

根据示例性实施例，所述数据流还包括用于基于N个音频对象所形成的音频对象集合的元数据，所述元数据含有基于N个音频对象所形成的音频对象集合的空间位置，所述方法还包括：

使用用于基于N个音频对象所形成的音频对象集合的元数据，以用于将所重构的基于N个音频对象所形成的音频对象集合呈现给回放系统的输出通道。

根据示例性实施例，基于N个音频对象所形成的音频对象集合等于N个音频对象。

根据示例性实施例，基于N个音频对象所形成的音频对象集合包括作为N个音频对象的组合的多个音频对象，并且其数量小于N。

根据示例性实施例，提供一种用于对包括编码的音频对象的数据流进行解码的解码器，包括：

接收组件，被配置为：接收数据流，数据流包括：M个下混信号，其为根据独立于任何外放扬声器配置的准则所计算出的N个音频对象的组合，其中，M≤N；以及辅助信息，其包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数；以及

重构组件，被配置为：从M个下混信号和辅助信息重构基于N个音频对象所形成的音频对象集合。

III.概述-用于辅助信息和元数据的格式

根据第三方面，提供一种用于对音频对象进行编码的编码方法、编码器以及计算机程序产品。

根据第三方面的方法、编码器和计算机程序产品可以总体上具有与根据第一方面的方法、编码器和计算机程序产品共同的特征和优点。

根据示例实施例，提供一种用于将音频对象编码为数据流的方法。所述方法包括：

接收N个音频对象，其中，N>1；

通过形成N个音频对象的组合来计算M个下混信号，其中，M≤N；

计算包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数的可时变的辅助信息；以及

将M个下混信号和辅助信息包括在数据流中，以用于发送到解码器。

在该示例实施例中，所述方法还包括，将以下项包括在数据流中：

多个辅助信息实例，其指定用于重构基于N个音频对象所形成的音频对象集合的各个期望重构设置；以及

用于每个辅助信息实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡的时间点以及完成过渡的时间点。

在该示例实施例中，辅助信息是可时变(例如时变)的，从而允许掌控音频对象重构的参数关于时间而变化，其通过所述辅助信息实例的存在而得以反映。通过采用包括限定从当前重构设置到各个期望重构设置的过渡的开始时间点和完成时间点的过渡数据的辅助信息格式，使得辅助信息实例在这样的意义上更彼此独立：可以基于当前重构设置以及由单个辅助信息实例所指定的单个期望重构设置而执行内插，即无须获知任何其它辅助信息实例。所提供的辅助信息格式因此便于在各现有辅助信息实例之间计算/引入附加辅助信息实例。具体地说，所提供的辅助信息格式允许在不影响回放质量的情况下计算/引入附加辅助信息实例。在该公开中，在各现有辅助信息实例之间计算/引入新辅助信息实例的处理称为辅助信息的“重新采样”。在特定音频处理任务期间，常需要辅助信息的重新采样。例如，当通过例如剪切/融合/混合来编辑音频内容时，这些编辑可能产生在各辅助信息实例之间。在此情况下，可能需要辅助信息的重新采样。另一这种情况是，当用基于帧的音频编解码器来对音频信号和关联辅助信息进行编码时。在此情况下，期望关于每个音频编解码器帧具有至少一个辅助信息实例，优选地具有在该编解码器帧的开始处的时间戳，以改进在传输期间的帧丢失的适应力。例如，音频信号/对象可以是包括视频内容的视听信号或多媒体信号的一部分。在这些应用中，可能期望修改音频内容的帧率，以匹配视频内容的帧率，由此可能期望辅助信息的对应重新采样。

包括下混信号和辅助信息的数据流可以例如是比特流，具体地说，所存储的或所发送的比特流。

应理解，通过形成N个音频对象的组合来计算M个下混信号意味着，通过形成N个音频对象中的一个或更多个的音频内容的组合(例如线性组合)来获得M个下混信号中的每一个。换言之，N个音频对象中的每一个无须一定贡献于M个下混信号中的每一个。

词语下混信号反映下混信号是其它信号的混合体(即组合)。下混信号可以例如是其它信号的加性混合体。词语“下”指示下混信号的数量M通常低于音频对象的数量N。

根据第一方面内的任何示例实施例，可以例如通过根据独立于任何外放扬声器配置的准则来形成N个音频信号的组合而计算下混信号。替代地，可以例如通过形成N个音频信号的组合来计算下混信号，以使得下混信号适合于具有M个通道的扬声器配置的通道上的回放，在此称为后向兼容下混。

过渡数据包括两个独立可分配部分意味着这两个部分是相互独立可分配的，即可以彼此独立地分配。然而，应理解，过渡数据的部分可以例如与用于元数据的其它类型的辅助信息的过渡数据的部分一致。

在该示例实施例中，过渡数据的所述两个独立可分配部分以组合形式限定开始过渡的时间点以及完成过渡的时间点，即这两个时间点是可从过渡数据的所述两个独立可分配部分推导出的。

根据示例实施例，所述方法可以还包括聚类过程：用于将第一组多个音频对象减少为第二组多个音频对象，其中，N个音频对象构成第一组多个音频对象或第二组多个音频对象，并且其中，基于N个音频对象所形成的音频对象集合与第二组多个音频对象一致。在该示例实施例中，所述聚类过程可以包括：

计算包括用于第二组多个音频对象的空间位置的可时变聚类元数据；以及

将以下项进一步包括在所述数据流中，以用于发送到解码器：

多个聚类元数据实例，其指定用于呈现第二音频对象集合的各个期望呈现设置；以及

用于每个聚类元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前呈现设置到由所述聚类元数据实例所指定的期望呈现设置的过渡的时间点以及完成对由所述聚类元数据实例所指定的期望呈现设置的过渡的时间点。

由于音频场景可以包括巨大数量的音频对象，因此根据该示例实施例的方法采取进一步措施，以用于通过将第一组多个音频对象减少为第二组多个音频对象来减少音频场景的维度。在该示例实施例中，基于N个音频对象所形成的并且待基于下混信号和辅助信息在解码器侧上重构的音频对象集合，与所述第二组多个音频对象一致并且用于解码器侧上的重构的计算复杂度得以减少，第二组多个音频对象对应于由第一多个音频信号所表示的音频场景的简化和/或较低维度表示。

将聚类元数据包括在数据流中允许例如在已经基于下混信号和辅助信息而重构第二音频信号集合之后在解码器侧上呈现第二音频信号集合。

与所述辅助信息相似，该示例实施例中的聚类元数据是可时变的(例如时变的)，从而允许掌控第二组多个音频对象的呈现的参数关于时间而变化。用于下混元数据的格式可以与所述辅助信息的格式类似，并且可以具有相同或对应的优点。具体地说，该示例实施例中所提供的聚类元数据的形式便于聚类元数据的重新采样。可以例如采用聚类元数据的重新采样，以提供开始以及完成与聚类元数据和辅助信息关联的和/或用于将聚类元数据调整为关联音频信号的帧率的各个过渡的共同时间点。

根据示例实施例，所述聚类过程可以还包括：

接收第一组多个音频对象及其关联空间位置，

基于第一组多个音频对象的空间接近度而将第一组多个音频对象与至少一个聚类进行关联；

通过用作为与所述至少一个聚类中的每一个关联的各音频对象的组合的音频对象来表示该聚类而生成第二组多个音频对象；以及

基于与对应聚类(即所述音频对象表示的聚类)关联的各音频对象的空间位置而计算第二组多个音频对象中的每个音频对象的空间位置。

换言之，该聚类过程利用音频场景(如具有等同或非常相似的位置的对象)中出现的空间冗余性。此外，如关于第一方面内的示例实施例所描述的那样，当生成第二组多个音频对象时，可以考虑音频对象的重要性值。

将第一组多个音频对象与至少一个聚类进行关联包括：将第一组多个音频对象中的每一个与至少一个聚类中的一个或更多个关联。在一些情况下，音频对象可以形成至多一个聚类的一部分，而在其它情况下，音频对象可以形成若干聚类的一部分。换言之，在一些情况下，作为所述聚类过程的一部分，可以在若干聚类之间划分音频对象。

第一组多个音频对象的空间接近度可以与第一组多个音频对象中的各个音频对象之间的距离和/或其相对位置有关。例如，彼此靠近的音频对象可以与同一聚类关联。

作为与聚类关联的各音频对象的组合的音频对象意味着，与所述音频对象关联的音频内容/信号可以形成为与关联于该聚类的各个音频对象关联的音频内容/信号的组合。

根据示例实施例，用于各个聚类元数据实例的过渡数据所限定的各个时间点可以与由用于对应辅助信息实例的过渡数据所限定的各个时间点一致。

采用开始以及完成与辅助信息和聚类元数据关联的过渡的相同时间点便于辅助信息和聚类元数据的联合处理(如联合重新采样)。

此外，使用开始以及完成与辅助信息和聚类元数据关联的过渡的共同时间点便于解码器侧的联合重构和呈现。如果例如重构和呈现在解码器侧上执行为联合操作，则可以对于每个辅助信息实例和元数据实例确定用于重构和呈现的联合设置，和/或可以采用用于重构和呈现的各联合设置之间的内插，而非对于各个设置分离地执行内插。由于需要内插较少的系数/参数，因此这种联合内插可以减少解码器侧处的计算复杂度。

根据示例实施例，可以在计算M个下混信号之前执行聚类过程。在该示例实施例中，第一组多个音频对象与音频场景的初始音频对象对应，并且计算M个下混信号所基于的N个音频对象构成减少后的第二组多个音频对象。因此，在该示例实施例中，基于N个音频对象所形成的(解码器侧上待重构的)音频对象集合与N个音频对象一致。

替代地，可以与计算M个下混信号并行地执行聚类过程。根据该替代方式，计算M个下混信号所基于的N个音频对象构成与音频场景的初始音频对象对应的第一组多个音频对象。通过该方法，因此基于音频场景的初始音频对象而不基于减少数量的音频对象来计算M个下混信号。

根据示例实施例，所述方法可以还包括：

将每个下混信号与可时变空间位置进行关联，以用于呈现下混信号，以及

进一步将包括下混信号的空间位置的下混元数据包括在数据流中，

其中，所述方法还包括：将以下项包括在数据流中：

多个下混元数据实例，其指定用于呈现下混信号的各个期望下混呈现设置；以及

用于每个下混元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前下混呈现设置到由下混元数据实例所指定的期望下混呈现设置的过渡的时间点，以及完成对由下混元数据实例所指定的期望下混呈现设置的过渡的时间点。

将下混元数据中包括在数据流中的有利之处在于，其允许在传统回放装备的情况下使用低复杂度解码。更准确地说，下混元数据可以用在解码器侧上，以用于将下混信号呈现给传统回放系统的通道，即无须重构基于N个对象所形成的多个音频对象(这典型地是在计算方面更复杂的操作)。

根据该示例实施例，与M个下混信号关联的空间位置可以是可时变的(例如时变的)，并且下混信号可以解释为具有可以在各时间帧或各下混元数据实例之间改变的关联位置的动态音频对象。这与下混信号对应于固定空间外放扬声器位置的现有技术系统形成对比。应知晓可以在具有更加演进能力的解码系统中以面向对象的方式来播放同一数据流。

在一些示例实施例中，N个音频对象可以与包括N个音频对象的空间位置的元数据关联，可以例如基于N个音频对象的空间位置而计算与下混信号关联的空间位置。因此，下混信号可以解释为具有取决于N个音频对象的空间位置的空间位置的音频对象。

根据示例实施例，由用于各个下混元数据实例的过渡数据所限定的各个时间点可以与由用于对应辅助信息实例的过渡数据所限定的各个时间点一致。采用用于开始以及完成与辅助信息和下混元数据关联的过渡的相同时间点便于辅助信息和下混元数据的联合处理(如重新采样)。

根据示例实施例，由用于各个下混元数据实例的过渡数据所限定的各个时间点可以与由用于对应聚类元数据实例的过渡数据所限定的各个时间点一致。采用用于开始以及结束与聚类元数据和下混元数据关联的过渡的相同时间点便于聚类元数据和下混元数据的联合处理(如重新采样)。

根据示例实施例，提供一种用于将N个音频对象编码为数据流的编码器，其中，N>1。编码器包括：

下混组件，被配置为通过形成N个音频对象的组合来计算M个下混信号，其中，M≤N；

分析组件，被配置为：计算包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数的可时变辅助信息；以及

复用组件，被配置为：将M个下混信号和辅助信息包括在数据流中，以用于发送到解码器，

其中，所述复用组件进一步被配置为将以下项包括在数据流中，以用于发送到解码器：

根据第四方面，提供一种用于对多通道音频内容进行解码的解码方法、解码器和计算机程序产品。

根据第四方面的所述方法、解码器以及计算机程序产品旨在与根据第三方面的方法、编码器以及计算机程序产品协作，并且可以具有对应特征和优点。

根据所述第四方面的方法、解码器和计算机程序产品可以总体上具有与根据第二方面的方法、解码器和计算机程序产品共同的特征和优点。

根据示例实施例，提供一种用于基于数据流而重构音频对象的方法。所述方法包括：

接收数据流，数据流包括：M个下混信号，其为N个音频对象的组合，其中，N>1并且M≤N；以及可时变辅助信息，其包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数；及

基于M个下混信号和辅助信息而重构基于N个音频对象所形成的音频对象集合。

其中，数据流包括多个辅助信息实例，其中，数据流还包括：用于每个辅助信息实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡的时间点以及完成过渡的时间点，并且其中，重构基于N个音频对象所形成的音频对象集合包括：

根据当前重构设置来执行重构；

在由用于辅助信息实例的过渡数据所限定的时间点，开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡；以及

在由用于辅助信息实例的过渡数据所限定的时间点，完成过渡。

如上所述，采用包括限定从当前重构设置到各个期望重构设置的过渡的开始的时间点和完成的时间点的过渡数据的辅助信息格式，例如便于辅助信息的重新采样。

可以例如以比特流的形式(例如，在编码器侧上生成)接收数据流。

基于M个下混信号和辅助信息而重构基于N个音频对象所形成的音频对象集合可以例如包括：采用基于辅助信息所确定的系数来形成下混信号的至少一个线性组合。基于M个下混信号和辅助信息而重构基于N个音频对象所形成的音频对象集合可以例如包括：采用基于辅助信息所确定的系数来形成下混信号以及可选地从下混信号所推导出的一个或更多个附加(例如去相关的)信号的线性组合。

根据示例实施例，所述数据流可以还包括用于基于N个音频对象所形成的音频对象集合的可时变聚类元数据，聚类元数据包括用于基于N个音频对象所形成的音频对象集合的空间位置。所述数据流可以包括多个聚类元数据实例，并且所述数据流可以还包括：用于每个聚类元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前呈现设置到由聚类元数据实例所指定的期望呈现设置的过渡的时间点以及完成到由聚类元数据实例所指定的期望呈现设置的过渡的时间点。所述方法可以还包括：

使用聚类元数据，以用于将基于N个音频对象所形成的所重构的音频对象集合呈现给预定通道配置的输出通道，所述呈现包括：

根据当前呈现设置来执行呈现；

在由用于聚类元数据实例的过渡数据所限定的时间点，开始从当前呈现设置到由聚类元数据实例所指定的期望呈现设置的过渡；以及

在由用于聚类元数据实例的过渡数据所限定的时间点完成到期望呈现设置的过渡。

预定通道配置可以例如对应于和特定回放系统兼容(即适合于特定回放系统上的回放)的输出通道的配置。

将所重构的基于N个音频对象所形成的音频对象集合呈现给预定通道配置的输出通道可以例如包括：在呈现器中，在聚类元数据的控制下将所重构的基于N个音频对象所形成的音频信号集合映射到呈现器的输出通道(的预定配置)。

将所重构的基于N个音频对象所形成的音频对象集合呈现给预定通道配置的输出通道可以例如包括：采用基于聚类元数据所确定的系数来形成所重构的基于N个音频对象所形成的音频对象集合的线性组合。

根据示例实施例，由用于各个聚类元数据实例的过渡数据所限定的各个时间点可以与由用于对应辅助信息实例的过渡数据所限定的各个时间点一致。

根据示例实施例，所述方法可以还包括：

执行重构的至少一部分以及呈现的至少一部分，作为与被形成为分别与当前重构设置和当前呈现设置关联的重构矩阵和呈现矩阵的矩阵乘积的第一矩阵对应的组合操作；

在由用于辅助信息实例和聚类元数据实例的过渡数据所限定的时间点，开始从当前重构和呈现设置到由辅助信息实例和聚类元数据实例分别指定的期望重构和呈现设置的组合过渡；以及

在由用于辅助信息实例和聚类元数据实例的过渡数据所限定的时间点完成组合过渡，其中，所述组合过渡包括在被形成为分别与期望重构设置和期望呈现设置相关联的重构矩阵和呈现矩阵的矩阵乘积的第二矩阵的矩阵元素和第一矩阵的矩阵元素之间进行内插。

通过在上述意义上执行组合过渡，而非重构设置和呈现设置的分离过渡，需要内插更少的参数/系数，这允许减少计算复杂度。

应理解，该示例实施例中所引述的矩阵(如重构矩阵或呈现矩阵)可以例如包括单行或单列，并且可以因此与矢量对应。

常通过在不同频带中采用不同重构矩阵来执行从下混信号重构音频对象，而常通过对于所有频率采用同一呈现矩阵来执行呈现。在这些情况下，与重构和呈现的组合操作对应的矩阵(例如该示例实施例中所引述的第一矩阵和第二矩阵)可以通常是频率依赖的，即对于不同频带可以通常采用用于矩阵元素的不同值。

根据示例实施例，基于N个音频对象所形成的音频对象集合可以与N个音频对象一致，即所述方法可以包括：基于M个下混信号和辅助信息来重构N个音频对象。

替代地，基于N个音频对象所形成的音频对象集合可以包括多个音频对象，其为N个音频对象的组合并且其数量小于N，即所述方法可以包括：基于M个下混信号和辅助信息而重构N个音频对象的这些组合。

根据示例实施例，数据流可以还包括含有与M个下混信号关联的可时变空间位置的用于M个下混信号的下混元数据。所述数据流可以包括多个下混元数据实例，并且所述数据流可以还包括：用于每个下混元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前下混呈现设置到由下混元数据实例所指定的期望下混呈现设置的过渡的时间点、以及完成到由下混元数据实例所指定的期望下混呈现设置的过渡的时间点。所述方法可以还包括：

在解码器可操作(或被配置)为支持音频对象重构的状况时，执行步骤：基于M个下混信号和辅助信息来重构基于N个音频对象所形成的音频对象集合；以及

在解码器不可操作(或被配置)为支持音频对象重构的状况时，输出下混元数据和M个下混信号，以用于呈现M个下混信号。

在解码器可操作为支持音频对象重构并且所述数据流还包括与基于N个音频对象所形成的音频对象集合关联的聚类元数据的情况下，解码器可以例如输出所重构的音频对象集合和所述聚类元数据，以用于呈现所重构的音频对象集合。

在解码器不可操作为支持音频对象重构的情况下，可以例如丢弃辅助信息，并且丢弃聚类元数据(若可用的话)，并且提供下混元数据和M个下混信号作为输出。然后，呈现器可以采用所述输出，以用于将M个下混信号呈现给呈现器的输出通道。

可选地，所述方法可以还包括：基于下混元数据，将M个下混信号呈现给预定输出配置的输出通道(例如呈现器的输出通道)或解码器的输出通道(在解码器具有呈现能力的情况下)。

根据示例实施例，提供一种用于基于数据流而重构音频对象的解码器。所述解码器包括：

接收组件，被配置为：接收数据流，数据流包括：M个下混信号，其为N个音频对象的组合，其中，N>1并且M≤N；以及可时变辅助信息，其包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数；以及

重构组件，被配置为：基于M个下混信号和辅助信息而重构基于N个音频对象所形成的音频对象集合，

其中，所述数据流包括被关联的多个辅助信息实例，并且其中，所述数据流还包括：用于每个辅助信息实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡的时间点、以及完成过渡的时间点。重构组件被配置为：至少通过以下操作来重构基于N个音频对象所形成的音频对象集合：

根据当前重构设置来执行重构；

在用于辅助信息实例的过渡数据所限定的时间点，开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡；以及

根据示例实施例，第三方面或第四方面内的方法可以还包括：生成一个或更多个附加辅助信息实例，其指定与直接前置于或直接后置于所述一个或更多个附加辅助信息实例的辅助信息实例基本上相同的重构设置。还可想到这样的示例实施例：其中以类似方式来生成附加聚类元数据实例和/或下混元数据实例。

如上所述，在若干情形中(如当使用基于帧的音频编解码器来对音频信号/对象和关联辅助信息进行编码时)，通过生成更多辅助信息实例来对辅助信息进行重新采样可以是有利的，自此，期望对于每个音频编解码器帧具有至少一个辅助信息实例。在编码器侧处，由分析组件所提供的辅助信息实例可能例如以它们不匹配由下混组件提供的下混信号的帧率的方式而在时间上分布，并且可以因此有利地通过引入新辅助信息实例从而对于下混信号的每个帧存在至少一个辅助信息实例，来对辅助信息进行重新采样。相似地，在解码器侧处，接收到的辅助信息实例可能例如以它们不匹配接收到的下混信号的帧率的方式而在时间上分布，并且可以因此有利地通过引入新辅助信息实例从而对于下混信号的每个帧存在至少一个辅助信息实例，来对辅助信息进行重新采样。

可以例如通过以下操作对于所选择的时间点生成附加辅助信息实例：拷贝直接后置于附加辅助信息实例的辅助信息实例，并且基于所选择的时间点和由用于后置于辅助信息实例的过渡数据所限定的时间点而确定用于附加辅助信息实例的过渡数据。

根据第五方面，提供一种用于对与数据流中的M个音频信号一起编码的辅助信息进行译码的方法、设备和计算机程序产品。

根据第五方面的方法、设备以及计算机程序产品旨在与根据第三方面和第四方面的方法、编码器、解码器以及计算机程序产品配合，并且可以具有对应特征和优点。

根据示例实施例，提供一种用于对与数据流中的M个音频信号一起编码的辅助信息进行译码的方法。所述方法包括：

接收数据流；

从所述数据流提取M个音频信号以及包括允许从M个音频信号重构音频对象集合的参数的关联可时变辅助信息，其中，M≥1，并且其中，提取出的辅助信息包括：

多个辅助信息实例，其指定用于重构音频对象的各个期望重构设置，以及

用于每个辅助信息实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式限定开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡的时间点、以及完成过渡的时间点；

生成一个或更多个附加辅助信息实例，其指定与直接前置于或直接后置于所述一个或更多个附加辅助信息实例的辅助信息实例基本上相同的重构设置；以及

将M个音频信号和辅助信息包括在数据流中。

在该示例实施例中，可以在已经从接收到的数据流提取出辅助信息之后生成一个或更多个附加辅助信息实例，并且所生成的一个或更多个附加辅助信息实例可以然后与M个音频信号和其它辅助信息实例一起包括于数据流中。

如以上结合第三方面所描述的那样，在若干情形中(如当使用基于帧的音频编解码器来对音频信号/对象和关联辅助信息进行编码时)，通过生成更多辅助信息实例来对辅助信息进行重新采样可以是有利的，自此，期望对于每个音频编解码器帧具有至少一个辅助信息实例。

还设想这样的实施例：其中，数据流还包括聚类元数据和/或下混元数据，如结合第三方面和第四方面所描述的那样，并且其中，所述方法还包括：与如何生成附加辅助信息实例的方式类似地，生成附加下混元数据实例和/或聚类元数据实例。

根据示例实施例，可以根据第一帧率在接收到的数据流中对M个音频信号进行编码，并且所述方法可以还包括：

处理M个音频信号，以将对M个下混信号进行编码所根据的帧率改变为与第一帧率不同的第二帧率；以及

通过至少生成一个或更多个附加辅助信息实例来对辅助信息进行重新采样，以与第二帧率匹配和/或兼容。

如以上结合第三方面所描述的那样，在若干情形中可以有利的是，处理音频信号以使得改变对于对它们进行编码所采用的帧率，例如，以使得修改后的帧率匹配音频信号所属于的视听信号的视频内容的帧率。如以上结合第三方面所描述的那样，用于每个辅助信息实例的过渡数据的存在性便于辅助信息的重新采样。可以例如通过生成附加辅助信息实例来对辅助信息进行重新采样，以匹配新帧率，以使得对于所处理的音频信号的每个帧存在至少一个辅助信息实例。

根据示例实施例，提供一种用于对与数据流中的M个音频信号一起编码的辅助信息进行译码的设备。所述设备包括：

接收组件，被配置为：接收数据流，并且从数据流提取M个音频信号以及包括允许从M个音频信号重构音频对象集合的参数的关联可时变辅助信息，其中，M≥1，并且其中，提取出的辅助信息包括：

所述设备还包括：

重新采样组件，被配置为：生成一个或更多个附加辅助信息实例，其指定与直接前置于或直接后置于所述一个或更多个附加辅助信息实例的辅助信息实例基本上相同的重构设置；以及

复用组件，被配置为：将M个音频信号和辅助信息包括在数据流中。

根据示例实施例，第三方面、第四方面或第五方面内的所述方法可以还包括：计算由第一辅助信息实例所指定的第一期望重构设置与由直接后置于第一辅助信息实例的一个或更多个辅助信息实例所指定的一个或更多个期望重构设置之间的差；以及响应于计算出的差小于预定阈值而移除所述一个或更多个辅助信息实例。还设想这样的示例实施例：以类似方式来移除聚类元数据实例和/或下混元数据实例。

根据该示例实施例的移除辅助信息实例，例如于在解码器侧处的重构期间，可以避免基于这些辅助信息实例的不必要的计算。通过将预定阈值设置在适当的(例如足够低的)等级，可以在至少近似地保持所重构的音频信号的回放质量和/或保真度的同时移除辅助信息实例。

可以例如基于用于作为所述重构的一部分所采用的系数集合的各个值之间的差来计算各期望重构设置之间的差。

根据第三方面、第四方面或第五方面内的示例实施例，用于每个辅助信息实例的过渡数据的两个独立可分配部分可以是：

指示开始向期望重构设置的过渡的时间点的时间戳、以及指示完成向期望重构设置的过渡的时间点的时间戳；

指示开始向期望重构设置的过渡的时间点的时间戳、以及指示从开始向期望重构设置的过渡的时间点到达期望重构设置的持续时间的内插持续时间参数；或

指示完成向期望重构设置的过渡的时间点的时间戳、以及指示从开始向期望重构设置的过渡的时间点到达期望重构设置的持续时间的内插持续时间参数。

换言之，可以通过指示各个时间点的两个时间戳或各时间戳之一与指示过渡的持续时间的内插持续时间参数的组合在过渡数据中限定开始以及结束过渡的时间点。

各个时间戳可以例如通过参照对于表示M个下混信号和/或N个音频对象所采用的时间基础来指示各个时间点。

根据第三方面、第四方面或第五方面内的示例实施例，用于每个聚类元数据实例的过渡数据的两个独立可分配部分可以是：

指示开始向期望呈现设置的过渡的时间点的时间戳、以及指示完成向期望呈现设置的过渡的时间点的时间戳；

指示开始向期望呈现设置的过渡的时间点的时间戳、以及指示从开始向期望呈现设置的过渡的时间点到达期望呈现设置的持续时间的内插持续时间参数；或

指示完成向期望呈现设置的过渡的时间点的时间戳、以及指示从开始向期望呈现设置的过渡的时间点到达期望呈现设置的持续时间的内插持续时间参数。

根据第三方面、第四方面或第五方面内的示例实施例，用于每个下混元数据实例的过渡数据的两个独立可分配部分可以是：

指示开始向期望下混呈现设置的过渡的时间点的时间戳、以及指示完成向期望下混呈现设置的过渡的时间点的时间戳；

指示开始向期望下混呈现设置的过渡的时间点的时间戳以及指示从开始向期望下混呈现设置的过渡的时间点到达期望下混呈现设置的持续时间的内插持续时间参数；或

指示完成向期望下混呈现设置的过渡的时间点的时间戳、以及指示从开始向期望下混呈现设置的过渡的时间点到达期望下混呈现设置的持续时间的内插持续时间参数。

根据示例实施例，提供一种计算机程序产品，包括具有用于执行第三方面、第四方面或第五方面内的任何方法的指令的计算机可读介质。

IV.示例实施例

图1示出根据示例性实施例的用于将音频对象120编码到数据流140中的编码器100。编码器100包括接收组件(未示出)、下混组件102、编码器组件104、分析组件106以及复用组件108。以下描述用于对音频数据的一个时间帧进行编码的编码器100的操作。然而，应理解，基于时间帧而重复以下方法。这也应用于图2-图5的描述。

接收组件接收多个音频对象(N个音频对象)120以及与音频对象120关联的元数据122。在此所使用的的音频对象指代具有通常随时间(在各时间帧之间)变化的关联空间位置(即空间位置是动态的)的音频信号。与音频对象120关联的元数据122通常包括描述对于在解码器侧上的回放如何呈现音频对象120的信息。具体地说，与音频对象120关联的元数据122包括关于音频对象120在音频场景的三维空间中的空间位置的信息。可以在笛卡尔坐标中或通过可选地随距离而增大的方向角(例如方位角和仰角)来表示空间位置。与音频对象120关联的元数据122可以还包括对象大小、对象响度、对象重要性、对象内容类型、特定呈现指令(如，应用对话增强，或从呈现排除特定外放扬声器(所谓的区域掩蔽))和/或其它对象性质。

如将参照图4描述的那样，音频对象120可以与音频场景的简化表示对应。

N个音频对象120输入到下混组件102。下混组件102通过形成N个音频对象120的组合(典型地线性组合)来计算下混信号124的数量M。在多数情况下，下混信号124的数量小于音频对象120的数量，即M<N，以使得数据流140中所包括的数据量得以减少。然而，对于数据流140的目标比特率很高的应用，下混信号124的数量可以等于对象120的数量，即M＝N。

下混组件102可以进一步计算在此以L个附属音频信号127来标记的一个或更多个附属音频信号127。附属音频信号127的作用是改进解码器侧处的N个音频对象120的重构。附属音频信号127可以要么直接地要么作为N个音频对象120的组合而与N个音频对象120中的一个或更多个对应。例如，附属音频信号127可以与N个音频对象120中的特别重要的音频对象(如与对话对应的音频对象120)对应。重要性可以由与N个音频对象120关联的元数据122反映或从中推导出。

M个下混信号124和L个附属信号127(若存在的话)可以随后由在此标记为核心编码器的编码器组件104编码，以生成M个所编码的下混信号126和L个所编码的附属信号129。编码器组件104可以是本领域公知的感知音频编解码器。公知的感知音频编解码器的示例包括Dolby Digital和MPEG AAC。

在一些实施例中，下混组件102可以进一步将M个下混信号124与元数据125进行关联。具体地说，下混组件102可以将每个下混信号124与空间位置进行关联，并且将空间位置包括在元数据125中。与和音频对象120关联的元数据122相似，与下混信号124关联的元数据125也可以包括与大小、响度、重要性和/或其它性质有关的参数。

具体地说，可以基于N个音频对象120的空间位置而计算与下混信号124关联的空间位置。由于N个音频对象120的空间位置可以是动态的(即，时变的)，因此与M个下混信号124关联的空间位置也可以是动态的。换言之，M个下混信号124可以自身解释为音频对象。

分析组件106计算辅助信息128，其包括允许从M个下混信号124以及L个附属信号129(若存在的话)重构N个音频对象120(或N个音频对象120的感知上合适的近似)的参数。此外，辅助信息128可以是可时变的。例如，分析组件106可以通过根据用于参变编码的任何公知技术来分析M个下混信号124、L个附属信号127(若存在的话)以及N个音频对象120而计算辅助信息128。替代地，分析组件106可以通过分析N个音频对象来计算辅助信息128，并且例如通过提供(时变)下混矩阵来计算关于如何从N个音频对象创建M个下混信号的信息。在此情况下，M个下混信号124并非严格要求作为对分析组件106的输入。

M个所编码的下混信号126、L个所编码的附属信号129、辅助信息128、与N个音频对象关联的元数据122以及与下混信号关联的元数据125然后输入到复用组件108，复用组件108使用复用技术将其输入数据包括在单个数据流140中。数据流140可以因此包括四种类型的数据：

a)M个下混信号126(并且可选地，L个附属信号129)

b)与M个下混信号关联的元数据125，

c)用于从M个下混信号重构N个音频对象的辅助信息128，及

d)与N个音频对象关联的元数据122。

如上所述，用于音频对象的编码的一些现有技术系统要求选取M个下混信号，以使得它们适合于具有M个通道的扬声器配置的通道上的回放，在此指代为后向兼容下混。这种现有技术要求约束下混信号的计算，具体在于，仅可以通过预定方式来组合音频对象。相应地，根据现有技术，从优化解码器侧处的音频对象重构的观点来看，并不选择下混信号。

与现有技术系统相反，下混组件102针对N个音频对象以信号自适应方式来计算M个下混信号124。具体地说，下混组件102可以对于每个时间帧将M个下混信号124计算为对某种准则进行当前优化的音频对象120的组合。该准则通常被定义为使得：其关于任何外放扬声器配置(如5.1外放扬声器配置或其它外放扬声器配置)是独立的。这说明，M个下混信号124或它们中的至少一个并不被约束为适合于在具有M个通道的扬声器配置的通道上的回放的音频信号。相应地，下混组件102可以将M个下混信号124适配于N个音频对象120的时间变化(包括含有N个音频对象的空间位置的元数据122的时变)，以便例如改进解码器侧处的音频对象120的重构。

下混组件102可以应用不同的准则，以计算M个下混信号。根据一个示例，可以计算M个下混信号，以使得基于M个下混信号重构N个音频对象得以优化。例如，下混组件102可以使得从N个音频对象120以及基于M个下混信号124重构N个音频对象所形成的重构误差最小化。

根据另一示例，准则基于N个音频对象120的空间位置，具体地说，基于空间接近度。如上所述，N个音频对象120具有包括N个音频对象120的空间位置的关联元数据122。基于元数据122，可以推导N个音频对象120的空间接近度。

更详细地说，下混组件102可以应用第一聚类过程，以确定M个下混信号124。第一聚类过程可以包括：基于空间接近度而将N个音频对象120与M个聚类进行关联。在将音频对象120与M个聚类进行关联期间，也可以由考虑关联元数据122所表示的N个音频对象120的其它性质，包括对象大小、对象响度、对象重要性。

根据一个示例，在N个音频对象的元数据122(空间位置)作为输入的情况下，公知的K-means算法可以用于基于空间接近度而将N个音频对象120与M个聚类进行关联。N个音频对象120的其它性质可以在K-means算法中用作加权因子。

根据另一示例，第一聚类过程可以是基于选择过程的，其使用由元数据122所给出的音频对象的重要性作为选择准则。更详细地说，下混组件102可以传递最重要的音频对象120，以使得M个下混信号中的一个或更多个与N个音频对象120中的一个或更多个对应。其余较不重要的音频对象可以基于空间接近度而与聚类关联，如上所述。

具有编号61/865,072的美国临时申请以及要求该申请的优先权的后续申请中给出了音频对象的聚类的其它示例。

根据还一示例，第一聚类过程可以把音频对象120与M个聚类中的多于一个聚类关联。例如，音频对象120可以分布在M个聚类上，其中，分布例如取决于音频对象120的空间位置，并且可选地还取决于包括对象大小、对象响度、对象重要性等的音频对象的其它性质。分布可以由百分比反映，以使得用于实例的音频对象根据百分比20％、30％、50％而分布在三个聚类上。

一旦N个音频对象120已经与M个聚类关联，下混组件102就通过形成与聚类关联的音频对象120的组合(通常，线性组合)来计算用于每个聚类的下混信号124。通常，当形成组合时，下混组件102可以使用与音频对象120关联的元数据122中所包括的参数作为权重。通过示例的方式，可以根据对象大小、对象响度、对象重要性、对象位置、相对于与聚类关联的空间位置的距对象的距离(见以下细节)等来对与聚类关联的音频对象120进行加权。在音频对象120分布在M个聚类上的情况下，当形成组合时，反映分布的百分比可用作权重。

第一聚类过程的有利之处在于，其容易地允许M个下混信号124中的每一个与空间位置关联。例如，下混组件102可以基于与聚类关联的音频对象120的空间位置来计算与聚类对应的下混信号124的空间位置。将音频对象的空间位置的质心或加权质心与聚类进行关联可以用于此目的。在加权质心的情况下，当形成与聚类关联的音频对象120的组合时，可以使用相同的权重。

图2示出与图1的编码器100对应的解码器200。解码器200是支持音频对象重构的类型。解码器200包括接收组件208、解码器组件204和重构组件206。解码器200可以还包括呈现器210。替代地，解码器200可以耦合到形成回放系统的一部分的呈现器210。

接收组件208被配置为从编码器100接收数据流240。接收组件208包括解复用组件，被配置为将接收到的数据流240解复用为其分量，在此情况下，M个所编码的下混信号226，可选地，L个所编码的附属信号229、用于从M个下混信号和L个附属信号重构N个音频对象的辅助信息228、以及与N个音频对象关联的元数据222。

解码器组件204处理M个所编码的下混信号226，以生成M个下混信号224，并且可选地，L个附属信号227。如以上进一步讨论的那样，从N个音频对象在编码器侧上自适应地形成M个下混信号224，即通过根据独立于任何外放扬声器配置的准则来形成N个音频对象的组合。

对象重构组件206然后基于M个下混信号224以及可选地基于由在编码器侧上推导出的辅助信息228所引导的L个附属信号227而重构N个音频对象220(或这些音频对象的感知上合适的近似)。对象重构组件206可以对于音频对象的这种参变重构应用任何公知技术。

呈现器210然后使用与音频对象220关联的元数据222以及关于回放系统的通道配置的知识来处理所重构的N个音频对象220，以便生成适合于回放的多通道输出信号230。典型的扬声器回放配置包括22.2和11.1。声音条(soundbar)扬声器系统或耳机(双耳呈现)上的回放也可能用于这些回放系统的专用呈现器。

图3示出与图1的编码器100对应的低复杂度解码器300。解码器300不支持音频对象重构。解码器300包括接收组件308和解码组件304。解码器300可以还包括呈现器310。替代地，解码器耦合到形成回放系统的一部分的呈现器310。

如上所述，使用后向兼容下混(如5.1下混)(即包括适合于具有M个通道的回放系统的直接回放的M个下混信号的下混)的现有技术系统容易地使得能够对于(例如仅支持5.1多通道外放扬声器设置的)传统回放系统进行低复杂度解码。这些现有技术系统通常对后向兼容下混信号自身进行解码，并且丢弃数据流的附加部分(如辅助信息(与图2的项228比较))以及与音频对象关联的元数据(与图2的项222比较)。然而，当如上所述自适应地形成下混信号时，下混信号通常不适合于传统系统上的直接回放。

解码器300是允许针对用于仅支持特定回放配置的传统回放系统上的回放而自适应地形成的M个下混信号进行低复杂度解码的解码器的示例。

接收组件308从编码器(如图1的编码器100)接收比特流340。接收组件308将比特流340解复用为其分量。在此情况下，接收组件308将仅保持所编码的M个下混信号326以及与M个下混信号关联的元数据325。丢弃数据流340的其它分量，如与N个音频对象关联的L个附属信号(与图2的项229比较)元数据(与图2的项222比较)以及辅助信息(与图2的项228比较)。

解码组件304对M个所编码的下混信号326进行解码，以生成M个下混信号324。M个下混信号然后连同下混元数据一起输入到呈现器310，其将M个下混信号呈现给与(通常具有M个通道的)传统回放格式对应的多通道输出330。由于下混元数据325包括M个下混信号324的空间位置，因此呈现器310可以通常与图2的呈现器210相似，其中，差异仅在于呈现器310现在取得M个下混信号324和与M个下混信号324关联的元数据325作为输入，而非音频对象220及其关联元数据222。

如以上结合图1所述，N个音频对象120可以与音频场景的简化表示对应。

通常，音频场景可以包括音频对象和音频通道。音频通道在此表示与多通道扬声器配置的通道对应的音频信号。这些多通道扬声器配置的示例包括22.2配置、11.1配置等。音频通道可以解释为具有与通道的扬声器位置对应的空间位置的静态音频对象。

在一些情况下，音频场景中的音频对象和音频通道的数量可能是巨大的，如多于100个音频对象和1-24个音频通道。如果所有这些音频对象/通道待在解码器侧上重构，则需要很多计算能力。此外，如果提供很多对象作为输入，则与对象元数据和辅助信息关联的所得数据率将通常非常高。为此，有利的是，简化音频场景，以减少待在解码器侧上重构的音频对象的数量。为此，编码器可以包括聚类组件，其基于第二聚类过程而减少音频场景中的音频对象的数量。第二聚类过程旨在利用音频场景中出现的空间冗余性(如具有等同或非常相似的位置的音频对象)。此外，可以考虑音频对象的感知重要性。通常，该聚类组件可以按顺序或与图1的下混组件102并行地被布置。将参照图4描述顺序布置，并且将参照图5描述并行布置。

图4示出编码器400。除了参照图1所描述的组件之外，编码器400还包括聚类组件409。聚类组件409与下混组件102按顺序被布置，意味着聚类组件409的输出输入到下混组件102。

聚类组件409连同包括音频对象421a的空间位置的关联元数据423一起将音频对象421a和/或音频通道421b取作输入。聚类组件409通过将每个音频通道421b与和音频通道421b对应的扬声器位置的空间位置进行关联来将音频通道421b转换为静态音频对象。音频对象421a和从音频通道421b形成的静态音频对象可以看作第一组多个音频对象421。

聚类组件409通常将第一组多个音频对象421减少为在此与图1的N个音频对象120对应的第二组多个音频对象。为此，聚类组件409可以应用第二聚类过程。

第二聚类过程通常与以上关于下混组件102所描述的第一聚类过程相似。第一聚类过程的描述也因此适用于第二聚类过程。

具体地说，第二聚类过程包括：基于第一组多个音频对象121的空间接近度将第一组多个音频对象121与至少一个聚类(在此，N个聚类)关联。如上进一步所述，与聚类的关联也可以基于由元数据423所表示的音频对象的其它性质。每个聚类于是由作为与该聚类关联的音频对象的(线性)组合的对象表示。在所示示例中，存在N个聚类，因此生成N个音频对象120。聚类组件409进一步计算用于如此所生成的N个音频对象120的元数据122。元数据122包括N个音频对象120的空间位置。可以基于与对应聚类关联的音频对象的空间位置而计算N个音频对象120中的每一个的空间位置。通过示例的方式，空间位置可以被计算为与聚类关联的音频对象的空间位置的质心或加权质心，如以上参照图1进一步解释的那样。

聚类组件409所生成的N个音频对象120然后输入到参照图1进一步描述的下混组件102。

图5示出编码器500。除了参照图1所描述的组件之外，编码器500还包括聚类组件509。聚类组件509与下混组件102并行地被布置，意味着下混组件102和聚类组件509具有同一输入。

连同包括第一组多个音频对象的空间位置的关联元数据122一起，该输入包括与图1的N个音频对象120对应的第一组多个音频对象。与图4的第一组多个音频对象121相似，第一组多个音频对象120可以包括音频对象和转换为静态音频对象的音频通道。与其中下混组件102对与音频场景的简化版本对应的减少数量的音频对象进行操作的图4的顺序布置对比，图5的下混组件102对音频场景的全部音频内容进行操作，以生成M个下混信号124。

聚类组件509在功能方面与参照图4所描述的聚类组件409相似。具体地说，聚类组件509通过应用上述第二聚类过程来将第一组多个音频对象120减少为第二组多个音频对象521，在此由K个音频对象示出，其中，典型地，M<K<N(对于高比特应用，M≤K≤N)。第二组多个音频对象521因此是基于N个音频对象126所形成的音频对象集合。此外，聚类组件509计算包括第二组多个音频对象521的空间位置的用于第二组多个音频对象521(K个音频对象)的元数据522。解复用组件108将元数据522包括在数据流540中。分析组件106计算辅助信息528，其使得能够从M个下混信号124重构第二组多个音频对象521(即基于N个音频对象(在此，K个音频对象)所形成的音频对象集合)。复用组件108将辅助信息528包括在数据流540中。如以上进一步讨论的那样，分析组件106可以例如通过分析第二组多个音频对象521和M个下混信号124来推导辅助信息528。

编码器500所生成的数据流540可以通常由图2的解码器200或图3的解码器300解码。然而，图2的所重构的音频对象220(被标记的N个音频对象)现在与图5的第二组多个音频对象521(被标记的K个音频对象)对应，与音频对象关联的元数据222(被标记的N个音频对象的元数据)现在与图5的第二组多个音频对象的元数据522(被标记的K个音频对象的元数据)对应。

在基于对象的音频编码/解码系统中，通常在时间上相对不频繁地(稀疏地)更新与对象关联的辅助信息或元数据，以限制关联数据率。取决于对象的速度、所需的位置精度、用于存储或发送元数据的可用带宽等，用于对象位置的典型更新间隔的范围可在10毫秒至500毫秒之间。这些稀疏或甚至不定期的元数据更新需要元数据和/或呈现矩阵(即呈现中所采用的矩阵)的内插，以用于两个随后元数据实例之间的音频采样。在没有内插的情况下，作为阶跃式矩阵更新所引入的谱干扰的结果，呈现矩阵中的相应而生的阶跃式改变可能导致不期望的切换假声、喀喇声、拉链噪声或其它不期望的假声。

图6示出用于基于元数据实例集合而计算用于呈现音频信号或音频对象的呈现矩阵的典型已知处理。如图6所示，元数据实例集合(m1至m4)610与由它们的沿着时间轴620的位置所指示的时间点集合(t1至t4)对应。随后，每个元数据实例转换为各个呈现矩阵(c1至c4)630或在与元数据实例相同的时间点有效的呈现设置。因此，如所示，元数据实例m1在时间t1创建呈现矩阵c1，元数据实例m2在时间t2创建呈现矩阵c2，依此类推。为了简化，图6仅对于每个元数据实例m1至m4示出一个呈现矩阵。然而，在实际系统中，呈现矩阵c1可以包括待应用于各个音频信号x_i(t)以创建输出信号y_j(t)的呈现矩阵系数或增益系数c_1,i,j的集合：

y_j(t)＝∑_ix_i(t)C_1，i，j。

呈现矩阵630总体上包括表示在不同时间点的增益值的系数。元数据实例在特定离散时间点定义，并且对于各元数据时间点之间的音频采样，呈现矩阵被内插，如连接呈现矩阵630的虚线640所指示的那样。可以线性地执行这种内插，但也可以使用其它内插(如带限内插、正弦/余弦内插等)。各元数据实例(以及各对应呈现矩阵)之间的时间间隔被称为“内插持续时间”，并且这些间隔可以是均匀的，或它们可以是不同的，如与时间t2与t3之间内插持续时间相比，时间t3与t4之间的更长的内插持续时间。

在很多情况下，根据元数据实例来计算呈现矩阵系数是定义明确的，但给定(内插的)呈现矩阵来计算元数据实例的逆处理一般是困难的或甚至不可能的。鉴于此，从元数据生成呈现矩阵的处理可以有时看作加密单向函数。计算各现有元数据实例之间的新元数据实例的处理被称为元数据的“重新采样”。在特定音频处理任务期间，一般需要元数据的重新采样。例如，当通过剪切/融合/混合等来编辑音频内容时，这些编辑可能产生在各元数据实例之间。在此情况下，需要元数据的重新采样。另一个这种情况是，当用基于帧的音频编解码器来对音频和关联元数据进行编码时。在此情况下，期望对于每个音频编解码器帧具有至少一个元数据实例，优选地具有在该编解码器帧的开始处的时间戳，以改进在传输期间的帧丢失的适应力。此外，元数据的内插对于特定类型的元数据(如二进制值元数据)也是无效的，其中，标准技术将大约每两秒推导不正确的值。例如，如果二进制标志(如区域排除掩蔽)被用于从在特定时间点的呈现排除特定对象，则实际上不可能根据呈现矩阵系数或根据相邻元数据的实例来估计有效元数据集合。该情况在图6中被示出为对于在时间t3与t4之间的内插持续时间中根据呈现矩阵系数来外插或推导元数据实例m3a的失败尝试。如图6所示，元数据实例m_x仅明确地定义在特定离散时间点t_x，其进而产生关联矩阵系数集合c_x。在这些离散时间t_x之间，必须基于过去或将来元数据实例而内插矩阵系数集合。然而，如上所述，该元数据内插方案由于元数据内插处理中的不可避免的不精确性而遭受空间音频质量的损失。以下将参照图7-图11描述根据示例实施例的替选内插方案。

在参照图1-图5所描述的示例性实施例中，与N个音频对象120、220关联的元数据122、222以及与K个对象522关联的元数据522至少在一些示例实施例中源于聚类组件409和509，并且可以称为聚类元数据。此外，与下混信号124、324关联的元数据125、325可以称为下混元数据。

如参照图1、图4和图5所描述的那样，下混组件102可以通过以信号自适应方式(即根据独立于任何外放扬声器配置的准则)形成N个音频对象120的组合来计算M个下混信号124。下混组件102的这种操作是第一方面内的示例实施例的特性。根据其它方面内的示例实施例，下混组件102可以例如通过以信号自适应方式形成N个音频对象120的组合来计算M个下混信号124，或替代地，以使得M个下混信号适合于在具有M个通道的扬声器配置的通道上的回放(即后向兼容下混)。

在示例实施例中，参照图4所描述的编码器400采用特别适合于重新采样(即适合于生成附加元数据和辅助信息实例)的元数据和辅助信息格式。在该示例实施例中，分析组件106计算辅助信息128，其在形式上包括：多个辅助信息实例，其指定用于重构N个音频对象120的各个期望重构设置；以及用于每个辅助信息实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式定义开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡的时间点、和完成过渡的时间点。在该示例实施例中，用于每个辅助信息实例的过渡数据的两个独立可分配部分是：指示开始向期望重构设置的过渡的时间点的时间戳以及指示从开始向期望重构设置的过渡的时间点到达所述期望重构设置的持续时间的内插持续时间参数。发生过渡的间隔在该示例实施例中是由开始过渡的时间和过渡间隔的持续时间唯一地定义的。以下将参照图7-图11描述辅助信息128的特定形式。应理解，存在用于唯一地定义该过渡间隔的若干其它方式。例如，间隔的持续时间所伴随的间隔的开始点、结束点或中间点的形式的基准点可以在过渡数据中被采用，以唯一地定义间隔。替代地，间隔的开始点和结束点可以在过渡数据中采用，以唯一地定义间隔。

在该示例实施例中，聚类组件409将第一组多个音频对象421减少为在此与图1的N个音频对象120对应的第二组多个音频对象。聚类组件409计算用于所生成的N个音频对象120的聚类元数据122，聚类元数据122使得能够在解码器侧处在呈现器210中呈现N个音频对象122。聚类组件409提供聚类元数据122，聚类元数据122在形式上包括：多个聚类元数据实例，其指定用于呈现N个音频对象120的各个期望呈现设置；以及用于每个聚类元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式定义开始从当前呈现设置到由聚类元数据实例所指定的期望呈现设置的过渡的时间点、以及完成向期望呈现设置的过渡的时间点。在该示例实施例中，用于每个聚类元数据实例的过渡数据的两个独立可分配部分是：指示开始向期望呈现设置的过渡的时间点的时间戳、以及指示从开始向期望呈现设置的过渡的时间点到达所述期望呈现设置的持续时间的内插持续时间参数。以下将参照图7-图11描述聚类元数据122的特定形式。

在该示例实施例中，下混组件102将每个下混信号124与空间位置关联，并且将空间位置包括在下混元数据125中，下混元数据125允许在解码器侧处在呈现器310中呈现M个下混信号。下混组件102提供下混元数据125，下混元数据125在形式上包括：多个下混元数据实例，其指定用于呈现下混信号的各个期望下混呈现设置；以及用于每个下混元数据实例的过渡数据，其包括两个独立可分配部分，两个独立可分配部分以组合形式定义开始从当前下混呈现设置到由下混元数据实例所指定的期望下混呈现设置的过渡的时间点、以及完成向期望下混呈现设置的过渡的时间点。在该示例实施例中，用于每个下混元数据实例的过渡数据的两个独立可分配部分是：指示开始向期望下混呈现设置的过渡的时间点的时间戳、以及指示从开始向期望下混呈现设置的过渡的时间点到达期望下混呈现设置的持续时间的内插持续时间参数。

在该示例实施例中，对于辅助信息128、聚类元数据122和下混元数据125采用同一格式。现将在用于呈现音频信号的元数据方面参照图7-图11描述该格式。然而，应理解，在以下参照图7-图11所描述的示例中，比如“用于呈现音频信号的元数据”的术语或表述可以正好由比如“用于重构音频对象的辅助信息”、“用于呈现音频对象的聚类元数据”或“用于呈现下混信号的下混元数据”的术语或表述代替。

图7示出根据示例实施例的基于元数据而推导在呈现音频信号时所采用的系数曲线。如图7所示，在例如与唯一时间戳关联的不同时间点t_x所生成的元数据实例集合m_x由转换器710转换为对应矩阵系数值c_x的集合。这些系数集合表示要被采用来用于将音频信号呈现给回放系统(音频内容要被呈现给该回放系统)中的各个扬声器和驱动器的增益值(又称为增益因子)。内插器720然后内插增益因子c_x，以产生各离散时间t_x之间的系数曲线。在实施例中，与每个元数据实例m_x关联的时间戳t_x与可以对应于随机时间点、由时钟电路所生成的同步时间点、与音频内容有关的时间事件(如帧边界)、或任何其它适当的定时事件。注意，如上所述，参照图7所提供的描述类似地应用到用于重构音频对象的辅助信息。

图8示出根据实施例的元数据格式(并且如上所述，以下描述类似地应用于对应辅助信息格式)，其通过以下操作来解决上述的与所述方法关联的至少一些内插问题：将时间戳定义为过渡或内插的开始时间，并且以表示过渡持续时间或内插持续时间(又称为“斜坡大小”)的内插持续时间参数来增大每个元数据实例。如图8所示，元数据实例集合m2至m4(810)指定呈现矩阵集合c2至c4(830)。在特定时间点t_x生成每个元数据实例，并且关于其时间戳来定义每个元数据实例，m2对于t2、m3对于t3，依此类推。在各个内插持续时间d2、d3、d4(830)期间执行过渡之后，从每个元数据实例810的关联时间戳(t1至t4)生成关联呈现矩阵830。指示内插持续时间(或斜坡大小)的内插持续时间参数包括在每个元数据实例中，即元数据实例m2包括d2、m3包括d3，依此类推。示意性地，可以如下表示该情况：m_x＝(metadata(t_x)，d_x)→c_x。以此方式，元数据主要提供如何从当前呈现设置(例如源自先前元数据的当前呈现矩阵)进入新呈现设置(例如源自当前元数据的新呈现矩阵)的示意表示。每个元数据实例是要在相对于接收到元数据实例的时刻处于将来的所指定的时间点生效，并且系数曲线从先前系数状态推导出来。因此，在图8中，m2在持续时间d2之后生成c2，m3在持续时间d3之后生成c3，m4在持续时间d4之后生成c4。在这种用于内插的方案中，无须获知先前元数据，仅需要先前呈现矩阵或呈现状态。取决于系统约束和配置，所采用的内插可以是线性或非线性的。

图8的元数据格式允许元数据的无损重新采样，如图9所示。图9示出根据示例实施例的元数据的无损处理的第一示例(并且如上所述，以下描述类似地应用于对应辅助信息格式)。图9示出分别包括内插持续时间d2至d4的参照将来呈现矩阵c2至c4的元数据实例m2至m4。元数据实例m2至m4的时间戳被给出为t2至t4。在图9的示例中，在时间t4a加入元数据实例m4a。可以出于若干原因(如改进系统的误差适应力或对元数据实例与音频帧的开始/结束进行同步)而加入该元数据。例如，时间t4a可以表示被采用来对与元数据关联的音频内容进行编码的音频编解码器开始新帧的时间。对于无损操作，m4a的元数据值与m4的相同(即它们都描述目标呈现矩阵c4)，但到达该点的时间d4a已经减少d4-d4a。换言之，元数据实例m4a与先前元数据实例m4相同，以使得c3与c4之间的内插曲线不改变。然而，新内插持续时间d4a比初始持续时间d4更短。这样有效地增加元数据实例的数据率，这在特定状况(如误差校正)中可能是有益的。

图10中示出无损元数据内插的第二示例(并且如上所述，以下描述类似地适用于对应的辅助信息格式)。在该示例中，目的是将新元数据集合m3a包括在两个元数据实例m3与m4之间。图10示出呈现矩阵保持不变达某时间段的情况。因此，在该情况下，除了内插持续时间d3a之外，新元数据集合m3a的值与前面元数据m3的值相同。内插持续时间d3a的值应被设置为与t4-t3a对应的值(即在关联于下一元数据实例m4的时间t4与关联于新元数据集合m3a的时间t3a之间的差)。当音频对象是静态并且创作工具由于这种静态性质而停止发送用于对象的新元数据时，图10所示的情况例如可以产生。在此情况下，可能期望插入新元数据实例m3a，例如，以对元数据与编解码器帧进行同步。

在图8至图10所示的示例中，通过线性内插来执行从当前呈现矩阵或呈现状态到期望呈现矩阵或呈现状态的内插。在其它示例实施例中，也可以使用不同的内插方案。一种这样的替选内插方案使用与随后低通滤波器组合的采样和保持电路。图11示出根据示例实施例的使用具有低通滤波器的采样和保持电路的内插方案(并且如上所述，以下描述类似地适用于对应的辅助信息格式)。如图11所示，元数据实例m2至m4转换为采样和保持呈现矩阵系数c2和c3。采样和保持处理使得系数状态立即跳转到期望状态，这产生阶跃式曲线1110，如所示的那样。该曲线1110于是随后被低通滤波，以获得平滑的内插曲线1120。除了时间戳和内插持续时间参数之外，还可以将内插滤波参数(例如截止频率或时间常数)以信号表示为元数据的一部分。应理解，取决于系统的要求以及音频信号的特性，可以使用不同的参数。

在示例实施例中，内插持续时间或斜坡大小可以具有任何实际值，包括零或基本上接近零的值。这种小的内插持续时间尤其有助于诸如为了使得能够在文件的第一采样时立即设置呈现矩阵、或允许编辑、剪接或级联流而初始化之类的情况。使用这种类型的破坏性编辑，具有瞬时改变呈现矩阵的可能性对于在编辑之后保持内容的空间性质可能是有益的。

在示例实施例中，比如在减少元数据比特率的抽取(decimation)方案中，在此所描述的内插方案与元数据实例的移除(并且类似地与如上所述的辅助信息实例的移除)兼容。移除元数据实例允许系统按低于初始帧率的帧率重新采样。在此情况下，可以基于特定特性而移除由编码器提供的元数据实例及其关联内插持续时间数据。例如，编码器中的分析组件可以分析音频信号，以确定是否存在信号的明显静止时段，并且在此情况下，移除已经生成的特定元数据实例，以减少用于将数据发送到解码器侧的带宽要求。可以在与编码器分离的组件(如解码器或译码器)中替代地或附加地执行移除元数据实例。译码器可以移除编码器已经生成或加入的元数据实例，并且可以被采用在将音频信号从第一速率重新采样为第二速率的数据率转换器中，其中，第二速率可以是或可以不是第一速率的整数倍。作为分析音频信号以确定移除哪些元数据实例的替代方式，编码器、解码器或译码器可以分析元数据。例如，参照图10，可以计算在由第一元数据实例m3所指定的第一期望重构设置c3(或重构矩阵)与由直接后置于第一元数据实例m3的元数据实例m3a和m4所指定的期望重构设置c3a和c4(或重构矩阵)之间的差。可以例如通过采用各个呈现矩阵的矩阵范数来计算该差。如果该差在预定阈值之下(例如与所重构的音频信号的所容忍的失真对应)，则可以移除后置于第一元数据实例m2的元数据实例m3a和m4。在图10所示的示例中，直接后置于第一元数据实例m3的元数据实例m3a指定与第一元数据实例m3a相同的呈现设置c3＝c3a，并且将因此被移除，而下一元数据设置m4指定不同的呈现设置c4，并且可以取决于所采用的阈值而保持为元数据。

在参照图2所描述的解码器200中，对象重构组件206可以采用内插作为基于M个下混信号224和辅助信息228而重构N个音频对象220的一部分。与参照图7-图11所描述的内插方案类似，重构N个音频对象220可以例如包括：根据当前重构设置来执行重构；在由用于辅助信息实例的过渡数据所限定的时间点，开始从当前重构设置到由辅助信息实例所指定的期望重构设置的过渡；以及在由用于辅助信息实例的过渡数据所限定的时间点完成向期望重构设置的过渡。

相似地，呈现器210可以采用内插作为呈现所重构的N个音频对象220的一部分，以生成适合于回放的多通道输出信号230。与参照图7-图11所描述的内插方案类似，呈现可以包括：根据当前呈现设置来执行呈现；在由用于聚类元数据实例的过渡数据所限定的时间点，开始从当前呈现设置到由聚类元数据实例所指定的期望呈现设置的过渡；以及在由用于聚类元数据实例的过渡数据所限定的时间点完成向期望呈现设置的过渡。

在一些示例实施例中，对象重构部206和呈现器210可以是分离的单元，和/或可以与作为分离处理所执行的操作对应。在其它示例实施例中，对象重构部206和呈现器210可以实施为单个单元或实施为其中作为组合操作来执行重构和呈现的处理。在这些示例实施例中，对于重构和呈现所采用的矩阵可以被组合为可以被内插的单个矩阵，而非分离地对呈现矩阵和重构矩阵执行内插。

在参照图3所描述的低复杂度解码器300中，呈现器310可以执行内插作为将M个下混信号324呈现给多通道输出330的一部分。与参照图7-图11所描述的内插方案类似，呈现可以包括：根据当前下混呈现设置来执行呈现；在由用于下混元数据实例的过渡数据所限定的时间点，开始从当前下混呈现设置到由所述下混元数据实例所指定的期望下混呈现设置的过渡；以及在由用于下混元数据实例的过渡数据所限定的时间点完成向期望下混呈现设置的过渡。如前所述，呈现器310可以被包括于解码器300中，或可以是分离的设备/单元。在呈现器310与解码器300分离的示例实施例中，解码器可以输出下混元数据325和M个下混信号324，以用于在呈现器310中呈现M个下混信号。

等同物、扩展、替代方式和其他项

在研究上述描述之后，本公开的其它实施例对于本领域技术人员将变得清楚。即使该描述和附图公开了实施例和示例，本公开也不限于这些特定示例。在不脱离所附权利要求所限定的本公开的范围的情况下，可以进行大量修改和变化。权利要求中出现的任何标号并非理解为限制其范围。

此外，根据研究附图、本公开以及所附权利要求，本领域技术人员可以在实践本公开中理解并且实现所公开的实施例的变化。在权利要求中，词语“包括”不排除其它要素或步骤，并且不定冠词“一”不排除多个。在相互不同的从属权利要求中陈述特定措施的单纯事实不指示这些措施的组合不能用于优点。

上文中所公开的系统和方法可以实现为软件、固件、硬件或其组合。在硬件实现方式中，以上描述中提到的各功能单元之间的任务划分并不一定与物理单元的划分对应；反之，一个物理组件可以具有多种功能，并且一个任务可以由若干物理组件配合执行。特定组件或所有组件可以实现为由数字信号处理器或微处理器执行的软件，或实现为硬件或专用集成电路。这些软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非瞬变介质)和通信介质(或瞬变介质)。本领域技术人员公知的是，术语计算机存储介质包括通过用于诸如计算机可读指令、数据结构、程序模块或其它数据之类的信息的存储的任何方法或技术实现的易失性和非易失性、可拆卸和不可拆卸介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储设备，或可以用于存储期望的信息并且计算机可以存取的任何其它介质。此外，本领域技术人员公知的是，通信介质通常实施计算机可读指令、数据结构、程序模块、或调制的数据信号(如载波或其它传输介质)中的其它数据，并且包括任何信息传递介质。

所有附图是示意性的并且通常仅示出为了阐明本公开而必须的部分，而其它部分可以省略或仅提及。除非另外声明，否则在不同附图中相似标号指代相同部分。

Claims

1.一种用于基于数据流将音频对象重构并呈现的方法，包括：

接收数据流，数据流包括：

后向兼容下混，包括作为N个音频对象的组合的M个下混信号，其中，N>1，并且M≤N；

可时变辅助信息，包括允许从M个下混信号重构所述N个音频对象的参数；以及

多个元数据实例，与N个音频对象相关联，所述多个元数据实例指定用于呈现N个音频对象的各个期望呈现设置，以及用于每个元数据实例的过渡数据，过渡数据指定包括从当前呈现设置到由元数据实例指定的期望呈现设置的插值的开始时间和持续时段；

基于后向兼容下混和辅助信息来重构N个音频对象；以及

通过如下操作把N个音频对象呈现给预定信道配置的输出信道：

根据当前呈现设置来执行呈现；

在由用于元数据实例的过渡数据定义的开始时间，开始从当前呈现设置到由元数据实例指定的期望呈现设置的插值；以及

在由用于元数据实例的过渡数据定义的持续时段之后完成到期望呈现设置的插值。