CN112839296A

CN112839296A - 实现3d音频内容的saoc降混合的装置及方法

Info

Publication number: CN112839296A
Application number: CN202011323152.7A
Authority: CN
Inventors: 萨沙·迪克; 哈拉尔德·福斯; 奥立夫·赫尔穆特; 于尔根·赫勒; 艾德里安·穆尔塔扎; 法尔科·里德布施; 里昂·特伦蒂夫; 约尼·鲍卢斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2021-05-25
Anticipated expiration: 2034-07-16
Also published as: EP2830048A1; US20160142847A1; US9578435B2; BR112016001244B1; US10701504B2; JP2018185526A; SG11201600396QA; TWI560701B; RU2016105469A; KR20160053910A; MX2016000851A; AU2014295216B2; MX357511B; CN105593930B; ES2959236T3; RU2016105472A; EP3025335A1; CA2918529A1; TW201519217A; CA2918869C

Abstract

提供了一种实现3D音频内容的SAOC降混合的装置及方法。该装置包含：参数处理器(110)，用于计算输出声道混合信息，以及降混合处理器(120)，用于产生该一个或多个音频输出声道。该降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在该音频传输信号中，且其中该一个或多个音频传输声道的数量小于该两个或更多个音频对象信号的数量。该音频传输信号取决于第一混合规则以及第二混合规则。第一混合规则指示如何混合该两个或更多个音频对象信号以获得多个预混合声道。

Description

实现3D音频内容的SAOC降混合的装置及方法

本申请是申请日为2014年7月16日、申请号为“201480041327.1”、发明名称为“实现3D音频内容的SAOC降混合的装置及方法”的中国发明专利的分案申请。

技术领域

本发明涉及音频编码/解码，特别是涉及空间音频编码以及空间音频对象编码，以及更特别地涉及一种实现三维音频内容的SAOC降混合的装置及方法，以及一种三维音频内容的高效率解码该SAOC降混合的装置及方法。

现有技术

空间音频编码工具是此技术领域中所熟知的，例如，在环绕MPEG标准中已有标准化规范。空间音频编码从原始输入声道开始，例如在再现装备中依照其位置而识别的五个或七个声道，即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道。空间音频编码器通常从原始声道得到至少一个降混声道，以及另外得到关于空间线索的参数数据，例如声道间水平差异、声道间相位差异、声道间时间差异等等。至少一个降混声道与指示空间线索的参数化辅助信息(parametric side information，或称为参数边信息、参数侧信息或参数侧边信息)一起传送到空间音频解码器，空间音频解码器解码降混声道以及相关联的参数数据，最后获得为原始输入声道的近似版本的输出声道。声道在输出装备的放置通常为固定，例如，5.1声道格式或7.1声道格式等等。

此种基于声道的音频格式广泛使用于储存或者传送多声道音频内容，而每一个声道关于在给定位置的特定扬声器。这些种类格式的忠实再现，需要扬声器装备，其中扬声器放置在与音频信号生产期间使用的扬声器相同的位置。虽然增加扬声器数量可改进真实三维虚拟现实场景的再现，但是满足此要求是越来越困难的，尤其是在家庭环境中，像是客厅。

可用以对象为基础的方法来克服对特殊扬声器设备的需求，在以对象为基础的方法中扬声器信号特别针对回放装备来渲染。

例如，空间音频对象编码工具是此技术领域中所熟知的且在MPEG SAOC(SAOC＝spatial audio object coding空间音频对象编码)标准中已成标准。相比于空间音频编码从原始声道开始，空间音频对象编码从非自动专为特定渲染再现装备的音频对象开始。代替地，音频对象在再现场景中的位置可变化，且可由使用者通过将特定的渲染信息输入至空间音频对象编码解码器来确定。可选地或另外，渲染信息，即在再现装备中特定音频对象待放置的位置信息，以额外的辅助信息或元数据来传送。为了获得特定的数据压缩，由SAOC编码器来编码多个音频对象，SAOC编码器根据特定的降混合信息来降混合对象以从输入对象计算至少一个传输声道。此外，SAOC编码器计算参数化辅助信息，其代表对象间线索，例如对象水平差异(OLD)、对象相干数值等等。对象间参数数据针对参数时间平铺/频率平铺来计算，即，针对音频信号的特定帧(例如，1024或2048个样本)，考虑多个处理频带(例如28、20、14或10个处理频带等等)使得对于每一帧以及每一处理频带皆存在参数数据。作为举例，当音频片具有20个帧且当每一帧细分成28个处理频带，则时间/频率平铺的数量为560。

在以对象为基础的方法中，以分离式音频对象来描述音场。此需要对象元数据，其描述在3D空间中每一个声源的时变位置。

在现有技术中，第一元数据编码概念为空间声音描述交换格式(SpatDIF)，而音频场景描述格式目前尚在开发中[M1]。音频场景描述格式为以对象为基础的声音场景交换格式，其并没有提供任何压缩对象轨迹的方法。SpatDIF将以文字为基础的开放性声音控制(OSC)格式使用于对象元数据的结构[M2]。然而，简单以文字为基础的表现并非为对象轨迹的压缩传输的选项。

在现有技术中，另一个元数据概念为音频场景描述格式(ASDF)[M3]，其是具有相同的缺点的以文字为基础的解决方案。此数据通过同步多介质集成语言(SMIL)的延伸所建构，该同步多介质集成语言(SMIL)为可延伸标记式语言(XML)[M4],[M5]的子集合。

在现有技术中的另一个元数据概念为场景的音频二进制格式(AudioBIFS)，为MPEG-4标准的一部分的二进制格式[M6],[M7]。其高度关于基于XML的虚拟现实建模语言(VRML)，其已开发应用于音频虚拟3D场景以及交互式虚拟现实[M8]。复杂的AudioBIFS标准使用场景图以指定对象移动的路径。AudioBIFS主要的缺点在于并非设计用于实时操作，其中会使有限的系统延迟并且需要随机读取数据流。此外，对象位置的编码不运用受限的听者的定位能力。在音频虚拟场景中的听者有固定位置时，则对象数据可量化成较低的位数[M9]。因此，应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。

发明内容

本发明的目的在于提供对降混合音频内容的改善概念。本发明的目的是根据权利要求1的装置、根据权利要求9的装置、根据权利要求12的系统、根据权利要求13的方法、根据权利要求14的方法以及根据权利要求15的计算机程序来进行解决的。

根据实施方案，实现了高效率的传输以及提供了对三维音频内容的降混合进行解码的方式。

提供了一种用于产生一个或多个音频输出声道的装置。所述装置包含参数处理器及降混合处理器，此参数处理器用于计算输出声道混合信息，而降混合处理器用于产生所述一个或多个音频输出声道。所述降混合处理器用于接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量。所述音频传输信号取决于第一混合规则以及第二混合规则。所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道。此外，所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。所述参数处理器用于接收所述第二混合规则的信息，其中所述第二混合规则的信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得。此外，所述参数处理器用于根据音频对象数量、预混合声道数量以及所述第二混合规则的信息，计算所述输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量。所述降混合处理器用于根据所述输出声道混合信息从所述音频传输信号产生一个或多个音频输出声道。

此外，本发明提供一种装置，其用于产生包含一个或多个音频传输声道的音频传输信号。所述装置包含对象混合器，用于产生所述音频传输信号，此音频传输信号包含来自于所述两个或更多个音频对象信号的一个或多个音频传输声道，使得所述两个或更多个音频对象信号被混合在音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，且输出接口用于输出所述音频传输信号。所述对象混合器用于根据第一混合规则以及第二混合规则，产生所述音频传输信号的一个或多个音频传输声道，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量，且其中所述第二混合规则取决于所述预混合声道数量。所述输出接口用于输出所述第二混合规则的信息。

此外，提供了一种系统。此系统包含如上所述的用于产生音频传输信号的装置，以及如上所述的用于产生一个或多个音频输出声道的装置。用于产生一个或多个音频输出声道的装置用于从用于产生音频传输信号的装置接收所述音频传输信号以及第二混合规则的信息。此外，用于产生一个或多个音频输出声道的装置用于根据第二混合规则的信息，从音频传输信号产生一个或多个音频输出声道。

此外，提供了一种用于产生一个或多个音频输出声道的方法。此方法包含：

-接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，其中所述音频传输信号取决于第一混合规则以及第二混合规则，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。

-接收所述第二混合规则的信息，其中所述第二混合规则的信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得；

-根据音频对象数量、预混合声道数量以及所述第二混合规则的信息，计算输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量，以及：

-根据所述输出声道混合信息，从所述音频传输信号产生一个或多个音频输出声道。

此外，本发明提供一种方法，其用于产生包含一个或多个音频传输声道的音频传输信号。此方法包含：

-从两个或更多个音频对象信号产生所述音频传输信号，此音频传输信号包含一个或多个音频传输声道，

-输出所述音频传输信号，以及：

-输出所述第二混合规则的信息。

从两个或更多个音频对象信号产生所述音频传输信号被执行，使得两个或更多个音频对象信号被混合在所述音频传输信号中，此音频传输信号包含所述一个或多个音频传输声道，其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量。根据第一混合规则以及第二混合规则，产生所述音频传输信号的一个或多个音频传输声道被进行，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量。所述第二混合规则取决于所述预混合声道数量。

此外，本发明提供一种计算机程序，其执行于计算机上或信号处理器上时用于实施如上述的方法。

附图说明

下面参考附图描述本发明的实施例，其中：

图1示出根据实施例的用于产生一个或多个音频输出声道的装置。

图2示出根据实施例的用于产生包含一个或多个音频传输声道的音频传输信号的装置。

图3示出根据实施例的系统。

图4示出三维音频编码器的第一实施例。

图5示出三维音频解码器的第一实施例。

图6示出三维音频编码器的第二实施例。

图7示出三维音频解码器的第二实施例。

图8示出三维音频编码器的第三实施例。

图9示出三维音频解码器的第三实施例。

图10示出由方位角、仰角和半径所表示的音频对象在从原点开始的三维空间中的位置。

图11示出音频对象以及由音频声道发生器采用的扬声器装备的位置。

具体实施方式

在详尽描述本发明的优选实施例之前，先描述新型的三维音频编码解码器系统。

在现有技术中，不存在结合一方面声道编码和另一方面对象编码的可变技术，使得可接受的音频质量以低比特率获得。

此限制可被此新的三维音频编码解码器系统所克服。

在详尽描述本发明的优选实施例之前，先描述此新的三维音频编码解码器系统。

图4示出根据本发明的实施例的3D音频编码器。3D音频编码器用于编码音频输入数据101以获得音频输入数据501。3D音频编码器包含输入接口，该输入接口用于接收CH所指示的多个音频声道以及OBJ所指示的多个音频对象。此外，图4所示出的输入接口1100额外地接收与多个音频对象OBJ中的至少一个相关的元数据。此外，3D音频编码器包含混合器200，该混合器200用于混合多个对象以及多个声道以获得多个预混合的声道，其中每个预混合的声道包含声道的音频数据以及至少一个对象的音频数据。

此外，3D音频编码器包含核心编码器300以及元数据压缩器400，其中核心编码器300用于核心编码核心编码器输入数据，元数据压缩器400用于压缩与多个音频对象中的至少一个相关的元数据。

此外，3D音频编码器可包含模式控制器600，其在多个操作模式中的其中一个下控制混合器，核心编码器和/或输出接口500，其中核心编码器在第一模式用于编码多个音频声道以及通过输入接口1100接收而不受混合器影响(也即不通过混合器200混合)的多个音频对象。然而，在第二模式下混合器200是激活的，核心编码器编码多个混合的声道，也即区块200所产生的输出。在后者的情况下，优选地，不要再编码任何对象数据。代替地，指示音频对象位置的元数据已被使用于混合器200，以将对象渲染于元数据所指示的声道上。换句话说，混合器200使用与多个音频对象相关的元数据以预渲染音频对象，接着，所预渲染的音频对象与声道混合以获得在混合器输出处的混合声道。在此实施例中，可以不必传输任何对象，这也适用于区块400输出的压缩元数据。然而，如果并非输入接口1100的所有对象皆被混合而仅有特定数量的对象被混合，则仅剩余的没有被混合的对象以及相关联的元数据仍分别被传送到核心编码器300或元数据压缩器400。

图6示出3D音频编码器的另一实施例，3D音频编码器另外包含SAOC编码器800。该SAOC编码器800用于从空间音频对象编码器输入数据中产生至少一个传输声道以及参数化数据。如图6所示出，空间音频对象编码器的输入数据为尚未经由预渲染器/混合器处理的对象。另外，当独立声道/对象编码在第一模式下是激活时，则预渲染器/混合器被绕过，所有被输入到输入接口1100的对象被SAOC编码器800编码。

此外，如图6所示出，优选地，核心编码器300被实现作为USAC编码器，也即作为MPEG-USAC标准(USAC＝联合语音以及音频编码)中所定义以及规范的编码器。针对独立数据类型，描绘于图6中的3D音频编码器的所有输出为MPEG 4数据流、MPEG H数据流或3D音频数据流，具有容器状结构。此外，元数据被指示作为“OAM”数据，图4中的元数据压缩器400对应于OAM编码器400，以获得输入到USAC编码器300内的压缩OAM数据，如图6所示出，USAC编码器300另外包含输出接口，用于获得具有编码声道/对象数据以及压缩OAM数据的MP4输出数据流。

图8示出3D音频编码器的另一实施例，相对于图6，SAOC编码器可用于使用SAOC编码算法编码于此模式下不激活的在预渲染器/混合器200处所提供的声道，或者，SAOC编码器用于SAOC编码预渲染声道和对象。因此，在图8中的SAOC编码器800可对三种不同类型的输入数据进行操作，也即不具有任何预渲染对象的声道、声道以及预渲染对象、或者独立对象。此外，优选地，在图8中提供另一OAM解码器420，以使SAOC编码器800用于处理与在解码器侧上的相同的数据，也即有损压缩所获得的数据，而非原始的OAM数据。

在图8中，3D音频编码器可在多个独立模式下操作。

除了在图4的上下文中所描述的第一模式以及第二模式下外，在图8中的3D音频编码器可额外地在第三模式下操作，当预渲染器/混合器200没有激活时，核心编码器在第三模式下从独立对象中产生至少一个传输声道。另外或额外地，当对应于图4中的混合器200的预渲染器/混合器200未激活，SAOC编码器800可以在第三模式下从原始声道中产生至少一个另外的或额外的传输声道。

最后，当3D音频编码器使用于第四模式时，SAOC编码器800可对声道和预渲染器/混合器所产生的预渲染对象进行编码。因此，在第四模式下，由于声道以及对象完整地被传送到独立的SAOC传输声道内，最低的比特率应用将提供良好的质量，并且与图3以及图5中作为“SAOC-SI”所指示的相关联辅助信息和另外，任何的压缩元数据在第四模式下不会被传送。

图5示出根据本发明的实施例的3D音频解码器。3D音频解码器接收编码音频数据作为输入，也即图4的数据501。

3D音频解码器包含元数据解压缩器1400、核心解码器1300、对象处理器1200、模式控制器1600以及后置处理器1700。

具体地，3D音频解码器用于解码编码音频数据，输入接口用于接收包含多个编码声道以及多个编码对象的编码音频数据，和在特定的模式下与多个对象相关联的压缩元数据。

此外，核心解码器1300用于解码多个编码声道以及多个编码对象，额外地，元数据解压缩器用于解压缩压缩元数据。

此外，对象处理器1200用于使用解压缩元数据处理核心解码器1300所产生的多个解码对象，以获得包含对象数据以及解码声道的预定数量的输出声道。该输出声道在1205上被指示并接着被输入到后置处理器1700内。后置处理器1700用于将多个输出声道1205转换成特定输出格式，该特定输出格式可以为立体输出格式或扬声器输出格式，例如5.1以及7.1等输出格式。

优选地，3D音频解码器包含模式控制器1600，该模式控制器1600用于分析编码数据以检测模式指示。因此，模式控制器1600连接到图5内的输入接口1100。然而，模式控制器在此并非为必要的。代替地，可调式音频解码器可通过任何其他种类的控制数据进行预设置，例如用户输入或任何其他控制。优选地，在图5中的3D音频解码器通过模式控制器1600进行控制，并用于绕过对象处理器并将多个解码声道馈入后置处理器1700。当第二模式应用于图4的3D音频编码器时，即3D音频编码器在第二模式下操作时，则仅有预渲染声道被接收。另外，当第一模式应用于3D音频编码器时，也即当3D音频编码器已执行独立的声道/对象编码时，对象处理器1200不会被绕过，而多个解码声道以及多个解码对象与元数据解压缩器1400产生的解压缩元数据一同被馈入到对象处理器1200。

优选地，应用第一模式或第二模式的指示被包含于编码音频数据，模式控制器1600分析编码数据以检测模式指示。当模式指示表示编码音频数据包含编码声道以及编码对象时，使用第一模式；而当模式指示表示编码音频数据不包含任何音频对象(也即仅包含由图4中的3D音频编码器获得的预渲染声道)时，使用第二模式。

图7示出与图5的3D音频解码器相比的优选实施例，图7的实施例对应于图6的3D音频编码器。除了在图5中3D音频解码器的实施方式之外，在图7中的3D音频解码器包含SAOC解码器1800。此外，图5的对象处理器1200被实施作为独立的对象渲染器1210以及混合器1220，对象渲染器1210的功能也可通过SAOC解码器1800根据该模式来实施。

此外，后置处理器1700可被实施作为立体渲染器1710或格式转换器1720。另外，也可实施图5的数据1205的直接输出，如1730所示出。因此，为了具有可变性，优选的是使用较多数量(例如22.2或32)的声道执行解码器内的处理，如果需要较小的格式，再接着进行后处理。然而，当一开始就清楚知道仅需要较少数量声道(例如5.1格式)，优选地，如图9的快捷方式1727所示出，可应用对SAOC解码器和/或USAC解码器的特别控制，以避免不必要的升混合操作以及随后的降混合操作。

在本发明的优选实施例中，对象处理器1200包含SAOC解码器1800，该SAOC解码器1800用于解码核心解码器所输出的至少一个传输声道以及相关联的参数化数据，并使用解压缩元数据以获得多个渲染音频对象。为此，OAM输出被连接至方块1800。

此外，对象处理器1200用于渲染核心解码器所输出的解码对象，其并未被编码于SAOC传输声道，而是独立编码于对象渲染器1210所指示的典型单一声道单元。此外，解码器包含相对应于输出1730的输出接口，用于将混合器的输出输出到扬声器。

在另一实施例中，对象处理器1200包含空间音频对象编码解码器1800，用于解码至少一个传输声道以及相关联的参数化辅助信息，其代表编码音频信号或编码音频声道，其中空间音频对象编码解码器用于将相关联的参数化信息以及解压缩元数据转码到可用于直接地渲染输出格式的经转码的参数化辅助信息，例如在SAOC的早期版本所定义的示例。后置处理器1700用于使用解码传输声道以及经转码的参数化辅助信息，计算输出格式的音频声道。后置处理器所执行的处理可相似于MPEG环绕处理或可以为任何其他的处理，例如BCC处理等。

在另一实施例中，对象处理器1200包含空间音频对象编码解码器1800，用于使用解码(通过核心解码器)传输声道以及参数化辅助信息，针对输出格式直接升混合以及渲染声道信号。

此外，重要的是，图5的对象处理器1200另外包含混合器1220，当存在与声道混合的预渲染对象时(也即当图4的混合器200激活时)，混合器1220直接地接收USAC解码器1300所输出的数据并作为输入。此外，混合器1220从执行对象渲染的对象渲染器接收没有经SAOC解码的数据。此外，混合器接收SAOC解码器输出数据，也即SAOC渲染的对象。

混合器1220连接到输出接口1730、立体渲染器1710以及格式转换器1720。立体渲染器1710用于使用头部相关传递函数或立体空间脉冲响应(BRIR)，将输出声道渲染成两个立体声道。格式转换器1720用于将输出声道转换成输出格式，该输出格式具有数量少于混合器的输出声道1205的声道，格式转换器1720需要再现布局的信息，例如5.1扬声器等。

图9中的3D音频解码器不同于图7中的3D音频解码器，不同之处在于其SAOC解码器不仅能产生渲染对象，也能产生渲染声道，在此情况下，图8中的3D音频解码器已被使用，且在声道/预渲染对象以及SAOC编码器800输入接口之间的连接900为激活的。

此外，向量基幅值相移(VBAP)阶段1810用于从SAOC解码器接收再现布局的信息，并将渲染矩阵输出到SAOC解码器，以使SAOC解码器最后能以1205(也即32声道扬声器)的高声道格式来提供渲染声道，而不需混合器的任何额外的操作。

优选地，VBAP方块接收经解码OAM数据以获得渲染矩阵。更普遍地，优选的是需要再现布局以及输入信号应被渲染到再现布局的位置的几何信息。几何输入数据可以为对象的OAM数据或声道的声道位置信息，其中声道已使用SAOC传送。

然而，如果仅需要特定的输出接口，则VBAP状态1810已经针对例如5.1输出而提供所需要的渲染矩阵。SAOC解码器1800执行来自SAOC传输声道、相关联的参数数据以及解压缩元数据的直接渲染，而不需混合器1220的交互下直接渲染成所需要的输出格式。然而，当多个模式之间采用特定的混合时，即几个声道SAOC编码但非所有声道皆为SAOC编码；或者几个对象SAOC编码但非所有对象皆SAOC编码；或者仅特定数量的预渲染对象和声道SAOC解码而剩余声道不以SAOC处理，然后混合器将来自单独输入部分，即直接来自核心解码器1300、对象渲染器1210以及SAOC解码器1800的数据放在一起。

在三维音频中，方位角角度、仰角角度以及半径是用于定义音频对象的位置。此外，可传送对于音频对象的增益。

方位角角度、仰角角度以及半径明确地定义在从原点开始的三维空间中的音频对象的位置，其示意图可参考图10。

图10显示由方位角、仰角和半径所表示的音频对象在从原点400开始的三维空间(三维)中的位置410。

所述方位角定义，例如，在xy平面中的角度(所述平面由x轴及y轴所定义)。所述仰角定义，例如，在xz平面中的角度(所述平面由x轴及z轴所定义)。通过定义此方位角及仰角，直线415穿过所述原点400且所述音频对象的位置410能够被定义。通过更进一步定义所述半径，能够定义所述音频对象的精确位置410。

在实施例中，所述方位角被定义为范围：-180°<方位角≤180°，所述仰角被定义为范围：-90°<仰角≤90°，且所述半径可以，例如，以米[m]定义(大于或等于0米)。被所述方位角、仰角以及角度描述的球能被分成两个半球：左半球(0°<方位角≤180°)以及右半球(-180°<方位角≤0°)，或上半球(0°<仰角≤90°)以及下半球(-90°<仰角≤0°)。

在另一实施例中，举例来说，可被假设为在xyz坐标系中所述音频对象位置的所有x数值大于或等于0，所述方位角可被定义为范围：-90°≤方位角≤90°，所述仰角可被定义为范围：-90°<仰角≤90°，以及所述半径可以，例如，以米[m]定义。

举例来说，根据一个或多个音频对象信号以及所述重建元数据信息值，所述降混合处理器120可以，例如，用于产生一个或多个音频声道，其中所述重建元数据信息值可以，例如，指示所述音频对象的位置。

在实施例中，元数据信息值可以，例如，指示所述方位角可被定义为范围：-180°<方位角≤180°，所述仰角被定义为范围：-90°<仰角≤90°，且所述半径可以，例如，以米[m]定义(大于或等于0米)。

图11显示音频对象以及所述音频声道发生器采用的扬声器装备的位置。图中示出xyz坐标系的原点500。此外，第一音频对象的位置510以及第二音频对象的位置520被示出。此外，图11示出以下场景，其中所述音频声道发生器120对四个扬声器产生四个音频声道。音频声道发生器120假设此四个扬声器511、512、513以及514放置于如图11所示的位置。

在图11中，所述第一音频对象位于靠近扬声器511及512位置的位置510，且其远离扬声器513及514。因此，所述音频声道发生器120可以产生所述四个音频声道，使得第一音频对象510可以被扬声器511和512再现，但无法被扬声器513和514再现。

在其他实施例中，音频声道发生器120可以产生所述四个音频声道，使得第一音频对象510可以被扬声器511和512以高水平再现，且其可以被扬声器513和514以低水平再现。

此外，所述第二音频对象位于靠近扬声器513及514位置的位置520，且其远离扬声器511及512，因此，所述音频声道发生器120可以产生所述四个音频声道，使得第二音频对象520可以被扬声器513和514再现，但无法被扬声器511和512再现。

在其他实施例中，降混合处理器120可以产生所述四个音频声道，使得第二音频对象520可以被扬声器513和514以高水平再现，且其可以被扬声器511和512以低水平再现。

在替代的实施例中，只有两个元数据信息值用于指定音频对象的位置。例如，只有方位角及半径可以被指定，例如，当假设所有的音频对象位于单一平面中时。

在更进一步的其他实施例中，对于每一音频对象，只有元数据信号的单一元数据信息值被编码且被传送以作为位置信息。举例来说，只有方位角可以被指定成针对音频对象的位置信息(如，可以假设所有音频对象位于相同平面中且距离中心点相同的距离，因此可以被假定为具有相同的半径)。所述方位角信息可以，例如，足以确定音频对象位于靠近左扬声器且远离右扬声器。在此情况下，所述音频声道发生器120可以产生一个或多个音频声道，使得所述音频对象被左扬声器，而非右扬声器所再现。

举例来说，向量基幅值相移可以被用来确定音频对象信号在每一音频输出声道中的权重(请见[VBAP])。相对于VBAP，假设音频对象信号被指派到虚拟源，且更进一步地假设音频输出声道是扬声器的声道。

在实施例中，另一元数据信号的另一元数据信息值可以对每一音频对象指定音量，例如，增益，例如，以分贝[dB]表示。

例如，在图11中，第一增益值可高于第二增益值，此第一增益值可以由另一元数据信息值来指定，且元数据信息值是针对位于位置510的第一音频对象，此第二增益值可以由另外的元数据信息值来指定，且此另外的元数据信息值是针对位于位置520的第二音频对象。在此情况下，扬声器511及512可以以一水平来再现所述第一音频对象，且此水平高于扬声器513及514的用来再现所述第二音频对象的水平。

根据SAOC技术，SAOC编码器接收多个音频对象信号X，并采用降混合矩阵D以降混合此多个音频对象信号X，以获得包含一个或多个音频传输声道的音频传输信号Y。以下公式可以被采用：

Y＝DX

所述SAOC编码器传送音频传输信号Y以及降混合矩阵D的信息(如，所述降混合矩阵D的系数)至所述SAOC解码器。此外，所述SAOC编码器传送协方差矩阵E的信息(如，所述协方差矩阵E的系数)至所述SAOC解码器。

在解码器端，所述音频对象信号X可以被重建，以采用以下公式而获得重建音频对象

其中G为参数化源估算矩阵，G＝E D^H(D E D^H)^–1。

然后，一个或多个音频输出声道Z可以通过在所述重建音频对象

上应用渲染矩阵R而产生，其根据以下公式：

然而，从所述音频传输信号产生所述一个或多个音频输出声道Z，能够在单一步骤采用矩阵U并根据以下公式而进行：

Z＝UY,其中U＝RG。

所述渲染矩阵R的每一列与将被产生的音频输出声道中的一个相关联。在渲染矩阵R中的其中一列的每一系数决定在所述音频输出声道中的重建音频对象信号的其中一个的权重，所述渲染矩阵R的该列与其相关联。

例如，所述渲染矩阵R可以取决于元数据信息中的传送到SAOC解码器的每一音频对象信号的位置信息。例如，位置靠近假定或实际扬声器位置的音频对象信号，如，可以在所述扬声器的音频输出声道中具有高于位置远离所述扬声器的音频对象信号的权重(见图5)。举例来说，向量基幅值相移可以被用来确定音频对象信号在每一音频输出声道中的权重(例如请见[VBAP])。相对于VBAP，假设音频对象信号被指派到虚拟源，且更进一步地假设音频输出声道是扬声器的声道。

在图6及图8中，示出SAOC编码器800。所述SAOC编码器800用于通过降混合此多个输入对象/声道至较小数量的传输声道并提取必要的辅助信息而参数化地编码多个输入对象/声道，其中此辅助信息嵌入在所述三维音频比特流中。

降混合成较小数量的传输声道可以针对每一输入信号以及降混声道来使用降混合系数来完成(如，采用降混合矩阵)。

在现有技术中处理音频对象信号的为MPEG SAOC系统。此系统的主要特点为中间降混合信号(或根据图6及图8的SAOC传输声道)能够使用传统装置来监听，此装置无能力解码所述SAOC信息。此加强了待使用的降混合系数的限制，且此降混合数通常由内容创造者所提供。

所述三维音频编码解码器系统的目的是使用SAOC技术来增加编码大量对象或声道的效率。降混合大量数量的对象成小量数量的传输声道节省了比特率。

所述装置包含对象混合器210，用于从所述两个或更多个音频对象信号产生所述音频传输信号，此音频传输信号包含一个或多个音频传输声道，使得所述两个或更多个音频对象信号被混合在音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量。

此外，此装置包含输出接口220，用于输出所述音频传输信号。

所述对象混合器210用于根据第一混合规则以及第二混合规则，产生所述音频传输信号的一个或多个音频传输声道，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量，且其中所述第二混合规则取决于所述预混合声道数量。所述输出接口220用于输出所述第二混合规则的信息。

所述装置包含参数处理器110以及降混合处理器120，此参数处理器110用于计算输出声道混合信息，而降混合处理器120用于产生所述一个或多个音频输出声道。

所述降混合处理器120用于接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量。所述音频传输信号取决于第一混合规则以及第二混合规则。所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道。此外，所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的一个或多个音频传输声道。

所述参数处理器110用于接收所述第二混合规则的信息，其中所述第二混合规则的信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得。所述参数处理器110用于根据音频对象数量、预混合声道数量以及所述第二混合规则的信息，计算所述输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的数量，所述预混合声道数量指示所述多个预混合声道的数量。

所述降混合处理器120用于根据所述输出声道混合信息从所述音频传输信号产生一个或多个音频输出声道。

根据实施方式，所述装置可以，如用于接收该音频对象数量以及该预混合声道数量中的至少一个。

在另一实施方式中，所述参数处理器110可用于例如根据所述音频对象数量以及所述预混合声道数量，确定所述第一混合规则的信息，使得所述第一混合规则的信息指示如何混合所述两个或更多个音频对象信号以获得所述多个预混合声道。在此实施例中，所述参数处理器110可以，如用于根据所述第一混合规则的信息以及所述第二混合规则的信息，计算该输出声道混合信息。

根据实施例，所述参数处理器110可用于例如根据所述音频对象数量以及所述预混合声道数量，确定第一矩阵P的多个系数以作为所述第一混合规则的信息，其中所述第一矩阵P指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道。在此实施例中，所述参数处理器110例如可用于接收第二矩阵P的多个系数以作为所述第二混合规则的信息，其中所述第二矩阵Q指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道。在此实施例的所述参数处理器110可用于例如根据所述第一矩阵P以及所述第二矩阵Q计算所述输出声道混合信息。

实施方式基于以下发现：当降混合所述两个或更多个音频对象信号X，以通过根据以下公式而采用降混合矩阵D来获得在所述编码器端上的音频传输信号Y，

Y＝DX，

然后降混合矩阵D能够根据以下公式分为两个较小的矩阵P及Q：

D＝QP。

因此，所述第一矩阵P按照以下公式实现从所述音频对象信号X到所述多个预混合声道X_pre的混合：

X_pre＝PX

所述第二矩阵Q按照以下公式实现从所述多个预混合声道X_pre到所述音频传输信号Y的一个或多个音频传输声道的混合：

Y＝Q X_pre

根据此实施方式，第二混合规则的信息，如第二混合矩阵Q的所述系数的信息，被传送到解码器。

而第一混合矩阵P的系数则不被传送到解码器。取代的是，所述解码器接收多个音频对象信号的信息以及多个预混合声道的信息。从此信息，此解码器能够重建所述第一混合矩阵P。例如，当混合第一数量的N_objects个音频对象信号至第二数量的N_pre个预混合声道，所述编码器及解码器以同样方式确定所述混合矩阵P。

图3示出根据实施例的系统。此系统包含如上所参考到图2的用于产生音频传输信号的装置310，以及上述参考到图1的用于产生一个或多个音频输出声道的装置320。

用于产生一个或多个音频输出声道的装置320用于从用于产生音频传输信号的装置310接收所述音频传输信号以及第二混合规则的信息。此外，用于产生一个或多个音频输出声道的装置320用于根据第二混合规则的信息，从音频传输信号产生一个或多个音频输出声道。

举例来说，所述参数处理器110可以，如用于接收元数据信息，所述元数据信息包含针对每一所述两个或更多个音频对象信号的位置信息，并根据每一所述两个或更多个音频对象信号的位置信息来确定所述第一降混合规则的信息，如通过采用向量基幅值相移。如，所述编码器可以存取每一两个或更多个音频对象信号的位置信息，也可以采用向量基幅值相移来确定在预混合声道中所述音频对象信号的权重，而解码器也利用相同的方式来确定第一矩阵P的系数(如，编码器以及解码器可以采用扬声器的相同定位，且这些扬声器被指派到N_pre个预混合声道)。

通过接收所述第二矩阵Q的系数以及确定第一矩阵P，此解码器可以根据D＝QP来确定降混合矩阵D。

在实施方式中，所述参数处理器110可以，例如用来接收协方差信息，如协方差矩阵E的系数(如，从用于产生音频传输信号的装置)，以指示对于每一两个或更多个音频对象信号的对象水平差异，可能地，也指示在所述音频对象信号中的一个以及音频对象信号中的另一个之间的一个或多个对象间相关性。

在此实施方式中，所述参数处理器110可用于根据音频对象数量、所述预混合声道数量、所第二混合规则的信息以及所述协方差信息，计算输出声道混合信息。

例如，使用所述协方差矩阵E，所述音频对象信号X可以被重建，以采用以下公式而获得重建音频对象

其中G为参数化源估算矩阵，G＝E D^H(D E D^H)^–1。

然后，根据以下公式，一个或多个音频输出声道Z可以通过在所述重建音频对象

上应用渲染矩阵R根据以下公式而产生：

然而，根据以下公式，从所述音频传输信号产生所述一个或多个音频输出声道Z，能够在单一步骤采用矩阵U进行：

Z＝UY，其中S＝UG。

此矩阵S为针对由所述参数处理器110确定输出声道混合信息的例子。

举例来说，如上所说明，渲染矩阵R的每一列可以与将被产生的音频输出声道中的一个相关联。在渲染矩阵R中的其中一列的每一系数决定在所述音频输出声道中的重建音频对象信号中的一个的权重，所述渲染矩R的该列与其相关。

根据实施方式，所述参数化处理器110可用于例如接收包含针对每一两个或更多个音频对象信号的位置信息的元数据信息，可用于例如根据每一所述两个或更多个音频对象信号的位置信息，确定渲染信息，例如渲染矩阵R的系数，可用于例如根据所述音频对象数量、所述预混合声道数量、第二混合规则的信息以及渲染信息(如渲染矩阵R)，计算所述输出声道混合信息(如上述的矩阵S)。

如此，所述渲染矩阵R可以，举例来说，取决于元数据信息中的传送到SAOC解码器的每一音频对象信号的位置信息。如，位置靠近假定或实际扬声器位置的音频对象信号，如，可以在所述扬声器的音频输出声道中具有高于位置远离所述扬声器的音频对象信号的权重(见图5)。举例来说，向量基幅值相移可以被用来确定音频对象信号在每一音频输出声道中的权重(例如请见[VBAP])。相对于VBAP，假设音频对象信号被指派到虚拟源，且更进一步地假设音频输出声道是扬声器的声道。所述渲染矩阵R的对应系数可根据如此权重来被设定(此系数被指派给考虑过的音频输出声道以及音频对象信号)。例如，权重本身可以是在渲染矩阵R中所述对应系数的数值。

在下文中将详尽描述实现空间降混合以用于以对象为基础的信号的实施方式。

参考以下符号及定义：

N_Objects 输入音频对象信号的数量

N_Channels 输入声道的数量

N 输入信号的数量，N可以等于N_Objects，N_Channels，或者是两者的和(N_Objects+N_Channels)

N_DmxCh 降混合(已处理的)声道的数量

N_pre 预混合声道的数量

N_Samples 已处理的数据样本的数量

D 降混合矩阵，其大小为N_DmxCh x N

X 包含所述两个或更多个音频输入信号的输入音频信号，其大小为N x N_Samples

Y 降混合音频信号(所述音频传输信号)，其大小为N_DmxCh x N_Samples,定义为Y＝DX

DMG 用于每一输入信号、降混合声道以及参数集合的降混合增益数据

D_DMG 是保持针对每一输入信号、降混合声道以及参数集合的去量化的映射DMG数据的三维矩阵。

不失一般性，为了改善公式的可读性，对所有引进的变量，表示时间和频率依赖性的指数均被省略。

如果没有限制指定于所述输入信号(声道或对象)，所述降混合系数针对输入声道信号以及输入对象信号以相同方式来计算。符号N用于表示输入信号的数量。

一些实施方式可以，如，被设计用于以不同于声道信号的方式来降混合对象信号，其通过对象元数据可得的空间信息来进行导引。

此降混合可以被分为两个步骤：

-在第一步骤中，所述对象被预渲染给具有最高数量扬声器的再现布局(如，N_pre＝22由22.2配置所给定)，如，可以采用所述第一矩阵P。

-在第二步骤中，所获得的N_pre预渲染信号被降混合至多个可用传输声道(N_DmxCh)(如，根据正交降混合分布算法)。如，可以采用所述第二矩阵Q。

然而，在一些实施方式中，此降混合可以在单一步骤中被完成，如，通过采用根据公式：D＝QP定义的矩阵D，并通过应用Y＝DX与D＝QP。

特别是，所提出概念的更进一步优点为，如在所述音频场景中，在相同空间位置被渲染的所述输入对象信号在相同的传输声道中被一起降混合。所以，在解码器端，可获得所述渲染信号的优选分离，可防止被一起混合在最终再现场景中的音频对象的分离。

根据特定的优选实施例，所述降混合可以被描述成矩阵乘法，其通过：

X_pre＝PX以及Y＝QX_pre

其中P的大小(N_pre x N_Objects)以及Q的大小(N_DmxCh x N_pre)可以被计算如下所述。

在P中的所述混合系数是使用相移算法(如，向量基幅值相移)从对象信号元数据(半径、增益、方位角以及仰角)所建构。此平移算法应该相同于在解码器端用来建构输出声道的平移算法。

在编码器端被给定在Q中的混合系数是用于N_pre个输入信号以及N_DmxCh个可用传输声道。

为了减少计算复杂度，此两步骤降混合可以通过计算最终降混合增益而简化为一个步骤，如：

D＝QP

然后通过下式给定降混合信号：

Y＝DX

在P中的所述混合系数将不在比特流中被传送。取代的是，所述混合系数在解码器端使用相同的平移算法而被重建。因此，所述比特率可通过仅发送Q中的混合系数而减少。特别是，当在P中的混合系数通常为时间变量，且当P不被传送时，较高的比特率减少能够被达成。

在下文中，依据实施方式，考虑所述比特流句法。

为了信号化所使用的降混合方法以及声道的数量Npre，以预渲染在第一步骤中的对象，所述MPEG SAOC比特流句法被扩大为使用4个位：

bsNumPremixedChannels

bsSaocDmxMethod	bsNumPremixedChannels
		0	0
1	22
		2	11
3	10
		4	8
5	7
		6	5
7	2
		8，...，14	保留的
15	逸出值

在MPEG SAOC的上下文中，其可以通过下列的修改而被完成：

bsSaocDmxMethod:指示所述降混合矩阵如何建构

SAOC3DSpecificConfig()的句法：信号化

bsNumSaocDmxChannels 定义用于以声道为基础的内容的降混合声道的数量。如果在降混合中不存在任何声道，bsNumSaocDmxChannels则设定成0

bsNumSaocChannels 定义用于传送SAOC三维参数的输入声道的数量。如果bsNumSaocChannels等于0，则在降混合里不存在任何声道

bsNumSaocDmxObjects 定义用于以对象为基础的内容的降混合声道的数量。如果在降混合中不存在任何对象，则将bsNumSaocDmxObjects设定为0

bsNumPremixedChannels 定义用于输入音频对象的预混合声道的数量。如果bsSaocDmxMethod等于15，则实际数量的预混合声道则直接通过bsNumPremixedChannels的数值来被信号化。在所有其他情况下，根据先前的表格设定bsNumPremixedChannels。

根据实施例，应用于输入音频信号S的降混合矩阵D确定所述降混合信号为：

X＝DS

大小为N_dmx×N的降混合矩阵可以由以下公式而获得：

D＝D_dmxD_premix

按照处理模式，所述矩阵D_dmx以及矩阵D_premix具有不同的大小。

所述矩阵D_dmx从所述DMG参数所获得，可表示为：

此处，所述去量化降混合参数可由下式获得：

DMG_i,j＝D_DMG(i,j,l)

在直接模式的情况下，没有预混合被使用到。所述矩阵D_premix具有N×N的大小，且此矩阵可由下式表示：D_premix＝I。所述矩阵D_dmx具有N_dmx×N的大小，且其是从DMG参数所获得。

在预混合模式的情况下，所述矩阵D_premix具有大小(N_ch+N_premix)×N，且此矩阵可由下式表示：

其中从所述对象渲染器，大小为N_premix×N_obj的所述预混合矩阵A被接收以作为SAOC三维解码器的输入。

所述矩阵D_dmx具有N_premix×N_obj的大小，且其是从DMG参数所获得。

虽然一些方面已经在装置的内容中描述，清楚的是这些方面也代表相对应的方法的描述，而方块或者装置对应方法步骤或者方法步骤的特征。同样地，在方法步骤的内容中描述的方面也代表相对应的方块或者项目或者相对应装置的特征的描述。

本发明的解压缩信号可储存在数字存储介质上或者可传送至传送介质(例如无线传送介质或者有线传送介质(例如因特网))上。

取决于特定的执行需求，本发明的实施例可在硬件或者在软件上实现。此实现可使用数字储存介质，例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或者FLASH内存实施，其储存有电子可读控制信号，其能与可编程计算机系统合作(或者能够合作)以执行上述方法。

根据本发明的一些实施例包含具有电子可读控制信号的非临时性数据载体，其能够与可编程计算机系统配合，以执行上述方法中的其中一种。

通常，本发明的实施例可实现为具有程序代码的计算机程序产品，当此计算机程序产品在计算机上运行时此程序代码可操作以执行上述方法中的其中一种。例如此程序代码可储存在机器可读载体上。

其他实施例包含用于执行上述方法中的其中一种的计算机程序，其储存在机器可读载体上。

换句话说，因此本发明的方法的实施例为具有当此计算机程序在计算机上运行时，能执行上述方法中的其中一种的程序代码的计算机程序。

因此，本发明的方法的另一实施例为数据载体(或者数字存储介质或者计算机可读介质)，包含纪录于其上的用于执行上述方法中的其中一种的计算机程序。

因此，本发明的方法的另一实施例为数据流或者信号序列，其代表用于执行上述方法中的其中一种的计算机程序。例如数据流或者信号序列可配置为经由数据通讯连接传输，例如经由因特网。

另一实施例包含处理装置，例如计算机，或者可编程逻辑设备，用于或者适于执行上述方法中的其中一种。

另一实施例包含安装有用于执行上述方法中的其中一种的计算机程序的计算机。

根据本发明的实施例，提供一种装置，用于产生一个或多个音频输出声道，其中该装置包含：参数处理器(110)，用于计算输出声道混合信息，以及降混合处理器(120)，用于产生所述一个或多个音频输出声道，其中所述降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，其中所述音频传输信号取决于第一混合规则以及第二混合规则，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，其中所述参数处理器(110)用于接收所述第二混合规则的信息，其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得，其中所述参数处理器(110)用于根据音频对象数量、预混合声道数量以及所述第二混合规则的所述信息，计算所述输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，以及其中所述降混合处理器(120)用于根据所述输出声道混合信息从所述音频传输信号产生所述一个或多个音频输出声道。

根据本发明的实施例，其中该装置用于接收所述音频对象数量以及所述预混合声道数量中的至少一个。

根据本发明的实施例，其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量，确定所述第一混合规则的信息，使得所述第一混合规则的所述信息指示如何混合所述两个或更多个音频对象信号以获得所述多个预混合声道，以及其中所述参数处理器(110)用于根据所述第一混合规则的所述信息以及所述第二混合规则的所述信息，计算所述输出声道混合信息。

根据本发明的实施例，其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量，确定第一矩阵(P)的多个系数以作为所述第一混合规则的所述信息，其中所述第一矩阵(P)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，其中所述参数处理器(110)用于接收第二矩阵(Q)的多个系数以作为所述第二混合规则的所述信息，其中所述第二矩阵(Q)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及其中所述参数处理器(110)用于根据所述第一矩阵(P)以及所述第二矩阵(Q)计算所述输出声道混合信息。

根据本发明的实施例，其中所述参数处理器(110)用于接收元数据信息，所述元数据信息包含针对每一所述两个或更多个音频对象信号的位置信息，其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定所述第一降混合规则的所述信息。

根据本发明的实施例，其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定渲染信息，以及其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述渲染信息，计算所述输出声道混合信息。

根据本发明的实施例，其中所述参数处理器(110)用于接收协方差信息，所述协方差信息指示针对每一所述两个或更多个音频对象信号的对象水平差异，以及其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述协方差信息，计算所述输出声道混合信息。

根据本发明的实施例，其中所述协方差信息进一步指示在所述两个或更多个音频对象信号的其中一个及另一个之间的至少一个对象间相关性，以及其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息、每一所述两个或更多个音频对象信号的所述对象水平差异以及在所述两个或更多个音频对象信号的其中一个及另一个之间的所述至少一个对象间相关性，计算所述输出声道混合信息。

根据本发明的实施例，提供一种用于产生包含一个或多个音频传输声道的音频传输信号的装置，其中所述装置包含：对象混合器(210)，用于从两个或更多个音频对象信号产生包含所述一个或多个音频传输声道的所述音频传输信号，使得所述两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的所述数量小于所述两个或更多个音频对象信号的所述数量，以及输出接口(220)，用于输出所述音频传输信号，其中所述对象混合器(210)用于根据第一混合规则以及第二混合规则，产生所述音频传输信号的所述一个或多个音频传输声道，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，其中所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，且其中所述第二混合规则取决于所述预混合声道数量，以及其中所述输出接口(220)用于输出所述第二混合规则的信息。

根据本发明的实施例，其中所述对象混合器(210)用于根据第一矩阵(P)及第二矩阵(Q)，产生所述音频传输信号的所述一个或多个音频传输声道，其中所述第一矩阵(P)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及所述第二矩阵(Q)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及其中所述参数处理器(110)用于输出所述第二矩阵(Q)的多个系数以作为所述第二混合规则的所述信息。

根据本发明的实施例，其中所述对象混合器(210)用于接收针对每一所述两个或更多个音频对象信号的位置信息，以及其中所述对象混合器(210)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定所述第一混合规则。

根据本发明的实施例，提供一种系统，包含：如本发明实施例所述的用于产生音频传输信号的装置(310)，以及如本发明实施例所述的用于产生一个或多个音频输出声道的装置(320)，其中装置(320)用于从装置(310)接收所述音频传输信号及所述第二混合规则的信息，以及其中装置(320)用于根据所述第二混合规则的所述信息，从所述音频传输信号产生所述一个或多个音频输出声道。

根据本发明的实施例，提供一种用于产生一个或多个音频输出声道的方法，其中所述方法包含：接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，其中所述音频传输信号取决于第一混合规则以及第二混合规则，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，接收所述第二混合规则的信息，其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得，根据音频对象数量、预混合声道数量以及所述第二混合规则的信息，计算输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，以及根据所述输出声道混合信息，从所述音频传输信号产生一个或多个音频输出声道。

根据本发明的实施例，提供一种产生包含一个或多个音频传输声道的音频传输信号的方法，其中所述方法包含：从两个或更多个音频对象信号产生所述音频传输信号，所述音频传输信号包含所述一个或多个音频传输声道，输出所述音频传输信号，以及输出所述第二混合规则的信息，其中从两个或更多个音频对象信号产生所述音频传输信号被进行，使得所述两个或更多个音频对象信号被混合在所述音频传输信号中，所述音频传输信号包含所述一个或更多音频传输声道，其中所述一个或多个音频传输声道的所述数量小于所述两个或更多个音频对象信号的所述数量，以及其中根据第一混合规则以及第二混合规则，产生所述音频传输信号的所述一个或多个音频传输声道被进行，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，其中所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，且其中所述第二混合规则取决于所述预混合声道数量。

根据本发明的实施例，提供一种计算机程序，当所述计算机程序被执行于计算机或信号处理器上时，所述计算机程序用于实施如本发明实施例所述的一种用于产生一个或多个音频输出声道的方法或一种产生包含一个或多个音频传输声道的音频传输信号的方法。

在一些实施例中，可编程逻辑设备(例如现场可编程门阵列)可用于执行上述方法的一些或者全部功能。在一些实施例中，为了执行上述方法中的其中一种，现场可编程门阵列可配合微处理器。通常，此方法可优选通过任何硬件装置执行。

上述实施例仅为本发明原理的说明。应理解的是，本文中所描述的修改和有关布置的变化和细节对本领域的其他技术人员来说是明显的。因此，其意图是由即将发生的专利权利要求范围来限制，而不是由本文描述的实施例和解释的方式呈现的特定细节来限制。

参考文献：

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AESConference,Cambridge,UK,2007年4月.

[SAOC2]J.

B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.

L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial AudioObject Coding(SAOC)–The Upcoming MPEG Standard on Parametric Object BasedAudio Coding",124th AES Convention,Amsterdam 2008.

[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio ObjectCoding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.

[VBAP]Ville Pulkki,“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”；J.Audio Eng.Soc.,Level 45,第6期,第456-466页,1997年6月.

[M1]Peters,N.,Lossius,T.and Schacher J.C.,"SpatDIF:Principles,Specification,and Examples",9th Sound and Music Computing Conference,Copenhagen,Denmark,2012年7月.

[M2]Wright,M.,Freed,A.,"Open Sound Control:A New Protocol forCommunicating with Sound Synthesizers",International Computer MusicConference,Thessaloniki,Greece,1997.

[M3]Matthias Geier,Jens Ahrens,and Sascha Spors.(2010),"Object-basedaudio reproduction and the audio scene description format",Org.Sound,第15卷,第3期,第219-227页,2010年12月.

[M4]W3C,"Synchronized Multimedia Integration Language(SMIL 3.0)",2008年12月.

[M5]W3C,"Extensible Markup Language(XML)1.0(Fifth Edition)",2008年11月.

[M6]MPEG,"ISO/IEC International Standard 14496-3-Coding of audio-visual objects,Part 3 Audio",2009.

[M7]Schmidt,J.；Schroeder,E.F.(2004),"New and Advanced Features forAudio Presentation in the MPEG-4Standard",116th AES Convention,Berlin,Germany,2004年5月.

[M8]Web3D,"International Standard ISO/IEC 14772-1:1997-The VirtualReality Modeling Language(VRML),Part 1:Functional specification and UTF-8encoding",1997.

[M9]Sporer,T.(2012),"Codierung

Audiosignale mitleichtgewichtigen Audio-Objekten",Proc.Annual Meeting of the GermanAudiological Society(DGA),Erlangen,Germany,2012年3月.

Claims

1.一种装置，用于产生一个或多个音频输出声道，其中该装置包含：

参数处理器(110)，用于计算输出声道混合信息，以及

降混合处理器(120)，用于产生所述一个或多个音频输出声道，其中所述降混合处理器(120)用于接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，

其中所述音频传输信号取决于第一混合规则以及第二混合规则，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，

其中所述参数处理器(110)用于接收所述第二混合规则的信息，其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得，

其中所述参数处理器(110)用于根据音频对象数量、预混合声道数量以及所述第二混合规则的所述信息，计算所述输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，以及

其中所述降混合处理器(120)用于根据所述输出声道混合信息从所述音频传输信号产生所述一个或多个音频输出声道。

2.如权利要求1所述的装置，其中所述装置用于接收所述音频对象数量以及所述预混合声道数量中的至少一个。

3.如权利要求1所述的装置，

其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量，确定所述第一混合规则的信息，使得所述第一混合规则的所述信息指示如何混合所述两个或更多个音频对象信号以获得所述多个预混合声道，以及

其中所述参数处理器(110)用于根据所述第一混合规则的所述信息以及所述第二混合规则的所述信息，计算所述输出声道混合信息。

4.如权利要求3所述的装置，

其中所述参数处理器(110)用于根据所述音频对象数量以及所述预混合声道数量，确定第一矩阵(P)的多个系数以作为所述第一混合规则的所述信息，其中所述第一矩阵(P)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，

其中所述参数处理器(110)用于接收第二矩阵(Q)的多个系数以作为所述第二混合规则的所述信息，其中所述第二矩阵(Q)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及

其中所述参数处理器(110)用于根据所述第一矩阵(P)以及所述第二矩阵(Q)计算所述输出声道混合信息。

5.如权利要求1所述的装置，

其中所述参数处理器(110)用于接收元数据信息，所述元数据信息包含针对每一所述两个或更多个音频对象信号的位置信息，

其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定所述第一降混合规则的所述信息。

6.如权利要求5所述的装置，

其中所述参数处理器(110)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定渲染信息，以及

其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述渲染信息，计算所述输出声道混合信息。

7.如权利要求中1所述的装置，

其中所述参数处理器(110)用于接收协方差信息，所述协方差信息指示针对每一所述两个或更多个音频对象信号的对象水平差异，以及

其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息以及所述协方差信息，计算所述输出声道混合信息。

8.如权利要求7所述的装置，

其中所述协方差信息进一步指示在所述两个或更多个音频对象信号的其中一个及另一个之间的至少一个对象间相关性，以及

其中所述参数处理器(110)用于根据所述音频对象数量、所述预混合声道数量、所述第二混合规则的所述信息、每一所述两个或更多个音频对象信号的所述对象水平差异以及在所述两个或更多个音频对象信号的其中一个及另一个之间的所述至少一个对象间相关性，计算所述输出声道混合信息。

9.一种用于产生包含一个或多个音频传输声道的音频传输信号的装置，其中所述装置包含：

对象混合器(210)，用于从两个或更多个音频对象信号产生包含所述一个或多个音频传输声道的所述音频传输信号，使得所述两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的所述数量小于所述两个或更多个音频对象信号的所述数量，以及

输出接口(220)，用于输出所述音频传输信号，

其中所述对象混合器(210)用于根据第一混合规则以及第二混合规则，产生所述音频传输信号的所述一个或多个音频传输声道，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，

其中所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，且其中所述第二混合规则取决于所述预混合声道数量，以及

其中所述输出接口(220)用于输出所述第二混合规则的信息。

10.如权利要求9所述的装置，

其中所述对象混合器(210)用于根据第一矩阵(P)及第二矩阵(Q)，产生所述音频传输信号的所述一个或多个音频传输声道，其中所述第一矩阵(P)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及所述第二矩阵(Q)指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，以及

其中所述参数处理器(110)用于输出所述第二矩阵(Q)的多个系数以作为所述第二混合规则的所述信息。

11.如权利要求9所述的装置，

其中所述对象混合器(210)用于接收针对每一所述两个或更多个音频对象信号的位置信息，以及

其中所述对象混合器(210)用于根据每一所述两个或更多个音频对象信号的所述位置信息，确定所述第一混合规则。

12.一种系统，包含：

根据如权利要求9所述的用于产生音频传输信号的装置(310)，以及

根据如权利要求1所述的用于产生一个或多个音频输出声道的装置(320)，

其中如权利要求1所述的装置(320)用于从如权利要求9所述的装置(310)接收所述音频传输信号及所述第二混合规则的信息，以及

其中如权利要求1所述的装置(320)用于根据所述第二混合规则的所述信息，从所述音频传输信号产生所述一个或多个音频输出声道。

13.一种用于产生一个或多个音频输出声道的方法，其中所述方法包含：

接收包含一个或多个音频传输声道的音频传输信号，其中两个或更多个音频对象信号被混合在所述音频传输信号中，且其中所述一个或多个音频传输声道的数量小于所述两个或更多个音频对象信号的数量，其中所述音频传输信号取决于第一混合规则以及第二混合规则，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，

接收所述第二混合规则的信息，其中所述第二混合规则的所述信息指示如何混合所述多个预混合信号，使得所述一个或多个音频传输声道被获得，

根据音频对象数量、预混合声道数量以及所述第二混合规则的信息，计算输出声道混合信息，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，以及

根据所述输出声道混合信息，从所述音频传输信号产生一个或多个音频输出声道。

14.一种产生包含一个或多个音频传输声道的音频传输信号的方法，其中所述方法包含：

从两个或更多个音频对象信号产生所述音频传输信号，所述音频传输信号包含所述一个或多个音频传输声道，

输出所述音频传输信号，以及

输出所述第二混合规则的信息，

其中从两个或更多个音频对象信号产生所述音频传输信号被进行，使得所述两个或更多个音频对象信号被混合在所述音频传输信号中，所述音频传输信号包含所述一个或更多音频传输声道，其中所述一个或多个音频传输声道的所述数量小于所述两个或更多个音频对象信号的所述数量，以及

其中根据第一混合规则以及第二混合规则，产生所述音频传输信号的所述一个或多个音频传输声道被进行，其中所述第一混合规则指示如何混合所述两个或更多个音频对象信号以获得多个预混合声道，且其中所述第二混合规则指示如何混合所述多个预混合声道以获得所述音频传输信号的所述一个或多个音频传输声道，其中所述第一混合规则取决于音频对象数量以及预混合声道数量，所述音频对象数量指示所述两个或更多个音频对象信号的所述数量，所述预混合声道数量指示所述多个预混合声道的所述数量，且其中所述第二混合规则取决于所述预混合声道数量。

15.一种计算机程序，当所述计算机程序被执行于计算机或信号处理器上时，所述计算机程序用于实施如权利要求13或14所述的方法。