CN106104679B

CN106104679B - 利用沉浸式音频元数据中的元数据冗余

Info

Publication number: CN106104679B
Application number: CN201580012140.3A
Authority: CN
Inventors: C·费尔奇; H·普恩哈根; J·波普; M·沃尔特斯
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-04-02
Filing date: 2015-04-01
Publication date: 2019-11-26
Anticipated expiration: 2035-04-01
Also published as: US9955278B2; EP3127110A1; US20170013387A1; WO2015150480A1; EP3127110B1; CN106104679A

Abstract

本文档涉及音频编码和解码领域。具体地，本文档涉及包括音频对象的音频场景的编码和解码。描述了用于编码与音频场景(102)的多个音频对象(106a)相关的元数据的方法(400)。元数据包括第一组(114、314)元数据和第二组(104)元数据。第一和第二组(104、114、314)元数据包括一个或多个数据元素，这一个或多个数据元素指示多个音频对象(106a)的音频对象(106a)的属性和/或指示根据多个音频对象(106a)得出的下混信号(112)的属性。该方法(400)包括识别(401)对于第一和第二组(104、114、314)元数据是共用的冗余数据元素。此外，该方法包括通过参考第一组(114、314)元数据外部的一组(104)元数据的冗余数据元素来编码(402)第一组(114、314)元数据的冗余数据元素。

Description

利用沉浸式音频元数据中的元数据冗余

相关申请的交叉引用

本申请要求于2014年4月2日提交的美国临时专利申请No.61/974,349和2015年3月23日提交的美国临时专利申请No.62/136,786的优先权的权益，这两个申请整体通过引用被结合于此。

技术领域

本文档涉及音频编码和解码领域。具体地，本文档涉及包括音频对象的音频场景的编码和解码。

背景技术

基于对象的音频的出现显著地增大音频数据量和在高端回放或渲染(render)系统内渲染这些数据的复杂度。例如，电影声轨可以包括许多不同的声音元素，这些声音元素与屏幕上的图像、对话、噪声和从屏幕上不同地方发出的声音效果相对应，并与背景音乐和环境效果结合以创建整个听觉体验。渲染器的精确回放要求声音的再现方式尽可能与屏幕上示出的内容在声源位置、强度、运动、深度方面相对应。基于对象的音频相对于传统的基于通道的音频系统表现出显著的改善，传统的基于通道的音频系统以到收听环境中个体扬声器的扬声器馈送的形式发送音频内容，且因而在具体音频对象的空间回放方面相对地受到限制。

为了使基于对象的音频(也被称为沉浸式音频)向后兼容于基于通道的渲染设备和/或为了降低基于对象的音频的数据率，将音频对象的一些或全部下混到一个或多个音频通道中，例如5.1或7.1音频通道，这会是有益处的。下混通道可以与如下元数据一起被提供，该元数据描述原始音频对象的属性并允许相对应的音频解码器重建原始音频对象(的近似)。

此外，所谓的统一的对象和通道编码系统可以被提供，该系统被配置成处理基于对象的音频和基于通道的音频的组合。统一的对象和通道编码器通常提供元数据，该元数据被称为边信息(sideinfo)，并可以被解码器用来运行将一个或多个下混通道参数化上混成一个或多个音频对象。此外，统一的对象和通道编码器可以提供对象音频元数据(此处被称为OAMD)，该对象音频元数据可以描述音频对象(例如使用参数化上混被重建的音频对象)的位置、增益和其他属性。

如上面指示的，统一的对象和通道编码器(也被称为沉浸式音频编码系统)可以被配置成提供向后兼容的多通道下混(例如，5.1通道下混)。提供这种向后兼容的下混是有益处的，因为它考虑使用在传统回放系统中的低复杂度解码器。即使由编码器生成的下混通道并不是直接向后兼容的，附加的下混元数据也可以被提供，该附加的下混元数据允许下混通道被变换成向后兼容的下混通道，借此允许使用低复杂度解码器供在传统的回放系统内回放音频。该附加的下混元数据可以被称为“SimpleRendererInfo”。

因此，沉浸式音频编码器可以提供各种不同类型或组的元数据。尤其是，沉浸式音频编码器可以将多达三个(或更多)类型或组的元数据(sideinfo、OAMD和SimpleRendererInfo)编码成单一的比特流。不同类型或组的元数据的供应提供在接收和解码比特流的解码器类型方面的灵活性。在另一方面，不同组的元数据的供应导致比特流的数据率的实质性增大。

鉴于上面所描述的，本文档解决降低由沉浸式音频编码器生成的元数据的数据率的技术问题。

发明内容

根据一方面，描述了一种编码与音频场景的多个音频对象相关的元数据的方法。该方法可以由沉浸式音频编码器运行，该沉浸式音频编码器被配置成根据多个音频对象生成比特流。多个音频对象的音频对象可以与从三维(3D)空间内的源发出的音频信号相关。音频信号的源的一个或多个属性(例如源的空间位置(作为时间的函数)，源的宽度(作为时间的函数)，源的增益/强度(作为时间的函数))可以作为元数据(例如，在一个或多个数据元素内)与音频信号一起被提供。

具体地，元数据包括第一组元数据和第二组元数据。作为示例，第一组元数据可以包括本文档中描述的边信息(sideinfo)和/或附加的下混元数据(SimpleRendererInfo)。第二组元数据可以包括如本文档中描述的对象音频元数据(OAMD)或个性化的对象音频元数据。

第一和第二组元数据中的至少一个可以与根据多个音频对象得出的下混信号相关联。作为示例，音频编码器可以包括下混单元，该下混单元被配置成根据音频场景的N个音频对象的生成M个下混音频信号(M<N)。下混单元可以被配置成执行自适应下混，使得每个下混音频信号可以与通道或扬声器相关联，其中通道或扬声器的属性(例如，空间位置、宽度、增益/强度)可以随时间变化。变化的属性可以由第一和/或第二组元数据描述(例如，由第一组元数据(如边信息和/或附加的下混元数据)描述)。

因此，第一和第二组元数据可以包括一个或多个数据元素，这一个或多个数据元素指示多个(例如，音频信号的源的)音频对象中的音频对象的属性和/或指示(例如，多通道渲染系统的扬声器的)下混信号的属性。作为示例，第一组元数据可以包括一个或多个数据元素，这一个或多个数据元素描述下混信号(该下混信号是使用下混单元根据多个音频对象的至少一个得出的)的属性。此外，第二组元数据可以包括一个或多个数据元素，这一个或多个数据元素描述多个音频对象中的一个或多个的属性(特别是作为确定下混信号的基础的一个或多个音频对象的属性)。

该方法包括识别对于第一和第二组元数据是共用的(即，在其中是相同的)冗余数据元素。具体地，第一组元数据中的包括与第二组元数据中的数据元素相同的信息(例如，相同的位置信息、相同的宽度信息和/或相同的增益/强度信息)的数据元素可以被识别。这样的冗余数据元素可能是因如下事实所致：下混信号(第一组元数据与之相关联)是根据一个或多个音频对象(第二组元数据与之相关联)得出的。

该方法还包括通过参考第一组元数据外部的一组元数据(例如，第二组元数据)的冗余数据元素来编码第一组元数据的冗余数据元素。换言之，代替传送冗余数据元素两次(在第一组元数据内和在第二组元数据内)，冗余数据元素只被传送一次(例如在第二组元数据内)，并在第一组元数据内通过参考与第一组元数据不同的一组元数据(例如，第二组元数据)被识别。通过这样做，传送多个音频对象的元数据所需的数据率可以被降低。

因此，第一组元数据的冗余数据元素可以通过参考第二组元数据的冗余数据元素而被编码。可替代地，第一组元数据的冗余数据元素可以通过参考包括比特流的一些或全部冗余数据元素的专用组的元数据的冗余数据元素而被编码。专用组的元数据可以与第二组元数据分开。因此，第二组元数据的冗余数据元素也可以通过参考专用组的元数据的冗余数据元素而被编码，借此保证了冗余数据元素在比特流内只传送一次。

编码可以包括添加标记到第一组元数据。该标记(例如一个比特的值)可以指示冗余数据元素是否显式地包括在第一组元数据内或冗余数据元素是否只包括在第二组元数据内或专用组的元数据内。因此，在第一组元数据内，冗余数据元素可以被标记代替，借此进一步降低传送元数据所需的数据率。

第一和第二组元数据可以包括一个或多个数据结构，这一个或多个数据结构指示多个音频对象中的音频对象的属性和/或下混信号的属性。数据结构可以包括多个数据元素。因此，数据元素可以以分层级的方式被组织。数据结构可以重组并在更高层级表示多个数据元素。该方法可以包括识别对于第一和第二组元数据是共用的至少一个冗余数据元素。对于完全冗余数据结构，所有数据元素可以对于第一和第二组元数据是共用的(或相同的)。

该方法还可以包括通过至少部分地参考第二组元数据的冗余数据结构或专用组的元数据的冗余数据结构，即第一组元数据外部的冗余数据结构，编码第一组元数据的冗余数据结构。编码冗余数据结构可以包括通过参考第一组元数据外部的一组元数据(例如，第二组元数据)编码第一组元数据的冗余数据结构的至少一个冗余数据元素。此外，第一组元数据的冗余数据结构的一个或多个数据元素可以显式地包括在第一组元数据内，这一个或多个数据元素对于第一和第二组元数据不是共用的(或不是相同的)。因此，数据结构在第一组元数据内可以以差分方式编码，使得只有关于第二组元数据中对应的数据结构的差别被包括在第一组元数据内。相同(即冗余)数据元素可以通过提供到第二组元数据的参考(例如，使用标记)而被编码。

编码冗余数据结构可以包括添加标记到第一组元数据，该标记指示冗余数据结构是否至少部分地从第一组元数据中移除。换言之，标记(例如，一个比特的值)可以指示数据元素的至少一个或多个是否通过参考第一组元数据外部的一组元数据(例如，第二组元数据)的一个或多个相同数据元素而被编码。

如上面已经指出的，音频对象或下混信号的属性可以描述音频对象或下混信号将以何种方式由基于对象或基于通道的渲染器渲染。换言之，音频对象或下混信号的属性可以包括去往或用于基于对象或基于通道的渲染器的指示音频对象或下混信号将以何种方式被渲染的的一个或多个指令或信息。

具体地，描述音频对象的属性或下混信号的属性的数据元素可以包括以下项中的一个或多个：指示将被渲染器应用于音频对象或下混信号的一个或多个增益的增益信息(例如，源或扬声器的增益信息)；指示音频对象或下混信号(即音频信号源的或渲染音频信号的扬声器的)在三维空间内的一个或多个位置的位置信息；指示音频对象或下混信号(即音频信号源的或渲染音频信号的扬声器的)在三维空间内的空间幅度的宽度信息；指示音频对象或下混信号的属性的改变速度的斜坡持续时间信息；和/或指示音频对象或下混信号何时展示属性的时间信息(例如，时间戳)。

第二组元数据(例如对象音频元数据)可以包括用于多个音频对象中每个的一个或多个数据元素。此外，第二组元数据可以指示多个音频对象中每个的一个或多个属性(例如，上面提到的属性的一些或全部)。

第一组元数据(例如边信息和/或附加的下混元数据)可以与下混信号相关联，其中下混信号可以是通过使用音频编码器的下混单元将N个音频对象下混成M个下混信号(M小于N)而生成的。具体地，第一组元数据可以包括用于上混M个下混信号以生成N个重构音频对象的信息。此外，第一组元数据可以指示M个下混信号中每个的属性(该属性可以被渲染器用来渲染M个下混信号，例如，分别确定渲染M个下混信号的M个扬声器的位置)。因此，第一组元数据可以包括由(自适应)下混单元生成的边信息。可替代地或此外，第一组元数据可以包括用于将M个下混信号转换成M个向后兼容的下混信号的信息，这M个向后兼容的下混信号与传统多通道渲染器(例如，5.1或7.1渲染系统)的相应的M个通道(例如5.1或7.1通道)相关联。因此，第二组元数据可以包括由自适应下混单元生成的附加的下混元数据。

根据另一方面，被配置成生成指示音频场景的多个音频对象(例如用于由基于对象的渲染系统渲染)的比特流的编码系统被描述。比特流还可以指示一个或多个(例如M个)下混信号(例如用于由基于通道的渲染系统渲染)。

编码系统可以包括下混单元，该下混单元被配置成根据多个音频对象生成至少一个下混信号。具体地，下混单元可以被配置成通过(例如，使用场景简化模块)聚类一个或多个音频对象来根据多个音频对象生成下混信号。

编码系统可以进一步包括分析单元(此处也被称为群集分析单元)，该分析单元被配置成生成与下混信号相关联的下混元数据。下混元数据可以构成在本文档中描述的附加的下混元数据和/或边信息。

编码系统包括编码单元(此处也被称为编码和复用单元)，该编码单元被配置成生成包括第一组元数据和第二组元数据的比特流。这些组元数据可以被生成以使得第一和第二组元数据中至少一个与下混元数据相关联(或包括下混元数据)。此外，这些组元数据可以被生成以使得第一和第二组元数据包括一个或多个数据元素，这一个或多个数据元素指示多个音频对象中的音频对象的属性和/或下混信号的属性。此外，这些组元数据可以被生成以使得第一组元数据的对于第一和第二组元数据是共用的(或相同的)的冗余数据元素通过参考第一组元数据外部的一组元数据(例如第二组元数据)的冗余数据元素而被编码。

根据进一步的方面，用于解码指示音频场景的多个音频对象(和/或指示下混信号)的比特流的方法被描述。比特流包括第一组元数据和第二组元数据。第一和第二组元数据中至少一个可以与根据多个音频对象得出的下混信号相关联。第一和第二组元数据包括一个或多个数据元素，这一个或多个数据元素指示多个音频对象的音频对象的属性和/或下混信号的属性。

该方法包括检测第一组元数据的冗余数据元素是通过参考第二组元数据的冗余数据元素而被编码的。此外，该方法包括根据第一组元数据外部的一组元数据的(例如第二组元数据的)冗余数据元素得出第一组元数据的冗余数据元素。

根据另一方面，被配置成接收指示音频场景的多个音频对象的比特流的解码系统被描述。比特流包括第一组元数据和第二组元数据。第一和第二组元数据中至少一个可以与根据多个音频对象中得出的下混信号相关联。第一和第二组元数据包括一个或多个数据元素，这一个或多个数据元素指示多个音频对象中的音频对象的属性和/或下混信号的属性。

解码系统被配置成检测第一组元数据的冗余数据元素是通过参考第二组元数据的冗余数据元素而被编码的。此外，解码系统被配置成根据第一组元数据外部的一组元数据的(例如第二组元数据的)冗余数据元素得出第一组元数据的冗余数据元素。

根据又一方面，指示音频场景的多个音频对象的比特流被描述。比特流还可以指示根据多个音频对象中一个或多个得出的一个或多个下混信号。比特流包括第一组元数据和第二组元数据。第一和第二组元数据中至少一个可以与根据多个音频对象中得出的下混信号相关联。第一和第二组元数据包括一个或多个数据元素，这一个或多个数据元素指示多个音频对象中的音频对象的属性和/或下混信号的属性。此外，第一组元数据的冗余数据元素通过参考第一组元数据外部的一组元数据(例如第二组元数据)而被编码。

根据又一方面，软件程序被描述。该软件程序可以适于在处理器上运行，并适于在处理器上实现时执行本文档中概述的方法步骤。

根据又一方面，存储介质被描述。存储介质可以包括适于在处理器上运行并适于在处理器上实现时执行本文档中概述的方法步骤的软件程序。

根据又一方面，计算机程序产品被描述。计算机程序可以包括用于在计算机上运行时执行本文档中概述的方法步骤的可运行指令。

应当注意，在本专利申请中概述的，包括其优选实施例的方法和系统可以被单独使用或与本文档中公开的其他方法和系统组合使用。此外，本专利申请中概述的方法和系统的所有方面可以任意组合。具体地，权利要求的特征可以以任意方式彼此组合。

附图说明

参考附图以示例的方式在下面对本发明进行说明，其中

图1示出示例音频编码/解码系统的框图；

图2示出示例音频编码/解码系统的进一步细节；

图3示出被配置成执行自适应下混的示例音频编码/解码系统的摘录图；及

图4示出用于降低包括多组元数据的比特流的数据率的示例方法的流程图。

具体实施方式

图1示出了用于编码/解码音频场景102的示例沉浸式音频编码/解码系统100。编码/解码系统100包括编码器108、比特流生成部件110、比特流解码部件118、解码器120和渲染器122。

音频场景102由一个或多个音频对象106a(即音频信号)表示，例如N个音频对象。音频场景102还可以包括一个或多个声床通道106b，即直接与渲染器122的输出通道中的一个相对应的信号。音频场景102还由包括位置信息的元数据104表示。这个元数据被称为对象音频元数据或OAMD104。对象音频元数据104例如由渲染器122在渲染音频场景102时使用。对象音频元数据104可以将音频对象106a，可能还有声床通道106b，与三维(3D)空间中作为时间的函数的空间位置相关联。对象音频元数据104还可以包括为渲染音频场景102有用的其他类型的数据。

系统100的编码部分包括编码器108和比特流生成部件110。编码器108接收音频对象106a，声床通道106b(如果存在的话)，和对象音频元数据104。基于以上，编码器108生成一个或多个下混信号112，例如M个下混信号(例如M<N)。作为示例，下混信号112可以与5.1音频系统的通道[Lf Rf Cf Ls Rs LFE]相对应。(“L”代表左,“R”代表右,“C”代表中央,“f”代表前,“s”代表环绕且“LFE”代表低频效果)。可替代地，自适应下混可以如下面概述的被执行。

编码器108还生成边信息114(本文中也被称为sideinfo)。边信息114通常包括重构矩阵。重构矩阵包括根据下混信号112使能至少音频对象106a(或其近似)的重构的矩阵元素。重构矩阵还可以使能声床通道106b的重构。此外，边信息114可以包括关于下混信号112中一个或多个的在三维(3D)空间中的作为时间的函数的空间位置的位置信息。

编码器108传送M个下混信号112和边信息114到比特流生成部件110。比特流生成部件110通过执行量化和编码来生成包括边信息114的至少一些和M个下混信号112的比特流116。比特流生成部件110还接收对象音频元数据104以包括在比特流116中。

系统的解码部分包括比特流解码部件118和解码器120。比特流解码部件118接收比特流116并执行解码和反量化以提取M个下混信号112和例如包括重构矩阵的矩阵元素中的至少一些的边信息114。M个下混信号112和边信息114随后被输入到解码器120，该解码器120基于此生成N个音频对象106a和也可能有的声床通道106b的重构106’。因此，N个音频对象的重构106’是N个音频对象106a和也可能有的声床通道106b的近似。

作为示例，如果下混信号112与5.1配置的通道[Lf Rf Cf Ls Rs LFE]相对应，那么解码器120可以仅使用全频带通道[Lf Rf Cf Ls Rs]重构对象106’，因而忽略LFE。这也应用于其他通道配置。下混112的LFE通道可以被发送(基本上未改变地)到渲染器122。

重构音频对象106’与对象音频元数据104一起随后被输入到渲染器122。基于重构音频对象106’和对象音频元数据104，渲染器122渲染输出信号124，该输出信号124具有适合在期望的扩音器或头戴式耳机配置上回放的格式。典型的输出格式是标准5.1环绕声设置(3个前置扬声器，2个环绕扬声器，和1个低频率效果(LFE)扬声器)或7.1+4设置(3个前置扬声器，4个环绕扬声器，1个LFE扬声器，和4个升高扬声器)。

在一些实施例中，原始音频场景可以包括大量的音频对象。大量的音频对象的处理以相对高的计算复杂度为代价。此外，将要被嵌入比特流116中的元数据的量(对象音频元数据104和边信息114)依赖于音频对象的数目。通常元数据的量随着音频对象的数目线性增长。因而，为了节省计算复杂度和/或为了降低编码音频场景102所需的数据率，在编码前降低音频对象的数目可以是有利的。为了这一目的，音频编码器/解码器系统100还可以包括布置在编码器108上游的场景简化模块(未显示)。场景简化模块将原始音频对象和也可能有的声床通道作为输入，并执行处理以输出音频对象106a。场景简化模块通过执行聚类将原始音频对象的数目，例如K，降低到更可行的音频对象106a的数目N(K>N)。更精确地，场景简化模块将K个原始音频对象和也可能有的声床通道组织到N个群集中。通常，群集是基于K个原始音频对象/声床通道的音频场景中的空间接近性而被定义的。为了确定空间接近性，场景简化模块可以将原始音频对象/声床通道的对象音频元数据104作为输入。当场景简化模块形成了N个群集时，它接着用一个音频对象表示每个群集。例如，表示一群集的音频对象可以作为形成此群集的一部分的音频对象/声床通道之和被形成。更具体地，音频对象/声床通道的音频内容可以被相加以生成代表性音频对象的音频内容。此外，音频对象/声床通道在群集中的位置可以被平均以给出代表性音频对象的位置。场景简化模块包括在对象音频元数据104中代表性音频对象的位置。此外，场景简化模块输出构成图1中的N个音频对象106a的代表性音频对象。

M个下混信号112可以使用第一格式被布置在比特流116的第一字段中。边信息114可以使用第二格式被布置在比特流116的第二字段中。通过这种方式，只支持第一格式的解码器可以解码并回放第一字段中的M个下混信号112且丢弃第二字段中的边信息114。图1的音频编码器/解码器系统100可以支持第一和第二格式两者。更精确地，解码器120可以被配置成解译第一和第二格式，这意味着它可以有能力基于M个下混信号112和边信息114重构对象106’。

因此，用于编码对象/群集的系统100可以利用适合在传统解码系统120(如上面概述的)上直接回放的向后兼容的下混(例如，具有5.1配置)。可替代地或此外，系统可以利用不需要向后兼容的自适应下混。这样的自适应下混还可以与可选的附加通道(本文中被称为“L辅助信号”)组合。使用带有M个通道(和可选地L个附加通道)的自适应下混的这种编码系统200的结果得到的编码器和解码器在图2中示出。

图2示出关于编码器210和解码器220的细节。编码器210的部件可以与图1中系统100的部件108、110相对应，且解码器220的部件可以与图1中系统100的部件118、120相对应。编码器210包括被配置成使用音频对象(或群集)106a和对象音频元数据104生成下混信号112的下混单元211。此外，编码器210包括被配置成基于下混信号112、音频对象106a和对象音频元数据104生成边信息114的群集/对象分析单元212。下混信号112、边信息114和对象音频元数据114可以在编码和复用单元213中被编码和复用，以生成比特流116。

解码器220包括被配置成根据比特流116得出下混信号112、边信息114和对象音频元数据104的解复用和解码单元223。此外，解码器220包括被配置成基于下混信号112和基于边信息114生成音频对象106a的重构106’的群集重构单元221。此外，解码器220可以包括用于使用对象音频元数据104渲染重构的音频对象106’的渲染器122。

因为编码器210的群集/对象分析单元212接收N个音频对象106a和M个下混信号112作为输入，所以群集/对象分析单元212可以与自适应下混(代替向后兼容的下混)一起使用。对于解码器220的群集/对象重构221同样也是如此。

自适应下混的优点(与向后兼容的下混相比)可以通过考虑包括如下两个群集/对象106a的内容被示出，这两个群集/对象106a会被混入向后兼容的下混的相同下混通道。这种内容的例子包括具有左前扬声器的相同水平位置但不同垂直位置的两个群集/对象106a。如果这种内容被渲染成例如5.1向后兼容下混(其包括相同垂直位置处，即，位于水平面的5个通道)，那么群集/对象106a两者将在相同的下混信号112中(例如，用于左前通道的下混信号中)结束。这对于解码器220中的群集重构221构成了具有挑战性的情况，该群集重构221将不得不重构来自同一单个下混信号112的两个群集/对象106a的近似106’。在这种情况下，重构处理会导致不理想的重构和/或声学假像。在另一方面，自适应下混系统211可以例如将第一群集/对象106a放置在第一自适应下混信号112中，且将第二群集/对象106a放置在第二自适应下混信号112中。这使能在解码器220处对群集/对象106a的理想重构。一般来说，只要活动群集/对象106a的数目N不超过下混信号112的数目M，这种理想重构就是可能的。如果活动群集/对象106a的数目N较高，那么自适应下混系统211可以被配置成选择将要被混入相同下混信号112的群集/对象106a，以使得在解码器220处出现在重构群集/对象106’中的可能的近似误差对重构音频场景没有或有最小的可能的感知到的影响。

自适应下混的第二个优点是保持某些对象或群集106a与其他对象或群集106a严格分开的能力。例如，保持任何对话对象106a与背景对象106a分开，可以有利于保证对话(1)在空间品质方面被精确渲染，且(2)允许在解码器220处的对象处理，例如用于改善的可理解性的对话响度增大或对话增强。在其他应用中(例如卡拉OK)，允许一个或多个对象106a的完全静音可以是有利的，这也需要这些对象106a不与其他对象106a混合。使用向后兼容的下混的方法不允许存在于其他对象的混合中的对象106a的完全静音。

自动生成自适应下混的有利的方法利用也可以在场景简化模块内使用的概念(该场景简化模块根据较高数值K个音频对象生成降低的数值N个群集106a)。特别是，场景简化模块的第二个实例可以被使用。N个群集106a与它们的相关联的对象音频元数据104一起可以被提供成到场景简化模块(的第二个实例)中的输入。场景简化模块可以随后在输出端生成更小组的M个群集。该M个群集可以随后被用作自适应下混211的M个通道112。场景简化模块可以被包括在下混单元211内。

当使用自适应下混211时，结果得到的下混信号112可以与边信息114相关联，该边信息114考虑下混信号112分开，即该边信息考虑下混信号112的上混以生成N个重构群集/对象106’。此外，边信息114可以包括允许不同的下混信号112作为时间的函数被放置于三维(3D)空间中的信息。换言之，下混信号112可以与渲染系统122的一个或多个扬声器相关联，其中一个或多个扬声器的位置可以作为时间的函数在空间中变化(对比向后兼容的下混信号112，该向后兼容的下混信号112通常与在空间中具有固定位置的相应的扬声器相关联)。

使用向后兼容的下混(例如5.1下混)的系统通过解码向后兼容的下混信号112，并通过丢弃比特流116的其他部分，例如边信息114和对象音频元数据104(本文中也被称为群集元数据)，使能用于传统回放系统(例如用于5.1多通道扬声器设置)的低复杂度解码。但是，如果自适应下混被使用，这种下混通常不适合在传统多通道渲染系统122上直接回放。

在使用自适应下混时使能用于传统回放系统的低复杂度解码的方法是要得出附加的下混元数据并在被传送给解码器220的比特流116中包括这个附加的下混元数据。解码器220可以随后将附加的下混元数据与自适应下混信号112组合使用，以使用传统回放格式(例如5.1格式)渲染下混信号112。

图3示出了包括编码器310和解码器320的系统300。编码器310被配置成生成附加的下混元数据314(在本文中也被称为SimpleRendererInfo)，且解码器320被配置成处理该附加的下混元数据314，该附加的下混元数据314使得解码器320能够根据自适应下混信号112生成向后兼容的下混通道。这可以由具有相对低的计算复杂度的渲染器322实现。比特流116的其他部分(像例如可选附加通道)、用于参数化上混的边信息114和对象音频元数据104可以被这种低复杂度解码器320丢弃。编码器310的下混单元311可以被配置成基于下混信号112，基于边信息114(未在图3中示出)，基于N个群集106a和/或基于对象音频元数据104生成附加的下混元数据314。

如上所述，生成自适应下混和相关联的下混元数据(即相关联的边信息114)的有利方式是使用场景简化模块。在这种情况下，附加的下混元数据314通常包括用于(自适应)下混信号112的元数据，该元数据指示下混信号112的作为时间的函数的空间位置。这意味着如图2中示出的相同的渲染器122可以在图3的低复杂度解码器320内使用，仅有的差异是渲染器322现在将(自适应)下混信号112和它们的相关联的附加下混元数据314作为输入，而不是将重构的群集106’和它们的相关联的对象音频元数据104作为输入。

在图1、图2和图3的上下文中，描述了三个不同类型或组的元数据，尤其是对象音频元数据104、边信息114和附加的下混元数据314。更多类型或组的元数据可以是针对音频场景102的个性化的。特别是，个性化的对象音频元数据可以在比特流116中提供以考虑对象106a中一些或全部的可替代的渲染。这种个性化对象音频元数据的例子可以是，在足球比赛期间，用户可以在针对“主场球迷”，“客场球迷”或“混合中立”的对象音频元数据之间选择。“混合中立”元数据可以向收听者提供置身于足球体育场的中立(例如中心)位置的体验，其中“主场球迷”元数据可以向收听者提供置身于主队支持者附近的体验，且“客场球迷”元数据可以向收听者提供置身于客队支持者附近的体验。因此，多个不同的组104的对象音频元数据可以通过比特流116而被提供。此外，不同的组104的边信息和/或不同的组314的附加下混元数据可以被提供给多个不同的组104的对象音频元数据。因此，大量的组的元数据可以在比特流116内被提供。

如上面指示的，本文档解决降低传送各种不同类型或组的元数据(特别是对象音频元数据104、边信息114和附加的下混元数据314)所需的数据率的技术问题。

已经观察到不同类型或组104、114、314的元数据包括冗余。特别是，已经观察到不同类型或组104、114、314的元数据中的至少一些可能包括相同的数据元素或数据结构。这些数据元素/数据结构可能与时间戳、增益值、对象位置和/或斜坡持续时间相关。更一般地说，不同类型或组104、114、314的元数据中的一些或全部可以包括描述音频对象的属性的相同数据元素/数据结构。

在本文档中，描述了用于识别和/或移除在不同元数据类型104、114、314内的冗余的方法400。该方法400包括识别401包括在编码的音频场景102(例如，音频场景102的时间帧的)的至少两组104、114、314元数据中的数据元素/数据结构的步骤。第一组114、314元数据的数据元素/数据结构可以通过参考第二组104元数据内的相同数据元素被替代402，而不是在不同组104、114、314的元数据内数次传送相同的数据元素/数据结构。这可以例如使用标记(例如一个比特的值)实现，该标记指示数据元素是否在第一组114、314元数据内显式地提供或该数据元素是否通过参考第二组104元数据而被提供。因此，方法400降低了比特流116的数据率且使得包括二或三个不同组/类型104、114、314的元数据(例如元数据OAMD，sideinfo，和/或SimpleRendererInfo)的比特流116实质上更高效。标记，例如一个比特，可以用于在比特流116内用信号通知冗余信息(即冗余数据元素)是否在第一组114、314元数据内储存，或是否关于第二组104元数据被参考。这种标记的使用提供了增大的编码灵活性。

此外，差分编码可以用于进一步降低编码元数据的数据率。如果信息在外部参考，即如果第一组114、314元数据的数据元素/数据结构通过提供到第二组104元数据的参考而被编码，那么可以使用数据元素/数据结构的差分编码而不是使用直接编码。这种差分编码可以特别是用于编码与对象位置、对象增益和/或对象宽度相关的数据元素或数据字段。

表1a到1f示出用于对象音频元数据(OAMD)104的示例语法的摘录。“oamd_substream()”包括一个或多个音频对象106a的空间数据。音频对象106a的数目N对应于参数“n_obs”。粗体打印的函数在AC4标准内被进一步详细描述。表格右侧的数值指示用于数据元素或数据结构的比特数。在下面的表格中，与比特数连在一起示出的参数可以被称为“数据元素”。包括一个或多个数据元素或其他结构的结构可以被称为数据结构。数据结构通过数据结构名称后面的括号“()”被识别。

被以斜体打印并有下划线的参数或数据元素或数据结构指的是可以被用于利用冗余的参数或数据元素或数据结构。如上面指示的，可以被用于利用元数据冗余的参数或数据元素或数据结构可以与以下项相关：

·时间戳：oa_sample_offset_code,oa_sample_offset；

·斜坡持续时间：block_offset_factor,use_ramp_table,ramp_duration_table,ramp_duration；

·对象增益：object_gain_code,object_gain_value；

·对象位置：diff_pos3D_X,diff_pos3D_Y,diff_pos3D_Z,pos3D_X,pos3D_Y,pos3D_Z,pos3D_Z_sign；

·对象宽度：object_width,object_width_X,object_width_Y,object_width_Z；

表1a

表1b

表1c

表1d

表1e

表1f

表2示出(特别是使用自适应下混时)边信息114的示例语法的摘录。可以看到，边信息114可以包括数据元素或数据结构“oamd_timing_data()”(或至少其中一部分)，该数据元素或数据结构“oamd_timing_data()”(或至少其中一部分)也包括在对象音频元数据104中。

表2

表3a和3b示出(使用自适应下混时)用于附加的下混元数据314的示例语法的摘录。可以看到，附加的下混元数据314可以包括数据元素或数据结构“oamd_timing_data()”(或至少其中一部分)，该数据元素或数据结构“oamd_timing_data()”(或至少其中一部分)也包括在对象音频元数据104中。因此，定时数据可以被参考。

表3a

表3b

对象音频元数据104可以被用作基本组104元数据和一个或多个其他组114、314元数据，即，可以参考基本组104元数据的一个或多个数据元素和/或数据结构来描述边信息114和/或附加的下混元数据314。可替代地或此外，冗余数据元素和/或数据结构可以与对象音频元数据104分开。在这种情况下，对象音频元数据104也可以参考提取的一个或多个数据元素和/或数据结构而被描述。

在表4中，示例metadata()元素被示出，该元素包括元素oamd_dyndata_single()。假设在示例元素内定时信息(oamd_timing_data)被分开地发信号通知。在这种情况下，元素metadata()再使用来自元素audio_data_ajoc()的定时。表4因此示出再使用“外部”定时信息的原理。

表4

在本文档中，描述了用于高效地编码沉浸式音频编码器的元数据的方法。所描述的方法致力于识别在不同组元数据内的冗余数据元素或数据结构。在一组元数据中的冗余数据元素可以随后通过参考在另一组元数据中的相同数据元素被替换。这样的结果是，编码的音频对象的比特流的数据率可以被降低。

在本文档中描述的方法和系统可以作为软件、固件和/或硬件实现。某些部件可以例如作为在数字信号处理器或微处理器上运行的软件实现。其他部件可以例如作为硬件和/或作为专用集成电路实现。在描述的方法和系统中遇到的信号可以在诸如随机存取存储器或光学存储介质的介质上储存。它们可以经由网络传送，例如无线电网络，卫星网络，无线网络或有线网络(如因特网)。利用本文档中描述的方法和系统的典型设备是用于储存和/或渲染音频信号的便携式电子设备或其他消费类装备。

Claims

1.一种用于编码与音频场景(102)的多个音频对象(106a)相关的元数据的方法(400)；其中，

元数据包括第一组(114、314)元数据和第二组(104)元数据；

第一和第二组(104、114、314)元数据包括一个或多个数据元素，这一个或多个数据元素指示所述多个音频对象(106a)中的音频对象(106a)的属性和/或根据所述多个音频对象(106a)得出的下混信号(112)的属性；

该方法(400)的特征在于包括：

识别(401)对于第一和第二组(104、114、314)元数据是共用的冗余数据元素；及

通过参考第一组(114、314)元数据外部的冗余数据元素来编码(402)第一组(114、314)元数据的冗余数据元素。

2.如权利要求1所述的方法(400)，其中，编码(402)包括向第一组(114、314)元数据添加如下标记，该标记指示冗余数据元素是否显式地包括在第一组(114、314)元数据中或指示冗余数据元素是否仅包括在第一组(114、314)元数据外部的一组元数据中。

3.如前面的权利要求中的任一项所述的方法(400)，其中，

第一和第二组(104、114、314)元数据包括一个或多个数据结构，这一个或多个数据结构指示所述多个音频对象(106a)中的音频对象(106a)的属性和/或下混信号(112)的属性；

数据结构包括多个数据元素；

该方法(400)包括：

识别(401)包括对于第一和第二组(104、114、314)元数据是共用的至少一个冗余数据元素的冗余数据结构；及

通过至少部分地参考第一组(114、314)元数据外部的冗余数据结构来编码(402)第一组(114、314)元数据的冗余数据结构。

4.如权利要求3所述的方法(400)，其中，编码(402)冗余数据结构包括：

通过参考第一组(114、314)元数据外部的一组元数据来编码第一组(114、314)元数据的冗余数据结构的所述至少一个冗余数据元素；和/或

将第一组(114、314)元数据的冗余数据结构的、对于第一和第二组(104、114、314)元数据不是共用的一个或多个数据元素显式地包括到第一组(114、314)元数据中。

5.如权利要求3所述的方法(400)，其中，编码(402)冗余数据结构包括向第一组(114、314)元数据添加如下标记，该标记指示冗余数据结构是否至少部分地从第一组(114、314)元数据中移除。

6.如权利要求1所述的方法(400)，其中，第一和第二组(104、114、314)元数据中至少一个与根据所述多个音频对象(106a)得出的下混信号(112)相关联。

7.如权利要求1所述的方法(400)，其中，第一组(114、314)元数据的冗余数据元素是通过参考下面的冗余数据元素而被编码的：

第二组(104)元数据的冗余数据元素；或

包括冗余数据元素的专用组的元数据的冗余数据元素；其中，第二组(104)元数据的冗余数据元素也通过参考专用组的元数据的冗余数据元素而被编码。

8.如权利要求1所述的方法(400)，其中，音频对象(106a)的属性或下混信号(112)的属性描述音频对象(106a)或下混信号(112)将以何种方式被基于对象的渲染器(122)渲染。

9.如权利要求1所述的方法(400)，其中，音频对象(106a)的属性或下混信号(112)的属性包括去往基于对象的渲染器(122)的指示音频对象(106a)或下混信号(112)将以何种方式被渲染的一个或多个指令。

10.如权利要求1所述的方法(400)，其中，描述音频对象(106a)的属性或下混信号(112)的属性的数据元素包括以下项中的一个或多个：

指示将要被应用到音频对象(106a)或下混信号(112)的一个或多个增益的增益信息；

指示在三维空间中音频对象(106a)或下混信号(112)的一个或多个位置的位置信息；

指示在三维空间中音频对象(106a)或下混信号(112)的空间幅度的宽度信息；

指示音频对象(106a)或下混信号(112)的属性的改变速度的斜坡持续时间信息；和/或

指示音频对象(106a)或下混信号(112)何时展示属性的时间信息。

11.如权利要求1所述的方法(400)，其中，

第二组(104)元数据包括用于所述多个音频对象(106a)中的每个的一个或多个数据元素；及

第二组(104)元数据指示所述多个音频对象(106a)中的每个的属性。

12.如权利要求1所述的方法(400)，其中，

第一组(114、314)元数据与下混信号(112)相关联；

下混信号(112)是通过将N个音频对象(106a)下混到M个下混信号(112)中而生成的；及

M小于N。

13.如权利要求12所述的方法(400)，其中，

第一组(114、314)元数据包括用于上混M个下混信号(112)以生成N个重构的音频对象(106’)的信息；及

第一组(114、314)元数据指示M个下混信号(112)中的每个的属性。

14.如权利要求12到13中的任一项所述的方法(400)，其中，第一组(114、314)元数据包括用于将M个下混信号(112)转换成M个向后兼容的下混信号的信息，这M个向后兼容的下混信号与传统多通道渲染器(122)的相应的M个通道相关联。

15.一种被配置成生成指示音频场景(102)的多个音频对象(106a)的比特流(116)的编码系统(210、310)；其中，该编码系统(210、310)包括编码单元(213、313)，该编码单元(213、313)被配置成生成包括第一组(114、314)元数据和第二组(104)元数据的比特流(116)，使得

第一和第二组(104、114、314)元数据包括一个或多个数据元素，这一个或多个数据元素指示所述多个音频对象(106a)中的音频对象(106a)的属性和/或根据所述多个音频对象(106a)得出的下混信号(112)的属性；及

该编码系统(210、310)的特征在于：第一组(114、314)元数据的对于第一和第二组(104、114、314)元数据是共用的冗余数据元素是通过参考第一组(114、314)元数据外部的冗余数据元素而被编码的。

16.如权利要求15所述的编码系统(210、310)，其中，编码系统(210、310)包括

被配置成根据所述多个音频对象(106a)生成至少一个下混信号(112)的下混单元(211、311)；及

被配置成生成与下混信号(112)相关联的下混元数据的分析单元(212)；其中，第一和第二组(104、114、314)元数据中的至少一个与下混元数据相关联。

17.如权利要求16所述的编码系统(210、310)，其中，下混单元(211、311)被配置成通过对一个或多个音频对象(106a)进行聚类来根据所述多个音频对象(106a)生成下混信号(112)。

18.如权利要求15到17中的任一项所述的编码系统(210、310)，其中，第一组(114、314)元数据的冗余数据元素是通过参考第二组(104)元数据的冗余数据元素而被编码的。

19.一种用于解码指示音频场景(102)的多个音频对象(106a)的比特流(116)的方法，其中，

比特流(116)包括第一组(114、314)元数据和第二组(104)元数据；

该方法的特征在于包括：

检测第一组(114、314)元数据的冗余数据元素是通过参考第二组(104)元数据的冗余数据元素而被编码的；及

根据第一组(114、314)元数据外部的一组(104)元数据的冗余数据元素得出第一组(114、314)元数据的冗余数据元素。

20.一种被配置成接收指示音频场景(102)的多个音频对象(106a)的比特流(116)的解码系统(220、320)；其中，

比特流(116)包括第一组(114、314)元数据和第二组(104)元数据；

该解码系统(220、320)的特征在于被配置成

21.一种计算机可读存储介质，其上存储有程序指令，该程序指令在被处理器执行时使得处理器执行根据权利要求1-14及权利要求19中任一项所述的方法。

22.一种用于编码与音频场景的多个音频对象相关的元数据的设备，包括：

存储器，被配置成存储程序指令，及

耦接到存储器的处理器，被配置成执行程序指令，

其中程序指令在被处理器执行时使得处理器执行根据权利要求1-14中任一项所述的方法。

23.一种用于解码指示音频场景的多个音频对象的比特流的设备，包括：

存储器，被配置成存储程序指令，及

耦接到存储器的处理器，被配置成执行程序指令，

其中程序指令在被处理器执行时使得处理器执行根据权利要求19所述的方法。