ES2881076T3

ES2881076T3 - Aparato y método para la codificación eficiente de metadatos de objetos

Info

Publication number: ES2881076T3
Application number: ES14739199T
Authority: ES
Inventors: Christian Borss; Christian Ertel
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2021-11-26
Anticipated expiration: 2034-07-16
Also published as: CN105474310A; KR101865213B1; CN105474310B; AU2014295267B2; MX357577B; US11910176B2; US20220329958A1; US11337019B2; EP3025330A1; RU2016105691A; EP2830047A1; RU2672175C2; ZA201601045B; TW201523591A; CN105474309B; BR112016001139A2; US20190222949A1; BR112016001140A2; JP2016525714A; EP2830049A1

Abstract

Aparato (100) para generar uno o más canales de audio, en el que el aparato comprende: un decodificador de metadatos (110) para recibir una o más señales de metadatos comprimidas, en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende adicionalmente una pluralidad de segundas muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos (110) se configura para generar cada una de la pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida, y un generador de canal de audio (120), en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio, en el que el generador de canal de audio (120) se configura para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque el decodificador de metadatos (110) se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y se configura para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximados de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Description

DESCRIPCIÓN

Aparato y método para la codificación eficiente de metadatos de objetos

La presente invención se refiere a la codificación/decodificación de audio, en particular, a la codificación de audio espacial y a la codificación de objetos de audio espacial y, más en particular, a un aparato y método para la codificación eficiente de metadatos de objetos.

Las herramientas de codificación de audio espacial son bien conocidas en la técnica y, por ejemplo, se estandarizan con la norma MPEG (grupo de expertos de imágenes en movimiento) envolvente. La codificación de audio espacial comienza en canales de entrada originales tales como cinco o siete canales que se identifican por su ubicación en una configuración de reproducción, es decir, un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de realce de baja frecuencia. Un codificador de audio espacial típicamente deriva uno o más canales de mezcla descendente de los canales originales y, además, deriva datos paramétricos relacionados con señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Se transmiten uno o más canales de mezcla descendente junto con la información lateral paramétrica indicando las señales espaciales a un decodificador de audio espacial que decodifica el canal de mezcla descendente y los datos paramétricos asociados para finalmente obtener canales de salida que son una versión aproximada de los canales de entrada originales. La ubicación de los canales en la configuración de salida típicamente se fija y está, por ejemplo, en un formato de 5,1, un formato de 7,1, etc.

Los formatos de audio basados en canales de este tipo se utilizan en gran medida para almacenar o transmitir contenido de audio de canales múltiples donde cada canal se refiere a un altavoz específico en una posición dada. Una reproducción fiel de esta clase de formatos requiere una configuración de altavoz donde los altavoces se colocan en las mismas posiciones que los altavoces utilizados durante la producción de señales de audio. Si bien el aumento del número de altavoces mejora la reproducción de escenas de audio 3D verdaderamente inmersas, resulta cada vez más difícil cumplir con este requisito - especialmente en un ambiente doméstico como una sala.

La necesidad de tener una configuración específica de altavoz podrá superarse mediante un enfoque basado en un objeto donde las señales del altavoz se tornan específicas para la configuración de reproducción.

Por ejemplo, las herramientas de codificación de objetos de audio espaciales se conocen en la técnica y se estandarizan con las normas MPEG SAOC (SAOC = codificación de objetos de audio espaciales). A diferencia de la codificación de audio espacial que comienza en sus canales originales, la codificación de objetos de audio espaciales comienza en objetos de audio no dedicados de forma automática para cierta configuración de reproducción renderizada. En cambio, la ubicación de los objetos de audio en la escena de reproducción es flexible y puede determinarse por el usuario introduciendo cierta información renderizada en un decodificador de codificación de objetos de audio espaciales. De forma alternativa o adicional, la información renderizada, es decir, información en cuya posición en la configuración de reproducción debe ubicarse un cierto objeto de audio típicamente con el tiempo y transmitirse como información lateral adicional o metadatos. Para obtener una cierta compresión de datos, un número de objetos de audio se codifican por medio de un codificador SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte mediante mezcla descendente de objetos según cierta información de mezcla descendente. Asimismo, el codificador SAOC calcula información lateral paramétrica que representa señales entre objetos tales como diferencias de nivel de objetos (OLD, por su sigla en inglés), valores de coherencia de objetos, etc. Como en SAC (SAC = Codificación de Audio Espacial), los datos paramétricos entre objetos se calculan para teselas individuales de tiempo/frecuencia, es decir, para un cierto cuadro de la señal de audio que comprende, por ejemplo, las muestras 1024 o 2048, 24, 32, o 64, etc., las bandas de frecuencia se consideran para que, en el final, los datos paramétricos existan para cada trama y cada banda de frecuencia. A modo de ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama se subdivide en 32 bandas de frecuencia, entonces el número de teselas de tiempo/frecuencia es 640.

En un enfoque basado en un objeto, el campo de sonido se describe por medio de objetos discretos de audio. Esto requiere metadatos de objetos que describen entre otras cosas la posición variante de tiempo de cada fuente de sonido en el espacio 3D.

Un primer concepto de codificación de metadatos en la técnica anterior es el formato de intercambio de descripción de sonido espacial (SpatDIF, por su sigla en inglés), un formato de descripción de escena de audio el cual está aún en desarrollo [1 ]. Se diseña como formato de intercambio para escenas de sonido basadas en objetos y no proporciona ningún método de compresión para trayectorias de objetos. SpatDIF utiliza el formato Control de Sonido Abierto (OSC, por su sigla en inglés) basado en textos para estructurar los metadatos de objetos [2]. Una simple representación basada en textos, sin embargo, no es una opción para la transmisión comprimida de trayectorias de objetos.

Otro concepto de metadatos en la técnica anterior es el Formato de Descripción de Escena de Audio (ASDF, por su sigla en inglés) [3], una solución basada en texto con la misma desventaja. Los datos se estructuran mediante una extensión del Lenguaje de Integración Multimedia Sincronizado (SMIL, por su sigla en inglés) que es un subconjunto del Lenguaje de Marca Extensible (XML, por su sigla en inglés) [4,5].

Otro concepto de metadatos adicional en la técnica anterior es el formato binario de audio para escenas (AudioBIFS, por su sigla en inglés), un formato binario que es parte de la especificación MPEG-4 [6,7]. Se relaciona de forma cercana con el Lenguaje de Modelado de Realidad Virtual basado en XML (VRML por sus siglas en inglés) desarrollado para la descripción de escenas 3D audiovisuales y aplicaciones de realidad virtual interactiva [8]. La especificación AudioBIFS compleja utiliza gráficos de escena para especificar rutas de movimientos de objetos. Una gran desventaja de AudioBIFS consiste en que no está diseñado para operaciones en tiempo real donde un retardo de sistema limitado y el acceso aleatorio a la corriente de datos son un requisito. Asimismo, la codificación de las posiciones de objetos no se aprovecha del desempeño de localización limitada de los oyentes humanos. Para una posición fija de oyente dentro de la escena audio-visual, los datos del objeto pueden cuantificarse con un número de bits mucho menor [9]. Por ende, la codificación de metadatos de objeto que se aplica en AudioBIFS no es eficiente con respecto a la compresión de datos.

El documento US2012183162A1 da a conocer interpolación de posicionamiento que puede ocurrir o bien en el momento de mezclado, codificado, decodificado o reproducción posterior al posicionamiento y después pueden usarse las posiciones computadas e interpoladas. En el momento t0, una pista de audio puede designarse para encontrarse en la posición de inicio. En un momento posterior t9, la misma señal visual u otra fuente puede designarse para encontrarse en la posición final. Dadas la posición de inicio, la posición final y el tiempo transcurrido, una posición estimada de la fuente móvil puede interpolarse de manera lineal para usar cada trama intermedia, o tramas que no son clave, en presentación de audio. Los metadatos asociados con la escena pueden incluir (i) posición de inicio, posición final y tiempo transcurrido, (ii) posiciones interpoladas o (iii) ambos (i) y (ii). En realizaciones alternativas, la interpolación puede ser parabólica, constante por tramos, polinómica, de Spline o un proceso de Gauss.

El documento US 2006/136229 A1 da a conocer una calculadora de parámetros que calcula información paramétrica e información de interpolación de resolución inferior. En un lado de decodificador, un mezclador ascendente se usa para generar los canales de salida. El mezclador ascendente usa información paramétrica de alta resolución generada por un interpolador de parámetros que usa la información paramétrica de baja resolución y la información de interpolación derivada del lado de decodificador o la información de interpolación generada por el codificador para seleccionar una de una pluralidad de diferentes características de interpolación.

Puede apreciarse altamente si se proporcionan conceptos de codificación eficiente de metadatos de objetos mejorados.

El objeto de la presente invención es proporcionar conceptos mejorados para una eficiente codificación de metadatos de objetos. El objeto de la presente invención se soluciona por un aparato según la reivindicación 1, por un aparato según la reivindicación 7, por un sistema según la reivindicación 12, por un método según la reivindicación 13, por un método según la reivindicación 14 y por un programa informático según la reivindicación 15.

A continuación, se describen realizaciones de la presente invención en mayor detalle con referencia a las figuras, en las cuales:

La figura 1 ilustra un aparato para generar uno o más canales de audio según una realización,

La figura 2 ilustra un aparato para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas según una realización,

La figura 3 ilustra un sistema según una realización,

La figura 4 ilustra la posición de un objeto de audio en un espacio tridimensional de un origen expresado por acimut, elevación y radio,

La figura 5 ilustra posiciones de objetos de audio y configuración de altavoz asumidas por el generador de canal de audio,

La figura 6 ilustra una codificación de metadatos según una realización,

La figura 7 ilustra una decodificación de metadatos según una realización,

La figura 8 ilustra una codificación de metadatos según otra una realización,

La figura 9 ilustra una decodificación de metadatos según otra una realización,

La figura 10 ilustra una codificación de metadatos según una realización adicional,

La figura 11 ilustra una decodificación de metadatos según una realización adicional,

La figura 12 ilustra una primera realización de un codificador de audio 3D,

La figura 13 ilustra una primera realización de un decodificador de audio 3D,

La figura 14 ilustra una segunda realización de un codificador de audio 3D,

La figura 15 ilustra una segunda realización de un decodificador de audio 3D,

La figura 16 ilustra una tercera realización de un codificador de audio 3D, y

La figura 17 ilustra una tercera realización de un decodificador de audio 3D.

La figura 2 ilustra un aparato 250 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas según una realización.

El aparato 250 comprende un codificador de metadatos 210 para recibir una o más señales de metadatos originales. Cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos. Las muestras de metadatos de cada una de una o más señales de metadatos originales indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio. El codificador de metadatos 210 se configura para generar una o más señales de metadatos comprimidas, para que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprenda un primer grupo de dos o más muestras de metadatos de una de las señales de metadatos originales y para que dicha señal de metadatos comprimida no comprenda ninguna muestra de metadatos de un segundo grupo de otras dos o más muestras de metadatos de dicha una de las señales de metadatos originales.

Por otra parte, el aparato 250 comprende un codificador de audio 220 para codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas. Por ejemplo, el generador de canal de audio puede comprender un codificador SAOC según el estado de la técnica para codificar una o más señales de objetos de audio para obtener uno o más canales de transporte SAOC como una o más señales de audio codificadas. Varias técnicas de codificación distintas para codificar uno o más canales de objetos de audio pueden emplearse alternativa o adicionalmente para codificar uno o más canales de objetos de audio.

La figura 1 ilustra un aparato 100 para generar uno o más canales de audio según una realización.

El aparato 100 comprende un decodificador de metadatos 110 para recibir una o más señales de metadatos comprimidas. Cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos. Las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio. El decodificador de metadatos 110 se configura para generar una o más señales de metadatos reconstruidas, de modo que cada una de una o más señales de metadatos reconstruidas comprenda las primeras muestras de metadatos de una o más señales de metadatos comprimidas y comprenda adicionalmente una pluralidad de segundas muestras de metadatos. Por otra parte, el decodificador de metadatos 110 se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.

Por otra parte, el aparato 100 comprende un generador de canal de audio 120 para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas.

Cuando se hace referencia a muestras de metadatos, debe observarse que una muestra de metadatos se caracteriza por su valor de muestra de metadatos, pero también por el instante de tiempo, con el cual se relaciona. Por ejemplo, tal instante de tiempo puede ser relativo al comienzo de secuencia de audio o similar. Por ejemplo, un índice n o k puede identificar una posición de muestra de metadatos en una señal de metadatos y por esto, se indica un instante (relativo) de tiempo (que es relativo a un tiempo de inicio). Debe observarse que cuando dos muestras de metadatos se relacionan con diferentes instantes de tiempo, estas dos muestras de metadatos son muestras de metadatos diferentes, incluso cuando sus valores de muestras de metadatos son iguales, que a veces puede ser el caso.

Las realizaciones anteriores se basan en el hallazgo de que la información de metadatos (comprendida por una señal de metadatos) que se asocia con una señal de objetos de audio a menudo cambia lentamente.

Por ejemplo, una señal de metadatos puede indicar información de posición en un objeto de audio (por ejemplo, un ángulo acimutal, un ángulo de elevación o un radio que define la posición de un objeto de audio). Puede asumirse que, la mayoría de las veces, la posición del objeto de audio no cambia o solo cambia lentamente.

O una señal de metadatos puede, por ejemplo, indicar un volumen (por ejemplo, una ganancia) de un objeto de audio, y también puede asumirse que, la mayoría de las veces, el volumen de un objeto de audio cambia lentamente.

Por esta razón, no es necesario transmitir la información de metadatos (completa) en cada instante de tiempo. En cambio, la información de metadatos (completa) solo se transmite en ciertos instantes de tiempo, por ejemplo, periódicamente, por ejemplo, a cada N-ésimo instante de tiempo, por ejemplo, en el punto de tiempo 0, N, 2N, 3n , etc. Del lado del decodificador, para los puntos intermedios en el tiempo (por ejemplo, puntos en el tiempo 1, 2, ..., N-1) los metadatos entonces pueden aproximarse basados en muestras de metadatos para dos o más puntos en el tiempo. Por ejemplo, las muestras de metadatos para puntos en el tiempo 1, 2, ..., N-1 puede aproximarse en el lado del decodificador dependiendo de las muestras de metadatos para puntos en el tiempo 0 y N, por ejemplo, empleando interpolación lineal. Como se ha expuesto anteriormente, tal enfoque se basa en el hallazgo de que la información de metadatos sobre objetos de audio en general cambia lentamente.

Por ejemplo, en realizaciones, tres señales de metadatos especifican la posición de un objeto de audio en un espacio 3D. Una primera de las señales de metadatos puede, por ejemplo, especificar el ángulo acimutal de la posición del objeto de audio. Una segunda de las señales de metadatos puede, por ejemplo, especificar el ángulo de elevación de la posición del objeto de audio. Una tercera de las señales de metadatos puede, por ejemplo, especificar el radio relacionado con la distancia del objeto de audio.

El ángulo acimutal, ángulo de elevación y radio definen de forma no ambigua la posición de un objeto de audio en un espacio 3D de un origen. Esto se ilustra con referencia a la figura 4.

La figura 4 ilustra la posición 410 de un objeto de audio en un espacio tridimensional (3D) desde un origen 400 expresado por acimut, elevación y radio.

El ángulo de elevación especifica, por ejemplo, el ángulo entre la línea recta desde el origen hasta la posición del objeto y la proyección normal de esta línea recta sobre el plano xy (el plano definido por el eje x y el eje y). El ángulo acimutal define, por ejemplo, el ángulo entre el eje x y dicha proyección normal. Al especificar el ángulo acimutal y el ángulo de elevación, la línea recta 415 a través del origen 400 y la posición 410 del objeto de audio puede definirse. Al especificar además el radio, puede definirse la posición exacta 410 del objeto de audio.

En una realización, el ángulo acimutal se define por el margen: -180° < acimutal < 180°, el ángulo de elevación se define por el margen: -90° < elevación < 90° y el radio puede, por ejemplo, definirse en metros [m] (mayor que o igual a 0m).

En otra realización donde puede, por ejemplo, asumirse que todos los valores x de las posiciones del objeto de audio en un sistema de coordenadas xyz son mayores que o iguales a cero, el ángulo acimutal puede definirse por el margen: -90° < acimutal < 90°, el ángulo de elevación se define por el margen: -90° < elevación < 90° y el radio puede, por ejemplo, definirse en metros [m].

En una realización adicional, las señales de metadatos pueden graduarse de modo que el ángulo acimutal se define por el margen: -128° < acimutal < 128°, el ángulo de elevación se define por el margen: -32° < elevación < 32° y el radio puede, por ejemplo, definirse en una escala logarítmica. En algunas realizaciones, las señales de metadatos originales, las señales de metadatos comprimidas y las señales de metadatos reconstruidas, respectivamente, pueden comprender una representación a escala de una información de posición y/o una representación a escala de un volumen de una de una o más señales de objetos de audio.

El generador de canal de audio 120 puede, por ejemplo, configurarse para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de señales de metadatos reconstruidas, en el que las señales de metadatos reconstruidas pueden, por ejemplo, indican la posición de los objetos de audio.

La figura 5 ilustra posiciones de objetos de audio y una configuración de altavoz asumidas por el generador de canal de audio. Se ilustra el origen 500 del sistema de coordenadas xyz. Por otra parte, se ilustra la posición 510 de un primer objeto de audio y la posición 520 de un segundo objeto de audio. Además, la figura 5 ilustra un escenario, donde el generador de canal de audio 120 genera cuatro canales de audio para cuatro altavoces. El generador de canal de audio 120 asume que los cuatro altavoces 511, 512, 513 y 514 se encuentran en las posiciones mostradas en la figura 5.

En la figura 5, el primer objeto de audio se encuentra ubicado en una posición 510 cercana a las posiciones asumidas de los altavoces 511 y 512 y se ubica lejos de los altavoces 513 y 514. Por lo tanto, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el primer objeto de audio 510 se reproduce por los altavoces 511 y 512 pero no por los altavoces 513 y 514.

En otras realizaciones, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el primer objeto de audio 510 se reproduce con un alto volumen por los altavoces 511 y 512 y con bajo volumen por los altavoces 513 y 514.

Además, el segundo objeto de audio se ubica en una posición 520 cercana a las posiciones asumidas de los altavoces 513 y 514 y se ubica lejos de los altavoces 511 y 512. Por lo tanto, el generador de canal de audio 120 puede generar los cuatro canales de audio de tal manera que el segundo objeto de audio 520 se reproduce por los altavoces 513 y 514 pero no por los altavoces 511 y 512.

En otras realizaciones, el generador de canal de audio 120 puede generar los cuatro canales de audio de modo que el segundo objeto de audio 520 se reproduce con alto volumen por los altavoces 513 y 514 y con bajo volumen por los altavoces 511 y 512.

En realizaciones alternativas, solo dos señales de metadatos se utilizan para especificar la posición de un objeto de audio. Por ejemplo, solo el acimut y el radio pueden especificarse, por ejemplo, cuando se asume que todos los objetos de audio se ubican dentro de un solo plano.

En otras realizaciones adicionales, para cada objeto de audio, solo se codifica y transmite una señal de metadatos simple como información de posición. Por ejemplo, solo un ángulo acimutal puede especificarse como información de posición para un objeto de audio (por ejemplo, puede asumirse que todos los objetos de audio se ubican en el mismo plano teniendo la misma distancia desde un punto central y se asume de este modo que tienen el mismo radio). La información acimutal, por ejemplo, puede ser suficiente para determinar que un objeto de audio se ubica cerca de un altavoz izquierdo y lejos de un altavoz derecho. En tal situación, el generador de canal de audio 120, por ejemplo, puede generar uno o más canales de audio de modo que el objeto de audio se reproduce por medio del altavoz izquierdo, pero no por el altavoz derecho.

Por ejemplo, el paneo vectorial basado en amplitud (VBAP, por su sigla en inglés) puede emplearse (véase, por ejemplo, [12]) para determinar la ponderación de una señal de objetos de audio dentro de cada uno de los canales de audio de los altavoces. Por ejemplo, con respecto a VBAP, se asume que un objeto de audio se relaciona con una fuente virtual.

En realizaciones, una señal de metadatos adicional puede especificar un volumen, por ejemplo, una ganancia (por ejemplo, expresada en decibeles [dB]) para cada objeto de audio.

Por ejemplo, en la figura 5, un primer valor de ganancia puede especificarse por una señal de metadatos adicional para el primer objeto de audio ubicado en la posición 510 que es mayor que un segundo valor de ganancia especificado por otra señal de metadatos adicional para el segundo objeto de audio ubicado en la posición 520. En tal situación, los altavoces 511 y 512 pueden reproducir el primer objeto de audio con un volumen que es mayor que el volumen con el que los altavoces 513 y 514 reproducen el segundo objeto de audio.

Las realizaciones también asumen que esos valores de ganancia de objetos de audio a menudo cambian lentamente. Por lo tanto, no es necesario transmitir tal información de metadatos en cada punto en el tiempo. En cambio, la información de metadatos solo se transmite en ciertos puntos en el tiempo. En puntos intermedios en el tiempo, la información de metadatos puede, por ejemplo, aproximarse utilizando la muestra de metadatos precedente y la muestra de metadatos subsiguiente, que fueron transmitidas. Por ejemplo, la interpolación lineal puede emplearse para la aproximación de valores intermedios. Por ejemplo, la ganancia, el acimut, la elevación y/o radio de cada objeto de audio puede aproximarse por puntos en el tiempo, donde tales metadatos no fueron transmitidos.

Mediante tal enfoque, pueden lograrse considerables ahorros en la tasa de transmisión de metadatos.

La figura 3 ilustra un sistema según una realización.

El sistema comprende un aparato 250 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas como se describe anteriormente.

Además, el sistema comprende un aparato 100 para recibir una o más señales de audio codificadas y una o más señales de metadatos comprimidas y para generar uno o más canales de audio dependiendo de una o más señales de audio codificadas y dependiendo de una o más señales de metadatos comprimidas como se describe anteriormente.

Por ejemplo, una o más señales de audio codificadas pueden decodificarse por el aparato 100 para generar uno o más canales de audio empleando el decodificador SAOC según la última tecnología para obtener una o más señales de objetos de audio, cuando el aparato 250 para codificar utilizó un codificador SAOC para codificar uno o más objetos de audio.

Considerando las posiciones de los objetos solo como un ejemplo para metadatos, para permitir el acceso aleatorio con tiempo limitado de reinicialización, las realizaciones proporcionan una retransmisión total de todas las posiciones de objetos de forma regular.

Según una realización, el aparato 100 se configura para recibir información de acceso aleatorio, en el que, para cada señal de metadatos comprimida de una o más señales de metadatos comprimidas, la información de acceso aleatorio indica una porción de señal accedida de dicha señal de metadatos comprimida, en el que al menos una porción de señal distinta de dicha señal de metadatos no se indica por dicha información de acceso aleatorio y en el que el decodificador de metadatos 110 se configura para generar una de una o más señales de metadatos reconstruidas dependiendo de las primeras muestras de metadatos de dicha porción de señal accedida de dicha señal de metadatos comprimida, pero sin depender de ninguna otra de las primeras muestras de metadatos de ninguna otra porción de señal de dicha señal de metadatos comprimida. En otras palabras, al especificar la información de acceso aleatorio, una porción de cada señal de metadatos comprimida puede especificarse, en la que las demás porciones de dicha señal de metadatos no se especifican. En este caso, solo la porción especificada de dicha señal de metadatos comprimida se reconstruye como una de las señales de metadatos reconstruida, pero sin las demás porciones. La reconstrucción es posible, ya que las primeras muestras de metadatos transmitidas de dicha señal de metadatos comprimida representan la información de metadatos completa de dicha señal de metadatos comprimida para ciertos puntos en el tiempo (para otros puntos en el tiempo, sin embargo, la información de metadatos no se transmite).

La figura 6 ilustra una codificación de metadatos según una realización. Un codificador de metadatos 210 según las realizaciones puede configurarse para implementar la codificación de metadatos ilustrada en la figura 6.

En la figura 6, s(n) puede representar una de las señales de metadatos originales. Por ejemplo, s(n) puede, por ejemplo representar una función de ángulo acimutal de un objeto de audio y n puede indicar tiempo (por ejemplo, al indicar posiciones de muestra en la señal de metadatos original).

El componente de trayectoria con variante de tiempo s(n), el cual se somete a muestreo a una tasa de muestreo que es significativamente menor (por ejemplo, 1:1024 o menor) que la tasa de muestreo de audio, se cuantifica (véase 611) y se somete a muestreo descendente (véase 612) por un factor de N. Esto da como resultado la señal digital transmitida de forma regular anteriormente mencionada que se indica como z(k).

z(k) es una de una o más señales de metadatos comprimidas. Por ejemplo, cada N-ésima muestra de metadatos de s(n) también es una muestra de metadatos de la señal de metadatos comprimida z(k), mientras que las otras muestras de metadatos N-1 de s(n) entre cada N-ésima muestra de metadatos no son muestras de metadatos de la señal de metadatos comprimida z(k).

Por ejemplo, si se asume que en s(n), n indica tiempo (por ejemplo, al indicar posiciones de muestra en la señal de metadatos original), donde n es un número entero positivo o 0. (Por ejemplo, tiempo de inicio: n = 0). N es el factor de muestreo descendente. Por ejemplo, N = 32 u otro factor de muestreo descendente adecuado.

Por ejemplo, el muestreo descendente en 612 para obtener la señal de metadatos comprimida z de la señal de metadatos original s, por ejemplo, puede realizarse, de modo que:

z(k) = s (k • N); en el que k es un número entero positivo o 0 (k = 0, 1,2, ...)

De este modo:

z(0) = s (0); z(1) = s (32); z(2) = s (64); z(3) = s(96), ...

La figura 7 ilustra una decodificación de metadatos según una realización. Un decodificador de metadatos 110 según las realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 7.

Según la realización ilustrada en la figura 7, el decodificador de metadatos 110 se configura para generar cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas mediante el muestreo ascendente de una o más señales de metadatos comprimidas, en el que el decodificador de metadatos 110 se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.

Por lo tanto, cada señal de metadatos reconstruida comprende todas las muestras de metadatos de su señal de metadatos comprimida (estas muestras se denominan “primeras muestras de metadatos” de una o más señales de metadatos comprimidas).

Al llevar a cabo muestreo ascendente, se agregan (“segundas”) muestras de metadatos adicionales a la señal de metadatos reconstruida. La etapa de muestreo ascendente determina las posiciones en la señal de metadatos reconstruida (por ejemplo, los instantes de tiempo “relativos”) donde se agregan las (segundas) muestras de metadatos adicionales a la señal de metadatos.

Al llevar a cabo interpolación lineal, se determinan los valores de muestra de metadatos de las segundas muestras de metadatos. La interpolación lineal se lleva a cabo basada en dos muestras de metadatos de la señal de metadatos comprimida (que se volvieron primeras muestras de metadatos de la señal de metadatos reconstruida).

Según las realizaciones, el muestreo ascendente y la generación de las segundas muestras de metadatos al llevar a cabo interpolación lineal pueden, por ejemplo, llevarse a cabo en una sola etapa.

En la figura 7, el proceso de muestreo ascendente inverso (véase 721) en combinación con una interpolación lineal (véase 722) da como resultado una aproximación gruesa de la señal original. El proceso de muestreo ascendente inverso (véase 721) y la interpolación lineal (véase 722) pueden, por ejemplo, llevarse a cabo en una sola etapa.

Por ejemplo, el muestreo ascendente (721) y la interpolación lineal (722) en el lado del decodificador pueden, por ejemplo, llevarse a cabo de modo que:

s’(k ■ N) = z(k); en el que k es un entero positivo o 0 s’(k ■ N j) = z(k-1) — [z(k) - z(k-1)]; en el que j es un entero con 1 < j < N — 1 N

Aquí, z(k) es la muestra de metadatos realmente recibida de la señal de metadatos comprimida z y z(k-1) es la muestra de metadatos de la señal de metadatos comprimida z, que se recibió inmediatamente antes de la muestra de metadatos realmente recibida z(k).

La figura 8 ilustra una codificación de metadatos según otra realización. Un codificador de metadatos 210 según realizaciones puede configurarse para implementar la codificación de metadatos ilustrada en la figura 8.

En realizaciones, por ejemplo como se ilustra en la figura 8, en la codificación de metadatos, puede especificarse la fina estructura por la diferencia codificada entre la señal de entrada compensada de retardo y la aproximación gruesa linealmente interpolada.

Según tales realizaciones, el proceso de muestreo ascendente inverso en combinación con la interpolación lineal también se lleva a cabo como parte de la codificación de metadatos del lado de codificador (véase 621 y 622 en la figura 6). Nuevamente, el proceso de muestreo ascendente inverso (véase 621) y la interpolación lineal (véase 622) pueden, por ejemplo, llevarse a cabo en una sola etapa.

Como ya se ha descrito anteriormente, el codificador de metadatos 210 se configura para generar una o más señales de metadatos comprimidas, de tal manera que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprenda un primer grupo de dos o más muestras de metadatos de una señal de metadatos original de una o más señales de metadatos originales. Dicha señal de metadatos comprimida puede considerarse asociada con dicha señal de metadatos original.

Cada una de las muestras de metadatos que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, que se asocia con dicha señal de metadatos original, puede considerarse una de una pluralidad de primeras muestras de metadatos.

Además, cada una de las muestras de metadatos que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de segundas muestras de metadatos.

Según la realización de la figura 8, el codificador de metadatos 210 se configura para generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha una de una o más señales de metadatos originales.

Además, en la realización de la figura 8, el codificador de metadatos 210 se configura para generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de manera que dicho valor diferencial indique una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.

En una realización preferida, que se describirá a continuación con referencia a la figura 10, el codificador de metadatos 210 puede, por ejemplo, configurarse para determinar al menos uno de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, si cada uno de al menos uno de dichos valores diferenciales es mayor que un valor umbral.

En realizaciones según la figura 8, las muestras de metadatos aproximadas pueden, por ejemplo, determinarse (por ejemplo, como muestras s”(n) de una señal s”) al llevar a cabo muestreo ascendente en la señal de metadatos comprimida z(k) y al llevar a cabo interpolación lineal. El muestreo ascendente y la interpolación lineal pueden, por ejemplo, llevarse a cabo como parte de la codificación de metadatos en el lado del codificador (véase 621 y 622 en figura 6), por ejemplo, de la misma manera, como se describe para la decodificación de metadatos con referencia a 721 y 722:

s”(k ■ N) = z(k); en el que k es un entero positivo o 0 s”(k ■ N j) = z(k-1) — [ z(k) - z(k-1)]; en el que j es un entero con 1 < j < N -1 N

Por ejemplo, en la realización ilustrada en la figura 8, cuando se lleva a cabo codificación de metadatos, pueden determinarse valores diferenciales en 630 para las diferencias

s(n) - s”(n), por ejemplo, para todas las n con (k-1) • N < n < k • N, o

por ejemplo, para todas las n con (k-1) • N < n < k • N

En realizaciones, uno o más de estos valores diferenciales se transmiten al decodificador de metadatos.

La figura 9 ilustra una decodificación de metadatos según otra realización. Un decodificador de metadatos 110 según realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 9.

Como se describe anteriormente, cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas. Dicha señal de metadatos reconstruida se considera que se asocia con dicha señal de metadatos comprimida.

En realizaciones ilustradas por la figura 9, el decodificador de metadatos 110 se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos 110 se configura para generar cada una de una pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida. Por ejemplo, estas muestras de metadatos aproximadas pueden generarse mediante interpolación lineal como se describe en referencia a la figura 7.

Según la realización ilustrada por la figura 9, el decodificador de metadatos 110 se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas. El decodificador de metadatos 110 se configura además para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximadas de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Para todas aquellas muestras de metadatos aproximadas, para las cuales se ha recibido un valor diferencial, ese valor diferencial se agrega a las muestras de metadatos aproximadas para obtener las segundas muestras de metadatos.

Según una realización, una muestra de metadatos aproximada, para la cual no se ha recibido un valor diferencial, se utiliza como una segunda muestra de metadatos de la señal de metadatos reconstruida.

Según una realización diferente, sin embargo, si no se recibe un valor diferencial para una muestra de metadatos aproximada, se genera un valor diferencial aproximado para dichas muestras de metadatos aproximadas dependiendo de uno o más valores diferenciales recibidos y dicha muestra de metadatos aproximada se agrega a dicha muestra de metadatos aproximada, véase a continuación.

Según la realización ilustrada por la figura 9, los valores diferenciales recibidos se agregan (véase 730) a las muestras de metadatos correspondientes de la señal de metadatos sometida a muestreo ascendente. De esta manera, las muestras de metadatos interpoladas correspondientes, para las cuales se han transmitido valores diferenciales, pueden corregirse, si es necesario, para obtener las muestras de metadatos correctas.

Volviendo a la codificación de metadatos en la figura 8, en realizaciones preferidas, se utilizan menos bits para codificar los valores diferenciales que el número de bits utilizados para codificar muestras de metadatos. Estas realizaciones se basan en el hallazgo de que (por ejemplo, N) muestras de metadatos subsecuentes en la mayoría de las veces solo varían ligeramente. Por ejemplo, si una clase de muestras de metadatos se codifica, por ejemplo, por 8 bits, estas muestras de metadatos pueden tomarse de uno de entre 256 valores diferenciales. Debido, en general, a ligeros cambios de (por ejemplo, N) valores de metadatos subsecuentes, puede considerarse suficiente para codificar los valores diferenciales solo, por ejemplo, por 5 bits. De este modo, incluso si se transmiten valores diferenciales, puede reducirse el número de bits transmitidos.

En una realización preferida, uno o más valores diferenciales se transmiten, cada uno de uno o más valores diferenciales se codifican con menos bits que cada una de las muestras de metadatos y cada valor diferencial es un valor entero.

Según una realización, el codificador de metadatos 110 se configura para codificar una o más de las muestras de metadatos de una de una o más señales de metadatos comprimidas con un primer número de bits, en el que cada una de dichas una o más muestras de metadatos de dicha una de una o más señales de metadatos comprimidas indican un entero. Además, el codificador de metadatos (110) se configura para codificar uno o más de los valores diferenciales con un segundo número de bits, en el que cada uno de dicho uno o más de los valores diferenciales indica un número entero, en el que el segundo número de bits es menor que el primer número de bits.

Considérese, por ejemplo, que en una realización, las muestras de metadatos pueden representar un acimut que se codifica por 8 bits. Por ejemplo, el acimut puede ser un número entero entre -90 < acimut < 90. De este modo, el acimut puede tomar 181 valores diferenciales. Sin embargo, se puede asumir que (por ejemplo, N) muestras acimutales subsecuentes solo difieren por menos de, por ejemplo, ± 15, entonces, 5 bits (25 = 32) pueden ser suficientes para codificar los valores diferenciales. Si los valores diferenciales se representan como números enteros, entonces determinar los valores diferenciales de forma automática transforma los valores adicionales, que se van a transmitir, en un margen de valor adecuado.

Por ejemplo, considérese un caso donde un primer valor acimutal de un primer objeto de audio es 60° y sus valores subsecuentes varían de 45° a 75°. Por otra parte, considérese que un segundo valor acimutal de un segundo objeto de audio es -30° y sus valores subsecuentes varían de -45° a -15°. Al determinar los valores diferenciales para los valores subsecuentes del primer objeto de audio y para ambos de los valores subsecuentes del segundo objeto de audio, los valores diferenciales del primer valor acimutal y del segundo valor acimutal ambos se ubican en el margen de valor de -15° a 15°, para que 5 bits sean suficientes para codificar cada uno de los valores diferenciales y de modo que la secuencia de bits, que codifica los valores diferenciales, tenga el mismo significado para valores diferenciales del primer ángulo acimutal y valores diferenciales del segundo valor acimutal.

En una realización, cada valor diferencial, para el cual no existe una muestra de metadatos en la señal de metadatos comprimida, se transmite al lado del decodificador. Además, según una realización, cada valor diferencial, para el cual no existe una muestra de metadatos en la señal de metadatos comprimida, recibida y procesada por el decodificador de metadatos. Algunas de las realizaciones preferidas ilustradas por las figuras 10 y 11, sin embargo, realizan un concepto diferente.

La figura 10 ilustra una codificación de metadatos según una realización adicional. Un codificador de metadatos 210 según realizaciones se puede configurar para implementar la codificación de metadatos ilustrada por la figura 10.

Como en algunas de las realizaciones anteriores, en la figura 10, los valores diferenciales, por ejemplo, se determinan para cada muestra de metadatos de la señal de metadatos original que no se encuentra comprendida por la señal de metadatos comprimida. Por ejemplo, cuando las muestras de metadatos en instante de tiempo n=0 e instante de tiempo n=N están comprendidas por la señal de metadatos comprimida, pero las muestras de metadatos en los instantes de tiempo n=1 a n=N-1, entonces los valores diferenciales se determinan para los instantes de tiempo n=1 a n=N-1.

Sin embargo, según la realización de la figura 10, una aproximación de polígono se lleva a cabo a continuación en 640. El codificador de metadatos 210 se configura para decidir qué valor diferencial será transmitido y si los valores diferenciales se transmiten del todo.

Por ejemplo, el codificador de metadatos 210 puede configurarse para transmitir solo esos valores diferenciales que tienen un valor diferencial que es mayor que el valor umbral.

En otra realización, el codificador de metadatos 210 puede configurarse para transmitir solo aquellos valores diferenciales, cuando la relación de ese valor diferencial a una muestra de metadatos correspondiente es mayor que el valor umbral.

En una realización, el codificador de metadatos 210 examina el mayor valor diferencial absoluto, si este valor diferencial absoluto es mayor que el valor umbral. Si este valor diferencial absoluto es mayor que el valor umbral, entonces se transmite el valor diferencial, por el contrario, no se transmite un valor diferencial y el examen finaliza. El examen continúa para el segundo valor diferencial mayor, para el tercer valor mayor, etc., hasta que todos los valores diferenciales sean menores que el valor umbral.

Como no todos los valores diferenciales se transmiten necesariamente, según las realizaciones, el codificador de metadatos 210 no solo codifica el (tamaño del) valor diferencial en sí (uno de los valores y¹[k] ... yN^-1[k] en la figura 10), sino que además transmite información a la cual la muestra de metadatos de la señal de metadatos original relaciona el valor diferencial (uno de los valores x¹[k] ...XN^-1[k] en Figura 10). Por ejemplo, el codificador de metadatos 210 puede codificar el instante de tiempo al cual se relaciona el valor diferencial. Por ejemplo, el codificador de metadatos 210 puede codificar un valor entre 1 y N-1 para indicar a qué muestra de metadatos entre las muestras de metadatos 0 y N, que ya se han transmitido en la señal de metadatos comprimida, se relaciona con el valor diferencial. Enumerar los valores x¹[k] ...XN^-1[k] y¹[k] ... yN^-1[k] en la salida de la aproximación del polígono no significa que todos estos valores se transmitan necesariamente, sino que en cambio significa que ninguno, uno, alguno de o todos estos pares de valores se transmiten, dependiendo de los valores diferenciales.

En una realización, el codificador de metadatos 210 puede procesar un segmento de, por ejemplo, N, valores diferenciales consecutivos y aproxima cada segmento mediante un rumbo de polígono formado por un número variable de puntos de polígono cuantificado [xi, yi].

Puede esperarse que el número de puntos de polígono que es necesario para aproximar la señal de diferencia con suficiente precisión sea en promedio significativamente menor que N. Y como [xi, yi] son números enteros pequeños, pueden codificarse con un bajo número de bits.

La figura 11 ilustra una decodificación de metadatos según una realización adicional. Un decodificador de metadatos 110 según realizaciones puede configurarse para implementar la decodificación de metadatos ilustrada en la figura 11.

En las realizaciones, el decodificador de metadatos 110 recibe algunos valores diferenciales y agrega estos valores diferenciales a las muestras de metadatos lineales interpoladas correspondientes en 730.

En algunas realizaciones, el decodificador de metadatos 110 agrega los valores diferenciales recibidos solo a las muestras de metadatos lineales interpoladas correspondientes en 730 y deja las otras muestras de metadatos lineales interpoladas, para las cuales no se reciben valores diferenciales, sin alteraciones.

Sin embargo, ahora se describen las realizaciones que realizan otro concepto.

Según tales realizaciones, el decodificador de metadatos 110 se configura para recibir la pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas. Cada uno de los valores diferenciales puede denominarse “valor diferencial recibido”. Un valor diferencial recibido se asigna a una de las muestras de metadatos aproximada de la señal de metadatos reconstruida, la cual se asocia con (se construye de) la señal de metadatos comprimida, con la cual se relacionan los valores diferenciales recibidos.

Como ya se describió con respecto a la figura 9, el decodificador de metadatos 110 se configura para agregar cada valor diferencial recibido de la pluralidad de valores diferenciales recibidos con la muestra de metadatos aproximada que se asocia con dicho valor diferencial recibido. Al agregar un valor diferencial recibido a su muestra de metadatos aproximada, se obtiene una de las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Sin embargo, para algunas (o algunas veces, para la mayoría) de las muestras de metadatos aproximadas, a menudo, no se reciben valores diferenciales.

En algunas realizaciones, el decodificador de metadatos 110 puede, por ejemplo, configurarse para determinar un valor diferencial aproximado dependiendo de uno o más de la pluralidad de valores diferenciales recibidos para cada muestra de metadatos aproximada de la pluralidad de muestras de metadatos aproximadas de la señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida, cuando ninguno de la pluralidad de valores diferenciales recibidos se asocia con dicha muestra de metadatos aproximada.

En otras palabras, para todas aquellas muestras de metadatos aproximadas, para las cuales no se reciben valores diferenciales, un valor diferencial aproximado se genera dependiendo de uno o más de los valores diferenciales recibidos.

El decodificador de metadatos 110 se configura para agregar cada valor diferencial aproximado de la pluralidad de valores diferenciales aproximados a las muestras de metadatos aproximadas de dicho valor diferencial aproximado para obtener otra de aquellas de las segundas muestras de metadatos de dicha señal de metadatos reconstruida. En otras realizaciones, sin embargo, el decodificador de metadatos 110 aproxima valores diferenciales para esas muestras de metadatos, para las cuales no se recibieron valores diferenciales, al llevar a cabo interpolación lineal dependiendo de aquellos valores diferenciales que se han recibido en la etapa 740.

Por ejemplo, si se recibe un primer valor diferencial y un segundo valor diferencial, entonces los valores diferenciales ubicados entre estos valores diferenciales recibidos pueden ser aproximados, por ejemplo, empleando interpolación lineal.

Por ejemplo, cuando un primer valor diferencial en el instante de tiempo n=15 tiene el valor diferencial d[15]=5. Y cuando un segundo valor diferencial en el instante de tiempo n = 18 tiene el valor diferencial d[18]=2, entonces los valores diferenciales para n = 16 y d=17 pueden aproximarse de forma lineal como d[16]=4 y d[17] = 3.

En una realización adicional, cuando las muestras de metadatos se encuentran comprendidas por la señal de metadatos comprimida, se asume que los valores diferenciales de dichas muestras de metadatos es 0 y la interpolación lineal de valores diferenciales que no se han recibido puede llevarse a cabo por el decodificador de metadatos basándose en dichas muestras de metadatos que se asume que son cero.

Por ejemplo, cuando un solo valor diferencial d=8 se transmite para n = 16, y cuando para n = 0 y n = 32, una muestra de metadatos se transmite en la señal de metadatos comprimida, entonces, los valores diferenciales no transmitidos en n=0 y n=32 se asumen que son 0.

Si permitimos que n indique tiempo y d[n] sea el valor diferencial en instante de tiempo n. Entonces:

d[16] = 8 (valor diferencial recibido)

d[0] = 0 (valor diferencial asumido, como muestra de metadatos existe en z(k))

d[32] = 0(valor diferencial asumido, como muestra de metadatos existe en z(k))

valores diferenciales aproximados:

d[1] = 0,5; d[2] = 1; d[3] = 1,5; d[4] = 2; d[5] = 2,5; d[6] = 3; d[7] = 3,5; d[8] = 4;

d[9] = 4,5; d[10] = 5; d[11] = 5,5; d[12] = 6; d[13] = 6,5; d[14] = 7; d[15] = 7,5;

d[17] = 7,5; d[18] = 7; d[19] = 6,5; d[20] = 6; d[21] = 5,5; d[22] = 5; d[23] = 4,5; d[24] = 4;

d[25] = 3,5; d[26] = 3; d[27] = 2,5; d[28] = 2; d[29] = 1,5; d[30] = 1; d[31] = 0,5.

En realizaciones, los valores diferenciales recibidos así como los aproximados se agregan a las muestras lineales interpoladas correspondientes (en 730).

A continuación, se describen realizaciones preferidas.

El codificador de metadatos (de objeto) puede, por ejemplo, codificar de forma conjunta una secuencia de valores de trayectoria regularmente (sub)muestreados utilizando una memoria intermedia de exploración adelantada o un tamaño dado N. Tan pronto como se llena esta memoria intermedia, todo el bloque de datos se codifica y transmite. Los datos de objeto codificados consisten en 2 partes, los datos del objeto intercodificados y opcionalmente una parte de datos diferenciales que contiene la estructura fina de cada segmento.

Los datos del objeto intercodificado comprenden valores cuantificados z(k) los cuales se muestrean en una cuadrícula regular (por ejemplo, cada 32 tramas de audio de longitud 1024). Las variables booleanas pueden utilizarse para indicar que los valores se especifican de forma individual para cada objeto o que un valor sigue común a todos los objetos.

El decodificador puede configurarse para derivar una trayectoria gruesa de los datos de objeto intercodificados por medio de interpolación lineal. La estructura fina de las trayectorias se da por la parte de datos diferenciales que comprende la diferencia codificada entre la trayectoria de entrada y la interpolación lineal. Una representación de polígono en combinación con etapas de cuantificación diferentes para el acimut, elevación, radio y valores de ganancia da como resultado la reducción de irrelevancia deseada.

La representación de polígono puede obtenerse de una variante del algoritmo Ramer-Douglas-Peucker [10,11] que no utiliza una recursión y que difiere del enfoque original mediante un criterio de aborto adicional, es decir, el número máximo de puntos de polígono para todos los objetos y todos los componentes del objeto.

Los puntos de polígono resultantes pueden codificarse en la parte de datos diferencial utilizando una longitud de palabra variable que se especifica dentro de la corriente de bits. Variables booleanas adicionales indican la codificación común de valores iguales.

A continuación se describen tramas de metadatos de objetos según realizaciones y representación de símbolos según realizaciones.

Por motivos de eficiencia, una secuencia de valores de trayectoria regularmente (sub)muestreados se codifican de forma conjunta. El codificador puede utilizar una memoria intermedia de adelantamiento de un tamaño dado y tan pronto como se llena esta memoria intermedia, se codifica y transmite todo el bloque de datos. Los datos de objeto codificados (por ejemplo, cargas útiles para metadatos de objetos) pueden, por ejemplo, comprender dos partes, los datos del objeto intercodificados (primera parte) y, opcionalmente, una parte de datos diferenciales (segunda parte).

Pueden emplearse algunas o todas las porciones de la siguiente sintaxis, por ejemplo:

__________________________________________________

A continuación, se describen datos de objeto intercodificados según una realización:

Para soportar el acceso aleatorio de los metadatos de objeto codificados, una especificación completa y autocontenida de todos los metadatos de objetos necesita transmitirse de forma regular. Esto se realiza por medio de datos de objetos intercodificados (“T ramas-I”) que contienen valores cuantificados muestreados en una cuadrícula regular (por ejemplo, cada 32 tramas de longitud 1024). Estas Tramas-I poseen la siguiente sintaxis, donde position_azimuth, position_elevation, position_radius y gain_factor especifican los valores cuantificados en las tramas iframe_period después de la actual Trama-I.

A continuación, se describen datos de objetos diferenciales según una realización.

Una aproximación con mayor precisión se logra al transmitir rumbos de polígono basados en un número reducido de puntos de muestreo. En consecuencia, se puede transmitir una matriz tridimensional muy escasa, donde la primera dimensión puede ser el índice del objeto, la segunda dimensión puede formarse por los componentes de metadatos (acimut, elevación, radio y ganancia), y la tercera dimensión puede ser el índice de trama de los puntos de muestreo de polígono. Sin medidas adicionales, la indicación de qué elementos de la matriz comprenden valores ya requiere bits num_objects * num_components * (iframe_period-1). Un primer paso para reducir esta cantidad de bits puede ser agregar cuatro indicadores que indican si existe al menos un valor que pertenece a uno de los cuatro componentes. Por ejemplo, puede esperarse que solo en casos especiales existan valores de radio o ganancia diferenciales. La tercera dimensión de la matriz tridimensional reducida comprende un vector con elementos iframe_period-1. Si solo se espera un pequeño número de puntos de polígono, entonces puede ser más eficiente parametrizar este vector por un conjunto de índices de tramas y la cardinalidad de este conjunto. Por ejemplo, para un iframe_period de período N = 32 tramas, un máximo número de 16 puntos de polígono, este método puede ser favorable para puntos N < (32-log2(16))/log2(32) = 5,6 puntos de polígono. Según realizaciones, se emplea la siguiente sintaxis para el esquema de codificación:

Los macro de offset_data () codifican las posiciones (desplazamientos de tramas) de los puntos de polígono, ya sea como un simple campo de bits o utilizando los conceptos descritos anteriormente. Los valores de num_bits permiten codificar grandes saltos de posición mientras que el resto de datos diferenciales se codifican con un tamaño de palabra más pequeño.

En particular, en una realización, los macros anteriores pueden, por ejemplo, poseer el siguiente significado:

Definición de cargas útiles de object_metadata según una realización: has_ differential_metadata indica si se encuentran presentes metadatos de objeto diferenciales.

Definición de cargas útiles de intracoded_object_metadata () según una realización:

ifperiod define el número de tramas entre tramas independientes.

common_azimuth indica si se utiliza un ángulo acimutal común para todos los objetos.

default_azimuth define el valor del ángulo acimutal común.

position_azimuth si no existe un valor acimutal común, se transmite un valor para cada objeto.

common_elevation indica si se utiliza un ángulo de elevación común para todos los objetos.

default_elevation define el valor del ángulo de elevación común.

position_elevation si no existe un valor de elevación común, se trasmite un valor para cada objeto.

common_radius indica si se utiliza un valor de radio común para todos los objetos.

default_radius define el valor de radio común.

position_radius si no existe un valor de radio común, se transmite un valor para cada objeto.

common_gain indica si se utiliza un valor de ganancia común para todos los objetos.

default_gain define el valor del factor de ganancia común.

gain_factor si no existe un valor de ganancia común, se transmite un valor para cada objeto.

position_azimuth si existe solo un objeto, este es su ángulo acimutal.

position_elevation si existe solo un objeto, este es su ángulo de elevación.

position_radius si existe solo un objeto, este es su radio.

gain_factor si existe solo un objeto, este es su factor de ganancia.

Definición de cargas útiles de differential_object_metadata () según una realización

bits_per_point número de bits requeridos para representar el número de puntos de polígono.

fixed_azimuth indicador que indica si el valor acimutal es fijo para todos los objetos.

flag_azimuth indicador por objeto que indica si el valor acimutal cambia.

nbits_azimuth cuántos bits se requieren para representar el valor diferencial.

differential_azimuth valor diferencial entre el valor lineal interpolado y el valor real.

fixed_elevation indicador que indica si el valor de elevación es fijo para todos los objetos.

flag_elevation indicador por objeto que indica si el valor de elevación cambia.

nbits_elevation cuántos bits se requieren para representar el valor diferencial.

differential_elevation valor diferencial entre el valor lineal interpolado y el valor real.

Fixed_radius indicador que indica si el radio es fijo para todos los objetos.

Flag_radius indicador por objeto que indica si el radio cambia.

Nbits_radius cuántos bits se requieren para representar el valor diferencial.

Differential_radius valor diferencial entre el valor lineal interpolado y el valor real.

fixed_gain indicador que indica si el factor de ganancia es fijo para todos los objetos.

flag_gain indicador por objeto que indica si el radio de ganancia cambia.

nbits_gain cuántos bits se requieren para representar el valor diferencial.

differential_gain valor diferencial entre el valor lineal interpolado y el valor real.

Definición de cargas útiles de offset_data() según una realización:

bitfield_syntax indicador que indica si un vector con índices de polígono está presente en la corriente de bits. offset_bitfield matriz booleana que contiene un indicador para cada punto del iframe_period si es un punto de polígono o no

npoints número de puntos de polígono menos 1 (num_points = npoints 1).

foffset índice de fracción de tiempo de los puntos de polígono dentro del iframe_period (frame_offset = foffset 1).

Según una realización, los metadatos pueden, por ejemplo, trasmitirse para cada objeto de audio como posiciones dadas (por ejemplo, indicados por acimut, elevación y radio) en marchas de hora definidas.

En la técnica anterior, no existe tecnología flexible que combine la codificación de canal por un lado y la codificación de objeto por otro lado de modo que se obtengan calidades de audio aceptables a bajas tasas de bits.

Esta limitación se supera mediante el Sistema de Codificación de Audio 3D. Ahora, se describe el Sistema de Codificación de Audio 3D.

La figura 12 ilustra un codificador de audio 3D según una realización de la presente invención. El codificador de audio 3D se configura para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El codificador de audio 3D comprende una interfaz de entrada para recibir una pluralidad de canales de audio indicados como CH y una pluralidad de objetos de audio indicados como OBJ. Además, como se ilustra en la figura 12, la interfaz de entrada 1100 recibe adicionalmente metadatos relacionados con una o más de la pluralidad de objetos de audio OBJ. Además, el codificador de audio 3D comprende un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, en el que cada canal premezclado comprende datos de audio de un canal y datos de audio de al menos un objeto.

Además, el codificador de audio 3D comprende un codificador de núcleo 300 para codificar el núcleo de datos de entrada del codificador de núcleo, un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.

Además, el codificador de audio 3D comprende un controlador de modo 600 para controlar el mezclador, el codificador de núcleo y/o una interfaz de salida 500 en uno de los varios modos de operación, en el que en el primer modo, el codificador de núcleo se configura para codificar la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada 1100 sin ninguna interacción por el mezclador, es decir, sin ninguna mezcla por el mezclador 200. En un segundo modo, sin embargo, en el cual el mezclador 200 estuvo activo, el codificador de núcleo codifica la pluralidad de canales mezclados, es decir, la salida generada por el bloque 200. En este último caso, se prefiere que ya no se codifique ningún dato de objetos. En cambio, los metadatos que indican posiciones de los objetos de audio ya se utilizaron por el mezclador 200 para renderizar los objetos en los canales como lo indican los metadatos. En otras palabras, el mezclador 200 utiliza los metadatos relacionados con la pluralidad de objetos de audio para prerrenderizar los objetos de audio y después los objetos de audio prerrenderizados se mezclan con los canales para obtener canales mezclados en la salida del mezclador. En esta realización, no necesariamente cualquier objeto puede transmitirse y esto también se aplica a metadatos comprimidos como se generan por el bloque 400. Sin embargo, si no se mezclan todas las entradas de objetos en la interfaz 1100 sino que solo se mezcla una cierta cantidad de objetos, entonces solo los objetos restantes no mezclados y los metadatos asociados se transmiten sin embargo al codificador de núcleo 300 o compresor de metadatos 400, respectivamente.

En la figura 12, el compresor de metadatos 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 12, el mezclador 200 y el codificador de núcleo 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas.

La figura 14 ilustra una realización adicional de un codificador de audio 3D que, adicionalmente, comprende un codificador SAOC 800. El codificador SAOC 800 se configura para generar uno o más canales de transporte y datos paramétricos de los datos de entrada del codificador de objetos de audio espacial. Como se ilustra en la figura 14, los datos de entrada del codificador de objetos de audio espacial son objetos que no se han procesado por el prerrenderizador/mezclador. Alternativamente, siempre que el prerrenderizador/mezclador haya sido derivado como en el modo aquel donde una codificación de canal/objeto individual está activa, todas las entradas de objetos en la interfaz de entrada 1100 se codifican por el codificador SAOC 800.

Además, como se ilustra en la figura 14, el codificador de núcleo 300 se implementa preferiblemente como un codificador USAC, es decir, como un codificador tal como se define y estandariza en la norma MPEG-USAC (USAC = codificación de audio y voz unificada). La salida de todo el codificador de audio 3D ilustrada en la figura 14 es una corriente de datos MPEG 4 que tiene las estructuras tipo contenedor para tipos de datos individuales. Además, los metadatos se indican como datos “OAM” y el compresor de metadatos 400 en la figura 12 corresponde con el codificador OAM 400 para obtener datos OAM comprimidos que se introducen en el codificador USAC 300 los cuales, como se observa en la figura 14, comprenden adicionalmente la interfaz de salida para obtener la corriente de datos de salida MP4 que no solo tiene los datos de canal/objeto codificados sino que también tiene los datos OAM comprimidos.

En la figura 14, el codificador OAM 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 14, el codificador SAOC 800 y el codificador USAC 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones descritas anteriormente.

La figura 16 ilustra una realización adicional del codificador de audio 3D, donde en contraste con la figura 14, el codificador SAOC puede configurarse para ya sea codificar, con el algoritmo de codificación SAOC, los canales proporcionados en el prerrenderizador/mezclador 200 que no es activo en este modo o, alternativamente, para codificar SAOC de los canales prerrenderizados más objetos. De este modo, en la figura 16, el codificador SAOC 800 puede operar en tres clases diferentes de datos de entrada, es decir, canales sin objetos prerrenderizados, canales y objetos prerrenderizados u objetos solos. Además, se prefiere proporcionar un decodificador OAM 420 adicional en la figura 16 para que el codificador SAOC 800 use, para su procesamiento, los mismos datos como del lado del decodificador, es decir, datos obtenidos por una compresión con disipación en vez de los datos OAM originales.

El codificador de audio 3D de la figura 16 puede operar en varios modos individuales.

Además del primer y segundo modo como se comenta en el contexto de la figura 12, el codificador de audio 3D de la figura 16 puede operar adicionalmente en un tercer modo en el cual el codificador de núcleo genera uno o más canales de transporte de los objetos individuales cuando el prerrenderizador/mezclador 200 no estaba activo. Alternativa o adicionalmente, en este tercer modo el codificador SAOC 800 puede generar uno o más canales de transporte alternativos o adicionales de los canales originales, es decir, de nuevo cuando el prerrenderizador/mezclador 200 correspondiente al mezclador 200 de la figura 12 no estaba activo.

Finalmente, el codificador SAOC 800 puede codificar, cuando el codificador de audio 3D se configura en el cuarto modo, los canales más objetos prerrenderizados como se generan por el prerrenderizador/mezclador. De este modo, en el cuarto modo las aplicaciones de tasa de bits más baja proporcionarán buena calidad debido al hecho de que los canales y objetos se han transformado por completo en canales de transporte individuales SAOC e información lateral asociada tal como se indica en las figuras 3 y 5 como “SAOC-SI” y, adicionalmente, cualquier metadato comprimido no tiene que transmitirse en este cuarto modo.

En la figura 16, el codificador OAM 400 es el codificador de metadatos 210 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas. Además, en la figura 16, el codificador SAOC 800 y codificador USAC 300 forman en conjunto el codificador de audio 220 de un aparato 250 para generar información de audio codificada según una de las realizaciones anteriormente descritas.

Según una realización, se proporciona un aparato para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El aparato para codificar datos de entrada de audio 101 comprende:

- una interfaz de entrada 1100 para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio,

- un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, comprendiendo cada canal premezclado datos de audio de un canal y datos de audio de al menos un objeto, y

- un aparato 250 para generar información de audio codificada que comprende un codificador de metadatos y un codificador de audio como se describe anteriormente.

El codificador de audio 220 del aparato 250 para generar información de audio codificada es un codificador de núcleo (300) para codificar el núcleo de datos de entrada de un codificador de núcleo.

El codificador de metadatos 210 del aparato 250 para generar información de audio codificada es un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.

La figura 13 ilustra un decodificador de audio 3D según una realización de la presente invención. El decodificador de audio 3D recibe, como una entrada, los datos de audio codificados, es decir, los datos 501 de la figura 12.

El decodificador de audio 3D comprende un descompresor de metadatos 1400, un decodificador de núcleo 1300, un procesador de objeto 1200, un controlador de modo 1600 y un postprocesador 1700.

Específicamente, el decodificador de audio 3D se configura para decodificar datos de audio codificados y la interfaz de entrada se configura para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados y la pluralidad de objetos codificados y metadatos comprimidos relacionados con la pluralidad de objetos en un cierto modo.

Además, el decodificador de núcleo 1300 se configura para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados y, adicionalmente, el descompresor de metadatos se configura para descomprimir los metadatos comprimidos.

Además, el procesador de objetos 1200 se configura para procesar la pluralidad de objetos decodificados como se generan por el decodificador de núcleo 1300 utilizando los metadatos descomprimidos para obtener un número predeterminado de canales de salida que comprenden datos de objeto y los canales decodificados. Estos canales de salida como se indican en 1205 entonces se introducen en un postprocesador 1700. El postprocesador 1700 se configura para convertir el número de canales de salida 1205 en un cierto formato de salida que puede ser un formato de salida binaural o un formato de salida de altavoz como un formato de salida 5,1, 7,1, etc.

Preferiblemente, el decodificador de audio 3D comprende un controlador de modo 1600 que se configura para analizar los datos codificados para detectar una indicación de modo. Por lo tanto, el controlador de modo 1600 se conecta a la interfaz de entrada 1100 en la figura 13. Sin embargo, alternativamente, el controlador de modo no necesariamente debe estar allí. En cambio, el decodificador de audio flexible puede preestablecerse por cualquier otra clase de datos de control tal como una entrada de usuario u otro control. El decodificador de audio 3D en la figura 13 y, preferiblemente, controlado por el controlador de modo 1600, se configura para desviar el procesador de objetos y suministrar la pluralidad de canales decodificados en el postprocesador 1700. Esta es la operación en modo 2, es decir, en la cual solo se reciben canales prerrenderizados, es decir, cuando el modo 2 se ha aplicado en el codificador de audio 3D de la figura 12. Alternativamente, cuando el modo 1 se ha aplicado en el codificador de audio 3D, es decir, cuando el codificador de audio 3D ha realizado codificación individual de canal/objeto, entonces el procesador de objetos 1200 no se desvía, pero la pluralidad de canales decodificados y la pluralidad de objetos decodificados se alimentan en el procesador de objetos 1200 junto con los metadatos descomprimidos generados por el descompresor de metadatos 1400.

Preferiblemente, la indicación de si se aplicará el modo 1 o modo 2 se incluye en los datos de audio codificados y entonces el controlador de modo 1600 analiza los datos codificados para detectar una indicación de modo. El modo 1 se utiliza cuando la indicación de modo indica que los datos de audio codificados comprenden canales codificados y objetos codificados y el modo 2 se aplica cuando la indicación de modo indica que los datos de audio codificados no contienen ningún objeto de audio, es decir, solo contienen canales prerrenderizados que se obtienen del modo 2 del codificador de audio 3D de la figura 12.

En la figura 13, el descompresor de metadatos 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 13, el decodificador de núcleo 1300, el procesador de objetos 1200 y el postprocesador 1700 forman en conjunto el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según las realizaciones anteriormente descritas.

La figura 15 ilustra una realización preferida comparada con el decodificador de audio 3D de la figura 13 y la realización de la figura 15 corresponde al codificador de audio 3D de la figura 14. Además de la implementación del decodificador de audio 3D de la figura 13, el decodificador de audio 3D de la figura 15 comprende un decodificador SAOC 1800. Además, mientras el procesador de objetos 1200 de la figura 13 se implementa como un renderizador separado de objetos 1200 y el mezclador 1220 mientras que, dependiendo del modo, la funcionalidad del renderizador de objetos 1210 también puede implementarse por el decodificador SAOC 1800.

Además, el postprocesador 1700 puede implementarse como renderizador binaural 1710 o un convertidor de formato 1720. Alternativamente, una salida directa de datos 1205 de la figura 13 también puede implementarse como se ilustra por 1730. Por lo tanto, se prefiere realizar el procesamiento en el decodificador en el mayor número de canales tal como 22,2 o 32 para tener flexibilidad y después para el postprocesamiento si se necesita un formato más pequeño. Sin embargo, cuando queda claro desde el principio que solo se necesita un formato pequeño tal como el formato 5,1, entonces es preferible, como se indica en la figura 13 o 6 por el acceso directo 1727, que un cierto control sobre el decodificador SAOC y/o el decodificador USAC puede aplicarse para evitar operaciones innecesarias de mezcla ascendente y operaciones subsecuentes de mezcla descendente.

En una realización preferida de la presente invención, el procesador de objetos 1200 comprende el decodificador SAOC 1800 y el decodificador SAOC se configura para decodificar una o más salida de canales de transporte por el decodificador de núcleo y datos paramétricos asociados y se utilizan metadatos descomprimidos para obtener la pluralidad de objetos de audio renderizados. Para este fin, la salida OAM se conecta a la casilla 1800.

Además, el procesador de objetos 1200 se configura para renderizar la salida de objetos decodificados por el decodificador de núcleo los cuales no se codifican en los canales de transporte SAOC pero los cuales se codifican individualmente en elementos de canales típicamente individuales como se indica por el renderizador de objetos 1210. Además, el decodificador comprende una interfaz de salida que corresponde a la salida 1730 para producir una salida del mezclador a los altavoces.

En una realización adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espaciales 1800 para decodificar uno o más canales de transporte e información lateral paramétrica asociada que representa señales de audio codificadas o canales de audio codificados, en los que el decodificador de codificación de objetos de audio espaciales se configura para transcodificar la información paramétrica asociada y los metadatos descomprimidos en información lateral paramétrica transcodificada que se puede utilizar para renderizar directamente el formato de salida, como por ejemplo se define en una versión anterior de SAOC. El postprocesador 1700 se configura para calcular canales de audio del formato de salida que utiliza los canales de transporte decodificados y la información lateral paramétrica transcodificada. El procesamiento realizado por el postprocesador puede ser similar al procesamiento Envolvente MPEG o puede ser cualquier otro procesamiento tal como el procesamiento BCC, etc.

En una realización adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espaciales 1800 configurado para mezclar de manera ascendente directamente y renderizar las señales de canales para el formato de salida utilizando los canales de transporte decodificados (por el decodificador de núcleo) y la información lateral paramétrica.

Además, y de manera importante, el procesador de objetos 1200 de la figura 13 comprende adicionalmente el mezclador 1220 que recibe, como una entrada, la salida de datos por el decodificador USAC 1300 directamente cuando existen objetos prerrenderizados mezclados con canales, es decir, cuando el mezclador 200 de la figura 12 estuvo activo. Adicionalmente, el mezclador 1220 recibe datos del objeto renderizado que realiza la renderización del objeto sin la decodificación SAOC. Además, el mezclador recibe datos de salida del decodificador SAOC, es decir, objetos renderizados SAOC.

El mezclador 1220 se conecta con la interfaz de salida 1730, el renderizador binaural 1710 y el convertidor de formato 1720. El renderizador binaural 1710 se configura para renderizar canales de salida en dos canales binaurales utilizando funciones de transferencia relacionadas con cabezales o respuestas de impulso de recinto binaural (BRIR, por su sigla en inglés). El convertidor de formato 1720 se configura para convertir los canales de salida en un formato de salida que tiene un menor número de canales que los canales de salida 1205 del mezclador y el convertidor de formato 1720 requiere información sobre el esquema de reproducción tal como los altavoces 5,1 o similares.

En la figura 15, el Decodificador OAM 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 15, el Renderizador de objetos 1210, el decodificador USAC 1300 y mezclador 1220 forman en conjunto el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas.

El decodificador de audio 3D de la figura 17 es diferente al decodificador de audio 3D de la figura 15 ya que el decodificador SAOC no solo puede generar objetos renderizados sino también canales renderizados y este es el caso cuando el codificador de audio 3D de la figura 16 se ha utilizado y la conexión 900 entre canales/objetos prerrenderizados y la interfaz de entrada del codificador SAOC 800 está activa.

Además, se configura una etapa de amplitud panorámica basada en vectores 1810 (VBAP, por su sigla en inglés) que recibe, del decodificador SAOC, información sobre el esquema de reproducción y que produce una matriz de reproducción al decodificador SAOC de modo que el decodificador SAOC puede, al final, proporcionar canales renderizados sin ninguna otra operación del mezclador en el formato de canal alto de 1205, es decir, 32 altavoces.

El bloque VBAP recibe preferiblemente los datos OAM decodificados para derivar las matrices de reproducción. Más en general, se requiere preferiblemente información geométrica no solo del esquema de reproducción sino de las posiciones donde las señales de entrada deben renderizarse en el esquema de reproducción. Estos datos de entrada geométricos pueden ser datos OAM para objetos o información de posición de canal para canales que se han transmitido utilizando SAOC.

Sin embargo, si solo se requiere una interfaz de salida específica, entonces el estado de VBAP 1810 ya puede proporcionar la matriz de renderización requerida para por ejemplo, la salida 5,1. El decodificador SAOC 1800 realiza entonces una renderización directa de los canales de transporte SAOC, los datos paramétricos asociados y metadatos descomprimidos, una renderización directa en el formato de salida requerido sin ninguna interacción del mezclador 1220. Sin embargo, cuando se aplica una cierta mezcla entre modos, es decir, donde se codifican varios canales por SAOC pero no todos los canales se codifican por SAOC o donde varios objetos se codifican por SAOC pero no todos los objetos se codifican por SAOC o cuando solo una cierta cantidad de objetos prerrenderizados con canales se decodifican por SAOC y los canales restantes no se procesan por SAOC, entonces el mezclador juntará los datos de las porciones de entrada individuales, es decir, directamente del decodificador de núcleo 1300, del renderizador de objetos 1210 y del decodificador SAOC 1800.

En la figura 17, el Decodificador OAM 1400 es el decodificador de metadatos 110 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas. Además, en la figura 17, el Renderizador de objetos 1210, el decodificador USAC 1300 y el mezclador 1220 forman el decodificador de audio 120 de un aparato 100 para generar uno o más canales de audio según una de las realizaciones anteriormente descritas.

Se proporciona un aparato para decodificar datos de audio codificados. El aparato para decodificar datos de audio codificados comprende:

- una interfaz de entrada 1100 para recibir datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados o una pluralidad de objetos codificados o comprimir metadatos relacionados con la pluralidad de objetos, y

- un aparato 100 que comprende un decodificador de metadatos 110 y un generador de canal de audio 120 para generar uno o más canales de audio como se describe anteriormente.

El decodificador de metadatos 110 del aparato 100 para generar uno o más canales de audio es un descompresor de metadatos 400 para descomprimir los metadatos comprimidos.

El generador de canal de audio 120 del aparato 100 para generar uno o más canales de audio comprende un decodificador de núcleo 1300 para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados.

Además, el generador de canal de audio 120 comprende adicionalmente un procesador de objetos 1200 para procesar la pluralidad de objetos decodificados utilizando los metadatos descomprimidos para obtener un número de canales de salida 1205 que comprende datos de audio de los objetos y canales decodificados.

Además, el generador de canal de audio 120 comprende adicionalmente un postprocesador 1700 para convertir el número de canales de salida 1205 en un formato de salida.

Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque correspondiente o elemento o característica de un aparato correspondiente.

La señal descompuesta de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.

Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, DVD, CD, ROM, PROM, EPROM, EEPROM o una memoria FLASH, que tienen señales de control legibles electrónicamente almacenadas en los mismos, que cooperan (o que pueden cooperar) con un sistema informático programable de tal modo que se realice el método respectivo.

Algunas realizaciones según la invención comprenden una portadora de datos no transitoria que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal modo que se realiza uno de los métodos descritos en el presente documento.

Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos cuando el producto de programa informático opera en un ordenador. El código de programa puede, por ejemplo, almacenarse en una portadora legible por máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en una portadora legible por máquina.

En otras palabras, una realización del método de la invención, por lo tanto, es un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático opera en un ordenador.

Una realización adicional de los métodos de la invención, por lo tanto, es una portadora de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.

Una realización adicional del método de la invención, por lo tanto, es una corriente de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. La corriente de datos o la secuencia de señales puede, por ejemplo, configurarse para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.

Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.

En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable por campo) puede utilizarse para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas programable por campo puede cooperar con un microprocesador para realizar uno de los métodos descritos en el presente documento. Generalmente, los métodos se realizan preferiblemente por cualquier aparato de hardware.

Las realizaciones descritas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entenderá que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para los expertos en la técnica. Por lo tanto, se intenta limitar solo por el alcance de las reivindicaciones de la patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.

Referencias

[1] Peters, N., Lossius, T. y Schacher J. C., “SpatDIF: Principies, Specification, and Examples”, 9° Conferencia sobre Informática en Sonido y Música, Copenhague, Dinamarca, Julio, 2012.

[2] Wright, M., Freed, A., “Open Sound Control: A New Protocol for Communicating with Sound Synthesizers”, Conferencia Internacional sobre Música en Ordenador, Tesalónica, Grecia, 1997.

[3] Matthias Geier, Jens Ahrens, y Sascha Spors. (2010), “Object-based audio reproduction and the audio scene description format”, Org. Sound, Vol. 15, N.° 3, p. 219 a 227, Diciembre 2010.

[4] W3C, “Synchronized Multimedia Integration Language (SMIL 3.0)”, Dic. 2008.

[5] W3C, “Extensible Markup Language (XML) 1.0 (Fifth Edition)”, Nov. 2008.

[6] MPEG, “ ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio”, 2009.

[7] Schmidt, J.; Schroeder, E. F. (2004), “New and Advanced Features for Audio Presentation in the MPEG-4 Standard”, 116° AES Convención, Berlín, Alemania, Mayo 2004

[8] Web3D, “International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding”, 1997.

[9] Sporer, T. (2012), “Codierung raumlicher Audiosignale mit leicht-gewichtigen Audio-Objekten”, Proc. Asamblea Anual de la Sociedad alemana Audiológica (DGA), Erlangen, Alemania, Marzo 2012.

[10] Ramer, U. (1972), “An iterative procedure for the polygonal approximation of plane curves”, Gráficos de Informática y Procesamiento de Imágenes, 1(3), 244 a 256.

[11] Douglas, D.; Peucker, T. (1973), “Algorithms for the reduction of the number of points required to represent a digitized line or its caricature”, El Cartógrafo canadiense 10(2), 112 a 122.

[12] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng. Soc., Volumen 45, Fascículo 6, p. 456 a 466, Junio 1997.

Claims

REIVINDICACIONES

Aparato (100) para generar uno o más canales de audio, en el que el aparato comprende:

un decodificador de metadatos (110) para recibir una o más señales de metadatos comprimidas,

en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos,

en el que el decodificador de metadatos (110) se configura para generar una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende adicionalmente una pluralidad de segundas muestras de metadatos, en el que el decodificador de metadatos (110) se configura para generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que el decodificador de metadatos (110) se configura para generar cada una de la pluralidad de muestras de metadatos aproximadas dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida, y

un generador de canal de audio (120),

en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio,

en el que el generador de canal de audio (120) se configura para generar uno o más canales de audio dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque

el decodificador de metadatos (110) se configura para recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y se configura para agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximados de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Aparato (100) según la reivindicación 1, en el que el decodificador de metadatos (110) se configura para generar cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas por muestreo ascendente de una de una o más señales de metadatos comprimidas, en el que el decodificador de metadatos (110) se configura para generar cada una de las segundas muestras de metadatos de cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha señal de metadatos reconstruida.

Aparato (100) según la reivindicación 1 o 2,

en el que el decodificador de metadatos (110) se configura para determinar un valor diferencial aproximado dependiendo de uno o más de la pluralidad de valores diferenciales recibidos para cada muestra de metadatos aproximada de la pluralidad de muestras de metadatos aproximadas de la señal de metadatos reconstruida que se asocia con dicha señal de metadatos comprimida, cuando ninguno de la pluralidad de valores diferenciales recibidos se asocia con dicha muestra de metadatos aproximada,

en el que el decodificador de metadatos (110) se configura para agregar cada valor diferencial aproximado de la pluralidad de valores diferenciales aproximados a la muestra de metadatos aproximada de dicho valor diferencial aproximado para obtener otra de las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Aparato (100) según una de las reivindicaciones anteriores,

en el que al menos una de una o más señales de metadatos reconstruidas comprende información de posición de una de una de una o más señales de objetos de audio o comprende una representación a escala de la información de posición sobre dicha una o más señales de objetos de audio, y

en el que el generador de canal de audio (120) se configura para generar al menos uno de uno o más canales de audio dependiendo de dicha una de una o más señales de objetos de audio y dependiendo de dicha información de posición.

Aparato (100) según una de las reivindicaciones anteriores,

en el que al menos una de una o más señales de metadatos reconstruidas comprende un volumen de una de una o más señales de objetos de audio o comprende una representación a escala del volumen de dicha una de una o más señales de objetos de audio, y

en el que el generador de canal de audio (120) se configura para generar al menos uno de uno o más canales de audio dependiendo de una de una o más señales de objetos de audio y dependiendo de dicho volumen.

Aparato (100) según una de las reivindicaciones anteriores, en el que el aparato (100) se configura para recibir información de acceso aleatorio, en el que, para cada señal de metadatos comprimida de una o más señales de metadatos comprimidas, la información de acceso aleatorio indica una porción de señal accedida de dicha señal de metadatos comprimida, en el que al menos otra porción de señal de dicha señal de metadatos no se indica por información de acceso aleatorio, y en el que el decodificador de metadatos (110) se configura para generar una de una o más señales de metadatos reconstruidas dependiendo de las primeras muestras de metadatos de dicha porción de señal accedida de dicha señal de metadatos comprimida pero no dependiendo de cualquier otra de las primeras muestras de metadatos de cualquier otra porción de señal de dicha señal de metadatos comprimida.

Aparato (250) para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, en el que el aparato comprende:

un codificador de metadatos (210) para recibir una o más señales de metadatos originales,

en el que cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos, en el que el codificador de metadatos (210) se configura para generar una o más señales de metadatos comprimidas, de modo que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprende un primer grupo de dos o más de las muestras de metadatos de una señal de metadatos original de una o más señales de metadatos originales, estando dicha señal de metadatos comprimida asociada con dicha señal de metadatos original, y

un codificador de audio (220) para codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas,

en el que las muestras de metadatos de una o más señales de metadatos originales indican información asociada con una señal de objetos de audio de una o más señales de objetos de audio,

en el que cada una de las muestras de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de primeras muestras de metadatos,

en el que cada una de las muestras de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es aquella de una pluralidad de segundas muestras de metadatos,

en el que el codificador de metadatos (210) se configura para generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de dicha una de una o más señales de metadatos originales, y caracterizado porque

el codificador de metadatos (210) se configura para generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de modo que dicho valor diferencial indica una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.

Aparato (250) según la reivindicación 7,

en el que el codificador de metadatos (210) se configura para determinar al menos uno de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, si cada uno de al menos uno de los valores diferenciales es mayor que un valor umbral.

9. Aparato (250) según la reivindicación 7 u 8,

en el que el codificador de metadatos (210) se configura para codificar una o más de las muestras de metadatos de una de una o más señales de metadatos comprimidas con un primer número de bits, en el que cada una de dichas una o más de las muestras de metadatos de dicha una o más señales de metadatos comprimidas indica un número entero,

en el que el codificador de metadatos (210) se configura para codificar uno o más de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos con un segundo número de bits, en el que cada uno de uno o más de los valores diferenciales de dicha pluralidad de las segundas muestras de metadatos indican un número entero, y

en el que el segundo número de bits es menor que el primer número de bits.

10. Aparato (250) según una de las reivindicaciones 7 a 9,

en el que al menos una de una o más señales de metadatos originales comprende información de posición en una de una o más señales de objetos de audio o comprende una representación a escala de la información de posición en dicha una o más señales de objetos de audio, y

en el que el codificador de metadatos (210) se configura para generar al menos una de una o más señales de metadatos comprimidas dependiendo de al menos una de una o más señales de metadatos originales.

11. Aparato (250) según una de las reivindicaciones 7 a 10,

en el que al menos una de una o más señales de metadatos originales comprende un volumen de una de una o más señales de objetos de audio o comprende una representación a escala del volumen de dicha una de una o más señales de objetos de audio, y

en el que el codificador de metadatos (210) se configura para generar al menos una de una o más señales de metadatos comprimidas que depende de al menos una de una o más señales de metadatos originales.

12. Sistema que comprende:

aparato (250) según una de las reivindicaciones 7 a 11 para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, y un aparato (100) según una de las reivindicaciones 1 a 6 para recibir una o más señales de audio codificadas y una o más señales de metadatos comprimidas y para generar uno o más canales de audio dependiendo de una o más señales de audio codificadas y dependiendo de una o más señales de metadatos comprimidas.

13. Método para generar uno o más canales de audio, en el que el método comprende:

recibir una o más señales de metadatos comprimidas, en el que cada una de una o más señales de metadatos comprimidas comprende una pluralidad de primeras muestras de metadatos, generando una o más señales de metadatos reconstruidas, de modo que cada señal de metadatos reconstruida de una o más señales de metadatos reconstruidas comprende las primeras muestras de metadatos de una señal de metadatos comprimida de una o más señales de metadatos comprimidas, estando dicha señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida y que comprende además una pluralidad de segundas muestras de metadatos, en el que generar una o más señales de metadatos reconstruidas comprende generar las segundas muestras de metadatos de cada una de una o más señales de metadatos reconstruidas al generar una pluralidad de muestras de metadatos aproximadas para dicha señal de metadatos reconstruida, en el que generar cada una de la pluralidad de muestras de metadatos aproximadas se lleva a cabo dependiendo de al menos dos de las primeras muestras de metadatos de la señal de metadatos reconstruida, y

generar uno o más canales de audio,

en el que las primeras muestras de metadatos de cada una de una o más señales de metadatos comprimidas indican información asociada con una señal de objetos de audio de una o más señales de objeto de audio,

en el que generar uno o más canales de audio se lleva a cabo dependiendo de una o más señales de objetos de audio y dependiendo de una o más señales de metadatos reconstruidas, caracterizado porque

el método comprende además recibir una pluralidad de valores diferenciales para una señal de metadatos comprimida de una o más señales de metadatos comprimidas y agregar cada uno de la pluralidad de valores diferenciales a una de las muestras de metadatos aproximadas de la señal de metadatos reconstruida asociada con dicha señal de metadatos comprimida para obtener las segundas muestras de metadatos de dicha señal de metadatos reconstruida.

Método para generar información de audio codificada que comprende una o más señales de audio codificadas y una o más señales de metadatos comprimidas, en el que el método comprende:

recibir una o más señales de metadatos originales, en el que cada una de una o más señales de metadatos originales comprende una pluralidad de muestras de metadatos,

en el que generar una o más señales de metadatos comprimidas, de modo que cada señal de metadatos comprimida de una o más señales de metadatos comprimidas comprende un primer grupo de dos o más de las muestras de metadatos de una señal de metadatos originales de una o más de las señales de metadatos originales, estando dicha señal de metadatos comprimida asociada con dicha señal de metadatos original, y

codificar una o más señales de objetos de audio para obtener una o más señales de audio codificadas,

en el que las muestras de metadatos de cada una de una o más señales de metadatos originales indican información asociada con una señal de objeto de audio de una o más señales de objeto de audio,

en el que cada una de las muestra de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que también está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es aquella de una pluralidad de primeras muestras de metadatos,

en el que cada una de las muestra de metadatos, que está comprendida por una señal de metadatos original de una o más señales de metadatos originales y que no está comprendida por la señal de metadatos comprimida, la cual se asocia con dicha señal de metadatos original, es una de una pluralidad de segundas muestras de metadatos,

en el que el método comprende adicionalmente generar una muestra de metadatos aproximada para cada una de una pluralidad de las segundas muestras de metadatos de una de las señales de metadatos originales al llevar a cabo una interpolación lineal dependiendo de al menos dos de las primeras muestras de metadatos de una de una o más señales de metadatos originales, y caracterizado porque

el método comprende adicionalmente generar un valor diferencial para cada segunda muestra de metadatos de dicha pluralidad de las segundas muestras de metadatos de dicha una de una o más señales de metadatos originales, de modo que dicho valor diferencial indica una diferencia entre dicha segunda muestra de metadatos y la muestra de metadatos aproximada de dicha segunda muestra de metadatos.

Programa informático para implementar el método según la reivindicación 13 o 14 cuando se ejecuta en un ordenador o procesador de señal.

Aparato para codificar datos de entrada de audio (101) para obtener datos de salida de audio (501), que comprende:

una interfaz de entrada (1100) para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con una o más de la pluralidad de objetos de audio,

un mezclador (200) para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales premezclados, comprendiendo cada canal premezclado datos de audio de un canal y datos de audio de al menos un objeto, y

un aparato (250) según las reivindicaciones 7 a 11,

en el que el codificador de audio (220) del aparato (250) según una de las reivindicaciones 7 a 11 es un codificador de núcleo (300) para la codificación de núcleo de datos de entrada del codificador de núcleo, y

en el que el codificador de metadatos (210) del aparato (250) según una de las reivindicaciones 7 a 11 es un compresor de metadatos (400) para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio.

Aparato para decodificar datos de audio codificados, que comprende:

una interfaz de entrada (1100) para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados o una pluralidad de objetos codificados o metadatos comprimidos relacionados con la pluralidad de objetos, y

un aparato (100) según las reivindicaciones 1 a 6,

en el que el decodificador de metadatos (110) del aparato (100) según una de las reivindicaciones 1 a 6 es un descompresor de metadatos (400) para descomprimir los metadatos comprimidos,

en el que el generador de canal de audio (120) del aparato (100) según una de las reivindicaciones 1 a 6 comprende un decodificador de núcleo (1300) para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados,

en el que el generador de canal de audio (120) comprende además un procesador de objetos (1200) para procesar la pluralidad de objetos decodificados utilizando los metadatos descomprimidos para obtener un número de canales de salida (1205) que comprende datos de audio de los objetos y los canales decodificados, y

en el que el generador de canal de audio (120) comprende además un postprocesador (1700) para convertir el número de canales de salida (1205) en un formato de salida.