ES2913849T3

ES2913849T3 - Concepto para codificación y decodificación de audio para canales de audio y objetos de audio

Info

Publication number: ES2913849T3
Application number: ES14739196T
Authority: ES
Inventors: Alexander Adami; Christian Borss; Sascha Dick; Christian Ertel; Simone Füg; Jürgen Herre; Johannes Hilpert; Andreas Hölzer; Michael Kratschmer; Fabian Küch; Achim Kuntz; Adrian Murtaza; Jan Plogsties; Andreas Silzle; Hanne Stenzel
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2022-06-06
Anticipated expiration: 2034-07-16
Also published as: BR112016001143B1; US20220101867A1; CN110942778B; MX2016000910A; AR097003A1; JP2016525715A; KR20160033769A; US10249311B2; SG11201600476RA; KR20180019755A; TWI566235B; PL3025329T3; RU2641481C2; MX359159B; US11984131B2; CN110942778A; US20190180764A1; EP3025329B1; AU2014295269A1; WO2015010998A1

Abstract

Codificador de audio para codificar datos de entrada de audio (101) para obtener datos de salida de audio (501) que comprende: una interfaz de entrada (100) configurada para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio; un mezclador (200) configurado para mezclar la pluralidad de objetos de audio y la pluralidad de canales de audio para obtener una pluralidad de canales mezclados previamente, comprendiendo cada canal mezclado previamente datos de audio de un canal de audio y datos de audio de por lo menos un objeto de audio; un codificador central (300) configurado para codificar de forma central datos de entrada del codificador central; y un compresor de metadatos (400) configurado para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio para obtener metadatos comprimidos; y en el que el codificador de audio se configura para operar en tanto un primer modo como un segundo modo de un grupo de por lo menos dos modos que comprende el primer modo, en el cual el codificador central (300) se configura para codificar de manera individual la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada (100) como los datos de entrada del codificador central sin ninguna interacción por parte del mezclador (200), y el segundo modo, en el cual el codificador central (300) se configura para recibir, como los datos de entrada del codificador central, la pluralidad de canales mezclados previamente generados por el mezclador (200) y para codificar la pluralidad de canales previamente mezclados generados por el mezclador (200), y una interfaz de salida (500) para proporcionar una señal de salida como los datos de salida de audio (501), comprendiendo la señal de salida, cuando el codificador de audio opera en el primer modo, canales de audio codificados en el primer modo, canales de audio codificados y objetos de audio codificados como una salida del codificador central (300) y los metadatos comprimidos, y comprendiendo la señal de salida, cuando el codificador de audio opera en el segundo modo, la salida del codificador central (300) sin ningún metadato relacionado con la una o más de la pluralidad de objetos de audio.

Description

DESCRIPCIÓN

Concepto para codificación y decodificación de audio para canales de audio y objetos de audio

La presente invención se refiere una codificación/decodificación de audio y, en particular, una codificación de audio espacial y codificación de un objeto de audio espacial.

Las herramientas de codificación de audio espacial se conocen muy bien en la técnica y están, por ejemplo, estandarizadas en el estándar envolvente MPEG. La codificación de audio espacial comienza con canales de entrada originales tales como cinco o siete canales que se identifican por su colocación en una configuración de reproducción, es decir, un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de potencia de baja frecuencia. Un codificador de audio espacial normalmente deriva uno o más canales de mezcla descendente de los canales originales y, de forma adicional, deriva datos paramétricos relacionados con señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Uno o más canales de mezcla descendente se transmiten junto con la información lateral paramétrica lo que indica las señales espaciales a un decodificador de audio espacial que decodifica el canal de mezcla descendente y los datos paramétricos asociados con el fin de obtener finalmente canales de salida que son una versión aproximada de los canales de entrada originales. La colocación de los canales en la configuración de salida es normalmente fija y es, por ejemplo, un formato 5.1, un formato 7.1, etc.

De forma adicional, las herramientas de codificación de un objeto de audio espacial se conocen muy bien en la técnica y se estandarizan en el estándar SAOC de MPEG (SAOC = codificación de un objeto de audio espacial). En contraste con una codificación de audio espacial que se inicia en canales originales, la codificación de un objeto de audio espacial comienza con objetos de audio que no se dedican de forma automática para una determinada configuración de la reproducción de renderización. En su lugar, la colocación de los objetos de audio en la escena de reproducción es flexible y se puede determinar por el usuario al introducir cierta información de renderización en un decodificador de codificación de objetos de audio espacial. Alternativamente o de forma adicional, la información de renderización, es decir, la información sobre la posición en la que debe colocarse un objeto de audio en la configuración de reproducción normalmente con el paso del tiempo puede transmitirse como información lateral adicional o metadatos. Con el objetivo de obtener una determinada compresión de datos, una cantidad de objetos de audio se codifican por medio de un codificador de SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte por la mezcla descendente de los objetos de acuerdo con cierta información de mezcla descendente. De forma adicional, el codificador de SAOC calcula información lateral paramétrica que representa señales entre objetos tales como diferencias en el nivel de objetos (OLD), valores de coherencia de objetos, etc. Como ocurre en SAC (SAC = codificación de audio espacial), los datos paramétricos entre objetos se calculan para mosaicos de tiempo/frecuencia individuales, es decir, para una determinada trama de la señal de audio que comprende, por ejemplo, 1024 o 2048 muestras, 24, 32, o 64, etc., bandas de frecuencia se consideran de modo tal que, al final, existen datos paramétricos para cada trama y cada banda de frecuencia. Como ejemplo, cuando una pieza de audio tiene 20 tramas y cuando cada trama se subdivide en 32 bandas de frecuencia, entonces la cantidad de mosaicos de tiempo/frecuencia es de 640.

Hasta ahora no existe tecnología flexible que combine codificación de canales por un lado y codificación de objetos por otro lado de modo tal que se obtengan calidades de audio aceptables a bajas velocidades de transferencia de bits.

El documento WO 201212544 A1 da a conocer una solución integral para crear, codificar, transmitir, decodificar y reproducir bandas sonoras de audio espacial. El formato de codificación de la banda sonora proporcionado es compatible con formatos de codificación de sonido envolvente heredados, de manera que las bandas sonoras codificadas en el nuevo formato se pueden decodificar y reproducir en un equipo de reproducción heredado sin perder calidad en comparación con formatos heredados. Los objetos de audio se incluyen en una mezcla descendente base en el lado del codificador y la mezcla descendente así obtenida y los objetos de audio explícitamente codificados se transmiten a un lado de decodificador. En el lado de decodificador, los objetos se quitan de la mezcla descendente transmitida y se renderizan y combinan de manera independiente con la mezcla descendente residual correspondiente a la mezcla descendente base.

El documento US 2010324915 A1 da a conocer un aparato de codificación para un códec de audio multicanal de alta calidad (HQMAC) y un aparato de decodificación para el HQMAC. Los aparatos de codificación/decodificación para el HQMAC pueden realizar una codificación de códec de audio multicanal de alta calidad basado en canal (HQMAC-CB) o una decodificación de HQMAC-CB según características de señales de audio introducidas para proporcionar compatibilidad con un canal inferior.

Es un objetivo de la presente invención proporcionar un concepto mejorado para codificación de audio.

Este objetivo se logra por un decodificador de audio según la reivindicación 1, un método de codificación de audio según la reivindicación 8 o un programa informático según la reivindicación 9.

La presente invención se basa en el hallazgo de que, que un sistema óptimo sea flexible por un lado y proporcione una buena eficiencia de compresión con una buena calidad de audio por otro lado se logra por la combinación de la codificación de audio espacial, es decir, codificación de audio basada en canales con codificación de un objeto de audio espacial, es decir, codificación basada en objetos. En particular, proporcionar un mezclador para mezclar los objetos y los canales que ya se encuentran en el lado del codificador proporciona una buena flexibilidad, en particular para aplicaciones de baja velocidad de transferencia de bits, dado que cualquier transmisión de objetos puede ser entonces innecesaria o la cantidad de objetos que deben transmitirse puede reducirse. Por otro lado, se requiere flexibilidad de modo tal que el codificador de audio pueda controlarse de dos maneras diferentes, es decir, en el modo en el cual los objetos se mezclan con los canales antes de codificarse al núcleo, mientras que en el otro modo los datos de objetos por un lado y los datos de canal por otro lado se codifican directamente al núcleo sin ningún mezclado entre ellos.

Esto asegura que el usuario puede o bien separar los objetos procesados y canales en el lado del codificador de modo tal que se encuentra disponible una flexibilidad completa en el lado del decodificador pero al precio de una transferencia de bits potenciada. Por otro lado, cuando los requisitos de transferencia de bits son más rigurosos, entonces la presente invención ya permite realizar un mezclado prerrenderización en el lado del codificador, es decir, que algunos o todos los objetos de audio ya se encuentran mezclados con los canales de modo tal que el codificador central únicamente codifica datos del canal y no se requiere ningún bit requerido para transmitir datos de objeto de audio, ya sea de forma de una mezcla descendente o en la forma de datos entre objetos paramétricos.

En el lado del decodificador, el usuario tiene nuevamente alta flexibilidad debido al hecho de que el mismo decodificador de audio permite el funcionamiento en dos modos diferentes, es decir, el primer modo donde la codificación de objetos y canales individuales o independientes tiene lugar y el decodificador tiene la flexibilidad completa para procesar los objetos y mezclar con los datos de canal. Por otro lado, cuando un mezclado/prerrenderización ya se ha desarrollado en el lado del codificador, el decodificador se configura para realizar un posprocesamiento sin procesamiento de ningún objeto intermedio. Por otro lado, el posprocesamiento también puede aplicarse a los datos en el otro modo, es decir, cuando la renderización/mezclado de objetos tiene lugar en el lado del decodificador. De este modo, la presente invención permite un marco de tareas de procesamiento que permite una gran reutilización de recursos no solamente en el lado del codificador sino también en el lado del decodificador. El posprocesamiento puede referirse a la mezcla descendente y binarización o cualquier otro procesamiento para obtener un escenario de canal final tal como una disposición de reproducción pretendida.

De forma adicional, en el caso de requisitos de muy baja velocidad de transferencia de bits, la presente invención proporciona al usuario una flexibilidad suficiente para reaccionar a los requisitos de baja velocidad de transferencia de bits, es decir, por prerrenderización en el lado del codificador de modo tal que, por el precio de cierta flexibilidad, no obstante se obtiene muy buena calidad de audio en el lado del decodificador se obtiene debido al hecho de que los bits que se han ahorrado al no proporcionar ya ningún dato de objetos del codificador al decodificador pueden usarse para codificar mejor los datos de canal tal como por cuantificación más fina de los datos de canal o por otros medios para mejorar la calidad o para reducir la pérdida de codificación cuando se encuentran disponibles bits suficientes.

En una realización preferida de la presente invención, el codificador comprende de forma adicional un codificador de SAOC y de forma adicional permite no solamente codificar la entrada de objetos en el codificador sino también codificar por SAOC datos del canal con el objetivo de obtener una buena calidad de audio incluso a velocidades de transferencia de bits menores. Realizaciones adicionales de la presente invención permiten una funcionalidad de posprocesamiento que comprende un renderizador binaural y/o un conversor de formato. De forma adicional, se prefiere que el procesamiento completo en el lado del decodificador ya tenga lugar para una determinada cantidad elevada de altavoces, tal como una configuración de altavoz de 22 o 32 canales. Sin embargo, después el conversor de formato, por ejemplo, determina que únicamente se requiere una salida de 5.1, es decir, una salida para una disposición de reproducción que tenga una cantidad menor que la cantidad máxima de canales, entonces se prefiere que el conversor de formato controle tanto el decodificador USAC como el decodificador de SAOC o ambos dispositivos para restringir la operación de decodificación central y la operación de decodificación SAOC de modo tal que no se genere en la decodificación cualquier canal que, al final, no obstante se mezcle de manera descendente en una conversión de formato. Normalmente, la generación de canales sometidos a mezcla ascendente requiere procesamiento de decorrelación y cada procesamiento de decorrelación introduce cierto nivel de artefactos. Por lo tanto, al controlar el decodificador central y/o el decodificador de SAOC por el formato de salida finalmente requerido, una gran cantidad de procesamiento de decorrelación adicional se ahorra cuando se compara con una situación cuando esta interacción no existe, lo cual no solamente da como resultado una calidad de audio mejorada sino también da como resultado una complejidad reducida del decodificador y, al final, en un consumo de energía reducido, lo cual es particularmente útil para dispositivos móviles que abarcan el codificador de la invención o el decodificador de la invención. Los codificadores de la invención o los decodificadores correspondientes, sin embargo, no solamente pueden introducirse en dispositivos móviles tales como teléfonos móviles, teléfonos inteligentes, ordenadores portátiles o dispositivos de navegación, sino que también pueden usarse en ordenadores de mesa sencillos u otros aparatos no móviles.

La implementación anterior, es decir, no generar algunos canales, puede no ser óptima, dado que puede perderse cierta información (tal como la diferencia de nivel entre los canales que se someterán a mezcla descendente). Esta información de diferencia de nivel puede no ser crítica, pero puede dar como resultado una señal de salida de mezcla descendente diferente, si la mezcla descendente aplica diferentes ganancias de mezcla descendente a los canales sometidos a mezcla ascendente. Una solución mejorada únicamente apaga la eliminación de correlación en la mezcla ascendente, pero aún genera todos los canales de mezcla ascendente con diferencias correctas de nivel (como indica el SAC paramétrico). La segunda solución da como resultado una mejor calidad de audio, pero la primera solución da como resultado mayor reducción de la complejidad.

Las realizaciones preferidas se comentan a continuación con respecto a los dibujos que se adjuntan, en los que: La figura 1 ilustra una primera realización de un codificador;

la figura 2 ilustra un primer ejemplo de un decodificador que no forma parte de la invención;

la figura 3 ilustra una segunda realización de un codificador;

la figura 4 ilustra un segundo ejemplo de un decodificador que no forma parte de la invención;

la figura 5 ilustra una tercera realización de un codificador;

la figura 6 ilustra un tercer ejemplo de un decodificador que no forma parte de la invención;

la figura 7 ilustra un mapa que indica modos individuales en los que los codificadores de acuerdo con las realizaciones de la presente invención o decodificadores de ejemplo pueden operarse;

la figura 8 ilustra una implementación específica del conversor de formato;

la figura 9 ilustra una implementación específica del conversor binaural;

la figura 10 ilustra una implementación específica del decodificador central que no forma parte de la invención; y la figura 11 ilustra una implementación específica de un codificador para procesar un elemento de canal cuádruple (QCE) y el correspondiente decodificador QCE que no forma parte de la invención.

Los ejemplos relacionados con el decodificador no forman parte de la invención pero son útiles para su comprensión.

Las realizaciones relacionadas con el codificador forman parte de la invención.

La figura 1 ilustra un codificador de acuerdo con una realización de la presente invención. El codificador se configura para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El codificador comprende una interfaz de entrada para recibir una pluralidad de canales de audio indicados por CH y una pluralidad de objetos de audio indicados por OBJ. De forma adicional, como se ilustra en la figura 1, la interfaz de entrada 100 de forma adicional recibe metadatos relacionados con uno o más de la pluralidad de objetos de audio OBJ. De forma adicional, el codificador comprende un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales mezclados previamente, en el que cada canal mezclado previamente comprende datos de audio de un canal y datos de audio de por lo menos un objeto. De forma adicional, el codificador comprende un codificador central 300 para codificar de forma central datos de entrada del codificador central, un compresor de metadatos 400 para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio. De forma adicional, el codificador puede comprender un controlador de modos 600 para controlar el mezclador, el codificador central y/o una interfaz de salida 500 en uno de muchos modos de operación, en el que en el primer modo, el codificador central se configura para codificar la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada 100 sin ninguna interacción por el mezclador, es decir, sin ningún mezclado hecho por el mezclador 200. En un segundo modo, sin embargo, en el cual el mezclador 200 estaba activo, el codificador central codifica la pluralidad de canales mezclados, es decir, la salida generada por el bloque 200. En este último caso, se prefiere no codificar ya ningún dato de objetos. En su lugar, los metadatos que indican posiciones de los objetos de audio ya se usan por el mezclador 200 para renderizar los objetos sobre los canales como se indica por los metadatos. En otras palabras, el mezclador 200 usa los metadatos relacionados con la pluralidad de objetos de audio para prerrenderizar los objetos de audio y luego los objetos de audio prerrenderizados se mezclan con los canales para obtener canales mezclados en la salida del mezclador. En esta realización, cualquier objeto puede no transmitirse necesariamente y esto también se aplica a metadatos comprimidos como salida por el bloque 400. Sin embargo, si no todos los objetos introducidos en la interfaz 100 se mezclan sino que únicamente se mezcla una cierta cantidad de objetos, entonces únicamente los objetos no mezclados restantes y los metadatos asociados se transmiten no obstante al codificador central 300 o el compresor de metadatos 400, respectivamente.

La figura 3 ilustra una realización adicional de un codificador que, de forma adicional, comprende un codificador de SAOC 800. El codificador de SAOC 800 se configura para generar uno o más canales de transporte y datos paramétricos a partir de los datos de entrada del codificador de objetos de audio espacial. Como se ilustra en la figura 3, los datos de entrada del codificador de objeto de audio espacial son objetos que no han sido procesados por el prerrenderizador/mezclador. Alternativamente, siempre que el prerrenderizador/mezclador se haya traspasado como en el modo uno donde una codificación de objeto/canal individual está activa, todas las entradas de objetos en la interfaz de entrada 100 se codifican por medio del codificador de SAOC 800.

De forma adicional, como se ilustra en la figura 3, el codificador central 300 se implementa preferiblemente como un codificador USAC, es decir, como un codificador como se define y se estandariza en el estándar MPEG-USAC (USAC = codificación de voz y audio unificada). La salida del codificador completo que se ilustra en la figura 3 es un flujo de datos MPEG 4 que tiene estructuras similares a un contenedor para tipos de datos individuales. De forma adicional, los metadatos se indican como datos “OAM” y el compresor de metadatos 400 en la figura 1 corresponde al codificador OAM 400 para obtener datos OAM comprimidos que se introducen en el codificador USAC 300 que, como puede observarse en la figura 3, de forma adicional comprende la interfaz de salida para obtener el flujo de datos de salida de MP4 que no solamente tiene datos de objeto/canal codificados sino que también tiene los datos OAM comprimidos.

La figura 5 ilustra una realización adicional del codificador, donde en contraste con la figura 3, el codificador de SAOC puede configurarse de forma indistinta para codificar, con el algoritmo de codificación SAOC, los canales provistos en el prerrenderización/mezclador 200 que no está activo en este modo o, alternativamente, para codificar por SAOC los canales prerrenderizados más objetos. De este modo, en la figura 5, el codificador de SAOC 800 puede funcionar en tres clases diferentes de datos de entrada, es decir, canales sin ningún objeto prerrenderizado, canales y objetos prerrenderizados o únicamente objetos. De forma adicional, se prefiere proporcionar un decodificador OAM adicional 420 en la figura 5 de modo tal que el codificador de SAOC 800 use, para su procesamiento, los mismos datos que se encuentran en el lado del decodificador, es decir, datos obtenidos por una compresión de pérdida en lugar de los datos OAM originales.

El codificador de la figura 5 puede funcionar en varios modos individuales.

Además de los modos primero y segundo, como se comenta en el contexto de la figura 1, el codificador de la figura 5 puede funcionar de forma adicional en un tercer modo en el cual el codificador central genera el uno o más canales de transporte a partir de los objetos individuales cuando el prerrenderizador/mezclador 200 no estaba activo. Alternativamente o de forma adicional, en este tercer modo, el codificador de SAOC 800 puede generar uno o más canales de transporte alternativos o adicionales de los canales originales, es decir, nuevamente cuando el prerrenderizador/mezclador 200 correspondiente al mezclador 200 de la figura 1 no estaba activo.

Finalmente, el codificador de SAOC 800 puede codificar, cuando el codificador se configura en el cuarto modo, los canales más objetos prerrenderizados según se generan por el prerrenderizador/ mezclador. De este modo, en el cuarto modo las aplicaciones con menor velocidad de transferencia de bits proporcionarán buena calidad debido al hecho de que los canales y objetos se han transformado completamente en canales de transporte SAOC individuales y la información lateral asociada según se indica en las figuras 3 y 5 como “SAOC-SI” y, de forma adicional, cualquier metadato no comprimido no tiene que transmitirse en este cuarto modo.

La figura 2 ilustra un decodificador a modo de ejemplo. El decodificador recibe, como entrada, los datos de audio codificados, es decir, los datos 501 de la figura 1.

El decodificador comprende un descompresor de metadatos 1400, un decodificador central 1300, un procesador de objetos 1200, un controlador de modos 1600 y un posprocesador 1700.

Específicamente, el decodificador de audio se configura para decodificar datos de audio codificados y la interfaz de entrada se configura para recibir los datos de audio codificados, comprendiendo los datos de audio codificados una pluralidad de canales codificados y la pluralidad de objetos codificados y metadatos comprimidos relacionados con la pluralidad de objetos en un determinado modo.

De forma adicional, el decodificador central 1300 se configura para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados y, de forma adicional, el descompresor de metadatos se configura para descomprimir los metadatos comprimidos.

De forma adicional, el procesador de objetos 1200 se configura para procesar la pluralidad de objetos decodificados según se generan por el decodificador central 1300 con el uso de metadatos descomprimidos para obtener una cantidad predeterminada de canales de salida que comprenden datos de objeto y los canales decodificados. Estos canales de salida tal como se indica en 1205 se introducen después en un posprocesador 1700. El posprocesador 1700 se configura para convertir la cantidad de canales de salida 1205 en un determinado formato de salida que puede ser un formato de salida binaural o un formato de salida por altavoz, tal como un formato de salida 5.1,7.1, etc.

Preferiblemente, el decodificador comprende un controlador de modos 1600 que se configura para analizar los datos codificados para detectar una indicación de modo. Por lo tanto, el controlador de modo 1600 se conecta a la interfaz de entrada 1100 en la figura 2. Sin embargo, alternativamente, el controlador de modo no tiene que estar allí necesariamente. En su lugar, el decodificador flexible puede preconfigurarse por cualquier otra clase de datos de control tales como una entrada del usuario o cualquier otro control. El decodificador de audio en la figura 2, preferiblemente controlado por el controlador de modo 1600, se configura tanto para traspasar el procesador de objetos como para alimentar la pluralidad de canales decodificados en el posprocesador 1700. Este es el funcionamiento en el modo 2, es decir, en el cual se reciben únicamente los canales prerrenderizados, es decir, cuando se ha aplicado el modo 2 en el codificador de la figura 1. Alternativamente, cuando se ha aplicado el modo 1 en el codificador, es decir, cuando el codificador ha realizado codificación individual de canal/objeto, el procesador de objetos 1200 no se desvía, pero la pluralidad de canales decodificados y la pluralidad de objetos decodificados se alimentan al procesador de objetos 1200 junto con metadatos descomprimidos generados por el descompresor de metadatos 1400.

Preferiblemente, la indicación de si debe aplicarse el modo 1 o el modo 2 se incluye los datos de audio codificados y luego el controlador de modo 1600 analiza los datos codificados para detectar una indicación de modo. Se usa el modo 1 cuando la indicación del modo indica que los datos de audio codificados comprenden canales codificados y objetos codificados y el modo 2 se aplica cuando la indicación del modo indica que los datos de audio codificados no contienen ningún objeto de audio, es decir, únicamente contienen canales prerrenderizados obtenidos por el modo 2 del codificador de la figura 1.

La figura 4 ilustra otra realización preferida comparada con el decodificador de la figura 2 y el ejemplo de la figura 4 corresponde al codificador de la figura 3. Además de la implementación del decodificador de la figura 2, el decodificador en la figura 4 comprende un decodificador de SAOC 1800. De forma adicional, el procesador de objetos 1200 de la figura 2 se implementa como un renderizador de objetos 1210 independiente y el mezclador 1220 mientras que, dependiendo del modo, la funcionalidad del renderizador de objetos 1210 también se puede implementar por el decodificador de SAOC 1800.

De forma adicional, el posprocesador 1700 puede implementarse como un renderizador binaural 1710 o un conversor de formato 1720. Alternativamente, una salida directa de datos 1205 de la figura 2 también puede implementarse como se ilustra por 1730. Por lo tanto, se prefiere realizar el procesamiento en el decodificador sobre la cantidad más elevada de canales tales como 22.2 o 32 con el objetivo de tener flexibilidad y luego posprocesar si se requiere un formato más pequeño. Sin embargo, cuando queda claro desde el mismísimo comienzo que únicamente se requiere un formato pequeño tales como un formato 5.1, entonces se prefiere, como se indica por la figura 2 o 6 por el acceso directo 1727, que un determinado control sobre el decodificador de SAOC y/o el decodificador USAC puede aplicarse con el fin de evitar operaciones innecesarias de mezcla ascendente y las posteriores operaciones de mezcla descendente.

En un ejemplo, el procesador de objetos 1200 comprende el decodificador de SAOC 1800 y el decodificador de SAOC se configura para decodificar uno o más canales de transporte emitidos por el decodificador central y datos paramétricos asociados y usar metadatos descomprimidos para obtener la pluralidad de objetos de audio renderizados. Hasta este punto, la salida de OAM se conecta al casillero 1800.

De forma adicional, el procesador de objetos 1200 se configura para renderizar objetos decodificados emitidos por el decodificador central que no se codifican en los canales de transporte de SAOC pero que se codifican individualmente en normalmente elementos en canales individuales como se indica por el renderizador de objetos 1210. De forma adicional, el decodificador comprende una interfaz de salida que corresponde a la salida 1730 para emitir una salida del mezclador a los altavoces.

En un ejemplo adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espacial 1800 para decodificar uno o más canales de transporte e información lateral paramétrica asociada que representa objetos de audio codificados o canales de audio codificados, en el que el decodificador de codificación de objetos de audio espacial se configura para transcodificar la información paramétrica asociada y los metadatos descomprimidos en información lateral paramétrica transcodificada susceptible de usarse para la renderización directa del formato de salida, como se define por ejemplo en una versión anterior de SAOC. El posprocesador 1700 se configura para calcular canales de audio del formato de salida usando los canales de transporte decodificados y la información lateral paramétrica transcodificada. El procesamiento realizado por el posprocesador puede ser similar al procesamiento envolvente MPEG o puede ser cualquier otro procesamiento tal como procesamiento BCC o similares.

En un ejemplo adicional, el procesador de objetos 1200 comprende un decodificador de codificación de objetos de audio espacial 1800 configurado para mezclar de forma ascendente directamente y renderizar señales de canales para el formato de salida usando los canales de transporte decodificados (por el decodificador central) y la información lateral paramétrica.

De forma adicional, e importante, el procesador de objetos 1200 de la figura 2 de forma adicional comprende el mezclador 1220 que recibe, como entrada, datos generados por el decodificador USAC 1300 directamente cuando existen objetos prerrenderizados mezclados con canales, es decir, cuando el mezclador 200 de la figura 1 estaba activo. De forma adicional, el mezclador 1220 recibe datos del renderizador de objetos que realiza renderización de objetos sin decodificación SAOC. De forma adicional, el mezclador recibe datos de salida del decodificador SAOC, es decir, objetos renderizados por SAOC.

El mezclador 1220 se conecta a la interfaz de salida 1730, el renderizador binaural 1710 y el conversor de formato 1720. El renderizador binaural 1710 se configura para renderizar los canales de salida en dos canales binaurales usando funciones de transferencia relacionadas con el cabezal o respuestas a los impulsos de sala binaural (BRIR). El conversor de formato 1720 se configura para convertir los canales de salida en un formato de salida que tiene una cantidad menor de canales que los canales de salida 1205 del mezclador y el conversor de formato 1720 requiere información sobre la disposición de reproducción tal como altavoz 5.1 o similares.

El decodificador de la figura 6 es diferente del decodificador de la figura 4 porque decodificador de SAOC no solo puede generar objetos renderizados sino también canales renderizados y este es el caso cuando el codificador de la figura 5 se ha usado y la conexión 900 entre los canales/objetos prerrenderizados y la interfaz de entrada del codificador de SAOC 800 está activa.

De forma adicional, se configura una etapa de paneo de amplitud de base del vector (VPAP) 1810 que recibe, del decodificador de SAOC, la información sobre la disposición de reproducción y que emite una matriz de renderización al decodificador de SAOC de modo tal que el decodificador de SAOC puede, al final, proporcionar canales renderizados sin ninguna operación adicional del mezclador en el formato del canal alto de 1205, es decir, 32 altavoces.

El bloque VBAP preferiblemente recibe los datos OAM decodificados para derivar las matrices de renderización. Más en general, preferiblemente requiere información geométrica no solo de la disposición de reproducción sino también de las posiciones donde las señales de entrada deben renderizarse en la disposición de reproducción. Estos datos de entrada geométricos pueden ser datos OAM para información de la posición del canal u objetos para canales que se han transmitido usando SAOC.

Sin embargo, si solo se requiere una interfaz de salida específica, entonces el estado de VBAP 1810 ya puede proporcionar la matriz de renderización requerida para la salida, por ejemplo, 5.1. El decodificador de SAOC 1800 realiza entonces una renderización directa de los canales de transporte de SAOC, los datos paramétricos asociados y metadatos descomprimidos, una renderización directa en el formato de salida requerido sin ninguna interacción del mezclador 1220. Sin embargo, cuando se aplica una determinada mezcla entre modos, es decir, donde varios canales se codifican con SAOC pero no todos los canales se codifican con SAOC o donde varios objetos se codifican con SAOC pero no todos los objetos se codifican con SAOC o cuando solo una cierta cantidad de objetos prerrenderizados con canales están decodificados por SAOC y los canales restantes no se procesan con SAOC luego el mezclador unificará los datos de las porciones de entrada individuales, es decir, directamente del decodificador central 1300, del renderizador de objetos 1210 y del decodificador de SAOC 1800.

Posteriormente, se comenta la figura 7 para indicar ciertos modos de codificador/decodificador que pueden aplicarse por el concepto de codificador de audio altamente flexible y de alta calidad de la invención o el concepto altamente flexible y de alta calidad para los decodificadores de la invención.

De acuerdo con el primer modo de codificación, el mezclador 200 en el codificador de la figura 1 se traspasa y, por lo tanto, el procesador de objetos en el decodificador de la figura 2 no se traspasa.

En el segundo modo, el mezclador 200 en la figura 1 es activo y el procesador de objetos en la figura 2 se traspasa.

Entonces, en el tercer modo de codificación, el codificador de SAOC de la figura 3 es activo pero únicamente SAOC codifica los objetos en lugar de canales o canales como salida por el mezclador. Por lo tanto, el modo 3 requiere que, en el lado del decodificador ilustrado en la figura 4, el decodificador de SAOC esté únicamente activo para los objetos y genere objetos renderizados.

En un cuarto modo de codificación como se ilustra en la figura 5, el codificador de SAOC se configura para codificación SAOC de canales prerrenderizados, es decir, el mezclador es activo como en el segundo modo. En el lado del decodificador, la decodificación SAOC se realiza para objetos prerrenderizados de modo tal que el procesador de objetos se traspasa como en el segundo modo de codificación.

De forma adicional, existe un quinto modo de codificación que puede mezclarse por cualquiera de los modos 1 a 4. En particular, un modo de codificación por mezclado existirá cuando el mezclador 1220 en la figura 6 reciba canales directamente del decodificador USAC y, de forma adicional, reciba canales con objetos prerrenderizados del decodificador USAC. De forma adicional, en este modo de codificación por mezclado, se codifican objetos usando directamente, de manera preferible, un elemento de canal simple del decodificador USAC. En este contexto, el renderizador de objetos 1210 renderizará entonces estos objetos decodificados y los enviará al mezclador 1220. De forma adicional, varios objetos se codifican de forma adicional por un codificador de SAOC de modo tal que el decodificador de SAOC generará objetos renderizados al mezclador y/o canales renderizados cuando existan varios canales codificados por tecnología SAOC.

Cada porción de entrada del mezclador 1220 puede entonces, de forma ejemplar, tener por lo menos un potencial para recibir la cantidad de canales tales como 32 como se indica en 1205. De este modo, básicamente, el mezclador podría recibir 32 canales del decodificador USAC y, de forma adicional, 32 canales mixtos/prerrenderizados del decodificador USAC y, de forma adicional, 32 “canales” del renderizador de objetos y, de forma adicional, 32 “canales” del decodificador de SAOC, donde cada “canal” entre los bloques 1210 y 1218 por un lado y el bloque 1220 por otro lado tiene una contribución de los correspondientes objetos en un correspondiente canal de altavoz y luego el mezclador 1220 mezcla, es decir, agrega contribuciones individuales para cada canal de altavoz.

En una realización preferida de la presente invención, el sistema de codificación/decodificación se basa en un códec USAC de MPEG-D para codificar el canal y las señales de objeto. Para aumentar la eficiencia para codificar una gran cantidad de objetos, se ha adaptado la tecnología SAOC de MPEG. Tres tipos de renderizadores realizan la tarea de renderizar objetos a los canales, renderizar canales a auriculares o renderizar canales a diferentes configuraciones de altavoz. Cuando las señales de objeto se transmiten explícitamente o se codifican paramétricamente usando SAOC, la correspondiente información de metadatos de objetos se comprime y se multiplexa en los datos de salida codificados.

En una realización, el mezclador/prerrenderizador 200 se usa para convertir una escena de entrada de objeto más canal en una escena de canal antes de la codificación. Funcionalmente, esto es idéntico a la combinación del mezclador/procesador de objetos en el lado del decodificador como se ilustra en la figura 4 o la figura 6 y como se indica por el procesador de objetos 1200 de la figura 2. La prerrenderización de objetos asegura una entropía de señal determinante en la entrada del codificador que es básicamente independiente de la cantidad de las señales de objeto simultáneamente activas. Con la prerrenderización de objetos, no se requiere transmisión de metadatos de objetos. Las señales de objeto individuales se renderizan a la disposición del canal que el codificador está configurado para usar. El peso de los objetos para cada canal se obtiene de los metadatos OAM de objetos asociados como se indica por la flecha 402.

Como codificador/decodificador/núcleo para señales de canal de altavoz, señales de objeto individuales, señales de mezcla descendente del objeto y señales prerrenderizados, se prefiere una tecnología USAC. Gestiona la codificación de la gran cantidad de señales al crear información de mapeo de canal y objeto (la información semántica y geométrica de la asignación de objeto y canal de entrada). Esta información de mapeo describe cómo los objetos y canales de entrada se mapean a los elementos del canal USAC como se ilustra en la figura 10, es decir, elementos del par de canales (CPE), elementos de canal simple (SCE), elementos de canal cuádruple (QCE) y la correspondiente información se transmite al decodificador central del codificador central. Todas las cargas adicionales como datos SAOC o metadatos de objetos se han pasado a través de los elementos de extensión y se han considerado en el control de tasa del codificador.

La codificación de objetos es posible en modos diferentes, dependiendo de los requisitos de velocidad de transmisión/distorsión y los requisitos de interactividad para el renderizador. Son posibles las siguientes variantes de codificación de objetos:

• Objetos prerrenderizados: Las señales de objeto se renderizan previamente y se mezclan con las señales del canal 22.2 antes de la codificación. La posterior cadena de codificación ve señales del canal 22.2.

• Formas de onda de objetos individuales: Los objetos se suministran como formas de onda monofónicas al codificador. El codificador usa elementos de canal simple SCE para transmitir los objetos además de las señales del canal. Los objetos decodificados se renderizan y se mezclan en el lado del receptor. La información de metadatos comprimidos de objetos se transmite al receptor/renderizador en todo su recorrido.

• Formas de onda de objeto paramétricos: Las propiedades de los objetos y su relación entre sí se describen por medio de los parámetros de SAOC. La mezcla descendente de las señales de objeto se codifica con USAC. La información paramétrica se transmite en toda su longitud. La cantidad de canales para mezcla descendente se elige dependiendo de la cantidad de objetos y la velocidad de datos en general. La información de metadatos comprimidos de objetos se transmite al renderizador de SAOC.

El codificador y decodificador de SAOC para las señales de objeto se basan en tecnología SAOC MPEG. El sistema es capaz de recrear, modificar y renderizar una cantidad de objetos de audio basándonos en una menor cantidad de canales transmitidos y datos paramétricos adicionales (OLD, IOC (Coherencia Entre Objetos), DMGs (Ganancias de mezcla descendente)). Los datos paramétricos adicionales exhiben una velocidad de datos significativamente menor que la requerida para transmitir todos los objetos de forma individual, haciendo que la codificación sea muy eficiente.

El codificador de SAOC toma como entrada las señales de objeto/canal como formas de onda monofónicas y emite la información paramétrica (que se empaqueta en el flujo de transferencia de bits de Audio 3D) y los canales de transporte de SAOC (que se codifican con el uso de elementos de canal simple y transmitido).

El decodificador de SAOC reconstruye las señales de objeto/canal de los canales de transporte de SAOC decodificados y la información paramétrica, y genera la escena de audio de salida basándonos en la disposición de reproducción, la información de los metadatos descomprimidos de objetos y de forma opcional a la interacción con la información del usuario.

Para cada objeto, los metadatos asociados que especifican la posición geométrica y volumen del objeto en espacio 3D se codifican de forma eficiente por cuantificación de las propiedades del objeto en tiempo y espacio. Los metadatos comprimidos de objetos cOAM se transmiten al receptor como información lateral. El volumen del objeto puede comprender información sobre un grado espacial y/o información del nivel de señal de la señal de audio de este objeto de audio.

El renderizador de objetos utiliza los metadatos comprimidos de objetos para generar formas de onda de objeto de acuerdo con el formato de reproducción dado. Cada objeto se renderiza a ciertos canales de salida de acuerdo con sus metadatos. La emisión de este bloque es el resultado de la suma de los resultados parciales.

Si ambos contenidos basados en canal así como también objetos individuales/paramétricos se descodifican, las formas de onda basadas en canal y las formas de onda del objeto renderizado se mezclan antes de emitir las formas de onda resultantes (o antes de introducirlos en un módulo posprocesador como el renderizador binaural o el módulo renderizador del altavoz).

El módulo del renderizador binaural produce una mezcla descendente binaural del material de audio multicanal, de tal manera que cada canal de entrada está representado por una fuente de sonido virtual. El procesamiento se lleva a cabo en forma de tramas en el dominio de QMF (banco de filtros espejo en cuadratura).

La binarización se basa en repuestas medidas a los impulsos de sala binaural.

La figura 8 ilustra un ejemplo del conversor de formato 1720. El renderizador del altavoz o conversor de formato convierte entre la configuración del canal transmisor y el formato de reproducción deseado. Este conversor de formato realiza conversiones hasta una cantidad menor de canales de salida, es decir, crea mezcla descendentes. Hasta este punto, un dispositivo de mezcla descendente 1722 que preferiblemente opera en el dominio QMF recibe señales de salida del mezclador 1205 y emite señales del altavoz. Preferiblemente, se proporciona un controlador 1724 para configurar el dispositivo de mezcla descendente 1722 que recibe, como entrada de control, una disposición de salida del mezclador, es decir, la disposición para la que se determinan los datos 1205 y una disposición de reproducción deseada normalmente se introduce en el bloque de conversión de formato 1720 ilustrado en la figura 6. Basándonos en esta información, el controlador 1724 preferiblemente genera de forma automática matrices de mezcla descendente optimizadas para la combinación dada de formatos de entrada y salida y aplica estas matrices en el bloque del dispositivo de mezcla descendente 1722 en el proceso de mezcla descendente. El conversor de formato permite configuraciones de altavoz estándar así como configuraciones aleatorias con posiciones de altavoz no estándar.

Como se ilustra en el contexto de la figura 6, el decodificador de SAOC está diseñado para renderizar a la disposición del canal predefinido tal como 22.2 con una conversión posterior de formato a la disposición de reproducción buscada. Alternativamente, sin embargo, el decodificador de SAOC se implementa para soportar el modo de “baja energía” donde el decodificador de SAOC se configura para decodificar a la disposición de reproducción directamente sin la posterior conversión de formato. En esta implementación, el decodificador de SAOC 1800 directamente emite la señal del altavoz tal como las señales del altavoz 5.1 y el decodificador de SAOC 1800 requiere la información de la disposición de reproducción y la matriz de renderización de modo tal que el paneo de amplitud de base de vector o cualquier otra clase de procesador para generar información de mezcla descendente pueda operar.

La figura 9 ilustra un ejemplo adicional del renderizador binaural 1710 de la figura 6. Específicamente, para dispositivos móviles, la renderización binaural es necesaria para auriculares unidos a dichos dispositivos móviles o para altavoces directamente unidos a dispositivos móviles normalmente pequeños. Para dichos dispositivos móviles, pueden existir limitaciones para limitar la complejidad del decodificador y la renderización. Además de omitir la decorrelación en dichos escenarios de procesamiento, se prefiere en primera instancia mezclar de manera descendente usando dispositivo para mezcla descendente 1712 a una mezcla descendente intermedio, es decir, a una cantidad menor de canales de salida que luego da como resultado una menor cantidad de canal de entrada para el conversor binaural 1714. A modo de ejemplo, el material del canal 22.2 se mezcla de manera descendente por medio del dispositivo para mezcla descendente 1712 a una mezcla descendente intermedia 5.1 o, alternativamente, la mezcla descendente intermedia se calcula directamente por el decodificador de SAOC 1800 de la figura 6 en una clase de modo de “acceso directo”. Entonces, la renderización binaural únicamente tiene que aplicar diez funciones HRTF (Funciones de transferencia relacionadas con el cabezal) o BRIR para renderizar los cinco canales individuales en diferentes posiciones, en contraste con aplicar 44 HRTF para funciones BRIR si los canales de entrada 22.2 ya se han renderizado directamente. Específicamente, en las operaciones de convolución necesarias para la renderización binaural requieren una gran cantidad de potencia de procesamiento y, por lo tanto, la reducción de esta potencia de procesamiento mientras que aún se obtiene una calidad de audio aceptable es particularmente útil para dispositivos móviles.

De preferencia, el “acceso directo” como se ilustra por medio de la línea de control 1727 comprende controlar el decodificador 1300 para decodificar a una cantidad menor de canales, es decir, saltear el bloque de procesamiento completo OTT en el decodificador o un formato que se convierte a una cantidad menor de canales y, como se ilustra en la figura 9, una renderización binaural se realiza para la menor cantidad de canales. El mismo procesamiento puede aplicarse no solamente para procesamiento binaural sino también para una conversión de formato como se ilustra por medio de la línea 1727 en la figura 6.

En un ejemplo adicional, se requiere una generación de interfaz eficiente entre bloques de procesamiento. En particular en la figura 6, se representa la vía de la señal de audio entre el los diferentes bloques de procesamiento. El renderizador binaural 1710, el conversor de formato 1720, el decodificador de SAOC 1800 y el decodificador USAC 1300, en el caso que se aplique SBR (replicación de banda espectral), todos operan en un dominio QMF o QMF híbrido. De acuerdo con un ejemplo, todos estos bloques de procesamiento proporcionan una interfaz QMF o QMF híbrida para permitir el paso de señales de audio entre sí en el dominio QMF en un modo eficiente. De forma adicional, se prefiere implementar el módulo del mezclador y el módulo del renderizador de objetos para trabajar en el QMF o dominio QMF híbrido también. Como consecuencia, las etapas de síntesis y análisis de QMF independiente o QMF híbrido pueden evitarse lo cual da como resultado considerables ahorros de complejidad y luego se requiere únicamente una etapa de síntesis de QMF final para generar los altavoces indicados en 1730 o para generar los datos binaurales en la emisión del bloque 1710 o para generar la reproducción de señales del altavoz de disposición en la emisión del bloque 1720. Posteriormente, se hace referencia a la figura 11 con el fin de explicar los elementos de canal cuádruple (QCE). En contraste con un elemento de par de canales como se define en el estándar USAC-MPEG, un elemento de canal cuádruple requiere cuatro canales de entrada 90 y produce un elemento QCE codificado 91. En una realización, se proporcionan una jerarquía de dos cajas envolventes MPEG en modo 2-1-2 o dos cajas TTO (TTO = dos a uno) y herramientas de codificación de estéreo conjunta adicional (por ejemplo, MS-Stereo) como se define en MPEG USAC o envolvente MPEG y el elemento QCE no solamente comprende dos canales para mezcla descendente codificados en estéreo de forma conjunta y de forma opcional dos canales residuales codificados en estéreo de forma conjunta y, de forma adicional, datos paramétricos derivados de, por ejemplo, dos cajas TTO. En el lado del decodificador, se aplica una estructura donde la decodificación de estéreo conjunta de los dos canales de mezcla descendente y de forma opcional dos canales residuales se aplican y en una segunda etapa con dos cajas OTT la mezcla descendente y canales residuales opcionales se someten a mezcla ascendente a los cuatro canales de salida. Sin embargo, las operaciones de procesamiento alternativas para un codificador QCE pueden aplicarse en lugar de la operación jerárquica. De este modo, además de la codificación de canal conjunta de un grupo de dos canales, el codificador/decodificador central de forma adicional usa una codificación conjunta de canal de un grupo de cuatro canales.

De forma adicional, se prefiere realizar un procedimiento de llenado de ruido potenciado para permitir la codificación de banda completa no comprometida (18 kHz) a 1200 kbps.

El codificador se ha operado en un modo de ‘tasa constante con reserva de bits’, usando un máximo de 6144 bits por canal como memoria intermedia de tasa para los datos dinámicos.

Todas las cargas adicionales como datos SAOC o metadatos de objetos se han pasado a través de los elementos de extensión y se han considerado en el control de tasa del codificador.

Con el fin de aprovechar las funcionalidades de SAOC también por el contenido de audio 3D, se han implementado las siguientes extensiones para MPEG SAOC:

• Mezcla descendente a cantidad arbitraria de los canales de transporte de SAOC.

• Renderización potenciada para configuraciones de salida con alta cantidad de altavoces (hasta 22.2).

El módulo del renderizador binaural produce una mezcla descendente binaural del material de audio multicanal, de manera tal que cada canal de entrada (sin incluir los canales LFE) está representado por una fuente de sonido virtual. El procesamiento se lleva a cabo en forma de tramas en dominio QMF.

La binarización se basa en repuestas medidas a los impulsos de sala binaural. El sonido directo y los reflejos tempranos se imprimen en el material de audio por medio de un enfoque convolucional en un dominio pseudo FFT usando una rápida convolución por encima del dominio QMF. Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas de las etapas más importantes del método pueden ser ejecutadas por dicho aparato.

Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, un ROM, un PROM y EPROM, un EEPROM o una memoria flash, que tiene almacenadas en su interior señales de control legibles de forma electrónica, que cooperan (o son capaces de cooperar) con un sistema informático programable de manera tal que se realiza el método respectivo. Por lo tanto, el medio de almacenamiento digital puede leerse por ordenador.

Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles por medios electrónicos, que son capaces de cooperar con un sistema informático programable, de manera tal que se realiza uno de los métodos descritos en el presente documento.

En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto del programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un portador legible en la máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en un portador legible en la máquina.

En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.

Una realización adicional del método de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital o un medio que se lee por ordenador) que comprende, grabado allí, el programa informático para realizar uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio de registro normalmente son tangibles y/o no transitorios.

Una realización adicional del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden, por ejemplo, configurarse para transferirse por medio de una conexión de comunicación de datos, por ejemplo, a través de Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los métodos descritos en el presente documento.

Una realización adicional comprende un ordenador que tiene instalado el programa informático para realizar uno de los métodos descritos en el presente documento.

Una realización adicional de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónicamente u ópticamente) un programa informático para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.

En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de puertas lógicas programable en campo) puede usarse para realizar todas o algunas de las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas lógicas programable en campo puede cooperar con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se realizan preferiblemente por cualquier aparato de hardware.

Las realizaciones descritas con anterioridad son simplemente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán obvias para otros expertos en la técnica. La intención es, por lo tanto, limitarse únicamente por el alcance de las reivindicaciones de la patente inminentes y no por los detalles específicos representados a modo de descripción y explicación de las realizaciones del presente documento.

Claims

REIVINDICACIONES

Codificador de audio para codificar datos de entrada de audio (101) para obtener datos de salida de audio (501) que comprende:

una interfaz de entrada (100) configurada para recibir una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio;

un mezclador (200) configurado para mezclar la pluralidad de objetos de audio y la pluralidad de canales de audio para obtener una pluralidad de canales mezclados previamente, comprendiendo cada canal mezclado previamente datos de audio de un canal de audio y datos de audio de por lo menos un objeto de audio;

un codificador central (300) configurado para codificar de forma central datos de entrada del codificador central; y

un compresor de metadatos (400) configurado para comprimir los metadatos relacionados con uno o más de la pluralidad de objetos de audio para obtener metadatos comprimidos; y

en el que el codificador de audio se configura para operar en tanto un primer modo como un segundo modo de un grupo de por lo menos dos modos que comprende

el primer modo, en el cual el codificador central (300) se configura para codificar de manera individual la pluralidad de canales de audio y la pluralidad de objetos de audio recibidos por la interfaz de entrada (100) como los datos de entrada del codificador central sin ninguna interacción por parte del mezclador (200), y

el segundo modo, en el cual el codificador central (300) se configura para recibir, como los datos de entrada del codificador central, la pluralidad de canales mezclados previamente generados por el mezclador (200) y para codificar la pluralidad de canales previamente mezclados generados por el mezclador (200), y

una interfaz de salida (500) para proporcionar una señal de salida como los datos de salida de audio (501),

comprendiendo la señal de salida, cuando el codificador de audio opera en el primer modo, canales de audio codificados en el primer modo, canales de audio codificados y objetos de audio codificados como una salida del codificador central (300) y los metadatos comprimidos, y

comprendiendo la señal de salida, cuando el codificador de audio opera en el segundo modo, la salida del codificador central (300) sin ningún metadato relacionado con la una o más de la pluralidad de objetos de audio.

Codificador de audio según la reivindicación 1, que además comprende:

un codificador de objeto de audio espacial (800) para generar uno o más canales de transporte y datos paramétricos a partir de los datos de entrada del codificador de objetos de audio espacial,

en el que el codificador de audio se configura para operar de forma adicional en un tercer modo, en el cual el codificador central (300) codifica los uno o más canales de transporte derivados de los datos de entrada del codificador de objeto de audio espacial, comprendiendo los datos de entrada del codificador de objeto de audio espacial la pluralidad de objetos de audio o dos o más de la pluralidad de canales de audio.

Codificador de audio según la reivindicación 1 o la reivindicación 2, que además comprende:

un codificador de objeto de audio espacial (800) para generar uno o más canales de transporte y datos paramétricos a partir de los datos de entrada del codificador de objetos de audio espacial,

en el que el codificador de audio se configura para operar incluso en un modo adicional, en el cual el codificador central (300) codifica canales de transporte derivados del codificador de objeto de audio espacial (800) a partir de los canales mezclados previamente como los datos de entrada del codificador de objeto de audio espacial.

Codificador de audio según una cualquiera de las reivindicaciones anteriores, que además comprende un conector

para conectar una salida de la interfaz de entrada (100) a una entrada del codificador central (300) en el primer modo, y

para conectar la salida de la interfaz de entrada (100) a una entrada del mezclador (200) y para conectar una salida del mezclador (200) a la entrada del codificador central (300) en el segundo modo, y un controlador de modos (600) para controlar el conector de acuerdo con una indicación de modo recibida de una interfaz de usuario o extraída de los datos de entrada de audio (101).

Codificador de audio según la reivindicación 2, que además comprende:

en el que la interfaz de salida (500) se configura para proporcionar una señal de salida como los datos de salida de audio (501), comprendiendo la señal de salida, en el tercer modo, una salida del codificador central (300), información lateral SAOC y los metadatos comprimidos y que comprende, incluso un modo adicional, una salida del codificador central (300) e información lateral SAOC.

Codificador de audio según una cualquiera de las reivindicaciones anteriores,

en el que el mezclador (200) se configura para prerrenderizar la pluralidad de objetos de audio usando los metadatos y una indicación de la posición de cada canal de audio en una configuración de reproducción, con la cual se asocia la pluralidad de canales,

en el que el mezclador (200) se configura para mezclar un objeto de audio con por lo menos dos canales de audio, cuando el objeto de audio deberá colocarse entre por lo menos dos canales de audio en la configuración de reproducción, según lo determinan los metadatos.

Codificador de audio según una cualquiera de las reivindicaciones anteriores,

que además comprende un descompresor de metadatos (420) para descomprimir metadatos comprimidos emitidos por el compresor de metadatos (400), y

en el que el mezclador (200) se configura para mezclar la pluralidad de objetos de audio de acuerdo con metadatos comprimidos, en el que una operación de compresión realizada por el compresor de metadatos (400) es una operación de compresión con pérdida que comprende una etapa de cuantificación.

Método de codificación de datos de entrada de audio (101) para obtener datos de salida de audio (501) que comprende:

recibir (100) una pluralidad de canales de audio, una pluralidad de objetos de audio y metadatos relacionados con uno o más de la pluralidad de objetos de audio;

mezclar (200) la pluralidad de objetos de audio y la pluralidad de canales de audio para obtener una pluralidad de canales mezclados previamente, comprendiendo cada canal mezclado previamente datos de audio de un canal de audio y datos de audio de por lo menos un objeto de audio;

codificar de manera central (300) datos de entrada de codificación central;

comprimir (400) los metadatos relacionados con uno o más de la pluralidad de objetos de audio, en el que el método de codificación de datos de entrada de audio (101) opera tanto en un primer modo como en un segundo modo de un grupo de dos o más modos que comprende:

el primer modo, en el cual la codificación central (300) codifica de manera individual la pluralidad de canales de audio recibidos como los datos de entrada de codificación central y la pluralidad de objetos de audio recibidos como los datos de entrada de codificación central sin ninguna interacción por el mezclado (200), y

el segundo modo, en el cual la codificación central (300) recibe, como los datos de entrada de codificación central, la pluralidad de canales mezclados previamente generados por el mezclado (200) y codifica de manera central la pluralidad de canales mezclados previamente generados por el mezclado (200); y proporcionar una señal de salida como los datos de salida de audio (501),

comprendiendo la señal de salida, cuando el método de codificación de datos de entrada de audio (101) está en el primer modo, canales de audio codificados y objetos de audio codificados como una salida de la codificación central y los metadatos comprimidos, y

comprendiendo la señal de salida, cuando el método de codificación de datos de entrada de audio (101) está en el segundo modo, la salida de la codificación central sin ningún metadato relacionado con uno o más de la pluralidad de objetos de audio.

9. Programa informático que comprende instrucciones que, cuando se ejecuta el programa por un ordenador o un procesador, hace que el ordenador o el procesador lleven a cabo el método según la reivindicación 8.