ES2959236T3

ES2959236T3 - Aparato y método para codificación mejorada de objetos de audio espacial

Info

Publication number: ES2959236T3
Application number: ES14747862T
Authority: ES
Inventors: Jürgen Herre; Adrian Murtaza; Jouni Paulus; Sascha Disch; Harald Fuchs; Oliver Hellmuth; Falko Ridderbusch; Leon Terentiv
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2024-02-22
Anticipated expiration: 2034-07-17
Also published as: CN112839296A; PL3025335T3; EP3025335B1; CA2918869C; CN112839296B; KR101774796B1; BR112016001244B1; EP2830048A1; MX355589B; CA2918869A1; BR112016001244A2; TW201519216A; CN105593929A; CN105593930A; KR101852951B1; US20160142846A1; US11330386B2; TW201519217A; PL3025333T3; SG11201600396QA

Abstract

Se proporciona un aparato para generar uno o más canales de salida de audio. El aparato comprende un procesador de parámetros (110) para calcular información de mezcla y un procesador de mezcla descendente (120) para generar uno o más canales de salida de audio. El procesador de mezcla descendente (120) está configurado para recibir una señal de transporte de audio que comprende uno o más canales de transporte de audio. Una o más señales de canal de audio se mezclan dentro de la señal de transporte de audio, y una o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde el número de uno o más canales de transporte de audio es menor que el número de uno o más más señales de canal de audio más el número de una o más señales de objeto de audio. El procesador de parámetros (110) está configurado para recibir información de mezcla descendente que indica información sobre cómo se mezclan una o más señales de canal de audio y una o más señales de objeto de audio dentro de uno o más canales de transporte de audio, y en donde el procesador de parámetros (110) está configurado para recibir información de covarianza. Además, el procesador de parámetros (110) está configurado para calcular la información de mezcla dependiendo de la información de mezcla y dependiendo de la información de covarianza. El procesador de mezcla descendente (120) está configurado para generar uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezcla. La información de covarianza indica una información de diferencia de nivel para al menos una de una o más señales de canal de audio y además indica una información de diferencia de nivel para al menos una de una o más señales de objeto de audio. Sin embargo, la información de covarianza no indica información de correlación para ningún par de una de una o más señales de canal de audio y una de una o más señales de objeto de audio. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Aparato y método para codificación mejorada de objetos de audio espacial

La presente invención se refiere una codificación/ decodificación de audio, en particular, una codificación de audio espacial y codificación de un objeto de audio espacial, y, más particularmente, a un aparato y método para codificación mejorada de objetos de audio espacial.

Las herramientas de codificación de audio espacial se conocen muy bien en la técnica y están, por ejemplo, estandarizadas en el estándar envolvente MPEG. La codificación de audio espacial comienza con canales de entrada originales tales como cinco o siete canales que se identifican por su colocación en una configuración de reproducción, es decir, un canal izquierdo, un canal central, un canal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal de potencia de baja frecuencia. Un codificador de audio espacial típicamente deriva uno o más canales de mezcla descendente de los canales originales y, además, deriva datos paramétricos relacionados con señales espaciales tales como diferencias de nivel entre canales en los valores de coherencia de canal, diferencias de fase entre canales, diferencias de tiempo entre canales, etc. Se transmiten uno o más canales de mezcla descendente junto con la información lateral paramétrica indicando las señales espaciales a un decodificador de audio espacial que decodifica el canal de mezcla descendente y los datos paramétricos asociados para finalmente obtener canales de salida que son una versión aproximada de los canales de entrada originales. La colocación de los canales en la configuración de salida es normalmente fija y es, por ejemplo, un formato 5.1, un formato 7.1, etc.

Dichos formatos de audio basados en canales se utilizan ampliamente para almacenar o transmitir contenido de audio multi-canal donde cada canal se relaciona con un parlante específico en una posición dada. Una reproducción fiel de esta clase de formatos requiere una configuración de parlante donde los parlantes se colocan en las mismas posiciones que los parlantes que se usan durante la producción de señales de audio. Mientras el aumento de la cantidad de parlantes mejora la reproducción de escenas de audio 3D realmente multisensorial, se torna cada vez más difícil cumplir con este requerimiento - en especial en un entorno doméstico como una sala de estar.

La necesidad de tener una configuración específica de un parlante puede superarse por medio de un método basado en el objeto donde las señales del parlante se procesan específicamente para la configuración de reproducción.

Por ejemplo, las herramientas de codificación de un objeto de audio espacial se conocen muy bien en la técnica y se estandarizan en el estándar SAOC de MPEG (SAOC = codificación de un objeto de audio espacial). En contraste una codificación de audio espacial que se inicia en canales originales, la codificación de un objeto de audio espacial comienza con objetos de audio que no se dedican en forma automática para una determinada configuración de la reproducción de procesamiento. En su lugar, la colocación de los objetos de audio en la escena de reproducción es flexible y puede ser determinada por el usuario al ingresar cierta información de procesamiento en una codificación de un objeto de decodificador de audio espacial. Alternativamente o en forma adicional, la información de procesamiento, es decir, la información en cuya posición en la configuración de reproducción un determinado objeto de audio deberá colocarse normalmente con el paso del tiempo puede transmitirse como información lateral adicional o meta-datos. Con el objetivo de obtener una determinada compresión de datos, una cantidad de objetos de audio se codifican por medio de un codificador de SAOC que calcula, a partir de los objetos de entrada, uno o más canales de transporte por la realización de downmix de los objetos de acuerdo con cierta información del proceso de downmix. En forma adicional, el codificador de SAOC calcula información lateral paramétrica que representa señales entre objetos tales como diferencias en el nivel de objetos (OLD), valores de coherencia de objetos, etc. Como ocurre en s A<c>(SAC = Codificación de Audio Espacial), los datos paramétricos entre objetos se calculan para mosaicos de frecuencia/tiempo paramétrico, es decir, para un determinado cuadro de la señal de audio que comprende, por ejemplo, 1024 o 2048 muestras, 28, 20, 14 o 10, etc., se consideran las bandas de procesamiento de modo tal que, al final, existen datos paramétricos para cada cuadro y cada banda de procesamiento. Como ejemplo, cuando una pieza de audio tiene 20 cuadros y cuando cada cuadro se sub-divide en 28 bandas de procesamiento, entonces la cantidad de mosaicos de parámetro de tiempo/frecuencia es 560.

En un enfoque basado en objetos, el campo de sonido se describe por medio de objetos de audio individuales. Esto requiere meta-datos de objetos que describen entre otros la posición variante con el tiempo de cada fuente de sonido en espacio 3D.

Un primer concepto de codificación de meta-datos en la técnica previo es el formato de intercambio de descripción de sonido espacial (SpatDIF), un formato de descripción de la escena de audio que aún se encuentra en etapa de desarrollo [M1]. Está diseñado como un formato de intercambio para escenas de sonido basadas en objetos y no proporciona ningún método de compresión para trayectorias de objetos. SpatDSI usa el formato de Control de Sonido Abierto basado en texto (OSC) para estructurar los meta datos de objetos [M2]. Una representación simple basada en texto, sin embargo, no es una opción para la transmisión comprimida de trayectorias de objetos.

Otro concepto de meta datos en la técnica previo es el Formato de Descripción de la Escena de Audio (ASDF) [M3], una solución basada en texto que tiene la misma desventaja. Los datos están estructurados por una extensión del Lenguaje de Interacción Multimedia Sincronizada (SMIL) que es un sub conjunto del Lenguaje de Marcación Extensible (XML) [M4], [M5].

Un concepto de meta datos adicional en la técnica previo es el formato binario de audio para escenas (AudioBIFS), un formato binario que es parte de la especificación de MPEG-4 [M6], [M7]. Está estrechamente relacionado con el Lenguaje de Modelado de Realidad Virtual basado en XML (VRML) que se desarrolló para la descripción de escenas audio-visuales 3D y aplicaciones de realidad virtual interactiva [M8]. La especificación AudioBIFS compleja usa gráficos de escena para especificar vías de movimientos de objetos. Una desventaja principal de AudioBIFS es que no está diseñado para la operación en tiempo real donde una demora limitada del sistema y acceso aleatorio al torrente de datos son un requerimiento. En forma adicional, la codificación de las posiciones del objeto no explota el funcionamiento de localización limitada de los oyentes humanos. Para una posición de oyente fijo dentro de la escena audio-visual, los datos de objetos pueden cuantificarse con una cantidad mucho menor de bits [M9]. Por lo tanto, la codificación de los meta-datos de objetos que se aplica en AudioBIFS no es eficiente con respecto a la compresión de datos.

El documento US 2009/326958 A1 da a conocer un método y aparato de decodificación de audio y un método y aparato de codificación de audio que pueden procesar de manera eficiente señales de audio basadas en objetos. El método de decodificación de audio incluye recibir señales de audio primera y segunda, que están codificadas por objetos; generar información de energía del tercer objeto basándose en la información de energía del primer objeto incluida en la primera señal de audio y la información de energía del segundo objeto incluida en la segunda señal de audio; y generar una tercera señal de audio combinando la primera y segunda señales de objeto y la información de energía del tercer objeto.

El objetivo de la presente invención es proporcionar conceptos mejorados para la codificación de un objeto de audio espacial. El objetivo de la presente invención se resuelve por un aparato de acuerdo con la reivindicación 1, por un aparato de acuerdo con la reivindicación 12, por un sistema de acuerdo con la reivindicación 14, por un método de acuerdo con la reivindicación 15, por un método de acuerdo con la reivindicación 16 y por un programa informático de acuerdo con la reivindicación 17.

Un aparato para generar uno o más canales de salida de audio se proporciona. El aparato comprende un procesador de parámetros para calcular la información de mezclado y un procesador de downmix para generar el uno o más canales de salida de audio. El procesador de downmix se configura para recibir una señal de transporte de audio que comprende uno o más canales de transporte de audio. Una o más señales de canal de audio se mezclan dentro de la señal de transporte de audio, y uno o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde la cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio plus la cantidad del uno o más señales de objeto de audio. El procesador de parámetros se configura para recibir información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y el uno o más señales de objeto de audio se mezclan dentro del uno o más canales de transporte de audio, y en donde el procesador de parámetros se configura para recibir información de covarianza. Más aún, el procesador de parámetros se configura para calcular la información de mezclado dependiendo de la información de downmix y dependiendo de la información de covarianza. El procesador de downmix se configura para generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezclado. La información de covarianza indica una información de la diferencia de nivel para por lo menos una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para por lo menos uno del único o más señales de objeto de audio. Sin embargo, la información de covarianza no indica información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio.

Más aún, un aparato para generar una señal de transporte de audio que comprende uno o más canales de transporte de audio se proporciona. El aparato comprende un mezclador de objetos/canales para generar el uno o más canales de transporte de audio de la señal de transporte de audio, y una interfaz de salida. El mezclador de objetos/canales se configura para generar la señal de transporte de audio que comprende el uno o más canales de transporte de audio al mezclar una o más señales de canal de audio y uno o más señales de objeto de audio dentro de la señal de transporte de audio dependiendo de información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio tendrán que mezclarse dentro del uno o más canales de transporte de audio, en donde la cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio plus la cantidad de la única o más señales de objeto de audio. La interfaz de salida se configura para emitir la señal de transporte de audio, la información de downmix e información de covarianza. La información de covarianza indica una información de la diferencia de nivel para por lo menos una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para por lo menos uno del único o más señales de objeto de audio. Sin embargo, la información de covarianza no indica información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio.

En forma adicional, se proporciona un sistema. El sistema comprende un aparato para generar una señal de transporte de audio como se describió anteriormente y un aparato para generar uno o más canales de salida de audio como se describió anteriormente. El aparato para generar el uno o más canales de salida de audio se configura para recibir la señal de transporte de audio, información de downmix e información de covarianza desde el aparato para generar la señal de transporte de audio. Más aún, el aparato para generar los canales de salida de audio se configura para generar el uno o más canales de salida de audio dependiendo de la señal de transporte de audio dependiendo de la información de downmix y dependiendo de la información de covarianza.

Más aún, un método para generar uno o más canales de salida de audio se proporciona. El método comprende: - Recibir una señal de transporte de audio que comprende uno o más canales de transporte de audio, en donde una o más señales de canal de audio se mezclan dentro de la señal de transporte de audio, en donde uno o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde la cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio plus la cantidad de la única o más señales de objeto de audio.

- Recibir información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro del uno o más canales de transporte de audio.

- Recibir información de covarianza.

- Calcular información de mezclado dependiendo de la información de downmix y dependiendo de la información de covarianza. Y:

- Generar el uno o más canales de salida de audio.

Generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezclado. La información de covarianza indica una información de la diferencia de nivel para por lo menos una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para por lo menos uno del único o más señales de objeto de audio. Sin embargo, la información de covarianza no indica información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio.

En forma adicional, un método para generar una señal de transporte de audio que comprende uno o más canales de transporte de audio. El método comprende:

- Generar la señal de transporte de audio que comprende el uno o más canales de transporte de audio al mezclar una o más señales de canal de audio y uno o más señales de objeto de audio dentro de la señal de transporte de audio dependiendo de información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio tendrán que mezclarse dentro del uno o más canales de transporte de audio, en donde la cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio plus la cantidad de la única o más señales de objeto de audio. Y:

- Emitir la señal de transporte de audio, la información de downmix e información de covarianza.

La información de covarianza indica una información de la diferencia de nivel para por lo menos una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para por lo menos uno del único o más señales de objeto de audio. Sin embargo, la información de covarianza no indica información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio.

Más aún, se proporciona un programa informático para implementar el método descrito anteriormente cuando se ejecuta en un ordenador o procesador de señal.

A continuación, se describen las realizaciones de la presente invención en mayor detalle con referencia a las figuras, en las cuales:

La Fig. 1 ilustra un aparato para generar uno o más canales de salida de audio de acuerdo con una realización, La Fig. 2 ilustra un aparato para generar una señal de transporte de audio que comprende uno o más canales de transporte de audio de acuerdo con una realización,

La Fig. 3 ilustra un sistema de acuerdo con una realización,

La Fig. 4 ilustra una primera realización de un codificador de audio 3D,

La Fig. 5 ilustra una primera realización de un decodificador de audio 3D,

La Fig. 6 i lustra una segunda realización de un codificador de audio 3D,

La Fig. 7 i lustra una segunda realización de un decodificador de audio 3D,

La Fig. 8 i lustra una tercera realización de un codificador de audio 3D,

La Fig. 9 i lustra una tercera realización de un decodificador de audio 3D, y

La Fig. 10 ilustra una unidad de procesamiento de juntas de acuerdo con una realización.

Antes de describir las realizaciones preferidas de la presente invención en detalle, se describe el nuevo Sistema de Códec de Audio 3D.

En la técnica anterior, no existe tecnología flexible que combina codificación de canales por un lado y codificación de objetos por otro lado de modo tal que se obtienen calidades de audio aceptables a bajas transferencias de bits. Esta limitación se supera por medio del nuevo Sistema de Códec de Audio 3D.

Antes de describir las realizaciones preferidas en detalle, se describe el nuevo Sistema de Códec de Audio 3D. La Fig. 4 ilustra un codificador de audio 3D de acuerdo con una realización de la presente invención. El codificador de audio 3D se configura para codificar datos de entrada de audio 101 para obtener datos de salida de audio 501. El codificador de audio 3D comprende una interfaz de salida para recibir una pluralidad de canales de audio indicados por CH y una pluralidad de objetos de audio indicados por OBJ. En forma adicional, como se ilustra en la Fig. 4, la interfaz de entrada 1100 en forma adicional recibe meta-datos relacionados con uno o más de la pluralidad de objetos de audio OBJ. En forma adicional, el codificador de audio 3D comprende un mezclador 200 para mezclar la pluralidad de objetos y la pluralidad de canales para obtener una pluralidad de canales mezclados previamente, en donde cada canal mezclado previamente comprende datos de audio de un canal y datos de audio de por lo menos un objeto. En forma adicional, el codificador de audio 3D comprende un codificador central 300 para codificar en forma central datos de entrada del codificador central, un compresor de meta-datos 400 para comprimir los meta-datos relacionados con el uno o más de la pluralidad de objetos de audio.

En forma adicional, el codificador de audio 3D puede comprender un controlador de modos 600 para controlar el mezclador, el codificador central y/o una interfaz de salida 500 en uno de muchos modos de operación, en donde en el primer modo, el codificador central se configura para codificar la pluralidad de audio canales y la pluralidad de objetos de audio recibidos por la interfaz de entrada 1100 sin ninguna interacción por el mezclador, es decir, sin ningún mezclado hecho por el mezclador 200. En un segundo modo, sin embargo, en el cual el mezclador 200 estaba activo, el codificador central codifica la pluralidad de canales mixtos, es decir, la salida generada por el bloque 200. En este último caso, se prefiere no codificar ya ningún dato de objetos. En su lugar, los meta-datos lo que indica posiciones de los objetos de audio ya se usan por el mezclador 200 para procesar los objetos sobre los canales como se indica por los meta-datos. En otras palabras, el mezclador 200 usa los meta-datos relacionados con la pluralidad de objetos de audio para pre-procesar los objetos de audio y luego los objetos de audio pre-procesados se mezclan con los canales para obtener canales mixtos en la salida del mezclador. En esta realización, cualquier objeto puede no necesariamente transmitirse y esto también aplica para meta-datos comprimidos como salida para el bloque 400. Sin embargo, si no todos los objetos entran en la interfaz 1100 se mezclan pero únicamente una cierta cantidad de objetos se mezcla, entonces no sólo los objetos no mezclados anteriormente y los meta-datos asociados no obstante se transmiten al codificador central 300 o el compresor de meta-datos 400, respectivamente.

La Fig. 6 ilustra una realización adicional de un codificador de audio 3D que, en forma adicional, comprende un codificador de SAOC 800. El codificador de SAOC 800 se configura para generar uno o más canales de transporte y datos paramétricos a partir de los datos de entrada del codificador de objetos de audio espacial. Como se ilustra en la Fig. 6, los datos de entrada del codificador de objeto de audio espacial son objetos que no han sido procesados por el pre-procesador/ mezclador. Alternativamente, siempre que el pre-procesador/ mezclador se ha traspasado como en el modo uno donde una codificación de objetos/ canal individual está activa, todas las entradas de objetos en la interfaz de entrada 1100 se codifican por medio del codificador de SAOC 800.

En forma adicional, como se ilustra en la Fig. 6, el codificador central 300 se implementa con preferencia como un codificador USAC, es decir, como un codificador como se define y se estandariza en el estándar MPEG-USAC (USAC = Unified Speech y Audio Coding). La emisión del codificador de audio 3D completo ilustrado en la Fig. 6 es un caudal de datos MPEG 4, caudal de datos MPEG H o caudal de datos de audio 3D que tienen estructuras similares a un contenedor para tipos de datos individuales. En forma adicional, los meta-datos se indican como datos “OAM” y el compresor de meta-datos 400 en la Fig. 4 corresponde al codificador OAM 400 para obtener datos OAM comprimidos que se ingresan en el codificador USAC 300 que, como puede observarse en la Fig. 6, en forma adicional comprende la interfaz de salida para obtener el caudal de datos de reproducción de MP4 que no solamente tiene datos de objeto/ canal codificados sino que también tiene los datos OAM comprimidos.

La Fig. 8 ilustra una realización adicional del codificador de audio 3D, donde en contraste con la Fig. 6, el codificador de SAOC puede configurarse en forma indistinta para codificar, con el algoritmo de codificación SAOC, los canales provistos en el pre-procesador/mezclador 200que no está activo en este modo o, alternativamente, para codificar por SAOC los canales previamente procesados más objetos. De este modo, en la Fig. 8, el codificador de SAOC 800 puede operar en tres clases diferentes de datos de entrada, es decir, canales sin ningún objeto previamente procesado, canales y objetos previamente procesados o únicamente objetos. En forma adicional, se prefiere proporcionar un decodificador OAM adicional 420 en la Fig. 8 de modo tal que el codificador de SAOC 800 use, para su procesamiento, los mismos datos que se encuentran del lado del decodificador, es decir, datos obtenidos por una compresión de pérdida en lugar de los datos OAM originales.

La Fig. 8 el decodificador de audio 3D puede operar en varios modos individuales.

Además del primero y segundo modos como se discute en el contexto de la Fig. 4, el codificador de audio 3D de la Fig. 8 puede operar en forma adicional en un tercer modo en el cual el codificador central genera el uno o más canales de transporte a partir de los objetos individuales cuando el pre-procesador/mezclador 200 no estaba activo. Alternativamente o en forma adicional, en este tercer modo el codificador de SAOC 800 puede generar uno o más canales de transporte alternativos o adicionales de los canales originales, es decir, nuevamente cuando el preprocesador/mezclador 200 correspondiente al mezclador 200 de la Fig. 4 no estaba activo.

Finalmente, el codificador de SAOC 800 puede codificar, cuando el codificador de audio 3D se configura en el cuarto modo, los canales más objetos previamente procesados según se generan por el pre-procesador/ mezclador. De este modo, en el cuarto modo las aplicaciones de tasa de bits más baja proporcionarán buena calidad debido al hecho de que los canales y objetos se han transformado por completo en canales de transporte individuales SAOC e información lateral asociada tal como se indica en las figuras 3 y 5 como “SAOC-SI” y, adicionalmente, cualquier metadato comprimido no tiene que transmitirse en este cuarto modo.

La Fig. 5 ilustra un decodificador de audio 3D de acuerdo con una realización de la presente invención. El codificador de audio 3D recibe, como entrada, los datos de audio codificados, es decir, los datos 501 de la Fig. 4.

El codificador de audio 3D comprende un descompresor de meta-datos 1400, un decodificador central 1300, un procesador de objetos 1200, un controlador de modos 1600 y un post-procesador 1700.

Específicamente, el codificador de audio 3D se configura para decodificar datos de audio codificados y la interfaz de entrada se configura para recibir los datos de audio codificados, los datos de audio codificados que comprende una pluralidad de canales codificados y la pluralidad de objetos codificados y meta-datos comprimidos relacionados con la pluralidad de objetos en un determinado modo.

En forma adicional, el decodificador central 1300 se configura para decodificar la pluralidad de canales codificados y la pluralidad de objetos codificados y, en forma adicional, el descompresor de meta-datos se configura para descomprimir los meta-datos comprimidos.

En forma adicional, el procesador de objetos 1200 se configura para procesar la pluralidad de objetos decodificados según se generan por el decodificador central 1300 con el uso de meta-datos comprimidos para obtener una cantidad predeterminada de canales de salida que comprende datos de objeto y los canales decodificados. Estos canales de salida como se indica en 1205 luego se ingresan en un post-procesador 1700. El post-procesador 1700 se configura para convertir la cantidad de canales de salida 1205 en un determinado formato de entrada que puede ser un formato de reproducción binaural o un formato de reproducción por parlante tales como un formato de reproducción 5.1, 7.1, etc.,.

Con preferencia, el codificador de audio 3D comprende un controlador de modos 1600 el cual se configura para analizar los datos codificados para detectar una indicación de modo. Por lo tanto, el controlador de modo 1600 se conecta a la interfaz de entrada 1100 en la Fig. 5. Sin embargo, alternativamente, el controlador de modo no necesariamente tiene que estar allí. En su lugar, el decodificador de audio flexible puede pre-configurarse por cualquier otra clase de datos de control tales como una entrada del usuario o cualquier otro control. El codificador de audio 3D en la Fig. 5 y, con preferencia controlado por el controlador de modo 1600, se configura o bien para traspasar el procesador de objetos y para alimentar la pluralidad de canales decodificados en el post-procesador 1700. Este es el funcionamiento en el modo 2, es decir, en el cual se reciben únicamente los canales previamente procesados, es decir, cuando se ha aplicado el modo 2 en el codificador de audio 3D de la Fig. 4. Alternativamente, cuando se ha aplicado el modo 1 en el codificador de audio 3D, es decir, cuando el codificador de audio 3D ha realizado codificación individual de canales/objetos, luego el procesador de objetos 1200 no se atraviesa, pero la pluralidad de canales decodificados y la pluralidad de objetos decodificados se colocan en el procesador de objetos 1200 junto con metadatos descomprimidos generados por el descompresor de meta-datos 1400.

Con preferencia, la indicación de si debe aplicarse el modo 1 o el modo 2 se incluye los datos de audio codificados y luego el controlador de modo 1600 analiza los datos codificados para detectar una indicación de modo. Se usa el modo 1 cuando la indicación del modo indica que los datos de audio codificados comprenden canales codificados y objetos codificados y el modo 2 se aplica cuando la indicación del modo indica que los datos de audio codificados no contienen ningún objeto de audio, es decir, únicamente contienen canales pre-procesados obtenidos por el modo 2 del codificador de audio 3D de la Fig. 4.

La Fig. 7 ilustra una realización preferida comparada con la del codificador de audio 3D de la Fig. 5 y la realización de la Fig. 7 corresponde al codificador de audio 3D de la Fig. 6. Además de la implementación del codificador de audio 3D de la Fig. 5, el codificador de audio 3D en la Fig. 7 comprende un decodificador de SAOC 1800. En forma adicional, el procesador de objetos 1200 de la Fig. 5 se implementa como un procesador separado de objetos 1210 y el mezclador 1220 mientras que, dependiendo del modo, la funcionalidad del procesador de objetos 1210 también pueda ser implementada por el decodificador de SAOC 1800.

En forma adicional, el post-procesador 1700 puede implementarse como un procesador binaural 1710 o un conversor de formato 1720. Alternativamente, una emisión directa de datos 1205 de la Fig. 5 también puede implementarse como se ilustra por medio de 1730. Por lo tanto, se prefiere realizar el procesamiento en el decodificador sobre la cantidad más elevada de canales tales como 22.2 o 32 con el objetivo de tener flexibilidad y luego post-procesar si se requiere un formato más pequeño. Sin embargo, cuando se torna claro desde el mismísimo comienzo que únicamente formato pequeño tales como un formato 5.1 se requiere, entonces se prefiere, como se indica por la Fig. 5 o 6 por el método simplificado 1727, que un determinado control sobre el decodificador de SAOC y/o el decodificador USAC puede aplicarse con el fin de evitar operaciones innecesarias de upmixing y las posteriores operaciones de downmix.

En una realización preferida de la presente invención, el procesador de objetos 1200 comprende el decodificador de SAOC 1800 y el decodificador de SAOC se configura para decodificar uno o más canales de transporte emitidos por el decodificador central y datos paramétricos asociados y con el uso de meta-datos descomprimidos para obtener la pluralidad de objetos de audio procesados. Hasta este punto, la salida de OAM se conecta al casillero 1800.

En forma adicional, el procesador de objetos 1200 se configura para procesar objetos decodificados emitidos por el decodificador central que no se codifican en los canales de transporte de SAOC pero que se codifican individualmente en normalmente elementos en canales individuales como se indica por el procesador de objetos 1210. En forma adicional, el decodificador comprende una interfaz de salida que corresponde a la salida 1730 para emitir una salida del mezclador a los parlantes.

En una realización adicional, el procesador de objetos 1200 comprende una codificación de un objeto de decodificador de audio espacial 1800 para decodificar uno o más canales de transporte e información lateral paramétrica asociada que representa señales de audio codificadas o canales de audio codificados, en donde la codificación de un objeto de decodificador de audio espacial se configura para transcodificar la información paramétrica asociada y los meta-datos descomprimidos en información lateral paramétrica transcodificada susceptible de usarse para procesar directamente el formato de salida, como se define por ejemplo en una versión anterior de SAOC. El post-procesador 1700 se configura para calcular audio canales del formato de salida con el uso de los canales de transporte codificados y la información lateral paramétrica transcodificada. El procesamiento realizado por el post procesador puede ser similar al procesamiento Envolvente MPEG o puede ser cualquier otro procesamiento tales como procesamiento BCC y demás.

En una realización adicional, el procesador de objetos 1200 comprende una codificación de un objeto de decodificador de audio espacial 1800 configurado para mezclar/unificar (upmix) y procesar señales de canales para el formato de salida con el uso de los canales de transporte decodificados (por el decodificador central) y la información lateral paramétrica

En forma adicional, y muy importante, el procesador de objetos 1200 de la Fig. 5 en forma adicional comprende el mezclador 1220 que recibe, como entrada, datos generados por el decodificador USAC 1300 directamente cuando existen objetos previamente procesados mezclados con canales, es decir, cuando el mezclador 200 de la Fig.4 estaba activo. En forma adicional, el mezclador 1220 recibe datos del procesador de objetos que realiza procesamiento de objetos sin decodificación SAOC. En forma adicional, el mezclador recibe datos de salida del decodificador SAOC, es decir, objetos renderizados por SAOC.

El mezclador 1220 se conecta a la interfaz de salida 1730, el procesador binaural 1710 y el conversor de formato 1720.

El procesador binaural 1710 se configura para renderizar los canales de salida en dos canales binaurales con el uso de funciones de transferencia relacionadas con el cabezal o respuestas a los impulsos de sala binaural (BRIR). El conversor de formato 1720 se configura para convertir los canales de salida en un formato de salida que tiene una cantidad menor de canales que los canales de salida 1205 del mezclador y el conversor de formato 1720 requiere información sobre la disposición de salida tales como parlantes 5.1 y demás.

El decodificador de audio 3D de la Fig. 9 es diferente del decodificador de audio 3D de la Fig. 7 en el hecho de que decodificador de SAOC no sólo puede generar objetos renderizados sino también canales renderizados y este es el caso en el que el codificador de audio 3D de la Fig. 8 se ha usado y la conexión 900 entre los canales/objetos previamente procesados y la interfaz de entrada del codificador de SAOC 800 está activa.

En forma adicional, una etapa de paneo de amplitud de base del vector (VPAP) 1810 se configura que recibe, del decodificador de SAOC, la información sobre la disposición de salida y que emite una matriz de renderización (procesamiento) al decodificador de SAOC de modo tal que el decodificador de SAOC puede, al final, proporcionar canales renderizados sin ninguna operación adicional del mezclador en el formato del canal alto de 1205, es decir, 32 parlantes.

El bloque VBAP recibe preferiblemente los datos OAM decodificados para derivar las matrices de reproducción. Más en general, con preferencia requiere información geométrica no sólo de la disposición de salida sino también de las posiciones donde las señales de entrada deben renderizarse (procesarse) en la disposición de salida. Estos datos de entrada geométricos pueden ser datos OAM para información de la posición del canal u objetos para canales que se han transmitido con el uso de SAOC.

Sin embargo, si sólo una interfaz de salida específica se requiere luego el estado VBAP 1810 ya puede proporcionar la matriz de renderización requerida para la salida, por ejemplo, 5.1. El decodificador de SAOC 1800 entonces realiza una renderización directa de los canales de transporte de SAOC, los datos paramétricos asociados y meta-datos descomprimidos, una renderización directa en el formato de salida requerido sin ninguna interacción del mezclador 1220. Sin embargo, cuando se aplica una determinada mezcla entre modos, es decir, donde varios canales se codifican con SAOC pero no todos los canales se codifican con SAOC o donde varios objetos se codifican con SAOC pero no todos los objetos se codifican con SAOC o cuando sólo una cierta cantidad de objetos previamente procesados con canales están decodificados por SAOC y los canales restantes no se procesan con SAOC luego el mezclador unificará los datos de las porciones de entrada individuales, es decir, directamente del decodificador central 1300, del procesador de objetos 1210 y del decodificador de SAOC 1800.

Se emplea la siguiente indicación matemática:

Nobjetoscantidad de señales de entrada de objeto de audio

Ncanaiescantidad de canales de entrada

Ncantidad de señales de entrada;Npuede ser igual conNobjetos, NcanaiesoNobjetos+ Ncanaies

Nümxchcantidad de canales con downmix (procesados)

NMuestrascantidad de muestras de datos procesados

Ncanaies de Salidacantidad de canales de salida en el lado del decodificador

Dmatriz de downmix, tamaño NümxohxN

Xseñal de entrada de audio, tamaño Nx NMuestras

Ex matriz de covarianza de la señal de entrada, tamañoNxNdefinido comoEx =XXH

Yseñal de audio de downmix, tamaño NümxohxNMuestras definido comoY=DX

Ey matriz de covarianza de las señales del downmix, tamañoNümxchxNümxchdefinido comoEy =Y YHGmatriz de estimación de la fuente paramétrica, tamaño N* Nümxchque se aproxima aExDH(D ExDH)-1Xseñales de entrada reconstruidas paramétricamente, tamaño Nobjetos x NMuestrasque se aproxima aXy definido comoX=GY

( ) H operador de auto-unión (Hermitiano) que representa la transposición conjugada de (-)

Rmatriz de renderización de tamañoNcanaies de Saiidax N

Smatriz de generación del canal de salida de tamaño Ncanaies de salida xNomxchdefinido comoS = RG

Zcanales de salida, tamañoNcanaies de salidaxNMuestras,generados del lado del decodificador a partir de las señales del downmix,Z=SY

Zcanales de salida deseados, tamaño Ncanaies de salidaxNMuestras,Z=RX

Sin pérdida de generalidad, con el fin de mejorar la legibilidad de ecuaciones, para todas las variables introducidas los índices que denotan dependencia en tiempo y frecuencia se omiten en el presente documento.

En el contexto de Audio 3D, los canales de parlante se distribuyen en varias capas de altura, lo que produce pares de canales horizontales y verticales. La codificación conjunta de únicamente dos canales como se define en USAC no es suficiente para considerar las reacciones espaciales y perceptuales entre canales.

Con el fin de considerar las reacciones espaciales y perceptuales entre canales, en el contexto de Audio 3D, se podría usar la técnica paramétrica similar a SAOC para reconstruir los canales de entrada (señales del canal de audio y señales de objeto de audio que se codifican por medio del codificador de SAOC) para obtener canales de entrada reconstituidosXen el lado del decodificador. La decodificación SAOC se basa en un Algoritmo de Error Cuadrado Promedio Mínimo (MMSE):

En lugar de reconstruir canales de entrada para obtener canales de entrada reconstruidos X, los canales de salida Z pueden generarse directamente en el lado del decodificador al tomar en cuenta la matriz de renderización R.

Como puede observarse, en lugar de reconstruir explícitamente los objetos de audio de entrada y los canales de audio de entrada, los canales de salida Z pueden generarse directamente al aplicar la matriz de generación del canal de salida S sobre la señal de audio de downmix Y.

Para obtener la matriz de generación del canal de salida S, la matriz de renderización R puede, por ejemplo, determinarse o puede, por ejemplo, ya estar disponible. En forma adicional, la matriz de estimación de la fuente paramétrica G puede, por ejemplo, computarse como se describió anteriormente. La matriz de generación del canal de salidaSpuede entonces obtenerse como el producto de la matrizS=RG= a partir de la matriz de renderizaciónRy la matriz de estimación de la fuente paramétricaG.

Un sistema de Audio 3D puede requerir un modo combinado con el fin de codificar canales y objetos.

En general, para dicho modo combinado, la codificación/ decodificación SAOC puede aplicarse de dos maneras diferentes:

Un método podría ser el empleo de una instancia de un sistema paramétrico tipo SAOC, en donde dicha instancia es capaz de procesar canales y objetos. Esta solución tiene la desventaja de que es complejo computacional, debido a la elevada cantidad de señales de entrada la cantidad de canales de transporte aumentará con el fin de mantener una calidad de reconstrucción similar. Como consecuencia el tamaño de la matriz D EX DH aumentará y la complejidad de la inversión aumentará. Más aún, dicha solución puede introducir más inestabilidades numéricas a medida que el tamaño de la matriz D EX DH aumenta. En forma adicional, como otra desventaja, la inversión de la matriz D EX DH puede conducir a comunicación cruzada adicional entre canales reconstruidos y objetos reconstruidos. Esto se causa porque algunos coeficientes en la matriz de reconstrucción G que se suponen que son iguales a cero se fijan en valores que no son cero debido a inexactitudes numéricas.

Otro método podría ser emplear dos instancias de sistemas paramétricos similares a SAOC, una instancia para el procesamiento basado en el canal y otra instancia para el procesamiento basado en los objetos. Dicho enfoque tendría la desventaja de que la misma información se transmite dos veces para la inicialización de los bancos de filtro y configuración del decodificador. Más aún, no es posible mezclar los canales y objetos juntos si requiere, y como consecuencia no es posible usar propiedades de correlación entre canales y objetos.

Para evitar las desventajas del método que emplea diferentes instancias para objetos de audio y canales de audio, las realizaciones emplean el primer enfoque y proporcionan un Sistema SAOC Potenciado capaz de procesar canales, objetos o canales y objetos con el uso de únicamente una instancia del sistema, en un modo eficiente. Aunque los canales de audio y objetos de audio se procesan por la misma instancia de codificador y decodificador, respectivamente, se proporcionan conceptos eficientes, de modo tal que las desventajas del primer enfoque pueden evitarse.

La Fig. 2 ilustra un aparato para generar una señal de transporte de audio que comprende uno o más canales de transporte de audio de acuerdo con una realización.

El aparato comprende un mezclador de objetos/canales 210 para generar el uno o más canales de transporte de audio de la señal de transporte de audio, y una interfaz de salida 220.

El mezclador de objetos/canales 210 se configura para generar la señal de transporte de audio que comprende el uno o más canales de transporte de audio al mezclar una o más señales de canal de audio y uno o más señales de objeto de audio dentro de la señal de transporte de audio dependiendo de información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio tendrán que mezclarse dentro del uno o más canales de transporte de audio.

La cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio. De este modo, el mezclador de objetos/canales 210 es capaz de producir el downmix el una o más señales de canal de audio más y la única o más señales de objeto de audio, ya que el mezclador de objetos/canales 210 se adapta para generar una señal de transporte de audio que tiene menos canales que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio.

La interfaz de salida 220 se configura para emitir la señal de transporte de audio, la información de downmix e información de covarianza.

Por ejemplo, el mezclador de objetos/canales 210 puede configurarse para alimentar la información de downmix, que se usa para realizar un downmix el una o más señales de canal de audio y la única o más señales de objeto de audio, en la interfaz de salida 220. Más aún, por ejemplo, la interfaz de salida 220, puede, por ejemplo, configurarse para recibir el una o más señales de canal de audio y la única o más señales de objeto de audio y puede, más aún, configurarse para determinar la información de covarianza basada en una o más señales de canal de audio y la única o más señales de objeto de audio. O, la interfaz de salida 220 puede, por ejemplo, configurarse para recibir la información de covarianza ya determinada.

La Fig. 1 ilustra un aparato para generar uno o más canales de salida de audio de acuerdo con una realización.

El aparato comprende un procesador de parámetros 110 para calcular información de mezclado y un procesador de downmix 120 para generar el uno o más canales de salida de audio.

El procesador de downmix 120 se configura para recibir una señal de transporte de audio que comprende uno o más canales de transporte de audio. Una o más señales de canal de audio se mezclan dentro de la señal de transporte de audio. Más aún, uno o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio. La cantidad del uno o más canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio.

El procesador de parámetros 110 se configura para recibir información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro del uno o más canales de transporte de audio. Más aún, el procesador de parámetros 110 se configura para recibir información de covarianza. El procesador de parámetros 110 se configura para calcular la información de mezclado dependiendo de la información de downmix y dependiendo de la información de covarianza.

El procesador de downmix 120 se configura para generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezclado.

La información de covarianza puede, por ejemplo, indicar una información de la diferencia de nivel para cada una de la única o más señales de canal de audio y, puede además, por ejemplo, indicar una información de la diferencia de nivel para cada una de la única o más señales de objeto de audio.

De acuerdo con una realización, dos o más señales de objeto de audio puede, por ejemplo, mezclarse dentro de la señal de transporte de audio y dos o más señales del canal de audio pueden, por ejemplo, mezclarse dentro de la señal de transporte de audio. La información de covarianza puede, por ejemplo, indicar información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio. O, la información de covarianza puede, por ejemplo, indicar información de correlación para uno o más pares de una primera de las dos o más señales de objeto de audio y una segunda de las dos o más señales de objeto de audio. O, la información de covarianza puede, por ejemplo, indicar información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio e indica información de correlación para uno o más pares de una primera de las dos o más señales de objeto de audio y una segunda de las dos o más señales de objeto de audio.

Una información de la diferencia de nivel para un objeto de señal de audio puede, por ejemplo, ser una diferencia en el nivel de objetos (OLD). “Nivel” puede, por ejemplo, relacionarse con un nivel de energía. “Diferencia” puede, por ejemplo, relacionarse con una diferencia con respecto a un nivel máximo entre las señales de objeto de audio.

Una información de correlación para un par de una primera de las señales de objeto de audio y una segunda de las señales de objeto de audio puede, por ejemplo, ser una correlación entre objetos (IOC).

Por ejemplo, de acuerdo con una realización, con el fin de garantizar el desempeño óptimo de SAOC 3D se recomienda el uso de las señales de entrada de objeto de audio con energía compatible. El producto de dos señales de entrada de audio (normalizado de acuerdo con los correspondientes mosaicos de tiempo/frecuencia) se determina como:

Aquí,iyj son índices para las señales de objeto de audio xi y xi,respectivamente,nindica tiempo,kindica frecuencia,lindica un conjunto de índices de tiempo ymindica un conjunto de índices de frecuencia.£es una constante aditiva para evitar la división por cero, por ejemplo,£= 10'9.

La energía de objeto absoluto (NRG) del objeto con la energía más alta puede, por ejemplo, calcularse como:

La proporción de las potencias de la correspondiente señal de objetos de entrada (OLD) puede, por ejemplo., darse por

Una medida de similitud de los objetos de entrada (IOC), puede, por ejemplo, darse por la correlación cruzada:

Por ejemplo, en una realización, los 10Cs pueden transmitirse para todos los pares de señales de audioiyj,para las cuales un flujo de bits variable bsRelatedTo[i][j] se fija en uno.

Una información de la diferencia de nivel para una señal de canal de audio puede, por ejemplo, ser una diferencia de nivel del canal (CLD). “Nivel” puede, por ejemplo, relacionarse con un nivel de energía. “Diferencia” puede, por ejemplo, relacionarse con una diferencia con respecto a un nivel máximo entre las señales del canal de audio.

Una información de correlación para un par de una primera de las señales del canal de audio y una segunda de las señales del canal de audio puede, por ejemplo, ser una correlación entre canales (ICC).

En una realización, la diferencia de nivel entre canales (CLD) puede definirse del mismo modo como la diferencia del nivel de objeto (OLD) anterior, cuando las señales de objeto de audio en las fórmulas anteriores se reemplazan por señales del canal de audio. Más aún, la correlación entre canales (ICC) puede definirse del mismo modo como la correlación entre objetos (IOC) anterior, cuando las señales de objeto de audio en las fórmulas anteriores se reemplazan por señales del canal de audio.

En SAOC, un codificador de downmixes SAOC (de acuerdo con información de downmix, por ejemplo, de acuerdo con una matriz de downmix D) una pluralidad de señales de objeto de audio para obtener (por ejemplo, una menor cantidad de) uno o más canales de transporte de audio. Del lado del decodificador, un decodificador de SAOC decodifica el uno o más canales de transporte de audio con el uso de la información de downmix recibida del codificador y con el uso de información de covarianza recibida del codificador. La información de covarianza puede, por ejemplo, ser los coeficientes de una matriz de covarianza E, que indica las diferencias en el nivel de objetos de las señales de objeto de audio y las correlaciones entre objetos entre dos señales de objeto de audio. En SAOC, una determinada matriz de downmix D y una determinada matriz de covarianza E se usa para decodificar una pluralidad de muestras del uno o más canales de transporte de audio (por ejemplo, 2048 muestras del uno o más canales de transporte de audio). Mediante el empleo de este concepto, la transferencia de bits se guarda cuando se compara con la transmisión de la única o más señales de objeto de audio sin codificación.

Las realizaciones se basan en el hallazgo de que aunque las señales de objeto de audio y señales del canal de audio exhiben significativas diferencias, una señal de transporte de audio puede generarse por un codificador de SAOC potenciado, de modo tal que en la mencionada señal de transporte de audio, no se mezclan únicamente señales de objeto de audio, sino también señales del canal de audio.

Las señales de objeto de audio y señales del canal de audio difieren significativamente. Por ejemplo, cada una de una pluralidad de señales de objeto de audio puede representar una fuente de audio de una segunda escena. Por lo tanto, en general, dos objetos de audio pueden estar altamente no correlacionados. En contraste, las señales del canal de audio representan diferentes canales de una segunda escena, como si se registrara por diferentes micrófonos. En general, dos de dichas señales del canal de audio están muy correlacionadas, en particular, cuando se compara con la correlación de dos señales de objeto de audio, que en general no están altamente correlacionadas. De este modo, las realizaciones se basan en el hallazgo de que señales del canal de audio particularmente se benefician de la transmisión de la correlación entre un par de dos señales del canal de audio y por medio del uso de este valor de correlación transmitida para decodificar.

Más aún, las señales de objeto de audio y señales del canal de audio difieren en el sentido que, la información sobre la posición se asigna a señales de objeto de audio, por ejemplo, lo que indica una (supuesta) posición de una fuente de sonido (por ejemplo, un objeto de audio) de la cual se origina un objeto de señal de audio. Dicha información sobre la posición (por ejemplo, comprendida en la información de meta-datos) puede usarse cuando se generan canales de audio de salida a partir de la señal de transporte de audio del lado del decodificador. Sin embargo, en contraste, las señales del canal de audio no exhiben una posición, y ninguna información sobre la posición se asigna a señales del canal de audio. Sin embargo, las realizaciones se basan en el hallazgo de que no obstante es eficiente para codificar por SAOC señales del canal de audio junto con señales de objeto de audio, por ejemplo, ya que generar las señales del canal de audio puede dividirse en dos sub-problemas, es decir, determinar información de decodificación (por ejemplo, determinar la matriz G para no mezclar, véase más abajo), para lo cual no se necesita la información sobre la posición, y determinar la información de procesamiento (por ejemplo, al determinar una matriz de renderización R, véase más abajo), para lo cual la información sobre la posición sobre las señales de objeto de audio puede emplearse para procesar los objetos de audio en los canales de salida de audio que se generan.

Más aún, la presente invención se basa en el hallazgo de que no existe correlación (o por lo menos no significativa) entre cualquier par de una de las señales de objeto de audio y una de las señales del canal de audio. Por lo tanto, cuando el codificador no transmite información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio. Por esto, se ahorra significativo ancho de banda de transmisión y una cantidad significativa de tiempo de computación se ahorra tanto para codificación como para decodificación. Un decodificador que se configura para no procesar dicha información insignificante de correlación guarda una cantidad significativa de tiempo de computación cuando determinar la información de mezclado (que se emplea para generar los canales de salida de audio a partir de la señal de transporte de audio del lado del decodificador).

De acuerdo con una realización, el procesador de parámetros 110 puede, por ejemplo, configurarse para recibir la información de procesamiento lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro del uno o más canales de salida de audio. El procesador de parámetros 110 puede, por ejemplo, configurarse para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza y dependiendo de la información de procesamiento.

Por ejemplo, el procesador de parámetros 110 puede, por ejemplo, configurarse para recibir una pluralidad de coeficientes de una matriz de renderización R como la información de procesamiento, y puede configurarse para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza y dependiendo de la matriz de renderización R. Por ej., el procesador de parámetros puede recibir los coeficientes de la matriz de renderización R a partir de un lado del codificador, o de un usuario. En otra realización, el procesador de parámetros 110 puede, por ejemplo, configurarse para recibir la información de meta-datos, por ejemplo, la información sobre la posición o información sobre el aumento, y puede, por ejemplo, configurarse para calcular los coeficientes de la matriz de renderización R dependiendo de la información de meta-datos recibida. En una realización adicional, el procesador de parámetros puede configurarse para recibir ambas (la información de procesamiento del codificador y del usuario) y para crear la matriz de renderización en base a ambas (lo cual significa básicamente que se realiza interactividad).

O, el procesador de parámetros puede, por ejemplo, recibir dos sub-matrices de renderización Rch, Robj, como la información de procesamiento, en donde R=( Rch, Robj), en donde Rch por ejemplo, indica cómo mezclar las señales del canal de audio con los canales de salida de audio y en donde Robj puede ser una matriz de renderización obtenida de la información de OAM, en donde Robj puede, por ejemplo, proporcionarse por el bloque VBAP 1810 de la Fig. 9.

En una realización particular, dos o más señales de objeto de audio pueden, por ejemplo, mezclarse dentro de la señal de transporte de audio, dos o más señales del canal de audio se mezclan dentro de la señal de transporte de audio. En dicha realización, la información de covarianza puede, por ejemplo, indicar información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio. Más aún, en dicha realización, la información de covarianza (que se transmite, por ejemplo, a partir de un lado del codificador a un lado del decodificador) no indica información de correlación para ningún par de una primera de la única o más señales de objeto de audio y una segunda de la única o más señales de objeto de audio, porque la correlación entre las señales de objeto de audio puede ser muy pequeña, que puede ser insignificante, y de este modo, por ejemplo, no se transmite para ahorrar transferencia de bits y tiempo de procesamiento. En dicha realización, el procesador de parámetros 110 se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de la diferencia de nivel de cada una de la única o más señales de canal de audio, dependiendo de la segunda información de diferencia de nivel de cada una de la única o más señales de objeto de audio, y dependiendo de la información de correlación del uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio. Dicha realización emplea el hallazgo descrito anteriormente de que una correlación entre señales de objeto de audio es en general relativamente baja y debe ser insignificante, mientras que una correlación entre dos señales del canal de audio es en general relativamente alta y debe considerarse. Al no procesar información relevante de correlación entre señales de objeto de audio, puede ahorrarse tiempo de procesamiento. Al procesar correlación relevante entre señales del canal de audio, puede mejorarse la eficiencia de codificación.

En realizaciones particulares, una o más señales de canal de audio se mezclan dentro de un primer grupo de uno o más de los canales de transporte de audio, en donde la única o más señales de objeto de audio se mezclan dentro de un segundo grupo de uno o más de los canales de transporte de audio, en donde cada canal de transporte de audio del primer grupo no está formado por el segundo grupo, y en donde cada canal de transporte de audio del segundo grupo no está formado por el primer grupo. En dichas realizaciones, la información de downmix comprende primer sub-información de downmix lo que indica información sobre cómo la única o más señales de canal de audio se mezclan dentro del primer grupo del uno o más canales de transporte de audio, y la información de downmix comprende segunda sub-información de downmix lo que indica información sobre cómo la única o más señales de objeto de audio se mezclan dentro del segundo grupo del uno o más canales de transporte de audio. En dichas realizaciones, el procesador de parámetros 110 se configura para calcular la información de mezclado dependiendo de la primera sub-información de downmix, dependiendo de la segunda sub-información de downmix y dependiendo de la información de covarianza, y el procesador de downmix 120 se configura para generar la única o más señales de salida de audio del primer grupo de uno o más canales de transporte de audio y del segundo grupo de canales de transporte de audio dependiendo de la información de mezclado. Por dicho enfoque aumenta la eficiencia de codificación, ya que entre señales del canal de audio de una segunda escena, existe una alta correlación. Más aún, coeficientes de la matriz de downmix lo que indica una influencia de señales del canal de audio sobre los canales de transporte de audio, que codifican señales de objeto de audio, y viceversa, no tienen que ser calculados por el codificador, no tienen que transmitirse, y pueden fijarse a cero por el decodificador sin la necesidad de procesarlos. Esto ahorra ancho de banda de transmisión y tiempo de computación para codificador y decodificador.

En una realización, el procesador de downmix 120 se configura para recibir la señal de transporte de audio en un flujo de bits, el procesador de downmix 120 se configura para recibir una primera cantidad de recuento de canales lo que indica la cantidad de los canales de transporte de audio que codifican únicamente señales del canal de audio, y el procesador de downmix 120 se configura para recibir una segunda cantidad de recuento de canal lo que indica la cantidad de los canales de transporte de audio que codifican únicamente señales de objeto de audio. En dicha realización, el procesador de downmix 120 se configura para identificar si un canal de transporte de audio de la señal de transporte de audio codifica señales del canal de audio o si un canal de transporte de audio de la señal de transporte de audio codifica señales de objeto de audio dependiendo de la primera cantidad de recuento del canal o dependiendo de la segunda cantidad de recuento del canal, o dependiendo de la primera cantidad de recuento del canal y la segunda cantidad de recuento del canal. Por ejemplo, en el flujo de bits, los canales de transporte de audio que codifican señales del canal de audio aparecen primero y los canales de transporte de audio que codifican señales de objeto de audio aparecen después. Entonces, si la primera cantidad de recuento del canal es, por ejemplo, 3 y la segunda cantidad de recuento del canal es, por ejemplo, 2, el procesador de downmix puede concluir que los primeros tres canales de transporte de audio comprenden señales codificadas del canal de audio y los subsiguientes dos canales de transporte de audio comprenden señales codificadas de objeto de audio.

En una realización, el procesador de parámetros 110 se configura para recibir la información de meta-datos que comprende la información sobre la posición, en donde la información de la posición indica una posición para cada una de la única o más señales de objeto de audio, y en donde la información de la posición no indica una posición para ninguna de la única o más señales de canal de audio. En dicha realización el procesador de parámetros 110 se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza, y dependiendo de la información de la posición. En forma adicional o alternativamente, la información de meta-datos que comprende, además, información sobre el aumento, en donde la información sobre el aumento indica un mayor valor para cada una de la única o más señales de objeto de audio, y en donde la información sobre el aumento no indica un mayor valor para ninguna de la única o más señales de canal de audio. En dicha realización, el procesador de parámetros 110 puede configurarse para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza, dependiendo de la información de la posición, y dependiendo de la información sobre el aumento. Por ejemplo, el procesador de parámetros 110 puede configurarse para calcular la información de mezclado en forma adicional dependiendo de la sub-matriz Rch descrita anteriormente.

De acuerdo con una realización, el procesador de parámetros 110 se configura para calcular una matriz de mezclado S ya que la información de mezclado, en donde la matriz de mezclado S se define de acuerdo con la fórmula S = RG , en donde G es una matriz de decodificación dependiendo de la información de downmix y dependiendo de la información de covarianza, en donde R es una matriz de renderización dependiendo de la información de meta-datos. En dicha realización, el procesador de downmix (120) puede configurarse para generar el uno o más canales de salida de audio de la señal de salida de audio al aplicar la fórmula Z = SY , en donde Z es la señal de salida de audio, y en donde Y es la señal de transporte de audio. Por ejemplo, R puede depender de las sub-matrices Rch y/o Robj (por ejemplo, R=( Rch, Robj) ) descritas anteriormente.

La Fig. 3 ilustra un sistema de acuerdo con una realización. El sistema comprende un aparato 310 para generar una señal de transporte de audio como se describió anteriormente y un aparato 320 para generar uno o más canales de salida de audio como se describió anteriormente.

El aparato 320 para generar el uno o más canales de salida de audio se configura para recibir la señal de transporte de audio, información de downmix e información de covarianza desde el aparato 310 para generar la señal de transporte de audio. Más aún, el aparato 320 para generar los canales de salida de audio se configura para generar el uno o más canales de salida de audio dependiendo de la señal de transporte de audio dependiendo de la información de downmix y dependiendo de la información de covarianza.

De acuerdo con las realizaciones, la funcionalidad del sistema SAOC, que es un sistema orientado al objeto que realiza la codificación de objetos, se extiende de modo tal que objetos de audio (codificación de objetos) o canales de audio (codificación de canal) o ambos canales de audio y objetos de audio (codificación mixta) pueden codificarse.

El codificador de SAOC 800 de la Fig. 6 y 8 que se describió anteriormente se potencia, de modo tal que no solamente puede recibir objetos de audio como entrada, sino que también puede recibir canales de audio como entrada, y de modo tal que el codificador de SAOC puede generar canales para downmix (por ejemplo, los canales de transporte de SAOC) en el cual los objetos de audio recibidos y los canales de audio recibidos se codifican. En las realizaciones descritas anteriormente, por ejemplo, de la Fig. 6 y 8, dicho codificador de SAOC 800 recibe no solamente objetos de audio sino también canales de audio como entrada y genera canales para downmix (por ejemplo, los canales de transporte de SAOC) en el cual los objetos de audio recibidos y los canales de audio recibidos se codifican. Por ejemplo, el codificador de SAOC de la Fig. 6 y 8 se implementa como un aparato para generar una señal de transporte de audio (que comprende uno o más canales de transporte de audio, por ejemplo, uno o más los canales de transporte de SAOC) como se describe con referencia a la Fig. 2, y las realizaciones de la Fig. 6 y 8 se modifican de manera tal que no solamente objetos sino también uno, algunos o la totalidad de los canales se colocan en el codificador de SAOC 800.

El decodificador de SAOC 1800 de la Fig. 7 y 9 que se describió anteriormente se potencia, de modo tal que puede recibir canales para downmix (por ejemplo, los canales de transporte de SAOC) en el cual los objetos de audio y los canales de audio se codifican, y de modo tal que puede generar los canales de salida (señales de canales renderizados y señales de objetos renderizados) de los canales recibidos para downmix (por ejemplo, los canales de transporte de SAOC) en el cual los objetos de audio y los canales de audio se codifican. En las realizaciones descritas anteriormente, por ejemplo, de la Fig. 7 y 9, dicho decodificador de SAOC 1800 recibe canales para downmix (por ejemplo, los canales de transporte de SAOC) en el cual no solamente objetos de audio sino también canales de audio se codifican y genera los canales de salida (señales de canales renderizados y señales de objetos renderizados) de los canales recibidos para downmix (por ejemplo, los canales de transporte de SAOC) en el cual los objetos de audio y los canales de audio se codifican. Por ejemplo, el decodificador de SAOC de la Fig. 7 y 9 se implementa como un aparato para generar uno o más canales de salida de audio como se describe con referencia a la Fig. 1, y las realizaciones de la Fig. 7 y 9 se modifican de manera tal que uno, algunos o la totalidad de los canales ilustrados entre el decodificador USAC 1300 y el mezclador 1220 no se generan (reconstruyen) por el decodificador USAC 1300, pero están reconstruidos en su lugar por el decodificador de SAOC 1800 de los canales de transporte de SAOC (canales de transporte de audio).

Dependiendo de la aplicación, diferentes ventajas de un sistema de SAOC puede explotarse por medio del uso de dicho Sistema SAOC Potenciado.

De acuerdo con algunas realizaciones, dicho Sistema SAOC Potenciado soporta una cantidad arbitraria de canales para downmix y torna en arbitraria cantidad de canales de salida. En algunas realizaciones, por ejemplo, la cantidad de canales para downmix (SAOC Canales de transporte) puede reducirse (por ejemplo, en el momento de ejecución), por ejemplo, para reducir significativamente la transferencia de bits general. Esto conducirá a transferencias de bit bajas.

Más aún, de acuerdo con algunas realizaciones, el decodificador de SAOC de dicho Sistema SAOC Potenciado puede, por ejemplo, tener un procesador flexible integrado que puede, por ejemplo, permitir interacción con el usuario. Por esto, el usuario puede cambiar la posición de los objetos en la escena de audio, atenuar o aumentar el nivel de objetos individuales, suprimir completamente objetos, etc. Por ejemplo, considerando las señales del canal como objetos de fondo (BGOs) y las señales de objetos como objetos de frente (FGOs), la característica de interactividad de SAOC puede usarse para aplicaciones como potenciación de diálogos. Por dicha característica de interactividad, el usuario puede tener la libertad de manipular, en un rango limitado, los BGOs y FGOs, con el fin de aumentar la inteligibilidad del diálogo (por ejemplo, el diálogo puede estar representado por objetos de frente) o para obtener un equilibrio entre diálogo (por ejemplo, representado por FGOs) y el fondo del ambiente (por ejemplo, representado por BGOs).

En forma adicional, de acuerdo con las realizaciones, dependiendo de la complejidad de computación disponible en el lado del decodificador, el decodificador de SAOC puede disminuir automáticamente la complejidad computacional al operar en un modo de “complejidad de computación baja”, por ejemplo, al reducir la cantidad de descorreladores, y/o, por ejemplo, al tornarse directamente a la disposición de salida y desactivar el subsiguiente conversor de formato 1720 que se ha descrito anteriormente. Por ejemplo, la información de procesamiento puede guiar cómo realizar un downmix los canales de un sistema 22.2 a los canales de un sistema 5.1.

De acuerdo con las realizaciones, el codificador SAOC Potenciado puede procesar una cantidad variable de canales de entrada (NCanales) y objetos de entrada (NObjetos). La cantidad de canales y objetos se transmiten en el flujo de bits con el fin de señalizar al lado del decodificador la presencia de la vía del canal. Las señales de entrada al codificador de SAOC se ordenan siempre de manera tal que las señales del canal son las primeras y las señales de objetos son las últimas.

De acuerdo con otra realización, el mezclador de canales/ objetos 210 se configura para generar la señal de transporte de audio de modo tal que la cantidad del uno o más canales de transporte de audio de la señal de transporte de audio depende de cuanta transferencia de bits se encuentra disponible para transmitir la señal de transporte de audio.

Por ejemplo, la cantidad de canales de downmix (transporte) puede, por ejemplo, computarse como función de la transferencia de bits disponible y cantidad total de señales de entrada:

Nomxch=f(transferencia de bits,N).

Los coeficientes de downmix en D determinan el mezclado de las señales de entrada (canales y objetos). Dependiendo de la aplicación, la estructura de la matriz D puede especificarse de manera tal que los canales y objetos se mezclan juntos o se mantienen separados.

Algunas realizaciones, es basan en el hallazgo de que es beneficioso no mezclar los objetos junto con los canales.

Para no mezclar los objetos junto con los canales, la matriz de downmix puede, por ejemplo, construirse como:

Con el fin de señalizar el mezclado separado en el flujo de bits de los valores de la cantidad de canales para downmixasignados a la vía del canal y la cantidad de canales para downmix asignados a la vía de objeto (

) puede, por ejemplo, transmitirse.

Las matrices de downmix en bloques DCh y Dobj tienen los tamaños: ^respectivamente

En el decodificador los coeficientes de la matriz de estimación de fuentes paramétricasG = ExDH(D ExDH)-1 se computan en un modo diferente. Con el uso de una forma de matriz, esto puede esperarse como:

pueden, por ejemplo, obtenerse a partir de las señales de entrad de matriz de covarianza (Ex) mediante la selección únicamente de los bloques diagonales correspondientes:

De acuerdo con una realización, el codificador SAOC Potenciado se configura para no transmitir información sobre una covarianza entre cualquiera de los objetos de audio y cualquiera de los canales de audio al decodificador SAOC potenciado.

Más aún, de acuerdo con una realización, el decodificador SAOC potenciado se configura para no recibir información sobre una covarianza entre cualquiera de los objetos de audio y cualquiera de los canales de audio.

Los elementos en bloques diagonales de G no se computan, sino que se fijan a cero. Por lo tanto se evita la posible comunicación cruzada entre canales reconstruidos y objetos. Más aún, por esta reducción, se logra la reducción de la complejidad computacional ya que menos coeficientes de G tienen que completarse.

Más aún, de acuerdo con las realizaciones, en lugar de invertir la matriz más grande:

las dos pequeñas matrices siguientes se invierten:

dependencias lineales debido a las similitudes de señal, la matriz completaD ExDH puede mal acondicionarse mientras que las matrices más pequeñas pueden acondicionarse bien.

Después

se computa en el lado del decodificador, luego es posible, por ejemplo, estimar paramétricamente las señales de entrada para obtener señales de entrada reconstruidas X (las señales de entrada del canal de audio y las señales de entrada de objeto de audio), por ejemplo, con el uso de:

Más aún, como se describió anteriormente, la renderización puede conducirse del lado del decodificador para obtener los canales de salida Z, por ejemplo, mediante el empleo de una matriz de renderización R:

En lugar de reconstruir explícitamente las señales de entrada (las señales de entrada del canal de audio y las señales de entrada de objeto de audio) para obtener canales reconstruidos de entrada X, los canales de salida Z pueden generarse directamente en el lado del decodificador al aplicar la matriz de generación del canal de salida S sobre la señal de audio de downmix Y.

Como ya se describió anteriormente, para obtener la matriz de generación del canal de salida S, la matriz de renderización R puede, por ejemplo, determinarse o puede, por ejemplo, ya encontrarse disponible. En forma adicional, la matriz de estimación de fuentes paramétricas G puede, por ejemplo, computarse como se describió anteriormente.

La matriz de generación del canal de salidaSpuede entonces obtenerse como el producto de la matrizS=RG= a partir de la matriz de renderizaciónRy la matriz de estimación de la fuente paramétricaG.

Con respecto a las señales reconstruidas de objeto de audio, puede tenerse en cuenta la compresión de meta-datos en los objetos de audio que se transmiten del codificador al decodificador. Por ejemplo, los meta-datos en los objetos de audio pueden indicar la información sobre la posición sobre cada uno de los objetos de audio. Dicha información sobre la posición puede por ejemplo ser un ángulo de azimut, un ángulo de elevación y un radio. Esta información sobre la posición puede indicar una posición del objeto de audio en un espacio 3D. Por ejemplo, cuando un objeto de audio se ubica cerca de una posición de parlante supuesta o real, dicho objeto de audio tiene un peso más alto en el canal de salida para dicho parlante cuando se compara con el peso de otro objeto de audio en el canal de salida que se ubica lejos de dicho parlante. Por ejemplo, Paneo de Amplitud de Base de Vector (VBAP) puede emplearse (véase, por ejemplo, [VBAP]) para determinar los coeficientes de renderización de la matriz de renderización R para los objetos de audio.

En forma adicional, en algunas realizaciones, los meta-datos comprimidos pueden comprender un mayor valor para cada uno de los objetos de audio. Por ejemplo, para cada uno de los objetos de señal de audio, un mayor valor puede indicar un aumento factor para dicha señal de objetos de audio.

En contraste con los objetos de audio, no se transmite información sobre la posición meta-datos del codificador al decodificador para las señales del canal de audio. Una matriz adicional (por ejemplo, para convertir 22.2 en 5.1) o matriz de identidad (cuando la configuración de entrada de los canales es igual a la configuración de salida) puede, por ejemplo, emplearse para determinar los coeficientes de renderización de la matriz de renderización R para los canales de audio.

La matriz de renderización R puede ser de tamaño NCanales de Salida x N . Aquí, para cada uno de los canales de salida, existe una hilera en la matriz R. Más aún, en cada hilera de la matriz de renderización R, los N coeficientes determinan el peso de las N señales de entrada (los canales de audio de entrada y los objetos de audio de entrada) en el correspondiente canal de salida. Esos objetos de audio que se ubican cerca del parlante de dicho canal de salida tienen un mayor coeficiente que el coeficiente de los objetos de audio ubicados lejos del parlante del correspondiente canal de salida.

Por ejemplo, el Paneo de Amplitud de Base de Vector (VBAP) puede emplearse (véase, por ejemplo, [VBAP]) para determinar el peso de un objeto de señal de audio dentro de cada uno de los canales de audio de los parlantes. Por ej., con respecto a VBAP, se supone que un objeto de audio se relaciona con una fuente virtual.

Dado que, en contraste con objetos de audio, los canales de audio no tienen una posición, los coeficientes relacionados con canales de audio en la matriz de renderización pueden, por ejemplo, ser independientes de la información sobre la posición.

A continuación, se describe la sintaxis del flujo de bits de acuerdo con las realizaciones.

En el contexto de MPEG SAOC, señalización de los posibles modos de operación (basado en canal, basado en objeto o modo combinado) puede lograrse con el uso de, por ejemplo, una de las dos posibilidades que siguen (primera posibilidad: el uso de banderas para señalizar el modo de operación; segunda posibilidad: sin el uso de banderas para señalizar el modo de operación):

De este modo, de acuerdo con una primera realización, se usan banderas para señalizar el modo de operación.

El uso de banderas para señalizar el modo de operación de sintaxis de un elemento SAOCSpecifigConfig() o elemento SAOC3DSpecifigConfig() puede, por ejemplo, comprender:

}

Si el flujo de bits variable bsSaocChannelFIag se fija en uno las primeras señales de entrada bsNumSaocChannels+1 se tratan como basados en señales de canal. Si el flujo de bits variable bsSaocObjectFlag se fija en uno las últimas señales de entrada bsNumSaocObjetos+1 se procesan como señales de objeto. Por lo tanto en el caso que ambas variables de flujo de bits (bsSaocChannelFlag, bsSaocObjectFlag) sean diferentes de cero la presencia de canales y objetos en los canales de transporte de audio se señaliza.

Si la variable de flujo de bits bsSaocCombinedModeFlag es igual a uno el modo de decodificación combinado se señaliza en el flujo de bits y, el decodificador procesará los canales de transporte bsNumSaocDmxChannels con el uso de la matriz completa de downmix D (esto significa que las señales del canal y las señales de objeto se mezclan entre ellas).

Si la variable de flujo de bits bsSaocCombinedModeFlag es cero el modo de decodificación independiente se señaliza y el decodificador poseerá canales de transporte (bsNumSaocDmxChannels+1) (bsNumSaocDmxObjects+1) con el uso de una matriz de downmix en bloques como se describió anteriormente.

De acuerdo con una segunda realización preferida, no se necesitan banderas para señalizar el modo de operación. La señalización el modo de operación sin el uso de banderas, puede, por ejemplo, realizarse mediante el empleo de la siguiente sintaxis

Señalización:

Sintaxis de SAOC3DSpecificConfig():

Restringir la correlación cruzada entre canales y objetos a cero:

Leer las ganancias de downmix de forma diferente para el caso cuando los canales de audio y los objetos de audio se mezclan en diferentes canales de transporte de audio y cuando se mezclan juntos dentro de los canales de transporte de audio:

Si la variable de flujo de bits bsNumSaocChannels es diferente de cero las primeras señales de entrada bsNumSaocChannels se tratan como basados en señales de canal. Si la variable de flujo de bits bsNumSaocObjetos es diferente de cero las últimas señales de entrada bsNumSaocObjetos se procesan como las señales de objeto. Por lo tanto en el caso en que ambas variables de flujo de bits sean diferentes de cero la presencia de canales y objetos en los canales de transporte de audio se señaliza.

Si la variable de flujo de bits bsNumSaocDmxObjects es igual a cero el modo de decodificación combinado se señaliza en el flujo de bits y, el decodificador procesará los bsNumSaocDmxChannels canales de transporte con el uso de la matriz completa de downmix D (esto significa que las señales del canal y las señales de objeto se mezclan entre ellas). Si la variable de flujo de bits bsNumSaocDmxObjects es diferente de cero el modo de decodificación independiente se señaliza y el decodificador poseerá canales de transporte bsNumSaocDmxChannels bsNumSaocDmxObjects con el uso de una matriz de downmix en bloques como se describió anteriormente.

A continuación, se describen aspectos del procesamiento downmix de acuerdo con una realización:

La señal de salida del procesador de downmix (representado en el dominio QMF híbrido) se alimenta en el banco de filtro de síntesis correspondiente como se describe en ISO/IEC 23003-1:2007 lo que produce la emisión final del decodificador SAOC 3D.

El procesador de parámetros 110 de la Fig. 1 y el procesador de downmix 120 de la Fig. 1 puede implementarse como una unidad de procesamiento de juntas. Dicha unidad de procesamiento de juntas se ilustra por la Fig. 1, en donde las unidades U y R implementan el procesador de parámetros 110 mediante el suministro de la información de mezclado.

La señal de salidaYse computa de la señal de downmix del canal multicanalXy la señal de multicanal sin correlaciónXdcomo:

.

donde U representa la matriz sin mezclado paramétrico.

La matriz de mezcladoP= (Pseca Phúmeda) es una matriz de mezclado.

La señal multicanal no correlacionadaXdse define como

El modo de decodificación se controla por el elemento del flujo de bits bsNumSaocDmxObjects:

En el caso del modo de decodificación combinado la matriz sin mezclado paramétricoNdmx*Ndmse da por:

La matriz J de tamañoNdmx*Ndmxse da por J = A-1con A = DED*.

En el caso del modo de decodificación independiente la matriz sin mezclar U se da por: donde

La matriz de covarianza basada en canalEchde tamañoNch*Nchy la matriz de covarianza basada en objeto Eobj de tamañoNobj*Nobjse obtienen a partir de la matriz de covarianza E mediante la selección únicamente de los bloques diagonales correspondientes:

donde la matriz Ech,obj= (Eobj,ch)* representa la matriz de varianza cruzada entre los canales de entrada y objetos de entrada y no se requiere su cálculo.

La matriz de downmix basada en el canalDChde tamaño y la matriz de downmix basada en objetoD0bjde tamañoTVodt>mix xNobJ■se obtienen a partir de la matriz de downmix D mediante la selección únicamente de losbloques diagonales correspondientes:

La matri;zz de tamañoN deriva de la definición de matriz J para

La matriz de tamaño deriva de la definición de matriz J para

La matriz J = A-1 se calcula con el uso de la siguiente ecuación:

Aquí los vectores en singular V de la matriz A se obtienen con el uso de la siguiente ecuación característica

El inverso regularizadoN nvde la matriz del valor singular diagonal A se computa como

y1 a

El escalar de regularización relativore%se determina con el uso de umbral absolutoTregy valor máximo de A como

A continuación, se describe la matriz de renderización de acuerdo con una realización:

La matriz de renderizaciónRaplicada a las señales de entrada de audioSdetermina el rendimiento renderizado de destino comoY=RS .La matriz de renderizaciónRde tamañoNout*Nse da por

dondeRchde tamañoNout*Nchrepresenta la matriz de renderización asociada con los canales de entrada yRobjde tamañoNout*Nobjrepresenta la matriz de renderización asociada con los objetos de entrada.

A continuación, se describe la señal multicanal sin correlaciónXdde acuerdo con una realización:

Las señales sin correlaciónXdse crean, por ejemplo, a partir del elemento de correlación descrito en el punto 6.6.2 de ISO/IEC 23003-1:2007, con bsDecorrConfig == 0 y, por ejemplo, un índice de falta de correlación, X. Por lo tanto, eldecorrFunc( ) por ejemplo, denota el proceso de falta de correlación:

Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta claro que estos aspectos representan, además, una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. En forma análoga, los aspectos descritos en el contexto de una etapa del método representan, además, una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente.

La señal descompuesta de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tales como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tales como la Internet.

Dependiendo de ciertos requerimientos de implementación, las realizaciones la invención pueden implementarse en hardware o en software. La implementación puede realizarse con el uso de un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, un ROM, un PROM, una memoria EPROM, EEPROM o FLASH, que tiene almacenadas en su interior señales de control legibles en forma electrónica, que cooperan (o pueden cooperar) con un sistema de ordenadores programable de manera tal que se realiza el método respectivo.

Algunas realizaciones de acuerdo con la invención comprenden un portador de datos no transitorio que tiene señales de control legibles por medios electrónicos, que pueden cooperar con un sistema de ordenadores programable, de manera tal que se realiza uno de los métodos descritos en el presente documento.

En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, el código de programa es operativo para realizar uno de los métodos cuando el producto del programa informático se ejecuta en un ordenador. El código de programa puede almacenarse por ejemplo en un portador legible en la máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenados en un portador legible en la máquina.

En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.

Una realización adicional de los métodos de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio que se lee por ordenador) que comprende, grabado allí, el programa informático para realizar uno de los métodos descritos en el presente documento.

Una realización adicional del método de la invención es, por lo tanto, un caudal de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. El caudal de datos o la secuencia de señales puede por ejemplo configurarse para transferirse a través de una conexión de comunicación de datos, por ejemplo a través de la Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado para o adaptado para realizar uno de los métodos descritos en el presente documento.

Una realización adicional comprende un ordenador que tiene instalado el programa informático para realizar uno de los métodos descritos en el presente documento.

En algunas realizaciones, un dispositivo lógico programable (por ejemplo un ordenamiento de acceso programable en campo) puede usarse para realizar todas o algunas de las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un ordenamiento de acceso programable en campo puede cooperar con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos con preferencia se realizan por cualquier aparato de hardware.

Las realizaciones descritas anteriormente son simplemente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán obvias para otras personas con experiencia en la técnica. Es la intención, por lo tanto, limitarse únicamente limitarse por el alcance de las reivindicaciones de la patente pendiente y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de este documento.

Referencias

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, abril 2007.

[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J.

Koppens, E. Schuijers y W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[VBAP] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng.

Soc., Level 45, Issue 6, pp. 456-466, junio 1997.

[M1] Peters, N., Lossius, T. y Schacher J. C., “SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, jul. 2012.

[M2] Wright, M., Freed, A., “Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Grecia, 1997.

[M3] Matthias Geier, Jens Ahrens, y Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, diciembre 2010.

[M4] W3C, “Synchronized Multimedia Integration Language (SMIL 3.0)”, diciembre 2008.

[M5] W3C, “Extensible Markup Language (XML) 1.0 (Fifth Edition)”, noviembre 2008.

[M6] MPEG, “ ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio”,

2009.

[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Alemania, mayo 2004.

[M8] Web3D, “International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.

[M9] Sporer, T. (2012), "Codierung raumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc.

Annual Meeting of the German Audiological Society (DGA), Erlangen, Alemania, marzo 2012.

Claims

REIVINDICACIONES 1. Un aparato para generar uno o más canales de salida de audio, en donde el aparato comprende: un procesador de parámetros (110) para calcular información de mezclado, y un procesador de downmix (120) para generar uno o más canales de salida de audio, en donde el procesador de downmix (120) se configura para recibir un flujo de datos que comprende canales de transporte de audio de una señal de transporte de audio, en donde una o más señales de canal de audio se mezclan dentro de la señal de transporte de audio, en donde uno o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde la cantidad de los canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, en donde el procesador de parámetros (110) se configura para recibir información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro de los canales de transporte de audio, y en donde el procesador de parámetros (110) se configura para recibir información de covarianza, y en donde el procesador de parámetros (110) está configurado para calcular la información de mezcla dependiendo de la información de downmix y dependiendo de la información de covarianza, y en donde el procesador de downmix (120) se configura para generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezclado, en donde la información de downmix comprende primera subinformación de downmix, que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como las una o más señales de objeto de audio se mezclan, dentro del segundo grupo de los canales de transporte de audio, caracterizado porque la una o más señales de canal de audio se mezclan dentro de un primer grupo del uno o más de los canales de transporte de audio, en donde la una o más señales de objeto de audio se mezclan dentro de un segundo grupo del uno o más de los canales de transporte de audio, en donde cada canal de transporte de audio del primer grupo no está comprendido por el segundo grupo y en donde cada canal de transporte de audio del segundo grupo no está comprendido por el primer grupo, y donde la información de downmix comprende primera subinformación de downmix que indica información en cuanto a como la una o más señales de canal de audio se mezclan dentro del primer grupo de los canales de transporte de audio y donde la información de downmix comprende segunda subinformación de downmix que indica información en cuando a cómo las una o más señales de objeto de audio se mezclan dentro del segundo grupo del uno o más canales de transporte de audio, en donde el procesador de parámetros (110) es configurado para calcular la información de mezclado, dependiendo de la primera subinformación de downmix, dependiendo de la segunda subinformación de downmix y dependiendo de la información de covarianza, donde el procesador de downmix (120) es configurado para generar la una o más señales de salida de audio a partir del primer grupo de canales de transporte de audio y del segundo grupo de canales de transporte de audio, dependiendo de la información de mezclado, donde el procesador de downmix (120) es configurado para recibir una primera cantidad de conteo de canales, que indica el número de los canales de transporte de audio del primer grupo de canales de transporte de audio y en donde el procesador de downmix (120) es configurado para recibir una segunda cantidad de conteo de canales, que indica el número de los canales de transporte de audio del segundo grupo de canales de transporte de audio y donde el procesador de downmix (120) es configurado para identificar si un canal de transporte de audio, dentro del flujo de datos, pertenece al primer grupo o al segundo grupo, dependiendo de la primera cantidad de conteo de canales o dependiendo de la segunda cantidad de conteo de canales o dependiendo de la primera cantidad de conteo de canales y la segunda cantidad de conteo de canales.
2. Un aparato de acuerdo con la reivindicación 1, en donde la información de covarianza indica una información de la diferencia de nivel para cada una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para cada una de la única o más señales de objeto de audio. Un aparato de acuerdo con la reivindicación 1 o 2, en donde dos o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde dos o más señales del canal de audio se mezclan dentro de la señal de transporte de audio, en donde la información de covarianza indica información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio, o en donde la información de covarianza indica información de correlación para uno o más pares de una primera de las dos o más señales de objeto de audio y una segunda de las dos o más señales de objeto de audio, o en donde la información de covarianza indica información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio e indica información de correlación para uno o más pares de una primera de las dos o más señales de objeto de audio y una segunda de las dos o más señales de objeto de audio. Aparato según una de las reivindicaciones anteriores, en donde la información de covarianza comprende una pluralidad de coeficientes de covarianza de una matriz de covarianza Ex de tamañoNx N, en dondeNindica la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, en donde la matriz de covarianza Ex se define de acuerdo con la fórmula

<T>IE<pC>T/</>-<j> en donde A indica los coeficientes de una primera sub-matriz de covarianza de tamañoNcanaiesxNcanaies, en dondeNcanaiesindica la cantidad de una o más señales de canal de audio, en donde^ xindica los coeficientes de a segunda sub-matriz de covarianza de tamañoNobjetosxNobjetos,en dondeNobjetosindica la cantidad de la única o más señales de objeto de audio, en donde 0 indica una matriz cero, en donde el procesador de parámetros (110) se configura para recibir la pluralidad de coeficientes de covarianza de la matriz de covarianza Ex, y en donde el procesador de parámetros (110) se configura para fijar todos los coeficientes de la matriz de covarianza Ex hasta 0, que no son recibidos por el procesador de parámetros (110). Aparato según una de las reivindicaciones anteriores, en donde la información de downmix comprende una pluralidad de downmix coeficientes de una matriz de downmix de tamañoNümxchx N, en dondeNümxchindica la cantidad de los canales de transporte de audio, y en donde N indica la cantidad de la una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, en donde la matriz de downmix D se define de acuerdo con la fórmula

en donde Dch indica los coeficientes de una primera sub-matriz de downmix de tamaño

, en donde indica |a cantidad de los canales de transporte de audio del primer grupo de los canales de transporte de audio, y en dondeNcanaiesindica la cantidad de una o más señales de canal de audio, en donde Dobj indica los coeficientes de una segunda sub-matriz de downmix de tamaño

, en donde indica la cantidad de los canales de transporte de audio del segundo grupo de los canales de transporte de audio, y en dondeNobjetosindica la cantidad de una o más señales de canal de audio, en donde 0 indica una matriz cero, en donde el procesador de parámetros (110) está configurado para recibir la pluralidad de coeficientes de downmix de la matriz de downmix D, y en donde el procesador de parámetros (110) está configurado para establecer todos los coeficientes de la matriz de downmix D en 0, que no son recibidos por el procesador de parámetros (110). Aparato según una de las reivindicaciones anteriores, en donde el procesador de parámetros (110) se configura para recibir la información de procesamiento lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro del uno o más canales de salida de audio, en donde el procesador de parámetros (110) se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza y dependiendo de la información de procesamiento. Un aparato de acuerdo con la reivindicación 6, en donde el procesador de parámetros (110) se configura para recibir una pluralidad de coeficientes de una matriz de renderización R como la información de procesamiento, y en donde el procesador de parámetros (110) se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza y dependiendo de la matriz de renderización R. Un aparato de acuerdo con la reivindicación 6, en donde el procesador de parámetros (110) se configura para recibir la información de meta-datos como la información de procesamiento, en donde la información de meta-datos comprende la información sobre la posición, en donde la información de la posición indica una posición para cada una de la única o más señales de objeto de audio, en donde la información de la posición no indica una posición para ninguna de la única o más señales de canal de audio, en donde el procesador de parámetros (110) se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza, y dependiendo de la información de la posición. Un aparato de acuerdo con la reivindicación 8, en donde la información de meta-datos que comprende, además, información sobre el aumento, en donde la información sobre el aumento indica un mayor valor para cada una de la única o más señales de objeto de audio, en donde la información sobre el aumento no indica un mayor valor para ninguna de la única o más señales de canal de audio, en donde el procesador de parámetros (110) se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de covarianza, dependiendo de la información de la posición, y dependiendo de la información sobre el aumento. Un aparato de acuerdo con la reivindicación 8 o 9, en donde el procesador de parámetros (110) se configura para calcular una matriz de mezclado S ya que la información de mezclado, en donde la matriz de mezclado S se define de acuerdo con la fórmula S = RG en donde G es una matriz de decodificación dependiendo de la información de downmix y dependiendo de la información de covarianza, en donde R es una matriz de renderización dependiendo de la información de meta-datos, en donde el procesador de downmix (120) se configura para generar el uno o más canales de salida de audio de la señal de salida de audio al aplicar la fórmula Z = SY , en donde Z es la señal de salida de audio, y en donde Y es la señal de transporte de audio. Aparato según una de las reivindicaciones anteriores, en donde dos o más señales de objeto de audio se mezclan dentro de la señal de transporte de audio, y en donde dos o más señales del canal de audio se mezclan dentro de la señal de transporte de audio, en donde la información de covarianza indica información de correlación para uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio, en donde la información de covarianza no indica información de correlación para ningún par de una primera de la única o más señales de objeto de audio y una segunda de la única o más señales de objeto de audio, y en donde el procesador de parámetros (110) se configura para calcular la información de mezclado dependiendo de la información de downmix, dependiendo de la información de la diferencia de nivel de cada una de la única o más señales de canal de audio, dependiendo de la segunda información de diferencia de nivel de cada una de la única o más señales de objeto de audio, y dependiendo de la información de correlación del uno o más pares de una primera de las dos o más señales del canal de audio y una segunda de las dos o más señales del canal de audio. Un aparato para generar una señal de transporte de audio que comprende canales de transporte de audio, en donde el aparato comprende: un mezclador de objetos/canales (210) para generar los canales de transporte de audio de la señal de transporte de audio, y una interfaz de salida (220), en donde el mezclador de objetos/canales (210) se configura para generar la señal de transporte de audio que comprende los canales de transporte de audio al mezclar una o más señales de canal de audio y uno o más señales de objeto de audio dentro de la señal de transporte de audio dependiendo de información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio tendrán que mezclarse dentro de los canales de transporte de audio, en donde la cantidad de los canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, en donde la interfaz de salida (220) es configurada para emitir la señal de transporte de audio, la información de downmix e información de covarianza, en donde la información de downmix comprende primera subinformación de downmix, que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como las una o más señales de objeto de audio se mezclan, dentro del segundo grupo de los canales de transporte de audio, caracterizado porque el aparato es configurado para mezclar la una o más señales de audio dentro de un primer grupo del uno o más de los canales de transporte de audio, en donde el aparato es configurado para mezclar la una o más señales de objeto de audio, dentro de un segundo grupo del uno o más de los canales de transporte de audio, en donde cada canal de transporte de audio del primer grupo no está comprendido por el segundo grupo y en donde cada canal de transporte de audio del segundo grupo no está comprendido por el primer grupo y en donde la información de downmix comprende primera subinformación de downmix, que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como las una o más señales de objeto de audio se mezclan, dentro del segundo grupo de los canales de transporte de audio, donde el aparato es configurado para emitir una primera cantidad de conteo de canal que indica la cantidad de canales de transporte de audio del primer grupo de canales de transporte de audio y donde el aparato es configurado para emitir una segunda cantidad de conteo de canales que indica la cantidad de los canales de transporte de audio del segundo grupo de canales de transporte de audio. Un aparato de acuerdo con la reivindicación 12, en donde el mezclador de canales/ objetos (210) se configura para generar la señal de transporte de audio de modo tal que la cantidad de los canales de transporte de audio de la señal de transporte de audio depende de cuanta transferencia de bits se encuentra disponible para transmitir la señal de transporte de audio. Un sistema, que comprende: un aparato (310) de acuerdo con la reivindicación 12 o 13 para generar una señal de transporte de audio, y un aparato (320) de acuerdo con una de las reivindicaciones 1 hasta 11 para generar uno o más canales de salida de audio, en donde el aparato (320) de acuerdo con una de las reivindicaciones 1 hasta 11 se configura para recibir la señal de transporte de audio, información de downmix e información de covarianza desde el aparato (310) de acuerdo con la reivindicación 12 o 13, y en donde el aparato (320) de acuerdo con una de las reivindicaciones 1 hasta 11 se configura para generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de downmix y dependiendo de la información de covarianza. Un método para generar uno o más canales de salida de audio, en donde el método comprende: recibir un flujo de datos que comprende canales de transporte de audio de una señal de transporte de audio, en donde una o más señales de canal de audio se mezclan, dentro de la señal de transporte de audio, en donde uno o más señales de objeto de audio se mezclan, dentro de la señal de transporte de audio y en donde la cantidad de los canales de transporte de audio es menor que la cantidad de la una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, recibir información de downmix que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio se mezclan dentro de los canales de transporte de audio, recibir información de covarianza, calcular la información de mezclado dependiendo de la información de downmix y dependiendo de la información de covarianza, y generar el uno o más canales de salida de audio, generar el uno o más canales de salida de audio a partir de la señal de transporte de audio dependiendo de la información de mezclado, en donde la información de downmix comprende primera subinformación de downmix, que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como las una o más señales de objeto de audio se mezclan, dentro del segundo grupo de los canales de transporte de audio, caracterizado porque la una o más señales de canal de audio se mezclan dentro de un primer grupo del uno o más de los canales de transporte de audio, en donde la una o más señales de objeto de audio se mezclan dentro de un segundo grupo del uno o más de los canales de transporte de audio, en donde cada canal de transporte de audio del primer grupo no está comprendido por el segundo grupo y en donde cada canal de transporte de audio del segundo grupo no está comprendido por el primer grupo, y en donde la información de downmix comprende primera subinformación de downmix, que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como las una o más señales de objeto de audio se mezclan, dentro del segundo grupo de los canales de transporte de audio, en donde la información de mezcla se calcula dependiendo de la primera subinformación de downmix, dependiendo de la segunda subinformación de downmix y dependiendo de la información de covarianza, en donde la una o más señales de salida de audio son generadas del primer grupo de canales de transporte de audio y del segundo grupo de canales de transporte de audio, dependiendo de la información de mezclado, en donde el método comprende además la etapa de recibir una primera cantidad de conteo de canales, que indica la cantidad de los canales de transporte de audio, del primer grupo de canales de transporte de audio y en donde el método comprende además la etapa de recibir una segunda cantidad del conteo de canales, que indica la cantidad de los canales de transporte de audio del segundo grupo de canales de transporte de audio y en donde el método comprende además la etapa de identificar si un canal de transporte de audio, dentro del flujo de datos, pertenece al primer grupo o al segundo grupo, dependiendo de la primera cantidad de conteo de canales o dependiendo de la segunda cantidad de conteo de canales o dependiendo de la primera cantidad de conteo de canales y la segunda cantidad de conteo de canales. Un método para generar una señal de transporte de audio que comprende canales de transporte de audio, en donde el método comprende: generar la señal de transporte de audio que comprende los canales de transporte de audio al mezclar una o más señales de canal de audio y uno o más señales de objeto de audio dentro de la señal de transporte de audio dependiendo de información de downmix lo que indica información sobre cómo la única o más señales de canal de audio y la única o más señales de objeto de audio tendrán que mezclarse dentro de los canales de transporte de audio, en donde la cantidad de los canales de transporte de audio es menor que la cantidad de una o más señales de canal de audio más la cantidad de la única o más señales de objeto de audio, y emitir la señal de transporte de audio, la información de downmix e información de covarianza, en donde la información de covarianza indica una información de la diferencia de nivel para por lo menos una de la única o más señales de canal de audio e indica además una información de la diferencia de nivel para por lo menos uno del único o más señales de objeto de audio, y en donde la información de covarianza no indica información de correlación para ningún par de una de la única o más señales de canal de audio y una de la única o más señales de objeto de audio, caracterizado porque la una o más señales de canal de audio se mezclan dentro de un primer grupo del uno o más de los canales de transporte de audio, en donde la una o más señales de objeto de audio se mezclan dentro de un segundo grupo del uno o más de los canales de transporte de audio, en donde cada canal de transporte de audio del primer grupo no está comprendido por el segundo grupo y en donde cada canal de transporte de audio del segundo grupo no está comprendido por el primer grupo y en donde la información de downmix comprende primera subinformación de downmix que indica información en cuanto a como la una o más señales de canal de audio se mezclan, dentro del primer grupo de los canales de transporte de audio y en donde la información de downmix comprende segunda subinformación de downmix, que indica información en cuanto a como la una o más señales de objeto de audio se mezclan dentro del segundo grupo de los canales de transporte de audio y en donde el método comprende además emitir una primera cantidad de conteo de canales, que indica la cantidad de los canales de transporte de audio del primer grupo de canales de transporte de audio y en donde el método comprende además emitir una segunda cantidad de conteo de canales, que indica la cantidad de canales de transporte de audio, del segundo grupo de canales de transporte. 17. Un programa informático para implementar el método de la reivindicación 15 o 16 cuando se ejecuta en un ordenador o procesador de señal.