ES2314706T3

ES2314706T3 - Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros.

Info

Publication number: ES2314706T3
Application number: ES05782843T
Authority: ES
Inventors: Ralph Sperschneider; Jurgen Herre; Johannes Hilpert; Christian Ertel; Stefan Geyersberger
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-09-08
Filing date: 2005-08-10
Publication date: 2009-03-16
Anticipated expiration: 2025-08-10
Also published as: AU2005281966B2; CA2579114A1; KR100857920B1; DE102004043521A1; BRPI0515651B1; CA2579114C; EP1687809B1; JP4601669B2; CN101014999B; HK1093595A1; RU2355046C2; JP2008512708A; NO338932B1; IL181743A0; ATE409938T1; RU2007112943A; MX2007002854A; PT1687809E; US20070206690A1; CN101014999A

Abstract

Dispositivo para generar una señal multicanal utilizando datos de entrada que incluyen datos de canal de transmisión que representan M canales de transmisión y datos de parámetros para obtener K canales de salida, en el que los M canales de transmisión y los datos de parámetros representan juntos N canales originales, donde M es menor que N y mayor o igual a 1 y donde K es mayor que M, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros, que comprende: medios (24) de reconstrucción multicanal diseñados para generar los K canales de salida a partir de los datos de canal de transmisión y los datos de parámetros; y medios (26) de configuración para configurar los medios de reconstrucción multicanal, en el que los medios de configuración están diseñados para leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros, cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración de los medios de reconstrucción multicanal, y cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, configurar (34) los medios de reconstrucción multicanal utilizando información sobre un algoritmo (23) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos de tal manera que el ajuste de configuración de los medios de reconstrucción multicanal es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.

Description

Método y dispositivo para generar señal multicanal o conjunto de datos de parámetros.

La presente invención se refiere a técnicas de procesamiento multicanal paramétricas y en particular, a codificadores/descodificadores para generar y/o leer una sintaxis de datos flexible y para asociar datos de parámetros con los datos del downmix y/o canales de transmisión.

Además de los dos canales estéreo, una representación envolvente multicanal recomendada incluye un canal central C y dos canales envolventes, esto es, el canal envolvente izquierdo Ls y el canal envolvente derecho Rs, y adicionalmente, si es aplicable, un canal de altavoz de graves (subwoofer) también denominado como canal LFE (LFE = Low Frequency Enhancement, mejora de bajas frecuencias). Este formato de sonido de referencia es también denominado como estéreo 3/2 (más LFE) y recientemente también como multicanal 5.1, lo que significa que hay tres canales delanteros y dos canales envolventes. En general, se requieren 5 o 6 canales de transmisión. En un entorno de reproducción, se requieren al menos cinco altavoces en las cinco posiciones diferentes respectivas para obtener un óptimo denominado punto de sonido óptimo a una distancia determinada de los cinco altavoces colocados correctamente. Sin embargo, con respecto a su colocación, el altavoz de graves puede utilizarse de manera relativamente libre.

Hay varias técnicas para reducir la cantidad de datos requeridos para transmitir una señal de audio multicanal. Tales técnicas también se denominan técnicas de estéreo conjunto. Para este propósito, se hace referencia a la figura 5. La figura 5 muestra un dispositivo 60 de estéreo conjunto. Este dispositivo puede ser un dispositivo que implementa, por ejemplo, la técnica de intensidad estéreo (técnica IS, Intensity Stereo) o la técnica de codificación de indicación binaural (técnica BCC, Binaural Cue Coding). Tal dispositivo recibe en general al menos dos canales (CH1, CH2, ... CHn) como señales de entrada y emite al menos un único canal de de portadora (downmix) y datos paramétricos, es decir uno o más conjuntos de parámetros. Los datos paramétricos se definen de tal manera que puede calcularse una aproximación de cada canal original (CH1, CH2, ... CHn) en un descodificador.

Normalmente, el canal de portadora incluirá muestras de subbanda, coeficientes espectrales o muestras de dominio del tiempo, etc., que proporcionan una representación comparativamente precisa de la señal subyacente, mientras que los datos paramétricos y/o conjuntos de parámetros no incluyen ninguna muestra o coeficiente espectral de este tipo. En su lugar, los datos paramétricos incluyen parámetros de control para controlar un algoritmo de reconstrucción determinado, tal como ponderación mediante multiplicación, desplazamiento en tiempo, desplazamiento en frecuencia, ... Así, los datos paramétricos incluyen sólo una representación comparativamente basta de la señal o el canal asociado. Expresado en números, la cantidad de datos requeridos por un canal de portadora (que se comprimen, es decir se codifican por medio de AAC, por ejemplo) está en el intervalo de 60 a 70 kbit/s, mientras que la cantidad de datos requeridos por la información lateral paramétrica es del orden de 1,5 kbit/s para un canal. Un ejemplo para datos paramétricos son los factores de escala conocidos, información de intensidad estéreo o parámetros de indicación binaural, tal como se describirá posteriormente.

La técnica de codificación de intensidad estéreo se describe en el documento preliminar AES 3799 titulado "Intensity stereo coding" J. Herre, K. H. Brandenburgo, D. Lederer, febrero de 1994, Amsterdam. En general, el concepto de intensidad estéreo se basa en una transformada de eje principal que va a aplicarse a datos de los dos canales de audio estereofónicos. Si la mayoría de los puntos de datos están colocados alrededor del primer eje principal, puede conseguirse una ganancia de codificación rotando ambas señales un ángulo determinado antes de la codificación. Sin embargo, esto no siempre se aplica a las técnicas de reproducción estereofónica reales. Las señales reconstruidas para los canales izquierdo y derecho consisten en versiones ponderadas o ajustadas a escala de manera diferente de la misma señal transmitida. No obstante, las señales reconstruidas difieren en amplitud, pero son idénticas con respecto a su información de fase. Las envolventes de tiempo energía de ambos canales de audio originales, sin embargo, se mantienen por medio de operación de ajuste a escala selectiva que opera normalmente de manera selectiva en frecuencia. Esto corresponde a la percepción de sonido humana a altas frecuencias donde se determinan las indicaciones espaciales dominantes por las envolventes de energía.

Además, en implementaciones prácticas, la señal transmitida, es decir, el canal de portadora, está formada por la señal de suma del canal izquierdo y el canal derecho en lugar de rotar ambos componentes. Además, este procesamiento, es decir, la generación de los parámetros de intensidad estéreo para realizar la operación de ajuste a escala, se realiza de manera selectiva en frecuencia, es decir, independientemente entre sí para cada banda de factor de escala, es decir, para cada división de frecuencia de codificador. Preferiblemente, se combinan ambos canales para formar un canal combinado o "de portadora". Además del canal combinado, la información de intensidad estéreo se determina que depende de la energía del primer canal, la energía del segundo canal y la energía del canal combinado o de suma.

La técnica BCC se describe en el artículo de la convención de AES 5574 titulado "Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, mayo de 2002, Munich. En la codificación BCC, se convierten varios canales de entrada de audio a una representación espectral utilizando una transformada basada en DFT con ventanas solapantes. El espectro resultante se divide en divisiones no solapantes. Cada división tiene un ancho de banda proporcional a un ancho de banda en ángulo recto equivalente (ERB, Equivalent Right-Angled Bandwidth). SE calculan las denominadas diferencias de nivel entre canales (ICLD, Inter-Channel Level Difference) así como las denominadas diferencias de tiempo entre canales (ICTD, Inter-Channel Time Difference) para cada división, es decir, para cada banda y para cada trama k, es decir, un bloque de muestras de tiempo. Los parámetros ICLD e ICDT se cuantifican y codifican para obtener un flujo de bits BCC. Las diferencias de nivel entre canales y las diferencias de tiempo entre canales se dan para cada canal con respecto a un canal de referencia. En particular, los parámetros se calculan según fórmulas predeterminadas dependiendo de las divisiones particulares de la señal que va a procesarse.

En el lado del descodificador, el descodificador recibe una señal mono y el flujo de bits BCC, es decir, un primer conjunto de parámetros para las diferencias de tiempo entre canales y un segundo conjunto de parámetros para las diferencias de nivel entre canales por trama. La señal mono se transforma al dominio de la frecuencia y se introduce en un bloque de síntesis que también recibe valores ICLD e ICTD descodificados. En el bloque de síntesis o bloque de reconstrucción, los parámetros BCC (ICLD e ICTD) se utilizan para realizar una operación de ponderación de la señal mono para reconstruir la señal multicanal, que entonces, después de una conversión de frecuencia/tiempo, representa una reconstrucción de la señal de audio multicanal original.

En el caso de BCC, el módulo 60 de estéreo conjunto opera para emitir la información lateral de canal, de tal manera que los datos de canal paramétricos son parámetros ICDL e ICTD cuantificados y codificados, donde uno de los canales originales puede utilizarse como canal de referencia para la codificación de información lateral de canal. Normalmente, el canal de portadora se forma por la suma de los canales originales participantes.

Por supuesto, la técnica anterior sólo proporciona una representación mono para un descodificador que sólo puede descodificar el canal de portadora, pero que no puede generar los datos de parámetros para generar una o más aproximaciones de más de un canal de entrada.

La técnica de codificación de audio denominada como técnica BCC se describe adicionalmente en las solicitudes de patente estadounidense US 2003/0219130 A1, 2003/0026441 A1 y 2003/0035553 A1 y se emplea en la solicitud de patente europea EP 1 414 273 A1. Además, véase adicionalmente "Binaural Cue Coding. Part. II: Schemes and Applications", C. Faller y F. Baumgarte, IEEE: Transactions on Audio and Speech Proc., volumen 11, número 6, noviembre de 1993. Además, véase también C. Faller y F. Baumgarte "Binaural Cue Coding applied to Stereo and Multi-Channel Audio compression", documento preliminar, 112th Convention of the Audio Engineering Society (AES), mayo de 2002, y J. Herre, C. Faller, C. Ertel, J. Hilpert, A. Hoelzer, C. Spenger, "MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio", 116th AES Convention, Berlín, 2004, documento preliminar 6049. A continuación, se representará un esquema BCC general típico para la codificación de audio multicanal en más detalle con respecto a las figuras 6 a 8. La figura 6 muestra un esquema de codificación BCC general para la codificación/transmisión de señales de audio multicanal. La señal de entrada de audio multicanal se introduce en una entrada 110 de un codificador 112 BCC y se realiza sobre al misma "downmix" en un denominado bloque 114 de downmix, es decir, se convierte a un único canal de suma. En el presente ejemplo, la señal en la entrada 110 es una señal envolvente de 5 canales que tiene un canal izquierdo delantero y un canal derecho delantero, un canal envolvente izquierdo y un canal envolvente derecho y un canal central. Normalmente, el bloque de downmix genera una señal de suma mediante la simple adición de estos cinco canales en una señal mono. En la técnica se conocen otros esquemas de downmix, dando todos como resultado la generación, utilizando una señal de entrada multicanal, de una señal de downmix que tiene un único canal o que tiene un número de canales de downmix que, en cualquier caso, es menor que el número de canales de entrada originales. En el presente ejemplo, ya se conseguiría una operación de downmix si se generasen cuatro canales de portadora a partir de los cinco canales de entrada. El único canal de salida y/o el número de canales de salida se emite sobre una línea 115 de señal de suma.

La información lateral obtenida mediante un bloque 116 de análisis BCC se emite sobre una línea 117 de información lateral. En el bloque de análisis BCC, pueden ser calculadas diferencias de nivel entre canales (ICDL), diferencias de tiempo entre canales (ICTD) o valores de correlación entre canales (valores ICC, Inter-Channel Correlation). Así, hay tres conjuntos de parámetros diferentes, a saber, las diferencias de nivel entre canales (ICLD), las diferencias de tiempo entre canales (ICTD) y los valores de correlación entre canales (ICC), para la reconstrucción en el bloque 122 de síntesis BCC.

La señal de suma y la información lateral con los conjuntos de parámetros se transmiten normalmente a un descodificador 120 BCC en un formato cuantificado y codificado. El descodificador BCC divide la señal de suma transmitida (y descodificada, en el caso de una transmisión codificada) en un número de subbandas y realiza ajustes a escala, retardos y procesamiento adicional para generar las subbandas de los varios canales que han de reconstruirse. Este procesamiento se realiza de tal manera que los parámetros ICLD, ICTD e ICC (indicaciones) de una señal multicanal reconstruida en la salida 121 son similares a las indicaciones respectivas para la señal multicanal original en la entrada 110 al codificador 112 BCC. Para este propósito, el descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un bloque 123 de procesamiento de información lateral.

Lo siguiente ilustrará la estructura interna del bloque 122 de síntesis BCC con respecto a la figura 7. La señal de suma sobre la línea 115 se introduce en un bloque de conversión de tiempo/frecuencia implementado normalmente como un banco 125 de filtros FB. En la salida del bloque 125, hay un número N de señales de subbanda o, en un caso extremo, un bloque de coeficientes espectrales, si el banco 125 de filtros de audio realiza una transformada que genera N coeficientes espectrales a partir de N muestras de dominio del tiempo.

El bloque 122 de síntesis BCC incluye además una fase 126 de retardo, una fase 127 de modificación de nivel, una fase 128 de procesamiento de correlación y una fase 129 IFB que representa un banco de filtros inverso. En la salida de la fase 129, la señal de audio multicanal reconstruida que tiene, por ejemplo, cinco canales en el caso de sistema envolvente de 5 canales puede emitirse en un conjunto de altavoces 124, tal como se ilustra en la figura 6.

La figura 7 ilustra además que la señal de entrada s(n) se convierte al dominio de la frecuencia o dominio de banco de filtros por medio del elemento 125. La señal emitida por el elemento 125 se multiplica, de tal manera que se obtienen varias versiones de la misma señal, como se indica por el nodo 130. El número de versiones de la señal original es igual al número de canales de salida en la señal de salida que va a reconstruirse. Si cada versión de la señal original se somete a un retardo determinado, d_{1}, d_{2}, ... d_{i}, d_{N} en el nodo 130, el resultado es la situación en la salida de los bloques 126, que incluye las versiones de la misma señal, pero con diferentes retardos. Los parámetros de retardo se calculan por el bloque 123 de procesamiento de información lateral en la figura 6 y se deriven a partir de las diferencias de tiempo entre canales como fueron determinadas por el bloque 116 de análisis BCC.

Lo mismo se aplica a los parámetros de multiplicación a_{1}, a_{2}, ... a_{i}, a_{N}, que también se calculan por el bloque 123 de procesamiento de información lateral basándose en las diferencias de nivel entre canales determinadas por el bloque 116 de análisis BCC.

Los parámetros ICC se calculan por el bloque 116 de análisis BCC y se utilizan para controlar la funcionalidad del bloque 128, de tal manera que se obtienen valores de correlación determinados entre las señales retardadas y manipuladas en nivel en la salida del bloque 128. Ha de observarse que el orden de las fases 126, 127, 128 puede ser diferente del representado en la figura 7.

Ha de observarse además que, en un procesamiento por bloques de la señal de audio, el análisis BCC también se realiza por bloques. Además, el análisis BCC también se realiza por frecuencia, es decir, de manera selectiva en frecuencia. Esto significa que, para cada banda espectral, hay un parámetro ICLD, un parámetro ICTD y un parámetro ICC para cada bloque. Los parámetros ICTD para al menos un bloque para al menos un canal a través de todas las bandas representan por tanto el conjunto de parámetros ICTD. Lo mismo se aplica al conjunto de parámetros ICLD que representa todos los parámetros ICLD para al menos un bloque para todas las bandas de frecuencia para la reconstrucción de al menos un canal de salida. Lo mismo se aplica, a su vez, al conjunto de parámetros ICC que de nuevo incluye varios parámetros ICC individuales para al menos un bloque para diversas bandas para la reconstrucción de al menos un canal de salida basándose en el canal de entrada o canal de suma.

A continuación, se hace referencia a la figura 8 que muestra una situación a partir de la cual puede verse la determinación de los parámetros BCC. Normalmente, los parámetros ICLD, ICTD e ICC pueden definirse entre cualquier par de canales. Normalmente, se realiza una determinación de los parámetros ICLD e ICTD entre un canal de referencia y cada uno de los demás canales de entrada, de tal manera que hay un conjunto de parámetros distinto para cada uno de los canales de entrada excepto el canal de referencia. Esto se ilustra también en la figura 8A.

Sin embargo, los parámetros ICC pueden definirse de diferente manera En general, los parámetros ICC pueden generarse en el codificador entre cualquier par de canales, como también se ilustra esquemáticamente en la figura 8B. En este caso, un descodificador realizaría una síntesis ICC, de tal manera que se obtiene aproximadamente el mismo resultado que estaba presente en la señal original entre cualquier par de canales. Sin embargo, ha habido la sugerencia de calcular solamente parámetros ICC entre los dos canales más intensos en cualquier momento, es decir, para cada trama de tiempo. Este esquema se representa en la figura 8C, que muestra un ejemplo en el que, en un momento, se calcula y transmite un parámetro ICC entre los canales 1 y 2 y en el que, en otro momento, se calcula un parámetro ICC entre los canales 1 y 5. Luego, el descodificador sintetiza la correlación entre canales entre los dos canales más intensos en el descodificador y ejecuta además reglas normalmente heurísticas para sintetizar la coherencia entre canales para los pares de canales restantes.

Con respecto al cálculo de, por ejemplo, los parámetros de multiplicación a_{1}, ... a_{N} basándose en los parámetros ICLD transmitidos, se hace referencia al artículo de la convención de AES citado 5574. Los parámetros ICLD representan una distribución de energía en una señal multicanal original. Sin pérdida de generalidad, la figura 8A muestra que hay cuatro parámetros ICLD que representan la diferencia de energía entre todos los demás canales y el canal izquierdo delantero. En el bloque 123 de procesamiento de información lateral, los parámetros de multiplicación
a_{1}, ... a_{N} se derivan a partir de los parámetros ICLD, de tal manera que la energía total de todos los canales de salida reconstruidos es la misma energía que la presente para la señal de suma transmitida o es al menos proporcional a esta energía. Una manera de determinar estos parámetros es un proceso de dos fases en el cual, en una primera fase, el factor de multiplicación para el canal delantero izquierdo se ajusta a uno, mientras que los factores de multiplicación para los demás canales en la figura 8C se ajustan a los valores ICLD transmitidos. Luego, en una segunda fase, se calcula la energía de todos los cinco canales y se compara con la energía de la señal de suma transmitida. Luego, todos los canales se ajustan a escala hacia abajo, a saber, utilizando un factor de escala que es igual para todos los canales, donde el factor de escala se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos después del ajuste a escala es igual a la energía total de la señal de suma transmitida y/o las señales de suma transmitidas.

Con respecto a la medida de coherencia entre canales ICC transmitida desde el codificador BCC al descodificador BCC como conjunto de parámetros adicional, ha de observarse que podría realizarse una manipulación de coherencia mediante la modificación de los factores de multiplicación, tal como multiplicando los factores de ponderación de todas las subbandas por números aleatorios que tienen valores entre 20 log 10^{-6} y 20 log 10^{6}. La secuencia pseudoaleatoria se selecciona normalmente de tal manera que la varianza para todas las bandas críticas es aproximadamente igual y que el valor promedio dentro de cada banda crítica es cero. Se utiliza la misma secuencia para los coeficientes espectrales de cada trama o bloque diferente. Así, al ancho de la escena de audio se controla mediante modificaciones de las varianzas de la secuencia pseudoaleatoria. Una varianza mayor genera un ancho de audición mayor. La modificación de varianza puede realizarse en bandas individuales que tienen un ancho de una banda crítica. Esto permite la existencia simultánea de varios objetos en una escena de audición, donde cada objeto tiene un ancho de audición diferente. Una distribución de amplitud adecuada para la secuencia pseudoaleatoria es una distribución uniforme en una escala logarítmica, tal como se representa en la publicación de patente estadounidense 2002/0219130 A1.

Con el fin de transmitir los cinco canales de manera compatible, por ejemplo, en un formato de flujo de bits que también es adecuado para un descodificador de estéreo normal, puede utilizarse la denominada técnica de matrizado descrita en "MUSICAM Surround: A universal multi-channel coding system compatible with ISO/IEC 11172-3", G. Theile y G. Stoll, documento preliminar AES, octubre de 1992, San Francisco.

Además, véanse las técnicas de codificación multicanal descritas en la publicación "Improved MPEG 2 Audio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Miller, documento preliminar AES 3865, febrero de 1994, Ámsterdam, donde se usa una matriz de compatibilidad para obtener los canales de downmix a partir de los canales de entrada originales.

En resumen, se puede decir que la técnica BCC permite una codificación eficaz y también compatible hacia atrás de material de audio multicanal, como también se describe, por ejemplo en la publicación especialista por E. Shuijer, J. Breebaart, H. Purnhagen, J. Engdegård titulada "Low-Complexity Parametric Stereo Coding", 119th AES Convention, Berlín, 2004, documento preliminar 6073. En este contexto, también debería hacer mención del estándar MPEG-4 y particularmente la expansión de técnicas de audio paramétricas, donde esta parte de estándar también se conoce por la designación ISO/IEC 14496-3: 2001/FDAM 2 (audio paramétrico). A este respecto, se debe mencionar, en particular, la sintaxis en la tabla 8.9 del estándar MPEG-4 titulada "sintaxis de los ps_data()". En este ejemplo, se deben mencionar los elementos de sintaxis "enable_icc" y "enable_ipdopd", donde estos elementos de sintaxis se utilizan para activar y desactivar una transmisión de un parámetro ICC y una fase correspondiente a diferencias de tiempo entre canales. También se deben mencionar adicionalmente los elementos de sintaxis "icc_data()" "ipd_data()" y "opd_data()".

En resumen, ha de observarse en general que tales técnicas multicanal paramétricas se utilizan empleando uno o varios canales de portadora transmitidos, donde se forman M canales transmitidos a partir de N canales originales para reconstruir de nuevo los N canales de salida o un número K de canales de salida, donde K es menor o igual al número de canales originales N.

Como puede verse a partir de la figura 6, el análisis BCC es un preprocesamiento separado típico para generar datos de parámetros por una parte y uno o más canales de transmisión (canales de downmix) por otra parte a partir de una señal multicanal que tiene N canales originales. Normalmente, estos canales de downmix luego se comprimen por ejemplo por medio de un codificador estéreo/mono MP3 o AAC típico, aunque esto no se muestra en la figura 6, de tal manera que, en el lado de salida, hay un flujo de bits que representa los datos de canal de transmisión en forma comprimida y hay otro flujo de bits adicional que representa los datos de parámetros. El análisis BCC ocurre así por separado de la codificación de audio real de los canales de downmix y/o la señal 115 de suma de la figura 6.

El lado del descodificador es similar. Un descodificador que tiene capacidad multicanal descodificará primero el flujo de bits que incluye la señal de downmix comprimida dependiendo del algoritmo de codificación utilizado y proporcionará de nuevo uno o más canales de transmisión en el lado de salida, es decir, normalmente como una secuencia en el tiempo de datos PCM (PCM = Pulse Code Modulation, modulación por código de pulso). Entonces, tendrá lugar la síntesis BCC como un postprocesamiento separado y aislado distinto que señaliza de manera autosuficente con el flujo de datos de parámetros y se le proporcionan datos para generar, en el lado de salida, varios canales de salida, preferentemente iguales al número de los canales de entrada originales de la señal de downmix descodificada de audio.

Así, es una ventaja de la tecnología BCC que tiene un banco de filtros distinto para los propósitos del análisis BCC y un banco de filtros distinto para los propósitos de la síntesis BCC, por ejemplo, de tal manera que está separado del banco de filtros del codificador/descodificador de audio, con el fin de no tener que realizar cualquier solución intermedia con respecto a la compresión de audio por una parte y la reconstrucción multicanal por otra parte. Hablando de manera general, la compresión de audio se realiza por tanto por separado del procesamiento de parámetros multicanal para estar equipado óptimamente para ambos campos de aplicación.

Sin embargo, este concepto tiene la desventaja de que tiene que transmitirse una señalización completa tanto para la reconstrucción multicanal como para la descodificación de audio. Esto es particularmente desventajoso cuando, como será normalmente el caso, tanto el descodificador de audio como los medios de reconstrucción multicanal realizan las mismas etapas o similares y requieren por tanto ajustes de configuración iguales y/o mutuamente dependientes. Debido al concepto completamente separado, los datos de señalización se transmiten por tanto dos veces dando como resultado una "expansión" artificial de la cantidad de datos, que se debe en último lugar al hecho de que se ha escogido el concepto separado entre codificación/descodificación de audio y análisis/síntesis multicanal.

Por otra parte, un "enlace" completo de la reconstrucción multicanal con la descodificación de audio restringiría considerablemente la flexibilidad, porque en ese caso el objetivo realmente importante de la separación de ambas etapas de procesamiento de poder realizar cada etapa de procesamiento de una manera óptima tendría que abandonarse. Así, surgirían pérdidas de calidad considerables, en particular en el caso de varias fases de codificación/descodificación sucesivas, también denominadas como codificación en "tándem". Si hay un enlace completo de los datos BCC con los datos de audio codificados, tiene que realizarse una reconstrucción multicanal con cada descodificación para realizar una síntesis multicanal de nuevo cuando se recodifique. Puesto que es la naturaleza de cada técnica paramétrica que tiene pérdidas, las pérdidas se acumularán por los análisis de síntesis de análisis repetidos de tal manera que, con cada fase de codificador/descodificador, la calidad perceptible de la señal de audio disminuye adicionalmente.

En este caso, la descodificación/codificación de datos de audio sin procesamiento de análisis/síntesis simultáneo de los datos de parámetros solamente sería posible si cada códec de audio en la cadena en tándem trabajara de manera idéntica, es decir, tuviera la misma tasa de muestreo, longitud de bloque, longitud de avance, tamaño de ventana, transformada ..., es decir, tuviera en general la misma configuración, y si, además, las fronteras de bloque respectivas también se mantuvieran. Sin embargo, tal concepto restringiría considerablemente la flexibilidad de todo el concepto. Particularmente con respecto al hecho de que se pretende que las técnicas multicanal paramétricas complementen los datos estéreo ya existentes, por ejemplo mediante datos de parámetros adicionales, esta limitación es de todas la más dolorosa. Puesto que los datos estéreo ya existentes pueden originarse a partir de muchos codificadores diferentes que utilizan todos longitudes de bloque diferentes o que incluso no operan en el dominio de la frecuencia, sino en el dominio del tiempo, etc., tal limitación tomaría el concepto de complementación más tarde ad absurdum desde el comienzo.

Es el objeto de la presente invención proporcionar un concepto flexible y eficaz para generar una señal de audio multicanal o un conjunto de datos de parámetros de reconstrucción.

Este objeto se consigue mediante un dispositivo para generar una señal multicanal según la reivindicación 1, un método para generar una señal multicanal según la reivindicación 14, un dispositivo para generar una salida de datos de parámetros según la reivindicación 15, un método para generar una salida de datos de parámetros según la reivindicación 18, un dispositivo para generar una salida de datos de parámetros según la reivindicación 19, un método para generar una salida de datos de parámetros según la reivindicación 20, o un producto de programa informático según la reivindicación 21.

La presente invención se basa en el descubrimiento de que pueden obtenerse eficacia por una parte y flexibilidad por otra parte teniendo el flujo de datos, que puede incluir datos de canal de transmisión y datos de parámetros, contener una indicación de configuración de parámetros que se ha insertado en el lado del codificador y se evalúa en el lado del descodificador. Esta indicación indica si los medios de reconstrucción multicanal están configurados a partir de los datos de entrada, es decir, a partir de los datos transmitidos desde el codificador al descodificador, o si los medios de reconstrucción multicanal están configurados por una indicación para un algoritmo de codificación con la cual se han descodificado datos de canal de transmisión codificados. Los medios de reconstrucción multicanal tienen un ajuste de configuración idéntico a un ajuste de configuración del descodificador de audio para descodificar los datos de canal de transmisión codificados o al menos dependiente de este ajuste.

Si un detector detecta la primera situación, es decir la indicación de configuración de parámetros tiene un primer significado, el descodificador buscará información de configuración adicional en los datos de entrada recibidos, para configurar apropiadamente los medios de reconstrucción multicanal, para utilizar la información entonces para efectuar un ajuste de configuración de los medios de reconstrucción multicanal. Tal ajuste de configuración podría ser, por ejemplo, longitud de bloque, avance, frecuencia de muestreo, datos de control de banco de filtros, la denominada información granular (cuántos bloques BCC hay en un trama), configuraciones de canal (por ejemplo se genera una salida 5.1 siempre que hay "mp3"), información sobre qué datos de parámetros son obligatorios en un caso ajustado a escala (por ejemplo, ICLD) y cuáles no (ICTD), etc.

Sin embargo, si el descodificador determina que la indicación de configuración de parámetros tiene un segundo significado diferente del primer significado, los medios de reconstrucción multicanal escogerán el ajuste de configuración en los medios de reconstrucción multicanal dependiendo de la información acerca del algoritmo de codificación de audio en el que se basa la codificación/descodificación de los datos de canal de transmisión, es decir, los canales de downmix.

En contraste con el concepto separado de los datos de parámetros por una parte y los datos de downmix comprimidos por otra parte, el dispositivo de la invención para generar una señal de audio multicanal comete un "robo", por así decirlo, para la configuración de los medios de reconstrucción multicanal, en los datos de audio realmente separados por completo y autosuficientes y/o en un descodificador de audio aguas arriba que opera de manera autosuficiente, para configurarse a sí mismo.

El concepto de la invención es particularmente potente en una realización preferida de la presente invención cuando se consideran diferentes algoritmos de codificación de audio. En este caso, tendría que transmitirse una gran cantidad de información de señalización explicita para conseguir un funcionamiento síncrono, es decir, un funcionamiento en el que los medios de reconstrucción multicanal operan de manera síncrona con el descodificador de audio, a saber, las longitudes de avance correspondientes, etc., para cada algoritmo de codificación diferente, de tal manera que el algoritmo de reconstrucción multicanal realmente independiente funciona de manera síncrona con el algoritmo de descodificación de audio.

Según la invención, la indicación de configuración de parámetros, para la que es suficiente un único bit, señaliza a un descodificador que, para el propósito de su configuración, se busca de qué codificador de audio está aguas abajo. A continuación de esto, el descodificador recibirá información sobre qué codificador de audio está actualmente aguas arriba de un número de codificadores de audio diferentes. Cuando se ha recibido esta información, entrará preferiblemente a una tabla de configuración depositada en el descodificador multicanal con esta identificación de algoritmo de codificación de audio para recuperar ahí la información de configuración predefinida para cada uno de los posibles algoritmos de codificación de audio para efectuar al menos un ajuste de configuración de los medios de reconstrucción multicanal. Esto consigue un ahorro de tasa de datos significativo en comparación con el caso en el que la configuración se señaliza explícitamente en el flujo de datos, en el que no hay por tanto consideración entre los medios de reconstrucción multicanal y el descodificador de audio, en el que no hay "robo" de la invención de los datos de descodificador de audio tampoco por los medios de reconstrucción multicanal.

Por otra parte, el concepto de la invención todavía proporciona la alta flexibilidad inherente a la señalización explicita de información de configuración, porque, debido a la indicación de configuración de parámetros, para la que es suficiente un único bit en el flujo de datos, existe la posibilidad de transmitir realmente toda la información de configuración en el flujo de datos, si es necesario o, como una forma mixta, de transmitir al menos parte de la información de configuración de parámetros en el flujo de datos y tomar otra parte de información necesaria de un conjunto de información determinada.

En una realización preferida de la presente invención, los datos transmitidos desde el codificador al descodificador incluyen además una señalización de indicación de continuación a un descodificador si deben cambiarse los ajustes de configuración en todo en comparación con los ajustes de configuración ya existentes o previamente señalizados, o si debe continuarse como antes, o si, como reacción a un cierto ajuste de la indicación de continuación, la indicación de configuración de parámetros se lee para determinar si debe haber una alineación de los medios de reconstrucción multicanal con respecto al descodificador de audio, o si información al menos parcialmente explicita con respecto a la configuración está contenida en los datos de transmisión.

A continuación se explicarán realizaciones preferidas de la presente invención en más detalle con respecto a los dibujos adjuntos, en los que:

la figura 1 es un diagrama de circuito de bloques de un dispositivo de la invención para generar un conjunto de datos de parámetros que puede utilizarse en el lado del codificador;

la figura 2 es un diagrama de circuito de bloques de un dispositivo para generar una señal de audio multicanal utilizada en el lado del descodificador;

la figura 3 es un diagrama de flujo principal del funcionamiento de los medios de configuración de la figura 2 en una realización preferida de la presente invención;

la figura 4a es una representación esquemática de los flujos de datos para un funcionamiento síncrono entre el descodificador de audio y los medios de reconstrucción multicanal;

la figura 4b es una representación esquemática de los flujos de datos para un funcionamiento asíncrono entre el descodificador de audio y los medios de reconstrucción multicanal;

la figura 4c es una realización preferida del dispositivo para generar una señal de audio multicanal en forma de sintaxis;

la figura 5 es una representación general de un codificador multicanal;

la figura 6 es un diagrama de bloques esquemático de una trayectoria de codificador BCC/descodificador BCC;

la figura 7 es un diagrama de circuito de bloques del bloque de síntesis BCC de la figura 6; y

las figuras 8A a 8C son una representación de escenarios típicos para el cálculo de los conjuntos de parámetros ICLD, ICTD e ICC.

\vskip1.000000\baselineskip

La figura 1 muestra un diagrama de circuito de bloques de un dispositivo de la invención para generar un conjunto de datos de parámetros, donde el conjunto de datos de parámetros puede emitirse en una salida 10 del dispositivo mostrado en la figura 1. El conjunto de datos de parámetros contiene datos de parámetros que, junto con los datos de canal de transmisión no ilustrados en la figura 1, pero que se comentarán posteriormente, representan N canales originales, donde los datos de canal de transmisión incluirán normalmente M canales de transmisión, donde el número M de canales de transmisión es menor que el número M de canales originales y es mayor o igual a 1.

El dispositivo mostrado en la figura 1, que se alojará en el lado del codificador, incluyen medios 11 de parámetros multicanal diseñados para realizar, por ejemplo, un análisis BCC en un análisis de intensidad estéreo o similares. En este caso, los medios 11 de parámetros multicanal recibirán N canales originales en una entrada 12. Alternativamente, sin embargo, los medios 11 de parámetros multicanal pueden también estar diseñados como medios de transcodificador para generar los datos de parámetros en la salida de los medios 11 utilizando datos de parámetros sin procesar existentes alimentados en una entrada 13 de parámetros sin procesar. Si los datos de parámetros son datos BCC simples como se proporcionan por cualquier medio de análisis BCC, el procesamiento de los medios 11 de parámetros multicanal consistirá simplemente en una función de copiado de los datos de la entrada 13 en una salida de los medios 11. Sin embargo, los medios 11 de parámetros multicanal pueden también estar diseñados para cambiar la sintaxis del flujo de datos de parámetros sin procesar para añadir, por ejemplo datos de señalización o para escribir conjuntos de parámetros que pueden descodificarse o saltarse al menos parcialmente independientes entre sí de los datos de parámetros sin procesar existentes.

El dispositivo mostrado en la figura 1 incluye además medios 14 de señalización para determinar y asociar una indicación de configuración de parámetros PKH con los datos de parámetros en la salida de los medios 11. En particular, los medios de señalización están diseñados para determinar la indicación de configuración de parámetros, de tal manera que tiene un primer significado cuando la información de configuración contenida en el conjunto de datos de parámetros va a utilizarse para una reconstrucción multicanal. Alternativamente, los medios 14 de señalización determinarán la indicación de configuración de parámetros, de tal manera que tiene un segundo significado cuando los datos de configuración que se basan en un algoritmo de codificación que va a utilizarse y/o se ha utilizado para codificar los datos de canal de transmisión van a utilizarse para una reconstrucción multicanal.

Finalmente, el dispositivo de la invención de la figura 1 incluye medios 15 de escritura de datos de configuración diseñados para asociar información de configuración con los datos de parámetros y la indicación de configuración de parámetros para obtener finalmente el conjunto de datos de parámetros en la salida 10. Así, el conjunto 10 de datos de parámetros incluye los datos de parámetros de los medios 11 de parámetros multicanal, la indicación de configuración de parámetros PKH de los medios 14 de señalización y, si es aplicable, datos de configuración de los medios 15 de escritura de datos de configuración. En el conjunto de datos de parámetros, estos elementos del conjunto de datos se disponen según una sintaxis determinada y normalmente se multiplexan en el tiempo, como se representa simbólicamente por un elemento denominado generalmente como medios 16 de combinación en la figura 1.

En una realización preferida de la presente invención, los medios 14 de señalización se acoplan a los medios 15 de escritura de datos de configuración a través de una línea 17 de control para activar los medios 15 de escritura de datos de configuración solamente cuando la indicación de configuración de parámetros tiene el primer significado, es decir, cuando, en una reconstrucción multicanal, no se accederá a ninguna información de configuración presente en el descodificador de ninguna manera, pero cuando hay señalización explicita, es decir, cuando está presente información de configuración adicional en el conjunto de datos de parámetros. En el otro caso, en el que la indicación de configuración de parámetros tiene el segundo significado, los medios 15 de escritura de datos de configuración no se activan para introducir datos en el conjunto de datos de parámetros en la salida 10, porque tales datos no se leerían mediante un descodificador y/o no se requerirían por el descodificador, como se comentará posteriormente. En el caso de una solución mixta, en lugar de señalizar todo en el flujo de datos, solamente se señaliza una parte de la configuración, mientras que el resto se toma, por ejemplo, de la tabla de configuración en el descodificador.

Los medios 14 de señalización incluyen una entrada 18 de control, mediante la cual se informa a los medios 14 de señalización de si la indicación de configuración de parámetros va a tener el primero o el segundo significado. Como se comentará con respecto a las figuras 4a y 4b, en el denominado funcionamiento "síncrono", se prefiere escoger la indicación de configuración de parámetros de tal manera que tenga el segundo significado para obtener información sobre el algoritmo de codificación de tal manera en el lado del descodificador y para realizar ajustes de configuración en los medios de reconstrucción multicanal en el lado del descodificador dependiendo de lo mismo. En el funcionamiento asíncrono, sin embargo, la entrada 18 de control accionará los medios de señalización de tal manera que determinen el primer significado para la indicación de configuración de parámetros, que será interpretada por un descodificador de tal manera que hay información de configuración en los propios datos, y el algoritmo de codificación de audio en el que se basan los datos de canal de transmisión no se utilizará.

Ha de observarse que el conjunto de datos de parámetros y/o la salida de datos de parámetros no tienen que estar en una forma rígida entre sí. Así, la indicación de configuración, los datos de configuración y los datos de parámetros no tienen que transmitirse juntos necesariamente en un flujo o paquete, sino que pueden también proporcionarse al descodificador por separado entre sí.

La siguiente descripción presentará el denominado funcionamiento "síncrono" con respecto a la figura 4a. Para fines de ilustración, la figura 4a ilustra los datos de parámetros como una secuencia de tramas 40, donde la secuencia de tramas 40 es precedida por una cabecera 41 en la que está la indicación de configuración de parámetros generada por los medios 14 de señalización, y en la que si es aplicable, hay información de configuración adicional generada por los medios 15 de escritura de datos de configuración. Los datos de parámetros en la salida de los medios 11 se alojan en las tramas 1, 2, 3, 4, que es la razón por la cual se denominan datos de carga útil en la figura 4a.

La indicación de continuación FSH, que se menciona tanto en la figura 1 en la salida de los medios 14 de señalización como también se menciona adicionalmente para la cabecera 41 en la figura 4a, hace que un descodificador mantenga, es decir, continúe, un ajuste de configuración previamente comunicado al mismo, cuando tiene un significado determinado, mientras que, cuando la indicación de continuación FSH tiene otro significado, hay una decisión basándose en la indicación de configuración de parámetros de si se realizarán ajustes de configuración en los medios de reconstrucción multicanal basándose en la información de configuración en el flujo de datos o basándose en datos de configuración recuperados por una indicación para el algoritmo de codificación de audio en el lado del descodifica-
dor.

La figura 4a representa además una secuencia 42 de bloques de datos de transmisión codificados en asociación en el tiempo, que también tienen cuatro tramas, trama 1, trama 2, trama 3, trama 4. La asociación en el tiempo de los datos de parámetros con los datos de canal de transmisión codificados se ilustra por flechas verticales en la figura 4a. Así, un bloque de datos de canal de transmisión codificados siempre se relacionará con un bloque de datos de entrada y/o, cuando se utilizan ventanas solapantes, al menos se determinará el avance de cuántos datos en un bloque se procesan nuevamente en comparación con el bloque anterior y, en funcionamiento síncrono, serán síncronos con la longitud de bloque y/o el avance en el que se obtienen los datos de parámetros. Esto garantiza que la conexión entre los parámetros de reconstrucción por una parte y los datos de canal de transmisión por otra parte no se pierda.

Esto se explicará por medio de un ejemplo breve. Suponiendo una señal de entrada de 5 canales, esta señal de entrada de 5 canales tendrá cinco canales de audio diferentes que incluyen muestras de tiempo desde un tiempo x hasta un tiempo y, respectivamente. En la fase 114 de downmix de la figura 6, se genera entonces al menos un canal de transmisión que será síncrono con los datos de entrada multicanal. Una parte de los datos de canal de transmisión desde el tiempo x hasta el tiempo y corresponderá por tanto a una parte de los datos de entrada multicanal respectivos desde el tiempo x hasta el tiempo y. Además, los medios 116 de análisis BCC de la figura 6 generan, por ejemplo, datos de parámetros, de nuevo exactamente para la sección de tiempo de los datos de canal de transmisión desde el tiempo x hasta el tiempo y, de tal manera que, en el lado del descodificador, pueden generarse de nuevo datos de canal de salida respectivos desde el tiempo x hasta el tiempo y a partir de los datos del canal de transmisión desde el tiempo x hasta el tiempo y y los datos de parámetros desde el tiempo x hasta el tiempo y.

Se consigue automáticamente un funcionamiento síncrono cuando las tramas con las que se generan y escriben los datos de parámetros son iguales a las tramas con las que opera el codificador de audio para comprimir el uno o más canales de transmisión. Así, si las tramas de tanto los datos de parámetros como los datos de canal de transmisión codificados (40 y 42 en la figura 4a) se refieren siempre a la misma parte de tiempo, un dispositivo de reconstrucción multicanal siempre puede procesar fácilmente datos correspondientes a una trama de audio y procesar una trama de parámetros al mismo tiempo.

En funcionamiento síncrono, la longitud de trama del codificador de audio utilizado para la transmisión de los datos de downmix es igual por tanto a la longitud de trama utilizada por el esquema multicanal paramétrico. De manera similar, también existe por supuesto la posibilidad de que haya una relación entera entre las longitudes de trama de los datos de parámetros y los datos de canal de transmisión codificados. En este caso, la información lateral para la codificación multicanal paramétrica puede multiplexarse en el flujo de bits codificado de la señal de downmix de audio de tal manera que puede generarse un flujo de un único bit. En el caso de "retroactualización" de datos estéreo ya existentes, todavía habría dos flujos de datos diferentes. Sin embargo, habría una relación de 1:1 y/o m:1 o m:n entre las dos secuencias de tramas. Los barridos de tramas nunca se desplazarían entre sí. Así, hay una asociación no ambigua entre las tramas de datos de audio y las tramas de datos de información lateral paramétrica correspondientes. Este modo puede ser favorable para diversas aplicaciones.

Según la invención, la indicación de configuración de parámetros tendría el primer significado en tal caso. Esto significa que no habría o sólo habría parte de la información de configuración en la cabecera 41, debido a que se proporciona a los propios medios de reconstrucción multicanal información sobre el codificador de audio subyacente y dependiendo de lo mismo, escogen su ajuste de configuración, es decir, por ejemplo el número de muestras de tiempo para el avance o la longitud de bloque, etc.

En constaste, la figura 4b muestra un funcionamiento asíncrono. Existe un funcionamiento asíncrono cuando los datos 42' de canal de transmisión no tienen, por ejemplo, una estructura de trama, sino que solamente se producen como un flujo de muestras PCM. Alternativamente, tal situación asíncrona también surgiría cuando el codificador de audio tuviera una estructura de trama irregular o simplemente una estructura de trama con una longitud de trama y/o un barrido trama diferente del barrido de trama de los datos 40 de parámetros. Aquí, el esquema de codificación multicanal paramétrico y los medios de codificación/descodificación de audio se consideran por tanto como fases de procesamiento aisladas y separadas que no dependen entre sí. Esto es particularmente ventajoso en el caso de los denominados escenarios de codificación en tándem en los que hay varias fases sucesivas de codificación/descodificación. Si los datos de parámetros se acoplaran de manera fija a los datos de audio comprimidos, tendrían que realizarse una síntesis multicanal y un análisis multicanal posterior simultáneamente en cada codificación/descodificación. Ya que estas operaciones son de muchas pérdidas, las perdidas se acumularían gradualmente, lo que daría como resultado un deterioro creciente de la impresión multicanal.

En una cadena en tándem de este tipo, el ajuste de la indicación de configuración de parámetros al segundo significado y la estructura de información de configuración en el flujo de datos permiten un ajuste de configuración de los medios de reconstrucción multicanal en el descodificador independientemente del codificador de audio subyacente. Así, los datos de downmix pueden descodificarse/codificarse de cualquier manera sin tener siempre que realizar una síntesis multicanal o análisis multicanal al mismo tiempo. La introducción de información de configuración en el flujo de datos y preferiblemente en el flujo de datos de parámetros según la sintaxis de datos de parámetros permite, por así decirlo, determinar una asociación absoluta de los datos de parámetros con muestras de tiempo de los datos de canal de transmisión descodificados, es decir, una asociación que es autosuficiente y no se da en relación a una regla de procesamiento de trama de codificador, como en el funcionamiento síncrono.

En el funcionamiento asíncrono, se impide por tanto el deterioro de las características de sonido multicanal, debido a que no siempre se realiza un análisis/síntesis multicanal. Por tanto, el tamaño de trama para la codificación/descodificación multicanal paramétrica no tiene necesariamente que estar conectado con el tamaño de trama del codificador de audio.

El dispositivo de la figura 1 puede implementarse tanto como codificador y como el denominado "transcodificador hacia delante". En el primer caso, los medios de parámetros multicanal calculan los propios datos de parámetros. En el segundo caso, reciben los datos de parámetros ya en una forma determinada y proporcionan la salida de datos de parámetros de la invención con la indicación de configuración de parámetros y datos de configuración asociados. Así, el transcodificador hacia delante genera la salida de datos de parámetros de la invención a partir de cualquier salida de datos.

Lo inverso de esta medida se realiza mediante un denominado "transcodificador hacia atrás" que, a partir de la salida de datos de parámetros de la invención, genera alguna salida en la que ya no está contenida la indicación de configuración de parámetros, en la que, sin embargo, están completamente contenidos también los datos de configuración, de tal manera que no es necesario ningún uso de un algoritmo de codificación de audio en la reconstrucción multicanal para la configuración.

Según la invención, el transcodificador hacia atrás está diseñado como dispositivo para generar una salida de datos de parámetros que, junto con los datos de canal de transmisión que incluyen M canales de transmisión, representa N canales originales, donde M es menor que N y mayor o igual a 1, utilizando datos de entrada, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros que tiene un primer significado de que está contenida información de configuración para medios de reconstrucción multicanal en los datos de entrada, o tiene un segundo significado de que los medios de reconstrucción multicanal van a utilizar información de configuración que depende de un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión a partir de una versión codificada de los mismos. Contiene medios de escritura para escribir datos de configuración, donde los medios de escritura están diseñados para leer primero los datos de entrada para interpretar (30) la indicación de configuración de parámetros, y para recuperar información acerca de un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión a partir de una versión codificada de los mismos y para emitirlos como los datos de configuración, cuando la indicación de configuración de parámetros tiene el segundo significado.

A continuación, se describirá un diagrama de circuito de bloques de un dispositivo para generar una señal de audio multicanal según una realización preferida de la presente invención, con respecto a la figura 2. Para generar la señal de audio multicanal, se utilizan datos de entrada que incluyen datos del canal de transmisión que representan los M canales de transmisión y que incluyen además datos 21 de parámetros para obtener K canales de salida. Los M canales de transmisión y los datos de parámetros representan juntos N canales originales, donde M es menor que N y es mayor o igual a 1, y donde K es mayor que M. Además, los datos de entrada incluyen una indicación de configuración de parámetros PKH, como ya se comentó, mientras que los datos 20 de canal de transmisión son una versión descodificada de los datos 22 de canal de transmisión codificados según un algoritmo de codificación. En la realización mostrada en la figura 2, el algoritmo de descodificación se realiza mediante un descodificador 23 de audio que tiene un funcionamiento de algoritmo de codificación, por ejemplo, según el concepto de MP3 o según MPEG-2 (AAC) o según cualquier otro concepto de codificación.

El dispositivo que va a utilizarse en el lado del descodificador mostrado en la figura 2 incluye medios 24 de reconstrucción multicanal diseñados para generar los K canales de salida en una salida 25 a partir de los datos 20 de canal de transmisión y los datos 21 de parámetros.

Además, el dispositivo de la invención mostrado en la figura 2 incluye medios 26 de configuración diseñados para configurar los medios 24 de reconstrucción multicanal señalizando un ajuste de configuración a través de una línea 27 de señalización. Como los datos de entrada, los medios 26 de configuración reciben preferiblemente los datos 21 de parámetros para leer y procesar correspondientemente la indicación de configuración de parámetros, la indicación de continuación FSH y posiblemente datos de configuración presentes. Además, los medios de configuración incluyen una entrada 28 de señalización del algoritmo de codificación para obtener información acerca del algoritmo de codificación de audio en el que se basan los datos de canal de transmisión descodificados, es decir, el algoritmo de codificación ejecutado por el codificador 23 de audio. La información puede ser obtenida de diferentes maneras, por ejemplo a partir de una observación de los datos de canal de transmisión descodificados, si puede verse a partir de los mismos con qué algoritmo de codificación se han codificado/descodificado. Alternativamente, el descodificador 23 de audio puede comunicar por sí mismo su identidad a los medios 26 de configuración. Todavía alternativamente, los medios 26 de configuración pueden también analizar sintácticamente los datos 22 de canal de transmisión codificados para determinar una indicación a partir de los datos de canal de transmisión codificados según qué codificación de algoritmo de codificación haya tenido lugar. Tal "firma de algoritmo de codificación" estará normalmente contenida en cada flujo de datos de salida de un codificador.

A continuación, se describirá una implementación preferida de los medios de configuración basándose en un diagrama de bloques con respecto a la figura 3a. Los medios 26 de configuración están diseñados para leer la indicación de configuración de parámetros PKH a partir de los datos de entrada e interpretarla, como se ilustra en el bloque 30. Si la indicación de configuración de parámetros tiene un primer significado, los medios de configuración continuarán leyendo el flujo de datos de parámetros para extraer información de configuración (o al menos parte de la información de configuración) en el flujo de datos de parámetros, como se ilustra en el bloque 31. Si, sin embargo, la etapa 30 determina que la indicación de configuración de parámetros PKH tiene el segundo significado, los medios de configuración obtendrán información sobre un algoritmo de codificación en el que se basan los datos del canal de transmisión descodificados, en la etapa 32.

Si hay varios algoritmos de codificación básicamente posibles para los cuales está diseñado el dispositivo de la invención para generar la señal multicanal, la etapa 32 es seguida por una etapa 33 posterior en la que los medios de reconstrucción multicanal determinan (33) un ajuste de configuración basándose en información existente en el lado del descodificador. Esto puede realizarse, por ejemplo, en forma de una tabla de consulta (LUT, Look-Up Table). Si, al final de la etapa 32, se obtiene una indicación de identificación de codificador de audio, se entra en la tabla de consulta en la etapa 33 utilizando la indicación de identificación de codificador de audio, donde la indicación de identificación de codificador de audio se utiliza como índice. Asociados en el índice hay diversos ajustes de configuración encontrados, tales como longitud de bloque, tasa de muestreo, avance, etc., asociados con tal codificador de audio.

Entonces se aplica un ajuste de configuración a los medios de reconstrucción multicanal en la etapa 34. Sin embargo, si el primer significado de la indicación de configuración de parámetros se escoge en la etapa 30, el mismo ajuste de configuración se efectúa basándose en información de configuración contenida en el flujo de datos de parámetros, como se representa por la fecha de conexión entre el bloque 31 y el bloque 34 en la figura 3.

El esquema de la invención es flexible porque soporta métodos de señalización de información de configuración tanto explícitos como implícitos. Esto es para lo que sirve la indicación de configuración de parámetros PKH, que se inserta preferiblemente como etiqueta y, en el mejor caso, requiere solamente un único bit para indicar la señalización de la información de configuración en sí. El descodificador multicanal paramétrico puede evaluar posteriormente esta etiqueta. Si la disponibilidad de información de configuración disponible explícitamente se señaliza con esta etiqueta, se utiliza esta información de configuración. Por otra parte, si se indica la señalización implícita por la etiqueta, el descodificador utilizará la información sobre el método de codificación de audio o voz utilizado y aplicará la información de configuración basada en método de codificación señalizado. Para este propósito, el descodificador multicanal paramétrico y/o los medios de reconstrucción multicanal tienen preferiblemente una tabla de consulta que contiene la información de configuración estándar para un número determinado de codificadores de audio o voz. Sin embargo, también hay otras posibilidades de una tabla de consulta que pueda, por ejemplo, incluir soluciones cableadas, etc. En general, el descodificador puede proporcionar la información de configuración con información predeterminada presente en sí misma dependiendo de la información de identificación del codificador presente actualmente.

Este concepto es particularmente ventajoso porque puede conseguirse una configuración completa del esquema de parámetros con un mínimo de esfuerzo adicional, donde, en el caso extremo, un único bit será suficiente, lo que forma un contraste con la situación de que toda la información de configuración tendría que escribirse explícitamente en el propio flujo de datos con un esfuerzo considerablemente superior con respecto a bits.

Según la invención, la señalización puede conmutarse alternativamente. Esto permite una manipulación de datos multicanal simple, incluso si la representación de los datos de canal de transmisión cambia, por ejemplo cuando los datos de canal de transmisión se descodifican y se codifican de nuevo posteriormente, es decir, cuando hay una situación de codificación en tándem.

El concepto de la invención permite por tanto el ahorro de bits de señalización en el caso de funcionamiento síncrono por una parte y conmutación a funcionamiento asíncrono por otra parte, si es necesario, es decir, una implementación de ahorro de bits eficaz y, por otra parte, manipulación flexible, que será de particular interés en relación con la "complementación" de datos estéreo existentes para una representación multicanal.

A continuación, se dará una implementación a modo de ejemplo del dispositivo de la invención para generar una señal de audio multicanal con el ejemplo de un pseudocódigo de sintaxis, con respecto a la figura 4c. En primer lugar, se lee el valor de la variable "useSameBccConfig". Aquí, la variable sirve como indicación de continuación. Así, hay solamente una continuación para interpretar la indicación de configuración de parámetros cuando esta variable, es decir, la indicación de configuración, tiene un valor igual a, por ejemplo, 1. Sin embargo, si la indicación de configuración no es igual a 1, es decir, tiene el otro significado, se utiliza una configuración transmitida previamente. Si todavía no hay ninguna configuración en los medios de reconstrucción multicanal, tiene que esperar hasta que obtiene justo la primera información de configuración y/o ajuste de configuración. Lo siguiente examinará la indicación de configuración de parámetros. La variable "codecToBccConfigAlignment" sirve como indicación de configuración de parámetros PKH. Si esta variable es igual a 1, es decir, si tiene el segundo significado, el descodificador no utilizará ninguna información de configuración adicional, sino que determinará la información de configuración basándose en la identificación del codificador, tal como MP3, CoderX o CoderY, como puede verse a partir de las líneas que empiezan con "case" en la figura 4c. Ha de observarse que, a modo de ejemplo, la sintaxis mostrada en la figura 4c soporta solamente MP3, CoderX y CoderY. Sin embargo, puede añadirse cualquier otro nombre/identificación de codificación.

\newpage

Cuando se ha determinado, por ejemplo MP3 como información del codificador, la variable bccConfigID se ajusta por ejemplo, a MP3_V1, que es la configuración para un codificador MP3 subyacente con la versión de sintaxis V1. Posteriormente, el descodificador se configura con un conjunto de parámetros determinado basándose en esta identificación de configuración BCC. Así, por ejemplo, se activa una longitud de bloque de 576 muestras como ajuste de configuración. Así, se señalizan tramas que tienen esta longitud de bloque. Ajustes de configuración alternativos/adicionales pueden ser la tasa de muestreo, etc., sin embargo, si la indicación de configuración de parámetros (codecToBccConfigAlignment) tiene el primer significado, es decir, por ejemplo el valor 0, el descodificador recibirá explícitamente información de configuración desde el flujo de datos, es decir, recibirá una bccConfigID distinta del flujo de datos, es decir, de los datos de entrada. El siguiente procedimiento es entonces el mismo que el que se acaba de describir. Sin embargo, este caso, no se utiliza una identificación del descodificador para descodificar los datos de canal de transmisión codificados para fines de configuración de los medios de reconstrucción multicanal.

Así, la bccConfigID puede utilizarse para el fin de descodificar los datos de canal de transmisión en el caso de un descodificador de audio MP3 para configurar medios de reconstrucción multicanal. Por otra parte, también puede haber cualquier otra bccConfigID de información de configuración en el flujo de datos y puede evaluarse, independientemente de si el codificador de audio subyacente o es un codificador MP3 o no. Lo mismo se aplica a otros ajustes de configuración predefinidos, tales como CoderX y CoderY, y a una configuración libre adicional en la que la información de configuración (bccConfigID) se ajusta a individual. En realizaciones preferidas, hay información de configuración adicional en el flujo de datos que, a su vez, señaliza al descodificador que debería utilizar una mezcla de información de configuración ya predefinida presente en el descodificador e información de configuración transmitida explícitamente.

A diferencia de las realizaciones descritas anteriormente, la presente invención también puede aplicarse a otras señales multicanal que no son señales de audio, tales como señales de vídeo codificadas paramétricamente, etc.

Dependiendo de las circunstancias, el método de la invención de generación y/o descodificación puede implementarse en hardware o en software. La implementación puede realizarse en un medio de almacenamiento digital, en particular un disco flexible o un CD que tiene señales de control que pueden ser leídas electrónicamente, que puede actuar conjuntamente con un sistema informático programable, de tal manera que se ejecuta el método. Así, en general, la invención consiste también en un producto de programa informático que tiene un código de programa para realizar el método almacenado en un soporte legible por máquina, cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, la invención puede por tanto realizarse como un programa informático que tiene un código de programa para realizar el método, cuando el programa informático se ejecuta en un ordenador.

Claims

1. Dispositivo para generar una señal multicanal utilizando datos de entrada que incluyen datos de canal de transmisión que representan M canales de transmisión y datos de parámetros para obtener K canales de salida, en el que los M canales de transmisión y los datos de parámetros representan juntos N canales originales, donde M es menor que N y mayor o igual a 1 y donde K es mayor que M, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros, que comprende:

medios (24) de reconstrucción multicanal diseñados para generar los K canales de salida a partir de los datos de canal de transmisión y los datos de parámetros; y

medios (26) de configuración para configurar los medios de reconstrucción multicanal, en el que los medios de configuración están diseñados para

: leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros,

: cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración de los medios de reconstrucción multicanal, y

: cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, configurar (34) los medios de reconstrucción multicanal utilizando información sobre un algoritmo (23) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos de tal manera que el ajuste de configuración de los medios de reconstrucción multicanal es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.

2. Dispositivo según la reivindicación 1, en el que los datos de canal de transmisión comprenden un flujo de datos de canal de transmisión que tiene una sintaxis de datos de canal de transmisión,

en el que los datos de parámetros comprenden un flujo de datos de parámetros que tiene una sintaxis de datos de parámetros, en el que la sintaxis de datos de canal de transmisión difiere de la sintaxis de datos de parámetros, y

en el que la indicación de configuración de parámetros se inserta en los datos de parámetros según esta sintaxis,

en el que los medios (26) de configuración están diseñados para leer los datos de parámetros según la sintaxis de datos de parámetros y para extraer (30) la indicación de configuración de parámetros.

3. Dispositivo según la reivindicación 1 ó 2, en el que los medios (24) de reconstrucción multicanal están diseñados para realizar el procesamiento en bloques, en el que los datos de canal de transmisión son una secuencia de muestras y en el que el ajuste de configuración incluye una longitud de bloque o número de avance de muestras que se procesan nuevamente por los medios (24) de de reconstrucción multicanal por procesamiento de un bloque.

4. Dispositivo según la reivindicación 3, en el que los datos de canal de transmisión son muestras de tiempo del al menos un canal de transmisión, y los medios (24) de reconstrucción multicanal comprenden un banco de filtros para convertir un bloque de muestras de tiempo de los datos de canal de transmisión a una representación de dominio de la frecuencia.

5. Dispositivo según una de las reivindicaciones anteriores, en el que los datos de parámetros comprenden una secuencia de bloques de valores de parámetros, en el que un bloque de valores de parámetros está asociado con una parte de tiempo de al menos un canal de transmisión, en el que los medios (24) de reconstrucción multicanal están diseñados de tal manera que el ajuste de configuración hace que el bloque de valores de parámetros y la parte de tiempo asociada del al menos un canal de transmisión se utilicen para generar los K canales de salida.

6. Dispositivo según una de las reivindicaciones anteriores, en el que el algoritmo (23) de codificación es uno de entre una pluralidad de diversos algoritmos de codificación, y

en el que los medios (26) de configuración comprenden medios de tabla de consulta que incluyen un índice y un conjunto de información de configuración asociado con el índice para un algoritmo de codificación, que comprende respectivamente el ajuste de configuración para los algoritmos de codificación,

en el que los medios (26) de configuración están diseñados para determinar el índice para la tabla de consulta a partir de la información sobre el algoritmo de codificación y para determinar (33) a partir de la misma la información de configuración para los medios de reconstrucción multicanal.

7. Dispositivo según una de las reivindicaciones anteriores, en el que los datos de entrada comprenden información de configuración para los medios (24) de reconstrucción multicanal en el caso de una indicación de configuración de parámetros que tiene el primer significado, y comprenden sólo parte de o ninguna información de configuración para los medios de reconstrucción multicanal en el caso de la indicación de configuración de parámetros que tiene el segundo significado.

8. Dispositivo según una de las reivindicaciones anteriores, en el que los medios (26) de configuración están diseñados para extraer sólo parte de la información de configuración requerida a partir de los datos de entrada cuando la indicación de configuración de parámetros tiene el segundo significado, y para utilizar una parte restante de información de configuración de la información de configuración preestablecida conocida para los medios de reconstrucción multicanal.

9. Dispositivo según una de las reivindicaciones anteriores, en el que los medios (26) de configuración están diseñados para obtener la información sobre el algoritmo de codificación a través de una línea de conexión a través de la cual los medios de configuración pueden conectarse a un descodificador que genera los datos de canal de transmisión a partir de los datos de canal de transmisión codificados, o para obtener la información sobre el algoritmo de codificación leyendo los datos de canal de transmisión o los datos de canal de transmisión codificados, cuando la indicación de configuración de parámetros tiene el segundo significado.

10. Dispositivo según una de las reivindicaciones anteriores, en el que los datos de entrada comprenden además una indicación (41) de continuación y

en el que los medios (26) de configuración están diseñados para leer e interpretar (29) la indicación de continuación para efectuar un ajuste de configuración establecido de manera fija o señalizado previamente de los medios de reconstrucción multicanal en caso de que la indicación de continuación tenga un primer significado, y para configurar (30) los medios de reconstrucción multicanal basándose en la indicación de configuración de parámetros solamente en caso de que la indicación de continuación tenga un segundo significado que difiere del primer significado.

11. Dispositivo según la reivindicación 10, en el que la indicación de continuación está asociada con los datos de parámetros según una sintaxis de datos de parámetros y es una etiqueta en el flujo de datos de parámetros.

12. Dispositivo según una de las reivindicaciones anteriores, en el que la indicación de configuración de parámetros está asociada con los datos de parámetros según una sintaxis de datos de parámetros y es una etiqueta en el flujo de datos de parámetros.

13. Dispositivo según la reivindicación 11 ó 12, en el que la indicación de continuación o la indicación de configuración de parámetros incluye cada una un único bit.

14. Método para generar una señal multicanal utilizando datos de entrada que incluyen datos de canal de transmisión que representan M canales de transmisión y datos de parámetros para obtener K canales de salida, en el que los M canales de transmisión y los datos de parámetros representan juntos N canales originales, donde M es menor que N y mayor o igual a 1, y donde K es mayor que M, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros, que comprende:

reconstruir (24) los K canales de salida a partir de los datos de canal de transmisión y los datos de parámetros según un algoritmo de reconstrucción;

configurar (26) el algoritmo de reconstrucción mediante las siguientes subetapas:

: leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros;

: cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración del algoritmo de reconstrucción y

: cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, efectuar (34) el ajuste de configuración del algoritmo de reconstrucción utilizando información sobre un algoritmo (22) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos, de tal manera que el ajuste de configuración es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.

15. Dispositivo para generar una salida de datos de parámetros que, junto con los datos de canal de transmisión que incluyen M canales de transmisión, representa N canales originales, donde M es menor que N y es mayor o igual a 1, que comprende:

medios (11) de parámetros multicanal para proporcionar los datos de parámetros;

medios (14) de señalización para determinar una indicación de configuración de parámetros, en el que la indicación de configuración de parámetros tiene un primer significado cuando va a utilizarse información de configuración contenida en la salida de datos de parámetros para medios de reconstrucción multicanal, y en el que la indicación de configuración de parámetros tiene un segundo significado cuando van a utilizarse datos de configuración para una reconstrucción multicanal que se basan en un algoritmo de codificación que va a utilizarse para la codificación o descodificación de los M canales de transmisión; y

medios (15) de escritura de datos de configuración para emitir la información de codificación para obtener la salida de datos de parámetros.

16. Dispositivo según la reivindicación 15, en el que los medios (15) de escritura de datos de configuración están diseñados para insertar una indicación de continuación en el conjunto de datos de parámetros,

en el que la indicación de continuación hace que se utilice un ajuste de configuración establecido de manera fija previamente señalizado en una reconstrucción multicanal cuanto tiene un primer significado, y hace que tenga lugar una configuración de una reconstrucción multicanal utilizando la indicación de configuración de parámetros cuando la indicación de continuación tiene un segundo significado que difiere del primer significado.

17. Dispositivo según la reivindicación 15 ó 16, en el que los medios de escritura de datos de configuración están diseñados para asociar ninguna o sólo parte de la información de configuración necesaria con el conjunto de datos de parámetros cuando la indicación de configuración de parámetros tiene el segundo significado (17).

18. Método para generar una salida de datos de parámetros que, junto con los datos de canal de transmisión que incluyen M canales de transmisión, representa N canales originales, donde M es menor que N y es mayor o igual a 1, que comprende:

proporcionar (11) los datos de parámetros;

determinar (14) una indicación de configuración de parámetros, en el que la indicación de configuración de parámetros tiene un primer significado cuando va a utilizarse información de configuración contenida en la salida de datos de parámetros para un algoritmo de reconstrucción multicanal, y en el que la indicación de configuración de parámetros tiene un segundo significado cuando van a utilizarse datos de configuración para una reconstrucción multicanal que se basa en un algoritmo de codificación que va a utilizarse para la codificación o descodificación de los M canales de transmisión; y

emitir (15) la información de configuración para obtener la salida de datos de parámetros.

19. Dispositivo para generar una salida de datos de parámetros que, junto con los datos de canal de transmisión que incluyen M canales de transmisión, representa N canales originales, donde M es menor que N y es mayor o igual a 1, utilizando datos de entrada, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros que tiene un primer significado de que la información de configuración para medios de reconstrucción multicanal está contenida en los datos de entrada, o tiene un segundo significado de que los medios de reconstrucción multicanal van a utilizar información de configuración que depende de un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión, que comprende:

medios de escritura para escribir datos de configuración, en el que los medios de escritura están diseñados para

: leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros, y

: cuando la indicación de configuración de parámetros tiene el segundo significado, recuperar y emitir como la información de datos de configuración sobre un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión.

20. Método para generar una salida de datos de parámetros que, junto con los datos de canal de transmisión que incluyen M canales de transmisión, representa N canales originales, donde M es menor que N y es mayor o igual a 1, utilizando datos de entrada, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros que tiene un primer significado de que la información de configuración para medios de reconstrucción multicanal está contenida en los datos de entrada, o tiene un segundo significado de que los medios de reconstrucción multicanal van a utilizar información de configuración que depende de un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión, que comprende:

leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros;

cuando la indicación de configuración de parámetros tiene el segundo significado, recuperar información sobre un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión, y emitir los datos de configuración recuperados.

21. Producto de programa informático que tiene un código de programa para realizar el método según la reivindicación 14, la reivindicación 18 o la reivindicación 20, en el que el programa informático se ejecuta en un ordenador.