ES2293578T3

ES2293578T3 - Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal.

Info

Publication number: ES2293578T3
Application number: ES05743164T
Authority: ES
Inventors: Heiko Purnhagen; Lars Villemoes; Jonas Engdegard; Jonas Roden; Kristofer Kjorling
Original assignee: Coding Technologies Sweden AB
Current assignee: Coding Technologies Sweden AB
Priority date: 2004-04-16
Filing date: 2005-04-12
Publication date: 2008-03-16
Anticipated expiration: 2025-04-12
Also published as: US20200021915A1; JP5185340B2; EP1735775B8; US20070002971A1; US9972330B2; JP2007531027A; US10244320B2; US8538031B2; US20190320263A1; US10250985B2; ES2294703T3; JP2011018060A; US8693696B2; JP5185337B2; CN101860784A; US20170229127A1; JP4589962B2; US20170229128A1; EP1695338B1; US10129645B2

Abstract

Aparato para generar un parámetro de nivel dentro de una representación de parámetros de una señal multicanal que presenta varios canales originales, comprendiendo la representación de parámetros un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, comprendiendo el aparato: un calculador (900) de parámetro de nivel para calcular un parámetro (rM) de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales; y una interfaz de salida para generar datos de salida que incluyen el parámetro de nivel y el conjunto de parámetros o el parámetro de nivel y el al menos un canal de downmix.

Description

Aparato y método para generar un parámetro de nivel y aparato y método para generar una representación multicanal.

Campo técnico

La presente invención se refiere a la codificación de representaciones multicanal de señales de audio utilizando parámetros espaciales. La presente invención enseña nuevos métodos para estimar y definir parámetros apropiados para recrear una señal multicanal a partir de un número de canales que es menor que el número de canales de salida. En particular, tiene como objetivo minimizar la tasa de bits para la representación multicanal, y proporcionar una representación codificada de la señal multicanal permitiendo una codificación y descodificación fáciles de los datos para todas las posibles configuraciones de canales.

Antecedentes de la invención

Se ha mostrado en el documento WO-A-03/007656 "Efficient and scalable Parametric Stereo Coding for Low Bit rate Audio Coding Applications", que es posible recrear una imagen estéreo que se parece mucho a la imagen estéreo original a partir de una señal mono dada una representación muy compacta de la imagen estéreo. El principio básico es dividir la señal de entrada en bandas de frecuencia y segmentos de tiempo, y para estas bandas de frecuencia y segmentos de tiempo, estimar la diferencia de intensidad entre canales (IID, inter channel intensity difference), y coherencia entre canales (ICC, inter channel coherence). El primer parámetro es una medición de la distribución de potencia entre los dos canales en la banda de frecuencia específica y el segundo parámetro es una estimación de la correlación entre los dos canales para la banda de frecuencia específica. En el lado del descodificador, la imagen estéreo se recrea a partir de la señal mono distribuyendo la señal mono entre los dos canales de salida según los datos IID, y su-
mando una señal descorrelacionada con el fin de conservar la correlación de canales de los canales estéreo originales.

Para un caso multicanal (significando multicanal en este contexto más de dos canales de salida), tienen que tomarse en cuenta varios problemas adicionales. Existen diversas configuraciones multicanal. La más comúnmente conocida es la configuración 5.1 (canal central, delantero izquierdo/derecho, envolvente izquierdo/derecho, y el canal LFE). Sin embargo, existen muchas otras configuraciones. Desde el punto de vista de sistemas de codificador/descodificador completos, es deseable tener un sistema que pueda utilizar el mismo conjunto de parámetros (por ejemplo, IID e ICC) o subconjuntos de los mismos para todas las configuraciones de canales. ITU-R BS.775 define varios esquemas de downmix (esquemas de conversión de señal envolvente a señal mono o estéreo) que pueden obtener una configuración de canales que comprende menos canales a partir de una configuración de canales dada. En lugar de tener que descodificar siempre todos los canales y basarse en un downmix, puede ser deseable tener una representación multicanal que permita a un receptor extraer de antemano los parámetros relevantes para la configuración de canales, antes de descodificar los canales. Además, es deseable un conjunto de parámetros escalable de manera inherente desde un punto de vista de codificación embebida o escalable, en el que es posible, por ejemplo, almacenar los datos correspondientes a los canales envolventes en una capa de mejora en el flujo de bits.

Contrariamente a lo anterior, también puede ser deseable poder utilizar diferentes definiciones de parámetros basándose en las características de la señal que está procesándose, con el fin de conmutar entre la parametrización que da como resultado la sobrecarga de tasa de bits más baja para el segmento de señal actual que está procesándose.

Otra representación de señales multicanal utilizando una señal de suma o señal de downmix e información lateral paramétrica adicional se conoce en la técnica como codificación de indicación binaural (BCC, binaural cue coding). Esta técnica se describe en "Binaural Cue Coding - Part 1: Psycho-Acoustic Fundamentals and Design Principles", IEE Transactions on Speech and Audio Processing, volumen 11, número 6, noviembre de 2003, F. Baumgarte, C. Faller, y "Binaural Cue Coding. Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing volumen 11, número 6, noviembre de 2003, C. Faller y F. Baumgarte.

Generalmente, la codificación de indicación binaural es un método para la interpretación espacial multicanal basándose en un canal de audio de downmix e información lateral. Varios parámetros que van a calcularse mediante un codificador BCC y que van a utilizarse por un descodificador BCC para la reconstrucción de audio o la interpretación de audio incluyen diferencias de nivel entre canales, diferencias de tiempo entre canales, y parámetros de coherencia entre canales. Estas indicaciones entre canales son el factor determinante para la percepción de una imagen espacial. Estos parámetros se dan para bloques de muestras de tiempo de la señal multicanal original y también se dan como selectivos en función de las frecuencias de tal modo que cada bloque de muestras de señal multicanal presenta varias indicaciones para varias bandas de frecuencia. En el caso general de canales C de reproducción, las diferencias de nivel entre canales y las diferencias de tiempo entre canales se consideran en cada subbanda entre pares de canales, es decir, para cada canal respecto a un canal de referencia. Un canal se define como el canal de referencia para cada diferencia de nivel entre canales. Con las diferencias de nivel entre canales y las diferencias de tiempo entre canales, es posible interpretar una fuente hacia cualquier dirección entre uno de los pares de altavoces de una disposición de reproducción que se utiliza. Para determinar el ancho o el carácter difuso de una fuente interpretada, es suficiente considerar un parámetro por subbanda para todos los canales de audio. Este parámetro es el parámetro de coherencia entre canales. El ancho de la fuente interpretada se controla modificando las señales de subbanda de tal modo que todos los posibles pares de canales presentan el mismo parámetro de coherencia entre canales.

En la codificación BCC, todas las diferencias de nivel entre canales se determinan entre el canal 1 de referencia y cualquier otro canal. Cuando, por ejemplo, se determina que el canal central es el canal de referencia, se calculan una primera diferencia de nivel entre canales entre el canal izquierdo y el canal central, una segunda diferencia de nivel entre canales entre el canal derecho y el canal central, una tercera diferencia de nivel entre canales entre el canal envolvente izquierdo y el canal central, y una cuarta diferencia de nivel entre canales entre el canal envolvente izquierdo y el canal central. Este escenario describe un esquema de cinco canales. Cuando el esquema de cinco canales incluye adicionalmente un canal de mejora de bajas frecuencias, que también se conoce como un canal "de altavoz de graves" ("sub-woofer"), se calcula una quinta diferencia de nivel entre canales entre el canal de mejora de bajas frecuencias y el canal central, que es el único canal de referencia.

Cuando se reconstruye la señal multicanal original utilizando el canal de downmix único, que también se denomina como el canal "mono", y las indicaciones transmitidas tales como ICLD (diferencia de nivel entre canales, Interchannel Level Difference), ICTD (diferencia de tiempo entre canales, Interchannel Time Difference) e ICC (coherencia entre canales, Interchannel Coherente), los coeficientes espectrales de la señal mono se modifican utilizando estas indicaciones. La modificación de nivel se realiza utilizando un número real positivo que determina la modificación de nivel para cada coeficiente espectral. La diferencia de tiempo entre canales se genera utilizando un número complejo de magnitud de uno que determina una modificación de fase para cada coeficiente espectral. Otra función determina la influencia de la coherencia. Los factores para las modificaciones de nivel de cada canal se calculan calculando en primer lugar el factor para el canal de referencia. El factor para el canal de referencia se calcula de manera que para cada partición de frecuencia, la suma de la potencia de todos los canales es la misma que la potencia de la señal de suma. Entonces, basándose en el factor de modificación de nivel para el canal de referencia, se calculan los factores de modificación de nivel para los otros canales utilizando los parámetros ICLD respectivos.

Por tanto, con el fin de realizar síntesis BCC, ha de calcularse el factor de modificación de nivel para el canal de referencia. Para este cálculo, son necesarios todos los parámetros ICLD para una banda de frecuencia. Entonces, basándose en esta modificación de nivel para el canal único, pueden calcularse los factores de modificación de nivel para los otros canales, es decir, los canales que no son el canal de referencia.

Este enfoque no es ventajoso porque, para una reconstrucción perfecta, se necesita todas y cada una de las diferencias de nivel entre canales. Este requisito es incluso más problemático cuando está presente un canal de transmisión propenso a errores. Cada error dentro de una diferencia de nivel entre canales transmitida dará como resultado un error en la señal multicanal reconstruida, puesto que se requiere cada diferencia de nivel entre canales para calcular cada una de las señales de salida multicanal. Adicionalmente, no es posible la reconstrucción cuando se ha perdido durante la transmisión una diferencia de nivel entre canales, aunque esta diferencia de nivel entre canales sólo sea necesaria para, por ejemplo, el canal envolvente izquierdo o el canal envolvente derecho, canales que no son muy importantes para la reconstrucción multicanal, puesto que la mayoría de la información está incluida en el canal delantero izquierdo, al que posteriormente se le llama el canal izquierdo, en el canal delantero derecho, al que posteriormente se le llama el canal derecho, o en el canal central. Esta situación se vuelve incluso peor cuando la diferencia de nivel entre canales del canal de mejora de bajas frecuencias se ha perdido durante la transmisión. En esta situación, no es posible ninguna o sólo una reconstrucción multicanal errónea, aunque el canal de mejora de bajas frecuencias no es tan decisivo para la comodidad de escucha de los oyentes. Por tanto, los errores en una única diferencia de nivel entre canales se propagan a errores dentro de cada uno de los canales de salida reconstruidos.

Las representaciones multicanal paramétricas son problemáticas porque, normalmente, las diferencias de nivel entre canales, tales como las ICLD en la codificación BCC o los valores de equilibrio en otras representaciones multicanal paramétricas, se dan como valores relativos en lugar de valores absolutos. En BCC, un parámetro ICLD describe la diferencia de nivel entre un canal y un canal de referencia. Los valores de equilibrio también pueden darse como una relación entre dos canales en un par de canales. Cuando se reconstruye la señal multicanal, tales diferencias de nivel o parámetros de equilibrio se aplican a un canal base, que pueden ser una señal de canal base mono o de canal base estéreo que presenta dos canales base. Por tanto, la energía incluida en el al menos un canal base se distribuye, por ejemplo, entre los cinco o seis canales de salida reconstruidos. Por tanto, la energía absoluta en un canal de salida reconstruido se determina por la diferencia de nivel entre canales o el parámetro de equilibrio y la energía de la señal de downmix en la entrada del receptor.

Cuando se dan situaciones en las que la energía de la señal de downmix en la entrada del receptor varía con respecto a una señal de downmix emitida por un codificador, se producirán variaciones de nivel. En este contexto, ha de resaltarse que, dependiendo del esquema de parametrización utilizado, tales variaciones de nivel no sólo darán como resultado una variación de la sonoridad general de la señal reconstruida, sino que también puede dar como resultado artefactos serios, cuando los parámetros se dan como selectivos en función a la frecuencia. Cuando, por ejemplo, se manipula una cierta banda de frecuencia de la señal de downmix más de una banda de frecuencia en otro lugar de la escala de frecuencia, esta manipulación será fácilmente evidente en la señal de salida reconstruida, puesto que las componentes de frecuencia en el canal de salida en la cierta banda de frecuencia presentan un nivel, que es demasiado bajo o demasiado alto.

Adicionalmente, las manipulaciones de nivel que varían en el tiempo también darán como resultado un nivel global de la señal de salida reconstruida, que varía en el tiempo y, por lo tanto, se percibe como otro artefacto desagrada-
ble.

Mientras que las anteriores situaciones se concentraron en manipulaciones de nivel que resultan por la codificación, transmisión y descodificación de una señal de downmix, pueden producirse otras desviaciones de nivel. Debido a dependencias de fase entre diferentes canales sobre los que se realiza downmix para obtener uno o más canales, puede producirse una situación en la que la señal mono presente una energía que no sea igual a la suma de las energías en la señal original. Puesto que el downmix se realiza normalmente mediante muestras, es decir, añadiendo formas de onda de tiempo, una diferencia de fase entre la señal izquierda y la señal derecha de por ejemplo 180 grados dará como resultado una cancelación completa de ambos canales en la señal de downmix, lo que daría como resultado una energía cero, aunque, por supuesto, ambas señales presentan una cierta energía de señal. Aunque en situaciones normales no es muy probable una situación extrema de este tipo, todavía se producen variaciones de energía puesto que, por supuesto, todas las señales no están completamente no correlacionadas. Tales variaciones también pueden dar como resultado fluctuaciones de sonoridad en la señal de salida reconstruida y también darán como resultado artefactos, puesto que la energía de la señal de salida reconstruida será diferente de la energía de la señal multicanal
original.

Sumario de la invención

Es el objetivo de la presente invención proporcionar un concepto de parametrización, que da como resultado una reconstrucción multicanal que presenta una calidad de salida mejorada.

Este objetivo se consigue mediante un aparato para generar un parámetro de nivel según la reivindicación 1, un aparato para generar una representación multicanal reconstruida según la reivindicación 7, un método para generar un parámetro de nivel según la reivindicación 9, un método para generar una representación multicanal reconstruida según la reivindicación 10, un programa informático según la reivindicación 11, o una representación de parámetros según la reivindicación 12.

La presente invención se basa en el descubrimiento de que, para una reconstrucción de alta calidad, y en vista de esquemas de codificación/transmisión y descodificación flexibles, un parámetro de nivel adicional se transmite junto con la señal de downmix o la representación de parámetros de una señal multicanal de manera que un reconstructor multicanal puede utilizar este parámetro de nivel junto con los parámetros de diferencia de nivel y la señal de downmix para regenerar una señal de salida multicanal, que no experimenta variaciones de nivel o artefactos inducidos por el nivel y selectivos en función de la frecuencia.

Según la presente invención, el parámetro de nivel se calcula de manera que una energía del al menos un canal de downmix ponderado (multiplicado o dividido) por el parámetro de nivel es igual a la suma de energías de los canales originales.

En una realización, el parámetro de nivel se deriva a partir de una relación entre la energía del (de los) canal(es) de downmix y la suma de las energías de los canales originales. En esta realización, cualquier diferencia de nivel entre el (los) canal(es) de downmix y la señal multicanal original se calcula en el lado del codificador y se introduce en el flujo de datos como un factor de corrección de nivel, que se trata como un parámetro adicional, que también se da para un bloque de muestras del (de los) canal(es) de downmix y para una cierta banda de frecuencia. Por tanto, para cada bloque y banda de frecuencia, para los que existen diferencias de nivel entre canales o parámetros de equilibrio, se añade un nuevo parámetro de nivel.

La presente invención también proporciona flexibilidad, puesto que permite transmitir un downmix de una señal multicanal, que es diferente del downmix sobre el que se basan los parámetros. Pueden surgir situaciones de este tipo cuando, por ejemplo, una estación de emisión no desea emitir una señal de downmix generada por un codificador multicanal, sino que desea emitir una señal de downmix generada por un ingeniero de sonido en un estudio de sonido, que es un downmix basado en la impresión creativa y subjetiva de un ser humano. No obstante, el emisor puede tener el deseo de transmitir también parámetros multicanal en conexión con este "downmix maestro". Según la presente invención, la adaptación entre el conjunto de parámetros y el downmix maestro se proporciona mediante el parámetro de nivel que es, en este caso, una diferencia de nivel entre el downmix maestro y el downmix de parámetros, en el que se basa el conjunto de parámetros.

La presente invención es ventajosa porque el parámetro de nivel adicional proporciona calidad de salida mejorada y flexibilidad mejorada, puesto que los conjuntos de parámetros relacionados con una señal de downmix también pueden adaptarse a otro downmix que no está generándose durante el cálculo de parámetros.

Para fines de reducción de tasa de bits, se prefiere aplicar codificación \Delta del nuevo parámetro de nivel y cuantificación y codificación de entropía. En particular, la codificación \Delta dará como resultado una alta ganancia de codificación, puesto que la variación de banda a banda o de bloque de tiempo a bloque de tiempo no será muy alta de modo que se obtienen valores de diferencia relativamente pequeños, lo que permite la posibilidad de una buena ganancia de codificación cuando se utiliza en conexión con codificación de entropía posterior tal como un codificador Huffman.

En una realización preferida de la invención, se utiliza una representación de parámetros de señal multicanal, que incluye al menos dos parámetros de equilibrio diferentes, lo que indica un equilibrio entre dos pares de canales diferentes. En particular, la flexibilidad, la escalabilidad, la robustez ante errores e incluso la eficacia de tasa de bits son el resultado del hecho de que el primer par de canales, que es la base para el primer parámetro de equilibrio, es diferente del segundo par de canales, que es la base para los segundos parámetros de equilibrio, donde los cuatro canales que forman estos pares de canales son todos diferentes entre sí.

Por tanto, el concepto preferido se aparta del concepto de canal de referencia único y utiliza un concepto de multiequilibrio o superequilibrio, que es más intuitivo y más natural para la impresión de sonido de un ser humano. En particular, los pares de canales que subyacen a los primeros y segundos parámetros de equilibrio pueden incluir canales originales, canales de downmix o preferiblemente, ciertas combinaciones entre canales de entrada.

Se ha descubierto que un parámetro de equilibrio derivado a partir del canal central como el primer canal y una suma del canal original izquierdo y el canal original derecho como el segundo canal del par de canales es especialmente útil para proporcionar una distribución de energía exacta entre el canal central y los canales izquierdo y derecho. Ha de observarse en este contexto que estos tres canales normalmente incluyen la mayoría de la información de la escena de audio, en el que particularmente la localización estéreo izquierda-derecha no sólo está influenciada por el equilibrio entre izquierda y derecha sino también por el equilibrio entre el centro y la suma de izquierda y derecha. Esta observación se refleja utilizando este parámetro de equilibrio según una realización preferida de la presente invención.

Preferiblemente, cuando se transmite una única señal de downmix mono, se ha descubierto que, además del parámetro de equilibrio centro/izquierdo más derecho, un parámetro de equilibrio izquierdo/derecho, un parámetro de equilibrio posterior izquierdo/posterior derecho, y un parámetro de equilibrio delantero/trasero son una solución óptima para una representación de parámetros eficaz en la tasa de bits, que es flexible, robusta ante errores y en gran medida está libre de artefactos.

En el lado del receptor, a diferencia de la síntesis BCC en la que cada canal se calcula sólo mediante la información transmitida, la representación multiequilibrio preferida hace uso adicionalmente de información sobre el esquema de downmix utilizado para generar el (los) canal(es) de downmix. Por tanto, la información sobre el esquema de downmix, que no se utiliza en sistemas de la técnica anterior, también se utiliza para realizar upmix (conversión de señal mono o estéreo en señal envolvente) además del parámetro de equilibrio. Por lo tanto, la operación de upmix se realiza de tal manera que el equilibrio entre los canales dentro de una señal multicanal reconstruida que forma un par de canales para un parámetro de equilibrio se determina mediante el parámetro de equilibrio.

Este concepto, es decir, presentar diferentes pares de canales para diferentes parámetros de equilibrio, hace posible generar algunos canales sin el conocimiento de todos y cada uno de los parámetros de equilibrio transmitidos. En particular, los canales izquierdo, derecho y central pueden reconstruirse sin ningún conocimiento sobre algún equilibrio trasero izquierdo/trasero derecho o sin ningún conocimiento sobre un equilibrio delantero/trasero. Este efecto permite la escalabilidad afinada muy precisa, ya que extraer un parámetro adicional de un flujo de bits o transmitir un parámetro de equilibrio adicional a un receptor permite por consiguiente la reconstrucción de uno o más canales adicionales. Esto se deferencia del sistema de referencia única de la técnica anterior, en el que se necesitaban todas y cada una de las diferencias de nivel entre canales para reconstruir todos o sólo un subgrupo de todos los canales de salida reconstrui-
dos.

El concepto preferido también es flexible porque la elección de los parámetros de equilibrio puede adaptarse a un cierto entorno de reconstrucción. Por ejemplo, cuando una disposición de cinco canales forma la disposición de señal multicanal original, y cuando una disposición de cuatro canales forma una disposición multicanal de reconstrucción, que presenta sólo un único altavoz envolvente, que está situado por ejemplo detrás del oyente, un parámetro de equilibrio delantero-trasero permite calcular el canal envolvente combinado sin ningún conocimiento sobre el canal envolvente izquierdo y el canal envolvente derecho. Esto se diferencia de un sistema de canal de referencia único, en el que se tiene que extraer una diferencia de nivel entre canales para el canal envolvente izquierdo y una diferencia de nivel entre canales para el canal envolvente derecho a partir del flujo de datos. Entonces, se tiene que calcular el canal envolvente izquierdo y el canal envolvente derecho. Finalmente, se tienen que sumar ambos canales para obtener el canal de altavoz envolvente único para una disposición de reproducción de cuatro canales. Todas estas etapas no tienen que realizarse en la representación de parámetros de equilibrio más dirigida al usuario y más intuitiva, ya que esta representación entrega automáticamente el canal envolvente combinado debido a la representación de parámetros de equilibrio, que no está ligada a un canal de referencia único, sino que también permite utilizar una combinación de canales originales como un canal de un par de canales de parámetros de equilibrio.

La presente invención se refiere al problema de una representación multicanal parametrizada de señales de audio. Proporciona una manera eficaz de definir los parámetros apropiados para la representación multicanal y también la capacidad de extraer los parámetros que representan la configuración de canales deseada sin tener que descodificar todos los canales. La invención resuelve además el problema de elegir la configuración de parámetros óptima para un segmento de señal dado con el fin de minimizar la tasa de bits requerida para codificar los parámetros espaciales para el segmento de señal dado. La presente invención también expone cómo aplicar previamente los métodos de descorrelación sólo aplicables para el caso de dos canales en un entorno multicanal general.

En realizaciones preferidas la presente invención comprende las siguientes características:

- realizar downmix sobre la señal multicanal para obtener una representación de uno o dos canales en el lado de los codificadores;

- dada la señal multicanal, definir los parámetros que representan las señales multicanal, de manera o bien flexible o bien por trama con el fin de minimizar la tasa de bits o con el fin de permitir al descodificador extraer la configuración de canales en un nivel de flujo de bits;

- en el lado del descodificador, extraer el conjunto de parámetros relevantes dada la configuración de canales soportada actualmente por el descodificador;

- crear el número requerido de señales mutuamente descorrelacionadas dada la presente configuración de canales;

- recrear las señales de salida dado el conjunto de parámetros descodificados a partir de los datos de flujo de bits y las señales descorrelacionadas.

- Definición de una parametrización de la señal de audio multicanal, de tal manera que los mismos parámetros o un subconjunto de los parámetros pueden utilizarse independientemente de la configuración de canales.

- Definición de una parametrización de la señal de audio multicanal, de tal manera que los parámetros pueden utilizarse en un esquema de codificación escalable, en el que se transmiten subconjuntos del conjunto de parámetros en diferentes capas del flujo escalable.

- Definición de una parametrización de la señal de audio multicanal, de tal manera que la reconstrucción de energía de las señales de salida del descodificador no se ve afectada por el códec de audio subyacente utilizado para codificar la señal de downmix.

- Conmutación entre diferentes parametrizaciones de la señal de audio multicanal, de tal manera que se minimiza la sobrecarga de tasa de bits para codificar la parametrización.

- Definición de una parametrización de la señal de audio multicanal, en la que se incluye un parámetro que representa el factor de corrección de energía para la señal de downmix.

- Utilización de varios descorreladores mutuamente descorrelacionados para recrear la señal multicanal.

- Recrear la señal multicanal a partir de una matriz H de upmix que se calcula basándose en el conjunto de parámetros transmitidos.

Breve descripción de los dibujos

La presente invención se describirá a continuación a modo de ejemplos ilustrativos que no limitan el alcance o espíritu de la invención, con referencia a los dibujos adjuntos, en los que:

la figura 1 ilustra una nomenclatura utilizada para una configuración de 5,1 canales tal como se utiliza en la presente invención;

la figura 2 ilustra una posible implementación de codificador de una realización preferida de la presente invención;

la figura 3 ilustra una posible implementación de descodificador de una realización preferida de la presente invención;

la figura 4 ilustra una parametrización preferida de la señal multicanal según la presente invención;

la figura 5 ilustra una parametrización preferida de la señal multicanal según la presente invención;

la figura 6 ilustra una parametrización preferida de la señal multicanal según la presente invención;

la figura 7 ilustra una disposición esquemática para un esquema de downmix que genera un canal base único o dos canales base;

la figura 8 ilustra una representación esquemática de un esquema de upmix, que se basa en los parámetros de equilibrio inventivos y en información sobre el esquema de downmix;

la figura 9a ilustra esquemáticamente una determinación de un parámetro de nivel en un lado de codificador según la presente invención;

la figura 9b ilustra esquemáticamente la utilización del parámetro de nivel en el lado del codificador según la presente invención;

la figura 10a ilustra un flujo de bits escalable que presenta diferentes partes de la parametrización multicanal en diferentes capas del flujo de bits;

la figura 10b ilustra una tabla de escalabilidad que indica qué canales pueden construirse utilizando qué parámetros de equilibrio, y qué parámetros de equilibrio y canales no se utilizan o calculan; y

la figura 11 ilustra la aplicación de la matriz de upmix según la presente invención.

Descripción de realizaciones preferidas

Las realizaciones descritas posteriormente son meramente ilustrativas para los principios de la presente invención sobre representación multicanal de señales de audio. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por lo tanto, la intención es estar limitada sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones del presente documento.

En la siguiente descripción de la presente invención que expone cómo parametrizar parámetros IID e ICC y cómo aplicarlos con el fin de recrear una representación multicanal de señales de audio, se supone que todas las señales a las que se hace referencia son señales de subbanda en un banco de filtros o alguna otra representación selectiva en función de la frecuencia de una parte del intervalo total de frecuencia para el canal correspondiente. Por lo tanto, se entiende que la presente invención no se limita a un banco de filtros específico, y que la presente invención se expone posteriormente para una banda de frecuencia de la representación de subbandas de la señal, y que las mismas operaciones se aplican a todas las señales de subbanda.

Aunque un parámetro de equilibrio también se denomina un parámetro de "diferencia de intensidad entre canales (IDD)", ha de resaltarse que un parámetro de equilibrio entre un par de canales no tiene necesariamente que ser la relación entre la energía o intensidad en el primer canal del par de canales y la energía o intensidad del segundo canal en el par de canales. Generalmente, el parámetro de equilibrio indica la localización de una fuente de sonido entre los dos canales del par de canales. Aunque esta localización viene dada normalmente por diferencias de energía/nivel/intensidad, pueden utilizarse otras características de una señal tales como una medida de potencia para ambos canales o envolventes de frecuencia o tiempo de los canales, etc.

En la figura 1 se visualizan los diferentes canales para una configuración de 5,1 canales, donde a(t) 101 representa el canal envolvente izquierdo, b(t) 102 representa el canal delantero izquierdo, c(t) 103 representa el canal central,
d(t) 104 representa el canal delantero derecho, e(t) 105 representa el canal envolvente derecho y f(t) 106 representa el canal LFE (efectos de bajas frecuencias, low frequency effects).

Suponiendo que el operador de esperanza se define como

1

y por tanto las energías para los canales expuestos anteriormente pueden definirse según (mostrado a modo de ejemplo en este caso mediante el canal envolvente izquierdo):

2

En el lado del codificador se realiza downmix sobre los cinco canales para obtener una representación de dos canales o una representación de un canal. Esto puede realizarse de varias maneras y una comúnmente utilizada es el downmix ITU definido según:

el downmix de 5,1 a dos canales:

3

y el downmix de 5,1 a un canal:

4

Valores utilizados comúnmente para las constantes \alpha, \beta, \gamma y \delta son

5

Los parámetros IID se definen como relaciones de energía de dos canales elegidos arbitrariamente o grupos de canales ponderados. Dadas las energías de los canales expuestos anteriormente para la configuración de 5,1 canales pueden definirse varios conjuntos de parámetros IID.

La figura 7 indica un elemento 700 de downmix general que utiliza las ecuaciones a las que se hizo referencia anteriormente para calcular un canal m único o dos canales I_{d} y r_{d} preferiblemente estéreo. Generalmente, el elemento de downmix utiliza cierta información de downmix. En la realización preferida de un downmix lineal, esta información de downmix incluye factores de ponderación \alpha, \beta, \gamma y \delta. En la técnica se conoce que pueden utilizarse factores de ponderación más o menos constantes o no constantes.

En un downmix recomendado por ITU, \alpha se fija a 1, \beta y \gamma se fijan para que sean iguales e iguales a la raíz cuadrada de 0,5 , y \delta se fija a 0. Generalmente, el factor \alpha puede variar entre 1,5 y 0,5. Adicionalmente, los factores \beta y \gamma pueden ser diferentes entre sí y variar entre 0 y 1. Lo mismo se cumple para el canal f(t) de mejora de bajas frecuencias. El factor \delta para este canal puede variar entre 0 y 1. Adicionalmente, los factores para el downmix izquierdo y el downmix derecho no tienen que ser iguales entre sí. Esto se vuelve claro cuando se considera un downmix no automático que, por ejemplo, realiza un ingeniero de sonido. El ingeniero de sonido se dedica más a realizar un downmix creativo más que un downmix que se guía por cualquier ley matemática. En su lugar, el ingeniero de sonido se guía por su propio sentimiento creativo. Cuando este downmix "creativo" se graba por un cierto conjunto de parámetros, se utilizará según la presente invención mediante un elemento de upmix inventivo tal como se muestra en la figura 8, que no sólo se guía por los parámetros, sino también por la información adicional sobre el esquema de downmix.

Cuando se ha realizado un downmix lineal tal como en la figura 7, los parámetros de ponderación son la información preferida sobre el esquema de downmix para utilizarse por el elemento de upmix. Sin embargo, cuando está presente otra información, que se utiliza en el esquema de downmix, también puede utilizarse esta otra información por un elemento de upmix como la información sobre el esquema de downmix. Tal otra información puede, por ejemplo, ser ciertos elementos de matriz o ciertos factores o funciones dentro de los elementos de matriz de una matriz de upmix tal como, por ejemplo, se indica en la figura 11.

Dada la configuración de 5,1 canales expuesta en la figura 1 y observando cómo otras configuraciones de canales se relacionan con la configuración de 5,1 canales para un caso de tres canales en el que no hay disponible ningún canal envolvente, es decir, B, C y D están disponibles según la notación anterior. Para una configuración de cuatro canales, B, C y D están disponibles pero también una combinación de A y E que representa el canal envolvente único, o denotado más comúnmente denominado en este contexto, el canal trasero.

La presente invención utiliza parámetros IID que se aplican a todos estos canales, es decir, el subconjunto de cuatro canales de la configuración de 5,1 canales presenta un subconjunto correspondiente dentro del conjunto de parámetros IID que describe los 5,1 canales.

El siguiente conjunto de parámetros IID resuelve este problema:

6

Es evidente que el parámetro r_{1} corresponde a la relación de energía entre el canal de downmix izquierdo y el canal de downmix derecho. El parámetro r_{2} corresponde a la relación de energía entre el canal central y los canales delanteros izquierdo y derecho. El parámetro r_{3} corresponde a la relación de energía entre los tres canales delanteros y los dos canales envolventes. El parámetro r_{4} corresponde a la relación de energía entre los dos canales envolventes. El parámetro r_{5} corresponde a la relación de energía entre el canal LFE y todos los demás canales.

En la figura 4 se ilustran las relaciones de energía tal como se explicó anteriormente. Los diferentes canales de salida se indican por 101 a 105 y son los mismos que en la figura 1 y por tanto no se detallan adicionalmente en este momento. La disposición de altavoces está dividida en una mitad izquierda y una derecha, en la que el canal 103 central es parte de ambas mitades. La relación de energía entre el plano de la mitad izquierda y el plano de la mitad derecha es exactamente el parámetro denominado como r_{1}. Esto se indica mediante la línea continua por debajo de r_{1} en la figura 4. Además, la distribución de energía entre el canal 103 central y el canal 102 delantero izquierdo y el canal 103 delantero derecho se indica por r_{2}. Finalmente, la distribución de energía entre toda la disposición de canales delanteros (102, 103 y 104) y los canales traseros (101 y 105) se ilustra mediante la flecha en la figura 5 por el parámetro r_{3}.

Dada la parametrización anterior y la energía del canal de downmix único transmitido:

7

las energías de los canales reconstruidos pueden expresarse como:

8

\vskip1.000000\baselineskip

9

\vskip1.000000\baselineskip

Por tanto, la energía de la señal M puede distribuirse a los canales reconstruidos dando como resultado canales reconstruidos que presentan las mismas energías que los canales originales.

El esquema anterior preferido de upmix se ilustra en la figura 8. Se vuelve claro a partir de las ecuaciones para F, A, E, C, B y D que la información sobre el esquema de downmix que va a utilizarse por el elemento de upmix son los factores \alpha, \beta, \gamma y \delta de ponderación, que se utilizan para ponderar los canales originales antes de que tales canales ponderados o no ponderados se sumen juntos o se resten entre sí con el fin de llegar a un número de canales de downmix, que es menor que el número de canales originales. Por tanto, a partir de la figura 8 está claro que según la presente invención, las energías de los canales reconstruidos no sólo se determinan por los parámetros de equilibrio transmitidos desde un lado de codificador a un lado de descodificador, sino que también se determinan por el factor \alpha, \beta, \gamma y \delta de downmix.

Cuando se considera la figura 8, se vuelve claro que, para calcular las energías B y D izquierda y derecha, las energías F, A, E, C de canales ya calculadas se utilizan dentro de la ecuación. Sin embargo, esto no implica necesariamente un esquema de upmix secuencial. En su lugar, para obtener un esquema de upmix completamente paralelo que, por ejemplo, se realiza utilizando una cierta matriz de upmix que presenta ciertos elementos de matriz de upmix, las ecuaciones para A, C, E y F se insertan en las ecuaciones B y D. Por tanto, se vuelve claro que la energía de canales reconstruidos sólo se determina por los parámetros de equilibrio, el (los) canal(es) de downmix y la información sobre el esquema de downmix tal como los factores de downmix.

Dados los parámetros IID anteriores es evidente que se ha resuelto el problema de definir un conjunto de parámetros de parámetros IID que puede utilizarse para varias configuraciones de canales tal como será obvio a partir de lo comentado posteriormente. Como un ejemplo, observando la configuración de tres canales (es decir, recreando tres canales delanteros a partir de un canal disponible), es evidente que los parámetros r_{3}, r_{4} y r_{5} están obsoletos puesto que los canales A, E y f no existen. También es evidente que los parámetros r_{1} y r_{2} son suficientes para recrear los tres canales a partir de un canal único de downmix ya que r_{1} describe la relación de energía entre los canales delanteros izquierdo y derecho, y r_{2} describe la relación de energía entre el canal central y los canales delanteros izquierdo y derecho.

En el caso más general se observa fácilmente que los parámetros IID (r_{1}...r_{5}), tal como se definieron anteriormente, se aplican a todos los subconjuntos de recreación de n canales a partir de m canales donde m<n\leq6. Observando la figura 4 puede decirse que:

- para un sistema que recrea 2 canales a partir de 1 canal, se obtiene suficiente información a partir del parámetro r_{1} para conservar la relación de energía correcta entre los canales;

- para un sistema que recrea 3 canales a partir de 1 canal, se obtiene suficiente información a partir de los parámetros r_{1} y r_{2} para conservar la relación de energía correcta entre los canales;

- para un sistema que recrea 4 canales a partir de 1 canal, se obtiene suficiente información a partir de los parámetros r_{1}, r_{2} y r_{3} para conservar la relación de energía correcta entre los canales;

- para un sistema que recrea 5 canales a partir de 1 canal, se obtiene suficiente información a partir de los parámetros r_{1}, r_{2}, r_{3} y r_{4} para conservar la relación de energía correcta entre los canales;

- para un sistema que recrea 5,1 canales a partir de 1 canal, se obtiene suficiente información a partir de los parámetros r_{1}, r_{2}, r_{3}, r_{4} y r_{5} para conservar la relación de energía correcta entre los canales;

- para un sistema que recrea 5,1 canales a partir de 2 canales, se obtiene suficiente información a partir de los parámetros r_{2}, r_{3}, r_{4} y r_{5} para conservar la relación de energía correcta entre los canales.

La característica de escalabilidad descrita anteriormente se ilustra mediante la tabla en la figura 10b. El flujo de bits escalable ilustrado en la figura 10a y explicado posteriormente también puede adaptarse a la tabla de la figura 10b para obtener una escalabilidad más precisa que la mostrada en la figura 10a.

El concepto preferido es especialmente ventajoso porque los canales izquierdo y derecho pueden reconstruirse fácilmente a partir de un único parámetro r_{1} de equilibrio sin conocimiento o extracción de cualquier otro parámetro de equilibrio. Con este fin, en las ecuaciones para B, D en la figura 8, los canales A, C, F y E se fijan simplemente a cero.

Como alternativa, cuando sólo se considera el parámetro r_{2} de equilibrio, los canales reconstruidos son por un lado la suma entre el canal central y el canal de bajas frecuencias (cuando este canal no se fija a cero) y por otro lado la suma entre los canales izquierdo y derecho. Por tanto, el canal central por un lado y la señal mono por otro lado pueden reconstruirse utilizando sólo un único parámetro. Esta característica ya puede ser útil para una representación de 3 canales sencilla, en la que las señales izquierda y derecha se derivan a partir de la suma de la parte izquierda y la parte derecha dividida por dos, y en la que la energía entre la parte central y la suma de la parte izquierda y la parte derecha se determina exactamente por el parámetro r_{2} de equilibrio.

En este contexto, los parámetros r_{1} y r_{2} de equilibrio se sitúan en una capa de escalado inferior.

En cuanto a la segunda entrada en la tabla de la figura 10b, que indica cómo pueden generarse 3 canales B, D y la suma entre C y F utilizando sólo dos parámetros de equilibrio en lugar de todos los 5 parámetros de equilibrio, uno de esos parámetros r_{1} y r_{2} ya puede estar en una capa de escalado superior que el parámetro r_{1} o r_{2}, que está situado en la capa de escalado inferior.

Cuando se consideran las ecuaciones en la figura 8, se vuelve claro que, para calcular C, el parámetro r_{5} no extraído y el otro parámetro r_{3} no extraído se fijan a cero. Adicionalmente, los canales A, E, F no utilizados también se fijan a 0, de tal modo que pueden calcularse los 3 canales B, D y la combinación entre el canal C central y el canal F de mejora de bajas frecuencias.

Cuando va a realizarse upmix sobre una representación de 4 canales, es suficiente extraer sólo los parámetros r_{1}, r_{2} y r_{3} del flujo de datos de parámetros. En este contexto, r_{3} podría estar en una capa de escalado próxima superior que el otro parámetro r_{1} o r_{2}. La configuración de 4 canales es especialmente adecuada en conexión con la representación de parámetros de superequilibrio de la presente invención puesto que, tal como se describirá posteriormente en conexión con la figura 6, el tercer parámetro r_{3} de equilibrio ya se deriva a partir de una combinación de los canales delanteros por un lado y los canales traseros por otro lado. Esto se debe al hecho de que el parámetro r_{3} es un parámetro de equilibrio delantero-trasero, que se deriva a partir del par de canales que presenta, como un primer canal, una combinación de los canales A y E traseros, y que presenta, como los canales delanteros, una combinación del canal B izquierdo, el canal E derecho, y el canal C central.

Por tanto, la energía del canal combinado de ambos canales envolventes se obtiene automáticamente sin ningún cálculo aparte y combinación posterior, tal como sería el caso en una disposición de canal de referencia único.

Cuando tienen que recrearse 5 canales a partir de un canal único, es necesario el parámetro r_{4} de equilibrio adicional. Este parámetro r_{4} puede de nuevo estar en una capa de escalado próxima superior.

Cuando tiene que realizarse una reconstrucción 5.1, se requiere cada parámetro de equilibrio. Por tanto, una capa de escalado próxima superior que incluya el siguiente parámetro r_{5} de equilibrio tendrá que transmitirse a un receptor y evaluarse por el receptor.

Sin embargo, utilizando el mismo enfoque de ampliar los parámetros IID según el número ampliado de canales, los parámetros IID anteriores pueden ampliarse para cubrir configuraciones de canales con un número mayor de canales que la configuración 5.1. Por tanto, la presente invención no se limita a los ejemplos expuestos anteriormente.

Obsérvese ahora el caso en el que la configuración de canales es una configuración de 5,1 canales siendo éste uno de los casos más comúnmente utilizados. Además, supóngase que los 5,1 canales se recrean a partir de dos canales. Puede definirse para este caso un conjunto de parámetros diferente sustituyendo los parámetros r_{3} y r_{4} por:

10

Los parámetros q_{3} y q_{4} representan la relación de energía entre los canales izquierdos delantero y trasero, y la relación de energía entre los canales derechos delantero y posterior. Pueden preverse varias otras parametrizaciones.

En la figura 5 se visualiza la parametrización modificada. En lugar de tener un parámetro que representa la distribución de energía entre los canales delantero y trasero (tal como se representó mediante r_{3} en la figura 4) y un parámetro que describe la distribución de energía entre el canal envolvente izquierdo y el canal envolvente derecho (tal como se representó mediante r_{4} en la figura 4) los parámetros q_{3} y q_{4} se utilizan para describir la relación de energía entre el canal 102 delantero izquierdo y el canal 101 envolvente izquierdo, y la relación de energía entre el canal 104 delantero derecho y el canal 105 envolvente derecho.

La presente invención prefiere que puedan utilizarse varios conjuntos de parámetros para representar las señales multicanal. Una característica adicional de la presente invención es que pueden elegirse diferentes parametrizaciones dependiendo del tipo de cuantificación de los parámetros que se utilice.

Como un ejemplo, en un sistema que utiliza cuantificación aproximada de la parametrización, debido a limitaciones de alta tasa de bits , debería utilizarse una parametrización que no amplificase errores durante el proceso de upmix.

Obsérvense dos de las expresiones anteriores para las energías reconstruidas en un sistema que recrea 5,1 canales a partir de un canal:

11

Es evidente que las restas pueden dar lugar a grandes variaciones de las energías B y D debido a efectos de cuantificación bastante pequeños de los parámetros M, A, C y F.

Según la presente invención, debería utilizarse una parametrización diferente que sea menos sensible a la cuantificación de los parámetros. Por tanto, si se utiliza cuantificación aproximada, el parámetro r_{1} tal como se definió anteriormente:

12

puede sustituirse por la definición alternativa según:

13

Esto da lugar a ecuaciones para las energías reconstruidas según:

14

y las ecuaciones para las energías reconstruidas de A, E, C y F siguen siendo las mismas que anteriormente. Es evidente que esta parametrización representa un sistema mejor acondicionado desde un punto de vista de la cuantificación.

En la figura 6 se ilustran las relaciones de energía tal como se explicaron anteriormente. Los diferentes canales de salida se indican por 101 a 105 y son los mismos que en la figura 1 y por tanto no se detallan en este momento. La disposición de altavoces está dividida en una parte delantera y una parte trasera. La distribución de energía entre toda la disposición de canales (102, 103 y 104) delanteros y los canales (101 a 105) traseros se ilustra mediante la flecha en la figura 6 indicada por en parámetro r_{3}.

Otra característica notable e importante de la presente invención es que cuando se observa la parametrización

15

no es sólo un sistema mejor acondicionado desde un punto de vista de la cuantificación. La parametrización anterior también tiene la ventaja de que los parámetros utilizados para reconstruir los tres canales delanteros se derivan sin ninguna influencia de los canales envolventes. Podría preverse un parámetro r_{2} que describa la relación entre el canal central y todos los demás canales. Sin embargo, esto tendría la desventaja de que los canales envolventes se incluirían en la estimación de los parámetros que describen los canales delanteros.

Recuérdese que, en la presente invención, la parametrización descrita también puede aplicarse a mediciones de correlación o coherencia entre canales, es evidente que incluir los canales traseros en el cálculo de r_{2} puede tener influencia negativa significativa en el éxito de recrear con precisión los canales delanteros.

Como ejemplo, podría imaginarse una situación con la misma señal en todos los canales delanteros y señales completamente no correlacionadas en los canales traseros. Esto no es infrecuente, dado que los canales posteriores se utilizan frecuentemente para recrear información de ambiente del sonido original.

Si el canal central se describe en relación a todos los demás canales, la medida de correlación entre el central y la suma de todos los demás canales será bastante baja, puesto que los canales traseros están completamente no correlacionados. Lo mismo será cierto para un parámetro que estima la correlación entre los canales delanteros izquierdo/derecho y los canales traseros izquierdo/derecho.

Por tanto, se llega a una parametrización que puede reconstruir las energías correctamente, pero que no incluye la información de que todos los canales delanteros fuesen idénticos, es decir, fuertemente correlacionados. Incluye la información de que los canales delanteros izquierdo y derecho están descorrelacionados con los canales posteriores, y que el canal central también está correlacionado con los canales posteriores. Sin embargo, el hecho de que todos los canales delanteros son los mismos no puede derivarse a partir de una parametrización de este tipo.

Esto se resuelve utilizando la parametrización

16

tal como se enseña mediante la presente invención, puesto que los canales traseros no están incluidos en la estimación de los parámetros utilizados en el lado del descodificador para recrear los canales delanteros.

La distribución de energía entre el canal 103 central y el canal 102 delantero izquierdo y el canal 103 delantero derecho se indica por r_{2} según la presente invención. La distribución de energía entre el canal 101 envolvente izquierdo y el canal 105 envolvente derecho se ilustra por r_{4}. Finalmente, la distribución de energía entre el canal 102 delantero izquierdo y el canal 104 delantero derecho se da mediante r_{1}. Como es evidente, todos los parámetros son los mismos que los representados en la figura 4 aparte de r_{1} que en este caso corresponde a la distribución de energía entre el altavoz delantero izquierdo y el altavoz delantero derecho, como opuestos a todo el lado izquierdo y a todo el lado derecho. Para terminar, también se da el parámetro r5 que representa la distribución de energía entre el canal 103 central y el canal 106 lfe.

La figura 6 muestra una perspectiva general de la realización de parametrización preferida de la presente invención. El primer parámetro r_{1} de equilibrio (indicado por la línea continua) constituye un parámetro de equilibrio delantero izquierdo/delantero derecho. El segundo parámetro r_{2} de equilibrio es un parámetro de equilibrio izquierdo-derecho. El tercer parámetro r_{3} de equilibrio constituye un parámetro de equilibrio delantero/trasero. El cuarto parámetro r_{4} de equilibrio constituye un parámetro de equilibrio posterior izquierdo/posterior derecho. Finalmente, el quinto parámetro r_{5} de equilibrio constituye un parámetro de equilibrio centro/lfe.

La figura 4 muestra una situación relacionada. El primer parámetro r_{1} de equilibrio, que se ilustra en la figura 4 mediante líneas continuas en el caso de un equilibrio izquierdo/derecho de downmix puede sustituirse por un parámetro de equilibrio delantero izquierdo/delantero derecho original definido entre los canales B y D como el par de canales subyacentes. Esto se ilustra mediante la línea r_{1} discontinua en la figura 4 y corresponde a la línea r_{1} continua en la figura 5 y en la figura 6.

En una situación de dos canales base, los parámetros r_{3} y r_{4}, es decir, el parámetro de equilibrio delantero/trasero y el parámetro de equilibrio posterior izquierdo/derecho se sustituyen por dos parámetros delantero/posterior de un único lado. El primer parámetro q_{3} delantero/posterior de un único lado también puede denominarse como el primer parámetro de equilibrio, que se deriva a partir del par de canales que está constituido por el canal A envolvente izquierdo y el canal B izquierdo. El segundo parámetro de equilibrio delantero/izquierdo de un único lado es el parámetro q_{4}, que puede denominarse como el segundo parámetro, que se basa en el segundo par de canales que está constituido por el canal D derecho y el canal E envolvente derecho. De nuevo, ambos pares de canales son independientes entre sí. Lo mismo es cierto para el parámetro r_{2} de equilibrio centro/izquierdo-derecho, que presenta, como un primer canal, un canal C central, y como un segundo canal, la suma de los canales B y D izquierdo y derecho.

Otra parametrización que se presta adecuadamente para la cuantificación aproximada para un sistema que recrea 5,1 canales a partir de uno o dos canales se define posteriormente según la presente invención.

Para el caso de 1 a 5,1 canales:

17

Y para el caso de dos a 5,1 canales:

18

Es evidente que las parametrizaciones anteriores incluyen más parámetros de lo que se requiere desde el punto de vista estrictamente teórico para redistribuir correctamente la energía de las señales transmitidas a las señales recreadas. Sin embargo, la parametrización es muy insensible a errores de cuantificación.

El conjunto de parámetros al que se hizo referencia anteriormente para una disposición de dos canales base, hace uso de varios canales de referencia. Sin embargo, a diferencia de la configuración de parámetros en la figura 6, el conjunto de parámetros en la figura 7 se basa únicamente en canales de downmix en vez de en canales originales como canales de referencia. Los parámetros q_{1}, q_{3} y q_{4} de equilibrio se derivan a partir de pares de canales completamente diferentes.

Aunque se han descrito varias realizaciones inventivas, en las que los pares de canales para derivar parámetros de equilibrio incluyen sólo canales originales (figura 4, figura 5, figura 6) o incluyen canales originales así como canales de downmix (figura 4, figura 5) o únicamente se basan en canales de downmix como los canales de referencia tal como se indica en la parte inferior de la figura 7, se prefiere que el generador de parámetros incluido dentro del codificador 206 de datos envolventes de la figura 2 esté operativo para utilizar sólo canales originales o combinaciones de canales originales en lugar de un canal base o una combinación de canales base para los canales en los pares de canales, en los que se basan los parámetros de equilibrio. Esto se debe al hecho de que no puede garantizarse completamente que no se producirá un cambio de energía para el único canal base o los dos canales base estéreo durante su transmisión desde un codificador envolvente hasta un descodificador envolvente. Tales variaciones de energía para los canales de downmix o el canal de downmix único pueden provocarse por un codificador 205 de audio (figura 2) o un descodificador 302 de audio (figura 3) que funcionan bajo una condición de tasa de bits baja. Tales situaciones pueden dar como resultado la manipulación de la energía del canal de downmix mono o los canales de downmix estéreo, manipulación que puede ser diferente entre los canales de downmix estéreo izquierdo y derecho, o incluso puede ser selectivo en función de la frecuencia y en función del tiempo.

Con el fin de estar completamente seguro frente a tales variaciones de energía, se transmite un parámetro de nivel adicional para cada bloque y banda de frecuencia para todos los canales de downmix según la presente invención. Cuando los parámetros de equilibrio se basan en la señal original en lugar de en la señal de downmix, un factor de corrección único es suficiente para cada banda, puesto que cualquier corrección de energía no influirá en una situación de equilibrio entre los canales originales. Incluso cuando no se transmite ningún parámetro de nivel adicional, cualquier variación de energía de canal de downmix no dará como resultado una ubicación distorsionada de fuentes de sonido en la imagen de audio sino que sólo dará como resultado una variación de sonoridad general, que no es tan desagradable como una migración de una fuente de sonido provocada por condiciones de equilibrio variables.

Es importante observar que se necesita tener cuidado de tal modo que la energía M (de los canales de downmix), sea la suma de las energías B, D, A, E, C y F tal como se expuso anteriormente. Este no es siempre el caso debido a dependencias de fase entre los diferentes canales sobre los que se está realizando downmix para obtener un canal. El factor de corrección de energía puede transmitirse como un parámetro r_{M} adicional, y la energía de la señal de downmix recibida en el lado del descodificador se define por tanto como:

19

En la figura 9 se representa la aplicación del parámetro r_{M} adicional según la presente invención. La señal de entrada de downmix se modifica por el parámetro r_{M} en 901 antes de enviarla hacia los módulos 701 a 705 de upmix. Éstos son los mismos que en la figura 7 y por lo tanto no se detallarán en lo sucesivo. Para los expertos en la técnica es obvio que el parámetro rM para el ejemplo de downmix de canal único anterior puede ampliarse a un parámetro por canal de downmix, y, por tanto, no está limitado a un canal de downmix único.

La figura 9a ilustra un calculador 900 de parámetro de nivel inventivo, mientras que la figura 9b indica un corrector 902 de nivel inventivo. La figura 9a indica la situación en el lado del codificador y la figura 9b ilustra la situación correspondiente en el lado del descodificador. El parámetro de nivel o parámetro r_{M} "adicional" es un factor de corrección que da una cierta relación de energía. Para explicar esto, se supone el siguiente escenario a modo de ejemplo. Para una cierta señal multicanal original, existe un "downmix maestro" por un lado y un "downmix de parámetros" por el otro. El downmix maestro lo ha generado un ingeniero de sonido en un estudio de sonido basándose en, por ejemplo, impresiones de calidad subjetivas. Adicionalmente, un cierto medio de almacenamiento de audio también incluye el downmix de parámetros que se ha realizado mediante, por ejemplo, el codificador 203 envolvente de la figura 2. El downmix de parámetros incluye un canal base o dos canales base, canales base que forman la base para la reconstrucción multicanal utilizando el conjunto de parámetros de equilibrio o cualquier otra representación paramétrica de la señal multicanal original.

Puede darse el caso, por ejemplo, de que un radiodifusor desee no transmitir el downmix de parámetros sino el downmix maestro desde un transmisor hasta un receptor. Adicionalmente, para mejorar el downmix maestro a una representación multicanal, el radiodifusor también transmite una representación paramétrica de la señal multicanal original. Puesto que la energía (en una banda y en un bloque) puede variar (y normalmente lo hará) entre el downmix maestro y el downmix de parámetros, se genera un parámetro r_{M} de nivel relativo en el bloque 900 y se transmite al receptor como un parámetro adicional. El parámetro de nivel se deriva a partir del downmix maestro y el downmix de parámetros y es, preferiblemente, una relación entre las energías dentro de un bloque y una banda del downmix maestro y el downmix de parámetros.

Generalmente, el parámetro de nivel se calcula como la relación de la suma de las energías (E_{orig}) de los canales originales y la energía del (de los) canal(es) de downmix, en la que este (estos) canal(es) de downmix puede(n) ser el downmix (E_{PD}) de parámetros o el downmix (E_{MD}) maestro o cualquier otra señal de downmix. Normalmente, se utiliza la energía de la señal de downmix específica, que se transmite desde un codificador hasta un descodificador.

La figura 9b ilustra una implementación del lado del descodificador de la utilización del parámetro de nivel. El parámetro de nivel así como la señal de downmix se introducen en el bloque 902 corrector de nivel. El corrector de nivel corrige el canal base único o los diversos canales base dependiendo del parámetro de nivel. Puesto que el parámetro r_{M} adicional es un valor relativo, este valor relativo se multiplica por la energía del canal base correspondiente.

Aunque las figuras 9a y 9b indican una situación en la que se aplica la corrección de nivel al canal de downmix o a los canales de downmix, el parámetro de nivel también puede integrarse en la matriz de upmix. Con este fin, cada vez que aparece M en las ecuaciones de la figura 8 se sustituye por el término "r_{M}M".

Estudiando el caso cuando se recrean 5,1 canales a partir de 2 canales, se realiza la siguiente observación.

Si la presente invención se utiliza con un códec de audio subyacente tal como se representa en la figura 2 y en la figura 3 por 205 y 302, se necesita realizar algunas consideraciones más. Obsérvese que los parámetros IID, tal como se definieron anteriormente, donde r_{1} se definió según

20

este parámetro está disponible implícitamente en el lado del descodificador puesto que el sistema está recreando 5,1 canales a partir de 2 canales, siempre que los dos canales transmitidos sean el downmix estéreo de los canales envolventes.

Sin embargo, el códec de audio que funciona bajo una limitación de tasa de bits puede modificar la distribución espectral de tal modo que las energías L y R tal como se miden en el descodificador difieren de sus valores en el lado del codificador. Según la presente invención tal influencia sobre la distribución de energía de los canales recreados se desvanece transmitiendo el parámetro

21

también para el caso cuando se reconstruyen 5,1 canales a partir de dos canales.

Si se proporcionan medios de señalización, el codificador puede codificar el presente segmento de señal utilizando diferentes conjuntos de parámetros y elegir el conjunto de parámetros IID que dan la sobrecarga más baja para el segmento de señal particular que está procesándose. Es posible que los niveles de energía entre los canales delantero y trasero derechos sean similares, y que los niveles de energía entre el canal izquierdo delantero y trasero sean similares pero significativamente diferentes a los niveles en el canal delantero y trasero derecho. Dada la codificación delta de parámetros y posteriormente la codificación de entropía, puede ser más eficaz utilizar los parámetros q_{3} y q_{4} en lugar de r_{3} y r_{4}. Para otro segmento de señal con características diferentes, un conjunto de parámetros diferente puede dar una sobrecarga de tasa de bits inferior. La presente invención permite conmutar libremente entre diferentes representaciones de parámetros con el fin de minimizar la sobrecarga de tasa de bits para el segmento de señal codificado actualmente dadas las características del segmento de señal. La capacidad para conmutar entre diferentes parametrizaciones de los parámetros IID con el fin de obtener la sobrecarga de tasa de bits más baja posible y proporcionar medios de señalización para indicar qué parametrización se utiliza actualmente, es una característica esencial de la presente invención.

Además, la codificación delta de los parámetros puede realizarse en o bien la dirección de frecuencia o bien en la dirección del tiempo, así como codificación delta entre diferentes parámetros. Según la presente invención, un parámetro puede codificarse mediante codificación delta con respecto a cualquier otro parámetro, dado que se proporcionan medios de señalización que indican la codificación delta particular utilizada.

Una característica interesante para cualquier esquema de codificación es la capacidad para realizar codificación escalable. Esto significa que el flujo de bits codificado puede dividirse en varias capas diferentes. La capa de núcleo puede descodificarse por sí misma y las capas superiores pueden descodificarse para mejorar la señal de capa de núcleo codificada. Por diferentes circunstancias, el número de capas disponibles puede variar, pero mientras que la capa de núcleo esté disponible el descodificador puede producir muestras de salida. La parametrización para la codificación multicanal, tal como se expuso anteriormente utilizando los parámetros r_{1} a r_{5}, es muy adecuada para la codificación escalable. Por tanto, es posible almacenar los datos para, por ejemplo, los dos canales (A y E) envolventes en una capa de mejora, es decir, los parámetros r_{3} y r_{4}, y los parámetros correspondientes a los canales delanteros en una capa de núcleo, representados por los parámetros r_{1} y r_{2}.

En la figura 10 se representa una implementación de flujo de bits escalable según la presente invención. Las capas de flujos de bits se ilustran por 1001 y 1002, donde 1001 es la capa de núcleo que aloja las señales de downmix codificadas por forma de onda y los parámetros r1 y r2 requeridos para recrear los canales (102, 103 y 104) delanteros. La capa de mejora ilustrada por 1002 aloja los parámetros para recrear los canales (101 y 105) posteriores.

Otro aspecto importante de la presente invención es la utilización de descorreladores en una configuración multicanal. El concepto de utilizar un descorrelador se detalló para el caso de uno a dos canales en el documento PCT/SE02/01372. Sin embargo, cuando se amplía esta teoría a más de dos canales, surgen varios problemas que resuelve la presente invención.

La matemática elemental muestra que con el fin de conseguir M señales mutuamente descorrelacionadas a partir de N señales, se requieren M-N descorreladores, donde todos los diferentes correladores son funciones que crean señales de salida mutuamente ortogonales a partir de una señal de entrada común. Un descorrelador es normalmente un filtro de todo paso o casi de todo paso que dada una entrada x(t) produce una salida y(t) con E-[|y|^{2}]= E[|x|^{2}] y casi correlación cruzada desvaneciente E[yx^{*}]. Criterios de percepción adicionales entran en el diseño de un buen correlador, pudiéndose también utilizar algunos ejemplos de métodos de diseño para minimizar el carácter de filtro de peine cuando se suma la señal original a la señal descorrelacionada y para minimizar el efecto de una respuesta de impulso a veces demasiado larga en señales transitorias. Algunos descorreladores de la técnica anterior utilizan un reverberador artificial para la descorrelación. La técnica anterior también incluye retardos fraccionales, por ejemplo modificando la fase de las muestras de subbanda complejas, para conseguir densidad de eco superior y por tanto más dispersión de tiempo.

La presente invención sugiere métodos de modificación de un descorrelador basado en reverberaciones con el fin de conseguir que múltiples descorreladores creen señales de salida mutuamente descorrelacionadas a partir de una señal de entrada común. Dos correladores están mutuamente descorrelacionados si sus salidas y_{1}(y) e y_{2}(t) presentan una correlación cruzada desvaneciente o casi desvaneciente dada la misma entrada. Suponiendo que la entrada es ruido blanco estacionario, se sigue que las respuestas h_{1} y h_{2} de impulso deben ser ortogonales en el sentido de que E[h_{1}h_{2}^{*}] sea desvaneciente o casi desvaneciente. Pueden construirse de varias maneras conjuntos de descorreladores mutuamente descorrelacionados por pares de varias maneras. Una manera eficaz de realizar tales modificaciones es alterar el factor q de rotación de fase que es parte del retardo fraccional.

La presente invención estipula que los factores de rotación de fase pueden ser parte de las líneas de retardo en los filtros de todo paso o simplemente un retardo fraccional total. En el último caso, este método no está limitado a filtros de tipo de todo paso o de reverberación, sino que también puede aplicarse a, por ejemplo, retardos sencillos que incluyen una parte de retardo fraccional. Un enlace de filtro de todo paso en el descorrelador puede describirse en el dominio Z como:

22

\vskip1.000000\baselineskip

donde q es el factor (|q|=1) de rotación de fase de valor complejo, m es la longitud de línea de retardo en muestras y a es el coeficiente de filtro. Por razones de estabilidad, la magnitud del coeficiente de filtro tiene que limitarse a |a|<1. Sin embargo, utilizando el coeficiente a'=-a de filtro alternativo, se define un nuevo reverberador que presenta las mismas propiedades de decaimiento de reverberación pero con una salida significativamente no correlacionada con la salida del reverberador no modificado. Además, puede realizarse una modificación del factor q de rotación de fase, por ejemplo añadiendo un desfase de fase constante, q'=qe^{iC}. La constante C puede utilizarse como un desfase de fase constante o podría escalarse de una manera que correspondería a un desfase de tiempo constante para todas las bandas de frecuencia sobre las que se aplica. La constante C de desfase de fase también puede ser un valor aleatorio que sea diferente para todas las bandas de frecuencia.

Según la presente invención, la generación de n canales a partir de m canales se realiza aplicando una matriz H de upmix de tamaño n\times(m+p) a un vector columna de tamaño (m+p)\times1 de señales

23

en el que m son las m señales codificadas y de downmix, y las p señales en s están descorrelacionadas y mutuamente descorrelacionadas de todas las señales en m. Estas señales descorrelacionadas se producen a partir de las señales en m mediante los descorreladores. Las n señales a', b',... reconstruidas están entonces contenidas en el vector columna

24

Lo anterior se ilustra mediante la figura 11, donde las señales descorrelacionadas se crean mediante los descorreladores 1102, 1103 y 1104. La matriz H de upmix se da mediante 1101 operando sobre el vector y dando la señal x' de salida.

Sea R=E[xx^{*}] la matriz de correlación del vector de señal origina, sea R'=E[x'x'^{*}] la matriz de correlación de la señal reconstruida. En este caso y en lo sucesivo, para una matriz o un vector X con entradas complejas, X^{*} denota la matriz adjunta, el complejo conjugado traspuesto de X.

La diagonal de R contiene los valores A, B, C, ... de energía y pueden descodificarse hasta un nivel de energía total a partir de las cantidades de energía definidas anteriormente. Puesto que R^{*}=R, sólo hay n(n-1)/2 valores de correlación cruzada fuera de la diagonal diferentes que contienen información que va a reconstruirse completa o parcialmente ajustando la matriz H de upmix. Una reconstrucción de la estructura de correlación completa corresponde al caso R'=R. La reconstrucción de niveles de energía correctos sólo corresponde al caso en el que R' y R son iguales en sus diagonales.

En el caso de n canales a partir de m=1 canal, se consigue una reconstrucción de la estructura de correlación completa utilizando p=n-1 descorreladores mutuamente descorrelacionados, una matriz H de upmix que satisface la condición

25

donde M es la energía de la señal transmitida única. Puesto que R es semidefinida positiva, es ampliamente conocido que existe una solución de este tipo. Además, se dejan n(n-1)/2 grados de libertad para el diseño de H, que se utilizan en la presente invención para obtener propiedades deseables adicionales de la matriz de upmix. Un criterio de diseño central es que la dependencia de H sobre los datos de correlación transmitidos deberá ser suave.

Una manera conveniente de parametrizar la matriz de upmix es H=UDV donde U y V son matrices ortogonales y D es una matriz diagonal. Los cuadrados de los valores absolutos de D pueden elegirse igual a los autovalores de R/M. Omitir V y clasificar los autovalores de tal modo que el valor más grande se aplique a la primera coordenada minimizará la energía total de señales descorrelacionadas en la salida. La matriz U ortogonal se parametriza en el caso real por n(n-1)/2 ángulos de rotación. Transmitir datos de correlación en la forma de esos ángulos y los n valores diagonales de D daría inmediatamente la dependencia suave deseada de H. Sin embargo, puesto que los datos de energía tienen que transformarse en autovalores, en este enfoque se sacrifica la escalabilidad.

Un segundo método enseñado por la presente invención consiste en separar la parte de energía de la parte de correlación en R definiendo una matriz R_{0} de correlación normalizada mediante R=GR_{0}G donde G es una matriz diagonal con los valores diagonales iguales a las raíces cuadradas de las entradas diagonales de R, es decir,

26

y R_{0} presenta unos en la diagonal. Sea H_{0} una matriz de upmix ortogonal que define el upmix normalizado preferido en el caso de señales no correlacionadas totalmente de igual energía. Ejemplos de tales matrices de upmix preferidas son

27

El upmix se define entonces por H = GSH_{0}/\sqrt{M}, donde la matriz S resuelve SS^{*}=R_{0}. La dependencia de esta solución sobre los valores de correlación cruzada normalizada en R_{0} se elige para que sea continua y de manera que S sea igual a la matriz I identidad en el caso R_{0}=I.

Dividir los n canales en grupos de menos canales es una manera conveniente para reconstruir la estructura de correlación cruzada parcial. Según la presente invención, un agrupamiento ventajoso particular para el caso de 5,1 canales a partir de 1 canal es {a,e},{c},{b,d},{f}, donde no se aplica descorrelación para los grupos {c},{f} y los grupos {a,e},{b,d} se producen mediante upmix del mismo par de downmix/descorrelacionado. Para estos dos subsistemas, los upmix normalizados preferidos en el caso de no totalmente correlacionados deben elegirse como

28

respectivamente. Por tanto, sólo se transmitirán y reconstruirán dos de la totalidad de 15 correlaciones cruzadas, concretamente aquellas entre los canales {a,e} y {b,d}. En la terminología utilizada anteriormente, esto es un ejemplo de un diseño pare el caso n=6, m=1 y p=1. La matriz H de upmix es de tamaño 6\times2 con ceros en las dos entradas en la segunda columna en las filas 3 y 6 correspondientes a las salidas c' y f'.

Un tercer enfoque enseñado por la presente invención para incorporar señales descorrelacionadas es el punto de vista más sencillo en el que cada canal de salida presente un descorrelador diferente ocasionando señales s_{a}, s_{b}, ... descorrelacionadas. Las señales reconstruidas se forman entonces como

29

etc...

Los parámetros \varphi_{a}, \varphi_{b},... controlan la cantidad de señal descorrelacionada presente en los canales a', b',... de salida. Los datos de descorrelación se transmiten en forma de estos ángulos. Es fácil calcular que la correlación cruzada normalizada resultante entre, por ejemplo, el canal a' y el b' es igual al producto cos\varphi_{a}cos\varphi_{b}. Puesto que el número de correlaciones cruzadas por pares es n(n-1)/2 y que hay n descorreladores, no será posible en general con este enfoque ajustarse a una estructura de correlación dada si n>3, pero las ventajas son un método de descodificación estable y muy simple, y el control directo sobre la cantidad producida de señal descorrelacionada presente en cada canal de salida. Esto permite que el mezclado de señales descorrelacionadas se base en criterios de percepción que incorporan, por ejemplo, diferencias de nivel de energía de pares de canales.

Para el caso de n canales a partir de m>1 canales, la matriz R_{y}=E[yy^{*}] de correlación ya no puede suponerse diagonal, y esto tiene que tenerse en cuenta en el ajuste de R'=HR_{y}H^{*} para la R objetivo. Se produce una simplificación, puesto que R_{y} presenta la estructura de matriz de bloque

30

donde R_{m}=E[mn^{*}] y R_{s}=E[ss^{*}]. Además, suponiendo descorreladores mutuamente descorrelacionados, la matriz R_{s} es diagonal. Obsérvese que esto también afecta al diseño de upmix con respecto a la reconstrucción de energías correctas. La solución es calcular en el descodificador, o transmitir desde el codificador, información acerca de la estructura R_{m} de correlación de las señales de downmix.

Para el caso de 5,1 canales a partir de 2 canales un método preferido para downmix es

31

donde s_{1} se obtiene a partir de la descorrelación de m_{1}=I_{d} y s_{2} se obtiene a partir de la descorrelación de m_{2}=r_{d}.

En este caso los grupos {a,b}y {d,e} se tratan como sistemas de canales 1\rightarrow2 separados tomando en cuenta las correlaciones cruzadas por pares. Para los canales c y f, las ponderaciones han de ajustarse de tal manera que

32

La presente invención puede implementarse tanto en chips de hardware como en DSP, para diversos tipos de sistemas, para almacenamiento o transmisión de señales, analógicas o digitales, utilizando códecs arbitrarios. La figura 2 y la figura 3 muestran una posible implementación de la presente invención. En este ejemplo, se muestra un sistema que funciona sobre seis señales de entrada (una configuración de 5,1 canales). En la figura 2 se muestra el lado del codificador y las señales de entrada analógicas para los canales individuales se convierten en una señal 201 digital y se analizan utilizando un banco de filtros para cada canal 202. La salida de los bancos de filtros se alimenta al codificador 203 envolvente que incluye un generador de parámetros que realiza un downmix que crea el uno o los dos canales codificados por el codificador 205 de audio. Además, los parámetros envolventes tales como los parámetros IID e ICC se extraen según la presente invención, y los datos de control que representan la cuadrícula de frecuencia de tiempo de los datos, así como qué parametrización se utilizó, se extraen 204 según la presente invención. Los parámetros extraídos se codifican 206 tal como se enseña mediante la presente invención, o bien conmutando entre diferentes parametrizaciones o bien disponiendo los parámetros en una forma escalable. Los parámetros 207 envolventes, las señales de control y las señales 208 de downmix codificadas se multiplexan 209 en un flujo de bits serie.

En la figura 3 se muestra una implementación de descodificador típica, es decir, un aparato para generar reconstrucción multicanal. En este caso se supone que el descodificador de audio emite una señal en una representación en el dominio de frecuencia, por ejemplo, la salida del descodificador AAC de alta eficacia MPEG-4 antes del banco de filtros de síntesis QMF. El flujo de bits serie se desmultiplexa 301 y los datos envolventes codificados se alimentan al descodificador 303 de datos envolventes y los canales codificados de downmix se alimentan al descodificador 302 de audio, en este ejemplo un descodificador AAC de alta eficacia MPEG-4. El descodificador de datos envolventes descodifica los datos envolventes y los alimenta al descodificador 305 envolvente, que incluye un elemento de upmix, que recrea seis canales basándose en los canales de downmix descodificados y los datos envolventes y las señales de control. La salida del dominio de la frecuencia del descodificador envolvente se sintetiza 306 a señales del dominio de tiempo que se convierten posteriormente en señales analógicas mediante el DAC 307.

Aunque la presente invención se ha descrito principalmente con referencia a la generación y utilización de parámetros de equilibrio, ha se resaltarse en este momento que también se utiliza preferiblemente el mismo agrupamiento de pares de canales para derivar parámetros de equilibrio para calcular parámetros de coherencia entre canales o parámetros de "ancho" entre estos pares de dos canales. Adicionalmente, también pueden derivarse diferencias de tiempo entre canales o un tipo de "indicaciones de fase" utilizando los mismos pares de canales que los utilizados para el cálculo de parámetros de equilibrio. En el lado del receptor, estos parámetros pueden utilizarse además de o como una alternativa a los parámetros de equilibrio para generar una reconstrucción multicanal. Como alternativa, los parámetros de coherencia entre canales o incluso las diferencias de tiempo entre canales también pueden utilizarse además de otras diferencias de nivel entre canales determinadas por otros canales de referencia. En vista de la característica de escalabilidad de la presente invención, tal como se comentó en conexión con la figura 10a y la figura 10b, se prefiere, sin embargo, utilizar los mismos pares de canales para todos los parámetros de tal modo que, en un flujo de bits escalables, cada capa de escalado incluye todos los parámetros para reconstruir el subgrupo de canales de salida, que pueden generarse mediante la capa de escalado respectiva tal como se expone en la penúltima columna de la tabla de la figura 10b. La presente invención es útil cuando sólo se calculan y transmite a un descodificador los parámetros de coherencia o los parámetros de diferencia de tiempo entre los respectivos pares de canales. En este caso, los parámetros de nivel ya existen en el descodificador para su utilización cuando se realiza una reconstrucción multicanal.

Dependiendo de ciertos requisitos de implementación de los métodos inventivos, los métodos inventivos pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, en particular un disco o un CD que presente señales de control legibles electrónicamente almacenadas sobre el mismo, que actúe conjuntamente con un sistema informático programable de tal forma que se realicen los métodos inventivos. Por lo tanto, generalmente la presente invención es un producto de programa informático con un código de programa almacenado en un portador legible por máquina, estando operativo el código del programa para realizar los métodos inventivos cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, los métodos inventivos son, por lo tanto, un programa informático que presenta un código de programa para realizar al menos uno de los métodos inventivos cuando el programa informático se ejecuta en un ordenador.

Claims

1. Aparato para generar un parámetro de nivel dentro de una representación de parámetros de una señal multicanal que presenta varios canales originales, comprendiendo la representación de parámetros un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, comprendiendo el aparato:

un calculador (900) de parámetro de nivel para calcular un parámetro (r_{M}) de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales; y

una interfaz de salida para generar datos de salida que incluyen el parámetro de nivel y el conjunto de parámetros o el parámetro de nivel y el al menos un canal de downmix.

2. Aparato según la reivindicación 1, en el que el calculador (900) de parámetro de nivel está operativo para calcular, como el parámetro de nivel, una medida de una relación entre una suma de energías de los canales originales y una energía del al menos un canal de downmix.

3. Aparato según una de las reivindicaciones anteriores, en el que la representación de parámetros incluye un conjunto de parámetros para cada una de un número de bandas de frecuencia del al menos un canal de downmix, y

en el que el calculador (900) de parámetro está operativo para calcular un parámetro de nivel para cada una de las bandas de frecuencia.

4. Aparato según una de las reivindicaciones anteriores, en el que la representación de parámetros incluye un conjunto de parámetros para un periodo de tiempo en una secuencia de periodos de tiempo del al menos un canal de downmix, y

en el que el calculador (900) de parámetro de nivel está operativo para calcular un parámetro de nivel para cada periodo de tiempo en una secuencia de periodos de tiempo del al menos un canal de downmix.

5. Aparato según una de las reivindicaciones anteriores, en el que la interfaz de salida está operativa para generar un flujo de datos escalable que incluye, en una capa de escalado inferior, un primer subgrupo de parámetros del conjunto de parámetros, que permite una reconstrucción del primer subgrupo de canales de salida,

que incluye, en una capa de escalado superior, un segundo subgrupo de parámetros del conjunto de parámetros que permite, junto con el primer subgrupo, una reconstrucción de un segundo subgrupo de canales de salida, y

en el que la interfaz de salida está operativa además para introducir el parámetro de nivel en la capa de escalado inferior.

6. Aparato según una de las reivindicaciones anteriores, que comprende además un generador de parámetros que se forma para generar, como un primer parámetro de equilibrio, un parámetro de equilibrio izquierdo/derecho, como un segundo parámetro de equilibrio, un parámetro de equilibrio central, como un tercer parámetro de equilibrio, un parámetro de equilibrio delantero/trasero, como un cuarto parámetro de equilibrio, un parámetro de equilibrio posterior izquierdo/derecho, y como un quinto parámetro de equilibrio, un parámetro de equilibrio de mejora de bajas frecuencias.

7. Aparato para generar una representación multicanal reconstruida de una señal multicanal original que presenta al menos tres canales originales utilizando una representación de parámetros que presenta un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, incluyendo la representación de parámetros un parámetro de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales, comprendiendo el aparato:

un corrector (902) de nivel para aplicar una corrección de nivel del al menos un canal de downmix utilizando el parámetro de nivel de modo que puede obtenerse una reconstrucción multicanal corregida mediante upmix utilizando parámetros del conjunto de parámetros.

8. Aparato según la reivindicación 7, en el que el parámetro de nivel es una relación entre energías de canales, y en el que el corrector (902) de nivel está operativo para ponderar el al menos un canal de downmix utilizando el parámetro de nivel.

9. Método de generación de un parámetro de nivel dentro de una representación de parámetros de una señal multicanal que presenta varios canales originales, comprendiendo la representación de parámetros un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, que comprende:

calcular (900) un parámetro (r_{M}) de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales; y generar datos de salida que incluyen el parámetro de nivel y el conjunto de parámetros o el parámetro de nivel y el al menos un canal de downmix.

10. Método de generación de una representación multicanal reconstruida de una señal multicanal original que presenta al menos tres canales originales utilizando una representación de parámetros que presenta un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, incluyendo la representación de parámetros un parámetro de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales, comprendiendo el método:

aplicar (902) una corrección de nivel del al menos un canal de downmix utilizando el parámetro de nivel de tal modo que se obtiene una reconstrucción multicanal corregida mediante upmix utilizando parámetros del conjunto de parámetros.

11. Programa informático que presenta instrucciones legibles por máquina adaptado para realizar un método según la reivindicación 9 ó 10, cuando se ejecuta en un ordenador.

12. Representación de parámetros que presenta un conjunto de parámetros que, cuando se utiliza junto con al menos un canal de downmix, permite una reconstrucción multicanal, incluyendo la representación de parámetros un parámetro de nivel, calculándose el parámetro de nivel de tal manera que una energía del al menos un canal de downmix ponderado por el parámetro de nivel es igual a una suma de energías de los canales originales.

13. Representación de parámetros según la reivindicación 12 para controlar una reconstrucción multicanal cuando se introduce en un aparato según la reivindicación 7.