ES2255678T3

ES2255678T3 - Codificacion de audio parametrica.

Info

Publication number: ES2255678T3
Application number: ES03739586T
Authority: ES
Inventors: Steven L. J. D. E. Van De Par; Armin G. Kohlrausch; Albertus C. Den Brinker; Erik G. P. Schuijers; Nicolle H. Van Schijndel
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-02-18
Filing date: 2003-01-17
Publication date: 2006-07-01
Anticipated expiration: 2023-01-17
Also published as: DE60303209T2; JP2005517987A; EP1479071A2; ATE315823T1; JP4347698B2; US20050078832A1; AU2003201097A1; AU2003201097A8; CN1705980A; WO2003069954A3; EP1479071B1; DE60303209D1; WO2003069954A2; KR20040080003A

Abstract

Método para codificar (11) una señal (I, D) de audio de al menos dos canales, comprendiendo dicho método: - determinar (110) frecuencias comunes (fcom) en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio, y - representar (111) elementos sinusoides respectivos en los respectivos canales en una frecuencia común dada mediante una representación de la frecuencia (fcom) común dada y una representación de las amplitudes (A, A) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.

Description

Codificación de audio paramétrica.

La presente invención se refiere a la codificación de audio paramétrica.

Heiko Purnhagen, "Advances in parametric audio coding", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (Taller sobre las aplicaciones del procesamiento de señales en audio y acústica), New Paltz, Nueva York, Oct. 17-20, 1999 da a conocer que la modelización paramétrica proporciona una representación eficiente de las señales de audio generales y se utiliza en una codificación de audio a una frecuencia de bits muy baja. Está basada en la descomposición de una señal de audio en elementos que se describen mediante modelos de fuente adecuados y se representan mediante parámetros de los modelos (como frecuencia y amplitud de un tono puro). Los modelos de percepción se usan en la descomposición de la señal y en la codificación de los parámetros de los modelos.

Un objeto de la invención es proporcionar una parametrización ventajosa de una señal de audio multicanal (por ejemplo estéreo). Para este fin, la invención proporciona un método de codificación, un codificador, una señal de audio codificada, un medio de almacenamiento, un método de decodificación, y un decodificador, tal como se define en las reivindicaciones independientes. En las reivindicaciones dependientes se definen realizaciones ventajosas.

Se observa que la codificación audio estéreo tal como se conoce en la técnica anterior. Por ejemplo, los dos canales izquierdo (I) y derecho (D) pueden codificarse de manera independiente. Esto puede realizarse mediante dos codificadores independientes dispuestos en paralelo o multiplexando en el tiempo en un codificador. Normalmente pueden codificarse los dos canales de manera más eficiente usando una correlación de canales cruzado (e irrelevancias) en la señal. Se hace referencia al estándar de audio MPEG-2 (ISO/IEC 13818-3, páginas 5, 6) que da a conocer una codificación estéreo "joint" (doble canal). La codificación estéreo "joint" aprovecha la redundancia entre los canales izquierdo y derecho para reducir la frecuencia de bits de audio. Son posibles dos formas de codificación estéreo "joint": estéreo MS y estéreo de intensidad. El estéreo MS se basa en la codificación de la señal de suma (I+D) y de diferencia (I-D) en lugar de los canales izquierdo (I) y derecho (D). La codificación por intensidad se basa en retener en altas frecuencias únicamente la envolvente de la energía de los canales derecho (D) e izquierdo (I). La aplicación directa del principio de codificación estéreo MS en la codificación paramétrica en lugar de en la codificación de subbanda resultaría en una señal de suma parametrizada y una señal de diferencia parametrizada. La formación de la señal de suma y de la señal de diferencia antes de la codificación puede dar lugar a la generación de elementos de frecuencia adicionales en la señal de audio que va a codificarse, lo que reduce la eficiencia de la codificación paramétrica. La aplicación directa del principio de codificación estéreo de intensidad en un esquema de codificación paramétrica resultaría en una parte de baja frecuencia con canales codificados independientemente y una parte de alta frecuencia que incluye únicamente la envolvente de energía de los canales derecho e izquierdo.

Según un primer aspecto de la invención, se determinan frecuencias comunes en los al menos dos canales de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales, y elementos sinusoidales respectivos en canales respectivos en una frecuencia común dada se representan mediante una representación de la frecuencia común dada, y una representación de las amplitudes respectivas de los elementos sinusoidales respectivos en la frecuencia común dada. Este aspecto se basa en la observación de que una frecuencia dada generada por una fuente dada tiene una alta probabilidad para tener un elemento en cada uno de los canales. Estos elementos de señales tendrán su frecuencia en común. Esto es cierto porque las transformaciones de señales que pueden ocurrir en la transmisión desde la fuente de sonido mediante equipos de grabación hasta el oyente normalmente no afectarán a los elementos de frecuencia de manera diferencial en varios o en todos los canales. Por tanto, pueden representarse elementos comunes en los varios canales de señal mediante una frecuencia única, común. Las amplitudes (y fases) respectivas de los elementos respectivos en los canales respectivos pueden ser diferentes. Por tanto, al codificar los sinusoides con una frecuencia común y una representación de las amplitudes respectivas, se consigue una codificación de compresión eficiente de la señal de audio; sólo se necesita un parámetro para codificar una frecuencia común dada (que ocurre en varios canales). Además, tal parametrización se aplica ventajosamente con un modelo psicoacústico adecuado.

Una vez que se ha encontrado una frecuencia común, pueden representarse los otros parámetros que describen los elementos en cada canal respectivo. Por ejemplo, para una señal estéreo que está representada con elementos sinusoidales, pueden codificarse la media y la diferencia de las amplitudes (y opcionalmente las respectivas fases). En una realización adicional se codifica la mayor amplitud en el flujo de audio codificado junto con una amplitud de diferencia, en la que el signo de la amplitud de diferencia puede determinar el canal dominante para esta frecuencia.

Ya que es probable que exista cierto grado de correlación entre los canales izquierdo y derecho, puede usarse una codificación de entropía de los parámetros sinusoidales que resultaría en una codificación más eficiente de la señal estéreo. Además, puede eliminarse la información irrelevante dentro de la representación de elementos comunes, por ejemplo, las diferencias interaurales de fase en altas frecuencias son inaudibles y pueden ajustarse a cero.

Es posible codificar cualquier frecuencia que ocurre en los canales como una frecuencia común. Si una frecuencia que ocurre en un canal no ocurre en otro canal, la representación de la amplitud debe codificarse entonces de modo que resulte en una amplitud cero para el canal en el que no ocurre la frecuencia.

Pueden representarse también frecuencias no comunes como sinusoides independientes en los canales respectivos. Las frecuencias no comunes pueden codificarse en un bloque de parámetros independiente. Es posible además producir un primer bloque de parámetros que incluya frecuencias comunes que son comunes a todos los canales, un segundo bloque de parámetros que incluye frecuencias que son comunas a un subconjunto (predeterminado) de todos los canales, un tercer bloque de parámetros que incluye frecuencias que son comunes a un subconjunto (predeterminado) adicional de todos los canales, y así hasta un último bloque de parámetros que incluye las frecuencias que ocurren en un único canal y que se codifican de manera independiente.

Una frecuencia común puede representarse como un valor de frecuencia absoluto, pero también como una frecuencia que cambia con el tiempo, por ejemplo, una primera derivada \partialf/\partialt. Además, las frecuencias comunes pueden codificarse diferencialmente con relación a otras frecuencias comunes.

Las frecuencias comunes pueden encontrarse estimando las frecuencias considerando dos o más canales al mismo tiempo.

En una primera realización se determinan las frecuencias de manera independiente para los canales respectivos, seguido de una etapa de comparación para determinar las frecuencias comunes. La determinación de las frecuencias que ocurren en los canales respectivos puede realizarse mediante un logaritmo matching-pursuit convencional (véase por ejemplo S.G. Mallat y Z. Zhang, "Matching pursuits with time-frequency dictionaries", IEEE trans. on Signal Processing, Vol. 41, Nº 12, págs 3397-3415) o ajuste de amplitud de picos (véase por ejemplo R. McAulay y T. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation", IEEE Trans. ASSP, Vol. 34, Nº 4, págs. 744-754, Agosto 1986).

En una segunda realización para determinar las frecuencias comunes se utiliza un algoritmo matching pursuit combinado. Por ejemplo, se combinan representaciones respectivas de potencia o energía de los al menos dos canales para obtener una representación común. Se determinan entonces las frecuencias comunes basándose en la representación común. Preferiblemente, se añaden los espectros de potencia de los al menos dos canales para obtener un espectro de potencia común. Se usa un logaritmo matching pursuit convencional para determinar las frecuencias en este espectro de adición. Las frecuencias que se encuentran en este espectro de potencia añadido se determinan como frecuencias comunes.

En una tercera realización para determinar las frecuencias comunes, se usa el ajuste de amplitud de picos en los espectros de potencia de adición. Las frecuencias de los máximos que se encuentran en este espectro de potencia común pueden usarse como las frecuencias comunes. También podrían añadirse espectros de potencia logarítmica en lugar de espectros de potencia lineal.

Preferiblemente, se codifica también la fase de los elementos respectivos de la frecuencia común. Pueden incluirse en la señal audio codificada una fase común, que puede ser la fase promedio de las fases en los canales o la fase del canal con la mayor amplitud y una fase de diferencia (intercanal). Ventajosamente, la fase de diferencia sólo se codifica hasta una frecuencia umbral dada (por ejemplo 1,5 kHz o 2 kHz). Para frecuencias superiores a este umbral no se codifica ninguna fase de diferencia. Esto es posible sin reducir la calidad de manera significativa, porque la sensibilidad humana para las diferencias interaurales de fase es baja para frecuencias superiores a este umbral. Por tanto, un parámetro de fase de diferencia no es necesario para frecuencias superiores al umbral dado. Al decodificar puede asumirse que el parámetro de fase delta sea cero para frecuencias superiores al umbral. El decodificador se dispone para recibir tales señales. Por encima de la frecuencia umbral el decodificador no espera ningún código para las fases de diferencia. Dado que las fases de diferencia en la realización práctica no están dotadas de un identificador, es importante que el decodificador sepa cuando esperar fases de diferencia y cuando no. Además, ya que el oído humano es menos sensible a grandes diferencias de intensidad interaural, las amplitudes delta que son mayores que cierto umbral, por ejemplo, 10 dB, pueden asumirse infinitas. Por consiguiente, tampoco en este caso deben codificarse las diferencias interaurales de fase.

Las frecuencias en canales diferentes que difieran menos que un umbral dado pueden representarse mediante una frecuencia común. En este caso se supone que las frecuencias que difieren se originan a partir de la misma frecuencia fuente. En las realizaciones prácticas el umbral está relacionado con la exactitud del algoritmo "matching pursuit" o de ajuste de amplitud de picos.

En las realizaciones prácticas, la parametrización según la invención se emplea en base a tramas.

La invención puede aplicarse a cualquier señal de audio, incluyendo señales de voz.

Estos y otros aspectos de la invención serán obvios a partir de lo que se comprenderá con referencia a los dibujos adjuntos.

En los dibujos:

la figura 1 muestra un codificador según una realización de la invención;

la figura 2 muestra una posible implementación del codificador de la figura 1;

la figura 3 muestra una implementación alternativa del codificador de la figura 1, y

la figura 4 muestra un sistema según una realización de la invención.

Los dibujos únicamente muestran aquellos elementos que son necesarios para comprender las realizaciones de la invención.

La figura 1 muestra un codificador 11 según una realización de la invención. Una señal de audio multicanal se introduce en el codificador. En esta realización la señal de audio multicanal es una señal de audio estéreo que tiene un canal izquierdo I y un canal derecho D. El codificador 11 tiene dos entradas: una entrada para la señal del canal izquierdo I y otra entrada para la señal del canal derecho D. Alternativamente, el codificador tiene una entrada para ambos canales I y D que se proporcionan en ese caso en forma multiplexada al codificador 11. El codificador 11 extrae sinusoides de ambos canales y determina las frecuencias comunes f_{com}. El resultado del proceso de codificación realizado en el codificador 11 es una señal de audio codificada. La señal de audio codificada incluye las frecuencias comunes f_{com} y por cada frecuencia común f_{com} una representación de las amplitudes respectivas en los canales respectivos, por ejemplo en forma de una amplitud A máxima o promedio y una amplitud \DeltaA de diferencia (delta).

En lo siguiente se describe cómo pueden determinarse las frecuencias comunes, una primera realización que usa un matching pursuit y una segunda realización que usa un ajuste de amplitud de picos.

Una realización que usa "matching pursuit"

Este método es una extensión de los algoritmos de matching pursuit existentes. Los matching pursuit son bien conocidos en la técnica. Un matching pursuit es un algoritmo iterativo. Proyecta la señal sobre un elemento de un diccionario de correspondencias escogido a partir de un diccionario redundante de formas de onda de tiempo-frecuencia. La proyección se resta de la señal para ser aproximada en la siguiente iteración. De este modo, en los algoritmos de matching pursuit existentes la parametrización es realizada determinando por iteraciones un pico del espectro de potencia "proyectado" de una trama de la señal de audio, obteniendo la amplitud óptima y la fase que corresponden a la frecuencia del pico y extrayendo el sinusoide correspondiente de la trama que se está analizando. Este proceso se repite de manera iterativa hasta que se obtiene una parametrización satisfactoria de la señal de audio. Para obtener frecuencias comunes en una señal de audio multicanal, se suman los espectros de potencia de los canales izquierdo y derecho y se determinan los picos de este espectro de potencia de adición. Se usan estas frecuencias de picos para determinar las amplitudes óptimas y opcionalmente las fases de los canales izquierdo y derecho (o más).

El algoritmo de matching pursuit multicanal según una realización práctica de la invención comprende la etapa de separar la señal multicanal en tramas solapadas de corta duración (por ejemplo 10 ms) y aplicar de manera iterativa las siguientes etapas sobre cada una de las tramas hasta que se alcance un criterio de parada:

1. Se calculan los espectros de potencia de cada uno de los canales de la trama multicanal

2. Se suman los espectros de potencia para obtener un espectro de potencia común

3. Se determina la frecuencia a la que el espectro de potencia común "proyectado" es máximo

4. Se determinan, para la frecuencia determinada en la etapa 3, la amplitud y la fase de las sinusoides que mejor se ajustan y se almacenan todos estos parámetros. Se codifican estos parámetros usando las frecuencias comunes en combinación con una representación de las amplitudes respectivas, aprovechando por tanto las correlaciones e irrelevancias de canales cruzados.

5. Se restan las sinusoides de las correspondientes tramas multicanal actuales para obtener una señal residual actualizada que sirve como la siguiente trama multicanal en la etapa 1.

Realización que usa "ajuste de amplitud de picos"

Alternativamente puede usarse ajuste de amplitud de picos, incluyendo por ejemplo las etapas siguientes:

3. Se determinan las frecuencias correspondientes a todos los picos que quedan dentro del espectro de potencia

4. Se obtienen, para estas frecuencias determinadas, las mejores amplitudes y las mejores fases.

La figura 2 muestra una posible implementación del codificador de la figura 1, que usa un espectro (de adición) de potencia común de los canales para determinar las frecuencias comunes. En la unidad 110 de cálculo se realiza un proceso de matching pursuit o un proceso de ajuste de amplitud de picos tal como se describió anteriormente usando un espectro de potencia común obtenido de los canales I y D. Las frecuencias f_{com} comunes determinadas se proporcionan a la unidad 111 de codificación. Esta unidad de codificación determina las amplitudes respectivas de las sinusoides (y preferiblemente las fases) en los diferentes canales a una frecuencia común dada.

Alternativamente, los canales respectivos se codifican de manera independiente para obtener un conjunto de sinusoides parametrizados para cada canal. Estos parámetros se verifican posteriormente para frecuencias comunes. Tal realización se muestra en la figura 3. La figura 3 muestra una implementación alternativa del codificador 11 de la figura 1. En esta implementación el codificador 11 comprende dos codificadores 112 y 113 paramétricos independientes. Los parámetros f_{I}, A_{L} y f_{D}, A_{D} obtenidos en estos codificadores independientes se proporcionan a una unidad 114 de codificación adicional que determina las frecuencias f_{com} comunes en estas dos señales parametrizadas.

Ejemplo de codificación de una señal de audio estéreo

Suponiendo que una señal de audio estéreo viene dada con las siguientes características:

canal	f(Hz)	A(dB)	f(Hz)	A(dB)	f(Hz)	A(dB)	f(Hz)	A(dB)	f(Hz)	A(dB)
I	50	30	100	50	250	40	-	-	500	40
D	50	20	100	60	-	-	200	30	500	35

En la práctica, en este caso la diferencia de amplitud entre los canales es de +15 dB o -15 dB en una frecuencia dada, se considera que esta frecuencia ocurre únicamente en el canal dominante.

Codificado independientemente

La siguiente parametrización puede usarse para codificar la señal de estéreo ejemplar independientemente.

: I(f,A) = (50, 30), (100, 50), (250, 40), (500, 40)

: D(f,A) = (50, 20), (100, 60), (200, 30), (500, 35)

Esta parametrización requiere 16 parámetros.

Usando frecuencias comunes y frecuencias no comunes

Las frecuencias comunes son 50 Hz, 100 Hz y 500 Hz. Para codificar esta señal:

: (f_{com}, A_{max}, \DeltaA) = (50, 30, 10), (100, 60, -10), (500, 40, 5)

: (f_{no-com}, A) = (200, -30), (250, 40)

La codificación de la señal de audio estéreo usando frecuencias comunes y no comunes requiere 13 parámetros en este ejemplo. En comparación con la señal multicanal codificada independientemente, el uso de frecuencias comunes reduce el número de parámetros de codificación. Además, los valores para la amplitud delta son menores que para las amplitudes absolutas tal como vienen dadas en la señal multicanal codificada independientemente. Esto reduce adicionalmente la frecuencia de bits.

La señal en la amplitud delta \DeltaA determina el canal dominante (entre dos señales). En el ejemplo anterior, una amplitud positiva significa que el canal izquierdo es dominante. El signo puede usarse también en la representación de la frecuencia no común para indicar para qué señal es válida la frecuencia. Aquí se usa la misma convención: el positivo es izquierdo (dominante). Alternativamente es posible proporcionar una amplitud promedio en combinación con una amplitud de diferencia, o consistentemente la amplitud de un canal dado con una amplitud de diferencia con relación al otro canal.

En lugar de usar el signo en la amplitud delta \DeltaA para determinar el canal dominante, también es posible usar un bit en el flujo de bits para indicar el canal dominante. Esto requiere 1 bit, tal como puede ser el caso también para el bit de signo. Este bit está incluido en el flujo de bits y se usa en el decodificador. En el caso de que se codifique una señal de audio con más de dos canales, se necesita más de 1 bit para indicar el canal dominante. Esta implementación es sencilla.

Uso únicamente de frecuencias comunes

Cuando se usa únicamente una representación basada en frecuencias comunes, las frecuencias no comunes se codifican de modo que la amplitud de la frecuencia común en el canal en el que no ocurre ninguna sinusoide en esa frecuencia sea cero. En la práctica, puede usarse un valor de por ejemplo +15 dB o -15 dB para la amplitud delta para indicar que no hay ninguna sinusoide de la frecuencia actual en el canal dado. El signo en la amplitud delta \DeltaA determina el canal dominante (entre dos señales). En este ejemplo, una amplitud positiva significa que es dominante el canal izquierdo.

: (f_{com}, A, \DeltaA) = (50, 30, 10), (100, 60, -10), (200, 30, -15), (250, 40, 15), (500, 40, 5)

Esta parametrización requiere 15 parámetros. Para este ejemplo, el uso únicamente de frecuencias comunes es menos ventajoso que el uso de frecuencias comunes y no comunes.

Promedio de frecuencias y diferencias

: (F_{av}, \DeltaF, A_{av}, \DeltaA) = (50, 0, 25, 5), (100, 0, 55, -5), (225, 25, 35, 5), (500, 0, 30, 10)

Esta parametrización requiere 16 parámetros.

Esta es una codificación alternativa en la que se representan los elementos sinusoidales en la señal mediante frecuencias promedio y amplitudes promedio. Está claro que también comparado con esta estrategia de codificación, es ventajoso el uso de frecuencias comunes. Se hace notar que el uso de las frecuencias promedio y de las amplitudes promedio puede verse como una invención separada fuera del alcance de la presente aplicación.

Se hace notar que no es estrictamente el número de parámetros sino más bien la suma del número de bits por parámetro que es importante para la frecuencia de bits del flujo de audio codificado que se obtiene como resultado. En este respecto, la codificación diferencial normalmente proporciona una reducción del flujo de bits para elementos de señal correlacionados.

La representación con un parámetro de frecuencia común y amplitudes respectivas (y opcionalmente fases respectivas) puede verse como una representación mono, captada en la frecuencia común, la amplitud máxima o promedio, la fase de la amplitud máxima o promedio (opcional) de los parámetros y una extensión multicanal captada en los parámetros amplitud delta y fase delta (opcional). Los parámetros mono pueden tratarse como parámetros estándar que pueden obtenerse en un codificador mono sinusoidal. Por tanto, estos parámetros mono pueden usarse para crear enlaces entre sinusoides en las tramas subsiguientes, para codificar parámetros diferencialmente según estos enlaces y para realizar una continuación de fase. Los parámetros adicionales multicanal pueden codificarse según las estrategias mencionadas anteriormente que aprovechan adicionalmente las propiedades de audición estereofónicas. Los parámetros delta (amplitud delta y fase delta) pueden también codificarse diferencialmente basándose en los enlaces que se han hecho en base a los parámetros mono. Además, para proporcionar un flujo de bits escalable, pueden incluirse los parámetros mono en una capa base, mientras que los parámetros multicanal están incluidos en una capa de refuerzo.

En el ajuste de los componentes mono, la función de coste (o medida de similitud) es una combinación del coste para la frecuencia, el coste para la amplitud y (opcionalmente) el coste para la fase. Para los elementos estéreo, la función de coste puede ser una combinación del coste para la frecuencia común, el coste para la amplitud promedio o máxima, el coste para la fase, el coste para la amplitud delta y el coste para la fase delta. Alternativamente, puede utilizarse para la función de coste para los elementos estéreo: la frecuencia común, las amplitudes respectivas y las fases respectivas.

Ventajosamente, la parametrización sinusoidal usando una frecuencia común y una representación de las amplitudes respectivas de esa frecuencia en los canales respectivos se combina con una parametrización mono transitoria tal como se da a conocer en el documento WO 10/69593-A1. Esto puede combinarse adicionalmente con una representación mono para el ruido tal como la que se describe en el documento WO 01/88904.

Aunque la mayoría de las realizaciones descritas anteriormente están relacionadas con las señales de audio de dos canales, la extensión a tres o más canales es sencilla.

La adición de un canal adicional a una señal de audio ya codificada puede realizarse ventajosamente de la siguiente manera: basta identificar en la señal de audio codificada una representación de las amplitudes de las frecuencias comunes presentes en el canal extra y una representación de las frecuencias no comunes. Puede incluirse también opcionalmente información de fase en la señal de audio codificada.

En una realización práctica, la amplitud promedio o máxima y la fase promedio de la mayor amplitud en una frecuencia común se cuantifican de manera similar a la cuantificación respectiva de la amplitud delta y la fase delta en la frecuencia común para el(los) otro(s) canal(es). Los valores prácticos para la cuantificación son:

	frecuencia común	resolución de 0,5%
	amplitud, amplitud delta	resolución de 1 dB
	fase, fase delta	resolución de 0,25 rad

La codificación de audio multicanal propuesta proporciona una reducción del flujo de bits cuando se compara con la codificación de los canales por separado.

La figura 4 muestra un sistema según una realización de la invención. El sistema comprende un aparato 1 para transmitir o almacenar una señal de audio codificada [S]. El aparato 1 comprende una unidad 10 de entrada para recibir una señal S de audio de al menos dos canales. La unidad 10 de entrada puede ser una antena, micrófono, conexión de red, etc. El aparato 1 comprende adicionalmente el codificador 11, tal como se muestra en la figura 1 para codificar la señal S de audio para obtener una señal de audio codificada con una parametrización según la presente invención, por ejemplo (f_{com}, A_{av}, \DeltaA) o (f_{com}, A_{max}, \DeltaA). Se proporciona la parametrización de la señal de audio codificada a una unidad 12 de salida que transforma la señal de audio codificada en un formato [S] adecuado para la transmisión o almacenamiento mediante un medio de transmisión o un medio de almacenamiento 2. El sistema comprende adicionalmente un receptor o aparato 3 reproductor que recibe la señal [S] de audio codificada en una unidad 30 de entrada. La unidad 30 de entrada extrae de la señal [S] de audio codificada los parámetros (f_{com}, A_{av}, \DeltaA) o (f_{com}, A_{max}, \DeltaA). Estos parámetros se proporcionan a un decodificador 31 que sintetiza una señal de audio decodificada basada en los parámetros recibidos generando las frecuencias comunes que tienen las amplitudes respectivas para obtener los dos canales I y D de la señal S' de audio decodificada. Los dos canales I y D se proporcionan a una unidad 32 de salida que proporciona la señal S' de audio decodificada. La unidad 32 de salida puede ser una unidad de reproducción tal como un altavoz para reproducir la señal S' de audio decodificada. La unidad 32 de salida puede ser también un transmisor para transmitir adicionalmente la señal S' de audio decodificada, por ejemplo, a través de una red doméstica, etc.

Debe observarse que las realizaciones mencionadas anteriormente ilustran más que limitan la invención, y que los expertos en la técnica serán capaces de diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones, cualquier signo de referencia colocado entre paréntesis no se entenderá como limitando la reivindicación. La palabra "comprende" no excluye la presencia de otros elementos o etapas que los que se enumeran en una reivindicación. La invención puede implementarse mediante equipos físicos que comprendan varios elementos definidos, y mediante un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumera varios medios, varios de estos medios pueden estar realizados en un único elemento de equipo físico. El mero hecho de que ciertas medidas se citen en reivindicaciones dependientes diferentes no indica que no pueda usarse ventajosamente una combinación de estas medidas.

Claims

1. Método para codificar (11) una señal (I, D) de audio de al menos dos canales, comprendiendo dicho método:

determinar (110) frecuencias comunes (f_{com}) en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio, y

representar (111) elementos sinusoides respectivos en los respectivos canales en una frecuencia común dada mediante una representación de la frecuencia (f_{com}) común dada y una representación de las amplitudes (A, \DeltaA) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.

2. Método de codificación según la reivindicación 1, en el que la representación de las amplitudes (A, \DeltaA) respectivas comprende una amplitud (A) promedio y una amplitud (\DeltaA) de diferencia.

3. Método de codificación según la reivindicación 1, en el que la representación de las amplitudes (A, \DeltaA) respectivas comprende una amplitud (A) máxima y una amplitud (\DeltaA) de diferencia.

4. Método de codificación según la reivindicación 1, en el que las frecuencias no comunes se codifican como frecuencias comunes, en las que la representación de la amplitud incluye una indicación para indicar el al menos un canal en el que no ocurre la frecuencia.

5. Método de codificación según la reivindicación 1, en el que además de las frecuencias comunes, se codifican independientemente las frecuencias no comunes.

6. Método según la reivindicación 5, en el que las frecuencias no comunes se agrupan en el flujo de audio codificado en un bloque separado.

7. Método según la reivindicación 6, en el que las frecuencias comunes se agrupan y se incluyen en la señal de audio codificada antes del bloque de frecuencias no comunes.

8. Método según la reivindicación 6, en el que los parámetros de los elementos sinusoidales en las frecuencias comunes se incluyen en una capa base y los parámetros de las sinusoides en las frecuencias no comunes se incluyen en una capa de refuerzo.

9. Método según la reivindicación 1, en el que el método comprende la etapa de combinar representaciones de potencia o de energía respectivas de los al menos dos canales para obtener una representación común y en el que la etapa de determinar las frecuencias comunes se realiza basándose en la representación común.

10. Método según la reivindicación 9, en el que la etapa de combinación incluye añadir espectros de potencia de los al menos dos canales y en el que la representación común es un espectro de potencia común.

11. Método según la reivindicación 1, en el que los parámetros de frecuencia y amplitud se incluyen en una capa base y la amplitud delta se incluye en una capa de refuerzo.

12. Método según la reivindicación 1, en el que se determinan respectivas fases de los sinusoides respectivos en la frecuencia común dada y en el que se incluye una representación de las fases respectivas en la señal de audio codificada.

13. Método según la reivindicación 12, en el que la representación de las fases respectivas incluye una fase promedio y una fase de diferencia.

14. Método según la reivindicación 12, en el que la representación de las fases respectivas incluye una fase del canal con una amplitud máxima, y una fase de diferencia.

15. Método según la reivindicación 12, en el que la representación de las fases respectivas sólo se incluye en la señal para los sinusoides que tienen una frecuencia hasta cierta frecuencia umbral.

16. Método según la reivindicación 15, en el que la frecuencia umbral dada es alrededor de 2 kHz.

17. Método según la reivindicación 12, en el que la representación de las fases respectivas sólo se incluye en la señal para los sinusoides que tengan una diferencia de amplitud con al menos uno de los otros canales hasta cierto umbral de amplitud.

18. Método según la reivindicación 17, en el que el umbral de amplitud dado es de 10 dB.

19. Codificador (11) para codificar una señal (I, D) de audio de al menos dos canales, comprendiendo dicho codificador:

medios (110) para determinar frecuencias (f_{com})comunes en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio

medios (111) para representar elementos sinusoidales respectivos en canales respectivos en una frecuencia común dada mediante una representación de la frecuencia (f_{com}) común dada y una representación de las amplitudes (A, \DeltaA) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.

20. Aparato (1) para transmitir o grabar, comprendiendo dicho aparato

una unidad (10) de entrada para recibir una señal (S) de audio de al menos dos canales (I, D),

un codificador (11) según la reivindicación 19 para codificar la señal (S) de audio para obtener una señal ([S]) de audio codificada, y

una unidad de salida para proporcionar la señal ([S]) de audio codificada.

21. Señal ([S]) de audio codificada que representa una señal (I, D) de audio de al menos dos canales que comprende:

representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y

para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representa elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada.

22. Medio (2) de almacenamiento que tiene almacenado en el mismo una señal según la reivindicación 21.

23. Método para decodificar (31) una señal ([S]) de audio codificada, comprendiendo dicho método:

recibir (31) la señal ([S]) de audio codificada que representa una señal (I, D) de audio de al menos dos canales, comprendiendo la señal de audio codificada representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representan elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada, y

generar (31) las frecuencias comunes en las amplitudes respectivas en los al menos dos canales (I, D) para obtener una señal (S') de audio decodificada.

24. Decodificador (31) para decodificar una señal ([S]) de audio codificada, comprendiendo dicho decodificador:

medios (31) para recibir la señal ([S]) de audio codificada que representan una señal (I, D) de audio de al menos dos canales, comprendiendo la señal de audio codificada representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representan elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada, y

medios (31) para generar las frecuencias comunes en las amplitudes respectivas en los al menos dos canales (I, D) para obtener una señal (S') de audio decodificada.

25. Receptor o aparato (3) reproductor, comprendiendo el aparato:

una unidad (30) de entrada para recibir una señal ([S]) de audio codificada,

un decodificador (31) según la reivindicación 24 para decodificar la señal ([S]) de audio codificada para obtener una señal (S') de audio decodificada, y

una unidad (32) de salida para proporcionar la señal (S') de audio decodificada.