ES2338918T3

ES2338918T3 - Codificacion de audio residual adaptativa.

Info

Publication number: ES2338918T3
Application number: ES06742550T
Authority: ES
Inventors: Lars Villemoes; Francois Philippus Myburg
Original assignee: Koninklijke Philips Electronics NV; Dolby Sweden AB
Current assignee: Koninklijke Philips NV; Dolby Sweden AB
Priority date: 2005-04-15
Filing date: 2006-04-07
Publication date: 2010-05-13
Anticipated expiration: 2026-04-07
Also published as: PL1869668T3; MX2007012686A; EP1869668B1; MY147609A; RU2007142177A; BRPI0612218A2; BRPI0612218B1; JP4685925B2; TW200643897A; HK1110985A1; KR100955361B1; WO2006108573A1; CN101160619B; KR20070120527A; US20060233379A1; US7751572B2; RU2380766C2; JP2008536184A; CN101160619A; TWI303411B

Abstract

Codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales (18), que comprende: un extractor (16) de parámetros para derivar un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales; un limitador (14) para limitar el parámetro de coherencia para derivar un parámetro de coherencia limitado, en el que el límite del parámetro de coherencia depende del parámetro de nivel y de un factor de escala; y un mezclador (12) descendente para derivar una señal (20) de mezcla descendente y una señal (18) residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro de coherencia limitado.

Description

Codificación de audio residual adaptativa.

Campo de la invención

La presente invención se refiere a la codificación y decodificación de señales de audio y, en particular, a la codificación de alta calidad eficaz de un par de canales de audio.

Antecedentes de la técnica anterior de la invención

Recientemente, la codificación de alta calidad eficaz de señales de audio se ha vuelto cada vez más importante, puesto que la distribución digital de contenido de audio y vídeo comprimido, por ejemplo, por satélite o por difusión de audio o vídeo digital terrestre se utiliza ampliamente. La técnica MP3 muy conocida, por ejemplo, permite la transmisión conveniente de títulos de audio por Internet u otros canales de transmisión que tienen anchos de banda limitados.

Además de MP3, otros diversos esquemas de codificación de audio ayudan a maximizar la calidad de audio para una relación de compresión o velocidad de transmisión de datos dada. Se ha mostrado en "Efficient and scalable Parametric Stereo Coding for Low Bit rate Audio Coding Applications", PCT/SE02/01372, que es posible recrear una señal estéreo que asemeja mucho a la imagen estéreo original subyacente, a partir de una señal mono cuando adicionalmente se utiliza una representación muy compacta de la señal estéreo comúnmente denominada como "colas espaciales". El principio dado a conocer es dividir la señal de entrada estéreo en bandas de frecuencia y estimar parámetros llamados diferencia de intensidad entre canales (IID) y coherencia entre canales (ICC) para cada una de las bandas de frecuencia por separado. El primer parámetro describe una medida de la distribución de energía entre los dos canales en la banda de frecuencia específica y el segundo parámetro describe una estimación de la correlación entre los dos canales. Una descripción más concienzuda de los parámetros espaciales puede encontrarse en "High-quality parametric spatial audio coding at low bit rates", J. Breebart, S. van de Par, A. Kohirausch y E.Schuijers, Proc. 116^{th} AES Convention, Berlín (Alemania), 8-11 de mayo de 2004. Basándose en estas señales de entrada espaciales, la señal de entrada estéreo se combina de manera adaptativa en una señal mono. Tanto las colas espaciales como la señal mono se codifican y la representación codificada se multiplexa en un flujo de bits, que se transmite al decodificador. En el lado del decodificador, la imagen estéreo se recrea a partir de la señal mono mediante distribución de la energía de la señal mono entre los dos canales de salida según los datos IID, y mediante adición de una señal decorrelacionada con el fin de conservar la correlación de canal de los canales estéreo originales, según se describe por los parámetros ICC.

Cuando hay disponible más ancho de banda de transmisión, puede lograrse una mayor calidad de audio sustituyendo la señal mono decorrelacionada en el decodificador por una señal residual transmitida. Es decir, se requiere la transmisión de una señal residual adicional a un decodificador. También es éste el caso con la codificación central-lateral (mid-side, MS), en la que se codifican la suma y la diferencia de los canales de una señal estéreo en vez de los canales derecho e izquierdo directamente. Una descripción de la técnica MS puede encontrarse en "Sum-difference stereo transform coding", Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP); San Francisco, EE.UU., 1992, págs. II 569-572. La codificación MS se basa en el hallazgo de que el canal izquierdo y derecho de una señal estéreo son bastante similares con una alta probabilidad. Por consiguiente, una diferencia del canal izquierdo y derecho producirá una señal que tiene una intensidad comparativamente baja la mayor parte del tiempo, es decir, la amplitud de la señal de diferencia será bastante pequeña. No obstante, puede ahorrarse una cantidad significativa de velocidad de transmisión de datos cuando se codifica la señal de diferencia, ya que los parámetros que describen la señal de diferencia pueden cuantificarse de manera aproximada. La señal de suma evidentemente necesitará aproximadamente el mismo ancho de banda que un único canal izquierdo o derecho, cuando se codifica. Por consiguiente, puede ahorrarse una cantidad significativa de ancho de banda en total cuando se utiliza el esquema de codificación MS. Cuando existe una gran diferencia de intensidad entre el canal izquierdo y el derecho, la técnica MS tiene sus límites, ya que entonces el canal de diferencial contendrá una cantidad sustancial de energía y, por consiguiente, necesita un mayor ancho de banda. Sin embargo, puede observarse que en implementaciones codificadas en estéreo normales, la codificación MS no se aplicará en este caso, debido a los elevados costes de codificación. En estos casos, es ventajoso tener la posibilidad de cambiar entre la codificación estéreo normal y la codificación MS, dependiendo de la intensidad transportada por los canales de audio originales que tienen que codificarse.

Al sustituir el concepto estático de formar la suma y la diferencia de dos canales estéreo que van a codificarse mediante invención de una matriz de rotación del decodificador con elementos de matriz que describen la composición de dos canales intermedios que son una combinación de los dos canales estéreo, puede superarse el problema anterior. Los elementos de matriz son dependientes de parámetros estéreo paramétricos que se extraen del canal izquierdo y el derecho de la señal estéreo. La codificación residual adaptativa es tal que permite la adaptación dinámica de la regla de combinación para la generación de canales intermedios respecto a las propiedades de la presente señal, logrando una ganancia de rendimiento significativa frente a la codificación MS.

La selección de una dependencia adecuada de los elementos de matriz de la denominada matriz de rotación a partir de los parámetros estéreo paramétricos, puede lograrse que la energía dentro de un canal de diferencia permanezca al mínimo posible, como se muestra ya en la solicitud de patente Europea no dada a conocer EP 04103168.3. Cuando se introduce una matriz de rotación para transformar (mezcla descendente o mezcla ascendente) la señal estéreo en señales m y s (las señales intermedias, es decir, la señal de mezcla descendente m y la señal residual s), es crucial para la operación del método que las matrices de rotación (la matriz de rotación del decodificador y la matriz de rotación del codificador) estén delimitadas. Esto significa que los elementos de matriz dentro de las matrices no divergen al infinito dentro del intervalo entero de parámetros de codificación estéreo paramétricos posibles. En otras palabras, ambas matrices de rotación tienen que estar delimitadas en el sentido de que el número de condición de matriz es lo suficientemente pequeño para permitir una inversión de la matriz sin problemas para todo el intervalo de parámetros de codificación estéreo paramétricos, lo que no es el caso para implementaciones según técnicas de la técnica anterior.

Se conocen varios documentos en la técnica relacionados con el problema de inestabilidad anterior.

Un enfoque (WERNER OOMEN, ERIK SCHUIJERS, HEIKO PURNHAGEN, JONAS ENGDEGARD: "MPEG4-EXT2: CE ON LOW COMPLEXITY PARAMETRIC STEREO-ISO/IEC JTC1/SC29/WG11-MPEG2003/M10366" CODING OF MOVING PICTURES AND AUDIO-ISO/IEC, diciembre de 2003 (2003-12), XP002388137 Hawai) se refiere a la codificación de audio en MPEG4. Se propone limitar los parámetros estéreo paramétricos a un límite fijo predeterminado, para evitar problemas de inestabilidad computacional.

De manera similar, en otro enfoque (FALLER CHRISTOF: "Parametric coding of spatial audio-Thesis No.3062" THESE PRESENTEE A LA FACULTE INFORMATIQUE ET COMMUNICATIONS INSTITUT DE SYSTEMES DE COMMUNICATION SECTION DES SYSTEMES DE COMMUNICATION ÉCOLE POLYTHECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR EN SCIENCES, XX, XX, 2004 página completa, XP002343263) se aplica un límite permanente a un factor de ganancia utilizado para la mezcla descendente o mezcla ascendente de señales multicanal paramétricamente codificadas.

La patente estadounidense 6021386 se refiere a la codificación de múltiples canales de información de audio. En un codificador, los múltiples canales de canal de audio que representan fuentes de sonido multidimensional se dividen en señales de subbanda y las señales de subbanda en una o más subbandas se combinan para formar señales compuestas para transportarse. Los niveles espectrales de las señales de subbanda combinadas en señales compuestas se transmiten adicionalmente dentro de una señal de salida codificada. La información de nivel espectral transporta o bien la amplitud o energía de las señales de subbanda combinadas o bien la dirección aparente del campo de sonido representado por la señal de subbanda combinada. Para evitar artefactos, pueden aplicarse límites a las señales compuestas.

Sumario de la invención

El objetivo de la presente invención es proporcionar un concepto para codificación de audio de alta calidad que produce una representación altamente comprimida de una señal de audio, evitando al mismo tiempo artefactos introducidos por la codificación o decodificación de manera más eficaz.

Según un primer aspecto de la presente invención, este objetivo se logra mediante un codificador de audio según se reivindica en la reivindicación 1 para codificar una señal de audio que tiene al menos dos canales, que comprende: un extractor de parámetros para derivar un parámetro espacial de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; un limitador para limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y un mezclador descendente para derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado.

Según un segundo aspecto de la presente invención, este objetivo se logra mediante un decodificador de audio según se reivindica en la reivindicación 15 para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente, una señal residual y un parámetro espacial que describe una interrelación entre los al menos dos canales, que comprende: un limitador para limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende una interrelación entre los al menos dos canales; y un mezclador ascendente para derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un tercer aspecto de la presente invención, este objetivo se logra mediante un método según se reivindica en la reivindicación 27 para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método: derivar un parámetro espacial a partir de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado.

Según un cuarto aspecto de la presente invención, este objetivo se logra mediante un método según se reivindica en la reivindicación 28 para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente, una señal residual y un parámetro espacial que describe una interrelación entre los al menos dos canales, comprendiendo el método: limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un quinto aspecto de la presente invención, este objetivo se logra mediante un transmisor o grabador de audio según se reivindica en la reivindicación 29 que tiene un codificador de audio para codificar una señal de audio que tiene al menos dos canales, que comprende: un extractor de parámetros para derivar un parámetro espacial de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; un limitador para limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y un mezclador descendente para derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado.

Según un sexto aspecto de la presente invención, este objetivo se logra mediante un receptor o reproductor de audio según se reivindica en la reivindicación 30, que tiene un decodificador de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente, una señal residual y un parámetro espacial que describe una interrelación entre los al menos dos canales, que comprende: un limitador para limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y un mezclador ascendente para derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un séptimo aspecto de la presente invención, este objetivo se logra mediante un método de transmisión o grabación de audio según se reivindica en la reivindicación 31, teniendo el método un método para generar una señal codificada, comprendiendo el método un método para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método: derivar un parámetro espacial de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado.

Según un octavo aspecto de la presente invención, este objetivo se logra mediante un método para la recepción o reproducción de audio según se reivindica en la reivindicación 32, teniendo el método un método para decodificar una señal de audio codificada, comprendiendo el método un método para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente, una señal residual y un parámetro espacial que describe una interrelación entre los al menos dos canales, comprendiendo el método: limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un noveno aspecto de la presente invención, este objetivo se logra mediante un sistema de transmisión que tiene un transmisor y un receptor, teniendo el transmisor un codificador de audio para codificar una señal de audio que tiene al menos dos canales, que comprende: un extractor de parámetros para derivar un parámetro espacial de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; un limitador para limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y un mezclador descendente para derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado; y teniendo el receptor un decodificador de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente, una señal residual y un parámetro espacial que describe una interrelación entre los al menos dos canales, que comprende: un limitador para limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y un mezclador ascendente para derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un décimo aspecto de la presente invención, este objetivo se logra mediante un método de transmisión y recepción, incluyendo el método un método de transmisión que tiene un método para generar una señal codificada de una señal de audio que tiene al menos dos canales, comprendiendo el método: derivar un parámetro espacial de la señal de audio, en el que el parámetro espacial describe una interrelación entre los al menos dos canales; limitar el parámetro espacial utilizando una regla de limitación para derivar un parámetro espacial limitado, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro espacial limitado; y un método de recepción, que tiene un método para decodificar una señal de audio codificada, comprendiendo el método: limitar el parámetro espacial para derivar un parámetro espacial limitado utilizando una regla de limitación, en el que la regla de limitación depende de una interrelación entre los al menos dos canales; y derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro espacial limitado.

Según un undécimo aspecto de la presente invención, este objeto se logra mediante una señal de audio codificada que es una representación de una señal de audio que tiene al menos dos canales, teniendo la señal de audio codificada un parámetro espacial que describe una interrelación entre los al menos dos canales, una señal de mezcla descendente y una señal residual, en el que la señal de mezcla descendente y la señal residual se derivan de la señal de audio utilizando una regla de mezcla descendente que depende de un parámetro espacial limitado, derivado utilizando una regla de limitación que depende de una interrelación de los al menos dos canales.

La presente invención se basa en el hallazgo de que una señal de audio que tiene al menos dos canales puede mezclase descendentemente de manera eficaz en una señal de mezcla descendente y una señal residual, cuando la regla de mezcla descendente utilizada depende de un parámetro espacial que se deriva de la señal de audio y que se postprocesa por un limitador para aplicar un cierto límite al parámetro espacial derivado con el propósito de evitar inestabilidades durante el proceso de mezcla ascendente o de mezcla descendente. Al tener una regla de mezcla descendente que depende dinámicamente de parámetros que describen una interrelación entre los canales de audio, puede garantizarse que la energía dentro de la señal residual mezclada descendentemente se encuentra al mínimo posible, lo que es ventajoso en vista de la eficacia de la codificación. Al postprocesar el parámetro espacial con un limitador antes de usarlo en la mezcla descendente, pueden evitarse inestabilidades en la mezcla ascendente o descendente, lo que de lo contrario podría dar como resultado una perturbación de la percepción espacial de la señal de audio codificada o decodificada.

En una realización de la presente invención, una señal estéreo original que tiene un canal izquierdo y uno derecho se suministra a un mezclador descendente y a un extractor de parámetros. El extractor de parámetros deriva los parámetros espaciales generalmente conocidos ICC (correlación de entre canales) e IID (diferencia de intensidad entre canales). El mezclador descendente puede mezclar descendentemente los canales izquierdo y derecho en una señal de mezcla descendente y una señal residual, en el que la regla de mezcla descendente es tal que la señal residual resultante transporta la mínima energía obtenible. Por consiguiente, la posterior compresión de la señal residual resultante por un codificador de audio estándar dará como resultado un código extremadamente compacto. Esto puede lograrse mediante formulación de la regla de mezcla descendente en dependencia de los parámetros espaciales ICC e IID, ya que ambos parámetros describen relaciones de intensidad o amplitud de los canales estéreo originales. Un problema general durante la codificación es la preservación de energía. Es necesario que tanto la señal original como la señal codificada contengan la misma energía, ya que una violación de la conservación de energía daría como resultado una percepción de volumen diferente de las señales codificadas o incluso saltos incontrolables en el volumen de la señal codificada. Por consiguiente, en el esquema de codificación anterior, la señal de mezcla descendente y la señal residual tienen que ajustarse a escala por un factor de escala que garantice la regla de conservación de energía.

Si la señal de audio original que va a codificarse tiene propiedades especiales, este factor de escala puede ser diferente, en particular, cuando el canal original izquierdo y derecho están perfectamente anticorrelacionados, es decir, cuando tienen las mismas amplitudes y un desplazamiento de fase exactamente de 180º. Esta inestabilidad se evita dentro del concepto de la invención aplicando una función de limitación al parámetro ICC, en el que la función de limitación depende de un factor de escala máximo aceptable y el parámetro IID. Para evitar una posible divergencia, la regla que describe la mezcla descendente se altera directamente, mientras que en implementaciones del estado de la técnica el factor de escala simplemente se limita estableciendo un umbral y el factor de escala se sustituye por el valor umbral cuando se excede el umbral.

Una gran ventaja del concepto de la invención es que tanto la señal en el canal de mezcla descendente como el canal residual se alteran a través de la alteración de los parámetros que son subyacentes al proceso de mezcla descendente. Sólo la señal en el canal de mezcla descendente se vería influenciada al aplicar un umbral según la técnica anterior, de este modo puede lograrse una mejor preservación de la interrelación entre el canal original izquierdo y derecho cuando se sigue el concepto de la invención.

Otra ventaja del concepto de la invención anteriormente descrito es que los parámetros espaciales utilizados generalmente se derivan durante un proceso de codificación. Por consiguiente, puede implementarse la lógica de limitación necesaria sin tener que introducir nuevos parámetros.

En una realización adicional de la presente invención, se aplica un limitador en el lado del decodificador, que tiene la misma regla de limitación que un limitador en el lado del codificador. Esto significa que en el lado del decodificador se reciben la señal de mezcla descendente y residual así como los parámetros espaciales IID e ICC, y los parámetros espaciales recibidos se limitan utilizando la misma regla de limitación utilizada durante el proceso de codificación. La mezcla ascendente depende entonces de los parámetros espaciales limitados, garantizando que no ocurre una divergencia en el proceso de mezcla ascendente. La ventaja de tener las mismas reglas de limitación en la codificación y la decodificación es obvia, ya que sólo hay que desarrollar circuitos de hardware o una implementación de un algoritmo de software una vez. El hardware o software con funcionalidad tanto de codificación como de decodificación, pueden desarrollarse con menores costes, ya que es posible reutilizar el mismo hardware o software para la funcionalidad de limitación.

En una realización adicional de la presente invención, las señales mezcladas descendentemente y los parámetros espaciales se comprimen después de su generación, produciendo dos flujos de bits de audio para las señales mezcladas descendentemente y un flujo de bits de parámetros que contiene los parámetros espaciales comprimidos. Esto reduce el tamaño de la representación codificada que va a transmitirse, ahorrando además ancho de banda, pudiendo ser la codificación con pérdidas o sin pérdidas, ya que la regla de codificación en sí es independiente del concepto de la invención. Un decodificador de la invención según el concepto de la invención comprende entonces una etapa de descompresión, en el que las representaciones comprimidas se descomprimen en los parámetros espaciales, el canal mezclado descendentemente y el canal residual antes de la mezcla ascendente.

En otra realización de la presente invención, los flujos de bits de audio ya comprimidos y el flujo de bits de parámetros se combinan en un flujo de bits combinado, por ejemplo, mediante multiplexación, permitiendo un almacenamiento conveniente de un archivo generado en un medio de almacenamiento. Esto también permite aplicaciones de transferencia en flujo continuo (streaming), por ejemplo, transferencia en flujo continuo del contenido codificado a través de Internet, ya que toda la información relevante está incluida en un único archivo o flujo de bits, permitiendo un manejo más conveniente que en un caso en el que se transferirían tres flujos de bits separados. El decodificador de la invención correspondiente tiene entonces una etapa de descombinación, que podría ser, por ejemplo, un demultiplexor que descombina el flujo de bits en tres flujos de bits separados, concretamente los flujos de bits de audio y el flujo de bits de parámetros.

Debe observarse aquí que el concepto de la invención proporciona una retrocompatibilidad perfecta con la codificación residual de la técnica anterior, en la que los parámetros espaciales no se limitan, e incluso con la codificación estéreo paramétrica de la técnica anterior, en la que un decodificador no hace uso de la señal residual. Por supuesto, esto es una ventaja importante ya que los nuevos datos de audio codificados pueden reproducirse con la máxima calidad posible mediante decodificadores de la invención, mientras que también pueden reproducirse por decodificadores ya existentes según la técnica anterior.

En una realización adicional de la presente invención, se combinan tres codificadores de la invención para codificar una señal de audio multicanal que comprende seis canales individuales, en el que cada uno de los tres codificadores de la invención codifica un par de canales, derivando parámetros espaciales, una señal de mezcla descendente y una residual para cada uno de los pares de canales. El concepto de la invención también puede utilizarse por tanto para codificar señales de audio multicanal en las que la eficacia de la codificación y la capacidad de compactación de la representación resultante tiene una prioridad incluso mayor, ya que la cantidad total de datos que van a codificarse y transmitirse es mucho mayor que para una señal estéreo. En principio, puede combinarse un número arbitrario de codificadores de audio de la invención para codificar simultáneamente una señal de audio multicanal que tiene básicamente cualquier número de canales de audio individuales. En una realización adicional del codificador de audio multicanal, las señales de mezcla descendente y las señales residuales individuales, así como los flujos de bits de parámetros individuales se combinan mediante un mezclador descendente 3 a 2 para recibir una señal izquierda común, una señal derecha común y una señal residual común y un flujo de bits de parámetros combinado, reduciendo adicionalmente la cantidad de ancho de banda requerido. Los decodificadores correspondientes comprenden entonces evidentemente una etapa de mezclador ascendente 2 a 3.

En otra realización de la presente invención, un transmisor o grabador de audio comprende un codificador de la invención, permitiendo la grabación o transmisión de audio compacta, de alta calidad, en el que el tamaño del contenido de audio transmitido o almacenado puede reducirse significativamente. Tal contenido de audio puede almacenarse en un medio de almacenamiento de una capacidad dada o se usa menos ancho de banda durante la transmisión de la señal de audio.

En otra realización, un receptor o reproductor de audio tiene un decodificador de la invención, permitiendo aplicaciones de transferencia en flujo continuo en entornos de ancho de banda limitado, tales como teléfonos móviles, o permitiendo la construcción de pequeños dispositivos de reproducción portátiles, utilizando medios de almacenamiento de capacidad limitada.

Una combinación de un transmisor y receptor de la invención produce un sistema de transmisión que permite la transmisión conveniente de contenido de audio a través de interfaces de transmisión por cable o inalámbricas, tales como LAN inalámbrica, Bluetooth, LAN por cable, tecnologías de comunicación por cable eléctrico, radiotransmisión, o cualquier otro tipo de transmisión de datos.

Breve descripción de los dibujos

Las realizaciones preferidas de la presente invención se describen a continuación mediante referencia a los dibujos adjuntos, en los que:

la figura 1 muestra un diagrama de bloques de un codificador de la invención;

la figura 2 muestra un diagrama de bloques del principio de codificación de la invención;

la figura 3 muestra otra realización de un codificador de la invención;

la figura 4 muestra la retrocompatibilidad del esquema de codificación de la invención con decodificadores de la técnica anterior;

la figura 5 muestra un codificador de audio multicanal de la invención;

la figura 6 muestra un diagrama de bloques de un decodificador de audio de la invención;

la figura 7 muestra un diagrama de bloques del concepto de decodificación de la invención;

la figura 8 muestra una realización adicional de un decodificador de la invención;

la figura 9 muestra una realización de un decodificador de audio multicanal de la invención;

la figura 10 muestra una realización alternativa de un codificador de audio de la invención;

la figura 11 muestra una realización alternativa de un decodificador de audio de la invención;

la figura 12 muestra un transmisor/grabador de audio de la invención;

la figura 13 muestra un receptor/reproductor de audio de la invención;

la figura 14 muestra un sistema de transmisión de la invención.

Descripción detallada de realizaciones preferidas

La figura 1 muestra un diagrama de bloques de un codificador 10 de audio de la invención, que comprende un mezclador 12 descendente, un limitador 14 y un extractor 16 de parámetros.

Una señal 18 estéreo, que tiene un canal izquierdo y un derecho, se introduce en el mezclador 12 descendente y en el extractor 16 de parámetros, simultáneamente. El extractor 16 de parámetros extrae parámetros 19 espaciales que describen una interrelación entre el canal izquierdo y el derecho de la señal 18 estéreo. Estos parámetros, por un lado, están disponibles para la transmisión y, por otro lado, se introducen en el limitador 14. El limitador 14 aplica una regla de limitación a los parámetros. Los detalles de una regla de limitación adecuada se derivarán en los siguientes párrafos.

El limitador deriva parámetros espaciales limitados y estos se introducen en el mezclador 12 descendente, en el que el mezclador 12 descendente aplica una regla de mezcla descendente al canal izquierdo y derecho de la señal 18 estéreo para derivar una señal 20 de mezcla descendente y una señal 22 residual del canal izquierdo y el derecho de la señal estéreo. La regla de mezcla descendente depende adicionalmente del parámetro espacial limitado.

Cuando se selecciona una regla de limitación adecuada para el limitador, sólo se suministran al mezclador 12 descendente parámetros limitados que se limitan de manera que la regla de mezcla descendente no diverge ni produce salida alguna que deteriore una interrelación espacial del canal izquierdo y el derecho debido a la mezcla descendente.

Como resultado, la señal 18 estéreo está representada por la señal 20 de mezcla descendente, la señal 22 residual y los parámetros 19 espaciales después del proceso de codificación llevado a cabo por el codificador 10 de audio.

Para entender la manera en que una regla de mezcla descendente y una regla de limitación tienen que interrelacionarse para proporcionar una señal 22 residual resultante que contiene la mínima energía posible mientras se limita simultáneamente un parámetro espacial de tal manera que la regla de mezcla descendente no origine divergencia alguna, el concepto básico subyacente a la presente invención se elabora con mayor detalle en los siguientes párrafos.

Los parámetros extraídos por el extractor 16 de parámetros normalmente son resultado de un único intervalo de tiempo y frecuencia de muestras de subbanda a partir de un análisis de banco de filtros modulado complejo de las señales de tiempo discretas. Esto significa que la señal de audio del canal izquierdo y derecho de la señal 18 estéreo se divide primero en tramas de tiempo de una longitud dada, y dentro de una única trama de tiempo, el espectro de frecuencia se subdivide en un número de muestras de subbanda. Para cada subbanda individual, el extractor 16 de parámetros deriva entonces un parámetro espacial mediante comparación de los canales izquierdo y derecho de la señal estéreo dentro de la subbanda de interés. Por consiguiente, el canal izquierdo y derecho de la señal 18 estéreo y la señal de mezcla descendente m y la señal residual s de la figura 1 tienen que entenderse como vectores discretos de longitud finita, que describen las señales subyacentes dentro de un intervalo de tiempo discreto. Como se mencionó anteriormente, durante una mezcla descendente, debe garantizarse la preservación de energía. Para vectores complejos discretos x, y, el producto interno complejo y la norma cuadrada (comparable con energía) se definen por

1

Según la convención normal, un * indica conjugación compleja. A partir de este momento, las letras en mayúscula describen la suma o energía al cuadrado de los vectores complejos de longitud finita correspondientes indicados por letras en minúscula.

Según la presente invención, el canal de mezcla descendente m que resulta de la mezcla descendente adaptativa es la suma de energía ponderada del canal original izquierdo y derecho y, por lo tanto, se define por

2

donde g es un factor de ganancia real y positivo, ajustado de tal manera que la energía de la mezcla descendente (M) es igual a la suma de energías de los vectores de señal de canal izquierdo (L) y (R) (M = L + R).

Puesto que este factor de ganancia diverge al infinito cuando l y r se encuentran fuera de fase y tienen energía comparable (es decir, l + r = 0 en la ecuación n.º 2), es necesario limitar este factor por un factor de ganancia máximo g_{0} que se encuentra normalmente dentro del intervalo [1,2]. El extractor 16 de parámetros, según se muestra en la figura 1, extrae los parámetros de audio espaciales IID (diferencia de intensidad entre canales) e IIC (coherencia entre canales) que se representan aquí por

3

Aquí, c indica el parámetro IID y \rho indica el parámetro ICC. El factor de ganancia g puede expresarse dependiendo de los parámetros ICC e IID y de manera que la limitación requerida del factor de ganancia puede escribirse como sigue:

4

Generalmente, puesto que |\rho|\leq1, tenemos 2\rhoc\leqc^{2}+1, de tal manera que 1/\sqrt{2} \leq g \leq g_{0}.

Para lograr la máxima eficacia de codificación, se desea que la energía dentro de la señal 22 residual sea mínima. La siguiente derivación resuelve un problema de optimización más general que comprende una señal residual adicional t, que resulta entonces superflua debido a (9). Considerando el problema desde el lado del decodificador, es necesario determinar ganancias a, b, de tal manera que las señales residuales s, t en la mezcla ascendente

5

tengan energía mínima. La solución viene dada por

6

donde

\vskip1.000000\baselineskip

7

El mismo problema, con la restricción adicional de que los coeficientes a,b son reales, tiene la solución dada al tomar la parte real de (7) e insertarla en (6). En este caso, \rho puede expresarse en términos de los parámetros PS c, \rho como sigue:

\vskip1.000000\baselineskip

8

Al insertar (6) en (5) y sumar las dos ecuaciones en (5) se desprende que:

\vskip1.000000\baselineskip

9

Al describir el proceso de mezcla ascendente en la notación de matriz normal, la mezcla ascendente puede representarse por una matriz de rotación H como sigue:

\vskip1.000000\baselineskip

10

En el caso en el que g no se limita por g_{0} en (4), una representación diferente de los coeficientes óptimos a,b viene dada por:

\vskip1.000000\baselineskip

11

La primera columna de la matriz de rotación H es idéntica a la rotación de amplitud usada en estéreo paramétrico, esto se deriva por ejemplo de WO 03/090206 A1.

La mezcla descendente tiene que ser compatible con la mezcla ascendente en el sentido de que se obtiene una reconstrucción perfecta cuando se omiten todas las etapas de codificación con pérdidas. Como consecuencia, la matriz de mezcla descendente D,

\vskip1.000000\baselineskip

12

\newpage

debe ser la inversa de la rotación de mezcla ascendente H. Un cálculo elemental da

13

donde la primer fila es consistente con (2).

Existe un problema de estabilidad con las dos rotaciones óptimas dadas por (10) y (13). Puesto que (c,\rho) se acerca a (1, -1), el valor de \rho dado por (8) diverge. Por consiguiente, hay que desviarse de las rotaciones óptimas en la proximidad de este punto del dominio de parámetro PS. La solución que enseña la presente invención es modificar los parámetros PS mediante un limitador de inestabilidad tanto en el codificador como en el decodificador.

En su forma general, tal limitador alterará los valores del par (c,\rho) en la proximidad de (1, -1) con objeto de lograr un intervalo delimitado para \rho. Una solución particularmente atractiva se basa en la observación de que el denominador de (8) es el mismo que el de (4). La solución de la invención mantiene c sin alterar y modifica \rho de manera exacta cuando la ganancia de mezcla descendente adaptativa g se limita por g_{0} en (4). Esto ocurre cuando

14

La modificación preferida de \rho llevada a cabo por el limitador 14 de inestabilidad es entonces:

15

El valor correspondiente de \rho dado por la inserción de \tilde{\rho} en lugar de \rho en (8) tiene la propiedad de que

16

En los párrafos previos, se ha detallado el análisis del problema que conduce a la definición del limitador 14. Aunque la notación se basa en señales estéreo, está claro que el mismo método puede aplicarse a cualquier par de señales de audio, tales como pares de canales seleccionados a partir de o generados por una mezcla descendente parcial de una señal de audio multicanal. Es particularmente ventajoso que la misma regla de limitación puede usarse para limitar los parámetros en la matriz de mezcla ascendente y de mezcla descendente.

La figura 2 describe el procedimiento de codificación de audio de la invención, utilizando un diagrama de bloques, que muestra la manera en que se lleva a cabo la codificación de audio cuando se sigue el concepto de la invención. En una primer etapa de extracción de parámetros 30, se derivan los parámetros ICC e IID.

Estos parámetros se reenvían entonces como salida 23 y se transfieren para servir como entrada a la etapa de limitación 32, en la que se hace una comparación del parámetro ICC con un parámetro ICC mínimo calculado, ICC_{min}, en el que ICC_{min} depende de IID. En un primer caso, en el que el parámetro ICC excede el parámetro ICC mínimo, ICC_{min}(IID), el parámetro ICC se reenvía directamente a la etapa de mezcla descendente 34.

Si el parámetro ICC no excede ICC_{min}(IID), se lleva a cabo una etapa de intercambio adicional 36, en la que el valor del parámetro ICC se sustituye por el valor del parámetro ICC mínimo ICC_{min}(IID). Después de la etapa de intercambio 36, el parámetro ICC que tiene el nuevo valor se transfiere entonces a la etapa de mezcla descendente 34.

En la etapa de mezcla descendente 34, la señal 20 de mezcla descendente y la señal 22 residual se derivan de los canales l y r, dependiendo de los parámetros ICC e IID.

Finalmente, los parámetros 23 (ICC e IID), la señal 20 de mezcla descendente y la señal 22 residual se encuentran disponibles como salida del procedimiento de codificación.

\newpage

La figura 3 muestra otra realización de un dispositivo 50 de codificación de audio de la invención que comprende un codificador 10 de audio, una unidad 51 de procesamiento de señal que tiene un primer compresor 52 de audio, un segundo compresor 54 de audio y un compresor 56 de parámetros, y una interfaz de salida 58.

Los componentes del codificador 10 de audio ya se han comentado en los párrafos previos. Por consiguiente, solo aquellas partes del dispositivo 50 de codificación de audio que sean una extensión del codificador 10 de audio se comentarán en los siguientes párrafos.

El propósito general de la unidad 51 de procesamiento de señales es comprimir la señal 20 de mezcla descendente, la señal 22 residual y los parámetros 23. Por consiguiente, la señal 20 de mezcla descendente se introduce en el primer compresor 52 de audio, la señal 22 residual se introduce en el segundo compresor de audio 54 y los parámetros espaciales 23 se introducen en el compresor 56 de parámetros. El primer compresor 52 de audio deriva un primer flujo 60 de bits de audio, el segundo compresor 54 de audio deriva un segundo flujo 62 de bits de audio y el compresor 56 de parámetros deriva un flujo 64 de bits de parámetros. El primer y el segundo flujo (60, 62) de bits de audio y el flujo 64 de bits de parámetros se utilizan entonces como entrada de la interfaz de salida, que combina las tres flujos (60, 62, 64) de bits para derivar un flujo 66 de bits combinado, que es la salida del dispositivo 50 de codificación de la invención.

La combinación llevada a cabo por la interfaz 58 de salida podría ser, por ejemplo, una simple multiplexación de los tres flujos de bits entrantes. Además, es posible cualquier clase de combinación que conduzca a un único flujo 66 de bits de salida. El tratar con un único flujo de bits es mucho más conveniente en el manejo, tal como la transferencia en flujo continuo a través de Internet u otros enlaces de datos.

En otras palabras, la figura 3 ilustra un codificador que toma una señal de audio de dos canales, que comprende los canales l, r como entrada, y genera un flujo de bits que permite la decodificación mediante un decodificador estéreo paramétrico. La mezcla descendente adaptativa toma la señal de dos canales l, r y genera una señal mono de mezcla descendente m y una residual s. Estas señales pueden codificarse entonces mediante codificadores de audio perceptivos a fin de producir flujos de bits de audio compactos. La estimación de parámetros estéreo paramétricos (PS) toma la señal de dos canales l, r como entrada y genera un conjunto de parámetros PS. El limitador de inestabilidad modifica los parámetros PS que controlan la mezcla descendente adaptativa. El bloque de codificación produce la información lateral estéreo paramétrica (información lateral PS) a partir de la emisión no modificada de la estimación de parámetros PS. El multiplexor combina todos los datos codificados para formar el flujo de bits combinado.

Una de las principales ventajas del concepto de codificación de la invención, es que es completamente retrocompatible con los decodificadores estéreo paramétricos de la técnica anterior. Para ilustrar esto, la figura 4 muestra un decodificador estéreo paramétrico de la técnica anterior.

El decodificador 70 estéreo paramétrico comprende una interfaz 72 de entrada, un decodificador 74 de audio, un decodificador 76 de parámetros y un mezclador 78 ascendente.

La interfaz 72 de entrada recibe un flujo 80 de bits combinado como el que se produce mediante el codificador 50 de audio de la invención. La interfaz 72 de entrada del decodificador 70 estéreo paramétrico de la técnica anterior no reconoce la señal 22 residual y por lo tanto solamente extrae la señal 60 de mezcla descendente (primer flujo 60 de bits de audio de la figura 3) y el flujo 64 de bits de parámetros del flujo 80 de bits de entrada. El decodificador 74 de audio es el dispositivo complementario al primer compresor 52 de audio y el decodificador 76 de parámetros es el dispositivo complementario al compresor 56 de parámetros. Por lo tanto, el flujo 60 de bits de audio se decodifica en la señal 20 de mezcla descendente y el flujo 64 de bits de parámetros se decodifica en los parámetros 23 espaciales. Puesto que los parámetros 23 espaciales se han transferido directamente y no se han procesado adicionalmente por el codificador 10 ó 50 de la invención, un mezclador 78 ascendente de la técnica anterior puede reconstruir un canal derecho e izquierdo, construyendo una señal 80 de salida a partir de la señal 20 de mezcla descendente utilizando los parámetros 23 espaciales.

En otras palabras, la figura 4 ilustra un decodificador estéreo paramétrico que toma un flujo de bits compatible como el que se genera por un dispositivo 50 codificador de la invención, como entrada, y genera la señal de audio estéreo comprendiendo los canales l y r, sin utilizar o sin tener acceso a la parte del flujo de bits que describe la señal residual. Primero, un demultiplexor toma el flujo de bits compatible como entrada y lo descompone en flujos de bits de audio e información lateral PS. El decodificador de audio perceptivo produce una señal mono m, y la información lateral PS se decodifica en parámetros PS. La síntesis PS convierte la señal mono en señales derecha e izquierda l y r según los parámetros PS, en particular añadiendo una señal decorrelacionada a fin de retener la correlación de canal de los canales estéreo originales.

La figura 5 muestra un codificador 100 de audio multicanal de la invención que codifica una señal de audio de 6 canales en una mezcla descendente estéreo y un número de conjuntos de parámetros.

El codificador 100 de audio multicanal comprende un primer codificador 102 adaptativo, un segundo codificador 104 adaptativo, un módulo 106 de estimación, un extractor 108 de parámetros y un mezclador 110 descendente 3 a 2.

\newpage

El primer codificador 102 adaptativo y el segundo codificador 104 adaptativo son realizaciones de un codificador 10 de la invención. La señal de entrada de 6 canales tiene un canal 112a izquierdo frontal, un canal 112b izquierdo posterior, un canal 114a derecho frontal, un canal 114b derecho posterior, un canal 116a central y un canal 116b de refuerzo de baja frecuencia. El canal 112a izquierdo frontal y el canal 112b izquierdo posterior se introducen en el primer codificador 102 adaptativo que deriva de una primera señal 118a de mezcla descendente, la señal 118b residual correspondiente y los parámetros 118c espaciales. El canal 114a derecho frontal y el canal 114b derecho posterior se introducen en el segundo codificador 104 adaptativo, que deriva una segunda señal 120a de mezcla descendente, la señal 120b residual correspondiente y los parámetros 120c espaciales subyacentes. El canal 116a central y el canal 116 de refuerzo de baja frecuencia se introducen en el módulo 106 de suma que suma las señales para crear una señal 122a mono y parámetros 122b espaciales correspondientes.

El mezclador 110 descendente 3 a 2 recibe las señales 118a, 120a y 122a de mezcla descendente para mezclarlas descendentemente en una señal 124 de salida estéreo que tiene un canal izquierdo y derecho. El mezclador descendente 3 a 2 adicionalmente deriva una señal 126 residual a partir de los canales 118a, 120a y 122a de entrada. Además, el mezclador 110 descendente 3 a 2 deriva un conjunto de parámetros 128 a partir del grupo de parámetros 118b, 120b y 122b.

Resumiendo de manera breve, la figura 5 ilustra una parte de un codificador de audio espacial que toma como entrada una señal de audio multicanal en formato 5.1, comprendiendo los canales Lf (izquierdo frontal), Lr (izquierdo envolvente), Rf (derecho frontal), Rr (derecho envolvente), C (central) y LFE (eficiente de baja frecuencia), y que crea una mezcla descendente estéreo, comprendiendo L0 y R0, y un número de conjuntos de parámetros. En esta figura no se muestran las transformaciones de tiempo a frecuencia, la codificación de las señales de mezcla descendente y los parámetros, y la multiplexación de la información codificada en un flujo de bits que puede decodificarse por un decodificador de audio espacial correspondiente. La mezcla descendente adaptativa toma como entrada las señales Lf y Lr y produce una señal mono L y una señal residual L. La estimación de parámetros estéreo paramétricos (PS) toma la señal de dos canales Lf y Lr como entrada y genera un conjunto de parámetros PS. El limitador de inestabilidad modifica los parámetros PS que controlan la mezcla descendente adaptativa. De una manera similar, la mezcla descendente adaptativa toma como entrada las señales Rf y Rr y produce una señal mono R y una señal residual R. La estimación de parámetros estéreo paramétricos (PS) toma la señal de dos canales Rf y Rr como entrada y genera un conjunto de parámetros PS. El limitador de inestabilidad modifica los parámetros PS que controlan la mezcla descendente adaptativa. El módulo de suma, suma las señales C y LFE para crear una señal mono C. La estimación de parámetros estéreo paramétrico (PS) toma la señal de dos canales C y LFE como entrada y genera un conjunto de parámetros IID, un subconjunto de parámetros PS. Las señales mono L, R y C se mezclan para dar una señal estéreo (Lo y Ro) y una señal residual Eo mediante el módulo 3 a 2. El módulo 3 a 2 también da como salida un conjunto de parámetros {Lo, Ro}.

La figura 6 describe un decodificador 140 de audio de la invención, que comprende un mezclador 142 ascendente y un limitador 144.

El decodificador 140 de la invención recibe una señal 146 de mezcla descendente, una señal 148 residual y parámetros 150 espaciales. La señal 146 de mezcla descendente y la señal 148 residual se introducen en el mezclador 142 ascendente, mientras que los parámetros 150 espaciales se introducen en el limitador 144. El limitador 144 limita los parámetros 150 espaciales para derivar parámetros 152 espaciales limitados.

Es importante señalar, que el limitador utiliza la misma regla de limitación para derivar los parámetros limitados que el codificador correspondiente durante el proceso de codificación. Los parámetros limitados se utilizan para controlar el proceso de mezcla descendente en el mezclador 142 ascendente que deriva una señal 154 estéreo que tiene un canal izquierdo y derecho a partir de la señal 146 de mezcla descendente y la señal 148 residual.

La figura 7 muestra un diagrama de bloques que ilustra el principio de un decodificador de la invención. En una primera etapa de limitación 160 se limitan los parámetros espaciales recibidos ICC e IID. Es decir, se comprueba si el parámetro ICC recibido excede un parámetro ICC mínimo ICC_{min}(IID). Si éste es el caso, los parámetros 150 espaciales (ICC e IID), una señal 146 de mezcla descendente recibida y una señal 148 residual recibida de transmiten a la etapa de mezcla ascendente 162. Si el parámetro ICC no excede el parámetro ICC mínimo ICC_{min}(IID), una etapa de limitación 164 se lleva a cabo adicionalmente, en la que el valor del parámetro ICC se intercambia por el valor del parámetro ICC_{min}(IID), con el efecto de que el valor de ICC_{min}(IID) se transmite a la etapa de mezcla ascendente 162.

En la etapa de mezcla ascendente 162, una señal 154 estéreo que tiene un canal izquierdo y derecho se deriva a partir de la señal de mezcla 146 descendente y la señal 148 residual, utilizando los parámetros espaciales ICC e IID.

La figura 8 muestra una realización adicional de un dispositivo 180 decodificador de la invención que comprende un decodificador 140, una unidad 182 de procesamiento de señal que tiene un primer decodificador 184 de audio, un segundo decodificador 186 de audio y un decodificador 188 de parámetros. El dispositivo 180 decodificador comprende además una interfaz 190 de entrada para recibir un flujo 192 de bits combinado, que se genera por un dispositivo 50 codificador de la invención.

El flujo 192 de bits combinado se descompone por la interfaz 190 de entrada en un primer flujo 194a de bits de audio, un segundo flujo 194b de bits de audio y un flujo 196 de bits de parámetros.

El primer flujo 194a de bits de audio se introduce en el primer decodificador 185 de audio, el segundo flujo 194b de bits de audio se introduce en el segundo decodificador 186 de audio y el flujo 196 de bits de parámetros se introduce en el decodificador 188 de parámetros. La señal 198 de mezcla descendente (m) y la señal 200 residual (s) descomprimidas se introducen en el mezclador 142 descendente del decodificador 140. Los parámetros 202 espaciales derivados por el decodificador 188 de parámetros se introducen en el limitador 144 del decodificador 140 de audio. La limitación de los parámetros espaciales y la mezcla ascendente ya se han descrito en la descripción del decodificador 140
de audio. Una descripción detallada puede obtenerse de los párrafos correspondientes de la descripción de la figura 6.

El dispositivo 180 decodificador de la invención finalmente da como salida una señal 204 estéreo, que tiene un canal izquierdo y derecho.

En otras palabras, la figura 8 ilustra un decodificador estéreo paramétrico que toma un flujo de bits compatible como entrada y genera la señal de audio estéreo que comprende los canales l y r. Primero, un demultiplexor toma el flujo de bits compatible como entrada y lo descompone en dos flujos de bits de audio y la información lateral PS. Los decodificadores de audio perceptivos producen una señal mono m y una señal residual s respectivamente, y la información lateral PS se decodifica en parámetros PS por el decodificador de parámetros. El limitador de inestabilidad modifica los parámetros PS. El mezclador ascendente convierte las señales mono y residual en las señales izquierda y derecha l y r por medio de una matriz de rotación definida a partir de los parámetros PS modificados por el limitador de inestabilidad.

La figura 9 muestra un decodificador 210 de audio multicanal de la invención que comprende un primer decodificador 212 de dos canales, un módulo 216 de síntesis y un módulo 218 2 a 3.

La figura 9 ilustra parte de un decodificador de audio espacial que toma como entrada una señal de audio estéreo (que comprende Lo y Ro), una señal residual Eo y un conjunto de parámetros {Lo, Ro}. El módulo 218 2 a 3 produce tres canales de audio L, R y C a partir de la entrada anteriormente mencionada. El canal mono L y el canal residual L se convierten por un primer decodificador 211 de dos canales en las señales de salida Lf y Lr. El limitador de inestabilidad modifica el conjunto de parámetros PS L. De igual forma, el canal mono R y el canal residual R se convierten por un segundo decodificador 214 de dos canales en las señales de salida Rf y Rr. El limitador de inestabilidad es el mismo al utilizado durante la generación del canal mono R y modifica el conjunto de parámetros PS R. El módulo 216 de síntesis PS toma el canal mono C y el conjunto de parámetros C y genera los canales de salida C y LFE.

Las figuras 10 y 11 muestran una solución alternativa para un codificador y un decodificador que evita el problema de la inestabilidad. La alternativa se basa en utilizar los parámetros espaciales limitados como los parámetros que van a codificarse y transmitirse. Esto puede observarse en el codificador de la invención en la figura 10 que se basa en el dispositivo codificador de la invención de la figura 3.

La figura 10 muestra una modificación de un codificador de la invención ya mostrado en la figura 3, con la diferencia de que los parámetros alimentados en el codificador 56 de parámetros se toman en un punto 300, es decir, después del proceso de limitación. Es decir, los parámetros limitados se codifican y se transmiten en lugar de los parámetros originales.

En el lado del decodificador mostrado en la figura 11, la modificación es que el limitador puede omitirse en comparación con el dispositivo 180 decodificador. Por lo tanto, el parámetro 310 espacial decodificador se introduce directamente en el mezclador 142 ascendente para derivar la señal 204 estéreo.

Las desventajas de esta solución en comparación con la colocación de limitadores de inestabilidad como se enseñó anteriormente y se muestra en las figuras previas son dobles. Primero, la cuantificación de los parámetros limitados podría mover las rotaciones más allá de lo óptimo y por tanto de lo necesario. El tamaño residual por tanto podría ser más grande en general, conduciendo a una pérdida en ganancia de codificación para el método de codificación residual. Segundo, la retrocompatibilidad con la decodificación estéreo paramétrica podría perderse. En casos críticos, cuando la correlación de canal del canal original es negativa, el decodificador no podría ser capaz de reproducir esta correlación sin tener acceso a la señal residual.

La figura 12 muestra un transmisor o grabador 330 de audio que tiene un codificador 50 de audio, una interfaz 332 de entrada y una interfaz 334 de salida.

Una señal de audio puede suministrarse a la interfaz 332 de entrada del transmisor/grabador 330. La señal de audio se codifica por un codificador 50 de la invención en el transmisor/grabador y la representación codificada sale en la interfaz 334 de salida del transmisor/grabador 330. La representación codificada puede entonces transmitirse o almacenarse en un medio de almacenamiento.

La figura 13 muestra un receptor o reproductor 340 de audio, que tiene un decodificador 180 de audio de la invención, una entrada 342 de flujo de bits y una salida 344 de audio.

Un flujo de bits puede introducirse en la entrada 342 del receptor/reproductor 340 de audio de la invención. El flujo de bits se codifica entonces por el decodificador 180 y la señal decodificada sale o se reproduce en la salida 344 del receptor/reproductor 340 de audio de la invención.

La figura 14 muestra un sistema de transmisión que comprende un transmisor 330 de la invención y un receptor 340 de la invención.

La entrada de señal de audio en la interfaz 332 de entrada del transmisor 330 se codifica y se transfiere de la salida 334 del transmisor 330 a la entrada 342 del receptor 340. El receptor decodifica la señal de audio y reproduce o da como salida la señal de audio en su salida 344.

Las realizaciones de la presente invención anteriormente mencionadas y descritas son meramente ilustrativas de los principios de la presente invención para la mejora de la codificación residual adaptativa. Se entiende que serán posibles modificaciones y variaciones de las disposiciones y detalles descritos en el presente documento por otros expertos en la técnica. Por lo tanto, pretende estar limitada solamente por el alcance de las reivindicaciones de patente que siguen y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.

Aunque las realizaciones de la presente invención descritas en las figuras anteriores se describen utilizando principalmente una nomenclatura utilizada para señales estéreo, es evidente que la presente invención no se limita a las señales estéreo, sino que podría aplicarse a cualquier otro tipo de combinación de dos señales de audio, como se hace por ejemplo en los codificadores y decodificadores de audio multicanal mostrados en la figura 5 y la figura 9.

Utilizando un sistema de transmisión de la invención que tiene un transmisor y un receptor, la transmisión entre el transmisor y el receptor puede lograrse por diversos medios. Puede ser por ejemplo la transferencia en flujo continuo en directo por Internet u otros medios en red, almacenando un archivo en un medio legible por ordenador y transfiriendo el medio, directamente conectando el transmisor y el receptor por cable o de manera inalámbrica, tal como LAN inalámbrica o Bluetooth o cualquier otra conexión de datos imaginable.

A pesar de que se ha descrito en detalle que el parámetro ICC solamente se cambiará para garantizar una matriz de mezcla descendente y ascendente no divergente, también es posible limitar tanto los parámetros IID como IIC de tal forma que no se produzca ninguna divergencia. Más generalmente, la aplicación del concepto de la invención también puede significar la derivación de otros parámetros espaciales y la aplicación de una regla de limitación a estos parámetros, garantizando una mezcla ascendente y descendente no divergente.

Las interfaces de entrada y salida en los codificadores y decodificadores de la invención no se limitan únicamente a simples multiplexores o demultiplexores. En una variación más sofisticada, la interfaz de salida puede combinar los flujos de bits no simplemente multiplexándolos, sino por cualquier otro medio, posiblemente incluso intentando alguna codificación de entropía adicional para reducir el tamaño del flujo de bits.

Dependiendo de ciertos requisitos de implementación de los métodos de la invención, los métodos de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, en particular un disco, DVD o un CD, que tienen señales de control electrónicamente legibles almacenadas en los mismos, que actúan conjuntamente con un sistema informático programable de tal forma que se lleven a cabo los métodos de la invención. Generalmente, la presente invención es, por lo tanto, un producto de programa informático con un código de programa almacenado en un soporte legible por máquina, siendo el código de programa operativo para realizar los métodos de la invención cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los métodos de la invención son, por lo tanto, un programa informático que tiene un código de programa para realizar al menos uno de los métodos de la invención cuando el programa informático se ejecuta en un ordenador.

Aunque lo precedente se ha mostrado y descrito particularmente con referencia a las realizaciones particulares de la misma, los expertos en la técnica entenderán que pueden hacerse otros diversos cambios en la forma y detalles sin alejarse del alcance de la misma. Se entenderá que pueden hacerse diversos cambios en adaptación a diferentes realizaciones sin alejarse de los conceptos más amplios dados a conocer en el presente documento y comprendidos por las reivindicaciones que siguen.

Claims

1. Codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales (18), que comprende:

\quad: un extractor (16) de parámetros para derivar un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales;

\quad: un limitador (14) para limitar el parámetro de coherencia para derivar un parámetro de coherencia limitado, en el que el límite del parámetro de coherencia depende del parámetro de nivel y de un factor de escala; y

\quad: un mezclador (12) descendente para derivar una señal (20) de mezcla descendente y una señal (18) residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

2. Codificador (10) de audio según la reivindicación 1, en el que el extractor (16) de parámetros es operativo para derivar múltiples parámetros espaciales para una porción de tiempo dada de la señal de audio.

3. Codificador (10) de audio según la reivindicación 1 ó 2, en el que el limitador (14) es operativo para limitar el parámetro de coherencia de tal manera que una relación de intensidades entre la señal (20) de mezcla descendente y los al menos dos canales no excede un límite predefinido.

4. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 3, en el que una regla de limitación del limitador (14) es de tal manera que un límite inferior para el parámetro de coherencia ICC depende del parámetro de nivel IID y del factor de escala que depende de un factor de ganancia predefinido g_{0} como se describe por la siguiente expresión:

17

5. Codificador (10) de audio según la reivindicación 4, en el que el factor de ganancia predefinido g_{0} se selecciona del intervalo [1, 2].

6. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 5, en el que el mezclador (12) descendente es operativo para utilizar una regla de mezcla descendente de tal forma que la señal (20) de mezcla descendente y la señal (18) residual se derivan al formar una combinación lineal de los canales de los al menos dos canales, en el que los coeficientes de la combinación lineal dependen del parámetro de coherencia limitado.

7. Codificador (10) de audio según la reivindicación 6, en el que la regla de mezcla descendente es de tal manera que la derivación de la señal (20) de mezcla descendente m y la señal (18) residual s puede describirse por la siguiente ecuación, dependiendo del parámetro de coherencia limitado ICC, el parámetro de nivel IID, el primer canal l y el segundo canal r:

\vskip1.000000\baselineskip

18

8. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 7, que comprende además una unidad (51) de procesamiento de señal para procesar o transmitir la señal (20) de mezcla descendente, la señal (18) residual y los parámetros espaciales para derivar una señal de mezcla descendente procesada, una señal residual procesada y parámetros procesados.

9. Codificador (10) de audio según la reivindicación 8, en el que la unidad (51) de procesamiento de señal es operativa para derivar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados de tal forma que la derivación incluye una compresión de la señal (20) de mezcla descendente, la señal (18) residual y los parámetros espaciales.

10. Codificador (10) de audio según las reivindicaciones 8 ó 9, que comprende además una interfaz (58) de salida para proporcionar la información de la señal (20) de mezcla descendente procesada, la señal (18) residual procesada y los parámetros procesados.

11. Codificador (10) de audio según la reivindicación 10, en el que la interfaz (58) de salida es operativa para combinar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados para derivar un flujo de bits de salida que tiene la información de la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados.

12. Codificador (10) de audio según la reivindicación 11, en el que la interfaz (58) de salida es operativa para multiplexar la señal de mezcla descendente procesada, la señal residual procesada y los parámetros procesados para derivar el flujo de bits de salida.

13. Codificador (10) de audio según cualquiera de las reivindicaciones 1 a 12, en el que se codifican los múltiples pares de canales, en el que para cada par de canales se derivan parámetros espaciales, una señal (20) de mezcla descendente y una señal (18) residual.

14. Codificador (10) de audio según la reivindicación 13, en el que los múltiples pares de canales comprenden un canal izquierdo frontal, uno izquierdo posterior, uno derecho frontal, uno derecho posterior, uno de refuerzo de baja frecuencia y uno central.

15. Decodificador (140) de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe la coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, que comprende:

\quad: un limitador (144) para limitar el parámetro de coherencia para derivar un parámetro de coherencia limitado, en el que el límite del parámetro de coherencia depende del parámetro de nivel y de un factor de escala; y

\quad: un mezclador (142) ascendente para derivar una reconstrucción de la señal (154) de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

16. Decodificador (140) de audio según la reivindicación 15, en el que el limitador (144) es operativo para limitar múltiples parámetros de coherencia para una porción de tiempo dado de la señal de audio codificada correspondiente a una trama de tiempo de la señal de audio original.

17. Decodificador (140) de audio según la reivindicación 15 ó 16, en el que el limitador (144) es operativo para limitar el parámetro de coherencia de tal manera que una relación de intensidades entre la señal de mezcla descendente y los al menos dos canales de la señal de audio original no excede un límite predefinido.

18. Decodificador (144) de audio según cualquiera de las reivindicaciones 15 a 17, en el que la regla de limitación del limitador (144) es de tal forma que un límite inferior para el parámetro de coherencia ICC depende del parámetro de nivel IID y del factor de escala que depende de un factor de ganancia predefinido g_{0} como se describe por la siguiente expresión:

19

19. Decodificador (140) de audio según la reivindicación 18, en el que el factor de ganancia predefinido g_{0} se selecciona del intervalo [1, 2].

20. Decodificador (140) de audio según cualquiera de las reivindicaciones 15 ó 19, en el que el mezclador (142) ascendente es operativo para utilizar una regla de mezcla ascendente de tal forma que un primer canal reconstruido y un segundo canal reconstruido de los al menos dos canales se derivan al formar una combinación lineal de la señal de mezcla descendente y la señal residual, en el que los coeficientes de la combinación lineal dependen del parámetro de coherencia limitado.

21. Decodificador (140) de audio según la reivindicación 20, en el que la regla de mezcla ascendente es de tal forma que la derivación del primer canal reconstruido l y el segundo canal reconstruido r a partir de la señal de mezcla descendente m y la señal residual s depende del parámetro de coherencia limitado ICC y el parámetro de nivel, como se describe por las siguientes ecuaciones:

20

\vskip1.000000\baselineskip

donde

\vskip1.000000\baselineskip

21

22

\vskip1.000000\baselineskip

22. Decodificador (140) de audio según cualquiera de las reivindicaciones 15 a 21, que comprende además una unidad (182) de procesamiento de señal para transmitir o procesar una señal residual procesada, una señal de mezcla descendente procesada y parámetros procesados para derivar la señal residual, la señal de mezcla descendente y los parámetros espaciales.

23. Decodificador (140) de audio según la reivindicación 22, en el que la unidad (182) de procesamiento de señal es operativa para derivar la señal residual, la señal de mezcla descendente y los parámetros espaciales de tal forma que la derivación de la señal residual, la señal de mezcla descendente y los parámetros espaciales incluyen la descompresión de la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.

24. Decodificador (140) de audio según las reivindicaciones 22 ó 23, que comprende además una interfaz (190) de entrada para proporcionar la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.

25. Decodificador (140) de audio según la reivindicación 24, en el que la interfaz (190) de entrada es operativa para descomponer un flujo de bits de entrada único para derivar la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados.

26. Decodificador (140) de audio según la reivindicación 25, en el que la interfaz (190) de entrada es operativa para descomponer el flujo de bits de entrada único de tal forma que la derivación de la señal residual procesada, la señal de mezcla descendente procesada y los parámetros procesados incluye una demultiplexación del flujo de bits de en-
trada.

27. Método para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método:

\quad: derivar un parámetro de coherencia (ICC) que describe la coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales;

\quad: limitar el parámetro de coherencia para derivar un parámetro de coherencia limitado, en el que el límite del parámetro de coherencia depende del parámetro de nivel y de un factor de escala; y

\quad: derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

28. Método para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, comprendiendo el método:

\quad: derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

29. Transmisor o grabador de audio que tiene un codificador (10) de audio para codificar una señal de audio que tiene al menos dos canales, que comprende:

\quad: un extractor (16) de parámetros para derivar un parámetro de coherencia (ICC)que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales;

\quad: un mezclador (12) descendente para derivar una señal de mezcla descendente y una señal residual a partir de la señal de audio utilizando una regla de mezcla descendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

30. Receptor o reproductor de audio, que tiene un decodificador (140) de audio para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, que comprende:

\quad: un mezclador (142) ascendente para derivar una reconstrucción de la señal de audio original a partir de la señal de mezcla descendente y la señal residual utilizando una regla de mezcla ascendente que depende del parámetro de coherencia limitado.

\vskip1.000000\baselineskip

31. Método para transmitir o grabar audio, teniendo el método un método para codificar una señal de audio que tiene al menos dos canales, comprendiendo el método:

\quad: derivar un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales;

\vskip1.000000\baselineskip

32. Método para recibir o reproducir audio, teniendo el método un método para decodificar una señal de audio codificada que representa una señal de audio original que tiene al menos dos canales, teniendo la señal de audio codificada una señal de mezcla descendente y una señal residual así como un parámetro de coherencia (ICC) que describe una coherencia entre un primer y un segundo canal de los al menos dos canales y un parámetro de nivel (IID) que describe una diferencia de nivel entre el primer y el segundo canal, como parámetros espaciales, comprendiendo el método:

\vskip1.000000\baselineskip

33. Sistema de transmisión que tiene un transmisor y un receptor,

\quad: comprendiendo el transmisor un codificador (10) de audio para codificar una señal de audio según cualquiera de las reivindicaciones 1 a 14; y

\quad: comprendiendo el receptor un decodificador (140) de audio según cualquiera de las reivindicaciones 15 a 26.

\vskip1.000000\baselineskip

34. Método para transmisión y recepción, comprendiendo el método:

\quad: un método de transmisión que comprende un método para codificar una señal de audio según la reivindicación 27; y

\quad: un método de recepción que comprende un método para decodificar una señal de audio codificada según la reivindicación 28.

\vskip1.000000\baselineskip

35. Programa informático para realizar, cuando se ejecuta en un ordenador, un método según cualquiera de las reivindicaciones de método 27, 28, 31, 32 ó 34.