ES2300567T3

ES2300567T3 - Representacion parametrica de audio espacial.

Info

Publication number: ES2300567T3
Application number: ES03715237T
Authority: ES
Inventors: Dirk J. Breebaart; Steven L. J. D. E. Van De Par
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-04-22
Filing date: 2003-04-22
Publication date: 2008-06-16
Anticipated expiration: 2023-04-22
Also published as: WO2003090208A1; JP2012161087A; KR101016982B1; EP1881486B1; CN1307612C; US8331572B2; KR20040102164A; BRPI0304540B1; JP5498525B2; JP5101579B2; DE60326782D1; KR100978018B1; US8340302B2; US20130094654A1; KR20100039433A; JP2005523480A; JP2009271554A; US20080170711A1; ATE426235T1; DE60318835D1

Abstract

Procedimiento para codificar una señal de audio, comprendiendo el procedimiento: - generar (S8) una señal monoaural que comprende una combinación de al menos dos canales (L, R) de audio de entrada, - determinar (S2, S3, S4) un conjunto de parámetros (ILD, ITD, C) espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro (C) que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, - generar (S5, S6, S7, S9) una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

Description

Representación paramétrica de audio espacial.

Esta invención se refiere a la codificación de señales de audio y, más en particular, a la codificación de señales de audio multicanal.

Dentro del campo de la codificación de audio, en general se desea codificar una señal de audio, por ejemplo con el fin de reducir la tasa de bits para comunicar la señal o el requisito de almacenamiento para almacenar la señal, sin comprometer demasiado la calidad de percepción de la señal de audio. Esta es una cuestión importante cuando las señales de audio han de transmitirse a través de canales de comunicaciones de capacidad limitada o cuando han de almacenarse en un medio de almacenamiento que presenta una capacidad limitada.

Soluciones anteriores en codificadores de audio que se han sugerido para reducir la tasa de bits de material de programas estéreo incluyen:

"Estéreo de intensidad" (Intensity stereo). En este algoritmo, se representan altas frecuencias (normalmente superiores a 5 kHz) mediante una única señal de audio (es decir, mono), combinada con factores de escala variables en el tiempo y dependientes de la frecuencia.

"Estéreo M/S" (M/S stereo). En este algoritmo, la señal se descompone en una señal de suma (o central (mid), o común) y una de diferencia (o lateral (side), o no común). Esta descomposición se combina a veces con factores de escala variables en el tiempo o análisis de componentes principales. Estas señales se codifican entonces independientemente, bien mediante un codificador de transformada o codificador de forma de onda. La cantidad de reducción de información conseguida por este algoritmo depende considerablemente de las propiedades espaciales de la señal original. Por ejemplo, si la señal original es monoaural, la señal de diferencia es cero y puede descartarse. Sin embargo, si la correlación de las señales de audio izquierda y derecha es baja (lo que con frecuencia es el caso), este esquema ofrece sólo una pequeña ventaja.

Las descripciones paramétricas de señales de audio han adquirido interés durante los últimos años, especialmente en el campo de la codificación de audio. Se ha demostrado que transmitir parámetros (cuantificados) que describen señales de audio sólo requiere una pequeña capacidad de transmisión para volver a sintetizar una señal de igual percepción en el extremo receptor. Sin embargo, los codificadores de audio paramétricos actuales se centran en señales monoaurales de codificación, y las señales estéreo se procesan con frecuencia como mono duales.

La solicitud de patente europea 1 107 232 da a conocer un procedimiento para codificar una señal estéreo que tiene una componente L y R, en el que la señal estéreo se representa por una de las siguientes: diferencias de nivel y fase de captación de información paramétrica y componentes estéreo de la señal de audio. En el descodificador, la otra componente estéreo se recupera basándose en la componente estéreo codificada y la información paramétrica. El artículo "Efficient representation of spatial audio using perceptual parametrization" (Faller C et al, Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics) da a conocer la generación de una señal binaural situando espacialmente las fuentes contenidas en una señal de suma monofónica, basándose la situación en un conjunto de parámetros espaciales en bandas criticas. El artículo "Subband coding of stereophonic digital audio signals" (Van der Waal R G et al, IEEE ICASSP 1991) da a conocer el aprovechamiento de la correlación izquierda-derecha en un códec subbanda.

Es un objeto de la presente invención solucionar el problema de proporcionar una codificación de audio mejorada que consiga una alta calidad de percepción de la señal recuperada.

Los problemas anteriores y otros se solucionan mediante un procedimiento para codificar una señal de audio tal como se expone en la reivindicación 1.

El inventor se ha dado cuenta de que codificando una señal de audio multicanal como una señal de audio monoaural y un número de atributos espaciales que comprenden una medida de similitud de las formas de onda correspondientes, la señal multicanal puede recuperarse con una alta calidad de percepción. Es otra ventaja de la invención el hecho de que proporciona una codificación eficaz de una señal multicanal, es decir una señal que comprende al menos un primer y un segundo canal, por ejemplo una señal estéreo, una señal cuadrafónica, etc.

Por tanto, según un aspecto de la invención, se parametrizan atributos espaciales de señales de audio multicanal. Para aplicaciones de codificación de audio generales, la transmisión de estos parámetros combinada con sólo una señal de audio monoaural reduce considerablemente la capacidad de transmisión necesaria para transmitir la señal estéreo en comparación con los codificadores de audio que procesan los canales de manera independiente, mientras se mantiene la impresión espacial original. Una cuestión importante es que aunque las personas reciben formas de onda de un objeto auditivo dos veces (una vez por el oído izquierdo y una vez por el oído derecho), sólo se percibe un único objeto auditivo en una posición determinada y con un cierto tamaño (o capacidad espacial de difundirse).

Por tanto, parece innecesario describir señales de audio como dos o más formas de onda (independientes) y sería mejor describir audio multicanal como un conjunto de objetos auditivos, cada uno con sus propiedades espaciales. Una dificultad que surge inmediatamente es el hecho de que es casi imposible separar automáticamente objetos auditivos individuales de un conjunto dado de objetos auditivos, por ejemplo una grabación musical. Este problema puede salvarse no dividiendo el material de programa en objetos auditivos individuales, sino más bien describiendo los parámetros espaciales de una manera que se parece al eficaz procesamiento (periférico) del sistema auditivo. Cuando los atributos espaciales comprenden una medida de (di)similitud de las formas de onda correspondientes, se consigue una codificación eficaz mientras se mantiene un alto nivel de calidad de percepción.

En particular, la descripción paramétrica de audio multicanal presentada en el presente documento se refiere al modelo de procesamiento binaural presentado por Breebaart et al. Este modelo pretende describir el eficaz procesamiento de señal del sistema auditivo binaural. Para una descripción del modelo de procesamiento binaural por Breebaart et al., véase Breebaart, J., van de Par, y Kohlrausch, A. (2001a). Binaural processing model based on contralateral inhibition. I. Model setup. J. Acoust. Soc. Am., 110, 1074-1088; Breebaart, J., van de Par, S. y Kohlrausch, A. (2001b). Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters. J. Acoust. Soc. Am., 110, 1089-1104; y Breebaart, J., van de Par, S. y Kohlrausch, A. (2001c). Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters.. J. Acoust. Soc. Am., 110, 1105-1117. A continuación se proporciona una breve interpretación que ayuda a entender la invención.

En una realización preferida, el conjunto de parámetros espaciales incluye al menos una indicación de posición. Cuando los atributos espaciales comprenden una o más, preferiblemente dos, indicaciones de posición así como una medida de (di)similitud de las formas de onda correspondientes, se consigue una codificación particularmente eficaz mientras se mantiene un nivel de calidad de percepción particularmente alto.

El término indicación de posición comprende cualquier parámetro adecuado que transmita información acerca de la posición de objetos auditivos que contribuyen a la señal de audio, por ejemplo la orientación de y/o la distancia con respecto a un objeto auditivo.

En una realización preferida de la invención, el conjunto de parámetros espaciales incluye al menos dos indicaciones de posición que comprenden una diferencia de nivel entre canales (ILD, interchannel level difference) y una seleccionada de entre una diferencia de tiempo entre canales (ITD, interchannel time difference) y una diferencia de fase entre canales (IPD, interchannel phase difference). Es interesante mencionar que la diferencia de nivel entre canales y la diferencia de tiempo entre canales se consideran como las indicaciones de posición más importantes en el plano horizontal.

La medida de similitud de las formas de onda correspondientes al primer y segundo canales de audio corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada (también conocido como coherencia). La correlación cruzada entre canales máxima está fuertemente relacionada con la capacidad de difusión espacial de percepción (o compacidad) de una fuente de sonido, es decir, proporciona información adicional que no se tiene en cuenta por las indicaciones de posición anteriores, proporcionando de este modo un conjunto de parámetros con un bajo grado de redundancia de la información transmitida por los mismos y, por tanto, proporcionando una codificación eficaz.

Según una realización preferida de la invención, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.

Es una idea de los inventores que es suficiente describir atributos espaciales de cualquier señal de audio multicanal especificando la ILD, ITD (o IPD) y la correlación máxima en función del tiempo y la frecuencia.

En otra realización preferida de la invención, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende

- dividir cada uno de los al menos dos canales de audio de entrada en pluralidades correspondientes de bandas de frecuencia;

- para cada una de la pluralidad de bandas de frecuencia determinar el conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada en la banda de frecuencia correspondiente.

Por tanto, la señal de audio entrante se divide en varias señales de banda limitada, que (preferiblemente) están espaciadas linealmente a una escala de tasa de ERB. Preferiblemente, los filtros de análisis muestran un solapamiento parcial en el dominio de la frecuencia y/o tiempo. El ancho de banda de estas señales depende de la frecuencia central, siguiendo la tasa de ERB. Posteriormente, preferiblemente para cada banda de frecuencia, se analizan las propiedades siguientes de las señales entrantes:

- la diferencia de nivel entre canales, o ILD, definida por los niveles relativos de la señal de banda limitada procedente de las señales izquierda y derecha,

- la diferencia de tiempo (o fase) entre canales (ITD o IPD), definida por el retardo (o desplazamiento de fase) entre canales correspondiente a la posición del pico en la función de correlación cruzada entre canales, y

- la (di)similitud de las formas de onda que no puede tenerse en cuenta por las ITD o ILD, que puede parametrizarse por la correlación cruzada entre canales máxima (es decir, el valor de la función de correlación cruzada normalizada en la posición del pico máximo, también conocido como coherencia).

Los tres parámetros descritos anteriormente varían a lo largo del tiempo; sin embargo, puesto que el sistema auditivo binaural es muy lento en su procesamiento, la tasa de actualización de estas propiedades es bastante baja (normalmente decenas de milisegundos).

En este caso puede suponerse que las propiedades que (lentamente) varían en el tiempo mencionadas anteriormente son las únicas propiedades de señal espaciales que tiene a su disposición el sistema auditivo binaural, y que a partir de estos parámetros dependientes del tiempo y la frecuencia, el entorno auditivo percibido se reconstruye por niveles superiores del sistema auditivo.

Una cuestión importante en la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que directamente está relacionada con la capacidad de transmisión necesaria.

Según otra realización preferida más de la invención, la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en la que al menos uno de los errores de cuantificación introducidos se controla para que dependa de un valor de al menos uno de los parámetros espaciales determinados.

Por tanto, el error de cuantificación introducido por la cuantificación de los parámetros se controla según la sensibilidad del sistema auditivo humano a cambios en estos parámetros. Esta sensibilidad depende considerablemente de los valores de los propios parámetros. Por tanto, controlando el error de cuantificación para que dependa de los valores de los parámetros, se consigue una codificación mejorada.

Es una ventaja de la invención el hecho de que proporciona un desacoplamiento de parámetros de señal monoaural y binaural en codificadores de audio. Por tanto, se reducen considerablemente las dificultades relacionadas con los codificadores de audio estéreo (tales como la audibilidad de ruido de cuantificación no correlacionado de manera interaural en comparación con el ruido de cuantificación correlacionado de manera interaural, o inconsistencias de fase interaural en codificadores paramétricos que codifican en modo mono dual).

Es otra ventaja de la invención el hecho de que se consigue una reducción considerable de la tasa de bits en codificadores de audio debido a una tasa de actualización baja y a una resolución de frecuencia baja, requeridas para los parámetros espaciales. La tasa de bits asociada para codificar los parámetros espaciales es normalmente de 10 kbits/s o inferior (véase la realización descrita más adelante).

Es otra ventaja de la invención el hecho de que puede combinarse fácilmente con codificadores de audio existentes. El esquema propuesto produce una señal mono que puede codificarse y descodificarse con cualquier estrategia de codificación existente. Tras la descodificación monoaural, el sistema descrito en el presente documento regenera una señal multicanal estéreo con los atributos espaciales apropiados.

El conjunto de parámetros espaciales puede utilizarse como una capa de mejora en codificadores de audio. Por ejemplo, una señal mono se transmite si sólo se permite una tasa de bits baja, mientras que incluyendo la capa de mejora espacial el descodificador puede reproducir sonido estéreo.

Se indica que la invención no está limitada a señales estéreo sino que puede aplicarse a cualquier señal multicanal que comprenda n canales (n>1).En particular, la invención puede usarse para generar n canales a partir de una señal mono, si se transmiten (n-1) conjuntos de parámetros espaciales. En este caso, los parámetros espaciales describen cómo formar los n canales de audio diferentes a partir de la única señal mono.

Se indica que las características del procedimiento descrito anteriormente y a continuación pueden implementarse en software y llevarse a cabo en un sistema de procesamiento de datos u otros medios de procesamiento mediante la ejecución de instrucciones ejecutables por ordenador. Las instrucciones pueden ser medios de código de programa cargados en una memoria, tal como una memoria RAM, desde un medio de almacenamiento o desde otro ordenador a través de una red informática. De manera alternativa, las características descritas pueden implementarse mediante un conjunto de circuitos cableados en lugar de software o en combinación con software.

La invención se refiere además a un codificador para codificar una señal de audio tal como se expone en la reivindicación 8.

Se indica que los medios anteriores para generar una señal monoaural, los medios para determinar un conjunto de parámetros espaciales así como los medios para generar una señal codificada pueden implementarse mediante cualquier dispositivo o circuito adecuado, por ejemplo como microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.

La invención se refiere además a un aparato para suministrar una señal de audio, comprendiendo el aparato:

- una entrada para recibir una señal de audio,

- un codificador tal como se describe anteriormente y a continuación para codificar la señal de audio para obtener una señal de audio codificada, y

- una salida para suministrar la señal de audio codificada.

El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como ordenadores fijos o portátiles, un equipo de comunicación por radio portátil o fijo u otros dispositivos portátiles o de bolsillo, tales como reproductores multimedia, dispositivos de grabación, etc. El término equipo de comunicación por radio portátil incluye todos los equipos tales como teléfonos móviles, localizadores personales, comunicadores, es decir organizadores electrónicos, teléfonos inteligentes, asistentes digitales personales (PDA), ordenadores de bolsillo, o similares.

La entrada puede comprender cualquier dispositivo o conjunto de circuitos adecuado para recibir una señal de audio multicanal en formato digital o analógico, por ejemplo a través de una conexión por cable, tal como una línea de jack, a través de una conexión inalámbrica, por ejemplo una señal de radio, o de cualquier otra manera adecuada.

De forma similar, la salida puede comprender cualquier dispositivo o conjunto de circuitos adecuado para suministrar la señal codificada. Ejemplos de tales salidas incluyen una interfaz de red para proporcionar la señal a una red informática, tales como una red LAN, Internet, o similar, un conjunto de circuitos de comunicaciones para comunicar la señal a través de un canal de comunicaciones, por ejemplo un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la salida puede comprender un dispositivo para almacenar una señal en un medio de almacenamiento.

La invención se refiere además a una señal de audio codificada, tal como se expone en la reivindicación 10.

La invención se refiere además a un medio de almacenamiento que tiene almacenada en el mismo una señal codificada de este tipo. En el presente documento, el término medio de almacenamiento comprende, pero no está limitado a, una cinta magnética, un disco óptico, un disco de vídeo digital (DVD), un disco compacto (CD o CD-ROM), un minidisco, un disco duro, un disquete, una memoria ferroeléctrica, una memoria de sólo lectura, eléctricamente programable y borrable (EEPROM), una memoria flash, una memoria EPROM, una memoria de sólo lectura (ROM), una memoria estática de acceso aleatorio (SRAM), una memoria dinámica de acceso aleatorio (DRAM), una memoria dinámica sincrónica de acceso aleatorio (SDRAM), una memoria ferromagnética, almacenamiento óptico, dispositivos de carga acoplada, tarjetas inteligentes, una tarjeta PCMCIA, etc.

La invención se refiere además a un procedimiento para descodificar una señal de audio codificada tal como se expone en la reivindicación 12.

La invención se refiere además a un descodificador para descodificar una señal de audio codificada tal como se expone en la reivindicación 13.

Se indica que los medios anteriores pueden implementarse mediante cualquier dispositivo o circuito adecuado, tales como por ejemplo microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.

La invención se refiere además a un aparato para suministrar una señal de audio descodificada, comprendiendo el aparato:

- una entrada para recibir una señal de audio codificada,

- un descodificador tal como se describe anteriormente y a continuación para descodificar la señal de audio codificada para obtener una señal de salida multicanal,

- una salida para suministrar o reproducir la señal de salida multicanal.

El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como se describió anteriormente.

La entrada puede comprender cualquier dispositivo o conjunto de circuitos adecuado para recibir una señal de audio codificada. Ejemplos de tales entradas incluyen una interfaz de red para recibir la señal a través de una red informática, tales como una red LAN, Internet, o similar, un conjunto de circuitos de comunicaciones para recibir la señal a través de un canal de comunicaciones, por ejemplo un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la entrada puede comprender un dispositivo para leer una señal a partir de un medio de almacenamiento.

De manera similar, la salida puede comprender cualquier dispositivo o conjunto de circuitos adecuado para suministrar una señal multicanal en un formato analógico o digital.

Estos y otros aspectos de la invención resultarán evidentes y se aclararán a partir de las realizaciones descritas a continuación con referencia a los dibujos en los que:

la figura 1 muestra un diagrama de flujo de un procedimiento para codificar una señal de audio según una realización de la invención;

la figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación según una realización de la invención;

la figura 3 ilustra un procedimiento de filtrado para su uso para sintetizar la señal de audio;

y

la figura 4 ilustra un descorrelador para su uso para sintetizar la señal de audio.

La figura 1 muestra un diagrama de flujo de un procedimiento para codificar una señal de audio según una realización de la invención.

En una etapa S1 inicial, las señales L y R entrantes se dividen en señales pasabanda (preferiblemente con un ancho de banda que aumenta con la frecuencia), indicado con el número 101 de referencia, de modo que sus parámetros pueden analizarse en función del tiempo. Un posible procedimiento para la división en tiempo/frecuencia es usar la aplicación de una función ventana en el tiempo seguido por una operación de transformada, aunque también podrían utilizarse procedimientos continuos en el tiempo (por ejemplo, bancos de filtros). La resolución de tiempo y frecuencia de este proceso está adaptada preferiblemente a la señal; para señales transitorias se prefiere una resolución de tiempo precisa (del orden de algunos milisegundos) y una resolución de frecuencia aproximada, mientras que para señales no transitorias se prefiere una resolución de frecuencia más precisa y una resolución de tiempo más aproximada (del orden de décimas de milisegundos). Posteriormente, en la etapa S2, se determina la diferencia de nivel (ILD) de señales subbanda correspondientes; en la etapa S3 se determina la diferencia de tiempo (ITD o IPD) de señales subbanda correspondientes; y en la etapa S4 se describe la magnitud de similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD o ITD. El análisis de estos parámetros se explica a continuación.

Etapa S2

Análisis de las ILD

La ILD se determina por la diferencia de nivel de las señales en una cierta instancia de tiempo para una banda de frecuencia dada. Un procedimiento para determinar la ILD es medir el valor de la raíz cuadrática media (rms) de la banda de frecuencia correspondiente de ambos canales de entrada y calcular la relación de estos valores de rms (expresados preferiblemente en dB).

Etapa S3

Análisis de las ITD

Las ITD se determinan por la alienación de tiempo o fase que proporciona la mejor correspondencia entre las formas de onda de ambos canales. Un procedimiento para obtener la ITD es calcular la función de correlación cruzada entre dos señales subbanda correspondientes y buscar el valor máximo. El retardo que corresponde a este valor máximo en la función de correlación cruzada puede utilizarse como el valor ITD. Un segundo procedimiento es calcular las señales analíticas de la subbanda izquierda y derecha (es decir, calcular los valores de la envolvente y de fase) y usar la diferencia de fase (media) entre los canales como parámetro IPD.

Etapa S4

Análisis de la correlación

La correlación se obtiene hallando en primer lugar la ILD y la ITD que proporciona la mejor correspondencia entre las señales subbanda correspondientes y posteriormente medir la similitud de las formas de onda tras la compensación de la ITD y/o ILD. Por tanto, en este contexto, la correlación se define como la similitud o disimilitud de señales subbanda correspondientes que no puede atribuirse a las ILD y/o ITD. Una medida adecuada para este parámetro es el valor máximo de la función de correlación cruzada (es decir, el valor máximo a lo largo de un conjunto de retardos).

Sin embargo, no según la invención, también podrían utilizarse otras medidas, tales como la energía relativa de la señal de diferencia tras la compensación de ILD y/o ITD en comparación con la señal de suma de subbandas correspondientes (preferiblemente también compensadas con respecto a las ILD y/o ITD). Este parámetro de diferencia es básicamente una transformación lineal de la correlación (máxima).

En las etapas S5, S6 y S7 posteriores, se cuantifican los parámetros determinados. Una cuestión importante para la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que está directamente relacionada con la capacidad de transmisión necesaria. En esta sección, se tratarán diversas cuestiones con respecto a la cuantificación de los parámetros espaciales. La idea básica es basar los errores de cuantificación en denominadas diferencias casi perceptibles (JND, just-noticeable differences) de las identificaciones espaciales. Para ser más específicos, el error de cuantificación se determina por la sensibilidad del sistema auditivo humano a los cambios en los parámetros. Debido a que la sensibilidad a los cambios en los parámetros depende considerablemente de los valores de los propios parámetros, se aplican los siguientes procedimientos para determinar los escalones de cuantificación discretos.

Etapa S5

Cuantificación de las ILD

A partir de la investigación psicoacústica se sabe que la sensibilidad a los cambios en la ILD depende de la propia ILD. Si la ILD se expresa en dB, pueden detectarse desviaciones de aproximadamente 1 dB con respecto a una referencia de 0 dB, mientras que se requieren cambios del orden de 3 dB si la diferencia respecto al nivel de referencia asciende a 20 dB. Por tanto, los errores de cuantificación pueden ser mayores si las señales de los canales izquierdo y derecho tienen una diferencia de nivel mayor. Por ejemplo, esto puede aplicarse midiendo en primer lugar la diferencia de nivel entre los canales, seguido por una transformación (compresiva) no lineal de la diferencia de nivel obtenida y posteriormente un proceso de cuantificación lineal, o utilizando una tabla de consulta de los valores de ILD disponibles que tie-
nen una distribución no lineal. La realización posterior proporciona un ejemplo de una tabla de consulta de este tipo.

Etapa S6

Cuantificación de las ITD

La sensibilidad a los cambios en las ITD de sujetos humanos puede caracterizarse por presentar un umbral de fase constante. Esto significa que, en términos de tiempos de retardo, los escalones de cuantificación para la ITD deberían disminuir con la frecuencia. De manera alternativa, si la ITD se representa en forma de diferencias de fase, los escalones de cuantificación deberían ser independientes de la frecuencia. Un procedimiento para implementar esto es tomar una diferencia de fase fija como escalón de cuantificación y determinar el retardo de tiempo correspondiente para cada banda de frecuencia. Este valor ITD se usa entonces como etapa de cuantificación. Otro procedimiento es transmitir diferencias de fase que siguen un esquema de cuantificación independiente de la frecuencia. También se conoce que, por encima de una cierta frecuencia, el sistema auditivo humano no es sensible a las ITD en las formas de onda de estructura fina. Este fenómeno puede aprovecharse transmitiendo sólo parámetros ITD hasta una cierta frecuencia (normalmente 2 kHz).

Un tercer procedimiento de reducción del flujo de bits es incorporar escalones de cuantificación de ITD que dependen de los parámetros de correlación y/o de ILD de la misma subbanda. Para ILD grandes, las ITD pueden codificarse con menos precisión. Además, si la correlación es muy baja, se sabe que la sensibilidad humana a los cambios en la ITD es reducida. Por tanto, si la correlación es pequeña pueden aplicarse errores de cuantificación de ITD más grandes. Un ejemplo extremo de esta idea es no transmitir ITD si la correlación está por debajo de un cierto umbral y/o si la ILD es suficientemente grande para la misma subbanda (normalmente de aproximadamente 20 dB).

Etapa S7

Cuantificación de la correlación

El error de cuantificación de la correlación depende de (1) el propio valor de correlación y, posiblemente, (2) de la ILD. Valores de correlación próximos a +1 se codifican con una precisión alta (es decir, un escalón de cuantificación pequeño), mientras que valores de correlación próximos a 0 se codifican con una precisión baja (un escalón de cuantificación grande). En la realización se da un ejemplo de un conjunto de valores de correlación distribuidos de manera no lineal. Una segunda posibilidad es utilizar escalones de cuantificación para la correlación que dependen de la ILD medida de la misma subbanda: para ILD grandes (es decir, un canal es dominante en cuanto a la energía), los errores de cuantificación en la correlación se hacen más grandes. Un ejemplo extremo de este principio sería no transmitir ningún valor de correlación para una cierta subbanda si el valor absoluto de la ILD para esa subbanda está más allá de un cierto umbral.

En la etapa S8, se genera una señal S monoaural a partir de las señales de audio entrantes, por ejemplo como una señal de suma de las componentes de señal entrante, determinando una señal dominante, generando una señal de componente principal a partir de las componentes de señal entrante, o similar. Este proceso usa preferiblemente los parámetros espaciales extraídos para generar la señal mono, es decir, alineando en primer lugar las formas de onda de subbanda usando la ITD o IPD antes de la combinación.

Finalmente, en la etapa S9, se genera una señal 102 codificada a partir de la señal monoaural y los parámetros determinados. De manera alternativa, la señal de suma y los parámetros espaciales pueden comunicarse como señales separadas a través del mismo canal o canales diferentes.

Se indica que el procedimiento anterior puede implementarse mediante una disposición correspondiente, por ejemplo implementada como microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.

La figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación según una realización de la invención. El sistema comprende un codificador 201 y un descodificador 202 correspondiente. El descodificador 201 recibe una señal estéreo con dos componentes L y R y genera una señal 203 codificada que comprende una señal S de suma y parámetros P espaciales que se comunican al descodificador 202. La señal 203 puede comunicarse a través de cualquier canal 204 de comunicaciones. Alternativa o adicionalmente, la señal puede almacenarse en un medio 214 de almacenamiento extraíble, por ejemplo una tarjeta de memoria, que puede transferirse del codificador al descodificador.

El codificador 201 comprende módulos 205 y 206 de análisis para analizar parámetros espaciales de las señales L y R entrantes, preferiblemente para cada ranura de tiempo/frecuencia. El codificador comprende además un módulo 207 de extracción de parámetros que genera parámetros espaciales cuantificados; y un módulo 208 de combinación que genera una señal de suma (o dominante) que consiste en una determinada combinación de las al menos dos señales de entrada. El codificador comprende además un módulo 209 de codificación que genera una señal 203 codificada resultante que comprende la señal monoaural y los parámetros espaciales. En una realización, el módulo 209 realiza además una o más de las funciones siguientes: asignación de tasa de bits, sincronización de tramas, codificación sin pérdida, etc.

La síntesis (en el descodificador 202) se realiza aplicando los parámetros espaciales a la señal de suma para generar señales de salida izquierda y derecha. Por lo tanto, el descodificador 202 comprende un módulo 210 de descodificación que realiza la operación inversa del módulo 209 y extrae la señal S de suma y los parámetros P a partir de la señal 203 codificada. El descodificador comprende además un módulo 211 de síntesis que recupera las componentes L y R estéreo a partir de la señal de suma (o dominante) y los parámetros espaciales.

En esta realización, la descripción de los parámetros espaciales se combina con un codificador de audio monoaural (de canal único) para codificar una señal de audio estéreo. Debería indicarse que aunque la realización descrita funciona sobre señales estéreo, la idea general puede aplicarse a señales de audio de n canales, con n>1.

En los módulos 205 y 206 de análisis, las señales L y R entrantes izquierda y derecha, respectivamente, se dividen en diversas tramas de tiempo (por ejemplo, comprendiendo cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se les aplica una función ventana con una ventana de Hanning de raíz cuadrada. Posteriormente, se calculan las FFT. Las frecuencias de FFT negativas se descartan y las FFT resultantes se subdividen en grupos (subbandas) de intervalos (bins) FFT. El número de intervalos FFT que se combinan en una subbanda g depende de la frecuencia: a frecuencias más altas se combinan más intervalos que a frecuencias más bajas. En una realización, se agrupan intervalos FFT correspondientes a aproximadamente 1,8 ERB (Equivalent Rectangular Bandwidth, ancho de banda rectangular equivalente), dando como resultado 20 subbandas para representar todo el rango de frecuencias audible. El número resultante de intervalos FFT S[g] de cada subbanda posterior (empezando a la frecuencia más baja) es

S = [4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]

Por tanto, las primeras tres subbandas contienen 4 intervalos FFT, la cuarta subbanda contiene 5 intervalos FFT, etc. Para cada subbanda, se calculan la ILD, ITD correspondiente y la correlación (r). La ITD y la correlación se calculan simplemente poniendo a cero todos los intervalos FFT que pertenecen a otros grupos, multiplicando las FFT (de banda limitada) resultantes de los canales izquierdo y derecho, seguido por una transformada FFT inversa. Se explora la función de correlación cruzada resultante para buscar un pico dentro de un retardo entre canales entre -64 y +63 muestras. El retardo interno correspondiente al pico se usa como valor de ITD, y el valor de la función de correlación cruzada en este pico se usa como correlación entre canales de esta subbanda. Finalmente, la ILD se calcula simplemente tomando la relación de potencia de los canales izquierdo y derecho para cada subbanda.

En el módulo 208 de combinación, las subbandas izquierda y derecha se suman tras una corrección de fase (alienación temporal). Esta corrección de fase se deriva de la ITD calculada para esa subbanda y consiste en retardar la subbanda de canal izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2. El retardo se realiza en el dominio de la frecuencia mediante una modificación apropiada de los ángulos de fase de cada intervalo FFT. Posteriormente, se calcula la señal de suma sumando las versiones de fase modificada de las señales de subbanda izquierda y derecha. Finalmente, para compensar la adición no correlacionada o correlacionada, cada subbanda de la señal de suma se multiplica por sqrt(2/(1+r)), siendo r la correlación de la subbanda correspondiente. En caso necesario, la señal de suma puede convertirse al dominio del tiempo (1) insertando conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de función ventana, y (4) overlap-add (solapamiento y suma).

En el módulo 207 de extracción de parámetros, se cuantifican los parámetros espaciales. Las ILD (en dB) se cuantifican al valor más próximo del conjunto I siguiente:

I = [-19 -16 -13 -10 -8 -6 -4 -2 0 2 4 6 8 10 13 16 19]

Los escalones de cuantificación de ITD se determinan mediante una diferencia de fase constante en cada subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia de tiempo que corresponde a 0,1 rad de la frecuencia central de subbanda se usa como escalón de cuantificación. Para frecuencias por encima de 2 kHz, no se transmite información de ITD.

Los valores r de correlación entre canales se cuantifican al valor más próximo del conjunto R siguiente:

R = [1 0,95 0,9 0,82 0,75 0,6 0,3 0]

Esto costará otros 3 bits por cada valor de correlación.

Si el valor absoluto de la ILD (cuantificado) de la subbanda actual asciende a 19 dB, no se transmiten valores de correlación ni de ITD para esta subbanda. Si el valor de correlación (cuantificado) de una cierta subbanda asciende a cero, no se transmite ningún valor de ITD para esa subbanda.

De este modo, cada trama requiere un máximo de 233 bits para transmitir los parámetros espaciales. Con una longitud de trama de 1024 tramas, la tasa de bits máxima para la transmisión asciende a 10,25 kbit/s. Debería indicarse que usando codificación de entropía o codificación diferencial, esta tasa de bits puede reducirse adicional-
mente.

El descodificador comprende un módulo 211 de síntesis en el que se sintetiza la señal estéreo a partir de la señal de suma recibida y los parámetros espaciales. Por tanto, para esta descripción se supone que el módulo de síntesis recibe una representación en el dominio de la frecuencia de la señal de suma tal como se describió anteriormente. Esta representación puede obtenerse mediante operaciones de función ventana y de FFT de la forma de onda en el dominio del tiempo. En primer lugar, se copia la señal de suma a las señales de salida izquierda y derecha. Posteriormente, se modifica la correlación entre las señales izquierda y derecha con un descorrelador . En una realización preferida, se usa un descorrelador tal como se describe a continuación. Posteriormente, se retarda cada subbanda de la señal izquierda en -ITD/2, y se retarda la señal derecha en ITD/2, dada la ITD (cuantificada) correspondiente a esa subbanda. Finalmente se ajustan a escala las subbandas izquierda y derecha según la ILD para esa subbanda. En una realización, la modificación anterior se realiza mediante un filtro tal como se describe a continuación. Para convertir las señales de salida en el dominio del tiempo, se realizan las etapas siguientes: (1) insertar conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de función ventana y (4) overlap- add.

La figura 3 ilustra un procedimiento de filtrado para su uso para sintetizar la señal de audio. En una etapa 301 inicial, la señal de audio entrante x(t) se segmenta en un número de tramas. La etapa 301 de segmentación divide la señal en tramas x_{n}(t) de una longitud adecuada, por ejemplo en el intervalo de 500-5000 muestras, por ejemplo 1024 o 2048 muestras.

Preferiblemente, la segmentación se realiza usando funciones ventana de síntesis y análisis de solapamiento, suprimiendo así artefactos que pueden introducirse en los límites de trama (véase por ejemplo Princen, J. P., y Bradley, A. B.: "Analysis/synthesis filterbank design based on time domain aliasing cancellation", IEEE transactions on Acoustics, Speech and Signal processing, Vol. ASSP 34, 1986).

En la etapa 302, cada una de las tramas x_{n}(t) se transforma al dominio de frecuencia aplicando una transformada de Fourier, implementada preferiblemente como una transformada rápida de Fourier (FFT). La representación de frecuencia resultante de la enésima trama x_{n}(t) comprende un número de componentes X(k,n) de frecuencia, donde el parámetro n indica el número de tramas y el parámetro k indica la componente de frecuencia o intervalo de frecuencia correspondiente a una frecuencia \omega_{k}, 0<k<K. En general, las componentes X(k,n) en el dominio de la frecuencia son números complejos.

En la etapa 303, se determina el filtro deseado para la trama actual según los parámetros espaciales variables en el tiempo recibidos. El filtro deseado se expresa como una respuesta de filtro deseado que comprende un conjunto de K factores F(k,n), de peso complejos, 0<k<K, para la enésima trama. La respuesta F(k,n) de filtro puede representarse por dos números reales, es decir su amplitud a(k,n) y su fase \varphi(k,n) según F(k,n) = a(k,n)\cdotexp[j\varphi(k,n)].

En el dominio de la frecuencia, las componentes de frecuencia filtradas son Y(k,n) = F(k,n)\cdotX(k,n), es decir resultan de una multiplicación de las componentes X(k,n) de frecuencia de la señal de entrada con la respuesta F(k,n) de filtro. Tal como resultará evidente para un experto en la técnica, esta multiplicación en el dominio de la frecuencia corresponde a una convolución de la trama x_{n}(t) de señal de entrada con un filtro f_{n}(t) correspondiente.

En la etapa 304, la respuesta F(k,n) de filtro deseada se modifica antes de aplicarla a la trama X(k,n) actual. En particular, la respuesta F'(k,n) de filtro real que ha de aplicarse se determina en función de la respuesta F(k,n) de filtro deseado y de información 308 acerca de tramas previas. Preferiblemente, esta información comprende la respuesta de filtro deseado y/o real de una o más tramas previas, según

1

Por tanto, haciendo que la respuesta de filtro real sea dependiente del historial de las respuestas de filtro previas, pueden suprimirse de manera eficaz los artefactos introducidos por cambios en la respuesta de filtro entre tramas consecutivas. Preferiblemente, la forma real de la función \Phi de transformada se selecciona para reducir artefactos por overlap-add que resultan de respuestas de filtro dinámicamente variables.

Por ejemplo, la función \Phi de transformada puede ser una función de una única función de respuesta previa, por ejemplo F'(k,n) = \Phi_{1}[F(k,n), F(k,n-1)] o F'(k,n) = \Phi_{2}[F(k,n), F'(k,n-1)]. En otra realización, la función de transformada puede comprender un promedio flotante sobre un número de funciones de respuesta previas, por ejemplo una versión filtrada de funciones de respuesta previas, o similares. Las realizaciones preferidas de la función \Phi de transformada se describirán con más detalle a continuación.

En la etapa 305, la respuesta F'(k,n) de filtro real se aplica a la trama actual multiplicando las componentes X(k,n) de frecuencia de la trama actual de la señal de entrada por los factores F'(k,n) de respuesta de filtro correspondientes según Y(k,n) = F'(k,n)\cdotX(k,n).

En la etapa 306, las componentes Y(k,n) de frecuencia procesadas resultantes se transforman de nuevo en el dominio del tiempo dando como resultado tramas y_{n}(t) filtradas. Preferiblemente, la transformada inversa se implementa como una transformada rápida de Fourier inversa (IFFT).

Finalmente, en la etapa 307, las tramas filtradas se recombinan para obtener una señal y(t) filtrada mediante un procedimiento de overlap-add. Una implementación eficaz de un procedimiento de overlap-add de este tipose describe en "Digital baseband transmission and recording", Kluwer, 1996 de Bergmans J. W. M.

En una realización, la función \Phi de transformada de la etapa 304 se implementa como un limitador de cambio de fase entre la trama actual y la previa. Según esta realización, se calcula el cambio \delta(k) de fase de cada componente F(k,n) de frecuencia en comparación con la modificación \varphi'(k,n-1) de fase real aplicada a la muestra previa de la componente de frecuencia correspondiente, es decir \delta(k) = \varphi(k,n)- \varphi'(k,n-1).

Posteriormente, se modifica la componente de fase del filtro F(k,n) deseado de modo que se reduce el cambio de fase a lo largo de las tramas, en caso de que el cambio diera como resultado artefactos de overlap-add. Según esta realización, esto se consigue garantizando que la diferencia de fase real no supera un umbral c predeterminado, por ejemplo simplemente cortando la diferencia de fase, según

2

El valor c de umbral puede ser una constante predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En una realización, el umbral c puede no ser una constante sino por ejemplo en función del tiempo, frecuencia, y/o similar. Además, alternativamente al límite estricto anterior para el cambio de fase, pueden usarse otras funciones de limitación del cambio de fase.

En general, en la realización anterior, el cambio de fase deseado a lo largo de las tramas de tiempo posteriores para componentes de frecuencia individuales se transforma por una función P(\delta(k)) de entrada-salida y la respuesta F'(k,n) de filtro real viene dada por

3

Por tanto, según esta realización, se introduce una función P de transformada del cambio de fase a lo largo de tramas de tiempo posteriores.

En otra realización de la transformación de la respuesta de filtro, el procedimiento de limitación de fase se conduce por una medida adecuada de tonalidad, por ejemplo un procedimiento de predicción tal como se describe a continuación. Esto tiene la ventaja de que los saltos de fase entre tramas consecutivas que se producen en señales de tipo ruido pueden excluirse del procedimiento de limitación de cambio de fase según la invención. Esto es una ventaja, puesto que limitar tales saltos de fase en señales de tipo ruido haría que la señal de tipo ruido sonase más tonal lo que con frecuencia se percibe como sintético o metálico.

Según esta realización, se calcula un error \theta(k) = \varphi(k,n)- \varphi(k,n-1)-\omega_{k}\cdoth de fase predicho. En este caso, \omega_{k} indica la frecuencia correspondiente a la componente de frecuencia k-ésima y h indica el tamaño de salto en las muestras. En este caso, el término tamaño de salto se refiere a la diferencia entre dos centros de ventana adyacentes, es decir la mitad de la longitud de análisis para ventanas simétricas. A continuación se supone que el error anterior se incluye en el intervalo [-\pi,+\pi].

Posteriormente, se calcula una medida P_{k} de predicción para la magnitud de predictibilidad de fase en el intervalo de frecuencia k-ésimo según P_{k} = (\pi - |\theta(k)|)/\pi \in [0,1], donde | \cdot | indica el valor absoluto.

Por tanto, la medida P_{k} anterior proporciona un valor entre 0 y 1 correspondiente a la magnitud de predictibilidad de fase en el intervalo de frecuencia k-ésimo. Si P_{k} es próxima a 1, puede suponerse que la señal subyacente tiene un alto grado de tonalidad, es decir, tiene una forma de onda sustancialmente sinusoidal. Para una señal de este tipo, los saltos de fase son fácilmente perceptibles, por ejemplo por el oyente de una señal de audio. Por tanto, los saltos de fase deberían eliminarse preferiblemente en este caso. Por otro lado, si el valor de P_{k} es próximo a 0, puede suponerse que la señal subyacente es ruidosa. Para las señales ruidosas, los saltos de fase no se perciben fácilmente y, por tanto, pueden permitirse.

Por consiguiente, se aplica la función de limitación de fase si P_{k} supera un umbral predeterminado, es decir P_{k} > A, dando como resultado la respuesta F'(k,n) de filtro real según

4

En este caso, A está limitado por los límites superior e inferior de P, que son +1 y 0, respectivamente. El valor exacto de A depende de la implementación real. Por ejemplo, A puede seleccionarse entre 0,6 y 0,9.

Se entiende que, alternativamente, puede usarse cualquier otra medida adecuada para estimar la tonalidad. En otra realización más, el salto c de fase permitido descrito anteriormente puede hacerse dependiente de una medida adecuada de tonalidad, por ejemplo la medida P_{k} anterior, permitiendo así saltos de fase más grandes si P_{k} es grande y viceversa.

La figura 4 ilustra un descorrelador para su uso para sintetizar la señal de audio. El descorrelador comprende un filtro 401 de todo paso que recibe la señal x monoaural y un conjunto de parámetros P espaciales que incluyen la correlación r cruzada entre canales y un parámetro indicativo de la diferencia c de canal. Se indica que el parámetro c está relacionado con la diferencia de nivel entre canales por ILD = k\cdotlog(c), donde k es una constante, es decir ILD es proporcional al logaritmo de c.

Preferiblemente, el filtro de todo paso comprende un retardo dependiente de la frecuencia que proporciona un retardo relativamente menor a altas frecuencias que a bajas frecuencias. Esto puede conseguirse sustituyendo un retardo fijo del filtro de todo paso por un filtro de todo paso que comprende un periodo de un complejo de fase de Schroeder (véase por ejemplo M.R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor., 16:85-89, 1970). El descorrelador comprende además un circuito 402 de análisis que recibe los parámetros espaciales desde el descodificador y extrae la correlación r cruzada entre canales y la diferencia c de canal. El circuito 402 determina una matriz M(\alpha,\beta) de mezcla tal como se describirá a continuación. Las componentes de la matriz de mezcla se alimentan al circuito 403 de transformación que además recibe la señal x de entrada y la señal H\otimesx filtrada. El circuito 403 realiza una operación de mezcla según

5

dando como resultado las señales L y R de salida.

La correlación entre las señales L y R puede expresarse como un ángulo \alpha entre vectores que representan la señal L y R, respectivamente, en un espacio definido por las señales x y H\otimesx, según r = cos(\alpha). Por consiguiente, cualquier par de vectores que muestre la distancia angular correcta tiene la correlación especificada.

Por tanto, una matriz M de mezcla que transforma las señales x y H\otimesx en señales L y R con una correlación r predeterminada puede expresarse como sigue:

6

Así, la cantidad de señal sometida al filtro de todo paso depende de la correlación deseada. Además, la energía de la componente de señal de todo paso es la misma en ambos canales de salida) aunque con un desplazamiento de fase de 180º).

Se indica que el caso en el que la matriz M viene dada por

7

es decir, el caso en que \alpha = 90º correspondiente a señales (r = 0) de salida no correlacionadas, corresponde a un descorrelador de Lauridsen.

Para ilustrar un problema con la matriz de la ecuación (5), se supone una situación con una amplitud extrema que va hacia el canal izquierdo, es decir un caso en el que una cierta señal está presente sólo en el canal izquierdo. También se supone que la correlación deseada entre las salidas es cero. En este caso, la salida del canal izquierdo de la transformación de la ecuación (3) con la matriz de mezcla de la ecuación (5) proporciona 8 Por tanto, la salida consiste en la señal x original combinada con su versión H\otimesx sometida a filtro de todo paso.

Sin embargo, esta es una situación no deseada, puesto que el filtro de todo paso deteriora habitualmente la calidad de percepción de la señal. Además, la suma de la señal original y la señal filtrada da como resultado efectos de filtro de peine, tal como la coloración percibida de la señal de salida. En este caso extremo supuesto, la mejor solución sería que la señal de salida izquierda consistiera en la señal de entrada. De esta forma la correlación de las dos señales de salida seguiría siendo cero.

En situaciones con más diferencias de nivel moderadas, la situación preferida es que el canal de salida más fuerte contenga relativamente más de la señal original, y que el canal de salida más débil contenga relativamente más de la señal filtrada. Por tanto, en general, se prefiere maximizar la cantidad de la señal original presente en las dos salidas de manera conjunta, y minimizar la cantidad de la señal filtrada.

Según esta realización, esto se consigue introduciendo una matriz de mezcla diferente que incluye una rotación común adicional:

9

En este caso, \beta es una rotación adicional y C es una matriz escalar que garantiza que la diferencia de nivel relativa entre las señales de salida es igual a c, es decir

10

La inserción de la matriz de la ecuación (6) en la ecuación (3) proporciona las señales de salida generadas por la operación de aplicar una matriz según esta realización:

11

Por tanto, las señales L y R de salida aún tienen una diferencia \alpha angular, es decir, la correlación entre las señales L y R no se ve afectada por el ajuste a escala de las señales L y R según la diferencia de nivel deseada y la rotación adicional por el ángulo \beta tanto de la señal L como de la R.

Tal como se mencionó anteriormente, preferiblemente, debería maximizarse la cantidad de la señal x original en la salida sumada de L y R. Esta condición puede usarse para determinar el ángulo \beta, según

12

que proporciona la condición:

13

En resumen, esta solicitud describe una descripción paramétrica de los atributos espaciales de señales de audio multicanal, basada en la psicoacústica. Esta descripción paramétrica permite reducciones considerables de la tasa de bits en codificadores de audio, puesto que sólo ha de transmitirse una señal monoaural, combinada con parámetros (cuantificados) que describen las propiedades espaciales de la señal. El descodificador puede formar la cantidad original de canales de audio aplicando los parámetros espaciales. Para audio estéreo de calidad próxima a CD, una tasa de bits asociada con estos parámetros espaciales de 10 kbit/s o inferior parece suficiente para reproducir la impresión espacial correcta en el extremo receptor. Adicionalmente, esta escala de bits puede ajustarse a escala de manera descendente reduciendo la resolución espectral y/o temporal de los parámetros espaciales y/o procesando los parámetros espaciales utilizando algoritmos de compresión sin pérdida.

Debería observarse que las realizaciones mencionadas anteriormente ilustran en vez de limitar la invención, y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin apartarse del alcance de las reivindicaciones adjuntas.

Por ejemplo, la invención se ha descrito principalmente en conexión con una realización utilizando las dos indicaciones de posición ILD e ITD/IPD. En realizaciones alternativas, pueden usarse otras indicaciones de posición. Además, en una realización, la ILD, la ITD/IPD y la correlación cruzada entre canales pueden determinarse tal como se describió anteriormente, aunque sólo se transmite la correlación cruzada entre canales junto con la señal monoaural, reduciendo así adicionalmente el ancho de banda/capacidad de almacenamiento requeridos para transmitir/almacenar la señal de audio. De manera alternativa, puede transmitirse la correlación cruzada entre canales y una de ILD e ITD/TPD. En estas realizaciones, la señal se sintetiza sólo a partir la señal monoaural basándose en los parámetros transmitidos.

En las reivindicaciones, cualquier símbolo de referencia entre paréntesis no debería interpretarse como limitativo de la reivindicación. El término "comprender" no excluye la presencia de elementos o etapas diferentes a las enumeradas en una reivindicación. El término "un" o "una" precediendo a un elemento no excluye la presencia de una pluralidad de elementos tales.

La invención puede implementarse por medio de hardware que comprende diversos elementos distintos y por medio de un ordenador programado de forma adecuada. En la reivindicación del dispositivo que enumera diversos medios, varios de estos medios pueden realizarse mediante uno y el mismo elemento de hardware. El mero hecho de que ciertas medidas se enumeren en reivindicaciones diferentes entre sí no indica que no pueda usarse de forma ventajosa una combinación de estas medidas.

Claims

1. Procedimiento para codificar una señal de audio, comprendiendo el procedimiento:

- generar (S8) una señal monoaural que comprende una combinación de al menos dos canales (L, R) de audio de entrada,

- determinar (S2, S3, S4) un conjunto de parámetros (ILD, ITD, C) espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro (C) que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada,

- generar (S5, S6, S7, S9) una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales

caracterizado porque

la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

2. Procedimiento según la reivindicación 1, en el que la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.

3. Procedimiento según la reivindicación 2, en el que la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende

4. Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que el conjunto de parámetros espaciales incluye al menos una indicación de posición.

5. Procedimiento según la reivindicación 4, en el que el conjunto de parámetros espaciales incluye al menos dos indicaciones de posición que comprenden una diferencia de nivel entre canales y una seleccionada de entre una diferencia de tiempo entre canales y una diferencia de fase entre canales.

6. Procedimiento según la reivindicación 4 ó 5, en el que la medida de similitud comprende información que no puede tenerse en cuenta por las indicaciones de posición.

7. Procedimiento según una cualquiera de las reivindicaciones 1 a 6, en el que la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en el que al menos uno de los errores de cuantificación introducidos se controla para que dependa de un valor de al menos uno de los parámetros espaciales determinados.

8. Codificador para codificar una señal de audio, comprendiendo el codificador:

- medios para generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,

- medios para determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y

- medios para generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

9. Aparato para suministrar una señal de audio, comprendiendo el aparato:

una entrada para recibir una señal de audio,

un codificador según la reivindicación 8 para codificar la señal de audio para obtener una señal de audio codificada, y

una salida para suministrar la señal de audio codificada.

10. Señal de audio codificada, comprendiendo la señal: una señal monoaural que comprende una combinación de al menos dos canales de audio, y

un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

11. Medio de almacenamiento que tiene almacenada en el mismo una señal codificada según la reivindicación 10.

12. Procedimiento para descodificar una señal de audio codificada, comprendiendo el procedimiento:

obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,

obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y

generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

13. Descodificador para descodificar una señal de audio codificada, comprendiendo el descodificador

medios para obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio, y

medios para obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y

medios para generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

14. Aparato para suministrar una señal de audio descodificada, comprendiendo el aparato:

una entrada para recibir una señal de audio codificada,

un descodificador según la reivindicación 13 para descodificar la señal de audio codificada para obtener una señal de salida multicanal, y

una salida para suministrar o reproducir la señal de salida multicanal.