ES2323294T3

ES2323294T3 - Dispositivo de decodificacion con una unidad de decorrelacion.

Info

Publication number: ES2323294T3
Application number: ES07119364T
Authority: ES
Inventors: Dirk J. Breebaart; Steven L. J. D. E. Van De Par
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-04-22
Filing date: 2003-04-22
Publication date: 2009-07-10
Anticipated expiration: 2023-04-22
Also published as: EP1881486B1; JP2009271554A; BRPI0304540B1; DE60326782D1; JP5498525B2; KR20100039433A; BR0304540A; EP1881486A1; KR101016982B1; US20130094654A1; ATE426235T1; AU2003219426A1; KR100978018B1; WO2003090208A1; US20090287495A1; JP2005523480A; JP4714416B2; EP1500084B1; US8331572B2; KR20040102164A

Abstract

Aparato de decodificación para decodificar una señal de audio digital codificada que comprende al menos una primera y una segunda componente de señal de audio digital, que se han codificado a una señal (X) digital compuesta y una señal (P) de parámetro, comprendiendo el aparato de decodificación: - una unidad (210) de entrada para recibir una señal de transmisión, - una unidad (210) de demultiplexor para recuperar la señal digital compuesta y la señal de parámetro a partir de la señal de transmisión, - una unidad (401) de decorrelador para generar a partir de la señal digital compuesta una versión decorrelacionada de la señal digital compuesta, - una unidad (403) de matrizado para recibir la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta y generar a partir de las mismas una réplica de la primera y segunda componente de señal de audio digital, - siendo la réplica de la primera componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro, - siendo la réplica de la segunda componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro.

Description

Dispositivo de decodificacion con una unidad de decorrelación.

Campo de la invención

Esta invención se refiere a la decodificación de señales de audio y, más en particular, a la decodificación de señales de audio multicanal.

Antecedentes de la invención

Dentro del campo de la codificación de audio se desea en general codificar una señal de audio, por ejemplo para reducir la tasa de transmisión de bits para comunicar la señal, o el requisito de almacenamiento para almacenar la señal, sin comprometer en exceso la calidad de percepción de la señal de audio. Este es un problema importante cuando las señales de audio van a transmitirse a través de canales de comunicaciones de capacidad limitada o cuando van a almacenarse en un medio de almacenamiento que tiene una capacidad limitada.

Las soluciones anteriores en codificadores de audio que se han sugerido para reducir la tasa de transmisión de bits de material de programa estéreo incluyen:

"Estéreo intensivo". En este algoritmo, se representan altas frecuencias (normalmente por encima de 5 kHz) mediante una única señal de audio (por ejemplo, mono), combinada con factores de escala variables en el tiempo y dependientes de la frecuencia.

"Estéreo M/S". En este algoritmo, la señal se descompone en una señal suma (o media, o común) y una señal diferencia (o lado, o no común). Esta descomposición se combina a veces con análisis de componentes principales o factores de escala variables en el tiempo. Estas señales se codifican entonces de forma independiente, o bien mediante un codificador de transformada o codificador de forma de onda. La cantidad de reducción de información lograda por este algoritmo depende en gran medida de las propiedades espaciales de la señal de fuente. Por ejemplo, si la señal de fuente es monoaural, la señal diferencia es cero y puede descartarse. Sin embargo, si la correlación de las señales de audio izquierda y derecha es baja (que es el caso más frecuente), este esquema supone sólo cierta ventaja.

Las descripciones paramétricas de señales de audio han cobrado interés durante los últimos años, en especial en el campo de la codificación de audio. Se ha mostrado que transmitir parámetros (cuantificados) que describen señales de audio requiere sólo poca capacidad de transmisión para resintetizar una señal perceptiblemente igual en el extremo de recepción. Sin embargo, los codificadores de audio paramétricos actuales se centran en la codificación de señales monoaurales, y las señales estéreo se procesan con frecuencia como mono dual.

La solicitud de patente europea EP 1 107 232 da a conocer un procedimiento de codificación de una señal estéreo que tiene una componente L y una R, en la que la señal estéreo se representa por una de las componentes estéreo y fase de captura de información paramétrica y diferencias de nivel de la señal de audio. En el decodificador, la otra componente estéreo se recupera basándose en la componente estéreo codificada y la información paramétrica.

El documento GB-A-2353926 da a conocer la creación de un par de señales decorrelacionadas con filtros en peine complementarios.

Sumario de la invención

Un objeto de la presente invención es resolver el problema de proporcionar una decodificación de audio mejorada que produzca una alta calidad de percepción de la señal recuperada.

Según la invención, se proporciona un aparato de decodificación tal como se expone en la reivindicación 1. En las reivindicaciones dependientes se exponen realizaciones preferidas.

A modo de ejemplo, existe un procedimiento de codificación de una señal de audio, comprendiendo el procedimiento:

- generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,

- determinar un conjunto de parámetros espaciales indicativo de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y

- generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales.

El inventor ha observado que codificando una señal de audio multicanal como una señal de audio monoaural y un número de atributos espaciales que comprenden una medida de similitud de las formas de onda correspondientes, puede recuperarse la señal multicanal con una alta calidad de percepción. Una ventaja adicional del ejemplo es que proporciona una codificación eficaz de una señal multicanal, es decir una señal que comprende al menos un primer y segundo canal, por ejemplo una señal estéreo, una señal cuadrafónica, etc.

Por lo tanto, según un aspecto del ejemplo, se parametrizan atributos espaciales de señales de audio multicanal. Para aplicaciones generales de codificación de audio, transmitir estos parámetros combinados con sólo una señal de audio monoaural reduce en gran medida la capacidad de transmisión necesaria para transmitir la señal estéreo en comparación con codificadores de audio que procesan los canales de forma independiente, mientras se mantiene la impresión espacial original. Un problema importante es que aunque las personas reciben formas de onda de un objeto auditivo dos veces (una vez por el oído izquierdo y una vez por el oído derecho), sólo se percibe un único objeto auditivo en una posición determinada y con un tamaño determinado (o dispersión espacial).

Por tanto, parece innecesario describir señales de audio como dos o más formas de onda (independientes) y sería mejor describir el audio multicanal como un conjunto de objetos auditivos, cada uno con sus propiedades espaciales propias. Una dificultad que surge inmediatamente es el hecho de que es casi imposible separar de forma automática objetos auditivos individuales a partir de un conjunto dado de objetos auditivos, por ejemplo una grabación musical. Este problema puede evitarse no dividiendo el material de programa en objetos auditivos individuales, sino describiendo en su lugar los parámetros espaciales de forma que se parezca al procesamiento efectivo (periférico) del sistema auditivo. Cuando los atributos espaciales comprenden una medida de (di)similitud de las formas de onda correspondientes, se logra una codificación eficaz al tiempo que se mantiene un nivel de calidad de percepción alto.

En particular, la descripción paramétrica de audio multicanal presentada en este caso está relacionada con el modelo de procesamiento binaural presentado por Breebaart et al. Este modelo tiene por objeto describir el procesamiento de señal eficaz del sistema auditivo binaural. Para una descripción del modelo de procesamiento binaural por Breebaart et al., véase Breebaart, J., van de Par, S. y Kohlrausch, A. (2001a). Binaural processing model based on contralateral inhibition. I. Model setup. J. Acoust. Soc. Am., 110, 1074-1088; Breebaart, J., van de Par, S. y Kohlrausch, A. (2001b). Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters. J. Acoust. Soc. Am., 110, 1089-1104; y Breebaart, J., van de Par, S. y Kohlrausch, A. (2001c). Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters. J. Acoust. Soc. Am., 110, 1105-1117. A continuación se da una interpretación resumida que ayuda a comprender el ejemplo.

En un ejemplo preferido, el conjunto de parámetros espaciales incluye al menos una indicación de localización. Cuando los atributos espaciales comprenden una o más, preferiblemente dos, indicaciones de localización así como una medida de (di)similitud de las formas de onda correspondientes, se logra una codificación particularmente eficaz al tiempo que se mantiene un nivel de calidad de percepción particularmente alto.

El término indicación de localización comprende cualquier parámetro adecuado que incluye información acerca de la localización de objetos auditivos que contribuyen a la señal de audio, por ejemplo la orientación de y/o la distancia a un objeto auditivo.

En un ejemplo preferido, el conjunto de parámetros espaciales incluye al menos dos indicaciones de localización que comprenden una diferencia de nivel entre canales (interchannel level difference, ILD) y una seleccionada de una diferencia de tiempo entre canales (interchannel time difference, ITD) y una diferencia de fase entre canales (interchannel phase difference, IPD). Es interesante mencionar que la diferencia de nivel entre canales y la diferencia de tiempo entre canales se consideran como las indicaciones de localización más importantes en el plano
horizontal.

La medida de similitud de las formas de onda correspondientes al primer y segundo canales de audio puede ser cualquier función adecuada que describa cómo de similares o disimilares son las formas de onda correspondientes. Por lo tanto, la medida de similitud puede ser una función de similitud creciente, por ejemplo un parámetro determinado a partir de la (función de) correlación cruzada entre canales.

Según un ejemplo preferido, la medida de similitud corresponde a un valor de una función de correlación cruzada en un máximo de dicha función de correlación cruzada (también conocida como coherencia). La máxima correlación cruzada entre canales está relacionada en gran medida con la dispersión espacial de percepción (o compacidad) de una fuente de sonido, es decir proporciona información adicional que no se tiene en cuenta por las indicaciones de localización anteriores, proporcionando así un conjunto de parámetros con un bajo grado de redundancia de la información que incluyen y, por tanto, proporcionando una codificación eficaz.

Se observa que, de forma alternativa, pueden usarse otras medidas de similitud, por ejemplo una función creciente con la disimilitud de las formas de onda. Un ejemplo de una función de este tipo es 1-c, donde c es una correlación cruzada que puede asumir valores entre 0 y 1.

Según un ejemplo preferido, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.

Los inventores saben que es suficiente para describir atributos espaciales de cualquier señal de audio multicanal, especificar la ILD, ITD (o IPD) y la máxima correlación en función del tiempo y la frecuencia.

\global\parskip0.930000\baselineskip

En un ejemplo preferido adicional, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende

- dividir cada uno de los al menos dos canales de audio de entrada en pluralidades de bandas de frecuencia correspondientes;

- para cada una de la pluralidad de bandas de frecuencia determinar el conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada dentro de la banda de frecuencia correspondiente.

Por lo tanto, la señal de audio entrante se divide en varias señales limitadas por banda, que están (preferiblemente) separadas linealmente en una escala de tasa de transmisión ERB. Preferiblemente los filtros de análisis muestran una superposición parcial en el dominio de la frecuencia y/o del tiempo. El ancho de banda de estas señales depende de la frecuencia central, siguiendo la tasa de transmisión ERB. Posteriormente, preferiblemente para cada banda de frecuencia, se analizan las siguientes propiedades de las señales entrantes:

- la diferencia de nivel entre canales, o ILD, definida por los niveles relativos de la señal limitada por banda procedente de las señales izquierda y derecha,

- la diferencia de tiempo (o de fase) entre canales (ITD o IPD), definida por el retardo entre canales (o desplazamiento de fase) correspondiente a la posición del pico en la función de correlación cruzada entre canales, y

- la (di)similitud de las formas de onda que no puede tenerse en cuenta por las ITD o las ILD, que puede parametrizarse por la máxima correlación cruzada entre canales (es decir, el valor de la función de correlación cruzada normalizada en la posición del pico máximo, también conocida como coherencia).

Los tres parámetros descritos anteriormente varían con el tiempo; sin embargo, puesto que el sistema auditivo binaural es muy lento en su procesamiento, la tasa de actualización de estas propiedades es bastante baja (normalmente decenas de milisegundos).

Puede asumirse en este caso que las propiedades (lentamente) variables en el tiempo mencionadas anteriormente son las únicas propiedades de señal espacial de las que dispone el sistema auditivo binaural, y que a partir de estos parámetros dependientes de tiempo y frecuencia, el mundo auditivo percibido se reconstruye por niveles más altos del sistema auditivo.

Un ejemplo tiene por objeto describir una señal de audio multicanal mediante:

una señal monoaural, que consiste en una combinación determinada de las señales de entrada, y

un conjunto de parámetros espaciales: dos indicaciones de localización (ILD, e ITD o IPD) y un parámetro que describe la similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD y/o las ITD (por ejemplo, el máximo de la función de correlación cruzada) preferiblemente para cada ranura de tiempo/frecuencia. Preferiblemente, se incluyen parámetros espaciales para cada canal auditivo adicional.

Un problema importante de la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que está directamente relacionado con la capacidad de transmisión necesaria.

Según otro ejemplo más, la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en el que al menos uno de los errores de cuantificación introducidos se controla para depender de un valor de al menos uno de los parámetros espaciales determinados.

Por lo tanto, el error de cuantificación introducido por la cuantificación de los parámetros se controla según la sensibilidad del sistema auditivo humano a los cambios en estos parámetros. Esta sensibilidad depende en gran medida de los valores de los propios parámetros. De este modo, controlando el error de cuantificación para que dependa de los valores de los parámetros, se logra una codificación mejorada.

Una ventaja del ejemplo es que proporciona un desacoplamiento de parámetros de señal monoaurales y binaurales en codificadores de audio. Por consiguiente, las dificultades relacionadas con codificadores de audio estéreo se reducen en gran medida (tal como la audibilidad de ruido de cuantificación no correlacionado interauralmente en comparación con ruido de cuantificación correlacionado interauralmente, o inconsistencias de fase interaural en codificadores paramétricos que están codificando en modo mono dual).

Una ventaja adicional del ejemplo es que se logra una gran reducción de la tasa de transmisión de bits en codificadores de audio debido a una baja tasa de actualización y una baja resolución de frecuencia requerida para los parámetros espaciales. La tasa de transmisión de bits asociada para codificar los parámetros espaciales es normalmente 10 kbit/s o menos (véase la realización que se describe a continuación).

\global\parskip1.000000\baselineskip

Una ventaja adicional del ejemplo es que puede combinarse fácilmente con codificadores de audio existentes. El esquema propuesto produce una señal mono que puede codificarse y decodificarse con cualquier estrategia de codificación existente. Después de la decodificación monoaural, el sistema descrito en este caso regenera una señal multicanal estéreo con los atributos espaciales apropiados.

Puede usarse el conjunto de parámetros espaciales como una capa de mejora en codificadores de audio. Por ejemplo, una señal mono se transmite sólo si se permite una baja tasa de transmisión de bits, mientras que incluyendo la capa de mejora espacial el decodificador puede reproducir sonido estéreo.

Se observa que el ejemplo no está limitado a señales estéreo sino que puede aplicarse a cualquier señal multicanal que comprenda n canales (n>1). En particular, el ejemplo puede usarse para generar n canales a partir de una señal mono, si se transmiten (n-1) conjuntos de parámetros espaciales. En este caso, los parámetros espaciales describen cómo formar los n canales de audio diferentes a partir de la única señal mono.

El presente ejemplo puede implementarse de diferentes formas incluyendo el procedimiento descrito anteriormente y a continuación, un procedimiento de decodificación de una señal de audio codificada, un codificador, un decodificador, y medios de producción adicionales, produciendo cada uno, uno o más de los beneficios y ventajas descritos en conexión con el procedimiento mencionado en primer lugar, y teniendo cada uno, uno o más ejemplos preferidos correspondientes a los ejemplos preferidos descritos en conexión con el procedimiento mencionado en primer
lugar.

Se observa que las características del procedimiento descrito anteriormente y a continuación pueden implementarse en software y llevarse a cabo en un sistema de procesamiento de datos u otros medios de procesamiento producidos por la ejecución de instrucciones ejecutables por ordenador. Las instrucciones pueden ser medios de código de programa cargados en una memoria, tal como una RAM, a partir de un medio de almacenamiento o a partir de otro ordenador a través de una red informática. De forma alternativa, las características descritas pueden implementarse mediante circuitería cableada en lugar de en software o en combinación con software.

El ejemplo se refiere además a un codificador para la codificación de una señal de audio, comprendiendo el codificador:

- medios para generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,

- medios para determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y

- medios para generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales.

Se observa que los medios anteriores para generar una señal monoaural, los medios para determinar un conjunto de parámetros espaciales así como los medios para generar una señal codificada pueden implementarse mediante cualquier circuito o dispositivo adecuado, por ejemplo como microprocesadores programables de propósito general o especial, procesadores de señal digital (Digital Signal Processors, DSP), circuitos integrados de aplicación específica (Application Specific Integrated Circuits, ASIC), disposiciones lógicas programables (PLA, Programmable Logic Arrays), disposiciones de puertas programables en campo (Field Programmable Gate Arrays, FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.

El ejemplo se refiere además a un aparato para suministrar una señal de audio, comprendiendo el aparato:

- una entrada para recibir una señal de audio,

- un codificador según se describió anteriormente y a continuación para la codificación de la señal de audio para obtener una señal de audio codificada, y

- una salida para suministrar la señal de audio codificada.

El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como ordenadores fijos o portátiles, equipos de radiocomunicación fijos o portátiles u otros dispositivos de bolsillo o portátiles, tales como reproductores multimedia, dispositivos de grabación, etc. El término equipo de radiocomunicación portátil incluye todo equipo tal como teléfonos móviles, buscapersonas, comunicadores, es decir organizadores electrónicos, teléfonos inteligentes (smart phones), asistentes digitales personales (personal digital assistant, PDA), ordenadores de bolsillo, o similares.

La entrada puede comprender cualquier circuitería o dispositivo adecuado para recibir una señal de audio multicanal en forma analógica o digital, por ejemplo a través de una conexión cableada, tal como una línea de jack, a través de una conexión inalámbrica, por ejemplo una señal de radio, o en cualquier otra forma adecuada.

De forma similar, la salida puede comprender cualquier circuitería o dispositivo adecuado para suministrar la señal codificada. Ejemplos de tales salidas incluyen una interfaz de red para proporcionar la señal a una red informática, tal como una LAN, Internet, o similares, circuitería de comunicaciones para comunicar la señal a través de un canal de comunicaciones, por ejemplo, un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la salida puede comprender un dispositivo para almacenar una señal en un medio de almacenamiento.

El ejemplo se refiere además a una señal de audio codificada, comprendiendo la señal:

- una señal monoaural que comprende una combinación de al menos dos canales de audio, y

- un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada.

El ejemplo se refiere además a un medio de almacenamiento que tiene almacenado en el mismo una señal codificada de este tipo. En este caso, el término medio de almacenamiento comprende pero no está limitado a una cinta magnética, un disco óptico, un disco de vídeo digital (DVD), un disco compacto (CD o CD-ROM), un minidisc, un disco duro, un disco flexible, una memoria ferroeléctrica, una memoria de sólo lectura programable borrable eléctricamente (electrically erasable programmable read only memory, EEPROM), una memoria flash, una EPROM, una memoria de sólo lectura (read only memory, ROM), una memoria de acceso aleatorio estática (static random access memory, SRAM), una memoria de acceso aleatorio dinámica (dynamic random access memory, DRAM), una memoria de acceso aleatorio dinámica síncrona (synchronous dynamic random access memory, SDRAM), una memoria ferromagnética, almacenamiento óptico, dispositivos de carga acoplada, tarjetas inteligentes, una tarjeta PCMCIA,
etc.

El ejemplo se refiere además a un procedimiento de decodificación de una señal de audio codificada, comprendiendo el procedimiento:

- obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,

- obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y

- generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales.

El ejemplo se refiere además a un decodificador para decodificar una señal de audio codificada, comprendiendo el decodificador:

- medios para obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,

- medios para obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y

- medios para generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales.

Se observa que los medios anteriores pueden implementarse mediante cualquier circuito o dispositivo adecuado, por ejemplo como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.

El ejemplo se refiere además a un aparato para suministrar una señal de audio decodificada, comprendiendo el aparato:

- una entrada para recibir una señal de audio codificada,

- un decodificador según se describió anteriormente y a continuación para decodificar la señal de audio codificada para obtener una señal de salida multicanal,

- una salida para suministrar o reproducir la señal de salida multicanal.

El aparato puede ser cualquier equipo electrónico o parte de tal equipo según se describió anteriormente.

\newpage

La entrada puede comprender cualquier circuitería o dispositivo adecuado para recibir una señal de audio codificada. Ejemplos de tales entradas incluyen una interfaz de red para recibir la señal a través de una red informática, tal como una LAN, Internet, o similares, circuitería de comunicaciones para recibir la señal a través de un canal de comunicaciones, por ejemplo, un canal de comunicaciones inalámbricas, etc. En otros ejemplos, la entrada puede comprender un dispositivo para leer una señal a partir de un medio de almacenamiento.

De forma similar, la salida puede comprender cualquier circuitería o dispositivo adecuado para suministrar una señal multicanal en forma digital o analógica.

Breve descripción de los dibujos

Estos y otros aspectos serán evidentes y se dilucidarán a partir de lo siguiente con referencia a los dibujos en los que:

la figura 1 muestra un diagrama de flujo de un procedimiento de codificación de una señal de audio;

la figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación;

la figura 3 ilustra un procedimiento de filtro para su uso en la sintetización de la señal de audio; y

la figura 4 ilustra un decorrelador para su uso en la sintetización de la señal de audio.

Descripción detallada de las realizaciones

La figura 1 muestra un diagrama de flujo de un procedimiento de codificación de una señal de audio.

En una etapa S1 inicial, las señales L y R entrantes se dividen en señales paso banda (preferiblemente con un ancho de banda que aumenta con la frecuencia), indicadas por el número de referencia 101, tal que su parámetros puedan analizarse en función del tiempo. Un posible procedimiento para la partición en tiempo/frecuencia es usar ventanas de tiempo seguidas por una operación de transformada, pero también pueden usarse procedimientos continuos en el tiempo (por ejemplo, bancos de filtros). La resolución de frecuencia y tiempo de este proceso se adapta preferiblemente a la señal; para señales transitorias se prefiere una resolución de tiempo precisa (del orden de unos pocos milisegundos) y una resolución de frecuencia basta, mientras que para señales no transitorias se prefiere una resolución de frecuencia más precisa y una resolución de tiempo más basta (del orden de decenas de milisegundos). Posteriormente, en la etapa S2, se determina la diferencia de nivel (ILD) de señales de subbanda correspondientes; en la etapa S3 se determina la diferencia de tiempo (ITD o IPD) de señales de subbanda correspondientes; y en la etapa S4 se describe la cantidad de similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD o las ITD. El análisis de estos parámetros se comenta a continuación.

Etapa S2 Análisis de las ILD

La ILD se determina por la diferencia de nivel de la señales en un instante de tiempo determinado para una banda de frecuencia dada. Un procedimiento para determinar la ILD es medir el valor cuadrático medio (root mean square, rms) de la banda de frecuencia correspondiente de ambos canales de entrada y calcular la proporción de estos valores rms (expresados preferiblemente en dB).

Etapa S3 Análisis de las ITD

Las ITD se determinan por el alineamiento de tiempo o de fase que proporciona la mejor correspondencia entre las formas de onda de ambos canales. Un procedimiento para obtener la ITD es calcular la función de correlación cruzada entre dos señales de subbanda correspondientes y buscar el máximo. El retardo que corresponde a este máximo en la función de correlación cruzada puede usarse como valor de ITD. Un segundo procedimiento es calcular las señales analíticas de la subbanda izquierda y derecha (por ejemplo, calculando valores de fase y de envolvente) y usar la diferencia de fase (promedio) entre los canales como parámetro de IPD.

Etapa S4 Análisis de la correlación

La correlación se obtiene encontrando en primer lugar la ILD y la ITD que proporciona la mejor correspondencia entre las señales de subbanda correspondientes y posteriormente medir la similitud de las formas de onda después de la compensación para la ITD y/o ILD. Por tanto, en este marco de trabajo, la correlación se define como la similitud o disimilitud de señales de subbanda correspondientes que no pueden atribuirse a las ILD y/ o las ITD. Una medida adecuada para este parámetro es el valor máximo de la función de correlación cruzada (por ejemplo, el máximo de un conjunto de retardos). Sin embargo, también podrían usarse otras medidas, tales como la energía relativa de la señal diferencia después de compensación de ILD y/o ITD en comparación con la señal suma de subbandas correspondientes (preferiblemente compensadas también para las ILD y/o las ITD). Este parámetro de diferencia es básicamente una transformación lineal de la (máxima) correlación.

En las etapas S5, S6, y S7 posteriores, se cuantifican los parámetros determinados. Un problema importante de transmisión de parámetros es la precisión de la representación de parámetros (por ejemplo, el tamaño de errores de cuantificación), que está directamente relacionado con la capacidad de transmisión necesaria. En esta sección, se comentarán varias cuestiones con respecto a la cuantificación de los parámetros espaciales. La idea básica es basar los errores de cuantificación en las denominadas diferencias apenas apreciables (just-noticeable differences, JND) de las indicaciones espaciales. Para ser más específicos, el error de cuantificación viene determinado por la sensibilidad del sistema auditivo humano a los cambios en los parámetros. Puesto que la sensibilidad a los cambios en los parámetros depende en gran medida de los valores de los propios parámetros, se aplican los siguientes procedimientos para determinar las etapas de cuantificación discreta.

\vskip1.000000\baselineskip

Etapa S5 Cuantificación de las ILD

Se conoce a partir de la investigación psicoacústica que la sensibilidad a los cambios en la ILD depende de la propia ILD. Si la ILD se expresa en dB, pueden detectarse desviaciones de aproximadamente 1 dB a partir de una referencia de 0 dB, mientras que se requieren cambios del orden de 3 dB si la diferencia de nivel de referencia es de 20 dB. Por tanto, los errores de cuantificación pueden ser mayores si las señales de los canales izquierdo y derecho tienen una diferencia de nivel mayor. Por ejemplo, esto puede aplicarse midiendo en primer lugar la diferencia de nivel entre los canales, seguido por una transformación no lineal (compresiva) de la diferencia de nivel obtenida y posteriormente un proceso de cuantificación lineal, o usando una tabla de consulta para los valores de ILD disponibles que tienen una distribución no lineal. El ejemplo a continuación proporciona un ejemplo de una tabla de consulta de este tipo.

\vskip1.000000\baselineskip

Etapa S6 Cuantificación de las ITD

La sensibilidad a los cambios en las ITD de sujetos humanos puede caracterizarse como que tiene un umbral de fase constante. Esto significa que en términos de tiempos de retardo, las etapas de cuantificación para la ITD deben disminuir con la frecuencia. De forma alternativa, si la ITD se representa en forma de diferencias de fase, las etapas de cuantificación deberían ser independientes de la frecuencia. Un procedimiento para implementar esto es tomar una diferencia de fase fija como etapa de cuantificación y determinar el retardo de tiempo correspondiente para cada banda de frecuencia. Este valor de ITD se usa entonces como etapa de cuantificación. Otro procedimiento es transmitir diferencias de fase que siguen un esquema de cuantificación independiente de la frecuencia. También se conoce que por encima de una frecuencia determinada, el sistema auditivo humano no es sensible a las ITD en las formas de onda de estructura a pequeña escala. Este fenómeno puede aprovecharse transmitiendo sólo parámetros de ITD hasta una frecuencia determinada (normalmente 2 kHz).

Un tercer procedimiento de reducción de flujo de bits es incorporar etapas de cuantificación de ITD que dependen de la ILD y/o los parámetros de correlación de la misma subbanda. Para ILD grandes, las ITD pueden codificarse de forma menos precisa. Además, si la correlación es muy baja, se sabe que la sensibilidad humana a los cambios en la ITD se reduce. Por consiguiente, pueden aplicarse errores de cuantificación de ITD mayores si la correlación es pequeña. Un ejemplo extremo de esta idea es no transmitir las ITD en absoluto si la correlación está por debajo de un umbral determinado y/o si la ILD es lo suficientemente grande para la misma subbanda (normalmente alrededor de
20 dB).

\vskip1.000000\baselineskip

Etapa S7 Cuantificación de la correlación

El error de cuantificación de la correlación depende de (1) el propio valor de correlación y posiblemente (2) de la ILD. Los valores de correlación próximos a +1 se codifican con una precisión alta (por ejemplo, una etapa de cuantificación pequeña), mientras que los valores de correlación próximos a 0 se codifican con una precisión baja (una etapa de cuantificación grande). En la realización se da un ejemplo de un conjunto de valores de correlación distribuidos de manera no lineal. Una segunda posibilidad es usar etapas de cuantificación para la correlación que dependen de la ILD medida de la misma subbanda: para ILD grandes (es decir, un canal es dominante en términos de energía), los errores de cuantificación en la correlación se vuelven mayores. Un ejemplo extremo de este principio sería no transmitir valores de correlación para una subbanda determinada en absoluto si el valor absoluto de la ILD para esa subbanda supera un umbral determinado.

En la etapa S8, se genera una señal S monoaural a partir de las señales de audio entrantes, por ejemplo, como una señal suma de las componentes de señal entrantes, determinando una señal dominante, generando una señal de componente principal a partir de las componentes de señal entrantes, o similar. Este proceso usa preferiblemente los parámetros espaciales extraídos para generar la señal mono, es decir, alineando en primer lugar las formas de onda de subbanda que usan la ITD o la IPD antes de la combinación.

Finalmente, en la etapa S9, se genera una señal 102 codificada a partir de la señal monoaural y los parámetros determinados. De forma alternativa, la señal suma y los parámetros espaciales pueden comunicarse como señales separadas a través de los mismos o diferentes canales.

Se observa que el procedimiento anterior puede implementarse mediante una disposición correspondiente, por ejemplo implementarse como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.

La figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación. El sistema comprende un codificador 201 y un decodificador 202 correspondiente. El decodificador 201 recibe una señal estéreo con dos componentes L y R y genera una señal 203 codificada que comprende una señal S suma y parámetros P espaciales que se comunican al decodificador 202. La señal 203 puede comunicarse a través de cualquier canal 204 de comunicaciones adecuado. Como alternativa o adicionalmente, la señal puede almacenarse en un medio 214 de almacenamiento extraíble, por ejemplo una tarjeta de memoria, que puede transferirse del codificador al decodifi-
cador.

El codificador 201 comprende módulos 205 y 206 de análisis para analizar parámetros espaciales de las señales L y R, respectivamente, entrantes, preferiblemente para cada ranura de tiempo/frecuencia. El codificador comprende además un módulo 207 de extracción de parámetros que genera parámetros espaciales cuantificados; y un módulo 208 de combinador que genera una señal suma (o dominante) consiste en una combinación determinada de las al menos dos señales de entrada. El codificador comprende además un módulo 209 de codificación que genera una señal 203 codificada resultante que comprende la señal monoaural y los parámetros espaciales. En un ejemplo, el módulo 209 realiza además una o más de las siguientes funciones: asignación de tasa de transmisión de bits, alineación de tramas, codificación sin pérdida, etc.

La síntesis (en el decodificador 202) se realiza aplicando los parámetros espaciales a la señal suma para generar señales de salida izquierda y derecha. Por lo tanto, el decodificador 202 comprende un módulo 210 de decodificación que realiza la operación inversa a la del módulo 209 y extrae la señal S suma y los parámetros P a partir de la señal 203 codificada. El decodificador comprende además un módulo 211 de síntesis que recupera las componentes L y R estéreo a partir de la señal suma (o dominante) y los parámetros espaciales.

En este ejemplo, la descripción del parámetro espacial se combina con un codificador de audio monoaural (canal único) para codificar una señal de audio estéreo. Debe observarse que aunque la realización descrita trabaja sobre señales estéreo, la idea general puede aplicarse a señales de audio de n canales, con n>1.

En los módulos 205 y 206 de análisis, las señales L y R izquierda y derecha entrantes, respectivamente, se dividen en diversas tramas de tiempo (por ejemplo, comprendiendo cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se dividen en ventanas con una ventana de Hanning de raíz cuadrada. Posteriormente, se calculan las FFT. Las frecuencias de FFT negativas se descartan y las FFT resultantes se subdividen en grupos (subbandas) de compartimentos de FFT. El número de compartimentos de FFT que se combinan en una subbanda g depende de la frecuencia: a frecuencias más altas se combinan más compartimentos que a frecuencias más bajas. En una realización, se agrupan los compartimentos de FFT correspondientes a aproximadamente 1,8 ERB (Equivalent Rectangular Bandwidth, ancho de banda rectangular equivalente), dando como resultado 20 subbandas para representar toda la gama de frecuencias audibles. El número resultante de compartimentos S[g] de FFT de cada subbanda posterior (comenzando en la frecuencia más baja) es

\text{S=[4 \ 4 \ 4 \ 5 \ 6 \ 8 \ 9 \ 12 \ 13 \ 17 \ 21 \ 25 \ 30 \ 38 \ 45 \ 55 \ 68 \ 82 \ 100 \ 477]}

Por tanto, las primeras tres subbandas contienen 4 compartimentos de FFT, la cuarta subbanda contiene 5 compartimentos de FFT, etc. Para cada subbanda, se calculan las ILD, ITD y la correlación (r) correspondientes. La ITD y la correlación se calculan simplemente ajustando todos los compartimentos de FFT que pertenecen a otros grupos a cero, multiplicando las FFT resultantes (limitadas por banda) de los canales izquierdo y derecho, seguido de una transformada inversa de FFT. Se busca un pico en la función de correlación cruzada resultante dentro de un retardo entre canales entre -64 y +63 muestras. El retardo interno correspondiente al pico se usa como valor de ITD, y el valor de la función de correlación cruzada en este pico se usa como la correlación entre canales de esta subbanda. Finalmente, la ILD se calcula simplemente tomando la proporción de potencia de los canales izquierdo y derecho para cada subbanda.

\newpage

En el módulo 208 de combinador, las subbandas izquierda y derecha se suman después de una corrección de fase (alineamiento temporal). Esta corrección de fase se sigue de la ITD calculada para esa subbanda y consiste en retardar la subbanda de canal izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2. El retardo se realiza en el dominio de la frecuencia mediante una modificación apropiada de los ángulos de fase de cada compartimento de FFT. Posteriormente, la señal suma se calcula añadiendo las versiones de fase modificada de las señales de subbanda izquierda y derecha. Finalmente, para compensar la adición no correlacionada o correlacionada, cada subbanda de la señal suma se multiplica por \surd(2/(1+ r)), siendo r la correlación de la subbanda correspondiente. Si es necesario, la señal suma puede convertirse al dominio del tiempo (1) insertando conjugadas complejas en frecuencias negativas, (2) inversa de FFT, (3) división en ventanas, y (4) superposición-adición.

En el módulo 207 de extracción de parámetros, se cuantifican los parámetros espaciales. Las ILD (en dB) se cuantifican al valor más cercano fuera del siguiente conjunto I:

\text{I=[-19 \ -16 \ -13 \ -10 \ -8 \ -6 \ -4 \ -2 \ 0 \ 2 \ 4 \ 6 \ 8 \ 10 \ 13 \ 16 \ 19]}

Las etapas de cuantificación de ITD se determinan mediante una diferencia de fase constante en cada subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia de tiempo que corresponde a 0,1 rad de la frecuencia central de subbanda se usa como etapa de cuantificación. Para frecuencias por encima de 2 kHz, no se transmite información de ITD.

Los valores r de correlación entre canales se cuantifican al valor más cercano del siguiente conjunto R:

\text{R=[1 \ 0,95 \ 0,9 \ 0,82 \ 0,75 \ 0,6 \ 0,3 0]}

Éste costará otros 3 bits por valor de correlación.

Si el valor absoluto de la ILD (cuantificada) de la subbanda actual vale 19 dB, no se transmiten ITD ni valores de correlación para esta subbanda. Si el valor de correlación (cuantificado) de una subbanda determinada vale cero, no se transmite valor de ITD para esa subbanda.

De esta forma, cada trama requiere un máximo de 233 bits para transmitir los parámetros espaciales. Con una longitud de trama de 1024 tramas, la máxima tasa de transmisión de bits para transmisión vale 10,25 kbit/s. Debe observarse que usando codificación entrópica o codificación diferencial, puede reducirse adicionalmente esta tasa de transmisión de bits.

El decodificador comprende un módulo 211 de síntesis en el que la señal estéreo se sintetiza a partir de la señal suma recibida y los parámetros espaciales. Por lo tanto, para el propósito de esta descripción se supone que el módulo de síntesis recibe una representación en el dominio de la frecuencia de la señal suma según se describió anteriormente. Esta representación puede obtenerse mediante operaciones de división en ventanas y de FFT de la forma de onda del dominio del tiempo. En primer lugar, la señal suma se copia a las señales de salida izquierda y derecha. Posteriormente, la correlación entre las señales izquierda y derecha se modifica con un decorrelador. En una realización preferida, se usa un decorrelador según se describe a continuación. Posteriormente, cada subbanda de la señal izquierda se retarda en -ITD/2, y la señal derecha se retarda en ITD/2 dada la ITD (cuantificada) correspondiente a esa subbanda. Finalmente, las subbandas izquierda y derecha se ajustan a escala según la ILD para esa subbanda. En una realización, la modificación anterior se realiza mediante un filtro según se describe a continuación. Para convertir las señales de salida al dominio del tiempo, se realizan las siguientes etapas: (1) insertar conjugadas complejas en frecuencias negativas, (2) inversa de FFT, (3) división en ventanas, y (4) superposición-adición.

La figura 3 ilustra un procedimiento de filtro para su uso en la sintetización de la señal de audio. En una etapa inicial 301, la señal x(t) de audio entrante se segmenta en un número de tramas. La etapa 301 de segmentación divide la señal en tramas x_{n}(t) de una longitud adecuada, por ejemplo en la gama de 500-5000 muestras, por ejemplo 1024 ó 2048 muestras.

Preferiblemente, la segmentación se realiza usando funciones de análisis de superposición y ventana de síntesis, eliminando así artefactos que pueden introducirse en los límites de trama (véase, por ejemplo, Princen, J. P., y Bradley, A. B.: "Analysis/synthesis filterbank design based on time domain aliasing cancellation", IEEE transactions on Acoustics, Speech and Signal processing, Vol. ASSP 34, 1986).

En la etapa 302, cada una de las tramas x_{n}(t) se transforma en el dominio de la frecuencia aplicando una transformación de Fourier, implementada preferiblemente como una transformada rápida de Fourier (FFT). La representación de frecuencia resultante de la n-ésima trama x_{n}(t) comprende un número de componentes X(k,n) de frecuencia en los que el parámetro n indica el número de trama y el parámetro k indica la componente de frecuencia o el compartimento de frecuencia correspondiente a una frecuencia \omega_{k}, 0<k<K. En general, las componentes X(k,n) del dominio de la frecuencia son números complejos.

\newpage

En la etapa 303, se determina el filtro deseado para la trama actual según los parámetros espaciales variables en el tiempo recibidos. El filtro deseado se expresa como una respuesta de filtro deseado que comprende un conjunto de K factores F(k,n) de ponderación complejos, 0<k<K, para la n-ésima trama. La respuesta F(k,n) de filtro puede representarse por dos números reales, es decir, su amplitud a(k,n) y su fase \varphi(k,n) según F(k,n) = a(k,n)\cdotexp[j \varphi(k,n)].

En el dominio de la frecuencia, las componentes de frecuencia filtradas son Y(k,n) = F(k,n)\cdotX(k,n), es decir, son el resultado de una multiplicación de las componentes X(k,n) de frecuencia de la señal de entrada con la respuesta F(k,n) de filtro. Como será evidente para un experto en la técnica, esta multiplicación en el dominio de la frecuencia corresponde a una convolución de la trama x_{n}(t) de señal de entrada con un filtro f_{n}(t) correspondiente.

En la etapa 304, la respuesta F(k,n) de filtro deseado se modifica antes de aplicarla a la trama X(k,n) actual. En particular, la respuesta F'(k,n) de filtro real que va a aplicarse se determina como una función de la respuesta F(k,n) de filtro deseado y de la información 308 acerca de tramas previas. Preferiblemente, esta información comprende la respuesta de filtro real y/o deseado de una o más tramas previas, según

F'(k,n) = a'(k,n) \cdot exp[j \varphi'(k,n)] = \Phi[F(k,n), F(k,n-1), F(k,n-2),..., F'(k,n-1), F'(k,n-2),...].

Por lo tanto, haciendo la respuesta de filtro real dependiente del histórico de respuestas de filtro previas, los artefactos introducidos por cambios en la respuesta de filtro entre tramas consecutivas pueden eliminarse de forma eficaz. Preferiblemente, la forma real de la función \Phi de transformada se selecciona para reducir artefactos de superposición-adición que resultan a partir de respuestas de filtro variables de forma dinámica.

Por ejemplo, la función \Phi de transformada puede ser una función de una única función de respuesta previa, por ejemplo F'(k,n) = \Phi_{1}[F(k,n), F(k,n-1)] o F'(k,n) = \Phi_{2}[F(k,n), F'(k,n-1)]. En otro ejemplo, la función de transformada puede comprender un promedio variable de un número de funciones de respuesta previa, por ejemplo una versión filtrada de funciones de respuesta previas, o similar. A continuación, se describen en mayor detalle ejemplos preferidos de la función \Phi de transformada.

En la etapa 305, la respuesta F'(k,n) de filtro real se aplica a la trama actual multiplicando las componentes X(k,n) de frecuencia de la trama actual de la señal de entrada con los factores F'(k,n) de respuesta de filtro correspondientes según Y(k,n) = F'(k,n)\cdotX(k,n).

En la etapa 306, las componentes Y(k,n) de frecuencia procesadas resultantes se transforman de vuelta al dominio del tiempo resultante en tramas y_{n}(t) filtradas. Preferiblemente, la transformada inversa se implementa como una transformada inversa rápida de Fourier (IFFT).

Finalmente, en la etapa 307, las tramas filtradas se recombinan a una señal y(t) filtrada por un procedimiento de superposición-adición. Una implementación eficaz de procedimiento de superposición-adición de este tipo se da a conocer en Bergmans, J. W. M.: "Digital baseband transmission and recording", Kluwer, 1996.

En un ejemplo, la función \Phi de transformada de la etapa 304 se implementa como un limitador de cambio de fase entre la trama actual y la previa. Según este ejemplo, se calcula el cambio \delta(k) de fase de cada componente F(k,n) de frecuencia en comparación con la modificación \varphi'(k,n-1) de fase real aplicada a la muestra previa de la componente de frecuencia correspondiente, es decir \delta(k) = \varphi(k,n) - \varphi'(k,n-1).

Posteriormente, la componente F(k,n) de fase del filtro deseado se modifica de una forma tal que se reduce el cambio de fase a lo largo de las tramas, si el cambio diera como resultado artefactos de superposición-adición. Según este ejemplo, esto se logra garantizando que la diferencia de fase real no supere un umbral c predeterminado, por ejemplo, simplemente recortando la diferencia de fase, según

1

El valor c de umbral puede ser una constante predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En un ejemplo, el umbral c puede no ser una constante sino por ejemplo una función del tiempo, de la frecuencia, y/o similar. Además, de forma alternativa al límite fuerte anterior para el cambio de fase, pueden usarse otras funciones de limitación de cambio de fase.

En general, en el ejemplo anterior, el cambio de fase deseado a lo largo de tramas de tiempo posteriores para componentes de frecuencia individuales se transforma mediante una función P(\delta(k)) de entrada-salida y la respuesta F'(k,n) de filtro real se da por

F'(k,n) = F'(k,n-1) \cdot exp[j P(\delta(k))]

Por otro lado, según este ejemplo, se introduce una función P de transformada del cambio de fase a lo largo de tramas de tiempo posteriores.

En otro ejemplo de la transformación de la respuesta de filtro, el procedimiento de limitación de fase se conduce por una medida de tonalidad adecuada, por ejemplo un procedimiento de predicción según se describe a continuación. Esto tiene la ventaja de que los saltos de fase entre tramas consecutivas que se producen en señales similares a ruido pueden excluirse a partir del procedimiento de limitación de cambio de fase. Esta es una ventaja, puesto que limitar tales saltos de fase en señales similares a ruido haría el sonido de la señal similar a ruido más tonal, lo que con frecuencia se percibe como sintético o metálico.

Según este ejemplo, se calcula un error de fase (k) = \varphi(k,n) - \varphi(k,n-1) - \omega_{k} \cdot h previsto. En este caso, \omega_{k} indica la frecuencia correspondiente a la k-ésima componente de frecuencia y h indica el tamaño del salto en las muestras. Aquí, el término tamaño del salto se refiere a la diferencia entre dos centros de ventana adyacentes, es decir la mitad de la longitud del análisis para ventanas simétricas. En lo que sigue, se supone que el error anterior está incluido en el intervalo [-\pi,+\pi].

Posteriormente, una medida P_{k} de predicción para la cantidad de capacidad de predicción de fase en el k-ésima compartimento de frecuencia se calcula según P_{k} = (\pi - |\theta(k)|)/\pi \in [0,1], donde |\cdot| indica el valor absoluto.

Por lo tanto, la medida P_{k} anterior entrega un valor entre 0 y 1 correspondiente a la cantidad de capacidad de predicción de fase en el k-ésima compartimento de frecuencia. Si P_{k} es cercano a 1, puede asumirse que la señal subyacente tiene un alto grado de tonalidad, es decir tiene una forma de onda sustancialmente sinusoidal. Para una señal de este tipo, los saltos de fase son fácilmente perceptibles, por ejemplo por el oyente de una señal de audio. De este modo, los saltos de fase deben eliminarse preferiblemente en este caso. Por otro lado, si el valor de P_{k} es cercano a 0, puede asumirse que la señal subyacente es ruidosa. Para señales ruidosas los saltos de fase no se perciben fácilmente y pueden, por tanto, permitirse.

Por consiguiente, la función de limitación de fase se aplica si P_{k} supera un umbral predeterminado, es decir P_{k} > A, lo que da como resultado la respuesta F'(k,n) de filtro real según

2

En este caso, A está limitada por los límites superior e inferior de P que son +1 y 0, respectivamente. El valor exacto de A depende de la implementación real. Por ejemplo, A puede seleccionarse entre 0,6 y 0,9.

Se entiende que, de forma alternativa, puede usarse cualquier otra medida adecuada para estimar la tonalidad. En otra realización más, el salto c de fase permitido descrito anteriormente puede hacerse dependiente de una medida de tonalidad adecuada, por ejemplo la medida P_{k} anterior, permitiendo así saltos de fase mayores si P_{k} es grande y viceversa.

La figura 4 ilustra un decorrelador para su uso en la sintetización de la señal de audio. El decorrelador comprende un filtro 401 pasa todo que recibe la señal x monoaural y un conjunto de parámetros P espaciales que incluyen la correlación r cruzada entre canales y un parámetro indicativo de la diferencia c de canal. Se observa que el parámetro c está relacionado con la diferencia de nivel entre canales mediante ILD = k\cdotlog(c), donde k es una constante, es decir ILD es proporcional al logaritmo de c.

Preferiblemente, el filtro pasa todo comprende un retardo dependiente de la frecuencia que proporciona un retardo relativamente más pequeño a altas frecuencias que a bajas frecuencias. Esto puede lograrse reemplazando un retardo fijo del filtro pasa todo con un filtro pasa todo que comprende un período de una compleja en fase de Schroeder (véase por ejemplo M.R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor., 16:85-89, 1970). El decorrelador comprende además un circuito 402 de análisis que recibe los parámetros espaciales a partir del decodificador y extrae la correlación r cruzada entre canales y la diferencia c de canal. El circuito 402 determina una matriz M(\alpha,\beta) de combinación según se describe a continuación. Las componentes de la matriz de combinación se alimentan a un circuito 403 de transformación que recibe además la señal x de entrada y la señal H\otimesx filtrada. El circuito 403 realiza una operación de combinación según

3

que da como resultado las señales de salida L y R.

\newpage

La correlación entre las señales L y R puede expresarse como un ángulo \alpha entre vectores que representa la señal L y R, respectivamente, en un espacio separado por las señales x y H\otimesx, según r=cos(a). Por consiguiente, cualquier par de vectores que muestre la distancia angular correcta presenta la correlación especificada.

Por lo tanto, una matriz M de combinación que transforma las señales x y H\otimesx en señales L y R con una correlación r predeterminada puede expresarse como sigue:

4

\vskip1.000000\baselineskip

Por tanto, la cantidad de señal filtrada mediante pasa todo depende de la correlación deseada. Además, la energía de la componente de señal pasa todo es la misma en ambos canales de salida (pero con un desplazamiento de fase de 180º).

Se observa que el caso en el que la matriz M viene dada por

5

\vskip1.000000\baselineskip

es decir, el caso en el que \alpha=90º correspondiente a señales de salida no correlacionadas (r=0), corresponde a un decorrelador de Lauridsen.

Para ilustrar un problema con la matriz de la ecuación (5), se supone una situación con un paneo en amplitud extremo hacia el canal izquierdo, es decir un caso en el que una señal determinada está presente sólo en el canal izquierdo. Se supone además que la correlación deseada entre las salidas es cero. En este caso, la salida del canal izquierdo de la transformación de la ecuación (3) con la matriz de combinación de la ecuación (5) produzca L=1/\surd2(x+H\otimesx). Por tanto, la salida consiste en la señal x original combinada con su versión filtrada mediante pasa todo H\otimesx.

Sin embargo, ésta es una situación no deseada, puesto que el filtro pasa todo normalmente deteriora la calidad de percepción de la señal. Además, la adición de la señal original y la señal filtrada da como resultado efectos de filtro en peine, tal como coloración percibida de la señal de salida. En este caso extremo supuesto, la mejor solución es que la señal de salida izquierda consista en la señal de entrada. De esta forma, la correlación de las dos señales de salida aún es cero.

En situaciones con diferencias de nivel más moderadas, la situación preferida es que el canal de salida de volumen más alto contiene relativamente más de la señal original, y el canal de salida de volumen más bajo contiene relativamente más de la señal filtrada. De este modo, en general, se prefiere maximizar la cantidad de la señal original presente en las dos salidas juntas, y minimizar la cantidad de la señal filtrada.

Según esta realización, esto se logra introduciendo una matriz de combinación diferente que incluye un giro común adicional:

6

\vskip1.000000\baselineskip

En este caso, \beta es un giro adicional, y C es una matriz de ajuste a escala que garantiza que la diferencia de nivel relativo entre las señales de salida es igual a c, es decir

\vskip1.000000\baselineskip

7

\newpage

Al sustituir la matriz de la ecuación (6) en la ecuación (3) se obtienen las señales de salida generadas por la operación de matrizado según esta realización:

8

Por lo tanto, las señales de salida L y R aún tienen una diferencia angular \alpha, es decir la correlación entre las señales L y R no se ve afectada por el ajuste a escala de las señales L y R según la diferencia de nivel deseada y el giro adicional por el ángulo \beta de la señal tanto L como R.

Como se mencionó con anterioridad, preferiblemente, la cantidad de la señal x original en la salida de L y R sumada debe maximizarse. Esta condición puede usarse para determinar el ángulo \beta, según

9

que produce la condición:

10

En resumen, esta solicitud describe una descripción paramétrica actuada psicoacústicamente, de los atributos espaciales de señales de audio multicanal. Esta descripción paramétrica permite fuertes reducciones en la tasa de transmisión de bits en codificadores de audio, puesto que sólo una señal monoaural ha de transmitirse, combinada con parámetros (cuantificados) que describen las propiedades espaciales de la señal. El decodificador puede formar la cantidad de canales de audio original aplicando los parámetros espaciales. Para audio estéreo de calidad próxima a CD, parece suficiente una tasa de transmisión de bits asociada con estos parámetros espaciales de 10 kbit/s o menos, para reproducir la impresión espacial correcta en el extremo de recepción. Esta tasa de transmisión de bits puede reducirse en escala adicionalmente reduciendo la resolución espectral y/o temporal de los parámetros espaciales y/o procesando los parámetros espaciales usando algoritmos de compresión sin pérdida.

Debe observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención, y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas.

Por ejemplo, la invención se ha descrito principalmente en conexión con una realización que usa las dos indicaciones de localización ILD e ITD/IPD. En realizaciones alternativas, pueden usarse otras indicaciones de localización. Además, en una realización, la ILD, la ITD/IPD, y la correlación cruzada entre canales puede determinarse como se describió anteriormente, pero sólo la correlación cruzada entre canales se transmite junto con la señal monoaural, reduciendo así adicionalmente la capacidad de almacenamiento/ancho de banda requerido para transmitir/almacenar la señal de audio. De forma alternativa, puede transmitirse la correlación cruzada entre canales y una de la ILD e ITD/TPD. En estas realizaciones, la señal se sintetiza a partir de la señal monoaural sólo en función de los parámetros transmitidos.

En las reivindicaciones, no debe interpretarse como que limita la reivindicación ningún símbolo de referencia colocado entre paréntesis. El término "comprendiendo/que comprende" no excluye la presencia de elementos o etapas diferentes de los enumerados en una reivindicación. El término "un" o "una" antes de un elemento no excluye la presencia de una pluralidad de tales elementos.

La invención puede implementarse por medio de hardware que comprende varios elementos distintos, y por medio de un ordenador programado de forma adecuada. En la reivindicación de dispositivo que enumera varios medios, pueden realizarse varios de estos medios por uno y el mismo producto de hardware. El mero hecho de que determinadas medidas se enumeren en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda usarse para obtener ventaja.

Claims

1. Aparato de decodificación para decodificar una señal de audio digital codificada que comprende al menos una primera y una segunda componente de señal de audio digital, que se han codificado a una señal (X) digital compuesta y una señal (P) de parámetro, comprendiendo el aparato de decodificación:

- una unidad (210) de entrada para recibir una señal de transmisión,

- una unidad (210) de demultiplexor para recuperar la señal digital compuesta y la señal de parámetro a partir de la señal de transmisión,

- una unidad (401) de decorrelador para generar a partir de la señal digital compuesta una versión decorrelacionada de la señal digital compuesta,

- una unidad (403) de matrizado para recibir la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta y generar a partir de las mismas una réplica de la primera y segunda componente de señal de audio digital,

- siendo la réplica de la primera componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro,

- siendo la réplica de la segunda componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro.

2. Aparato de decodificación según la reivindicación 1, caracterizado porque la señal de parámetro comprende una primera componente (r) de señal de parámetro que es una medida de la similitud de formas de onda de las réplicas de las al menos primera y segunda señales de audio digital, correspondiendo dicha medida de similitud a un valor de una función de correlación cruzada entre las réplicas de dichas al menos primera y segunda componentes de señal de audio digital, siendo dicho valor sustancialmente igual al máximo de dicha función de correlación cruzada.

3. Aparato de decodificación según la reivindicación 2, caracterizado porque la señal de parámetro comprende una segunda componente (c) de señal de parámetro que es representativa de la diferencia de nivel relativo entre las réplicas de la primera y segunda componentes de señal de audio digital.

4. Aparato de decodificación según la reivindicación 3, caracterizado porque la unidad de matrizado es igual a

11

donde \beta es un valor de ángulo relacionado con la primera componente de señal de parámetro y C está relacionado con la segunda componente de señal de parámetro.

5. Aparato de decodificación según la reivindicación 4, caracterizado porque existe la siguiente relación entre \alpha y la primera componente de señal de parámetro:

12

donde r es el valor del máximo de la función de correlación cruzada.

6. Aparato de decodificación según la reivindicación 4, caracterizado porque C es una matriz 2x2 y existe la siguiente relación entre los coeficientes matriciales de C y la segunda componente (c) de señal de parámetro

13

\vskip1.000000\baselineskip

donde c es igual a la diferencia de nivel relativo entre dichas señales.

7. Aparato de decodificación según la reivindicación 4, caracterizado porque existe la siguiente relación entre \alpha y \beta:

14

8. Aparato de decodificación según cualquiera de las reivindicaciones anteriores, caracterizado porque la unidad de decorrelador está adaptada para retardar la señal digital compuesta para obtener la señal digital compuesta decorrelacionada.

9. Aparato de decodificación según la reivindicación 8, caracterizado porque el retardo es un retardo dependiente de la frecuencia.

10. Aparato de decodificación según una cualquiera de las reivindicaciones anteriores, caracterizado porque la señal digital compuesta es una señal de banda ancha dividida en una pluralidad de subseñales digitales compuestas, una para cada una de una pluralidad de bandas de frecuencia, estando dividida también la señal de parámetro en una pluralidad de subseñales de parámetro, una para cada una de la pluralidad de bandas de frecuencia,

- estando la unidad (401) de decorrelador adaptada para generar a partir de las subseñales digitales compuestas una versión decorrelacionada de las subseñales digitales compuestas,

- estando la unidad (403) de matrizado adaptada para recibir las subseñales digitales compuestas y la versión decorrelacionada de las subseñales digitales compuestas y generar a partir de las mismas una réplica de una pluralidad de subseñales para cada una de la primera y segunda componentes de señal de audio digital,

- siendo una subseñal de la primera componente de señal de audio digital una combinación lineal de una subseñal digital compuesta correspondiente y la versión decorrelacionada de la subseñal digital compuesta correspondiente, que usa coeficientes multiplicadores que dependen de una correspondiente de dichas subseñales de parámetro,

- siendo una subseñal de la segunda componente de señal de audio digital una combinación lineal de una subseñal digital compuesta correspondiente y la versión decorrelacionada de la subseñal digital compuesta correspondiente, que usa coeficientes multiplicadores que dependen de una correspondiente de dichas subseñales de parámetro,

- comprendiendo la disposición además una unidad (307) de transformación para transformar las subseñales de la primera y segunda componentes de señal de audio digital en dichas réplicas de dicha primera y segunda componentes de señal de audio digital.

11. Aparato de decodificación según la reivindicación 10, caracterizado porque las subseñales digitales compuestas están divididas en señales de tiempo consecutivas, una para cada uno de intervalos de tiempo consecutivos en el dominio del tiempo, estando divididas también las subseñales de parámetro en subseñales de parámetro de cada uno de los intervalos de tiempo consecutivos,

- estando además la unidad (401) de decorrelador adaptada para generar para cada intervalo de tiempo consecutivo y cada subseñal digital compuesta a partir de dichas subseñales digitales compuestas una versión decorrelacionada de dicha subseñal digital compuesta,

- estando además la unidad (403) de matrizado adaptada para generar para cada intervalo de tiempo consecutivo a partir de cada subseñal digital compuesta y su versión decorrelacionada de la misma en dicho intervalo, una réplica de una subseñal para cada una de la primera y segunda componentes de señal de audio digital,

- siendo una subseñal de la primera componente de señal de audio digital en dicho intervalo de tiempo una combinación lineal de una subseñal digital compuesta correspondiente en dicho intervalo de tiempo y la versión decorrelacionada de la subseñal digital compuesta correspondiente en dicho intervalo de tiempo, que usa coeficientes multiplicadores que dependen de la subseñal de parámetro para dicho intervalo de tiempo,

- siendo una subseñal de la segunda componente de señal de audio digital en dicho intervalo de tiempo una combinación lineal de una subseñal digital compuesta correspondiente en dicho intervalo de tiempo y la versión decorrelacionada de la subseñal digital compuesta correspondiente en dicho intervalo de tiempo, que usa coeficientes multiplicadores que dependen de la subseñal de parámetro para dicho intervalo de tiempo.