ES2275098T3

ES2275098T3 - Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales.

Info

Publication number: ES2275098T3
Application number: ES03736761T
Authority: ES
Inventors: Michael Mead Truman; Grant Allen Davidson; Matthew Conrad c/o Dolby Laboratories FELLERS; Mark Stuart c/o Dolby Laboratories VINTON; Matthew Aubrey Watson; Charles Quito c/o Dolby Laboratories ROBINSON
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-06-17
Filing date: 2003-05-30
Publication date: 2007-06-01
Anticipated expiration: 2023-05-30
Also published as: EP2207170B1; PL372104A1; SG2014005300A; KR100986153B1; DE60310716T2; US7337118B2; EP2207170A1; DE60310716T8; CA2736060C; DE60332833D1; KR20050010950A; IL216069A0; CA2489441A1; CA2736055C; JP2012078866A; CA2736046A1; HK1141624A1; CA2736065C; IL165650A; CA2489441C

Abstract

Un método para generar información de audio, en que el método comprende: recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tenga uno o más componentes espectrales que representen contenido espectral de una señal de audio; identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificadas por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero; generar componentes espectrales sintetizados que correspondan a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que sean escalados de acuerdo con una envolvente de escalación igual o menor que el umbral; generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero correspondientes en la señal de subbanda particular; y generar la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.

Description

Sistema de codificación de audio que utiliza el llenado de agujeros espectrales.

Campo técnico

El presente invento se refiere en general a sistemas de codificación de audio, y se refiere más concretamente a la mejora de la calidad percibida de las señales de audio obtenidas de sistemas de codificación de audio.

Antecedentes en la técnica

Los sistemas de codificación de audio se usan para codificar una señal de audio en una señal codificada que es adecuada para transmisión o almacenamiento, y recibir o recuperar luego subsiguientemente la señal codificada y descodificarla para obtener una versión de la señal de audio original para su reproducción. Los sistemas de codificación de audio perceptuales tratan de codificar una señal de audio en una señal codificada que tiene unos requisitos más bajos de capacidad de información que la señal de audio original, y luego, subsiguientemente, descodificar la señal codificada para proporcionar una salida que sea perceptualmente indiferenciable de la señal de audio original. Un ejemplo de un sistema de codificación de audio perceptual se ha descrito en el documento A52 del Advanced Television Standards Committee (ATSC)/1994), al que se denomina como el Dolby AC-3. Otro ejemplo se ha descrito en la publicación de J. AES titulada ISO/IEC MPEG-2 Advanced Audio Coding, Vol 45, Nº 10, Octubre, 1997, págs. 789-814, y al cual se le denomina como de Advanced Audio Coding (AAC) (Codificación de Audio Avanzada). En estos dos sistemas de codificación, así como en otros muchos sistemas de codificación perceptuales, se aplica una batería de filtros de análisis a una señal de audio para obtener componentes espectrales que están dispuestos en grupos o bandas de frecuencia. Las anchuras de las bandas varían típicamente, y son usualmente proporcionales a las anchuras de las denominadas bandas críticas del sistema auditivo humano.

Los sistemas de codificación perceptuales pueden usarse para reducir los requisitos de capacidad de información de una señal de audio, al tiempo que preservan una medida subjetiva o percibida de la calidad de audio, de modo que pueda conducirse una presentación codificada de la señal de audio a través de un canal de comunicación usando una menor anchura de banda, o almacenarla en un medio de registro usando menos espacio. Los requisitos de capacidad de información se reducen mediante la cuantificación de los componentes espectrales. La cuantificación inyecta ruido en la señal cuantificada, pero los sistemas de codificación de audio perceptuales usan en general modelos psicoacústicos en un intento de controlar la amplitud del ruido de cuantificación, de modo que éste se enmascare o se haga inaudible mediante los componentes espectrales en la señal.

Los componentes espectrales dentro de una banda dada son frecuentemente cuantificados con la misma resolución de cuantificación, y se una un modelo psicoacústico para determinar la mayor resolución de cuantificación mínima, o la mínima relación de señal a ruido (SNR) que es posible sin inyectar un nivel audible de ruido de cuantificación. Esta técnica da resultados bastante buenos para bandas estrechas, pero no da tan buenos resultados para bandas más anchas cuando los requisitos de capacidad de información obliguen al sistema de codificación a usar una resolución de cuantificación relativamente basta. Los componentes espectrales de mayor valor en una banda ancha son usualmente cuantificados a un valor distinto de cero que tiene la deseada resolución pero los componentes espectrales de valores más pequeños en la banda son cuantificados a cero si tienen una magnitud que sea menor que el nivel mínimo de cuantificación. El número de componentes espectrales en una banda que son cuantificados a cero aumenta en general a medida que se aumenta la anchura de la banda, a medida que se aumenta la diferencia entre los valores mayor y menor de los componentes espectrales dentro de la banda, y a medida que se aumenta el nivel de cuantificación
mínimo.

Desafortunadamente, la existencia de muchos componentes espectrales cuantificados a cero (QTZ) en una señal codificada, puede degradar la calidad percibida de la señal de audio, incluso aunque se mantenga el ruido de cuantificación resultante lo suficientemente bajo como para que sea considerado inaudible o psicoacústicamente enmascarado por los componentes espectrales de la señal. Esta degradación tiene al menos tres causas. La primera causa es el hecho de que el ruido de cuantificación puede no ser inaudible, porque el nivel de enmascaramiento psicoacústico sea menor que el que se haya predicho por el modelo psicoacústico usado para determinar la resolución de la cuantificación. Una segunda causa es el hecho de que la creación de muchos componentes espectrales de QTZ puede reducir de forma audible la energía o la potencia de la señal de audio descodificada comparada con la energía o potencia de la señal de audio original. Una tercera causa es relevante para procesos de codificación en los que se usen baterías de filtros de distorsión-cancelación, tales como el Filtro de Espejo de Cuadratura (QMF), o una Transformación de Coseno Discreta (DCT) modificada particular, y una Transformación de Coseno Discreta Inversa (IDCT) modificada, conocidas como transformaciones de Time-Domain Aliasing Cancellation (TDAC), que se han descrito en la publicación de Princen y otros titulada "Subband(Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation" ICASSO, 1987 Conf. Proc., Mayo 1987, págs 2161-64.

En los sistemas de codificación en los que se usan baterías de filtros de distorsión-cancelación tales como el QMF o las transformaciones de TDAC, se usa una batería de filtros de análisis en el proceso de codificación que introduce distorsión o componentes espúrios en la señal codificada, pero se usa una batería de filtros de síntesis en el proceso de descodificación que, en teoría al menos, puede cancelar la distorsión. En la práctica, sin embargo, la capacidad de la batería de filtros de síntesis para cancelar la distorsión puede resultar significativamente perjudicada si los valores de uno o más componentes espectrales se cambian significativamente en el proceso de codificación. Por esta razón, los componentes espectrales de QTZ pueden degradar la calidad percibida de una señal de audio descodificada, incluso aunque el ruido de codificación sea inaudible debido a que los cambios en los valores de los componentes espectrales pueden perjudicar la capacidad de la batería de filtros de síntesis para cancelar la distorsión introducida por la batería de filtros de análisis.

Las técnicas usadas en los sistemas de codificación conocidos han proporcionado soluciones parciales para estos problemas. Los sistemas de codificación de transformaciones Dolby AC-3 y AAC, por ejemplo, tienen una cierta capacidad de generar una señal de salida a partir de una señal codificada que retiene el nivel de la señal de la señal de audio original, sustituyendo para ello el ruido para ciertos componentes espectrales QTZ en el descodificador. En estos dos sistemas, el codificador proporciona en la señal codificada una indicación de la potencia para una banda de frecuencia y el descodificador hace uso de esa indicación de potencia para sustituir un nivel apropiado de ruido por los componentes espectrales QTZ en la banda de frecuencia. Un codificador Dolby AC-3 proporciona una primera estimación del espectro de potencia a corto plazo que puede ser usada para generar un nivel apropiado de ruido. Cuando se ponen a cero todos los componentes espectrales de una banda, el descodificador llena la banda de ruido que tiene aproximadamente la misma potencia que la indicada en la primera estimación del espectro de potencia a corto plazo. El sistema de codificación AAC hace uso de una técnica denominada de Sustitución de Ruido Perceptual (PNS) que explícitamente transmite la potencia para una banda dada. Un ejemplo de esta técnica se ha descrito en el documento DE 19509149. El descodificador hace uso de esa información para añadir ruido para compensar esa potencia. Ambos sistemas añaden ruido únicamente en aquellas bandas que no tengan ningún componente espectral distinto de cero.

Desafortunadamente, estos sistemas no contribuyen a preservar los niveles de potencia en las bandas que contienen una mezcla de componentes QTZ y de componentes espectrales distintos de cero. En la Tabla 1, se muestra una banda hipotética de componentes espectrales para una señal de audio original, una representación codificada de tres bits de cada componente espectral que está ensamblado en una señal codificada, y los correspondientes componentes espectrales obtenidos por un descodificador a partir de la señal codificada. La banda cuantificada en la señal codificada tiene una combinación de componentes QTZ y de componentes espectrales distintos de cero.

\vskip1.000000\baselineskip

TABLA 1

Componentes de la	Componentes	Componentes
Señal Originales	Cuantificados	Descuantificados

10101010	101	10100000
00000000	000	00000000
00000010	000	00000000
00000001	000	00000000

00011111	000	00000000
00010101	000	00000000
00001111	000	00000000
01010101	010	01000000
11110000	111	11100000

La primera columna de la Tabla muestra un conjunto de números binarios sin signo que representan componentes espectrales en la señal de audio original que están agrupados en una sola banda. La segunda columna muestra una representación de los componentes espectrales cuantificados a 3 bits. Para este ejemplo, la parte de cada componente espectral que está por debajo de la resolución de 3 bits ha sido retirada por truncado. Los componentes espectrales cuantificados son transmitidos al descodificador y subsiguientemente descuantificados mediante la adición de bits cero para restituir la longitud original del componente espectral. Los componentes espectrales descuantificados se han representado en la tercera columna. Puesto que una mayor parte de los componentes espectrales han sido cuantificados a cero, la banda de componentes espectrales descuantificados contiene menos energía que la banda de componentes espectrales originales, y esa energía se concentra en unos pocos componentes espectrales distintos de cero. Esta reducción de la energía puede degradar la calidad percibida de la señal descodificada, como se ha explicado en lo que antecede.

Descripción del invento

Un objeto del presente invento es mejorar la calidad percibida de las señales de audio obtenidas de sistemas de codificación de audio evitando para ello, o reduciendo, la degradación relacionada con los componentes espectrales cuantificados a valor cero.

En un aspecto del presente invento, definido en las reivindicaciones independientes 1, 16 y 31, se proporciona información de audio recibiendo para ello una señal de entrada y obteniendo de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio; identificando dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero; generando componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral; generando un conjunto modificado de señales de subbanda, sustituyendo para ello los componentes espectrales utilizados por los correspondientes componentes espectrales de valor cero en la señal de subbanda particular; y generando la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.

En otro aspecto del presente invento, definido en las reivindicaciones independientes 12, 27 y 42, se proporciona una señal de salida, preferiblemente una señal de salida codificada, generando para ello un conjunto de señales de subbanda que cada una tiene uno más componentes espectrales que representan el contenido espectral de una señal de audio mediante la cuantificación de la información que se obtiene aplicando una batería de filtros de análisis a la información de audio; identificando dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tengan un valor distinto de cero y son cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el que una pluralidad de componentes espectrales tienen un valor cero; derivando información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos por los componentes espectrales que tienen valor cero en un receptor que genera información de audio en respuesta a la señal de salida; y generando la señal de salida mediante el ensamblaje de la información de control de escalación y la información que representa el conjunto de señales de subbanda.

Las varias características del presente invento, y sus realizaciones preferidas, pueden comprenderse mejor haciendo referencia al estudio que sigue y a los dibujos que se acompañan, en los cuales los números de referencia que son iguales refieren a los mismos elementos en las diversas figuras. Los contenidos del estudio que sigue y los dibujos se exponen como ejemplos únicamente, y no deberán entenderse como que representan limitaciones del alcance del presente invento, definido por las reivindicaciones que se acompañan.

Breve descripción de los dibujos

La Fig. 1a es un diagrama bloque esquemático de un codificador de audio.

La Fig. 1b es un diagrama bloque esquemático de un descodificador de audio.

Las Figs. 2a-2c son ilustraciones gráficas de funciones de cuantificación.

La Fig. 3 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética.

La Fig. 4 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con algunos componentes espectrales puestos a cero.

La Fig. 5 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados sustituidos en vez de componentes espectrales de valor cero.

La Fig. 6 es una ilustración esquemática gráfica de una respuesta de frecuencia hipotética parta un filtro de una batería de filtros de análisis.

La Fig. 7 es una ilustración esquemática gráfica de una envolvente de escalación que se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6.

La Fig. 8 es una ilustración esquemática gráfica de las envolventes de escalación derivadas de la salida de un filtro adaptable.

La Fig. 9 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6.

La Fig. 10 es una ilustración esquemática gráfica de umbrales de enmascaramiento psicoacústico hipotéticos.

La Fig. 11 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a los umbrales de enmascaramiento psicoacústico.

La Fig. 12 es una ilustración esquemática gráfica de una señal de subbanda hipotética.

La Fig. 13 es una ilustración esquemática gráfica de una señal de subbanda hipotética con algunos componentes espectrales puestos a cero.

La Fig. 14 es una ilustración esquemática gráfica de un umbral de enmascaramiento psicoacústico temporal hipotético.

La Fig. 15 es una ilustración esquemática gráfica de una señal de subbanda hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a los umbrales de enmascaramiento psicoacústico temporal.

La Fig. 16 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados mediante réplica espectral.

La Fig. 17 es un diagrama bloque esquemático de un aparato que puede ser usado para la puesta en práctica de varios aspectos del presente invento en un codificador o en un descodificador.

Modos de puesta en práctica del invento A. Generalidades

Varios aspectos del presente invento pueden ser incorporados en una gran diversidad de métodos y dispositivos para procesado de señales, incluyendo los dispositivos como los ilustrados en las Figs. 1a y 1b. Algunos aspectos pueden ponerse en práctica mediante el procesado realizado en solamente un método o dispositivo de descodificación. Para otros aspectos se requiere un procesado cooperativo efectuado con métodos o dispositivos tanto de codificación como de descodificación. En lo que sigue se hace una descripción de los procesos que pueden ser usados para poner en práctica estos diversos aspectos del presente invento, a continuación de una visión general de los dispositivos típicos que pueden usarse para realizar esos procesos.

1. Codificador

En la Fig. 1a se ha ilustrado una forma de ejecución de un codificador de audio de banda partida, en el cual la batería de filtros de análisis 12 recibe por la línea 11 información de audio que representa una señal de audio y, en respuesta, proporciona información digital que representa subbandas de frecuencia de la señal de audio. La información digital en cada una de las subbandas de frecuencia se cuantifica mediante un respectivo cuantificador 14, 15, 16, y se hace pasar al codificador 17. El codificador 17 genera una representación codificada de la información cuantificada, la cual es hecha pasar al realizador de formatos 18. En la forma de ejecución particular representada en la figura, las funciones de cuantificación en los cuantificadores 14, 15, 16 están adaptadas en respuesta a la información de control de cuantificación recibida del modelo 13, el cual genera la información de control de cuantificación en respuesta a la información de audio recibida por la línea 11. El realizador de formatos 18 ensambla la representación codificada de la información cuantificada y la información de control de cuantificación en una señal de salida adecuada para transmisión o almacenamiento, y pasa la señal de salida a lo largo de la línea 19.

En muchas aplicaciones de audio se usan funciones de cuantificación lineal q(x) tal como la función de cuantificación asimétrica de huella media de 3 bits ilustrada en la Fig. 2a. Sin embargo, para el presente invento no es importante ninguna forma particular de cuantificación. En las Figs. 2b y 2c se han ilustrado ejemplos de otras dos funciones q(x) que pueden usarse. En cada uno de estos ejemplos, la función de cuantificación q(x) proporciona un valor de salida igual a cero para cualquier valor de entrada x en el intervalo desde el valor en el punto 30 hasta el valor en el punto 31. En muchas aplicaciones, los dos valores en los puntos 30, 31 son de igual magnitud y de signos opuestos. Sin embargo, esto no es necesario, como se ha ilustrado en la Fig. 2b. Para facilitar el estudio, a un valor x que esté dentro del intervalo de valores de entrada cuantificados a cero (QTZ) mediante una función de cuantificación particular q(x), se le denomina como que es menor que el nivel de cuantificación mínimo de esa función de cuantificación.

En esta descripción, los términos tales como "codificador" y "codificación" no están destinados a implicar ningún tipo particular de procesado de la información. Por ejemplo, la codificación se usa frecuentemente para reducir los requisitos de capacidad de información; sin embargo, estos términos, en esta descripción, no se refieren necesariamente a ese tipo de procesado. El codificador 17 puede realizar esencialmente cualquier tipo de procesado que se desee. En una forma de ejecución, la información codificada se codifica en grupos de números escalados que tienen un factor de escalación común. En el sistema de codificación Dolby AC-3, por ejemplo, los componentes espectrales codificados son dispuestos en grupos o bandas de números de coma flotante, en donde los números de cada banda comparten un exponente de coma flotante. En el sistema de codificación AAC, se usa codificación de entropía tal como la codificación de Huffman. En otra forma de ejecución, se elimina el codificador 17 y se ensambla directamente la información codificada en la señal de salida. Para el presente invento no es importante ningún tipo particular de codificación.

El modelo 13 puede realizar esencialmente cualquier tipo de procesado que se pueda desear. Un ejemplo es un proceso en el que se aplica un modelo psicoacústico a información de audio para estimar los efectos de enmascaramiento psicoacústico de los diferentes componentes espectrales en la señal de audio. Son posibles muchas variantes. Por ejemplo, el modelo 13 puede generar la información de control de cuantificación en respuesta a la información de la subbanda de frecuencia disponible en la salida de la batería de filtros de análisis 12, en vez, o además, de la información de audio disponible en la entrada de la batería de filtros. Como otro ejemplo, se puede eliminar el modelo 13 y los cuantificadores 14, 15, 16 pueden usar funciones de cuantificación que no estén adaptadas. Para el presente invento no es importante ningún proceso particular de modelización.

2. Descodificador

En la Fig. 1b se ha ilustrado una forma de ejecución de un descodificador de audio de banda partida en el cual el realizador de formatos 22 recibe por la línea 21 una señal d entrada que conduce una representación codificada de información digital cuantificada que representa subbandas de frecuencia de una señal de audio. El realizador de formatos 22 obtiene la representación codificada de la señal de entrada y la pasa al descodificador 23. El descodificador 23 descodifica la representación codificada en subbandas de frecuencia de información codificada. La información digital codificada en cada una de las subbandas de frecuencia es descuantificada mediante un descuantificador 25, 26, 27 respectivo, y hecha pasar a la batería de filtros de síntesis 28, la cual genera a lo largo de la línea 29 información de audio que representa una señal de audio. En la forma de ejecución particular representada en la figura, las funciones de descuantificación en los descuantificadores 25, 26, 27 son adaptadas en respuesta a la información de control de cuantificación recibida del modelo 24, el cual genera la información de control de cuantificación en respuesta a la información de control obtenida por el realizador de formatos 22 desde la señal de entrada.

En esta descripción, los términos tales como "descodificador" y "descodificación" no están destinados a implicar ningún tipo particular de procesado de la información., El descodificador 23 puede realizar esencialmente cualquier tipo de procesado que se necesite o se desee. En una forma de ejecución que es la inversa a la de un proceso de codificación descrito en lo que antecede, la información cuantificada en grupos de números de coma flotante que tienen exponentes compartidos es descodificada en componentes cuantificados individuales que no comparten exponentes. En otra forma de ejecución, se usa la descodificación de entropía tal como la descodificación de Huffman. En otra forma de ejecución, se elimina el descodificador 23 y se obtiene la información cuantificada directamente por el realizador de formatos 22. Para el presente invento no es importante ningún tipo particular de descodificación.

El modelo 24 puede realizar esencialmente cualquier tipo de procesado que se pueda desear. Un ejemplo es un proceso en el que se aplica un modelo psicoacústico a información obtenida de la señal de entrada, para estimar los efectos de enmascaramiento psicoacústico de los diferentes componentes espectrales en una señal de audio. Como otro ejemplo, se elimina el modelo 24 y los descuantificadores 25, 26, 27 pueden usar funciones de cuantificación que no estén adaptadas, o bien pueden usar funciones de cuantificación que estén adaptadas en respuesta a la información de control de cuantificación obtenida directamente de la señal de entrada por el desformateador 22. Para el presente invento no es importante ningún proceso particular.

3. Baterías de filtros

Los dispositivos ilustrados en las Figs. 1a y 1b presentan componentes para tres subbandas de frecuencia. En una aplicación típica se usan muchas subbandas, pero solamente se han representado tres de ellas para mayor claridad de la ilustración. En principio, para el presente invento no es importante ningún número particular.

Las baterías de filtros de análisis y de síntesis pueden materializarse esencialmente de cualquier modo que se desee, incluyendo una amplia gana de tecnologías de filtro digital, transformaciones de bloque y transformaciones de onda pequeña. En un sistema de codificación de audio que tiene un codificador y un descodificador como los antes considerados, la batería de filtros de análisis 12 se materializa mediante la DCT modificada por la TDAC y la batería de filtros de síntesis 28 se materializa mediante la IDCT modificada por la TDAC antes mencionada; sin embargo, en principio no es importante ninguna forma particular de realizarla.

Las baterías de filtros de análisis que se materializan mediante transformaciones de bloque dividen un bloque o intervalo de una señal de entrada en un conjunto de coeficientes de transformación que representan el contenido espectral de ese intervalo de señal. Un grupo de uno o más coeficientes de transformación adyacentes representa el contenido espectral dentro de una subbanda de frecuencia particular que tiene una anchura de banda proporcional al número de coeficientes del grupo.

Las baterías de filtros de análisis que se materializan mediante algún tipo de filtro digital, tal como el de un filtro polifásico, en vez de una transformación de bloque, dividen una señal de entrada en un conjunto de señales de subbanda. Cada señal de subbanda es una representación en base de tiempo del contenido espectral de la señal de entrada dentro de una subbanda de frecuencia particular. Preferiblemente, la señal de subbanda se diezma de modo que cada señal de subbanda tiene una anchura de banda que es la proporcional al número de muestras en la señal de subbanda para un intervalo de tiempo unidad.

El estudio que sigue se refiere más en particular a formas de ejecución en las que se usan transformaciones de bloque como la antes mencionada transformación de TDAC. En este estudio, la denominación de "señal de subbanda" se refiere a grupos de uno más coeficientes de transformación adyacentes y la denominación de "componentes espectrales" se refiere a los coeficientes de la transformación Sin embargo, los principios del presente invento pueden aplicarse a otros tipos de formas de ejecución, de modo que la denominación de "señal de subbanda" puede entenderse, en general, en el sentido de que se refiere a una señal en base de tiempo que representa un contenido espectral de una subbanda de frecuencia particular de una señal, y la denominación de "componentes espectrales" puede entenderse, en general, de modo que se refiere a muestras de una señal de subbanda en base de tiempo.

4. Forma de ejecución

Varios aspectos del presente invento pueden ponerse en práctica en una gran diversidad de formas, incluyendo software en un sistema de ordenador para fines generales, o en algún otro aparato que incluya componentes más especializados, tales como un procesador de señales digital (DSP) acoplado por circuitos a componentes similares a los que se hallan en un sistema de ordenador para fines generales. La Fig. 17 es un diagrama bloque del dispositivo 70 que puede usarse para poner en práctica varios aspectos del presente invento en un codificador de audio o en un descodificador de audio DSP 72. El DSP 72 proporciona recursos de cálculo. La RAM 73 es la memoria de acceso directo (RAM) al sistema usada por el DSP 72 para el procesado de la señal. La ROM 74 representa una forma de almacenamiento persistente, tal como la memoria de solo lectura (ROM) para almacenar programas que se necesiten para hacer funcionar el dispositivo 70 y para poner en práctica varios aspectos del presente invento. El control de I/O (entrada/salida) representa circuitos de interfaz para recibir y transmitir señales por medio de canales de comunicación 76, 77. Los convertidores de analógico a digital y los convertidores de digital a analógico pueden incluirse en el control 75 de I/O según se desee, para recibir y/o transmitir señales de audio analógicas. En la realización representada, todos los componentes principales del sistema se conectan al bus 71, el cual puede representar más de un bus físico; sin embargo, para poner en práctica el presente invento no se requiere una arquitectura de bus.

En realizaciones ejecutadas en un sistema de ordenador para fines generales, pueden incluirse componentes adicionales para interfaz con dispositivos tales como un teclado o un ratón, y una presentación, y para controlar un dispositivo de almacenamiento que tenga un medio de almacenamiento tal como una cinta o un disco magnéticos, o bien un medio óptico. El medio de almacenamiento puede usarse para registrar programas de instrucciones para operar sistemas, utilidades y aplicaciones, y puede incluir realizaciones de programas que materialicen varios aspectos del presente invento.

Las funciones requeridas para la puesta en práctica de varios aspectos del presente invento pueden ejecutarse mediante componentes que estén materializados en una gran diversidad de formas, incluyendo componentes lógicos discretos, uno o más ASICs, y/o procesadores controlados por programa. La manera en que esos componentes sean materializados no es importante para el presente invento.

Las formas de ejecución del software del presente invento pueden conducirse mediante una diversidad de medios legibles por máquinas, tales como líneas de comunicaciones de banda de base o moduladas a través del espectro, incluyendo desde frecuencias supersónicas a ultravioletas, o bien medios de almacenamiento incluyendo aquellos que conducen información que usan esencialmente cualquier tecnología de registro magnético u óptico, incluyendo la cinta magnética, el disco magnético, y el disco óptico. Varios aspectos pueden también materializarse en varios componentes del sistema de ordenador 70 mediante circuitos de procesado, tales como los ASICs, los circuitos integrados parea fines generales, los microprocesadores controlados por programas realizados en diversas formas de ROM o de RAM, y por otras técnicas.

B. Descodificador

Varios aspectos del presente invento pueden ponerse en práctica en un descodificador que no requiere información ni procesado alguno especial de un codificador. Estos aspectos se describen en esta sección de la descripción. Otros aspectos que requieren información o procesado especial de un codificador se describen en la sección siguiente.

1. Agujeros Espectrales

La Fig. 3 es una ilustración gráfica del espectro de un intervalo de una señal de audio hipotética que ha de ser codificada mediante un sistema de codificación de transformación El espectro 41 representa una envolvente de la magnitud de los coeficientes de transformación o de los componentes espectrales. Durante el proceso de codificación, todos los componentes espectrales que tengan una magnitud menor que el umbral 40 son cuantificados a cero. Si se usa una función de cuantificación tal como la función q(x) ilustrada en la Fig. 2a, el umbral 40 corresponde a los niveles de cuantificación mínimos 30, 31. El umbral 40 se ha representado con un valor uniforme a través de toda la gama de frecuencias, por conveniencia para la ilustración. Esto no es típico en muchos sistemas de codificación. En los sistemas de codificación de audio perceptual que cuantifican uniformemente los componentes espectrales dentro de cada señal de subbanda, por ejemplo, el umbral 40 es uniforme dentro de cada subbanda de frecuencia, pero varía de una subbanda a otra. En tras formas de ejecución, el umbral 40 puede también variar dentro de una subbanda de frecuencia dada.

La Fig. 4 es una ilustración gráfica del espectro de la señal de audio hipotética que se ha representado mediante los componentes espectrales cuantificados. El espectro 42 representa una envolvente de la magnitud de los componentes espectrales que han sido cuantificados. El espectro representado en esta figura, así como en otras figuras, no presenta los efectos de la cuantificación de los componentes espectrales que tienen magnitudes iguales o mayores que el umbral 40. La diferencia entre los componentes espectrales QTZ en la señal cuantificada y los correspondientes componentes espectrales en la señal original, se han representado con rayados. Estas áreas rayadas representan "agujeros espectrales" en la representación cuantificada, que han de ser llenados con componentes espectrales sintetizados.

En una forma de ejecución del presente invento, un descodificador recibe una señal de entrada que conduce una representación codificada de señales de subbanda codificadas, tales como la representada en la Fig. 4. El descodificador descodifica la representación codificada e identifica esas señales de subbanda en las cuales uno o más componentes espectrales tienen valores distintos de cero, y una pluralidad de componentes espectrales que tienen un valor cero. Preferiblemente, las extensiones de las frecuencias de todas las señales de subbanda son o bien conocidas a priori para el descodificador, o bien están definidas por información de control en la señal de entrada. El descodificador genera los componentes espectrales sintetizados que corresponden a los componentes espectrales de valor cero, usando un proceso tal como los que se describen en lo que sigue. Los componentes sintetizados son escalados de acuerdo con la envolvente de escalación que es igual o menor que el umbral 40, y los componentes espectrales sintetizados escalados son sustituidos en vez de los componentes espectrales de valor cero en la señal de subbanda. El descodificador no requiere información alguna del codificador que indique explícitamente el nivel del umbral 40 si son conocidos los niveles de cuantificación mínimos 30, 31 de la función de cuantificación q(x) usada para cuantificar los componentes espectrales.

2. Escalación

La envolvente de escalación puede establecerse en una gran diversidad de formas. En lo que sigue se describen algunas formas. Se puede usar más de una forma. Por ejemplo, se puede derivar una envolvente de escalación compuesta que sea igual al máximo de todas las envolventes obtenidas de múltiples formas, o bien usar diferentes formas para establecer límites superior y/o inferior para la envolvente de escalación. Las formas pueden estar adaptadas o ser seleccionadas en respuesta a características de la señal codificada, y pueden ser adaptadas o ser seleccionadas como función de la frecuencia.

\vskip1.000000\baselineskip

a) Envolvente Uniforme

Una forma es adecuada para descodificadores en sistemas de codificación de transformación de audio y en sistemas que usen otras formas de ejecución de baterías de filtros. Esta forma establece una envolvente de escalación uniforme estableciendo para ello la misma igual al umbral 40. Un ejemplo de tal envolvente de escalación se ha representado en la Fig. 5, en la cual se hace uso de áreas rayadas para ilustrar los agujeros espectrales que están llenos de componentes espectrales sintetizados. El espectro 43 representa una envolvente de los componentes espectrales de una señal de audio con agujeros espectrales llenos con componentes espectrales sintetizados. Los límites superiores de las áreas rayadas representadas en esta figura, así como en las últimas figuras, no representan los niveles reales de los propios componentes espectrales sintetizados, sino que simplemente representan una envolvente de escalación para los componentes sintetizados. Los componentes sintetizados que se usan para llenar los agujeros espectrales tienen niveles espectrales que no exceden de la envolvente de escalación.

\vskip1.000000\baselineskip

b) Fuga Espectral

Una segunda forma de establecer una envolvente de escalación es adecuada para descodificadores en los sistemas de codificación de audio que usen transformaciones de bloque, pero está basada en principios que pueden ser aplicados a otros tipos de materializaciones de baterías de filtros. Esta forma proporciona una envolvente de escalación no uniforme que varía de acuerdo con las características de la fuga espectral de la respuesta de frecuencia del filtro prototipo en una transformación de bloque.

La respuesta 50 representada en la Fig. 6 es una ilustración gráfica de una respuesta de frecuencia hipotética para un filtro prototipo de transformación que presenta fuga espectral entre coeficientes. La respuesta incluye un lóbulo principal, usualmente designado como el paso de banda del filtro prototipo, y un cierto número de lóbulos laterales adyacentes al lóbulo principal que disminuyen de nivel para las frecuencias que se van alejando del centro del paso de banda. Los lóbulos laterales representan energía espectral que se fuga del paso de banda a bandas de frecuencia adyacentes. El régimen con el que disminuye el nivel de esos lóbulos laterales se designa como el régimen de descenso de la fuga espectral.

Las características de la fuga espectral de un filtro imponen limitaciones en el aislamiento espectral entre subbandas de frecuencia adyacentes. Si un filtro tiene una gran cantidad de fuga espectral, los niveles espectrales en las subbandas adyacentes no pueden diferir tanto como pueden hacerlo para filtros con más bajas cantidades de fuga espectral. La envolvente 51 representada en la Fig. 7 se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6. Los componentes espectrales sinterizados pueden ser escalados hasta tal envolvente, o bien, como alternativa, se puede usar esa envolvente como un límite inferior para una envolvente de escalación que se deriva mediante otras técnicas.

El espectro 44 en la Fig. 9 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados que son escalados de acuerdo con una envolvente que se aproxima al descenso de la fuga espectral. La envolvente de escalación para agujeros espectrales que están limitados a cada lado por energía espectral, es un compuesto de dos envolventes individuales, una para cada lado. El compuesto se forma tomando la mayor de las dos envolventes individuales.

\vskip1.000000\baselineskip

c) Filtro

Una tercera forma de establecer una envolvente de escalación es también adecuada para descodificadores en sistemas de codificación de audio que usen transformaciones de bloque, pero está también basada en principios que pueden ser aplicados a otros tipos de materializaciones de baterías de filtros. Esta forma proporciona una envolvente de escalación no uniforme que se deriva de la salida de un filtro en el dominio de la frecuencia que se aplica a coeficientes de transformación en el dominio de la frecuencia. El filtro puede ser un filtro de predicción, un filtro de paso bajo, o esencialmente cualquier otro tipo de filtro que proporcione la envolvente de escalación deseada. Esta forma requiere usualmente más recursos de cálculo que los que se requieren para las dos formas descritas en lo que antecede, pero la misma permite que la envolvente de escalación varíe en función de la frecuencia.

La Fig. 8 es una ilustración gráfica de dos envolventes de escalación derivadas de la salida de un filtro en el dominio de la frecuencia adaptable. Por ejemplo, la envolvente de escalación 52 podría usarse para llenar agujeros espectrales en señales o en partes de señales que se considere que sean más similares a tonos, y la envolvente de escalación 53 podría usarse para llenar agujeros espectrales en señales o en partes de señales que se considere que sean más similares a ruidos. Las propiedades de tonos y ruidos de una señal pueden ser valoradas de una diversidad de formas. Algunas de esas formas se analizan en lo que sigue. Alternativamente, podría usarse la envolvente de escalación 52 para llenar agujeros espectrales a frecuencias más bajas en donde las señales de audio son frecuentemente más similares a tonos y la envolventes de escalación 53 podría usarse para llenar agujeros espectrales a frecuencias más altas, en donde las señales de audio son frecuentemente más similares a ruidos.

\vskip1.000000\baselineskip

d) Enmascaramiento Perceptual

Una cuarta forma de establecer una envolvente de escalación es aplicable a descodificadores en sistemas de codificación de audio que materialicen baterías de filtros con transformaciones de bloque y otros tipos de filtros. Esta forma proporciona una envolvente de escalación no uniforme que varía de acuerdo con los efectos de enmascaramiento psicoacústico estimados.

En la Fig. 10 se han ilustrado dos umbrales de enmascaramiento psicoacústico hipotético. El umbral 61 representa los efectos del enmascaramiento psicoacústico de un componente espectral de más baja frecuencia 60, y el umbral 64 representa los efectos de enmascaramiento psicoacústico de un componente espectral de más alta frecuencia 63. Los umbrales de enmascaramiento tales como estos pueden usarse para derivar la forma de la envolvente de escalación.

El espectro 45 de la Fig. 11 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados de sustitución que son escalados de acuerdo con las envolventes que están basadas en el enmascaramiento psicoacústico. En el ejemplo ilustrado, la envolvente de escalación en el agujero espectral de más baja frecuencia se deriva de la parte inferior del umbral de enmascaramiento 61. La envolvente de escalación en el agujero espectral central es un compuesto de la parte superior del umbral de enmascaramiento 61 y la parte inferior del umbral de enmascaramiento 64. La envolvente de escalación en el agujero espectral de más alta frecuencia se deriva de la parte superior del umbral de enmascaramiento 64.

\vskip1.000000\baselineskip

e) Tonalidad

Una quinta forma de establecer una envolvente de escalación se basa en una valoración de la tonalidad de la señal de audio entera o de alguna parte de la señal, tal como para una o más señales de subbanda. La tonalidad puede valorarse de una serie de formas, incluido el cálculo de una Medida de la Planeidad Espectral (MPE) la cual es un cociente normalizado de la media aritmética de las muestras de señal dividida por la media geométrica de las muestras de señal. Un valor próximo a uno indica que una señal es muy similar a un ruido, y un valor próximo a cero indica una señal que es muy similar a un tono. La MPE puede usarse directamente para adaptar la envolvente de escalación. Cuando la MPE es igual a cero, no se usa ningún componente sintetizado para llenar un agujero espectral. Cuando la MPE es igual a uno, se usa el nivel máximo permitido de componentes sintetizados para llenar un agujero espectral. En general, sin embargo, un codificador es capaz de calcular una mejor MPE, debido a que tiene acceso a la señal de audio original entera, con anterioridad a la codificación. Es probable que un descodificador no calcule una MPE exacta debido a la presencia de componentes espectrales QTZ.

También un descodificador puede valorar la tonalidad analizando para ello la disposición o la distribución de los componentes espectrales de valor distinto de cero y los de valor cero. En una forma de ejecución, se considera que una señal es más similar a un tono que más similar a un ruido si series de componentes espectrales de valor cero están distribuidos entre unos pocos componentes de valor distinto de cero grande, debido a que esa disposición implica una estructura de picos espectrales.

En todavía otra forma de ejecución, un descodificador aplica un filtro de predicción a una o más señales de subbanda y determina la ganancia de predicción. Se considera que una señal es más similar a un tono a medida que se aumenta la ganancia de la predicción.

\newpage

f) Escalación Temporal

La Fig. 12 es una ilustración gráfica de una señal de subbanda hipotética que ha de ser codificada. La línea 46 representa una envolvente temporal de la magnitud de los componentes espectrales. Esta señal de subbanda puede estar compuesta de un componente espectral común, o coeficiente de transformación, en una secuencia de bloques obtenidos de una batería de filtros de análisis materializada mediante una transformación de bloque, o bien puede ser una señal de subbanda obtenida de otro tipo de batería de filtros de análisis materializada mediante un filtro digital distinto a una transformación de bloque, tal como un QMF. Durante el proceso de codificación, todos los componentes espectrales que tengan una magnitud menor que el umbral 40 son cuantificados a cero. El umbral 40 se ha representado con un valor uniforme a través de todo el intervalo de tiempo, por conveniencia para la ilustración. Esto no es típico en muchos sistemas de codificación que usan baterías de filtros materializadas mediante transformaciones de bloque.

La Fig. 13 es una ilustración gráfica de la señal de subbanda hipotética que está representada por componentes espectrales cuantificados. La línea 47 representa una envolvente temporal de la magnitud de los componentes espectrales que han sido cuantificados. La línea representada en esta figura, así como en otras figuras, no presenta los efectos de la cuantificación de los componentes espectrales que tienen magnitudes iguales o mayores que el umbral 40. La diferencia entre los componentes espectrales QTZ en la señal cuantificada y los componentes espectrales correspondientes en la señal original, se ha representado mediante un rayado. El área rayada representa un agujero espectral dentro de un intervalo de tiempo, que ha de ser llenado de componentes espectrales sintetizados.

En una forma de ejecución del presente invento, un descodificador recibe una señal de entrada que conduce a una representación codificada de señales de subbanda cuantificadas, tales como la representada en la Fig. 13. El descodificador descodifica la representación codificada e identifica esas señales de subbanda en las cuales una pluralidad de componentes espectrales tienen un valor cero, y van precedidas y/o seguidas de componentes espectrales que tienen valores distintos de cero. El descodificador genera componentes espectrales sintetizados que corresponden a los componentes espectrales de valor cero usando un proceso tal como los que se describen en lo que sigue. Los componentes sintetizados son escalados de acuerdo con una envolvente de escalación. Preferiblemente, la envolvente de escalación tiene en cuenta las características de enmascaramiento temporal del sistema auditivo humano.

En la Fig. 14 se ha ilustrado un umbral de enmascaramiento psicoacústico temporal hipotético. El umbral 68 representa los efectos de enmascaramiento psicoacústico de un componente espectral 67. La parte del umbral a la izquierda del componente espectral 67 representa características de enmascaramiento pretemporal, o bien del enmascaramiento que precede a la ocurrencia del componente espectral. La parte del umbral a la derecha del componente espectral 67 representa características de enmascaramiento post-temporal, o bien del enmascaramiento que sigue a la ocurrencia del componente espectral. Los efectos del post-enmascaramiento tienen en general una duración mucho más larga que la duración de los efectos del pre-enmascaramiento. Un umbral de enmascaramiento temporal tal como ese puede usarse para derivar una forma temporal de la envolvente de escalación.

La línea 48 de la Fig. 15 es una ilustración gráfica de una señal de subbanda hipotética que sustituye los componentes espectrales sintetizados que son escalados de acuerdo con las envolventes que están basadas en los efectos de enmascaramiento psicoacústico temporal. En el ejemplo representado, la envolvente de escalación es un compuesto de dos envolventes individuales. La envolvente individual para la parte de más baja frecuencia del agujero espectral se deriva de la parte de post-enmascaramiento del umbral 68. La envolvente individual para la parte de más alta frecuencia del agujero espectral se deriva de la parte de pre-enmascaramiento del umbral 68.

3. Generación de Componentes Sintetizados

Los componentes espectrales sintetizados pueden ser generados de una diversidad de formas. En lo que sigue se describen dos formas. Pueden usarse múltiples formas. Por ejemplo, se pueden seleccionar formas diferentes en respuesta a las características de la señal codificada, o bien como una función de la frecuencia.

Según una primera forma, se genera una señal similar a un ruido. Esencialmente, se puede usar cualquiera de entre una gran diversidad de formas para generar señales de pseudo-ruido.

En una segunda forma se usa una técnica denominada de traslación espectral o de réplica espectral, que copia los componentes espectrales de una o más subbandas de frecuencia. Los componentes espectrales de más baja frecuencia son usualmente copiados para llenar los agujeros espectrales de más altas frecuencias, debido a que los componentes de más altas frecuencias están frecuentemente relacionados de alguna manera con los componentes de más bajas frecuencias. En principio, sin embargo, los componentes espectrales pueden ser copiados a frecuencias más altas o más bajas.

El espectro 49 de la Fig. 16 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados generados por réplica espectral. Una parte del pico espectral se replica hacia arriba y hacia abajo en frecuencia múltiples veces para llenar los agujeros espectrales a las frecuencias bajas y medias, respectivamente. Una parte de los componentes espectrales próximos al extremo alt0o del espectro se replican en frecuencia para llenar el agujero espectral en el extremo alto del espectro. En el ejemplo ilustrado, los componente replicados son escalados mediante una envolvente de escalación uniforme. Sin embargo, se puede usar esencialmente cualquier forma de envolvente de escalación.

C. Codificador

Los aspectos del presente invento que se han descrito en lo que antecede pueden ponerse en práctica en un descodificador sin que se requiera modificación alguna de los codificadores existentes. Estos aspectos pueden ser favorecidos si se modifica el codificador para proporcionar información de control adicional que, de lo contrario, no estaría disponible para el descodificador. La información de control adicional puede usarse para adaptar la forma en que se generan los componentes espectrales sintetizados y se escalan en el descodificador.

1. Información de Control

Un codificador puede proporcionar una diversidad de escalación de información de control, la cual puede usar un descodificador para adaptar la envolvente de escalación para componentes espectrales sintetizados. Cada uno de los ejemplos que se consideran en lo que sigue puede ser previsto para una señal entera y/o para subbandas de frecuencia de la señal.

Si una subbanda contiene componentes espectrales que están significativamente por debajo del nivel de cuantificación mínimo, el codificador puede proporcionar información al descodificador que indique esas condición. La información puede ser un tipo de índice que pueda usar un descodificador para seleccionar de entre dos o más niveles de escalación, o bien la información puede conducir una cierta medida del nivel espectral, tal como la potencia media o la potencia cuadrática media (RMS). El descodificador puede adaptar la envolvente de escalación en respuesta a esa información.

Como se ha explicado en lo que antecede, un descodificador puede adaptar la envolvente de escalación en respuesta a efectos de enmascaramiento psicoacústico estimados a partir de la propia señal codificada; sin embargo, es posible que el codificador proporcione una mejor estimación de esos efectos de enmascaramiento cuando el codificador tenga acceso a características de la señal que se hayan perdido por un proceso de codificación. Esto puede conseguirse haciendo que el modelo 13 proporcione información psicoacústica al realizador de formatos 18 que, por lo demás, no pueda obtenerse de la señal codificada. Usando este tipo de información, el descodificador es capaz de adaptar la envolvente de escalación para configurar los componentes espectrales sintetizados de acuerdo con uno o más criterios psicoacústicos.

La envolvente de escalación puede ser también adaptada en respuesta a una cierta valoración de las cualidades similares a ruidos o similares a tonos de una señal o de una señal de subbanda. Esta valoración puede hacerse de varias formas, por ya sea el codificador o ya sea el descodificador; sin embargo, un codificador es usualmente capaz de efectuar una mejor valoración. Los resultados de esa valoración pueden ensamblarse con la señal codificada. Una valoración es la MPE que se ha descrito en lo que antecede.

También puede usarse una indicación de la MPE por un descodificador para seleccionar cuál de los procesos se debe usar para generar componentes espectrales sintetizados. Si la MPE está próxima a uno, se puede usar la técnica de generación de ruido. Si la MPE está próxima a cero., se puede usar la técnica de réplica espectral.

Un codificador puede proporcionar una cierta indicación de la potencia para los componentes espectrales distintos de cero y los QTZ como una relación de esas dos potencias. El descodificador puede calcular la potencia de los componentes espectrales distintos de cero y usar luego esa relación u otra indicación para adaptar apropiadamente la envolvente de escalación.

2. Coeficientes Espectrales Cero

En el estudio que antecede se ha hecho a veces referencia a componentes espectrales de valor cero como componentes QTZ (Cuantificados a Cero), debido a que la cuantificación es una fuente común de componentes de valor cero en una señal codificada. Esto no es esencial. El valor de los componentes espectrales en una señal codificada puede establecerse en cero por esencialmente cualquier proceso. Por ejemplo, un codificador puede identificar uno o dos de los mayores componentes espectrales en cada señal de subbanda por encima de una frecuencia particular, y establecer todos los demás componentes espectrales de esas señales de subbanda en cero. Como alternativa, un codificador puede establecer en cero todos los componentes espectrales en ciertas subbandas que sean menores que un cierto umbral. Un descodificador que incorpore varios aspectos del presente invento, como se ha descrito en lo que antecede, es capaz de llenar los agujeros espectrales con independencia del proceso que sea el responsable de haberlos creado.

Claims

1. Un método para generar información de audio, en que el método comprende:

recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tenga uno o más componentes espectrales que representen contenido espectral de una señal de audio;

identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificadas por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero;

generar componentes espectrales sintetizados que correspondan a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que sean escalados de acuerdo con una envolvente de escalación igual o menor que el umbral;

generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero correspondientes en la señal de subbanda particular; y

generar la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.

2. El método de acuerdo con la reivindicación 1, en el que la envolvente de escalación es uniforme.

3. El método de acuerdo con la reivindicación 1 ó 2, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque que tiene fuga espectral entre componentes espectrales adyacentes, y la envolvente de escalación varía a un régimen sustancialmente igual a un régimen de descenso de la fuga espectral de la transformación de bloque.

4. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:

aplicar un filtro en el dominio de la frecuencia a uno o más componentes espectrales en el conjunto de señales de subbanda; y

derivar la envolvente de escalación de una salida del filtro en el dominio de la frecuencia.

5. El método de acuerdo con la reivindicación 4, que comprende variar la respuesta del filtro en el dominio de la frecuencia como función de la frecuencia.

6. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 5, que comprende:

obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda
y

adaptar la envolvente de escalación en respuesta a la medida de la tonalidad.

7. El método de acuerdo con la reivindicación 6, en el que se obtiene de la señal de entrada la medida de la tonalidad.

8. El método de acuerdo con la reivindicación 6, que comprende derivar la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.

9. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 8, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:

obtener de la señal de entrada una secuencia de conjuntos de señales de subbanda;

identificar una señal de subbanda común en la secuencia de conjuntos de señales de subbanda donde, para cada conjunto de la secuencia, uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero;

identificar un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes en la secuencia que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero;

escalar los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia, de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano;

generar una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor distinto de cero en los conjuntos; y

generar la información de audio aplicando para ello la batería de filtros de síntesis a la secuencia de conjuntos modificados de señales de subbanda.

10. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 9, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el método genera los componentes espectrales sintetizados mediante traslación espectral de otros componentes espectrales en el conjunto de señales de subbanda.

11. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 10, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.

12. Un método para generar una señal de salida, en que el método comprende:

generar un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan contenido espectral de una señal de audio, mediante la cuantificación de la información que se obtiene aplicando por la aplicación de una batería de filtros de análisis a información de audio;

identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero;

derivar información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos en vez de los componentes espectrales que tienen un valor cero en un receptor que genere información de audio en respuesta a la señal de salida; y

generar la señal de salida ensamblando para ello la información de control de escalación y la información que representa el conjunto de señales de subbanda.

13. El método de acuerdo con la reivindicación 12, que comprende:

obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda; y

derivar la información de control de escalación de la medida de la tonalidad.

14. El método de acuerdo con la reivindicación 12 ó 13, que comprende:

obtener un umbral de enmascaramiento psicoacústico estimado de la señal de audio representada por el conjunto de señales de subbanda; y

derivar la información de control de escalación del umbral de enmascaramiento psicoacústico estimado.

15. El método de acuerdo con una cualquiera de las reivindicaciones 12 a 14, que comprende:

obtener dos medidas de niveles espectrales para partes de la señal de audio representadas por los componentes espectrales de valor distinto de cero y de valor cero; y

derivar la información de control de escalación de las dos medidas de niveles espectrales.

16. Un aparato para generar información de audio, en que el aparato comprende:

un desformateador que recibe una señal de entrada y obtiene de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan contenido espectral de una señal de audio;

un descodificador acoplado al desformateador que identifica dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero, que genera componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor distinto de cero en la señal de subbanda particular y son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral, y que genera un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales de valor cero en la señal de subbanda particular; y

una batería de filtros de síntesis acoplada al descodificador que genera la información de audio en respuesta al conjunto modificado de señales de subbanda.

17. El aparato de acuerdo con la reivindicación 16, en el que la envolvente de escalación es uniforme.

18. El aparato de acuerdo con la reivindicación 16 ó 17, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque que tiene fuga espectral entre los componentes espectrales adyacentes y la envolvente de escalación varía a un régimen sustancialmente igual al régimen de descenso de la fuga espectral de la transformación de bloque.

19. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 18, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el descodificador:

aplica un filtro en el dominio de la frecuencia a uno o más componentes espectrales del conjunto de señales de subbanda; y

deriva la envolvente de escalación de una salida del filtro en el dominio de la frecuencia.

20. El aparato de acuerdo con la reivindicación 19, en el que el descodificador varía la respuesta del filtro en el dominio de la frecuencia, como función de la frecuencia.

21. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 20, en el que el descodificador:

obtiene una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda; y

adapta la envolvente de escalación en respuesta a la medida de la tonalidad.

22. El aparato de acuerdo con la reivindicación 21, que obtiene la medida de la tonalidad de la señal de entrada.

23. El aparato de acuerdo con la reivindicación 21, en el que el descodificador deriva la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.

24. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 23, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y:

el desformateador obtiene una secuencia de conjuntos de señales de subbanda de la señal de entrada:

el descodificador identifica una señal de subbanda común en la secuencia de conjuntos de señales de subbanda donde, por cada conjunto de la secuencia, uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero, identifica un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes en la secuencia, que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero, escala los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero, de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano; y genera una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor cero en los conjuntos; y

la batería de filtros de síntesis genera la información de audio en respuesta a la secuencia de conjuntos modificados de señales de subbanda.

25. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 24, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el descodificador genera los componentes espectrales sintetizados mediante traslación espectral de otros componentes espectrales en el conjunto de señales de subbanda.

26. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 25, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.

27. Un aparato para generar una señal de salida, en el que la secuencia comprende:

una batería de filtros de análisis que genera, en respuesta a la información de audio un conjunto de señales de subbanda que cada uno tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio;

cuantificadores acoplados a la batería de filtros de análisis que cuantifican los componentes espectrales;

un codificador acoplado a los cuantificadores que identifica dentro del conjunto se de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero, deriva la información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos en vez de los componentes espectrales que tienen un valor cero en un receptor que genera información de audio en respuesta a la señal de salida; y

un realizador de formatos acoplado al codificador que genera la señal de salida, ensamblando para ello la información de control de escalación y la información que representa el conjunto de señales de subbanda.

28. El aparato de acuerdo con la reivindicación 27, que:

obtiene una medida de la tonalidad de la señal d audio representada por el conjunto de señales de subbanda; y

deriva la información de control de la escalación de la medida de la tonalidad.

29. El aparato de acuerdo con la reivindicación 27 ó 28, que comprende un componente de modelización que:

obtiene un umbral de enmascaramiento psicoacústico estimado de la señal de audio representada por el conjunto de señales de subbanda, y

deriva la información de control de escalación del umbral de enmascaramiento psicoacústico estimado.

30. El aparato de acuerdo con una cualquiera de las reivindicaciones 27 a 29, que:

obtiene dos medidas de niveles espectrales para partes de la señal de audio representada por los componentes espectrales de de valor distinto de cero y de valor cero; y

deriva la información de control de la escalación de las dos medidas de los niveles espectrales.

31. Un medio que conduce un programa de instrucciones y que es legible por un dispositivo para ejecutar el programa de instrucciones para poner en práctica un método para generar información de audio, en que el método comprende:

recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio;

identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero;

generar componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral;

generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero en la señal de subbanda particular; y

generar la información de audio aplicando para ello una batería de filtros de síntesis al conjunto modificado de señales de subbanda.

32. El medio de acuerdo con la reivindicación 31, en el que la envolvente de escalación es uniforme.

33. El medio de acuerdo con la reivindicación 31 ó 32, en el que la batería de filtros de síntesis se materializa por una transformación de bloque que tiene fuga espectral entre componentes espectrales adyacentes y la envolvente de escalación varía a un régimen sustancialmente igual a un régimen de descenso de la fuga espectral de la transformación de bloque.

34. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 33, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:

35. El medio de acuerdo con la reivindicación 34, en el que el método comprende variar la respuesta del filtro en el dominio de la frecuencia como función de la frecuencia.

36. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 35, en el que el método comprende:

adaptar la envolvente de escalación en respuesta a la medida de la tonalidad.

37. El medio de acuerdo con la reivindicación 36, en el que el método obtiene la medida de la tonalidad de la señal de entrada.

38. El medio de acuerdo con la reivindicación 36, en el que el método comprende derivar la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.

39. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 38, en el que la batería de filtros de síntesis se materializa por una transformación de bloque y el método comprende:

obtener una secuencia de conjuntos de señales de subbanda de la señal de entrada;

identificar una señal de subbanda común en la secuencia de conjuntos de señales de subbanda, donde por cada conjunto de la secuencia uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero;

identificar un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes de la secuencia, que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero;

escalar los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia de acuerdo con las características del enmascaramiento temporal del sistema auditivo humano;

generar una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor cero en los conjun-
tos; y

40. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 39, en el que la batería de filtros de síntesis se materializa por una transformación de bloque y el método genera los componentes espectrales sintetizados mediante transformación especial de otros componentes espectrales del conjunto de señales de subbanda.

41. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 40, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.

42. Un medio que conduce un programa de instrucciones y es legible por un dispositivo para ejecutar el programa de instrucciones para poner en práctica un método para generar una señal de salida, en que el método comprende:

generar un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio mediante la cuantificación de la información que se obtiene por aplicación de una batería de filtros de análisis a información de audio;

identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tengan un valor distinto de cero y sean cuantificados por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tengan un valor cero;

generar la señal de salida mediante el ensamblaje de la información de control de escalación y la información que representa el conjunto de señales de subbanda.

\newpage

43. El medio de acuerdo con la reivindicación 42, en el que el método comprende:

derivar la información de control de escalación de la medida de la tonalidad.

44. El medio de acuerdo con la reivindicación 42 ó 43, en el que el método comprende:

45. El medio de acuerdo con una cualquiera de las reivindicaciones 42 a 44, en el que el método comprende:

obtener dos medidas de niveles espectrales para partes de la señal de audio representada por los componentes espectrales de valor distinto de cero y de valor cero; y