ES2223591T3

ES2223591T3 - Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.

Info

Publication number: ES2223591T3
Application number: ES00968271T
Authority: ES
Inventors: Lars Gustaf Liljeryd; Kristofer Kjorling; Per Ekstrand; Fredrik Henn
Original assignee: Coding Technologies Sweden AB
Current assignee: Coding Technologies Sweden AB
Priority date: 1999-10-01
Filing date: 2000-09-29
Publication date: 2005-03-01
Anticipated expiration: 2020-09-29
Also published as: CN1377499A; US7191121B2; DE60012198T2; EP1216474B1; JP2003529787A; JP4628921B2; JP4334526B2; RU2236046C2; CN1172293C; HK1049401B; BR0014642A; EP1216474A1; HK1049401A1; DE60012198D1; JP4035631B2; US7181389B2; WO2001026095A1; ATE271250T1; US20060031064A1; US6978236B1

Abstract

Método de codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada representable en determinadas regiones de frecuencia por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, siendo la representación fina de envolvente espectral una señal residual, que comprende las siguientes etapas: realizar (603) un análisis estadístico de la señal de entrada, caracterizado por, en base a una consecuencia del análisis estadístico, generar (604, 605, 606) datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas, con una resolución de tiempo variable o con una resolución de frecuencia variable, donde la resolución de tiempo o la resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo; generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, los datos sobre la representación basta de envolvente espectral, y la señal de control, en el que la señal de entrada codificada no incluye la señal residual.

Description

Codificación eficaz de envolvente espectral utilizando una resolución tiempo/frecuencia variable.

Campo técnico

La presente invención se refiere a un nuevo método y aparato para la codificación eficaz de envolventes espectrales en sistemas de codificación de audio. El método puede ser utilizado tanto para la codificación de audio natural como para la codificación de habla, y resulta especialmente adecuado para codificadores que utilizan SBR [WO 98/57436] u otros métodos de reconstrucción de alta frecuencia.

Antecedentes de la invención

Las técnicas de codificación de una fuente de audio pueden dividirse en dos clases: codificación natural de audio y codificación de habla. La codificación natural de audio se utiliza habitualmente para señales musicales o arbitrarias a velocidades de bit medias, y por lo general ofrecen un amplio ancho de banda de audio. Los codificadores de habla están normalmente limitados a la reproducción del habla, pero pueden ser utilizados, por otra parte, a velocidades de bit muy bajas, aunque con un bajo ancho de banda de audio. En ambas clases, la señal se separa por lo general en dos componentes importantes de señal, la "envolvente espectral" y la señal "residual" correspondiente. A través de la descripción que sigue, el término "envolvente espectral" se refiere a una distribución espectral tosca de la señal en sentido general, por ejemplo coeficientes de filtro en un codificador basado en predicción lineal o un conjunto de valores medios de tiempo-frecuencia de muestras de sub-banda en un codificador de sub-banda. El término "residual" se refiere a la distribución espectral fina en un sentido general, por ejemplo la señal de error LPC o las muestras de sub-banda normalizadas con la utilización de los valores medios de tiempo-frecuencia anteriores. "Datos de envolvente" hace referencia a la envolvente espectral cuantificada y codificada, y "datos residuales" al residual cuantificado y codificado. A velocidades de bit medias y altas, los datos residuales constituyen la parte principal de la corriente de bits. A velocidades de bit muy bajas, los datos de envolvente constituyen la parte mayor de la corriente de bits. Por ello, es importante representar la envolvente espectral de forma compacta cuando se utilizan velocidades de bit más bajas.

Los codificadores de audio de la técnica anterior y la mayor parte de los codificadores de habla, utilizan segmentos de tiempo de longitud constante, relativamente cortos, para la generación de datos de envolvente, con el fin de conseguir una buena resolución temporal. Sin embargo, esto impide la utilización óptima del enmascaramiento de dominio de frecuencia conocido a partir de la psico-acústica. Para mejorar la ganancia de codificación con el uso de bandas de filtro estrechas de fuerte pendiente, y conseguir además una buena resolución temporal durante los pasos transitorios, los codificadores de audio de módem emplean conmutación de ventana adaptativa, es decir, conmutan longitudes de segmentos de tiempo que dependen de la estadística de las señales. De manera clara, una utilización mínima de los segmentos cortos es un requisito previo para una ganancia de codificación máxima. Desafortunadamente, las ventanas de transición largas se hacen necesarias para alterar las longitudes de los segmentos, limitando la flexibilidad de conmutación.

La envolvente espectral es una función de dos variables: tiempo y frecuencia. La codificación puede realizarse aprovechando la redundancia en cualquier dirección del plano tiempo/frecuencia. En general, la codificación de la envolvente espectral se lleva a cabo en la dirección de la frecuencia, utilizando codificación delta (DPCM) o cuantificación vectorial (VQ).

Sumario de la invención

La presente invención proporciona un nuevo método y un aparato para la codificación de envolvente espectral según se expone en las reivindicaciones 1 y 17, y un aparato para la decodificación de envolvente espectral y un método de decodificación de envolvente espectral según se expone en las reivindicaciones 18 y 19. El esquema de codificación está diseñado de modo que cumple con los requisitos espectrales del sistema, en el que la señal residual, dentro de ciertas regiones de frecuencia, está excluida de los datos transmitidos. Ejemplos son sistemas que emplean codificadores HFR (Reconstrucción de Alta Frecuencia), en particular SBR (Replicación de Banda Espectral), o paramétricos. En una implementación, se obtiene un muestreo no uniforme de tiempo y frecuencia de la envolvente espectral agrupando adaptativamente muestras de sub-banda a partir de un banco de filtro de tamaño fijo, en bandas de frecuencia y en segmentos de tiempo, cada uno de los cuales genera una muestra de envolvente. Esto permite una selección instantánea de resolución arbitraria de tiempo y frecuencia dentro de los límites del banco de filtro. El sistema falla respecto a segmentos de tiempo largos y resolución de alta frecuencia. En las proximidades de los transitorios, se utilizan segmentos de tiempo más cortos, con lo que pueden utilizarse escalones de frecuencia más grandes con el fin de mantener el tamaño de los datos dentro de límites. Con el fin de optimizar los beneficios del muestreo no uniforme en el tiempo, se utiliza una longitud variable de los gránulos o tramas de la corriente de bits. El método de resolución de tiempo/frecuencia variable es también aplicable a la codificación de envolvente basado en la predicción. En vez de agrupar las muestras de sub-banda, se generan coeficientes predictivos para los segmentos de tiempo de longitudes variables según el sistema.

La invención describe dos esquemas para la señalización de la resolución de tiempo y frecuencia utilizada. El primer esquema permite una selección arbitraria, mediante señalización explícita de las resoluciones de frecuencia y de los límites de los segmentos de tiempo. Con el fin de reducir la sobrecarga de la señalización, se utilizan cuatro clases de gránulos, que ofrecen diferentes relaciones de coste/flexibilidad. El segundo esquema aprovecha la propiedad de un material de programa típico, consistente en que los transitorios están separados al menos por un tiempo T_{\text{nmín}} con el fin de reducir el número de bits de control adicionales. Con ello, un detector de transitorio incluido en el codificador, que opera sobre un intervalo de tiempo T_{del} <= T_{\text{nmín}} igual a la longitud nominal del gránulo, determina la posición del inicio de un posible transitorio. La posición dentro del intervalo se codifica y se envía al decodificador. El codificador y el decodificador comparten normas que especifican la distribución de tiempo/frecuencia de las muestras de envolvente espectral, dada una cierta combinación de señales posteriores de control, que garantizan una decodificación no ambigua de los datos de envolvente.

La presente invención presenta un nuevo método eficaz para codificación de redundancia de factor de escala. Un impulso unitario en el dominio del tiempo, se transforma en una constante en el dominio de la frecuencia, y un impulso unitario en el dominio de la frecuencia, es decir, una sinusoide simple, corresponde a una señal de magnitud constante en el dominio del tiempo. De manera simplificada, sobre la base de un período corto, la señal muestra menos variaciones en un dominio que en el otro. De ahí que, utilizando predicción o codificación delta, se incrementa la eficacia de la codificación si la envolvente espectral se codifica tanto en la dirección del tiempo como de la frecuencia, dependiendo de las características de la señal.

Breve descripción de los dibujos

La presente invención va a ser descrita ahora por medio de ejemplos ilustrativos, no limitativos del alcance o espíritu de la invención, con referencia a los dibujos adjuntos, en los que:

Las figuras 1a-1b ilustran el muestreo uniforme, respectivamente no uniforme, en el tiempo de la envolvente espectral.

Las figuras 2\tilde{a}2b definen, e ilustran, el uso de cuatro clases de gránulos.

Las figuras 3\tilde{a}3b son dos ejemplos de gránulos, y de las señales de control correspondientes.

Las figuras 4\tilde{a}4c ilustran el sistema de señalización de posición.

La figura 5 ilustra la codificación delta conmutada de tiempo/frecuencia.

La figura 6 es un diagrama de bloques de un codificador que utiliza codificación de envolvente según la invención.

La figura 7 es un diagrama de bloques de un decodificador que utiliza codificación de envolvente según la invención.

Descripción de realizaciones preferidas

Las realizaciones descritas en lo que sigue, son simplemente ilustrativas de los principios de la presente invención en cuanto a codificación eficaz de envolvente. Se entiende que las modificaciones y variaciones de las disposiciones y detalles aquí descritos resultarán evidentes para otros expertos en la materia. Se pretende, por lo tanto, que esté limitada solamente por el alcance de las reivindicaciones de patente que siguen a continuación, y no por los detalles específicos presentados a título de descripción y explicación de las realizaciones que siguen.

Generación de Datos de Envolvente

La mayor parte de los codificadores de audio y de habla tienen en común que tanto los datos de envolvente como los datos residuales, son transmitidos y combinados durante la síntesis en el decodificador. Dos excepciones las constituyen los codificadores que emplean PNS ["Improving Audio Codecs by Noise Substitution", D. Schultz, JAES, vol. 44, núm. 7/8, 1996], y los codificadores que emplean SBR. En el caso del SBR, considerando la banda alta, solamente necesita ser transmitida la estructura espectral basta, puesto que se reconstruye una señal residual a partir de la banda baja. Esto pone demandas más altas sobre cómo generar datos de envolvente, en particular, debido a la falta de información de "tiempo" contenida en la señal residual original. Este problema va a ser demostrado ahora por medio de un ejemplo:

La figura 1 muestra la representación de tiempo/frecuencia de una señal musical, en la que los acordes sostenidos se combinan con transitorios agudos con contenido de alta frecuencia principalmente. En la banda baja, los acordes tienen una potencia alta y la potencia de los transitorios es baja, mientras que en la banda alta sucede lo contrario. Los datos de envolvente que se generan durante los intervalos de tiempo en los que están presentes los transitorios, están dominados por la alta potencia de transitorio intermitente. Con el proceso SBR en el decodificador, la envolvente espectral de la señal transportada, se estima mediante la utilización de la misma resolución instantánea de tiempo-/frecuencia que se utiliza para el análisis de la banda alta original. A continuación se realiza una ecualización de la señal transportada, en base a las diferencias entre las envolventes espectrales. Por ejemplo, los factores de amplificación en un banco de filtro de ajuste de envolvente, se calculan como la raíz cuadrada de los cocientes entre la potencia media de la señal original y la señal transportada. Para este tipo de señal, se presenta un problema: La señal transportada tiene la misma relación de potencia de "acorde-respecto-a-transitorio" que la banda baja. Las ganancias necesarias con vistas a ajustar los transitorios transportados hasta el nivel correcto, provocan así que los acordes sean amplificados en relación con el nivel de la banda alta original durante la duración completa de los datos de envolvente que contienen la energía transitoria. Estos fragmentos de acorde que momentáneamente son demasiado pesados, son percibidos como pre- y post- ecos respecto al transitorio, véase la figura 1a. Esta clase de distorsión será citada en lo que sigue como "ganancia inducida pre- y post- ecos". El fenómeno puede ser eliminado actualizando constantemente los datos de envolvente a una velocidad alta tal que se garantice que el tiempo entre un transitorio actualizado y uno localizado arbitrariamente sea lo suficientemente corto como para que no pueda ser resuelto por el oído humano. Sin embargo, este enfoque incrementaría drásticamente la cantidad de datos que han de ser transmitidos, y por lo tanto no es factible.

Por lo tanto, se presenta un nuevo esquema de generación de datos de envolvente. La solución consiste en mantener una baja velocidad de actualización durante los pasajes tonales, que forman las partes más importantes de un material típico de programa, y por medio de un detector de transitorio para localizar las posiciones de los transitorios y actualizar los datos de envolvente cerca de los flancos de ataque, véase la figura 1b. Esto elimina los pre-ecos inducidos por la ganancia. Con el fin de representar bien la caída de los transitorios, la velocidad de actualización se incrementa momentáneamente durante un intervalo de tiempo tras el inicio del transitorio. Esto elimina los post-ecos inducidos por la ganancia. La segmentación de tiempo durante la caída, no es tan crucial como encontrar el comienzo del transitorio, como se explicará posteriormente. Con el fin de compensar los incrementos de tiempo más pequeños, se pueden utilizar incrementos de frecuencia más grandes durante el transitorio, manteniendo el tamaño de los datos dentro de sus límites. Un muestreo no uniforme en cuanto a tiempo y frecuencia, como se ha expuesto en lo que antecede, resulta aplicable a la codificación de envolvente en base tanto a un banco de filtro como a una predicción lineal. Se pueden utilizar diferentes órdenes predictivas para segmentos transitorios y casi-estacionarios (tonales).

En el caso de los codificadores basados en predicción, no se conocen en la técnica anterior esquemas elaborados de conmutación de resolución de tiempo/frecuencia. Sin embargo, algunos codificadores basados en banco de filtro emplean resolución variable de tiempo/frecuencia. Esto se consigue habitualmente mediante conmutación del tamaño de banco de filtro. Un cambio de tamaño de este tipo puede no tener lugar de forma inmediata, requiriéndose las denominadas ventanas de transición, y de este modo los puntos de actualización no pueden ser elegidos libremente. Cuando se utiliza SBR o cualquier otro método HFR, el objetivo es diferente, se puede diseñar un banco de filtro que cumpla tanto una resolución temporal más alta como de frecuencia más alta, necesaria para extraer una representación de envolvente adecuada. De este modo, el muestreo no uniforme de tiempo y frecuencia de la envolvente espectral, puede ser obtenido mediante agrupamiento adaptativo de las muestras de sub-banda a partir de un banco de filtro de tamaño fijo, en "bandas de frecuencia" y en "segmentos de tiempo". A continuación se calcula una muestra de envolvente por banda y segmento. A través de la descripción que sigue, "resolución de frecuencia" se refiere a un conjunto específico de bandas de frecuencia, de coeficientes LPC o similares, utilizados en el cálculo de envolvente para un segmento de tiempo particular. En otras palabras, a partir de una perspectiva de codificación de envolvente, se puede obtener instantáneamente alta resolución de frecuencia o alta resolución de tiempo.

Desde un punto de vista sintáctico, todas las corrientes de bits de codificador-decodificador práctico, comprenden períodos de datos, de los que cada uno corresponde a un segmento de tiempo corto de la señal de entrada. El segmento de tiempo asociado a un período de datos de este tipo, se cita en lo que sigue como "gránulo". Los codificadores típicos utilizan gránulos de longitud fija. La presencia de límites de gránulo impone limitaciones al diseño de los segmentos de tiempo utilizados para la estimación de envolvente. El algoritmo que genera estos segmentos de tiempo puede establecer que se requiera un "límite" de segmento en una posición particular, y que los segmentos siguientes deban tener un longitud determinada. Sin embargo, si el límite de un gránulo cae dentro de este intervalo debido a gránulos de longitud fija, el segmento debe ser cortado en dos partes. Esto tiene dos implicaciones: En primer lugar, se incrementa el número de segmentos a codificar, incrementándose posiblemente la cantidad de datos a transmitir. En segundo lugar, los límites forzados pueden generar segmentos que sean demasiado cortos para cálculos fiables de potencia media. Para evitar estos defectos, la presente invención utiliza gránulos de longitud variable. Esto requiere un adelantamiento en el codificador, así como también una disposición extra en memoria intermedia en el decodificador.

Supóngase que el término "rejilla" indica los segmentos de tiempo y las resoluciones de frecuencia correspondientes que deben usarse para una señal particular, y "gnd local" indica la rejilla de un gránulo. De manera clara, la rejilla debe ser indicada al decodificador, para corregir la decodificación de las muestras de envolvente. Sin embargo, en aplicaciones de baja velocidad de bit, el número de bits de esta "señal de control" debe mantenerse en un mínimo. Se proponen en la presente invención dos esquemas de señalización. Antes de describirlos en detalle, se establece un "sistema de base" y algunos criterios de diseño.

Supóngase que el incremento de la cuantificación de tiempo para la envolvente espectral sea T_{q}. Estos incrementos pueden ser vistos como "sub-gránulos" que están agrupados según los segmentos de tiempo mencionados anteriormente. En el caso general, un gránulo comprende S sub-gránulos, donde S varía de gránulo a gránulo. El número de combinaciones posibles de segmentos dentro de un gránulo, en la gama de un segmento para el gránulo completo hasta S segmentos, viene dado por:

1

Con el fin de señalar estados C, se requieren ceil(ln_{2}(C)) = ceil(ln_{2}(2^{S})) = S bits, que corresponden a un bit por sub-gránulo. Una sub-división arbitraria del gránulo puede ser señalada mediante S-1 bits, que representan los sub-gránulos consecutivos, indicando si se encuentra presente o no el límite de un segmento delantero en el sub-gránulo correspondiente. (Los límites del primero y del último gránulos no están aquí señalados). Puesto que S es variable, debe ser señalada, y si este esquema se combina con un codificador-decodificador de banda baja de gránulo de longitud fija, la posición en relación con los gránulos de longitud constante deben ser también señalados. Las resoluciones de frecuencia de segmento pueden ser señaladas con bits de control asignados dinámicamente, por ejemplo un bit por segmento. De forma clara, tal método directo puede conducir a un número inaceptablemente alto de bits de señal de control.

Como se va a mostrar en lo que sigue, muchos de los estados descritos por la Ec. 1 no son muy probables, y generarían también cantidades demasiado grandes de datos de envolvente como para ser prácticos a velocidad de bit limitada.

El mínimo lapso de tiempo entre transitorios consecutivos en un material de programa musical, puede ser estimado de la forma siguiente: En notación musical, el "pulso" rítmico se describe mediante un compás expresado en forma de fracción A/B, en la que A indica el número de "golpes" por compás, y 1/B es el tipo de nota correspondiente a un golpe, por ejemplo 1/4 de nota, denominado normalmente como un cuarto de nota. Supóngase que t indica el tiempo en Golpes Por Minuto (BPM). El tiempo por nota de tipo 1/C viene dado por:

(Ec. 2)T_{n} = (60 / t)\text{*}(B / C)[s]

La mayor parte de las piezas musicales está dentro del intervalo 70-160 BPM, y en el compás 4/4 los patrones rítmicos más rápidos se forman, para la mayor parte de los casos prácticos, a partir de las notas 1/32 ó 32:nd. Esto genera un tiempo mínimo T_{\text{nmín}} = (60/160)*(4/32) = 47 ms. Por supuesto, se pueden presentar períodos de tiempo más cortos que éste, pero tales secuencias rápidas (> 21 eventos por segundo) tienen carácter de zumbido y no necesitan ser totalmente resueltas.

La resolución de tiempo necesaria T_{q} debe ser también establecida. En algunos casos, una señal transitoria tiene su energía principal en la banda alta que ha de ser reconstruida. Esto significa que la envolvente espectral codificada debe portar toda la información de "temporización". La precisión de temporización deseada determina así la resolución necesaria para la codificación de los flancos delanteros. T_{q} es mucho más pequeño que el período mínimo de nota T_{\text{nmín}} puesto que se pueden oír claramente pequeñas desviaciones de tiempo dentro del período. En la mayor parte de los casos, sin embargo, el transitorio tiene energía significativa en la banda baja. Los pre-ecos inducidos por la ganancia descritos anteriormente, deben caer dentro de lo que se denomina tiempo T_{m} de pre- o post- enmascaramiento del sistema auditivo humano, con el fin de que sean inaudibles. De ahí que T_{q} deba satisfacer dos condiciones:

(Ec. 3)T_{q} << T_{\text{nmín}}

(Ec. 4)T_{q} < T_{m}

Obviamente, T_{m} < T_{\text{nmín}} (en otro caso, las notas serían tan rápidas que no podrían ser resueltas), y según ["Modeling the Additivity of Nonsimultaneous Masking", Hearing Res., vol. 80, pp. 105-118 (1994)], T_{m} asciende a 10-20 ms. Puesto que T_{\text{nmín}} está en el intervalo de 50 ms, una selección razonable de T_{q} según la Ec. 3, da como resultado el hecho de que se cumpla también la segunda condición. Por supuesto, la precisión de la detección de transitorio en el codificador y la resolución de tiempo del banco de filtro de análisis/síntesis deben ser tomados también en consideración cuando se selecciona T_{q}.

El rastreo de los flancos de salida es menos crucial, por varias razones: En primer lugar, la posición fuera de la nota tiene un pequeño, o ningún, efecto sobre el ritmo percibido. En segundo lugar, la mayor parte de los instrumentos no presentan flancos traseros agudos, sino por el contrario una curva de caída suave, es decir, no existe un tiempo fuera de nota bien definido. En tercer lugar, el tiempo de enmascaramiento posterior o delantero es sustancialmente más largo que el tiempo de pre-enmascaramiento.

En resumen, se pueden realizar las simplificaciones que siguen con ningún, o muy poco, sacrificio de calidad para las señales prácticas:

1. Solamente la posición de inicio de transitorio necesita ser transmitida con la mayor precisión T_{q}.

2. Solamente los transitorios separados por T_{p} >> T_{q} necesitan ser resueltos totalmente en los datos de envolvente.

Con el fin de reducir la sobrecarga de señalización, ambos sistemas conforme a la presente invención emplean dos modos de muestreo de tiempo: el muestreo uniforme y el no uniforme en el tiempo. El modo uniforme se utiliza durante las fases casi-estacionarias, por lo que se utilizan segmentos de longitud fija, y se requiere poca señalización extra. En las proximidades de los transitorios, el sistema conmuta a un funcionamiento no uniforme y se utilizan gránulos de longitud variable, permitiendo una buena adaptación a la rejilla global ideal.

Sistema de señalización de clase

En el primer sistema, los gránulos se dividen en cuatro clases, y las señales de control se ajustan a las necesidades específicas de cada clase. Las clases están definidas en la figura 2a. La clase "FixFix" corresponde a gránulos convencionales de longitud constante. La clase "FixVar" tiene un límite móvil de parada, lo que hace que la longitud de gránulo varíe. La clase "VarFix" tiene un límite variable de inicio, mientras que el límite de parada es fijo. La última clase "VarVar" tiene límites variables por ambos extremos. Todos los límites variables pueden desviarse en -a/+b frente a las "posiciones nominales".

La figura 2b proporciona un ejemplo de una secuencia de gránulos. El sistema por defecto es de clase FixFix. Un detector de transitorio (o modelo psico-acústico) opera en una región de tiempo por delante del gránulo actual, según se ha representado en la figura. Cuando se detecta un transitorio, se utiliza un gránulo FixVar (el sistema conmuta de funcionamiento uniforme a no uniforme). Normalmente, este gránulo va seguido de un gránulo de clase VarFix, puesto que los transitorios están separados la mayor parte del tiempo por un número de gránulos para todas las selecciones prácticas de longitudes de gránulo. En caso de transitorios incluidos en series de bits consecutivas, se pueden utilizar series de bits de clase VarVar.

La figura 3a es un ejemplo de un par de clase FixVar - VarFix, y de la señal de control correspondiente. Se encuentra presente un transitorio, y el flanco delantero (cuantificado en T_{q}) se ha indicado con t. La primera parte de la corriente de bits está constituida por la señal de "clase". Puesto que se utilizan cuatro clases, se usan dos bits para esta señal. En caso de clases FixVar o VarFix, la señal siguiente describe la posición del límite variable, expresada como desviación de la posición nominal. Este límite se menciona como "límite absoluto". Los límites de segmento dentro de los gránulos se describen por medio de "límites relativos". El límite absoluto se utiliza como referencia, y los otros límites están descritos como distancias acumulativas a la referencia. El número de límites relativos es variable, y está señalado para el decodificador, después del límite absoluto. Un número cero significa que el gránulo comprende solamente un segmento de tiempo. Así, en caso de clase FixVar, las longitudes de segmento se indican en una secuencia inversa, moviéndose por fuera del límite absoluto en el extremo del gránulo. La longitud del primer segmento en un gránulo FixVar se deriva de los límites relativos y de la longitud total, y no está señalada. Las señales de límite relativo de clase VarFix están insertadas en la corriente de bits en una secuencia delantera, por lo que se excluye la longitud del último segmento. El orden de señal de corriente de bits es el mismo que el de la clase FixVar, es decir: [clase, límite abs., número de límites rel., límite 0 rel., límite 1 rel., ..., límite N-1 rel.]. En la figura, las señales se han representado en "texto claro" en vez de con las palabras reales de código binario enviadas en la corriente de bits.

La figura 3b muestra una codificación alternativa de la señal. El límite variable ofrece versatilidad cuando se agrupan los segmentos en una rejilla global dada. De este modo se puede realizar cualquier control de carga útil a este nivel, por ejemplo para ecualizar el número de bits por gránulo. Esto puede facilitar la operación del codificador de banda baja. Con un adelantamiento suficiente dado, se puede realizar una codificación multipaso, y se puede usar una combinación óptima de rejillas locales.

Con el fin de reducir el conjunto de símbolos para señalar los límites relativos, y con ello el número de bits por símbolo, esas longitudes pueden ser cuantificadas en un múltiplo entero (>1) de T_{q}, si el borde absoluto tiene la precisión T_{q}. En este caso, el límite absoluto sirve, junto con la función anterior, para alinear un grupo de límites alrededor del transitorio con la precisión T_{q}. En otras palabras, la más alta precisión se encuentra siempre disponible para codificar los flancos de delanteros de transitorio, y se utiliza una resolución "más basta" en el rastreo de la caída.

Las series de bits de clase VarVar utilizan una combinación de señalización FixVar y VarFix, por ejemplo intercalada: [clase, límite abs. izquierdo d:o derecho, núm. límite rel. izquierdo, d:o derecho, [límite rel. izquierdo 0, ..., límite rel. izquierdo N-1], [d:o derecho]]. Esta clase ofrece la mayor flexibilidad en cuanto a selección de rejilla local, a costa de una sobrecarga de señalización incrementada. Finalmente, la clase FixFix no requiere otras señales que la señal de clase en sí misma, en cuyo caso, por ejemplo, se utilizan dos segmentos (de igual longitud). Sin embargo, es posible añadir una señal que permita una selección dentro de un conjunto de rejillas predefinidas. Por ejemplo, se puede calcular la envolvente espectral para dos segmentos, y si los dos segmentos no difieren en más de una cantidad determinada, solamente se envía un conjunto de datos de envolvente.

Hasta ahora, solamente se ha descrito la segmentación en el tiempo. Por muchas razones, puede resultar deseable indicar al decodificador cuál de los límites corresponde con el límite delantero de transitorio. Esto puede realizarse enviando un "puntero" que apunte al límite relevante. La dirección de referencia puede seguir a la de los límites relativos, y un valor cero implica que no se encuentra presente ningún inicio de transitorio dentro del gránulo actual. Además, la resolución de frecuencia (número de estimaciones de potencia u orden de variable explicativa) utilizada para los segmentos individuales, debe estar también definida. Esto puede ser señalado explícitamente, como en el "sistema de base", o implícitamente, es decir, la resolución se acopla a las longitudes de segmento, y posiblemente a la posición del puntero.

Cuando se utilizan canales de transmisión propensos a errores, es importante evitar la propagación del error. En el sistema anterior, la rejilla local está completamente descrita por medio de la señal de control del gránulo correspondiente. De ahí que no existan dependencias entre tramas, en la señal de control. Esto significa que los límites de gránulo están "sobrecodificados", puesto que las intersecciones de gránulo están señaladas en ambos gránulos consecutivos. Esta redundancia puede ser utilizada para la detección de un error simple, si los límites no corresponden, un error de transmisión que se ha producido, y que pueda ser activada la ocultación de error.

Sistema de señalización de posición

El segundo sistema, citado en lo que sigue como "sistema de señalización de posición", está previsto para aplicaciones de velocidad de bit muy baja. Las normas de diseño establecidas previamente son utilizadas en mayor medida, con el fin de reducir incluso mucho más el número de bits de la señal de control. Según la presente invención, la información de inicio de transitorio puede ser utilizada para la indicación implícita de los bordes de segmento y resoluciones de frecuencia en las proximidades de los transitorios. Esto va a ser descrito ahora en lo que sigue, suponiendo un tamaño nominal de gránulo de N sub-gránulos, elegido según NT_{q} <= T_{\text{nmín}}, es decir, es posible que se produzca un máximo de un transitorio dentro de un gránulo, véase la figura 4a, donde N = 8. Se emplea un detector de transitorio, que opera sobre intervalos de longitud N, situado N/2 por delante del gránulo actual, figura 4b. Cuando se detecta un transitorio, se establece un indicador asociado a esta región. En el ejemplo, el detector de transitorio ha detectado un transitorio en el sub-gránulo 2 en el instante n-1, y un transitorio en el sub-gránulo 3 en el instante n. Estas posiciones, pos(n-1) y pos(n), así como también los correspondientes indicadores, indicador(n-1) e indicador (n), son utilizados como entrada al algoritmo de generación de rejilla, y la rejilla local correspondiente para el gránulo n podría ser como el representado en la figura 4c. Según se ve a partir de la figura, el sub-gránulo 3 del gránulo en el instante n-1 está incluido en la rejilla de tiempo/frecuencia del gránulo n. Las únicas señales alimentadas a la corriente de bits, son indicador(n) [1 bit], y pos(n) [ceil(ln_{2}(N)) bits]. El algoritmo de rejilla es también conocido por el decodificador, con lo que esas señales, junto con las señales correspondientes del gránulo n-1 anterior, son suficientes para una reconstrucción no ambigua de la rejilla utilizada por el decodificador. Cuando no se detecta ningún transitorio, la señal de posición es obsoleta, y puede ser sustituida, por ejemplo, por una señal de 1 bit, constatando si se utilizan uno o dos segmentos. Así, la operación en modo uniforme es idéntica a la del sistema de señalización de clase.

Este sistema puede ser considerado como una máquina de estado finito, donde las señales descritas anteriormente controlan las transiciones de un estado a otro, y los estados definen las rejillas locales. De forma clara, los estados pueden estar representados por tablas, almacenadas tanto en el codificador como en el decodificador. Puesto que las rejillas están codificadas de forma compacta, la capacidad de alterar adaptativamente la carga útil ha sido sacrificada. Una aproximación razonable consiste en mantener el tamaño de la matriz de datos de tiempo/frecuencia (por ejemplo, el número de estimaciones de potencia) aproximadamente constante. Suponiendo que el número de coeficientes o de factores de escala en un segmento de alta resolución sea dos veces el de un segmento de baja resolución, se puede intercambiar un segmento de alta resolución por dos segmentos de baja resolución.

Codificación de factor de escala conmutado de tiempo/frecuencia

Utilizando una transformación de tiempo en frecuencia, se puede demostrar que un impulso en el dominio del tiempo corresponde a un espectro plano en el dominio de la frecuencia, y un "impulso" en el dominio de la frecuencia, es decir, una sinusoide simple, corresponde con una señal casi-estacionaria en el dominio del tiempo. En otras palabras, una señal muestra normalmente más propiedades transitorias en un dominio que en el otro. En un espectrograma, es decir, una presentación de matriz de tiempo/frecuencia, esta propiedad resulta evidente, y puede ser utilizada ventajosamente cuando se codifican envolventes espectrales.

Una señal tonal estacionaria puede tener un espectro muy dispersado, no adecuado para codificación delta en la dirección de frecuencia, pero muy adecuado para codificación delta en la dirección de tiempo, y viceversa. Esto se ha representado en la figura 5. En la descripción que sigue, un vector de factores de escala calculados en el instante n_{0}, representa la envolvente espectral:

(Ec. 5)Y(k, n_{0}) = [a_{1}, a_{2}, a_{3}, ..., a_{k}, ..., a_{N}]

donde a_{1}, ..., a_{N} son valores de amplitud para frecuencias diferentes. Una práctica común consiste en codificar la diferencia entre valores adyacentes en la dirección de la frecuencia en un instante dado, lo que proporciona:

(Ec. 6)D(k, n_{0}) - [a_{2} - a_{1}, a_{3} - a_{2}, ..., a_{N} - a_{(N-1)}

Con el fin de poder decodificar todo esto, el valor inicial a_{1} necesita ser transmitido. Según se ha expuesto en lo que antecede, este esquema de codificación delta puede demostrar ser más ineficaz si el espectro contiene solamente unos pocos tonos estacionarios. Esto puede dar como resultado una codificación delta que produce una velocidad de bit más alta que la codificación PCM regular. Con el fin de tratar este problema, se propone un método de conmutación de tiempo/frecuencia, citado en lo que sigue como codificación T/F: Los factores de escala son cuantificados y codificados tanto en la dirección de tiempo como de frecuencia. Para ambos casos, se calcula el número de bits requeridos para un error de codificación dado, o se calcula el error para un número de bits dado. En base a todo esto, se elige la dirección de codificación que sea más ventajosa.

Como ejemplo, se puede utilizar codificación de redundancia DPCM y de Huffman. Se calculan dos vectores, D_{f} y D_{t}:

(Ec. 7)D_{f} (k, n_{0}) = [a_{2} - a_{1}, a_{3} - a_{2}, ..., a_{N} - a_{(N-1)}]

(Ec. 8)D_{t} (k, n_{0}) = [a_{1} (n_{0}) - a_{1} (n_{0} - 1), a_{2} (n_{0}) - a_{2} (n_{0} - 1), ..., a_{N} (n_{0}) - a_{N} (n_{0} - 1)

Las tablas de Huffman correspondientes, una para la dirección de frecuencia y una para la dirección de tiempo, establecen el número de bits requeridos para codificar los vectores. El vector codificado que requiere el menor número de bits a codificar, representa la dirección de codificación preferible. Las tablas pueden ser generadas inicialmente utilizando alguna distancia mínima como criterio de conmutación de tiempo/frecuencia.

Los valores iniciales son transmitidos siempre que la envolvente espectral sea codificada en la dirección de la frecuencia, pero no cuando se codifica en la dirección del tiempo desde que los mismos se encuentran disponibles en el decodificador, mediante la envolvente previa. El algoritmo propuesto requiere también información extra a ser transmitida, especialmente un indicador de tiempo/frecuencia que indique en qué dirección fue codificada la envolvente espectral. El algoritmo de T/F puede ser utilizado ventajosamente con varios esquemas diferentes de codificación de representación de envolvente/factor de escala, aparte del DPCM y de Huffman, tal como ADPCM, LPC y cuantificación vectorial. El algoritmo de T/F propuesto proporciona una reducción significativa de velocidad de bit para los datos de envolvente espectral.

Implementaciones prácticas

Un ejemplo de la parte de codificador de la invención, ha sido representado en la figura 6. La señal analógica de entrada se alimenta a un convertidor 601 A/D, que forma una señal digital. La señal digital de audio se alimenta a un codificador 602 perceptual de audio, donde se realiza la codificación de fuente. Adicionalmente, la señal digital se alimenta a un detector 603 de transitorio y a un banco 604 de filtro de análisis, que divide la señal en sus componentes espectrales (señales de sub-banda). El detector de transitorio podría operar sobre las señales de sub-banda a partir del banco de análisis, pero a efectos generales, aquí se supone que opera directamente sobre muestras del dominio digital de tiempo. El detector de transitorio divide la señal en gránulos y determina, según la invención, si los sub-gránulos del interior de los gránulos han de ser indicados como transitorio. Esta información se envía al bloque 605 de agrupamiento de envolvente, la cual especifica la rejilla de tiempo/frecuencia que ha de ser utilizada para el gránulo actual. Según la rejilla, el bloque combina las señales de sub-banda muestreadas uniformes, para formar los valores de envolvente muestreados no uniformes. Como ejemplo, estos valores pueden representar la densidad de potencia media de las muestras de sub-banda agrupadas. Los valores de envolvente son, junto con la información de agrupamiento, alimentados al bloque 606 codificador de envolvente. Este bloque decide en qué dirección (tiempo o frecuencia) codificar los valores de envolvente. Las señales resultantes, la salida desde el codificador de audio, la información de envolvente de banda ancha, y las señales de control, son alimentadas al multiplexor 607, formando una corriente de bits en serie que es transmitida o almacenada.

El lado de decodificador de la invención, ha sido representado en la figura 7, utilizando transposición SBR como ejemplo de generación de la señal residual que falta. El demultiplexor 701 restaura las señales y alimenta la parte apropiada a un decodificador 702 de audio, lo que produce una señal de audio digital de banda baja. La información de envolvente se alimenta desde el demultiplexor hasta el bloque 703 de decodificación de envolvente, lo que, mediante el uso de datos de control, determina en qué dirección están codificados los datos de la envolvente actual, y los decodifica. La señal de banda baja procedente del decodificador de audio es enrutada hasta el módulo 704 de transposición, lo que genera una señal replicada de banda alta a partir de la banda baja. La señal de banda alta se alimenta a un banco 706 de filtro de análisis, el cual es del mismo tipo que el del lado del codificador. Las señales de sub-banda son combinadas en la unidad 707 de agrupamiento de factor de escala. Con el uso de datos de control procedentes del demultiplexor, se adopta el mismo tipo de combinación y distribución de tiempo/frecuencia de las muestras de sub-banda que en el lado del codificador. La información de envolvente procedente del demultiplexor y la información procedente de la unidad de agrupamiento de factor de escala, se procesa en el módulo 708 de control de ganancia. El módulo calcula los factores de ganancia que han de ser aplicados a las muestras de sub-banda con anterioridad a la recombinación en el bloque 709 de banco de filtro de síntesis. La salida procedente del conjunto de filtro de síntesis es así una señal de audio de banda alta ajustada a la envolvente. Esta señal se añade a la salida procedente de la unidad 705 de retardo, la cual se alimenta con la señal de audio de banda baja. El retardo compensa el tiempo de procesamiento de la señal de banda alta. Finalmente, la señal digital de banda ancha obtenida, se convierte en una señal m analógica de audio en el convertidor 710 digital/analógico.

Claims

1. Método de codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada representable en determinadas regiones de frecuencia por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, siendo la representación fina de envolvente espectral una señal residual, que comprende las siguientes etapas:

realizar (603) un análisis estadístico de la señal de entrada,

caracterizado por,

en base a una consecuencia del análisis estadístico, generar (604, 605, 606) datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas, con una resolución de tiempo variable o con una resolución de frecuencia variable, donde la resolución de tiempo o la resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo;

generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y

generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, los datos sobre la representación basta de envolvente espectral, y la señal de control, en el que la señal de entrada codificada no incluye la señal residual.

2. Método según la reivindicación 1, en el que la etapa de generación (604, 605, 606) de los datos sobre la representación basta de la envolvente para las regiones de frecuencia determinadas, incluye la etapa de seleccionar una rejilla de resolución de tiempo/frecuencia que ha de ser utilizada para la representación basta de envolvente espectral, y en la que se genera la señal de control para describir la rejilla.

3. Método según la reivindicación 1 ó 2, en el que la etapa de generar la información basta de envolvente incluye las siguientes etapas:

obtener elementos de una representación de tiempo/frecuencia de la señal de entrada;

agrupar elementos en la representación de tiempo/frecuencia de la señal de entrada, y

calcular un factor de escala para cada grupo.

4. Método según la reivindicación 3, en el que la etapa de obtención incluye la etapa de utilizar un banco de filtro.

5. Método según la reivindicación 4, en el que el banco de filtro es de tamaño fijo.

6. Método según la reivindicación 1, en el que la etapa de generación de los datos sobre la representación basta de envolvente espectral para regiones de frecuencia determinadas, incluye la etapa de utilizar una variable explicativa lineal.

7. Método según la reivindicación 1, en el que la etapa de realizar un análisis estadístico incluye la etapa de emplear un detector de transitorio.

8. Método según la reivindicación 1, en el que la etapa de generar los datos sobre la representación basta de envolvente espectral incluye la etapa de conmutar una resolución instantánea desde una combinación por defecto de resolución de frecuencia más alta y resolución de tiempo inferior, hasta una combinación de resolución de frecuencia inferior y resolución de tiempo más alta al comienzo de un transitorio, con el fin de obtener la resolución de tiempo variable de la resolución de frecuencia variable.

9. Método según la reivindicación 1, en el que la etapa de generar la señal de control es operativa para generar la señal de control de tal modo que la señal de control describa posiciones en el interior de un gránulo de velocidad de actualización constante,

en el que la etapa de realizar el análisis estadístico es operativa para aplicar la velocidad de actualización constante, y

en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral es operativa para elegir una resolución instantánea en base a posiciones de transitorios en las señales de entrada dentro de los gránulos actuales y de los adyacentes, con el uso de normas disponibles para un codificador y un decodificador.

10. Método según la reivindicación 9, en el que la etapa de generar la señal de control es operativa para generar la señal de control de tal modo que quede señalada a lo sumo en una posición por gránulo.

11. Método según la reivindicación 1, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral es operativa para usar gránulos de longitud variable.

12. Método según la reivindicación 11, en el que se utilizan cuatro clases de gránulos, según los cuales la primera clase tiene límites de gránulo de posición fija, y longitud L,

la segunda clase tiene un límite inicial de posición fija, y un límite de parada de posición variable,

la tercera clase tiene un límite inicial de posición variable, y un límite de parada de posición fija,

la cuarta clase tiene límites inicial y de parada de posición variable, y

dichas posiciones fijas coinciden con posiciones de referencia, separadas por la distancia L, y

dichas posiciones variables pueden estar desviadas [-a, b] frente a dichas posiciones de referencia.

13. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto en la dirección del tiempo como de la frecuencia, en el que se determina la dirección momentáneamente más beneficiosa, y en el que la dirección más beneficiosa se elige en la etapa de codificación.

14. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datossobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto la dirección del tiempo como de la frecuencia, en el que se elige, para la etapa de codificación, una dirección que genera un menor error de codificación para un número dado de bits.

15. Método según la reivindicación 3, en el que la etapa de generar (604, 605, 606) datos sobre la representación basta de envolvente espectral comprende además la etapa de codificar los factores de escala tanto en la dirección de tiempo como de frecuencia, en el que se elige, para la etapa de codificación, la dirección que genera el menor número de bits para un error de codificación dado.

16. Método según la reivindicación 13, 14 ó 15, en el que la etapa de codificación incluye las etapas de emplear codificación sin pérdidas, en el que se utilizan tablas separadas para la dirección de tiempo y la dirección de frecuencia, en el que se utiliza un resultado de la codificación que usa las tablas, para la elección de la dirección para la codificación.

17. Aparato para codificación de envolvente espectral para una señal de entrada, teniendo la señal de entrada un ancho de banda, incluyendo el ancho de banda determinadas regiones de frecuencia, estando la señal de entrada representada por una versión codificada de fuente de la misma, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, siendo una envolvente espectral de la señal de entrada en las regiones de frecuencia determinadas representable por medio de una representación basta de envolvente espectral y una representación fina de envolvente espectral, teniendo la representación fina de envolvente espectral una señal residual, que comprende:

medios (603) para llevar a cabo un análisis estadístico de la señal de entrada,

caracterizado por:

medios para generar (604, 605, 606) datos, en base al resultado del análisis estadístico, sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, mediante muestreo de la envolvente espectral en las regiones de frecuencia determinadas con una resolución de tiempo variable y una resolución de frecuencia variable, en el que una resolución de tiempo o una resolución de frecuencia elegida para un instante de tiempo depende del resultado del análisis estadístico de la señal de entrada en el instante de tiempo,

medios para generar una señal de control que describe la resolución de tiempo variable o la resolución de frecuencia variable, y

medios para generar (607) una señal de entrada codificada mediante multiplexado de la versión codificada de fuente, de los datos sobre la representación basta de envolvente espectral y de la señal de control, en el que la señal codificada de entrada no incluye la señal residual.

18. Aparato para decodificar la envolvente espectral de una señal codificada, incluyendo la señal codificada una versión codificada de fuente de una señal original, teniendo la señal original un ancho de banda que incluye determinadas regiones de frecuencia, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, teniendo la señal codificada datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, caracterizado porque los datos sobre la representación basta de envolvente espectral representa la envolvente espectral con una resolución de tiempo variable o una resolución de frecuencia variable, teniendo la señal codificada una señal de control que indica la resolución de tiempo variable o la resolución de frecuencia variable, dando como resultado la señal codificada de fuente, tras la decodificación (702) de la fuente, una versión decodificada de la señal original, teniendo la versión decodificada de la señal original un ancho de banda que no incluye las regiones de frecuencia determinadas, que comprende:

un demultiplexor (701) para demultiplexar la señal codificada con el fin de obtener la versión codificada de fuente, los datos sobre la representación basta de la envolvente espectral, y la señal de control;

medios (704) para generar una señal replicada de la banda espectral para las regiones de frecuencia determinadas;

medios para interpretar la señal de control con el fin de determinar la resolución de tiempo variable o la resolución de frecuencia variable;

medios (708, 709) para ajuste de la señal replicada de banda espectral de envolvente, utilizando los datos sobre la información basta de envolvente espectral y la resolución de tiempo variable o la resolución de frecuencia variable, y

medios para añadir la señal ajustada de envolvente y la versión decodificada de la señal original, para obtener una señal decodificada que tiene un ancho de banda que incluye las regiones de frecuencia determinadas.

19. Método de decodificación de una señal codificada de envolvente espectral, incluyendo la señal codificada una versión codificada de fuente de una señal original, teniendo la señal original un ancho de banda que incluye determinadas regiones de frecuencia, teniendo la versión codificada de fuente un ancho de banda que no incluye las regiones de frecuencia determinadas, teniendo la señal codificada datos sobre la representación basta de envolvente espectral para las regiones de frecuencia determinadas, caracterizado porque los datos sobre la representación basta de envolvente espectral representan la envolvente espectral con una resolución de tiempo variable o una resolución de frecuencia variable, teniendo la señal codificada una señal de control que indica la resolución de tiempo variable o la resolución de frecuencia variable, dando como resultado la señal codificada de fuente, tras la decodificación (702) de la fuente, una versión decodificada de la señal original, teniendo la versión decodificada de la señal original un ancho de banda que no incluye las regiones de frecuencia determinadas, que comprende las siguientes etapas:

demultiplexar (701) la señal codificada para obtener la versión codificada de fuente, los datos de la representación basta de envolvente espectral, y la señal de control;

generar (704) una señal replicada de banda espectral para las regiones de frecuencia determinadas;

interpretar (703) la señal de control para determinar la resolución de tiempo variable o la resolución de frecuencia variable;

ajustar (708, 709) la señal replicada de banda espectral de envolvente, utilizando los datos sobre la información basta de envolvente espectral y la resolución de tiempo variable o la resolución de frecuencia variable, y

añadir la señal ajustada de envolvente y la versión decodificada de la señal original, para obtener una señal decodificada que tenga un ancho de banda que incluya las regiones de frecuencia determinadas.