ES2354427T3

ES2354427T3 - Mejora de la calidad de audio decodificado mediante la adición de ruido.

Info

Publication number: ES2354427T3
Application number: ES04744411T
Authority: ES
Inventors: Albertus C. Den Brinker; François P. MYBURG
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-06-30
Filing date: 2004-06-25
Publication date: 2011-03-14
Anticipated expiration: 2024-06-25
Also published as: ATE486348T1; JP2007519014A; EP1642265A1; US20070124136A1; KR101058062B1; EP1642265B1; KR20060025203A; JP4719674B2; CN1816848A; US7548852B2; WO2005001814A1; CN100508030C; DE602004029786D1

Abstract

Procedimiento de decodificación de una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el procedimiento las etapas de: - decodificar dicha señal (b1) de código en una primera señal (x1') de audio usando un procedimiento (203) de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido, - generar a partir de dichos parámetros (b2) de transformación una señal (r2') de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y estando caracterizado el procedimiento porque comprende las etapas de: - generar una segunda señal (x2') de audio eliminando de la señal (r2') de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1') de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1') de audio y las características de la señal (r2') de ruido, y - generar la señal de audio (x') sumando (211) la primera señal (x1') de audio y la segunda señal (x2') de audio.

Description

La presente invención se refiere a un procedimiento de decodificación de una señal de audio. La invención se refiere además a un dispositivo para decodificar una señal de audio.

Un modo de codificación es modelar partes de audio o señales de voz mediante ruido sintético, al tiempo que se mantiene una calidad buena o aceptable y, por ejemplo, herramientas de extensión de ancho de banda se basan en este concepto. En herramientas de extensión de ancho de banda para voz y audio, las bandas de frecuencia más altas normalmente se eliminan en el codificador en caso de tasas de transmisión de bits bajas y se recuperan o bien mediante una descripción paramétrica de las envolventes temporales y espectrales de las bandas que faltan o bien la banda que falta se genera de algún modo a partir de la señal de audio recibida. En cualquier caso, es necesario conocer la(s) banda(s) que falta(n) (al menos la ubicación) para generar la señal de ruido complementaria.

Ejemplos de sistema de extensión de ancho de banda se dan a conocer en las publicaciones de solicitud de patente WO2003/083834 y WO1998/057436.

Una técnica adicional para tratar el problema de los huecos espectrales se da a conocer en la publicación de solicitud de patente FR 2 821 501.

Este principio se lleva a cabo creando un primer flujo de bits mediante un primer codificador dada una tasa de transmisión de bits objetivo. El requisito de la tasa de transmisión de bits induce una cierta limitación de ancho de banda en el primer codificador. Esta limitación de ancho de banda se usa como elemento conocido en un segundo codificador. Un flujo de bits adicional (extensión de ancho de banda) se crea entonces mediante el segundo codificador, que cubre la descripción de la señal en cuanto a características de ruido de la banda que falta. En un primer decodificador, el primer flujo de bits se usa para reconstruir la señal de audio limitada en banda, y una señal de ruido adicional se genera mediante el segundo decodificador y se añade a la señal de audio limitada en banda, con lo cual se obtiene la señal decodificada completa.

Un problema de lo anterior es que el emisor o el receptor no siempre conocen qué información se descarta en la rama cubierta por el primer codificador y el primer decodificador. Por ejemplo, si el primer codificador produce un flujo de bits en capas y las capas se eliminan durante la transmisión a través de una red, entonces ni el emisor o el primer codificador ni el receptor o el primer decodificador conocen este hecho. La información eliminada puede ser, por ejemplo, información de subbanda de las bandas más altas de un codificador de subbanda. Otra posibilidad sucede en codificación sinusoidal: en codificadores sinusoidales ajustables a escala, pueden crearse flujos de bits en capas, y pueden clasificarse datos sinusoidales en capas según su relevancia perceptiva. La eliminación de capas durante la transmisión sin editar adicionalmente las capas restantes para indicar lo que se ha eliminado normalmente produce huecos espectrales en la señal sinusoidal decodificada.

El problema básico en esta configuración es que ni el primer codificador ni el primer decodificador tienen información sobre qué adaptación se ha hecho en la rama desde el primer codificador hasta el primer decodificador. El codificador carece de este conocimiento, porque la adaptación puede tener lugar durante la transmisión (es decir, tras la codificación), mientras que el decodificador simplemente recibe un flujo de bits permitido.

El ajuste a escala de la tasa de transmisión de bits, también llamado codificación incrustada, es la capacidad del codificador de audio para producir un flujo de bits ajustable a escala. Un flujo de bits ajustable a escala contiene varias capas (o planos), que pueden eliminarse, disminuyendo, como resultado, la tasa de transmisión de bits y la calidad. La primera (y más importante) capa se denomina habitualmente la “capa base,” mientras que las capas restantes se denominan “capas de refinamiento” y normalmente tienen un orden de importancia predefinido. El decodificador debería poder decodificar partes predefinidas (las capas) del flujo de bits ajustable a escala.

En codificación de audio paramétrica con tasa de transmisión de bits ajustable a escala es una práctica general añadir los objetos de audio (sinusoides, transitorios y ruido) en orden de importancia perceptiva al flujo de bits. Las sinusoides individuales en una trama particular se ordenan según su relevancia perceptiva, de modo que las sinusoides más relevantes se colocan en la capa base. Las sinusoides restantes se distribuyen entre las capas de refinamiento, según su relevancia perceptiva. Las pistas completas pueden clasificarse según su relevancia perceptiva y distribuirse por las capas, yendo las pistas más relevantes a la capa base. Para conseguir esta ordenación perceptiva de las sinusoides individuales y completar las pistas, se usan modelos psicoacústicos.

Se conoce colocar los parámetros de componente de ruido más importantes en la capa base, mientras que los parámetros de ruido restantes se distribuyen entre las capas de refinamiento. Esto se ha descrito en el documento con el título Error Protection and Concealment for HILN MPEG-4 Parametric Audio Coding. H. Pumhagen, B. Edler, y N. Meine. Audio Engineering Society (AES) 110th Convention, Preprint 5300, Amsterdam (NL), 12 a 15 de mayo de 2001.

La componente de ruido global también puede añadirse a la segunda capa de refinamiento. Los transitorios se consideran la componente de señal menos importante. Por tanto, normalmente se colocan en una de las capas de refinamiento más altas. Esto se describe en el documento con el título A 6kbps to 85kbps Scalable Audio Coder.

T.S. Verma y T.H.Y. Meng. 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2000). págs. 877--880. 5 a 9 de junio de 2000.

El problema de un flujo de bits en capas construido de la manera descrita anteriormente es la calidad de audio resultante de cada capa: La retirada de sinusoides mediante la eliminación de capas de refinamiento del flujo de bits da como resultado “huecos” espectrales en la señal decodificada. Estos huecos no se llenan con la componente de ruido (o cualquier otra componente de señal), puesto que el ruido se deriva habitualmente en el codificador dada la componente sinusoidal completa. Además, sin la componente (completa) de ruido, se introducen artefactos adicionales. Estos procedimientos de producción de un flujo de bits ajustable a escala dan como resultado una degradación en la calidad de audio sin armonía ni naturalidad.

Un objeto de la presente invención es proporcionar una solución a los problemas mencionados anteriormente.

Un procedimiento de codificación a modo de ejemplo de una señal de audio, en el que se genera una señal de código a partir de la señal de audio según un procedimiento de codificación predefinido, comprende las etapas de:

- transformar la señal de audio en un conjunto de parámetros de transformación que definen al menos una parte de la información espectro-temporal en dicha señal de audio, permitiendo dichos parámetros de transformación la generación de una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y

- representar dicha señal de audio mediante dicha señal de código y dichos parámetros de transformación.

De este modo se obtiene una doble descripción de la señal que comprende dos etapas de codificación, una primera codificación estándar y una segunda codificación adicional. La segunda codificación puede dar una descripción aproximada de la señal, de modo que pueda realizarse una realización estocástica y puedan añadirse partes apropiadas a la señal decodificada a partir de la primera decodificación. La descripción requerida del segundo codificador para hacer posible la realización de una señal estocástica requiere una tasa de transmisión de bits pequeña, mientras que otras descripciones dobles/múltiples requerirían mucha más tasa de transmisión de bits. Los parámetros de transformación pueden ser, por ejemplo, coeficientes de filtro que describen la envolvente espectral de la señal de audio y coeficientes que describen la envolvente de amplitud o energía temporal. Los parámetros pueden ser alternativamente información adicional que consiste en datos psicoacústicos tal como la curva de enmascaramiento, los patrones de excitación o el volumen específico de la señal de audio.

En un ejemplo, los parámetros de transformación comprenden coeficientes de predicción generados realizando predicción lineal en la señal de audio. Este es un modo sencillo de obtener los parámetros de transformación, y sólo se necesita una tasa de transmisión de bits baja para la transmisión de estos parámetros. Además, estos parámetros hacen posible construir mecanismos de filtración de decodificación sencillos.

En un ejemplo específico la señal de código comprende parámetros de amplitud y frecuencia que definen al menos una componente sinusoidal de dicha señal de audio. De este modo pueden resolverse los problemas con los codificadores paramétricos tal como se ha descrito anteriormente.

En un ejemplo específico los parámetros de transformación son representativos de una estimación de una amplitud de componentes sinusoidales de dicha señal de audio. De este modo la tasa de transmisión de bits de los datos de codificación totales disminuye, y además se obtiene una alternativa a la codificación por diferencial de tiempo de los parámetros de amplitud.

En un ejemplo específico la codificación se realiza en segmentos solapados de la señal de audio, con lo cual se genera un conjunto específico de parámetros para cada segmento, comprendiendo los parámetros, parámetros de transformación específicos del segmento y señal de código específica del segmento. De este modo la codificación puede usarse para codificar grandes cantidades de datos de audio, por ejemplo, un flujo en directo de datos de audio.

La invención se refiere a un procedimiento de decodificación de una señal de audio a partir de parámetros de transformación y a una señal de código generada según un procedimiento de codificación predefinido, comprendiendo el procedimiento las etapas de:

-: decodificar dicha señal de código en una primera señal de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento de codificación predefinido,

-: generar a partir de dichos parámetros de transformación una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio

-generar una segunda señal de audio eliminando de la señal de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y

- generar la señal de audio sumando la primera señal de audio y la segunda señal de audio.

De este modo el procedimiento puede establecer qué partes espectro-temporales de la primera señal generada mediante el procedimiento de decodificación faltan y rellenar estas partes con ruido apropiado (es decir, según la señal de entrada). Esto da como resultado una señal de audio, que es más próxima, desde un punto de vista espectro-temporal, a la señal de audio original.

En una realización del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:

- derivar una respuesta de frecuencia comparando un espectro de la primera señal de audio con un espectro de la señal de ruido, y

- filtrar la señal de ruido según dicha respuesta de frecuencia.

En una realización específica del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:

-generar una primera señal residual aplanando espectralmente la primera señal de audio dependiendo de los datos espectrales en los parámetros de transformación,

-: generar una segunda señal residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros de transformación,

-: derivar una respuesta de frecuencia comparando un espectro de la primera señal residual con un espectro de la segunda señal residual, y

- filtrar la señal de ruido según dicha respuesta de frecuencia.

En otra realización del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:

-: sumar la primera señal residual y la segunda señal residual dando lugar a una señal suma,

-: derivar una respuesta de frecuencia para aplanar espectralmente la señal suma,

-: actualizar la segunda señal residual filtrando la segunda señal residual según dicha respuesta de frecuencia,

-: repetir dichas etapas de sumar, derivar y actualizar hasta que un espectro de la señal suma sea sustancialmente plano, y

- filtrar la señal de ruido según todas las respuestas de frecuencia derivadas.

El ejemplo se refiere además a un dispositivo para codificar una señal de audio, comprendiendo el dispositivo un primer codificador para generar una señal de código según un procedimiento de codificación predefinido, en el que el dispositivo comprende además:

-: un segundo codificador para transformar la señal de audio en un conjunto de parámetros de transformación que define al menos una parte de la información espectro-temporal en dicha señal de audio, permitiendo dichos parámetros de transformación la generación de una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y

-: medios de procesamiento para representar dicha señal de audio mediante dicha señal de código y dichos parámetros de transformación.

La invención también se refiere a un dispositivo para decodificar una señal de audio a partir de parámetros de transformación y una señal de código generada según un procedimiento de codificación predefinido, comprendiendo el dispositivo:

-: un primer decodificador para decodificar dicha señal de código en una primera señal de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento de codificación predefinido,

-: un segundo decodificador para generar a partir de dichos parámetros de transformación una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,

-primeros medios de procesamiento para generar una segunda señal de audio eliminando de la señal de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y

-: medios de suma para generar la señal de audio sumando la primera señal de audio y la segunda señal de audio.

A continuación se describirán realizaciones preferidas de la invención en referencia a las figuras, en las que

la figura 1 muestra una vista esquemática de un sistema para comunicar señales de audio según una realización de la invención,

la figura 2 ilustra el principio de la presente invención,

la figura 3 ilustra el principio de un decodificador según la presente invención,

la figura 4 ilustra un generador de señal de ruido según la presente invención,

la figura 5 ilustra una primera realización de una caja de control que va a usarse en el generador de ruido,

la figura 6 ilustra una segunda realización de una caja de control que va a usarse en el generador de ruido,

la figura 7 ilustra un ejemplo en el que la presente invención se usa para mejorar el rendimiento en codificadores específicos, en el que el primer codificador y el primer decodificador usan los parámetros creados por la segunda realización del codificador,

la figura 8 ilustra análisis y síntesis de predicción lineal,

la figura 9 ilustra una primera realización ventajosa de un codificador,

la figura 10 ilustra una realización de un decodificador para decodificar una señal codificada por el codificador de la figura 9,

la figura 11 ilustra una segunda realización ventajosa de un codificador,

la figura 12 ilustra una realización de un decodificador para decodificar una señal codificada por el codificador de la figura 11.

La figura 1 muestra una vista esquemática de un sistema para comunicar señales de audio según una realización de la invención. El sistema comprende un dispositivo 101 de codificación para generar una señal de audio codificada y un dispositivo 105 de decodificación para decodificar una señal codificada recibida en una señal de audio. El dispositivo 101 de codificación y el dispositivo 105 de decodificación pueden ser, cada uno, cualquier equipo electrónico o parte de tal equipo. En este caso el término equipo electrónico comprende ordenadores, tales como PC fijos y portátiles, equipos de comunicación de radio fijos y portátiles y otros dispositivos de bolsillo o portátiles, tales como teléfonos móviles, buscapersonas, reproductores de audio, reproductores multimedia, comunicadores, es decir, organizadores electrónicos, teléfonos inteligentes, asistentes digitales personales (PDA), ordenadores de bolsillo o similares. Debe observarse que el dispositivo 101 de codificación y el dispositivo de decodificación pueden combinarse en un único equipo electrónico, en el que se almacenan señales estereofónicas en un medio legible por ordenador para su posterior reproducción.

El dispositivo 101 de codificación comprende un codificador 102 para codificar una señal de audio. El codificador recibe la señal de audio x y genera una señal codificada T. La señal de audio puede originarse a partir de un conjunto de micrófonos, por ejemplo a través de un equipo electrónico adicional tal como un equipo de mezcla, etc. Las señales pueden recibirse además como una salida desde otro reproductor estéreo, de manera aérea como una señal de radio o mediante cualquier otro medio adecuado. Realizaciones preferidas de un codificador de este tipo se describirán a continuación. Según una realización, el codificador 102 se conecta a un transmisor 103 para transmitir la señal codificada T a través de un canal 109 de comunicaciones al dispositivo 105 de decodificación. El transmisor 103 puede comprender un conjunto de circuitos adecuado para permitir la comunicación de datos, por ejemplo a través de un enlace 109 de datos por cable o uno inalámbrico. Ejemplos de un transmisor de este tipo incluyen una interfaz de red, una tarjeta de red, un transmisor de radio, un transmisor para otras señales electromagnéticas adecuadas, tales como un LED para transmitir luz infrarroja, por ejemplo a través de un puerto IrDa, comunicaciones basadas en radio, por ejemplo a través de un transceptor Bluetooth o similar. Otros ejemplos de transmisores adecuados incluyen un módem de cable, un módem telefónico, un adaptador de red digital de servicios integrados (RDSI), un adaptador de línea de abonado digital (DSL), un transceptor de satélite, un adaptador Ethernet o similares. De manera correspondiente, el canal 109 de comunicaciones puede ser cualquier enlace de datos por cable o inalámbrico adecuado, por ejemplo de una red de comunicaciones basada en paquetes, tal como Internet u otra red TCP/IP, un enlace de comunicaciones de corto alcance, tal como un enlace de infrarrojos, una conexión Bluetooth u otro enlace basado en radio. Otros ejemplos de los canales de comunicaciones incluyen redes informáticas y redes de telecomunicaciones inalámbricas, tales como una red digital celular de datos por paquetes (CDPD), una red de sistema global para comunicaciones móviles (GSM), una red de acceso múltiple por división de código (CDMA), una red de acceso múltiple por división de tiempo (TDMA), una red de servicio general de paquetes por radio (GPRS), una red de tercera generación, tal como una red UMTS, o similares. Alternativamente, o adicionalmente, el dispositivo de codificación puede comprender una o más interfaces 104 para comunicar la señal T estéreo codificada al dispositivo 105 de decodificación.

Ejemplos de tales interfaces incluyen una unidad de disco para almacenar datos en un medio 110 legible por ordenador, por ejemplo, una unidad de disco flexible, una unidad de CD-ROM de lectura/escritura, una unidad de DVD, etc. Otros ejemplos incluyen una ranura de tarjeta de memoria, un lector/grabador de tarjeta magnética, una interfaz para acceder a una tarjeta inteligente, etc. De manera correspondiente, el dispositivo 105 de decodificación comprende un receptor 108 correspondiente para recibir la señal transmitida por el transmisor y/u otra interfaz 106 para recibir la señal estéreo codificada comunicada a través de la interfaz 104 y el medio 110 legible por ordenador. El dispositivo de decodificación comprende además un decodificador 107, que recibe la señal T recibida y la decodifica en una señal x’ de audio. Realizaciones preferidas de un decodificador de este tipo, según la invención, se describirán a continuación. La señal x’ de audio decodificada puede alimentarse posteriormente a un reproductor estéreo para su reproducción a través de un conjunto de altavoces, cascos o similares.

La solución a los problemas mencionados en la introducción es un procedimiento ciego para complementar una señal decodificada de audio con ruido. Esto significa que, a diferencia de las herramientas de extensión de ancho de banda, no es necesario tener ningún conocimiento del primer codificador. Sin embargo, son posibles soluciones dedicadas en las que los dos codificadores y decodificadores tengan conocimiento (parcial) de su funcionamiento específico.

La figura 2 ilustra el principio de la presente invención. El procedimiento comprende un primer codificador que genera un flujo b1 de bits codificando una señal x de audio que va a decodificarse mediante el primer decodificador 203. Entre el primer codificador y el primer decodificador se realiza una adaptación 205 generando el flujo b1’ de bits, que por ejemplo podrían ser capas que se eliminan antes de la transmisión a través de la red, y ni el primer codificador ni el primer decodificador tienen conocimiento acerca de cómo se realiza la adaptación. En el primer decodificador 203, el flujo b1’ de bits adaptado se decodifica dando como resultado la señal x1’. Un segundo codificador 207 analiza toda la señal x de entrada para obtener una descripción de las envolventes temporales y espectrales de la señal x de audio. Alternativamente, el segundo codificador puede generar información para captar datos relevantes desde un punto de vista psicoacústico, por ejemplo, la curva de enmascaramiento inducida por la señal de entrada. Esto da como resultado un flujo b2 de bits que es la entrada para el segundo decodificador 209. A partir de estos datos b2 secundarios puede generarse una señal de ruido, que imita la señal de entrada sólo en envolvente espectral y temporal o genera la misma curva de enmascaramiento que la entrada original, pero pierde completamente la coincidencia de forma de onda respecto a la señal original. A partir de la comparación de la primera señal decodificada x1’ y (las características de) la señal de ruido, las partes de la primera señal, que necesitan complementarse, se determinan en el segundo decodificador 209 dando como resultado la señal x2’ de ruido. Finalmente, sumando x1’ y x2’ usando un sumador 211 se genera la señal x’ decodificada.

El segundo codificador 207 codifica una descripción de la envolvente espectro-temporal de la señal x de entrada o de la curva de enmascaramiento. Un modo típico de derivar la envolvente espectro-temporal es usar predicción lineal (produciendo coeficientes de predicción, en los que la predicción lineal puede asociarse o bien con filtros FIR o IIR) y analizar el residuo producido por la predicción lineal para su envolvente temporal o de nivel de energía (local), por ejemplo, mediante conformación de ruido temporal (TNS). En este caso, el flujo b2 de bits contiene coeficientes de filtro para la envolvente espectral y parámetros para la envolvente de energía o amplitud temporal.

En la figura 3 se ilustra el principio del segundo decodificador para generar la señal de ruido adicional. El segundo decodificador 301 recibe la información espectro-temporal en b2, y basándose en esta información un generador 303 puede generar una señal r2’ de ruido que tiene la misma envolvente espectro-temporal que la señal x de entrada. Esta señal r2’, sin embargo, pierde la coincidencia de forma de onda respecto a la señal x original. Puesto que una parte de la señal x ya está contenida en el flujo b1 de bits y, por tanto, en x1’, una caja 305 de control que tiene las entrada b2’ y x1’, determina qué partes espectro-temporales ya están cubiertas en x1’. A partir de este conocimiento, puede diseñarse un filtro 307 variable en el tiempo que, cuando se aplica a la señal r2’ de ruido, crea una señal x2’ de ruido que cubre las partes espectro-temporales que están contenidas de manera insuficiente en x1’. Por motivos de reducción de la complejidad, la información desde el generador 303 puede ser accesible para la caja 305 de control.

En el caso de que la información b2 espectro-temporal esté contenida en coeficientes de filtro que describen las envolventes espectral y temporal por separado, el procesamiento en el generador 303 normalmente consiste en crear una realización de una señal estocástica, ajustar su amplitud (o energía) según la envolvente temporal transmitida y filtrar mediante un filtro de síntesis. En la figura 4 se ilustra con más detalle qué elementos pueden estar incluidos en el generador 303 y el filtro 307 variable en el tiempo. La creación de la señal x2’ consiste en generar una secuencia de ruido (blanco) usando un generador 401 de ruido y tres etapas 403, 405 y 407 de procesamiento:

-: adaptación de envolvente temporal mediante el conformador 403 temporal según los datos en b2 dando como resultado r2,

-: adaptación de envolvente espectral mediante el conformador 405 espectral según los datos en b2 dando como resultado r2’,

-y una operación de filtrado mediante el filtro 407 adaptativo usando coeficientes c2 variables en el tiempo a partir de la caja 305 de control en la figura 3.

Debe observarse que el orden de estas tres etapas de procesamiento es más bien arbitrario. El filtro 407 adaptativo puede realizarse mediante un filtro transversal (línea de retardo con derivaciones), un filtro ARMA, filtrando en el dominio de frecuencia, o mediante filtros inspirados psicoacústicamente tales como el filtro que aparece en predicción lineal deformada o predicción lineal basada en Laguerre y Kautz.

Existen numerosos modos de definir el filtro 407 adaptativo y de estimar sus parámetros c2 mediante la caja de control.

La figura 5 ilustra una primera realización del procesamiento realizado en la caja de control y el filtro adaptativo usando comparación directa. Los espectros (locales) X1’ y R2’ de x1’ y r2’ pueden crearse tomando el valor absoluto de las transformadas de Fourier (con aplicación de función ventana) respectivamente en 501 y 503. En el comparador 505 los espectros x1’ y r2’ se comparan definiendo un espectro de filtro objetivo basándose en la diferencia entre las características de x1’ y r2’. Por ejemplo, un valor de 0 puede asignarse a las frecuencias en las que el espectro de x1’ supera el de r2’ y un valor de 1 puede ajustarse en caso contrario. Esto especifica entonces una respuesta de frecuencia deseada, y pueden usarse varios procedimientos estándar para construir un filtro, que aproxime este comportamiento de frecuencia. La construcción del filtro realizada en la caja 507 de diseño de filtro produce coeficientes c2 de filtro. En el filtro 509 de ranura basado en los coeficientes c2 de filtro se filtra la señal r2’ de ruido, con lo que la señal x2’ de ruido sólo comprende las partes espectro-temporales contenidas de manera insuficiente en x1’. Finalmente, la señal x’ decodificada se genera sumando x1’ y x2’. Como alternativa a lo anterior, R2’ puede derivarse directamente del flujo b2 de parámetros.

La figura 6 ilustra una segunda realización del procesamiento realizado en la caja de control y el filtro adaptativo usando comparación residual. En esta realización se supone que el flujo b2 de bits contiene los coeficientes de un filtro de predicción que se aplicó al audio x de entrada en el codificador Enc2. Entonces la señal x1’ puede filtrarse mediante un filtro de análisis asociado con estos coeficientes de predicción creando una señal r1 residual. Por tanto, x1’ en primer lugar se aplana espectralmente en 601 basándose en los datos espectrales de b2 dando como resultado la señal r1. Entonces la transformada de Fourier local R1 se determina en 603 a partir de r1. El espectro de R1 se compara con el de R2, es decir, el espectro de r2. Puesto que r2 se crea aplicando una envolvente basándose en los datos b2 encima de una señal de ruido blanco producida por NG, el espectro de R2 puede determinarse directamente a partir de los parámetros en b2. La comparación llevada a cabo en 605 define un espectro de filtro objetivo, que se introduce a una caja 607 de diseño de filtro que produce los coeficientes c2 de filtro.

Una alternativa a la comparación de los espectros es usar predicción lineal. Supóngase que el flujo b2 de bits contiene los coeficientes de un filtro de predicción que se aplicó en el segundo codificador. Entonces la señal x1’ puede filtrarse mediante el filtro de análisis asociado con estos filtros de predicción creando una señal r1 residual. El filtro adaptativo AF puede definirse como:

L

 

1

l 1

con filtros F1(z) causales estables arbitrarios. La función de la caja de control es entonces estimar los coeficientes c1,i = 0, 1,..., L.

La suma de r1 y r2 filtrada por F(z) debe tener un espectro plano. Ahora pueden determinarse de manera iterativa los coeficientes. El procedimiento es el siguiente:

- Se construye una señal sk que es r1 más una r2,k, empezándose con r2,1 = r2 en la primera iteración k =

1.

-: Mediante predicción lineal, el espectro de la señal sk se aplana. La predicción lineal define un filtro F(k). Este filtro se aplica a r2,k creando r2,k+1. Esta señal se usa en la siguiente iteración.

-: La iteración se detiene cuando F(k) es suficientemente próximo al filtro trivial, es decir, cuando la señal Sk ya no puede aplanarse más y c1,...,cL ≈ 0.

En la práctica una única iteración puede ser suficiente. El filtro adaptativo consiste en la cascada de filtros F(1) a F(K-1) donde K es la última iteración.

Aunque no se ilustra en la figura 2, el flujo b2 de bits también puede ajustarse a escala parcialmente. Esto se permite siempre que la información espectro-temporal restante esté suficientemente intacta para garantizar un funcionamiento correcto del segundo decodificador.



F(z)





c1F1

(z)

c



0

En el esquema anterior se ha presentado como un trayecto adicional polivalente. Es obvio que el primer y el segundo codificador y el primer y el segundo decodificador pueden fusionarse, obteniendo así codificadores dedicados con la ventaja de un mejor rendimiento (en cuanto a calidad, tasa de transmisión de bits y/o complejidad) aunque a costa de perder generalidad. Un ejemplo de una situación de este tipo se representa en la figura 7 en la que los flujos b1 y b2 de bits generados por el primer codificador 701 y el segundo codificador 703 se funden en un único flujo de bits usando un multiplexor 705, y en la que el primer codificador 701 usa información a partir del segundo codificador 703. Por consiguiente, el decodificador 707 usa la información de ambos flujos b1 y b2 para la construcción de x1’.

En otro acoplamiento adicional, el segundo codificador puede usar información del primer codificador, y la decodificación del ruido se realiza entonces basándose en b, es decir, ya no hay una separación clara. En todos los casos, el flujo b de bits puede ajustarse a escala entonces sólo en la medida en que no afecte esencialmente a la operación de poder construir una señal de ruido complementaria adecuada.

A continuación, se darán ejemplos específicos cuando la invención se usa en combinación con un codificador de audio paramétrico (o sinusoidal) que funciona en modo de tasa de transmisión de bits ajustable a escala.

La señal de audio, limitada a una trama, se designa x[n]. La base de esta realización es aproximar la forma espectral de x[n] aplicando predicción lineal en el codificador de audio. El diagrama de bloques general de estos esquemas de predicción se ilustra en la figura 8. La señal de audio limitada a una trama, x[n], se predice mediante el módulo 801 LPA, dando como resultado el residuo r[n] de predicción y los coeficientes de predicción α1,.....αK, en los que el orden de predicción es K.

El residuo r[n] de predicción es una versión espectralmente aplanada de x[n] cuando los coeficientes de predicción α1,.....αK se determinan minimizando:

rn2

n

o una versión ponderada de r[n].

La función de transferencia del módulo de análisis de predicción lineal, LPA, puede designarse mediante FA(z) = FA(α1,.....αK; z), y la función de transferencia del módulo de síntesis, LPS, puede designarse mediante Fs(z), donde

1

Fs (z)  FA (z)

Las respuestas impulsionales de los módulos LPA y LPS pueden designarse mediante fA[n] y fS[n], respectivamente. La envolvente Er[n] temporal de la señal r[n] residual se mide trama a trama en el codificador y sus parámetros pE se colocan en el flujo de bits.

El decodificador produce una componente de ruido, que complementa la componente sinusoidal utilizando los parámetros de frecuencia sinusoidal. La envolvente Er[n] temporal, que puede reconstruirse a partir de los datos pE contenidos en el flujo de bits, se aplica a una señal estocástica de espectro plano para obtener raleatoria[n], donde raleatoria[n] tiene la misma envolvente temporal que r[n]. raleatoria también se denominará rr en lo sucesivo.

Las frecuencias sinusoidales asociadas con esta trama se designan θ1,...., θNc. Habitualmente, estas frecuencias se suponen constantes en codificadores de audio paramétricos, sin embargo, puesto que se enlazan para formar pistas, pueden variar, linealmente, por ejemplo, para garantizar transiciones de frecuencia más suaves en los límites de trama.

La señal aleatoria se atenúa entonces a estas frecuencias convolucionándola con la respuesta impulsional del siguiente filtro de rechazo de banda:

rn[n] = rr[n] * fn[n]

donde fn[n] = fn(θ1,...., θNc;n) y * designa la convolución. La forma espectral de la trama x[n] original a excepción de las regiones de frecuencia alrededor de las sinusoides codificadas se aproxima aplicando el módulo LPS (803 en la figura 8) a rn[n], dando como resultado la componente de ruido para la trama:

xn[n] = rn[n] * fs[n]

Por tanto, la componente de ruido se adapta según la componente sinusoidal para obtener la forma espectral deseada.

La versión x’[n] decodificada de la trama x[n] es la suma de las componentes sinusoidal y de ruido.

x’n[n] = xs[n] + xn[n]

5

10

15

20

25

30

35

Debe observarse que la componente sinusoidal xs[n] se decodifica a partir de los parámetros sinusoidales, contenidos en el flujo de bits, a la manera usual:

Nc

amcos( m  )

xs n  mnn

m1

donde am y m son la amplitud y la fase de la sinusoide m, respectivamente; y el flujo de bits contiene Nc sinusoides.

Los coeficientes de predicción α1,.....αK y la potencia P promedio derivados de la envolvente temporal proporcionan una estimación de los parámetros de amplitud sinusoidales:



m

am 2 imagen1 P FS (ej

Se espera que los errores de predicción δm[n] = am[n] - âm[n] sean pequeños, y codificarlos es barato. Como resultado, los parámetros de amplitud ya no se codifican entre tramas de manera diferencial, tal como es la práctica estándar en codificadores de audio paramétricos. En su lugar, se codifican los de δm[n]. Esto es una ventaja respecto a la codificación actual de parámetros de amplitud, puesto que los de δm[n] no son sensibles a borrados de trama. Los parámetros de frecuencia todavía se codifican entre tramas de manera diferencial. Cuando el flujo de bits en capas no contiene parámetros de amplitud, la componente sinusoidal se estima en el decodificador mediante:



am cos(m

Nc n  )

xsn mnn

m1

A continuación se describirán ejemplos concretos usando la teoría anterior.

El proceso de análisis, realizado en el codificador, usa ventanas complementarias de amplitud solapada para obtener coeficientes de predicción y parámetros sinusoidales. La ventana aplicada a una trama se designa w[n]. Una ventana adecuada es la ventana de Hann:

imagen1

con una duración de Ns muestras correspondiente a 10 - 60 ms. La señal de entrada se alimenta a través del filtro de análisis cuyos coeficientes se actualizan regularmente basándose en los coeficientes de predicción de medida, creando así la señal r[n]residual. La envolvente Er[n] temporal se mide y sus parámetros pE se colocan en el flujo de bits. Además, los coeficientes de predicción y parámetros sinusoidales se colocan en el flujo de bits y se transmiten también al decodificador.

En el decodificador, una señal aleatoria de espectro plano restocástica[n se genera a partir de un generador de ruido de curso libre. La amplitud de la señal aleatoria para la trama se ajusta de modo que su envolvente corresponde a los datos pE en el flujo de bits dando como resultado la señal rtrama[n]

Se aplica la función ventana a la señal rtrama[n] y la transformada de Fourier de esta señal a la que se ha aplicado la función ventana se designa mediante Rw. A partir de esta transformada de Fourier, las regiones alrededor de las componentes sinusoidales transmitidas se eliminan mediante filtro de rechazo de banda.

El filtro de rechazo de banda con ceros a frecuencias θ1[n],...., θNc[n], tiene la siguiente función de transferencia:

Nc j

F ,..., ;e 1wnmwn2m

n 1 Nc m1

donde wn(θ) es la ventana Hann:

imagen1

con ancho de banda θBW (efectivo) igual al ancho del lóbulo (espectral) principal de la ventana w[n] de tiempo. La componente de ruido para la trama se obtiene aplicando el filtro de rechazo de banda y el módulo LPS: xn =

IDFT(Rw·Fn·Fs), donde Fn y Fs son versiones muestreadas de manera apropiada de Fs y Fn y donde IDFT es la DFT inversa. Las secuencias xn consecutivas pueden añadirse y solaparse para formar la señal de ruido completa.

En la figura 9 se ilustra una realización de un codificador. En primer lugar se realiza un análisis de predicción lineal en la señal de audio usando un analizador 901 de predicción lineal que da como resultado los

~

11 K

coeficientes de predicción y el residuo r[n]. A continuación la envolvente Er[n] temporal del residuo, se determina en 903 y la salida comprende los parámetros pE. Tanto r [n] como la señal de audio x[n] original, junto con pE, se introducen en el codificador 905 residual. El codificador residual es un codificador sinusoidal modificado. Las sinusoides contenidas en el residuo r[n] se codifican haciendo uso de x[n], dando como resultado el residuo Cr codificado. (Información perceptiva, en forma de efectos de enmascaramiento espectrales y temporales y la relevancia perceptiva de sinusoides, se obtiene a partir de x[n].) Además, pE se usa para codificar los parámetros de amplitud sinusoidal de manera similar a la descrita anteriormente. La señal de audio x se representa entonces mediante α1,.....αK, pE y cr.

El decodificador para decodificar los parámetros α1,.....αK, pE y cr para generar la señal x’ de audio decodificada se ilustra en la figura 10. En el decodificador, cr se decodifica en el decodificador 1005 residual, dando como resultado que rs[n] es una aproximación de las componentes determinísticas (o sinusoides) contenidas en r[n]. Los parámetros de frecuencia sinusoidal θ1,....,θNc, contenidos en cr, también se alimentan al filtro 1001 de rechazo de banda. Un módulo 1003 de ruido blanco produce una señal rr[n] aleatoria de espectro plano con envolvente Er[n] temporal. Filtrar rr[n] mediante el filtro 1001 de rechazo de banda da como resultado rn[n] que en 1008 se suma a rs[n], dando como resultado rd[n] de espectro plano, que es una aproximación del residuo r[n] en el codificador. La envolvente espectral de la señal de audio original se aproxima aplicando el filtro 1007 de síntesis de predicción lineal a rd[n], dados los coeficientes de predicción α1,.....αK. La señal x’[n] resultante es la versión decodificada de x[n].

En la figura 11 se ilustra otra realización de un codificador. La propia señal de audio x[n] se codifica mediante un codificador 1101 sinusoidal; esto difiere de la realización en la figura 9. El análisis 1103 de predicción lineal se aplica a la señal de audio x[n] dando como resultado los coeficientes de predicción α1,.....αK y el residuo r[n]. La envolvente temporal del residuo, Er[n], se determina en 1105 y sus parámetros están contenidos en pE. Las sinusoides contenidas en x[n] se codifican mediante el codificador 1101 sinusoidal, donde pE y los coeficientes de predicción α1,.....αK se usan para codificar los parámetros de amplitud tal como se comentó anteriormente y el resultado es la señal cx codificada. La señal x de audio se representa entonces mediante α1,.....αK, pE y cx.

El decodificador para decodificar los parámetros α1,.....αK, pE y cx para generar la señal x’ de audio decodificada se ilustra en la figura 12. En el esquema de decodificador cx se decodifica mediante el decodificador 1201 sinusoidal haciendo uso de pE y los coeficientes de predicción α1,.....αK, dando como resultado xs[n]. El módulo 1203 de ruido blanco produce una señal rr[n] aleatoria de espectro plano con una envolvente temporal de Er[n]. Los parámetros de frecuencia sinusoidal θ1,....,θNc contenidos en cx, se alimentan a un filtro 1205 de rechazo de banda. Aplicar el filtro 1205 de rechazo de banda a rr[n] da como resultado rn[n]. Entonces, aplicar el módulo 1207 LPS a rn[n], dados los coeficientes de predicción α1,.....αK, da como resultado la componente de ruido xn[n]. Sumar xn[n] y xs[n] da como resultado x’[n] que es la versión decodificada de x[n].

Debe observarse que lo anterior puede implementarse como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de ellos.

Debe observarse que las realizaciones mencionadas anteriormente ilustran más que limitan la invención y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones cualquier símbolo de referencia colocado entre paréntesis no se interpretará como que limita la reivindicación. La expresión ‘que comprende’ no excluye la presencia de otros elementos o etapas aparte de los enumerados en una reivindicación. La invención puede implementarse por medio de hardware que comprende varios elementos distintos y por medio de un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumere varios medios, varios de estos medios pueden realizarse mediante el mismo elemento de hardware. El mero hecho de que se mencionen ciertas medidas en reivindicaciones diferentes dependientes entre sí no indica que una combinación de estas medidas no pueda usarse ventajosamente.

Claims

REIVINDICACIONES

1. Procedimiento de decodificación de una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el procedimiento las etapas de:

-

decodificar dicha señal (b1) de código en una primera señal (x1’) de audio usando un procedimiento (203) de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido,

-

generar a partir de dichos parámetros (b2) de transformación una señal (r2’) de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,

y estando caracterizado el procedimiento porque comprende las etapas de:

-

generar una segunda señal (x2’) de audio eliminando de la señal (r2’) de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1’) de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y

-

generar la señal de audio (x’) sumando (211) la primera señal (x1’) de audio y la segunda señal (x2’) de audio.
2. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:

-

derivar una respuesta de frecuencia comparando un espectro de la primera señal (x1’) de audio con un espectro de la señal (r2’) de ruido, y

-

filtrar la señal (r2’) de ruido según dicha respuesta de frecuencia.
3. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:

-

generar una primera señal (r1) residual aplanando espectralmente la primera señal (x1’) de audio dependiendo de los datos espectrales en los parámetros (b2) de transformación,

-

generar una segunda señal (r2) residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros (b2) de transformación,

-

derivar una respuesta de frecuencia comparando un espectro de la primera señal (r1) residual con un espectro de la segunda señal (r2) residual, y

-

filtrar la señal (r2’) de ruido según dicha respuesta de frecuencia.
4. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:

-

generar una primera señal (r1) residual aplanando espectralmente la primera señal (x1’) de audio dependiendo de los datos espectrales en los parámetros (b2) de transformación,

-

generar una segunda señal (r2) residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros (b2) de transformación,

-

sumar la primera señal (r1) residual y la segunda señal (r2) residual dando lugar a una señal (sk) suma,

-

derivar una respuesta de frecuencia para aplanar espectralmente la señal (sk) suma,

-

actualizar la segunda señal (r2) residual filtrando la segunda señal (r2) residual según dicha respuesta de frecuencia,

-

repetir dicha etapas de sumar, derivar y actualizar hasta que un espectro de la señal (sk) suma sea sustancialmente plano, y

-

filtrar la señal (r2’) de ruido según todas las respuestas de frecuencia derivadas.
5. Dispositivo (107) para decodificar una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el dispositivo:

-

un primer decodificador (203) para decodificar dicha señal (b1) de código en una primera señal (x1’) de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido,

-

un segundo decodificador (209) para generar a partir de dichos parámetros (b2) de transformación una señal (r2’) de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,

y caracterizado por que comprende además:

5 - primeros medios (305,307) de procesamiento para generar una segunda señal (x2’) de audio eliminando de la señal (r2’) de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1’) de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y

- medios (211) de suma para generar la señal (x’) de audio sumando la primera señal (x1’) de audio y la 10 segunda señal (x2’) de audio.