ES2354427T3 - Mejora de la calidad de audio decodificado mediante la adición de ruido. - Google Patents

Mejora de la calidad de audio decodificado mediante la adición de ruido. Download PDF

Info

Publication number
ES2354427T3
ES2354427T3 ES04744411T ES04744411T ES2354427T3 ES 2354427 T3 ES2354427 T3 ES 2354427T3 ES 04744411 T ES04744411 T ES 04744411T ES 04744411 T ES04744411 T ES 04744411T ES 2354427 T3 ES2354427 T3 ES 2354427T3
Authority
ES
Spain
Prior art keywords
signal
audio signal
noise
spectrum
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES04744411T
Other languages
English (en)
Inventor
Albertus C. Den Brinker
François P. MYBURG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2354427T3 publication Critical patent/ES2354427T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

Procedimiento de decodificación de una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el procedimiento las etapas de: - decodificar dicha señal (b1) de código en una primera señal (x1') de audio usando un procedimiento (203) de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido, - generar a partir de dichos parámetros (b2) de transformación una señal (r2') de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y estando caracterizado el procedimiento porque comprende las etapas de: - generar una segunda señal (x2') de audio eliminando de la señal (r2') de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1') de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1') de audio y las características de la señal (r2') de ruido, y - generar la señal de audio (x') sumando (211) la primera señal (x1') de audio y la segunda señal (x2') de audio.

Description

La presente invención se refiere a un procedimiento de decodificación de una señal de audio. La invención se refiere además a un dispositivo para decodificar una señal de audio.
Un modo de codificación es modelar partes de audio o señales de voz mediante ruido sintético, al tiempo que se mantiene una calidad buena o aceptable y, por ejemplo, herramientas de extensión de ancho de banda se basan en este concepto. En herramientas de extensión de ancho de banda para voz y audio, las bandas de frecuencia más altas normalmente se eliminan en el codificador en caso de tasas de transmisión de bits bajas y se recuperan o bien mediante una descripción paramétrica de las envolventes temporales y espectrales de las bandas que faltan o bien la banda que falta se genera de algún modo a partir de la señal de audio recibida. En cualquier caso, es necesario conocer la(s) banda(s) que falta(n) (al menos la ubicación) para generar la señal de ruido complementaria.
Ejemplos de sistema de extensión de ancho de banda se dan a conocer en las publicaciones de solicitud de patente WO2003/083834 y WO1998/057436.
Una técnica adicional para tratar el problema de los huecos espectrales se da a conocer en la publicación de solicitud de patente FR 2 821 501.
Este principio se lleva a cabo creando un primer flujo de bits mediante un primer codificador dada una tasa de transmisión de bits objetivo. El requisito de la tasa de transmisión de bits induce una cierta limitación de ancho de banda en el primer codificador. Esta limitación de ancho de banda se usa como elemento conocido en un segundo codificador. Un flujo de bits adicional (extensión de ancho de banda) se crea entonces mediante el segundo codificador, que cubre la descripción de la señal en cuanto a características de ruido de la banda que falta. En un primer decodificador, el primer flujo de bits se usa para reconstruir la señal de audio limitada en banda, y una señal de ruido adicional se genera mediante el segundo decodificador y se añade a la señal de audio limitada en banda, con lo cual se obtiene la señal decodificada completa.
Un problema de lo anterior es que el emisor o el receptor no siempre conocen qué información se descarta en la rama cubierta por el primer codificador y el primer decodificador. Por ejemplo, si el primer codificador produce un flujo de bits en capas y las capas se eliminan durante la transmisión a través de una red, entonces ni el emisor o el primer codificador ni el receptor o el primer decodificador conocen este hecho. La información eliminada puede ser, por ejemplo, información de subbanda de las bandas más altas de un codificador de subbanda. Otra posibilidad sucede en codificación sinusoidal: en codificadores sinusoidales ajustables a escala, pueden crearse flujos de bits en capas, y pueden clasificarse datos sinusoidales en capas según su relevancia perceptiva. La eliminación de capas durante la transmisión sin editar adicionalmente las capas restantes para indicar lo que se ha eliminado normalmente produce huecos espectrales en la señal sinusoidal decodificada.
El problema básico en esta configuración es que ni el primer codificador ni el primer decodificador tienen información sobre qué adaptación se ha hecho en la rama desde el primer codificador hasta el primer decodificador. El codificador carece de este conocimiento, porque la adaptación puede tener lugar durante la transmisión (es decir, tras la codificación), mientras que el decodificador simplemente recibe un flujo de bits permitido.
El ajuste a escala de la tasa de transmisión de bits, también llamado codificación incrustada, es la capacidad del codificador de audio para producir un flujo de bits ajustable a escala. Un flujo de bits ajustable a escala contiene varias capas (o planos), que pueden eliminarse, disminuyendo, como resultado, la tasa de transmisión de bits y la calidad. La primera (y más importante) capa se denomina habitualmente la “capa base,” mientras que las capas restantes se denominan “capas de refinamiento” y normalmente tienen un orden de importancia predefinido. El decodificador debería poder decodificar partes predefinidas (las capas) del flujo de bits ajustable a escala.
En codificación de audio paramétrica con tasa de transmisión de bits ajustable a escala es una práctica general añadir los objetos de audio (sinusoides, transitorios y ruido) en orden de importancia perceptiva al flujo de bits. Las sinusoides individuales en una trama particular se ordenan según su relevancia perceptiva, de modo que las sinusoides más relevantes se colocan en la capa base. Las sinusoides restantes se distribuyen entre las capas de refinamiento, según su relevancia perceptiva. Las pistas completas pueden clasificarse según su relevancia perceptiva y distribuirse por las capas, yendo las pistas más relevantes a la capa base. Para conseguir esta ordenación perceptiva de las sinusoides individuales y completar las pistas, se usan modelos psicoacústicos.
Se conoce colocar los parámetros de componente de ruido más importantes en la capa base, mientras que los parámetros de ruido restantes se distribuyen entre las capas de refinamiento. Esto se ha descrito en el documento con el título Error Protection and Concealment for HILN MPEG-4 Parametric Audio Coding. H. Pumhagen, B. Edler, y N. Meine. Audio Engineering Society (AES) 110th Convention, Preprint 5300, Amsterdam (NL), 12 a 15 de mayo de 2001.
La componente de ruido global también puede añadirse a la segunda capa de refinamiento. Los transitorios se consideran la componente de señal menos importante. Por tanto, normalmente se colocan en una de las capas de refinamiento más altas. Esto se describe en el documento con el título A 6kbps to 85kbps Scalable Audio Coder.
T.S. Verma y T.H.Y. Meng. 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2000). págs. 877--880. 5 a 9 de junio de 2000.
El problema de un flujo de bits en capas construido de la manera descrita anteriormente es la calidad de audio resultante de cada capa: La retirada de sinusoides mediante la eliminación de capas de refinamiento del flujo de bits da como resultado “huecos” espectrales en la señal decodificada. Estos huecos no se llenan con la componente de ruido (o cualquier otra componente de señal), puesto que el ruido se deriva habitualmente en el codificador dada la componente sinusoidal completa. Además, sin la componente (completa) de ruido, se introducen artefactos adicionales. Estos procedimientos de producción de un flujo de bits ajustable a escala dan como resultado una degradación en la calidad de audio sin armonía ni naturalidad.
Un objeto de la presente invención es proporcionar una solución a los problemas mencionados anteriormente.
Un procedimiento de codificación a modo de ejemplo de una señal de audio, en el que se genera una señal de código a partir de la señal de audio según un procedimiento de codificación predefinido, comprende las etapas de:
- transformar la señal de audio en un conjunto de parámetros de transformación que definen al menos una parte de la información espectro-temporal en dicha señal de audio, permitiendo dichos parámetros de transformación la generación de una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y
- representar dicha señal de audio mediante dicha señal de código y dichos parámetros de transformación.
De este modo se obtiene una doble descripción de la señal que comprende dos etapas de codificación, una primera codificación estándar y una segunda codificación adicional. La segunda codificación puede dar una descripción aproximada de la señal, de modo que pueda realizarse una realización estocástica y puedan añadirse partes apropiadas a la señal decodificada a partir de la primera decodificación. La descripción requerida del segundo codificador para hacer posible la realización de una señal estocástica requiere una tasa de transmisión de bits pequeña, mientras que otras descripciones dobles/múltiples requerirían mucha más tasa de transmisión de bits. Los parámetros de transformación pueden ser, por ejemplo, coeficientes de filtro que describen la envolvente espectral de la señal de audio y coeficientes que describen la envolvente de amplitud o energía temporal. Los parámetros pueden ser alternativamente información adicional que consiste en datos psicoacústicos tal como la curva de enmascaramiento, los patrones de excitación o el volumen específico de la señal de audio.
En un ejemplo, los parámetros de transformación comprenden coeficientes de predicción generados realizando predicción lineal en la señal de audio. Este es un modo sencillo de obtener los parámetros de transformación, y sólo se necesita una tasa de transmisión de bits baja para la transmisión de estos parámetros. Además, estos parámetros hacen posible construir mecanismos de filtración de decodificación sencillos.
En un ejemplo específico la señal de código comprende parámetros de amplitud y frecuencia que definen al menos una componente sinusoidal de dicha señal de audio. De este modo pueden resolverse los problemas con los codificadores paramétricos tal como se ha descrito anteriormente.
En un ejemplo específico los parámetros de transformación son representativos de una estimación de una amplitud de componentes sinusoidales de dicha señal de audio. De este modo la tasa de transmisión de bits de los datos de codificación totales disminuye, y además se obtiene una alternativa a la codificación por diferencial de tiempo de los parámetros de amplitud.
En un ejemplo específico la codificación se realiza en segmentos solapados de la señal de audio, con lo cual se genera un conjunto específico de parámetros para cada segmento, comprendiendo los parámetros, parámetros de transformación específicos del segmento y señal de código específica del segmento. De este modo la codificación puede usarse para codificar grandes cantidades de datos de audio, por ejemplo, un flujo en directo de datos de audio.
La invención se refiere a un procedimiento de decodificación de una señal de audio a partir de parámetros de transformación y a una señal de código generada según un procedimiento de codificación predefinido, comprendiendo el procedimiento las etapas de:
-
decodificar dicha señal de código en una primera señal de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento de codificación predefinido,
-
generar a partir de dichos parámetros de transformación una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio
-generar una segunda señal de audio eliminando de la señal de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y
- generar la señal de audio sumando la primera señal de audio y la segunda señal de audio.
De este modo el procedimiento puede establecer qué partes espectro-temporales de la primera señal generada mediante el procedimiento de decodificación faltan y rellenar estas partes con ruido apropiado (es decir, según la señal de entrada). Esto da como resultado una señal de audio, que es más próxima, desde un punto de vista espectro-temporal, a la señal de audio original.
En una realización del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:
- derivar una respuesta de frecuencia comparando un espectro de la primera señal de audio con un espectro de la señal de ruido, y
- filtrar la señal de ruido según dicha respuesta de frecuencia.
En una realización específica del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:
-generar una primera señal residual aplanando espectralmente la primera señal de audio dependiendo de los datos espectrales en los parámetros de transformación,
-
generar una segunda señal residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros de transformación,
-
derivar una respuesta de frecuencia comparando un espectro de la primera señal residual con un espectro de la segunda señal residual, y
- filtrar la señal de ruido según dicha respuesta de frecuencia.
En otra realización del procedimiento de decodificación, dicha etapa de generar la segunda señal de audio comprende:
-generar una primera señal residual aplanando espectralmente la primera señal de audio dependiendo de los datos espectrales en los parámetros de transformación,
-
generar una segunda señal residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros de transformación,
-
sumar la primera señal residual y la segunda señal residual dando lugar a una señal suma,
-
derivar una respuesta de frecuencia para aplanar espectralmente la señal suma,
-
actualizar la segunda señal residual filtrando la segunda señal residual según dicha respuesta de frecuencia,
-
repetir dichas etapas de sumar, derivar y actualizar hasta que un espectro de la señal suma sea sustancialmente plano, y
- filtrar la señal de ruido según todas las respuestas de frecuencia derivadas.
El ejemplo se refiere además a un dispositivo para codificar una señal de audio, comprendiendo el dispositivo un primer codificador para generar una señal de código según un procedimiento de codificación predefinido, en el que el dispositivo comprende además:
-
un segundo codificador para transformar la señal de audio en un conjunto de parámetros de transformación que define al menos una parte de la información espectro-temporal en dicha señal de audio, permitiendo dichos parámetros de transformación la generación de una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio, y
-
medios de procesamiento para representar dicha señal de audio mediante dicha señal de código y dichos parámetros de transformación.
La invención también se refiere a un dispositivo para decodificar una señal de audio a partir de parámetros de transformación y una señal de código generada según un procedimiento de codificación predefinido, comprendiendo el dispositivo:
-
un primer decodificador para decodificar dicha señal de código en una primera señal de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento de codificación predefinido,
-
un segundo decodificador para generar a partir de dichos parámetros de transformación una señal de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,
-primeros medios de procesamiento para generar una segunda señal de audio eliminando de la señal de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y
-
medios de suma para generar la señal de audio sumando la primera señal de audio y la segunda señal de audio.
A continuación se describirán realizaciones preferidas de la invención en referencia a las figuras, en las que
la figura 1 muestra una vista esquemática de un sistema para comunicar señales de audio según una realización de la invención,
la figura 2 ilustra el principio de la presente invención,
la figura 3 ilustra el principio de un decodificador según la presente invención,
la figura 4 ilustra un generador de señal de ruido según la presente invención,
la figura 5 ilustra una primera realización de una caja de control que va a usarse en el generador de ruido,
la figura 6 ilustra una segunda realización de una caja de control que va a usarse en el generador de ruido,
la figura 7 ilustra un ejemplo en el que la presente invención se usa para mejorar el rendimiento en codificadores específicos, en el que el primer codificador y el primer decodificador usan los parámetros creados por la segunda realización del codificador,
la figura 8 ilustra análisis y síntesis de predicción lineal,
la figura 9 ilustra una primera realización ventajosa de un codificador,
la figura 10 ilustra una realización de un decodificador para decodificar una señal codificada por el codificador de la figura 9,
la figura 11 ilustra una segunda realización ventajosa de un codificador,
la figura 12 ilustra una realización de un decodificador para decodificar una señal codificada por el codificador de la figura 11.
La figura 1 muestra una vista esquemática de un sistema para comunicar señales de audio según una realización de la invención. El sistema comprende un dispositivo 101 de codificación para generar una señal de audio codificada y un dispositivo 105 de decodificación para decodificar una señal codificada recibida en una señal de audio. El dispositivo 101 de codificación y el dispositivo 105 de decodificación pueden ser, cada uno, cualquier equipo electrónico o parte de tal equipo. En este caso el término equipo electrónico comprende ordenadores, tales como PC fijos y portátiles, equipos de comunicación de radio fijos y portátiles y otros dispositivos de bolsillo o portátiles, tales como teléfonos móviles, buscapersonas, reproductores de audio, reproductores multimedia, comunicadores, es decir, organizadores electrónicos, teléfonos inteligentes, asistentes digitales personales (PDA), ordenadores de bolsillo o similares. Debe observarse que el dispositivo 101 de codificación y el dispositivo de decodificación pueden combinarse en un único equipo electrónico, en el que se almacenan señales estereofónicas en un medio legible por ordenador para su posterior reproducción.
El dispositivo 101 de codificación comprende un codificador 102 para codificar una señal de audio. El codificador recibe la señal de audio x y genera una señal codificada T. La señal de audio puede originarse a partir de un conjunto de micrófonos, por ejemplo a través de un equipo electrónico adicional tal como un equipo de mezcla, etc. Las señales pueden recibirse además como una salida desde otro reproductor estéreo, de manera aérea como una señal de radio o mediante cualquier otro medio adecuado. Realizaciones preferidas de un codificador de este tipo se describirán a continuación. Según una realización, el codificador 102 se conecta a un transmisor 103 para transmitir la señal codificada T a través de un canal 109 de comunicaciones al dispositivo 105 de decodificación. El transmisor 103 puede comprender un conjunto de circuitos adecuado para permitir la comunicación de datos, por ejemplo a través de un enlace 109 de datos por cable o uno inalámbrico. Ejemplos de un transmisor de este tipo incluyen una interfaz de red, una tarjeta de red, un transmisor de radio, un transmisor para otras señales electromagnéticas adecuadas, tales como un LED para transmitir luz infrarroja, por ejemplo a través de un puerto IrDa, comunicaciones basadas en radio, por ejemplo a través de un transceptor Bluetooth o similar. Otros ejemplos de transmisores adecuados incluyen un módem de cable, un módem telefónico, un adaptador de red digital de servicios integrados (RDSI), un adaptador de línea de abonado digital (DSL), un transceptor de satélite, un adaptador Ethernet o similares. De manera correspondiente, el canal 109 de comunicaciones puede ser cualquier enlace de datos por cable o inalámbrico adecuado, por ejemplo de una red de comunicaciones basada en paquetes, tal como Internet u otra red TCP/IP, un enlace de comunicaciones de corto alcance, tal como un enlace de infrarrojos, una conexión Bluetooth u otro enlace basado en radio. Otros ejemplos de los canales de comunicaciones incluyen redes informáticas y redes de telecomunicaciones inalámbricas, tales como una red digital celular de datos por paquetes (CDPD), una red de sistema global para comunicaciones móviles (GSM), una red de acceso múltiple por división de código (CDMA), una red de acceso múltiple por división de tiempo (TDMA), una red de servicio general de paquetes por radio (GPRS), una red de tercera generación, tal como una red UMTS, o similares. Alternativamente, o adicionalmente, el dispositivo de codificación puede comprender una o más interfaces 104 para comunicar la señal T estéreo codificada al dispositivo 105 de decodificación.
Ejemplos de tales interfaces incluyen una unidad de disco para almacenar datos en un medio 110 legible por ordenador, por ejemplo, una unidad de disco flexible, una unidad de CD-ROM de lectura/escritura, una unidad de DVD, etc. Otros ejemplos incluyen una ranura de tarjeta de memoria, un lector/grabador de tarjeta magnética, una interfaz para acceder a una tarjeta inteligente, etc. De manera correspondiente, el dispositivo 105 de decodificación comprende un receptor 108 correspondiente para recibir la señal transmitida por el transmisor y/u otra interfaz 106 para recibir la señal estéreo codificada comunicada a través de la interfaz 104 y el medio 110 legible por ordenador. El dispositivo de decodificación comprende además un decodificador 107, que recibe la señal T recibida y la decodifica en una señal x’ de audio. Realizaciones preferidas de un decodificador de este tipo, según la invención, se describirán a continuación. La señal x’ de audio decodificada puede alimentarse posteriormente a un reproductor estéreo para su reproducción a través de un conjunto de altavoces, cascos o similares.
La solución a los problemas mencionados en la introducción es un procedimiento ciego para complementar una señal decodificada de audio con ruido. Esto significa que, a diferencia de las herramientas de extensión de ancho de banda, no es necesario tener ningún conocimiento del primer codificador. Sin embargo, son posibles soluciones dedicadas en las que los dos codificadores y decodificadores tengan conocimiento (parcial) de su funcionamiento específico.
La figura 2 ilustra el principio de la presente invención. El procedimiento comprende un primer codificador que genera un flujo b1 de bits codificando una señal x de audio que va a decodificarse mediante el primer decodificador 203. Entre el primer codificador y el primer decodificador se realiza una adaptación 205 generando el flujo b1’ de bits, que por ejemplo podrían ser capas que se eliminan antes de la transmisión a través de la red, y ni el primer codificador ni el primer decodificador tienen conocimiento acerca de cómo se realiza la adaptación. En el primer decodificador 203, el flujo b1’ de bits adaptado se decodifica dando como resultado la señal x1’. Un segundo codificador 207 analiza toda la señal x de entrada para obtener una descripción de las envolventes temporales y espectrales de la señal x de audio. Alternativamente, el segundo codificador puede generar información para captar datos relevantes desde un punto de vista psicoacústico, por ejemplo, la curva de enmascaramiento inducida por la señal de entrada. Esto da como resultado un flujo b2 de bits que es la entrada para el segundo decodificador 209. A partir de estos datos b2 secundarios puede generarse una señal de ruido, que imita la señal de entrada sólo en envolvente espectral y temporal o genera la misma curva de enmascaramiento que la entrada original, pero pierde completamente la coincidencia de forma de onda respecto a la señal original. A partir de la comparación de la primera señal decodificada x1’ y (las características de) la señal de ruido, las partes de la primera señal, que necesitan complementarse, se determinan en el segundo decodificador 209 dando como resultado la señal x2’ de ruido. Finalmente, sumando x1’ y x2’ usando un sumador 211 se genera la señal x’ decodificada.
El segundo codificador 207 codifica una descripción de la envolvente espectro-temporal de la señal x de entrada o de la curva de enmascaramiento. Un modo típico de derivar la envolvente espectro-temporal es usar predicción lineal (produciendo coeficientes de predicción, en los que la predicción lineal puede asociarse o bien con filtros FIR o IIR) y analizar el residuo producido por la predicción lineal para su envolvente temporal o de nivel de energía (local), por ejemplo, mediante conformación de ruido temporal (TNS). En este caso, el flujo b2 de bits contiene coeficientes de filtro para la envolvente espectral y parámetros para la envolvente de energía o amplitud temporal.
En la figura 3 se ilustra el principio del segundo decodificador para generar la señal de ruido adicional. El segundo decodificador 301 recibe la información espectro-temporal en b2, y basándose en esta información un generador 303 puede generar una señal r2’ de ruido que tiene la misma envolvente espectro-temporal que la señal x de entrada. Esta señal r2’, sin embargo, pierde la coincidencia de forma de onda respecto a la señal x original. Puesto que una parte de la señal x ya está contenida en el flujo b1 de bits y, por tanto, en x1’, una caja 305 de control que tiene las entrada b2’ y x1’, determina qué partes espectro-temporales ya están cubiertas en x1’. A partir de este conocimiento, puede diseñarse un filtro 307 variable en el tiempo que, cuando se aplica a la señal r2’ de ruido, crea una señal x2’ de ruido que cubre las partes espectro-temporales que están contenidas de manera insuficiente en x1’. Por motivos de reducción de la complejidad, la información desde el generador 303 puede ser accesible para la caja 305 de control.
En el caso de que la información b2 espectro-temporal esté contenida en coeficientes de filtro que describen las envolventes espectral y temporal por separado, el procesamiento en el generador 303 normalmente consiste en crear una realización de una señal estocástica, ajustar su amplitud (o energía) según la envolvente temporal transmitida y filtrar mediante un filtro de síntesis. En la figura 4 se ilustra con más detalle qué elementos pueden estar incluidos en el generador 303 y el filtro 307 variable en el tiempo. La creación de la señal x2’ consiste en generar una secuencia de ruido (blanco) usando un generador 401 de ruido y tres etapas 403, 405 y 407 de procesamiento:
-
adaptación de envolvente temporal mediante el conformador 403 temporal según los datos en b2 dando como resultado r2,
-
adaptación de envolvente espectral mediante el conformador 405 espectral según los datos en b2 dando como resultado r2’,
-y una operación de filtrado mediante el filtro 407 adaptativo usando coeficientes c2 variables en el tiempo a partir de la caja 305 de control en la figura 3.
Debe observarse que el orden de estas tres etapas de procesamiento es más bien arbitrario. El filtro 407 adaptativo puede realizarse mediante un filtro transversal (línea de retardo con derivaciones), un filtro ARMA, filtrando en el dominio de frecuencia, o mediante filtros inspirados psicoacústicamente tales como el filtro que aparece en predicción lineal deformada o predicción lineal basada en Laguerre y Kautz.
Existen numerosos modos de definir el filtro 407 adaptativo y de estimar sus parámetros c2 mediante la caja de control.
La figura 5 ilustra una primera realización del procesamiento realizado en la caja de control y el filtro adaptativo usando comparación directa. Los espectros (locales) X1’ y R2’ de x1’ y r2’ pueden crearse tomando el valor absoluto de las transformadas de Fourier (con aplicación de función ventana) respectivamente en 501 y 503. En el comparador 505 los espectros x1’ y r2’ se comparan definiendo un espectro de filtro objetivo basándose en la diferencia entre las características de x1’ y r2’. Por ejemplo, un valor de 0 puede asignarse a las frecuencias en las que el espectro de x1’ supera el de r2’ y un valor de 1 puede ajustarse en caso contrario. Esto especifica entonces una respuesta de frecuencia deseada, y pueden usarse varios procedimientos estándar para construir un filtro, que aproxime este comportamiento de frecuencia. La construcción del filtro realizada en la caja 507 de diseño de filtro produce coeficientes c2 de filtro. En el filtro 509 de ranura basado en los coeficientes c2 de filtro se filtra la señal r2’ de ruido, con lo que la señal x2’ de ruido sólo comprende las partes espectro-temporales contenidas de manera insuficiente en x1’. Finalmente, la señal x’ decodificada se genera sumando x1’ y x2’. Como alternativa a lo anterior, R2’ puede derivarse directamente del flujo b2 de parámetros.
La figura 6 ilustra una segunda realización del procesamiento realizado en la caja de control y el filtro adaptativo usando comparación residual. En esta realización se supone que el flujo b2 de bits contiene los coeficientes de un filtro de predicción que se aplicó al audio x de entrada en el codificador Enc2. Entonces la señal x1’ puede filtrarse mediante un filtro de análisis asociado con estos coeficientes de predicción creando una señal r1 residual. Por tanto, x1’ en primer lugar se aplana espectralmente en 601 basándose en los datos espectrales de b2 dando como resultado la señal r1. Entonces la transformada de Fourier local R1 se determina en 603 a partir de r1. El espectro de R1 se compara con el de R2, es decir, el espectro de r2. Puesto que r2 se crea aplicando una envolvente basándose en los datos b2 encima de una señal de ruido blanco producida por NG, el espectro de R2 puede determinarse directamente a partir de los parámetros en b2. La comparación llevada a cabo en 605 define un espectro de filtro objetivo, que se introduce a una caja 607 de diseño de filtro que produce los coeficientes c2 de filtro.
Una alternativa a la comparación de los espectros es usar predicción lineal. Supóngase que el flujo b2 de bits contiene los coeficientes de un filtro de predicción que se aplicó en el segundo codificador. Entonces la señal x1’ puede filtrarse mediante el filtro de análisis asociado con estos filtros de predicción creando una señal r1 residual. El filtro adaptativo AF puede definirse como:
L
 
1
l 1
con filtros F1(z) causales estables arbitrarios. La función de la caja de control es entonces estimar los coeficientes c1,i = 0, 1,..., L.
La suma de r1 y r2 filtrada por F(z) debe tener un espectro plano. Ahora pueden determinarse de manera iterativa los coeficientes. El procedimiento es el siguiente:
- Se construye una señal sk que es r1 más una r2,k, empezándose con r2,1 = r2 en la primera iteración k =
1.
-
Mediante predicción lineal, el espectro de la señal sk se aplana. La predicción lineal define un filtro F(k). Este filtro se aplica a r2,k creando r2,k+1. Esta señal se usa en la siguiente iteración.
-
La iteración se detiene cuando F(k) es suficientemente próximo al filtro trivial, es decir, cuando la señal Sk ya no puede aplanarse más y c1,...,cL ≈ 0.
En la práctica una única iteración puede ser suficiente. El filtro adaptativo consiste en la cascada de filtros F(1) a F(K-1) donde K es la última iteración.
Aunque no se ilustra en la figura 2, el flujo b2 de bits también puede ajustarse a escala parcialmente. Esto se permite siempre que la información espectro-temporal restante esté suficientemente intacta para garantizar un funcionamiento correcto del segundo decodificador.
F(z)
c1F1
(z)
c

0
En el esquema anterior se ha presentado como un trayecto adicional polivalente. Es obvio que el primer y el segundo codificador y el primer y el segundo decodificador pueden fusionarse, obteniendo así codificadores dedicados con la ventaja de un mejor rendimiento (en cuanto a calidad, tasa de transmisión de bits y/o complejidad) aunque a costa de perder generalidad. Un ejemplo de una situación de este tipo se representa en la figura 7 en la que los flujos b1 y b2 de bits generados por el primer codificador 701 y el segundo codificador 703 se funden en un único flujo de bits usando un multiplexor 705, y en la que el primer codificador 701 usa información a partir del segundo codificador 703. Por consiguiente, el decodificador 707 usa la información de ambos flujos b1 y b2 para la construcción de x1’.
En otro acoplamiento adicional, el segundo codificador puede usar información del primer codificador, y la decodificación del ruido se realiza entonces basándose en b, es decir, ya no hay una separación clara. En todos los casos, el flujo b de bits puede ajustarse a escala entonces sólo en la medida en que no afecte esencialmente a la operación de poder construir una señal de ruido complementaria adecuada.
A continuación, se darán ejemplos específicos cuando la invención se usa en combinación con un codificador de audio paramétrico (o sinusoidal) que funciona en modo de tasa de transmisión de bits ajustable a escala.
La señal de audio, limitada a una trama, se designa x[n]. La base de esta realización es aproximar la forma espectral de x[n] aplicando predicción lineal en el codificador de audio. El diagrama de bloques general de estos esquemas de predicción se ilustra en la figura 8. La señal de audio limitada a una trama, x[n], se predice mediante el módulo 801 LPA, dando como resultado el residuo r[n] de predicción y los coeficientes de predicción α1,.....αK, en los que el orden de predicción es K.
El residuo r[n] de predicción es una versión espectralmente aplanada de x[n] cuando los coeficientes de predicción α1,.....αK se determinan minimizando:
rn2
n
o una versión ponderada de r[n].
La función de transferencia del módulo de análisis de predicción lineal, LPA, puede designarse mediante FA(z) = FA(α1,.....αK; z), y la función de transferencia del módulo de síntesis, LPS, puede designarse mediante Fs(z), donde
1
Fs (z)  FA (z)
Las respuestas impulsionales de los módulos LPA y LPS pueden designarse mediante fA[n] y fS[n], respectivamente. La envolvente Er[n] temporal de la señal r[n] residual se mide trama a trama en el codificador y sus parámetros pE se colocan en el flujo de bits.
El decodificador produce una componente de ruido, que complementa la componente sinusoidal utilizando los parámetros de frecuencia sinusoidal. La envolvente Er[n] temporal, que puede reconstruirse a partir de los datos pE contenidos en el flujo de bits, se aplica a una señal estocástica de espectro plano para obtener raleatoria[n], donde raleatoria[n] tiene la misma envolvente temporal que r[n]. raleatoria también se denominará rr en lo sucesivo.
Las frecuencias sinusoidales asociadas con esta trama se designan θ1,...., θNc. Habitualmente, estas frecuencias se suponen constantes en codificadores de audio paramétricos, sin embargo, puesto que se enlazan para formar pistas, pueden variar, linealmente, por ejemplo, para garantizar transiciones de frecuencia más suaves en los límites de trama.
La señal aleatoria se atenúa entonces a estas frecuencias convolucionándola con la respuesta impulsional del siguiente filtro de rechazo de banda:
rn[n] = rr[n] * fn[n]
donde fn[n] = fn(θ1,...., θNc;n) y * designa la convolución. La forma espectral de la trama x[n] original a excepción de las regiones de frecuencia alrededor de las sinusoides codificadas se aproxima aplicando el módulo LPS (803 en la figura 8) a rn[n], dando como resultado la componente de ruido para la trama:
xn[n] = rn[n] * fs[n]
Por tanto, la componente de ruido se adapta según la componente sinusoidal para obtener la forma espectral deseada.
La versión x’[n] decodificada de la trama x[n] es la suma de las componentes sinusoidal y de ruido.
x’n[n] = xs[n] + xn[n]
5
10
15
20
25
30
35
Debe observarse que la componente sinusoidal xs[n] se decodifica a partir de los parámetros sinusoidales, contenidos en el flujo de bits, a la manera usual:
Nc
amcos( m  )
xs n  mnn
m1
donde am y m son la amplitud y la fase de la sinusoide m, respectivamente; y el flujo de bits contiene Nc sinusoides.
Los coeficientes de predicción α1,.....αK y la potencia P promedio derivados de la envolvente temporal proporcionan una estimación de los parámetros de amplitud sinusoidales:
m
am 2 imagen1 P FS (ej
Se espera que los errores de predicción δm[n] = am[n] - âm[n] sean pequeños, y codificarlos es barato. Como resultado, los parámetros de amplitud ya no se codifican entre tramas de manera diferencial, tal como es la práctica estándar en codificadores de audio paramétricos. En su lugar, se codifican los de δm[n]. Esto es una ventaja respecto a la codificación actual de parámetros de amplitud, puesto que los de δm[n] no son sensibles a borrados de trama. Los parámetros de frecuencia todavía se codifican entre tramas de manera diferencial. Cuando el flujo de bits en capas no contiene parámetros de amplitud, la componente sinusoidal se estima en el decodificador mediante:

am cos(m
Nc n  )
xsn mnn
m1
A continuación se describirán ejemplos concretos usando la teoría anterior.
El proceso de análisis, realizado en el codificador, usa ventanas complementarias de amplitud solapada para obtener coeficientes de predicción y parámetros sinusoidales. La ventana aplicada a una trama se designa w[n]. Una ventana adecuada es la ventana de Hann:
imagen1
con una duración de Ns muestras correspondiente a 10 - 60 ms. La señal de entrada se alimenta a través del filtro de análisis cuyos coeficientes se actualizan regularmente basándose en los coeficientes de predicción de medida, creando así la señal r[n]residual. La envolvente Er[n] temporal se mide y sus parámetros pE se colocan en el flujo de bits. Además, los coeficientes de predicción y parámetros sinusoidales se colocan en el flujo de bits y se transmiten también al decodificador.
En el decodificador, una señal aleatoria de espectro plano restocástica[n se genera a partir de un generador de ruido de curso libre. La amplitud de la señal aleatoria para la trama se ajusta de modo que su envolvente corresponde a los datos pE en el flujo de bits dando como resultado la señal rtrama[n]
Se aplica la función ventana a la señal rtrama[n] y la transformada de Fourier de esta señal a la que se ha aplicado la función ventana se designa mediante Rw. A partir de esta transformada de Fourier, las regiones alrededor de las componentes sinusoidales transmitidas se eliminan mediante filtro de rechazo de banda.
El filtro de rechazo de banda con ceros a frecuencias θ1[n],...., θNc[n], tiene la siguiente función de transferencia:
Nc j
F ,..., ;e 1wnmwn2m
n 1 Nc m1
donde wn(θ) es la ventana Hann:
imagen1
con ancho de banda θBW (efectivo) igual al ancho del lóbulo (espectral) principal de la ventana w[n] de tiempo. La componente de ruido para la trama se obtiene aplicando el filtro de rechazo de banda y el módulo LPS: xn =
IDFT(Rw·Fn·Fs), donde Fn y Fs son versiones muestreadas de manera apropiada de Fs y Fn y donde IDFT es la DFT inversa. Las secuencias xn consecutivas pueden añadirse y solaparse para formar la señal de ruido completa.
En la figura 9 se ilustra una realización de un codificador. En primer lugar se realiza un análisis de predicción lineal en la señal de audio usando un analizador 901 de predicción lineal que da como resultado los
~
11 K
coeficientes de predicción y el residuo r[n]. A continuación la envolvente Er[n] temporal del residuo, se determina en 903 y la salida comprende los parámetros pE. Tanto r [n] como la señal de audio x[n] original, junto con pE, se introducen en el codificador 905 residual. El codificador residual es un codificador sinusoidal modificado. Las sinusoides contenidas en el residuo r[n] se codifican haciendo uso de x[n], dando como resultado el residuo Cr codificado. (Información perceptiva, en forma de efectos de enmascaramiento espectrales y temporales y la relevancia perceptiva de sinusoides, se obtiene a partir de x[n].) Además, pE se usa para codificar los parámetros de amplitud sinusoidal de manera similar a la descrita anteriormente. La señal de audio x se representa entonces mediante α1,.....αK, pE y cr.
El decodificador para decodificar los parámetros α1,.....αK, pE y cr para generar la señal x’ de audio decodificada se ilustra en la figura 10. En el decodificador, cr se decodifica en el decodificador 1005 residual, dando como resultado que rs[n] es una aproximación de las componentes determinísticas (o sinusoides) contenidas en r[n]. Los parámetros de frecuencia sinusoidal θ1,....,θNc, contenidos en cr, también se alimentan al filtro 1001 de rechazo de banda. Un módulo 1003 de ruido blanco produce una señal rr[n] aleatoria de espectro plano con envolvente Er[n] temporal. Filtrar rr[n] mediante el filtro 1001 de rechazo de banda da como resultado rn[n] que en 1008 se suma a rs[n], dando como resultado rd[n] de espectro plano, que es una aproximación del residuo r[n] en el codificador. La envolvente espectral de la señal de audio original se aproxima aplicando el filtro 1007 de síntesis de predicción lineal a rd[n], dados los coeficientes de predicción α1,.....αK. La señal x’[n] resultante es la versión decodificada de x[n].
En la figura 11 se ilustra otra realización de un codificador. La propia señal de audio x[n] se codifica mediante un codificador 1101 sinusoidal; esto difiere de la realización en la figura 9. El análisis 1103 de predicción lineal se aplica a la señal de audio x[n] dando como resultado los coeficientes de predicción α1,.....αK y el residuo r[n]. La envolvente temporal del residuo, Er[n], se determina en 1105 y sus parámetros están contenidos en pE. Las sinusoides contenidas en x[n] se codifican mediante el codificador 1101 sinusoidal, donde pE y los coeficientes de predicción α1,.....αK se usan para codificar los parámetros de amplitud tal como se comentó anteriormente y el resultado es la señal cx codificada. La señal x de audio se representa entonces mediante α1,.....αK, pE y cx.
El decodificador para decodificar los parámetros α1,.....αK, pE y cx para generar la señal x’ de audio decodificada se ilustra en la figura 12. En el esquema de decodificador cx se decodifica mediante el decodificador 1201 sinusoidal haciendo uso de pE y los coeficientes de predicción α1,.....αK, dando como resultado xs[n]. El módulo 1203 de ruido blanco produce una señal rr[n] aleatoria de espectro plano con una envolvente temporal de Er[n]. Los parámetros de frecuencia sinusoidal θ1,....,θNc contenidos en cx, se alimentan a un filtro 1205 de rechazo de banda. Aplicar el filtro 1205 de rechazo de banda a rr[n] da como resultado rn[n]. Entonces, aplicar el módulo 1207 LPS a rn[n], dados los coeficientes de predicción α1,.....αK, da como resultado la componente de ruido xn[n]. Sumar xn[n] y xs[n] da como resultado x’[n] que es la versión decodificada de x[n].
Debe observarse que lo anterior puede implementarse como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de ellos.
Debe observarse que las realizaciones mencionadas anteriormente ilustran más que limitan la invención y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones cualquier símbolo de referencia colocado entre paréntesis no se interpretará como que limita la reivindicación. La expresión ‘que comprende’ no excluye la presencia de otros elementos o etapas aparte de los enumerados en una reivindicación. La invención puede implementarse por medio de hardware que comprende varios elementos distintos y por medio de un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumere varios medios, varios de estos medios pueden realizarse mediante el mismo elemento de hardware. El mero hecho de que se mencionen ciertas medidas en reivindicaciones diferentes dependientes entre sí no indica que una combinación de estas medidas no pueda usarse ventajosamente.

Claims (5)

  1. REIVINDICACIONES
    1. Procedimiento de decodificación de una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el procedimiento las etapas de:
    -
    decodificar dicha señal (b1) de código en una primera señal (x1’) de audio usando un procedimiento (203) de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido,
    -
    generar a partir de dichos parámetros (b2) de transformación una señal (r2’) de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,
    y estando caracterizado el procedimiento porque comprende las etapas de:
    -
    generar una segunda señal (x2’) de audio eliminando de la señal (r2’) de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1’) de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y
    -
    generar la señal de audio (x’) sumando (211) la primera señal (x1’) de audio y la segunda señal (x2’) de audio.
  2. 2. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:
    -
    derivar una respuesta de frecuencia comparando un espectro de la primera señal (x1’) de audio con un espectro de la señal (r2’) de ruido, y
    -
    filtrar la señal (r2’) de ruido según dicha respuesta de frecuencia.
  3. 3. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:
    -
    generar una primera señal (r1) residual aplanando espectralmente la primera señal (x1’) de audio dependiendo de los datos espectrales en los parámetros (b2) de transformación,
    -
    generar una segunda señal (r2) residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros (b2) de transformación,
    -
    derivar una respuesta de frecuencia comparando un espectro de la primera señal (r1) residual con un espectro de la segunda señal (r2) residual, y
    -
    filtrar la señal (r2’) de ruido según dicha respuesta de frecuencia.
  4. 4. Procedimiento según la reivindicación 1, en el que dicha etapa de generar la segunda señal (x2’) de audio comprende:
    -
    generar una primera señal (r1) residual aplanando espectralmente la primera señal (x1’) de audio dependiendo de los datos espectrales en los parámetros (b2) de transformación,
    -
    generar una segunda señal (r2) residual conformando temporalmente una secuencia de ruido dependiendo de los datos temporales en los parámetros (b2) de transformación,
    -
    sumar la primera señal (r1) residual y la segunda señal (r2) residual dando lugar a una señal (sk) suma,
    -
    derivar una respuesta de frecuencia para aplanar espectralmente la señal (sk) suma,
    -
    actualizar la segunda señal (r2) residual filtrando la segunda señal (r2) residual según dicha respuesta de frecuencia,
    -
    repetir dicha etapas de sumar, derivar y actualizar hasta que un espectro de la señal (sk) suma sea sustancialmente plano, y
    -
    filtrar la señal (r2’) de ruido según todas las respuestas de frecuencia derivadas.
  5. 5. Dispositivo (107) para decodificar una señal de audio a partir de parámetros (b2) de transformación y una señal (b1) de código generada según un procedimiento (201) de codificación predefinido, comprendiendo el dispositivo:
    -
    un primer decodificador (203) para decodificar dicha señal (b1) de código en una primera señal (x1’) de audio usando un procedimiento de decodificación correspondiente a dicho procedimiento (201) de codificación predefinido,
    -
    un segundo decodificador (209) para generar a partir de dichos parámetros (b2) de transformación una señal (r2’) de ruido que tiene características espectro-temporales sustancialmente similares a dicha señal de audio,
    y caracterizado por que comprende además:
    5 - primeros medios (305,307) de procesamiento para generar una segunda señal (x2’) de audio eliminando de la señal (r2’) de ruido partes espectro-temporales de la señal de audio que ya están contenidas en la primera señal (x1’) de audio, determinándose las partes espectro-temporales mediante una comparación de la primera señal (x1’) de audio y las características de la señal (r2’) de ruido, y
    - medios (211) de suma para generar la señal (x’) de audio sumando la primera señal (x1’) de audio y la 10 segunda señal (x2’) de audio.
ES04744411T 2003-06-30 2004-06-25 Mejora de la calidad de audio decodificado mediante la adición de ruido. Active ES2354427T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03101938 2003-06-30
EP03101938 2003-06-30

Publications (1)

Publication Number Publication Date
ES2354427T3 true ES2354427T3 (es) 2011-03-14

Family

ID=33547768

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04744411T Active ES2354427T3 (es) 2003-06-30 2004-06-25 Mejora de la calidad de audio decodificado mediante la adición de ruido.

Country Status (9)

Country Link
US (1) US7548852B2 (es)
EP (1) EP1642265B1 (es)
JP (1) JP4719674B2 (es)
KR (1) KR101058062B1 (es)
CN (1) CN100508030C (es)
AT (1) ATE486348T1 (es)
DE (1) DE602004029786D1 (es)
ES (1) ES2354427T3 (es)
WO (1) WO2005001814A1 (es)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004039345A1 (de) 2004-08-12 2006-02-23 Micronas Gmbh Verfahren und Vorrichtung zur Rauschunterdrückung in einer Datenverarbeitungseinrichtung
US7921007B2 (en) 2004-08-17 2011-04-05 Koninklijke Philips Electronics N.V. Scalable audio coding
JP5063363B2 (ja) * 2005-02-10 2012-10-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成方法
KR101207325B1 (ko) * 2005-02-10 2012-12-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성 합성 장치 및 방법
US8738382B1 (en) * 2005-12-16 2014-05-27 Nvidia Corporation Audio feedback time shift filter system and method
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
JPWO2008053970A1 (ja) * 2006-11-02 2010-02-25 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CN101939782B (zh) 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
CN103534754B (zh) * 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
KR20120115123A (ko) * 2011-04-08 2012-10-17 삼성전자주식회사 오디오 패킷을 포함하는 전송 스트림을 전송하는 디지털 방송 송신기, 이를 수신하는 디지털 방송 수신기 및 그 방법들
US9264094B2 (en) * 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
JP5727872B2 (ja) * 2011-06-10 2015-06-03 日本放送協会 復号化装置及び復号化プログラム
CN102983940B (zh) * 2012-11-14 2016-03-30 华为技术有限公司 数据传输方法、装置及系统
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
TW201615643A (zh) * 2014-06-02 2016-05-01 伊史帝夫博士實驗室股份有限公司 具有多重模式抗疼痛活性之1-氧雜-4,9-二氮雜螺十一烷化合物之烷基與芳基衍生物
KR102517867B1 (ko) 2015-08-25 2023-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 디코더 및 디코딩 방법
JP7075405B2 (ja) * 2016-12-28 2022-05-25 コーニンクレッカ フィリップス エヌ ヴェ 睡眠呼吸障害の特徴付け方法
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
KR20220009563A (ko) * 2020-07-16 2022-01-25 한국전자통신연구원 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
FR2821501B1 (fr) * 2001-02-23 2004-07-16 France Telecom Procede et dispositif de reconstruction spectrale d'un signal a spectre incomplet et systeme de codage/decodage associe
WO2002084646A1 (en) * 2001-04-18 2002-10-24 Koninklijke Philips Electronics N.V. Audio coding
KR100927842B1 (ko) * 2001-04-18 2009-11-23 아이피지 일렉트로닉스 503 리미티드 오디오 신호를 인코딩하고 디코딩하는 방법, 오디오 코더, 오디오 플레이어, 그러한 오디오 코더와 그러한 오디오 플레이어를 포함하는 오디오 시스템 및 오디오 스트림을 저장하기 위한 저장 매체
AU2002307533B2 (en) * 2001-05-10 2008-01-31 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
JP3923783B2 (ja) * 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7321559B2 (en) * 2002-06-28 2008-01-22 Lucent Technologies Inc System and method of noise reduction in receiving wireless transmission of packetized audio signals

Also Published As

Publication number Publication date
ATE486348T1 (de) 2010-11-15
JP2007519014A (ja) 2007-07-12
EP1642265A1 (en) 2006-04-05
US20070124136A1 (en) 2007-05-31
KR101058062B1 (ko) 2011-08-19
EP1642265B1 (en) 2010-10-27
KR20060025203A (ko) 2006-03-20
JP4719674B2 (ja) 2011-07-06
CN1816848A (zh) 2006-08-09
US7548852B2 (en) 2009-06-16
WO2005001814A1 (en) 2005-01-06
CN100508030C (zh) 2009-07-01
DE602004029786D1 (de) 2010-12-09

Similar Documents

Publication Publication Date Title
ES2354427T3 (es) Mejora de la calidad de audio decodificado mediante la adición de ruido.
ES2343862T3 (es) Metodos y disposiciones para un emisor y receptor de conversacion/audio.
ES2625952T3 (es) Método para la generación de tramas de ocultación en sistema de comunicación
ES2473277T3 (es) Dispositivo de codificación, dispositivo de descodificaci�n y método de los mismos
US10083698B2 (en) Packet loss concealment for speech coding
AU2006222963B2 (en) Time warping frames inside the vocoder by modifying the residual
ES2476992T3 (es) Codificador, descodificador, método de codificación y método de descodificaci�n
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
CA2659197C (en) Time-warping frames of wideband vocoder
KR102184654B1 (ko) 노이즈 주입이 가중된 프레임 손실 보정
EP2047463A2 (en) Systems and methods for modifying a window with a frame associated with an audio signal
ES2627581T3 (es) Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz
ES2253226T3 (es) Codigo interpolativo multipulso de tramas de voz.
ES2284473T3 (es) Metodo y aparato para determinar parametros de codificacion de voz.
RU2437170C2 (ru) Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации
EP1847988A1 (en) Pulse allocating method in voice coding
Florêncio Error-Resilient Coding and Error Concealment Strategies for Audio Communication
US20110058678A1 (en) Stereo signal conversion device, stereo signal inverse conversion device, and method thereof
JP2009134187A (ja) 符号化装置、復号装置、およびこれらの方法
September Packet loss concealment for speech coding