ES2275098T3 - Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. - Google Patents

Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. Download PDF

Info

Publication number
ES2275098T3
ES2275098T3 ES03736761T ES03736761T ES2275098T3 ES 2275098 T3 ES2275098 T3 ES 2275098T3 ES 03736761 T ES03736761 T ES 03736761T ES 03736761 T ES03736761 T ES 03736761T ES 2275098 T3 ES2275098 T3 ES 2275098T3
Authority
ES
Spain
Prior art keywords
spectral
signal
subband
spectral components
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03736761T
Other languages
English (en)
Inventor
Michael Mead Truman
Grant Allen Davidson
Matthew Conrad c/o Dolby Laboratories FELLERS
Mark Stuart c/o Dolby Laboratories VINTON
Matthew Aubrey Watson
Charles Quito c/o Dolby Laboratories ROBINSON
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2275098T3 publication Critical patent/ES2275098T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

Un método para generar información de audio, en que el método comprende: recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tenga uno o más componentes espectrales que representen contenido espectral de una señal de audio; identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificadas por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero; generar componentes espectrales sintetizados que correspondan a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que sean escalados de acuerdo con una envolvente de escalación igual o menor que el umbral; generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero correspondientes en la señal de subbanda particular; y generar la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.

Description

Sistema de codificación de audio que utiliza el llenado de agujeros espectrales.
Campo técnico
El presente invento se refiere en general a sistemas de codificación de audio, y se refiere más concretamente a la mejora de la calidad percibida de las señales de audio obtenidas de sistemas de codificación de audio.
Antecedentes en la técnica
Los sistemas de codificación de audio se usan para codificar una señal de audio en una señal codificada que es adecuada para transmisión o almacenamiento, y recibir o recuperar luego subsiguientemente la señal codificada y descodificarla para obtener una versión de la señal de audio original para su reproducción. Los sistemas de codificación de audio perceptuales tratan de codificar una señal de audio en una señal codificada que tiene unos requisitos más bajos de capacidad de información que la señal de audio original, y luego, subsiguientemente, descodificar la señal codificada para proporcionar una salida que sea perceptualmente indiferenciable de la señal de audio original. Un ejemplo de un sistema de codificación de audio perceptual se ha descrito en el documento A52 del Advanced Television Standards Committee (ATSC)/1994), al que se denomina como el Dolby AC-3. Otro ejemplo se ha descrito en la publicación de J. AES titulada ISO/IEC MPEG-2 Advanced Audio Coding, Vol 45, Nº 10, Octubre, 1997, págs. 789-814, y al cual se le denomina como de Advanced Audio Coding (AAC) (Codificación de Audio Avanzada). En estos dos sistemas de codificación, así como en otros muchos sistemas de codificación perceptuales, se aplica una batería de filtros de análisis a una señal de audio para obtener componentes espectrales que están dispuestos en grupos o bandas de frecuencia. Las anchuras de las bandas varían típicamente, y son usualmente proporcionales a las anchuras de las denominadas bandas críticas del sistema auditivo humano.
Los sistemas de codificación perceptuales pueden usarse para reducir los requisitos de capacidad de información de una señal de audio, al tiempo que preservan una medida subjetiva o percibida de la calidad de audio, de modo que pueda conducirse una presentación codificada de la señal de audio a través de un canal de comunicación usando una menor anchura de banda, o almacenarla en un medio de registro usando menos espacio. Los requisitos de capacidad de información se reducen mediante la cuantificación de los componentes espectrales. La cuantificación inyecta ruido en la señal cuantificada, pero los sistemas de codificación de audio perceptuales usan en general modelos psicoacústicos en un intento de controlar la amplitud del ruido de cuantificación, de modo que éste se enmascare o se haga inaudible mediante los componentes espectrales en la señal.
Los componentes espectrales dentro de una banda dada son frecuentemente cuantificados con la misma resolución de cuantificación, y se una un modelo psicoacústico para determinar la mayor resolución de cuantificación mínima, o la mínima relación de señal a ruido (SNR) que es posible sin inyectar un nivel audible de ruido de cuantificación. Esta técnica da resultados bastante buenos para bandas estrechas, pero no da tan buenos resultados para bandas más anchas cuando los requisitos de capacidad de información obliguen al sistema de codificación a usar una resolución de cuantificación relativamente basta. Los componentes espectrales de mayor valor en una banda ancha son usualmente cuantificados a un valor distinto de cero que tiene la deseada resolución pero los componentes espectrales de valores más pequeños en la banda son cuantificados a cero si tienen una magnitud que sea menor que el nivel mínimo de cuantificación. El número de componentes espectrales en una banda que son cuantificados a cero aumenta en general a medida que se aumenta la anchura de la banda, a medida que se aumenta la diferencia entre los valores mayor y menor de los componentes espectrales dentro de la banda, y a medida que se aumenta el nivel de cuantificación
mínimo.
Desafortunadamente, la existencia de muchos componentes espectrales cuantificados a cero (QTZ) en una señal codificada, puede degradar la calidad percibida de la señal de audio, incluso aunque se mantenga el ruido de cuantificación resultante lo suficientemente bajo como para que sea considerado inaudible o psicoacústicamente enmascarado por los componentes espectrales de la señal. Esta degradación tiene al menos tres causas. La primera causa es el hecho de que el ruido de cuantificación puede no ser inaudible, porque el nivel de enmascaramiento psicoacústico sea menor que el que se haya predicho por el modelo psicoacústico usado para determinar la resolución de la cuantificación. Una segunda causa es el hecho de que la creación de muchos componentes espectrales de QTZ puede reducir de forma audible la energía o la potencia de la señal de audio descodificada comparada con la energía o potencia de la señal de audio original. Una tercera causa es relevante para procesos de codificación en los que se usen baterías de filtros de distorsión-cancelación, tales como el Filtro de Espejo de Cuadratura (QMF), o una Transformación de Coseno Discreta (DCT) modificada particular, y una Transformación de Coseno Discreta Inversa (IDCT) modificada, conocidas como transformaciones de Time-Domain Aliasing Cancellation (TDAC), que se han descrito en la publicación de Princen y otros titulada "Subband(Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation" ICASSO, 1987 Conf. Proc., Mayo 1987, págs 2161-64.
En los sistemas de codificación en los que se usan baterías de filtros de distorsión-cancelación tales como el QMF o las transformaciones de TDAC, se usa una batería de filtros de análisis en el proceso de codificación que introduce distorsión o componentes espúrios en la señal codificada, pero se usa una batería de filtros de síntesis en el proceso de descodificación que, en teoría al menos, puede cancelar la distorsión. En la práctica, sin embargo, la capacidad de la batería de filtros de síntesis para cancelar la distorsión puede resultar significativamente perjudicada si los valores de uno o más componentes espectrales se cambian significativamente en el proceso de codificación. Por esta razón, los componentes espectrales de QTZ pueden degradar la calidad percibida de una señal de audio descodificada, incluso aunque el ruido de codificación sea inaudible debido a que los cambios en los valores de los componentes espectrales pueden perjudicar la capacidad de la batería de filtros de síntesis para cancelar la distorsión introducida por la batería de filtros de análisis.
Las técnicas usadas en los sistemas de codificación conocidos han proporcionado soluciones parciales para estos problemas. Los sistemas de codificación de transformaciones Dolby AC-3 y AAC, por ejemplo, tienen una cierta capacidad de generar una señal de salida a partir de una señal codificada que retiene el nivel de la señal de la señal de audio original, sustituyendo para ello el ruido para ciertos componentes espectrales QTZ en el descodificador. En estos dos sistemas, el codificador proporciona en la señal codificada una indicación de la potencia para una banda de frecuencia y el descodificador hace uso de esa indicación de potencia para sustituir un nivel apropiado de ruido por los componentes espectrales QTZ en la banda de frecuencia. Un codificador Dolby AC-3 proporciona una primera estimación del espectro de potencia a corto plazo que puede ser usada para generar un nivel apropiado de ruido. Cuando se ponen a cero todos los componentes espectrales de una banda, el descodificador llena la banda de ruido que tiene aproximadamente la misma potencia que la indicada en la primera estimación del espectro de potencia a corto plazo. El sistema de codificación AAC hace uso de una técnica denominada de Sustitución de Ruido Perceptual (PNS) que explícitamente transmite la potencia para una banda dada. Un ejemplo de esta técnica se ha descrito en el documento DE 19509149. El descodificador hace uso de esa información para añadir ruido para compensar esa potencia. Ambos sistemas añaden ruido únicamente en aquellas bandas que no tengan ningún componente espectral distinto de cero.
Desafortunadamente, estos sistemas no contribuyen a preservar los niveles de potencia en las bandas que contienen una mezcla de componentes QTZ y de componentes espectrales distintos de cero. En la Tabla 1, se muestra una banda hipotética de componentes espectrales para una señal de audio original, una representación codificada de tres bits de cada componente espectral que está ensamblado en una señal codificada, y los correspondientes componentes espectrales obtenidos por un descodificador a partir de la señal codificada. La banda cuantificada en la señal codificada tiene una combinación de componentes QTZ y de componentes espectrales distintos de cero.
\vskip1.000000\baselineskip
TABLA 1
Componentes de la Componentes Componentes
Señal Originales Cuantificados Descuantificados
10101010 101 10100000
00000000 000 00000000
00000010 000 00000000
00000001 000 00000000
00011111 000 00000000
00010101 000 00000000
00001111 000 00000000
01010101 010 01000000
11110000 111 11100000
La primera columna de la Tabla muestra un conjunto de números binarios sin signo que representan componentes espectrales en la señal de audio original que están agrupados en una sola banda. La segunda columna muestra una representación de los componentes espectrales cuantificados a 3 bits. Para este ejemplo, la parte de cada componente espectral que está por debajo de la resolución de 3 bits ha sido retirada por truncado. Los componentes espectrales cuantificados son transmitidos al descodificador y subsiguientemente descuantificados mediante la adición de bits cero para restituir la longitud original del componente espectral. Los componentes espectrales descuantificados se han representado en la tercera columna. Puesto que una mayor parte de los componentes espectrales han sido cuantificados a cero, la banda de componentes espectrales descuantificados contiene menos energía que la banda de componentes espectrales originales, y esa energía se concentra en unos pocos componentes espectrales distintos de cero. Esta reducción de la energía puede degradar la calidad percibida de la señal descodificada, como se ha explicado en lo que antecede.
Descripción del invento
Un objeto del presente invento es mejorar la calidad percibida de las señales de audio obtenidas de sistemas de codificación de audio evitando para ello, o reduciendo, la degradación relacionada con los componentes espectrales cuantificados a valor cero.
En un aspecto del presente invento, definido en las reivindicaciones independientes 1, 16 y 31, se proporciona información de audio recibiendo para ello una señal de entrada y obteniendo de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio; identificando dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero; generando componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral; generando un conjunto modificado de señales de subbanda, sustituyendo para ello los componentes espectrales utilizados por los correspondientes componentes espectrales de valor cero en la señal de subbanda particular; y generando la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.
En otro aspecto del presente invento, definido en las reivindicaciones independientes 12, 27 y 42, se proporciona una señal de salida, preferiblemente una señal de salida codificada, generando para ello un conjunto de señales de subbanda que cada una tiene uno más componentes espectrales que representan el contenido espectral de una señal de audio mediante la cuantificación de la información que se obtiene aplicando una batería de filtros de análisis a la información de audio; identificando dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tengan un valor distinto de cero y son cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el que una pluralidad de componentes espectrales tienen un valor cero; derivando información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos por los componentes espectrales que tienen valor cero en un receptor que genera información de audio en respuesta a la señal de salida; y generando la señal de salida mediante el ensamblaje de la información de control de escalación y la información que representa el conjunto de señales de subbanda.
Las varias características del presente invento, y sus realizaciones preferidas, pueden comprenderse mejor haciendo referencia al estudio que sigue y a los dibujos que se acompañan, en los cuales los números de referencia que son iguales refieren a los mismos elementos en las diversas figuras. Los contenidos del estudio que sigue y los dibujos se exponen como ejemplos únicamente, y no deberán entenderse como que representan limitaciones del alcance del presente invento, definido por las reivindicaciones que se acompañan.
Breve descripción de los dibujos
La Fig. 1a es un diagrama bloque esquemático de un codificador de audio.
La Fig. 1b es un diagrama bloque esquemático de un descodificador de audio.
Las Figs. 2a-2c son ilustraciones gráficas de funciones de cuantificación.
La Fig. 3 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética.
La Fig. 4 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con algunos componentes espectrales puestos a cero.
La Fig. 5 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados sustituidos en vez de componentes espectrales de valor cero.
La Fig. 6 es una ilustración esquemática gráfica de una respuesta de frecuencia hipotética parta un filtro de una batería de filtros de análisis.
La Fig. 7 es una ilustración esquemática gráfica de una envolvente de escalación que se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6.
La Fig. 8 es una ilustración esquemática gráfica de las envolventes de escalación derivadas de la salida de un filtro adaptable.
La Fig. 9 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6.
La Fig. 10 es una ilustración esquemática gráfica de umbrales de enmascaramiento psicoacústico hipotéticos.
La Fig. 11 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a los umbrales de enmascaramiento psicoacústico.
La Fig. 12 es una ilustración esquemática gráfica de una señal de subbanda hipotética.
La Fig. 13 es una ilustración esquemática gráfica de una señal de subbanda hipotética con algunos componentes espectrales puestos a cero.
La Fig. 14 es una ilustración esquemática gráfica de un umbral de enmascaramiento psicoacústico temporal hipotético.
La Fig. 15 es una ilustración esquemática gráfica de una señal de subbanda hipotética con componentes espectrales sintetizados ponderados mediante una envolvente de escalación que se aproxima a los umbrales de enmascaramiento psicoacústico temporal.
La Fig. 16 es una ilustración esquemática gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados mediante réplica espectral.
La Fig. 17 es un diagrama bloque esquemático de un aparato que puede ser usado para la puesta en práctica de varios aspectos del presente invento en un codificador o en un descodificador.
Modos de puesta en práctica del invento A. Generalidades
Varios aspectos del presente invento pueden ser incorporados en una gran diversidad de métodos y dispositivos para procesado de señales, incluyendo los dispositivos como los ilustrados en las Figs. 1a y 1b. Algunos aspectos pueden ponerse en práctica mediante el procesado realizado en solamente un método o dispositivo de descodificación. Para otros aspectos se requiere un procesado cooperativo efectuado con métodos o dispositivos tanto de codificación como de descodificación. En lo que sigue se hace una descripción de los procesos que pueden ser usados para poner en práctica estos diversos aspectos del presente invento, a continuación de una visión general de los dispositivos típicos que pueden usarse para realizar esos procesos.
1. Codificador
En la Fig. 1a se ha ilustrado una forma de ejecución de un codificador de audio de banda partida, en el cual la batería de filtros de análisis 12 recibe por la línea 11 información de audio que representa una señal de audio y, en respuesta, proporciona información digital que representa subbandas de frecuencia de la señal de audio. La información digital en cada una de las subbandas de frecuencia se cuantifica mediante un respectivo cuantificador 14, 15, 16, y se hace pasar al codificador 17. El codificador 17 genera una representación codificada de la información cuantificada, la cual es hecha pasar al realizador de formatos 18. En la forma de ejecución particular representada en la figura, las funciones de cuantificación en los cuantificadores 14, 15, 16 están adaptadas en respuesta a la información de control de cuantificación recibida del modelo 13, el cual genera la información de control de cuantificación en respuesta a la información de audio recibida por la línea 11. El realizador de formatos 18 ensambla la representación codificada de la información cuantificada y la información de control de cuantificación en una señal de salida adecuada para transmisión o almacenamiento, y pasa la señal de salida a lo largo de la línea 19.
En muchas aplicaciones de audio se usan funciones de cuantificación lineal q(x) tal como la función de cuantificación asimétrica de huella media de 3 bits ilustrada en la Fig. 2a. Sin embargo, para el presente invento no es importante ninguna forma particular de cuantificación. En las Figs. 2b y 2c se han ilustrado ejemplos de otras dos funciones q(x) que pueden usarse. En cada uno de estos ejemplos, la función de cuantificación q(x) proporciona un valor de salida igual a cero para cualquier valor de entrada x en el intervalo desde el valor en el punto 30 hasta el valor en el punto 31. En muchas aplicaciones, los dos valores en los puntos 30, 31 son de igual magnitud y de signos opuestos. Sin embargo, esto no es necesario, como se ha ilustrado en la Fig. 2b. Para facilitar el estudio, a un valor x que esté dentro del intervalo de valores de entrada cuantificados a cero (QTZ) mediante una función de cuantificación particular q(x), se le denomina como que es menor que el nivel de cuantificación mínimo de esa función de cuantificación.
En esta descripción, los términos tales como "codificador" y "codificación" no están destinados a implicar ningún tipo particular de procesado de la información. Por ejemplo, la codificación se usa frecuentemente para reducir los requisitos de capacidad de información; sin embargo, estos términos, en esta descripción, no se refieren necesariamente a ese tipo de procesado. El codificador 17 puede realizar esencialmente cualquier tipo de procesado que se desee. En una forma de ejecución, la información codificada se codifica en grupos de números escalados que tienen un factor de escalación común. En el sistema de codificación Dolby AC-3, por ejemplo, los componentes espectrales codificados son dispuestos en grupos o bandas de números de coma flotante, en donde los números de cada banda comparten un exponente de coma flotante. En el sistema de codificación AAC, se usa codificación de entropía tal como la codificación de Huffman. En otra forma de ejecución, se elimina el codificador 17 y se ensambla directamente la información codificada en la señal de salida. Para el presente invento no es importante ningún tipo particular de codificación.
El modelo 13 puede realizar esencialmente cualquier tipo de procesado que se pueda desear. Un ejemplo es un proceso en el que se aplica un modelo psicoacústico a información de audio para estimar los efectos de enmascaramiento psicoacústico de los diferentes componentes espectrales en la señal de audio. Son posibles muchas variantes. Por ejemplo, el modelo 13 puede generar la información de control de cuantificación en respuesta a la información de la subbanda de frecuencia disponible en la salida de la batería de filtros de análisis 12, en vez, o además, de la información de audio disponible en la entrada de la batería de filtros. Como otro ejemplo, se puede eliminar el modelo 13 y los cuantificadores 14, 15, 16 pueden usar funciones de cuantificación que no estén adaptadas. Para el presente invento no es importante ningún proceso particular de modelización.
2. Descodificador
En la Fig. 1b se ha ilustrado una forma de ejecución de un descodificador de audio de banda partida en el cual el realizador de formatos 22 recibe por la línea 21 una señal d entrada que conduce una representación codificada de información digital cuantificada que representa subbandas de frecuencia de una señal de audio. El realizador de formatos 22 obtiene la representación codificada de la señal de entrada y la pasa al descodificador 23. El descodificador 23 descodifica la representación codificada en subbandas de frecuencia de información codificada. La información digital codificada en cada una de las subbandas de frecuencia es descuantificada mediante un descuantificador 25, 26, 27 respectivo, y hecha pasar a la batería de filtros de síntesis 28, la cual genera a lo largo de la línea 29 información de audio que representa una señal de audio. En la forma de ejecución particular representada en la figura, las funciones de descuantificación en los descuantificadores 25, 26, 27 son adaptadas en respuesta a la información de control de cuantificación recibida del modelo 24, el cual genera la información de control de cuantificación en respuesta a la información de control obtenida por el realizador de formatos 22 desde la señal de entrada.
En esta descripción, los términos tales como "descodificador" y "descodificación" no están destinados a implicar ningún tipo particular de procesado de la información., El descodificador 23 puede realizar esencialmente cualquier tipo de procesado que se necesite o se desee. En una forma de ejecución que es la inversa a la de un proceso de codificación descrito en lo que antecede, la información cuantificada en grupos de números de coma flotante que tienen exponentes compartidos es descodificada en componentes cuantificados individuales que no comparten exponentes. En otra forma de ejecución, se usa la descodificación de entropía tal como la descodificación de Huffman. En otra forma de ejecución, se elimina el descodificador 23 y se obtiene la información cuantificada directamente por el realizador de formatos 22. Para el presente invento no es importante ningún tipo particular de descodificación.
El modelo 24 puede realizar esencialmente cualquier tipo de procesado que se pueda desear. Un ejemplo es un proceso en el que se aplica un modelo psicoacústico a información obtenida de la señal de entrada, para estimar los efectos de enmascaramiento psicoacústico de los diferentes componentes espectrales en una señal de audio. Como otro ejemplo, se elimina el modelo 24 y los descuantificadores 25, 26, 27 pueden usar funciones de cuantificación que no estén adaptadas, o bien pueden usar funciones de cuantificación que estén adaptadas en respuesta a la información de control de cuantificación obtenida directamente de la señal de entrada por el desformateador 22. Para el presente invento no es importante ningún proceso particular.
3. Baterías de filtros
Los dispositivos ilustrados en las Figs. 1a y 1b presentan componentes para tres subbandas de frecuencia. En una aplicación típica se usan muchas subbandas, pero solamente se han representado tres de ellas para mayor claridad de la ilustración. En principio, para el presente invento no es importante ningún número particular.
Las baterías de filtros de análisis y de síntesis pueden materializarse esencialmente de cualquier modo que se desee, incluyendo una amplia gana de tecnologías de filtro digital, transformaciones de bloque y transformaciones de onda pequeña. En un sistema de codificación de audio que tiene un codificador y un descodificador como los antes considerados, la batería de filtros de análisis 12 se materializa mediante la DCT modificada por la TDAC y la batería de filtros de síntesis 28 se materializa mediante la IDCT modificada por la TDAC antes mencionada; sin embargo, en principio no es importante ninguna forma particular de realizarla.
Las baterías de filtros de análisis que se materializan mediante transformaciones de bloque dividen un bloque o intervalo de una señal de entrada en un conjunto de coeficientes de transformación que representan el contenido espectral de ese intervalo de señal. Un grupo de uno o más coeficientes de transformación adyacentes representa el contenido espectral dentro de una subbanda de frecuencia particular que tiene una anchura de banda proporcional al número de coeficientes del grupo.
Las baterías de filtros de análisis que se materializan mediante algún tipo de filtro digital, tal como el de un filtro polifásico, en vez de una transformación de bloque, dividen una señal de entrada en un conjunto de señales de subbanda. Cada señal de subbanda es una representación en base de tiempo del contenido espectral de la señal de entrada dentro de una subbanda de frecuencia particular. Preferiblemente, la señal de subbanda se diezma de modo que cada señal de subbanda tiene una anchura de banda que es la proporcional al número de muestras en la señal de subbanda para un intervalo de tiempo unidad.
El estudio que sigue se refiere más en particular a formas de ejecución en las que se usan transformaciones de bloque como la antes mencionada transformación de TDAC. En este estudio, la denominación de "señal de subbanda" se refiere a grupos de uno más coeficientes de transformación adyacentes y la denominación de "componentes espectrales" se refiere a los coeficientes de la transformación Sin embargo, los principios del presente invento pueden aplicarse a otros tipos de formas de ejecución, de modo que la denominación de "señal de subbanda" puede entenderse, en general, en el sentido de que se refiere a una señal en base de tiempo que representa un contenido espectral de una subbanda de frecuencia particular de una señal, y la denominación de "componentes espectrales" puede entenderse, en general, de modo que se refiere a muestras de una señal de subbanda en base de tiempo.
4. Forma de ejecución
Varios aspectos del presente invento pueden ponerse en práctica en una gran diversidad de formas, incluyendo software en un sistema de ordenador para fines generales, o en algún otro aparato que incluya componentes más especializados, tales como un procesador de señales digital (DSP) acoplado por circuitos a componentes similares a los que se hallan en un sistema de ordenador para fines generales. La Fig. 17 es un diagrama bloque del dispositivo 70 que puede usarse para poner en práctica varios aspectos del presente invento en un codificador de audio o en un descodificador de audio DSP 72. El DSP 72 proporciona recursos de cálculo. La RAM 73 es la memoria de acceso directo (RAM) al sistema usada por el DSP 72 para el procesado de la señal. La ROM 74 representa una forma de almacenamiento persistente, tal como la memoria de solo lectura (ROM) para almacenar programas que se necesiten para hacer funcionar el dispositivo 70 y para poner en práctica varios aspectos del presente invento. El control de I/O (entrada/salida) representa circuitos de interfaz para recibir y transmitir señales por medio de canales de comunicación 76, 77. Los convertidores de analógico a digital y los convertidores de digital a analógico pueden incluirse en el control 75 de I/O según se desee, para recibir y/o transmitir señales de audio analógicas. En la realización representada, todos los componentes principales del sistema se conectan al bus 71, el cual puede representar más de un bus físico; sin embargo, para poner en práctica el presente invento no se requiere una arquitectura de bus.
En realizaciones ejecutadas en un sistema de ordenador para fines generales, pueden incluirse componentes adicionales para interfaz con dispositivos tales como un teclado o un ratón, y una presentación, y para controlar un dispositivo de almacenamiento que tenga un medio de almacenamiento tal como una cinta o un disco magnéticos, o bien un medio óptico. El medio de almacenamiento puede usarse para registrar programas de instrucciones para operar sistemas, utilidades y aplicaciones, y puede incluir realizaciones de programas que materialicen varios aspectos del presente invento.
Las funciones requeridas para la puesta en práctica de varios aspectos del presente invento pueden ejecutarse mediante componentes que estén materializados en una gran diversidad de formas, incluyendo componentes lógicos discretos, uno o más ASICs, y/o procesadores controlados por programa. La manera en que esos componentes sean materializados no es importante para el presente invento.
Las formas de ejecución del software del presente invento pueden conducirse mediante una diversidad de medios legibles por máquinas, tales como líneas de comunicaciones de banda de base o moduladas a través del espectro, incluyendo desde frecuencias supersónicas a ultravioletas, o bien medios de almacenamiento incluyendo aquellos que conducen información que usan esencialmente cualquier tecnología de registro magnético u óptico, incluyendo la cinta magnética, el disco magnético, y el disco óptico. Varios aspectos pueden también materializarse en varios componentes del sistema de ordenador 70 mediante circuitos de procesado, tales como los ASICs, los circuitos integrados parea fines generales, los microprocesadores controlados por programas realizados en diversas formas de ROM o de RAM, y por otras técnicas.
B. Descodificador
Varios aspectos del presente invento pueden ponerse en práctica en un descodificador que no requiere información ni procesado alguno especial de un codificador. Estos aspectos se describen en esta sección de la descripción. Otros aspectos que requieren información o procesado especial de un codificador se describen en la sección siguiente.
1. Agujeros Espectrales
La Fig. 3 es una ilustración gráfica del espectro de un intervalo de una señal de audio hipotética que ha de ser codificada mediante un sistema de codificación de transformación El espectro 41 representa una envolvente de la magnitud de los coeficientes de transformación o de los componentes espectrales. Durante el proceso de codificación, todos los componentes espectrales que tengan una magnitud menor que el umbral 40 son cuantificados a cero. Si se usa una función de cuantificación tal como la función q(x) ilustrada en la Fig. 2a, el umbral 40 corresponde a los niveles de cuantificación mínimos 30, 31. El umbral 40 se ha representado con un valor uniforme a través de toda la gama de frecuencias, por conveniencia para la ilustración. Esto no es típico en muchos sistemas de codificación. En los sistemas de codificación de audio perceptual que cuantifican uniformemente los componentes espectrales dentro de cada señal de subbanda, por ejemplo, el umbral 40 es uniforme dentro de cada subbanda de frecuencia, pero varía de una subbanda a otra. En tras formas de ejecución, el umbral 40 puede también variar dentro de una subbanda de frecuencia dada.
La Fig. 4 es una ilustración gráfica del espectro de la señal de audio hipotética que se ha representado mediante los componentes espectrales cuantificados. El espectro 42 representa una envolvente de la magnitud de los componentes espectrales que han sido cuantificados. El espectro representado en esta figura, así como en otras figuras, no presenta los efectos de la cuantificación de los componentes espectrales que tienen magnitudes iguales o mayores que el umbral 40. La diferencia entre los componentes espectrales QTZ en la señal cuantificada y los correspondientes componentes espectrales en la señal original, se han representado con rayados. Estas áreas rayadas representan "agujeros espectrales" en la representación cuantificada, que han de ser llenados con componentes espectrales sintetizados.
En una forma de ejecución del presente invento, un descodificador recibe una señal de entrada que conduce una representación codificada de señales de subbanda codificadas, tales como la representada en la Fig. 4. El descodificador descodifica la representación codificada e identifica esas señales de subbanda en las cuales uno o más componentes espectrales tienen valores distintos de cero, y una pluralidad de componentes espectrales que tienen un valor cero. Preferiblemente, las extensiones de las frecuencias de todas las señales de subbanda son o bien conocidas a priori para el descodificador, o bien están definidas por información de control en la señal de entrada. El descodificador genera los componentes espectrales sintetizados que corresponden a los componentes espectrales de valor cero, usando un proceso tal como los que se describen en lo que sigue. Los componentes sintetizados son escalados de acuerdo con la envolvente de escalación que es igual o menor que el umbral 40, y los componentes espectrales sintetizados escalados son sustituidos en vez de los componentes espectrales de valor cero en la señal de subbanda. El descodificador no requiere información alguna del codificador que indique explícitamente el nivel del umbral 40 si son conocidos los niveles de cuantificación mínimos 30, 31 de la función de cuantificación q(x) usada para cuantificar los componentes espectrales.
2. Escalación
La envolvente de escalación puede establecerse en una gran diversidad de formas. En lo que sigue se describen algunas formas. Se puede usar más de una forma. Por ejemplo, se puede derivar una envolvente de escalación compuesta que sea igual al máximo de todas las envolventes obtenidas de múltiples formas, o bien usar diferentes formas para establecer límites superior y/o inferior para la envolvente de escalación. Las formas pueden estar adaptadas o ser seleccionadas en respuesta a características de la señal codificada, y pueden ser adaptadas o ser seleccionadas como función de la frecuencia.
\vskip1.000000\baselineskip
a) Envolvente Uniforme
Una forma es adecuada para descodificadores en sistemas de codificación de transformación de audio y en sistemas que usen otras formas de ejecución de baterías de filtros. Esta forma establece una envolvente de escalación uniforme estableciendo para ello la misma igual al umbral 40. Un ejemplo de tal envolvente de escalación se ha representado en la Fig. 5, en la cual se hace uso de áreas rayadas para ilustrar los agujeros espectrales que están llenos de componentes espectrales sintetizados. El espectro 43 representa una envolvente de los componentes espectrales de una señal de audio con agujeros espectrales llenos con componentes espectrales sintetizados. Los límites superiores de las áreas rayadas representadas en esta figura, así como en las últimas figuras, no representan los niveles reales de los propios componentes espectrales sintetizados, sino que simplemente representan una envolvente de escalación para los componentes sintetizados. Los componentes sintetizados que se usan para llenar los agujeros espectrales tienen niveles espectrales que no exceden de la envolvente de escalación.
\vskip1.000000\baselineskip
b) Fuga Espectral
Una segunda forma de establecer una envolvente de escalación es adecuada para descodificadores en los sistemas de codificación de audio que usen transformaciones de bloque, pero está basada en principios que pueden ser aplicados a otros tipos de materializaciones de baterías de filtros. Esta forma proporciona una envolvente de escalación no uniforme que varía de acuerdo con las características de la fuga espectral de la respuesta de frecuencia del filtro prototipo en una transformación de bloque.
La respuesta 50 representada en la Fig. 6 es una ilustración gráfica de una respuesta de frecuencia hipotética para un filtro prototipo de transformación que presenta fuga espectral entre coeficientes. La respuesta incluye un lóbulo principal, usualmente designado como el paso de banda del filtro prototipo, y un cierto número de lóbulos laterales adyacentes al lóbulo principal que disminuyen de nivel para las frecuencias que se van alejando del centro del paso de banda. Los lóbulos laterales representan energía espectral que se fuga del paso de banda a bandas de frecuencia adyacentes. El régimen con el que disminuye el nivel de esos lóbulos laterales se designa como el régimen de descenso de la fuga espectral.
Las características de la fuga espectral de un filtro imponen limitaciones en el aislamiento espectral entre subbandas de frecuencia adyacentes. Si un filtro tiene una gran cantidad de fuga espectral, los niveles espectrales en las subbandas adyacentes no pueden diferir tanto como pueden hacerlo para filtros con más bajas cantidades de fuga espectral. La envolvente 51 representada en la Fig. 7 se aproxima a la forma de descenso de la fuga espectral representada en la Fig. 6. Los componentes espectrales sinterizados pueden ser escalados hasta tal envolvente, o bien, como alternativa, se puede usar esa envolvente como un límite inferior para una envolvente de escalación que se deriva mediante otras técnicas.
El espectro 44 en la Fig. 9 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados que son escalados de acuerdo con una envolvente que se aproxima al descenso de la fuga espectral. La envolvente de escalación para agujeros espectrales que están limitados a cada lado por energía espectral, es un compuesto de dos envolventes individuales, una para cada lado. El compuesto se forma tomando la mayor de las dos envolventes individuales.
\vskip1.000000\baselineskip
c) Filtro
Una tercera forma de establecer una envolvente de escalación es también adecuada para descodificadores en sistemas de codificación de audio que usen transformaciones de bloque, pero está también basada en principios que pueden ser aplicados a otros tipos de materializaciones de baterías de filtros. Esta forma proporciona una envolvente de escalación no uniforme que se deriva de la salida de un filtro en el dominio de la frecuencia que se aplica a coeficientes de transformación en el dominio de la frecuencia. El filtro puede ser un filtro de predicción, un filtro de paso bajo, o esencialmente cualquier otro tipo de filtro que proporcione la envolvente de escalación deseada. Esta forma requiere usualmente más recursos de cálculo que los que se requieren para las dos formas descritas en lo que antecede, pero la misma permite que la envolvente de escalación varíe en función de la frecuencia.
La Fig. 8 es una ilustración gráfica de dos envolventes de escalación derivadas de la salida de un filtro en el dominio de la frecuencia adaptable. Por ejemplo, la envolvente de escalación 52 podría usarse para llenar agujeros espectrales en señales o en partes de señales que se considere que sean más similares a tonos, y la envolvente de escalación 53 podría usarse para llenar agujeros espectrales en señales o en partes de señales que se considere que sean más similares a ruidos. Las propiedades de tonos y ruidos de una señal pueden ser valoradas de una diversidad de formas. Algunas de esas formas se analizan en lo que sigue. Alternativamente, podría usarse la envolvente de escalación 52 para llenar agujeros espectrales a frecuencias más bajas en donde las señales de audio son frecuentemente más similares a tonos y la envolventes de escalación 53 podría usarse para llenar agujeros espectrales a frecuencias más altas, en donde las señales de audio son frecuentemente más similares a ruidos.
\vskip1.000000\baselineskip
d) Enmascaramiento Perceptual
Una cuarta forma de establecer una envolvente de escalación es aplicable a descodificadores en sistemas de codificación de audio que materialicen baterías de filtros con transformaciones de bloque y otros tipos de filtros. Esta forma proporciona una envolvente de escalación no uniforme que varía de acuerdo con los efectos de enmascaramiento psicoacústico estimados.
En la Fig. 10 se han ilustrado dos umbrales de enmascaramiento psicoacústico hipotético. El umbral 61 representa los efectos del enmascaramiento psicoacústico de un componente espectral de más baja frecuencia 60, y el umbral 64 representa los efectos de enmascaramiento psicoacústico de un componente espectral de más alta frecuencia 63. Los umbrales de enmascaramiento tales como estos pueden usarse para derivar la forma de la envolvente de escalación.
El espectro 45 de la Fig. 11 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados de sustitución que son escalados de acuerdo con las envolventes que están basadas en el enmascaramiento psicoacústico. En el ejemplo ilustrado, la envolvente de escalación en el agujero espectral de más baja frecuencia se deriva de la parte inferior del umbral de enmascaramiento 61. La envolvente de escalación en el agujero espectral central es un compuesto de la parte superior del umbral de enmascaramiento 61 y la parte inferior del umbral de enmascaramiento 64. La envolvente de escalación en el agujero espectral de más alta frecuencia se deriva de la parte superior del umbral de enmascaramiento 64.
\vskip1.000000\baselineskip
e) Tonalidad
Una quinta forma de establecer una envolvente de escalación se basa en una valoración de la tonalidad de la señal de audio entera o de alguna parte de la señal, tal como para una o más señales de subbanda. La tonalidad puede valorarse de una serie de formas, incluido el cálculo de una Medida de la Planeidad Espectral (MPE) la cual es un cociente normalizado de la media aritmética de las muestras de señal dividida por la media geométrica de las muestras de señal. Un valor próximo a uno indica que una señal es muy similar a un ruido, y un valor próximo a cero indica una señal que es muy similar a un tono. La MPE puede usarse directamente para adaptar la envolvente de escalación. Cuando la MPE es igual a cero, no se usa ningún componente sintetizado para llenar un agujero espectral. Cuando la MPE es igual a uno, se usa el nivel máximo permitido de componentes sintetizados para llenar un agujero espectral. En general, sin embargo, un codificador es capaz de calcular una mejor MPE, debido a que tiene acceso a la señal de audio original entera, con anterioridad a la codificación. Es probable que un descodificador no calcule una MPE exacta debido a la presencia de componentes espectrales QTZ.
También un descodificador puede valorar la tonalidad analizando para ello la disposición o la distribución de los componentes espectrales de valor distinto de cero y los de valor cero. En una forma de ejecución, se considera que una señal es más similar a un tono que más similar a un ruido si series de componentes espectrales de valor cero están distribuidos entre unos pocos componentes de valor distinto de cero grande, debido a que esa disposición implica una estructura de picos espectrales.
En todavía otra forma de ejecución, un descodificador aplica un filtro de predicción a una o más señales de subbanda y determina la ganancia de predicción. Se considera que una señal es más similar a un tono a medida que se aumenta la ganancia de la predicción.
\newpage
f) Escalación Temporal
La Fig. 12 es una ilustración gráfica de una señal de subbanda hipotética que ha de ser codificada. La línea 46 representa una envolvente temporal de la magnitud de los componentes espectrales. Esta señal de subbanda puede estar compuesta de un componente espectral común, o coeficiente de transformación, en una secuencia de bloques obtenidos de una batería de filtros de análisis materializada mediante una transformación de bloque, o bien puede ser una señal de subbanda obtenida de otro tipo de batería de filtros de análisis materializada mediante un filtro digital distinto a una transformación de bloque, tal como un QMF. Durante el proceso de codificación, todos los componentes espectrales que tengan una magnitud menor que el umbral 40 son cuantificados a cero. El umbral 40 se ha representado con un valor uniforme a través de todo el intervalo de tiempo, por conveniencia para la ilustración. Esto no es típico en muchos sistemas de codificación que usan baterías de filtros materializadas mediante transformaciones de bloque.
La Fig. 13 es una ilustración gráfica de la señal de subbanda hipotética que está representada por componentes espectrales cuantificados. La línea 47 representa una envolvente temporal de la magnitud de los componentes espectrales que han sido cuantificados. La línea representada en esta figura, así como en otras figuras, no presenta los efectos de la cuantificación de los componentes espectrales que tienen magnitudes iguales o mayores que el umbral 40. La diferencia entre los componentes espectrales QTZ en la señal cuantificada y los componentes espectrales correspondientes en la señal original, se ha representado mediante un rayado. El área rayada representa un agujero espectral dentro de un intervalo de tiempo, que ha de ser llenado de componentes espectrales sintetizados.
En una forma de ejecución del presente invento, un descodificador recibe una señal de entrada que conduce a una representación codificada de señales de subbanda cuantificadas, tales como la representada en la Fig. 13. El descodificador descodifica la representación codificada e identifica esas señales de subbanda en las cuales una pluralidad de componentes espectrales tienen un valor cero, y van precedidas y/o seguidas de componentes espectrales que tienen valores distintos de cero. El descodificador genera componentes espectrales sintetizados que corresponden a los componentes espectrales de valor cero usando un proceso tal como los que se describen en lo que sigue. Los componentes sintetizados son escalados de acuerdo con una envolvente de escalación. Preferiblemente, la envolvente de escalación tiene en cuenta las características de enmascaramiento temporal del sistema auditivo humano.
En la Fig. 14 se ha ilustrado un umbral de enmascaramiento psicoacústico temporal hipotético. El umbral 68 representa los efectos de enmascaramiento psicoacústico de un componente espectral 67. La parte del umbral a la izquierda del componente espectral 67 representa características de enmascaramiento pretemporal, o bien del enmascaramiento que precede a la ocurrencia del componente espectral. La parte del umbral a la derecha del componente espectral 67 representa características de enmascaramiento post-temporal, o bien del enmascaramiento que sigue a la ocurrencia del componente espectral. Los efectos del post-enmascaramiento tienen en general una duración mucho más larga que la duración de los efectos del pre-enmascaramiento. Un umbral de enmascaramiento temporal tal como ese puede usarse para derivar una forma temporal de la envolvente de escalación.
La línea 48 de la Fig. 15 es una ilustración gráfica de una señal de subbanda hipotética que sustituye los componentes espectrales sintetizados que son escalados de acuerdo con las envolventes que están basadas en los efectos de enmascaramiento psicoacústico temporal. En el ejemplo representado, la envolvente de escalación es un compuesto de dos envolventes individuales. La envolvente individual para la parte de más baja frecuencia del agujero espectral se deriva de la parte de post-enmascaramiento del umbral 68. La envolvente individual para la parte de más alta frecuencia del agujero espectral se deriva de la parte de pre-enmascaramiento del umbral 68.
3. Generación de Componentes Sintetizados
Los componentes espectrales sintetizados pueden ser generados de una diversidad de formas. En lo que sigue se describen dos formas. Pueden usarse múltiples formas. Por ejemplo, se pueden seleccionar formas diferentes en respuesta a las características de la señal codificada, o bien como una función de la frecuencia.
Según una primera forma, se genera una señal similar a un ruido. Esencialmente, se puede usar cualquiera de entre una gran diversidad de formas para generar señales de pseudo-ruido.
En una segunda forma se usa una técnica denominada de traslación espectral o de réplica espectral, que copia los componentes espectrales de una o más subbandas de frecuencia. Los componentes espectrales de más baja frecuencia son usualmente copiados para llenar los agujeros espectrales de más altas frecuencias, debido a que los componentes de más altas frecuencias están frecuentemente relacionados de alguna manera con los componentes de más bajas frecuencias. En principio, sin embargo, los componentes espectrales pueden ser copiados a frecuencias más altas o más bajas.
El espectro 49 de la Fig. 16 es una ilustración gráfica del espectro de una señal de audio hipotética con componentes espectrales sintetizados generados por réplica espectral. Una parte del pico espectral se replica hacia arriba y hacia abajo en frecuencia múltiples veces para llenar los agujeros espectrales a las frecuencias bajas y medias, respectivamente. Una parte de los componentes espectrales próximos al extremo alt0o del espectro se replican en frecuencia para llenar el agujero espectral en el extremo alto del espectro. En el ejemplo ilustrado, los componente replicados son escalados mediante una envolvente de escalación uniforme. Sin embargo, se puede usar esencialmente cualquier forma de envolvente de escalación.
C. Codificador
Los aspectos del presente invento que se han descrito en lo que antecede pueden ponerse en práctica en un descodificador sin que se requiera modificación alguna de los codificadores existentes. Estos aspectos pueden ser favorecidos si se modifica el codificador para proporcionar información de control adicional que, de lo contrario, no estaría disponible para el descodificador. La información de control adicional puede usarse para adaptar la forma en que se generan los componentes espectrales sintetizados y se escalan en el descodificador.
1. Información de Control
Un codificador puede proporcionar una diversidad de escalación de información de control, la cual puede usar un descodificador para adaptar la envolvente de escalación para componentes espectrales sintetizados. Cada uno de los ejemplos que se consideran en lo que sigue puede ser previsto para una señal entera y/o para subbandas de frecuencia de la señal.
Si una subbanda contiene componentes espectrales que están significativamente por debajo del nivel de cuantificación mínimo, el codificador puede proporcionar información al descodificador que indique esas condición. La información puede ser un tipo de índice que pueda usar un descodificador para seleccionar de entre dos o más niveles de escalación, o bien la información puede conducir una cierta medida del nivel espectral, tal como la potencia media o la potencia cuadrática media (RMS). El descodificador puede adaptar la envolvente de escalación en respuesta a esa información.
Como se ha explicado en lo que antecede, un descodificador puede adaptar la envolvente de escalación en respuesta a efectos de enmascaramiento psicoacústico estimados a partir de la propia señal codificada; sin embargo, es posible que el codificador proporcione una mejor estimación de esos efectos de enmascaramiento cuando el codificador tenga acceso a características de la señal que se hayan perdido por un proceso de codificación. Esto puede conseguirse haciendo que el modelo 13 proporcione información psicoacústica al realizador de formatos 18 que, por lo demás, no pueda obtenerse de la señal codificada. Usando este tipo de información, el descodificador es capaz de adaptar la envolvente de escalación para configurar los componentes espectrales sintetizados de acuerdo con uno o más criterios psicoacústicos.
La envolvente de escalación puede ser también adaptada en respuesta a una cierta valoración de las cualidades similares a ruidos o similares a tonos de una señal o de una señal de subbanda. Esta valoración puede hacerse de varias formas, por ya sea el codificador o ya sea el descodificador; sin embargo, un codificador es usualmente capaz de efectuar una mejor valoración. Los resultados de esa valoración pueden ensamblarse con la señal codificada. Una valoración es la MPE que se ha descrito en lo que antecede.
También puede usarse una indicación de la MPE por un descodificador para seleccionar cuál de los procesos se debe usar para generar componentes espectrales sintetizados. Si la MPE está próxima a uno, se puede usar la técnica de generación de ruido. Si la MPE está próxima a cero., se puede usar la técnica de réplica espectral.
Un codificador puede proporcionar una cierta indicación de la potencia para los componentes espectrales distintos de cero y los QTZ como una relación de esas dos potencias. El descodificador puede calcular la potencia de los componentes espectrales distintos de cero y usar luego esa relación u otra indicación para adaptar apropiadamente la envolvente de escalación.
2. Coeficientes Espectrales Cero
En el estudio que antecede se ha hecho a veces referencia a componentes espectrales de valor cero como componentes QTZ (Cuantificados a Cero), debido a que la cuantificación es una fuente común de componentes de valor cero en una señal codificada. Esto no es esencial. El valor de los componentes espectrales en una señal codificada puede establecerse en cero por esencialmente cualquier proceso. Por ejemplo, un codificador puede identificar uno o dos de los mayores componentes espectrales en cada señal de subbanda por encima de una frecuencia particular, y establecer todos los demás componentes espectrales de esas señales de subbanda en cero. Como alternativa, un codificador puede establecer en cero todos los componentes espectrales en ciertas subbandas que sean menores que un cierto umbral. Un descodificador que incorpore varios aspectos del presente invento, como se ha descrito en lo que antecede, es capaz de llenar los agujeros espectrales con independencia del proceso que sea el responsable de haberlos creado.

Claims (45)

1. Un método para generar información de audio, en que el método comprende:
recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tenga uno o más componentes espectrales que representen contenido espectral de una señal de audio;
identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificadas por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero;
generar componentes espectrales sintetizados que correspondan a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que sean escalados de acuerdo con una envolvente de escalación igual o menor que el umbral;
generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero correspondientes en la señal de subbanda particular; y
generar la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.
2. El método de acuerdo con la reivindicación 1, en el que la envolvente de escalación es uniforme.
3. El método de acuerdo con la reivindicación 1 ó 2, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque que tiene fuga espectral entre componentes espectrales adyacentes, y la envolvente de escalación varía a un régimen sustancialmente igual a un régimen de descenso de la fuga espectral de la transformación de bloque.
4. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:
aplicar un filtro en el dominio de la frecuencia a uno o más componentes espectrales en el conjunto de señales de subbanda; y
derivar la envolvente de escalación de una salida del filtro en el dominio de la frecuencia.
5. El método de acuerdo con la reivindicación 4, que comprende variar la respuesta del filtro en el dominio de la frecuencia como función de la frecuencia.
6. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 5, que comprende:
obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda
y
adaptar la envolvente de escalación en respuesta a la medida de la tonalidad.
7. El método de acuerdo con la reivindicación 6, en el que se obtiene de la señal de entrada la medida de la tonalidad.
8. El método de acuerdo con la reivindicación 6, que comprende derivar la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.
9. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 8, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:
obtener de la señal de entrada una secuencia de conjuntos de señales de subbanda;
identificar una señal de subbanda común en la secuencia de conjuntos de señales de subbanda donde, para cada conjunto de la secuencia, uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero;
identificar un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes en la secuencia que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero;
escalar los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia, de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano;
generar una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor distinto de cero en los conjuntos; y
generar la información de audio aplicando para ello la batería de filtros de síntesis a la secuencia de conjuntos modificados de señales de subbanda.
10. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 9, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el método genera los componentes espectrales sintetizados mediante traslación espectral de otros componentes espectrales en el conjunto de señales de subbanda.
11. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 10, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.
12. Un método para generar una señal de salida, en que el método comprende:
generar un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan contenido espectral de una señal de audio, mediante la cuantificación de la información que se obtiene aplicando por la aplicación de una batería de filtros de análisis a información de audio;
identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificados mediante un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero;
derivar información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos en vez de los componentes espectrales que tienen un valor cero en un receptor que genere información de audio en respuesta a la señal de salida; y
generar la señal de salida ensamblando para ello la información de control de escalación y la información que representa el conjunto de señales de subbanda.
13. El método de acuerdo con la reivindicación 12, que comprende:
obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación de la medida de la tonalidad.
14. El método de acuerdo con la reivindicación 12 ó 13, que comprende:
obtener un umbral de enmascaramiento psicoacústico estimado de la señal de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación del umbral de enmascaramiento psicoacústico estimado.
15. El método de acuerdo con una cualquiera de las reivindicaciones 12 a 14, que comprende:
obtener dos medidas de niveles espectrales para partes de la señal de audio representadas por los componentes espectrales de valor distinto de cero y de valor cero; y
derivar la información de control de escalación de las dos medidas de niveles espectrales.
16. Un aparato para generar información de audio, en que el aparato comprende:
un desformateador que recibe una señal de entrada y obtiene de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan contenido espectral de una señal de audio;
un descodificador acoplado al desformateador que identifica dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero, que genera componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor distinto de cero en la señal de subbanda particular y son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral, y que genera un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales de valor cero en la señal de subbanda particular; y
una batería de filtros de síntesis acoplada al descodificador que genera la información de audio en respuesta al conjunto modificado de señales de subbanda.
17. El aparato de acuerdo con la reivindicación 16, en el que la envolvente de escalación es uniforme.
18. El aparato de acuerdo con la reivindicación 16 ó 17, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque que tiene fuga espectral entre los componentes espectrales adyacentes y la envolvente de escalación varía a un régimen sustancialmente igual al régimen de descenso de la fuga espectral de la transformación de bloque.
19. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 18, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el descodificador:
aplica un filtro en el dominio de la frecuencia a uno o más componentes espectrales del conjunto de señales de subbanda; y
deriva la envolvente de escalación de una salida del filtro en el dominio de la frecuencia.
20. El aparato de acuerdo con la reivindicación 19, en el que el descodificador varía la respuesta del filtro en el dominio de la frecuencia, como función de la frecuencia.
21. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 20, en el que el descodificador:
obtiene una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda; y
adapta la envolvente de escalación en respuesta a la medida de la tonalidad.
22. El aparato de acuerdo con la reivindicación 21, que obtiene la medida de la tonalidad de la señal de entrada.
23. El aparato de acuerdo con la reivindicación 21, en el que el descodificador deriva la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.
24. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 23, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y:
el desformateador obtiene una secuencia de conjuntos de señales de subbanda de la señal de entrada:
el descodificador identifica una señal de subbanda común en la secuencia de conjuntos de señales de subbanda donde, por cada conjunto de la secuencia, uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero, identifica un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes en la secuencia, que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero, escala los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero, de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano; y genera una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor cero en los conjuntos; y
la batería de filtros de síntesis genera la información de audio en respuesta a la secuencia de conjuntos modificados de señales de subbanda.
25. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 24, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque y el descodificador genera los componentes espectrales sintetizados mediante traslación espectral de otros componentes espectrales en el conjunto de señales de subbanda.
26. El aparato de acuerdo con una cualquiera de las reivindicaciones 16 a 25, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.
27. Un aparato para generar una señal de salida, en el que la secuencia comprende:
una batería de filtros de análisis que genera, en respuesta a la información de audio un conjunto de señales de subbanda que cada uno tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio;
cuantificadores acoplados a la batería de filtros de análisis que cuantifican los componentes espectrales;
un codificador acoplado a los cuantificadores que identifica dentro del conjunto se de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero, deriva la información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos en vez de los componentes espectrales que tienen un valor cero en un receptor que genera información de audio en respuesta a la señal de salida; y
un realizador de formatos acoplado al codificador que genera la señal de salida, ensamblando para ello la información de control de escalación y la información que representa el conjunto de señales de subbanda.
28. El aparato de acuerdo con la reivindicación 27, que:
obtiene una medida de la tonalidad de la señal d audio representada por el conjunto de señales de subbanda; y
deriva la información de control de la escalación de la medida de la tonalidad.
29. El aparato de acuerdo con la reivindicación 27 ó 28, que comprende un componente de modelización que:
obtiene un umbral de enmascaramiento psicoacústico estimado de la señal de audio representada por el conjunto de señales de subbanda, y
deriva la información de control de escalación del umbral de enmascaramiento psicoacústico estimado.
30. El aparato de acuerdo con una cualquiera de las reivindicaciones 27 a 29, que:
obtiene dos medidas de niveles espectrales para partes de la señal de audio representada por los componentes espectrales de de valor distinto de cero y de valor cero; y
deriva la información de control de la escalación de las dos medidas de los niveles espectrales.
31. Un medio que conduce un programa de instrucciones y que es legible por un dispositivo para ejecutar el programa de instrucciones para poner en práctica un método para generar información de audio, en que el método comprende:
recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio;
identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tienen un valor distinto de cero y son cuantificados por un cuantificador que tiene un nivel de cuantificación mínimo que corresponde a un umbral, y en el cual una pluralidad de componentes espectrales tienen un valor cero;
generar componentes espectrales sintetizados que corresponden a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que son escalados de acuerdo con una envolvente de escalación igual o menor que el umbral;
generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero en la señal de subbanda particular; y
generar la información de audio aplicando para ello una batería de filtros de síntesis al conjunto modificado de señales de subbanda.
32. El medio de acuerdo con la reivindicación 31, en el que la envolvente de escalación es uniforme.
33. El medio de acuerdo con la reivindicación 31 ó 32, en el que la batería de filtros de síntesis se materializa por una transformación de bloque que tiene fuga espectral entre componentes espectrales adyacentes y la envolvente de escalación varía a un régimen sustancialmente igual a un régimen de descenso de la fuga espectral de la transformación de bloque.
34. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 33, en el que la batería de filtros de síntesis se materializa mediante una transformación de bloque, y el método comprende:
aplicar un filtro en el dominio de la frecuencia a uno o más componentes espectrales en el conjunto de señales de subbanda; y
derivar la envolvente de escalación de una salida del filtro en el dominio de la frecuencia.
35. El medio de acuerdo con la reivindicación 34, en el que el método comprende variar la respuesta del filtro en el dominio de la frecuencia como función de la frecuencia.
36. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 35, en el que el método comprende:
obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda;
y
adaptar la envolvente de escalación en respuesta a la medida de la tonalidad.
37. El medio de acuerdo con la reivindicación 36, en el que el método obtiene la medida de la tonalidad de la señal de entrada.
38. El medio de acuerdo con la reivindicación 36, en el que el método comprende derivar la medida de la tonalidad de la forma en que están dispuestos los componentes espectrales de valor cero en la señal de subbanda particular.
39. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 38, en el que la batería de filtros de síntesis se materializa por una transformación de bloque y el método comprende:
obtener una secuencia de conjuntos de señales de subbanda de la señal de entrada;
identificar una señal de subbanda común en la secuencia de conjuntos de señales de subbanda, donde por cada conjunto de la secuencia uno o más componentes espectrales tienen un valor distinto de cero y una pluralidad de componentes espectrales tienen un valor cero;
identificar un componente espectral común dentro de la señal de subbanda común que tiene un valor cero en una pluralidad de conjuntos adyacentes de la secuencia, que van ya sea precedidos o ya sea seguidos de un conjunto con los componentes espectrales comunes que tienen un valor distinto de cero;
escalar los componentes espectrales sintetizados que corresponden a los componentes espectrales comunes de valor cero de acuerdo con la envolvente de escalación que varía de un conjunto a otro en la secuencia de acuerdo con las características del enmascaramiento temporal del sistema auditivo humano;
generar una secuencia de conjuntos modificados de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los correspondientes componentes espectrales comunes de valor cero en los conjun-
tos; y
generar la información de audio aplicando para ello la batería de filtros de síntesis a la secuencia de conjuntos modificados de señales de subbanda.
40. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 39, en el que la batería de filtros de síntesis se materializa por una transformación de bloque y el método genera los componentes espectrales sintetizados mediante transformación especial de otros componentes espectrales del conjunto de señales de subbanda.
41. El medio de acuerdo con una cualquiera de las reivindicaciones 31 a 40, en el que la envolvente de escalación varía de acuerdo con las características de enmascaramiento temporal del sistema auditivo humano.
42. Un medio que conduce un programa de instrucciones y es legible por un dispositivo para ejecutar el programa de instrucciones para poner en práctica un método para generar una señal de salida, en que el método comprende:
generar un conjunto de señales de subbanda que cada una tiene uno o más componentes espectrales que representan el contenido espectral de una señal de audio mediante la cuantificación de la información que se obtiene por aplicación de una batería de filtros de análisis a información de audio;
identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno o más componentes espectrales tengan un valor distinto de cero y sean cuantificados por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tengan un valor cero;
derivar información de control de escalación del contenido espectral de la señal de audio, en que la información de control de escalación controla la escalación de los componentes espectrales sintetizados a ser sintetizados y sustituidos en vez de los componentes espectrales que tienen un valor cero en un receptor que genere información de audio en respuesta a la señal de salida; y
generar la señal de salida mediante el ensamblaje de la información de control de escalación y la información que representa el conjunto de señales de subbanda.
\newpage
43. El medio de acuerdo con la reivindicación 42, en el que el método comprende:
obtener una medida de la tonalidad de la señal de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación de la medida de la tonalidad.
44. El medio de acuerdo con la reivindicación 42 ó 43, en el que el método comprende:
obtener un umbral de enmascaramiento psicoacústico estimado de la señal de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación del umbral de enmascaramiento psicoacústico estimado.
45. El medio de acuerdo con una cualquiera de las reivindicaciones 42 a 44, en el que el método comprende:
obtener dos medidas de niveles espectrales para partes de la señal de audio representada por los componentes espectrales de valor distinto de cero y de valor cero; y
derivar la información de control de escalación de las dos medidas de niveles espectrales.
ES03736761T 2002-06-17 2003-05-30 Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. Expired - Lifetime ES2275098T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US174493 1993-12-28
US10/174,493 US7447631B2 (en) 2002-06-17 2002-06-17 Audio coding system using spectral hole filling

Publications (1)

Publication Number Publication Date
ES2275098T3 true ES2275098T3 (es) 2007-06-01

Family

ID=29733607

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03736761T Expired - Lifetime ES2275098T3 (es) 2002-06-17 2003-05-30 Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales.

Country Status (20)

Country Link
US (4) US7447631B2 (es)
EP (6) EP2216777B1 (es)
JP (6) JP4486496B2 (es)
KR (5) KR100991450B1 (es)
CN (1) CN100369109C (es)
AT (7) ATE526661T1 (es)
CA (6) CA2489441C (es)
DE (3) DE60310716T8 (es)
DK (3) DK1514261T3 (es)
ES (1) ES2275098T3 (es)
HK (6) HK1070728A1 (es)
IL (2) IL165650A (es)
MX (1) MXPA04012539A (es)
MY (2) MY159022A (es)
PL (1) PL208344B1 (es)
PT (1) PT2216777E (es)
SG (3) SG177013A1 (es)
SI (2) SI2209115T1 (es)
TW (1) TWI352969B (es)
WO (1) WO2003107328A1 (es)

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
EP1522210A1 (en) * 2002-07-08 2005-04-13 Koninklijke Philips Electronics N.V. Audio processing
US7889783B2 (en) * 2002-12-06 2011-02-15 Broadcom Corporation Multiple data rate communication system
IN2010KN02913A (es) 2003-05-28 2015-05-01 Dolby Lab Licensing Corp
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CN1926610B (zh) * 2004-03-12 2010-10-06 诺基亚公司 合成单声道音频信号的方法、音频解码器和编码系统
KR101213840B1 (ko) * 2004-05-14 2012-12-20 파나소닉 주식회사 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
US7921007B2 (en) * 2004-08-17 2011-04-05 Koninklijke Philips Electronics N.V. Scalable audio coding
KR20070065401A (ko) * 2004-09-23 2007-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체
EP1805891B1 (en) 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US20070053603A1 (en) * 2005-09-08 2007-03-08 Monro Donald M Low complexity bases matching pursuits data coding and decoding
US7813573B2 (en) * 2005-09-08 2010-10-12 Monro Donald M Data coding and decoding with replicated matching pursuits
US8121848B2 (en) * 2005-09-08 2012-02-21 Pan Pacific Plasma Llc Bases dictionary for low complexity matching pursuits data coding and decoding
US7848584B2 (en) * 2005-09-08 2010-12-07 Monro Donald M Reduced dimension wavelet matching pursuits coding and decoding
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ES2312142T3 (es) * 2006-04-24 2009-02-16 Nero Ag Aparato avanzado para codificar datos de audio digitales.
ATE493794T1 (de) 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
WO2008051347A2 (en) 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
AU2012261547B2 (en) * 2007-03-09 2014-04-17 Skype Speech coding system and method
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
RU2438197C2 (ru) 2007-07-13 2011-12-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии
MX2010001394A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Frecuencia de transicion adaptiva entre llenado de ruido y extension de anchura de banda.
WO2009029036A1 (en) * 2007-08-27 2009-03-05 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for noise filling
EP2191465B1 (en) * 2007-09-12 2011-03-09 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment
US8583426B2 (en) * 2007-09-12 2013-11-12 Dolby Laboratories Licensing Corporation Speech enhancement with voice clarity
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
EP2229676B1 (en) * 2007-12-31 2013-11-06 LG Electronics Inc. A method and an apparatus for processing an audio signal
AU2009267459B2 (en) * 2008-07-11 2014-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
CN102099855B (zh) * 2008-08-08 2012-09-26 松下电器产业株式会社 频谱平滑化装置、编码装置、解码装置、通信终端装置、基站装置以及频谱平滑化方法
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028297A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
TWI788752B (zh) * 2009-02-18 2023-01-01 瑞典商杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
TWI559680B (zh) 2009-02-18 2016-11-21 杜比國際公司 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法
KR101078378B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 부호화기의 양자화 방법 및 장치
WO2010111876A1 (zh) * 2009-03-31 2010-10-07 华为技术有限公司 一种信号去噪的方法和装置及音频解码系统
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
MY160807A (en) 2009-10-20 2017-03-31 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Audio encoder,audio decoder,method for encoding an audio information,method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
TWI476757B (zh) 2010-01-12 2015-03-11 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、用以將音訊資訊編碼及解碼之方法、以及基於先前解碼頻譜值之範數來獲取脈絡子區值之電腦程式
CN102741921B (zh) * 2010-01-19 2014-08-27 杜比国际公司 改进的基于子带块的谐波换位
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
JPWO2011121955A1 (ja) * 2010-03-30 2013-07-04 パナソニック株式会社 オーディオ装置
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
WO2011156905A2 (en) * 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2631905A4 (en) * 2010-10-18 2014-04-30 Panasonic Corp DEVICE FOR TONE CODING AND TONE DECODING
EP2681734B1 (en) 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
EP3319087B1 (en) 2011-03-10 2019-08-21 Telefonaktiebolaget LM Ericsson (publ) Filling of non-coded sub-vectors in transform coded audio signals
US8706509B2 (en) 2011-04-15 2014-04-22 Telefonaktiebolaget L M Ericsson (Publ) Method and a decoder for attenuation of signal regions reconstructed with low accuracy
BR112013029347B1 (pt) 2011-05-13 2021-05-11 Samsung Electronics Co., Ltd método para alocação de bits, mídia de gravação permanente legível por computador, aparelho para alocação de bits, aparelho para codificação de áudio, e aparelho para decodificação de áudio
US9264094B2 (en) * 2011-06-09 2016-02-16 Panasonic Intellectual Property Corporation Of America Voice coding device, voice decoding device, voice coding method and voice decoding method
JP2013007944A (ja) 2011-06-27 2013-01-10 Sony Corp 信号処理装置、信号処理方法、及び、プログラム
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
WO2013188562A2 (en) * 2012-06-12 2013-12-19 Audience, Inc. Bandwidth extension via constrained synthesis
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
KR101897092B1 (ko) * 2013-01-29 2018-09-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 노이즈 채움 개념
ES2613651T3 (es) * 2013-01-29 2017-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad
KR101754094B1 (ko) 2013-04-05 2017-07-05 돌비 인터네셔널 에이비 고급 양자화기
JP6157926B2 (ja) * 2013-05-24 2017-07-05 株式会社東芝 音声処理装置、方法およびプログラム
EP2830060A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP3048609A4 (en) 2013-09-19 2017-05-03 Sony Corporation Encoding device and method, decoding device and method, and program
MX2016008172A (es) 2013-12-27 2016-10-21 Sony Corp Metodo y aparato de decodificacion, y programa.
EP2919232A1 (en) 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
JP6035270B2 (ja) 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
RU2572664C2 (ru) * 2014-06-04 2016-01-20 Российская Федерация, От Имени Которой Выступает Министерство Промышленности И Торговли Российской Федерации Устройство активного гашения вибрации
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN106714792A (zh) 2014-08-08 2017-05-24 R·米利亚乔 用于治疗炎症性和过敏性病理学的脂肪酸和十六酰胺乙醇的混合物
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US10460736B2 (en) * 2014-11-07 2019-10-29 Samsung Electronics Co., Ltd. Method and apparatus for restoring audio signal
US9691408B2 (en) 2014-12-16 2017-06-27 Psyx Research, Inc. System and method for dynamic equalization of audio data
WO2016123560A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual switching of microphones
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016162283A1 (en) * 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
US20170024495A1 (en) * 2015-07-21 2017-01-26 Positive Grid LLC Method of modeling characteristics of a musical instrument
KR102250472B1 (ko) * 2016-03-07 2021-05-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
JP2018092012A (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
TWI702241B (zh) * 2016-12-09 2020-08-21 南韓商Lg化學股份有限公司 封裝組成物
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
EP3544005B1 (en) 2018-03-22 2021-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding with dithered quantization
BR112020021809A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência com atraso de pós-processamento reduzido
MA52530A (fr) 2018-04-25 2021-03-03 Dolby Int Ab Intégration de techniques de reconstruction audio haute fréquence
WO2023117146A1 (en) * 2021-12-23 2023-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering
WO2023117145A1 (en) * 2021-12-23 2023-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using different noise filling methods
TW202334940A (zh) * 2021-12-23 2023-09-01 紐倫堡大學 在音訊寫碼中使用不同雜訊填充方法進行頻譜時間上改良之頻譜間隙填充之方法及設備
WO2023118605A1 (en) * 2021-12-23 2023-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US36478A (en) * 1862-09-16 Improved can or tank for coal-oil
US3995115A (en) 1967-08-25 1976-11-30 Bell Telephone Laboratories, Incorporated Speech privacy system
US3684838A (en) 1968-06-26 1972-08-15 Kahn Res Lab Single channel audio signal transmission system
JPS6011360B2 (ja) 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4667340A (en) 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US4790016A (en) 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
WO1986003873A1 (en) 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
US4885790A (en) 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4935963A (en) 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
JPS62234435A (ja) 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
DE3683767D1 (de) 1986-04-30 1992-03-12 Ibm Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens.
US4776014A (en) 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5127054A (en) 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
JPH02183630A (ja) * 1989-01-10 1990-07-18 Fujitsu Ltd 音声符号化方式
US5109417A (en) 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5054075A (en) 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
ATE138238T1 (de) 1991-01-08 1996-06-15 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
JP3134337B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル信号符号化方法
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
JP2563719B2 (ja) 1992-03-11 1996-12-18 技術研究組合医療福祉機器研究所 音声加工装置と補聴器
JP2693893B2 (ja) 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
JP3508146B2 (ja) * 1992-09-11 2004-03-22 ソニー株式会社 ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
JP3127600B2 (ja) * 1992-09-11 2001-01-29 ソニー株式会社 ディジタル信号復号化装置及び方法
US5402124A (en) * 1992-11-25 1995-03-28 Dolby Laboratories Licensing Corporation Encoder and decoder with improved quantizer using reserved quantizer level for small amplitude signals
US5394466A (en) * 1993-02-16 1995-02-28 Keptel, Inc. Combination telephone network interface and cable television apparatus and cable television module
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
JPH07225598A (ja) 1993-09-22 1995-08-22 Massachusetts Inst Of Technol <Mit> 動的に決定された臨界帯域を用いる音響コード化の方法および装置
JP3186489B2 (ja) * 1994-02-09 2001-07-11 ソニー株式会社 ディジタル信号処理方法及び装置
JP3277682B2 (ja) * 1994-04-22 2002-04-22 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
WO1995032499A1 (fr) * 1994-05-25 1995-11-30 Sony Corporation Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur
US5748786A (en) * 1994-09-21 1998-05-05 Ricoh Company, Ltd. Apparatus for compression using reversible embedded wavelets
JP3254953B2 (ja) 1995-02-17 2002-02-12 日本ビクター株式会社 音声高能率符号化装置
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US6138051A (en) * 1996-01-23 2000-10-24 Sarnoff Corporation Method and apparatus for evaluating an audio decoder
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
JP3519859B2 (ja) * 1996-03-26 2004-04-19 三菱電機株式会社 符号器及び復号器
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JPH1091199A (ja) * 1996-09-18 1998-04-10 Mitsubishi Electric Corp 記録再生装置
US5924064A (en) 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
JP3213582B2 (ja) * 1997-05-29 2001-10-02 シャープ株式会社 画像符号化装置及び画像復号装置
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
EP0926658A4 (en) * 1997-07-11 2005-06-29 Sony Corp INFORMATION DECODERS AND DECODING METHOD, INFORMATION CODERS AND CODING METHOD AND DISTRIBUTION MEDIUM
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP2000148191A (ja) * 1998-11-06 2000-05-26 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化装置
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
ATE269574T1 (de) * 1999-04-16 2004-07-15 Dolby Lab Licensing Corp Audiokodierung mit verstärkungsadaptiver quantisierung und symbolen verschiedener länge
FR2807897B1 (fr) * 2000-04-18 2003-07-18 France Telecom Methode et dispositif d'enrichissement spectral
JP2001324996A (ja) * 2000-05-15 2001-11-22 Japan Music Agency Co Ltd Mp3音楽データ再生方法及び装置
JP3616307B2 (ja) * 2000-05-22 2005-02-02 日本電信電話株式会社 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
JP2001343998A (ja) * 2000-05-31 2001-12-14 Yamaha Corp ディジタルオーディオデコーダ
JP3538122B2 (ja) 2000-06-14 2004-06-14 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
GB0103245D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of inserting additional data into a compressed signal
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling

Also Published As

Publication number Publication date
EP2207170B1 (en) 2011-10-19
PL372104A1 (en) 2005-07-11
SG2014005300A (en) 2016-10-28
KR100986153B1 (ko) 2010-10-07
DE60310716T2 (de) 2007-10-11
US7337118B2 (en) 2008-02-26
EP2207170A1 (en) 2010-07-14
DE60310716T8 (de) 2008-01-31
CA2736060C (en) 2015-02-17
DE60332833D1 (de) 2010-07-15
KR20050010950A (ko) 2005-01-28
IL216069A0 (en) 2011-12-29
CA2489441A1 (en) 2003-12-24
CA2736055C (en) 2015-02-24
JP2012078866A (ja) 2012-04-19
CA2736046A1 (en) 2003-12-24
HK1141624A1 (en) 2010-11-12
CA2736065C (en) 2015-02-10
IL165650A (en) 2010-11-30
CA2489441C (en) 2012-04-10
CA2735830A1 (en) 2003-12-24
IL216069A (en) 2015-11-30
IL165650A0 (en) 2006-01-15
JP2005530205A (ja) 2005-10-06
MY136521A (en) 2008-10-31
EP2207169B1 (en) 2011-10-19
JP2013214103A (ja) 2013-10-17
US8050933B2 (en) 2011-11-01
JP4486496B2 (ja) 2010-06-23
JP5253564B2 (ja) 2013-07-31
HK1070728A1 (en) 2005-06-24
KR100986152B1 (ko) 2010-10-07
HK1141623A1 (en) 2010-11-12
EP1514261B1 (en) 2006-12-27
CA2735830C (en) 2014-04-08
ATE349754T1 (de) 2007-01-15
HK1146146A1 (en) 2011-05-13
SI2209115T1 (sl) 2012-05-31
DK1736966T3 (da) 2010-11-01
ATE529858T1 (de) 2011-11-15
EP2216777B1 (en) 2011-12-07
PT2216777E (pt) 2012-03-16
EP2209115A1 (en) 2010-07-21
CA2736055A1 (en) 2003-12-24
DE60310716D1 (de) 2007-02-08
EP2216777A1 (en) 2010-08-11
ATE526661T1 (de) 2011-10-15
KR20050010945A (ko) 2005-01-28
SI2207169T1 (sl) 2012-05-31
KR20100063141A (ko) 2010-06-10
ATE529859T1 (de) 2011-11-15
EP1514261A1 (en) 2005-03-16
US20090144055A1 (en) 2009-06-04
KR100986150B1 (ko) 2010-10-07
SG177013A1 (en) 2012-01-30
CA2736065A1 (en) 2003-12-24
CN100369109C (zh) 2008-02-13
ATE536615T1 (de) 2011-12-15
WO2003107328A1 (en) 2003-12-24
MY159022A (en) 2016-11-30
EP1736966A3 (en) 2007-11-07
EP1736966A2 (en) 2006-12-27
JP2012103718A (ja) 2012-05-31
EP1736966B1 (en) 2010-07-07
JP5063717B2 (ja) 2012-10-31
DE60333316D1 (de) 2010-08-19
US20030233236A1 (en) 2003-12-18
TW200404273A (en) 2004-03-16
SG10201702049SA (en) 2017-04-27
KR100991448B1 (ko) 2010-11-04
KR20100086068A (ko) 2010-07-29
JP5345722B2 (ja) 2013-11-20
MXPA04012539A (es) 2005-04-28
PL208344B1 (pl) 2011-04-29
HK1070729A1 (en) 2005-06-24
JP2010156990A (ja) 2010-07-15
JP2012212167A (ja) 2012-11-01
DK1514261T3 (da) 2007-03-19
ATE473503T1 (de) 2010-07-15
CN1662958A (zh) 2005-08-31
US8032387B2 (en) 2011-10-04
EP2209115B1 (en) 2011-09-28
KR100991450B1 (ko) 2010-11-04
DK2207169T3 (da) 2012-02-06
ATE470220T1 (de) 2010-06-15
KR20100086067A (ko) 2010-07-29
TWI352969B (en) 2011-11-21
JP5253565B2 (ja) 2013-07-31
HK1146145A1 (en) 2011-05-13
CA2736060A1 (en) 2003-12-24
AU2003237295A1 (en) 2003-12-31
US7447631B2 (en) 2008-11-04
US20030233234A1 (en) 2003-12-18
JP5705273B2 (ja) 2015-04-22
EP2207169A1 (en) 2010-07-14
US20090138267A1 (en) 2009-05-28

Similar Documents

Publication Publication Date Title
ES2275098T3 (es) Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales.
Painter et al. Perceptual coding of digital audio
Herre Temporal noise shaping, qualtization and coding methods in perceptual audio coding: A tutorial introduction
KR100420891B1 (ko) 디지탈신호엔코딩/디코딩방법및장치와기록매체
KR100758215B1 (ko) 합성 필터 잡음 확산에 대한 보상을 갖는 지각 오디오코더의 양자화
PL183498B1 (pl) Dekoder akustyczny wielokanałowy
JPH09500772A (ja) 適応配分式符号化・復号装置及び方法
US20040196770A1 (en) Coding method, coding device, decoding method, and decoding device
KR100361720B1 (ko) 고능율부호화방법및장치
Wiese et al. Bitrate reduction of high quality audio signals by modeling the ears masking thresholds
Singh et al. Audio watermarking based on quantization index modulation using combined perceptual masking
AU2003237295B2 (en) Audio coding system using spectral hole filling
Brandenburg et al. Digital Audio Compression for Professional Applications
Spanias et al. Analysis of the MPEG-1 Layer III (MP3) Algorithm using MATLAB
Smithers et al. Increased efficiency MPEG-2 AAC encoding
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec