ES2275098T3 - Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. - Google Patents
Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. Download PDFInfo
- Publication number
- ES2275098T3 ES2275098T3 ES03736761T ES03736761T ES2275098T3 ES 2275098 T3 ES2275098 T3 ES 2275098T3 ES 03736761 T ES03736761 T ES 03736761T ES 03736761 T ES03736761 T ES 03736761T ES 2275098 T3 ES2275098 T3 ES 2275098T3
- Authority
- ES
- Spain
- Prior art keywords
- spectral
- signal
- subband
- spectral components
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 289
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000005236 sound signal Effects 0.000 claims abstract description 58
- 238000011002 quantification Methods 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 26
- 230000009466 transformation Effects 0.000 claims description 44
- 230000000873 masking effect Effects 0.000 claims description 43
- 230000004044 response Effects 0.000 claims description 28
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000007423 decrease Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 3
- 206010011224 Cough Diseases 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000000844 transformation Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013139 quantization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000202863 Pareas Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Abstract
Un método para generar información de audio, en que el método comprende: recibir una señal de entrada y obtener de la misma un conjunto de señales de subbanda que cada una tenga uno o más componentes espectrales que representen contenido espectral de una señal de audio; identificar dentro del conjunto de señales de subbanda una señal de subbanda particular en la cual uno más componentes espectrales tengan un valor distinto de cero y sean cuantificadas por un cuantificador que tenga un nivel de cuantificación mínimo que corresponde a un umbral, y en la cual una pluralidad de componentes espectrales tienen un valor cero; generar componentes espectrales sintetizados que correspondan a respectivos componentes espectrales de valor cero en la señal de subbanda particular y que sean escalados de acuerdo con una envolvente de escalación igual o menor que el umbral; generar un conjunto modificado de señales de subbanda sustituyendo para ello los componentes espectrales sintetizados en vez de los componentes espectrales de valor cero correspondientes en la señal de subbanda particular; y generar la información de audio mediante la aplicación de una batería de filtros de síntesis al conjunto modificado de señales de subbanda.
Description
Sistema de codificación de audio que utiliza el
llenado de agujeros espectrales.
El presente invento se refiere en general a
sistemas de codificación de audio, y se refiere más concretamente a
la mejora de la calidad percibida de las señales de audio obtenidas
de sistemas de codificación de audio.
Los sistemas de codificación de audio se usan
para codificar una señal de audio en una señal codificada que es
adecuada para transmisión o almacenamiento, y recibir o recuperar
luego subsiguientemente la señal codificada y descodificarla para
obtener una versión de la señal de audio original para su
reproducción. Los sistemas de codificación de audio perceptuales
tratan de codificar una señal de audio en una señal codificada que
tiene unos requisitos más bajos de capacidad de información que la
señal de audio original, y luego, subsiguientemente, descodificar
la señal codificada para proporcionar una salida que sea
perceptualmente indiferenciable de la señal de audio original. Un
ejemplo de un sistema de codificación de audio perceptual se ha
descrito en el documento A52 del Advanced Television Standards
Committee (ATSC)/1994), al que se denomina como el Dolby
AC-3. Otro ejemplo se ha descrito en la publicación
de J. AES titulada ISO/IEC MPEG-2 Advanced Audio
Coding, Vol 45, Nº 10, Octubre, 1997, págs.
789-814, y al cual se le denomina como de Advanced
Audio Coding (AAC) (Codificación de Audio Avanzada). En estos dos
sistemas de codificación, así como en otros muchos sistemas de
codificación perceptuales, se aplica una batería de filtros de
análisis a una señal de audio para obtener componentes espectrales
que están dispuestos en grupos o bandas de frecuencia. Las anchuras
de las bandas varían típicamente, y son usualmente proporcionales a
las anchuras de las denominadas bandas críticas del sistema
auditivo humano.
Los sistemas de codificación perceptuales pueden
usarse para reducir los requisitos de capacidad de información de
una señal de audio, al tiempo que preservan una medida subjetiva o
percibida de la calidad de audio, de modo que pueda conducirse una
presentación codificada de la señal de audio a través de un canal de
comunicación usando una menor anchura de banda, o almacenarla en un
medio de registro usando menos espacio. Los requisitos de capacidad
de información se reducen mediante la cuantificación de los
componentes espectrales. La cuantificación inyecta ruido en la
señal cuantificada, pero los sistemas de codificación de audio
perceptuales usan en general modelos psicoacústicos en un intento
de controlar la amplitud del ruido de cuantificación, de modo que
éste se enmascare o se haga inaudible mediante los componentes
espectrales en la señal.
Los componentes espectrales dentro de una banda
dada son frecuentemente cuantificados con la misma resolución de
cuantificación, y se una un modelo psicoacústico para determinar la
mayor resolución de cuantificación mínima, o la mínima relación de
señal a ruido (SNR) que es posible sin inyectar un nivel audible de
ruido de cuantificación. Esta técnica da resultados bastante buenos
para bandas estrechas, pero no da tan buenos resultados para bandas
más anchas cuando los requisitos de capacidad de información
obliguen al sistema de codificación a usar una resolución de
cuantificación relativamente basta. Los componentes espectrales de
mayor valor en una banda ancha son usualmente cuantificados a un
valor distinto de cero que tiene la deseada resolución pero los
componentes espectrales de valores más pequeños en la banda son
cuantificados a cero si tienen una magnitud que sea menor que el
nivel mínimo de cuantificación. El número de componentes espectrales
en una banda que son cuantificados a cero aumenta en general a
medida que se aumenta la anchura de la banda, a medida que se
aumenta la diferencia entre los valores mayor y menor de los
componentes espectrales dentro de la banda, y a medida que se
aumenta el nivel de cuantificación
mínimo.
mínimo.
Desafortunadamente, la existencia de muchos
componentes espectrales cuantificados a cero (QTZ) en una señal
codificada, puede degradar la calidad percibida de la señal de
audio, incluso aunque se mantenga el ruido de cuantificación
resultante lo suficientemente bajo como para que sea considerado
inaudible o psicoacústicamente enmascarado por los componentes
espectrales de la señal. Esta degradación tiene al menos tres
causas. La primera causa es el hecho de que el ruido de
cuantificación puede no ser inaudible, porque el nivel de
enmascaramiento psicoacústico sea menor que el que se haya predicho
por el modelo psicoacústico usado para determinar la resolución de
la cuantificación. Una segunda causa es el hecho de que la creación
de muchos componentes espectrales de QTZ puede reducir de forma
audible la energía o la potencia de la señal de audio descodificada
comparada con la energía o potencia de la señal de audio original.
Una tercera causa es relevante para procesos de codificación en los
que se usen baterías de filtros de
distorsión-cancelación, tales como el Filtro de
Espejo de Cuadratura (QMF), o una Transformación de Coseno Discreta
(DCT) modificada particular, y una Transformación de Coseno
Discreta Inversa (IDCT) modificada, conocidas como transformaciones
de Time-Domain Aliasing Cancellation (TDAC), que se
han descrito en la publicación de Princen y otros titulada
"Subband(Transform Coding Using Filter Bank Designs Based
on Time Domain Aliasing Cancellation" ICASSO, 1987 Conf. Proc.,
Mayo 1987, págs 2161-64.
En los sistemas de codificación en los que se
usan baterías de filtros de distorsión-cancelación
tales como el QMF o las transformaciones de TDAC, se usa una
batería de filtros de análisis en el proceso de codificación que
introduce distorsión o componentes espúrios en la señal codificada,
pero se usa una batería de filtros de síntesis en el proceso de
descodificación que, en teoría al menos, puede cancelar la
distorsión. En la práctica, sin embargo, la capacidad de la batería
de filtros de síntesis para cancelar la distorsión puede resultar
significativamente perjudicada si los valores de uno o más
componentes espectrales se cambian significativamente en el proceso
de codificación. Por esta razón, los componentes espectrales de QTZ
pueden degradar la calidad percibida de una señal de audio
descodificada, incluso aunque el ruido de codificación sea inaudible
debido a que los cambios en los valores de los componentes
espectrales pueden perjudicar la capacidad de la batería de filtros
de síntesis para cancelar la distorsión introducida por la batería
de filtros de análisis.
Las técnicas usadas en los sistemas de
codificación conocidos han proporcionado soluciones parciales para
estos problemas. Los sistemas de codificación de transformaciones
Dolby AC-3 y AAC, por ejemplo, tienen una cierta
capacidad de generar una señal de salida a partir de una señal
codificada que retiene el nivel de la señal de la señal de audio
original, sustituyendo para ello el ruido para ciertos componentes
espectrales QTZ en el descodificador. En estos dos sistemas, el
codificador proporciona en la señal codificada una indicación de la
potencia para una banda de frecuencia y el descodificador hace uso
de esa indicación de potencia para sustituir un nivel apropiado de
ruido por los componentes espectrales QTZ en la banda de frecuencia.
Un codificador Dolby AC-3 proporciona una primera
estimación del espectro de potencia a corto plazo que puede ser
usada para generar un nivel apropiado de ruido. Cuando se ponen a
cero todos los componentes espectrales de una banda, el
descodificador llena la banda de ruido que tiene aproximadamente la
misma potencia que la indicada en la primera estimación del
espectro de potencia a corto plazo. El sistema de codificación AAC
hace uso de una técnica denominada de Sustitución de Ruido
Perceptual (PNS) que explícitamente transmite la potencia para una
banda dada. Un ejemplo de esta técnica se ha descrito en el
documento DE 19509149. El descodificador hace uso de esa
información para añadir ruido para compensar esa potencia. Ambos
sistemas añaden ruido únicamente en aquellas bandas que no tengan
ningún componente espectral distinto de cero.
Desafortunadamente, estos sistemas no
contribuyen a preservar los niveles de potencia en las bandas que
contienen una mezcla de componentes QTZ y de componentes
espectrales distintos de cero. En la Tabla 1, se muestra una banda
hipotética de componentes espectrales para una señal de audio
original, una representación codificada de tres bits de cada
componente espectral que está ensamblado en una señal codificada, y
los correspondientes componentes espectrales obtenidos por un
descodificador a partir de la señal codificada. La banda
cuantificada en la señal codificada tiene una combinación de
componentes QTZ y de componentes espectrales distintos de cero.
\vskip1.000000\baselineskip
Componentes de la | Componentes | Componentes |
Señal Originales | Cuantificados | Descuantificados |
10101010 | 101 | 10100000 |
00000000 | 000 | 00000000 |
00000010 | 000 | 00000000 |
00000001 | 000 | 00000000 |
00011111 | 000 | 00000000 |
00010101 | 000 | 00000000 |
00001111 | 000 | 00000000 |
01010101 | 010 | 01000000 |
11110000 | 111 | 11100000 |
La primera columna de la Tabla muestra un
conjunto de números binarios sin signo que representan componentes
espectrales en la señal de audio original que están agrupados en una
sola banda. La segunda columna muestra una representación de los
componentes espectrales cuantificados a 3 bits. Para este ejemplo,
la parte de cada componente espectral que está por debajo de la
resolución de 3 bits ha sido retirada por truncado. Los componentes
espectrales cuantificados son transmitidos al descodificador y
subsiguientemente descuantificados mediante la adición de bits cero
para restituir la longitud original del componente espectral. Los
componentes espectrales descuantificados se han representado en la
tercera columna. Puesto que una mayor parte de los componentes
espectrales han sido cuantificados a cero, la banda de componentes
espectrales descuantificados contiene menos energía que la banda de
componentes espectrales originales, y esa energía se concentra en
unos pocos componentes espectrales distintos de cero. Esta
reducción de la energía puede degradar la calidad percibida de la
señal descodificada, como se ha explicado en lo que antecede.
Un objeto del presente invento es mejorar la
calidad percibida de las señales de audio obtenidas de sistemas de
codificación de audio evitando para ello, o reduciendo, la
degradación relacionada con los componentes espectrales
cuantificados a valor cero.
En un aspecto del presente invento, definido en
las reivindicaciones independientes 1, 16 y 31, se proporciona
información de audio recibiendo para ello una señal de entrada y
obteniendo de la misma un conjunto de señales de subbanda que cada
una tiene uno o más componentes espectrales que representan el
contenido espectral de una señal de audio; identificando dentro del
conjunto de señales de subbanda una señal de subbanda particular en
la cual uno o más componentes espectrales tienen un valor distinto
de cero y son cuantificados mediante un cuantificador que tiene un
nivel de cuantificación mínimo que corresponde a un umbral, y en el
cual una pluralidad de componentes espectrales tienen un valor
cero; generando componentes espectrales sintetizados que
corresponden a respectivos componentes espectrales de valor cero en
la señal de subbanda particular y que son escalados de acuerdo con
una envolvente de escalación igual o menor que el umbral; generando
un conjunto modificado de señales de subbanda, sustituyendo para
ello los componentes espectrales utilizados por los correspondientes
componentes espectrales de valor cero en la señal de subbanda
particular; y generando la información de audio mediante la
aplicación de una batería de filtros de síntesis al conjunto
modificado de señales de subbanda.
En otro aspecto del presente invento, definido
en las reivindicaciones independientes 12, 27 y 42, se proporciona
una señal de salida, preferiblemente una señal de salida codificada,
generando para ello un conjunto de señales de subbanda que cada una
tiene uno más componentes espectrales que representan el contenido
espectral de una señal de audio mediante la cuantificación de la
información que se obtiene aplicando una batería de filtros de
análisis a la información de audio; identificando dentro del
conjunto de señales de subbanda una señal de subbanda particular en
la cual uno o más componentes espectrales tengan un valor distinto
de cero y son cuantificados mediante un cuantificador que tiene un
nivel de cuantificación mínimo que corresponde a un umbral, y en el
que una pluralidad de componentes espectrales tienen un valor cero;
derivando información de control de escalación del contenido
espectral de la señal de audio, en que la información de control de
escalación controla la escalación de los componentes espectrales
sintetizados a ser sintetizados y sustituidos por los componentes
espectrales que tienen valor cero en un receptor que genera
información de audio en respuesta a la señal de salida; y generando
la señal de salida mediante el ensamblaje de la información de
control de escalación y la información que representa el conjunto
de señales de subbanda.
Las varias características del presente invento,
y sus realizaciones preferidas, pueden comprenderse mejor haciendo
referencia al estudio que sigue y a los dibujos que se acompañan, en
los cuales los números de referencia que son iguales refieren a los
mismos elementos en las diversas figuras. Los contenidos del estudio
que sigue y los dibujos se exponen como ejemplos únicamente, y no
deberán entenderse como que representan limitaciones del alcance
del presente invento, definido por las reivindicaciones que se
acompañan.
La Fig. 1a es un diagrama bloque esquemático de
un codificador de audio.
La Fig. 1b es un diagrama bloque esquemático de
un descodificador de audio.
Las Figs. 2a-2c son
ilustraciones gráficas de funciones de cuantificación.
La Fig. 3 es una ilustración esquemática gráfica
del espectro de una señal de audio hipotética.
La Fig. 4 es una ilustración esquemática gráfica
del espectro de una señal de audio hipotética con algunos
componentes espectrales puestos a cero.
La Fig. 5 es una ilustración esquemática gráfica
del espectro de una señal de audio hipotética con componentes
espectrales sintetizados sustituidos en vez de componentes
espectrales de valor cero.
La Fig. 6 es una ilustración esquemática gráfica
de una respuesta de frecuencia hipotética parta un filtro de una
batería de filtros de análisis.
La Fig. 7 es una ilustración esquemática gráfica
de una envolvente de escalación que se aproxima a la forma de
descenso de la fuga espectral representada en la Fig. 6.
La Fig. 8 es una ilustración esquemática gráfica
de las envolventes de escalación derivadas de la salida de un
filtro adaptable.
La Fig. 9 es una ilustración esquemática gráfica
del espectro de una señal de audio hipotética con componentes
espectrales sintetizados ponderados mediante una envolvente de
escalación que se aproxima a la forma de descenso de la fuga
espectral representada en la Fig. 6.
La Fig. 10 es una ilustración esquemática
gráfica de umbrales de enmascaramiento psicoacústico
hipotéticos.
La Fig. 11 es una ilustración esquemática
gráfica del espectro de una señal de audio hipotética con
componentes espectrales sintetizados ponderados mediante una
envolvente de escalación que se aproxima a los umbrales de
enmascaramiento psicoacústico.
La Fig. 12 es una ilustración esquemática
gráfica de una señal de subbanda hipotética.
La Fig. 13 es una ilustración esquemática
gráfica de una señal de subbanda hipotética con algunos componentes
espectrales puestos a cero.
La Fig. 14 es una ilustración esquemática
gráfica de un umbral de enmascaramiento psicoacústico temporal
hipotético.
La Fig. 15 es una ilustración esquemática
gráfica de una señal de subbanda hipotética con componentes
espectrales sintetizados ponderados mediante una envolvente de
escalación que se aproxima a los umbrales de enmascaramiento
psicoacústico temporal.
La Fig. 16 es una ilustración esquemática
gráfica del espectro de una señal de audio hipotética con
componentes espectrales sintetizados mediante réplica
espectral.
La Fig. 17 es un diagrama bloque esquemático de
un aparato que puede ser usado para la puesta en práctica de varios
aspectos del presente invento en un codificador o en un
descodificador.
Varios aspectos del presente invento pueden ser
incorporados en una gran diversidad de métodos y dispositivos para
procesado de señales, incluyendo los dispositivos como los
ilustrados en las Figs. 1a y 1b. Algunos aspectos pueden ponerse en
práctica mediante el procesado realizado en solamente un método o
dispositivo de descodificación. Para otros aspectos se requiere un
procesado cooperativo efectuado con métodos o dispositivos tanto de
codificación como de descodificación. En lo que sigue se hace una
descripción de los procesos que pueden ser usados para poner en
práctica estos diversos aspectos del presente invento, a
continuación de una visión general de los dispositivos típicos que
pueden usarse para realizar esos procesos.
En la Fig. 1a se ha ilustrado una forma de
ejecución de un codificador de audio de banda partida, en el cual
la batería de filtros de análisis 12 recibe por la línea 11
información de audio que representa una señal de audio y, en
respuesta, proporciona información digital que representa subbandas
de frecuencia de la señal de audio. La información digital en cada
una de las subbandas de frecuencia se cuantifica mediante un
respectivo cuantificador 14, 15, 16, y se hace pasar al codificador
17. El codificador 17 genera una representación codificada de la
información cuantificada, la cual es hecha pasar al realizador de
formatos 18. En la forma de ejecución particular representada en la
figura, las funciones de cuantificación en los cuantificadores 14,
15, 16 están adaptadas en respuesta a la información de control de
cuantificación recibida del modelo 13, el cual genera la
información de control de cuantificación en respuesta a la
información de audio recibida por la línea 11. El realizador de
formatos 18 ensambla la representación codificada de la información
cuantificada y la información de control de cuantificación en una
señal de salida adecuada para transmisión o almacenamiento, y pasa
la señal de salida a lo largo de la línea 19.
En muchas aplicaciones de audio se usan
funciones de cuantificación lineal q(x) tal como la función
de cuantificación asimétrica de huella media de 3 bits ilustrada en
la Fig. 2a. Sin embargo, para el presente invento no es importante
ninguna forma particular de cuantificación. En las Figs. 2b y 2c se
han ilustrado ejemplos de otras dos funciones q(x) que
pueden usarse. En cada uno de estos ejemplos, la función de
cuantificación q(x) proporciona un valor de salida igual a
cero para cualquier valor de entrada x en el intervalo desde el
valor en el punto 30 hasta el valor en el punto 31. En muchas
aplicaciones, los dos valores en los puntos 30, 31 son de igual
magnitud y de signos opuestos. Sin embargo, esto no es necesario,
como se ha ilustrado en la Fig. 2b. Para facilitar el estudio, a un
valor x que esté dentro del intervalo de valores de entrada
cuantificados a cero (QTZ) mediante una función de cuantificación
particular q(x), se le denomina como que es menor que el
nivel de cuantificación mínimo de esa función de
cuantificación.
En esta descripción, los términos tales como
"codificador" y "codificación" no están destinados a
implicar ningún tipo particular de procesado de la información. Por
ejemplo, la codificación se usa frecuentemente para reducir los
requisitos de capacidad de información; sin embargo, estos términos,
en esta descripción, no se refieren necesariamente a ese tipo de
procesado. El codificador 17 puede realizar esencialmente cualquier
tipo de procesado que se desee. En una forma de ejecución, la
información codificada se codifica en grupos de números escalados
que tienen un factor de escalación común. En el sistema de
codificación Dolby AC-3, por ejemplo, los
componentes espectrales codificados son dispuestos en grupos o
bandas de números de coma flotante, en donde los números de cada
banda comparten un exponente de coma flotante. En el sistema de
codificación AAC, se usa codificación de entropía tal como la
codificación de Huffman. En otra forma de ejecución, se elimina el
codificador 17 y se ensambla directamente la información codificada
en la señal de salida. Para el presente invento no es importante
ningún tipo particular de codificación.
El modelo 13 puede realizar esencialmente
cualquier tipo de procesado que se pueda desear. Un ejemplo es un
proceso en el que se aplica un modelo psicoacústico a información de
audio para estimar los efectos de enmascaramiento psicoacústico de
los diferentes componentes espectrales en la señal de audio. Son
posibles muchas variantes. Por ejemplo, el modelo 13 puede generar
la información de control de cuantificación en respuesta a la
información de la subbanda de frecuencia disponible en la salida de
la batería de filtros de análisis 12, en vez, o además, de la
información de audio disponible en la entrada de la batería de
filtros. Como otro ejemplo, se puede eliminar el modelo 13 y los
cuantificadores 14, 15, 16 pueden usar funciones de cuantificación
que no estén adaptadas. Para el presente invento no es importante
ningún proceso particular de modelización.
En la Fig. 1b se ha ilustrado una forma de
ejecución de un descodificador de audio de banda partida en el cual
el realizador de formatos 22 recibe por la línea 21 una señal d
entrada que conduce una representación codificada de información
digital cuantificada que representa subbandas de frecuencia de una
señal de audio. El realizador de formatos 22 obtiene la
representación codificada de la señal de entrada y la pasa al
descodificador 23. El descodificador 23 descodifica la
representación codificada en subbandas de frecuencia de información
codificada. La información digital codificada en cada una de las
subbandas de frecuencia es descuantificada mediante un
descuantificador 25, 26, 27 respectivo, y hecha pasar a la batería
de filtros de síntesis 28, la cual genera a lo largo de la línea 29
información de audio que representa una señal de audio. En la forma
de ejecución particular representada en la figura, las funciones de
descuantificación en los descuantificadores 25, 26, 27 son
adaptadas en respuesta a la información de control de cuantificación
recibida del modelo 24, el cual genera la información de control de
cuantificación en respuesta a la información de control obtenida
por el realizador de formatos 22 desde la señal de entrada.
En esta descripción, los términos tales como
"descodificador" y "descodificación" no están destinados a
implicar ningún tipo particular de procesado de la información., El
descodificador 23 puede realizar esencialmente cualquier tipo de
procesado que se necesite o se desee. En una forma de ejecución que
es la inversa a la de un proceso de codificación descrito en lo que
antecede, la información cuantificada en grupos de números de coma
flotante que tienen exponentes compartidos es descodificada en
componentes cuantificados individuales que no comparten exponentes.
En otra forma de ejecución, se usa la descodificación de entropía
tal como la descodificación de Huffman. En otra forma de ejecución,
se elimina el descodificador 23 y se obtiene la información
cuantificada directamente por el realizador de formatos 22. Para el
presente invento no es importante ningún tipo particular de
descodificación.
El modelo 24 puede realizar esencialmente
cualquier tipo de procesado que se pueda desear. Un ejemplo es un
proceso en el que se aplica un modelo psicoacústico a información
obtenida de la señal de entrada, para estimar los efectos de
enmascaramiento psicoacústico de los diferentes componentes
espectrales en una señal de audio. Como otro ejemplo, se elimina el
modelo 24 y los descuantificadores 25, 26, 27 pueden usar funciones
de cuantificación que no estén adaptadas, o bien pueden usar
funciones de cuantificación que estén adaptadas en respuesta a la
información de control de cuantificación obtenida directamente de la
señal de entrada por el desformateador 22. Para el presente invento
no es importante ningún proceso particular.
Los dispositivos ilustrados en las Figs. 1a y 1b
presentan componentes para tres subbandas de frecuencia. En una
aplicación típica se usan muchas subbandas, pero solamente se han
representado tres de ellas para mayor claridad de la ilustración.
En principio, para el presente invento no es importante ningún
número particular.
Las baterías de filtros de análisis y de
síntesis pueden materializarse esencialmente de cualquier modo que
se desee, incluyendo una amplia gana de tecnologías de filtro
digital, transformaciones de bloque y transformaciones de onda
pequeña. En un sistema de codificación de audio que tiene un
codificador y un descodificador como los antes considerados, la
batería de filtros de análisis 12 se materializa mediante la DCT
modificada por la TDAC y la batería de filtros de síntesis 28 se
materializa mediante la IDCT modificada por la TDAC antes
mencionada; sin embargo, en principio no es importante ninguna forma
particular de realizarla.
Las baterías de filtros de análisis que se
materializan mediante transformaciones de bloque dividen un bloque
o intervalo de una señal de entrada en un conjunto de coeficientes
de transformación que representan el contenido espectral de ese
intervalo de señal. Un grupo de uno o más coeficientes de
transformación adyacentes representa el contenido espectral dentro
de una subbanda de frecuencia particular que tiene una anchura de
banda proporcional al número de coeficientes del grupo.
Las baterías de filtros de análisis que se
materializan mediante algún tipo de filtro digital, tal como el de
un filtro polifásico, en vez de una transformación de bloque,
dividen una señal de entrada en un conjunto de señales de subbanda.
Cada señal de subbanda es una representación en base de tiempo del
contenido espectral de la señal de entrada dentro de una subbanda
de frecuencia particular. Preferiblemente, la señal de subbanda se
diezma de modo que cada señal de subbanda tiene una anchura de banda
que es la proporcional al número de muestras en la señal de
subbanda para un intervalo de tiempo unidad.
El estudio que sigue se refiere más en
particular a formas de ejecución en las que se usan transformaciones
de bloque como la antes mencionada transformación de TDAC. En este
estudio, la denominación de "señal de subbanda" se refiere a
grupos de uno más coeficientes de transformación adyacentes y la
denominación de "componentes espectrales" se refiere a los
coeficientes de la transformación Sin embargo, los principios del
presente invento pueden aplicarse a otros tipos de formas de
ejecución, de modo que la denominación de "señal de subbanda"
puede entenderse, en general, en el sentido de que se refiere a una
señal en base de tiempo que representa un contenido espectral de
una subbanda de frecuencia particular de una señal, y la
denominación de "componentes espectrales" puede entenderse, en
general, de modo que se refiere a muestras de una señal de subbanda
en base de tiempo.
Varios aspectos del presente invento pueden
ponerse en práctica en una gran diversidad de formas, incluyendo
software en un sistema de ordenador para fines generales, o en algún
otro aparato que incluya componentes más especializados, tales como
un procesador de señales digital (DSP) acoplado por circuitos a
componentes similares a los que se hallan en un sistema de
ordenador para fines generales. La Fig. 17 es un diagrama bloque
del dispositivo 70 que puede usarse para poner en práctica varios
aspectos del presente invento en un codificador de audio o en un
descodificador de audio DSP 72. El DSP 72 proporciona recursos de
cálculo. La RAM 73 es la memoria de acceso directo (RAM) al sistema
usada por el DSP 72 para el procesado de la señal. La ROM 74
representa una forma de almacenamiento persistente, tal como la
memoria de solo lectura (ROM) para almacenar programas que se
necesiten para hacer funcionar el dispositivo 70 y para poner en
práctica varios aspectos del presente invento. El control de I/O
(entrada/salida) representa circuitos de interfaz para recibir y
transmitir señales por medio de canales de comunicación 76, 77. Los
convertidores de analógico a digital y los convertidores de digital
a analógico pueden incluirse en el control 75 de I/O según se desee,
para recibir y/o transmitir señales de audio analógicas. En la
realización representada, todos los componentes principales del
sistema se conectan al bus 71, el cual puede representar más de un
bus físico; sin embargo, para poner en práctica el presente invento
no se requiere una arquitectura de bus.
En realizaciones ejecutadas en un sistema de
ordenador para fines generales, pueden incluirse componentes
adicionales para interfaz con dispositivos tales como un teclado o
un ratón, y una presentación, y para controlar un dispositivo de
almacenamiento que tenga un medio de almacenamiento tal como una
cinta o un disco magnéticos, o bien un medio óptico. El medio de
almacenamiento puede usarse para registrar programas de
instrucciones para operar sistemas, utilidades y aplicaciones, y
puede incluir realizaciones de programas que materialicen varios
aspectos del presente invento.
Las funciones requeridas para la puesta en
práctica de varios aspectos del presente invento pueden ejecutarse
mediante componentes que estén materializados en una gran diversidad
de formas, incluyendo componentes lógicos discretos, uno o más
ASICs, y/o procesadores controlados por programa. La manera en que
esos componentes sean materializados no es importante para el
presente invento.
Las formas de ejecución del software del
presente invento pueden conducirse mediante una diversidad de medios
legibles por máquinas, tales como líneas de comunicaciones de banda
de base o moduladas a través del espectro, incluyendo desde
frecuencias supersónicas a ultravioletas, o bien medios de
almacenamiento incluyendo aquellos que conducen información que
usan esencialmente cualquier tecnología de registro magnético u
óptico, incluyendo la cinta magnética, el disco magnético, y el
disco óptico. Varios aspectos pueden también materializarse en
varios componentes del sistema de ordenador 70 mediante circuitos de
procesado, tales como los ASICs, los circuitos integrados parea
fines generales, los microprocesadores controlados por programas
realizados en diversas formas de ROM o de RAM, y por otras
técnicas.
Varios aspectos del presente invento pueden
ponerse en práctica en un descodificador que no requiere información
ni procesado alguno especial de un codificador. Estos aspectos se
describen en esta sección de la descripción. Otros aspectos que
requieren información o procesado especial de un codificador se
describen en la sección siguiente.
La Fig. 3 es una ilustración gráfica del
espectro de un intervalo de una señal de audio hipotética que ha de
ser codificada mediante un sistema de codificación de transformación
El espectro 41 representa una envolvente de la magnitud de los
coeficientes de transformación o de los componentes espectrales.
Durante el proceso de codificación, todos los componentes
espectrales que tengan una magnitud menor que el umbral 40 son
cuantificados a cero. Si se usa una función de cuantificación tal
como la función q(x) ilustrada en la Fig. 2a, el umbral 40
corresponde a los niveles de cuantificación mínimos 30, 31. El
umbral 40 se ha representado con un valor uniforme a través de toda
la gama de frecuencias, por conveniencia para la ilustración. Esto
no es típico en muchos sistemas de codificación. En los sistemas de
codificación de audio perceptual que cuantifican uniformemente los
componentes espectrales dentro de cada señal de subbanda, por
ejemplo, el umbral 40 es uniforme dentro de cada subbanda de
frecuencia, pero varía de una subbanda a otra. En tras formas de
ejecución, el umbral 40 puede también variar dentro de una subbanda
de frecuencia dada.
La Fig. 4 es una ilustración gráfica del
espectro de la señal de audio hipotética que se ha representado
mediante los componentes espectrales cuantificados. El espectro 42
representa una envolvente de la magnitud de los componentes
espectrales que han sido cuantificados. El espectro representado en
esta figura, así como en otras figuras, no presenta los efectos de
la cuantificación de los componentes espectrales que tienen
magnitudes iguales o mayores que el umbral 40. La diferencia entre
los componentes espectrales QTZ en la señal cuantificada y los
correspondientes componentes espectrales en la señal original, se
han representado con rayados. Estas áreas rayadas representan
"agujeros espectrales" en la representación cuantificada, que
han de ser llenados con componentes espectrales sintetizados.
En una forma de ejecución del presente invento,
un descodificador recibe una señal de entrada que conduce una
representación codificada de señales de subbanda codificadas, tales
como la representada en la Fig. 4. El descodificador descodifica la
representación codificada e identifica esas señales de subbanda en
las cuales uno o más componentes espectrales tienen valores
distintos de cero, y una pluralidad de componentes espectrales que
tienen un valor cero. Preferiblemente, las extensiones de las
frecuencias de todas las señales de subbanda son o bien conocidas
a priori para el descodificador, o bien están definidas por
información de control en la señal de entrada. El descodificador
genera los componentes espectrales sintetizados que corresponden a
los componentes espectrales de valor cero, usando un proceso tal
como los que se describen en lo que sigue. Los componentes
sintetizados son escalados de acuerdo con la envolvente de
escalación que es igual o menor que el umbral 40, y los componentes
espectrales sintetizados escalados son sustituidos en vez de los
componentes espectrales de valor cero en la señal de subbanda. El
descodificador no requiere información alguna del codificador que
indique explícitamente el nivel del umbral 40 si son conocidos los
niveles de cuantificación mínimos 30, 31 de la función de
cuantificación q(x) usada para cuantificar los componentes
espectrales.
La envolvente de escalación puede establecerse
en una gran diversidad de formas. En lo que sigue se describen
algunas formas. Se puede usar más de una forma. Por ejemplo, se
puede derivar una envolvente de escalación compuesta que sea igual
al máximo de todas las envolventes obtenidas de múltiples formas, o
bien usar diferentes formas para establecer límites superior y/o
inferior para la envolvente de escalación. Las formas pueden estar
adaptadas o ser seleccionadas en respuesta a características de la
señal codificada, y pueden ser adaptadas o ser seleccionadas como
función de la frecuencia.
\vskip1.000000\baselineskip
Una forma es adecuada para descodificadores en
sistemas de codificación de transformación de audio y en sistemas
que usen otras formas de ejecución de baterías de filtros. Esta
forma establece una envolvente de escalación uniforme estableciendo
para ello la misma igual al umbral 40. Un ejemplo de tal envolvente
de escalación se ha representado en la Fig. 5, en la cual se hace
uso de áreas rayadas para ilustrar los agujeros espectrales que
están llenos de componentes espectrales sintetizados. El espectro 43
representa una envolvente de los componentes espectrales de una
señal de audio con agujeros espectrales llenos con componentes
espectrales sintetizados. Los límites superiores de las áreas
rayadas representadas en esta figura, así como en las últimas
figuras, no representan los niveles reales de los propios
componentes espectrales sintetizados, sino que simplemente
representan una envolvente de escalación para los componentes
sintetizados. Los componentes sintetizados que se usan para llenar
los agujeros espectrales tienen niveles espectrales que no exceden
de la envolvente de escalación.
\vskip1.000000\baselineskip
Una segunda forma de establecer una envolvente
de escalación es adecuada para descodificadores en los sistemas de
codificación de audio que usen transformaciones de bloque, pero está
basada en principios que pueden ser aplicados a otros tipos de
materializaciones de baterías de filtros. Esta forma proporciona una
envolvente de escalación no uniforme que varía de acuerdo con las
características de la fuga espectral de la respuesta de frecuencia
del filtro prototipo en una transformación de bloque.
La respuesta 50 representada en la Fig. 6 es una
ilustración gráfica de una respuesta de frecuencia hipotética para
un filtro prototipo de transformación que presenta fuga espectral
entre coeficientes. La respuesta incluye un lóbulo principal,
usualmente designado como el paso de banda del filtro prototipo, y
un cierto número de lóbulos laterales adyacentes al lóbulo
principal que disminuyen de nivel para las frecuencias que se van
alejando del centro del paso de banda. Los lóbulos laterales
representan energía espectral que se fuga del paso de banda a
bandas de frecuencia adyacentes. El régimen con el que disminuye el
nivel de esos lóbulos laterales se designa como el régimen de
descenso de la fuga espectral.
Las características de la fuga espectral de un
filtro imponen limitaciones en el aislamiento espectral entre
subbandas de frecuencia adyacentes. Si un filtro tiene una gran
cantidad de fuga espectral, los niveles espectrales en las
subbandas adyacentes no pueden diferir tanto como pueden hacerlo
para filtros con más bajas cantidades de fuga espectral. La
envolvente 51 representada en la Fig. 7 se aproxima a la forma de
descenso de la fuga espectral representada en la Fig. 6. Los
componentes espectrales sinterizados pueden ser escalados hasta tal
envolvente, o bien, como alternativa, se puede usar esa envolvente
como un límite inferior para una envolvente de escalación que se
deriva mediante otras técnicas.
El espectro 44 en la Fig. 9 es una ilustración
gráfica del espectro de una señal de audio hipotética con
componentes espectrales sintetizados que son escalados de acuerdo
con una envolvente que se aproxima al descenso de la fuga
espectral. La envolvente de escalación para agujeros espectrales que
están limitados a cada lado por energía espectral, es un compuesto
de dos envolventes individuales, una para cada lado. El compuesto se
forma tomando la mayor de las dos envolventes individuales.
\vskip1.000000\baselineskip
Una tercera forma de establecer una envolvente
de escalación es también adecuada para descodificadores en sistemas
de codificación de audio que usen transformaciones de bloque, pero
está también basada en principios que pueden ser aplicados a otros
tipos de materializaciones de baterías de filtros. Esta forma
proporciona una envolvente de escalación no uniforme que se deriva
de la salida de un filtro en el dominio de la frecuencia que se
aplica a coeficientes de transformación en el dominio de la
frecuencia. El filtro puede ser un filtro de predicción, un filtro
de paso bajo, o esencialmente cualquier otro tipo de filtro que
proporcione la envolvente de escalación deseada. Esta forma
requiere usualmente más recursos de cálculo que los que se requieren
para las dos formas descritas en lo que antecede, pero la misma
permite que la envolvente de escalación varíe en función de la
frecuencia.
La Fig. 8 es una ilustración gráfica de dos
envolventes de escalación derivadas de la salida de un filtro en el
dominio de la frecuencia adaptable. Por ejemplo, la envolvente de
escalación 52 podría usarse para llenar agujeros espectrales en
señales o en partes de señales que se considere que sean más
similares a tonos, y la envolvente de escalación 53 podría usarse
para llenar agujeros espectrales en señales o en partes de señales
que se considere que sean más similares a ruidos. Las propiedades de
tonos y ruidos de una señal pueden ser valoradas de una diversidad
de formas. Algunas de esas formas se analizan en lo que sigue.
Alternativamente, podría usarse la envolvente de escalación 52 para
llenar agujeros espectrales a frecuencias más bajas en donde las
señales de audio son frecuentemente más similares a tonos y la
envolventes de escalación 53 podría usarse para llenar agujeros
espectrales a frecuencias más altas, en donde las señales de audio
son frecuentemente más similares a ruidos.
\vskip1.000000\baselineskip
Una cuarta forma de establecer una envolvente de
escalación es aplicable a descodificadores en sistemas de
codificación de audio que materialicen baterías de filtros con
transformaciones de bloque y otros tipos de filtros. Esta forma
proporciona una envolvente de escalación no uniforme que varía de
acuerdo con los efectos de enmascaramiento psicoacústico
estimados.
En la Fig. 10 se han ilustrado dos umbrales de
enmascaramiento psicoacústico hipotético. El umbral 61 representa
los efectos del enmascaramiento psicoacústico de un componente
espectral de más baja frecuencia 60, y el umbral 64 representa los
efectos de enmascaramiento psicoacústico de un componente espectral
de más alta frecuencia 63. Los umbrales de enmascaramiento tales
como estos pueden usarse para derivar la forma de la envolvente de
escalación.
El espectro 45 de la Fig. 11 es una ilustración
gráfica del espectro de una señal de audio hipotética con
componentes espectrales sintetizados de sustitución que son
escalados de acuerdo con las envolventes que están basadas en el
enmascaramiento psicoacústico. En el ejemplo ilustrado, la
envolvente de escalación en el agujero espectral de más baja
frecuencia se deriva de la parte inferior del umbral de
enmascaramiento 61. La envolvente de escalación en el agujero
espectral central es un compuesto de la parte superior del umbral de
enmascaramiento 61 y la parte inferior del umbral de
enmascaramiento 64. La envolvente de escalación en el agujero
espectral de más alta frecuencia se deriva de la parte superior del
umbral de enmascaramiento 64.
\vskip1.000000\baselineskip
Una quinta forma de establecer una envolvente de
escalación se basa en una valoración de la tonalidad de la señal de
audio entera o de alguna parte de la señal, tal como para una o más
señales de subbanda. La tonalidad puede valorarse de una serie de
formas, incluido el cálculo de una Medida de la Planeidad Espectral
(MPE) la cual es un cociente normalizado de la media aritmética de
las muestras de señal dividida por la media geométrica de las
muestras de señal. Un valor próximo a uno indica que una señal es
muy similar a un ruido, y un valor próximo a cero indica una señal
que es muy similar a un tono. La MPE puede usarse directamente para
adaptar la envolvente de escalación. Cuando la MPE es igual a cero,
no se usa ningún componente sintetizado para llenar un agujero
espectral. Cuando la MPE es igual a uno, se usa el nivel máximo
permitido de componentes sintetizados para llenar un agujero
espectral. En general, sin embargo, un codificador es capaz de
calcular una mejor MPE, debido a que tiene acceso a la señal de
audio original entera, con anterioridad a la codificación. Es
probable que un descodificador no calcule una MPE exacta debido a
la presencia de componentes espectrales QTZ.
También un descodificador puede valorar la
tonalidad analizando para ello la disposición o la distribución de
los componentes espectrales de valor distinto de cero y los de valor
cero. En una forma de ejecución, se considera que una señal es más
similar a un tono que más similar a un ruido si series de
componentes espectrales de valor cero están distribuidos entre unos
pocos componentes de valor distinto de cero grande, debido a que
esa disposición implica una estructura de picos espectrales.
En todavía otra forma de ejecución, un
descodificador aplica un filtro de predicción a una o más señales de
subbanda y determina la ganancia de predicción. Se considera que
una señal es más similar a un tono a medida que se aumenta la
ganancia de la predicción.
\newpage
La Fig. 12 es una ilustración gráfica de una
señal de subbanda hipotética que ha de ser codificada. La línea 46
representa una envolvente temporal de la magnitud de los componentes
espectrales. Esta señal de subbanda puede estar compuesta de un
componente espectral común, o coeficiente de transformación, en una
secuencia de bloques obtenidos de una batería de filtros de
análisis materializada mediante una transformación de bloque, o
bien puede ser una señal de subbanda obtenida de otro tipo de
batería de filtros de análisis materializada mediante un filtro
digital distinto a una transformación de bloque, tal como un QMF.
Durante el proceso de codificación, todos los componentes
espectrales que tengan una magnitud menor que el umbral 40 son
cuantificados a cero. El umbral 40 se ha representado con un valor
uniforme a través de todo el intervalo de tiempo, por conveniencia
para la ilustración. Esto no es típico en muchos sistemas de
codificación que usan baterías de filtros materializadas mediante
transformaciones de bloque.
La Fig. 13 es una ilustración gráfica de la
señal de subbanda hipotética que está representada por componentes
espectrales cuantificados. La línea 47 representa una envolvente
temporal de la magnitud de los componentes espectrales que han sido
cuantificados. La línea representada en esta figura, así como en
otras figuras, no presenta los efectos de la cuantificación de los
componentes espectrales que tienen magnitudes iguales o mayores que
el umbral 40. La diferencia entre los componentes espectrales QTZ en
la señal cuantificada y los componentes espectrales
correspondientes en la señal original, se ha representado mediante
un rayado. El área rayada representa un agujero espectral dentro de
un intervalo de tiempo, que ha de ser llenado de componentes
espectrales sintetizados.
En una forma de ejecución del presente invento,
un descodificador recibe una señal de entrada que conduce a una
representación codificada de señales de subbanda cuantificadas,
tales como la representada en la Fig. 13. El descodificador
descodifica la representación codificada e identifica esas señales
de subbanda en las cuales una pluralidad de componentes espectrales
tienen un valor cero, y van precedidas y/o seguidas de componentes
espectrales que tienen valores distintos de cero. El descodificador
genera componentes espectrales sintetizados que corresponden a los
componentes espectrales de valor cero usando un proceso tal como los
que se describen en lo que sigue. Los componentes sintetizados son
escalados de acuerdo con una envolvente de escalación.
Preferiblemente, la envolvente de escalación tiene en cuenta las
características de enmascaramiento temporal del sistema auditivo
humano.
En la Fig. 14 se ha ilustrado un umbral de
enmascaramiento psicoacústico temporal hipotético. El umbral 68
representa los efectos de enmascaramiento psicoacústico de un
componente espectral 67. La parte del umbral a la izquierda del
componente espectral 67 representa características de
enmascaramiento pretemporal, o bien del enmascaramiento que precede
a la ocurrencia del componente espectral. La parte del umbral a la
derecha del componente espectral 67 representa características de
enmascaramiento post-temporal, o bien del
enmascaramiento que sigue a la ocurrencia del componente espectral.
Los efectos del post-enmascaramiento tienen en
general una duración mucho más larga que la duración de los efectos
del pre-enmascaramiento. Un umbral de
enmascaramiento temporal tal como ese puede usarse para derivar una
forma temporal de la envolvente de escalación.
La línea 48 de la Fig. 15 es una ilustración
gráfica de una señal de subbanda hipotética que sustituye los
componentes espectrales sintetizados que son escalados de acuerdo
con las envolventes que están basadas en los efectos de
enmascaramiento psicoacústico temporal. En el ejemplo representado,
la envolvente de escalación es un compuesto de dos envolventes
individuales. La envolvente individual para la parte de más baja
frecuencia del agujero espectral se deriva de la parte de
post-enmascaramiento del umbral 68. La envolvente
individual para la parte de más alta frecuencia del agujero
espectral se deriva de la parte de
pre-enmascaramiento del umbral 68.
Los componentes espectrales sintetizados pueden
ser generados de una diversidad de formas. En lo que sigue se
describen dos formas. Pueden usarse múltiples formas. Por ejemplo,
se pueden seleccionar formas diferentes en respuesta a las
características de la señal codificada, o bien como una función de
la frecuencia.
Según una primera forma, se genera una señal
similar a un ruido. Esencialmente, se puede usar cualquiera de
entre una gran diversidad de formas para generar señales de
pseudo-ruido.
En una segunda forma se usa una técnica
denominada de traslación espectral o de réplica espectral, que copia
los componentes espectrales de una o más subbandas de frecuencia.
Los componentes espectrales de más baja frecuencia son usualmente
copiados para llenar los agujeros espectrales de más altas
frecuencias, debido a que los componentes de más altas frecuencias
están frecuentemente relacionados de alguna manera con los
componentes de más bajas frecuencias. En principio, sin embargo,
los componentes espectrales pueden ser copiados a frecuencias más
altas o más bajas.
El espectro 49 de la Fig. 16 es una ilustración
gráfica del espectro de una señal de audio hipotética con
componentes espectrales sintetizados generados por réplica
espectral. Una parte del pico espectral se replica hacia arriba y
hacia abajo en frecuencia múltiples veces para llenar los agujeros
espectrales a las frecuencias bajas y medias, respectivamente. Una
parte de los componentes espectrales próximos al extremo alt0o del
espectro se replican en frecuencia para llenar el agujero espectral
en el extremo alto del espectro. En el ejemplo ilustrado, los
componente replicados son escalados mediante una envolvente de
escalación uniforme. Sin embargo, se puede usar esencialmente
cualquier forma de envolvente de escalación.
Los aspectos del presente invento que se han
descrito en lo que antecede pueden ponerse en práctica en un
descodificador sin que se requiera modificación alguna de los
codificadores existentes. Estos aspectos pueden ser favorecidos si
se modifica el codificador para proporcionar información de control
adicional que, de lo contrario, no estaría disponible para el
descodificador. La información de control adicional puede usarse
para adaptar la forma en que se generan los componentes espectrales
sintetizados y se escalan en el descodificador.
Un codificador puede proporcionar una diversidad
de escalación de información de control, la cual puede usar un
descodificador para adaptar la envolvente de escalación para
componentes espectrales sintetizados. Cada uno de los ejemplos que
se consideran en lo que sigue puede ser previsto para una señal
entera y/o para subbandas de frecuencia de la señal.
Si una subbanda contiene componentes espectrales
que están significativamente por debajo del nivel de cuantificación
mínimo, el codificador puede proporcionar información al
descodificador que indique esas condición. La información puede ser
un tipo de índice que pueda usar un descodificador para seleccionar
de entre dos o más niveles de escalación, o bien la información
puede conducir una cierta medida del nivel espectral, tal como la
potencia media o la potencia cuadrática media (RMS). El
descodificador puede adaptar la envolvente de escalación en
respuesta a esa información.
Como se ha explicado en lo que antecede, un
descodificador puede adaptar la envolvente de escalación en
respuesta a efectos de enmascaramiento psicoacústico estimados a
partir de la propia señal codificada; sin embargo, es posible que
el codificador proporcione una mejor estimación de esos efectos de
enmascaramiento cuando el codificador tenga acceso a
características de la señal que se hayan perdido por un proceso de
codificación. Esto puede conseguirse haciendo que el modelo 13
proporcione información psicoacústica al realizador de formatos 18
que, por lo demás, no pueda obtenerse de la señal codificada. Usando
este tipo de información, el descodificador es capaz de adaptar la
envolvente de escalación para configurar los componentes espectrales
sintetizados de acuerdo con uno o más criterios psicoacústicos.
La envolvente de escalación puede ser también
adaptada en respuesta a una cierta valoración de las cualidades
similares a ruidos o similares a tonos de una señal o de una señal
de subbanda. Esta valoración puede hacerse de varias formas, por ya
sea el codificador o ya sea el descodificador; sin embargo, un
codificador es usualmente capaz de efectuar una mejor valoración.
Los resultados de esa valoración pueden ensamblarse con la señal
codificada. Una valoración es la MPE que se ha descrito en lo que
antecede.
También puede usarse una indicación de la MPE
por un descodificador para seleccionar cuál de los procesos se debe
usar para generar componentes espectrales sintetizados. Si la MPE
está próxima a uno, se puede usar la técnica de generación de
ruido. Si la MPE está próxima a cero., se puede usar la técnica de
réplica espectral.
Un codificador puede proporcionar una cierta
indicación de la potencia para los componentes espectrales distintos
de cero y los QTZ como una relación de esas dos potencias. El
descodificador puede calcular la potencia de los componentes
espectrales distintos de cero y usar luego esa relación u otra
indicación para adaptar apropiadamente la envolvente de
escalación.
En el estudio que antecede se ha hecho a veces
referencia a componentes espectrales de valor cero como componentes
QTZ (Cuantificados a Cero), debido a que la cuantificación es una
fuente común de componentes de valor cero en una señal codificada.
Esto no es esencial. El valor de los componentes espectrales en una
señal codificada puede establecerse en cero por esencialmente
cualquier proceso. Por ejemplo, un codificador puede identificar
uno o dos de los mayores componentes espectrales en cada señal de
subbanda por encima de una frecuencia particular, y establecer
todos los demás componentes espectrales de esas señales de subbanda
en cero. Como alternativa, un codificador puede establecer en cero
todos los componentes espectrales en ciertas subbandas que sean
menores que un cierto umbral. Un descodificador que incorpore
varios aspectos del presente invento, como se ha descrito en lo que
antecede, es capaz de llenar los agujeros espectrales con
independencia del proceso que sea el responsable de haberlos
creado.
Claims (45)
1. Un método para generar información de audio,
en que el método comprende:
recibir una señal de entrada y obtener de la
misma un conjunto de señales de subbanda que cada una tenga uno o
más componentes espectrales que representen contenido espectral de
una señal de audio;
identificar dentro del conjunto de señales de
subbanda una señal de subbanda particular en la cual uno más
componentes espectrales tengan un valor distinto de cero y sean
cuantificadas por un cuantificador que tenga un nivel de
cuantificación mínimo que corresponde a un umbral, y en la cual una
pluralidad de componentes espectrales tienen un valor cero;
generar componentes espectrales sintetizados que
correspondan a respectivos componentes espectrales de valor cero en
la señal de subbanda particular y que sean escalados de acuerdo con
una envolvente de escalación igual o menor que el umbral;
generar un conjunto modificado de señales de
subbanda sustituyendo para ello los componentes espectrales
sintetizados en vez de los componentes espectrales de valor cero
correspondientes en la señal de subbanda particular; y
generar la información de audio mediante la
aplicación de una batería de filtros de síntesis al conjunto
modificado de señales de subbanda.
2. El método de acuerdo con la reivindicación 1,
en el que la envolvente de escalación es uniforme.
3. El método de acuerdo con la reivindicación 1
ó 2, en el que la batería de filtros de síntesis se materializa
mediante una transformación de bloque que tiene fuga espectral entre
componentes espectrales adyacentes, y la envolvente de escalación
varía a un régimen sustancialmente igual a un régimen de descenso de
la fuga espectral de la transformación de bloque.
4. El método de acuerdo con una cualquiera de
las reivindicaciones 1 a 3, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque, y el
método comprende:
aplicar un filtro en el dominio de la frecuencia
a uno o más componentes espectrales en el conjunto de señales de
subbanda; y
derivar la envolvente de escalación de una
salida del filtro en el dominio de la frecuencia.
5. El método de acuerdo con la reivindicación 4,
que comprende variar la respuesta del filtro en el dominio de la
frecuencia como función de la frecuencia.
6. El método de acuerdo con una cualquiera de
las reivindicaciones 1 a 5, que comprende:
obtener una medida de la tonalidad de la señal
de audio representada por el conjunto de señales de subbanda
y
y
adaptar la envolvente de escalación en respuesta
a la medida de la tonalidad.
7. El método de acuerdo con la reivindicación 6,
en el que se obtiene de la señal de entrada la medida de la
tonalidad.
8. El método de acuerdo con la reivindicación 6,
que comprende derivar la medida de la tonalidad de la forma en que
están dispuestos los componentes espectrales de valor cero en la
señal de subbanda particular.
9. El método de acuerdo con una cualquiera de
las reivindicaciones 1 a 8, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque, y el
método comprende:
obtener de la señal de entrada una secuencia de
conjuntos de señales de subbanda;
identificar una señal de subbanda común en la
secuencia de conjuntos de señales de subbanda donde, para cada
conjunto de la secuencia, uno o más componentes espectrales tienen
un valor distinto de cero y una pluralidad de componentes
espectrales tienen un valor cero;
identificar un componente espectral común dentro
de la señal de subbanda común que tiene un valor cero en una
pluralidad de conjuntos adyacentes en la secuencia que van ya sea
precedidos o ya sea seguidos de un conjunto con los componentes
espectrales comunes que tienen un valor distinto de cero;
escalar los componentes espectrales sintetizados
que corresponden a los componentes espectrales comunes de valor
cero de acuerdo con la envolvente de escalación que varía de un
conjunto a otro en la secuencia, de acuerdo con las características
de enmascaramiento temporal del sistema auditivo humano;
generar una secuencia de conjuntos modificados
de señales de subbanda sustituyendo para ello los componentes
espectrales sintetizados en vez de los correspondientes componentes
espectrales comunes de valor distinto de cero en los conjuntos;
y
generar la información de audio aplicando para
ello la batería de filtros de síntesis a la secuencia de conjuntos
modificados de señales de subbanda.
10. El método de acuerdo con una cualquiera de
las reivindicaciones 1 a 9, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque y el
método genera los componentes espectrales sintetizados mediante
traslación espectral de otros componentes espectrales en el conjunto
de señales de subbanda.
11. El método de acuerdo con una cualquiera de
las reivindicaciones 1 a 10, en el que la envolvente de escalación
varía de acuerdo con las características de enmascaramiento temporal
del sistema auditivo humano.
12. Un método para generar una señal de salida,
en que el método comprende:
generar un conjunto de señales de subbanda que
cada una tiene uno o más componentes espectrales que representan
contenido espectral de una señal de audio, mediante la
cuantificación de la información que se obtiene aplicando por la
aplicación de una batería de filtros de análisis a información de
audio;
identificar dentro del conjunto de señales de
subbanda una señal de subbanda particular en la cual uno más
componentes espectrales tengan un valor distinto de cero y sean
cuantificados mediante un cuantificador que tiene un nivel de
cuantificación mínimo que corresponde a un umbral, y en la cual una
pluralidad de componentes espectrales tienen un valor cero;
derivar información de control de escalación del
contenido espectral de la señal de audio, en que la información de
control de escalación controla la escalación de los componentes
espectrales sintetizados a ser sintetizados y sustituidos en vez de
los componentes espectrales que tienen un valor cero en un receptor
que genere información de audio en respuesta a la señal de salida;
y
generar la señal de salida ensamblando para ello
la información de control de escalación y la información que
representa el conjunto de señales de subbanda.
13. El método de acuerdo con la reivindicación
12, que comprende:
obtener una medida de la tonalidad de la señal
de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación
de la medida de la tonalidad.
14. El método de acuerdo con la reivindicación
12 ó 13, que comprende:
obtener un umbral de enmascaramiento
psicoacústico estimado de la señal de audio representada por el
conjunto de señales de subbanda; y
derivar la información de control de escalación
del umbral de enmascaramiento psicoacústico estimado.
15. El método de acuerdo con una cualquiera de
las reivindicaciones 12 a 14, que comprende:
obtener dos medidas de niveles espectrales para
partes de la señal de audio representadas por los componentes
espectrales de valor distinto de cero y de valor cero; y
derivar la información de control de escalación
de las dos medidas de niveles espectrales.
16. Un aparato para generar información de
audio, en que el aparato comprende:
un desformateador que recibe una señal de
entrada y obtiene de la misma un conjunto de señales de subbanda
que cada una tiene uno o más componentes espectrales que representan
contenido espectral de una señal de audio;
un descodificador acoplado al desformateador que
identifica dentro del conjunto de señales de subbanda una señal de
subbanda particular en la cual uno o más componentes espectrales
tienen un valor distinto de cero y son cuantificados por un
cuantificador que tiene un nivel de cuantificación mínimo que
corresponde a un umbral, y en el cual una pluralidad de componentes
espectrales tienen un valor cero, que genera componentes
espectrales sintetizados que corresponden a respectivos componentes
espectrales de valor distinto de cero en la señal de subbanda
particular y son escalados de acuerdo con una envolvente de
escalación igual o menor que el umbral, y que genera un conjunto
modificado de señales de subbanda sustituyendo para ello los
componentes espectrales sintetizados en vez de los correspondientes
componentes espectrales de valor cero en la señal de subbanda
particular; y
una batería de filtros de síntesis acoplada al
descodificador que genera la información de audio en respuesta al
conjunto modificado de señales de subbanda.
17. El aparato de acuerdo con la reivindicación
16, en el que la envolvente de escalación es uniforme.
18. El aparato de acuerdo con la reivindicación
16 ó 17, en el que la batería de filtros de síntesis se materializa
mediante una transformación de bloque que tiene fuga espectral entre
los componentes espectrales adyacentes y la envolvente de
escalación varía a un régimen sustancialmente igual al régimen de
descenso de la fuga espectral de la transformación de bloque.
19. El aparato de acuerdo con una cualquiera de
las reivindicaciones 16 a 18, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque y el
descodificador:
aplica un filtro en el dominio de la frecuencia
a uno o más componentes espectrales del conjunto de señales de
subbanda; y
deriva la envolvente de escalación de una salida
del filtro en el dominio de la frecuencia.
20. El aparato de acuerdo con la reivindicación
19, en el que el descodificador varía la respuesta del filtro en el
dominio de la frecuencia, como función de la frecuencia.
21. El aparato de acuerdo con una cualquiera de
las reivindicaciones 16 a 20, en el que el descodificador:
obtiene una medida de la tonalidad de la señal
de audio representada por el conjunto de señales de subbanda; y
adapta la envolvente de escalación en respuesta
a la medida de la tonalidad.
22. El aparato de acuerdo con la reivindicación
21, que obtiene la medida de la tonalidad de la señal de
entrada.
23. El aparato de acuerdo con la reivindicación
21, en el que el descodificador deriva la medida de la tonalidad de
la forma en que están dispuestos los componentes espectrales de
valor cero en la señal de subbanda particular.
24. El aparato de acuerdo con una cualquiera de
las reivindicaciones 16 a 23, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque,
y:
el desformateador obtiene una secuencia de
conjuntos de señales de subbanda de la señal de entrada:
el descodificador identifica una señal de
subbanda común en la secuencia de conjuntos de señales de subbanda
donde, por cada conjunto de la secuencia, uno o más componentes
espectrales tienen un valor distinto de cero y una pluralidad de
componentes espectrales tienen un valor cero, identifica un
componente espectral común dentro de la señal de subbanda común que
tiene un valor cero en una pluralidad de conjuntos adyacentes en la
secuencia, que van ya sea precedidos o ya sea seguidos de un
conjunto con los componentes espectrales comunes que tienen un
valor distinto de cero, escala los componentes espectrales
sintetizados que corresponden a los componentes espectrales comunes
de valor cero, de acuerdo con la envolvente de escalación que varía
de un conjunto a otro en la secuencia de acuerdo con las
características de enmascaramiento temporal del sistema auditivo
humano; y genera una secuencia de conjuntos modificados de señales
de subbanda sustituyendo para ello los componentes espectrales
sintetizados en vez de los correspondientes componentes espectrales
comunes de valor cero en los conjuntos; y
la batería de filtros de síntesis genera la
información de audio en respuesta a la secuencia de conjuntos
modificados de señales de subbanda.
25. El aparato de acuerdo con una cualquiera de
las reivindicaciones 16 a 24, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque y el
descodificador genera los componentes espectrales sintetizados
mediante traslación espectral de otros componentes espectrales en el
conjunto de señales de subbanda.
26. El aparato de acuerdo con una cualquiera de
las reivindicaciones 16 a 25, en el que la envolvente de escalación
varía de acuerdo con las características de enmascaramiento temporal
del sistema auditivo humano.
27. Un aparato para generar una señal de salida,
en el que la secuencia comprende:
una batería de filtros de análisis que genera,
en respuesta a la información de audio un conjunto de señales de
subbanda que cada uno tiene uno o más componentes espectrales que
representan el contenido espectral de una señal de audio;
cuantificadores acoplados a la batería de
filtros de análisis que cuantifican los componentes espectrales;
un codificador acoplado a los cuantificadores
que identifica dentro del conjunto se de señales de subbanda una
señal de subbanda particular en la cual uno más componentes
espectrales tienen un valor distinto de cero y son cuantificados
por un cuantificador que tiene un nivel de cuantificación mínimo que
corresponde a un umbral, y en el cual una pluralidad de componentes
espectrales tienen un valor cero, deriva la información de control
de escalación del contenido espectral de la señal de audio, en que
la información de control de escalación controla la escalación de
los componentes espectrales sintetizados a ser sintetizados y
sustituidos en vez de los componentes espectrales que tienen un
valor cero en un receptor que genera información de audio en
respuesta a la señal de salida; y
un realizador de formatos acoplado al
codificador que genera la señal de salida, ensamblando para ello la
información de control de escalación y la información que representa
el conjunto de señales de subbanda.
28. El aparato de acuerdo con la reivindicación
27, que:
obtiene una medida de la tonalidad de la señal d
audio representada por el conjunto de señales de subbanda; y
deriva la información de control de la
escalación de la medida de la tonalidad.
29. El aparato de acuerdo con la reivindicación
27 ó 28, que comprende un componente de modelización que:
obtiene un umbral de enmascaramiento
psicoacústico estimado de la señal de audio representada por el
conjunto de señales de subbanda, y
deriva la información de control de escalación
del umbral de enmascaramiento psicoacústico estimado.
30. El aparato de acuerdo con una cualquiera de
las reivindicaciones 27 a 29, que:
obtiene dos medidas de niveles espectrales para
partes de la señal de audio representada por los componentes
espectrales de de valor distinto de cero y de valor cero; y
deriva la información de control de la
escalación de las dos medidas de los niveles espectrales.
31. Un medio que conduce un programa de
instrucciones y que es legible por un dispositivo para ejecutar el
programa de instrucciones para poner en práctica un método para
generar información de audio, en que el método comprende:
recibir una señal de entrada y obtener de la
misma un conjunto de señales de subbanda que cada una tiene uno o
más componentes espectrales que representan el contenido espectral
de una señal de audio;
identificar dentro del conjunto de señales de
subbanda una señal de subbanda particular en la cual uno o más
componentes espectrales tienen un valor distinto de cero y son
cuantificados por un cuantificador que tiene un nivel de
cuantificación mínimo que corresponde a un umbral, y en el cual una
pluralidad de componentes espectrales tienen un valor cero;
generar componentes espectrales sintetizados que
corresponden a respectivos componentes espectrales de valor cero en
la señal de subbanda particular y que son escalados de acuerdo con
una envolvente de escalación igual o menor que el umbral;
generar un conjunto modificado de señales de
subbanda sustituyendo para ello los componentes espectrales
sintetizados en vez de los componentes espectrales de valor cero en
la señal de subbanda particular; y
generar la información de audio aplicando para
ello una batería de filtros de síntesis al conjunto modificado de
señales de subbanda.
32. El medio de acuerdo con la reivindicación
31, en el que la envolvente de escalación es uniforme.
33. El medio de acuerdo con la reivindicación 31
ó 32, en el que la batería de filtros de síntesis se materializa
por una transformación de bloque que tiene fuga espectral entre
componentes espectrales adyacentes y la envolvente de escalación
varía a un régimen sustancialmente igual a un régimen de descenso de
la fuga espectral de la transformación de bloque.
34. El medio de acuerdo con una cualquiera de
las reivindicaciones 31 a 33, en el que la batería de filtros de
síntesis se materializa mediante una transformación de bloque, y el
método comprende:
aplicar un filtro en el dominio de la frecuencia
a uno o más componentes espectrales en el conjunto de señales de
subbanda; y
derivar la envolvente de escalación de una
salida del filtro en el dominio de la frecuencia.
35. El medio de acuerdo con la reivindicación
34, en el que el método comprende variar la respuesta del filtro en
el dominio de la frecuencia como función de la frecuencia.
36. El medio de acuerdo con una cualquiera de
las reivindicaciones 31 a 35, en el que el método comprende:
obtener una medida de la tonalidad de la señal
de audio representada por el conjunto de señales de subbanda;
y
y
adaptar la envolvente de escalación en respuesta
a la medida de la tonalidad.
37. El medio de acuerdo con la reivindicación
36, en el que el método obtiene la medida de la tonalidad de la
señal de entrada.
38. El medio de acuerdo con la reivindicación
36, en el que el método comprende derivar la medida de la tonalidad
de la forma en que están dispuestos los componentes espectrales de
valor cero en la señal de subbanda particular.
39. El medio de acuerdo con una cualquiera de
las reivindicaciones 31 a 38, en el que la batería de filtros de
síntesis se materializa por una transformación de bloque y el método
comprende:
obtener una secuencia de conjuntos de señales de
subbanda de la señal de entrada;
identificar una señal de subbanda común en la
secuencia de conjuntos de señales de subbanda, donde por cada
conjunto de la secuencia uno o más componentes espectrales tienen un
valor distinto de cero y una pluralidad de componentes espectrales
tienen un valor cero;
identificar un componente espectral común dentro
de la señal de subbanda común que tiene un valor cero en una
pluralidad de conjuntos adyacentes de la secuencia, que van ya sea
precedidos o ya sea seguidos de un conjunto con los componentes
espectrales comunes que tienen un valor distinto de cero;
escalar los componentes espectrales sintetizados
que corresponden a los componentes espectrales comunes de valor
cero de acuerdo con la envolvente de escalación que varía de un
conjunto a otro en la secuencia de acuerdo con las características
del enmascaramiento temporal del sistema auditivo humano;
generar una secuencia de conjuntos modificados
de señales de subbanda sustituyendo para ello los componentes
espectrales sintetizados en vez de los correspondientes componentes
espectrales comunes de valor cero en los conjun-
tos; y
tos; y
generar la información de audio aplicando para
ello la batería de filtros de síntesis a la secuencia de conjuntos
modificados de señales de subbanda.
40. El medio de acuerdo con una cualquiera de
las reivindicaciones 31 a 39, en el que la batería de filtros de
síntesis se materializa por una transformación de bloque y el método
genera los componentes espectrales sintetizados mediante
transformación especial de otros componentes espectrales del
conjunto de señales de subbanda.
41. El medio de acuerdo con una cualquiera de
las reivindicaciones 31 a 40, en el que la envolvente de escalación
varía de acuerdo con las características de enmascaramiento temporal
del sistema auditivo humano.
42. Un medio que conduce un programa de
instrucciones y es legible por un dispositivo para ejecutar el
programa de instrucciones para poner en práctica un método para
generar una señal de salida, en que el método comprende:
generar un conjunto de señales de subbanda que
cada una tiene uno o más componentes espectrales que representan el
contenido espectral de una señal de audio mediante la cuantificación
de la información que se obtiene por aplicación de una batería de
filtros de análisis a información de audio;
identificar dentro del conjunto de señales de
subbanda una señal de subbanda particular en la cual uno o más
componentes espectrales tengan un valor distinto de cero y sean
cuantificados por un cuantificador que tenga un nivel de
cuantificación mínimo que corresponde a un umbral, y en la cual una
pluralidad de componentes espectrales tengan un valor cero;
derivar información de control de escalación del
contenido espectral de la señal de audio, en que la información de
control de escalación controla la escalación de los componentes
espectrales sintetizados a ser sintetizados y sustituidos en vez de
los componentes espectrales que tienen un valor cero en un receptor
que genere información de audio en respuesta a la señal de salida;
y
generar la señal de salida mediante el
ensamblaje de la información de control de escalación y la
información que representa el conjunto de señales de subbanda.
\newpage
43. El medio de acuerdo con la reivindicación
42, en el que el método comprende:
obtener una medida de la tonalidad de la señal
de audio representada por el conjunto de señales de subbanda; y
derivar la información de control de escalación
de la medida de la tonalidad.
44. El medio de acuerdo con la reivindicación 42
ó 43, en el que el método comprende:
obtener un umbral de enmascaramiento
psicoacústico estimado de la señal de audio representada por el
conjunto de señales de subbanda; y
derivar la información de control de escalación
del umbral de enmascaramiento psicoacústico estimado.
45. El medio de acuerdo con una cualquiera de
las reivindicaciones 42 a 44, en el que el método comprende:
obtener dos medidas de niveles espectrales para
partes de la señal de audio representada por los componentes
espectrales de valor distinto de cero y de valor cero; y
derivar la información de control de escalación
de las dos medidas de niveles espectrales.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US174493 | 1993-12-28 | ||
US10/174,493 US7447631B2 (en) | 2002-06-17 | 2002-06-17 | Audio coding system using spectral hole filling |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2275098T3 true ES2275098T3 (es) | 2007-06-01 |
Family
ID=29733607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03736761T Expired - Lifetime ES2275098T3 (es) | 2002-06-17 | 2003-05-30 | Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. |
Country Status (20)
Country | Link |
---|---|
US (4) | US7447631B2 (es) |
EP (6) | EP2216777B1 (es) |
JP (6) | JP4486496B2 (es) |
KR (5) | KR100991450B1 (es) |
CN (1) | CN100369109C (es) |
AT (7) | ATE526661T1 (es) |
CA (6) | CA2489441C (es) |
DE (3) | DE60310716T8 (es) |
DK (3) | DK1514261T3 (es) |
ES (1) | ES2275098T3 (es) |
HK (6) | HK1070728A1 (es) |
IL (2) | IL165650A (es) |
MX (1) | MXPA04012539A (es) |
MY (2) | MY159022A (es) |
PL (1) | PL208344B1 (es) |
PT (1) | PT2216777E (es) |
SG (3) | SG177013A1 (es) |
SI (2) | SI2209115T1 (es) |
TW (1) | TWI352969B (es) |
WO (1) | WO2003107328A1 (es) |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742927B2 (en) * | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
DE10134471C2 (de) * | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
EP1522210A1 (en) * | 2002-07-08 | 2005-04-13 | Koninklijke Philips Electronics N.V. | Audio processing |
US7889783B2 (en) * | 2002-12-06 | 2011-02-15 | Broadcom Corporation | Multiple data rate communication system |
IN2010KN02913A (es) | 2003-05-28 | 2015-05-01 | Dolby Lab Licensing Corp | |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
CN1926610B (zh) * | 2004-03-12 | 2010-10-06 | 诺基亚公司 | 合成单声道音频信号的方法、音频解码器和编码系统 |
KR101213840B1 (ko) * | 2004-05-14 | 2012-12-20 | 파나소닉 주식회사 | 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치 |
WO2005112001A1 (ja) * | 2004-05-19 | 2005-11-24 | Matsushita Electric Industrial Co., Ltd. | 符号化装置、復号化装置、およびこれらの方法 |
US7921007B2 (en) * | 2004-08-17 | 2011-04-05 | Koninklijke Philips Electronics N.V. | Scalable audio coding |
KR20070065401A (ko) * | 2004-09-23 | 2007-06-22 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체 |
EP1805891B1 (en) | 2004-10-26 | 2012-05-16 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
KR100707173B1 (ko) * | 2004-12-21 | 2007-04-13 | 삼성전자주식회사 | 저비트율 부호화/복호화방법 및 장치 |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US20070053603A1 (en) * | 2005-09-08 | 2007-03-08 | Monro Donald M | Low complexity bases matching pursuits data coding and decoding |
US7813573B2 (en) * | 2005-09-08 | 2010-10-12 | Monro Donald M | Data coding and decoding with replicated matching pursuits |
US8121848B2 (en) * | 2005-09-08 | 2012-02-21 | Pan Pacific Plasma Llc | Bases dictionary for low complexity matching pursuits data coding and decoding |
US7848584B2 (en) * | 2005-09-08 | 2010-12-07 | Monro Donald M | Reduced dimension wavelet matching pursuits coding and decoding |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
CN101410892B (zh) | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
ES2312142T3 (es) * | 2006-04-24 | 2009-02-16 | Nero Ag | Aparato avanzado para codificar datos de audio digitales. |
ATE493794T1 (de) | 2006-04-27 | 2011-01-15 | Dolby Lab Licensing Corp | Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke |
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
WO2008051347A2 (en) | 2006-10-20 | 2008-05-02 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US8521314B2 (en) | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
AU2012261547B2 (en) * | 2007-03-09 | 2014-04-17 | Skype | Speech coding system and method |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
RU2438197C2 (ru) | 2007-07-13 | 2011-12-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии |
MX2010001394A (es) * | 2007-08-27 | 2010-03-10 | Ericsson Telefon Ab L M | Frecuencia de transicion adaptiva entre llenado de ruido y extension de anchura de banda. |
WO2009029036A1 (en) * | 2007-08-27 | 2009-03-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and device for noise filling |
EP2191465B1 (en) * | 2007-09-12 | 2011-03-09 | Dolby Laboratories Licensing Corporation | Speech enhancement with noise level estimation adjustment |
US8583426B2 (en) * | 2007-09-12 | 2013-11-12 | Dolby Laboratories Licensing Corporation | Speech enhancement with voice clarity |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
EP2229676B1 (en) * | 2007-12-31 | 2013-11-06 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
AU2009267459B2 (en) * | 2008-07-11 | 2014-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
EP2410522B1 (en) | 2008-07-11 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, method for encoding an audio signal and computer program |
CN102099855B (zh) * | 2008-08-08 | 2012-09-26 | 松下电器产业株式会社 | 频谱平滑化装置、编码装置、解码装置、通信终端装置、基站装置以及频谱平滑化方法 |
WO2010028299A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
WO2010028297A1 (en) | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
WO2010031049A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | Improving celp post-processing for music signals |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8364471B2 (en) * | 2008-11-04 | 2013-01-29 | Lg Electronics Inc. | Apparatus and method for processing a time domain audio signal with a noise filling flag |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
TWI788752B (zh) * | 2009-02-18 | 2023-01-01 | 瑞典商杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
TWI559680B (zh) | 2009-02-18 | 2016-11-21 | 杜比國際公司 | 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法 |
KR101078378B1 (ko) * | 2009-03-04 | 2011-10-31 | 주식회사 코아로직 | 오디오 부호화기의 양자화 방법 및 장치 |
WO2010111876A1 (zh) * | 2009-03-31 | 2010-10-07 | 华为技术有限公司 | 一种信号去噪的方法和装置及音频解码系统 |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
MY160807A (en) | 2009-10-20 | 2017-03-31 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten | Audio encoder,audio decoder,method for encoding an audio information,method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
TWI476757B (zh) | 2010-01-12 | 2015-03-11 | Fraunhofer Ges Forschung | 音訊編碼器、音訊解碼器、用以將音訊資訊編碼及解碼之方法、以及基於先前解碼頻譜值之範數來獲取脈絡子區值之電腦程式 |
CN102741921B (zh) * | 2010-01-19 | 2014-08-27 | 杜比国际公司 | 改进的基于子带块的谐波换位 |
TWI443646B (zh) | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
JPWO2011121955A1 (ja) * | 2010-03-30 | 2013-07-04 | パナソニック株式会社 | オーディオ装置 |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
WO2011156905A2 (en) * | 2010-06-17 | 2011-12-22 | Voiceage Corporation | Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands |
US8924222B2 (en) | 2010-07-30 | 2014-12-30 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
EP2631905A4 (en) * | 2010-10-18 | 2014-04-30 | Panasonic Corp | DEVICE FOR TONE CODING AND TONE DECODING |
EP2681734B1 (en) | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
WO2012122299A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
EP3319087B1 (en) | 2011-03-10 | 2019-08-21 | Telefonaktiebolaget LM Ericsson (publ) | Filling of non-coded sub-vectors in transform coded audio signals |
US8706509B2 (en) | 2011-04-15 | 2014-04-22 | Telefonaktiebolaget L M Ericsson (Publ) | Method and a decoder for attenuation of signal regions reconstructed with low accuracy |
BR112013029347B1 (pt) | 2011-05-13 | 2021-05-11 | Samsung Electronics Co., Ltd | método para alocação de bits, mídia de gravação permanente legível por computador, aparelho para alocação de bits, aparelho para codificação de áudio, e aparelho para decodificação de áudio |
US9264094B2 (en) * | 2011-06-09 | 2016-02-16 | Panasonic Intellectual Property Corporation Of America | Voice coding device, voice decoding device, voice coding method and voice decoding method |
JP2013007944A (ja) | 2011-06-27 | 2013-01-10 | Sony Corp | 信号処理装置、信号処理方法、及び、プログラム |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
WO2013188562A2 (en) * | 2012-06-12 | 2013-12-19 | Audience, Inc. | Bandwidth extension via constrained synthesis |
EP2717263B1 (en) * | 2012-10-05 | 2016-11-02 | Nokia Technologies Oy | Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal |
CN103854653B (zh) * | 2012-12-06 | 2016-12-28 | 华为技术有限公司 | 信号解码的方法和设备 |
KR101897092B1 (ko) * | 2013-01-29 | 2018-09-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 노이즈 채움 개념 |
ES2613651T3 (es) * | 2013-01-29 | 2017-05-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad |
KR101754094B1 (ko) | 2013-04-05 | 2017-07-05 | 돌비 인터네셔널 에이비 | 고급 양자화기 |
JP6157926B2 (ja) * | 2013-05-24 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法およびプログラム |
EP2830060A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling in multichannel audio coding |
EP2830054A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
EP2830055A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
EP3048609A4 (en) | 2013-09-19 | 2017-05-03 | Sony Corporation | Encoding device and method, decoding device and method, and program |
MX2016008172A (es) | 2013-12-27 | 2016-10-21 | Sony Corp | Metodo y aparato de decodificacion, y programa. |
EP2919232A1 (en) | 2014-03-14 | 2015-09-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and method for encoding and decoding |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
RU2572664C2 (ru) * | 2014-06-04 | 2016-01-20 | Российская Федерация, От Имени Которой Выступает Министерство Промышленности И Торговли Российской Федерации | Устройство активного гашения вибрации |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
CN106714792A (zh) | 2014-08-08 | 2017-05-24 | R·米利亚乔 | 用于治疗炎症性和过敏性病理学的脂肪酸和十六酰胺乙醇的混合物 |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
US10460736B2 (en) * | 2014-11-07 | 2019-10-29 | Samsung Electronics Co., Ltd. | Method and apparatus for restoring audio signal |
US9691408B2 (en) | 2014-12-16 | 2017-06-27 | Psyx Research, Inc. | System and method for dynamic equalization of audio data |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
TWI771266B (zh) | 2015-03-13 | 2022-07-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
WO2016162283A1 (en) * | 2015-04-07 | 2016-10-13 | Dolby International Ab | Audio coding with range extension |
US20170024495A1 (en) * | 2015-07-21 | 2017-01-26 | Positive Grid LLC | Method of modeling characteristics of a musical instrument |
KR102250472B1 (ko) * | 2016-03-07 | 2021-05-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합 |
DE102016104665A1 (de) * | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
JP2018092012A (ja) * | 2016-12-05 | 2018-06-14 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
TWI702241B (zh) * | 2016-12-09 | 2020-08-21 | 南韓商Lg化學股份有限公司 | 封裝組成物 |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) * | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
EP3544005B1 (en) | 2018-03-22 | 2021-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding with dithered quantization |
BR112020021809A2 (pt) | 2018-04-25 | 2021-02-23 | Dolby International Ab | integração de técnicas de reconstrução de alta frequência com atraso de pós-processamento reduzido |
MA52530A (fr) | 2018-04-25 | 2021-03-03 | Dolby Int Ab | Intégration de techniques de reconstruction audio haute fréquence |
WO2023117146A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering |
WO2023117145A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using different noise filling methods |
TW202334940A (zh) * | 2021-12-23 | 2023-09-01 | 紐倫堡大學 | 在音訊寫碼中使用不同雜訊填充方法進行頻譜時間上改良之頻譜間隙填充之方法及設備 |
WO2023118605A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering |
Family Cites Families (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US36478A (en) * | 1862-09-16 | Improved can or tank for coal-oil | ||
US3995115A (en) | 1967-08-25 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Speech privacy system |
US3684838A (en) | 1968-06-26 | 1972-08-15 | Kahn Res Lab | Single channel audio signal transmission system |
JPS6011360B2 (ja) | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
US4667340A (en) | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US4790016A (en) | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
WO1986003873A1 (en) | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
US4885790A (en) | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4935963A (en) | 1986-01-24 | 1990-06-19 | Racal Data Communications Inc. | Method and apparatus for processing speech signals |
JPS62234435A (ja) | 1986-04-04 | 1987-10-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 符号化音声の復号化方式 |
DE3683767D1 (de) | 1986-04-30 | 1992-03-12 | Ibm | Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens. |
US4776014A (en) | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US5054072A (en) | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US5127054A (en) | 1988-04-29 | 1992-06-30 | Motorola, Inc. | Speech quality improvement for voice coders and synthesizers |
JPH02183630A (ja) * | 1989-01-10 | 1990-07-18 | Fujitsu Ltd | 音声符号化方式 |
US5109417A (en) | 1989-01-27 | 1992-04-28 | Dolby Laboratories Licensing Corporation | Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio |
US5054075A (en) | 1989-09-05 | 1991-10-01 | Motorola, Inc. | Subband decoding method and apparatus |
CN1062963C (zh) | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
ATE138238T1 (de) | 1991-01-08 | 1996-06-15 | Dolby Lab Licensing Corp | Kodierer/dekodierer für mehrdimensionale schallfelder |
JP3134337B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル信号符号化方法 |
EP0551705A3 (en) * | 1992-01-15 | 1993-08-18 | Ericsson Ge Mobile Communications Inc. | Method for subbandcoding using synthetic filler signals for non transmitted subbands |
JP2563719B2 (ja) | 1992-03-11 | 1996-12-18 | 技術研究組合医療福祉機器研究所 | 音声加工装置と補聴器 |
JP2693893B2 (ja) | 1992-03-30 | 1997-12-24 | 松下電器産業株式会社 | ステレオ音声符号化方法 |
JP3508146B2 (ja) * | 1992-09-11 | 2004-03-22 | ソニー株式会社 | ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置 |
JP3127600B2 (ja) * | 1992-09-11 | 2001-01-29 | ソニー株式会社 | ディジタル信号復号化装置及び方法 |
US5402124A (en) * | 1992-11-25 | 1995-03-28 | Dolby Laboratories Licensing Corporation | Encoder and decoder with improved quantizer using reserved quantizer level for small amplitude signals |
US5394466A (en) * | 1993-02-16 | 1995-02-28 | Keptel, Inc. | Combination telephone network interface and cable television apparatus and cable television module |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
JPH07225598A (ja) | 1993-09-22 | 1995-08-22 | Massachusetts Inst Of Technol <Mit> | 動的に決定された臨界帯域を用いる音響コード化の方法および装置 |
JP3186489B2 (ja) * | 1994-02-09 | 2001-07-11 | ソニー株式会社 | ディジタル信号処理方法及び装置 |
JP3277682B2 (ja) * | 1994-04-22 | 2002-04-22 | ソニー株式会社 | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 |
WO1995032499A1 (fr) * | 1994-05-25 | 1995-11-30 | Sony Corporation | Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur |
US5748786A (en) * | 1994-09-21 | 1998-05-05 | Ricoh Company, Ltd. | Apparatus for compression using reversible embedded wavelets |
JP3254953B2 (ja) | 1995-02-17 | 2002-02-12 | 日本ビクター株式会社 | 音声高能率符号化装置 |
DE19509149A1 (de) | 1995-03-14 | 1996-09-19 | Donald Dipl Ing Schulz | Codierverfahren |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US6138051A (en) * | 1996-01-23 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for evaluating an audio decoder |
JP3189660B2 (ja) * | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
JP3519859B2 (ja) * | 1996-03-26 | 2004-04-19 | 三菱電機株式会社 | 符号器及び復号器 |
DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
US6092041A (en) * | 1996-08-22 | 2000-07-18 | Motorola, Inc. | System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder |
JPH1091199A (ja) * | 1996-09-18 | 1998-04-10 | Mitsubishi Electric Corp | 記録再生装置 |
US5924064A (en) | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
JP3213582B2 (ja) * | 1997-05-29 | 2001-10-02 | シャープ株式会社 | 画像符号化装置及び画像復号装置 |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
EP0926658A4 (en) * | 1997-07-11 | 2005-06-29 | Sony Corp | INFORMATION DECODERS AND DECODING METHOD, INFORMATION CODERS AND CODING METHOD AND DISTRIBUTION MEDIUM |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US6351730B2 (en) * | 1998-03-30 | 2002-02-26 | Lucent Technologies Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6115689A (en) * | 1998-05-27 | 2000-09-05 | Microsoft Corporation | Scalable audio coder and decoder |
JP2000148191A (ja) * | 1998-11-06 | 2000-05-26 | Matsushita Electric Ind Co Ltd | ディジタルオーディオ信号の符号化装置 |
US6300888B1 (en) * | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6363338B1 (en) * | 1999-04-12 | 2002-03-26 | Dolby Laboratories Licensing Corporation | Quantization in perceptual audio coders with compensation for synthesis filter noise spreading |
ATE269574T1 (de) * | 1999-04-16 | 2004-07-15 | Dolby Lab Licensing Corp | Audiokodierung mit verstärkungsadaptiver quantisierung und symbolen verschiedener länge |
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
JP2001324996A (ja) * | 2000-05-15 | 2001-11-22 | Japan Music Agency Co Ltd | Mp3音楽データ再生方法及び装置 |
JP3616307B2 (ja) * | 2000-05-22 | 2005-02-02 | 日本電信電話株式会社 | 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
JP2001343998A (ja) * | 2000-05-31 | 2001-12-14 | Yamaha Corp | ディジタルオーディオデコーダ |
JP3538122B2 (ja) | 2000-06-14 | 2004-06-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
SE0004187D0 (sv) | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
GB0103245D0 (en) * | 2001-02-09 | 2001-03-28 | Radioscape Ltd | Method of inserting additional data into a compressed signal |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
-
2002
- 2002-06-17 US US10/174,493 patent/US7447631B2/en active Active
- 2002-09-06 US US10/238,047 patent/US7337118B2/en not_active Expired - Lifetime
-
2003
- 2003-04-29 TW TW092109991A patent/TWI352969B/zh not_active IP Right Cessation
- 2003-05-30 DK DK03736761T patent/DK1514261T3/da active
- 2003-05-30 MX MXPA04012539A patent/MXPA04012539A/es active IP Right Grant
- 2003-05-30 EP EP10162217A patent/EP2216777B1/en not_active Expired - Lifetime
- 2003-05-30 CA CA2489441A patent/CA2489441C/en not_active Expired - Lifetime
- 2003-05-30 AT AT10162216T patent/ATE526661T1/de not_active IP Right Cessation
- 2003-05-30 ES ES03736761T patent/ES2275098T3/es not_active Expired - Lifetime
- 2003-05-30 AT AT10162217T patent/ATE536615T1/de active
- 2003-05-30 PL PL372104A patent/PL208344B1/pl unknown
- 2003-05-30 SG SG2009049545A patent/SG177013A1/en unknown
- 2003-05-30 SG SG10201702049SA patent/SG10201702049SA/en unknown
- 2003-05-30 CA CA2736046A patent/CA2736046A1/en not_active Abandoned
- 2003-05-30 AT AT03736761T patent/ATE349754T1/de active
- 2003-05-30 PT PT10162217T patent/PT2216777E/pt unknown
- 2003-05-30 EP EP03736761A patent/EP1514261B1/en not_active Expired - Lifetime
- 2003-05-30 CN CNB038139677A patent/CN100369109C/zh not_active Expired - Lifetime
- 2003-05-30 EP EP06020757A patent/EP1736966B1/en not_active Expired - Lifetime
- 2003-05-30 KR KR1020107009429A patent/KR100991450B1/ko active IP Right Grant
- 2003-05-30 DE DE60310716T patent/DE60310716T8/de active Active
- 2003-05-30 SI SI200332091T patent/SI2209115T1/sl unknown
- 2003-05-30 KR KR1020047020570A patent/KR100991448B1/ko active IP Right Grant
- 2003-05-30 DE DE60333316T patent/DE60333316D1/de not_active Expired - Lifetime
- 2003-05-30 WO PCT/US2003/017078 patent/WO2003107328A1/en active IP Right Grant
- 2003-05-30 CA CA2736055A patent/CA2736055C/en not_active Expired - Lifetime
- 2003-05-30 EP EP10162216A patent/EP2209115B1/en not_active Expired - Lifetime
- 2003-05-30 SG SG2014005300A patent/SG2014005300A/en unknown
- 2003-05-30 AT AT06020757T patent/ATE473503T1/de not_active IP Right Cessation
- 2003-05-30 JP JP2004514060A patent/JP4486496B2/ja not_active Expired - Lifetime
- 2003-05-30 CA CA2735830A patent/CA2735830C/en not_active Expired - Lifetime
- 2003-05-30 DK DK06020757.8T patent/DK1736966T3/da active
- 2003-06-09 AT AT10159809T patent/ATE529858T1/de not_active IP Right Cessation
- 2003-06-09 CA CA2736065A patent/CA2736065C/en not_active Expired - Lifetime
- 2003-06-09 KR KR1020107013897A patent/KR100986152B1/ko active IP Right Grant
- 2003-06-09 EP EP10159810A patent/EP2207170B1/en not_active Expired - Lifetime
- 2003-06-09 EP EP10159809A patent/EP2207169B1/en not_active Expired - Lifetime
- 2003-06-09 KR KR1020107013899A patent/KR100986153B1/ko active IP Right Grant
- 2003-06-09 AT AT10159810T patent/ATE529859T1/de not_active IP Right Cessation
- 2003-06-09 KR KR1020047020587A patent/KR100986150B1/ko active IP Right Grant
- 2003-06-09 CA CA2736060A patent/CA2736060C/en not_active Expired - Lifetime
- 2003-06-09 DK DK10159809.2T patent/DK2207169T3/da active
- 2003-06-09 SI SI200332086T patent/SI2207169T1/sl unknown
- 2003-06-09 DE DE60332833T patent/DE60332833D1/de not_active Expired - Lifetime
- 2003-06-09 AT AT03760242T patent/ATE470220T1/de not_active IP Right Cessation
- 2003-06-16 MY MYPI20032238A patent/MY159022A/en unknown
- 2003-06-16 MY MYPI20032237A patent/MY136521A/en unknown
-
2004
- 2004-12-08 IL IL165650A patent/IL165650A/en active IP Right Grant
-
2005
- 2005-04-19 HK HK05103319.3A patent/HK1070728A1/xx not_active IP Right Cessation
- 2005-04-19 HK HK05103320A patent/HK1070729A1/xx not_active IP Right Cessation
-
2009
- 2009-02-04 US US12/365,789 patent/US8032387B2/en not_active Expired - Lifetime
- 2009-02-04 US US12/365,783 patent/US8050933B2/en not_active Expired - Lifetime
-
2010
- 2010-02-15 JP JP2010030139A patent/JP5063717B2/ja not_active Expired - Lifetime
- 2010-08-19 HK HK10107912.8A patent/HK1141623A1/xx not_active IP Right Cessation
- 2010-08-19 HK HK10107913.7A patent/HK1141624A1/xx not_active IP Right Cessation
-
2011
- 2011-01-13 HK HK11100293.1A patent/HK1146146A1/xx not_active IP Right Cessation
- 2011-01-13 HK HK11100292.2A patent/HK1146145A1/xx not_active IP Right Cessation
- 2011-10-31 IL IL216069A patent/IL216069A/en active IP Right Grant
- 2011-12-28 JP JP2011287051A patent/JP5253564B2/ja not_active Expired - Lifetime
- 2011-12-28 JP JP2011287052A patent/JP5253565B2/ja not_active Expired - Lifetime
-
2012
- 2012-07-03 JP JP2012149087A patent/JP5345722B2/ja not_active Expired - Lifetime
-
2013
- 2013-07-12 JP JP2013146451A patent/JP5705273B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2275098T3 (es) | Sistema de codificacion de audio que utiliza el llenado de agujeros espectrales. | |
Painter et al. | Perceptual coding of digital audio | |
Herre | Temporal noise shaping, qualtization and coding methods in perceptual audio coding: A tutorial introduction | |
KR100420891B1 (ko) | 디지탈신호엔코딩/디코딩방법및장치와기록매체 | |
KR100758215B1 (ko) | 합성 필터 잡음 확산에 대한 보상을 갖는 지각 오디오코더의 양자화 | |
PL183498B1 (pl) | Dekoder akustyczny wielokanałowy | |
JPH09500772A (ja) | 適応配分式符号化・復号装置及び方法 | |
US20040196770A1 (en) | Coding method, coding device, decoding method, and decoding device | |
KR100361720B1 (ko) | 고능율부호화방법및장치 | |
Wiese et al. | Bitrate reduction of high quality audio signals by modeling the ears masking thresholds | |
Singh et al. | Audio watermarking based on quantization index modulation using combined perceptual masking | |
AU2003237295B2 (en) | Audio coding system using spectral hole filling | |
Brandenburg et al. | Digital Audio Compression for Professional Applications | |
Spanias et al. | Analysis of the MPEG-1 Layer III (MP3) Algorithm using MATLAB | |
Smithers et al. | Increased efficiency MPEG-2 AAC encoding | |
Chen et al. | Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec |