ES2298568T3 - Descodificacion de audio. - Google Patents
Descodificacion de audio. Download PDFInfo
- Publication number
- ES2298568T3 ES2298568T3 ES03758591T ES03758591T ES2298568T3 ES 2298568 T3 ES2298568 T3 ES 2298568T3 ES 03758591 T ES03758591 T ES 03758591T ES 03758591 T ES03758591 T ES 03758591T ES 2298568 T3 ES2298568 T3 ES 2298568T3
- Authority
- ES
- Spain
- Prior art keywords
- phase
- sinusoidal
- frequency
- audio
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000001052 transient effect Effects 0.000 description 28
- 238000005259 measurement Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cereal-Derived Products (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Amplifiers (AREA)
Abstract
Procedimiento de descodificación de un flujo de audio, comprendiendo el procedimiento las etapas de: leer un flujo de audio (AS¿) codificado que incluye códigos (r) sinusoidales que representan una fase (psi) para cada pista de componentes sinusoidales enlazadas, para cada pista, generar (56) un valor ( ¿psi) monótonamente cambiante en general a partir de dichos códigos (r) que representan dicha fase; filtrar (58) dicho valor generado para proporcionar una estimación de frecuencia ( ¿omega) para una pista; y emplear (32) dichos valores generados y dichas estimaciones de frecuencia para sintetizar dichas componentes sinusoidales de dicha señal de audio.
Description
Descodificación de audio.
\global\parskip0.930000\baselineskip
La presente invención se refiere a codificación
y descodificación de señales de audio.
En referencia ahora a la figura 1, se describe
un esquema de codificación paramétrica, en particular un codificador
sinusoidal, en la solicitud de patente PCT Nº WO01/69593. En este
codificador, se divide una señal x(t) de audio de entrada en
varios segmentos o tramas (superposición), normalmente de 20 ms de
longitud. Cada segmento se descompone en componentes transitorias,
sinusoidales y de ruido. (También es posible obtener otras
componentes de la señal de audio de entrada tales como complejos
armónicos aunque estos no son muy importantes para los fines de la
presente invención).
En el analizador 130 sinusoidal, la señal x2
para cada segmento se modela utilizando un número de sinusoides
representadas por parámetros de amplitud, frecuencia y fase. Esta
información se extrae normalmente para un intervalo de análisis
realizando una transformada de Fourier (FT, Fourier
Transform) que proporciona una representación espectral del
intervalo que incluye: frecuencias; amplitudes para cada frecuencia;
y fases para cada frecuencia donde cada fase está en el intervalo
{-\pi, \pi}. Una vez que se estima la información sinusoidal
para un segmento, se inicia un algoritmo de seguimiento. Este
algoritmo utiliza una función de coste para enlazar sinusoides
entre sí segmento por segmento para obtener las denominadas pistas.
Por tanto, el algoritmo de seguimiento da como resultado códigos
C_{S} sinusoidales que comprenden pistas sinusoidales que
empiezan en un momento de tiempo específico, evolucionan durante una
cierta cantidad de tiempo sobre una pluralidad de segmentos de
tiempo y entonces se detienen.
En tal codificación sinusoidal, normalmente se
transmite información de frecuencia para las pistas formadas en el
codificador. Esto puede realizarse de forma económica, puesto que
las pistas se definen como que tienen una frecuencia que varía
lentamente y, por lo tanto, puede transmitirse la frecuencia
eficazmente mediante codificación diferencial en tiempo. (En
general, también puede codificarse diferencialmente la amplitud en
el tiempo).
Al contrario de la de frecuencia, la transmisión
de fase se considera costosa. En principio, si la frecuencia es
(casi) constante, la fase en función del índice de segmento de pista
debería cumplir con un comportamiento (casi) lineal. Sin embargo,
cuando se transmite, la fase está limitada al intervalo {-\pi,
\pi} tal como se proporciona mediante la transformada de Fourier.
Debido a esta representación de fase de módulo 2\pi, la relación
entre tramas estructurales de la fase se pierde y, a primera vista
parece ser una variable estocástica blanca.
Sin embargo, puesto que la fase es la integral
de la frecuencia, la fase no necesita transmitirse, en principio.
Esto se llama continuación de fase y reduce la tasa de bits
significativamente.
En continuación de fase, sólo se transmite la
frecuencia y la fase se recupera en el descodificador a partir de
los datos de frecuencia aprovechando la relación integral entre fase
y frecuencia. Sin embargo, se sabe que la fase puede recuperarse
sólo de manera aproximada utilizando continuación de fase. Si se
producen errores de frecuencia, debido a errores de medición en la
frecuencia o debido a ruido de cuantificación, la fase, que se
reconstruye utilizando la relación integral, mostrará normalmente un
error que tenga el carácter de un desplazamiento. Esto es porque
los errores de frecuencia tienen aproximadamente un carácter de
ruido blanco. La integración amplifica los errores de baja
frecuencia y, por consiguiente, la fase recuperada tenderá a
desplazarse alejándose de la fase medida realmente. Esto lleva a
artefactos audibles.
Esto se ilustra en la figura 2(a) donde
\psi y \Omega son la frecuencia y fase reales para una pista.
Tanto en el codificador como en el descodificador la frecuencia y la
fase tienen una relación integral representada por I. El proceso de
cuantificación en el codificador se modela como un ruido n
blanco aditivo. En el descodificador, la fase \hat{\psi}
recuperada incluye por tanto dos componentes: la fase \psi real y
una componente \varepsilon_{2} de ruido, donde tanto el espectro
de la fase recuperada como la función de densidad espectral de
potencia del ruido \varepsilon_{2} tienen un carácter
pronunciado de baja frecuencia.
Por tanto, puede verse que en continuación de
fase, puesto que la fase recuperada es la integral de una señal de
baja frecuencia, la fase recuperada es en sí una señal de baja
frecuencia. Sin embargo, el ruido introducido en el proceso de
reconstrucción también es predominante en este rango de baja
frecuencia. Por lo tanto, es difícil separar estas fuentes con la
idea de filtrar el ruido n introducido durante la
codificación.
Según la presente invención se proporciona un
procedimiento según la reivindicación 1, y un reproductor de audio
según la reivindicación 2.
Según la invención, en el descodificador, la
frecuencia puede recuperarse de manera aproximada a partir de la
información de fase cuantificada utilizando diferencias finitas como
una aproximación para la diferenciación. La componente de ruido de
la frecuencia recuperada tiene un comportamiento pronunciado de alta
frecuencia bajo la suposición de que el ruido introducido por la
cuantificación de fase es casi espectralmente plano. Esto se
ilustra en la figura 2(b), donde dentro del codificador y el
descodificador, la frecuencia se representa como el diferencial (D)
de fase. De nuevo, se introduce ruido n en el codificador y
por tanto en el descodificador, la frecuencia \hat{\Omega}
recuperada incluye dos componentes: la frecuencia \Omega real y
una componente \varepsilon_{4} de ruido, donde la frecuencia es
casi una señal CC y el ruido está principalmente en el rango de
alta frecuencia. Sin embargo, puesto que la frecuencia subyacente
tiene un comportamiento de baja frecuencia y el ruido añadido un
comportamiento de alta frecuencia, la componente \varepsilon_{4}
de ruido de la frecuencia recuperada puede reducirse mediante un
filtro paso bajo.
La figura 1 muestra un codificador de audio;
las figuras 2(a) y 2(b) ilustran
la relación entre la fase y la frecuencia en sistemas de la técnica
anterior y en sistemas de audio según la presente invención,
respectivamente;
las figuras 3(a) y 3(b) muestran
un componente codificador sinusoidal del codificador de audio de la
figura 1;
la figura 4 muestra un reproductor de audio en
el que se implementa una realización de la invención; y
las figuras 5(a) y 5(b) muestran
una realización preferida de un componente sintetizador sinusoidal
del reproductor de audio de la figura 4; y
la figura 6 muestra un sistema que comprende un
codificador de audio y un reproductor de audio según la
invención.
A continuación se describirán realizaciones
preferidas de la invención con referencia a los dibujos adjuntos,
en los que a componentes similares se les ha dado números de
referencia similares y, a menos que se exprese lo contrario,
realizan una función similar. El codificador 1 es un codificador
sinusoidal del tipo descrito en la solicitud de patente PCT Nº WO
01/69593, figura 1. El funcionamiento de este codificador de la
técnica anterior y su descodificador correspondiente se ha describo
bien y la descripción sólo se proporciona en el presente documento
en lo que es importante para la presente invención.
El codificador 1 de audio muestrea una señal de
audio de entrada a una cierta frecuencia de muestreo que da como
resultado una representación x(t) digital de la señal de
audio. El codificador 1 entonces separa la señal de entrada
muestreada en tres componentes: componentes de señal transitorias,
componentes determinísticas continuas, y componentes estocásticas
continuas. El codificador 1 de audio comprende un codificador 11 de
transitorios, un codificador 13 sinusoidal y un codificador 14 de
ruido.
El codificador 11 de transitorios comprende un
detector 110 de transitorios (TD, transient detector), un
analizador 111 de transitorios (TA, transient analyzer) y un
sintetizador 112 de transitorios(TS, transient
synthesizer). En primer lugar, la señal x(t) entra en el
detector 110 de transitorios. Este detector 110 estima si hay una
componente de señal transitoria y su posición. Esta información se
suministra al analizador 111 de transitorios. Si se determina la
posición de una componente de señal transitoria, el analizador 111
de transitorios intenta extraer (la parte principal de) la
componente de señal transitoria. Compara una función de forma con
un segmento de señal que empieza preferiblemente en una posición de
inicio estimada, y determina el contenido bajo la función de forma,
empleando por ejemplo un (pequeño) número de componentes
sinusoidales. Esta información se contiene en el código C_{T} de
transitorios y en la solicitud de patente PCT Nº WO 01/69593 se
proporciona información más detallada sobre la generación del código
C_{T} de transitorios.
El código C_{T} de transitorios se proporciona
al sintetizador 112 de transitorios. La componente de señal
transitoria sintetizada se resta de la señal x(t) de entrada
en el restador 16, dando como resultado una señal x1. Se utiliza un
mecanismo (12) de control de ganancia (GC, gain control) para
producir x2 a partir de x1.
La señal x2 se proporciona al codificador 13
sinusoidal donde se analiza en un analizador 130 sinusoidal (SA,
sinusoidal analyzer), que determina las componentes
sinusoidales (determinísticas). Por lo tanto, se observará que
aunque la presencia del analizador de transitorios es deseable, no
es necesaria y la invención puede implementarse sin un analizador
de este tipo. Como alternativa, tal como se mencionó anteriormente,
la invención también puede implementarse con por ejemplo un
analizador de complejos armónicos.
En resumen, el codificador sinusoidal codifica
la señal x2 de entrada como pistas de componentes sinusoidales
enlazadas de un segmento de trama con el siguiente. En referencia
ahora a la figura 3(a), de la misma manera que en la técnica
anterior, cada segmento de la señal x2 de entrada se transforma al
dominio de frecuencia en una unidad 40 de transformada de Fourier
(FT). Para cada segmento, la unidad FT proporciona amplitudes A,
fases \phi y frecuencias \omega medidas. Tal como se mencionó
previamente, el intervalo de fases proporcionado por la
transformada de Fourier está restringido a -\pi \leq \phi <
\pi. Una unidad 42 de algoritmo de seguimiento (TA, tracking
algorithm) toma la información para cada segmento y empleando
una función de coste adecuada, enlaza sinusoides de un segmento con
el siguiente, produciendo así una secuencia de fases
\phi(k) y frecuencias \omega(k) medidas para cada
pista.
\global\parskip1.000000\baselineskip
Al contrario de la técnica anterior, según la
presente invención los códigos C_{S} sinusoidales producidos en
último término por al analizador 130 incluyen información de fase, y
la frecuencia se reconstruye a partir de esta información en el
descodificador.
Tal como se mencionó anteriormente, sin embargo,
la fase medida está restringida a una representación de módulo
2\pi. Por lo tanto, en el codificador 1 el analizador comprende un
desempaquetador 44 de fase (PU, phase unwrapper) donde la
representación de fase de módulo 2\pi se desempaqueta para exponer
el comportamiento de fase entre tramas estructurales para una pista
\psi. Cuando la frecuencia en pistas sinusoidales es casi
constante, se observará que la fase \psi desempaquetada será
normalmente una función creciente (o decreciente) linealmente y
esto hace posible transmisión de fase económica. La fase \psi
desempaquetada se proporciona como entrada a un codificador 46 de
fase (PE, phase encoder) que proporciona como salida niveles
r de representación adecuados para ser transmitidos.
En referencia ahora al funcionamiento del
desempaquetador 44 de fase, tal como se mencionó anteriormente, la
fase \psi real y la frecuencia \Omega real para una pista están
relacionadas por:
siendo T_{o} un instante de
tiempo de
referencia.
Una pista sinusoidal en tramas k = K, K+1...
K+L-1 tiene frecuencias \omega(k) medidas
(expresadas en radianes por segundo) y fases \phi(k)
medidas (expresadas en radianes). La distancia entre el centro de
las tramas viene dada por U (tasa de actualización expresada
en segundos). Se supone que las frecuencias medidas son muestras de
la pista \Omega de frecuencia continua en el tiempo subyacente
supuesta con \omega(k)=\Omega(kU) y, de manera
similar, las fases medidas son muestras de la pista \psi de fase
continua en el tiempo asociada con
\phi(k)=\psi(kU)mod(2\pi). Para
codificación sinusoidal se supone que \Omega es una función casi
constante.
Suponiendo que las frecuencias son casi
constantes dentro de un segmento, la ecuación 1 puede aproximarse
según lo siguiente:
Por lo tanto, se observará que conociendo la
fase y la frecuencia para un segmento dado y la frecuencia del
siguiente segmento, es posible estimar un valor de fase
desempaquetada para el siguiente segmento, y así sucesivamente para
cada segmento en una pista.
En la realización preferida, el desempaquetador
de fase determina un factor m(k) de desempaquetado en
el instante k:
El factor m(k) de desempaquetado
dice al desempaquetador 44 de fase el número de ciclos que tienen
que añadirse para obtener la fase desempaquetada.
Combinando las ecuaciones 2 y 3, el
desempaquetador de fase determina un factor e de
desempaquetado incremental según lo siguiente:
donde e debería ser un
entero. Sin embargo, debido a errores de medición y de modelo, el
factor de desempaquetado incremental no será exactamente un entero,
por lo
que:
suponiendo que los errores de
modelo y medición son
pequeños.
Teniendo el factor e de desempaquetado
incremental, se calcula el m(k) a partir de la
ecuación (3) como la suma acumulativa donde, sin pérdida de
generalidad, el desempaquetador de fase empieza en la primera trama
K con m(K)=0, y a partir de m(k) y \phi(k) se
determina la fase \psi(kU) (desempaquetada).
En la práctica, los datos \psi(kU) y
\Omega(kU) muestreados están distorsionados por errores de
medición:
donde \varepsilon_{1} y
\varepsilon_{2} son errores de fase y frecuencia,
respectivamente. Con el fin de impedir que la determinación del
factor de desempaquetado se vuelva ambigua, los datos de medición
necesitan determinarse con suficiente precisión. Por tanto, en el
codificador 1, el seguimiento está restringido de manera
que:
donde \delta es el error en la
operación de redondeo. El error \delta se determina principalmente
mediante los errores en \omega debido a la multiplicación con U.
Supóngase que \omega se determina a partir de la máxima del valor
absoluto de la transformada de Fourier a partir de una versión
muestreada de la señal de entrada con frecuencia F_{s} de
muestreo y que la resolución de la transformada de Fourier es
2\pi/L_{a} siendo L_{a} el tamaño de análisis.
Con el fin de estar dentro del límite considerado, se tiene
que:
Esto significa que el tamaño de análisis debería
ser unas pocas veces mayor que el tamaño de actualización para que
el desempaquetamiento sea preciso, por ejemplo, ajustando
\delta_{0}= 1/4, el tamaño de análisis debería ser cuatro veces
el tamaño de actualización (despreciando los errores
\varepsilon_{1} en la medición de fase).
La segunda precaución que puede tomarse para
evitar errores de decisión en la operación de redondeo es definir
pistas de manera apropiada. En la unidad 42 de seguimiento, las
pistas sinusoidales se definen normalmente considerando diferencias
de amplitud y frecuencia. Adicionalmente, también es posible tener
en cuenta información de fase en el criterio de enlace. Por
ejemplo, puede definirse el error \varepsilon de predicción como
la diferencia entre el valor medido y el valor \tilde{\phi}
predicho según
donde el valor predicho puede
tomarse
como
Por tanto, preferiblemente la unidad 42 de
seguimiento prohíbe pistas en las que \varepsilon sea mayor que
un cierto valor (por ejemplo \varepsilon>\pi/2), dando como
resultado una definición inequívoca de e(k).
Adicionalmente, el codificador puede calcular
las fases y frecuencias tal como estarán disponibles en el
descodificador. Si las fases o frecuencias que se convertirán en
disponibles en el descodificador difieren demasiado de las fases
y/o frecuencias tal como están presentes en el codificador, puede
decidirse interrumpir una pista, es decir, para señalizar el fin de
una pista y empezar una nueva utilizando la frecuencia y fase
actuales y sus datos sinusoidales enlazados.
La fase \psi(kU) desempaquetada
muestreada producida por el desempaquetador 44 de fase (PU) se
proporciona como entrada al codificador 46 de fase (PE) para
producir un conjunto de niveles r de representación. Se
conocen técnicas para la transmisión eficaz de una característica
monótonamente cambiante en general tal como la fase desempaquetada.
En la figura 3(b), se emplea modulación de código de pulsos
diferencial adaptativa (ADPCM, Adaptive Differential Pulse Code
Modulation). En este caso, se utiliza un predictor 48 (PF) para
estimar la fase del siguiente segmento de pista y codificar la
diferencia sólo en un cuantificador 50 (Q). Puesto que se espera
que \psi sea una función casi lineal y por razones de
simplicidad, el predictor 48 se elige como un filtro de segundo
orden de la forma:
donde x es la entrada e
y es la salida. Sin embargo, se observará que también es
posible tomar otras relaciones funcionales (incluyendo relaciones
de orden superior) e incluir adaptación (hacia atrás o hacia
delante) adaptativa de los coeficientes del filtro. En el
codificador 46 de fase, se utiliza un mecanismo 52 de control
adaptativo hacia atrás (QC) por simplicidad para controlar el
cuantificador 50. Asimismo, también es posible un control
adaptativo hacia delante pero requeriría sobrecarga de tasa de bits
adicional.
Tal como puede observarse, la inicialización del
codificador (y el descodificador) para una pista empieza con el
conocimiento de la fase \phi(0) y la frecuencia
\omega(0) de inicio. Éstas se cuantifican y se transmiten
mediante un mecanismo separado. Adicionalmente, el paso de
cuantificación inicial utilizada en el controlador 52 de
cuantificación del codificador y el controlador 62 correspondiente
en el descodificador, figura 5(b), o bien se transmite o
bien se ajusta a un cierto valor tanto en el codificador como en el
descodificador. Finalmente, el fin de una pista puede señalizarse o
bien en un flujo lateral separado o bien como un símbolo único en
el flujo de bits de las fases.
A partir del código C_{S} sinusoidal generado
con el codificador sinusoidal, se reconstruye la componente de
señal sinusoidal mediante un sintetizador 131 sinusoidal(SS,
sinusoidal synthesizer) de la misma manera que se describirá
para el sintetizador 32 sinusoidal (SS) del descodificador. Esta
señal se resta en el restador 17 de la entrada x2 al codificador 13
sinusoidal, dando como resultado una señal x3 restante. La señal x3
residual producida por el codificador 13 sinusoidal se pasa al
analizador 14 de ruido del codificador 1 que produce un código
C_{N} de ruido representativo de este ruido, tal como se describe
en, por ejemplo, la solicitud de patente PCT Nº PCT/EP00/04599.
Finalmente, en un multiplexador 15, se
constituye un flujo de audio AS (audio stream) que incluye
los códigos C_{T}, C_{S} y C_{N}. El flujo de audio AS se
proporciona a, por ejemplo, un bus de datos, un sistema de antena,
un medio de almacenamiento, etc.
La figura 4 muestra un reproductor 3 de audio
adecuado para descodificar un flujo de audio AS', por ejemplo,
generado por un codificador 1 de la figura 1, obtenido a partir de
un bus de datos, sistema de antena, medio de almacenamiento, etc.
El flujo de audio AS' se demultiplexa en un demultiplexador 30 para
obtener los códigos C_{T}, C_{S} y C_{N}. Estos códigos se
proporcionan a un sintetizador 31 de transitorios, un sintetizador
32 sinusoidal y un sintetizador 33 de ruido respectivamente. A
partir del código C_{T} de transitorios, se calculan las
componentes de señal transitorias en el sintetizador 31 de
transitorios. En caso de que el código de transitorios indique una
función de forma, la forma se calcula basándose en los parámetros
recibidos. Además, el contenido de forma se calcula basándose en
las frecuencias y amplitudes de las componentes sinusoidales. Si el
código C_{T} de transitorios indica un paso, entonces no se
calcula ningún transitorio. La señal y_{T} transitoria total es
una suma de todos los transitorios.
El código C_{S} sinusoidal que incluye la
información codificada por el analizador 130 lo utiliza el
sintetizador 32 sinusoidal para generar la señal y_{S}. En
referencia ahora a las figuras 5(a) y (b), el sintetizador
32 sinusoidal comprende un descodificador 56 de fase (PD, phase
decoder) compatible con el codificador 46 de fase. En este
caso, el descuantificador 60 (DQ, dequantiser) conjuntamente
con un filtro 64 de predicción (PF, prediction filter) de
segundo orden produce (una estimación de) la fase \hat{\psi}
desempaquetada a partir de: los niveles r de representación,
la información inicial \hat{\phi}(0),
\hat{\omega}(0) proporcionada al filtro 64 de predicción
(PF) y el paso de cuantificación inicial para el controlador 62 de
cuantificación (QC).
Tal como se ilustra en la figura 2(b), la
frecuencia puede recuperarse a partir de la fase \hat{\psi}
desempaquetada mediante diferenciación. Suponiendo que el error de
fase en el descodificador es aproximadamente blanco y puesto que la
diferenciación amplifica las altas frecuencias, la diferenciación
puede combinarse con un filtro paso bajo para reducir el ruido y,
por tanto, para obtener una estimación precisa de la frecuencia en
el descodificador.
En la realización preferida, una unidad 58 de
filtrado (FR, filtering unit) aproxima la diferenciación que
es necesaria para obtener la frecuencia \hat{\omega} a partir de
la fase desempaquetada mediante procedimientos como diferencias
hacia delante, hacia atrás o centrales. Esto permite al
descodificador producir como salida las fases \hat{\psi} y
frecuencias \hat{\omega} que pueden utilizarse de una manera
convencional para sintetizar la componente sinusoidal de la señal
codificada.
Al mismo tiempo, cuando están sintetizándose las
componentes sinusoidales de la señal, el código C_{N} de ruido se
proporciona a un sintetizador 33 de ruido NS (noise
synthesizer), que es principalmente un filtro, que tiene una
respuesta en frecuencia que se aproxima al espectro del ruido. El NS
33 genera ruido y_{N} reconstruido filtrando una señal de ruido
blanco con el código C_{N} de ruido. La señal y(t) total
comprende la suma de la señal y_{T} transitoria y el producto de
cualquier descompresión (g) de amplitud y la suma de la señal
y_{S} sinusoidal y la señal y_{N} de ruido. El reproductor de
audio comprende dos sumadores 36 y 37 para sumar las respectivas
señales. La señal total se proporciona a una unidad 35 de salida,
que es por ejemplo un altavoz.
La figura 6 muestra un sistema de audio según la
invención que comprende un codificador 1 de audio tal como se
muestra en la figura 1 y un reproductor 3 de audio tal como se
muestra en la figura 4. Tal sistema ofrece características de
reproducción y grabación. El flujo de audio AS se proporciona desde
el codificador de audio al reproductor de audio sobre un canal 2 de
comunicación, que puede ser una conexión inalámbrica, un bus de
datos 20 o un medio de almacenamiento. En caso de que el canal 2 de
comunicación sea un medio de almacenamiento, el medio de
almacenamiento puede estar fijado en el sistema o puede ser un disco
extraíble, tarjeta de memoria, etc. El canal 2 de comunicación
puede ser parte del sistema de audio, pero sin embargo, a menudo
estará fuera del sistema de audio.
Claims (3)
1. Procedimiento de descodificación de un flujo
de audio, comprendiendo el procedimiento las etapas de:
leer un flujo de audio (AS') codificado que
incluye códigos (r) sinusoidales que representan una fase (\psi)
para cada pista de componentes sinusoidales enlazadas,
para cada pista, generar (56) un valor
(\hat{\psi}) monótonamente cambiante en general a partir de dichos
códigos (r) que representan dicha fase;
filtrar (58) dicho valor generado para
proporcionar una estimación de frecuencia (\hat{\omega}) para una
pista; y
emplear (32) dichos valores generados y dichas
estimaciones de frecuencia para sintetizar dichas componentes
sinusoidales de dicha señal de audio.
2. Reproductor (3) de audio que comprende:
medios para leer un flujo de audio (AS')
codificado que incluye códigos (r) sinusoidales que representan una
fase (\psi) para cada pista de componentes sinusoidales
enlazadas,
un desempaquetador (56) de fase para generar,
para cada pista, un valor (\hat{\psi}) monótonamente cambiante en
general a partir de dichos códigos (r) que representan dicha
fase;
un filtro (58) para filtrar dicho valor generado
para proporcionar una estimación de frecuencia (\hat{\omega}) para
una pista; y
un sintetizador (32) dispuesto para emplear
dichos valores generados y dichas estimaciones de frecuencia para
sintetizar dichas componentes sinusoidales de dicha señal de
audio.
3. Sistema de audio que comprende un codificador
(1) de audio y un reproductor (3) de audio según la reivindicación
2.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02080002 | 2002-11-29 | ||
EP02080002 | 2002-11-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2298568T3 true ES2298568T3 (es) | 2008-05-16 |
Family
ID=32405734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03758591T Expired - Lifetime ES2298568T3 (es) | 2002-11-29 | 2003-11-06 | Descodificacion de audio. |
Country Status (14)
Country | Link |
---|---|
US (1) | US7664633B2 (es) |
EP (1) | EP1568012B1 (es) |
JP (1) | JP4606171B2 (es) |
KR (1) | KR101016995B1 (es) |
CN (1) | CN100559467C (es) |
AT (1) | ATE381092T1 (es) |
AU (1) | AU2003274617A1 (es) |
BR (1) | BR0316663A (es) |
DE (1) | DE60318102T2 (es) |
ES (1) | ES2298568T3 (es) |
MX (1) | MXPA05005601A (es) |
PL (1) | PL376861A1 (es) |
RU (1) | RU2353980C2 (es) |
WO (1) | WO2004051627A1 (es) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1846253B (zh) * | 2003-09-05 | 2010-06-16 | 皇家飞利浦电子股份有限公司 | 低比特率音频编码 |
US7725310B2 (en) | 2003-10-13 | 2010-05-25 | Koninklijke Philips Electronics N.V. | Audio encoding |
KR101393298B1 (ko) * | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR101080421B1 (ko) * | 2007-03-16 | 2011-11-04 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치 |
KR101410230B1 (ko) * | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
KR101410229B1 (ko) * | 2007-08-20 | 2014-06-23 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치 |
KR101425354B1 (ko) * | 2007-08-28 | 2014-08-06 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치 |
BR112012024360B1 (pt) | 2010-07-19 | 2020-11-03 | Dolby International Ab | sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
JP5752324B2 (ja) * | 2011-07-07 | 2015-07-22 | ニュアンス コミュニケーションズ, インコーポレイテッド | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 |
PL232466B1 (pl) | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4151471A (en) * | 1977-11-04 | 1979-04-24 | Burns Richard C | System for reducing noise transients |
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
CA1332982C (en) * | 1987-04-02 | 1994-11-08 | Robert J. Mcauley | Coding of acoustic waveforms |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5119397A (en) * | 1990-04-26 | 1992-06-02 | Telefonaktiebolaget L M Ericsson | Combined analog and digital cellular telephone system having a secondary set of control channels |
BR9405445A (pt) * | 1993-06-30 | 1999-09-08 | Sony Corp | Aparelho codificador e decodificador de sinal apropriado para codificar um sinal de entrada e decodificar um sinal codificado, suporte de gravação onde sinais codificados são gravados, e processo de codificação e de decodificação de sinal para codificar um sinal de entrada e decodificar um sinal codificado. |
US5602959A (en) * | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
US5646961A (en) * | 1994-12-30 | 1997-07-08 | Lucent Technologies Inc. | Method for noise weighting filtering |
US5727119A (en) * | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
US5893057A (en) * | 1995-10-24 | 1999-04-06 | Ricoh Company Ltd. | Voice-based verification and identification methods and systems |
US5796842A (en) * | 1996-06-07 | 1998-08-18 | That Corporation | BTSC encoder |
DE69702261T2 (de) * | 1996-07-30 | 2001-01-25 | British Telecomm | Sprachkodierung |
US7295752B1 (en) * | 1997-08-14 | 2007-11-13 | Virage, Inc. | Video cataloger system with audio track extraction |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
US6496797B1 (en) * | 1999-04-01 | 2002-12-17 | Lg Electronics Inc. | Apparatus and method of speech coding and decoding using multiple frames |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
EP1190415B1 (en) | 2000-03-15 | 2007-08-08 | Koninklijke Philips Electronics N.V. | Laguerre function for audio coding |
ATE303646T1 (de) * | 2000-06-20 | 2005-09-15 | Koninkl Philips Electronics Nv | Sinusoidale kodierung |
DE60120771T2 (de) * | 2001-01-16 | 2007-05-31 | Koninklijke Philips Electronics N.V. | Verknüpfen von signalkomponenten bei der parametrischen codierung |
EP2239733B1 (en) * | 2001-03-28 | 2019-08-21 | Mitsubishi Denki Kabushiki Kaisha | Noise suppression method |
US7184951B2 (en) * | 2002-02-15 | 2007-02-27 | Radiodetection Limted | Methods and systems for generating phase-derivative sound |
CN1846253B (zh) * | 2003-09-05 | 2010-06-16 | 皇家飞利浦电子股份有限公司 | 低比特率音频编码 |
TWI253625B (en) * | 2004-04-06 | 2006-04-21 | I-Shun Huang | Signal-processing system and method thereof |
-
2003
- 2003-11-06 AT AT03758591T patent/ATE381092T1/de not_active IP Right Cessation
- 2003-11-06 PL PL376861A patent/PL376861A1/pl unknown
- 2003-11-06 MX MXPA05005601A patent/MXPA05005601A/es active IP Right Grant
- 2003-11-06 ES ES03758591T patent/ES2298568T3/es not_active Expired - Lifetime
- 2003-11-06 JP JP2004556597A patent/JP4606171B2/ja not_active Expired - Fee Related
- 2003-11-06 RU RU2005120380/09A patent/RU2353980C2/ru not_active IP Right Cessation
- 2003-11-06 AU AU2003274617A patent/AU2003274617A1/en not_active Abandoned
- 2003-11-06 DE DE60318102T patent/DE60318102T2/de not_active Expired - Lifetime
- 2003-11-06 EP EP03758591A patent/EP1568012B1/en not_active Expired - Lifetime
- 2003-11-06 US US10/536,228 patent/US7664633B2/en not_active Expired - Fee Related
- 2003-11-06 BR BR0316663-5A patent/BR0316663A/pt not_active IP Right Cessation
- 2003-11-06 CN CNB2003801045917A patent/CN100559467C/zh not_active Expired - Fee Related
- 2003-11-06 WO PCT/IB2003/005019 patent/WO2004051627A1/en active IP Right Grant
- 2003-11-06 KR KR1020057009520A patent/KR101016995B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
BR0316663A (pt) | 2005-10-11 |
DE60318102T2 (de) | 2008-11-27 |
CN100559467C (zh) | 2009-11-11 |
MXPA05005601A (es) | 2005-07-26 |
EP1568012B1 (en) | 2007-12-12 |
JP2006508394A (ja) | 2006-03-09 |
CN1717719A (zh) | 2006-01-04 |
US20060036431A1 (en) | 2006-02-16 |
ATE381092T1 (de) | 2007-12-15 |
KR20050086871A (ko) | 2005-08-30 |
US7664633B2 (en) | 2010-02-16 |
RU2353980C2 (ru) | 2009-04-27 |
DE60318102D1 (de) | 2008-01-24 |
AU2003274617A8 (en) | 2004-06-23 |
AU2003274617A1 (en) | 2004-06-23 |
PL376861A1 (pl) | 2006-01-09 |
RU2005120380A (ru) | 2006-01-20 |
KR101016995B1 (ko) | 2011-02-28 |
JP4606171B2 (ja) | 2011-01-05 |
EP1568012A1 (en) | 2005-08-31 |
WO2004051627A1 (en) | 2004-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2298568T3 (es) | Descodificacion de audio. | |
ES2306235T3 (es) | Codificacion de audio multicanal compatible estereo. | |
ES2250197T3 (es) | Codificador de voz armonico-lpc con estructura de supertrama. | |
ES2703327T3 (es) | Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible | |
ES2539304T3 (es) | Un aparato y un método para generar datos de salida por ampliación de ancho de banda | |
ES2322264T3 (es) | Codificacion de audio de baja tasa de transmision de bits. | |
BRPI0716308B1 (pt) | “dispositivo e método para pós-processamento de valores espectrais e codificador e decodificador de sinais de áudio" | |
US20170162207A1 (en) | Method and apparatus for encoding and decoding noise signal | |
US7596490B2 (en) | Low bit-rate audio encoding | |
KR20060052854A (ko) | 오디오 파일 포맷 변환 | |
ES2337903T3 (es) | Codificacion de audio. | |
ES2248549T3 (es) | Edicion de señales de audio. | |
US20060009967A1 (en) | Sinusoidal audio coding with phase updates | |
KR100300887B1 (ko) | 디지털 오디오 데이터의 역방향 디코딩 방법 | |
JP2004362721A (ja) | データ生成方法およびデータ生成装置、データ再生方法およびデータ再生装置、並びにプログラム | |
KR20070019650A (ko) | 오디오 인코딩 |