ES2322264T3 - Codificacion de audio de baja tasa de transmision de bits. - Google Patents
Codificacion de audio de baja tasa de transmision de bits. Download PDFInfo
- Publication number
- ES2322264T3 ES2322264T3 ES04744533T ES04744533T ES2322264T3 ES 2322264 T3 ES2322264 T3 ES 2322264T3 ES 04744533 T ES04744533 T ES 04744533T ES 04744533 T ES04744533 T ES 04744533T ES 2322264 T3 ES2322264 T3 ES 2322264T3
- Authority
- ES
- Spain
- Prior art keywords
- sinusoidal
- phase
- value
- frequency
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005540 biological transmission Effects 0.000 title description 12
- 238000011002 quantification Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 31
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000011161 development Methods 0.000 claims description 10
- 230000004069 differentiation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 150000001768 cations Chemical class 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000001419 dependent effect Effects 0.000 abstract description 2
- 230000001052 transient effect Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 10
- 238000005259 measurement Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento de codificación de una señal de audio, comprendiendo el procedimiento las etapas de: - proporcionar un conjunto respectivo de valores (x(t)) de señal muestreada para cada uno de una pluralidad de segmentos secuenciales; - analizar los valores (x(t)) de señal muestreada para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales, incluyendo cada componente sinusoidal un valor (*) de frecuencia medida y un valor (*) de fase envuelta medida; - enlazar componentes sinusoidales a través de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales; estando caracterizado el procedimiento además por: - determinar, para cada pista sinusoidal, un valor *(k)) de fase desenvuelta, desenvuelta a partir del valor de fase envuelta medida; - determinar, para cada pista sinusoidal en cada uno de la pluralidad de segmentos secuenciales, un valor ( *(k)) de fase desenvuelta predicho en función de un valor de fase desenvuelta para al menos un segmento anterior; - para cada uno de la pluralidad de segmentos que generan un código sinusoidal que representa un valor (*(k)) de fase desenvuelta, cuantificar el código (CS) sinusoidal en función del valor ( *(k)) de fase desenvuelta predicho y el valor (*(k)) de fase desenvuelta, y dependiendo de al menos un valor (Omega) de frecuencia de la pista sinusoidal respectiva; y - generar una señal (AS) codificada que incluye códigos (C S) sinusoidales que representan una frecuencia de inicio para cada pista sinusoidal, los valores de fase desenvuelta de la pluralidad de segmentos e información de enlace.
Description
Codificación de audio de baja tasa de
transmisión de bits.
La presente invención se refiere a codificación
y decodificación de señales de banda ancha tal como en particular
señales de audio.
Cuando se transmiten señales de banda ancha, por
ejemplo señales de audio tales como habla, se usan técnicas de
compresión o codificación para reducir el ancho de banda o tasa de
transmisión de bits de la señal.
La figura 1 muestra un esquema de codificación
paramétrica conocido, en particular un codificador sinusoidal, que
se usa en la presente invención, y que se describe en el documento
WO 01/69593. En este codificador, una señal x(t) de audio de
entrada se divide en varios segmentos o tramas de tiempo (que
posiblemente se superponen), normalmente de 20 ms de duración cada
uno. Cada segmento se descompone en componentes transitorias,
sinusoidales y de ruido. Es posible también obtener otras
componentes de la señal de audio de entrada tales como complejos
armónicos, aunque éstos no son relevantes para los fines de la
presente invención.
Otro ejemplo de codificación de audio se
presenta en "Narrowband Perceptual Audio Coding: Enhancements for
Speech" de Najaf-Zadeh y Kabal, Proc. European
Conf. Speech Commun. Technol., Vol. 3, septiembre de 2001, páginas
1993-1996, XP007004767, Aalborg, Dinamarca, que
describe un sistema de codificación de habla que usa codificación
sinusoidal para generar una codificación de 8 kbit/s de una señal de
audio de banda estrecha. "Parametric Coding for
High-Quality Audio" de Den Brinker et al,
Audio Engineering Society, Artículo 5554 del Congreso, 112 Congreso,
mayo de 2002, XP002297946, Munich, Alemania, da a conocer un ejemplo
de un codificador paramétrico que usa codificación sinusoidal.
"On the Perceptual Weihgting Function for Phase Quantisation of
Speech" de Kim y Kim, IEEE Workshop on Speech Coding,
Proceedings, meeting the Challenges of the New Millenium, 17
septiembre de 2000, páginas 62-64, XP002171475
describe la utilización de características de percepción del sistema
auditivo humano para la cuantificación de fase de señales de habla.
S. Ahmadi y A. S. Spanias: "Minimum-variance phase
prediction and frame interpolation algorithms for low bit rate
sinusoidal speech codification", ISCAS 2000 IEEE International
Symposium on circuits and systems, vol. 3, 28 de mayo de 2000,
páginas 730-733, XP010502635 da a conocer un
procedimiento de predicción de fase de mínima varianza y algoritmos
de interpolación de trama para codificación sinusoidal de habla de
baja tasa de transmisión de bits.
En el analizador 130 sinusoidal del codificador
del documento WO 01/69593, la señal x2 para cada segmento se modela
usando varias sinusoides representadas por parámetros de amplitud,
frecuencia y fase. Esta información normalmente se extrae para un
intervalo de tiempo de análisis realizando una transformada de
Fourier (FT) que proporciona una representación espectral del
intervalo que incluye: frecuencias, amplitudes para cada frecuencia,
y fases para cada frecuencia, en la que cada fase se "envuelve"
(wrapped), es decir está en el intervalo {-\pi;\pi}. Una
vez estimada la información sinusoidal para un segmento, se inicia
un algoritmo de seguimiento de pista. Este algoritmo usa una
función de coste para enlazar sinusoides en diferentes segmentos
entre sí segmento a segmento para obtener denominadas pistas. El
algoritmo de seguimiento de pista da como resultado por tanto
códigos C_{S} sinusoidales que comprenden pistas sinusoidales que
se inician en un instante de tiempo específico, evolucionan durante
una determinada duración de tiempo a lo largo de una pluralidad de
segmentos de tiempo y entonces se detienen.
En tal codificación sinusoidal, es normal
transmitir información de frecuencia par las pistas formadas en el
codificador. Esto puede hacerse de una manera sencilla y
relativamente con bajos costes, puesto que las pistas tienen sólo
frecuencia que varía muy lentamente. La información de frecuencia
puede transmitirse por tanto de manera eficaz mediante codificación
diferencial de tiempo. En general, la amplitud puede codificarse
también de manera diferencial a lo largo del tiempo.
A diferencia de la frecuencia, la fase cambia
más rápidamente con el tiempo. Si la frecuencia es constante, la
fase cambiará de manera lineal con el tiempo, y los cambios de
frecuencia darán como resultado correspondientes desviaciones de
fase de la dirección lineal. En función del índice de segmento de
pista, la fase tendrá un comportamiento aproximadamente lineal. La
transmisión de fase codificada por lo tanto es más complicada. Sin
embargo, cuando se transmite, la fase se limita al intervalo
{-\pi;\pi}, es decir la fase se "envuelve", según prevé la
transformada de Fourier. Debido a esta representación de fase de
módulo 2\pi, la relación entre tramas estructural de la fase se
pierde y, a primera vista, parece ser una variable aleatoria.
Sin embargo, puesto que la fase es la integral
de la frecuencia, la fase es redundante y no es necesario, en
principio, transmitirla. Esto se denomina continuación de fase y
reduce la tasa de transmisión de bits de manera significativa.
En continuación de fase, sólo la primera
sinusoide de cada pista se transmite con el fin de ahorrar tasa de
transmisión de bits. Cada fase posterior se calcula a partir de la
fase inicial y las frecuencias de la pista. Puesto que las
frecuencias se cuantifican y no siempre se estiman con mucha
precisión, la fase continua se desviará de la fase medida. Los
experimentos muestran que la continuación de fase degrada la calidad
de una señal de audio.
Transmitir la fase para cada sinusoide aumenta
la calidad de la señal decodificada en el extremo del receptor, pero
también da como resultado un aumento significativo de la tasa de
transmisión de bits/ancho de banda. Por lo tanto, un cuantificador
de frecuencia/fase conjunto, en el que las fases medidas de una
pista sinusoidal que tienen valores entre -\pi y \pi se
desenvuelven usando las frecuencias medidas e información de enlace,
da como resultado fases desenvueltas que aumentan de manera
monotónica a lo largo de una pista. En ese codificador, las fases
desenvueltas se cuantifican usando un cuantificador de modulación
por código de impulsos diferencial adaptativo (ADPCM) y se
transmiten al decodificador. El decodificador obtiene las
frecuencias y las fases de una pista sinusoidal a partir de la
trayectoria de fase desenvuelta.
En continuación de fase, sólo la frecuencia
codificada se transmite, y la fase se recupera en el decodificador a
partir de los datos de frecuencia aprovechando la relación integral
entre fase y frecuencia. Se conoce, sin embargo, que cuando se usa
continuación de fase, la fase no puede recuperarse perfectamente. Si
se producen errores de frecuencia, por ejemplo debidos a errores de
medición en la frecuencia o debidos a ruido de cuantificación, la
fase, al reconstruirse usando la relación integral, normalmente
mostrarán un error que tiene el carácter de deriva. Esto se debe a
que los errores de frecuencia tienen un carácter aproximadamente
aleatorio. Los errores de baja frecuencia se amplifican por
integración, y por consiguiente la fase recuperada tenderá a derivar
alejándose de la fase medida realmente. Esto conlleva artefactos
audibles.
Esto se ilustra en la figura 2a, en la que
\Omega y \psi son la frecuencia real y la fase real,
respectivamente, para una pista. Tanto en el codificador como en el
decodificador, la frecuencia y la fase tienen una relación integral
representada por la letra "I". El proceso de cuantificación en
el codificador se modela como un ruido n añadido. En el
decodificador, la fase \hat{\psi} recuperada incluye por tanto dos
componentes: la fase \psi real y una componente \varepsilon_{2}
de ruido, en las que tanto el espectro de la fase recuperada como la
función de densidad espectral de potencia del ruido
\varepsilon_{2} tienen un marcado carácter de baja frecuencia.
Por tanto, puede observarse que, en continuación
de fase, puesto que la fase recuperada es la integral de una señal
de baja frecuencia, la fase recuperada es a su vez una señal de baja
frecuencia. Sin embargo, el ruido introducido en el proceso de
reconstrucción también es dominante en este intervalo de baja
frecuencia. Por lo tanto es difícil separar estas fuentes con vistas
a filtrar el ruido n introducido durante la codificación.
En procedimientos de cuantificación
convencionales, la frecuencia y la fase se cuantifican de manera
independiente entre sí. En general, se aplica un cuantificador
escalar uniforme al parámetro de fase. Por motivos de percepción las
frecuencias más bajas deben cuantificarse de manera más precisa que
las frecuencias más altas. Por lo tanto las frecuencias se
convierten a una representación no uniforme usando la función ERB o
Bark y a continuación se cuantifican de manera uniforme, dando como
resultando un cuantificador no uniforme. Pueden encontrarse también
razones físicas: en complejos armónicos, las frecuencias de
armónicos más altas tienden a tener variaciones de frecuencia más
altas que las frecuencias más bajas.
Cuando la frecuencia y la fase se cuantifican
conjuntamente, la precisión de cuantificación que depende de la
frecuencia no es sencilla. El uso de un enfoque de cuantificación
uniforme da como resultado una reconstrucción de sonido de baja
calidad. Además, para las altas frecuencias, en las que puede
bajarse la precisión de cuantificación, puede desarrollarse un
cuantificador que necesite menos bits. Para las fases desenvueltas,
sería deseable un mecanismo similar.
Según un aspecto de la invención se prevé un
procedimiento de codificación de una señal de audio según las
características de la reivindicación 1.
Según otro aspecto de la invención se prevé un
procedimiento de decodificación de un flujo (AS') de audio según la
reivindicación 10.
Según otro aspecto de la invención se prevé un
codificador de audio según la reivindicación 14.
La invención proporciona un procedimiento de
codificación de una señal de banda ancha, en particular una señal de
audio tal como una señal de habla usando una tasa de transmisión de
bits baja. En el codificador sinusoidal se estiman varias sinusoides
por cada segmento de audio. Una sinusoide se representa mediante la
frecuencia, la amplitud y la fase. Normalmente, la fase se
cuantifica de manera independiente de la frecuencia. La invención
usa una cuantificación de fase que depende de la frecuencia, y en
particular las bajas frecuencias se cuantifican usando intervalos
de cuantificación más pequeños que en frecuencias más altas. Por
tanto, las fases desenvueltas de las frecuencias más bajas se
cuantifican con mayor precisión, posiblemente con un intervalo de
cuantificación más pequeño, que las fases de las frecuencias más
altas. La invención aporta una mejora significativa en la calidad de
señales decodificadas, especialmente para cuantificadores de baja
tasa de transmisión de bits.
La invención permite el uso de cuantificación
conjunta de frecuencia y de fase mientras se dispone asimismo de
cuantificación de frecuencia no uniforme. Esto da como resultado la
ventaja de transmitir información de fase con una tasa de
transmisión de bits baja mientras se mantiene una buena precisión de
fase y calidad de señal en todas las frecuencias, en particular
también en bajas frecuencias.
La ventaja de este procedimiento es una mejora
de la precisión de fase, en particular en las frecuencias más bajas,
en las que un error de fase se corresponde con un error de tiempo
mayor que en frecuencias más altas. Esto es importante, puesto que
el oído humano no sólo es sensible a la frecuencia y la fase sino
también al sincronismo absoluto, como en los transitorios, y el
procedimiento de la invención da como resultado una mejora de la
calidad del sonido, especialmente cuando se usa sólo un pequeño
número de bits para cuantificar los valores de fase y de
frecuencia. Por otro lado, puede obtenerse una calidad de sonido
requerida usando menos bits. Puesto que las bajas frecuencias varían
muy lentamente, el intervalo de cuantificación puede estar más
limitado y se obtiene una cuantificación más precisa. Además, la
adaptación a una cuantificación más fina es mucho más rápida.
La invención puede usarse en un codificador de
audio en el que se usan sinusoides. La invención se refiere tanto al
codificador como al decodificador.
La figura 1 muestra un codificador de audio de
la técnica anterior en el que se implementa una realización de la
invención;
la figura 2a ilustra la relación entre fase y
frecuencia en sistemas de la técnica anterior;
la figura 2b ilustra la relación entre fase y
frecuencia en sistemas de audio según la presente invención;
las figuras 3a y 3b muestran una realización
preferida de una componente de codificador sinusoidal del
codificador de audio de la figura 1;
la figura 4 muestra un reproductor de audio en
el que se implementa una realización de la invención; y
las figuras 5a y 5b muestran una realización
preferida de una componente de sintetizador sinusoidal del
reproductor de audio de la figura 4; y
la figura 6 muestra un sistema que comprende un
codificador de audio y un reproductor de audio según la
invención.
A continuación se describen realizaciones
preferidas de la invención con referencia a los dibujos adjuntos, en
los que se han asignado a componentes similares números de
referencia similares y, a menos que se indique de otro modo,
realizan funciones similares. En una realización preferida de la
presente invención, el codificador 1 es un codificador sinusoidal
del tipo descrito en el documento WO01/69593, figura 1. El
funcionamiento de este codificador de la técnica anterior y su
decodificador correspondiente se ha descrito ampliamente y sólo se
proporciona la descripción en este documento cuando sea pertinente
para la presente invención.
Tanto en la técnica anterior como en la
realización preferida de la presente invención, el codificador 1 de
audio muestrea una señal de audio de entrada a una determinada
frecuencia de muestreo que da como resultado una representación
x(t) digital de la señal de audio. El codificador 1 entonces
separa la señal de entrada muestreada en tres componentes:
componentes de señal transitorias, componentes determinísticas
sostenidas, y componentes estocásticas sostenidas. El codificador 1
de audio comprende un codificador 11 transitorio, un codificador 13
sinusoidal y un codificador 14 de ruido.
El codificador 11 transitorio comprende un
detector 110 transitorio(TD), un analizador 111 transitorio
(TA) y un sintetizador 112 transitorio (TS). En primer lugar, la
señal x(t) entra en el detector 110 transitorio. Este
detector 110 estima si hay una componente de señal transitoria y su
posición. Esta información se alimenta al analizador 111
transitorio. Si se determina la posición de una componente de señal
transitoria, el analizador 111 transitorio trata de extraer (la
parte principal de) la componente de señal transitoria. Hace
coincidir una función de forma con un segmento de señal
preferiblemente comenzando en una posición de inicio estimada, y
determina el contenido por debajo de la función de forma, empleando
por ejemplo un (pequeño) número de componentes sinusoidales. Esta
información está contenida en el código C_{T} transitorio, y se
proporciona información más detallada sobre generación del código
C_{T} transitorio en el documento WO 01/69593.
El código C_{T} transitorio se proporciona al
sintetizador 112 transitorio. La componente de señal transitoria
sintetizada se resta de la señal x(t) de entrada en el
restador 16, dando como resultado una señal x1. Se usa un mecanismo
(12) de control de ganancia GC para producir x2 a partir de x1.
La señal x2 se proporciona al codificador 13
sinusoidal en el que se analiza en un analizador 130 sinusoidal
(SA), que determina las componentes sinusoidales (determinísticas).
Por lo tanto se observará que aunque la presencia del analizador
transitorio es deseable, no es necesaria y la invención puede
implementarse sin un analizador de este tipo. Como alternativa, tal
como se mencionó anteriormente, la invención puede implementarse
también con por ejemplo un analizador de complejos armónicos. En
resumen, el codificador sinusoidal codifica la señal x2 de entrada
como pistas de componentes sinusoidales enlazadas desde un segmento
de trama al siguiente.
Con referencia ahora a la figura 3a, de la misma
manera que en la técnica anterior, en la realización preferida, cada
segmento de la señal x2 de entrada se transforma en el dominio de la
frecuencia en una unidad 40 de transformada de Fourier (FT). Para
cada segmento, la unidad de FT proporciona amplitudes A, fases
\phi y frecuencias \omega medidas. Tal como se mencionó
anteriormente, el intervalo de fases proporcionado por la
transformada de Fourier está restringido a -\pi \leq \phi <
\pi. Una unidad 42 de algoritmo de seguimiento de pista (FA) toma
la información para cada segmento y, empleando una función de coste
adecuada, enlaza las sinusoides de un segmento al siguiente,
produciendo de este modo una secuencia de fases \varphi(k)
y frecuencias \omega(k) medidas para cada pista.
Los datos codificados a partir de varios
segmentos consecutivos se enlazan. Esto se hace como sigue. Para
cada segmento se determina un número de sinusoides (por ejemplo
usando una FFT). Una sinusoide consiste en una frecuencia, una
amplitud y una fase. El número de sinusoides es variable por cada
segmento. Una vez determinadas las sinusoides para un segmento, se
realiza un análisis para conectarlas a sinusoides del segmento
anterior. Esto se denomina "enlace" o "seguimiento de
pista". El análisis se basa en la diferencia entre una sinusoide
del segmento actual y todas las sinusoides del segmento anterior. Se
realiza un enlace/pista con la sinusoide en el segmento anterior que
tiene la diferencia más pequeña. Si incluso la diferencia más
pequeña es mayor que un determinado valor umbral, no se realiza
ninguna conexión con sinusoides del segmento anterior. De este modo
se crea o "nace" una nueva sinusoide.
La diferencia entre sinusoides se determina
usando una "función de coste", que usa la frecuencia, la
amplitud y la fase de las sinusoides. Este análisis se realiza para
cada segmento. El resultado es un gran número de pistas para una
señal de audio. Una pista tiene un nacimiento, que es una sinusoide
que no tiene ninguna conexión con sinusoides del segmento anterior.
Una sinusoide de nacimiento se codifica de manera no diferencial.
Las sinusoides que están conectadas a sinusoides de segmentos
anteriores se denominan continuaciones y se codifican de manera
diferencial con respecto a las sinusoides del segmento anterior.
Esto ahorra muchos bits, puesto que sólo se codifican las
diferencias y no los valores absolutos.
Si f(n-1) es la
frecuencia de una sinusoide del segmento anterior y f(n) es
una sinusoide conectada del segmento actual, entonces
f(n)-f(n+1) se transmiten al
decodificador. El número n representa el número en la pista, n = 1
es el nacimiento, n = 2 es la primera continuación, etc. Lo mismo se
cumple para las amplitudes. El valor de fase de la sinusoide inicial
(=sinusoide de nacimiento) se transmite, mientras que para una
continuación, no se transmite ninguna fase, sino que la fase puede
recuperarse a partir de las frecuencias. Si una pista no tiene
continuación en el siguiente segmento, la pista termina o
"muere".
A diferencia de la técnica anterior, los códigos
C_{S} sinusoidales producidos finalmente por el analizador 130
incluyen información de fase, y la frecuencia se reconstruye a
partir de esta información en el decodificador.
Tal como se mencionó anteriormente, sin embargo,
la fase medida se envuelve, lo que significa que está restringida a
una representación de módulo 2\pi. Por lo tanto, en la realización
preferida, el analizador comprende un desenvolvedor 44 de fase (PU)
en el que la representación de fase de módulo 2\pi se desenvuelve
para mostrar el comportamiento \psi de fase entre tramas
estructural para una pista. Como la frecuencia en pistas
sinusoidales es casi constante, se observará que la fase \psi
desenvuelta normalmente será una función de aumento (o disminución)
casi lineal y esto hace posible que la transmisión de fase sea
barata, es decir con una baja tasa de transmisión de bits. La fase
\psi desenvuelta se proporciona como entrada a un codificador 46
de fase (PE) que proporciona como salida niveles r de representación
cuantificados adecuados para transmitirse.
Con referencia ahora al funcionamiento del
desenvolvedor 44 de fase, tal como se mencionó anteriormente, la
fase \psi instantánea y la frecuencia \Omega instantánea para
una pista están relacionadas por:
donde T_{0} es un instante de
tiempo de
referencia.
Una pista sinusoidal en tramas k = K, K+1...
K+L-1 tiene frecuencias \omega(k) medidas
(expresadas en radianes por segundo) y fases \varphi(k)
medidas (expresadas en radianes). La distancia entre los centros de
las tramas viene dada por U (tasa de transmisión actualizada
expresada en segundos). Se supone que las frecuencias medidas son
muestras de la supuesta pista \Omega de frecuencia de tiempo
continuo subyacente con \omega(k) = \Omega(kU) y,
de manera similar, las fases medidas son muestras de la pista \psi
de fase de tiempo continuo asociada con \varphi(k) =
\psi(kU) mod (2\pi). Para la codificación sinusoidal se
supone que \Omega es una función casi constante.
Suponiendo que las frecuencias son casi
constantes dentro de un segmento, la Ecuación 1 puede aproximarse
como sigue:
Por lo tanto se observará que, conociendo la
fase y la frecuencia para un segmento dado y la frecuencia del
siguiente segmento, es posible estimar un valor de fase desenvuelta
para el siguiente segmento, y así sucesivamente para cada segmento
en una pista.
En la realización preferida, el desenvolvedor de
fase determina un factor m(k) de desenvolvimiento en el
instante k de tiempo:
El factor m(k) de desenvolvimiento
informa al desenvolvedor 44 de fase del número de ciclos que deben
añadirse para obtener la fase desenvuelta.
Combinando las ecuaciones 2 y 3, el
desenvolvedor de fase determina un factor e(k) de
desenvolvimiento incremental como sigue:
donde e debe ser un entero. Sin
embargo, debido a errores de medición y de modelo, el factor de
desenvolvimiento incremental no será exactamente un entero, por
tanto:
suponiendo que los errores de
modelo y de medición son
pequeños.
Teniendo el factor e de desenvolvimiento
incremental, el m(k) de la ecuación (3) se calcula como la
suma acumulada donde, sin perder la generalidad, el desenvolvedor de
fase empieza en la primera trama K con m(K) = 0 y, a partir
de m(k) y \phi(k), se determina la fase
\psi(kU) (desenvuelta).
En la práctica, los datos \psi(kU) y
\Omega(kU) muestreados se distorsionan debido a errores de
medición:
donde \varepsilon_{1} y
\varepsilon_{2} son los errores de fase y de frecuencia,
respectivamente. Con el fin de impedir que la determinación del
factor de desenvolvimiento se vuelva ambigua, es necesario
determinar los datos de medición con la suficiente precisión. Por
tanto, en la realización preferida, se restringe el seguimiento de
pista de modo
que:
donde \delta es el error en la
operación de redondeo. El error \delta se determina principalmente
mediante los errores en \omega debido a la multiplicación con U.
Supóngase que \omega se determina a partir del máximo del valor
absoluto de la transformada de Fourier a partir de una versión
muestreada de la señal de entrada con la frecuencia F_{s} de
muestreo y que la resolución de la transformada de Fourier es
2\pi/L_{a}, siendo La el tamaño de análisis. Con el fin de estar
dentro del límite considerado, se
obtiene:
Esto significa que el tamaño de análisis debe
ser algunas veces mayor al tamaño de actualización con el fin de que
el desenvolvimiento sea preciso, por ejemplo, ajustando \delta_{0}
= 1/4, el tamaño de análisis debe ser cuatro veces el tamaño de
actualización (despreciando los errores \varepsilon_{1} en la
medición de fase).
La segunda precaución que puede tomarse para
evitar los errores de decisión en la operación de redondeo es
definir las pistas apropiadamente. En la unidad 42 de seguimiento de
pista, las pistas sinusoidales se definen normalmente considerando
diferencias de amplitud y frecuencia. Además, es posible tener en
cuenta también la información de fase en el criterio de enlace. Por
ejemplo, puede definirse el error \varepsilon de predicción de
fase como la diferencia entre el valor medido y el valor
\tilde{\phi} predicho según
\vskip1.000000\baselineskip
donde el valor predicho puede
tomarse
como
\vskip1.000000\baselineskip
Por tanto, preferiblemente la unidad 42 de
seguimiento de pista prohíbe pistas en las que \varepsilon es
mayor que un determinado valor (por ejemplo \varepsilon >
\pi/2), dando como resultado una definición no ambigua de
e(k).
Además, el codificador puede calcular las fases
y las frecuencias tal como estarán disponibles en el decodificador.
Si las fases o frecuencias que estarán disponibles en el
decodificador difieren demasiado de las fases y/o frecuencias tal
como están presentes en el codificador, puede decidirse interrumpir
una pista, es decir señalar el final de una pista y el inicio de una
nueva usando la frecuencia y la fase actuales y sus datos
sinusoidales enlazados.
La fase \psi(kU) desenvuelta muestreada
producida por el desenvolvedor 44 de fase (PU) se proporciona como
entrada al codificador 46 de fase (PE) para producir el conjunto de
niveles r de representación. Se conocen técnicas para la transmisión
eficaz de una característica que cambia generalmente de manera
monotónica tal como la fase desenvuelta. En la realización
preferida, figura 3b, se emplea modulación por código de impulsos
diferencial adaptativa (ADPCM). En este caso, se usa un predictor 48
(PF) para estimar la fase del segmento de pista siguiente y
codificar la diferencia sólo en un cuantificador 50 (Q). Puesto que
se espera que \psi sea una función casi lineal y por motivos de
simplicidad, el predictor 48 se elige como un filtro de segundo
orden de la forma:
donde x es la entrada e y es la
salida. Se observará, sin embargo, que es posible también adoptar
otras relaciones funcionales (incluyendo relaciones de orden
superior) e incluir adaptación (hacia atrás o hacia delante)
adaptativa de los coeficientes de filtro. En la realización
preferida, se usa un mecanismo 50 de control (QC) adaptativo hacia
atrás por motivos de simplicidad para controlar el cuantificador 50.
Asimismo es posible también el control adaptativo hacia adelante
pero requeriría sobrecarga de tasa de transmisión de bits
adicional.
Tal como se observará, la inicialización del
codificador (y el decodificador) para una pista se inicia con el
conocimiento de la fase \phi(0) y frecuencia
\omega(0) de inicio. Éstas se cuantifican y transmiten
mediante un mecanismo independiente. Además, la etapa de
cuantificación inicial usada en el controlador 52 de cuantificación
del codificador y el controlador 62 correspondiente en el
decodificador, figura 5b, o bien se transmite o bien se ajusta a un
determinado valor tanto en el codificador como en el decodificador.
Por último, el final de una pista puede señalarse o bien en un flujo
lateral independiente o como un símbolo único en el flujo de bits
de la fases.
Se conoce la frecuencia de inicio de la fase
desenvuelta, tanto en el codificador como en el decodificador.
Basándose en esta frecuencia, se elige la precisión de
cuantificación. Para las trayectorias de fase desenvuelta que
comienzan con una baja frecuencia, se elige una rejilla de
cuantificación más precisa, es decir una resolución más alta, que
para una trayectoria de fase desenvuelta que comienza con una
frecuencia más alta.
En el cuantificador de ADPCM, la fase
\psi(k) desenvuelta, donde k representa el número en
la pista, se predice/estima a partir de las fases anteriores en la
pista. La diferencia entre la fase \tilde{\psi}(k) predicha
y la fase \psi(k) desenvuelta se cuantifica y se transmite
a continuación. El cuantificador se adapta para cada fase
desenvuelta en la pista. Cuando el error de predicción es pequeño,
el cuantificador limita el intervalo de posibles valores y la
cuantificación puede volverse más precisa. Por otro lado, cuando el
error de predicción es grande, el cuantificador usa una
cuantificación más basta.
El cuantificador Q (en la figura 3b) cuantifica
el error \Delta de predicción, que se calcula mediante
El error \Delta de predicción puede
cuantificarse usando una tabla de consulta. Con este fin, se
mantiene una tabla Q. Por ejemplo, para un cuantificador de ADPCM de
2 bits, la tabla inicial para Q puede tener el aspecto de la tabla
mostrada en la Tabla 1.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La cuantificación se realiza como sigue. El
error \Delta de predicción se compara con los límites b, de
modo que se cumpla la siguiente ecuación:
bl_{i} <
\Delta \leq
bu_{i}
A partir del valor de i, que cumple la relación
anterior, el nivel r de representación se calcula mediante
r = i.
Los niveles de representación asociados se
almacenan en la tabla R de representación, que se muestra en la
tabla 2.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Las entradas de las tablas Q y R se multiplican
por el factor c para la cuantificación de la siguiente componente
sinusoidal en la pista.
\vskip1.000000\baselineskip
Durante la decodificación de una pista, ambas
tablas se ajustan a escala según los niveles r de
representación generados. Si r es 1 ó 2 (nivel interior) para
la subtrama actual, entonces el factor c de ajuste a escala
para la tabla de cuantificación se ajusta a
Puesto que c < 1, la frecuencia y la
fase de la siguiente sinusoide en una pista se vuelven más precisas.
Si r es 0 ó 3 (nivel exterior), el factor de ajuste a escala
se ajusta a
Puesto que c > 1, la precisión de
cuantificación para la siguiente sinusoide en una pista disminuye.
Usando estos factores, puede deshacerse un ajuste a escala de
aumento mediante dos ajustes a escala de disminución. La diferencia
en los factores de ajuste a escala de aumento y de disminución da
como resultado la llegada rápida de un ajuste a escala de aumento,
mientras que un ajuste a escala de disminución correspondiente
requiere dos etapas.
Con el fin de evitar entradas muy pequeñas o muy
grandes en la tabla de cuantificación, sólo se realiza la adaptación
si el valor absoluto del nivel interior está entre \pi/64 y
3\pi/4. En ese caso c se ajusta a 1.
En el decodificador sólo debe mantenerse la
tabla R para convertir a niveles r de representación recibidos a un
error de predicción cuantificado. Esta operación de decuantificación
se realiza mediante el bloque DQ en la figura 5b.
Usando los ajustes anteriores, es necesario
mejorar la calidad del sonido reconstruido. Según la invención, se
usan diferentes tablas iniciales para pistas de fase desenvuelta,
dependiendo de la frecuencia de inicio. De este modo se obtiene una
mejor calidad de sonido. Esto se realiza como sigue. Las tablas Q y
R iniciales se ajustan a escala basándose en una primera frecuencia
de la pista. En la tabla 3, se dan los factores de ajuste a escala
junto con los intervalos de frecuencia. Si la primera frecuencia de
una pista se encuentra en un intervalo de frecuencia determinado, se
selecciona el factor de ajuste a escala apropiado, y las tablas R y
Q se dividen por ese factor de escala. Los puntos finales pueden
depender también de la primera frecuencia de la pista. En el
decodificador, se realiza un procedimiento correspondiente con el
fin de empezar con la tabla R inicial correcta.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La tabla 3 muestra un ejemplo de factores de
ajuste a escala que dependen de la frecuencia y las tablas Q y R
iniciales correspondientes para un cuantificador de ADPCM de 2 bits.
El intervalo 0-22050 Hz de frecuencia de audio está
dividido en cuatro subintervalos de frecuencia. Se observa que la
precisión de fase se mejora en los intervalos de frecuencia más baja
respecto a los intervalos de frecuencia más alta.
El número de subintervalos de frecuencia y los
factores de ajuste a escala que dependen de la frecuencia pueden
variar y pueden elegirse para adaptarse a los requisitos y fines
individuales. Tal como se describió anteriormente, las tablas Q y R
iniciales que dependen de la frecuencia en la tabla 3 pueden
ajustarse a escala en aumento o en disminución de manera dinámica
para adaptarse a la evolución en fase desde un segmento de tiempo al
siguiente.
Por ejemplo, en un cuantificador de ADPCM de 3
bits, los límites iniciales de los ocho intervalos de cuantificación
definidos por los 3 bits pueden definirse como sigue:
Q = {-\infty -1.41 -0,707 -0,35 0 0,35 0,707
1,41 \infty}, y puede tener el tamaño \pi/64 de rejilla mínimo,
y un tamaño \pi/2 de rejilla máximo. La tabla R de representación
puede tener el aspecto: R = {-2,117, -1,0585, -0,5285, -0,1750,
0,1750, 0,5285, 1,0585, 2,117}. En este caso puede usarse una
inicialización dependiente de la frecuencia similar de la tabla Q y
R tal como se muestra en la tabla 3.
A partir del código C_{S} sinusoidal generado
con el codificador sinusoidal, la componente de señal sinusoidal se
reconstruye mediante un sintetizador 131 sinusoidal (SS) de la misma
manera que se describirá para el sintetizador 32 sinusoidal (SS) del
decodificador. Esta señal se resta en el restador 17 de la entrada
x2 al codificador 13 sinusoidal, dando como resultado una señal x3
restante. La señal x3 residual producida por el codificador 13
sinusoidal se pasa al analizador 14 de ruido de la realización
preferida que produce un código C_{N} de ruido representativo de
este ruido, tal como se describe en, por ejemplo, el documento WO
0189086.
Por último, en un multiplexor 15, se constituye
un flujo AS de audio que incluye los códigos C_{T}, C_{S} y
C_{N}. El flujo AS de audio se proporciona por ejemplo a un bus de
datos, un sistema de antena, un medio de almacenamiento, etc.
La figura 4 muestra un reproductor de audio 3
adecuado para la decodificación de un flujo AS' de audio, por
ejemplo generado por un codificador 1 de la figura 1, obtenido a
partir de un bus de datos, sistema de antena, medio de
almacenamiento, etc. El flujo AS' de audio se demultiplexa en un
demultiplexor 30 para obtener los códigos C_{T}, C_{S} y
C_{N}. Estos códigos se proporcionan a un sintetizador 31
transitorio, un sintetizador 32 sinusoidal y un sintetizador 33 de
ruido respectivamente. A partir del código C_{T} transitorio, se
calculan las componentes de señal transitoria en el sintetizador 31
transitorio. En caso de que el código transitorio indique una
función de forma, la forma se calcula basándose en los parámetros
recibidos. Además, el contenido de forma se calcula basándose en las
frecuencias y amplitudes de las componentes sinusoidales. Si el
código C_{T} transitorio indica una etapa, entonces no se calcula
ningún transitorio. La señal transitorio total y_{T} es una suma
de todos los transitorios.
El código C_{S} sinusoidal que incluye la
información codificada por el analizador 130 se usa por el
sintetizador 32 sinusoidal para generar la señal y_{S}. Con
referencia ahora a las figuras 5a y b, el sintetizador 32 sinusoidal
comprende un decodificador 56 de fase (PD) compatible con el
codificador 46 de fase. En este caso, un decuantificador 60 (DQ) en
conjunción con un filtro 64 de predicción (PF) de segundo orden
produce (una estimación de) la fase \hat{\psi} desenvuelta a
partir de: los niveles r de representación; la información
\hat{\phi}(0), \hat{\omega}(0) inicial
proporcionada al filtro 64 de predicción (PF) y la etapa de
cuantificación inicial para el controlador 62 de cuantificación
(QC).
Tal como se ilustra en la figura 2b, la
frecuencia puede recuperarse a partir de la fase \hat{\psi}
desenvuelta por diferenciación. Suponiendo que el error de fase en
el decodificador es aproximadamente blanco y puesto que la
diferenciación amplifica las altas frecuencias, la diferenciación
puede combinarse con un filtro paso bajo para reducir el ruido y,
por tanto, para obtener una estimación precisa de la frecuencia en
el decodificador.
En la realización preferida, una unidad 58 de
filtrado (FR) aproxima la diferenciación que es necesaria para
obtener la frecuencia \hat{\omega} a partir de la fase desenvuelta
por procedimientos tales como diferencias hacia delante, hacia atrás
y centrales. Esto permite al decodificador producir como salida las
fases \hat{\psi} y las frecuencias \hat{\omega} que pueden
usarse de manera convencional para sintetizar la componente
sinusoidal de la señal codificada.
Al mismo tiempo, mientras las componentes
sinusoidales de la señal están sintetizándose, el código C_{N} de
ruido se alimenta a un sintetizador 33 de ruido NS, que es
principalmente un filtro, que tiene una respuesta de frecuencia que
se aproxima al espectro del ruido. El NS 33 genera ruido y_{N}
reconstruido filtrando una señal de ruido blanco con el código
C_{N} de ruido. La señal y(t) total comprende la suma de la
señal y_{T} transitoria y el producto de cualquier descompresión
(g) de amplitud y la suma de la señal y_{S} sinusoidal y la señal
y_{N} de ruido. El reproductor de audio comprende dos sumadores 36
y 37 para sumar señales respectivas. La señal total se proporciona
a una unidad 35 de salida, que es por ejemplo un altavoz.
La figura 6 muestra un sistema de audio según la
invención que comprende un codificador 1 de audio tal como se
muestra en la figura 1 y un reproductor 3 de audio tal como se
muestra en la figura 4. Un sistema de este tipo ofrece
características de reproducción y grabación. El flujo AS de audio se
proporciona desde el codificador de audio al reproductor de audio a
través de un canal 2 comunicación, que puede ser una conexión
inalámbrica, un bus 20 de datos o un medio de almacenamiento. En
caso de que el canal 2 de comunicación sea un medio de
almacenamiento, el medio de almacenamiento puede estar fijo en el
sistema o puede ser también un disco extraíble, tarjeta de memoria
extraíble, etc. El canal 2 de comunicación puede formar parte del
sistema de audio, pero sin embargo a menudo estará fuera del sistema
de audio.
Claims (19)
1. Procedimiento de codificación de una señal de
audio, comprendiendo el procedimiento las etapas de:
- proporcionar un conjunto respectivo de valores
(x(t)) de señal muestreada para cada uno de una pluralidad de
segmentos secuenciales;
- analizar los valores (x(t)) de señal
muestreada para determinar una o más componentes sinusoidales para
cada uno de la pluralidad de segmentos secuenciales, incluyendo cada
componente sinusoidal un valor (\Omega) de frecuencia medida y un
valor (\psi) de fase envuelta medida;
- enlazar componentes sinusoidales a través de
una pluralidad de segmentos secuenciales para proporcionar pistas
sinusoidales; estando caracterizado el procedimiento además
por:
- determinar, para cada pista sinusoidal, un
valor \psi(k)) de fase desenvuelta, desenvuelta a partir
del valor de fase envuelta medida;
- determinar, para cada pista sinusoidal en cada
uno de la pluralidad de segmentos secuenciales, un valor
(\tilde{\psi}(k)) de fase desenvuelta predicho en función
de un valor de fase desenvuelta para al menos un segmento
anterior;
- para cada uno de la pluralidad de segmentos
que generan un código sinusoidal que representa un valor
(\psi(k)) de fase desenvuelta, cuantificar el código
(C_{S}) sinusoidal en función del valor (\tilde{\psi}(k))
de fase desenvuelta predicho y el valor (\psi(k)) de fase
desenvuelta, y dependiendo de al menos un valor (\Omega) de
frecuencia de la pista sinusoidal respectiva; y
- generar una señal (AS) codificada que incluye
códigos (C_{S}) sinusoidales que representan una frecuencia de
inicio para cada pista sinusoidal, los valores de fase desenvuelta
de la pluralidad de segmentos e información de enlace.
2. Procedimiento según la reivindicación 1, en
el que, en una primera pista sinusoidal que incluye una primera
componente sinusoidal con un primer valor de frecuencia, los códigos
(C_{S}) sinusoidales se cuantifican usando una primera precisión
de cuantificación y, en una segunda pista sinusoidal que incluye una
segunda componente sinusoidal con un segundo valor de frecuencia
mayor que el primer valor de frecuencia, los códigos (C_{S})
sinusoidales se cuantifican usando una segunda precisión de
cuantificación menor que o igual a la primera precisión de
cuantifi-
cación.
cación.
3. Procedimiento según la reivindicación 1, en
el que los códigos (C_{S}) sinusoidales para una pista incluyen un
valor de fase inicial y un valor de frecuencia inicial, y la etapa
de predicción emplea el valor de frecuencia inicial y el valor de
fase inicial para proporcionar una primera predicción.
4. Procedimiento según la reivindicación 1, en
el que el valor de fase desenvuelta predicho de cada segmento
enlazado se determina en función de: la integral de la frecuencia
para el segmento anterior y la frecuencia del segmento enlazado; y
el valor de fase desenvuelta de un segmento anterior.
5. Procedimiento según la reivindicación 1, en
el que la cuantificación de los códigos sinusoidales incluye
- determinar una diferencia de fase entre cada
valor (\tilde{\psi}(k)) de fase desenvuelta predicho y el
valor (\psi(k)) de fase desenvuelta correspondiente.
6. Procedimiento según la reivindicación 4, en
el que la etapa de generación comprende:
controlar la etapa de cuantificación en función
de los códigos (C_{S}) sinusoidales cuantificados.
7. Procedimiento según la reivindicación 6, en
el que los códigos (C_{S}) sinusoidales incluyen un indicador de
un final de una pista.
8. Procedimiento según la reivindicación 1, en
el que el procedimiento comprende además las etapas de:
- sintetizar las componentes sinusoidales usando
los códigos (C_{S}) sinusoidales;
- restar los valores de señal sintetizada de los
valores (x(t)) de señal muestreada para proporcionar un
conjunto de valores (x_{3}) que representa una componente restante
de la señal de audio;
- modelar la componente restante de la señal de
audio determinando parámetros, que se aproximan a la componente
restante; e
- incluir los parámetros en un flujo (AS) de
audio.
9. Procedimiento según la reivindicación 1, en
el que los valores (x_{1}) de señal muestreada representan una
señal de audio de la que se han eliminado componentes
transitorias.
10. Procedimiento de decodificación de un flujo
(AS') de audio que incluye códigos (C_{S}) sinusoidales que
representan una frecuencia de inicio para una pista sinusoidal,
valores de fase desenvuelta para segmentos de la pista sinusoidal e
información de enlace, comprendiendo el procedimiento las etapas
de:
- recibir una señal que incluye el flujo (AS')
de audio;
- decuantificar los códigos (C_{S})
sinusoidales que representan los valores de fase desenvuelta,
decuantificándose los códigos (C_{S}) sinusoidales dependiendo de
al menos un valor de frecuencia de la pista sinusoidal
respectiva;
- generar valores (\hat{\psi}) de fase
desenvuelta decuantificada para la pluralidad de segmentos en
respuesta a los códigos sinusoidales decuantificados,
- calcular valores (\hat{\Omega}) de
frecuencia a partir de los valores (\hat{\psi}) de fase
desenvuelta decuantificada por diferenciación, y
- emplear los valores (\hat{\psi}) de fase
desenvuelta decuantificada y los valores (\hat{\Omega},
\hat{\psi}) de frecuencia para sintetizar componentes sinusoidales
de la pista sinusoidal.
\vskip1.000000\baselineskip
11. Procedimiento según la reivindicación 10, en
el que, en una primera pista sinusoidal que incluye una primer
componente sinusoidal con un primer valor de frecuencia, los códigos
sinusoidales se decuantifican usando una primera precisión de
cuantificación y, en una segunda pista sinusoidal que incluye una
segunda componente sinusoidal con un segundo valor de frecuencia
mayor que el primer valor de frecuencia, los códigos sinusoidales se
decuantifican usando una segunda precisión de cuantificación menor
que o igual a la primera precisión de cuantificación.
12. Procedimiento según la reivindicación 10, en
el que un valor de fase desenvuelta predicho de cada componente
sinusoidal enlazada se determina en función de: la integral de la
frecuencia para el segmento anterior y la frecuencia del segmento
enlazado; un valor de fase desenvuelta de un segmento anterior.
13. Procedimiento según la reivindicación 12, en
el que la precisión de cuantificación se controla en función de los
códigos sinusoidales cuantificados.
14. Codificador de audio dispuesto para procesar
un conjunto respectivo de valores de señal muestreada para cada uno
de una pluralidad de segmentos secuenciales, comprendiendo el
codificador;
- un analizador para analizar los valores de
señal muestreada para determinar una o más componentes sinusoidales
para cada uno de la pluralidad de segmentos secuenciales, incluyendo
cada componente sinusoidal un valor de frecuencia medida y un valor
de fase envuelta medida;
- un enlazador (13) para enlazar componentes
sinusoidales a través de una pluralidad de segmentos secuenciales
para proporcionar pistas sinusoidales;
- estando el codificador de audio
caracterizado además porque comprende:
- un desenvolvedor (44) de fase para determinar,
para cada pista sinusoidal, un valor (\psi(k)) de fase
desenvuelta, desenvuelta a partir del valor de fase envuelta medida
y para determinar, para cada pista sinusoidal en cada uno de la
pluralidad de segmentos secuenciales, un valor
(\tilde{\psi}(k)) de fase desenvuelta predicho en función
de un valor de fase desenvuelta para al menos un segmento
anterior;
- medios para generar, para cada uno de la
pluralidad de segmentos, un código sinusoidal que representa un
valor (\psi(k)) de fase desenvuelta en respuesta al valor
(\tilde{\psi}(k)) de fase desenvuelta predicho y el valor
(\psi) de fase desenvuelta,
- un cuantificador (50) para cuantificar códigos
sinusoidales en función del valor (\tilde{\psi}(k)) de
fase desenvuelta predicho y el valor (\psi(k)) de fase
desenvuelta dependiendo de al menos un valor de frecuencia de la
pista sinusoidal respectiva; y
- medios (15) para proporcionar una señal
codificada que incluye códigos (C_{S}) sinusoidales que
representan una frecuencia de inicio para cada pista sinusoidal y
los valores de fase desenvuelta de la pluralidad de segmentos e
información de enlace.
\vskip1.000000\baselineskip
15. Codificador de audio según la reivindicación
14, en el que el cuantificador (50) está adaptado, en una primera
pista sinusoidal que incluye una primera componente sinusoidal con
un primer valor de frecuencia, para cuantificar los códigos
(C_{S}) sinusoidales usando una primera precisión de
cuantificación y, en una segunda pista sinusoidal que incluye una
segunda componente sinusoidal con un segundo valor de frecuencia
mayor que el primer valor de frecuencia, para cuantificar los
códigos (C_{S}) sinusoidales usando una segunda precisión de
cuantificación menor que o igual a la primera precisión de
cuantificación.
16. Reproductor de audio, que comprende un
codificador de audio según la reivindicación 14.
17. Sistema de audio, que comprende un
codificador de audio según la reivindicación 14 y un reproductor de
audio según la reivindicación 16.
18. Flujo de audio, que comprende códigos
sinusoidales que representan pistas de componentes sinusoidales
enlazadas a través de una pluralidad de segmentos secuenciales de
una señal de audio, incluyendo el flujo de audio códigos (C_{S})
sinusoidales que representan una frecuencia de inicio para cada
pista sinusoidal, valores de fase desenvuelta de la pluralidad de
segmentos e información de enlace, estando caracterizado
porque los códigos sinusoidales representan un valor de fase
desenvuelta de un primer segmento cuantificada en función de un
valor de fase desenvuelta predicho y un valor de fase desenvuelta
para el primer segmento, determinándose el valor de fase predicho
para un primer segmento en función de un valor de fase desenvuelta
de al menos un segmento anterior y determinándose el valor de fase
desenvuelta a partir de un valor de fase envuelta medida, en el que
los códigos (C_{S}) sinusoidales se cuantifican dependiendo de al
menos un valor (\Omega) de frecuencia de la pista sinusoidal
respectiva.
19. Medio de almacenamiento, en el que se ha
almacenado un flujo de audio según la reivindicación 18.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03102225 | 2003-07-18 | ||
EP03102225 | 2003-07-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2322264T3 true ES2322264T3 (es) | 2009-06-18 |
Family
ID=34072659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04744533T Expired - Lifetime ES2322264T3 (es) | 2003-07-18 | 2004-07-08 | Codificacion de audio de baja tasa de transmision de bits. |
Country Status (11)
Country | Link |
---|---|
US (1) | US7640156B2 (es) |
EP (1) | EP1649453B1 (es) |
JP (1) | JP4782006B2 (es) |
KR (1) | KR101058064B1 (es) |
CN (1) | CN1826634B (es) |
AT (1) | ATE425533T1 (es) |
BR (1) | BRPI0412717A (es) |
DE (1) | DE602004019928D1 (es) |
ES (1) | ES2322264T3 (es) |
RU (1) | RU2368018C2 (es) |
WO (1) | WO2005008628A1 (es) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7649135B2 (en) * | 2005-02-10 | 2010-01-19 | Koninklijke Philips Electronics N.V. | Sound synthesis |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR101149448B1 (ko) * | 2007-02-12 | 2012-05-25 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
KR101317269B1 (ko) * | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
KR20090008611A (ko) * | 2007-07-18 | 2009-01-22 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치 |
KR101410229B1 (ko) * | 2007-08-20 | 2014-06-23 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치 |
KR101425355B1 (ko) * | 2007-09-05 | 2014-08-06 | 삼성전자주식회사 | 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법 |
EP2212884B1 (en) * | 2007-11-06 | 2013-01-02 | Nokia Corporation | An encoder |
KR101325760B1 (ko) * | 2009-12-17 | 2013-11-08 | 한국전자통신연구원 | 오디오/음성 신호 처리 장치의 복부호화 장치 및 방법 |
ES2613747T3 (es) | 2013-01-08 | 2017-05-25 | Dolby International Ab | Predicción basada en modelo en un banco de filtros críticamente muestreado |
KR20160087827A (ko) * | 2013-11-22 | 2016-07-22 | 퀄컴 인코포레이티드 | 고대역 코딩에서의 선택적 위상 보상 |
PL232466B1 (pl) | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6418408B1 (en) * | 1999-04-05 | 2002-07-09 | Hughes Electronics Corporation | Frequency domain interpolative speech codec system |
CN1154975C (zh) | 2000-03-15 | 2004-06-23 | 皇家菲利浦电子有限公司 | 用于声频编码的拉盖尔函数 |
KR100363259B1 (ko) * | 2000-05-16 | 2002-11-30 | 삼성전자 주식회사 | 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법 |
WO2001099097A1 (en) * | 2000-06-20 | 2001-12-27 | Koninklijke Philips Electronics N.V. | Sinusoidal coding |
ATE330309T1 (de) * | 2001-01-16 | 2006-07-15 | Koninkl Philips Electronics Nv | Verknüpfen von signalkomponenten bei der parametrischen codierung |
WO2002056299A1 (en) * | 2001-01-16 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Parametric coding of an audio or speech signal |
KR20030011912A (ko) * | 2001-04-18 | 2003-02-11 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
EP1399917B1 (en) * | 2001-06-08 | 2005-09-21 | Philips Electronics N.V. | Editing of audio signals |
CN1771533A (zh) * | 2003-05-27 | 2006-05-10 | 皇家飞利浦电子股份有限公司 | 音频编码 |
-
2004
- 2004-07-08 US US10/564,656 patent/US7640156B2/en not_active Expired - Fee Related
- 2004-07-08 RU RU2006105017/09A patent/RU2368018C2/ru not_active IP Right Cessation
- 2004-07-08 AT AT04744533T patent/ATE425533T1/de not_active IP Right Cessation
- 2004-07-08 ES ES04744533T patent/ES2322264T3/es not_active Expired - Lifetime
- 2004-07-08 WO PCT/IB2004/051172 patent/WO2005008628A1/en active Application Filing
- 2004-07-08 KR KR1020067001232A patent/KR101058064B1/ko active IP Right Grant
- 2004-07-08 DE DE602004019928T patent/DE602004019928D1/de not_active Expired - Lifetime
- 2004-07-08 JP JP2006520077A patent/JP4782006B2/ja not_active Expired - Fee Related
- 2004-07-08 BR BRPI0412717-0A patent/BRPI0412717A/pt not_active IP Right Cessation
- 2004-07-08 EP EP04744533A patent/EP1649453B1/en not_active Expired - Lifetime
- 2004-07-08 CN CN2004800206738A patent/CN1826634B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1649453B1 (en) | 2009-03-11 |
RU2006105017A (ru) | 2006-06-27 |
CN1826634B (zh) | 2010-12-01 |
ATE425533T1 (de) | 2009-03-15 |
US7640156B2 (en) | 2009-12-29 |
WO2005008628A1 (en) | 2005-01-27 |
RU2368018C2 (ru) | 2009-09-20 |
KR101058064B1 (ko) | 2011-08-22 |
KR20060037375A (ko) | 2006-05-03 |
JP4782006B2 (ja) | 2011-09-28 |
BRPI0412717A (pt) | 2006-09-26 |
JP2007519027A (ja) | 2007-07-12 |
CN1826634A (zh) | 2006-08-30 |
EP1649453A1 (en) | 2006-04-26 |
US20070112560A1 (en) | 2007-05-17 |
DE602004019928D1 (de) | 2009-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2322264T3 (es) | Codificacion de audio de baja tasa de transmision de bits. | |
ES2273216T3 (es) | Codificacion de audio. | |
ES2223591T3 (es) | Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable. | |
ES2434947T3 (es) | Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz | |
ES2452569T3 (es) | Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase | |
ES2642906T3 (es) | Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador | |
ES2250197T3 (es) | Codificador de voz armonico-lpc con estructura de supertrama. | |
ES2884133T3 (es) | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC | |
US9026236B2 (en) | Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus | |
US7596490B2 (en) | Low bit-rate audio encoding | |
EP2998959A1 (en) | Method and apparatus for encoding and decoding high frequency band | |
ES2337903T3 (es) | Codificacion de audio. | |
BRPI0305710B1 (pt) | "apparatus and method of decoding of audio" | |
ES2746322T3 (es) | Estimación del retardo del tono | |
BR112015014212B1 (pt) | Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio | |
ES2298568T3 (es) | Descodificacion de audio. | |
US20060009967A1 (en) | Sinusoidal audio coding with phase updates | |
KR20070019650A (ko) | 오디오 인코딩 |