ES2322264T3

ES2322264T3 - Codificacion de audio de baja tasa de transmision de bits.

Info

Publication number: ES2322264T3
Application number: ES04744533T
Authority: ES
Inventors: Andreas J. Gerrits; Albertus C. Den Brinker
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-07-18
Filing date: 2004-07-08
Publication date: 2009-06-18
Anticipated expiration: 2024-07-08
Also published as: EP1649453B1; RU2006105017A; CN1826634B; ATE425533T1; US7640156B2; WO2005008628A1; RU2368018C2; KR101058064B1; KR20060037375A; JP4782006B2; BRPI0412717A; JP2007519027A; CN1826634A; EP1649453A1; US20070112560A1; DE602004019928D1

Abstract

Procedimiento de codificación de una señal de audio, comprendiendo el procedimiento las etapas de: - proporcionar un conjunto respectivo de valores (x(t)) de señal muestreada para cada uno de una pluralidad de segmentos secuenciales; - analizar los valores (x(t)) de señal muestreada para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales, incluyendo cada componente sinusoidal un valor (*) de frecuencia medida y un valor (*) de fase envuelta medida; - enlazar componentes sinusoidales a través de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales; estando caracterizado el procedimiento además por: - determinar, para cada pista sinusoidal, un valor *(k)) de fase desenvuelta, desenvuelta a partir del valor de fase envuelta medida; - determinar, para cada pista sinusoidal en cada uno de la pluralidad de segmentos secuenciales, un valor ( *(k)) de fase desenvuelta predicho en función de un valor de fase desenvuelta para al menos un segmento anterior; - para cada uno de la pluralidad de segmentos que generan un código sinusoidal que representa un valor (*(k)) de fase desenvuelta, cuantificar el código (CS) sinusoidal en función del valor ( *(k)) de fase desenvuelta predicho y el valor (*(k)) de fase desenvuelta, y dependiendo de al menos un valor (Omega) de frecuencia de la pista sinusoidal respectiva; y - generar una señal (AS) codificada que incluye códigos (C S) sinusoidales que representan una frecuencia de inicio para cada pista sinusoidal, los valores de fase desenvuelta de la pluralidad de segmentos e información de enlace.

Description

Codificación de audio de baja tasa de transmisión de bits.

La presente invención se refiere a codificación y decodificación de señales de banda ancha tal como en particular señales de audio.

Cuando se transmiten señales de banda ancha, por ejemplo señales de audio tales como habla, se usan técnicas de compresión o codificación para reducir el ancho de banda o tasa de transmisión de bits de la señal.

La figura 1 muestra un esquema de codificación paramétrica conocido, en particular un codificador sinusoidal, que se usa en la presente invención, y que se describe en el documento WO 01/69593. En este codificador, una señal x(t) de audio de entrada se divide en varios segmentos o tramas de tiempo (que posiblemente se superponen), normalmente de 20 ms de duración cada uno. Cada segmento se descompone en componentes transitorias, sinusoidales y de ruido. Es posible también obtener otras componentes de la señal de audio de entrada tales como complejos armónicos, aunque éstos no son relevantes para los fines de la presente invención.

Otro ejemplo de codificación de audio se presenta en "Narrowband Perceptual Audio Coding: Enhancements for Speech" de Najaf-Zadeh y Kabal, Proc. European Conf. Speech Commun. Technol., Vol. 3, septiembre de 2001, páginas 1993-1996, XP007004767, Aalborg, Dinamarca, que describe un sistema de codificación de habla que usa codificación sinusoidal para generar una codificación de 8 kbit/s de una señal de audio de banda estrecha. "Parametric Coding for High-Quality Audio" de Den Brinker et al, Audio Engineering Society, Artículo 5554 del Congreso, 112 Congreso, mayo de 2002, XP002297946, Munich, Alemania, da a conocer un ejemplo de un codificador paramétrico que usa codificación sinusoidal. "On the Perceptual Weihgting Function for Phase Quantisation of Speech" de Kim y Kim, IEEE Workshop on Speech Coding, Proceedings, meeting the Challenges of the New Millenium, 17 septiembre de 2000, páginas 62-64, XP002171475 describe la utilización de características de percepción del sistema auditivo humano para la cuantificación de fase de señales de habla. S. Ahmadi y A. S. Spanias: "Minimum-variance phase prediction and frame interpolation algorithms for low bit rate sinusoidal speech codification", ISCAS 2000 IEEE International Symposium on circuits and systems, vol. 3, 28 de mayo de 2000, páginas 730-733, XP010502635 da a conocer un procedimiento de predicción de fase de mínima varianza y algoritmos de interpolación de trama para codificación sinusoidal de habla de baja tasa de transmisión de bits.

En el analizador 130 sinusoidal del codificador del documento WO 01/69593, la señal x2 para cada segmento se modela usando varias sinusoides representadas por parámetros de amplitud, frecuencia y fase. Esta información normalmente se extrae para un intervalo de tiempo de análisis realizando una transformada de Fourier (FT) que proporciona una representación espectral del intervalo que incluye: frecuencias, amplitudes para cada frecuencia, y fases para cada frecuencia, en la que cada fase se "envuelve" (wrapped), es decir está en el intervalo {-\pi;\pi}. Una vez estimada la información sinusoidal para un segmento, se inicia un algoritmo de seguimiento de pista. Este algoritmo usa una función de coste para enlazar sinusoides en diferentes segmentos entre sí segmento a segmento para obtener denominadas pistas. El algoritmo de seguimiento de pista da como resultado por tanto códigos C_{S} sinusoidales que comprenden pistas sinusoidales que se inician en un instante de tiempo específico, evolucionan durante una determinada duración de tiempo a lo largo de una pluralidad de segmentos de tiempo y entonces se detienen.

En tal codificación sinusoidal, es normal transmitir información de frecuencia par las pistas formadas en el codificador. Esto puede hacerse de una manera sencilla y relativamente con bajos costes, puesto que las pistas tienen sólo frecuencia que varía muy lentamente. La información de frecuencia puede transmitirse por tanto de manera eficaz mediante codificación diferencial de tiempo. En general, la amplitud puede codificarse también de manera diferencial a lo largo del tiempo.

A diferencia de la frecuencia, la fase cambia más rápidamente con el tiempo. Si la frecuencia es constante, la fase cambiará de manera lineal con el tiempo, y los cambios de frecuencia darán como resultado correspondientes desviaciones de fase de la dirección lineal. En función del índice de segmento de pista, la fase tendrá un comportamiento aproximadamente lineal. La transmisión de fase codificada por lo tanto es más complicada. Sin embargo, cuando se transmite, la fase se limita al intervalo {-\pi;\pi}, es decir la fase se "envuelve", según prevé la transformada de Fourier. Debido a esta representación de fase de módulo 2\pi, la relación entre tramas estructural de la fase se pierde y, a primera vista, parece ser una variable aleatoria.

Sin embargo, puesto que la fase es la integral de la frecuencia, la fase es redundante y no es necesario, en principio, transmitirla. Esto se denomina continuación de fase y reduce la tasa de transmisión de bits de manera significativa.

En continuación de fase, sólo la primera sinusoide de cada pista se transmite con el fin de ahorrar tasa de transmisión de bits. Cada fase posterior se calcula a partir de la fase inicial y las frecuencias de la pista. Puesto que las frecuencias se cuantifican y no siempre se estiman con mucha precisión, la fase continua se desviará de la fase medida. Los experimentos muestran que la continuación de fase degrada la calidad de una señal de audio.

Transmitir la fase para cada sinusoide aumenta la calidad de la señal decodificada en el extremo del receptor, pero también da como resultado un aumento significativo de la tasa de transmisión de bits/ancho de banda. Por lo tanto, un cuantificador de frecuencia/fase conjunto, en el que las fases medidas de una pista sinusoidal que tienen valores entre -\pi y \pi se desenvuelven usando las frecuencias medidas e información de enlace, da como resultado fases desenvueltas que aumentan de manera monotónica a lo largo de una pista. En ese codificador, las fases desenvueltas se cuantifican usando un cuantificador de modulación por código de impulsos diferencial adaptativo (ADPCM) y se transmiten al decodificador. El decodificador obtiene las frecuencias y las fases de una pista sinusoidal a partir de la trayectoria de fase desenvuelta.

En continuación de fase, sólo la frecuencia codificada se transmite, y la fase se recupera en el decodificador a partir de los datos de frecuencia aprovechando la relación integral entre fase y frecuencia. Se conoce, sin embargo, que cuando se usa continuación de fase, la fase no puede recuperarse perfectamente. Si se producen errores de frecuencia, por ejemplo debidos a errores de medición en la frecuencia o debidos a ruido de cuantificación, la fase, al reconstruirse usando la relación integral, normalmente mostrarán un error que tiene el carácter de deriva. Esto se debe a que los errores de frecuencia tienen un carácter aproximadamente aleatorio. Los errores de baja frecuencia se amplifican por integración, y por consiguiente la fase recuperada tenderá a derivar alejándose de la fase medida realmente. Esto conlleva artefactos audibles.

Esto se ilustra en la figura 2a, en la que \Omega y \psi son la frecuencia real y la fase real, respectivamente, para una pista. Tanto en el codificador como en el decodificador, la frecuencia y la fase tienen una relación integral representada por la letra "I". El proceso de cuantificación en el codificador se modela como un ruido n añadido. En el decodificador, la fase \hat{\psi} recuperada incluye por tanto dos componentes: la fase \psi real y una componente \varepsilon_{2} de ruido, en las que tanto el espectro de la fase recuperada como la función de densidad espectral de potencia del ruido \varepsilon_{2} tienen un marcado carácter de baja frecuencia.

Por tanto, puede observarse que, en continuación de fase, puesto que la fase recuperada es la integral de una señal de baja frecuencia, la fase recuperada es a su vez una señal de baja frecuencia. Sin embargo, el ruido introducido en el proceso de reconstrucción también es dominante en este intervalo de baja frecuencia. Por lo tanto es difícil separar estas fuentes con vistas a filtrar el ruido n introducido durante la codificación.

En procedimientos de cuantificación convencionales, la frecuencia y la fase se cuantifican de manera independiente entre sí. En general, se aplica un cuantificador escalar uniforme al parámetro de fase. Por motivos de percepción las frecuencias más bajas deben cuantificarse de manera más precisa que las frecuencias más altas. Por lo tanto las frecuencias se convierten a una representación no uniforme usando la función ERB o Bark y a continuación se cuantifican de manera uniforme, dando como resultando un cuantificador no uniforme. Pueden encontrarse también razones físicas: en complejos armónicos, las frecuencias de armónicos más altas tienden a tener variaciones de frecuencia más altas que las frecuencias más bajas.

Cuando la frecuencia y la fase se cuantifican conjuntamente, la precisión de cuantificación que depende de la frecuencia no es sencilla. El uso de un enfoque de cuantificación uniforme da como resultado una reconstrucción de sonido de baja calidad. Además, para las altas frecuencias, en las que puede bajarse la precisión de cuantificación, puede desarrollarse un cuantificador que necesite menos bits. Para las fases desenvueltas, sería deseable un mecanismo similar.

Según un aspecto de la invención se prevé un procedimiento de codificación de una señal de audio según las características de la reivindicación 1.

Según otro aspecto de la invención se prevé un procedimiento de decodificación de un flujo (AS') de audio según la reivindicación 10.

Según otro aspecto de la invención se prevé un codificador de audio según la reivindicación 14.

La invención proporciona un procedimiento de codificación de una señal de banda ancha, en particular una señal de audio tal como una señal de habla usando una tasa de transmisión de bits baja. En el codificador sinusoidal se estiman varias sinusoides por cada segmento de audio. Una sinusoide se representa mediante la frecuencia, la amplitud y la fase. Normalmente, la fase se cuantifica de manera independiente de la frecuencia. La invención usa una cuantificación de fase que depende de la frecuencia, y en particular las bajas frecuencias se cuantifican usando intervalos de cuantificación más pequeños que en frecuencias más altas. Por tanto, las fases desenvueltas de las frecuencias más bajas se cuantifican con mayor precisión, posiblemente con un intervalo de cuantificación más pequeño, que las fases de las frecuencias más altas. La invención aporta una mejora significativa en la calidad de señales decodificadas, especialmente para cuantificadores de baja tasa de transmisión de bits.

La invención permite el uso de cuantificación conjunta de frecuencia y de fase mientras se dispone asimismo de cuantificación de frecuencia no uniforme. Esto da como resultado la ventaja de transmitir información de fase con una tasa de transmisión de bits baja mientras se mantiene una buena precisión de fase y calidad de señal en todas las frecuencias, en particular también en bajas frecuencias.

La ventaja de este procedimiento es una mejora de la precisión de fase, en particular en las frecuencias más bajas, en las que un error de fase se corresponde con un error de tiempo mayor que en frecuencias más altas. Esto es importante, puesto que el oído humano no sólo es sensible a la frecuencia y la fase sino también al sincronismo absoluto, como en los transitorios, y el procedimiento de la invención da como resultado una mejora de la calidad del sonido, especialmente cuando se usa sólo un pequeño número de bits para cuantificar los valores de fase y de frecuencia. Por otro lado, puede obtenerse una calidad de sonido requerida usando menos bits. Puesto que las bajas frecuencias varían muy lentamente, el intervalo de cuantificación puede estar más limitado y se obtiene una cuantificación más precisa. Además, la adaptación a una cuantificación más fina es mucho más rápida.

La invención puede usarse en un codificador de audio en el que se usan sinusoides. La invención se refiere tanto al codificador como al decodificador.

La figura 1 muestra un codificador de audio de la técnica anterior en el que se implementa una realización de la invención;

la figura 2a ilustra la relación entre fase y frecuencia en sistemas de la técnica anterior;

la figura 2b ilustra la relación entre fase y frecuencia en sistemas de audio según la presente invención;

las figuras 3a y 3b muestran una realización preferida de una componente de codificador sinusoidal del codificador de audio de la figura 1;

la figura 4 muestra un reproductor de audio en el que se implementa una realización de la invención; y

las figuras 5a y 5b muestran una realización preferida de una componente de sintetizador sinusoidal del reproductor de audio de la figura 4; y

la figura 6 muestra un sistema que comprende un codificador de audio y un reproductor de audio según la invención.

A continuación se describen realizaciones preferidas de la invención con referencia a los dibujos adjuntos, en los que se han asignado a componentes similares números de referencia similares y, a menos que se indique de otro modo, realizan funciones similares. En una realización preferida de la presente invención, el codificador 1 es un codificador sinusoidal del tipo descrito en el documento WO01/69593, figura 1. El funcionamiento de este codificador de la técnica anterior y su decodificador correspondiente se ha descrito ampliamente y sólo se proporciona la descripción en este documento cuando sea pertinente para la presente invención.

Tanto en la técnica anterior como en la realización preferida de la presente invención, el codificador 1 de audio muestrea una señal de audio de entrada a una determinada frecuencia de muestreo que da como resultado una representación x(t) digital de la señal de audio. El codificador 1 entonces separa la señal de entrada muestreada en tres componentes: componentes de señal transitorias, componentes determinísticas sostenidas, y componentes estocásticas sostenidas. El codificador 1 de audio comprende un codificador 11 transitorio, un codificador 13 sinusoidal y un codificador 14 de ruido.

El codificador 11 transitorio comprende un detector 110 transitorio(TD), un analizador 111 transitorio (TA) y un sintetizador 112 transitorio (TS). En primer lugar, la señal x(t) entra en el detector 110 transitorio. Este detector 110 estima si hay una componente de señal transitoria y su posición. Esta información se alimenta al analizador 111 transitorio. Si se determina la posición de una componente de señal transitoria, el analizador 111 transitorio trata de extraer (la parte principal de) la componente de señal transitoria. Hace coincidir una función de forma con un segmento de señal preferiblemente comenzando en una posición de inicio estimada, y determina el contenido por debajo de la función de forma, empleando por ejemplo un (pequeño) número de componentes sinusoidales. Esta información está contenida en el código C_{T} transitorio, y se proporciona información más detallada sobre generación del código C_{T} transitorio en el documento WO 01/69593.

El código C_{T} transitorio se proporciona al sintetizador 112 transitorio. La componente de señal transitoria sintetizada se resta de la señal x(t) de entrada en el restador 16, dando como resultado una señal x1. Se usa un mecanismo (12) de control de ganancia GC para producir x2 a partir de x1.

La señal x2 se proporciona al codificador 13 sinusoidal en el que se analiza en un analizador 130 sinusoidal (SA), que determina las componentes sinusoidales (determinísticas). Por lo tanto se observará que aunque la presencia del analizador transitorio es deseable, no es necesaria y la invención puede implementarse sin un analizador de este tipo. Como alternativa, tal como se mencionó anteriormente, la invención puede implementarse también con por ejemplo un analizador de complejos armónicos. En resumen, el codificador sinusoidal codifica la señal x2 de entrada como pistas de componentes sinusoidales enlazadas desde un segmento de trama al siguiente.

Con referencia ahora a la figura 3a, de la misma manera que en la técnica anterior, en la realización preferida, cada segmento de la señal x2 de entrada se transforma en el dominio de la frecuencia en una unidad 40 de transformada de Fourier (FT). Para cada segmento, la unidad de FT proporciona amplitudes A, fases \phi y frecuencias \omega medidas. Tal como se mencionó anteriormente, el intervalo de fases proporcionado por la transformada de Fourier está restringido a -\pi \leq \phi < \pi. Una unidad 42 de algoritmo de seguimiento de pista (FA) toma la información para cada segmento y, empleando una función de coste adecuada, enlaza las sinusoides de un segmento al siguiente, produciendo de este modo una secuencia de fases \varphi(k) y frecuencias \omega(k) medidas para cada pista.

Los datos codificados a partir de varios segmentos consecutivos se enlazan. Esto se hace como sigue. Para cada segmento se determina un número de sinusoides (por ejemplo usando una FFT). Una sinusoide consiste en una frecuencia, una amplitud y una fase. El número de sinusoides es variable por cada segmento. Una vez determinadas las sinusoides para un segmento, se realiza un análisis para conectarlas a sinusoides del segmento anterior. Esto se denomina "enlace" o "seguimiento de pista". El análisis se basa en la diferencia entre una sinusoide del segmento actual y todas las sinusoides del segmento anterior. Se realiza un enlace/pista con la sinusoide en el segmento anterior que tiene la diferencia más pequeña. Si incluso la diferencia más pequeña es mayor que un determinado valor umbral, no se realiza ninguna conexión con sinusoides del segmento anterior. De este modo se crea o "nace" una nueva sinusoide.

La diferencia entre sinusoides se determina usando una "función de coste", que usa la frecuencia, la amplitud y la fase de las sinusoides. Este análisis se realiza para cada segmento. El resultado es un gran número de pistas para una señal de audio. Una pista tiene un nacimiento, que es una sinusoide que no tiene ninguna conexión con sinusoides del segmento anterior. Una sinusoide de nacimiento se codifica de manera no diferencial. Las sinusoides que están conectadas a sinusoides de segmentos anteriores se denominan continuaciones y se codifican de manera diferencial con respecto a las sinusoides del segmento anterior. Esto ahorra muchos bits, puesto que sólo se codifican las diferencias y no los valores absolutos.

Si f(n-1) es la frecuencia de una sinusoide del segmento anterior y f(n) es una sinusoide conectada del segmento actual, entonces f(n)-f(n+1) se transmiten al decodificador. El número n representa el número en la pista, n = 1 es el nacimiento, n = 2 es la primera continuación, etc. Lo mismo se cumple para las amplitudes. El valor de fase de la sinusoide inicial (=sinusoide de nacimiento) se transmite, mientras que para una continuación, no se transmite ninguna fase, sino que la fase puede recuperarse a partir de las frecuencias. Si una pista no tiene continuación en el siguiente segmento, la pista termina o "muere".

A diferencia de la técnica anterior, los códigos C_{S} sinusoidales producidos finalmente por el analizador 130 incluyen información de fase, y la frecuencia se reconstruye a partir de esta información en el decodificador.

Tal como se mencionó anteriormente, sin embargo, la fase medida se envuelve, lo que significa que está restringida a una representación de módulo 2\pi. Por lo tanto, en la realización preferida, el analizador comprende un desenvolvedor 44 de fase (PU) en el que la representación de fase de módulo 2\pi se desenvuelve para mostrar el comportamiento \psi de fase entre tramas estructural para una pista. Como la frecuencia en pistas sinusoidales es casi constante, se observará que la fase \psi desenvuelta normalmente será una función de aumento (o disminución) casi lineal y esto hace posible que la transmisión de fase sea barata, es decir con una baja tasa de transmisión de bits. La fase \psi desenvuelta se proporciona como entrada a un codificador 46 de fase (PE) que proporciona como salida niveles r de representación cuantificados adecuados para transmitirse.

Con referencia ahora al funcionamiento del desenvolvedor 44 de fase, tal como se mencionó anteriormente, la fase \psi instantánea y la frecuencia \Omega instantánea para una pista están relacionadas por:

1

donde T_{0} es un instante de tiempo de referencia.

Una pista sinusoidal en tramas k = K, K+1... K+L-1 tiene frecuencias \omega(k) medidas (expresadas en radianes por segundo) y fases \varphi(k) medidas (expresadas en radianes). La distancia entre los centros de las tramas viene dada por U (tasa de transmisión actualizada expresada en segundos). Se supone que las frecuencias medidas son muestras de la supuesta pista \Omega de frecuencia de tiempo continuo subyacente con \omega(k) = \Omega(kU) y, de manera similar, las fases medidas son muestras de la pista \psi de fase de tiempo continuo asociada con \varphi(k) = \psi(kU) mod (2\pi). Para la codificación sinusoidal se supone que \Omega es una función casi constante.

Suponiendo que las frecuencias son casi constantes dentro de un segmento, la Ecuación 1 puede aproximarse como sigue:

2

Por lo tanto se observará que, conociendo la fase y la frecuencia para un segmento dado y la frecuencia del siguiente segmento, es posible estimar un valor de fase desenvuelta para el siguiente segmento, y así sucesivamente para cada segmento en una pista.

En la realización preferida, el desenvolvedor de fase determina un factor m(k) de desenvolvimiento en el instante k de tiempo:

3

El factor m(k) de desenvolvimiento informa al desenvolvedor 44 de fase del número de ciclos que deben añadirse para obtener la fase desenvuelta.

Combinando las ecuaciones 2 y 3, el desenvolvedor de fase determina un factor e(k) de desenvolvimiento incremental como sigue:

4

donde e debe ser un entero. Sin embargo, debido a errores de medición y de modelo, el factor de desenvolvimiento incremental no será exactamente un entero, por tanto:

5

suponiendo que los errores de modelo y de medición son pequeños.

Teniendo el factor e de desenvolvimiento incremental, el m(k) de la ecuación (3) se calcula como la suma acumulada donde, sin perder la generalidad, el desenvolvedor de fase empieza en la primera trama K con m(K) = 0 y, a partir de m(k) y \phi(k), se determina la fase \psi(kU) (desenvuelta).

En la práctica, los datos \psi(kU) y \Omega(kU) muestreados se distorsionan debido a errores de medición:

6

donde \varepsilon_{1} y \varepsilon_{2} son los errores de fase y de frecuencia, respectivamente. Con el fin de impedir que la determinación del factor de desenvolvimiento se vuelva ambigua, es necesario determinar los datos de medición con la suficiente precisión. Por tanto, en la realización preferida, se restringe el seguimiento de pista de modo que:

7

donde \delta es el error en la operación de redondeo. El error \delta se determina principalmente mediante los errores en \omega debido a la multiplicación con U. Supóngase que \omega se determina a partir del máximo del valor absoluto de la transformada de Fourier a partir de una versión muestreada de la señal de entrada con la frecuencia F_{s} de muestreo y que la resolución de la transformada de Fourier es 2\pi/L_{a}, siendo La el tamaño de análisis. Con el fin de estar dentro del límite considerado, se obtiene:

8

Esto significa que el tamaño de análisis debe ser algunas veces mayor al tamaño de actualización con el fin de que el desenvolvimiento sea preciso, por ejemplo, ajustando \delta_{0} = 1/4, el tamaño de análisis debe ser cuatro veces el tamaño de actualización (despreciando los errores \varepsilon_{1} en la medición de fase).

La segunda precaución que puede tomarse para evitar los errores de decisión en la operación de redondeo es definir las pistas apropiadamente. En la unidad 42 de seguimiento de pista, las pistas sinusoidales se definen normalmente considerando diferencias de amplitud y frecuencia. Además, es posible tener en cuenta también la información de fase en el criterio de enlace. Por ejemplo, puede definirse el error \varepsilon de predicción de fase como la diferencia entre el valor medido y el valor \tilde{\phi} predicho según

\vskip1.000000\baselineskip

9

donde el valor predicho puede tomarse como

\vskip1.000000\baselineskip

10

Por tanto, preferiblemente la unidad 42 de seguimiento de pista prohíbe pistas en las que \varepsilon es mayor que un determinado valor (por ejemplo \varepsilon > \pi/2), dando como resultado una definición no ambigua de e(k).

Además, el codificador puede calcular las fases y las frecuencias tal como estarán disponibles en el decodificador. Si las fases o frecuencias que estarán disponibles en el decodificador difieren demasiado de las fases y/o frecuencias tal como están presentes en el codificador, puede decidirse interrumpir una pista, es decir señalar el final de una pista y el inicio de una nueva usando la frecuencia y la fase actuales y sus datos sinusoidales enlazados.

La fase \psi(kU) desenvuelta muestreada producida por el desenvolvedor 44 de fase (PU) se proporciona como entrada al codificador 46 de fase (PE) para producir el conjunto de niveles r de representación. Se conocen técnicas para la transmisión eficaz de una característica que cambia generalmente de manera monotónica tal como la fase desenvuelta. En la realización preferida, figura 3b, se emplea modulación por código de impulsos diferencial adaptativa (ADPCM). En este caso, se usa un predictor 48 (PF) para estimar la fase del segmento de pista siguiente y codificar la diferencia sólo en un cuantificador 50 (Q). Puesto que se espera que \psi sea una función casi lineal y por motivos de simplicidad, el predictor 48 se elige como un filtro de segundo orden de la forma:

11

donde x es la entrada e y es la salida. Se observará, sin embargo, que es posible también adoptar otras relaciones funcionales (incluyendo relaciones de orden superior) e incluir adaptación (hacia atrás o hacia delante) adaptativa de los coeficientes de filtro. En la realización preferida, se usa un mecanismo 50 de control (QC) adaptativo hacia atrás por motivos de simplicidad para controlar el cuantificador 50. Asimismo es posible también el control adaptativo hacia adelante pero requeriría sobrecarga de tasa de transmisión de bits adicional.

Tal como se observará, la inicialización del codificador (y el decodificador) para una pista se inicia con el conocimiento de la fase \phi(0) y frecuencia \omega(0) de inicio. Éstas se cuantifican y transmiten mediante un mecanismo independiente. Además, la etapa de cuantificación inicial usada en el controlador 52 de cuantificación del codificador y el controlador 62 correspondiente en el decodificador, figura 5b, o bien se transmite o bien se ajusta a un determinado valor tanto en el codificador como en el decodificador. Por último, el final de una pista puede señalarse o bien en un flujo lateral independiente o como un símbolo único en el flujo de bits de la fases.

Se conoce la frecuencia de inicio de la fase desenvuelta, tanto en el codificador como en el decodificador. Basándose en esta frecuencia, se elige la precisión de cuantificación. Para las trayectorias de fase desenvuelta que comienzan con una baja frecuencia, se elige una rejilla de cuantificación más precisa, es decir una resolución más alta, que para una trayectoria de fase desenvuelta que comienza con una frecuencia más alta.

En el cuantificador de ADPCM, la fase \psi(k) desenvuelta, donde k representa el número en la pista, se predice/estima a partir de las fases anteriores en la pista. La diferencia entre la fase \tilde{\psi}(k) predicha y la fase \psi(k) desenvuelta se cuantifica y se transmite a continuación. El cuantificador se adapta para cada fase desenvuelta en la pista. Cuando el error de predicción es pequeño, el cuantificador limita el intervalo de posibles valores y la cuantificación puede volverse más precisa. Por otro lado, cuando el error de predicción es grande, el cuantificador usa una cuantificación más basta.

El cuantificador Q (en la figura 3b) cuantifica el error \Delta de predicción, que se calcula mediante

12

El error \Delta de predicción puede cuantificarse usando una tabla de consulta. Con este fin, se mantiene una tabla Q. Por ejemplo, para un cuantificador de ADPCM de 2 bits, la tabla inicial para Q puede tener el aspecto de la tabla mostrada en la Tabla 1.

\vskip1.000000\baselineskip

TABLA 1 Tabla Q de cuantificación usada para la primera continuación

13

\vskip1.000000\baselineskip

La cuantificación se realiza como sigue. El error \Delta de predicción se compara con los límites b, de modo que se cumpla la siguiente ecuación:

bl_{i} < \Delta \leq bu_{i}

A partir del valor de i, que cumple la relación anterior, el nivel r de representación se calcula mediante r = i.

Los niveles de representación asociados se almacenan en la tabla R de representación, que se muestra en la tabla 2.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

TABLA 2 Tabla R de representación usada para la primera continuación

14

\vskip1.000000\baselineskip

Las entradas de las tablas Q y R se multiplican por el factor c para la cuantificación de la siguiente componente sinusoidal en la pista.

\vskip1.000000\baselineskip

100

Durante la decodificación de una pista, ambas tablas se ajustan a escala según los niveles r de representación generados. Si r es 1 ó 2 (nivel interior) para la subtrama actual, entonces el factor c de ajuste a escala para la tabla de cuantificación se ajusta a

15

Puesto que c < 1, la frecuencia y la fase de la siguiente sinusoide en una pista se vuelven más precisas. Si r es 0 ó 3 (nivel exterior), el factor de ajuste a escala se ajusta a

16

Puesto que c > 1, la precisión de cuantificación para la siguiente sinusoide en una pista disminuye. Usando estos factores, puede deshacerse un ajuste a escala de aumento mediante dos ajustes a escala de disminución. La diferencia en los factores de ajuste a escala de aumento y de disminución da como resultado la llegada rápida de un ajuste a escala de aumento, mientras que un ajuste a escala de disminución correspondiente requiere dos etapas.

Con el fin de evitar entradas muy pequeñas o muy grandes en la tabla de cuantificación, sólo se realiza la adaptación si el valor absoluto del nivel interior está entre \pi/64 y 3\pi/4. En ese caso c se ajusta a 1.

En el decodificador sólo debe mantenerse la tabla R para convertir a niveles r de representación recibidos a un error de predicción cuantificado. Esta operación de decuantificación se realiza mediante el bloque DQ en la figura 5b.

Usando los ajustes anteriores, es necesario mejorar la calidad del sonido reconstruido. Según la invención, se usan diferentes tablas iniciales para pistas de fase desenvuelta, dependiendo de la frecuencia de inicio. De este modo se obtiene una mejor calidad de sonido. Esto se realiza como sigue. Las tablas Q y R iniciales se ajustan a escala basándose en una primera frecuencia de la pista. En la tabla 3, se dan los factores de ajuste a escala junto con los intervalos de frecuencia. Si la primera frecuencia de una pista se encuentra en un intervalo de frecuencia determinado, se selecciona el factor de ajuste a escala apropiado, y las tablas R y Q se dividen por ese factor de escala. Los puntos finales pueden depender también de la primera frecuencia de la pista. En el decodificador, se realiza un procedimiento correspondiente con el fin de empezar con la tabla R inicial correcta.

\vskip1.000000\baselineskip

TABLA 3 Factores de ajuste a escala que dependen de la frecuencia y tablas iniciales

17

\vskip1.000000\baselineskip

La tabla 3 muestra un ejemplo de factores de ajuste a escala que dependen de la frecuencia y las tablas Q y R iniciales correspondientes para un cuantificador de ADPCM de 2 bits. El intervalo 0-22050 Hz de frecuencia de audio está dividido en cuatro subintervalos de frecuencia. Se observa que la precisión de fase se mejora en los intervalos de frecuencia más baja respecto a los intervalos de frecuencia más alta.

El número de subintervalos de frecuencia y los factores de ajuste a escala que dependen de la frecuencia pueden variar y pueden elegirse para adaptarse a los requisitos y fines individuales. Tal como se describió anteriormente, las tablas Q y R iniciales que dependen de la frecuencia en la tabla 3 pueden ajustarse a escala en aumento o en disminución de manera dinámica para adaptarse a la evolución en fase desde un segmento de tiempo al siguiente.

Por ejemplo, en un cuantificador de ADPCM de 3 bits, los límites iniciales de los ocho intervalos de cuantificación definidos por los 3 bits pueden definirse como sigue:

Q = {-\infty -1.41 -0,707 -0,35 0 0,35 0,707 1,41 \infty}, y puede tener el tamaño \pi/64 de rejilla mínimo, y un tamaño \pi/2 de rejilla máximo. La tabla R de representación puede tener el aspecto: R = {-2,117, -1,0585, -0,5285, -0,1750, 0,1750, 0,5285, 1,0585, 2,117}. En este caso puede usarse una inicialización dependiente de la frecuencia similar de la tabla Q y R tal como se muestra en la tabla 3.

A partir del código C_{S} sinusoidal generado con el codificador sinusoidal, la componente de señal sinusoidal se reconstruye mediante un sintetizador 131 sinusoidal (SS) de la misma manera que se describirá para el sintetizador 32 sinusoidal (SS) del decodificador. Esta señal se resta en el restador 17 de la entrada x2 al codificador 13 sinusoidal, dando como resultado una señal x3 restante. La señal x3 residual producida por el codificador 13 sinusoidal se pasa al analizador 14 de ruido de la realización preferida que produce un código C_{N} de ruido representativo de este ruido, tal como se describe en, por ejemplo, el documento WO 0189086.

Por último, en un multiplexor 15, se constituye un flujo AS de audio que incluye los códigos C_{T}, C_{S} y C_{N}. El flujo AS de audio se proporciona por ejemplo a un bus de datos, un sistema de antena, un medio de almacenamiento, etc.

La figura 4 muestra un reproductor de audio 3 adecuado para la decodificación de un flujo AS' de audio, por ejemplo generado por un codificador 1 de la figura 1, obtenido a partir de un bus de datos, sistema de antena, medio de almacenamiento, etc. El flujo AS' de audio se demultiplexa en un demultiplexor 30 para obtener los códigos C_{T}, C_{S} y C_{N}. Estos códigos se proporcionan a un sintetizador 31 transitorio, un sintetizador 32 sinusoidal y un sintetizador 33 de ruido respectivamente. A partir del código C_{T} transitorio, se calculan las componentes de señal transitoria en el sintetizador 31 transitorio. En caso de que el código transitorio indique una función de forma, la forma se calcula basándose en los parámetros recibidos. Además, el contenido de forma se calcula basándose en las frecuencias y amplitudes de las componentes sinusoidales. Si el código C_{T} transitorio indica una etapa, entonces no se calcula ningún transitorio. La señal transitorio total y_{T} es una suma de todos los transitorios.

El código C_{S} sinusoidal que incluye la información codificada por el analizador 130 se usa por el sintetizador 32 sinusoidal para generar la señal y_{S}. Con referencia ahora a las figuras 5a y b, el sintetizador 32 sinusoidal comprende un decodificador 56 de fase (PD) compatible con el codificador 46 de fase. En este caso, un decuantificador 60 (DQ) en conjunción con un filtro 64 de predicción (PF) de segundo orden produce (una estimación de) la fase \hat{\psi} desenvuelta a partir de: los niveles r de representación; la información \hat{\phi}(0), \hat{\omega}(0) inicial proporcionada al filtro 64 de predicción (PF) y la etapa de cuantificación inicial para el controlador 62 de cuantificación (QC).

Tal como se ilustra en la figura 2b, la frecuencia puede recuperarse a partir de la fase \hat{\psi} desenvuelta por diferenciación. Suponiendo que el error de fase en el decodificador es aproximadamente blanco y puesto que la diferenciación amplifica las altas frecuencias, la diferenciación puede combinarse con un filtro paso bajo para reducir el ruido y, por tanto, para obtener una estimación precisa de la frecuencia en el decodificador.

En la realización preferida, una unidad 58 de filtrado (FR) aproxima la diferenciación que es necesaria para obtener la frecuencia \hat{\omega} a partir de la fase desenvuelta por procedimientos tales como diferencias hacia delante, hacia atrás y centrales. Esto permite al decodificador producir como salida las fases \hat{\psi} y las frecuencias \hat{\omega} que pueden usarse de manera convencional para sintetizar la componente sinusoidal de la señal codificada.

Al mismo tiempo, mientras las componentes sinusoidales de la señal están sintetizándose, el código C_{N} de ruido se alimenta a un sintetizador 33 de ruido NS, que es principalmente un filtro, que tiene una respuesta de frecuencia que se aproxima al espectro del ruido. El NS 33 genera ruido y_{N} reconstruido filtrando una señal de ruido blanco con el código C_{N} de ruido. La señal y(t) total comprende la suma de la señal y_{T} transitoria y el producto de cualquier descompresión (g) de amplitud y la suma de la señal y_{S} sinusoidal y la señal y_{N} de ruido. El reproductor de audio comprende dos sumadores 36 y 37 para sumar señales respectivas. La señal total se proporciona a una unidad 35 de salida, que es por ejemplo un altavoz.

La figura 6 muestra un sistema de audio según la invención que comprende un codificador 1 de audio tal como se muestra en la figura 1 y un reproductor 3 de audio tal como se muestra en la figura 4. Un sistema de este tipo ofrece características de reproducción y grabación. El flujo AS de audio se proporciona desde el codificador de audio al reproductor de audio a través de un canal 2 comunicación, que puede ser una conexión inalámbrica, un bus 20 de datos o un medio de almacenamiento. En caso de que el canal 2 de comunicación sea un medio de almacenamiento, el medio de almacenamiento puede estar fijo en el sistema o puede ser también un disco extraíble, tarjeta de memoria extraíble, etc. El canal 2 de comunicación puede formar parte del sistema de audio, pero sin embargo a menudo estará fuera del sistema de audio.

Claims

1. Procedimiento de codificación de una señal de audio, comprendiendo el procedimiento las etapas de:

- proporcionar un conjunto respectivo de valores (x(t)) de señal muestreada para cada uno de una pluralidad de segmentos secuenciales;

- analizar los valores (x(t)) de señal muestreada para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales, incluyendo cada componente sinusoidal un valor (\Omega) de frecuencia medida y un valor (\psi) de fase envuelta medida;

- enlazar componentes sinusoidales a través de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales; estando caracterizado el procedimiento además por:

- determinar, para cada pista sinusoidal, un valor \psi(k)) de fase desenvuelta, desenvuelta a partir del valor de fase envuelta medida;

- determinar, para cada pista sinusoidal en cada uno de la pluralidad de segmentos secuenciales, un valor (\tilde{\psi}(k)) de fase desenvuelta predicho en función de un valor de fase desenvuelta para al menos un segmento anterior;

- para cada uno de la pluralidad de segmentos que generan un código sinusoidal que representa un valor (\psi(k)) de fase desenvuelta, cuantificar el código (C_{S}) sinusoidal en función del valor (\tilde{\psi}(k)) de fase desenvuelta predicho y el valor (\psi(k)) de fase desenvuelta, y dependiendo de al menos un valor (\Omega) de frecuencia de la pista sinusoidal respectiva; y

- generar una señal (AS) codificada que incluye códigos (C_{S}) sinusoidales que representan una frecuencia de inicio para cada pista sinusoidal, los valores de fase desenvuelta de la pluralidad de segmentos e información de enlace.

2. Procedimiento según la reivindicación 1, en el que, en una primera pista sinusoidal que incluye una primera componente sinusoidal con un primer valor de frecuencia, los códigos (C_{S}) sinusoidales se cuantifican usando una primera precisión de cuantificación y, en una segunda pista sinusoidal que incluye una segunda componente sinusoidal con un segundo valor de frecuencia mayor que el primer valor de frecuencia, los códigos (C_{S}) sinusoidales se cuantifican usando una segunda precisión de cuantificación menor que o igual a la primera precisión de cuantifi-
cación.

3. Procedimiento según la reivindicación 1, en el que los códigos (C_{S}) sinusoidales para una pista incluyen un valor de fase inicial y un valor de frecuencia inicial, y la etapa de predicción emplea el valor de frecuencia inicial y el valor de fase inicial para proporcionar una primera predicción.

4. Procedimiento según la reivindicación 1, en el que el valor de fase desenvuelta predicho de cada segmento enlazado se determina en función de: la integral de la frecuencia para el segmento anterior y la frecuencia del segmento enlazado; y el valor de fase desenvuelta de un segmento anterior.

5. Procedimiento según la reivindicación 1, en el que la cuantificación de los códigos sinusoidales incluye

- determinar una diferencia de fase entre cada valor (\tilde{\psi}(k)) de fase desenvuelta predicho y el valor (\psi(k)) de fase desenvuelta correspondiente.

6. Procedimiento según la reivindicación 4, en el que la etapa de generación comprende:

controlar la etapa de cuantificación en función de los códigos (C_{S}) sinusoidales cuantificados.

7. Procedimiento según la reivindicación 6, en el que los códigos (C_{S}) sinusoidales incluyen un indicador de un final de una pista.

8. Procedimiento según la reivindicación 1, en el que el procedimiento comprende además las etapas de:

- sintetizar las componentes sinusoidales usando los códigos (C_{S}) sinusoidales;

- restar los valores de señal sintetizada de los valores (x(t)) de señal muestreada para proporcionar un conjunto de valores (x_{3}) que representa una componente restante de la señal de audio;

- modelar la componente restante de la señal de audio determinando parámetros, que se aproximan a la componente restante; e

- incluir los parámetros en un flujo (AS) de audio.

9. Procedimiento según la reivindicación 1, en el que los valores (x_{1}) de señal muestreada representan una señal de audio de la que se han eliminado componentes transitorias.

10. Procedimiento de decodificación de un flujo (AS') de audio que incluye códigos (C_{S}) sinusoidales que representan una frecuencia de inicio para una pista sinusoidal, valores de fase desenvuelta para segmentos de la pista sinusoidal e información de enlace, comprendiendo el procedimiento las etapas de:

- recibir una señal que incluye el flujo (AS') de audio;

- decuantificar los códigos (C_{S}) sinusoidales que representan los valores de fase desenvuelta, decuantificándose los códigos (C_{S}) sinusoidales dependiendo de al menos un valor de frecuencia de la pista sinusoidal respectiva;

- generar valores (\hat{\psi}) de fase desenvuelta decuantificada para la pluralidad de segmentos en respuesta a los códigos sinusoidales decuantificados,

- calcular valores (\hat{\Omega}) de frecuencia a partir de los valores (\hat{\psi}) de fase desenvuelta decuantificada por diferenciación, y

- emplear los valores (\hat{\psi}) de fase desenvuelta decuantificada y los valores (\hat{\Omega}, \hat{\psi}) de frecuencia para sintetizar componentes sinusoidales de la pista sinusoidal.

\vskip1.000000\baselineskip

11. Procedimiento según la reivindicación 10, en el que, en una primera pista sinusoidal que incluye una primer componente sinusoidal con un primer valor de frecuencia, los códigos sinusoidales se decuantifican usando una primera precisión de cuantificación y, en una segunda pista sinusoidal que incluye una segunda componente sinusoidal con un segundo valor de frecuencia mayor que el primer valor de frecuencia, los códigos sinusoidales se decuantifican usando una segunda precisión de cuantificación menor que o igual a la primera precisión de cuantificación.

12. Procedimiento según la reivindicación 10, en el que un valor de fase desenvuelta predicho de cada componente sinusoidal enlazada se determina en función de: la integral de la frecuencia para el segmento anterior y la frecuencia del segmento enlazado; un valor de fase desenvuelta de un segmento anterior.

13. Procedimiento según la reivindicación 12, en el que la precisión de cuantificación se controla en función de los códigos sinusoidales cuantificados.

14. Codificador de audio dispuesto para procesar un conjunto respectivo de valores de señal muestreada para cada uno de una pluralidad de segmentos secuenciales, comprendiendo el codificador;

- un analizador para analizar los valores de señal muestreada para determinar una o más componentes sinusoidales para cada uno de la pluralidad de segmentos secuenciales, incluyendo cada componente sinusoidal un valor de frecuencia medida y un valor de fase envuelta medida;

- un enlazador (13) para enlazar componentes sinusoidales a través de una pluralidad de segmentos secuenciales para proporcionar pistas sinusoidales;

- estando el codificador de audio caracterizado además porque comprende:

- un desenvolvedor (44) de fase para determinar, para cada pista sinusoidal, un valor (\psi(k)) de fase desenvuelta, desenvuelta a partir del valor de fase envuelta medida y para determinar, para cada pista sinusoidal en cada uno de la pluralidad de segmentos secuenciales, un valor (\tilde{\psi}(k)) de fase desenvuelta predicho en función de un valor de fase desenvuelta para al menos un segmento anterior;

- medios para generar, para cada uno de la pluralidad de segmentos, un código sinusoidal que representa un valor (\psi(k)) de fase desenvuelta en respuesta al valor (\tilde{\psi}(k)) de fase desenvuelta predicho y el valor (\psi) de fase desenvuelta,

- un cuantificador (50) para cuantificar códigos sinusoidales en función del valor (\tilde{\psi}(k)) de fase desenvuelta predicho y el valor (\psi(k)) de fase desenvuelta dependiendo de al menos un valor de frecuencia de la pista sinusoidal respectiva; y

- medios (15) para proporcionar una señal codificada que incluye códigos (C_{S}) sinusoidales que representan una frecuencia de inicio para cada pista sinusoidal y los valores de fase desenvuelta de la pluralidad de segmentos e información de enlace.

\vskip1.000000\baselineskip

15. Codificador de audio según la reivindicación 14, en el que el cuantificador (50) está adaptado, en una primera pista sinusoidal que incluye una primera componente sinusoidal con un primer valor de frecuencia, para cuantificar los códigos (C_{S}) sinusoidales usando una primera precisión de cuantificación y, en una segunda pista sinusoidal que incluye una segunda componente sinusoidal con un segundo valor de frecuencia mayor que el primer valor de frecuencia, para cuantificar los códigos (C_{S}) sinusoidales usando una segunda precisión de cuantificación menor que o igual a la primera precisión de cuantificación.

16. Reproductor de audio, que comprende un codificador de audio según la reivindicación 14.

17. Sistema de audio, que comprende un codificador de audio según la reivindicación 14 y un reproductor de audio según la reivindicación 16.

18. Flujo de audio, que comprende códigos sinusoidales que representan pistas de componentes sinusoidales enlazadas a través de una pluralidad de segmentos secuenciales de una señal de audio, incluyendo el flujo de audio códigos (C_{S}) sinusoidales que representan una frecuencia de inicio para cada pista sinusoidal, valores de fase desenvuelta de la pluralidad de segmentos e información de enlace, estando caracterizado porque los códigos sinusoidales representan un valor de fase desenvuelta de un primer segmento cuantificada en función de un valor de fase desenvuelta predicho y un valor de fase desenvuelta para el primer segmento, determinándose el valor de fase predicho para un primer segmento en función de un valor de fase desenvuelta de al menos un segmento anterior y determinándose el valor de fase desenvuelta a partir de un valor de fase envuelta medida, en el que los códigos (C_{S}) sinusoidales se cuantifican dependiendo de al menos un valor (\Omega) de frecuencia de la pista sinusoidal respectiva.

19. Medio de almacenamiento, en el que se ha almacenado un flujo de audio según la reivindicación 18.