ES2292581T3 - Funcion laguerre para la codificacion de audio. - Google Patents
Funcion laguerre para la codificacion de audio. Download PDFInfo
- Publication number
- ES2292581T3 ES2292581T3 ES01929398T ES01929398T ES2292581T3 ES 2292581 T3 ES2292581 T3 ES 2292581T3 ES 01929398 T ES01929398 T ES 01929398T ES 01929398 T ES01929398 T ES 01929398T ES 2292581 T3 ES2292581 T3 ES 2292581T3
- Authority
- ES
- Spain
- Prior art keywords
- function
- audio
- transient
- signal component
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Cereal-Derived Products (AREA)
- Stereophonic System (AREA)
Abstract
Método de codificación (1) de una señal de audio (x), comprendiendo el método las etapas de: estimar (110) una posición de una componente de señal transitoria en la señal de audio, en la que la componente de señal transitoria disminuye gradualmente tras un aumento inicial; hacer corresponder (111, 112) una función de forma en la componente de señal transitoria, función de forma que tiene un comportamiento inicial según tn y un comportamiento de disminución tras el comportamiento inicial, según e-alfat, en la que t es tiempo y n y alfa son parámetros de forma que describen la función de forma; e incluir (15) la posición y los parámetros de forma en una corriente de audio (AS).
Description
Función Laguerre para la codificación de
audio.
La invención se refiere a la codificación de
señales de audio, en la que se codifican componentes de señal
transitoria. La invención se refiere además a la decodificación de
señales de audio. La invención también se refiere a un codificador
de audio, un reproductor de audio, un sistema de audio, una
corriente de audio y un medio de almacenamiento.
El artículo de Purnhagen y Edler,
"Objektbasierter Analyse/Synthese Audio Coder für sehr niedrige
Datenraten", ITG Fachbericht 1998, Nº. 146, págs.
35-40 da a conocer un dispositivo para la
codificación de señales de audio a bajas velocidades de transmisión
de bits. Se usa una disposición de análisis-síntesis
basado en un modelo, en la que una señal de entrada se divide en
tres partes: sinusoides individuales, tonos armónicos, y ruido. La
señal de entrada se divide además en tramas fijas de 32 ms. Para
todos los bloques y partes de señal, se derivan parámetros
basándose en un modelo de fuente. Para mejorar la representación de
partes de señal transitoria, se deriva una función envolvente
a(t) de la señal de entrada y se aplica sobre
sinusoides seleccionadas. La función envolvente consiste en dos
segmentos de línea determinados por los parámetros r_{atk},
r_{dec}, t_{max} tal como se muestra en la figura 1.
Se presenta un ejemplo adicional de un sistema
de codificación de baja velocidad de transmisión de bits en el
artículo "ASAC - Analysis/Synthesis Audio Codec for Very Low Bit
Rates" de Edler, Purnhagen y Ferekidis; edición preliminar de
artículos presentados en la convención AES,
11-05-1996, páginas
1-15, XP001062332 que describe un
codificador-decodificador de audio de
análisis/síntesis (ASAC, "Analysis/Synthesis Audio
Codec" que permite la codificación de señales de audio a
velocidades de transmisión de bits muy bajas para aplicaciones como
comunicación móvil o acceso a bases de datos multimedia mediante un
módem y líneas de teléfono analógicas. Un objeto de la invención es
proporcionar codificación de audio que es ventajosa en términos de
velocidad de transmisión de bits y percepción. Con este fin, la
invención proporciona un método de codificación y decodificación,
un codificador de audio, un reproductor de audio, un sistema de
audio, una corriente de audio y un medio de almacenamiento tal como
se define en las reivindicaciones independientes y en la
reivindicación dependiente 10. Se definen realizaciones ventajosas
en las reivindicaciones dependientes.
Una primera realización de la invención
comprende estimar una posición de una componente de señal
transitoria en la señal de audio, hacer corresponder una función de
forma en la componente de señal transitoria en la que la componente
de señal transitoria está disminuyendo gradualmente tras un aumento
inicial, función de forma que tiene un comportamiento inicial según
t^{n} y un comportamiento de disminución tras el
comportamiento inicial, según e^{-\alpha t}, en la que
t es tiempo, y n y \alpha son parámetros que
describen una forma de la función de forma. La invención se basa en
el conocimiento de que tal función proporciona una mejor
representación de las componentes de señal transitoria mientras que
la función puede describirse mediante un número pequeño de
parámetros, que es ventajoso en términos de velocidad de transmisión
de bits y calidad de percepción. La invención es especialmente
ventajosa en realizaciones en las que las componentes de señal
transitoria se codifican de forma independiente a partir de una
componente de señal continua, debido a que especialmente en estas
realizaciones es importante una buena representación de las
componentes de señal transitoria.
Según un aspecto adicional de la invención, la
función de forma es una función de Laguerre, que viene dada en
tiempo continuo por
en la que c es el parámetro
de escala (que puede tomarse como uno). En una realización práctica,
es usa una función de Laguerre discreta en el
tiempo.
Las componentes de señal transitoria pueden
concebirse como un cambio brusco en el nivel de potencia (o
amplitud) o como un cambio brusco en el patrón de forma de onda. La
detección de componentes de señal transitoria como tales, se conoce
en la técnica. Por ejemplo, en J. Kliewer y A. Mertins, "Audio
subband coding with improved representation of transient signal
segments", Proc. of EUSIPCO-98, Signal Processing
IX, Theories and applications, Rodas, Grecia, septiembre de 1998,
págs. 2345-2348, se propone un mecanismo de
detección de transitorios, que se basa en la diferencia en los
niveles de energía antes y después de una posición de partida de
ataque. En una realización práctica según la invención, se
consideran cambios bruscos en el nivel de amplitud.
En una realización preferida de la invención, la
función de forma es una función de Laguerre discreta generalizada.
Las funciones de Meixner y de tipo Meixner son de uso práctico y
proporcionan un resultado sorprendentemente bueno. Se discuten
tales funciones en A.C den Brinker, "Meixner-like
functions having a rational z-transform", Int.
J. Circuit Theory Appl., 23, 1995, págs. 237-246.
Los parámetros de estas funciones de forma se derivan de una manera
sencilla.
En otra realización de la invención, los
parámetros de forma incluyen una indicación de escalón en el caso
de que la componente de señal transitoria sea un cambio de tipo
escalón en la amplitud. La señal tras el cambio de tipo escalón se
codifica de forma ventajosa en
codificadores-decodificadores continuos.
En otra realización preferida de la invención,
la posición de la componente de señal transitoria es una posición
de partida. Es conveniente proporcionar la posición de partida de la
componente de señal transitoria para un entramado adaptivo, en el
que una trama empieza en la posición de partida de una componente de
señal transitoria. Se usa la posición de partida para tanto la
función de forma como el entramado adaptivo, que da como resultado
una codificación eficaz. Si se proporciona la posición de partida,
no es necesario determinar la posición de partida combinando dos
parámetros tal como sería necesario en el método descrito por
Edler.
Los aspectos mencionados anteriormente y otros
se harán evidentes a partir de y se aclararán con referencia a las
realizaciones descritas a continuación en el presente documento.
En los dibujos:
la figura 1 muestra una función envolvente
conocida, tal como se ha tratado ya;
la figura 2 muestra una realización de un
codificador de audio según la invención;
la figura 3 muestra un ejemplo de una función de
forma según la invención;
la figura 4 muestra un diagrama de los momentos
centrales de ejecución de primer y segundo orden de una señal de
audio de entrada;
la figura 5 muestra un ejemplo de una función de
forma derivada de una señal de audio de entrada;
la figura 6 muestra una realización de un
reproductor de audio según la invención; y
la figura 7 muestra un sistema que comprende un
codificador de audio y un reproductor de audio;
Los dibujos sólo muestran aquellos elementos que
son necesarios para entender la invención.
La figura 2 muestra un codificador 1 de audio
según la invención, que comprende una unidad 10 de entrada para
obtener una señal x(t) de audio de entrada. El
codificador 1 de audio separa la señal de entrada en tres
componentes: componentes de señal transitoria, componentes
determinísticas continuas, y componentes estocásticas continuas. El
codificador 1 de audio comprende un codificador 11 de transitorios,
un codificador 13 de sinusoides y un codificador 14 de ruido. El
codificador de audio comprende opcionalmente un mecanismo 12 de
compresión de compresión de ganancia (GC).
En esta realización ventajosa de la invención,
se realiza la codificación transitoria antes de la codificación
continua. Esto es ventajoso debido a que las componentes de señal
transitoria no se codifican de forma eficaz y óptima en los
codificadores continuos. Si se usan codificadores continuos para
codificar componentes de señal transitoria, se necesita mucho
esfuerzo de codificación, por ejemplo, puede suponerse que es
difícil codificar una componente de señal transitoria sólo con
sinusoides continuas. Por tanto, es ventajosa la eliminación de
componentes de señal transitoria de la señal de audio que va a
codificarse antes de la codificación continua. Se usa una posición
de partida transitoria derivada en el codificador derivada del
codificador de transitorios en los codificadores continuos para la
segmentación adaptiva (entramado adaptivo) que da como resultado una
mejora adicional del rendimiento de la codificación continua.
El codificador 11 de transitorios comprende un
detector 110 de transitorios (TD), un analizador 111 de transitorios
(TA) y un sintetizador 112 de transitorios (TS). En primer lugar,
la señal x(t) se introduce en el detector 110 de
transitorios. Este detector 110 estima si existe una componente de
señal transitoria y en qué posición. Esta información se alimenta
al analizador 111 de transitorios. Esta información puede usarse
también en el codificador 13 de sinusoides y el codificador 14 de
ruido para obtener una segmentación inducida por señal ventajosa.
Si se determina la posición de la componente de señal transitoria,
el analizador 111 de transitorios intenta extraer (la parte
principal de) la componente de señal transitoria. Hace corresponder
una función de forma con un segmento de señal partiendo
preferiblemente en una posición de partida estimada, y determina el
contenido por debajo de la función de forma, por ejemplo un número
(pequeño) de componentes sinusoidales. Esta información está
contenida en el código C_{T} transitorio. Se proporciona el código
C_{T} transitorio al sintetizador 112 de transitorios. La
componente de señal transitoria sintetizada se resta de la señal
x(t) de entrada en un restador 16, dando como
resultado una señal x_{1}. En el caso de que se omita GC 12,
x_{1} = x_{2}. Se proporciona la señal x_{2} al codificador 13
de sinusoides en el que se analiza en un analizador 130 de
sinusoides (SA), que determina las componentes sinusoidales
(determinísticas). Esta información está contenida en el código
C_{S} sinusoidal. A partir del código C_{S} sinusoidal, se
reconstruye la componente de señal sinusoidal mediante un
sintetizador 131 de sinusoides (SS). Esta señal se resta en un
restador 17 desde la entrada x_{2} hasta el codificador 13 de
sinusoides, dando como resultado una señal x_{3} residual que
carece de componentes de señal transitoria (grandes) y componentes
sinusoidales determinísticos (principales). Por tanto, se supone
que la señal x_{3} residual consiste principalmente en ruido. Se
analiza para su contenido de potencia según una escala ERB en un
analizador 14 de ruido (NA). El analizador 14 de ruido produce un
código C_{N} de ruido. Similar a la situación en el codificador 13
de sinusoides, el analizador 14 de ruido también puede usar la
posición de partida de la componente de señal de transitorios como
una posición para empezar un nuevo bloque de análisis. Los tamaños
de segmento del analizador 130 de sinusoides y el analizador 14 de
ruido no son necesariamente iguales. En un multiplexador 15, se
constituye una corriente de audio AS que incluye los códigos
C_{T}, C_{S} y C_{N}. Se proporciona la corriente de audio AS
a por ejemplo un bus de datos, un sistema de antena, un medio de
almacenamiento
etc.
etc.
En lo siguiente, se tratará una representación
de los componentes de señal transitoria según la invención. En esta
realización, el código para componentes transitorios CT consiste en
o bien una forma paramétrica más las componentes de frecuencia
principales adicionales (u otro contenido) por debajo de la forma o
un código para identificar un cambio de tipo escalón. Según una
realización preferida de la invención, la función de forma para un
transitorio que está disminuyendo tras un aumento inicial, es
preferiblemente una función de Laguerre discreta generalizada. Para
otros tipos de componentes de señal transitoria, pueden usarse otras
funciones.
Un ejemplo de una función de Laguerre discreta
generalizada, es una función de Meixner. Una función
g(t) de Meixner de orden cero discreta viene dada
por:
en la que t = 0,1,2... y
(b)_{t} = b(b+1)...(b+t-1) es
un símbolo de Pochhammer. El parámetro b indica un orden de
generalización (b > 0) y determina la forma inicial de la
función: aproximadamente f \propto
t^{(b-1)}/2 para un t pequeño. El parámetro
\xi indica un polo con 0 < \xi < 1 y determina la
disminución para t mayor. La función g(t) es una
función positiva para todos los valores de t. Para b
= 1, se obtiene una función de Laguerre discreta. Además, para
b = 1, la transformada en z de g es una
función racional en z y así puede realizarse como una
respuesta de impulso de un filtro de respuesta de impulso infinito
(IIR) de primer orden. Para todos los demás valores de b no
existe ninguna transformada en z racional. La función
g(t) está normalizada en energía, es decir,
\sum\limits^{\infty}\limits_{t = 0} g^{2} (t) = 1. La función de
Meixner de orden cero puede producirse de forma recursiva
mediante:
\vskip1.000000\baselineskip
En otra realización según la invención, se usan
funciones de tipo Meixner, debido a que tienen una transformada en
z racional. Se muestra un ejemplo de una función de tipo Meixner en
la figura 3. Una función h(t) de tipo Meixner de
orden cero discreta viene dada por su transformada en z:
en la que a = 0, 1, 2,... y
C_{a} viene dado
por:
en la que P_{a} es un
polinomio de Legendre de orden a, dado
por:
El parámetro a denota el orden de
generalización (a es un número entero no negativo) y \xi es
el polo con 0 < \xi < 1. El parámetro a determina la
forma inicial de la función: f \propto t^{a} para
t pequeño. El parámetro \xi determina la disminución para
t mayor. La función h es una función positiva para
todos los valores de t y está normalizada en energía. Para
todos los valores de a, la función h tiene una
transformada en z racional y puede realizarse como la respuesta de
impulso de un filtro IIR (de orden a+1).
La función h(t) puede expresarse
en una serie de Laguerre discreta finita según:
en la que \phi_{m} son
funciones de Laguerre discretas, véase el artículo de A.C. den
Brinker. B_{m} viene dado
por:
Los momentos centrales de ejecución de primer y
segundo orden de una función f(t) dada están definidos
por:
en las que k_{0} es la posición
de partida de la componente de señal
transitoria.
Con una buena estimación de los momentos
T_{1} y T_{2} de ejecución de una señal de audio
de entrada (tómese f(t) = x(t) en las
ecuaciones 10 y 11), pueden deducirse los parámetros de forma.
Desgraciadamente, en datos reales una componente de señal
transitoria está seguida normalmente por una fase de excitación
continua, lo que afecta a una posible medición de los momentos
centrales de ejecución. La figura 4 muestra los momentos centrales
de ejecución de primer y segundo orden de una señal de audio de
entrada. Parece que los momentos de ejecución aumentan inicialmente
de forma lineal desde la supuesta posición de partida y mas tarde
tienden a saturarse. Aunque los parámetros de forma pueden deducirse
a partir de esta curva, debido a que la saturación no es tan clara
como se desea para la extracción de parámetros, es decir, no está lo
suficientemente claro a qué k se obtienen buenas estimaciones de
T_{1} y T_{2}. En una realización ventajosa de la
invención, se usa una razón en el aumento inicial de los momentos
T_{1} y T_{2} de ejecución para deducir los
parámetros de forma. Esta medición es ventajosa para determinar
b (y en el caso de la función a de Meixner de orden
cero), puesto que b determina el comportamiento inicial de la
forma. A partir de una razón entre pendientes de los momentos
T_{1} y T_{2} de ejecución se obtiene una buena
estimación para b. A partir de los resultados de simulación
se ha obtenido que en buena medida, existe una relación lineal
entre la razón pendiente T_{1}/pendiente T_{2} y
el parámetro b, que es, al contrario de una función de
Laguerre, ligeramente dependiente del parámetro \xi de
disminución. Como una descripción puede usarse (derivada de los
experimentos):
- para Meixner: pendiente T_{1}/pendiente T_{2} = b + 1/2
- (12)
- para de tipo Meixner: pendiente T_{1}/pendiente T_{2} = 2a + 3/2
- (13)
en las que se ignora una
dependencia de \xi. Debido a que T_{1} y T_{2}
son cero para k = k_{0}, pendiente
T_{1}/pendiente T_{2} puede aproximarse por
T_{1}/T_{2} para un k
adecuado.
El polo \xi de la forma puede estimarse de la
siguiente manera. Se ajusta un polinomio de segundo orden a un
momento central de ejecución, por ejemplo, T_{1}. Este
polinomio se ajusta a un segmento de señal de T_{1} con el
tiempo T de observación de manera que la nivelación se ve
claramente, es decir, un término de segundo orden claro en el
ajuste polinómico en T. A continuación, se extrapola el polinomio de
segundo orden hasta su máximo y se supone que este valor es el
nivel de saturación de T_{1}. A partir de este valor para
T_{1} y b, se calcula \xi con el uso de las
ecuaciones 2 y 10, con f(t) = g(t).
Para una función de tipo Meixner, se calcula \xi a partir del
valor para T_{1} y a, con el uso de las ecuaciones
8-10, con f(t) =
h(t).
Un procedimiento para la estimación del
parámetro \xi de disminución es tal como sigue:
empezar con algún valor de T
ajustar un polinomio de segundo orden a los
datos en 0 a T, es decir, T_{1}(t) \approx c_{0}
+ c_{1}t + c_{2}t_{2} para t = [0, T] en el que
c_{0},_{1},_{2} son parámetros de ajuste
comprobar si el término cuadrático de este
polinomio es esencial a t = T:
T_{1}(T)<(1-\varepsilon)(c_{0}+c_{1}T)
en la
que
\varepsilon representa una contribución
relativa del término cuadrático en t = T.
Si esto se cumple, entonces extrapolar
T_{1}(t) hasta su máximo e igualar esto con
T_{1}:
calcular el parámetro \xi de
disminución a partir de T_{1} y b (o
a)
Para funciones de tipo Meixner, el parámetro
a de forma se redondea preferiblemente a valores de números
enteros.
La figura 5 muestra un ejemplo de una función de
forma derivada de una señal de audio de entrada.
Puede realizarse algo de procesamiento previo,
como realizar una transformada de Hilbert de los datos con el fin
de obtener una primera aproximación de la forma, aunque el
procesamiento previo no es esencial para la invención.
Cuando el valor al que los momentos de ejecución
se saturan es grande, es decir, en el orden de la longitud de
segmento/trama, se descarta la forma (de tipo) Meixner. En el caso
de que el transitorio sea un cambio de tipo escalón en la amplitud,
la posición del transitorio se retiene para una segmentación
apropiada del codificador de sinusoides y el código de ruido.
Tras haber determinado la posición de partida y
la forma de un transitorio, se estima el contenido de señal bajo la
forma. Se estima un número (pequeño) de sinusoides bajo la forma.
Esto se realiza en un procedimiento
análisis-por-síntesis tal como se
conoce en la técnica. Los datos que se usan para estimar las
sinusoides es un segmento que se muestra en ventanas con el fin de
abarcar el transitorio pero no ninguna respuesta continua
posterior. Por tanto, se aplica una ventana de tiempo a los datos
antes de entrar en el método
análisis-por-síntesis. En esencia,
la señal que se considera se extiende desde la posición de partida
hasta alguna muestra en la que se reduce la forma hasta un
determinado porcentaje de su máximo. Estos datos mostrados en
ventanas pueden transformarse a un dominio de frecuencia, por
ejemplo, mediante una transformada de Fourier discreta (DFT). Con
el fin de evitar componentes de baja frecuencia, que se extienden
presumiblemente por encima del transitorio estimado, también se
aplica una ventana en el dominio de frecuencia. A continuación, se
determina la respuesta máxima y la frecuencia asociada con esta
respuesta máxima. Se modula la forma estimada por esta frecuencia,
y se realiza el mejor ajuste posible a los datos según algún
criterio predeterminado, por ejemplo, un modelo psicoacústico o en
un sentido de mínimos cuadrados. Este segmento transitorio estimado
se resta del transitorio original y el se repite el procedimiento
hasta que se supera un número máximo de componentes sinusoidales, o
no queda casi nada de energía en el segmento. En esencia, se
representa un transitorio mediante una suma de funciones de Meixner
moduladas. En una realización práctica, se estiman 6 sinusoides. Si
el contenido subyacente contiene principalmente ruido, se usa una
estimación de ruido o se proporcionan valores arbitrarios para las
frecuencias de las sinusoides.
El código C_{T} transitorio incluye una
posición de partida de un transitorio y un tipo de transitorio. El
código para un transitorio en el caso de una forma de (tipo) Meixner
incluye:
la posición de partida del transitorio
una indicación de que la forma es una función
(de tipo) Meixner
parámetros b (o a) de forma y
\xi
términos de modulación: parámetros N_{F} de
frecuencia y amplitudes para una forma modulada de
(co)seno
En el caso de que el transitorio sea
esencialmente un aumento brusco en el nivel de amplitud en el que no
existe ninguna disminución clara en este nivel (relativamente) poco
después de la posición de partida, el transitorio no puede
codificarse con una forma (de tipo) Meixner. En ese caso, se retiene
la posición de partida con el fin de obtener una segmentación de
señal apropiada. El código para transitorios de escalón incluye:
la posición de partida del transitorio
un indicador para el escalón
La realización de las fases de codificación
continuas posteriores (sinusoidal y ruido) se mejora usando la
posición de transitorios en la segmentación de la señal. El
codificador de sinusoides y el codificador de ruido empiezan en una
nueva trama en la posición de un transitorio detectado. De esta
manera, se impide promediar en partes de señales, que se sabe que
muestran comportamiento no estacionario. Esto implica que un
segmento delante de un segmento transitorio tiene que acortarse,
desplazarse o concatenarse con una trama anterior.
El codificador 1 de audio según la invención
comprende opcionalmente un elemento 12 de control de ganancia
delante de los codificadores 13 y 14 continuos. Es ventajoso para
los codificadores continuos impedir cambios en el nivel de
amplitud. Para un transitorio de escalón, se soluciona este problema
usando una segmentación según los transitorios. Para transitorios
representados con una forma, se soluciona el problema en parte
extrayendo el transitorio de la señal de entrada. La señal
remanente todavía puede incluir un cambio dinámico significativo en
el nivel de amplitud, de forma presumiblemente similar a la forma
estimada. Con el fin de aplanar la señal remanente, puede usarse el
elemento de control de ganancia. Una velocidad de compresión puede
definirse como:
en la que h(t) es la
forma estimada y d es el parámetro que describe una velocidad de
compresión. El elemento de control de ganancia supone que después
de un transitorio, tiene lugar una fase estacionaria con salidas de
amplitud que ascienden a aproximadamente 0,2 veces el máximo en la
forma estimada. Una razón r está definida
por:
en la que Mr es el máximo de
la señal
remanente.
El parámetro d de tasa de compresión es
igual a r si r > 2, si no d se toma como 0. Para la
compresión, sólo necesita transmitirse d.
La figura 6 muestra un reproductor 3 de audio
según la invención. Una corriente de audio AS', por ejemplo
generada por un codificador según la figura 2, se obtiene a partir
de un bus de datos, un sistema de antena, un medio de
almacenamiento etc. La corriente de audio AS se demultiplexa en un
demultiplexador30 para obtener los códigos C_{T}', C_{S}' y
C_{N}'. Estos códigos se proporcionan a un sintetizador 31 de
transitorios, un sintetizador 32 de sinusoides y un sintetizador 33
de ruido respectivamente. A partir del código C_{T}' transitorio,
se calculan los componentes de señal transitoria en el sintetizador
31 de transitorios. En el caso de que el código transitorio indique
una función de forma, la forma se calcula basándose en los
parámetros recibidos. Además, el contenido de forma se calcula
basándose en las frecuencias y amplitudes de las componentes
sinusoidales. Si el código C_{T}' transitorio indica un escalón,
entonces no se calcula ningún transitorio. La señal y_{T}
transitoria total es la suma de todos los transitorios.
En el caso de que se use el parámetro d
de descompresión, es decir, si se deriva en el codificador 1 y se
incluye en la corriente de audio AS', se usa un mecanismo 34 de
descompresión. La señal g(t) de ganancia se
inicializa en la unidad, y el factor de descompresión de amplitud
total se calcula como el producto de todos los factores de
descompresión diferentes. En el caso de que el transitorio sea un
escalón, no se calcula ningún factor de descompresión de
amplitud.
A partir de dos posiciones transitorias
posteriores, se calcula una segmentación para la síntesis 32 de
sinusoides SS y la síntesis 33 de ruido NS. El código C_{S}
sinusoidal se usa para generar la señal y_{S,} descrita
como una suma de sinusoides en un segmento dado. Se usa el código
C_{N} de ruido para generar una señal y_{N} de ruido. Se
añaden segmentos posteriores mediante, por ejemplo, un método de
superposición-suma.
La señal total y(t) consiste en la suma
de la señal y_{T}transitoria y el producto de la
descompresión g de amplitud y la suma de las señales
y_{S} sinusoidales y la señal y_{N} de ruido. El
reproductor de audio comprende dos sumadores 36 y 37 para sumar las
señales respectivas. Se proporciona la señal total a una unidad 35
de salida, que es por ejemplo un altavoz.
La figura 7 muestra un sistema de audio según la
invención que comprende un codificador 1 de audio tal como se
muestra en la figura 2 y un reproductor 3 de audio tal como se
muestra en la figura 6. Un sistema de este tipo ofrece
características reproducción y grabación. La corriente de audio AS
se proporciona desde el codificador de audio al reproductor de
audio a través de un canal 2 de comunicación, que puede ser una
conexión inalámbrica, un bus de datos o un medio de almacenamiento.
En el caso de que el canal 2 de comunicación sea un medio de
almacenamiento, el medio de almacenamiento puede estar fijo en el
sistema o puede ser un disco extraíble, tarjeta de memoria, etc. El
canal 2 de comunicación puede ser parte del sistema de audio, pero
sin embargo estará fuera del sistema de audio a menudo.
Debe observarse que las realizaciones
mencionadas anteriormente ilustran más que limitan la invención, y
los expertos en la técnica podrán diseñar muchas realizaciones
alternativas sin apartarse del alcance de las reivindicaciones
adjuntas. En las reivindicaciones, cualquier signo de referencia
colocado entre paréntesis no puede interpretarse como que limita la
reivindicación. La palabra "comprender" no excluye la presencia
de otros elementos o etapas de las enumeradas en una
reivindicación. La invención puede implementarse por medio de
hardware que comprende varios elementos distintos, y por medio de
un ordenador programado de forma adecuada. En una reivindicación
del dispositivo que enumera varios medios, pueden realizarse varios
de estos medios por uno y el mismo artículo de hardware. El simple
hecho de que se enumeren determinadas medidas en reivindicaciones
diferentes dependientes entre sí no indica que no pueda usarse una
combinación de estas medidas para obtener una ventaja.
En resumen, la invención proporciona
codificación y decodificación de una señal de audio que incluye
estimar una posición de una componente de señal transitoria en la
señal de audio, hacer corresponder una función de forma en la
componente de señal transitoria en el caso de que la componente de
señal transitoria esté disminuyendo gradualmente tras un aumento
inicial, función de forma que tiene un comportamiento inicial
sustancialmente exponencial y un comportamiento de disminución
sustancialmente logarítmico; e incluir la posición y parámetros que
describen la función de forma en una corriente de audio.
Claims (12)
1. Método de codificación (1) de una señal de
audio (x), comprendiendo el método las etapas de:
estimar (110) una posición de una componente de
señal transitoria en la señal de audio, en la que la componente de
señal transitoria disminuye gradualmente tras un aumento
inicial;
hacer corresponder (111, 112) una función de
forma en la componente de señal transitoria, función de forma que
tiene un comportamiento inicial según t^{n} y un
comportamiento de disminución tras el comportamiento inicial, según
e^{-\alpha t}, en la que t es tiempo y n y
\alpha son parámetros de forma que describen la función de forma;
e
incluir (15) la posición y los parámetros de
forma en una corriente de audio (AS).
2. Método según la reivindicación 1, en el que
la función de forma es una función de Laguerre o una función de
Laguerre discreta generalizada.
3. Método según la reivindicación 2, en el que
la función de forma es una función de Meixner o un función de tipo
Meixner.
4. Método según la reivindicación 2, en el que
al menos uno de los parámetros de forma se determina mediante una
razón de pendientes de la ejecución de momentos de primer y segundo
orden de la señal (x) de audio.
5. Método según la reivindicación 1, en el que
la posición de la componente de señal transitoria es una posición
de partida de trama de análisis.
6. Método según la reivindicación 1,
comprendiendo el método además
el aplanamiento de una parte de la señal de
audio que se está proporcionando a al menos una etapa de
codificación continua usando la función de forma en un mecanismo de
control de ganancia.
7. Método de decodificación de una corriente de
audio, comprendiendo el método las etapas de:
generar (31) una componente de señal transitoria
en una posición dada; y
calcular (31) una función de forma de la
componente de señal transitoria basándose en parámetros de forma
recibidos, función de forma que tiene un comportamiento inicial
según t^{n} y un comportamiento de disminución tras el
comportamiento inicial, según e^{-\alpha t}, en la que
t es tiempo, y n y \alpha son los parámetros de
forma.
8. Codificador (1) de audio, que comprende:
medios para estimar (110) una posición de una
componente de señal transitoria en la señal de audio; en el que la
componente de señal transitoria está disminuyendo gradualmente tras
un aumento inicial,
medios para hacer corresponder (111, 112) una
función de forma en la componente de señal transitoria, función de
forma que tiene un comportamiento inicial según t^{n} y un
comportamiento de disminución tras el comportamiento inicial según
e^{-\alpha t}, en la que t es tiempo, y n y
\alpha son los parámetros de forma que describen la función de
forma,
y
y
medios para incluir (15) la posición y
parámetros de forma en una corriente de audio (AS).
9. Reproductor (3) de audio, que comprende
medios para generar (31) una componente de señal
transitoria en una posición dada; y
medios para calcular (31) una función de forma
de la componente de señal transitoria basándose en los parámetros
de forma recibidos, función de forma que tiene un comportamiento
inicial según t^{n} y un comportamiento de disminución
tras el comportamiento inicial según e^{-\alpha t} en la
que t es tiempo, y n y \alpha son los parámetros
de
forma.
forma.
10. Sistema de audio que comprende un
codificador (1) de audio según la reivindicación 8 y un reproductor
(3) de audio según la reivindicación 9.
11. Corriente de audio (AS) que comprende:
una posición de una componente de señal
transitoria; y
\newpage
parámetros de forma que describen una función de
forma de la componente de señal transitoria, función de forma que
tiene un comportamiento inicial según t^{n} y un
comportamiento de disminución tras el comportamiento inicial según
e^{-\alpha t} en la que t es tiempo, y n y
\alpha son los parámetros de forma.
12. Medio (2) de almacenamiento en el que se ha
almacenado una corriente de audio (AS) según la reivindicación
11.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00200939 | 2000-03-15 | ||
EP00200939 | 2000-03-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2292581T3 true ES2292581T3 (es) | 2008-03-16 |
Family
ID=8171205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01929398T Expired - Lifetime ES2292581T3 (es) | 2000-03-15 | 2001-03-05 | Funcion laguerre para la codificacion de audio. |
Country Status (9)
Country | Link |
---|---|
US (2) | US6925434B2 (es) |
EP (1) | EP1190415B1 (es) |
JP (1) | JP4803938B2 (es) |
KR (1) | KR100780561B1 (es) |
CN (1) | CN1154975C (es) |
AT (1) | ATE369600T1 (es) |
DE (1) | DE60129771T2 (es) |
ES (1) | ES2292581T3 (es) |
WO (1) | WO2001069593A1 (es) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001069593A1 (en) * | 2000-03-15 | 2001-09-20 | Koninklijke Philips Electronics N.V. | Laguerre fonction for audio coding |
KR100927842B1 (ko) * | 2001-04-18 | 2009-11-23 | 아이피지 일렉트로닉스 503 리미티드 | 오디오 신호를 인코딩하고 디코딩하는 방법, 오디오 코더, 오디오 플레이어, 그러한 오디오 코더와 그러한 오디오 플레이어를 포함하는 오디오 시스템 및 오디오 스트림을 저장하기 위한 저장 매체 |
KR100852613B1 (ko) * | 2001-06-08 | 2008-08-18 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호들의 편집 |
CN1319043C (zh) * | 2001-10-26 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 用于编码和解码音频信号的方法与设备以及包括这样的设备的系统 |
KR20050021484A (ko) | 2002-07-16 | 2005-03-07 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
WO2004008437A2 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
AU2003274617A1 (en) | 2002-11-29 | 2004-06-23 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2005008628A1 (en) | 2003-07-18 | 2005-01-27 | Koninklijke Philips Electronics N.V. | Low bit-rate audio encoding |
WO2005024783A1 (en) | 2003-09-05 | 2005-03-17 | Koninklijke Philips Electronics N.V. | Low bit-rate audio encoding |
KR20060131729A (ko) * | 2003-09-09 | 2006-12-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 과도 오디오 신호 성분들의 인코딩 |
DE602004024703D1 (de) | 2003-10-13 | 2010-01-28 | Koninkl Philips Electronics Nv | Audiocodierung |
EP1692688A1 (en) * | 2003-12-01 | 2006-08-23 | Koninklijke Philips Electronics N.V. | Audio coding |
ATE390683T1 (de) | 2004-03-01 | 2008-04-15 | Dolby Lab Licensing Corp | Mehrkanalige audiocodierung |
CN1934619B (zh) | 2004-03-17 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 音频编码 |
EP1756807B1 (en) * | 2004-06-08 | 2007-11-14 | Koninklijke Philips Electronics N.V. | Audio encoding |
JP4318119B2 (ja) * | 2004-06-18 | 2009-08-19 | 国立大学法人京都大学 | 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム |
US20090106030A1 (en) * | 2004-11-09 | 2009-04-23 | Koninklijke Philips Electronics, N.V. | Method of signal encoding |
KR20070109982A (ko) * | 2004-11-09 | 2007-11-15 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 및 디코딩 |
JP2010513940A (ja) * | 2006-06-29 | 2010-04-30 | エヌエックスピー ビー ヴィ | ノイズ合成 |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR101317269B1 (ko) * | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
KR20090008611A (ko) * | 2007-07-18 | 2009-01-22 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치 |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
US9111525B1 (en) * | 2008-02-14 | 2015-08-18 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Apparatuses, methods and systems for audio processing and transmission |
CN101770776B (zh) * | 2008-12-29 | 2011-06-08 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
CN102419977B (zh) * | 2011-01-14 | 2013-10-02 | 展讯通信(上海)有限公司 | 瞬态音频信号的判别方法 |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
JPH01165000A (ja) * | 1987-12-21 | 1989-06-29 | Sony Corp | 音韻区間情報形成装置 |
JPH02226300A (ja) * | 1989-02-28 | 1990-09-07 | Sony Corp | 音韻区間情報形成装置 |
DK46493D0 (da) * | 1993-04-22 | 1993-04-22 | Frank Uldall Leonhard | Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler |
CA2168327C (en) | 1995-01-30 | 2000-04-11 | Shinichi Kikuchi | A recording medium on which a data containing navigation data is recorded, a method and apparatus for reproducing a data according to navigationdata, a method and apparatus for recording a data containing navigation data on a recording medium. |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
GB2318029B (en) * | 1996-10-01 | 2000-11-08 | Nokia Mobile Phones Ltd | Audio coding method and apparatus |
JPH10282995A (ja) * | 1997-04-01 | 1998-10-23 | Matsushita Electric Ind Co Ltd | 欠落音声補間符号化方法、欠落音声補間符号化装置、及び記録媒体 |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
DE19747132C2 (de) * | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
DE69932861T2 (de) * | 1999-10-30 | 2007-03-15 | Stmicroelectronics Asia Pacific Pte Ltd. | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung |
WO2001069593A1 (en) * | 2000-03-15 | 2001-09-20 | Koninklijke Philips Electronics N.V. | Laguerre fonction for audio coding |
-
2001
- 2001-03-05 WO PCT/EP2001/002424 patent/WO2001069593A1/en active IP Right Grant
- 2001-03-05 EP EP01929398A patent/EP1190415B1/en not_active Expired - Lifetime
- 2001-03-05 AT AT01929398T patent/ATE369600T1/de not_active IP Right Cessation
- 2001-03-05 ES ES01929398T patent/ES2292581T3/es not_active Expired - Lifetime
- 2001-03-05 CN CNB018005152A patent/CN1154975C/zh not_active Expired - Lifetime
- 2001-03-05 KR KR1020017014581A patent/KR100780561B1/ko active IP Right Grant
- 2001-03-05 DE DE60129771T patent/DE60129771T2/de not_active Expired - Lifetime
- 2001-03-05 JP JP2001567585A patent/JP4803938B2/ja not_active Expired - Lifetime
- 2001-03-12 US US09/804,022 patent/US6925434B2/en not_active Expired - Lifetime
-
2005
- 2005-04-27 US US11/115,465 patent/US7499852B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20010032087A1 (en) | 2001-10-18 |
US7499852B2 (en) | 2009-03-03 |
US6925434B2 (en) | 2005-08-02 |
KR20010113950A (ko) | 2001-12-28 |
EP1190415B1 (en) | 2007-08-08 |
DE60129771D1 (de) | 2007-09-20 |
ATE369600T1 (de) | 2007-08-15 |
EP1190415A1 (en) | 2002-03-27 |
CN1154975C (zh) | 2004-06-23 |
JP2003527632A (ja) | 2003-09-16 |
US20050187760A1 (en) | 2005-08-25 |
JP4803938B2 (ja) | 2011-10-26 |
WO2001069593A1 (en) | 2001-09-20 |
KR100780561B1 (ko) | 2007-11-29 |
DE60129771T2 (de) | 2008-04-30 |
CN1364290A (zh) | 2002-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2292581T3 (es) | Funcion laguerre para la codificacion de audio. | |
ES2749575T3 (es) | Procesamiento avanzado basado en un banco de filtros complejo, exponencial y modulado | |
ES2540075T3 (es) | Método y dispositivo de codificación de voz transitoria, método y dispositivo de decodificación, sistema de procesamiento y medio de almacenamiento legible por ordenador | |
ES2658942T3 (es) | Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable | |
ES2865099T3 (es) | Procedimiento y aparato de ocultación de errores de trama y procedimiento y aparato de decodificación que usa los mismos | |
ES2539304T3 (es) | Un aparato y un método para generar datos de salida por ampliación de ancho de banda | |
ES2427278T3 (es) | Transposición armónica mejorada de producto cruzado | |
ES2273216T3 (es) | Codificacion de audio. | |
EP2727105B1 (en) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal | |
JP6181773B2 (ja) | Celp状コーダのためのサイド情報を用いないノイズ充填 | |
EP3096314B1 (en) | Audio frame loss concealment | |
EP2772915A1 (en) | Inactive sound signal parameter estimation method and comfort noise generation method and system | |
Levine et al. | A switched parametric and transform audio coder | |
ES2546028T3 (es) | Un método y un dispositivo de codificación/decodificación | |
EP1697927B1 (en) | Improved frequency-domain error concealment | |
RU2368018C2 (ru) | Кодирование аудиосигнала с низкой скоростью передачи битов | |
US7197454B2 (en) | Audio coding | |
CN111312261B (zh) | 突发帧错误处理 | |
Lapierre et al. | Pre-echo noise reduction in frequency-domain audio codecs | |
KR101261524B1 (ko) | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 | |
KR101008529B1 (ko) | 오디오 인코딩에서의 정현파 선택 | |
Helen et al. | Perceptually motivated parametric representation for harmonic sounds for data compression purposes | |
EP3311380B1 (en) | Downscaled decoding of audio signals | |
KR102008488B1 (ko) | 편안한 잡음 생성 모드 선택을 위한 장치 및 방법 | |
Melkote et al. | A modified distortion metric for audio coding |