ES2292581T3 - Funcion laguerre para la codificacion de audio. - Google Patents

Funcion laguerre para la codificacion de audio. Download PDF

Info

Publication number
ES2292581T3
ES2292581T3 ES01929398T ES01929398T ES2292581T3 ES 2292581 T3 ES2292581 T3 ES 2292581T3 ES 01929398 T ES01929398 T ES 01929398T ES 01929398 T ES01929398 T ES 01929398T ES 2292581 T3 ES2292581 T3 ES 2292581T3
Authority
ES
Spain
Prior art keywords
function
audio
transient
signal component
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01929398T
Other languages
English (en)
Inventor
Arnoldus W. J. Oomen
Albertus C. Den Brinker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2292581T3 publication Critical patent/ES2292581T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Cereal-Derived Products (AREA)
  • Stereophonic System (AREA)

Abstract

Método de codificación (1) de una señal de audio (x), comprendiendo el método las etapas de: estimar (110) una posición de una componente de señal transitoria en la señal de audio, en la que la componente de señal transitoria disminuye gradualmente tras un aumento inicial; hacer corresponder (111, 112) una función de forma en la componente de señal transitoria, función de forma que tiene un comportamiento inicial según tn y un comportamiento de disminución tras el comportamiento inicial, según e-alfat, en la que t es tiempo y n y alfa son parámetros de forma que describen la función de forma; e incluir (15) la posición y los parámetros de forma en una corriente de audio (AS).

Description

Función Laguerre para la codificación de audio.
La invención se refiere a la codificación de señales de audio, en la que se codifican componentes de señal transitoria. La invención se refiere además a la decodificación de señales de audio. La invención también se refiere a un codificador de audio, un reproductor de audio, un sistema de audio, una corriente de audio y un medio de almacenamiento.
El artículo de Purnhagen y Edler, "Objektbasierter Analyse/Synthese Audio Coder für sehr niedrige Datenraten", ITG Fachbericht 1998, Nº. 146, págs. 35-40 da a conocer un dispositivo para la codificación de señales de audio a bajas velocidades de transmisión de bits. Se usa una disposición de análisis-síntesis basado en un modelo, en la que una señal de entrada se divide en tres partes: sinusoides individuales, tonos armónicos, y ruido. La señal de entrada se divide además en tramas fijas de 32 ms. Para todos los bloques y partes de señal, se derivan parámetros basándose en un modelo de fuente. Para mejorar la representación de partes de señal transitoria, se deriva una función envolvente a(t) de la señal de entrada y se aplica sobre sinusoides seleccionadas. La función envolvente consiste en dos segmentos de línea determinados por los parámetros r_{atk}, r_{dec}, t_{max} tal como se muestra en la figura 1.
Se presenta un ejemplo adicional de un sistema de codificación de baja velocidad de transmisión de bits en el artículo "ASAC - Analysis/Synthesis Audio Codec for Very Low Bit Rates" de Edler, Purnhagen y Ferekidis; edición preliminar de artículos presentados en la convención AES, 11-05-1996, páginas 1-15, XP001062332 que describe un codificador-decodificador de audio de análisis/síntesis (ASAC, "Analysis/Synthesis Audio Codec" que permite la codificación de señales de audio a velocidades de transmisión de bits muy bajas para aplicaciones como comunicación móvil o acceso a bases de datos multimedia mediante un módem y líneas de teléfono analógicas. Un objeto de la invención es proporcionar codificación de audio que es ventajosa en términos de velocidad de transmisión de bits y percepción. Con este fin, la invención proporciona un método de codificación y decodificación, un codificador de audio, un reproductor de audio, un sistema de audio, una corriente de audio y un medio de almacenamiento tal como se define en las reivindicaciones independientes y en la reivindicación dependiente 10. Se definen realizaciones ventajosas en las reivindicaciones dependientes.
Una primera realización de la invención comprende estimar una posición de una componente de señal transitoria en la señal de audio, hacer corresponder una función de forma en la componente de señal transitoria en la que la componente de señal transitoria está disminuyendo gradualmente tras un aumento inicial, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial, según e^{-\alpha t}, en la que t es tiempo, y n y \alpha son parámetros que describen una forma de la función de forma. La invención se basa en el conocimiento de que tal función proporciona una mejor representación de las componentes de señal transitoria mientras que la función puede describirse mediante un número pequeño de parámetros, que es ventajoso en términos de velocidad de transmisión de bits y calidad de percepción. La invención es especialmente ventajosa en realizaciones en las que las componentes de señal transitoria se codifican de forma independiente a partir de una componente de señal continua, debido a que especialmente en estas realizaciones es importante una buena representación de las componentes de señal transitoria.
Según un aspecto adicional de la invención, la función de forma es una función de Laguerre, que viene dada en tiempo continuo por
100
en la que c es el parámetro de escala (que puede tomarse como uno). En una realización práctica, es usa una función de Laguerre discreta en el tiempo.
Las componentes de señal transitoria pueden concebirse como un cambio brusco en el nivel de potencia (o amplitud) o como un cambio brusco en el patrón de forma de onda. La detección de componentes de señal transitoria como tales, se conoce en la técnica. Por ejemplo, en J. Kliewer y A. Mertins, "Audio subband coding with improved representation of transient signal segments", Proc. of EUSIPCO-98, Signal Processing IX, Theories and applications, Rodas, Grecia, septiembre de 1998, págs. 2345-2348, se propone un mecanismo de detección de transitorios, que se basa en la diferencia en los niveles de energía antes y después de una posición de partida de ataque. En una realización práctica según la invención, se consideran cambios bruscos en el nivel de amplitud.
En una realización preferida de la invención, la función de forma es una función de Laguerre discreta generalizada. Las funciones de Meixner y de tipo Meixner son de uso práctico y proporcionan un resultado sorprendentemente bueno. Se discuten tales funciones en A.C den Brinker, "Meixner-like functions having a rational z-transform", Int. J. Circuit Theory Appl., 23, 1995, págs. 237-246. Los parámetros de estas funciones de forma se derivan de una manera sencilla.
En otra realización de la invención, los parámetros de forma incluyen una indicación de escalón en el caso de que la componente de señal transitoria sea un cambio de tipo escalón en la amplitud. La señal tras el cambio de tipo escalón se codifica de forma ventajosa en codificadores-decodificadores continuos.
En otra realización preferida de la invención, la posición de la componente de señal transitoria es una posición de partida. Es conveniente proporcionar la posición de partida de la componente de señal transitoria para un entramado adaptivo, en el que una trama empieza en la posición de partida de una componente de señal transitoria. Se usa la posición de partida para tanto la función de forma como el entramado adaptivo, que da como resultado una codificación eficaz. Si se proporciona la posición de partida, no es necesario determinar la posición de partida combinando dos parámetros tal como sería necesario en el método descrito por Edler.
Los aspectos mencionados anteriormente y otros se harán evidentes a partir de y se aclararán con referencia a las realizaciones descritas a continuación en el presente documento.
En los dibujos:
la figura 1 muestra una función envolvente conocida, tal como se ha tratado ya;
la figura 2 muestra una realización de un codificador de audio según la invención;
la figura 3 muestra un ejemplo de una función de forma según la invención;
la figura 4 muestra un diagrama de los momentos centrales de ejecución de primer y segundo orden de una señal de audio de entrada;
la figura 5 muestra un ejemplo de una función de forma derivada de una señal de audio de entrada;
la figura 6 muestra una realización de un reproductor de audio según la invención; y
la figura 7 muestra un sistema que comprende un codificador de audio y un reproductor de audio;
Los dibujos sólo muestran aquellos elementos que son necesarios para entender la invención.
La figura 2 muestra un codificador 1 de audio según la invención, que comprende una unidad 10 de entrada para obtener una señal x(t) de audio de entrada. El codificador 1 de audio separa la señal de entrada en tres componentes: componentes de señal transitoria, componentes determinísticas continuas, y componentes estocásticas continuas. El codificador 1 de audio comprende un codificador 11 de transitorios, un codificador 13 de sinusoides y un codificador 14 de ruido. El codificador de audio comprende opcionalmente un mecanismo 12 de compresión de compresión de ganancia (GC).
En esta realización ventajosa de la invención, se realiza la codificación transitoria antes de la codificación continua. Esto es ventajoso debido a que las componentes de señal transitoria no se codifican de forma eficaz y óptima en los codificadores continuos. Si se usan codificadores continuos para codificar componentes de señal transitoria, se necesita mucho esfuerzo de codificación, por ejemplo, puede suponerse que es difícil codificar una componente de señal transitoria sólo con sinusoides continuas. Por tanto, es ventajosa la eliminación de componentes de señal transitoria de la señal de audio que va a codificarse antes de la codificación continua. Se usa una posición de partida transitoria derivada en el codificador derivada del codificador de transitorios en los codificadores continuos para la segmentación adaptiva (entramado adaptivo) que da como resultado una mejora adicional del rendimiento de la codificación continua.
El codificador 11 de transitorios comprende un detector 110 de transitorios (TD), un analizador 111 de transitorios (TA) y un sintetizador 112 de transitorios (TS). En primer lugar, la señal x(t) se introduce en el detector 110 de transitorios. Este detector 110 estima si existe una componente de señal transitoria y en qué posición. Esta información se alimenta al analizador 111 de transitorios. Esta información puede usarse también en el codificador 13 de sinusoides y el codificador 14 de ruido para obtener una segmentación inducida por señal ventajosa. Si se determina la posición de la componente de señal transitoria, el analizador 111 de transitorios intenta extraer (la parte principal de) la componente de señal transitoria. Hace corresponder una función de forma con un segmento de señal partiendo preferiblemente en una posición de partida estimada, y determina el contenido por debajo de la función de forma, por ejemplo un número (pequeño) de componentes sinusoidales. Esta información está contenida en el código C_{T} transitorio. Se proporciona el código C_{T} transitorio al sintetizador 112 de transitorios. La componente de señal transitoria sintetizada se resta de la señal x(t) de entrada en un restador 16, dando como resultado una señal x_{1}. En el caso de que se omita GC 12, x_{1} = x_{2}. Se proporciona la señal x_{2} al codificador 13 de sinusoides en el que se analiza en un analizador 130 de sinusoides (SA), que determina las componentes sinusoidales (determinísticas). Esta información está contenida en el código C_{S} sinusoidal. A partir del código C_{S} sinusoidal, se reconstruye la componente de señal sinusoidal mediante un sintetizador 131 de sinusoides (SS). Esta señal se resta en un restador 17 desde la entrada x_{2} hasta el codificador 13 de sinusoides, dando como resultado una señal x_{3} residual que carece de componentes de señal transitoria (grandes) y componentes sinusoidales determinísticos (principales). Por tanto, se supone que la señal x_{3} residual consiste principalmente en ruido. Se analiza para su contenido de potencia según una escala ERB en un analizador 14 de ruido (NA). El analizador 14 de ruido produce un código C_{N} de ruido. Similar a la situación en el codificador 13 de sinusoides, el analizador 14 de ruido también puede usar la posición de partida de la componente de señal de transitorios como una posición para empezar un nuevo bloque de análisis. Los tamaños de segmento del analizador 130 de sinusoides y el analizador 14 de ruido no son necesariamente iguales. En un multiplexador 15, se constituye una corriente de audio AS que incluye los códigos C_{T}, C_{S} y C_{N}. Se proporciona la corriente de audio AS a por ejemplo un bus de datos, un sistema de antena, un medio de almacenamiento
etc.
En lo siguiente, se tratará una representación de los componentes de señal transitoria según la invención. En esta realización, el código para componentes transitorios CT consiste en o bien una forma paramétrica más las componentes de frecuencia principales adicionales (u otro contenido) por debajo de la forma o un código para identificar un cambio de tipo escalón. Según una realización preferida de la invención, la función de forma para un transitorio que está disminuyendo tras un aumento inicial, es preferiblemente una función de Laguerre discreta generalizada. Para otros tipos de componentes de señal transitoria, pueden usarse otras funciones.
Un ejemplo de una función de Laguerre discreta generalizada, es una función de Meixner. Una función g(t) de Meixner de orden cero discreta viene dada por:
101
en la que t = 0,1,2... y (b)_{t} = b(b+1)...(b+t-1) es un símbolo de Pochhammer. El parámetro b indica un orden de generalización (b > 0) y determina la forma inicial de la función: aproximadamente f \propto t^{(b-1)}/2 para un t pequeño. El parámetro \xi indica un polo con 0 < \xi < 1 y determina la disminución para t mayor. La función g(t) es una función positiva para todos los valores de t. Para b = 1, se obtiene una función de Laguerre discreta. Además, para b = 1, la transformada en z de g es una función racional en z y así puede realizarse como una respuesta de impulso de un filtro de respuesta de impulso infinito (IIR) de primer orden. Para todos los demás valores de b no existe ninguna transformada en z racional. La función g(t) está normalizada en energía, es decir, \sum\limits^{\infty}\limits_{t = 0} g^{2} (t) = 1. La función de Meixner de orden cero puede producirse de forma recursiva mediante:
102
\vskip1.000000\baselineskip
103
En otra realización según la invención, se usan funciones de tipo Meixner, debido a que tienen una transformada en z racional. Se muestra un ejemplo de una función de tipo Meixner en la figura 3. Una función h(t) de tipo Meixner de orden cero discreta viene dada por su transformada en z:
104
en la que a = 0, 1, 2,... y C_{a} viene dado por:
105
en la que P_{a} es un polinomio de Legendre de orden a, dado por:
106
El parámetro a denota el orden de generalización (a es un número entero no negativo) y \xi es el polo con 0 < \xi < 1. El parámetro a determina la forma inicial de la función: f \propto t^{a} para t pequeño. El parámetro \xi determina la disminución para t mayor. La función h es una función positiva para todos los valores de t y está normalizada en energía. Para todos los valores de a, la función h tiene una transformada en z racional y puede realizarse como la respuesta de impulso de un filtro IIR (de orden a+1).
La función h(t) puede expresarse en una serie de Laguerre discreta finita según:
107
en la que \phi_{m} son funciones de Laguerre discretas, véase el artículo de A.C. den Brinker. B_{m} viene dado por:
108
Los momentos centrales de ejecución de primer y segundo orden de una función f(t) dada están definidos por:
109
110
en las que k_{0} es la posición de partida de la componente de señal transitoria.
Con una buena estimación de los momentos T_{1} y T_{2} de ejecución de una señal de audio de entrada (tómese f(t) = x(t) en las ecuaciones 10 y 11), pueden deducirse los parámetros de forma. Desgraciadamente, en datos reales una componente de señal transitoria está seguida normalmente por una fase de excitación continua, lo que afecta a una posible medición de los momentos centrales de ejecución. La figura 4 muestra los momentos centrales de ejecución de primer y segundo orden de una señal de audio de entrada. Parece que los momentos de ejecución aumentan inicialmente de forma lineal desde la supuesta posición de partida y mas tarde tienden a saturarse. Aunque los parámetros de forma pueden deducirse a partir de esta curva, debido a que la saturación no es tan clara como se desea para la extracción de parámetros, es decir, no está lo suficientemente claro a qué k se obtienen buenas estimaciones de T_{1} y T_{2}. En una realización ventajosa de la invención, se usa una razón en el aumento inicial de los momentos T_{1} y T_{2} de ejecución para deducir los parámetros de forma. Esta medición es ventajosa para determinar b (y en el caso de la función a de Meixner de orden cero), puesto que b determina el comportamiento inicial de la forma. A partir de una razón entre pendientes de los momentos T_{1} y T_{2} de ejecución se obtiene una buena estimación para b. A partir de los resultados de simulación se ha obtenido que en buena medida, existe una relación lineal entre la razón pendiente T_{1}/pendiente T_{2} y el parámetro b, que es, al contrario de una función de Laguerre, ligeramente dependiente del parámetro \xi de disminución. Como una descripción puede usarse (derivada de los experimentos):
para Meixner: pendiente T_{1}/pendiente T_{2} = b + 1/2
(12)
para de tipo Meixner: pendiente T_{1}/pendiente T_{2} = 2a + 3/2
(13)
en las que se ignora una dependencia de \xi. Debido a que T_{1} y T_{2} son cero para k = k_{0}, pendiente T_{1}/pendiente T_{2} puede aproximarse por T_{1}/T_{2} para un k adecuado.
El polo \xi de la forma puede estimarse de la siguiente manera. Se ajusta un polinomio de segundo orden a un momento central de ejecución, por ejemplo, T_{1}. Este polinomio se ajusta a un segmento de señal de T_{1} con el tiempo T de observación de manera que la nivelación se ve claramente, es decir, un término de segundo orden claro en el ajuste polinómico en T. A continuación, se extrapola el polinomio de segundo orden hasta su máximo y se supone que este valor es el nivel de saturación de T_{1}. A partir de este valor para T_{1} y b, se calcula \xi con el uso de las ecuaciones 2 y 10, con f(t) = g(t). Para una función de tipo Meixner, se calcula \xi a partir del valor para T_{1} y a, con el uso de las ecuaciones 8-10, con f(t) = h(t).
Un procedimiento para la estimación del parámetro \xi de disminución es tal como sigue:
empezar con algún valor de T
ajustar un polinomio de segundo orden a los datos en 0 a T, es decir, T_{1}(t) \approx c_{0} + c_{1}t + c_{2}t_{2} para t = [0, T] en el que c_{0},_{1},_{2} son parámetros de ajuste
comprobar si el término cuadrático de este polinomio es esencial a t = T:
T_{1}(T)<(1-\varepsilon)(c_{0}+c_{1}T)
en la que
\varepsilon representa una contribución relativa del término cuadrático en t = T.
Si esto se cumple, entonces extrapolar T_{1}(t) hasta su máximo e igualar esto con T_{1}:
111
calcular el parámetro \xi de disminución a partir de T_{1} y b (o a)
Para funciones de tipo Meixner, el parámetro a de forma se redondea preferiblemente a valores de números enteros.
La figura 5 muestra un ejemplo de una función de forma derivada de una señal de audio de entrada.
Puede realizarse algo de procesamiento previo, como realizar una transformada de Hilbert de los datos con el fin de obtener una primera aproximación de la forma, aunque el procesamiento previo no es esencial para la invención.
Cuando el valor al que los momentos de ejecución se saturan es grande, es decir, en el orden de la longitud de segmento/trama, se descarta la forma (de tipo) Meixner. En el caso de que el transitorio sea un cambio de tipo escalón en la amplitud, la posición del transitorio se retiene para una segmentación apropiada del codificador de sinusoides y el código de ruido.
Tras haber determinado la posición de partida y la forma de un transitorio, se estima el contenido de señal bajo la forma. Se estima un número (pequeño) de sinusoides bajo la forma. Esto se realiza en un procedimiento análisis-por-síntesis tal como se conoce en la técnica. Los datos que se usan para estimar las sinusoides es un segmento que se muestra en ventanas con el fin de abarcar el transitorio pero no ninguna respuesta continua posterior. Por tanto, se aplica una ventana de tiempo a los datos antes de entrar en el método análisis-por-síntesis. En esencia, la señal que se considera se extiende desde la posición de partida hasta alguna muestra en la que se reduce la forma hasta un determinado porcentaje de su máximo. Estos datos mostrados en ventanas pueden transformarse a un dominio de frecuencia, por ejemplo, mediante una transformada de Fourier discreta (DFT). Con el fin de evitar componentes de baja frecuencia, que se extienden presumiblemente por encima del transitorio estimado, también se aplica una ventana en el dominio de frecuencia. A continuación, se determina la respuesta máxima y la frecuencia asociada con esta respuesta máxima. Se modula la forma estimada por esta frecuencia, y se realiza el mejor ajuste posible a los datos según algún criterio predeterminado, por ejemplo, un modelo psicoacústico o en un sentido de mínimos cuadrados. Este segmento transitorio estimado se resta del transitorio original y el se repite el procedimiento hasta que se supera un número máximo de componentes sinusoidales, o no queda casi nada de energía en el segmento. En esencia, se representa un transitorio mediante una suma de funciones de Meixner moduladas. En una realización práctica, se estiman 6 sinusoides. Si el contenido subyacente contiene principalmente ruido, se usa una estimación de ruido o se proporcionan valores arbitrarios para las frecuencias de las sinusoides.
El código C_{T} transitorio incluye una posición de partida de un transitorio y un tipo de transitorio. El código para un transitorio en el caso de una forma de (tipo) Meixner incluye:
la posición de partida del transitorio
una indicación de que la forma es una función (de tipo) Meixner
parámetros b (o a) de forma y \xi
términos de modulación: parámetros N_{F} de frecuencia y amplitudes para una forma modulada de (co)seno
En el caso de que el transitorio sea esencialmente un aumento brusco en el nivel de amplitud en el que no existe ninguna disminución clara en este nivel (relativamente) poco después de la posición de partida, el transitorio no puede codificarse con una forma (de tipo) Meixner. En ese caso, se retiene la posición de partida con el fin de obtener una segmentación de señal apropiada. El código para transitorios de escalón incluye:
la posición de partida del transitorio
un indicador para el escalón
La realización de las fases de codificación continuas posteriores (sinusoidal y ruido) se mejora usando la posición de transitorios en la segmentación de la señal. El codificador de sinusoides y el codificador de ruido empiezan en una nueva trama en la posición de un transitorio detectado. De esta manera, se impide promediar en partes de señales, que se sabe que muestran comportamiento no estacionario. Esto implica que un segmento delante de un segmento transitorio tiene que acortarse, desplazarse o concatenarse con una trama anterior.
El codificador 1 de audio según la invención comprende opcionalmente un elemento 12 de control de ganancia delante de los codificadores 13 y 14 continuos. Es ventajoso para los codificadores continuos impedir cambios en el nivel de amplitud. Para un transitorio de escalón, se soluciona este problema usando una segmentación según los transitorios. Para transitorios representados con una forma, se soluciona el problema en parte extrayendo el transitorio de la señal de entrada. La señal remanente todavía puede incluir un cambio dinámico significativo en el nivel de amplitud, de forma presumiblemente similar a la forma estimada. Con el fin de aplanar la señal remanente, puede usarse el elemento de control de ganancia. Una velocidad de compresión puede definirse como:
112
en la que h(t) es la forma estimada y d es el parámetro que describe una velocidad de compresión. El elemento de control de ganancia supone que después de un transitorio, tiene lugar una fase estacionaria con salidas de amplitud que ascienden a aproximadamente 0,2 veces el máximo en la forma estimada. Una razón r está definida por:
113
en la que Mr es el máximo de la señal remanente.
El parámetro d de tasa de compresión es igual a r si r > 2, si no d se toma como 0. Para la compresión, sólo necesita transmitirse d.
La figura 6 muestra un reproductor 3 de audio según la invención. Una corriente de audio AS', por ejemplo generada por un codificador según la figura 2, se obtiene a partir de un bus de datos, un sistema de antena, un medio de almacenamiento etc. La corriente de audio AS se demultiplexa en un demultiplexador30 para obtener los códigos C_{T}', C_{S}' y C_{N}'. Estos códigos se proporcionan a un sintetizador 31 de transitorios, un sintetizador 32 de sinusoides y un sintetizador 33 de ruido respectivamente. A partir del código C_{T}' transitorio, se calculan los componentes de señal transitoria en el sintetizador 31 de transitorios. En el caso de que el código transitorio indique una función de forma, la forma se calcula basándose en los parámetros recibidos. Además, el contenido de forma se calcula basándose en las frecuencias y amplitudes de las componentes sinusoidales. Si el código C_{T}' transitorio indica un escalón, entonces no se calcula ningún transitorio. La señal y_{T} transitoria total es la suma de todos los transitorios.
En el caso de que se use el parámetro d de descompresión, es decir, si se deriva en el codificador 1 y se incluye en la corriente de audio AS', se usa un mecanismo 34 de descompresión. La señal g(t) de ganancia se inicializa en la unidad, y el factor de descompresión de amplitud total se calcula como el producto de todos los factores de descompresión diferentes. En el caso de que el transitorio sea un escalón, no se calcula ningún factor de descompresión de amplitud.
A partir de dos posiciones transitorias posteriores, se calcula una segmentación para la síntesis 32 de sinusoides SS y la síntesis 33 de ruido NS. El código C_{S} sinusoidal se usa para generar la señal y_{S,} descrita como una suma de sinusoides en un segmento dado. Se usa el código C_{N} de ruido para generar una señal y_{N} de ruido. Se añaden segmentos posteriores mediante, por ejemplo, un método de superposición-suma.
La señal total y(t) consiste en la suma de la señal y_{T}transitoria y el producto de la descompresión g de amplitud y la suma de las señales y_{S} sinusoidales y la señal y_{N} de ruido. El reproductor de audio comprende dos sumadores 36 y 37 para sumar las señales respectivas. Se proporciona la señal total a una unidad 35 de salida, que es por ejemplo un altavoz.
La figura 7 muestra un sistema de audio según la invención que comprende un codificador 1 de audio tal como se muestra en la figura 2 y un reproductor 3 de audio tal como se muestra en la figura 6. Un sistema de este tipo ofrece características reproducción y grabación. La corriente de audio AS se proporciona desde el codificador de audio al reproductor de audio a través de un canal 2 de comunicación, que puede ser una conexión inalámbrica, un bus de datos o un medio de almacenamiento. En el caso de que el canal 2 de comunicación sea un medio de almacenamiento, el medio de almacenamiento puede estar fijo en el sistema o puede ser un disco extraíble, tarjeta de memoria, etc. El canal 2 de comunicación puede ser parte del sistema de audio, pero sin embargo estará fuera del sistema de audio a menudo.
Debe observarse que las realizaciones mencionadas anteriormente ilustran más que limitan la invención, y los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin apartarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones, cualquier signo de referencia colocado entre paréntesis no puede interpretarse como que limita la reivindicación. La palabra "comprender" no excluye la presencia de otros elementos o etapas de las enumeradas en una reivindicación. La invención puede implementarse por medio de hardware que comprende varios elementos distintos, y por medio de un ordenador programado de forma adecuada. En una reivindicación del dispositivo que enumera varios medios, pueden realizarse varios de estos medios por uno y el mismo artículo de hardware. El simple hecho de que se enumeren determinadas medidas en reivindicaciones diferentes dependientes entre sí no indica que no pueda usarse una combinación de estas medidas para obtener una ventaja.
En resumen, la invención proporciona codificación y decodificación de una señal de audio que incluye estimar una posición de una componente de señal transitoria en la señal de audio, hacer corresponder una función de forma en la componente de señal transitoria en el caso de que la componente de señal transitoria esté disminuyendo gradualmente tras un aumento inicial, función de forma que tiene un comportamiento inicial sustancialmente exponencial y un comportamiento de disminución sustancialmente logarítmico; e incluir la posición y parámetros que describen la función de forma en una corriente de audio.

Claims (12)

1. Método de codificación (1) de una señal de audio (x), comprendiendo el método las etapas de:
estimar (110) una posición de una componente de señal transitoria en la señal de audio, en la que la componente de señal transitoria disminuye gradualmente tras un aumento inicial;
hacer corresponder (111, 112) una función de forma en la componente de señal transitoria, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial, según e^{-\alpha t}, en la que t es tiempo y n y \alpha son parámetros de forma que describen la función de forma; e
incluir (15) la posición y los parámetros de forma en una corriente de audio (AS).
2. Método según la reivindicación 1, en el que la función de forma es una función de Laguerre o una función de Laguerre discreta generalizada.
3. Método según la reivindicación 2, en el que la función de forma es una función de Meixner o un función de tipo Meixner.
4. Método según la reivindicación 2, en el que al menos uno de los parámetros de forma se determina mediante una razón de pendientes de la ejecución de momentos de primer y segundo orden de la señal (x) de audio.
5. Método según la reivindicación 1, en el que la posición de la componente de señal transitoria es una posición de partida de trama de análisis.
6. Método según la reivindicación 1, comprendiendo el método además
el aplanamiento de una parte de la señal de audio que se está proporcionando a al menos una etapa de codificación continua usando la función de forma en un mecanismo de control de ganancia.
7. Método de decodificación de una corriente de audio, comprendiendo el método las etapas de:
generar (31) una componente de señal transitoria en una posición dada; y
calcular (31) una función de forma de la componente de señal transitoria basándose en parámetros de forma recibidos, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial, según e^{-\alpha t}, en la que t es tiempo, y n y \alpha son los parámetros de forma.
8. Codificador (1) de audio, que comprende:
medios para estimar (110) una posición de una componente de señal transitoria en la señal de audio; en el que la componente de señal transitoria está disminuyendo gradualmente tras un aumento inicial,
medios para hacer corresponder (111, 112) una función de forma en la componente de señal transitoria, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial según e^{-\alpha t}, en la que t es tiempo, y n y \alpha son los parámetros de forma que describen la función de forma,
y
medios para incluir (15) la posición y parámetros de forma en una corriente de audio (AS).
9. Reproductor (3) de audio, que comprende
medios para generar (31) una componente de señal transitoria en una posición dada; y
medios para calcular (31) una función de forma de la componente de señal transitoria basándose en los parámetros de forma recibidos, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial según e^{-\alpha t} en la que t es tiempo, y n y \alpha son los parámetros de
forma.
10. Sistema de audio que comprende un codificador (1) de audio según la reivindicación 8 y un reproductor (3) de audio según la reivindicación 9.
11. Corriente de audio (AS) que comprende:
una posición de una componente de señal transitoria; y
\newpage
parámetros de forma que describen una función de forma de la componente de señal transitoria, función de forma que tiene un comportamiento inicial según t^{n} y un comportamiento de disminución tras el comportamiento inicial según e^{-\alpha t} en la que t es tiempo, y n y \alpha son los parámetros de forma.
12. Medio (2) de almacenamiento en el que se ha almacenado una corriente de audio (AS) según la reivindicación 11.
ES01929398T 2000-03-15 2001-03-05 Funcion laguerre para la codificacion de audio. Expired - Lifetime ES2292581T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00200939 2000-03-15
EP00200939 2000-03-15

Publications (1)

Publication Number Publication Date
ES2292581T3 true ES2292581T3 (es) 2008-03-16

Family

ID=8171205

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01929398T Expired - Lifetime ES2292581T3 (es) 2000-03-15 2001-03-05 Funcion laguerre para la codificacion de audio.

Country Status (9)

Country Link
US (2) US6925434B2 (es)
EP (1) EP1190415B1 (es)
JP (1) JP4803938B2 (es)
KR (1) KR100780561B1 (es)
CN (1) CN1154975C (es)
AT (1) ATE369600T1 (es)
DE (1) DE60129771T2 (es)
ES (1) ES2292581T3 (es)
WO (1) WO2001069593A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069593A1 (en) * 2000-03-15 2001-09-20 Koninklijke Philips Electronics N.V. Laguerre fonction for audio coding
KR100927842B1 (ko) * 2001-04-18 2009-11-23 아이피지 일렉트로닉스 503 리미티드 오디오 신호를 인코딩하고 디코딩하는 방법, 오디오 코더, 오디오 플레이어, 그러한 오디오 코더와 그러한 오디오 플레이어를 포함하는 오디오 시스템 및 오디오 스트림을 저장하기 위한 저장 매체
KR100852613B1 (ko) * 2001-06-08 2008-08-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들의 편집
CN1319043C (zh) * 2001-10-26 2007-05-30 皇家飞利浦电子股份有限公司 用于编码和解码音频信号的方法与设备以及包括这样的设备的系统
KR20050021484A (ko) 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
WO2004008437A2 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
AU2003274617A1 (en) 2002-11-29 2004-06-23 Koninklijke Philips Electronics N.V. Audio coding
WO2005008628A1 (en) 2003-07-18 2005-01-27 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
WO2005024783A1 (en) 2003-09-05 2005-03-17 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
KR20060131729A (ko) * 2003-09-09 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 과도 오디오 신호 성분들의 인코딩
DE602004024703D1 (de) 2003-10-13 2010-01-28 Koninkl Philips Electronics Nv Audiocodierung
EP1692688A1 (en) * 2003-12-01 2006-08-23 Koninklijke Philips Electronics N.V. Audio coding
ATE390683T1 (de) 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
CN1934619B (zh) 2004-03-17 2010-05-26 皇家飞利浦电子股份有限公司 音频编码
EP1756807B1 (en) * 2004-06-08 2007-11-14 Koninklijke Philips Electronics N.V. Audio encoding
JP4318119B2 (ja) * 2004-06-18 2009-08-19 国立大学法人京都大学 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
US20090106030A1 (en) * 2004-11-09 2009-04-23 Koninklijke Philips Electronics, N.V. Method of signal encoding
KR20070109982A (ko) * 2004-11-09 2007-11-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩 및 디코딩
JP2010513940A (ja) * 2006-06-29 2010-04-30 エヌエックスピー ビー ヴィ ノイズ合成
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US9111525B1 (en) * 2008-02-14 2015-08-18 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Apparatuses, methods and systems for audio processing and transmission
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
CN102419977B (zh) * 2011-01-14 2013-10-02 展讯通信(上海)有限公司 瞬态音频信号的判别方法
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986003873A1 (en) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
JPH01165000A (ja) * 1987-12-21 1989-06-29 Sony Corp 音韻区間情報形成装置
JPH02226300A (ja) * 1989-02-28 1990-09-07 Sony Corp 音韻区間情報形成装置
DK46493D0 (da) * 1993-04-22 1993-04-22 Frank Uldall Leonhard Metode for signalbehandling til bestemmelse af transientforhold i auditive signaler
CA2168327C (en) 1995-01-30 2000-04-11 Shinichi Kikuchi A recording medium on which a data containing navigation data is recorded, a method and apparatus for reproducing a data according to navigationdata, a method and apparatus for recording a data containing navigation data on a recording medium.
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
JPH10282995A (ja) * 1997-04-01 1998-10-23 Matsushita Electric Ind Co Ltd 欠落音声補間符号化方法、欠落音声補間符号化装置、及び記録媒体
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE69932861T2 (de) * 1999-10-30 2007-03-15 Stmicroelectronics Asia Pacific Pte Ltd. Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
WO2001069593A1 (en) * 2000-03-15 2001-09-20 Koninklijke Philips Electronics N.V. Laguerre fonction for audio coding

Also Published As

Publication number Publication date
US20010032087A1 (en) 2001-10-18
US7499852B2 (en) 2009-03-03
US6925434B2 (en) 2005-08-02
KR20010113950A (ko) 2001-12-28
EP1190415B1 (en) 2007-08-08
DE60129771D1 (de) 2007-09-20
ATE369600T1 (de) 2007-08-15
EP1190415A1 (en) 2002-03-27
CN1154975C (zh) 2004-06-23
JP2003527632A (ja) 2003-09-16
US20050187760A1 (en) 2005-08-25
JP4803938B2 (ja) 2011-10-26
WO2001069593A1 (en) 2001-09-20
KR100780561B1 (ko) 2007-11-29
DE60129771T2 (de) 2008-04-30
CN1364290A (zh) 2002-08-14

Similar Documents

Publication Publication Date Title
ES2292581T3 (es) Funcion laguerre para la codificacion de audio.
ES2749575T3 (es) Procesamiento avanzado basado en un banco de filtros complejo, exponencial y modulado
ES2540075T3 (es) Método y dispositivo de codificación de voz transitoria, método y dispositivo de decodificación, sistema de procesamiento y medio de almacenamiento legible por ordenador
ES2658942T3 (es) Análisis espectral/síntesis de baja complejidad utilizando resolución temporal seleccionable
ES2865099T3 (es) Procedimiento y aparato de ocultación de errores de trama y procedimiento y aparato de decodificación que usa los mismos
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2427278T3 (es) Transposición armónica mejorada de producto cruzado
ES2273216T3 (es) Codificacion de audio.
EP2727105B1 (en) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
JP6181773B2 (ja) Celp状コーダのためのサイド情報を用いないノイズ充填
EP3096314B1 (en) Audio frame loss concealment
EP2772915A1 (en) Inactive sound signal parameter estimation method and comfort noise generation method and system
Levine et al. A switched parametric and transform audio coder
ES2546028T3 (es) Un método y un dispositivo de codificación/decodificación
EP1697927B1 (en) Improved frequency-domain error concealment
RU2368018C2 (ru) Кодирование аудиосигнала с низкой скоростью передачи битов
US7197454B2 (en) Audio coding
CN111312261B (zh) 突发帧错误处理
Lapierre et al. Pre-echo noise reduction in frequency-domain audio codecs
KR101261524B1 (ko) 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101008529B1 (ko) 오디오 인코딩에서의 정현파 선택
Helen et al. Perceptually motivated parametric representation for harmonic sounds for data compression purposes
EP3311380B1 (en) Downscaled decoding of audio signals
KR102008488B1 (ko) 편안한 잡음 생성 모드 선택을 위한 장치 및 방법
Melkote et al. A modified distortion metric for audio coding