ES2604758T3 - Codificación de señales de audio por transformada modificada deformada en el tiempo - Google Patents

Codificación de señales de audio por transformada modificada deformada en el tiempo Download PDF

Info

Publication number
ES2604758T3
ES2604758T3 ES08008361.1T ES08008361T ES2604758T3 ES 2604758 T3 ES2604758 T3 ES 2604758T3 ES 08008361 T ES08008361 T ES 08008361T ES 2604758 T3 ES2604758 T3 ES 2604758T3
Authority
ES
Spain
Prior art keywords
frame
deformation
information
frames
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08008361.1T
Other languages
English (en)
Inventor
Lars Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2604758T3 publication Critical patent/ES2604758T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Codificador para derivar una representación de una señal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama, comprendiendo el codificador: un estimador de deformación para estimar primera información de deformación para la primera y la segunda trama y para estimar segunda información de deformación para la segunda trama y la tercera trama usando el ajuste de una función de deformación a dos tramas consecutivas, describiendo la información de deformación una información de tono de la señal de audio; un analizador espectral para derivar primeros coeficientes espectrales para la primera y la segunda trama usando la primera información de deformación y para derivar segundos coeficientes espectrales para la segunda y la tercera trama usando la segunda información de deformación; y una interfaz de salida para emitir la representación de la señal de audio que incluye los primeros y los segundos coeficientes espectrales.

Description

5
10
15
20
25
30
35
40
45
50
55
60
Codificacion de senales de audio por transformada modificada deformada en el tiempo
DESCRIPCION
Campo de la invencion
La presente invencion se refiere a sistemas de codificacion de origen de audio y en particular a esquemas de codificacion de audio usando transformadas basadas en bloques.
Antecedentes de la invencion y tecnica anterior
En la tecnica se conocen varias maneras para codificar contenido de audio y video. En general, por supuesto, el objetivo es codificar el contenido ahorrando bits sin degradar la calidad de reconstruccion de la senal.
Recientemente, se han desarrollado nuevos enfoques para codificar contenido de audio y video, entre los que la codificacion de audio perceptual basada en transformadas consigue la mayor ganancia de codificacion para senales estacionarias, es decir cuando pueden aplicarse grandes tamanos de transformada. (Vease por ejemplo T. Painter y A. Spanias: “Perceptual coding of digital audio”, Proceedings of the IEEE, vol. 88, n .° 4, abril del 2000, paginas 451 a 513). Con frecuencia, las partes estacionarias de audio se modelan bien mediante un numero finito fijo de sinusoides estacionarias. Una vez que el tamano de transformada es lo suficientemente grande para resolver esas componentes, se requiere un numero fijo de bits para un objetivo de distorsion dado. Aumentando adicionalmente el tamano de transformada, se describiran segmentos mas y mas grandes de la senal de audio sin aumentar la demanda de bits. Sin embargo, para senales no estacionarias, se hace necesario reducir el tamano de transformada y por tanto la ganancia de codificacion disminuira rapidamente. Para superar este problema, para cambios bruscos y eventos transitorios, puede aplicarse conmutacion de tamano de transformada sin aumentar de manera significativa el coste de codificacion medio. Es decir, cuando se detecta un evento transitorio, se disminuye el tamano de bloque (tamano de trama) de las muestras que van a codificarse conjuntamente. Para senales transitorias mas persistentes, la tasa de bits aumentara evidentemente drasticamente.
Un ejemplo interesante particular para el comportamiento transitorio persistente es la variacion de tono de senales localmente armonicas, que se encuentra principalmente en las partes v del habla y el canto, pero que tambien pueden originarse a partir de los vibratos y glissandos de algunos instrumentos musicales. Teniendo una senal armonica, es decir una senal que tiene picos de senal distribuidos con igual separacion a lo largo del eje de tiempo, el termino tono describe la inversa del tiempo entre picos adyacentes de la senal. Por tanto, una senal de este tipo tiene un espectro armonico perfecto, que consiste en una frecuencia base igual al tono y armonicos de orden superior. En terminos mas generales, el tono puede definirse como la inversa del tiempo entre dos partes de senal correspondientes contiguas en una senal localmente armonica. Sin embargo, si el tono y por tanto, la frecuencia base vana con el tiempo, tal como es el caso en los sonidos vocales, el espectro se hara cada vez mas complejo y por tanto, mas ineficiente de codificar.
Un parametro estrechamente relacionado con el tono de una senal es la deformacion de la senal. Suponiendo que la senal en el tiempo t tiene un tono igual a p(t) y que este valor de tono vana suavemente a lo largo del tiempo, la deformacion de la senal en el tiempo t se define por la derivada logantmica
0(0 =
p\t) p(t)'
Para una senal armonica, esta definicion de deformacion es insensible a la seleccion particular de la componente armonica y errores sistematicos en terminos de multiplos o fracciones del tono. La deformacion mide un cambio de frecuencia en el dominio logantmico. La unidad natural de la deformacion es el hercio [Hz], aunque en terminos musicales, una senal con una deformacion constante a(t)=ao es un barrido con una tasa de barrido de ao/log2 octavas por segundo [oct/s]. Las senales del habla muestran deformaciones de hasta 10 oct/s y una deformacion media de aproximadamente 2 oct/s.
Puesto que la longitud de trama (longitud de bloque) tfpica de los codificadores de transformada es tan grande que el cambio de tono relativo es significativo en la trama, las variaciones de tono o deformaciones de ese tamano llevan a una aleatorizacion del analisis de frecuencia de esos codificadores. Puesto que, para una tasa de bits constante requerida, esto solo puede superarse aumentando la imprecision de la cuantificacion, este efecto lleva a la introduccion de ruido de cuantificacion, que con frecuencia se percibe como reverberacion.
Una posible tecnica para superar este problema es la deformacion en el tiempo. El concepto de codificacion deformada en el tiempo se explica de la mejor forma imaginando un magnetofono con velocidad variable. Cuando se
2
5
10
15
20
25
30
35
40
45
50
55
60
graba la senal de audio, la velocidad se ajusta dinamicamente para conseguir un tono constante por todos los segmentos vocales. La senal de audio resultante localmente estacionaria se codifica junto con los cambios de velocidad de cinta aplicados. En el descodificador, se realiza entonces una reproduccion con los cambios de velocidad opuestos. Sin embargo, la aplicacion de la deformacion simple en el tiempo tal como se describio anteriormente tiene algunas desventajas significativas. En primer lugar, la velocidad de cinta absoluta termina siendo incontrolable, llevando a un incumplimiento de la duracion de toda la senal codificada y de las limitaciones de ancho de banda. Para su reconstruccion, ha de transmitirse informacion secundaria adicional sobre la velocidad de cinta (o de manera equivalente sobre el tono de la senal), introduciendo una tara de tasa de bits sustancial, especialmente a tasas de bits bajas.
El enfoque comun de los metodos de la tecnica anterior para superar el problema de la duracion incontrolable de senales deformadas en el tiempo es procesar segmentos consecutivos que no se solapan, es decir, tramas individuales, de la senal independientemente mediante una deformacion en el tiempo, de modo que se conserva la duracion de cada segmento. Este enfoque se describe por ejemplo en Yang et. al. “Pitch synchronous modulated lapped transform of the linear prediction residual of speech”, Proceedings of ICSP '98, paginas 591 a 594. Una gran desventaja de un procedimiento de este tipo es que aunque la senal procesada es estacionaria en los segmentos, el tono mostrara saltos en cada lfmite de segmento. Esos saltos llevaran evidentemente a una perdida de la eficacia de codificacion del codificador de audio posterior y se introducen discontinuidades audibles en la senal descodificada.
La deformacion en el tiempo tambien se implementa en varios otros esquemas de codificacion. Por ejemplo, el documento US-2002/0120445 describe un esquema, en el que segmentos de senal se someten a ligeras modificaciones de duracion antes de la codificacion de transformada basada en bloques. Esto es para evitar grandes componentes de senal en el lfmite de los bloques, aceptando ligeras variaciones de duracion de los segmentos unicos.
Otra tecnica que usa la deformacion en el tiempo se describe en el documento US 6.169.970, en la que se aplica deformacion en el tiempo para aumentar el rendimiento del predictor a largo plazo de un codificador del habla. En la misma lmea, en el documento US 2005/0131681, se describe una unidad de pre-procesamiento para la codificacion CELP de senales del habla que aplica una deformacion lineal por trozos entre intervalos que no se solapan, conteniendo cada uno un pulso de tono blanqueado. Finalmente, en (R.J. Sluijter y A.J.E.M. Janssen, “A time warper for speech signals” IEEE workshop on Speech Coding'99, junio de 1999, paginas 150 a 152) se describe como mejorar la estimacion de tono del habla mediante la aplicacion de una funcion de deformacion en el tiempo cuadratica a una trama del habla.
La publicacion “A time warper for speech signals”, R.J.Sluijter, et al., Speech Coding Proceedings, 1999 IEEE Workshop in Porvoo, Finlandia, 20-23 de junio de 1999, paginas 150 a 152 presenta un elemento de deformacion en el tiempo parabolico disenado para mejorar la condicion estacionaria de segmentos del habla vocales. Para un segmento de senal armonica, la funcion de deformacion en el tiempo parabolica puede eliminar la parte de la variacion de frecuencia que progresa linealmente con el tiempo, sin cambiar la duracion en el tiempo de este segmento. La parte lineal de la variacion de frecuencia del tono en un segmento se elimina basandose en la maximizacion del pico de autocorrelacion relacionado con el tono de la senal deformada.
Un ejemplo adicional de una tecnica de deformacion en el tiempo se presenta en Luis Weruaga et al., “Speech Analysis with the Short-Time Chirp Transform”, Eurospeech 2003, 1 de septiembre de 2003, paginas 53 a 56, documento XP007006511.
En resumen, las tecnicas de deformacion de la tecnica anterior comparten los problemas de introducir discontinuidades en bordes de trama y de requerir una cantidad significativa de tasa de bits adicional para la transmision de los parametros que describen la variacion del tono de la senal.
Sumario de la invencion
Es el objetivo de esta invencion proporcionar un concepto para una codificacion mas eficaz de senales de audio usando deformacion en el tiempo.
La invencion se define en las reivindicaciones dependientes. Realizaciones ventajosas son la materia objeto de las reivindicaciones dependientes.
Segun un primer aspecto de la presente invencion, este objetivo se consigue mediante un codificador para derivar una representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama, comprendiendo el codificador: un estimador de deformacion para estimar primera informacion de deformacion para la primera y la segunda trama y para estimar una segunda informacion de deformacion para la segunda trama y la tercera trama, describiendo la informacion de deformacion una informacion de tono de la senal de audio; un analizador espectral para derivar primeros
5
10
15
20
25
30
35
40
45
50
55
60
coeficientes espectrales para la primera y la segunda trama usando la primera informacion de deformacion y para derivar segundos coeficientes espectrales para la segunda y la tercera trama usando la segunda informacion de deformacion; y una interfaz de salida para emitir la representacion de la senal de audio que incluye los primeros y los segundos coeficientes espectrales.
En el codificador, el estimador de deformacion puede estar operativo para estimar la informacion de deformacion usando informacion sobre la variacion del tono en las tramas.
En el codificador, el estimador de deformacion puede estar operativo para estimar la informacion de deformacion de manera que la informacion sobre la variacion del tono se usa unicamente cuando la variacion del tono es inferior a una variacion de tono maxima predeterminada.
En el codificador, el estimador de deformacion puede estar operativo para estimar la informacion de deformacion de manera que una representacion de tramas deformadas, la representacion deformada derivada de tramas que transforman el eje de tiempo de la senal de audio en las tramas como se indica por la informacion de deformacion, describe la misma longitud de la senal de audio que las tramas correspondientes.
En el codificador, el estimador de deformacion puede estar operativo para estimar la informacion de deformacion de manera que la informacion de deformacion comprende una secuencia de parametros de deformacion, en el que cada parametro de deformacion describe un intervalo de longitud finita de la senal de audio.
En el codificador, el analizador espectral puede estar adaptado para derivar los coeficientes espectrales usando una representacion ponderada de dos tramas.
En el codificador, el analizador espectral puede estar adaptado para derivar los coeficientes espectrales usando una representacion remuestreada de las tramas.
En el codificador, la interfaz de salida puede estar operativa para incluir adicionalmente la informacion de deformacion.
En el codificador, la interfaz de salida puede estar operativa para incluir adicionalmente una representacion cuantificada de la informacion de deformacion.
Segun un segundo aspecto de la presente invencion, este objetivo se consigue mediante un descodificador para reconstruir una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, usando primera informacion de deformacion, describiendo la primera informacion de deformacion una informacion de tono de la senal de audio para la primera y la segunda trama, segunda informacion de deformacion, describiendo la segunda informacion de deformacion una informacion de tono de la senal de audio para la segunda y la tercera trama, primeros coeficientes espectrales para la primera y la segunda trama y segundos coeficientes espectrales para la segunda y la tercera trama, comprendiendo el descodificador: un procesador de valores espectrales para derivar una primera trama combinada usando los primeros coeficientes espectrales y la primera informacion de deformacion, teniendo la primera trama combinada informacion sobre la primera y sobre la segunda trama; y para derivar una segunda trama combinada usando los segundos coeficientes espectrales y la segunda informacion de deformacion, teniendo la segunda trama combinada informacion sobre la segunda y la tercera trama; y un sintetizador para reconstruir la segunda trama usando la primera trama combinada y la segunda trama combinada.
En el descodificador, el procesador de valores espectrales puede estar operativo para usar funciones de base en coseno para derivar las tramas combinadas, dependiendo las funciones de base en coseno de la informacion de deformacion.
En el descodificador, el procesador de valores espectrales puede estar operativo para usar una funcion ventana para aplicar pesos a valores de muestra de las tramas combinadas, dependiendo la funcion ventana de la informacion de deformacion.
En el descodificador, el procesador de valores espectrales puede estar operativo para realizar una ponderacion de los coeficientes espectrales, aplicando factores de ponderacion predeterminados a los coeficientes espectrales.
Segun un tercer aspecto de la presente invencion, este objetivo se consigue mediante un metodo para derivar una representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama, comprendiendo el metodo: estimar una primera informacion de deformacion para la primera y la segunda trama y para estimar una segunda informacion de deformacion para la segunda trama y la tercera trama, describiendo la informacion de deformacion un tono de la senal de audio; derivar primeros coeficientes espectrales para la primera y la segunda trama usando la primera informacion de deformacion y para derivar segundos coeficientes espectrales para la segunda y la tercera trama
5
10
15
20
25
30
35
40
45
50
55
60
usando la segunda informacion de deformacion; y emitir la representacion de la senal de audio que incluye los primeros y los segundos coeficientes espectrales.
Segun un cuarto aspecto de la presente invencion, este objetivo se consigue mediante un metodo para reconstruir una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, usando una primera informacion de deformacion, describiendo la primera informacion de deformacion un tono de la senal de audio para la primera y la segunda trama, una segunda informacion de deformacion, describiendo la segunda informacion de deformacion un tono de la senal de audio para la segunda y la tercera trama, primeros coeficientes espectrales para la primera y la segunda trama y segundos coeficientes espectrales para la segunda y la tercera trama, comprendiendo el metodo: derivar una primera trama combinada usando los primeros coeficientes espectrales y la primera informacion de deformacion, teniendo la primera trama combinada informacion sobre la primera y sobre la segunda trama; y derivar una segunda trama combinada usando los segundos coeficientes espectrales y la segunda informacion de deformacion, teniendo la segunda trama combinada informacion sobre la segunda y la tercera trama; y reconstruir la segunda trama usando la primera trama combinada y la segunda trama combinada.
Segun un quinto aspecto de la presente invencion, este objetivo se consigue mediante una representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, comprendiendo la representacion primeros coeficientes espectrales para la primera y la segunda trama, describiendo los primeros coeficientes espectrales la composicion espectral de una representacion deformada de la primera y la segunda trama; y segundos coeficientes espectrales que describen una composicion espectral de una representacion deformada de la segunda y la tercera trama.
Segun un sexto aspecto de la presente invencion, esto se consigue mediante un programa informatico que tiene un codigo de programa para realizar, cuando se ejecuta en un ordenador, cualquiera de los metodos anteriores.
La presente invencion se basa en el descubrimiento de que una representacion espectral de una senal de audio que tiene tramas de audio consecutivas puede derivarse de una manera mas eficaz cuando se estima una deformacion en el tiempo comun para dos tramas contiguas cualquiera, de modo que una transformada de bloque siguiente puede usar adicionalmente la informacion de deformacion.
Por tanto, pueden derivarse y aplicarse las funciones de ventana requeridas para la aplicacion satisfactoria de un procedimiento de solapamiento y adicion durante la reconstruccion, anticipandose ya al remuestreo de la senal debido a la deformacion en el tiempo. Por tanto, la eficacia aumentada de la codificacion por transformadas basadas en bloques de senales deformadas en el tiempo puede usarse sin introducir discontinuidades audibles.
La presente invencion ofrece por tanto una solucion interesante a los problemas de la tecnica anterior. Por un lado, se supera el problema relacionado con la segmentacion de la senal de audio por una tecnica particular de solapamiento y adicion, que integra las operaciones de deformacion en el tiempo con la operacion ventana e introduce un desfase de tiempo de la transformada de bloque. Las transformadas de tiempo continuo resultantes tienen una capacidad de reconstruccion perfecta y sus partes opuestas de tiempo discreto solo estan limitadas por la calidad de la tecnica de remuestreo aplicada del descodificador durante la reconstruccion. Esta propiedad da como resultado una convergencia de tasa de bits alta del esquema de codificacion de audio resultante. Principalmente es posible conseguir una transmision sin perdidas de la senal disminuyendo la imprecision de la cuantificacion, es decir, aumentando la tasa de bits de transmision. Esto no puede conseguirse, por ejemplo, con metodos de codificacion puramente parametricos.
Otra ventaja de la presente invencion es una disminucion considerable de la demanda de tasa de bits de la informacion adicional que requiere transmitirse para invertir la deformacion en el tiempo. Esto se consigue transmitiendo informacion secundaria de parametros de deformacion en vez de informacion secundaria de tono. Esto tiene la ventaja adicional de que la presente invencion muestra solo un ligero grado de dependencia de parametros al contrario que la dependencia cntica de la deteccion de tono correcta para muchos metodos de codificacion de audio basados en parametros de tono. Esto es porque la transmision de parametros de tono requiere la deteccion de la frecuencia fundamental de una senal localmente armonica, que no siempre puede conseguirse facilmente. El esquema de la presente invencion es por tanto muy robusto, puesto que evidentemente la deteccion de un armonico superior no falsifica el parametro de deformacion que va a transmitirse, dada la definicion del parametro de deformacion anterior.
En una realizacion de la presente invencion, se aplica un esquema de codificacion para codificar una senal de audio dispuesta en tramas consecutivas, y en particular una primera, una segunda y una tercera trama que siguen una a la otra. La informacion completa sobre la senal de la segunda trama se proporciona por una representacion espectral de una combinacion de la primera y la segunda trama, una secuencia de parametros de deformacion para la primera y la segunda trama asf como por una representacion espectral de una combinacion de la segunda y la tercera trama y una secuencia de parametros de deformacion para la segunda y la tercera trama. El uso del concepto de la
5
10
15
20
25
30
35
40
45
50
55
60
invencion de deformacion en el tiempo permite una reconstruccion de solapamiento y adicion de la senal sin tener que introducir variaciones de tono rapidas en los bordes de trama y la introduccion resultante de discontinuidades audibles adicionales.
En otra realizacion de la presente invencion, la secuencia de parametros de deformacion se deriva usando algoritmos de seguimiento de tono bien conocidos, permitiendo el uso de esos algoritmos bien conocidos y por tanto la implementacion sencilla de la presente invencion en esquemas de codificacion ya existentes.
En otra realizacion de la presente invencion, la deformacion se implementa de modo que el tono de la senal de audio en las tramas sea lo mas constante posible, cuando la senal de audio esta deformada en el tiempo tal como se indica por los parametros de deformacion.
En otra realizacion de la presente invencion, la tasa de bits se disminuye incluso mas a expensas de una complejidad computacional superior durante la codificacion cuando se elige la secuencia de parametros de deformacion de modo que se minimiza el tamano de una representacion codificada de los coeficientes espectrales.
En otra realizacion de la presente invencion, la descodificacion y codificacion de la invencion se descomponen en la aplicacion de una funcion ventana (aplicacion de funcion ventana, windowing), un remuestreo y una transformada de bloque. La descomposicion tiene la gran ventaja de que, especialmente para la transformada, pueden usarse implementaciones de software y hardware ya existentes para implementar de manera eficaz el concepto de codificacion de la invencion. En el lado del descodificador, se introduce otra etapa independiente adicional de solapamiento y adicion para reconstruir la senal.
En una realizacion alternativa de un descodificador de la invencion, se aplica ponderacion espectral adicional a los coeficientes espectrales de la senal antes de la transformacion en el dominio de tiempo. Esto tiene la ventaja de disminuir adicionalmente la complejidad computacional en el lado del descodificador, porque asf puede disminuirse la complejidad computacional del remuestreo de la senal.
El termino “tono” debe interpretarse en un sentido general. Este termino tambien cubre una variacion de tono en conexion con lugares en relacion a la informacion de deformacion. Puede haber una situacion en la que la informacion de deformacion no de acceso a un tono absoluto, pero a informacion de tono relativo o normalizado. Asf, dada una informacion de deformacion puede llegarse a una descripcion del tono de la senal, cuando se acepta obtener una forma de curva de tono correcta sin valores en el eje y.
Breve descripcion de los dibujos
A continuacion se describen realizaciones preferidas de la presente invencion con referencia a los dibujos adjuntos, en los que:
La figura 1 Las figuras 2 a 2b Las figuras 3a, 3b Las figuras 4a, 4b Las figuras 5a, 5b
Las figuras 6a, 6b
La figura 7
La figura 8 La figura 9 La figura 10 La figura 11
La figura 12
La figura 13 La figura 14 Las figuras 15a, 15b
muestra un ejemplo de mapas de deformacion de la invencion;
muestran la aplicacion de una ventana dependiente de la deformacion de la invencion;
muestran un ejemplo del remuestreo de la invencion;
muestran un ejemplo de la smtesis de senales de la invencion en el lado del descodificador; muestran un ejemplo de la aplicacion de funcion ventana de la invencion en el lado del descodificador;
muestran un ejemplo de la deformacion en el tiempo de la invencion en el lado del descodificador;
muestra un ejemplo de un procedimiento de solapamiento y adicion de la invencion en el lado del descodificador;
muestra un ejemplo de un codificador de audio de la invencion; muestra un ejemplo de un descodificador de audio de la invencion; muestra otro ejemplo de un descodificador de la invencion;
muestra un ejemplo de una implementacion compatible hacia atras de los conceptos de la invencion;
muestra un diagrama de bloques para una implementacion de la codificacion de la invencion;
muestra un diagrama de bloques para un ejemplo de la descodificacion de la invencion; muestra un diagrama de bloques de otra realizacion de la descodificacion de la invencion; muestran una ilustracion de la eficacia de codificacion que puede conseguirse implementando el concepto de la invencion.
Descripcion detallada de las realizaciones preferidas
Las realizaciones descritas a continuacion son meramente ilustrativas de los principios de la presente invencion para
5
10
15
20
25
30
35
40
45
50
55
la codificacion por transformada deformada en el tiempo de senales de audio. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento seran evidentes para otros expertos en la tecnica. Por tanto, se pretende una limitacion solo por el alcance de las reivindicaciones inminentes de patente y no por los detalles espedficos presentados a modo de descripcion y explicacion de las realizaciones en el presente documento.
A continuacion, se revisan brevemente los conceptos e ideas basicos de transformadas de bloque y deformacion para motivar el concepto de la invencion, que se analizara posteriormente con mas detalle, haciendo referencia a las figuras adjuntas.
En general, los detalles espedficos de la transformada deformada en el tiempo pueden derivarse de la manera mas sencilla en el dominio de senales de tiempo continuo. Los siguientes parrafos describen la teona general, que a continuacion se especializara y convertira posteriormente en su aplicacion de la invencion a senales de tiempo discreto. La etapa principal en esta conversion es sustituir el cambio de coordenadas realizado en senales de tiempo continuo con un remuestreo no uniforme de senales de tiempo discreto de modo que se conserve la densidad de muestra media, es decir, que no se altere la duracion de la senal de audio.
Supongamos que s=yt) describe un cambio de coordenada de tiempo descrito por una funcion y estrictamente creciente continuamente diferenciable, que mapea el intervalo I de eje t con el intervalo J de eje s.
y(t) es por tanto una funcion que puede usarse para transformar el eje de tiempo de una cantidad dependiente del tiempo, que es equivalente a un remuestreo en el caso discreto de tiempo. Debena indicarse que en el siguiente analisis, el intervalo I de eje t es un intervalo en el dominio de tiempo normal y el intervalo J de eje x es un intervalo en el dominio de tiempo deformado.
Dada una base {va} ortonormal para senales de energfa finita en el intervalo J, se obtiene una base {ua} ortonormal para senales de energia finita en el intervalo / por la regia
««(') = (/(O''2 v.gko). (l)
Dado un intervalo I de tiempo infinito, puede conseguirse especificacion local de deformacion en el tiempo segmentando I y a continuacion construyendo y uniendo entre sf partes reajustadas a escala de mapas de deformacion normalizados.
Un mapa de deformacion normalizado es una funcion estrictamente creciente y continuamente diferenciable que mapea el intervalo [0,1] de unidad consigo misma. Comenzando desde una secuencia de puntos t=tk de segmentacion donde tk+i > tk, y una secuencia correspondiente de mapas y de deformacion normalizados se construye
imagen1
donde dk=Sk+i-Sk y la secuencia dk se ajusta de modo que yt) se hace continuamente diferenciable. Esto define y(t) a partir de la secuencia de mapas yk de deformacion normalizados hasta un cambio afm de escala del tipo Ayt)+B.
Supongamos que {vkn} es una base ortonormal para senales de energfa finita en el intervalo J, adaptada a la segmentacion Sk=y(tk), en el sentido de que hay un numero entero K, el factor de solapamiento, de modo que Vkn(s) = 0 si s<sk o s>sk+k
La presente invencion se centra en casos en los que K > 2, puesto que el caso en el que K = 1 corresponde a los metodos de la tecnica anterior sin solapamiento. Debena indicarse que actualmente no se conocen muchas construcciones para K > 3. A continuacion se desarrollara un ejemplo particular para el concepto de la invencion para el caso en el que K = 2, que incluye bases trigonometricas locales que tambien se usan en transformadas de coseno discretas modificadas (MDCT, Modified Discrete Cosine Transform) y otras transformadas discretas solapadas en el tiempo.
Supongamos que la construccion de {v^n} de la segmentacion es local, en el sentido de que hay un numero entero p, de modo que v^n(s) no depende de s, para l<k-pl>k+K+p. Finalmente, supongamos que la construccion es tal que un cambio afm de segmentacion a /As^+B da como resultado un cambio de la base a A'12Vk,n((s-B)IA). Entonces
5
10
15
20
25
30
35
40
es una base ortonormal deformada en el tiempo para senales de ene^a finita en el intervalo I, que esta bien definida a partir de los puntos tk de segmentacion y la secuencia de mapas yy de deformacion normalizados independiente de la inicializacion de las secuencias Sk y dk de parametros en (2). Esta adaptada a la segmentacion dada en el sentido de que Uk,n(t)=0 si t<tk o t>tk+k, y esta definida localmente en el sentido de que Uk,n(t) no depende ni de ti para l<k-p o l>k+K+p, ni de los mapas y de deformacion normalizados para l<k-p o l>k+K+p.
Las formas de onda (3) de smtesis son continuas pero no necesariamente diferenciables, debido al factor jacobiano (y'(t))1/2. Por este motivo, y para reducir la carga computacional en el caso de tiempo discreto, tambien puede construirse un sistema biortogonal derivado. Supongamos que hay constantes 0<C-i<C2 de modo que
C,77* <</(') tk<t< titK
para una secuencia rjk>0. Entonces
/*„( 0 =7
&„(0='/(Ok1'2 v4/1(K0)-
define un par biortogonal de bases de Riesz para el espacio de senales de energfa finita en el intervalo I.
(4)
(5)
Asf, fk,n(t) asf como gk,n(t) pueden usarse para analisis, mientras que es particularmente ventajoso usar fk,n(t) como formas de onda de smtesis y gk,n(t) como formas de onda de analisis.
Basandose en las consideraciones generales anteriores, se derivara un ejemplo del concepto de la invencion en los parrafos posteriores para el caso de una segmentacion uniforme tk=k y un factor de solapamiento K=2, usando una base de coseno local adaptada a la segmentacion resultante en el eje s.
Debena indicarse que las modificaciones necesarias para tratar con segmentaciones no uniformes son obvias de modo que el concepto de la invencion tambien puede aplicarse tales segmentaciones no uniformes. Tal como propone por ejemplo M.W. Wickerhauser, “Adapted wavelet analysis from theory to software”, A. K. Peters, 1994, capttulo 4, un punto de inicio para formar una base de coseno local es una funcion p de corte ascendente de modo que pr)=0 para r<-1, pr)=1 para r>1, y pr)2+p-r)2=1 en la region activa -1<r<1.
imagen2
con puntos medios de corte Ck=(Sk+Sk+i)/2 y radios de corte sk=(Sk+i-Sk)/2. Esto corresponde a la construccion de punto medio de Wickerhauser.
imagen3
donde el mdice de frecuencia n=0,1,2,... Es facil de verificar que esta construccion obedece a la condicion de localidad con p<=0 e invariante afm descrita anteriormente. La base (3) deformada resultante en el eje t puede reescribirse en este caso en forma
uks (0 = V2#('-*)6* (& - *)) cos[^(n + }) ( A(f - fc)- mk )], (8)
para k<t<k+2, donde fa se define uniendo entre s^ y y yk+i para formar un mapa continuamente diferenciable del intervalo [0,2] consigo mismo,
5
10
15
20
25
30
35
40
imagen4
La construccion de w se ilustra en la figura 1, que muestra el tiempo normalizado en el eje x y el tiempo deformado en el eje y. La figura 1 debena considerarse particularmente para el caso en el que k = 0, es decir para formar $)(t) y por tanto derivar una funcion de deformacion para una primera trama 10, que dura desde el tiempo normalizado 0 hasta el tiempo normalizado 1 y para una segunda trama 12 que dura desde el tiempo normalizado 1 hasta el tiempo normalizado 2. Se supone ademas que la primera trama 10 tiene una funcion 14 de deformacion y la segunda trama 12 tiene una funcion 16 de deformacion, derivadas con el fin de conseguir el mismo tono en las tramas individuales, cuando el eje de tiempo se transforma tal como se indica por las funciones 14 y 16 de deformacion. Debena indicarse que la funcion 14 de deformacion corresponde a w y la funcion 16 de deformacion corresponde a w. Segun la ecuacion 9, se construye una funcion 18 fo(t) de deformacion combinada uniendo entre si los mapas 14 y 16 de deformacion para formar un mapa continuamente diferenciable del intervalo [0,2] consigo mismo. Como resultado, el punto (1,1) se transforma en (1,a), donde a corresponde a 2mk en la ecuacion 9.
Puesto que el concepto de la invencion se dirige a la aplicacion de deformacion en el tiempo en un escenario de solapamiento y adicion, el ejemplo de formar la siguiente funcion deformada combinada para la trama 12 y la trama 20 siguiente tambien se da en la figura 1. Debena indicarse que a continuacion del principio de solapamiento y adicion, para la reconstruccion completa de la trama 12, se requiere conocer ambas funciones 18 y 22 de deformacion.
Debena indicarse ademas que unir entre si dos funciones de deformacion derivadas independientemente no es necesariamente la unica manera de derivar una funcion ^ de deformacion combinada adecuada. (18, 22) como ^ tambien puede derivarse muy bien ajustando directamente una funcion de deformacion adecuada a dos tramas consecutivas. Se prefiere tener una consistencia afm de las dos funciones de deformacion en el solapamiento de sus dominios de definicion.
imagen5
Una version biortogonal de (8) tambien puede derivarse si hay constantes 0<C-i<C2, de modo que
C,£#tO£C2, 0</<2,
para todo k. La seleccion tjk=lk en (4) Neva a la especializacion de (5) a
/*„( 0 =>/2A (M* - *))cos[/T(n + £)(&(/-k)-»»*)];
- • (12)
&„(') = V2V; (/-£)£* (M - *))cos[»(»» + ±)(&<f-*)-w*)].J
Por tanto, para el caso de tiempo continuo, se derivan funciones de smtesis y analisis (ecuacion 12), que son dependientes de la funcion deformada combinada. Esta dependencia permite la deformacion en el tiempo en un escenario de solapamiento y adicion sin perdida de informacion en la senal original, es decir, permite una reconstruccion perfecta de la senal.
Puede indicarse que para fines de implementacion, las operaciones realizadas en la ecuacion 12 pueden descomponerse en una secuencia de etapas de procesamiento individuales consecutivas. Una forma particularmente interesante de hacerlo es realizar primero una aplicacion de funcion ventana a la senal, seguida por un remuestreo de la senal a la que se le ha aplicado una funcion ventana y finalmente por una transformacion.
5
10
15
20
25
30
35
Como es habitual, las senales de audio se almacenan y transmiten digitalmente como valores de muestra discretos muestreados con una frecuencia de muestreo dada, el ejemplo dado para la implementacion del concepto de la invencion se desarrollara a continuacion adicionalmente para la aplicacion en el caso discreto.
La transformada de coseno discreta modificada deformada en el tiempo (TWMDCT, time-warped modified discrete cosine transform) puede obtenerse a partir de una base de coseno local deformado en el tiempo discretizando formas de onda de smtesis e integrales de analisis. La siguiente descripcion se basa en la base biortogonal (vease la ecuacion 12). Los cambios requeridos para tratar con el caso ortogonal (8) consisten en una ponderacion en el
dominio de tiempo adicional por el factor jacobiano *) • e| caso eSpecja| en el que no se aplica
deformacion, ambas construcciones se reducen a la MDCT convencional. Supongamos que L es el tamano de transformada y supongamos que la senal x(t) que va a analizarse esta limitada con respecto a la banda por qnL (rad/s) para algun q<1. Esto permite describir la senal por sus muestras en el periodo de muestreo 1/L.
Los coeficientes de analisis vienen dados por
imagen6
Definir la parte Xk(r)=x(r+k)bk(^<(T) de la senal a la que se le ha aplicado una funcion ventana y realizar sustituciones T=t-k y r=^(z) en la integral (13) Neva a
imagen7
Una forma particularmente interesante de discretizar esta integral ensenada por la presente invencion es seleccionar
r = ry = mk+(v+±)/L ,
los puntos de muestra, donde a v se le da un valor de numero entero. Suponiendo
deformacion ligera y la limitacion de banda descrita anteriormente, esto proporciona la aproximacion
donde
imagen8
El intervalo de suma en (15) se define por 0<v<2. Incluye v=0,1,..., L-1 y se extiende mas alla de este intervalo en cada extremo de modo que el numero total de puntos es 2L. Observese que debido a la aplicacion de funcion ventana, el resultado es insensible al tratamiento de los casos de borde, que pueden producirse si
^=<V0+i)/I
para algun numero vo entero.
Como se conoce bien que la suma (ecuacion 15) puede calcularse mediante operaciones de plegado elementales seguidas por una DCT de tipo IV, puede ser apropiado descomponer las operaciones de la ecuacion 15 en una serie de operaciones y transformaciones posteriores para utilizar implementaciones de hardware y software eficaces ya existentes, particularmente de DCT (Discrete Cosine Transform, transformada de coseno discreta). Segun la integral discretizada, una senal de tiempo discreto dada puede interpretarse como las muestras equidistantes en periodos 1/L de muestreo de x(t). Una primera etapa de aplicacion de funcion ventana llevaria entonces a:
imagen9
5
10
15
20
25
30
35
40
45
50
55
60
para p=0,1,2,...,2L-1. Antes de la transformacion por bloques tal como se describe por la ecuacion 15 (introduciendo un desfase adicional que depende de rrik), se requiere un remuestreo, mapeando
imagen10
La operacion de remuestreo puede realizarse mediante cualquier metodo adecuado para remuestreo no equidistante.
En resumen, la MDCT deformada en el tiempo de la invencion puede descomponerse en una operacion de aplicacion de funcion ventana, un remuestreo y una transformada de bloque.
Las etapas individuales se describiran brevemente a continuacion con referencia a las figuras 2 a 3b. Las figuras 2 a 3b muestran las etapas de codificacion MDCT deformada en el tiempo considerando solo dos bloques de senales con aplicacion de funcion ventana de una senal con tono generado sinteticamente. Cada trama individual comprende 1024 muestras de modo que cada una de dos tramas 24 y 26 combinadas consideradas (tramas 30 y 32 originales y tramas 32 y 34 originales) consiste en 2048 muestras de modo que las dos tramas combinadas a las que se les ha aplicado una funcion ventana tienen un solapamiento de 1024 muestras. Las figuras 2 a 2b muestran en el eje x el tiempo normalizado de 3 tramas que van a procesarse. La primera trama 30 oscila entre 0 y 1, la segunda trama 32 oscila entre 1 y 2, y la trama 3 oscila entre 2 y 3 en el eje de tiempo. Por tanto, en el dominio de tiempo normalizado, cada unidad de tiempo corresponde a una trama completa que tiene 1024 muestras de senal. Las ventanas de analisis normalizadas abarcan los intervalos [0,2] y [1,3] de tiempo normalizados. El objetivo de las consideraciones siguientes es recuperar la trama 32 intermedia de la senal. Puesto que la reconstruccion de las tramas (30, 34) de senal externas requiere datos de segmentos de senal con aplicacion de funcion ventana adyacentes, no se considerara esta reconstruccion en este caso. Puede observarse que los mapas de deformacion combinados mostrados en la figura 1 son mapas de deformacion derivados de la senal de la figura 2, que ilustra la combinacion de la invencion de tres mapas de deformacion normalizados posteriores (curvas con puntos) en dos mapas de deformacion de solapamiento (curvas continuas). Tal como se explico anteriormente, los mapas 18 y 22 de deformacion combinados de la invencion se derivan para el analisis de senal. Ademas, puede observarse que debido a la invariante de deformacion afm, esta curva representa un mapa deformado con la misma deformacion que en los dos segmentos originales.
La figura 2 ilustra la senal original mediante un grafico continuo. Su tren de pulsos estilizado tiene un tono que crece linealmente con el tiempo, asf, tiene una deformacion positiva y decreciente considerando que esa deformacion esta definida de modo que es la derivada logantmica del tono. En la figura 2, las ventanas de analisis de la invencion derivadas usando la ecuacion 17 estan superpuestas como curvas con puntos. Debena indicarse que la desviacion de ventanas simetricas convencionales (como por ejemplo en MDCT) es la mayor cuando la deformacion es la mayor, es decir, en el primer segmento [0,1]. La definicion matematica de las ventanas solas viene dada por el remuestreo de las ventanas de la ecuacion 11, remuestreo implementado como se expresa por el segundo factor del lado derecho de la ecuacion 17.
Las figuras 2a y 2b ilustran el resultado de la aplicacion de una funcion ventana de la invencion, aplicando las ventanas de la figura 2 a los segmentos de senal individuales.
Las figuras 3a y 3b ilustran el resultado del remuestreo dependiente de los parametros de deformacion de los bloques de senales con aplicacion de funcion ventana de las figuras 2a y 2b, el remuestreo realizado como se indica por los mapas de deformacion dados por las curvas continuas de la figura 1. El intervalo [0,1] de tiempo normalizado se mapea con el intervalo [0,a] de tiempo deformado, que es equivalente a una compresion de la mitad izquierda del bloque de senales con aplicacion de funcion ventana. En consecuencia, se realiza una expansion de la mitad derecha del bloque de senales con aplicacion de funcion ventana, mapeando el intervalo [1,2] a [a,2]. Debido a que el mapa de deformacion se deriva de la senal con el objetivo de derivar la senal deformada con tono constante, el resultado de la deformacion (remuestreo segun la ecuacion 18) es un bloque de senales con aplicacion de funcion ventana que tiene un tono constante. Debena indicarse que una falta de coincidencia entre el mapa deformado y la senal llevana a un bloque de senales con un tono aun variable en este punto, que no afectana a la reconstruccion final.
El desfase de la siguiente transformada de bloque esta marcado por drculos de modo que el intervalo [m, m+1] corresponde a las muestras v = 1,0,...L-1 discretas con L = 1024 en la formula 15. Esto significa de forma equivalente que las formas de onda de modulacion de la transformada de bloque comparten un punto de simetna par en m y un punto de simetna impar en m+1. Ademas es importante indicar que a es igual a 2m de modo que m es el punto medio entre 0 y a y m+1 es el punto medio entre a y 2. En resumen, las figuras 3a y 3b describen la situacion despues del remuestreo de la invencion descrito por la ecuacion 18 que, evidentemente, depende de los parametros de deformacion.
Entonces se cuantifican y codifican muestras de dominio de transformada deformada en el tiempo de las senales de las figuras 3a y 3b y pueden transmitirse conjuntamente con informacion secundaria de deformacion que describe mapas yy de deformacion normalizados a un descodificador. Debido a que la cuantificacion es una tecnica 5 comunmente conocida, la cuantificacion utilizando una regla de cuantificacion espedfica no se ilustra en las siguientes figuras, centrandose en la reconstruccion de la senal en el lado del descodificador.
10
20
25
En una realizacion de la presente invencion, el descodificador recibe la secuencia de mapas de deformacion junto con muestras dk}n’ de dominio de transformada deformada en el tiempo descodificadas, donde puede suponerse que dk,n =0 para n > L debido a la limitacion de banda supuesta de la senal. Como en el lado del codificador, el punto de partida para conseguir smtesis de tiempo discreto debena ser considerar la reconstruccion de tiempo continuo usando las formas de onda de smtesis de la ecuacion 12:
15
imagen11
que se calcula facilmente mediante las siguientes etapas: en primer lugar, una DCT de tipo IV seguida por la extension en 2L en muestras que dependen del parametro mk de desfase segun la regla 0<rv<2. A continuacion, se realiza una aplicacion de funcion ventana con la ventana bk{rv). Una vez encontrado Zk(rv), el remuestreo
imagen12
proporciona el segmento y* de senal en puntos solapamiento y adicion descrita en la formula (19).
El metodo de remuestreo puede elegirse de nuevo muy libremente y no tiene que ser el mismo que en el codificador.
30 En una realizacion de la presente invencion se usan metodos basados en interpolacion por splines, en los que el orden de las funciones de splines puede ajustarse como una funcion de un parametro q de limitacion de banda para conseguir un compromiso entre la complejidad computacional y la calidad de la reconstruccion. Un valor comun del parametro q es q = 1/3, un caso en el que con frecuencia seran suficientes splines cuadraticos.
35 La descodificacion se ilustrara a continuacion mediante las figuras 4a a 7 para la senal mostrada en las figuras 3a y 3b. Se destacara de nuevo que la transformada de bloque y la transmision de los parametros de transformada no se describe en este punto, ya que es una tecnica comunmente conocida. Como inicio para el proceso de descodificacion, las figuras 4a y 4b muestran una configuracion, en la que ya se ha realizado la transformada de bloque inversa, dando como resultado las senales mostradas en las figuras 4a y 4b. Una caractenstica importante 40 de la transformada de bloque inversa es la adicion de componentes de senal no presentes en la senal original de las figuras 3a y 3b, que es debido a las propiedades de simetna de las funciones de smtesis ya explicadas anteriormente. En particular, la funcion de smtesis tiene una simetna par con respecto a m y una simetna impar con respecto a m+1. Por tanto, en el intervalo [0,a], se anaden componentes de senal positivas en la transformada de bloque inversa mientras que en el intervalo [a,2], se anaden componentes de senal negativas. Adicionalmente, la 45 funcion ventana de la invencion usada para la operacion de aplicacion de funcion ventana de smtesis se superpone
5
10
15
20
25
30
35
40
45
50
55
60
como una curva de puntos en las figuras 4a y 4b.
La definicion matematica de esta ventana de smtesis en el dominio de tiempo deformado viene dada por la ecuacion 11. Las figuras 5a y 5b muestran la senal, aun en el dominio de tiempo deformado, tras la aplicacion de funcion ventana de la invencion.
Las figuras 6a y 6b muestran finalmente el resultado del remuestreo dependiente de los parametros de deformacion de las senales de las figuras 5a y 5b.
Finalmente, la figura 7 muestra el resultado de la operacion de solapamiento-y-adicion, que es la etapa final en la smtesis de la senal (vease la ecuacion 19). La operacion de solapamiento-y-adicion es una superposicion de las formas de onda de las figuras 6a y 6b. Tal como ya se menciono anteriormente, la unica trama que debe reconstruirse completamente es la trama 32 intermedia, y, una comparacion con la situacion original de la figura 2 muestra que la trama 32 intermedia se reconstruye con alta fidelidad. La cancelacion precisa de las componentes de senal de adicion perturbadoras introducidas durante la transformada de bloque inversa solo es posible porque es una propiedad crucial de la presente invencion que los dos mapas 14 y 22 deformados combinados en la figura 1 difieren solo por un mapa afm dentro del intervalo [1,2] de tiempo normalizado de solapamiento. Una consecuencia de esto es que existe una correspondencia entre partes de senal y ventanas en los segmentos [a,2] y [1,b] de tiempo deformado. Cuando se consideran las figuras 4a y 4b, un alargamiento lineal de los segmentos [1,b] en [a,2] hara por tanto que los graficos de senal y las mitades de ventana describan el principio bien conocido de cancelacion de solapamiento en el dominio de tiempo de la MDCT convencional. La senal, en la que ya se ha cancelado el solapamiento, puede mapearse entonces simplemente sobre el intervalo [1,2] de tiempo normalizado mediante un mapa de deformacion inverso comun.
Puede observarse que, segun una realizacion adicional de la presente invencion, puede conseguirse una reduccion adicional de complejidad computacional mediante la aplicacion de una etapa de filtrado previo en el dominio de frecuencia. Esto puede implementarse mediante una ponderacion previa simple de los valores dkn de muestra transmitidos. Un filtrado previo de este tipo se describe por ejemplo en M. Unser, A. Aldroubi, y M. Eden, “B-spline signal processing part II-efficient design and applications”. Una implementacion requiere aplicar un remuestreo de B- splines al resultado de la transformada de bloque inversa antes de la operacion de aplicacion de funcion ventana. En esta realizacion, el remuestreo opera sobre una senal tal como se deriva mediante la ecuacion 22 habiendo modificado d^n. La aplicacion de la funcion bk(rv) ventana tampoco se realiza. Por tanto, en cada extremo del segmento de senal, el remuestreo debe considerar las condiciones de borde en terminos de periodicidades y simetrias inducidas por la seleccion de la transformada de bloque. La aplicacion de funcion ventana requerida se
realiza entonces despues del remuestreo usando la ventana
En resumen, segun una primera realizacion de un descodificador de la invencion, la MDCT deformada en el tiempo inversa comprende, cuando se descompone en etapas individuales:
• transformada inversa
• aplicacion de funcion ventana
• remuestreo
• solapamiento y adicion.
Segun una segunda realizacion de la presente invencion la MDCT deformada en el tiempo inversa comprende:
ponderacion espectral transformada inversa remuestreo
aplicacion de funcion ventana solapamiento y adicion.
Puede observarse que en caso de que no se aplique deformacion, es decir, el caso en el que todos los mapas de deformacion normalizados son triviales, (yk(t)=t), la realizacion de la presente invencion tal como se detallo anteriormente coincide exactamente con la MDCT habitual.
Ahora se describiran realizaciones adicionales de la presente invencion que incorporan las caractensticas mencionadas anteriormente con referencia a las figuras 8 a 15.
La figura 8 muestra un ejemplo de un codificador de audio de la invencion que recibe una senal 100 de audio digital como entrada y que genera un flujo de bits que va a transmitirse a un descodificador que incorpora el concepto de codificacion de transformada deformada en el tiempo de la invencion. La senal 100 de entrada de audio digital puede ser o bien una senal de audio natural o bien una senal de audio preprocesada, en la que por ejemplo el
13
imagen13
5
10
15
20
25
30
35
40
45
50
55
60
preprocesamiento podna ser una operacion de blanqueo para blanquear el espectro de la senal de entrada. El codificador de la invencion incorpora un extractor 101 de parametros de deformacion, un transformador 102 de deformacion, un calculador 103 de modelo perceptual, un codificador 104 de deformacion, un codificador 105, y un multiplexor 106. El extractor 101 de parametros de deformacion estima una secuencia de parametros de deformacion, que se introduce en el transformador 102 de deformacion y en el codificador 104 de deformacion. El transformador 102 de deformacion deriva una representacion espectral deformada en el tiempo de la senal 100 de entrada de audio digital. La representacion espectral deformada en el tiempo se introduce en el codificador 105 para cuantificacion y otra posible codificacion, como por ejemplo codificacion diferencial. El codificador 105 se controla adicionalmente por el calculador 103 de modelo perceptual. Asf, por ejemplo, la imprecision de cuantificacion puede aumentarse cuando deben codificarse componentes de senal que estan enmascaradas principalmente por otras componentes de senal. El codificador 104 de deformacion codifica la secuencia de parametros de deformacion para reducir su tamano durante la transmision en el flujo de bits. Esto podna comprender por ejemplo cuantificacion de los parametros o, por ejemplo, tecnicas de codificacion por entropfa o codificacion diferencial asf como esquemas de codificacion aritmetica.
El multiplexor 106 recibe la secuencia de parametros de deformacion codificada del codificador 104 de deformacion y una representacion espectral deformada en el tiempo codificada de la senal 100 de entrada de audio digital para multiplexar ambos datos en el flujo de bits emitido por el codificador.
La figura 9 ilustra un ejemplo de un descodificador de transformada deformada en el tiempo que recibe un flujo 200 de bits compatible para derivar una senal de audio reconstruida como salida. El descodificador comprende un demultiplexor 201, un descodificador 202 de deformacion, un descodificador 203, y un transformador 204 de deformacion inverso. El demultiplexor demultiplexa el flujo de bits en la secuencia de parametros de deformacion codificada, que se introduce en el descodificador 202 de deformacion. El demultiplexor demultiplexa ademas la representacion codificada de la representacion espectral deformada en el tiempo de la senal de audio, que se introduce en el descodificador 203 que es el inverso del codificador 105 correspondiente del codificador de audio de la figura 8. El descodificador 202 de deformacion deriva una reconstruccion de la secuencia de parametros de deformacion y el descodificador 203 deriva una representacion espectral deformada en el tiempo de la senal de audio original. La representacion de la secuencia de parametros de deformacion asf como la representacion espectral deformada en el tiempo se introducen en el transformador 204 de deformacion inverso que deriva una senal de salida de audio digital que implementa el concepto de la invencion de codificacion de transformada solapada deformada en el tiempo de senales de audio.
La figura 10 muestra una realizacion adicional de un descodificador de transformada deformada en el tiempo en el que la secuencia de parametros de deformacion se deriva en el propio descodificador. La realizacion alternativa mostrada en la figura 10 comprende un descodificador 203, un estimador 301 de deformacion, y un transformador 204 de deformacion inverso. El descodificador 203 y el transformador 204 de deformacion inverso comparten las mismas funcionalidades que los dispositivos correspondientes de la realizacion anterior y por tanto la descripcion de estos dispositivos en diferentes realizaciones es completamente intercambiable. El estimador 301 de deformacion deriva la deformacion real de la representacion espectral deformada en el tiempo emitida por el descodificador 203 combinando estimaciones de tono de dominio de frecuencia anteriores con una estimacion de tono de dominio de frecuencia actual. Por tanto, la secuencia de parametros de deformacion se senaliza de manera implfcita, lo que tiene la gran ventaja de que puede ahorrarse tasa de bits adicional porque no tiene que transmitirse informacion de parametros de deformacion adicional en el flujo de bits introducido en el descodificador. Sin embargo, la senalizacion implfcita de datos deformados esta limitada por la resolucion de tiempo de la transformada.
La figura 11 ilustra la compatibilidad hacia atras del concepto de la invencion, cuando se usan descodificadores de la tecnica anterior que no pueden soportar el concepto de la invencion de la descodificacion deformada en el tiempo. Un descodificador de este tipo no considerana la informacion de parametros de deformacion adicional, descodificando asf el flujo de bits en una senal de dominio de frecuencia alimentada a un transformador 401 inverso que no implementa ninguna deformacion. Puesto que el analisis de frecuencia realizado por la transformacion deformada en el tiempo en codificadores de la invencion esta bien alineado con la transformada que no incluye ninguna deformacion en el tiempo, un descodificador que ignore los datos de deformacion aun producina una salida de audio significativa. Esto se realiza a expensas de la calidad de audio degradada debida a la deformacion en el tiempo, que no se invierte en los descodificadores de la tecnica anterior.
La figura 12 muestra un diagrama de bloques del metodo de la invencion de transformacion deformada en el tiempo. La transformacion deformada en el tiempo de la invencion comprende aplicacion 501 de funcion ventana, remuestreo 502, y una transformacion 503 de bloque. En primer lugar, se aplica una funcion ventana a la senal de entrada con una secuencia de ventanas de solapamiento que depende de la secuencia de parametros de deformacion que sirve como entrada adicional para cada una de las etapas 501 a 503 de codificacion individuales. Cada segmento de senal de entrada al que se le ha aplicado una funcion ventana se remuestrea posteriormente en la etapa 502 de remuestreo, en la que se realiza un remuestreo tal como se indica por la secuencia de parametros de deformacion.
5
10
15
20
25
30
35
40
45
50
55
60
En la etapa 503 de transformacion de bloque, una transformada de bloque se deriva normalmente usando una transformada trigonometrica discreta bien conocida. La transformada se realiza por tanto en el segmento de senal al que se le ha aplicado una funcion ventana y remuestreado. Debe observarse que la transformada de bloque tambien depende de un valor de desfase, que se deriva de la secuencia de parametros de deformacion. Por tanto, la salida consiste en una secuencia de tramas de dominio de transformada.
La figura 13 muestra un diagrama de flujo de un metodo de transformada deformada en el tiempo inversa. El metodo comprende las etapas de transformacion 601 de bloque inversa, aplicacion 602 de una funcion ventana, remuestreo 603 y solapamiento y adicion 604. Cada trama de una senal de dominio de transformada se convierte en una senal de dominio de tiempo por la transformacion 601 de bloque inversa. Correspondiendo a la etapa de codificacion, la transformada de bloque depende de un valor de desfase derivado de la secuencia de parametros recibida que sirve como entrada adicional a la transformacion 601 de bloque inversa, la aplicacion 602 de una funcion ventana y el remuestreo 603. Al segmento de senal derivado por la transformacion 601 de bloque se le aplica posteriormente una funcion ventana en la etapa de aplicacion 602 de funcion ventana y se remuestrea en el remuestreo 603 usando la secuencia de parametros deformados. Finalmente, en el solapamiento y adicion 604 el segmento al que se le ha aplicado una funcion ventana y remuestreado se anade a los segmentos transformados previamente de manera inversa en una operacion de solapamiento y adicion habitual, dando como resultado una reconstruccion de la senal de salida de dominio de tiempo.
La figura 14 muestra una realizacion alternativa de un transformador deformado en el tiempo inverso de la invencion, que se implementa para reducir adicionalmente la complejidad computacional. El descodificador comparte parcialmente las mismas funcionalidades con el descodificador de la figura 13. Por tanto, la descripcion de los mismos bloques funcionales en ambas realizaciones es completamente intercambiable. La realizacion alternativa difiere de la realizacion de la figura 13 porque implementa una ponderacion 701 previa espectral antes de la transformacion 601 de bloque inversa. Esta ponderacion previa espectral fija es equivalente a un filtrado de dominio de tiempo con periodicidades y simetnas inducidas por la seleccion de la transformada de bloque. Una operacion de filtrado de este tipo es parte de ciertos metodos de remuestreo basados en splines, permitiendo una reduccion de la complejidad computacional del remuestreo 702 modificado posterior. Tal remuestreo debe realizarse ahora en un dominio de senal con periodicidades y simetnas inducidas por la seleccion de la transformada de bloque. Por tanto, una etapa 703 de aplicacion de funcion ventana modificada se realiza despues del remuestreo 702. Finalmente, en el solapamiento y adicion 604 el segmento al que se le ha aplicado una funcion ventana y remuestreado se anade al segmento transformado previamente de manera inversa en un procedimiento de solapamiento y adicion habitual proporcionando la senal de salida de dominio de tiempo reconstruida.
Las figuras 15a y 15b muestran la intensidad del concepto de la invencion de codificacion deformada en el tiempo, mostrando representaciones espectrales de la misma senal con y sin aplicacion de deformacion en el tiempo. La figura 15a ilustra una trama de lmeas espectrales que se originan a partir de una transformada de coseno discreta modificada con un tamano de transformada de 1024 de un segmento de senal de habla masculina muestreado a 16 kHz. La resolucion de frecuencia resultante es de 7,8 Hz y solo se trazan las primeras 600 lmeas para su ilustracion, correspondientes a un ancho de banda de 4,7 kHz. Tal como puede observarse a partir de la frecuencia fundamental y el grafico, el segmento es un sonido vocal con un tono medio de aproximadamente 155 Hz. Tal como puede observarse ademas a partir de la figura 15a, los pocos primeros armonicos de la frecuencia de tono son claramente distinguibles, pero hacia frecuencias altas, el analisis se hace cada vez mas denso y aleatorio. Esto se debe a la variacion del tono en la longitud del segmento de senal que va a analizarse. Por tanto, la codificacion de los intervalos de frecuencia media a alta requiere una cantidad sustancial de bits con el fin de no introducir artefactos audibles en la descodificacion. Por el contrario, cuando se fija la tasa de bits, inevitablemente se obtendra una cantidad sustancial de distorsion a partir de la demanda de aumentar la imprecision de la cuantificacion.
La figura 15b ilustra una trama de lmeas espectrales que se originan a partir de una transformada de coseno discreta modificada deformada en el tiempo segun la presente invencion. Evidentemente, se ha usado la misma senal de audio masculina original que en la figura 15a. Los parametros de transformada son los mismos que para la figura 15a, aunque el uso de una transformada deformada en el tiempo adaptada a la senal tiene el efecto drastico visible sobre la representacion espectral. El caracter poco denso y organizado de la senal en el dominio de transformada deformada en el tiempo proporciona una codificacion con un rendimiento de distorsion de tasa mucho mejor, incluso cuando se considera el coste de codificar los datos de deformacion adicionales.
Tal como ya se menciono, la transmision de parametros de deformacion en lugar de la transmision de informacion de velocidad o tono tiene la gran ventaja de disminuir de manera drastica la tasa de bits requerida. Por tanto, en los parrafos siguientes, se detallan varios esquemas de la invencion para transmitir la informacion de parametros de deformacion requerida.
Para una senal con una deformacion a(t) en un tiempo t, la seleccion optima de la secuencia yk de mapa de deformacion normalizado para las bases de coseno locales (veanse (8), (12)) se obtiene resolviendo
5
10
15
20
25
30
35
V'lO-k)
M-k)
= <t),
k£t <k+l
(24)
Sin embargo, la cantidad de informacion requerida para describir esta secuencia de mapas de deformacion es demasiado grande y la definicion y medicion de valores puntuales de a(t) es diffcil. Con fines practicos, se decide un intervalo At de actualizacion de deformacion y cada mapa y/k de deformacion se describe por N=1/At parametros. Un intervalo de actualizacion de deformacion de aproximadamente 10 a 20 ms es normalmente suficiente para senales del habla. De manera similar a la construccion en (9) de fa a partir de yy y yy+i, puede reconstruirse un mapa de deformacion normalizado continuamente diferenciable mediante N mapas de deformacion normalizados a traves de operaciones de reajuste a escala afines adecuadas. Ejemplos prototipo de mapas de deformacion normalizados incluyen
imagen14
donde a es un parametro de deformacion. Definiendo la deformacion de un mapa h(t) por h”/h\ los tres mapas consiguen una deformacion igual a a en t=1/2. El mapa exponencial tiene una deformacion constante en todo el intervalo 0<t<1, y para valores pequenos de a, los otros dos mapas muestran una desviacion muy pequena con respecto a este valor constante. Para un mapa de deformacion dado aplicado en el descodificador para el remuestreo (23), su inversa se requiere en el codificador para el remuestreo (ecuacion 18). Una parte principal del esfuerzo para la inversion se origina a partir de la inversion de los mapas de deformacion normalizados. La inversion de un mapa cuadratico requiere operaciones de rafz cuadrada, la inversion de un mapa exponencial requiere un logaritmo, y la inversa del mapa de Moebius racional es un mapa de Moebius con parametro de deformacion negado. Debido a que las funciones exponenciales y divisiones son comparablemente caras, una atencion a una facilidad maxima de calculo en el descodificador lleva a la seleccion preferida de una secuencia yy de mapas de deformacion cuadraticos por partes.
El mapa y/k de deformacion normalizado se define entonces completamente por N parametros ak(0),ak(1),..., ak(N-T) de deformacion por los requisitos de que
• es un mapa de deformacion normalizado;
• se reconstruye mediante copias reajustadas a escala de uno de los mapas (25) de deformacion prototipo uniformes;
• es continuamente diferenciable;
• cumple
imagen15
imagen16
(26)
La presente invencion ensena que los parametros de deformacion pueden cuantificarse linealmente, normalmente hasta un tamano de paso de aproximadamente 0,5 Hz. A continuacion se codifican los valores enteros resultantes. Como alternativa, la derivada y/\ puede interpretarse como una curva de tono normalizada en la que se cuantifican los valores
j
rt(0)
imagen17
(27)
hasta un tamano de paso fijo, normalmente de 0,005. En este caso, a los valores enteros resultantes se les aplica una codificacion diferencial adicional, secuencialmente o de manera jerarquica. En ambos casos, la tasa de bits de
5
10
15
20
25
30
35
40
45
50
informacion secundaria resultante es normalmente de unos pocos cientos de bits por segundo que es solo una fraccion de la tasa requerida para describir datos de tono en un codec del habla.
Un codificador con amplios recursos computacionales puede determinar la secuencia de datos de deformacion que de manera optima reduce el coste de codificacion o maximiza una medida de dispersion de lmeas espectrales. Un procedimiento menos caro es usar metodos bien conocidos para seguimiento del tono que dan como resultado una funcion p(t) de tono medida y luego aproximan la curva de altura tonal con una funcion po(t) lineal por partes en aquellos intervalos en los que existe el seguimiento de tono y no muestra grandes saltos en los valores de tono. La secuencia de deformacion estimada viene dada entonces por
m 2 p0((l +1)A/ + k)~ pa(lAl + k)
At p0((l + l)At + k) +p0(lAt+ k) '
en los intervalos de seguimiento de tono. Fuera de esos intervalos la deformacion se establece a cero. Observese que un error sistematico en las estimaciones de tono tal como una duplicacion del periodo de tono tiene un efecto muy reducido sobre las estimaciones de deformacion.
Tal como se ilustra en la figura 10, en una realizacion alternativa de la presente invencion, la secuencia de parametros deformados puede derivarse de los datos de dominio de transformada descodificados por un estimador de deformacion. El principio es calcular una estimacion de tono de dominio de frecuencia para cada trama de datos de transformada o de tonos de bloques de senales descodificadas posteriores. La informacion de deformacion se deriva entonces de una formula similar a la formula 28.
La aplicacion del concepto de la invencion se ha descrito principalmente aplicando la deformacion en el tiempo de la invencion en un escenario de canal de audio unico. El concepto de la invencion no esta limitado evidentemente de ningun modo al uso en un escenario monofonico de este tipo. Puede ser ademas extremadamente ventajoso usar la ganancia de codificacion alta que puede conseguirse mediante el concepto de la invencion en aplicaciones de codificacion multicanal, en las que el canal unico o multiple que tiene que transmitirse puede codificarse usando el concepto de la invencion.
Ademas, la deformacion podna definirse en general como una transformacion del eje x de una funcion arbitraria que depende de x. Por tanto, el concepto de la invencion tambien puede aplicarse a escenarios en los que funciones o la representacion de senales estan deformadas que no dependen explfcitamente del tiempo. Por ejemplo, tambien puede implementarse la deformacion de una representacion de frecuencia de una senal.
Ademas, el concepto de la invencion tambien puede aplicarse ventajosamente a senales que estan segmentadas con una longitud de segmento arbitraria y no con una longitud igual tal como se describio en los parrafos anteriores.
El uso de funciones base y la discretizacion presentada en los parrafos anteriores debe entenderse ademas como un ejemplo ventajoso de aplicar el concepto de la invencion. Para otras aplicaciones, tambien pueden usarse diferentes funciones base asf como diferentes discretizaciones. Dependiendo de ciertos requisitos de implementacion de los metodos de la invencion, los metodos de la invencion pueden implementarse en hardware o en software. La implementacion puede realizarse usando un medio de almacenamiento digital, en particular un disco, DVD o un CD que tenga senales de control legibles electronicamente almacenadas en el mismo, que funcionen conjuntamente con un sistema informatico programable de modo que se realicen los metodos de la invencion. En general, la presente invencion es, por tanto, un producto de programa informatico con un codigo de programa almacenado en un soporte legible por ordenador, estando operativo el codigo de programa para realizar los metodos de la invencion cuando el producto de programa informatico se ejecuta en un ordenador. En otras palabras, los metodos de la invencion son, por tanto, un programa informatico que tiene un codigo de programa para realizar al menos uno de los metodos de la invencion cuando el programa informatico se ejecuta en un ordenador.
Aunque lo anterior se ha mostrado y descrito particularmente con referencia a realizaciones particulares de la misma, los expertos en la tecnica entenderan que pueden realizarse diversos otros cambios en la forma y detalles sin apartarse del alcance de la misma.

Claims (26)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Codificador para derivar una representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama, comprendiendo el codificador:
    un estimador de deformacion para estimar primera informacion de deformacion para la primera y la segunda trama y para estimar segunda informacion de deformacion para la segunda trama y la tercera trama usando el ajuste de una funcion de deformacion a dos tramas consecutivas, describiendo la informacion de deformacion una informacion de tono de la senal de audio;
    un analizador espectral para derivar primeros coeficientes espectrales para la primera y la segunda trama usando la primera informacion de deformacion y para derivar segundos coeficientes espectrales para la segunda y la tercera trama usando la segunda informacion de deformacion; y
    una interfaz de salida para emitir la representacion de la senal de audio que incluye los primeros y los segundos coeficientes espectrales.
  2. 2. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que un tono en una representacion deformada de tramas, la representacion deformada derivada de tramas que transforma el eje de tiempo de la senal de audio en las tramas tal como se indica por la informacion de deformacion, es mas constante que un tono en las tramas.
  3. 3. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que una representacion espectral de una representacion deformada de una trama, la representacion deformada derivada de tramas que transforma el eje de tiempo de la senal de audio en las tramas como se indica por la informacion de deformacion, esta poblada con menos densidad que una representacion espectral de la trama.
  4. 4. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que un numero de bits consumidos por una representacion codificada de coeficientes espectrales de una representacion deformada de tramas, la representacion deformada derivada de tramas que transforma el eje de tiempo de la senal de audio en las tramas como se indica por la informacion de deformacion, es inferior a una representacion codificada de coeficientes espectrales de las tramas cuando ambas representaciones se derivan usando la misma regla de codificacion.
  5. 5. Codificador segun la reivindicacion 1, que esta adaptado para derivar una representacion de una senal de audio dada por una secuencia de valores de muestra discretos.
  6. 6. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que se combinan la primera informacion de deformacion intermedia de una primera trama correspondiente y la segunda informacion de deformacion intermedia de una segunda trama correspondiente usando una regla de combinacion.
  7. 7. Codificador segun la reivindicacion 6, en el que la regla de combinacion es de manera que se concatenan secuencias de parametros de deformacion reajustados a escala de la primera informacion de deformacion intermedia con secuencias de parametros de deformacion reajustados a escala de la segunda informacion de deformacion intermedia.
  8. 8. Codificador segun la reivindicacion 7, en el que la regla de combinacion es de manera que la informacion de deformacion resultante comprende una secuencia de parametros de deformacion continuamente diferenciable.
  9. 9. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de manera que la informacion de deformacion comprende una secuencia creciente de parametros de deformacion.
  10. 10. Codificador segun la reivindicacion 1, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de manera que la informacion de deformacion describe una regla de remuestreo continuamente diferenciable que mapea el intervalo [0,2] consigo mismo.
  11. 11. Codificador segun la reivindicacion 1, en el que el analizador espectral esta adaptado para derivar los coeficientes espectrales usando una base de coseno dependiendo de la informacion de deformacion.
  12. 12. Codificador segun la reivindicacion 1, en el que el analizador espectral esta adaptado para derivar los coeficientes espectrales usando una representacion ponderada de dos tramas aplicando una funcion ventana a las dos tramas, en el que la funcion ventana depende de la informacion de deformacion.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  13. 13. Codificador segun la reivindicacion 1, en el que el analizador espectral esta adaptado para derivar los coeficientes espectrales usando una representacion remuestreada de las tramas derivadas transformando el eje de tiempo de las tramas segun se indica por la informacion de deformacion.
  14. 14. Codificador segun la reivindicacion 1, en el que la informacion de deformacion derivada describe una variacion de tono de la senal de audio normalizada con respecto al tono de la senal de audio.
  15. 15. Codificador segun la reivindicacion 1, en el que la interfaz de salida esta operativa para incluir adicionalmente una representacion cuantificada de la informacion de deformacion.
  16. 16. Descodificador para reconstruir una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, usando primera informacion de deformacion, describiendo la primera informacion de deformacion una informacion de tono de la senal de audio para la primera y la segunda trama, segunda informacion de deformacion, describiendo la segunda informacion de deformacion una informacion de tono de la senal de audio para la segunda y la tercera trama, primeros coeficientes espectrales para la primera y la segunda trama y segundos coeficientes espectrales para la segunda y la tercera trama, comprendiendo el descodificador:
    un procesador de valores espectrales para derivar una primera trama combinada usando los primeros coeficientes espectrales y la primera informacion de deformacion, teniendo la primera trama combinada informacion sobre la primera y sobre la segunda trama; y
    para derivar una segunda trama combinada usando los segundos coeficientes espectrales y la segunda informacion de deformacion, teniendo la segunda trama combinada informacion sobre la segunda y la tercera trama; y
    un sintetizador para reconstruir la segunda trama usando la primera trama combinada y la segunda trama combinada.
  17. 17. Descodificador segun la reivindicacion 16, en el que el procesador de valores espectrales esta operativo para
    usar funciones de base de coseno para derivar las tramas combinadas, dependiendo las funciones de base de
    coseno de la informacion de deformacion de manera que usar las funciones de base de coseno sobre los coeficientes espectrales proporciona una representacion no ponderada deformada en el tiempo de una trama combinada.
  18. 18. Descodificador segun la reivindicacion 16, en el que el procesador de valores espectrales esta operativo para usar una funcion ventana para aplicar pesos a valores de muestra de las tramas combinadas, dependiendo la funcion ventana de la informacion de deformacion de manera que cuando se aplican los pesos a la representacion no ponderada deformada en el tiempo de una trama combinada, proporciona una representacion deformada en el tiempo de una trama combinada.
  19. 19. Descodificador segun la reivindicacion 16, en el que el procesador de valores espectrales esta operativo para
    usar informacion de deformacion para derivar una trama combinada transformando el eje de tiempo de
    representaciones de tramas combinadas como se indica por la informacion de deformacion.
  20. 20. Descodificador segun la reivindicacion 16, en el que el sintetizador esta operativo para reconstruir la segunda trama sumando la primera trama combinada y la segunda trama combinada.
  21. 21. Descodificador segun la reivindicacion 16, que esta adaptado para reconstruir una senal de audio representada por una secuencia de valores de muestra discretos.
  22. 22. Descodificador segun la reivindicacion 16, que comprende ademas un estimador de deformacion para derivar la primera y la segunda informacion de deformacion a partir de los primeros y segundos coeficientes espectrales.
  23. 23. Metodo para derivar una representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama, comprendiendo el metodo:
    estimar primera informacion de deformacion para la primera y la segunda trama y para estimar segunda informacion de deformacion para la segunda trama y la tercera trama, usando el ajuste de una funcion de deformacion a dos tramas consecutivas, describiendo la informacion de deformacion una informacion de tono de la senal de audio;
    derivar primeros coeficientes espectrales para la primera y la segunda trama usando la primera informacion de deformacion y para derivar segundos coeficientes espectrales para la segunda y la tercera trama usando la segunda informacion de deformacion; y
    emitir la representacion de la senal de audio que incluye los primeros y los segundos coeficientes espectrales.
    5
    10
    15
    20
    25
  24. 24. Metodo para reconstruir una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, usando primera informacion de deformacion, describiendo la primera informacion de deformacion una informacion de tono de la senal de audio para la primera y la segunda trama, segunda informacion de deformacion, describiendo la segunda informacion de deformacion una informacion de tono de la senal de audio para la segunda y la tercera trama, primeros coeficientes espectrales para la primera y la segunda trama y segundos coeficientes espectrales para la segunda y la tercera trama, comprendiendo el metodo:
    derivar una primera trama combinada usando los primeros coeficientes espectrales y la primera informacion de deformacion, teniendo la primera trama combinada informacion sobre la primera y sobre la segunda trama; y derivar una segunda trama combinada usando los segundos coeficientes espectrales y la segunda informacion de deformacion, teniendo la segunda trama combinada informacion sobre la segunda y la tercera trama; y reconstruir la segunda trama usando la primera trama combinada y la segunda trama combinada.
  25. 25. Programa informatico que tiene un codigo de programa adaptado para realizar, cuando se ejecuta en un ordenador, cualquiera de los metodos de las reivindicaciones 23 o 24.
  26. 26. Representacion de una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, comprendiendo la representacion primeros coeficientes espectrales para la primera y la segunda trama, describiendo los primeros coeficientes espectrales la composicion espectral de una representacion deformada de la primera y la segunda trama; y segundos coeficientes espectrales que describen una composicion espectral de una representacion deformada de la segunda y la tercera trama; y primera informacion de deformacion, describiendo la primera informacion de deformacion una informacion de tono de la senal de audio para la primera y la segunda trama; y segunda informacion de deformacion, describiendo la segunda informacion de deformacion una informacion de tono de la senal de audio para la segunda y la tercera trama.
ES08008361.1T 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo Active ES2604758T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US73351205P 2005-11-03 2005-11-03
US733512P 2005-11-03
US464176 2006-08-11
US11/464,176 US7720677B2 (en) 2005-11-03 2006-08-11 Time warped modified transform coding of audio signals

Publications (1)

Publication Number Publication Date
ES2604758T3 true ES2604758T3 (es) 2017-03-09

Family

ID=37507461

Family Applications (5)

Application Number Title Priority Date Filing Date
ES10183308.5T Active ES2646814T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES06792443T Active ES2307287T3 (es) 2005-11-03 2006-10-24 Codificacion de señales de audio por transformada modificada deformada en el tiempo.
ES08008361.1T Active ES2604758T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES17193127T Active ES2863667T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada distorsionada temporal de señales de audio
ES21156798T Active ES2967257T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada deformada temporal de señales de audio

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES10183308.5T Active ES2646814T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES06792443T Active ES2307287T3 (es) 2005-11-03 2006-10-24 Codificacion de señales de audio por transformada modificada deformada en el tiempo.

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES17193127T Active ES2863667T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada distorsionada temporal de señales de audio
ES21156798T Active ES2967257T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada deformada temporal de señales de audio

Country Status (14)

Country Link
US (3) US7720677B2 (es)
EP (7) EP3852103B1 (es)
JP (4) JP4927088B2 (es)
KR (1) KR100959701B1 (es)
CN (2) CN101351840B (es)
AT (1) ATE395687T1 (es)
DE (1) DE602006001194D1 (es)
DK (1) DK1807825T3 (es)
ES (5) ES2646814T3 (es)
HK (2) HK1105159A1 (es)
MY (1) MY141264A (es)
PL (1) PL1807825T3 (es)
TW (1) TWI320172B (es)
WO (1) WO2007051548A1 (es)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
TWI455064B (zh) * 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
AU2013206267B2 (en) * 2008-07-11 2015-10-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Providing a time warp activation signal and encoding an audio signal therewith
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2211335A1 (en) 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
CA3076203C (en) 2009-01-28 2021-03-16 Dolby International Ab Improved harmonic transposition
KR101697497B1 (ko) 2009-09-18 2017-01-18 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
JP5530454B2 (ja) * 2009-10-21 2014-06-25 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
US9338523B2 (en) * 2009-12-21 2016-05-10 Echostar Technologies L.L.C. Audio splitting with codec-enforced frame sizes
AU2011226143B9 (en) * 2010-03-10 2015-03-19 Dolby International Ab Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
EP2372703A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
US9117461B2 (en) 2010-10-06 2015-08-25 Panasonic Corporation Coding device, decoding device, coding method, and decoding method for audio signals
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
AU2012217158B2 (en) * 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
EP4243017A3 (en) * 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
HUE032831T2 (en) 2013-01-08 2017-11-28 Dolby Int Ab Model-based prediction in a critically sampled filter block
EP3321935B1 (en) * 2013-06-21 2019-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
AU2014283320B2 (en) * 2013-06-21 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
SG11201509526SA (en) 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US11232804B2 (en) * 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519830A1 (de) * 1985-06-03 1986-12-18 Ruhrkohle Ag, 4300 Essen Verfahren zur kohlehydrierung mit integrierten raffinationsstufen
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
JPH0546199A (ja) * 1991-08-21 1993-02-26 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
WO1998006090A1 (en) 1996-08-02 1998-02-12 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
ES2267176T3 (es) * 1997-04-07 2007-03-01 Koninklijke Philips Electronics N.V. Sistema de transmision de voz.
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
BR0112404A (pt) 2000-07-13 2003-11-25 Qualcomm Inc Esquema de codificação em blocos de distância máxima
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
DE60122296T2 (de) * 2001-05-28 2007-08-30 Texas Instruments Inc., Dallas Programmierbarer Melodienerzeuger
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
DE60234195D1 (de) * 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
JP3994332B2 (ja) * 2001-09-27 2007-10-17 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
JP3579047B2 (ja) 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
CN1290036C (zh) 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US8024192B2 (en) * 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
RU2439721C2 (ru) * 2007-06-11 2012-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
JP5530454B2 (ja) * 2009-10-21 2014-06-25 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Also Published As

Publication number Publication date
CN101351840A (zh) 2009-01-21
EP3319086A1 (en) 2018-05-09
CN102592602B (zh) 2015-11-25
EP1807825A1 (en) 2007-07-18
EP3852103B1 (en) 2023-11-29
JP2012068660A (ja) 2012-04-05
DK1807825T3 (da) 2008-09-08
JP2009515207A (ja) 2009-04-09
US20130218579A1 (en) 2013-08-22
TWI320172B (en) 2010-02-01
MY141264A (en) 2010-04-16
ES2863667T3 (es) 2021-10-11
EP1953738A1 (en) 2008-08-06
TW200719319A (en) 2007-05-16
US20070100607A1 (en) 2007-05-03
KR20080066760A (ko) 2008-07-16
JP5323164B2 (ja) 2013-10-23
EP4290513A2 (en) 2023-12-13
EP1953738B1 (en) 2016-10-12
JP6084595B2 (ja) 2017-02-22
EP1807825B1 (en) 2008-05-14
ES2307287T3 (es) 2008-11-16
EP3852103A1 (en) 2021-07-21
EP2306455A1 (en) 2011-04-06
JP6125324B2 (ja) 2017-05-10
HK1105159A1 (en) 2008-02-01
JP2015018274A (ja) 2015-01-29
CN101351840B (zh) 2012-04-04
WO2007051548A1 (en) 2007-05-10
JP4927088B2 (ja) 2012-05-09
US8838441B2 (en) 2014-09-16
US8412518B2 (en) 2013-04-02
DE602006001194D1 (de) 2008-06-26
US20100204998A1 (en) 2010-08-12
ES2646814T3 (es) 2017-12-18
EP3319086B1 (en) 2021-02-17
HK1254427A1 (zh) 2019-07-19
EP4290513A3 (en) 2024-02-14
EP4290512A2 (en) 2023-12-13
JP2013210654A (ja) 2013-10-10
KR100959701B1 (ko) 2010-05-24
CN102592602A (zh) 2012-07-18
EP2306455B1 (en) 2017-09-27
US7720677B2 (en) 2010-05-18
PL1807825T3 (pl) 2009-01-30
ES2967257T3 (es) 2024-04-29
EP4290512A3 (en) 2024-02-14
ATE395687T1 (de) 2008-05-15

Similar Documents

Publication Publication Date Title
ES2604758T3 (es) Codificación de señales de audio por transformada modificada deformada en el tiempo
ES2880252T3 (es) Predicción basada en modelo en un banco de filtros críticamente muestreados
ES2231090T3 (es) Codificador de audio con sub-bandas basado en la conmutacion de bloques.
ES2728329T3 (es) Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES2273216T3 (es) Codificacion de audio.
ES2651437T3 (es) Codificador de audio y decodificador de audio
ES2558508T3 (es) Método de codificación, codificador, método de determinación de la cantidad de una característica periódica, aparato de determinación de la cantidad de una característica periódica, programa y medio de grabación
RU2611986C2 (ru) Сигнальный процессор, формирователь окон, кодированный медиасигнал, способ обработки сигнала и способ формирования окон
BR112015007532B1 (pt) Codificador, decodificador e métodos para codificação de objeto de áudio espacial multirresolução compatível regressivo
RU2621003C2 (ru) Адаптивное к тональности квантование низкой сложности аудиосигналов