ES2646814T3 - Codificación de señales de audio por transformada modificada deformada en el tiempo - Google Patents

Codificación de señales de audio por transformada modificada deformada en el tiempo Download PDF

Info

Publication number
ES2646814T3
ES2646814T3 ES10183308.5T ES10183308T ES2646814T3 ES 2646814 T3 ES2646814 T3 ES 2646814T3 ES 10183308 T ES10183308 T ES 10183308T ES 2646814 T3 ES2646814 T3 ES 2646814T3
Authority
ES
Spain
Prior art keywords
deformation
time
frame
representation
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10183308.5T
Other languages
English (en)
Inventor
Lars Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2646814T3 publication Critical patent/ES2646814T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Codificador de audio de la invención que recibe una señal de audio digital como entrada (100) y que genera un flujo de bits que va a transmitirse a un descodificador, que incorpora: un extractor de parámetros de deformación (101) para estimar una secuencia de parámetros de deformación de la señal de entrada de audio (100); un transformador de deformación (102) para recibir la secuencia del parámetro de deformación y para derivar una representación espectral deformada en el tiempo de la señal de entrada de audio(100); un calculador de modelo perceptual (103) para recibir la señal de entrada de audio (100); un codificador de deformación (104) para codificar la secuencia del parámetro de deformación para reducir su tamaño durante la transmisión dentro del flujo de bits; un codificador (105) para recibir la representación espectral deformada en el tiempo para su cuantificación para obtener una representación espectral deformada en el tiempo codificada de la señal de entrada de audio, en el cual el codificador (105) es controlado mediante el calculador de modelo perceptual (103); y un multiplexor (106) para recibir y multiplexar la secuencia del parámetro de deformación codificada y la representación espectral deformada en el tiempo codificada de la señal de entrada de audio.

Description

DESCRIPCION
Codificacion de senales de audio por transformada modificada deformada en el tiempo 5 CAMPO DE LA INVENCION
[0001] La presente invencion se refiere a sistemas de codificacion de origen de audio y en particular a esquemas de codificacion de audio usando transformadas basadas en bloques.
10 ANTECEDENTES DE LA INVENCION
[0002] En la tecnica se conocen varias maneras para codificar contenido de audio y video. En general, por supuesto, el objetivo es codificar el contenido ahorrando bits sin degradar la calidad de reconstruccion de la senal.
[0003] Recientemente, se han desarrollado nuevos enfoques para codificar contenido de audio y video, entre los que la codificacion de audio perceptual basada en transformadas consigue la mayor ganancia de codificacion para senales estacionarias, es decir, cuando pueden aplicarse grandes tamanos de transformada. (Vease por ejemplo T. Painter y A. Spanias: “Perceptual coding of digital audio”, Proceedings of the IEEE, vol. 88, n. ° 4, abril del 2000, paginas 451 a 513). Con frecuencia, las partes estacionarias de audio se modelan bien mediante un numero finito fijo de sinusoides estacionarias. Una vez que el tamano de transformada es lo suficientemente grande para resolver esas componentes, se requiere un numero fijo de bits para un objetivo de distorsion dado. Aumentando adicionalmente el tamano de transformada, se describiran segmentos mas y mas grandes de la senal de audio sin aumentar la demanda de bits. Sin embargo, para senales no estacionarias, resulta necesario reducir el tamano de transformada y, por lo tanto, la ganancia de codificacion disminuira rapidamente. Para superar este problema, en caso de cambios bruscos y eventos transitorios, puede aplicarse conmutacion de tamano de transformada sin aumentar de manera significativa el coste de codificacion medio. Es decir, cuando se detecta un evento transitorio, se disminuye el tamano de bloque (tamano de trama) de las muestras que van a codificarse conjuntamente. Por supuesto, para senales transitorias mas persistentes, la tasa de bits aumentara drasticamente.
[0004] Un ejemplo interesante particular para el comportamiento transitorio persistente es la variacion de tono de senales localmente armonicas, que se encuentra principalmente en las partes de voz del habla y el canto, pero que tambien pueden originarse a partir de los vibratos y glissandos de algunos instrumentos musicales. Teniendo una senal armonica, es decir una senal que tiene picos de senal distribuidos con igual separacion a lo largo del eje de tiempo, el termino tono describe la inversa del tiempo entre picos adyacentes de la senal. Por tanto, una senal de este tipo tiene un espectro armonico perfecto, que consiste en una frecuencia base igual al tono y armonicos de orden superior. En terminos mas generales, el tono puede definirse como la inversa del tiempo entre dos partes de senal correspondientes contiguas en una senal localmente armonica. Sin embargo, si el tono, y con el la frecuencia base, varla con el tiempo, tal como es el caso en los sonidos vocales, el espectro se hara cada vez mas complejo y por tanto, mas ineficiente de codificar.
[0005] Un parametro estrechamente relacionado con el tono de una senal es la deformacion de la senal. Suponiendo que la senal en el tiempo t tiene un tono igual a p (t) y que este valor de tono varla suavemente a lo largo del tiempo, la deformacion de la senal en el tiempo t se define por la derivada logarltmica.
45
[0006] Para una senal armonica, esta definicion de deformacion es insensible a la seleccion particular de la componente armonica y errores sistematicos en terminos de multiplos o fracciones del tono. La deformacion mide un cambio de frecuencia en el dominio logarltmico. La unidad natural de la deformacion es el hercio [Hz], aunque en
50 terminos musicales, una senal con una deformacion constante a(t)=ao es un barrido con una tasa de barrido de a0/log2 octavas por segundo [oct/s]. Las senales del habla muestran deformaciones de hasta 10 oct/s y una deformacion promedia de aproximadamente 2 oct/s.
[0007] Debido a que la longitud de trama (longitud de bloque) tlpica de los codificadores de transformada es 55 tan grande que el cambio de tono relativo es significativo en la trama, las variaciones de tono o deformaciones de
ese tamano dan como resultado una aleatorizacion del analisis de frecuencia de esos codificadores. Puesto que, para una tasa de bits constante requerida, esto solo puede superarse aumentando la imprecision de la cuantificacion, este efecto resulta en la introduccion de ruido de cuantificacion, que con frecuencia se percibe como reverberation.
60
[0008] Una posible tecnica para superar este problema es la deformacion en el tiempo. El concepto de codificacion deformada en el tiempo se explica de la mejor forma imaginando un magnetofono con velocidad
imagen1
30
35
40
15
20
25
variable. Cuando se graba la senal de audio, la velocidad se ajusta dinamicamente para conseguir un tono constante en todos los segmentos vocales. La senal de audio resultante localmente estacionaria se codifica junto con los cambios de velocidad de cinta aplicados. En el descodificador, se realiza entonces una reproduccion con los cambios de velocidad opuestos. Sin embargo, la aplicacion de la deformacion simple en el tiempo tal como se 5 describio anteriormente tiene algunas desventajas significativas. En primer lugar, la velocidad de cinta absoluta termina siendo incontrolable, lo que conlleva a un incumplimiento de la duracion de toda la senal codificada y de las limitaciones de ancho de banda. Para su reconstruccion, ha de transmitirse informacion secundaria adicional sobre la velocidad de cinta (o de manera equivalente sobre el tono de la senal), introduciendo una tara de tasa de bits sustancial, especialmente a tasas de bits bajas.
10
[0009] El enfoque comun de los metodos de la tecnica anterior para superar el problema de la duracion
incontrolable de senales deformadas en el tiempo es procesar de forma independiente segmentos consecutivos de la senal que no se solapen, es decir, tramas individuales, mediante una deformacion en el tiempo, de modo que se conserve la duracion de cada segmento. Este enfoque se describe por ejemplo en Yang et. al. “Pitch synchronous 15 modulated lapped transform of the linear prediction residual of speech”, Proceedings of ICSP '98, paginas 591 a 594. Una gran desventaja de un procedimiento de este tipo es que, aunque la senal procesada es estacionaria en los segmentos, el tono mostrara saltos en cada llmite de segmento. Esos saltos causaran una perdida de la eficacia de codificacion del codificador de audio posterior y se introduciran discontinuidades audibles en la senal descodificada.
20 [0010] La deformacion en el tiempo tambien se aplica en otros esquemas de codificacion. Por ejemplo, el
documento US-2002/0120445 describe un esquema, en el que segmentos de senal se someten a ligeras modificaciones de duracion antes de la codificacion de transformada basada en bloques. Esto es para evitar grandes componentes de senal en el llmite de los bloques, aceptando ligeras variaciones de duracion de los segmentos unicos.
25
Otra tecnica que usa la deformacion en el tiempo se describe en el documento US 6.169.970, en la que se aplica deformacion en el tiempo para aumentar el rendimiento del predictor a largo plazo de un codificador del habla. En la misma llnea, en el documento US 2005/0131681, se describe una unidad de procesamiento previo para la codificacion CELP de senales del habla que aplica una deformacion lineal por trozos entre intervalos que no se 30 solapan, conteniendo cada uno un pulso de tono blanqueado. Finalmente, en (R.J. Sluijter y A.J.E.M. Janssen, “A time warper for speech signals” IEEE workshop on Speech Coding'99, junio de 1999, paginas 150 a 152) se describe como mejorar la estimacion de tono del habla mediante la aplicacion de una funcion de deformacion en el tiempo cuadratica a una trama del habla. En resumen, las tecnicas de deformacion de la tecnica anterior comparten los problemas de introducir discontinuidades en los bordes de trama y de necesitar una cantidad significativa de tasa de 35 bits adicional para la transmision de los parametros que describen la variacion del tono de la senal.
[0011] Otra tecnica de deformacion en el tiempo se encuentra descrita en Weruaga L., Kepesi M.: “SPEECH ANALYSIS WITH THE FAST CHIRP TRANSFORM”, EUSIPCO 2004, 12th European Signal Processing Conference, Vienna, Austria, 7-10 Sep. 2004, Septiembre 2004 (2004-09), paginas 1011-1014, XP002619559.
40
DESCRIPCION DE LA INVENCION
[0012] Es el objetivo de esta invencion proporcionar un concepto para una codificacion mas eficaz de senales de audio usando deformacion en el tiempo. El objeto de la presente invencion se consigue mediante las
45 reivindicaciones independientes. En las reivindicaciones dependientes se definen realizaciones especlficas. El termino “tono" debe interpretarse en un sentido general. Este termino tambien cubre una variacion de tono en conexion con lugares en relacion a la informacion de deformacion. Puede haber una situacion en la que la informacion de deformacion no de acceso a un tono absoluto, pero a informacion de tono relativo o normalizado. Asl, dada una informacion de deformacion puede llegarse a una descripcion del tono de la senal, cuando se acepta 50 obtener una forma de curva de tono correcta sin valores en el eje y.
BREVE DESCRIPCION DE LOS DIBUJOS
[0013] A continuacion se describen realizaciones preferidas de la presente invencion con referencia a los 55 dibujos adjuntos, en los que:
La Figura 1 muestra un ejemplo de mapas de deformacion de la invencion;
Las Figuras 2 a, 2b muestran la aplicacion de una ventana dependiente de la deformacion de la invencion;.
Las Figuras 3 a, 3b muestran un ejemplo del remuestreo de la invencion;
60 Las Figuras 4 a, 4 b muestran un ejemplo de la slntesis de senales de la invencion en el lado del descodificador;
Las Figuras 5 a, 5 b muestran un ejemplo de la aplicacion de funcion ventana de la invencion en el lado del descodificador;
Las Figuras 6 a, 6 b muestran un ejemplo de la deformacion en el tiempo de la invencion en el lado del descodificador;
65 La Figura 7 muestra un ejemplo de un procedimiento de solapamiento y adicion de la invencion en el lado del descodificador;
La Figura 8 muestra un ejemplo de un codificador de audio de la invention;
La Figura 9 muestra un ejemplo de un descodificador de audio de la invencion;
La Figura 10 muestra otro ejemplo de un descodificador de la invencion;
La Figura 11 muestra un ejemplo de una implementation compatible hacia atras de los conceptos de la invencion;
5 La Figura 12 muestra un diagrama de bloques para una aplicacion de la codification de la invencion;
La Figura 13 muestra un diagrama de bloques para un ejemplo de la descodificacion de la invencion;
La Figura 14 muestra un diagrama de bloques de otra realization de la descodificacion de la invencion;
Las Figuras 15 a, 15 b muestran una ilustracion de la eficacia de codificacion que se puede conseguir mediante la aplicacion del concepto de la invencion.
10
DESCRIPCION DETALLADA DE LAS REALIZACIONES PREFER!DAS
[0014] Las realizaciones descritas a continuation son meramente ilustrativas de los principios de la presente
invencion para la codificacion por transformada deformada en el tiempo de senales de audio. Se entiende que las 15 modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento seran evidentes para otros expertos en la tecnica. Por tanto, se pretende limitarlas solamente al alcance de las reivindicaciones inminentes de la patente y no a los detalles especlficos presentados a modo de description y explication de las realizaciones en el presente documento.
20 [0015] A continuacion, se revisan brevemente los conceptos e ideas basicos de transformadas de bloque y
deformation para motivar el concepto de la invencion, que se analizara posteriormente con mas detalle, haciendo referencia a las figuras adjuntas.
[0016] Por lo general, los detalles especlficos de la transformada deformada en el tiempo pueden derivarse 25 de la manera mas sencilla en el dominio de senales de tiempo continuo. Los siguientes parrafos describen la teorla
general, que a continuacion se especializara y convertira posteriormente en su aplicacion de la invencion a senales de tiempo discreto. La etapa principal en esta conversion es sustituir el cambio de coordenadas realizado en senales de tiempo continuo con un remuestreo no uniforme de senales de tiempo discreto de modo que se conserve la densidad de muestra media, es decir, que no se altere la duration de la senal de audio.
30
[0017] Supongamos que s=y(t) describe un cambio de coordenada de tiempo descrito por una funcion y estrictamente creciente continuamente diferenciable, que mapea el intervalo I del eje t con el intervalo J del eje s.
[0018] y(t) es por tanto una funcion que puede usarse para transformar el eje de tiempo de una cantidad 35 dependiente del tiempo, lo que es equivalente a un remuestreo en el caso discreto de tiempo. Deberla indicarse que
en el siguiente analisis, el intervalo I del eje t es un intervalo en el dominio de tiempo normal y el intervalo J del eje x es un intervalo en el dominio de tiempo deformado.
[0019] Dada una base {va} ortonormal para senales de energla finita en el intervalo J, se obtiene una base 40 {ua} ortonormal para senales de energla finita en el intervalo I por medio de la regla
««(0 = V''(0,'2v.(,ko). (i)
[0020] Dado un intervalo I de tiempo infinito, puede conseguirse la especificacion local de deformacion en el 45 tiempo segmentando I y, a continuacion, construyendo yuniendo entre si partes reajustadas a escala de mapas de
deformacion normalizados.
[0021] Un mapa de deformacion normalizado es una funcion estrictamente creciente y continuamente diferenciable que mapea el intervalo [0,1] de la unidad consigo misma. Comenzando desde una secuencia de puntos
50 t=tk de segmentation donde tk+i > tk, y una secuencia correspondiente de mapas y de deformacion normalizados, se construye:
imagen2
55 donde dk=sk+i-sk y la secuencia dk se ajusta de modo que y(t) se convierte en continuamente diferenciable. Esto define y(t) a partir de la secuencia de mapas y de deformacion normalizados hasta un cambio afln de escala del tipo Ayt)+B.
[0022] Supongamos que {vv} es una base ortonormal para senales de energla finita en el intervalo J,
adaptada a la segmentacion Sk=y(tk), en el sentido de que hay un numero entero K, el factor de solapamiento, de modo que vk,n(s) = 0 si s<Sk o s>Sk+k-
[0023] La presente invencion se centra en casos en los que K > 2, debido a que el caso en el que K = 1 5 corresponde a los metodos de la tecnica anterior sin solapamiento. Deberla indicarse que actualmente no se
conocen muchas construcciones para K > 3. A continuacion se desarrollara un ejemplo particular para el concepto de la invencion para el caso en el que K = 2, que incluye bases trigonometricas locales que tambien se usan en transformadas de coseno discretas modificadas (MDCT, Modified Discrete Cosine Transform) y otras transformadas discretas solapadas en el tiempo.
10
[0024] Supongamos que la construccion de {vk,n} de la segmentacion es local, en el sentido de que hay un numero entero p, de modo que vk,n(s) no depende de si, para l<k-pl>k+K+p. Por ultimo, supongamos que la construccion es tal que un cambio afln de segmentacion a Ask+B da como resultado un cambio de la base a A- 1/2Vk,n((s-B)IA). Entonces
Uk^0 = ^(t)mvk^(t)) (3)
15
es una base ortonormal deformada en el tiempo para senales de energla finita en el intervalo I, que esta bien definida a partir de los puntos tk de segmentacion y la secuencia de mapas y de deformacion normalizados independiente de la inicializacion de las secuencias sk y dk de los parametros en (2). Esta adaptada a la 20 segmentacion proporcionada en el sentido de que uk,n(t)=0 si t<tk o t>tk+k, y esta definida localmente en el sentido de que uk,n(t) no depende ni de ti para l<k-p o l>k+K+p, ni de los mapas yi de deformacion normalizados para l<k-p o l>k+K+p.
[0025] Las formas de onda (3) de slntesis son continuas pero no necesariamente diferenciables, debido al 25 factor jacobiano (y’(t))1/2. Por este motivo, y para reducir la carga computacional en el caso de tiempo discreto,
tambien puede construirse un sistema biortogonal derivado. Supongamos que hay constantes 0<Ci<C2 de modo que
CsTJk<tf/\t)<C2TJki tk<t< titK
30 para una secuencia h>0. Entonces
.&„(')='/(0nk~1'2 v*„(K0)-
(4)
(5)
define un par biortogonal de bases de Riesz para el espacio de senales de energla finita en el intervalo I.
35
[0026] Asl, fk,n(t) as! como gk,n(t) pueden usarse para analisis, mientras que es particularmente ventajoso usar fk,n(t) como formas de onda de slntesis y gk,n(t) como formas de onda de analisis.
[0027] Basandose en las consideraciones generales anteriores, se derivara un ejemplo del concepto de la 40 invencion en los parrafos posteriores para el caso de una segmentacion uniforme tk=k y un factor de solapamiento
K=2, usando una base de coseno local adaptada a la segmentacion resultante en el eje s.
[0028] Deberla indicarse que las modificaciones necesarias para tratar con segmentaciones no uniformes son obvias de modo que el concepto de la invencion es tambien aplicable a dichas segmentaciones no uniformes. Tal
45 como propone por ejemplo M.W. Wickerhauser, “Adapted wavelet analysis from theory to software”, A. K. Peters, 1994, capltulo 4, un punto de inicio para formar una base de coseno local es una funcion pde corte ascendente de modo que pr)=0 para r<-1, pr)=1 para r>1, y pr)2+p-r)2=1 en la region activa -1<r<1.
[0029] Dada una segmentacion sk, puede construirse entonces una ventana en cada intervalo sk<s<sk+2
50 segun
imagen3
con puntos medios de corte Ck=(sk+Sk+i)/2 y radios de corte ek=(sk+i-Sk)/2. Esto corresponds a la construction de punto medio de Wickerhauser.
5 [0030] Con lk=Ck+i-Ck=£k+£k+i, se obtiene como resultado una base ortonormal a partir de
imagen4
donde el Indice de frecuencia n=0,1,2,... Es facil de verificar que esta construccion obedece a la condition de 10 localidad con p<=0 e invariante afln descrita anteriormente. La base (3) deformada resultante en el eje t puede reescribirse en este caso en forma
imagen5
15 para k<t<k+2, donde fk se define uniendo entre si yk y yk+i para formar un mapa continuamente diferenciable del intervalo [0,2] consigo mismo,
imagen6
[0031]
Esto se obtiene poniendo
20
imagen7
[0032] La construccion de yy se ilustra en la figura 1, que muestra el tiempo normalizado en el eje x y el
tiempo deformado en el eje y. La figura 1 deberla considerarse particularmente para el caso en el que k = 0, es decir, para formar f(t) y por tanto derivar una funcion de deformation para una primera trama 10, que dura desde el 25 tiempo normalizado 0 hasta el tiempo normalizado 1 y para una segunda trama 12 que dura desde el tiempo normalizado 1 hasta el tiempo normalizado 2. Se asume ademas que la primera trama 10 tiene una funcion 14 de deformacion y la segunda trama 12 tiene una funcion 16 de deformacion, derivadas con el fin de conseguir el mismo tono en las tramas individuales, cuando el eje de tiempo se transforma tal como se indica por las funciones 14 y 16 de deformacion. Deberla indicarse que la funcion 14 de deformacion corresponde a y y la funcion 16 de 30 deformacion corresponde a y. Segun la ecuacion 9, se construye una funcion 18 fo(t) de deformacion combinada uniendo entre si los mapas 14 y 16 de deformacion para formar un mapa continuamente diferenciable del intervalo [0,2] consigo mismo. Como resultado, el punto (1,1) se transforma en (1,a), donde a corresponde a 2mk en la ecuacion 9.
35 [0033] Puesto que el concepto de la invention se dirige a la aplicacion de deformacion en el tiempo en un
escenario de solapamiento y adicion, el ejemplo de formar la siguiente funcion deformada combinada para la trama 12 y la trama 20 siguiente tambien se da en la figura 1. Deberla indicarse que tras el principio de solapamiento y adicion, para la reconstruction completa de la trama 12, es necesario conocer ambas funciones 18 y 22 de deformacion.
40
[0034] Deberla indicarse ademas que unir entre si dos funciones de deformacion derivadas independientemente no es necesariamente la unica manera de derivar una funcion f de deformacion combinada adecuada, (18, 22) debido a que f tambien puede derivarse muy bien ajustando directamente una funcion de deformacion adecuada a dos tramas consecutivas. Se prefiere tener una consistencia afln de las dos funciones de
45 deformacion en el solapamiento de sus dominios de definition.
[0035] Segun la ecuacion 6, la funcion ventana en la ecuacion 8 se define mediante
imagen8
que aumenta de cero a uno en el intervalo [0,2m*] y disminuye de uno a cero en el intervalo [2mk,2].
[0036] Tambien puede derivarse una version biortogonal de (8) si hay constantes 0<Ci<C2, de modo que
C,<#{0^C2, 0 < / < 2,
para todo k. La selection rjk=lk en (4) Neva a la especializacion de (5) a
/*„( 0 - *))cos[/r(n + i )(fa(t -k)- »»*)];
gjtJ0 = J2fa(t-k)bk (fa{t - k))cos[nin + ±)(fa(t-k) -»*)].
(12)
5
[0037] Por tanto, para el caso de tiempo continuo, se derivan funciones de slntesis y analisis (ecuacion 12), 10 que son dependientes de la funcion deformada combinada. Esta dependencia permite la deformation en el tiempo
en un escenario de solapamiento y adicion sin perdida de information en la senal original, es decir, permite una reconstruction perfecta de la senal.
[0038] Puede indicarse que para fines de implementation, las operaciones realizadas en la ecuacion 12 15 pueden descomponerse en una secuencia de etapas de procesamiento individuales consecutivas. Una forma
particularmente interesante de hacerlo es realizar primero una aplicacion de funcion ventana a la senal, seguida por un remuestreo de la senal a la que se le ha aplicado una funcion ventana y finalmente por una transformation.
[0039] Como es habitual, las senales de audio se almacenan y transmiten digitalmente como valores de 20 muestra discretos muestreados con una frecuencia de muestreo determinada, el ejemplo proporcionado para la
implementacion del concepto de la invention se desarrollara a continuation adicionalmente para la aplicacion en el caso discreto.
[0040] La transformada de coseno discreta modificada deformada en el tiempo (TWMDCT, time-warped
25 modified discrete cosine transform) puede obtenerse a partir de una base de coseno local deformado en el tiempo discretizando formas de onda de slntesis e integrales de analisis. La siguiente description se basa en la base biortogonal (vease la ecuacion 12). Los cambios necesarios para tratar con el caso ortogonal (8) consisten en una
ponderacion en el dominio de tiempo adicional por el factor jacobiano v En el caso especial en el que no
se aplica deformacion, ambas construcciones se reducen a la MDCT convencional. Supongamos que L es el tamano 30 de transformada y supongamos que la senal x(t) que va a analizarse esta limitada con respecto a la banda por qp (rad/s) para algun q<1. Esto permite describir la senal mediante sus muestras en el periodo de muestreo 1/L.
[0041]
Los coeficientes de analisis vienen dados por
imagen9
35 [0042] Definir la parte Xk(t)=x(t+k)bk(fk(t)) de la senal a la que se le ha aplicado una funcion ventana y
realizar sustituciones r^t-k y r=0k(?) en la integral (13) Neva a
imagen10
[0043] Una forma particularmente interesante de discretizar esta integral ensenada por la presente invencion
r = ry = mk+iv+±)/L ,
es seleccionar los puntos de muestra, donde a v se le da un valor de numero entero.
40 Suponiendo deformacion ligera y la limitacion de banda descrita anteriormente, esto proporciona la aproximacion
donde
imagen11
imagen12
[0044] El intervalo de suma en (15) se define por 0<v<2. Incluye v=0,1,..., L-1 y se extiende mas alia de este
5 intervalo en cada extremo de modo que el numero total de puntos es 2L. Observese que debido a la aplicacion de funcion ventana, el resultado es insensible al tratamiento de los casos de borde, que pueden producirse si
^=<V0+i)/I
para algun numero vo entero.
[0045] Como es bien sabido que la suma (ecuacion 15) puede calcularse mediante operaciones de plegado
10 elementales seguidas por una DCT de tipo IV, puede ser apropiado descomponer las operaciones de la ecuacion 15 en una serie de operaciones y transformaciones posteriores para utilizar implementaciones de hardware y software eficaces ya existentes, particularmente de DCT (Discrete Cosine Transform, transformada de coseno discreta). Segun la integral discretizada, una senal de tiempo discreto determinada puede interpretarse como las muestras equidistantes en periodos 1/L de muestreo de x(t). Una primera etapa de aplicacion de funcion ventana llevarla 15 entonces a:
imagen13
para p=0,1,2,...,2L-1. Antes de la transformacion por bloques tal como se describe mediante la ecuacion 15 (introduciendo un desfase adicional que depende de m*), es necesario realizar un remuestreo, mapeando
imagen14
20 [0046] La operation de remuestreo puede realizarse mediante cualquier metodo adecuado para remuestreo
no equidistante.
[0047] En resumen, la MDCT deformada en el tiempo de la invention puede descomponerse en una operacion de aplicacion de funcion ventana, un remuestreo y una transformada de bloque.
25
[0048] Las etapas individuales se describiran brevemente a continuation con referencia a las figuras 2 a 3b. Las figuras 2 a 3b muestran las etapas de codification MDCT deformada en el tiempo considerando solo dos bloques de senales con aplicacion de funcion ventana de una senal con tono generado sinteticamente. Cada trama individual comprende 1024 muestras de modo que cada una de las dos tramas 24 y 26 combinadas consideradas
30 (tramas 30 y 32 originales y tramas 32 y 34 originales) consiste en 2048 muestras de modo que las dos tramas combinadas a las que se les ha aplicado una funcion ventana tienen un solapamiento de 1024 muestras. Las figuras 2 a 2b muestran en el eje x el tiempo normalizado de las 3 tramas que van a procesarse. La primera trama 30 oscila entre 0 y 1, la segunda trama 32 oscila entre 1 y 2, y la trama 3 oscila entre 2 y 3 en el eje de tiempo. Por tanto, en el dominio de tiempo normalizado, cada unidad de tiempo corresponde a una trama completa que tiene 1024 muestras
35 de senal. Las ventanas de analisis normalizadas abarcan los intervalos [0,2] y [1,3] de tiempo normalizados. El objetivo de las siguientes consideraciones es recuperar la trama 32 intermedia de la senal. Puesto que la reconstruction de las tramas (30, 34) de senal externas requiere datos de segmentos de senal con aplicacion de funcion ventana adyacentes, no se considerara esta reconstruccion en este caso. Puede observarse que los mapas de deformation combinados mostrados en la figura 1 son mapas de deformation derivados de la senal de la figura
40 2, que ilustra la combination de la invencion de tres mapas de deformacion normalizados posteriores (curvas con puntos) en dos mapas de deformacion de solapamiento (curvas continuas). Tal como se explico anteriormente, los mapas 18 y 22 de deformacion combinados de la invencion se derivan para el analisis de senal. Ademas, puede observarse que debido a la invariante de deformacion afln, esta curva representa un mapa deformado con la misma deformacion que en los dos segmentos originales.
45
[0049] La figura 2 ilustra la senal original mediante un grafico continuo. Su tren de pulsos estilizado tiene un tono que crece linealmente con el tiempo, asl, tiene una deformacion positiva y decreciente considerando que esa deformacion esta definida de modo que es la derivada logarltmica del tono. En la figura 2, las ventanas de analisis de la invencion derivadas usando la ecuacion 17 estan superpuestas como curvas con puntos. Deberla indicarse
que la desviacion de ventanas simetricas convencionales (como por ejemplo en MDCT) es la mayor cuando la deformacion es la mayor, es decir, en el primer segmento [0,1]. La definicion matematica de las ventanas solas viene dada por el remuestreo de las ventanas de la ecuacion 11, remuestreo aplicado tal y como se expresa en el segundo factor del lado derecho de la ecuacion 17.
5
[0050] Las figuras 2a y 2b ilustran el resultado de la aplicacion de una funcion ventana de la invencion,
aplicando las ventanas de la figura 2 a los segmentos de senal individuales.
[0051] Las figuras 3a y 3b ilustran el resultado del remuestreo dependiente de los parametros de deformacion 10 de los bloques de senales con aplicacion de funcion ventana de las figuras 2a y 2b, el remuestreo realizado tal y
como lo indican los mapas de deformacion dados por las curvas continuas de la figura 1. El intervalo [0,1] de tiempo normalizado se mapea con el intervalo [0,a] de tiempo deformado, que es equivalente a una compresion de la mitad izquierda del bloque de senales con aplicacion de funcion ventana. En consecuencia, se realiza una expansion de la mitad derecha del bloque de senales con aplicacion de funcion ventana, mapeando el intervalo [1,2] a [a,2]. Debido a 15 que el mapa de deformacion se deriva de la senal con el objetivo de derivar la senal deformada con tono constante, el resultado de la deformacion (remuestreo segun la ecuacion 18) es un bloque de senales con aplicacion de funcion ventana que tiene un tono constante. Deberla indicarse que una falta de coincidencia entre el mapa deformado y la senal llevarla a un bloque de senales con un tono aun variable en este punto, que no afectarla a la reconstruccion final.
20
[0052] El desfase de la siguiente transformada de bloque esta marcado por clrculos, de modo que el intervalo [m, m+1] corresponde a las muestras v = 1,0,...L-1 discretas con L = 1024 en la formula 15. Esto significa de forma equivalente que las formas de onda de modulacion de la transformada de bloque comparten un punto de simetrla par en m y un punto de simetrla impar en m+1. Ademas es importante indicar que a es igual a 2m de modo que m es
25 el punto medio entre 0 y a y m+1 es el punto medio entre a y 2. En resumen, las figuras 3a y 3b describen la situacion despues del remuestreo de la invencion descrito por la ecuacion 18 que, evidentemente, depende de los parametros de deformacion.
[0053] Entonces se cuantifican y codifican muestras de dominio de transformada deformada en el tiempo de 30 las senales de las figuras 3a y 3b y pueden transmitirse conjuntamente con informacion secundaria de deformacion
que describe mapas y de deformacion normalizados a un descodificador. Debido a que la cuantificacion es una tecnica comunmente conocida, la cuantificacion utilizando una regla de cuantificacion especlfica no se ilustra en las siguientes figuras, centrandose en la reconstruccion de la senal en el lado del descodificador.
35 [0054] En una realizacion de la presente invencion, el descodificador recibe la secuencia de mapas de
deformacion junto con muestras dk,n' de dominio de transformada deformada en el tiempo descodificadas, donde puede suponerse que dk,n =0 para n > L debido a la limitacion de banda supuesta de la senal. Como en el lado del codificador, el punto de partida para conseguir slntesis de tiempo discreto deberla ser considerar la reconstruccion de tiempo continuo usando las formas de onda de slntesis de la ecuacion 12:
40
donde
y con
45
imagen15
[0055] La ecuacion (19) es el procedimiento de solapamiento y adicion habitual de una slntesis de
transformada a la que se aplicado una funcion ventana. Al igual que en la etapa de analisis, es ventajoso muestrear
r = ry = mk+(y + {)/L ,
la ecuacion (21) en los puntos dando lugar a
imagen16
50 que se calcula facilmente mediante las siguientes etapas: en primer lugar, una DCT de tipo IV seguida por la extension en 2L en muestras que dependen del parametro mk de desfase segun la regla 0<rv<2. A continuacion, se
realiza una aplicacion de funcion ventana con la ventana bk{rv). Una vez encontrado Zk{rv), el remuestreo
imagen17
rp + ±)/L
proporciona el segmento y* de serial en puntos * de muestra equidistantes listos para la operacion de solapamiento y adicion descrita en la formula (19).
5
[0056] El metodo de remuestreo puede elegirse de nuevo con amplia libertad y no tiene que ser el mismo que en el codificador. En una realizacion de la presente invention se usan metodos basados en interpolation por splines, en los que el orden de las funciones de splines puede ajustarse como una funcion de un parametro q de limitation
10 de banda para conseguir un compromiso entre la complejidad computacional y la calidad de la reconstruction. Un valor comun del parametro q es q = 1/3, un caso en el que con frecuencia seran suficientes splines cuadraticos.
[0057] La descodificacion se ilustrara a continuation mediante las figuras 4a a 7 para la senal mostrada en las figuras 3a y 3b. Se destacara de nuevo que la transformada de bloque y la transmision de los parametros de
15 transformada no se describe en este punto, ya que es una tecnica comunmente conocida. Como inicio para el proceso de descodificacion, las figuras 4a y 4b muestran una configuration en la que ya se ha realizado la transformada de bloque inversa, dando como resultado las senales mostradas en las figuras 4a y 4b. Una caracterlstica importante de la transformada de bloque inversa es la adicion de componentes de senal no presentes en la senal original de las figuras 3a y 3b, que se debe a las propiedades de simetrla de las funciones de slntesis ya
20 explicadas anteriormente. En particular, la funcion de slntesis tiene una simetrla par con respecto a m y una simetrla impar con respecto a m+1. Por tanto, en el intervalo [0,a] se anaden componentes de senal positivas en la transformada de bloque inversa, mientras que en el intervalo [a,2] se anaden componentes de senal negativas. Adicionalmente, la funcion ventana de la invencion usada para la operacion de aplicacion de funcion ventana de slntesis se superpone como una curva de puntos en las figuras 4a y 4b.
25
[0058] La definition matematica de esta ventana de slntesis en el dominio de tiempo deformado viene determinada por la ecuacion 11. Las figuras 5a y 5b muestran la senal, aun en el dominio de tiempo deformado, tras la aplicacion de funcion ventana de la invencion.
30 [0059] Las figuras 6a y 6b muestran finalmente el resultado del remuestreo dependiente de los parametros de
deformation de las senales de las figuras 5a y 5b.
[0060] Finalmente, la figura 7 muestra el resultado de la operacion de solapamiento-y-adicion, que es la etapa final en la slntesis de la senal (vease la ecuacion 19). La operacion de solapamiento-y-adicion es una
35 superposition de las formas de onda de las figuras 6a y 6b. Tal como ya se menciono anteriormente, la unica trama que debe reconstruirse completamente es la trama 32 intermedia, y, una comparacion con la situation original de la figura 2 muestra que la trama 32 intermedia se reconstruye con alta fidelidad. La cancelation precisa de los componentes de senal de adicion perturbadora introducida durante la transformada de bloque inversa solo es posible porque es una propiedad crucial de la presente invencion que los dos mapas 14 y 22 deformados
40 combinados en la figura 1 difieren solo por un mapa afln dentro del intervalo [1,2] de tiempo normalizado de solapamiento. Una consecuencia de esto es que existe una correspondencia entre partes de senal y ventanas en los segmentos [a,2] y [1,b] de tiempo deformado. Cuando se consideran las figuras 4a y 4b, un alargamiento lineal de los segmentos [1,b] en [a,2] hara que los graficos de senal y las mitades de ventana describan el principio bien conocido de cancelacion de solapamiento en el dominio de tiempo de la MDCT convencional. La senal, en la que ya
45 se ha cancelado el solapamiento, puede mapearse entonces simplemente sobre el intervalo [1,2] de tiempo normalizado mediante un mapa de deformacion inverso comun.
[0061] Puede observarse que, segun una realizacion adicional de la presente invencion, puede conseguirse una reduction adicional de complejidad computacional mediante la aplicacion de una etapa de filtrado previo en el
50 dominio de frecuencia. Esto puede implementarse mediante una ponderacion previa simple de los valores dkn de muestra transmitidos. Un filtrado previo de este tipo se describe por ejemplo en M. Unser, A. Aldroubi, y M. Eden, “B- spline signal processing part Il-efficient design and applications”. Una implementation requiere aplicar un remuestreo de B-splines al resultado de la transformada de bloque inversa antes de la operacion de aplicacion de funcion ventana. En esta realizacion, el remuestreo opera sobre una senal tal como se deriva mediante la ecuacion 22
55 habiendo modificado dk,n. La aplicacion de la funcion bk(rV) ventana tampoco se realiza. Por tanto, en cada extremo del segmento de senal, el remuestreo debe considerar las condiciones de borde en terminos de periodicidades y simetrlas inducidas por la selection de la transformada de bloque. La aplicacion de funcion ventana requerida se
realiza entonces despues del remuestreo usando la ventana
imagen18
[0062] En resumen, segun una primera realization de un descodificador de la invention, la MDCT deformada en el tiempo inversa comprende, cuando se descompone en etapas individuales:
• transformada inversa
• aplicacion de funcion ventana
5 • remuestreo
• solapamiento y adicion.
[0063] Segun una segunda realizacion de la presente invencion, la MDCT deformada en el tiempo inversa comprende:
10 • ponderacion espectral
• transformada inversa
• remuestreo
• aplicacion de funcion ventana
• solapamiento y adicion.
15
[0064] Puede observarse que en caso de que no se aplique deformation, es decir, el caso en el que todos los mapas de deformacion normalizados sean triviales, (y<(t)=t), la realizacion de la presente invencion tal como se detallo anteriormente coincide exactamente con la MDCT habitual.
20 [0065] Ahora se describiran realizaciones adicionales de la presente invencion que incorporan las
caracterlsticas mencionadas anteriormente con referencia a las figuras 8 a 15.
[0066] La figura 8 muestra un ejemplo de un codificador de audio de la invencion que recibe una senal 100 de audio digital como entrada y que genera un flujo de bits que va a transmitirse a un descodificador que incorpora el
25 concepto de codification de transformada deformada en el tiempo de la invencion. La senal 100 de entrada de audio digital puede ser o bien una senal de audio natural o bien una senal de audio previamente procesada, en la que por ejemplo el procesamiento previo podrla ser una operation de blanqueo para blanquear el espectro de la senal de entrada. El codificador de la invencion incorpora un extractor 101 de parametros de deformacion, un transformador 102 de deformacion, un calculador 103 de modelo perceptual, un codificador 104 de deformacion, un codificador 30 105, y un multiplexor 106. El extractor 101 de parametros de deformacion estima una secuencia de parametros de deformacion, que se introduce en el transformador 102 de deformacion y en el codificador 104 de deformacion. El transformador 102 de deformacion deriva una representation espectral deformada en el tiempo de la senal 100 de entrada de audio digital. La representacion espectral deformada en el tiempo se introduce en el codificador 105 para cuantificacion y otra posible codificacion, como por ejemplo codificacion diferencial. El codificador 105 se controla 35 adicionalmente mediante el calculador 103 de modelo perceptual. Asl, por ejemplo, la imprecision de cuantificacion puede aumentarse cuando deben codificarse componentes de senal que estan enmascaradas principalmente mediante otras componentes de senal. El codificador 104 de deformacion codifica la secuencia de parametros de deformacion para reducir su tamano durante la transmision en el flujo de bits. Esto podrla comprender por ejemplo la cuantificacion de los parametros o, por ejemplo, tecnicas de codificacion por entropla o codificacion diferencial, asl 40 como esquemas de codificacion aritmetica.
[0067] El multiplexor 106 recibe la secuencia de parametros de deformacion codificada del codificador 104 de deformacion y una representacion espectral deformada en el tiempo codificada de la senal 100 de entrada de audio digital para multiplexar ambos datos en el flujo de bits emitido por el codificador.
45
[0068] La figura 9 ilustra un ejemplo de un descodificador de transformada deformada en el tiempo que recibe un flujo 200 de bits compatible para derivar una senal de audio reconstruida como salida. El descodificador comprende un demultiplexor 201, un descodificador 202 de deformacion, un descodificador 203, y un transformador 204 de deformacion inverso. El demultiplexor demultiplexa el flujo de bits en la secuencia de parametros de
50 deformacion codificada, que se introduce en el descodificador 202 de deformacion. El demultiplexor demultiplexa ademas la representacion codificada de la representacion espectral deformada en el tiempo de la senal de audio, que se introduce en el descodificador 203 que es el inverso del codificador 105 correspondiente del codificador de audio de la figura 8. El descodificador 202 de deformacion deriva una reconstruction de la secuencia de parametros de deformacion y el descodificador 203 deriva una representacion espectral deformada en el tiempo de la senal de 55 audio original. La representacion de la secuencia de parametros de deformacion, asl como la representacion espectral deformada en el tiempo, se introducen en el transformador 204 de deformacion inverso que deriva una senal de salida de audio digital que implementa el concepto de la invencion de codificacion de transformada solapada deformada en el tiempo de senales de audio.
60 [0069] La figura 10 muestra una realizacion adicional de un descodificador de transformada deformada en el
tiempo en el que la secuencia de parametros de deformacion se deriva en el propio descodificador. La realizacion alternativa mostrada en la figura 10 comprende un descodificador 203, un estimador 301 de deformacion, y un transformador 204 de deformacion inverso. El descodificador 203 y el transformador 204 de deformacion inverso comparten las mismas funcionalidades que los dispositivos correspondientes de la realizacion anterior y por tanto la 65 description de estos dispositivos en diferentes realizaciones es completamente intercambiable. El estimador 301 de deformacion deriva la deformacion real de la representacion espectral deformada en el tiempo emitida por el
descodificador 203 combinando estimaciones de tono de dominio de frecuencia anteriores con una estimacion de tono de dominio de frecuencia actual. Por tanto, la secuencia de parametros de deformacion se senaliza de manera impllcita, lo que tiene la gran ventaja de que puede ahorrarse la tasa de bits adicional porque no es necesario transmitir information de parametros de deformacion adicional en el flujo de bits introducido en el descodificador. Sin 5 embargo, la senalizacion impllcita de datos deformados esta limitada por la resolution de tiempo de la transformada.
[0070] La figura 11 ilustra la compatibilidad hacia atras del concepto de la invention, cuando se usan descodificadores de la tecnica anterior que no admiten el concepto de la invencion de la descodificacion deformada en el tiempo. Un descodificador de este tipo no considerarla la informacion de parametros de deformacion adicional,
10 descodificando as! el flujo de bits en una senal de dominio de frecuencia alimentada a un transformador 401 inverso que no implementa ninguna deformacion. Puesto que el analisis de frecuencia realizado por la transformation deformada en el tiempo en codificadores de la invencion esta bien alineado con la transformada que no incluye ninguna deformacion en el tiempo, un descodificador que ignore los datos de deformacion aun producirla una salida de audio significativa. Esto se realiza a expensas de una calidad de audio degradada debida a la deformacion en el
15 tiempo, que no se invierte en los descodificadores de la tecnica anterior.
[0071] La figura 12 muestra un diagrama de bloques del metodo de la invencion de transformacion deformada en el tiempo. La transformacion deformada en el tiempo de la invencion comprende la aplicacion 501 de funcion ventana, remuestreo 502, y una transformacion 503 de bloque. En primer lugar, se aplica una funcion
20 ventana a la senal de entrada con una secuencia de ventanas de solapamiento que depende de la secuencia de parametros de deformacion que sirve como entrada adicional para cada una de las etapas 501 a 503 de codification individuales. Cada segmento de senal de entrada al que se le ha aplicado una funcion ventana se remuestrea posteriormente en la etapa 502 de remuestreo, en la que se realiza un remuestreo tal como se indica mediante la secuencia de parametros de deformacion.
25
[0072] En la etapa 503 de transformacion de bloque, una transformada de bloque se deriva normalmente usando una transformada trigonometrica discreta bien conocida. La transformada se realiza por tanto en el segmento de senal al que se le ha aplicado una funcion ventana y remuestreado. Debe observarse que la transformada de bloque tambien depende de un valor de desfase, que se deriva de la secuencia de parametros de
30 deformacion. Por tanto, la salida consiste en una secuencia de tramas de dominio de transformada.
[0073] La figura 13 muestra un diagrama de flujo de un metodo de transformada deformada en el tiempo inversa. El metodo comprende las etapas de transformacion 601 de bloque inversa, aplicacion 602 de una funcion ventana, remuestreo 603 y solapamiento y adicion 604. Cada trama de una senal de dominio de transformada se
35 convierte en una senal de dominio de tiempo por medio de la transformacion 601 de bloque inversa. Correspondiendo a la etapa de codificacion, la transformada de bloque depende de un valor de desfase derivado de la secuencia de parametros recibida que sirve como entrada adicional a la transformacion 601 de bloque inversa, la aplicacion 602 de una funcion ventana y el remuestreo 603. Al segmento de senal derivado por la transformacion 601 de bloque se le aplica posteriormente una funcion ventana en la etapa de aplicacion 602 de funcion ventana y
40 se remuestrea en el remuestreo 603 usando la secuencia de parametros deformados. Finalmente, en el solapamiento y adicion 604 el segmento al que se le ha aplicado una funcion ventana y remuestreado se anade a los segmentos transformados previamente de manera inversa en una operation de solapamiento y adicion habitual, dando como resultado una reconstruction de la senal de salida de dominio de tiempo.
45 [0074] La figura 14 muestra una realization alternativa de un transformador deformado en el tiempo inverso
de la invencion, que se aplica para reducir adicionalmente la complejidad computacional. El descodificador comparte parcialmente las mismas funcionalidades con el descodificador de la figura 13. Por tanto, la description de los mismos bloques funcionales en ambas realizaciones es completamente intercambiable. La realizacion alternativa difiere de la realizacion de la figura 13 en que aplica una ponderacion 701 previa espectral antes de la
50 transformacion 601 de bloque inversa. Esta ponderacion previa espectral fija es equivalente a un filtrado de dominio de tiempo con periodicidades y simetrlas inducidas por la selection de la transformada de bloque. Una operacion de filtrado de este tipo es parte de ciertos metodos de remuestreo basados en splines, permitiendo una reduction de la complejidad computacional del remuestreo 702 modificado posterior. Tal remuestreo debe realizarse ahora en un dominio de senal con las periodicidades y simetrlas inducidas por la seleccion de la transformada de bloque. Por
55 tanto, una etapa 703 de aplicacion de funcion ventana modificada se realiza despues del remuestreo 702. Finalmente, en el solapamiento y adicion 604, el segmento al que se le ha aplicado una funcion ventana y remuestreado se anade al segmento transformado previamente de manera inversa en un procedimiento de solapamiento y adicion habitual proporcionando la senal de salida de dominio de tiempo reconstruida.
60 [0075] Las figuras 15a y 15b muestran la intensidad del concepto de la invencion de codificacion deformada
en el tiempo, mostrando representaciones espectrales de la misma senal con y sin aplicacion de deformacion en el tiempo. La figura 15a ilustra una trama de llneas espectrales que se originan a partir de una transformada de coseno discreta modificada con un tamano de transformada de 1024 de un segmento de senal de habla masculina muestreado a 16 kHz. La resolucion de frecuencia resultante es de 7,8 Hz y solo se trazan las primeras 600 llneas
65 para su ilustracion, correspondientes a un ancho de banda de 4,7 kHz. Tal como puede observarse a partir de la frecuencia fundamental y el grafico, el segmento es un sonido vocal con un tono medio de aproximadamente 155
Hz. Tal como puede observarse ademas a partir de la figura 15a, los pocos primeros armonicos de la frecuencia de tono son claramente distinguibles, pero hacia frecuencias altas, el analisis se hace cada vez mas denso y aleatorio. Esto se debe a la variacion del tono en la longitud del segmento de senal que se va a analizar. Por tanto, la codificacion de los intervalos de frecuencia media a alta requiere una cantidad sustancial de bits con el fin de no 5 introducir artefactos audibles en la descodificacion. Por el contrario, cuando se fija la tasa de bits, inevitablemente se obtendra una cantidad sustancial de distorsion a partir de la demanda de aumentar la imprecision de la cuantificacion.
[0076] La figura 15b ilustra una trama de llneas espectrales que se originan a partir de una transformada de 10 coseno discreta modificada deformada en el tiempo segun la presente invencion. Evidentemente, se ha usado la
misma senal de audio masculina original que en la figura 15a. Los parametros de transformada son los mismos que para la figura 15a, aunque el uso de una transformada deformada en el tiempo adaptada a la senal tiene el efecto drastico visible sobre la representacion espectral. El caracter poco denso y organizado de la senal en el dominio de transformada deformada en el tiempo proporciona una codificacion con un rendimiento de distorsion de tasa mucho 15 mejor, incluso cuando se considera el coste de codificar los datos de deformacion adicionales.
[0077] Tal y como se ha mencionado anteriormente, la transmision de parametros de deformacion en lugar de la transmision de informacion de velocidad o tono tiene la gran ventaja de disminuir de manera drastica la tasa de bits requerida. Por tanto, en los parrafos siguientes, se detallan varios esquemas de la invencion para transmitir la
20 informacion de parametros de deformacion requerida.
[0078] Para una senal con una deformacion a(t) en un tiempo t, la seleccion optima de la secuencia y de
mapa de deformacion normalizado para las bases de coseno locales (veanse (8), (12)) se obtiene resolviendo
V'lO-k)
M-k)
= <t),
k£t <k+l
(24)
25 [0079] Sin embargo, la cantidad de informacion requerida para describir esta secuencia de mapas de
deformacion es demasiado grande y la definicion y medicion de valores puntuales de a(t) es diflcil. Con fines practicos, se decide un intervalo At de actualization de deformacion y cada mapa y de deformacion se describe por N=1/At parametros. Un intervalo de actualizacion de deformacion de aproximadamente 10 a 20 ms es normalmente suficiente para senales del habla. De manera similar a la construccion en (9) de f a partir de y y y+1, puede 30 reconstruirse un mapa de deformacion normalizado continuamente diferenciable mediante N mapas de deformacion normalizados a traves de operaciones de reajuste a escala afines adecuadas. Ejemplos prototipo de mapas de deformacion normalizados incluyen
imagen19
donde aes un parametro de deformacion. Definiendo la deformacion de un mapa h(t) por h”/h’, los tres mapas 35 consiguen una deformacion igual a aen t=1/2. El mapa exponencial tiene una deformacion constante en todo el intervalo 0<t<1, y para valores pequenos de a los otros dos mapas muestran una desviacion muy pequena con respecto a este valor constante.
[0080] Para un mapa de deformacion determinado aplicado en el descodificador para el remuestreo (23),se 40 requiere su inversa en el codificador para el remuestreo (ecuacion 18). Una parte principal del esfuerzo para la
inversion se origina a partir de la inversion de los mapas de deformacion normalizados. La inversion de un mapa cuadratico requiere operaciones de ralz cuadrada, la inversion de un mapa exponencial requiere un logaritmo, y la inversa del mapa de Moebius racional es un mapa de Moebius con parametro de deformacion negado. Debido a que las funciones exponenciales y divisiones son comparablemente caras, una atencion a una facilidad maxima de 45 calculo en el descodificador lleva a la seleccion preferida de una secuencia y de mapas de deformacion cuadraticos por partes.
[0081] El mapa y de deformacion normalizado se define entonces completamente por N parametros ak(0),ak(1),..., ak(N-1) de deformacion con los requisitos de que
50 • es un mapa de deformacion normalizado;
5
10
15
20
se reconstruye mediante copias reajustadas a escala de uno de los mapas (25) de deformacion prototipo uniformes; es continuamente diferenciable; cumple
imagen20
imagen21
(26)
[0082] La presente invencion ensena que los parametros de deformacion pueden cuantificarse linealmente,
normalmente hasta un tamano de paso de aproximadamente 0,5 Hz. A continuacion se codifican los valores enteros resultantes. Como alternativa, la derivada y’k puede interpretarse como una curva de tono normalizada en la que se cuantifican los valores
j
rt(0)
imagen22
(27)
hasta un tamano de paso fijo, normalmente de 0,005. En este caso, a los valores enteros resultantes se les aplica una codificacion diferencial adicional, secuencialmente o de manera jerarquica. En ambos casos, la tasa de bits de information secundaria resultante es normalmente de unos pocos cientos de bits por segundo, que es solo una fraction de la tasa requerida para describir datos de tono en un codec del habla.
[0083] Un codificador con amplios recursos computacionales puede determinar la secuencia de datos de
deformacion que reduce de manera optima el coste de codificacion o maximiza una medida de dispersion de llneas espectrales. Un procedimiento menos caro es usar metodos bien conocidos para el seguimiento del tono que dan como resultado una funcion p(t) de tono medida y luego aproximan la curva de altura tonal con una funcion po(t) lineal por partes en aquellos intervalos en los que existe el seguimiento de tono y no muestra grandes saltos en los valores de tono. La secuencia de deformacion estimada viene determinada entonces por
imagen23
en los intervalos de seguimiento de tono. Fuera de esos intervalos la deformacion se establece a cero. Observese que un error sistematico en las estimaciones de tono, tal como una duplication del periodo de tono, tiene un efecto 25 muy reducido sobre las estimaciones de deformacion.
[0084] Tal como se ilustra en la figura 10, en una realization alternativa de la presente invencion, la
secuencia de parametros deformados puede derivarse de los datos de dominio de transformada descodificados por un estimador de deformacion. El principio es calcular una estimation de tono de dominio de frecuencia para cada 30 trama de datos de transformada o de tonos de bloques de senales descodificadas posteriores. La informacion de deformacion se deriva entonces de una formula similar a la formula 28.
[0085] La aplicacion del concepto de la invencion se ha descrito principalmente aplicando la deformacion en
el tiempo de la invencion en un escenario de canal de audio unico. El concepto de la invencion no esta limitado 35 evidentemente de ningun modo al uso en un escenario monofonico de este tipo. Puede ser ademas extremadamente ventajoso usar la ganancia de codificacion alta que se puede conseguir mediante el concepto de la invencion en aplicaciones de codificacion multicanal, en las que el canal unico o multiple que tiene que transmitirse puede codificarse usando el concepto de la invencion.
40 [0086] Ademas, la deformacion podrla definirse en general como una transformation del eje x de una funcion
arbitraria que depende de x. Por tanto, el concepto de la invencion tambien puede aplicarse a escenarios en los que
funciones o la representation de senales estan deformadas de forma que no dependen expllcitamente del tiempo. Por ejemplo, tambien puede aplicarse la deformacion de una representacion de frecuencia de una senal.
45 [0087] Ademas, el concepto de la invencion tambien puede aplicarse ventajosamente a senales que estan
segmentadas con una longitud de segmento arbitraria y no con una longitud igual, tal como se describio en los
parrafos anteriores.
[0088] El uso de las funciones base y la discretization presentadas en los parrafos anteriores debe
50 entenderse ademas como un ejemplo ventajoso de aplicar el concepto de la invencion. Para otras aplicaciones, tambien pueden usarse diferentes funciones base as! como diferentes discretizaciones. Dependiendo de ciertos
requisitos de aplicacion de los metodos de la invencion, los metodos de la invencion pueden aplicarse en hardware o en software. La aplicacion puede realizarse usando un medio de almacenamiento digital, en particular un disco, DVD o un CD que tenga senales de control legibles electronicamente almacenadas en el mismo, que funcionen conjuntamente con un sistema informatico programable de modo que se realicen los metodos de la invencion. En 5 general, la presente invencion es, por tanto, un producto de programa informatico con un codigo de programa almacenado en un soporte legible por ordenador, estando operativo el codigo de programa para realizar los metodos de la invencion cuando el producto de programa informatico se ejecuta en un ordenador. En otras palabras, los metodos de la invencion son, por tanto, un programa informatico que tienen un codigo de programa para realizar al menos uno de los metodos de la invencion cuando el programa informatico se ejecuta en un ordenador.
10
[0089] Aunque lo anterior se ha mostrado y descrito particularmente con referencia a realizaciones
particulares de la misma, los expertos en la tecnica entenderan que pueden realizarse otros cambios diferentes en la forma y detalles sin apartarse del alcance de la misma. Debe entenderse que varios cambios pueden realizarse. El alcance de la presente invencion se encuentra definido por las reivindicaciones adjuntas.
15

Claims (12)

  1. REIVINDICACIONES
    1. Codificador de audio de la invencion que recibe una senal de audio digital como entrada (100) y que
    genera un flujo de bits que va a transmitirse a un descodificador, que incorpora:
    un extractor de parametros de deformacion (101) para estimar una secuencia de parametros de deformacion de la senal de entrada de audio (100);
    un transformador de deformacion (102) para recibir la secuencia del parametro de deformacion y para derivar una representacion espectral deformada en el tiempo de la senal de entrada de audio(100);
    10 un calculador de modelo perceptual (103) para recibir la senal de entrada de audio (100);
    un codificador de deformacion (104) para codificar la secuencia del parametro de deformacion para reducir su tamano durante la transmision dentro del flujo de bits;
    un codificador (105) para recibir la representacion espectral deformada en el tiempo para su cuantificacion para obtener una representacion espectral deformada en el tiempo codificada de la senal de entrada de audio, en el cual 15 el codificador (105) es controlado mediante el calculador de modelo perceptual (103); y
    un multiplexor (106) para recibir y multiplexar la secuencia del parametro de deformacion codificada y la representacion espectral deformada en el tiempo codificada de la senal de entrada de audio.
    20 2. Codificador de audio segun la reivindicacion 1,
    en el cual la representacion espectral deformada en el tiempo codificada de la senal de entrada de audio comprende una representacion de la senal de entrada de audio que comprende una primera trama, una segunda trama que sigue a la primera trama, y una tercera trama que sigue a la segunda trama,
    25 comprendiendo el extractor de parametros de deformacion (101) un estimador de deformacion para estimar primera information de deformacion para la primera y la segunda trama y para estimar una segunda information de deformacion para la segunda trama y la tercera trama, describiendo la informacion de deformacion una informacion de tono de la senal de audio;
    30 comprendiendo el transformador de deformacion (102) un analizador espectral para derivar primeros coeficientes espectrales para la primera y la segunda trama usando la primera informacion de deformacion y para derivar segundos coeficientes espectrales para la segunda y la tercera trama usando la segunda informacion de deformacion; y
    comprendiendo el multiplexor (106) una interfaz de salida para emitir la representacion de la senal de audio que 35 incluye los primeros y los segundos coeficientes espectrales
  2. 3. Codificador de audio segun la reivindicacion 2, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que un tono en una representacion deformada de tramas, la representacion deformada derivada de tramas transformando el eje de tiempo de la senal de audio en las tramas tal
    40 como se indica por la informacion de deformacion, es mas constante que un tono en las tramas.
  3. 4. Codificador de audio segun la reivindicacion 2, en el que el estimador de deformacion esta operativo para estimar la informacion de deformacion de modo que se combinan una primera informacion de deformacion intermedia de una primera trama correspondiente y una segunda informacion de deformacion intermedia de una
    45 segunda trama correspondiente, usando una regla de combinacion.
  4. 5. Codificador de audio segun la reivindicacion 4, en el que la regla de combination es de manera que se concatenan secuencias de parametros de deformacion reajustados a escala de la primera informacion de deformacion intermedia con secuencias de parametros de deformacion reajustados a escala de la segunda
    50 informacion de deformacion intermedia.
  5. 6. Codificador de audio segun la reivindicacion 5, en el que la regla de combinacion es de manera que la informacion de deformacion resultante comprende una secuencia de parametros de deformacion continuamente diferenciable.
    55
  6. 7. Codificador de audio segun la reivindicacion 2, en el que el analizador espectral esta adaptado para derivar los coeficientes espectrales usando una representacion ponderada de dos tramas aplicando una funcion ventana a las dos tramas, en el que la funcion ventana depende de la informacion de deformacion.
    60 8. Decodificador de transformada deformada en el tiempo para derivar una senal de audio reconstruida,
    comprendiendo:
    un demultiplexor (201) para demultiplexar un flujo de bits en una secuencia de parametros de deformacion codificada y una representacion codificada de la representacion espectral deformada en el tiempo; un descodificador de deformacion (292) para decodificar la secuencia de parametros de deformacion codificada para 65 derivar una reconstruction de la secuencia de parametros de deformacion;
    un decodificador (203) para decodificar la representacion codificada de la representacion espectral deformada en el
    tiempo para derivar una representacion espectral deformada en el tiempo de una senal de audio; y un transformador de deformacion inverso (204) para recibir la reconstruccion de la secuencia de parametros de deformacion y la representacion espectral deformada en el tiempo de la senal de audio y para derivar la senal de salida de audio reconstruida utilizando una codificacion de transformada solapada deformada en el tiempo.
    5
  7. 9. Un decodificador de transformada deformada en el tiempo segun la reivindicacion 8,
    en el que el decodificador (203) este configurado para reconstruir una senal de audio que tiene una primera trama, una segunda trama que sigue a la primera trama y una tercera trama que sigue a la segunda trama, usando primera information de deformacion, describiendo la primera information de deformacion una information de tono de la 10 senal de audio para la primera y la segunda trama, segunda informacion de deformacion, describiendo la segunda informacion de deformacion una informacion de tono de la senal de audio para la segunda y la tercera trama, primeros coeficientes espectrales para la primera y la segunda trama y segundos coeficientes espectrales para la segunda y la tercera trama,
    comprendiendo el descodificador (203) un procesador de valores espectrales para derivar una primera trama 15 combinada usando los primeros coeficientes espectrales y la primera informacion de deformacion, teniendo la primera trama combinada informacion sobre la primera y sobre la segunda trama, y para derivar una segunda trama combinada usando los segundos coeficientes espectrales y la segunda informacion de deformacion, teniendo la segunda trama combinada informacion sobre la segunda y la tercera trama; y un sintetizador para reconstruir la segunda trama usando la primera trama combinada y la segunda trama combinada.
    20
  8. 10. Un decodificador de transformada deformada en el tiempo segun la reivindicacion 9, en el que el procesador de valores espectrales esta operativo para usar funciones de base de coseno para derivar las tramas combinadas, dependiendo las funciones de base de coseno de la informacion de deformacion de manera que usar las funciones de base de coseno sobre los coeficientes espectrales proporciona una representacion no ponderada
    25 deformada en el tiempo de una trama combinada.
  9. 11. Un decodificador de transformada deformada en el tiempo segun la reivindicacion 9,en el que el procesador de valores espectrales esta operativo para usar una funcion ventana para aplicar pesos a valores de muestra de las tramas combinadas, dependiendo la funcion ventana de la informacion de deformacion de manera
    30 que cuando se aplican los pesos a la representacion no ponderada deformada en el tiempo de una trama combinada, proporciona una representacion deformada en el tiempo de una trama combinada.
  10. 12. Un decodificador de transformada deformada en el tiempo segun la reivindicacion 9, en el que el procesador de valores espectrales esta operativo para usar informacion de deformacion para derivar una trama
    35 combinada transformando el eje de tiempo de representaciones de tramas combinadas como se indica por la informacion de deformacion.
    13 Metodo de codificacion de audio, comprendiendo:
    recibir una senal de entrada de audio (100);
    40 estimar (101) una secuencia de parametros de deformacion de la senal de entrada de audio;
    derivar (102) una representacion espectral deformada en el tiempo de la senal de entrada de audio (100) utilizando la secuencia de parametros de deformacion;
    codificar (104) la secuencia de parametros de deformacion para reducir su tamano durante la transmision en el flujo de bits;
    45
    cuantificar (105) la representacion espectral deformada en el tiempo para obtener una representacion espectral deformada en el tiempo codificada de la senal de entrada de audio, donde la cuantificacion (105) este controlada por un calculador de modelo perceptual (103); y
    multiplexar (106) la secuencia de parametros de deformacion codificada y la representacion espectral deformada en 50 el tiempo codificada de la senal de entrada de audio.
  11. 14. Metodo de decodificacion de transformada deformada en el tiempo para la derivation de una senal de audio reconstruida, comprendiendo:
    demultiplexar (201) un flujo de bits en una secuencia de parametros de deformacion codificada y una representacion 55 codificada de la representacion espectral deformada en el tiempo;
    decodificar (202) la secuencia de parametros de deformacion para derivar una reconstruccion de la secuencia de parametros de deformacion;
    decodificar (203) la representacion codificada de la representacion espectral deformada en el tiempo para derivar una representacion espectral deformada en el tiempo de una senal de audio; y 60 derivar (204) la senal de salida de audio reconstruida utilizando una codificacion de transformada solapada deformada en el tiempo mediante la reconstruccion de la secuencia de parametros de deformacion y la representacion espectral deformada en el tiempo de la senal de audio.
  12. 15. Programa informatico que tiene un codigo de programa adaptado para realizar, cuando se ejecuta en 65 un ordenador, cualquiera de los metodos de las reivindicaciones 13 o 14.
ES10183308.5T 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo Active ES2646814T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US464176 1999-12-16
US73351205P 2005-11-03 2005-11-03
US733512P 2005-11-03
US11/464,176 US7720677B2 (en) 2005-11-03 2006-08-11 Time warped modified transform coding of audio signals

Publications (1)

Publication Number Publication Date
ES2646814T3 true ES2646814T3 (es) 2017-12-18

Family

ID=37507461

Family Applications (5)

Application Number Title Priority Date Filing Date
ES08008361.1T Active ES2604758T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES17193127T Active ES2863667T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada distorsionada temporal de señales de audio
ES06792443T Active ES2307287T3 (es) 2005-11-03 2006-10-24 Codificacion de señales de audio por transformada modificada deformada en el tiempo.
ES10183308.5T Active ES2646814T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES21156798T Active ES2967257T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada deformada temporal de señales de audio

Family Applications Before (3)

Application Number Title Priority Date Filing Date
ES08008361.1T Active ES2604758T3 (es) 2005-11-03 2006-10-24 Codificación de señales de audio por transformada modificada deformada en el tiempo
ES17193127T Active ES2863667T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada distorsionada temporal de señales de audio
ES06792443T Active ES2307287T3 (es) 2005-11-03 2006-10-24 Codificacion de señales de audio por transformada modificada deformada en el tiempo.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES21156798T Active ES2967257T3 (es) 2005-11-03 2006-10-24 Codificación por transformada modificada deformada temporal de señales de audio

Country Status (14)

Country Link
US (3) US7720677B2 (es)
EP (7) EP2306455B1 (es)
JP (4) JP4927088B2 (es)
KR (1) KR100959701B1 (es)
CN (2) CN102592602B (es)
AT (1) ATE395687T1 (es)
DE (1) DE602006001194D1 (es)
DK (1) DK1807825T3 (es)
ES (5) ES2604758T3 (es)
HK (2) HK1105159A1 (es)
MY (1) MY141264A (es)
PL (1) PL1807825T3 (es)
TW (1) TWI320172B (es)
WO (1) WO2007051548A1 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
TWI455064B (zh) * 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
AU2013206265B2 (en) * 2008-07-11 2015-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Providing a time warp activation signal and encoding an audio signal therewith
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2211335A1 (en) 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
EP2674943B1 (en) 2009-01-28 2015-09-02 Dolby International AB Improved harmonic transposition
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
US9338523B2 (en) * 2009-12-21 2016-05-10 Echostar Technologies L.L.C. Audio splitting with codec-enforced frame sizes
CA2792500C (en) * 2010-03-10 2016-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
EP2372704A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
KR101809298B1 (ko) * 2010-10-06 2017-12-14 파나소닉 주식회사 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
SG192721A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
SG192745A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
WO2014108393A1 (en) 2013-01-08 2014-07-17 Dolby International Ab Model based prediction in a critically sampled filterbank
CA2964362C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN110998722B (zh) * 2017-07-03 2023-11-10 杜比国际公司 低复杂性密集瞬态事件检测和译码
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519830A1 (de) * 1985-06-03 1986-12-18 Ruhrkohle Ag, 4300 Essen Verfahren zur kohlehydrierung mit integrierten raffinationsstufen
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
JPH0546199A (ja) * 1991-08-21 1993-02-26 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
AU3690197A (en) 1996-08-02 1998-02-25 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
PL193723B1 (pl) * 1997-04-07 2007-03-30 Koninkl Philips Electronics Nv Sposób i urządzenie do kodowania sygnału mowy oraz sposób i urządzenie do dekodowania sygnału mowy
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
AU2001276893A1 (en) 2000-07-13 2002-01-30 Qualcomm Incorporated Maximum distance block coding scheme
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
EP1262952B1 (en) * 2001-05-28 2006-08-16 Texas Instruments Incorporated Programmable melody generator
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
DE60232560D1 (de) 2001-08-31 2009-07-16 Kenwood Hachioji Kk Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.
JP3994332B2 (ja) * 2001-09-27 2007-10-17 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
EP1439524B1 (en) 2002-07-19 2009-04-08 NEC Corporation Audio decoding device, decoding method, and program
CN1290036C (zh) 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
EP1604352A4 (en) * 2003-03-15 2007-12-19 Mindspeed Tech Inc SINGLE NOISE DELETION MODEL
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
DE602007004502D1 (de) * 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102150201B (zh) * 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Also Published As

Publication number Publication date
CN101351840B (zh) 2012-04-04
EP4290512A2 (en) 2023-12-13
JP6125324B2 (ja) 2017-05-10
EP4290513A3 (en) 2024-02-14
KR100959701B1 (ko) 2010-05-24
ES2967257T3 (es) 2024-04-29
TW200719319A (en) 2007-05-16
MY141264A (en) 2010-04-16
PL1807825T3 (pl) 2009-01-30
JP4927088B2 (ja) 2012-05-09
EP3319086A1 (en) 2018-05-09
HK1254427A1 (zh) 2019-07-19
ES2307287T3 (es) 2008-11-16
KR20080066760A (ko) 2008-07-16
US20100204998A1 (en) 2010-08-12
US7720677B2 (en) 2010-05-18
EP2306455A1 (en) 2011-04-06
EP3319086B1 (en) 2021-02-17
EP1807825B1 (en) 2008-05-14
HK1105159A1 (en) 2008-02-01
ES2863667T3 (es) 2021-10-11
EP2306455B1 (en) 2017-09-27
US20130218579A1 (en) 2013-08-22
EP3852103A1 (en) 2021-07-21
EP1807825A1 (en) 2007-07-18
ATE395687T1 (de) 2008-05-15
JP2012068660A (ja) 2012-04-05
US8412518B2 (en) 2013-04-02
EP4290512A3 (en) 2024-02-14
EP1953738A1 (en) 2008-08-06
DK1807825T3 (da) 2008-09-08
EP3852103B1 (en) 2023-11-29
JP6084595B2 (ja) 2017-02-22
EP4290513A2 (en) 2023-12-13
US20070100607A1 (en) 2007-05-03
EP1953738B1 (en) 2016-10-12
JP2013210654A (ja) 2013-10-10
TWI320172B (en) 2010-02-01
ES2604758T3 (es) 2017-03-09
US8838441B2 (en) 2014-09-16
DE602006001194D1 (de) 2008-06-26
WO2007051548A1 (en) 2007-05-10
JP2009515207A (ja) 2009-04-09
CN102592602A (zh) 2012-07-18
JP5323164B2 (ja) 2013-10-23
CN102592602B (zh) 2015-11-25
CN101351840A (zh) 2009-01-21
JP2015018274A (ja) 2015-01-29

Similar Documents

Publication Publication Date Title
ES2646814T3 (es) Codificación de señales de audio por transformada modificada deformada en el tiempo
ES2231090T3 (es) Codificador de audio con sub-bandas basado en la conmutacion de bloques.
ES2599007T3 (es) Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal
ES2651437T3 (es) Codificador de audio y decodificador de audio
ES2873977T3 (es) Codificador, decodificador y métodos para la transformada por ampliación dependiente de señales en la codificación espacial de objetos de audio
ES2769845T3 (es) Predicción basada en modelo en un banco de filtros
ES2558508T3 (es) Método de codificación, codificador, método de determinación de la cantidad de una característica periódica, aparato de determinación de la cantidad de una característica periódica, programa y medio de grabación
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
ES2400987T3 (es) Atenuación de pre-ecos en una señal de audio digital
ES2646021T3 (es) Método y aparato para codificación, procesamiento y decodificación de envolvente de señal de audio mediante modelado de una representación de suma acumulativa que emplea cuantificación de distribución y codificación
ES2635026T3 (es) Aparato y procedimiento de codificación, procesamiento y decodificación de envolvente de señal de audio por división de la envolvente de la señal de audio utilizando cuantización y codificación de distribución