ES2458354T3 - Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo - Google Patents

Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo Download PDF

Info

Publication number
ES2458354T3
ES2458354T3 ES11707665T ES11707665T ES2458354T3 ES 2458354 T3 ES2458354 T3 ES 2458354T3 ES 11707665 T ES11707665 T ES 11707665T ES 11707665 T ES11707665 T ES 11707665T ES 2458354 T3 ES2458354 T3 ES 2458354T3
Authority
ES
Spain
Prior art keywords
distortion
time
audio signal
encoded
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11707665T
Other languages
English (en)
Inventor
Stefan Bayer
Tom BÄCKSTRÖM
Ralf Geiger
Bernd Edler
Sascha Disch
Lars Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2458354T3 publication Critical patent/ES2458354T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un decodificador de señal de audio (200;350) que provee una representación de señal de audio decodificada (212) teniendo en cuenta una representación de señal de audio codificada (112, 210) que comprende información de frecuencia de muestreo (218), información de distorsión en el tiempo codificada (216, índice(i) dt)) y una representación de espectro codificada (214, datos_espectrales_ar), el decodificador de señal de audio comprende: Un calculador de distorsión en el tiempo (230, 604) configurado para mapear la información de distorsión en el tiempo codificada (216, índice(i) dt)) en una información de distorsión en el tiempo decodificada (232, tbl (índice(i)_valor_ distorsión), Prel). Donde el calculador de distorsión en el tiempo se configura para adaptar una regla de mapeo para mapear palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) que describen la información de distorsión en el tiempo decodificada (232) dependiendo de la información de frecuencia de muestreo (218); y Un decodificador de distorsión (240) configurado para proveer una representación de señal de audio decodificada (212) teniendo en cuenta la representación de espectro codificada (214, datos()- espectrales_ar) y dependiendo de la información de distorsión en el tiempo decodificada (232).

Description

Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo
Antecedentes de la invención
[0001] Las realizaciones de acuerdo con la invención se relacionan con un decodificador de señal de audio. Otras realizaciones de acuerdo con la invención se relacionan con un codificador de señal de audio. Otras realizaciones de acuerdo con la invención se relacionan con un procedimiento para decodificar una señal de audio, con un procedimiento para codificar una señal de audio y con un programa de ordenador.
[0002] Algunas realizaciones de acuerdo con la invención se relacionan con una cuantización de variación de tono que depende de la frecuencia de muestreo.
[0003] A continuación se enuncia una breve introducción en el campo de la codificación de audio de distorsión en el tiempo, cuyos conceptos podrán aplicarse junto con algunas realizaciones de la invención.
[0004] En los últimos años, se han desarrollado técnicas para transformar una señal de audio a una representación en dominio de frecuencia, y para codificar de modo eficiente la representación en dominio de frecuencia, por ejemplo, teniendo en cuenta valores umbrales de máscara perceptual. Este concepto de codificación de señal de audio es particularmente eficiente si la longitud de bloque, para la cual se transmite un grupo de coeficientes espectrales codificados, es largo y si sólo un número comparativamente pequeño de coeficientes espectrales se encuentran sobre el valor umbral de máscara global mientras un número grande de coeficientes espectrales se encuentran cerca o debajo del valor umbral de máscara global podrán ser abandonados (o codificados con una longitud mínima de código). Un espectro en el cual se mantiene dicha condición se denomina a veces espectro dimensional.
[0005] Por ejemplo, las transformadas solapadas moduladas basadas en coseno o seno se usan a menudo en aplicaciones para la codificación de fuente debido a sus propiedades de compactado de energía. Es decir, para tonos armónicos con frecuencias fundamentales constantes (tono), concentran la energía de señal a una baja cantidad de componentes espectrales (sub-bandas), que da por resultado una representación de señal eficiente.
[0006] Generalmente, el tono (fundamental) de una señal se entiende como frecuencia dominante más baja que se distingue del espectro de la señal. En el modelo de discurso común, el tono es la frecuencia de la señal de excitación modulada por la garganta humana. Si sólo hubiere una sola frecuencia fundamental presente, el espectro sería extremadamente simple, comprendiendo la frecuencia fundamental y los sobretonos solamente. Dicho espectro podría ser codificado muy eficientemente. Para señales con tono variable, sin embargo, la energía correspondiente a cada componente armónico se expande sobre varios coeficientes de transformadas reduciendo así la eficiencia en la codificación.
[0007] Para solucionar la reducción de la eficiencia en la codificación, la señal de audio a codificar es re-muestreada en forma efectiva en una grilla temporal no uniforme. En el procesamiento siguiente, las posiciones de muestreo obtenidas por el re-muestreo no uniforme. Se procesan como si representaran valores en una grilla temporal uniforme. Esta operación se denota comúnmente con la frase “distorsión de tiempo”. Los tiempos de muestreo podrán elegirse en forma ventajosa dependiendo de la variación temporal del tono, de modo que la variación del tono en la versión de tiempo distorsionado de la señal de audio es menor a la variación del tono en la versión original de la señal de audio (antes de la distorsión en el tiempo). Luego de la distorsión en el tiempo de la señal de audio, la versión de tiempo distorsionado de la señal de audio se convierte en dominio de frecuencia. La distorsión en el tiempo que depende del tono hace que la representación de dominio de frecuencia de la señal distorsionada en el tiempo exhiba típicamente una compresión de energía en un número mucho menor de componentes espectrales que la representación de dominio de frecuencia del original (señal de audio no distorsionada en el tiempo).
[0008] Del lado del decodificador la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo se convierte en dominio de tiempo, de modo que la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo queda disponible del lado del decodificador. Sin embargo, en la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruido del lado del decodificador, las variaciones del tono original de la señal de audio ingresada del lado del codificador no están incluidas. En consecuencia, se aplica otra distorsión en el tiempo al remuestrear la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruida del lado del decodificador.
[0009] Para obtener una buena reconstrucción de la señal de audio ingresada del lado del codificador en el decodificador, es deseable que la distorsión en el tiempo del lado del decodificador sea al menos aproximadamente la operación inversa con respecto a la distorsión en el tiempo del lado del codificador. Para obtener una distorsión apropiada, es deseable contar con información en el decodificador, que permita el ajuste de la distorsión en el tiempo del lado del decodificador.
[0010] El documento US 2007/0100607 describe el distorsionador de tiempo en el lado descodificador, basado en el parámetro de distorsión transmitido.
[0011] Como típicamente se necesita para transferir dicha información desde el codificador de la señal de audio al decodificador de la señal de audio, es deseable mantener la velocidad de bits necesaria para esta transmisión baja permitiendo a la vez una reconstrucción confiable de la información de distorsión en el tiempo necesaria del lado del decodificador.
[0012] Teniendo en cuenta esta situación, existe la necesidad de obtener un concepto que permita una reconstrucción confiable de la información de distorsión en el tiempo teniendo en cuenta una representación codificada de modo eficiente de la información de distorsión en el tiempo.
Síntesis de la Invención
[0013] Una realización de acuerdo con la invención crea un decodificador de audio que provee una representación de señal de audio decodificada teniendo en cuenta una señal de audio codificada que comprende información de frecuencia de muestreo, información de distorsión en el tiempo codificada y una representación de espectro codificada. El decodificador de la señal de audio comprende un calculador de distorsión en el tiempo (que por ejemplo podrá tomar la función de decodificador de distorsión en el tiempo) y un decodificador de distorsión. El calculador de distorsión en el tiempo mapea la información de distorsión en el tiempo codificada en información de distorsión en el tiempo decodificada. El calculador de distorsión en el tiempo adapta una regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados que describen la información de distorsión en el tiempo decodificada dependiendo de la información de frecuencia de muestreo. El decodificador de distorsión provee la información de distorsión en el tiempo decodificada teniendo en cuenta la representación de espectro codificada y dependiendo de la información de distorsión en el tiempo decodificada.
[0014] Esta realización de acuerdo con la invención se basa en el concepto que una distorsión en el tiempo (que por ejemplo, se describe por un contorno de distorsión en el tiempo) puede ser eficientemente codificada si la regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados se adapta a la tasa de muestreo ya que se descubrió que es deseable representar una mayor distorsión en el tiempo por muestra para frecuencias de muestreo menores que para frecuencias de muestreo mayores. Se descubrió que este deseo surge del hecho que es ventajoso si una distorsión en el tiempo por unidad de tiempo, representable por un grupo de palabras codificadas de la información de distorsión en el tiempo codificada, es aproximadamente independiente de la frecuencia de muestreo, y en consecuencia una distorsión en el tiempo representable por un grupo dado de palabras codificadas debería ser mayor para frecuencias de muestreo menores que para frecuencias de muestreo mayores teniendo en cuenta que el número de palabras codificadas de distorsión en el tiempo por muestra de audio (o por cuadro de audio) permanece al menos aproximadamente constante independientemente de la frecuencia de muestreo real.
[0015] En síntesis, resulta ventajoso adaptar la regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada (denominada también como palabras codificadas de distorsión en el tiempo) en valores de distorsión en el tiempo decodificados dependiendo de la frecuencia de muestreo de la señal de audio codificada (representada por la representación de señal de audio codificada) ya que se representa así los valores de distorsión en el tiempo relevantes usando un pequeño (y en consecuencia eficiente en velocidad de bits) grupo de palabras codificadas en distorsión en el tiempo para e caso de frecuencia de muestreo alta y para el caso de frecuencia de muestreo baja.
[0016] Al adaptar la regla de mapeo, es posible codificar un rango comparativamente menor de valores de distorsión en el tiempo usando una resolución mayor para una frecuencia de muestreo comparativamente alta y para codificar un rango comparativamente mayor de valores de distorsión en el tiempo con una resolución más gruesa para una frecuencia de muestreo comparativamente pequeña, que a su vez aporta una buena eficiencia en la velocidad de bits.
[0017] En una realización preferida, las palabras codificadas de la información de distorsión en el tiempo codificada describen una evolución temporal de un contorno de distorsión en el tiempo. El calculador de distorsión en el tiempo preferentemente evalúa un número predeterminado de palabras codificadas de la información de distorsión en el tiempo codificada para un cuadro de audio de una señal de audio codificada representada por la representación de señal de audio codificada. El número predeterminado de palabras codificadas es independiente de una frecuencia de muestreo de la señal de audio codificada. En consecuencia, se puede lograr que el formato de secuencia de bits permanezca substancialmente independiente de la frecuencia de muestreo siendo posible a la vez codificar de modo eficiente la distorsión en el tiempo. Al usar un número predeterminado de palabras codificadas de distorsión en el tiempo para un cuadro de audio de la señal de audio codificada, donde el número predeterminado es preferentemente independiente de la frecuencia de muestreo de la señal de audio codificada, el formato de la secuencia de bits no cambia con la frecuencia de muestreo y el analizador de secuencia de bits de un decodificador
de audio no necesita ser ajustado a la frecuencia de frecuencia. Sin embargo, una codificación eficiente de la distorsión en el tiempo se logra adaptando la regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados, ya que el mapeo de las palabras codificadas de distorsión en el tiempo en valores de distorsión en el tiempo decodificados pueden adaptarse a la frecuencia de muestreo de modo que un rango representable de los valores de distorsión en el tiempo trae consigo un buen compromiso entre la resolución y una máxima distorsión en el tiempo codificable para diferentes frecuencias de muestreo.
[0018] En una realización preferida, el calculador de distorsión en el tiempo adapta la regla de mapeo de modo que un rango de valores de distorsión en el tiempo decodificados sobre los cuales las palabras codificadas de un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada son mapeadas, es mayor para una primera frecuencia de muestro que para una segunda frecuencia de muestreo siempre que la primera frecuencia de muestreo sea menor a la segunda frecuencia de muestreo. En consecuencia, las mismas palabras codificadas, que codifican un rango comparativamente menor de valores de distorsión en el tiempo para una frecuencia de muestreo comparativamente alta codifican un rango comparativamente mayor de valores de distorsión en el tiempo para una frecuencia de muestreo comparativamente menor. De este modo, se puede asegurar que es posible codificar aproximadamente la misma de distorsión en el tiempo por unidad de tiempo (definida, por ejemplo en octavos por segundo), abreviada como “oct/s”) para una frecuencia de muestreo alta y frecuencia de muestreo baja, aunque se transmitan más palabras codificadas de distorsión en el tiempo por unidad de tiempo para una frecuencia de muestreo comparativamente mayor que para frecuencia de muestreo comparativamente menor.
[0019] En una realización preferida, los valores de distorsión en el tiempo decodificados son valores del contorno de distorsión en el tiempo que representan valores de un contorno de distorsión en el tiempo o valores de variación de un contorno de distorsión en el tiempo que representan un cambio de valores de un contorno de distorsión en el tiempo.
[0020] En una realización preferida, el calculador de distorsión en el tiempo adapta la regla de mapeo de modo que un cambio máximo de tono sobre un número dado de muestras, que se representa por un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada, es mayor para una primera frecuencia de muestreo que para una segunda frecuencia de muestreo siempre que la primera frecuencia de muestreo sea menor que la segunda frecuencia de muestreo. En consecuencia, el mismo grupo de palabras codificadas se usa para describir diferentes rangos de valores de distorsión en el tiempo decodificados que se adaptan a las diferentes frecuencias de muestreo.
[0021] En una realización preferida, el calculador de distorsión en el tiempo adapta la regla de mapeo de modo que un cambio máximo de tono sobre un período de tiempo dado, que se representa por un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada en una primera frecuencia de muestreo, difiere de un cambio máximo de tono sobre el período de tiempo dado, que se representa por un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada en una segunda frecuencia de muestreo, en no más de un 10% para una primera frecuencia de muestreo y una segunda frecuencia de muestreo que difiere en al menos un 30%. En consecuencia, se evita el hecho que un grupo dado de palabras codificadas representaría en forma convencional una distorsión en el tiempo diferente por unidad de tiempo para diferentes frecuencias de muestreo, de acuerdo con la presente invención, adaptando la regla de mapeo. De esta manera, se pueden mantener a una cantidad de diferentes palabras codificadas razonablemente pequeñas, dando por resultado una codificación eficiente donde la resolución para la codificación de distorsión en el tiempo se adapta sin embargo a la frecuencia de muestreo.
[0022] En una realización preferida, el calculador de distorsión en el tiempo utiliza diferentes tablas de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados dependiendo de la información de frecuencia de muestreo. Al proveer diferentes tablas de mapeo, el mecanismo de decodificación puede mantenerse simple a expensas de los requisitos de memoria.
[0023] En otra realización preferida, el calculador de distorsión en el tiempo adapta una regla (referencia) de mapeo, que describe valores de distorsión en el tiempo decodificado asociados con diferentes palabras codificadas de la información de distorsión en el tiempo codificada para una frecuencia de muestreo de referencia. En consecuencia, una demanda de memoria puede mantenerse pequeña ya que sólo es necesario almacenar los valores de mapeo (es decir, valores de distorsión en el tiempo decodificados) asociados con un grupo de palabras codificadas diferentes para una sola frecuencia de muestreo de referencia. Es posible adaptar con un esfuerzo menor de computación, los valores de mapeo a diferentes frecuencias de muestreo.
[0024] En una realización preferida, el calculador de distorsión en el tiempo ajusta a escala una porción de los valores de mapeo, dicha porción describe una distorsión en el tiempo dependiendo de la relación entre la frecuencia de muestreo real y la frecuencia de muestreo de referencia. Dicho ajuste a escala lineal de una porción de los valores de mapeo constituye una solución eficiente para obtener los valores de mapeo para diferentes frecuencias de muestreo.
[0025] En una realización preferida, los valores de distorsión en el tiempo decodificados describen una variación del contorno de distorsión en el tiempo sobre una cantidad predeterminada de muestras de la señal de audio codificada representada por la representación de señal de audio codificada. En este caso, el calculador de distorsión en el tiempo combina una pluralidad de valores de distorsión en el tiempo decodificados que representan una variación del contorno de distorsión en el tiempo, para derivar un valor de nodo del contorno de distorsión, de modo que una desviación del valor de nodo de distorsión derivado de un valor de nodo de distorsión de referencia es mayor a una desviación que se representa por un solo valor de distorsión en el tiempo decodificado. Al combinar una pluralidad de valores de distorsión en el tiempo decodificados, es posible mantener un rango necesario para un valor de distorsión en el tiempo individual lo suficientemente pequeño. Se aumenta así la eficiencia en la codificación de valores de distorsión en el tiempo. Al mismo tiempo, es posible ajustar el rango de intercalaciones en el tiempo representables adaptando la regla de mapeo.
[0026] En una realización preferida, los valores de distorsión en el tiempo codificados describen un cambio relativo del contorno de distorsión en el tiempo sobre un número predeterminado de muestras de la señal de audio codificada representada por la representación de señal de audio codificada. En este caso, el calculador de distorsión en el tiempo deriva la información de distorsión en el tiempo decodificada desde los valores de distorsión en el tiempo decodificados, de modo que la información de distorsión en el tiempo decodificada describe el contorno de distorsión en el tiempo. Una combinación de uso de valores de distorsión en el tiempo, que describe un cambio relativo del contorno de distorsión en el tiempo sobre una cantidad de muestras predeterminada de la señal de audio codificada, con una adaptación de la regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada trae consigo una alta eficiencia en la codificación, ya que se asegura que un rango substancialmente idéntico o al menos similar de distorsión en el tiempo (en términos de oct/s) podrá codificarse para diferentes frecuencias de muestreo, aunque la cantidad de palabras codificadas de distorsión en el tiempo por muestra de la señal de audio codificada pueda mantenerse constante en caso de cambios en la frecuencia de muestreo.
[0027] En una realización preferida, el calculador de distorsión en el tiempo computa puntos de soporte de un contorno de distorsión en el tiempo teniendo en cuenta los valores de distorsión en el tiempo decodificados. En este caso, el calculador de distorsión en el tiempo se interpola entre los puntos de soporte para obtener el contorno de distorsión en el tiempo como información de distorsión en el tiempo decodificada. En este caso, un número de valores de distorsión en el tiempo por cuadro de audio se predetermina y es independiente de la frecuencia de muestreo. En consecuencia, el esquema de interpolación entre los puntos de soporte podrán quedar sin cambios, manteniendo la complejidad computacional pequeña.
[0028] Una realización de acuerdo con la invención crea un codificador de señal de audio que provee una representación codificada de la señal de audio. El codificador de señal de audio comprende un codificador del contorno de distorsión en el tiempo que mapea los valores de distorsión describiendo un contorno de distorsión en el tiempo sobre información de distorsión en el tiempo codificada. El codificador del contorno de distorsión en el tiempo adapta una regla de mapeo para mapear los valores de distorsión en el tiempo describiendo el contorno de distorsión en el tiempo sobre la información de distorsión en el tiempo codificada dependiendo de la frecuencia de muestreo de la señal de audio. El codificador de la señal de audio comprende además un codificador de señal de distorsión en el tiempo que obtiene una representación codificada de un espectro de la señal de audio, teniendo en cuenta una distorsión en el tiempo descripta por la información del contorno de la distorsión en el tiempo. En este caso, la representación codificada de la señal de audio comprende las palabras codificadas de la información de la distorsión en el tiempo codificada, la representación codificada del espectro e información de la frecuencia de muestreo que describe la frecuencia de muestreo. Dicho codificador de audio se adapta para proveer la representación codificada de la señal de audio usada por el decodificador de señal de audio antes analizado. Además, el codificador de audio trae consigo las mismas ventajas analizadas antes con respecto al decodificador de señal de audio y se basa en las mismas consideraciones.
[0029] Otra realización de acuerdo con la invención crea un procedimiento para proveer una representación decodificada de la señal de audio teniendo en cuenta una representación codificada de la señal de audio.
[0030] Otra realización de acuerdo con la invención crea un procedimiento para proveer una representación decodificada de una señal de audio.
[0031] Otra realización de acuerdo con la invención crea un programa de ordenador para implementar uno o ambos procedimientos.
Breve Descripción de las Figuras.
[0032] Las realizaciones de acuerdo con la presente invención se describen a continuación haciendo referencia a las figuras adjuntas donde:
La Fig.1 muestra un diagrama esquemático de bloque de un codificador de señal de audio, de acuerdo con una realización de la presente invención;
La Fig.2 muestra un diagrama esquemático de bloque de un decodificador de señal de audio, de acuerdo con una realización de la presente invención;
La Fig.3a muestra un diagrama esquemático de bloque de un codificador de señal de audio, de acuerdo con otra realización de la presente invención;
La Fig.3b muestra un diagrama esquemático de bloque de un decodificador de señal de audio, de acuerdo con otra realización de la presente invención;
La Fig.4a muestra un diagrama esquemático de un mapeador para mapear información de distorsión en el tiempo codificada sobre valores de distorsión en el tiempo decodificados, de acuerdo con una realización de la presente invención.
La Fig.4b muestra un diagrama esquemático de un mapeador para mapear información de distorsión en el tiempo codificada sobre valores de distorsión en el tiempo decodificados, de acuerdo con otra realización de la presente invención;
La Fig.4c muestra una representación de tabla de intercalaciones de un esquema de cuantización convencional;
La Fig.4d muestra una representación de tabla de un mapeo de índices de palabras codificadas sobre valores de distorsión en el tiempo decodificados para diferentes frecuencias de muestreo, de acuerdo con una realización de la presente invención;
La Fig.4e muestra una representación de tabla de un mapeo de índices de palabras codificadas sobre valores de distorsión en el tiempo decodificados para diferentes frecuencias de muestreo, de acuerdo con otra realización de la presente invención;
Las Figs.5a, 5b muestran un extracto detallado desde un diagrama esquemático de bloque de un decodificador de señal de audio, de acuerdo con una realización de la presente invención;
Las Figs.6a, 6b muestran un extracto detallado de un diagrama de flujo de un mapeador para proveer una representación de señal de audio, de acuerdo con una realización de la presente invención;
La Fig.7a, muestra una leyenda de definiciones de elementos de datos y elementos de ayuda, usados en un decodificador de audio de acuerdo con una realización de la presente invención;
La Fig.7b, muestra una leyenda de definiciones de constantes, usados en un decodificador de audio de acuerdo con una realización de la presente invención;
La Fig.8, muestra una representación de tabla de un mapeo de un índice de palabra codificada sobre un valor de distorsión en el tiempo decodificado correspondiente;
La Fig.9, muestra una pseudo representación de código de programa de un algoritmo para interpolar en forma lineal entre nodos de distorsión igualmente separados;
La Fig.10a muestra una pseudo representación de código de programa de una función de ayuda “inv-distorsión- en tiempo”;
La Fig.10b muestra una pseudo representación de código de programa de una función de ayuda “vec-inv-distorsión”;
La Fig.11 muestra una pseudo representación de código de programa de un algoritmo para computar un vector de posición de muestra y longitud de transición;
La Fig.12 muestra una representación tabla de valores de una longitud de ventana de síntesis N dependiendo de una secuencia de ventana y una longitud de cuadro de codificador de núcleo;
La Fig.13 muestra una representación de matriz de secuencias de ventanas permitidas;
La Fig. 14 muestra una pseudo representación de código de programa de un algoritmo para la partición en ventanas para una superposición-suma de una secuencia de ventana de tipo “SECUENCIA_CORTA-OCHO”,
La Fig. 15 muestra una pseudo representación de código de programa de un algoritmo para la partición en ventanas para una superposición-y-suma de otra secuencia de ventana de tipo “SECUENCIA_CORTA-OCHO”,
La Fig. 16 muestra una pseudo representación de código de programa de un algoritmo para el re-muestreo;
Las Figs. 17a-17f muestran representaciones de elementos de sintaxis de la secuencia de audio, de acuerdo con una realización de la invención.
Descripción Detallada de las Realizaciones
1. Codificador de Señal de Audio de distorsión en el tiempo de Acuerdo con la Fig.1.
[0033] La Fig.1 muestra un diagrama esquemático de bloque de un codificador de señal de audio de distorsión en el tiempo 100 de acuerdo con una realización de la invención.
[0034] El codificador de señal de audio 100 recibe una señal de audio de entrada 110 y, para proveer una representación codificada 112 de la señal de audio de entrada 110. La representación codificada 112 de la señal de audio de entrada 110 comprende, por ejemplo, una representación de espectro codificada, una información de distorsión en el tiempo codificada (indicada por ejemplo como “it_datos”, y que por ejemplo, podrá incluir índice_it(i) de palabras codificadas) e información de frecuencia de muestreo.
[0035] El codificador de señal de audio podrá opcionalmente incluir un analizador de distorsión en el tiempo 120, que recibe la señal de audio de entrada 110, para analizar la señal de audio de entrada y para proveer información del contorno de distorsión en el tiempo 122, de modo que la información del contorno de distorsión en el tiempo 122 describa, por ejemplo, una evolución temporal del tono de la señal de audio de entrada 110. Sin embargo, el codificador de señal de audio 100 podrá, en forma alternativa, recibir información del contorno de distorsión en el tiempo provista por un analizador de distorsión en el tiempo externo al codificador de señal de audio.
[0036] El codificador de señal de audio 100 incluye además un codificador del contorno de distorsión en el tiempo 130 que recibe la información del contorno de distorsión en el tiempo 122, y provee, la información de distorsión en el tiempo codificada 132. Por ejemplo, el codificador del contorno de distorsión en el tiempo 130 podrá recibir valores de distorsión en el tiempo que describen el contorno de distorsión en el tiempo. Los valores de distorsión en el tiempo podrán, por ejemplo, describir valores absolutos de un contorno de distorsión en el tiempo normalizados o no normalizados o cambios relativos en el tiempo del contorno de distorsión en el tiempo normalizados o no normalizados. En general, el codificador del contorno de distorsión en el tiempo 130 mapea valores de distorsión en el tiempo que describen el contorno de distorsión en el tiempo 122 en información de distorsión en el tiempo codificada 132.
[0037] El codificador del contorno de distorsión en el tiempo 130 adapta una regla de mapeo para mapear los valores de distorsión en el tiempo que describen el contorno de distorsión en el tiempo en palabras codificadas de la información de distorsión en el tiempo codificada 132 dependiendo de la frecuencia de muestreo de la señal de audio. Para este fin, el codificador del contorno de distorsión en el tiempo 130 podrá recibir información de frecuencia de muestreo, para adaptar así dicho mapeo 134.
[0038] El codificador de señal de audio 100 además comprende un codificador de señal de distorsión en el tiempo 140, que obtiene una representación codificada 142 de un espectro de la señal de audio 110, teniendo en cuenta una distorsión en el tiempo descripta por el contorno de distorsión en el tiempo 122.
[0039] En consecuencia, la representación codificada de la señal de audio 112 podrá proveerse, por ejemplo, utilizando un proveedor de secuencia de bits, de modo que la representación codificada de la señal de audio 112 de la señal de audio 110 comprende las palabras codificadas de la información de distorsión en el tiempo codificada 132, representación codificada 142 del espectro y una información de frecuencia de muestreo 152 que describe la frecuencia de muestreo (por ejemplo, frecuencia de muestreo de la señal de audio de entrada 110 y/o la frecuencia (promedio) de muestreo usada por el codificador de señal de distorsión en el tiempo 140 en contexto con la conversión de dominio de tiempo a dominio de frecuencia).
[0040] Teniendo en cuenta la funcionalidad del codificador de señal de audio 100, el espectro de una señal de audio, que cambia su tono durante un cuadro de audio (donde una longitud de cuadro de audio, en términos de muestras de audio, podrá ser igual a una longitud de transformada de una transformada de dominio de tiempo a dominio de frecuencia usada por el codificador de señal de distorsión en el tiempo) podrá ser compactado por un re-muestreo con variación de tiempo. En consecuencia, el re-muestreo con variación de tiempo realizada por el codificador de señal de distorsión en el tiempo 140 dependiendo de la información del contorno de distorsión en el tiempo 122, da por resultado un espectro (de la señal de audio re-muestreada) que puede ser codificada con una mejor eficiencia que el espectro de la señal de audio de entrada 110 original.
[0041] Sin embargo, la distorsión en el tiempo aplicada en el codificador de señal de distorsión en el tiempo 140 se señala a un decodificador de señal de audio 200 de acuerdo con la Fig. 2 usando la información de distorsión en el tiempo codificada. Además, la codificación de la información de distorsión en el tiempo, que podrá incluir un mapeo de valores de distorsión en el tiempo en palabras codificadas, se adapta dependiendo de la información de frecuencia de muestreo, de modo que los diferentes mapeos de los valores de distorsión en el tiempo en palabras
codificadas, se usan para diferentes frecuencias de muestreo de la señal de audio de entrada 110 o para diferentes frecuencias de muestreo en la cual opera el codificador de señal de distorsión en el tiempo 140 (o conversión de dominio de tiempo a dominio de frecuencia de las mismas).
[0042] De esta manera, se podrá elegir el mapeo de velocidad de bits más eficiente para cada frecuencia de muestreo posible, que puede ser manejado por el codificador de señal de distorsión en el tiempo 140. Dicha adaptación tiene sentido ya que una velocidad de bits de la información de distorsión en el tiempo codificada podrá mantenerse pequeña aun cuando múltiples posibles frecuencias de muestreo usadas por el codificador de señal de distorsión en el tiempo 140 si el mapeo de los valores de distorsión en el tiempo que describen el contorno de distorsión en el tiempo en palabras codificadas se corresponde con la frecuencia actual. En consecuencia, puede asegurarse que un pequeño grupo de diferentes palabras codificadas es suficiente para codificar el contorno de distorsión en el tiempo con suficiente fina resolución y gran rango dinámico, en caso de frecuencias de muestreo comparativamente menores y frecuencias de muestreo comparativamente mayores, aún si una cantidad de palabras codificadas por cuadro de audio permanece constante sobre diferentes frecuencias de muestreo (que a la vez, provee una secuencia de bits independiente de la frecuencia de muestreo y por ende facilita la generación, almacenamiento, análisis y procesamiento en tiempo real de la representación codificada de la señal de audio 112).
[0043] A continuación se analizan otros detalles de la adaptación del mapeo 134.
2. Decodificador de Señal de Audio de distorsión en el tiempo de Acuerdo con la fig. 2.
[0044] La Fig. 2 muestra un diagrama esquemático de bloque de un decodificador de señal de audio 200 de acuerdo con una realización de la invención.
[0045] El decodificador de señal de audio 200 provee una representación de señal de audio decodificada 212 (por ejemplo, en forma de representación de señal de audio en dominio de tiempo) teniendo en cuenta una representación de señal de audio codificada 210. La representación de señal de audio codificada 210 podrá, por ejemplo, incluir una representación de espectro codificada 214 (que puede ser igual a la representación de espectro codificada 142 provista por el codificador de señal de distorsión en el tiempo 140), una información de distorsión en el tiempo codificada 216 (que puede, por ejemplo, ser igual a la información de distorsión en el tiempo codificada 132, provista por el codificador del contorno de distorsión en el tiempo 130), e información de frecuencia de muestreo 218 (que puede, por ejemplo, ser igual a la información de frecuencia de muestreo 152).
[0046] El decodificador de señal de audio 200 incluye un calculador de distorsión en el tiempo 230, que podrá considerarse como decodificador de distorsión en el tiempo. El calculador de distorsión en el tiempo 230, mapea la información de distorsión en el tiempo codificada 216 en información de distorsión en el tiempo decodificada 232. La información de distorsión en el tiempo codificada 216 podrá, por ejemplo, incluir palabras codificadas de distorsión en el tiempo “índice (i)_it”, y la información de distorsión en el tiempo decodificada podrá, por ejemplo, tomar la forma de la información del contorno de distorsión en el tiempo. El calculador de distorsión en el tiempo 230 adapta una regla de mapeo 234 para mapear (distorsión de tiempo) palabras codificadas de la información de distorsión en el tiempo codificada 216 en valores de distorsión en el tiempo decodificados que describen la información de distorsión en el tiempo decodificada dependiendo de la información de frecuencia de muestreo 218. En consecuencia, podrán elegirse diferentes mapeos de palabras codificadas de la información de distorsión en el tiempo codificada 216 en valores de distorsión en el tiempo que describen la información de distorsión en el tiempo decodificada 232 para diferentes frecuencias de muestreo señaladas por la información de frecuencia de muestreo.
[0047] El decodificador de señal de audio 200 incluye además un decodificador de distorsión 240 que recibe la representación codificada 214 del espectro y provee la representación de señal de audio decodificada 212 teniendo en cuenta la representación de espectro codificada 214 dependiendo de la información de distorsión en el tiempo decodificada 232.
[0048] En consecuencia, el decodificador de señal de audio 200 permite una eficiente decodificación de la información de distorsión en el tiempo codificada, para una frecuencia de muestreo comparativamente alta y para una frecuencia de muestreo comparativamente baja, ya que el mapeo de palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados depende de la frecuencia de muestreo. De este modo, es posible obtener una alta resolución del contorno de distorsión en el tiempo para una frecuencia de muestreo comparativamente alta cubriendo al mismo tiempo una distorsión en el tiempo suficientemente grande por unidad de tiempo para frecuencias de muestreo comparativamente bajas, usando a la vez el mismo grupo de palabras codificadas para una frecuencia de muestreo comparativamente alta y frecuencia de muestreo comparativamente baja. De este modo, el formato de secuencia de bits es substancialmente independiente de la frecuencia de muestreo, donde es posible aún describir la distorsión en el tiempo con precisión adecuada y rango dinámico, en caso de una frecuencia de muestreo comparativamente alta y frecuencia de muestreo comparativamente baja.
[0049] A continuación se describen otros detalles de la adaptación del mapeo 234. y otros detalles del decodificador de distorsión 240.
3. Codificador de Señal de Audio de distorsión en el tiempo de Acuerdo con la Fig. 3a.
[0050] La Fig. 3a muestra un diagrama esquemático de bloque de un codificador de señal de audio de distorsión en el tiempo 300, de acuerdo con una realización de la invención.
[0051] El codificador de señal de audio de distorsión en el tiempo 300 de acuerdo con la Fig. 3 es similar al codificador de señal de audio 100 de acuerdo con la Fig. 1, de modo que las señales y dispositivos idénticos poseen números de referencia idénticos. Sin embargo, la Fig. 3a muestra más detalles del codificador de señal de distorsión en el tiempo 140.
[0052] Como la presente invención se relaciona con una codificación de audio de distorsión en el tiempo, se describirán brevemente los detalles del codificador de señal de distorsión en el tiempo 140. El codificador de señal de distorsión en el tiempo 140 recibe una señal de audio de entrada 110 y provee una representación de espectro codificada 142 de la señal de audio de entrada 110 para una secuencia de cuadros. El codificador de señal de distorsión en el tiempo 140 comprende una unidad de muestreo o unidad de re-muestreo 140a, adaptada para el muestreo o re-muestreo de la señal de audio de entrada 110 para derivar bloques de señal (representaciones muestreadas) 140d usados como base para una transformada en dominio de frecuencia. La unidad de muestreo o unidad de re-muestreo 140a, comprende un calculador de posición de muestreo 140b, que computa las posiciones de muestra adaptadas a la distorsión en el tiempo descripta por la información del contorno de distorsión en el tiempo 122, y que por lo tanto no son equidistantes en tiempo si la distorsión en el tiempo (o variación de tono o variación de frecuencia fundamental) es diferente a cero. La unidad de muestreo o re-muestreo 140a, comprende además un aparato para muestreo o re-muestreo 140c, para el muestreo o re-muestreo de una porción (por ejemplo, cuadro de audio) de la señal de audio de entrada 110 usando las posiciones de muestra temporalmente no equidistante obtenidas por el calculador de posición de muestreo.
[0053] El codificador de señal de distorsión en el tiempo 140 comprende además un calculador de transformada de la ventana 140e, adaptado para derivar la salida de ventanas a escala para las representaciones con muestreo o remuestreo 140d por la unidad de muestreo o re-muestreo 140a. La información de ventanas con ajuste a escala 140f y las representaciones con muestreo o re-muestreo 140d ingresan en un generador de partición en ventanas 140g, adaptado para aplicar las ventanas con ajuste a escala descriptas por información de ventanas con ajuste a escala 140f a las representaciones con muestreo o re-muestreo 140d correspondientes derivadas de la unidad de muestreo
o re-muestreo 140a. En otras realizaciones, el codificador de señal de distorsión en el tiempo 140 podrá comprender además un transformador en dominio de frecuencia 140i para derivar una representación en dominio de frecuencia 140j (por ejemplo, en forma de coeficientes de transformada o coeficientes espectrales) o la representación sujeta a muestreo o a partición en ventanas 140h de la señal de audio de entrada 110. La representación en dominio de frecuencia 140j podrá, por ejemplo, ser post-procesada. Además, la representación en dominio de frecuencia 140j o una versión post-procesada de la misma, podrá ser codificada usando una codificación 140k para obtener la representación de espectro codificada 142 de la señal de audio de entrada 110.
[0054] El codificador de señal de distorsión en el tiempo 140 usa además un contorno de tono de la señal de audio de entrada 110, donde el contorno de tono podrá ser descripto por una información del contorno de distorsión en el tiempo 122. La información del contorno de distorsión en el tiempo 122 podrá ser provista al codificador de señal de audio 300 como información de entrada, o derivada por el codificador de señal de audio 300. El codificador de señal de audio 300 podrá entonces, opcionalmente incluir un analizador de distorsión en el tiempo 120, que podrá operar como estimador de tono para derivar la información del contorno de distorsión en el tiempo 122, de modo que la información del contorno de distorsión en el tiempo 122 constituya una información del contorno de tono o describa el contorno de tono o frecuencia fundamental.
[0055] La unidad de muestreo o re-muestreo 140a podrá operar en una representación continua de la señal de audio de entrada 110. En forma alternativa, sin embargo, La unidad de muestreo o re-muestreo 140a podrá operar en una representación continua de la señal de audio de entrada 110. En forma alternativa, sin embargo, la unidad de muestreo o re-muestreo 140a podrá operar en una representación sujeta a muestreo previamente de la señal de audio de entrada 110. En el caso anterior, la unidad de muestreo o re-muestreo 140a podrá someter la señal de audio de entrada a muestreo (y por ende considerarse unidad de muestreo) y en el último caso, la unidad de muestreo o re-muestreo 140a podrá someter a re-muestreo la representación sujeta a muestreo previamente de la señal de audio de entrada 110 (y por ende considerarse unidad de re-muestreo). La unidad de muestreo o remuestreo 140a podrá, por ejemplo adaptarse a bloques de audio de superposición vecinos de distorsión en el tiempo de modo que la porción de superposición posee un tono constante o variación de tono reducido dentro de cada bloque de entrada después del muestreo o re-muestreo.
[0056] El calculador de transformada de la ventana 140e podrá, opcionalmente, derivar las ventanas ajustadas a escala para los bloques de audio (por ejemplo, para los cuadros de audio) dependiendo de la distorsión en el tiempo realizada por el aparato de muestreo 140e. Para tal fin, un bloque de ajuste opcional 140j podrá estar presente para definir la regla de distorsión usada por el aparato de muestreo, provista también al calculador de transformada de la ventana 140e.
[0057] En una realización alternativa, el bloque de ajuste 140l podrá omitirse y el contorno de tono descripto por la información del contorno de distorsión en el tiempo 122 podrá ser directamente proporcionado al calculador de transformada de la ventana 140e, que podrá por sí realizar los cálculos adecuados. Además, la unidad de muestreo
o re-muestreo 140a podrá comunicar el muestreo aplicado al calculador de transformada de la ventana 140e, para permitir el cálculo de las ventanas ajustadas a escala apropiadas.
[0058] Sin embargo, en algunas realizaciones, la partición en ventanas podrá ser independiente de detalles de la distorsión en el tiempo.
[0059] La distorsión en el tiempo la realiza la unidad de muestreo o re-muestreo 140a de modo que el contorno de tono de bloques de audio (o cuadros de audio) sometidos a muestreo (o re-muestreo) de distorsión en el tiempo por la unidad 140a es más constante que el contorno de tono de la señal de audio de entrada original 110. En consecuencia, una borrosidad del espectro, causada por una variación temporal del contorno de tono, se reduce por el muestreo o re-muestreo de la unidad 140a. De este modo, el espectro de la señal de audio sometida a muestreo o re-muestreo 140d es menos borrosa (y, típicamente muestra más picos espectrales explícitos y valles espectrales) que el espectro de la señal de audio de entrada 110. En consecuencia, es típicamente posible codificar el espectro de la señal de audio sometida a muestreo (o re-muestreo) 140d usando una velocidad de bits menor comparada con la velocidad de bits necesaria para codificar el espectro de la señal de audio de entrada 110 con la misma precisión.
[0060] Cabe observar que la señal de audio de entrada 110 es procesada en lo que respecta al cuadro, donde los cuadros podrán superponerse o no dependiendo de los requisitos específicos. Por ejemplo, cada cuadro de la señal de audio de entrada podrá ser sometida a muestreo o re-muestreo en forma individual por la unidad 140a, para obtener una secuencia de cuadros sometidos a muestreo (o re-muestreo) descriptos por grupos respectivos de muestras en dominio de tiempo 140d. Además, la partición en ventanas podrá aplicarse en forma individual a los cuadros sometidos a muestreo o re-muestreo, representados por grupos respectivos de muestras en dominio de tiempo 140d, por la partición en ventanas 140g. Además, los cuadros sometidos a partición de ventanas y remuestreo, descriptos por grupos respectivos de muestras en dominio de tiempo sometidos a partición de ventanas y re-muestreo 140h, podrán ser transformados en forma individual en dominio de frecuencia por la transformada 140i. Sin embargo, puede haber una superposición (temporal) de los cuadros individuales.
[0061] Cabe observar que la señal de audio de entrada 110 podrá ser muestreada con una frecuencia de muestreo predeterminada (designada como tasa de muestreo). En el re-muestreo realizado por el aparato para muestreo o remuestreo 140c, el re-muestreo podrá realizarse de modo que un bloque sometido a re-muestreo (o cuadro) de la señal de audio de entrada 110 podrá incluir una frecuencia de muestreo promedio (o tasa de muestreo) idéntica ( o la menos aproximadamente idéntica por ejemplo dentro de la tolerancia de +/- 5%) a la frecuencia de muestreo (o tasa de muestreo) de la señal de audio de entrada 110. Sin embargo, el codificador de señal de audio 300 podrá, alternativamente, operar con señales de audio de entrada de diferentes frecuencias de muestreo (o velocidades de muestreo).
[0062] En consecuencia, la frecuencia de muestreo promedio (o tasa de muestreo) de los bloques sometidos a remuestreo o cuadros, representados por muestras en dominio de tiempo 140d, podrá variar dependiendo de la frecuencia de muestreo o tasa de muestreo de la señal de audio de entrada 110 en algunas realizaciones.
[0063] Sin embargo, es posible que la frecuencia de muestreo promedio o tasa de muestreo de los bloques o cuadros sometidos a muestreo o re-muestreo, representados por muestras en dominio de tiempo 140d, difiera de la tasa de muestreo de la señal de audio de entrada 110, ya que el aparato para muestreo 140a podrá realizar una conversión de tasa de muestreo, de acuerdo con el deseo del operador, y una distorsión en el tiempo.
[0064] En consecuencia, los bloques o cuadros de la señal de audio sometidos a muestreo o re-muestreo, representados por grupos de muestras en dominio de tiempo 140d, podrán estar en diferentes frecuencias de muestreo o tasa de muestreo, dependiendo de la frecuencia de muestreo promedio o tasa de muestreo de la señal de audio de entrada 110 y/o deseo del usuario.
[0065] Sin embargo, en algunas realizaciones, una longitud de bloque o cuadro de la señal de audio sometidos a muestreo o re-muestreo, representada por un grupo de valores espectrales 140d, en términos de muestras de audio, podrá ser constante aún para diferentes frecuencias de muestreo promedio o velocidades de muestreo. Sin embargo, el cambio entre dos posibles longitudes (en términos de muestras de audio por bloque o cuadro) podrá ocurrir en algunas realizaciones, donde la longitud de bloque o cuadro en un primer (bloque corto) modo podrá ser independiente de la frecuencia de muestreo promedio, y donde una longitud de bloque o cuadro (en términos de muestras de audio) en un segundo (bloque largo) modo podrá ser independiente de la frecuencia de muestreo promedio o tasa de muestreo.
[0066] En consecuencia, la partición en ventanas, por el generador de partición en ventanas 140g, la transformada realizada por el transformador 140i, y la codificación realizada por el codificador 140k, podrán ser independientes de la frecuencia de muestreo promedio o tasa de muestreo de la señal de audio sometida a muestreo o re-muestreo
140d (excepto por un cambio posible entre un modo de bloque corto y modo de bloque largo, que podrá ocurrir independientes de la frecuencia de muestreo promedio o tasa de muestreo).
[0067] Para concluir, el codificador se señal de distorsión en el tiempo 140 permite una eficiente codificación de la señal de audio de entrada 110 ya que el muestreo o re-muestreo del generador de muestreo 140a resulta en una señal de audio con re-muestreo 140d con menor espectro con borrosidad que la señal de audio de entrada 110 en caso que la señal de audio de entrada 110 comprenda variaciones de tono temporales, que a la vez permite una eficiente codificación de la velocidad de bits (por el codificador 140k) de los coeficientes 140j proporcionados por el transformador 140i teniendo en cuenta la versión sujeta a muestreo/re-muestreo o partición en ventanas 140h de la señal de audio de entrada 110.
[0068] La codificación del contorno de distorsión en el tiempo realizada de manera que dependa de la frecuencia de muestreo por el codificador del contorno de distorsión en el tiempo 130, permite una eficiente codificación en cuanto a la velocidad de bits de la información del contorno de distorsión en el tiempo 122 para diferentes frecuencias de muestreo (o frecuencias de muestreo promedio) de la señal de audio sujeta a muestreo/re-muestreo 140d, de modo que la secuencia de bits que comprende la representación de espectro codificada 142 y la información de distorsión en el tiempo codificada 132 es eficiente en cuanto a la velocidad de bits
4. Decodificador de Señal de Audio de distorsión en el tiempo de Acuerdo con la Fig. 3b
[0069] La Fig. 3b muestra un diagrama esquemático de bloque de un decodificador de señal de audio 350, de acuerdo con una realización de la invención.
[0070] El decodificador de señal de audio 350 es similar al decodificador de señal de audio 200 de acuerdo con la Fig. 2, de modo que a idénticos señales y dispositivos le corresponden idénticos números de referencia sin necesidad de explicación en la presente.
[0071] El decodificador de señal de audio 350 recibe una representación de espectro codificada de un primer cuadro de audio sujeto a muestreo de distorsión en el tiempo y recibe una representación de espectro codificada de un segundo cuadro de audio sujeto a muestreo de distorsión en el tiempo. En general, el decodificador de señal de audio 350 recibe una secuencia de una representaciones de espectro codificadas de cuadros de audio sujetos a remuestreo de distorsión en el tiempo, donde dichas representaciones de espectro codificadas podrán, por ejemplo, ser proporcionadas por el codificador de señal de distorsión en el tiempo 140 del codificador de señal de audio 300. Además, el decodificador de señal de audio 350 recibe información lateral, como por ejemplo, información de distorsión en el tiempo codificada 216 e información de frecuencia de muestreo 218.
[0072] El decodificador de distorsión 240 podrá incluir un decodificador 240a, que recibe la representación codificada 214 del espectro, para decodificar la representación codificada 214 de este espectro y provee una representación decodificada 140b del espectro. El decodificador de distorsión 240 incluye un transformador inverso 240c que recibe la representación decodificada 240b del espectro, para obtener una representación en dominio de tiempo 240d de un bloque o cuadro de la señal sujeta a muestreo de distorsión en el tiempo descripta por la representación de espectro codificada 214. El decodificador de distorsión 240 incluye un generador de partición en ventanas 140e que aplica una partición en ventanas a la representación en dominio de tiempo 240d de un bloque o cuadro para obtener una representación en dominio de tiempo con partición en ventanas 240f de un bloque o cuadro. El decodificador de distorsión 240 incluye un generador de superposición-sumador 240j, que superponesuma los bloques o cuadros siguientes de la representación en dominio de tiempo sujeta a re-muestreo y partición en ventanas, para obtener una transición suave entre los bloques o cuadros siguientes de la representación en dominio de tiempo sujeta a re-muestreo y partición en ventanas 240i y para obtener la representación de señal de audio codificada 212 como resultado de la operación de superposición y suma.
[0073] El decodificador de distorsión 240 incluye un calculador de posición de muestreo 240k que recibe la información de distorsión en el tiempo decodificada 232 del calculador de distorsión en el tiempo (o decodificador de distorsión en el tiempo) 230, y provee información sobre la posición de muestreo 240h teniendo en cuenta los mismos. En consecuencia, la información de distorsión en el tiempo decodificada 232 describe el re-muestreo con variación de tiempo realizado por el aparato para re-muestreo 240g.
[0074] Opcionalmente, el decodificador de distorsión 240 podrá incluir un ajustador de forma de la ventana 240l, que ajusta la forma de la ventana usada por el generador de partición en ventanas 240e dependiendo de los requisitos. Por ejemplo, el ajustador de forma de la ventana 240l, podrá, opcionalmente, recibir la información de distorsión en el tiempo decodificada 232 y ajustar la ventana dependiendo de dicha información de distorsión en el tiempo decodificada 232. En forma alternativa, o además, el ajustador de forma de la ventana 240l, podrá ajustar la forma de la ventana usada por el generador de partición en ventanas 240e dependiendo de la información que indique si se utilizó un modo de bloque largo o modo de bloque corto. En forma alternativa, o además, el ajustador de forma de la ventana 240l, podrá seleccionar una forma de la ventana adecuada para ser usada por el generador de partición en ventanas 240e dependiendo de la información de secuencia de ventana si se usan diferentes tipos de ventanas por parte del decodificador de distorsión 240. Sin embargo, cabe observar que el ajuste de forma de
ventana por el ajustador de forma de la ventana 240l, debería considerarse opcional y no relevante para la invención.
[0075] Además, el decodificador de distorsión 240 podrá, opcionalmente, incluir el ajustador de tasa de muestreo 240m para controlar el ajustador de forma de la ventana 240l y/o calculador de la posición de muestreo 240k dependiendo de la información de frecuencia de muestreo 218. Sin embargo, el ajustador de tasa de muestreo 240m podrá ser opcional y no relevante para la invención.
[0076] Teniendo en cuenta la funcionalidad del decodificador de distorsión 240, la representación codificada 214 del espectro, que por ejemplo, puede incluir un grupo de coeficientes de transformada (coeficientes espectrales) para cada pluralidad de cuadros de audio (o pluralidad de grupos de coeficientes espectrales para algunos cuadros de audio) es decodificada primero usando un decodificador 240a, de modo que se obtiene la representación de espectro decodificada 240b. La representación de espectro decodificada 240b de un bloque o cuadro de la señal de audio se transforma en una representación en dominio de tiempo (que incluye, por ejemplo, un número predeterminado de muestras en dominio de tiempo por cuadro de audio) de dicho bloque o cuadro del contenido de audio. Típicamente, pero no necesariamente, la representación de espectro decodificada 240b del espectro incluye picos y valles pronunciados, ya que dicho espectro puede ser codificado de modo eficiente. En consecuencia, la representación en dominio de tiempo 240d incluye una variación de tono comparativamente menor durante un solo bloque o cuadro (corresponde a un espectro con picos y valles pronunciados).
[0077] La partición en ventanas 260e se aplica a la representación en dominio de tiempo 240d de una señal de audio permitiendo una operación de superposición y suma. En consecuencia, la representación en dominio de tiempo con partición en ventanas 240f es sometida a re-muestreo con variación de tiempo, donde el re-muestreo se realiza de acuerdo con la información de distorsión en el tiempo incluida, en forma codificada, en la representación de señal de audio codificada 210. En consecuencia, la representación de señal de audio sujeta a re-muestreo 240i típicamente incluye una variación de tono mayor a la representación en dominio de tiempo con partición en ventanas 240f, siempre que la información en dominio de tiempo codificada describa una distorsión en el tiempo, o en forma equivalente, una variación de tono. De esta forma, una señal de audio con variación de tono sobre un solo cuadro de audio puede proporcionarse en la salida del aparato para re-muestreo 240g, aunque la señal de salida 240d del transformador inverso 240c comprenda variaciones de tono menores sobre un solo cuadro de audio.
[0078] Sin embargo, el decodificador de distorsión 240, podrá manejar representaciones de espectro codificadas que usan diferentes frecuencias de muestreo y proveer la representación de señal de audio codificada 212 con diferentes frecuencias de muestreo. Sin embargo, un número de muestra en dominio de tiempo por cuadro de audio
o bloque de audio podrá ser idéntico para una pluralidad de diferentes frecuencias de muestreo. En forma alternativa, sin embargo, el decodificador de distorsión 240 podrá cambiar entre un modo de bloque corto, donde el bloque de audio comprende un número menor de muestras (por ejemplo 256 muestras) y un modo de bloque largo, donde el bloque de audio comprende un número menor de muestras (por ejemplo 2048 muestras). En este caso, el número de muestras por bloque de audio en el modo de bloque corto es idéntico para las diferentes frecuencias de muestreo, y el número de muestras de audio por bloque de audio (o cuadro de audio) en el modo de bloque largo es idéntico para las diferentes frecuencias de muestreo. Además, el número de palabras codificadas de distorsión en el tiempo por cuadro de audio es idéntico par las diferentes frecuencias de muestreo. En consecuencia, un formato de secuencia de bits puede lograrse, en forma independiente (al menos con respecto a un número de muestras en dominio de tiempo codificadas por cuadro de audio, y con respecto a un número de palabras codificadas de distorsión en el tiempo por cuadro de audio) de la frecuencia de muestreo.
[0079] Sin embargo, para lograr una eficiencia en lo que respecta a velocidad de bits de la codificación de información de distorsión en el tiempo y resolución suficiente de la información de distorsión en el tiempo, la codificación de la información de distorsión en el tiempo se adapta a la frecuencia de muestreo del lado del codificador de señal de audio 300, que provee la representación de señal de audio codificada 210. En consecuencia, la decodificación de la información de distorsión en el tiempo codificada 216, que comprende el mapeo de palabras codificadas de distorsión en el tiempo en los valores de distorsión en el tiempo decodificados, se adapta a la frecuencia de muestreo. A continuación se describen detalles de esta adaptación de la decodificación de la información de distorsión en el tiempo.
5. Adaptación de Codificación y Decodificación de distorsión en el tiempo
5.1. Síntesis Conceptual
[0080] A continuación, se describen los detalles de la adaptación de la codificación y decodificación de distorsión en el tiempo dependiendo de la frecuencia de muestreo de una señal de audio a codificar o decodificar. En otras palabras, se describe una cuantización de variación de tono que depende de la frecuencia de muestreo. Para facilitar la comprensión, se describen primero conceptos convencionales.
[0081] En los codificadores y decodificadores de audio convencionales que usan distorsión en el tiempo, se fija la tabla de cuantización para la variación de tono o distorsión para todas las frecuencias de muestreo. Como ejemplo,
se hace referencia al Documento de trabajo 6 (working draft 6) del Discurso_Unificado-y- Codificación_ de Audio (WD6 de “USAC” (sigla en inglés para Discurso Unificado y Codificación de Audio), ISO/IEC JTC1/SC29/WG11 N11213, 2010). Como también se fija (en codificadores/decodificadores de audio de distorsión en el tiempo convencionales y en de codificadores/decodificadores de audio de acuerdo con la invención) de distorsión en el tiempo la distancia de actualización en las muestras (por ejemplo, una distancia, en términos de muestras de audio, de instancias de tiempo para las cuales se transmite un valor de distorsión en el tiempo desde un codificador de audio a un decodificador de audio), al aplicar dicho esquema de codificación a una velocidad de bits menor se obtiene un rango menor de cambios de tono reales (por ejemplo en términos de cambio de tono por unidad de tiempo) a cubrir. Los cambios típicos máximos en la frecuencia fundamental del discurso se encuentran por debajo de 15 oct/s aproximadamente (15 octavos por segundo).
[0082] La tabla de la Fig.4c muestra que para ciertas frecuencias de muestreo usadas en la codificación de audio, el esquema de codificación en la referencia (3) no podrá mapear el rango de variación de tono deseado y por lo tanto se obtiene una ganancia de codificación sub-opcional. Para mostrar este efecto, la tabla de la Fig.4c muestra las intercalaciones para las frecuencias de muestreo para la tabla (por ejemplo, tabla de mapeo para mapear palabras codificadas de distorsión en el tiempo en valores de distorsión en el tiempo decodificados) usadas en el decodificador de audio de la referencia (3). La fórmula para obtener esos valores de distorsión en oct/s es:
[0083] En la ecuación anterior w designa una distorsión, Prel designa un factor de cambio de tono relativo, fs designa una frecuencia de muestreo, np designa un número de nodos de tono en un cuadro y nf designa una longitud de cuadro en muestras.
[0084] En consecuencia, la tabla de la Fig. 4c muestra intercalaciones del esquema de cuantización usado en el decodificador de audio de la referencia (3), donde nf = 1024 y np = 16.
[0085] De acuerdo con la presente invención, es ventajoso adaptar el mapeo del índice de valor de distorsión (considerado como palabra codificada de distorsión en el tiempo) en un valor de distorsión en el tiempo correspondiente Prel dependiendo de la frecuencia de muestreo. En otras palabras, se descubrió que la solución a los problemas anteriores es diseñar distintas tablas de cuantización para diferentes frecuencias de muestreo de modo que el rango absoluto de variaciones de tono cubiertas o intercalaciones en oct/s (octavos por segundo) sea el mismo (o al menos aproximadamente el mismo) para todas las frecuencias de muestreo. Esto podría realizarse por ejemplo, proporcionando tablas de cuantización explícita cada una para un rango angosto de frecuencias de muestreo vecinas, o calculando la tabla de cuantización en forma improvisada para las frecuencias de muestreo usadas.
[0086] De acuerdo con una realización de la invención, esto podría realizarse por ejemplo, proporcionando una tabla de valores de distorsión y calculando la tabla de cuantización para el factor de cambio de tono relativo transformando la fórmula desde arriba:
[0087] En la ecuación anterior Prel designa un factor de cambio de tono, nf designa la longitud de cuadro en las muestras, w designa la distorsión, fs designa la frecuencia de muestreo y np designa el número de nodos de tono en un cuadro. Al usar dicha ecuación, se obtienen los factores de cambio del tono relativos Prel, que muestra la tabla de la Fig. 4d.
[0088] Con referencia a la Fig. 4d, una primera columna 480 designa un índice, considerado como palabra codificada de distorsión en el tiempo, e incluido en la secuencia de bits representando la representación de señal de audio codificada 210. Una segunda columna 482 describe una distorsión en el tiempo con máxima representación (en términos de oct/s), representada por np, factores de cambio de tono relativos prel asociados con el índice de la primera columna y en la primera fila. Una tercera columna 484 describe un factor de cambio de tono relativo asociado con el índice dado en la primera columna 480 de la fila respectiva para una frecuencia de muestreo de 24000Hz. Una cuarta columna 486 muestra factores de cambio de tono relativos asociados con el los valores del
índice de la primera columna 480 de la fila respectiva para una frecuencia de muestreo de 12000Hz. Como se observa, los índices 0, 1 y 2 corresponden a factores de cambio de tono relativos prel para un cambio “negativo” del tono (es decir, para reducción del tono), el valor de índice 3 corresponde a un factor de cambio de tono relativo de 1, que representa un tono constante, y los índices 4, 5, 6 y 7 se asocian a los factores de cambio de tono relativos prel que describen una distorsión en el tiempo “positiva”, es decir un aumento de tono.
[0089] Sin embargo, se descubrió que existen diferentes conceptos para obtener los factores de cambio de tono relativos. Una manera de obtener los factores de cambio de tono relativos es diseñar una tabla de cuantización de valores para el factor de cambio de tono relativo y una tasa de muestreo de referencia correspondiente. La tabla de cuantización para una frecuencia de muestreo dada podrá derivar simplemente de la tabla designada usando la siguiente fórmula:
[0090] prel describe un factor de cambio de tono relativo para una frecuencia de muestreo actual fs. Además, prel, ref describe un factor de cambio de tono relativo para una frecuencia de muestreo de referencia fs, ref. Se conoce un grupo de factores de cambio de tono relativo prel, ref asociados con diferentes índices (palabras codificadas de distorsión en el tiempo) podrán almacenarse en una tabla, donde la frecuencia de muestreo de referencia fs, ref. a la cual corresponden los factores de cambio de tono de referencia (relativo).
[0091] Se ha descubierto que la fórmula última otorga una aproximación razonable a los resultados obtenidos por la fórmula anterior siendo a la vez computacionalmente menos compleja.
[0092] La Fig. 4e muestra una representación de tabla de factores de cambio de tono relativos prel, que se obtienen de factores de cambio de tono de referencia prel, ref donde la tabla ofrece una frecuencia de muestreo de referencia fs, ref.= 24000Hz.
[0093] Una primera columna 490 describe un índice, considerado como palabra codificada de distorsión en el tiempo. Una segunda columna 492 describe factores de cambio de tono relativo de referencia prel, ref asociados con los índices (palabras codificadas) de la primera columna 490 en la fila respectiva. Una tercera columna 494 y cuarta columna 496 describen factores de cambio de tono (relativo) asociados con los índices de la primera columna 490 para una frecuencia de muestreo de referencia fs de 24000Hz (tercera columna 494) y 12000Hz (cuarta columna 496). Como se observa, los factores de cambio de tono relativo prel para una frecuencia de muestreo fs de 24000Hz , de la tercera columna 494 son idénticos a los factores de cambio de tono relativo de referencia de la segunda columna 492, ya que la frecuencia de muestreo fs de 24000Hz es igual a la frecuencia de muestreo de referencia fs, ref. Sin embargo, la cuarta columna 496 muestra factores de cambio de tono relativo prel a una frecuencia de muestreo fs de 12000Hz, que derivan de los factores de cambio de tono relativo de referencia de la segunda columna 492 de acuerdo con la ecuación anterior (3).
[0094] Por supuesto, dichos procedimientos normalizados, como se describe antes, podrán aplicarse fácilmente directamente a otra representación de un cambio en frecuencia o tono, por ejemplo, además de a un esquema codificando los valores de tono o frecuencia absolutos y no los cambios relativos de los mismos.
5.2 Implementación de acuerdo con la Fig. 4a.
[0095] La Fig. 4a muestra un diagrama esquemático de bloque de un mapeo de adaptación 400, que podrá usarse en realizaciones de acuerdo con la invención.
[0096] Por ejemplo, el mapeo de adaptación 400 podrá tomar el lugar del mapeo 234 en el decodificador de señal de audio 200 o del mapeo 234 en el decodificador de señal de audio 350.
[0097] El mapeo de adaptación 400 recibe información de distorsión en el tiempo codificada, como, por ejemplo, la denominada información “it_datos” que comprende palabras codificadas de distorsión en el tiempo “it_índice (i)”. en consecuencia, el mapeo de adaptación 400 podrá proveer valores de distorsión en el tiempo decodificados, por ejemplo, valores de índice decodificados, a veces designados como valores “distorsión_valores_tbl(it_índice )” que a veces se designan como factores de cambio de tono relativo prel. El mapeo de adaptación 400 recibe además información de frecuencia de muestreo que describe, por ejemplo, la frecuencia de muestreo fs de la representación en dominio de frecuencia 240d provista por la transformada inversa 230c, o frecuencia de muestreo promedio de la representación en dominio de tiempo sujeta a re-muestreo y partición en ventanas 240i provista por el re-muestreo 240g, o la frecuencia de muestreo de la representación de señal de audio decodificada 212.
[0098] El mapeo de adaptación incluye un mapeador 420 que provee un valor de distorsión en el tiempo decodificado como función de una palabra codificada de distorsión en el tiempo de la información de distorsión en el
tiempo codificada. Un selector de regla de mapeo 430 selecciona una tabla de mapeo, en una pluralidad de tablas de mapeo 432, 434 para ser usado por el mapeador 420 dependiendo de la información de frecuencia de muestreo
406. Por ejemplo, el selector de tabla de mapeo 430 selecciona una tabla de mapeo que representa un mapeo definido por la primera columna 480 de la tabla en la Fig. 4d y la tercera columna 484 de la tabla en la Fig. 4d si la frecuencia de muestreo actual es igual a 24000Hz, o si la frecuencia de muestreo actual se encuentra en un ambiente predeterminado de 24000Hz. En contraposición, el selector de tabla de mapeo 430 podrá seleccionar una tabla de mapeo que representa un mapeo definido por la primera columna 480 de la tabla de la Fig. 4d y la cuarta columna 486 de la tabla de la Fig. 4d si la frecuencia de muestreo fs es igual a 12000 Hz o si la frecuencia de muestreo fs se encuentra en un ambiente predeterminado de 12000 Hz.
[0099] En consecuencia, las palabras codificadas de distorsión en el tiempo (también denominadas “índices”) 0-7 son mapeadas a los valores de distorsión en el tiempo decodificados respectivos (o factores de cambio de tono relativo) de la tercera columna 484 de la tabla de la Fig. 4d si la frecuencia de muestreo es igual a 24000Hz, y en valores de distorsión en el tiempo decodificados respectivos (o factores de cambio de tono relativo) de la cuarta columna 486 de la tabla de la Fig. 4d. si una frecuencia de muestreo es igual a 12000Hz.
[0100] En síntesis, las diferentes tablas de mapeo podrán elegirse mediante el selector de tabla de mapeo 430 dependiendo de la frecuencia de muestreo, para así mapear una palabras codificadas de distorsión en el tiempo (por ejemplo, un valor “índice” incluido en una secuencia de bits que representa la señal de audio decodificada) en un valor de distorsión en el tiempo decodificado (por ejemplo, un factores de cambio de tono relativo prel o “distorsión_valores_tbl)”
5.3 Implementación de Acuerdo con la Fig. 4b
[0101] La Fig. 4b muestra un diagrama esquemático de bloque de un mapeo de adaptación 450 usado en realizaciones de acuerdo con la invención. Por ejemplo, el mapeo de adaptación 450 podrá reemplazar al mapeo 234 en el decodificador de señal de audio 200 o al mapeo 234 en el decodificador de señal de audio 350. El mapeo de adaptación 450 se configura para recibir información de distorsión en el tiempo codificada, donde se encuentran las explicaciones anteriores del mapeo de adaptación 400.
[0102] En primer lugar, el mapeo de adaptación 450 comprende un mapeador 470 que recibe una palabra codificada de la distorsión en el tiempo codificada y provee un valor de distorsión en el tiempo decodificado.
[0103] El mapeo de adaptación 450 comprende además una computadora de valor de mapeo o computadora de tabla de mapeo 480.
[0104] En el caso de una computadora de valor de mapeo el valor de distorsión en el tiempo decodificado se computa de acuerdo con la ecuación anterior (3). Para tal fin, la computadora de valor de mapeo podrá incluir una tabla de mapeo de referencia 482. La tabla de mapeo de referencia 482 podrá, por ejemplo describir la información de mapeo definida por una primera columna 490 y segunda columna 492 de la tabla de la Fig. 4e. En consecuencia, la computadora de tabla de mapeo 480 y el mapeador 470 podrán cooperar de modo que un factor de cambio de tono relativo de referencia se selecciona para una palabra codificada de la distorsión en el tiempo dada teniendo en cuenta la tabla de mapeo de referencia, y de modo que el factor de cambio de tono relativo prel correspondiente a dicha palabra codificada de la distorsión en el tiempo dada se computa de acuerdo con la ecuación (39 usando la información de la frecuencia de muestreo actual fs, y vuelve como valor de distorsión en el tiempo decodificado. En este caso, no es necesario almacenar todos los ingresos de una tabla de mapeo adaptada a la frecuencia de muestreo actual fs, al precio de una computación del valor de distorsión en el tiempo decodificado (factor de cambio de tono relativo) para cada palabra codificada de distorsión en el tiempo.
[0105] En forma alternativa, sin embargo, la computadora de tabla de mapeo 480 podrá pre-computar una tabla de mapeo adaptada a la frecuencia de muestreo actual fs, para uso del mapeador 470. Por ejemplo, la computadora de tabla de mapeo computa los ingresos de la cuarta columna 496 de la Fig. 4e en respuesta al principio que se selecciona una frecuencia de muestreo actual de 12000hz. La computación de dichos factores de cambio de tono relativo prel para una frecuencia de muestreo fs de 12000hz se basan en la tabla de mapeo de referencia (que incluye, por ejemplo, el mapeo definido por la primera columna 490 y segunda columna 492 de la tabla de la Fig. 4e) y podrá realizarse usando la ecuación (3).
[0106] En consecuencia, dicha tabla de mapeo pre-computada podrá usarse para el mapeo de una palabra codificada de distorsión en el tiempo en un valor de distorsión en el tiempo decodificado. Además, la tabla de mapeo pre-computada podrá ser actualizada cuando la velocidad de re-muestreo cambia.
[0107] En síntesis, la regla de mapeo para el mapeo de las palabras codificadas de distorsión en el tiempo en valores de distorsión en el tiempo decodificados podrá evaluarse o computarse teniendo en cuenta la tabla de mapeo de referencia 482, donde se podrá realizar una pre-computación de una tabla de mapeo adaptada a la frecuencia de muestreo actual o computación improvisada del valor de distorsión en el tiempo decodificado.
6. Descripción Detallada de la Computación de la información de Control de distorsión en el tiempo.
[0108] A continuación se describen los detalles de la computación de la información de control de distorsión en el tiempo teniendo en cuenta la información de evolución del contorno de distorsión en el tiempo.
6.1. Aparato de acuerdo con las Figs. 5a y 5b.
[0109] Las Figs. 5a y 5b muestran un diagrama esquemático de bloque de un aparato 500 para proveer información de control de distorsión en el tiempo 512 teniendo en cuenta la información de evolución del contorno de distorsión en el tiempo 510, que podrá ser información de distorsión en el tiempo decodificada y podrá por ejemplo, comprender valores de distorsión en el tiempo decodificados provistos por el mapeo 234 del calculador de distorsión en el tiempo 230. El aparato 500 comprende los medios 520 para proveer información del contorno de distorsión en el tiempo reconstruida 522 teniendo en cuenta la información de evolución del contorno de distorsión en el tiempo 510 y el calculador de información de control de distorsión en el tiempo 530 para proveer la información de control de distorsión en el tiempo 512 teniendo en cuenta la información del contorno de distorsión en el tiempo reconstruida
522.
[0110] A continuación se describe la estructura y funcionalidad del medio 520.
[0111] El medio 520 comprende un calculador del contorno de distorsión en el tiempo 540, que recibe la información de evolución del contorno de distorsión en el tiempo 510 y provee, teniendo en cuenta lo anterior, una nueva información de porción del contorno de distorsión en el tiempo 542. Por ejemplo, un grupo de la información de evolución del contorno de distorsión en el tiempo (por ejemplo un grupo de un número predeterminado de valores de distorsión en el tiempo decodificados provistos por el mapeo 234) podrá transmitirse a un aparato 500 para cada cuadro de la señal de audio a reconstruir. Sin embargo, el grupo de información de evolución del contorno de distorsión en el tiempo 510 asociado con un cuadro de la señal de audio a reconstruir podrá usarse para la reconstrucción de una pluralidad de cuadros de la señal de audio en algunos casos. De modo similar, una pluralidad de grupos de información de evolución del contorno de distorsión en el tiempo podrá usarse para la reconstrucción del contenido de audio de un solo cuadro de la señal de audio como se describe en detalle a continuación. Como conclusión, se puede establecer que, en algunas realizaciones, la información de evolución del contorno de distorsión en el tiempo actualizada a la misma velocidad en la cual los grupos de coeficientes en dominio de transformada de la señal de audio a reconstruir son actualizados (1 grupo de información de evolución del contorno de distorsión en el tiempo 510 por cuadro de señal de audio, y/o una porción del contorno de distorsión en el tiempo por cuadro de señal de audio).
[0112] El calculador del contorno de distorsión en el tiempo 540, comprende un calculador de valor de nodo de distorsión en el tiempo 544, que computa una pluralidad (o secuencia temporal) de los valores de nodo del contorno de distorsión en el tiempo teniendo en cuenta una pluralidad (o secuencia temporal) de los valores de índice del contorno de distorsión en el tiempo, donde los valores de índice del contorno de distorsión en el tiempo se encuentran dentro de la información de evolución del contorno de distorsión en el tiempo 510. En otras palabras, los valores de distorsión en el tiempo decodificados provistos por el mapeo 234 podrán constituir valores de índice de distorsión en el tiempo (ej distorsión_valor_tbl (it-índice )). Para tal fin, el calculador de valor de nodo de distorsión en el tiempo 544 inicia la provisión de valores de nodo del contorno de distorsión en el tiempo a un valor predeterminado de inicio (por ejemplo 1) y para calcular siguientes valores de nodo del contorno de distorsión en el tiempo usando los valores de índice del contorno de distorsión en el tiempo, como se describe más adelante.
[0113] Además, el calculador de valor de nodo de distorsión en el tiempo 544 opcionalmente incluye un interpolador 548, que interpola entre siguientes valores de nodo del contorno de distorsión en el tiempo. En consecuencia, se obtiene la descripción 542 de la nueva porción del contorno de distorsión en el tiempo, donde la nueva porción del contorno de distorsión en el tiempo típicamente se inicia desde el valor de inicio predeterminado por el calculador de nodo de distorsión en el tiempo 524. Además, el medio 520 almacena la denominada “porción del contorno de distorsión en el tiempo de último momento” y la denominada “porción del contorno de distorsión en el tiempo actual” en una memoria que no muestra la Fig. 5.
[0114] Sin embargo, el medio 520 comprende además un restablecedor 550 que restablece la “porción del contorno de distorsión en el tiempo de último momento” para evitar (o reducir o eliminar) discontinuidades en toda la sección del contorno de distorsión en el tiempo, que se basa en la “porción del contorno de distorsión en el tiempo de último momento”, “porción del contorno de distorsión en el tiempo actual” y “porción del contorno de distorsión en el tiempo de tiempo nuevo”. Para tal fin, el restablecedor 550 recibe la descripción almacenada de la “porción del contorno de distorsión en el tiempo de último momento”, y de la “porción del contorno de distorsión en el tiempo actual” para restablecer en conjunto la “porción del contorno de distorsión en el tiempo de último momento”, y la “porción del contorno de distorsión en el tiempo actual” para obtener versiones restablecidas de la “porción del contorno de distorsión en el tiempo de último momento”, y de la “porción del contorno de distorsión en el tiempo actual”. A continuación se describen detalles de esta funcionalidad.
[0115] Además, el restablecedor 550 recibe, por ejemplo, desde una memoria que no muestra la Fig.5, un valor de suma asociado con la “porción del contorno de distorsión en el tiempo de último momento” en otro valor de suma asociado con la “porción del contorno de distorsión en el tiempo actual”. Estos valores de suma se denominan a veces “última_suma_distorsión” y “actual_suma_distorsión”, respectivamente. El restablecedor 550 restablece los valores de suma asociados con las porciones del contorno de distorsión en el tiempo correspondientes usando el mismo factor de restablecimiento con el cual se restablecen las porciones del contorno de distorsión en el tiempo correspondientes.
[0116] En algunos casos, el medio 520 podrá incluir un actualizador 560 que actualiza en forma repetida la entrada de las porciones del contorno de distorsión en el tiempo en el restablecedor 550 y la entrada de los valores de suma en el restablecedor 550. Por ejemplo, el actualizador 560 actualiza dicha información a la velocidad del cuadro. Por ejemplo, la porción del contorno de distorsión en el tiempo de tiempo nuevo” del presente ciclo del cuadro podrá servir como “porción del contorno de distorsión de último momento” en un próximo ciclo del cuadro. En consecuencia se crea una implementación de memoria eficiente, ya que la “porción del contorno de distorsión en el tiempo de último momento”, del ciclo del cuadro actual podrá ser desechada al completar el “ciclo del cuadro actual”.
[0117] Para sintetizar lo anterior, el medio 520 provee, para cada ciclo de cuadro (excepto algunos ciclos de cuadro especiales, por ejemplo, al comienzo de una secuencia de cuadro, o al final de una secuencia de cuadro o en un cuadro donde la distorsión en el tiempo es inactiva) una descripción de una sección del contorno de distorsión en el tiempo que incluye una descripción de una “porción del contorno de distorsión en el tiempo nuevo” de una “porción del contorno de distorsión en el tiempo actual restablecida” y de una “porción del contorno de distorsión de último momento restablecida”. Además, el medio 520 provee, para cada ciclo de cuadro (excepto algunos ciclos de cuadro especiales mencionados antes) una representación de los valores de suma del contorno de distorsión , por ejemplo, que incluyen un “valor de suma de porción del contorno de distorsión en el tiempo nuevo restablecido”, un “valor de suma de porción del contorno de distorsión en el tiempo actual restablecido y un “valor de suma de porción del contorno de distorsión de último momento tiempo nuevo restablecido”.
[0118] El calculador de información de control de distorsión en el tiempo 530 calcula la información de control de control de distorsión en el tiempo 512 teniendo en cuenta la información de porción del contorno de distorsión en el tiempo 542 provista por el medio 520. Por ejemplo, El calculador de información de control de distorsión en el tiempo 530 comprende un calculador del contorno de tiempo 570 que computa un contorno de tiempo 572 (ej. una representación teniendo en cuenta el muestreo del contorno de distorsión en el tiempo) teniendo en cuenta la información de control de distorsión en el tiempo reconstruida. Además, el calculador de información de control de distorsión en el tiempo 530 comprende un calculador de posición de muestra 574 que recibe al contorno de tiempo 572 y provee información de posición de muestra, por ejemplo, en forma de vector de posición de muestra 576. El vector de posición de muestra 576 describe la distorsión en el tiempo realizada, por ejemplo, por el aparato para remuestreo 240g.
[0119] El calculador de información de control de distorsión en el tiempo 530 incluye un calculador de longitud de transición, que deriva una información de longitud de transición desde la información de control de distorsión en el tiempo. La información de control de distorsión en el tiempo 582 podrá, por ejemplo, incluir información que describa una longitud de transición izquierda e información que describa una longitud de transición derecha. La longitud de transición podrá, por ejemplo, depender de la longitud de segmentos de tiempo descriptos por la “porción del contorno de distorsión de último momento”, la “porción del contorno de distorsión en el tiempo actual” y la “porción del contorno de distorsión en el tiempo nuevo”. Por ejemplo, la longitud de transición podrá acortarse (al comparar con una longitud de transición por defecto) si la extensión temporal de un segmento de tiempo descripta por la “porción del contorno de distorsión de último momento”, es menor a una extensión temporal de un segmento de tiempo descripta por la “porción del contorno de distorsión en el tiempo actual” si la extensión temporal de un segmento de tiempo descripta por la “porción del contorno de distorsión en el tiempo nuevo” es menor a la extensión temporal del segmento de tiempo descripta por la “porción del contorno de distorsión en el tiempo actual”.
[0120] Además, el calculador de información de control de distorsión en el tiempo 530 podrá incluir un calculador de primera y última posición 584, que calcula la denominada “primera posición” y la denominada “última posición” teniendo en cuenta la longitud de transición izquierda y derecha. La “primera posición” y la “última posición” aumentan la eficiencia del aparato para re-muestreo, si las regiones fuera de estas posiciones son idénticas a cero luego de la partición en ventanas y por lo tanto no necesitan ser tomadas en cuenta para la distorsión en el tiempo. Debe observarse que el vector de posición de muestra 576 comprende, por ejemplo, información usada (o necesaria) por la distorsión en el tiempo realizada por el aparato para re-muestreo 240g. Además, la longitud de transición izquierda y derecha 582 y la “primera posición” y la “última posición” 586 constituyen información que por ejemplo, es usada (o necesaria) por el generador de partición en ventanas 240e.
[0121] En consecuencia, el medio 520 y el calculador de información de control de distorsión en el tiempo 530 podrán en conjunto encargarse de la funcionalidad del ajuste de la tasa de muestreo 240m, del ajuste de forma de ventana 240l y del cálculo de posición de muestreo 240k.
6.2 Descripción Funcional de acuerdo con las Figs 6a y 6b
[0122] A continuación, se describe la funcionalidad de un decodificador de audio que incluye un medio 520 y calculador de información de control de distorsión en el tiempo 530 con referencia a las Figs 6a y 6b.
[0123] Las Figs 6a y 6b muestran un diagrama de flujo de un procedimiento para decodificar una representación codificada de una señal de audio, de acuerdo con una realización de la invención. El procedimiento 600 comprende proveer información del contorno de distorsión en el tiempo reconstruida que incluye el mapeo 604 de palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados, calculando 610 valores de nodo de distorsión, interpolando 620 entre los valores de nodo de distorsión y reajustando a escala 630 una o más de las porciones del contorno de distorsión calculadas antes y uno
o más valores de suma del contorno de distorsión calculados antes. El procedimiento 600 comprende calcular 640 información de control de distorsión en el tiempo usando una “porción del contorno de distorsión en el tiempo nuevo” de los pasos 610 y 620, las porciones del contorno de distorsión en el tiempo calculadas antes (“porción del contorno de distorsión en el tiempo actual”, “porción del contorno de distorsión en el tiempo de último momento”) y además, opcionalmente usar los valores de suma del contorno de distorsión calculados antes. En consecuencia, una información de control de distorsión en el tiempo y/o una información de posición de muestra, y/o información de longitud de transición y/o una información de primera posición y última posición pueden obtenerse en el paso 640.
[0124] El procedimiento 600 comprende realizar 650 una reconstrucción de señal de distorsión en el tiempo usando información de control de distorsión en el tiempo del paso 640. Los detalles de la reconstrucción de señal de distorsión en el tiempo se describen a continuación.
[0125] El procedimiento 600 comprende un paso 660 para actualizar una memoria, como se describe a continuación.
7. Descripción Detallada del Algoritmo
7.1 Síntesis
[0126] A continuación se describen en detalle algunos algoritmos realizados por un decodificador de audio de acuerdo con una realización de la invención. Para tal fin, se hace referencia a las Figs. 5a, 5b, 6a, 6b, 7a, 7b, 8, 9, 10a, 10b, 11, 12, 13, 14, 15 y 16.
[0127] En primer lugar, se hace referencia a la Fig 7a, que muestra una leyenda de definiciones de elementos de datos y una leyenda de definiciones de elementos de ayuda. Además, se hace referencia a la Fig. 7b que muestra una leyenda de definiciones de constantes.
[0128] En general, los procedimientos de la presente pueden usarse para decodificar una reproducción de audio en forma simultánea codificada de acuerdo con una transformada de coseno discreta modificada de distorsión en el tiempo. De este modo, cuando TW-MDCT (sigla en inglés para transformada discreta del coseno modificada de distorsión en el tiempo) está habilitado para una reproducción de audio en forma simultánea (con un indicador por ejemplo, “twMDCT” incluido en una información de configuración específica), un banco de filtro de distorsión en el tiempo y cambio de bloque podrán reemplazar un banco de filtro estándar y cambio de bloque en un decodificador de audio. Además, de la transformada discreta del coseno modificada inversa (IMDCT) el banco de filtro de distorsión en el tiempo y cambio de bloque contiene un mapeo en dominio de tiempo a dominio de tiempo desde una grilla de tiempo espaciada en forma arbitraria a una grilla de tiempo espaciada en forma normal o lineal y la correspondiente adaptación de formas de ventanas.
[0129] Cabe observar, que el algoritmo de decodificación de la presente podrá realizarse por ejemplo, por el decodificador 240 teniendo en cuenta la representación codificada 214 del espectro y la información de distorsión en el tiempo codificada 232.
7.2 Definiciones:
[0130] Con respecto a la definición de elementos de datos, elementos de ayuda y constantes, se hace referencia a las Figs. 7a y 7b.
7.3 Decodificación del Contorno del Proceso-Distorsión
[0131] Los índices del libro de códigos de los nodos del contorno de distorsión se decodifican de la siguiente manera a valores de distorsión para nodos individuales:
[0132] Sin embargo, el mapeo de las palabras codificadas de distorsión en el tiempo “índice (k)_dt” en valores de distorsión en el tiempo decodificados denominados “tbl_valor_distorsión (índice _dt(k)), depende de la frecuencia de
5 muestreo en las realizaciones de acuerdo con la invención. En consecuencia, no existe una sola tabla de mapeo en las realizaciones de acuerdo con la invención, sino tablas de mapeo individuales para las diferentes frecuencias de muestreo.
[0133] Por ejemplo, los valores de resultado “tbl_valor_distorsión (índice _dt(k)), que retornan mediante un acceso
10 de tabla de mapeo a una tabla de mapeo correspondiente a la frecuencia de muestreo actual, pueden ser considerados como valores de distorsión en el tiempo decodificados, provistos por el mapeo 234 mediante el mapeo de adaptación 400 o por el mapeo de adaptación 450 teniendo en cuenta las palabras codificadas de distorsión en el tiempo “índice (k)_dt” incluida en una secuencia de bits que constituye (o representa) la representación de señal de audio codificada 210.
15 [0134] Para obtener los datos del contorno de distorsión en el tiempo nuevos “contorno_distorsión_nuevo()” en lo que respecta a la muestra (n_muestras largas), los valores de nodo de distorsión “valores_nodo_distorsión()” se interpolan en forma lineal entre nodos separados por igual (Interp_dist separ) usando un algoritmo, una pseudo representación de código de programa de la Fig. 9.
20 [0135] Antes de obtener todo el contorno de distorsión para este cuadro (por ejemplo, para un cuadro actual) los valores reducidos del pasado podrán ser reajustados a escala, para que el último valor de distorsión del contorno de distorsión pasado “contorno ()_distorsión_pasado” = 1.
[0136] Todo el contorno de distorsión “contorno()_distorsión” se obtiene al concatenar el contorno de distorsión pasado “contorno_distorsión_pasado” y el contorno de distorsión nuevo “contorno_distorsión_nuevo”, y la suma de 30 distorsión nueva “suma_distorsión-nueva” se calcula como una suma sobre todos los valores del contorno de distorsión nuevos “contorno()_distorsión-nuevo”:
7.4 Decodificación de la Posición Proceso_Muestra y Ajuste de Longitud de Ventana.
[0137] A partir del contorno de distorsión “contorno_distorsión”, se computa un vector de posiciones de muestra de las muestras distorsionadas en una escala de tiempo línea. Para ello, el contorno de distorsión se genera de 40 acuerdo con las siguientes ecuaciones:
[0138] Con las funciones de ayuda “vec()_inv_distorsión” y “inv()_tiempo_distorsión”, cuyas pseudo
5 representaciones de código de programa se muestran en las Figs. 10a y 10b, respectivamente, el vector de posición de muestra y la longitud de transición se computan de acuerdo con un algoritmo, cuyas pseudo representaciones de código de programa se muestran en la Fig. 11.
7.5. Decodificación de Transformada Discreta de Coseno Modificada del Proceso-Inverso (IMDCT)
10 [0139] A continuación, se describe brevemente la transformada de coseno discreta modificada inversa.
[0140] La expresión analítica de la transformada de coseno discreta modificada inversa es la siguiente.
15 Donde: n = índice de muestra i = índice de ventana k =índice de coeficiente espectral n = longitud de ventana basada en el valor de secuencia_ventana
20 n0 = (N/2 + 1) /2
[0141] La longitud de ventana de síntesis para la transformada inversa es una función del elemento de sintaxis “secuencia_ventana” (incluida en la secuencia de bits) y el contexto algorítmico. La longitud de ventana de síntesis podrá, por ejemplo, definirse de acuerdo con la tabla de la Fig. 12.
25 [0142] Las transiciones de bloque significativas se enumeran en la tabla de la Fig. 13. Una marca de tilde en una celda de la tabla indica que una secuencia de ventana enumerada en esta fila en particular podrá estar seguida de una secuencia de ventana enumerada en esta columna en particular.
30 [0143] Teniendo en cuenta las secuencias de ventana permitidas, debe observarse que el decodificador de audio podrá, por ejemplo, cambiar entre ventanas de diferentes longitudes. Sin embargo, el cambio de longitud de ventanas no es relevante para la invención. En cambio, la presente invención puede entenderse teniendo en cuenta la suposición que existe una secuencia de ventanas del tipo “sólo_secuencia_larga” y que la longitud de cuadro del codificador de núcleo es igual a 1024.
35 [0144] Además, debe observarse que el decodificador de señal de audio podrá cambiar entre un modo de codificación en dominio de frecuencia y modo de codificación en dominio de tiempo. Sin embargo, esta posibilidad no es relevante para la invención. En cambio, la presente invención se aplica en decodificadores de señales de audio sólo capaces de manejar el modo de codificación en dominio de frecuencia, como se analiza, por ejemplo, con
40 referencia a las Figs. 1, 2, 3a y 3b.
7.6 Decodificación del Proceso-Partición en Ventanas y Cambio de Bloque
[0145] A continuación se describe la partición en ventanas y cambio de bloque, realizados por el decodificador de 45 distorsión 240, y en particular, por el generador de partición en ventanas 240e del mismo.
[0146] Dependiendo del elemento “forma_ventana” (que puede ser incluido en una secuencia de bits que representa la señal de audio) se usan diferentes prototipos de ventanas de transformadas sometidas a sobre muestreo y la longitud de las ventanas sometidas a sobre muestreo es: [0147] Para forma_ventana = 1, los coeficientes de la ventana se dan por la derivada de Kaiser-Bessel (KBD) de la siguiente manera:
W¹, la función de núcleo de Kaiser-Bessel se define:
a = factor alfa de núcleo de ventana, a = 4
[0149] Para todas las secuencias de ventana, el prototipo usado para la parte de la ventana izquierda se determina por la forma de ventana del bloque previo. La siguiente fórmula expresa este hecho:
[0150] De igual modo el prototipo la forma de ventana derecha se determina con la siguiente fórmula: [0151] Como las longitudes de transición ya se determinaron, sólo se debería diferenciar entre la secuencia de ventana del tipo “SECUENCIA_CORTA_OCHO” y demás secuencias de ventanas.
5 [0152] En caso que el cuadro actual fuera del tipo “SECUENCIA_CORTA_OCHO”, se realiza una partición en ventanas y superposición y suma interna (cuadro-interno). La porción del tipo código-C de la Fig. 14 describe la partición en ventanas y superposición y suma interna del cuadro con ventana tipo “SECUENCIA_CORTA-OCHO”.
[0153] Para cuadros de otros tipos, se usa un algoritmo, una pseudo representación de código de programa de la 10 Fig. 15.
7.7. Decodificación de Re-muestreo con variación de Proceso-Tiempo
[0154] A continuación se describe un re-muestreo con variación de tiempo, realizado por el decodificador de 15 distorsión 240, y en particular, pro el aparato para re-muestreo 240g.
[0155] El bloque sujeto a partición en ventanas z() es re-muestreado de acuerdo con las posiciones de muestra (provistas por el calculador de posición de muestreo 240k teniendo en cuenta los valores de distorsión en el tiempo
[0156] Antes del re-muestreo, el bloque sujeto a partición en ventanas se rellena con ceros en ambos extremos:
25 [0157] El re-muestreo en sí se describe en una sección de pseudo código de programa de la Fig. 16.
7.8. Decodificación del Proceso-Superposición y Suma con Secuencias de Ventana Previa.
30 [0158] La superposición y suma realizada por el generador de superposición/sumador 240j del decodificador de distorsión 240, es el mismo para todas las secuencias y se describe en forma matemática de la siguiente forma:
7.9. Decodificación de Actualización Proceso-Memoria
[0159] A continuación se describe una actualización de memoria. Aunque no se muestra un medio específico en la Fig. 3d, debe observarse que la actualización de memoria puede realizarse por medio del decodificador de distorsión
240.
[0160] Los búferes de memoria necesarios para decodificar el próximo cuadro se actualizan de la siguiente manera:
Contorno(n)_distorsión_pasado=contorno (n+n_largo)_distorsión, para 0� n<2.n_largo Suma_distorsión_actual=suma_distorsión_nueva Suma_distorsión_última=suma_distorsión_actual
[0161] Antes de la decodificación del primer cuadro o si el último cuadro fue codificado con un codificador en dominio óptico LPC, los estados de memoria se determinan así:
Contorno(n)_distorsión_pasado= 1 para 0� n<2.n_largo Suma_distorsión_actual=n_largo Suma_distorsión_última=n_largo
7.10. Decodificación Proceso-Conclusión
[0162] Para sintetizar lo anterior, se describe un proceso de decodificación, que puede ser realizado por el decodificador de distorsión 240. Como se observa, se provee una representación en dominio de tiempo para un cuadro de audio, por ejemplo, muestras en dominio de tiempo 2048, y siguientes cuadros de audio podrán, por ejemplo, superponerse por aproximadamente 50%, de modo que se asegura una transición suave entre las representaciones en dominio de tiempo de siguientes cuadros de audio.
[0163] Un grupo de, por ejemplo, valores de distorsión en el tiempo decodificados NODOS_DT_NUM= 16 podrá asociarse con cada cuadro de audio (siempre que la distorsión en el tiempo esté activa en dicho cuadro de audio), irrespectivamente de la frecuencia de muestreo real de las muestras en dominio de tiempo del cuadro de audio.
8. Reproducción de Audio en forma Simultánea de Acuerdo con las Figs. 17a-17f
[0164] A continuación se describe una técnica de reproducción de audio en forma simultánea que comprende una representación codificada de uno o más canales de señal de audio y uno o más contornos de distorsión de tiempo. La técnica de reproducción de audio en forma simultánea a describir podrá, por ejemplo, llevar la representación de señal de audio codificada 112 o representación de señal de audio codificada 210.
[0165] La Fig. 17a muestra una representación gráfica de un elemento de flujo de datos denominado “bloque_datos_crudo_USAC (sigla en inglés para Discurso Unificado y Codificación de Audio)”, que puede incluir un elemento de canal de señal (SCE, por su sigla en inglés), un elemento de par de canal (CPE, por su sigla en inglés)
o combinación de uno o más elementos de canales individuales y/o uno más elementos de par de canales.
[0166] El “bloque_datos_crudo_USAC (sigla en inglés para Discurso Unificado y Codificación de Audio)” podrá incluir un bloque de datos de audio codificados, proporcionando a la vez información del contorno de distorsión en el tiempo adicional en un elemento de flujo de datos separado. Sin embargo, es posible naturalmente codificar datos del contorno de distorsión en el tiempo en el “bloque_datos_crudo_USAC (sigla en inglés para Discurso Unificado y Codificación de Audio)”.
[0167] La Fig. 17b muestra un elemento de canal individual que comprende un flujo de canal en dominio de frecuencia (“flujo_canal df”) explicado en detalle con referencia a la Fig. 17d.
[0168] La Fig. 17c muestra un elemento de par de canales (“elemento_par_canal”) que incluye una pluralidad de flujos de canal en dominio de frecuencia. Además, el elemento de par de canales podrá incluir información de distorsión en el tiempo, como, por ejemplo, un indicador de activación de distorsión en el tiempo (“MDCT(por su sigla en inglés)_dt”) transmitido en un elemento de flujo de datos o “bloque_datos_crudo_USAC (sigla en inglés para Discurso Unificado y Codificación de Audio)”.,que determina si se incluye la información de distorsión en el tiempo en el elemento de par de canales. Por ejemplo, si el indicador(“MDCT(por su sigla en inglés)_dt”) indica que la distorsión en el tiempo está activa, el elemento de par de canales podrá incluir un indicador (“dt_común”) que indica si existe una distorsión en el tiempo común para múltiples canales de audio, y se incluye información de distorsión en el tiempo común (“datos_dt”) en el elemento de par de canales, por ejemplo, separada de los flujos de canales en dominio de frecuencia.
[0169] Con referencia a la Fig. 17d, se describe el flujo de canales en dominio de frecuencia. La Fig. 17d muestra que el flujo de canales en dominio de frecuencia., por ejemplo, comprende información de ganancia global. Además, el flujo de canales en dominio de frecuencia incluye datos de distorsión en el tiempo, si la distorsión en el tiempo se encuentra activa (indicador “MDCT_dt” activo) y si no hay información de distorsión en el tiempo común para múltiples canales de señal de audio ((indicador “dt_común” inactivo).
[0170] Además, un flujo de canales en dominio de frecuencia incluye datos de factor a escala (“datos_factor_escala”) y datos espectrales codificados (por ejemplo, datos espectrales codificados en forma aritmética “datos_espectrales_ar”).
[0171] En la Fig. 17e, se analiza brevemente la sintaxis de los datos de distorsión en el tiempo. Los datos de distorsión en el tiempo podrán, por ejemplo, opcionalmente incluir un indicador (ej. “datos_dt_presentes o “datos_tono_activos”) que indican si hay datos de distorsión en el tiempo presentes. Si hay datos de distorsión en el tiempo presentes (es decir, el contorno de distorsión en el tiempo no es plano), los datos de distorsión en el tiempo podrán incluir la secuencia de una pluralidad de valores de índice de distorsión en el tiempo codificados (ej. “índice (i)_dt”o “índ(i) tono”), que podrán por ejemplo, codificarse de acuerdo con una tabla de libro de códigos que depende de la tasa de muestreo, como se describe anteriormente.
[0172] De este modo, los datos de distorsión en el tiempo podrán incluir un indicador que señala que no hay datos de distorsión en el tiempo disponibles, determinados por un codificador de señal de audio, si el contorno de distorsión en el tiempo es constante (índices de distorsión en el tiempo aproximadamente igual a 1,000). En contraposición, si el contorno de distorsión en el tiempo es variable. Los índices entre siguientes nodos de contorno de distorsión en el tiempo podrán codificarse usando índices de libros de códigos, constituyendo la información “índice_dt”.
[0173] La Fig. 17f muestra una representación gráfica de la sintaxis de los datos espectrales codificados en forma aritmética “datos()_espectrales_ar”. Los datos espectrales codificados en forma aritmética son codificados dependiendo del estado de un indicador de independencia (acá:”Indic-indepen”), que indica, si está activo, que los datos codificados en forma aritmética son independientes de los datos codificados en forma aritmética de un cuadro anterior. Si el indicador de independencia (”Indic-indepen”) está activo, un indicador de restablecimiento aritmético "indic“dor_restabl._aritmét” se establece como activo. De lo contrario, el valor del indicador de restablecimiento aritmético se determina por un bit en los datos espectrales codificados en forma aritmética.
[0174] Además, el bloque de datos espectrales codificados en forma aritmética “datos()_espectrales_ar” comprenden una o más unidades de datos codificados en forma aritmética, donde la cantidad de unidades de los datos codificados en forma aritmética “datos_arit” depende de la cantidad de bloques (o ventanas) en el cuadro actual. En el modo bloque largo, existe sólo una ventana por cuadro de audio. Sin embargo, en el modo bloque corto, puede haber, por ejemplo, ocho ventanas por cuadro de audio. Cada unidad de datos espectrales codificados en forma aritmética “datos_arit” comprende un grupo de coeficientes espectrales, que pueden ser la entrada para una transformada en dominio de frecuencia a dominio de tiempo, que pueden ser realizados, por ejemplo por la transformada inversa 240c.
[0175] La cantidad de coeficientes espectrales por unidad de datos espectrales codificados en forma aritmética “datos_arit” podrá, por ejemplo, ser independiente de la frecuencia de muestreo, pero depender del modo de longitud de bloque (modo de bloque corto SECUENCIA_CORTA-OCHO”, o modo de bloque largo “SOLO_SECUENCIA_LARGA”).
9. Conclusiones
[0176] Para sintetizar lo anterior, se ha descripto una mejora para la transformada discreta de coseno modificada de distorsión en el tiempo (MDCT (por su sigla en inglés)-DT). La invención anteriormente descripta se encuentra dentro del contexto del codificador de transformada de distorsión en el tiempo MDCT y crea procedimientos para un mejor desempeño del codificador de transformada de distorsión en el tiempo MDCT. Para mayores detalles sobre la transformada discreta de coseno modificada de distorsión en el tiempo, se hace referencia a (1) y (2).
[0177] Una implementación de dicho codificador de transformada de distorsión en el tiempo MDCT se realiza en el trabajo de estandarización de codificación de audio MPEG (sigla en inglés para grupo de expertos en imágenes en movimiento) USAC (sigla en inglés para Discurso Unificado y Codificación de Audio) (ver por ejemplo, referencia (3)). Los detalles de la implementación MDCT de distorsión en el tiempo pueden encontrarse en la referencia (4).
[0178] Además, debe observarse que el codificador de señal de audio y decodificador de señal de audio de la presente comprenden los rasgos presentes en las solicitudes de patente internacional WO/2010/003583, W0/2010/003618, WO/2010/003581 y WO/2010/003582. Los principios de dichas cuatro solicitudes de patente internacional pueden ser incorporados a las realizaciones de acuerdo con la presente invención.
10. Implementación Alternativa
[0179] Aunque algunos aspectos han sido descriptos en el contexto de un aparato, es claro que estos aspectos representan también una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a un paso de procedimiento o un rasgo de un paso de procedimiento. En forma análoga, los aspectos en el contexto de un paso del procedimiento además representan una descripción de un bloque, ítem o rasgo correspondiente de un aparato correspondiente. Algunos o todos los pasos de los procedimientos podrán ejecutarse (usando) mediante un aparato de hardware, como por ejemplo, un microprocesador, computadora programable o circuito electrónico. En algunas realizaciones, uno o muchos de los pasos del procedimiento más importantes podrán ejecutarse usando dicho aparato.
[0180] La señal de audio codificada de la invención podrá almacenarse en un medio de almacenamiento digital o podrá ser transmitida en un medio de transmisión como un medio de transmisión inalámbrico o medio de transmisión por cable como Internet.
[0181] Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención podrán can be implementarse en hardware o software. La implementación podrá realizarse usando un medio de almacenamiento digital por ejemplo un disco flexible, DVD, Blue Ray, CD, ROM, PROM, EPROM, EEPROM o memoria FLASH, con señales de control legibles en forma electrónica almacenadas en los mismos, que cooperan (o pueden cooperar) con un sistema de computación programable de modo que se aplique el respectivo procedimiento. Por lo tanto, el medio de almacenamiento digital podrá ser una computadora capaz de ser leída.
[0182] Algunas formas de realización de acuerdo con la invención comprenden portadores de datos con señales de control legibles en forma electrónica, que pueden cooperar con un sistema de computación programable de modo que se aplique uno de los procedimientos descriptos en la presente.
[0183] Generalmente, las formas de realización de la presente invención podrán implementarse como producto de programa de ordenador con un código de programa, el código de programa aplica una de los procedimientos cuando el producto de programa de ordenador opera en una computadora. El código de programa podrá por ejemplo almacenarse en un portador legible por máquina.
[0184] Otras formas de realización comprenden el programa de ordenador para aplicar uno de los procedimientos de la presente, almacenado en un portador legible por máquina.
[0185] En otras palabras, una forma de realización del procedimiento de invención, consiste por lo tanto, en un programa de ordenador con un código de programa para aplicar uno de los procedimientos de la presente cuando el producto de programa de ordenador opera en una computadora.
[0186] Otra forma de realización del procedimiento de invención consiste por lo tanto, en un portador de datos (o medio de almacenamiento digital o medio legible por computadora) que comprende, el programa de ordenador para aplicar uno de los procedimientos de la presente grabado en el mismo. El portador de datos, medio de almacenamiento digital o medio grabado son típicamente tangibles y/o no de transición.
[0187] Otra forma de realización del procedimiento de invención consiste por lo tanto, en un flujo de datos o secuencia de señales que representan el programa de ordenador para aplicar uno de los procedimientos de la presente. El flujo de datos o secuencia de señales podrá por ejemplo configurarse para ser transferido mediante conexión de comunicación de datos, por ejemplo mediante Internet.
[0188] Otra forma de realización comprende un medio de procesamiento, por ejemplo una computadora, o dispositivo lógico programable, configurado para o adaptado para aplicar uno de los procedimientos de la presente.
[0189] Otra forma de realización comprende una computadora con un programa de ordenador instalado en la misma para aplicar uno de los procedimientos de la presente.
[0190] Otra realización de acuerdo con la invención comprende un aparato o sistema para transferir (por ejemplo, en forma electrónica u óptica) un programa de ordenador para aplicar uno de los procedimientos de la presente a un receptor. El receptor podrá por ejemplo, ser una computadora, dispositivo móvil, dispositivo de memoria o similar. El aparato o sistema podrá por ejemplo, incluir un servidor de archivo para transferir el programa de ordenador al receptor.
[0191] En algunas formas de realización, un dispositivo lógico programable (por ejemplo un Campo de Matrices de Puertas Programables) podrá usarse para aplicar algunas o todas las funcionalidades de los procedimientos de la presente. En algunas formas de realización, un Campo de Matrices de Puertas Programables podrá cooperar con un microprocesador para aplicar uno de los procedimientos de la presente. Generalmente, los procedimientos preferentemente se aplican mediante un aparato de hardware.
[0192] Las formas de realización antes descriptas son solo ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles de la presente resultarán evidentes para otros expertos en la técnica. Por lo tanto se intenta quedar sólo limitado al alcance de las reivindicaciones de la patente y no a los detalles específicos presentados a modo de descripción y explicación de las formas de realización de la presente.
Referencias
[0193]
[1] Bernd Edler et.al., “MDCT de distorsión en el tiempo”, EEUU 61/042.314, solicitud provisional de patente,
[2] L.Villemoes, “Codificación de Señales de Audio de Distorsión en el tiempo”, PCT/EP2006/010246, solicitud de patente internacional, Noviembre 2005.
[3] “WD6 de USAC, ISO/IEC JTC1/SC29/WG11N11213, 2010.
5 [4] Bernd Edler et.al., “Enfoque sobre MDCT de Distorsión en el tiempo a la Codificación de Transformada del Discurso”, Convención AES 126, Munich, Mayo 2009, pre-impresión 7710.
[5] Nikolaus Meine, “Vektorquantisierung und kontextabhängige arithmetische Codierung für MPEG-4 AAC, VDI, Hannover, 2007.

Claims (16)

  1. REIVINDICACIONES
    1. Un decodificador de señal de audio (200;350) que provee una representación de señal de audio decodificada
    (212) teniendo en cuenta una representación de señal de audio codificada (112, 210) que comprende información de frecuencia de muestreo (218), información de distorsión en el tiempo codificada (216, índice(i) dt)) y una representación de espectro codificada (214, datos_espectrales_ar), el decodificador de señal de audio comprende:
    Un calculador de distorsión en el tiempo (230, 604) configurado para mapear la información de distorsión en el tiempo codificada (216, índice(i) dt)) en una información de distorsión en el tiempo decodificada (232, tbl (índice(i)_valor_ distorsión), Prel). Donde el calculador de distorsión en el tiempo se configura para adaptar una regla de mapeo para mapear palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) que describen la información de distorsión en el tiempo decodificada (232) dependiendo de la información de frecuencia de muestreo (218); y Un decodificador de distorsión (240) configurado para proveer una representación de señal de audio decodificada (212) teniendo en cuenta la representación de espectro codificada (214, datos()espectrales_ar) y dependiendo de la información de distorsión en el tiempo decodificada (232).
  2. 2. El decodificador de la señal de audio de acuerdo con la reivindicación 1, donde las palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) describen una evolución temporal del contorno de distorsión en el tiempo (contorno()_tiempo) y Donde el calculador de distorsión en el tiempo (230, 604) se configura para evaluar un número predeterminado (nodos_dt_núm.) de palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada
    (216) para un cuadro de audio de una señal de audio codificada representada por la representación de espectro codificada (214, datos()-espectrales_ar) donde el número predeterminado de palabras codificadas es independiente de la frecuencia de muestreo de la señal de audio codificada.
  3. 3.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 o 2, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un rango de valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) sobre los cuales se mapean palabras codificadas (índice, índice(i) dt) de un grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada (216), es mayor para una primera frecuencia de muestreo que para una segunda frecuencia de muestreo siempre que la primera frecuencia de muestreo sea menor que la segunda frecuencia de muestreo.
  4. 4.
    El decodificador de la señal de audio de acuerdo con la reivindicación 3, donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) son valores del contorno de distorsión en el tiempo que representan valores del contorno de distorsión en el tiempo o valores de variación del contorno e distorsión en el tiempo que representan cambio de valores absolutos o relativos de un contorno de distorsión en el tiempo (contorno()_tiempo).
  5. 5.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 4, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un cambio máximo de tono sobre un número dado de muestras de una señal de audio representada por la representación de señal de audio codificada (112, 210), que se representa por un grupo dado de palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) es mayor para una primera frecuencia de muestreo que para una segunda frecuencia de muestreo, siempre que la primera frecuencia de muestreo sea menor a la segunda frecuencia de muestreo.
  6. 6.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 5, donde el calculador de distorsión en el tiempo (230) se configura para adaptar la regla de mapeo de modo que un cambio máximo de tono sobre un período de tiempo dado, representado por un grupo dado de palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) en una primera frecuencia de muestreo, difiere del cambio máximo de tono sobre un período de tiempo dado, representado por el grupo dado de palabras codificadas de la información de distorsión en el tiempo codificada en una segunda frecuencia de muestreo, no mayor a un 10% para una primera frecuencia de muestreo y segunda frecuencia de muestreo que difiere en al menos un 30%.
  7. 7.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 6, donde el calculador de distorsión en el tiempo (230) se configura para usar diferentes tablas de mapeo (480, 484; 480, 486) para mapear palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (216) en valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) dependiendo de la información de frecuencia de muestreo (218).
  8. 8.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 6, donde el calculador de distorsión en el tiempo (230) se configura para adaptar valores de mapeo de referencia (494), que describen valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) asociados con diferentes palabras codificadas
    (índice, índice(i) dt 490) de la información de distorsión en el tiempo codificada (216) para una frecuencia de muestreo de referencia (fs, ref), a una frecuencia de muestreo real (fs) diferente a la frecuencia de muestreo de referencia (fs), para obtener valores de mapeo adaptados (496).
  9. 9.
    El decodificador de la señal de audio de acuerdo con la reivindicación 8 donde el calculador de distorsión en el tiempo se configura para ajustar a escala una porción de los valores de mapeo de referencia (494), que describe una distorsión en el tiempo, dependiendo de un índice entre la frecuencia de muestreo real (fs), y la frecuencia de muestreo de referencia (fs, ref).
  10. 10.
    El decodificador de la señal de audio de acuerdo con la reivindicación 9 donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) describen una variación del contorno de distorsión en el tiempo sobre un número predeterminado de muestras de la señal de audio codificada representada por la representación de señal de audio codificada (210), y Donde el decodificador de señal de audio comprende un calculador de posición de muestreo, donde el calculador de posición de muestreo se configura para combinar una pluralidad de valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel), que representan una variación del contorno de distorsión en el tiempo, para derivar un valor de nodo del contorno de distorsión en el tiempo (valores()_nodo_distorsión), de modo que una desviación de los valores de nodo del contorno de distorsión en el tiempo desde un valor de nodo de distorsión en el tiempo de referencia es mayor a una desviación representada por un solo valor de distorsión en el tiempo decodificado(tbl (índice_dt)_valor_ distorsión), Prel).
  11. 11.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 10 donde los valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), Prel) describen un cambio relativo de un contorno de distorsión en el tiempo sobre un número predeterminado de muestras de la señal de audio codificada representada por la representación de señal de audio codificada (210), y Donde el decodificador de la señal de audio comprende un calculador de posición de muestreo, donde el calculador de posición de muestreo se configura para derivar una información del contorno de distorsión en el tiempo distorsión en el tiempo desde los valores de distorsión en el tiempo decodificados.
  12. 12.
    El decodificador de la señal de audio de acuerdo con la reivindicación 1 a 11, donde el decodificador de la señal de audio comprende un calculador de posición de muestreo (240k), donde el calculador de posición de muestreo se configura para computar puntos de soporte (valores()_nodo_distorsión) de un contorno de distorsión en el tiempo teniendo en cuenta los valores de distorsión en el tiempo decodificados (tbl (índice_dt)_valor_ distorsión), y Donde el calculador de posición de muestreo se configura para interpolar entre los puntos de soporte, para obtener el contorno de distorsión en el tiempo (contorno()_tiempo), Y donde un número de valores de distorsión en el tiempo decodificados por cuadro de audio es independiente de la frecuencia de muestreo.
  13. 13.
    Un codificador de señal de audio (100, 300) para proveer una representación codificada (112) de una señal de audio (110), el codificador de señal de audio comprende:
    Un codificador del contorno de distorsión en el tiempo (130) configurado para mapear valores de distorsión en el tiempo (prel) que describen el contorno de distorsión en el tiempo en información de distorsión en el tiempo codificada (132), Donde el codificador del contorno de distorsión en el tiempo (130) se configura para adaptar una regla de mapeo (134) para mapear los valores de distorsión en el tiempo (prel) que describen el contorno de distorsión en el tiempo en palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (132) dependiendo de la frecuencia de muestreo (fs) de la señal de audio (110); y Un codificador de señal de distorsión en el tiempo (140), configurado para obtener una representación codificada (142) de un espectro de la señal de audio (110), teniendo en cuenta una distorsión en el tiempo descripta por el contorno de distorsión en el tiempo (122), Donde la representación codificada (112) de la señal de audio (110) comprende las palabras codificadas (índice, índice(i) dt) de la información de distorsión en el tiempo codificada (132), la representación codificada (142) del espectro y una información de frecuencia de muestreo (152) que describe la frecuencia de muestreo.
  14. 14.
    Un procedimiento para proveer una representación de señal de audio decodificada teniendo en cuenta una representación de señal de audio codificada que comprende información de frecuencia de muestreo, información de una distorsión en el tiempo codificada y una representación de espectro codificada, el procedimiento comprende:
    Mapear la información de distorsión en el tiempo codificada en una información de distorsión en el tiempo decodificada, donde una regla de mapeo para mapear palabras codificadas de la información de distorsión en el tiempo codificada en valores de distorsión en el tiempo decodificados que describen la información de distorsión en el tiempo decodificada se adapta dependiendo de la información de frecuencia de muestreo, y Proveer la representación de señal de audio decodificada teniendo en cuenta una representación de espectro codificada dependiendo de la información de distorsión en el tiempo decodificada.
  15. 15.
    Un procedimiento para proveer una representación codificada de una señal de audio, el procedimiento comprende:
    5 Mapear valores de distorsión en el tiempo que describen un contorno de distorsión en el tiempo en información de distorsión en el tiempo codificada, Donde una regla de mapeo para mapear valores de distorsión en el tiempo que describen un contorno de distorsión en el tiempo en palabras codificadas de la información de distorsión en el tiempo codificada se adapta dependiendo de la frecuencia de muestreo de la señal de audio;
    10 Obtener una representación codificada de un espectro de la señal de audio, teniendo en cuenta una distorsión en el tiempo descripta por la información del contorno de distorsión en el tiempo; Donde la representación codificada de la señal de audio comprende las palabras codificadas de la información de distorsión en el tiempo codificada, la representación codificada del espectro e información de la frecuencia de muestreo que describe la frecuencia de muestreo.
  16. 16. Un programa de ordenador para aplicar el procedimiento de acuerdo con la reivindicación 14 o 15 cuando el programa de ordenador opera en una computadora.
ES11707665T 2010-03-10 2011-03-09 Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo Active ES2458354T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31250310P 2010-03-10 2010-03-10
US312503P 2010-03-10
PCT/EP2011/053538 WO2011110591A1 (en) 2010-03-10 2011-03-09 Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding

Publications (1)

Publication Number Publication Date
ES2458354T3 true ES2458354T3 (es) 2014-05-05

Family

ID=43829343

Family Applications (2)

Application Number Title Priority Date Filing Date
ES11707415T Active ES2461183T3 (es) 2010-03-10 2011-03-09 Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación
ES11707665T Active ES2458354T3 (es) 2010-03-10 2011-03-09 Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES11707415T Active ES2461183T3 (es) 2010-03-10 2011-03-09 Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación

Country Status (16)

Country Link
US (2) US9129597B2 (es)
EP (2) EP2539893B1 (es)
JP (2) JP5625076B2 (es)
KR (2) KR101445296B1 (es)
CN (2) CN102884572B (es)
AR (2) AR080396A1 (es)
AU (2) AU2011226143B9 (es)
BR (2) BR112012022744B1 (es)
CA (2) CA2792500C (es)
ES (2) ES2461183T3 (es)
HK (2) HK1179743A1 (es)
MX (2) MX2012010439A (es)
PL (2) PL2539893T3 (es)
RU (2) RU2607264C2 (es)
TW (2) TWI455113B (es)
WO (2) WO2011110591A1 (es)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2083418A1 (en) * 2008-01-24 2009-07-29 Deutsche Thomson OHG Method and Apparatus for determining and using the sampling frequency for decoding watermark information embedded in a received signal sampled with an original sampling frequency at encoder side
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN103035249B (zh) * 2012-11-14 2015-04-08 北京理工大学 一种基于时频平面上下文的音频算术编码方法
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
MX355850B (es) 2013-06-21 2018-05-02 Fraunhofer Ges Forschung Escalador de tiempo, decodificador de audio, metodo y programa de computadora usando un control de calidad.
CA2964362C (en) 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
ES2638201T3 (es) 2013-10-18 2017-10-19 Telefonaktiebolaget Lm Ericsson (Publ) Codificación de las posiciones de los picos espectrales
PT3058566T (pt) * 2013-10-18 2018-03-01 Fraunhofer Ges Forschung Codificação de coeficientes espectrais de um espectro de um sinal de áudio
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN110619884B (zh) * 2014-03-14 2023-03-07 瑞典爱立信有限公司 音频编码方法和装置
US10770087B2 (en) * 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105070292B (zh) * 2015-07-10 2018-11-16 珠海市杰理科技股份有限公司 音频文件数据重排序的方法和系统
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
JP7123134B2 (ja) * 2017-10-27 2022-08-22 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. デコーダにおけるノイズ減衰
US20210192681A1 (en) * 2019-12-18 2021-06-24 Ati Technologies Ulc Frame reprojection for virtual reality and augmented reality
US11776562B2 (en) * 2020-05-29 2023-10-03 Qualcomm Incorporated Context-aware hardware-based voice activity detection
AU2021359779A1 (en) * 2020-10-13 2023-06-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects
CN114488105B (zh) * 2022-04-15 2022-08-23 四川锐明智通科技有限公司 一种基于运动特征及方向模板滤波的雷达目标检测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4196235B2 (ja) * 1999-01-19 2008-12-17 ソニー株式会社 オーディオデータ処理装置
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP4364544B2 (ja) * 2003-04-09 2009-11-18 株式会社神戸製鋼所 音声信号処理装置及びその方法
CN101167125B (zh) * 2005-03-11 2012-02-29 高通股份有限公司 用于对声码器内的帧进行相位匹配的方法及设备
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
DE602007004502D1 (de) 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
CN101361112B (zh) * 2006-08-15 2012-02-15 美国博通公司 隐藏丢包后解码器状态的更新
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
AU2009267543B2 (en) * 2008-07-11 2013-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and audio decoder
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding

Also Published As

Publication number Publication date
EP2539893B1 (en) 2014-04-02
AU2011226143B9 (en) 2015-03-19
MX2012010439A (es) 2013-04-29
JP5625076B2 (ja) 2014-11-12
JP2013522658A (ja) 2013-06-13
RU2607264C2 (ru) 2017-01-10
TWI455113B (zh) 2014-10-01
BR112012022744A2 (pt) 2017-12-12
EP2539893A1 (en) 2013-01-02
RU2012143323A (ru) 2014-04-20
CN102884572B (zh) 2015-06-17
CA2792500C (en) 2016-05-03
WO2011110591A1 (en) 2011-09-15
CA2792504C (en) 2016-05-31
US20130117015A1 (en) 2013-05-09
KR101445294B1 (ko) 2014-09-29
KR20130018761A (ko) 2013-02-25
RU2586848C2 (ru) 2016-06-10
CN102884573B (zh) 2014-09-10
AU2011226143A1 (en) 2012-10-25
EP2532001A1 (en) 2012-12-12
US9524726B2 (en) 2016-12-20
AU2011226140B2 (en) 2014-08-14
JP5456914B2 (ja) 2014-04-02
CN102884572A (zh) 2013-01-16
BR112012022744B1 (pt) 2021-02-17
BR112012022741A2 (pt) 2020-11-24
EP2532001B1 (en) 2014-04-02
CA2792500A1 (en) 2011-09-15
US20130073296A1 (en) 2013-03-21
RU2012143340A (ru) 2014-04-20
TW201203224A (en) 2012-01-16
WO2011110594A1 (en) 2011-09-15
AU2011226140A1 (en) 2012-10-18
BR112012022741B1 (pt) 2021-09-21
TW201207846A (en) 2012-02-16
AR084465A1 (es) 2013-05-22
AU2011226143B2 (en) 2014-08-28
HK1179743A1 (en) 2013-10-04
TWI441170B (zh) 2014-06-11
PL2532001T3 (pl) 2014-09-30
MX2012010469A (es) 2012-12-10
AR080396A1 (es) 2012-04-04
KR101445296B1 (ko) 2014-09-29
JP2013521540A (ja) 2013-06-10
HK1181540A1 (en) 2013-11-08
PL2539893T3 (pl) 2014-09-30
US9129597B2 (en) 2015-09-08
CN102884573A (zh) 2013-01-16
KR20120128156A (ko) 2012-11-26
CA2792504A1 (en) 2011-09-15
ES2461183T3 (es) 2014-05-19

Similar Documents

Publication Publication Date Title
ES2458354T3 (es) Decodificador de señales de audio, codificador de señales de audio, métodos y programa de ordenador que utiliza tasa de muestreo dependiente de la codificación del contorno de distorsión en el tiempo
ES2646814T3 (es) Codificación de señales de audio por transformada modificada deformada en el tiempo
ES2604983T3 (es) Ajuste de nivel en el dominio del tiempo para decodificación o codificación de señales de audio
ES2644730T3 (es) Postfiltro de código de audio
ES2404132T3 (es) Descodificador de señal de audio, codificador de señal de audio, representacón de señal de audio de multi-canal modificada, procedimientos y programa de computadora
CA2707368C (en) Audio transform coding using pitch correction
ES2625952T3 (es) Método para la generación de tramas de ocultación en sistema de comunicación
ES2731424T3 (es) Codificador de audio y decodificador de audio
ES2354743T3 (es) Dispositivo y método para el procesamiento posterior de valores espectrales y codificador y decodificador para señales de audio.
ES2496571T3 (es) Método y aparato para procesar una señal de medios
ES2884133T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES2223591T3 (es) Codificacion eficaz de envolvente especial utilizando una resolucion tiempo/frecuencia variable.
ES2950286T3 (es) Decodificador para decodificar una señal de audio codificada y codificador para codificar una señal de audio
ES2750304T3 (es) Filtración eficiente con un banco de filtros modulado complejo
ES2873977T3 (es) Codificador, decodificador y métodos para la transformada por ampliación dependiente de señales en la codificación espacial de objetos de audio
ES2880252T3 (es) Predicción basada en modelo en un banco de filtros críticamente muestreados
ES2613651T3 (es) Cuantificación de señales de audio adaptativas por tonalidad de baja complejidad
ES2902949T3 (es) Codificación de audio de dominio de frecuencia que soporta conmutación de longitud de transformada
US11562754B2 (en) Analysis/synthesis windowing function for modulated lapped transformation
ES2950408T3 (es) Decodificación con reducción de escala de señales de audio
ES2693559T3 (es) Aparato y procedimiento para procesar una señal de audio mediante una señal de error de aliasing