ES2564400T3 - Codificador y descodificador de audio para codificar y descodificar muestras de audio - Google Patents

Codificador y descodificador de audio para codificar y descodificar muestras de audio Download PDF

Info

Publication number
ES2564400T3
ES2564400T3 ES09776858.4T ES09776858T ES2564400T3 ES 2564400 T3 ES2564400 T3 ES 2564400T3 ES 09776858 T ES09776858 T ES 09776858T ES 2564400 T3 ES2564400 T3 ES 2564400T3
Authority
ES
Spain
Prior art keywords
window
samples
encoder
stop
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09776858.4T
Other languages
English (en)
Inventor
Jérémie Lecomte
Philippe Gournay
Stefan Bayer
Markus Multrus
Bruno Bessette
Bernhard Grill
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2564400T3 publication Critical patent/ES2564400T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un codificador de audio (100) para codificar muestras de audio, que comprende: un primer codificador de introducción de distorsión por repliegue del espectro en el dominio del tiempo (110) para codificar, usando una codificación de AAC, muestras de audio en un primer dominio de codificación, teniendo el primer codificador de introducción de distorsión por repliegue del espectro en el dominio del tiempo (110) una primera regla de entramado, una ventana de inicio y una ventana de detención y comprendiendo un transformador en el dominio de la frecuencia para transformar una primera trama de muestras de audio posteriores al dominio de la frecuencia sobre la base de una transformación de coseno discreta modificada, MDCT, estando configurado el primer codificador de introducción de distorsión por repliegue del espectro en el dominio del tiempo (110) para adaptar un tamaño de MDCT a las ventanas de inicio y de detención; un segundo codificador (120) para codificar, usando una codificación de AMR-WB+, muestras en un segundo dominio de codificación, teniendo el segundo codificador (120) un número de muestras de audio de tamaño de trama predeterminado, y un número de muestras de audio de periodo de puesta a punto de codificación, teniendo el segundo codificador (120) una segunda regla de entramado diferente, siendo una trama del segundo codificador (120) una representación codificada de un número de muestras de audio oportunamente posteriores, siendo el número igual al número de muestras de audio de tamaño de trama predeterminado; y un controlador (130) para conmutar del primer codificador (110) al segundo codificador (120) en respuesta a una característica de las muestras de audio y para, en la conmutación del primer codificador (110) al segundo codificador (120), modificar la ventana de inicio del primer codificador (110) hasta el punto de que la ventana de inicio tiene una longitud de 2048 muestras y se usa en una MDCT de 1024 puntos, la ventana de inicio se inicia directamente con una parte de flanco de subida que tiene un primer eje de plegado de MDCT en la mitad de la misma, la cual se extiende a lo largo de un primer y un segundo cuartos de la ventana de inicio hasta un centro de la ventana de inicio, una parte de derivación se extiende desde el centro hasta una parte de flanco de bajada, proporcionando la parte de flanco de bajada una sección de cruce con una ventana de seno tiene una longitud de 64 muestras y se extiende hasta un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de inicio, y una parte cero se extiende a través desde el segundo eje de plegado de MDCT hasta un extremo de la ventana de inicio, y en donde se aplica una función ventana a la parte izquierda de las muestras de audio en el segundo dominio de codificación con una ventana de seno de desvanecimiento cruzado de una longitud de 64 muestras, o conmutar del segundo codificador (120) al primer codificador (110) en respuesta a una característica diferente de las muestras de audio y para, en la conmutación del segundo codificador (120) al primer codificador (110), modificar la ventana de detención del primer codificador (110) hasta el punto de que la ventana de detención tiene una longitud de 2304 muestras y se usa en una MDCT de 1152 puntos, una parte cero de la ventana de detención se extiende a través de un primer cuarto de la ventana de detención, una parte de flanco de subida de la ventana de detención, que es una ventana de seno de una longitud de 64 muestras, se inicia en un segundo cuarto de la ventana de detención de manera que un desvanecimiento cruzado comienza justo más allá de un primer eje de plegado de MDCT colocado entre la parte cero y la parte de 40 flanco de subida, una parte de derivación de la ventana de detención se extiende desde la parte de flanco de subida hasta el centro de la ventana de detención, y una parte de flanco de bajada de la ventana de detención se extiende desde el centro de la ventana de detención a lo largo de un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de detención hasta un extremo de la ventana de detención, en donde la segunda regla de entramado permanece sin modificaciones.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
Codificador y descodificador de audio para codificar y descodificar muestras de audio.
La presente invencion se encuentra dentro del campo de la codificacion de audio en diferentes dominios de codificacion, por ejemplo, en el dominio del tiempo y en un dominio de la transformada.
En el contexto de la tecnologfa de codificacion del habla y de audio de baja tasa de bits, se han empleado tradicionalmente diferentes tecnicas de codificacion con el fin de lograr una codificacion de baja tasa de bits de tales senales con la mejor calidad subjetiva posible a una tasa de bits dada. Los codificadores para senales de musica general / sonido buscan optimizar la calidad subjetiva mediante la conformacion de una forma espectral (y temporal) del error de cuantificacion de acuerdo con una curva de umbral de enmascaramiento que se estima a partir de la senal de entrada por medio de un modelo perceptual (“codificacion de audio perceptual”). Por otro lado, se ha mostrado que la codificacion del habla a muy bajas tasas de bits funciona de manera muy eficiente cuando se basa en un modelo de produccion del habla humana, es decir, que emplea codificacion predictiva lineal (LPC, Linear Predictive Coding) para los modelar los efectos resonantes del tracto vocal humano junto con una codificacion eficiente de la senal de excitacion residual.
Como consecuencia de estos dos enfoques diferentes, los codificadores de audio generales, como MPEG-1 Capa 3 (MPEG = Moving Pictures Expert Group, Grupo de Expertos en Imagenes en Movimiento), o MPEG-2 / 4 Codificacion de Audio Avanzada (AAC, Advanced Audio Coding), en general, no funcionan tan bien para las senales del habla a muy bajas tasas de datos como los codificadores de habla basados en LPC dedicados, debido a la falta de aprovechamiento de un modelo fuente del habla. A la inversa, los codificadores de habla basados en LPC, en general, no alcanzan unos resultados convincentes cuando se aplican a senales de musica generales debido a su incapacidad para dar forma de manera flexible a la envolvente espectral de la distorsion de codificacion de acuerdo con una curva de umbral de enmascaramiento. En lo sucesivo, se describen conceptos que combinan las ventajas tanto de la codificacion basada en LPC como de la codificacion de audio perceptual en un mismo marco y por lo tanto describen una codificacion de audio unificada que es eficiente para las senales tanto de audio general como de habla.
Tradicionalmente, los codificadores de audio perceptuales usan un enfoque basado en banco de filtros para codificar de manera eficiente senales de audio y dar forma a la distorsion de cuantificacion de acuerdo con una estimacion de la curva de enmascaramiento.
La figura 16a muestra un diagrama de bloques basico de un sistema de codificacion perceptual monofonico. Se usa un banco de filtros de analisis 1600 para establecer una correspondencia de las muestras en el dominio del tiempo con componentes espectrales submuestreados. Dependiente del numero de componentes espectrales, tambien se hace referencia al sistema como codificador de sub-bandas (numero pequeno de sub-bandas, por ejemplo, 32) o codificador de transformada (numero grande de lfneas de frecuencia, por ejemplo, 512). Se usa un modelo perceptual (“psicoacustico”) 1602 para estimar el umbral real de enmascaramiento dependiente de tiempo. Las componentes espectrales (de “sub-banda” o de “dominio de la frecuencia”) se cuantifican y se codifican 1604 de manera que el ruido de cuantificacion se esconde bajo la senal transmitida real y no es perceptible despues de la descodificacion. Esto se logra mediante la variacion de la granularidad de cuantificacion de los valores espectrales sobre el tiempo y la frecuencia.
Los valores de sub-banda o coeficientes espectrales cuantificados y codificados por entropfa se introducen junto con una informacion complementaria en un formateador de tren de bits 1606, el cual proporciona una senal de audio codificada que es adecuada para transmitirse o almacenarse. El tren de bits de salida del bloque 1606 se puede transmitir por medio de Internet o se puede almacenar en cualquier soporte de datos legible por maquina.
En el lado de descodificador, una interfaz de entrada de descodificador 1610 recibe el tren de bits codificado. El bloque 1610 separa los valores espectrales / de sub-banda codificados por entropfa y cuantificados de la informacion complementaria. Los valores espectrales codificados se introducen en un descodificador de entropfa como un descodificador de Huffman, que se coloca entre 1610 y 1620. Las salidas de este descodificador de entropfa son valores espectrales cuantificados. Estos valores espectrales cuantificados se introducen en un recuantificador, el cual realiza una cuantificacion “inversa” como se indica en 1620 en la figura 16a. La salida del bloque 1620 se introduce en un banco de filtros de sfntesis 1622, el cual realiza una filtracion de sfntesis incluyendo una transformada de frecuencia / tiempo y, por lo general, una operacion de cancelacion de distorsion por repliegue del espectro en el dominio del tiempo como una superposicion o agregacion y / o una operacion de aplicacion de funcion ventana de lado de sfntesis para obtener finalmente la senal de audio de salida.
Tradicionalmente, la codificacion del habla eficiente se ha basado en la codificacion predictiva lineal (LPC) para modelar los efectos resonantes del tracto vocal humano junto con una codificacion eficiente de la senal de excitacion residual. Los parametros tanto de LPC como de excitacion se transmiten del codificador al descodificador. Este principio se ilustra en las figuras 17a y 17b.
5
10
15
20
25
30
35
40
45
50
55
60
65
La figura 17a indica el lado de codificador de un sistema de codificacion / descodificacion basado en la codificacion predictiva lineal. La entrada de habla se introduce en un analizador de LPC 1701, el cual proporciona, en su salida, unos coeficientes de filtro de LPC. Sobre la base de estos coeficientes de filtro de LPC, se ajusta un filtro de LPC 1703. El filtro de LPC emite una senal de audio espectralmente blanqueada, que tambien se denomina “senal de error de prediccion”. Esta senal de audio espectralmente blanqueada se introduce en un codificador residual / de excitacion 1705, el cual genera unos parametros de excitacion. Por lo tanto, la entrada de habla se codifica en parametros de excitacion, por un lado, y coeficientes de LPC, por otro lado.
En el lado de descodificador ilustrado en la figura 17b, los parametros de excitacion se introducen en un descodificador de excitacion 1707, el cual genera una senal de excitacion, la cual puede introducirse en un filtro de sfntesis de LPC. El filtro de sfntesis de LPC se ajusta usando los coeficientes de filtro de LPC transmitidos. Por lo tanto, el filtro de sfntesis de LPC 1709 genera una senal de salida de habla reconstruida o sintetizada.
Con el tiempo, se han propuesto muchos metodos con respecto a una representacion eficiente y perceptualmente convincente de la senal residual (de excitacion), como Excitacion de Multi-Pulso (MPE, Multi-Pulse Excitation), Excitacion de Pulso Regular (RPE, Regular Pulse Excitacion) y Prediccion Lineal Excitada por Codigo (CELP, CodeExcited Linear Prediction).
La codificacion predictiva lineal intenta producir una estimacion del valor de muestra actual de una secuencia basandose en la observacion de un cierto numero de valores pasados como una combinacion lineal de las observaciones pasadas. Con el fin de reducir la redundancia en la senal de entrada, el filtro de LPC de codificador “blanquea” la senal de entrada en su envolvente espectral, es decir, esta es un modelo de la inversa de la envolvente espectral de la senal. A la inversa, el filtro de sfntesis de LPC de descodificador es un modelo de la envolvente espectral de la senal. En concreto, se sabe que el bien conocido analisis predictivo lineal autorregresivo (AR) modela la envolvente espectral de la senal por medio de una aproximacion a todos los polos.
Por lo general, los codificadores de habla de banda angosta (es decir, codificadores de habla con una tasa de muestreo de 8 kHz) emplean un filtro de LPC con un orden de entre 8 y 12. Debido a la naturaleza del filtro de LPC, una resolucion de frecuencia uniforme es efectiva a traves de la totalidad del rango de frecuencias. Esto no se corresponde con una escala de frecuencias perceptual.
Con el fin de combinar las fortalezas de la codificacion basada en LPC / CELP tradicional (la mejor calidad para senales de habla) y el enfoque de codificacion de audio perceptual basado en banco de filtros tradicional (el mejor para musica), se ha propuesto una codificacion combinada entre estas arquitecturas. En el codificador de AMR-WB+ (AMR-WB = Adaptive Multi-Rate WideBand, banda ancha de multivelocidad adaptativo) B. Bessette, R. Lefebvre, R. Salami, “UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/ TCX TECHNIQUES,” Proc. IEEE ICASSP 2005, paginas 301 - 304, 2005 dos nucleos de codificacion alternativos operan sobre una senal residual de LPC. Uno esta basado en ACELP (ACELP = Algebraic Code Excited Linear Prediction, Prediccion Lineal por Excitacion con Codigo Algebraico) y, por lo tanto, es extremadamente eficiente para la codificacion de senales del habla. El otro nucleo de codificacion esta basado en TCX (TCX = Transform Coded Excitation, excitacion codificada de transformada), es decir, un enfoque de codificacion basado en banco de filtros que se asemeja a las tecnicas de codificacion de audio tradicionales con el fin de lograr una buena calidad para las senales musicales. Dependiendo de las caracterfsticas de las senales de senal de entrada, uno de los dos modos de codificacion se selecciona durante un periodo corto de tiempo para transmitir la senal residual de LPC. De esta forma, tramas de 80 ms de duracion pueden dividirse en unas subtramas de 40 ms o de 20 ms en las cuales se toma una decision entre los dos modos de codificacion.
La AMR-WB+ (AMR-WB+ = extended Adaptive Multi-Rate WideBand, codec de Multivelocidad Adaptativo extendido), vease 3GPP (3GPP = Third Generation Partnership Project, Proyecto de Asociacion de Tercera Generacion) especificacion tecnica numero 26.290, version 6.3.0, junio de 2005, puede conmutar entre los dos modos esencialmente diferentes de ACELP y de TCX. En el modo de ACELP, una senal en el dominio del tiempo se codifica mediante excitacion de codigo algebraico. En el modo de TCX se usa una transformada rapida de Fourier (FFT = fast Fourier transform) y los valores espectrales de la senal ponderada de LPC (de la que se puede obtener la excitacion de LPC) se codifican sobre la base de una cuantificacion vectorial.
La decision de que modos usar se puede tomar al probar y descodificar las dos opciones y comparar las relaciones de senal / ruido (SNR = Signal-to-Noise Ratio) segmentarias resultantes.
Este caso tambien se denomina decision de lazo cerrado, ya que hay un lazo de control cerrado, que evalua tanto las eficiencias como los rendimientos de codificacion, respectivamente, y que elige entonces la que tenga la mejor SNR.
Se sabe bien que, para las aplicaciones de codificacion de audio y habla, no es posible una transformada de bloque sin aplicacion de una funcion ventana. Por lo tanto, para el modo de TCX se aplica una funcion ventana a la senal con una ventana de superposicion baja con una superposicion de 1 / 8. Esta region de superposicion es necesaria con el fin del desvanecimiento gradual de un bloque o trama anterior al tiempo que aparece gradualmente el
5
10
15
20
25
30
35
40
45
50
55
60
65
proximo, por ejemplo, para suprimir artefactos debido a un ruido de cuantificacion no correlacionado en tramas de audio consecutivas. De esta manera, la tara en comparacion con un muestreo no crftico se mantiene razonablemente baja y la descodificacion necesaria para la decision de lazo cerrado reconstruye por lo menos 7 / 8 de las muestras de la trama actual.
La AMR-WB+ introduce 1 / 8 de tara en un modo de TCX, es decir, el numero de valores espectrales que se va a codificar es 1 / 8 mayor que el numero de muestras de entrada. Esto proporciona la desventaja de una tara de datos mayor. Asimismo, la respuesta de frecuencia de los filtros de paso de banda correspondientes no es ventajosa debido a la abrupta region de superposicion de 1 / 8 de las tramas consecutivas.
Con el fin de profundizar en el detalle de la tara de codigo y en la superposicion de tramas consecutivas, la figura 18 ilustra una definicion de parametros de ventana. La ventana que se muestra en la figura 18 tiene una parte de flanco de subida en el lado izquierdo, la cual se indica con “L” y tambien se denomina region de superposicion izquierda, una region central que se indica con “1”, la cual tambien se denomina region de 1 o parte de derivacion, y una parte de flanco de bajada, que se indica con “R” y tambien se denomina la region de superposicion derecha. Ademas, la figura 18 muestra una flecha que indica la region “PR” de reconstruccion perfecta dentro de una trama. Ademas, la figura 18 muestra una flecha que indica la longitud del nucleo de transformada, que se indica con “T”.
La figura 19 muestra una vista grafica de una secuencia de ventanas de AMR-WB+ y, en la parte inferior, una tabla de parametros de ventana de acuerdo con la figura 18. La secuencia de ventanas que se muestra en la parte superior de la figura 19 es ACELP, TCX20 (para una trama de 20 ms de duracion), TCX20, TCX40 (para una trama de 40 ms de duracion), TCX80 (para una trama de 80 ms de duracion), TCX20, TCX20, ACELP, ACELP.
A partir de la secuencia de ventanas se pueden ver las regiones de superposicion variadas, las cuales se superponen 1 / 8 exacto de la parte central M. La tabla en la parte inferior de la figura 19 tambien muestra que la longitud de transformada “T” es siempre 1 / 8 mas grande que la region de muestras nuevas perfectamente reconstruidas “PR”. Asimismo, se ha de hacer notar que no es solo el caso de las transiciones de ACELP a TCX, sino tambien de las transiciones de TCXx a TCXx (en donde “x” indica tramas de TCX de una longitud arbitraria). Por lo tanto, en cada bloque se introduce una tara de 1 / 8, es decir, nunca se alcanza el muestreo crftico.
Cuando se conmuta de TCX a ACELP, las muestras de ventana se descartan de la trama de FFT-TCX en la region de superposicion, como se indica, por ejemplo, en la parte superior de la figura 19 mediante la region marcada con 1900. Cuando se conmuta de ACELP a TCX la respuesta de entrada cero (ZIR = Zero Input Response), la cual tambien se indica mediante la lfnea de puntos 1910 en la parte superior de la figura 19, se elimina en el codificador antes de la aplicacion de una funcion ventana y se agrega en el descodificador para la recuperacion. Cuando se conmuta de tramas de TCX a TCX las muestras a las que se ha aplicado una funcion ventana se usan para un desvanecimiento cruzado. Dado que las tramas de TCX se pueden cuantificar de manera diferente, el error de cuantificacion o ruido de cuantificacion entre tramas consecutivas puede ser diferente y / o independiente. Con lo anterior, cuando se conmuta de una trama a la siguiente sin desvanecimiento cruzado, pueden ocurrir artefactos perceptibles y, en consecuencia, el desvanecimiento cruzado es necesario con el fin de lograr una cierta calidad.
A partir de la tabla en la parte inferior de la figura 19, se puede ver que la region de desvanecimiento cruzado crece con una longitud creciente de la trama. La figura 20 proporciona otra tabla con ilustraciones de las diferentes ventanas para las posibles transiciones en AMR-WB+. Cuando se realiza una transicion de TCX a ACELP se pueden descartar las muestras de superposicion. Cuando se realiza una transicion de ACELP a TCX, se puede eliminar en el codificador la respuesta de entrada cero a partir de la ACELP y se agrega el descodificador para la recuperacion.
A continuacion se arrojara luz sobre la codificacion de audio, que usa una codificacion en el dominio del tiempo (TD = Time Domain) y en el dominio de la frecuencia (FD = Frequency Domain). Asimismo, entre los dos dominios de codificacion, se puede usar la conmutacion. En la figura 21, se muestra una lfnea de tiempo durante la cual una primera trama 2101 es codificada por un codificador de FD, seguida por otra trama 2103, que es codificada por un codificador de TD y que se superpone en la region 2102 con la primera trama 2101. La trama codificada en el dominio del tiempo 2103 es seguida por una trama 2105, la cual es codificada de nuevo en el dominio de la frecuencia y que se superpone en la region 2104 con la trama precedente 2103. Las regiones de superposicion 2102 y 2104 ocurren siempre que se conmute el dominio de codificacion.
El fin de estas regiones de superposicion es suavizar las transiciones. Sin embargo, las regiones de superposicion pueden aun ser propensas a una perdida de la eficiencia de codificacion y a artefactos. Por lo tanto, las regiones de superposicion o transiciones se eligen, a menudo, como un compromiso entre una cierta tara de la informacion trasmitida, es decir, la eficiencia de codificacion, y la calidad de la transicion, es decir, la calidad de audio de la senal descodificada. Con el fin de establecer este compromiso, se ha de tener cuidado cuando se manipulan las transiciones y se disenan las ventanas de transicion 2111,2113 y 2115 como se indica en la figura 21.
Son conceptos convencionales relativos a la manipulacion de transiciones entre los modos de codificacion en el dominio de la frecuencia y en el dominio del tiempo, por ejemplo, el uso de ventanas de desvanecimiento cruzado,
5
10
15
20
25
30
35
40
45
50
55
60
65
es decir, la introduccion de una tara tan grande como la region de superposicion. Se usa una ventana de desvanecimiento cruzado, desvaneciendose gradualmente la trama precedente y apareciendo gradualmente la siguiente trama de forma simultanea. Este enfoque, debido a su tara, introduce deficiencias en una eficiencia de descodificacion, dado que siempre que tenga lugar una transicion, la senal no vuelve mas a muestrearse crfticamente. Se divulgan transformadas solapadas muestreadas crfticamente, por ejemplo, en J. Princen, A. Bradley, “Analysis /Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation", IEEE Trans. ASSP, ASSP-34 (5): 1153 - 1161, 1986, y se usan, por ejemplo, en AAC (AAC = Advanced Audio Coding, Codificacion de Audio Avanzada), vease Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding, Norma Internacional 13818-7, ISO/IEC JTC1/SC29/WG11 Grupo de Expertos en Imagenes en Movimiento, 1997.
Asimismo, las transiciones de desvanecimiento cruzado sin distorsion por repliegue del espectro se describen en Fielder, Louis D., Todd, Craig C., “The Design of a Video Friendly Audio Coding System for Distribution Applications", Escrito numero 17-008, 17a Conferencia Internacional de AES: High-Quality Audio Coding (agosto de 1999) y en Fielder, Louis D., Davidson, Grant A., “Audio Coding Tools for Digital Television Distribution", Numero de preimpresion 5104, 108a Convencion de la AES (enero de 2000).
El documento WO 2008/071353 divulga un concepto para conmutar entre un codificador en el dominio del tiempo y en el dominio de la frecuencia. El concepto se podrfa aplicar a cualquier codec basado en una conmutacion en el dominio del tiempo / dominio de la frecuencia. Por ejemplo, el concepto se podrfa aplicar a la codificacion en el dominio del tiempo de acuerdo con el modo de ACELp del codec de AMR-WB+ y la AAC como un ejemplo de un codec en el dominio de la frecuencia. La figura 22 muestra un diagrama de bloques de un codificador convencional usando un descodificador en el dominio de la frecuencia en la rama superior y un descodificador en el dominio del tiempo en la rama inferior. La parte de descodificacion de frecuencia se ejemplifica mediante un descodificador de AAC, que comprende un bloque de recuantificacion 2202 y un bloque de transformada de coseno discreta modificada inversa 2204. En la AAC, la transformada de coseno discreta modificada (MDCT = Modified Discrete Cosine Transform) se usa como una transformacion entre el dominio del tiempo y el dominio de la frecuencia. En la figura 22 la trayectoria de descodificacion en el dominio del tiempo se ejemplifica como un descodificador de AMR- WB+ 2206 seguido por un bloque de MDCT 2208, con el fin de combinar el resultado del descodificador 2206 con el resultado del recuantificador 2202 en el dominio de la frecuencia.
Esto posibilita una combinacion en el dominio de la frecuencia, al tiempo que una etapa de superposicion y agregacion, que no se muestra en la figura 22, se puede usar despues de la MDCT inversa 2204, con el fin de combinar y de aplicar un desvanecimiento cruzado a bloques adyacentes, sin tener que considerar si se han codificado en el dominio del tiempo o el dominio de la frecuencia.
En otro enfoque convencional que se divulga en el documento WO2008/071353 es evitar la MDCT 2208 en la figura 22, es decir, DCT-IV e IDCT-IV para el caso de la descodificacion en el dominio del tiempo, se puede usar otro enfoque para la asf denominada cancelacion de distorsion por repliegue del espectro en el dominio del tiempo (TDAC = Time-Domain Aliasing Cancellation). Esto se muestra en la figura 23. La figura 23 muestra otro descodificador que tiene el descodificador en el dominio de la frecuencia ejemplificado como un descodificador de AAC que comprende un bloque de recuantificacion 2302 y un bloque de IMDCT 2304. La trayectoria en el dominio del tiempo se ejemplifica de nuevo mediante un descodificador de AMR-WB+ 2306 y el bloque TDAC 2308. El descodificador que se muestra en la figura 23 permite una combinacion de los bloques descodificados en el dominio del tiempo, es decir, despues de la IMDCT 2304, dado que la TDAC 2308 introduce la distorsion por repliegue del espectro de tiempo necesaria para una combinacion apropiada, es decir, para una cancelacion de distorsion por repliegue del espectro de tiempo, directamente en el dominio del tiempo. Para ahorrar algo de calculo, y en lugar de usar MDCT en cada primera y ultima supertrama, es decir, en cada 1024 muestras, de cada segmento de AMR- WB+, se puede usar TDAC solo en las regiones o zonas de superposicion en 128 muestras. Se puede mantener la distorsion por repliegue del espectro en el dominio del tiempo normal introducida por el procesamiento de AAC, al tiempo que se introduce la distorsion por repliegue del espectro en el dominio del tiempo inverso correspondiente en las partes de AMR-WB+.
Las ventanas de desvanecimiento cruzado sin distorsion por repliegue del espectro tienen la desventaja de que su codificacion no es eficiente, debido a que generan unos coeficientes codificados no muestreados crfticamente, y agregan una tara de la informacion que codificar. La introduccion de TDA (TDA = Time-Domain Aliasing, distorsion por repliegue del espectro en el dominio del tiempo) en el descodificador en el dominio del tiempo, como por ejemplo en el documento WO 2008/071353, reduce esta tara, pero se podrfa aplicar solo a medida que las alineaciones temporales de trama de los dos codificadores coinciden las unas con las otras. De otro modo, la eficiencia de codificacion se reduce de nuevo. Ademas, el TDA en el lado de descodificador podrfa ser problematico, en especial en el punto de partida de un codificador en el dominio del tiempo. Despues de un restablecimiento potencial, un codificador o descodificador en el dominio del tiempo producira, por lo general, una rafaga de ruido de cuantificacion debido a la vacuidad de las memorias del codificador o descodificador en el dominio del tiempo usando, por ejemplo, LPC (LPC = codificacion predictiva lineal). Llevara entonces un cierto tiempo al descodificador antes de encontrarse en un estado permanente o estable y proporcionar un ruido de cuantificacion mas uniforme con el tiempo. Este error de rafaga no es ventajoso, ya que por lo general es audible.
5
10
15
20
25
30
35
40
45
50
55
60
65
Por lo tanto, el objeto de la presente invencion es la provision de un concepto mejorado para conmutar en la codificacion de audio en dominios multiples.
Este objeto se logra mediante un codificador de acuerdo con la reivindicacion 1, un metodo de codificacion de audio de acuerdo con la reivindicacion 3, un descodificador de audio de acuerdo con la reivindicacion 4, un metodo de descodificacion de audio de acuerdo con la reivindicacion 5 y un programa informatico de acuerdo con la reivindicacion 6.
Es un hallazgo de la presente invencion que se puede lograr una conmutacion mejorada en un concepto de codificacion de audio que usa una codificacion en el dominio del tiempo y en el dominio de la frecuencia, cuando se adapta el entramado de los dominios de codificacion correspondientes o se usan ventanas de desvanecimiento cruzado modificadas. En una realizacion, por ejemplo, se puede usar AMR-WB+ como codec en el dominio del tiempo y se puede usar AAC como un ejemplo de codec en el dominio de la frecuencia, se puede lograr una conmutacion mas eficiente entre los dos codecs mediante realizaciones, o bien mediante la adaptacion del entramado de la parte de AMR-WB+ o bien mediante el uso de ventanas de inicio o de detencion modificadas para la parte de codificacion de AAC respectiva.
Es un hallazgo adicional de la invencion que se puede aplicar TDAC en el descodificador y se pueden usar ventanas de desvanecimiento cruzado sin distorsion por repliegue del espectro.
Unas realizaciones de la presente invencion pueden proporcionar la ventaja de que se puede reducir la informacion de tara, introducirse en una transicion de superposicion, al tiempo que se mantienen unas regiones de desvanecimiento cruzado moderadas lo cual asegura la calidad del desvanecimiento cruzado. Unas realizaciones de la presente invencion se detallaran usando las figuras adjuntas, en las cuales
la figura 1a la figura 1b las figuras 2a - 2j
la
figura 3
la
figura 4a
la
figura 4b
la
figura 5a
la
figura 5b
la
figura 6
la
figura 7
la
figura 8a
la
figura 8b
la
figura 9
la
figura 10
la
figura 11
la
figura 12
la
figura 13
la
figura' 4
la
figura 15
la
figura 16
las figuras 17a, 17b la figura 18 la figura 19 la figura 20 la figura 21
la figura 22 la figura 23
muestra una realizacion de un codificador de audio; muestra una realizacion de un descodificador de audio; muestran ecuaciones para la MDCT / IMDCT; muestra una realizacion que usa un entramado modificado; muestra una senal cuasi periodica en el dominio del tiempo; muestra una senal vocal en el dominio de la frecuencia; muestra una senal de tipo ruido en un dominio del tiempo; muestra una senal no vocal en el dominio de la frecuencia; muestra un CELP de analisis por sfntesis;
ilustra un ejemplo de una fase de analisis de LPC en una realizacion; muestra una realizacion con una ventana de detencion modificada; muestra una realizacion con una ventana de inicio - detencion modificada; muestra una ventana de principio; muestra una ventana mas avanzada;
muestra un ejemplo de una ventana de detencion modificada;
ilustra una realizacion con diferentes zonas o regiones de superposicion;
ilustra una realizacion de una ventana de inicio modificada;
muestra una realizacion de una ventana de detencion modificada libre de distorsion por repliegue del espectro aplicada en un codificador;
muestra una ventana de detencion modificada libre de distorsion por repliegue del espectro aplicada en el descodificador;
ilustra ejemplos de codificador y de descodificador convencionales;
ilustran LPC para senales vocales y no vocales;
ilustra una ventana de desvanecimiento cruzado de la tecnica anterior;
ilustra una secuencia de la tecnica anterior de ventanas de AMR-WB+;
ilustra unas ventanas usadas para transmitir en AMR-WB+ entre ACELP y TCX;
muestra una secuencia a modo de ejemplo de tramas de audio consecutivas en diferentes
dominios de codificacion;
ilustra el enfoque convencional para la descodificacion de audio en diferentes dominios; y ilustra un ejemplo de cancelacion de distorsion por repliegue del espectro en el dominio del tiempo.
La figura 1a muestra un codificador de audio 100 para codificar muestras de audio. El codificador de audio 100 comprende un primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 para codificar muestras de audio en un primer dominio de codificacion, teniendo el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 una primera regla de entramado, una ventana de inicio y una ventana de detencion. Asimismo, el codificador de audio 100 comprende un segundo codificador 120 para codificar muestras de audio en el segundo dominio de codificacion. El segundo codificador 120 tiene un numero de muestras de audio de tamano de trama predeterminado y un numero de muestras de audio de periodo de puesta a punto de codificacion. El periodo de puesta a punto de codificacion puede ser uno cierto o predeterminado, este puede ser dependiente de las muestras de audio, una trama de muestras de audio o una
5
10
15
20
25
30
35
40
45
50
55
60
65
secuencia de senales de audio. El segundo codificador 120 tiene una segunda regla de entramado diferente. Una trama del segundo codificador 120 es una representacion codificada de un numero de muestras de audio oportunamente posteriores, siendo el numero igual al numero de muestras de audio de tamano de trama predeterminado.
El codificador de audio 100 comprende adicionalmente un controlador 130 para conmutar del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 al segundo codificador 120 en respuesta a una caracterfstica de las muestras de audio y para modificar la segunda regla de entramado en respuesta a una conmutacion del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 al segundo codificador 120 o para modificar la ventana de inicio o la ventana de detencion del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110, en donde la segunda regla de entramado permanece sin modificaciones.
En unas realizaciones, el controlador 130 se puede adaptar para determinar la caracterfstica de las muestras de audio sobre la base de las muestras de audio de entrada o sobre la base de la salida del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 o el segundo codificador 120. Esto se indica mediante la lfnea de puntos en la figura 1a, a traves de lo cual las muestras de audio de entrada se pueden proporcionar al controlador 130. Se proporcionaran a continuacion detalles adicionales acerca de la decision de conmutacion.
En unas realizaciones, el controlador 130 puede controlar el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 y el segundo codificador 120 de una manera tal que ambos codifican las muestras de audio en paralelo, y el controlador 130 toma la decision acerca de la conmutacion sobre la base del resultado respectivo, y lleva a cabo las modificaciones antes de la conmutacion. En otras realizaciones, el controlador 130 puede analizar las caracterfsticas de las muestras de audio y decidir que rama de codificacion usar, pero desconectando la otra rama. En una realizacion de este tipo, el periodo de puesta a punto de codificacion del segundo codificador 120 se vuelve relevante, ya que antes de la conmutacion, se ha de tener en cuenta el periodo de puesta a punto de codificacion, lo cual se detallara a continuacion.
En unas realizaciones, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 puede comprender un transformador en el dominio de la frecuencia para transformar la primera trama de muestras de audio posteriores al dominio de la frecuencia. El primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 se puede adaptar para ponderar la primera trama codificada con la ventana de inicio, cuando la trama posterior es codificada por el segundo codificador 120 y se puede adaptar adicionalmente para ponderar la primera trama codificada con la ventana de detencion cuando una trama precedente va a ser codificada por el segundo codificador 120.
Se ha de hacer notar que se pueden usar diferentes notaciones, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 aplica una ventana de inicio o una ventana de detencion. En el presente caso, y para el resto se supone que una ventana de inicio se aplica antes de la conmutacion al segundo codificador 120 y cuando se conmuta de vuelta del segundo codificador 120 al primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 120, la ventana de detencion se aplica en el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110. Sin perdida de generalidad, la expresion se podrfa usar de forma recfproca con referencia al segundo codificador 120. Con el fin de evitar confusion, en el presente caso las expresiones “inicio” y “detencion” se refieren a ventanas aplicadas en el primer codificador 110, cuando se inicia el segundo codificador 120 o despues de que se detuviera.
En unas realizaciones, el transformador en el dominio de la frecuencia como se usa en el primer codificador de distorsion por repliegue del espectro en el dominio del tiempo 110 se puede adaptar para transformar la primera trama al dominio de la frecuencia sobre la base de una MDCT y el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 se puede adaptar para adaptar un tamano de MDCT a las ventanas de inicio y de detencion o de inicio y de detencion modificadas. Los detalles para la MDCT y su tamano se expondran a continuacion.
En unas realizaciones, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 se puede adaptar, en consecuencia, para usar una ventana de inicio y / o de detencion que tiene una parte libre de distorsion por repliegue del espectro, es decir, dentro de la ventana hay una parte sin distorsion por repliegue del espectro en el dominio del tiempo. Asimismo, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 se puede adaptar para usar una ventana de inicio y / o una ventana de detencion que tiene una parte libre de distorsion por repliegue del espectro en una parte de flanco de subida de la ventana, cuando la trama precedente es codificada por el segundo codificador 120, es decir, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 usa una ventana de detencion, que tiene una parte de flanco de subida que esta libre de distorsion por repliegue del espectro. En consecuencia, se puede adaptar el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 para usar una ventana que tiene una parte de flanco de bajada que esta libre de distorsion por repliegue del espectro, cuando una trama posterior es codificada por el segundo codificador 120, es decir,
5
10
15
20
25
30
35
40
45
50
55
60
65
usando una ventana de detencion con una parte de flanco de bajada, la cual esta libre de distorsion por repliegue del espectro.
En unas realizaciones, el controlador 130 se puede adaptar para iniciar el segundo codificador 120 de manera que una primera trama de una secuencia de tramas del segundo codificador 120 comprende una representacion codificada de las muestras procesadas en la parte libre de distorsion por repliegue del espectro precedente del primer codificador de distorsion por repliegue del espectro en el dominio del tiempo 110. Dicho de otra forma, la salida del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 y el segundo codificador 120 pueden estar coordinadas por el controlador 130 de manera que la parte libre de
distorsion por repliegue del espectro de las muestras de audio codificadas a partir del primer codificador de
introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 se superpone con las muestras de audio codificadas emitidas por el segundo codificador 120. El controlador 130 se puede adaptar adicionalmente para el desvanecimiento cruzado, es decir, el desvanecimiento gradual de un codificador al tiempo que aparece gradualmente el otro codificador.
El controlador 130 se puede adaptar para iniciar el segundo codificador 120 de manera que el numero de muestras del periodo de puesta a punto de codificacion se superpone con la parte libre de distorsion por repliegue del espectro de la ventana de inicio del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 y una trama posterior del segundo codificador 120 se superpone con la parte de distorsion por repliegue del espectro de la ventana de detencion. Dicho de otra forma, el controlador 130 puede coordinar el segundo codificador 120 de manera que, para el periodo de puesta a punto de codificacion, esten disponibles unas muestras de audio sin distorsion por repliegue del espectro a partir del primer codificador 110 y, cuando solo estan disponibles unas muestras de audio de distorsion por repliegue del espectro a partir del primer codificador de
introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110, el periodo de puesta a punto del
segundo codificador 120 ha terminado y estan disponibles unas muestras de audio codificadas en la salida del segundo codificador 120 de una manera regular.
El controlador 130 se puede adaptar adicionalmente para iniciar el segundo codificador 120 de manera que el periodo de puesta a punto de codificacion se superpone con la parte de distorsion por repliegue del espectro de la ventana de inicio. En la presente realizacion, durante la parte de superposicion, las muestras de audio de distorsion por repliegue del espectro estan disponibles a partir de la salida del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110, y en la salida del segundo codificador 120 pueden estar disponibles unas muestras de audio codificadas del periodo de puesta a punto, las cuales pueden experimentar un ruido de cuantificacion aumentado. El controlador 130 aun se puede adaptar para un desvanecimiento cruzado entre las dos secuencias de audio codificadas de manera suboptima durante un periodo de superposicion.
En otras realizaciones, el controlador 130 se puede adaptar adicionalmente para la conmutacion a partir del primer codificador 110 en respuesta a una caracterfstica diferente de las muestras de audio y para modificar la segunda regla de entramado en respuesta a la conmutacion del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 al segundo codificador 120 o para modificar la ventana de inicio o la ventana de detencion del primer codificador, en donde la segunda regla de entramado permanece sin modificaciones. Dicho de otra forma, el controlador 130 se puede adaptar para conmutar hacia adelante y hacia atras entre los dos codificadores de audio.
En otras realizaciones, el controlador 130 se puede adaptar para iniciar el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 de manera que la parte libre de distorsion por repliegue del espectro de la ventana de detencion se superpone con la trama del segundo codificador 120. Dicho de otra forma, en unas realizaciones, el controlador se puede adaptar para el desvanecimiento cruzado entre las salidas de los dos codificadores. En algunas realizaciones, la salida del segundo codificador se desvanece gradualmente, al tiempo que aparecen gradualmente solo las muestras de audio codificadas de manera suboptima, es decir, con distorsion por repliegue del espectro del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110. En otras realizaciones, el controlador 130 se puede adaptar para el desvanecimiento cruzado entre una trama del segundo codificador 120 y tramas sin distorsion por repliegue del espectro del primer codificador 110.
En unas realizaciones, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 puede comprender un codificador de AAC de acuerdo con Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding, Norma Internacional 13818-7, ISO/IEC JTC1/SC29/WG11 Grupo de Expertos en Imagenes en Movimiento, 1997.
En unas realizaciones, el segundo codificador 120 puede comprender un codificador de AMR-WB+ de acuerdo con 3GPP (3GPP = Proyecto de Asociacion de Tercera Generacion), Especificacion Tecnica 26.290, Version 6.3.0 a partir de junio de 2005 “Audio Codec Processing Function; Extended Adaptive Multi-Rate-Wide Band Codec; Transcoding Functions", edicion 6.
El controlador 130 se puede adaptar para modificar la regla de entramado de AMR o de AMR-WB+ de manera que
5
10
15
20
25
30
35
40
45
50
55
60
65
una primera supertrama de AMR comprende cinco tramas de AMR, en donde de acuerdo con la especificacion tecnica anteriormente mencionada, una supertrama comprende cuatro tramas de AMR regulares, comparense la figura 4, tabla 10 en la pagina 18 y la figura 5 en la pagina 20 de la Especificacion Tecnica anteriormente mencionada. Como se detallara adicionalmente mas adelante, el controlador 130 se puede adaptar para agregar una trama extra a una supertrama de AMR. Se ha de hacer notar que, en unas realizaciones, la supertrama se puede modificar mediante una trama adjunta al comienzo o al final de cualquier supertrama, es decir, las reglas de entramado tambien se pueden hacer coincidir al final de una supertrama.
La figura 1b muestra una realizacion de un descodificador de audio 150 para descodificar tramas codificadas de muestras de audio. El descodificador de audio 150 comprende un primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 para descodificar muestras de audio en un primer dominio de descodificacion. El primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 tiene una primera regla de entramado, una ventana de inicio y una ventana de detencion. El descodificador de audio 150, comprende adicionalmente un segundo descodificador 170 para descodificar muestras de audio en un segundo dominio de descodificacion. El segundo descodificador 170 tiene un numero de muestras de audio de tamano de trama predeterminado y un numero de muestras de audio de periodo de puesta a punto de codificacion. Asimismo, el segundo descodificador 170 tiene una segunda regla de entramado diferente. Una trama del segundo descodificador 170 se puede corresponder con una representacion descodificada de un numero de muestras de audio oportunamente posteriores, en donde el numero es igual al numero de muestras de audio de tamano de trama predeterminado.
El descodificador de audio 150 comprende adicionalmente un controlador 180 para conmutar del primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 al segundo descodificador 170 sobre la base de una indicacion en la trama codificada de muestras de audio, en donde se adapta el controlador 180 para modificar la segunda regla de entramado en respuesta a la conmutacion del primer descodificador de introduccion en el dominio del tiempo 160 al segundo descodificador 170 o para modificar la ventana de inicio o la ventana de detencion del primer descodificador 160, en donde la segunda regla de entramado permanece sin modificaciones.
De acuerdo con la descripcion anterior, por ejemplo, en el codificador y el descodificador de AAC, las ventanas de inicio y de detencion se aplican en el codificador asf como en el descodificador. De acuerdo con la descripcion anterior del codificador de audio 100, el descodificador de audio 150 proporciona las componentes de descodificacion correspondientes. La indicacion de conmutacion para el controlador 180 se puede proporcionar en terminos de un bit, una bandera o cualquier informacion complementaria junto con las tramas codificadas.
En ciertas realizaciones, el primer descodificador 160 puede comprender un transformador en el dominio del tiempo para la transformacion de una primera trama de muestras de audio descodificadas al dominio del tiempo. Se puede adaptar el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 para ponderar la primera trama descodificada con la ventana de inicio cuando una trama posterior es descodificada mediante el segundo descodificador 170 y / o para ponderar la primera trama descodificada con la ventana de detencion cuando una trama precedente se ha de descodificar mediante el segundo descodificador 170. El transformador en el dominio del tiempo se puede adaptar para transformar la primera trama al dominio del tiempo sobre la base de una MDCT inversa (IMDCT = inverse MDCT, MDCT inversa) y / o el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 se puede adaptar para adaptar un tamano de IMDCT a las ventanas de inicio y / o de detencion o de inicio y / o de detencion modificadas. Los tamanos de IMDCT se detallaran mas adelante.
En unas realizaciones, el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 se puede adaptar para usar una ventana de inicio y / o una ventana de detencion que tienen una parte libre de distorsion por repliegue del espectro o libre de distorsion por repliegue del espectro. El primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 se puede adaptar adicionalmente para usar una ventana de detencion que tiene una parte libre de distorsion por repliegue del espectro en una parte de subida de la ventana cuando la trama precedente ha sido descodificada por el segundo descodificador 170 y / o el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 puede tener una ventana de inicio que tiene una parte libre de distorsion por repliegue del espectro en el flanco de bajada cuando la trama posterior es descodificada por el segundo descodificador 170.
En correspondencia con las realizaciones anteriormente descritas del codificador de audio 100, se puede adaptar el controlador 180 para iniciar el segundo descodificador 170 de tal modo que la primera trama de una secuencia de tramas del segundo descodificador 170 comprende una representacion descodificada de una muestra procesada en la parte libre de distorsion por repliegue del espectro precedente del primer descodificador 160. El controlador 180 se puede adaptar para iniciar el segundo descodificador 170 de tal modo que el numero de muestras de audio de periodo de puesta a punto de codificacion se superpone con la parte libre de distorsion por repliegue del espectro de la ventana de inicio del primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 y una trama posterior del segundo descodificador 170 se superpone con la parte de distorsion por repliegue del espectro de la ventana de detencion.
5
10
15
20
25
30
35
40
45
50
55
60
65
En otras realizaciones, el controlador 180 se puede adaptar para iniciar el segundo descodificador 170 de tal modo que el penodo de puesta a punto de codificacion se superpone con la parte de distorsion por repliegue del espectro de la ventana de inicio.
En otras realizaciones, el controlador 180 se puede adaptar adicionalmente para conmutar del segundo descodificador 170 al primer descodificador 160 en respuesta a una indicacion de las muestras de audio codificadas y para modificar la segunda regla de entramado en respuesta a la conmutacion del segundo descodificador 170 al primer descodificador 160 o para modificar la ventana de inicio o la ventana de detencion del primer descodificador 160, en donde la segunda regla de entramado permanece sin modificaciones. Se puede proporcionar la indicacion en terminos de una bandera, un bit o cualquier informacion complementaria junto con las tramas codificadas.
En ciertas realizaciones, el controlador 180 se puede adaptar para iniciar el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 160 de tal modo que la parte de distorsion por repliegue del espectro de la ventana de detencion se superpone con una trama del segundo descodificador 170.
El controlador 180 se puede adaptar para aplicar un desvanecimiento cruzado entre tramas consecutivas de muestras de audio descodificadas de los diferentes descodificadores. Asimismo, el controlador 180 se puede adaptar para determinar una distorsion por repliegue del espectro en una parte de distorsion por repliegue del espectro de la ventana de inicio o la ventana de detencion a partir de una trama descodificada del segundo descodificador 170 y el controlador 180 se puede adaptar para reducir la distorsion por repliegue del espectro en la parte de distorsion por repliegue del espectro sobre la base de la distorsion por repliegue del espectro determinada.
En ciertas realizaciones, el controlador 180 se puede adaptar adicionalmente para descartar el penodo de puesta a punto de codificacion de las muestras de audio a partir del segundo descodificador 170.
En lo sucesivo, se describiran la transformada de coseno discreta modificada (MDCT = Transformada de Coseno Discreta Modificada) y la IMDCT. La MDCT se explicara con mas detalle con la ayuda de las ecuaciones ilustradas en las figuras 2a - 2j. La transformada de coseno discreta modificada es una transformada relacionada con Fourier basada en la transformada de coseno discreta de tipo IV (DCT-IV = Transformada de Coseno Discreta de Tipo IV), con la propiedad adicional de ser solapada, es decir, esta disenada para llevarse a cabo en bloques consecutivos de un conjunto de datos mas grande, en donde bloques posteriores se solapan de manera que, por ejemplo, la ultima mitad de un bloque coincide con la primera mitad del bloque siguiente. Esta superposicion, ademas de las cualidades de compactacion de energfa de la DCT, hace a la MDCT especialmente atractiva para las aplicaciones de compresion de senal, dado que esta ayuda a evitar que salgan artefactos de las fronteras de bloque. Por lo tanto, se emplea una MDCT en MP3 (MP3 = MpEG2 / 4 capa 3), AC-3 (AC-3 = Codec de Audio 3 de Dolby), Ogg Vorbis y AAC (AAC = Codificacion de Audio Avanzada) para la compresion de audio, por ejemplo.
La MDCT fue propuesta por Princen, Johnson y Bradley en 1987, con posterioridad al trabajo anterior (1986) de Princen y Bradley para desarrollar el principio subyacente de la MDCT de la cancelacion de distorsion por repliegue del espectro en el dominio del tiempo (TDAC), que se describe a continuacion. Tambien existe una transformada analoga, la MDST (MDST = Modified DST, DsT Modificada, DST = Discrete Sine Transform, Transformada de Seno Discreta), basada en la transformada de seno discreta, asf como otras formas, raramente usadas, de la MDCT basadas en tipos diferentes de combinaciones de DCT o de combinaciones de DCT / DST, que tambien se pueden usar en unas realizaciones por la transformada de introduccion de distorsion por repliegue del espectro en el dominio del tiempo.
En MP3, la MDCT no se aplica a la senal de audio directamente, sino a una salida de un banco de filtros de cuadratura de polifase de 32 bandas (PQF = Filtro de Cuadratura de Polifase). La salida de esta MDCT se postprocesa mediante una formula de reduccion de distorsion por repliegue del espectro para reducir la distorsion por repliegue del espectro tfpica del banco de filtros de PQF. Una combinacion de este tipo de un banco de filtros con una MDCT se denomina banco de filtros hibrido o MDCT de sub-banda. AAC, por otro lado, usa normalmente una MDCT pura; solo la variante de MPEG-4 AAC-SSR (raramente usada) (por Sony) usa un banco de PQF de cuatro bandas seguido por una MDCT. ATRAC (ATRAC = Adaptive TRansform Audio Coding, Codificacion de Audio de Transformada Adaptativa) usa filtros de espejo en cuadratura (QMF, Quadrature Mirror Filter) apilados seguido por una MDCT.
Como una transformada solapada, la MDCT es un poco inusual en comparacion con las otras transformadas relacionadas con Fourier en que tiene la mitad de salidas que entradas (en lugar del mismo numero). En particular, es una funcion lineal F: R2N ^ Rn, en donde R denota el conjunto de los numeros reales. Los 2N numeros reales X0, ... , X2N-1 se transforman en los N numeros reales X0, ... , Xn-1 de acuerdo con la formula en la figura 2a.
El coeficiente de normalizacion delante de esta transformada, en el presente caso la unidad, es una convencion arbitraria y difiere entre tratamientos. Solo esta restringido el producto de las normalizaciones de la MDCT y la IMDCT, a continuacion.
La MDCT inversa se conoce como IMDCT. Dado que hay diferentes numeros de entradas y de salidas, en principio
5
10
15
20
25
30
35
40
45
50
55
60
65
puede parecer que la MDCT no deberfa ser invertible. Sin embargo, se alcanza una invertibilidad perfecta mediante la agregacion de las IMDCT superpuestas de bloques superpuestos posteriores, lo cual causa que los errores se cancelen y que se recuperen los datos originales; esta tecnica se conoce como cancelacion de distorsion por repliegue del espectro en el dominio del tiempo (TDAC, time-domain aliasing cancellation).
La IMDCT transforma N numeros reales X0, ... , Xn-i en 2N numeros reales y0, ... , y2N-i de acuerdo con la formula en la figura 2b. Al igual que para la DCT-IV, una transformada ortogonal, la inversa tiene la misma forma que la transformada directa.
En el caso de una MDCT a la que se ha aplicado una funcion ventana con la normalizacion de ventana usual (vease a continuacion), el coeficiente de normalizacion delante de la IMDCT se ha de multiplicar por 2, es decir, se torna 2 / N.
A pesar de la aplicacion directa de la formula de la MDCT requerirfa operaciones de O(N2), es posible computar la misma cosa con una complejidad de solo O(N log N) mediante la factorizacion recursiva de la computacion, como en la transformada rapida de Fourier (FFT, Fast Fourier Transform). Tambien se pueden computar las MDCT a traves de otras transformadas, por lo general una DFT (FFT) o una DCT, combinada con etapas de O(N) de procesamiento previas y posteriores. Asimismo, como se describe a continuacion, cualquier algoritmo para la DCT-IV proporciona inmediatamente un metodo para computar la MDCT y la IMDCT de tamano par.
En aplicaciones de compresion de senal tfpicas, las propiedades de transformada se mejoran adicionalmente mediante el uso de una funcion ventana Wn (n = 0, ... , 2N-1) que se multiplica por Xn e yn en las formulas de MDCT y de IMDCT en lo que antecede con el fin de evitar discontinuidades en las fronteras n = 0 y 2N al hacer que la funcion vaya suavemente de cero a aquellos puntos. Es decir, se aplica una funcion ventana a la informacion antes de la MDCT y despues de la IMDCT. En principio, x e y podrfan tener diferentes funciones de ventana, y la funcion ventana tambien podrfa cambiar de un bloque al proximo, en especial para el caso en donde se combinan unos bloques de datos de diferentes tamanos, si bien por simplicidad se considera en primer lugar el caso comun de las funciones de ventana identicas para bloques de igual tamano.
La transformada permanece invertible, es decir, la TDAC funciona para una ventana simetrica Wn = W2N-i-n, siempre que w cumpla la condicion de Princen - Bradley de acuerdo con la figura 2c.
Varias funciones de ventana diferentes son comunes, se da un ejemplo en la figura 2d para MP3 y MPEG-2 AAC, y en la figura 2e para Vorbis. AC-3 usa una ventana derivada de Kaiser - Bessel (KBD = Kaiser - Bessel Derived), y MPEG-4 AAC tambien puede usar una ventana de KBD.
Notese que las ventanas aplicadas a la MDCT son diferentes de las ventanas usadas para otros tipos de analisis de senal, dado que estas han de cumplir la condicion de Princen - Bradley. Una de las razones para esta diferencia es que las ventanas de MDCT se aplican dos veces, para la MDCT (filtro de analisis) y la IMDCT (filtro de sfntesis).
Como se puede ver mediante la inspeccion de las definiciones, para N par la MDCT es esencialmente equivalente a una DCT-IV, en donde la entrada se desplaza N / 2 y dos bloques N de datos se transforman al mismo tiempo. Mediante el examen de esta equivalencia de forma mas cuidadosa, se pueden obtener facilmente propiedades importantes como TDAC.
Con el fin de definir la relacion precisa para la DCT-IV, se ha de observar que la DCT-IV se corresponde con alternar condiciones de frontera pares / impares, es par en su frontera izquierda (en torno a n = -1 / 2), impar en su frontera derecha (en torno a n = N - 1 / 2), y asf sucesivamente (en lugar de limites periodicos como para una DFT). Esto se deduce de las identidades dadas en la figura 2f. Por lo tanto, si sus entradas con una serie x de longitud N, imagfnese extender esta serie a (x, -xr, -x, xr, ...) y asf sucesivamente se puede imaginar, en donde xr denota x en un orden inverso.
Considerese una MDCT con 2N entradas y N salidas, en donde las entradas pueden dividirse en cuatro bloques (a, b, c, d) cada uno de tamano N / 2. Si estas se desplazan N / 2 (desde el termino +N / 2 en la definicion de MDCT), entonces (b, c, d) se extienden mas alla del extremo de las N entradas de DCT-IV, de tal modo que estas se han de “plegar” de nuevo de acuerdo con las condiciones de frontera anteriormente descritas.
Por lo tanto, la MDCT de 2N entradas (a, b, c, d) es exactamente equivalente a una DCT-IV de las N entradas: (-cr - d, a - bR), en donde R denota inversion como antes. De esta manera, cualquier algoritmo para computar la DCT-IV se puede aplicar trivialmente a la MDCT.
De forma similar, la formula de IMDCT como se menciono anteriormente, es precisamente 1 / 2 de la DCT-IV (que es su propia inversa), en donde la salida se desplaza N / 2 y se extiende (por medio de las condiciones de frontera) a una longitud de 2N. La DCT-IV inversa simplemente devolverfa las entradas (-cr - d, a - bR) a partir de lo anterior. Cuando esto se desplaza y se extiende por medio de las condiciones de frontera, se obtiene el resultado que se muestra en la figura 2g. La mitad de las salidas de IMDCT son por lo tanto redundantes.
5
10
15
20
25
30
35
40
45
50
55
60
65
Se puede entender ahora como funciona la TDAC. Supongase que se computa la MDCT del bloque 2N (c, d, e, f) superpuesto al 50 % posterior. La IMDCT entonces dara, de forma analoga a lo anterior: (c - dR, d - cr, e + fR, eR + f) / 2. Cuando esto se agrega con el resultado de IMDCT anterior en la mitad superpuesta, los terminos invertidos se cancelan y se obtiene simplemente (c, d), recuperando los datos originales.
Ahora esta claro el origen de la expresion “cancelacion de distorsion por repliegue del espectro en el dominio del tiempo”. El uso de datos de entrada que se extienden mas alla de las fronteras de la DCT-IV logica da lugar a que los datos esten sujetos a distorsion por repliegue del espectro exactamente de la misma manera que las frecuencias mas alla de la frecuencia de Nyquist estan sujetas a distorsion por repliegue del espectro a frecuencias mas bajas, excepto por que esta distorsion por repliegue del espectro ocurre en el dominio del tiempo en lugar de en el dominio de la frecuencia. De aquf las combinaciones c - dR y asf sucesivamente, que tienen precisamente los signos correctos para que las combinaciones se cancelen cuando se agregan.
Para N impar (que raramente se usa en la practica), N / 2 no es un numero entero de manera que la MDCT no es simplemente una permutacion de desplazamiento de una DCT-IV. En este caso, el desplazamiento adicional por media muestra significa que la MDCT / IMDCT se torna equivalente a la DCT-III / II, y el analisis es analogo a lo anterior.
En lo que antecede la propiedad de TDAC se probo para la MDCT comun lo cual muestra que agregar las IMDCT de bloques posteriores en su mitad de superposicion recupera los datos originales. La derivacion de esta propiedad inversa para la MDCT a la que se ha aplicado una funcion ventana solo es ligeramente mas complicada.
Recuerdese de lo anterior que, cuando (a, b, c, d) y (c, d, e, f) se someten a MDCT, se someten a IMDCT y se agregan en su mitad superpuesta, se obtiene (c + dR, cr + d) / 2 + (c - dR, d - cr) / 2 = (c, d), los datos originales.
A continuacion, se supone la multiplicacion de las entradas de MDCT y las salidas de IMDCT por una funcion ventana de longitud 2N. Como antes, se supone una funcion ventana simetrica, que es, por lo tanto, de la forma (w, z, zr, wr), en donde w y z son vectores de longitud N / 2 y R denota inversa como antes. Entonces la condicion de Princen - Bradley se puede escribir
W2 + ~R — ( 1 ■ 1 ■ ■ ■ ■),
con las multiplicaciones y sumas realizadas elemento a elemento, o de forma equivalente
WR + ~2 — (1,1,...)
invirtiendo w y z.
Por lo tanto, en lugar de someter a MDCT (a, b, c, d), MDCT (wa, zb, zrc, wRd) se somete a MDCT con todas las multiplicaciones realizadas elemento a elemento. Cuando esto se somete a IMDCT y se multiplica de nuevo (elemento a elemento) por la funcion ventana, los resultados de la ultima mitad de N se muestran en la figura 2h.
Notese que la multiplicacion por A ha dejado de estar presente, debido a que la normalizacion de IMDCT difiere por un factor de 2 en el caso con la aplicacion de una funcion ventana. De forma similar, la MDCT y la IMDCT a la que se ha aplicado una funcion ventana de (c, d, e, f) da, en su mitad primera N de acuerdo con la figura 2i. Cuando estas dos mitades se suman una a otra, se obtienen los resultados de la figura 2j, recuperando los datos originales.
En lo sucesivo, se detallara una realizacion en la cual el controlador 130 del lado de codificador y el controlador 180 del lado de descodificador, respectivamente, modifican la segunda regla de entramado en respuesta a la conmutacion del primer dominio de codificacion al segundo dominio de codificacion. En la realizacion, se logra una transicion suave en un codificador conmutado, es decir, conmutando entre codificacion de AMR-WB+ y de AAC. Con el fin de tener una transicion suave, se usa una cierta superposicion, es decir, un segmento corto de una senal o una cantidad de muestras de audio, a las que se aplican ambos modos de codificacion. Dicho de otra forma, en la siguiente descripcion, se proporcionara una realizacion, en donde el primer codificador de distorsion por repliegue del espectro en el dominio del tiempo 110 y el primer descodificador de distorsion por repliegue del espectro en el dominio del tiempo 160 se corresponden con la codificacion y la descodificacion de AAC. El segundo codificador 120 y el descodificador 170 se corresponden con AMR-WB+ en el modo de ACELP. La realizacion se corresponde con una opcion de los controladores respectivos 130 y 180 en los cuales se modifica el entramado de la AMR-WB+, es decir, la segunda regla de entramado.
La figura 3 muestra una lfnea de tiempo en la cual se muestra un numero de ventanas y tramas. En la figura 3, una ventana regular de AAC 301 es seguida por una ventana de inicio de AAC 302. En la AAC, la ventana de inicio de AAC 302 se usa entre tramas largas y tramas cortas. Con el fin de ilustrar el entramado de AAC heredado, es decir, la primera regla de entramado del primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 y el descodificador 160, en la figura 3 se muestra tambien una secuencia de ventanas de
5
10
15
20
25
30
35
40
45
50
55
60
65
AAC cortas 303. La secuencia de ventanas cortas de AAC 303 se termina con una ventana de detencion de AAC 304, la cual inicia una secuencia de ventanas largas de AAC. De acuerdo con la descripcion que se ha mostrado en lo que antecede, se supone en la presente realizacion que el segundo codificador 120, el descodificador 170, respectivamente, usan el modo de ACELP de la AMR-WB+. La AMR-WB+ usa tramas de igual tamano de las cuales se muestra una secuencia 320 en la figura 3. La figura 3 muestra una secuencia de tramas de prefiltro de diferentes tipos de acuerdo con ACELP en AMR-WB+. Con anterioridad a conmutar AAC por ACELP, el controlador 130 o 180 modifica el entramado de la ACELP de tal modo que la primera supertrama 320 esta compuesta por cinco tramas en lugar de cuatro. Por lo tanto, los datos de ACE 314 se encuentran disponibles en el descodificador, al tiempo que tambien se encuentran disponibles los datos de AAC descodificados. Por lo tanto, la primera parte se puede descartar en el descodificador, dado que esta se refiere al perfodo de puesta a punto de codificacion del segundo codificador 120, el segundo descodificador 170, respectivamente. En general, en otras realizaciones, la supertrama de AMR-WB+ se puede extender mediante la anexion de tramas tambien al final de una supertrama.
La figura 3 muestra dos transiciones de modo, es decir, de AAC a AMR-WB+ y de AMR-WB+ a AAC. En una realizacion, se usan las tfpicas ventanas de inicio / detencion 302 y 304 del codec de AAC y la longitud de trama del codec de AMR-WB+ se incrementa para superponerse con la parte de desvanecimiento de la ventana de inicio / detencion del codec de AAC, es decir, se modifica la segunda regla de entramado. De acuerdo con la figura 3, las transiciones de AAC a AMR-WB+, es decir, del primer codificador de introduccion de distorsion por repliegue del espectro de tiempo 110 al segundo codificador 120 o el primer descodificador de introduccion de distorsion por repliegue del espectro de tiempo 160 al segundo descodificador 170, respectivamente, se maneja al mantener el entramado de AAC y la extension de la trama en el dominio del tiempo en la transicion con el fin de cubrir la superposicion. La supertrama de AMR-WB+ en la transicion, es decir, la primera supertrama 320 en la figura 3, usa cinco tramas en lugar de cuatro; cubriendo la quinta trama la superposicion. Esto introduce una tara de datos, sin embargo, la realizacion proporciona la ventaja de que se asegura una transicion suave entre los modos de AAC y de AMR-WB+.
Tal como se ha mencionado anteriormente, el controlador 130 se puede adaptar para conmutar entre los dos dominios de codificacion sobre la base de la caracterfstica de las muestras de audio en donde resultan concebibles diferentes analisis o diferentes opciones. Por ejemplo, el controlador 130 puede conmutar el modo de codificacion sobre la base de una fraccion estacionaria o una fraccion transitoria de la senal. Otra opcion serfa que se llevara a cabo la conmutacion sobre la base de si las muestras de audio se corresponden con una senal de habla mas vocal o no vocal. Con el fin de proporcionar una realizacion detallada para determinar las caracterfsticas de las muestras de audio, en lo sucesivo, una realizacion del controlador 130, la cual conmuta sobre la base de la similitud de voz de la senal.
A modo de ejemplo, se hace referencia a las figuras 4a y 4b, 5a y 5b, respectivamente. Los segmentos de senal o porciones de senal de tipo impulso cuasi-periodico y los segmentos de senal o porciones de senal de tipo ruido se analizan a modo de ejemplo. En general, los controladores 130, 180 se pueden adaptar para decidir sobre la base de criterios diferentes, tales como blancura espectral, transitoriedad, estacionario, etc. En lo sucesivo, se da un criterio a modo de ejemplo como parte de una realizacion. En concreto, se ilustra un habla vocal en la figura 4a en el dominio del tiempo y en la figura 4b en el dominio de la frecuencia y se analiza como un ejemplo para una porcion de senal de tipo impulso cuasi-periodico y un segmento de habla no vocal como un ejemplo de una porcion de senal de tipo ruido se analiza en conexion con las figuras 5a y 5b.
En general, el habla se puede clasificar como vocal, no vocal o mixta. El habla vocal es cuasi periodica en el dominio del tiempo y armonicamente estructurada en el dominio de la frecuencia, mientras que el habla no vocal es de tipo aleatorio y de banda ancha. Ademas, la energfa de los segmentos vocales es, en general, mayor que la energfa de los segmentos no vocales. El espectro a corto plazo del habla vocal se caracteriza por su estructura fina y formante. La estructura armonica fina es una consecuencia de la cuasi periodicidad del habla y se puede atribuir a las cuerdas vocales vibrantes.
La estructura formante, que tambien se denomina envolvente espectral, se debe a la interaccion de la fuente y los tractos vocales. Los tractos vocales consisten en la faringe y la cavidad bucal. La forma de la envolvente espectral que “encaja” con el espectro a corto plazo del habla vocal esta asociada con las caracterfsticas de transferencia del tracto vocal y la inclinacion espectral (6 dB / octava) debido al pulso de la glotis.
La envolvente espectral esta caracterizada por un conjunto de picos, que se denominan formantes. Las formantes son los modos resonantes del tracto vocal. Para el tracto vocal promedio hay de 3 a 5 formantes por debajo de 5 kHz. Las amplitudes y las ubicaciones de las tres primeras formantes, las cuales ocurren, por lo general, por debajo de 3 kHz, son bastante importantes, ambas, en la percepcion y la sfntesis del habla. Las formantes mas altas son tambien importantes para las representaciones de habla no vocal y de banda ancha. Las propiedades del habla estan relacionadas con los sistemas de produccion del habla ffsicos tal como sigue. La excitacion del tracto vocal con pulsos de aire de la glotis cuasi periodicos generados por la vibracion de las cuerdas vocales produce el habla vocal. Se hace referencia a la frecuencia de los pulsos periodicos como frecuencia fundamental o tono. Forzar aire a traves de una constriccion en el tracto vocal produce un habla no vocal. Los sonidos nasales se deben al acoplamiento acustico del tracto nasal con el tracto vocal, y los sonidos oclusivos se reducen mediante la reduccion
5
10
15
20
25
30
35
40
45
50
55
60
65
abrupta de la presion de aire, el cual se acumulo detras del cierre del tracto.
Por lo tanto, una porcion de tipo ruido de la senal de audio puede ser una porcion estacionaria en el dominio del tiempo como se ilustra en la figura 5a o una porcion estacionaria en el dominio de la frecuencia, la cual es diferente de la porcion de tipo impulso cuasi-periodico como se ilustra en el ejemplo en la figura 4a, debido al hecho de que la porcion estacionaria en el dominio del tiempo no muestra pulsos de repeticion permanente. Como se bosquejara mas adelante, sin embargo, la diferenciacion entre las porciones de tipo ruido y las porciones de tipo impulso cuasi- periodico tambien se pueden observar despues de una LPC para la senal de excitacion. La LPC es un metodo que modela el tracto vocal y la excitacion de los tractos vocales. Cuando se considera el dominio de la frecuencia de la senal, las senales de tipo impulso muestran la apariencia prominente de las formantes individuales, es decir, picos prominentes en la figura 4b, mientras que el espectro estacionario tiene un espectro bastante ancho como se ilustra en la figura 5b o, en el caso de las senales armonicas, un piso de ruido bastante continuo que tiene algunos picos prominentes que representan tonos especfficos que ocurren, por ejemplo, en una senal de musica, pero que no tienen una distancia tan regular del uno al otro como la senal de tipo impulso en la figura 4b.
Ademas, las porciones de tipo impulso cuasi-periodico y las porciones de tipo ruido pueden ocurrir de una forma oportuna, es decir, esto significa que una porcion de la senal de audio de tiempo es ruidosa y otra porcion de la senal de audio en el tiempo es cuasi-periodica, es decir, tonal. Como alternativa o adicionalmente, la caracterfstica de una senal puede ser diferente en diferentes bandas de frecuencia. Por lo tanto, la determinacion de si la senal de audio es ruidosa o tonal, se puede llevar a cabo de una forma selectiva en frecuencia de manera que se considera que una cierta banda de frecuencia o varias ciertas bandas de frecuencia son ruidosas y se considera que otras bandas de frecuencia son tonales. En este caso, una cierta porcion de tiempo de la senal de audio podrfa incluir componentes tonales y componentes ruidosos.
En lo sucesivo, se analizara un codificador de CELP de analisis por sfntesis con respecto a la figura 6. Tambien se pueden encontrar detalles de un codificador de CELP en el documento “Speech Coding: A tutorial review", Andreas Spanias, Proceedings of IEEE, Vol. 84, n.° 10, octubre de 1994, paginas 1541 - 1582. El codificador de CELP como se ilustra en la figura 6 incluye un componente de prediccion a largo plazo 60 y un componente de prediccion a corto plazo 62. Ademas, se usa un libro de codigos lo cual se indica en 64. Un filtro de ponderacion perceptual W(z) se implementa en 66, y un controlador de minimizacion de error se proporciona en 68. s(n) es la senal de audio de entrada en el dominio del tiempo. Despues de haber sido perceptualmente ponderada, la senal ponderada se introduce en un sustractor 69, el cual calcula el error entre la senal de sfntesis ponderada en salida del bloque 66 y la senal ponderada real sw(n).
En general, la prediccion a corto plazo A(z) se calcula por una fase de analisis de LPC que se analizara mas adelante. Dependiendo de esta informacion, la prediccion a largo plazo Al(z) incluye la ganancia de prediccion a largo plazo b y el retardo T (que tambien se conoce como ganancia de tono y retardo de tono). El algoritmo de CELP codifica a continuacion la senal residual obtenida despues de las predicciones a corto y a largo plazo usando un libro de codigos de, por ejemplo, secuencias gaussianas. El algoritmo de ACELP, en donde “A” significa “algebraico” tiene un libro de codigos especifico disenado algebraicamente.
El libro de codigos puede contener mas o menos vectores, en donde cada vector tiene una longitud de acuerdo con un numero de muestras. Un factor de ganancia g adapta a escala el vector de codigo y las muestras codificadas multiplicadas por la ganancia son filtrados por el filtro de sfntesis a largo plazo y el filtro de sfntesis de prediccion a corto plazo. El vector de codigo “optimo” se selecciona de tal manera que se minimiza el error cuadratico medio perceptualmente ponderado. El proceso de busqueda en CELP es evidente a partir del esquema de analisis por sfntesis ilustrado en la figura 6. Se ha de hacer notar que la figura 6 solo ilustra un ejemplo de un CELP de analisis por sfntesis y que las realizaciones no se deben limitar a la estructura que se muestra en la figura 6.
En CELP, el predictor a largo plazo se implementa, a menudo, como un libro de codigos adaptativo que contiene la senal de excitacion previa. La ganancia y el retardo de prediccion a largo plazo se representan mediante una ganancia y un fndice de libro de codigos adaptativo, los cuales se seleccionan tambien mediante la minimizacion del error cuadratico medio ponderado. En este caso la senal de excitacion consiste en la adicion de dos vectores adaptados a escala mediante la ganancia, uno a partir de un libro de codigos adaptativo y uno a partir de un libro de codigos fijo. El filtro de ponderacion perceptual en AMR-WB+ esta basado en el filtro de LPC, por lo tanto la senal perceptualmente ponderada es una forma de una senal en el dominio de LPC. En el codificador en el dominio de la transformada usado en AMR-WB+, la transformada se aplica a la senal ponderada. En el descodificador, la senal de excitacion se puede obtener mediante la filtracion de la senal ponderada descodificada a traves de un filtro que consiste en la inversa de filtros de sfntesis y de ponderacion.
La funcionalidad de una realizacion de la fase de analisis de codificacion predictiva 12 se analizara posteriormente de acuerdo con la realizacion que se muestra en la figura 7, usando analisis de LPC y sfntesis de LPC en los controladores 130,180 en las realizaciones correspondientes.
La figura 7 ilustra una implementacion mas detallada de una realizacion de un bloque de analisis de LPC. La senal de audio se introduce en un bloque de determinacion de filtro, el cual determina la informacion de filtro A(z), es decir,
5
10
15
20
25
30
35
40
45
50
55
60
65
la informacion acerca de coeficientes para el filtro de sfntesis. La informacion es cuantificada y se emite como la informacion de prediccion a corto plazo requerida por el descodificador. En un sustractor 786, se introduce una muestra actual de la senal y un valor predicho para la muestra actual se sustrae de tal manera que, para esta muestra, la senal de error de prediccion se genera en la lfnea 784. Notese que la senal de error de prediccion tambien se puede denominar senal de excitacion o trama de excitacion (por lo general, despues de codificarse).
La figura 8a muestra otra secuencia de tiempo de ventanas que se logra con otra realizacion. En la realizacion considerada en lo sucesivo, el codec de AMR-WB+ se corresponde con el segundo codificador 120 y el codec de AAC se corresponde con el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110. La siguiente realizacion mantiene el entramado de codec de AMR-WB+, es decir, la segunda regla de entramado permanece sin modificaciones, pero se modifica la aplicacion de una funcion ventana en la transicion del codec de AMR-WB+ al codec de AAC, se manipulan las ventanas de inicio / detencion del codec de AAC. Dicho de otra forma, la aplicacion de una funcion ventana al codec de AAC sera mas larga en la transicion.
Las figuras 8a y 8b ilustran la presente realizacion. Ambas figuras muestran una secuencia de ventanas de AAC convencionales 801 en las cuales, en la figura 8a, se introduce una nueva ventana de detencion modificada 802 y, en la figura 8b, una nueva ventana de detencion / inicio 803. Con respecto a la ACELP, se usa un entramado similar al que se muestra tal como ya se ha descrito con respecto a la realizacion en la figura 3. En la realizacion que da como resultado la secuencia de ventana tal como se muestra en las figuras 8a y 8b, se supone que no se mantiene el entramado de codec de AAC normal, es decir, se usan las ventanas de inicio, de detencion o de inicio / detencion modificadas. La primera ventana que se muestra en las figuras 8a es para la transicion de AMR-WB+ a AAC, en donde el codec de AAC usara una ventana de detencion larga 802. Se describira otra ventana con la ayuda de la figura 8b, la cual muestra la transicion de AMR-WB+ a AAC cuando el codec de AAC use una ventana corta, usando una ventana de AAC larga para esta transicion, segun se indica en la figura 8b. La figura 8a muestra que la primera supertrama 820 de la ACELP comprende cuatro tramas, es decir, es acorde al entramado de ACELP convencional, es decir, la segunda regla de entramado. Con el fin de mantener la regla de entramado de ACELP, es decir, la segunda regla de entramado se mantiene sin modificaciones, se usan unas ventanas modificadas 802 y 803 segun se indica en las figuras 8a y 8b.
Por lo tanto, en lo sucesivo, se introduciran algunos detalles con respecto a la aplicacion de funcion ventana, en general.
La figura 9 muestra una ventana rectangular general, en la cual la informacion de la secuencia de ventana puede comprender una primera parte cero, en la cual la ventana enmascara muestras, una segunda parte de derivacion, en la cual las muestras de una trama, es decir, una trama en el dominio del tiempo de entrada o una trama en el dominio del tiempo superpuesta puede pasar a traves sin modificaciones, y una tercera parte cero, la cual enmascara de nuevo muestras al final de una trama. Dicho de otra forma, se pueden aplicar unas funciones de ventana, lo cual suprime un numero de muestras de una trama en una primera parte cero, pasa a traves de unas muestras en una segunda parte de derivacion, y suprime entonces unas muestras al final de una trama en una tercera parte cero. En este contexto, supresion tambien se puede referir a la anexion de una secuencia de ceros al comienzo y / o al final de la parte de derivacion de la ventana. La segunda parte de derivacion puede ser tal que la funcion ventana simplemente tiene un valor de 1, es decir, las muestras pasan a traves sin modificaciones, es decir, la funcion ventana conmuta a traves de las muestras de la trama.
La figura 10 muestra otra realizacion de una secuencia de ventana o funcion ventana, en donde la secuencia de ventana comprende adicionalmente una parte de flanco de subida entre la primera parte cero y la segunda parte de derivacion y una parte de flanco de bajada entre la segunda parte de derivacion y la tercera parte cero. La parte de flanco de subida tambien se puede considerar como una parte de aparicion gradual y la parte de flanco de bajada se puede considerar como una parte de desvanecimiento gradual. En unas realizaciones, la segunda parte de derivacion puede comprender una secuencia de unos para no modificar en absoluto las muestras de la trama de excitacion.
Volviendo a la realizacion que se muestra en la figura 8a, la ventana de detencion modificada, tal como se usa en un ejemplo que realiza una transicion entre la AMR-WB+ y la AAC, cuando se realiza una transicion de AMR-WB+ a AaC, se muestra con mas detalle en la figura 11. La figura 11 muestra las tramas de ACELP 1101, 1102, 1103 y 1104. La ventana de detencion modificada 802 se usa entonces para realizar una transicion a AAC, es decir, el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110, el descodificador 160, respectivamente. De acuerdo con los detalles anteriores de la MDCT, la ventana se inicia ya en la mitad de la trama 1102, teniendo una primera parte cero de 512 muestras. A esta parte la sigue la parte de flanco de subida de la ventana, la cual se extiende a traves de 128 muestras seguidas por la segunda parte de derivacion que, en este ejemplo, se extiende a 576, es decir, 512 muestras despues de la parte de flanco de subida en la cual se pliega la primera parte cero, seguidas por 64 muestras mas de la segunda parte de derivacion, las cuales resultan de la tercera parte cero al final de la ventana extendida a traves de 64 muestras. La parte de flanco de bajada de la ventana con la misma da como resultado 1024 muestras, que van a superponerse con la siguiente ventana.
El ejemplo se puede describir tambien usando un pseudocodigo, que se ejemplifica mediante:
5
10
15
20
25
30
35
40
45
50
55
60
65
/* Conmutacion de bloques basada en ataques */
Si (hay un ataque) {
nextwindowSequence = SHORT_WINDOW;
}
de lo contrario {
nextwindowSequence = LONG_WINDOW;
}
/* Conmutacion de bloque basada en decision de conmutacion de ACELP */ si (la proxima trama es AMR) { nextwindowSequence = ShORt_WINDOW;
}
/* Conmutacion de bloque basada en decision de conmutacion de ACELP para STOP_WINDOW_1152 */ si (la trama actual es AMR y la proxima trama no es AMR) { nextwindowSequence = STOP_WINDOW_1152;
}
/*Conmutacion de bloque para STOPSTART_WINDOW_1152*/ si (nextwindowSequence == SHORT_WINDOW) { si (windowSequence == STOP_WINDOW_1152) { windowSequence = STOPSTART_WINDOW_1152;
}
}
Volviendo al ejemplo que se muestra en la figura 11, existe una seccion de plegado de distorsion por repliegue del espectro de tiempo dentro de la parte de flanco de subida de la ventana, la cual se extiende a traves de 128 muestras. Dado que esta seccion se superpone con la ultima trama de ACELP 1104, la salida de la trama de ACELP 1104 se puede usar para la cancelacion de distorsion por repliegue del espectro de tiempo en la parte de flanco de subida. La cancelacion de distorsion por repliegue del espectro se puede llevar a cabo en el dominio del tiempo o en el dominio de la frecuencia, en lfnea con los ejemplos anteriormente descritos. Dicho de otra forma, la salida de la ultima trama de ACELP se puede transformar al dominio de la frecuencia y se puede superponer entonces con la parte de flanco de subida de la ventana de detencion modificada 802. Como alternativa, se pueden aplicar TDA o TDAC a la ultima trama de ACELP antes de superponer esta con la parte de flanco de subida de la ventana de detencion modificada 802.
El ejemplo anteriormente descrito reduce la tara generada en las transiciones. Tambien elimina la necesidad de que se lleven a cabo modificaciones al entramado de la codificacion en el dominio del tiempo, es decir, la segunda regla de entramado. Asimismo, tambien adapta el codificador en el dominio de la frecuencia, es decir, el codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 (AAC), que en general es mas flexible en terminos de la atribucion de bits y la cantidad de coeficientes a transmitir que un codificador en el dominio del tiempo, es decir, el segundo codificador 120.
En lo sucesivo se describira otra realizacion, la cual proporciona un desvanecimiento cruzado libre de distorsion por repliegue del espectro cuando se produce la conmutacion entre el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo 110 y el segundo codificador 120, los descodificadores 160 y 170, respectivamente. La presente realizacion proporciona la ventaja de que se evite el ruido debido a TDAC, en especial a bajas tasas de bits, en el caso de procedimientos de inicio o de reinicio. La ventaja se logra mediante una realizacion que tiene una ventana de inicio de AAC modificada sin distorsion alguna por repliegue del espectro de tiempo en la parte derecha o en la parte de flanco de bajada de la ventana. La ventana de inicio modificada es una ventana asimetrica, es decir, la parte derecha o la parte de flanco de bajada de la ventana termina antes del punto de plegado de la MDCT. En consecuencia, la ventana esta libre de distorsion por repliegue del espectro de tiempo. Al mismo tiempo, la region de superposicion se puede reducir mediante unas realizaciones hasta 64 muestras en lugar de 128 muestras.
En unas realizaciones, puede llevar un cierto tiempo al codificador de audio 100 o al descodificador de audio 150 antes de entrar en un estado permanente o estable. Dicho de otra forma, durante el perfodo de inicio del codificador en el dominio del tiempo, es decir, el segundo codificador 120 y tambien el descodificador 170, se necesita un cierto tiempo con el fin de iniciar, por ejemplo, los coeficientes de una LPC. Con el fin de suavizar el error en el caso de un restablecimiento, en unas realizaciones, se puede aplicar una funcion ventana a la parte izquierda de una senal de entrada de AMR-WB+ con una ventana de seno corta en el codificador 120, por ejemplo, que tiene una longitud de 64 muestras. Asimismo, se puede aplicar una funcion ventana a la parte izquierda de la senal de sfntesis con la misma senal en el segundo descodificador 170. De este modo, la ventana de seno al cuadrado se puede aplicar de un modo similar a AAC, aplicando el seno al cuadrado a la parte derecha de su ventana de inicio.
Mediante el uso de esta aplicacion de una funcion ventana, en una realizacion, la transicion de AAC a AMR-WB+ se puede llevar a cabo sin distorsion por repliegue del espectro de tiempo y se puede llevar a cabo mediante una ventana de seno de desvanecimiento cruzado corto tal como, por ejemplo, 64 muestras. La figura 12 muestra una lfnea de tiempo que ejemplifica una transicion de AAC a AMR-WB+ y de vuelta a AAC. La figura 12 muestra una
5
10
15
20
25
30
35
40
45
50
55
60
65
ventana de inicio de AAC 1201 seguida de la parte de AMR-WB+ 1203 que se superpone con la ventana de AAC 1201 y que se superpone con la region 1202, la cual se extiende a traves de 64 muestras. La parte de AMR-WB+ es seguida por una ventana de detencion de AAC 1205, que se superpone con 128 muestras.
De acuerdo con la figura 12, la realizacion aplica la ventana libre de distorsion por repliegue del espectro respectiva en la transicion de AAC a AMR-WB+.
La figura 13 muestra la ventana de inicio modificada, tal como se aplica cuando se realiza una transicion de AAC a AMR-WB+ en ambos lados en el codificador 100 y el descodificador 150, el codificador 110 y el descodificador 160, respectivamente.
La ventana que se ilustra en la figura 13 muestra que la primera parte cero no se encuentra presente. La ventana se inicia directamente con la parte de flanco de subida, la cual se extiende a traves de 1024 muestras, es decir, el eje de plegado se encuentra en la mitad del intervalo de 1024 que se muestra en la figura 13. El eje de simetrfa se encuentra entonces en el lado derecho del intervalo de 1024. Tal como se puede ver a partir de la figura 13, la tercera parte cero se extiende a 512 muestras, es decir, no hay distorsion alguna por repliegue del espectro en la parte al lado derecho de la totalidad de la ventana, es decir, la parte de derivacion se extiende desde el centro hasta el comienzo del intervalo de 64 muestras. Tambien se puede observar que la parte de flanco de bajada se extiende a traves de 64 muestras, lo cual proporciona la ventaja de que la seccion de cruce sea angosta. El intervalo de 64 muestras se usa para un desvanecimiento cruzado, sin embargo, no se encuentra presente distorsion alguna por repliegue del espectro en este intervalo. Por lo tanto, solo se introduce una tara baja.
Unas realizaciones con las ventanas modificadas anteriormente descritas son capaces de evitar la codificacion de demasiada informacion de tara, es decir, la codificacion de algunas de las muestras dos veces. De acuerdo con la descripcion que se ha mostrado anteriormente, se pueden aplicar opcionalmente unas ventanas disenadas de manera similar para la transicion de AMR-WB+ a AAC de acuerdo con una realizacion en la que se modifica de nuevo la ventana de AAC, reduciendo tambien la superposicion a 64 muestras.
Por lo tanto, la ventana de detencion modificada se alarga a 2304 muestras en una realizacion y se usa en una MDCT de 1152 puntos. La parte izquierda de la ventana se puede hacer libre de distorsion por repliegue del espectro de tiempo mediante el comienzo de la aparicion gradual despues del eje de plegado de MDCT. Dicho de otra forma, al hacer la primera parte cero mas grande que un cuarto de la totalidad del tamano de MDTC. La ventana de seno al cuadrado complementaria se aplica entonces a las 64 ultimas muestras descodificadas del segmento de AMR-WB+. Estas dos ventanas de desvanecimiento cruzado permiten obtener una transicion suave de AMR-WB+ a AAC mediante la limitacion de la informacion transmitida de la tara.
La figura 14 ilustra una ventana para la transicion de AMR-WB+ a AAC tal como se puede aplicar en el lado de codificador 100 en una realizacion. Se puede ver que el eje de plegado es despues de 576 muestras, es decir, la primera parte cero se extiende a traves de de 576 muestras. Esto tiene como consecuencia que la parte al lado izquierdo de la totalidad de la ventana se encuentre libre de distorsion por repliegue del espectro. El desvanecimiento cruzado comienza en el segundo cuarto de la ventana, es decir, despues de 576 muestras o, dicho de otra forma, justo mas alla del eje de plegado. La seccion de desvanecimiento cruzado, es decir, la parte de flanco de subida de la ventana, puede estrecharse hasta 64 muestras de acuerdo con la figura 14.
La figura 15 muestra la ventana para la transicion de AMR-WB+ a ACC aplicada en el lado de descodificador 150 en una realizacion. La ventana es similar a la ventana descrita en la figura 14, de tal modo que la aplicacion de ambas ventanas a traves de muestras que se estan codificando y, entonces, descodificando de nuevo da como resultado una ventana de seno al cuadrado.
El siguiente pseudocodigo describe una realizacion de un procedimiento de seleccion de ventana de inicio, cuando ocurre la conmutacion de AAC a AMR-WB+.
Estas realizaciones tambien se pueden describir mediante el uso de un pseudocodigo tal como, por ejemplo:
/* Ajustar a una secuencia de ventana permitida */ si (nextwindowSequence == SHORT_WlNDOW) { si (windowSequence == LONG_WINDOW){ si (la trama actual no es AMR y la proxima trama es AMR) { windowSequence = START_WINDOW_AMR;
}
de lo contrario {
windowSequence = START_WINDOW;
}
}
Unas realizaciones tal como se ha descrito anteriormente reducen la tara generada de la informacion mediante el
5
10
15
20
25
30
35
40
45
50
55
60
65
uso de pequenas regiones de superposicion en ventanas consecutivas durante la transicion. Ademas, estas realizaciones proporcionan la ventaja de que estas pequenas regiones de superposicion siguen siendo suficientes para suavizar los artefactos de bloqueo, es decir, para tener un desvanecimiento cruzado suave. Asimismo, reduce el impacto de la rafaga de error debido al inicio del codificador en el dominio del tiempo, es decir, el segundo codificador 120, el descodificador 170, respectivamente, mediante la inicializacion del mismo con una entrada a la que se ha aplicado desvanecimiento.
Resumiendo, unas realizaciones de la presente invencion proporcionan la ventaja de que unas regiones de cruce suavizadas se pueden llevar a cabo en un concepto de codificacion de audio de modo multiple con una eficiencia de codificacion alta, es decir, las ventanas de transicion introducen solo una tara baja en terminos de la informacion adicional a ser transmitida. Ademas, unas realizaciones posibilitan el uso de codificadores de modo multiple, al tiempo que se adapta el entramado o la aplicacion de funcion ventana de un modo al otro.
A pesar de que algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos aspectos tambien representan una descripcion del metodo correspondiente, en donde un bloque o dispositivo se corresponde con una etapa de metodo o con una caracterfstica de una etapa de metodo. De forma analoga, unos aspectos descritos en el contexto de una etapa de metodo tambien representan una descripcion de un bloque o elemento o caracterfstica correspondiente de un aparato correspondiente.
La senal de audio codificada se puede almacenar en un medio de almacenamiento digital o se puede transmitir por un medio de transmision tal como un medio de transmision inalambrico o cableado tal como Internet.
Dependiendo de ciertos requisitos de implementacion, unas realizaciones de la presente invencion se pueden implementar en soporte ffsico o en soporte logico. La implementacion se puede realizar mediante el uso de un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tenga unas senales de control electronicamente legibles almacenadas en el mismo, las cuales cooperan (o son capaces de cooperar) con un sistema informatico programable de tal modo que se realice el metodo respectivo.
Algunas realizaciones de acuerdo con la invencion comprenden un soporte de datos que tiene senales de control electronicamente legibles, capaces de cooperar con un sistema informatico programable, de tal modo que se realice uno de los metodos descritos en el presente documento.
En general, unas realizaciones de la presente invencion se pueden implementar como un producto de programa informatico con un codigo de programa, estando el codigo de programa operativo para realizar uno de los metodos cuando el producto del programa de informatico se ejecuta en un ordenador. El codigo del programa se puede almacenar, por ejemplo, en un soporte legible por maquina.
Otras realizaciones comprenden el programa informatico para realizar uno de los metodos descritos en el presente documento, almacenados en un soporte legible por maquina.
Dicho de otra forma, una realizacion del metodo de la invencion es, por lo tanto, un programa informatico que tiene un codigo de programa para realizar uno de los metodos descritos en el presente documento, cuando el programa informatico se ejecuta en un ordenador.
Una realizacion adicional de los metodos de la invencion es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el programa informatico para realizar uno de los metodos descritos en el presente documento.
Una realizacion adicional de los metodos de la invencion es, por lo tanto, un tren de datos o una secuencia de senales que representan el programa informatico para realizar uno de los metodos descritos en el presente documento. El tren de datos o la secuencia de senales se pueden configurar, por ejemplo, para ser transferidos por medio de una conexion de comunicacion de datos, por ejemplo, por medio de Internet.
Una realizacion adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo logico programable, configurado para, o adaptado para, realizar uno de los metodos descritos en el presente documento.
Una realizacion adicional comprende un ordenador que tiene instalado en el mismo el programa informatico para realizar uno de los metodos descritos en el presente documento.
En algunas realizaciones, un dispositivo logico programable (por ejemplo, una matriz de puertas programable en campo) se puede usar para realizar algunas o la totalidad de las funcionalidades de los metodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas programable en campo puede cooperar con un microprocesador con el fin de realizar uno de los metodos descritos en el presente documento. En general, los metodos son realizados, preferiblemente, por cualquier aparato de soporte ffsico.
Las realizaciones anteriormente descritas son meramente ilustrativas de los principios de la presente invencion. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento resultaran evidentes a los expertos en la materia. Por lo tanto, se tiene por objeto estar limitado solo por el alcance de las inminentes reivindicaciones de patente y no por los detalles especfficos presentados a modo de descripcion y 5 explicacion de las realizaciones en el presente documento.

Claims (6)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    1. Un codificador de audio (100) para codificar muestras de audio, que comprende:
    un primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (110) para codificar, usando una codificacion de AAC, muestras de audio en un primer dominio de codificacion, teniendo el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (110) una primera regla de entramado, una ventana de inicio y una ventana de detencion y comprendiendo un transformador en el dominio de la frecuencia para transformar una primera trama de muestras de audio posteriores al dominio de la frecuencia sobre la base de una transformacion de coseno discreta modificada, MDCT, estando configurado el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (110) para adaptar un tamano de MDCT a las ventanas de inicio y de detencion; un segundo codificador (120) para codificar, usando una codificacion de AMR-WB+, muestras en un segundo dominio de codificacion, teniendo el segundo codificador (120) un numero de muestras de audio de tamano de trama predeterminado, y un numero de muestras de audio de periodo de puesta a punto de codificacion, teniendo el segundo codificador (120) una segunda regla de entramado diferente, siendo una trama del segundo codificador (120) una representacion codificada de un numero de muestras de audio oportunamente posteriores, siendo el numero igual al numero de muestras de audio de tamano de trama predeterminado; y un controlador (130) para conmutar del primer codificador (110) al segundo codificador (120) en respuesta a una caracterfstica de las muestras de audio y para, en la conmutacion del primer codificador (110) al segundo codificador (120), modificar la ventana de inicio del primer codificador (110) hasta el punto de que la ventana de inicio tiene una longitud de 2048 muestras y se usa en una MDCT de 1024 puntos,
    la ventana de inicio se inicia directamente con una parte de flanco de subida que tiene un primer eje de plegado de MDCT en la mitad de la misma, la cual se extiende a lo largo de un primer y un segundo cuartos de la ventana de inicio hasta un centro de la ventana de inicio,
    una parte de derivacion se extiende desde el centro hasta una parte de flanco de bajada,
    proporcionando la parte de flanco de bajada una seccion de cruce con una ventana de seno tiene una longitud de 64 muestras y se extiende hasta un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de inicio, y
    una parte cero se extiende a traves desde el segundo eje de plegado de MDCT hasta un extremo de la ventana de inicio, y en donde se aplica una funcion ventana a la parte izquierda de las muestras de audio en el segundo dominio de codificacion con una ventana de seno de desvanecimiento cruzado de una longitud de 64 muestras, o conmutar del segundo codificador (120) al primer codificador (110) en respuesta a una caracterfstica diferente de las muestras de audio y para, en la conmutacion del segundo codificador (120) al primer codificador (110), modificar la ventana de detencion del primer codificador (110) hasta el punto de que la ventana de detencion tiene una longitud de 2304 muestras y se usa en una MDCT de 1152 puntos,
    una parte cero de la ventana de detencion se extiende a traves de un primer cuarto de la ventana de detencion, una parte de flanco de subida de la ventana de detencion, que es una ventana de seno de una longitud de 64 muestras, se inicia en un segundo cuarto de la ventana de detencion de manera que un desvanecimiento cruzado comienza justo mas alla de un primer eje de plegado de MDCT colocado entre la parte cero y la parte de flanco de subida,
    una parte de derivacion de la ventana de detencion se extiende desde la parte de flanco de subida hasta el centro de la ventana de detencion, y
    una parte de flanco de bajada de la ventana de detencion se extiende desde el centro de la ventana de detencion a lo largo de un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de detencion hasta un extremo de la ventana de detencion,
    en donde la segunda regla de entramado permanece sin modificaciones.
  2. 2. El codificador de audio (100) de la reivindicacion 1, en donde el primer codificador de distorsion por repliegue del espectro en el dominio del tiempo (110) comprende un codificador de AAC de acuerdo con Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding, norma internacional 13818-7, ISO/IEC JTC1/SC29/WG11 Grupo de Expertos en Imagenes en Movimiento, 1997.
  3. 3. Un metodo para codificar tramas de audio, que comprende las etapas de:
    codificar, con un primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (110), usando una codificacion de AAC, muestras de audio en un primer dominio de codificacion usando una primera regla de entramado, una ventana de inicio y una ventana de detencion y mediante la transformacion de una primera trama de muestras de audio posteriores al dominio de la frecuencia sobre la base de una transformacion de coseno discreta modificada, MDCT, estando configurado el primer codificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (110) para adaptar un tamano de MDCT a las ventanas de inicio y de detencion;
    codificar, usando una codificacion de AMR-WB+, muestras de audio en un segundo dominio de codificacion usando un numero de muestras de audio de tamano de trama predeterminado y un numero de muestras de audio de periodo de puesta a punto de codificacion y usando una segunda regla de entramado diferente, siendo la trama del segundo dominio de codificacion una representacion codificada de un numero de muestras de audio
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    oportunamente posteriores, siendo el numero igual al numero de muestras de audio de tamano de trama predeterminado; y
    conmutar del primer dominio de codificacion (110) al segundo dominio de codificacion (120) en respuesta a una caracterfstica de las muestras de audio y para, en la conmutacion del primer al segundo dominio de codificacion, modificar la ventana de inicio del primer dominio de codificacion (110) hasta el punto de que la ventana de inicio tiene una longitud de 2048 muestras y se usa en una MDCT de 1024 puntos,
    la ventana de inicio se inicia directamente con una parte de flanco de subida que tiene un primer eje de plegado de MDCT en la mitad de la misma, la cual se extiende a lo largo de un primer y un segundo cuartos de la ventana de inicio hasta un centro de la ventana de inicio,
    una parte de derivacion se extiende desde el centro hasta una parte de flanco de bajada,
    proporcionando la parte de flanco de bajada una seccion de cruce con una ventana de seno tiene una longitud de 64 muestras y se extiende hasta un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de inicio, y
    una parte cero se extiende a traves desde el segundo eje de plegado de MDCT hasta un extremo de la ventana de inicio, y en donde se aplica una funcion ventana a la parte izquierda de las muestras de audio en el segundo dominio de codificacion con una ventana de seno de desvanecimiento cruzado de una longitud de 64 muestras, o conmutar del segundo dominio de codificacion (120) al primer dominio de codificacion (110) en respuesta a una caracterfstica diferente de las muestras de audio y para, en la conmutacion del segundo al primer dominio de codificacion, modificar la ventana de detencion del primer dominio de codificacion (110) hasta el punto de que la ventana de detencion tiene una longitud de 2304 muestras y se usa en una MDCT de 1152 puntos, una parte cero de la ventana de detencion se extiende a traves de un primer cuarto de la ventana de detencion, una parte de flanco de subida de la ventana de detencion, que es una ventana de seno de una longitud de 64 muestras, se inicia en un segundo cuarto de la ventana de detencion de manera que un desvanecimiento cruzado comienza justo mas alla de un primer eje de plegado de MDCT colocado entre la parte cero y la parte de flanco de subida,
    una parte de derivacion de la ventana de detencion se extiende desde la parte de flanco de subida hasta el centro de la ventana de detencion, y
    una parte de flanco de bajada de la ventana de detencion se extiende desde el centro de la ventana de detencion a lo largo de un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de detencion hasta un extremo de la ventana de detencion, en donde la segunda regla de entramado permanece sin modificaciones.
  4. 4. Un descodificador de audio (150) para descodificar tramas codificadas de muestras de audio, que comprende:
    un primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (160) para descodificar, usando una descodificacion de AAC, muestras de audio en un primer dominio de descodificacion, teniendo el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (160) una primera regla de entramado, una ventana de inicio y una ventana de detencion, comprendiendo el primer descodificador (160) un transformador en el dominio del tiempo para transformar una primera trama de muestras de audio descodificadas al dominio del tiempo sobre la base de una transformacion de coseno discreta modificada inversa, IMDCT, estando configurado el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (160) para adaptar un tamano de IMDCT a las ventanas de inicio y de detencion;
    un segundo descodificador (170) para descodificar, usando una descodificacion de AMR-WB+, muestras de audio en un segundo dominio de descodificacion y teniendo el segundo descodificador (170) un numero de muestras de audio de tamano de trama predeterminado y un numero de muestras de audio de periodo de puesta a punto de codificacion, teniendo el segundo descodificador (170) una segunda regla de entramado diferente, siendo una trama del segundo descodificador (170) una representacion codificada de un numero de muestras de audio oportunamente posteriores, siendo el numero igual al numero de muestras de audio de tamano de trama predeterminado; y
    un controlador (180) para conmutar del primer descodificador al segundo descodificador sobre la base de una indicacion a partir de la trama codificada de muestras de audio o conmutar del segundo descodificador (170) al primer descodificador (160) sobre la base de una indicacion a partir de la trama codificada de muestras de audio y, en la conmutacion del primer descodificador al segundo descodificador, modificar la ventana de inicio del primer descodificador hasta el punto de que la ventana de inicio tiene una longitud de 2048 muestras y se usa en una IMDCT de 1024 puntos,
    la ventana de inicio se inicia directamente con una parte de flanco de subida que tiene un primer eje de plegado de MDCT en la mitad de la misma, la cual se extiende a lo largo de un primer y un segundo cuartos de la ventana de inicio hasta un centro de la ventana de inicio,
    una parte de derivacion se extiende desde el centro hasta una parte de flanco de bajada,
    proporcionando la parte de flanco de bajada una seccion de cruce con una ventana de seno tiene una longitud de 64 muestras y se extiende hasta un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de inicio, y
    una parte cero se extiende a traves desde el segundo eje de plegado de MDCT hasta un extremo de la ventana de inicio, y en donde se aplica una funcion ventana a la parte izquierda de las muestras de audio en el segundo dominio de descodificacion con una ventana de seno de desvanecimiento cruzado de una longitud de 64
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    muestras; o
    conmutar del segundo descodificador al primer descodificador en respuesta a una caracterfstica diferente de las muestras de audio y para, en la conmutacion del segundo descodificador al primer descodificador modificar la ventana de detencion del primer descodificador hasta el punto de que la ventana de detencion tiene una longitud de 2304 muestras y se usa en una IMDCT de 1152 puntos,
    una parte cero de la ventana de detencion se extiende a traves de un primer cuarto de la ventana de detencion, una parte de flanco de subida de la ventana de detencion, que es una ventana de seno de una longitud de 64 muestras, se inicia en un segundo cuarto de la ventana de detencion de manera que un desvanecimiento cruzado comienza justo mas alla de un primer eje de plegado de MDCT colocado entre la parte cero y la parte de flanco de subida,
    una parte de derivacion de la ventana de detencion se extiende desde la parte de flanco de subida hasta el centro de la ventana de detencion, y
    una parte de flanco de bajada de la ventana de detencion se extiende desde el centro de la ventana de detencion a lo largo de un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de detencion hasta un extremo de la ventana de detencion, y en donde se aplica una funcion ventana a las ultimas 64 muestras descodificadas en el primer dominio de descodificacion con una ventana de seno al cuadrado de una longitud de 64 muestras,
    en donde la segunda regla de entramado permanece sin modificaciones.
  5. 5. Un metodo para descodificar tramas codificadas de muestras de audio, que comprende las etapas de descodificar, usando una descodificacion de AAC, muestras de audio en un primer dominio de descodificacion, introduciendo el primer dominio de descodificacion una distorsion por repliegue del espectro de tiempo, teniendo una primera regla de entramado, una ventana de inicio y una ventana de detencion, y mediante el uso de la transformacion de una primera trama de muestras de audio descodificadas al dominio del tiempo sobre la base de una transformacion de coseno discreta modificada inversa, IMDCT, estando configurado el primer descodificador de introduccion de distorsion por repliegue del espectro en el dominio del tiempo (160) para adaptar un tamano de IMDCT a las ventanas de inicio y de detencion;
    descodificar, usando una descodificacion de AMR-WB+, muestras de audio en un segundo dominio de descodificacion, teniendo el segundo dominio de descodificacion un numero de muestras de audio de tamano de trama predeterminado y un numero de muestras de audio de periodo de puesta a punto de codificacion, teniendo el segundo dominio de descodificacion una segunda regla de entramado diferente, siendo una trama del segundo dominio de descodificacion una representacion descodificada de un numero de muestras de audio oportunamente posteriores, siendo el numero igual al numero de muestras de audio de tamano de trama predeterminado; y conmutar del primer dominio de descodificacion al segundo dominio de descodificacion sobre la base de una indicacion a partir de la trama codificada de muestras de audio o conmutar del segundo dominio de descodificacion (170) al primer dominio de descodificacion (160) sobre la base de una indicacion a partir de la trama codificada de muestras de audio y, en la conmutacion del primer dominio de descodificacion al segundo dominio de descodificacion, modificar la ventana de inicio del primer dominio de descodificacion hasta el punto de que la ventana de inicio tiene una longitud de 2048 muestras y se usa en una IMDCT de 1024 puntos, la ventana de inicio se inicia directamente con una parte de flanco de subida que tiene un primer eje de plegado de MDCT en la mitad de la misma, la cual se extiende a lo largo de un primer y un segundo cuartos de la ventana de inicio hasta un centro de la ventana de inicio,
    una parte de derivacion se extiende desde el centro hasta una parte de flanco de bajada,
    proporcionando la parte de flanco de bajada una seccion de cruce con una ventana de seno tiene una longitud de 64 muestras y se extiende hasta un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de inicio, y
    una parte cero se extiende a traves desde el segundo eje de plegado de MDCT hasta un extremo de la ventana de inicio y en donde se aplica una funcion ventana a la parte izquierda de las muestras de audio en el segundo dominio de descodificacion con una ventana de seno de desvanecimiento cruzado de una longitud de 64 muestras; o conmutar del segundo dominio de descodificacion al primer dominio de descodificacion en respuesta a una caracterfstica diferente de las muestras de audio y para, en la conmutacion del segundo dominio de descodificacion al primer dominio de descodificacion, modificar la ventana de detencion del primer dominio de descodificacion hasta el punto de que la ventana de detencion tiene una longitud de 2304 muestras y se usa en una IMDCT de 1152 puntos,
    una parte cero de la ventana de detencion se extiende a traves de un primer cuarto de la ventana de detencion, una parte de flanco de subida de la ventana de detencion, que es una ventana de seno de una longitud de 64 muestras, se inicia en un segundo cuarto de la ventana de detencion de manera que un desvanecimiento cruzado comienza justo mas alla de un primer eje de plegado de MDCT colocado entre la parte cero y la parte de flanco de subida,
    una parte de derivacion de la ventana de detencion se extiende desde la parte de flanco de subida hasta el centro de la ventana de detencion, y
    una parte de flanco de bajada de la ventana de detencion se extiende desde el centro de la ventana de detencion a lo largo de un segundo eje de plegado de MDCT entre un tercer y un cuarto cuarto de la ventana de detencion hasta un extremo de la ventana de detencion, y en donde se aplica una funcion ventana a las ultimas 64 muestras de audio descodificadas en el primer dominio de descodificacion con una ventana de seno al cuadrado de una longitud de 64 muestras,
    en donde la segunda regla de entramado permanece sin modificaciones.
  6. 6. Un programa informatico que tiene un codigo de programa adaptado para realizar el metodo de la reivindicacion 3 o 5, cuando el codigo de programa se ejecuta en un ordenador o procesador.
ES09776858.4T 2008-07-11 2009-06-26 Codificador y descodificador de audio para codificar y descodificar muestras de audio Active ES2564400T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7985608P 2008-07-11 2008-07-11
US79856 2008-07-11
US10382508P 2008-10-08 2008-10-08
US103825 2008-10-08
PCT/EP2009/004651 WO2010003563A1 (en) 2008-07-11 2009-06-26 Audio encoder and decoder for encoding and decoding audio samples

Publications (1)

Publication Number Publication Date
ES2564400T3 true ES2564400T3 (es) 2016-03-22

Family

ID=40951598

Family Applications (2)

Application Number Title Priority Date Filing Date
ES15193588.9T Active ES2657393T3 (es) 2008-07-11 2009-06-26 Codificador y descodificador de audio para codificar y descodificar muestras de audio
ES09776858.4T Active ES2564400T3 (es) 2008-07-11 2009-06-26 Codificador y descodificador de audio para codificar y descodificar muestras de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES15193588.9T Active ES2657393T3 (es) 2008-07-11 2009-06-26 Codificador y descodificador de audio para codificar y descodificar muestras de audio

Country Status (21)

Country Link
US (1) US8892449B2 (es)
EP (2) EP3002750B1 (es)
JP (2) JP5551695B2 (es)
KR (1) KR101325335B1 (es)
CN (1) CN102089811B (es)
AR (1) AR072738A1 (es)
AU (1) AU2009267466B2 (es)
BR (1) BRPI0910512B1 (es)
CA (3) CA2871372C (es)
CO (1) CO6351837A2 (es)
EG (1) EG26653A (es)
ES (2) ES2657393T3 (es)
HK (3) HK1155552A1 (es)
MX (1) MX2011000366A (es)
MY (3) MY181247A (es)
PL (2) PL3002750T3 (es)
PT (1) PT3002750T (es)
RU (1) RU2515704C2 (es)
TW (1) TWI459379B (es)
WO (1) WO2010003563A1 (es)
ZA (1) ZA201100089B (es)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2488898C2 (ru) * 2007-12-21 2013-07-27 Франс Телеком Основанное на преобразовании кодирование/декодирование с адаптивными окнами
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
CN102216982A (zh) * 2008-09-18 2011-10-12 韩国电子通信研究院 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
WO2011013983A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101425290B1 (ko) 2009-10-08 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램
EP2559028B1 (en) * 2010-04-14 2015-09-16 VoiceAge Corporation Flexible and scalable combined innovation codebook for use in celp coder and decoder
WO2011158485A2 (ja) 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置
PL4120248T3 (pl) * 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
CN102332266B (zh) * 2010-07-13 2013-04-24 炬力集成电路设计有限公司 一种音频数据的编码方法及装置
WO2012048472A1 (en) 2010-10-15 2012-04-19 Huawei Technologies Co., Ltd. Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
CA2827266C (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CA2903681C (en) 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
MX2013009346A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral.
MX2013009345A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio.
EP4243017A3 (en) * 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
JP5712288B2 (ja) 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
PL2661745T3 (pl) 2011-02-14 2015-09-30 Fraunhofer Ges Forschung Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
CN105163398B (zh) 2011-11-22 2019-01-18 华为技术有限公司 连接建立方法和用户设备
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103219009A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据处理装置及其方法
JP2013198017A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 復号装置及び通信装置
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
US9378748B2 (en) 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
CN109448745B (zh) * 2013-01-07 2021-09-07 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
CN105264597B (zh) 2013-01-29 2019-12-10 弗劳恩霍夫应用研究促进协会 感知转换音频编码中的噪声填充
EP2954635B1 (en) 2013-02-19 2021-07-28 Huawei Technologies Co., Ltd. Frame structure for filter bank multi-carrier (fbmc) waveforms
CN110232929B (zh) 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
ES2635027T3 (es) * 2013-06-21 2017-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN105917654B (zh) 2014-01-13 2019-07-26 Lg电子株式会社 经由一个或者更多个网络发送或者接收广播内容的设备和方法
CN104934035B (zh) * 2014-03-21 2017-09-26 华为技术有限公司 语音频码流的解码方法及装置
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
AU2015258241B2 (en) 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
TR201909403T4 (tr) * 2015-03-09 2019-07-22 Fraunhofer Ges Forschung Parça hizalı ses kodlaması.
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10206176B2 (en) * 2016-09-06 2019-02-12 Mediatek Inc. Efficient coding switching and modem resource utilization in wireless communication systems
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
CN114005455A (zh) * 2017-08-10 2022-02-01 华为技术有限公司 时域立体声编解码方法和相关产品
CN109787675A (zh) * 2018-12-06 2019-05-21 安徽站乾科技有限公司 一种基于卫星语音通道的数据解析方法
CN114007176B (zh) * 2020-10-09 2023-12-19 上海又为智能科技有限公司 用于降低信号延时的音频信号处理方法、装置及存储介质
RU2756934C1 (ru) * 2020-11-17 2021-10-07 Ордена Трудового Красного Знамени федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (МТУСИ) Способ и устройство измерения спектра информационных акустических сигналов с компенсацией искажений

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
ATE302991T1 (de) 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
KR100472442B1 (ko) * 2002-02-16 2005-03-08 삼성전자주식회사 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
JP2007538281A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 異なる符号化モデルを用いる音声符号化
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
CA2672165C (en) * 2006-12-12 2014-07-29 Ralf Geiger Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
ES2558229T3 (es) * 2008-07-11 2016-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas
EP2346030B1 (en) * 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
AU2010209756B2 (en) * 2009-01-28 2013-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio coding
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
ES2673637T3 (es) * 2009-06-23 2018-06-25 Voiceage Corporation Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original
KR101425290B1 (ko) * 2009-10-08 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-모드 오디오 신호 디코더, 멀티-모드 오디오 신호 인코더 및 선형-예측-코딩 기반의 노이즈 성형을 사용하는 방법 및 컴퓨터 프로그램
BR122020024243B1 (pt) * 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
AU2010309838B2 (en) * 2009-10-20 2014-05-08 Dolby International Ab Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
PL2524372T3 (pl) * 2010-01-12 2015-08-31 Fraunhofer Ges Forschung Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych

Also Published As

Publication number Publication date
ES2657393T3 (es) 2018-03-05
EP3002750A1 (en) 2016-04-06
CA2871498C (en) 2017-10-17
JP2013214089A (ja) 2013-10-17
MY181231A (en) 2020-12-21
EP2311032A1 (en) 2011-04-20
CA2730204A1 (en) 2010-01-14
MX2011000366A (es) 2011-04-28
EP2311032B1 (en) 2016-01-06
CN102089811A (zh) 2011-06-08
RU2515704C2 (ru) 2014-05-20
AU2009267466B2 (en) 2013-05-16
BRPI0910512B1 (pt) 2020-10-13
PL3002750T3 (pl) 2018-06-29
JP2011527453A (ja) 2011-10-27
CO6351837A2 (es) 2011-12-20
EP3002750B1 (en) 2017-11-08
RU2011104003A (ru) 2012-08-20
AU2009267466A1 (en) 2010-01-14
BRPI0910512A2 (pt) 2019-05-28
ZA201100089B (en) 2011-10-26
US20110173010A1 (en) 2011-07-14
AR072738A1 (es) 2010-09-15
JP5551695B2 (ja) 2014-07-16
WO2010003563A1 (en) 2010-01-14
HK1223453A1 (zh) 2017-07-28
KR101325335B1 (ko) 2013-11-08
PT3002750T (pt) 2018-02-15
HK1155552A1 (zh) 2012-05-18
CA2871498A1 (en) 2010-01-14
JP5551814B2 (ja) 2014-07-16
US8892449B2 (en) 2014-11-18
WO2010003563A8 (en) 2011-04-21
MY181247A (en) 2020-12-21
TW201007705A (en) 2010-02-16
CN102089811B (zh) 2013-04-10
EG26653A (en) 2014-05-04
HK1223452A1 (zh) 2017-07-28
CA2730204C (en) 2016-02-16
PL2311032T3 (pl) 2016-06-30
CA2871372C (en) 2016-08-23
MY159110A (en) 2016-12-15
KR20110055545A (ko) 2011-05-25
TWI459379B (zh) 2014-11-01
CA2871372A1 (en) 2010-01-14

Similar Documents

Publication Publication Date Title
ES2564400T3 (es) Codificador y descodificador de audio para codificar y descodificar muestras de audio
ES2683077T3 (es) Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
TWI453731B (zh) 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品
ES2733846T3 (es) Codificación de audio en los dominios de tiempo y frecuencia mediante el uso de un procesador cruzado para inicialización continua
ES2535609T3 (es) Codificador de audio con estimación de ruido de fondo durante fases activas
CA2739736A1 (en) Multi-resolution switched audio encoding/decoding scheme
BR122021017287B1 (pt) Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum
CN107077854B (zh) 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples