ES2552839T3 - Decodificación de señales de audio multicanal usando predicción compleja - Google Patents

Decodificación de señales de audio multicanal usando predicción compleja Download PDF

Info

Publication number
ES2552839T3
ES2552839T3 ES11709735.2T ES11709735T ES2552839T3 ES 2552839 T3 ES2552839 T3 ES 2552839T3 ES 11709735 T ES11709735 T ES 11709735T ES 2552839 T3 ES2552839 T3 ES 2552839T3
Authority
ES
Spain
Prior art keywords
signal
decoded
combination
prediction
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11709735.2T
Other languages
English (en)
Inventor
Heiko Purnhagen
Pontus Carlsson
Lars Villemoes
Julien Robillard
Matthias Neusinger
Christian Helmrich
Johannes Hilpert
Nikolaus Rettelbach
Sascha Disch
Bernd Edler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2552839T3 publication Critical patent/ES2552839T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Un decodificador de audio para decodificar una señal de audio multicanal codificada (100), la señal de audio multicanal codificada comprende una primera señal de combinación codificada generada en base a una regla de combinación para combinar una primera señal de audio de canal y una segunda señal de audio de canal de una señal de audio multicanal, una señal residual de predicción codificada e información de predicción, que comprende: un decodificador de señales (110) para decodificar la primera señal de combinación codificada (104) para obtener una primera señal de combinación decodificada (112) y para decodificar la señal residual codificada (106) para obtener una señal residual decodificada (114); y una calculadora del decodificador (116) para calcular una señal de audio multicanal decodificada que tiene una primera señal de audio de canal decodificada (117), y una segunda señal de audio de canal decodificada (118) utilizando la señal residual decodificada (114), la información de predicción (108) y la primera señal de combinación decodificada (112), de modo que la primera señal de audio de canal decodificada (117) y la segunda señal de audio de canal decodificada (118) son por lo menos aproximaciones de la primera señal de audio de canal y la segunda señal de audio de canal de la señal de audio multicanal, en donde la información de predicción (108) comprende un factor de valor real distinto de cero y/o un factor imaginario distinto de cero, en el cual la calculadora del decodificador (116) comprende: un predictor (1160) para aplicar la información de predicción (108) a la primera señal de combinación decodificada (112) o a una señal (601) proveniente de la primera señal de combinación decodificada para obtener una señal de predicción (1163); una calculadora de señales de combinación (1161) para calcular una segunda señal de combinación (1165) combinando la señal residual decodificada (114) y la señal de predicción (1163); y un combinador (1162) para combinar la primera señal de combinación decodificada (112) y la segunda señal de combinación (1165) para obtener una señal de audio multicanal decodificada que tiene la primera señal de audio de canal decodificada (117) y la segunda señal de audio de canal decodificada (118), en el cual el predictor (1160, 1160a) está configurado para multiplicar la primera señal de combinación decodificada por el factor real de la información de predicción (108) para obtener una primera parte de la señal de predicción, estimar una parte imaginaria de la primera señal de combinación decodificada (112) usando una parte real de la primera señal de combinación decodificada (112), comprendiendo estimar la parte imaginaria usar una pluralidad de subbandas de la primera señal de combinación decodificada adyacentes en frecuencia, en las cuales, en caso de bajas o altas frecuencias, se usa una extensión simétrica en frecuencia del cuadro actual de la primera señal de combinación para las subbandas asociadas con frecuencias más bajas o iguales a cero o más altas o iguales a una mitad de una frecuencia de muestreo en la que está basado el cuadro actual, o en el cual los coeficientes de filtro de un filtro incluido en el predictor (1160a) se establecen a diferentes valores para subbandas perdidas en comparación con subbandas no perdidas, multiplicar la parte imaginaria (601) de la primera señal de combinación decodificada por el factor imaginario de la información de predicción (108) para obtener una segunda parte de la señal de predicción; y en el cual la calculadora de señales de combinación (1161) está configurada para combinar en forma lineal la primera parte de la señal de predicción y la segunda parte de la señal de predicción y la señal residual decodificada para obtener la segunda señal de combinación (1165).

Description

5
10
15
20
25
30
35
40
45
50
55
60
Decodificacion de senales de audio multicanal usando prediccion compleja
DESCRIPCION
La presente invencion se refiere a procesamiento de audio y, particularmente, al procesamiento de audio multicanal de una senal multicanal que tiene dos o mas senales de canal.
En el campo del procesamiento de estereo o multicanal se sabe aplicar la asf denominada codificacion de estereo central/lateral (mid/side stereo coding). De acuerdo con este concepto se forma una combinacion de la senal de canal de audio izquierda o primera y la senal de canal de audio derecha o segunda para obtener una senal central o mono M. Adicionalmente se forma una diferencia entre la senal de canal izquierda o primera y la senal de canal derecha o segunda para obtener la senal lateral S. Este metodo de codificacion central/lateral logra una ganancia de codificacion significativa, cuando la senal izquierda y la senal derecha son muy similares entre sf, debido a que la senal lateral se volvera bastante pequena. Tfpicamente, una ganancia de codificacion de una etapa de codificador de entropfa/cuantificador resultara superior, cuando el rango de valores a cuantificar/codificar por entropfa es menor. De este modo, para una PCM (modulacion por codificacion de pulsos, por sus siglas en ingles) o un codificador aritmetico de entropfa o basado en Huffman, la ganancia de codificacion aumenta, cuando la senal lateral se vuelve mas pequena. Sin embargo existen determinadas situaciones en las cuales la codificacion central/lateral no lograra una ganancia de codificacion. La situacion puede ocurrir cuando las senales en ambos canales estan desfasadas entre sf, por ejemplo, en 90°. Entonces, la senal central y la senal lateral pueden estar en un rango bastante similar y, por lo tanto, la codificacion de la senal central y la senal lateral utilizando el codificador por entropfa no lograra una ganancia de codificacion e incluso puede producir un aumento de tasa de bits. Por lo tanto se puede aplicar una codificacion central/lateral selectiva de frecuencia a fin de desactivar la codificacion central/lateral en bandas, en donde la senal lateral no se vuelve mas pequena hasta un cierto grado con respecto a, por ejemplo, la senal izquierda original.
A pesar de que la senal lateral resultara cero, cuando las senales izquierda y derecha son identicas, logrando una maxima ganancia de codificacion debido a la eliminacion de la senal lateral, la situacion nuevamente resulta diferente cuando la senal central y la senal lateral son identicas con respecto a la conformacion de la forma de onda, pero la unica diferencia entre ambas senales radica en sus amplitudes generales. En este caso, cuando se presume adicionalmente que la senal lateral no tiene un desfasaje con respecto a la senal central, la senal lateral aumenta significativamente, a pesar de que, por otra parte, la senal central no disminuye demasiado con respecto a su rango de valores. Cuando dicha situacion ocurre en una determinada banda de frecuencia, entonces se desactivana nuevamente la codificacion central/lateral debido a la falta de ganancia de codificacion. La codificacion central/lateral se puede aplicar en forma selectiva de frecuencia o se puede aplicar alternativamente en el dominio de tiempo.
Existen tecnicas alternativas de codificacion multicanal, las cuales no estan basadas en un tipo de metodo de forma de onda como codificacion central/lateral, pero que estan basadas en el procesamiento parametrico segun determinadas senales binaurales. Dichas tecnicas se conocen segun los terminos “codificacion binaural de la senal”, “codificacion de estereo parametrico” o “codificacion del Entorno de MPEG (Grupo de Expertos en Imagenes en Movimiento, por sus siglas en ingles)”. En este punto se calculan determinadas senales para una pluralidad de bandas de frecuencia. Dichas senales incluyen diferencias de nivel entre canales, medidas de coherencia entre canales, diferencias de tiempo entre canales y/o diferencias de fase entre canales. Estos metodos parten de la premisa de que una impresion multicanal sentida por el oyente no necesariamente esta basada en las formas de onda detalladas de los dos canales, pero esta basada en las senales suministradas en forma selectiva de frecuencia o en la informacion exacta entre canales. Esto significa que, en una maquina de presentacion se debe tener cuidado de presentar senales multicanal que reflejen las senales con exactitud, si bien las formas de onda no tienen una importancia significativa.
Este metodo puede resultar complejo particularmente en el caso en el que el decodificador tiene que aplicar un procesamiento de descorrelacion a fin de crear artificialmente senales estereo, las cuales estan descorrelacionadas entre sf, a pesar de que la totalidad de dichos canales proviene de uno y del mismo canal de mezcla descendente. Los descorreladores para este proposito son complejos, dependiendo de su implementacion y pueden introducir distorsiones, particularmente en el caso de porciones de senales transitorias. Adicionalmente, a diferencia de la codificacion de forma de onda, el metodo de codificacion parametrica es un metodo de codificacion con perdidas, el cual inevitablemente produce una perdida de informacion no solamente introducida por la cuantificacion tfpica sino tambien introducida al considerar las senales binaurales en lugar de las formas de onda en particular. Este metodo produce tasas de bits muy bajas pero puede incluir compromisos de calidad.
Existen desarrollos recientes en cuanto a la codificacion de voz y audio unificada (USAC, por sus siglas en ingles) ilustrada en la Fig. 7a. Un decodificador del nucleo 700 lleva a cabo una operacion de decodificacion de la senal estereo codificada en la entrada 701, la cual puede ser una senal codificada centro/lateral. El decodificador del nucleo emite una senal central en la lmea 702 y una senal lateral o residual en la lmea 703. Ambas senales se transforman a un dominio QMF (filtro espejo en cuadratura, por sus siglas en ingles) por los bancos de filtros QMF
5
10
15
20
25
30
35
40
45
50
55
60
704 y 705. Luego se aplica un decodificador del Entorno de MPEG 706 para generar una senal izquierda de canal 707 y una senal derecha de canal 708. Estas senales de banda baja se introducen posteriormente en un decodificador de replicacion espectral de ancho de banda (SBR, por sus siglas en ingles) 709, el cual produce senales izquierda y derecha de banda ancha en las lmeas 710 y 711, las cuales luego se transforman a un dominio de tiempo por los bancos de filtros de smtesis QMF 712, 713 de modo tal que se obtienen las senales izquierda y derecha de banda ancha L, R.
La Fig. 7b ilustra una situacion en la que el decodificador del Entorno de MPEG 706 llevana a cabo una decodificacion central/lateral. Alternativamente, el bloque decodificador del Entorno de MPEG 706 podna llevar a cabo una decodificacion parametrica basada en la senal binaural para generar senales estereo a partir de una unica senal mono del decodificador del nucleo. Naturalmente, el decodificador del Entorno de MPEG 706 tambien podna generar una pluralidad de senales de salida de banda baja para introducir en el bloque decodificador de SBR 709 utilizando informacion parametrica tal como diferencias de nivel entre canales, medidas de coherencia entre canales u otros de dichos parametros de informacion entre canales.
Cuando el bloque decodificador del Entorno de MPEG 706 lleva a cabo la decodificacion central/lateral ilustrada en la Fig. 7b se puede aplicar un factor de ganancia real g y DMX/RES y L/R son senales de mezcla descendente/residual e izquierda/derecha, respectivamente, representadas en el dominio complejo tnbrido QMF.
El uso de una combinacion de un bloque 706 y un bloque 709 solo genera un pequeno aumento en la complejidad computacional en comparacion con un decodificador estereo utilizado como base, debido a que la representacion del QMF complejo de la senal ya esta disponible como parte del decodificador de SBR. Sin embargo, en una configuracion que no es de SBR, la codificacion estereo basada en QMF, propuesta en el contexto de la USAC, producina un aumento significativo en la complejidad computacional debido a los bancos de QMF necesarios, los cuales en este ejemplo necesitanan bancos de analisis de 64 bandas y bancos de smtesis de 64 bandas. Dichos bancos de filtros solo debenan agregarse para los fines de la codificacion estereo.
En el sistema de USAC del MPEG en desarrollo, sin embargo, tambien existen modos de codificacion a altas tasas de bits en donde la SBR tfpicamente no se utiliza.
Los siguientes documentos son ejemplares de esquemas de (de)decodificacion de audio multicanal con lo que se estima una senal de diferencia a partir de una senal de mezcla descendente/sumador/mono mediante un coeficiente de prediccion de valor complejo:
- HEIKO PURNHAGEN ET AL: “Technical description of proposed Unified Stereo Coding in USAC”, 90. MPEG MEETING; - ; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), N° M16921, 23 de octubre de 2009 ();
- MAX NEUENDORF (EDITOR): “WD5 of USAC”, 90. MPEG MEETING; - ; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO/IECJTC1/SC29/WG11), N° N11040, 8 de diciembre de 2009 (0812-2009), paginas 1-146;
- Documento WO 2009/141775 A1 (KONINKL PHILIPS ELECTRONICS NV [NL]; SCHUIJERS ERIK G P [NL]) 26 de noviembre de 2009 ().
Un objetivo de la presente invencion consiste en proporcionar un concepto mejorado de procesamiento de audio, el cual por una parte produce una alta ganancia de codificacion y, por otra parte, produce a buena calidad de audio y/o complejidad computacional reducida.
Este objetivo se logra mediante un decodificador de audio de acuerdo con la reivindicacion 1, un metodo de decodificacion de audio de acuerdo con la reivindicacion 11 o un programa informatico de acuerdo con la reivindicacion 12.
La presente invencion se basa en la conclusion de que una ganancia de codificacion del metodo de codificacion de forma de onda de alta calidad se puede mejorar significativamente mediante una prediccion de una segunda senal de combinacion utilizando una primera senal de combinacion, en donde ambas senales de combinacion provienen de las senales originales de canal utilizando una regla de combinacion tal como la regla de combinacion central/lateral. Se ha descubierto que esta informacion de prediccion es calculada por un predictor en un codificador de audio de modo que se cumple un objetivo de optimizacion, se incurre solo en una pequena sobrecarga, pero logra una disminucion significativa de la tasa de bits necesaria para la senal lateral sin perder ninguna calidad de audio, debido a que la prediccion inventiva es sin embargo una codificacion basada en forma de onda y no un metodo de codificacion multicanal o estereo basado en parametros. A fin de reducir la complejidad computacional, se prefiere llevar a cabo una codificacion de dominio de frecuencia, en donde la informacion de prediccion proviene de datos de entrada del dominio de frecuencia en una forma selectiva de bandas. El algoritmo de conversion para
5
10
15
20
25
30
35
40
45
50
55
60
convertir la representacion de dominio de tiempo en una representacion espectral es preferentemente un proceso ciiticamente muestreado tal como una transformada coseno discreta modificada (MDCT, segun sus siglas en ingles) o una transformada seno discreta modificada (MDST, segun sus siglas en ingles), la cual es diferente de una transformada compleja ya que se calculan solo valores reales o solo valores imaginarios, en tanto que en una transformada compleja se calculan valores reales y complejos de un espectro logrando un sobremuestreo dos veces mayor.
Preferentemente se utiliza una transformada basada en introduccion y cancelacion de solapamiento. La MDCT, en particular, es una transformada de dichas caractensticas y permite una atenuacion cruzada entre bloques subsiguientes sin ninguna sobrecarga debido a la propiedad muy conocida de cancelacion de solapamiento de dominio de tiempo (TDAC, por sus siglas en ingles), la cual se obtiene mediante el procesamiento de solapar- agregar en el lado del decodificador.
Preferentemente, la informacion de prediccion calculada en el codificador, transmitida al decodificador y utilizada en el decodificador comprende una parte imaginaria, la cual puede reflejar ventajosamente las diferencias de fase entre los dos canales de audio en cantidades seleccionadas arbitrariamente entre 0° y 360°. La complejidad computacional se reduce significativamente cuando se aplica solamente una transformada de valor real o, en general, una transformada que proporciona, ya sea un espectro real solamente o que proporciona un espectro imaginario solamente. A fin de utilizar dicha informacion de prediccion imaginaria, la cual indica un desfasaje entre una determinada banda de la senal izquierda y una banda correspondiente de la senal derecha, un convertidor real- a-imaginario o, dependiendo de la implementacion de la transformada, un convertidor imaginario-a-real se proporciona en el decodificador a fin de calcular una senal residual de prediccion a partir de la primera senal de combinacion, la cual tiene la fase rotada con respecto a la senal de combinacion original. Esta senal residual de prediccion que tiene la fase rotada luego se puede combinar con la senal residual de prediccion transmitida en la corriente de bits para regenerar una senal lateral, la cual finalmente se puede combinar con la senal central para obtener el canal izquierdo decodificado en una determinada banda y el canal derecho decodificado en esta banda.
A fin de aumentar la calidad de audio, el mismo convertidor real-a-imaginario o el convertidor imaginario-a-real, el cual se aplica en el lado del decodificador se implementa tambien en el lado del codificador, cuando la senal residual de prediccion es calculada en el codificador.
La presente invencion proporciona una ventaja porque mejora la calidad de audio y reduce la tasa de bits en comparacion con los sistemas que tienen la misma tasa de bits o que tienen la misma calidad de audio.
Adicionalmente se obtienen ventajas con respecto a una eficiencia computacional de codificacion estereo unificada que resulta util en el sistema de USAC del MPEG a altas tasas de bits, en donde la SBR tfpicamente no se utiliza. En lugar de procesar la senal en el dominio complejo hubrido QMF, estos metodos implementan una codificacion estereo predictiva de base residual en el dominio nativo de MDCT del codificador de transformada estereo subyacente.
De acuerdo con un aspecto de la presente invencion, la presente invencion comprende un aparato o metodo para generar una senal estereo por prediccion compleja en el dominio de MDCT, en donde la prediccion compleja se lleva a cabo en el dominio de MDCT utilizando una transformada real-a-compleja, en donde dicha senal estereo puede ser, ya sea una senal estereo codificada en el lado del codificador o puede ser alternativamente una senal estereo decodificada/transmitida, cuando el aparato o metodo para generar la senal estereo se aplica en el lado del decodificador.
Las formas de realizacion preferidas de la presente invencion se describen a continuacion con respecto a los dibujos adjuntos, en los cuales:
es un diagrama de un ejemplo de un decodificador de audio; es un diagrama en bloque de un ejemplo de un codificador de audio;
La
Fig. 1
La
Fig. 2
La
Fig. 3a
La
Fig. 3b
La
Fig. 3c
La
Fig. 4a
La
Fig. 4b
matriz;
5
10
15
20
25
30
35
40
45
50
55
60
La Fig. 4c
La Fig. 5a La Fig. 5b La Fig. 6a
La Fig. 6b
La Fig. 7a
La Fig. 7b La Fig. 8a La Fig. 8b La Fig. 9a
La Fig. 9b
La Fig. 10a La Fig. 10b
ilustra una regla de combinacion inversa central/lateral correspondiente a la regla de combinacion ilustrada en la Fig. 3c;
ilustra un ejemplo de un codificador de audio que opera en el dominio de frecuencia, el cual es preferentemente un dominio de frecuencia de valor real;
ilustra una implementacion de un decodificador de audio que opera en el dominio de frecuencia;
ilustra una implementacion alternativa de un codificador de audio que opera en el dominio de MDCT y utiliza una transformada real-a-imaginaria;
ilustra una realizacion de un decodificador de audio que opera en el dominio de MDCT y utiliza una transformada real-a-imaginaria;
ilustra un post-procesador de audio que utiliza un decodificador estereo y un decodificador de SBR conectado posteriormente;
ilustra una matriz de mezcla ascendente central/lateral; ilustra una vista detallada en el bloque de MDCT en la Fig. 6a; ilustra una vista detallada en el bloque de MDCT-1 de la Fig. 6b;
ilustra una implementacion de un optimizador que opera en resolucion reducida con respecto a la salida de MDCT;
ilustra una representacion de un espectro de MDCT y las bandas correspondientes de resolucion inferior, en las cuales se calcula la informacion de prediccion;
ilustra una implementacion del transformador real-a-imaginario en la Fig. 6a o en la Fig. 6b; y ilustra una implementacion posible de la calculadora de espectro imaginario de la Fig. 10a.
La Fig. 1 ilustra un decodificador de audio para decodificar una senal de audio multicanal codificada y obtenida en una lmea de entrada 100. La senal de audio multicanal codificada comprende una primera senal de combinacion codificada que se genera utilizando una regla de combinacion para combinar una primera senal de canal y una segunda senal de canal que representan la senal de audio multicanal, una senal residual de prediccion codificada e informacion de prediccion. La senal multicanal codificada puede ser una corriente de datos tal como una corriente de bits, la cual tiene los tres componentes en una forma multiplexada. Se puede incluir informacion lateral adicional en la senal multicanal codificada en la lmea 100. La senal se introduce en una interfaz de entrada 102. La interfaz de entrada 102 se puede implementar como un desmultiplexor de corriente de datos, el cual emite la primera senal de combinacion codificada en la lmea 104, la senal residual codificada en la lmea 106 y la informacion de prediccion en la lmea 108. Preferentemente, la informacion de prediccion es un factor que tiene una parte real que no es igual a cero y/o una parte imaginaria distinta de cero. La senal de combinacion codificada y la senal residual codificada se introducen en un decodificador de senales 110 para decodificar la primera senal de combinacion para obtener una primera senal de combinacion decodificada en la lmea 112. Adicionalmente, el decodificador de senales 110 esta configurado para decodificar la senal residual codificada para obtener una senal residual decodificada en la lmea
114. Dependiendo del procesamiento de codificacion en un lado del codificador de audio, el decodificador de senales puede comprender un decodificador de entropfa tal como un decodificador Huffman, un decodificador aritmetico o cualquier otro decodificador de entropfa y una etapa de descuantificacion conectada posteriormente para llevar a cabo una operacion de descuantificacion que coincida con una operacion del cuantificador en un codificador de audio asociado. Las senales en la lmea 112 y 114 se introducen en una calculadora del decodificador
115, la cual emite la primera senal de canal en la lmea 117 y una segunda senal de canal en la lmea 118, en donde estas dos senales son senales estereo o dos canales de una senal de audio multicanal. Cuando, por ejemplo, la senal de audio multicanal comprende cinco canales, entonces las dos senales son dos canales de la senal multicanal. A fin de codificar totalmente dicha senal multicanal que tiene cinco canales se pueden aplicar dos decodificadores ilustrados en la Fig. 1, en donde el primer decodificador procesa el canal izquierdo y el canal derecho, el segundo decodificador procesa el canal del entorno izquierdo y el canal del entorno derecho, y un tercer decodificador mono se utilizana para llevar a cabo una codificacion mono del canal central. Sin embargo, tambien se pueden aplicar otros agrupamientos o combinaciones de codificadores de forma de onda y codificadores parametricos. Una forma alternativa de generalizar el esquema de prediccion a mas de dos canales sena tratar tres senales (o mas) al mismo tiempo, es decir, predecir una 3a senal de combinacion a partir de una 1a y 2a senal utilizando dos coeficientes de prediccion, en forma muy similar al modulo "dos-a-tres" en el Entorno de MPEG.
5
10
15
20
25
30
35
40
45
50
55
60
La calculadora del decodificador 116 esta configurada para calcular una senal multicanal decodificada que tiene la primera senal de canal decodificada 117 y la segunda senal de canal decodificada 118 utilizando la senal residual decodificada 114, la informacion de prediccion 108 y la primera senal de combinacion decodificada 112. Particularmente, la calculadora del decodificador 116 esta configurada para operar de tal modo que la primera senal de canal decodificada y la segunda senal de canal decodificada son por lo menos una aproximacion de una primera senal de canal y una segunda senal de canal de la senal multicanal introducidas en un codificador correspondiente, las cuales estan combinadas por la regla de combinacion cuando se genera la primera senal de combinacion y la senal residual de prediccion. Espedficamente, la informacion de prediccion en la lmea 108 comprende una parte de valor real distinta de cero y/o una parte imaginaria distinta de cero.
La calculadora del decodificador 116 se puede implementar de diversos modos. Una primera implementacion esta ilustrada en la Fig. 4a. Esta implementacion comprende un predictor 1160, una calculadora de senales de combinacion 1161 y un combinador 1162. El predictor recibe la primera senal de combinacion decodificada 112 y la informacion de prediccion 108 y emite una senal de prediccion 1163. Espedficamente, el predictor 1160 esta configurado para aplicar la informacion de prediccion 108 a la primera senal de combinacion decodificada 112 o una senal proveniente de la primera senal de combinacion decodificada. La regla de derivacion para derivar la senal a la cual se aplica la informacion de prediccion 108 puede ser una transformada real-a-imaginaria, o por igual, una transformada imaginaria-a-real o una operacion de ponderacion o, dependiendo de la implementacion, una operacion de desfasaje o una operacion combinada de ponderacion/desfasaje. La senal de prediccion 1163 se introduce junto con la senal residual decodificada en la calculadora de senales de combinacion 1161 a fin de calcular la segunda senal de combinacion decodificada 1165. Ambas senales 112 y 1165 se introducen en el combinador 1162, el cual combina la primera senal de combinacion decodificada y la segunda senal de combinacion para obtener la senal de audio multicanal decodificada que tiene la primera senal de canal decodificada y la segunda senal de canal decodificada en las lmeas de salida 1166 y 1167, respectivamente. Alternativamente, la calculadora del decodificador se implementa como una calculadora matriz 1168, la cual recibe, como entrada, la primera senal de combinacion decodificada o senal M, la senal residual decodificada o senal D y la informacion de prediccion a 108. La calculadora matriz 1168 aplica una matriz de transformada ilustrada como 1169 a las senales M, D para obtener las senales de salida L, R, en donde L es la primera senal de canal decodificada y R es la segunda senal de canal decodificada. La notacion en la Fig. 4b se asemeja a una notacion estereo con un canal izquierdo L y un canal derecho R. Se ha aplicado esta notacion a fin de proporcionar una explicacion mas simple si bien queda claro para los expertos en la tecnica que las senales L, R pueden ser cualquier combinacion de dos senales de canal en una senal multicanal que tiene mas de dos senales de canal. La operacion matriz 1169 unifica las operaciones en los bloques 1160, 1161 y 1162 de la Fig. 4a en un tipo de calculo matriz de “disparo unico”, y las entradas en el circuito de la Fig. 4a y las salidas desde el circuito de la Fig. 4a son identicas a las entradas en la calculadora matriz 1168 o a las salidas desde la calculadora matriz 1168.
La Fig. 4c ilustra un ejemplo para una regla de combinacion inversa aplicada por el combinador 1162 en la Fig. 4a. Particularmente, la regla de combinacion es similar a la regla de combinacion del lado del decodificador en la codificacion central/lateral bien conocida, en donde L = M + S, y R = M - S. Se entiende que la senal S utilizada por la regla de combinacion inversa en la Fig. 4c es la senal calculada por la calculadora de senales de combinacion, es decir, la combinacion de la senal de prediccion en la lmea 1163 y la senal residual decodificada en la lmea 114. Se entiende que en la presente memoria descriptiva, las senales en las lmeas a veces estan designadas por los numeros de referencia para las lmeas o a veces estan indicadas por los numeros de referencia como tales, los cuales se han asignado a las lmeas. Por lo tanto, la notacion es tal que una lmea que tiene una determinada senal esta indicando la senal propiamente dicha. Una lmea puede ser una lmea ffsica en una implementacion ffsicamente conectada. En una implementacion computarizada, sin embargo, una lmea ffsica no existe, pero la senal representada por la lmea es transmitida desde un modulo de calculo hacia el otro modulo de calculo.
La Fig. 2 ilustra un codificador de audio para codificar una senal de audio multicanal 200 que tiene dos o mas senales de canal, en donde una primera senal de canal esta ilustrada en 201 y un segundo canal esta ilustrado en 202. Ambas senales se introducen en una calculadora del codificador 203 para calcular una primera senal de combinacion 204 y una senal residual de prediccion 205 utilizando la primera senal de canal 201 y la segunda senal de canal 202 y la informacion de prediccion 206, de modo que cuando se combina la senal residual de prediccion
205 con una senal de prediccion proveniente de la primera senal de combinacion 204 y la informacion de prediccion
206 se obtiene una segunda senal de combinacion, en donde la primera senal de combinacion y la segunda senal de combinacion pueden obtenerse de la primera senal de canal 201 y la segunda senal de canal 202 utilizando una regla de combinacion.
La informacion de prediccion es generada por un optimizador 207 para calcular la informacion de prediccion 206 de modo que la senal residual de prediccion cumple un objetivo de optimizacion 208. La primera senal de combinacion
204 y la senal residual 205 se introducen en un codificador de senales 209 para codificar la primera senal de combinacion 204 para obtener una primera senal de combinacion codificada 210 y para codificar la senal residual
205 para obtener una senal residual codificada 211. Ambas senales codificadas 210, 211 se introducen en una interfaz de salida 212 para combinar la primera senal de combinacion codificada 210 con la senal residual de
5
10
15
20
25
30
35
40
45
50
55
60
prediccion codificada 211 y la informacion de prediccion 206 para obtener una senal multicanal codificada 213, la cual es similar a la senal multicanal codificada 100 introducida en la interfaz de entrada 102 del decodificador de audio ilustrado en la Fig. 1.
Dependiendo de la implementacion, el optimizador 207 recibe, ya sea la primera senal de canal 201 y la segunda senal de canal 202 o, tal como se ilustra en las lmeas 214 y 215, la primera senal de combinacion 214 y la segunda senal de combinacion 215 provenientes de un combinador 2031 de la Fig. 3a, las cuales se analizaran posteriormente.
Un objetivo preferido de optimizacion se ilustra en la Fig. 2, en la cual la ganancia de codificacion esta potenciada al maximo, es decir, la tasa de bits se reduce tanto como sea posible. En este objetivo de optimizacion, la senal residual D esta reducida al mmimo con respecto a a. Esto significa, en otras palabras, que la informacion de prediccion a esta seleccionado de tal modo que ||S - aM||2 esta reducida al mmimo. Esto tiene como resultado una solucion para a que se ilustra la Fig. 2. Las senales S, M estan proporcionadas en forma de bloque y son preferentemente senales espectrales de dominio, en donde la notacion ||...|| significa la norma 2 del argumento, y en donde <...> ilustra el producto de puntos en forma habitual. Cuando la primera senal de canal 201 y la segunda senal de canal 202 se introducen en el optimizador 207, el optimizador tendna entonces que aplicar la regla de combinacion, en donde una regla de combinacion ejemplar esta ilustrada en la Fig. 3c. Sin embargo, cuando la primera senal de combinacion 214 y la segunda senal de combinacion 215 se introducen en el optimizador 207, entonces el optimizador 207 no necesita implementar la regla de combinacion por sf mismo.
Otros objetivos de optimizacion pueden estar relacionados con la calidad perceptual. Un objetivo de optimizacion puede contemplar que se obtenga una calidad perceptual maxima. Entonces, el optimizador necesitana informacion adicional proveniente de un modelo perceptual. Otras implementaciones del objetivo de optimizacion pueden referirse a la obtencion de una minima tasa de bits, o una tasa fija de bits. Entonces, el optimizador 207 se implementana para llevar a cabo una operacion de cuantificacion/codificacion de entropfa a fin de determinar la tasa de bits necesaria para determinados valores de a de modo que a se puede fijar para cumplir los requerimientos tales como una tasa minima de bits, o alternativamente, una tasa fija de bits. Otras implementaciones del objetivo de optimizacion pueden estar relacionadas con un uso mmimo de los recursos del codificador o del decodificador. En el caso de una implementacion de dicho objetivo de optimizacion, la informacion en los recursos necesarios estana disponible para una determinada optimizacion en el optimizador 207. Adicionalmente, una combinacion de estos objetivos de optimizacion u otros objetivos de optimizacion se pueden aplicar para controlar el optimizador 207, el cual calcula la informacion de prediccion 206.
La calculadora del codificador 203 en la Fig. 2 se puede implementar en distintas formas, en donde una primera implementacion ejemplar esta ilustrada en la Fig. 3a, en la cual una regla de combinacion explfcita se lleva a cabo en el combinador 2031. Una implementacion alternativa ejemplar esta ilustrada en la Fig. 3b, en donde se utiliza una calculadora matriz 2039. El combinador 2031 en la Fig. 3a se puede implementar para llevar a cabo la regla de combinacion ilustrada en la Fig. 3c, la cual es de manera ejemplar la regla de codificacion central/lateral bien conocida, en donde un factor de ponderacion de 0,5 se aplica a todos los ramales. Sin embargo se pueden implementar otros factores de ponderacion o ningun factor de ponderacion dependiendo de la implementacion. Adicionalmente, cabe destacar que se pueden aplicar otras reglas de combinacion tales como otras reglas de combinacion lineales o reglas de combinacion que no son lineales, siempre que haya una regla de combinacion inversa correspondiente, la cual se puede aplicar en el combinador del decodificador 1162 ilustrado en la Fig. 4a, el cual aplica una regla de combinacion que es inversa a la regla de combinacion aplicada por el codificador. Debido a la prediccion inventiva se puede utilizar cualquier regla de prediccion invertible, debido a que la influencia en la forma de onda esta “equilibrada” por la prediccion, es decir, cualquier error esta incluido en la senal residual transmitida, debido a que la operacion de prediccion llevada a cabo por el optimizador 207 en combinacion con la calculadora del codificador 203 es un proceso que conserva la forma de onda.
El combinador 2031 emite la primera senal de combinacion 204 y una segunda senal de combinacion 2032. La primera senal de combinacion se introduce en un predictor 2033, y la segunda senal de combinacion 2032 se introduce en la calculadora residual 2034. El predictor 2033 calcula una senal de prediccion 2035, la cual se combina con la segunda senal de combinacion 2032 para obtener finalmente la senal residual 205. Particularmente, el combinador 2031 esta configurado para combinar las dos senales de canal 201 y 202 de la senal de audio multicanal en dos formas distintas para obtener la primera senal de combinacion 204 y la segunda senal de combinacion 2032, en donde las dos formas distintas estan ilustradas en la Fig. 3c. El predictor 2033 esta configurado para aplicar la informacion de prediccion a la primera senal de combinacion 204 o una senal proveniente de la primera senal de combinacion para obtener la senal de prediccion 2035. La senal proveniente de la senal de combinacion puede provenir de cualquier operacion no lineal o lineal, en donde se prefiere una transformada real-a- imaginaria/transformada imaginaria-a-real, la cual se puede implementar utilizando un filtro lineal tal como un filtro FIR que lleva a cabo adiciones ponderadas de determinados valores.
La calculadora residual 2034 en la Fig. 3a puede llevar a cabo una operacion de sustraccion de modo que la senal
5
10
15
20
25
30
35
40
45
50
55
60
de prediccion se sustrae de la segunda senal de combinacion. Sin embargo, son posibles otras operaciones en la calculadora residual. De la misma manera, la calculadora de senales de combinacion 1161 en la Fig. 4a puede llevar a cabo una operacion de adicion en donde la senal residual decodificada 114 y la senal de prediccion 1163 se agregan juntas para obtener la segunda senal de combinacion 1165.
La Fig. 5a ilustra una implementacion preferida de un codificador de audio. En comparacion con el codificador de audio ilustrado en la Fig. 3a, la primera senal de canal 201 es una representacion espectral de una primera senal de canal de dominio de tiempo 55a. De la misma manera, la segunda senal de canal 202 es una representacion espectral de una senal de canal de dominio de tiempo 55b. La conversion desde el dominio de tiempo en la representacion espectral es llevada a cabo por un convertidor de tiempo/frecuencia 50 para la primera senal de canal y un convertidor de tiempo/frecuencia 51 para la segunda senal de canal. Preferentemente, pero no necesariamente, los convertidores espectrales 50, 51 estan implementados como convertidores de valor real. El algoritmo de conversion puede ser una transformada coseno discreta, una transformada FFT, en donde solo se utiliza la parte real, una MDCT o cualquier otra transformada que proporcione valores espectrales de valor real. Alternativamente, ambas transformadas se pueden implementar como una transformada imaginaria, tal como una DST, una MDST o una FFT en donde solo se utiliza la parte imaginaria y se descarta la parte real. Tambien se puede utilizar cualquier otra transformada que proporcione solo valores imaginarios. Un motivo por el cual utilizar una transformada pura de valor real o una transformada pura imaginaria es la complejidad computacional, debido a que, para cada uno de los valores espectrales, solo se tiene que procesar un unico valor tal como magnitud o la parte real o, alternativamente, la fase o la parte imaginaria. A diferencia de una transformada totalmente compleja tal como una FFT, tendnan que procesarse dos valores, es decir, la parte real y la parte imaginaria para cada una de las lmeas espectrales, lo cual es un aumento de la complejidad computacional por un factor de por lo menos 2. En este punto, otro motivo para utilizar una transformada de valor real es que dicha transformada generalmente se muestrea cnticamente, y de este modo proporciona un dominio adecuado (y comunmente utilizado) para la cuantificacion de senales y la codificacion de entropfa (el paradigma estandar de "codificacion de audio perceptual" implementado en “MP3”, AaC, o en sistemas de codificacion de audio similares).
La Fig. 5a ilustra adicionalmente la calculadora residual 2034 como un sumador, el cual recibe la senal lateral como su entrada “mas” y el cual recibe la salida de la senal de prediccion por el predictor 2033 como su entrada “menos”. Adicionalmente, la Fig. 5a ilustra la situacion en la que la informacion de control del predictor se transmite desde el optimizador hacia el multiplexor 212, el cual emite una corriente de datos multiplexada que representa la senal de audio multicanal codificada. Particularmente, la operacion de prediccion se lleva a cabo de tal modo que la senal lateral es previsible desde la senal central tal como se ilustra en las Ecuaciones a la derecha de la Fig. 5a.
Preferentemente, la informacion de control del predictor 206 es un factor tal como se ilustra a la derecha en la Fig. 3b. En una forma de realizacion en la cual la informacion de control de prediccion solo comprende una porcion real tal como la parte real de una a de valor complejo o una magnitud de a de valor complejo, en donde esta porcion corresponde a un factor distinto de cero, se puede obtener una ganancia de codificacion significativa cuando la senal central y la senal lateral son similares entre sf debido a su estructura de forma de onda, si bien tienen distintas amplitudes.
Sin embargo, cuando la informacion de control de prediccion solo comprende una segunda porcion, la cual puede ser la parte imaginaria de un factor de valor complejo o la informacion de fase del factor de valor complejo, en donde la parte imaginaria o la informacion de fase es distinta de cero, se logra una ganancia de codificacion significativa para las senales, las cuales estan desfasadas entre sf por un valor distinto de 0° o 180°, y que tienen ademas del desfasaje, caractensticas de forma de onda similares y relaciones de amplitud similares.
Preferentemente, una informacion de control de prediccion es de valor complejo. Por lo tanto se puede obtener una ganancia de codificacion significativa para las senales que tienen distinta amplitud y que estan desfasadas. En una situacion en la cual las transformadas de tiempo/frecuencia proporcionan espectros complejos, la operacion 2034 sena una operacion compleja en la cual la parte real de la informacion de control del predictor se aplica a la parte real del espectro complejo M y la parte imaginaria de la informacion de prediccion compleja se aplica a la parte imaginaria del espectro complejo. Entonces, en el sumador 2034, el resultado de esta operacion de prediccion es un espectro real previsible y un espectro imaginario previsible, y el espectro real previsible se sustraena del espectro real de la senal lateral S (en forma de banda), y el espectro imaginario previsible se sustraena de la parte imaginaria del espectro de S para obtener un espectro residual complejo D.
Las senales de dominio de tiempo L y R son senales de valor real, si bien las senales de dominio de frecuencia pueden ser de valor real o complejo. Cuando las senales de dominio de frecuencia son de valor real, entonces la transformada es una transformada de valor real. Cuando las senales de dominio de frecuencia son complejas, entonces la transformada es una transformada de valor complejo. Esto significa que la entrada a las transformadas de tiempo-a-frecuencia y la salida de las transformadas de frecuencia-a-tiempo son de valor real, en tanto que las senales de dominio de frecuencia podnan ser, por ejemplo, senales de dominio QMF de valor complejo.
5
10
15
20
25
30
35
40
45
50
55
60
La Fig. 5b ilustra un decodificador de audio correspondiente al codificador de audio ilustrado en la Fig. 5a. Los elementos similares con respecto al decodificador de audio de la Fig. 1 tienen numeros de referencia similares.
La salida de la corriente de bits por el multiplexor de la corriente de bits 212 en la Fig. 5a se introduce en un desmultiplexor de la corriente de bits 102 en la Fig. 5b. El desmultiplexor de la corriente de bits 102 desmultiplexa la corriente de bits en la senal de mezcla descendente M y la senal residual D. La senal de mezcla descendente M se introduce en un descuantificador 110a. La senal residual D se introduce en un descuantificador 110b. Adicionalmente, el desmultiplexor de la corriente de bits 102 desmultiplexa una informacion de control del predictor 108 desde la corriente de bits e introduce la misma en el predictor 1160. El predictor 1160 emite una senal lateral previsible a ■ M y el combinador 1161 combina la senal residual emitida por el descuantificador 110b con la senal lateral previsible a fin de obtener finalmente la senal lateral reconstruida S. La senal luego es introducida en el combinador 1162, el cual lleva a cabo, por ejemplo, un procesamiento de suma/diferencia, tal como se ilustra en la Fig. 4c con respecto a la codificacion central/lateral. Particularmente, el bloque 1162 lleva a cabo una decodificacion central/lateral (inversa) para obtener una representacion de dominio de frecuencia del canal izquierdo y una representacion de dominio de frecuencia del canal derecho. La representacion del dominio de frecuencia luego se convierte en una representacion del dominio de tiempo por los convertidores de frecuencia/tiempo 52 y 53 correspondientes.
Dependiendo de la implementacion del sistema, los convertidores de frecuencia/tiempo 52, 53 son convertidores de valor real de frecuencia/tiempo cuando la representacion del dominio de frecuencia es una representacion de valor real, o convertidores de frecuencia/tiempo de valor complejo cuando la representacion del dominio de frecuencia es una representacion de valor complejo.
Sin embargo, para aumentar la eficiencia se prefiere llevar a cabo una transformada de valor real tal como se ilustra en otra implementacion en la Fig. 6a para el codificador y en la Fig. 6b para el decodificador. Las transformadas de valor real 50 y 51 estan implementadas por una MDCT. Adicionalmente, la informacion de prediccion se calcula como un valor complejo que tiene una parte real y una parte imaginaria. Debido a que ambos espectros M, S son espectros de valor real y debido a que, por lo tanto, no existe ninguna parte imaginaria del espectro, se proporciona un convertidor real-a-imaginario 2070, el cual calcula un espectro imaginario estimado 600 a partir del el espectro de valor real de la senal M. Este transformador real-a-imaginario 2070 es una parte del optimizador 207, y el espectro imaginario 600 estimado por el bloque 2070 se introduce en la etapa del optimizador de a 2071 junto con el espectro real M a fin de calcular la informacion de prediccion 206, la cual ahora tiene un factor de valor real indicado en 2073 y un factor imaginario indicado en 2074. Aqrn, de acuerdo con este ejemplo, el espectro de valor real de la primera senal de combinacion M se multiplica por la parte real aR 2073 para obtener la senal de prediccion, la cual luego se sustrae del espectro lateral de valor real. Adicionalmente, el espectro imaginario 600 se multiplica por la parte imaginaria ai ilustrada en 2074 para obtener la senal de prediccion adicional, en donde esta senal de prediccion luego se sustrae del espectro lateral de valor real tal como se indica en 2034b. Entonces, la senal residual de prediccion D se cuantifica en el cuantificador 209b, en tanto que el espectro de valor real de M se cuantifica/codifica en el bloque 209a. Adicionalmente, se prefiere cuantificar y codificar la informacion de prediccion a en el cuantificador/codificador de entropfa 2072 para obtener el valor de a complejo codificado, el cual se transmite al multiplexor de la corriente de bits 212 de la Fig. 5a, por ejemplo, y el cual se introduce finalmente en una corriente de bits como la informacion de prediccion.
Con respecto a la posicion del modulo de cuantificacion/codificacion (Q/C) 2072 para a, se destaca que los multiplicadores 2073 y 2074 preferentemente utilizan exactamente la misma a (cuantificada) que tambien se utilizara en el decodificador. De este modo se podna mover 2072 directamente hacia la salida de 2071, o se podna considerar que la cuantificacion de a ya se ha tenido en cuenta en el proceso de optimizacion en 2071.
A pesar de que se podna calcular un espectro complejo en el lado del codificador debido a que toda la informacion esta disponible, se prefiere realizar la transformada real-a-compleja en el bloque 2070 en el codificador de modo que se produzcan condiciones similares con respecto a un decodificador ilustrado en la Fig. 6b. El decodificador recibe un espectro codificado de valor real de la primera senal de combinacion y una representacion espectral de valor real de la senal residual codificada. Adicionalmente se obtiene una informacion de prediccion compleja codificada en 108 y se lleva a cabo una decodificacion de entropfa y una descuantificacion en el bloque 65 para obtener la parte real aR ilustrada en 1160b y la parte imaginaria ai ilustrada en 1160c. Las senales centrales emitidas por los elementos de ponderacion 1160b y 1160c se agregan a la senal residual de prediccion decodificada y descuantificada. Particularmente, los valores espectrales introducidos en el ponderador 1160c, en donde la parte imaginaria del factor de prediccion compleja se utiliza como el factor de ponderacion, provienen del espectro de valor real M por el convertidor real-a-imaginario 1160a, el cual se implementa preferentemente del mismo modo que el bloque 2070 de la Fig. 6a relacionada con el lado del codificador. En el lado del decodificador no hay una representacion de valor complejo de la senal central o de la senal lateral, lo cual implica una diferencia con respecto al lado del codificador. El motivo es que solo los espectros de valor real codificados han sido transmitidos desde el codificador hacia el decodificador debido a las tasas de bits y por razones de complejidad.
5
10
15
20
25
30
35
40
45
50
55
60
El transformador real-a-imaginario 1160a o el bloque correspondiente 2070 de la Fig. 6a se puede implementar tal como se publica en el documento WO 2004/013839 A1 o en el documento WO 2008/014853 A1 o en la Patente de Estados Unidos N° 6.980.933. Alternativamente se puede aplicar cualquier otra implementacion conocida en la tecnica, y una implementacion preferida se describe en el contexto de las Figs. 10a, 10b.
Espedficamente, tal como se ilustra en la Fig. 10a, el convertidor real-a-imaginario 1160a comprende un selector de cuadro espectral 1000 conectado a una calculadora del espectro imaginario 1001. El selector de cuadro espectral 1000 recibe una indicacion de un cuadro actual i en la entrada 1002 y, dependiendo de la implementacion, informacion de control en una entrada de control 1003. Cuando, por ejemplo, la indicacion en la lmea 1002 indica que se tiene que calcular un espectro imaginario para un cuadro actual i, y cuando la informacion de control 1003 indica que solo se tiene que utilizar el cuadro actual para dicho calculo, entonces el selector de cuadro espectral 1000 solo selecciona el cuadro actual i y transmite esta informacion a la calculadora de espectro imaginario. Por lo tanto, la calculadora de espectro imaginario solo utiliza las lmeas espectrales del cuadro actual i para llevar a cabo una combinacion ponderada de las lmeas ubicadas en el cuadro actual (bloque 1008), con respecto a la frecuencia, proxima a, o alrededor de la lmea espectral actual k, para la cual se tiene que calcular una lmea imaginaria tal como se ilustra en 1004 en la Fig. 10b. Sin embargo, cuando el selector de cuadro espectral 1000 recibe una informacion de control 1003 que indica que el cuadro anterior i-1 y el cuadro siguiente i+1 se tienen que utilizar tambien para el calculo del espectro imaginario, entonces la calculadora de espectro imaginario adicionalmente recibe los valores provenientes de los cuadros i-1 y i+1 y lleva a cabo una combinacion ponderada de las lmeas en los cuadros correspondientes tal como se ilustra en 1005 para el cuadro i-1 y en 1006 para el cuadro i+1. Los resultados de las operaciones de ponderacion se combinan mediante una combinacion ponderada en el bloque 1007 para obtener finalmente una lmea imaginaria k para el cuadro fi el cual luego se multiplica por la parte imaginaria de la informacion de prediccion en el elemento 1160c para obtener la senal de prediccion para esta lmea, la cual luego se agrega a la lmea correspondiente de la senal central en el sumador 1161b para el decodificador. En el codificador se lleva a cabo la misma operacion, si bien se realiza una sustraccion en el elemento 2034b.
Cabe destacar que la informacion de control 1003 puede indicar adicionalmente el uso de mas cuadros que los dos cuadros circundantes o, por ejemplo, el uso del cuadro actual y exactamente uno o mas cuadros anteriores pero sin utilizar cuadros “futuros” a fin de reducir el retardo sistematico.
Adicionalmente, cabe destacar que la combinacion ponderada en etapas ilustrada en la Fig. 10b, en la cual, en una primera operacion se combinan las lmeas provenientes de un cuadro y posteriormente se combinan por sf mismos los resultados de dichas operaciones de combinacion en cuadros, tambien se puede llevar a cabo en el otro orden. El otro orden se refiere a que, en un primer paso, las lmeas para la frecuencia actual k provenientes de un numero de cuadros adyacentes indicados por la informacion de control 103 se combinan mediante una combinacion ponderada. Esta combinacion ponderada se lleva a cabo para las lmeas k, k-1, k-2, k+1, k+2, etc., dependiendo del numero de lmeas adyacentes a utilizar para estimar la lmea imaginaria. Entonces, los resultados de dichas combinaciones “en tiempo” se someten a una combinacion ponderada en la “direccion de frecuencia” para obtener finalmente la lmea imaginaria k para el cuadro fi. Los valores ponderados se fijan en un valor -1 y 1 preferentemente, y las ponderaciones se pueden implementar en una combinacion directa de filtro FIR o IIR, la cual lleva a cabo una combinacion lineal de lmeas espectrales o de senales espectrales de distintas frecuencias y distintos cuadros.
Tal como se indica en las Figs. 6a y 6b, el algoritmo de transformada preferido es el algoritmo de transformada MDCT, el cual se aplica en la direccion anterior en los elementos 50 y 51 en la Fig. 6a y el cual se aplica en la direccion posterior en los elementos 52, 53, a continuacion de una operacion de combinacion en el combinador 1162 que opera in el dominio espectral.
La Fig. 8a ilustra una implementacion mas detallada del bloque 50 o 51. Particularmente se introduce una secuencia de muestras de audio del dominio de tiempo en un sistema de ventanas de analisis 500, el cual lleva a cabo una operacion de ventanas que utiliza una ventana de analisis y, particularmente, lleva a cabo esta operacion en un cuadro mediante un modo de cuadros pero utilizando un paso o solapamiento del 50 %. El resultado del sistema de ventanas de analisis, es decir, una secuencia de cuadros de muestras divididas en ventanas se introduce en un bloque de transformada MDCT 501, el cual emite la secuencia de cuadros de MDCT de valor real, en donde dichos cuadros estan afectados por el solapamiento. A modo de ejemplo, el sistema de ventanas de analisis aplica ventanas de analisis que tienen una longitud de 2048 muestras. Entonces, el bloque de transformada MDCT 501 emite espectros de MDCT que tienen 1024 lmeas espectrales reales o valores MDCt. Preferentemente, el sistema de ventanas de analisis 500 y/o el transformador de MDCT 501 se pueden controlar mediante un control de longitud de ventana o longitud de transformada 502 de modo que, por ejemplo, para las porciones transitorias en la senal, la longitud de ventana/longitud de transformada se reduce a fin de obtener mejores resultados de codificacion.
La Fig. 8b ilustra la operacion de MDCT inversa llevada a cabo en los bloques 52 y 53. A modo de ejemplo, el bloque 52 comprende un bloque 520 para llevar a cabo una transformada de MDCT inversa de cuadro-por-cuadro. Cuando, por ejemplo, un cuadro de valores MDCT tiene 1024 valores, entonces la salida de esta transformada inversa de MDCT tiene 2048 muestras de tiempo afectadas por el solapamiento. Dicho cuadro se suministra a un
5
10
15
20
25
30
35
40
45
50
55
60
sistema de ventanas de smtesis 521, el cual aplica una venta de smtesis a este cuadro de 2048 muestras. El cuadro dividido en ventanas luego se transmite a un procesador de solapar/agregar 522, el cual, a modo de ejemplo, aplica un 50 % de solapamiento entre dos cuadros subsiguientes y, entonces, lleva a cabo una adicion de muestra por muestra de modo que un bloque de 2048 muestras finalmente logra 1024 muestras nuevas de la senal de salida libre de solapamiento. Nuevamente se prefiere aplicar un control de longitud de ventana/transformada utilizando informacion, la cual por ejemplo se transmite en la informacion lateral de la senal multicanal codificada segun lo indicado en 523.
Los valores de prediccion de a se podnan calcular para cada una de las lmeas espectrales individuales de un espectro de MDCT. Sin embargo se ha descubierto que esto no es necesario y que se puede ahorrar una cantidad significativa de informacion lateral llevando a cabo un calculo de bandas de la informacion de prediccion. En otros terminos, un convertidor espectral 50 ilustrado en la Fig. 9, el cual es por ejemplo un procesador de MDCT descrito en el contexto de la Fig. 8a, proporciona un espectro de resolucion de alta frecuencia que tiene determinadas lmeas espectrales ilustradas en la Fig. 9b. Este espectro de resolucion de alta frecuencia es utilizado por un selector de lmea espectral 90 que proporciona un espectro de resolucion de baja frecuencia, el cual comprende determinadas bandas B1, B2, B3, ... , BN. Este espectro de resolucion de baja frecuencia es transmitido al optimizador 207 para calcular la informacion de prediccion de modo que no se calcula una informacion de prediccion para cada una de las lmeas espectrales, sino que solamente para cada una de las bandas. Para tal fin, el optimizador 207 recibe las lmeas espectrales por banda y calcula la operacion de optimizacion basandose en la presuncion de que se utiliza el mismo valor a para todas las lmeas espectrales en la banda.
Preferentemente, las bandas estan configuradas en una forma psicoacustica de modo que el ancho de banda de las bandas aumenta desde frecuencias inferiores hasta frecuencias superiores tal como se ilustra en la Fig. 9b. Alternativamente, a pesar de que no se prefiere tanto como la implementacion de ancho de banda en aumento tambien se podnan utilizar bandas de frecuencia de igual tamano, en donde cada una de las bandas de frecuencia tiene por lo menos dos o tfpicamente muchas mas, tal como por lo menos 30 lmeas de frecuencia. Tfpicamente, para un espectro de 1024 lmeas espectrales se calculan menos de 30 valores de a complejos, y preferentemente, mas de 5 valores de a. Para los espectros con menos de 1024 lmeas espectrales (por ejemplo, 128 lmeas) se utilizan preferentemente menos bandas de frecuencia (por ejemplo, 6) para a.
Para calcular los valores de a no se requiere necesariamente el espectro de MDCT de alta resolucion. Alternativamente tambien se puede utilizar un banco de filtros que tiene una resolucion de frecuencia similar a la resolucion necesaria para calcular los valores de a. Cuando se tienen que implementar bandas que aumentan de frecuencia, en ese caso dicho banco de filtros debena tener un ancho de banda variable. Sin embargo, cuando es suficiente un ancho de banda constante de frecuencias bajas a altas, entonces se puede utilizar un banco de filtros tradicional con sub-bandas de ancho equivalente.
Dependiendo de la implementacion, el signo del valor de a indicado en la Fig. 3b o 4b se puede invertir. Sin embargo, a fin de ser coherentes, es necesario que dicha reversion del signo se utilice en el lado del codificador asf como tambien en el lado del decodificador. A diferencia de la Fig. 6a, la Fig. 5a ilustra una vista generalizada del codificador, en donde el elemento 2033 es un predictor que es controlado por la informacion de control del predictor 206, la cual se determina en el elemento 207 y la cual se incorpora como informacion lateral en la corriente de bits. En lugar de la MDCT utilizada en la Fig. 6a en los bloques 50, 51 se utiliza una transformada generalizada de tiempo/frecuencia en la Fig. 5a tal como se describe. Segun se indico anteriormente, la Fig. 6a es el proceso del codificador, el cual corresponde al proceso del decodificador en la Fig. 6b, en donde L representa la senal izquierda de canal, R representa la senal derecha de canal, M representa la senal central o la senal de mezcla descendente, S representa la senal lateral y D representa la senal residual. Alternativamente, L tambien se conoce como la primera senal de canal 201, R tambien se conoce como la segunda senal de canal 202, M tambien se conoce como la primera senal de combinacion 204 y S tambien se conoce como la segunda senal de combinacion 2032.
Preferentemente, los modulos 2070 en el codificador y 1160a en el decodificador debenan coincidir exactamente a fin de asegurar una correcta codificacion de forma de onda. Esto se aplica preferentemente al caso en el cual dichos modulos utilizan alguna forma de aproximacion tal como filtros truncados o cuando se utiliza solamente uno o dos en lugar de los tres cuadros de MDCT, es decir, el cuadro de MDCT actual en la lmea 60, el cuadro de MDCT anterior en la lmea 61 y el cuadro de MDCT siguiente en la lmea 62.
Adicionalmente, se prefiere que el modulo 2070 en el codificador en la Fig. 6a utilice el espectro de MDCT no cuantificado M como entrada, a pesar de que el modulo real-a-imaginario (R21) 1160a en el decodificador tiene solo el espectro de MDCT cuantificado disponible como entrada. Alternativamente se puede utilizar tambien una implementacion en la cual el codificador utiliza los coeficientes de MDCT cuantificados como entrada en el modulo 2070. Sin embargo, el uso del espectro de MDCT no cuantificado como entrada en el modulo 2070 es el metodo preferido desde un punto de vista perceptual.
A continuacion se describen mas detalladamente diversos aspectos de formas de realizacion de la presente
5
10
15
20
25
30
35
40
45
50
55
60
invencion.
La codificaciOn de estereo parametrico estandar se basa en la capacidad del dominio de QMF (tnbrido) complejo sobremuestreado de permitir un procesamiento de senales perceptualmente motivado con variaciOn de tiempo y frecuencia sin introducir distorsiones de solapamiento. Sin embargo, en el caso de la codificaciOn de mezcla descendente/residual (como se utiliza para las altas tasas de bits consideradas en el presente contexto), el codificador de estereo unificado resultante actua como un codificador de forma de onda. Esto permite la operaciOn en un dominio cnticamente muestreado, tal como el dominio de MDCT, debido a que el paradigma de codificaciOn de forma de onda asegura que la propiedad de cancelaciOn de solapamiento de la cadena de procesamiento de MDCT-IMDCT se conserve suficientemente bien.
Sin embargo, a fin de poder aprovechar la eficiencia de codificaciOn mejorada que se puede lograr en el caso de senales estereo con diferencias de tiempo o fase entre canales por medio de un coeficiente de predicciOn de valor complejo a, se necesita una representaciOn de valor complejo de dominio de frecuencia de la senal de mezcla descendente DMX como entrada en la matriz de mezcla ascendente de valor complejo. Esto se puede obtener utilizando una transformada de MDST ademas de la transformada de MDCT para la senal DMX. El espectro de MDST se puede computar (en forma exacta o como una aproximaciOn) a partir del espectro de MDCT.
Asimismo, la parametrizaciOn de la matriz de mezcla ascendente se puede simplificar transmitiendo el coeficiente de predicciOn compleja aen lugar de los parametros MPS. De este modo se transmiten sOlo dos parametros (parte real e imaginaria de a) en lugar de tres (ICC, CLD y IPD). Esto resulta posible debido a la redundancia en la parametrizaciOn de MPS en el caso de la codificaciOn de mezcla descendente/residual. La parametrizaciOn de MPS incluye informaciOn acerca de la cantidad relativa de descorrelaciOn a agregar en el decodificador (es decir, la relaciOn de energfa entre las senales RES y DMX), y esta informaciOn es redundante cuando se transmiten las senales reales DMX y RES.
Debido a la misma razOn, el factor de ganancia g, ilustrado en la matriz de mezcla ascendente anterior, es obsoleto en el caso de la codificaciOn de mezcla descendente/residual. De este modo, la matriz de mezcla ascendente para la codificaciOn de mezcla descendente/residual con predicciOn compleja es la siguiente:
l
l-a l dmx
r
l + a -1 res
En comparaciOn con la EcuaciOn 1169 en la Fig. 4b, el signo de alfa esta invertido en esta ecuaciOn, y DMX=M y RES=D. Esta es, por lo tanto, una implementaciOn/notaciOn alternativa con respecto a la Fig. 4b.
Existen dos opciones para calcular la senal residual de predicciOn en el codificador. Una opciOn consiste en utilizar los valores espectrales de MDCT cuantificados de la mezcla descendente. Esto tendna como resultado la misma distribuciOn de error de cuantificaciOn que en la codificaciOn M/S debido a que el codificador y el decodificador utilizan los mismos valores para generar la predicciOn. La otra opciOn consiste en utilizar los valores espectrales de MDCT no cuantificados. Esto implica que el codificador y el decodificador no utilizaran los mismos datos para generar la predicciOn, lo que permite la redistribuciOn espacial del error de codificaciOn de acuerdo con las propiedades de enmascaramiento instantaneo de la senal a expensas de una ganancia de codificaciOn un tanto reducida.
Es preferible computar el espectro de MDST directamente en el dominio de frecuencia por medio del filtrado bidimensional de FIR de tres cuadros de MDCT adyacentes como se ha analizado. Los ultimos se pueden considerar como una transformada “real-a-imaginaria” (R2I). La complejidad del cOmputo de frecuencia-dominio de la MDST se puede reducir de diversas formas, lo que significa que se calcula sOlo una aproximaciOn del espectro de MDST:
• Limitando el numero de conexiones de filtro FIR.
• Estimando la MDST a partir del cuadro de MDCT real solamente.
• Estimando la MDST a partir del cuadro de MDCT previo y actual.
Siempre que se utilice la misma aproximaciOn en el codificador y en el decodificador, las propiedades de codificaciOn de forma de onda no resultaran afectadas. Dichas aproximaciones del espectro de MDST, sin embargo, pueden causar una reducciOn en la ganancia de codificaciOn lograda por la predicciOn compleja.
En caso de que el codificador de MDCT subyacente soporte la conmutaciOn de forma de ventana, los coeficientes
5
10
15
20
25
30
35
40
45
50
55
60
del filtro bidimensional FIR utilizado para computar el espectro de MDST tienen que adaptarse a las formas de ventana reales. Los coeficientes de filtros aplicados al espectro de MDCT del cuadro actual dependen de la ventana completa, es decir, es necesario un conjunto de coeficientes para cada tipo de ventana y para cada transicion de ventana. Los coeficientes de filtros aplicados al espectro de MDCT del cuadro anterior/siguiente dependen solo del solapamiento de la mitad de ventana con el cuadro actual, es decir, para estos es necesario un conjunto de coeficientes solo para cada tipo de ventana (sin coeficientes adicionales para las transiciones).
En caso de que el codificador de MDCT subyacente utilice una conmutacion de longitud de transformada, incluyendo el cuadro de MDCT anterior y/o siguiente en la aproximacion, esto resulta mas complicado alrededor de las transiciones entre las distintas longitudes de transformadas. En este caso, debido al distinto numero de coeficientes de MDCT en el cuadro actual, anterior/siguiente, el filtrado bidimensional resulta mas complicado. A fin de evitar la creciente complejidad computacional y estructural, el cuadro anterior/siguiente se puede excluir del filtrado en las transiciones de longitud de transformada, a expensas de una menor exactitud de la aproximacion para los cuadros respectivos.
Asimismo, se debe tener especial cuidado con las partes mas bajas y mas altas del espectro de MDST (proximas a DC y fs/2), en donde hay menos coeficientes de MDCT circundantes para el filtrado de FIR que los necesarios. Aqrn, el proceso de filtrado necesita adaptarse para computar el espectro de MDST correctamente. Esto se puede llevar a cabo, ya sea utilizando una extension simetrica del espectro de MDCT para los coeficientes que faltan (de acuerdo con la periodicidad de los espectros de senales discretas de tiempo), o adaptando los coeficientes de filtro en forma correspondiente. Es obvio que el tratamiento de dichos casos especiales se puede simplificar a expensas de una menor exactitud en la proximidad de los lfmites del espectro de MDST.
El computo del espectro de MDST exacto desde los espectros de MDCT transmitidos en el decodificador aumenta el retardo del decodificador por un cuadro (aqu se presume que son 1024 muestras).
El retardo adicional se puede evitar utilizando una aproximacion del espectro de MDST que no requiere el espectro de MDCT del cuadro siguiente como entrada.
La siguiente lista de elementos resume las ventajas de la codificacion estereo unificada basada en MDCT en comparacion con la codificacion estereo unificada basada en QMF:
• Solo un pequeno aumento en la complejidad computacional (cuando no se utiliza SBR).
• Amplfa la capacidad hasta una reconstruccion perfecta si los espectros de MDCT no estan cuantificados. Cabe destacar que esto no ocurre para la codificacion estereo unificada basada en QMF.
• Extension natural de la codificacion M/S e intensidad de la codificacion estereo.
• Arquitectura de limpieza que simplifica el ajuste del codificador, debido a que el procesamiento de la senal estereo y la cuantificacion/codificacion se pueden acoplar fuertemente. Cabe destacar que en la codificacion estereo unificada basada en QMF, los cuadros del Entorno de MPEG y los cuadros de MDCt no estan alineados y dichas bandas de factor de escala no coinciden con las bandas del parametro.
• Optimiza la codificacion de parametros de estereo, debido a que solo se tienen que transmitir dos parametros (complejo a) en lugar de tres parametros como en el Entorno de MPEG (ICC, CLD, IPD).
• No presenta un retardo adicional en el decodificador si el espectro de MDST se computa como una aproximacion (sin utilizar el cuadro siguiente).
Las propiedades importantes de una implementacion se pueden resumir del siguiente modo:
a) Los espectros de MDST se computan por medio del filtrado bidimensional de FIR a partir de los espectros de MDCT actuales, anteriores y siguientes. Se posibilitan distintas compensaciones de complejidad/calidad para el computo de MDST (aproximacion) reduciendo el numero de conexiones de filtro FIR y/o el numero de cuadros de MDCT utilizados. En particular, si un cuadro adyacente no esta disponible debido a la perdida de cuadro durante la transmision o la conmutacion de longitud de transformada, dicho cuadro particular se excluye del valor estimado de MDST. Para el caso de la conmutacion de longitud de transformada, la exclusion se senala en la corriente de bits.
b) Solo dos parametros, la parte real e imaginaria del coeficiente de prediccion compleja a, se transmiten en lugar de ICC, CLD, e IPD. Las partes reales e imaginarias de a se tratan en forma independiente, se limitan al rango [-3,0, 3,0] y se cuantifican con un tamano de paso de 0,1. Si un determinado parametro (parte real o imaginaria de a) no se utiliza en un determinado cuadro, esto se senala en la corriente de bits, y el parametro
13
5
10
15
20
25
30
35
40
45
50
55
60
irrelevante no se transmite. Los parametros se codifican en forma diferencial al tiempo o en forma diferencial a la frecuencia y finalmente se aplica la codificacion de Huffman utilizando el codigo de factor de escala. Los coeficientes de prediccion se actualizan cada dos bandas de factor de escala, lo que produce una resolucion de frecuencia similar a la resolucion de frecuencia del Entorno de MPEG. Este esquema de cuantificacion y codificacion tiene como resultado una tasa promedio de bits de aproximadamente 2 kb/s para la informacion lateral estereo dentro de una configuracion tipica que tiene un objetivo de tasa de bits de 96 kb/s.
Los detalles preferidos, adicionales o alternativos de la implementacion comprenden:
c) Para cada uno de los dos parametros de a se puede elegir una codificacion no diferencial (PCM) o diferencial (DPCM) por cuadro o por corriente, senalada por un bit correspondiente en la corriente de bits. Para una codificacion DPCM es posible, ya sea una codificacion diferencial de tiempo o frecuencia. Nuevamente, esto se puede senalar utilizando una bandera de un bit.
d) En lugar de reutilizar un codigo predefinido tal como el codigo de factor de escala AAC se puede utilizar un codigo especializado no variable o adaptativo de senales para codificar los valores del parametro a, o se puede volver a los codigos de longitud fija (por ejemplo, de 4 bits) sin signo o de dos complementos.
e) El rango de los valores del parametro aasf como tambien el tamano del paso de cuantificacion de parametros se pueden elegir arbitrariamente y optimizar hasta las caractensticas de senales en cuestion.
f) El numero y ancho espectral y/o temporal de las bandas de parametro activo a se pueden elegir arbitrariamente y optimizar hasta las caractensticas de senales determinadas. En particular, la configuracion de banda se puede senalar por cuadro o por corriente.
g) Ademas de, o en lugar de los mecanismos indicados en a) anteriormente, se puede senalar explfcitamente por medio de un bit por cuadro en la corriente de bits que solo se utiliza el espectro de MDCT del cuadro actual para computar la aproximacion del espectro de MDST, es decir, que los cuadros de MDCT adyacentes no se tienen en cuenta.
Las formas de realizacion se refieren a un sistema de la invencion para la codificacion estereo unificada en el dominio de MDCT. Esto permite utilizar las ventajas de la codificacion estereo unificada en el sistema de USAC del MPEG incluso a tasas de bits mas altas (en donde no se utiliza SBR) sin el aumento significativo en la complejidad computacional que ocurrina con un metodo basado en QMF.
Las dos listas siguientes resumen los aspectos preferidos de la configuracion que se han descrito anteriormente, los cuales se pueden utilizar alternativamente entre sf o ademas de otros aspectos:
la) concepto general: prediccion compleja de MDCT lateral a partir de MDCT y MDST centrales;
lb) calcular/estimar la MDST a partir de MDCT (“R2I”) en el dominio de frecuencia utilizando 1 o mas cuadros (3 cuadros causan retardo);
lc) truncado del filtro (incluso descendiendo hasta 1-cuadro 2-conexiones, es decir, [-1 0 1]) para reducir la complejidad computacional;
ld) tratamiento adecuado de DC y fs/2;
le) tratamiento adecuado de conmutacion de forma de ventana;
lf) no utilizar un cuadro anterior/siguiente si este tiene un tamano de transformada diferente;
lg) prediccion basada en coeficientes de MDCT no cuantificados o cuantificados en el codificador;
2a) cuantificar y codificar la parte real e imaginaria del coeficiente de prediccion compleja directamente (es decir, sin parametrizacion del Entorno de MPEG);
2b) utilizar cuantificador uniforme para esto (tamano de paso, por ejemplo, 0,1);
2c) utilizar una resolucion de frecuencia adecuada para los coeficientes de prediccion (por ejemplo, 1 coeficiente per 2 Bandas de Factor de Escala);
2d) senalizacion economica en el caso de que todos los coeficientes de prediccion sean reales;
5
10
15
20
25
30
2e) bit expUcito por cuadro para forzar la operacion de R2I de 1-cuadro.
En una forma de realizacion, el codificador comprende adicionalmente: un convertidor espectral (50, 51) para convertir una representacion del dominio de tiempo de las dos senales de canal en una representacion espectral de las dos senales de canal que tienen senales de subbandas para las dos senales de canal, en donde el combinador (2031), el predictor (2033) y la calculadora de la senal residual (2034) estan configurados para procesar cada una de las subbandas por separado de modo que la primera senal combinada y la senal residual se obtienen para una pluralidad de subbandas, en donde la interfaz de salida (212) esta configurada para combinar la primera senal combinada codificada y la senal residual codificada para la pluralidad de subbandas.
A pesar de que algunos aspectos se han descrito en el contexto de un aparato, queda claro que dichos aspectos solo representan una descripcion del metodo correspondiente, en donde un bloque o dispositivo corresponde a un paso del metodo o a una caractenstica de un paso del metodo. En forma analoga, los aspectos descritos en el contexto de un paso del metodo tambien representan una descripcion de un bloque o elemento o caractenstica correspondiente de un aparato correspondiente.
En una forma de realizacion de la presente invencion se aplica un tratamiento adecuado de conmutacion de forma de ventana. En la Fig. 10a se ilustra que una informacion de forma de ventana 109 se puede introducir en la calculadora del espectro imaginario 1001. Espedficamente, la calculadora del espectro imaginario, la cual lleva a cabo la conversion real-a-imaginaria del espectro de valor real tal como el espectro de MDCT (como por ejemplo el elemento 2070 en la Fig. 6a o el elemento 1160a en la Fig. 6b) se puede implementar como un filtro FIR o IIR. Los coeficientes FIR o IIR en este modulo real-a-imaginario 1001 dependen de la forma de ventana de la mitad izquierda y de la mitad derecha del cuadro actual. Esta forma de ventana puede ser distinta para una ventana seno o una ventana Derivada de Kaiser Bessel (KBD, por sus siglas en ingles) y dependiendo de la configuracion de secuencia de ventana determinada puede ser una ventana larga, una ventana de inicio, una ventana de parada y una ventana de parada-inicio o una ventana corta. El modulo real-a-imaginario puede comprender un filtro bidimensional FIR, en donde una dimension es la dimension de tiempo en donde dos cuadros de MDCT subsiguientes se introducen en el filtro FIR y la segunda dimension es la dimension de frecuencia, en donde se introducen los coeficientes de frecuencia de un cuadro.
La siguiente tabla proporciona distintos coeficientes de filtro MDST para una secuencia de ventana actual para distintas formas de ventana y distintas implementaciones de la mitad izquierda y la mitad derecha de la ventana.
Tabla A - Parametros de Filtro MDST para la Ventana Actual
Secuencia de Ventana Actual
Mitad Izquierda: Forma Seno Mitad Derecha: Forma Seno Mitad Izquierda: Forma KBD Mitad Derecha: Forma KBD
SOLO SECUENCIA LARGA, SECUENCIA_CORTA_OCHO
[0,000000, 0,000000, 0,500000, 0,000000, -0,500000, 0,000000, 0,000000] [0,091497, 0,000000, 0,581427, 0,000000, -0,581427, 0,000000, - 0,091497]
SECUENCIA_LARGA_DE_INICIO
[0,102658, 0,103791, 0,567149, 0,000000, -0,567149, -0,103791, -0,102658] [0,150512, 0,047969, 0,608574, 0,000000, -0,608574, -0,047969, -0,150512]
SECUENCIA_LARGA_DE_PARADA
[0,102658, -0,103791, 0,567149, 0,000000, -0,567149, 0,103791, -0,102658] [0,150512, -0,047969, 0,608574, 0,000000, -0,608574, 0,047969, -0,150512]
SECUENCIA_DE_PARADA_INICIO
[0,205316, 0,000000, 0,634298, 0,000000, -0,634298, 0,000000, -0,205316] [0,209526, 0,000000, 0,635722, 0,000000, -0,635722, 0,000000, -0,209526]
Secuencia de Ventana Actual
Mitad Izquierda: Forma Seno Mitad Derecha: Forma Seno Mitad Izquierda: Forma KBD Mitad Derecha: Forma KBD
SOLO SECUENCIA LARGA, SECUENCIA_CORTA_OCHO
[0,045748, 0,057238, 0,540714, 0,000000, -0,540714, -0,057238, -0,045748] [0,045748, -0,057238, 0,540714, 0,000000, -0,540714, 0,057238, -0,045748]
SECUENCIA_LARGA_DE_INICIO
[0,104763, 0,105207, 0,567861, 0,000000, -0,567861, -0,105207, -0,104763] [0,148406, 0,046553, 0,607863, 0,000000, -0,607863, -0,046553, -0,148406]
SECUENCIA_LARGA_DE_PARADA
[0,148406, -0,046553, 0,607863, 0,000000, -0,607863, 0,046553, -0,148406] [0,104763, -0,105207, 0,567861, 0,000000, -0,567861, 0,105207, -0,104763]
SECUENCIA_DE_PARADA_INICIO
[0,207421, 0,001416, 0,635010, 0,000000, -0,635010, -0,001416, -0,207421] [0,207421, -0,001416, 0,635010, 0,000000, -0,635010, 0,001416, -0,207421]
5
10
15
20
25
30
35
40
45
50
55
Adicionalmente, la informacion de forma de ventana 109 proporciona informacion de la forma de ventana para la ventana anterior, cuando se utiliza la ventana anterior para calcular el espectro de MDST a partir del espectro de MDCT. En la tabla siguiente se proporcionan los coeficientes de filtro MDST correspondientes para la ventana anterior.
Tabla B - Parametros de Filtro MDST para la Ventana Anterior
Secuencia de Ventana Actual
Mitad Izquierda de Ventana Actual: Forma Seno Mitad Izquierda de Ventana Actual: Forma KBD
SOLO SECUENCIA LARGA, SECUENCIA LARGA DE INICIO, SECUENCIA_CORTA_OCHO
[0,000000, 0,106103, 0,250000, 0,318310, 0,250000, 0,106103, 0,000000] [0,059509, 0,123714, 0,186579, 0,213077, 0,186579, 0,123714, 0,059509]
SECUENCIA LARGA DE PARADA, SECUENCIA_DE_PARADA_INICIO
[0,038498, 0,039212, 0,039645, 0,039790, 0,039645, 0,039212, 0,038498] [0,026142, 0,026413, 0,026577, 0,026631, 0,026577, 0,026413, 0,026142]
De este modo, dependiendo de la informacion de la forma de ventana 109, la calculadora del espectro imaginario 1001 en la Fig. 10a se adapta aplicando distintos conjuntos de coeficientes de filtro.
La informacion de la forma de ventana, la cual se utiliza en el lado del decodificador se calcula en el lado del codificador y se transmite como informacion lateral junto con la senal de salida del codificador. En el lado del decodificador, la informacion de la forma de ventana 109 se extrae de la corriente de bits mediante el desmultiplexor de la corriente de bits (por ejemplo 102 en la Fig. 5b) y se proporciona a la calculadora del espectro imaginario 1001 tal como se ilustra en la Fig. 10a.
Cuando la informacion de la forma de ventana 109 senala que el cuadro anterior tema un distinto tamano de transformada, entonces se prefiere que el cuadro anterior no se utilice para calcular el espectro imaginario a partir del espectro de valor real. Lo mismo ocurre cuando al interpretar la informacion de la forma de ventana 109 se descubre que el cuadro siguiente tiene un distinto tamano de transformada. Entonces, el cuadro siguiente no se utiliza para calcular el espectro imaginario a partir del espectro de valor real. En dicho caso cuando, por ejemplo, el cuadro anterior tema un distinto tamano de transformada que el cuadro actual y cuando el cuadro siguiente nuevamente tiene un distinto tamano de transformada en comparacion con el cuadro actual, entonces solo el cuadro actual, es decir, los valores espectrales de la ventana actual, se utilizan para estimar el espectro imaginario.
La prediccion en el codificador esta basada en los coeficientes de frecuencia no cuantificados o cuantificados tales como los coeficientes de MDCT. Cuando, por ejemplo, la prediccion ilustrada por el elemento 2033 en la Fig. 3a, esta basada en datos no cuantificados, entonces la calculadora residual 2034 tambien opera preferentemente en datos no cuantificados y la senal residual de salida de la calculadora, es decir, la senal residual 205 se cuantifica antes de ser codificada por entropfa y transmitida a un decodificador. Sin embargo, en una forma de realizacion alternativa se prefiere que la prediccion este basada en coeficientes de MDCT cuantificados. Entonces, la cuantificacion puede ocurrir antes del combinador 2031 en la Fig. 3a de tal modo que un primer canal cuantificado y un segundo canal cuantificado sean la base para calcular la senal residual. Alternativamente, la cuantificacion tambien puede ocurrir a continuacion del combinador 2031 de tal modo que la primera senal de combinacion y la segunda senal de combinacion se calculen en una forma no cuantificada y se cuantifiquen antes de que se calcule la senal residual. De nuevo, como alternativa, el predictor 2033 puede operar en el dominio no cuantificado y la senal de prediccion 2035 se cuantifica antes de ser introducida en la calculadora residual. Entonces, es util que la segunda senal de combinacion 2032, la cual tambien se introduce en la calculadora residual 2034, tambien se cuantifique antes de que la calculadora residual calcule la senal residual 1070 en la Fig. 6a, la cual se puede implementar dentro del predictor 2033 en la Fig. 3a, opere en los mismos datos cuantificados que esten disponibles en el lado del decodificador. Entonces se puede asegurar que el espectro de MDST estimado en el codificador para llevar a cabo el calculo de la senal residual sea exactamente el mismo que el espectro de MDST en el lado del decodificador utilizado para llevar a cabo la prediccion inversa, es decir, para calcular la senal lateral desde la senal residual. Para tal fin, la primera senal de combinacion tal como la senal M en la lmea 204 en la Fig. 6a se cuantifica antes de ser introducida en el bloque 2070. Entonces, el espectro de MDST calculado utilizando el espectro de MDCT cuantificado del cuadro actual, y dependiendo de la informacion de control, el espectro de MDCT cuantificado del cuadro anterior o siguiente, se introduce en el multiplicador 2074, y la salida del multiplicador 2074 de la Fig. 6a nuevamente sera un espectro no cuantificado. Este espectro no cuantificado se sustraera del espectro introducido en el sumador 2034b y finalmente se cuantificara en el cuantificador 209b.
En una forma de realizacion, la parte real y la parte imaginaria del coeficiente de prediccion compleja por banda de prediccion se cuantifican y codifican directamente, es decir, por ejemplo, sin la parametrizacion del Entorno MPEG. La cuantificacion se puede llevar a cabo utilizando un cuantificador uniforme con un tamano de paso, por ejemplo, de 0,1. Esto significa que no se aplica ningun tamano de paso de cuantificacion logantmica o similar, sino que se aplica cualquier tamano de paso lineal. En una implementacion, el rango de valores para la parte real y la parte
16
5
10
15
20
25
30
35
40
45
50
55
60
imaginaria del coeficiente de prediccion compleja tiene un rango desde -3 a 3, lo que significa que se utilizan 60 o, dependiendo de los detalles de implementacion, 61 pasos de cuantificacion para la parte real y la parte imaginaria del coeficiente de prediccion compleja.
Preferentemente, la parte real aplicada en el multiplicador 2073 en la Fig. 6a y la parte imaginaria 2074 aplicada en la Fig. 6a se cuantifican antes de ser aplicadas de modo que, nuevamente, se utiliza el mismo valor para la prediccion en el lado del codificador asf como se utiliza en el lado del decodificador. Esto garantiza que la senal residual de prediccion abarque - ademas del error de cuantificacion introducido - cualquier error que pudiera ocurrir cuando se aplica un coeficiente de prediccion no cuantificado en el lado del codificador mientras se aplica un coeficiente de prediccion cuantificado en el lado del decodificador. Preferentemente, la cuantificacion se aplica de modo que - tanto como sea posible - la misma situacion y las mismas senales esten disponibles en el lado del codificador y en el lado del decodificador. De este modo se prefiere cuantificar la entrada en la calculadora real-a- imaginaria 2070 utilizando la misma cuantificacion aplicada en el cuantificador 209a. Adicionalmente se prefiere cuantificar la parte real y la parte imaginaria del coeficiente de prediccion de a para llevar a cabo las multiplicaciones en el elemento 2073 y en el elemento 2074. La cuantificacion es la misma que se aplica en el cuantificador 2072. Adicionalmente, la senal lateral emitida por el bloque 2031 en la Fig. 6a tambien se puede cuantificar antes de los sumadores 2034a y 2034b. Sin embargo, no resulta problematico que el cuantificador 209b lleve a cabo la cuantificacion posteriormente a la adicion, en donde la adicion por dichos sumadores se aplica con una senal lateral no cuantificada.
Puede aplicarse una senalizacion economica en caso de que todos los coeficientes de prediccion sean reales. Puede ocurrir que todos los coeficientes de prediccion para un cuadro determinado, es decir, para la misma porcion de tiempo de la senal de audio se calculen como reales. Dicha situacion puede ocurrir cuando la senal central completa y la senal lateral completa no estan desfasadas entre sf o estan un poco desfasadas. A fin de ahorrar bits, esto es indicado por un unico indicador real. Entonces, no es necesario senalar la parte imaginaria del coeficiente de prediccion en la corriente de bits con un codigo que represente un valor cero. En el lado del decodificador, la interfaz del decodificador de la corriente de bits, tal como un desmultiplexor de la corriente de bits, interpretara este indicador real y luego no buscara palabras clave para una parte imaginaria pero entendera que todos los bits estan en la seccion correspondiente de la corriente de bits como bits para coeficientes de prediccion de valor real. Asimismo, cuando el predictor 2033 recibe una indicacion de que todas las partes imaginarias de los coeficientes de prediccion en el cuadro son cero, no necesitara calcular un espectro de MDST, o generalmente un espectro imaginario a partir del espectro de MDCT de valor real. Por lo tanto, el elemento 1160a en el decodificador de la Fig. 6b se desactivara y la prediccion inversa solo tendra lugar utilizando el coeficiente de prediccion de valor real aplicado en el multiplicador 1160b en la Fig. 6b. Esto mismo ocurre para el lado del codificador en donde el elemento 2070 se desactivara y la prediccion solo tendra lugar utilizando el multiplicador 2073. Esta informacion lateral se utiliza preferentemente como un bit adicional bit por cuadro y el decodificador leera este bit, cuadro por cuadro, a fin de decidir si el convertidor real-a-imaginario 1160a estara activo para un cuadro o no. De este modo, al proporcionar esta informacion se logra un tamano reducido de la corriente de bits debido a la senalizacion mas eficiente de todas las partes imaginarias del coeficiente de prediccion que son cero para un cuadro y, adicionalmente, proporciona menos complejidad para el decodificador para dicho cuadro logrando inmediatamente un menor consumo de batena de dicho procesador implementado, por ejemplo, en un dispositivo movil alimentado por batena.
La prediccion compleja estereo de acuerdo con las formas de realizacion preferidas de la presente invencion es una herramienta para la codificacion eficiente de pares de canales con diferencias de nivel y/o fase entre los canales. Al utilizar un parametro de valor complejo a, los canales izquierdo y derecho se reconstruyen por medio de la matriz siguiente. dmxim indica la MDST correspondiente a la MDCT de los canales de mezcla descendente dmxRe.
r
1-aRe -aim 1]
l
_1 + Ole aim - ij
dmxRe
dmx
Im
res
La ecuacion anterior es otra representacion, la cual se divide con respecto a la parte real y a la parte imaginaria de a y representa la ecuacion para una operacion combinada de prediccion/combinacion, en la cual la senal previsible S no se calcula necesariamente.
Los siguientes elementos de datos se utilizan preferentemente para esta herramienta:
cplx_pred all 0: Algunas bandas utilizan la codificacion L/R, senalada por cplx_pred_used[]
1: Todas las bandas utilizan la prediccion compleja estereo cplx_pred_used[g][sfb] Una bandera de un bit por grupo de ventanas g y banda de factor de escala sfb
(despues del mapeo a partir de las bandas de prediccion) que indica que 0: no se utiliza la prediccion compleja, se utiliza la codificacion L/R
5
10
15
20
25
30
35
40
45
50
55
60
complex_coef
use_prev_frame
delta_code_time
hcod_alpha_q_re
hcod_alpha_q_im
1: se utiliza la prediccion compleja
0: aim = 0 para todas las bandas de prediccion
1: aim se transmite para todas las bandas de prediccion
0: Utilizar solo el cuadro actual para estimar la MDST
1: Utilizar el cuadro actual y anterior para estimar la MDST
0: Codificacion diferencial de frecuencia de los coeficientes de prediccion
1: Codificacion diferencial de tiempo de los coeficientes de prediccion
Codigo de Huffman de aRe
Codigo de Huffman de aim
Estos elementos de datos se calculan en un codificador y se introducen en la informacion lateral de una senal de audio multicanal o estereo. Los elementos se extraen de la informacion lateral en el lado del decodificador por medio de un extractor de informacion lateral y se utilizan para controlar la calculadora del decodificador para llevar a cabo una accion correspondiente.
La prediccion compleja estereo necesita el espectro de MDCT de mezcla descendente del par de canales actuales y, en el caso de complex_coef = 1, un valor estimado del espectro de MDST de mezcla descendente del par de canales actuales, es decir, la contraparte imaginaria del espectro de MDCT. El valor estimado de la MDST de mezcla descendente se computa desde la MDCT de mezcla descendente del cuadro actual y, en el caso de use_prev_frame = 1, desde la MDCT de mezcla descendente del cuadro anterior. La MDCT de mezcla descendente del cuadro anterior del grupo de ventanas g y del grupo de ventanas b se obtiene a partir de los espectros izquierdo y derecho reconstruidos de dicho cuadro.
En el computo del valor estimado de la MDST de mezcla descendente se utiliza la longitud de transformada MDCT de valor uniforme, la cual depende de window_sequence, asf como tambien de filter_coefs y filter_coefs_prev, los cuales son matrices que contienen los nucleos de filtro y los cuales se obtienen de acuerdo con las tablas anteriores.
Para todos los coeficientes de prediccion, la diferencia de un valor anterior (en tiempo o frecuencia) se codifica utilizando un codigo de Huffman. Los coeficientes de prediccion no se transmiten para las bandas de prediccion para las cuales se utilizo cplx_pred_used = 0.
Los coeficientes de prediccion inversa cuantificados alpha_re y alpha_im son proporcionados por
alpha_re = alpha_q_re*0,1 alpha_im = alpha_q_im*0,1
Cabe destacar que la invencion no solo se aplica a senales estereo, es decir, senales multicanal que tienen solo dos canales, sino que tambien se aplica a dos canales de una senal multicanal que tiene tres o mas canales tales como una senal 5.1 o 7.1.
La senal de audio codificada de la invencion se puede almacenar en un medio de almacenamiento digital o se puede transmitir en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision por cable como Internet.
Dependiendo de determinados requisitos para la implementacion, las formas de realizacion de la invencion se pueden implementar en un hardware o en un software. La implementacion se puede llevar a cabo utilizando un medio digital de almacenamiento, por ejemplo un disco flexible, un DVD, un CD, una ROM (memoria de solo lectura, segun sus siglas en ingles), una PROM (memoria programable de solo lectura, segun sus siglas en ingles), una EPROM (una PROM borrable, segun sus siglas en ingles), una EEPROM (una PROM borrable electricamente) o una memoria FLASH, que tiene senales de control legibles electronicamente almacenadas en el mismo, las cuales colaboran (o son capaces de colaborar) con un sistema informatico programable de modo que el metodo respectivo se lleve a cabo.
Algunas formas de realizacion de acuerdo con la invencion comprenden un portador de datos no temporario o tangible que tiene senales de control legibles electronicamente, las cuales son capaces de colaborar con un sistema informatico programable, de modo que uno de los metodos descritos en la presente se lleve a cabo.
En general, las formas de realizacion de la presente invencion se pueden implementar como un producto de programa informatico con un codigo de programa el cual es operativo para llevar a cabo uno de los metodos cuando el producto de programa informatico se ejecuta en una computadora. El codigo de programa se puede almacenar, por ejemplo, en un portador legible por computadora.
Otras formas de realizacion comprenden el programa informatico para llevar a cabo uno de los metodos descritos en
18
5
10
15
20
25
30
la presente, almacenados en un portador legible por computadora.
En otros terminos, una forma de realizacion del metodo de la invencion es, por lo tanto, un programa informatico que tiene un codigo de programa para llevar a cabo uno de los metodos descritos en la presente, cuando el programa informatico se ejecuta en una computadora.
Una forma de realizacion adicional de los metodos de la invencion es, por lo tanto, un portador de datos (o un medio digital de almacenamiento, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informatico para llevar a cabo uno de los metodos descritos en la presente.
Una forma de realizacion adicional del metodo de la invencion es, por lo tanto, una corriente de datos o una secuencia de senales que representa el programa informatico para llevar a cabo uno de los metodos descritos en la presente. La corriente de datos o la secuencia de senales pueden estar configuradas, por ejemplo, para ser transferidas mediante una conexion de comunicacion de datos, por ejemplo, a traves de Internet.
Otra forma de realizacion comprende un medio de procesamiento, por ejemplo, una computadora, o un dispositivo logico programable, configurado o adaptado para llevar a cabo uno de los metodos descritos en la presente.
Otra forma de realizacion comprende una computadora que tiene instalado en la misma el programa informatico para llevar a cabo uno de los metodos descritos en la presente.
En algunas formas de realizacion se puede utilizar un dispositivo logico programable (por ejemplo un campo de matrices de puertas programables) para llevar a cabo algunas o todas las funcionalidades de los metodos descritos en la presente. En algunas formas de realizacion, un campo de matrices de puertas programables puede colaborar con un microprocesador a fin de llevar a cabo uno de los metodos descritos en la presente. En general, los metodos son llevados a cabo preferentemente por cualquier aparato de hardware.
Las formas de realizacion descritas anteriormente son simplemente ilustrativas de los principios de la presente invencion. Cabe entender que las modificaciones y variantes de las disposiciones y detalles descritos en la presente resultaran evidentes para los expertos en la tecnica. Por consiguiente, la invencion solo esta limitada por el alcance de las siguientes reivindicaciones de la patente y no por los detalles espedficos presentados a modo de descripcion y explicacion de las formas de realizacion incluidas en la presente.

Claims (12)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Un decodificador de audio para decodificar una senal de audio multicanal codificada (100), la senal de audio multicanal codificada comprende una primera senal de combinacion codificada generada en base a una regla de combinacion para combinar una primera senal de audio de canal y una segunda senal de audio de canal de una senal de audio multicanal, una senal residual de prediccion codificada e informacion de prediccion, que comprende:
    un decodificador de senales (110) para decodificar la primera senal de combinacion codificada (104) para obtener una primera senal de combinacion decodificada (112) y para decodificar la senal residual codificada (106) para obtener una senal residual decodificada (114); y
    una calculadora del decodificador (116) para calcular una senal de audio multicanal decodificada que tiene una primera senal de audio de canal decodificada (117), y una segunda senal de audio de canal decodificada (118) utilizando la senal residual decodificada (114), la informacion de prediccion (108) y la primera senal de combinacion decodificada (112), de modo que la primera senal de audio de canal decodificada (117) y la segunda senal de audio de canal decodificada (118) son por lo menos aproximaciones de la primera senal de audio de canal y la segunda senal de audio de canal de la senal de audio multicanal, en donde la informacion de prediccion (108) comprende un factor de valor real distinto de cero y/o un factor imaginario distinto de cero, en el cual la calculadora del decodificador (116) comprende:
    un predictor (1160) para aplicar la informacion de prediccion (108) a la primera senal de combinacion decodificada (112) o a una senal (601) proveniente de la primera senal de combinacion decodificada para obtener una senal de prediccion (1163);
    una calculadora de senales de combinacion (1161) para calcular una segunda senal de combinacion (1165) combinando la senal residual decodificada (114) y la senal de prediccion (1163); y
    un combinador (1162) para combinar la primera senal de combinacion decodificada (112) y la segunda senal de combinacion (1165) para obtener una senal de audio multicanal decodificada que tiene la primera senal de audio de canal decodificada (117) y la segunda senal de audio de canal decodificada (118),
    en el cual el predictor (1160, 1160a) esta configurado para
    multiplicar la primera senal de combinacion decodificada por el factor real de la informacion de prediccion (108) para obtener una primera parte de la senal de prediccion,
    estimar una parte imaginaria de la primera senal de combinacion decodificada (112) usando una parte real de la primera senal de combinacion decodificada (112), comprendiendo estimar la parte imaginaria usar una pluralidad de subbandas de la primera senal de combinacion decodificada adyacentes en frecuencia, en las cuales, en caso de bajas o altas frecuencias, se usa una extension simetrica en frecuencia del cuadro actual de la primera senal de combinacion para las subbandas asociadas con frecuencias mas bajas o iguales a cero o mas altas o iguales a una mitad de una frecuencia de muestreo en la que esta basado el cuadro actual, o en el cual los coeficientes de filtro de un filtro incluido en el predictor (1160a) se establecen a diferentes valores para subbandas perdidas en comparacion con subbandas no perdidas,
    multiplicar la parte imaginaria (601) de la primera senal de combinacion decodificada por el factor imaginario de la informacion de prediccion (108) para obtener una segunda parte de la senal de prediccion; y en el cual la calculadora de senales de combinacion (1161) esta configurada para combinar en forma lineal la primera parte de la senal de prediccion y la segunda parte de la senal de prediccion y la senal residual decodificada para obtener la segunda senal de combinacion (1165).
  2. 2. Decodificador de audio de acuerdo con la reivindicacion 1,
    en el cual la primera senal de combinacion codificada (104) y la senal residual codificada (106) se han generado utilizando un solapamiento que genera la conversion de tiempo-espectral, en donde el decodificador ademas comprende:
    un convertidor espectral-tiempo (52, 53) para generar una primera senal de audio de canal de dominio de tiempo y una segunda senal de audio de canal de dominio de tiempo utilizando un algoritmo de conversion espectral- tiempo que coincide con el algoritmo de conversion de tiempo-espectral;
    un procesador de solapar/agregar (522) para llevar a cabo un procesamiento de solapar-agregar para la primera senal de audio de canal de dominio de tiempo y para la segunda senal de audio de canal de dominio de tiempo para obtener una primera senal de dominio de tiempo sin solapamiento y una segunda senal de dominio de tiempo sin solapamiento.
  3. 3. Un decodificador de audio de acuerdo con una de las reivindicaciones anteriores,
    en el cual la primera senal de combinacion codificada o decodificada (104) y la senal residual de prediccion codificada o decodificada (106) comprenden, cada una, una primera pluralidad de senales de subbandas, en donde la informacion de prediccion comprende una segunda pluralidad de parametros de informacion de prediccion, siendo la segunda pluralidad mas pequena que la primera pluralidad,
    en donde el predictor (1160) esta configurado para aplicar el mismo parametro de prediccion a por lo menos dos
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    senales de subbandas diferentes de la primera senal de combinacion decodificada,
    en donde la calculadora del decodificador (116) o la calculadora de senales de combinacion (1161) o el combinador (1162) estan configurados para llevar a cabo un procesamiento en subbandas; y
    en donde el decodificador de audio ademas comprende un banco de filtros de smtesis (52, 53) para combinar senales de subbandas de la primera senal de combinacion decodificada y la segunda senal de combinacion decodificada para obtener una primera senal decodificada de dominio de tiempo y una segunda senal decodificada de dominio de tiempo.
  4. 4. Decodificador de audio de acuerdo con la reivindicacion 1,
    en el cual el predictor (1160) esta configurado para filtrar por lo menos dos cuadros subsiguientes de tiempo, en donde uno de los dos cuadros subsiguientes de tiempo precede o sigue un cuadro actual de la primera senal de combinacion para obtener una parte imaginaria estimada de un cuadro actual de la primera senal de combinacion utilizando un filtro lineal (1004, 1005, 1006, 1007).
  5. 5. Decodificador de audio de acuerdo con la reivindicacion 1,
    en el cual la primera senal de combinacion decodificada comprende una secuencia de cuadros de senales de valor real, y
    en el cual el predictor (1160) esta configurado para estimar (1160a) una parte imaginaria del cuadro de senal actual utilizando solo el cuadro de senal de valor real actual o utilizando el cuadro de senal de valor real actual y, ya sea solo uno o mas cuadros de senal de valor real precedentes o solo uno o mas cuadros de valor real siguientes o utilizando el cuadro de senal de valor real actual y uno o mas cuadros de senal de valor real precedentes y uno o mas cuadros de senal de valor real siguientes.
  6. 6. Decodificador de audio de acuerdo con la reivindicacion 1, en el cual el predictor (1160) esta configurado para recibir informacion de la forma de ventana (109) y para utilizar distintos coeficientes de filtro para calcular un espectro imaginario, en donde los distintos coeficientes de filtro dependen de distintas formas de ventana indicadas por la informacion de la forma de ventana (109).
  7. 7. Decodificador de audio de acuerdo con la reivindicacion 4, 5 o 6,
    en el cual la primera senal de combinacion decodificada esta asociada con distintas longitudes de transformadas indicadas por un indicador de longitud de transformadas incluido en la senal de audio multicanal codificada (100), y en el cual el predictor (1160) esta configurado solamente para utilizar uno o mas cuadros de la primera senal de combinacion que tiene la misma longitud de transformada asociada para estimar la parte imaginaria para un cuadro actual para una primera senal de combinacion.
  8. 8. Decodificador de audio de acuerdo con una de las reivindicaciones anteriores,
    en el cual la informacion de prediccion (108) esta incluida en la senal de audio multicanal codificada en una representacion cuantificada y codificada por entropfa,
    en donde el decodificador de audio ademas comprende un decodificador de informacion de prediccion (65) para la decodificacion por entropfa o la descuantificacion para obtener una informacion de prediccion decodificada utilizada por el predictor (1160), o
    en el cual la senal de audio multicanal codificada comprende una unidad de datos que indica en el primer estado que el predictor (1160) tiene que utilizar por lo menos un cuadro anterior o siguiente en el tiempo a un cuadro actual de la primera senal de combinacion decodificada, y que indica en el segundo estado que el predictor (1160) tiene que utilizar solo un cuadro de la primera senal de combinacion decodificada para estimar una parte imaginaria para el cuadro actual de la primera senal de combinacion decodificada, y en el cual el predictor (1160) esta configurado para detectar un estado de la unidad de datos y para operar en consecuencia.
  9. 9. Decodificador de audio de acuerdo con una de las reivindicaciones anteriores, en el cual la informacion de prediccion (108) comprende palabras clave de diferencias entre valores complejos secuenciales de tiempo o adyacentes de frecuencia, y
    en donde el decodificador de audio esta configurado para llevar a cabo un paso de decodificacion por entropfa y un paso de decodificacion de diferencia subsiguiente para obtener valores de prediccion compleja cuantificada secuencial de tiempo o valores de prediccion compleja para bandas de frecuencia adyacentes.
  10. 10. Decodificador de audio de acuerdo con una de las reivindicaciones 1 a 7, en el cual la senal de audio multicanal codificada comprende, como informacion lateral, un indicador real que indica que todos los coeficientes de prediccion para un cuadro de la senal de audio multicanal codificada son de valor real,
    en donde el decodificador de audio esta configurado para extraer el indicador real de la senal de audio multicanal codificada (100), y
    en donde la calculadora del decodificador (116) esta configurada para no calcular una senal imaginaria para un cuadro, para el cual el indicador real esta indicando solo coeficientes de prediccion de valor real.
  11. 11. Metodo para decodificar una senal de audio multicanal codificada (100), comprendiendo la senal de audio
    5
    10
    15
    20
    25
    30
    35
    40
    45
    multicanal codificada una primera senal de combinacion codificada generada en base a una regla de combinacion para combinar una primera senal de audio de canal y una segunda senal de audio de canal de una senal de audio multicanal, una senal residual de prediccion codificada e informacion de prediccion, que comprende:
    decodificar (110) la primera senal de combinacion codificada (104) para obtener una primera senal de combinacion decodificada (112), y decodificar la senal residual codificada (106) para obtener una senal residual decodificada (114); y
    calcular (116) una senal de audio multicanal decodificada que tiene una primera senal de canal decodificada (117), y una segunda senal de canal decodificada (118) utilizando la senal residual decodificada (114), la informacion de prediccion (108) y la primera senal de combinacion decodificada (112), de modo que la primera senal de audio de canal decodificada (117) y la segunda senal de audio de canal decodificada (118) son por lo menos aproximaciones de la primera senal de audio de canal y la segunda senal de audio de canal de la senal de audio multicanal, en donde la informacion de prediccion (108) comprende un factor de valor real distinto de cero y/o un factor imaginario distinto de cero.
    aplicar la informacion de prediccion (108) a la primera senal de combinacion decodificada (112) o a una senal (601) proveniente de la primera senal de combinacion decodificada, por un predictor (1160), para obtener una senal de prediccion (1163);
    calcular una segunda senal de combinacion (1165) combinando la senal residual decodificada (114) y la senal de prediccion (1163), mediante un calculador de senal de combinacion (1161), y combinar la primera senal de combinacion (112) y la segunda senal de combinacion (1165) decodificadas para obtener una senal de audio multicanal decodificada que tiene la primera senal de audio de canal decodificada (117) y la segunda senal de audio de canal decodificada (118), por un combinador (1162),
    en el cual aplicar la informacion de prediccion comprende:
    multiplicar la primera senal de combinacion decodificada por el factor real de la informacion de prediccion (108) para obtener una primera parte de la senal de prediccion,
    estimar una parte imaginaria de la primera senal de combinacion decodificada (112) usando una parte real de la primera senal de combinacion decodificada (112), comprendiendo estimar la parte imaginaria usar una pluralidad de subbandas de la primera senal de combinacion decodificada adyacentes en frecuencia, en las cuales, en caso de bajas o altas frecuencias, se usa una extension simetrica en frecuencia del cuadro actual de la primera senal de combinacion para las subbandas asociadas con frecuencias mas bajas o iguales a cero o mas altas o iguales a una mitad de una frecuencia de muestreo en la que esta basado el cuadro actual, o en el cual los coeficientes de filtro de un filtro incluido en el predictor (1160a) se establecen a diferentes valores para subbandas perdidas en comparacion con subbandas no perdidas, multiplicar la parte imaginaria (601) de la primera senal de combinacion decodificada por el factor imaginario de la informacion de prediccion (108) para obtener una segunda parte de la senal de prediccion; y
    en el cual calcular la segunda senal de combinacion comprende combinar en forma lineal la primera parte de la senal de prediccion, la segunda parte de la senal de prediccion y la senal residual decodificadas para obtener la segunda senal de combinacion (1165).
  12. 12. Un programa de computadora para llevar a cabo, cuando se ejecuta en una computadora o en un procesador, el metodo de la reivindicacion 11.
ES11709735.2T 2010-04-09 2011-03-23 Decodificación de señales de audio multicanal usando predicción compleja Active ES2552839T3 (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US32268810P 2010-04-09 2010-04-09
US322688P 2010-04-09
US36390610P 2010-07-13 2010-07-13
EP10169432 2010-07-13
US363906P 2010-07-13
EP10169432A EP2375409A1 (en) 2010-04-09 2010-07-13 Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PCT/EP2011/054485 WO2011124473A1 (en) 2010-04-09 2011-03-23 Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction

Publications (1)

Publication Number Publication Date
ES2552839T3 true ES2552839T3 (es) 2015-12-02

Family

ID=43828187

Family Applications (3)

Application Number Title Priority Date Filing Date
ES15176784T Active ES2701456T3 (es) 2010-04-09 2011-03-23 Codificación de señales de audio multicanal usando predicción compleja y codificación diferencial
ES15176776T Active ES2701862T3 (es) 2010-04-09 2011-03-23 Decodificación de una señal de audio estéreo usando predicción compleja
ES11709735.2T Active ES2552839T3 (es) 2010-04-09 2011-03-23 Decodificación de señales de audio multicanal usando predicción compleja

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES15176784T Active ES2701456T3 (es) 2010-04-09 2011-03-23 Codificación de señales de audio multicanal usando predicción compleja y codificación diferencial
ES15176776T Active ES2701862T3 (es) 2010-04-09 2011-03-23 Decodificación de una señal de audio estéreo usando predicción compleja

Country Status (18)

Country Link
US (1) US8655670B2 (es)
EP (8) EP2375409A1 (es)
JP (1) JP5705964B2 (es)
KR (1) KR101425155B1 (es)
CN (1) CN103098126B (es)
AR (1) AR080842A1 (es)
AU (1) AU2011238010B2 (es)
CA (1) CA2804907C (es)
ES (3) ES2701456T3 (es)
HK (1) HK1180823A1 (es)
MX (1) MX2012011603A (es)
MY (1) MY160467A (es)
PL (7) PL2947655T3 (es)
RU (1) RU2577195C2 (es)
SG (1) SG184815A1 (es)
TW (1) TWI444990B (es)
WO (1) WO2011124473A1 (es)
ZA (1) ZA201208364B (es)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
BR112012026324B1 (pt) * 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
US8654984B2 (en) * 2011-04-26 2014-02-18 Skype Processing stereophonic audio signals
US9317458B2 (en) * 2012-04-16 2016-04-19 Harman International Industries, Incorporated System for converting a signal
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
BR112016003029B1 (pt) 2013-08-23 2023-04-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Aparelho e método para processamento de um sinal de áudio utilizando uma combinação em uma faixa de sobreposição
EP3293734B1 (en) * 2013-09-12 2019-05-15 Dolby International AB Decoding of multichannel audio content
WO2015036348A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Time- alignment of qmf based processing data
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
DE102015101847B4 (de) * 2015-02-10 2017-11-02 Eyesense Gmbh Strahlteiler und Anordnung zur Untersuchung einer mittels elektromagnetischer Strahlung anregbaren Probe
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016162283A1 (en) 2015-04-07 2016-10-13 Dolby International Ab Audio coding with range extension
US9972334B2 (en) * 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
KR102230668B1 (ko) 2016-01-22 2021-03-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
FI3539125T3 (fi) 2016-11-08 2023-03-21 Fraunhofer Ges Forschung Laite ja menetelmä monikanavasignaalin koodaamiseksi ja dekoodaamiseksi käyttäen sivuvahvistusta ja jäännösvahvistusta
US10217468B2 (en) 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
CN108877815B (zh) 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10580420B2 (en) * 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
EP3729427A1 (en) * 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
KR20200000649A (ko) 2018-06-25 2020-01-03 네이버 주식회사 오디오 병렬 트랜스코딩을 위한 방법 및 시스템
JP7407110B2 (ja) 2018-07-03 2023-12-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
US11263550B2 (en) * 2018-09-09 2022-03-01 International Business Machines Corporation Audit machine learning models against bias
US11308414B2 (en) * 2018-10-11 2022-04-19 International Business Machines Corporation Multi-step ahead forecasting using complex-valued vector autoregregression
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CA3145047A1 (en) * 2019-07-08 2021-01-14 Voiceage Corporation Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
DE102020210917B4 (de) 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
CN112040435A (zh) * 2020-09-09 2020-12-04 成都智联科鸿电子科技有限公司 一种多通道捆绑的物联网数据回传装置
US20240120941A1 (en) * 2021-02-18 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Encoding and decoding complex data
CN113343591B (zh) * 2021-07-16 2022-05-03 浙江大学 基于自注意力网络的产品关键零件寿命端到端预测方法
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
US6430529B1 (en) * 1999-02-26 2002-08-06 Sony Corporation System and method for efficient time-domain aliasing cancellation
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
US8359197B2 (en) 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7917561B2 (en) * 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
DE102006047197B3 (de) 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
JP2010503881A (ja) 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置
MX2010012580A (es) * 2008-05-23 2010-12-20 Koninkl Philips Electronics Nv Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.
KR101250309B1 (ko) * 2008-07-11 2013-04-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
AU2011237882B2 (en) * 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding

Also Published As

Publication number Publication date
WO2011124473A1 (en) 2011-10-13
EP2947652B1 (en) 2018-11-14
TW201205557A (en) 2012-02-01
PL2947653T3 (pl) 2019-04-30
EP2947656A1 (en) 2015-11-25
EP2947657A1 (en) 2015-11-25
CA2804907A1 (en) 2011-10-13
KR20130014561A (ko) 2013-02-07
EP2947655A1 (en) 2015-11-25
EP2947654B1 (en) 2018-10-17
MX2012011603A (es) 2012-11-30
MY160467A (en) 2017-03-15
PL2947657T3 (pl) 2019-04-30
RU2012147587A (ru) 2014-05-20
SG184815A1 (en) 2012-11-29
HK1180823A1 (en) 2013-10-25
ES2701456T3 (es) 2019-02-22
EP2947655B1 (en) 2018-10-24
PL2947654T3 (pl) 2019-04-30
CN103098126A (zh) 2013-05-08
US8655670B2 (en) 2014-02-18
PL2947656T3 (pl) 2019-03-29
AU2011238010A1 (en) 2012-11-08
ZA201208364B (en) 2013-07-31
EP2947656B1 (en) 2018-09-19
EP2375409A1 (en) 2011-10-12
EP2543038B1 (en) 2015-08-26
PL2947652T3 (pl) 2019-04-30
EP2543038A1 (en) 2013-01-09
EP2947654A1 (en) 2015-11-25
AU2011238010B2 (en) 2014-01-16
KR101425155B1 (ko) 2014-08-01
CN103098126B (zh) 2015-07-22
PL2543038T3 (pl) 2016-01-29
ES2701862T3 (es) 2019-02-26
EP2947653A1 (en) 2015-11-25
EP2947657B1 (en) 2018-10-24
RU2577195C2 (ru) 2016-03-10
PL2947655T3 (pl) 2019-04-30
EP2947653B1 (en) 2018-10-31
AR080842A1 (es) 2012-05-09
CA2804907C (en) 2016-05-31
JP5705964B2 (ja) 2015-04-22
US20130030819A1 (en) 2013-01-31
TWI444990B (zh) 2014-07-11
JP2013528822A (ja) 2013-07-11
EP2947652A1 (en) 2015-11-25

Similar Documents

Publication Publication Date Title
ES2552839T3 (es) Decodificación de señales de audio multicanal usando predicción compleja
ES2914474T3 (es) Método de decodificación de una señal de audio estéreo codificada usando una dirección de predicción variable
ES2704891T3 (es) Codificación de audio multicanal usando predicción compleja e indicador real
BR122020024260B1 (pt) Codificador de áudio ou vídeo, decodificador de áudio ou vídeo e métodos relacionados para o processamento do sinal de áudio ou vídeo de múltiplos canais usando uma direção de previsão variável