ES2708581T3 - Multichannel audio coding using complex prediction and window shape information - Google Patents

Multichannel audio coding using complex prediction and window shape information Download PDF

Info

Publication number
ES2708581T3
ES2708581T3 ES15176778T ES15176778T ES2708581T3 ES 2708581 T3 ES2708581 T3 ES 2708581T3 ES 15176778 T ES15176778 T ES 15176778T ES 15176778 T ES15176778 T ES 15176778T ES 2708581 T3 ES2708581 T3 ES 2708581T3
Authority
ES
Spain
Prior art keywords
signal
combination
prediction
decoded
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15176778T
Other languages
Spanish (es)
Inventor
Heiko Purnhagen
Pontus Carlsson
Lars Villemoes
Julien Robilliard
Matthias Neusinger
Christian Helmrich
Johannes Hilpert
Nikolaus Rettelbach
Sascha Disch
Bernd Edler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP10169432A external-priority patent/EP2375409A1/en
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2708581T3 publication Critical patent/ES2708581T3/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Descodificador de audio para descodificar una senal de audio multicanal codificada (100), comprendiendo la senal de audio multicanal codificada (100) una primera senal de combinacion codificada (104) generada sobre la base de una regla de combinacion para combinar una primera senal de audio de canal y una segunda senal de audio de canal de una senal de audio multicanal, una senal residual de prediccion codificada (106) e informacion de prediccion (108), que comprende: un descodificador de senales (110) para descodificar la primera senal de combinacion codificada (104) para obtener una primera senal de combinacion descodificada (112) y para descodificar la senal residual de prediccion codificada (106) para obtener una senal residual descodificada (114); y una calculadora de descodificador (116) para calcular una senal de audio multicanal descodificada que tiene una primera senal de canal descodificada (117), y una segunda senal de canal descodificada (118) usando la senal residual descodificada (114), la informacion de prediccion (108) y la primera senal de combinacion descodificada (112), de tal modo que la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118) son por lo menos aproximaciones de la primera senal de canal y la segunda senal de canal de la senal de audio multicanal, en donde la informacion de prediccion (108) comprende una porcion imaginaria distinta de cero, en donde la calculadora de descodificador (116) comprende: un predictor (1160) para aplicar la informacion de prediccion (108) a la primera senal de combinacion descodificada (112) o a una senal (601) proveniente de la primera senal de combinacion descodificada (112) para obtener una senal de prediccion (1163); una calculadora de senales de combinacion (1161) para calcular una segunda senal de combinacion (1165) combinando la senal residual descodificada (114) y la senal de prediccion (1163); y un combinador (1162) para combinar la primera senal de combinacion descodificada (112) y la segunda senal de combinacion (1165) para obtener la senal de audio multicanal descodificada que tiene la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118), en donde el predictor (1160) comprende un convertidor de real a imaginario (1160) para estimar (1160a) un espectro imaginario de la primera senal de combinacion descodificada (112) usando una parte real de la primera senal de combinacion descodificada (112) directamente en el dominio de la frecuencia usando un filtrado bidimensional, estando sometida la parte real de la primera senal de combinacion descodificada (112) a una conmutacion de ventana, en donde el predictor (1160) esta configurado para multiplicar una parte imaginaria (601) de la primera senal de combinacion descodificada (112) por la parte imaginaria de la informacion de prediccion (108) para obtener al menos una parte de la senal de prediccion (1163), y en donde el predictor (1160) esta configurado para recibir una informacion de forma de ventana (109) y para usar diferentes coeficientes de filtro por el convertidor de real a imaginario (1160) para calcular el espectro imaginario de la primera senal de combinacion descodificada (112), en donde los diferentes coeficientes de filtro dependen de diferentes formas de ventana que son indicadas por la informacion de forma de ventana (109), en donde los coeficientes de filtro que son usados por el predictor (1160) dependen de una ventana completa, y en donde se requiere un conjunto de coeficientes de filtro para cada tipo de ventana y para cada transicion de ventana.Audio decoder for decoding a multichannel encoded audio signal (100), the encoded multichannel audio signal (100) comprising a first encoded combination signal (104) generated on the basis of a combination rule to combine a first audio signal channel and a second channel audio signal of a multi-channel audio signal, a residual encoded prediction signal (106) and prediction information (108), comprising: a signal decoder (110) for decoding the first signal of coded combination (104) for obtaining a first decoded combination signal (112) and for decoding the residual encoded prediction signal (106) to obtain a decoded residual signal (114); and a decoder calculator (116) for computing a decoded multichannel audio signal having a first decoded channel signal (117), and a second decoded channel signal (118) using the decoded residual signal (114), the decoding information prediction (108) and the first decoded combination signal (112), such that the first decoded channel signal (117) and the second decoded channel signal (118) are at least approximations of the first channel signal and the second signal channel of the multichannel audio signal, wherein the prediction information (108) comprises an imaginary portion other than zero, wherein the decoder calculator (116) comprises: a predictor (1160) for applying the information of prediction (108) to the first decoded combination signal (112) or to a signal (601) from the first decoded combination signal (112) to obtain a prediction signal (1163); a combination signal calculator (1161) for computing a second combination signal (1165) by combining the decoded residual signal (114) and the prediction signal (1163); and a combiner (1162) for combining the first decoded combination signal (112) and the second combination signal (1165) to obtain the decoded multi-channel audio signal having the first decoded channel signal (117) and the second signal of decoded channel (118), wherein the predictor (1160) comprises a real-to-imaginary converter (1160) to estimate (1160a) an imaginary spectrum of the first decoded combination signal (112) using a real part of the first signal of decoded combination (112) directly in the frequency domain using a two dimensional filtering, the real part of the first decoded combination signal (112) being subjected to a window switching, wherein the predictor (1160) is configured to multiply a imaginary part (601) of the first decoded combination signal (112) by the imaginary part of the prediction information (108) to obtain at least a part of the pre-signal diction (1163), and wherein the predictor (1160) is configured to receive a window shape information (109) and to use different filter coefficients by the imaginary real converter (1160) to calculate the imaginary spectrum of the first decoded combination signal (112), wherein the different filter coefficients depend on different window forms that are indicated by the window shape information (109), wherein the filter coefficients that are used by the predictor (1160) ) depend on a complete window, and where a set of filter coefficients is required for each type of window and for each window transition.

Description

DESCRIPCIONDESCRIPTION

Codificacion de audio multicanal usando prediccion compleja e informacion de forma de ventanaMultichannel audio coding using complex prediction and window shape information

La presente invencion se refiere a procesamiento de audio y, en concreto, al procesamiento de audio multicanal de una senal multicanal que tiene dos o mas senales de canal.The present invention relates to audio processing and, in particular, to multi-channel audio processing of a multi-channel signal having two or more channel signals.

En el campo del procesamiento de estereo o multicanal se sabe aplicar la asf denominada codificacion de estereo central / lateral. De acuerdo con este concepto se forma una combinacion de la senal de canal de audio izquierda o primera y la senal de canal de audio derecha o segunda para obtener una senal central o mono M. Adicionalmente se forma una diferencia entre la senal de canal izquierda o primera y la senal de canal derecha o segunda para obtener la senal lateral S. Este metodo de codificacion central / lateral logra una ganancia de codificacion significativa, cuando la senal izquierda y la senal derecha son muy similares entre sf, debido a que la senal lateral se volvera bastante pequena. Por lo general, una ganancia de codificacion de una etapa de codificador de entropfa / cuantificador resultara superior, cuando el rango de valores a cuantificar / codificar por entropfa es menor. De este modo, para una PCM o un codificador aritmetico de entropfa o basado en Huffman, la ganancia de codificacion aumenta, cuando la senal lateral se vuelve mas pequena. No obstante, existen determinadas situaciones en las cuales la codificacion central / lateral no lograra una ganancia de codificacion. La situacion puede ocurrir cuando las senales en ambos canales estan desfasadas entre sf, por ejemplo, en 90°. Entonces, la senal central y la senal lateral pueden estar en un rango bastante similar y, por lo tanto, la codificacion de la senal central y la senal lateral usando el codificador por entropfa no lograra una ganancia de codificacion e incluso puede producir un aumento de tasa de bits. Por lo tanto se puede aplicar una codificacion central / lateral selectiva de frecuencia con el fin de desactivar la codificacion central / lateral en bandas, en donde la senal lateral no se vuelve mas pequena hasta un cierto grado con respecto a, por ejemplo, la senal izquierda original.In the field of stereo or multichannel processing it is known to apply the so-called central / lateral stereo coding. According to this concept, a combination of the left or first audio channel signal and the right or second audio channel signal is formed to obtain a central or mono M signal. Additionally, a difference is formed between the left channel signal or first and the signal of right or second channel to obtain the lateral signal S. This method of central / lateral coding achieves a gain of significant coding, when the left signal and the right signal are very similar to each other, because the lateral signal It will become quite small. In general, a gain of coding of a stage of encoder entropfa / quantifier will be higher, when the range of values to be quantified / encoded by entropfa is smaller. Thus, for a PCM or an entropic arithmetic or Huffman-based encoder, the coding gain increases, when the lateral signal becomes smaller. However, there are certain situations in which the central / lateral encoding will not achieve a coding gain. The situation can occur when the signals in both channels are out of phase with each other, for example, by 90 °. Then, the central signal and the lateral signal may be in a fairly similar range and, therefore, the coding of the central signal and the lateral signal using the entropy encoder will not achieve a gain of coding and may even produce an increase of Bit rate. Therefore a selective central / lateral coding of frequency can be applied in order to deactivate the central / lateral coding in bands, where the lateral signal does not become smaller up to a certain degree with respect to, for example, the signal left original.

A pesar de que la senal lateral resultara cero, cuando las senales izquierda y derecha son identicas, logrando una maxima ganancia de codificacion debido a la eliminacion de la senal lateral, la situacion resulta de nuevo diferente cuando la senal central y la senal lateral son identicas con respecto a la conformacion de la forma de onda, pero la unica diferencia entre ambas senales radica en sus amplitudes generales. En este caso, cuando se presume adicionalmente que la senal lateral no tiene un desfase con respecto a la senal central, la senal lateral aumenta de forma significativa, a pesar de que, por otra parte, la senal central no disminuye demasiado con respecto a su rango de valores. Cuando dicha situacion ocurre en una determinada banda de frecuencia, entonces se desactivana de nuevo la codificacion central / lateral debido a la falta de ganancia de codificacion. La codificacion central / lateral se puede aplicar en forma selectiva de frecuencia o se puede aplicar, como alternativa, en el dominio de tiempo.Although the lateral signal is zero, when the left and right signals are identical, achieving maximum coding gain due to the elimination of the lateral signal, the situation is again different when the central signal and the lateral signal are identical with respect to the conformation of the waveform, but the only difference between both signals lies in its general amplitudes. In this case, when it is additionally presumed that the lateral signal does not have a lag with respect to the central signal, the lateral signal increases significantly, even though, on the other hand, the central signal does not decrease too much with respect to its range of values. When said situation occurs in a certain frequency band, then the central / lateral encoding is deactivated again due to the lack of coding gain. The central / lateral coding can be applied selectively in frequency or it can be applied, as an alternative, in the time domain.

Existen tecnicas alternativas de codificacion multicanal, las cuales no estan basadas en un tipo de metodo de forma de onda como codificacion central / lateral, pero que estan basadas en el procesamiento parametrico de acuerdo con determinadas senales binaurales. Dichas tecnicas se conocen segun los terminos “codificacion binaural de la senal”, “codificacion de estereo parametrico” o “codificacion del Entorno de MPEG”. En este punto se calculan determinadas senales para una pluralidad de bandas de frecuencia. Dichas senales incluyen diferencias de nivel entre canales, medidas de coherencia entre canales, diferencias de tiempo entre canales y / o diferencias de fase entre canales. Estos metodos parten de la premisa de que una impresion multicanal sentida por el oyente no necesariamente esta basada en las formas de onda detalladas de los dos canales, pero esta basada en las senales suministradas en forma selectiva de frecuencia o en la informacion exacta entre canales. Esto significa que, en una maquina de presentacion se debe tener cuidado de presentar senales multicanal que reflejen las senales con exactitud, si bien las formas de onda no tienen una importancia significativa.There are alternative techniques of multichannel coding, which are not based on a type of waveform method such as central / lateral coding, but which are based on parametric processing according to certain binaural signals. Said techniques are known according to the terms "binaural signal coding", "parametric stereo coding" or "coding of the MPEG environment". At this point certain signals are calculated for a plurality of frequency bands. These signals include level differences between channels, coherence measurements between channels, time differences between channels and / or phase differences between channels. These methods start from the premise that a multichannel impression felt by the listener is not necessarily based on the detailed waveforms of the two channels, but is based on the signals supplied in a selective frequency or in the exact information between channels. This means that, in a presentation machine, care must be taken to present multichannel signals that accurately reflect the signals, although the waveforms do not have a significant importance.

Este metodo puede resultar complejo en particular en el caso en el que el descodificador tiene que aplicar un procesamiento de descorrelacion con el fin de crear, de forma artificial, senales estereo, las cuales estan descorrelacionadas entre sf, a pesar de que la totalidad de dichos canales proviene de uno y del mismo canal de mezcla descendente. Los descorreladores para este proposito son complejos, dependiendo de su puesta en practica y pueden introducir distorsiones, en particular en el caso de porciones de senales transitorias. Adicionalmente, a diferencia de la codificacion de forma de onda, el metodo de codificacion parametrica es un metodo de codificacion con perdidas, el cual produce inevitablemente una perdida de informacion no solo introducida por la cuantificacion tfpica sino tambien introducida al considerar las senales binaurales en lugar de las formas de onda en particular. Este metodo produce tasas de bits muy bajas pero puede incluir compromisos de calidad.This method can be particularly complex in the case where the decoder has to apply a decorrelation processing in order to artificially create stereo signals, which are de-correlated with each other, despite the fact that all of said channels comes from one and the same downmix channel. The de-correctors for this purpose are complex, depending on their implementation and can introduce distortions, particularly in the case of portions of transient signals. Additionally, unlike waveform coding, the parametric coding method is a loss coding method, which inevitably results in a loss of information not only introduced by the typical quantization but also introduced by considering the binaural signals instead of the waveforms in particular. This method produces very low bit rates but may include quality commitments.

Existen desarrollos recientes en cuanto a la codificacion de voz y audio unificada (unified speech and audio coding, USAC) que se ilustra en la figura 7a. Un descodificador de nucleo 700 lleva a cabo una operacion de descodificacion de la senal estereo codificada en la entrada 701, la cual puede ser una senal codificada centro / lateral. El descodificador de nucleo emite una senal central en la lmea 702 y una senal lateral o residual en la lmea 703. Ambas senales se transforman a un dominio de QMF por los bancos de filtros QMF 704 y 705. Luego se aplica un descodificador del Entorno de MPEG 706 para generar una senal izquierda de canal 707 y una senal derecha de canal 708. Estas senales de banda baja se introducen posteriormente en un descodificador de replicacion espectral de ancho de banda (spectral band replication, SBR) 709, el cual produce senales izquierda y derecha de banda ancha en las lmeas 710 y 711, las cuales luego se transforman a un dominio de tiempo por los bancos de filtros de smtesis QMF 712, 713 de modo tal que se obtienen las senales izquierda y derecha de banda ancha L, R.There are recent developments in unified speech and audio coding ( USAC) that is illustrated in Figure 7a. A core decoder 700 performs a decoding operation of the stereo signal encoded at the input 701, which may be a center / side encoded signal. The core decoder emits a central signal on line 702 and a side or residual signal on line 703. Both signals are transformed to a QMF domain by filter banks QMF 704 and 705. A decoder is then applied to the environment. MPEG 706 to generate a left signal of channel 707 and a right signal of channel 708. These signals of low band are subsequently entered into a spectral replication decoder bandwidth (spectral band replication, SBR) 709, which produces broadband left and right signals on lines 710 and 711, which are then transformed to a time domain by the synthesis filter banks QMF 712, 713 so that the left and right broadband signals L, R are obtained.

La figura 7b ilustra una situacion en la que el descodificador del Entorno de MPEG 706 llevana a cabo una descodificacion central / lateral. Como alternativa, el bloque descodificador del Entorno de MPEG 706 podna llevar a cabo una descodificacion parametrica basada en la senal binaural para generar senales estereo a partir de una unica senal mono del descodificador de nucleo. Naturalmente, el descodificador del Entorno de MPEG 706 tambien podna generar una pluralidad de senales de salida de banda baja para introducir en el bloque descodificador de SBR 709 usando informacion parametrica tal como diferencias de nivel entre canales, medidas de coherencia entre canales u otros de dichos parametros de informacion entre canales.Figure 7b illustrates a situation in which the decoder of the MPEG 706 Environment performs a central / lateral decoding. Alternatively, the decoder block of the MPEG 706 Environment could perform a parametric decoding based on the binaural signal to generate stereo signals from a single mono signal of the core decoder. Naturally, the decoder of the MPEG 706 Environment could also generate a plurality of low band output signals to be input into the SBR 709 decoder block using parametric information such as level differences between channels, coherence measurements between channels or other such Parameters of information between channels.

Cuando el bloque descodificador del Entorno de MPEG 706 lleva a cabo la descodificacion central / lateral que se ilustra en la figura 7b se puede aplicar un factor de ganancia real g y DMX / RES y L / R son senales de mezcla descendente / residual e izquierda / derecha, de forma respectiva, representadas en el dominio complejo tnbrido QMF.When the decoder block of the MPEG 706 Environment performs the central / lateral decoding illustrated in Figure 7b, a real gain factor g and DMX / RES can be applied and L / R are down / residual and left / down mix signals / right, respectively, represented in the hybrid complex domain QMF.

El uso de una combinacion de un bloque 706 y un bloque 709 solo genera un pequeno aumento en la complejidad computacional en comparacion con un descodificador estereo usado como base, debido a que la representacion del QMF complejo de la senal ya esta disponible como parte del descodificador de SBR. No obstante, en una configuracion que no es de SBR, la codificacion estereo basada en QMF, propuesta en el contexto de la USAC, producina un aumento significativo en la complejidad computacional debido a los bancos de QMF necesarios, los cuales en este ejemplo necesitanan bancos de analisis de 64 bandas y bancos de smtesis de 64 bandas. Dichos bancos de filtros solo debenan agregarse para los fines de la codificacion estereo.The use of a combination of a block 706 and a block 709 only generates a small increase in computational complexity as compared to a stereo decoder used as a base, because the representation of the complex QMF of the signal is already available as part of the decoder of SBR. However, in a non-SBR configuration, the QMF-based stereo coding, proposed in the context of the USAC, results in a significant increase in computational complexity due to the necessary QMF banks, which in this example need banks. of analysis of 64 bands and banks of synthesis of 64 bands. These filter banks should only be added for the purposes of stereo coding.

En el sistema de USAC del MPEG en desarrollo, no obstante, tambien existen modos de codificacion a altas tasas de bits en donde por lo general, no se usa la SBR.In the USAC system of the developing MPEG, however, there are also coding modes at high bit rates where, in general, the SBR is not used.

Los siguientes documentos son ejemplares de esquemas de (des)codificacion de audio multicanal con lo que se estima una senal de diferencia a partir de una senal de mezcla descendente / sumador / mono mediante un coeficiente de prediccion de valor complejo:The following documents are examples of multichannel audio (de) coding schemes with which a difference signal is estimated from a descending / adder / mono signal by means of a complex value prediction coefficient:

HEIKO PURNHAGEN ET AL: "Technical description of proposed Unified Stereo Coding in USAC", 90. MPEG MEETING; 26 - 10 - 2009 - 30 - 10 - 2009; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), n.° M16921, 23 de octubre de 2009 (23 - 10 - 2009);HEIKO PURNHAGEN ET AL: " Technical description of proposed Unified Stereo Coding in USAC", 90. MPEG MEETING ; 26 - 10 - 2009 - 30 - 10 - 2009; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO / IEC JTC1 / SC29 / WG11 ), No. M16921, October 23, 2009 (October 23, 2009);

MAX NEUENDORF (EDITOR): "WD5 of USAC", 90. MPEG MEETING; 26 - 10 - 2009 - 30 - 10 - 2009; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO/IECJTC1/SC29/WG11), n.° N11040, 8 de diciembre de 2009 (08 -12 - 2009), paginas 1 - 146;MAX NEUENDORF (EDITOR): "WD5 of USAC", 90. MPEG MEETING; 26 - 10 - 2009 - 30 - 10 - 2009; XIAN; (MOTION PICTURE EXPERT GROUP OR ISO / IECJTC1 / SC29 / WG11), No. N11040, December 8, 2009 (08 -12 - 2009), pages 1 - 146;

Documento WO 2009/141775 A1 (KONINKL PHILIPS ELECTRONICS NV [NL]; SCHUIJERS ERIK G P [NL]) 26 de noviembre de 2009 (26 - 11 - 2009).WO 2009/141775 A1 (KONINKL PHILIPS ELECTRONICS NV [NL]; SCHUIJERS ERIK G P [NL]) November 26, 2009 (26 - 11 - 2009).

Ademas, se hace referencia al documento WO 2011/124608, publicado posteriormente.In addition, reference is made to WO 2011/124608, published subsequently.

Un objetivo de la presente invencion consiste en proporcionar un concepto mejorado de procesamiento de audio, el cual por una parte produce una alta ganancia de codificacion y, por otra parte, produce a buena calidad de audio y / o complejidad computacional reducida.An object of the present invention is to provide an improved audio processing concept, which on the one hand produces a high coding gain and, on the other hand, produces good audio quality and / or reduced computational complexity.

Este objetivo se logra mediante un descodificador de audio de acuerdo con la reivindicacion 1, un codificador de audio de acuerdo con la reivindicacion 13, un metodo de descodificacion de audio de acuerdo con la reivindicacion 17, un metodo de codificacion de audio de acuerdo con la reivindicacion 18 y un programa informatico de acuerdo con la reivindicacion 19. La presente invencion se basa en la conclusion de que una ganancia de codificacion del metodo de codificacion de forma de onda de alta calidad se puede mejorar de forma significativa mediante una prediccion de una segunda senal de combinacion usando una primera senal de combinacion, en donde ambas senales de combinacion provienen de las senales originales de canal usando una regla de combinacion tal como la regla de combinacion central / lateral. Se ha descubierto que esta informacion de prediccion es calculada por un predictor en un codificador de audio de tal modo que se cumple un objetivo de optimizacion, se incurre solo en una pequena sobrecarga, pero logra una disminucion significativa de la tasa de bits necesaria para la senal lateral sin perder ninguna calidad de audio, debido a que la prediccion inventiva es, no obstante, una codificacion basada en forma de onda y no un metodo de codificacion multicanal o estereo basado en parametros. Con el fin de reducir la complejidad computacional, se prefiere llevar a cabo una codificacion en el dominio de la frecuencia, en donde la informacion de prediccion proviene de datos de entrada del dominio de frecuencia en una forma selectiva de bandas. El algoritmo de conversion para convertir la representacion en el dominio del tiempo en una representacion espectral es preferentemente un proceso cnticamente muestreado tal como una transformada de coseno discreta modificada (modified discrete cosine transform, MDCT) o una transformada de seno discreta modificada (modified discrete sine transform, MDST), la cual es diferente de una transformada compleja debido a que se calculan solo valores reales o solo valores imaginarios, en tanto que en una transformada compleja se calculan valores reales y complejos de un espectro logrando un sobremuestreo dos veces mayor. This objective is achieved by an audio decoder according to claim 1, an audio encoder according to claim 13, an audio decoding method according to claim 17, an audio coding method according to the invention. claim 18 and a computer program according to claim 19. The present invention is based on the conclusion that a coding gain of the high-quality waveform coding method can be significantly improved by a prediction of a second one. combining signal using a first combination signal, where both combination signals come from the original channel signals using a combination rule such as the central / lateral combination rule. It has been found that this prediction information is calculated by a predictor in an audio encoder such that an optimization objective is met, only a small overload is incurred, but it achieves a significant decrease in the bit rate necessary for the side signal without losing any audio quality, because the inventive prediction is, however, a coding based on waveform and not a method of multichannel or stereo coding based on parameters. In order to reduce computational complexity, it is preferred to carry out an encoding in the frequency domain, wherein the prediction information comes from input data of the frequency domain in a selective form of bands. The conversion algorithm for converting the representation in the time domain into a spectral representation is preferably a process sampled quantically such as a modified discrete cosine transform ( MDCT) or a modified discrete sine transform (modified discrete sine transform, MDST), which is different from a complex transform due to the fact that only real values or only imaginary values are calculated, while in a complex transformation, real and complex values of a spectrum are calculated, achieving twice the oversampling.

Preferentemente se usa una transformada basada en introduccion y cancelacion de solapamiento. La MDCT, en particular, es una transformada de dichas caractensticas y permite una atenuacion cruzada entre bloques subsiguientes sin ninguna sobrecarga debido a la propiedad muy conocida de cancelacion de solapamiento en el dominio del tiempo (time domain aliasing cancellation, TDAC), la cual se obtiene mediante el procesamiento de solapar - agregar en el lado del descodificador.Preferably a transform based on introduction and cancellation of overlap is used. The MDCT, in particular, is a transformation of these characteristics and allows a cross attenuation between subsequent blocks without any overload due to the well-known property of time domain overlapping ( TDCA), which is get through the overlap processing - add on the decoder side.

Preferentemente, la informacion de prediccion calculada en el codificador, transmitida al descodificador y usada en el descodificador comprende una parte imaginaria, la cual puede reflejar de forma ventajosa las diferencias de fase entre los dos canales de audio en cantidades seleccionadas de forma arbitraria entre 0° y 360°. La complejidad computacional se reduce de forma significativa cuando se aplica solo una transformada de valor real o, en general, una transformada que proporciona, ya sea solo un espectro real o que solo proporciona un espectro imaginario. Con el fin de usar dicha informacion de prediccion imaginaria, la cual indica un desfase entre una determinada banda de la senal izquierda y una banda correspondiente de la senal derecha, un convertidor de real a imaginario o, dependiendo de la puesta en practica de la transformada, un convertidor de complejo a real se proporciona en el descodificador con el fin de calcular una senal residual de prediccion a partir de la primera senal de combinacion, la cual tiene la fase rotada con respecto a la senal de combinacion original. Esta senal residual de prediccion que tiene la fase rotada luego se puede combinar con la senal residual de prediccion transmitida en la corriente de bits para regenerar una senal lateral, la cual finalmente se puede combinar con la senal central para obtener el canal izquierdo descodificado en una determinada banda y el canal derecho descodificado en esta banda.Preferably, the prediction information calculated in the encoder, transmitted to the decoder and used in the decoder comprises an imaginary part, which can advantageously reflect the phase differences between the two audio channels in arbitrarily selected quantities between 0 ° and 360 °. Computational complexity is reduced significantly when only a real value transform is applied or, in general, a transform that provides, either only a real spectrum or that only provides an imaginary spectrum. In order to use said imaginary prediction information, which indicates a lag between a certain band of the left signal and a corresponding band of the right signal, a converter from real to imaginary or, depending on the implementation of the transform , a complex to real converter is provided in the decoder in order to calculate a residual signal of prediction from the first combination signal, which has the phase rotated with respect to the original combination signal. This residual signal of prediction that has the phase rotated can then be combined with the residual signal of prediction transmitted in the bitstream to regenerate a lateral signal, which can finally be combined with the central signal to obtain the decoded left channel in a certain band and the right channel decoded in this band.

Con el fin de aumentar la calidad de audio, el mismo convertidor de real a imaginario o el convertidor de complejo a real, el cual se aplica en el lado del descodificador se pone en practica tambien en el lado del codificador, cuando la senal residual de prediccion es calculada en el codificador.In order to increase the audio quality, the same converter from real to imaginary or the converter from complex to real, which is applied on the decoder side, is also implemented on the encoder side, when the residual signal of prediction is calculated in the encoder.

La presente invencion proporciona una ventaja porque mejora la calidad de audio y reduce la tasa de bits en comparacion con los sistemas que tienen la misma tasa de bits o que tienen la misma calidad de audio.The present invention provides an advantage because it improves the audio quality and reduces the bit rate as compared to systems that have the same bitrate or have the same audio quality.

Adicionalmente se obtienen ventajas con respecto a una eficiencia computacional de codificacion estereo unificada que resulta util en el sistema de USAC del MPEG a altas tasas de bits, en donde por lo general, no se usa la SBR. En lugar de procesar la senal en el dominio complejo hnbrido QMF, estos metodos ponen en practica una codificacion estereo predictiva de base residual en el dominio nativo de MDCT del codificador de transformada estereo subyacente.Additionally, advantages are obtained with respect to a computational efficiency of unified stereo coding which is useful in the USAC system of MPEG at high bit rates, where, in general, the SBR is not used. Instead of processing the signal in the complex hybrid domain QMF, these methods implement a predictive residual-base stereo encoding in the native MDCT domain of the underlying stereo transform encoder.

De acuerdo con un aspecto de la presente invencion, la presente invencion comprende un aparato o metodo para generar una senal estereo por prediccion compleja en el dominio de MDCT, en donde la prediccion compleja se lleva a cabo en el dominio de MDCT usando una transformada de real a complejo, en donde dicha senal estereo puede ser, ya sea una senal estereo codificada en el lado del codificador o puede ser, como alternativa, una senal estereo descodificada / transmitida, cuando el aparato o metodo para generar la senal estereo se aplica en el lado del descodificador.According to one aspect of the present invention, the present invention comprises an apparatus or method for generating a stereo signal by complex prediction in the MDCT domain, wherein the complex prediction is carried out in the MDCT domain using a transforming real to complex, wherein said stereo signal may be either a stereo signal encoded on the encoder side or may be, alternatively, a decoded / transmitted stereo signal, when the apparatus or method for generating the stereo signal is applied in the decoder side.

Las formas de realizacion preferidas de la presente invencion se describen a continuacion con respecto a los dibujos adjuntos, en los cuales:The preferred embodiments of the present invention are described below with respect to the accompanying drawings, in which:

La figura 1 es un diagrama de un descodificador de audio;Figure 1 is a diagram of an audio decoder;

La figura 2 es un diagrama de bloques de un codificador de audio;Figure 2 is a block diagram of an audio encoder;

La figura 3a ilustra una puesta en practica de la calculadora de codificador de la figura 2;Figure 3a illustrates an implementation of the encoder calculator of Figure 2;

La figura 3b ilustra una puesta en practica alternativa de la calculadora de codificador de la figura 2;Figure 3b illustrates an alternative implementation of the encoder calculator of Figure 2;

La figura 3c ilustra una regla de combinacion central / lateral para aplicar en el lado del codificador;Figure 3c illustrates a central / lateral combination rule to apply on the encoder side;

La figura 4a ilustra una puesta en practica de la calculadora de descodificador de la figura 1;Figure 4a illustrates an implementation of the decoder calculator of Figure 1;

La figura 4b ilustra una puesta en practica alternativa de la calculadora de descodificador en forma de una calculadora de matriz;Figure 4b illustrates an alternative implementation of the decoder calculator in the form of a matrix calculator;

La figura 4c ilustra una regla de combinacion inversa central / lateral correspondiente a la regla de combinacion que se ilustra en la figura 3c;Figure 4c illustrates a central / lateral reverse combining rule corresponding to the combination rule illustrated in Figure 3c;

La figura 5a ilustra una forma de realizacion de un codificador de audio que opera en el dominio de frecuencia, el cual es preferentemente un dominio de frecuencia de valor real;Figure 5a illustrates an embodiment of an audio encoder operating in the frequency domain, which is preferably a real value frequency domain;

La figura 5b ilustra una puesta en practica de un descodificador de audio que opera en el dominio de frecuencia; La figura 6a ilustra una puesta en practica alternativa de un codificador de audio que opera en el dominio de MDCT y usa una transformada de real a imaginario de acuerdo con una forma de realizacion de la presente invencion;Figure 5b illustrates an implementation of an audio decoder operating in the frequency domain; Figure 6a illustrates an alternative implementation of an audio encoder operating in the MDCT domain and using a real-to-imaginary transform according to an embodiment of the present invention;

La figura 6b ilustra un descodificador de audio que opera en el dominio de MDCT y usa una transformada de real a imaginario de acuerdo con una forma de realizacion de la presente invencion;Figure 6b illustrates an audio decoder operating in the MDCT domain and using a real-to-imaginary transform according to an embodiment of the present invention;

La figura 7a ilustra un post-procesador de audio que usa un descodificador estereo y un descodificador de SBR conectado posteriormente;Figure 7a illustrates an audio post-processor using a stereo decoder and a later connected SBR decoder;

La figura 7b ilustra una matriz de mezcla ascendente central / lateral;Figure 7b illustrates a central / lateral upmix matrix;

La figura 8a ilustra una vista detallada en el bloque de MDCT en la figura 6a; Figure 8a illustrates a detailed view in the MDCT block in Figure 6a;

La figura ilustra una vista detallada en el bloque de MDCT de la figura 6b;The figure illustrates a detailed view in the MDCT block of Figure 6b;

La figura 9a ilustra una puesta en practica de un optimizador que opera en resolucion reducida con respecto a la salida de MDCT;Figure 9a illustrates an implementation of an optimizer operating at reduced resolution with respect to the MDCT output;

La figura 9b ilustra una representacion de un espectro de MDCT y las bandas correspondientes de resolucion inferior, en las cuales se calcula la informacion de prediccion;Figure 9b illustrates a representation of a MDCT spectrum and the corresponding bands of lower resolution, in which the prediction information is calculated;

La figura 10a ilustra una puesta en practica del transformador de real a imaginario en la figura 6a o en la figura 6b;Figure 10a illustrates an implementation of the real-to-imaginary transformer in Figure 6a or Figure 6b;

yY

La figura 10b ilustra una puesta en práctica posible de la calculadora de espectro imaginario de la figura 10a. Figure 10b illustrates a possible implementation of the imaginary spectrum calculator of Figure 10a.

La figura 1 ilustra un descodificador de audio para descodificar una señal de audio multicanal codificada y obtenida en una línea de entrada 100. La señal de audio multicanal codificada comprende una primera señal de combinación codificada que se genera usando una regla de combinacion para combinar una primera senal de canal y una segunda senal de canal que representan la senal de audio multicanal, una senal residual de prediccion codificada e informacion de prediccion. La senal multicanal codificada puede ser una corriente de datos tal como una corriente de bits, la cual tiene los tres componentes en una forma multiplexada. Se puede incluir informacion lateral adicional en la senal multicanal codificada en la lmea 100. La senal se introduce en una interfaz de entrada 102. La interfaz de entrada 102 se puede poner en practica como un desmultiplexor de corriente de datos, el cual emite la primera senal de combinacion codificada en la lmea 104, la senal residual codificada en la lmea 106 y la informacion de prediccion en la lmea 108. Preferentemente, la informacion de prediccion es un factor que tiene una parte real que no es igual a cero y / o una parte imaginaria distinta de cero. La senal de combinacion codificada y la senal residual codificada se introducen en un descodificador de senales 110 para descodificar la primera senal de combinacion para obtener una primera senal de combinacion descodificada en la lmea 112. Adicionalmente, el descodificador de senales 110 esta configurado para descodificar la senal residual codificada para obtener una senal residual descodificada en la lmea 114. Dependiendo del procesamiento de codificacion en un lado del codificador de audio, el descodificador de senales puede comprender un descodificador de entropfa tal como un descodificador Huffman, un descodificador aritmetico o cualquier otro descodificador de entropfa y una etapa de descuantificacion conectada posteriormente para llevar a cabo una operacion de descuantificacion que coincida con una operacion del cuantificador en un codificador de audio asociado. Las senales en la lmea 112 y 114 se introducen en una calculadora de descodificador 115, la cual emite la primera senal de canal en la lmea 117 y una segunda senal de canal en la lmea 118, en donde estas dos senales son senales estereo o dos canales de una senal de audio multicanal. Cuando, por ejemplo, la senal de audio multicanal comprende cinco canales, entonces las dos senales son dos canales de la senal multicanal. Con el fin de codificar totalmente dicha senal multicanal que tiene cinco canales se pueden aplicar dos descodificadores que se ilustran en la figura 1, en donde el primer descodificador procesa el canal izquierdo y el canal derecho, el segundo descodificador procesa el canal del entorno izquierdo y el canal del entorno derecho, y un tercer descodificador mono se usana para llevar a cabo una codificacion mono del canal central. No obstante, tambien se pueden aplicar otros agrupamientos o combinaciones de codificadores de forma de onda y codificadores parametricos. Una forma alternativa de generalizar el esquema de prediccion a mas de dos canales sena tratar tres senales (o mas) al mismo tiempo, es decir, predecir una 3a senal de combinacion a partir de una 1a y 2a senal usando dos coeficientes de prediccion, en forma muy similar al modulo “de dos a tres” en el Entorno de MPEG. Figure 1 illustrates an audio decoder for decoding a multichannel audio signal encoded and obtained on an input line 100. The encoded multichannel audio signal comprises a first coded combination signal that is generated using a combination rule to combine a first channel signal and a second channel signal representing the multichannel audio signal, a residual signal of coded prediction and prediction information. The encoded multi-channel signal may be a data stream such as a bitstream, which has all three components in a multiplexed form. Additional side information may be included in the multi-channel signal encoded on line 100. The signal is input to an input interface 102. The input interface 102 may be implemented as a data stream demultiplexer, which outputs the first combination signal encoded on line 104, the residual signal encoded on line 106 and the prediction information on line 108. Preferably, the prediction information is a factor that has a real part that is not equal to zero and / or an imaginary part other than zero. The coded combination signal and the coded residual signal are input to a signal decoder 110 for decoding the first combination signal to obtain a first decoded combination signal on the line 112. Additionally, the signal decoder 110 is configured to decode the signal. residual signal encoded to obtain a decoded residual signal on line 114. Depending on the coding processing on one side of the audio encoder, the signal decoder may comprise an entropy decoder such as a Huffman decoder, an arithmetic decoder or any other decoder of entropy and a subsequent dequantization stage connected to perform an dequantization operation that matches an operation of the quantizer in an associated audio encoder. The signals on line 112 and 114 are input to a decoder calculator 115, which outputs the first channel signal on line 117 and a second channel signal on line 118, where these two signals are stereo signals or two. channels of a multichannel audio signal. When, for example, the multichannel audio signal comprises five channels, then the two signals are two channels of the multi-channel signal. In order to fully encode said multi-channel signal having five channels, two decoders can be applied as illustrated in Figure 1, wherein the first decoder processes the left channel and the right channel, the second decoder processes the channel of the left environment and the channel of the right environment, and a third mono decoder is used to carry out a mono coding of the center channel. However, other groupings or combinations of waveform encoders and parametric encoders may also be applied. An alternative way to generalize the prediction scheme to more than two channels is to treat three signals (or more) at the same time, that is, to predict a 3rd combination signal from a 1st and 2nd signal using two prediction coefficients, in very similar to the "two to three" module in the MPEG environment.

La calculadora de descodificador 116 esta configurada para calcular una senal multicanal descodificada que tiene la primera senal de canal descodificada 117 y la segunda senal de canal descodificada 118 usando la senal residual descodificada 114, la informacion de prediccion 108 y la primera senal de combinacion descodificada 112. En concreto, la calculadora de descodificador 116 esta configurada para operar de tal modo que la primera senal de canal descodificada y la segunda senal de canal descodificada son al menos una aproximacion de una primera senal de canal y una segunda senal de canal de la senal multicanal introducidas en un codificador correspondiente, las cuales estan combinadas por la regla de combinacion cuando se genera la primera senal de combinacion y la senal residual de prediccion. En concreto, la informacion de prediccion en la lmea 108 comprende una parte de valor real distinta de cero y / o una parte imaginaria distinta de cero.The decoder calculator 116 is configured to calculate a decoded multi-channel signal having the first decoded channel signal 117 and the second decoded channel signal 118 using the decoded residual signal 114, the prediction information 108 and the first decoded combination signal 112. In particular, the decoder calculator 116 is configured to operate in such a way that the first decoded channel signal and the second decoded channel signal are at least an approximation of a first channel signal and a second signal channel of the signal multichannel signals introduced in a corresponding encoder, which are combined by the combination rule when the first combination signal is generated and the residual signal of prediction. In particular, the prediction information in line 108 comprises a part of real value other than zero and / or an imaginary part other than zero.

La calculadora de descodificador 116 se puede poner en practica de diversos modos. Una primera puesta en practica se ilustra en la figura 4a. Esta puesta en practica comprende un predictor 1160, una calculadora de senales de combinacion 1161 y un combinador 1162. El predictor recibe la primera senal de combinacion descodificada 112 y la informacion de prediccion 108 y emite una senal de prediccion 1163. En concreto, el predictor 1160 esta configurado para aplicar la informacion de prediccion 108 a la primera senal de combinacion descodificada 112 o una senal proveniente de la primera senal de combinacion descodificada. La regla de derivacion para derivar la senal a la cual se aplica la informacion de prediccion 108 puede ser una transformada de real a imaginario, o por igual, una transformada de imaginario a real o una operacion de ponderacion o, dependiendo de la puesta en practica, una operacion de desfase o una operacion combinada de ponderacion / desfase. La senal de prediccion 1163 se introduce junto con la senal residual descodificada en la calculadora de senales de combinacion 1161 con el fin de calcular la segunda senal de combinacion descodificada 1165. Ambas senales 112 y 1165 se introducen en el combinador 1162, el cual combina la primera senal de combinacion descodificada y la segunda senal de combinacion para obtener la senal de audio multicanal descodificada que tiene la primera senal de canal descodificada y la segunda senal de canal descodificada en las lmeas de salida 1166 y 1167, de forma respectiva. The decoder calculator 116 can be implemented in various ways. A first implementation is illustrated in Figure 4a. This implementation comprises a predictor 1160, a combination signal calculator 1161 and a combiner 1162. The predictor receives the first decoded combination signal 112 and the prediction information 108 and outputs a prediction signal 1163. Specifically, the predictor 1160 is configured to apply the prediction information 108 to the first decoded combination signal 112 or a signal from the first decoded combination signal. The derivation rule for deriving the signal to which the prediction information 108 is applied may be a transform from real to imaginary, or equally, an imaginary to real transform or a weighting operation or, depending on the implementation , a lag operation or a combined weighting / lag operation. The prediction signal 1163 is input together with the decoded residual signal in the combination signal calculator 1161 in order to calculate the second decoded combination signal 1165. Both signals 112 and 1165 are input to the combiner 1162, which combines the first decoded combination signal and the second combination signal for obtaining the decoded multi-channel audio signal having the first decoded channel signal and the second decoded channel signal on the output lines 1166 and 1167, respectively.

Como alternativa, la calculadora de descodificador se pone en practica como una calculadora de matriz 1168, la cual recibe, como entrada, la primera senal de combinacion descodificada o senal M, la senal residual descodificada o senal D y la informacion de prediccion a 108. La calculadora de matriz 1168 aplica una matriz de transformada que se ilustra como 1169 a las senales M, D para obtener las senales de salida L, R, en donde L es la primera senal de canal descodificada y R es la segunda senal de canal descodificada. La notacion en la figura 4b se asemeja a una notacion estereo con un canal izquierdo L y un canal derecho R. Se ha aplicado esta notacion con el fin de proporcionar una explicacion mas simple si bien queda claro para los expertos en la tecnica que las senales L, R pueden ser cualquier combinacion de dos senales de canal en una senal multicanal que tiene mas de dos senales de canal. La operacion matriz 1169 unifica las operaciones en los bloques 1160, 1161 y 1162 de la figura 4a en un tipo de calculo matriz de “disparo unico”, y las entradas en el circuito de la figura 4a y las salidas desde el circuito de la figura 4a son identicas a las entradas en la calculadora de matriz 1168 o a las salidas desde la calculadora de matriz 1168.As an alternative, the decoder calculator is implemented as a matrix calculator 1168, which receives, as input, the first decoded combination signal or signal M, the decoded residual signal or signal D and the prediction information a 108. The matrix calculator 1168 applies a transform matrix that is illustrated as 1169 to the signals M, D to obtain the output signals L, R, where L is the first decoded channel signal and R is the second decoded channel signal. . The notation in Figure 4b resembles a stereo notation with a left channel L and a right channel R. This notation has been applied in order to provide a simpler explanation although it is clear to those skilled in the art that the signals L, R can be any combination of two channel signals in a multichannel signal having more than two channel signals. The matrix operation 1169 unifies the operations in blocks 1160, 1161 and 1162 of FIG. 4a in a "single trip" matrix type calculation, and the inputs in the circuit of FIG. 4a and the outputs in the circuit of FIG. 4a are identical to the entries in the matrix calculator 1168 or the outputs from the matrix calculator 1168.

La figura 4c ilustra un ejemplo para una regla de combinacion inversa aplicada por el combinador 1162 en la figura 4a. En concreto, la regla de combinacion es similar a la regla de combinacion del lado del descodificador en la codificacion central / lateral bien conocida, en donde L = M S, y R = M - S. Se entiende que la senal S usada por la regla de combinacion inversa en la figura 4c es la senal calculada por la calculadora de senales de combinacion, es decir, la combinacion de la senal de prediccion en la lmea 1163 y la senal residual descodificada en la lmea 114. Se entiende que en la presente memoria descriptiva, las senales en las lmeas a veces estan designadas por los numeros de referencia para las lmeas o a veces estan indicadas por los numeros de referencia como tales, los cuales se han asignado a las lmeas. Por lo tanto, la notacion es tal que una lmea que tiene una determinada senal esta indicando la senal propiamente dicha. Una lmea puede ser una lmea ffsica en una puesta en practica ffsicamente conectada. En una puesta en practica computarizada, no obstante, una lmea ffsica no existe, pero la senal representada por la lmea es transmitida desde un modulo de calculo hacia el otro modulo de calculo.Figure 4c illustrates an example for a reverse combination rule applied by the combiner 1162 in Figure 4a. In particular, the combination rule is similar to the combination rule on the decoder side in the well-known central / lateral encoding, where L = MS, and R = M - S. It is understood that the S signal used by the rule The combination of reverse combination in Figure 4c is the signal calculated by the combination signal calculator, ie, the combination of the prediction signal on line 1163 and the decoded residual signal on line 114. It is understood that as used herein. descriptive, the signs on the lines are sometimes designated by the reference numbers for the lines or are sometimes indicated by the reference numbers as such, which have been assigned to the lines. Therefore, the notation is such that a line that has a certain signal is indicating the signal itself. A line can be a physical line in a physically connected implementation. In a computerized implementation, however, a physical line does not exist, but the signal represented by the line is transmitted from one calculation module to the other calculation module.

La figura 2 ilustra un codificador de audio para codificar una senal de audio multicanal 200 que tiene dos o mas senales de canal, en donde una primera senal de canal se ilustra en 201 y un segundo canal se ilustra en 202. Ambas senales se introducen en una calculadora de codificador 203 para calcular una primera senal de combinacion 204 y una senal residual de prediccion 205 usando la primera senal de canal 201 y la segunda senal de canal 202 y la informacion de prediccion 206, de tal modo que cuando se combina la senal residual de prediccion 205 con una senal de prediccion proveniente de la primera senal de combinacion 204 y la informacion de prediccion 206 se obtiene una segunda senal de combinacion, en donde la primera senal de combinacion y la segunda senal de combinacion pueden obtenerse de la primera senal de canal 201 y la segunda senal de canal 202 usando una regla de combinacion.Figure 2 illustrates an audio encoder for encoding a multichannel audio signal 200 having two or more channel signals, wherein a first channel signal is illustrated at 201 and a second channel is illustrated at 202. Both signals are input to an encoder calculator 203 for calculating a first combination signal 204 and a residual prediction signal 205 using the first channel signal 201 and the second channel signal 202 and the prediction information 206, such that when the signal is combined residual of prediction 205 with a prediction signal from the first combination signal 204 and the prediction information 206 a second combination signal is obtained, wherein the first combination signal and the second combination signal can be obtained from the first signal of channel 201 and the second signal of channel 202 using a combination rule.

La informacion de prediccion es generada por un optimizador 207 para calcular la informacion de prediccion 206 de tal modo que la senal residual de prediccion cumple un objetivo de optimizacion 208. La primera senal de combinacion 204 y la senal residual 205 se introducen en un codificador de senales 209 para codificar la primera senal de combinacion 204 para obtener una primera senal de combinacion codificada 210 y para codificar la senal residual 205 para obtener una senal residual codificada 211. Ambas senales codificadas 210, 211 se introducen en una interfaz de salida 212 para combinar la primera senal de combinacion codificada 210 con la senal residual de prediccion codificada 211 y la informacion de prediccion 206 para obtener una senal multicanal codificada 213, la cual es similar a la senal multicanal codificada 100 introducida en la interfaz de entrada 102 del descodificador de audio que se ilustra en la figura 1.The prediction information is generated by an optimizer 207 for calculating the prediction information 206 such that the residual signal of prediction meets an optimization objective 208. The first combination signal 204 and the residual signal 205 are input to an encoder. signals 209 for encoding the first combination signal 204 to obtain a first coded combination signal 210 and to encode the residual signal 205 to obtain a coded residual signal 211. Both coded signals 210, 211 are input to an output interface 212 to combine the first coded combination signal 210 with the residual encoded prediction signal 211 and the prediction information 206 to obtain a coded multichannel signal 213, which is similar to the encoded multi-channel signal 100 input into the audio decoder input interface 102 which is illustrated in figure 1.

Dependiendo de la puesta en practica, el optimizador 207 recibe, ya sea la primera senal de canal 201 y la segunda senal de canal 202 o, tal como se ilustra en las lmeas 214 y 215, la primera senal de combinacion 214 y la segunda senal de combinacion 215 provenientes de un combinador 2031 de la figura 3a, las cuales se analizaran en lo sucesivo.Depending on the implementation, the optimizer 207 receives either the first channel signal 201 and the second channel signal 202 or, as illustrated on lines 214 and 215, the first combination signal 214 and the second signal. of combination 215 coming from a combiner 2031 of figure 3a, which will be analyzed in the following.

Un objetivo preferido de optimizacion se ilustra en la figura 2, en la cual la ganancia de codificacion esta potenciada al maximo, es decir, la tasa de bits se reduce tanto como sea posible. En este objetivo de optimizacion, la senal residual D esta reducida al mmimo con respecto a a. Esto significa, en otras palabras, que la informacion de prediccion a se selecciona de tal modo que ||S - aM||2 esta reducida al mmimo. Esto tiene como resultado una solucion para a que se ilustra la figura 2. Las senales S, M estan proporcionadas en forma de bloque y son preferentemente senales espectrales de dominio, en donde la notacion ||...|| significa la norma 2 del argumento, y en donde <...> ilustra el producto de puntos en forma habitual. Cuando la primera senal de canal 201 y la segunda senal de canal 202 se introducen en el optimizador 207, el optimizador tendna entonces que aplicar la regla de combinacion, en donde una regla de combinacion ejemplar se ilustra en la figura 3c. No obstante, cuando la primera senal de combinacion 214 y la segunda senal de combinacion 215 se introducen en el optimizador 207, entonces el optimizador 207 no necesita poner en practica la regla de combinacion por sf mismo.A preferred optimization target is illustrated in Figure 2, in which the coding gain is maximized, i.e., the bit rate is reduced as much as possible. In this optimization objective, the residual signal D is reduced to a minimum with respect to a. This means, in other words, that the prediction information a is selected in such a way that || S - aM || 2 is reduced to the minimum. This results in a solution for which Figure 2 is illustrated. The signals S, M are provided in block form and are preferably domain spectral signals, wherein the notation || ... || means rule 2 of the argument, and where <...> illustrates the product of points in the usual way. When the first channel signal 201 and the second channel signal 202 are input to the optimizer 207, the optimizer will then have to apply the combination rule, where an exemplary combination rule is illustrated in FIG. 3c. However, when the first combination signal 214 and the second combination signal 215 are entered into the optimizer 207, then the optimizer 207 does not need to implement the combination rule by itself.

Otros objetivos de optimizacion pueden estar relacionados con la calidad perceptual. Un objetivo de optimizacion puede contemplar que se obtenga una calidad perceptual maxima. Entonces, el optimizador necesitana informacion adicional proveniente de un modelo perceptual. Otras puestas en practica del objetivo de optimizacion pueden referirse a la obtencion de una minima tasa de bits, o una tasa fija de bits. Entonces, el optimizador 207 se pondna en practica para llevar a cabo una operacion de cuantificacion / codificacion de entrc^a con el fin de determinar la tasa de bits necesaria para determinados valores de a de tal modo que a se puede fijar para cumplir los requerimientos tales como una tasa minima de bits, o como alternativa, una tasa fija de bits. Otras puestas en practica del objetivo de optimizacion pueden estar relacionadas con un uso mmimo de los recursos del codificador o del descodificador. En el caso de una puesta en practica de dicho objetivo de optimizacion, la informacion en los recursos necesarios estana disponible para una determinada optimizacion en el optimizador 207. Adicionalmente, una combinacion de estos objetivos de optimizacion u otros objetivos de optimizacion se pueden aplicar para controlar el optimizador 207, el cual calcula la informacion de prediccion 206.Other optimization objectives may be related to perceptual quality. An objective of optimization can contemplate that a maximum perceptual quality is obtained. Then, the optimizer will need additional information from a perceptual model. Other implementations of the optimization objective can refer to the obtaining of a minimum bit rate, or a fixed bit rate. Then, the optimizer 207 will be put into practice to perform an input quantization / coding operation in order to determine the bit rate necessary for certain values of a such that a can be set to meet the requirements such as a minimum bit rate, or alternatively, a fixed bit rate. Other implementations of the optimization objective may be related to a minimum use of the encoder or decoder resources. In the case of an implementation of said optimization objective, the information on the necessary resources is available for a certain optimization in the optimizer 207. Additionally, a combination of these optimization objectives or other optimization objectives can be applied to control the optimizer 207, which calculates the prediction information 206.

La calculadora de codificador 203 en la figura 2 se puede poner en practica en distintas formas, en donde una primera puesta en practica ejemplar se ilustra en la figura 3a, en la cual una regla de combinacion explfcita se lleva a cabo en el combinador 2031. Una puesta en practica alternativa ejemplar se ilustra en la figura 3b, en donde se usa una calculadora de matriz 2039. El combinador 2031 en la figura 3a se puede poner en practica para llevar a cabo la regla de combinacion que se ilustra en la figura 3c, la cual es de manera ejemplar la regla de codificacion central / lateral bien conocida, en donde un factor de ponderacion de 0,5 se aplica a todos los ramales. No obstante, se pueden poner en practica otros factores de ponderacion o ningun factor de ponderacion dependiendo de la puesta en practica. Adicionalmente, cabe destacar que se pueden aplicar otras reglas de combinacion tales como otras reglas de combinacion lineales o reglas de combinacion que no son lineales, siempre que haya una regla de combinacion inversa correspondiente, la cual se puede aplicar en el combinador del descodificador 1162 que se ilustra en la figura 4a, el cual aplica una regla de combinacion que es inversa a la regla de combinacion aplicada por el codificador. Se puede usar cualquier regla de prediccion invertible, debido a que la influencia en la forma de onda esta “equilibrada” por la prediccion, es decir, cualquier error esta incluido en la senal residual transmitida, debido a que la operacion de prediccion llevada a cabo por el optimizador 207 en combinacion con la calculadora de codificador 203 es un proceso que conserva la forma de onda.The encoder calculator 203 in Figure 2 can be implemented in different ways, wherein a first exemplary implementation is illustrated in Figure 3a, in which an explicit combination rule is carried out in the combiner 2031. An exemplary alternative implementation is illustrated in Figure 3b, where a matrix calculator 2039 is used. The combiner 2031 in Figure 3a can be implemented to carry out the combination rule illustrated in Figure 3c , which is exemplary the well-known central / lateral coding rule, where a weighting factor of 0.5 applies to all branches. However, other weighting factors or no weighting factor can be put into practice depending on the implementation. Additionally, it should be noted that other combination rules may be applied, such as other linear combination rules or combination rules that are not linear, provided that there is a corresponding inverse combination rule, which may be applied in the decoder's combiner 1162. it is illustrated in Figure 4a, which applies a combination rule that is inverse to the combination rule applied by the encoder. Any invertible prediction rule can be used, because the influence on the waveform is "balanced" by the prediction, that is, any error is included in the residual signal transmitted, because the prediction operation carried out by the optimizer 207 in combination with the encoder calculator 203 is a process that preserves the waveform.

El combinador 2031 emite la primera senal de combinacion 204 y una segunda senal de combinacion 2032. La primera senal de combinacion se introduce en un predictor 2033, y la segunda senal de combinacion 2032 se introduce en la calculadora residual 2034. El predictor 2033 calcula una senal de prediccion 2035, la cual se combina con la segunda senal de combinacion 2032 para obtener finalmente la senal residual 205. En concreto, el combinador 2031 esta configurado para combinar las dos senales de canal 201 y 202 de la senal de audio multicanal en dos formas distintas para obtener la primera senal de combinacion 204 y la segunda senal de combinacion 2032, en donde las dos formas distintas se ilustran en un ejemplo en la figura 3c. El predictor 2033 esta configurado para aplicar la informacion de prediccion a la primera senal de combinacion 204 o una senal proveniente de la primera senal de combinacion para obtener la senal de prediccion 2035. La senal proveniente de la senal de combinacion puede provenir de cualquier operacion no lineal o lineal, en donde se prefiere una transformada de real a imaginario / transformada de imaginario a real, la cual se puede poner en practica usando un filtro lineal tal como un filtro FIR que lleva a cabo adiciones ponderadas de determinados valores. La calculadora residual 2034 en la figura 3a puede llevar a cabo una operacion de sustraccion de tal modo que la senal de prediccion se sustrae de la segunda senal de combinacion. No obstante, son posibles otras operaciones en la calculadora residual. De la misma manera, la calculadora de senales de combinacion 1161 en la figura 4a puede llevar a cabo una operacion de adicion en donde la senal residual descodificada 114 y la senal de prediccion 1163 se agregan juntas para obtener la segunda senal de combinacion 1165.The combiner 2031 outputs the first combination signal 204 and a second combination signal 2032. The first combination signal is entered into a predictor 2033, and the second combination signal 2032 is entered into the residual calculator 2034. The predictor 2033 calculates a prediction signal 2035, which is combined with the second combination signal 2032 to finally obtain the residual signal 205. Specifically, the combiner 2031 is configured to combine the two channel signals 201 and 202 of the multi-channel audio signal in two. different ways to obtain the first combination signal 204 and the second combination signal 2032, wherein the two different forms are illustrated in an example in Figure 3c. The predictor 2033 is configured to apply the prediction information to the first combination signal 204 or a signal from the first combination signal to obtain the 2035 prediction signal. The signal from the combination signal may come from any operation not linear or linear, where a transform from real to imaginary / transformed from imaginary to real is preferred, which can be implemented using a linear filter such as an FIR filter that carries out weighted additions of certain values. The residual calculator 2034 in FIG. 3a can perform a subtraction operation in such a way that the prediction signal is subtracted from the second combination signal. However, other operations on the residual calculator are possible. In the same way, the combination signal calculator 1161 in FIG. 4a can perform an addition operation wherein the decoded residual signal 114 and the prediction signal 1163 are aggregated together to obtain the second combination signal 1165.

La figura 5a ilustra un codificador de audio. En comparacion con el codificador de audio que se ilustra en la figura 3a, la primera senal de canal 201 es una representacion espectral de una primera senal de canal en el dominio del tiempo 55a. De la misma manera, la segunda senal de canal 202 es una representacion espectral de una senal de canal en el dominio del tiempo 55b. La conversion desde el dominio de tiempo en la representacion espectral es llevada a cabo por un convertidor de tiempo / frecuencia 50 para la primera senal de canal y un convertidor de tiempo / frecuencia 51 para la segunda senal de canal. Preferentemente, pero no necesariamente, los convertidores espectrales 50, 51 se ponen en practica como convertidores de valor real. El algoritmo de conversion puede ser una transformada de coseno discreta, una transformada FFT, en donde solo se usa la parte real, una MDCT o cualquier otra transformada que proporcione valores espectrales de valor real. Como alternativa, ambas transformadas se pueden poner en practica como una transformada imaginaria, tal como una DST, una MDST o una FFT en donde solo se usa la parte imaginaria y se descarta la parte real. Tambien se puede usar cualquier otra transformada que proporcione solo valores imaginarios. Un motivo por el cual usar una transformada pura de valor real o una transformada pura imaginaria es la complejidad computacional, debido a que, para cada uno de los valores espectrales, solo se tiene que procesar un unico valor tal como magnitud o la parte real o, como alternativa, la fase o la parte imaginaria. A diferencia de una transformada totalmente compleja tal como una FFT, tendnan que procesarse dos valores, es decir, la parte real y la parte imaginaria para cada una de las lmeas espectrales, lo cual es un aumento de la complejidad computacional por un factor de al menos 2. En este punto, otro motivo para usar una transformada de valor real es que dicha transformada generalmente se muestrea cnticamente, y de este modo proporciona un dominio adecuado (y comunmente usado) para la cuantificacion de senales y la codificacion de entropfa (el paradigma estandar de “codificacion de audio perceptual” que se pone en practica en “MP3”, AAC, o en sistemas de codificacion de audio similares). Figure 5a illustrates an audio encoder. In comparison with the audio encoder illustrated in Figure 3a, the first channel signal 201 is a spectral representation of a first channel signal in the time domain 55a. In the same way, the second channel signal 202 is a spectral representation of a channel signal in the time domain 55b. The conversion from the time domain into the spectral representation is carried out by a time / frequency converter 50 for the first channel signal and a time / frequency converter 51 for the second channel signal. Preferably, but not necessarily, the spectral converters 50, 51 are implemented as real-value converters. The conversion algorithm can be a discrete cosine transform, an FFT transform, where only the real part, an MDCT or any other transform that provides real value spectral values is used. As an alternative, both transforms can be implemented as an imaginary transform, such as a DST, an MDST or an FFT where only the imaginary part is used and the real part is discarded. Any other transform that provides only imaginary values can also be used. One reason why using a pure transform of real value or an imaginary pure transform is computational complexity, because, for each of the spectral values, only a single value such as magnitude or the real part has to be processed or , as an alternative, the phase or the imaginary part. Unlike a totally complex transform such as an FFT, two values have to be processed, that is, the real part and the imaginary part for each of the spectral lines, which is an increase in computational complexity by a factor of minus 2. At this point, another reason to use a real value transform is that such a transform is generally sampled, and thus provides a suitable (and commonly used) domain for signal quantization and entropy coding (the standard paradigm of "perceptual audio coding" that is put into practice in "MP3", AAC, or similar audio coding systems).

La figura 5a ilustra adicionalmente la calculadora residual 2034 como un sumador, el cual recibe la senal lateral como su entrada “mas” y el cual recibe la salida de la senal de prediccion por el predictor 2033 como su entrada “menos”. Adicionalmente, la figura 5a ilustra la situacion en la que la informacion de control del predictor se transmite desde el optimizador hacia el multiplexor 212, el cual emite una corriente de datos multiplexada que representa la senal de audio multicanal codificada. En concreto, la operacion de prediccion se lleva a cabo de tal modo que la senal lateral se predice desde la senal central tal como se ilustra en las Ecuaciones a la derecha de la figura 5a. Preferentemente, la informacion de control del predictor 206 es un factor tal como se ilustra a la derecha en la figura 3b. En un ejemplo en el cual la informacion de control de prediccion solo comprende una porcion real tal como la parte real de un a de valor complejo o una magnitud del a de valor complejo, en donde esta porcion corresponde a un factor distinto de cero, se puede obtener una ganancia de codificacion significativa cuando la senal central y la senal lateral son similares entre sf debido a su estructura de forma de onda, si bien tienen distintas amplitudes. No obstante, cuando la informacion de control de prediccion solo comprende una segunda porcion, la cual puede ser la parte imaginaria de un factor de valor complejo o la informacion de fase del factor de valor complejo, en donde la parte imaginaria o la informacion de fase es distinta de cero, la presente invencion logra una ganancia de codificacion significativa para las senales, las cuales estan desfasadas entre sf por un valor distinto de 0° o 180°, y que tienen ademas del desfase, caractensticas de forma de onda similares y relaciones de amplitud similares.Figure 5a further illustrates the residual calculator 2034 as an adder, which receives the side signal as its "plus" input and which receives the output of the prediction signal by the predictor 2033 as its "minus" input. Additionally, Figure 5a illustrates the situation in which the predictor control information is transmitted from the optimizer to the multiplexer 212, which outputs a multiplexed data stream representing the encoded multi-channel audio signal. In particular, the prediction operation is carried out in such a way that the lateral signal is predicted from the central signal as illustrated in the equations to the right of figure 5a. Preferably, the control information of the predictor 206 is a factor as illustrated to the right in Figure 3b. In an example in which the prediction control information only comprises a real portion such as the real part of a complex value a or a magnitude of the complex value a, where this portion corresponds to a non-zero factor, it is it can obtain a significant coding gain when the central signal and the lateral signal are similar to each other due to their waveform structure, although they have different amplitudes. However, when the prediction control information only comprises a second portion, which may be the imaginary part of a complex value factor or the phase information of the complex value factor, where the imaginary part or the phase information is non-zero, the present invention achieves a significant coding gain for the signals, which are out of phase with each other by a value other than 0 ° or 180 °, and which have in addition to the phase shift, similar waveform characteristics and relationships of similar amplitude.

Preferentemente, una informacion de control de prediccion es de valor complejo. Por lo tanto se puede obtener una ganancia de codificacion significativa para las senales que tienen distinta amplitud y que estan desfasadas. En una situacion en la cual las transformadas de tiempo / frecuencia proporcionan espectros complejos, la operacion 2034 sena una operacion compleja en la cual la parte real de la informacion de control del predictor se aplica a la parte real del espectro complejo M y la parte imaginaria de la informacion de prediccion compleja se aplica a la parte imaginaria del espectro complejo. Entonces, en el sumador 2034, el resultado de esta operacion de prediccion es un espectro real predicho y un espectro imaginario predicho, y el espectro real predicho se sustraena del espectro real de la senal lateral S (en forma de banda), y el espectro imaginario predicho se sustraena de la parte imaginaria del espectro de S para obtener un espectro residual complejo D.Preferably, a prediction control information is of complex value. Therefore, a significant coding gain can be obtained for the signals that have different amplitude and that are out of phase. In a situation in which the time / frequency transforms provide complex spectra, operation 2034 will be a complex operation in which the real part of the predictor control information is applied to the real part of the complex spectrum M and the imaginary part of the complex prediction information is applied to the imaginary part of the complex spectrum. Then, in adder 2034, the result of this prediction operation is a predicted real spectrum and an imaginary predicted spectrum, and the predicted real spectrum is subtracted from the real spectrum of the side signal S (in the form of a band), and the spectrum The predicted imaginary is subtracted from the imaginary part of the spectrum of S to obtain a complex residual spectrum D.

Las senales en el dominio del tiempo L y R son senales de valor real, si bien las senales en el dominio de la frecuencia pueden ser de valor real o complejo. Cuando las senales en el dominio de la frecuencia son de valor real, entonces la transformada es una transformada de valor real. Cuando las senales en el dominio de la frecuencia son complejas, entonces la transformada es una transformada de valor complejo. Esto significa que la entrada a las transformadas de tiempo a frecuencia y la salida de las transformadas de frecuencia a tiempo son de valor real, en tanto que las senales en el dominio de la frecuencia podnan ser, por ejemplo, senales en el dominio de QMF de valor complejo.The signals in the time domain L and R are signals of real value, although the signals in the frequency domain can be of real or complex value. When the signals in the frequency domain are of real value, then the transform is a real value transform. When the signals in the frequency domain are complex, then the transform is a complex value transform. This means that the input to the transforms from time to frequency and the output of the transforms from time to time are of real value, while the signals in the frequency domain could be, for example, signals in the QMF domain. of complex value.

La figura 5b ilustra un descodificador de audio correspondiente al codificador de audio que se ilustra en la figura 5a. Los elementos similares con respecto al descodificador de audio de la figura 1 tienen numeros de referencia similares.Figure 5b illustrates an audio decoder corresponding to the audio encoder that is illustrated in Figure 5a. Similar elements with respect to the audio decoder of Figure 1 have similar reference numbers.

La salida de la corriente de bits por el multiplexor de la corriente de bits 212 en la figura 5a se introduce en un desmultiplexor de la corriente de bits 102 en la figura 5b. El desmultiplexor de la corriente de bits 102 desmultiplexa la corriente de bits en la senal de mezcla descendente M y la senal residual D. La senal de mezcla descendente M se introduce en un descuantificador 110a. La senal residual D se introduce en un descuantificador 110b. Adicionalmente, el desmultiplexor de la corriente de bits 102 desmultiplexa una informacion de control del predictor 108 desde la corriente de bits e introduce la misma en el predictor 1160. El predictor 1160 emite una senal lateral predicha a ■ M y el combinador 1161 combina la senal residual emitida por el descuantificador 110b con la senal lateral predicha con el fin de obtener finalmente la senal lateral reconstruida S. La senal luego es introducida en el combinador 1162, el cual lleva a cabo, por ejemplo, un procesamiento de suma / diferencia, tal como se ilustra en la figura 4c con respecto a la codificacion central / lateral. En concreto, el bloque 1162 lleva a cabo una descodificacion central / lateral (inversa) para obtener una representacion en el dominio de la frecuencia del canal izquierdo y una representacion en el dominio de la frecuencia del canal derecho. La representacion del dominio de frecuencia luego se convierte en una representacion del dominio de tiempo por los convertidores de frecuencia / tiempo 52 y 53 correspondientes.The output of the bitstream by the multiplexer of the bitstream 212 in FIG. 5a is input to a demultiplexer of the bitstream 102 in FIG. 5b. The bitstream demultiplexer 102 demultiplexes the bit stream in the downmix signal M and the residual signal D. The downmix signal M is input to a dequantizer 110a. The residual signal D is input to a dequantizer 110b. Additionally, the bit stream demultiplexer 102 demultiplexes a control information from the predictor 108 from the bit stream and inputs it into the predictor 1160. The predictor 1160 outputs a predicted lateral signal to ■ M and the combiner 1161 combines the signal residual signal emitted by the dequantizer 110b with the predicted lateral signal in order to finally obtain the reconstructed lateral signal S. The signal is then input to the combiner 1162, which performs, for example, a sum / difference processing, such as illustrated in Figure 4c with respect to central / lateral coding. In particular, block 1162 performs a central / lateral (reverse) decoding to obtain a frequency domain representation of the left channel and a frequency domain representation of the right channel. The representation of the frequency domain is then converted into a time domain representation by the corresponding frequency / time converters 52 and 53.

Dependiendo de la puesta en practica del sistema, los convertidores de frecuencia / tiempo 52, 53 son convertidores de valor real de frecuencia / tiempo cuando la representacion del dominio de frecuencia es una representacion de valor real, o convertidores de frecuencia / tiempo de valor complejo cuando la representacion del dominio de frecuencia es una representacion de valor complejo.Depending on the implementation of the system, the frequency / time converters 52, 53 are real frequency / time value converters when the frequency domain representation is a real value representation, or complex value frequency / time converters when the representation of the frequency domain is a complex value representation.

No obstante, para aumentar la eficiencia se prefiere llevar a cabo una transformada de valor real tal como se ilustra en otra puesta en practica en la figura 6a para el codificador de acuerdo con una forma de realizacion de la presente invencion y en la figura 6b para el descodificador de acuerdo con una forma de realizacion de la presente invencion. Las transformadas de valor real 50 y 51 se ponen en practica por medio de una MDCT. Adicionalmente, la informacion de prediccion se calcula como un valor complejo que tiene una parte real y una parte imaginaria. Debido a que ambos espectros M, S son espectros de valor real y debido a que, por lo tanto, no existe ninguna parte imaginaria del espectro, se proporciona un convertidor de real a imaginario 2070, el cual calcula un espectro imaginario estimado 600 a partir del el espectro de valor real de la senal M. Este transformador de real a imaginario 2070 es una parte del optimizador 207, y el espectro imaginario 600 estimado por el bloque 2070 se introduce en la etapa del optimizador de a 2071 junto con el espectro real M con el fin de calcular la informacion de prediccion 206, la cual ahora tiene un factor de valor real indicado en 2073 y un factor imaginario indicado en 2074. A continuacion, de acuerdo con la presente forma de realizacion, el espectro de valor real de la primera senal de combinacion M se multiplica por la parte real aR 2073 para obtener la senal de prediccion, la cual luego se sustrae del espectro lateral de valor real. Adicionalmente, el espectro imaginario 600 se multiplica por la parte imaginaria ai que se ilustra en 2074 para obtener la senal de prediccion adicional, en donde esta senal de prediccion luego se sustrae del espectro lateral de valor real tal como se indica en 2034b. Entonces, la senal residual de prediccion D se cuantifica en el cuantificador 209b, en tanto que el espectro de valor real de M se cuantifica / codifica en el bloque 209a. Adicionalmente, se prefiere cuantificar y codificar la informacion de prediccion a en el cuantificador / codificador de entropfa 2072 para obtener el valor de a complejo codificado, el cual se transmite al multiplexor de la corriente de bits 212 de la figura 5a, por ejemplo, y el cual se introduce finalmente en una corriente de bits como la informacion de prediccion.However, to increase the efficiency it is preferred to carry out a real value transformation as illustrated in another implementation in Figure 6a for the encoder according to one embodiment of the present invention and in Figure 6b for the decoder according to an embodiment of the present invention. The real value transforms 50 and 51 are implemented by means of an MDCT. Additionally, the prediction information is calculated as a complex value that has a real part and an imaginary part. Since both spectra M, S are real-value spectra and because, therefore, no imaginary part of the spectrum exists, a real-to-imaginary converter 2070 is provided, which calculates an estimated imaginary spectrum 600 from from the real value spectrum of the M signal. This transformer from real to imaginary 2070 is a part of the optimizer 207, and the imaginary spectrum 600 estimated by the block 2070 is introduced in the optimizer stage of a 2071 together with the real spectrum M in order to calculate the prediction information 206, which now has a real value factor indicated in 2073 and an imaginary factor indicated in 2074. Then, according to the present embodiment, the real value spectrum of the first combination signal M is multiplied by the real part aR 2073 to obtain the prediction signal, which is then subtracted from the real-value side spectrum. Additionally, the imaginary spectrum 600 is multiplied by the imaginary part ai that is illustrated in 2074 to obtain the additional prediction signal, where this prediction signal is then subtracted from the real-value side spectrum as indicated in 2034b. Then, the residual prediction signal D is quantized in quantizer 209b, while the real value spectrum of M is quantized / encoded in block 209a. Additionally, it is preferred to quantize and encode the prediction information a in the quantifier / entropy encoder 2072 to obtain the value of a coded complex, which is transmitted to the bitstream multiplexer 212 of Figure 5a, for example, and which is finally entered into a stream of bits as the prediction information.

Con respecto a la posicion del modulo de cuantificacion / codificacion (Q / C) 2072 para a, se destaca que los multiplicadores 2073 y 2074 preferentemente usan exactamente el mismo a (cuantificado) que tambien se usara en el descodificador. De este modo se podna mover 2072 directamente hacia la salida de 2071, o se podna considerar que la cuantificacion de a ya se ha tenido en cuenta en el proceso de optimizacion en 2071.With respect to the position of the quantization / coding module (Q / C) 2072 for a, it is emphasized that the multipliers 2073 and 2074 preferably use exactly the same (quantized) that would also be used in the decoder. In this way, 2072 could be moved directly towards the 2071 output, or it could be considered that the quantification of a has already been taken into account in the optimization process in 2071.

A pesar de que se podna calcular un espectro complejo en el lado del codificador debido a que toda la informacion esta disponible, se prefiere realizar la transformada de real a complejo en el bloque 2070 en el codificador de tal modo que se produzcan condiciones similares con respecto a un descodificador que se ilustra en la figura 6b. El descodificador recibe un espectro codificado de valor real de la primera senal de combinacion y una representacion espectral de valor real de la senal residual codificada. Adicionalmente se obtiene una informacion de prediccion compleja codificada en 108 y se lleva a cabo una descodificacion de entropfa y una descuantificacion en el bloque 65 para obtener la parte real aR que se ilustra en 1160b y la parte imaginaria ai que se ilustra en 1160c. Las senales centrales emitidas por los elementos de ponderacion 1160b y 1160c se agregan a la senal residual de prediccion descodificada y descuantificada. En concreto, los valores espectrales introducidos en el ponderador 1160c, en donde la parte imaginaria del factor de prediccion compleja se usa como el factor de ponderacion, provienen del espectro de valor real M por el convertidor de real a imaginario 1160a, el cual se pone en practica preferentemente del mismo modo que el bloque 2070 de la figura 6a relacionada con el lado del codificador. En el lado del descodificador no hay una representacion de valor complejo de la senal central o de la senal lateral, lo cual implica una diferencia con respecto al lado del codificador. El motivo es que solo los espectros de valor real codificados han sido transmitidos desde el codificador hacia el descodificador debido a las tasas de bits y por razones de complejidad.Although a complex spectrum could be calculated on the encoder side because all the information is available, it is preferred to perform the transform from real to complex in block 2070 in the encoder in such a way that similar conditions occur with respect to to a decoder that is illustrated in Figure 6b. The decoder receives a coded real-value spectrum of the first combination signal and a real-valued spectral representation of the coded residual signal. Additionally, a complex prediction information encoded at 108 is obtained and an entropy decoding and dequantization is performed in block 65 to obtain the real part aR illustrated in 1160b and the imaginary part ai illustrated in 1160c. The central signals emitted by the weighting elements 1160b and 1160c are added to the residual decoded and unquantized prediction signal. Specifically, the spectral values entered in the weigher 1160c, where the imaginary part of the complex prediction factor is used as the weighting factor, come from the real value spectrum M by the real-to-imaginary converter 1160a, which is set in practice preferably in the same way as block 2070 of figure 6a related to the encoder side. On the decoder side there is no complex value representation of the central signal or the side signal, which implies a difference with respect to the encoder side. The reason is that only the encoded real value spectra have been transmitted from the encoder to the decoder due to the bit rates and for complexity reasons.

El transformador de real a imaginario 1160a o el bloque correspondiente 2070 de la figura 6a se puede poner en practica tal como se publica en el documento WO 2004/013839 A1 o en el documento WO 2008/014853 A1 o en la Patente de Estados Unidos con n.° 6.980.933. Como alternativa, se puede aplicar cualquier otra puesta en practica conocida en la tecnica, y una puesta en practica preferida se describe en el contexto de las figuras 10a, 10b.The real-to-imaginary transformer 1160a or the corresponding block 2070 of Fig. 6a can be implemented as published in WO 2004/013839 A1 or in WO 2008/014853 A1 or in the US Pat. No. 6,980,933. Alternatively, any other implementation known in the art can be applied, and a preferred implementation is described in the context of Figures 10a, 10b.

En concreto, tal como se ilustra en la figura 10a, el convertidor de real a imaginario 1160a comprende un selector de cuadro espectral 1000 conectado a una calculadora de espectro imaginario 1001. El selector de cuadro espectral 1000 recibe una indicacion de un cuadro actual i en la entrada 1002 y, dependiendo de la puesta en practica, informacion de control en una entrada de control 1003. Cuando, por ejemplo, la indicacion en la lmea 1002 indica que se tiene que calcular un espectro imaginario para un cuadro actual i, y cuando la informacion de control 1003 indica que solo se tiene que usar el cuadro actual para dicho calculo, entonces el selector de cuadro espectral 1000 solo selecciona el cuadro actual i y transmite esta informacion a la calculadora de espectro imaginario. Por lo tanto, la calculadora de espectro imaginario solo usa las lmeas espectrales del cuadro actual i para llevar a cabo una combinacion ponderada de las lmeas ubicadas en el cuadro actual (bloque 1008), con respecto a la frecuencia, proxima a, o alrededor de la lmea espectral actual k, para la cual se tiene que calcular una lmea imaginaria tal como se ilustra en 1004 en la figura 10b. No obstante, cuando el selector de cuadro espectral 1000 recibe una informacion de control 1003 que indica que el cuadro anterior i - 1 y el cuadro siguiente i 1 se tienen que usar tambien para el calculo del espectro imaginario, entonces la calculadora de espectro imaginario adicionalmente recibe los valores provenientes de los cuadros i - 1 e i 1 y lleva a cabo una combinacion ponderada de las lmeas en los cuadros correspondientes tal como se ilustra en 1005 para el cuadro i - 1 y en 1006 para el cuadro i 1. Los resultados de las operaciones de ponderacion se combinan mediante una combinacion ponderada en el bloque 1007 para obtener finalmente una lmea imaginaria k para el cuadro fi el cual luego se multiplica por la parte imaginaria de la informacion de prediccion en el elemento 1160c para obtener la senal de prediccion para esta lmea, la cual luego se agrega a la lmea correspondiente de la senal central en el sumador 1161b para el descodificador. En el codificador se lleva a cabo la misma operacion, si bien se realiza una sustraccion en el elemento 2034b.In particular, as illustrated in Figure 10a, the imaginary real converter 1160a comprises a spectral frame selector 1000 connected to an imaginary spectrum calculator 1001. The spectral frame selector 1000 receives an indication of a current frame i in the input 1002 and, depending on the implementation, control information in a control input 1003. When, for example, the indication on line 1002 indicates that an imaginary spectrum has to be calculated for a current frame i, and when the control information 1003 indicates that only the current frame has to be used for said calculation, then the spectral frame selector 1000 only selects the current frame i and transmits this information to the imaginary spectrum calculator. Therefore, the imaginary spectrum calculator only uses the spectral lines of the current frame i to perform a weighted combination of the lyses located in the current frame (block 1008), with respect to frequency, next to, or around the current spectral line k, for which an imaginary line has to be calculated as illustrated at 1004 in Figure 10b. However, when the spectral frame selector 1000 receives a control information 1003 which indicates that the previous frame i-1 and the following frame i 1 have to be used also for the calculation of the imaginary spectrum, then the imaginary spectrum calculator additionally receives the values from tables i - 1 and i 1 and performs a weighted combination of the lines in the corresponding tables as illustrated in 1005 for table i - 1 and 1006 for table i 1. The results of the weighting operations are combined by a weighted combination in block 1007 to finally obtain an imaginary line k for the frame fi which is then multiplied by the imaginary part of the prediction information in element 1160c to obtain the prediction signal for this line, which is then added to the corresponding line of the central signal in the adder 1161b for the decoder. The same operation is carried out in the encoder, although a subtraction is carried out in the element 2034b.

Cabe destacar que la informacion de control 1003 puede indicar adicionalmente el uso de mas cuadros que los dos cuadros circundantes o, por ejemplo, el uso del cuadro actual y exactamente uno o mas cuadros anteriores pero sin usar cuadros “futuros” con el fin de reducir el retardo sistematico. It should be noted that the control information 1003 may additionally indicate the use of more frames than the two surrounding frames or, for example, the use of the current frame and exactly one or more previous frames but without using "future" frames in order to reduce the systematic delay.

Adicionalmente, cabe destacar que la combinacion ponderada en etapas que se ilustra en la figura 10b, en la cual, en una primera operacion se combinan las lmeas provenientes de un cuadro y posteriormente se combinan por s^ mismos los resultados de dichas operaciones de combinacion en cuadros, tambien se puede llevar a cabo en el otro orden. El otro orden se refiere a que, en un primer paso, las lmeas para la frecuencia actual k provenientes de un numero de cuadros adyacentes indicados por la informacion de control 103 se combinan mediante una combinacion ponderada. Esta combinacion ponderada se lleva a cabo para las lmeas k, k - 1, k - 2, k 1, k 2, etc., dependiendo del numero de lmeas adyacentes a usar para estimar la lmea imaginaria. Entonces, los resultados de dichas combinaciones “en tiempo” se someten a una combinacion ponderada en la “direccion de frecuencia” para obtener finalmente la lmea imaginaria k para el cuadro fi. Los valores ponderados se fijan en un valor -1 y 1 preferentemente, y las ponderaciones se pueden poner en practica en una combinacion directa de filtro FIR o IIR, la cual lleva a cabo una combinacion lineal de lmeas espectrales o de senales espectrales de distintas frecuencias y distintos cuadros. Additionally, it should be noted that the combination weighted in stages illustrated in figure 10b, in which, in a first operation, the lines coming from a table are combined and subsequently the results of said combination operations are combined by themselves. pictures, can also be carried out in the other order. The other order refers to that, in a first step, the lines for the current frequency k from a number of adjacent frames indicated by the control information 103 are combined by a weighted combination. This weighted combination is carried out for lines k, k - 1, k - 2, k 1, k 2, etc., depending on the number of adjacent lines to be used to estimate the imaginary line. Then, the results of said combinations "in time" are subjected to a weighted combination in the "frequency direction" to finally obtain the imaginary line k for the fi table. The weighted values are preferably set to -1 and 1, and the weights can be implemented in a direct combination of FIR or IIR filter, which performs a linear combination of spectral lines or spectral signals of different frequencies. and different pictures.

Tal como se indica en las figuras 6a y 6b, el algoritmo de transformada preferido es el algoritmo de transformada MDCT, el cual se aplica en la direccion anterior en los elementos 50 y 51 en la figura 6a y el cual se aplica en la direccion posterior en los elementos 52, 53, a continuacion de una operacion de combinacion en el combinador 1162 que opera en el dominio espectral.As indicated in figures 6a and 6b, the preferred transform algorithm is the MDCT transform algorithm, which is applied in the previous direction in elements 50 and 51 in figure 6a and which is applied in the subsequent direction in the elements 52, 53, following a combination operation in the combiner 1162 operating in the spectral domain.

La figura 8a ilustra una puesta en practica mas detallada del bloque 50 o 51. En concreto, se introduce una secuencia de muestras de audio del dominio de tiempo en un sistema de ventanas de analisis 500, el cual lleva a cabo una operacion de ventanas que usa una ventana de analisis y, en concreto, lleva a cabo esta operacion en un cuadro mediante un modo de cuadros pero usando un paso o solapamiento del 50 %. El resultado del sistema de ventanas de analisis, es decir, una secuencia de cuadros de muestras divididas en ventanas se introduce en un bloque de transformada MDCT 501, el cual emite la secuencia de cuadros de MDCT de valor real, en donde dichos cuadros estan afectados por el solapamiento. A modo de ejemplo, el sistema de ventanas de analisis aplica ventanas de analisis que tienen una longitud de 2048 muestras. Entonces, el bloque de transformada MDCT 501 emite espectros de MDCT que tienen 1024 lmeas espectrales reales o valores MDCt . Preferentemente, el sistema de ventanas de analisis 500 y / o el transformador de MDCT 501 se pueden controlar mediante un control de longitud de ventana o longitud de transformada 502 de tal modo que, por ejemplo, para las porciones transitorias en la senal, la longitud de ventana / longitud de transformada se reduce con el fin de obtener mejores resultados de codificacion.Figure 8a illustrates a more detailed implementation of block 50 or 51. Specifically, a sequence of audio samples of the time domain is entered into an analysis window system 500, which performs a window operation that it uses a window of analysis and, in particular, it carries out this operation in a frame by means of a frame mode but using a step or overlap of 50%. The result of the analysis window system, ie, a sequence of frames of samples divided into windows, is entered into an MDCT transform block 501, which outputs the sequence of MDCT frames of real value, where said frames are affected. by overlapping. As an example, the analysis window system applies analysis windows that have a length of 2048 samples. Then, the MDCT transform block 501 emits MDCT spectra having 1024 real spectral lines or MDCt values. Preferably, the analysis window system 500 and / or the MDCT transformer 501 can be controlled by a window length or transform length 502 control in such a way that, for example, for the transient portions in the signal, the length window / transform length is reduced in order to obtain better coding results.

La figura 8b ilustra la operacion de MDCT inversa llevada a cabo en los bloques 52 y 53. A modo de ejemplo, el bloque 52 comprende un bloque 520 para llevar a cabo una transformada de MDCT inversa de cuadro a cuadro. Cuando, por ejemplo, un cuadro de valores MDCT tiene 1024 valores, entonces la salida de esta transformada inversa de MDCT tiene 2048 muestras de tiempo afectadas por el solapamiento. Dicho cuadro se suministra a un sistema de ventanas de smtesis 521, el cual aplica una venta de smtesis a este cuadro de 2048 muestras. El cuadro dividido en ventanas luego se transmite a un procesador de solapar / agregar 522, el cual, a modo de ejemplo, aplica un 50 % de solapamiento entre dos cuadros subsiguientes y, entonces, lleva a cabo una adicion de muestra por muestra de tal modo que un bloque de 2048 muestras finalmente logra 1024 muestras nuevas de la senal de salida libre de solapamiento. De nuevo se prefiere aplicar un control de longitud de ventana / transformada usando informacion, la cual por ejemplo se transmite en la informacion lateral de la senal multicanal codificada de acuerdo con lo indicado en 523.Figure 8b illustrates the inverse MDCT operation carried out in blocks 52 and 53. By way of example, block 52 comprises a block 520 for performing a reverse MDCT transform from frame to frame. When, for example, a table of MDCT values has 1024 values, then the output of this MDCT inverse transform has 2048 time samples affected by the overlap. This table is supplied to a system of windows of synthesis 521, which applies a sale of synthesis to this table of 2048 samples. The box divided into windows is then transmitted to an overlap / add processor 522, which, by way of example, applies a 50% overlap between two subsequent frames and, then, performs a sample addition per sample of such So that a block of 2048 samples finally achieves 1024 new samples of the overlap-free output signal. Again it is preferred to apply a window / transform length control using information, which for example is transmitted in the lateral information of the encoded multi-channel signal according to that indicated in 523.

Los valores de prediccion de a se podnan calcular para cada una de las lmeas espectrales individuales de un espectro de MDCt . No obstante, se ha descubierto que esto no es necesario y que se puede ahorrar una cantidad significativa de informacion lateral llevando a cabo un calculo de bandas de la informacion de prediccion. En otros terminos, un convertidor espectral 50 que se ilustra en la figura 9, el cual es por ejemplo un procesador de MDCT descrito en el contexto de la figura 8a, proporciona un espectro de resolucion de alta frecuencia que tiene determinadas lmeas espectrales que se ilustran en la figura 9b. Este espectro de resolucion de alta frecuencia es usado por un selector de lmea espectral 90 que proporciona un espectro de resolucion de baja frecuencia, el cual comprende determinadas bandas B1, B2, B3, ... , BN. Este espectro de resolucion de baja frecuencia es transmitido al optimizador 207 para calcular la informacion de prediccion de tal modo que no se calcula una informacion de prediccion para cada una de las lmeas espectrales, sino solo para cada una de las bandas. Para tal fin, el optimizador 207 recibe las lmeas espectrales por banda y calcula la operacion de optimizacion basandose en la presuncion de que se usa el mismo valor a para todas las lmeas espectrales en la banda.The prediction values of a could be calculated for each of the individual spectral lines of a MDCt spectrum. However, it has been found that this is not necessary and that a significant amount of lateral information can be saved by performing a band calculation of the prediction information. In other words, a spectral converter 50 illustrated in FIG. 9, which is for example an MDCT processor described in the context of FIG. 8a, provides a high frequency resolution spectrum having certain spectral lines that are illustrated. in Figure 9b. This high frequency resolution spectrum is used by a spectral line selector 90 which provides a low frequency resolution spectrum, which comprises certain bands B1, B2, B3, ..., BN. This low frequency resolution spectrum is transmitted to the optimizer 207 to calculate the prediction information such that no prediction information is calculated for each of the spectral lines, but only for each of the bands. For this purpose, the optimizer 207 receives the spectral lines per band and calculates the optimization operation based on the presumption that the same value a is used for all the spectral lines in the band.

Preferentemente, las bandas estan configuradas en una forma psicoacustica de tal modo que el ancho de banda de las bandas aumenta desde frecuencias inferiores hasta frecuencias superiores tal como se ilustra en la figura 9b. Como alternativa, a pesar de que no se prefiere tanto como la puesta en practica de ancho de banda en aumento tambien se podnan usar bandas de frecuencia de igual tamano, en donde cada una de las bandas de frecuencia tiene al menos dos o, por lo general, muchas mas, tal como al menos 30 lmeas de frecuencia. Por lo general, para un espectro de 1024 lmeas espectrales se calculan menos de 30 valores de a complejos, y preferentemente, mas de 5 valores de a. Para los espectros con menos de 1024 lmeas espectrales (por ejemplo, 128 lmeas) se usan preferentemente menos bandas de frecuencia (por ejemplo, 6) para a. Preferably, the bands are configured in a psychoacoustic manner such that the bandwidth of the bands increases from lower frequencies to higher frequencies as illustrated in Figure 9b. As an alternative, although it is not preferred as much as the implementation of increasing bandwidth, frequency bands of equal size could also be used, where each of the frequency bands has at least two or, at general, many more, such as at least 30 lines of frequency. In general, for a spectrum of 1024 spectral lines, less than 30 values of a complexes are calculated, and preferably, more than 5 values of a. For the spectra with less than 1024 spectral lines (e.g., 128 lines), preferably less frequency bands (e.g., 6) are used for a.

Para calcular los valores de a no se requiere necesariamente el espectro de MDCT de alta resolucion. Como alternativa, tambien se puede usar un banco de filtros que tiene una resolucion de frecuencia similar a la resolucion necesaria para calcular los valores de a. Cuando se tienen que poner en practica bandas que aumentan de frecuencia, en ese caso dicho banco de filtros debena tener un ancho de banda variable. No obstante, cuando es suficiente un ancho de banda constante de frecuencias bajas a altas, entonces se puede usar un banco de filtros tradicional con sub-bandas de ancho equivalente.To calculate the values of a, the high resolution MDCT spectrum is not necessarily required. Alternatively, you can also use a filter bank that has a frequency resolution similar to the resolution necessary to calculate the values of a. When bands that increase in frequency have to be implemented, in that case said bank of filters must have a variable bandwidth. However, when a constant bandwidth of low to high frequencies is sufficient, then a traditional filter bank with sub-bands of equivalent width can be used.

Dependiendo de la puesta en practica, el signo del valor de a indicado en la figura 3b o 4b se puede invertir. No obstante, con el fin de ser coherentes, es necesario que dicha reversion del signo se use en el lado del codificador asf como tambien en el lado del descodificador. A diferencia de la figura 6a, la figura 5a ilustra una vista generalizada del codificador, en donde el elemento 2033 es un predictor que es controlado por la informacion de control del predictor 206, la cual se determina en el elemento 207 y la cual se incorpora como informacion lateral en la corriente de bits. En lugar de la MDCT usada en la figura 6a en los bloques 50, 51 se usa una transformada generalizada de tiempo / frecuencia en la figura 5a tal como se describe. Tal como se ha indicado en lo que antecede, la figura 6a es el proceso del codificador, el cual corresponde al proceso del descodificador en la figura 6b, en donde L representa la senal izquierda de canal, R representa la senal derecha de canal, M representa la senal central o la senal de mezcla descendente, S representa la senal lateral y D representa la senal residual. Como alternativa, L tambien se conoce como la primera senal de canal 201, R tambien se conoce como la segunda senal de canal 202, M tambien se conoce como la primera senal de combinacion 204 y S tambien se conoce como la segunda senal de combinacion 2032.Depending on the implementation, the sign of the value of a indicated in Figure 3b or 4b can be inverted. However, in order to be coherent, it is necessary that said reversion of the sign be used on the encoder side as well as on the decoder side. Unlike Figure 6a, Figure 5a illustrates a generalized view of the encoder, wherein element 2033 is a predictor that is controlled by the predictor control information 206, which is determined in element 207 and which is incorporated as lateral information in the bit stream. In place of the MDCT used in Figure 6a in blocks 50, 51 a generalized time / frequency transform is used in Figure 5a as described. As indicated above, Figure 6a is the process of the encoder, which corresponds to the decoder process in Figure 6b, where L represents the left signal of the channel, R represents the right signal of the channel, M represents the central signal or the descending mix signal, S represents the lateral signal and D represents the residual signal. Alternatively, L is also known as the first channel signal 201, R is also known as the second channel signal 202, M is also known as the first combination signal 204, and S is also known as the second 2032 combination signal. .

Preferentemente, los modulos 2070 en el codificador y 1160a en el descodificador debenan coincidir exactamente con el fin de asegurar una correcta codificacion de forma de onda. Esto se aplica preferentemente al caso en el cual dichos modulos usan alguna forma de aproximacion tal como filtros truncados o cuando se usan solo uno o dos en lugar de los tres cuadros de MDCT, es decir, el cuadro de MDCT actual en la lmea 60, el cuadro de MDCT anterior en la lmea 61 y el cuadro de MDCT siguiente en la lmea 62.Preferably, the modules 2070 in the encoder and 1160a in the decoder must coincide exactly in order to ensure correct waveform coding. This applies preferably to the case in which said modules use some form of approximation such as truncated filters or when only one or two are used in place of the three MDCT frames, ie the current MDCT frame in line 60, the previous MDCT chart on line 61 and the next MDCT chart on line 62.

Adicionalmente, se prefiere que el modulo 2070 en el codificador en la figura 6a use el espectro de MDCT no cuantificado M como entrada, a pesar de que el modulo de real a imaginario (R21) 1160a en el descodificador tiene solo el espectro de MDCT cuantificado disponible como entrada. Como alternativa, se puede usar tambien una puesta en practica en la cual el codificador usa los coeficientes de MDCT cuantificados como entrada en el modulo 2070. No obstante, el uso del espectro de MDCT no cuantificado como entrada en el modulo 2070 es el metodo preferido desde un punto de vista perceptual.Additionally, it is preferred that the module 2070 in the encoder in Figure 6a use the non-quantized MDCT spectrum M as input, although the real-to-imaginary module (R21) 1160a in the decoder has only the quantized MDCT spectrum available as input. Alternatively, an implementation may also be used in which the encoder uses the MDCT coefficients quantified as input in the 2070 module. However, the use of the non-quantized MDCT spectrum as input in the 2070 module is the preferred method from a perceptual point of view.

A continuacion se describen, de forma mas detallada, diversos aspectos de formas de realizacion de la presente invencion.In the following, various aspects of embodiments of the present invention are described in more detail.

La codificacion de estereo parametrico estandar se basa en la capacidad del dominio de QMF (Imbrido) complejo sobremuestreado de permitir un procesamiento de senales motivado perceptualmente con variacion de tiempo y frecuencia sin introducir distorsiones de solapamiento. No obstante, en el caso de la codificacion de mezcla descendente / residual (tal como se usa para las altas tasas de bits consideradas en el presente contexto), el codificador de estereo unificado resultante actua como un codificador de forma de onda. Esto permite la operacion en un dominio cnticamente muestreado, tal como el dominio de MDCT, debido a que el paradigma de codificacion de forma de onda asegura que la propiedad de cancelacion de solapamiento de la cadena de procesamiento de MDCT - IMDCT se conserve lo bastante bien.Standard parametric stereo coding is based on the ability of the over-sampled complex QMF (Imbrid) domain to allow perceptually motivated signal processing with variation of time and frequency without introducing overlapping distortions. However, in the case of the down / residual mix encoding (as used for the high bitrates considered in the present context), the resulting unified stereo encoder acts as a waveform encoder. This allows operation in a scientifically sampled domain, such as the MDCT domain, because the waveform coding paradigm ensures that the overlap cancellation property of the MDCT-IMDCT processing chain is kept well enough. .

No obstante, con el fin de poder aprovechar la eficiencia de codificacion mejorada que se puede lograr en el caso de senales estereo con diferencias de tiempo o fase entre canales por medio de un coeficiente de prediccion de valor complejo a, se necesita una representacion de valor complejo en el dominio de la frecuencia de la senal de mezcla descendente DMX como entrada en la matriz de mezcla ascendente de valor complejo. Esto se puede obtener usando una transformada de MDST ademas de la transformada de MDCT para la senal DMX. El espectro de MDST se puede computar (en forma exacta o como una aproximacion) a partir del espectro de MDCT.However, in order to take advantage of the improved coding efficiency that can be achieved in the case of stereo signals with time or phase differences between channels by means of a complex value prediction coefficient a, a value representation is needed. complex in the frequency domain of the DMX downmix signal as input into the complex value upmix array. This can be obtained by using an MDST transform in addition to the MDCT transform for the DMX signal. The MDST spectrum can be computed (in exact form or as an approximation) from the MDCT spectrum.

Asimismo, la parametrizacion de la matriz de mezcla ascendente se puede simplificar transmitiendo el coeficiente de prediccion compleja a en lugar de los parametros MPS. De este modo se transmiten solo dos parametros (parte real e imaginaria de a) en lugar de tres (ICC, CLD e IPD). Esto resulta posible debido a la redundancia en la parametrizacion de MPS en el caso de la codificacion de mezcla descendente / residual. La parametrizacion de MPS incluye informacion acerca de la cantidad relativa de descorrelacion a agregar en el descodificador (es decir, la relacion de energfa entre las senales RES y DMX), y esta informacion es redundante cuando se transmiten las senales reales DMX y RES.Also, the parametrization of the upmix matrix can be simplified by transmitting the complex prediction coefficient a instead of the MPS parameters. In this way only two parameters are transmitted (real and imaginary part of a) instead of three (ICC, CLD and IPD). This is possible due to the redundancy in the parameterization of MPS in the case of the down / residual mix coding. The MPS parameterization includes information about the relative amount of decorrelation to be added in the decoder (ie, the energy ratio between the RES and DMX signals), and this information is redundant when the real signals DMX and RES are transmitted.

Debido a la misma razon, el factor de ganancia g, que se ilustra en la matriz de mezcla ascendente anterior, es obsoleto en el caso de la codificacion de mezcla descendente / residual. De este modo, la matriz de mezcla ascendente para la codificacion de mezcla descendente / residual con prediccion compleja es la siguiente: Due to the same reason, the gain factor g, which is illustrated in the previous upmix matrix, is obsolete in the case of the down / residual mix coding. Thus, the upmix matrix for the down / residual mix coding with complex prediction is as follows:

Figure imgf000012_0001
Figure imgf000012_0001

En comparacion con la Ecuacion 1169 en la figura 4b, el signo de alfa esta invertido en esta ecuacion, y DMX = M y RES = D. Esta es, por lo tanto, una puesta en practica / notacion alternativa con respecto a la figura 4b.In comparison with Equation 1169 in Figure 4b, the sign of alpha is inverted in this equation, and DMX = M and RES = D. This is, therefore, an implementation / alternative notation with respect to Figure 4b .

Existen dos opciones para calcular la senal residual de prediccion en el codificador. Una opcion consiste en usar los valores espectrales de MDCT cuantificados de la mezcla descendente. Esto tendna como resultado la misma distribucion de error de cuantificacion que en la codificacion M / S debido a que el codificador y el descodificador usan los mismos valores para generar la prediccion. La otra opcion consiste en usar los valores espectrales de MDCT no cuantificados. Esto implica que el codificador y el descodificador no usaran los mismos datos para generar la prediccion, lo que permite la redistribucion espacial del error de codificacion de acuerdo con las propiedades de enmascaramiento instantaneo de la senal a expensas de una ganancia de codificacion un tanto reducida.There are two options to calculate the residual signal of prediction in the encoder. One option is to use the quantized MDCT spectral values of the downmix. This will result in the same quantization error distribution as in the M / S coding because the encoder and the decoder use the same values to generate the prediction. The other option is to use the non-quantized MDCT spectral values. This implies that the encoder and the decoder will not use the same data to generate the prediction, which allows the spatial redistribution of the coding error according to the properties of instantaneous masking of the signal at the expense of a somewhat reduced coding gain.

Es preferible computar el espectro de MDST directamente en el dominio de frecuencia por medio del filtrado bidimensional de FIR de tres cuadros de MDCT adyacentes tal como se ha analizado. Los ultimos se pueden considerar como una transformada “de real a imaginario” (R2I). La complejidad del computo de frecuencia-dominio de la MDST se puede reducir de diversas formas, lo que significa que se calcula solo una aproximacion del espectro de MDST:It is preferable to compute the MDST spectrum directly in the frequency domain by means of two-dimensional FIR filtering of three adjacent MDCT frames as analyzed. The latter can be considered as a transform "from real to imaginary" (R2I). The complexity of the frequency-domain computation of the MDST can be reduced in various ways, which means that only one approximation of the MDST spectrum is calculated:

• Limitando el numero de conexiones de filtro FIR.• Limiting the number of FIR filter connections.

• Estimando la MDST solo a partir del cuadro de MDCT real.• Estimating the MDST only from the actual MDCT chart.

• Estimando la MDST a partir del cuadro de MDCT previo y actual.• Estimating the MDST from the previous and current MDCT chart.

Siempre que se use la misma aproximacion en el codificador y en el descodificador, las propiedades de codificacion de forma de onda no resultaran afectadas. Dichas aproximaciones del espectro de MDST, no obstante, pueden causar una reduccion en la ganancia de codificacion lograda por la prediccion compleja.Whenever the same approximation is used in the encoder and in the decoder, the waveform coding properties will not be affected. Such approximations of the MDST spectrum, however, can cause a reduction in the coding gain achieved by the complex prediction.

En caso de que el codificador de MDCT subyacente soporte la conmutacion de forma de ventana, los coeficientes del filtro bidimensional FIR usado para computar el espectro de MDST tienen que adaptarse a las formas de ventana reales. Los coeficientes de filtros aplicados al espectro de MDCT del cuadro actual dependen de la ventana completa, es decir, es necesario un conjunto de coeficientes para cada tipo de ventana y para cada transicion de ventana. Los coeficientes de filtros aplicados al espectro de MDCT del cuadro anterior / siguiente dependen solo del solapamiento de la mitad de ventana con el cuadro actual, es decir, para estos es necesario un conjunto de coeficientes solo para cada tipo de ventana (sin coeficientes adicionales para las transiciones).In case the underlying MDCT encoder supports the window-like switching, the coefficients of the FIR two-dimensional filter used to compute the MDST spectrum have to be adapted to the actual window forms. The filter coefficients applied to the MDCT spectrum of the current table depend on the complete window, that is, a set of coefficients is required for each type of window and for each window transition. The filter coefficients applied to the MDCT spectrum of the previous / following table depend only on the overlap of the window half with the current frame, that is, for these a set of coefficients is necessary only for each window type (without additional coefficients for the transitions).

En caso de que el codificador de MDCT subyacente use una conmutacion de longitud de transformada, incluyendo el cuadro de MDCT anterior y / o siguiente en la aproximacion, esto resulta mas complicado alrededor de las transiciones entre las distintas longitudes de transformadas. En este caso, debido al distinto numero de coeficientes de MDCT en el cuadro actual, anterior / siguiente, el filtrado bidimensional resulta mas complicado. Con el fin de evitar la creciente complejidad computacional y estructural, el cuadro anterior / siguiente se puede excluir del filtrado en las transiciones de longitud de transformada, a expensas de una menor exactitud de la aproximacion para los cuadros respectivos.In case the underlying MDCT encoder uses a transform length transition, including the MDCT frame previous and / or next in the approach, this becomes more complicated around the transitions between the different transform lengths. In this case, due to the different number of MDCT coefficients in the current, previous / next frame, two-dimensional filtering is more complicated. In order to avoid the increasing computational and structural complexity, the previous / next frame can be excluded from the filtering in the transform length transitions, at the expense of a lower accuracy of the approximation for the respective frames.

Asimismo, se debe tener especial cuidado con las partes mas bajas y mas altas del espectro de MDST (proximas a CC y fs / 2), en donde hay menos coeficientes de MDCT circundantes para el filtrado de FIR que los necesarios. En el presente caso, el proceso de filtrado necesita adaptarse para computar el espectro de MDST correctamente. Esto se puede llevar a cabo, ya sea usando una extension simetrica del espectro de MDCT para los coeficientes que faltan (de acuerdo con la periodicidad de los espectros de senales discretas de tiempo), o adaptando los coeficientes de filtro en forma correspondiente. Es obvio que el tratamiento de dichos casos especiales se puede simplificar a expensas de una menor exactitud en la proximidad de los lfmites del espectro de MDSt .Also, special care must be taken with the lower and higher parts of the MDST spectrum (proximal to CC and fs / 2), where there are fewer surrounding MDCT coefficients for FIR filtering than necessary. In the present case, the filtering process needs to be adapted to compute the MDST spectrum correctly. This can be done either by using a symmetric extension of the MDCT spectrum for the missing coefficients (according to the periodicity of the discrete time signal spectra), or by adapting the filter coefficients accordingly. It is obvious that the treatment of such special cases can be simplified at the expense of a lower accuracy in the vicinity of the limits of the MDSt spectrum.

El computo del espectro de MDST exacto desde los espectros de MDCT transmitidos en el descodificador aumenta el retardo del descodificador por un cuadro (aqrn se presume que son 1024 muestras).The computation of the exact MDST spectrum from the MDCT spectra transmitted in the decoder increases the decoder delay by one frame (there are presumed to be 1024 samples).

El retardo adicional se puede evitar usando una aproximacion del espectro de MDST que no requiere el espectro de MDCT del cuadro siguiente como entrada.The additional delay can be avoided by using an approximation of the MDST spectrum that does not require the MDCT spectrum of the following table as input.

La siguiente lista de elementos resume las ventajas de la codificacion estereo unificada basada en MDCT en comparacion con la codificacion estereo unificada basada en QMF: The following list of elements summarizes the advantages of unified MDCT-based stereo coding compared to unified stereo coding based on QMF:

• Solo un pequeno aumento en la complejidad computacional (cuando no se usa SBR).• Only a small increase in computational complexity (when SBR is not used).

• Amplfa la capacidad hasta una reconstruccion perfecta si los espectros de MDCT no estan cuantificados. Cabe destacar que esto no ocurre para la codificacion estereo unificada basada en QMF.• Extend the capacity to a perfect reconstruction if the MDCT spectra are not quantified. Note that this does not happen for unified stereo encoding based on QMF.

• Extension natural de la codificacion M / S e intensidad de la codificacion estereo.• Natural extension of the M / S coding and intensity of the stereo coding.

• Arquitectura de limpieza que simplifica el ajuste del codificador, debido a que el procesamiento de la senal estereo y la cuantificacion / codificacion se pueden acoplar fuertemente. Cabe destacar que en la codificacion estereo unificada basada en QMF, los cuadros del Entorno de MPEG y los cuadros de MDCt no estan alineados y dichas bandas de factor de escala no coinciden con las bandas del parametro.• Cleaning architecture that simplifies the adjustment of the encoder, because the processing of the stereo signal and the quantification / coding can be strongly coupled. It should be noted that in unified stereo coding based on QMF, the frames of the MPEG environment and the MDC t frames are not aligned and said scale factor bands do not coincide with the bands of the parameter.

• Optimiza la codificacion de parametros de estereo, debido a que solo se tienen que transmitir dos parametros (complejo a) en lugar de tres parametros como en el Entorno de MPEG (ICC, CLD, IPD).• Optimizes the coding of stereo parameters, because only two parameters have to be transmitted (complex a) instead of three parameters as in the MPEG environment (ICC, CLD, IPD).

• No presenta un retardo adicional en el descodificador si el espectro de MDST se computa como una aproximacion (sin usar el cuadro siguiente).• It does not present an additional delay in the decoder if the MDST spectrum is computed as an approximation (without using the following table).

Las propiedades importantes de una puesta en practica se pueden resumir del siguiente modo:The important properties of an implementation can be summarized as follows:

a) Los espectros de MDST se computan por medio del filtrado bidimensional de FIR a partir de los espectros de MDCT actuales, anteriores y siguientes. Se posibilitan distintas compensaciones de complejidad / calidad para el computo de MDST (aproximacion) reduciendo el numero de conexiones de filtro FIR y / o el numero de cuadros de MDCT usados. En particular, si un cuadro adyacente no esta disponible debido a la perdida de cuadro durante la transmision o la conmutacion de longitud de transformada, dicho cuadro particular se excluye del valor estimado de MDST. Para el caso de la conmutacion de longitud de transformada, la exclusion se senala en la corriente de bits.a) The MDST spectra are computed by means of two-dimensional FIR filtering from the current, previous and following MDCT spectra. Different complexity / quality compensations are enabled for the MDST computation (approximation) by reducing the number of FIR filter connections and / or the number of MDCT frames used. In particular, if an adjacent frame is not available due to frame loss during transmission or transform length switching, that particular frame is excluded from the estimated value of MDST. For the case of the transformation length switching, the exclusion is signaled in the bitstream.

b) Solo dos parametros, la parte real e imaginaria del coeficiente de prediccion compleja a, se transmiten en lugar de ICC, CLD, e IPD. Las partes reales e imaginarias de a se tratan en forma independiente, se limitan al rango [-3,0, 3,0] y se cuantifican con un tamano de paso de 0,1. Si un determinado parametro (parte real o imaginaria de a) no se usa en un determinado cuadro, esto se senala en la corriente de bits, y el parametro irrelevante no se transmite. Los parametros se codifican en forma diferencial al tiempo o en forma diferencial a la frecuencia y finalmente se aplica la codificacion de Huffman usando el codigo de factor de escala. Los coeficientes de prediccion se actualizan cada dos bandas de factor de escala, lo que produce una resolucion de frecuencia similar a la resolucion de frecuencia del Entorno de MPEG. Este esquema de cuantificacion y codificacion tiene como resultado una tasa promedio de bits de aproximadamente 2 kb / s para la informacion lateral estereo dentro de una configuracion tfpica que tiene un objetivo de tasa de bits de 96 kb / s.b) Only two parameters, the real and imaginary part of the complex prediction coefficient a, are transmitted instead of ICC, CLD, and IPD. The real and imaginary parts of a are treated independently, limited to the range [-3.0, 3.0] and quantified with a step size of 0.1. If a certain parameter (real or imaginary part of a) is not used in a certain frame, this is signaled in the bit stream, and the irrelevant parameter is not transmitted. Parameters are coded in time differential or differential frequency form and finally Huffman coding is applied using the scale factor code. The prediction coefficients are updated every two scale factor bands, which produces a frequency resolution similar to the frequency resolution of the MPEG Environment. This quantization and coding scheme results in an average bit rate of approximately 2 kb / s for the lateral stereo information within a typical configuration having a bit rate objective of 96 kb / s.

Los detalles preferidos, adicionales o alternativos de la puesta en practica comprenden:Preferred, additional or alternative details of the implementation include:

c) Para cada uno de los dos parametros de a se puede elegir una codificacion no diferencial (PCM) o diferencial (DPCM) por cuadro o por corriente, senalada por un bit correspondiente en la corriente de bits. Para una codificacion DPCM es posible, ya sea una codificacion diferencial de tiempo o frecuencia. De nuevo, esto se puede senalar usando una bandera de un bit.c) For each of the two parameters of a, a non-differential (PCM) or differential (DPCM) coding can be chosen per frame or current, indicated by a corresponding bit in the bit stream. For a DPCM coding it is possible, either a differential coding of time or frequency. Again, this can be signaled using a one-bit flag.

d) En lugar de reutilizar un codigo predefinido tal como el codigo de factor de escala AAC se puede usar un codigo especializado no variable o adaptativo de senales para codificar los valores del parametro a, o se puede volver a los codigos de longitud fija (por ejemplo, de 4 bits) sin signo o de dos complementos.d) Instead of reusing a predefined code such as the AAC scale factor code, a specialized non-variable or adaptive signal code may be used to encode the values of the parameter a, or it may be returned to the fixed-length codes (eg example, 4 bits) without sign or two add-ons.

e) El rango de los valores del parametro a asf como tambien el tamano del paso de cuantificacion de parametros se pueden elegir y optimizar de forma arbitraria hasta las caractensticas de senales en cuestion.e) The range of the values of the parameter as well as the size of the parameter quantization step can be chosen and optimized in an arbitrary way up to the characteristics of the signals in question.

f) El numero y ancho espectral y / o temporal de las bandas de parametro activo a se pueden elegir y optimizar de forma arbitraria hasta las caractensticas de senales determinadas. En particular, la configuracion de banda se puede senalar por cuadro o por corriente.f) The number and spectral and / or temporal width of the bands of active parameter a can be chosen and optimized in an arbitrary way up to the characteristics of certain signals. In particular, the band configuration can be indicated by frame or by current.

g) Ademas de, o en lugar de los mecanismos indicados en a) en lo que antecede, se puede senalar de forma explfcita por medio de un bit por cuadro en la corriente de bits que solo se usa el espectro de MDCT del cuadro actual para computar la aproximacion del espectro de MDST, es decir, que los cuadros de MDCT adyacentes no se tienen en cuenta. g) In addition to, or in lieu of the mechanisms indicated in a) above, it may be indicated explicitly by means of one bit per frame in the bitstream that only the MDCT spectrum of the current frame is used for compute the approximation of the MDST spectrum, ie, that the adjacent MDCT frames are not taken into account.

Las formas de realizacion se refieren a un sistema de la invencion para la codificacion estereo unificada en el dominio de MDCT. Esto permite usar las ventajas de la codificacion estereo unificada en el sistema de USAC del MPEG incluso a tasas de bits mas altas (en donde no se usa SBR) sin el aumento significativo en la complejidad computacional que ocurrina con un metodo basado en QMF.The embodiments relate to a system of the invention for unified stereo coding in the MDCT domain. This allows us to use the advantages of unified stereo coding in the USAC system of MPEG even at higher bit rates (where SBR is not used) without the significant increase in computational complexity that occurs with a QMF-based method.

Las dos listas siguientes resumen los aspectos preferidos de la configuracion que se han descrito en lo que antecede, los cuales se pueden usar de forma alternativa entre sf o ademas de otros aspectos:The following two lists summarize the preferred aspects of the configuration that have been described above, which can be used alternatively among themselves or in addition to other aspects:

la) concepto general: prediccion compleja de MDCT lateral a partir de MDCT y MDST centrales;the) general concept: complex prediction of lateral MDCT from MDCT and central MDST;

lb) calcular / estimar la MDST a partir de MDCT (“R2I”) en el dominio de frecuencia usando 1 o mas cuadros (3 cuadros causan retardo);lb) calculate / estimate the MDST from MDCT ("R2I") in the frequency domain using 1 or more frames (3 frames cause delay);

lc) truncado del filtro (incluso descendiendo hasta 1 cuadro 2 conexiones, es decir, [-1 0 1]) para reducir la complejidad computacional;lc) truncated filter (even going down to 1 frame 2 connections, that is, [-1 0 1]) to reduce computational complexity;

ld) tratamiento adecuado de CC y fs / 2;ld) adequate treatment of CC and fs / 2;

le) tratamiento adecuado de conmutacion de forma de ventana;le) suitable treatment of window form switching;

lf) no usar un cuadro anterior / siguiente si este tiene un tamano de transformada diferente;lf) do not use a previous / next frame if it has a different transform size;

lg) prediccion basada en coeficientes de MDCT no cuantificados o cuantificados en el codificador;lg) prediction based on MDCT coefficients not quantified or quantified in the encoder;

2a) cuantificar y codificar la parte real e imaginaria del coeficiente de prediccion compleja directamente (es decir, sin parametrizacion del Entorno de MPEG);2a) quantifying and encoding the real and imaginary part of the complex prediction coefficient directly (ie, without parametrizing the MPEG environment);

2b) usar cuantificador uniforme para esto (tamano de paso, por ejemplo, 0,1);2b) use uniform quantizer for this (step size, for example, 0.1);

2c) usar una resolucion de frecuencia adecuada para los coeficientes de prediccion (por ejemplo, 1 coeficiente por cada 2 Bandas de Factor de Escala);2c) use an appropriate frequency resolution for the prediction coefficients (for example, 1 coefficient for each 2 Scales Factor Bands);

2d) senalizacion economica en el caso de que todos los coeficientes de prediccion sean reales;2d) economic signaling in the event that all prediction coefficients are real;

2e) bit explfcito por cuadro para forzar la operacion de R2I de 1 cuadro.2e) bit explicito per frame to force the operation of R2I of 1 frame.

En una forma de realizacion, el codificador comprende adicionalmente: un convertidor espectral (50, 51) para convertir una representacion del dominio de tiempo de las dos senales de canal en una representacion espectral de las dos senales de canal que tienen senales de sub-bandas para las dos senales de canal, en donde el combinador (2031), el predictor (2033) y la calculadora de senal residual (2034) estan configurados para procesar cada una de las sub-bandas por separado de tal modo que la primera senal combinada y la senal residual se obtienen para una pluralidad de sub-bandas, en donde la interfaz de salida (212) esta configurada para combinar la primera senal combinada codificada y la senal residual codificada para la pluralidad de sub-bandas.In one embodiment, the encoder further comprises: a spectral converter (50, 51) for converting a time domain representation of the two channel signals into a spectral representation of the two channel signals having sub-band signals for the two channel signals, where the combiner (2031), the predictor (2033) and the residual signal calculator (2034) are configured to process each of the subbands separately so that the first combined signal and the residual signal is obtained for a plurality of subbands, wherein the output interface (212) is configured to combine the first coded combined signal and the coded residual signal for the plurality of subbands.

A pesar de que algunos aspectos se han descrito en el contexto de un aparato, queda claro que dichos aspectos solo representan una descripcion del metodo correspondiente, en donde un bloque o dispositivo corresponde a un paso del metodo o a una caractenstica de un paso del metodo. En forma analoga, los aspectos descritos en el contexto de un paso del metodo tambien representan una descripcion de un bloque o elemento o caractenstica correspondiente de un aparato correspondiente.Although some aspects have been described in the context of an apparatus, it is clear that said aspects only represent a description of the corresponding method, wherein a block or device corresponds to a step of the method or to a characteristic of a step of the method. In an analogous manner, the aspects described in the context of a step of the method also represent a description of a corresponding block or element or feature of a corresponding apparatus.

En una forma de realizacion de la presente invencion se aplica un tratamiento adecuado de conmutacion de forma de ventana. En la figura 10a se ilustra que una informacion de forma de ventana 109 se puede introducir en la calculadora de espectro imaginario 1001. En concreto, la calculadora de espectro imaginario, la cual lleva a cabo la conversion de real a imaginario del espectro de valor real tal como el espectro de MDCT (como, por ejemplo, el elemento 2070 en la figura 6a o el elemento 1160a en la figura 6b) se puede poner en practica como un filtro FIR o IIR. Los coeficientes FIR o IIR en este modulo de real a imaginario 1001 dependen de la forma de ventana de la mitad izquierda y de la mitad derecha del cuadro actual. Esta forma de ventana puede ser distinta para una ventana seno o una ventana Derivada de Kaiser Bessel (Kaiser Bessel Derived, KBD) y dependiendo de la configuracion de secuencia de ventana determinada puede ser una ventana larga, una ventana de inicio, una ventana de parada y una ventana de parada-inicio o una ventana corta. El modulo de real a imaginario puede comprender un filtro bidimensional FlR, en donde una dimension es la dimension de tiempo en donde dos cuadros de MDCT subsiguientes se introducen en el filtro FIR y la segunda dimension es la dimension de frecuencia, en donde se introducen los coeficientes de frecuencia de un cuadro. In one embodiment of the present invention, a suitable window-shaped switching treatment is applied. In figure 10a it is illustrated that a window shape information 109 can be entered in the imaginary spectrum calculator 1001. Specifically, the imaginary spectrum calculator, which performs the real-to-imaginary conversion of the real-value spectrum such as the MDCT spectrum (as, for example, element 2070 in Figure 6a or element 1160a in Figure 6b) can be implemented as an FIR or IIR filter. The FIR or IIR coefficients in this imaginary real 1001 module depend on the window shape of the left half and the right half of the current frame. This window form can be different for a sine window or a Derivative window of Kaiser Bessel (Kaiser Bessel Derived, KBD) and depending on the configuration of a certain window sequence it can be a long window, a start window, a stop window and a stop-start window or a short window. The real-imaginary module can comprise a two-dimensional filter FlR, where one dimension is the time dimension where two subsequent MDCT frames are introduced in the FIR filter and the second dimension is the frequency dimension, where the frequency coefficients of a table.

La siguiente tabla proporciona distintos coeficientes de filtro de MDST para una secuencia de ventana actual para distintas formas de ventana y distintas puestas en practica de la mitad izquierda y la mitad derecha de la ventana.The following table provides different MDST filter coefficients for a current window sequence for different window forms and different implementations of the left half and the right half of the window.

Tabla A - Parametros de Filtro de MDST para la Ventana ActualTable A - MDST Filter Parameters for the Current Window

Figure imgf000015_0001
Figure imgf000015_0001

Figure imgf000015_0002
Figure imgf000015_0002

Adicionalmente, la informacion de forma de ventana 109 proporciona informacion de la forma de ventana para la ventana anterior, cuando se usa la ventana anterior para calcular el espectro de MDST a partir del espectro de MDCT. En la tabla siguiente se proporcionan los coeficientes de filtro de MDST correspondientes para la ventana anterior.Additionally, the window shape information 109 provides information of the window shape for the previous window, when the previous window is used to calculate the MDST spectrum from the MDCT spectrum. The corresponding MDST filter coefficients for the previous window are provided in the following table.

Tabla B - Parametros de Filtro de MDST para la Ventana AnteriorTable B - MDST Filter Parameters for the Previous Window

Figure imgf000015_0003
Figure imgf000015_0003

De este modo, dependiendo de la informacion de la forma de ventana 109, la calculadora de espectro imaginario 1001 en la figura 10a se adapta aplicando distintos conjuntos de coeficientes de filtro.Thus, depending on the information of the window form 109, the imaginary spectrum calculator 1001 in Figure 10a is adapted by applying different sets of filter coefficients.

La informacion de la forma de ventana, la cual se usa en el lado del descodificador se calcula en el lado del codificador y se transmite como informacion lateral junto con la senal de salida del codificador. En el lado del descodificador, la informacion de la forma de ventana 109 se extrae de la corriente de bits mediante el desmultiplexor de la corriente de bits (por ejemplo 102 en la figura 5b) y se proporciona a la calculadora de espectro imaginario 1001 tal como se ilustra en la figura 10a. The information of the window form, which is used on the decoder side, is calculated on the encoder side and transmitted as lateral information together with the output signal of the encoder. On the decoder side, the information of the window form 109 is extracted from the bitstream by the bitstream demultiplexer (for example 102 in FIG. 5b) and is provided to the imaginary spectrum calculator 1001 such as it is illustrated in figure 10a.

Cuando la informacion de la forma de ventana 109 senala que el cuadro anterior tema un distinto tamano de transformada, entonces se prefiere que el cuadro anterior no se use para calcular el espectro imaginario a partir del espectro de valor real. Lo mismo ocurre cuando al interpretar la informacion de la forma de ventana 109 se descubre que el cuadro siguiente tiene un distinto tamano de transformada. Entonces, el cuadro siguiente no se usa para calcular el espectro imaginario a partir del espectro de valor real. En dicho caso cuando, por ejemplo, el cuadro anterior tema un distinto tamano de transformada que el cuadro actual y cuando el cuadro siguiente de nuevo tiene un distinto tamano de transformada en comparacion con el cuadro actual, entonces solo el cuadro actual, es decir, los valores espectrales de la ventana actual, se usan para estimar el espectro imaginario.When the information of the window form 109 indicates that the previous table has a different transform size, then it is preferred that the above table is not used to calculate the imaginary spectrum from the real value spectrum. The same happens when interpreting the information of the window form 109 it is discovered that the following table has a different transform size. Then, the following table is not used to calculate the imaginary spectrum from the real value spectrum. In such a case when, for example, the previous frame has a different transform size than the current frame and when the next frame again has a different transform size compared to the current frame, then only the current frame, ie the spectral values of the current window are used to estimate the imaginary spectrum.

La prediccion en el codificador esta basada en los coeficientes de frecuencia no cuantificados o cuantificados tales como los coeficientes de MDCT. Cuando, por ejemplo, la prediccion que se ilustra por medio del elemento 2033 en la figura 3a, esta basada en datos no cuantificados, entonces la calculadora residual 2034 tambien opera preferentemente en datos no cuantificados y la senal residual de salida de la calculadora, es decir, la senal residual 205 se cuantifica antes de ser codificada por entropfa y transmitida a un descodificador. No obstante, en una forma de realizacion alternativa se prefiere que la prediccion este basada en coeficientes de MDCT cuantificados. Entonces, la cuantificacion puede ocurrir antes del combinador 2031 en la figura 3a de tal modo que un primer canal cuantificado y un segundo canal cuantificado sean la base para calcular la senal residual. Como alternativa, la cuantificacion tambien puede ocurrir a continuacion del combinador 2031 de tal modo que la primera senal de combinacion y la segunda senal de combinacion se calculen en una forma no cuantificada y se cuantifiquen antes de que se calcule la senal residual. De nuevo, como alternativa, el predictor 2033 puede operar en el dominio no cuantificado y la senal de prediccion 2035 se cuantifica antes de ser introducida en la calculadora residual. Entonces, es util que la segunda senal de combinacion 2032, la cual tambien se introduce en la calculadora residual 2034, tambien se cuantifique antes de que la calculadora residual calcule la senal residual 1070 en la figura 6a, la cual se puede poner en practica dentro del predictor 2033 en la figura 3a, opere en los mismos datos cuantificados que esten disponibles en el lado del descodificador. Entonces se puede asegurar que el espectro de MDST estimado en el codificador para llevar a cabo el calculo de la senal residual sea exactamente el mismo que el espectro de MDST en el lado del descodificador usado para llevar a cabo la prediccion inversa, es decir, para calcular la senal lateral desde la senal residual. Para tal fin, la primera senal de combinacion tal como la senal M en la lmea 204 en la figura 6a se cuantifica antes de ser introducida en el bloque 2070. Entonces, el espectro de MDST calculado usando el espectro de MDCT cuantificado del cuadro actual, y dependiendo de la informacion de control, el espectro de MDCT cuantificado del cuadro anterior o siguiente, se introduce en el multiplicador 2074, y la salida del multiplicador 2074 de la figura 6a de nuevo sera un espectro no cuantificado. Este espectro no cuantificado se sustraera del espectro introducido en el sumador 2034b y finalmente se cuantificara en el cuantificador 209b.The prediction in the encoder is based on unquantified or quantized frequency coefficients such as the MDCT coefficients. When, for example, the prediction illustrated by the element 2033 in Figure 3a is based on non-quantized data, then the residual calculator 2034 also preferably operates on non-quantized data and the residual output signal of the calculator is say, the residual signal 205 is quantified before being encoded by entropy and transmitted to a decoder. However, in an alternative embodiment it is preferred that the prediction be based on quantified MDCT coefficients. Then, quantization may occur before combiner 2031 in Figure 3a such that a first quantized channel and a second quantized channel are the basis for calculating the residual signal. Alternatively, the quantization may also occur after the combiner 2031 such that the first combination signal and the second combination signal are calculated in an unquantified form and quantified before the residual signal is calculated. Again, alternatively, the 2033 predictor can operate in the unquantized domain and the 2035 prediction signal is quantized before being entered into the residual calculator. Then, it is useful that the second combination signal 2032, which is also input to the residual calculator 2034, is also quantified before the residual calculator calculates the residual signal 1070 in Figure 6a, which can be implemented within of the 2033 predictor in Figure 3a, operate on the same quantized data that is available on the decoder side. It can then be ensured that the MDST spectrum estimated in the encoder for carrying out the calculation of the residual signal is exactly the same as the MDST spectrum on the decoder side used to carry out the inverse prediction, ie for calculate the lateral signal from the residual signal. For this purpose, the first combination signal such as the signal M in line 204 in figure 6a is quantized before being entered in block 2070. Then, the spectrum of MDST calculated using the quantized MDCT spectrum of the current frame, and depending on the control information, the quantized MDCT spectrum of the previous or following table is entered into the multiplier 2074, and the output of the multiplier 2074 of FIG. 6a again will be an unquantized spectrum. This unquantified spectrum will be subtracted from the spectrum introduced in the adder 2034b and finally quantized in the quantizer 209b.

En una forma de realizacion, la parte real y la parte imaginaria del coeficiente de prediccion compleja por banda de prediccion se cuantifican y codifican directamente, es decir, por ejemplo, sin la parametrizacion del Entorno MPEG. In one embodiment, the real part and the imaginary part of the complex prediction coefficient per prediction band are directly quantized and coded, ie, for example, without the MPEG environment parameterization.

La cuantificacion se puede llevar a cabo usando un cuantificador uniforme con un tamano de paso, por ejemplo, de 0,1. Esto significa que no se aplica ningun tamano de paso de cuantificacion logantmica o similar, sino que se aplica cualquier tamano de paso lineal. En una puesta en practica, el rango de valores para la parte real y la parte imaginaria del coeficiente de prediccion compleja tiene un rango desde -3 a 3, lo que significa que se usan 60 o, dependiendo de los detalles de puesta en practica, 61 pasos de cuantificacion para la parte real y la parte imaginaria del coeficiente de prediccion compleja.The quantification can be carried out using a uniform quantizer with a step size, for example, 0.1. This means that no quantum or similar quantum step size is applied, but any linear step size is applied. In an implementation, the range of values for the real part and the imaginary part of the complex prediction coefficient have a range from -3 to 3, which means that 60 or, depending on the details of implementation, are used, 61 quantification steps for the real part and the imaginary part of the complex prediction coefficient.

Preferentemente, la parte real aplicada en el multiplicador 2073 en la figura 6a y la parte imaginaria 2074 aplicada en la figura 6a se cuantifican antes de ser aplicadas de tal modo que, de nuevo, se usa el mismo valor para la prediccion en el lado del codificador asf como se usa en el lado del descodificador. Esto garantiza que la senal residual de prediccion abarque - ademas del error de cuantificacion introducido - cualquier error que pudiera ocurrir cuando se aplica un coeficiente de prediccion no cuantificado en el lado del codificador mientras se aplica un coeficiente de prediccion cuantificado en el lado del descodificador. Preferentemente, la cuantificacion se aplica de tal modo que - tanto como sea posible - la misma situacion y las mismas senales esten disponibles en el lado del codificador y en el lado del descodificador. De este modo se prefiere cuantificar la entrada en la calculadora de real a imaginario 2070 usando la misma cuantificacion aplicada en el cuantificador 209a. Adicionalmente se prefiere cuantificar la parte real y la parte imaginaria del coeficiente de prediccion de a para llevar a cabo las multiplicaciones en el elemento 2073 y en el elemento 2074. La cuantificacion es la misma que se aplica en el cuantificador 2072. Adicionalmente, la senal lateral emitida por el bloque 2031 en la figura 6a tambien se puede cuantificar antes de los sumadores 2034a y 2034b. No obstante, no resulta problematico que el cuantificador 209b lleve a cabo la cuantificacion posteriormente a la adicion, en donde la adicion por dichos sumadores se aplica con una senal lateral no cuantificada.Preferably, the real part applied in the multiplier 2073 in Figure 6a and the imaginary part 2074 applied in Figure 6a are quantized before being applied such that, again, the same value is used for the prediction on the encoder as well as used on the decoder side. This ensures that the residual prediction signal encompasses - in addition to the quantization error introduced - any errors that might occur when an unquantized prediction coefficient is applied on the encoder side while applying a quantized prediction coefficient on the decoder side. Preferably, the quantization is applied in such a way that - as much as possible - the same situation and the same signals are available on the encoder side and on the decoder side. In this way it is preferred to quantify the input in the calculator from real to imaginary 2070 using the same quantization applied in quantizer 209a. Additionally, it is preferred to quantify the real part and the imaginary part of the prediction coefficient of a to carry out the multiplications in the element 2073 and in the element 2074. The quantization is the same as that applied in the quantizer 2072. Additionally, the signal The lateral one emitted by the block 2031 in FIG. 6a can also be quantized before the adders 2034a and 2034b. However, it is not problematic that the quantifier 209b carries out the quantification after the addition, where the addition by said adders is applied with a non-quantized side signal.

En un ejemplo adicional se aplica una senalizacion economica en caso de que todos los coeficientes de prediccion sean reales. Puede ocurrir que todos los coeficientes de prediccion para un cuadro determinado, es decir, para la misma porcion de tiempo de la senal de audio se calculen como reales. Dicha situacion puede ocurrir cuando la senal central completa y la senal lateral completa no estan desfasadas entre sf o estan un poco desfasadas. Con el fin de ahorrar bits, esto es indicado por un unico indicador real. Entonces, no es necesario senalar la parte imaginaria del coeficiente de prediccion en la corriente de bits con un codigo que represente un valor cero. En el lado del descodificador, la interfaz del descodificador de la corriente de bits, tal como un desmultiplexor de la corriente de bits, interpretara este indicador real y luego no buscara palabras clave para una parte imaginaria pero entendera que todos los bits estan en la seccion correspondiente de la corriente de bits como bits para coeficientes de prediccion de valor real. Asimismo, cuando el predictor 2033 recibe una indicacion de que todas las partes imaginarias de los coeficientes de prediccion en el cuadro son cero, no necesitara calcular un espectro de MDST, o generalmente un espectro imaginario a partir del espectro de MDCT de valor real. Por lo tanto, el elemento 1160a en el descodificador de la figura 6b se desactivara y la prediccion inversa solo tendra lugar usando el coeficiente de prediccion de valor real aplicado en el multiplicador 1160b en la figura 6b. Esto mismo ocurre para el lado del codificador en donde el elemento 2070 se desactivara y la prediccion solo tendra lugar usando el multiplicador 2073. Esta informacion lateral se usa preferentemente como un bit adicional por cuadro y el descodificador leera este bit, cuadro por cuadro, con el fin de decidir si el convertidor de real a imaginario 1160a estara activo para un cuadro o no. De este modo, al proporcionar esta informacion se logra un tamano reducido de la corriente de bits debido a la senalizacion mas eficiente de todas las partes imaginarias del coeficiente de prediccion que son cero para un cuadro y, adicionalmente, proporciona menos complejidad para el descodificador para dicho cuadro logrando inmediatamente un menor consumo de batena de dicho procesador que se pone en practica, por ejemplo, en un dispositivo movil alimentado por batena.In an additional example, an economic signaling is applied in case all the prediction coefficients are real. It can happen that all the prediction coefficients for a given frame, that is, for the same time portion of the audio signal, are calculated as real. This situation can occur when the complete central signal and the complete lateral signal are not out of phase with each other or are a little out of phase. With the In order to save bits, this is indicated by a single real indicator. Then, it is not necessary to indicate the imaginary part of the prediction coefficient in the bitstream with a code representing a zero value. On the decoder side, the decoder interface of the bit stream, such as a bitstream demultiplexer, will interpret this real flag and then will not search for keywords for an imaginary part but will understand that all bits are in the section. corresponding to the bit stream as bits for real value prediction coefficients. Also, when the predictor 2033 receives an indication that all the imaginary parts of the prediction coefficients in the table are zero, it will not need to calculate a MDST spectrum, or generally an imaginary spectrum from the real value MDCT spectrum. Therefore, element 1160a in the decoder of figure 6b will be deactivated and reverse prediction will only take place using the real value prediction coefficient applied in multiplier 1160b in figure 6b. The same happens for the encoder side where the element 2070 will be deactivated and the prediction will only take place using the multiplier 2073. This lateral information is preferably used as an additional bit per frame and the decoder will read this bit, frame by frame, with in order to decide whether the converter from real to imaginary 1160a will be active for a frame or not. In this way, by providing this information a reduced size of the bit stream is achieved due to the most efficient signaling of all the imaginary parts of the prediction coefficient that are zero for a frame and, additionally, it provides less complexity for the decoder for said table immediately achieving a lower consumption of said processor battery that is put into practice, for example, in a mobile device powered by batena.

La prediccion compleja estereo de acuerdo con las formas de realizacion preferidas de la presente invencion es una herramienta para la codificacion eficiente de pares de canales con diferencias de nivel y / o fase entre los canales. Al usar un parametro de valor complejo a, los canales izquierdo y derecho se reconstruyen por medio de la matriz siguiente. dmxim indica la MDST correspondiente a la MDCT de los canales de mezcla descendente dmxRe.The complex stereo prediction according to the preferred embodiments of the present invention is a tool for the efficient coding of channel pairs with level and / or phase differences between the channels. When using a complex value parameter a, the left and right channels are reconstructed by means of the following matrix. dmxim indicates the MDST corresponding to the MDCT of the dmxRe downmix channels.

Figure imgf000017_0001
Figure imgf000017_0001

La ecuacion anterior es otra representacion, la cual se divide con respecto a la parte real y a la parte imaginaria de a y representa la ecuacion para una operacion combinada de prediccion / combinacion, en la cual la senal predicha S no se calcula necesariamente.The above equation is another representation, which is divided with respect to the real part and the imaginary part of a and represents the equation for a combined prediction / combination operation, in which the predicted signal S is not necessarily calculated.

Los siguientes elementos de datos se usan preferentemente para esta herramienta:The following data elements are preferably used for this tool:

cplx_pred all 0: Algunas bandas usan la codificacion L / R, senalada por cplx_pred_used[] cplx_pred all 0: Some bands use the L / R encoding, indicated by cplx_pred_used []

1: Todas las bandas usan la prediccion compleja estereo1: All bands use complex stereo prediction

cplx_pred_used[g][sfb] Una bandera de un bit por grupo de ventanas g y banda de factor de escala sfb (despues del mapeo a partir de las bandas de prediccion) que indica que cplx_pred_used [g] [sfb] A one bit flag per window group g and scale factor band sfb (after mapping from the prediction bands) indicating that

0: no se esta usando la prediccion compleja, se usa la codificacion L / R0: the complex prediction is not being used, the L / R coding is used

1: se usa la prediccion compleja1: complex prediction is used

complex_coef 0: aim = 0 para todas las bandas de prediccion complex_coef 0: aim = 0 for all prediction bands

1: aim se transmite para todas las bandas de prediccion1: aim is transmitted for all prediction bands

use_prev_frame 0: Usar solo el cuadro actual para estimar la MDST use_prev_frame 0: Use only the current frame to estimate the MDST

1: Usar el cuadro actual y anterior para estimar la MDST1: Use the current and previous chart to estimate the MDST

delta_code_time 0: Codificacion diferencial de frecuencia de los coeficientes de prediccion delta_code_time 0: Frequency differential coding of the prediction coefficients

1: Codificacion diferencial de tiempo de los coeficientes de prediccion hcod_alpha_q_re Codigo de Huffman de aRe1: Time differential coding of the prediction coefficients hcod_alpha_q_re Huffman code of aRe

hcod_alpha_q_im Codigo de Huffman de aim hcod_alpha_q_im Huffman code of aim

Estos elementos de datos se calculan en un codificador y se introducen en la informacion lateral de una senal de audio multicanal o estereo. Los elementos se extraen de la informacion lateral en el lado del descodificador por medio de un extractor de informacion lateral y se usan para controlar la calculadora de descodificador para llevar a cabo una accion correspondiente.These data elements are calculated in an encoder and entered into the lateral information of a multi-channel or stereo audio signal. The elements are extracted from the lateral information on the decoder side by means of a lateral information extractor and are used to control the decoder calculator to carry out a corresponding action.

La prediccion compleja estereo necesita el espectro de MDCT de mezcla descendente del par de canales actuales y, en el caso de complex_coef == 1, un valor estimado del espectro de MDST de mezcla descendente del par de canales actuales, es decir, la contraparte imaginaria del espectro de MDCT. El valor estimado de la MDST de mezcla descendente se computa desde la MDCT de mezcla descendente del cuadro actual y, en el caso de use_prev_frame == 1, desde la MDCT de mezcla descendente del cuadro anterior. La MDCT de mezcla descendente del cuadro anterior del grupo de ventanas g y del grupo de ventanas b se obtiene a partir de los espectros izquierdo y derecho reconstruidos de dicho cuadro. The complex stereo prediction requires the down-mix MDCT spectrum of the current channel pair and, in the case of complex_coef == 1, an estimated value of the downmix MDST spectrum of the current channel pair, ie the imaginary counterpart of the MDCT spectrum. The estimated value of the downmix MDST is computed from the downmix MDCT of the current table and, in the case of use_prev_frame == 1, from the downmix MDCT of the previous table. The MDCT of downmixing of the previous table of the group of windows g and group of windows b is obtained from the reconstructed left and right spectra of said table.

En el computo del valor estimado de la MDST de mezcla descendente se usa la longitud de transformada MDCT de valor uniforme, la cual depende de window_sequence, as^ como tambien de filter_coefs y filter_coefs_prev, los cuales son matrices que contienen los nucleos de filtro y los cuales se obtienen de acuerdo con las tablas anteriores. Para todos los coeficientes de prediccion, la diferencia de un valor anterior (en tiempo o frecuencia) se codifica usando un codigo de Huffman. Los coeficientes de prediccion no se transmiten para las bandas de prediccion para las cuales se uso cplx_pred_used = 0.In the computation of the estimated value of the downmixing MDST, the MDCT transform length of uniform value is used, which depends on window_sequence, as well as filter_coefs and filter_coefs_prev, which are matrices containing the filter cores and the which are obtained according to the previous tables. For all prediction coefficients, the difference of a previous value (in time or frequency) is encoded using a Huffman code. The prediction coefficients are not transmitted for the prediction bands for which cplx_pred_used = 0 was used.

Los coeficientes de prediccion inversa cuantificados alpha_re y alpha_im son proporcionados porThe inverse prediction coefficients quantified alpha_re and alpha_im are provided by

alpha_re = alpha_q_re * 0,1alpha_re = alpha_q_re * 0.1

alpha_im = alpha_q_im * 0,1alpha_im = alpha_q_im * 0.1

Cabe destacar que la invencion no solo se aplica a senales estereo, es decir, senales multicanal que tienen solo dos canales, sino que tambien se aplica a dos canales de una senal multicanal que tiene tres o mas canales tales como una senal 5.1 o 7.1.It should be noted that the invention not only applies to stereo signals, ie multichannel signals having only two channels, but also applies to two channels of a multi-channel signal having three or more channels such as a 5.1 or 7.1 signal.

La senal de audio codificada de la invencion se puede almacenar en un medio de almacenamiento digital o se puede transmitir en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision por cable como Internet.The encoded audio signal of the invention may be stored in a digital storage medium or transmitted in a transmission medium such as a wireless transmission medium or a cable transmission medium such as the Internet.

Dependiendo de determinados requisitos para la puesta en practica, las formas de realizacion de la invencion se pueden poner en practica en un hardware o en un software. La puesta en practica se puede llevar a cabo usando un medio digital de almacenamiento, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene senales de control legibles almacenadas electronicamente en el mismo, las cuales colaboran (o son capaces de colaborar) con un sistema informatico programable de tal modo que el metodo respectivo se lleve a cabo.Depending on certain requirements for the implementation, the embodiments of the invention can be implemented in hardware or software. The implementation can be carried out using a digital storage medium, for example a floppy disk, a DVD, a CD, a ROM, a PROM, an EPROM, an EEPROM or a FLASH memory, which has legible control signals. electronically stored in it, which collaborate (or are able to collaborate) with a computer programmable system in such a way that the respective method is carried out.

Algunas formas de realizacion de acuerdo con la invencion comprenden un portador de datos no temporario o tangible que tiene senales de control legibles electronicamente, las cuales son capaces de colaborar con un sistema informatico programable, de tal modo que uno de los metodos descritos en la presente se lleve a cabo.Some embodiments according to the invention comprise a non-temporary or tangible data carrier having electronically readable control signals, which are capable of cooperating with a programmable computer system, such that one of the methods described herein is carried out.

En general, las formas de realizacion de la presente invencion se pueden poner en practica como un producto de programa informatico con un codigo de programa el cual es operativo para llevar a cabo uno de los metodos cuando el producto de programa informatico se ejecuta en un ordenador. El codigo de programa se puede almacenar, por ejemplo, en un portador legible por ordenador.In general, the embodiments of the present invention can be implemented as a computer program product with a program code which is operative to carry out one of the methods when the computer program product is run on a computer . The program code can be stored, for example, in a computer readable carrier.

Otras formas de realizacion comprenden el programa informatico para llevar a cabo uno de los metodos descritos en la presente, almacenados en un portador legible por ordenador.Other embodiments comprise the computer program for carrying out one of the methods described herein, stored in a computer readable carrier.

En otros terminos, una forma de realizacion del metodo de la invencion es, por lo tanto, un programa informatico que tiene un codigo de programa para llevar a cabo uno de los metodos descritos en la presente, cuando el programa informatico se ejecuta en un ordenador.In other terms, one embodiment of the method of the invention is, therefore, a computer program having a program code for carrying out one of the methods described herein, when the computer program is executed on a computer .

Una forma de realizacion adicional de los metodos de la invencion es, por lo tanto, un portador de datos (o un medio digital de almacenamiento, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informatico para llevar a cabo uno de los metodos descritos en la presente.A further embodiment of the methods of the invention is, therefore, a data carrier (or a digital storage medium, or a computer readable medium) comprising, recorded therein, the computer program to carry one of the methods described herein.

Una forma de realizacion adicional del metodo de la invencion es, por lo tanto, una corriente de datos o una secuencia de senales que representa el programa informatico para llevar a cabo uno de los metodos descritos en la presente. La corriente de datos o la secuencia de senales pueden estar configuradas, por ejemplo, para ser transferidas mediante una conexion de comunicacion de datos, por ejemplo, a traves de Internet.A further embodiment of the method of the invention is, therefore, a data stream or a signal sequence representing the computer program to carry out one of the methods described herein. The data stream or the signal sequence may be configured, for example, to be transferred via a data communication connection, for example, via the Internet.

Otra forma de realizacion comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo logico programable, configurado o adaptado para llevar a cabo uno de los metodos descritos en la presente.Another embodiment comprises a processing means, for example, a computer, or a programmable logic device, configured or adapted to carry out one of the methods described herein.

Otra forma de realizacion comprende un ordenador que tiene instalado en la misma el programa informatico para llevar a cabo uno de los metodos descritos en la presente.Another embodiment comprises a computer having the computer program installed in it to carry out one of the methods described herein.

En algunas formas de realizacion se puede usar un dispositivo logico programable (por ejemplo un campo de matrices de puertas programables) para llevar a cabo algunas o todas las funcionalidades de los metodos descritos en la presente. En algunas formas de realizacion, un campo de matrices de puertas programables puede colaborar con un microprocesador con el fin de llevar a cabo uno de los metodos descritos en la presente. En general, los metodos son llevados a cabo preferentemente por cualquier aparato de hardware. In some embodiments, a programmable logic device (e.g., a field of programmable gate arrays) may be used to carry out some or all of the functionalities of the methods described herein. In some embodiments, a field of programmable gate arrays can collaborate with a microprocessor in order to carry out one of the methods described herein. In general, the methods are preferably carried out by any hardware apparatus.

Las formas de realizacion que se han descrito en lo que antecede son meramente ilustrativas de los principios de la presente invencion. Cabe entender que las modificaciones y variantes de las disposiciones y detalles descritos en la presente resultaran evidentes para los expertos en la tecnica. Por consiguiente, la invencion solo esta limitada por el alcance de las siguientes reivindicaciones de la patente y no por los detalles espedficos presentados a modo de descripcion y explicacion de las formas de realizacion incluidas en la presente. The embodiments that have been described in the foregoing are merely illustrative of the principles of the present invention. It is to be understood that the modifications and variants of the arrangements and details described herein will be apparent to those skilled in the art. Accordingly, the invention is limited only by the scope of the following claims of the patent and not by the specific details presented by way of description and explanation of the embodiments included herein.

Claims (19)

REIVINDICACIONES 1. Descodificador de audio para descodificar una senal de audio multicanal codificada (100), comprendiendo la senal de audio multicanal codificada (100) una primera senal de combinacion codificada (104) generada sobre la base de una regla de combinacion para combinar una primera senal de audio de canal y una segunda senal de audio de canal de una senal de audio multicanal, una senal residual de prediccion codificada (106) e informacion de prediccion (108), que comprende:An audio decoder for decoding a multichannel encoded audio signal (100), the encoded multi-channel audio signal (100) comprising a first encoded combination signal (104) generated on the basis of a combination rule for combining a first signal channel audio and a second channel audio signal of a multichannel audio signal, a residual encoded prediction signal (106) and prediction information (108), comprising: un descodificador de senales (110) para descodificar la primera senal de combinacion codificada (104) para obtener una primera senal de combinacion descodificada (112) y para descodificar la senal residual de prediccion codificada (106) para obtener una senal residual descodificada (114); ya signal decoder (110) for decoding the first encoded combination signal (104) to obtain a first decoded combination signal (112) and for decoding the residual encoded prediction signal (106) to obtain a decoded residual signal (114) ; Y una calculadora de descodificador (116) para calcular una senal de audio multicanal descodificada que tiene una primera senal de canal descodificada (117), y una segunda senal de canal descodificada (118) usando la senal residual descodificada (114), la informacion de prediccion (108) y la primera senal de combinacion descodificada (112), de tal modo que la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118) son por lo menos aproximaciones de la primera senal de canal y la segunda senal de canal de la senal de audio multicanal, en donde la informacion de prediccion (108) comprende una porcion imaginaria distinta de cero, en donde la calculadora de descodificador (116) comprende:a decoder calculator (116) for calculating a decoded multichannel audio signal having a first decoded channel signal (117), and a second decoded channel signal (118) using the decoded residual signal (114), the prediction information (108) and the first decoded combination signal (112), such that the first decoded channel signal (117) and the second decoded channel signal (118) are at least approximations of the first channel signal and the second channel signal of the multichannel audio signal, wherein the prediction information (108) comprises an imaginary portion other than zero, wherein the decoder calculator (116) comprises: un predictor (1160) para aplicar la informacion de prediccion (108) a la primera senal de combinacion descodificada (112) o a una senal (601) proveniente de la primera senal de combinacion descodificada (112) para obtener una senal de prediccion (1163);a predictor (1160) for applying the prediction information (108) to the first decoded combination signal (112) or to a signal (601) from the first decoded combination signal (112) to obtain a prediction signal (1163) ; una calculadora de senales de combinacion (1161) para calcular una segunda senal de combinacion (1165) combinando la senal residual descodificada (114) y la senal de prediccion (1163); ya combination signal calculator (1161) for computing a second combination signal (1165) by combining the decoded residual signal (114) and the prediction signal (1163); Y un combinador (1162) para combinar la primera senal de combinacion descodificada (112) y la segunda senal de combinacion (1165) para obtener la senal de audio multicanal descodificada que tiene la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118),a combiner (1162) for combining the first decoded combination signal (112) and the second combination signal (1165) to obtain the decoded multi-channel audio signal having the first decoded channel signal (117) and the second channel signal decoded (118), en donde el predictor (1160) comprende un convertidor de real a imaginario (1160) para estimar (1160a) un espectro imaginario de la primera senal de combinacion descodificada (112) usando una parte real de la primera senal de combinacion descodificada (112) directamente en el dominio de la frecuencia usando un filtrado bidimensional, estando sometida la parte real de la primera senal de combinacion descodificada (112) a una conmutacion de ventana,wherein the predictor (1160) comprises a real-to-imaginary converter (1160) for estimating (1160a) an imaginary spectrum of the first decoded combination signal (112) using a real part of the first decoded combination signal (112) directly in the frequency domain using a two dimensional filtering, the real part of the first decoded combination signal (112) being subjected to a window switching, en donde el predictor (1160) esta configurado para multiplicar una parte imaginaria (601) de la primera senal de combinacion descodificada (112) por la parte imaginaria de la informacion de prediccion (108) para obtener al menos una parte de la senal de prediccion (1163), ywherein the predictor (1160) is configured to multiply an imaginary part (601) of the first decoded combination signal (112) by the imaginary part of the prediction information (108) to obtain at least a part of the prediction signal (1163), and en donde el predictor (1160) esta configurado para recibir una informacion de forma de ventana (109) y para usar diferentes coeficientes de filtro por el convertidor de real a imaginario (1160) para calcular el espectro imaginario de la primera senal de combinacion descodificada (112), en donde los diferentes coeficientes de filtro dependen de diferentes formas de ventana que son indicadas por la informacion de forma de ventana (109), en donde los coeficientes de filtro que son usados por el predictor (1160) dependen de una ventana completa, y en donde se requiere un conjunto de coeficientes de filtro para cada tipo de ventana y para cada transicion de ventana.wherein the predictor (1160) is configured to receive a window form information (109) and to use different filter coefficients by the imaginary real converter (1160) to calculate the imaginary spectrum of the first decoded combination signal ( 112), wherein the different filter coefficients depend on different window shapes that are indicated by the window shape information (109), wherein the filter coefficients that are used by the predictor (1160) depend on a full window , and where a set of filter coefficients is required for each type of window and for each window transition. 2. Descodificador de audio de acuerdo con la reivindicacion 1,2. Audio decoder according to claim 1, en donde la primera senal de combinacion codificada (104) y la senal residual de prediccion codificada (106) se han generado usando un solapamiento que genera la conversion espectral - tiempo,wherein the first coded combination signal (104) and the residual coded prediction signal (106) have been generated using an overlap that generates the spectral-time conversion, en donde el descodificador ademas comprende:wherein the decoder further comprises: un convertidor espectral - tiempo (52, 53) para generar una primera senal de canal en el dominio del tiempo y una segunda senal de canal en el dominio del tiempo usando un algoritmo de conversion espectral - tiempo que coincide con el algoritmo de conversion espectral - tiempo; un procesador de solapar / agregar (522) para llevar a cabo un procesamiento de solapar - agregar para la primera senal de canal en el dominio del tiempo y para la segunda senal de canal en el dominio del tiempo para obtener una primera senal en el dominio del tiempo sin solapamiento y una segunda senal en el dominio del tiempo sin solapamiento.a spectral-time converter (52, 53) to generate a first time-domain channel signal and a second time-domain channel signal using a spectral-time conversion algorithm that matches the spectral conversion algorithm - weather; an overlap / aggregate processor (522) to perform an overlap processing - add for the first time signal channel signal and for the second time domain channel signal to obtain a first signal in the domain of time without overlapping and a second signal in the time domain without overlapping. 3. Descodificador de audio de acuerdo con una de las reivindicaciones anteriores, en donde la informacion de prediccion (108) comprende adicionalmente un factor real distinto de cero,Audio decoder according to one of the preceding claims, wherein the prediction information (108) additionally comprises a non-zero real factor, en donde el predictor (1160) esta configurado para multiplicar la primera senal de combinacion descodificada (112) por el factor real para obtener una primera parte de la senal de prediccion (1163), ywherein the predictor (1160) is configured to multiply the first decoded combination signal (112) by the real factor to obtain a first part of the prediction signal (1163), and en donde la calculadora de senales de combinacion (1161) esta configurada para combinar de forma lineal la senal residual descodificada (114) y la primera parte de la senal de prediccion (1163) y la al menos una parte de la senal residual de prediccion. wherein the combination signal calculator (1161) is configured to linearly combine the decoded residual signal (114) and the first part of the prediction signal (1163) and the at least part of the residual signal of prediction. 4. Descodificador de audio de acuerdo con una de las reivindicaciones anteriores,4. Audio decoder according to one of the preceding claims, en donde la primera senal de combinacion codificada (104) o la primera senal de combinacion descodificada (112) y la senal residual de prediccion codificada (106) o la senal residual de prediccion descodificada (114) comprenden, cada una, una primera pluralidad de senales de sub-bandas,wherein the first encoded combination signal (104) or the first decoded combination signal (112) and the residual encoded prediction signal (106) or the decoded predicted residual signal (114) each comprise a first plurality of sub-band signals, en donde la informacion de prediccion (108) comprende una segunda pluralidad de parametros de informacion de prediccion, siendo la segunda pluralidad mas pequena que la primera pluralidad,wherein the prediction information (108) comprises a second plurality of prediction information parameters, the second plurality being smaller than the first plurality, en donde el predictor (1160) esta configurado para aplicar el mismo parametro de prediccion a por lo menos dos senales de sub-bandas diferentes de la primera senal de combinacion descodificada (112),wherein the predictor (1160) is configured to apply the same prediction parameter to at least two signals of different subbands of the first decoded combination signal (112), en donde la calculadora de descodificador (116) o la calculadora de senales de combinacion (1161) o el combinador (1162) estan configurados para llevar a cabo un procesamiento en sub-bandas; ywherein the decoder calculator (116) or the combination signal calculator (1161) or the combiner (1162) are configured to perform subband processing; Y en donde el descodificador de audio ademas comprende un banco de filtros de smtesis (52, 53) para combinar senales de sub-bandas de la primera senal de combinacion descodificada (112) y la segunda senal de combinacion descodificada (1165) para obtener una primera senal descodificada en el dominio del tiempo y una segunda senal descodificada en el dominio del tiempo.wherein the audio decoder further comprises a bank of synthesis filters (52, 53) for combining signals of sub-bands of the first decoded combination signal (112) and the second decoded combination signal (1165) to obtain a first decoded signal in the time domain and a second signal decoded in the time domain. 5. Descodificador de audio de acuerdo con la reivindicacion 1,5. Audio decoder according to claim 1, en donde la primera senal de combinacion descodificada (112) comprende una secuencia de cuadros de senales de valor real, ywherein the first decoded combination signal (112) comprises a sequence of frames of signals of real value, and en donde el predictor (1160) esta configurado para estimar (1160a), como el espectro imaginario de la primera senal de combinacion descodificada, una parte imaginaria del cuadro de senal actual usando solo el cuadro de senal de valor real actual o usando el cuadro de senal de valor real actual y, ya sea solo uno o mas cuadros de senal de valor real precedentes o solo uno o mas cuadros de valor real siguientes o usando el cuadro de senal de valor real actual y uno o mas cuadros de senal de valor real precedentes y uno o mas cuadros de senal de valor real siguientes. wherein the predictor (1160) is configured to estimate (1160a), as the imaginary spectrum of the first decoded combination signal, an imaginary part of the current signal frame using only the current real value signal frame or by using the present actual value signal and, either only one or more preceding real value signal frames or only one or more real value frames following or using the current real value signal frame and one or more real value signal frames precedents and one or more following real value signal tables. 6. Descodificador de audio de acuerdo con una de las reivindicaciones 1 a 5, en donde la senal de audio multicanal codificada (100) comprende, como informacion lateral, un indicador real que indica que todos los coeficientes de prediccion para un cuadro de la senal de audio multicanal codificada (100) son de valor real,Audio decoder according to one of claims 1 to 5, wherein the encoded multi-channel audio signal (100) comprises, as a side information, a real indicator indicating that all the prediction coefficients for a signal box encoded multi-channel audio (100) are of real value, en donde el descodificador de audio esta configurado para extraer el indicador real de la senal de audio multicanal codificada (100), ywherein the audio decoder is configured to extract the actual indicator from the encoded multi-channel audio signal (100), and en donde la calculadora de descodificador (116) esta configurada para no calcular una senal imaginaria para un cuadro, para el cual el indicador real esta indicando solo coeficientes de prediccion de valor real.wherein the decoder calculator (116) is configured not to calculate an imaginary signal for a frame, for which the real indicator is indicating only real value prediction coefficients. 7. Descodificador de audio de acuerdo con la reivindicacion 1, en donde el espectro de un cuadro previo o el espectro de un cuadro siguiente es un espectro de MDCT, en donde los coeficientes de filtro que se aplican al espectro del cuadro previo o que se aplican al espectro del cuadro siguiente dependen solo de la mitad de ventana que se solapa con un cuadro actual, en donde solo se requiere un conjunto de coeficientes para cada tipo de ventana.7. Audio decoder according to claim 1, wherein the spectrum of a previous frame or the spectrum of a next frame is a MDCT spectrum, wherein the filter coefficients that are applied to the spectrum of the previous frame or that are apply to the spectrum of the following table depend only on the half of window that overlaps a current frame, where only a set of coefficients for each type of window is required. 8. Descodificador de audio de acuerdo con la reivindicacion 1, en donde un tipo de ventana es o bien una ventana de seno o bien una ventana Derivada de Kaiser Bessel y, sometida a una configuracion dada de secuencia de ventana, el tipo de ventana puede ser una ventana larga, una ventana de inicio, una ventana de parada, una ventana de parada inicio o una ventana corta.8. Audio decoder according to claim 1, wherein a window type is either a sine window or a Kaiser Bessel Derived window and, subject to a given window sequence configuration, the window type can be be a long window, a start window, a stop window, a start stop window or a short window. 9. Descodificador de audio de acuerdo con la reivindicacion 1, en donde una configuracion de ventana puede ser una configuracion de ventana de ventana larga, ventana corta, ventana de inicio, ventana de parada o ventana de parada inicio.9. Audio decoder according to claim 1, wherein a window configuration can be a long window window, short window, start window, stop window or start stop window configuration. 10. Descodificador de audio de acuerdo con la reivindicacion 1, en donde el predictor (1160) esta configurado para calcular un espectro de MDST como el espectro imaginario usando un espectro de MDCT de un cuadro actual como la parte real de la primera senal de combinacion descodificada (112), en donde los coeficientes de filtro que son usados por el predictor (1160) son coeficientes de filtro de MDST y dependen de la forma de ventana de una mitad izquierda de la ventana actual y la mitad derecha de la ventana actual,10. An audio decoder according to claim 1, wherein the predictor (1160) is configured to calculate an MDST spectrum as the imaginary spectrum using a MDCT spectrum of a current frame as the real part of the first combination signal. decoded (112), wherein the filter coefficients that are used by the predictor (1160) are MDST filter coefficients and depend on the window shape of a left half of the current window and the right half of the current window, en donde: o bien la mitad izquierda es una forma de seno y la mitad derecha es una forma de seno, o bien la mitad izquierda es una forma Derivada de Kaiser Bessel y la mitad derecha es una forma Derivada de Kaiser Bessel, o bienwhere: either the left half is a breast form and the right half is a breast shape, or the left half is a Derived form of Kaiser Bessel and the right half is a Derived form of Kaiser Bessel, or la mitad izquierda es una forma de seno y la mitad derecha es una forma Derivada de Kaiser Bessel, o bien la mitad izquierda es una forma Derivada de Kaiser Bessel y la mitad derecha es una forma de seno.the left half is a breast form and the right half is a Derived form of Kaiser Bessel, or the left half is a Derived form of Kaiser Bessel and the right half is a breast form. 11. Descodificador de audio de acuerdo con la reivindicacion 1, en donde el predictor (1160) esta configurado para calcular un espectro de MDST como el espectro imaginario usando un espectro de MDCT de un cuadro actual usando los siguientes coeficientes de filtro de MDST que se seleccionan para una mitad izquierda y una mitad derecha correspondiente de una ventana actual y una secuencia de ventana actual correspondiente de acuerdo con la siguiente Tabla A: 11. Audio decoder according to claim 1, wherein the predictor (1160) is configured to calculate an MDST spectrum as the imaginary spectrum using an MDCT spectrum of a current frame using the following MDST filter coefficients that are select for a left half and a corresponding right half of a current window and a corresponding current window sequence according to the following Table A: Tabla A - Coeficientes de Filtro de MDST para la Ventana ActualTable A - MDST Filter Coefficients for the Current Window
Figure imgf000022_0001
Figure imgf000022_0001
12. Descodificador de audio de acuerdo con la reivindicacion 11, en donde el predictor (1160) esta configurado para calcular un espectro de MDST como el espectro imaginario usando, adicionalmente, un espectro de MDCT de un cuadro previo y usando los siguientes coeficientes de filtro de MDST que se seleccionan para una mitad izquierda de una ventana actual y una secuencia de ventana actual correspondiente de acuerdo con la siguiente Tabla B:12. Audio decoder according to claim 11, wherein the predictor (1160) is configured to calculate an MDST spectrum as the imaginary spectrum using, in addition, a MDCT spectrum from a previous frame and using the following filter coefficients of MDST that are selected for a left half of a current window and a corresponding current window sequence according to the following Table B: Tabla B - Coeficientes de Filtro de MDST para la Ventana AnteriorTable B - MDST Filter Coefficients for the Previous Window
Figure imgf000022_0002
Figure imgf000022_0002
13. Codificador de audio para codificar una senal de audio multicanal que tiene dos o mas senales de canal, que comprende:13. Audio encoder for encoding a multichannel audio signal having two or more channel signals, comprising: una calculadora de codificador (203) para calcular una primera senal de combinacion (204) y una senal residual de prediccion (205) usando una primera senal de canal (201) y una segunda senal de canal (202) y una informacion de prediccion (206), de tal modo que una senal residual de prediccion (205), cuando se combina con una senal de prediccion (2035) proveniente de la primera senal de combinacion (204) o una senal proveniente de la primera senal de combinacion (204) y la informacion de prediccion (206) da como resultado una segunda senal de combinacion (2032), pudiendo derivarse la primera senal de combinacion (204) y la segunda senal de combinacion (2032) a partir de la primera senal de canal (201) y la segunda senal de canal (202) usando una regla de combinacion;an encoder calculator (203) for calculating a first combination signal (204) and a residual prediction signal (205) using a first channel signal (201) and a second channel signal (202) and a prediction information ( 206), in such a way that a residual signal of prediction (205), when combined with a signal of prediction (2035) from the first signal of combination (204) or a signal from the first signal of combination (204) and the prediction information (206) results in a second combination signal (2032), the first combining signal (204) and the second combining signal (2032) being derived from the first channel signal (201) and the second channel signal (202) using a combination rule; un optimizador (207) para calcular la informacion de prediccion (206), de tal modo que la senal residual de prediccion (205) cumple un objetivo de optimizacion (208); an optimizer (207) for calculating the prediction information (206), such that the residual prediction signal (205) fulfills an optimization objective (208); un codificador de senales (209) para codificar la primera senal de combinacion (204) y la senal residual de prediccion (205) para obtener una primera senal de combinacion codificada (210) y una senal residual de prediccion codificada (211); ya signal encoder (209) for encoding the first combination signal (204) and the residual signal of prediction (205) to obtain a first coded combination signal (210) and a residual encoded prediction signal (211); Y una interfaz de salida (212) para combinar la primera senal de combinacion codificada (210), la senal residual de prediccion codificada (211) y la informacion de prediccion (206) para obtener una senal de audio multicanal codificada,an output interface (212) for combining the first coded combination signal (210), the residual encoded prediction signal (211) and the prediction information (206) to obtain a multi-channel encoded audio signal, en donde la calculadora de codificador (203) comprende:wherein the encoder calculator (203) comprises: un combinador (2031) para combinar la primera senal de canal (201) y la segunda senal de canal (202) de dos formas diferentes para obtener la primera senal de combinacion (204) y la segunda senal de combinacion (2032);a combiner (2031) for combining the first channel signal (201) and the second channel signal (202) in two different ways to obtain the first combination signal (204) and the second combination signal (2032); un predictor (2033) para aplicar la informacion de prediccion (206) a la primera senal de combinacion (204) o una senal (600) proveniente de la primera senal de combinacion (204) para obtener la senal de prediccion (2035); ya predictor (2033) for applying the prediction information (206) to the first combination signal (204) or a signal (600) from the first combination signal (204) to obtain the prediction signal (2035); Y una calculadora de senal residual (2034) para calcular la senal residual de prediccion (205) por medio de la combinacion de la senal de prediccion (2035) y la segunda senal de combinacion (2032),a residual signal calculator (2034) to calculate the residual signal of prediction (205) by means of the combination of the prediction signal (2035) and the second combination signal (2032), en donde el predictor (2033) esta configuradowhere the predictor (2033) is configured para multiplicar la primera senal de combinacion (204) por una parte real (2073) de la informacion de prediccion (206) para obtener una primera parte de la senal de prediccion (2035);to multiply the first combination signal (204) by a real part (2073) of the prediction information (206) to obtain a first part of the prediction signal (2035); para estimar (2070) una parte imaginaria (600) de la primera senal de combinacion usando la primera senal de combinacion (204), en donde el predictor (2033) comprende un convertidor de real a imaginario (2070) para estimar, directamente en el dominio de la frecuencia, un espectro imaginario de la primera senal de combinacion como la parte imaginaria (600) de la primera senal de combinacion usando la primera senal de combinacion (204) usando un filtrado bidimensional, estando sometida la primera senal de combinacion (204) a una conmutacion de ventana; yto estimate (2070) an imaginary part (600) of the first combination signal using the first combination signal (204), wherein the predictor (2033) comprises a real-to-imaginary converter (2070) to estimate, directly on the frequency domain, an imaginary spectrum of the first combination signal as the imaginary part (600) of the first combination signal using the first combination signal (204) using two-dimensional filtering, the first combination signal being submitted (204 ) to a window switching; Y para multiplicar la parte imaginaria (600) de la primera senal de combinacion por una parte imaginaria (2074) de la informacion de prediccion (206) para obtener una segunda parte de la senal de prediccion (2035); en donde la calculadora residual (2034) esta configurada para combinar de forma lineal la primera parte de la senal de prediccion (2035) o la segunda parte de la senal de prediccion (2035) y la segunda senal de combinacion (2032) para obtener la senal residual de prediccion (205), yto multiply the imaginary part (600) of the first combination signal by an imaginary part (2074) of the prediction information (206) to obtain a second part of the prediction signal (2035); wherein the residual calculator (2034) is configured to linearly combine the first part of the prediction signal (2035) or the second part of the prediction signal (2035) and the second combination signal (2032) to obtain the residual signal of prediction (205), and en donde el predictor (2033) esta configurado para recibir una informacion de forma de ventana (109) y para usar diferentes coeficientes de filtro para calcular, usando el convertidor de real a imaginario (2070), el espectro imaginario de la primera senal de combinacion, en donde los diferentes coeficientes de filtro dependen de diferentes formas de ventana que son indicadas por la informacion de forma de ventana (109), en donde los coeficientes de filtro que son usados por el predictor (2033) dependen de una ventana completa, y en donde se requiere un conjunto de coeficientes de filtro para cada tipo de ventana y para cada transicion de ventana.wherein the predictor (2033) is configured to receive a window shape information (109) and to use different filter coefficients to calculate, using the imaginary real converter (2070), the imaginary spectrum of the first combination signal , wherein the different filter coefficients depend on different window shapes that are indicated by the window shape information (109), wherein the filter coefficients that are used by the predictor (2033) depend on a complete window, and where a set of filter coefficients is required for each type of window and for each window transition. 14. Codificador de audio de acuerdo con la reivindicacion 13, en donde el predictor (2033) comprende un cuantificador para cuantificar la primera senal de canal, la segunda senal de canal, la primera senal de combinacion (204), o la segunda senal de combinacion (2023) para obtener una o mas senales cuantificadas, y en donde el predictor (2033) esta configurado para calcular la senal residual de prediccion (205) usando senales cuantificadas.14. Audio encoder according to claim 13, wherein the predictor (2033) comprises a quantizer for quantizing the first channel signal, the second channel signal, the first combination signal (204), or the second signal of combination (2023) to obtain one or more quantized signals, and wherein the predictor (2033) is configured to calculate the residual prediction signal (205) using quantized signals. 15. Codificador de audio de acuerdo con una de las reivindicaciones 13 a 14,15. Audio encoder according to one of claims 13 to 14, en donde la primera senal de canal es una representacion espectral de un bloque de muestras;wherein the first channel signal is a spectral representation of a block of samples; en donde la segunda senal de canal es una representacion espectral de un bloque de muestras,wherein the second channel signal is a spectral representation of a block of samples, en donde las representaciones espectrales son o bien unas representaciones espectrales reales puras o bien unas representaciones espectrales imaginarias puras,wherein the spectral representations are either pure real spectral representations or pure imaginary spectral representations, en donde el optimizador (207) esta configurado para calcular la informacion de prediccion (206) como un factor de valor real distinto de cero y / o como un factor imaginario distinto de cero, ywherein the optimizer (207) is configured to calculate the prediction information (206) as a non-zero real value factor and / or as an imaginary non-zero factor, and en donde la calculadora de codificador (203) esta configurada para calcular la primera senal de combinacion (204) y la senal residual de prediccion (205), de tal modo que la senal de prediccion (2035) se deriva de la representacion espectral real pura o la representacion espectral imaginaria pura usando el factor de valor real.wherein the encoder calculator (203) is configured to calculate the first combination signal (204) and the residual prediction signal (205), such that the prediction signal (2035) is derived from the pure real spectral representation or the pure imaginary spectral representation using the real value factor. 16. Codificador de audio de acuerdo con una de las reivindicaciones 13 a 15,16. Audio encoder according to one of claims 13 to 15, en donde la primera senal de canal es una representacion espectral de un bloque de muestras;wherein the first channel signal is a spectral representation of a block of samples; en donde la segunda senal de canal es una representacion espectral de un bloque de muestras,wherein the second channel signal is a spectral representation of a block of samples, en donde las representaciones espectrales son o bien unas representaciones espectrales reales puras o bien unas representaciones espectrales imaginarias puras,wherein the spectral representations are either pure real spectral representations or pure imaginary spectral representations, en donde el optimizador (207) esta configurado para calcular la informacion de prediccion (206) como un factor de valor real distinto de cero y / o como un factor imaginario distinto de cero, ywherein the optimizer (207) is configured to calculate the prediction information (206) as a non-zero real value factor and / or as an imaginary non-zero factor, and en donde el predictor (2033) de la calculadora de codificador (203) comprende el convertidor de real a imaginario (2070) o un transformador de imaginario a real para derivar una representacion espectral transformada a partir de la primera senal de combinacion (204), ywherein the predictor (2033) of the encoder calculator (203) comprises the real to imaginary converter (2070) or an imaginary to real transformer for deriving a transformed spectral representation from the first combination signal (204), and en donde la calculadora de codificador (203) esta configurada para calcular la primera senal de combinacion (204) y la senal residual de prediccion (205), de tal modo que la senal residual de prediccion (205) se deriva de la representacion espectral transformada usando el factor imaginario.wherein the encoder calculator (203) is configured to calculate the first combination signal (204) and the residual signal of prediction (205), such that the residual signal of prediction (205) is derived from the transformed spectral representation using the imaginary factor. 17. Metodo para descodificar una senal de audio multicanal codificada (100), comprendiendo la senal de audio multicanal codificada (100) una primera senal de combinacion codificada (104) generada sobre la base de una regla de combinacion para combinar una primera senal de audio de canal y una segunda senal de audio de canal de una senal de audio multicanal, una senal residual de prediccion codificada (106) e informacion de prediccion (108), que comprende:Method for decoding a multi-channel encoded audio signal (100), the multi-channel encoded audio signal (100) comprising a first encoded combination signal (104) generated on the basis of a combination rule for combining a first audio signal of channel and a second channel audio signal of a multi-channel audio signal, a residual signal of coded prediction (106) and prediction information (108), comprising: descodificar (110) la primera senal de combinacion codificada (104) para obtener una primera senal de combinacion descodificada (112), y descodificar la senal residual de prediccion codificada (106) para obtener una senal residual descodificada (114); ydecoding (110) the first coded combination signal (104) to obtain a first decoded combination signal (112), and decoding the coded predicted residual signal (106) to obtain a decoded residual signal (114); Y calcular (116) una senal de audio multicanal descodificada que tiene una primera senal de canal descodificada (117), y una segunda senal de canal descodificada (118) usando la senal residual descodificada (114), la informacion de prediccion (108) y la primera senal de combinacion descodificada (112), de tal modo que la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118) son por lo menos aproximaciones de la primera senal de audio de canal y la segunda senal de audio de canal de la senal de audio multicanal, en donde la informacion de prediccion (108) comprende una porcion imaginaria distinta de cero, en donde el calculo de la senal de audio multicanal descodificada (116) comprende:calculating (116) a decoded multi-channel audio signal having a first decoded channel signal (117), and a second decoded channel signal (118) using the decoded residual signal (114), the prediction information (108) and the first decoded combination signal (112), such that the first decoded channel signal (117) and the second decoded channel signal (118) are at least approximations of the first channel audio signal and the second signal of channel audio of the multichannel audio signal, wherein the prediction information (108) comprises an imaginary portion other than zero, wherein the calculation of the decoded multichannel audio signal (116) comprises: aplicar la informacion de prediccion (108) a la primera senal de combinacion descodificada (112) o a una senal (601) proveniente de la primera senal de combinacion descodificada (112), para obtener una senal de prediccion (1163);applying the prediction information (108) to the first decoded combination signal (112) or to a signal (601) from the first decoded combination signal (112), to obtain a prediction signal (1163); calcular una segunda senal de combinacion (1165) combinando la senal residual descodificada (114) y la senal de prediccion (1163); ycalculating a second combination signal (1165) by combining the decoded residual signal (114) and the prediction signal (1163); Y combinar la primera senal de combinacion (112) y la segunda senal de combinacion (1165) descodificadas para obtener la senal de audio multicanal descodificada que tiene la primera senal de canal descodificada (117) y la segunda senal de canal descodificada (118),combining the first combination signal (112) and the second combination signal (1165) decoded to obtain the decoded multi-channel audio signal having the first decoded channel signal (117) and the second decoded channel signal (118), en donde aplicar la informacion de prediccion (108) comprende estimar (1160a) un espectro imaginario de la primera senal de combinacion descodificada (112) usando una parte real de la primera senal de combinacion descodificada (112) directamente en el dominio de la frecuencia usando un filtrado bidimensional en un convertidor de real a imaginario (1160), estando sometida la parte real de la primera senal de combinacion descodificada (112) a una conmutacion de ventana,wherein applying the prediction information (108) comprises estimating (1160a) an imaginary spectrum of the first decoded combination signal (112) using a real part of the first decoded combination signal (112) directly in the frequency domain using a two-dimensional filtering in a real-to-imaginary converter (1160), the real part of the first decoded combination signal (112) being subjected to a window switching, en donde la aplicacion de la informacion de prediccion (108) comprende multiplicar una parte imaginaria (601) de la primera senal de combinacion descodificada (112) por la parte imaginaria de la informacion de prediccion (108) para obtener al menos una parte de la senal de prediccion (1163), ywherein the application of the prediction information (108) comprises multiplying an imaginary part (601) of the first decoded combination signal (112) by the imaginary part of the prediction information (108) to obtain at least a portion of the signal of prediction (1163), and en donde la aplicacion de la informacion de prediccion (108) comprende recibir una informacion de forma de ventana (109) y usar diferentes coeficientes de filtro por el convertidor de real a imaginario (1160) para calcular el espectro imaginario de la primera senal de combinacion descodificada (112), en donde los diferentes coeficientes de filtro dependen de diferentes formas de ventana que son indicadas por la informacion de forma de ventana (109), en donde los coeficientes de filtro dependen de una ventana completa, y en donde se requiere un conjunto de coeficientes de filtro para cada tipo de ventana y para cada transicion de ventana.wherein the application of the prediction information (108) comprises receiving a window shape information (109) and using different filter coefficients by the imaginary real converter (1160) to calculate the imaginary spectrum of the first combination signal decoded (112), wherein the different filter coefficients depend on different window shapes that are indicated by the window shape information (109), where the filter coefficients depend on a complete window, and where a set of filter coefficients for each type of window and for each window transition. 18. Metodo de codificacion de una senal de audio multicanal que tiene dos o mas senales de canal, que comprende: calcular (203) una primera senal de combinacion (204) y una senal residual de prediccion (205) usando una primera senal de canal (201) y una segunda senal de canal (202) y una informacion de prediccion (206), de tal modo que una senal residual de prediccion, cuando se combina con una senal de prediccion (2035) proveniente de la primera senal de combinacion (204) o una senal proveniente de la primera senal de combinacion (204) y la informacion de prediccion (206) da como resultado una segunda senal de combinacion (2032), pudiendo derivarse la primera senal de combinacion (204) y la segunda senal de combinacion (2032) a partir de la primera senal de canal (201) y la segunda senal de canal (202) usando una regla de combinacion;18. Coding method of a multi-channel audio signal having two or more channel signals, comprising: calculating (203) a first combination signal (204) and a residual signal of prediction (205) using a first channel signal (201) and a second channel signal (202) and a prediction information (206), such that a residual signal of prediction, when combined with a prediction signal (2035) from the first combination signal ( 204) or a signal from the first combination signal (204) and the prediction information (206) results in a second combination signal (2032), with the first combination signal (204) and the second signal being derived. combination (2032) from the first channel signal (201) and the second channel signal (202) using a combination rule; calcular (207) la informacion de prediccion (206), de tal modo que la senal residual de prediccion (205) cumple un objetivo de optimizacion (208);calculating (207) the prediction information (206), such that the residual prediction signal (205) meets an optimization objective (208); codificar (209) la primera senal de combinacion (204) y la senal residual de prediccion (205) para obtener una primera senal de combinacion codificada (210) y una senal residual de prediccion codificada (211); y combinar (212) la primera senal de combinacion codificada (210), la senal residual de prediccion codificada (211) y la informacion de prediccion (206) para obtener una senal de audio multicanal codificada,encoding (209) the first combination signal (204) and the residual prediction signal (205) to obtain a first coded combination signal (210) and a residual coded prediction signal (211); and combining (212) the first coded combination signal (210), the residual encoded prediction signal (211) and the prediction information (206) to obtain a multi-channel encoded audio signal, en donde el calculo (203) comprende: wherein the calculation (203) comprises: combinar la primera senal de canal (201) y la segunda senal de canal (202) de dos formas diferentes para obtener la primera senal de combinacion (204) y la segunda senal de combinacion (2032);combining the first channel signal (201) and the second channel signal (202) in two different ways to obtain the first combination signal (204) and the second combination signal (2032); aplicar la informacion de prediccion (206) a la primera senal de combinacion (204) o una senal (600) proveniente de la primera senal de combinacion (204) para obtener una senal de prediccion (2035); y calcular la senal residual de prediccion (205) por medio de la combinacion de la senal de prediccion (2035) y la segunda senal de combinacion (2032),applying the prediction information (206) to the first combination signal (204) or a signal (600) from the first combination signal (204) to obtain a prediction signal (2035); and calculating the residual signal of prediction (205) by means of the combination of the prediction signal (2035) and the second combination signal (2032), en donde la aplicacion de la informacion de prediccion (206) comprende:wherein the application of the prediction information (206) comprises: multiplicar la primera senal de combinacion (204) por una parte real (2073) de la informacion de prediccion (206) para obtener una primera parte de la senal de prediccion (2035);multiplying the first combination signal (204) by a real part (2073) of the prediction information (206) to obtain a first part of the prediction signal (2035); estimar (2070) una parte imaginaria (600) de la primera senal de combinacion usando la primera senal de combinacion (204) en donde la aplicacion de la informacion de prediccion (206) comprende estimar, por un convertidor de real a imaginario (2070), directamente en el dominio de la frecuencia, un espectro imaginario de la primera senal de combinacion como la parte imaginaria (600) de la primera senal de combinacion usando la primera senal de combinacion (204) por medio de un filtrado bidimensional, estando sometida la primera senal de combinacion (204) a una conmutacion de ventana; yestimating (2070) an imaginary part (600) of the first combination signal using the first combination signal (204) wherein the application of the prediction information (206) comprises estimating, by a real-to-imaginary converter (2070) , directly in the frequency domain, an imaginary spectrum of the first combination signal as the imaginary part (600) of the first combination signal using the first combination signal (204) by means of two-dimensional filtering, the first combination signal (204) to a window switching; Y multiplicar la parte imaginaria (600) de la primera senal de combinacion (204) por una parte imaginaria (2074) de la informacion de prediccion (206) para obtener una segunda parte de la senal de prediccion (2035); multiplying the imaginary part (600) of the first combination signal (204) by an imaginary part (2074) of the prediction information (206) to obtain a second part of the prediction signal (2035); en donde el calculo de la senal residual (2034) comprende combinar de forma lineal la primera parte de la senal de prediccion (2035) o la segunda parte de la senal de prediccion (2035) y la segunda senal de combinacion (2023) para obtener la senal residual de prediccion (205), ywherein the calculation of the residual signal (2034) comprises linearly combining the first part of the prediction signal (2035) or the second part of the prediction signal (2035) and the second combination signal (2023) to obtain the residual signal of prediction (205), and en donde la aplicacion de la informacion de prediccion (206) comprende recibir una informacion de forma de ventana (109) y usar, por el convertidor de real a imaginario (2070), diferentes coeficientes de filtro para calcular el espectro imaginario de la primera senal de combinacion, en donde los diferentes coeficientes de filtro dependen de diferentes formas de ventana que son indicadas por la informacion de forma de ventana (109), en donde los coeficientes de filtro dependen de una ventana completa, y en donde se requiere un conjunto de coeficientes de filtro para cada tipo de ventana y para cada transicion de ventana.wherein the application of the prediction information (206) comprises receiving a window shape information (109) and using, by the imaginary real converter (2070), different filter coefficients to calculate the imaginary spectrum of the first signal of combination, wherein the different filter coefficients depend on different window shapes that are indicated by the window shape information (109), wherein the filter coefficients depend on a complete window, and where a set of filter coefficients for each type of window and for each window transition. 19. Programa informatico que esta adaptado para llevar a cabo, cuando se ejecuta en un ordenador o en un procesador, el metodo de la reivindicacion 17 o el metodo de la reivindicacion 18. 19. Computer program that is adapted to carry out, when executed in a computer or in a processor, the method of claim 17 or the method of claim 18.
ES15176778T 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and window shape information Active ES2708581T3 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32268810P 2010-04-09 2010-04-09
US36390610P 2010-07-13 2010-07-13
EP10169432A EP2375409A1 (en) 2010-04-09 2010-07-13 Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction

Publications (1)

Publication Number Publication Date
ES2708581T3 true ES2708581T3 (en) 2019-04-10

Family

ID=65681314

Family Applications (4)

Application Number Title Priority Date Filing Date
ES15176781T Active ES2704261T3 (en) 2010-04-09 2011-03-23 Multichannel audio encoding that uses complex prediction and a transform length indicator
ES15176783T Active ES2707473T3 (en) 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and explicit estimation signaling
ES15176785T Active ES2704891T3 (en) 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and real indicator
ES15176778T Active ES2708581T3 (en) 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and window shape information

Family Applications Before (3)

Application Number Title Priority Date Filing Date
ES15176781T Active ES2704261T3 (en) 2010-04-09 2011-03-23 Multichannel audio encoding that uses complex prediction and a transform length indicator
ES15176783T Active ES2707473T3 (en) 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and explicit estimation signaling
ES15176785T Active ES2704891T3 (en) 2010-04-09 2011-03-23 Multichannel audio coding using complex prediction and real indicator

Country Status (2)

Country Link
ES (4) ES2704261T3 (en)
TR (5) TR201820422T4 (en)

Also Published As

Publication number Publication date
TR201901427T4 (en) 2019-02-21
TR201900414T4 (en) 2019-02-21
TR201820422T4 (en) 2019-01-21
ES2704891T3 (en) 2019-03-20
ES2704261T3 (en) 2019-03-15
TR201900830T4 (en) 2019-02-21
TR201900906T4 (en) 2019-02-21
ES2707473T3 (en) 2019-04-03

Similar Documents

Publication Publication Date Title
ES2701456T3 (en) Coding of multichannel audio signals using complex prediction and differential coding
ES2914474T3 (en) Decoding method of a stereo audio signal encoded using a variable prediction address
ES2708581T3 (en) Multichannel audio coding using complex prediction and window shape information
BR122020024260B1 (en) AUDIO OR VIDEO ENCODER, AUDIO OR VIDEO DECODER AND RELATED METHODS FOR PROCESSING THE AUDIO OR VIDEO SIGNAL OF MULTIPLE CHANNELS USING A VARIABLE FORECAST DIRECTION