ES2935962T3

ES2935962T3 - Stereo encoding using a prediction mode or a non-prediction mode

Info

Publication number: ES2935962T3
Application number: ES19184726T
Authority: ES
Inventors: Heiko Purnhagen; Pontus Carlsson; Lars Villemoes
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2010-04-09
Filing date: 2011-04-06
Publication date: 2023-03-13
Anticipated expiration: 2031-04-06
Also published as: ES2831357T3; RU2525431C2; DK2556502T3; IL272689A; KR20210008945A; US10360920B2; JP6633706B2; IL286761B; JP2020064311A; US20130030817A1; CA2793320C; JP2020091503A; JP7451659B2; AU2011237869A1; US20180137866A1; EP4120246A1; US10475460B2; US9892736B2; IL267420A; ES2935911T3

Abstract

La invención se refiere a un método y sistema para codificar una señal de audio estéreo que tiene un canal izquierdo (L) y un canal derecho (R), y un método y sistema de decodificación correspondiente. El método de codificación comprende estimar un coeficiente de predicción (α) del canal izquierdo y el canal derecho, mezclar el canal izquierdo y derecho para producir una señal media (M) y una señal residual (D) utilizando el coeficiente de predicción, y multiplexar el la señal media, la señal residual y el coeficiente de predicción para generar un flujo de bits de audio. La codificación opera en un modo de predicción o en un modo de no predicción durante un período de tiempo, y el método comprende emitir una indicación de si la codificación operó en el modo de predicción o en el modo de no predicción, donde dicha indicación se proporciona como un valor. del coeficiente de predicción. (Traducción automática con Google Translate, sin valor legal)The invention relates to a method and system for encoding a stereo audio signal having a left (L) channel and a right (R) channel, and a corresponding decoding method and system. The coding method comprises estimating a prediction coefficient (α) of the left channel and the right channel, mixing the left and right channel to produce a mean signal (M) and a residual signal (D) using the prediction coefficient, and multiplexing the mean signal, the residual signal and the prediction coefficient to generate an audio bitstream. The encoding operates in a predictive mode or a non-predictive mode for a period of time, and the method comprises issuing an indication of whether the encoding operated in the predictive mode or the non-predictive mode, wherein said indication is provides as a value. of the prediction coefficient. (Automatic translation with Google Translate, without legal value)

Description

DESCRIPCIÓNDESCRIPTION

Codificación estéreo usando un modo de predicción o un modo de no predicciónStereo encoding using a prediction mode or a non-prediction mode

Referencia cruzada a aplicaciones relacionadasCross reference to related applications

Esta solicitud es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 11713754.7 (referencia: D10010AEP01), presentada el 6 de abril de 2011.This application is a European divisional application of Euro-PCT patent application EP 11713754.7 (reference: D10010AEP01), filed on April 6, 2011.

Campo técnicotechnical field

La invención descrita en la presente memoria se relaciona de manera general con la codificación de audio estéreo. En particular, la invención descrita en el presente documento se relaciona con proporcionar una señal estéreo mediante codificación estéreo de predicción compleja.The invention described herein relates generally to stereo audio coding. In particular, the invention described herein relates to providing a stereo signal by complex prediction stereo coding.

Antecedentes de la invenciónBackground of the invention

La codificación conjunta de los canales izquierdo (L) y derecho (R) de una señal estéreo permite una codificación más eficiente comparada con la codificación independiente de L y R. Un enfoque común para la codificación estéreo conjunta es la codificación central/lateral (M/S). Aquí, una señal central (M) es formada mediante la suma de las señales L y R, por ejemplo, la señal M puede tener la formaCocoding the left (L) and right (R) channels of a stereo signal allows for more efficient coding compared to independent coding of L and R. A common approach for joint stereo coding is center/side (M) coding. /S). Here, a central signal (M) is formed by the sum of the signals L and R, for example, the signal M can have the form

M = (L R)/2M = (L R)/2

También, una señal lateral (S) está formada mediante la resta de los dos canales L y R, por ejemplo, la señal S puede tener la formaAlso, a side signal (S) is formed by subtracting the two channels L and R, for example, the S signal can have the form

En el caso de una codificación M/S, se codifican las señales M y S en lugar de las señales L y R.In the case of M/S encoding, the M and S signals are encoded instead of the L and R signals.

En el estándar (véase el documento estándar ISO/IEC 13818-7) AAC (Codificación de Audio Avanzado) de MPEG (Grupo de Expertos de Imágenes en Movimiento), la codificación estéreo L/R y la codificación estéreo M/S se pueden elegir de una manera variante en el tiempo y variante en la frecuencia. Por tanto, el codificador estéreo puede aplicar la codificación L/R para algunas bandas de frecuencias de la señal estéreo, mientras que la codificación M/S se usa para codificar otras bandas de frecuencias de la señal estéreo (variante en frecuencia). Además, el codificador puede conmutar en el tiempo entre la codificación (variante en el tiempo) L/R y M/S. En la AAC de MPEG, la codificación estéreo se lleva a cabo en el dominio de la frecuencia, más concretamente en el dominio MDCT (transformada de coseno discreta modificada). Esto permite elegir de manera adaptativa ya sea la codificación L/R o la M/S de una manera variable en la frecuencia y también en el tiempo.In the standard (see standard document ISO/IEC 13818-7) AAC (Advanced Audio Coding) of MPEG (Moving Pictures Experts Group), L/R stereo coding and M/S stereo coding can be chosen in a time-varying and frequency-varying manner. Therefore, the stereo encoder can apply L/R encoding to some frequency bands of the stereo signal, while M/S encoding is used to encode other frequency bands of the stereo signal (frequency variant). In addition, the encoder can time-switch between L/R and M/S (time-variant) encoding. In MPEG AAC, stereo coding is performed in the frequency domain, more specifically in the MDCT (Modified Discrete Cosine Transform) domain. This allows to adaptively choose either the L/R or the M/S encoding in a frequency and also time variable manner.

La codificación estéreo paramétrica es una técnica para codificar de manera eficiente una señal de audio estéreo como una señal monoaural más una pequeña cantidad de información lateral para los parámetros estéreo. Es parte del estándar de Audio MPEG-4 (véase el documento estándar ISO/IEC 14496-3). La señal monoaural se puede codificar usando cualquier codificador de audio. Los parámetros estéreo se pueden incrustar en la parte auxiliar del flujo de bits mono, alcanzando así una compatibilidad hacia delante y hacia atrás total. En el decodificador, es la señal monoaural la que se decodifica primero, después de lo cual se reconstruye la señal estéreo con la ayuda de los parámetros estéreo. Una versión decorrelacionada de la señal mono decodificada, que tiene una correlación de cruces por cero con la señal mono, es generada por medio de un decorrelacionador, por ejemplo, un filtro paso todo apropiado que puede incluir una o más líneas de retardo. Esencialmente la señal decorrelacionada tiene la misma distribución de energía espectral y temporal que la señal mono. La señal monoaural junto con la señal decorrelacionada se introducen al proceso de mezcla ascendente que está controlado por los parámetros estéreo y que reconstruye la señal estéreo. Para más información, vea el documento “Codificación Estéreo Paramétrica de Baja Complejidad en MPEG-4”, H. Purnhagen, Proc. de la 7a Conferencia Int. sobre Efectos de Audio Digital (^dA^fx'04), Naples, Italia, 5-8 de octubre, 2004, páginas 163-168.Parametric stereo encoding is a technique for efficiently encoding a stereo audio signal as a monaural signal plus a small amount of side information for the stereo parameters. It is part of the MPEG-4 Audio standard (see standard document ISO/IEC 14496-3). The monaural signal can be encoded using any audio encoder. Stereo parameters can be embedded in the auxiliary part of the mono bitstream, thus achieving full forward and backward compatibility. In the decoder, it is the monaural signal that is decoded first, after which the stereo signal is reconstructed with the help of stereo parameters. A decorrelated version of the decoded mono signal, having a zero-crossing correlation with the mono signal, is generated by means of a decorrelator, eg, an appropriate all-pass filter which may include one or more delay lines. Essentially the decorrelated signal has the same spectral and temporal energy distribution as the mono signal. The monaural signal together with the de-mapped signal are fed into the upmix process which is controlled by the stereo parameters and which reconstructs the stereo signal. For more information, see the paper "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. from the 7th Int. Conference on Digital Audio Effects ( ^d A ^fx '04), Naples, Italy, October 5-8, 2004, pp. 163-168.

Envolvente MPEG (MPS; véase la ISO/IEC 23003-1 y el documento “Envolvente MPEG - el Estándar ISO/MPEG para la Codificación de Audio de Multi Canal Eficiente y Compatible”, J. Herre et al., Documento 7084 de la Convención de Ingeniería de Audio, 122° Convención, 5-8 mayo, 2007) permite combinar los principios de la codificación estéreo paramétrica con la codificación residual, sustituyendo la señal decorrelacionada con una residual transmitida y mejorando por lo tanto la calidad perceptual. La codificación residual se puede conseguir mediante una mezcla descendente de una señal multi canal y, de manera opcional, extrayendo las señales espaciales. Durante el proceso de mezcla descendente, se calculan las señales residuales que representan la señal de error y después de codifican y transmiten. Estas toman el lugar de las señales decorrelacionadas en el decodificador. En un enfoque híbrido, pueden reemplazar las señales decorrelacionadas en ciertas bandas de frecuencias, preferiblemente en las bandas relativamente bajas.MPEG Surround (MPS; see ISO/IEC 23003-1 and the document “MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Herre et al., Convention Document 7084 of Audio Engineering, 122nd Convention, May 5-8, 2007) allows combining the principles of parametric stereo coding with residual coding, replacing the decorrelated signal with a transmitted residual and therefore improving perceptual quality. Residual coding can be achieved by downmixing a multi-channel signal and optionally extracting the spatial signals. During the downmix process, the residual signals representing the error signal are calculated and then encoded and transmitted. These take the place of the decorrelated signals in the decoder. In a hybrid approach, they can replace decorrelated signals in certain frequency bands, preferably in the relatively low bands.

Según el sistema actual de Codificación de Audio y Voz Unificado MPEG (USAC), del cual se muestran dos ejemplos en la figura 1, el decodificador comprende un banco de filtros espejo en cuadratura de valor complejo (QMF) ubicado hacia abajo del decodificador de núcleo. La representación QMF obtenida como la salida del banco de filtros es compleja - por tanto sobre muestreada por un factor de 2 - y se puede disponer como una señal M de mezcla descendente (o, de manera equivalente, una señal central) y una señal D residual, a la cual se aplica una matriz de mezcla ascendente con entradas complejas. Las señales L y R (en el dominio QMF) se obtienen como:Based on the current MPEG Unified Audio and Speech Coding (USAC) system, of which two are shown Examples in Figure 1, the decoder comprises a complex valued quadrature mirror (QMF) filterbank located downstream of the core decoder. The QMF representation obtained as the output of the filter bank is complex - hence oversampled by a factor of 2 - and can be arranged as a downmix M signal (or, equivalently, a center signal) and a D signal. residual, to which an upmix matrix with complex inputs is applied. The L and R signals (in the QMF domain) are obtained as:

donde g es un factor de ganancia de valor real y a es un coeficiente de predicción de valor complejo. Preferiblemente, a se escoge de manera tal que se minimice la energía de la señal D residual. El factor de ganancia puede ser determinado mediante normalización, esto es, para asegurar que la energía de la señal de suma es igual que la suma de las energías de las señales izquierda y derecha. Las partes real e imaginaria de cada una de las señales izquierda y derecha son mutuamente redundantes - en principio, cada una de ellas se puede calcular en base a la otra - pero son beneficiosas para permitir la aplicación posterior de un decodificador de replicación de la banda espectral (SBR) sin que se produzcan artefactos de solapamiento audibles. El uso de una representación de señal sobre muestreada puede también, por razones similares, ser escogido con el objetivo de evitar artefactos conectados con otro procesamiento de señal adaptativo en el tiempo o la frecuencia (no mostrado), tal como la mezcla ascendente de mono a estéreo. El filtrado QMF inverso es el último paso de procesamiento en el decodificador. Se observa que la representación QMF limitada en banda de la señal permite técnicas residuales limitadas en banda y técnicas de “relleno residual”, que se pueden integrar dentro de los decodificadores de este tipo.where g is a real-valued gain factor and a is a complex-valued prediction coefficient. Preferably, a is chosen such that the energy of the residual signal D is minimized. The gain factor can be determined by normalization, that is, to ensure that the energy of the sum signal is equal to the sum of the energies of the left and right signals. The real and imaginary parts of each of the left and right signals are mutually redundant - in principle each can be calculated based on the other - but are beneficial in allowing the later application of a band-replication decoder (SBR) without audible aliasing artifacts. The use of an upsampled signal representation may also, for similar reasons, be chosen in order to avoid artifacts connected with other time- or frequency-adaptive signal processing (not shown), such as mono-to-mono upmixing. stereo. Inverse QMF filtering is the last processing step in the decoder. It is noted that the bandlimited QMF representation of the signal allows bandlimited residual techniques and "residual padding" techniques, which can be integrated into decoders of this type.

La estructura de codificación anterior es bien adecuada para tasas de bits bajas, normalmente por debajo de 80 kb/s, pero no es óptima con respecto a la complejidad computacional para tasas de bits más altas. Más precisamente, a tasas de bits mayores, la herramienta SBR normalmente no se utiliza (ya que no mejoraría la eficiencia de codificación). Entonces, en un decodificador sin una etapa SBR, sólo la matriz de mezcla ascendente de valor complejo motiva la presencia del banco de filtros QMF, que es computacionalmente demandante e introduce un retardo (con una longitud de trama de 1024 muestras, el banco de filtros de análisis/síntesis QMF introduce un retardo de 961 muestras). Esto indica claramente una necesidad de una estructura de codificación más eficiente.The above coding structure is well suited for low bit rates, typically below 80 kb/s, but is not optimal with respect to computational complexity for higher bit rates. More precisely, at higher bit rates, the SBR tool is normally not used (since it would not improve encoding efficiency). So, in a decoder without an SBR stage, only the complex-valued upmix matrix motivates the presence of the QMF filterbank, which is computationally demanding and introduces delay (with a frame length of 1024 samples, the filterbank analysis/synthesis QMF introduces a delay of 961 samples). This clearly indicates a need for a more efficient coding structure.

Se proporciona una descripción técnica de una propuesta para codificación estéreo unificada en USAC en H. Purnhagen et al. “Technical description of proposed Unified Stereo Coding in USAC”, 90. Reunión MPEG, 26-10 2009-30-10-220; Xian, China; (Grupo de Expertos en Imagen en Movimiento o ISO/IEC JTC1/SC29/WG11), número M16921, 23 de octubre de 2009 (2009-10-23).A technical description of a proposal for unified stereo coding at USAC is provided in H. Purnhagen et al. “Technical description of proposed Unified Stereo Coding in USAC”, 90. MPEG Meeting, 26-10 2009-30-10-220; Xian, China; (Moving Image Expert Group or ISO/IEC JTC1/SC29/WG11), number M16921, October 23, 2009 (2009-10-23).

Compendio de la invenciónCompendium of the invention

Es un objetivo de la presente invención proporcionar métodos y aparatos para codificación estéreo que son eficientes computacionalmente también en rango de tasa de bits alta.It is an object of the present invention to provide methods and apparatus for stereo coding that are computationally efficient also in high bit rate range.

La invención cumple este objetivo proporcionando un sistema decodificador, , un método de decodificación y un producto de programa informático definidos por las reivindicaciones independientes. Las reivindicaciones dependientes definen realizaciones de la invención.The invention fulfills this objective by providing a decoding system, a decoding method and a computer program product defined by the independent claims. The dependent claims define embodiments of the invention.

En un primer aspecto, la invención proporciona un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador:In a first aspect, the invention provides a decoder system for providing a stereo signal by complex prediction stereo coding, the decoder system comprising:

una mezcla ascendente adaptada para generar la señal estéreo en base a primeras representaciones en el dominio de la frecuencia de una señal (M) de mezcla descendente y una señal (D) residual, cada una de las primeras representaciones en el dominio de la frecuencia comprenden primeros componentes espectrales que representan contenido espectral de la correspondiente señal expresada en un primer subespacio de un espacio multidimensional, comprendiendo la etapa de mezcla ascendente:an upmix adapted to generate the stereo signal based on first frequency domain representations of a downmix signal ( M) and a residual signal ( D) , each of the first frequency domain representations comprising first spectral components that represent spectral content of the corresponding signal expressed in a first subspace of a multidimensional space, comprising the upmixing stage:

un módulo para calcular una segunda representación en el dominio de la frecuencia de la señal de la mezcla descendente en base a la primera representación en el dominio de la frecuencia del mismo, comprendiendo la segunda representación en el dominio de la frecuencia segundos componentes espectrales que representan contenido espectral de la señal expresada en un segundo subespacio del espacio multidimensional que incluye una porción del espacio multidimensional no incluido en el primer subespacio, en el que el módulo se adapta para determinar los segundos componentes espectrales de la señal de mezcla descendente aplicando un filtro de respuesta de impulso finita (FIR) para combinar al menos dos de los primeros componentes espectrales de las señales de mezcla descendente;a module for calculating a second frequency domain representation of the downmix signal based on the first frequency domain representation thereof, the second frequency domain representation comprising second spectral components representing spectral content of the signal expressed in a second subspace of the multidimensional space that includes a portion of the multidimensional space not included in the first subspace, in which the module is adapted to determine the second spectral components of the downmix signal by applying a filter of finite impulse response (FIR) for combining at least two of the first two spectral components of the downmix signals;

un sumador ponderado para calcular una señal (S) lateral sobre la base de la primera y de la segunda representación en el dominio de la frecuencia de la señal de mezcla descendente, la primera representación en el dominio de la frecuencia de la señal residual y un coeficiente (a) de predicción compleja codificado en la señal de flujo de bits; ya weighted adder for calculating a side signal (S) based on the first and second frequency-domain representations of the downmix signal, the first frequency-domain representation of the residual signal, and a coefficient ( a) of complex prediction encoded in the signal of bit stream; and

una etapa de suma y diferencia para calcular la señal estéreo sobre la base de la primera representación en el dominio de la frecuencia de la señal de mezcla descendente y de la señal lateral,a sum and difference stage for calculating the stereo signal on the basis of the first frequency domain representation of the downmix signal and the side signal,

en donde la etapa de mezcla ascendente es además operable en un modo de paso, en el que dichas señal de mezcla descendente y señal residual son suministradas a la suma y diferencia directamente.wherein the upmix stage is further operable in a pass mode, wherein said downmix signal and residual signal are supplied to the sum and difference directly.

En un segundo aspecto de la invención, donde se proporciona un método decodificador para proporcionar una señal estéreo mediante codificación de predicción compleja, como se define en la reivindicación independiente 7. Las características técnicas del método son análogas a aquellas del sistema decodificador. En un tercer aspecto, la invención además proporciona un producto de programa informático que contiene instrucciones para ejecutar el método decodificador en un ordenador, como se define en la reivindicación independiente 8.In a second aspect of the invention, where a decoder method is provided for providing a stereo signal by complex prediction coding, as defined in independent claim 7. The technical characteristics of the method are analogous to those of the decoder system. In a third aspect, the invention further provides a computer program product containing instructions for executing the decoding method on a computer, as defined in independent claim 8.

La invención se beneficia de las ventajas de la codificación estéreo unificada en el sistema USAC MPEG. Estas ventajas se mantienen también con tasas de bits mayores, en las que normalmente no se utiliza la SBR, sin el aumento significativo en la complejidad computacional que acompañaría a un enfoque basado en QMF. Esto es posible ya que la transformada MDCT muestreada de manera crítica, que es la base del sistema de codificación de transformada USAC MPEG, se puede usar para la codificación estéreo por predicción compleja que se proporciona por la invención, al menos en los casos en los que los anchos de banda de audio codificado de los canales de mezcla descendente son los mismos y el proceso de mezcla ascendente no incluye la decorrelación. Esto significa que no se requiere más una transformada QMF adicional. Una implementación representativa de la codificación estéreo por predicción compleja en el dominio QMF aumentaría realmente el número de operaciones por unidad de tiempo de manera significativa comparado con la tradicional estéreo L/R o M/S. Por tanto, el aparato de codificación según la invención parece ser competitivo a dichas tasas de bits, proporcionando una alta calidad de audio con un moderado gasto computacional.The invention benefits from the advantages of unified stereo coding in the USAC MPEG system. These advantages are also maintained at higher bit rates, where SBR is not typically used, without the significant increase in computational complexity that would accompany a QMF-based approach. This is possible since the critically sampled MDCT transform, which is the basis of the USAC MPEG transform coding system, can be used for the complex prediction stereo coding that is provided by the invention, at least in cases where that the encoded audio bandwidths of the downmix channels are the same and the upmix process does not include decorrelation. This means that an additional QMF transform is no longer required. A representative implementation of complex prediction stereo coding in the QMF domain would actually increase the number of operations per unit time significantly compared to traditional L/R or M/S stereo. Therefore, the encoding apparatus according to the invention appears to be competitive at such bit rates, providing high audio quality with moderate computational expense.

Como se darán cuenta las personas expertas en la materia, el hecho de que la etapa de mezcla ascendente sea más operable en un modo de paso permite al decodificador decodificar de manera adaptativa según la codificación directa o conjunta convencional, y la codificación de predicción compleja, como se determina en el lado del decodificador. Por tanto, en estos casos en los que el decodificador no puede aumentar de manera positiva el nivel de calidad más allá del convencional de la codificación estéreo L/R directa o la codificación M/S conjunta, puede garantizar al menos que se mantiene el mismo nivel. Por tanto, un decodificador según este aspecto de la invención puede, a partir de un punto de vista funcional, considerarse como un súper conjunto en relación con los antecedentes de la técnica.As those skilled in the art will appreciate, the fact that the upmix stage is more operable in a pass mode allows the decoder to adaptively decode according to conventional straight or joint coding, and complex prediction coding, as determined on the decoder side. Therefore, in these cases where the decoder cannot positively increase the quality level beyond that of conventional straight L/R stereo coding or joint M/S coding, it can at least guarantee that the same is maintained. level. Therefore, a decoder according to this aspect of the invention can, from a functional point of view, be considered as a super set in relation to the prior art.

Como una ventaja sobre la señal estéreo codificada por predicción basada en QMF, es posible una perfecta reconstrucción de la señal (aparte de los errores de cuantificación, que se pueden hacer arbitrariamente pequeños). Por tanto, la invención proporciona un aparato de codificación para una codificación estéreo basada en transformada mediante predicción compleja. Preferiblemente, el aparato según la invención no se limita a la codificación estéreo de predicción compleja, sino que es operable también en un régimen de codificación estéreo L/R directo o de codificación estéreo M/S conjunta según los antecedentes de la técnica, de modo que es posible seleccionar el método de codificación más adecuado para una aplicación concreta o durante un intervalo de tiempo concreto. Una representación sobre muestreada (por ejemplo, compleja) de la señal, que incluye tanto dicho primer como dicho segundo componentes espectrales, se usa como base para la predicción compleja según la invención, y por lo tanto, los módulos para calcular dicha representación sobre muestreada se disponen en el sistema decodificador según la invención. Los componentes espectrales se refieren al primer y segundo sub espacios de un espacio multidimensional, que puede ser el conjunto de funciones dependientes del tiempo en un intervalo de una longitud dada (por ejemplo, una longitud de trama de tiempo predefinida) muestreado a una frecuencia de muestreo finita. Es bien conocido que las funciones en este espacio multi dimensional concreto se pueden aproximar mediante una suma ponderada finita de funciones base.As an advantage over the QMF-based prediction-encoded stereo signal, a perfect reconstruction of the signal is possible (apart from quantization errors, which can be made arbitrarily small). Thus, the invention provides a coding apparatus for transform-based stereo coding by complex prediction. Preferably, the apparatus according to the invention is not limited to complex prediction stereo coding, but is also operable in a direct L/R stereo coding or joint M/S stereo coding regime according to the prior art, so that it is possible to select the most suitable encoding method for a specific application or during a specific time interval. An oversampled (eg complex) representation of the signal, including both said first and said second spectral components, is used as the basis for complex prediction according to the invention, and therefore the modules for calculating said oversampled representation. are arranged in the decoder system according to the invention. Spectral components refer to the first and second subspaces of a multidimensional space, which can be the set of time-dependent functions in an interval of a given length (for example, a predefined time frame length) sampled at a frequency of finite sampling. It is well known that functions in this concrete multidimensional space can be approximated by a finite weighted sum of basis functions.

Como apreciará una persona experta en la técnica, se equipa un codificador adaptado para cooperar con un decodificador con módulos equivalentes para proporcionar la representación sobre muestreada sobre la que se basa la codificación de predicción, para de este modo permitir una fiel reproducción de la señal codificada. Dichos módulos equivalentes pueden ser módulos idénticos o similares o módulos que tengan características de transferencia idénticas o similares. En concreto, los módulos en el codificador y en el decodificador, respectivamente, pueden ser unidades de procesamiento similares o distintas que ejecutan respectivos programas informáticos que realizan conjuntos equivalentes de operaciones matemáticas.As a person skilled in the art will appreciate, an encoder adapted to cooperate with a decoder with equivalent modules is equipped to provide the oversampled representation on which the prediction coding is based, to thereby allow faithful reproduction of the encoded signal. . Said equivalent modules may be identical or similar modules or modules having identical or similar transfer characteristics. In particular, the modules in the encoder and decoder, respectively, may be similar or different processing units running respective computer programs that perform equivalent sets of mathematical operations.

En algunas realizaciones del sistema decodificador, la señal de mezcla descendente y la señal residual están segmentadas en tramas de tiempo, y la etapa de mezcla ascendente se adapta además para recibir, por cada trama de tiempo, un campo de datos de dos bits asociado con aquella trama y para operar, en respuesta al valor del campo de datos, en su modo activo o en su modo de paso.In some embodiments of the decoder system, the downmix signal and the residual signal are segmented into time frames, and the upmix stage is further adapted to receive, for each time frame, a two-bit data field associated with that frame and to operate, in response to the value of the data field, in its active mode or in its walkthrough mode.

En algunas realizaciones del sistema decodificador, la señal de mezcla descendente y la señal residual están segmentadas en tramas de tiempo, y la etapa de mezcla ascendente se adapta además para recibir en un flujo de bits MPEG, por cada trama de tiempo, un campo ms_mask_present asociado con aquella trama y para operar, en respuesta al valor del campo ms_mask_present, en su modo activo o en su modo de paso.In some embodiments of the decoder system, the downmix signal and the residual signal are segmented into time frames, and the upmix stage is further adapted to receive in an MPEG bit stream, for each time frame, a ms_mask_present field associated with that frame and to operate, in response to the value of the ms_mask_present field, on its active mode or in its passing mode.

En algunas realizaciones del sistema decodificador, los primeros componentes espectrales tienen valores reales expresados en el primer sub espacio, y los segundos componentes espectrales tienen valores imaginaros expresados en el segundo sub espacio. Los primeros y los segundos componentes forman juntos una representación espectral compleja de la señal. El primer sub espacio puede ser el espacio lineal de un primer conjunto de funciones base, mientras que el segundo sub espacio puede ser el espacio lineal de un conjunto de segundas funciones base, algunas de las cuales son linealmente independientes del primer conjunto de funciones base.In some embodiments of the decoder system, the first spectral components have real values expressed in the first subspace, and the second spectral components have imaginary values expressed in the second subspace. The first and second components together form a complex spectral representation of the signal. The first subspace may be the linear space of a first set of basis functions, while the second subspace may be the linear space of a set of second basis functions, some of which are linearly independent of the first set of basis functions.

En una realización, el módulo para calcular la representación compleja es una transformada de real a imaginario, esto es, un módulo para calcular las partes imaginarias del espectro de una señal de tiempo discreto en base a una representación espectral real de la señal. La transformada puede estar basada en relaciones matemáticas exactas o aproximadas, tales como fórmulas de análisis armónico o relaciones heurísticas.In one embodiment, the module for computing the complex representation is a real-to-imaginary transform, that is, a module for computing the imaginary parts of the spectrum of a discrete-time signal based on a real spectral representation of the signal. The transform can be based on exact or approximate mathematical relationships, such as harmonic analysis formulas or heuristic relationships.

En algunas realizaciones del sistema decodificador, las primeras componentes espectrales se obtienen mediante una transformada desde el dominio del tiempo al de la frecuencia, preferiblemente una transformada de Fourier, de una señal discreta en el dominio del tiempo, tal como mediante una transformada de coseno discreta (DCT), una transformada de coseno discreta modificada (MDCT), una transformada de seno discreta (DST), una transformada de seno discreta modificada (MDST), una transformada rápida de Fourier (FFT), un algoritmo de Fourier basado en un factor primo o similar. En los primeros cuatro casos, los segundos componentes espectrales se pueden obtener después mediante la DST, la MDST, la DCT y la MDCT, respectivamente. Como es bien sabido, el espacio lineal de cosenos que son periódicos en el intervalo de la unidad forma un sub espacio que no está enteramente contenido en el espacio lineal de senos periódicos en el mismo intervalo. Preferiblemente, los primeros componentes espectrales son obtenibles mediante la MDCT y los segundos componentes espectrales son obtenibles mediante la MDCt . In some embodiments of the decoder system, the first spectral components are obtained by a time-to-frequency domain transform, preferably a Fourier transform, of a discrete time-domain signal, such as by a discrete cosine transform. (DCT), a modified discrete cosine transform (MDCT), a discrete sine transform (DST), a modified discrete sine transform (MDST), a fast Fourier transform (FFT), a factor-based Fourier algorithm cousin or similar. In the first four cases, the second spectral components can then be obtained by DST, MDST, DCT, and MDCT, respectively. As is well known, the linear space of cosines that are periodic in the unit interval forms a subspace that is not entirely contained in the linear space of periodic sines in the same interval. Preferably, the first spectral components are obtainable by MDCT and the second spectral components are obtainable by MDCt.

En una realización, el sistema decodificador incluye al menos un módulo de conformado de ruido temporal (módulo TNS, o filtro TNS), que se adapta por encima de la etapa de mezcla ascendente. Hablando de manera general, el uso del TNS aumenta la calidad de audio percibida para las señales con componentes transitorios, y esto también aplica a las realizaciones del sistema decodificador inventivo que presenta el TNS. En la codificación estéreo L/R y M/S convencional, el filtro TNS se puede aplicar como un último paso de procesamiento en el dominio de la frecuencia, directamente antes de la transformada inversa. En el caso de la codificación estéreo de predicción compleja, sin embargo, es ventajoso a menudo aplicar el filtro TNS en la mezcla descendente y las señales residuales, esto es, antes de la matriz de mezcla ascendente. Dicho de otra manera, se aplica el TNS a las combinaciones lineales de los canales izquierdo y derecho, lo que tiene varias ventajas. En primer lugar, puede resultar en una situación dada de que el TNS es beneficioso sólo para la señal de la mezcla descendente. Entonces, el filtrado TNS se puede suprimir u omitir para la señal residual y, lo que puede implicar un uso más económico del ancho de banda disponible, los coeficientes del filtro TNS sólo necesitan ser transmitidos para la señal de la mezcla descendente. En segundo lugar, el cálculo de la representación sobre muestreada de la señal del enlace descendente (por ejemplo, los datos de la MDST que se derivan de los datos de la MDCT para formar una representación en el dominio de la frecuencia compleja), que es necesaria en la codificación de predicción compleja, puede requerir que la representación en el dominio del tiempo de la señal de mezcla descendente sea computable. Esto implica a su vez que la señal de mezcla descendente esté disponible preferiblemente como una secuencia de tiempo del espectro MDCT obtenida de una manera uniforme. Si el filtro TNS fuera aplicado en el decodificador después de la matriz de mezcla ascendente, que convierte una representación de la mezcla descendente/residual en una representación izquierda/derecha, sólo una secuencia del espectro MDCT residual de TNS de la señal de la mezcla descendente estaría disponible. Esto haría el cálculo eficiente del espectro MDST correspondiente muy desafiante, especialmente si los canales izquierdo y derecho están usando filtros TNS con diferentes características. In one embodiment, the decoder system includes at least one temporal noise shaping module (TNS module, or TNS filter), which is fitted above the upmix stage. Generally speaking, the use of TNS increases the perceived audio quality for signals with transient components, and this also applies to embodiments of the inventive decoder system featuring TNS. In conventional L/R and M/S stereo coding, the TNS filter can be applied as a last processing step in the frequency domain, directly before the inverse transform. In the case of complex prediction stereo coding, however, it is often advantageous to apply the TNS filter on the downmix and residual signals, ie before the upmix matrix. In other words, the TNS is applied to the linear combinations of the left and right channels, which has several advantages. Firstly, it may result in a given situation that the TNS is beneficial only for the downmix signal. Then, the TNS filtering can be suppressed or omitted for the residual signal and, which may imply a more economical use of the available bandwidth, the TNS filter coefficients only need to be transmitted for the downmix signal. Second, the computation of the oversampled representation of the downlink signal (for example, the MDST data that is derived from the MDCT data to form a complex frequency domain representation), which is necessary in complex prediction coding, it may require that the time-domain representation of the downmix signal be computable. This in turn implies that the downmix signal is preferably available as a time sequence of the MDCT spectrum obtained in a uniform manner. If the TNS filter were applied in the decoder after the upmix matrix, which converts a downmix/residual representation to a left/right representation, only a sequence of the TNS residual MDCT spectrum of the downmix signal would be available. This would make the efficient calculation of the corresponding MDST spectrum very challenging, especially if the left and right channels are using TNS filters with different characteristics.

Se enfatiza que la disponibilidad de una secuencia de tiempo del espectro MDCT no es un criterio absoluto para obtener una representación MDST ajustada para servir como base para la codificación de predicción compleja. Además de la evidencia experimental, este hecho se puede explicar mediante el TNS que se aplica de manera general sólo a las frecuencias mayores, tales como por encima de unos pocos kilohercios, por lo que la señal residual filtrada por el TNS corresponde aproximadamente a la señal no filtrada residual para las frecuencias menores. Por tanto, la invención se puede realizar como un decodificador para la codificación estéreo de predicción compleja, en la que los filtros TNS tienen una colocación diferente que por encima de la etapa de mezcla ascendente, como se indica más adelante.It is emphasized that the availability of a time sequence of the MDCT spectrum is not an absolute criterion for obtaining a fitted MDST representation to serve as a basis for complex prediction coding. Apart from the experimental evidence, this fact can be explained by the TNS generally applying only to the higher frequencies, such as above a few kilohertz, so the residual signal filtered by the TNS corresponds approximately to the signal residual unfiltered for lower frequencies. Thus, the invention can be implemented as a decoder for complex prediction stereo coding, in which the TNS filters have a different placement than above the upmix stage, as indicated below.

En una realización, el sistema decodificador incluye al menos un módulo TNS adicional ubicado por debajo de la etapa de mezcla ascendente. Por medio de una disposición selectora, ya sea el módulo o módulos TNS por encima de la etapa de mezcla ascendente o el módulo o módulos TNS por debajo de la etapa de mezcla ascendente. Bajo ciertas circunstancias, el cálculo de la representación compleja en el dominio de la frecuencia no requiere que sea computable una representación en el dominio del tiempo de la señal de mezcla descendente. Además, como se expuso anteriormente, el decodificador puede ser operable de manera selectiva en un modo de codificación directo o conjunto, no aplicando codificación de predicción compleja, y entonces puede ser más adecuado aplicar la ubicación convencional de los módulos TNS, esto es, como uno de los últimos pasos de procesamiento en el dominio de la frecuencia.In one embodiment, the decoder system includes at least one additional TNS module located below the upmix stage. By means of a selector arrangement, either the TNS module(s) above the upmix stage or the TNS module(s) below the upmix stage. Under certain circumstances, computation of the complex frequency domain representation does not require a time domain representation of the downmix signal to be computable. Furthermore, as discussed above, the decoder may be selectively operable in a direct or joint coding mode, not applying complex prediction coding, and then it may be more appropriate to apply location conventional of TNS modules, that is, as one of the last processing steps in the frequency domain.

En una realización, el sistema decodificador se adapta para economizar los recursos de procesamiento, y posiblemente la energía, desactivando el módulo para calcular una segunda representación en el dominio de la frecuencia de la señal de mezcla descendente cuando la última no es necesaria. Se supone que la señal de mezcla descendente se parte en bloques de tiempo sucesivos, cada uno de los cuales se asocia con un valor de coeficiente de predicción complejo. Este valor puede ser determinado mediante una decisión tomada para cada bloque de tiempo mediante un codificador que coopera con el decodificador. Además, en esta realización, el módulo para calcular una segunda representación en el dominio de la frecuencia de la señal de mezcla descendente se adapta para desactivarse a sí mismo si, durante un bloque de tiempo dado, el valor absoluto de la parte imaginaria del coeficiente de predicción complejo es cero o es menor que una tolerancia predeterminada. La desactivación del módulo puede implicar que no se calcule una segunda representación en el dominio de la frecuencia de la señal de mezcla descendente para este bloque de tiempo. Si la desactivación no tiene lugar, la segunda representación en el dominio de la frecuencia (por ejemplo, un conjunto de coeficientes MDST) sería multiplicada por cero o por un número sustancialmente del mismo orden de magnitud que la épsilon máquina (unidad de redondeo) del decodificador o algún otro valor de umbral adecuado.In one embodiment, the decoder system is adapted to economize processing resources, and possibly power, by disabling the module to calculate a second frequency-domain representation of the downmix signal when the latter is not needed. The downmix signal is assumed to be split into successive time blocks, each of which is associated with a complex prediction coefficient value. This value can be determined by a decision made for each time block by an encoder cooperating with the decoder. Furthermore, in this embodiment, the module for calculating a second frequency-domain representation of the downmix signal is adapted to turn itself off if, during a given time block, the absolute value of the imaginary part of the coefficient complex prediction tolerance is zero or is less than a predetermined tolerance. Deactivation of the module may mean that a second frequency domain representation of the downmix signal is not calculated for this time block. If deactivation does not occur, the second frequency-domain representation (for example, a set of MDST coefficients) would be multiplied by zero or by a number of substantially the same order of magnitude as the machine epsilon (rounding unit) of the decoder or some other suitable threshold value.

En un desarrollo adicional de la realización anterior, se consigue la economización de recursos de procesamiento en un sub nivel del bloque de tiempo dentro del cual se parte la señal de mezcla descendente. Por ejemplo, dicho sub nivel dentro de un bloque de tiempo pude ser una banda de frecuencias, en donde el codificador determina un valor del coeficiente de predicción complejo para cada banda de frecuencias dentro de un bloque de tiempo. De manera similar, el módulo para producir una segunda representación en el dominio de la frecuencia se adapta para eliminar su funcionamiento para una banda de frecuencias en un bloque de tiempo para el que el coeficiente de predicción complejo es cero o tiene una magnitud menor que una tolerancia.In a further development of the above embodiment, saving of processing resources is achieved at a sub-level of the time block within which the downmix signal is split. For example, said sub-level within a time block may be a frequency band, where the encoder determines a complex prediction coefficient value for each frequency band within a time block. Similarly, the module for producing a second frequency-domain representation is adapted to eliminate its operation for a band of frequencies in a time block for which the complex prediction coefficient is zero or has a magnitude less than one. tolerance.

En una realización, los primeros componentes espectrales son coeficientes de transformadas dispuestos en uno o más bloques de tiempo de los coeficientes de transformada, cada bloque generado mediante la aplicación de una transformada a un segmento de tiempo de una señal en el dominio del tiempo. Además, el módulo para calcular una segunda representación en el dominio de la frecuencia de la señal de mezcla descendente se adapta para:In one embodiment, the first spectral components are transform coefficients arranged in one or more time blocks of the transform coefficients, each block generated by applying a transform to a time slice of a time domain signal. Furthermore, the module for calculating a second frequency-domain representation of the downmix signal is adapted to:

• derivar uno o más primeros componentes intermedios a partir de al menos alguno de los componentes espectrales;• derive one or more first intermediate components from at least some of the spectral components;

• formar una combinación de dichos uno o más primeros componentes espectrales según al menos una parte de una o más respuestas al impulso para obtener uno o más segundos componentes intermedios; y• forming a combination of said one or more first spectral components according to at least a part of one or more impulse responses to obtain one or more second intermediate components; and

• derivar dichos uno o más segundos componentes espectrales a partir de dichos uno o más segundos componentes intermedios.• deriving said one or more second spectral components from said one or more second intermediate components.

Este procedimiento logra el cálculo de la segunda representación en el dominio de la frecuencia de manera directa a partir de la primera representación en el dominio de la frecuencia, como se describe con mayor detalle en el documento de los EE.UU. 6.980.933 B2, de manera notable en las columnas 8-28 y en concreto en la ecuación 41 del mismo. Como se darán cuenta las personas expertas, no se realiza el cálculo a través del dominio del tiempo, al contrario de, por ejemplo, la transformada inversa seguida por una transformada diferente.This procedure achieves the computation of the second frequency domain representation directly from the first frequency domain representation, as described in more detail in US 6,980,933 B2. , notably in columns 8-28 and specifically in equation 41 thereof. As skilled persons will realize, the computation is not performed through the time domain, unlike, for example, the inverse transform followed by a different transform.

Para una transformación ejemplar de la codificación estéreo de predicción compleja según la invención, se ha estimado que la complejidad computacional aumenta sólo ligeramente (de manera significativamente menor que el aumento provocado por la codificación estéreo de predicción compleja en el dominio QMF) comparada con el estéreo L/R o M/S tradicional. Una realización de este tipo que incluye el cálculo exacto de los segundos componentes espectrales introduce un retardo que es normalmente unos pocos por cientos más largo que el introducido por una implementación basada en q Mf (suponiendo que la longitud del bloque de tiempo es de 1024 muestras y comparando con el retardo del banco de filtros de análisis/síntesis QMF híbrido, que es de 961 muestras).For an exemplary transformation of complex prediction stereo coding according to the invention, it has been estimated that the computational complexity increases only slightly (significantly less than the increase caused by complex prediction stereo coding in the QMF domain) compared to stereo Traditional L/R or M/S. Such an implementation that includes the exact calculation of the second spectral components introduces a delay that is typically a few percent longer than that introduced by an implementation based on q Mf (assuming the length of the time block is 1024 samples). and comparing to the delay of the hybrid QMF analysis/synthesis filter bank, which is 961 samples).

De manera adecuada, en al menos alguna de las realizaciones anteriores, las respuestas al impulso se adaptan a la transformada mediante la cual es obtenible la primera representación en el dominio de la frecuencia, y más concretamente de acuerdo con la respuesta en frecuencia característica de la misma.Suitably, in at least some of the above embodiments, the impulse responses are adapted to the transform by which the first representation in the frequency domain is obtainable, and more specifically according to the characteristic frequency response of the same.

En algunas realizaciones, la primera representación en el dominio de la frecuencia de la señal de mezcla descendente es obtenida mediante una transformada que se aplica en conexión con una o más funciones de ventana de análisis (o funciones de corte, por ejemplo, la ventana rectangular, la ventana sinusoidal, la ventana Kaiser-Bessel-derivada, etc), un objetivo de la cual es lograr una segmentación temporal sin introducir una cantidad perjudicial de ruido o cambiar el espectro de una manera indeseable. Posiblemente, dichas funciones de ventana se solapan de manera parcial. Entonces, preferiblemente, las características de respuesta en frecuencia de la transformada son dependientes de las características de dichas una o más funciones de ventana de análisis.In some embodiments, the first frequency-domain representation of the downmix signal is obtained by a transform that is applied in connection with one or more analysis window functions (or slice functions, for example, the rectangular window , the sinusoidal window, the Kaiser-Bessel-derived window, etc), one goal of which is to achieve time segmentation without introducing a detrimental amount of noise or changing the spectrum in an undesirable way. Possibly, said window functions partially overlap. Then, preferably, the frequency response characteristics of the transform are dependent on the characteristics of said one or more analysis window functions.

Aún referente a las realizaciones que realizan el cálculo de la segunda representación en el dominio de la frecuencia dentro del dominio de la frecuencia, es posible disminuir la carga computacional involucrada mediante el uso de una segunda representación aproximada en el dominio de la frecuencia. Dicha aproximación se puede lograr no requiriendo la información completa sobre la cual basar el cálculo. Mediante las enseñanzas del documento de los EE.UU. 6.980.933 B2, por ejemplo, se requieren los primeros datos en el dominio de la frecuencia de tres bloques de tiempo para el cálculo exacto de la segunda representación en el dominio de la frecuencia de la señal de mezcla descendente en un bloque, es decir un bloque contemporáneo con el bloque de salida, un bloque anterior y un bloque posterior. Con el propósito de la codificación de predicción compleja según la presente invención, se pueden obtener aproximaciones adecuadas omitiendo - o reemplazando por cero - los datos que se obtienen a partir del bloque posterior (por lo cual la operación de módulo puede resultar causal, esto es, no contribuye al retardo) y/o a partir del bloque anterior, para el cálculo de la segunda representación en el dominio de la frecuencia se basa en los datos de uno o más bloques de tiempo sólo. Se observa que incluso aunque la omisión de los datos de entrada implique un reescalado de la segunda representación en el dominio de la frecuencia - en el sentido de que, por ejemplo, no representa más la misma energía - se puede usar ya como una base para la codificación de predicción compleja siempre que se calcule de una manera equivalente en tanto los extremos del codificador como del decodificador, como se observó anteriormente. En efecto, un posible reescalado de este tipo será compensado mediante el cambio correspondiente del valor del coeficiente de predicción.Still referring to the embodiments that perform the calculation of the second representation in the frequency domain Within the frequency domain, it is possible to decrease the computational load involved by using a second approximate representation in the frequency domain. Such an approximation can be achieved by not requiring the complete information on which to base the calculation. By the teachings of US 6,980,933 B2, for example, the first frequency-domain data of three time blocks is required for the exact calculation of the second frequency-domain representation of the downmix signal in a block, ie a block contemporaneous with the output block, a pre-block and a post-block. For the purpose of complex prediction coding according to the present invention, suitable approximations can be obtained by omitting - or replacing by zero - the data that is obtained from the subsequent block (whereby the modulo operation may be causal, i.e. , does not contribute to the delay) and/or from the previous block, for the calculation of the second frequency domain representation is based on the data of one or more time blocks only. It is observed that even if the omission of the input data implies a rescaling of the second representation in the frequency domain - in the sense that, for example, it no longer represents the same energy - it can already be used as a basis for complex prediction coding provided it is computed in an equivalent manner at both the encoder and decoder ends, as noted above. Indeed, a possible rescaling of this type will be compensated by the corresponding change in the value of the prediction coefficient.

Todavía otro método aproximado para calcular el componente espectral que forma parte de la segunda representación en el dominio de la frecuencia de la señal de mezcla descendente puede incluir la combinación de al menos dos componentes de la primera representación en el dominio de la frecuencia. Los últimos componentes pueden ser adyacentes con respecto al tiempo y/o la frecuencia. Como alternativa, pueden ser combinados mediante un filtrado de respuesta al impulso finita (FIR), con relativamente pocas pulsaciones. Por ejemplo, en un sistema que aplica un tamaño de bloque de tiempo de 1024, dichos filtros FIR pueden incluir 2, 3,4 etc pulsaciones. Las descripciones de los métodos de cálculo aproximados de esta naturaleza se pueden encontrar, por ejemplo, en el documento de los EE.UU. 2005/0197831 A1. Si se usa una función de ventana que da relativamente menores pesos a los alrededores de cada límite de bloque de tiempo, por ejemplo, una función no rectangular, puede ser conveniente basar los segundos componentes espectrales en un bloque de tiempo sólo en las combinaciones de los primeros componentes espectrales en el mismo bloque de tiempo, lo que implica que no está disponible la misma cantidad de información para los componentes más exteriores. El error de aproximación posiblemente introducido por dicha práctica es hasta cierto punto suprimido o cancelado por la forma de la función ventana.Still another approximate method for calculating the spectral component that is part of the second frequency domain representation of the downmix signal may include combining at least two components of the first frequency domain representation. The latter components may be adjacent with respect to time and/or frequency. Alternatively, they can be combined using finite impulse response (FIR) filtering, with relatively few pulses. For example, in a system that applies a time block size of 1024, such FIR filters may include 2, 3, 4 etc. ticks. Descriptions of approximate calculation methods of this nature can be found, for example, in US 2005/0197831 A1. If a window function is used that gives relatively less weights to the surroundings of each time block boundary, for example a non-rectangular function, it may be convenient to base the second spectral components in a time block only on the combinations of the first spectral components in the same time block, which implies that the same amount of information is not available for the outermost components. The approximation error possibly introduced by such practice is to some extent suppressed or canceled by the shape of the window function.

En una realización de un decodificador, que se diseña para emitir una señal estéreo en el dominio del tiempo, se incluye una posibilidad de conmutación entre la codificación directa o conjunta y la codificación de predicción compleja. Esto se logra mediante la provisión de:In one embodiment of a decoder, which is designed to output a stereo signal in the time domain, a switchability between direct or joint coding and complex prediction coding is included. This is achieved by providing:

• un conmutador que se puede operar de manera selectiva ya sea como una etapa de paso (que no modifica las señales) o como una transformada de suma y diferencia;• a switch that can be selectively operated either as a step stage (which does not modify the signals) or as a sum and difference transform;

• una etapa de transformada inversa para realizar una transformada de frecuencia a tiempo; y• an inverse transform stage to perform a frequency-to-time transform; and

• una disposición selectora para alimentar la etapa de transformada inversa con ya sea una señal codificada de manera directa (o conjunta) o con una señal codificada mediante predicción compleja.• a selector arrangement for feeding the inverse transform stage with either a direct (or joint) coded signal or with a complex prediction coded signal.

Como se darán cuenta las personas expertas, dicha flexibilidad en la parte del decodificador da al codificador libertad para elegir entre la codificación convencional directa o conjunta y la codificación por predicción compleja. Por lo tanto, en los casos en los que el nivel de calidad de la codificación estéreo L/R directa o la codificación estéreo M/S conjunta convencionales no se pueda superar, esta realización puede garantizar al menos que se mantiene el mismo nivel. Por tanto, el decodificador según esta realización se puede considerar como un súper conjunto con respecto a la técnica relacionada.As the skilled person will realize, such flexibility on the decoder side gives the encoder freedom to choose between direct or joint conventional coding and complex prediction coding. Therefore, in cases where the quality level of conventional direct L/R stereo coding or joint M/S stereo coding cannot be exceeded, this embodiment can at least guarantee that the same level is maintained. Therefore, the decoder according to this embodiment can be considered as a super set with respect to the related art.

Otro grupo de realizaciones del sistema decodificador realizan el cálculo de los segundos componentes espectrales en la segunda representación en el dominio de la frecuencia a través del dominio del tiempo. Más precisamente, se aplica la inversa de la transformada mediante la cual se obtuvieron (o son obtenibles) los primeros componentes espectrales y es seguida por una transformada diferente que tiene como salida los segundos componentes espectrales. En concreto, la MDCT inversa puede ser seguida por una MDST. Para reducir el número de transformadas y de transformadas inversas, la salida de la MDCt inversa puede, en dicha realización, ser proporcionada a tanto la MDST como los terminales de salida (posiblemente precedidos por pasos de procesamiento adicionales) del sistema de decodificación.Another group of embodiments of the decoder system performs the calculation of the second spectral components in the second representation in the frequency domain through the time domain. More precisely, the inverse of the transform by which the first spectral components were obtained (or are obtainable) is applied and is followed by a different transform outputting the second spectral components. Specifically, the reverse MDCT can be followed by an MDST. To reduce the number of transforms and inverse transforms, the output of the inverse MDCt may, in such an embodiment, be provided to both the MDST and the output terminals (possibly preceded by additional processing steps) of the decoding system.

Para una implementación ejemplar de la codificación estéreo de predicción compleja según la invención, se ha estimado que la complejidad computacional aumenta sólo ligeramente (aun significativamente menos que el aumento provocado por la codificación estéreo de predicción compleja en el dominio QMF) comparado con la estéreo L/R o M/S convencional.For an exemplary implementation of complex prediction stereo coding according to the invention, it has been estimated that the computational complexity increases only slightly (still significantly less than the increase caused by complex prediction stereo coding in the QMF domain) compared to L stereo. /R or conventional M/S.

Como un desarrollo adicional de la realización referida en el párrafo anterior, la etapa de mezcla ascendente puede comprender una etapa de transformada inversa adicional para procesar la señal lateral. Entonces, la etapa de suma y diferencia se suministra con una representación en el dominio del tiempo de la señal lateral, generada por dicha etapa de transformada inversa adicional, y una representación en el dominio del tiempo de la señal de mezcla descendente, generada por la etapa de transformada inversa ya referida. Se recuerda que, de manera ventajosa a partir del punto de vista de la complejidad computacional, la última señal se suministra a tanto la etapa de suma y diferencia como a dicha etapa de transformada diferente referida a la anterior.As a further development of the embodiment referred to in the previous paragraph, the upmix stage may comprise a further inverse transform stage for processing the side signal. The sum and difference stage is then supplied with a time domain representation of the side signal, generated by said sum and difference stage. additional inverse transform stage, and a time-domain representation of the downmix signal, generated by the already referred to inverse transform stage. It is recalled that, advantageously from the point of view of computational complexity, the last signal is supplied to both the sum and difference stage and to said different transform stage referred to the previous one.

En una realización, un decodificador diseñado para emitir una señal estéreo en el dominio del tiempo incluye la posibilidad de conmutar entre la codificación estéreo L/R directa la codificación estéreo M/S conjunta y la codificación estéreo de predicción compleja. Esto se logra mediante la provisión de:In one embodiment, a decoder designed to output a time-domain stereo signal includes the ability to switch between straight L/R stereo encoding, joint M/S stereo encoding, and complex prediction stereo encoding. This is achieved by providing:

• un conmutador operable ya sea como una etapa de paso o como una etapa de suma y diferencia;• a switch operable either as a step stage or as a sum and difference stage;

• una etapa de transformada inversa adicional para calcular una representación en el dominio del tiempo de la señal lateral;• an additional inverse transform stage to compute a time domain representation of the side signal;

• una disposición selectora para conectar las etapas de transformada inversa a ya sea una etapa de suma y diferencia adicional conectada a un punto por encima de la etapa de mezcla ascendente y por debajo del conmutador (preferiblemente cuando el conmutador ha sido accionado para funcionar como un filtro de paso, como puede ser el caso en la decodificación de una señal estéreo generada mediante codificación de predicción compleja) o una combinación de una señal de mezcla descendente desde el conmutador y una señal lateral desde el sumador ponderado (preferiblemente cuando el conmutador se ha accionado para funcionar como una etapa de suma y diferencia, como puede ser el caso en la decodificación como una señal estéreo codificada directamente).• a selector arrangement for connecting the inverse transform stages to either a further sum and difference stage connected to a point above the upmix stage and below the switch (preferably where the switch has been actuated to function as a pass filter, as may be the case when decoding a stereo signal generated by complex prediction coding) or a combination of a downmix signal from the switch and a side signal from the weighted adder (preferably when the switch has been turned on). driven to function as a sum and difference stage, as may be the case when decoding as a directly encoded stereo signal).

Como se darán cuanta las personas expertas, esto da al codificador la libertad para elegir entre la codificación directa o conjunta convencional y la codificación de predicción compleja lo que significa que se puede garantizar un nivel de calidad al menos equivalente a la de la codificación estéreo directa o conjunta,As skilled persons will realize, this gives the encoder the freedom to choose between conventional straight or joint coding and complex prediction coding which means that a level of quality at least equivalent to that of straight stereo coding can be guaranteed. or joint,

Un sistema codificador (no cubierto por las reivindicaciones) puede comprender un estimador para estimar el coeficiente de predicción complejo con el objetivo de reducir o minimizar la energía de señal o la energía media de señal de la señal residual. La minimización puede tener lugar sobre un intervalo de tiempo, preferiblemente un segmento de tiempo o un bloque de tiempo o una trama de tiempo de la señal a ser codificada. El cuadrado de la amplitud se puede tomar como una medida de la energía momentánea de la señal, y una integral a lo largo del intervalo de tiempo de la amplitud al cuadrado (forma de onda) puede ser tomada como una medida de la energía de la señal media en ese intervalo. De manera adecuada, el coeficiente de predicción complejo se determina sobre una base de bloque de tiempo y banda de frecuencias, esto es, su valor se establece de manera tal que reduce la energía media (esto es, la energía total) de la señal residual en ese bloque de tiempo y banda de frecuencias. En concreto, los módulos para estimar los parámetros de la codificación estéreo paramétrica tales como la IID, la ICC y la IPD o similares, pueden proporcionar la salida sobre la que el coeficiente de predicción complejo puede ser calculado según las relaciones matemáticas conocidas por personas expertas.An encoder system (not covered by the claims) may comprise an estimator for estimating the complex prediction coefficient with the aim of reducing or minimizing the signal power or mean signal power of the residual signal. The minimization can take place over a time interval, preferably a time slot or a time block or a time frame of the signal to be encoded. The square of the amplitude can be taken as a measure of the momentary energy of the signal, and an integral over the time interval of the squared amplitude (waveform) can be taken as a measure of the energy of the signal. average signal in that interval. Suitably, the complex prediction coefficient is determined on a frequency band and time block basis, that is, its value is set such that it reduces the average energy (i.e., total energy) of the residual signal. in that time block and frequency band. Specifically, modules for estimating parametric stereo coding parameters such as IID, ICC and IPD or the like can provide the output on which the complex prediction coefficient can be calculated according to mathematical relationships known to the skilled person. .

La etapa de codificación del sistema codificador puede ser operable, además, para funcionar como una etapa de paso para permitir una codificación estéreo directa. Seleccionando la codificación estéreo directa en las situaciones en las que se espera que proporcione una mayor calidad, el sistema codificador puede garantizar que la señal estéreo codificada tiene al menos la misma calidad que en la codificación directa. De manera similar, en las situaciones en las que el mayor esfuerzo computacional incurrido por la codificación de predicción compleja no está motivado por un aumento significativo de la calidad, hay por tanto una opción disponible para economizar los recursos computacionales fácilmente para el sistema codificador. La decisión entre la codificación conjunta, directa, de predicción real y de predicción compleja en el codificador se basa generalmente en una optimización de la tasa/distorsión.The encoding stage of the encoding system may further be operable to function as a pass-through stage to allow direct stereo encoding. By selecting straight stereo encoding in situations where it is expected to provide higher quality, the encoding system can ensure that the encoded stereo signal has at least the same quality as straight encoding. Similarly, in situations where the increased computational effort incurred by complex prediction coding is not motivated by a significant increase in quality, there is therefore an option available to save computational resources easily for the coding system. The decision between joint, direct, real-prediction, and complex-prediction coding at the encoder is generally based on rate/distortion optimization.

El sistema codificador puede comprender un módulo para calcular directamente una segunda representación en el dominio de la frecuencia (esto es, sin aplicar una transformada inversa dentro del dominio del tiempo y sin usar los datos del dominio del tiempo de la señal) en base a los primeros componentes espectrales. En relación con las realizaciones correspondientes del sistema decodificador descrito anteriormente, este módulo puede tener una estructura análoga, es decir comprender las operaciones de procesamiento análogas pero en un orden diferente, por lo que el codificador se adapta para emitir los datos adecuados como entrada en el lado del decodificador. Con propósitos ilustrativos, se supone que la señal estéreo a ser codificada comprende los canales central y lateral, o se ha transformado dentro de esta estructura, y la etapa de codificación se adapta para recibir una primera representación en el dominio de la frecuencia. La etapa de codificación comprende un módulo para calcular una segunda representación en el dominio de la frecuencia del canal central. (La primera y segunda representaciones en el dominio de la frecuencia referidas aquí son como se define anteriormente; en concreto las primeras representaciones en el dominio de la frecuencia pueden ser representaciones MDCT y la segunda representación en el dominio de la frecuencia puede ser una representación MDST). La etapa de codificación comprende además un sumador ponderado para calcular la señal residual como una combinación lineal formada a partir de la señal lateral y las dos representaciones en el dominio de la frecuencia de la señal central ponderadas mediante las partes real e imaginaria, respectivamente, del coeficiente de predicción complejo. La señal central, o de manera adecuada la primera representación en el dominio de la frecuencia de la misma, se puede usar de manera directa como una señal de mezcla descendente. En esta realización, además, el estimador determina el valor del coeficiente de predicción complejo con el objetivo de minimizar la energía o la energía media de la señal residual. La operación final (optimización) se puede efectuar ya sea mediante control de retroalimentación, en donde el estimador puede recibir la señal residual obtenida mediante los valores del coeficiente de predicción actuales a ser ajustador de manera adicional si fuera necesario, o, de una manera de alimentación hacia adelante, mediante los cálculos efectuados directamente o en los canales izquierdo/derecho de una señal estéreo original o los canales central/lateral. Se prefiere el método de alimentación hacia adelante, mediante el cual el coeficiente de predicción complejo se determina de manera directa (concretamente, de una manera no iterativa o no retroalimentada) en base a la primera y a la segunda representaciones en el dominio de la frecuencia de la señal central y la primera representación en el dominio de la frecuencia de la señal lateral. Se observa que la determinación del coeficiente de predicción complejo puede ser seguido por una decisión de ya sea aplicar la codificación directa, conjunta, de predicción real o de predicción compleja, en donde se considera la calidad resultante (preferiblemente la calidad perceptual, teniendo en cuenta, por ejemplo, los efectos señal a máscara) de cada opción disponible; por tanto los enunciados anteriores no se interpretan con el efecto de que exista ningún mecanismo de retroalimentación en el codificador.The encoder system may comprise a module for directly calculating a second frequency-domain representation (that is, without applying an inverse intra-time-domain transform and without using the time-domain data of the signal) based on the first spectral components. In relation to the corresponding embodiments of the decoder system described above, this module may have an analogous structure, i.e. comprise analogous processing operations but in a different order, whereby the encoder is adapted to output the appropriate data as input to the encoder. decoder side. For illustrative purposes, it is assumed that the stereo signal to be encoded comprises the center and side channels, or has been transformed into this structure, and the encoding stage is adapted to receive a first frequency domain representation. The coding stage comprises a module for calculating a second frequency domain representation of the central channel. (The first and second frequency domain representations referred to herein are as defined above; in particular, the first frequency domain representations may be MDCT representations and the second frequency domain representation may be an MDST representation. ). The encoding stage further comprises a weighted adder for calculating the residual signal as a linear combination formed from the side signal and the two frequency-domain representations of the center signal weighted by the real and imaginary parts, respectively, of the signal. complex prediction coefficient. The central signal, or suitably the first frequency domain representation thereof, can be used directly as a downmix signal. In this embodiment, furthermore, the estimator determines the value of the complex prediction coefficient with the aim of minimizing the energy or average energy of the residual signal. The final operation (optimization) can be performed either by feedback control, where the estimator can receive the residual signal obtained by the current prediction coefficient values to be further adjusted if necessary, or, in a manner of fed forward, by calculations made directly or into the left/right channels of an original stereo signal or the center/side channels. The feed-forward method is preferred, whereby the complex prediction coefficient is determined directly (ie, in a non-iterative or non-feedback manner) based on the first and second frequency-domain representations of the center signal and the first frequency domain representation of the side signal. It is noted that the determination of the complex prediction coefficient can be followed by a decision to either apply direct, joint, real prediction, or complex prediction coding, where the resulting quality (preferably perceptual quality, taking into account , for example, the signal-to-mask effects) of each available option; therefore the previous statements are not interpreted with the effect that there is any feedback mechanism in the encoder.

El sistema codificador puede comprender los módulos para calcular una segunda representación en el dominio de la frecuencia de la señal central (o de mezcla descendente) a través del dominio del tiempo. Se entiende que los detalles de la implementación en relación a dicho sistema codificador, al menos hasta lo que al cálculo de la segunda representación en el dominio de la frecuencia se refiere, son similares o se pueden resolver de manera análoga a las correspondientes realizaciones del decodificador. La etapa de codificación comprende:The encoder system may comprise the modules for calculating a second frequency domain representation of the center (or downmix) signal through the time domain. It is understood that the implementation details in relation to said encoder system, at least as far as the computation of the second frequency-domain representation is concerned, are similar or analogously resolvable to the corresponding decoder implementations. . The coding stage comprises:

• una etapa de suma y diferencia para convertir la señal estéreo en una forma que comprende los canales central y lateral;• a sum and difference stage for converting the stereo signal into a form comprising center and side channels;

• una etapa de transformada para proporcionar una representación en el dominio de la frecuencia del canal lateral y una representación en el dominio de la frecuencia del valor complejo (y por lo tanto sobre muestreado) del canal central; y• a transform stage to provide a frequency domain representation of the side channel and a frequency domain representation of the complex value (and hence oversampled) of the center channel; and

• un sumador ponderado para calcular una señal residual, en donde el coeficiente de predicción complejo se usa como un peso.• a weighted adder to compute a residual signal, where the complex prediction coefficient is used as a weight.

Aquí, el estimador puede recibir la señal residual y determinar, posiblemente en un modo de control de la retroalimentación, el coeficiente de predicción complejo para reducir o minimizar la energía o la media de la señal residual. Preferiblemente, sin embargo, el estimador recibe la señal estéreo a codificar y determina el coeficiente de predicción en base a esto. Es ventajoso a partir del punto de vista de la economía computacional usar una representación en el dominio de la frecuencia muestreada de manera crítica del canal lateral, ya que ésta última no estará sometida a la multiplicación por un número complejo en esta realización. De manera adecuada, la etapa de transformada puede comprender una etapa MDCT y una etapa MDST en paralelo, teniendo ambas la representación en el dominio del tiempo del canal central como entrada. Por tanto, se producen una representación en el dominio de la frecuencia sobre muestreada del canal central y una representación en el dominio de la frecuencia muestreada de manera crítica del canal lateral.Here, the estimator can receive the residual signal and determine, possibly in a feedback control mode, the complex prediction coefficient to reduce or minimize the energy or mean of the residual signal. Preferably, however, the estimator receives the stereo signal to be coded and determines the prediction coefficient based on this. It is advantageous from a computational economics point of view to use a critically sampled frequency domain representation of the side channel, since the latter will not be subject to multiplication by a complex number in this embodiment. Suitably, the transform stage may comprise an MDCT stage and a parallel MDST stage, both having the center channel time-domain representation as input. Thus, an oversampled frequency domain representation of the center channel and a critically sampled frequency domain representation of the side channel are produced.

Se observa que los métodos de decodificación y el aparato decodificador descritos en esta sección se pueden aplicar, después de las modificaciones apropiadas dentro de las capacidades de las personas expertas incluyendo la experimentación de rutina, para la codificación de señales que tengan más de dos canales. Las modificaciones en tal operatividad multicanal puede proceder, por ejemplo, a lo largo de las líneas de las secciones 4 y 5 en el documento de J. Herre et al. citado anteriormente.It is noted that the decoding methods and decoding apparatus described in this section can be applied, after appropriate modifications within the capabilities of the skilled person including routine experimentation, for the encoding of signals having more than two channels. Modifications in such multi-channel operability can proceed, for example, along the lines of sections 4 and 5 in the J. Herre et al. above.

Las características de las dos o más realizaciones de un sistema decodificador indicadas anteriormente se pueden combinar, a menos que sean claramente complementarias, en realizaciones adicionales. El hecho de que dos características se reciten en reivindicaciones diferentes no impide que se puedan combinar como una ventaja. Así mismo, las realizaciones adicionales pueden proporcionar la omisión de ciertas características que no son necesarias o no son esenciales para el propósito deseado. Como un ejemplo, el sistema de decodificación según la invención se puede realizar sin una etapa de descuantificación en los casos en los que la señal codificada a ser procesada no se cuantifique o esté ya disponible en una forma adecuada para el procesamiento por la etapa de mezcla ascendente.The features of the two or more embodiments of a decoder system indicated above may be combined, unless they are clearly complementary, in additional embodiments. The fact that two features are recited in different claims does not prevent them from being combined as an advantage. Also, additional embodiments may provide for the omission of certain features that are not necessary or essential for the intended purpose. As an example, the decoding system according to the invention can be realized without a dequantization stage in cases where the encoded signal to be processed is not quantized or is already available in a form suitable for processing by the mixing stage. upward.

Breve descripción de los dibujosBrief description of the drawings

La invención será además ilustrada ahora por las realizaciones de varios sistemas decodificadores y métodos de decodificación descritos en la siguiente sección, haciéndose referencia a los dibujos adjuntos. Los dibujos también ilustran varios sistemas codificadores y un método de codificación, que aparecen únicamente por propósitos ilustrativos y no son cubiertos por las reivindicaciones.The invention will now be further illustrated by the embodiments of various decoding systems and decoding methods described in the following section, reference being made to the accompanying drawings. The drawings also illustrate various encoding systems and an encoding method, which appear for illustrative purposes only and are not covered by the claims.

En los dibujos:In the drawings:

la figura 1 consiste en dos diagramas de bloques generalizados que muestran los decodificadores basados en el QMF según los antecedentes de la técnica;Figure 1 consists of two generalized block diagrams showing decoders based on the QMF according to the prior art;

la figura 2 es un diagrama de bloques generalizado de un sistema decodificador estéreo basado en la MDCT con predicción compleja, según una realización de la presente invención, en la que la representación compleja de una canal de la señal a ser decodificada se calcula en el dominio de la frecuencia;Figure 2 is a generalized block diagram of an MDCT-based stereo decoder system with complex prediction, according to an embodiment of the present invention, in which the complex representation of a channel of the signal to be decoded is computed in the domain of the frequency;

la figura 3 es un diagrama de bloques generalizado de un sistema decodificador estéreo basado en la MDCT con predicción compleja, según una realización de la presente invención, en la que la representación compleja de una canal de la señal a ser decodificada se calcula en el dominio del tiempo;Figure 3 is a generalized block diagram of an MDCT-based stereo decoder system with complex prediction, according to an embodiment of the present invention, in which the complex representation of a channel of the signal to be decoded is computed in the domain weather;

la figura 4 muestra una realización alternativa del sistema decodificador de la figura 2, en el que la ubicación de la etapa TNS activa es seleccionable;Figure 4 shows an alternative embodiment of the decoder system of Figure 2, in which the location of the active TNS stage is selectable;

la figura 5 comprende diagramas de bloques generalizados que muestran los sistemas codificadores estéreo basados en la MDCT con predicción compleja;Figure 5 comprises generalized block diagrams showing MDCT-based stereo coder systems with complex prediction;

la figura 6 es un diagrama de bloques generalizado de un codificador estéreo basado en la MDCT con predicción compleja, en el que se calcula una representación de un canal de la señal a ser codificada en base a la representación en el dominio del tiempo del mismo;Figure 6 is a generalized block diagram of a complex prediction MDCT-based stereo encoder, in which a channel representation of the signal to be encoded is computed based on the time domain representation thereof;

la figura 7 muestra una alternativa del sistema codificador de la figura 6, que es operable también en un modo de codificación L/R directo;Figure 7 shows an alternative to the encoding system of Figure 6, which is also operable in a direct L/R encoding mode;

la figura 8 es un diagrama de bloques generalizado de un sistema codificador estéreo basado en la MDCT con predicción compleja, en el que se calcula una representación de un canal de la señal a ser codificada en base a una primera representación en el dominio de la frecuencia del mismo, cuyo sistema decodificador es operable también en un modo de codificación L/R directo;Figure 8 is a generalized block diagram of an MDCT-based stereo encoder system with complex prediction, in which a one-channel representation of the signal to be encoded is computed based on a first frequency-domain representation. thereof, which decoder system is also operable in a direct L/R coding mode;

la figura 9 muestra una alternativa del sistema codificador de la figura 7, que incluye además una etapa TNS dispuesta debajo de la etapa de codificación;Figure 9 shows an alternative to the encoder system of Figure 7, further including a TNS stage arranged below the encoding stage;

la figura 10 muestra alternativas de la parte etiquetada A en las figuras 2 y 8;Figure 10 shows alternatives to the part labeled A in Figures 2 and 8;

la figura 11 muestra una alternativa del sistema codificador de la figura 8, que además incluye dos dispositivos de modificación en el dominio de la frecuencia dispuestos respectivamente por debajo y por encima de la etapa de codificación;Figure 11 shows an alternative to the encoder system of Figure 8, further including two frequency domain modification devices arranged respectively below and above the encoding stage;

la figura 12 es una representación gráfica de los resultados de la prueba de escucha a 96 kb/s a partir de seis sujetos que muestran diferentes opciones de compensación de complejidad-calidad para el cálculo o la aproximación del espectro de la MDST, en donde los puntos de datos etiquetados como “+” se refieren a la referencia oculta, “x” se refiere a una sujeción limitada en banda de 3.5 kHz, “*” se refiere al estéreo tradicional USAC (M/S o L/R), “□” se refiere a la codificación estéreo unificada en el dominio MDCT mediante la predicción compleja con la parte imaginaria del coeficiente de predicción deshabilitada (esto es, predicción de valor real, que no requiere la MDST), “■” se refiere a la codificación estéreo unificada en el dominio MDCT mediante predicción compleja usando una trama MDCT actual para calcular una aproximación de la MDST, “o” se refiere a la codificación estéreo unificada en el dominio MDCT mediante predicción compleja que usa las tramas MDCT actual y anterior para calcular una aproximación de la MDST y “• ” se refiere a la codificación estéreo unificada en el dominio MDCT mediante la predicción compleja que usa las tramas MDCT actual, anterior y siguiente para calcular la MDST; la figura 13 presenta los datos de la figura 12, sin embargo como puntuaciones diferenciales en relación a la codificación estéreo unificada en el dominio MDCT mediante la predicción compleja que usa la trama MDCT actual para calcular una aproximación de la MDST;Figure 12 is a graphical representation of 96 kb/s listening test results from six subjects showing different complexity-quality trade-off options for the MDST spectrum calculation or approximation, where the points Data labels labeled “+” refer to hidden reference, “x” refers to 3.5 kHz band limited clamp, “*” refers to USAC traditional stereo (M/S or L/R), “□ ” refers to unified stereo coding in the MDCT domain using complex prediction with the imaginary part of the prediction coefficient disabled (that is, real value prediction, which does not require MDST), “■” refers to stereo coding unified in the MDCT domain by complex prediction using a current MDCT frame to calculate an approximation of the MDST, “o” refers to unified stereo coding in the MDCT domain by complex prediction using the current and previous MDCT frames to calculate an approximation of MDST and “• ” refers to unified stereo coding in the MDCT domain by complex prediction using the current, previous, and next MDCT frames to compute the MDST; Figure 13 presents the data of Figure 12, however as differential scores relative to unified stereo coding in the MDCT domain using complex prediction using the current MDCT frame to compute an approximation of the MDST;

la figura 14 comprende los diagramas de bloques generalizados que muestran tres realizaciones de un sistema decodificador según las realizaciones de la invención;Fig. 14 comprises generalized block diagrams showing three embodiments of a decoder system according to embodiments of the invention;

la figura 15 es un diagrama de flujo que muestra un método de decodificación según una realización de la invención; yFig. 15 is a flowchart showing a decoding method according to an embodiment of the invention; and

la figura 16 es un diagrama de flujo que muestra un método de codificación.Fig. 16 is a flowchart showing a coding method.

Descripción detallada de realizacionesDetailed description of embodiments

I. Sistemas decodificadoresI. Decoding systems

La Figura 2 muestra, en forma de un diagrama de bloques generalizado, un sistema de decodificación para decodificar un flujo de bits que comprende al menos un valor de un coeficiente de predicción complejo a = aR iai y una representación de la MDCT de una señal estéreo que tiene unos canales M de mezcla descendente y D residual. Las partes real e imaginaria aR, ai del coeficiente de predicción se pueden cuantificar y/o codificar de manera conjunta. Sin embargo preferiblemente, las partes real e imaginaria se cuantifican de manera independiente y uniforme, normalmente con un tamaño de paso de 0,1 (número sin dimensión). La resolución de la banda de frecuencias usada para el coeficiente de predicción complejo no es necesariamente la misma que la resolución para las bandas de los factores de escala (sfb; esto es, un grupo de las líneas de la MDCT que usan el mismo tamaño de paso de cuantificación y rango de cuantificación de la MDCT) según el estándar MPEG. En concreto, la resolución de la banda de frecuencias para el coeficiente de predicción puede ser una que esté justificada de manera psico acústica, tal como la escala Bark. El demultiplexor 201 se adapta para extraer estas representaciones de la MDCT y el coeficiente de predicción (parte de la Información de Control como se indica en la figura) a partir del flujo de bits que se suministra a éste. En efecto, se puede codificar más información de control que simplemente el coeficiente de predicción complejo en el flujo de bits, por ejemplo, las instrucciones de si el flujo de bits se ha de decodificar en el modo de predicción o de no predicción, la información TNS, etc. La información TNS puede incluir valores de los parámetros TNS a ser aplicados por los filtros TNS (de síntesis) del sistema decodificador. Si se han de usar conjuntos idénticos de parámetros TNS para varios filtros TNS, tal como para ambos canales, es económico recibir esta información en la forma de un bit que indica dicha identidad de los conjuntos de parámetros en lugar de recibir los dos conjuntos de parámetros de manera independiente. Se puede incluir también información de si aplicar el TNS antes o después de la etapa de mezcla ascendente, según sea apropiado en base a, por ejemplo, una evaluación psico acústica de las dos opciones disponibles. Además, entonces la información de control puede indicar anchos de banda limitados de manera individual para la mezcla descendente y para las señales residuales. Para cada canal, las bandas de frecuencias por encima de un límite de ancho de banda no serán decodificadas pero se establecerán a cero. En ciertos casos, las bandas de frecuencias más altas tienen un contenido de energía tan bajo que se cuantifican como cero. La práctica normal (cf, el parámetro max_sfb en el estándar MPEG) ha sido usar la misma limitación de ancho de banda para tanto la mezcla descendente como las señales residuales. Sin embargo, la señal residual, en una mayor extensión que la señal de mezcla descendente, tiene su contenido de energía ubicado en las bandas de frecuencias inferiores. Por lo tanto, colocando un límite de ancho de banda superior dedicado en la señal residual, es posible una reducción de la tasa de bits con una pérdida de calidad no significativa. Por ejemplo, esto puede ser determinado por dos parámetros max_sfb independientes codificados en el flujo de bits, uno para la señal de mezcla descendente y otro para la señal residual.Figure 2 shows, in the form of a generalized block diagram, a decoding system for decoding a bit stream comprising at least one value of a complex prediction coefficient a = aR iai and an MDCT representation of a stereo signal. which has a downmix M and residual D channels. The real and imaginary parts aR, ai of the prediction coefficient can be quantized and/or coded accordingly. joint way. Preferably however, the real and imaginary parts are quantized independently and uniformly, typically with a step size of 0.1 (dimensionless number). The resolution of the frequency band used for the complex prediction coefficient is not necessarily the same as the resolution for the scale factor bands (sfb; that is, a group of MDCT lines using the same size of quantization step and quantization range of the MDCT) according to the MPEG standard. In particular, the frequency band resolution for the prediction coefficient may be one that is psychoacoustically justified, such as the Bark scale. The demultiplexer 201 is adapted to extract these MDCT representations and the prediction coefficient (part of the Control Information as indicated in the figure) from the bit stream supplied to it. In effect, more control information than just the complex prediction coefficient can be encoded in the bit stream, for example instructions whether the bit stream is to be decoded in prediction or non-prediction mode, information TNS etc The TNS information may include TNS parameter values to be applied by the TNS (synthesis) filters of the decoder system. If identical TNS parameter sets are to be used for several TNS filters, such as for both channels, it is economical to receive this information in the form of a bit indicating said identity of the parameter sets instead of receiving both parameter sets. independently. Information may also be included on whether to apply the TNS before or after the upmix step, as appropriate based on, for example, a psychoacoustic evaluation of the two available options. In addition, the control information can then indicate limited bandwidths individually for the downmix and for the residual signals. For each channel, frequency bands above a bandwidth limit will not be decoded but will be set to zero. In certain cases, the higher frequency bands have such a low energy content that they are quantized as zero. The normal practice (cf, the max_sfb parameter in the MPEG standard) has been to use the same bandwidth limitation for both the downmix and residual signals. However, the residual signal, to a greater extent than the downmix signal, has its energy content located in the lower frequency bands. Therefore, by placing a dedicated upper bandwidth limit on the residual signal, bit rate reduction is possible with no significant quality loss. For example, this can be determined by two independent max_sfb parameters encoded in the bitstream, one for the downmix signal and one for the residual signal.

En esta realización, la representación de la MDCT de la señal estéreo se segmenta en sucesivas tramas de tiempo (o bloques de tiempo) que comprenden un número fijo de puntos de datos (por ejemplo, 1024 puntos), uno de entre varios números fijos de puntos de datos (por ejemplo, 128 o 1024 puntos) o un número variable de puntos. Como es sabido por aquellos expertos en la técnica, la MDCT se muestrea de manera crítica. La salida del sistema de decodificación, indicada en la parte derecha del dibujo, es una señal estéreo en el dominio del tiempo que tiene canales izquierdo L y derecho R. Los módulos 202 de descuantificación se adaptan para manejar la entrada de flujo de bits al sistema de decodificación o, donde sea apropiado, dos flujos de bits obtenidos después de la demultiplexación de un flujo de bits original y correspondiente a cada uno de entre la mezcla descendente y los canales residuales. Las señales del canal descuantificado se proporcionan a un ensamblaje 203 de conmutación operable ya sea en un modo de paso o un modo de suma y diferencia correspondiente a las matrices de transformación respectivasIn this embodiment, the MDCT representation of the stereo signal is segmented into successive time frames (or time blocks) comprising a fixed number of data points (for example, 1024 points), one of several fixed numbers of data points. data points (for example, 128 or 1024 points) or a variable number of points. As is known to those skilled in the art, the MDCT is critically sampled. The output of the decoding system, indicated on the right side of the drawing, is a time-domain stereo signal having left L and right R channels. Dequantization modules 202 are adapted to handle the bitstream input to the system. or, where appropriate, two bitstreams obtained after demultiplexing of an original bitstream and corresponding to each of the downmix and residual channels. The dequantized channel signals are provided to a switching assembly 203 operable in either a step mode or a sum and difference mode corresponding to the respective transformation matrices.

yand

Como se discutirá de manera adicional en el siguiente párrafo, el sistema decodificador incluye un segundo ensamblaje 205 de conmutación. Tanto el ensamblaje 203 como 205 de conmutación, como muchos otros conmutadores y ensamblajes de conmutación, son operables de una forma selectiva en frecuencia. Esto permite la decodificación de una gran variedad de modos de decodificación, por ejemplo, la decodificación L/R o M/S dependiente de la frecuencia, como es sabido en la técnica relacionada. Por tanto, el decodificador según la invención se puede considerar un súper conjunto en relación con la técnica relacionada.As will be further discussed in the next paragraph, the decoder system includes a second switch assembly 205. Both switch assemblies 203 and 205, like many other switches and switch assemblies, are operable in a frequency selective manner. This allows decoding of a wide variety of decoding modes, eg, frequency dependent L/R or M/S decoding, as is known in the related art. Therefore, the decoder according to the invention can be considered a super set in relation to the related art.

Suponiendo por ahora que el ensamblaje 203 de conmutación está en el modo de paso, las señales del canal descuantificado son pasadas, en esta realización, a través de los respectivos filtros 204 TNS. Los filtros 204 TNS no son esenciales en el funcionamiento del sistema de decodificación y pueden ser reemplazados por elementos de paso. Después de esto, se suministra la señal al segundo ensamblaje 205 de conmutación que tiene la misma funcionalidad que el ensamblaje 203 de conmutación ubicado encima. Con las señales de entrada como se describe anteriormente y con el segundo ensamblaje 205 de conmutación fijado en su modo de paso, la salida del anterior es el canal de mezcla descendente y la señal del canal residual. La señal de mezcla descendente, aún representada mediante sus espectros MDCT sucesivos en el tiempo, se suministra a una transformada 206 de real a imaginario adaptada para calcular, basada en esto, los espectros MDST de la señal de mezcla descendente. En esta realización, una trama MDST se basa en tres tramas MDCT, una trama anterior, una trama actual (o contemporánea) y una trama posterior. Se indica de manera simbólica (Z-1, Z) que el lado de la entrada de la transformada 206 de real a imaginario comprende los componentes de retardo. Assuming for now that the switching assembly 203 is in pass-through mode, the dequantized channel signals are, in this embodiment, passed through the respective TNS filters 204. The TNS filters 204 are not essential in the operation of the decoding system and may be replaced by pass elements. After this, the signal is supplied to the second switch assembly 205 which has the same functionality as the switch assembly 203 located above. With the input signals as described above and with the second switch assembly 205 set to its pass-through mode, the output of the former is the downmix channel and residual channel signal. The downmix signal, still represented by its successive MDCT spectra in time, is supplied to a real-to-imaginary transform 206 adapted to calculate, based on this, the MDST spectra of the downmix signal. In this embodiment, an MDST frame is based on three MDCT frames, a previous frame, a current (or contemporaneous) frame, and a subsequent frame. It is symbolically indicated (Z-1,Z) that the input side of the real-to-imaginary transform 206 comprises the delay components.

La representación MDST de la señal de mezcla descendente obtenida a partir de la transformada 206 de real a imaginario es ponderada por la parte imaginaria aI del coeficiente de predicción y se añade a la representación MDCT de la señal de mezcla descendente ponderada mediante la parte real aR del coeficiente de predicción y la representación MDCT de la señal residual. Las dos sumas y multiplicaciones se realizan mediante los multiplicadores y sumadores 210, 211, que forman juntos (de manera funcional) un sumador ponderado, que se suministra con el valor del coeficiente a de predicción complejo codificado en el flujo de bits recibido inicialmente por el sistema decodificador. El coeficiente de predicción complejo se puede determinar una vez por cada trama de tiempo. Se puede determinar también más a menudo, tal como una vez por cada trama de tiempo. Se puede determinar también más a menudo, tal como una vez por cada banda de frecuencias dentro de una trama, siendo las bandas de frecuencias una partición motivada de manera psico acústica. Se puede determinar también de manera menos frecuente, como se discutió anteriormente en conexión con los sistemas de codificación proporcionados únicamente con propósitos ilustrativos y que no están cubiertos por las reivindicaciones. La transformada 206 de real a imaginario se sincroniza con el sumador ponderado de tal manera que una trama MDST actual de la señal del canal de mezcla descendente se combina con unas tramas contemporáneas de la MDCT de cada señal del canal de mezcla descendente y de la señal del canal residual. La suma de estas tres señales es una señal lateral S = Re{aM} D. En esta expresión, M incluye tanto las representaciones MDCT como MDST de la señal de mezcla descendente, es decir M = M^mdct- ÍM^mdst, mientras que D = D^mdctes de valor real. Por tanto, se obtiene una señal estéreo que tiene un canal de mezcla descendente y un canal lateral, a partir del cual una transformada 207 de suma y diferencia restaura los canales izquierdo y derecho como sigue:The MDST representation of the downmix signal obtained from the real-to-imaginary transform 206 is weighted by the imaginary part aI of the prediction coefficient and added to the MDCT representation of the downmix signal weighted by the real part aR of the prediction coefficient and the MDCT representation of the residual signal. The two additions and multiplications are performed by the multipliers and adders 210, 211, which together (functionally) form a weighted adder, which is supplied with the value of the complex prediction coefficient a encoded in the bit stream initially received by the decoder system. The complex prediction coefficient can be determined once per time frame. It can also be determined more often, such as once per time frame. It can also be determined more often, such as once per frequency band within a frame, the frequency bands being psychoacoustically motivated partitioning. It can also be determined less frequently, as discussed above in connection with coding systems provided for illustrative purposes only and not covered by the claims. The real-to-imaginary transform 206 is synchronized with the weighted adder such that a current MDST frame of the downmix channel signal is combined with contemporaneous MDCT frames of each downmix channel signal and signal of the residual channel. The sum of these three signals is a side signal S = Re{aM} D. In this expression, M includes both the MDCT and MDST representations of the downmix signal, that is, M = M ^mdct - ÍM ^mdst , while D = D ^mdct is real valued. Thus, a stereo signal is obtained having a downmix channel and a side channel, from which a sum and difference transform 207 restores the left and right channels as follows:

(L = M S ( L = MS

l he R = M - SR = M - S

Estas señales se representan en el dominio MDCT. El último paso del sistema de decodificación es aplicar una MDCT 209 inversa a cada uno de los canales, mediante lo cual se obtiene una representación en el dominio del tiempo de la señal estéreo izquierda/derecha.These signals are represented in the MDCT domain. The last step of the decoding system is to apply an inverse MDCT 209 to each of the channels, whereby a time domain representation of the left/right stereo signal is obtained.

Una posible implementación de la transformada 206 de real a imaginario se describe además en la patente de los EE.UU. 6.980.933 B2 del solicitante, como se observó anteriormente. Mediante la fórmula 41, la transformada se puede expresar como un filtro de respuesta al impulso finita, por ejemplo, para los puntos pares,A possible implementation of the real-to-imaginary transform 206 is further described in Applicant's US Patent 6,980,933 B2, as noted above. Using formula 41, the transform can be expressed as a finite impulse response filter, for example, for even points,

N-ln-l

S(2v) = ^ [ ( - D P+1^ (P ) + Xl l l (p')]hlj„ ( 2 v - V) S(2v) = ^ [ ( - D P+1^ (P ) + Xl ll ( p')]hlj„ ( 2 v - V)

p = 0p = 0

^N - 1 ^N -1

+ i í X i=0 * " C 2 í i ) M 2 v - 2 i - i ) '+ i í X i=0 * " C 2 í i ) M 2 v - 2 i - i ) '

donde S(2v) es el 2v-ésimo punto de datos MDST, Xi, Xii, Xiii son los datos MDCT de cada una de las tramas y N es la longitud de la trama. Además, hi, ⁱⁱⁱ, hii son respuestas al impulso que dependen de la función ventana aplicada, y son por lo tanto determinadas por cada elección de la función ventana, tal como rectangular, sinusoidal y Kaiser-Bessel-derivada, y para cada longitud de trama. La complejidad de este cálculo se puede reducir omitiendo aquellas respuestas al impulso que tienen un relativamente menor contenido de energía y contribuyen relativamente menos a los datos MDST. Como una alternativa o extensión a esta simplificación, las respuestas al impulso en sí se pueden acortar, por ejemplo, desde la longitud de trama total N a un número menor de puntos. Como ejemplo, la longitud de la respuesta al impulso se puede disminuir desde 1024 puntos (pulsaciones) a 10 puntos. El truncamiento más extremo que se puede considerar significativo eswhere S(2v) is the 2vth MDST data point, Xi, Xii, Xiii are the MDCT data of each of the frames and N is the length of the frame. Furthermore, hi, ⁱⁱⁱ , hii are impulse responses that depend on the applied window function, and are therefore determined for each choice of window function, such as rectangular, sinusoidal, and Kaiser-Bessel-derivative, and for each length of plot. The complexity of this calculation can be reduced by omitting those impulse responses that have relatively lower energy content and contribute relatively less to the MDST data. As an alternative or extension to this simplification, the impulse responses themselves can be shortened, for example, from the total frame length N to a smaller number of points. As an example, the impulse response length can be decreased from 1024 points (beats) to 10 points. The most extreme truncation that can be considered significant is

Otros enfoques directos se pueden encontrar en el documento de los EE.UU. 2005/0197831 A1.Other direct approaches can be found in US 2005/0197831 A1.

Es posible además reducir la cantidad de datos de entrada sobre los cuales se basa el cálculo. Para ilustrar, la transformada 206 de real a imaginario y sus conexiones por encima, que se indican como la parte denotada por “A” en el dibujo, pueden ser reemplazadas por una variable simplificada, dos de las cuales A' y A'' se muestran en la figura 10. La variable A' proporciona una representación imaginaría aproximada de la señal. Aquí, el cálculo de la MDST sólo toma la trama actual y la siguiente en cuenta. Con referencia a la fórmula anterior a este párrafo, esto puede ser efectuado mediante el establecimiento de X ⁱⁱⁱ(^p) = 0 para p = 0, ..., N-1 (el índice III denota la trama de tiempo siguiente). Ya que la variable A' no requiere el espectro MDCT de la trama siguiente como entrada, el cálculo de la MDST no incurre en ningún retardo de tiempo. Claramente, esta aproximación reduce en cierto modo la precisión de la señal MDST obtenida, pero puede implicar también que la energía de esta señal resulta reducida; el último hecho puede ser compensado mediante un aumento de ai como resultado de la naturaleza de la codificación de predicción.It is also possible to reduce the amount of input data on which the calculation is based. To illustrate, the real-to-imaginary transform 206 and its connections above, which are indicated as the part denoted by "A" in the drawing, can be replaced by a simplified variable, two of which A' and A'' are shown in Figure 10. The variable A' provides an approximate imaginary representation of the signal. Here, the MDST calculation only takes the current frame and the next one into account. Referring to the formula above this paragraph, this can be done by setting X ⁱⁱⁱ ( ^p ) = 0 for p = 0, ..., N-1 (index III denotes the next time frame). Since the variable A' does not require the MDCT spectrum of the next frame as input, the calculation of the MDST does not incur any time delay. Clearly, this approximation somewhat reduces the precision of the obtained MDST signal, but it may also imply that the energy of this signal is reduced; the latter fact can be compensated for by an increase in ai as a result of the nature of the prediction coding.

También se muestra en la figura 10 la variable A'', que usa como entrada sólo los datos MDCT para la trama de tiempo actual. La variable A'' produce probablemente una representación de la MDST menos precisa que la variable A'. Por otro lado, funciona con retardo cero, como la variable A', y tiene una menor complejidad computacional. Also shown in Figure 10 is the variable A'', which uses as input only the MDCT data for the current time frame. The variable A'' probably produces a less accurate representation of the MDST than the variable A'. On the other hand, it works with zero delay, like the variable A', and has less computational complexity.

Como ya se mencionó, las propiedades de la codificación de forma de onda no se ven afectadas siempre que se use la misma aproximación en el sistema codificador y en el sistema codificador.As already mentioned, the properties of the waveform coding are not affected as long as the same approximation is used in the encoder system and in the encoder system.

Se ha de observar, independientemente de si se usa la variable A, A' o A'' o cualquier desarrollo adicional de la misma, que sólo aquellas partes del espectro MDST para las cuales la parte imaginaria del coeficiente de predicción complejo no es cero ai t 0 necesitan ser calculadas. En circunstancias prácticas esto significará que el valor absoluto |ai| de la parte imaginaria del coeficiente es mayor que un valor de umbral predeterminado, lo que puede estar relacionado con el redondeo unitario del hardware usado. En caso de que la parte imaginaria del coeficiente sea cero para todas las bandas de frecuencias dentro de una trama de tiempo, no hay necesidad de calcular ningún dato MDST para esa trama. Por tanto, de manera adecuada, la transformada 206 de real a imaginario se adapta para responder a las ocurrencias de valores muy pequeños de |ai| no generando la salida de la MDST, mediante lo cual se pueden economizar los recursos de cálculo. En las realizaciones donde se usan más tramas que la actual para producir una trama de datos MDST, sin embargo, cualquieras unidades por encima de la transformada 206 deberían continuar funcionando de manera adecuada incluso aunque no sea necesario ningún espectro MDST - en concreto, el segundo ensamblaje 205 de conmutación debería seguir enviando espectros MDCT - por lo que hay disponibles suficientes datos de entrada para la transformada 206 de real a imaginario ya cuando ocurra la siguiente trama de tiempo asociada con un coeficiente de predicción distinto de cero; esto puede por supuesto ser el siguiente bloque de tiempo.Note, regardless of whether the variable A, A' or A'' or any further development thereof is used, that only those parts of the MDST spectrum for which the imaginary part of the complex prediction coefficient is not zero ai t 0 need to be computed. In practical circumstances this will mean that the absolute value |ai| of the imaginary part of the coefficient is greater than a predetermined threshold value, which may be related to unit rounding of the used hardware. In case the imaginary part of the coefficient is zero for all frequency bands within a time frame, there is no need to compute any MDST data for that frame. Thus, appropriately, the real-to-imaginary transform 206 adapts to respond to occurrences of very small values of |ai| not generating the output of the MDST, whereby the calculation resources can be saved. In implementations where more frames than the current one are used to produce an MDST data frame, however, any units above transform 206 should continue to function properly even if no MDST spectrum is needed - specifically, the second switching assembly 205 should continue to send MDCT spectra - so that sufficient input data is available for the real-to-imaginary transform 206 already when the next time frame associated with a non-zero prediction coefficient occurs; this can of course be the next block of time.

Volviendo a la figura 2, la función del sistema de decodificación se ha descrito bajo la suposición de que ambos ensamblajes 203, 205 de conmutación se fijan en sus respectivos modos de paso. Como se discutirá ahora, el sistema decodificador puede decodificar también las señales que no están codificadas por predicción. Para este uso, el segundo ensamblaje 205 de conmutación se fijará en su modo suma y diferencia y de manera adecuada, como se indica en el dibujo, una disposición 208 selectora se fijará en su posición inferior, asegurando de este modo que las señales se proporcionen de manera directa a la transformada 209 inversa desde un punto de origen entre los filtros 204 de TNS y el segundo ensamblaje 205 de conmutación. Para asegurar la correcta decodificación, la señal adecuada tiene una forma L/R en el punto de origen. Por lo tanto, para asegurar que la transformada de real a imaginario se suministra con la señal central (esto es, la mezcla descendente) correcta en todo momento (en lugar de, de manera intermitente mediante una señal izquierda), el segundo ensamblaje 205 de conmutación se fija preferiblemente en su modo de suma y diferencia durante la decodificación de una señal estéreo no codificada por predicción. Como se observa anteriormente, la codificación de predicción puede ser reemplazada mediante codificación directa o conjunta convencional para ciertas tramas en base a, por ejemplo, una decisión entre la tasa de datos o la calidad del audio. El resultado de dicha decisión se puede comunicar desde el codificador al decodificador de varias maneras, por ejemplo, mediante el valor de un bit indicador dedicado en cada trama, o mediante la ausencia o la presencia de un valor del coeficiente de predicción. Habiendo establecido estos hechos, el rol del primer ensamblaje 203 de conmutación se puede conseguir fácilmente. De hecho, en el modo de codificación de no predicción, el sistema decodificador puede procesar ambas señales según la codificación estéreo (L/R) directa o la codificación (M/S) conjunta, y haciendo funcionar el primer ensamblaje 203 de conmutación ya sea en el modo de paso o de suma y diferencia, es posible asegurar que el punto de origen esté siempre provisto con una señal codificada de manera directa. Claramente, el ensamblaje 203 de conmutación cuando funciona como una etapa de suma y diferencia convierte una señal de entrada en forma M/S en una señal de salida (suministrada a los filtros 204 TNS opcionales) en forma L/R.Returning to Figure 2, the function of the decoding system has been described under the assumption that both switch assemblies 203, 205 are set to their respective pitch modes. As will now be discussed, the decoding system may also decode signals that are not prediction encoded. For this use, the second switch assembly 205 will be set in its sum and difference mode and suitably, as indicated in the drawing, a selector arrangement 208 will be set in its lower position, thus ensuring that the signals are provided. directly to the inverse transform 209 from an origin point between the TNS filters 204 and the second switching assembly 205. To ensure correct decoding, the proper signal has an L/R shape at the point of origin. Therefore, to ensure that the real-to-imaginary transform is supplied with the correct center (i.e., downmix) signal at all times (instead of, intermittently, by a left signal), the second assembly 205 of switching is preferably set to its sum and difference mode during decoding of a prediction uncoded stereo signal. As noted above, prediction coding can be replaced by conventional forward or joint coding for certain frames based on, for example, a decision between data rate or audio quality. The result of such a decision can be communicated from the encoder to the decoder in various ways, for example, by the value of a dedicated flag bit in each frame, or by the absence or presence of a prediction coefficient value. Having established these facts, the role of the first switch assembly 203 can be easily achieved. In fact, in the non-prediction coding mode, the decoder system can process both signals according to direct stereo (L/R) coding or joint (M/S) coding, and operating the first switching assembly 203 either in step or sum and difference mode, it is possible to ensure that the point of origin is always provided with a directly encoded signal. Clearly, the switching assembly 203 when functioning as a sum and difference stage converts an input signal in M/S form to an output signal (supplied to optional TNS filters 204) in L/R form.

El sistema decodificador recibe una señal si una trama de tiempo concreta ha de ser decodificada por el sistema decodificador en el modo de codificación de predicción o el modo de codificación de no predicción. El modo de no predicción puede ser señalizado por el valor de un bit indicador dedicado en cada trama o mediante la ausencia (o el valor cero) del coeficiente de predicción. El modo de predicción se puede comunicar de manera análoga. Una implementación particularmente ventajosa, que permite retroceder sin ninguna sobrecarga, hace uso de un cuarto valor reservado del campo de dos bits ms_mask_present (véase la AAC MPEG-2, documento ISO/IEC 13818-7), que se transmite por trama de tiempo y se define como sigue:The decoder system receives a signal whether a particular time frame is to be decoded by the decoder system in the prediction coding mode or the non-prediction coding mode. The non-prediction mode can be signaled by the value of a dedicated indicator bit in each frame or by the absence (or zero value) of the prediction coefficient. The prediction mode can be reported in an analogous manner. A particularly advantageous implementation, which allows backtracking without any overhead, makes use of a fourth reserved value of the two-bit ms_mask_present field (see MPEG-2 AAC, document ISO/IEC 13818-7), which is transmitted per time frame and is defined as follows:

Redefiniendo el valor 11 para significar “codificación de predicción compleja”, el decodificador puede funcionar en todos los modos tradicionales, concretamente con codificación M/S y L/R, sin ninguna penalización y es capaz aún de recibir una señal que indique el modo de codificación de predicción compleja para las tramas relevantes. By redefining the value 11 to mean "complex prediction encoding", the decoder can operate in all traditional modes, namely M/S and L/R encoding, without any penalty and is still capable of receiving a signal indicating the mode of prediction. complex prediction coding for the relevant frames.

La figura 4 muestra un sistema decodificador de la misma estructura general como el mostrado en la figura 2 pero incluyendo, sin embargo, al menos dos estructuras diferentes. En primer lugar, el sistema de la figura 4 incluye los conmutadores 404, 411 que permiten la aplicación de algún paso de procesamiento que involucre la modificación en el dominio de la frecuencia por encima y por debajo de la etapa de mezcla ascendente. Esto se logra, por un lado, mediante un primer conjunto de modificadores 403 en el dominio de la frecuencia (dibujados con filtros de síntesis TNS en esta figura) proporcionado junto con el primer conmutador 404 por debajo de los módulos 401 de descuantificación y un primer ensamblaje 402 de conmutación pero por encima de un segundo ensamblaje 405 de conmutación dispuesto inmediatamente por encima de la etapa 406, 407, 408, 409 de mezcla ascendente. Por otro lado, el sistema decodificador incluye un segundo conjunto de modificadores 410 en el dominio de la frecuencia proporcionados junto con un segundo conmutador 411 por debajo de la etapa 406, 407, 408, 409 de mezcla ascendente pero por encima de una etapa 412 de transformada inversa. De manera ventajosa, como se indica en el dibujo, cada modificador en el dominio de la frecuencia se dispone en paralelo con una línea de paso que se conecta por encima del lado de entrada del modificador en el dominio de la frecuencia y se conecta por debajo del conmutador asociado. En virtud de esta estructura, el modificador en el dominio de la frecuencia se suministra con los datos de señal en todo momento, permitiendo el procesamiento en el dominio de la frecuencia en base a más tramas de tiempo que sólo la actual. La decisión de si aplicar el primer 403 o el segundo conjunto de modificadores 410 en el dominio del tiempo puede ser tomada por el codificador (y transportada en el flujo de bits), o puede estar basada en si se aplica la codificación de predicción, o puede estar basada en algún otro criterio encontrado adecuado en las circunstancias prácticas. Como ejemplo, si el modificador en el dominio de la frecuencia son filtros TNS, entonces puede ser ventajoso usar el primer conjunto 403 para algunos tipos de señales, mientras que el segundo conjunto 410 puede ser ventajoso para otros tipos de señales. Si el resultado de esta selección se codifica en el flujo de bits, entonces por consiguiente el sistema decodificador activará el conjunto respectivo de filtros TNS. Figure 4 shows a decoder system of the same general structure as that shown in Figure 2 but including, however, at least two different structures. First, the system of Figure 4 includes switches 404, 411 that allow the application of some processing step involving frequency domain modification above and below the upmix stage. This is achieved, on the one hand, by means of a first set of modifiers 403 in the frequency domain (drawn with TNS synthesis filters in this figure) provided together with the first switch 404 below the dequantization modules 401 and a first switching assembly 402 but above a second switching assembly 405 disposed immediately above the upmix stage 406, 407, 408, 409. On the other hand, the decoder system includes a second set of frequency domain modifiers 410 provided in conjunction with a second switch 411 below the upmix stage 406, 407, 408, 409 but above an upmix stage 412. inverse transform. Advantageously, as indicated in the drawing, each frequency domain modifier is arranged in parallel with a feed line which is connected above the input side of the frequency domain modifier and connected below. of the associated switch. By virtue of this structure, the frequency domain modifier is supplied with the signal data at all times, allowing frequency domain processing based on more time frames than just the current one. The decision whether to apply the first 403 or the second set of modifiers 410 in the time domain may be made by the encoder (and carried in the bitstream), or may be based on whether prediction coding is applied, or it may be based on some other criterion found suitable in the practical circumstances. As an example, if the frequency domain modifier is TNS filters, then it may be advantageous to use the first set 403 for some types of signals, while the second set 410 may be advantageous for other types of signals. If the result of this selection is encoded in the bitstream, then the decoder system will therefore activate the respective set of TNS filters.

Para facilitar el entendimiento del sistema decodificador mostrado en la figura 4, se observa de manera explícita que la decodificación de una señal codificada de manera directa (L/R) tiene lugar cuando a = 0 (lo que implica que la pseudo-L/R y la L/R son idénticas y que los canales lateral y residual no difieren), el primer ensamblaje 402 de conmutación está en el modo de paso, el segundo ensamblaje de conmutación está en el modo de suma y diferencia, provocando de este modo que la señal tenga la forma M/S entre el segundo ensamblaje 405 de conmutación y la etapa 409 de suma y diferencia de la etapa de mezcla ascendente. Ya que la etapa de mezcla ascendente efectivamente será una etapa de paso, es inmaterial si (usando los respectivos conmutadores 404, 411) se activa el primer o el segundo conjunto de modificadores en el dominio de la frecuencia.To facilitate understanding of the decoder system shown in Figure 4, it is explicitly noted that decoding of a direct encoded signal (L/R) takes place when a = 0 (implying that the pseudo-L/R and L/R are identical and that the side and residual channels do not differ), the first switch assembly 402 is in the pass mode, the second switch assembly is in the sum and difference mode, thereby causing the signal is in the form M/S between the second switching assembly 405 and the sum and difference stage 409 of the upmix stage. Since the upmix stage will effectively be a pass stage, it is immaterial whether (using the respective switches 404, 411) the first or second set of frequency domain modifiers is activated.

La figura 3 ilustra un sistema decodificador según una realización de la invención que, en relación con las figuras 2 y 4, representa un enfoque diferente a la provisión de los datos MDST requeridos para la mezcla ascendente. Como los sistemas decodificadores ya descritos, el sistema de la figura 3 comprende los módulos 301 de descuantificación, un primer ensamblaje 302 de conmutación operable en ya sea un modo de paso o de suma y diferencia y los filtros 303 TNS (de síntesis), que se disponen en serie desde el extremo de la entrada del sistema decodificador. Los módulos por debajo de este punto se utilizan de manera selectiva por medio de dos segundos conmutadores 305, 310, que se hacen funcionar preferiblemente de manera conjunta por lo que ambos están ya sea en sus posiciones superiores o en sus posiciones inferiores, como se indica en la figura. En el extremo de salida del sistema decodificador, hay una etapa 312 de suma y diferencia e, inmediatamente por encima de esta, dos módulos 306, 311 de MDCT inversa para transformar una representación en el dominio MDCT de cada canal en una representación en el dominio del tiempo.Figure 3 illustrates a decoder system according to one embodiment of the invention which, in relation to Figures 2 and 4, represents a different approach to the provision of the MDST data required for upmixing. Like the decoder systems already described, the system of Figure 3 comprises dequantization modules 301, a first switching assembly 302 operable in either a step or sum and difference mode, and TNS (synthesis) filters 303, which they are arranged in series from the input end of the decoder system. Modules below this point are used selectively by means of two second switches 305, 310, which are preferably co-operated so that both are either in their upper or lower positions, as indicated. in the figure. At the output end of the decoder system, there is a sum and difference stage 312 and, immediately above this, two inverse MDCT modules 306, 311 for transforming an MDCT-domain representation of each channel into an inverse-domain representation of each channel. weather.

En la decodificación de predicción compleja, donde el sistema decodificador se suministra con una codificación de flujo de bits una señal de mezcla descendente/residual estéreo y valores de un coeficiente de predicción complejo, el primer ensamblaje 302 de conmutación se fija en su modo de paso y los segundos conmutadores 305, 310 se fijan en su posición superior. Por debajo de los filtros TNS, los dos canales de la señal estéreo (descuantificada, filtrada TNS, MDCT) se procesan de diferentes maneras. El canal de mezcla descendente se proporciona, por otro lado, a un multiplicador y un sumador 308, que suma la representación MDCT del canal de mezcla descendente ponderada por la parte real aR del coeficiente de predicción a la representación MDCT del canal residual, y, por otro lado, a uno 306 de los módulos de transformada MDCT. La representación en el dominio del tiempo del canal M de mezcla descendente, que es la salida del módulo 306 de transformada MDCT inversa, se suministra tanto a la etapa 312 de suma y diferencia final como al módulo 307 de transformada MDST. Este doble uso de la representación en el dominio del tiempo del canal de mezcla descendente es ventajoso desde el punto de vista de la complejidad computacional. La representación MDST del canal de mezcla descendente así obtenida se suministra a un multiplicador y sumador 309 adicional, que después de ponderar mediante la parte imaginaria ai del coeficiente de predicción añade esta señal a la combinación lineal emitida desde el sumador 308; por tanto, la salida del sumador 309 es una señal de canal lateral, S = Re{aM} D. De manera similar al sistema decodificador mostrado en la figura 2, los multiplicadores y sumadores 308, 309 pueden ser combinados fácilmente para formar un sumador multi señal ponderado con entradas las representaciones MDCT y MDST de la señal de mezcla descendente, la representación MDCT de la señal residual y el valor del coeficiente de predicción complejo. Por debajo de este punto en la presente realización, sólo se mantiene un paso a través del módulo 311 de transformada MDCT antes de que se suministre la señal del canal lateral a la etapa 312 final de suma y diferencia.In complex prediction decoding, where the decoder system is supplied with a bitstream encoding a stereo downmix/residual signal and complex prediction coefficient values, the first switching assembly 302 is set to its pass mode. and the second switches 305, 310 are set in their upper position. Below the TNS filters, the two channels of the stereo signal (dequantized, TNS filtered, MDCT) are processed in different ways. The downmix channel is provided, on the other hand, to a multiplier and adder 308, which adds the MDCT representation of the downmix channel weighted by the real part aR of the prediction coefficient to the MDCT representation of the residual channel, and, on the other hand, to one 306 of the MDCT transform modules. The time domain representation of the downmix channel M, which is the output of the inverse MDCT transform module 306, is supplied to both the final sum and difference stage 312 and the MDST transform module 307. This dual use of the time-domain representation of the downmix channel is advantageous from the standpoint of computational complexity. The thus obtained MDST representation of the downmix channel is supplied to a further multiplier and adder 309, which after weighting by the imaginary part ai of the prediction coefficient adds this signal to the linear combination output from the adder 308; therefore, the output of adder 309 is a side channel signal, S = Re{aM} D. Similar to the decoder system shown in Figure 2, multipliers and adders 308, 309 can easily be combined to form an adder. multi-signal weighted with inputs the MDCT and MDST representations of the downmix signal, the MDCT representation of the residual signal, and the value of the complex prediction coefficient. Below this point in the present embodiment, only one pass through the MDCT transform module 311 is maintained before the side channel signal is supplied to the sum and difference final stage 312.

La sincronización necesaria en el sistema decodificador se puede lograr aplicando las mismas longitudes de transformadas y formas de ventana a ambos módulos 306, 311 de transformada MDCT inversa, como es ya la práctica en la codificación M/S y L/R selectiva en frecuencia. Un retardo de una trama es introducido mediante la combinación de ciertas realizaciones del módulo 306 MDCT inversa y las realizaciones del módulo 307 MDST. Por lo tanto, se proporcionan cinco bloques 313 de retardo opcionales (o instrucciones de software a este efecto en una implementación informática), por lo que la parte del sistema ubicada a la derecha de la línea discontinua se puede retrasar en una trama en relación a la parte izquierda cuando sea necesario. Aparentemente todas las intersecciones entre la línea discontinua y las líneas de conexión se proporcionan con bloques de retardo, con la excepción de la línea de conexión entre el módulo 306 de MDCT inversa y el módulo 307 de transformada MDST, que es donde surge el retardo que requiere compensación.The necessary synchronization in the decoder system can be achieved by applying the same transform lengths and window shapes to both inverse MDCT transform modules 306, 311, as is already the practice in frequency selective M/S and L/R coding. A one frame delay is introduced by combining certain embodiments of the inverse MDCT module 306 and embodiments of the MDST module 307. Therefore, five optional delay blocks 313 (or software instructions to this effect in a computer implementation) are provided, whereby the part of the system located to the right of the dashed line can be delayed by one frame relative to the left side when necessary. Apparently all intersections between the dashed line and the connecting lines are provided with delay blocks, with the exception of the connecting line between the inverse MDCT module 306 and the MDST transform module 307, which is where the delay arises. requires compensation.

El cálculo de los datos MDST para una trama de tiempo requiere los datos de una trama de la representación en el dominio del tiempo. Sin embargo, la transformada MDCT inversa se basa en una (la actual), dos (preferiblemente; la anterior y la actual) o tres (preferiblemente: la anterior, la actual y la posterior) tramas consecutivas. En virtud de la bien conocida cancelación del efecto de solape en el dominio del tiempo (TDAC) asociado con la MDCT, la opción de tres tramas consigue un solapamiento completo de las tramas de entrada y por tanto proporciona la mejor (y posiblemente perfecta) precisión, al menos en las tramas que contienen el efecto de solape en el dominio del tiempo. Claramente, la MDCT inversa de tres tramas funciona con una trama de retardo. Aceptando usar una aproximación en el dominio del tiempo aproximada como entrada a la transformada MDST, se puede evitar este retardo y de este modo la necesidad de compensar los retardos entre las diferentes partes del sistema decodificador. En la opción de dos tramas, se produce el solapamiento/adición que permite la TDAC en la primera mitad de la trama, y el efecto de solape puede estar presente sólo en la última mitad. En la opción de una trama, la ausencia de la TDAC implica que el efecto de solape puede ocurrir en toda la trama; sin embargo, una representación MDST conseguida de esta manera, y usada como una señal intermedia en la codificación de predicción compleja, puede aún proporcionar una calidad satisfactoria.The computation of the MDST data for a time frame requires the data of a time domain representation frame. However, the inverse MDCT transform is based on one (current), two (preferably previous and current) or three (preferably previous, current and subsequent) consecutive frames. By virtue of the well-known time-domain aliasing cancellation (TDAC) associated with MDCT, the three-frame option achieves complete overlap of the input frames and thus provides the best (and possibly perfect) accuracy. , at least in the frames that contain the aliasing effect in the time domain. Clearly, the three-frame inverse MDCT works with one frame of delay. By agreeing to use a rough time domain approximation as input to the MDST transform, this delay and thus the need to compensate for delays between different parts of the decoder system can be avoided. In the two-frame option, the overlap/addition that TDAC allows occurs in the first half of the frame, and the overlap effect may only be present in the last half. In the one frame option, the absence of the TDAC implies that the aliasing effect can occur in the whole frame; however, an MDST representation achieved in this way, and used as an intermediate signal in complex prediction coding, can still provide satisfactory quality.

El sistema de decodificación ilustrado en la figura 3 se puede hacer funcionar también en dos modos de decodificación de no predicción. Para decodificar una señal estéreo codificada L/R de manera directa, los segundos conmutadores 305, 310 se fijan en la posición inferior y el primer ensamblaje 302 de conmutación se fija en el modo de paso. Por tanto, la señal tiene la forma L/R por encima de la etapa 304 de suma y diferencia, que la convierte en le forma M/S, tras lo cual tiene lugar una transformada MDCT inversa y una operación de suma y diferencia final. Para decodificar una señal estéreo proporcionada en la forma codificada M/S de manera conjunta, el primer ensamblaje 302 de conmutación se fija en cambio en su modo de suma y diferencia, por lo que la señal tiene la forma L/R entre el primer ensamblaje 302 de conmutación y la etapa 304 de suma y diferencia, que es a menudo más adecuado desde el punto de vista del filtrado TNS de lo que sería una forma M/S. El procesamiento por debajo de la etapa 304 de suma y diferencia es idéntico al del caso de la decodificación L/R directa.The decoding system illustrated in Figure 3 can also be operated in two non-predictive decoding modes. To decode an L/R encoded stereo signal directly, the second switches 305, 310 are set to the down position and the first switch assembly 302 is set to pass-through mode. Thus, the signal has the L/R form above the sum and difference stage 304, which converts it to the M/S form, after which an inverse MDCT transform and a final sum and difference operation take place. To decode a stereo signal provided in the jointly M/S encoded form, the first switching assembly 302 is instead set to its sum and difference mode, whereby the signal has the L/R form between the first assembly switching 302 and sum and difference stage 304, which is often more suitable from a TNS filtering point of view than an M/S form would be. The processing below the sum and difference step 304 is identical to that in the case of direct L/R decoding.

La figura 14 se compone de tres diagramas de bloques generalizados de decodificadores según las realizaciones de la invención. Al contrario de los otros diversos diagramas de bloques que acompañan esta solicitud, una línea de conexión en la figura 14 puede simbolizar una señal multi canal. En concreto, dicha línea de conexión se puede disponer para transmitir una señal estéreo que comprende los canales izquierdo/derecho, central/lateral, de mezcla descendente/residual, pseudo izquierdo/pseudo derecho y otras combinaciones.Figure 14 is composed of three generalized block diagrams of decoders according to embodiments of the invention. Contrary to the various other block diagrams accompanying this application, a connecting line in Figure 14 can symbolize a multi-channel signal. Specifically, said connecting line may be arranged to transmit a stereo signal comprising left/right, center/side, downmix/residual, pseudo-left/pseudo-right channels and other combinations.

La figura 14A muestra un sistema decodificador para decodificar una representación en el dominio de la frecuencia (indicada, para el propósito de esta figura, como una representación MDCT) de una señal de entrada. El sistema decodificador se adapta para suministrar como su salida una representación en el dominio del tiempo de una señal estéreo, que se genera en base a la señal de entrada. Para ser capaz de decodificar una señal de entrada codificada mediante codificación estéreo de predicción compleja, se proporciona el sistema decodificador con una etapa 1410 de mezcla ascendente. Sin embargo, es capaz también de manejar una señal de entrada codificada en otros formatos y posiblemente, que alterne entre varios formatos de codificación en el tiempo, por ejemplo, una secuencia de tramas de tiempo codificadas mediante codificación de predicción compleja puede ser seguida por una parte de tiempo codificada mediante codificación izquierda/derecha directa. La capacidad del sistema decodificador para manejar los diferentes formatos de codificación es lograda mediante la provisión de una línea de conexión (paso) dispuesta en paralelo con dicha etapa 1410 de mezcla ascendente. Por medio de un conmutador 1411 es posible seleccionar si la salida de la etapa 1410 de mezcla ascendente (posición de conmutador inferior en la figura) o la señal no procesada disponible en la línea de conexión (posición de conmutador superior en la figura) se ha de suministrar a los módulos decodificadores dispuestos por debajo. En esta realización, se dispone un módulo 1412 de MDCT inversa por debajo del conmutador, que transforma la representación MDCT de una señal en una representación en el dominio del tiempo. Como ejemplo, la señal suministrada en la etapa 1410 de mezcla ascendente puede ser una señal estéreo en forma de mezcla descendente/residual. La etapa 1410 de mezcla ascendente se adapta para derivar una señal lateral y para realizar una operación de suma y diferencia de modo que se emita una señal estéreo izquierda/derecha (en el dominio MDCT).Figure 14A shows a decoder system for decoding a frequency domain representation (indicated, for the purpose of this figure, as an MDCT representation) of an input signal. The decoder system is adapted to provide as its output a time domain representation of a stereo signal, which is generated based on the input signal. To be able to decode an input signal encoded by complex prediction stereo coding, the decoder system is provided with an upmix stage 1410. However, it is also capable of handling an input signal encoded in other formats and possibly switching between various coding formats in time, for example a sequence of time frames encoded by complex prediction coding may be followed by a part of time encoded by direct left/right encoding. The ability of the decoder system to handle the different coding formats is achieved by providing a connecting line (pass) arranged in parallel with said upmix stage 1410. By means of a switch 1411 it is possible to select whether the output of the upmix stage 1410 (lower switch position in the figure) or the raw signal available on the feeder (upper switch position in the figure) has been to supply the decoder modules arranged below. In this embodiment, an inverse MDCT module 1412 is arranged below the switch, which transforms the MDCT representation of a signal into a time domain representation. As an example, the signal supplied to the upmix stage 1410 may be a stereo signal in the form of a downmix/residual. The upmix stage 1410 is adapted to derive a side signal and to perform a sum and difference operation so that a left/right stereo signal is output (in the MDCT domain).

La figura 14B muestra un sistema decodificador similar al de la figura 14A. El presente sistema se adapta para recibir un flujo de bits como su señal de entrada. El flujo de bits es inicialmente procesado mediante un módulo 1420 demultiplexor y de descuantificación combinado, que proporciona, como una primera señal de salida, una representación MDCT de una señal estéreo multi canal para un tratamiento adicional, como es determinado por la posición de un conmutador 1422 que tiene una funcionalidad análoga que el conmutador 1411 de la figura 14A. Más precisamente, el conmutador 1422 determina si la primera salida desde el demultiplexor y descuantificador ha de ser procesada por una etapa 1421 de mezcla ascendente y un módulo 1423 de MDCT inversa (posición inferior) o por el módulo 1423 de MDC^tinversa sólo (posición superior). El módulo 1420 demultiplexor y de descuantificación combinado emite la información de control también. En el caso actual, la información de control asociada con la señal estéreo puede incluir los datos que indican si es adecuada la posición superior o inferior del conmutador 1422 para decodificar la señal o, de manera más abstracta, según a qué formato de codificación se ha de decodificar la señal estéreo. La información de control puede incluir parámetros para ajustar las propiedades de la etapa 1421 de mezcla ascendente, por ejemplo, un valor del coeficiente de predicción complejo a usado en la codificación de predicción compleja como ya se describió anteriormente.Figure 14B shows a decoder system similar to that of Figure 14A. The present system is adapted to receive a bit stream as its input signal. The bit stream is initially processed by a combined demultiplexer and dequantization module 1420, which provides, as a first output signal, an MDCT representation of a multi-channel stereo signal for further processing, as determined by the position of a switch. 1422 having analogous functionality to switch 1411 of Figure 14A. More precisely, switch 1422 determines if the first output from the demultiplexer and dequantizer is to be processed by an upmix stage 1421 and reverse MDCT module 1423 (lower position) or by reverse MDC ^t module 1423 only (upper position). The combined demultiplexer and dequantization module 1420 outputs the control information as well. In the current case, the control information associated with the stereo signal may include data indicating whether the upper or lower position of switch 1422 is appropriate for decoding the signal or, more abstractly, depending on which encoding format it has been converted to. to decode the stereo signal. The control information may include parameters for adjusting the properties of the upmix stage 1421, eg, a complex prediction coefficient value a used in complex prediction coding as already described above.

La figura 14C muestra un sistema decodificador que, además de las entidades análogas a aquellas de la figura 14B, comprende un primer y un segundo dispositivos 1431, 1435 de modificación en el dominio de la frecuencia dispuestos respectivamente por encima y por debajo de la etapa 1433 de mezcla ascendente. Para el propósito de esta figura, cada dispositivo de modificación en el dominio de la frecuencia es ilustrado por un filtro TNS. Sin embargo, por el término dispositivo de modificación en el dominio de la frecuencia se podría entender también otros procesos distintos del filtrado TNS que son susceptibles de ser aplicados bien antes o después de la etapa de mezcla ascendente. Ejemplos de modificaciones en el dominio de la frecuencia incluyen la predicción, la adición de ruido, la extensión del ancho de banda, y el procesamiento no lineal. Las consideraciones psico acústicas y razones similares, que posiblemente incluyen las propiedades de la señal a ser procesada y/o la configuración o los ajustes de dicho dispositivo de modificación en el dominio de la frecuencia, a veces indican que es ventajoso aplicar dicha modificación en el dominio de la frecuencia por encima de la etapa 1433 de mezcla ascendente en lugar de por debajo. En otros casos, se puede establecer mediante consideraciones similares que es preferible la posición por debajo de la modificación en el dominio de la frecuencia a la de por encima. Por medio de los conmutadores 1432, 1436, los dispositivos 1431, 1435 de modificación en el dominio de la frecuencia se pueden activar de manera selectiva de modo que, en respuesta a la información de control, el sistema decodificador puede seleccionar la configuración deseada. Como ejemplo, la figura 14C muestra una configuración en la que la señal estéreo del módulo 1430 demultiplexador y de descuantificación combinado es procesado inicialmente mediante un primer dispositivo 1431 de modificación en el dominio de la frecuencia, es después suministrado a la etapa 1433 de mezcla ascendente y es finalmente enviado de manera directa a un módulo 1437 de MDCT inversa, sin pasar a través del segundo dispositivo 1435 de modificación en el dominio de la frecuencia. Como se explica en la sección Compendio, esta configuración se prefiere sobre la opción de realizar el TNS después de la mezcla superior en la codificación de predicción compleja.Figure 14C shows a decoder system which, in addition to entities analogous to those of Figure 14B, comprises first and second frequency domain modification devices 1431, 1435 arranged respectively above and below stage 1433. upmix. For the purpose of this figure, each frequency domain modification device is illustrated by a TNS filter. However, by the term frequency domain modifying device one could also understand processes other than TNS filtering that are likely to be applied either before or after the upmixing step. Examples of frequency domain modifications include prediction, noise addition, bandwidth extension, and nonlinear processing. Psychoacoustic considerations and similar reasons, possibly including the properties of the signal to be processed and/or the configuration or settings of such a frequency-domain modifying device, sometimes indicate that it is advantageous to apply such modification in the frequency domain above the upmix stage 1433 instead of below it. In other cases, it can be established by similar considerations that the position below the change in the frequency domain is preferable to that above it. By means of switches 1432, 1436, frequency domain modification devices 1431, 1435 can be selectively activated so that, in response to control information, the decoder system can select the desired configuration. As an example, Fig. 14C shows a configuration in which the stereo signal from the combined demultiplexer and dequantization module 1430 is initially processed by a first frequency domain shifter 1431, then supplied to the upmix stage 1433. and is finally sent directly to a reverse MDCT module 1437, without passing through the second frequency domain modification device 1435. As explained in the Summary section, this configuration is preferred over the option to perform the TNS after upmixing in complex prediction coding.

II. Sistemas codificadoresII. encoding systems

Esta sección describe diversos sistemas codificadores. La descripción de los diversos sistemas codificadores es únicamente con propósitos ilustrativos, y los diversos sistemas codificadores no están cubiertos por las reivindicaciones.This section describes various encoding systems. The description of the various encoding systems is for illustrative purposes only, and the various encoding systems are not covered by the claims.

Un sistema codificador se describirá ahora con referencia a la figura 5, que es un diagrama de bloques generalizado de un sistema codificador para codificar una señal estéreo izquierda/derecha (L/R) como un flujo de bits de salida mediante la codificación de predicción compleja. El sistema codificador recibe una representación en el dominio del tiempo o en el dominio de la frecuencia de la señal y la suministra a tanto una etapa de mezcla descendente como a un estimador de coeficientes de predicción. Las partes real e imaginaria de los coeficientes de predicción se proporcionan a la etapa de mezcla descendente para controlar la conversión de los canales izquierdo y derecho en los canales de mezcla descendente y residual, que se suministran después a un multiplexador MUX final. Si la señal no se suministró como una representación en el dominio de la frecuencia al codificador, se transforma en dicha representación en la etapa de mezcla descendente o en el multiplexador.An encoder system will now be described with reference to Figure 5, which is a generalized block diagram of an encoder system for encoding a left/right (L/R) stereo signal as an output bit stream using complex prediction coding. . The encoder system receives a time-domain or frequency-domain representation of the signal and supplies it to both a downmix stage and a prediction coefficient estimator. The real and imaginary parts of the prediction coefficients are provided to the downmix stage to control the conversion of the left and right channels into downmix and residual channels, which are then supplied to a final MUX multiplexer. If the signal was not supplied as a frequency domain representation to the encoder, it is transformed into such a representation in the downmix stage or multiplexer.

Uno de los principios de la codificación de predicción es convertir la señal izquierda/derecha en la forma central/lateral, esto es,One of the principles of prediction coding is to convert the left/right signal into the center/side form, that is,

y después hacer uso de la correlación restante entre estos canales, es decir fijandoand then make use of the remaining correlation between these channels, i.e. setting

S = Re{trM} D, S = Re{trM} D,

donde a es el coeficiente de predicción complejo a determinar y D es la señal residual. Es posible elegir a para que la energía de la señal residual D = S - Re{aM} se minimice. La minimización de la energía se puede efectuar con respecto a la energía momentánea, una energía a corto o largo plazo (energía media), que en el caso de una señal discreta equivale a la optimización en el sentido cuadrático medio.where a is the complex prediction coefficient to be determined and D is the residual signal. It is possible to choose a so that the energy of the residual signal D = S - Re{aM} is minimized. Energy minimization can be performed with respect to momentary energy, short-term energy, or long-term energy (mean energy), which in the case of a discrete signal is equivalent to optimization in the mean square sense.

Las partes real e imaginaria aR, ai del coeficiente de predicción se pueden cuantificar y/o codificar de manera conjunta. Preferiblemente sin embargo, las partes real e imaginaria se cuantifican de manera independiente y uniforme, normalmente con un tamaño de paso de 0,1 (número sin dimensión). La resolución de la banda de frecuencias usada para el coeficiente de predicción complejo no es necesariamente la misma que la resolución para los factores de escala de las bandas (sfb; esto es, un grupo de líneas MDCT que usan el mismo tamaño de paso de cuantificación y rango de cuantificación) según el estándar MPEG. En concreto, la resolución de la banda de frecuencias para el coeficiente de predicción puede ser una que esté justificada psico acústicamente, tal como la escala Bark. Se observa que la resolución de la banda de frecuencias puede variar en los casos en los que varíe la longitud de la transformada.The real and imaginary parts aR, ai of the prediction coefficient can be jointly quantized and/or coded. Preferably however, the real and imaginary parts are quantized independently and uniform, typically with a step size of 0.1 (number without dimension). The resolution of the frequency band used for the complex prediction coefficient is not necessarily the same as the resolution for the scale factors of the bands (sfb; that is, a group of MDCT lines using the same quantization step size. and quantization range) according to the MPEG standard. In particular, the frequency band resolution for the prediction coefficient may be one that is psychoacoustically justified, such as the Bark scale. It is noted that the resolution of the frequency band can vary in cases where the length of the transform varies.

Como se observa ya, el sistema codificador puede tener la libertad de si aplicar codificación estéreo de predicción o no, implicando el último caso retroceder a la codificación L/R o M/S. Dicha decisión se puede tomar en base a la trama de tiempo o con más precisión, en base a la banda de frecuencias dentro de una trama de tiempo. Como se observa anteriormente, un resultado negativo de la decisión se puede comunicar a la entidad de decodificación de varias maneras, por ejemplo, mediante el valor de un bit indicador dedicado en cada trama, o mediante la ausencia (o con el valor cero) de un valor del coeficiente de predicción. La decisión positiva se puede comunicar de manera análoga. Una implementación particularmente ventajosa, que permite el retroceso sin ninguna sobrecarga, hace uso de un cuarto valor reservado del campo de dos bits ms_mask_present (véase la AAC MPEG-2, documento ISO/IEC 131818-7) que se transmite por trama de tiempo y se define como sigue:As already noted, the encoding system may be free to apply prediction stereo encoding or not, the latter case involving falling back to L/R or M/S encoding. Said decision can be made based on the time frame or more precisely, based on the frequency band within a time frame. As noted above, a negative decision result can be communicated to the decoding entity in various ways, for example, by the value of a dedicated flag bit in each frame, or by the absence (or zero value) of a value of the prediction coefficient. The positive decision can be communicated in an analogous way. A particularly advantageous implementation, which allows fallback without any overhead, makes use of a fourth reserved value of the ms_mask_present two-bit field (see MPEG-2 AAC, document ISO/IEC 131818-7) that is transmitted per time frame and is defined as follows:

Redefiniendo el valor 11 para significar “codificación de predicción compleja”, el codificador se puede hacer funcionar en todos los modos tradicionales, concretamente con codificación M/S y L/R, sin ninguna penalización y es capaz aún de la codificación de predicción compleja para aquellas tramas en las que sea ventajoso.By redefining the value 11 to mean "complex prediction coding", the encoder can be operated in all traditional modes, namely M/S and L/R coding, without any penalty and is still capable of complex prediction coding for those plots in which it is advantageous.

La decisión sustancial se puede basar en la relación entre la tasa de datos a calidad de audio. Como una medición de la calidad, se pueden usar los datos obtenidos usando un modelo psico acústico incluido en el codificador (como a menudo es el caso de los codificadores de audio basados en las MDCT disponibles). En concreto, el codificador puede proporcionar una selección optimizada de la tasa de distorsión del coeficiente de predicción. Por consiguiente, la parte imaginaria -y posiblemente la parte real también- del coeficiente de predicción puede fijarse a cero si el aumento en la ganancia de predicción no economiza suficientes bits para la codificación de la señal residual como para justificar el gasto de los bits requeridos para codificar el coeficiente de predicción.The substantive decision can be based on the relationship between data rate to audio quality. As a measure of quality, data obtained using a psychoacoustic model embedded in the encoder (as is often the case with available MDCT-based audio encoders) can be used. In particular, the encoder may provide an optimized selection of the distortion rate of the prediction coefficient. Consequently, the imaginary part - and possibly the real part as well - of the prediction coefficient can be set to zero if the increase in prediction gain does not save enough bits for coding the residual signal to justify the expense of the required bits. to encode the prediction coefficient.

El codificador puede codificar la información relacionada con el TNS en el flujo de bits. Dicha información puede incluir los valores de los parámetros TNS a aplicar por los filtros TNS (de síntesis) en el lado del decodificador. Si se han de usar idénticos conjuntos de parámetros TNS para ambos canales, es económico incluir un bit de señalización que indique esta identidad de los conjuntos de parámetros en lugar de transmitir los dos conjuntos de parámetros de manera independiente. Se puede incluir información también de si aplicar el TNS antes o después de la etapa de mezcla ascendente, según se basa de manera apropiada en, por ejemplo, la evaluación psico acústica de las dos opciones disponibles.The encoder may encode the TNS related information in the bit stream. Said information may include the values of the TNS parameters to be applied by the TNS (synthesis) filters on the decoder side. If identical TNS parameter sets are to be used for both channels, it is economical to include a signaling bit indicating this identity of the parameter sets instead of transmitting the two parameter sets independently. Information may also be included on whether to apply the TNS before or after the upmix stage, as appropriately based on, for example, the psychoacoustic evaluation of the two available options.

Como aún otra característica opcional, que es potencialmente beneficiosa desde el punto de vista de la complejidad y la tasa de bits, el codificador se puede adaptar para usar un ancho de banda limitado de manera individual para la codificación de la señal residual. Las bandas de frecuencias por encima de este límite no serán transmitidas al decodificador pero se fijarán a cero. En ciertos casos, las bandas de mayor frecuencia tienen un contenido de energía tan bajo que ya se cuantifican a cero. La práctica normal (cf. el parámetro max_sfb en el estándar MPEG) ha supuesto usar la misma limitación de ancho de banda para tanto la mezcla descendente como las señales residuales. Por lo tanto, colocando una banda dedicada superior con límite en la señal residual, es posible una reducción de la tasa de bits con una pérdida de calidad no significativa. Por ejemplo, esto se puede lograr transmitiendo dos parámetros max_sfb independientes, uno para la señal de mezcla descendente y otro para la señal residual.As yet another optional feature, which is potentially beneficial from complexity and bit rate standpoints, the encoder can be adapted to use individually limited bandwidth for encoding the residual signal. Frequency bands above this limit will not be transmitted to the decoder but will be set to zero. In certain cases, the higher frequency bands have such a low energy content that they are already quantized to zero. Normal practice (cf. the max_sfb parameter in the MPEG standard) has meant using the same bandwidth limitation for both the downmix and residual signals. Therefore, by placing a capped upper dedicated band on the residual signal, bit rate reduction is possible with insignificant quality loss. For example, this can be achieved by passing two separate max_sfb parameters, one for the downmix signal and one for the residual signal.

Se señala que si bien los problemas de la determinación óptima del coeficiente de predicción, la cuantificación y la codificación del mismo, el retroceso al modo M/S o L/R, el filtrado TNS y la limitación del ancho de banda superior etc. se discutieron con referencia al sistema decodificador mostrado en la figura 5, los mismos hechos son igualmente aplicables a los sistemas codificadores que serán descritos a continuación con referencia a las figuras posteriores. It is pointed out that although the problems of optimal determination of the prediction coefficient, its quantization and coding, fallback to M/S or L/R mode, TNS filtering and upper bandwidth limitation etc. were discussed with reference to the decoder system shown in Figure 5, the same facts are equally applicable to the encoder systems which will be described below with reference to the subsequent figures.

La figura 6 muestra otro sistema codificador adaptado para realizar la codificación estéreo de predicción compleja. El sistema recibe como entrada una representación en el dominio del tiempo de una señal estéreo segmentada en tramas de tiempo sucesivas, posiblemente solapadas, y que comprende los canales izquierdo y derecho. Una etapa 601 de suma y diferencia convierte la señal en los canales central y lateral. El canal central se suministra a tanto el módulo 602 MDCT como al módulo 603 MDST, mientras que el canal lateral se suministra a un módulo 604 MDCT sólo. El estimador 605 del coeficiente de predicción estima para cada trama de tiempo - y posiblemente para las bandas de frecuencias individuales dentro de una trama - un valor del coeficiente a de predicción complejo como se explica anteriormente. El valor del coeficiente a se suministra como un peso a los sumadores 606, 607 ponderados, que forman una señal D residual como una combinación lineal de las representaciones MDCT y MDST de la señal central y la representación MDCT de la señal lateral. Preferiblemente, el coeficiente de predicción complejo se suministra como un peso a los sumadores 606, 607 ponderados representados mediante el mismo esquema de cuantificación que se usará cuando se codifique en el flujo de bits; esto de manera obvia proporciona una reconstrucción más fiel, ya que tanto el codificador como el decodificador aplican el mismo valor del coeficiente de predicción. La señal residual, la señal central (que se puede llamar de manera más apropiada señal de mezcla descendente cuando aparezca en combinación con una señal residual) y el coeficiente de predicción se suministran a una etapa 608 de cuantificación y multiplexor, que codifica esta y posible información adicional como un flujo de bits de salida.Figure 6 shows another coding system adapted to perform complex prediction stereo coding. The system receives as input a time domain representation of a stereo signal segmented into successive, possibly overlapping, time frames and comprising left and right channels. A sum and difference stage 601 converts the signal into the center and side channels. The center channel is supplied to both the 602 MDCT module and the 603 MDST module, while the side channel is supplied to a 604 MDCT module only. The prediction coefficient estimator 605 estimates for each time frame - and possibly for the individual frequency bands within a frame - a value of the complex prediction coefficient a as explained above. The value of the coefficient a is supplied as a weight to the weighted adders 606, 607, which form a residual signal D as a linear combination of the MDCT and MDST representations of the center signal and the MDCT representation of the side signal. Preferably, the complex prediction coefficient is supplied as a weight to the weighted adders 606, 607 represented by the same quantization scheme that will be used when encoding in the bit stream; this obviously provides a more faithful reconstruction, since both the encoder and the decoder apply the same value of the prediction coefficient. The residual signal, the center signal (which may more appropriately be called a downmix signal when it occurs in combination with a residual signal), and the prediction coefficient are supplied to a quantization and multiplexer stage 608, which encodes this and possible additional information as an output bitstream.

La figura 7 muestra una variación al sistema codificador de la figura 6. Como está claro a partir de la similitud de los símbolos en la figura, tiene una estructura similar pero también la funcionalidad añadida de funcionar en un modo de retroceso de codificación L/R directa. El sistema codificador se acciona entre el modo de codificación de predicción complejo y el modo de retroceso por medio de un conmutador 710 proporcionado inmediatamente por encima de la etapa 709 de cuantificación y multiplexora combinada. En su posición superior, como se muestra en la figura, el conmutador 710 hará que el codificador funcione en el modo de retroceso. A partir de los puntos inmediatamente por debajo de los módulos 702, 704 MDCT, la señal central/lateral se suministra a una etapa 705 de suma y diferencia, que después de convertirla en la forma izquierda/derecha la pasa al conmutador 710, que la conecta a la etapa 709 de cuantificación y multiplexora combinada.Figure 7 shows a variation to the encoder system of Figure 6. As is clear from the similarity of the symbols in the figure, it has a similar structure but also the added functionality of operating in a reverse L/R encoding mode. direct. The coding system is operated between the complex prediction coding mode and the backward mode by means of a switch 710 provided immediately above the combined quantization and multiplexing stage 709. In its upper position, as shown in the figure, switch 710 will cause the encoder to operate in the reverse mode. From the points immediately below the MDCT modules 702, 704, the center/side signal is supplied to a sum and difference stage 705, which after converting it to left/right form passes it to switch 710, which connects to the combined quantization and multiplexer stage 709.

La figura 8 muestra un sistema codificador. Al contrario de los sistemas codificadores de las figuras 6 y 7, esta realización deriva los datos MDST requeridos para la codificación de predicción compleja directamente desde los datos MDCT, esto es, mediante una transformada de real a imaginario en el dominio de la frecuencia. La transformada de real a imaginario aplica cualquiera de los enfoques discutidos en conexión con los sistemas decodificadores de las figuras 2 y 4. Es importante hacer coincidir el método de cálculo del decodificador con el del codificador, para que se pueda lograr una decodificación fiel; preferiblemente, se usan métodos de transformada de real a imaginario idénticos en el lado del codificador y el en lado del decodificador. Como para las realizaciones del decodificador, la parte A encerrada por la línea discontinua y que comprende la transformada 804 de real a imaginario puede ser reemplazada por variantes aproximadas o por el uso de menos tramas de tiempo de entrada como entrada. Del mismo modo, la codificación se puede simplificar usando cualquiera de los otros enfoques de aproximación descritos anteriormente.Figure 8 shows an encoder system. Contrary to the coding systems of Figures 6 and 7, this embodiment derives the MDST data required for complex prediction coding directly from the MDCT data, that is, by means of a real-to-imaginary transform in the frequency domain. The real-to-imaginary transform applies any of the approaches discussed in connection with the decoding systems of Figures 2 and 4. It is important to match the computational method of the decoder to that of the encoder, so that faithful decoding can be achieved; preferably, identical real-to-imaginary transform methods are used on the encoder side and the decoder side. As for the decoder implementations, the part A enclosed by the dashed line and comprising the real-to-imaginary transform 804 can be replaced by approximate variants or by using fewer input time frames as input. Similarly, coding can be simplified using any of the other approximation approaches described above.

En un nivel superior, el sistema codificador de la figura 8 tiene una estructura que difiere de la que probablemente seguiría por una acción directa de reemplazo del módulo MDST en la figura 7 por un módulo de real a imaginario (conectado de manera adecuada). La presente arquitectura es limpia y logra la funcionalidad de conmutación entre la codificación de predicción y la codificación L/R directa de una manera robusta y computacionalmente económica. La señal estéreo de entrada es suministrada a los módulos 801 de transformada MDCT, que emiten una representación en el dominio de la frecuencia de cada canal. Esta se proporciona tanto a un conmutador 808 final para accionar el sistema codificador entre sus modos de codificación de predicción y directa como a una etapa 802 de suma y diferencia. En la codificación L/R directa o la codificación M/S conjunta - que se lleva a cabo en la trama de tiempo para la cual se fija el coeficiente de predicción a a cero - la señal de entrada puede ser sometida a sólo la transformación, cuantificación y multiplexación, MDCT estando los dos últimos pasos efectuados por una etapa 807 de cuantificación y multiplexora combinada dispuesta en el extremo de salida del sistema, donde se suministra el flujo de bits. En la codificación de predicción, cada uno de los canales sufren un procesamiento adicional entre la etapa 802 de suma y diferencia y el conmutador 808. A partir de la representación MDCT de la señal central, la transformada 804 de real a imaginario deriva los datos MDSt y los envía a tanto el estimador 803 de coeficientes de predicción como el sumador 806 pesado. Como en los sistemas codificadores mostrados en las figuras 6 y 7, se usa un sumador 805 pesado adicional para combinar la señal lateral con las representaciones MDCT y MDST ponderadas de la señal central para formar una señal del canal residual, que se codifica junto con el canal central (esto es, de mezcla descendente) y el coeficiente de predicción mediante el módulo 807 de cuantificación y multiplexor combinado.At a higher level, the encoder system of Figure 8 has a structure that differs from what would likely be followed by a straightforward action of replacing the MDST module in Figure 7 with a (suitably connected) real-to-imaginary module. The present architecture is clean and achieves the switching functionality between prediction coding and direct L/R coding in a robust and computationally inexpensive manner. The input stereo signal is supplied to MDCT transform modules 801, which output a frequency domain representation of each channel. This is provided to both a final switch 808 to drive the encoding system between its predictive and forward encoding modes and a sum and difference stage 802. In direct L/R coding or joint M/S coding - which is carried out in the time frame for which the prediction coefficient is set to zero - the input signal can be subjected to only transformation, quantization and multiplexing, MDCT, the last two steps being performed by a combined multiplexing and quantizing stage 807 arranged at the output end of the system, where the bit stream is supplied. In prediction coding, each of the channels undergoes additional processing between the sum and difference stage 802 and the switch 808. From the MDCT representation of the center signal, the real-to-imaginary transform 804 derives the MDSt data. and sends them to both the prediction coefficient estimator 803 and the heavy adder 806. As in the encoder systems shown in Figures 6 and 7, an additional heavy adder 805 is used to combine the side signal with the weighted MDCT and MDST representations of the center signal to form a residual channel signal, which is encoded along with the encoder. center channel (ie downmix) and prediction coefficient by combined quantization and multiplexer module 807.

Volviendo ahora a la figura 9, se ilustrará que los diversos sistemas codificadores se pueden combinar con uno o más filtros TNS (de análisis). De acuerdo con las discusiones anteriores, a menudo es ventajoso aplicar un filtrado TNS a la señal en su forma de mezcla descendente. Por tanto, como se muestra en la figura 9, la adaptación del sistema codificador de la figura 7 para incluir el TNS es efectuado mediante la adición de los filtros 911 TNS inmediatamente por encima del módulo 909 de cuantificación y multiplexor combinado.Turning now to Figure 9, it will be illustrated that the various encoding systems can be combined with one or more TNS (parsing) filters. In accordance with the above discussions, it is often advantageous to apply TNS filtering to the signal in its downmix form. Thus, as shown in Figure 9, adaptation of the encoder system of Figure 7 to include TNS is effected by adding the TNS filters 911 immediately above the combined quantization and multiplexer module 909.

En lugar del filtro 911 b TNS derecho/residual, se pueden proporcionar dos filtros TNS separados (no mostrados) de manera inmediatamente por encima de la parte del conmutador 910 adaptados para manejar el canal derecho o residual. Por tanto, cada uno de los dos filtros TNS se suministrará con los respectivos datos de la señal de canal en todos los tiempos, permitiendo un filtrado TNS basado en más tramas de tiempo que sólo la actual. Como ya se ha observado, los filtros TNS son sólo un ejemplo de dispositivos de modificación en el dominio de la frecuencia, dispositivos que de manera notable basan su procesamiento en más tramas que la actual, lo cual puede beneficiar de dicha ubicación tanto o más que hace el filtro TNS.Instead of the right/residual TNS filter 911 b, two separate TNS filters (not shown) of way immediately above the portion of the 910 switch adapted to handle the right or residual channel. Thus, each of the two TNS filters will be supplied with the respective channel signal data at all times, allowing TNS filtering based on more time frames than just the current one. As already noted, TNS filters are just one example of frequency domain modification devices, devices that remarkably base their processing on more frames than the current one, which can benefit from such placement as much or more than does the TNS filter.

Como otra posible alternativa al sistema codificador mostrado en la figura 9, los filtros TNS para la activación selectiva se pueden disponer en más de un punto para cada canal. Esto es similar a la estructura del sistema decodificador mostrado en la figura 4, donde los diferentes conjuntos de filtros TNS pueden ser conectados por medio de conmutadores. Esto permite la selección de la etapa disponible más adecuada para el filtrado TNS para cada trama de tiempo. En concreto, puede ser ventajoso para conmutar entre diferentes ubicaciones en conexión con la conmutación entre la codificación estéreo de predicción compleja y otros modos de codificación.As another possible alternative to the scrambler system shown in Figure 9, the TNS filters for selective activation can be arranged at more than one point for each channel. This is similar to the structure of the decoder system shown in Figure 4, where the different sets of TNS filters can be connected by means of switches. This allows selection of the most suitable available stage for TNS filtering for each time frame. In particular, it may be advantageous for switching between different locations in connection with switching between complex prediction stereo coding and other coding modes.

La figura 11 muestra una variación basada en el sistema codificador de la figura 8, en el que la segunda representación en el dominio de la frecuencia de la señal de mezcla descendente es derivada por medio de una transformada 1105 de real a imaginario. De manera similar al sistema decodificador mostrado en la figura 4, este sistema decodificador incluye también módulos modificadores en el dominio de la frecuencia activables de manera selectiva, uno 1102 proporcionado por encima de la etapa de mezcla descendente y otro 1109 proporcionado por debajo de la misma. Los módulos 1102, 1109 en el dominio de la frecuencia, que se han ejemplificado en esta figura mediante filtros TNS, se pueden conectar en cada una de las rutas de señal usando los cuatro conmutadores 1103a, 1103b, 1109a y 1109b.Figure 11 shows a variation based on the encoder system of Figure 8, in which the second frequency domain representation of the downmix signal is derived by means of a real-to-imaginary transform 1105 . Similar to the decoder system shown in Figure 4, this decoder system also includes selectively triggerable frequency-domain modifier modules, one 1102 provided above the downmix stage and another 1109 provided below it. . The frequency domain modules 1102, 1109, which have been exemplified in this figure by TNS filters, can be connected in each of the signal paths using the four switches 1103a, 1103b, 1109a and 1109b.

III. Realizaciones de no aparatosIII. Realizations of non-apparatus

Esta sección describe métodos para decodificar y codificar. La descripción del método para codificar en esta sección es únicamente con propósitos ilustrativos, y el método de codificación en esta sección no está cubierto por las reivindicaciones.This section describes methods for decoding and encoding. The description of the method for encoding in this section is for illustrative purposes only, and the method of encoding in this section is not covered by the claims.

La figura 15 muestra un método para decodificar un flujo de bits en una señal estéreo, que comprende los siguientes pasos:Figure 15 shows a method for decoding a bitstream into a stereo signal, comprising the following steps:

1. Un flujo de bits como entrada.1. A bit stream as input.

2. El flujo de bits se des cuantifica, mediante lo cual se obtienen una primera representación en el dominio de la frecuencia de los canales de mezcla descendente y residual de una señal estéreo.2. The bit stream is dequantized, whereby a first frequency domain representation of the downmix and residual channels of a stereo signal is obtained.

3. Se calcula una segunda representación en el dominio de la frecuencia de la mezcla descendente.3. A second frequency domain representation of the downmix is computed.

4. Se calcula una señal de canal lateral en base a las tres representaciones en el dominio de la frecuencia de los canales.4. A side channel signal is calculated based on the three frequency domain representations of the channels.

5. Se calcula una señal estéreo, preferiblemente en la forma izquierda/derecha, en base a los canales lateral y de mezcla descendente.5. A stereo signal is calculated, preferably in left/right form, based on the side and downmix channels.

6. Se emite la señal estéreo así obtenida.6. The stereo signal thus obtained is emitted.

Los pasos 3 a 5 se pueden considerar como un proceso de mezclado ascendente. Cada uno de los pasos 1 a 6 es análogo a la funcionalidad correspondiente en cualquiera de los sistemas decodificadores descritos en las partes anteriores de este texto, y los detalles adicionales en relación a su implementación se pueden recuperar en las mismas partes.Steps 3 through 5 can be considered as an upmix process. Each of the steps 1 to 6 is analogous to the corresponding functionality in any of the decoder systems described in the previous parts of this text, and additional details regarding their implementation can be retrieved in the same parts.

La figura 16 muestra un método (no cubierto por las reivindicaciones) para codificar una señal estéreo como una señal de flujo de bits, que comprende los siguientes pasos:Figure 16 shows a method (not covered by the claims) for encoding a stereo signal as a bitstream signal, comprising the following steps:

1. Se introduce una señal estéreo.1. A stereo signal is input.

2. La señal estéreo se transforma en una primera representación en el dominio de la frecuencia.2. The stereo signal is transformed into a first representation in the frequency domain.

3. Se determina un coeficiente de predicción complejo.3. A complex prediction coefficient is determined.

4. Se mezcla de manera descendente la representación en el dominio de la frecuencia.4. The frequency domain representation is downmixed.

5. Los canales de mezcla descendente y residual se codifican como un flujo de bits junto con el coeficiente de predicción complejo.5. The downmix and residual channels are coded as a bit stream along with the complex prediction coefficient.

6. Se emite el flujo de bits.6. The bit stream is output.

Cada uno de los pasos 1 a 5 es análogo a la funcionalidad correspondiente en cualquiera de los sistemas codificadores en las partes anteriores de este texto, y detalles adicionales en relación a su implementación se pueden recuperar en las mismas partes.Each of the steps 1 to 5 is analogous to the corresponding functionality in any of the coding systems in the earlier parts of this text, and additional details regarding their implementation will be found. can recover in the same parts.

Ambos métodos se pueden expresar como instrucciones legibles por un ordenador en la forma de programas de software y pueden ser ejecutadas por un ordenador. El alcance de protección de esta invención se extiende a dicho software y productos de programas informáticos para distribuir dicho software cuando esté relacionado con decodificación.Both methods can be expressed as computer-readable instructions in the form of software programs and can be executed by a computer. The scope of protection of this invention extends to such software and computer program products for distributing such software when it is related to decryption.

IV. Evaluación empíricaIV. Empirical evaluation

Varias de las realizaciones descritas en la presente memoria se han evaluado de manera empírica. Las partes más importantes del material experimental obtenido en este proceso se resumirán en esta subsección.Several of the embodiments described herein have been empirically evaluated. The most important parts of the experimental material obtained in this process will be summarized in this subsection.

La realización usada para los experimentos tuvo las siguientes características.The embodiment used for the experiments had the following characteristics.

(i) Cada espectro MDST (para una trama de tiempo) se calculó mediante un filtrado de respuesta al impulso finita de dos dimensiones de los espectros actual, anterior y siguiente .(i) Each MDST spectrum (for one time frame) was computed by a two-dimensional finite impulse response filtering of the current, previous and next spectra.

(ii) Se usó un modelo psico acústico del codificador estéreo USAC.(ii) A psychoacoustic model of the USAC stereo encoder was used.

(iii) Las partes real e imaginaria del coeficiente a de predicción complejo se transmitieron en lugar de los parámetros PS ICC, CLD e IPD. Las partes real e imaginaria se manejaron de manera independiente, fueron limitadas al rango [-3,0, 3,0] y se cuantificaron usando un tamaño de paso de 0,1. Después se codificaron de manera diferencial en el tiempo y finalmente se les realizó una codificación Huffman usando el libro de códigos de factores de escala de la USAC. Los coeficientes de predicción se actualizaron cada segundo en la banda del factor de escala, lo que resultó en una resolución de frecuencia similar a la de la Envolvente MPEG (véase, por ejemplo, ISO/iEc 23003-1). Este esquema de cuantificación y codificación resultó en una tasa media de bits de aproximadamente 2 kb/s para esta información lateral estéreo en una configuración típica con una tasa de bits objetivo de 96 kb/s.(iii) The real and imaginary parts of the complex prediction coefficient a were transmitted instead of the PS ICC, CLD and IPD parameters. The real and imaginary parts were handled independently, limited to the range [-3.0, 3.0], and quantized using a step size of 0.1. They were then differentially coded in time and finally Huffman coded using the USAC scale factor codebook. The prediction coefficients were updated every second in the scale factor band, resulting in a frequency resolution similar to that of the MPEG Envelope (see, for example, ISO/iEc 23003-1). This quantization and coding scheme resulted in an average bit rate of approximately 2 kb/s for this stereo side information in a typical configuration with a target bit rate of 96 kb/s.

(iv) El formato de flujo de bits se modificó sin romper los flujos de bits USAC actuales, ya que el elemento del flujo de bits de 2 bits ms_mask_present actualmente tiene sólo tres posibles valores. Usando un cuarto valor para indicar la predicción compleja permite un modo de retroceso de la codificación central/lateral básica sin ningún desperdicio de bits (para más detalles acerca de este tema, véase la subsección anterior de esta descripción).(iv) The bitstream format was changed without breaking current USAC bitstreams, since the 2-bit bitstream element ms_mask_present currently has only three possible values. Using a fourth value to indicate complex prediction allows a fallback mode of basic mid/side coding without any wasted bits (for more details on this topic, see the previous subsection of this description).

Las pruebas de escucha se cumplieron según la metodología MUSHRA, implicando en concreto la reproducción sobre auriculares y el uso de 8 elementos de prueba con una tasa de muestreo de 48 kHz. Tres, cinco o seis sujetos de prueba participaron en cada prueba.Listening tests were performed according to the MUSHRA methodology, specifically involving playback over headphones and the use of 8 test items with a 48 kHz sampling rate. Three, five, or six test subjects participated in each test.

El impacto de las diferentes aproximaciones MDST se evaluó para ilustrar la compensación práctica entre complejidad y calidad que existe entre estas opciones. Los resultados se encontraron en las figuras 12 y 13, la primera mostrando las puntuaciones absolutas obtenidas y la última mostrando las puntuaciones diferenciales en relación a 96s USAC cp1f, esto es, la codificación estéreo unificada en el dominio MDCT mediante predicción compleja usando una trama MDCT actual para calcular una aproximación de la MDST. Se puede ver que la ganancia de calidad lograda por la codificación estéreo unificada basada en MDCT aumenta cuando se aplican enfoques computacionalmente más complejos para calcular el espectro MDST. Considerando la media sobre todas las pruebas, el sistema 96s USAC cp1f basado en trama única proporciona un aumento significativo en la eficiencia de codificación sobre la codificación estéreo convencional. En cambio, se obtiene incluso significativamente mejores resultados para la 96s USAC cp3f, es decir la codificación estéreo unificada en el dominio MDCT mediante predicción compleja usando las tramas MDCT actual, anterior y siguiente para calcular la MDST.The impact of the different MDST approaches was evaluated to illustrate the practical trade-off between complexity and quality that exists between these options. The results were found in figures 12 and 13, the first one showing the absolute scores obtained and the last one showing the differential scores in relation to 96s USAC cp1f, that is, the unified stereo coding in the MDCT domain by complex prediction using an MDCT frame. current to calculate an approximation of the MDST. It can be seen that the quality gain achieved by MDCT-based unified stereo coding increases when more computationally complex approaches are applied to calculate the MDST spectrum. Considered the average over all tests, the single frame based 96s USAC cp1f system provides a significant increase in coding efficiency over conventional stereo coding. In contrast, even significantly better results are obtained for the 96s USAC cp3f, ie unified stereo coding in the MDCT domain by complex prediction using the current, previous and next MDCT frames to calculate the MDST.

VI. Observaciones finalesSAW. concluding remarks

Las realizaciones adicionales de la presente invención resultarán evidentes para una persona experta en la técnica después de la lectura de la descripción anterior. Incluso aunque la presente descripción y los dibujos describen las realizaciones y ejemplos, la invención no se restringe a estos ejemplos específicos. Se pueden hacer numerosas modificaciones y variaciones sin salir del alcance de la presente invención, que se define por las reivindicaciones adjuntas.Additional embodiments of the present invention will become apparent to a person skilled in the art after reading the above description. Even though the present description and drawings describe the embodiments and examples, the invention is not restricted to these specific examples. Numerous modifications and variations can be made without departing from the scope of the present invention, which is defined by the appended claims.

Se observa que los métodos y aparatos descritos en esta solicitud se pueden aplicar, después de las modificaciones apropiadas dentro de las capacidades de una persona experta que incluyen la experimentación de rutina, para la codificación de señales que tienen más de dos canales. Se enfatiza de manera particular que cualesquiera señales, parámetros y matrices mencionadas en las conexiones con las realizaciones descritas pueden ser variantes en frecuencia o invariantes en frecuencia y/o variantes en el tiempo o invariantes en el tiempo. Los pasos de computación descritos se pueden llevar a cabo para una frecuencia o para todas las bandas de frecuencias en cada momento, y todas las entidades se pueden realizar para tener una acción selectiva en frecuencia. Para los propósitos de la solicitud, cualquier esquema de cuantificación se puede adaptar según los modelos psico acústicos. Se observa además que las diversas conversiones de suma y diferencia, esto es, la conversión de la forma de mezcla descendente/residual a la forma pseudo L/R así como la conversión de L/R a M/S y la conversión de M/S a L/R, son todas de la formaIt is noted that the methods and apparatus described in this application can be applied, after appropriate modifications within the capabilities of a skilled person including routine experimentation, for encoding signals having more than two channels. It is particularly emphasized that any signals, parameters and matrices mentioned in connections to the described embodiments may be frequency-variant or frequency-invariant and/or time-variant or time-invariant. The described computation steps can be carried out for one frequency or for all frequency bands at each moment, and all entities can be carried out to have a frequency selective action. For the purposes of the application, any quantization scheme can be adapted based on psychoacoustic models. It is further noted that the various conversions of sum and difference, that is, the conversion of the form of downmix/residual to pseudo L/R form as well as L/R to M/S conversion and M/S to L/R conversion are all of the form

donde, principalmente, el factor g de ganancia puede variar. Por tanto, ajustando los factores de ganancia de manera individual, es posible compensar una cierta ganancia de codificación mediante la elección apropiada de la ganancia de decodificación. Además, como se darán cuenta las personas expertas en la técnica, un número par de transformadas de suma y diferencia dispuestas en serie tienen el efecto de una etapa de paso, posiblemente con una ganancia no unitaria.where, mainly, the gain factor g can vary. Thus, by adjusting the gain factors individually, it is possible to compensate for a certain coding gain by appropriately choosing the decoding gain. Furthermore, as those skilled in the art will realize, an even number of sum and difference transforms arranged in series have the effect of a step stage, possibly with non-unity gain.

Los sistemas y métodos descritos aquí anteriormente se pueden implementar como software, firmware, hardware o una combinación de los mismos. Ciertos componentes o todos los componentes se pueden implementar como un software ejecutado mediante un procesador o microprocesador de señal digital, o ser implementados como hardware o como un circuito integrado de aplicación específica. Dicho software se puede distribuir en medios legibles por ordenador, que pueden comprender medios de almacenamiento y medios de comunicación informáticos. Como es sabido por una persona experta en la técnica, los medios de almacenamiento informáticos incluyen tanto los volátiles como los no volátiles, los medios extraíbles como los no extraíbles implementados en cualquier método o tecnología para el almacenamiento de la información tal como las instrucciones, las estructuras de datos, los módulos de programa u otros datos legibles por un ordenador. Los medios de almacenamiento informáticos incluyen, pero no se limitan a, una RAM, una ROM, una EEPROM, una memoria flash u otra tecnología de memoria, un CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en discos ópticos, casetes magnéticos, una cinta magnética, un almacenamiento de discos magnéticos u otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda usar para almacenar la información deseada y que pueda ser accedido por un ordenador. Además, es sabido por una persona experta que los medios de comunicación normalmente realizan instrucciones, estructuras de datos, módulos de programa u otros datos legibles por un ordenador en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información. The systems and methods described herein above may be implemented as software, firmware, hardware, or a combination thereof. Certain components or all of the components may be implemented as software executed by a digital signal processor or microprocessor, or implemented as hardware or as an application specific integrated circuit. Said software may be distributed on computer-readable media, which may comprise computer storage media and communication media. As is known by a person skilled in the art, computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for information storage such as instructions, data structures, program modules or other data readable by a computer. Computer storage media include, but are not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile discs (DVD) or other optical disc storage, cassettes magnetic tape, magnetic disk storage or other magnetic storage devices, or any other medium that can be used to store the desired information and that can be accessed by a computer. In addition, it is known to a skilled person that communication media typically carry instructions, data structures, program modules or other computer-readable data into a modulated data signal such as a carrier wave or other transport mechanism and includes any information delivery medium.

Claims

1. A decoder system for providing a stereo signal by complex prediction stereo coding, the decoder system comprising:

a stage (206, 207, 210, 211; 306, 307, 308, 309, 312; 406, 407, 408, 409; 1410; 1421; 1433) adapted to generate the stereo signal based on the first representations in the frequency domain of a downmix signal (M) and a residual signal (D), each of the frequency domain representations comprising first spectral components representing the spectral content of the corresponding signal expressed in a first subspace of a multidimensional space, comprising the upmix stage:

a module (206; 306, 307; 408) for calculating a second frequency-domain representation of the downmix signal based on the first frequency-domain representation thereof, the second representation comprising the frequency domain the second spectral components that represent the spectral content of the signal expressed in a second subspace of the multidimensional space that includes a part of the multidimensional space not included in the first subspace, in which the module is adapted to determine the second components spectral measurements of the downmix signal by applying a finite impulse response, FIR, filter to combine at least two of the first two spectral components of the downmix signal;

a weighted adder (210, 211; 308, 309; 406, 407) for calculating a side signal (S) based on the first and second frequency-domain representations of the downmix signal, the first representation in the frequency domain of the residual signal and a complex prediction coefficient (a) encoded in a bit stream signal; and

a sum and difference stage (207; 312; 409) for calculating the stereo signal based on the first frequency-domain representation of the downmix signal and the side signal, wherein the upmix stage is operable also in a pass-through mode, in which the downmix and residual signals are supplied to the sum and difference stage directly.

The decoder system of claim 1, wherein said downmix signal and residual signal are segmented into time frames,

said upmix stage being further adapted to receive, for each time frame, a two-bit data field associated with that frame and to operate, in response to the value of the data field, in its active mode or its passing mode. .

The decoder system of claim 1, wherein said residual and downmix signal are segmented into time frames,

said upmixing stage being further adapted to receive in an MPEG bit stream, for each time frame, a ms_mask_present field associated with that frame and to operate, in response to the value of the ms_mask_present field, in its active mode or its passed.

4. The decoder system of the preceding claims, wherein:

the first spectral components have real values expressed in the first subspace; and

the second spectral components have imaginary values expressed in the second subspace; Optionally, the first few spectral components can be obtained by one of the following:

a discrete cosine transform, DCT, or

a modified discrete cosine transform, MDCT,

and, optionally, the second spectral components can be obtained by one of the following: a discrete sine transform, DST, or

a modified discrete sine transform, MDST.

The decoder system of any of the preceding claims, wherein:

the first spectral components are transform coefficients arranged in one or more transform coefficient time blocks, each block generated by applying a transform to a time slice of a time domain signal; and

The module for calculating a second frequency-domain representation of the downmix signal is adapted to:

deriving one or more first intermediate components from at least some first spectral components;

forming a combination of said one or more first spectral components according to at least a part of one or more impulse responses to obtain one or more intermediate second components; and deriving said one or more second spectral components from said one or more second intermediate components.

The decoder system of any of the preceding claims, said stereo signal being represented in the time domain and the decoder system further comprising:

a switching assembly (203) arranged between a dequantization stage and said upmix stage, operable to function as either:

(a) a step step, or

(b) a sum and difference stage,

thus allowing switching between the co- and direct-encoded stereo input signals;

an inverse transform stage (209) adapted to compute a time domain representation of the stereo signal; and

a selector arrangement (208) disposed above the inverse transform stage, adapted to selectively connect the latter to either:

(a) a point below the upmix stage, through which the stereo signal obtained by complex prediction is supplied to the inverse transform stage; either

(b) a point below the switching assembly (203) and above the upmix stage, whereby a stereo signal obtained by direct stereo encoding is supplied to the inverse transform stage.

7. A decoding method for providing a stereo signal by complex prediction stereo coding, the method comprising the steps of:

reception of the first frequency domain representations of a downmix signal (M) and a residual signal (D), each of the first frequency domain representations comprising the first spectral components representing the spectral content of the corresponding signal expressed in a first subspace of a multidimensional space;

reception of a control signal; and

upmixing said downmix and residual signals, using an upmix stage, to obtain said stereo signal by, in response to the value of said control signal:

(a) performing the sub-steps of:

calculation of a second frequency-domain representation of the downmix signal based on the first frequency-domain representation thereof, the second frequency-domain representation comprising the second spectral components representing the spectral content of the signal expressed in a second subspace of the multidimensional space including a part of the multidimensional space not included in the first subspace, wherein calculating a second frequency-domain representation of the downmix signal includes determining the second spectral components of the downmix signal by applying a finite impulse response, FIR, filter to combine at least two of the first two spectral components of the downmix signal;

calculation of a side signal (S) based on the first and second frequency-domain representations of the downmix signal, encoded the first frequency-domain representation of the residual signal, and a coefficient (a) of complex prediction on a bitstream signal; and calculating said stereo signal by applying a sum and difference transform to the first frequency domain representation of the downmix signal and the side signal, either

(b) calculating said stereo signal by applying a sum and difference transform directly to the first frequency domain representations of the downmix signal and the residual signal.

A computer program product comprising a computer readable medium that stores instructions which when executed by a general purpose computer performs the method set forth in claim 7.