ES2818562T3

ES2818562T3 - Audio decoder and decoding procedure

Info

Publication number: ES2818562T3
Application number: ES16760281T
Authority: ES
Inventors: Dirk Jeroen Breebaart; David Matthew Cooper; Leif Jonas Samuelsson
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2015-08-25
Filing date: 2016-08-23
Publication date: 2021-04-13
Anticipated expiration: 2036-08-23
Also published as: JP2021015310A; JP7229218B2

Abstract

Un procedimiento para representar una segunda presentación de canales u objetos de audio como un flujo de datos, comprendiendo el procedimiento las etapas de: (a) proporcionar señales de base, representando dichas señales de base una primera presentación de los canales u objetos de audio; (b) proporcionar parámetros de transformación, estando previstos dichos parámetros de transformación para transformar las señales de base de dicha primera presentación en señales de salida de dicha segunda presentación, incluyendo dichos parámetros de transformación por lo menos parámetros de transformación de alta frecuencia especificados para una banda de frecuencia superior y parámetros de transformación de baja frecuencia especificados para una banda de frecuencia inferior, incluyendo los parámetros de transformación de baja frecuencia un conjunto de parámetros de matriz de convolución de múltiples tomas para convolucionar componentes de baja frecuencia de las señales de base con los parámetros de transformación de baja frecuencia para producir componentes de baja frecuencia convolucionados e incluyendo los parámetros de transformación de alta frecuencia un conjunto de parámetros de una matriz sin estado para multiplicar componentes de alta frecuencia de las señales de base con los parámetros de transformación de alta frecuencia para producir componentes de alta frecuencia multiplicados; estando prevista la primera presentación para reproducción en altavoces y estando prevista la segunda presentación para reproducción en auriculares, o viceversa; y (c) combinar dichas señales de base y dichos parámetros de transformación para formar dicho flujo de datos.A method for representing a second presentation of audio channels or objects as a data stream, the method comprising the steps of: (a) providing base signals, said base signals representing a first presentation of the audio channels or objects; (b) providing transformation parameters, said transformation parameters being provided to transform the base signals of said first presentation into output signals of said second presentation, said transformation parameters including at least specified high-frequency transformation parameters for a upper frequency band and low-frequency transform parameters specified for a lower frequency band, the low-frequency transform parameters including a set of multi-tap convolution matrix parameters to convolve low-frequency components of the base signals with the low-frequency transformation parameters to produce convoluted low-frequency components and the high-frequency transformation parameters including a set of parameters from a stateless matrix to multiply high-frequency components of the base signals with the high-frequency transformation parameters to produce multiplied high-frequency components; the first presentation being provided for loudspeaker playback and the second presentation being provided for headphone playback, or vice versa; and (c) combining said base signals and said transformation parameters to form said data stream.

Description

DESCRIPCIÓNDESCRIPTION

Descodificador de audio y procedimiento de descodificaciónAudio decoder and decoding procedure

Referencia a solicitud relacionadaRelated request reference

Esta solicitud reivindica el beneficio de la solicitud provisional de EE.UU. número 62/209,742, presentada el 25 de agosto de 2015, y de la solicitud de patente europea número 15189008.4, presentada el 8 de octubre de 2015. Sector técnico de la invención This application claims the benefit of US provisional application number 62 / 209,742, filed August 25, 2015, and European patent application number 15189008.4, filed October 8, 2015. Technical sector of the invention

La presente invención se refiere al sector técnico del procesamiento de señales y, en particular, da a conocer un sistema para la transmisión eficiente de señales de audio que tienen componentes de espacialización.The present invention relates to the technical field of signal processing and, in particular, discloses a system for the efficient transmission of audio signals having spatialization components.

Antecedentes de la invenciónBackground of the invention

Ninguna discusión de la técnica de los antecedentes en toda la memoria descriptiva se deberá considerar como una admisión de que dicha técnica es ampliamente conocida o forma parte de un conocimiento general común en el sector técnico.No discussion of the background art throughout the specification should be construed as an admission that such technique is widely known or is part of common general knowledge in the technical field.

La creación, codificación, distribución y reproducción de contenidos de audio se llevan a cabo habitualmente en un formato basado en canal, es decir, se contempla un sistema de reproducción objetivo específico para contenido en todo el ecosistema de contenidos. Ejemplos de dichos formatos de audio de sistemas de reproducción objetivo son mono, estéreo, 5.1,7.1 y similares.The creation, encoding, distribution and playback of audio content are typically carried out in a channel-based format, that is, a specific target playback system is contemplated for content across the entire content ecosystem. Examples of such audio formats of target playback systems are mono, stereo, 5.1,7.1, and the like.

Si se va reproducir contenido en un sistema de reproducción diferente al previsto, se puede aplicar un proceso de mezcla descendente o de mezcla ascendente. Por ejemplo, el contenido 5.1 se puede reproducir en un sistema de reproducción estéreo utilizando ecuaciones específicas de mezcla descendente. Otro ejemplo es la reproducción de contenido codificado en estéreo sobre el sistema de altavoces 7.1, que puede comprender un denominado proceso de mezcla ascendente, que podría o no estar guiado por información presente en la señal estéreo. Un sistema apto para mezcla ascendente es Dolby Pro Logic from Dolby Laboratories Inc (Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).If content is to be played on a different playback system than intended, a downmix or upmix process can be applied. For example, 5.1 content can be played back on a stereo playback system using specific downmix equations. Another example is the playback of stereo encoded content over the 7.1 speaker system, which may comprise a so-called upmix process, which may or may not be guided by information present in the stereo signal. A suitable system for upmixing is Dolby Pro Logic from Dolby Laboratories Inc (Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).

Cuando se va reproducir contenido estéreo o multicanal sobre auriculares, a menudo es deseable simular una configuración de altavoz multicanal por medio de respuestas de impulsos relacionadas con la cabeza (HRIR, headrelated impulse responses) o respuestas de impulsos de habitación binaural (BRIR, binaural room impulse responses), que simulan el trayecto acústico desde cada altavoz hasta los tímpanos, en un entorno anecoico o ecoico (simulado), respectivamente. En particular, las señales de audio se pueden convolucionar con HRIR o BRIR para restablecer diferencias de nivel interaural (ILD, inter-aural level differences), diferencias de tiempo interaural (ITD, inter-aural time differences) y entradas espectrales que permiten al oyente determinar la posición de cada canal individual. La simulación de un entorno acústico (reverberación) ayuda asimismo a conseguir una determinada distancia percibida.When playing stereo or multichannel content over headphones, it is often desirable to simulate a multichannel speaker setup using head-related impulse responses (HRIR) or binaural room impulse responses (BRIR). impulse responses), which simulate the acoustic path from each speaker to the eardrums, in an anechoic or echoic (simulated) environment, respectively. In particular, audio signals can be convolved with HRIR or BRIR to restore inter-aural level differences (ILD), inter-aural time differences (ITD), and spectral inputs that allow the listener to determine the position of each individual channel. Simulating an acoustic environment (reverberation) also helps to achieve a certain perceived distance.

Localización de la fuente de sonido y simulación de altavoz virtualSound source localization and virtual speaker simulation

Cuando se va a reproducir en auriculares contenido estéreo, multicanal o basado en objetos, a menudo es deseable simular una configuración de altavoz multicanal o un conjunto de objetos acústicos virtuales discretos, por medio de una convolución con respuestas de impulsos relacionadas con la cabeza (HRIR), o respuestas de impulsos de habitación binaural (BRIR), que simulan el trayecto acústico desde cada altavoz hasta los tímpanos, en un entorno anecoico o ecoico (simulado), respectivamente.When stereo, multichannel, or object-based content is to be played back on headphones, it is often desirable to simulate a multichannel speaker configuration or set of discrete virtual acoustic objects, using head-related impulse response (HRIR) convolution. ), or Binaural Room Impulse Responses (BRIR), which simulate the acoustic path from each speaker to the eardrums, in an anechoic or echoic (simulated) environment, respectively.

En particular, las señales de audio se pueden convolucionar con HRIR o BRIR para restablecer diferencias de nivel interaural (ILD, inter-aural level differences), diferencias de tiempo interaural (ITD, inter-aural time differences) y entradas espectrales que permiten al oyente determinar la posición de cada objeto o canal individual. La simulación de un entorno acústico (reflexiones tempranas y reverberación posterior) ayuda a conseguir una determinada distancia percibida.In particular, audio signals can be convolved with HRIR or BRIR to restore inter-aural level differences (ILD), inter-aural time differences (ITD), and spectral inputs that allow the listener to determine the position of each individual object or channel. The simulation of an acoustic environment (early reflections and after reverberation) helps to achieve a certain perceived distance.

Pasando a la figura 1, se muestra 10 una visión general esquemática del flujo de procesamiento para entregar dos señales de canal o de objeto xi 13, 11, que se leen desde un almacenamiento de contenidos 12 para su procesamiento por 4 HRIR, por ejemplo, 14 La salida de las HRIR se suman a continuación 15, 16, para cada señal de canal, con el fin de producir salidas de altavoces de auriculares para reproducir para un oyente por medio de los auriculares 18. El principio básico de las HRIR, se explica, por ejemplo, en el documento de Wightman et al (1989). El enfoque de convolución HRIR/BRIR conlleva varios inconvenientes, siendo uno de estos la cantidad sustancial de procesamiento que se necesita para reproducción en auriculares. La convolución HRIR o BRIR tiene que ser aplicada para cada canal u objeto de entrada por separado, y por lo tanto habitualmente la complejidad crece linealmente con el número de canales u objetos. Dado que los auriculares se utilizan habitualmente junto con dispositivos portátiles alimentados por batería, no es deseable una gran complejidad computacional dado que reducirá sustancialmente la vida de la batería. Además, con la introducción de contenido de audio basado en objetos, que puede constar de más de 100 objetos activos simultáneamente, la complejidad de la convolución HRIR puede ser sustancialmente mayor que para un contenido tradicional basado en canales.Turning to Figure 1, a schematic overview of the processing flow for delivering two channel or object signals xi 13, 11 is shown 10, which are read from a content storage 12 for processing by 4 HRIR, for example, 14 The output of the HRIRs are then added 15, 16, for each channel signal, in order to produce headphone speaker outputs to reproduce for a listener through the headphones 18. The basic principle of the HRIR, is explained, for example, in the document by Wightman et al (1989). The HRIR / BRIR convolution approach has several drawbacks, one of these being the substantial amount of processing that is required for playback on headphones. The HRIR or BRIR convolution has to be applied for each input channel or object separately, and therefore usually the complexity grows linearly with the number of channels or objects. Since headphones are commonly used in conjunction with battery-powered portable devices, high computational complexity is undesirable as it will substantially reduce battery life. Also, with the introduction of audio content based on objects, which can consist of more than 100 simultaneously active objects, the complexity of the HRIR convolution can be substantially greater than for traditional channel-based content.

Técnicas de codificación paramétricaParametric coding techniques

La complejidad computacional no es el único problema para el suministro de contenido basado en canales u objetos, dentro de un ecosistema que involucra creación, distribución y reproducción de contenidos. En muchas situaciones prácticas, y especialmente para aplicaciones móviles, la velocidad de datos disponible para suministro de contenidos está seriamente limitada. Los consumidores, difusores y proveedores de contenidos han estado suministrando contenido de audio estéreo (dos canales), utilizando códecs de audio perceptual con pérdidas, con tasas de bits típicas entre 48 y 192 kbits/s. Estos códecs de audio convencionales basados en canales, tales como MPEG-1 capa 3 (Brandenberg et al., 1994), MPEG AAC (Bosi et al., 1997) y Dolby Digital (Andersen et al., 2004) tienen una tasa de bits que escala de manera aproximadamente lineal con el número de canales. Como resultado, el suministro de decenas o incluso de cientos de objetos tiene como resultado tasas de bits que son poco factibles o incluso inviables para propósitos de distribución a consumidores.Computational complexity is not the only problem for the provision of content based on channels or objects, within an ecosystem that involves creation, distribution and reproduction of content. In many practical situations, and especially for mobile applications, the data rate available for content delivery is severely limited. Consumers, broadcasters and content providers have been delivering stereo (two channel) audio content, using lossy perceptual audio codecs, with typical bit rates between 48 and 192 kbits / s. These conventional channel-based audio codecs, such as MPEG-1 layer 3 (Brandenberg et al., 1994), MPEG AAC (Bosi et al., 1997), and Dolby Digital (Andersen et al., 2004) have a rate of bits that scale roughly linearly with the number of channels. As a result, supplying tens or even hundreds of objects results in bit rates that are impractical or even infeasible for consumer distribution purposes.

Para permitir el suministro de contenido complejo, basado en objetos, a tasas de bits que sean compatibles con las tasas de bits requeridas para suministro de contenido estéreo utilizando códecs convencionales de audio perceptual, durante la última de cada se han sometido a estudio y desarrollo los denominados procedimientos paramétricos. Estos procedimientos paramétricos permiten la reconstrucción de un gran número de canales u objetos a partir de un número pequeño de señales de base. Estas señales de base pueden ser transportadas del emisor al receptor utilizando códecs de audio convencionales, aumentados con información (paramétrica) adicional para permitir la reconstrucción de los canales u objetos originales. Ejemplos de dichas técnicas son Estéreo paramétrico (Schuijers et al., 2004), MPEG Surround (Herre et al., 2008), y codificación de objetos de audio espaciales MPEG (Herre et al., 2012).To enable delivery of complex, object-based content at bit rates that are compatible with the bit rates required for delivery of stereo content using conventional perceptual audio codecs, the last of each has undergone study and development. called parametric procedures. These parametric procedures allow the reconstruction of a large number of channels or objects from a small number of base signals. These base signals can be transported from the sender to the receiver using conventional audio codecs, augmented with additional (parametric) information to allow reconstruction of the original channels or objects. Examples of such techniques are Parametric Stereo (Schuijers et al., 2004), MPEG Surround (Herre et al., 2008), and MPEG spatial audio object encoding (Herre et al., 2012).

Un aspecto importante de las técnicas, tales como estéreo paramétrico y MPEG Surround es que estos procedimientos están dirigidos a una reconstrucción paramétrica de una única presentación predeterminada (por ejemplo, altavoces estéreo en estéreo paramétrico, y altavoces 5.1 en MPEG Surround). En el caso de MPEG Surround, puede estar integrado en el descodificador un elemento de virtualización de auriculares que genera una configuración de altavoces 5.1 virtuales para auriculares, en la que los altavoces 5.1 virtuales corresponden a la configuración de altavoces 5.1 para reproducción en altavoces. Por consiguiente, estas presentaciones no son independientes porque la presentación de auriculares representa la misma distribución de altavoces (virtuales) que la presentación de altavoces. Por otra parte, la codificación de objetos de audio espaciales MPEG está dirigida a la reconstrucción de objetos que requieren una entrega posterior.An important aspect of techniques such as parametric stereo and MPEG Surround is that these procedures are aimed at a parametric reconstruction of a single predetermined presentation (eg, stereo speakers in parametric stereo, and 5.1 speakers in MPEG Surround). In the case of MPEG Surround, a headphone virtualization element may be integrated into the decoder which generates a virtual 5.1 speaker configuration for headphones, where the virtual 5.1 speakers correspond to the 5.1 speaker configuration for loudspeaker playback. Consequently, these displays are not independent because the headphone display represents the same (virtual) speaker layout as the speaker display. On the other hand, MPEG spatial audio object encoding is aimed at the reconstruction of objects that require subsequent delivery.

Pasando a continuación a la figura 2, se describirá, en una visión general, un sistema paramétrico 20 que soporta canales y objetos. El sistema está dividido en partes de codificador 21 y descodificador 22. El codificador 21 recibe canales y objetos 23 como entradas, y genera una mezcla descendente 24 con un número limitado de señales de base. Adicionalmente, se calcula una serie de parámetros de reconstrucción de objeto/canal 25. Un codificador de señales 26 codifica las señales de base procedentes del mezclador descendente 24, e incluye los parámetros calculados 25, así como metadatos de objetos 27 que indican cómo se deberían entregar los objetos en el flujo de bits resultante.Turning now to FIG. 2, a parametric system 20 supporting channels and objects will be described in an overview. The system is divided into parts of encoder 21 and decoder 22. Encoder 21 receives channels and objects 23 as inputs, and generates a downmix 24 with a limited number of base signals. Additionally, a number of object / channel reconstruction parameters 25 are calculated. A signal encoder 26 encodes the base signals from the down mixer 24, and includes the calculated parameters 25, as well as object metadata 27 that indicates how they should be deliver the objects in the resulting bitstream.

El descodificador 22 descodifica primero 29 las señales de base, seguido por la reconstrucción de canales y/o de objetos 30 con la ayuda de los parámetros de reconstrucción transmitidos 31. Las señales resultantes se pueden reproducir directamente (si son canales) o se pueden entregar 32 (si son objetos). Para el segundo caso, cada señal de objeto reconstruida es entregada en función de sus metadatos de objeto asociados 33. Un ejemplo de dichos metadatos es un vector de posición (por ejemplo, una coordenada x, y y z del objeto en un sistema de coordenadas tridimensional).The decoder 22 first decodes 29 the base signals, followed by the reconstruction of channels and / or objects 30 with the help of the transmitted reconstruction parameters 31. The resulting signals can be reproduced directly (if they are channels) or can be delivered 32 (if they are objects). For the second case, each reconstructed object signal is delivered based on its associated object metadata 33. An example of such metadata is a position vector (for example, an x, y, and z coordinate of the object in a three-dimensional coordinate system) .

Matrización del descodificadorDecoder Matrix

La reconstrucción de objetos y/o canales 30 se puede conseguir mediante operaciones matriciales de variación de tiempo y frecuencia. Si las señales de base descodificadas 35 se denominan z^s[n], siendo s el índice de señal de base, y n el índice de la muestra, la primera etapa comprende habitualmente la transformación de las señales de base por medio de una transformada o banco de filtros.Reconstruction of objects and / or channels 30 can be achieved by time and frequency variation matrix operations. If the decoded base signals 35 are called z ^s [n], where s is the base signal index, and n the sample index, the first stage usually comprises the transformation of the base signals by means of a transform or bank of filters.

Se puede utilizar una amplia gama de transformadas y bancos de filtros, tales como una transformada de Fourier discreta (DFT, Discrete Fourier Transform), una transformada de coseno discreta modificada (MDCT, Modified Discrete Cosine Transform) o un banco de filtros espejo en cuadratura (QMF, Quadrature Mirror Filter). La salida de semejante transformada o del banco de filtros se denomina Z^s[k, b], siendo p el índice de sub-banda o espectral, y k el tiempo de la trama, intervalo o sub-banda o el índice de la muestra.A wide range of transforms and filter banks can be used, such as a Discrete Fourier Transform (DFT), a Modified Discrete Cosine Transform (MDCT), or a quadrature mirror filter bank (QMF, Quadrature Mirror Filter). The output of such a transform or of the filter bank is called Z ^s [k, b], where p is the sub-band or spectral index, and k is the time of the frame, interval or sub-band or the index of the sample.

En la mayor parte de los casos, las sub-bandas o índices espectrales se mapean a un conjunto menor de bandas paramétricas p que comparten parámetros comunes de reconstrucción de objetos/canales. Esto se puede indicar como que b e B(p). En otras palabras, B(p) representa un conjunto de sub-bandas consecutivas b que pertenecen a un índice de banda paramétrica p. A la inversa, p(b) se refiere al índice de banda paramétrica p a la que se mapea la sub-banda b. Los objetos o canales reconstruidos en el dominio de transformada o sub-banda Y^jse obtienen a continuación mediante señales de matrización Z ⁱcon matrices M[p(b)]:In most cases, the subbands or spectral indices are mapped to a smaller set of parametric bands p that share common object / channel reconstruction parameters. This can be stated as that be B (p). In other words, B (p) represents a set of consecutive subbands b belonging to a parametric band index p. Conversely, p (b) refers to the index of the parametric band to which sub-band b is mapped. The objects or channels reconstructed in the transform domain or sub-band Y ^j are obtained at continuation by matrix signals Z ⁱ with matrices M [p (b)]:

Yi[k,b] Zx[k,b]-= M [p(b)]Yi [k, b] Zx [k, b] - = M [p (b)]

Yj [k, b] Zs [k,b].Yj [k, b] Zs [k, b].

Las señales de objetos y/o canales reconstruidos en el dominio de tiempo yj[n] se obtienen a continuación mediante una transformada inversa o banco de filtros de síntesis.The reconstructed object and / or channel signals in the time domain yj [n] are then obtained by an inverse transform or synthesis filter bank.

El proceso anterior se aplica habitualmente a un determinado rango limitado de muestras de sub-banda, intervalos o tramas k. En otras palabras, habitualmente las matrices M[p(b)] son actualizadas/modificadas con el tiempo. Por simplicidad de notación, estas actualizaciones no se denotan aquí. Sin embargo, se considera que el procesamiento de un conjunto de muestras k asociadas con una matriz M[p(b)] puede ser un proceso variable en el tiempo.The above process is typically applied to a certain limited range of sub-band samples, intervals, or k-frames. In other words, matrices M [p (b)] are usually updated / modified over time. For simplicity of notation, these updates are not denoted here. However, it is considered that the processing of a set of samples k associated with a matrix M [p (b)] can be a variable process in time.

En algunos casos, en los que el número de señales reconstruidas J es significativamente mayor que el número de señales de base S, a menudo es útil utilizar salidas de decorrelador opcionales D^m[k,b] que funcionan sobre una o varias señales de base que se pueden incluir en las señales de salida reconstruidas.In some cases, where the number of reconstructed signals J is significantly greater than the number of base signals S, it is often useful to use optional decorrelator outputs D ^m [k, b] that operate on one or more base signals that can be included in the reconstructed output signals.

Zi [k, b ] "Zi [k, b] "

Yi[k,b]Yi [k, b]

Zs [k,b]Zs [k, b]

= M[p(b)]= M [p (b)]

Di[k, b]Say [k, b]

Yj [k, b]Yj [k, b]

DM[k,b]_DM [k, b] _

La figura 3 muestra esquemáticamente en mayor detalle una clase de unidad de reconstrucción de canales u objetos 30 de la figura 2. Las señales de entrada 35 se procesan primero mediante bancos de filtros de análisis 41, seguido por decorrelación opcional (D1, D2) 44 y matrización 42, y un banco de filtros de síntesis 43. La manipulación de la matriz M[p(£>)] se controla mediante reconstrucción de parámetros 31.Figure 3 shows schematically in greater detail one kind of channel or object reconstruction unit 30 of Figure 2. Input signals 35 are processed first by analysis filter banks 41, followed by optional decorrelation (D1, D2) 44 and matrixization 42, and a synthesis filter bank 43. The manipulation of the matrix M [p (£>)] is controlled by reconstruction of parameters 31.

Predicción de mínimo error cuadrático medio (MMSE, minimum mean square error) para reconstrucción de objetos/canalesMinimum mean square error (MMSE) prediction for object / channel reconstruction

Aunque existen diferentes estrategias y procedimientos para reconstruir objetos o canales a partir de un conjunto de señales de base Z^s[k,b], un procedimiento particular se denomina a menudo un predictor de mínimo error cuadrático medio (MMSE), que utiliza correlaciones y matrices de covarianza para obtener coeficientes de matriz M que minimizan la norma L2 entre una señal deseada y reconstruida. Para este método, se supone que las señales de base z^s[n] se generan en el mezclador descendente 24 del codificador como una combinación lineal de señales de canal u objeto de entrada xⁱ[n]:Although there are different strategies and procedures for reconstructing objects or channels from a set of base signals Z ^s [k, b], a particular procedure is often called a least mean square error (MMSE) predictor, which uses correlations and covariance matrices to obtain matrix coefficients M that minimize the L2 norm between a desired and reconstructed signal. For this method, it is assumed that the base signals z ^s [n] are generated in the encoder down mixer 24 as a linear combination of channel signals or input object x ⁱ [n]:

Para contenido de entrada basado en canal, las ganancias de panoramización de amplitud gⁱ,^sson habitualmente constantes, mientras que para contenido basado en objetos, en los que la posición prevista de un objeto es proporcionada por metadatos de objeto variables con el tiempo, las ganancias gⁱ,^spueden, por consiguiente, ser variables con el tiempo. Esta ecuación se puede formular asimismo en el dominio de sub-banda o transformada, en cuyo caso se utiliza un conjunto de ganancias gⁱ,^s[k] para cada banda/tramo de frecuencia k y, de este modo, las ganancias gⁱ,^s[k] se pueden hacer variables en frecuencia:For channel-based input content, the amplitude panning gains g ⁱ , ^s are typically constant, whereas for object-based content, where the predicted position of an object is provided by time-varying object metadata, the gains g ⁱ , ^s can therefore be variable with time. This equation can also be formulated in the sub-band or transformed domain, in which case a set of gains g ⁱ , ^s [k] is used for each band / frequency band k and, thus, the gains g ⁱ , ^s [k] can be made variable in frequency:

Zs [k ,b ]= ^ g i .J k j X j ^ b ]Zs [k, b] = ^ g i .J k j X j ^ b]

ii

La matriz del descodificador 42, ignorando los decorreladores por ahora, produce:Decoder matrix 42, ignoring the decorrelators for now, produces:

o, en formulación matricial, omitiendo el índice de sub-banda b y el índice de banda paramétrica p por claridad:or, in matrix formulation, omitting the sub-band index b and the parametric band index p for clarity:

Y = ZMY = ZM

Z = XGZ = XG

El criterio para calcular los coeficientes de matriz M mediante el codificador es minimizar el error cuadrático medio E que representa el error cuadrático entre las salidas del descodificador Yj y los objetos/canales de entrada originales Xj:The criterion for calculating the matrix coefficients M using the encoder is to minimize the root mean square error E which represents the squared error between the decoder outputs Yj and the original input channels / objects Xj:

Los coeficientes de matriz que minimizan E se proporcionan a continuación en notación matricial mediante:The matrix coefficients that minimize E are given below in matrix notation by:

M = (Z*Z d ) -1Z*XM = (Z * Z d) -1Z * X

siendo épsilon una constante de regularización, y (*) el operador de traspuesta conjugada compleja. Esta operación se puede realizar para cada banda paramétrica p independientemente, produciendo una matriz M[p(b)].being epsilon a regularization constant, and (*) the complex conjugate transpose operator. This operation can be performed for each parametric band p independently, producing a matrix M [p (b)].

Predicción de error mínimo cuadrático medio (MMSE) para transformación de representaciónLeast Root Mean Square Error (MMSE) Prediction for Rendering Transformation

Además de la reconstrucción de objetos y/o canales, se pueden utilizar técnicas paramétricas para transformar una representación en otra representación. Un ejemplo de dicha transformación de representación es convertir una mezcla estéreo prevista para reproducción en altavoces en una representación binaural para auriculares, o viceversa.In addition to the reconstruction of objects and / or channels, parametric techniques can be used to transform one representation into another representation. An example of such a rendering transformation is converting a stereo mix intended for loudspeaker reproduction to a binaural representation for headphones, or vice versa.

La figura 4 muestra el flujo de control para un procedimiento 50 para semejante transformación de representación. Primero se procesa audio de objeto o de canal en un codificador 52 mediante un banco de análisis de filtros espejo en cuadratura híbridos 54. Se calcula una matriz de entrega de los altavoces C y se aplica 55 a las señales de objeto Xⁱalmacenadas en el medio de almacenamiento 51, en base a los metadatos de objeto utilizando técnicas de panoramización de amplitud, con el resultado de una presentación de altavoces estéreo Z^s. Esta presentación de altavoces se puede codificar con un codificador de audio 57.Figure 4 shows the flow of control for a procedure 50 for such a representation transformation. Channel or object audio is first processed in an encoder 52 by a hybrid quadrature mirror filter analysis bank 54. A speaker delivery matrix C is calculated and applied 55 to the object signals X ⁱ stored in the storage medium 51, based on the object metadata using amplitude pan techniques, resulting in a Z ^s stereo speaker display. This speaker presentation can be encoded with an audio encoder 57.

Adicionalmente, se genera una matriz de entrega binaural H y se aplica 58 utilizando una base de datos HRTF 59. Esta matriz H se utiliza para calcular señales binaurales Y^jque permiten la reconstrucción de una mezcla binaural utilizando la mezcla de altavoces estéreo como entrada. Los coeficientes de matriz M son codificados por el codificador de audio 57.Additionally, a binaural delivery matrix H is generated and applied 58 using an HRTF database 59. This matrix H is used to calculate binaural signals Y ^j that allow the reconstruction of a binaural mix using the stereo speaker mix as input. The matrix coefficients M are encoded by the audio encoder 57.

La información transmitida se transmite del codificador 52 al descodificador 53, donde se desempaqueta 61 para incluir componentes M y Z^s. Si se utilizan altavoces como sistema de reproducción, la presentación de altavoces se reproduce utilizando información de canal Z^sy, de ese modo, se desechan los coeficientes de matriz M. Para reproducción en auriculares, por otra parte, la presentación de altavoces se transforma 62 primero en una presentación binaural aplicando la matriz variable en tiempo y frecuencia M antes de síntesis de QMF híbridos y reproducción 60.The transmitted information is transmitted from the encoder 52 to the decoder 53, where 61 is unpacked to include components M and Z ^s. If loudspeakers are used as the playback system, the loudspeaker presentation is reproduced using Z ^s channel information, thereby discarding the M matrix coefficients. For headphone playback, on the other hand, the loudspeaker presentation is transformed 62 first in a binaural presentation applying the time and frequency variable matrix M before hybrid QMF synthesis and playback 60.

Si la salida binaural deseada procedente del elemento de matrización 62 se describe en notación matricial como:If the desired binaural output from array element 62 is described in matrix notation as:

Y = XHY = XH

entonces se pueden obtener los coeficientes de matriz M en el codificador 52 como:then the matrix coefficients M can be obtained at encoder 52 as:

En esta aplicación, los coeficientes de la matriz del codificador H aplicados en 58 tienen habitualmente valores complejos, por ejemplo, teniendo un elemento de retardo o modificación de fase, para permitir el restablecimiento de diferencias temporales interaurales, que son perceptualmente muy relevantes para la ubicación de la fuente del sonido con auriculares. En otras palabras, la matriz de entrega binaural H tiene valores complejos, y por lo tanto la matriz de transformación M tiene valores complejos. Para un restablecimiento transparente perceptualmente de entradas de localización de la fuente de sonido, se ha demostrado que es deseable una resolución en frecuencia que reproduzca la resolución en frecuencia del sistema auditivo humano (Breebaart 2010).In this application, the H encoder matrix coefficients applied at 58 usually have complex values, for example, having a delay or phase shift element, to allow the resetting of interaural time differences, which are perceptually highly relevant to location from the sound source with headphones. In other words, the binaural delivery matrix H has complex values, and therefore the transformation matrix M has complex values. For perceptually transparent resetting of sound source localization inputs, a frequency resolution that reproduces the frequency resolution of the human auditory system has been shown to be desirable (Breebaart 2010).

En las secciones anteriores, se utiliza un criterio de error mínimo cuadrático medio para determinar los coeficientes de matriz M. Sin pérdida de generalidad, se pueden utilizar análogamente otros criterios o procedimientos bien conocidos, para calcular los coeficientes de matriz, con el fin de sustituir o complementar el principio del error mínimo cuadrático medio. Por ejemplo, los coeficientes de matriz M se pueden calcular utilizando términos de error de orden superior, o mediante minimización de una norma L1 (por ejemplo, criterio de desviación mínima absoluta). Además, se pueden utilizar diversos procedimientos incluyendo técnicas de optimización o factorización no negativa, estimadores no paramétricos, estimadores de máxima probabilidad y similares. Adicionalmente, los coeficientes de matriz se pueden calcular utilizando procesos iterativos o de gradiente descendente, procedimientos de interpolación, procedimientos heurísticos, programación dinámica, aprendizaje automático, optimización borrosa, recocido simulado o soluciones de forma cerrada, y técnicas de análisis por síntesis. Por último, pero no menos importante, la estimación de coeficientes de matriz se puede restringir de varios modos, por ejemplo limitando el intervalo de valores, los términos de regularización, la superposición de requisitos de conservación de energía y similares. In the previous sections, a least root mean square error criterion is used to determine the matrix coefficients M. Without loss of generality, other well-known criteria or procedures can be used analogously, to calculate the matrix coefficients, in order to substitute or complement the principle of the least mean square error. For example, matrix coefficients M can be calculated using higher order error terms, or by minimizing an L1 norm (eg, minimum absolute deviation criterion). In addition, various procedures may be used including non-negative factoring or optimization techniques, non-parametric estimators, maximum probability estimators, and the like. Additionally, matrix coefficients can be calculated using iterative or gradient-down processes, interpolation procedures, heuristics procedures, dynamic programming, machine learning, fuzzy optimization, simulated annealing or closed-form solutions, and analysis-by-synthesis techniques. Last but not least, matrix coefficient estimation can be restricted in various ways, for example by limiting the range of values, regularization terms, overlapping energy conservation requirements, and the like.

Requisitos de transformada y de banco de filtrosTransform and filter bank requirements

Dependiendo de la aplicación, y de si se tienen que reconstruir objetos o canales, determinados requisitos se pueden superponer sobre la resolución en frecuencia de banco de filtros o de transformada para la unidad de banco de filtros 41 de la figura 3. En la mayor parte de las aplicaciones prácticas, la resolución en frecuencia se hace corresponder con la resolución asumida del sistema auditivo humano, para proporcionar la mejor calidad de audio percibida para una determinada tasa de bits (determinada por el número de parámetros) y una determinada complejidad. Se sabe que el sistema auditivo humano se puede considerar como un banco de filtros con una resolución en frecuencia no lineal. Estos filtros se denominan bandas críticas (Zwicker, 1961) y son de naturaleza aproximadamente logarítmica. A frecuencias bajas, las bandas críticas tienen menos de 100 Hz de anchura, mientras que a frecuencias altas, se puede encontrar que las bandas tienen una anchura mayor de 1 kHz.Depending on the application, and whether objects or channels are to be reconstructed, certain requirements may be superimposed on the filter bank or transform frequency resolution for the filter bank unit 41 of Figure 3. For the most part For practical applications, the frequency resolution is matched with the assumed resolution of the human auditory system, to provide the best perceived audio quality for a given bit rate (determined by the number of parameters) and a given complexity. It is known that the human auditory system can be considered as a filter bank with a non-linear frequency resolution. These filters are called critical bands (Zwicker, 1961) and are approximately logarithmic in nature. At low frequencies, the critical bands are less than 100 Hz wide, while at high frequencies, the bands can be found to be greater than 1 kHz.

Este comportamiento no lineal puede plantear desafíos en materia de diseño de bancos de filtros. Las transformadas y los bancos de filtros se pueden implementar de manera muy eficiente utilizando simetrías en su estructura de procesamiento, siempre que la resolución en frecuencia sea constante a través de la frecuencia.This non-linear behavior can pose challenges in filter bank design. Transforms and filter banks can be implemented very efficiently using symmetries in their processing structure, as long as the resolution in frequency is constant across the frequency.

Esto implica que la longitud de la transformada, o el número de sub-bandas, se determinará mediante el ancho de banda crítico a bajas frecuencias, y se puede utilizar mapeo de tramos DFT sobre denominadas bandas paramétricas, para reproducir una resolución en frecuencia no lineal. Dicho proceso de mapeo se explica, por ejemplo, en Breebaart et al., (2005) y Breebaart et al., (2010). Un inconveniente de este enfoque es que se requiere una transformada muy larga para satisfacer la limitación de ancho de banda crítico de baja frecuencia, mientras que la transformada es relativamente larga (o ineficiente) a frecuencias altas. Una solución alternativa para mejorar la resolución en frecuencia a frecuencias bajas es utilizar una estructura de banco de filtros híbridos. En dicha estructura, se utiliza una cascada de dos bancos de filtros, en la que el segundo banco de filtros mejora la resolución del primero, pero solamente en unas pocas de las sub-bandas más bajas (Schuijers et al., 2004).This implies that the length of the transform, or the number of sub-bands, will be determined by the critical bandwidth at low frequencies, and mapping of DFT sections on so-called parametric bands can be used to reproduce a non-linear frequency resolution. . This mapping process is explained, for example, in Breebaart et al., (2005) and Breebaart et al., (2010). A drawback of this approach is that a very long transform is required to satisfy the critical low frequency bandwidth limitation, while the transform is relatively long (or inefficient) at high frequencies. An alternative solution to improve frequency resolution at low frequencies is to use a hybrid filter bank structure. In this structure, a cascade of two filter banks is used, in which the second filter bank improves the resolution of the first, but only in a few of the lower sub-bands (Schuijers et al., 2004).

La figura 5 muestra una clase de estructura de banco de filtros híbridos 41, similar a la establecida en los documentos de Schuijers et al. La señal de entrada z[n] es procesada primero por un banco de análisis de filtros espejo en cuadratura (CQMF, complex-valued Quadrature Mirror Filter) de valores complejos 71. A continuación, las señales se someten a muestreo descendente mediante un factor Q, por ejemplo, 72, con el resultado de señales de sub-banda Z[k, b] siendo k el índice muestra de sub-banda y b el índice de frecuencia de sub-banda. Además, por lo menos una de las señales de sub-banda resultantes es procesada por un segundo banco de filtros (Nyquist) 74, mientras que las señales de sub-banda restantes son retardadas 75 para compensar el retardo introducido por el banco de filtros de Nyquist. En este ejemplo particular, la cascada de bancos de filtros tiene como resultado 8 sub bandas (b = 1, ..., 8) que son mapeadas sobre 6 bandas paramétricas p = (1, ..., 6) con una resolución en frecuencia no lineal. Fusionándose conjuntamente las bandas 76 para formar una única banda paramétrica (p=6).Figure 5 shows a kind of hybrid filter bank structure 41, similar to that established in the documents of Schuijers et al. The input signal z [n] is first processed by a complex-valued Quadrature Mirror Filter (CQMF) analysis bank 71. The signals are then downsampled by a Q factor. , for example, 72, with the result of sub-band signals Z [k, b] with k being the sub-band sample index and b the sub-band frequency index. Furthermore, at least one of the resulting sub-band signals is processed by a second filter bank (Nyquist) 74, while the remaining sub-band signals are delayed 75 to compensate for the delay introduced by the filter bank of Nyquist. In this particular example, the filter bank cascade results in 8 subbands (b = 1, ..., 8) that are mapped onto 6 parametric bands p = (1, ..., 6) with a resolution of non-linear frequency. Bands 76 merging together to form a single parametric band (p = 6).

El beneficio de este enfoque es una complejidad menor comparada con la utilización de un único banco de filtros con muchas más sub-bandas (más estrechas). Sin embargo, el inconveniente es que el retardo del sistema global aumenta significativamente y, por consiguiente, la utilización de memoria es asimismo significativamente superior, lo que provoca un aumento en el consumo de energía.The benefit of this approach is less complexity compared to using a single filter bank with many more (narrower) subbands. However, the drawback is that the overall system delay increases significantly, and consequently the memory utilization is also significantly higher, which causes an increase in power consumption.

Limitaciones de la técnica anteriorLimitations of the prior art

Volviendo a la figura 4, se sugiere que la técnica anterior utiliza el concepto de matrización 62, posiblemente aumentado con la utilización de decorreladores, para reconstruir los canales, objetos o señales de presentación Yj partir de un conjunto de señales de base Zs. Esto conduce a la siguiente formulación matricial para describir la técnica anterior de manera genérica:Returning to Figure 4, it is suggested that the prior art uses the concept of matrixing 62, possibly augmented with the use of decorrelators, to reconstruct the channels, objects or display signals Yj from a set of base signals Zs. This leads to the following matrix formulation to describe the prior art in a generic way:

Los coeficientes de matriz M se transmiten directamente del codificador al descodificador, o bien se obtienen a partir de parámetros de localización de las fuentes de sonido, por ejemplo tal como se describe en el documento de Breebaart et al 2005 para codificación estéreo paramétrica o de Herre et al., (2008) para descodificación multicanal. Además, este enfoque se puede utilizar asimismo para restablecer diferencias de fase entre canales utilizando coeficientes de matriz de valores complejos (ver los documentos de Breebaart at al., 2010, y de Breebaart., 2005, por ejemplo).The matrix coefficients M are transmitted directly from the encoder to the decoder, or are obtained from localization parameters of the sound sources, for example as described in the document by Breebaart et al 2005 for parametric or Herre stereo coding. et al., (2008) for multichannel decoding. Furthermore, this approach can also be used to restore phase differences between channels using complex value matrix coefficients (see Breebaart at al., 2010, and Breebaart., 2005, for example).

Tal como se muestra en la figura 6, en la práctica, utilizar coeficientes de matriz de valores complejos implica que un retardo deseado 80 se representa por una aproximación de fase constante por piezas 81. Asumiendo que la respuesta de fase deseada es un retardo puro 80 con una fase decreciente linealmente con la frecuencia (línea de trazos), la operación de matrización de valores complejos de la técnica anterior tiene como resultado una aproximación constante por piezas 81 (línea continua). La aproximación se puede mejorar aumentando la resolución de la matriz M. Sin embargo, esto tiene dos desventajas importantes. Requiere un aumento de la resolución del banco de filtros, que provoca una mayor utilización de la memoria, una mayor complejidad computacional, una latencia más larga y, por lo tanto, un mayor consumo de energía. Requiere asimismo que se envíen más parámetros, provocando una mayor tasa de bits.As shown in Figure 6, in practice, using complex value matrix coefficients implies that a desired delay 80 is represented by a piecewise constant phase approximation 81. Assuming that the desired phase response is a pure delay 80 with a phase decreasing linearly with frequency (dashed line), the complex value matrix operation of the prior art results in a constant piecewise approximation 81 (solid line). The approximation can be improved by increasing the resolution of the matrix M. However, this has two major disadvantages. It requires an increase in filter bank resolution, resulting in higher memory utilization, higher computational complexity, longer latency, and therefore higher power consumption. It also requires more parameters to be sent, causing a higher bit rate.

Todas estas desventajas son especialmente problemáticas para dispositivos móviles y alimentados por batería. Seria ventajoso que estuviera disponible una solución más óptima.All of these disadvantages are especially troublesome for mobile and battery-powered devices. It would be advantageous if a more optimal solution were available.

Compendio de la invenciónCompendium of the invention

Un objetivo de la invención, en su forma preferida, es dar a conocer una forma mejorada de codificación y descodificación de señales de audio para su reproducción en diferentes presentaciones.An object of the invention, in its preferred form, is to provide an improved way of encoding and decoding audio signals for reproduction in different presentations.

De acuerdo con un primer aspecto de la presente invención, se da a conocer un procedimiento para representar una segunda presentación de canales u objetos de audio como un flujo de datos, tal como se define en la reivindicación 1. En algunas realizaciones, los parámetros de transformación asociados con frecuencias mayores no modifican la fase de la señal, mientras que para frecuencias menores, los parámetros de transformación modifican la fase de la señal. El conjunto del coeficiente de filtros puede funcionar para procesar una matriz de convolución de múltiples tomas. El conjunto de coeficientes de filtro se utiliza para procesar una banda de baja frecuencia.In accordance with a first aspect of the present invention, there is provided a method for representing a second presentation of audio channels or objects as a data stream, as defined in claim 1. In some embodiments, the parameters of Transformation associated with higher frequencies do not modify the phase of the signal, while for lower frequencies, the transformation parameters modify the phase of the signal. The filter coefficient set can function to process a multi-tap convolution matrix. The set of filter coefficients is used to process a low frequency band.

El conjunto de señales de base y el conjunto de parámetros de transformación se combinan preferentemente para formar el flujo de datos. Los parámetros de transformación pueden incluir coeficientes de matriz de audio de alta frecuencia para manipulación de matrices de una parte de alta frecuencia del conjunto de señales de base. En algunas realizaciones, para una parte de frecuencia intermedia de la parte de alta frecuencia del conjunto de señales de base, la manipulación de matrices puede incluir preferentemente parámetros de transformación de valores complejos.The set of base signals and the set of transformation parameters are preferably combined to form the data stream. The transform parameters may include high-frequency audio matrix coefficients for matrix manipulation of a high-frequency portion of the base signal set. In some embodiments, for an intermediate frequency part of the high frequency part of the base signal set, the matrix manipulation may preferably include complex value transformation parameters.

De acuerdo con otro aspecto de la presente invención, se da a conocer un descodificador para descodificar una señal de audio codificada, tal como se define en la reivindicación independiente 8.In accordance with another aspect of the present invention, there is provided a decoder for decoding an encoded audio signal, as defined in independent claim 8.

La unidad de multiplicación de matrices puede modificar la fase de los componentes de baja frecuencia de las señales de base de audio. En algunas realizaciones, los parámetros de transformación de matriz de convolución de múltiples tomas son preferentemente de valores complejos. Los parámetros de transformación de audio de alta frecuencia tienen asimismo, preferentemente, valores complejos. El conjunto de parámetros de transformación puede comprender además parámetros de transformación de audio de frecuencia superior de valores reales. En algunas realizaciones, el descodificador puede incluir además filtros para separar las señales de base de audio en los componentes de baja frecuencia y los componentes de alta frecuencia.The matrix multiplication unit can modify the phase of the low-frequency components of the audio base signals. In some embodiments, the multi-tap convolution matrix transformation parameters are preferably complex values. The high-frequency audio transformation parameters also preferably have complex values. The transformation parameter set may further comprise real valued higher frequency audio transformation parameters. In some embodiments, the decoder may further include filters to separate the audio base signals into the low-frequency components and the high-frequency components.

De acuerdo con otro aspecto de la presente invención, se da a conocer un procedimiento de descodificación de una señal de audio codificada, tal como se define en la reivindicación independiente 10.In accordance with another aspect of the present invention, a method of decoding an encoded audio signal is disclosed, as defined in independent claim 10.

En algunas realizaciones, la señal codificada puede comprender múltiples segmentos temporales, pudiendo incluir además preferentemente el procedimiento las etapas de: interpolar parámetros de transformación de múltiples segmentos temporales de la señal codificada, para producir parámetros de transformación interpolados, incluyendo parámetros de transformación de audio de baja frecuencia interpolados; y convolucionar múltiples segmentos temporales de los componentes de baja frecuencia de las señales de base de audio con los parámetros de transformación de audio de baja frecuencia interpolados, para producir múltiples segmentos temporales de los componentes de baja frecuencia convolucionados.In some embodiments, the encoded signal may comprise multiple time slots, the method preferably further including the steps of: interpolating transformation parameters from multiple time slots of the encoded signal, to produce interpolated transformation parameters, including audio transformation parameters of low frequency interpolated; and convolving multiple time slots of the low-frequency components of the audio base signals with the interpolated low-frequency audio transform parameters, to produce multiple time slots of the convolved low-frequency components.

El conjunto de parámetros de transformación de la señal de audio codificada puede ser preferentemente variable con el tiempo, y el procedimiento puede incluir además preferentemente las etapas de: convolucionar los componentes de baja frecuencia con los parámetros de transformación de baja frecuencia para múltiples segmentos temporales para producir múltiples conjuntos de componentes de baja frecuencia convolucionados intermedios; interpolar los múltiples conjuntos de componentes de baja frecuencia convolucionados intermedios para producir los componentes de baja frecuencia convolucionados.The set of encoded audio signal transformation parameters may preferably be time variable, and the method may further preferably include the steps of: convolving the low-frequency components with the low-frequency transformation parameters for multiple time slots to produce multiple sets of intermediate convoluted low-frequency components; interpolate the multiple sets of intermediate convolved low-frequency components to produce the convolved low-frequency components.

La interpolación puede utilizar un procedimiento de solapar y añadir de los múltiples conjuntos de componentes de baja frecuencia convolucionados intermedios.Interpolation can use an overlap and add procedure of the multiple sets of intermediate convolved low-frequency components.

Breve descripción de los dibujosBrief description of the drawings

A continuación se describirán realizaciones de la invención, solamente a modo de ejemplo, haciendo referencia a los dibujos adjuntos, en los cuales:Embodiments of the invention will now be described, by way of example only, with reference to the accompanying drawings, in which:

la figura 1 muestra una visión general esquemática del proceso de convolución HRIR para dos objetos fuente, siendo cada canal u objeto procesado por un par de HRIR/BRIR; Figure 1 shows a schematic overview of the HRIR convolution process for two source objects, each channel or object being processed by an HRIR / BRIR pair;

la figura 2 muestra esquemáticamente un sistema genérico de codificación paramétrica que soporta canales y objetos;Figure 2 schematically shows a generic parametric coding system supporting channels and objects;

la figura 3 muestra esquemáticamente una clase de unidad de reconstrucción de canales u objetos 30 de la figura 2, en mayor detalle;Figure 3 schematically shows one kind of channel or object reconstruction unit 30 of Figure 2, in greater detail;

la figura 4 muestra el flujo de datos de un procedimiento para transformar una presentación de altavoces estéreo en una presentación de auriculares binaural;Figure 4 shows the data flow of a method for transforming a stereo speaker display into a binaural headphone display;

la figura 5 muestra esquemáticamente la estructura de banco de filtros de análisis híbridos, según la técnica anterior; la figura 6 muestra una comparación de la respuesta de fase deseada (línea de trazos) y real (línea continua) obtenida con la técnica anterior;Figure 5 schematically shows the structure of the hybrid analysis filter bank, according to the prior art; Figure 6 shows a comparison of the desired (dashed line) and actual (solid line) phase response obtained with the prior art;

la figura 7 muestra esquemáticamente un sistema a modo de ejemplo de banco de filtros y mapeo de parámetros del codificador, de acuerdo con una realización de la invención;Figure 7 schematically shows an exemplary filter bank and encoder parameter mapping system in accordance with one embodiment of the invention;

la figura 8 muestra esquemáticamente el banco de filtros y mapeo de parámetros del descodificador, de acuerdo con una realización; yFigure 8 schematically shows the filter bank and parameter mapping of the decoder, according to one embodiment; Y

la figura 9 muestra un codificador para transformación de presentaciones estéreo a binaurales.Figure 9 shows an encoder for transformation of stereo to binaural presentations.

La figura 10 muestra esquemáticamente un descodificador para transformación de presentaciones estéreo a binaurales.Figure 10 schematically shows a decoder for transforming stereo to binaural presentations.

ReferenciasReferences

Wightman, F. L., y Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.Wightman, F. L., and Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.

Schuijers, Erik, et al. (2004). "Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society.Schuijers, Erik, et al. (2004). "Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society.

Herre, J., Kjorling, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H., ... & Chong, K. S. (2008). "MPEG surroundthe ISO/MPEG standard for efficient and compatible multichannel audio coding". Journal of the Audio Engineering Society, 56(11), 932-955.Herre, J., Kjorling, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H., ... & Chong, K. S. (2008). "MPEG surroundthe ISO / MPEG standard for efficient and compatible multichannel audio coding". Journal of the Audio Engineering Society, 56 (11), 932-955.

Herre, J., Purnhagen, H., Koppens, J., Hellmuth, O., Engdegárd, J., Hilpert, J., & Oh, H. O. (2012). "MPEG Spatial Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes". Journal of the Audio Engineering Society, 60(9), 655-673.Herre, J., Purnhagen, H., Koppens, J., Hellmuth, O., Engdegárd, J., Hilpert, J., & Oh, H. O. (2012). "MPEG Spatial Audio Object Coding-the ISO / MPEG standard for efficient coding of interactive audio scenes." Journal of the Audio Engineering Society, 60 (9), 655-673.

Brandenburg, K., & Stoll, G. (1994). "ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio". Journal of the Audio Engineering Society, 42(10), 780-792.Brandenburg, K., & Stoll, G. (1994). "ISO / MPEG-1 audio: A generic standard for coding of high-quality digital audio". Journal of the Audio Engineering Society, 42 (10), 780-792.

Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997). "ISO/IEC MPEG-2 advanced audio coding". Journal of the Audio engineering society, 45(10), 789-814.Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997). "ISO / IEC MPEG-2 advanced audio coding". Journal of the Audio engineering society, 45 (10), 789-814.

Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C., ... & Williams, P. A. (2004, octubre). "Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system". En Audio Engineering Society Convention 117. Audio Engineering Society.Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C., ... & Williams, P. A. (2004, October). "Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system". In Audio Engineering Society Convention 117. Audio Engineering Society.

Zwicker, E. (1961). "Subdivision of the audible frequency range into critical bands (Frequenzgruppen)". The Journal of the Acoustical Society of America, (33 (2)), 248.Zwicker, E. (1961). "Subdivision of the audible frequency range into critical bands (Frequenzgruppen)". The Journal of the Acoustical Society of America, (33 (2)), 248.

Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). "Parametric coding of stereo audio". EURASIP Journal on Applied Signal Processing, 2005, 1305-1322.Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). "Parametric coding of stereo audio". EURASIP Journal on Applied Signal Processing, 2005, 1305-1322.

Breebaart, J., Nater, F., & Kohlrausch, A. (2010). "Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing". Journal of the Audio Engineering Society, 58(3), 126-140.Breebaart, J., Nater, F., & Kohlrausch, A. (2010). "Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing". Journal of the Audio Engineering Society, 58 (3), 126-140.

Descripción detalladaDetailed description

Esta realización da a conocer un procedimiento para reconstruir objetos, canales o 'presentaciones' a partir de un conjunto de señales de base que se pueden aplicar en bancos de filtros con una baja resolución en frecuencia. Un ejemplo es la transformación de una presentación estéreo en una presentación binaural destinada a reproducción en auriculares, que se puede aplicar sin un banco de filtros (híbridos) de Nyquist. La resolución en frecuencia del descodificador reducida se compensa mediante una matriz de convolución, multi-toma. Esta matriz de convolución requiere solamente unas pocas tomas (por ejemplo, dos) y, en casos prácticos, se requiere solamente a bajas frecuencias. Este procedimiento (1) reduce la complejidad computacional de un descodificador, (2) reduce la utilización de memoria de un descodificador y (3) reduce la tasa de bits paramétrica.This embodiment provides a method for reconstructing objects, channels or 'displays' from a set of base signals that can be applied to filter banks with low frequency resolution. An example is the transformation of a stereo presentation to a binaural presentation intended for headphone playback, which can be applied without a Nyquist (hybrid) filter bank. The reduced decoder frequency resolution is compensated for by a convolution, multi-shot matrix. This convolution matrix it requires only a few taps (eg two) and, in practical cases, is required only at low frequencies. This procedure (1) reduces the computational complexity of a decoder, (2) reduces the memory utilization of a decoder, and (3) reduces the parametric bit rate.

En la realización preferida se da a conocer un sistema y un procedimiento para superar los requisitos no deseables de complejidad computacional y memoria del lado del descodificador. Esto se implementa disponiendo una alta resolución de frecuencia en un codificador, utilizando una resolución en frecuencia limitada (menor) en el descodificador (por ejemplo, utilizar una resolución en frecuencia que es significativamente peor que la utilizada en el codificador correspondiente) y utilizando una matriz (de convolución) multi-toma para compensar la resolución en frecuencia, reducida, del descodificador.In the preferred embodiment, a system and method are disclosed to overcome undesirable computational complexity and memory requirements on the decoder side. This is implemented by arranging a high frequency resolution in an encoder, using a limited (lower) frequency resolution in the decoder (for example, using a frequency resolution that is significantly worse than that used in the corresponding encoder), and using a matrix Multi-take (convolution) to compensate for the decoder's reduced frequency resolution.

De acuerdo con la invención, dado que se requiere una resolución de matriz de alta frecuencia solamente a bajas frecuencias, se utiliza una matriz (de convolución) multi-toma a bajas frecuencias, mientras que se utiliza una matriz (sin estado) convencional para frecuencias mayores. En otras palabras, a bajas frecuencias, la matriz representa un conjunto de filtros FIR que funcionan en cada combinación de entrada y salida, mientras que a frecuencias altas, se utiliza una matriz sin estado.According to the invention, since a high-frequency matrix resolution is required only at low frequencies, a multi-tap (convolution) matrix is used at low frequencies, while a conventional (stateless) matrix is used for frequencies. greater. In other words, at low frequencies, the matrix represents a set of FIR filters operating on each input and output combination, while at high frequencies, a stateless matrix is used.

Banco de filtros y mapeo de parámetros del codificadorFilter bank and encoder parameter mapping

La figura 7 muestra 90 un sistema de banco de filtros y mapeo de parámetros del codificador a modo de ejemplo, de acuerdo con una realización. En esta realización de ejemplo 90, 8 sub-bandas (b = 1, ...,8), por ejemplo 91, son generadas inicialmente por medio de un banco de filtros híbridos (en cascada) 92 y un banco de filtros de Nyquist 93. A continuación, las primeras cuatro sub-bandas son mapeadas 94 sobre una misma banda paramétrica (p = 1) para calcular una matriz de convolución M[k, p = 1], por ejemplo, la matriz tiene ahora un índice adicional k. Las sub-bandas restantes (b = 5, ...,8) se mapean sobre bandas paramétricas (p = 2,3) utilizando matrices sin estado M[p(b)] 95, 96. FIG. 7 shows an exemplary encoder parameter mapping and filter bank system in accordance with one embodiment. In this example embodiment 90, 8 subbands (b = 1, ..., 8), for example 91, are initially generated by means of a hybrid (cascaded) filter bank 92 and a Nyquist filter bank 93. Next, the first four sub-bands are mapped 94 onto the same parametric band (p = 1) to calculate a convolution matrix M [k, p = 1], for example, the matrix now has an additional index k . The remaining sub-bands (b = 5, ..., 8) are mapped onto parametric bands (p = 2.3) using stateless matrices M [p (b)] 95, 96.

Banco de filtros y mapeo de parámetros del descodificadorFilter bank and decoder parameter mapping

La figura 8 muestra el correspondiente sistema de banco de filtros y mapeo de parámetros 100 del descodificador, a modo de ejemplo. Por contraste con el codificador, no está presente ningún banco de filtros de Nyquist, ni hay ningún retardo para compensar el retardo del banco de filtros de Nyquist. El banco de filtros de análisis del descodificador 101 genera solamente 5 sub-bandas (b = 1, ..., 5), por ejemplo 102, que son sometidas a muestreo descendente por un factor Q. La primera sub-banda es procesada por una matriz de convolución M[k, p = 1] 103, mientras que las bandas restantes son procesadas por matrices sin estado 104, 105, de acuerdo con la técnica anterior.Figure 8 shows the corresponding decoder parameter mapping and filter bank system 100, by way of example. In contrast to the encoder, no Nyquist filter bank is present, nor is there any delay to compensate for the Nyquist filter bank delay. The decoder analysis filter bank 101 generates only 5 sub-bands (b = 1, ..., 5), for example 102, which are downsampled by a Q factor. The first sub-band is processed by a convolution matrix M [k, p = 1] 103, while the remaining bands are processed by stateless matrices 104, 105, according to the prior art.

Aunque el ejemplo anterior aplica un banco de filtros de Nyquist en el codificador 90 y una correspondiente matriz de convolución solamente para la primera sub-banda CQMF en el descodificador 100, el mismo proceso se puede aplicar a multitud de sub-bandas, sin limitarse necesariamente a solamente la sub-banda o sub-bandas más bajas. Although the above example applies a Nyquist filter bank in encoder 90 and a corresponding convolution matrix only for the first CQMF sub-band in decoder 100, the same process can be applied to a multitude of sub-bands, without necessarily limiting to only the lowest sub-band or sub-bands.

Realización del codificadorEncoder realization

Una realización que es especialmente útil está en la transformación de la presentación de altavoz a una presentación binaural. La figura 9 muestra un codificador 110 que utiliza el procedimiento propuesto para la transformación de presentación. Un conjunto de canales u objetos de entrada xⁱ[n] se transforma primero utilizando un banco de filtros 111. El banco de filtros 111 es un banco de filtros espejo en cuadratura complejos híbridos (HCQMF, hybrid complex quadrature Mirror Filter), pero se pueden utilizar igualmente otras estructuras de banco de filtros. Las representaciones de sub-banda resultantes X; [k, b] se procesan dos veces 112, 113.One embodiment that is especially useful is in transforming the loudspeaker presentation to a binaural presentation. Figure 9 shows an encoder 110 using the proposed method for presentation transformation. A set of input channels or objects x ⁱ [n] is first transformed using filter bank 111. Filter bank 111 is a Hybrid Complex Quadrature Mirror Filter (HCQMF) bank, but is they can also use other filter bank structures. The resulting subband representations X; [k, b] are processed twice 112, 113.

En primer lugar 113, para generar un conjunto de señales de base Z^s[k,b] 113 destinado a la salida del codificador. Esta salida se puede generar, por ejemplo, utilizando técnicas de panoramización de amplitud, de tal forma que las señales resultantes están destinadas a reproducción en altavoces.First 113, to generate a set of base signals Z ^s [k, b] 113 destined for the encoder output. This output can be generated, for example, using amplitude pan techniques, such that the resulting signals are intended for loudspeaker reproduction.

En segundo lugar 112, para generar un conjunto de señales transformadas deseadas Y^j[k, b] 112. Esta salida se puede generar, por ejemplo, utilizando procesamiento HRIR, de tal modo que las señales resultantes están destinadas a reproducción en auriculares. Dicho procesamiento HRIR se puede utilizar en el dominio de bancos de filtros, pero puede funcionar igualmente en el dominio de tiempo por medio de convolución HRIR. Las HRIR se obtienen de una base de datos 114.Secondly 112, to generate a set of desired transformed signals Y ^j [k, b] 112. This output can be generated, for example, using HRIR processing, such that the resulting signals are intended for playback on headphones. Such HRIR processing can be used in the filter bank domain, but it can also work in the time domain by means of HRIR convolution. HRIRs are obtained from a database 114.

La matriz de convolución Z^s[k, b] se obtiene a continuación alimentando las señales de base Z^s[k, b] a través de una línea de retardo derivada 116. Cada una de las tomas de estas líneas de retardo sirve como entrada adicional a una etapa de predictor MMSE 115. La etapa de predictor MMSE calcula la matriz de convolución M [k, p] que minimiza el error entre las señales transformadas deseadas Y^j[k, b] y la salida del descodificador 100 de la figura 8, aplicando matrices de convolución. Se sigue entonces que los coeficientes de matriz M[k, p] están dados por:The convolution matrix Z ^s [k, b] is then obtained by feeding the base signals Z ^s [k, b] through a derived delay line 116. Each of the taps of these delay lines serves as input additional to an MMSE predictor stage 115. The MMSE predictor stage calculates the convolution matrix M [k, p] that minimizes the error between the desired transformed signals Y ^j [k, b] and the output of the decoder 100 of the figure 8, applying convolution matrices. It follows then that the matrix coefficients M [k, p] are given by:

En esta formulación, la matriz Z contiene todas las entradas de las líneas de retardo derivadas. In this formulation, the matrix Z contains all the inputs of the derived delay lines.

Tomando inicialmente el caso para la reconstrucción de una señal Y[k] para una sub-banda determinada b, donde existen A entradas desde las líneas de retardo derivadas, se tiene:Taking initially the case for the reconstruction of a signal Y [k] for a given sub-band b, where there are A inputs from the derived delay lines, we have:

Los coeficientes de matriz de convolución resultantes M [k, p] son cuantificados, codificados y transmitidos junto con las señales de base zs[n]. El descodificador puede utilizar a continuación un proceso de convolución para reconstruir Y[k, b] a partir de señales de entrada Zs [k, b].The resulting convolution matrix coefficients M [k, p] are quantized, encoded, and transmitted along with the base signals zs [n]. The decoder can then use a convolution process to reconstruct Y [k, b] from input signals Zs [k, b].

Y[k, b] = ^ Zs [k, b] * ms [., b]Y [k, b] = ^ Zs [k, b] * ms [., B]

SS

o escrito de otra manera, utilizando una expresión de convolución:or written another way, using a convolution expression:

^A—1 ^A —1

Y[k,b] = ^ ^ Zs [k - a, b]ms [a, b]Y [k, b] = ^ ^ Zs [k - a, b] ms [a, b]

s a=0s a = 0

El enfoque de convolución se pueden mezclar con un proceso de matriz lineal (sin estado).The convolution approach can be mixed with a linear array process (stateless).

Se puede realizar otra distinción entre matrización sin estado de valores complejos y de valores reales. A frecuencias bajas (habitualmente por debajo de 1 kHz), es preferible el proceso de convolución (A>1) para permitir la reconstrucción de propiedades intercanal en línea con una escala de frecuencia perceptual. A frecuencias medias, hasta 2 o 3 kHz, el sistema auditivo humano es sensible a diferencias de fase intercanal, pero no requiere una alta resolución de frecuencia para la reconstrucción de dicha fase. Esto implica que basta una única matriz de valor complejo, de una sola toma (sin estado). Para frecuencias superiores, el sistema auditivo humano es virtualmente insensible a la fase de estructura fina de la forma de onda, y basta con una matrización sin estado, de valores reales. Con frecuencias crecientes, el número de salidas de banco de filtros mapeadas sobre una banda paramétrica se incrementa habitualmente para reflejar la resolución en frecuencia no lineal del sistema auditivo humano.Another distinction can be made between stateless arrays of complex values and real values. At low frequencies (usually below 1 kHz), the convolution process (A> 1) is preferable to allow reconstruction of interchannel properties in line with a perceptual frequency scale. At medium frequencies, up to 2 or 3 kHz, the human auditory system is sensitive to interchannel phase differences, but does not require high frequency resolution for interchannel phase reconstruction. This implies that a single complex-valued, single-shot (stateless) array suffices. For higher frequencies, the human auditory system is virtually insensitive to the fine-structure phase of the waveform, and a stateless, real-value matrix is sufficient. With increasing frequencies, the number of filter bank outputs mapped onto a parametric band is typically increased to reflect the non-linear frequency resolution of the human auditory system.

En otra realización, la primera y la segunda presentaciones en el codificador se intercambian, por ejemplo, la primera presentación se destina a reproducción en auriculares, y la segunda presentación se destina a reproducción en altavoces. En esta realización, la presentación de altavoces (segunda presentación) se genera aplicando parámetros de transformación dependientes del tiempo en, por lo menos, dos bandas de frecuencia a la primera presentación, donde se especifica además que los parámetros de transformación incluyen un conjunto de coeficientes de filtro para por lo menos una de las bandas de frecuencia.In another embodiment, the first and second displays at the encoder are swapped, for example, the first display is intended for headphone playback, and the second display is intended for speaker playback. In this embodiment, the loudspeaker presentation (second presentation) is generated by applying time-dependent transformation parameters in at least two frequency bands to the first presentation, where it is further specified that the transformation parameters include a set of coefficients filter for at least one of the frequency bands.

En algunas realizaciones, la primera presentación se puede dividir temporalmente en una serie de segmentos, con un conjunto independiente de parámetros de transformación para cada segmento. En un refinamiento adicional, cuando no hay parámetros de transformación disponibles, los parámetros se pueden interpolar desde coeficientes anteriores.In some embodiments, the first display can be temporarily divided into a series of segments, with a separate set of transformation parameters for each segment. In further refinement, when no transformation parameters are available, the parameters can be interpolated from previous coefficients.

Realización del descodificadorRealization of the decoder

La figura 10 muestra una realización del descodificador 120. El flujo de bits de entrada 121 se divide en un flujo de bits de señal de base 131 y datos de parámetros de transformación 124. A continuación, un descodificador de señales de base 123 descodifica las señales de base z[n], que se procesan a continuación mediante un banco de filtros de análisis 125. Las señales resultantes del dominio de frecuencia Z[k,b] con sub-banda b = 1, ..., 5 son procesadas por unidades de multiplicación de matrices 126, 129 y 130. En particular, la unidad de multiplicación de matrices 126 aplica una matriz de convolución de valores complejos M[k,p=1] a la señal del dominio de frecuencia Z[k, b=1]. Además, la unidad de multiplicador de matrices 129 aplica coeficientes de matriz de valor complejo, de una sola toma, M[p=2], a la señal Z[k, b=2]. Por último, la unidad de multiplicación de matrices 130 aplica coeficientes de matriz de valores reales M[p=3] a señales del dominio de frecuencia Z[k, b=3...5]. Las señales de salida de la unidad de multiplicación de matrices se convierten en una salida en el dominio de tiempo 128 por medio de un banco de filtros de síntesis 127. Las referencias a z[n], Z[k], etc., se refieren al conjunto de señales de base, no a una señal de base específica. Por lo tanto, z[n], Z[k], etc., se pueden interpretar como z^s[n], Z^s[k], etc., donde 0 < s < N y N es el número de señales de base.Figure 10 shows an embodiment of the decoder 120. The input bit stream 121 is divided into a base signal bit stream 131 and transform parameter data 124. Next, a base signal decoder 123 decodes the signals. of base z [n], which are then processed by a bank of analysis filters 125. The signals resulting from the frequency domain Z [k, b] with sub-band b = 1, ..., 5 are processed by matrix multiplication units 126, 129 and 130. In particular, matrix multiplication unit 126 applies a convolution matrix of complex values M [k, p = 1] to the frequency domain signal Z [k, b = 1]. In addition, the matrix multiplier unit 129 applies one-shot, complex-valued matrix coefficients, M [p = 2], to the signal Z [k, b = 2]. Finally, the matrix multiplication unit 130 applies real value matrix coefficients M [p = 3] to signals in the frequency domain Z [k, b = 3 ... 5]. The output signals from the matrix multiplication unit are converted into time domain output 128 by means of a synthesis filter bank 127. References az [n], Z [k], etc., refer to to the set of base signals, not to a specific base signal. Therefore, z [n], Z [k], etc., can be interpreted as z ^s [n], Z ^s [k], etc., where 0 <s < N and N is the number of base signals.

En otras palabras, la unidad de multiplicación de matrices 126 determina muestras de salida de la sub-banda b=1 de una señal de salida Y[k] a partir de combinaciones ponderadas de muestras actuales de la sub-banda b=1 de señales de base Z[k] y muestras anteriores de la sub-banda b=1 de señales de base Z[k], (por ejemplo Z[k-a], donde 0 < a < A, y A es mayor que 1). Las ponderaciones utilizadas para determinar las muestras de salida de la sub banda b=1 de la señal de salida Y[k] corresponden a la matriz de convolución de valores complejos M[k, p=1] para la señal.In other words, the matrix multiplication unit 126 determines subband b = 1 output samples of an output signal Y [k] from weighted combinations of current subband b = 1 samples of signals. base Z [k] and previous samples of sub-band b = 1 of base signals Z [k], (for example Z [ka], where 0 <a <A, and A is greater than 1). The weights used to determine the output samples of the subband b = 1 of the output signal Y [k] correspond to the convolution matrix of complex values M [k, p = 1] for the signal.

Además, la unidad de multiplicador de matrices 129 determina muestras de salida de la sub-banda b=2 de la señal de salida Yj[k] a partir de combinaciones ponderadas de muestras actuales de sub-banda b=2 de las señales de base Z[k]. Las ponderaciones utilizadas para determinar las muestras de salida de la sub-banda b=2 de la señal de salida V¡[k] corresponden a los coeficientes de matriz de una sola toma, de valores complejos, M[p=2].In addition, the array multiplier unit 129 determines subband b = 2 output samples of the output signal Yj [k] from weighted combinations of current subband b = 2 samples of the base signals. Z [k]. The weights used to determine the output samples of the sub-band b = 2 of the output signal V, [k] correspond to the one-shot matrix coefficients of complex values, M [p = 2].

Finalmente, la unidad de multiplicador de matrices 130 determina muestras de salida de las sub-bandas b=3...5 de la señal de salida Yj[k] a partir de combinaciones ponderadas de muestras actuales de sub-bandas b=3...5 de las señales de base Z[k]. Las ponderaciones utilizadas para determinar muestras de salida de las sub-bandas b=3...5 de la señal de salida Y[k] corresponden a los coeficientes de matriz de valores reales M[p=3].Finally, the matrix multiplier unit 130 determines output samples of the sub-bands b = 3 ... 5 of the output signal Yj [k] from weighted combinations of current samples of sub-bands b = 3. ..5 of the base signals Z [k]. The weights used to determine output samples of the sub-bands b = 3 ... 5 of the output signal Y [k] correspond to the matrix coefficients of real values M [p = 3].

En algunos casos, el descodificador de señal de base 123 puede funcionar sobre señales a la misma resolución en frecuencia que la proporcionada por el banco de filtros de análisis 125. En dichos casos, el descodificador de señal de base 125 puede estar configurado para entregar señales en el dominio de frecuencia Z[k] en lugar de señales en el dominio de tiempo z[n], en cuyo caso se puede omitir el banco de filtros de análisis 125. Además, en algunos casos, puede ser preferible aplicar coeficientes de matriz de una sola toma, de valores complejos, en lugar de coeficientes de matriz de valores reales, a señales en el dominio de frecuencia Z[k, b = 3....5].In some cases, the base signal decoder 123 may operate on signals at the same resolution in frequency as that provided by the analysis filter bank 125. In such cases, the base signal decoder 125 may be configured to deliver signals. in the frequency domain Z [k] rather than signals in the time domain z [n], in which case the analysis filter bank 125 can be omitted. Also, in some cases, it may be preferable to apply matrix coefficients single tap, from complex values, rather than real-value matrix coefficients, to signals in the Z frequency domain [k, b = 3 .... 5].

En la práctica, los coeficientes de matriz M se pueden actualizar con el tiempo; por ejemplo, asociando tramas individuales de las señales de base con coeficientes de matriz M. Alternativa o adicionalmente, los coeficientes de matriz M se complementan con marcas de tiempo, que indican en qué tiempo o intervalo de señales de base z[n] se deberían aplicar las matrices. Para reducir la tasa de bits de transmisión asociada con actualizaciones de matrices, el número de actualizaciones se limita de forma ideal, con el resultado de una distribución de actualizaciones de matriz dispersa en el tiempo. Dichas actualizaciones infrecuentes de matrices requieren procesamiento dedicado para garantizar transiciones suaves de una instancia de la matriz a la siguiente. Las matrices M se pueden proporcionar asociadas con segmentos de tiempo (tramas) específicos y/o zonas de frecuencia de las señales de base Z. El descodificador puede utilizar diversos procedimientos de interpolación para garantizar una transición suave desde instancias subsiguientes de la matriz M con el tiempo. Un ejemplo de dicho procedimiento de interpolación es calcular tramas en ventana, solapadas, de las señales Z y calcular un correspondiente conjunto de señales de salida Y para cada una de dichas tramas utilizando los coeficientes de matriz M asociados con dicha trama particular. Las tramas subsiguientes pueden a continuación agregarse utilizando una técnica de solapar-añadir que proporciona una transición suave de desvanecimiento cruzado. Alternativamente, el descodificador puede recibir marcas de tiempo asociadas con matrices M, que describen los coeficientes de matriz deseados en instancias de tiempo específicas. Para muestras de audio entre marcas de tiempo, los coeficientes de matriz de la matriz M se pueden interpolar utilizando medios lineales, cúbicos, limitados en banda u otros, para que la interpolación garantice transiciones suaves. Junto a la interpolación a través del tiempo, se pueden utilizar técnicas similares para interpolar coeficientes de matriz a través de la frecuencia.In practice, the matrix coefficients M can be updated over time; for example, associating individual frames of the base signals with matrix coefficients M. Alternatively or additionally, the matrix coefficients M are complemented with timestamps, which indicate in which time or interval of base signals z [n] they should be apply the matrices. To reduce the transmission bit rate associated with matrix updates, the number of updates is ideally limited, resulting in a time-sparse distribution of matrix updates. Such infrequent array updates require dedicated processing to ensure smooth transitions from one instance of the array to the next. The M matrices can be provided associated with specific time slots (frames) and / or frequency zones of the base Z signals. The decoder can use various interpolation procedures to ensure a smooth transition from subsequent instances of the M matrix with the weather. An example of such an interpolation procedure is to compute overlapping, windowed frames of the Z signals and to compute a corresponding set of Y output signals for each of said frames using the matrix coefficients M associated with that particular frame. Subsequent screens can then be added using an overlap-add technique that provides a smooth crossfade transition. Alternatively, the decoder may receive timestamps associated with matrices M, which describe the desired matrix coefficients at specific time instances. For audio samples between timestamps, the matrix coefficients of the M matrix can be interpolated using linear, cubic, band-limited, or other means, so that the interpolation ensures smooth transitions. Along with interpolation over time, similar techniques can be used to interpolate matrix coefficients across frequency.

Por lo tanto, el presente documento describe un procedimiento (y un correspondiente codificador 90) para representar una segunda presentación de canales u objetos de audio X; como un flujo de datos que se tiene que transmitir o proporcionar a un correspondiente descodificador 100. El procedimiento comprende la etapa de proporcionar señales de base Z^s, representando dichas señales de base una primera presentación de los canales u objetos de audio Xⁱ. Tal como se ha esbozado anteriormente, las señales de base Z^sse pueden determinar a partir de canales u objetos de audio Xⁱutilizando primeros parámetros de entrega G (es decir, utilizando notablemente una primera matriz de ganancia, por ejemplo, para panoramización de amplitud). La primera presentación puede estar destinada a reproducción en altavoces o a reproducción en auriculares. Por otra parte, la segunda presentación puede estar destinada a reproducción en auriculares o a reproducción en altavoces. Por lo tanto, se puede llevar a cabo una transformación de reproducción en altavoces a reproducción en auriculares (o viceversa).Therefore, the present document describes a method (and a corresponding encoder 90) for representing a second presentation of X audio channels or objects; as a data stream to be transmitted or provided to a corresponding decoder 100. The method comprises the step of providing base signals Z ^s , said base signals representing a first presentation of the audio channels or objects X ⁱ . As outlined above, the base signals Z ^s can be determined from channels or audio objects X ⁱ using first delivery parameters G (i.e. notably using a first gain matrix, for example for pan panning). amplitude). The first presentation may be intended for loudspeaker playback or headphone playback. On the other hand, the second presentation may be intended for headphone playback or loudspeaker playback. Thus, a transformation from loudspeaker playback to headphone playback (or vice versa) can be carried out.

El procedimiento comprende además proporcionar parámetros de transformación M (notablemente, una o varias matrices de transformación), estando previstos dichos parámetros de transformación M para transformar las señales de base Z^sde dicha primera presentación en señales de salida Y^jde dicha segunda presentación. Los parámetros de transformación se pueden determinar tal como se esboza en el presente documento. En particular, las señales de salida deseadas Y^jpara la segunda presentación se pueden determinar a partir de los canales u objetos de audio Xⁱutilizando segundos parámetros de entrega C (tal como se esboza en el presente documento). Los parámetros de transformada M se pueden determinar minimizando la desviación de las señales de salida Y^jrespecto de las señales de salida deseadas Y^j(por ejemplo, utilizando un criterio de mínimo error cuadrático medio).The method further comprises providing transformation parameters M (notably, one or more transformation matrices), said transformation parameters M being provided to transform the base signals Z ^s of said first presentation into output signals Y ^j of said second presentation. The transformation parameters can be determined as outlined herein. In particular, the desired output signals Y ^j for the second presentation can be determined from the channels or audio objects X ⁱ using second delivery parameters C (as outlined herein). The transform parameters M can be determined by minimizing the deviation of the output signals Y ^j from the desired output signals Y ^j (eg, using a least root mean square error criterion).

Aún más particularmente, los parámetros de transformada M se pueden determinar en el dominio de sub-banda (es decir, para diferentes bandas de frecuencia). Para este propósito, las señales de base en el dominio de sub-banda Z[k,b] se pueden determinar para P bandas de frecuencia utilizando un banco de filtros del codificador 92, 93. El número B de bandas de frecuencia es mayor que uno, por ejemplo B es igual o mayor que 4, 6, 8, 10. En los ejemplos descritos en el presente documento, B=8 o B=5. Tal como se ha esbozado anteriormente, el banco de filtros del codificador 92, 93 puede comprender un banco de filtros híbridos que proporciona bandas de baja frecuencia B, teniendo las B bandas de frecuencia una resolución en frecuencia mayor que las bandas de alta frecuencia de las B bandas de frecuencia. Además, se pueden determinar señales de salida deseadas en el dominio de sub-banda Y[k,b] para las B bandas de frecuencia. Los parámetros de transformada M para una o varias bandas de frecuencia se pueden determinar minimizando la desviación de las señales de salida Y^jrespecto de las señales de salida deseadas Y^jdentro de una o varias bandas de frecuencia (por ejemplo, utilizando un criterio de error cuadrático medio mínimo).Even more particularly, the M transform parameters can be determined in the sub-band domain (ie i.e. for different frequency bands). For this purpose, the base signals in the sub-band domain Z [k, b] can be determined for P frequency bands using a filter bank of the encoder 92, 93. The number B of frequency bands is greater than one, for example B is equal to or greater than 4, 6, 8, 10. In the examples described herein, B = 8 or B = 5. As outlined above, the encoder filter bank 92, 93 may comprise a hybrid filter bank providing low-frequency bands B, the B frequency bands having a higher frequency resolution than the high-frequency bands of the B frequency bands. Furthermore, desired output signals in the Y sub-band domain [k, b] can be determined for the B frequency bands. The transform parameters M for one or more frequency bands can be determined by minimizing the deviation of the output signals Y ^j from the desired output signals Y ^j within one or more frequency bands (for example, using a criterion of least mean square error).

Por lo tanto, se puede especificar cada uno de los parámetros de transformación M para, por lo menos, dos bandas de frecuencia (notablemente, para P bandas de frecuencia). Además, los parámetros de transformación pueden incluir un conjunto de parámetros de matriz de convolución de múltiples tomas para por lo menos una de las bandas de frecuencia.Therefore, each of the M transform parameters can be specified for at least two frequency bands (notably, for P frequency bands). In addition, the transform parameters may include a set of multi-tap convolution matrix parameters for at least one of the frequency bands.

Por lo tanto, se describe un procedimiento (y un correspondiente descodificador) para determinar señales de salida de una segunda presentación de canales/objetos de audio a partir de señales de base de una primera presentación de los objetos/canales de audio. La primera presentación se puede utilizar para reproducción en altavoces y la segunda presentación se puede utilizar para reproducción en auriculares (o viceversa). Las señales de salida se determinan utilizando parámetros de transformación para diferentes bandas de frecuencia, donde los parámetros de transformación para por lo menos una de las bandas de frecuencia comprenden parámetros de matriz de convolución de múltiples tomas. Como resultado de utilizar parámetros de matriz de convolución de múltiples tomas para por lo menos una de las bandas de frecuencia, se puede reducir la complejidad computacional de un descodificador 100, notablemente reduciendo la resolución en frecuencia de un banco de filtros utilizado por el descodificador.Therefore, a method (and a corresponding decoder) is described for determining output signals of a second presentation of audio channels / objects from base signals of a first presentation of the audio objects / channels. The first presentation can be used for speaker playback and the second presentation can be used for headphones playback (or vice versa). The output signals are determined using transform parameters for different frequency bands, where the transform parameters for at least one of the frequency bands comprise multi-tap convolution matrix parameters. As a result of using multi-tap convolution matrix parameters for at least one of the frequency bands, the computational complexity of a decoder 100 can be reduced, notably by reducing the frequency resolution of a filter bank used by the decoder.

Por ejemplo, determinar una señal de salida para una primera banda de frecuencia utilizando parámetros de matriz de convolución de múltiples tomas puede comprender determinar una muestra actual de la primera banda de frecuencia de la señal de salida como una combinación ponderada de muestras actual, y una o varias anteriores, de la primera banda de frecuencia de las señales de base, donde las ponderaciones utilizadas para determinar la combinación ponderada corresponden a los parámetros de matriz de convolución de múltiples tomas para la primera banda de frecuencia. Habitualmente, uno o varios de los parámetros de matriz de convolución de múltiples tomas para la primera banda de frecuencia tienen valores complejos.For example, determining an output signal for a first frequency band using multi-tap convolution matrix parameters may comprise determining a current sample from the first frequency band of the output signal as a weighted combination of current samples, and a or several above, of the first frequency band of the base signals, where the weights used to determine the weighted combination correspond to the multi-tap convolution matrix parameters for the first frequency band. Typically, one or more of the multi-tap convolution matrix parameters for the first frequency band have complex values.

Además, determinar una señal de salida para una segunda banda de frecuencia puede comprender determinar una muestra actual de la segunda banda de frecuencia de la señal de salida como una combinación ponderada de muestras actuales de la segunda banda de frecuencia de las señales de base (y no basada en muestras anteriores de la segunda banda de frecuencia de la señal de base), donde las ponderaciones utilizadas para determinar la combinación ponderada corresponden a parámetros de transformación para la segunda banda de frecuencia. Los parámetros de transformación para la segunda banda de frecuencia pueden tener valores complejos, o alternativamente pueden tener valores reales.Furthermore, determining an output signal for a second frequency band may comprise determining a current sample from the second frequency band of the output signal as a weighted combination of current samples from the second frequency band of the base signals (and not based on previous samples of the second frequency band of the base signal), where the weights used to determine the weighted combination correspond to transformation parameters for the second frequency band. The transformation parameters for the second frequency band can have complex values, or alternatively they can have real values.

En particular, se puede determinar el mismo conjunto de parámetros de matriz de convolución de múltiples tomas para, por lo menos, dos bandas de frecuencia adyacentes de las B bandas de frecuencia. Tal como se muestra en la figura 7, se puede determinar un único conjunto de parámetros de matriz de convolución de múltiples tomas para las bandas de frecuencia proporcionadas por el banco de filtros de Nyquist (es decir, para las bandas de frecuencia que tienen una relativamente alta resolución de frecuencia). Haciendo esto, se puede omitir la utilización de un banco de filtros de Nyquist dentro del descodificador 100, reduciendo de ese modo la complejidad computacional del descodificador 100 (mientras se mantiene la calidad de las señales de salida para la segunda presentación).In particular, the same set of multi-tap convolution matrix parameters can be determined for at least two adjacent frequency bands of the B frequency bands. As shown in Figure 7, a single set of multi-tap convolution matrix parameters can be determined for the frequency bands provided by the Nyquist filter bank (that is, for frequency bands that have a relatively high frequency resolution). By doing this, the use of a Nyquist filter bank within decoder 100 can be omitted, thereby reducing the computational complexity of decoder 100 (while maintaining the quality of the output signals for the second presentation).

Además, se puede determinar el mismo parámetro de transformada de valores reales para, por lo menos, dos bandas de alta frecuencia adyacentes (tal como se muestra en el contexto de la figura 7). Con ello, se puede reducir más la complejidad computacional del descodificador 100 (manteniendo al mismo tiempo la calidad de las señales de salida para la segunda presentación).Furthermore, the same real-value transform parameter can be determined for at least two adjacent high-frequency bands (as shown in the context of Figure 7). Thus, the computational complexity of the decoder 100 can be further reduced (while maintaining the quality of the output signals for the second presentation).

InterpretaciónInterpretation

La referencia en toda esta memoria descriptiva a "una realización" o "algunas realizaciones" significa que un aspecto particular, estructura o característica descritas en relación con la realización se incluye, por lo menos, en una realización de la presente invención. Por lo tanto, las apariciones de las expresiones "en una realización" o "en algunas realizaciones" en varios lugares en toda esta memoria descriptiva no se refieren necesariamente todas a la misma realización, pero pueden hacerlo. Además, los aspectos, estructuras o características particulares se pueden combinar de cualquier modo adecuado, tal como será evidente para un experto en la materia de esta invención, en una o varias realizaciones. Reference throughout this specification to "one embodiment" or "some embodiments" means that a particular aspect, structure, or feature described in connection with the embodiment is included in at least one embodiment of the present invention. Therefore, the occurrences of the terms "in one embodiment" or "in some embodiments" in various places throughout this specification do not necessarily all refer to the same embodiment, but may. Furthermore, the particular aspects, structures or characteristics can be combined in any suitable way, as will be apparent to one skilled in the art of this invention, in one or more embodiments.

Tal como se utiliza en la presente memoria, salvo que se especifique lo contrario, la utilización de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, indican tan sólo que se está aludiendo a diferentes instancias de objetos similares, y no pretenden implicar que los objetos así descritos tengan que encontrarse en una secuencia determinada, ya sea temporal, espacialmente, en orden o de cualquier otro modo. En las siguientes reivindicaciones y la descripción de la presente memoria, cualesquiera de las expresiones comprende, comprendido en, o que comprende, es una expresión abierta que significa que incluye por lo menos los elementos/características que siguen, pero sin excluir otros. Por lo tanto, la expresión que comprende, cuando se utiliza en las reivindicaciones, no se deberá interpretar como que se limita a los medios o elementos o etapas enumerados a continuación. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no se deberá limitar a dispositivos que consisten solamente en los elementos A y B. Cualesquiera de las expresiones incluye, o que incluye, tal como se utilizan en la presente memoria, es asimismo una expresión abierta que significa asimismo que incluye por lo menos los elementos/características que siguen la expresión, pero sin excluir otros. Por lo tanto, que incluye es sinónimo de un medio que comprende.As used herein, unless otherwise specified, the use of the ordinal adjectives "first", "second", "third", etc., to describe a common object, indicates only that it is being alluded to. to different instances of similar objects, and is not intended to imply that the objects thus described have to be found in a certain sequence, whether temporally, spatially, in order or in any other way. In the following claims and the description herein, any of the terms "comprise," or "comprising" is an open term meaning that it includes at least the following elements / features, but not excluding others. Therefore, the term comprising, when used in the claims, should not be construed as being limited to the means or elements or steps listed below. For example, the scope of the term a device comprising A and B should not be limited to devices consisting only of the elements A and B. Any of the terms includes, or includes, as used herein, it is also an open expression which also means that it includes at least the elements / characteristics that follow the expression, but without excluding others. Therefore, including is synonymous with a medium that understands.

Tal como se utiliza en la presente memoria, la expresión "a modo de ejemplo" se utiliza en el sentido de proporcionar ejemplos, no indicando calidad. Es decir, una "realización a modo de ejemplo" es una realización proporcionada como ejemplo, sin que sea necesariamente una realización de calidad ejemplar.As used herein, the term "exemplary" is used in the sense of providing examples, not indicating quality. That is, an "exemplary embodiment" is an embodiment provided as an example, without necessarily being an embodiment of exemplary quality.

Se apreciará que en la descripción anterior de realizaciones a modo de ejemplo de la invención, en ocasiones se agrupan diversas características de la invención conjuntamente en una única realización, figura o descripción de la misma con el objeto de simplificar la descripción y de ayudar a la comprensión de uno o varios de los diversos aspectos inventivos. Sin embargo, no se debe interpretar que este método de la invención refleja la intención de que la invención reivindicada requiere más características de las expresamente enumeradas en cada reivindicación. Por el contrario, tal como reflejan las siguientes reivindicaciones, los aspectos inventivos residen en menos de todas las características de una única realización dada a conocer en lo anterior. Por lo tanto, las reivindicaciones que siguen a la descripción detallada se incorporan expresamente de este modo a esta descripción detallada, funcionando cada reivindicación por sí misma como una realización independiente de esta invención.It will be appreciated that in the foregoing description of exemplary embodiments of the invention, various features of the invention are sometimes grouped together in a single embodiment, figure, or description thereof for the purpose of simplifying the description and assisting in the understanding one or more of the various inventive aspects. However, this method of the invention should not be construed as reflecting the intention that the claimed invention requires more features than are expressly enumerated in each claim. Rather, as reflected in the following claims, the inventive aspects reside in less than all the features of a single embodiment disclosed in the foregoing. Therefore, the claims that follow the detailed description are hereby expressly incorporated into this detailed description, each claim functioning by itself as an independent embodiment of this invention.

Además, aunque algunas realizaciones descritas en la presente memoria incluyen parte, pero no todas las características incluidas en otras realizaciones, se entiende que las combinaciones de características de diferentes realizaciones están dentro del alcance de la invención, y forman diferentes realizaciones, tal como comprenderán los expertos en la materia. Por ejemplo, en las siguientes reivindicaciones, cualquiera de las realizaciones reivindicadas se puede utilizar en cualquier combinación.Furthermore, while some embodiments described herein include part, but not all of the features included in other embodiments, it is understood that combinations of features from different embodiments are within the scope of the invention, and form different embodiments, as will be understood by the subject matter experts. For example, in the following claims, any of the claimed embodiments can be used in any combination.

Además, algunas de las realizaciones se describen en la presente memoria como un procedimiento o combinación de elementos de un procedimiento que se puede implementar mediante un procesador de un sistema informático, o por otros medios para llevar a cabo la función. Por lo tanto, un procesador con las instrucciones necesarias para llevar a cabo dicho procedimiento o elemento de un procedimiento, forma un medio para llevar a cabo el procedimiento o elemento de un procedimiento. Además, un elemento descrito en la presente memoria de una realización de aparato es un ejemplo de un medio para llevar a cabo la función realizada por el elemento con el propósito de llevar a cabo la invención.Furthermore, some of the embodiments are described herein as a method or combination of elements of a method that can be implemented by a processor of a computer system, or by other means to carry out the function. Therefore, a processor with the instructions necessary to carry out said procedure or element of a procedure, forms a means for carrying out the procedure or element of a procedure. Furthermore, an element described herein of an apparatus embodiment is an example of a means for carrying out the function performed by the element for the purpose of carrying out the invention.

En la descripción dada a conocer en la presente memoria, se exponen numerosos detalles específicos. Sin embargo, se comprende que las realizaciones de la invención se pueden practicar sin estos detalles específicos. En otros casos, procedimientos, estructuras y técnicas bien conocidas no se han mostrado en detalle para no obscurecer la comprensión de esta descripción.In the description disclosed herein, numerous specific details are set forth. However, it is understood that embodiments of the invention can be practiced without these specific details. In other cases, well known procedures, structures and techniques have not been shown in detail so as not to obscure an understanding of this disclosure.

De manera similar, cabe destacar que no se debe interpretar que la expresión acoplado, cuando se utiliza en las reivindicaciones, se limita solamente a conexiones directas. Se pueden utilizar las expresiones "acoplado" y "conectado", junto con sus derivados. Se debe entender que estas expresiones no se consideran sinónimos entre sí. Por lo tanto, el alcance de la expresión un dispositivo A acoplado a un dispositivo B no se debe limitar a dispositivos o sistemas en los que una salida de un dispositivo A esté conectada directamente una entrada del dispositivo B. Esto significa que existe un trayecto entre una salida de A y una entrada de B que puede ser un trayecto que incluya otros dispositivos o medios. "Acoplado" puede significar que dos o más elementos están en contacto directo físico o eléctrico, o bien que dos o más elementos no están en contacto directo entre sí pero siguen no obstante cooperando o interactuando entre sí.Similarly, it should be noted that the term coupled, when used in the claims, should not be construed as being limited to direct connections only. The expressions "docked" and "connected" can be used, together with their derivatives. It should be understood that these expressions are not considered synonymous with each other. Therefore, the scope of the expression a device A coupled to a device B should not be limited to devices or systems in which an output of device A is directly connected to an input of device B. This means that there is a path between an output from A and an input from B which can be a path that includes other devices or media. "Coupled" can mean that two or more elements are in direct physical or electrical contact, or that two or more elements are not in direct contact with each other but are nonetheless cooperating or interacting with each other.

Por lo tanto, aunque se han descrito las que se consideran realizaciones preferidas de la invención, los expertos en la materia reconocerán que se pueden realizar a aquellas otras modificaciones sin apartarse del alcance la invención, tal como se define en las reivindicaciones adjuntas, y se pretende reivindicar que la totalidad de dichos cambios y modificaciones quedan dentro del alcance de la invención. Por ejemplo, cualesquiera fórmulas proporcionadas en lo anterior son tan sólo representativas de procedimientos que se pueden utilizar. Se puede añadir o eliminar funcionalidad de los diagramas de bloques, y se pueden intercambiar operaciones entre bloques funcionales. Se pueden añadir o eliminar etapas a los procedimientos descritos, dentro del alcance de la presente invención. Therefore, although what are considered preferred embodiments of the invention have been described, those skilled in the art will recognize that those other modifications can be made without departing from the scope of the invention, as defined in the appended claims, and are it is intended to claim that all such changes and modifications are within the scope of the invention. For example, any formulas provided above are only representative of procedures that can be used. Functionality can be added or removed from block diagrams, and operations can be exchanged between function blocks. Steps may be added or removed to the procedures described, within the scope of the present invention.

Claims

1. A procedure for representing a second presentation of audio channels or objects as a data stream, the procedure comprising the steps of:

(a) providing base signals, said base signals representing a first presentation of the audio channels or objects;

(b) providing transformation parameters, said transformation parameters being provided to transform the base signals of said first presentation into output signals of said second presentation, said transformation parameters including at least specified high-frequency transformation parameters for a upper frequency band and low-frequency transform parameters specified for a lower frequency band, the low-frequency transform parameters including a set of multi-tap convolution matrix parameters to convolve low-frequency components of the base signals with the low-frequency transformation parameters to produce convoluted low-frequency components and the high-frequency transformation parameters including a set of parameters from a stateless matrix to multiply high-frequency components of the base signals with the high-frequency transformation parameters to produce multiplied high-frequency components; the first presentation being provided for loudspeaker playback and the second presentation being provided for headphone playback, or vice versa; Y

(c) combining said base signals and said transformation parameters to form said data stream.

2. The method according to claim 1,

wherein said multi-tap convolution matrix parameters are indicative of a finite impulse response (FIR) filter; me

wherein said multi-tap convolution matrix parameters include at least one coefficient having complex values.

The method according to any preceding claim, wherein said base signals are divided into a series of time slots, and transformation parameters are provided for each time slot.

4. The method according to any preceding claim, wherein

providing the base signals comprises determining the base signals from audio channels or objects using first delivery parameters;

the method comprises determining desired output signals for the second presentation from the audio channels or objects using second delivery parameters; Y

providing the transformation parameters comprises determining the transformation parameters by minimizing a deviation of the output signals from the desired output signals.

The method of claim 4, wherein determining the transformation parameters comprises determining subband domain base signals for a number B of frequency bands using an encoder filter bank;

determining desired subband domain output signals for the frequency bands using the encoder filter bank; Y

determining a same set of multi-tap convolution matrix parameters for at least two adjacent frequency bands of the B frequency bands.

6. The method according to claim 5, wherein

the filter bank of the encoder comprises a hybrid filter bank providing low-frequency bands of the B frequency bands having a higher frequency resolution than the high-frequency bands of the B frequency bands; Y

the at least two adjacent frequency bands are low frequency bands.

7. A decoder for decoding an encoded audio signal, the encoded audio signal including: a first display including base audio signals intended for reproduction of the encoded audio signal in a first audio display format; Y

transformation parameters, to transform said audio base signals into said first audio format presentation, in output signals of a second presentation format; said transformation parameters comprising specified high-frequency transformation parameters for an upper frequency band and specified low-frequency transformation parameters for a lower frequency band, said low-frequency transformation parameters including multi-tap convolution matrix parameters and the high-frequency transformation parameters including a set of parameters of a stateless matrix, the first presentation format being provided for playback on loudspeakers and the second presentation format being provided for playback on headphones, or vice versa,

including decoder:

a first separation unit for separating the audio base signals, and the transformation parameters, a matrix multiplication unit for applying said multi-tap convolution matrix parameters to low-frequency components of the audio base signals, to apply a convolution to the low-frequency components, producing convolved low-frequency components;

a scalar multiplication unit for applying said high-frequency transformation parameters to high-frequency components of the audio base signals to produce scalar high-frequency components; Y

an output filter bank for combining said convoluted low frequency components and said scalar high frequency components to produce a time domain output signal of said second presentation format.

The decoder according to claim 7, further comprising filters for separating the audio base signals into said low frequency components and said high frequency components.

9. A method for decoding an encoded audio signal, the encoded audio signal including: a first display including base audio signals intended for reproduction of the encoded audio signal in a first audio display format; Y

transformation parameters, for transforming said audio base signals in said first presentation format, into output signals of a second presentation format; said transformation parameters comprising specified high-frequency transformation parameters for an upper frequency band and specified low-frequency transformation parameters for a lower frequency band, said low-frequency transformation parameters including multi-tap convolution matrix parameters and the high-frequency transformation parameters including a set of parameters of a stateless matrix, the first presentation format being provided for playback on loudspeakers and the second presentation format being provided for playback on headphones, or vice versa,

The procedure includes the stages of:

convolving low-frequency components of the audio base signals with the low-frequency transform parameters to produce convoluted low-frequency components; multiplying high-frequency components of the audio base signals with the high-frequency transform parameters to produce multiplied high-frequency components;

combining said convoluted low-frequency components and said multiplied high-frequency components to produce output audio signal frequency components for the second presentation format.

The method of claim 9, wherein said encoded audio signal comprises multiple time slots, and said convolution of low-frequency components of the audio base signals includes the steps of:

interpolating transformation parameters of multiple time segments of the encoded audio signal to produce interpolated transformation parameters, including interpolated low-frequency transformation parameters; Y

convolving multiple time slots of the low-frequency components of the audio base signals with the interpolated low-frequency transform parameters, to produce multiple time slots of said convolved low-frequency components.

The method according to claim 9, wherein the transformation parameters of said encoded audio signal are variable in time, and said convolution of the low-frequency components of the audio base signals includes the steps of:

convolving the low-frequency components of the audio base signals with the low-frequency transform parameters for multiple time slots to produce multiple sets of intermediate convolved low-frequency components; and

interpolating the multiple sets of intermediate convolved low-frequency components, to produce said convolved low-frequency components.

The method according to claim 10 or 11, wherein said interpolation uses a method of overlapping and adding, of the multiple sets of intermediate convoluted low-frequency components.

The method according to any one of claims 9 to 12, further comprising filtering the audio base signals at said low frequency components and said high frequency components.

14. A non-computer-readable transient storage medium, including program instructions for operating a computer, according to the method of any of claims 1 to 6, or 9 to 13.